IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 深▲せん▼市商▲湯▼科技有限公司の特許一覧

特表2022-521614画像処理方法及び装置、電子デバイス並びに記憶媒体
<>
  • 特表-画像処理方法及び装置、電子デバイス並びに記憶媒体 図1
  • 特表-画像処理方法及び装置、電子デバイス並びに記憶媒体 図2
  • 特表-画像処理方法及び装置、電子デバイス並びに記憶媒体 図3
  • 特表-画像処理方法及び装置、電子デバイス並びに記憶媒体 図4
  • 特表-画像処理方法及び装置、電子デバイス並びに記憶媒体 図5
  • 特表-画像処理方法及び装置、電子デバイス並びに記憶媒体 図6
  • 特表-画像処理方法及び装置、電子デバイス並びに記憶媒体 図7
  • 特表-画像処理方法及び装置、電子デバイス並びに記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-11
(54)【発明の名称】画像処理方法及び装置、電子デバイス並びに記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220404BHJP
   G06N 3/08 20060101ALI20220404BHJP
   G06N 20/00 20190101ALI20220404BHJP
【FI】
G06T7/00 350C
G06N3/08
G06N20/00 130
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021549789
(86)(22)【出願日】2019-09-25
(85)【翻訳文提出日】2021-08-25
(86)【国際出願番号】 CN2019107854
(87)【国際公開番号】W WO2020237937
(87)【国際公開日】2020-12-03
(31)【優先権主張番号】201910441976.5
(32)【優先日】2019-05-24
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
(71)【出願人】
【識別番号】519453342
【氏名又は名称】深▲せん▼市商▲湯▼科技有限公司
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 201, Building A, No. 1, Qianwan Road, Qianhai Shenzhen-Hongkong Modern Service Industry Cooperation Zone Shenzhen, Guangdong 518000 (CN)
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】李承翰
(72)【発明者】
【氏名】▲劉▼子▲緯▼
(72)【発明者】
【氏名】▲呉▼凌云
(72)【発明者】
【氏名】▲羅▼平
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA02
5L096FA06
5L096FA69
5L096GA38
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
本開示は、画像処理方法及び装置、電子デバイス並びに記憶媒体に関する。当該方法は、第一の画像から抽出されたカラー特徴を取得することと、前記第一の画像内の前記カラー特徴の領域位置を指定するためのカスタマイズされたマスク特徴を取得することと、前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集して第二の画像を取得することと、を含む。本開示によれば、顔属性に対する編集は、顔つきのより多くの変化及びより多くの自由度の編集ニーズを満たす。
【特許請求の範囲】
【請求項1】
画像処理方法であって、
第一の画像から抽出されたカラー特徴を取得することと、
前記第一の画像内の前記カラー特徴の領域位置を指定するための、カスタマイズされたマスク特徴を取得することと、
前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集し、第二の画像を取得することと、を含む、前記画像処理方法。
【請求項2】
前記特徴マッピングネットワークは、トレーニングされた特徴マッピングネットワークであり、
前記特徴マッピングネットワークのトレーニングプロセスは、
第一の画像データと第一の画像データに対応するマスク特徴で構成されたデータペアをトレーニングデータセットとして決定することと、
前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特徴マッピングネットワークが収束したときに前記トレーニングプロセスを終了することと、を含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得することは、
前記少なくとも1つのブロックのカラー特徴と対応するマスク特徴を前記特徴マッピングネットワークにおける特徴融合符号化モジュールに入力することと、
前記特徴融合符号化モジュールにより、第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供される空間特徴を融合し、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得することと、
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することと、を含むことを特徴とする
請求項2に記載の方法。
【請求項4】
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することは、
前記画像融合特徴を前記画像生成モジュールに入力し、前記画像生成モジュールによって前記画像融合特徴を、第一のパラメータと第二のパラメータを含む、対応するアフィンパラメータに変換することと、
前記対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータを取得することと、
前記第一のパラメータ、前記第二のパラメータ及び前記第三のパラメータに基づいて前記第二の画像データを取得することと、を含むことを特徴とする
請求項3に記載の方法。
【請求項5】
前記方法はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することを含むことを特徴とする
請求項2~4のいずれか一項に記載の方法。
【請求項6】
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することは、
前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得することであって、前記第二のマスク特徴が前記第一のマスク特徴と異なる、ことと、
マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得することであって、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低い、ことと、
前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得することと、
マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換することと、を含むことを特徴とする
請求項5に記載の方法。
【請求項7】
前記方法はさらに、顔編集処理に対してシミュレーショントレーニングを行うプロセスを含み、
前記シミュレーショントレーニングプロセスは、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得することと、
前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得することと、
前記2つの画像データを融合した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記シミュレーショントレーニングプロセスを終了することと、を含むことを特徴とする
請求項5に記載の方法。
【請求項8】
画像処理装置であって、
第一の画像から抽出されたカラー特徴を取得するように構成される第一の特徴取得モジュールと、
前記第一の画像内の前記カラー特徴の領域位置を指定するためのカスタマイズされたマスク特徴を取得するように構成される第二の特徴取得モジュールと、
前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集し、第二の画像を取得するように構成される編集モジュールと、を備える、前記画像処理装置。
【請求項9】
前記特徴マッピングネットワークは、トレーニングされた特徴マッピングネットワークであり、
前記装置はさらに、
第一の画像データと第一の画像データに対応するマスク特徴で構成されたデータペアをトレーニングデータセットとして決定するように構成される第一の処理モジュールと、
前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記特徴マッピングネットワークのトレーニングプロセスを終了するように構成される第二の処理モジュールと、を備えることを特徴とする
請求項8に記載の装置。
【請求項10】
前記第二の処理モジュールはさらに、
前記少なくとも1つのブロックのカラー特徴と対応するマスク特徴を前記特徴マッピングネットワークにおける特徴融合符号化モジュールに入力し、
前記特徴融合符号化モジュールにより、第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供される空間特徴を融合し、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得し、
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得するように構成されることを特徴とする
請求項9に記載の装置。
【請求項11】
前記第二の処理モジュールはさらに、
前記画像融合特徴を画像生成モジュールに入力し、前記画像生成モジュールによって前記画像融合特徴を、第一のパラメータと第二のパラメータを含む、対応するアフィンパラメータに変換し、
前記対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータを取得し、
前記第一のパラメータ、前記第二のパラメータ及び前記第三のパラメータに基づいて前記第二の画像データを取得するように構成されることを特徴とする
請求項10に記載の装置。
【請求項12】
前記装置はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得するように構成される第三の処理モジュールを備えることを特徴とする
請求項9~11のいずれか一項に記載の装置。
【請求項13】
前記第三の処理モジュールはさらに、
前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得し、前記第二のマスク特徴が前記第一のマスク特徴と異なり、
マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得し、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低く、
前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得し、
マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換するように構成されることを特徴とする
請求項12に記載の装置。
【請求項14】
前記装置はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得し、
前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得し、
前記2つの画像データを融合した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特徴マッピングネットワークが収束したときに顔編集処理に対するシミュレーショントレーニングプロセスを終了するように構成される第四の処理モジュールを備えることを特徴とする
請求項12に記載の装置。
【請求項15】
電子デバイスであって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
ここで、前記プロセッサは請求項1~7のいずれか一項に記載の方法を実行するように構成される、前記電子デバイス。
【請求項16】
コンピュータプログラム命令を記憶しているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されるときに請求項1~7のいずれか一項に記載の方法が実現される、前記コンピュータ可読記憶媒体。
【請求項17】
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子デバイスで実行されるときに、前記電子デバイス内のプロセッサが請求項1~7のいずれか一項に記載の方法を実行するように構成される、前記コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は2019年5月24日に中国特許庁に提出された、出願番号が201910441976.5で、発明名称が「画像処理方法及び装置、電子デバイス並びに記憶媒体」である中国特許出願の優先権を主張し、その内容が参照により本出願に組み込まれる。
【0002】
本開示は、画像編集分野に関し、特に画像処理方法及び装置、電子デバイス並びに記憶媒体に関する。
【背景技術】
【0003】
画像処理では、顔属性に対するモデリング及び修正は、常にコンピュータビジョンにおいて長期的に注目される問題である。顔属性は、ユーザの日常生活の中の支配的な視覚属性である一方で、顔属性への操作は、多くの分野で自動顔編集などの重要なアプリケーションがある。しかしながら、顔属性に対する編集ではより多くの属性変更がサポートされないがユーザのインタラクティブな属性カスタマイズがサポートされていないため、顔つき編集の自由度が低く、顔つきが限られた範囲内で変化し、顔つきのより多くの変化とより多くの自由度の編集ニーズを満たしていない。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示は画像処理技術的解決策を提供する。
【0005】
本開示の一態様による画像処理方法は、
第一の画像から抽出されたカラー特徴を取得することと、
前記第一の画像内の前記カラー特徴の領域位置を指定するためのカスタマイズされたマスク特徴を取得することと、
前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集して第二の画像を取得することと、を含む。
【0006】
本開示によれば、カラー特徴、及び第一の画像内のカラー特徴の領域位置を指定するための、マスク特徴(カスタマイズされたマスク特徴)に対して、特徴マッピングネットワークによって画像属性を編集することにより、より多くの属性変更及びユーザのインタラクティブな属性カスタマイズをサポートすることができ、編集された第二の画像は顔つきのより多くの変化とより多くの自由度の編集ニーズを満たす。
【0007】
可能な実施形態では、前記特徴マッピングネットワークは、トレーニングされた特徴マッピングネットワークであり、
前記特徴マッピングネットワークのトレーニングプロセスは、
第一の画像データと第一の画像データに対応するマスク特徴で構成されたデータペアをトレーニングデータセットとして決定することと、
前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特徴マッピングネットワークが収束したときに前記トレーニングプロセスを終了することと、を含む。
【0008】
本開示によれば、第一の画像データと第一の画像データに対応するマスク特徴で構成されたデータペアを入力し、特徴マッピングネットワークをトレーニングし、トレーニングされた特徴マッピングネットワークによって画像属性を編集することにより、より多くの属性変更及びユーザのインタラクティブな属性カスタマイズをサポートすることができ、編集された第二の画像は顔つきのより多くの変化とより多くの自由度の編集ニーズを満たす。
【0009】
可能な実施形態では、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得することは、
前記少なくとも1つのブロックのカラー特徴と対応するマスク特徴を前記特徴マッピングネットワークにおける特徴融合符号化モジュールに入力することと、
前記特徴融合符号化モジュールにより、第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供される空間特徴を融合し、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得することと、
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することと、を含む。
【0010】
本開示によれば、第一の画像データから提供されるカラー特徴と対応するマスク特徴を特徴融合符号化モジュールに入力することにより、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得することができ、画像融合特徴が空間認識及びカラー特徴を兼ね備えているため、当該画像融合特徴と対応するマスク特徴及び画像生成モジュールに基づき、取得された第二の画像は顔つきのより多くの変化及びより多くの自由度の編集ニーズを満たす。
【0011】
可能な実施形態では、前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することは、
前記画像融合特徴を前記画像生成モジュールに入力し、前記画像生成モジュールによって前記画像融合特徴を、第一のパラメータと第二のパラメータを含む、対応するアフィンパラメータに変換することと、
前記対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータを取得することと、
前記第一のパラメータ、前記第二のパラメータ及び前記第三のパラメータに基づいて前記第二の画像データを取得することと、を含む。
【0012】
本開示によれば、画像融合特徴に基づいて対応するアフィンパラメータ(第一のパラメータと第二のパラメータ)を取得し、さらに対応するマスク特徴に基づいて取得された第三のパラメータを組み合わせることにより、第二の画像データを取得することができ、画像融合特徴を考慮し且つさらに対応するマスク特徴を組み合わせてトレーニングするため、取得された第二の画像はより多くの顔つきのより多くの変化をサポートすることができる。
【0013】
可能な実施形態では、前記方法はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することを含む。
【0014】
本開示によれば、マスク変分符号化モジュールによりサブマスク変化量を取得することができ、それによって当該サブマスク変化量に基づいて学習すると、顔編集処理に対してシミュレーショントレーニングをより良く行うことができる。
【0015】
可能な実施形態では、前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することは、
前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得することであって、前記第二のマスク特徴が前記第一のマスク特徴と異なる、ことと、
マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得し、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低いことと、
前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得することと、
マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換することと、を含む。
【0016】
本開示によれば、マスク変分符号化モジュールの符号化処理及びデコード処理により、当該2つのサブマスク変化量を取得することができ、それによって当該サブマスク変化量によって顔編集処理に対してシミュレーショントレーニングをより良く行うことができる。
【0017】
可能な実施形態では、前記方法はさらに、顔編集処理に対してシミュレーショントレーニングを行うプロセスを含み、
前記シミュレーショントレーニングプロセスは、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得することと、
前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得することと、
前記2つの画像データを融合した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記シミュレーショントレーニングプロセスを終了することと、を含む。
【0018】
本開示によれば、顔編集処理に対してシミュレーショントレーニングを行うプロセスでは、取得された2つのサブマスク変化量を1グループの重みを共有する特徴マッピングネットワークにそれぞれ入力することにより、生成された第二の画像データを取得することができ、当該第二の画像データと第一の画像データ(実世界の真の画像データ)を損失させることにより、顔編集処理の精度を、真の画像データに近づけるまで向上させることができ、それによってマスク特徴をカスタマイズして生成された第二の画像データは顔つきのより多くの変化とより多くの自由度の編集ニーズをよりよく満たすことができることに便利である。
【0019】
本開示の一態様による画像処理装置は、
第一の画像から抽出されたカラー特徴を取得するように構成される第一の特徴取得モジュールと、
前記第一の画像内の前記カラー特徴の領域位置を指定するためのカスタマイズされたマスク特徴を取得するように構成される第二の特徴取得モジュールと、
前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集して第二の画像を取得するように構成される編集モジュールと、を備える。
【0020】
可能な実施形態では、前記特徴マッピングネットワークは、トレーニングされた特徴マッピングネットワークであり、
前記装置はさらに、
第一の画像データと第一の画像データに対応するマスク特徴で構成されたデータペアをトレーニングデータセットとして決定するように構成される第一の処理モジュールと、
前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記特徴マッピングネットワークのトレーニングプロセスを終了するように構成される第二の処理モジュールと、を備える。
【0021】
可能な実施形態では、前記第二の処理モジュールはさらに、
前記少なくとも1つのブロックのカラー特徴と対応するマスク特徴を前記特徴マッピングネットワークにおける特徴融合符号化モジュールに入力し、
前記特徴融合符号化モジュールにより前記第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供される空間特徴を融合し、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得し、
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得するように構成される。
【0022】
可能な実施形態では、前記第二の処理モジュールはさらに、
前記画像融合特徴を前記画像生成モジュールに入力し、前記画像生成モジュールによって前記画像融合特徴を、第一のパラメータと第二のパラメータを含む、対応するアフィンパラメータに変換し、
前記対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータを取得し、
前記第一のパラメータ、前記第二のパラメータ及び前記第三のパラメータに基づいて前記第二の画像データを取得するように構成される。
【0023】
可能な実施形態では、前記装置はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得するように構成される第三の処理モジュールを備える。
【0024】
可能な実施形態では、前記第三の処理モジュールはさらに、
前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得し、前記第二のマスク特徴が前記第一のマスク特徴と異なり、
マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得し、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低く、
前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得し、
マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換するように構成される。
【0025】
可能な実施形態では、前記装置はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得し、
前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得し、
前記2つの画像データを融合した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特徴マッピングネットワークが収束したときに顔編集処理に対するシミュレーショントレーニングプロセスを終了するように構成される第四の処理モジュールを備える。
【0026】
本開示の一態様による電子デバイスは、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
ここで、前記プロセッサは上記画像処理方法を実行するように構成される。
【0027】
本開示の一態様によれば、コンピュータプログラム命令を記憶し、前記コンピュータプログラム命令がプロセッサに実行されるときに上記画像処理方法が実現されるコンピュータ可読記憶媒体が提供される。
【0028】
本開示では、第一の画像から抽出されたカラー特徴を取得し、前記第一の画像内の前記カラー特徴の領域位置を指定するためのカスタマイズされたマスク特徴を取得し、前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集して第二の画像を取得する。本開示によれば、カスタマイズされたマスク特徴によって第一の画像内のカラー特徴の領域位置を指定することができ、より多くの属性変更及びユーザのインタラクティブな属性カスタマイズがサポートされているため、特徴マッピングネットワークによって画像属性を編集して取得された第二の画像は、顔つきのより多くの変化とより多くの自由度の編集ニーズを満たす。
【0029】
以上の一般的な説明及び以下の詳細な説明が本開示を限定するものではなく、例示的かつ説明的なものに過ぎないことを理解すべきである。
【0030】
以下の図面を参照する例示的な実施例の詳細な説明によれば、本開示の他の特徴及び態様が明らかになる。
【図面の簡単な説明】
【0031】
図1】本開示の実施例による画像処理方法のフローチャートである。
図2】本開示の実施例による画像処理方法のフローチャートである。
図3】本開示の実施例による第一のトレーニングプロセスの概略図である。
図4】本開示の実施例による高密度マッピングネットワークの構成図である。
図5】本開示の実施例による第二のトレーニングプロセスの概略図である。
図6】本開示の実施例による画像処理装置のブロック図である。
図7】本開示の実施例による電子デバイスのブロック図である。
図8】本開示の実施例による電子デバイスのブロック図である。
【発明を実施するための形態】
【0032】
ここでの図面は明細書に組み込まれて明細書の一部を構成する。これらの図面は、本開示に準拠する実施例を示し、本開示の技術的解決策を説明するために明細書とともに用いられる。
【0033】
以下に図面を参照しながら本開示の様々な例示的な実施例、特徴と態様を詳細に説明する。図面における同じ符号は同じ又は類似の機能を持つ素子を表す。実施例の様々な態様が図面に示されているが、特に断りのない限り、図面は必ずしも一定の縮尺で描かれているわけではない。ここでの「例示的」という専用の単語は、「例、実施例又は例示として機能する」を意味する。ここで「例示的」として説明されるいかなる実施例は他の実施例よりも良く又は優れていると解釈される必要がない。
【0034】
本明細書で用語「及び/又は」は、関連オブジェクトを説明するための関連関係だけであり、3種類の関係が存在できることを表し、例えば、A及び/又はBは、Aが単独で存在すること、AとBが同時に存在すること、Bが単独で存在するという3種類の状況を表すことができる。また、本明細書で「少なくとも1つ」という用語は、複数の任意の1つ、又は複数の少なくとも2つの任意の組み合わせを表し、例えばA、B、Cの少なくとも1つを含むことは、A、BとCで構成されたセットから選択されたいずれか1つ又は複数の要素を含むことを表すことができる。
【0035】
また、本開示をより良く説明するために、以下の具体的な実施形態では多くの具体的な詳細が示される。当業者は、いくつかの具体的な詳細がなくても、本開示が実施されてもよいことを理解すべきである。いくつかの実施例では、本開示の要旨を強調するように、当業者によく知られている方法、手段、素子と回路について詳細に説明しない。
【0036】
顔属性に対するモデリング及び修正は、常にコンピュータビジョンにおいて長期的に注目される問題である。顔属性は、人々の日常生活の中の支配的な視覚属性である一方で、顔属性への操作は、多くの分野で自動顔編集などの重要なアプリケーションがある。しかしながら、顔属性編集作業のほとんどは、主に髪の毛又は肌の色に対する編集などのセマンティックレベルの属性編集に注目し、且つセマンティックレベルの属性編集の自由度がわずかであるため、多くの変化とインタラクティブな顔編集を行うことができない。本開示は顔属性の幾何学的方位に基づいて顔をインタラクティブに編集することができる技術的解決策である。幾何学的方位とは簡単に画像内のある領域位置の調整を指し、例えば画像内の顔が笑っていないと、その領域位置を調整することで、一枚の笑顔画像を取得することができ、これは領域位置の調整である。
【0037】
図1は本開示の実施例による画像処理方法のフローチャートである。当該画像処理方法は画像処理装置に応用され、例えば、画像処理装置が端末装置又はサーバー又は他の処理装置によって実行されてもよく、ここで、端末装置がユーザ装置(UE:User Equipment)、移動装置、セルラー電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載デバイス、ウェアラブルデバイスなどであってもよい。いくつかの可能な実施形態では、当該画像処理方法はプロセッサでメモリに記憶されたコンピュータ可読命令を呼び出することで実現されてもよい。図1に示すように、当該プロセスは次のステップを含む。
【0038】
ステップS101において、第一の画像から抽出されたカラー特徴を取得する。
【0039】
顔属性編集には、セマンティックレベルの属性編集、及び幾何学的方位レベルの属性編集が含まれてもよい。ここで、セマンティックレベルの属性編集の場合、例えば、髪の色、肌の色、化粧のメイクなどがある。幾何学的方位レベルの属性編集の場合、例えば、カスタマイズされた輪郭(shape)、髪の毛の位置、表情が笑っているか否か、図4におけるマスク特徴Msrcがある。
【0040】
ステップ102において、前記第一の画像内の前記カラー特徴の領域位置を指定するための、カスタマイズされたマスク特徴(図4のマスク特徴Msrc)を取得する。
【0041】
ステップS103において、前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワーク(例えば高密度マッピングネットワーク)に入力して画像属性を編集して第二の画像を取得する。
【0042】
本開示では、カラー特徴は画像のセマンティック属性を表す。セマンティック属性は髪の色、肌の色、化粧のメイクなどの画像属性の具体的なコンテンツを表す。マスク特徴は画像内のカラー特徴の指定された領域位置又は呼ばれる領域輪郭(Shape)を識別することに用いられる。マスク特徴は、データセットにおける既存の特徴を用いることができ、データセットにおける既存の特徴に基づいて「カスタマイズされたマスク特徴」と呼ばれるカスタム編集を行うことができ、即ち、ユーザの構成に応じて画像内のカラー特徴の領域位置を指定することができる。マスク特徴は画像の幾何学的属性を表す。幾何学的属性は、顔画像内の髪の毛の位置、表情が笑っているか否かなどの画像属性の位置を表す。例えば、本開示で図4におけるマスク特徴Msrcは当該カスタマイズされたマスク特徴である。特徴マッピングネットワークは、ターゲット画像(第一の画像)のカラー特徴とカスタマイズされたマスク特徴(画像属性編集にいくつかの幾何学的属性が追加され、即ち第一の画像の領域形状及び/又は位置を変更させるために、第二の画像に、第一の画像の表情が笑っているが、変更された後の表情が第二の画像に笑っていないことなどのカスタム編集を行う)を高密度マッピングに形成させ、ユーザが望む任意のカスタマイズされた顔画像を取得することに用いられる。特徴マッピングネットワークは、高密度マッピングネットワークをトレーニングした後に取得されたトレーニング済み高密度マッピングネットワークであってもよい。本開示によれば、顔属性編集では、マスク特徴がユーザの構成に応じてカスタマイズされて編集されてもよく、顔編集により多くの属性変更が追加され、ユーザがインタラクティブ方式で属性をカスタマイズすることがサポートされ、既存の属性の使用に限定されなく、したがって、顔つきの編集自由度が向上し、当該カスタマイズされたマスクに基づいて必要なターゲット画像を取得する。顔つきの変化は普及性を有し、適用範囲がより広く、顔つきのより多くの変化とより多くの自由度の編集ニーズを満たす。
【0043】
図2は本開示の実施例による画像処理方法のフローチャートである。図2に示すように、前記方法は次のステップを含む。
【0044】
ステップS201において、入力されたデータペア(第一の画像データと対応する第一の画像データのマスク特徴)に基づいて特徴マッピングネットワークをトレーニングし、トレーニング済み特徴マッピングネットワークを取得する。
【0045】
前記特徴マッピングネットワークに対するトレーニングプロセスは、第一の画像データと対応する第一の画像データのマスク特徴で構成されたデータペアをトレーニングデータセットとして決定することと、前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データ(即ち、生成された第二の画像データと異なり、実世界の真の画像データである)に基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記トレーニングプロセスを終了することと、を含む。
【0046】
図3は本開示の実施例による第一のトレーニングプロセスの概略図である。図3に示すように、トレーニングのStage I段階(高密度マッピングネットワークのトレーニング)で、データペアを特徴マッピングネットワーク(例えば高密度マッピングネットワーク)11に入力し、データペアが複数であり、複数のデータペアが当該特徴マッピングネットワーク(高密度マッピングネットワーク)をトレーニングするためのトレーニングデータセットを構成する。本明細書では説明を簡略化するために、「複数」が強調されていない。データペアは第一の画像データ(例えばI)と第一の画像データに対応するマスク特徴(M)で構成される。例えば、トレーニングデータセットを高密度マッピングネットワークに入力し、高密度マッピングネットワークにおいて第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データ(例えばIout)を出力して取得し、生成された第二の画像データを弁別器12に入力して敵対的生成を行い、即ち第二の画像データと第一の画像データに基づいて損失関数を取得し、損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに高密度マッピングネットワークのトレーニングプロセスを終了する。
【0047】
ステップS202において、第一の画像から抽出されたカラー特徴を取得する。
【0048】
顔属性編集には、セマンティックレベルの属性編集、及び幾何学的方位レベルの属性編集が含まれてもよい。ここで、セマンティックレベルの属性編集の場合、例えば、髪の色、肌の色、化粧のメイクなどがある。幾何学的方位レベルの属性編集の場合、例えば、カスタマイズされた輪郭(shape)、髪の毛の位置、表情が笑っているか否か、図4におけるマスク特徴Msrcがある。
【0049】
ステップS203において、前記第一の画像内の前記カラー特徴の領域位置を指定するための、カスタマイズされたマスク特徴(図4のマスク特徴Msrc)を取得する。
【0050】
ステップS204において、前記カラー特徴と前記カスタマイズされたマスク特徴をトレーニングされた特徴マッピングネットワーク(例えばトレーニングされた高密度マッピングネットワーク)に入力して画像属性を編集して第二の画像を取得する。
【0051】
本開示によれば、高密度マッピングネットワークにより、トレーニングと学習を通じてターゲット画像のブロックカラースタイルを対応するマスクに投射させる。当該高密度マッピングネットワークは、ユーザに1つの編集プラットフォームを提供し、ユーザがマスクを編集して顔つきを変化させることができるようにし、より大きな編集自由度を有し、且つ多くの変更及びインタラクティブな顔編集を行うことができる。トレーニング及び学習に用いられるトレーニングデータセットは、大規模な顔マスクデータセットであり、従来のデータセットよりも多くのカテゴリと大きなオーダーがあり、当該データセットにおけるマークされたピクセルレベルは512x512で合計30000グループであり、合計19種類のカテゴリがあり、全ての顔部品及びアクセサリーを含む。
【0052】
本開示の可能な実施形態では、特徴マッピングネットワークにおいて第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得することは、少なくとも1つのブロックのカラー特徴と対応するマスク特徴を特徴マッピングネットワークにおける特徴融合符号化モジュールに入力することを含む。前記特徴融合符号化モジュールにより、前記第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供される空間特徴を融合し、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得し、当該画像融合特徴と当該対応するマスク特徴を画像生成モジュールに入力し、第二の画像データを取得することを含む。ここで、空間特徴及びカラー特徴を特徴付けるための前記画像融合特徴は、画像から提供されるカラー特徴及びマスク特徴から提供される空間特徴を融合することで生成された、空間特徴とカラー特徴を兼ね備えている画像融合特徴である。一例では、マスク特徴は画像におけるあるカラーの具体的な領域位置を示すことに用いられてもよく、例えば、髪の色特徴が金色であるため、この金色が画像のどの領域位置に位置するかを、マスク特徴により知り、その後当該カラー特徴(金色)と対応する領域位置を融合させ、それによって画像の当該領域における金色が充填されている髪を得ることができる。
【0053】
本開示の可能な実施形態では、前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することは、当該画像融合特徴を画像生成モジュールに入力し、画像生成モジュールにより当該画像融合特徴を、第一のパラメータ(図4のX)と第二のパラメータ(図4のY)を含む、対応するアフィンパラメータに変換することを含む。対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータ(図4のZ)を取得する。第一のパラメータ、第二のパラメータと第三のパラメータに基づいて前記第二の画像データを取得する。
【0054】
1つの例では、特徴マッピングネットワークは高密度マッピングネットワークであり、特徴融合符号化モジュールは空間認識カラースタイルエンコーダであり、画像生成モジュールは映像生成バックボーンである。図4は本開示の実施例による高密度マッピングネットワークの構成図である。図4に示すように、当該ネットワークには、空間認識カラースタイルエンコーダ111と映像生成バックボーン112の2つのサブデバイスが含まれ、空間認識カラースタイルエンコーダ111にも空間特徴変換層1111が含まれる。ここで、空間認識カラースタイルエンコーダ111は画像空間特徴を特徴付けるためのマスク特徴とカラー特徴を融合させることに用いられる。言い換えると、空間認識カラースタイルエンコーダ111は、空間特徴変換層1111を用いて画像から提供されるカラー特徴及びマスク特徴から提供される空間特徴を融合させて画像融合特徴を生成する。具体的には、マスク特徴は画像におけるあるカラーの具体的な領域位置を示すことに用いられ、例えば、髪の色が金色であると、この金色が画像のどの領域位置に位置するかを、マスク特徴により知ることができ、その後当該カラー特徴(金色)と対応する領域位置を融合させ、それによって画像における金色の髪を得ることができる。映像生成バックボーン112はマスク特徴とアフィンパラメータを組み合わせて入力パラメータとして用い、対応して生成された顔画像Ioutを取得することに用いられる。言い換えると、映像生成バックボーン112は、適応可能な実列正規化を用いて当該画像融合特徴をそのアフィンパラメータ(X、Y)に変換し、その結果、入力されたマスク特徴がカラー特徴を受け、それによって対応する顔映像が生成され、最終的なターゲット写真のカラー特徴と入力されたマスクが高密度マッピングを形成することができる。
【0055】
ここで、図4のパラメータ「AdaIN Parameters」は、トレーニングデータセットを高密度マッピングネットワークに入力することにより得られたパラメータ、例えば、It及びMtを入力した後、空間特徴変換層11によって得られたパラメータである。AdaIN Parametersは(X、Y、Z)であってもよく、図4の矢印に対応する4つのブロックによって示されるように、X、Yは、アフィンパラメータであり、Ziは入力されたマスク特徴Mから映像生成バックボーン112によって生成された特徴である。最終、上述したIとMを入力して空間特徴変換層1111により得られたアフィンパラメータX、Y、及び入力されたマスク特徴Mから生成された特徴Zに基づき、最終的な出力ターゲット画像Ioutを取得する。敵対的生成モデルでは、ジェネレーターによって生成されたIoutと真の画像がディスクリミネーターで判別され、確率が1であると真であり、ディスクリミネーターが生成された画像と真の画像を区別できないことを示す。確率が0であると、ディスクリミネーターが、生成された画像が真の画像ではないことを区分でき、つまり、トレーニングを継続する必要があることを示す。
【0056】
本開示の可能な実施形態では、前記方法はさらに前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することを含む。
【0057】
本開示の可能な実施形態では、前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することは、前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得することであって、前記第二のマスク特徴が前記第一のマスク特徴と異なる、ことと、マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得することであって、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低い、ことと、前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得する。マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換することと、を含む。
【0058】
1つの例では、マスク変分符号化モジュールのハードウェアは、マスク変分オートエンコーダー10として実現されてもよく、トレーニングデータセットにおける、第一の画像データに対応するマスク特徴M
マスク変分オートエンコーダー10に入力してトレーニングし、2つのサブマスク変化量MinterとMouterを出力して取得する。ここで、マスク変分オートエンコーダーは、エンコーダーとデコーダーの2つのサブデバイスを含む。トレーニングデータセットから第一のマスク特徴Mと第二のマスク特徴Mrefを取得し、MrefとMが全てトレーニングデータセットから抽出されたマスク特徴であり且つ両方が異なる。マスク変分オートエンコーダー10のエンコーダーによって符号化し、第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数Zと第二の中間変数Zrefを取得し、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低い。前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数、即ちZinterとZouterを取得する。マスク変分オートエンコーダー10のデコーダーによってデコードし、2つの第三の中間変数を前記2つのサブマスク変化量、即ちMinterとMouterに変換する。マスク変分オートエンコーダー10によって実行される上記処理プロセスは、次の式(1)~式(6)に対応する。
【0059】
第一:初期化段階で、高密度マッピングネットワーク
【0060】
【化1】
【0061】
をトレーニングし、マスク変分オートエンコーダーのエンコーダー
【0062】
【化2】
【0063】
とデコーダー
【0064】
【化3】
【0065】
をトレーニングする。
【0066】
第二:入力パラメータは画像I、第一のマスク特徴M、第二のマスク特徴Mrefである。
【0067】
第三:マスク変分オートエンコーダー10によって実行される具体的な処理プロセスにより、2つのサブマスク変化量、即ちMinterMouterを取得する。
【0068】
【化4】
【0069】
上記式では、
【0070】
【化5】
【0071】
がトレーニングデータセットからMとIを選択して構成されたデータペアであり、Mが第一のマスク特徴であり、Mrefが第二のマスク特徴であり、MrefとMがすべてトレーニングデータセットから抽出されたマスク特徴であり且つ両方が異なり、Zが第一の中間変数であり、Zrefが第二の中間変数であり、MとMrefを予め設定された特徴空間にそれぞれマッピングして取得された2つの中間変数であり、これにより、ZとZrefに基づいて2つの第三の中間変数ZinterとZouterを取得し、ZinterとZouterによって2つのサブマスク変化量MinterとMouterを取得することができる。
【0072】
第四:出力パラメータは、入力されたパラメータに基づいて対応して生成された顔画像IinterとIouter、及びアルファブレンダー13によって顔画像を融合することで取得された融合画像Iblendである。その後、融合画像と弁別器12に対して敵対的生成を行い、上記コンテンツ2による上記第一のトレーニングプロセス及び第二のトレーニングプロセスを継続し、
【0073】
【化6】
【0074】
をそれぞれ更新する。
【0075】
本開示の可能な実施形態では、前記方法はさらに、顔編集処理に対してシミュレーショントレーニングを行うプロセスを含む。シミュレーショントレーニングプロセスは、前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得することと、前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得することと、前記2つの画像データを融合(アルファブレンダー)した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記シミュレーショントレーニングプロセスを終了することと、を含む。
【0076】
1つの例では、完全なトレーニングは2つの段階に分かれ、まず高密度マッピングネットワークとマスク変分オートエンコーダーをトレーニングする必要があり、第一の段階で高密度マッピングネットワークを一回更新する。第二の段階で、マスク変分オートエンコーダーによって2つのマスクが変化した後、2つの共有重みを高密度マッピングネットワークとアルファブレンダーに更新する。
【0077】
図5は本開示の実施例による第二のトレーニング段階の概略図である。図5に示すように、トレーニングのStage ll段階(ユーザ編集シミュレーショントレーニング)で、顔編集に対してマスク変化を引き起こす高密度マッピングネットワークのロバスト性を向上させるために用いられる当該トレーニング方法には、マスク変分オートエンコーダー、高密度マッピングネットワークとアルファブレンダーの3つのモジュールが必要である。マスク変分オートエンコーダーはユーザが編集した後のマスクをシミュレートする。高密度マッピングネットワークは、マスクを顔に変換し、ターゲット顔のカラースタイルを当該マスクに投射させる。アルファブレンダーはマスク変分オートエンコーダーによって生成された2グループのシミュレーション編集マスクを高密度ネットワークによって顔に生成してアルファ融合を行う。
【0078】
第一の段階では、まず高密度マッピングネットワークとマスク変分オートエンコーダーをトレーニングし、次に当該高密度マッピングネットワークとマスク変分オートエンコーダーを用いる。マスク変分オートエンコーダーを用い、即ち上記式(1)~式(6)を用い、隠れた空間で線形補間を行うことにより、2つのシミュレートされたマスク変化量(上述した本開示でサブマスク変化量と呼ばれる)を生成する。高密度マッピングネットワークを1回更新してから、この第二の段階で、最初に生成された2つのマスク変化量を用い、重みを共有する2つの高密度マッピングネットワークによって2つの顔をそれぞれ生成し、さらにアルファブレンダーを用いて融合し、融合された結果とターゲット映像を用いて損失計算とネットワーク更新を行うことができる。このようにして、モデル(高密度マッピングネットワークとマスク変分オートエンコーダー)が収束するまで、2つの段階を順番に繰り返す。モデルは、テストされる時に、マスクを大幅に編集した場合でも、顔属性の維持(メイク、性別、ひげなど)の維持を改善できる。
【0079】
当業者は、具体的な実施形態の上記方法において、各ステップの記述順序が厳密な実行順序を意味するものではなく、実施プロセスに何ら限定されるものではなく、各ステップの具体的な実行順序がその機能及び可能な内部ロジックで確定されるべきであることを理解することができる。
【0080】
本開示で言及される上記の各方法の実施例は、原理及び論理に違反することなく、すべて互いに組み合わせられ、組み合わせられた実施例を形成することができ、スペースが限られるため、本開示では詳細な説明を省略する。
【0081】
また、本開示はさらに画像処理装置、電子デバイス、コンピュータ可読記憶媒体、プログラムを提供する。上記のものはいずれも本開示で提供されるいずれかの画像分割方法を実現することに用いられてもよく、対応する技術的解決策及び説明は、方法の部分の対応する記載を参照し、ここでは詳細な説明を省略する。
【0082】
図6は本開示の実施例による画像処理装置のブロック図である。図6に示すように、本開示の実施例の画像処理装置は、第一の画像から抽出されたカラー特徴を取得するように構成される第一の特徴取得モジュール31と、前記第一の画像内の前記カラー特徴の領域位置を指定するためのカスタマイズされたマスク特徴を取得するように構成される第二の特徴取得モジュール32と、前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集して第二の画像を取得するように構成される編集モジュール33とを備える。
【0083】
本開示の可能な実施形態では、前記特徴マッピングネットワークは、トレーニングされた特徴マッピングネットワークである。前記装置はさらに第一の画像データと対応する第一の画像データのマスク特徴で構成されたデータペアをトレーニングデータセットとして決定するように構成される第一の処理モジュールと、前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特ネットワークが収束したときに前記特徴マッピングネットワークのトレーニングプロセスを終了するように構成される第二の処理モジュールと、を備える。
【0084】
本開示の可能な実施形態では、前記第二の処理モジュールはさらに前記少なくとも1つのブロックのカラー特徴と対応するマスク特徴を前記特徴マッピングネットワークにおける特徴融合符号化モジュールに入力し、前記特徴融合符号化モジュールにより、第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供された空間特徴を融合し、画像融合特徴を取得し、画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得するように構成される。
【0085】
本開示の可能な実施形態では、前記第二の処理モジュールはさらに前記画像融合特徴を画像生成モジュールに入力し、前記画像生成モジュールによって前記画像融合特徴を、第一のパラメータと第二のパラメータを含む、対応するアフィンパラメータに変換し、前記対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータを取得し、前記第一のパラメータ、前記第二のパラメータ及び前記第三のパラメータに基づいて前記第二の画像データを取得するように構成される。
【0086】
本開示の可能な実施形態では、前記装置はさらに前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得するように構成される第三の処理モジュールを備える。
【0087】
本開示の実施形態では、前記第三の処理モジュールはさらに前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得し、前記第二のマスク特徴が前記第一のマスク特徴と異なり、マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得し、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低く、前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得し、マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換するように構成される。
【0088】
本開示の可能な実施形態では、前記装置はさらに前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得し、前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得し、前記2つの画像データを融合した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特徴マッピングネットワークが収束したときに顔編集処理に対するシミュレーショントレーニングプロセスを終了するように構成される。
【0089】
いくつかの実施例では、本開示の実施例で提供される装置が有している機能又は備えるモジュールは、上記方法の実施例で説明される方法を実行することに用いられてもよく、その具体的な実施については、上記方法の実施例の説明を参照することができ、簡潔にするために、ここでは詳細な説明を省略する。
【0090】
本開示の実施例ではコンピュータプログラム命令を記憶し、前記コンピュータプログラム命令がプロセッサに実行されると上記方法が実現されるコンピュータ可読記憶媒体が提供される。コンピュータ可読記憶媒体は、非揮発性コンピュータ可読記憶媒体であってもよい。
【0091】
本開示の実施例ではプロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、前記プロセッサが上記方法を実行するように構成される電子デバイスが提供される。
【0092】
電子デバイスは、端末、サーバー又は他の形態のデバイスとして提供されてもよい。
【0093】
図7は一つの例示的な実施例による電子デバイス800のブロック図である。例えば、電子デバイス800は携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療デバイス、フィットネスデバイス、パーソナルデジタルアシスタントなどの端末であってもよい。
【0094】
図7を参照すると、電子デバイス800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサーコンポーネント814、及び通信コンポーネント816のうちの1つ又は複数を備えることができる。
【0095】
処理コンポーネント802は通常、表示、電話コール、データ通信、カメラ操作及び記録操作に関連する操作などの電子デバイス800の全体的な操作を制御する。処理コンポーネント802は上記方法のステップの全部又は一部を完了するために、命令を実行するための1つ又は複数のプロセッサ820を含むことができる。また、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントとの間のインタラクションを容易にするために、1つ又は複数のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間のインタラクションを容易にするために、マルチメディアモジュールを含むことができる。
【0096】
メモリ804は、電子デバイス800での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は、電子デバイス800上で動作する任意のアプリケーションプログラム又は方法のための命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクなどの任意のタイプの揮発性又は非揮発性メモリ装置又はそれらの組み合わせによって実現されてもよい。
【0097】
電源コンポーネント806は電子デバイス800の様々なコンポーネントに電力を供給する。電源コンポーネント806は、電源管理システム、1つ又は複数の電源、及び電子デバイス800のための電力の生成、管理及び割り当てに関連する他のコンポーネントを含むことができる。
【0098】
マルチメディアコンポーネント808は、前記電子デバイス800とユーザとの間の出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは、液晶ディスプレイ(LDC)とタッチパネル(TP)を含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スライドとタッチパネル上のジェスチャーをセンシングするための1つ又は複数のタッチセンサーを含むことができる。前記タッチセンサーは、タッチ又はスライド動作の境界をセンシングするだけでなく、前記タッチ又はスライド操作に関連する持続時間と圧力を検出することができる。いくつかの実施例では、マルチメディアコンポーネント808は、1つのフロントカメラ及び/又はリアカメラを含む。電子デバイス800が撮影モード又はビデオモードなどの動作モードにある場合、フロントカメラ及び/又はリアカメラは、外部マルチメディアデータを受信することができる。各フロントカメラとリアカメラは、1つの固定された光学レンズシステムであってもよく、又は焦点距離と光学ズーム機能を有することができる。
【0099】
オーディオコンポーネント810は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイクロフォン(MIC)を含み、電子デバイス800がコールモード、記録モードと音声識別モードなどの動作モードにある場合、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ804に記憶されてもよく、又は通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらにオーディオ信号を出力するためのスピーカーを含む。
【0100】
I/Oインタフェース812は、処理コンポーネント802と周辺インタフェースモジュールとの間のインタフェースを提供し、上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、音量ボタン、開始ボタン、ロックボタンを含むことができるがこれらに限定されない。
【0101】
センサーコンポーネント814は、様々な態様の状態評価を電子デバイス800に提供するための1つ又は複数のセンサーを含む。例えば、センサーコンポーネント814は、電子デバイス800のオン/オフ状態、コンポーネントの相対位置を検出することができ、例えば前記コンポーネントが電子デバイス800のディスプレイとキーパッドであり、センサーコンポーネント814はさらに電子デバイス800又は電子デバイス800の1つのコンポーネントの位置変化、ユーザと電子デバイス800との間の接触の有無、電子デバイス800の方位又は加速/減速及び電子デバイス800の温度変化を検出することができる。センサーコンポーネント814は、いかなる物理的接触がない時に近くの物体の存在を検出するように構成される近接センサーを含むことができる。センサーコンポーネント814はさらにイメージングアプリケーションに用いられるCMOS又はCCD画像センサーなどの光センサーを含むことができる。いくつかの実施例では、当該センサーコンポーネント814はさらに加速センサー、ジャイロスコープセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。
【0102】
通信コンポーネント816は、電子デバイス800と他のデバイスとの間の有線又は無線通信を容易にするように構成される。電子デバイス800はWiFI、2G、3G、又はそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。1つの例示的な実施例では、通信コンポーネント816は、ブロードキャストチャネルを介して外部ブロードキャスト管理システムからのブロードキャスト信号又はブロードキャスト関連情報を受信する。1つの例示的な実施例では、前記通信コンポーネント816はさらに短距離通信を容易にするための近距離通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術とその他の技術に基づいて実現されてもよい。
【0103】
例示的な実施例では、電子デバイス800は、上記方法を実行するために、1つ又は複数のアプリケーション固有の集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラー、マイクロプロセッサ又は他の電子コンポーネントによって実現されてもよい。
【0104】
例示的な実施例では、上記方法を完了するために電子デバイス800のプロセッサ820によって実行可能なコンピュータプログラム命令を含むメモリ804などの非一時的コンピュータ可読記憶媒体も提供される。
【0105】
図8は一つの例示的な実施例による電子デバイス900のブロック図である。例えば、電子デバイス900は、サーバーとして提供されてもよい。図8を参照すると、電子デバイス900は、1つ又は複数のプロセッサをさらに含む処理コンポーネント922、及びアプリケーションプログラムなどの処理コンポーネント922によって実行され得る命令を記憶するためのメモリ932によって表されるメモリリソースを含む。メモリ932に記憶されたアプリケーションプログラムは、それぞれが1グループの命令に対応する1つ又は複数のモジュールを含むことができる。また、処理コンポーネント922は、上記方法を実行するために、命令を実行するように構成される。
【0106】
電子デバイス900はさらに電子デバイス900の電源管理を実行するように構成された1つの電源コンポーネント926、電子デバイス1900をネットワークに接続するように構成される1つの有線又は無線ネットワークインタフェース950、及び1つの入力出力(I/O)インタフェース958を含むことができる。電子デバイス900は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTMなどのメモリ932に記憶されているオペレーティングシステムに基づいて動作することができる。
【0107】
例示的な実施例では、上記方法を完了するために電子デバイス900の処理コンポーネント922によって実行可能なコンピュータプログラム命令を含むメモリ932などの非一時的なコンピュータ可読記憶媒体も提供される。
【0108】
本開示は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサが本開示の様々な態様を実施することを可能にするためのコンピュータ可読プログラム命令がロードされたコンピュータ可読記憶媒体を含むことができる。
【0109】
コンピュータ可読記憶媒体は、命令実行装置によって用いられる命令を保持及び記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の適切な組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例(網羅的ではないリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピー(登録商標)ディスク、機械的符号化デバイス、例えば命令が保存されたパンチカード又は溝内突出構造、及び上記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、ラジオ波又は他の自由に伝播される電磁波、導波路又は他の伝送媒体を介して伝播された電磁波(例えば光ファイバーケーブルを通る光パルス)、又は電線を介して伝播される電気信号などの瞬時信号として解釈されない。
【0110】
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から様々なコンピューティング/処理デバイスにダウンロードされてもよく、又はインターネット、ローカルエリアネットワーク、広域ネットワーク及び/又はワイヤレスネットワークなどのネットワークを介して外部コンピュータ又は外部記憶装置にダウンロードされてもよい。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバーを含むことができる。各コンピューティング/プロセッシングデバイスのネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、各コンピューティング/プロセッシングデバイスのコンピュータ可読記憶媒体に保存するために当該コンピュータ可読プログラム命令を転送する。
【0111】
本開示の動作を実行するために使用されるコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、ステータス設定データ、又は、1つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト向けのプログラミング言語、及び「C」言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されたり、ユーザのコンピュータで部分的に実行されたり、1つの独立したソフトウェアパッケージとして実行されたり、ユーザのコンピュータで部分的に実行され、リモートコンピュータで部分的に実行されたり、又は完全にリモートコンピュータ又はサーバーで実行されたりすることができる。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)などの任意の種類のネットワークを介してユーザのコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい(例えばインターネットサービスプロバイダーによってインターネットを介して接続されてもよい)。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報によってプログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)などの電子回路をパーソナライズ及びカスタマイズし、当該電子回路がコンピュータ可読プログラム命令を実行し、本開示の各態様を実現することができる。
【0112】
ここで本開示の様々な態様は、本開示の実施例による方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明される。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、コンピュータ可読プログラム命令によって実現されてもよいことが理解されるべきである。
【0113】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラム可能データ処理装置のプロセッサに提供されてもよく、これにより、これらの命令がコンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される時に 、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現するデバイスが生成される。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶することもでき、これらの命令により、コンピュータ、プログラム可能データ処理装置及び/又は他の装置が特定の方式で動作し、これにより、命令を記憶しているコンピュータ可読媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現するための様々な態様の命令を含む1つの製造品を含む。
【0114】
コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置又は他のデバイスにロードすることもでき、これにより、一連の操作ステップをコンピュータ、他のプログラム可能データ処理装置又は他の装置で実行し、コンピュータで実現されるプロセスを生成することも可能であり、それによってコンピュータ、他のプログラム可能データ処理装置、又は他のデバイスで実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロックで規定された機能/動作を実現する。
【0115】
図面のフローチャートとブロック図は、本開示の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能と動作を示している。この点において、フローチャート又はブロック図の各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができ、前記モジュール、プログラムセグメント又は命令の一部は、規定された論理機能を実現するための1つ又は複数の実行可能命令を含む。代替としてのいくつかの実現では、ブロックでマークされた機能は、図面でマークされた順序とは異なる順序で発生することもできる。例えば、関連する機能に応じて、2つの連続するブロックを実際に並行して実行したり、逆の順序で実行したりすることができる。ブロック図及び/又はフローチャートの各ブロック、及びブロック図及び/又はフローチャートのブロックの組み合わせは、規定された機能又は動作を実行する専用のハードウェアベースのシステムによって実現されてもよく、又は専用のハードウェアとコンピュータ命令を組み合わせることで実現されてもよい。
【0116】
論理に違反することなく、本出願の異なる実施例を互いに組み合わせることができ、異なる実施例の説明に重点が異なり、重点に説明される部分については、他の実施例の記載を参照することができる。以上に本開示の実施例が説明されたが、上記の説明は例示的であり、網羅的ではなく、且つ開示された各実施例に限定されない。説明される実施例の範囲及び精神から逸脱することなく、多くの修正と変更は、当業者にとって明らかである。本明細書で用いられる用語の選択は、各実施例の原理、実際の応用又は市場における技術に対する技術的改善を最もよく解釈すること、又は他の当業者が本明細書に開示される実施形態を理解できるようにすることを意図する。
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2021-08-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像処理方法であって、
第一の画像から抽出されたカラー特徴を取得することと、
前記第一の画像内の前記カラー特徴の領域位置を指定するための、カスタマイズされたマスク特徴を取得することと、
前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集し、第二の画像を取得することと、を含む、前記画像処理方法。
【請求項2】
前記特徴マッピングネットワークは、トレーニングされた特徴マッピングネットワークであり、
前記特徴マッピングネットワークのトレーニングプロセスは、
第一の画像データと第一の画像データに対応するマスク特徴で構成されたデータペアをトレーニングデータセットとして決定することと、
前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特徴マッピングネットワークが収束したときに前記トレーニングプロセスを終了することと、を含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得することは、
前記少なくとも1つのブロックのカラー特徴と対応するマスク特徴を前記特徴マッピングネットワークにおける特徴融合符号化モジュールに入力することと、
前記特徴融合符号化モジュールにより、第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供される空間特徴を融合し、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得することと、
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することと、を含むことを特徴とする
請求項2に記載の方法。
【請求項4】
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することは、
前記画像融合特徴を前記画像生成モジュールに入力し、前記画像生成モジュールによって前記画像融合特徴を、第一のパラメータと第二のパラメータを含む、対応するアフィンパラメータに変換することと、
前記対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータを取得することと、
前記第一のパラメータ、前記第二のパラメータ及び前記第三のパラメータに基づいて前記第二の画像データを取得することと、を含むことを特徴とする
請求項3に記載の方法。
【請求項5】
前記方法はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することを含むことを特徴とする
請求項2~4のいずれか一項に記載の方法。
【請求項6】
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することは、
前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得することであって、前記第二のマスク特徴が前記第一のマスク特徴と異なる、ことと、
マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得することであって、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低い、ことと、
前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得することと、
マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換することと、を含むことを特徴とする
請求項5に記載の方法。
【請求項7】
前記方法はさらに、顔編集処理に対してシミュレーショントレーニングを行うプロセスを含み、
前記シミュレーショントレーニングプロセスは、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得することと、
前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得することと、
前記2つの画像データを融合した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記シミュレーショントレーニングプロセスを終了することと、を含むことを特徴とする
請求項5に記載の方法。
【請求項8】
画像処理装置であって、
第一の画像から抽出されたカラー特徴を取得するように構成される第一の特徴取得モジュールと、
前記第一の画像内の前記カラー特徴の領域位置を指定するためのカスタマイズされたマスク特徴を取得するように構成される第二の特徴取得モジュールと、
前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集し、第二の画像を取得するように構成される編集モジュールと、を備える、前記画像処理装置。
【請求項9】
プロセッサで実行可能命令を記憶するメモリと、
前記命令を実行して請求項1~7のいずれか一項に記載の方法を実行するプロセッサと、を備える、電子デバイス。
【請求項10】
コンピュータに、請求項1~7のいずれか一項に記載の方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項11】
コンピュータに、請求項1~7のいずれか一項に記載の方法を実行させる、コンピュータプログラム。


【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0029
【補正方法】変更
【補正の内容】
【0029】
以上の一般的な説明及び以下の詳細な説明が本開示を限定するものではなく、例示的かつ説明的なものに過ぎないことを理解すべきである。
例えば、本願は以下の項目を提供する。
(項目1)
画像処理方法であって、
第一の画像から抽出されたカラー特徴を取得することと、
前記第一の画像内の前記カラー特徴の領域位置を指定するための、カスタマイズされたマスク特徴を取得することと、
前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集し、第二の画像を取得することと、を含む、前記画像処理方法。
(項目2)
前記特徴マッピングネットワークは、トレーニングされた特徴マッピングネットワークであり、
前記特徴マッピングネットワークのトレーニングプロセスは、
第一の画像データと第一の画像データに対応するマスク特徴で構成されたデータペアをトレーニングデータセットとして決定することと、
前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特徴マッピングネットワークが収束したときに前記トレーニングプロセスを終了することと、を含むことを特徴とする
項目1に記載の方法。
(項目3)
前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得することは、
前記少なくとも1つのブロックのカラー特徴と対応するマスク特徴を前記特徴マッピングネットワークにおける特徴融合符号化モジュールに入力することと、
前記特徴融合符号化モジュールにより、第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供される空間特徴を融合し、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得することと、
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することと、を含むことを特徴とする
項目2に記載の方法。
(項目4)
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得することは、
前記画像融合特徴を前記画像生成モジュールに入力し、前記画像生成モジュールによって前記画像融合特徴を、第一のパラメータと第二のパラメータを含む、対応するアフィンパラメータに変換することと、
前記対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータを取得することと、
前記第一のパラメータ、前記第二のパラメータ及び前記第三のパラメータに基づいて前記第二の画像データを取得することと、を含むことを特徴とする
項目3に記載の方法。
(項目5)
前記方法はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することを含むことを特徴とする
項目2~4のいずれか一項に記載の方法。
(項目6)
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得することは、
前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得することであって、前記第二のマスク特徴が前記第一のマスク特徴と異なる、ことと、
マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得することであって、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低い、ことと、
前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得することと、
マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換することと、を含むことを特徴とする
項目5に記載の方法。
(項目7)
前記方法はさらに、顔編集処理に対してシミュレーショントレーニングを行うプロセスを含み、
前記シミュレーショントレーニングプロセスは、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得することと、
前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得することと、
前記2つの画像データを融合した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記シミュレーショントレーニングプロセスを終了することと、を含むことを特徴とする
項目5に記載の方法。
(項目8)
画像処理装置であって、
第一の画像から抽出されたカラー特徴を取得するように構成される第一の特徴取得モジュールと、
前記第一の画像内の前記カラー特徴の領域位置を指定するためのカスタマイズされたマスク特徴を取得するように構成される第二の特徴取得モジュールと、
前記カラー特徴と前記カスタマイズされたマスク特徴を特徴マッピングネットワークに入力して画像属性を編集し、第二の画像を取得するように構成される編集モジュールと、を備える、前記画像処理装置。
(項目9)
前記特徴マッピングネットワークは、トレーニングされた特徴マッピングネットワークであり、
前記装置はさらに、
第一の画像データと第一の画像データに対応するマスク特徴で構成されたデータペアをトレーニングデータセットとして決定するように構成される第一の処理モジュールと、
前記トレーニングデータセットを前記特徴マッピングネットワークに入力し、前記特徴マッピングネットワークにおいて前記第一の画像データ内の少なくとも1つのブロックのカラー特徴を対応するマスク特徴にマッピングし、第二の画像データを出力して取得し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、ネットワークが収束したときに前記特徴マッピングネットワークのトレーニングプロセスを終了するように構成される第二の処理モジュールと、を備えることを特徴とする
項目8に記載の装置。
(項目10)
前記第二の処理モジュールはさらに、
前記少なくとも1つのブロックのカラー特徴と対応するマスク特徴を前記特徴マッピングネットワークにおける特徴融合符号化モジュールに入力し、
前記特徴融合符号化モジュールにより、第一の画像データから提供される前記カラー特徴と対応するマスク特徴から提供される空間特徴を融合し、空間特徴とカラー特徴を特徴付けるための画像融合特徴を取得し、
前記画像融合特徴と前記対応するマスク特徴を画像生成モジュールに入力し、前記第二の画像データを取得するように構成されることを特徴とする
項目9に記載の装置。
(項目11)
前記第二の処理モジュールはさらに、
前記画像融合特徴を画像生成モジュールに入力し、前記画像生成モジュールによって前記画像融合特徴を、第一のパラメータと第二のパラメータを含む、対応するアフィンパラメータに変換し、
前記対応するマスク特徴を前記画像生成モジュールに入力し、第三のパラメータを取得し、
前記第一のパラメータ、前記第二のパラメータ及び前記第三のパラメータに基づいて前記第二の画像データを取得するように構成されることを特徴とする
項目10に記載の装置。
(項目12)
前記装置はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力してトレーニングし、2つのサブマスク変化量を出力して取得するように構成される第三の処理モジュールを備えることを特徴とする
項目9~11のいずれか一項に記載の装置。
(項目13)
前記第三の処理モジュールはさらに、
前記トレーニングデータセットから第一のマスク特徴と第二のマスク特徴を取得し、前記第二のマスク特徴が前記第一のマスク特徴と異なり、
マスク変分符号化モジュールによって符号化し、前記第一のマスク特徴と前記第二のマスク特徴を予め設定された特徴空間にそれぞれマッピングし、第一の中間変数と第二の中間変数を取得し、ここで、前記予め設定された特徴空間が次元において前記第一のマスク特徴と前記第二のマスク特徴よりも低く、
前記第一の中間変数と前記第二の中間変数に基づき、前記2つのサブマスク変化量に対応する2つの第三の中間変数を取得し、
マスク変分符号化モジュールによってデコードし、前記2つの第三の中間変数を前記2つのサブマスク変化量に変換するように構成されることを特徴とする
項目12に記載の装置。
(項目14)
前記装置はさらに、
前記トレーニングデータセットにおける、第一の画像データに対応するマスク特徴をマスク変分符号化モジュールに入力し、2つのサブマスク変化量を出力して取得し、
前記2つのサブマスク変化量を、1グループの共有重みを共有する2つの特徴マッピングネットワークにそれぞれ入力し、特徴マッピングネットワークの重みを更新し、2つの画像データを出力して取得し、
前記2つの画像データを融合した画像融合データを前記第二の画像データとして決定し、前記第二の画像データと前記第一の画像データに基づいて損失関数を取得し、前記損失関数の逆伝播により敵対的生成を行い、特徴マッピングネットワークが収束したときに顔編集処理に対するシミュレーショントレーニングプロセスを終了するように構成される第四の処理モジュールを備えることを特徴とする
項目12に記載の装置。
(項目15)
電子デバイスであって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
ここで、前記プロセッサは項目1~7のいずれか一項に記載の方法を実行するように構成される、前記電子デバイス。
(項目16)
コンピュータプログラム命令を記憶しているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されるときに項目1~7のいずれか一項に記載の方法が実現される、前記コンピュータ可読記憶媒体。
(項目17)
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子デバイスで実行されるときに、前記電子デバイス内のプロセッサが項目1~7のいずれか一項に記載の方法を実行するように構成される、前記コンピュータプログラム。
【国際調査報告】