IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ビゴ テクノロジー ピーティーイー. リミテッドの特許一覧

特表2024-539737漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム
<>
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図1
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図2
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図3
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図4
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図5
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図6
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図7
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図8
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図9
  • 特表-漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-29
(54)【発明の名称】漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241022BHJP
   G06T 7/20 20170101ALI20241022BHJP
   G06T 1/00 20060101ALI20241022BHJP
【FI】
G06T7/00 350C
G06T7/00 660
G06T7/20 300B
G06T1/00 500B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024529386
(86)(22)【出願日】2022-11-16
(85)【翻訳文提出日】2024-05-16
(86)【国際出願番号】 CN2022132131
(87)【国際公開番号】W WO2023088276
(87)【国際公開日】2023-05-25
(31)【優先権主張番号】202111356773.X
(32)【優先日】2021-11-16
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】320010240
【氏名又は名称】ビゴ テクノロジー ピーティーイー. リミテッド
【住所又は居所原語表記】30 PASIR PANJANG ROAD,#15-31A,MAPLETREE BUSINESS CITY,SINGAPORE 117440
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】李 安
(72)【発明者】
【氏名】李 玉▲楽▼
(72)【発明者】
【氏名】▲項▼ ▲偉▼
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CB12
5B057CC01
5B057DB02
5L096AA02
5L096BA18
5L096DA04
5L096HA11
(57)【要約】
本願は、漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラムが開示され、前記方法は、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成することと、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、を含む。
【特許請求の範囲】
【請求項1】
予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成することと、
前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、
前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、
を含む、
漫画化モデルを構築する方法。
【請求項2】
前記第1生成モデルに基づいて第2生成モデルを訓練することは、
前記第1生成モデルの重みに対して調整を行い、中間漫画モデルを生成することと、
前記中間漫画モデルにおける一部の指定層に対応する重みを前記第1生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第2生成モデルを生成することと、
を含む、
請求項1に記載の方法。
【請求項3】
前記一部の指定層は、人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む、
請求項2に記載の方法。
【請求項4】
前記初期漫画化モデルはエンコーダとデコーダとを含み、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを予め訓練するための重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することは、
前記エンコーダを採用して前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記デコーダに出力することと、
前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第2生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得ることと、
を含む、
請求項1~3のいずれかに記載の方法。
【請求項5】
前記損失関数は、敵対的ネットワーク損失関数、知覚損失関数及び回帰損失関数L1_lossという損失関数の結合を含み、
前記敵対的ネットワーク損失関数は、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算するために使用され、
前記知覚損失関数は、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第1特徴図及び第2特徴図を取得し、前記第1特徴図と前記第2特徴図との間のL2損失を計算するために使用され、
前記回帰損失関数L1_lossは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のL1損失を計算するために使用される、
請求項4に記載の方法。
【請求項6】
前記エンコーダの構造は、入力層、複数の残差層及び全結合層であり、ここで、前記複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される、
請求項4に記載の方法。
【請求項7】
前記エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである、
請求項6に記載の方法。
【請求項8】
前記第2生成モデルはStyleGAN2モデルであり、前記デコーダの構造は前記StyleGAN2モデルの合成ネットワークの構造と同じである、
請求項4に記載の方法。
【請求項9】
目標画像を獲得し、前記目標画像を前記漫画化モデルに入力することと、
前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力することと、
をさらに含む、
請求項4に記載の方法。
【請求項10】
前記目標画像は、画像編集ページを介して入力される画像、目標ビデオにおける複数の画像フレーム、のうちの少なくともの一種を含む。
請求項9に記載の方法。
【請求項11】
前記サンプルセットを採用してモデルフィッティングを行う前に、前記サンプルセットに対してデータ拡張を行い、ここで、前記データ拡張は、ランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの角度の回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うことを含むこと、
をさらに含む、
請求項1に記載の方法。
【請求項12】
サンプル真図生成モジュールと、第2生成モジュール構築モジュールと、サンプル漫画図生成モジュールと、画像ペア結成モジュールと、漫画化モデルフィッティングモジュールとを含み、
前記サンプル真図生成モジュールは、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
前記第2生成モジュール構築モジュールは、前記第1生成モデルに基づいて第2生成モデルを構築するように設定され、
前記サンプル漫画図生成モジュールは、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
前記画像ペア結成モジュールは、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
前記漫画化モデルフィッティングモジュールは、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される、
漫画化モデルを構築する装置。
【請求項13】
一つまたは複数のプロセッサと、記憶装置とを含み、
前記記憶装置が、一つまたは複数のプログラムを記憶するように設定され、
前記一つまたは複数のプログラムが、前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサに請求項1~11のいずれかに記載の前記の方法を実現させる、
電子デバイス。
【請求項14】
コンピュータプログラムが記憶され、
前記コンピュータプログラムがプロセッサに実行される場合、請求項1~11のいずれかに記載の前記の方法を実現する、
コンピュータ可読記憶媒体。
【請求項15】
コンピュータ実行可能な指令を含み、
前記コンピュータ実行可能な指令が実行される場合、請求項1~11のいずれかに記載の前記の方法を実現するように設定される、
コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2021年11月16日に中国特許庁に提出された出願番号202111356773.Xの中国特許出願の優先権を主張し、その全ての内容は参照により本願に援用する。
【0002】
本願は、画像処理の技術分野に関し、例えば、漫画化モデルを構築する方法、漫画化モデルを構築する装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0003】
画像漫画化技術は、コンピュータビジョンにおける画像編集の一般的なタスクの一つであり、生活及び娯楽において非常に広く応用され、例えば、映画制作、アニメ制作、ショートビデオ、生放送などのシーンにおいて、画像に対して漫画化処理を行う。
【0004】
関連技術において、画像漫画化の処理の実現方式は以下の通りである。
【0005】
一つは、基本信号に基づく処理方式であり、この方式は、主に一つの素材ライブラリを構築し、例えば、高さ、太り具合、髪の色、服飾の色などの多様な関連の基本信号によって、素材ライブラリに最適な素材をマッチングし、その後、マッチングした素材をアニメイメージに組み合わせる。この方式は、イメージが単一、柔軟性が不足し、多様性が不足し、ユーザーの特徴類似性が悪いなどの欠点がある。
【0006】
もう一種は、画像を貼り付けて顔を製造する処理方法である。当該方法は、変形によって、実在人間の顔をアニメ人の顔の形状に変形し、その後、多様な素材、例えばアニメの顔、目、眉毛などを貼り付ける方式によって画像漫画化を実現する。しかし、この方式の効果が単一、異なる人物が構築するアニメ化イメージは大同小異で、多様性が悪く、漫画感が弱く、真実性が悪い。
【発明の概要】
【0007】
本願に、関連技術における漫画化処理される際に生成した漫画画像イメージが単一、柔軟性が不足し、多様性が不足、ユーザーの特徴類似性が悪く、漫画感が弱いなどの状況を回避する、漫画化モデル構築方法、装置、デバイス、記憶媒体及びプログラム製品が提供される。
【課題を解決するための手段】
【0008】
第1態様で、本願の実施例に漫画化モデルを構築する方法が提供され、前記方法は、
予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成することと、
前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、
前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、
を含む。
【0009】
第2態様で、本願の実施例に漫画化モデルを構築する装置も提供され、前記装置は、
サンプル真図生成モジュールと、サンプル漫画図生成モジュールと、画像ペア結成モジュールと、漫画化モデルフィッティングモジュールとを含み、
前記サンプル真図生成モジュールは、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
前記サンプル漫画図生成モジュールは、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
前記画像ペア結成モジュールは、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
前記漫画化モデルフィッティングモジュールは、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される。
【0010】
第3態様で、本願の実施例に電子デバイスも提供され、前記電子デバイスは、
一つまたは複数のプロセッサと記憶装置とを含み、
前記記憶装置が、一つまたは複数のプログラムを記憶するように設定され、
前記一つまたは複数のプログラムが、前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサに上記第1態様或第2態様の方法を実現させる。
【0011】
第4態様で、本願の実施例にコンピュータ可読記憶媒体も提供され、コンピュータプログラムが記憶され、当該プログラムがプロセッサに実行される場合、上記第1態様或第2態様の方法を実現する。
【0012】
第5態様で、本願実施例にコンピュータプログラム製品も提供され、前記コンピュータプログラム製品はコンピュータ実行可能な指令を含み、前記コンピュータ実行可能な指令が実行される場合、上記第1態様或第2態様の方法を実現する。
【図面の簡単な説明】
【0013】
図1】本願の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図2】本願の一実施例に提供される漫画化モデルに基づいて画像の全図漫画化処理を行う効果概略図である。
図3】本願の一実施例に提供されるStyleGAN2モデルのモデルアーキテクチャ概略図である。
図4】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図5】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図6】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図7】本願の一実施例に提供される初期漫画化モデル的アーキテクチャ概略図である。
図8】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図9】本願の一実施例に提供される漫画化モデルを構築する装置実施例の構造ブロック図である。
図10】本願の一実施例に提供される電子デバイスの構造概略図である。
【発明を実施するための形態】
【0014】
図1は、本願の一実施例に提供される漫画化モデルを構築する方法の実施例のフローチャートである。当該方法は、漫画化モデル構築装置によって実現することができ、ここで、当該漫画化モデル構築装置は、サーバまたはクライアントに設置されることができ、本実施例はこれに限定しない。
【0015】
本実施例の構築する漫画化モデルは、画像処理、ショートビデオ、映画制作、生放送、3D漫画などのシーンに適用され、画像処理、ショートビデオ、映画、生放送などのシーンにおける画像を全図漫画化画像に処理するために使用さることができる。例えば、図2に示すように、1枚の画像が与えられ、当該画像を漫画化モデルに入力し、漫画化モデルは、全図を漫画した後の画像(即ち、全図漫画化画像)を出力することができ、全図漫画化画像と入力される画像の内容は変わらないが、漫画の風格になり、即ち、入力される画像における全ての要素を漫画化する。また、1本のショートビデオが与えられ、当該ショートビデオの各フレームの画像を漫画化モデルに入力し、漫画化モデルは、複数のフレームの画像に対応する全図漫画化画像を出力することで、入力されるショートビデオにおける各フレームの画像を全図漫画化することを実現できる。
【0016】
本実施例の構築する漫画化モデルは、開発文書に従ってAPPまたはWebページにアクセスされる。
【0017】
図1に示すように、本実施例は、以下のようなステップを含むことができる。
【0018】
ステップ110で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0019】
生成モデル(Generative Model)は、確率統計と機械学習における一種の重要なモデルであり、観測可能なデータをランダムに生成するために使用されるモデルを指す。例示的に、第1生成モデルは様式GAN2(StyleGAN2)モデルであってもよく、StyleGAN2モデルを採用して予め設定される数のサンプル真図をランダムに生成することができる。ここで、サンプル真図は漫画化処理されない画像であってもよく、例えば、真実人物の画像を含む。
【0020】
GAN(Generative Adversarial Networks、生成式敵対的ネットワーク)は、一種の深層学習モデルであり、新しい内容を生成できる生成モデルである。StyleGANはGANのうちの一つであり、風格による生成モデルであり、StyleGANは、是一種の先進的な高解像度画像合成方法であり、多様なデータセットで確実に動作することができることが証明された。StyleGANは、リアルな人物像だけでなく、他の動物、自動車ひいては部屋を生成するために使用されることもできる。しかし、StyleGANは完璧ではなく、最も明らかな欠陥は、生成した画像が斑点のようなアーティファクト(artifacts)を含むことがあるが、この欠陥はStyleGAN2によって克服されるため、生成画像の品質を向上させる。
【0021】
図3に示すようなStyleGAN2モデルのモデルアーキテクチャに示すように、StyleGAN2は二つの部分からなり、図3におけるマッピングネットワーク(Mapping NetWork)である左の部分及び合成ネットワークである右の部分を含む。
【0022】
Mapping NetWorkは入力をより適切にアンラップすることができる。図3に示すように、Mapping NetWorkは、8つの全結合層(fully connected layers、FC)によって構成され、その入力はガウス雑音(latent Z)であり、Mapping NetWorkを経て隠れた変数(W)を得る。
【0023】
合成ネットワークは、学習可能なアフィン変換A、モジュレーションモジュールMod-Demod、アップサンプリングUpsampleなどのモジュールによって構成される。そのほか、合成ネットワークは、重み(w)、偏差(b)及び定数入力(c、即ち、Const 4*4*512であり、学習可能な定数を示す)をさらに含み、活性化関数(Leaky ReLU)は常にバイアスを追加した直後に適用される。
【0024】
ここで、学習可能なアフィン変換Aは一つの全結合層によって構成され、Upsampleは逆畳み込み(転置畳み込みとも呼ばれ)を使用してアップサンプリング操作を行うことができる。
【0025】
モジュレーションモジュールMod-Demodの処理の流れは以下の通りである:
【数1】
ここで、sはi番目の入力する特徴図のスケーリング比率であり、
スケーリングと畳み込みを経った後、畳み込み層の重みに対してdemodを行い、出力する活性化の標準偏差は、
【数2】
である。
出力を単位標準偏差に戻すために、demod重みを復調し、即ち、新しい畳み込み層の重みは、
【数3】
である。
上式では、分母が0にならないように、∈を加える。
【0026】
図3に、一番右のはランダムの雑音の注入であり、Bは学習可能な雑音パラメータであり、ランダムの雑音を引入することは、生成された画像をより真実且つ迫真になるために使用され、例えば、これらの雑音を生成する際に、例えば、顔の斑点などの人の顔のわずかな特徴を生成することができる。
【0027】
ステップ120で、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0028】
当該ステップでは、第2生成モデルもStyleGAN2モデルであってもよく、第1生成モデルと第2生成モデルのモデルアーキテクチャは同じであるが、訓練の目標が異なることにより、モデルの重みが異なるという相違点がある。第1生成モデルの訓練モデルは、サンプル真図、即ち漫画化されない画像を生成するものである。第2生成モデルの訓練モデルは、サンプル漫画図、即ち漫画化後の画像を生成するものである。
【0029】
1つの実施形態では、予め訓練される第1生成モデルの重みに対して、漫画データを訓練目標として微調整(fine-tune)を行うことで、漫画化の第2生成モデルを得ることができる。次に、第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0030】
ステップ130で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0031】
当該ステップでは、予め設定される数のサンプル真図及び対応するサンプル漫画図を生成した後、各サンプル真図と各サンプル真図に対応するサンプル漫画図をサンプル画像ペア(picture TO picture、P2P)に構成することができる。後続のモデルフィッティングのために、全てのサンプル画像ペアをサンプルセットに組み立てる。
【0032】
なお、予め設定される数は、一種の経験値であってもよく、モデルの需要精度に基づいて予め設定される数の具体的な値を決定することができ、例えば、予め設定される数は、15万であってもよく、即ち、15万の対のサンプル画像ペアを生成する。
【0033】
ステップ140で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。
【0034】
当該ステップでは、サンプル画像ペアからなるサンプルセットを取得した後、当該サンプルセットにおけるサンプル真図を訓練データとし、最終的に生成する第2生成モデルに対応する重みを初期重みとし、各サンプル真図に対応するサンプル漫画図を最適化目標とし、予め設置される初期漫画化モデルに対してフィッティングを行い、最終的にフィッティングした漫画化モデルを得て、当該漫画化モデルが、目標画像を全図漫画化画像を転化するように設置されることができる。
【0035】
本実施例では、目標画像を全図漫画化画像に転化するための漫画化モデルを構築する際に、まず、予め訓練される第1生成モデルによって予め設定される数のサンプル真図をランダムに生成し、この後、当該第1生成モデルに基づいて、漫画図を生成するための第2生成モデルを構築し、且つ当該第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成し、サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることで、サンプルセットを得て、次に、第2生成モデルに対応する重みを初期重みとし、当該サンプルセットを採用して予め設置される初期漫画化モデルに対してフィッティングを行い、フィッティングしたモデルは漫画化モデルであり、全図漫画化処理を実現することができる。本実施例における第2生成モデルは第1生成モデルと関連し、且つ第2生成モデルの重みを漫画化モデルの初期重みとし、画像ペア結成の方式を採用して画像ペアを訓練データとして得て、漫画化モデルに対するフィッティングを実現し、最後に得た漫画化モデルがより高いロバスト性と一般化性を持ち、全図漫画化の効果を高める。なお、本実施例は、必要なデータ量に対する需要は、他の方案より少ない。
【0036】
図4は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として第2生成モデルの構築過程をより具体的に説明する。図4に示すように、本実施例は以下のようなステップを含むことができる。
【0037】
ステップ410で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0038】
ステップ420で、前記第1生成モデルの重みに対して調整を行い、中間漫画モデルを生成する。
【0039】
当該実施例で、第1生成モデルの訓練目標は漫画化されない原図でり、中間漫画モデルの訓練目標は漫画化処理を経った後の漫画画像であるため、第1生成モデルの重みを中間漫画モデルの初期重みとし、漫画画像を訓練目標とすることで、中間漫画モデルを生成する。このように、中間漫画モデルの重みは、第1生成モデルの重みに対して調整を行った後に得られる。
【0040】
ステップ430で、前記中間漫画モデルにおける一部の指定層に対応する重みを前記第1生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第2生成モデルを生成する。
【0041】
最終に出力する漫画画像の一部の属性が第1生成モデルが生成する原図における属性と一致であることを確保するために、中間漫画モデルを生成した後、中間漫画モデルにおける一部の指定層に対応する重みを第1生成モデルの、当該一部の指定層に対応する重みに置き換え、重み補間を行い、第2生成モデルを生成することもできる。
【0042】
例えば、一部の指定層は、人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む。つまり、漫画化後の人物の姿勢pose及び肌の色が原図における実在人間の姿勢及び肌の色と一致を保持することを確保するために、中間漫画モデルを得た後、中間漫画モデルにおける人物の姿勢を制御する層及び人物の肌の色を制御する層の重みを、第1生成モデルにおける人物の姿勢を制御する層及び人物の肌の色を制御する層の重みに置き換え、中間漫画モデルにおいて重み補間を行い、最終的に第2生成モデルの重みを得ることができる。
【0043】
重み補間とは補間アルゴリズムを採用して2つの重みの間の新しい重みを計算し、新しい重みを2つの重みの間に挿入することである。本実施例は、重み補間の具体的な補間アルゴリズムを限定しなく、例えば、逆距離加重補間法(IDW)を含むことで、重み補間を行う。逆距離加重補間も距離逆数累乗法と呼ばれることができ、距離逆数累乗格子網化方法は一つの重み付け平均補間法であり、適切なまたは円滑な方式補間を行うことができることを意味する。逆距離加重(IDW)補間の明示的な仮定は、互いの距離が比較的に近いものは、互いの距離が比較的に遠いものより、似ていることである。何も測定されない位置に対して値を予測する場合、逆距離加重法は、予測位置周囲の測定値を採用することができる。予測位置から比較的に遠い測定値より、予測位置から最も近い測定値が予測値に対する影響はより大きい。逆距離加重法は各測定点はいずれも一つの一部的な影響があり、この影響が距離の増大につれて低減すると仮定する。この方法は、距離予測位置が最も近い点に対して割り当てられた重みは比較的に大きいであるが、距離の関数としての重みが低減するため、逆距離加重法と呼ばれる。
【0044】
そのほか、当業者は、また、共分散重み補間アルゴリズム、クリキン補間法などに基づいて重み補間を行うことを採用することができる。
【0045】
ステップ440で、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0046】
ステップ450で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0047】
ステップ460で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。
【0048】
本実施例では、第2生成モデルを構築する際に、予め訓練される第1生成モデルを基礎とし、漫画画像を訓練目標とし、第1生成モデルの重みに対して調整を行い、中間漫画モデルを得て、その後、中間漫画モデルに対して一部の層の重みの置き換え及び重みの補間を行い、最終的な第2生成モデルの重みを得ることで、第2生成モデルに対する構築を完了する。単に漫画化画像を訓練目標として第2生成モデルを訓練することより、本実施例の上記方式によって構築する第2生成モデルはロバスト性がより高くなり、漫画化画像の真実性を向上させる。
【0049】
図5は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として訓練サンプルの処理過程をより具体的に説明する。図5に示すように、本実施例は以下のようなステップを含むことができる。
【0050】
ステップ510で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0051】
ステップ520で、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0052】
ステップ530で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0053】
ステップ540で、複数の前記サンプル画像ペアに基づいて構成されるサンプルセットに対してデータ拡張を行い、ここで、前記データ拡張は、ランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの角度の回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うこと含む。
【0054】
当該ステップでは、全てのサンプル画像ペアをサンプルセットに組み立て、その後、サンプルセットにおけるサンプル真図及びサンプル漫画図に対してデータ拡張を行うことで、訓練データのデータ量を増加し、モデルのロバスト性及び一般化能力を向上することができる。
【0055】
実現する際に、データ拡張は、多様な雑音拡張、ダウンサンプリングしたらアップサンプリングするなどの方式の拡張、サンプル画像ペアに対するデータ拡張、などという方式のうちの少なくともの一種を含むことができる。
【0056】
例示的に、サンプル画像ペアに対するデータ拡張は、ランダムにサンプル真図及び/またはサンプル漫画図に対して、ランダムの角度の回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などを行うことを含むが、これに限定されない。
【0057】
ステップ550で、前記サンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。
【0058】
データ拡張の方式によってサンプルセットを取得した後、当該サンプルセットを採用し、第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、漫画化モデルを生成することができる。
【0059】
本実施例では、サンプル真図と対応するサンプル漫画図とを組み合わせたサンプル画像ペアを取得した後、サンプル画像ペアを訓練データとしてサンプルセットに組み立て、その後、サンプルセットに対して多様な方式のデータ拡張を採用し、且つデータ拡張後のサンプルセット訓練漫画化モデルを採用し、全図漫画化技術を実現することができ、漫画化モデルのロバスト性をより向上させ、モデルが任意角度の対象(例えば、人物対象)に対していずれもロバストすることができ、且つ多様なシーンに対する一般化性が強く、多様な低品質画像に対する全図漫画化効果は依然として比較的に良い。
【0060】
図6は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として漫画化モデルの構築過程をより具体的に説明する。図6に示すように、本実施例は以下のようなステップを含むことができる。
【0061】
ステップ610で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0062】
ステップ620で、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0063】
ステップ630で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0064】
ステップ640で、予め設置される初期漫画化モデルにおけるエンコーダを採用して、前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記初期漫画化モデルのデコーダに出力する。
【0065】
1つの実施形態では、初期漫画化モデルは、エンコーダEncoder及びデコーダDecoderを含むことができ、図7に示すように、左の破線枠部分はEncoderであり、右の破線枠部分はDecoderである。Encoderの作用は、複数のサンプル真図に対して情報抽出を行い、且つ抽出した特徴図及び様式属性情報をDecoderに出力し、Decoderは特徴図及び様式属性情報によって結合を行い、全図漫画化画像を出力する。
【0066】
本実施例のEncoderの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである。
【0067】
一種の実施例で、Encoderの構造は、入力層、いくつかの残差層及び全結合層を含むことができ、ここで、複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される。
【0068】
例えば、Encoderの構造は、以下のテーブル1に示すように、テーブル1において、残差層(ResBlock)は5つがあり、各残差層が出力する特徴図(Featuremap)のサイズはいずれも指定されるものであり、テーブル1における512*512*3、256*256*32などのようなものである。全結合層FCが出力するのは16*512サイズの様式属性情報である。
【0069】
【表1】
【0070】
図7に示すように、各残差層が抽出した特徴図は、一方、次の層に出力されて処理を行い、他の方、またDecoderの対応層(最後一つの残差層は除き、最後一つの残差層が結果のみをDecoderの対応層に出力し)に出力される必要がある。ここの対応層とは、現在出力される特徴図のサイズにマッチングするデコード層であり、例えば、現在出力される特徴図サイズは32*32*512である場合、Decoderにおける対応層とは、32*32*512サイズの特徴図を処理できるデコード層である。
【0071】
図7において、Encoderの一番右の二つの出力層について、上方に位置するのは最後一つの残差層ResBlockであり、サイズが16*16*512である特徴図を出力し、下方に位置するのはFC層であり、出力するのは16*512サイズの様式属性情報であり、FC層は様式属性情報をDecoderの各層に出力することで、Decoderが様式属性情報によって全図アニメ化処理を行うことを容易にする。
【0072】
ステップ650で、前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第2生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得る。
【0073】
1つの実施形態では、デコーダDecoderの構造は第2生成モデルStyleGAN2モデルの合成ネットワークの構造と同じであり、且つ第2生成モデルの重みを初期重みとして訓練を行う。
【0074】
図7に示すように、Decoderの各デコード層は、Encoderが入力する特徴図及び様式属性情報を取得した後、特徴図と様式属性情報に対してデコード合成を行い、デコード結果を次の層に出力し、このように類推して、最後一つのデコード層が全図漫画化の結果を出力する。
【0075】
一種の実施例で、訓練漫画化モデルが使用する損失関数は、敵対的ネットワーク損失関数GANloss、知覚損失関数perceptualloss及び回帰損失関数L1lossという損失関数の結合を含むことができ、即ち、
【数4】
である。
【0076】
ここで、敵対的ネットワーク損失関数GANlossは一種の分類損失関数であり、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算することで、漫画化モデルが生成する全図漫画化画像の漫画感をより真実にするために使用される。
【0077】
1つの実施形態では、以下のような数式を採用してGANlossを計算する:
【数5】
【0078】
ここで、Dは判別器、Eは平均値、G(x)は漫画化モデルが出力する全図漫画化画像を表す。
【0079】
知覚損失関数perceptuallossは、漫画化モデルが出力する全図漫画化画像とサンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第1特徴図及び第2特徴図を取得し、前記第1特徴図と前記第2特徴図との間のL2損失(最小二乗誤差)を計算するために使用される。
【0080】
例示的に、予め設置されるニューラルネットワークモデルは、VGGモデルであってもよく、例えば、VGG-19またはVGG-16などである。
【0081】
1つの実施形態では、以下のような数式を採用してperceptuallossを計算することができる:
【数6】
【0082】
ここで、Eは平均値、G(x)は漫画化モデルが出力する全図漫画化画像、xは漫画化モデルに入力されるサンプル原図に対応するサンプル漫画図を表す。
【0083】
L1lossは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のL1損失を計算するために使用され、以下のような数式を採用して示すことができる:
【数7】
【0084】
なお、本実施例における損失関数の設計は、上記の3種の損失関数の組み合わせに加えて、実際の最適化目標によって他の損失関数を採用することができ、本実施例はこれに限定しない。
【0085】
本実施例では、初期漫画化モデルはエンコーダ及びデコーダを含み、初期漫画化モデルに対してフィッティングを行う際に、エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みであるが、而デコーダの初期重みは第2生成モデルの重みであり、上記のモデルアーキテクチャを採用して、サンプル真図及びサンプル漫画図から結成されるペアとなるデータは訓練データであり、敵対的ネットワーク損失関数GANloss、知覚損失関数perceptualloss及び回帰損失関数L1lossという3種の損失関数を結合し、漫画化モデルのフィッティングを行うことで、フィッティングした漫画化モデルはエンコーダを通じて画像の特徴図及びサンプル属性情報をより良く抽出し、且つデコーダは特徴図及びサンプル属性情報に対して全図漫画化処理することで、漫画化モデルが出力する全図漫画化画像の漫画感が強くなり、且つ全図漫画化後の内容は真図と更に一致し、さらに漫画化モデルのロバスト性と一般化能力を向上させることができ、低品質画像及び複雑なシーンに適用されることができる。
【0086】
図8は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として、漫画化モデルの推理過程をより具体的に説明する。図8に示すように、本実施例は以下のようなステップを含むことができる。
【0087】
ステップ810で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0088】
ステップ820で、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0089】
ステップ830で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0090】
ステップ840で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、漫画化モデルを生成する。
【0091】
ステップ850で、目標画像を獲得し、前記目標画像を前記漫画化モデルに入力する。
【0092】
一種の例において、目標画像は、画像編集ページを介して入力される画像を含むことができる。例えば、画像編集アプリケーションまたは画像編集機能を有するアプリケーションにおいて、画像編集ページを開けた後、ユーザーが導入する画像を目標画像とし、ユーザーが画像編集ページにおける全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用して画像の全図漫画化処理を行うことができる。
【0093】
もう一種の例において、目標画像は、目標ビデオにおける複数の画像フレームをさらに含むことができる。例えば、生放送シーンで、ユーザーが生放送インタフェースに全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用して生放送されるビデオにおける複数の画像フレームに対して全図漫画化処理を行うことができる。また、ショートビデオまたはビデオ再生シーンで、ユーザーが再生インタフェースに全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用してビデオにおける複数の画像フレームに対して全図漫画化処理を行うことができる。
【0094】
ステップ860で、前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力する。
【0095】
当該実施例で、漫画化モデルがエンコーダの入力層によって目標画像を取得した後、入力層は当該目標画像を図7に示すようなエンコーダの1番目の残差層に入力し、1番目の残差層は当該目標画像の特徴図を抽出し、次の残差層に入力し、及びデコーダの対応層に入力し、その後、次の残差層は、続けて特徴抽出を行い、このように類推して、最後一つの残差層及びFC層が処理を完了するまでに、この時、エンコーダの動作は完了する。その後、デコーダが動作し、デコーダの各層において、受信した目標特徴図及び目標様式属性情報によって漫画化処理を行い、処理結果を次の層に転送して処理を行い、このように類推して、最後のデコード層が全図漫画化画像を出力層に出力し、出力層が当該全図漫画化画像を出力するまでに、デコーダの動作は完了する。その後、次の目標画像の処理を行うことができる。
【0096】
本実施例では、漫画化モデルのエンコーダ及びデコーダによって全図漫画化技術を実現し、真図の風格が変わらないと同時に、全図漫画化の風格が強く、漫画感が真実で、没入感が高く、多様な異なる漫画化風格に適用される。
【0097】
図9は本願実施例に提供される漫画化モデルを構築する装置実施例の構造ブロック図であり、以下のようなモジュールを含むことができる:
サンプル真図生成モジュール910は、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
第2生成モジュール構築モジュール920は、前記第1生成モデルに基づいて第2生成モデルを構築するように設定され、
サンプル漫画図生成モジュール930は、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
画像ペア結成モジュール940は、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
漫画化モデルフィッティングモジュール950は、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される。
【0098】
一種の実施例で、前記第2生成モジュール構築モジュール920は以下のように設定され、
前記第1生成モデルの重みに対して調整を行い、中間漫画モデルを生成し、
前記中間漫画モデルにおける一部の指定層に対応する重みを前記第1生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第2生成モデルを生成する。
【0099】
一種の実施例で、前記一部の指定層は人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む。
【0100】
一種の実施例で、前記初期漫画化モデルは、エンコーダ及びデコーダを含み、
前記漫画化モデルフィッティングモジュール950は、以下のようなサブモジュールを含むことができる:
エンコードサブモジュールは、前記エンコーダを採用して前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記デコーダに出力するように設定され、
デコードサブモジュールは、前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第2生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得るように設定される。
【0101】
一種の実施例で、前記損失関数は、敵対的ネットワーク損失関数、知覚損失関数及び回帰損失関数L1_lossという損失関数の結合を含み、
前記敵対的ネットワーク損失関数は、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算するために使用され、
前記知覚損失関数は、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第1特徴図及び第2特徴図を取得し、前記第1特徴図と前記第2特徴図との間のL2損失を計算するために使用され、
前記L1_lossは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のL1損失を計算するために使用される。
【0102】
一種の実施例で、前記エンコーダの構造は以下のようなものである:
入力層、いくつかの残差層及び全結合層であり、ここで、複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される。
【0103】
一種の実施例で、前記エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである。
【0104】
一種の実施例で、前記第2生成モデルはStyleGAN2モデルであり、前記デコーダの構造は前記StyleGAN2モデルの合成ネットワークの構造と同じである。
【0105】
一種の実施例で、前記装置は、以下のようなモジュールをさらに含むことができる:
目標画像獲得モジュールは、目標画像を獲得し、前記目標画像を前記漫画化モデルに入力するように設定され、
全図漫画化処理サブモジュールは、前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力するように設定される。
【0106】
一種の実施例で、前記目標画像は、
画像編集ページを介して入力される画像、
目標ビデオにおける複数の画像フレーム、のうちの少なくともの一種を含む。
【0107】
一種の実施例で、前記装置は、以下のようなモジュールをさらに含むことができる:
データ拡張モジュールは、前記サンプルセットを採用してモデルフィッティングを行う前に、前記サンプルセットに対してデータ拡張を行い、ここで、前記データ拡張がランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの角度の回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うことを含むように設定される。
【0108】
本願の実施例に提供されるページレンダリングの装置は、本願の前述実施例におけるページレンダリングの方法を実行することができ、方法を実行する相応の機能モジュールと有益な効果を具備する。
【0109】
図10は本願実施例に提供される電子デバイスの構造概略図であり、図10に示すように、当該電子デバイスは、プロセッサ1010、メモリ1020、入力装置1030及び出力装置1040を含み、電子デバイスにおけるプロセッサ1010の数は、一つまたは複数であってもよく、図10において一つのプロセッサ1010を例とし、電子デバイスにおけるプロセッサ1010、メモリ1020、入力装置1030及び出力装置1040は、バスまたは他の方式によって接続されることができ、図10においてバスによる接続を例とする。
【0110】
メモリ1020は、コンピュータ可読記憶媒体として、ソフトウェアプログラム、コンピュータ実行可能なプログラム及びモジュール(例えば、本願実施例における上記実施例における任一の実施例に対応するプログラム指令/モジュール)を記憶するために使用されることがでる。プロセッサ1010はメモリ1020に記憶されるソフトウェアプログラム、指令及びモジュールを稼働することで、電子デバイスの多様な機能応用及びデータ処理を実行し、即ち、上記の方法実施例における任一実施例に説明した方法を実現する。
【0111】
メモリ1020は、主にプログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、端末の使用に応じて所作成されたデータなどを記憶することができる。さらに、メモリ1020は、高速ランダムアクセスメモリを含むことができ、不揮発性メモリを含むこともでき、例えば、少なくとも一つのディスク記憶部品、フラッシュメモリ部品、または他の不揮発性固体記憶部品である。いくつかの例では、メモリ1020は、プロセッサ1010に対して遠隔的に設置されるメモリを含むことができ、これらの遠隔的なメモリは、ネットワークによってデバイス/端末/サーバに接続されることができる。上記ネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、移動体通信ネットワーク及びその組み合わせを含むが、これらに限定されない。
【0112】
入力装置1030は、入力された数字または文字情報を受信し、且つ電子デバイスのユーザー設置及び機能制御に係るキー信号入力を生成するように設定されることができる。出力装置1040はディスプレイなどの表示デバイスを含むことができる。
【0113】
本願の実施例もコンピュータ実行可能な指令が含まれる記憶媒体を提供し、前記コンピュータ実行可能な指令は、コンピュータプロセッサによって実行される際に、上記方法実施例における任一実施例の方法を実行するために使用される。コンピュータ可読記憶媒体は、非一時的コンピュータ可読記憶媒体であってもよい。
【0114】
もちろん、本願実施例に提供されるコンピュータ実行可能な指令が含まれる記憶媒体は、そのコンピュータ実行可能な指令は上記のような方法で操作されることに限定されるものではなく、本願の任意実施例に提供される方法における関連操作を実行することもできる。
【0115】
本願実施例はもう一つのコンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータ実行可能な指令を含み、前記コンピュータ実行可能な指令は、コンピュータプロセッサによって実行される際に、上記実施例における任一実施例の方法を実行するために使用される。
【0116】
もちろん、本願の実施例に提供されるコンピュータプログラム製品は、そのコンピュータ実行可能な指令は、上記のような方法で操作されることに限定されず、本願の任意実施例に提供される方法における関連操作を実行することもできる。
【0117】
以上の実施方式についての説明によって、当業者であれば、本願がソフトウェア及び必要な汎用ハードウェアによって実現されてもよく、もちろん、ハードウェアによって実現されてもよいことを明らかに理解することができる。このような理解に基づいて、本願の技術案は、本質的にまたは関連技術に貢献する部分は、ソフトウェア製品の形式で具現化されることができ、当該コンピュータソフトウェア製品は、例えばコンピュータのフロッピーディスク、読み取り専用メモリ(Read-Only Memory, ROM)、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ(FLASH)、ハードディスクまたは光ディスクなどのコンピュータ可読記憶媒体に記憶されることができ、いくつかの指令を含むことで、一つの電子デバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい)に本願の複数の実施例の前記の方法を実行させる。
【0118】
なお、上記装置の実施例において、含まれる複数のユニットとモジュールは、機能ロジックのみに従って区分されるが、上記の区分に限定されるものではなく、相応の機能を実現すればよく、また、複数の機能ユニットの具体的な名称も相互に区別しやすいようにするものであり、本願の保護範囲を限定するためのものではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2024-05-16
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2022年11月16日に提出された出願番号PCT/CN2022/132131の国際出願の日本国家段階のものであり、2021年11月16日に提出された出願番号202111356773.Xの中国特許出願の優先権を主張し、その全ての内容は参照により本願に援用する。
【0002】
本願は、画像処理の技術分野に関し、例えば、漫画化モデルを構築する方法、漫画化モデルを構築する装置、漫画化モデルを構築する電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0003】
画像漫画化技術は、コンピュータビジョンにおける画像編集の一般的なタスクの一つであり、生活及び娯楽において非常に広く応用され、例えば、映画制作、アニメ制作、ショートビデオ、生放送などのシーンにおいて、画像に対して漫画化処理を行う。
【発明の概要】
【0004】
本願に、漫画化モデル構築方法、装置、漫画化モデルを構築する電子デバイス、記憶媒体及びプログラム製品が提供される。
【課題を解決するための手段】
【0005】
願の実施例に漫画化モデルを構築する方法が提供され、前記方法は、
予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成することと、
前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、
前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、
を含む。
【0006】
願の実施例に漫画化モデルを構築する装置も提供され、前記装置は、
サンプル真図生成モジュールと、サンプル漫画図生成モジュールと、画像ペア結成モジュールと、漫画化モデルフィッティングモジュールとを含み、
前記サンプル真図生成モジュールは、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
前記サンプル漫画図生成モジュールは、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
前記画像ペア結成モジュールは、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
前記漫画化モデルフィッティングモジュールは、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される。
【0007】
願の実施例に漫画化モデルを構築する電子デバイスも提供され、前記電子デバイスは、
一つまたは複数のプロセッサと記憶装置とを含み、
前記記憶装置が、一つまたは複数のプログラムを記憶するように設定され、
前記一つまたは複数のプログラムが、前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサに上記の方法を実現させる。
【0008】
願の実施例にコンピュータ可読記憶媒体も提供され、コンピュータプログラムが記憶され、当該プログラムがプロセッサに実行される場合、上記の方法を実現する。
【0009】
願実施例にコンピュータプログラム製品も提供され、前記コンピュータプログラム製品はコンピュータ実行可能な指令を含み、前記コンピュータ実行可能な指令が実行される場合、上記第1態様或第2態様の方法を実現する。
【図面の簡単な説明】
【0010】
図1】本願の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図2】本願の一実施例に提供される漫画化モデルに基づいて画像の全図漫画化処理を行う効果概略図である。
図3】本願の一実施例に提供されるStyleGAN2モデルのモデルアーキテクチャ概略図である。
図4】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図5】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図6】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図7】本願の一実施例に提供される初期漫画化モデル的アーキテクチャ概略図である。
図8】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。
図9】本願の一実施例に提供される漫画化モデルを構築する装置実施例の構造ブロック図である。
図10】本願の一実施例に提供される電子デバイスの構造概略図である。
【発明を実施するための形態】
【0011】
関連技術において、画像漫画化の処理の実現方式は以下の通りである。
【0012】
一つは、基本信号に基づく処理方式であり、この方式は、主に一つの素材ライブラリを構築し、例えば、高さ、太り具合、髪の色、服飾の色などの多様な関連の基本信号によって、素材ライブラリに最適な素材をマッチングし、その後、マッチングした素材をアニメイメージに組み合わせる。この方式は、イメージが単一、柔軟性が不足し、多様性が不足し、ユーザーの特徴類似性が悪いなどの欠点がある。
【0013】
もう一種は、画像を貼り付けて顔を製造する処理方法である。当該方法は、変形によって、実在人間の顔をアニメ人の顔の形状に変形し、その後、多様な素材、例えばアニメの顔、目、眉毛などを貼り付ける方式によって画像漫画化を実現する。しかし、この方式の効果が単一、異なる人物が構築するアニメ化イメージは大同小異で、多様性が悪く、漫画感が弱く、真実性が悪い。
【0014】
図1は、本願の一実施例に提供される漫画化モデルを構築する方法の実施例のフローチャートである。当該方法は、漫画化モデル構築装置によって実現することができ、ここで、当該漫画化モデル構築装置は、サーバまたはクライアントに設置されることができ、本実施例はこれに限定しない。当該方法は、関連技術における漫画化処理される際に生成した漫画画像イメージが単一、柔軟性が不足し、多様性が不足、ユーザーの特徴類似性が悪く、漫画感が弱いなどの状況を回避することを目的とする。
【0015】
本実施例の構築する漫画化モデルは、画像処理、ショートビデオ、映画制作、生放送、3D漫画などのシーンに適用され、画像処理、ショートビデオ、映画、生放送などのシーンにおける画像を全図漫画化画像に処理するために使用さることができる。例えば、図2に示すように、1枚の画像が与えられ、当該画像を漫画化モデルに入力し、漫画化モデルは、全図を漫画した後の画像(即ち、全図漫画化画像)を出力することができ、全図漫画化画像と入力される画像の内容は変わらないが、漫画の風格になり、即ち、入力される画像における全ての要素を漫画化する。また、1本のショートビデオが与えられ、当該ショートビデオの各フレームの画像を漫画化モデルに入力し、漫画化モデルは、複数のフレームの画像に対応する全図漫画化画像を出力することで、入力されるショートビデオにおける各フレームの画像を全図漫画化することを実現できる。
【0016】
本実施例の構築する漫画化モデルは、開発文書に従ってAPPまたはWebページにアクセスされる。
【0017】
図1に示すように、本実施例は、以下のようなステップを含むことができる。
【0018】
ステップ110で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0019】
生成モデル(Generative Model)は、確率統計と機械学習における一種の重要なモデルであり、観測可能なデータをランダムに生成するために使用されるモデルを指す。例示的に、第1生成モデルは様式GAN2(StyleGAN2)モデルであってもよく、StyleGAN2モデルを採用して予め設定される数のサンプル真図をランダムに生成することができる。ここで、サンプル真図は漫画化処理されない画像であってもよく、例えば、真実人物の画像を含む。
【0020】
GAN(Generative Adversarial Networks、生成式敵対的ネットワーク)は、一種の深層学習モデルであり、新しい内容を生成できる生成モデルである。StyleGANはGANのうちの一つであり、風格による生成モデルであり、StyleGANは、是一種の先進的な高解像度画像合成方法であり、多様なデータセットで確実に動作することができることが証明された。StyleGANは、リアルな人物像だけでなく、他の動物、自動車ひいては部屋を生成するために使用されることもできる。しかし、StyleGANは完璧ではなく、最も明らかな欠陥は、生成した画像が斑点のようなアーティファクト(artifacts)を含むことがあるが、この欠陥はStyleGAN2によって克服されるため、生成画像の品質を向上させる。
【0021】
図3に示すようなStyleGAN2モデルのモデルアーキテクチャに示すように、StyleGAN2は二つの部分からなり、図3におけるマッピングネットワーク(Mapping NetWork)である左の部分及び合成ネットワークである右の部分を含む。
【0022】
Mapping NetWorkは入力をより適切にアンラップすることができる。図3に示すように、Mapping NetWorkは、8つの全結合層(fully connected layers、FC)によって構成され、その入力はガウス雑音(latent Z)であり、Mapping NetWorkを経て隠れた変数(W)を得る。
【0023】
合成ネットワークは、学習可能なアフィン変換A、モジュレーションモジュールMod-Demod、アップサンプリングUpsampleなどのモジュールによって構成される。そのほか、合成ネットワークは、重み(w)、偏差(b)及び定数入力(c、即ち、Const 4*4*512であり、学習可能な定数を示す)をさらに含み、活性化関数(Leaky ReLU)は常にバイアスを追加した直後に適用される。
【0024】
ここで、学習可能なアフィン変換Aは一つの全結合層によって構成され、Upsampleは逆畳み込み(転置畳み込みとも呼ばれ)を使用してアップサンプリング操作を行うことができる。
【0025】
モジュレーションモジュールMod-Demodの処理の流れは以下の通りである:
【数1】
ここで、sはi番目の入力する特徴図のスケーリング比率であり、
スケーリングと畳み込みを経った後、畳み込み層の重みに対してdemodを行い、出力する活性化の標準偏差は、
【数2】
である。
出力を単位標準偏差に戻すために、demod重みを復調し、即ち、新しい畳み込み層の重みは、
【数3】
である。
上式では、分母が0にならないように、∈を加える。
【0026】
図3に、一番右のはランダムの雑音の注入であり、Bは学習可能な雑音パラメータであり、ランダムの雑音を引入することは、生成された画像をより真実且つ迫真になるために使用され、例えば、これらの雑音を生成する際に、例えば、顔の斑点などの人の顔のわずかな特徴を生成することができる。
【0027】
ステップ120で、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0028】
当該ステップでは、第2生成モデルもStyleGAN2モデルであってもよく、第1生成モデルと第2生成モデルのモデルアーキテクチャは同じであるが、訓練の目標が異なることにより、モデルの重みが異なるという相違点がある。第1生成モデルの訓練モデルは、サンプル真図、即ち漫画化されない画像を生成するものである。第2生成モデルの訓練モデルは、サンプル漫画図、即ち漫画化後の画像を生成するものである。
【0029】
1つの実施形態では、予め訓練される第1生成モデルの重みに対して、漫画データを訓練目標として微調整(fine-tune)を行うことで、漫画化の第2生成モデルを得ることができる。次に、第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0030】
ステップ130で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0031】
当該ステップでは、予め設定される数のサンプル真図及び対応するサンプル漫画図を生成した後、各サンプル真図と各サンプル真図に対応するサンプル漫画図をサンプル画像ペア(picture TO picture、P2P)に構成することができる。後続のモデルフィッティングのために、全てのサンプル画像ペアをサンプルセットに組み立てる。
【0032】
なお、予め設定される数は、一種の経験値であってもよく、モデルの需要精度に基づいて予め設定される数の具体的な値を決定することができ、例えば、予め設定される数は、15万であってもよく、即ち、15万の対のサンプル画像ペアを生成する。
【0033】
ステップ140で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。
【0034】
当該ステップでは、サンプル画像ペアからなるサンプルセットを取得した後、当該サンプルセットにおけるサンプル真図を訓練データとし、最終的に生成する第2生成モデルに対応する重みを初期重みとし、各サンプル真図に対応するサンプル漫画図を最適化目標とし、予め設置される初期漫画化モデルに対してフィッティングを行い、最終的にフィッティングした漫画化モデルを得て、当該漫画化モデルが、目標画像を全図漫画化画像を転化するように設置されることができる。
【0035】
本実施例では、目標画像を全図漫画化画像に転化するための漫画化モデルを構築する際に、まず、予め訓練される第1生成モデルによって予め設定される数のサンプル真図をランダムに生成し、この後、当該第1生成モデルに基づいて、漫画図を生成するための第2生成モデルを構築し、且つ当該第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成し、サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることで、サンプルセットを得て、次に、第2生成モデルに対応する重みを初期重みとし、当該サンプルセットを採用して予め設置される初期漫画化モデルに対してフィッティングを行い、フィッティングしたモデルは漫画化モデルであり、全図漫画化処理を実現することができる。本実施例における第2生成モデルは第1生成モデルと関連し、且つ第2生成モデルの重みを漫画化モデルの初期重みとし、画像ペア結成の方式を採用して画像ペアを訓練データとして得て、漫画化モデルに対するフィッティングを実現し、最後に得た漫画化モデルがより高いロバスト性と一般化性を持ち、全図漫画化の効果を高める。なお、本実施例は、必要なデータ量に対する需要は、他の方案より少ない。
【0036】
図4は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として第2生成モデルの構築過程をより具体的に説明する。図4に示すように、本実施例は以下のようなステップを含むことができる。
【0037】
ステップ410で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0038】
ステップ420で、前記第1生成モデルの重みに対して調整を行い、中間漫画モデルを生成する。
【0039】
当該実施例で、第1生成モデルの訓練目標は漫画化されない原図でり、中間漫画モデルの訓練目標は漫画化処理を経った後の漫画画像であるため、第1生成モデルの重みを中間漫画モデルの初期重みとし、漫画画像を訓練目標とすることで、中間漫画モデルを生成する。このように、中間漫画モデルの重みは、第1生成モデルの重みに対して調整を行った後に得られる。
【0040】
ステップ430で、前記中間漫画モデルにおける一部の指定層に対応する重みを前記第1生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第2生成モデルを生成する。
【0041】
最終に出力する漫画画像の一部の属性が第1生成モデルが生成する原図における属性と一致であることを確保するために、中間漫画モデルを生成した後、中間漫画モデルにおける一部の指定層に対応する重みを第1生成モデルの、当該一部の指定層に対応する重みに置き換え、重み補間を行い、第2生成モデルを生成することもできる。
【0042】
例えば、一部の指定層は、人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む。つまり、漫画化後の人物の姿勢pose及び肌の色が原図における実在人間の姿勢及び肌の色と一致を保持することを確保するために、中間漫画モデルを得た後、中間漫画モデルにおける人物の姿勢を制御する層及び人物の肌の色を制御する層の重みを、第1生成モデルにおける人物の姿勢を制御する層及び人物の肌の色を制御する層の重みに置き換え、中間漫画モデルにおいて重み補間を行い、最終的に第2生成モデルの重みを得ることができる。
【0043】
重み補間とは補間アルゴリズムを採用して2つの重みの間の新しい重みを計算し、新しい重みを2つの重みの間に挿入することである。本実施例は、重み補間の具体的な補間アルゴリズムを限定しなく、例えば、逆距離加重補間法(IDW)を含むことで、重み補間を行う。逆距離加重補間も距離逆数累乗法と呼ばれることができ、距離逆数累乗格子網化方法は一つの重み付け平均補間法であり、適切なまたは円滑な方式補間を行うことができることを意味する。逆距離加重(IDW)補間の明示的な仮定は、互いの距離が比較的に近いものは、互いの距離が比較的に遠いものより、似ていることである。何も測定されない位置に対して値を予測する場合、逆距離加重法は、予測位置周囲の測定値を採用することができる。予測位置から比較的に遠い測定値より、予測位置から最も近い測定値が予測値に対する影響はより大きい。逆距離加重法は各測定点はいずれも一つの一部的な影響があり、この影響が距離の増大につれて低減すると仮定する。この方法は、距離予測位置が最も近い点に対して割り当てられた重みは比較的に大きいであるが、距離の関数としての重みが低減するため、逆距離加重法と呼ばれる。
【0044】
そのほか、当業者は、また、共分散重み補間アルゴリズム、クリキン補間法などに基づいて重み補間を行うことを採用することができる。
【0045】
ステップ440で、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0046】
ステップ450で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0047】
ステップ460で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。
【0048】
本実施例では、第2生成モデルを構築する際に、予め訓練される第1生成モデルを基礎とし、漫画画像を訓練目標とし、第1生成モデルの重みに対して調整を行い、中間漫画モデルを得て、その後、中間漫画モデルに対して一部の層の重みの置き換え及び重みの補間を行い、最終的な第2生成モデルの重みを得ることで、第2生成モデルに対する構築を完了する。単に漫画化画像を訓練目標として第2生成モデルを訓練することより、本実施例の上記方式によって構築する第2生成モデルはロバスト性がより高くなり、漫画化画像の真実性を向上させる。
【0049】
図5は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として訓練サンプルの処理過程をより具体的に説明する。図5に示すように、本実施例は以下のようなステップを含むことができる。
【0050】
ステップ510で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0051】
ステップ520で、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0052】
ステップ530で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0053】
ステップ540で、複数の前記サンプル画像ペアに基づいて構成されるサンプルセットに対してデータ拡張を行い、ここで、前記データ拡張は、ランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うこと含む。
【0054】
当該ステップでは、全てのサンプル画像ペアをサンプルセットに組み立て、その後、サンプルセットにおけるサンプル真図及びサンプル漫画図に対してデータ拡張を行うことで、訓練データのデータ量を増加し、モデルのロバスト性及び一般化能力を向上することができる。
【0055】
実現する際に、データ拡張は、多様な雑音拡張、ダウンサンプリングしたらアップサンプリングするなどの方式の拡張、サンプル画像ペアに対するデータ拡張、などという方式のうちの少なくともの一種を含むことができる。
【0056】
例示的に、サンプル画像ペアに対するデータ拡張は、ランダムにサンプル真図及び/またはサンプル漫画図に対して、ランダムの回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などを行うことを含むが、これに限定されない。
【0057】
ステップ550で、前記サンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。
【0058】
データ拡張の方式によってサンプルセットを取得した後、当該サンプルセットを採用し、第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、漫画化モデルを生成することができる。
【0059】
本実施例では、サンプル真図と対応するサンプル漫画図とを組み合わせたサンプル画像ペアを取得した後、サンプル画像ペアを訓練データとしてサンプルセットに組み立て、その後、サンプルセットに対して多様な方式のデータ拡張を採用し、且つデータ拡張後のサンプルセット訓練漫画化モデルを採用し、全図漫画化技術を実現することができ、漫画化モデルのロバスト性をより向上させ、モデルが任意角度の対象(例えば、人物対象)に対していずれもロバストすることができ、且つ多様なシーンに対する一般化性が強く、多様な低品質画像に対する全図漫画化効果は依然として比較的に良い。
【0060】
図6は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として漫画化モデルの構築過程をより具体的に説明する。図6に示すように、本実施例は以下のようなステップを含むことができる。
【0061】
ステップ610で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0062】
ステップ620で、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0063】
ステップ630で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0064】
ステップ640で、予め設置される初期漫画化モデルにおけるエンコーダを採用して、前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記初期漫画化モデルのデコーダに出力する。
【0065】
1つの実施形態では、初期漫画化モデルは、エンコーダEncoder及びデコーダDecoderを含むことができ、図7に示すように、左の破線枠部分はEncoderであり、右の破線枠部分はDecoderである。Encoderの作用は、複数のサンプル真図に対して情報抽出を行い、且つ抽出した特徴図及び様式属性情報をDecoderに出力し、Decoderは特徴図及び様式属性情報によって結合を行い、全図漫画化画像を出力する。
【0066】
本実施例のEncoderの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである。
【0067】
一種の実施例で、Encoderの構造は、入力層、いくつかの残差層及び全結合層を含むことができ、ここで、複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される。
【0068】
例えば、Encoderの構造は、以下のテーブル1に示すように、テーブル1において、残差層(ResBlock)は5つがあり、各残差層が出力する特徴図(Featuremap)のサイズはいずれも指定されるものであり、テーブル1における512*512*3、256*256*32などのようなものである。全結合層FCが出力するのは16*512サイズの様式属性情報である。
【0069】
【表1】
【0070】
図7に示すように、各残差層が抽出した特徴図は、一方、次の層に出力されて処理を行い、他の方、またDecoderの対応層(最後一つの残差層は除き、最後一つの残差層が結果のみをDecoderの対応層に出力し)に出力される必要がある。ここの対応層とは、現在出力される特徴図のサイズにマッチングするデコード層であり、例えば、現在出力される特徴図サイズは32*32*512である場合、Decoderにおける対応層とは、32*32*512サイズの特徴図を処理できるデコード層である。
【0071】
図7において、Encoderの一番右の二つの出力層について、上方に位置するのは最後一つの残差層ResBlockであり、サイズが16*16*512である特徴図を出力し、下方に位置するのはFC層であり、出力するのは16*512サイズの様式属性情報であり、FC層は様式属性情報をDecoderの各層に出力することで、Decoderが様式属性情報によって全図アニメ化処理を行うことを容易にする。
【0072】
ステップ650で、前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第2生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得る。
【0073】
1つの実施形態では、デコーダDecoderの構造は第2生成モデルStyleGAN2モデルの合成ネットワークの構造と同じであり、且つ第2生成モデルの重みを初期重みとして訓練を行う。
【0074】
図7に示すように、Decoderの各デコード層は、Encoderが入力する特徴図及び様式属性情報を取得した後、特徴図と様式属性情報に対してデコード合成を行い、デコード結果を次の層に出力し、このように類推して、最後一つのデコード層が全図漫画化の結果を出力する。
【0075】
一種の実施例で、訓練漫画化モデルが使用する損失関数は、敵対的ネットワーク損失関数GANloss、知覚損失関数perceptualloss及び回帰損失関数L1lossという損失関数の結合を含むことができ、即ち、
【数4】
である。
【0076】
ここで、敵対的ネットワーク損失関数GANlossは一種の分類損失関数であり、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算することで、漫画化モデルが生成する全図漫画化画像の漫画感をより真実にするために使用される。
【0077】
1つの実施形態では、以下のような数式を採用してGANlossを計算する:
【数5】
【0078】
ここで、Dは判別器、Eは平均値、G(x)は漫画化モデルが出力する全図漫画化画像を表す。
【0079】
知覚損失関数perceptuallossは、漫画化モデルが出力する全図漫画化画像とサンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第1特徴図及び第2特徴図を取得し、前記第1特徴図と前記第2特徴図との間のL2損失(最小二乗誤差)を計算するために使用される。
【0080】
例示的に、予め設置されるニューラルネットワークモデルは、VGGモデルであってもよく、例えば、VGG-19またはVGG-16などである。
【0081】
1つの実施形態では、以下のような数式を採用してperceptuallossを計算することができる:
【数6】
【0082】
ここで、Eは平均値、G(x)は漫画化モデルが出力する全図漫画化画像、xは漫画化モデルに入力されるサンプル原図に対応するサンプル漫画図を表す。
【0083】
L1lossは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のL1損失を計算するために使用され、以下のような数式を採用して示すことができる:
【数7】
【0084】
なお、本実施例における損失関数の設計は、上記の3種の損失関数の組み合わせに加えて、実際の最適化目標によって他の損失関数を採用することができ、本実施例はこれに限定しない。
【0085】
本実施例では、初期漫画化モデルはエンコーダ及びデコーダを含み、初期漫画化モデルに対してフィッティングを行う際に、エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みであるが、而デコーダの初期重みは第2生成モデルの重みであり、上記のモデルアーキテクチャを採用して、サンプル真図及びサンプル漫画図から結成されるペアとなるデータは訓練データであり、敵対的ネットワーク損失関数GANloss、知覚損失関数perceptualloss及び回帰損失関数L1lossという3種の損失関数を結合し、漫画化モデルのフィッティングを行うことで、フィッティングした漫画化モデルはエンコーダを通じて画像の特徴図及びサンプル属性情報をより良く抽出し、且つデコーダは特徴図及びサンプル属性情報に対して全図漫画化処理することで、漫画化モデルが出力する全図漫画化画像の漫画感が強くなり、且つ全図漫画化後の内容は真図と更に一致し、さらに漫画化モデルのロバスト性と一般化能力を向上させることができ、低品質画像及び複雑なシーンに適用されることができる。
【0086】
図8は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として、漫画化モデルの推理過程をより具体的に説明する。図8に示すように、本実施例は以下のようなステップを含むことができる。
【0087】
ステップ810で、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成する。
【0088】
ステップ820で、前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。
【0089】
ステップ830で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。
【0090】
ステップ840で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、漫画化モデルを生成する。
【0091】
ステップ850で、目標画像を獲得し、前記目標画像を前記漫画化モデルに入力する。
【0092】
一種の例において、目標画像は、画像編集ページを介して入力される画像を含むことができる。例えば、画像編集アプリケーションまたは画像編集機能を有するアプリケーションにおいて、画像編集ページを開けた後、ユーザーが導入する画像を目標画像とし、ユーザーが画像編集ページにおける全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用して画像の全図漫画化処理を行うことができる。
【0093】
もう一種の例において、目標画像は、目標ビデオにおける複数の画像フレームをさらに含むことができる。例えば、生放送シーンで、ユーザーが生放送インタフェースに全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用して生放送されるビデオにおける複数の画像フレームに対して全図漫画化処理を行うことができる。また、ショートビデオまたはビデオ再生シーンで、ユーザーが再生インタフェースに全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用してビデオにおける複数の画像フレームに対して全図漫画化処理を行うことができる。
【0094】
ステップ860で、前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力する。
【0095】
当該実施例で、漫画化モデルがエンコーダの入力層によって目標画像を取得した後、入力層は当該目標画像を図7に示すようなエンコーダの1番目の残差層に入力し、1番目の残差層は当該目標画像の特徴図を抽出し、次の残差層に入力し、及びデコーダの対応層に入力し、その後、次の残差層は、続けて特徴抽出を行い、このように類推して、最後一つの残差層及びFC層が処理を完了するまでに、この時、エンコーダの動作は完了する。その後、デコーダが動作し、デコーダの各層において、受信した目標特徴図及び目標様式属性情報によって漫画化処理を行い、処理結果を次の層に転送して処理を行い、このように類推して、最後のデコード層が全図漫画化画像を出力層に出力し、出力層が当該全図漫画化画像を出力するまでに、デコーダの動作は完了する。その後、次の目標画像の処理を行うことができる。
【0096】
本実施例では、漫画化モデルのエンコーダ及びデコーダによって全図漫画化技術を実現し、真図の風格が変わらないと同時に、全図漫画化の風格が強く、漫画感が真実で、没入感が高く、多様な異なる漫画化風格に適用される。
【0097】
図9は本願実施例に提供される漫画化モデルを構築する装置実施例の構造ブロック図であり、以下のようなモジュールを含むことができる:
サンプル真図生成モジュール910は、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
第2生成モデル構築モジュール920は、前記第1生成モデルに基づいて第2生成モデルを構築するように設定され、
サンプル漫画図生成モジュール930は、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
画像ペア結成モジュール940は、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
漫画化モデルフィッティングモジュール950は、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される。
【0098】
一種の実施例で、前記第2生成モデル構築モジュール920は以下のように設定され、
前記第1生成モデルの重みに対して調整を行い、中間漫画モデルを生成し、
前記中間漫画モデルにおける一部の指定層に対応する重みを前記第1生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第2生成モデルを生成する。
【0099】
一種の実施例で、前記一部の指定層は人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む。
【0100】
一種の実施例で、前記初期漫画化モデルは、エンコーダ及びデコーダを含み、
前記漫画化モデルフィッティングモジュール950は、以下のようなサブモジュールを含むことができる:
エンコードサブモジュールは、前記エンコーダを採用して前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記デコーダに出力するように設定され、
デコードサブモジュールは、前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第2生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得るように設定される。
【0101】
一種の実施例で、前記損失関数は、敵対的ネットワーク損失関数、知覚損失関数及び回帰損失関数L1_lossという損失関数の結合を含み、
前記敵対的ネットワーク損失関数は、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算するために使用され、
前記知覚損失関数は、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第1特徴図及び第2特徴図を取得し、前記第1特徴図と前記第2特徴図との間のL2損失を計算するために使用され、
前記L1_lossは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のL1損失を計算するために使用される。
【0102】
一種の実施例で、前記エンコーダの構造は以下のようなものである:
入力層、いくつかの残差層及び全結合層であり、ここで、複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される。
【0103】
一種の実施例で、前記エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである。
【0104】
一種の実施例で、前記第2生成モデルはStyleGAN2モデルであり、前記デコーダの構造は前記StyleGAN2モデルの合成ネットワークの構造と同じである。
【0105】
一種の実施例で、前記装置は、以下のようなモジュールをさらに含むことができる:
目標画像獲得モジュールは、目標画像を獲得し、前記目標画像を前記漫画化モデルに入力するように設定され、
全図漫画化処理サブモジュールは、前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力するように設定される。
【0106】
一種の実施例で、前記目標画像は、
画像編集ページを介して入力される画像、
目標ビデオにおける複数の画像フレーム、のうちの少なくともの一種を含む。
【0107】
一種の実施例で、前記装置は、以下のようなモジュールをさらに含むことができる:
データ拡張モジュールは、前記サンプルセットを採用してモデルフィッティングを行う前に、前記サンプルセットに対してデータ拡張を行い、ここで、前記データ拡張がランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うことを含むように設定される。
【0108】
本願の実施例に提供される漫画化モデルを構築する装置は、本願の前述実施例における漫画化モデルを構築する方法を実行することができ、方法を実行する相応の機能モジュールと有益な効果を具備する。
【0109】
図10は本願実施例に提供される電子デバイスの構造概略図であり、図10に示すように、当該電子デバイスは、プロセッサ1010、メモリ1020、入力装置1030及び出力装置1040を含み、電子デバイスにおけるプロセッサ1010の数は、一つまたは複数であってもよく、図10において一つのプロセッサ1010を例とし、電子デバイスにおけるプロセッサ1010、メモリ1020、入力装置1030及び出力装置1040は、バスまたは他の方式によって接続されることができ、図10においてバスによる接続を例とする。
【0110】
メモリ1020は、コンピュータ可読記憶媒体として、ソフトウェアプログラム、コンピュータ実行可能なプログラム及びモジュール(例えば、本願実施例における上記実施例における任一の実施例に対応するプログラム指令/モジュール)を記憶するために使用されることがでる。プロセッサ1010はメモリ1020に記憶されるソフトウェアプログラム、指令及びモジュールを稼働することで、電子デバイスの多様な機能応用及びデータ処理を実行し、即ち、上記の方法実施例における任一実施例に説明した方法を実現する。
【0111】
メモリ1020は、主にプログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、端末の使用に応じて所作成されたデータなどを記憶することができる。さらに、メモリ1020は、高速ランダムアクセスメモリを含むことができ、不揮発性メモリを含むこともでき、例えば、少なくとも一つのディスク記憶部品、フラッシュメモリ部品、または他の不揮発性固体記憶部品である。いくつかの例では、メモリ1020は、プロセッサ1010に対して遠隔的に設置されるメモリを含むことができ、これらの遠隔的なメモリは、ネットワークによってデバイス/端末/サーバに接続されることができる。上記ネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、移動体通信ネットワーク及びその組み合わせを含むが、これらに限定されない。
【0112】
入力装置1030は、入力された数字または文字情報を受信し、且つ電子デバイスのユーザー設置及び機能制御に係るキー信号入力を生成するように設定されることができる。出力装置1040はディスプレイなどの表示デバイスを含むことができる。
【0113】
本願の実施例もコンピュータ実行可能な指令が含まれる記憶媒体を提供し、前記コンピュータ実行可能な指令は、コンピュータプロセッサによって実行される際に、上記方法実施例における任一実施例の方法を実行するために使用される。コンピュータ可読記憶媒体は、非一時的コンピュータ可読記憶媒体であってもよい。
【0114】
もちろん、本願実施例に提供されるコンピュータ実行可能な指令が含まれる記憶媒体は、そのコンピュータ実行可能な指令は上記のような方法で操作されることに限定されるものではなく、本願の任意実施例に提供される方法における関連操作を実行することもできる。
【0115】
本願実施例はもう一つのコンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータ実行可能な指令を含み、前記コンピュータ実行可能な指令は、コンピュータプロセッサによって実行される際に、上記実施例における任一実施例の方法を実行するために使用される。
【0116】
もちろん、本願の実施例に提供されるコンピュータプログラム製品は、そのコンピュータ実行可能な指令は、上記のような方法で操作されることに限定されず、本願の任意実施例に提供される方法における関連操作を実行することもできる。
【0117】
以上の実施方式についての説明によって、当業者であれば、本願がソフトウェア及び必要な汎用ハードウェアによって実現されてもよく、もちろん、ハードウェアによって実現されてもよいことを明らかに理解することができる。このような理解に基づいて、本願の技術案は、本質的にまたは関連技術に貢献する部分は、ソフトウェア製品の形式で具現化されることができ、当該コンピュータソフトウェア製品は、例えばコンピュータのフロッピーディスク、読み取り専用メモリ(Read-Only Memory, ROM)、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ(FLASH)、ハードディスクまたは光ディスクなどのコンピュータ可読記憶媒体に記憶されることができ、いくつかの指令を含むことで、一つの電子デバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい)に本願の複数の実施例の前記の方法を実行させる。
【0118】
なお、上記装置の実施例において、含まれる複数のユニットとモジュールは、機能ロジックのみに従って区分されるが、上記の区分に限定されるものではなく、相応の機能を実現すればよく、また、複数の機能ユニットの具体的な名称も相互に区別しやすいようにするものであり、本願の保護範囲を限定するためのものではない。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成することと、
前記第1生成モデルに基づいて第2生成モデルを構築し、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、
前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、
を含む、
漫画化モデルを構築する方法。
【請求項2】
前記第1生成モデルに基づいて第2生成モデルを構築することは、
前記第1生成モデルの重みに対して調整を行い、中間漫画モデルを生成することと、
前記中間漫画モデルにおける一部の指定層に対応する重みを前記第1生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第2生成モデルを生成することと、
を含む、
請求項1に記載の方法。
【請求項3】
前記一部の指定層は、人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む、
請求項2に記載の方法。
【請求項4】
前記初期漫画化モデルはエンコーダとデコーダとを含み、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することは、
前記エンコーダを採用して前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記デコーダに出力することと、
前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第2生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得ることと、
を含む、
請求項1に記載の方法。
【請求項5】
前記損失関数は、敵対的ネットワーク損失関数、知覚損失関数及び回帰損失関数L1_lossという損失関数の結合を含み、
前記敵対的ネットワーク損失関数は、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算するために使用され、
前記知覚損失関数は、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第1特徴図及び第2特徴図を取得し、前記第1特徴図と前記第2特徴図との間のL2損失を計算するために使用され、
前記回帰損失関数L1_lossは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のL1損失を計算するために使用される、
請求項4に記載の方法。
【請求項6】
前記エンコーダの構造は、入力層、複数の残差層及び全結合層であり、ここで、前記複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される、
請求項4に記載の方法。
【請求項7】
前記エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである、
請求項6に記載の方法。
【請求項8】
前記第2生成モデルはStyleGAN2モデルであり、前記デコーダの構造は前記StyleGAN2モデルの合成ネットワークの構造と同じである、
請求項4に記載の方法。
【請求項9】
目標画像を獲得し、前記目標画像を前記漫画化モデルに入力することと、
前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力することと、
をさらに含む、
請求項4に記載の方法。
【請求項10】
前記目標画像は、画像編集ページを介して入力される画像、目標ビデオにおける複数の画像フレーム、のうちの少なくともの一種を含む。
請求項9に記載の方法。
【請求項11】
前記サンプルセットを採用してモデルフィッティングを行う前に、前記サンプルセットに対してデータ拡張を行い、ここで、前記データ拡張は、ランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小の少なくともの一種を行うことを含むこと、
をさらに含む、
請求項1に記載の方法。
【請求項12】
サンプル真図生成モジュールと、第2生成モデル構築モジュールと、サンプル漫画図生成モジュールと、画像ペア結成モジュールと、漫画化モデルフィッティングモジュールとを含み、
前記サンプル真図生成モジュールは、予め訓練される第1生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
前記第2生成モデル構築モジュールは、前記第1生成モデルに基づいて第2生成モデルを構築するように設定され、
前記サンプル漫画図生成モジュールは、前記第2生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
前記画像ペア結成モジュールは、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
前記漫画化モデルフィッティングモジュールは、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第2生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される、
漫画化モデルを構築する装置。
【請求項13】
一つまたは複数のプロセッサと、記憶装置とを含み、
前記記憶装置が、一つまたは複数のプログラムを記憶するように設定され、
前記一つまたは複数のプログラムが、前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサに請求項1~11のいずれかに記載の前記の方法を実現させる、
漫画化モデルを構築する電子デバイス。
【請求項14】
コンピュータプログラムが記憶され、
前記コンピュータプログラムがプロセッサに実行される場合、請求項1~11のいずれかに記載の前記の方法を実現する、
コンピュータ可読記憶媒体。
【請求項15】
コンピュータ実行可能な指令を含み、
前記コンピュータ実行可能な指令が実行される場合、請求項1~11のいずれかに記載の前記の方法を実現するように設定される、
コンピュータプログラム。
【手続補正3】
【補正対象書類名】図面
【補正対象項目名】図9
【補正方法】変更
【補正の内容】
図9
【国際調査報告】