特表2024-539737 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ビゴ　テクノロジー　ピーティーイー．　リミテッドの特許一覧

特表2024-539737漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-29

(54)【発明の名称】漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241022BHJP

G06T 7/20 20170101ALI20241022BHJP

G06T 1/00 20060101ALI20241022BHJP

【ＦＩ】

G06T7/00 350C

G06T7/00 660

G06T7/20 300B

G06T1/00 500B

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024529386

(86)(22)【出願日】2022-11-16

(85)【翻訳文提出日】2024-05-16

(86)【国際出願番号】 CN2022132131

(87)【国際公開番号】W WO2023088276

(87)【国際公開日】2023-05-25

(31)【優先権主張番号】202111356773.X

(32)【優先日】2021-11-16

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】320010240

【氏名又は名称】ビゴテクノロジーピーティーイー．リミテッド

【住所又は居所原語表記】３０ＰＡＳＩＲＰＡＮＪＡＮＧＲＯＡＤ，＃１５－３１Ａ，ＭＡＰＬＥＴＲＥＥＢＵＳＩＮＥＳＳＣＩＴＹ，ＳＩＮＧＡＰＯＲＥ１１７４４０

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】李安

(72)【発明者】

【氏名】李玉▲楽▼

(72)【発明者】

【氏名】▲項▼ ▲偉▼

【テーマコード（参考）】

5B057

5L096

【Ｆターム（参考）】

5B057CB12

5B057CC01

5B057DB02

5L096AA02

5L096BA18

5L096DA04

5L096HA11

(57)【要約】

本願は、漫画化モデル構築方法、装置、電子デバイス、記憶媒体及びプログラムが開示され、前記方法は、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成することと、前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、を含む。

【特許請求の範囲】

【請求項1】

予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成することと、
前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、
前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、
を含む、
漫画化モデルを構築する方法。

【請求項2】

前記第１生成モデルに基づいて第２生成モデルを訓練することは、
前記第１生成モデルの重みに対して調整を行い、中間漫画モデルを生成することと、
前記中間漫画モデルにおける一部の指定層に対応する重みを前記第１生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第２生成モデルを生成することと、
を含む、
請求項１に記載の方法。

【請求項3】

前記一部の指定層は、人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む、
請求項２に記載の方法。

【請求項4】

前記初期漫画化モデルはエンコーダとデコーダとを含み、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを予め訓練するための重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することは、
前記エンコーダを採用して前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記デコーダに出力することと、
前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第２生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得ることと、
を含む、
請求項１～３のいずれかに記載の方法。

【請求項5】

前記損失関数は、敵対的ネットワーク損失関数、知覚損失関数及び回帰損失関数Ｌ１＿ｌｏｓｓという損失関数の結合を含み、
前記敵対的ネットワーク損失関数は、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算するために使用され、
前記知覚損失関数は、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第１特徴図及び第２特徴図を取得し、前記第１特徴図と前記第２特徴図との間のＬ２損失を計算するために使用され、
前記回帰損失関数Ｌ１＿ｌｏｓｓは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のＬ１損失を計算するために使用される、
請求項４に記載の方法。

【請求項6】

前記エンコーダの構造は、入力層、複数の残差層及び全結合層であり、ここで、前記複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される、
請求項４に記載の方法。

【請求項7】

前記エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである、
請求項６に記載の方法。

【請求項8】

前記第２生成モデルはＳｔｙｌｅＧＡＮ２モデルであり、前記デコーダの構造は前記ＳｔｙｌｅＧＡＮ２モデルの合成ネットワークの構造と同じである、
請求項４に記載の方法。

【請求項9】

目標画像を獲得し、前記目標画像を前記漫画化モデルに入力することと、
前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力することと、
をさらに含む、
請求項４に記載の方法。

【請求項10】

前記目標画像は、画像編集ページを介して入力される画像、目標ビデオにおける複数の画像フレーム、のうちの少なくともの一種を含む。
請求項９に記載の方法。

【請求項11】

前記サンプルセットを採用してモデルフィッティングを行う前に、前記サンプルセットに対してデータ拡張を行い、ここで、前記データ拡張は、ランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの角度の回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うことを含むこと、
をさらに含む、
請求項１に記載の方法。

【請求項12】

サンプル真図生成モジュールと、第２生成モジュール構築モジュールと、サンプル漫画図生成モジュールと、画像ペア結成モジュールと、漫画化モデルフィッティングモジュールとを含み、
前記サンプル真図生成モジュールは、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
前記第２生成モジュール構築モジュールは、前記第１生成モデルに基づいて第２生成モデルを構築するように設定され、
前記サンプル漫画図生成モジュールは、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
前記画像ペア結成モジュールは、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
前記漫画化モデルフィッティングモジュールは、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される、
漫画化モデルを構築する装置。

【請求項13】

一つまたは複数のプロセッサと、記憶装置とを含み、
前記記憶装置が、一つまたは複数のプログラムを記憶するように設定され、
前記一つまたは複数のプログラムが、前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサに請求項１～１１のいずれかに記載の前記の方法を実現させる、
電子デバイス。

【請求項14】

コンピュータプログラムが記憶され、
前記コンピュータプログラムがプロセッサに実行される場合、請求項１～１１のいずれかに記載の前記の方法を実現する、
コンピュータ可読記憶媒体。

【請求項15】

コンピュータ実行可能な指令を含み、
前記コンピュータ実行可能な指令が実行される場合、請求項１～１１のいずれかに記載の前記の方法を実現するように設定される、
コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０２１年１１月１６日に中国特許庁に提出された出願番号２０２１１１３５６７７３．Ｘの中国特許出願の優先権を主張し、その全ての内容は参照により本願に援用する。

【0002】

本願は、画像処理の技術分野に関し、例えば、漫画化モデルを構築する方法、漫画化モデルを構築する装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。

【背景技術】

【0003】

画像漫画化技術は、コンピュータビジョンにおける画像編集の一般的なタスクの一つであり、生活及び娯楽において非常に広く応用され、例えば、映画制作、アニメ制作、ショートビデオ、生放送などのシーンにおいて、画像に対して漫画化処理を行う。

【0004】

関連技術において、画像漫画化の処理の実現方式は以下の通りである。

【0005】

一つは、基本信号に基づく処理方式であり、この方式は、主に一つの素材ライブラリを構築し、例えば、高さ、太り具合、髪の色、服飾の色などの多様な関連の基本信号によって、素材ライブラリに最適な素材をマッチングし、その後、マッチングした素材をアニメイメージに組み合わせる。この方式は、イメージが単一、柔軟性が不足し、多様性が不足し、ユーザーの特徴類似性が悪いなどの欠点がある。

【0006】

もう一種は、画像を貼り付けて顔を製造する処理方法である。当該方法は、変形によって、実在人間の顔をアニメ人の顔の形状に変形し、その後、多様な素材、例えばアニメの顔、目、眉毛などを貼り付ける方式によって画像漫画化を実現する。しかし、この方式の効果が単一、異なる人物が構築するアニメ化イメージは大同小異で、多様性が悪く、漫画感が弱く、真実性が悪い。

【発明の概要】

【0007】

本願に、関連技術における漫画化処理される際に生成した漫画画像イメージが単一、柔軟性が不足し、多様性が不足、ユーザーの特徴類似性が悪く、漫画感が弱いなどの状況を回避する、漫画化モデル構築方法、装置、デバイス、記憶媒体及びプログラム製品が提供される。

【課題を解決するための手段】

【0008】

第１態様で、本願の実施例に漫画化モデルを構築する方法が提供され、前記方法は、
予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成することと、
前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、
前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、
を含む。

【0009】

第２態様で、本願の実施例に漫画化モデルを構築する装置も提供され、前記装置は、
サンプル真図生成モジュールと、サンプル漫画図生成モジュールと、画像ペア結成モジュールと、漫画化モデルフィッティングモジュールとを含み、
前記サンプル真図生成モジュールは、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
前記サンプル漫画図生成モジュールは、前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
前記画像ペア結成モジュールは、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
前記漫画化モデルフィッティングモジュールは、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される。

【0010】

第３態様で、本願の実施例に電子デバイスも提供され、前記電子デバイスは、
一つまたは複数のプロセッサと記憶装置とを含み、
前記記憶装置が、一つまたは複数のプログラムを記憶するように設定され、
前記一つまたは複数のプログラムが、前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサに上記第１態様或第２態様の方法を実現させる。

【0011】

第４態様で、本願の実施例にコンピュータ可読記憶媒体も提供され、コンピュータプログラムが記憶され、当該プログラムがプロセッサに実行される場合、上記第１態様或第２態様の方法を実現する。

【0012】

第５態様で、本願実施例にコンピュータプログラム製品も提供され、前記コンピュータプログラム製品はコンピュータ実行可能な指令を含み、前記コンピュータ実行可能な指令が実行される場合、上記第１態様或第２態様の方法を実現する。

【図面の簡単な説明】

【0013】

【図1】本願の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図2】本願の一実施例に提供される漫画化モデルに基づいて画像の全図漫画化処理を行う効果概略図である。

【図3】本願の一実施例に提供されるＳｔｙｌｅＧＡＮ２モデルのモデルアーキテクチャ概略図である。

【図4】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図5】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図6】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図7】本願の一実施例に提供される初期漫画化モデル的アーキテクチャ概略図である。

【図8】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図9】本願の一実施例に提供される漫画化モデルを構築する装置実施例の構造ブロック図である。

【図10】本願の一実施例に提供される電子デバイスの構造概略図である。

【発明を実施するための形態】

【0014】

図１は、本願の一実施例に提供される漫画化モデルを構築する方法の実施例のフローチャートである。当該方法は、漫画化モデル構築装置によって実現することができ、ここで、当該漫画化モデル構築装置は、サーバまたはクライアントに設置されることができ、本実施例はこれに限定しない。

【0015】

本実施例の構築する漫画化モデルは、画像処理、ショートビデオ、映画制作、生放送、３Ｄ漫画などのシーンに適用され、画像処理、ショートビデオ、映画、生放送などのシーンにおける画像を全図漫画化画像に処理するために使用さることができる。例えば、図２に示すように、１枚の画像が与えられ、当該画像を漫画化モデルに入力し、漫画化モデルは、全図を漫画した後の画像（即ち、全図漫画化画像）を出力することができ、全図漫画化画像と入力される画像の内容は変わらないが、漫画の風格になり、即ち、入力される画像における全ての要素を漫画化する。また、１本のショートビデオが与えられ、当該ショートビデオの各フレームの画像を漫画化モデルに入力し、漫画化モデルは、複数のフレームの画像に対応する全図漫画化画像を出力することで、入力されるショートビデオにおける各フレームの画像を全図漫画化することを実現できる。

【0016】

本実施例の構築する漫画化モデルは、開発文書に従ってＡＰＰまたはＷｅｂページにアクセスされる。

【0017】

図１に示すように、本実施例は、以下のようなステップを含むことができる。

【0018】

ステップ１１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0019】

生成モデル（ＧｅｎｅｒａｔｉｖｅＭｏｄｅｌ）は、確率統計と機械学習における一種の重要なモデルであり、観測可能なデータをランダムに生成するために使用されるモデルを指す。例示的に、第１生成モデルは様式ＧＡＮ２（ＳｔｙｌｅＧＡＮ２）モデルであってもよく、ＳｔｙｌｅＧＡＮ２モデルを採用して予め設定される数のサンプル真図をランダムに生成することができる。ここで、サンプル真図は漫画化処理されない画像であってもよく、例えば、真実人物の画像を含む。

【0020】

ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、生成式敵対的ネットワーク）は、一種の深層学習モデルであり、新しい内容を生成できる生成モデルである。ＳｔｙｌｅＧＡＮはＧＡＮのうちの一つであり、風格による生成モデルであり、ＳｔｙｌｅＧＡＮは、是一種の先進的な高解像度画像合成方法であり、多様なデータセットで確実に動作することができることが証明された。ＳｔｙｌｅＧＡＮは、リアルな人物像だけでなく、他の動物、自動車ひいては部屋を生成するために使用されることもできる。しかし、ＳｔｙｌｅＧＡＮは完璧ではなく、最も明らかな欠陥は、生成した画像が斑点のようなアーティファクト（ａｒｔｉｆａｃｔｓ）を含むことがあるが、この欠陥はＳｔｙｌｅＧＡＮ２によって克服されるため、生成画像の品質を向上させる。

【0021】

図３に示すようなＳｔｙｌｅＧＡＮ２モデルのモデルアーキテクチャに示すように、ＳｔｙｌｅＧＡＮ２は二つの部分からなり、図３におけるマッピングネットワーク（ＭａｐｐｉｎｇＮｅｔＷｏｒｋ）である左の部分及び合成ネットワークである右の部分を含む。

【0022】

ＭａｐｐｉｎｇＮｅｔＷｏｒｋは入力をより適切にアンラップすることができる。図３に示すように、ＭａｐｐｉｎｇＮｅｔＷｏｒｋは、８つの全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒｓ、ＦＣ）によって構成され、その入力はガウス雑音（ｌａｔｅｎｔＺ）であり、ＭａｐｐｉｎｇＮｅｔＷｏｒｋを経て隠れた変数（Ｗ）を得る。

【0023】

合成ネットワークは、学習可能なアフィン変換Ａ、モジュレーションモジュールＭｏｄ－Ｄｅｍｏｄ、アップサンプリングＵｐｓａｍｐｌｅなどのモジュールによって構成される。そのほか、合成ネットワークは、重み（ｗ）、偏差（ｂ）及び定数入力（ｃ、即ち、Ｃｏｎｓｔ４＊４＊５１２であり、学習可能な定数を示す）をさらに含み、活性化関数（ＬｅａｋｙＲｅＬＵ）は常にバイアスを追加した直後に適用される。

【0024】

ここで、学習可能なアフィン変換Ａは一つの全結合層によって構成され、Ｕｐｓａｍｐｌｅは逆畳み込み（転置畳み込みとも呼ばれ）を使用してアップサンプリング操作を行うことができる。

【0025】

モジュレーションモジュールＭｏｄ－Ｄｅｍｏｄの処理の流れは以下の通りである：

【数1】

ここで、ｓ_ｉはｉ番目の入力する特徴図のスケーリング比率であり、
スケーリングと畳み込みを経った後、畳み込み層の重みに対してｄｅｍｏｄを行い、出力する活性化の標準偏差は、

【数2】

である。
出力を単位標準偏差に戻すために、ｄｅｍｏｄ重みを復調し、即ち、新しい畳み込み層の重みは、

【数3】

である。
上式では、分母が０にならないように、∈を加える。

【0026】

図３に、一番右のはランダムの雑音の注入であり、Ｂは学習可能な雑音パラメータであり、ランダムの雑音を引入することは、生成された画像をより真実且つ迫真になるために使用され、例えば、これらの雑音を生成する際に、例えば、顔の斑点などの人の顔のわずかな特徴を生成することができる。

【0027】

ステップ１２０で、前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。

【0028】

当該ステップでは、第２生成モデルもＳｔｙｌｅＧＡＮ２モデルであってもよく、第１生成モデルと第２生成モデルのモデルアーキテクチャは同じであるが、訓練の目標が異なることにより、モデルの重みが異なるという相違点がある。第１生成モデルの訓練モデルは、サンプル真図、即ち漫画化されない画像を生成するものである。第２生成モデルの訓練モデルは、サンプル漫画図、即ち漫画化後の画像を生成するものである。

【0029】

１つの実施形態では、予め訓練される第１生成モデルの重みに対して、漫画データを訓練目標として微調整（ｆｉｎｅ－ｔｕｎｅ）を行うことで、漫画化の第２生成モデルを得ることができる。次に、第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。

【0030】

ステップ１３０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0031】

当該ステップでは、予め設定される数のサンプル真図及び対応するサンプル漫画図を生成した後、各サンプル真図と各サンプル真図に対応するサンプル漫画図をサンプル画像ペア（ｐｉｃｔｕｒｅＴＯｐｉｃｔｕｒｅ、Ｐ２Ｐ）に構成することができる。後続のモデルフィッティングのために、全てのサンプル画像ペアをサンプルセットに組み立てる。

【0032】

なお、予め設定される数は、一種の経験値であってもよく、モデルの需要精度に基づいて予め設定される数の具体的な値を決定することができ、例えば、予め設定される数は、１５万であってもよく、即ち、１５万の対のサンプル画像ペアを生成する。

【0033】

ステップ１４０で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。

【0034】

当該ステップでは、サンプル画像ペアからなるサンプルセットを取得した後、当該サンプルセットにおけるサンプル真図を訓練データとし、最終的に生成する第２生成モデルに対応する重みを初期重みとし、各サンプル真図に対応するサンプル漫画図を最適化目標とし、予め設置される初期漫画化モデルに対してフィッティングを行い、最終的にフィッティングした漫画化モデルを得て、当該漫画化モデルが、目標画像を全図漫画化画像を転化するように設置されることができる。

【0035】

本実施例では、目標画像を全図漫画化画像に転化するための漫画化モデルを構築する際に、まず、予め訓練される第１生成モデルによって予め設定される数のサンプル真図をランダムに生成し、この後、当該第１生成モデルに基づいて、漫画図を生成するための第２生成モデルを構築し、且つ当該第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成し、サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることで、サンプルセットを得て、次に、第２生成モデルに対応する重みを初期重みとし、当該サンプルセットを採用して予め設置される初期漫画化モデルに対してフィッティングを行い、フィッティングしたモデルは漫画化モデルであり、全図漫画化処理を実現することができる。本実施例における第２生成モデルは第１生成モデルと関連し、且つ第２生成モデルの重みを漫画化モデルの初期重みとし、画像ペア結成の方式を採用して画像ペアを訓練データとして得て、漫画化モデルに対するフィッティングを実現し、最後に得た漫画化モデルがより高いロバスト性と一般化性を持ち、全図漫画化の効果を高める。なお、本実施例は、必要なデータ量に対する需要は、他の方案より少ない。

【0036】

図４は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として第２生成モデルの構築過程をより具体的に説明する。図４に示すように、本実施例は以下のようなステップを含むことができる。

【0037】

ステップ４１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0038】

ステップ４２０で、前記第１生成モデルの重みに対して調整を行い、中間漫画モデルを生成する。

【0039】

当該実施例で、第１生成モデルの訓練目標は漫画化されない原図でり、中間漫画モデルの訓練目標は漫画化処理を経った後の漫画画像であるため、第１生成モデルの重みを中間漫画モデルの初期重みとし、漫画画像を訓練目標とすることで、中間漫画モデルを生成する。このように、中間漫画モデルの重みは、第１生成モデルの重みに対して調整を行った後に得られる。

【0040】

ステップ４３０で、前記中間漫画モデルにおける一部の指定層に対応する重みを前記第１生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第２生成モデルを生成する。

【0041】

最終に出力する漫画画像の一部の属性が第１生成モデルが生成する原図における属性と一致であることを確保するために、中間漫画モデルを生成した後、中間漫画モデルにおける一部の指定層に対応する重みを第１生成モデルの、当該一部の指定層に対応する重みに置き換え、重み補間を行い、第２生成モデルを生成することもできる。

【0042】

例えば、一部の指定層は、人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む。つまり、漫画化後の人物の姿勢ｐｏｓｅ及び肌の色が原図における実在人間の姿勢及び肌の色と一致を保持することを確保するために、中間漫画モデルを得た後、中間漫画モデルにおける人物の姿勢を制御する層及び人物の肌の色を制御する層の重みを、第１生成モデルにおける人物の姿勢を制御する層及び人物の肌の色を制御する層の重みに置き換え、中間漫画モデルにおいて重み補間を行い、最終的に第２生成モデルの重みを得ることができる。

【0043】

重み補間とは補間アルゴリズムを採用して２つの重みの間の新しい重みを計算し、新しい重みを２つの重みの間に挿入することである。本実施例は、重み補間の具体的な補間アルゴリズムを限定しなく、例えば、逆距離加重補間法（ＩＤＷ）を含むことで、重み補間を行う。逆距離加重補間も距離逆数累乗法と呼ばれることができ、距離逆数累乗格子網化方法は一つの重み付け平均補間法であり、適切なまたは円滑な方式補間を行うことができることを意味する。逆距離加重（ＩＤＷ）補間の明示的な仮定は、互いの距離が比較的に近いものは、互いの距離が比較的に遠いものより、似ていることである。何も測定されない位置に対して値を予測する場合、逆距離加重法は、予測位置周囲の測定値を採用することができる。予測位置から比較的に遠い測定値より、予測位置から最も近い測定値が予測値に対する影響はより大きい。逆距離加重法は各測定点はいずれも一つの一部的な影響があり、この影響が距離の増大につれて低減すると仮定する。この方法は、距離予測位置が最も近い点に対して割り当てられた重みは比較的に大きいであるが、距離の関数としての重みが低減するため、逆距離加重法と呼ばれる。

【0044】

そのほか、当業者は、また、共分散重み補間アルゴリズム、クリキン補間法などに基づいて重み補間を行うことを採用することができる。

【0045】

ステップ４４０で、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。

【0046】

ステップ４５０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0047】

ステップ４６０で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。

【0048】

本実施例では、第２生成モデルを構築する際に、予め訓練される第１生成モデルを基礎とし、漫画画像を訓練目標とし、第１生成モデルの重みに対して調整を行い、中間漫画モデルを得て、その後、中間漫画モデルに対して一部の層の重みの置き換え及び重みの補間を行い、最終的な第２生成モデルの重みを得ることで、第２生成モデルに対する構築を完了する。単に漫画化画像を訓練目標として第２生成モデルを訓練することより、本実施例の上記方式によって構築する第２生成モデルはロバスト性がより高くなり、漫画化画像の真実性を向上させる。

【0049】

図５は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として訓練サンプルの処理過程をより具体的に説明する。図５に示すように、本実施例は以下のようなステップを含むことができる。

【0050】

ステップ５１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0051】

ステップ５２０で、前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。

【0052】

ステップ５３０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0053】

ステップ５４０で、複数の前記サンプル画像ペアに基づいて構成されるサンプルセットに対してデータ拡張を行い、ここで、前記データ拡張は、ランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの角度の回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うこと含む。

【0054】

当該ステップでは、全てのサンプル画像ペアをサンプルセットに組み立て、その後、サンプルセットにおけるサンプル真図及びサンプル漫画図に対してデータ拡張を行うことで、訓練データのデータ量を増加し、モデルのロバスト性及び一般化能力を向上することができる。

【0055】

実現する際に、データ拡張は、多様な雑音拡張、ダウンサンプリングしたらアップサンプリングするなどの方式の拡張、サンプル画像ペアに対するデータ拡張、などという方式のうちの少なくともの一種を含むことができる。

【0056】

例示的に、サンプル画像ペアに対するデータ拡張は、ランダムにサンプル真図及び／またはサンプル漫画図に対して、ランダムの角度の回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などを行うことを含むが、これに限定されない。

【0057】

ステップ５５０で、前記サンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成する。

【0058】

データ拡張の方式によってサンプルセットを取得した後、当該サンプルセットを採用し、第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、漫画化モデルを生成することができる。

【0059】

本実施例では、サンプル真図と対応するサンプル漫画図とを組み合わせたサンプル画像ペアを取得した後、サンプル画像ペアを訓練データとしてサンプルセットに組み立て、その後、サンプルセットに対して多様な方式のデータ拡張を採用し、且つデータ拡張後のサンプルセット訓練漫画化モデルを採用し、全図漫画化技術を実現することができ、漫画化モデルのロバスト性をより向上させ、モデルが任意角度の対象（例えば、人物対象）に対していずれもロバストすることができ、且つ多様なシーンに対する一般化性が強く、多様な低品質画像に対する全図漫画化効果は依然として比較的に良い。

【0060】

図６は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として漫画化モデルの構築過程をより具体的に説明する。図６に示すように、本実施例は以下のようなステップを含むことができる。

【0061】

ステップ６１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0062】

ステップ６２０で、前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。

【0063】

ステップ６３０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0064】

ステップ６４０で、予め設置される初期漫画化モデルにおけるエンコーダを採用して、前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記初期漫画化モデルのデコーダに出力する。

【0065】

１つの実施形態では、初期漫画化モデルは、エンコーダＥｎｃｏｄｅｒ及びデコーダＤｅｃｏｄｅｒを含むことができ、図７に示すように、左の破線枠部分はＥｎｃｏｄｅｒであり、右の破線枠部分はＤｅｃｏｄｅｒである。Ｅｎｃｏｄｅｒの作用は、複数のサンプル真図に対して情報抽出を行い、且つ抽出した特徴図及び様式属性情報をＤｅｃｏｄｅｒに出力し、Ｄｅｃｏｄｅｒは特徴図及び様式属性情報によって結合を行い、全図漫画化画像を出力する。

【0066】

本実施例のＥｎｃｏｄｅｒの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである。

【0067】

一種の実施例で、Ｅｎｃｏｄｅｒの構造は、入力層、いくつかの残差層及び全結合層を含むことができ、ここで、複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される。

【0068】

例えば、Ｅｎｃｏｄｅｒの構造は、以下のテーブル１に示すように、テーブル１において、残差層（ＲｅｓＢｌｏｃｋ）は５つがあり、各残差層が出力する特徴図（Ｆｅａｔｕｒｅｍａｐ）のサイズはいずれも指定されるものであり、テーブル１における５１２＊５１２＊３、２５６＊２５６＊３２などのようなものである。全結合層ＦＣが出力するのは１６＊５１２サイズの様式属性情報である。

【0069】

【表1】

【0070】

図７に示すように、各残差層が抽出した特徴図は、一方、次の層に出力されて処理を行い、他の方、またＤｅｃｏｄｅｒの対応層（最後一つの残差層は除き、最後一つの残差層が結果のみをＤｅｃｏｄｅｒの対応層に出力し）に出力される必要がある。ここの対応層とは、現在出力される特徴図のサイズにマッチングするデコード層であり、例えば、現在出力される特徴図サイズは３２＊３２＊５１２である場合、Ｄｅｃｏｄｅｒにおける対応層とは、３２＊３２＊５１２サイズの特徴図を処理できるデコード層である。

【0071】

図７において、Ｅｎｃｏｄｅｒの一番右の二つの出力層について、上方に位置するのは最後一つの残差層ＲｅｓＢｌｏｃｋであり、サイズが１６＊１６＊５１２である特徴図を出力し、下方に位置するのはＦＣ層であり、出力するのは１６＊５１２サイズの様式属性情報であり、ＦＣ層は様式属性情報をＤｅｃｏｄｅｒの各層に出力することで、Ｄｅｃｏｄｅｒが様式属性情報によって全図アニメ化処理を行うことを容易にする。

【0072】

ステップ６５０で、前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第２生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得る。

【0073】

１つの実施形態では、デコーダＤｅｃｏｄｅｒの構造は第２生成モデルＳｔｙｌｅＧＡＮ２モデルの合成ネットワークの構造と同じであり、且つ第２生成モデルの重みを初期重みとして訓練を行う。

【0074】

図７に示すように、Ｄｅｃｏｄｅｒの各デコード層は、Ｅｎｃｏｄｅｒが入力する特徴図及び様式属性情報を取得した後、特徴図と様式属性情報に対してデコード合成を行い、デコード結果を次の層に出力し、このように類推して、最後一つのデコード層が全図漫画化の結果を出力する。

【0075】

一種の実施例で、訓練漫画化モデルが使用する損失関数は、敵対的ネットワーク損失関数ＧＡＮ_ｌｏｓｓ、知覚損失関数ｐｅｒｃｅｐｔｕａｌ_ｌｏｓｓ及び回帰損失関数Ｌ１_ｌｏｓｓという損失関数の結合を含むことができ、即ち、

【数4】

である。

【0076】

ここで、敵対的ネットワーク損失関数ＧＡＮ_ｌｏｓｓは一種の分類損失関数であり、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算することで、漫画化モデルが生成する全図漫画化画像の漫画感をより真実にするために使用される。

【0077】

１つの実施形態では、以下のような数式を採用してＧＡＮ_ｌｏｓｓを計算する：

【数5】

【0078】

ここで、Ｄは判別器、Ｅは平均値、Ｇ（ｘ）は漫画化モデルが出力する全図漫画化画像を表す。

【0079】

知覚損失関数ｐｅｒｃｅｐｔｕａｌ_ｌｏｓｓは、漫画化モデルが出力する全図漫画化画像とサンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第１特徴図及び第２特徴図を取得し、前記第１特徴図と前記第２特徴図との間のＬ２損失（最小二乗誤差）を計算するために使用される。

【0080】

例示的に、予め設置されるニューラルネットワークモデルは、ＶＧＧモデルであってもよく、例えば、ＶＧＧ－１９またはＶＧＧ－１６などである。

【0081】

１つの実施形態では、以下のような数式を採用してｐｅｒｃｅｐｔｕａｌ_ｌｏｓｓを計算することができる：

【数6】

【0082】

ここで、Ｅは平均値、Ｇ（ｘ）は漫画化モデルが出力する全図漫画化画像、ｘは漫画化モデルに入力されるサンプル原図に対応するサンプル漫画図を表す。

【0083】

Ｌ１_ｌｏｓｓは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のＬ１損失を計算するために使用され、以下のような数式を採用して示すことができる：

【数7】

【0084】

なお、本実施例における損失関数の設計は、上記の３種の損失関数の組み合わせに加えて、実際の最適化目標によって他の損失関数を採用することができ、本実施例はこれに限定しない。

【0085】

本実施例では、初期漫画化モデルはエンコーダ及びデコーダを含み、初期漫画化モデルに対してフィッティングを行う際に、エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みであるが、而デコーダの初期重みは第２生成モデルの重みであり、上記のモデルアーキテクチャを採用して、サンプル真図及びサンプル漫画図から結成されるペアとなるデータは訓練データであり、敵対的ネットワーク損失関数ＧＡＮ_ｌｏｓｓ、知覚損失関数ｐｅｒｃｅｐｔｕａｌ_ｌｏｓｓ及び回帰損失関数Ｌ１_ｌｏｓｓという３種の損失関数を結合し、漫画化モデルのフィッティングを行うことで、フィッティングした漫画化モデルはエンコーダを通じて画像の特徴図及びサンプル属性情報をより良く抽出し、且つデコーダは特徴図及びサンプル属性情報に対して全図漫画化処理することで、漫画化モデルが出力する全図漫画化画像の漫画感が強くなり、且つ全図漫画化後の内容は真図と更に一致し、さらに漫画化モデルのロバスト性と一般化能力を向上させることができ、低品質画像及び複雑なシーンに適用されることができる。

【0086】

図８は本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートであり、本実施例は前述実施例を基礎として、漫画化モデルの推理過程をより具体的に説明する。図８に示すように、本実施例は以下のようなステップを含むことができる。

【0087】

ステップ８１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0088】

ステップ８２０で、前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。

【0089】

ステップ８３０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0090】

ステップ８４０で、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、漫画化モデルを生成する。

【0091】

ステップ８５０で、目標画像を獲得し、前記目標画像を前記漫画化モデルに入力する。

【0092】

一種の例において、目標画像は、画像編集ページを介して入力される画像を含むことができる。例えば、画像編集アプリケーションまたは画像編集機能を有するアプリケーションにおいて、画像編集ページを開けた後、ユーザーが導入する画像を目標画像とし、ユーザーが画像編集ページにおける全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用して画像の全図漫画化処理を行うことができる。

【0093】

もう一種の例において、目標画像は、目標ビデオにおける複数の画像フレームをさらに含むことができる。例えば、生放送シーンで、ユーザーが生放送インタフェースに全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用して生放送されるビデオにおける複数の画像フレームに対して全図漫画化処理を行うことができる。また、ショートビデオまたはビデオ再生シーンで、ユーザーが再生インタフェースに全図漫画化機能をトリガした場合、すぐ本願の全図漫画化技術を使用してビデオにおける複数の画像フレームに対して全図漫画化処理を行うことができる。

【0094】

ステップ８６０で、前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力する。

【0095】

当該実施例で、漫画化モデルがエンコーダの入力層によって目標画像を取得した後、入力層は当該目標画像を図７に示すようなエンコーダの１番目の残差層に入力し、１番目の残差層は当該目標画像の特徴図を抽出し、次の残差層に入力し、及びデコーダの対応層に入力し、その後、次の残差層は、続けて特徴抽出を行い、このように類推して、最後一つの残差層及びＦＣ層が処理を完了するまでに、この時、エンコーダの動作は完了する。その後、デコーダが動作し、デコーダの各層において、受信した目標特徴図及び目標様式属性情報によって漫画化処理を行い、処理結果を次の層に転送して処理を行い、このように類推して、最後のデコード層が全図漫画化画像を出力層に出力し、出力層が当該全図漫画化画像を出力するまでに、デコーダの動作は完了する。その後、次の目標画像の処理を行うことができる。

【0096】

本実施例では、漫画化モデルのエンコーダ及びデコーダによって全図漫画化技術を実現し、真図の風格が変わらないと同時に、全図漫画化の風格が強く、漫画感が真実で、没入感が高く、多様な異なる漫画化風格に適用される。

【0097】

図９は本願実施例に提供される漫画化モデルを構築する装置実施例の構造ブロック図であり、以下のようなモジュールを含むことができる：
サンプル真図生成モジュール９１０は、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
第２生成モジュール構築モジュール９２０は、前記第１生成モデルに基づいて第２生成モデルを構築するように設定され、
サンプル漫画図生成モジュール９３０は、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
画像ペア結成モジュール９４０は、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
漫画化モデルフィッティングモジュール９５０は、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される。

【0098】

一種の実施例で、前記第２生成モジュール構築モジュール９２０は以下のように設定され、
前記第１生成モデルの重みに対して調整を行い、中間漫画モデルを生成し、
前記中間漫画モデルにおける一部の指定層に対応する重みを前記第１生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第２生成モデルを生成する。

【0099】

一種の実施例で、前記一部の指定層は人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む。

【0100】

一種の実施例で、前記初期漫画化モデルは、エンコーダ及びデコーダを含み、
前記漫画化モデルフィッティングモジュール９５０は、以下のようなサブモジュールを含むことができる：
エンコードサブモジュールは、前記エンコーダを採用して前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記デコーダに出力するように設定され、
デコードサブモジュールは、前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第２生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得るように設定される。

【0101】

一種の実施例で、前記損失関数は、敵対的ネットワーク損失関数、知覚損失関数及び回帰損失関数Ｌ１＿ｌｏｓｓという損失関数の結合を含み、
前記敵対的ネットワーク損失関数は、漫画化モデルが生成する全図漫画化画像の真実性を判断し、判断結果によって損失を計算するために使用され、
前記知覚損失関数は、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図とをそれぞれ予め設置されるニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルが出力する対応の第１特徴図及び第２特徴図を取得し、前記第１特徴図と前記第２特徴図との間のＬ２損失を計算するために使用され、
前記Ｌ１＿ｌｏｓｓは、前記漫画化モデルが出力する全図漫画化画像と前記サンプルセットにおける対応するサンプル漫画図との間のＬ１損失を計算するために使用される。

【0102】

一種の実施例で、前記エンコーダの構造は以下のようなものである：
入力層、いくつかの残差層及び全結合層であり、ここで、複数の残差層は、サンプル真図における特徴図を抽出して前記特徴図をデコーダの対応層に出力するために使用され、前記全結合層は、サンプル真図の様式属性情報を抽出して前記様式属性情報をデコーダの複数の層に出力するために使用される。

【0103】

一種の実施例で、前記エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである。

【0104】

一種の実施例で、前記第２生成モデルはＳｔｙｌｅＧＡＮ２モデルであり、前記デコーダの構造は前記ＳｔｙｌｅＧＡＮ２モデルの合成ネットワークの構造と同じである。

【0105】

一種の実施例で、前記装置は、以下のようなモジュールをさらに含むことができる：
目標画像獲得モジュールは、目標画像を獲得し、前記目標画像を前記漫画化モデルに入力するように設定され、
全図漫画化処理サブモジュールは、前記漫画化モデルにおいて、前記エンコーダが前記目標画像に対して特徴抽出を行うことで、前記目標画像の目標特徴図及び目標様式属性情報を抽出し、前記目標特徴図及び前記目標様式属性情報を前記デコーダに入力し、前記デコーダが前記目標特徴図及び前記目標様式属性情報に基づいて対応する全図漫画化画像を生成し、前記全図漫画化画像を出力するように設定される。

【0106】

一種の実施例で、前記目標画像は、
画像編集ページを介して入力される画像、
目標ビデオにおける複数の画像フレーム、のうちの少なくともの一種を含む。

【0107】

一種の実施例で、前記装置は、以下のようなモジュールをさらに含むことができる：
データ拡張モジュールは、前記サンプルセットを採用してモデルフィッティングを行う前に、前記サンプルセットに対してデータ拡張を行い、ここで、前記データ拡張がランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの角度の回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うことを含むように設定される。

【0108】

本願の実施例に提供されるページレンダリングの装置は、本願の前述実施例におけるページレンダリングの方法を実行することができ、方法を実行する相応の機能モジュールと有益な効果を具備する。

【0109】

図１０は本願実施例に提供される電子デバイスの構造概略図であり、図１０に示すように、当該電子デバイスは、プロセッサ１０１０、メモリ１０２０、入力装置１０３０及び出力装置１０４０を含み、電子デバイスにおけるプロセッサ１０１０の数は、一つまたは複数であってもよく、図１０において一つのプロセッサ１０１０を例とし、電子デバイスにおけるプロセッサ１０１０、メモリ１０２０、入力装置１０３０及び出力装置１０４０は、バスまたは他の方式によって接続されることができ、図１０においてバスによる接続を例とする。

【0110】

メモリ１０２０は、コンピュータ可読記憶媒体として、ソフトウェアプログラム、コンピュータ実行可能なプログラム及びモジュール（例えば、本願実施例における上記実施例における任一の実施例に対応するプログラム指令／モジュール）を記憶するために使用されることがでる。プロセッサ１０１０はメモリ１０２０に記憶されるソフトウェアプログラム、指令及びモジュールを稼働することで、電子デバイスの多様な機能応用及びデータ処理を実行し、即ち、上記の方法実施例における任一実施例に説明した方法を実現する。

【0111】

メモリ１０２０は、主にプログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、端末の使用に応じて所作成されたデータなどを記憶することができる。さらに、メモリ１０２０は、高速ランダムアクセスメモリを含むことができ、不揮発性メモリを含むこともでき、例えば、少なくとも一つのディスク記憶部品、フラッシュメモリ部品、または他の不揮発性固体記憶部品である。いくつかの例では、メモリ１０２０は、プロセッサ１０１０に対して遠隔的に設置されるメモリを含むことができ、これらの遠隔的なメモリは、ネットワークによってデバイス／端末／サーバに接続されることができる。上記ネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、移動体通信ネットワーク及びその組み合わせを含むが、これらに限定されない。

【0112】

入力装置１０３０は、入力された数字または文字情報を受信し、且つ電子デバイスのユーザー設置及び機能制御に係るキー信号入力を生成するように設定されることができる。出力装置１０４０はディスプレイなどの表示デバイスを含むことができる。

【0113】

本願の実施例もコンピュータ実行可能な指令が含まれる記憶媒体を提供し、前記コンピュータ実行可能な指令は、コンピュータプロセッサによって実行される際に、上記方法実施例における任一実施例の方法を実行するために使用される。コンピュータ可読記憶媒体は、非一時的コンピュータ可読記憶媒体であってもよい。

【0114】

もちろん、本願実施例に提供されるコンピュータ実行可能な指令が含まれる記憶媒体は、そのコンピュータ実行可能な指令は上記のような方法で操作されることに限定されるものではなく、本願の任意実施例に提供される方法における関連操作を実行することもできる。

【0115】

本願実施例はもう一つのコンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータ実行可能な指令を含み、前記コンピュータ実行可能な指令は、コンピュータプロセッサによって実行される際に、上記実施例における任一実施例の方法を実行するために使用される。

【0116】

もちろん、本願の実施例に提供されるコンピュータプログラム製品は、そのコンピュータ実行可能な指令は、上記のような方法で操作されることに限定されず、本願の任意実施例に提供される方法における関連操作を実行することもできる。

【0117】

以上の実施方式についての説明によって、当業者であれば、本願がソフトウェア及び必要な汎用ハードウェアによって実現されてもよく、もちろん、ハードウェアによって実現されてもよいことを明らかに理解することができる。このような理解に基づいて、本願の技術案は、本質的にまたは関連技術に貢献する部分は、ソフトウェア製品の形式で具現化されることができ、当該コンピュータソフトウェア製品は、例えばコンピュータのフロッピーディスク、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ，ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭ）、フラッシュメモリ（ＦＬＡＳＨ）、ハードディスクまたは光ディスクなどのコンピュータ可読記憶媒体に記憶されることができ、いくつかの指令を含むことで、一つの電子デバイス（パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい）に本願の複数の実施例の前記の方法を実行させる。

【0118】

なお、上記装置の実施例において、含まれる複数のユニットとモジュールは、機能ロジックのみに従って区分されるが、上記の区分に限定されるものではなく、相応の機能を実現すればよく、また、複数の機能ユニットの具体的な名称も相互に区別しやすいようにするものであり、本願の保護範囲を限定するためのものではない。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【手続補正書】

【提出日】2024-05-16

【手続補正1】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０２２年１１月１６日に提出された出願番号ＰＣＴ／ＣＮ２０２２／１３２１３１の国際出願の日本国家段階のものであり、２０２１年１１月１６日に提出された出願番号２０２１１１３５６７７３．Ｘの中国特許出願の優先権を主張し、その全ての内容は参照により本願に援用する。

【0002】

本願は、画像処理の技術分野に関し、例えば、漫画化モデルを構築する方法、漫画化モデルを構築する装置、漫画化モデルを構築する電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。

【背景技術】

【0003】

【発明の概要】

【0004】

本願に、漫画化モデル構築方法、装置、漫画化モデルを構築する電子デバイス、記憶媒体及びプログラム製品が提供される。

【課題を解決するための手段】

【0005】

本願の実施例に漫画化モデルを構築する方法が提供され、前記方法は、
予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成することと、
前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成することと、
前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせることと、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することと、
を含む。

【0006】

本願の実施例に漫画化モデルを構築する装置も提供され、前記装置は、
サンプル真図生成モジュールと、サンプル漫画図生成モジュールと、画像ペア結成モジュールと、漫画化モデルフィッティングモジュールとを含み、
前記サンプル真図生成モジュールは、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
前記サンプル漫画図生成モジュールは、前記第１生成モデルに基づいて第２生成モデルを構築し、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
前記画像ペア結成モジュールは、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
前記漫画化モデルフィッティングモジュールは、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される。

【0007】

本願の実施例に漫画化モデルを構築する電子デバイスも提供され、前記電子デバイスは、
一つまたは複数のプロセッサと記憶装置とを含み、
前記記憶装置が、一つまたは複数のプログラムを記憶するように設定され、
前記一つまたは複数のプログラムが、前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサに上記の方法を実現させる。

【0008】

本願の実施例にコンピュータ可読記憶媒体も提供され、コンピュータプログラムが記憶され、当該プログラムがプロセッサに実行される場合、上記の方法を実現する。

【0009】

本願実施例にコンピュータプログラム製品も提供され、前記コンピュータプログラム製品はコンピュータ実行可能な指令を含み、前記コンピュータ実行可能な指令が実行される場合、上記第１態様或第２態様の方法を実現する。

【図面の簡単な説明】

【0010】

【図1】本願の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図2】本願の一実施例に提供される漫画化モデルに基づいて画像の全図漫画化処理を行う効果概略図である。

【図3】本願の一実施例に提供されるＳｔｙｌｅＧＡＮ２モデルのモデルアーキテクチャ概略図である。

【図4】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図5】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図6】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図7】本願の一実施例に提供される初期漫画化モデル的アーキテクチャ概略図である。

【図8】本願の他の一実施例に提供される漫画化モデルを構築する方法実施例のフローチャートである。

【図9】本願の一実施例に提供される漫画化モデルを構築する装置実施例の構造ブロック図である。

【図10】本願の一実施例に提供される電子デバイスの構造概略図である。

【発明を実施するための形態】

【0011】

関連技術において、画像漫画化の処理の実現方式は以下の通りである。

【0012】

【0013】

【0014】

図１は、本願の一実施例に提供される漫画化モデルを構築する方法の実施例のフローチャートである。当該方法は、漫画化モデル構築装置によって実現することができ、ここで、当該漫画化モデル構築装置は、サーバまたはクライアントに設置されることができ、本実施例はこれに限定しない。当該方法は、関連技術における漫画化処理される際に生成した漫画画像イメージが単一、柔軟性が不足し、多様性が不足、ユーザーの特徴類似性が悪く、漫画感が弱いなどの状況を回避することを目的とする。

【0015】

【0016】

本実施例の構築する漫画化モデルは、開発文書に従ってＡＰＰまたはＷｅｂページにアクセスされる。

【0017】

図１に示すように、本実施例は、以下のようなステップを含むことができる。

【0018】

ステップ１１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0019】

【0020】

【0021】

【0022】

【0023】

【0024】

【0025】

モジュレーションモジュールＭｏｄ－Ｄｅｍｏｄの処理の流れは以下の通りである：

【数1】

【数2】

である。
出力を単位標準偏差に戻すために、ｄｅｍｏｄ重みを復調し、即ち、新しい畳み込み層の重みは、

【数3】

である。
上式では、分母が０にならないように、∈を加える。

【0026】

【0027】

【0028】

【0029】

【0030】

ステップ１３０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0031】

【0032】

【0033】

【0034】

【0035】

【0036】

【0037】

ステップ４１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0038】

ステップ４２０で、前記第１生成モデルの重みに対して調整を行い、中間漫画モデルを生成する。

【0039】

【0040】

【0041】

【0042】

【0043】

【0044】

そのほか、当業者は、また、共分散重み補間アルゴリズム、クリキン補間法などに基づいて重み補間を行うことを採用することができる。

【0045】

ステップ４４０で、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成する。

【0046】

ステップ４５０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0047】

【0048】

【0049】

【0050】

ステップ５１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0051】

【0052】

ステップ５３０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0053】

ステップ５４０で、複数の前記サンプル画像ペアに基づいて構成されるサンプルセットに対してデータ拡張を行い、ここで、前記データ拡張は、ランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うこと含む。

【0054】

【0055】

【0056】

例示的に、サンプル画像ペアに対するデータ拡張は、ランダムにサンプル真図及び／またはサンプル漫画図に対して、ランダムの回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などを行うことを含むが、これに限定されない。

【0057】

【0058】

【0059】

【0060】

【0061】

ステップ６１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0062】

【0063】

ステップ６３０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0064】

【0065】

【0066】

本実施例のＥｎｃｏｄｅｒの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである。

【0067】

【0068】

【0069】

【表1】

【0070】

【0071】

【0072】

【0073】

【0074】

【0075】

【数4】

である。

【0076】

【0077】

１つの実施形態では、以下のような数式を採用してＧＡＮ_ｌｏｓｓを計算する：

【数5】

【0078】

ここで、Ｄは判別器、Ｅは平均値、Ｇ（ｘ）は漫画化モデルが出力する全図漫画化画像を表す。

【0079】

【0080】

【0081】

１つの実施形態では、以下のような数式を採用してｐｅｒｃｅｐｔｕａｌ_ｌｏｓｓを計算することができる：

【数6】

【0082】

【0083】

【数7】

【0084】

【0085】

【0086】

【0087】

ステップ８１０で、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成する。

【0088】

【0089】

ステップ８３０で、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせる。

【0090】

【0091】

ステップ８５０で、目標画像を獲得し、前記目標画像を前記漫画化モデルに入力する。

【0092】

【0093】

【0094】

【0095】

【0096】

【0097】

図９は本願実施例に提供される漫画化モデルを構築する装置実施例の構造ブロック図であり、以下のようなモジュールを含むことができる：
サンプル真図生成モジュール９１０は、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
第２生成モデル構築モジュール９２０は、前記第１生成モデルに基づいて第２生成モデルを構築するように設定され、
サンプル漫画図生成モジュール９３０は、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
画像ペア結成モジュール９４０は、前記サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
漫画化モデルフィッティングモジュール９５０は、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される。

【0098】

一種の実施例で、前記第２生成モデル構築モジュール９２０は以下のように設定され、
前記第１生成モデルの重みに対して調整を行い、中間漫画モデルを生成し、
前記中間漫画モデルにおける一部の指定層に対応する重みを前記第１生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第２生成モデルを生成する。

【0099】

一種の実施例で、前記一部の指定層は人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む。

【0100】

【0101】

【0102】

【0103】

一種の実施例で、前記エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである。

【0104】

【0105】

【0106】

【0107】

一種の実施例で、前記装置は、以下のようなモジュールをさらに含むことができる：
データ拡張モジュールは、前記サンプルセットを採用してモデルフィッティングを行う前に、前記サンプルセットに対してデータ拡張を行い、ここで、前記データ拡張がランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小などの少なくともの一種を行うことを含むように設定される。

【0108】

本願の実施例に提供される漫画化モデルを構築する装置は、本願の前述実施例における漫画化モデルを構築する方法を実行することができ、方法を実行する相応の機能モジュールと有益な効果を具備する。

【0109】

【0110】

【0111】

【0112】

【0113】

【0114】

【0115】

【0116】

【0117】

【0118】

【手続補正2】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

前記第１生成モデルに基づいて第２生成モデルを構築することは、
前記第１生成モデルの重みに対して調整を行い、中間漫画モデルを生成することと、
前記中間漫画モデルにおける一部の指定層に対応する重みを前記第１生成モデルの、前記一部の指定層に対応する重みに置き換え、重み補間を行い、第２生成モデルを生成することと、
を含む、
請求項１に記載の方法。

【請求項3】

前記一部の指定層は、人物の姿勢を制御する層、人物の肌の色を制御する層のうちの少なくともの一種を含む、
請求項２に記載の方法。

【請求項4】

前記初期漫画化モデルはエンコーダとデコーダとを含み、
複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成することは、
前記エンコーダを採用して前記サンプルセットにおけるサンプル真図に対して特徴抽出を行うことで、対応する特徴図及び様式属性情報を取得し、前記特徴図と前記様式属性情報を前記デコーダに出力することと、
前記デコーダを採用して前記サンプルセットにおけるサンプル漫画図を訓練目標とし、前記第２生成モデルの重みを初期重みとし、予め設置される損失関数を採用して前記特徴図及び前記様式属性情報に対して訓練を行い、漫画化モデルを得ることと、
を含む、
請求項１に記載の方法。

【請求項5】

【請求項6】

【請求項7】

前記エンコーダの初期重みは先に多様な実在人間画像を編集したエンコーダの重みである、
請求項６に記載の方法。

【請求項8】

【請求項9】

【請求項10】

【請求項11】

前記サンプルセットを採用してモデルフィッティングを行う前に、前記サンプルセットに対してデータ拡張を行い、ここで、前記データ拡張は、ランダムに前記サンプル真図及び前記サンプル漫画図に対してランダムの回転、ランダムの切り抜き、ランダムの拡大、ランダムの縮小の少なくともの一種を行うことを含むこと、
をさらに含む、
請求項１に記載の方法。

【請求項12】

サンプル真図生成モジュールと、第２生成モデル構築モジュールと、サンプル漫画図生成モジュールと、画像ペア結成モジュールと、漫画化モデルフィッティングモジュールとを含み、
前記サンプル真図生成モジュールは、予め訓練される第１生成モデルを採用して予め設定される数のサンプル真図を生成するように設定され、
前記第２生成モデル構築モジュールは、前記第１生成モデルに基づいて第２生成モデルを構築するように設定され、
前記サンプル漫画図生成モジュールは、前記第２生成モデルを採用して各サンプル真図に対応するサンプル漫画図を生成するように設定され、
前記画像ペア結成モジュールは、前記各サンプル真図と対応するサンプル漫画図とをサンプル画像ペアに組み合わせるように設定され、
前記漫画化モデルフィッティングモジュールは、複数の前記サンプル画像ペアによって構成されるサンプルセットに基づいて、前記第２生成モデルに対応する重みを初期重みとし、予め設置される初期漫画化モデルに対してフィッティングを行い、目標画像を全図漫画化画像に転化するための漫画化モデルを生成するように設定される、
漫画化モデルを構築する装置。

【請求項13】

一つまたは複数のプロセッサと、記憶装置とを含み、
前記記憶装置が、一つまたは複数のプログラムを記憶するように設定され、
前記一つまたは複数のプログラムが、前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサに請求項１～１１のいずれかに記載の前記の方法を実現させる、
漫画化モデルを構築する電子デバイス。

【請求項14】

【請求項15】

コンピュータ実行可能な指令を含み、
前記コンピュータ実行可能な指令が実行される場合、請求項１～１１のいずれかに記載の前記の方法を実現するように設定される、
コンピュータプログラム。

【手続補正3】

【補正対象書類名】図面

【補正対象項目名】図９

【補正方法】変更

【補正の内容】

【図9】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版