(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-03
(54)【発明の名称】画像生成及びニューラルネットワーク訓練方法、装置、機器並びに媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20220127BHJP
G06T 5/50 20060101ALI20220127BHJP
G06N 3/04 20060101ALI20220127BHJP
【FI】
G06T7/00 350C
G06T5/50
G06N3/04 154
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021532473
(86)(22)【出願日】2020-02-26
(85)【翻訳文提出日】2021-06-08
(86)【国際出願番号】 CN2020076835
(87)【国際公開番号】W WO2020258902
(87)【国際公開日】2020-12-30
(31)【優先権主張番号】201910551145.3
(32)【優先日】2019-06-24
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】520018428
【氏名又は名称】センスタイム グループ リミテッド
(74)【代理人】
【識別番号】110001427
【氏名又は名称】特許業務法人前田特許事務所
(72)【発明者】
【氏名】ホアン ミンヤン
(72)【発明者】
【氏名】ジャン チャンシュー
(72)【発明者】
【氏名】リウ チュンシアオ
(72)【発明者】
【氏名】シー ジエンピン
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CE08
5B057DA16
5B057DB02
5B057DB09
5B057DC36
5B057DC40
5L096AA06
5L096DA01
5L096EA39
5L096FA32
5L096FA33
5L096GA30
5L096HA11
5L096KA04
(57)【要約】
画像生成方法及びニューラルネットワーク訓練方法、装置、電子機器、コンピュータ記憶媒体であって、該画像生成方法は、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得ること(101)と、スタイル画像のスタイル特徴を抽出すること(102)と、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて、スタイル特徴をフィードフォワード入力し、各第2ネットワークユニットブロックによって、それぞれ入力された特徴を処理した後に、第2ニューラルネットワークから出力される生成画像を得ること(103)であって、複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、こと(103)と、を含む。
【特許請求の範囲】
【請求項1】
画像生成方法であって、
第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得ることと、
スタイル画像のスタイル特徴を抽出することと、
前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得ることであって、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、ことと、を含む、画像生成方法。
【請求項2】
前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力することは、
1からTまで順にiが取られることに応答して、第i層の第1ネットワークユニットブロックから出力されたコンテンツ特徴を第T-i+1層の第2ネットワークユニットブロックにフィードフォワード入力することであって、iは、正整数であり、Tは、前記第1ニューラルネットワークの第1ネットワークユニットブロック及び前記第2ニューラルネットワークの第2ネットワークユニットブロックの層数を表す、ことを含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記複数の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算し、前記第1層の第2ネットワークユニットブロックの中間特徴を得ることと、
前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記第1層の第2ネットワークユニットブロックの中間特徴を加算し、前記第1層の第2ネットワークユニットブロックの出力特徴を得ることと、
前記第1層の第2ネットワークユニットブロックの出力特徴を第2層の第2ネットワークユニットブロックに入力することと、を含むことを特徴とする
請求項1又は2に記載の方法。
【請求項4】
前記方法は、
最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算する前に、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項3に記載の方法。
【請求項5】
前記複数の第2ネットワークユニットブロックのうちの中間層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記中間層の第2ネットワークユニットブロックの中間特徴を得ることと、
前記入力されたコンテンツ特徴と前記中間層の第2ネットワークユニットブロックの中間特徴を加算し、前記中間層の第2ネットワークユニットブロックの出力特徴を得ることと、
前記中間層の第2ネットワークユニットブロックの出力特徴を次の層の第2ネットワークユニットブロックに入力することと、を含むことを特徴とする
請求項1-4のいずれか一項に記載の方法。
【請求項6】
前記方法は、前記入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、前記受け取ったコンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項5に記載の方法。
【請求項7】
前記複数の第2ネットワークユニットブロックのうちの最終層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記最終層の第2ネットワークユニットブロックの中間特徴を得ることと、
第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と前記最終層の第2ネットワークユニットブロックの中間特徴を加算し、前記生成画像を得ることと、を含むことを特徴とする
請求項1-6のいずれか一項に記載の方法。
【請求項8】
前記方法は、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項7に記載の方法。
【請求項9】
前記スタイル画像のスタイル特徴を抽出することは、
前記スタイル画像で分布される特徴を抽出することと、
前記スタイル画像で分布される特徴に対してサンプリングを行い、前記スタイル特徴を得ることであって、前記スタイル特徴は、前記スタイル画像で分布される特徴の平均値及び標準偏差を含む、ことと、を含むことを特徴とする
請求項1-8のいずれか一項に記載の方法。
【請求項10】
前記第1ネットワークユニットブロックによりコンテンツ画像のコンテンツ特徴を抽出することは、
前記第1ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、コンテンツ画像のコンテンツ特徴を抽出することを含み、及び/又は、
前記第2ネットワークユニットブロックにより、入力された特徴を処理することは、前記第2ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、前記第2ネットワークユニットブロックに入力された特徴を処理することを含むことを特徴とする
請求項1-9のいずれか一項に記載の方法。
【請求項11】
ニューラルネットワーク訓練方法であって、
第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得ることと、
スタイル画像のスタイル特徴を抽出することと、
前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得ることであって、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、ことと、
前記生成画像に対して識別を行い、識別結果を得ることと、
前記コンテンツ画像、前記スタイル画像、前記生成画像及び識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することと、を含む、ニューラルネットワーク訓練方法。
【請求項12】
前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力することは、
1からTまで順にiが取られることに応答して、第i層の第1ネットワークユニットブロックから出力されたコンテンツ特徴を第T-i+1層の第2ネットワークユニットブロックにフィードフォワード入力することであって、iは、正整数であり、Tは、前記第1ニューラルネットワークの第1ネットワークユニットブロック及び前記第2ニューラルネットワークの第2ネットワークユニットブロックの層数を表す、ことを含むことを特徴とする
請求項11に記載の方法。
【請求項13】
前記複数の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算し、前記第1層の第2ネットワークユニットブロックの中間特徴を得ることと、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記第1層の第2ネットワークユニットブロックの中間特徴を加算し、前記第1層の第2ネットワークユニットブロックの出力特徴を得ることと、前記第1層の第2ネットワークユニットブロックの出力特徴を第2層の第2ネットワークユニットブロックに入力することと、を含むことを特徴とする
請求項11又は12に記載の方法。
【請求項14】
前記方法は、
最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算する前に、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項13に記載の方法。
【請求項15】
前記複数の第2ネットワークユニットブロックのうちの中間層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記中間層の第2ネットワークユニットブロックの中間特徴を得ることと、
前記入力されたコンテンツ特徴と前記中間層の第2ネットワークユニットブロックの中間特徴を加算し、前記中間層の第2ネットワークユニットブロックの出力特徴を得ることと、
前記中間層の第2ネットワークユニットブロックの出力特徴を次の層の第2ネットワークユニットブロックに入力することと、を含むことを特徴とする
請求項11-14のいずれか一項に記載の方法。
【請求項16】
前記方法は、前記入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、前記受け取ったコンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項15に記載の方法。
【請求項17】
前記複数の第2ネットワークユニットブロックのうちの最終層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記最終層の第2ネットワークユニットブロックの中間特徴を得ることと、
第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と前記最終層の第2ネットワークユニットブロックの中間特徴を加算し、前記生成画像を得ることと、を含むことを特徴とする
請求項11-16のいずれか一項に記載の方法。
【請求項18】
前記方法は、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項17に記載の方法。
【請求項19】
前記第2ニューラルネットワークのネットワークパラメータを調整することは、前記乗算パラメータ及び/又は加算パラメータを調整することを含むことを特徴とする
請求項13-18のいずれか一項に記載の方法。
【請求項20】
前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、
前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、敵対的生成ネットワーク損失を決定することと、
前記敵対的生成ネットワーク損失が第1所定条件を満たしないことに応答して、前記敵対的生成ネットワーク損失に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整することであって、前記敵対的生成ネットワーク損失は、前記生成画像と前記コンテンツ画像とのコンテンツ特徴差異、及び前記生成画像と前記スタイル画像とのスタイル特徴差異を表すためのものである、ことと、を含むことを特徴とする
請求項11-19のいずれか一項に記載の方法。
【請求項21】
前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、
前記生成画像及び前記スタイル画像に基づいて、スタイル損失を決定することと、
前記スタイル損失が第2所定条件を満たしないことに応答して、前記スタイル損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することであって、前記スタイル損失は、前記生成画像のスタイル特徴と前記スタイル画像のスタイル特徴との差異を表すためのものである、ことと、を更に含むことを特徴とする
請求項20に記載の方法。
【請求項22】
前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、
前記生成画像及び前記コンテンツ画像に基づいて、コンテンツ損失を決定することと、
前記コンテンツ損失が第3所定条件を満たしないことに応答して、前記コンテンツ損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することであって、前記コンテンツ損失は、前記生成画像のコンテンツ特徴と前記コンテンツ画像のコンテンツ特徴との差異を表すためのものである、こととを更に含むことを特徴とする
請求項20又は21に記載の方法。
【請求項23】
前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、
前記複数の第2ネットワークユニットブロックのうちの各中間層の第2ネットワークユニットブロックの出力特徴、及びスタイル画像に基づいて、特徴マッチング損失を決定することと、
前記特徴マッチング損失が第4所定条件を満たしないことに応答して、前記特徴マッチング損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することであって、前記特徴マッチング損失は、前記各中間層の第2ネットワークユニットブロックの出力特徴と前記スタイル画像のスタイル特徴との差異を表すためのものである、ことと、を更に含むことを特徴とする
請求項20-22のいずれか一項に記載の方法。
【請求項24】
前記スタイル画像のスタイル特徴を抽出することは、前記スタイル画像で分布される特徴を抽出することと、
前記スタイル画像で分布される特徴に対してサンプリングを行い、前記スタイル特徴を得ることであって、前記スタイル特徴は、前記スタイル画像で分布される特徴の平均値及び標準偏差を含む、ことと、を含むことを特徴とする
請求項11-23のいずれか一項に記載の方法。
【請求項25】
前記第1ネットワークユニットブロックによりコンテンツ画像のコンテンツ特徴を抽出することは、
前記第1ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、コンテンツ画像のコンテンツ特徴を抽出することを含み、及び/又は、
前記第2ネットワークユニットブロックにより、入力された特徴を処理することは、前記第2ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、前記第2ネットワークユニットブロックに入力された特徴を処理することを含むことを特徴とする
請求項11-24のいずれか一項に記載の方法。
【請求項26】
画像生成装置であって、前記装置は、第1抽出モジュールと、第2抽出モジュールと、第1処理モジュールと、を備え、
第1抽出モジュールは、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得るように構成され、
第2抽出モジュールは、スタイル画像のスタイル特徴を抽出するように構成され、
第1処理モジュールは、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得るように構成され、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、画像生成装置。
【請求項27】
前記第1処理モジュールは、1からTまで順にiが取られることに応答して、第i層の第1ネットワークユニットブロックから出力されたコンテンツ特徴を第T-i+1層の第2ネットワークユニットブロックにフィードフォワード入力するように構成され、iは、正整数であり、Tは、前記第1ニューラルネットワークの第1ネットワークユニットブロック及び前記第2ニューラルネットワークの第2ネットワークユニットブロックの層数を表すことを特徴とする
請求項26に記載の装置。
【請求項28】
前記複数の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックは、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算し、前記第1層の第2ネットワークユニットブロックの中間特徴を得て、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記第1層の第2ネットワークユニットブロックの中間特徴を加算し、前記第1層の第2ネットワークユニットブロックの出力特徴を得て、前記第1層の第2ネットワークユニットブロックの出力特徴を第2層の第2ネットワークユニットブロックに入力するように構成されることを特徴とする
請求項26又は27に記載の装置。
【請求項29】
前記第1層の第2ネットワークユニットブロックは更に、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算する前に、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行うように構成されることを特徴とする
請求項28に記載の装置。
【請求項30】
前記複数の第2ネットワークユニットブロックのうちの中間層の第2ネットワークユニットブロックは、入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記中間層の第2ネットワークユニットブロックの中間特徴を得て、前記入力されたコンテンツ特徴と前記中間層の第2ネットワークユニットブロックの中間特徴を加算し、前記中間層の第2ネットワークユニットブロックの出力特徴を得て、前記中間層の第2ネットワークユニットブロックの出力特徴を次の層の第2ネットワークユニットブロックに入力するように構成されることを特徴とする
請求項26-29のいずれか一項に記載の装置。
【請求項31】
前記中間層の第2ネットワークユニットブロックは更に、前記入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、前記受け取ったコンテンツ特徴に対して畳み込み演算を行うように構成されることを特徴とする
請求項30に記載の装置。
【請求項32】
前記複数の第2ネットワークユニットブロックのうちの最終層の第2ネットワークユニットブロックは、第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記最終層の第2ネットワークユニットブロックの中間特徴を得て、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と前記最終層の第2ネットワークユニットブロックの中間特徴を加算し、前記生成画像を得るように構成されることを特徴とする
請求項26-31のいずれか一項に記載の装置。
【請求項33】
前記最終層の第2ネットワークユニットブロックは、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴に対して畳み込み演算を行うように構成されることを特徴とする
請求項32に記載の装置。
【請求項34】
前記第2抽出モジュールは、前記スタイル画像で分布される特徴を抽出し、前記スタイル画像で分布される特徴に対してサンプリングを行い、前記スタイル特徴を得るように構成され、前記スタイル特徴は、前記スタイル画像で分布される特徴の平均値及び標準偏差を含むことを特徴とする
請求項26-33のいずれか一項に記載の装置。
【請求項35】
前記第1ネットワークユニットブロックは、前記第1ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、コンテンツ画像のコンテンツ特徴を抽出するように構成され、及び/又は、
前記第2ネットワークユニットブロックは、前記第2ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、前記第2ネットワークユニットブロックに入力された特徴を処理するように構成されることを特徴とする
請求項26-34のいずれか一項に記載の装置。
【請求項36】
ニューラルネットワーク訓練装置であって、前記装置は、第3抽出モジュールと、第4抽出モジュールと、第2処理モジュールと、調整モジュールと、を備え、
第3抽出モジュールは、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得るように構成され、
第4抽出モジュールは、スタイル画像のスタイル特徴を抽出するように構成され、
第2処理モジュールは、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得て、前記生成画像に対して識別を行い、識別結果を得るように構成され、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応し、
調整モジュールは、前記コンテンツ画像、前記スタイル画像、前記生成画像及び識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成される、ニューラルネットワーク訓練装置。
【請求項37】
前記第2処理モジュールは、1からTまで順にiが取られることに応答して、第i層の第1ネットワークユニットブロックから出力されたコンテンツ特徴を第T-i+1層の第2ネットワークユニットブロックにフィードフォワード入力するように構成され、iは、正整数であり、Tは、前記第1ニューラルネットワークの第1ネットワークユニットブロック及び前記第2ニューラルネットワークの第2ネットワークユニットブロックの層数を表すことを特徴とする
請求項36に記載の装置。
【請求項38】
前記複数の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックは、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算し、前記第1層の第2ネットワークユニットブロックの中間特徴を得て、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記第1層の第2ネットワークユニットブロックの中間特徴を加算し、前記第1層の第2ネットワークユニットブロックの出力特徴を得て、前記第1層の第2ネットワークユニットブロックの出力特徴を第2層の第2ネットワークユニットブロックに入力するように構成されることを特徴とする
請求項36又は37に記載の装置。
【請求項39】
前記第1層の第2ネットワークユニットブロックは更に、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算する前に、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行うように構成される。ことを特徴とする
請求項38に記載の装置。
【請求項40】
前記複数の第2ネットワークユニットブロックのうちの中間層の第2ネットワークユニットブロックは、入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記中間層の第2ネットワークユニットブロックの中間特徴を得て、前記入力されたコンテンツ特徴と前記中間層の第2ネットワークユニットブロックの中間特徴を加算し、前記中間層の第2ネットワークユニットブロックの出力特徴を得て、前記中間層の第2ネットワークユニットブロックの出力特徴を次の層の第2ネットワークユニットブロックに入力するように構成されることを特徴とする
請求項36-39のいずれか一項に記載の装置。
【請求項41】
前記中間層の第2ネットワークユニットブロックは更に、前記入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、前記受け取ったコンテンツ特徴に対して畳み込み演算を行うように構成されることを特徴とする
請求項40に記載の装置。
【請求項42】
前記複数の第2ネットワークユニットブロックのうちの最終層の第2ネットワークユニットブロックは、第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記最終層の第2ネットワークユニットブロックの中間特徴を得て、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と前記最終層の第2ネットワークユニットブロックの中間特徴を加算し、前記生成画像を得るように構成されることを特徴とする
請求項36-41のいずれか一項に記載の装置。
【請求項43】
前記最終層の第2ネットワークユニットブロックは更に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴に対して畳み込み演算を行うように構成されることを特徴とする
請求項42に記載の装置。
【請求項44】
前記調整モジュールは、前記乗算パラメータ及び/又は加算パラメータを調整するように構成されることを特徴とする
請求項38-43のいずれか一項に記載の装置。
【請求項45】
前記調整モジュールは、前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、敵対的生成ネットワーク損失を決定し、前記敵対的生成ネットワーク損失が第1所定条件を満たしないことに応答して、前記敵対的生成ネットワーク損失に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整するように構成され、前記敵対的生成ネットワーク損失は、前記生成画像と前記コンテンツ画像とのコンテンツ特徴差異、及び前記生成画像と前記スタイル画像とのスタイル特徴差異を表すためのものであることを特徴とする
請求項36-44のいずれか一項に記載の装置。
【請求項46】
前記調整モジュールは更に、前記生成画像及び前記スタイル画像に基づいて、スタイル損失を決定し、前記スタイル損失が第2所定条件を満たしないことに応答して、前記スタイル損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成され、前記スタイル損失は、前記生成画像のスタイル特徴と前記スタイル画像のスタイル特徴との差異を表すためのものであることを特徴とする
請求項45に記載の装置。
【請求項47】
前記調整モジュールは更に、前記生成画像及び前記コンテンツ画像に基づいて、コンテンツ損失を決定し、前記コンテンツ損失が第3所定条件を満たしないことに応答して、前記コンテンツ損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成され、前記コンテンツ損失は、前記生成画像のコンテンツ特徴と前記コンテンツ画像のコンテンツ特徴との差異を表すためのものであることを特徴とする
請求項45又は46に記載の装置。
【請求項48】
前記調整モジュールは更に、前記複数の第2ネットワークユニットブロックのうちの各中間層の第2ネットワークユニットブロックの出力特徴、及びスタイル画像に基づいて、特徴マッチング損失を決定し、
前記特徴マッチング損失が第4所定条件を満たしないことに応答して、前記特徴マッチング損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成され、前記特徴マッチング損失は、前記各中間層の第2ネットワークユニットブロックの出力特徴と前記スタイル画像のスタイル特徴との差異を表すためのものであることを特徴とする
請求項45-47のいずれか一項に記載の装置。
【請求項49】
前記第4抽出モジュールは、前記スタイル画像で分布される特徴を抽出し、前記スタイル画像で分布される特徴に対してサンプリングを行い、前記スタイル特徴を得るように構成され、前記スタイル特徴は、前記スタイル画像で分布される特徴の平均値及び標準偏差を含むことを特徴とする
請求項36-48のいずれか一項に記載の装置。
【請求項50】
前記第1ネットワークユニットブロックは、前記第1ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、コンテンツ画像のコンテンツ特徴を抽出するように構成され、及び/又は、
前記第2ネットワークユニットブロックは、前記第2ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、前記第2ネットワークユニットブロックに入力された特徴を処理するように構成されることを特徴とする
請求項36-49のいずれか一項に記載の装置。
【請求項51】
電子機器であって、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行する時、請求項1-10のいずれか一項に記載の画像生成方法又は請求項11-25のいずれか一項に記載のニューラルネットワーク訓練方法を実行するように構成される、電子機器。
【請求項52】
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、請求項1-10のいずれか一項に記載の画像生成方法又は請求項11-25のいずれか一項に記載のニューラルネットワーク訓練方法を実現する、コンピュータ記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年6月24日に提出された、出願番号が201910551145.3である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願は、画像処理分野に関し、特に画像生成方法及びニューラルネットワーク訓練方法、装置、電子機器並びにコンピュータ記憶媒体に関する。
【背景技術】
【0003】
画像生成方法は、実画像から別の画像を生成することであってもよく、そして人間の視覚により、生成画像がよりリアルかどうかを主観的に判定することであってもよい。ニューラルネットワークの適用に伴い、関連技術において、ニューラルネットワークに基づいた画像生成方法が現れ、一般的には、データペアに基づいてニューラルネットワークを訓練し、更に、訓練されたニューラルネットワークにより、コンテンツ画像に対してスタイル変換を行う。ここで、データペアは、訓練の用の、同じコンテンツ特徴を有するコンテンツ画像及びスタイル画像を表し、しかも、スタイル画像のスタイル特徴は、コンテンツ画像のスタイル特徴と異なる。しかしながら、実際に、上記データペアが少ないため、この方法が簡便で実現できない。
【発明の概要】
【0004】
本願の実施例は、画像生成技術的解決手段を提供することが望ましい。
【0005】
第1態様によれば、本願の実施例は、画像生成方法を提供する。前記方法は、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得ることと、スタイル画像のスタイル特徴を抽出することと、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得ることであって、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、ことと、を含む。
【0006】
第2態様によれば、本願の実施例は、ニューラルネットワーク訓練方法を更に提供する。前記方法は、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得ることと、スタイル画像のスタイル特徴を抽出することと、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得ることであって、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、ことと、前記生成画像に対して識別を行い、識別結果を得ることと、前記コンテンツ画像、前記スタイル画像、前記生成画像及び識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することと、を含む。
【0007】
第3態様によれば、本願の実施例は、画像生成装置を更に提供する。前記装置は、第1抽出モジュールと、第2抽出モジュールと、第1処理モジュールと、を備え、第1抽出モジュールは、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得るように構成され、第2抽出モジュールは、スタイル画像のスタイル特徴を抽出するように構成され、第1処理モジュールは、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得るように構成され、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する。
【0008】
第4態様によれば、本願の実施例は、ニューラルネットワーク訓練装置を更に提供する。前記装置は、第3抽出モジュールと、第4抽出モジュールと、第2処理モジュールと、調整モジュールと、を備え、第3抽出モジュールは、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得るように構成され、第4抽出モジュールは、スタイル画像のスタイル特徴を抽出するように構成され、第2処理モジュールは、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得て、前記生成画像に対して識別を行い、識別結果を得るように構成され、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応し、調整モジュールは、前記コンテンツ画像、前記スタイル画像、前記生成画像及び識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成される。
【0009】
第5態様によれば、本願の実施例は、電子機器を更に提供する。前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、前記プロセッサは、前記コンピュータプログラムを実行する時、上記いずれか1つの画像生成方法又は上記いずれか1つのニューラルネットワーク訓練方法を実行するように構成される。
【0010】
第6態様によれば、本願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、上記いずれか1つの画像生成方法又は上記いずれか1つのニューラルネットワーク訓練方法を実現させる。
【0011】
本願の実施例が提供する画像生成方法及びニューラルネットワーク訓練方法、装置、電子機器、コンピュータ記憶媒体において、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得て、スタイル画像のスタイル特徴を抽出し、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得て、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する。本願の実施例において、コンテンツ画像及びスタイル画像はいずれも実際の需要に応じて決定されてもよい。コンテンツ画像とスタイル画像は、ペアである画像でなくてもよく、従って、実現しやすい。また、画像生成過程において、第1ニューラルネットワークの各層の第1ネットワークユニットブロックを利用してコンテンツ画像のコンテンツ特徴を複数回抽出することができ、それによって、コンテンツ画像のより多くのセマンティック情報を保留し、そのため、生成画像は、コンテンツ画像に比べて、多くのセマンティック情報が残される。従って、生成画像は、よりリアルである。
【0012】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
【図面の簡単な説明】
【0013】
【
図1】本願の実施例による画像生成方法を示すフローチャートである。
【
図2】本願の実施例による事前訓練されたニューラルネットワークの構造を示す概略図である。
【
図3】本願の実施例によるコンテンツエンコーダの1つの例示的な構造を示す概略図である。
【
図4】本願の実施例によるCRBの1つの例示的な構造を示す概略図である。
【
図5】本願の実施例によるジェネレータの1つの例示的な構造を示す概略図である。
【
図6】本願の実施例による複数組の例示的なコンテンツ画像、スタイル画像及び生成画像を示す図である。
【
図7】本願の実施例によるニューラルネットワーク訓練方法を示すフローチャートである。
【
図8】本願の適用実施例による画像生成方法のフレームワークの構造を示す概略図である。
【
図9a】本願の適用実施例によるコンテンツエンコーダの残差ブロックの構造を示す概略図である。
【
図9b】本願の適用実施例によるジェネレータの残差ブロックの構造を示す概略図である。
【
図9c】本願の適用実施例によるFADEモジュールの構造を示す概略図である。
【
図10】本願の実施例による画像生成装置の構造を示す概略図である。
【
図11】本願の実施例による電子機器の構造を示す概略図である。
【
図12】本願の実施例によるニューラルネットワーク訓練装置の構造を示す概略図である。
【0014】
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
【発明を実施するための形態】
【0015】
以下、図面及び実施例を参照しながら、本願の実施例を更に詳しく説明する。ここで提供される実施例は、本願の実施例を解釈するためのものに過ぎず、本願の実施例を限定するものではないことを理解すべきである。また、以下に提供される実施例は、本願の一部の実施例を実行するためのものであり、本願の全ての実施例を実行するためのものではない。矛盾しない限り、本願の実施例に記載の技術的解決手段を任意の組み合わせで実行することができる。
【0016】
本願の実施例において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含む方法又は装置は、明確に記載された要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このような方法又は装置に固有の要素も含む。更なる限定が存在しない場合、「・・・を含む」ような記載によって規定される要素は、該要素を有する方法又は装置内に、別の関連要素(例えば、方法におけるステップ又は装置におけるユニットであり、ユニットは、例えば、一部の回路、一部のプロセッサ、一部のプログラム又はソフトウェアなどであってもよい)が更に存在することを排除しない。
【0017】
例えば、本願の実施例で提供される画像生成方法及びニューラルネットワーク訓練方法は、一連のステップを含むが、本願の実施例で提供される画像生成方法及びニューラルネットワーク訓練方法は、記載したステップに限定されない。同様に、本願の実施例で提供される画像生成装置及びニューラルネットワーク訓練装置は、一連のモジュールを備えるが、本願の実施例で提供される装置は、明確に記載されたモジュールを備えるものに限定されず、関連情報の取得、又は情報に基づいた処理に必要なモジュールを更に備えてもよい。
【0018】
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在することという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
【0019】
本願の実施例は、端末及びサーバからなるコンピュータシステムに適用され、多くの他の汎用又は専用コンピュータシステム環境又は構成と協働することができる。ここで、端末は、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者向け電子製品、ネットワークパソコン、車載機器、小型コンピュータシステムなどであってもよい。サーバは、サーバコンピュータシステム、小型コンピュータシステム、大型コンピュータシステム及び上記如何なるシステムを含む分散型クラウドコンピューティング技術などであってもよい。
【0020】
端末、サーバなどの電子機器は、コンピュータシステムにより実行されるコンピュータシステムによる実行可能な命令(例えば、プログラムモジュール)の一般的な内容で説明できる。一般的には、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、ユニット、ロジック、データ構造などを含んでもよい。それらは、特定のタスクを実行するか又は特定の抽象的データタイプを実現させる。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境で実行される。分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを通じてリンクされたリモート処理デバイスによって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶装置を含むローカル又はリモートコンピューティングシステム記憶媒体に位置してもよい。
【0021】
上述によれば、本願の幾つかの実施例において、画像生成方法を提供する。本願の実施例を適用できるシーンは、自動運転、画像生成、画像合成、コンピュータビジョン、深層学習、機械学習などを含むが、これらに限定されない。
【0022】
図1は、本願の実施例による画像生成方法を示すフローチャートである。
図1に示すように、該方法は、以下を含んでもよい。
【0023】
ステップ101において、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得る。
【0024】
ここで、コンテンツ画像は、スタイル変換をしようとする画像であってもよく、例示的に、ローカルストレージ領域又はネットワークから、コンテンツ画像を取得することができる。例えば、コンテンツ画像は、移動端末又はカメラなどにより撮られた画像であってもよい。コンテンツ画像のフォーマットは、共同静止画専門家グループ(Joint Photographic Experts GROUP:JPEG)、ビットマップ(Bitmap:BMP)、ポータブルネットワークグラフィックス(Portable Network Graphics:PNG)又は他のフォーマットであってもよい。ここで、コンテンツ画像のフォーマット及びソースを例により説明するだけであり、本願の実施例は、コンテンツ画像のフォーマット及びソースを限定するものではない。
【0025】
一枚の画像として、コンテンツ特徴及びスタイル特徴を抽出することができる。ここで、コンテンツ特徴は、画像のコンテンツ情報を表すためのものである。例えば、コンテンツ特徴は、画像における物体位置、物体形状、物体サイズなどを表す。スタイル特徴は、コンテンツ画像のスタイル情報を表すためのものである。例えば、スタイル特徴は、天気、昼、夜、会話スタイルなどのスタイル情報を表すためのものである。
【0026】
本願の実施例において、スタイル変換は、コンテンツ画像のスタイル特徴を別のスタイル特徴に変換することを指している。例示的に、コンテンツ画像のスタイル特徴の変換は、昼から夜への変換、夜から昼への変換、異なる天気スタイル間の変換、異なる絵画スタイル間の変換、実画像からコンピュータグラフィック(Computer-Graphic images:CG)画像への変換、CG画像から実画像への変換のうちのいずれか1つであってもよい。異なる天気スタイル間の変換は、晴天から雨天への変換、雨天から晴天への変換、晴天から曇天への変換、曇天から晴天への変換、曇天から雨天への変換、雨天から曇天への変換、晴天から雪降りへの変換、雪降りから晴天への変換、曇天から雪降りへの変換、雪降りから曇天への変換、雪降りから雨天への変換又は雨天から雪降りへの変換などであってもよい。異なる絵画スタイル間の変換は、油絵から水墨画への変換、水墨画から油絵への変換、油絵から素描画への変換、素描画から油絵への変換、素描画から水墨画への変換又は水墨画から素描画への変換などであってもよい。
【0027】
ここで、第1ニューラルネットワークは、コンテンツ画像のコンテンツ特徴を抽出するためのネットワークであり、本願の実施例は、第1ニューラルネットワークの種類を限定しない。第1ニューラルネットワークは、順次接続される複数層の第1ネットワークユニットブロックを含み、第1ニューラルネットワークの複数層の第1ネットワークユニットブロックにおいて、コンテンツ画像のコンテンツ特徴を複数層の第1ネットワークユニットブロックの第1層の第1ネットワークユニットブロックからはじめてフィードフォワード入力することができる。ここで、フィードフォワード入力に対応するデータ処理方向は、ニューラルネットワークの入力端から出力端へのデータ処理方向を表し、順伝播又は逆伝播に対応する。フィードフォワード入力プロセスについて、ニューラルネットワークにおける一層前のネットワークユニットブロックの出力結果は、次の層のネットワークユニットブロックの入力結果とする。
【0028】
第1ニューラルネットワークにおいて、第1ニューラルネットワークの各層の第1ネットワークユニットブロックは、入力されたデータに対してコンテンツ特徴を抽出することができ、つまり、第1ニューラルネットワークの各層の第1ネットワークユニットブロックの出力結果は、該層の第1ネットワークユニットブロックに対応するコンテンツ特徴である。第1ニューラルネットワークにおける異なる第1ネットワークユニットブロックから出力されたコンテンツ特徴は異なる。
【0029】
選択的に、コンテンツ画像のコンテンツ特徴の表現方式は、コンテンツ特徴マップ又は他の表現方式であってもよく、本願の実施例は、これを限定しない。
【0030】
第1ニューラルネットワークの各層の第1ネットワークユニットブロックにより、コンテンツ特徴を逐次抽出することで、コンテンツ画像の低い階層から上位階層までのセマンティック情報を得ることができる。選択的に、第1ニューラルネットワークにおける各層の第1ネットワークユニットブロックは、残差構造で構成された複数のニューラルネットワーク層である。これにより、各層の第1ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、コンテンツ画像のコンテンツ特徴を抽出することができる。
【0031】
ステップ102において、スタイル画像のスタイル特徴を抽出する。
【0032】
ここで、スタイル画像は、ターゲットスタイル特徴を有する画像である。ターゲットスタイル特徴は、コンテンツ画像が移行する先のスタイル特徴を表す。スタイル画像は、実際の需要に応じて設定されてもよい。本願の実施例において、コンテンツ画像を取得した後、変換のターゲットスタイル特徴を決定し、更に、必要に応じてスタイル画像を選択することができる。
【0033】
実際の適用において、ローカルストレージ領域又はネットワークからスタイル画像を取得することができる。例えば、スタイル画像は、移動端末又はカメラなどにより撮られた画像であってもよい。スタイル画像のフォーマットは、JPEG、BMP、PNG又は他のフォーマットであってもよい。ここで、スタイル画像のフォーマット及びソースを例により説明するだけであり、本願の実施例は、スタイル画像のフォーマット及びソースを限定するものではない。
【0034】
本願の実施例において、コンテンツ画像のスタイル特徴は、スタイル画像のスタイル画像と異なる。コンテンツ画像に対してスタイル変換を行う目的は、スタイル変換を行った後に得られた生成画像に、コンテンツ画像のコンテンツ特徴及びスタイル画像のスタイル特徴を持たせることであってもよい。
【0035】
例えば、昼スタイルのコンテンツ画像を夜スタイルの生成画像に変換し、又は、晴天スタイルのコンテンツ画像を雨天スタイルの生成画像に変換し、又は、水墨画スタイルのコンテンツ画像を油絵スタイルの生成画像に変換し、又は、CGスタイルの画像を実画像スタイルの生成画像に変換することができる。
【0036】
本ステップの実現方式について、例示的に、前記スタイル画像のスタイル特徴を抽出することは、スタイル画像で分布される特徴を抽出することと、スタイル画像で分布される特徴に対してサンプリングを行い、スタイル特徴を得ることであって、スタイル特徴は、スタイル画像で分布される特徴の平均値及び標準偏差を含む、ことと、を含む。ここで、スタイル画像で分布される特徴に対してサンプリングを行うことで、スタイル画像のスタイル特徴を正確に抽出することができ、コンテンツ画像に対してスタイル変換を正確に行うことに寄与する。実際の適用において、スタイル画像に対して少なくとも1層の畳み込み演算を行い、スタイル画像で分布される特徴を得ることができる。
【0037】
ステップ103において、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて、スタイル特徴をフィードフォワード入力し、各第2ネットワークユニットブロックによって、それぞれ入力された特徴を処理した後に、第2ニューラルネットワークから出力される生成画像を得て、複数層の第1ネットワークユニットブロックは、複数層の第2ネットワークユニットブロックに対応する。
【0038】
ここで、第2ニューラルネットワークに、順次接続される複数層の第1ネットワークユニットブロックが含まれる。第2ニューラルネットワークにおける一層前のネットワークユニットブロックの出力結果は、その次の層のネットワークユニットブロックの入力である。選択的に、第2ニューラルネットワークにおける各層の第2ネットワークユニットブロックは、残差構造で構成された複数のニューラルネットワーク層である。これにより、各層の第2ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、入力された特徴を処理することができる。
【0039】
実際の適用において、ステップ101からステップ103は、電子機器におけるプロセッサにより実現可能である。上記プロセッサは、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、デジタル信号プロセッサ(Digital Signal Processor:DSP)、デジタル信号処理機器(Digital Signal Processing Device:DSPD)、プログラマブルロジックデバイス(Programmable Logic Device:PLD)、FPGA、中央演算装置(Central Processing Unit:CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
【0040】
上記から分かるように、本願の実施例において、コンテンツ画像及びスタイル画像はいずれも、実際の需要に応じて決定されてもよい。コンテンツ画像とスタイル画像は、ペアである画像でなくてもよく、従って、実現しやすい。また、画像生成過程において、第1ニューラルネットワークの各層の第1ネットワークユニットブロックを利用してコンテンツ画像のコンテンツ特徴を複数回抽出することができ、それによって、コンテンツ画像のより多くのセマンティック情報を保留し、そのため、生成画像は、コンテンツ画像に比べて、多くのセマンティック情報が残される。従って、生成画像は、よりリアルである。
【0041】
また、本願の実施例におけるニューラルネットワーク構造に基づいて画像を生成する過程において、スタイル画像のスタイルは、実際の需要に応じて決定されてもよい。スタイル画像のスタイル特徴とニューラルネットワーク訓練時に用いられるスタイル画像のスタイル特徴との関係を限定しない。つまり、ニューラルネットワーク訓練時に用いられた画像が夜スタイルの訓練画像であるが、訓練されたニューラルネットワークに基づいて画像生成を行う時に、コンテンツ画像及び雪降りスタイル、雨天スタイル又は他のスタイルのスタイル画像を選択することができる。これにより、夜スタイルの画像のみを生成できるわけではなく、実際に必要なスタイルの画像を生成することができ、画像生成方法の汎化性及び適応性を向上させる。
【0042】
更に、ユーザの需要に応じて、異なるスタイル特徴を有する複数種のスタイル画像を設定することができ、更に、1つのコンテンツ画像に対して、異なるスタイル特徴を有する生成画像を得ることができる。例えば、訓練されたニューラルネットワークに基づいて、画像生成を行う時に、同一のコンテンツ画像に対して、訓練されたニューラルネットワークに夜スタイル画像、曇天スタイル画像及び雨天スタイル画像をそれぞれ入力し、該コンテンツ画像のスタイルをそれぞれ、夜スタイル、曇天スタイル及び雨天スタイルに変換することができる。つまり、同一のコンテンツ画像に基づいて、1つのスタイルの画像しか生成できないわけではなく、複数のスタイルの生成画像を得ることができ、画像生成方法の適用性を向上させる。
【0043】
本願の実施例において、第1ニューラルネットワークの第1ネットワークユニットブロックの層数は、第2ニューラルネットワークの第2ネットワークユニットブロックの層数と同じであり得る。第1ニューラルネットワークの各層の第1ネットワークユニットブロックは、第2ニューラルネットワークの各層の第2ネットワークユニットブロックに一対一に対応する。
【0044】
1つの実現形態として、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力することは、1からTまで順にiが取られることに応答して、第i層の第1ネットワークユニットブロックから出力されたコンテンツ特徴を第T-i+1層の第2ネットワークユニットブロックにフィードフォワード入力することであって、iは、正整数であり、Tは、前記第1ニューラルネットワークの第1ネットワークユニットブロック及び前記第2ニューラルネットワークの第2ネットワークユニットブロックの層数を表す、ことを含む。つまり、第1層の第1ネットワークユニットブロックから出力されたコンテンツ特徴は、最終層の第2ネットワークユニットブロックに入力され、最終層の第1ネットワークユニットブロックから出力されたコンテンツ特徴は、第1層の第2ネットワークユニットブロックに入力される。
【0045】
本願の実施例において、第2ニューラルネットワークにおける各層の第2ニューラルネットワークが受信したコンテンツ特徴は、第1ニューラルネットワークにおける各層の第1ネットワークユニットブロックの出力特徴である。第2ニューラルネットワークにおける各層の第2ネットワークユニットブロックが受信したコンテンツ特徴は、第2ニューラルネットワークにおける位置によって異なる。上記から分かるように、第2ニューラルネットワークは、スタイル特徴を入力としており、第2ニューラルネットワークにおける下位層の第2ネットワークユニットブロックから上位層の第2ネットワークユニットブロックまでのスタイル特徴の入れ込みにより、より多くのコンテンツ特徴がフュージョンされ、スタイル特徴に基づいて、コンテンツ画像の各層のセマンティック情報が次第にフュージョンされるようになり、これにより、得られた生成画像は、コンテンツ画像の多層セマンティック情報及びスタイル特徴情報を残すことができる。
【0046】
1つの実現形態において、前記複数の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、最終層の第1ネットワークユニットブロックからのコンテンツ特徴とスタイル特徴を乗算し、前記第1層の第2ネットワークユニットブロックの中間特徴を得ることと、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と第1層の第2ネットワークユニットブロックの中間特徴を加算し、第1層の第2ネットワークユニットブロックの出力特徴を得ることと、第1層の第2ネットワークユニットブロックの出力特徴を第2層の第2ネットワークユニットブロックに入力することと、を含む。上記から分かるように、上記乗算及び加算を行うことで、スタイル特徴と最終層の第1ネットワークユニットブロックのコンテンツ特徴とのフュージョンを実現しやすい。
【0047】
選択的に、最終層の第1ネットワークユニットブロックからのコンテンツ特徴とスタイル特徴を乗算する前に、最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行うことができる。つまり、まず、最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行ってから、畳み込み演算結果とスタイル特徴を乗算することができる。
【0048】
1つの実現形態として、各第2ネットワークユニットブロックのうちの中間層の第2ネットワークユニットブロックにより、入力された特徴を処理することは、入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、中間層の第2ネットワークユニットブロックの中間特徴を得ることと、入力されたコンテンツ特徴と中間層の第2ネットワークユニットブロックの中間特徴を加算し、中間層の第2ネットワークユニットブロックの出力特徴を得ることと、中間層の第2ネットワークユニットブロックの出力特徴を次の層の第2ネットワークユニットブロックに入力することと、を含む。上記から分かるように、上記乗算及び加算を行うことで、一層前の第2ネットワークユニットブロックの出力特徴と対応するコンテンツ特徴のフュージョンを実現しやすい。
【0049】
中間層の第2ネットワークユニットブロックは、第2ニューラルネットワークにおける、第1層の第2ネットワークユニットブロック及び最終層の第2ネットワークユニットブロック以外の他の第2ネットワークユニットブロックであり、第2ニューラルネットワークにおいて、1つの中間とする第ネットワークユニットブロックを有してもよく、複数の第2ネットワークユニットブロックを有してもよく、上述において、ただ1つの中間層の第2ネットワークユニットブロックを例として、中間層の第2ネットワークユニットブロックのデータ処理プロセスを説明している。
【0050】
選択的に、中間層の第2ネットワークユニットブロックは、前記入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、前記受け取ったコンテンツ特徴に対して畳み込み演算を行う。
【0051】
1つの実現形態として、各第2ネットワークユニットブロックのうちの最終層の第2ネットワークユニットブロックにより、入力された特徴を処理することは、第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、最終層の第2ネットワークユニットブロックの中間特徴を得ることと、第1層の第1ネットワークユニットブロックからのコンテンツ特徴と最終層の第2ネットワークユニットブロックの中間特徴を加算し、生成画像を得ることと、を含む。
【0052】
上記から分かるように、上記乗算及び加算を行うことで、上記層の第2ネットワークユニットブロックの出力特徴と第1層のネットワークユニットブロックのコンテンツ特徴のフュージョンを実現しやすく、更に、各層の第2ネットワークユニットブロックのデータ処理により、生成画像にスタイル特徴及び各層の第1ネットワークユニットブロックのコンテンツ特徴をフュージョンすることができる。
【0053】
選択的に、最終層の第2ネットワークユニットブロックは、第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴に対して畳み込み演算を行う。
【0054】
実際の適用において、画像生成に用いられるニューラルネットワークを事前訓練することができる。以下、図面を参照しながら、事前訓練されたニューラルネットワークを例示的に説明する。
図2は、本願の実施例による事前訓練されたニューラルネットワークの構造を示す概略図である。
図2に示すように、事前訓練されたニューラルネットワークは、コンテンツエンコーダ、スタイルエンコーダ及びジェネレータを含む。ここで、コンテンツエンコーダは、上記第1ニューラルネットワークを利用してコンテンツ画像のコンテンツ特徴を抽出するように構成され、スタイルエンコーダは、スタイル画像のスタイル特徴を抽出するように構成され、ジェネレータは、上記第2ニューラルネットワークを利用して、スタイル特徴と各層の第1ネットワークユニットブロックから出力されたコンテンツ特徴のフュージョンを実現させるように構成される。
【0055】
実際に実行する時、第1ニューラルネットワークをコンテンツエンコーダとし、第2ニューラルネットワークをジェネレータとし、スタイル画像に対してスタイル特徴抽出を行うためのニューラルネットワークをスタイルエンコーダとする。
図2に示すように、処理しようとする画像(即ち、コンテンツ画像)をコンテンツエンコーダに入力することができる。コンテンツエンコーダにおいて、第1ニューラルネットワークの複数層の第1ネットワークユニットブロックを利用して処理を行い、各層の第1ネットワークユニットブロックからコンテンツ特徴を出力することができる。また、スタイル画像をスタイルエンコーダに入力し、スタイルエンコーダにより、スタイル画像のスタイル特徴を抽出することもできる。例示的に、第1ネットワークユニットブロックは、残差ブロック(Residual Block:RB)であり、各層の第1ネットワークユニットブロックから出力されたコンテンツ特徴は、コンテンツ特徴マップである。
【0056】
図3は、本願の実施例によるコンテンツエンコーダの1つの例示的な構造を示す概略図である。
図3に示すように、コンテンツエンコーダの残差ブロックは、CRBと表記されてもよい。コンテンツエンコーダは、7層のCRBを含む。
図3のCRB(A,B)において、Aは、入力チャネル数を表し、Bは、出力チャネル数を表す。
図3において、CRB(3,64)の入力は、コンテンツ画像であり、第1層のCRBから第7層のCRBはそれぞれ、下から上へ配列されたCRB(3,64)、CRB(64,128)、CRB(128,256)、CRB(256,512)、CRB(512,1024)、CRB(1024,1024)、CRB(1024,1024)及びCRB(1024,1024)である。第1層のCRBから第7層のCRBはそれぞれ7個のコンテンツ特徴マップを出力することができる。
【0057】
図4は、本願の実施例によるCRBの1つの例示的な構造を示す概略図である。
図4において、sync BNは、同期BN層を表し、正規化線形ユニット(Rectified Linear Unit:ReLu)は、ReLu層を表し、Convは、畳み込み層を表し、「
」は、加算操作を表す。
図4に示すCRBの構造は、標準的な残差ブロックの構造である。
【0058】
図3及び
図4を参照すると、本願の実施例は、標準的な残差ネットワーク構造を用いてコンテンツ特徴を抽出することができ、コンテンツ画像のコンテンツ特徴の抽出を実現しやすく、セマンティック情報の紛失を減少させる。ジェネレータにおいて、第2ニューラルネットワークの複数層の第2ネットワークユニットブロックを用いて処理を行うことができる。例示的に、第2ネットワークユニットブロックは、RBである。
【0059】
図5は、本願の実施例によるジェネレータの1つの例示的な構造を示す概略図である。
図5に示すように、ジェネレータにおける残差ブロックは、GBと表記されてもよい。ジェネレータは、7層のGBを含んでもよく、各層のGBの入力は、コンテンツエンコーダの1層のCRBの出力である。ジェネレータにおいて、第1層のGBから第7層のGBはそれぞれ上から下へ配列されたGB ResBlk(1024)、GB ResBlk(1024)、GB ResBlk(1024)、GB ResBlk(512)、GB ResBlk(256)、GB ResBlk(128)及びGB ResBlk(64)である。
図5のGB ResBlk(C)において、Cは、チャネル数を表す。第1層のGBは、スタイル特徴を受信するように構成され、第1層のGBから第7層のGBは、第7層のCRBから第1層のCRBから出力されたコンテンツ特徴マップを対応的に受信するように構成される。各層のGBにより、入力された特徴を処理した後、第7層のGBを利用して生成画像を出力することができる。
【0060】
上記から分かるように、コンテンツエンコーダの複数層の残差ブロックに基づいて、コンテンツ画像の構造情報を符号化し、複数の異なるレベルのコンテンツ特徴マップを生成することができる。コンピュータエンコーダは、深層において、より抽象的な特徴を抽出し、表層で大量の構造情報を保留することができる。
【0061】
本願の実施例の画像生成方法は、種々の画像生成シーンに適用可能である。例えば、画像娯楽化データ生成、自動運転モデル訓練試験データ生成などのシーンに適用可能である。
【0062】
以下、図面を参照しながら、本願の実施例の画像生成方法の効果を説明する。
図6は、本願の実施例による複数組の例示的なコンテンツ画像、スタイル画像及び生成画像を示す。
図6に示すように、第1列は、コンテンツ画像を示し、第2列は、スタイル画像を示し、第3列は、本願の実施例の画像生成方法に基づいて得られた生成画像である。同一行の画像は、一組のコンテンツ画像、スタイル画像及び生成画像を表す。第1行から最終行のスタイル変換はそれぞれ、昼から夜へのスタイル変換、夜から昼へのスタイル変換、晴天から雨天へのスタイル変換、雨天から晴天へのスタイル変換、晴天から曇天へのスタイル変換、曇天から晴天へのスタイル変換、晴天から雪降りへのスタイル変換、雪降りから晴天へのスタイル変換である。
図6から分かるように、本願の実施例の画像生成方法で得られた生成画像は、コンテンツ画像のコンテンツ情報及びスタイル画像のスタイル情報を保留することができる。
【0063】
本願の実施例のニューラルネットワークの訓練プロセスにおいて、入力から出力へのフォワードプロパゲーションプロセスに関わるだけでなく、出力から入力へのバックプロパゲーションプロセスにも関わる。本願のニューラルネットワークの訓練プロセスは、フォワードプロパゲーションプロセスを用いて、画像を生成し、バックプロパゲーションプロセスを用いて、ニューラルネットワークのネットワークパラメータを調整することができる。以下、本願の実施例に関わるニューラルネットワークの訓練方法を説明する。
【0064】
図7は、本願の実施例によるニューラルネットワークの訓練方法を示すフローチャートである。
図7に示すように、該プロセスは、以下を含んでもよい。
【0065】
ステップ701において、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得る。
【0066】
ステップ702において、スタイル画像のスタイル特徴を抽出する。
【0067】
ステップ703において、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて、スタイル特徴をフィードフォワード入力し、各第2ネットワークユニットブロックによって、それぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得て、複数層の第1ネットワークユニットブロックは、複数層の第2ネットワークユニットブロックに対応する。
【0068】
本実施例のステップ701からステップ703の実現形態は、ステップ101から103の実現形態と同じであり、ここで、詳細な説明を省略する。
【0069】
ステップ704において、生成画像に対して識別を行い、識別結果を得る。
【0070】
本願の実施例において、ニューラルネットワークの試験方法(即ち、訓練されたニューラルネットワークに基づいて画像生成を行う方法)と異なっており、ニューラルネットワークの訓練プロセスにおいて、ジェネレータから生成された出力画像を更に識別する必要がある。ここで、生成画像を識別する目的は、生成画像が実画像である確率を判定することである。実際の適用において、本ステップは、識別器などにより実現してもよい。
【0071】
ステップ705において、コンテンツ画像、スタイル画像、生成画像及び識別結果に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整する。
【0072】
実際の適用において、コンテンツ画像、スタイル画像、生成画像及び識別結果に基づいて、バックプロパゲーションプロセスにより、第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整し、更に、フォワードプロパゲーションプロセスにより、生成画像及び識別結果を再び得ることができる。これにより、上記フォワードプロパゲーションプロセスとバックプロパゲーションプロセスを複数回交互に行い、ニューラルネットワークのネットワーク反復最適化を行い、所定の訓練完了要件を満たすまで継続することで、訓練された、画像生成用ニューラルネットワークを得ることができる。
【0073】
実際の適用において、ステップ701からステップ705は、電子機器におけるプロセッサにより実現してもよく、上記プロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
【0074】
本願の実施例において、コンテンツ画像及びスタイル画像はいずれも実際の需要に応じて決定されてもよい。コンテンツ画像とスタイル画像は、ペアである画像でなくてもよい。従って、実現しやすい。ニューラルネットワーク訓練プロセスの画像生成過程において、第1ニューラルネットワークの各層の第1ネットワークユニットブロックを利用してコンテンツ画像のコンテンツ特徴を複数回抽出することができ、それによって、コンテンツ画像のより多くのセマンティック情報を保留し、そのため、生成画像は、コンテンツ画像に比べて、多くのセマンティック情報が残される。更に、訓練されたニューラルネットワークに、コンテンツ画像のセマンティック情報を良好に保持できる性能を持たせることができる。
【0075】
第2ニューラルネットワークのネットワークパラメータを調整するための実現形態において、例示的に、各層の第2ネットワークユニットブロックに用いられる上記乗算及び/又は加算のパラメータを調整することができる。
【0076】
1つの実現形態として、前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、以下を含む。コンテンツ画像、スタイル画像、生成画像及び識別結果に基づいて、敵対的生成ネットワーク(Generative Adversarial Net:GAN)損失を決定し、前記敵対的生成ネットワーク損失は、生成画像と前記コンテンツ画像とのコンテンツ特徴差異、生成画像とスタイル画像とのスタイル特徴差異を表すためのものである。1つの例において、敵対的生成ネットワークは、ジェネレータ及び識別器を含む。敵対的生成ネットワーク損失が第1所定条件を満たしないことに応答して、敵対的生成ネットワーク損失に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整する。実際の適用において、敵対的生成ネットワーク損失に基づいて、極大極小対策により、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整することができる。
【0077】
ここで、第1所定条件は、所定の訓練完了要件を表してもよい。敵対的生成ネットワーク損失の意味から分かるように、敵対的生成ネットワーク損失に基づいてニューラルネットワークを訓練することで、訓練されたニューラルネットワークにより得られた生成画像に、コンテンツ画像のコンテンツ特徴及びスタイル画像のスタイル特徴を保持できる高い性能を持たせることができることは、理解されるべきである。
【0078】
選択的に、前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、生成画像及びスタイル画像に基づいて、スタイル損失を決定することと、スタイル損失が第2所定条件を満たしないことに応答して、前記スタイル損失に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整することであって、スタイル損失は、前記生成画像のスタイル特徴とスタイル画像のスタイル特徴との差異を表すためのものである、ことと、を更に含む。
【0079】
選択的に、前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、生成画像及びコンテンツ画像に基づいて、コンテンツ損失を決定することと、コンテンツ損失が第3所定条件を満たしないことに応答して、コンテンツ損失に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整することであって、コンテンツ損失は、前記生成画像のコンテンツ特徴とコンテンツ画像のコンテンツ特徴との差異を表すためのものである、ことと、を更に含む。
【0080】
選択的に、前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、各第2ネットワークユニットブロックのうちの各中間層の第2ネットワークユニットブロックの出力特徴、及びスタイル画像に基づいて、特徴マッチング損失を決定することと、特徴マッチング損失が第4所定条件を満たしないことに応答して、特徴マッチング損失に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整することであって、特徴マッチング損失は、各中間層の第2ネットワークユニットブロックの出力特徴とスタイル画像のスタイル特徴との差異を表すためのものである、ことと、を更に含む。
【0081】
上記第2所定条件、第3所定条件及び第4所定条件は、所定の訓練完了要件を表すことができる。スタイル損失、コンテンツ損失又は特徴マッチング損失の意味から分かるように、スタイル損失、コンテンツ損失又は特徴マッチング損失に基づいてニューラルネットワークを訓練することで、訓練されたニューラルネットワークにより得られた生成画像に、コンテンツ画像のコンテンツ特徴を保持できる高い性能を持たせることができることは、理解されるべきである。
【0082】
本願の実施例において、上記1つの損失又は複数の損失に基づいてニューラルネットワークを訓練することができる。1つの損失に基づいてニューラルネットワークを訓練する場合、該損失が対応する所定条件を満たす場合、訓練されたニューラルネットワークを得ることができる。複数の損失に基づいてニューラルネットワークを訓練する場合、上記複数の損失がいずれも対応する要件を満たす場合、訓練されたニューラルネットワークを得ることができる。複数の損失に基づいてニューラルネットワークを訓練する場合、ニューラルネットワーク訓練の種々の観点でニューラルネットワークの損失を総合的に考慮することができるため、訓練されたニューラルネットワークのスタイル変換の正確性をより高くすることができる。
【0083】
本願の実施例において、敵対的生成ネットワーク損失、スタイル損失、コンテンツ損失又は特徴マッチング損失は、損失関数で表されてもよい。
【0084】
以下、具体的な適用実施例により、本願の実施例を更に説明する。
【0085】
該適用実施例において、ニューラルネットワーク訓練プロセスは、コンテンツエンコーダ、スタイルエンコーダ、ジェネレータ及び識別器などにより実現してもよい。訓練されたニューラルネットワークにより画像を生成するプロセスは、コンテンツエンコーダ、スタイルエンコーダ及びジェネレータなどにより実現してもよい。
【0086】
図8は、本願の実施例による画像生成方法のフレームワークの構造を示す概略図である。
図8に示すように、コンテンツエンコーダの入力は、処理しようとする画像(即ち、コンテンツ画像)であり、コンテンツ画像のコンテンツ特徴を抽出するように構成される。スタイルエンコーダは、スタイル画像のスタイル特徴を抽出するように構成される。ジェネレータは、異なる層の第1ネットワークユニットブロックのコンテンツ特徴とスタイル特徴をフュージョンし、高品質画像を更に生成する。
図8に、ニューラルネットワーク訓練プロセスに用いられる識別器が示されていない。
【0087】
具体的には、
図8に示すように、コンテンツエンコーダは、複数層の残差ブロックを含み、CRB-1、CRB-2…CRB-Tはそれぞれ、コンテンツエンコーダの第1層の残差ブロックから第T層の残差ブロックを表し、ジェネレータは、複数層の残差ブロックを含み、GB-1…GB-T-1、GB-Tはそれぞれ、ジェネレータの第1層の残差ブロックから第T層の残差ブロックを表す。iが1からTにあることに応答して、コンテンツエンコーダの第i層の残差ブロックの出力結果をジェネレータの第T-i+1層の残差ブロックに入力する。スタイルエンコーダの入力は、スタイル画像であり、スタイル画像のスタイル特徴を抽出するように構成される。スタイル特徴は、ジェネレータの第1層の残差ブロックに入力される。出力画像は、ジェネレータの第T層の残差ブロックGB-Tの出力結果に基づいて得られたものである。
【0088】
本願の適用実施例において、f
iをコンテンツエンコーダの第i層の残差ブロックから出力されたコンテンツ特徴マップと定義し、
でジェネレータのi番目の残差ブロックから出力された特徴を表す。ここで、コンテンツエンコーダのi番目の残差ブロックは、ジェネレータの第T-i+1層の残差ブロックに対応し、
とf
iは、同じチャネル数を有し、Nは、バッチサイズを表し、C
iは、チャネル数を表し、H
i及びW
iは、それぞれ高さ及び幅を表す。活性化値(n∈[1,N],c∈[1,C
i],h∈[1,H
i],ω∈[1,W
i])は、式(1)で表されてもよい。
(1)
【0089】
ここで、
及び
はいずれもジェネレータのi番目の残差ブロックに対応し、それぞれ、一層前の残差ブロック(即ち、第2ニューラルネットワークの残差ブロック)から出力された特徴の平均値及び標準偏差を表し、
及び
は、式(2)で算出される。
(2)
【0090】
及び
は、ジェネレータのi番目の残差ブロックのパラメータであり、
及び
は、
の単一層畳み込みにより得られる。本願の適用実施例の画像生成方法は、特徴適応的なものである。つまり、直接的にコンテンツ画像のコンテンツ特徴に基づいて変調パラメータを算出することができる。関連する画像生成方法において、変調パラメータは、不変のままである。
【0091】
本願の適用実施例において、コンテンツエンコーダを
で表し、スタイルエンコーダを
で表す。スタイル画像の潜在的分布
は、
により符号化される。例えば、
である。
【0092】
それぞれ
及び
を用いてコンテンツ画像領域及びスタイル画像領域を表し、訓練サンプル
は、教師無し学習環境においてエッジ分布
及び
から抽出されたものである。
【0093】
図9aは、本願の実施例によるコンテンツエンコーダの残差ブロックの構造を示す概略図である。
図9aに示すように、BNは、BN層を表し、ReLuは、ReLu層を表し、Convは、畳み込み層を表し、「
」は、加算操作を表し、コンテンツエンコーダの各残差ブロックCRBの構造は、標準残差ブロックの構造であり、コンテンツエンコーダの各残差ブロックは、3つの畳み込み層を含み、その1つは、スキップ接続(skip connection)に用いられる。
【0094】
本願の適用実施例において、ジェネレータの残差ブロックの層数は、コンテンツエンコーダの残差ブロックの層数と同じである。
図9bは、本願の適用実施例によるジェネレータの残差ブロックの構造を示す概略図である。
図9bに示すように、標準残差ブロックを基に、BN層の代わりに、FADEモジュールを用いて、ジェネレータの各層の残差ブロックGBの構造を得る。
図9bにおいて、F1、F2及びF3はそれぞれ、第1FADEモジュール、第2FADEモジュール及び第3FADEモジュールを表す。ジェネレータの各残差ブロックにおいて、各FADEモジュールの入力は、コンテンツエンコーダから出力された対応するコンテンツ特徴マップを含む。
図9bに示すように、ジェネレータの各残差ブロックにおいて、ジェネレータの各残差ブロックの3つのFADEモジュールにおいて、F1及びF2の入力は、第2ニューラルネットワークの一層前の残差ブロックの出力特徴を更に含み、F3の入力は、F1、ReLu層及び畳み込み層により順次処理を行うことで得られた特徴を更に含む。
【0095】
図9cは、本願の適用実施例によるFADEモジュールの構造を示す概略図である。
図9cに示すように、点線枠は、FADEモジュール内の構造を表し、「
」は、乗算操作を表し、「
」は、加算を表し、Convは、畳み込み層を表し、BNは、BN層を表し、
及び
は、ジェネレータの各残差ブロックの変調パラメータを表す。上記から分かるように、FADEは、コンテンツ特徴を入力とすることで、畳み込まれた特徴から、非正規化パラメータ(denormalization parameters)を導出することができる。
【0096】
本願の適用実施例において、コンテンツエンコーダとジェネレータの接続構造の精細な設計により、訓練されたニューラルネットワークは、スタイル画像による制御下で、コンテンツ画像を適応的に変換することができる。
【0097】
1つの実現形態として、スタイルエンコーダは、変分適応的エンコーダ(Variational Adaptive Encoder:VAE)に基づいて提出されたものである。スタイルエンコーダの出力は、平均値ベクトル(mean vector)
及び標準偏差ベクトル(standard deviation vector)
であり、潜在コード(latent code)zは、スタイル画像を符号化した後に行われた最サンプリング
からのものである。
【0098】
サンプリング操作は微分不可能であるため、ここで、再パラメータ化トリック(reparameterization trick)を用いてサンプリングを微分可能な演算に変換することができる。
を分布が均一でかつ大きさがzと同じであるランダム変数とする。ここで、
~
である。従って、zは、
に再パラメータ化される。このような操作により、バックプロパゲーションプロセスを有するスタイルエンコーダを訓練し、ネットワーク全体をエンドツーエンドモデル(end-to-end model)となるように訓練することができる。
【0099】
本願の適用実施例において、ニューラルネットワークの各部分を共同で訓練することができる。ニューラルネットワークの訓練について、極大極小対策により最適化を行う上で、式(3)を参照しながら、第1ニューラルネットワーク全体の損失関数を算出し、第1ニューラルネットワークの訓練を更に実現させることができる。
(3)
【0100】
ここで、Gは、ジェネレータを表し、Dは、識別器を表し、
は、スタイル損失を表す。例示的に、スタイル損失は、KLダイバージェンス(Kullback-Leibler divergence)の損失であってもよく、
は、式(4)で算出される。
(4)
【0101】
ここで、
は、KLダイバージェンスを表し、
は、
におけるハイパーパラメータを表す。
【0102】
【0103】
は、敵対的生成ネットワーク損失を表し、ジェネレータ及び識別器の敵対的訓練に用いられ、
は、式(5)で算出される。
(5)
【0104】
ここで、
及び
は、数学的期待値を表し、
は、判別器を表し、
は、ジェネレータを表し、
は、エンコーダを表し、
は、
におけるハイパーパラメータを表す。
【0105】
は、コンテンツ損失を表す。例示的に、コンテンツ損失は、VGG(Visual Geometry Group)損失であってもよい。
は、式(6)により算出される。
(6)
【0106】
ここで、
は、総M層から選択された第m層の活性化マップ(activation map)を表し、
は、
の要素数を表し、
及び
は、
における対応するハイパーパラメータを表し、
は、ジェネレータにより得られた出力画像を表し、
であり、
は、1-ノルムを表す。
【0107】
は、特徴マッチング損失を表し、
は、式(7)で算出される。
(7)
【0108】
ここで、
は、識別器の第i層のk番目のスケールを表し(マルチスケール識別器は、k個の異なるスケールを有する)、
は、識別器の第i層における要素の総数を表し、Qは層数を表す。
は、上記全ての損失関数においていずれも重みである。VGG損失は、異なる層において、異なる重みを有する。
【0109】
本願の適用実施例において、第1ニューラルネットワークは、マルチスケール識別に基づいて訓練される。異なるスケールでの各識別器は、全く同一の構造を有する。最も粗いスケールを有する識別器は、最も大きい受容野を有する。高い受容野により、識別器は、解像度が高い画像を区分することができる。
【0110】
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
【0111】
前記実施例で提供される画像生成方法を基に、本願の実施例は、画像生成装置を提供する。
図10は、本願の実施例による画像生成装置の構造を示す概略図である。
図10に示すように、前記装置は、第1抽出モジュール1001と、第2抽出モジュール1002と、第1処理モジュール1003と、を備え、
前記第1抽出モジュール1001は、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得るように構成され、
前記第2抽出モジュール1002は、スタイル画像のスタイル特徴を抽出するように構成され、
前記第1処理モジュール1003は、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得るように構成され、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する。
【0112】
選択的に、前記第1処理モジュール1003は、1からTまで順にiが取られることに応答して、第i層の第1ネットワークユニットブロックから出力されたコンテンツ特徴を第T-i+1層の第2ネットワークユニットブロックにフィードフォワード入力するように構成され、iは、正整数であり、Tは、前記第1ニューラルネットワークの第1ネットワークユニットブロック及び前記第2ニューラルネットワークの第2ネットワークユニットブロックの層数を表す。
【0113】
選択的に、前記複数の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックは、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算し、前記第1層の第2ネットワークユニットブロックの中間特徴を得て、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記第1層の第2ネットワークユニットブロックの中間特徴を加算し、前記第1層の第2ネットワークユニットブロックの出力特徴を得て、前記第1層の第2ネットワークユニットブロックの出力特徴を第2層の第2ネットワークユニットブロックに入力するように構成される。
【0114】
選択的に、前記第1層の第2ネットワークユニットブロックは更に、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算する前に、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行うように構成される。
【0115】
選択的に、前記複数の第2ネットワークユニットブロックのうちの中間層の第2ネットワークユニットブロックは、入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記中間層の第2ネットワークユニットブロックの中間特徴を得て、前記入力されたコンテンツ特徴と前記中間層の第2ネットワークユニットブロックの中間特徴を加算し、前記中間層の第2ネットワークユニットブロックの出力特徴を得て、前記中間層の第2ネットワークユニットブロックの出力特徴を次の層の第2ネットワークユニットブロックに入力するように構成される。
【0116】
選択的に、前記中間層の第2ネットワークユニットブロックは更に、前記入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、前記受け取ったコンテンツ特徴に対して畳み込み演算を行うように構成される。
【0117】
選択的に、前記複数の第2ネットワークユニットブロックのうちの最終層の第2ネットワークユニットブロックは、第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記最終層の第2ネットワークユニットブロックの中間特徴を得て、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と前記最終層の第2ネットワークユニットブロックの中間特徴を加算し、前記生成画像を得るように構成される。
【0118】
選択的に、前記最終層の第2ネットワークユニットブロックは、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴に対して畳み込み演算を行うように構成される。
【0119】
選択的に、前記第2抽出モジュール1002は、前記スタイル画像で分布される特徴を抽出し、前記スタイル画像で分布される特徴に対してサンプリングを行い、前記スタイル特徴を得るように構成され、前記スタイル特徴は、前記スタイル画像で分布される特徴の平均値及び標準偏差を含む。
【0120】
選択的に、前記第1ネットワークユニットブロックは、前記第1ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、コンテンツ画像のコンテンツ特徴を抽出するように構成され、及び/又は、前記第2ネットワークユニットブロックは、前記第2ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、前記第2ネットワークユニットブロックに入力された特徴を処理するように構成される。
【0121】
実際の適用において、第1抽出モジュール1001、第2抽出モジュール1002及び第1処理モジュール1003はいずれもプロセッサにより実現してもよく、上記プロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
【0122】
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアの形態として実現してもよく、ソフトウェア機能ユニットの形態として実現してもよい。
【0123】
上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータ可読記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の全て又は一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク装置など)又プロセッサ(processor)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
【0124】
具体的には、本実施例における画像生成方法又はニューラルネットワーク訓練方法に対応するコンピュータプログラム命令は、光ディスク、ハードディスク、USBメモリなどの記憶媒体に記憶されてもよい。記憶媒体における、画像生成方法又はニューラルネットワーク訓練方法に対応するコンピュータプログラム命令が電子機器により読み出されるか又は実行される場合、前記実施例のいずれか1つの画像生成方法又はいずれか1つのニューラルネットワーク訓練方法を実現させる。
【0125】
前記実施例と同様な技術的構想を基に、本願の実施例による電子機器11を示す
図11に示すように、電子機器11は、メモリ111と、プロセッサ112と、を備えてもよく、前記メモリ111は、コンピュータプログラムを記憶するように構成され、前記プロセッサ112は、前記メモリに記憶されたコンピュータプログラムを実行し、前記実施例のいずれか1つの画像生成方法又はいずれか1つのニューラルネットワーク訓練方法を実現させるように構成される。
【0126】
電子機器11における各アセンブリは、バスシステムにより結合される。バスシステムは、これらのアセンブリ間の接続通信を実現させるように構成されることが理解されるべきである。バスシステムは、データバスに加えて、電源バス、制御バス及び状態信号バスを更に含む。しかしながら、明確に説明するために、
図11において種々のバスをバスシステムと表記する。
【0127】
実際の適用において、上記メモリ111は、RAMのような揮発性メモリ(volatile memory)、ROM、フラッシュメモリ(flash memory)、ハードディスク(Hard Disk Drive:HDD)又はソリッドステートドライブ(Solid-State Drive:SSD)のような不揮発性メモリ(non-volatile memory)、又は上記メモリの組み合わせであってもよい。該メモリは、プロセッサ112に命令及びデータを提供する。
【0128】
上記プロセッサ112は、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちのすくなくとも1つであってもよい。様々な機器について、上記プロセッサ機能を実現させるための電子機器は他のものであってもよく、本願の実施例は、これを具体的に限定するものではないことは、理解されるべきである。
【0129】
図12は、本願の実施例によるニューラルネットワーク訓練装置の構造を示す概略図である。
図12に示すように、前記装置は、第3抽出モジュール1201と、第4抽出モジュール1202と、第2処理モジュール1203と、調整モジュール1204と、を備え、
前記第3抽出モジュール1201は、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得るように構成され、
前記第4抽出モジュール1202は、スタイル画像のスタイル特徴を抽出するように構成され、
前記第2処理モジュール1203は、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得て、前記生成画像に対して識別を行い、識別結果を得るように構成され、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応し、
前記調整モジュール1204は、前記コンテンツ画像、前記スタイル画像、前記生成画像及び識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成される。
【0130】
選択的に、前記第2処理モジュール1203は、1からTまで順にiが取られることに応答して、第i層の第1ネットワークユニットブロックから出力されたコンテンツ特徴を第T-i+1層の第2ネットワークユニットブロックにフィードフォワード入力するように構成され、iは、正整数であり、Tは、前記第1ニューラルネットワークの第1ネットワークユニットブロック及び前記第2ニューラルネットワークの第2ネットワークユニットブロックの層数を表す。
【0131】
選択的に、前記複数の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックは、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算し、前記第1層の第2ネットワークユニットブロックの中間特徴を得て、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記第1層の第2ネットワークユニットブロックの中間特徴を加算し、前記第1層の第2ネットワークユニットブロックの出力特徴を得て、前記第1層の第2ネットワークユニットブロックの出力特徴を第2層の第2ネットワークユニットブロックに入力するように構成される。
【0132】
選択的に、前記第1層の第2ネットワークユニットブロックは更に、最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算する前に、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行うように構成される。
【0133】
選択的に、前記複数の第2ネットワークユニットブロックのうちの中間層の第2ネットワークユニットブロックは、入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記中間層の第2ネットワークユニットブロックの中間特徴を得て、前記入力されたコンテンツ特徴と前記中間層の第2ネットワークユニットブロックの中間特徴を加算し、前記中間層の第2ネットワークユニットブロックの出力特徴を得て、前記中間層の第2ネットワークユニットブロックの出力特徴を次の層の第2ネットワークユニットブロックに入力するように構成される。
【0134】
選択的に、前記中間層の第2ネットワークユニットブロックは更に、前記入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、前記受け取ったコンテンツ特徴に対して畳み込み演算を行うように構成される。
【0135】
選択的に、前記複数の第2ネットワークユニットブロックのうちの最終層の第2ネットワークユニットブロックは、第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記最終層の第2ネットワークユニットブロックの中間特徴を得て、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と前記最終層の第2ネットワークユニットブロックの中間特徴を加算し、前記生成画像を得るように構成される。
【0136】
選択的に、前記最終層の第2ネットワークユニットブロックは、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴に対して畳み込み演算を行うように構成される。
【0137】
選択的に、前記調整モジュール1204は、前記乗算パラメータ及び/又は加算パラメータを調整するように構成される。
【0138】
選択的に、前記調整モジュール1204は、前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、敵対的生成ネットワーク損失を決定し、前記敵対的生成ネットワーク損失が第1所定条件を満たしないことに応答して、前記敵対的生成ネットワーク損失に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整するように構成され、前記敵対的生成ネットワーク損失は、前記生成画像と前記コンテンツ画像とのコンテンツ特徴差異、及び前記生成画像と前記スタイル画像とのスタイル特徴差異を表すためのものである。
【0139】
選択的に、前記調整モジュール1204は更に、前記生成画像及び前記スタイル画像に基づいて、スタイル損失を決定し、前記スタイル損失が第2所定条件を満たしないことに応答して、前記スタイル損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成され、前記スタイル損失は、前記生成画像のスタイル特徴と前記スタイル画像のスタイル特徴との差異を表すためのものである。
【0140】
選択的に、前記調整モジュール1204は更に、前記生成画像及び前記コンテンツ画像に基づいて、コンテンツ損失を決定し、前記コンテンツ損失が第3所定条件を満たしないことに応答して、前記コンテンツ損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成され、前記コンテンツ損失は、前記生成画像のコンテンツ特徴と前記コンテンツ画像のコンテンツ特徴との差異を表すためのものである。
【0141】
選択的に、前記調整モジュール1204は更に、前記複数の第2ネットワークユニットブロックのうちの各中間層の第2ネットワークユニットブロックの出力特徴、及びスタイル画像に基づいて、特徴マッチング損失を決定し、前記特徴マッチング損失が第4所定条件を満たしないことに応答して、前記特徴マッチング損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成され、前記特徴マッチング損失は、前記各中間層の第2ネットワークユニットブロックの出力特徴と前記スタイル画像のスタイル特徴との差異を表すためのものである。
【0142】
選択的に、前記第4抽出モジュール1202は、前記スタイル画像で分布される特徴を抽出し、前記スタイル画像で分布される特徴に対してサンプリングを行い、前記スタイル特徴を得るように構成され、前記スタイル特徴は、前記スタイル画像で分布される特徴の平均値及び標準偏差を含む。
【0143】
選択的に、前記第1ネットワークユニットブロックは、前記第1ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、コンテンツ画像のコンテンツ特徴を抽出するように構成され、及び/又は、前記第2ネットワークユニットブロックは、前記第2ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、前記第2ネットワークユニットブロックに入力された特徴を処理するように構成される。
【0144】
実際の適用において、上記第3抽出モジュール1201、第4抽出モジュール1202、第2処理モジュール1203及び調整モジュール1204はいずれもプロセッサにより実現してもよく、上記プロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
【0145】
幾つかの実施例において、本願の実施例で提供される装置の機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実現は、上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
【0146】
例示的な実施例において、本願の実施例は、例えば、コンピュータプログラムを含むメモリ111のようなコンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラムは、電子機器11のプロセッサ112により実行されて、前記方法に記載のステップを完了する。コンピュータ可読記憶媒体は、FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁気表面メモリ、光ディスク又はCD-ROMなどのメモリであってもよく、例えば、携帯電話、コンピュータ、タブレット、パーソナルデジタルアシスタントなどのような、上記メモリの1つ又は任意の組み合わせを含む種々の機器であってもよい。
【0147】
本願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムは、プロセッサにより実行される時、前記実施例のいずれか1つの画像生成方法又はいずれか1つのニューラルネットワーク訓練方法を実現させる。
【0148】
各実施例に関する上記説明において、各実施例の相違点を強調する傾向があり、その同一あるいは類似の部分は相互参照することができる。簡潔化のために、ここで詳細な説明を省略する。
【0149】
矛盾が生じない限り、本願で提供される各方法又は製品の実施例で開示された特徴を互いに任意に組み合わせて、新たな方法又は製品の実施例を得ることができる。
【0150】
上記実施形態の説明により、上記実施例の方法は、ソフトウェアと必須な汎用ハードウェアプラットフォームとの組み合わせで実現することができ、勿論、ハードウェアにより実現することもできるが、多くの場合、前者は、より好適な実施形態であることを当業者が理解すべきである。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形態で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶しても良く、また、一台のコンピュータ機器(携帯電話、コンピュータ、サーバ、エアコン、又はネットワーク装置等)に、本願の各実施例に記載の方法を実行させるための若干の命令を含む。
【0151】
以上は図面を参照しながら、本願の実施例を説明している。本願は、上記具体的な実施形態に限定されず、上記具体的な実施形態は模式的なものに過ぎず、本願を限定するものではない。当業者は、本願に基づいて、本願の実施例要旨及び特許請求の範囲の保護範囲から逸脱することなく、多くの実施形態を想到しうる。これらは、いずれも本願の実施例の保護範囲内に含まれる。
【手続補正書】
【提出日】2021-06-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像生成方法であって、
第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得ることと、
スタイル画像のスタイル特徴を抽出することと、
前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得ることであって、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、ことと、を含む、画像生成方法。
【請求項2】
前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力することは、
1からTまで順にiが取られることに応答して、第i層の第1ネットワークユニットブロックから出力されたコンテンツ特徴を第T-i+1層の第2ネットワークユニットブロックにフィードフォワード入力することであって、iは、正整数であり、Tは、前記第1ニューラルネットワークの第1ネットワークユニットブロック及び前記第2ニューラルネットワークの第2ネットワークユニットブロックの層数を表す、ことを含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記複数の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算し、前記第1層の第2ネットワークユニットブロックの中間特徴を得ることと、
前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記第1層の第2ネットワークユニットブロックの中間特徴を加算し、前記第1層の第2ネットワークユニットブロックの出力特徴を得ることと、
前記第1層の第2ネットワークユニットブロックの出力特徴を第2層の第2ネットワークユニットブロックに入力することと、を含むことを特徴とする
請求項1又は2に記載の方法。
【請求項4】
前記方法は、
最終層の第1ネットワークユニットブロックからのコンテンツ特徴と前記スタイル特徴を乗算する前に、前記最終層の第1ネットワークユニットブロックからのコンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項3に記載の方法。
【請求項5】
前記複数の第2ネットワークユニットブロックのうちの中間層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記中間層の第2ネットワークユニットブロックの中間特徴を得ることと、
前記入力されたコンテンツ特徴と前記中間層の第2ネットワークユニットブロックの中間特徴を加算し、前記中間層の第2ネットワークユニットブロックの出力特徴を得ることと、
前記中間層の第2ネットワークユニットブロックの出力特徴を次の層の第2ネットワークユニットブロックに入力することと、を含むことを特徴とする
請求項1-4のいずれか一項に記載の方法。
【請求項6】
前記方法は、前記入力されたコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、前記受け取ったコンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項5に記載の方法。
【請求項7】
前記複数の第2ネットワークユニットブロックのうちの最終層の第2ネットワークユニットブロックによって、入力された特徴を処理することは、
第1層の第1ネットワークユニットブロックからのコンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算し、前記最終層の第2ネットワークユニットブロックの中間特徴を得ることと、
第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と前記最終層の第2ネットワークユニットブロックの中間特徴を加算し、前記生成画像を得ることと、を含むことを特徴とする
請求項1-6のいずれか一項に記載の方法。
【請求項8】
前記方法は、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴と一層前の第2ネットワークユニットブロックの出力特徴を乗算する前に、第1層の第1ネットワークユニットブロックからの前記コンテンツ特徴に対して畳み込み演算を行うことを更に含むことを特徴とする
請求項7に記載の方法。
【請求項9】
前記スタイル画像のスタイル特徴を抽出することは、
前記スタイル画像で分布される特徴を抽出することと、
前記スタイル画像で分布される特徴に対してサンプリングを行い、前記スタイル特徴を得ることであって、前記スタイル特徴は、前記スタイル画像で分布される特徴の平均値及び標準偏差を含む、ことと、を含むことを特徴とする
請求項1-8のいずれか一項に記載の方法。
【請求項10】
前記第1ネットワークユニットブロックによりコンテンツ画像のコンテンツ特徴を抽出することは、
前記第1ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、コンテンツ画像のコンテンツ特徴を抽出することを含み、及び/又は、
前記第2ネットワークユニットブロックにより、入力された特徴を処理することは、前記第2ネットワークユニットブロックにおける、残差構造で構成された複数のニューラルネットワーク層によって、前記第2ネットワークユニットブロックに入力された特徴を処理することを含むことを特徴とする
請求項1-9のいずれか一項に記載の方法。
【請求項11】
ニューラルネットワーク訓練方法であって、
第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得ることと、
スタイル画像のスタイル特徴を抽出することと、
前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得ることであって、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、ことと、
前記生成画像に対して識別を行い、識別結果を得ることと、
前記コンテンツ画像、前記スタイル画像、前記生成画像及び識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することと、を含む、ニューラルネットワーク訓練方法。
【請求項12】
前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、
前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、敵対的生成ネットワーク損失を決定することと、
前記敵対的生成ネットワーク損失が第1所定条件を満たしないことに応答して、前記敵対的生成ネットワーク損失に基づいて、第1ニューラルネットワーク及び/又は第2ニューラルネットワークのネットワークパラメータを調整することであって、前記敵対的生成ネットワーク損失は、前記生成画像と前記コンテンツ画像とのコンテンツ特徴差異、及び前記生成画像と前記スタイル画像とのスタイル特徴差異を表すためのものである、ことと、を含むことを特徴とする
請求項1
1に記載の方法。
【請求項13】
前記コンテンツ画像、前記スタイル画像、前記生成画像及び前記識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することは、
前記生成画像及び前記スタイル画像に基づいて、スタイル損失を決
定し、前記スタイル損失が第2所定条件を満たしないことに応答して、前記スタイル損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することであって、前記スタイル損失は、前記生成画像のスタイル特徴と前記スタイル画像のスタイル特徴との差異を表すためのものである、こと
、及び/又は、
前記生成画像及び前記コンテンツ画像に基づいて、コンテンツ損失を決定し、前記コンテンツ損失が第3所定条件を満たしないことに応答して、前記コンテンツ損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することであって、前記コンテンツ損失は、前記生成画像のコンテンツ特徴と前記コンテンツ画像のコンテンツ特徴との差異を表すためのものである、こと、及び/又は、
前記複数の第2ネットワークユニットブロックのうちの各中間層の第2ネットワークユニットブロックの出力特徴、及びスタイル画像に基づいて、特徴マッチング損失を決定し、前記特徴マッチング損失が第4所定条件を満たしないことに応答して、前記特徴マッチング損失に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整することであって、前記特徴マッチング損失は、前記各中間層の第2ネットワークユニットブロックの出力特徴と前記スタイル画像のスタイル特徴との差異を表すためのものである、こと、を更に含むことを特徴とする
請求項
12に記載の方法。
【請求項14】
画像生成装置であって、前記装置は、第1抽出モジュールと、第2抽出モジュールと、第1処理モジュールと、を備え、
第1抽出モジュールは、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得るように構成され、
第2抽出モジュールは、スタイル画像のスタイル特徴を抽出するように構成され、
第1処理モジュールは、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得るように構成され、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応する、画像生成装置。
【請求項15】
ニューラルネットワーク訓練装置であって、前記装置は、第3抽出モジュールと、第4抽出モジュールと、第2処理モジュールと、調整モジュールと、を備え、
第3抽出モジュールは、第1ニューラルネットワークにおける順次接続される複数層の第1ネットワークユニットブロックを利用して、コンテンツ画像のコンテンツ特徴を抽出し、各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を得るように構成され、
第4抽出モジュールは、スタイル画像のスタイル特徴を抽出するように構成され、
第2処理モジュールは、前記各層の第1ネットワークユニットブロックからそれぞれ出力されたコンテンツ特徴を、第2ニューラルネットワークにおける順次接続される複数層の第2ネットワークユニットブロックに、対応的にフィードフォワード入力し、前記複数層の第2ネットワークユニットブロックのうちの第1層の第2ネットワークユニットブロックからはじめて前記スタイル特徴をフィードフォワード入力し、各前記第2ネットワークユニットブロックによってそれぞれ入力された特徴を処理した後に、前記第2ニューラルネットワークから出力される生成画像を得て、前記生成画像に対して識別を行い、識別結果を得るように構成され、前記複数層の第1ネットワークユニットブロックは、前記複数層の第2ネットワークユニットブロックに対応し、
調整モジュールは、前記コンテンツ画像、前記スタイル画像、前記生成画像及び識別結果に基づいて、前記第1ニューラルネットワーク及び/又は前記第2ニューラルネットワークのネットワークパラメータを調整するように構成される、ニューラルネットワーク訓練装置。
【請求項16】
電子機器であって、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行する時、請求項1-10のいずれか一項に記載の画像生成方法又は請求項11-
13のいずれか一項に記載のニューラルネットワーク訓練方法を実行するように構成される、電子機器。
【請求項17】
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行される時、
前記プロセッサに、請求項1-10のいずれか一項に記載の画像生成方法又は請求項11-
13のいずれか一項に記載のニューラルネットワーク訓練方法を
実行させる、コンピュータ記憶媒体。
【国際調査報告】