IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ センスタイム グループ リミテッドの特許一覧 ▶ 本田技研工業株式会社の特許一覧

特表2022-530518画像生成方法及び装置、電子機器並びに記憶媒体
<>
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図1
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図2
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図3
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図4
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図5
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図6A
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図6B
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図6C
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図7
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図8
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図9
  • 特表-画像生成方法及び装置、電子機器並びに記憶媒体 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-06-29
(54)【発明の名称】画像生成方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
   G06T 1/00 20060101AFI20220622BHJP
   G06T 7/00 20170101ALI20220622BHJP
   H04N 1/387 20060101ALI20220622BHJP
【FI】
G06T1/00 500B
G06T7/00 350C
H04N1/387 110
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021564168
(86)(22)【出願日】2020-02-24
(85)【翻訳文提出日】2021-10-27
(86)【国際出願番号】 CN2020076470
(87)【国際公開番号】W WO2020220807
(87)【国際公開日】2020-11-05
(31)【優先権主張番号】201910352792.1
(32)【優先日】2019-04-29
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
2.BLUETOOTH
3.SMALLTALK
(71)【出願人】
【識別番号】520018428
【氏名又は名称】センスタイム グループ リミテッド
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】110001427
【氏名又は名称】特許業務法人前田特許事務所
(72)【発明者】
【氏名】シェン ジーチアン
(72)【発明者】
【氏名】ホアン ミンヤン
(72)【発明者】
【氏名】シー ジエンピン
(72)【発明者】
【氏名】松永 英樹
【テーマコード(参考)】
5B057
5C076
5L096
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC02
5B057CE08
5B057DA07
5B057DA08
5B057DA16
5B057DB02
5B057DB09
5B057DC36
5B057DC40
5C076AA12
5C076BA06
5L096AA06
5L096BA08
5L096DA02
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本発明の実施例は、画像生成方法及び装置、電子機器並びに記憶媒体を開示し、前記画像生成方法は、第1画像のコンテンツ特徴を抽出することと、第2画像の全体画像スタイル特徴と、オブジェクトを含む第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、少なくとも全体画像スタイル特徴及びオブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、コンテンツ特徴及びターゲットスタイル特徴に従って第3画像を生成することと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像生成方法であって、
第1画像のコンテンツ特徴を抽出することと、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することであって、前記第2画像と前記第1画像のスタイルは異なる、ことと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることと、を含む、前記画像生成方法。
【請求項2】
前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することを含む、
請求項1に記載の画像生成方法。
【請求項3】
前記画像生成方法は、
前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出することを更に含み、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックであり、
前記少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することを含む、
請求項1に記載の画像生成方法。
【請求項4】
前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴を前記背景スタイル特徴に融合することと、
前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することと、を含む、
請求項3に記載の画像生成方法。
【請求項5】
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることは、
画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別することと、
前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練することと、
訓練済みの前記画像生成器を介して前記第3画像を生成することと、を含む、
請求項1ないし4のいずれか一項に記載の画像生成方法。
【請求項6】
前記画像生成方法は、
ソース画像のコンテンツ特徴を抽出することと、
前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得することであって、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する、こととを更に含む、
請求項5に記載の画像生成方法。
【請求項7】
前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む、
請求項1ないし6のいずれか一項に記載の画像生成方法。
【請求項8】
前記第2画像が複数のオブジェクトを含む場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、
前記第2画像から複数の部分画像ブロックを抽出することであって、各部分画像ブロックは1つのカテゴリのオブジェクトを含むことと、
各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、を含む、
請求項1ないし7のいずれか一項に記載の画像生成方法。
【請求項9】
前記複数のオブジェクトが複数のカテゴリに属する場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、
同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合することを更に含む、
請求項8のいずれか一項に記載の画像生成方法。
【請求項10】
前記画像生成方法は、
ソース画像のコンテンツ特徴を抽出することと、
前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴、及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得することであって、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する、ことと、を更に含む、
請求項5ないし9のいずれか一項に記載の画像生成方法。
【請求項11】
画像生成装置であって、
第1画像のコンテンツ特徴を抽出するように構成される第1抽出モジュールと、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第2抽出モジュールであって、前記第2画像と前記第1画像のスタイルは異なる、第2抽出モジュールと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュールと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第1生成モジュールと、を備える、前記画像生成装置。
【請求項12】
前記決定モジュールは、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される、
請求項11に記載の画像生成装置。
【請求項13】
前記画像生成装置は更に、
前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出するように構成される第3抽出モジュールを備え、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックであり、
前記決定モジュールは、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定するように構成される、
請求項11に記載の画像生成装置。
【請求項14】
前記決定モジュールは、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される、
請求項13に記載の画像生成装置。
【請求項15】
前記第1生成モジュールは、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別し、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練し、訓練済みの前記画像生成器を介して前記第3画像を生成するように構成される、
請求項11ないし14のいずれか一項に記載の画像生成装置。
【請求項16】
前記画像生成装置は更に、第2生成モジュールを備え、
前記第1抽出モジュールは、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第2生成モジュールは、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得するように構成され、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する、
請求項15に記載の画像生成装置。
【請求項17】
前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む、
請求項11ないし16のいずれか一項に記載の画像生成装置。
【請求項18】
前記第2抽出モジュールは、前記第2画像が複数のオブジェクトを含む場合、前記第2画像から複数の部分画像ブロックを抽出し、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成され、各部分画像ブロックは1つのカテゴリのオブジェクトを含む、
請求項11ないし17のいずれか一項に記載の画像生成装置。
【請求項19】
前記第2抽出モジュールは、前記複数のオブジェクトが複数のカテゴリに属する場合、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合するように構成される、
請求項18に記載の画像生成装置。
【請求項20】
前記画像生成装置は更に、第3生成モジュールを備え、
前記第1抽出モジュールは、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第3生成モジュールは、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得するように構成され、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する、
請求項15ないし19のいずれか一項に記載の画像生成装置。
【請求項21】
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、請求項1ないし10のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
【請求項22】
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし10のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本願は、2019年04月29日に中国特許局に提出された、出願番号が201910352792.1である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全てのコンテンツが引用によって本願に組み込まれる。
[技術分野]
本発明は、コンピュータ技術分野に関し、特に、画像生成方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0002】
関連技術では、深層学習などの方法により画像スタイルの全体的な変換を実現することができる。例えば、画像の明るさ、コントラスト、照明、色、芸術的特徴又はアートワークなどを変換して、様々なスタイルの画像を取得することができる。しかしながら、スタイルの変換は、全体的な画像に対してのみ適用でき、画像内のターゲットオブジェクトのスタイルは、画像の全体的なスタイルとともに変換することしかできず、ターゲットオブジェクトのスタイルを反映できないため、変換後の画像のスタイルが単調になり、画像全体とターゲットオブジェクトが位置する領域との間の不調和が生じる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の実施例は、画像生成方法及び装置、電子機器並びに記憶媒体を提案する。
【課題を解決するための手段】
【0004】
第1態様によれば、本発明の実施例は画像生成方法を提供し、前記画像生成方法は、
第1画像のコンテンツ特徴を抽出することと、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することであって、前記第2画像と前記第1画像のスタイルは異なる、ことと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることと、を含む。
【0005】
本発明の実施例の画像生成方法によれば、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴及び第1画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルの第3画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性を向上させ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第3画像は、第1画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、これは、第1画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプルや少数の画像サンプルの場合での手動収集や注釈のコストを大幅に減らす。
【0006】
第2態様によれば、本発明の実施例は画像生成装置を提供し、前記画像生成装置は、
第1画像のコンテンツ特徴を抽出するように構成される第1抽出モジュールと、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第2抽出モジュールであって、前記第2画像と前記第1画像のスタイルは異なる、第2抽出モジュールと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュールと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第1生成モジュールと、を備える。
【0007】
第3態様によれば、本発明の実施例は電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
ここで、前記プロセッサは、前述した本発明の実施例の画像生成方法を実行するように構成される。
【0008】
第4態様によれば、本発明の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、前述した本発明の実施例の画像生成方法を実現する。
【0009】
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本願を限定するものではないことを理解されたい。
【0010】
以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本発明の実施例の他の特徴および態様は明らかになる。
【図面の簡単な説明】
【0011】
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示し、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。
図1】本発明の実施例に係る画像生成方法の第1のフローチャートである。
図2】本発明の実施例に係る画像生成方法の第2のフローチャートである。
図3】本発明の実施例に係るスタイル特徴融合の概略図である。
図4】本発明の実施例に係る画像生成方法の第3のフローチャートである。
図5】本発明の実施例に係る画像生成方法の第4のフローチャートである。
図6A】本発明の実施例に係る画像生成方法の応用の概略図である。
図6B】本発明の実施例に係る画像生成方法の応用の概略図である。
図6C】本発明の実施例に係る画像生成方法の応用の概略図である。
図7】本発明の実施例に係る画像生成装置の第1のブロック図である。
図8】本発明の実施例に係る画像生成装置の第2のブロック図である。
図9】本発明の実施例に係る電子機器の第1の概略構造図である。
図10】本発明の実施例に係る電子機器の第2の概略構造図である。
【発明を実施するための形態】
【0012】
以下、本発明のさまざまな例示的な実施例、特徴および態様を、図面を参照して詳細に説明する。図面における同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。
【0013】
明細書における「例示的」という専門の用語は、「例、実施例または説明として使用される」ことを意図する。ここで、「例示的」として説明される任意の実施例は、他の実施例より適切であるかまたは優れると解釈される必要はない。
【0014】
本明細書における「及び/又は」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合など3つの場合を表す。さらに、本明細書における「少なくとも1つ」という用語は、複数のうちの1つまたは複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCで構成されたセットから選択された任意の1つまたは複数の要素を含むことを示す。
【0015】
さらに、本発明の実施例をよりよく説明するために、以下の特定の実施形態において、多数の特定の詳細が与えられる。当業者は、本発明の実施例は特定の具体的な詳細なしにも実施できることを理解されたい。いくつかの具現例において、本発明の実施例の要旨を強調するために、当業者に周知の方法、手段、要素および回路について詳細に説明しない。
【0016】
図1は、本発明の実施例に係る画像生成方法の第1のフローチャートを示し、図1に示されたように、前記画像生成方法は、次のステップを含む。
【0017】
ステップS11において、第1画像のコンテンツ特徴を抽出する。
【0018】
ステップS12において、第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出し、ここで、前記第2画像と前記第1画像のスタイルは異なる。
【0019】
ステップS13において、少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定する。
【0020】
ステップS14において、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにする。
【0021】
本発明の実施例の画像生成方法によれば、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴及び第1画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルの第3画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体画像が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性をさせ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第3画像は、第1画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、これは、第1画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプルや少数の画像サンプル場合での手動収集や注釈のコストを大幅に減らす。
【0022】
一可能な実施形態において、前記方法は端末機器によって実行でき、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよく、メモリに記憶されているコンピュータ可読命令をプロセッサを介して呼び出すことにより前記方法を実現することができる。あるいは、サーバを介して前記方法を実行することができる。
【0023】
一可能な実施形態において、第1画像及び第2画像のいずれも、1つ又は複数のオブジェクトを含む画像であってもよく、前記オブジェクトは、様々なカテゴリのオブジェクトであってもよく、前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む。
【0024】
一可能な実施形態において、第1画像と第2画像の画像スタイルは異なり、前記画像スタイルは、画像の明るさ、コントラスト、照明、色、芸術的特徴又はアートワークを含み得る。例示的に、第1画像と第2画像は、異なる環境、例えば、昼間、夜、雨の中、霧の中など様々な環境で撮影された画像であってもよい。例えば、第1画像は、昼間にある場所で撮影された画像であり、第2画像は、夜に別の場所で撮影された画像である。
【0025】
一可能な実施形態において、ステップS11において、第1画像のコンテンツ特徴を抽出することができる。前記コンテンツ特徴は、第1画像に含まれるコンテンツを表すために使用でき、一例として、前記コンテンツ特徴は、第1画像内のオブジェクトのカテゴリ、形状、位置などの情報のうちの少なくとも1つであってもよく、又は、前記コンテンツ特徴は、第1画像の背景などを含んでもよい。別の例として、前記コンテンツ特徴は、第1画像の全体画像のコンテンツ特徴を含み得る。一例では、特徴抽出器を介して第1画像のコンテンツ特徴を抽出することができる。実際の応用では、前記特徴抽出器は、畳み込みニューラルネットワークなどで実現でき、本発明の実施例は、特徴抽出器の実施形態を限定しない。前記コンテンツ特徴は、特徴抽出器によって取得された第1画像の特徴マップ又は特徴ベクトルを含み得る。
【0026】
一可能な実施形態において、第1画像のコンテンツ特徴は、オブジェクトが含まれている第1画像の部分画像ブロックのオブジェクトコンテンツ特徴を含み得、第1画像から複数の部分画像ブロックを抽出し、各部分画像ブロックは1つのオブジェクトを含み得、次に各部分画像ブロックのオブジェクトコンテンツ特徴をそれぞれ抽出することができる。例えば、特徴抽出器を介して、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴を抽出することができる。
【0027】
一可能な実施形態では、ステップS12において、特徴抽出器を使用して、第2画像の全体画像スタイル特徴と、オブジェクトを含む第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することができる。例示的に、前記特徴抽出器は、畳み込みニューラルネットワークなどのニューラルネットワークで実現でき、本発明の実施例は、前記特徴抽出器の実施形態を限定しない。例えば、特徴抽出器は、第2画像及び第2画像の部分画像ブロックに対してそれぞれ抽出処理を実行して、全体画像スタイル特徴及び各オブジェクトのオブジェクトスタイル特徴をそれぞれ抽出することができる。ここで、前記全体画像スタイル特徴及びオブジェクトスタイル特徴は、8ビットの長さの特徴ベクトルであってもよい。本発明の実施例は、全体画像スタイル特徴及びオブジェクトスタイル特徴の表示方式を限定しない。
【0028】
一可能な実施形態において、前記第2画像が複数のオブジェクトを含む場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、前記第2画像から複数の部分画像ブロックを抽出することであって、各部分画像ブロックは1つのカテゴリのオブジェクトを含むことと、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、を含む。
【0029】
一例では、第2画像から、第2画像内の1つのオブジェクトを含む部分画像ブロックを抽出し、特徴抽出器を使用して、各部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することができる。更に、前記複数のオブジェクトが複数のカテゴリに属する場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合することを更に含む。例えば、同じカテゴリの複数のオブジェクトのオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、同じカテゴリのオブジェクトの複数のオブジェクトスタイル特徴を融合することができる。例示的に、同じ方式で、第1画像の全体画像スタイル特徴及びオブジェクトスタイル特徴を抽出することができる。
【0030】
例示的に、第1画像が昼間にある場所で撮影された画像であり、第2画像が夜に別の場所で撮影された画像である場合、第1画像の全体画像スタイル特徴とオブジェクトスタイル特徴は、昼間に撮影された画像のスタイルを表すことができ、例えば、画像の明るさ、コントラスト、照明、色はすべて、昼間に撮影された画像のスタイルであり、第1画像の全体画像スタイル特徴は、第1画像のスタイル情報を表し、第1画像のオブジェクトスタイル特徴は、第1画像内のオブジェクトが位置する領域(即ち、第1画像の部分画像ブロック)のスタイル情報を表す。第2画像の全体画像スタイル特徴とオブジェクトスタイル特徴は、夜に撮影された画像のスタイルを表すことができ、第2画像の全体画像スタイル特徴は、第2画像のスタイル情報を表し、第2画像のオブジェクトスタイル特徴は、第2画像内のオブジェクトが位置する領域(即ち、第2画像の部分画像ブロック)のスタイル情報を表す。
【0031】
一可能な実施形態では、ステップS13において、少なくとも第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定する。前記第2画像と前記第1画像のスタイルは異なり、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に従ってターゲットスタイル特徴を決定し、第1画像のスタイルを、ターゲットスタイル特徴に対応するスタイル及び第1画像のコンテンツを有する画像、すなわち、第3画像に変換することができる。第3画像は、スタイル変換後の第1画像の全体画像(即ち、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する画像)、及びスタイル変換後の部分画像ブロック(即ち、第1画像の部分画像ブロックのオブジェクトのコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する画像)を含み得る。
【0032】
一可能な実施形態において、ステップS13は、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することを含み得る。例示的に、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴のいずれも特徴ベクトルであり、全体画像スタイル特徴及びオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得することができる。
【0033】
このように、全体画像スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得し、ターゲットスタイル特徴に基づいて第3画像を生成することにより、第3画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第3画像内のオブジェクトが、オブジェクトスタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイルと調和するようにすることができ、これにより、スタイル遷移の画像の真実性を向上させる。オブジェクトスタイル特徴を全体画像スタイル特徴に融合する方式と比較して、全体画像スタイル特徴をオブジェクトスタイル特徴に融合する方式によって取得された第3画像内のオブジェクトのスタイルの方が、全体画像のスタイルとより調和される。
【0034】
上記の実施例に基づき、図2は、本発明の実施例に係る画像生成方法の第2のフローチャートを示し、図2に示されたように、前記画像生成方法は、次のステップを更に含む。
【0035】
ステップS15において、前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出し、ここで、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックである。
【0036】
例示的に、特徴抽出器を介して、第2画像内の背景画像ブロックの背景スタイル特徴を抽出することができる。
【0037】
この場合、上記の実施例におけるステップS13は、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することを含み得る。
【0038】
このように、全体画像スタイル特徴、オブジェクトスタイル特徴、及び背景スタイル特徴に従って、ターゲットスタイル特徴を決定することにより、第3画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第3画像の背景が背景スタイル特徴に対応するスタイルを有するようにし、第3画像内のオブジェクトがオブジェクトスタイル特徴に対応するスタイルを有するようにすることができる。
【0039】
一可能な実施形態において、前記前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、前記全体画像スタイル特徴を前記背景スタイル特徴に融合することと、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することと、を含む。
【0040】
本実施例では、ターゲットスタイル特徴は、第2画像の全体画像スタイル特徴を第2画像の背景スタイル特徴に融合し、次に第2画像の全体画像スタイル特徴が融合された背景スタイル特徴を第2画像のオブジェクトスタイル特徴に融合することによって取得されたターゲットスタイル特徴であってもよい。他の実施形態において、ターゲットスタイル特徴はまた、第2画像の全体画像スタイル特徴を第2画像のオブジェクトスタイル特徴に融合することによって取得されたターゲットスタイル特徴であってもよい。
【0041】
例示的に、図3は、本発明の実施例に係るスタイル特徴融合の概略図を示す。図3に示されたように、第2画像の全体画像スタイル特徴、背景スタイル特徴、及びオブジェクトスタイル特徴のいずれも特徴ベクトルであり、全体画像スタイル特徴及び背景スタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴を背景スタイル特徴に融合し、全体画像スタイル特徴が融合された背景スタイル特徴及びオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得することができる。
【0042】
このように、全体画像スタイル特徴を背景スタイル特徴に融合した後、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合することにより、ターゲットスタイル特徴を取得し、次にターゲットスタイル特徴に基づいて第3画像を生成することにより、第3画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第3画像内の背景が、背景スタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイルと調和するようにし、第3画像内のオブジェクトが、オブジェクトスタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイル及び背景スタイル特徴に対応するスタイルと調和するようにし、これにより、スタイル遷移の画像の真実性を向上させる。オブジェクトスタイル特徴を背景スタイル特徴に融合した後、オブジェクトスタイル特徴が融合された背景スタイル特徴を全体画像スタイル特徴に融合する方式と比較して、全体画像スタイル特徴を背景スタイル特徴に融合した後、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合する方式によって取得された第3画像内のオブジェクトのスタイルと、背景的スタイルと、全体画像のスタイルとの間の調和性がより優れる。
【0043】
一可能な実施形態では、ステップS14において、第1画像のコンテンツ特徴及び前記ターゲットスタイル特徴に従って、第1画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する第3画像を生成することができる。例えば、画像生成器を使用して、第1画像のコンテンツ特徴及び前記ターゲットスタイル特徴に従って前記第3画像を生成することができる。
【0044】
本実施例では、第1画像のコンテンツ特徴は、第1画像の全体画像のコンテンツ特徴及び第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴を含み得る。この場合、一可能な実施形態において、第1画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続を実行し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続を実行することができきる。例えば、適応インスタンス正規化(AdaIN:Adaptive Instance Normalization)などの方法で前記残差接続を実行して、第1画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができる。
【0045】
一可能な実施形態において、画像生成器を介して、当該特徴情報(特徴情報は、第1画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を含み得る)に対して復号化処理を実行することにより、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像を生成し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを生成することができる。
【0046】
一可能な実施形態において、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを画像生成器に入力して、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像を取得し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを取得することができ、上記の画像及び部分画像ブロックは、両方とも第3画像と呼ばれることができる。
【0047】
一可能な実施形態において、図4に示されたように、ステップS14は、次のステップを含み得る。
【0048】
ステップS141において、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別する。
【0049】
ステップS142において、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練する。
【0050】
ステップS143において、訓練済みの前記画像生成器を介して前記第3画像を生成する。
【0051】
本実施例では、生成された画像のコンテンツ特徴は、第1画像のコンテンツ特徴と一致すべきであり、生成された画像の部分画像ブロックのコンテンツ特徴は、第1画像の部分画像ブロックのコンテンツ特徴と一致すべきであり、生成された画像のスタイルは、ターゲットスタイル特徴と一致すべきである。しかしながら、生成された画像は、画像生成器によって生成された画像であり、生成された画像のコンテンツと、第1画像又は第1画像の部分画像ブロックとの間に偏差がある可能性があり、生成された画像のスタイルとターゲットスタイル特徴との間にも偏差がある可能性があり、この場合、当該偏差に基づいてネットワーク損失を決定し、ネットワーク損失に基づいて画像生成器及び特徴抽出器を訓練することができる。
【0052】
一可能な実施形態において、生成された画像を画像判別器に入力し、画像判別器を介して、生成された画像の真実性を判別し、画像判別器の判別結果と画像生成器によって生成された画像との間の敵対的訓練に基づいて、画像生成器を訓練することができる。
【0053】
一可能な実施形態において、生成された画像と第1画像との間の差異に従って、第1総合ネットワーク損失を決定することができる。例えば、生成された画像と第1画像との間の対応する画素点間の差異に従ってクロスエントロピ損失を決定することができ、前記クロスエントロピ損失を第1総合ネットワーク損失として使用する。
【0054】
別の可能な実施形態において、生成された画像が部分画像ブロックである場合、生成された部分画像ブロックと第1画像の部分画像ブロックとの間の差異に従って第2総合ネットワーク損失を決定することができる。例えば、生成された部分画像ブロックと第1画像の部分画像ブロックとの間の対応する画素点間の差異に従ってクロスエントロピ損失を決定することができ、前記クロスエントロピ損失を第2総合ネットワーク損失として使用する。
【0055】
一可能な実施形態において、前記第1総合ネットワーク損失及び第2総合ネットワーク損失は、以下の式(1)で表すことができる。
(1)
【0056】
ここで、Lは、第1総合ネットワーク損失又は第2総合ネットワーク損失を表し、
は、生成された画像の画素点又は生成された部分画像ブロックの画素点を表し、kは、第1画像の画素点又は第1画像の部分画像ブロックの画素点を表し、
は、
とkの対応する画素点間の差の1ノルムを表す。更に、
は、生成された画像又は生成された部分画像ブロックのコンテンツ情報、スタイル情報などを表すこともでき、kは、第1画像又は第1画像の部分画像ブロックのコンテンツ情報、スタイル情報などを表すこともできる。
【0057】
一可能な実施形態において、生成された画像又は生成された部分画像ブロックを画像判別器に入力して判別処理を実行して、判別結果を取得することができる。ここで、前記判別結果は、生成された画像に対応する第1判別結果、及び/又は、生成された部分画像ブロックに対応する第2判別結果を含み得、第1判別結果及び第2判別結果は、それぞれ、生成された画像及び生成された部分画像ブロックの真実性を表すために使用されることができる。例示的に、前記第1判別結果及び第2判別結果は、確率の形式であってもよく、例えば、前記第1判別結果は、生成された画像が現実画像である確率が80%であることを示す。
【0058】
一可能な実施形態において、上記の第1総合ネットワーク損失及び第2総合ネットワーク損失のうちの少なくとも1つと、上記の第1判別結果及び第2判別結果のうちの少なくとも1つとに従って、前記特徴抽出器、前記画像生成器、及び前記画像判別器に対して敵対的訓練を実行し、つまり、第1訓練条件及び第2訓練条件が平衡状態に達するまで、特徴抽出器、画像生成器、及び画像判別器のネットワークパラメータを調整することができる。ここで、前記第1訓練条件は、例えば、特徴抽出器及び画像生成器の第1総合ネットワーク損失及び/又は第2総合ネットワーク損失が、最小化されるか又は設定された第1閾値より小さいことである。前記第2訓練条件は、例えば、画像判別器によって出力された第1判別結果及び/又は第2判別結果が現実画像である確率が、最大化されるか又は設定された第2閾値より大きいことである。
【0059】
一可能な実施形態において、第1画像と第2画像は異なるスタイルの2つの画像であるため、訓練中に、2つの画像の位置を変換して、特徴抽出器、画像生成器、及び画像判別器を訓練することができる。例えば、第1回の訓練では、第1画像が画像Aであり、第2画像が画像Bであり、第2回の訓練では、第1画像が画像Bであり、第2画像が画像Aあり、この2回の訓練を1つの訓練グループとして使用し、2回の訓練でのネットワーク損失を、特徴抽出器、画像生成器及び画像判別器の総合ネットワーク損失として使用するか、又は2回の訓練でのネットワーク損失の平均値を、特徴抽出器、画像生成器及び画像判別器の総合ネットワーク損失として使用することができる。
【0060】
上記の例に基づき、一可能な実施形態において、前記総合ネットワーク損失は、以下の式(2)で表すことができる。
(2)
【0061】
ここで、
は、前記第1回の訓練で決定された第1判別結果の敵対的損失であり、
は、前記第2回の訓練で決定された第1判別結果の敵対的損失であり、
は、前記第1回の訓練で決定された第2判別結果の敵対的損失であり、
は、前記第2回の訓練で決定された第2判別結果の敵対的損失であり、
は、前記第1回の訓練において、kが第1画像の画素点を表し且つ
が生成された画像の画素点を表す場合に決定された第1総合ネットワーク損失であり、
は、前記第2回の訓練において、kが第1画像の画素点を表し且つ
が生成された画像の画素点を表す場合に決定された第1総合ネットワーク損失であり、
は、前記第1回の訓練において、kが第1画像のコンテンツ情報を表し且つ
が生成された画像のコンテンツ情報を表す場合に決定された第1総合ネットワーク損失であり、
は、前記第2回の訓練において、kが第1画像のコンテンツ情報を表し且つ
が生成された画像のコンテンツ情報を表す場合に決定された第1総合ネットワーク損失であり、
は、前記第1回の訓練において、kが第1画像のスタイル情報を表し且つ
が生成された画像のスタイル情報を表す場合に決定された第1総合ネットワーク損失であり、
は、前記第2回の訓練において、kが第1画像のスタイル情報を表し且つ
が生成された画像のスタイル情報を表す場合に決定された第1総合ネットワーク損失であり、
は、前記第1回の訓練において、kが第1画像の部分画像ブロックの画素点を表し且つ
が生成された部分画像ブロックの画素点を表す場合に決定された第2総合ネットワーク損失であり、
は、前記第2回の訓練において、kが第1画像の部分画像ブロックの画素点を表し且つ
が生成された部分画像ブロックの画素点を表す場合に決定された第2総合ネットワーク損失であり、
は、前記第1回の訓練において、kが第1画像の部分画像ブロックのコンテンツ情報を表し且つ
が生成された部分画像ブロックのコンテンツ情報を表す場合に決定された第2総合ネットワーク損失であり、
は、前記第2回の訓練において、kが第1画像の部分画像ブロックのコンテンツ情報を表し且つ
が生成された部分画像ブロックのコンテンツ情報を表す場合に決定された第2総合ネットワーク損失であり、
は、前記第1回の訓練において、kが第1画像の部分画像ブロックのスタイル情報を表し且つ
が生成された部分画像ブロックのスタイル情報を表す場合に決定された第2総合ネットワーク損失であり、
は、前記第2回の訓練において、kが第1画像の部分画像ブロックのスタイル情報を表し且つ
が生成された部分画像ブロックのスタイル情報を表す場合に決定された第2総合ネットワーク損失である。
【0062】
一可能な実施形態において、上記の式(2)によって決定された総合ネットワーク損失に従って、特徴抽出器、画像生成器及び画像判別器に対して敵対的訓練を実行することができる。第1訓練条件及び第2訓練条件が平衡状態に達すると、訓練を終了し、訓練済みの画像生成器及び特徴抽出器を取得することができる。
【0063】
一可能な実施形態において、訓練済みの画像生成器を介して第3画像を生成することができる。例えば、画像生成器は、アップサンプリングなどの復号化処理介して、第1画像のコンテンツ特徴(例えば、第1画像の全体画像のコンテンツ特徴又は第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴)及び前記ターゲットスタイル特徴に対して復号化処理を実行して、第3画像を生成し、生成された第3画像は、第1画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有することができる。例示的に、第1画像が画像内の各オブジェクトに対する注釈(例えば、カテゴリ注釈など)を含む場合、生成された第3画像は第1画像のコンテンツ特徴に対応するコンテンツを有するため、第3画像は、画像内の各オブジェクトに対する注釈を有することができる。
【0064】
一可能な実施形態において、一致する2つの画像を使用して特徴抽出器及び画像生成器を訓練することにより、訓練効率と訓練効果を向上させることができる。ここで、一致する2つの画像とは、上記の第1画像と第2画像が一致するコンテンツを有する画像であることを示す。
【0065】
ここで、第1画像と第2画像が一致するコンテンツを有する画像である場合、前記第2画像は、前記第1画像に対してスケーリング処理を実行することによって取得された画像であってもよく、即ち、第2画像のコンテンツとスタイルは第1画像と一致するが、第2画像の解像度が第1画像と一致しない。第1画像及び第2画像を使用して、特徴抽出器及び像生成器を訓練することができ、これにより、解像度に対する特徴抽出器及び画像生成器の普遍性を向上させ、特徴抽出器及び画像生成器のロバスト性を向上させることができる。
【0066】
本発明の実施例に係る画像生成方法によれば、特徴抽出器及び画像生成器によって生成された、第1画像又は第1画像の部分画像ブロックと一致する画像を使用して、特徴抽出器及び画像生成器を訓練することができ、これにより、訓練効率と訓練効果を向上させることができる。一方、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴、及び第1画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する第3画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体画像が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性を向上させ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第3画像は、第1画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、第1画像と同じの注釈を有することができ、これは、第1画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプル(例えば、異常気象などのまれな気象環境で収集された画像)や少数の画像サンプル(例えば、夜に収集された画像など、収集があまり行われていない環境で撮影された画像)の場合での手動収集や注釈のコストを大幅に減らす。
【0067】
上記の実施例に基づき、一可能な実施形態において、図4に示されたように、前記画像生成方法は、次のステップを更に含む。
【0068】
ステップS16において、ソース画像のコンテンツ特徴を抽出し、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得し、ここで、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する。
【0069】
本実施例では、特徴抽出器及び画像生成器の訓練が完了した後、特徴抽出器を介してソース画像のコンテンツ特徴を抽出し、画像生成器を介して、任意のスタイルのソース画像のスタイルを特定のスタイルに変換し、第1画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴を有する第1ターゲット画像を出力することができる。
【0070】
上記の実施例に基づき、図5は、本発明の実施例に係る画像生成方法の第4のフローチャートを示し、図5に示されたように、前記画像生成方法は、次のステップを更に含む。
【0071】
ステップS17において、ソース画像のコンテンツ特徴を抽出し、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得し、ここで、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する。
【0072】
例示的に、ランダムノイズは、ランダムなコンテンツ又はスタイルを有する画像から抽出されたランダムコンテンツノイズ及び/又はランダムスタイル特徴、又はランダムに生成された各画素点のRGB値がランダムな値である画像のランダムコンテンツノイズ及び/又はランダムスタイル特徴を含み得、特徴抽出器を介して、上記の画像のランダムコンテンツノイズ及び/又はランダムスタイル特徴を抽出することができ、前記ランダムスタイル特徴に対応する画像スタイルはランダムである。例えば、ソース画像は、昼間にある場所で撮影された画像であり、ランダムノイズは、手動でランダムに生成された画像から抽出されたランダムスタイル特徴であってもよい。例えば、夜、夕方、曇り、夜明け、雨、雪などのスタイルのうちの1つをランダムノイズスタイルとしてランダムに選択し、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つをコンテンツとしてランダムに選択して、ランダムノイズを取得するための画像を生成することができる。
【0073】
例示的に、画像生成器は、ソース画像のコンテンツ特徴、ランダムノイズ(ランダムノイズは、ランダムスタイル特徴及び/又はランダムコンテンツ特徴を含み得る)、及びターゲットスタイル特徴のうちの少なくとも1つに従って、第2ターゲット画像を生成することができる。例示的に、ソース画像のコンテンツ特徴とランダムノイズのランダムコンテンツ特徴を融合して、ソース画像とランダムノイズに対応するコンテンツ特徴を取得ことができ、ターゲットスタイル特徴とランダムノイズのランダムスタイル特徴を融合して、ターゲットスタイル特徴とランダムノイズに対応するスタイル特徴を取得することもできる。画像生成器は、上記の特徴に従って、ソース画像に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつターゲットスタイル特徴に対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像に対応するコンテンツを有しかつターゲットスタイル特徴とランダムノイズに対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつターゲットスタイル特徴とランダムノイズに対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像に対応するコンテンツ及びランダムノイズに対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつランダムノイズに対応するスタイルを有する第2ターゲット画像を生成することができる。このようにして、ニューラルネットワークに基づいて複数のスタイルの画像を生成することができ、これにより、生成された画像のコンテンツ及び/又はスタイルの多様性を向上させることができる。
【0074】
本発明の実施例に係る技術的解決策によれば、特徴抽出器及び画像生成器を介して、任意のスタイルの画像に対してスタイル変換処理を実行することにより、変換後の画像全体を、ターゲットオブジェクトが位置する領域と調和させることができる。
【0075】
図6A~6Cは、本発明の実施例に係る画像生成方法の応用の概略図を示し、図6Aに示されたように、第1画像と第2画像のスタイルは異なり、例えば、第1画像は、昼間にある場所で撮影された画像であり、第2画像は、夜に別の場所で撮影された画像である。第1画像の全体画像と、オブジェクトを含む第1画像の部分画像ブロックに対してスタイル変換をそれぞれ実行することにより、第3画像を取得することができる。第3画像は、第1画像と同じコンテンツを有しかつ全体画像スタイル特徴及びオブジェクトスタイル特徴に従って決定されたターゲットスタイル特徴に対応するスタイルを有する。例えば、図6Bに示されたように、第1画像は、昼間に撮影された特定の道路の画像(例えば、図6Bの左上に示される画像)であり、オブジェクトを含む第1画像の部分画像ブロック(例えば、図6Bの左下に示される部分画像ブロック)を決定し、全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴に従って、第1画像に対してスタイル変換を実行することにより、当該道路の夜のスタイルの第3画像を取得することができる。
【0076】
具体的には、図6Cに示されたように、特徴抽出器を介して第1画像の全体画像スタイル特徴、第1画像の部分画像ブロックのオブジェクトスタイル特徴、第2画像の全体画像スタイル特徴、及び第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することができ、更に、第1画像内の背景画像ブロックの背景スタイル特徴及び第2画像内の背景画像ブロックの背景スタイル特徴を抽出することもできる。
【0077】
具体的には、図6Cに示されたように、特徴抽出器を介して、第1画像のコンテンツ特徴を取得することができ、例示的に、第1画像をダウンサンプリング処理して、第1画像の特徴マップを取得し、当該特徴マップのコンテンツ特徴を抽出することができ、抽出されたコンテンツ特徴は、第1画像全体画像のコンテンツ特徴、及びオブジェクトを含む第1画像の部分画像ブロックのオブジェクトコンテンツ特徴を含み得る。
【0078】
一方、特徴抽出器を介して、第2画像の全体画像スタイル特徴、第2画像内の背景画像ブロックの背景スタイル特徴、及びオブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することができる。例示的に、第2画像に対してダウンサンプリング処理を実行することができ、ダウンサンプリング処理後の第2画像に基づいて、上記の全体画像スタイル特徴、背景スタイル特徴及びオブジェクトスタイル特徴を抽出することができ、更に、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴を融合して、ターゲットスタイル特徴を取得することができる。
【0079】
例示的に、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得する。
【0080】
更に、第1画像全体画像のコンテンツ特徴及び/又はオブジェクトを含む第1画像の部分画像ブロックのオブジェクトコンテンツ特徴、及び上記のターゲットスタイル特徴に従って、第3画像を生成することができる。一可能な実施形態において、訓練済みの画像生成器を介して第3画像を生成することができる。
【0081】
例示的に、第1画像全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続処理を実行して、第1画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができ、及び/又は、オブジェクトを含む第1画像の部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続処理を実行して、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができる。更に、取得された特徴情報に対してアップサンプリング処理を実行して、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルの部分画像ブロックを取得することができる。
【0082】
いくつかの可能な実施形態において、第1画像の全体画像スタイル特徴を第1画像のオブジェクトスタイル特徴に融合して、第1画像の融合スタイル特徴を取得することもできる。又は第1画像の全体画像スタイル特徴を第1画像の背景スタイル特徴を融合した後、前記全体画像スタイル特徴が融合された背景スタイル特徴を第1画像のオブジェクトスタイル特徴に融合して、第1画像の融合スタイル特徴を融合することもできる。ここで、第1画像の融合スタイル特徴の実施形態については、具体的には、上記の実施例におけるターゲットスタイル特徴の実施形態を参照することができ、ここでは繰り返して説明しない。
【0083】
更に、第1画像の全体画像のコンテンツ特徴と前記第1画像の融合スタイル特徴に対して残差接続処理を実行して、第1画像の全体画像のコンテンツ特徴及び前記第1画像の融合スタイル特徴を有する特徴情報を取得することができ、及び/又は、オブジェクトを含む第1画像の部分画像ブロックのオブジェクトコンテンツ特徴及び前記第1画像の融合スタイル特徴に対して残差接続処理を実行して、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記第1画像の融合スタイル特徴を有する特徴情報を取得することができる。更に、取得された特徴情報をアップサンプリングして、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記第1画像の融合スタイル特徴に対応するスタイルを有する画像を取得し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記第1画像の融合スタイル特徴に対応するスタイルの部分画像ブロックを取得することができる。生成された画像は、第1画像と完全に一致すべきであり、生成された部分画像ブロックは、第1画像の部分画像ブロックと完全に一致すべきである。
【0084】
図7は、本発明の実施例に係る画像生成装置の第1のブロック図を示し、図7に示されたように、前記画像生成装置は、
第1画像のコンテンツ特徴を抽出するように構成される第1抽出モジュール11と、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第2抽出モジュール12であって、前記第2画像と前記第1画像のスタイルは異なる、第2抽出モジュール12と、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュール13と、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第1生成モジュール14と、を備える。
【0085】
一可能な実施形態において、前記決定モジュール13は、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される。
【0086】
図8は、本発明の実施例に係る画像生成装置の第2のブロック図を示し、図8に示されたように、前記画像生成装置は更に、
前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出するように構成される第3抽出モジュール15を備え、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックであり、
前記決定モジュール13は、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定するように構成される。
【0087】
一可能な実施形態において、前記決定モジュール13は、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される。
【0088】
一可能な実施形態において、前記第1生成モジュール14は、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別し、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練し、訓練済みの前記画像生成器を介して前記第3画像を生成するように構成される。
【0089】
一可能な実施形態において、前記画像生成装置は更に、第2生成モジュール16を備え、
前記第1抽出モジュール11は、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第2生成モジュール16は、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得するように構成され、ここで、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する。
【0090】
一可能な実施形態において、前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む。
【0091】
一可能な実施形態において、前記第2抽出モジュール12は、前記第2画像が複数のオブジェクトを含む場合、前記第2画像から複数の部分画像ブロックを抽出し、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成され、各部分画像ブロックは1つのカテゴリのオブジェクトを含む。
【0092】
一可能な実施形態において、前記第2抽出モジュール12は、前記複数のオブジェクトが複数のカテゴリに属する場合、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合するように構成される。
【0093】
一可能な実施形態において、前記画像生成装置は更に、第3生成モジュール17を備え、
前記第1抽出モジュール11は、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第3生成モジュール17は、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴、及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得するように構成され、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する。
【0094】
本発明で言及される上述の各方法の実施例及び装置の実施例は、原理と論理に違反することなく、互いに組み合わせて、組み合わされた実施例を形成することができ、紙数に限りがあるので、本発明ではそれ以上説明しないことを理解されたい。
【0095】
本発明の実施例はまた、本発明で提供される方法のいずれかを実現するために使用されることができる、画像生成装置、電子機器、コンピュータ可読記憶媒体、及びプログラムを提供し、対応する技術的解決策と及び説明については、方法の対応する説明を参照することができ、ここでは繰り返して説明しない。
【0096】
当業者なら自明であるが、上記の特定の実施形態における方法において、記載された各ステップの順序は、実施プロセスを限定するための厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定する必要がある。
【0097】
いくつかの実施例において、本発明の実施例で提供される装置の機能又はモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。
【0098】
本発明の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を更に提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、本発明の実施例の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってもよい。
【0099】
本発明の実施例は、電子機器をさらに提案し、前記電子機器は、プロセッサと、プロセッサ実行可能な命令を記憶するためのメモリと、を備え、ここで、前記プロセッサは、本発明の実施例の方法を実行するように構成される。ここで、電子機器は、端末、サーバまたは他の形の機器として提供される。
【0100】
図9は、一例示的な実施例による電子機器の概略構造図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器又は携帯情報端末などの端末であってもよい。
【0101】
図9を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電力コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの1つまたは複数のコンポーネントを備えることができる。
【0102】
処理コンポーネント802は、一般的に、電子機器800の全体的な動作、例えば、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する動作を制御する。処理コンポーネント802は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための1つまたは複数のプロセッサ820を備えることができる。加えて、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントの間のインタラクションを容易にするための1つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間のインタラクションを容易にするためのマルチメディアモジュールを備えることができる。
【0103】
メモリ804は、電子機器800での操作をサポートするための様々なタイプのデータを格納するように構成される。これらのデータの例には、電子機器800で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、消去可能なプログラム可能な読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、プログラム可能な読み取り専用メモリ(PROM:Programmable Read-Only Memory)、読み取り専用メモリ(ROM:Read Only Memory)、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。
【0104】
電力コンポーネント806は、電子機器800の様々なコンポーネントに電力を提供する。電力コンポーネント806は、電力管理システム、1つまたは複数の電源、及び電子機器800のための電力の生成、管理および配分に関する他のコンポーネントを備えることができる。
【0105】
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間の出力インターフェースとして提供されるスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD:Liquid Crystal Display)及びタッチパネル(TP:Touch Panel)を備えることができる。スクリーンがタッチパネルを備える場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを備える。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント808は、1つのフロントカメラおよび/またはリアカメラを備える。電子機器800が撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズシステムであってもよく、焦点距離と光学ズーム機能を有するものであってもよい。
【0106】
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイクロフォン(MIC:Microphone)を備え、電子機器800が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ804にさらに記憶されてもよく、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント810は、さらに、オーディオ信号を出力するためのスピーカを備える。
【0107】
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを備えることができるが、これらに限定されない。
【0108】
センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つまたは複数のセンサを備える。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態と、電子機器800のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント814はまた、電子機器800または電子機器800のコンポーネントの位置の変化、ユーザとの電子機器800の接触の有無、電子機器800の向きまたは加速/減速、及び電子機器800の温度の変化も検出することができる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを備えることができる。センサコンポーネント814は、さらに、撮像用途で使用するための光センサ、金属酸化膜半導体(CMOS:Complementary Metal Oxide Semiconductor)又は画像センサ又は電荷結合素子(CCD:Charge Coupled Device)画像センサなどの光センサを備えることができる。いくつかの実施例において、当該センサコンポーネント814は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを備えることができる。
【0109】
通信コンポーネント816は、電子機器800と他の装置の間の有線または無線通信を容易にするように構成される。電子機器800は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント816は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールでは、無線周波数識別(RFID:Radio Frequency Identification)技術、赤外線データ協会(IrDA:Infrared Data Association)技術、超広帯域(UWB:Ultra WideBand)技術、ブルートゥース(BT:BlueTooth)技術及び他の技術に基づいて具現されることができる。
【0110】
例示的な実施例において、電子機器800は、上記の方法を実行するように構成される、1つまたは複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができる。
【0111】
例示的な実施例において、コンピュータプログラム命令を含むメモリ804などの、コンピュータ可読記憶媒体をさらに提供し、上述のコンピュータプログラム命令が電子機器800のプロセッサ820によって実行されることにより、上記の方法を完了することができる。
【0112】
図10は、一例示的な実施例による電子機器の概略構造図である。例えば、電子機器1900は、サーバとして提供されることができる。図10を参照すると、電子機器1900は、1つまたは複数のプロセッサを含む処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令(アプリケーションなど)を記憶するように構成されるメモリリソースとして表されるメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションは、それぞれが一セットの命令に対応する1つまたは複数のモジュールを備えることができる。さらに、処理コンポーネント1922は、命令を実行することにより、上記の方法を実行するように構成される。
【0113】
電子機器1900は、さらに、電子装置1900の電源管理を実行するように構成される電力コンポーネント1926と、電子装置1900をネットワークに接続するように構成される有線または無線ネットワークインターフェース1950と、入力/出力(I/O)インターフェース1958と、を備えることができる。電子機器1900は、メモリ1932に記憶されたオペレーティングシステム、例えば、Windows ServerTM、Mac OS XTM、UnixTM、 LinuxTM、FreeBSDTMまたは類似したものを介して操作できる。
【0114】
本発明の実施例は、コンピュータプログラム命令を含むメモリ1932などの不揮発性コンピュータ可読記憶媒体を更に提供し、電子機器1900の処理コンポーネント1922によって上述のコンピュータプログラム命令を実行することにより、上記の方法を完了することができる。
【0115】
本発明の実施例は、システム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得、当該コンピュータ可読記憶媒体には、プロセッサに本発明の実施例の様々な態様を実現させるためのコンピュータ可読プログラム命令が含まれる。
【0116】
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体記憶機器または前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的リスト)は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM:Random Access Memory)、読み取り専用メモリ(ROM:Read Only Memory)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM:Compact Disc Read-Only Memory)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、命令が記憶されたパンチカードまたは溝内の凸状構造、および前述の任意の適切な組み合わせなどの機械的符号化機器を含む。ここで使用されるコンピュータ可読記憶媒体は、電波や自由に伝播される他の電磁波、導波管や他の伝播媒体を介して伝播される電磁波(光ファイバーケーブルを介した光パルスなど)、またはワイヤを介して伝送される電子信号などの、一時的な信号として解釈されてはならない。
【0117】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶機器にダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバなどを含み得る。各コンピューティング/処理機器におけるネットワークアダプターカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他のコンピューティング/処理機器のコンピュータ可読記憶媒体への記憶のために、当該コンピュータ可読プログラム命令を転送する。
【0118】
本発明の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または以1つまたは複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコードまたは目標コードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されてもよく、その一部がユーザのコンピュータで実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、その一部がユーザのコンピュータで実行されかつその他の部分がリモートコンピュータで実行されてもよく完全にリモートコンピュータまたはサーバで実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを経由して、ユーザのコンピュータに接続するか、または、外部コンピュータに接続することができる(例えば、インターネットサービスプロバイダを使用してインターネットを経由して外部コンピュータにアクセスすることができる)。いくつかの実施例において、コンピュータ可読命令の状態情報を使用することにより、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブルロジックアレイ(PLA)などの、電子回路をカスタマイズし、当該電子回路は、コンピュータ可読プログラム命令を実行し、それにより、本発明の各態様を実現することができる。
【0119】
ここで、本発明の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロックを参照して、本発明の各態様について説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解されたい。
【0120】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供することができ、それにより、これらの命令がコンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されるときに、フローチャートおよび/またはブロック図における1つのまたは複数のブロックで指定された機能/動作を実現する手段を創出する。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよく、コンピュータ、プログラム可能データ処理装置および/または他の機器が、これらの命令に応じて特定方式で動作することができる。したがって、命令が記憶されたコンピュータ可読媒体は、フローチャートおよび/またはブロック図における1つまたは複数のブロックで指定された機能/動作の各態様の命令を含む、製品を含むことができる。
【0121】
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、または他の機器にロードすることで、コンピュータ、プログラム可能な数据処理装置または他の機器に、一連の操作ステップを実行させることにより、コンピュータによって実現されるプロセスを生成し、それにより、コンピュータ、他のプログラム可能な数据処理装置、または他の機器で実行される命令により、フローチャートおよび/またはブロック図における1つまたは複数のブロックで指定された機能/動作を実現することができる。
【0122】
添付の図面におけるフローチャートおよびブロック図は、本発明の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能な実装アーキテクチャ、機能および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメントまたは命令の一部を表すことができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能な命令を含む。いくつかの代替的な実現では、ブロックで表示された機能は、図面で表示された順序とは異なる順序で実行することもできる。例えば、2つの連続するブロックは、実際には、並行して実行されることができ、関連する機能によっては、逆の順序で実行されることもできる。ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行するハードウェアに基づく専用システムによって実現することができ、または専用ハードウェアとコンピュータ命令の組み合わせによって実現されることができることに留意されたい。
【0123】
以上、本発明の各実施例を説明したが、以上の説明は、例示的なものに過ぎず、網羅的なものではなく、本発明は、開示された各実施例に限定されない。説明された各実施例の範囲および要旨から逸脱することなく、様々な修正および変更は、当業者にとっては明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の応用または市場における技術への技術的改善を好適に説明するためのものであるか、又は当業者に本明細書で開示された各実施例を理解させるためのものである。
図1
図2
図3
図4
図5
図6A
図6B
図6C
図7
図8
図9
図10
【手続補正書】
【提出日】2021-10-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像生成方法であって、
第1画像のコンテンツ特徴を抽出することと、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することであって、前記第2画像と前記第1画像のスタイルは異なる、ことと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることと、を含む、前記画像生成方法。
【請求項2】
前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することを含む、
請求項1に記載の画像生成方法。
【請求項3】
前記画像生成方法は、
前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出することを更に含み、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックであり、
前記少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することを含む、
請求項1に記載の画像生成方法。
【請求項4】
前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴を前記背景スタイル特徴に融合することと、
前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することと、を含む、
請求項3に記載の画像生成方法。
【請求項5】
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることは、
画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別することと、
前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練することと、
訓練済みの前記画像生成器を介して前記第3画像を生成することと、を含む、
請求項1ないし4のいずれか一項に記載の画像生成方法。
【請求項6】
前記画像生成方法は、
ソース画像のコンテンツ特徴を抽出することと、
前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得することであって、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する、こととを更に含む、
請求項5に記載の画像生成方法。
【請求項7】
前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む、
請求項1ないし6のいずれか一項に記載の画像生成方法。
【請求項8】
前記第2画像が複数のオブジェクトを含む場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、
前記第2画像から複数の部分画像ブロックを抽出することであって、各部分画像ブロックは1つのカテゴリのオブジェクトを含むことと、
各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、を含む、
請求項1ないし7のいずれか一項に記載の画像生成方法。
【請求項9】
前記複数のオブジェクトが複数のカテゴリに属する場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、
同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合することを更に含む、
請求項8のいずれか一項に記載の画像生成方法。
【請求項10】
前記画像生成方法は、
ソース画像のコンテンツ特徴を抽出することと、
前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴、及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得することであって、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する、ことと、を更に含む、
請求項5ないし9のいずれか一項に記載の画像生成方法。
【請求項11】
画像生成装置であって、
第1画像のコンテンツ特徴を抽出するように構成される第1抽出モジュールと、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第2抽出モジュールであって、前記第2画像と前記第1画像のスタイルは異なる、第2抽出モジュールと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュールと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第1生成モジュールと、を備える、前記画像生成装置。
【請求項12】
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、請求項1ないし10のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
【請求項13】
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし10のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
【国際調査報告】