IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特開2024-59101デジタル画像データを処理するための方法及び装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024059101
(43)【公開日】2024-04-30
(54)【発明の名称】デジタル画像データを処理するための方法及び装置
(51)【国際特許分類】
   G06T 5/60 20240101AFI20240422BHJP
   G06V 10/774 20220101ALI20240422BHJP
【FI】
G06T5/60
G06V10/774
【審査請求】未請求
【請求項の数】18
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023178261
(22)【出願日】2023-10-16
(31)【優先権主張番号】22201999
(32)【優先日】2022-10-17
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ユメン リー
(72)【発明者】
【氏名】アンナ コレヴァ
(72)【発明者】
【氏名】ダン チャン
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CE08
5B057DA20
5B057DB02
5B057DB06
5B057DB09
5B057DC22
5B057DC25
5L096DA01
5L096EA37
5L096GA19
5L096HA11
5L096KA04
5L096KA15
5L096MA03
(57)【要約】
【課題】デジタル画像データを処理する方法、例えばコンピュータ実装された方法に関する。
【解決手段】本方法は、第1のデジタル画像を、敵対的生成ネットワークGANシステムの生成器に関連付けられた拡大された潜在空間にマッピングするように構成されたエンコーダによって、第1のデジタル画像に関連付けられたノイズ予測を決定することと、GANシステムの生成器によって、第1のデジタル画像に関連付けられたノイズ予測と、拡大された潜在空間に関連付けられた複数の潜在変数とに基づいて、少なくとも1つのさらなるデジタル画像を決定することと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
デジタル画像データを処理する方法、例えばコンピュータ実装された方法であって、
前記方法は、
第1のデジタル画像(x1)を、敵対的生成ネットワークGANシステム(10)の生成器(14;14a)に関連付けられた拡大された潜在空間(SP-W+)にマッピングするように構成されたエンコーダ(12;12a)によって、前記第1のデジタル画像(x1)に関連付けられたノイズ予測(PRED-NOISE-x1)を決定すること(100)と、
前記GANシステム(10)の前記生成器(14)によって、前記第1のデジタル画像(x1)に関連付けられた前記ノイズ予測(PRED-NOISE-x1)と、前記拡大された潜在空間(SP-W+)に関連付けられた複数の潜在変数(LAT-VAR)とに基づいて、少なくとも1つのさらなるデジタル画像(x’)を決定すること(102)と、
を含む、方法。
【請求項2】
前記方法は、
前記複数の潜在変数(LAT-VAR)を、
a)例えば前記エンコーダ(12)を使用して、前記第1のデジタル画像(x1)とは異なる第2のデジタル画像(x2)、
b)複数の確率分布(DISTR)
のうちの少なくとも1つに基づいて決定すること(110)
を含む、
請求項1に記載の方法。
【請求項3】
前記拡大された潜在空間(SP-W+)に関連付けられた前記複数の潜在変数(LAT-VAR)のうちの少なくともいくつかは、前記第1のデジタル画像(x1)の以下の態様、すなわち、
a)スタイル、例えば非意味論的な外観、
b)テクスチャ、
c)色
のうちの少なくとも1つを特徴付ける、
請求項1又は2に記載の方法。
【請求項4】
前記方法は、
a)前記第1のデジタル画像(x1)に基づいて、複数の、例えば階層的な特徴マップ(FM)を決定すること(120)、
b)前記複数の、例えば階層的な特徴マップ(FM)に基づいて、前記第1のデジタル画像(x1)に関する前記拡大された潜在空間(SP-W+)に関連付けられた複数の潜在変数(LAT-VAR-x1)を決定すること(122)、
c)前記複数の、例えば階層的な特徴マップ(FM)のうちの少なくとも1つに基づいて、例えば加法性のノイズマップ(NOISE-MAP)を決定すること(124)
のうちの少なくとも1つを含む、
請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記方法は、
前記第1のデジタル画像(x1)に関連付けられた前記ノイズ予測(PRED-NOISE-x1)の少なくとも一部をランダム及び/又は擬似ランダムにマスキングすること(130)
を含む、
請求項1乃至4の少なくとも一項に記載の方法。
【請求項6】
前記方法は、
前記ノイズマップ(NOISE-MAP)を、例えばランダム及び/又は擬似ランダムにマスキングすること(132)
を含む、
請求項4乃至5の少なくとも一項に記載の方法。
【請求項7】
前記方法は、
前記ノイズマップ(NOISE-MAP;ε)を複数の、例えばP×P個の、例えば重なり合っていないパッチ(PATCH)に分割すること(132a)、例えば空間的に分割することと、
前記複数のパッチ(PATCH)の部分集合(PATCH-SUB)をランダム及び/又は擬似ランダムに選択すること(132b)と、
前記複数のパッチ(PATCH)の前記部分集合(PATCH-SUB)を、例えば同等のサイズの、例えば単位ガウス分布のランダム変数のパッチ(PATCH-RND)によって置き換えること(132c)と、
を含む、
請求項6に記載の方法。
【請求項8】
前記方法は、
前記第1のデジタル画像(x1)に関連付けられた前記ノイズ予測(PRED-NOISE-x1)を、第2のデジタル画像(x2)又は前記第2のデジタル画像(x2)のスタイル予測(PRED-STYLE-x2)と組み合わせること(140)と、
組み合わせられた、前記第1のデジタル画像(x1)に関連付けられたノイズ予測(PRED-NOISE-x1)と、前記第2のデジタル画像(x2)のスタイル予測(PRED-STYLE-x2)とに基づいて、前記生成器(14a)を使用してさらなるデジタル画像(x12)を生成すること(142)と、
を含む、
請求項1乃至7の少なくとも一項に記載の方法。
【請求項9】
前記方法は、
前記第1のデジタル画像(x1)に関連付けられたノイズ予測(PRED-NOISE-x1)を提供すること(150)と、
前記第1のデジタル画像(x1)の内容、例えば意味論的な内容に適用されるべき種々異なるスタイルを特徴付ける種々異なる潜在変数の集合(SET-LAT-VAR)を提供すること(152)と、
前記第1のデジタル画像(x1)に関連付けられた前記ノイズ予測(PRED-NOISE-x1)と、前記種々異なるスタイルを特徴付ける前記種々異なる潜在変数の集合(SET-LAT-VAR)とに基づいて、前記生成器(14b)を使用して、種々異なるスタイルを有する複数のデジタル画像(PLUR-x)を生成すること(154)と、
を含む、
請求項1乃至8の少なくとも一項に記載の方法。
【請求項10】
前記方法は、
例えば第1のドメイン(DOM-1)に関連付けられた1つ又は複数のデジタル画像が含まれる画像データ(IMG-DAT-DOM-1)を提供すること(160)と、
例えば第2のドメイン(DOM-2)に関連付けられた1つ又は複数のデジタル画像が含まれる画像データ(IMG-DAT-DOM-2)を提供すること(162)と、
前記第1のドメイン(DOM-1)に関連付けられた前記画像データ(IMD-DAT-DOM-1)に前記第2のドメイン(DOM-2)のスタイル(STYLE-2)を適用すること(164)と、
を含む、
請求項1乃至9の少なくとも一項に記載の方法。
【請求項11】
前記第1のドメイン(DOM-1)に関連付けられた前記画像データ(IMG-DAT-DOM-1)は、ラベル(LAB)を含み、
例えば、前記第1のドメイン(DOM-1)に関連付けられた前記画像データ(IMD-DAT-DOM-1)に前記第2のドメイン(DOM-2)の前記スタイル(STYLE-2)を適用すること(164)は、前記ラベル(LAB)を保存すること(164a)を含む、
請求項10に記載の方法。
【請求項12】
前記方法は、
第1の内容情報(I-CONT-1)を有する第1の画像データ(IMG-DAT-1)を提供すること(170)と、
例えば前記第1の内容情報(I-CONT-1)とは異なる第2の内容情報(I-CONT-2)が含まれる第2の画像データ(IMG-DAT-2)を提供すること(172)と、
前記第2の画像データ(IMG-DAT-2)のスタイル情報(I-STYLE-2)を抽出すること(174)と、
前記第1の画像データ(IMG-DAT-1)に前記第2の画像データ(IMG-DAT-2)の前記スタイル情報(I-STYLE-2)の少なくとも一部を適用すること(176)と、
を含む、
請求項1乃至11の少なくとも一項に記載の方法。
【請求項13】
前記方法は、
例えば少なくとも1つのニューラルネットワークシステム(NNS)を訓練するための訓練データ(TRAIN-DAT)を生成すること(180)
を含み、
前記生成すること(180)は、例えばソースドメインの画像データ(IMG-DAT-SRC)と、前記ソースドメインの修正された画像データ(IMG-DAT-SRC’)とに基づいており、
例えば前記修正された画像データ(IMG-DAT-SRC’)は、画像スタイルに関して、例えばさらなる画像データ(IMG-DAT’)のスタイルに基づいて修正され及び/又は修正されており、
前記方法は、任意選択肢として、
前記訓練データ(TRAIN-DAT)に基づいて前記少なくとも1つのニューラルネットワークシステム(NNS)を訓練すること(182)
を含む、
請求項1乃至12の少なくとも一項に記載の方法。
【請求項14】
請求項1乃至13の少なくとも一項に記載の方法を実施するための装置(200)。
【請求項15】
コンピュータプログラム(PRG;PRG’)であって、当該コンピュータプログラム(PRG;PRG’)がコンピュータ(202)によって実行された場合に、請求項1乃至13の少なくとも一項に記載の方法を前記コンピュータ(202)に実施させるための命令を含むコンピュータプログラム(PRG;PRG’)。
【請求項16】
コンピュータ(202)によって実行された場合に、請求項1乃至13の少なくとも一項に記載の方法を前記コンピュータ(202)に実施させるための命令(PRG’)を含むコンピュータ可読記憶媒体(SM)。
【請求項17】
請求項15に記載のコンピュータプログラム(PRG;PRG’)を搬送する及び/又は特徴付けるデータ搬送信号(DCS)。
【請求項18】
請求項1乃至13の少なくとも一項に記載の方法の、及び/又は、
請求項14に記載の装置(200)の、及び/又は、
請求項15に記載のコンピュータプログラム(PRG;PRG’)の、及び/又は、
請求項16に記載のコンピュータ可読記憶媒体(SM)の、及び/又は、
請求項17に記載のデータ搬送信号(DCS)の、
以下のことのうちの少なくとも1つのための使用(300)であって、すなわち、
a)第1のデジタル画像(x1)に関連付けられたノイズ予測(PRED-NOISE-x1)と、拡大された潜在空間(SP-W+)に関連付けられた複数の潜在変数(LAT-VAR)とに基づいて、少なくとも1つのさらなるデジタル画像(x’)を決定すること(301)であって、前記複数の潜在変数(LAT-VAR)のうちの少なくともいくつかは、前記第1のデジタル画像(x1)とは異なる別の画像及び/又は他のデータに関連付けられている、こと(301)、
b)例えば前記第1のデジタル画像の内容を保存しながら、第2のデジタル画像からのスタイルを前記第1のデジタル画像に転移させること(302)、
c)少なくとも1つのデジタル画像のスタイルと内容とを分離すること(303)、
d)例えば前記第1のデジタル画像と、少なくとも1つのさらなるデジタル画像、例えば第2のデジタル画像のスタイルとに基づいて、変更されていない内容を有し、かつ、異なるようにスタイル付けされたデジタル画像を作成すること(304)、
e)ラベル付けされた注釈を、スタイル付けされた画像のために使用すること、例えば再利用すること(305)、
f)少なくとも1つのデジタル画像のスタイルを変化させる際に、注釈付け作業を回避すること(306)、
g)例えば種々異なるスタイルを有する、例えば知覚的に現実的なデジタル画像を生成すること(307)、
h)例えばニューラルネットワークシステムの分布外の汎化をテストするために、代理の妥当性確認集合を提供すること(308)、
i)機械学習システムを訓練すること(309)、
j)機械学習システムをテストすること(310)、
k)機械学習システムを検証すること(311)、
l)機械学習システムを妥当性確認すること(312)、
m)例えば機械学習システムのための訓練データを生成すること(313)、
n)例えば既存の画像データのデータ拡張(314)、
o)機械学習システムの汎化性能を改善すること(315)、
p)例えば複数のデータ集合に関連付けられた訓練なしで、画像スタイルを操作すること、例えば柔軟に操作すること(316)、
q)画像スタイルを操作するためにエンコーダGANパイプラインを利用すること(317)、
r)前記エンコーダ(12)によって、画像スタイルに関連付けられた情報を、例えば中間の潜在変数に埋め込むこと(318)、
s)複数のデジタル画像のスタイルを混合して、この混合に基づくスタイルが含まれる少なくとも1つのさらなるデジタル画像を生成すること(319)
のうちの少なくとも1つのための使用(300)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、デジタル画像データを処理する方法に関する。
【0002】
本開示はさらに、デジタル画像データを処理するための装置に関する。
【背景技術】
【0003】
敵対的生成ネットワーク(GAN:Generative adversarial network)は、公知であり、例えば画像データを生成するために使用することができる生成モデリングのアプローチを特徴付ける。
【発明の概要】
【課題を解決するための手段】
【0004】
概要
例示的な実施形態は、デジタル画像データを処理する方法、例えばコンピュータ実装された方法であって、本方法は、第1のデジタル画像を、敵対的生成ネットワークGANシステムの生成器に関連付けられた拡大された潜在空間にマッピングするように構成されたエンコーダによって、第1のデジタル画像に関連付けられたノイズ予測を決定すること、GANシステムの生成器によって、第1のデジタル画像に関連付けられたノイズ予測と、拡大された潜在空間に関連付けられた複数の潜在変数とに基づいて、少なくとも1つのさらなるデジタル画像を決定することを含む、方法に関する。いくつかの例示的な実施形態においては、これにより、例えば第1のデジタル画像と類似又は同一の内容を含むが、任意選択肢として、例えば複数の潜在変数のうちの少なくともいくつかによって特徴付けられるような修正されたスタイルを有する、さらなるデジタル画像を決定すること、例えば生成することが可能となり得る。
【0005】
いくつかの例示的な実施形態においては、デジタル画像データ及び/又は(第1の)デジタル画像は、限定するものではないが、a)少なくとも1つのデジタル画像、b)ビデオストリームの画像又はフレーム、c)RADARシステム、例えばイメージングRADARシステムに関連付けられたデータ、例えばRADAR画像、d)LIDARシステムに関連付けられたデータ、例えばLIDAR画像、e)超音波画像、f)モーション画像、g)例えばサーマルイメージングシステムから取得されるようなサーマル画像のうちの少なくとも1つを含み得る。
【0006】
いくつかの例示的な実施形態においては、拡大された潜在空間に関連付けられた複数の潜在変数のうちの少なくともいくつかは、第1のデジタル画像の以下の態様、すなわち、a)スタイル、例えば非意味論的な外観、b)テクスチャ、c)色のうちの少なくとも1つを特徴付ける。いくつかの例示的な実施形態においては、デジタル画像のスタイルを、デジタル画像の少なくとも一部のテクスチャと、デジタル画像の少なくとも一部の色との組合せによって特徴付けることができる。
【0007】
いくつかの例示的な実施形態においては、本方法は、複数の潜在変数を、a)エンコーダを使用して、第1のデジタル画像とは異なる第2のデジタル画像、b)例えばいくつかの例示的な実施形態においてデータ集合に基づいて取得することができるような複数の確率分布のうちの少なくとも1つに基づいて決定することを含む。
【0008】
いくつかの例示的な実施形態においては、本方法は、a)第1のデジタル画像に基づいて、複数の、例えば階層的な特徴マップを決定すること、b)複数の、例えば階層的な特徴マップに基づいて、第1のデジタル画像に関する拡大された潜在空間に関連付けられた複数の潜在変数を決定すること、c)複数の、例えば階層的な特徴マップのうちの少なくとも1つに基づいて、例えば加法性のノイズマップを決定することのうちの少なくとも1つを含む。
【0009】
いくつかの例示的な実施形態においては、本方法は、第1のデジタル画像に関連付けられたノイズ予測の少なくとも一部をランダム及び/又は擬似ランダムにマスキングすることを含む。さらなる例示的な実施形態によれば、各実施形態による原理に従ってスタイルを修正するために、例えばスタイル拡張のためにマスキングが要求されるものではないということに留意されたい。
【0010】
いくつかの例示的な実施形態においては、本方法は、ノイズマップを、例えばランダム及び/又は擬似ランダムにマスキングすることを含む。
【0011】
いくつかの例示的な実施形態においては、本方法は、ノイズマップを複数の、例えばP×P個の、例えば重なり合っていないパッチに分割すること、例えば空間的に分割すること、複数のパッチの部分集合をランダム及び/又は擬似ランダムに選択すること、複数のパッチの部分集合を、例えば同等のサイズの、例えば単位ガウス分布のランダム変数のパッチによって置き換えることを含む。
【0012】
いくつかの例示的な実施形態においては、本方法は、第1のデジタル画像に関連付けられたノイズ予測を、第2のデジタル画像のスタイル予測と組み合わせること、組み合わせられた、第1のデジタル画像に関連付けられたノイズ予測と、第2のデジタル画像のスタイル予測とに基づいて、生成器を使用してさらなるデジタル画像を生成することを含む。いくつかの例示的な実施形態においては、このことにより、さらなるデジタル画像に、スタイル、又は、例えば第2のデジタル画像のスタイルの少なくともいくつかの態様と、例えば第1のデジタル画像の内容とを提供することが可能となる。
【0013】
いくつかの例示的な実施形態においては、本方法は、第1のデジタル画像に関連付けられたノイズ予測を提供すること、第1のデジタル画像の内容、例えば意味論的な内容に適用されるべき種々異なるスタイルを特徴付ける種々異なる潜在変数の集合を提供すること、第1のデジタル画像に関連付けられたノイズ予測と、種々異なるスタイルを特徴付ける種々異なる潜在変数の集合とに基づいて、生成器を使用して、種々異なるスタイルを有する複数のデジタル画像を生成することを含む。
【0014】
いくつかの例示的な実施形態においては、本方法は、例えば第1のドメインに関連付けられた1つ又は複数のデジタル画像が含まれる、画像データを提供すること、例えば第2のドメインに関連付けられた1つ又は複数のデジタル画像が含まれる、画像データを提供すること、第1のドメインに関連付けられた画像データに第2のドメインのスタイルを適用することを含む。
【0015】
いくつかの例示的な実施形態においては、第1のドメインに関連付けられた画像データは、ラベルを含み、例えば、第1のドメインに関連付けられた画像データに第2のドメインのスタイルを適用することは、ラベルを保存することを含む。このようにして、同時にラベルを保存しながら、第1のドメインのデジタル画像のスタイルを修正することができ、これにより、別の異なるスタイルを有するさらなるラベル付けされた画像データを提供することができる。
【0016】
いくつかの例示的な実施形態においては、本方法は、第1の内容情報を有する第1の画像データを提供すること、例えば第1の内容情報とは異なる第2の内容情報が含まれる、第2の画像データを提供すること、第2の画像データのスタイル情報を抽出すること、第1の画像データに第2の画像データのスタイル情報の少なくとも一部を適用することを含む。
【0017】
いくつかの例示的な実施形態においては、本方法は、例えば少なくとも1つのニューラルネットワーク及び/又は機械学習システムを訓練するための訓練データを生成することを含み、生成することは、例えばソースドメインの画像データと、ソースドメインの修正された画像データとに基づいており、例えば、修正された画像データは、例えば各実施形態の原理による画像スタイルに関して、例えばさらなる画像データのスタイルに基づいて修正され及び/又は修正されており、本方法は、任意選択肢として、訓練データに基づいて少なくとも1つのニューラルネットワークシステムを訓練することを含む。
【0018】
さらなる例示的な実施形態は、各実施形態による方法を実施するための装置に関する。
【0019】
さらなる例示的な実施形態は、コンピュータによって実行された場合に、各実施形態による方法をコンピュータに実施させるための命令を含むコンピュータプログラムに関する。
【0020】
さらなる例示的な実施形態は、コンピュータによって実行された場合に、各実施形態による方法をコンピュータに実施させるための命令を含むコンピュータ可読記憶媒体に関する。
【0021】
さらなる例示的な実施形態は、各実施形態によるコンピュータプログラムを搬送する及び/又は特徴付けるデータ搬送信号に関する。
【0022】
さらなる例示的な実施形態は、各実施形態による方法の、及び/又は、各実施形態による装置の、及び/又は、各実施形態によるコンピュータプログラムの、及び/又は、各実施形態によるコンピュータ可読記憶媒体の、及び/又は、各実施形態によるデータ搬送信号の、以下のことのうちの少なくとも1つのための使用であって、すなわち、a)第1のデジタル画像に関連付けられたノイズ予測と、拡大された潜在空間に関連付けられた複数の潜在変数とに基づいて、少なくとも1つのさらなるデジタル画像を決定することであって、複数の潜在変数のうちの少なくともいくつかは、第1のデジタル画像とは異なる別の画像及び/又は他のデータに関連付けられている、こと、b)例えば第1のデジタル画像の内容を保存しながら、第2のデジタル画像からのスタイルを第1のデジタル画像に転移させること、c)少なくとも1つのデジタル画像のスタイルと内容とを分離すること、d)例えば第1のデジタル画像と、少なくとも1つのさらなるデジタル画像、例えば第2のデジタル画像のスタイルとに基づいて、変更されていない内容を有し、かつ、異なるようにスタイル付けされたデジタル画像を作成すること、e)ラベル付けされた注釈を、スタイル付けされた画像のために使用すること、例えば再利用すること、f)少なくとも1つのデジタル画像のスタイルを変化させる際に、注釈付け作業を回避すること、g)例えば種々異なるスタイルを有する、例えば知覚的に現実的なデジタル画像を生成すること、h)例えばニューラルネットワークシステムの分布外の汎化をテストするために、代理の妥当性確認集合を提供すること、i)機械学習システムを訓練すること、j)機械学習システムをテストすること、k)機械学習システムを検証(verify)すること、l)機械学習システムを妥当性確認(validate)すること、m)例えば機械学習システムのための訓練データを生成すること、n)例えば既存の画像データのデータ拡張、o)機械学習システムの汎化性能を改善すること、p)例えば複数のデータ集合に関連付けられた訓練なしで、画像スタイルを操作すること、例えば柔軟に操作すること、q)画像スタイルを操作するためにエンコーダGANパイプラインを利用すること、r)エンコーダによって、画像スタイルに関連付けられた情報を、例えば中間の潜在変数に埋め込むこと、s)複数のデジタル画像のスタイルを混合して、この混合に基づくスタイルが含まれる少なくとも1つのさらなるデジタル画像を生成すること、のうちの少なくとも1つのための使用に関する。
【0023】
以下においては、いくつかの例示的な実施形態を、添付の図面を参照しながら説明する。
【図面の簡単な説明】
【0024】
図1】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図2】例示的な実施形態による簡略化されたブロック図を概略的に示す図である。
図3】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図4】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図5】例示的な実施形態による簡略化されたブロック図を概略的に示す図である。
図6A】例示的な実施形態による簡略化されたブロック図を概略的に示す図である。
図6B】例示的な実施形態による簡略化されたブロック図を概略的に示す図である。
図7】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図8】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図9】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図10】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図11】例示的な実施形態による簡略化されたブロック図を概略的に示す図である。
図12】例示的な実施形態による簡略化されたブロック図を概略的に示す図である。
図13】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図14】例示的な実施形態による簡略化されたブロック図を概略的に示す図である。
図15】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図16】例示的な実施形態による簡略化されたフローチャートを概略的に示す図である。
図17A】例示的な実施形態による画像データを概略的に示す図である。
図17B】例示的な実施形態による、図17Aの任意選択肢の例示的なカラー版を概略的に示す図である。
図18】例示的な実施形態による画像データを概略的に示す図である。
図19】例示的な実施形態による概略的なブロック図を概略的に示す図である。
図20】例示的な実施形態による使用の態様を概略的に示す図である。
【発明を実施するための形態】
【0025】
例示的な実施形態(例えば、図1図2を参照のこと)は、例えば少なくとも1つのデジタル画像に関連付けられたデジタル画像データを処理する方法、例えばコンピュータ実装された方法であって、本方法は、第1のデジタル画像x1を、敵対的生成ネットワークGANシステム10の生成器14に関連付けられた拡大された潜在空間SP-W+にマッピングするように構成されたエンコーダ12(図2)によって、第1のデジタル画像x1に関連付けられたノイズ予測PRED-NOISE-x1を決定すること100(図1)、GANシステム10の生成器14によって、第1のデジタル画像x1に関連付けられたノイズ予測PRED-NOISE-x1と、拡大された潜在空間SP-W+に関連付けられた複数の潜在変数LAT-VARとに基づいて、少なくとも1つのさらなるデジタル画像x’を決定すること102(図1)を含む、方法に関する。いくつかの例示的な実施形態においては、これにより、例えば第1のデジタル画像x1と類似又は同一の内容を含むが、任意選択肢として、例えば複数の潜在変数のうちの少なくともいくつかによって特徴付けられるような修正されたスタイルを有する、さらなるデジタル画像x’を決定すること、例えば生成することが可能となり得る。
【0026】
いくつかの例示的な実施形態においては、デジタル画像データ及び/又は(第1の)デジタル画像x1は、限定するものではないが、a)少なくとも1つのデジタル画像、b)ビデオストリームの画像又はフレーム、c)RADARシステム、例えばイメージングRADARシステムに関連付けられたデータ、例えばRADAR画像、d)LIDARシステムに関連付けられたデータ、例えばLIDAR画像、e)超音波画像、f)モーション画像、g)例えばサーマルイメージングシステムから取得されるようなサーマル画像のうちの少なくとも1つを含み得る。
【0027】
いくつかの例示的な実施形態においては、拡大された潜在空間SP-W+に関連付けられた複数の潜在変数LAT-VARのうちの少なくともいくつかは、第1のデジタル画像の以下の態様、すなわち、a)スタイル、例えば非意味論的な外観、b)テクスチャ、c)色のうちの少なくとも1つを特徴付ける。いくつかの例示的な実施形態においては、デジタル画像のスタイルを、デジタル画像の少なくとも一部のテクスチャと、デジタル画像の少なくとも一部の色との組合せによって特徴付けることができる。
【0028】
図3のいくつかの例示的な実施形態においては、本方法は、複数の潜在変数LAT-VAR、例えば複数の潜在変数LAT-VARの特定の値を、a)例えばGANシステム10のエンコーダ12を使用して、第1のデジタル画像x1とは異なる第2のデジタル画像x2(図2)、b)例えばいくつかの例示的な実施形態においてデータ集合(図示せず)に基づいて取得することができるような複数の確率分布DISTRのうちの少なくとも1つに基づいて決定すること110を含む。図3の任意選択肢のブロック112は、例えば生成器14を使用して、例えばさらなるデジタル画像x’を生成するために、複数の潜在変数LAT-VAR、例えば複数の潜在変数LAT-VARの特定の値を使用することを象徴的に表現している。
【0029】
いくつかの例示的な実施形態においては、GANシステム10は、任意選択肢の弁別器16を含み得るものであり、この弁別器16は、いくつかのさらなる例示的な実施形態においては、例えば当技術分野で知られているように、例えばGANシステムの少なくとも1つのコンポーネントを訓練するために使用可能である。
【0030】
いくつかの例示的な実施形態は、GAN反転の態様を使用することができ、このGAN反転は、例えば事前訓練されたGAN、例えば図2のGANシステム10の潜在空間において潜在変数を見出すこと、例えば決定することに関連しており、いくつかの例示的な実施形態においては、例えばGANシステム10によって、例えば所与の画像を忠実に再構築するために使用可能である。
【0031】
いくつかの例示的な実施形態においては、GANシステム10の生成器14は、例えばランダムな(又は擬似ランダムな)潜在変数のような潜在変数からデジタル画像、例えば写実的なデジタル画像を生成するように構成及び/又は訓練されている。
【0032】
いくつかの例示的な実施形態においては、図2のGANシステム10は、マッピングネットワーク(図2には図示せず)を含み得るものであり、z∈Zによって表すことができるランダムな潜在ベクトルを、中間の「スタイル」潜在変数に、例えばw∈Wにマッピングするように構成可能であり、この中間の「スタイル」潜在変数は、いくつかの例示的な実施形態においては、例えば異なる解像ブロックにおいて、例えば特徴を変調するために使用可能である。
【0033】
いくつかの例示的な実施形態においては、例えば「スタイル」に加えて、例えばガウス分布からランダムにサンプリングされた空間確率ノイズを、例えば少なくとも1つの、例えばいくつかの、例えばそれぞれの特徴の変調後に追加することができる。
【0034】
いくつかの例示的な実施形態においては、エンコーダ12(図2)は、例えば拡大された潜在空間SP-W+(「W空間」)における「スタイル」潜在値とともに空間ノイズを予測するように構成されており、例えば訓練されており、この拡大された潜在空間SP-W+(「W空間」)は、例えばいくつかの例示的な実施形態においては、潜在空間Wの拡大としてみなすことができる。
【0035】
いくつかの例示的な実施形態においては、W空間では、複数の異なる層における「スタイル」は、例えば、それぞれ異なるものとしてよい。いくつかの例示的な実施形態においては、例えばいくつかの例示的な実施形態に従ってノイズをランダムにマスキングアウトすることによって訓練された、例えば適当に訓練されたエンコーダ12が、例えば教師なしでテクスチャ情報と構造情報とを分離することができる。より具体的には、いくつかの例示的な実施形態においては、エンコーダ12は、テクスチャ情報を「スタイル」潜在値(潜在変数)に符号化し、内容情報をノイズに符号化する。しかしながら、さらなる例示的な実施形態によれば、各実施形態による原理に従ってスタイルを修正するために、例えばスタイル拡張のためにマスキングが(必ずしも)要求されるものではないということに留意されたい。換言すれば、いくつかの例示的な実施形態においては、スタイル混合、例えばスタイル拡張を、マスキングなしで実施することができる。
【0036】
いくつかの例示的な実施形態においては、例えば1つのGANモデルの、例えばGANシステム10の事前訓練された生成器G(例えば、図2の生成器12)が、例えばマッピング:Z→Xを学習するならば、GAN反転は、所与の画像、例えばデジタル画像xを、この画像の潜在表現zにマッピングすることを目的としている。形式的には、GAN反転は、
【数1】
のように記述可能であり、ここで、d(・)は、例えば元の画像xと再構築された画像G(z)との間の類似度を測定するための距離指標である。
【0037】
いくつかの例示的な実施形態においては、(例えばarXiv:1801.03924v2 [cs.CV] 10 Apr 2018によって定義されるような)L2及びLPIPSを、合わせて距離指標d(・)として使用することができる。
【0038】
いくつかの例示的な実施形態においては、拡大された(中間の)潜在空間Wは、比較的良好な再構築品質を促進する。いくつかの例示的な実施形態においては、例えば中間の潜在値を予測することに加えて、空間ノイズも同様に予測することができ、この空間ノイズは、いくつかの例示的な実施形態においては、例えば所与の画像における詳細情報をより良好に保存することができる。いくつかの例示的な実施形態においては、形式的に、エンコーダE及び生成器Gは、
【数2】
のように記述可能であり、ここで、x及びxは、それぞれ所与の元の画像及び再構築された画像であり、
【数3】
は、予測された中間の潜在変数を特徴付け、εは、予測されたノイズを特徴付ける。いくつかの例示的な実施形態においては、例えば所与の画像xを、例えば忠実に再構築するようにエンコーダを訓練することができる。
【0039】
図4のいくつかの例示的な実施形態においては、本方法は、a)第1のデジタル画像x1に基づいて、複数の、例えば階層的な特徴マップFMを決定すること120、b)複数の、例えば階層的な特徴マップFMに基づいて、第1のデジタル画像x1に関する拡大された潜在空間SP-W+(図2)に関連付けられた複数の潜在変数LAT-VAR-x1(例えば、複数の潜在変数LAT-VAR-x1の値)を決定すること122(図4)、c)複数の、例えば階層的な特徴マップFMのうちの少なくとも1つに基づいて、例えば加法性のノイズマップNOISE-MAPを決定すること124aのうちの少なくとも1つを含む。
【0040】
図5は、いくつかの例示的な実施形態によるGANシステム10(図2)の態様を概略的に示している。要素12aは、例えば図2のエンコーダ12と類似のエンコーダを象徴的に表現している。いくつかの例示的な実施形態においては、図2のエンコーダ12は、図5のエンコーダ12aの構成を含み得る。要素14aは、例えば図2の生成器14と類似の生成器を象徴的に表現している。いくつかの例示的な実施形態においては、図2の生成器14は、図5の生成器14aの構成を含み得る。要素14aは、例えば図2の生成器14と類似の生成器を象徴的に表現している。
【0041】
要素E1は、いくつかの例示的な実施形態による特徴ピラミッドを象徴的に表現しており、この特徴ピラミッドは、例えば第1のデジタル画像x1に基づいて、複数の、例えば階層的な特徴マップFMを決定するステップ120(図4のブロック120を参照のこと)を実施するように構成されている。換言すれば、いくつかの例示的な実施形態においては、特徴ピラミッドE1は、特徴抽出器として動作するように構成されている。
【0042】
いくつかの例示的な実施形態においては、特徴ピラミッドE1は、例えば複数の、例えば階層的な特徴マップFMを提供するために、複数の畳み込み層を含み得る。
【0043】
いくつかの例示的な実施形態においては、特徴ピラミッドE1は、例えばarXiv:1612.03144v2 [cs.CV] 19 Apr 2017(“Feature Pyramid Networks for Object Detection”)の図3に図示されている構造に基づくことができ、例えば、類似又は同一であるものとしてよい。
【0044】
いくつかの例示的な実施形態においては、特徴ピラミッドE1のための他のトポロジも可能である。
【0045】
図5の要素E2-1,・・・,E2-n,・・・は、例えば図4のブロック122と類似又は同一のように、複数の(本実施例においてはk個の)潜在変数w,・・・,wを決定するように構成されたブロックを象徴的に表現している。いくつかの例示的な実施形態においては、複数の異なるブロックE2-1,・・・,E2-n,・・・は、それぞれ異なる階層レベルの特徴マップFMを受信し、これらの特徴マップFMに基づいて、潜在変数w,・・・,w、例えば潜在変数w,・・・,wの値を、例えば生成器14aへの出力のために提供する。換言すれば、いくつかの例示的な実施形態においては、特徴ピラミッドE1のマルチスケールの特徴は、ブロックE2-1,・・・,E2-nによって、例えば生成器14aの対応するスケールで、それぞれ潜在ベクトル又は潜在コード{w}にマッピングされる。
【0046】
図5の要素E3は、ノイズマッパーを象徴的に表現しており、このノイズマッパーは、特徴ピラミッドE1から少なくとも1つの特徴マップを受信し、この少なくとも1つの特徴マップに基づいて、例えば図4のブロック124に従ってノイズマップεを提供するように構成されている。いくつかの例示的な実施形態においては、ノイズマッパーE3は、特徴ピラミッドE1の階層の中間の(例えば、最高又は最低ではない)スケールでのノイズマップεを予測するように構成されている。
【0047】
いくつかの例示的な実施形態においては、例えばノイズマッパーE3は、例えば1×1畳み込み層のスタックを含み得るものであり、この1×1畳み込み層は、入力としてh×w×cの特徴マップを取得するように、かつ、h×w×c’の特徴マップを出力するように構成されている。
【0048】
図7のいくつかの例示的な実施形態においては、本方法は、第1のデジタル画像x1に関連付けられたノイズ予測NOISE-PREDの少なくとも一部をランダム及び/又は擬似ランダムにマスキングすること130を含み、これにより、マスキングされたノイズ予測NOISE-PRED-Mが取得される。
【0049】
図7のいくつかの例示的な実施形態においては、本方法は、ノイズマップε(図5)を、例えばランダム及び/又は擬似ランダムにマスキングすること132を含み、これにより、マスキングされたノイズマップNOISE-MAP-Mが取得され、このマスキングされたノイズマップNOISE-MAP-Mは、例えば図7のブロック130,132のうちの少なくとも1つに従ってマスキングを実施するように構成されたマスキングブロックMの出力における、図5の要素εによって象徴的に表現されている。
【0050】
図5のいくつかの例示的な実施形態においては、マスキングされたノイズマップεが、例えば潜在変数w,・・・,wと類似のように生成器14aに出力され、生成器14aは、潜在変数w,・・・,wとマスキングされたノイズマップεとに基づいて、少なくとも1つのデジタル画像を出力するように構成されており、例えば訓練されている。
【0051】
いくつかの例示的な実施形態においては、図5の生成器14aは、潜在変数w,・・・,wとマスキングされたノイズマップεとに基づいて出力デジタル画像を生成するために、1つ又は複数の合成ブロックE4-1,・・・,E4-kと、結合器、例えば加算器(図5においては個別には参照せず)とを含み得る。
【0052】
いくつかの例示的な実施形態においては、生成器14aは、例えば以下の刊行物:a)arXiv: 2008.00951v2 [cs.CV] 21 Apr 2021、b)Tero Karras,Samuli Laine,Miika Aittala,Janne Hellsten,Jaakko Lehtinen,及びTimo Aila著のAnalyzing and improving the image quality of stylegan. In CVPR,2020(arXiv:1912.04958v2も参照のこと)のうちの少なくとも1つに開示されているような、例えばStyleGANタイプ又はStyleGAN2タイプのものであってよい。
【0053】
一例として、いくつかの例示的な実施形態においては、生成器14aは、上記の刊行物b)の図2(d)によって例示的に示されているようなアーキテクチャを含み得る(arXiv:1912.04958v2も参照のこと)。
【0054】
図6Aは、図5のブロックE2-1,・・・,E2-nのうちの少なくとも1つの例示的な構造を概略的に示している。要素E10は、特徴ピラミッドE1によって特定の階層レベルにおいて例示的に取得されるような特徴マップを象徴的に表現しており、要素E11,E12は、特徴マップE10に基づいて、いくつかのケースにおいては、例えばw,i=1,・・・,kとしても表される潜在ベクトルE13を提供するように構成された、例えば訓練されたニューラルネットワークの、例えば畳み込みニューラルネットワークCNNタイプの、例えば全結合CNNの1つ又は複数の要素、例えば層を象徴的に表現している。いくつかの例示的な実施形態においては、潜在ベクトルは、1×1×512タイプのベクトルであり、例えば512個のコンポーネントが含まれる1次元ベクトルである。
【0055】
図6Bは、例えばブロックE3によって取得されるような図5のノイズマップεと、図7のブロック130,132のマスキング技術のうちの少なくとも1つを実施するように構成されたマスキングブロックMと、マスキングされたノイズマップεとの描写を示している。
【0056】
図8のいくつかの例示的な実施形態においては、本方法は、ノイズマップεを複数の、例えばP×P個の、例えば重なり合っていないパッチPATCHに分割すること132a、複数のパッチPATCHの部分集合PATCH-SUBをランダム及び/又は擬似ランダムに選択すること132b、複数のパッチPATCHの部分集合PATCH-SUBを、例えば同等のサイズの、例えば単位ガウス分布のランダム変数のパッチPATCH-RNDによって置き換えること132cを含む。換言すれば、いくつかの例示的な実施形態においては、ノイズマップεのいくつかの内容が、例えば単位ガウス分布のランダム変数のパッチによって置き換えられる。
【0057】
いくつかの例示的な実施形態においては、例えばGANシステム10のエンコーダ12,12aを使用して、例えばデジタル画像x1のスタイルの態様を特徴付ける中間の潜在値wを変化させることによって、デジタル画像x1のスタイルを修正することができる。
【0058】
これに関して、図11は、さらなる例示的な実施形態によるブロック図を概略的に示している。要素xは、例えば図5のエンコーダ12aと類似又は同一のエンコーダの第1のインスタンス12b-1に提供される第1のデジタル画像を象徴的に表現している。要素xは、例えば図5のエンコーダ12aと類似又は同一のエンコーダの第2のインスタンス12b-2に提供される第2のデジタル画像を象徴的に表現している。両方のインスタンス12b-1,12b-2を、同一のエンコーダに基づいて提供することができ、同時に及び/又は時間的に部分的に重なり合って評価することができ、又は、時間的に重なり合うことなく(例えば、順次に)評価することができる。
【0059】
図11の要素E21は、例えば図5の特徴ピラミッドE1の形態の、特徴抽出を実施するように構成されたエンコーダのブロックを象徴的に表現している。
【0060】
要素E22は、例えば上記で説明したような潜在変数w(例えば、図5の要素w,・・・,wを参照のこと)によって特徴付けられる、それぞれの入力画像x,xのスタイルを特徴付ける情報を決定するように構成されたエンコーダのブロックを象徴的に表現している。いくつかの例示的な実施形態においては、図11のブロックE22は、例えば図5のブロックE2-1,・・・,E2-kを総称的に表すことができる。一例として、エンコーダインスタンス12b-2のブロックE22は、第2のデジタル画像xのスタイルを特徴付ける潜在変数wを提供する。
【0061】
図11の要素E23は、例えば図5のブロックE3と類似又は同一のノイズマップを決定するように構成されたエンコーダのブロックを象徴的に表現している。一例として、エンコーダインスタンス12b-1のブロックE23は、第1のデジタル画像xに基づいてノイズマップεを提供する。
【0062】
図11の要素14bは、例えば図2又は図5の生成器14,14aと類似又は同一のGANシステムの生成器を象徴的に表現している。ここでは、図11の生成器14bは、(例えば、ノイズマップεによって特徴付けられるような)第1のデジタル画像xの内容、例えば意味論的な内容と、(例えば、潜在変数w,・・・,wによって特徴付けられるような)第2のデジタル画像xのスタイル(例えば、テクスチャ及び/又は色及び/又は他の非意味論的な内容)とが含まれるデジタル出力画像xmixを決定し、例えば生成し、したがって、例えばそれぞれの入力画像x,xの内容に関する態様とスタイルに関する態様とを混合する。
【0063】
換言すれば、いくつかの例示的な実施形態により、第1のデジタル画像xの内容を維持すること、例えば保存することが可能となり、例えば第1のデジタル画像xからのノイズ予測εと、第2のデジタル画像xの(例えば、中間の)潜在変数wとを組み合わせることによって、第2のデジタル画像xのスタイル情報を第1のデジタル画像xに転移させることが可能となる。いくつかの例示的な実施形態においては、例えばStyleGANタイプ又はStyleGAN2タイプの、例えば固定された生成器14bが、コンポーネントε,wを入力として受信し、混合された画像xmixを生成する。
【0064】
再び図6Bを参照すると、いくつかの例示的な実施形態は、例えばノイズマップのランダムマスキングによって、エンコーダ12,12aのノイズ予測を正則化することを提案している。
【0065】
いくつかの例示的な実施形態においては、少なくとも部分的に上記で既述したようにノイズマップは、重なり合っていないP×PのパッチPATCH(図8のブロック132aも参照のこと)に空間的に分割され、このことは、例えば図6BのブロックMによって実施される。
【0066】
いくつかの例示的な実施形態においては、例えば事前に定義された比率ρに基づいて、複数のパッチの部分集合PATCH-SUBが、例えばランダムに選択されて、同等のサイズの単位ガウス分布のランダム変数ε~N(0,1)のパッチによって置き換えられ、ここで、例えばN(0,1)は、例えば(例えば、StyleGAN2タイプであり得る)生成器14,14aの訓練時におけるノイズマップの事前分布である。
【0067】
いくつかの例示的な実施形態においては、例えばエンコーダ12,12aは、例えばノイズマップを予測するためにランダムマスキングによって訓練されるので、いくつかの例示的な実施形態においては、エンコーダ12,12aは、「マスキングされたノイズエンコーダ」と称される場合がある。
【0068】
いくつかの例示的な実施形態においては、提案されるランダムマスキングは、ノイズマップの符号化容量を低減することができ、したがって、再構築のために潜在コード{wk}を共同で利用するようにエンコーダ12,12aに促すことができる。したがって、いくつかの例示的な実施形態においては、エンコーダ12,12aは、それぞれ内容画像及びスタイル画像からノイズマップ及び潜在コードを取得する。いくつかの例示的な実施形態においては、次いで、例えば新しい画像を合成するために、これらのノイズマップ及び潜在コードを(例えば、StyleGAN2タイプの)生成器14,14aに供給することができる。
【0069】
いくつかの例示的な実施形態においては、エンコーダ12,12aが、ランダムマスキングによって訓練されていない場合には、新しい画像は、例えば内容画像との如何なる知覚可能な違いも有さない可能性がある。いくつかの例示的な実施形態においては、このことは、潜在コード{w}が、画像のうちの、無視し得る情報を符号化するということを意味する。対照的に、いくつかの例示的な実施形態においては、マスキングによって訓練されている場合には、エンコーダは、2つの異なる画像から内容及びスタイルを取得する新しい画像を作成する。いくつかの例示的な実施形態においては、この観察により、いくつかの例示的な実施形態による内容とスタイルとの分離に対するマスキングの重要な役割、ひいては、例えば改善されたスタイル混合性能が認められる。
【0070】
いくつかの例示的な実施形態においては、ノイズマップは、スタイル及び内容が含まれる画像の全ての知覚可能な情報を符号化せず、例えばもはや符号化しない。いくつかの例示的な実施形態においては、実質的に潜在コード{wk}が、スタイルの制御においてよりアクティブな役割を果たす。
【0071】
以下においては、いくつかの例示的な実施形態によるエンコーダ訓練損失に関する態様及び情報が提供される。
【0072】
いくつかの例示的な実施形態においては、マスキングされたノイズエンコーダEを用いるGAN反転、例えばいくつかの例示的な実施形態によるStyleGAN2反転に関する各実施形態による原理を、
【数4】
として定式化することができる。
【0073】
いくつかの例示的な実施形態においては、マスキングされたノイズエンコーダEが、所与の画像xを潜在コード{w}及びノイズマップεにマッピングする。
【0074】
いくつかの例示的な実施形態においては、生成器G(図2図5の要素14,14aも参照のこと)、例えばStyle-GAN2タイプの生成器は、{w}及びノイズマップεの両方を入力として受信し、画像xを生成する。いくつかの例示的な実施形態においては、例えば、理想的には、xは、xと同一であるものとしてよく、すなわち、完全な再構築であるものとしてよい。
【0075】
いくつかの例示的な実施形態においては、エンコーダ12,12、例えばマスキングされたノイズエンコーダEは、例えば元の画像xを再構築するように訓練される。
【0076】
いくつかの例示的な実施形態においては、元の画像xを再構築するようにエンコーダ12,12、例えばマスキングされたノイズエンコーダEを訓練する際に、元のノイズマップεが、例えば事前訓練された生成器Gに供給される前にマスキングされ、ここで、マスキングを、例えば
【数5】
によって特徴付けることができ、ここで、Mnoiseは、例えばランダムバイナリマスクであり、
【数6】
は、アダマール積を示し、
【数7】
xは、マスキングされたノイズεΜを有する再構築された画像を表す。
【0077】
いくつかの例示的な実施形態においては、エンコーダに関する訓練損失を、
【数8】
によって特徴付けることができ、ここで、{λ}は、重み付け係数である。最初の3つの項は、ピクセル単位のMSE損失と、LPIPS(learned perceptual image patch similarity)損失(例えば、Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang: The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, 2018による)と、敵対的損失(例えば、Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In NeurIPS, 2014による)とであり、すなわち、
【数9】
である。
【0078】
いくつかの例示的な実施形態においては、マスキングによって特定の空間位置における所与の画像xの情報が除去され、次いで、これらの位置における再構築の要件が緩和されるべきであるということに留意されたい。いくつかの例示的な実施形態においては、Mimg及びMfeatは、ノイズマスクMnoiseを、例えば、VGGに基づく特徴抽出器の画像サイズ及び特徴サイズへとアップサンプリング及びダウンサンプリングすることによって取得可能である。
【0079】
いくつかの例示的な実施形態においては、敵対的損失は、再構築された画像と現実の画像とを区別するように訓練された弁別器D(図2の任意選択肢の要素16も参照のこと)を用いた敵対的ゲームとして、エンコーダ訓練を定式化することによって取得される。
【0080】
いくつかの例示的な実施形態においては、最後の正則化項は、
【数10】
として定義される。
【0081】
いくつかの例示的な実施形態においては、L1ノルムは、スパースなノイズ予測を誘導するために役立つ。いくつかの例示的な実施形態においては、L1ノルムは、ランダムマスキングに相補的であり、ノイズマップの容量を低減する。いくつかの例示的な実施形態においては、第2の項は、潜在コードの予測
【数11】
を訓練するために、合成された画像
【数12】
のグランドトゥルースの潜在コードwgtを使用することによって取得される(例えば、Xu Yao, Alasdair Newson, Yann Gousseau, and Pierre Hellier. Feature-Style Encoder for Style-Based GAN Inversion, arXiv preprint, 2022による)。いくつかの例示的な実施形態においては、第2の項は、エンコーダを生成器の元の潜在空間の近傍に留まるように案内して、収束を加速させる。
【0082】
図9のいくつかの例示的な実施形態においては、本方法は、第1のデジタル画像x1(図2)に関連付けられたノイズ予測PRED-NOISE-x1を、(例えば、第2のデジタル画像x2に関連付けられた潜在変数によって特徴付けられる)第2のデジタル画像x2のスタイル予測PRED-STYLE-x2と組み合わせること140、組み合わせられた、第1のデジタル画像x1に関連付けられたノイズ予測と、第2のデジタル画像x2のスタイル予測PRED-STYLE-x2とに基づいて、生成器14a(図5)を使用してさらなるデジタル画像x1,2を生成すること142を含む。いくつかの例示的な実施形態においては、このことにより、さらなるデジタル画像x1,2に、スタイル、又は、例えば第2のデジタル画像x2のスタイルの少なくともいくつかの態様と、例えば第1のデジタル画像x1の内容とを提供することが可能となる。
【0083】
図10のいくつかの例示的な実施形態においては、本方法は、第1のデジタル画像x1に関連付けられたノイズ予測PRED-NOISE-x1を提供すること150、第1のデジタル画像x1の内容、例えば意味論的な内容に適用されるべき種々異なるスタイルを特徴付ける種々異なる潜在変数の集合SET-LAT-VARを提供すること152、第1のデジタル画像x1に関連付けられたノイズ予測PRED-NOISE-x1と、種々異なるスタイルを特徴付ける種々異なる潜在変数の集合SET-LAT-VARとに基づいて、生成器14b(図5)を使用して、種々異なるスタイルを有する複数のデジタル画像PLUR-xを生成すること154を含む。
【0084】
いくつかの例示的な実施形態においては、1つ又は複数のデジタル画像及び/又はデータ集合からスタイル情報を取得するための複数の手法が存在する。例えば、図17A図17Bに例示的に示されているように、晴れた日のシーンをソースドメインSDとしてみなすと、各実施形態による原理を使用してこのソースドメインSDの訓練集合からスタイルを抽出することができる。例示的な実施形態においては、このことは、有利には、例えば他のデータ集合からの余分な情報を必要としない。なぜなら、このことは、既存のデータ(集合)内の情報を最大限に利用することとして解釈可能であるからである。図17A図17BのブラケットBR1は、スタイルを象徴的に表現しており、図17A図17BのブラケットBR2は、内容を象徴的に表現しており、ブラケットTDは、種々異なるターゲットドメインを象徴的に表現している。
【0085】
いくつかの例示的な実施形態においては、ターゲットドメインTD(図17A,17B)、例えば、「夜」、「霧」又は「雪」のシーンからの1つの、例えば単一の、例えばラベル付けされていない画像を使用することができ、その画像のスタイルを、例えば図17A,17Bの(参照符号TDが付されている)第2列乃至第4列によって示されているソースドメインSDに転移させることができる。
【0086】
いくつかの例示的な実施形態においては、例えば各実施形態による原理に基づいて、例えば1つ又は複数のデジタル画像から抽出されたスタイルを補間することもできる。図18に例示的に示されているように、元のデジタル画像x-aは、(水平方向)の中央にあり、例えば内容情報を提供する。2つのさらなるデジタル画像x-b,x-cが、それぞれ図18の左側及び右側に設けられている。ブラケットx-abは、画像x-a,x-bに基づいて補間されたスタイルを有する3つのデジタル画像を表し、ブラケットx-acは、画像x-a,x-cに基づいて補間されたスタイルを有する3つのデジタル画像を表す。見て取れるように、補間された画像x-ab,x-acについての内容情報は、デジタル画像x-aによって提供されており、その一方で、補間された画像x-ab,x-acについてのそれぞれのスタイル情報は、さらなる画像x-b,x-cによって提供されている。
【0087】
いくつかの例示的な実施形態においては、図12によって示されるように、所与のデータ集合の分布DISTRを学習することができる。いくつかの例示的な実施形態においては、1つのガウス分布を、例えば所与のソースデータ集合の潜在値wの予測に基づいて、例えばW空間におけるそれぞれのスケールw;i=1,・・・,kで、それぞれ当て嵌めることができる。
【0088】
いくつかの例示的な実施形態においては、その後、例えば1つの特定のデジタル画像xが与えられると、ノイズ予測、例えばノイズマップεを特定して、例えば回帰された(又は他の方法で決定された)分布DISTR、例えばガウス分布からサンプリングされたスタイルと組み合わせることができる。このようにして、いくつかの例示的な実施形態においては、例えば所与の画像xからの良好に保存された意味論的な内容を有する、(例えば意味論的な内容に関して)ソースに類似している多数のサンプル画像xsampledを生成することができる。いくつかの例示的な実施形態においては、ソースデータ集合は、必ずしもエンコーダ12,12a,12bの訓練において基礎としたソースデータ集合であるとは限らない。
【0089】
図13のいくつかの例示的な実施形態においては、本方法は、例えば第1のドメインDOM-1(図14)に関連付けられた1つ又は複数のデジタル画像が含まれる、画像データIMG-DAT-DOM-1を提供すること160、例えば第2のドメインDOM-2に関連付けられた1つ又は複数のデジタル画像が含まれる、画像データIMG-DAT-DOM-2を提供すること162(図13)、第1のドメインDOM-1に関連付けられた画像データDAT-DOM-1に第2のドメインDOM-2のスタイルSTYLE-2を適用すること164であって、例えば1つ又は複数の「スタイル混合された」デジタル画像x-CONT-1-STYLE-2の形態の画像データが取得される、こと164を含む。
【0090】
図13のいくつかの例示的な実施形態においては、第1のドメインDOM-1に関連付けられた画像データIMG-DAT-DOM-1は、ラベルLABを含み、例えば、第1のドメインに関連付けられた画像データに第2のドメインのスタイルを適用すること164は、ラベルLABを保存すること164aを含む。このようにして、同時にラベルLABを保存しながら、第1のドメインのデジタル画像のスタイルを修正することができ、これにより、別の異なるスタイルを有するさらなるラベル付けされた画像データx-CONT-1-STYLE-2を提供することができる。
【0091】
いくつかの例示的な実施形態においては、例えば図11図12図13のうちの少なくとも1つに従って(又は上記で説明した例示的な実施形態のうちのいずれかの他の実施形態に従って)取得された、スタイル混合された画像xは、例えば1つ又は複数のニューラルネットワークが含まれる機械学習システムの訓練中に、例えばデータ拡張のために使用可能である。
【0092】
例えば、図14は、例示的な実施形態によるセマンティックセグメンテーションネットワークE30を訓練するための例示的なユースケースを示している。要素E31は、訓練損失を象徴的に表現している。
【0093】
図15のいくつかの例示的な実施形態においては、本方法は、(例えば、図14のエンコーダインスタンス12b-1によって決定することができる)第1の内容情報I-CONT-1を有する第1の画像データIMG-DAT-1を提供すること170、例えば第1の内容情報I-CONT-1とは異なる第2の内容情報I-CONT-2が含まれる、第2の画像データIMG-DAT-2を提供すること172、第2の画像データIMG-DAT-2のスタイル情報I-STYLE-2を抽出すること174、例えば図14のエンコーダ14bを使用することにより、第1の画像データIMG-DAT-1に第2の画像データIMG-DAT-2のスタイル情報I-STYLE-2の少なくとも一部を適用すること176を含む。
【0094】
例示的な実施形態によれば、例えば生成器14bを使用して処理している間、内容情報I-CONT-1は、変更されることなく維持されるので、第1のドメイン又はソースドメインDOM-1のラベルLABを使用することができ、これらのラベルLABは、スタイル混合された画像x-CONT-1-STYLE-2の生成中ずっと保存される。いくつかの例示的な実施形態においては、デジタル画像のスタイル情報を、例えばラベルなしで、例えば任意のターゲットドメインから翻訳することができる。例示的な実施形態によるそのようなデータ拡張は、例えば汎化性能を改善するために役立つことができる。
【0095】
例えば、いくつかの例示的な実施形態においては、昼間のシーン(すなわち、1つの単一の特定のドメイン又はスタイル)のみに基づいて訓練された(機械学習)モデルは、例えば夜間のシーンのようなその他のシーンに対して上手く機能しない可能性がある。提案される例示的な実施形態によるスタイル混合されたデータ拡張により、昼間のシーンと夜間のシーンとの間での性能ギャップを大幅に縮小することができる。
【0096】
興味深いことに、いくつかの例示的な実施形態においては、ソースドメイン内でのスタイル混合は、例えばより多くのデータ集合へのアクセスなしで、ドメイン外(OOD:out-of-domain)の汎化を改善すること、例えばブーストすることが可能であるということを観察することができる。いくつかの例示的な実施形態においては、いくつかの例示的な実施形態による内部混合式(intra-mix)のスタイル付けは、例えば平坦な最適値の近似解を発見するために役立つことができ、これにより、例えばより良好な汎化能力をもたらすことができるということが仮定されている。
【0097】
さらに、いくつかの例示的な実施形態においては、各実施形態による原理を適用して取得することができるようなスタイル混合された画像を、妥当性確認のために使用することもでき、この場合、例えばモデルを選択するための汎化の代理指標として、テスト性能を使用することができる。いくつかの従来のアプローチでは、例えばソースデータ集合だけが与えられた場合には、最良の汎化能力を有する先験的なモデルを選び出すための良好又は好適な手法が存在しない可能性がある。したがって、いくつかの例示的な実施形態においては、各実施形態による原理を適用することによるスタイル混合は、例えばターゲットデータ集合を必要とすることなく最良のモデルを選択するために役立つことができる。
【0098】
いくつかの例示的な実施形態においては、例えば、エンコーダ12,12aを使用することによって例えばスタイルを抽出するために、1つの単一の、例えばラベル付けされていない画像を使用することができ、例えば1つの単一の、例えばラベル付けされていない画像で十分であり、この場合、スタイルを、例えばソースデータ集合に転移させることができる。いくつかの例示的な実施形態においては、ソースデータ集合にラベル付けすることができ、したがって、スタイル混合されたデータ集合に基づいてモデルをテストすることができる。このようにして決定されたテスト精度に基づいて、いくつかの例示的な実施形態においては、ターゲットデータ集合に対するモデルの汎化性能を近似することができる。
【0099】
図16のいくつかの例示的な実施形態においては、本方法は、例えば少なくとも1つのニューラルネットワーク及び/又は機械学習システムを訓練するための(例えば、1つ又は複数の訓練データ集合が含まれる)訓練データTRAIN-DATを生成すること180を含み、生成すること180は、例えばソースドメインの画像データIMG-DAT-SRCと、ソースドメインの修正された画像データIMG-DAT-SRC’とに基づいており、例えば、修正された画像データIMG-DAT-SRC’は、例えば各実施形態の原理による画像スタイルに関して、例えばさらなる画像データIMG-DAT’のスタイルに基づいて修正され及び/又は修正されている。いくつかの例示的な実施形態においては、任意選択肢として、訓練データTRAIN-DATに基づいて少なくとも1つのニューラルネットワークシステムNNSを訓練すること182を実施することができる。
【0100】
いくつかの例示的な態様を要約すると、いくつかの例示的な実施形態においては(例えば、図11及び図12を参照のこと)、例えば拡張された画像xmix,xsampledを生成するために、各実施形態の原理によるスタイル混合及び/又はスタイルサンプリングが適用される。上記で既述したように、図14は、セマンティックセグメンテーション訓練のための提案されるデータ拡張パイプラインの例示的なユースケースを概略的に示している。スタイル混合の視覚的な例は、例えば図17A図17B図17Aのカラー版)に提示されており、ここでは、スタイルを、例えばソースドメインSDの訓練集合から抽出することができ、及び/又は、ターゲットドメインTDの画像から、例えば単一の画像から抽出することができる。上記でも既述したように、図18には、いくつかの例示的な実施形態による例示的なスタイル補間によって取得することができるような画像が示されている。
【0101】
図19のさらなる例示的な実施形態は、各実施形態による方法を実施するための装置200に関する。
【0102】
いくつかの例示的な実施形態においては、装置200は、少なくとも1つの計算ユニット、例えばプロセッサ202を含み、及び/又は、例えばコンピュータプログラムPRG及び/又はデータDATを少なくとも一時的に格納するための、少なくとも1つの計算ユニット202に関連付けられた(例えば、少なくとも1つの計算ユニット202によって使用可能である)少なくとも1つのメモリユニット204を含み、コンピュータプログラムPRGは、例えばGANシステム10(図2)の少なくとも一部の態様、例えばエンコーダ12及び/又は生成器14を実装するために、例えば装置200の動作を少なくとも一時的に制御するように構成されている。
【0103】
いくつかの例示的な実施形態においては、少なくとも1つの計算ユニット202は、コンピュータプログラムPRG又はその少なくとも一部を実行するために、例えば各実施形態による方法又はその少なくとも1つ又は複数のステップ及び/又は他の態様を実行するために、少なくとも1つのコア(図示せず)を含む。
【0104】
さらなる例示的な実施形態においては、少なくとも1つの計算ユニット202は、以下の要素、すなわち、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、プログラマブルロジック要素(例えば、FPGA、フィールドプログラマブルゲートアレイ)、ASIC(特定用途向け集積回路)、ハードウェア回路、テンソルプロセッサ、グラフィックス処理ユニット(GPU)のうちの少なくとも1つを含み得る。さらなる好ましい実施形態によれば、これらの要素のうちの2つ以上の任意の組合せも可能である。
【0105】
さらなる例示的な実施形態によれば、メモリユニット204は、以下の要素、すなわち、揮発性メモリ204a、例えばランダムアクセスメモリ(RAM)、不揮発性メモリ204b、例えばフラッシュEEPROMのうちの少なくとも1つを含む。
【0106】
いくつかの例示的な実施形態においては、コンピュータプログラムPRGは、不揮発性メモリ204bに少なくとも一時的に格納されている。例えば、いくつかの例示的な実施形態による方法を実行するために使用することができる以下のもの、例えばa)デジタル画像、b)GANシステム10のパラメータ及び/又はハイパーパラメータ、c)潜在変数、d)例えばノイズマップのマスキングのためのランダムデータ、e)分布DISTR、f)内容情報I-CONT-1、g)スタイル情報I-STYLE-2、及び、これらに類するものを、RAM204aに少なくとも一時的に格納することができる。
【0107】
いくつかの例示的な実施形態においては、例えばさらなるコンピュータプログラムPRG’の形態の命令が含まれる、任意選択肢のコンピュータ可読記憶媒体SMを設けることができ、このさらなるコンピュータプログラムPRG’は、コンピュータによって、すなわち、計算ユニット202によって実行された場合に、各実施形態による方法をコンピュータ202に実施させることができる。一例として、記憶媒体SMは、半導体メモリ装置(例えば、ソリッドステートドライブ、SSD)のようなデジタル記憶媒体、及び/又は、ディスク又はハードディスクドライブ(HDD)のような磁気記憶媒体、及び/又は、コンパクトディスク(CD)又はDVD(デジタルバーサタイルディスク)のような光学記憶媒体、又は、これらに類するものを含み得るものであり又は表し得るものである。
【0108】
いくつかの例示的な実施形態においては、装置200は、例えば外部装置(図示せず)との双方向データ交換のための任意選択肢のデータインタフェース206を含み得る。一例として、データインタフェース206によってデータ搬送信号DCSを、例えば外部装置から、例えば有線又は無線のデータ伝送媒体を介して、例えばインタネットのような、例えば(仮想)プライベートコンピュータネットワーク及び/又はパブリックコンピュータネットワークを介して受信することができる。
【0109】
いくつかの例示的な実施形態においては、データ搬送信号DCSは、各実施形態によるコンピュータプログラムPRG,PRG’又はその少なくとも一部を表し得るものであり又は搬送し得るものである。
【0110】
さらなる例示的な実施形態は、コンピュータ202によって実行された場合に、各実施形態による方法をコンピュータ202に実施させる命令を含む、コンピュータプログラムPRG,PRG’に関する。
【0111】
図20のさらなる例示的な実施形態は、各実施形態による方法の、及び/又は、各実施形態による装置200の、及び/又は、各実施形態によるコンピュータプログラムPRG,PRG’の、及び/又は、各実施形態によるコンピュータ可読記憶媒体SMの、及び/又は、各実施形態によるデータ搬送信号DCSの、以下のことのうちの少なくとも1つのための使用300であって、すなわち、a)第1のデジタル画像に関連付けられたノイズ予測と、拡大された潜在空間に関連付けられた複数の潜在変数とに基づいて、少なくとも1つのさらなるデジタル画像を決定すること301であって、複数の潜在変数のうちの少なくともいくつかは、第1のデジタル画像とは異なる別の画像及び/又は他のデータに関連付けられている、こと301、b)例えば第1のデジタル画像の内容を保存しながら、第2のデジタル画像からのスタイルを第1のデジタル画像に転移させること302、c)少なくとも1つのデジタル画像のスタイルと内容とを分離すること303、d)例えば第1のデジタル画像と、少なくとも1つのさらなるデジタル画像、例えば第2のデジタル画像のスタイルとに基づいて、変更されていない内容を有し、かつ、異なるようにスタイル付けされたデジタル画像を作成すること304、e)ラベル付けされた注釈を、スタイル付けされた画像のために使用すること、例えば再利用すること305、f)少なくとも1つのデジタル画像のスタイルを変化させる際に、注釈付け作業を回避すること306、g)例えば種々異なるスタイルを有する、例えば知覚的に現実的なデジタル画像を生成すること307、h)例えばニューラルネットワークシステムの分布外の汎化をテストするために、代理の妥当性確認集合を提供すること308、i)機械学習システムを訓練すること309、j)機械学習システムをテストすること310、k)機械学習システムを検証すること311、l)機械学習システムを妥当性確認すること312、m)例えば機械学習システムのための訓練データを生成すること313、n)例えば既存の画像データのデータ拡張314、o)機械学習システムの汎化性能を改善すること315、p)例えば複数のデータ集合に関連付けられた訓練なしで、画像スタイルを操作すること、例えば柔軟に操作すること316、q)画像スタイルを操作するためにエンコーダGANパイプライン12,14を利用すること317、r)エンコーダ12によって、画像スタイルに関連付けられた情報を、例えば中間の潜在変数に埋め込むこと318、s)複数のデジタル画像のスタイルを混合して、この混合に基づくスタイルが含まれる少なくとも1つのさらなるデジタル画像を生成すること319のうちの少なくとも1つのための使用300に関する。
【0112】
以下においては、いくつかの例示的な実施形態において互いに、及び/又は、上記で説明した例示的な態様のうちの少なくとも1つと組み合わせることができる、さらなる例示的な実施形態によるさらなる態様及び利点が提示される。
【0113】
いくつかの従来のアプローチでは、深層学習のために独立同分布(それぞれ互いに独立しており、かつ、同様の分布を有する)の仮定が行われており、すなわち、例えばデジタル画像のような訓練データ及びテストデータは、同様の分布から引き出されることが求められている。しかしながら、この独立同分布の仮定は、現実の生活の中では容易に違反される可能性がある。例えば、気象条件の違いや都市の違いは、分布のシフトを引き起こす可能性がある。少なくともいくつかの従来のアプローチでは、このようなデータシフトは、深刻な性能劣化をもたらす可能性がある。少なくともいくつかの従来のアプローチでは、教師なしのドメイン適応又はドメイン汎化は、この問題を軽減することを目的としている。
【0114】
いくつかの従来のアプローチでは、例えば色変換及びCutMix(https://arxiv.org/pdf/1912.04958.pdf)のようなデータ拡張技術が提案されており、このデータ拡張技術は、データ集合の外観をランダムに修正することはできるが、別のデータ集合の外観/スタイルをソースデータ集合に転移させることはできない。いくつかの従来のアプローチでは、ドメイン適応のための画像から画像への(Image to Image)翻訳は、目標とされたこのような翻訳を行うことはできるが、画像から画像への翻訳モデルがソースドメイン及びターゲットドメインの両方に基づいて訓練されることを必要とする。
【0115】
いくつかの例示的な実施形態においては、各実施形態による原理を、例えばEncoding in Style: a StyleGAN Encoder for Image-to-Image Translation (pSp)(https://arxiv.org/pdf/2008.00951.pdf)のように、例えばエンコーダ-GANアーキテクチャに対する拡張としてみなすことができ、及び/又は、使用することができる。特に、従来のアプローチとは対照的に、各実施形態による原理は、例えばマルチデータ集合の訓練なしで、画像スタイルを柔軟に操作することができる。いくつかの例示的な実施形態においては、例えば各実施形態による原理を適用することによって取得されるような画像、例えば合成された画像を、ネットワークの訓練中のデータ拡張のために、例えばモデル汎化性能を改善するために使用することができる。
【0116】
いくつかの例示的な実施形態においては、例えば各実施形態による原理を適用することによって取得されるようなスタイル付けされた画像を、例えばモデルの分布外(OOD:out-of-distribution)の汎化性能を示すための妥当性確認のために使用することができる。
【0117】
いくつかの例示的な実施形態においては、画像スタイルを操作するためにエンコーダGANパイプラインが使用される。いくつかの例示的な実施形態においては、例えば適当に訓練されたエンコーダは、教師なしでスタイル情報と内容情報とを分離することが可能であるということを観察することができる。より具体的には、いくつかの例示的な実施形態においては、エンコーダは、スタイル情報を中間の潜在変数に埋め込むことができ、内容情報をノイズに埋め込むことができる。さらに、いくつかの例示的な実施形態においては、このパイプラインは、見たことのないデータ集合まで良好に一般化する。
【0118】
いくつかの例示的な実施形態においては、各実施形態による原理に関するエンコーダGANパイプラインのこれらの魅力ある特性の利点を利用して、例えば、画像スタイルを操作するための複数の用途、及び/又は、例えば訓練中及び/又は妥当性確認中におけるさらなる使用法が提案される。
【0119】
いくつかの例示的な実施形態においては、各実施形態による原理は、他のデータ集合のスタイルをソースデータ集合に転移させることを可能にし、元の画像の良好に保存された内容情報を有するスタイル付けされた画像を生成することを可能にする。
【0120】
いくつかの例示的な実施形態においては、各実施形態による原理は、スタイルを補間すること、及び/又は、スタイル分布を学習することを可能にし、スタイル分布からサンプリングすることを可能にする。いくつかの例示的な実施形態においては、各実施形態による原理を適用することによって取得されるようなスタイル付けされた画像を、例えば訓練中に、例えばデータ拡張のために使用することができる。
【0121】
いくつかの例示的な実施形態においては、各実施形態による原理を適用することによって取得されるようなスタイル付けされた画像を、例えば分布外(OOD:out-of-distribution)のデータのための代理の妥当性確認集合として使用することができ、この場合、スタイル付けされた合成された画像に対するテスト精度は、OODの汎化性能をある程度まで予測することができる。いくつかの例示的な実施形態においては、このことは、モデル選択のために役立つことができる。例えば、晴れた日のシーン(ソースドメイン)に基づいて訓練されたモデルでは、夜、霧、雪、及び、他の異なる気象条件下の任意のシーンは、OODのサンプルとしてみなされる。いくつかの例示的な実施形態においては、OODのサンプルのスタイルを、ソース画像の内容を保存しながらソースドメインに転移させることができる。いくつかの例示的な実施形態においては、ソースドメインの画像にラベル付けすることができるので、スタイル付けされたソース画像に基づいてモデルをテストすることができ、テスト精度は、モデルのOODの汎化能力を示すことができる。
【0122】
いくつかの例示的な実施形態においては、例えばエンコーダ12,12aがスタイルと内容とを分離することによって、例示的な実施形態は、画像の内容を変更せずに維持しながら、例えば、元の画像の内容と同一の内容のまま維持しながら、異なるようにスタイル付けされた画像を生成することが可能となる。したがって、いくつかの例示的な実施形態においては、元の画像のラベル付けされた注釈も、スタイル付けされた画像のために使用することができる。
【0123】
いくつかの従来のアプローチでは、既存のデータによってカバーされていない分布からサンプルを引き出す場合には、収集されたサンプルにラベル付けする必要があるが、例示的な実施形態においては、ラベルが保存されることによって、このことが当てはまらない。
【0124】
したがって、いくつかの例示的な実施形態においては、例えば追加的な注釈付け作業のための時間及び/又はコストを節約することができる。
【0125】
さらに、いくつかの例示的な実施形態においては、各実施形態の原理を適用することによって取得することができるようなスタイル混合された画像は、知覚的に現実的であり、例えばターゲットデータ集合に近似している。したがって、いくつかの例示的な実施形態においては、これらのスタイル混合された画像を、分布外の汎化をテストするための代理の妥当性確認集合として使用することができる。
【0126】
いくつかの例示的な実施形態においては、各実施形態の原理によるエンコーダ-GANパイプラインは、例えば画像から画像への翻訳のいくつかの従来の方法のようなターゲットデータ集合に基づく訓練を必要としない。いくつかの例示的な実施形態においては、単一のデータ集合に基づいて訓練されたモデルが、見たことのないデータ集合まで良好に汎化し、このことにより、より柔軟なスタイル混合及び操作が可能となる。
【0127】
いくつかの例示的な実施形態においては、各実施形態の原理は、例えば機械学習(ML)システムを訓練すること、この訓練のための訓練データを生成すること、例えば訓練されたMLシステムがそれから安全に動作可能であるかどうかをチェックするために、テストデータを生成することのうちの少なくとも1つのために使用可能である。
【0128】
いくつかの例示的な実施形態においては、各実施形態の態様は、例えば訓練データ又はテストデータを生成するための生成モデルに関し、及び/又は、このような生成モデルを特徴付け、生成モデルを訓練するための方法に関する。
【0129】
いくつかの例示的な実施形態においては、各実施形態による原理は、例えば、限定するものではないが、a)データ分析、例えばデジタル画像及び/又はビデオデータの分析、b)デジタル画像データを分類すること、c)データ内のオブジェクトの存在を検出すること、d)限定するものではないが、例えばセマンティックセグメンテーションタスクにおいて見られるd1)交通標識、d2)路面、d3)歩行者、d4)車両、d5)オブジェクトクラス、例えば樹木、空等のうちの少なくとも1つに関するデータに基づいてセマンティックセグメーションを実施することのうちの少なくとも1つのために使用可能である。
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17A
図17B
図18
図19
図20
【手続補正書】
【提出日】2023-12-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
デジタル画像データを処理する方法、例えばコンピュータ実装された方法であって、
前記方法は、
第1のデジタル画像(x1)を、敵対的生成ネットワークGANシステム(10)の生成器(14;14a)に関連付けられた拡大された潜在空間(SP-W+)にマッピングするように構成されたエンコーダ(12;12a)によって、前記第1のデジタル画像(x1)に関連付けられたノイズ予測(PRED-NOISE-x1)を決定すること(100)と、
前記GANシステム(10)の前記生成器(14)によって、前記第1のデジタル画像(x1)に関連付けられた前記ノイズ予測(PRED-NOISE-x1)と、前記拡大された潜在空間(SP-W+)に関連付けられた複数の潜在変数(LAT-VAR)とに基づいて、少なくとも1つのさらなるデジタル画像(x’)を決定すること(102)と、
を含む、方法。
【請求項2】
前記方法は、
前記複数の潜在変数(LAT-VAR)を、
a)例えば前記エンコーダ(12)を使用して、前記第1のデジタル画像(x1)とは異なる第2のデジタル画像(x2)、
b)複数の確率分布(DISTR)
のうちの少なくとも1つに基づいて決定すること(110)
を含む、
請求項1に記載の方法。
【請求項3】
前記拡大された潜在空間(SP-W+)に関連付けられた前記複数の潜在変数(LAT-VAR)のうちの少なくともいくつかは、前記第1のデジタル画像(x1)の以下の態様、すなわち、
a)スタイル、例えば非意味論的な外観、
b)テクスチャ、
c)色
のうちの少なくとも1つを特徴付ける、
請求項に記載の方法。
【請求項4】
前記方法は、
a)前記第1のデジタル画像(x1)に基づいて、複数の、例えば階層的な特徴マップ(FM)を決定すること(120)、
b)前記複数の、例えば階層的な特徴マップ(FM)に基づいて、前記第1のデジタル画像(x1)に関する前記拡大された潜在空間(SP-W+)に関連付けられた複数の潜在変数(LAT-VAR-x1)を決定すること(122)、
c)前記複数の、例えば階層的な特徴マップ(FM)のうちの少なくとも1つに基づいて、例えば加法性のノイズマップ(NOISE-MAP)を決定すること(124)
のうちの少なくとも1つを含む、
請求項に記載の方法。
【請求項5】
前記方法は、
前記第1のデジタル画像(x1)に関連付けられた前記ノイズ予測(PRED-NOISE-x1)の少なくとも一部をランダム及び/又は擬似ランダムにマスキングすること(130)
を含む、
請求項に記載の方法。
【請求項6】
前記方法は、
前記ノイズマップ(NOISE-MAP)を、例えばランダム及び/又は擬似ランダムにマスキングすること(132)
を含む、
請求項に記載の方法。
【請求項7】
前記方法は、
前記ノイズマップ(NOISE-MAP;ε)を複数の、例えばP×P個の、例えば重なり合っていないパッチ(PATCH)に分割すること(132a)、例えば空間的に分割することと、
前記複数のパッチ(PATCH)の部分集合(PATCH-SUB)をランダム及び/又は擬似ランダムに選択すること(132b)と、
前記複数のパッチ(PATCH)の前記部分集合(PATCH-SUB)を、例えば同等のサイズの、例えば単位ガウス分布のランダム変数のパッチ(PATCH-RND)によって置き換えること(132c)と、
を含む、
請求項6に記載の方法。
【請求項8】
前記方法は、
前記第1のデジタル画像(x1)に関連付けられた前記ノイズ予測(PRED-NOISE-x1)を、第2のデジタル画像(x2)又は前記第2のデジタル画像(x2)のスタイル予測(PRED-STYLE-x2)と組み合わせること(140)と、
組み合わせられた、前記第1のデジタル画像(x1)に関連付けられたノイズ予測(PRED-NOISE-x1)と、前記第2のデジタル画像(x2)のスタイル予測(PRED-STYLE-x2)とに基づいて、前記生成器(14a)を使用してさらなるデジタル画像(x12)を生成すること(142)と、
を含む、
請求項に記載の方法。
【請求項9】
前記方法は、
前記第1のデジタル画像(x1)に関連付けられたノイズ予測(PRED-NOISE-x1)を提供すること(150)と、
前記第1のデジタル画像(x1)の内容、例えば意味論的な内容に適用されるべき種々異なるスタイルを特徴付ける種々異なる潜在変数の集合(SET-LAT-VAR)を提供すること(152)と、
前記第1のデジタル画像(x1)に関連付けられた前記ノイズ予測(PRED-NOISE-x1)と、前記種々異なるスタイルを特徴付ける前記種々異なる潜在変数の集合(SET-LAT-VAR)とに基づいて、前記生成器(14b)を使用して、種々異なるスタイルを有する複数のデジタル画像(PLUR-x)を生成すること(154)と、
を含む、
請求項に記載の方法。
【請求項10】
前記方法は、
例えば第1のドメイン(DOM-1)に関連付けられた1つ又は複数のデジタル画像が含まれる画像データ(IMG-DAT-DOM-1)を提供すること(160)と、
例えば第2のドメイン(DOM-2)に関連付けられた1つ又は複数のデジタル画像が含まれる画像データ(IMG-DAT-DOM-2)を提供すること(162)と、
前記第1のドメイン(DOM-1)に関連付けられた前記画像データ(IM-DAT-DOM-1)に前記第2のドメイン(DOM-2)のスタイル(STYLE-2)を適用すること(164)と、
を含む、
請求項に記載の方法。
【請求項11】
前記第1のドメイン(DOM-1)に関連付けられた前記画像データ(IMG-DAT-DOM-1)は、ラベル(LAB)を含み、
例えば、前記第1のドメイン(DOM-1)に関連付けられた前記画像データ(IM-DAT-DOM-1)に前記第2のドメイン(DOM-2)の前記スタイル(STYLE-2)を適用すること(164)は、前記ラベル(LAB)を保存すること(164a)を含む、
請求項10に記載の方法。
【請求項12】
前記方法は、
第1の内容情報(I-CONT-1)を有する第1の画像データ(IMG-DAT-1)を提供すること(170)と、
例えば前記第1の内容情報(I-CONT-1)とは異なる第2の内容情報(I-CONT-2)が含まれる第2の画像データ(IMG-DAT-2)を提供すること(172)と、
前記第2の画像データ(IMG-DAT-2)のスタイル情報(I-STYLE-2)を抽出すること(174)と、
前記第1の画像データ(IMG-DAT-1)に前記第2の画像データ(IMG-DAT-2)の前記スタイル情報(I-STYLE-2)の少なくとも一部を適用すること(176)と、
を含む、
請求項に記載の方法。
【請求項13】
前記方法は、
例えば少なくとも1つのニューラルネットワークシステム(NNS)を訓練するための訓練データ(TRAIN-DAT)を生成すること(180)
を含み、
前記生成すること(180)は、例えばソースドメインの画像データ(IMG-DAT-SRC)と、前記ソースドメインの修正された画像データ(IMG-DAT-SRC’)とに基づいており、
例えば前記修正された画像データ(IMG-DAT-SRC’)は、画像スタイルに関して、例えばさらなる画像データ(IMG-DAT’)のスタイルに基づいて修正され及び/又は修正されている、
請求項に記載の方法。
【請求項14】
前記方法は、
前記訓練データ(TRAIN-DAT)に基づいて前記少なくとも1つのニューラルネットワークシステム(NNS)を訓練すること(182)
を含む、
請求項13に記載の方法。
【請求項15】
請求項に記載の方法を実施するための装置(200)。
【請求項16】
コンピュータプログラム(PRG;PRG’)であって、当該コンピュータプログラム(PRG;PRG’)がコンピュータ(202)によって実行された場合に、請求項に記載の方法を前記コンピュータ(202)に実施させるための命令を含むコンピュータプログラム(PRG;PRG’)。
【請求項17】
請求項16に記載のコンピュータプログラム(PRG;PRG’)を記憶しているコンピュータ可読記憶媒体(SM)。
【請求項18】
請求項に記載の方法の又は、
請求項15に記載の装置(200)の又は、
請求項16に記載のコンピュータプログラム(PRG;PRG’)の又は、
請求項17に記載のコンピュータ可読記憶媒体(SM)の
以下のことのうちの少なくとも1つのための使用(300)であって、すなわち、
a)第1のデジタル画像(x1)に関連付けられたノイズ予測(PRED-NOISE-x1)と、拡大された潜在空間(SP-W+)に関連付けられた複数の潜在変数(LAT-VAR)とに基づいて、少なくとも1つのさらなるデジタル画像(x’)を決定すること(301)であって、前記複数の潜在変数(LAT-VAR)のうちの少なくともいくつかは、前記第1のデジタル画像(x1)とは異なる別の画像及び/又は他のデータに関連付けられている、こと(301)、
b)例えば前記第1のデジタル画像の内容を保存しながら、第2のデジタル画像からのスタイルを前記第1のデジタル画像に転移させること(302)、
c)少なくとも1つのデジタル画像のスタイルと内容とを分離すること(303)、
d)例えば前記第1のデジタル画像と、少なくとも1つのさらなるデジタル画像、例えば第2のデジタル画像のスタイルとに基づいて、変更されていない内容を有し、かつ、異なるようにスタイル付けされたデジタル画像を作成すること(304)、
e)ラベル付けされた注釈を、スタイル付けされた画像のために使用すること、例えば再利用すること(305)、
f)少なくとも1つのデジタル画像のスタイルを変化させる際に、注釈付け作業を回避すること(306)、
g)例えば種々異なるスタイルを有する、例えば知覚的に現実的なデジタル画像を生成すること(307)、
h)例えばニューラルネットワークシステムの分布外の汎化をテストするために、代理の妥当性確認集合を提供すること(308)、
i)機械学習システムを訓練すること(309)、
j)機械学習システムをテストすること(310)、
k)機械学習システムを検証すること(311)、
l)機械学習システムを妥当性確認すること(312)、
m)例えば機械学習システムのための訓練データを生成すること(313)、
n)例えば既存の画像データのデータ拡張(314)、
o)機械学習システムの汎化性能を改善すること(315)、
p)例えば複数のデータ集合に関連付けられた訓練なしで、画像スタイルを操作すること、例えば柔軟に操作すること(316)、
q)画像スタイルを操作するためにエンコーダGANパイプラインを利用すること(317)、
r)前記エンコーダ(12)によって、画像スタイルに関連付けられた情報を、例えば中間の潜在変数に埋め込むこと(318)、
s)複数のデジタル画像のスタイルを混合して、この混合に基づくスタイルが含まれる少なくとも1つのさらなるデジタル画像を生成すること(319)
のうちの少なくとも1つのための使用(300)。
【外国語明細書】