IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特開2024-147525拡散モデルについての特定の等価性のトレーニング
<>
  • 特開-拡散モデルについての特定の等価性のトレーニング 図1
  • 特開-拡散モデルについての特定の等価性のトレーニング 図2
  • 特開-拡散モデルについての特定の等価性のトレーニング 図3
  • 特開-拡散モデルについての特定の等価性のトレーニング 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024147525
(43)【公開日】2024-10-16
(54)【発明の名称】拡散モデルについての特定の等価性のトレーニング
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241008BHJP
【FI】
G06T7/00 350C
G06T7/00 650A
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024059380
(22)【出願日】2024-04-02
(31)【優先権主張番号】23166387
(32)【優先日】2023-04-03
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】アンナ コレヴァ
(72)【発明者】
【氏名】ニキータ キスター
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA04
5L096DA01
5L096EA05
5L096EA37
5L096FA02
5L096FA69
5L096HA11
5L096JA11
5L096KA04
5L096MA03
(57)【要約】      (修正有)
【課題】ノイズを含む入力画像からノイズ除去された出力画像を生成する拡散モデルをトレーニングする方法及びトレーニング済み拡散モデルを用いて画像を編集する方法を提供する。
【解決手段】トレーニング方法(100)は、ノイズトレーニングサンプルεを提供(110)し、トレーニング画像xを提供(120)し、少なくとも1つの画像Iを変換画像T(I)へとマッピングする変換Tを提供(130)し、各ノイズサンプルεを1つ又は複数のトレーニング画像xに適用してノイズを有する画像xを取得(140)し、変換Tを適用して拡散モデル(1)のための入力i=T(x)を取得(150)し、少なくとも変換T及びノイズサンプルεに基づいて、拡散モデル(1)の予測出力oを計算(170)し、所定の損失関数Lを用いて、拡散モデル(1)の挙動を特徴付けるパラメータ(1a)を最適化(190)する。
【選択図】図1
【特許請求の範囲】
【請求項1】
少なくとも1つのノイズサンプルεを含む入力画像iから、ノイズ除去された出力画像oを生成するように構成された拡散モデル(1)をトレーニングするための方法(100)であって、
・ノイズトレーニングサンプルεを提供するステップ(110)と、
・トレーニング画像xを提供するステップ(120)と、
・前記拡散モデル(1)を等価とすべき少なくとも1つの変換Tを提供するステップ(130)であって、前記変換Tは、画像Iを変換画像T(I)へとマッピングするものである、ステップ(130)と、
・各ノイズサンプルεを1つ又は複数のトレーニング画像xに適用するステップ(140)であって、これにより、ノイズを有する画像xを取得する、ステップ(140)と、
・前記ノイズを有する画像xに対して、及び/又は、前記ノイズを有する画像xが形成される前の前記ノイズサンプルεに対して、前記変換Tを適用するステップ(150)であって、これにより、トレーニングされるべき拡散モデル(1)のための入力i=T(x)を取得する、ステップ(150)と、
・前記トレーニングされるべき拡散モデル(1)により、前記入力iから出力oを生成するステップ(160)と、
・少なくとも前記変換T及び前記ノイズサンプルεに基づいて、予測出力oを計算するステップ(170)と、
・所定の損失関数Lを用いて、前記予測出力oからの前記出力oの偏差を評価するステップ(180)と、
・さらなるノイズトレーニングサンプルεが処理されるときに損失関数Lの値が改善されるという目標へ向かって、前記拡散モデル(1)の挙動を特徴付けるパラメータ(1a)を最適化するステップ(190)と、
を含む方法(100)。
【請求項2】
前記変換Tを前記ノイズサンプルεに適用するステップ(171)であって、これにより、予測出力oとして、変換されたノイズサンプルT(ε)を取得する、ステップ(171)をさらに含む、
請求項1に記載の方法(100)。
【請求項3】
前記変換Tは、
・変換されるべき画像Iを水平方向に又は垂直方向にフリップすること、
・変換されるべき画像Iを回転させること、
・変換されるべき画像Iをスケーリングすること、及び、
・変換されるべき画像I内の特定の関心領域に少なくとも1つの編集ステップを選択的に適用すること
のうちの1つ又は複数を含む(131)、
請求項1又は2に記載の方法(100)。
【請求項4】
前記編集ステップは、
・前記関心領域の内容を、前記変換されるべき画像I内の他の位置へ移動させること、及び、
・オプティカルフロー場を前記関心領域に適用すること
のうちの1つ又は複数を含む(131a)、
請求項3に記載の方法(100)。
【請求項5】
前記損失関数Lは、前記ノイズサンプルεからの前記出力oの偏差も測定する(181)、
請求項1乃至4のいずれか一項に記載の方法(100)。
【請求項6】
前記トレーニングの間に、前記損失関数Lにおいて、
・一方の、前記予測出力oからの前記出力oの偏差と
・他方の、前記ノイズサンプルεからの出力oの偏差と
の間の重みがアニーリングスケジュールに従って変化させられる(182)、
請求項5に記載の方法(100)。
【請求項7】
前記アニーリングスケジュールは、前記予測出力oからの前記出力oの偏差へ向かって重みを徐々にシフトさせることを含む(182a)、
請求項6に記載の方法(100)。
【請求項8】
少なくとも1つの画像Xを編集するための方法(200)であって、
・トレーニング済み拡散モデル(1)、及び、画像Iを変換画像T(I)へとマッピングする変換Tを提供するステップ(210)であって、前記トレーニング済み拡散モデル(1)は、前記変換Tに関して等価である、ステップ(210)と、
・所与の分布からノイズサンプルεをランダムに引き出すステップ(220)と、
・前記ノイズサンプルεを前記画像Xに適用するステップ(230)であって、これにより、ノイズを有する画像Xを取得する、ステップ(230)と、
・前記ノイズを有する画像Xに対して、及び/又は、前記ノイズを有する画像Xが形成される前の前記ノイズサンプルεに対して、前記変換Tを適用するステップ(240)であって、これにより、前記トレーニング済み拡散モデル(1)のための入力iを取得する、ステップ(240)と、
・前記拡散モデル(1)により、前記入力iから、編集の結果として出力oを生成するステップ(250)と、
を含む方法(200)。
【請求項9】
前記ノイズサンプルεは、最大でも、所与の基準に従って、前記ノイズを有する画像Xにおいて所与の内容を認識可能なままとする強度で、前記画像Xに適用される(231)、
請求項8に記載の方法(200)。
【請求項10】
前記画像Xは、道路交通状況を含み(205)、
前記変換Tは、前記道路交通状況における少なくとも1つの物体の再配置を含む(211)、
請求項8又は9に記載の方法(200)。
【請求項11】
・前記画像Xは、画像間の少なくとも1つの物体の動きを含む画像シーケンスから取得され(206)、
・前記変換Tは、前記ノイズを有する画像X又はその一部に前記動きを適用することを含む(212)、
請求項8乃至10のいずれか一項に記載の方法(200)。
【請求項12】
・前記画像X及び前記変換Tに関して既知であるグラウンドトゥルースラベルGから、トレーニングされるべきニューラルネットワーク(2)のタスクに関する出力oのためのグラウンドトゥルースラベルGを決定するステップ(260)と、
・前記出力o及び前記グラウンドトゥルースラベルGを使用して、教師あり形式で、前記トレーニングされるべきニューラルネットワーク(2)をトレーニングするステップ(270)と、
をさらに含む、
請求項8乃至11のいずれか一項に記載の方法(200)。
【請求項13】
1つ又は複数のコンピュータ及び/又はコンピューティングインスタンス上で実行されるときに、前記1つ又は複数のコンピュータ及び/又はコンピューティングインスタンスに請求項1乃至12のいずれか一項に記載の方法(100,200)を実施させるための機械可読命令を含むコンピュータプログラム。
【請求項14】
請求項13に記載のコンピュータプログラムを含む非一時的な機械可読データ担体及び/又はダウンロード製品。
【請求項15】
請求項13に記載のコンピュータプログラムを含む、及び/又は、請求項14に記載の機械可読データ担体及び/又はダウンロード製品を備える1つ又は複数のコンピュータ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ノイズを有する入力を現実に近い画像へと処理する拡散モデルに関する。
【背景技術】
【0002】
背景
画像分類器の教師あり形式におけるトレーニングには、「グラウンドトゥルース」でラベリングされた多数のトレーニング画像が必要である。トレーニング画像のラベリングは、多くの場合に手動のプロセスであるため、費用がかかる。また、いくつかの状況においては、トレーニング画像の数が少なすぎる。例えば、交通状況を処理する分類器のトレーニングのために、歩行者が関与する衝突寸前状況を安全にステージングすることは困難である。
【0003】
このため、多くのデータ拡張方法が探究されてきた。データ拡張とは、既知の意味論的内容ひいては既知の「グラウンドトゥルース」ラベルを有する所与の画像から、実質的に同等の内容を有する変更画像を生成することであり、これにより、既存の「グラウンドトゥルース」ラベルは変更画像に対して有効なままである。
【0004】
近年、拡散モデルに基づく画像生成器が登場してきている。こうした拡散モデルは、ノイズを有する入力を取り込み、複数の段階においてノイズを除去して、現実に近い画像を生成する。ここでの入力は、拡散モデルに何らかのガイダンスを与えるためにノイズが付加された、現実に近い画像であり得るが、最終出力の意味論的内容についての制御は、依然として制限されている。
【発明の概要】
【課題を解決するための手段】
【0005】
発明の開示
本発明は、拡散モデルをトレーニングするための方法を提供する。当該拡散モデルは、少なくとも1つのノイズサンプルεを含む入力画像iから、ノイズ除去された出力画像oを生成するように構成されている。特に、入力画像iがノイズサンプルεのみから成ることもある。しかし、入力画像iは、例えば、任意の画像とノイズサンプルεとのスーパーインポーズ(例えば加法的スーパーインポーズ)であるものとしてもよい。特に、このようなスーパーインポーズは、任意の画像内の情報を漸進的に消去するいくつかの段階から成るマルコフ連鎖において実行可能である。
【0006】
当該方法の過程において、ノイズトレーニングサンプルεが提供される。例えば、これらのノイズサンプルεは、所与の分布からランダムに引き出すことができる。また、トレーニング画像xも提供される。
【0007】
少なくとも1つの変換Tに関して拡散モデルを等価とすることがここでのトレーニングの目的である。したがって、次のような変換Tが提供される。変換Tは、画像Iを取り込み、これを変換画像へとマッピングするものである。当該変換Tに関して拡散モデルが等価であるとは、変換Tが拡散モデルの入力iに適用される場合に、拡散モデルの出力oに生じる変化が予測可能であることを意味する。
【0008】
拡散モデルのトレーニングをこうした方向へと移行させるために、各ノイズサンプルεが1つ又は複数のトレーニング画像xに適用され、これにより、ノイズを有する画像xが取得される。前述したように、これはいくつかの段階において徐々に行われ得る。
【0009】
次いで、変換Tがノイズを有する画像xに適用される。これにより、トレーニングされるべき拡散モデルのための入力i=T(x)が生成される。当該入力から、トレーニングされるべき拡散モデルが出力oを生成する。ノイズεの付与と同様に、ここでのノイズの除去も、複数の段階から成るマルコフ連鎖において実行可能である。これに代えて又はこれに組み合わせて、変換Tがトレーニング画像xに適用されてノイズを有する画像xが形成される前に、変換Tをノイズサンプルεに適用することもできる。簡単化のために、2つのケースの双方において、変換の結果を、ノイズを有する画像xの変換T(x)であるとみなす。
【0010】
変換T及びノイズサンプルεに基づいて、トレーニングされるべき拡散モデルの予測出力oが計算される。当該予測出力oは、トレーニングされるべき拡散モデルの入力iへの変換Tの適用によってこの拡散モデルの出力oに生じるはずの予測可能な変化を表現している。
【0011】
予測出力oからの出力oの偏差が、所定の損失関数Lによって評価される。トレーニングされるべき拡散モデルの挙動を特徴付けるパラメータは、さらなるノイズトレーニングサンプルεが処理されるときに損失関数Lの値が改善されるという目標へ向かって最適化される。
【0012】
このように、拡散モデルは、入力iへの変換Tの適用によってその出力oに予測可能な変化が生じるという目的へ向かってトレーニングされる。このことにより、さらには、適当な変換Tを使用して、出力oに所望の変化を生じさせるために、入力iに対する意図的な編集を行うことができる。この点に関して、入力空間iは、畳み込みニューラルネットワークが画像から生成する特徴マップにある程度類似した、編集を行うために適した潜在空間であるとみなすことができる。主な相違点は、現在の潜在空間が出力画像oの空間に対してピクセルアライメントされていることである。特に、拡散モデルは、出力画像oに対する所望の変更を行うための「ツールボックス」を形成する複数の変換Tに関して等価となるようにトレーニングされ得る。
【0013】
ピクセルアライメント潜在変数iは、所与の画像内の特定の領域をリサンプリング可能にすることにより、細粒度の画像制御を可能にする能力を有する。所定の変換Tを使用する編集に関する等価性によって、例えば、潜在変数iの局所的なリサンプリングが出力oにおけるアピアランスの局所的な変化をもたらすように強制することができる。同様に、周囲の特定の物体に対応して局所的なセグメントを移動させる場合にも、その物体の位置は変更されるが、その物体のアピアランスは保持されなければならない。
【0014】
特に有利な実施形態においては、損失関数Lは、ノイズサンプルεからの出力oの偏差も測定する。ノイズサンプルεの予測は、拡散モデルをトレーニングするための標準的な目的である。これと組み合わせて、新たに導入される等価性の目的は、正則化項である。すなわち、変換Tが入力iに適用されない場合、拡散モデルは、トレーニング後に標準的な形式で正確に挙動するが、さらにこれに加えて変換Tが適用される場合には、出力oは、変換Tの性質を考慮して予測されるものとなる。
【0015】
損失関数Lにおいて、2つの目標の双方が任意の適当な形式で相互に対して重み付け可能となる。特に、トレーニングの間に、
・一方の、予測出力oからの出力oの偏差と
・他方の、ノイズサンプルεからの出力oの偏差と
の間の重みをアニーリングスケジュールに従って変化させることができる。このようにして、2つの目的へ向かっての収束を容易にすることができる。
【0016】
一例においては、アニーリングスケジュールは、予測出力oからの出力oの偏差へ向かって重みを徐々にシフトさせることを含む。すなわち、トレーニングの開始時には、拡散モデルの挙動が標準挙動に適合すること、すなわち、ノイズサンプルεが正確に予測されることが、より重要である。この点に関して、トレーニングが進行していくと、等価性の目的を徐々に導入することができる。
【0017】
特に有利な実施形態においては、変換Tがノイズサンプルεに適用され、これにより、予測出力oとして、変換されたノイズサンプルT(ε)が取得される。このようにして、拡散ネットワークは、変換Tによる入力iの変更が対応する出力oの変更を生じさせるという等価性へ向かってトレーニングされる。
【0018】
ターゲット画像の編集のために使用可能な変換Tの例には、
・変換されるべき画像Iを水平方向に又は垂直方向にフリップすること、
・変換されるべき画像Iを回転させること、
・変換されるべき画像Iをスケーリングすること、及び、
・変換されるべき画像I内の特定の関心領域に少なくとも1つの編集ステップを選択的に適用すること、
が含まれる。
【0019】
特に後者の場合、拡散モデルの入力iと出力oとの間のピクセルアライメントが有利である。
【0020】
さらに特に有利な一実施形態においては、適用される編集ステップは、
・関心領域の内容を、変換されるべき画像I内の他の位置へ移動させること、及び、
・オプティカルフロー場を関心領域に適用すること、
のうちの1つ又は複数を選択的に含む。
【0021】
こうした編集ステップは、依然として同等の意味論的内容を有する画像の変形を生成することにとって最も有用であり、これは、オリジナルの画像に割り当てられた「グラウンドトゥルース(ground truth)」ラベルが新たな画像においても依然として有効であることを意味する。例えば、物体に対応する領域の内容が画像内の他の位置へ移動された場合、この画像には依然として同一の物体が含まれる。また、物体に対応する領域にオプティカルフロー場を適用することによって、物体のアピアランス(例えば顔など)は変化し得るが、物体は依然として同一のままとなる。特に、オプティカルフロー場の適用は、画像内の人物の見かけの姿勢を変化させることに役立ち得る。等価性のためのトレーニングが行われない場合、顔の入力画像とノイズεとがスーパーインポーズされて、顔のデータセットにつきトレーニングされた拡散モデルのための入力iを形成するために、顔に対応する領域が異なる位置へと変換されると(又はオプティカルフロー場の適用によって歪みが与えられると)、拡散モデルの出力oが全く異なった顔を示す可能性がある。
【0022】
したがって、本発明は、少なくとも1つの画像Xを編集するための方法も提供する。
【0023】
当該方法の過程においては、トレーニング済み拡散モデルが、画像Iを変換画像T(I)へとマッピングする変換Tと共に提供される。当該トレーニング済み拡散モデルは、変換Tに関して等価である。特に、トレーニング済み拡散モデルは、上述した方法に従ってトレーニングされたものである。
【0024】
ノイズサンプルεは所与の分布からランダムに引き出される。当該ノイズサンプルを画像Xに適用することにより、ノイズを有する画像Xが取得される。
【0025】
変換Tが、ノイズを有する画像Xに適用される。これにより、トレーニング済み拡散モデルのための入力iが生成される。これに代えて又はこれに組み合わせて、変換Tが画像Xに適用されてノイズを有する画像Xが形成される前に、変換Tを同様にノイズサンプルεに適用することもできる。簡単化のために、2つのケースの双方において、変換の結果を、ノイズを有する画像xの変換T(x)であるとみなし、トレーニング済み拡散モデルのための入力iとして使用する。
【0026】
当該入力iから、トレーニング済み拡散モデルが、編集の結果として、出力oを生成する。
【0027】
上述したように、トレーニング済み拡散モデルに関して既知の等価性を有する変換Tを適用することによって、編集において、画像Xの意味論的内容についての制御可能な作用が生じる。特に、変換Tは、画像Xの意味論的内容を変更しないままとするように、又は、当該意味論的内容に対して明確に定義された変更を適用するように、選択可能である。
【0028】
特に有利な一実施形態においては、ノイズサンプルεは、最大でも、所与の基準に従って、ノイズを有する画像Xにおいて所与の内容を認識可能なままとする強度で、画像Xに適用される。このようにすることにより、拡散ネットワークは、オリジナルの画像Xの意味論的内容をより多く保持するように促される。
【0029】
さらに特に有利な一実施形態においては、画像Xが道路交通状況を含み、変換Tが、当該道路交通状況における少なくとも1つの物体の再配置を含む。このようにすることによって、稀にしか発生しない道路交通状況、及び/又は、きわめて困難若しくはきわめて危険であるためにステージングすることができない道路交通状況につき、現実に近い外観の画像を作成することができる。例えば、変換Tを、ノイズを有する画像Xに適用することにより、オリジナルの画像Xにおいては道路わきの歩道を適当に歩いている歩行者を、接近する車両の前方へ移動させることができる。これは、公共道路交通においてはステージングすることができないきわめて危険な状況である。それにもかかわらず、道路交通状況に関する画像分類器をトレーニングするにはこのような状況のトレーニング画像が必要であり、これにより、トレーニングされた画像分類器はこれらを正しく認識することができる。
【0030】
さらに有利な一実施形態においては、画像Xが、画像間の少なくとも1つの物体の動きを含む画像シーケンスから取得され、変換Tは、ノイズを有する画像X又はその一部に上記の動きを適用することを含む。このようにすることにより、画像シーケンスから抽出された動きを、画像Xのそれ以外の意味論的内容の完全性を保持したまま、画像Xから生成された出力画像oへ転移させることができる。例えば、オリジナル画像Xにおけるのと同様に動く異なる物体又は変更された物体を示す出力画像oのシーケンスを生成することができる。この場合、当該シーケンスは時間一致したものとなる。すなわち、シーケンスの1つのフレームと次のフレームとの間の変化が当該動きによって説明可能となり、1つの物体が突然に他の物体によって置き換えられるなど、突然かつ予期されない変化は生じない。
【0031】
前述したように、潜在空間での変換Tを用いた画像編集の利点は、画像の意味論的内容が変更されるかどうか、またどのように変更されるかについての良好な制御が行われることである。オリジナル画像Xがニューラルネットワークのトレーニングに関してグラウンドトゥルースラベルでラベリングされている場合、既知の等価性により、出力画像oのためのグラウンドトゥルースラベルを決定することができる。したがって、さらに特に有利な一実施形態においては、方法はさらに、
・画像X及び変換Tに関して既知であるグラウンドトゥルースラベルGから、トレーニングされるべきニューラルネットワークのタスクに関する出力oのためのグラウンドトゥルースラベルGを決定するステップと、
・出力o及びグラウンドトゥルースラベルGを使用して、教師あり形式で、トレーニングされるべきニューラルネットワークをトレーニングするステップと、
を含む。
【0032】
特に、トレーニングされるべきニューラルネットワークは、画像分類器であるものとしてよい。このような画像分類器の、観測されていない状況への一般化を行う能力は、トレーニング画像のデータセットにおける十分なばらつきに依存する。
【0033】
方法は、全体的に又は部分的にコンピュータ実装され、ソフトウェアにおいて実現可能である。したがって、本発明は、1つ又は複数のコンピュータ及び/又はコンピューティングインスタンスによって実行されるときに、1つ又は複数のコンピュータ及び/又はコンピューティングインスタンスに方法を実施させるための機械可読命令を含むコンピュータプログラムにも関する。本明細書においては、機械可読命令を実行可能である、車両又はロボットのための制御ユニット、及び、他の組み込み型システムも、同様にコンピュータとみなすものとする。コンピューティングインスタンスは、クラウド内における機械可読命令の実行を可能にする仮想マシン、コンテナ又は他の実行環境を含む。
【0034】
非一時的な記憶媒体及び/又はダウンロード製品は、コンピュータプログラムを含み得る。ダウンロード製品は、オンラインで販売可能な電子製品であり、迅速な供給のためにネットワークを介して転送可能である。1つ又は複数のコンピュータ及び/又はコンピューティングインスタンスは、上記のコンピュータプログラム及び/又は上記の非一時的な記憶媒体及び/又はダウンロード製品を備えるものとしてよい。
【0035】
以下に、図面を使用して、本発明の範囲を限定するいかなる意図もなしに、本発明について説明する。
【図面の簡単な説明】
【0036】
図1】少なくとも1つのノイズサンプルεを含む入力画像iからノイズ除去された出力画像oを生成するように構成された拡散モデル1をトレーニングするための方法100の例示的な実施形態を示す図である。
図2】少なくとも1つの画像Xを編集するための方法200の例示的な実施形態を示す図である。
図3】ノイズサンプルεをフリップする変換Tのための方法200の効果を例示する図である。
図4】潜在画像領域を移動させる変換Tのための方法200の効果を例示する図である。
【発明を実施するための形態】
【0037】
図1は、拡散モデル1をトレーニングするための方法100の一実施形態の概略的なフローチャートである。拡散モデル1は、少なくとも1つのノイズサンプルεを含む入力画像iからノイズ除去された出力画像oを生成するように構成されている。
【0038】
ステップ110において、ノイズトレーニングサンプルεが提供される。
【0039】
ステップ120においては、トレーニング画像xが提供される。
【0040】
ステップ130においては、画像Iを変換画像T(I)へとマッピングする少なくとも1つの変換Tが提供される。当該変換Tに関して拡散モデル1を等価とすることがここでのトレーニングの目的である。
【0041】
ブロック131によれば、変換Tは、
・変換されるべき画像Iを水平方向に又は垂直方向にフリップすること、
・変換されるべき画像Iを回転させること、
・変換されるべき画像Iをスケーリングすること、及び、
・変換されるべき画像I内の特定の関心領域に少なくとも1つの編集ステップを選択的に適用すること、
のうちの1つ又は複数を含み得る。
【0042】
ブロック131aによれば、編集ステップは、
・関心領域の内容を、変換されるべき画像I内の他の位置へ移動させること、及び、
・オプティカルフロー場を関心領域に適用すること、
のうちの1つ又は複数を含み得る。
【0043】
ステップ140において、各ノイズサンプルεが1つ又は複数のトレーニング画像xに適用される。これが行われるたびに、ノイズを有する画像xが生成される。
【0044】
ステップ150においては、変換Tがノイズを有する画像xに適用される。これにより、トレーニングされるべき拡散モデル1のための入力i=T(x)が生成される。これに代えて又はこれに組み合わせて、変換Tがトレーニング画像xに適用されてノイズを有する画像xが形成される前に、変換Tをノイズサンプルεに適用することもできる。簡単化のために、2つのケースの双方において、変換の結果を、ノイズを有する画像xの変換T(x)であるとみなす。
【0045】
ステップ160においては、トレーニングされるべき拡散モデルにより、入力iから出力oが生成される。
【0046】
ステップ170においては、少なくとも変換T及びノイズサンプルεに基づいて、予測出力oが計算される。
【0047】
ブロック171によれば、変換Tをノイズサンプルεに適用することによって、予測出力oを決定することができる。
【0048】
ステップ180においては、所定の損失関数Lにより、予測出力oからの出力oの偏差が評価される。
【0049】
ブロック181によれば、損失関数Lから、拡散モデル1のための標準損失として、ノイズサンプルεからの出力oの偏差を測定することもできる。
【0050】
ブロック182によれば、損失関数Lにおいて、
・一方の、予測出力oからの出力oの偏差と
・他方の、ノイズサンプルεからの出力oの偏差と
の間の重みを、アニーリングスケジュールに従って変化させることができる。
【0051】
ステップ190においては、さらなるノイズトレーニングサンプルεが処理されるときに損失関数Lの値が改善されるという目標へ向かって、拡散モデル1の挙動を特徴付けるパラメータ1aが最適化される。パラメータ1aの最適化状態には参照符号1aが付されている。最適化されたパラメータ1aは、拡散モデル1のトレーニング済み状態1を規定する。
【0052】
図2は、少なくとも1つの画像Xを編集するための方法200の一実施形態の概略的なフローチャートである。
【0053】
ステップ210において、トレーニング済み拡散モデル1及び変換Tが提供される。変換Tは、画像Iを変換画像T(I)へとマッピングするものである。トレーニング済み拡散モデル1は、変換Tに関して等価である。
【0054】
ブロック205によれば、画像Xは道路交通状況を含むものであり得る。ブロック211によれば、変換Tは、この場合、道路交通状況における少なくとも1つの物体の再配置を含むものであり得る。
【0055】
ブロック206によれば、画像Xは、画像間の少なくとも1つの物体の動きを含む画像シーケンスから取得可能である。次に、ブロック212によれば、変換Tは、ここでの動きを、ノイズを有する画像X又はその一部に適用することを含み得る。
【0056】
ステップ220においては、ノイズサンプルεが所与の分布からランダムに引き出される。
【0057】
ステップ230においては、ノイズサンプルεが画像Xに適用され、これにより、ノイズを有する画像Xが取得される。
【0058】
ブロック231によれば、ノイズサンプルεは、最大でも、所与の基準に従って、ノイズを有する画像Xにおいて所与の内容を認識可能なままとする強度で、画像Xに適用可能である。
【0059】
ステップ240においては、変換Tがノイズを有する画像Xに適用される。これにより、トレーニング済み拡散モデル1のための入力iが生成される。これに代えて又はこれに組み合わせて、変換Tが画像Xに適用されてノイズを有する画像Xが形成される前に、変換Tをノイズサンプルεに適用することもできる。
【0060】
ステップ250においては、トレーニング済み拡散モデル1により、編集の結果として、入力iから出力oが生成される。
【0061】
ステップ260においては、画像X及び変換Tに関して既知であるグラウンドトゥルースラベルGから、トレーニングされるべきニューラルネットワーク2のタスクに関する出力oのためのグラウンドトゥルースラベルGが決定される。
【0062】
ステップ270においては、出力o及びグラウンドトゥルースラベルGを使用して、トレーニングされるべきニューラルネットワーク2が、教師あり形式でトレーニングされる。ニューラルネットワーク2のトレーニング済み状態には、参照符号2が付されている。
【0063】
図3には、変換Tがノイズサンプルεをフリップするアプリケーションにおいて方法200が有する効果が示されている。
【0064】
編集されるべき画像Xは、道路交通状況10の画像である。道路交通状況10は、道路11と、樹木12と、70km/hの制限速度標識13とを含む。
【0065】
図3に示されている例においては、ノイズサンプルεは、その左側でその右側よりも高い密度を有する。ここでのノイズサンプルεをそのまま画像Xに適用すると、拡散モデル1のための入力iとして、ノイズを有する画像Xが得られる。
【0066】
当該ノイズを有する画像Xが拡散モデル1によって処理されると、出力画像oが得られる。図3に示されている例においては、出力画像oにおいて樹木12のアピアランスがオリジナルの画像Xに比べて変化しているが、いまだ樹木として見えている。
【0067】
変換Tにより、ノイズサンプルεが水平方向にフリップされる。ここでの変更されたノイズサンプルがオリジナルの画像Xに適用されると、ノイズを有する画像X’が生じ、拡散モデル1のための別の入力i’となる。
【0068】
方法200において要求されているのとは異なって、拡散モデル1が変換Tに関して等価でない場合、拡散モデル1により入力i’から生成される出力o’は、入力iから生成される出力oとは大きく異なってくる。図3に示されている例においては、樹木12が突然変異して家14となり、制限速度標識13が突然変異して停止標識15となっている。
【0069】
対照的に、方法200において要求されているように拡散モデル1が(例えば方法100に従ったトレーニングによって提供可能である)上記の等価性を有している場合、出力画像o’における上記の劇的な意味論的変化は回避される。
【0070】
図4には、ノイズを有する画像X内の潜在画像領域を移動させる変換Tのための方法の効果が示されている。すなわち、図3に示されている例とは異なり、変換Tは、ここでは、ノイズを有する画像X上の潜在空間において作用し、オリジナルの画像Xの空間から潜在空間内へ進行させるために使用されるノイズサンプルεに対しては作用していない。
【0071】
図4に示されている例においては、編集されるべき画像Xは、スマートフォン21の写真20である。ノイズサンプルεを当該画像Xに適用することによって、ノイズを有する画像Xが形成される。変換Tは、オリジナルの画像Xにおいてスマートフォン21が見えている領域から、ノイズを有する画像Xの右下隅の同等のサイズの領域へと内容を移動させるものである。残余の領域のノイズは変更されず、内容のうち元の位置に生じた穴がランダムノイズで充填される。このようにして形成された変換画像T(X)が、拡散モデル1のための入力iとなる。
【0072】
方法200において要求されているのとは異なって、拡散モデル1が変換Tに関して等価でない場合、出力画像oにおいては、スマートフォン21の位置のみが意図される通りに変化するわけではない。むしろ、出力画像oにおいては、スマートフォン21でなく、スマートフォンの前世代の携帯電話機22が示されている。これは、重大な意味論的変化である。
【0073】
対照的に、方法200において要求されているように拡散モデル1が(例えば方法100に従ったトレーニングによって提供可能である)上記の等価性を有する場合、出力画像oにおける上記の劇的な意味論的変化は回避される。
図1
図2
図3
図4
【手続補正書】
【提出日】2024-06-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも1つのノイズサンプルεを含む入力画像iから、ノイズ除去された出力画像oを生成するように構成された拡散モデル(1)をトレーニングするための方法(100)であって、
・ノイズトレーニングサンプルεを提供するステップ(110)と、
・トレーニング画像xを提供するステップ(120)と、
・前記拡散モデル(1)を等価とすべき少なくとも1つの変換Tを提供するステップ(130)であって、前記変換Tは、画像Iを変換画像T(I)へとマッピングするものである、ステップ(130)と、
・各ノイズサンプルεを1つ又は複数のトレーニング画像xに適用するステップ(140)であって、これにより、ノイズを有する画像xを取得する、ステップ(140)と、
・前記ノイズを有する画像xに対して、及び/又は、前記ノイズを有する画像xが形成される前の前記ノイズサンプルεに対して、前記変換Tを適用するステップ(150)であって、これにより、トレーニングされるべき拡散モデル(1)のための入力i=T(x)を取得する、ステップ(150)と、
・前記トレーニングされるべき拡散モデル(1)により、前記入力iから出力oを生成するステップ(160)と、
・少なくとも前記変換T及び前記ノイズサンプルεに基づいて、予測出力oを計算するステップ(170)と、
・所定の損失関数Lを用いて、前記予測出力oからの前記出力oの偏差を評価するステップ(180)と、
・さらなるノイズトレーニングサンプルεが処理されるときに損失関数Lの値が改善されるという目標へ向かって、前記拡散モデル(1)の挙動を特徴付けるパラメータ(1a)を最適化するステップ(190)と、
を含む方法(100)。
【請求項2】
前記変換Tを前記ノイズサンプルεに適用するステップ(171)であって、これにより、予測出力oとして、変換されたノイズサンプルT(ε)を取得する、ステップ(171)をさらに含む、
請求項1に記載の方法(100)。
【請求項3】
前記変換Tは、
・変換されるべき画像Iを水平方向に又は垂直方向にフリップすること、
・変換されるべき画像Iを回転させること、
・変換されるべき画像Iをスケーリングすること、及び、
・変換されるべき画像I内の特定の関心領域に少なくとも1つの編集ステップを選択的に適用すること
のうちの1つ又は複数を含む(131)、
請求項に記載の方法(100)。
【請求項4】
前記編集ステップは、
・前記関心領域の内容を、前記変換されるべき画像I内の他の位置へ移動させること、及び、
・オプティカルフロー場を前記関心領域に適用すること
のうちの1つ又は複数を含む(131a)、
請求項3に記載の方法(100)。
【請求項5】
前記損失関数Lは、前記ノイズサンプルεからの前記出力oの偏差も測定する(181)、
請求項に記載の方法(100)。
【請求項6】
前記トレーニングの間に、前記損失関数Lにおいて、
・一方の、前記予測出力oからの前記出力oの偏差と
・他方の、前記ノイズサンプルεからの出力oの偏差と
の間の重みがアニーリングスケジュールに従って変化させられる(182)、
請求項5に記載の方法(100)。
【請求項7】
前記アニーリングスケジュールは、前記予測出力oからの前記出力oの偏差へ向かって重みを徐々にシフトさせることを含む(182a)、
請求項6に記載の方法(100)。
【請求項8】
少なくとも1つの画像Xを編集するための方法(200)であって、
・トレーニング済み拡散モデル(1)、及び、画像Iを変換画像T(I)へとマッピングする変換Tを提供するステップ(210)であって、前記トレーニング済み拡散モデル(1)は、前記変換Tに関して等価である、ステップ(210)と、
・所与の分布からノイズサンプルεをランダムに引き出すステップ(220)と、
・前記ノイズサンプルεを前記画像Xに適用するステップ(230)であって、これにより、ノイズを有する画像Xを取得する、ステップ(230)と、
・前記ノイズを有する画像Xに対して、及び/又は、前記ノイズを有する画像Xが形成される前の前記ノイズサンプルεに対して、前記変換Tを適用するステップ(240)であって、これにより、前記トレーニング済み拡散モデル(1)のための入力iを取得する、ステップ(240)と、
・前記拡散モデル(1)により、前記入力iから、編集の結果として出力oを生成するステップ(250)と、
を含む方法(200)。
【請求項9】
前記ノイズサンプルεは、最大でも、所与の基準に従って、前記ノイズを有する画像Xにおいて所与の内容を認識可能なままとする強度で、前記画像Xに適用される(231)、
請求項8に記載の方法(200)。
【請求項10】
前記画像Xは、道路交通状況を含み(205)、
前記変換Tは、前記道路交通状況における少なくとも1つの物体の再配置を含む(211)、
請求項に記載の方法(200)。
【請求項11】
・前記画像Xは、画像間の少なくとも1つの物体の動きを含む画像シーケンスから取得され(206)、
・前記変換Tは、前記ノイズを有する画像X又はその一部に前記動きを適用することを含む(212)、
請求項に記載の方法(200)。
【請求項12】
・前記画像X及び前記変換Tに関して既知であるグラウンドトゥルースラベルGから、トレーニングされるべきニューラルネットワーク(2)のタスクに関する出力oのためのグラウンドトゥルースラベルGを決定するステップ(260)と、
・前記出力o及び前記グラウンドトゥルースラベルGを使用して、教師あり形式で、前記トレーニングされるべきニューラルネットワーク(2)をトレーニングするステップ(270)と、
をさらに含む、
請求項に記載の方法(200)。
【請求項13】
1つ又は複数のコンピュータで実行されるときに、前記1つ又は複数のコンピュータ請求項に記載の方法(100を実施させるための機械可読命令を含むコンピュータプログラム。
【請求項14】
請求項13に記載のコンピュータプログラムを含む非一時的な機械可読データ担体
【請求項15】
請求項13に記載のコンピュータプログラムを含む又は、請求項14に記載の機械可読データ担体備える1つ又は複数のコンピュータ。
【外国語明細書】