(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-14
(54)【発明の名称】組み合わされた入力を使用して生成敵対的ネットワークを強化すること
(51)【国際特許分類】
G06N 3/094 20230101AFI20240806BHJP
【FI】
G06N3/094
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024500478
(86)(22)【出願日】2022-07-06
(85)【翻訳文提出日】2024-03-11
(86)【国際出願番号】 US2022073453
(87)【国際公開番号】W WO2023283570
(87)【国際公開日】2023-01-12
(32)【優先日】2021-07-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】516326438
【氏名又は名称】エックス デベロップメント エルエルシー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100126480
【氏名又は名称】佐藤 睦
(72)【発明者】
【氏名】コーワン,エリオット ジュリアン
(57)【要約】
【課題】 GANモデルの性能及び/又はトレーニング効率を改善することである。
【解決手段】 合成信号を生成するための、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、及び装置。コンピュータ実装システムが、1つ以上の第1の特性を有する入力信号を少なくとも含む生成器入力データを取得し、生成器ニューラルネットワークを使用して1つ以上の第2の特性を有する合成信号を含む出力データを生成するために生成器入力データを処理し、合成信号をデバイスに出力する。生成器ニューラルネットワークが、複数のトレーニング例に基づいて、弁別器ニューラルネットワークを用いてトレーニングされる。弁別器ニューラルネットワークが、1つ以上の第2の特性を有する弁別器入力信号を生成器入力データの少なくとも一部と組み合わせる弁別器入力データを処理して、弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供される実信号であるか合成信号であるかの予測を生成するように構成される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピュータによって実行される方法であって、
1つ以上の第1の特性を有する少なくとも1つの入力信号を含む生成器入力データを取得することと、
弁別器ニューラルネットワークを用いて、前記複数のトレーニング例に基づいて、トレーニングされた生成器ニューラルネットワークを使用して、1つ以上の第2の特性を有する合成信号を含む出力データを生成するために前記生成器入力データを処理することであって、前記弁別器ニューラルネットワークは、前記1つ以上の第2の特性を有する弁別器入力信号を生成器入力データの少なくとも一部と組み合わせて、前記弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供される実信号であるか、又は生成器ニューラルネットワークによって出力される合成信号であるか、の予測を生成する弁別器入力データを処理するように構成された、前記生成器入力データを処理することと、
前記合成信号をデバイスに出力することと、を含む、方法。
【請求項2】
前記入力信号が、第1の空間解像度を有する低解像度入力画像であり、
前記合成信号が、前記第1の空間解像度よりも高い第2の空間解像度を有する高解像度合成画像であり、
前記弁別器入力信号が、前記第2の空間解像度を有する高解像度画像である、請求項1に記載の方法。
【請求項3】
前記複数のトレーニング例を取得することであって、前記トレーニング例の各々が、前記第1の空間解像度を有する低解像度トレーニング画像と前記第2の空間解像度を有する高解像度トレーニング画像とを少なくとも含む、前記複数のトレーニング例を取得することと、
複数のトレーニング例の各々に基づいて、
前記トレーニング例に少なくとも前記低解像度トレーニング画像を含めることによって前記生成器ニューラルネットワークのためのトレーニング入力データを生成し、前記高解像度合成画像を含む前記出力データを生成するために前記生成器ニューラルネットワークを使用して前記トレーニング入力データを処理することと、
前記高解像度合成画像を前記生成器ニューラルネットワークのための前記トレーニング入力データの少なくとも一部と組み合わせることによって前記弁別器入力データの第1のインスタンスを生成し、前記弁別器ニューラルネットワークを使用して前記弁別器入力データの前記第1のインスタンスを処理して第1の予測を生成することと、
前記トレーニング例における前記高解像度トレーニング画像を前記生成器ニューラルネットワークのための前記トレーニング入力データの前記一部と組み合わせることによって前記弁別器入力データの第2のインスタンスを生成し、前記弁別器ニューラルネットワークを使用して前記弁別器入力データの前記第2のインスタンスを処理して第2の予測を生成することと、
前記弁別器ニューラルネットワークによって出力された前記予測と、前記弁別器入力データが前記トレーニング例中の前記高解像度トレーニング画像又は前記生成器ニューラルネットワークによって出力された前記高解像度合成画像を含むかどうかとの間の差を測定する第1の損失関数に基づいて、前記弁別器ニューラルネットワークのネットワークパラメータの第1のセットを更新することと、
前記弁別器入力データに含まれる前記弁別器入力信号が前記生成器ニューラルネットワークによって出力された前記高解像度合成画像である間に、前記弁別器ニューラルネットワークによって出力された前記予測の減少関数を測定する敵対的損失を含む第2の損失関数に基づいて、前記生成器ニューラルネットワークのネットワークパラメータの第2のセットを更新することと、
を実行することと、を更に含む、請求項2に記載の方法。
【請求項4】
前記複数のトレーニング例を取得することが、
前記複数のトレーニング例のうちの1つ以上の各々について、前記高解像度トレーニング画像を前記第2の空間解像度から前記第1の空間解像度にダウンサンプリングすることによって、前記高解像度トレーニング画像から前記低解像度トレーニング画像を生成することを含む、請求項3に記載の方法。
【請求項5】
前記弁別器入力データの前記第1のインスタンスを生成することが、前記高解像度合成画像を前記トレーニング例における少なくとも前記低解像度トレーニング画像と組み合わせることを含み、
前記弁別器入力データの前記第2のインスタンスを生成することが、前記トレーニング例において、前記高解像度トレーニング画像を少なくとも前記低解像度トレーニング画像と組み合わせることを含む、請求項3に記載の方法。
【請求項6】
前記生成器入力データが、前記第1の空間解像度よりも高い第3の空間解像度を有する基準入力画像を更に含み、
前記トレーニング例の各々が、前記第3の空間解像度を有する基準トレーニング画像を更に含む、請求項3に記載の方法。
【請求項7】
前記弁別器入力データの前記第1のインスタンスを生成することが、前記高解像度合成画像を前記トレーニング例における少なくとも前記基準トレーニング画像と組み合わせることを含み、
前記弁別器入力データの前記第2のインスタンスを生成することが、前記高解像度トレーニング画像を前記トレーニング例における少なくとも前記基準トレーニング画像と前記トレーニング例において組み合わせることを含む、請求項6に記載の方法。
【請求項8】
前記弁別器入力データの前記第1のインスタンスを生成することが、前記高解像度合成画像を、前記トレーニング例における前記低解像度トレーニング画像及び前記基準トレーニング画像と組み合わせることを含み、
前記弁別器入力データの前記第2のインスタンスを生成することが、前記高解像度トレーニング画像を、前記トレーニング例における前記低解像度トレーニング画像及び前記基準トレーニング画像と組み合わせることを含む、請求項7に記載の方法。
【請求項9】
前記基準入力画像が、前記低解像度入力画像とは異なる画像モダリティに関連付けられる、請求項6に記載の方法。
【請求項10】
前記低解像度入力画像が、火災燃焼領域の火災分布を示す低解像度分布マップであり、
前記基準入力画像が、前記領域の特徴を示す分布マップであり、
前記高解像度合成画像が、前記領域の火災分布を示す高解像度合成分布マップである、請求項6に記載の方法。
【請求項11】
前記基準入力画像が、前記領域の火災前燃料分布を示す、請求項10に記載の方法。
【請求項12】
前記基準入力画像が、前記領域の地面の地形を示す、請求項10に記載の方法。
【請求項13】
コンピュータによって実行される方法であって、
1つ以上の第1の特性を有する少なくとも1つの入力信号を含む生成器入力データを処理して、前記1つ以上の第1の特性とは異なる1つ以上の第2の特性を有する合成信号を生成するように構成された生成器ニューラルネットワークと、前記1つ以上の第2の特性を有する弁別器入力信号と前記生成器入力データの少なくとも一部とを組み合わせる弁別器入力データを処理して、前記弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供される実信号であるか、又は前記生成器ニューラルネットワークによって出力される合成信号であるかの予測を生成するように構成された弁別器ニューラルネットワークとを含むニューラルネットワークを、前記複数のトレーニング例に基づいてトレーニングすることとを含み、前記トレーニングすることが、
前記複数のトレーニング例を取得することであって、前記トレーニング例の各々が、前記1つ以上の第1の特性を有する第1のトレーニング信号と、前記1つ以上の第2の特性を有する第2のトレーニング信号とを少なくとも含む、前記複数のトレーニング例を取得することと、
前記複数のトレーニング例の各々に基づいて、
前記トレーニング例に少なくとも前記第1のトレーニング信号を含めることによって前記生成器ニューラルネットワークのためのトレーニング入力データを生成し、前記合成信号を生成するために前記生成器ニューラルネットワークを使用して前記トレーニング入力データを処理することと、
弁別器入力信号の第1のインスタンスを前記生成器ニューラルネットワークのための前記トレーニング入力データの少なくとも一部と組み合わせることによって前記弁別器入力データの第1のインスタンスであって、前記弁別器入力信号の前記第1のインスタンスが前記合成信号である、第1のインスタンスを生成することと、前記弁別器ニューラルネットワークを使用して前記弁別器入力データの前記第1のインスタンスを処理して第1の予測を生成することと、
前記弁別器入力信号の第2のインスタンスを前記生成器ニューラルネットワークのための前記トレーニング入力データの前記一部と組み合わせることによって前記弁別器入力データの第2のインスタンスを生成することであって、前記弁別器入力信号の前記第2のインスタンスが前記トレーニング例における前記第2のトレーニング信号である、生成することと、第2の予測を生成するために前記弁別器ニューラルネットワークを使用して前記弁別器入力データの前記第2のインスタンスを処理することと、
前記弁別器ニューラルネットワークによって出力された前記予測と、前記弁別器入力データ中の前記弁別器入力信号が前記第2のトレーニング信号であるか前記合成信号であるかとの間の差を測定する第1の損失関数に基づいて、前記弁別器ニューラルネットワークのネットワークパラメータの第1のセットを更新することと、
少なくとも前記第1の予測を含む第2の損失関数に基づいて、前記生成器ニューラルネットワークのネットワークパラメータの第2のセットを更新することと、
を実行することと、を含む、方法。
【請求項14】
前記第1のトレーニング信号が、第1の空間解像度を有する低解像度トレーニング画像であり、
前記合成信号が、前記第1の空間解像度よりも高い第2の空間解像度を有する高解像度合成画像であり、
前記第2のトレーニング信号が、前記第2の空間解像度を有する高解像度トレーニング画像である、請求項13に記載の方法。
【請求項15】
前記複数のトレーニング例を取得することが、
前記複数のトレーニング例のうちの1つ以上の各々について、前記高解像度トレーニング画像を前記第2の空間解像度から前記第1の空間解像度にダウンサンプリングすることによって、前記高解像度トレーニング画像から前記低解像度トレーニング画像を生成することを含む、請求項14に記載の方法。
【請求項16】
前記弁別器入力データの前記第1のインスタンスを生成することが、前記高解像度合成画像を前記トレーニング例における少なくとも前記低解像度トレーニング画像と組み合わせることを含み、
前記弁別器入力データの前記第2のインスタンスを生成することが、前記トレーニング例において、前記高解像度トレーニング画像を少なくとも前記低解像度トレーニング画像と組み合わせることを含む、請求項14に記載の方法。
【請求項17】
前記トレーニング例の各々が、第3の空間解像度を有する基準トレーニング画像を更に含む、請求項14に記載の方法。
【請求項18】
前記弁別器入力データの前記第1のインスタンスを生成することが、前記高解像度合成画像を、前記トレーニング例における前記低解像度トレーニング画像及び前記基準トレーニング画像と組み合わせることを含み、
前記弁別器入力データの前記第2のインスタンスを生成することが、前記高解像度トレーニング画像を、前記トレーニング例における前記低解像度トレーニング画像及び前記基準トレーニング画像と組み合わせることを含む、請求項17に記載の方法。
【請求項19】
前記基準トレーニング画像が、前記低解像度トレーニング画像とは異なる画像モダリティに関連付けられる、請求項17に記載の方法。
【請求項20】
前記低解像度トレーニング画像が、火災燃焼領域の火災分布を示す低解像度分布マップであり、
前記基準トレーニング画像が、前記領域の特徴を示す分布マップであり、
前記高解像度合成画像が、前記領域の火災分布を示す高解像度合成分布マップである、請求項17に記載の方法。
【請求項21】
前記基準トレーニング画像が、前記領域の火災前燃料分布を示す、請求項20に記載の方法。
【請求項22】
前記基準トレーニング画像が、前記領域の地面の地形を示す、請求項20に記載の方法。
【請求項23】
システムであって、
1つ以上のコンピュータと、
命令を記憶する1つ以上のストレージデバイスと、を備え、前記1つ以上のコンピュータによって実行されたとき、前記命令が、前記1つ以上のコンピュータに、
1つ以上の第1の特性を有する少なくとも1つの入力信号を含む生成器入力データを取得することと、
弁別器ニューラルネットワークを用いて、前記複数のトレーニング例に基づいて、トレーニングされた生成器ニューラルネットワークを使用して、1つ以上の第2の特性を有する合成信号を含む出力データを生成するために前記生成器入力データを処理することであって、前記弁別器ニューラルネットワークは、前記1つ以上の第2の特性を有する弁別器入力信号を生成器入力データの少なくとも一部と組み合わせて、前記弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供される実信号であるか、又は前記生成器ニューラルネットワークによって出力される合成信号であるかの予測を生成する弁別器入力データを処理するように構成された、前記生成器入力データを処理することと、
前記合成信号をデバイスに出力することと、を実行させる、システム。
【請求項24】
前記入力信号が、第1の空間解像度を有する低解像度入力画像であり、
前記合成信号が、前記第1の空間解像度よりも高い第2の空間解像度を有する高解像度合成画像であり、
前記弁別器入力信号が、前記第2の空間解像度を有する高解像度画像である、請求項23に記載のシステム。
【請求項25】
前記命令が、前記1つ以上のコンピュータに、
前記複数のトレーニング例を取得することであって、前記トレーニング例の各々が、前記第1の空間解像度を有する低解像度トレーニング画像と前記第2の空間解像度を有する高解像度トレーニング画像とを少なくとも含む、前記複数のトレーニング例を取得することと、
複数のトレーニング例の各々に基づいて、
前記トレーニング例に少なくとも前記低解像度トレーニング画像を含めることによって前記生成器ニューラルネットワークのためのトレーニング入力データを生成し、前記高解像度合成画像を含む前記出力データを生成するために前記生成器ニューラルネットワークを使用して前記トレーニング入力データを処理することと、
前記高解像度合成画像を前記生成器ニューラルネットワークのための前記トレーニング入力データの少なくとも一部と組み合わせることによって前記弁別器入力データの第1のインスタンスを生成し、前記弁別器ニューラルネットワークを使用して前記弁別器入力データの前記第1のインスタンスを処理して第1の予測を生成することと、
前記トレーニング例における前記高解像度トレーニング画像を前記生成器ニューラルネットワークのための前記トレーニング入力データの前記一部と組み合わせることによって前記弁別器入力データの第2のインスタンスを生成し、前記弁別器ニューラルネットワークを使用して前記弁別器入力データの前記第2のインスタンスを処理して第2の予測を生成することと、
前記弁別器ニューラルネットワークによって出力された前記予測と、前記弁別器入力データが前記トレーニング例中の前記高解像度トレーニング画像又は前記生成器ニューラルネットワークによって出力された前記高解像度合成画像を含むかどうかとの間の差を測定する第1の損失関数に基づいて、前記弁別器ニューラルネットワークのネットワークパラメータの第1のセットを更新することと、
前記弁別器入力データに含まれる前記弁別器入力信号が前記生成器ニューラルネットワークによって出力された前記高解像度合成画像である間に、前記弁別器ニューラルネットワークによって出力された前記予測の減少関数を測定する敵対的損失を含む第2の損失関数に基づいて、前記生成器ニューラルネットワークのネットワークパラメータの第2のセットを更新することと、
を実行することと、を更に実行させる、請求項24に記載のシステム。
【請求項26】
前記複数のトレーニング例を取得することが、
前記複数のトレーニング例のうちの1つ以上の各々について、前記高解像度トレーニング画像を前記第2の空間解像度から前記第1の空間解像度にダウンサンプリングすることによって、前記高解像度トレーニング画像から前記低解像度トレーニング画像を生成することを含む、請求項25に記載のシステム。
【請求項27】
前記弁別器入力データの前記第1のインスタンスを生成することが、前記高解像度合成画像を前記トレーニング例における少なくとも前記低解像度トレーニング画像と組み合わせることを含み、
前記弁別器入力データの前記第2のインスタンスを生成することが、前記トレーニング例において、前記高解像度トレーニング画像を少なくとも前記低解像度トレーニング画像と組み合わせることを含む、請求項25に記載のシステム。
【請求項28】
命令を記憶する1つ以上のコンピュータ可読記憶媒体であって、1つ以上のコンピュータによって実行されたとき、前記命令が、前記1つ以上のコンピュータに、
1つ以上の第1の特性を有する少なくとも1つの入力信号を含む生成器入力データを取得することと、
前記1つ以上の第2の特性を有する弁別器入力信号を生成器入力データの少なくとも一部と組み合わせて、前記弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供される実信号であるか、又は前記生成器ニューラルネットワークによって出力される合成信号であるかの予測を生成する弁別器入力データを処理するように構成された弁別器ニューラルネットワークを用いて、前記複数のトレーニング例に基づいてトレーニングされた生成器ニューラルネットワークを使用して、前記生成器入力データを処理して、1つ以上の第2の特性を有する合成信号を含む出力データを生成することと、
前記合成信号をデバイスに出力することと、を実行させる、コンピュータ可読記憶媒体。
【請求項29】
1つ以上のコンピュータ可読記憶媒体であって、
前記入力信号が、第1の空間解像度を有する低解像度入力画像であり、
前記合成信号が、前記第1の空間解像度よりも高い第2の空間解像度を有する高解像度合成画像であり、
前記弁別器入力信号が、前記第2の空間解像度を有する高解像度画像である、請求項28に記載のコンピュータ可読記憶媒体。
【請求項30】
1つ以上のコンピュータ可読記憶媒体であって、前記命令が、前記1つ以上のコンピュータに、
前記複数のトレーニング例を取得することであって、前記トレーニング例の各々が、前記第1の空間解像度を有する低解像度トレーニング画像と前記第2の空間解像度を有する高解像度トレーニング画像とを少なくとも含む、前記複数のトレーニング例を取得することと、
複数のトレーニング例の各々に基づいて、
前記トレーニング例に少なくとも前記低解像度トレーニング画像を含めることによって前記生成器ニューラルネットワークのためのトレーニング入力データを生成し、前記高解像度合成画像を含む前記出力データを生成するために前記生成器ニューラルネットワークを使用して前記トレーニング入力データを処理することと、
前記高解像度合成画像を前記生成器ニューラルネットワークのための前記トレーニング入力データの少なくとも一部と組み合わせることによって前記弁別器入力データの第1のインスタンスを生成し、前記弁別器ニューラルネットワークを使用して前記弁別器入力データの前記第1のインスタンスを処理して第1の予測を生成することと、
前記トレーニング例における前記高解像度トレーニング画像を前記生成器ニューラルネットワークのための前記トレーニング入力データの前記一部と組み合わせることによって前記弁別器入力データの第2のインスタンスを生成し、前記弁別器ニューラルネットワークを使用して前記弁別器入力データの前記第2のインスタンスを処理して第2の予測を生成することと、
前記弁別器ニューラルネットワークによって出力された前記予測と、前記弁別器入力データが前記トレーニング例中の前記高解像度トレーニング画像又は前記生成器ニューラルネットワークによって出力された前記高解像度合成画像を含むかどうかとの間の差を測定する第1の損失関数に基づいて、前記弁別器ニューラルネットワークのネットワークパラメータの第1のセットを更新することと、
前記弁別器入力データに含まれる前記弁別器入力信号が前記生成器ニューラルネットワークによって出力された前記高解像度合成画像である間に、前記弁別器ニューラルネットワークによって出力された前記予測の減少関数を測定する敵対的損失を含む第2の損失関数に基づいて、前記生成器ニューラルネットワークのネットワークパラメータの第2のセットを更新することと、
を実行することと、を更に実行させる、請求項29に記載のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
生成敵対的ネットワーク(GAN)は、トレーニングデータの特徴を学習してトレーニングデータと同じ特性を有する新しいデータを生成する機械学習ニューラルネットワークである。GANは、新しいデータを生成する生成器ニューラルネットワークと、生成されたデータをどのように改善するかに関するフィードバックを生成器ニューラルネットワークに提供する弁別器ニューラルネットワークとを含む。
【発明の概要】
【0002】
生成敵対的ネットワーク(GAN)モデルでは、生成器ニューラルネットワークは、概して、入力データから引き出され得る可能性が高い出力信号を生成することを目的とし、弁別器ニューラルネットワークは、信号を(トレーニングデータセットからの)「実」又は(生成器ニューラルネットワークによって生成された)偽のいずれかとして分類することを目的とする。一例では、コンピュータ実装システムは、生成器ニューラルネットワークを使用して低解像度入力画像を処理して高解像度合成画像を生成し、弁別器ニューラルネットワークを使用して、弁別器ニューラルネットワークに入力された高解像度画像が実(例えば、トレーニング例のうちの1つにおいて提供される)高解像度画像であるか、又は生成器ニューラルネットワークによって合成された高解像度画像であるかを予測することができる。システムは、弁別器ニューラルネットワークによって生成された予測を使用して、生成器ニューラルネットワークのネットワークパラメータを更新し、生成器ニューラルネットワークに、より現実的な高解像度合成画像を生成させることができる。
【0003】
予測を行うためにGANモデルの弁別器ニューラルネットワークをトレーニングするために、システムは複数のトレーニング例を使用する。各トレーニング例は、生成器ニューラルネットワークによって生成された信号と同じドメイン内のトレーニング信号を少なくとも含む。典型的には、システムは、弁別器ニューラルネットワークへの入力データとして、生成器ニューラルネットワークの出力又はトレーニング例におけるトレーニング信号のいずれかを使用する。弁別器ニューラルネットワークは、入力を処理して、入力が生成器ニューラルネットワークによって出力された生成信号であるか、又は「実」(トレーニング)信号であるかを予測する。システムは、弁別器ニューラルネットワークによって出力された予測と、入力が生成器ニューラルネットワークによって出力された生成信号であるか、又はトレーニング信号であるかとの比較を測定する損失関数に基づいて、弁別器ニューラルネットワークのネットワークパラメータを更新する。すなわち、弁別器ニューラルネットワークは、生成器ニューラルネットワークによって生成された信号と実信号とを区別するようにトレーニングされる。
【0004】
本明細書は、GANモデルの性能及び/又はトレーニング効率を改善することに関するシステム、方法、デバイス、及び他の技法を説明する。
【0005】
本明細書の一態様では、GANモデルを使用して合成信号を生成するための方法が提供される。GANモデルは、生成器ニューラルネットワークと弁別器ニューラルネットワークとを含む。システムは、生成器ニューラルネットワークのための入力データ(便宜上、生成器入力データと呼ばれる)を取得する。生成器入力データは、少なくとも、1つ以上の第1の特性を有する入力信号を含む。システムは、生成器入力データを処理して、生成器ニューラルネットワークを使用して1つ以上の第2の特性を有する合成信号を含む出力データを生成する。生成器ニューラルネットワークは、複数のトレーニング例に基づいて、弁別器ニューラルネットワークを用いてトレーニングされる。弁別器ニューラルネットワークへの入力データ(便宜上、弁別器入力データと呼ばれる)は、1つ以上の第2の特性を有する弁別器入力信号と、生成器入力データの少なくとも一部とを組み合わせる。弁別器ニューラルネットワークは、弁別器入力データを処理して、弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供されるラベル信号(「実」信号と見なされる)であるか、又は生成器ニューラルネットワークによって出力される合成信号であるかの予測を生成するように構成される。システムは更に、合成信号をデバイスに出力する。
【0006】
本明細書の別の態様では、GANモデルをトレーニングするための方法が提供される。GANモデルは、生成器ニューラルネットワークと弁別器ニューラルネットワークとを含む。生成器ニューラルネットワークは、1つ以上の第1の特性を有する少なくとも1つの入力信号を含む生成器入力データを処理して、1つ以上の第2の特性を有する合成信号を含む出力データを生成するように構成される。弁別器ニューラルネットワークは、1つ以上の第2の特性を有する弁別器入力信号と生成器入力データの少なくとも一部とを組み合わせる弁別器入力データを処理し、弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供される信号(「実」信号と見なされる)であるか、又は生成器ニューラルネットワークによって出力される合成信号であるかの予測を生成するように構成される。
【0007】
生成器ニューラルネットワーク及び弁別器ニューラルネットワークをトレーニングするために、システムは、複数のトレーニング例を取得する。各トレーニング例は、少なくとも、1つ以上の第1の特性を有する第1のトレーニング信号と、1つ以上の第2の特性を有する第2のトレーニング信号とを含む。各トレーニング例に基づいて、システムは、トレーニング例に少なくとも第1のトレーニング信号を含めることによって生成器ニューラルネットワークのためのトレーニング入力データを生成し、合成信号を生成するために生成器ニューラルネットワークを使用してトレーニング入力データを処理する。システムは、合成信号と生成器ニューラルネットワークのためのトレーニング入力データの少なくとも一部とを組み合わせることによって、弁別器入力データの第1のインスタンスを生成し、弁別器ニューラルネットワークを使用して弁別器入力データの第1のインスタンスを処理して、第1の予測を生成する。システムはまた、第2のトレーニング信号と生成器ニューラルネットワークのためのトレーニング入力データの一部とを組み合わせることによって、弁別器入力データの第2のインスタンスを生成し、弁別器ニューラルネットワークを使用して弁別器入力データの第2のインスタンスを処理して、第2の予測を生成する。システムは、弁別器ニューラルネットワークによって出力される予測と、弁別器入力データ内の弁別器入力信号が第2のトレーニング信号であるか合成信号であるかとの比較を測定する第1の損失関数に基づいて、弁別器ニューラルネットワークのネットワークパラメータの第1のセットを更新し、弁別器入力データに含まれる弁別器入力信号が生成器ニューラルネットワークによって出力される合成画像である間に、弁別器ニューラルネットワークによって出力される予測の減少関数を測定する少なくとも敵対的損失を含む第2の損失関数に基づいて、生成器ニューラルネットワークのネットワークパラメータの第2のセットを更新する。敵対的損失のより大きな値は、弁別器ニューラルネットワークが、弁別器入力データ内の入力高解像度画像が「実」画像である確率の減少を予測することを示す。
【0008】
例示的な実装形態では、GANモデルは、低解像度入力画像から高解像度合成画像を生成するために使用される。入力信号及び合成信号は両方とも画像である。第1の特性は、画像の第1の空間解像度であり得る。第2の特性は、第1の空間解像度とは異なる画像に対する第2の空間解像度であり得る。具体的には、この例では、入力信号は、第1の空間解像度を有する低解像度入力画像である。合成信号は、第1の空間解像度より高い第2の空間解像度を有する高解像度合成画像である。弁別器入力信号は、第2の空間解像度を有する高解像度画像であり、複数のトレーニング例のうちの1つにおいて提供される高解像度「実」画像、又は生成器ニューラルネットワークによって出力される高解像度合成信号のいずれかであり得る。
【0009】
更に、GANモデルは、火災燃焼領域の火災分布を示す高解像度合成分布マップを生成するために使用することができる。生成器入力データは、火災燃焼領域の火災分布を示す低解像度入力画像(入力信号)と、領域の特徴を示す基準入力画像とを含む。低解像度入力画像は、第1の空間解像度を有する。基準入力画像は、第1の空間解像度よりも高い第3の空間解像度を有する。次いで、コンピュータシステムは、生成器ニューラルネットワークを使用して、低解像度入力画像及び基準入力画像を処理して、第1の空間解像度よりも高い第2の空間解像度で領域の火災分布を示す高解像度合成画像を生成し、したがって、野火の拡散挙動を理解するために必要とされる高解像度火災分布特徴を提供する。
【0010】
生成器ニューラルネットワーク及び弁別器ニューラルネットワークをトレーニングするために、トレーニング例の各々は、第1のSRを有する低解像度トレーニング画像(第1のトレーニング信号)と、第2のSRを有する高解像度トレーニング画像(第2のトレーニング信号)と、第3の空間解像度を有する基準トレーニング画像とを更に含む。弁別器入力データは、例えば、低解像度トレーニング画像及び/又は基準トレーニング画像を含む、生成器ニューラルネットワークのためのトレーニング入力データの少なくとも一部と組み合わされた弁別器入力信号(この場合、高解像度合成画像又は高解像度トレーニング画像)を含む。
【0011】
実装形態のいくつかの他の例では、GANモデルは、ハイファイオーディオ、高解像度ビデオ、又は他のタイプの信号を生成するために使用され得る。
【0012】
概して、説明されるシステム及び関連する方法は、GANモデルの性能及び/又はトレーニング効率を改善する。GANモデルは、少なくとも低解像度入力画像などの入力信号に基づいて、高解像度合成画像などの信号を生成するために使用することができる。
【0013】
典型的には、GANモデルの弁別器ニューラルネットワークは、生成器ニューラルネットワークによって生成された信号と、トレーニング例において提供される実信号とを区別することを目的とし、したがって、弁別器ニューラルネットワークへの入力は、通常、弁別器ニューラルネットワークによって出力された信号又はトレーニング例における実信号のみを含む。本明細書に記載されるシステム及び方法は、弁別器ニューラルネットワークのトレーニング中に、生成器ニューラルネットワークへの入力データ(生成器入力データ)の少なくとも一部を弁別器ニューラルネットワークへの入力データ(弁別器入力データ)に組み込むことによって、GANモデルの性能及び/又はトレーニング効率を改善する。このようにして、生成器ニューラルネットワークによって生成された信号と参照なしの実信号とを区別することを目的とする代わりに、本明細書で提供されるプロセスによってもたらされるトレーニングされた弁別器ニューラルネットワークは、弁別器ニューラルネットワークへの入力信号(例えば、高解像度画像)が別の入力信号(例えば、低解像度入力画像)の妥当な処理バージョン(例えば、解像度アップスケーリングを伴う)であるかどうかを決定することができる。
【0014】
火災燃焼領域の火災分布を示す高解像度合成分布マップを生成する例の実装形態では、低解像度トレーニング画像及び基準トレーニング画像を弁別器入力データに組み込むことによって、弁別器ニューラルネットワークは、高解像度画像が基準入力画像に従って低解像度入力画像の妥当なアップスケーリングであるかどうかを決定するようにより効果的にトレーニングされる。結果として生じる改善は、弁別器ニューラルネットワークのより良好な予測精度、生成器ニューラルネットワークによって生成される高解像度合成画像におけるより良好な品質、及び/又はGANモデルの特定の性能メトリックを達成するためにより少ないトレーニング例を必要とし、したがって、トレーニングを実行するために必要とされる計算能力を低減させるなど、トレーニング効率の改善を含む。
【0015】
本明細書で説明される主題の1つ以上の実施形態の詳細は、添付の図面及び以下の説明に記載される。主題の他の特徴、態様、及び利点は、説明、図面、及び特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0016】
【
図2】高解像度画像生成システムにおいて使用されるGANモデルをトレーニングするための例示的なプロセスを示す。
【
図3】GANモデルを使用して合成信号を生成する例示的なプロセスのフロー図である。
【
図4】GANモデルをトレーニングする例示的なプロセスのフロー図である。
【
図5】本明細書で説明される動作を実行するための例示的なコンピュータシステムを示す。
【0017】
種々の図面における同様の参照番号及び名称は、同様の要素を示す。
【発明を実施するための形態】
【0018】
生成敵対的ネットワーク(GAN)モデルは、画像解像度アップスケーリングタスクのためなど、信号を生成するための多くのアプリケーションにおいて使用されている。本明細書は、GANモデルを使用して、GANモデルのための改善された性能及び/又はトレーニング効率を有する高解像度火災分布マップなどの合成信号を生成するシステム、方法、デバイス、及び他の技法について説明する。GANモデルは、生成器ニューラルネットワークと弁別器ニューラルネットワークとを含む。
【0019】
説明されるシステム及び方法の特徴は、GANモデルのトレーニング中に、システムが、弁別器ニューラルネットワークへの入力データに、生成器ニューラルへの入力データの少なくとも一部を組み込むことである。このようにして、生成器ニューラルネットワークによって生成された信号と参照なしの実信号とを区別することを目的とする代わりに、トレーニングされた弁別器ニューラルネットワークは、弁別器ニューラルネットワークへの入力信号(例えば、高解像度画像)が別の入力信号(例えば、低解像度入力画像)の妥当な処理バージョン(例えば、解像度アップスケーリングを伴う)であるかどうかを決定する際により効果的であり得る。
【0020】
図1は、例示的な高解像度画像生成システム120を示す。システム120は、後述するシステム、コンポーネント、及び技法を実装することができる、1つ以上の位置にある1つ以上のコンピュータ上のコンピュータプログラムとして実装されるシステムの一例である。
【0021】
システム120は、火災分布特徴を示す高解像度合成画像を生成することに焦点を当てているが、例えば、高空間解像度及び/又は時間解像度を有するハイファイオーディオ及びビデオを含む他のタイプの合成信号を、同様のシステムを使用して生成することができる。システム120は、様々なタイプの合成信号を生成するシステムの一例である。
【0022】
野火拡散及び野火挙動の有用なモデルを構築するために、実際の現実世界の火災の正確で高解像度のトレーニングデータが必要とされる。残念ながら、今日利用可能な野火の観測データセットの大部分は、解像度が低く、及び/又は収集頻度が低い。例えば、多くの衛星ベースの遠隔感知赤外線(IR)撮像システムは、典型的には、低解像度で、例えば、約400m/ピクセル以下の空間解像度で、調査赤外線画像を撮影する。より高い解像度の調査画像を提供するシステムは、12時間毎に、時には2週間毎に、より高い解像度の赤外線画像を取得するだけでよい。利用可能なデータセットにおける低い空間解像度及び/又は時間解像度は、データ駆動型モデルベース予測を使用して野火拡散を理解及び予測するためにそれらを使用することを困難にする。
【0023】
システム120を使用して、低空間解像度を有する利用可能な火災関連データと、対応する領域の火災前/火災後の地球物理学的マップとに基づいて、高解像度火災分布マップを自動的に生成することができる。システム120は、領域の火災分布を示す低解像度分布マップ及び同じ領域の高解像度基準入力画像の入力を受信することができ、領域の火災分布を示す高解像度合成画像を出力する。
【0024】
図1の段階(A)及び段階(B)に示されるように、システム120は、複数のトレーニング例110を取得することができ、システムのトレーニングエンジン122を使用してトレーニング例110を処理して、機械学習モデル121のネットワークパラメータ124を更新する。各トレーニング例は、領域の低解像度トレーニング画像110a、同じ領域の基準トレーニング画像110b、及び同じ領域の高解像度トレーニング画像110cを含むことができる。
【0025】
図1の段階(C)に示すように、システム120は、入力データ140を取得し、学習されたネットワークパラメータ124を有する機械学習モデル121を使用して入力データ140を処理し、処理結果に基づいて高解像度合成画像155を出力デバイス150に出力することができる。入力データは、火災燃焼領域の低解像度入力画像140aと、同じ領域の基準入力画像140bとを含むことができる。
【0026】
本明細書において、「低解像度」及び「高解像度」は、相対的な意味で空間解像度を説明する。例えば、入力画像140aが第1の空間解像度R1(例えば400m/ピクセル)を有し、高解像度合成画像155が第2の空間解像度R2(例えば20m/ピクセル)を有する場合、第2の空間解像度R2は第1の空間解像度R1よりも高解像度であるため、高解像度合成画像155は高解像度マップと見なされ、入力画像140aは低解像度マップと見なされる。
【0027】
図1に示す例では、低解像度入力画像140aは、低解像度赤外線画像であり得る。一般に、低解像度入力画像140aは、火災燃焼領域の火災分布を示す分布マップ又はデータセットを含むことができる。低解像度赤外線画像は、分布マップの一例である。
【0028】
地上で燃焼する活発な火災は、衛星赤外線センサによって捕捉され得る中赤外線放射の増加した放出によって特徴付けられるスペクトル信号を放出するので、衛星赤外線画像は、活発な火災の空間分布を示すことができる。低解像度赤外線画像140aは、2.1μm、4.0μm、又は11.0μmの中心波長を有する中IR帯域など、熱分布に対応する単一赤外線帯域の赤外線画像とすることができる。低解像度赤外線画像140aは、0.65μm及び/又は0.86μmの中心波長を有する1つ以上の近IR帯域など、他の赤外線帯域の追加の赤外線データを含むこともできる。これらの近IRデータを使用して、日光及び雲の反射などのアーティファクトを較正することができる。低解像度赤外線画像140aは、複数の赤外線帯域で撮影された複数チャネル赤外線画像、又は複数チャネル赤外線画像を組み合わせた複合赤外線画像を含むことができる。赤外線画像に加えて、低解像度入力画像140aは、較正及びジオロケーション情報を更に含むことができ、較正及びジオロケーション情報は、赤外線画像を前処理して、データソース間及び異なる時点にわたる一貫性を保証するために使用することができる。
【0029】
いくつかの実装形態では、機器測定値から直接赤外線画像を受信するか、又は単に複数チャネル赤外線画像を組み合わせる代わりに、入力データの低解像度入力画像140aは、火災検出アルゴリズムを使用して複数の遠隔感知画像を処理することによって生成された火災分布マップなど、導出された積を含むことができる。衛星遠隔感知画像に基づいて火災のホットスポットをマッピングする様々な火災製品が開発されており、いくつかの機関から入手可能であり、入力低解像度入力画像140aとして使用することができる。
【0030】
直接受信された遠隔感知測定値であるか、又は火災検出アルゴリズムを使用して導出された火災マップであるかにかかわらず、火災分布を示す大量のマップは、衛星遠隔感知画像アーカイブから、又はほぼリアルタイムで衛星遠隔感知画像プロバイダから取り出すことができる。これらのマップは、同じ領域について複数の時点で撮影された一連の画像を含むことができ、したがって、火災の拡散挙動の時間的特徴の情報を含むことができる。しかしながら、これらのマップは、空間解像度が低いことが多く、すなわち、マップ内の各ピクセルが大きな領域に対応し、火災分布の空間的により細かい詳細を提供することができない。
【0031】
一方、基準入力画像140bは、同じ領域のより高い解像度の特徴を提供することができる。
図1に示す例では、基準入力画像140bは、同じ領域の高解像度の空中風景画像である。一般に、基準入力画像140bは、領域の特定の特徴を示す基準入力画像を含むことができる。基準入力画像140bは、低解像度入力画像140aの空間解像度よりも高い空間解像度を有する。例えば、低解像度入力画像140aは、約400m/ピクセル以下の空間解像度を有することができ、一方、基準入力画像140bは、約20m/ピクセル以上の空間解像度を有することができる。
【0032】
異なる空間解像度を有することに加えて、基準入力画像140bは、低解像度入力画像140aが収集されるときとは異なる時点でセンサ又は撮像デバイスによって収集され得る。例えば、低解像度入力画像140aは、活発な火災中に収集することができ、一方、基準入力画像140bは、低解像度入力画像140aが収集される数日前、数週間前、又は数ヶ月後など、火災前時点又は火災後時点で収集することができる。活発な火災燃焼中、一連の画像140a、同じ領域について複数の時点で収集されることができ、したがって、火災の時間的拡散挙動に関する情報を提供する。基準入力画像140bは、入力データ140を形成するために一連の画像140aの各々と共に使用することができる。
【0033】
更に、基準入力画像140bに示される特徴は、火災や温度に関する分布以外の特徴であり得る。すなわち、基準入力画像140bは、低解像度入力画像140aのモダリティとは異なるモダリティを有することができる。例えば、低解像度入力画像140aは、赤外線画像又は遠隔感知赤外線データから導出された火災分布マップとすることができ、基準入力画像140bは、可視波長範囲内の画像又は非光学画像とすることができる。基準入力画像140bの例としては、可視帯域の衛星画像例えば、中心波長0.65μm、航空写真(例えば、ドローンによって収集されたもの)、ラベル付き調査マップ、並びに可視画像及び近IR画像から計算された植生指数マップが挙げられる。基準入力画像140bは、地形的特徴(例えば、高度、斜面、河川、海岸線など)、人工構造物(道路、建物、土地など)、植生指数、及び/又は同じ領域の土壌水分などの特徴に関して、入力画像140aと比較してより高い解像度で、火災感受性に関する情報を提供することができる。基準入力画像はまた、その領域の火傷瘢痕を示す火災後マップであり得、これはまた、火災感受性を示す情報を提供する。
【0034】
いくつかの実装形態では、システム120は、入力データの前処理を更に実行することができる。例えば、システム120は、較正データを使用して衛星赤外線画像を較正し、ジオロケーションデータを使用して衛星赤外線画像を基準入力画像と位置合わせして登録することができる。システムは更に、入力データ内の衛星赤外線画像セットを、火災検出アルゴリズムに基づいて火災分布マップに変換することができる。火災検出アルゴリズムは、雲のマスキング、背景の特徴付け及び除去、日光の拒絶、並びに閾値の適用などのプロセスを含むことができる。次いで、システム120は、機械学習モデル121を使用して、前処理された入力データを処理して、高解像度合成画像155を含む出力データを生成することができる。
【0035】
図1に示す例では、高解像度合成画像155は、火災燃焼の位置の分布をより高い空間解像度で示す火災分布マップである。火災分布マップは、高い強度値又は低い強度値を有するピクセルを有するバイナリマップであり得る。マップ内の高い強度値を有するピクセルは、対応する位置で活発な火災燃焼を示し、マップ内の低い強度値を有するピクセルは、対応する位置で活発な火災燃焼がないことを示す。あるいは、合成画像155は、ピクセル強度値の複数の分布又は連続分布を有することができる。より高い強度値を有するピクセルは、活発な火災燃焼の確率が高い位置を示すことができる。代替として、より高い強度値を伴うピクセルは、より高い強度の火災燃焼を伴う位置を示すことができ、例えば、異なるピクセル強度値は、異なるレベルの火災放射電力(FRP)にマッピングされることができる。
【0036】
いくつかの実装形態では、高解像度合成画像155は、可能な火災分布マップの確率的事後分布から導出された火災分布マップを含むことができる。機械学習モデルの出力はまた、各出力ピクセルにおけるモデルの不確実性の定量化を含み得る。
【0037】
機械学習モデル121は、合成データを生成するための生成器ニューラルネットワーク121aと、合成データを「実」データから区別するための弁別器ニューラルネットワーク121bとを含む、生成敵対的ニューラルネットワーク(GAN)に基づく。
【0038】
GANは、過去において解像度アップスケーリングタスクのために使用されてきたが、それらの努力は、通常、向上した解像度を有する視覚的に現実的な画像を作成するために、適切な知覚損失関数を設計することに焦点を当てていた。対照的に、本明細書で提供されるGANモデル121は、高解像度火災分布マップを生成する際に、基準入力画像140bで提供される追加情報を活用することを目的とする。過去の超解像GANモデルとは異なり、システム120は、視覚的に心地よい画像を提供することを目的としていない。これは、火災の動力学を学習することに焦点を当てたトレーニングプロセスを可能にする。
【0039】
具体的には、
図1の段階(C)に示すように、システム120の機械学習モデル121は、低解像度入力画像140aと基準入力画像140bの両方を入力として、高解像度合成画像155を含む出力データを生成する。
【0040】
GANモデル121は、生成器ニューラルネットワーク121a及び弁別器ニューラルネットワーク121bの両方を含む。生成器ニューラルネットワーク121aは、ニューラルネットワーク入力を処理して出力データを生成するために使用される。生成器ニューラルネットワーク121aへのニューラルネットワーク入力は、低解像度入力画像140aと基準入力画像140bとの組み合わせであり得る。例えば、入力は、低解像度分布マップと基準入力画像とをスタックすることによって形成することができる。
【0041】
生成器ニューラルネットワーク121aは、例えば、1つ以上の全結合層、畳み込み層、パラメトリック整流線形ユニット(PReLU)層、及び/又はバッチ正規化層を含む、複数のネットワーク層を含むことができる。いくつかの実装形態では、生成器ニューラルネットワーク121aは、スキップ接続層を含む1つ以上の残差ブロックを含むことができる。
【0042】
生成器ニューラルネットワーク121aは、例えば、ネットワーク層の重み及びバイアスパラメータを含む、ネットワークパラメータのセットを含む。これらのパラメータは、モデルの出力と所望の出力との間の損失特徴付け差分を最小化するために、トレーニングプロセスにおいて更新される。生成器ニューラルネットワーク121aのネットワークパラメータのセットは、機械学習モデル121のネットワークパラメータ124の一部である。システム120は、これらのネットワークパラメータ124を更新するためのトレーニングエンジン122を更に含む。
【0043】
GAN構成では、生成器ニューラルネットワーク121aは、
図1の段階(B)に示されるように、複数のトレーニング例に基づいて、弁別器ニューラルネットワーク121bと共にトレーニングされる。弁別器ニューラルネットワーク121bは、例えば、1つ以上の畳み込み層、漏洩整流線形ユニット(ReLU)層、高密度層、及び/又はバッチ正規化層を含む複数のネットワーク層を含むことができる。弁別器ニューラルネットワーク121bのネットワークパラメータもネットワークパラメータ124に含まれ、生成器ニューラルネットワーク121aのネットワークパラメータと共に、トレーニングプロセス中に繰り返し交互に更新される。弁別器ニューラルネットワーク121bは、弁別器ニューラルネットワーク121bへの入力が実分布マップであるか合成分布マップであるかの予測を出力する。
【0044】
ネットワークパラメータ122を更新するために使用されるトレーニングデータは、複数のトレーニング例110を含む。各トレーニング例は、領域の火災分布を示す低解像度トレーニング画像110aと、同じ領域の特徴を示す基準トレーニング画像110bと、「実」ラベルデータとしての高解像度トレーニング画像110cとを含む3つの分布マップのセットを含む。
図1に示す例では、低解像度トレーニング画像110aは赤外線画像であり、基準トレーニング画像110bは空中風景画像であり、高解像度トレーニング画像110cは火災分布マップである。一般に、入力データ140及び出力マップ155におけるデータタイプに関する説明と同様に、低解像度トレーニング画像110a、基準トレーニング画像110b、及び高解像度トレーニング画像110cは、火災分布又は土地の特徴を示す他のタイプの画像であり得る。例えば、低解像度トレーニング画像110aは、導出された火災分布マップであり得、高解像度トレーニング画像110cは、高解像度赤外線マップであり得、基準トレーニング画像110bは、植生指数マップであり得る。
【0045】
図1の段階(A)に示されるように、複数のトレーニング例が収集され、ネットワークパラメータ124を更新するためにトレーニングエンジン122によって使用される。各トレーニング例において、低解像度トレーニング画像110a、基準トレーニング画像110b、及び高解像度トレーニング画像110cは、同じ地理的領域に対応する。更に、各トレーニング例において、低解像度トレーニング画像110aと高解像度トレーニング画像110cとは、同じ時点に対応する。
【0046】
いくつかの事例では、高解像度衛星測定値と低解像度衛星測定値の両方が、活発な火災中の同じ時点で同じ領域に対して利用可能である。これらの測定値は、それぞれ高解像度トレーニング画像110c及び低解像度トレーニング画像110aとして収集することができる。いくつかの他の事例では、高解像度衛星測定値のみが活発な火災燃焼下の領域に対して利用可能であるとき、低解像度トレーニング画像110aは、追加のトレーニング例を作成するために、対応する高解像度トレーニング画像110cをダウンサンプリングすることによって生成され得る。
【0047】
いくつかの実装形態では、トレーニング例における低解像度トレーニング画像110aが入力データにおける低解像度入力画像140aと同じ空間解像度を有し、トレーニング例における基準トレーニング画像110bが入力データにおける基準入力画像140bと同じ空間解像度を有し、トレーニング例における高解像度分布マップ110cが出力データにおける高解像度合成画像155と同じ空間解像度を有することを保証するために、更なるリサンプリングを実行することができる。
【0048】
トレーニング中、トレーニングエンジン122は、複数のトレーニングサンプル110に基づいて、生成器ニューラルネットワーク121a及び弁別器ニューラルネットワーク121bのネットワークパラメータ124を更新する。いくつかの実装形態では、トレーニングエンジン122は、2つの交互動作を繰り返し実行することによって、ネットワークパラメータ124を更新することができる。
【0049】
第1のステップにおいて、トレーニングエンジン122は、弁別器によって出力された予測と、弁別器ニューラルネットワークへの入力がトレーニング例110のうちの1つにおける高解像度トレーニング画像110c、又は生成器ニューラルネットワークによって出力された高解像度合成画像155を含むかどうかとの間の差を測定する損失関数に基づいて、弁別器ニューラルネットワーク121bのネットワークパラメータ(例えば、重み付け及びバイアスパラメータ)の第1のセットを更新する。
【0050】
第2のステップでは、トレーニングエンジン122は、第2の損失関数に基づいて、生成器ニューラルネットワーク121aのネットワークパラメータ(例えば、重み付け及びバイアスパラメータ)の第2のセットを更新する。第2の損失関数は、弁別器ニューラルネットワークによって出力された予測の減少関数を測定する敵対的損失を含み、弁別器ニューラルネットワークへの入力は、生成器ニューラルネットワークによって出力された合成画像を含む。敵対的損失のより大きな値は、弁別器ニューラルネットワークが、弁別器入力データ内の入力高解像度画像が「実」画像である確率の減少を予測することを示す。
【0051】
トレーニングエンジン122によって実行されるトレーニングプロセスの更なる詳細は、
図2及び
図4を参照して説明される。簡単に言うと、トレーニングプロセスの重要な特徴は、トレーニング中に、弁別器ニューラルネットワークへの入力データが、生成器ニューラルネットワークへのトレーニング入力データの少なくとも一部を含むことである。すなわち、生成器ニューラルネットワークによって出力される高解像度合成画像又はトレーニング例のうちの1つにおける高解像度トレーニング画像110cに加えて、弁別器ニューラルネットワークへの入力データは、低解像度トレーニング画像110a及び/又は基準トレーニング画像110bを更に含む。
【0052】
典型的には、GANモデルの弁別器ニューラルネットワークは、生成器ニューラルネットワークによって生成された信号と、トレーニング例において提供される実信号とを区別することを目的とし、したがって、弁別器ニューラルネットワークへの入力は、通常、弁別器ニューラルネットワークによって出力された信号又はトレーニング例における実信号のみを含む。トレーニング中に生成器ニューラルネットワークへの入力信号の一部を弁別器ニューラルネットワークへの入力信号に組み込むことによって、高解像度画像が基準入力画像による低解像度入力画像の妥当なアップスケーリングであるかどうかを決定するために弁別器ニューラルネットワークがより効果的にトレーニングされるので、トレーニングエンジン122は、GANモデルの性能及び/又はトレーニング効率を改善する。結果として生じる改善は、弁別器ニューラルネットワークのより良好な予測精度、生成器ニューラルネットワークによって生成される高解像度合成画像におけるより良好な品質、及び/又はGANモデルの特定の性能メトリックを達成するためにより少ないトレーニング例を必要とし、したがって、トレーニングを実行するために必要とされる計算能力を低減させるなど、トレーニング効率の改善を含む。
【0053】
更に、高解像度画像を生成するための多くの従来のGANモデルでは、ノイズの画像が生成器ニューラルネットワークに渡される。対照的に、本明細書によって提供されるGANモデルでは、ノイズ画像は静的な値エポックを有さないので、ノイズ画像を生成器入力基準画像のうちの1つと見なすことはできない。
【0054】
いくつかの実装形態では、ノイズ画像は、生成器も弁別器ニューラルネットワークも通されない。いくつかの他の実装形態では、ノイズ画像が、弁別器ニューラルネットワークへの入力に含まれ得る。「実」例に対して弁別器ニューラルネットワークをトレーニングするとき、トレーニングエンジンは、実例と対にされる偽のノイズ画像を作成することができる。更にいくつかの他の実装形態では、「実」例について、トレーニングエンジンは、生成器へのその例の対応する入力に最も最近含まれた同じノイズ画像を使用することができる。
【0055】
図2は、GANモデルのネットワークパラメータを学習するためのトレーニングプロセスを示す。
図2に示す処理は、便宜上、1つ以上の位置に位置する1以上のコンピュータのシステムによって実行されるものとして説明する。例えば、本明細書に従って適切にプログラムされた
図1の高解像度画像生成システム120は、プロセスを実行するためのトレーニングエンジン122を含むことができる。トレーニングエンジンは、複数のトレーニング例210に基づいて、生成器ニューラルネットワーク230及び弁別器ニューラルネットワーク250のネットワークパラメータを学習することができる。
【0056】
図2に示す特定の例では、各トレーニング例は、第1の空間解像度を有する(例えば、活発な火災燃焼を有する領域の火災分布を示す)低解像度トレーニング画像210a、例えば、より高い空間解像度を有する領域の火災分布を示す)高解像度トレーニング画像210c(、及び(例えば、領域の火災感受性に関する特徴を示す)基準トレーニング画像210bを含む。トレーニングエンジンは、高解像度入力トレーニング画像210cを「実」データラベルとして使用する。
【0057】
トレーニングエンジンは、生成器ニューラルネットワークのためのトレーニング入力データ225を生成する生成器入力データ生成器220を含む。各トレーニング例について、生成器ニューラルネットワークのためのトレーニング入力データ225は、低解像度トレーニング画像210a及び基準トレーニング画像210bを含む。生成器入力データ生成器220は、低解像度トレーニング画像210aを基準トレーニング画像210bと組み合わせることによって、例えば、スタックすることによって、トレーニング入力225を生成することができる。
【0058】
トレーニングエンジンは、弁別器入力データ245を生成する弁別器入力データ生成器240も含む。弁別器入力データ245は、弁別器ニューラルネットワークへの入力データである。トレーニングプロセスの重要な特徴は、弁別器入力データ245が、生成器トレーニング入力データ225の少なくとも一部、例えば、低解像度トレーニング画像210a及び/又は基準トレーニング画像210bを含むことである。
【0059】
いくつかの実装形態では、弁別器入力データ245は、生成器トレーニング入力データ225の全て、すなわち低解像度トレーニング画像210aと基準トレーニング画像210bの両方を含むことができる。トレーニングエンジンは、生成器トレーニング入力データ225を高解像度弁別器入力画像と組み合わせて、弁別器入力データ245を形成することができる。高解像度弁別器入力画像は、生成器ニューラルネットワークによって出力された高解像度合成画像235又は高解像度トレーニング画像210c(「実」画像)であり得る。
【0060】
具体的には、弁別器入力データ生成器240は、生成器ニューラルネットワークによって出力された高解像度合成画像235を生成器トレーニング入力データ(すなわち、低解像度トレーニング画像210a及び/又は基準トレーニング画像210b)と組み合わせることによって(例えば、スタックすることによって)、弁別器入力データ245の第1のインスタンスを生成することができる。弁別器入力データ生成器240はまた、高解像度トレーニング画像210cを生成器トレーニング入力データ(すなわち、低解像度トレーニング画像210a及び基準トレーニング画像210b)と組み合わせることによって(例えば、スタックすることによって)、弁別器入力データ245の第2のインスタンスを生成することができる。
【0061】
トレーニングエンジンは、弁別器ニューラルネットワーク250を使用して、弁別器入力データ245の第1のインスタンス及び第2のインスタンスをそれぞれ処理し、高解像度合成画像235と、弁別器入力データ245に含まれる高解像度トレーニング画像210(「実」画像)とを区別する予測255を生成する。一例では、予測255は、弁別器入力データ245が「実」画像を含む確率を測定するスコアであり得る。例えば、出力されたスコア「1」は、弁別器ニューラルネットワークが高解像度トレーニング画像210cを含む弁別器入力データ245を予測したことを示し、出力されたスコア「0」は、弁別器ニューラルネットワークが高解像度合成画像235を含む弁別器入力データ245を予測したことを示す。
【0062】
トレーニングエンジンは、弁別器ニューラルネットワークの予測誤差、すなわち、出力された予測255と、弁別器入力データ245が高解像度合成画像235を含む(すなわち、弁別器ニューラルネットワークの入力データが弁別器入力データの第1のインスタンスである)か、又は弁別器入力データ245が高解像度トレーニング画像210cを含む(すなわち、弁別器ニューラルネットワークの入力データが弁別器入力データの第2のインスタンスである)かとの間の比較差を測定する第1の損失関数に基づいて、弁別器ニューラルネットワーク250のネットワークパラメータを更新することができる。トレーニングエンジンは、任意の適切な逆伝播ベースの機械学習技法を使用して、例えば、Adam又はAdaGradオプティマイザを使用することによって、第1の損失関数を最小化するように、弁別器ニューラルネットワーク250のネットワークパラメータを更新することができる。
【0063】
トレーニングエンジンは、第2の損失関数に基づいて生成器ニューラルネットワーク230のネットワークパラメータを更新することができる。第2の損失関数は、弁別器ニューラルネットワークによって出力される予測255の減少関数を測定する敵対的損失を含むことができ、弁別器入力データは、生成器ニューラルネットワークによって出力される高解像度合成画像235を含む。敵対的損失の値が大きいほど、弁別器ニューラルネットワークが、弁別器入力データ235内の入力高解像度画像が「実」画像である確率の減少を予測することを示す。トレーニングエンジンは、任意の適切な逆伝播ベースの機械学習技法を使用して、例えば、Adam又はAdaGradオプティマイザを使用することによって、第2の損失関数を最小化するように、生成器ニューラルネットワーク230のネットワークパラメータを更新することができる。
【0064】
トレーニングエンジンは、停止基準に達するまで、例えば、高解像度合成画像と高解像度トレーニング画像との間の差が閾値未満になるまで、更新動作を交互に繰り返すことができる。生成器ニューラルネットワーク230のネットワークパラメータ及び弁別器ニューラルネットワーク250のネットワークパラメータは両方とも、繰り返される交互トレーニングプロセス中に経時的に改善する。
【0065】
図3は、GANモデルを使用して合成信号を生成するための例示的なプロセス300を示すフローチャートである。便宜上、プロセス300は、1つ以上の位置に位置する1つ以上のコンピュータのシステムによって実施されるものとして説明される。例えば、本明細書に従って適切にプログラムされた信号生成システム、例えば
図1の高解像度画像生成システム120は、プロセス300を実行することができる。
【0066】
一般に、プロセス300を実行する際、システムは、GANモデルを使用して、入力信号に基づいて合成信号を生成する。入力信号は、1つ以上の第1の特性を有する。合成信号は、1つ以上の第1の特性とは異なる1つ以上の第2の特性を有する。例えば、入力信号は、第1の空間解像度を有する低解像度入力画像であり得る。合成信号は、第1の空間解像度より高い第2の空間解像度を有する高解像度合成画像とすることができる。
【0067】
GANモデルは、生成器ニューラルネットワークと弁別器ニューラルネットワークとを含む。システムは、少なくとも入力信号を処理して、合成信号を含む出力データを生成する。生成器ニューラルネットワークは、複数のトレーニング例に基づいて、弁別器ニューラルネットワークを用いてトレーニングされる。
【0068】
図3に示すように、プロセス300は、以下の動作を含む。
【0069】
動作310において、システムは、少なくとも入力信号を含む生成器入力データを取得する。生成器入力データは、生成器ニューラルネットワークへの入力データである。システムは、データ伝送インターフェース又はネットワークを介して、コンピューティングデバイス、データ取得デバイス、又はストレージデバイスなどの様々なソースから生成器入力データを取得することができる。入力信号は、1つ以上の第1の特性を有する。入力信号は、オーディオ信号、画像、ビデオ、又は別のタイプの信号であり得る。
【0070】
例示的な一実装形態では、入力信号は、火災燃焼領域の火災空間分布をマッピングする第1の空間解像度を有する低解像度入力画像である。低解像度入力画像のデータタイプの一例は、1つ以上の帯域の低解像度衛星赤外線画像を含む。低解像度入力画像の別の例は、衛星赤外線測定値から導出された火災分布マップを含む。例示的な例では、第1の空間解像度は、約400m/ピクセル以下の解像度であり得る。
【0071】
生成器入力データは、入力信号に加えて、基準信号などの他のデータを含むことができる。システムは、入力信号を基準信号と組み合わせることによって、例えば、連結又はスタックすることによって、生成器入力データを生成することができる。例えば、上述した例示的な実装形態では、生成器入力データは、同じ領域の基準入力画像を更に含むことができる。基準入力画像は、第1の空間情報よりも高い空間解像度を有し、領域の特徴を示す情報を含むことができる。例えば、基準入力画像は、可視帯域における衛星画像、航空写真(例えば、ドローンによって収集される)、ラベル付き調査マップ、並びに可視及び近IR画像から計算される植生指数マップであり得る。基準入力画像は、火災の前に収集することができ、地形的特徴(例えば、高度、斜面、河川、海岸線など)、人工構造物(道路、建物、土地など)、植生指数、及び/又は同じ領域の土壌水分などの特徴に関して、低解像度入力画像と比較してより高い解像度で、火災感受性に関する情報を提供することができる。基準入力画像はまた、その領域の火傷瘢痕を示す火災後画像であり得、これはまた、火災感受性を示す情報を提供する。システムは、組み合わせることによって、例えば、低解像度入力画像を基準入力画像とスタックすることによって、生成器入力データを生成することができる。
【0072】
動作320において、システムは、GANモデルの生成器ニューラルネットワークを使用して生成器入力データを処理して、合成信号を含む出力データを生成する。合成信号は、オーディオ信号、画像、ビデオ、又は別のタイプの信号であり得る。合成信号は、入力信号の1つ以上の第1の特性とは異なる1つ以上の第2の特性を有する。
【0073】
例示的な実装形態では、入力信号は、第1の空間解像度を有する低解像度入力画像であり、合成信号は、第1の空間解像度よりも高い第2の空間解像度を有する高解像度合成画像である。すなわち、生成器ニューラルネットワークは、アップスケーリングされた解像度を有し、入力画像と比較してより細かい空間詳細を提供する合成画像を生成する。例えば、低解像度入力画像の第1の空間解像度は、400m/ピクセル付近又はそれ以下の解像度とすることができ、高解像度合成画像の第2の解像度は、20m/ピクセルより高い解像度とすることができる。
【0074】
生成器入力データが追加データを含むとき、システムは、入力信号を追加データ(例えば、基準信号)と組み合わせて、生成器ニューラルネットワークへの入力を形成することができ、生成器ニューラルネットワークを使用して、組み合わされた入力を処理して、合成信号を生成する。例えば、生成器入力データは、第1の空間解像度を有する低解像度入力画像(第1の特性を有する入力信号)と、第1の空間情報(基準信号)よりも高い空間解像度を有する基準入力画像とを含むことができる。システムは、高解像度合成画像(第2の特性を有する合成信号)を含む出力データを生成するために、低解像度入力画像と基準入力画像とを組み合わせる入力を処理するために生成器ニューラルネットワークを使用することができる。
【0075】
生成器入力データを処理するために使用される生成器ニューラルネットワークは、例えば、1つ以上の全結合層、畳み込み層、パラメトリック整流線形ユニット(PReLU)層、及び/又はバッチ正規化層を含む、複数のネットワーク層を含むことができる。いくつかの実装形態では、生成器ニューラルネットワークは、スキップ接続層を含む1つ以上の残差ブロックを含むことができる。
【0076】
生成器ニューラルネットワークは、ネットワーク層の重み及びバイアスパラメータを含むネットワークパラメータのセットを含む。生成器ニューラルネットワークのネットワークパラメータのセットは、便宜上、ネットワークパラメータの第1のセットと呼ばれる。ネットワークパラメータの第1のセットは、モデルの出力と所望の出力との間の損失特徴付け差分を最小化するように、トレーニングプロセスにおいて更新される。
【0077】
ネットワークパラメータを取得するためのトレーニングプロセスは、
図4を参照して説明される。簡単に説明すると、生成器ニューラルネットワークは、複数のトレーニング例に基づいて、GANモデルの弁別器ニューラルネットワークを用いてトレーニングされる。弁別器ニューラルネットワークは、弁別器入力信号を含む弁別器入力データを処理するように構成される。弁別器入力信号は、生成器ニューラルネットワークによって出力される合成信号として1つ以上の第2の特性を有する。例えば、合成信号が第2の空間解像度を有する高解像度合成画像である場合、弁別器ニューラルネットワークの弁別器入力信号も第2の空間解像度を有する高解像度画像である。弁別器ニューラルネットワークは、第2の入力を処理して、弁別器入力データ内の弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供される実信号であるか、又は生成器ニューラルネットワークによって出力される合成信号であるかの予測を生成する。
【0078】
トレーニングプロセスの重要な特徴は、弁別器入力データ(弁別器ニューラルネットワークの入力)が、トレーニングプロセス中に生成器ニューラルネットワークへの入力として使用されたデータの少なくとも一部を含むことである。例えば、トレーニング例は、第1の空間解像度を有する低解像度トレーニング画像と、第1の空間解像度よりも高い第2の空間解像度を有する高解像度トレーニング画像と、第1の空間解像度よりも高い第3の空間解像度を有する基準トレーニング画像とを含むことができる。生成器ニューラルネットワークのためのトレーニング入力データは、低解像度トレーニング画像及び基準トレーニング画像を含むことができる。生成器ニューラルネットワークを使用して、低解像度トレーニング画像と基準トレーニング画像とを組み合わせる生成器ニューラルネットワークのためのトレーニング入力データを処理することによって、システムは、第2の空間解像度を有する高解像度合成画像(合成信号)を生成することができる。次いで、システムは、高解像度弁別器入力画像を、例えば、低解像度トレーニング画像及び/又は基準トレーニング画像を含む生成器ニューラルネットワークのためのトレーニング入力データの少なくとも一部と組み合わせることによって、弁別器入力データを生成する。高解像度弁別器入力画像は、生成器ニューラルネットワークによって出力される高解像度合成画像又は高解像度トレーニング画像であり得る。この場合、弁別器入力データにも含まれる生成器ニューラルネットワークのためのトレーニング入力データの一部は、低解像度トレーニング画像及び/又は基準トレーニング画像を含む。
【0079】
動作330において、システムは、合成信号をデバイスに出力する。例示的な実装形態では、合成信号は高解像度合成画像であり、システムは、高解像度合成画像を、画像を表示するためにディスプレイデバイスに、画像データを記憶するためにストレージデバイスに、又は画像データをユーザデバイスに送信するためにネットワークデバイスに出力することができる。
【0080】
図4は、GANモデルをトレーニングするための方法400を示すフローチャートである。便宜上、プロセス400は、1つ以上の位置に位置する1つ以上のコンピュータのシステムによって実施されるものとして説明される。例えば、本明細書に従って適切にプログラムされた信号生成システム、例えば、
図1の高解像度画像生成システム120は、プロセス400を実行するためのトレーニングエンジン122を含むことができる。
【0081】
一般に、プロセス400を実行する際に、システムは、複数のトレーニング例に基づいて、生成器ニューラルネットワーク及び弁別器ニューラルネットワークを含むGANモデルをトレーニングする。生成器ニューラルネットワークは、入力信号を含む生成器入力データを処理して、合成信号を含む出力データを生成するように構成される。入力信号は、1つ以上の第1の特性を有し、合成信号は、第1の特性とは異なる1つ以上の第2の特性を有する。生成器ニューラルネットワークは、例えば、1つ以上の全結合層、畳み込み層、パラメトリック整流線形ユニット(PReLU)層、及び/又はバッチ正規化層を含む、複数のネットワーク層を含むことができる。いくつかの実装形態では、生成器ニューラルネットワークは、スキップ接続層を含む1つ以上の残差ブロックを含むことができる。
【0082】
生成器ニューラルネットワークは、ネットワーク層の重み及びバイアスパラメータを含むネットワークパラメータのセットを含む。生成器ニューラルネットワークのネットワークパラメータのセットは、便宜上、ネットワークパラメータの第1のセットと呼ばれる。
【0083】
弁別器ニューラルネットワークは、弁別器入力信号が複数のトレーニング例のうちの1つにおいて提供される実信号であるか、又は生成器ニューラルネットワークによって出力される合成信号であるかの予測を生成するために、弁別器入力信号と生成器入力データの少なくとも一部とを組み合わせる弁別器入力データを処理するように構成される。
【0084】
弁別器ニューラルネットワークは、例えば、1つ以上の畳み込み層、漏洩整流線形ユニット(ReLU)層、高密度層、及び/又はバッチ正規化層を含む複数のネットワーク層を含むことができる。弁別器ニューラルネットワークはまた、ネットワーク層の重み及びバイアスパラメータを含むネットワークパラメータのセットを含む。弁別器ニューラルネットワークのネットワークパラメータのセットは、便宜上、ネットワークパラメータの第2のセットと呼ばれる。
【0085】
図3を参照して説明したGANモデルと同様に、生成器ニューラルネットワークモデルのための入力信号は、1つ以上の第1の特性を有する。例えば、入力信号は、第1の空間解像度を有する低解像度入力画像であり得る。生成器ニューラルネットワークによって出力される合成信号は、1つ以上の第1の特性とは異なる1つ以上の第2の特性を有する。例えば、合成信号は、第1の空間解像度よりも高い第2の空間解像度を有する高解像度合成画像であり得る。合成信号と同様に、弁別器ニューラルネットワークのための弁別器入力信号も、1つ以上の第2の特性を有する。例えば、弁別器入力信号は、第2の空間解像度を有する高解像度画像とすることができる。
【0086】
トレーニングプロセスの間、生成器ニューラルネットワークのためのネットワークパラメータの第1のセットは、以下の動作において詳述されるように、繰り返し交互に、弁別器ニューラルネットワークのためのネットワークパラメータの第2のセットを用いて更新されることができる。
【0087】
動作410において、システムは、複数のトレーニング例を取得する。いくつかの実装形態では、システムは、データ伝送インターフェース又はネットワークを介して、コンピューティングデバイス、データ取得デバイス、又はストレージデバイスなどの様々なソースから複数のトレーニング例を含むデータを取得することができる。各トレーニング例は、少なくとも、1つ以上の第1の特性を有する第1のトレーニング信号と、1つ以上の第2の特性を有する第2のトレーニング信号とを含む。いくつかの他の実装形態では、システムは、例えば、データ合成及び/又は処理を実行することによって、計算に基づいてトレーニング例を少なくとも部分的に生成することができる。
【0088】
第1のトレーニング信号及び第2のトレーニング信号は、オーディオ、ビデオ、画像、又は他のタイプの信号であり得る。例えば、第1のトレーニング信号は、第1の空間解像度を有する低解像度トレーニング画像である。第2のトレーニング信号は、第1の空間解像度よりも高い第2の空間解像度を有する高解像度画像である。
【0089】
例示的な一実装形態では、第1のトレーニング信号は、第1の空間解像度(例えば、約400m/ピクセル又はそれ以下の解像度)で火災燃焼領域の火災の空間分布をマッピングする低解像度トレーニング画像である。第2のトレーニング信号は、増加された空間解像度(例えば、20m/ピクセルより高い解像度)で同じ領域の火災の空間分布をマッピングする高解像度画像である。
【0090】
低解像度トレーニング画像の一例は、1つ以上の帯域における低解像度衛星赤外線画像を含む。低解像度トレーニング画像の別の例は、衛星赤外線測定値から導出された火災分布マップを含む。いくつかの事例では、高解像度衛星測定値と低解像度衛星測定値の両方が、活発な火災中の同じ時点で同じ領域に対して利用可能である。これらの測定値は、それぞれ高解像度トレーニング画像(第2のトレーニング信号)及び低解像度トレーニング画像(第1のトレーニング信号)として収集することができる。いくつかの他の事例では、高解像度衛星測定値のみが、活発な火災燃焼下の領域に対して利用可能である場合である。これらの場合、追加のトレーニング例を作成するために、システムは、対応する高解像度トレーニング画像をダウンサンプリングすることによって低解像度トレーニング画像を生成することができる。
【0091】
いくつかの実装形態では、生成器ニューラルネットワークは、合成信号を生成するために、入力信号と基準信号とを含む入力を処理するように構成される。したがって、第1のトレーニング信号及び第2のトレーニング信号に加えて、各トレーニング例は、1つ以上の第3の特性を有する基準トレーニング信号を更に含む。上述の例示的な実装形態では、基準トレーニング信号は、第1の空間解像度よりも高い第3の空間解像度を有する基準トレーニング画像であり得る。基準トレーニング画像は、領域の特徴を示す情報を含むことができる。例えば、基準入力画像は、可視帯域における衛星画像、航空写真(例えば、ドローンによって収集される)、ラベル付き調査マップ、並びに可視及び近IR画像から計算される植生指数マップであり得る。基準トレーニング画像は、火災の前に収集することができ、地形的特徴(例えば、高度、斜面、河川、海岸線など)、人工構造物(道路、建物、土地など)、植生指数、及び/又は同じ領域の土壌水分などの特徴に関して、低解像度入力画像と比較してより高い解像度で、火災感受性に関する情報を提供することができる。基準入力画像はまた、その領域の火傷瘢痕を示す火災後画像であり得、これはまた、火災感受性を示す情報を提供する。
【0092】
複数のトレーニング例の各々に基づいて、システムは、動作420~450を繰り返し実行する。
【0093】
動作420において、システムは、生成器ニューラルネットワークのためのトレーニング入力データを生成する。生成器ニューラルネットワークのためのトレーニング入力データは、トレーニング例に基づく生成器ニューラルネットワークへの入力データであり、トレーニング例における第1のトレーニング信号を少なくとも含む。いくつかの実装形態では、トレーニング例が基準トレーニング信号も含むとき、生成器ニューラルネットワークのためのトレーニング入力データは、基準トレーニング信号を更に含む。システムは、第1のトレーニング入力信号を基準トレーニング信号と組み合わせることによって、例えば連結することによって、生成器ニューラルネットワークのためのトレーニング入力データを生成することができる。
【0094】
例示的な実装形態では、トレーニング例は、第1の空間解像度を有する低解像度トレーニング画像(第1のトレーニング信号)と、第1の空間解像度よりも高い第2の空間解像度を有する高解像度トレーニング画像(第2のトレーニング信号)と、第1の空間解像度よりも高い第3の空間解像度を有する基準トレーニング画像(基準トレーニング信号)とを含む。システムは、低解像度トレーニング画像を基準トレーニング画像と組み合わせることによって、生成器ニューラルネットワークのためのトレーニング入力データを生成することができる。
【0095】
動作430において、システムは、生成器ニューラルネットワークを使用してトレーニング入力データを処理して、合成信号を生成する。合成信号は、1つ以上の第2の特性を有する。例えば、システムは、第2の空間解像度を有する高解像度合成画像を生成するために、低解像度トレーニング画像と基準トレーニング画像とを組み合わせる生成器ニューラルネットワークのためのトレーニング入力データを処理することができる。
【0096】
動作440において、システムは、弁別器入力信号の第1のインスタンスを生成器ニューラルネットワークのためのトレーニング入力データの少なくとも一部と組み合わせることによって弁別器入力データの第1のインスタンスを生成し、弁別器ニューラルネットワークを使用して弁別器入力データの第1のインスタンスを処理して、第1の予測を生成する。弁別器入力信号の第1のインスタンスは、生成器ニューラルネットワークによって出力された合成信号である。
【0097】
例示的な実装形態では、トレーニング例は、第1の空間解像度を有する低解像度トレーニング画像(第1のトレーニング信号)と、第1の空間解像度よりも高い第2の空間解像度を有する高解像度トレーニング画像(第2のトレーニング信号)と、第1の空間解像度よりも高い第3の空間解像度を有する基準トレーニング画像(基準トレーニング信号)とを含む。生成器ニューラルネットワークを使用して、低解像度トレーニング画像と基準トレーニング画像とを組み合わせる生成器ニューラルネットワークのためのトレーニング入力データを処理することによって、システムは、第2の空間解像度を有する高解像度合成画像(合成信号)を生成することができる。次いで、システムは、生成器ニューラルネットワークによって出力された高解像度合成画像を、例えば、低解像度トレーニング画像及び/又は基準トレーニング画像を含む生成器ニューラルネットワークのためのトレーニング入力データの少なくとも一部と組み合わせることによって、弁別器入力データの第1のインスタンスを生成する。例えば、いくつかの事例では、生成器ニューラルネットワークのためのトレーニング入力データの一部は、低解像度トレーニング画像のみを含むことができる。いくつかの他の事例では、生成器ニューラルネットワークのためのトレーニング入力データの一部は、低解像度トレーニング画像と基準トレーニング画像の両方を含むことができる。
【0098】
動作450において、システムは、弁別器入力信号の第2のインスタンスを生成器ニューラルネットワークのためのトレーニング入力データの一部と組み合わせることによって、弁別器入力データの第2のインスタンスを生成し、弁別器ニューラルネットワークを使用して弁別器入力データの第2のインスタンスを処理して、第2の予測を生成する。弁別器入力信号の第2のインスタンスは、トレーニング例における第2のトレーニング信号である。
【0099】
動作440で説明したのと同じ例示的な実装形態では、弁別器入力データの第1のインスタンスは、生成器ニューラルネットワークによって出力された高解像度合成データを含み、生成器ニューラルネットワークのためのトレーニング入力データの一部は、例えば、低解像度トレーニング画像及び/又は基準トレーニング画像を含む。システムは、トレーニング例における高解像度トレーニング画像を、弁別器入力データの第1のインスタンスに含まれる生成器ニューラルネットワークのためのトレーニング入力データの同じ部分と組み合わせることによって、弁別器入力データの第2のインスタンスを生成することができる。すなわち、弁別器入力データの第2のインスタンスは、例えば、低解像度トレーニング画像及び/又は基準トレーニング画像を含む生成器ニューラルネットワークのためのトレーニング入力データの一部と組み合わされた高解像度トレーニング画像を含む。
【0100】
動作460において、システムは、第1の損失関数に基づいて、弁別器ニューラルネットワークのネットワークパラメータの第1のセットを更新する。第1の損失関数は、弁別器ニューラルネットワークによって出力された予測と、弁別器入力データ内の弁別器入力信号が第2のトレーニング信号であるか合成信号であるかとの間の比較差を測定することができる。
【0101】
弁別器ニューラルネットワークは、弁別器入力データ内の弁別器入力信号が、トレーニング例(すなわち、第2のトレーニング信号)において提供される「実」信号であるか、又は生成器ニューラルネットワークによって出力される合成信号であるかの予測を生成するように構成される。例えば、弁別器ニューラルネットワークは、弁別器入力信号が「実」信号である確率を予測する0~1の範囲の予測スコア(例えば、弁別器入力信号が実信号であることを予測するための「1」の予測スコア、及び弁別器入力信号が合成信号であることを予測するための「0」の予測スコア)を出力することができる。弁別器ニューラルネットワークのネットワークパラメータ(例えば、重み及びバイアスパラメータ)を更新するために、システムは、第1の損失関数として弁別器ニューラルネットワークの予測誤差を計算し、第1の損失関数を最小化するように弁別器ニューラルネットワークのネットワークパラメータを更新することができる。システムは、任意の適切な逆伝播ベースの機械学習技法を使用して、例えば、Adam又はAdaGradオプティマイザを使用して、第1の損失関数に基づいて弁別器ニューラルネットワークのネットワークパラメータを更新することができる。
【0102】
動作470において、システムは、第2の損失関数に基づいて生成器ニューラルネットワークのネットワークパラメータの第2のセットを更新する。第2の損失関数は、弁別器入力データに含まれる弁別器入力信号が生成器ニューラルネットワークによって出力される合成信号である間に、弁別器ニューラルネットワークによって出力される予測の減少関数を測定する敵対的損失を含むことができる。敵対的損失のより大きな値は、弁別器ニューラルネットワークが、弁別器入力データ内の弁別器入力信号が「実」信号である確率の減少を予測することを示す。
【0103】
いくつかの実装形態では、弁別器ニューラルネットワークのネットワークパラメータが更新された後(動作460におけるように)、システムは、更新された弁別器ニューラルネットワークを使用して、弁別器入力データ内の弁別器入力信号として生成器ニューラルネットワークによって出力された合成信号に基づいて予測を再び生成することができる。次いで、システムは、生成器ニューラルネットワークによって出力された予測の減少関数の測定値を含む第2の損失関数を最小化するように、生成器ニューラルネットワークのネットワークパラメータを更新することができる。システムは、任意の適切な逆伝播ベースの機械学習技法を使用して、例えば、Adam又はAdaGradオプティマイザを使用して、第2の損失関数に基づいて生成器ニューラルネットワークのネットワークパラメータを更新することができる。
【0104】
弁別器ニューラルネットワーク及び生成器ニューラルネットワークのネットワークパラメータを更新するためのステップ460及び動作470は、停止基準に達するまで、例えば、合成信号と「実」信号との間の差が閾値を下回るときまで、交互に繰り返すことができる。生成器ニューラルネットワークのネットワークパラメータ及び弁別器ニューラルネットワークのネットワークパラメータは両方とも、繰り返される交互トレーニングプロセスの間に経時的に改善する。
【0105】
図5は、上述の動作を実行するために使用することができる例示的なコンピュータシステム500のブロック図である。システム500は、プロセッサ510と、メモリ520と、ストレージデバイス530と、入力/出力デバイス540とを含む。コンポーネント510、520、530、及び540の各々は、例えば、システムバス550を使用して、相互接続することができる。プロセッサ510は、システム500内で実行するための命令を処理することができる。一実装形態では、プロセッサ510は、シングルスレッドプロセッサである。別の実装形態では、プロセッサ510は、マルチスレッドプロセッサである。プロセッサ510は、メモリ520又はストレージデバイス530に記憶された命令を処理することができる。
【0106】
メモリ520は、システム500内の情報を記憶する。一実装形態では、メモリ520は、コンピュータ可読媒体である。一実装形態では、メモリ520は、揮発性メモリユニットである。別の実装形態では、メモリ520は、不揮発性メモリユニットである。
【0107】
ストレージデバイス530は、システム500にマスストレージを提供することができる。一実装形態では、ストレージデバイス530は、コンピュータ可読媒体である。様々な異なる実装形態では、ストレージデバイス530は、例えば、ハードディスクデバイス、光ディスクデバイス、複数のコンピューティングデバイスによってネットワークを介して共有されるストレージデバイス(例えば、クラウドストレージデバイス)、又は何らかの他の大容量ストレージデバイスを含むことができる。
【0108】
入力/出力デバイス540は、システム500のための入力/出力動作を提供する。一実装形態では、入力/出力デバイス540は、1つ以上のネットワークインターフェースデバイス、例えば、イーサネットカード、シリアル通信デバイス、例えば、RS-232ポート、及び/又は無線インターフェースデバイス、例えば、502.11カードを含むことができる。別の実装形態では、入力/出力デバイスは、入力データを受信し、かつ出力データを他の入力/出力デバイス、例えば、キーボード、プリンタ、及びディスプレイデバイス560に送信するように構成された、ドライバデバイスを含むことができる。しかしながら、モバイルコンピューティングデバイス、モバイル通信デバイス、セットトップボックステレビクライアントデバイスなどの、他の実装形態も使用することができる。
【0109】
例示的な処理システムが
図5に記載されているが、本明細書に記載の主題及び機能的動作の実装形態は、本明細書に開示された構造体及びそれらの構造的均等物を含む、他のタイプのデジタル電子回路、又はコンピュータソフトウェア、ファームウェア、若しくはハードウェア、あるいはそれらのうちの1つ以上の組み合わせに、実装することができる。
【0110】
本明細書では、システム及びコンピュータプログラムコンポーネントに関連して「構成された」という用語を使用している。1つ以上のコンピュータのシステムが特定の動作又はアクションを実行するように構成されているとは、システムが、動作中にシステムに動作又はアクションを実行させる、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせをインストールしていることを意味する。1つ以上のコンピュータプログラムが特定の動作又はアクションを実行するように構成されているとは、1つ以上のプログラムが、データ処理装置によって実行されたとき、装置に動作又はアクションを実行させる命令を含むことを意味する。
【0111】
本明細書に記載の主題及び機能的動作の実施形態は、本明細書に開示された構造体及びそれらの構造的均等物を含む、デジタル電子回路、有形に具現化されたコンピュータソフトウェア若しくはファームウェア、コンピュータハードウェア、又はそれらのうちの1つ以上の組み合わせに、実装することができる。本明細書に記載の主題の実施形態は、1つ以上のコンピュータプログラム、すなわち、データ処理装置による実行のために、又はデータ処理装置の動作を制御するために有形の非一時的記憶媒体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実装することができる。コンピュータ記憶媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、ランダム若しくはシリアルアクセスメモリデバイス、又はそれらのうちの1つ以上の組み合わせであり得る。代替的又は追加的に、プログラム命令は、人工的に生成された伝播信号、例えば、データ処理装置によって実行するために好適な受信装置に伝送される情報を符号化するために生成されるマシン生成の電気、光、又は電磁信号上に符号化することができる。
【0112】
「データ処理装置」という用語は、データ処理ハードウェアを指し、例として、プログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む、データを処理するためのあらゆる種類の装置、デバイス、及びマシンを包含する。装置はまた、例えば、FPGA(フィールドプログラマブルゲートアレイ)若しくはASIC(特定用途向け集積回路)などの専用論理回路であってもよく、又はそれを更に含んでもよい。装置は、任意選択的に、ハードウェアに加えて、コンピュータプログラムのための実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらのうちの1つ以上の組み合わせを構成するコードを含むことができる。
【0113】
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、又はコードとも称され得るか、若しくは記載され得る、コンピュータプログラムは、コンパイラ型若しくはインタプリタ型言語、又は宣言型言語若しくは手続き型言語を含む、任意の形式のプログラミング言語で記述され得、かつスタンドアロンプログラム若しくはモジュール、コンポーネント、サブルーチン、又はコンピューティング環境で使用するのに適した他のユニットを含む、任意の形式で展開され得る。プログラムは、ファイルシステム内のファイルに対応することができるが、対応する必要はない。プログラムは、他のプログラム又はデータを保持するファイルの一部分、例えば、マークアップ言語文書内、問題のプログラム専用の単一ファイル内、又は複数の協調ファイル、例えば、1つ以上のモジュール、サブプログラム、又はコードの一部分を記憶するファイル内に記憶された1つ以上のスクリプトに記憶することができる。コンピュータプログラムは、1つのコンピュータ上で、又は1つのサイトに位置する、若しくは複数のサイトにわたって分散され、かつデータ通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。
【0114】
本明細書において、「エンジン」という用語は、1つ以上の特定の機能を実行するようにプログラムされている、ソフトウェアベースのシステム、サブシステム、又はプロセスを指すために広く使用される。概して、エンジンは、1つ以上のソフトウェアモジュール又はコンポーネントとして実装され、1つ以上の位置にある1つ以上のコンピュータにインストールされる。場合によっては、1つ以上のコンピュータは、特定のエンジンに専用となる。他の場合には、複数のエンジンがインストールされ、同じコンピュータ(単数又は複数)上で動作することができる。
【0115】
本明細書に記載のプロセス及び論理フローは、入力データに対して動作して出力を生成することによって機能を実行するように、1つ以上のコンピュータプログラムを実行する1つ以上のプログラマブルコンピュータによって実行することができる。プロセス及び論理フローはまた、例えば、FPGA若しくはASICなどの専用論理回路によって、又は特定用途向け論理回路と1つ以上のプログラムされたコンピュータとの組み合わせによって実行することができる。
【0116】
コンピュータプログラムの実行に好適なコンピュータは、汎用若しくは専用のマイクロプロセッサ、又はその両方、あるいは任意の他の種類の中央処理装置に基づくことができる。概して、中央処理装置は、読み出し専用メモリ、又はランダムアクセスメモリ、又はその両方から命令及びデータを受信する。コンピュータの必須要素は、命令を実施するか又は実行するための中央処理装置、及び命令及びデータを記憶するための1つ以上のメモリデバイスである。中央処理装置及びメモリは、特殊目的ロジック回路によって補完され得るか、又は特殊目的ロジック回路に組み込まれ得る。概して、コンピュータはまた、データを記憶するための1つ以上のマスストレージデバイス、例えば、磁気ディスク、光磁気ディスク、若しくは光ディスクを含む、又はそれらからデータを受信する、若しくはそれらにデータを転送する、若しくはその両方を行うように動作可能に結合されている。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。更に、コンピュータは、別のデバイス、例えば、ほんの数例を挙げると、携帯電話、パーソナルデジタルアシスタント(personal digital assistant、PDA)、モバイルオーディオ若しくはビデオプレーヤ、ゲームコンソール、全地球測位システム(Global Positioning System、GPS)受信機、又はポータブルストレージデバイス、例えばユニバーサルシリアルバス(universal serial bus、USB)フラッシュドライブなどに組み込むことができる。
【0117】
コンピュータプログラム命令及びデータを記憶するのに好適なコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、EPROM、EEPROM、及びフラッシュメモリデバイスと、磁気ディスク、例えば、内蔵ハードディスク又はリムーバブルディスクと、光磁気ディスク、並びにCD-ROM及びDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリを含む。
【0118】
ユーザとの対話を提供するために、本明細書に記載の主題の実施形態は、コンピュータ上に実装することができ、コンピュータは、ユーザに情報を表示するための表示デバイス、例えば、CRT(cathode ray tube)(陰極線管)若しくはLCD(liquid crystal display)(液晶ディスプレイ)モニタ、並びにユーザがコンピュータに入力を提供することができる、キーボード及びポインティングデバイス、例えば、マウス又はトラックボールを有する。他の種類のデバイスが、ユーザとの相互作用を提供するために同様に使用され得、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであってもよく、ユーザからの入力は、音響、音声、又は触覚入力を含む、任意の形態で受信することができる。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、デバイスから文書を受信すること、例えば、ウェブブラウザから受信された要求に応答して、ユーザのデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと相互作用することができる。また、コンピュータは、テキストメッセージ又は他の形式のメッセージを、パーソナルデバイス、例えば、メッセージアプリケーションを実行しているスマートフォンに送信し、返信としてユーザからの応答メッセージを受信することにより、ユーザと対話することができる。
【0119】
機械学習モデルを実装するためのデータ処理装置には、例えば、機械学習の訓練又は本稼働の一般的で演算集約型の部分、すなわち、推論、ワークロードを処理するための専用ハードウェアアクセラレータユニットを含めることもできる。
【0120】
機械学習モデルは、機械学習フレームワーク、例えば、TensorFlowフレームワークを使用して実装及び展開することができる。
【0121】
本明細書に記載の主題の実施形態は、例えば、データサーバとしてのバックエンドコンポーネントを含む、又はミドルウェアコンポーネント、例えば、アプリケーションサーバを含む、又はフロントエンドコンポーネント、例えば、グラフィカルユーザインターフェース、ウェブブラウザ、若しくはユーザが本明細書に記載の主題の実装形態と相互作用することができるアプリを有するクライアントコンピュータを含む、又は1つ以上のそのようなバックエンド、ミドルウェア、若しくはフロントエンドコンポーネントの任意の組み合わせを含む、コンピューティングシステムに実装することができる。システムのコンポーネントは、デジタルデータ通信の任意の形態又は媒体、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)及びワイドエリアネットワーク(「WAN」)、例えば、インターネットが挙げられる。
【0122】
コンピューティングシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは概して互いに離れており、典型的には通信ネットワークを介して対話する。クライアント及びサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。いくつかの実施形態では、サーバは、例えば、クライアントとして動作するデバイスと相互作用するユーザにデータを表示し、ユーザからユーザ入力を受信する目的で、データ、例えば、HTMLページをユーザデバイスに送信する。ユーザデバイスにおいて生成されたデータ、例えば、ユーザ相互作用の結果は、デバイスからサーバにおいて受信することができる。
【0123】
本明細書は、多くの個々の実装形態の詳細を内包しているが、これらは、任意の特徴の範囲、又は特許請求され得る事項の範囲を限定するものとしてではなく、特定の実施形態に特有の特徴の説明として解釈されるものとする。別個の実施形態の文脈において本明細書に説明されるある特定の特徴はまた、単一の実施形態において組み合わせて実装することもできる。逆に、単一の実施形態の文脈で説明されている種々の特徴は、複数の実施形態で別個に、又は任意の好適な部分的組み合わせで実装することもできる。更に、特徴は、ある特定の組み合わせで作用するものとして上記で説明され、かつ最初にそのように特許請求されることさえあり得るが、特許請求された組み合わせからの1つ以上の特徴は、場合によっては、組み合わせから削除され得、特許請求された組み合わせは、部分組み合わせ又は部分組み合わせの変形に向けられ得る。
【0124】
同様に、動作は特定の順序で図面に描写されているが、これは、所望の結果を達成するために、そのような動作が示された特定の順序で若しくは連続的な順序で実施されること、又は全ての例示された動作が実施されることを必要とすると理解されるべきではない。ある特定の状況では、マルチタスキング及び並列処理が有利であり得る。更に、上で説明された実施形態における様々なシステムコンポーネントの分離は、全ての実施形態においてかかる分離を必要とすると理解されるべきではなく、説明されたプログラムコンポーネント及びシステムは、概して、単一のソフトウェア製品にともに一体化され得るか、又は複数のソフトウェア製品にパッケージ化され得ることを理解されたい。
【0125】
したがって、主題の特定の実施形態を説明してきた。他の実施形態は、以下の特許請求の範囲内である。いくつかの例では、特許請求の範囲に記載の動作は、異なる順序で実行することができ、それでもなお望ましい結果を達成することができる。更に、添付の図面に示されているプロセスは、望ましい結果を達成するために、示されている特定の順序、又は連続する順序を必ずしも必要としない。特定の実装形態では、マルチタスク処理及び並列処理が有利である場合がある。
【0126】
参考文献一覧
Ledigら、「Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network」、CoRR、2016年9月、https://arxiv.org/abs/1609.04802
【0127】
Rakotonirinaら、「ESRGAN+:Further Improving Enhanced Super-Resolution Generative Adversarial Network」、CoRR、2020年1月、https://arxiv.org/abs/2001.08073
【0128】
Wangら「ESRGAN:Enhanced Super-Resolution Generative Adversarial Networks」、CoRR、2018年9月、https://arxiv.org/abs/1809.00219
【国際調査報告】