特表2024-542330 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コモンウェルス　サイエンティフィック　アンド　インダストリアル　リサーチ　オーガナイゼーションの特許一覧

特表2024-542330照明スペクトル復元

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-15

(54)【発明の名称】照明スペクトル復元

(51)【国際特許分類】

G06T 7/00 20170101AFI20241108BHJP

G01N 21/27 20060101ALI20241108BHJP

【ＦＩ】

G06T7/00 350C

G01N21/27 A

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023534025

(86)(22)【出願日】2022-11-24

(85)【翻訳文提出日】2023-06-02

(86)【国際出願番号】 AU2022051404

(87)【国際公開番号】W WO2023092179

(87)【国際公開日】2023-06-01

(31)【優先権主張番号】2021903790

(32)【優先日】2021-11-24

(33)【優先権主張国・地域又は機関】AU

(81)【指定国・地域】

(71)【出願人】

【識別番号】590003283

【氏名又は名称】コモンウェルスサイエンティフィックアンドインダストリアルリサーチオーガナイゼーション

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】ナリマン・ハビリ

(72)【発明者】

【氏名】ジェレミー・オールオフ

【テーマコード（参考）】

2G059

5L096

【Ｆターム（参考）】

2G059AA05

2G059BB08

2G059EE02

2G059EE12

2G059FF01

2G059HH02

2G059KK04

2G059MM01

2G059MM05

2G059MM09

2G059MM10

2G059NN05

5L096DA01

5L096GA55

5L096HA11

5L096KA04

(57)【要約】

本開示は、たとえばハイパースペクトル画像またはマルチスペクトル画像などの電子画像の処理に関する。特に、本開示は、デジタル画像の照明スペクトルを推定するための方法、ソフトウェア、およびコンピュータシステムを提供する。プロセッサは、ニューラルネットワークの１または複数の畳み込み層において３次元畳み込みを計算することによって、デジタル画像にニューラルネットワークを適用する。３次元畳み込みは、スペクトル次元に沿った畳み込みを備える。その後、プロセッサは、ニューラルネットワーク内の１または複数の畳み込み層に接続された出力層を評価する。出力層は、各々がデジタル画像の照明スペクトルのそれぞれの帯域の強度値を提供する複数の出力値を有する。

【特許請求の範囲】

【請求項1】

デジタル画像における照明スペクトルを決定するための方法であって、
ニューラルネットワークの１または複数の畳み込み層において、スペクトル次元に沿った畳み込みを備える３次元畳み込みを計算することと、
各々が前記デジタル画像の前記照明スペクトルのそれぞれの帯域の強度値を提供する複数の出力値を有する、前記ニューラルネットワーク内の前記１または複数の畳み込み層に接続された出力層を評価することと
によって、前記デジタル画像に前記ニューラルネットワークを適用すること
を含む方法。

【請求項2】

前記出力層の前記出力値に平滑化関数を適用して、訓練中に最小化されるべきコスト値を計算することによって、前記ニューラルネットワークを訓練することを更に含む、請求項１に記載の方法。

【請求項3】

前記平滑化関数は、前記出力層の前記出力値に対する３次スプライン近似を備える、請求項２に記載の方法。

【請求項4】

前記デジタル画像の帯域をダウンサンプリングすることを更に含む、請求項１から３のいずれか一項に記載の方法。

【請求項5】

前記１または複数の畳み込み層は、前記デジタル画像の前記帯域をダウンサンプリングするように構成される、請求項４に記載の方法。

【請求項6】

前記畳み込み層の結果をアップサンプリングすることを更に含む、請求項１から５のいずれか一項に記載の方法。

【請求項7】

複数の訓練画像で前記ニューラルネットワークを訓練することを更に含む、請求項１から６のいずれか一項に記載の方法。

【請求項8】

訓練は、前記複数の訓練画像から、前記画像内の白色パッチから観察された照明スペクトルを抽出することを含む、請求項７に記載の方法。

【請求項9】

訓練は、前記複数の訓練画像から複数のサブ画像を生成することと、前記複数のサブ画像に関して前記決定された照明スペクトルと前記観察された照明スペクトルとの間の誤差を最小化することとを更に含む、請求項７または８に記載の方法。

【請求項10】

前記誤差は、３次平滑化スプライン関数に基づく、請求項９に記載の方法。

【請求項11】

前記誤差は、平均二乗誤差に基づく第１の被加数および粗さペナルティを表す第２の被加数を備える誤差関数によって表される、請求項１０に記載の方法。

【請求項12】

前記粗さペナルティは、出力値の順方向差分に基づく、請求項１１に記載の方法。

【請求項13】

前記ニューラルネットワークはＲｅｓＮｅｔに基づく、請求項１から１２のいずれか一項に記載の方法。

【請求項14】

前記出力層は、全結合層である、請求項１から１３のいずれか一項に記載の方法。

【請求項15】

前記照明スペクトルに基づいて前記デジタル画像を処理することを更に含む、請求項１から１４のいずれか一項に記載の方法。

【請求項16】

前記デジタル画像を処理することは、前記照明スペクトルに関して前記デジタル画像を正規化することによって反射率画像を計算することを含む、請求項１５に記載の方法。

【請求項17】

前記１または複数の畳み込み層の各々は、奥行き、高さ、および幅を有する畳み込みフィルタを備え、前記フィルタの前記幅は、前記フィルタの前記高さよりも大きく、前記フィルタの前記幅よりも大きい、請求項１から１６のいずれか一項に記載の方法。

【請求項18】

前記ニューラルネットワークは、マックスプーリング層を備え、前記マックスプーリング層は、前記畳み込みフィルタよりも小さいサイズを有するフィルタを備える、請求項１７に記載の方法。

【請求項19】

前記デジタル画像はハイパースペクトル画像である、請求項１から１８のいずれか一項に記載の方法。

【請求項20】

コンピュータによって実行されると、前記コンピュータに、請求項１から１９のいずれか一項に記載の方法を実行させるソフトウェア。

【請求項21】

デジタル画像における照明スペクトルを決定するためのコンピュータシステムであって、
ニューラルネットワークの１または複数の畳み込み層において、スペクトル次元に沿った畳み込みを備える３次元畳み込みを計算することと、
各々が前記デジタル画像の前記照明スペクトルのそれぞれの帯域の強度値を提供する複数の出力値を有する、前記ニューラルネットワーク内の前記１または複数の畳み込み層に接続された出力層を評価することと
によって、前記デジタル画像に前記ニューラルネットワークを適用するように構成されたプロセッサを備えるコンピュータシステム。

【請求項22】

前記デジタル画像を生成する画像センサと、前記デジタル画像および前記照明スペクトルを格納する記憶媒体とを更に備える、請求項２１に記載のコンピュータシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、参照によってその内容の全体が本明細書に組み込まれる、２０２１年１１月２４日に出願されたオーストラリア仮特許出願第２０２１９０３７９０号からの優先権を主張するものである。

【0002】

本開示は、たとえばハイパースペクトル画像またはマルチスペクトル画像などの電子画像の処理に関する。特に、本開示は、画像の照明スペクトルを推定するための方法、ソフトウェア、およびコンピュータシステムを提供する。

【背景技術】

【0003】

シーン内のオブジェクトの外観は、光源色に大きく依存する。したがって、光のパワースペクトルの復元は、認識、監視、および視覚追跡に応用されている。その重要性にもかかわらず、シーンにおける光源色の復元および識別は、制御下にない現実世界の像では困難な課題であることが証明されている。

【0004】

従来、ハイパースペクトル画像の照明スペクトルは、シーン内に設置された白色基準ターゲット（またはスペクトラロン）に反射した照明を測定することによって復元される。しかし、シーン内に白色基準パネルを設置し、照明スペクトルを推定することは、時間がかかる試みであり、必ずしも実用的ではない。たとえば、動くセンサプラットフォーム（たとえば車両）から画像が捕捉される場合、全ての画像に白色基準パネルを使用することは実現不可能である。

【0005】

図１は、特定の照明スペクトルを有する太陽１０４によって照らされた山１０２を備えるシーン例１００を示す。シーン１００を捕捉する際、従来のカメラはホワイトバランスを行うが、これは、白色基準なしでは困難であることが多い。

【0006】

図２は、シーン例１００をより詳しく示す。太陽（光源）１０４は、光源スペクトル２０４を有する。山１０２は、反射率スペクトル２１０を有する。簡潔性のために１つの反射率スペクトルのみが示されるが、当然、多くの異なる物質の多くの異なる反射率スペクトルが存在し得る。

【0007】

光源１０４からの光が山１０２に当たると、光源スペクトル２０４に反射率スペクトル２１０が掛け合わされ、その結果生じるスペクトルが放射輝度スペクトル２１４としてセンサ２１２に到達する。センサ２１２は、たとえば１００万など多数の画素を有し、各画素位置に関して、放射輝度スペクトルの個別のサンプリングバージョンを捕捉する。

【0008】

図３は、マルチスペクトル画像データのデータ構造３００を示す。データ構造３００は、各波長について１つの層を備える。各層は、１つの波長および全ての画素に関する放射輝度値を表し、一例となる画素３０２が強調されている。異なる波長に関する画素３０２の値、すなわち画素３０２と同じ位置における下層からの放射輝度値は、画像スペクトルまたは入力スペクトルとも称される放射輝度スペクトルを表す。

【0009】

本明細書に含まれる文書、動作、材料、デバイス、物品などの説明はいずれも、これらの事項のいずれかまたは全てが先行技術基準の一部を形成すること、あるいは本出願の各請求項の優先日よりも前に存在した本開示の関連分野における共通の一般知識であったことを認めるものとは見なされない。

【0010】

本明細書を通して、「備える」（“comprise”）という語、またはたとえば“comprises”や“comprising”などの変形は、記載された要素、整数、またはステップ、あるいは要素、整数、またはステップのグループを含むことを意味するが、他の要素、整数、またはステップ、あるいは要素、整数、またはステップのグループを除外することを意味するものではないことが理解される。

【先行技術文献】

【非特許文献】

【0011】

【非特許文献1】K. Simonyan and A. Zisserman，"Very Deep Convolutional Networks for Large-Scale Image Recognition"，International Conference on Learning Representations，201

【非特許文献2】K. He, X. Zhang, S. Ren and J. Sun，"Deep Residual Learning for Image Recognition"，IEEE Conference on Computer Vision and Pattern Recognition，2016

【非特許文献3】K. He, X. Zhang, S. Ren and J. Sun，"Deep Residual Learning for Image Recognition"，IEEE Conference on Computer Vision and Pattern Recognition，2016

【発明の概要】

【課題を解決するための手段】

【0012】

デジタル画像における照明スペクトルを決定するための方法は、
ニューラルネットワークの１または複数の畳み込み層において、スペクトル次元に沿った畳み込みを備える３次元畳み込みを計算することと、
各々がデジタル画像の照明スペクトルのそれぞれの帯域の強度値を提供する複数の出力値を有する、ニューラルネットワーク内の１または複数の畳み込み層に接続された出力層を評価することと
によって、デジタル画像にニューラルネットワークを適用することを含む。

【0013】

ニューラルネットワークが、スペクトル次元に沿った３次元畳み込みを備えることは有利である。その結果、スペクトル情報は効率的に訓練され得る。また、出力値がそれぞれの照明帯域の強度値を提供することは更に有利である。その結果、この方法は、正確な照明スペクトルを直接生成する。

【0014】

いくつかの実施形態において、方法は、出力層の出力値に平滑化関数を適用して、訓練中に最小化されるべきコスト値を計算することによって、ニューラルネットワークを訓練することを更に含む。

【0015】

いくつかの実施形態において、平滑化関数は、出力層の出力値に対する３次スプライン近似を備える。

【0016】

いくつかの実施形態において、方法は、デジタル画像の帯域をダウンサンプリングすることを更に含む。

【0017】

いくつかの実施形態において、１または複数の畳み込み層は、デジタル画像の帯域をダウンサンプリングするように構成される。

【0018】

いくつかの実施形態において、方法は、畳み込み層の結果をアップサンプリングすることを更に含む。

【0019】

いくつかの実施形態において、方法は、複数の訓練画像でニューラルネットワークを訓練することを更に含む。

【0020】

いくつかの実施形態において、訓練は、複数の訓練画像から、画像内の白色パッチから観察された照明スペクトルを抽出することを含む。

【0021】

いくつかの実施形態において、訓練は、複数の訓練画像から複数のサブ画像を生成することと、複数のサブ画像に関して決定された照明スペクトルと観察された照明スペクトルとの間の誤差を最小化することとを更に含む。

【0022】

いくつかの実施形態において、誤差は、３次平滑化スプライン関数に基づく。

【0023】

いくつかの実施形態において、誤差は、平均二乗誤差に基づく第１の被加数および粗さペナルティを表す第２の被加数を備える誤差関数によって表される。

【0024】

いくつかの実施形態において、粗さペナルティは、出力値の順方向差分に基づく。

【0025】

いくつかの実施形態において、ニューラルネットワークはＲｅｓＮｅｔに基づく。

【0026】

いくつかの実施形態において、出力層は、全結合層である。

【0027】

いくつかの実施形態において、方法は、照明スペクトルに基づいてハイパースペクトル画像を処理することを更に含む。

【0028】

ソフトウェアは、コンピュータによって実行されると、コンピュータに上記方法を実行させる。

【0029】

デジタル画像における照明スペクトルを決定するためのコンピュータシステムは、
ニューラルネットワークの１または複数の畳み込み層において、スペクトル次元に沿った畳み込みを備える３次元畳み込みを計算することと、
各々がデジタル画像の照明スペクトルのそれぞれの帯域の強度値を提供する複数の出力値を有する、ニューラルネットワーク内の１または複数の畳み込み層に接続された出力層を評価することと
によって、デジタル画像にニューラルネットワークを適用するように構成されたプロセッサを備える。

【0030】

いくつかの実施形態において、コンピュータシステムは、デジタル画像を生成する画像センサと、デジタル画像および照明スペクトルを格納する記憶媒体とを更に備える。

【0031】

上記方法を参照して提供される任意選択的な特徴は、コンピュータシステムに対する同様に任意選択的な特徴である。

【0032】

以下、次の図面を参照して例が説明される。

【図面の簡単な説明】

【0033】

【図1】先行技術に係るシーン例を示す。

【図2】図１のシーンをより詳しく示す。

【図3】先行技術に係るマルチスペクトル画像データのデータ構造を示す。

【図4】照明スペクトルを推定するためのコンピュータシステムを示す。

【図5】デジタル画像における照明スペクトルを決定するためのコンピュータ実装方法を示す。

【図6】図３のデータ構造に適用される３Ｄ畳み込みを示す。

【図7】全結合出力層を示す。

【図8】照明スペクトル復元のための訓練および試験ワークフローを示す。

【図9】ＩｌｌｕｍＮｅｔデータセットでの訓練誤差を示す。３次平滑化スプライン誤差、平均二乗誤差、および粗さ誤差は、検証データセット用である。

【図10】屋外かつ曇天時のシーンに関する予測照明スペクトルおよび測定された照明スペクトルを示す。

【図11】屋外かつ晴天時のシーンに関する予測照明スペクトルおよび測定された照明スペクトルを示す。

【図12】屋外かつ曇天時のシーンに関する予測照明スペクトルおよび測定された照明スペクトルを示す。

【図13】屋内でＬＥＤによって照明されたシーンに関する予測照明スペクトルおよび測定された照明スペクトルを示す。

【図14】屋内でハロゲンによって照明されたシーンに関する予測照明スペクトルおよび測定された照明スペクトルを示す。

【図15】屋内でハロゲンおよび蛍光灯の混合によって照明されたシーンに関する予測照明スペクトルおよび測定された照明スペクトルを示す。

【発明を実施するための形態】

【0034】

本開示は、ハイパースペクトルまたはマルチスペクトル画像から照明スペクトルを復元するための、ニューラルネットワークを含む方法を提供する。画像は、典型的には、複数の画像画素を有するデジタル画像である。各画像画素は、複数のそれぞれの周波数における光強度に関する複数の強度値に関連付けられる。これらの画素値は、デベイヤリング法によって計算され得る。以下の説明では、「画素」という用語は、個別にアドレス指定可能な画像要素が複数の画素に基づいて計算され得ることを示すために、「画像の点」と置き換えられ得る。たとえば、画像解像度は、画素を結合することによって低減されてよく、方法５００は、画素の代わりに複数の点を有する低解像度画像において行われる。特段の記載がない限り、「画素」という言葉が使用される場合、これは、「画像の点」にも等しく適用可能であり得る。

【0035】

コンピュータシステム
図４は、シーン１００の画像の照明スペクトルを推定するためのコンピュータシステム４００を示す。コンピュータシステム４００は、センサ４０２と、コンピュータ４０４とを備える。この例では、センサ４０２は、図１を参照して説明したように３つの光源によって照明されたシーン１００の画像を捕捉することが可能なハイパースペクトルまたはマルチスペクトルセンサである。

【0036】

一例では、コンピュータシステム４００は、たとえば消費者向けカメラなどのハンドヘルドデバイスに統合され、シーン１００は、たとえば観光地、人物、工学的構造物、または農業地域など、地球上の任意のシーンであってよい。センサ４０２は、計算コストと精度とのバランスをとる複数の帯域を有してよい。センサ４０２は、低いところでは３つの帯域（たとえばＲＧＢ）から高いところでは数百もの帯域を有してよい。

【0037】

コンピュータ４０４は、データポート４０６を介してセンサ４０２から画像を受信し、画像は、プロセッサ４１０によってローカルメモリ４０８（ｂ）に格納される。プロセッサ４１０は、メモリ４０８（ａ）に格納されたソフトウェアを用いて、図５に示す方法を実行する。プログラムメモリ４０８（ｂ）は、たとえばハードドライブ、ソリッドステートディスク、またはクラウドストレージなどの非一時的コンピュータ可読媒体である。

【0038】

プロセッサ４１０は、訓練されたニューラルネットワークを画像に適用することによって画像の照明スペクトルを推定する方法を実行する。プロセッサ４１０は、照明スペクトルを用いてホワイトバランスまたは他の画像処理を画像に実行し、画像の更新バージョンをデータストア４０８（ｂ）に格納してよい。他の例では、プロセッサ４１０は、ホワイトバランスデータおよび／または決定された照明スペクトルをデータストア４０８（ｂ）に格納する。

【0039】

ソフトウェアは、モニタ４１２上でユーザに提示され得るユーザインタフェースを提供してよい。ユーザインタフェースは、ユーザからの入力を受け入れることが可能（すなわちタッチスクリーン）である。ユーザ入力は、モニタ４１２によって入力／出力ポート４０６に提供される。画像は、プロセッサ４１０によってメモリ４０８（ｂ）に格納される。この例では、メモリ４０８（ｂ）はコンピュータ４０４にローカルであるが、コンピュータ４０４に対し遠隔であってもよい。

【0040】

プロセッサ４１０は、データメモリ４０８（ｂ）から、および通信ポート４０６から、たとえば画像データなどのデータを受信してよい。一例では、プロセッサ４１０は、たとえばＩＥＥＥ８０２．１１に準拠するＷｉ－Ｆｉネットワークを用いて、通信ポート４０６を介してセンサ４０２から画像データを受信する。Ｗｉ－Ｆｉネットワークは、たとえばルータなどの専用管理インフラが必要でないような非集中型アドホックネットワーク、またはネットワークを管理するルータやアクセスポイントを有する集中型ネットワークであってよい。

【0041】

一例では、プロセッサ４１０は、画像データをリアルタイムで受信および処理する。これは、プロセッサ４１０が、センサ４０２から画像データを受信する度に照明スペクトルを決定し、センサ４０２が次の画像データ更新を送信する前にこの計算を完了することを意味する。これは、ライブビデオ処理に役立ち得る。

【0042】

通信ポート４０６は単一のエンティティとして示されるが、データを受信するために、たとえばネットワーク接続、メモリインタフェース、プロセッサ４１０のチップパッケージのピン、またはＩＰソケットや、プログラムメモリ４０８（ａ）に格納されプロセッサ４１０によって実行される関数のパラメータなどの論理ポートなど、任意の種類のデータポートが使用され得ることを理解すべきである。これらのパラメータは、データメモリ４０８（ｂ）に格納され、ソースコード内で、値として、または基準として、すなわちポインタとして取り扱われ得る。

【0043】

プロセッサ４１０は、たとえばキャッシュまたはＲＡＭなどの揮発性メモリ、またはたとえば光ディスクドライブ、ハードディスクドライブ、ストレージサーバ、またはクラウドストレージなどの不揮発性メモリのメモリアクセスを含む、これらのインタフェースの全てを介してデータを受信してよい。コンピュータシステム４０４は更に、たとえば動的な数の仮想マシンをホストする管理された相互接続サーバのグループなどのクラウドコンピューティング環境内で実装され得る。

【0044】

受信するステップのいずれかに先行して、プロセッサ４１０が後に受信されるデータを決定または計算してよいことを理解すべきである。たとえばプロセッサ４１０は、たとえばセンサ４０２からの生データをフィルタリングまたはデベイヤリング（すなわちデモザイク）することによって画像データを決定し、画像データを、たとえばＲＡＭまたはプロセッサレジスタなどのデータメモリ４０８（ｂ）に格納する。その後、プロセッサ４１０は、たとえばメモリアドレスと共に読取り信号を提供することによって、データメモリ４０８（ｂ）からのデータを要求する。データメモリ４０８（ｂ）は、物理ビットライン上の電圧信号としてデータを提供し、プロセッサ４１０は、メモリインタフェースを介して画像データを受信する。

【0045】

方法
図５は、プロセッサ４１０によって実行される、デジタル画像における照明スペクトルを決定するためのコンピュータ実装方法５００を示す。言い換えると、方法５００は、たとえばＣ＋＋などの特定のプログラミング言語で実装され、コンパイルされた機械可読コードとしてプログラムメモリ４０８（ａ）に格納された、ソフトウェアのための設計図または疑似コードとして機能し得る。画像は、たとえばマルチスペクトル画像データなどの波長インデックス付きスペクトルデータの点で構成される。

【0046】

デジタル画像は、図３に示すように、画像の複数の点（すなわち画素）の各々に関して複数の色値を備えるデータ構造である。色値の各々は、その色（すなわち帯域）におけるその画素の強度を示す、たとえば０～２５５の数などのデジタル符号化値で表される。デジタル画像は、たとえばＥＮＶＩ、ｊｐｇ、ｔｉｆｆ、ｐｎｇ、ｂｍｐ、ｇｉｆなどの利用可能な画像フォーマットのいずれかで格納され得る。デジタル画像は、プロセッサ４１０によって処理される前に、リサイズ／リスケーリング、正規化、または他の画像前処理または変換操作を含む変換または修正をされ得る。

【0047】

プロセッサ４１０は、白色基準領域を分析したり、反射率モデルを画像に適合させたりする代わりに、ハイパースペクトル画像にニューラルネットワークを適用する５０１。図６は、ニューラルネットワーク例６００を示す。

【0048】

プロセッサ４１０は、最初に、ニューラルネットワークの１または複数の畳み込み層において３次元畳み込み６０１を計算すること５０２によってこれを実行する。３次元畳み込みは、スペクトル次元に沿った畳み込みを備える。その後、プロセッサ４１０は、ニューラルネットワーク内の１または複数の畳み込み層に接続された出力層６０２を評価する。出力層は、各々がハイパースペクトル画像の照明スペクトルのそれぞれの帯域に関する強度値を提供する複数の出力値を有する。

【0049】

畳み込み
数学的には、畳み込みは、ある関数ｇが別の関数ｆの上でシフトする際の重なりの量を表す積分関数である。直感的には、畳み込みは、ある関数を別の関数と混合し、情報を保持しながらデータ空間を縮小させる混合器の役割を果たす。ニューラルネットワークおよび深層学習の観点から、畳み込みは、入力データから低次元の特徴を抽出するために用いられる学習可能なパラメータを有するフィルタ（行列／ベクトル）である。それらは、入力データ点間で空間的または位置的関係を保持する特性を有する。畳み込みニューラルネットワークは、隣接する層のニューロン間に局所的な接続パターンを強いることによって空間的な局所相関を利用する。

【0050】

直感的には、畳み込みは、入力に対しスライディングウィンドウ（学習可能な重みを有するフィルタ）の概念を適用し、（重みと入力との）加重和を出力として生成するステップである。加重和は、次の層のための入力として用いられる特徴空間である。

【0051】

たとえば、顔認識問題において、最初のいくつかの畳み込み層は、入力画像内のキーポイントの存在を学習し、より深い畳み込み層は、エッジおよび形状を学習し、最後の畳み込み層は、顔を学習する。この例では、入力空間は、最初に（点／画素に関する情報を表す）低次元空間に縮小され、次に、（エッジ／形状を含む）別の空間に縮小され、最後に、画像内の顔を分類するために縮小される。畳み込みは、Ｎ次元に適用可能である。

【0052】

ここでは、畳み込みは３次元に適用され、図６は、図３のデータ構造に適用された３Ｄ畳み込みを示す。３Ｄ畳み込みは、データセットに３次元フィルタを適用し、フィルタは、３方向（ｘ、ｙ、ｚ）に移動して低レベルの特徴表現を計算する。その出力形状は、たとえば立方体や直方体などの３次元ボリューム空間である。

【0053】

図６において、この例では３×３のフィルタであるフィルタ６０１は、画素値の加重和を計算する。フィルタの係数である９つの重みが存在する。よって、フィルタは、データ構造３００内の初期位置６０２で開始し、各画素値にそれぞれのフィルタ係数を乗算し、結果を加算する。最終的に、フィルタ６０１は、結果との数値を出力画素６０３に格納する。その後、フィルタは、データ構造３００内の一方向に沿って１画素ずつ移動し、出力画像の次の画素のための計算を繰り返す。その方向は、ｘ次元６０４またはｙ次元６０５であってよい。重要な点として、フィルタ６０１は、スペクトル次元６０６に沿って移動してもよい。すなわち、３×３×３の立体フィルタ６０１は、スペクトル次元６０６に沿って画素値を加算し、スペクトル次元６０６に沿って移動もする。したがって、この操作は、スペクトル次元に沿った畳み込みと称される。

【0054】

出力層
図７は、全結合出力層７００を示す。出力層は、入力７０１および出力７０２を有する。入力７０１は、前の畳み込み層の結果である。すなわち、たとえば図６に示すような畳み込み層は、出力層７００に結果を提供するために出力層７００に接続される。ただし、畳み込み層は、畳み込み層と出力層７００との間に更なる非畳み込み層が存在し得るという意味で、必ずしも出力層７００に直接接続されるわけではない。たとえば、畳み込み層と出力層７００との間にマックスプール層が存在してよい。

【0055】

出力層は、出力７０２を有し、各出力は、それぞれの波長で推定された照明スペクトルの値を提供する。よって、たとえば第１の出力７０３は、出力値として、照明スペクトルの第１の強度７０４を提供する。全体として、出力は、全体照明スペクトル７０５を提供する。言い換えると、出力は、照明スペクトル７０５の離散サンプルを全体として提供する。後述するように、これらの出力サンプルは、スプライン補間のために用いられ得る。

【0056】

一例では、出力７０３と照明スペクトルの特定の波長との関連付けは予め決定され、スペクトルに沿った出力の均等分布であってよい。他の例では、関連付けは、特定の帯域での改善されたスペクトル分解能を提供するために訓練されてもよい。

【0057】

最後に、留意点として、図７は４つの入力７０２および４つの出力７０３のみの簡単な例を示しており、多くの実用例において、入力および出力の数は著しく大きくなる（後述の値例を参照）。

【0058】

図６および図７を併せて考えると、本開示は、様々な照明条件下でのハイパースペクトル画像の照明スペクトルを推定するための深層学習ネットワークを提供する。

【0059】

構成
一例では、ネットワークへの入力データサイズは（Ｂ、Ｃ、Ｄ、Ｈ、Ｗ）であり、Ｂはバッチサイズ、Ｃはチャネルの数、Ｄは奥行き、Ｈは高さ、およびＷは幅である。ＲＧＢ画像（たとえばトラッキング、ビデオセグメント化）の場合、Ｃは、画像内のチャネルの数に対応して３に設定される。別の例では、Ｃは１に設定され、Ｄは帯域数／ｓである。１つの設定について、帯域数は２０４、ｓは４（すなわちＤ＝５１）であり、これは主に、ネットワーク訓練を実行するために使用されるコンピュータのメモリ制約によるものである。

【0060】

３Ｄ畳み込みカーネル（ｄ、ｈ、ｗ）は、空間範囲およびスペクトル範囲の両方を有する。ただし、照明スペクトルを推定することが目的であるため、カーネルの奥行きは幅および高さよりも長くされてよく、すなわち、ｄ＞（ｈ、ｗ）かつｈ＝ｗである。

【0061】

３Ｄマックスプーリングカーネルは、３Ｄ畳み込みカーネルよりも小さくてよい。これは、吸収帯によって生じる「とがり」といった照明スペクトル内の微細部が失われないようになされる。

【0062】

ネットワークの出力は、ハイパースペクトル画像内の帯域数に対応するサイズを有するベクトルである。入力画像の奥行きはサブサンプリングされるので、このネットワークは、入力信号を補間、またはスペクトル「超分解能」を実行する能力も有する。一例では、入力画像の奥行きは５１にサブサンプリングされ、出力は２０４の出力値を有する。

【0063】

ネットワークを訓練するために、訓練データセットが生成され、またはたとえばＩｌｌｕｍＮｅｔなどの既存のデータセットが使用され得る。画像は、ＳｐｅｃｉｍＩＱカメラまたは他のカメラを用いて、屋内および屋外の両方で様々な照明条件下で捕捉され得る。屋外画像は、晴天、曇天、および日陰の条件下で、様々な時間帯に捕捉され得る。屋内画像の場合、ハロゲン光源およびＬＥＤ光源、ならびにハロゲンまたはＬＥＤおよび蛍光灯を主とした混合光源が使用され得る。ＲｅｓＮｅｔ１８ネットワークが利用可能であるが、データのスペクトル特性に適合するように２Ｄカーネルが３Ｄカーネルに変更される。実際の照明スペクトルに良好に適合するとともに、予測された照明スペクトルが滑らかであることも必要であり、これは、３次平滑化スプライン誤差コスト関数によって実現される。実験結果は、訓練されたモデルが、照明スペクトルの正確な推定値を推測可能であることを示す。

【0064】

問題定義
カメラによって捕捉された放射輝度または生画像は、シーンの物質組成を調査するために反射率画像に変換される。各帯域に関して、画素（ｘ，ｙ）における反射率強度は、次のように求められ得る。

【数1】

式中、ｌ（λ）は波長λにおける入射照明であり、ｄ（λ）は暗色基準であり、ｐ（ｘ，ｙ，λ）は放射輝度強度を示す。暗色基準は、カメラの電子機器に起因するベースライン信号ノイズを表す。ＳｐｅｃｉｍＩＱカメラの場合、カメラがこれを自動的に測定する。ｌ（λ）を求める最も一般的な方法は、シーン内の白色ターゲット基準から反射する照明を測定することである。

【0065】

白色基準は、スペクトル特徴を有さないほぼ１００％の反射率を有する物質を含む。白色基準が、シーン内の他の部分と同じ照明および測定ジオメトリおよび距離で測定される場合、白色基準ターゲットからの信号は、照明からの信号のみを含むと想定され得る。すなわち、訓練中、白色ターゲットからの測定値を照明スペクトル７０５として用いることができ、ネットワークパラメータは、出力７０２が白色基準ターゲットからの照明スペクトル７０５に可能な限り近い値を提供するように最適化される。そういった意味では、白色基準ターゲットからのスペクトルは、教師付き学習における標識に類似する。白色基準ターゲットは、ハイパースペクトルカメラのスペクトル応答に関する情報、すなわちカメラが測定されたスペクトルにどのように影響を及ぼすかに関する情報も含む。

【0066】

自動的な照明復元の目的は、白色基準ターゲットの代わりに深層学習を用いて照明を復元すること、すなわち、訓練後、訓練されたネットワークが、白色基準ターゲットのない入力画像に適用可能となることである。

【0067】

データ拡張
照明復元データセットは、様々な照明源で捕捉された１００４の画像で構成された。一例では、画像は、５１２×５１２の画素サイズを有する。これらの画像のうち、８０％が訓練および検証用（７０％が訓練用および１０％が検証用）に、２０％が試験用に設定された。訓練データセットに関して、白色基準ターゲット（たとえばスペクトラロン）は、訓練中の偏りを避けるためにクロップされ、ｎ個の２５６×２５６のサブ画像が各画像からランダムに選択された。クロップされた画像の各々は、その後、３回（すなわち９０°、１８０°、および３６０°）回転された。屋内または屋外画像のいずれかへの偏りを避けるために、訓練データセットには、ほぼ等しい数の屋内および屋外画像が含まれた。その結果、訓練データセットには、約４０，０００の画像が含まれた。

【0068】

ネットワーク設計
本開示は、照明スペクトルを復元するためにいくつかの畳み込みニューラルネットワーク（ＣＮＮ）を用いて実装され得る。これらは、
・ＶＧＧ１６（K. Simonyan and A. Zisserman，"Very Deep Convolutional Networks for Large-Scale Image Recognition"，International Conference on Learning Representations，201に記載）、
・ＲｅｓＮｅｔ１８（K. He, X. Zhang, S. Ren and J. Sun，"Deep Residual Learning for Image Recognition"，IEEE Conference on Computer Vision and Pattern Recognition，2016に記載）、および
・ＲｅｓＮｅｔ１０１（K. He, X. Zhang, S. Ren and J. Sun，"Deep Residual Learning for Image Recognition"，IEEE Conference on Computer Vision and Pattern Recognition，2016に記載）
を含む。

【0069】

上記の参照文献は、参照によってその全体が本明細書に含まれる。

【0070】

ＶＧＧ１６は、約１ＧＢのサイズの大きなモデルファイルを生成し、一部のポータブル用途には適さない場合がある。いくつかの実験において、検証および試験結果は、ＲｅｓＮｅｔ１８がＲｅｓＮｅｔ１０１よりも性能が良いことを示し、これはおそらく、ＲｅｓＮｅｔ１８がより短いネットワークを有し、短いネットワークがデータセット例により適切であることによる。

【0071】

ＲｅｓＮｅｔの主な用途は、ＲＧＢ画像内のオブジェクトの検出である。本明細書に開示される方法は、ハイパースペクトル画像の照明を復元するためにスペクトル特徴を取り入れるため、元のＲｅｓＮｅｔは、２Ｄ畳み込みではなく３Ｄ畳み込みを使用するように修正される。留意すべき点として、他のＣＮＮも同様に修正され得る。

【0072】

実験結果は、３Ｄ畳み込みの使用によって著しく良好な結果が得られることを実証した。修正されたＲｅｓＮｅｔネットワークをＲｅｓＮｅｔ３Ｄ１８と称することとする。ＲｅｓＮｅｔ３Ｄ１８のＩｌｌｕｍＮｅｔ用アーキテクチャが表１に示される。ネットワークの構造ブロックは、ネスト型ブロックの数とともに、第３列に記載される。留意すべき点として、ｃｏｎｖ１は１の入力チャネルおよび５１の奥行きを有し、これは、４倍に（最近傍によって）ダウンサンプリングされた画像帯域数である。これは、ＧＰＵメモリ使用量を低減するために行われた。ダウンサンプリングは、２のストライドで、ｃｏｎｖ３１、ｃｏｎｖ４１、およびｃｏｎｖ５１によって行われた。最後の層は、画像内の帯域数に対応する２０４の出力との全結合層である。最後の層は、スペクトルをアップサンプリングして入力画像内の帯域数に戻す。

【0073】

【表1】

【0074】

層構成の具体例が上述されるが、留意点として、広範囲の異なる構成が同様に適用可能である。すなわち、入力チャネルの数は一般にＮであり、上記の５１の値は特定のハードウェア設定に関して用いられており、他の例は、３～１０００、またはその範囲外であってもよい。また、２０４の出力チャネル数は一例にすぎず、この数は、たとえば３～１０００の出力チャネルなど広範に異なってよく、またはその範囲外であってもよい。

【0075】

ニューラルネットワークは、より多くの層を有し（すなわち「深い」）、または異なるサイズのフィルタや他の異なるパラメータを有し得る。たとえば、データが出力層に到達する前に、畳み込み層とマックスプール層との複数の組み合わせが存在し得る。ニューラルネットワークは、畳み込み層、プーリング層、再帰層、前処理層、正規化層、規則化層、着目層、再成形層、併合層、ローカル接続層、または活性化層の１または複数を備えてよい。可能なニューラルネットワークは、Ｘｃｅｐｔｉｏｎ、ＥｆｆｉｃｉｅｎｔＮｅｔＢ０～Ｂ７、ＶＧＧ１６およびＶＧＧ１９、ＲｅｓＮｅｔおよびＲｅｓＮｅｔＶ２、ＭｏｂｉｌｅＮｅｔおよびＭｏｂｉｌｅＮｅｔＶ２、ＤｅｎｓｅＮｅｔ、ＮａｓＮｅｔＬａｒｇｅおよびＮａｓＮｅｔＭｏｂｉｌｅ、ＩｎｃｅｐｔｉｏｎＶ３、ＩｎｃｅｐｔｉｏｎＲｅｓＮｅｔＶ２を含んでよい。

【0076】

また、ニューラルネットワークは、Ｋｅｒａｓ（https://keras.io/）または他のソフトウェアツールや実装フレームワークで実装され得る。

【0077】

実装
一例では、重みは、事前訓練されたネットワークで初期化されるのではなく、ゼロから訓練される。４のミニバッチサイズで確率的勾配降下法（ＳＧＤ）が用いられた。実験結果は、ミニバッチ値が低いほど良好な結果が得られることを示した。学習率は０．００５、運動量は０．９に設定され、モデルは、１００回反復して訓練された。

【0078】

本発明の照明復元方法の訓練および試験ワークフローは図８に示される。

【0079】

損失関数
ＣＮＮは、損失関数を用いてモデル誤差を計算する最適化プロセスを使用して訓練される。照明スペクトル復元問題を回帰問題とすることが可能である。回帰問題に関する損失関数の例は、平均二乗誤差（ＭＳＥ）および平均絶対誤差（ＭＡＥ）を含む。ＭＳＥおよびＭＡＥは、次のように計算される。

【数2】

および

【数3】

式中、Ｎはデータ点の数であり、ｙ_ｉはグラウンドトルースデータからのスペクトル値であり、

【数4】

はデータ点ｉの予測値である。その結果、ＭＡＥおよびＭＳＥの両方が妥当な結果を生じ、予測スペクトルは、グラウンドトルーススペクトルの形状を適切に辿ることが示された。ただし、ＭＳＥおよびＭＡＥは、スペクトル曲線の「平滑度」を考慮しておらず、粗い曲線が生成され、不十分な反射率画像をもたらし得る。

【0080】

滑らかであると同時にグラウンドトルーススペクトルに良好に適合する予測スペクトルを得るために、プロセッサ４１０は、３次平滑化スプライン関数［３］［４］を用いる。平滑化スプラインは、

【数5】

のｙ_ｉへの適合良好性の基準と、

【数6】

の平滑度の導関数ベースの基準とのバランスを取るために、ターゲットｆ（ｘ_ｉ）のノイズの多い観察結果ｙ_ｉのセットから得られた関数推定値

【数7】

である。この関数は、ノイズの多いｘ_ｉ、ｙ_ｉデータを平滑化する手段を提供する。

【0081】

関数ｆの３次平滑化スプライン推定値

【数8】

は、

【数9】

の（２回の微分が可能な関数のクラスでの）最小値と定義される。式中、λ≧１は平滑化パラメータであり、関数推定値の粗さを制御する。留意点として、

【数10】

は関数推定値の粗さを測定し、

【数11】

は、関数推定値および観察結果の二乗誤差の和を測定する。予測値は、次のように定義される。

【数12】

【0082】

上記式を用いると、３次平滑化スプライン誤差（ＣＳＳＥ）関数は、ＲｅｓＮｅｔ３Ｄ１８の損失関数として以下のように適合される。

【数13】

式中、０≦α≦１である。留意点として、

【数14】

はＭＳＥである。α→０の時、粗さペナルティが最も重要になり、α→１の時、ＣＳＳＥはＭＳＥに近付く。また、

【数15】

は、

【数16】

の２次導関数（または差分）であり、

【数17】

は、予測値の１次導関数（または差分）である。

【数18】

は、「平滑度」を測定する。

【0083】

αの値は、予測スペクトルのノイズが多くなく、同時に過剰に平滑化されないように選択される。予測スペクトルの平滑度が実際のスペクトルの平滑度よりも低いと、通常はとがっている有意な吸収帯が減衰し得るので、望ましくない。

【0084】

実験結果
図９は、検証データにおける様々なα値に関するＭＳＥ、粗さ、およびＣＳＳＥの誤差とともに訓練誤差を示す。プロットからの興味深い観察結果として、α＝０．６およびα＝０．８の時、粗さは急速に収束する。α＝１．０の時、ここでは粗さを最小化していないにもかかわらず、粗さ誤差はやはり収束している。当然のことながら、α＝１．０の粗さ値は常に高い。

【0085】

表２は、５０エポック後の様々なメトリックおよびαに関する試験データの結果を示す。試験セットには３９８のフルサイズ画像が含まれ、これは、屋内画像および屋外画像の両方を含む。興味深い点として、α＝０．８の時に最も低いＭＳＥが得られる。α＝０．６の時、最も低い粗さが得られ、ＣＳＳＥが最も低くなる。しかし、最適なαを選択するために最も低いＣＳＳＥを用いることは、低い粗さ値によって予測照明スペクトルの過剰な平滑度がもたらされ得るため、良いとは言えない。予測照明スペクトルの過剰な平滑化は、スペクトル内の有意な吸収帯を失わせ得る。試験データセットの実際の平均粗さは０．００００５８５であり、これに最も近い予測粗さ値は、α＝０．８の時である。α＝１．０の粗さ値は有意に高く、粗さ値が高いほどＭＳＥも高くなることが提示される。αは、０．６＜α＜１．０の値で訓練することによって更に微調整され得る。ただし、本開示の以下の部分では、α＝０．８の結果が示される。

【0086】

【表2】

【0087】

図１０～図１５は、屋内および屋外で様々な照明条件下で捕捉された画像の実際の照明スペクトルおよび予測照明スペクトルを示す。ほとんどの場合、予測照明スペクトルは、実際の照明スペクトルとほぼ一致する。図１２では、２つのスペクトルの形状は非常に類似しているが、それらの大きさが異なっている。これは、シーンの一部の領域が他の領域よりも暗いという照明の不均一性が原因であると思われる。実際の照明スペクトルは、白色ターゲットからの照明スペクトルであるが、予測照明スペクトルは、シーンの平均照明スペクトルであり得る。これを測定する唯一の方法は、シーン内で複数の白色ターゲットを使用することである。

【0088】

図１５は、異なる光源を混合した結果を示す。画像は、シーンに向けられた天井の蛍光灯およびハロゲン光源を有する室内で捕捉された。蛍光灯のスペクトルは、水銀蒸気によって放出されるＵＶ光を減衰させるために電球に蛍光体が使用されることによって、とがりを有する。実際の照明スペクトルは、ハロゲンおよび蛍光スペクトルの組み合わせである。予測スペクトルの形状は、実際のスペクトルの形状と非常に類似しているが、大きさが異なり、わずかに粗い。これにより、提案される照明復元方法は、難しい照明条件下でも適度に正確な照明スペクトルを予測可能であることが示される。

【0089】

結論
本明細書において、任意のカメラによって捕捉されたハイパースペクトル画像の照明スペクトルを復元する方法が開示される。ＩｌｌｕｍＮｅｔと呼ばれるデータセットが作成された。データセットには、屋内および屋外の両方で様々な光源の下で捕捉された１００４の画像が含まれる。照明復元のタスクは、回帰分析問題として定式化され、ＲｅｓＮｅｔ１８に基づく深層学習ネットワークが開示される。ＲｅｓＮｅｔ１８は、スペクトルデータの３Ｄ特性により良く適合する３Ｄカーネルを用いるように修正される。開示される深層学習フレームワークにおける損失関数として３次平滑化スプライン誤差関数が用いられる。これにより、予測スペクトルの適合および粗さの制御が可能である。実験結果は、開示される深層学習方法が画像の照明スペクトルを復元可能であることを示す。

【0090】

データセット
画像を捕捉するために、ＳｐｅｃｉｍＩＱ（ＳｐｅｃｉｍＬｔｄ．、Ｏｕｌｕ、Ｆｉｎｌａｎｄ）ハイパースペクトルカメラを使用する。ＳｐｅｃｉｍＩＱは、ハンドヘルドハイパースペクトルカメラであり、ハイパースペクトルデータ捕捉、照明および反射率復元、および分類結果の視覚化を単一の統合ユニットで行う。センサは、プッシュブルーム機構を用いて画像を捕捉し、各画像キューブは、５１２×５１２画素の空間分解能を有する２０４帯域で構成される。カメラの波長範囲は４００～１０００ｎｍである。

【0091】

照明データセットであるＩｌｌｕｍＮｅｔは１００４の画像で構成され、建物の属性および材料の分類のために捕捉された画像を含む。画像は、様々な照明条件および光源、すなわち太陽光、日陰／曇天、ハロゲン、ＬＥＤ、蛍光灯、および混合光の下で捕捉された。屋外画像は、太陽光スペクトルの変化を考慮に入れるために様々な時間帯に捕捉された。屋内画像の場合、複雑かつ多様なシーンを作成するために、葉、果物、岩石、紙、ビスケット、金属、プラスチックなどを含む様々な物体が使用された。訓練プロセス中の偏りを防ぐために、全ての画像から白色基準パネルはクロップされた。

【0092】

留意点として、訓練セットは網羅的なものではない。たとえば、他の地理的位置で捕捉された画像や、異なる照明製造元の照明の使用は含まれない。しかし、提案される深層学習ネットワークは、一般的な照明スペクトル復元に適しており、ネットワークは、ユーザの要望および他の応用状況に適合するように他のデータで再訓練することが可能である。

【0093】

当業者には、本開示の広範な一般範囲から逸脱することなく、上述した実施形態に多数の変形および／または修正が加えられ得ることが理解される。したがって、本実施形態は、全ての点において限定的ではなく例示的なものであると考えられる。

【符号の説明】

【0094】

１００シーン
１０２山
１０４太陽（光源）
２０４光源スペクトル
２１０反射スペクトル
２１２センサ
２１４放射輝度スペクトル
３００データ構造
３０２画素
４００コンピュータシステム
４０２センサ
４０４コンピュータ
４０６通信ポート
４０８メモリ
４１０プロセッサ
４１２モニタ
６０１フィルタ
６０２初期位置
６０３出力画素
６０４ｘ次元
６０５ｙ次元
６０６スペクトル次元
７００出力層
７０１入力
７０２出力
７０３第１の出力
７０４第１の強度
７０５照明スペクトル

【図1】