IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キング アブドラ ユニバーシティ オブ サイエンス アンド テクノロジーの特許一覧

特表2024-544889ハイパースペクトル画像処理装置及び画像処理方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-05
(54)【発明の名称】ハイパースペクトル画像処理装置及び画像処理方法
(51)【国際特許分類】
   G06T 1/00 20060101AFI20241128BHJP
   G01J 3/36 20060101ALI20241128BHJP
   H04N 23/54 20230101ALI20241128BHJP
   H04N 23/60 20230101ALI20241128BHJP
【FI】
G06T1/00 510
G01J3/36
H04N23/54
H04N23/60 500
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024527322
(86)(22)【出願日】2022-11-09
(85)【翻訳文提出日】2024-05-27
(86)【国際出願番号】 IB2022060763
(87)【国際公開番号】W WO2023084401
(87)【国際公開日】2023-05-19
(31)【優先権主張番号】63/277,741
(32)【優先日】2021-11-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】514285966
【氏名又は名称】キング アブドラ ユニバーシティ オブ サイエンス アンド テクノロジー
(74)【代理人】
【識別番号】110000556
【氏名又は名称】弁理士法人有古特許事務所
(72)【発明者】
【氏名】ブルゲテ, ロペス アルトゥロ
(72)【発明者】
【氏名】フラタロッキ, アンドレア
(72)【発明者】
【氏名】ヘトマン, ヒョードル
(72)【発明者】
【氏名】マカレンコ, マクシム
(72)【発明者】
【氏名】ワン, チーチョウ
【テーマコード(参考)】
2G020
5B057
5C122
【Fターム(参考)】
2G020CC01
2G020CC26
2G020CC47
2G020CC63
2G020CD24
2G020CD36
5B057AA14
5B057AA20
5B057BA02
5B057BA11
5B057CA01
5B057CA08
5B057CA12
5B057CB01
5B057CB08
5B057CB12
5B057CC01
5B057CE16
5B057DB02
5B057DB06
5B057DB09
5C122DA11
5C122DA13
5C122EA55
5C122FC06
5C122FH00
5C122HA88
5C122HB01
5C122HB05
5C122HB06
5C122HB07
5C122HB10
(57)【要約】
本発明は、平坦な光学メタサーフェスが、それらの空間幾何学的形状を用いて光の波長を符号化し、所望の伝送応答を生成するハイパースペクトル画像処理装置及び画像処理方法に関する。メタサーフェスは、機械学習技術を使用して逆問題設計され、所定の用途のために元のハイパースペクトルシーンの実質的な再構成を容易にするのに十分な送信応答情報を保持する。
【選択図】図1A
【特許請求の範囲】
【請求項1】
符号化サブアレイのi×jアレイを含むエンコーダ層であって、各符号化サブアレイは複数の伝送特性の夫々を有するスペクトルエンコーダのm×n個のアレイを含み、前記複数の伝送特性の夫々がk次元空間においてハイパースペクトル周波数範囲を符号化するように選択され、kはm×nであるエンコーダ層と、
前記エンコーダ層の符号化サブアレイのi×jアレイと位置合わせされた検出サブアレイのi×jアレイを備える画像処理層であって、各検出サブアレイは光検出器のm×nのアレイを含み、各光検出器が広帯域光に応答して夫々のスペクトルエンコーダの夫々の伝送応答を検出するように配置され、画素応答のi×jアレイを出力し、各画素応答は、m×nの伝送応答の画素ベクトルを含む画像処理層と、
画素応答のi×jアレイを対応する画素スペクトルのi×jアレイに復号化して、ハイパースペクトル周波数範囲を包含する出力画像を生成するように構成されたプロセッサとを備える、ハイパースペクトル画像処理装置。
【請求項2】
各スペクトルエンコーダは、平坦な光学デバイスである、請求項1に記載の装置。
【請求項3】
前記平坦な光学デバイスは、前記夫々の伝送特性を生成するように選択された夫々パターン化されたナノ構造を含む、請求項2に記載の装置。
【請求項4】
前記複数の伝送特性の夫々は線形である、請求項1乃至3の何れか1項に記載の装置。
【請求項5】
前記複数の伝送特性の夫々は非線形である、請求項1乃至3の何れか1項に記載の装置。
【請求項6】
各符号化サブアレイ内の前記夫々のスペクトルエンコーダの前記複数の夫々の伝送特性は、用途に対して前記伝送特性を最適化しながら、損失関数を反復的に最小化することによって選択される、請求項5に記載の装置。
【請求項7】
各符号化サブアレイ内の前記夫々のスペクトルエンコーダの前記夫々の複数の伝送特性が、用途に対して最小の損失で固有ベクトルを符号化するk個の主成分を決定することによって選択される、請求項1乃至4の何れか1項に記載の装置。
【請求項8】
前記k個の主成分は、特異値分解を実行することによって決定される、請求項7に記載の装置。
【請求項9】
前記プロセッサは、線形プロジェクタを使用して、画像応答のi×jアレイの各画素応答を復号する、請求項1乃至8の何れか1項に記載の装置。
【請求項10】
ハイパースペクトル画像処理方法であって、
符号化サブアレイのi×jアレイを含むエンコーダ層を配備する工程であって、各符号化サブアレイは複数の伝送特性の夫々を有するスペクトルエンコーダのm×nのアレイを含み、前記複数の伝送特性の夫々がk次元空間においてハイパースペクトル周波数範囲を符号化するように選択され、kはm×nである工程と、
前記エンコーダ層の符号化サブアレイのi×jアレイと位置合わせされた検出サブアレイのi×jアレイを備える画像処理層を配備する工程であって、各検出サブアレイは光検出器のm×nのアレイを含む工程と、
エンコーダ層を光に曝して、光を取得する工程と、
各光検出器において、広帯域光に応答した各スペクトルエンコーダの各伝送応答を検出する工程と、
画像処理層から画素応答のi×jアレイを出力する工程であって、各画素応答はm×nの伝送応答の画素ベクトルを含む工程と、
画素応答のi×jアレイを対応する画素スペクトルのi×jアレイに復号化して、ハイパースペクトル周波数範囲を包含する出力画像を生成する工程を含む、方法。
【請求項11】
各スペクトルエンコーダは、平坦な光学デバイスである、請求項10に記載の方法。
【請求項12】
前記平坦な光学デバイスは、前記夫々の伝送特性を生成するように選択された夫々パターン化されたナノ構造を含む、請求項11に記載の方法。
【請求項13】
前記複数の伝送特性の夫々は線形である、請求項10乃至12の何れか1項に記載の方法。
【請求項14】
前記複数の伝送特性の夫々は非線形である、請求項10乃至12の何れか1項に記載の方法。
【請求項15】
各符号化サブアレイ内の前記夫々のスペクトルエンコーダの複数の伝送特性の夫々は、用途に対して前記伝送特性を最適化しながら、損失関数を反復的に最小化することによって選択される、請求項14に記載の方法。
【請求項16】
各符号化サブアレイ内の前記夫々のスペクトルエンコーダの前記夫々の複数の伝送特性が、用途に対して最小の損失で固有ベクトルを符号化するk個の主成分を決定することによって選択される、請求項10乃至13の何れか1項に記載の方法。
【請求項17】
前記k個の主成分は、特異値分解を実行することによって決定される、請求項16に記載の方法。
【請求項18】
プロセッサが、線形プロジェクタを使用して、画素応答のi×jアレイの各画素応答を復号化する、請求項10乃至17の何れか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年11月10日に出願された米国仮特許出願第63/277,741号の利益を主張し、その全内容は、参照により本明細書に組み込まれる。
【0002】
本発明の開示される例示的な実施形態は、ハイパースペクトル画像処理に関し、特に、メタサーフェスエンコーダを使用するハイパースペクトル画像処理のための装置及び方法に関する。
【背景技術】
【0003】
ハイパースペクトル画像処理は、複雑な材料の識別及びリモートセンシングを可能にするスペクトルの特徴を評価するために、土木、環境、航空、軍事、及び生物学を含む多くの分野において大きな関心を集めている。地上型のハイパースペクトル画像処理は、食品検査、外科手術、生物学、歯科学及び医学診断のための自動分類を可能にする。
同様に、空中型及び海底型のハイパースペクトル画像処理は、現在、動物相の分類学的分類のため、また精密農業や資源、鉱物の探査や検査のためのドローン空撮映像を通じて、農業と海洋生物学の新たな境地を切り開いている。
しかしながら、ハイパースペクトル画像処理における現在の最新技術は、依然として、高価な設定コスト、時間のかかるデータ後処理、低速のデータ取得、ならびに巨視的な光学的及び機械的構成要素の必要性の問題に直面している。高解像度カメラから得られる1つのハイパースペクトル画像は、一般的には、ギガバイトの格納空間を必要とするため、今日のコンピュータビジョン技術を用いてリアルタイムのビデオ分析を実行することが極めて困難になる。
【0004】
1つのRGB画像からの計算によるハイパースペクトル画像の再構成は、上述の課題の幾つかを克服するための1つの技術である。集積回折光学素子に基づくハイパースペクトルカメラが提案され、他はスペクトル再構成フィルタを設計するためにディープニューラルネットワークを活用した。
これらのアプローチは、速度の問題に対処するのに役立つが、複雑さ、コスト、及び遅いデータ処理の問題にはまだ対処することができない。他の障害は、原始的な薄膜干渉パターンを超えて最適化されていない初歩的なフィルタ応答を使用していることと、CCD/CMOSセンサの最新の設置面積を活用できる集積構造が欠如していることである。
【発明の概要】
【課題を解決するための手段】
【0005】
以下の発明の概要は、読み手に詳細な説明の様々な態様を紹介することを意図しているが、いかなる発明も定義または限定することを意図していない。
【0006】
少なくとも1つの広義の態様において、ハイパースペクトル画像処理装置が提供され、該画像処理装置は、
符号化サブアレイのi×jアレイを含むエンコーダ層であって、各符号化サブアレイは複数の伝送特性の夫々を有するスペクトルエンコーダのm×n個のアレイを含み、前記複数の伝送特性の夫々がk次元空間においてハイパースペクトル周波数範囲を符号化するように選択され、kはm×nであるエンコーダ層と、
前記エンコーダ層の符号化サブアレイのi×jアレイと位置合わせされた検出サブアレイのi×jアレイを備える画像処理層であって、各検出サブアレイは光検出器のm×nのアレイを含み、各光検出器が広帯域光に応答して夫々のスペクトルエンコーダの夫々の伝送応答を検出するように配置され、画素応答のi×jアレイを出力し、各画素応答は、m×nの伝送応答の画素ベクトルを含む画像処理層と、
画素応答のi×jアレイを対応する画素スペクトルのi×jアレイに復号化して、ハイパースペクトル周波数範囲を包含する出力画像を生成するように構成されたプロセッサとを備える。
【0007】
幾つかの場合において、各スペクトルエンコーダは平坦な光学デバイスである。
【0008】
幾つかの場合において、平坦な光学デバイスは、夫々の伝送特性を生じるように選択された夫々パターン化されたナノ構造を含む。
【0009】
幾つかの場合において、複数の伝送特性の各々は線形である。幾つかの場合において、複数の伝送特性の各々は非線形である。
【0010】
幾つかの場合において、各符号化サブアレイ内の夫々のスペクトルエンコーダの複数の夫々の伝送特性は、用途に対して伝送特性を最適化しながら、損失関数を反復的に最小化することによって選択される。
【0011】
幾つかの場合において、各符号化サブアレイ内の夫々のスペクトルエンコーダの複数の夫々の伝送特性は、用途に対して最小の損失で固有ベクトルを符号化するk個の主成分を決定することによって選択される。
【0012】
幾つかの場合において、k個の主成分は、特異値分解(singular value recomposition)を実行することによって決定される。
【0013】
幾つかの場合において、プロセッサは、線形プロジェクタを使用して、画素応答のi×jアレイの各画素応答を復号化する。
【0014】
別の広義の態様では、ハイパースペクトル画像処理方法が提供され、該方法は、
符号化サブアレイのi×jアレイを含むエンコーダ層を配備する工程であって、各符号化サブアレイは複数の伝送特性の夫々を有するスペクトルエンコーダのm×nのアレイを含み、前記複数の伝送特性の夫々がk次元空間においてハイパースペクトル周波数範囲を符号化するように選択され、kはm×nである工程と、
前記エンコーダ層の符号化サブアレイのi×jアレイと位置合わせされた検出サブアレイのi×jアレイを備える画像処理層を配備する工程であって、各検出サブアレイは光検出器のm×nのアレイを含む工程と、
エンコーダ層を光に曝して、光を取得する工程と、
各光検出器において、広帯域光に応答した各スペクトルエンコーダの各伝送応答を検出する工程と、
画像処理層から画素応答のi×jアレイを出力する工程であって、各画素応答はm×nの伝送応答の画素ベクトルを含む工程と、
画素応答のi×jアレイを対応する画素スペクトルのi×jアレイに復号化して、ハイパースペクトル周波数範囲を包含する出力画像を生成する工程を含む。
【0015】
幾つかの場合において、各スペクトルエンコーダは平坦な光学デバイスである。
【0016】
幾つかの場合において、平坦な光学デバイスは、夫々の伝送特性を生じるように選択された夫々のパターン化されたナノ構造を含む。
【0017】
幾つかの場合において、複数の伝送特性の各々は線形である。幾つかの場合において、複数の伝送特性の各々は非線形である。
【0018】
幾つかの場合において、各符号化サブアレイ内の夫々のスペクトルエンコーダの複数の伝送特性の夫々は、用途に対して伝送特性を最適化しながら、損失関数を反復的に最小化することによって選択される。
【0019】
幾つかの場合において、各符号化サブアレイ内の夫々のスペクトルエンコーダの複数の伝送特性の夫々は、用途に対して最小の損失で固有ベクトルを符号化するk個の主成分を決定することによって選択される。
【0020】
幾つかの場合において、k個の主成分は、特異値分解を実行することによって決定される。
【0021】
幾つかの場合において、プロセッサは、線形プロジェクタを使用して、画素応答のi×jアレイの各画素応答を復号化する。
【図面の簡単な説明】
【0022】
本明細書に含まれる図面は、本明細書の物品、方法、装置、及びシステムの様々な例を例示するためのものであり、いかなる形でも教示されるものの範囲を限定することを意図するものではない。
図1A】少なくとも1つの実施形態による画像処理装置の平面図である。
図1B図1Aにおける画像処理装置の正面図である。
図1C図1Aにおける画像処理装置の分解斜視図である。
図1D】少なくとも1つの実施形態による符号化サブアレイの走査型電子顕微鏡写真である。
図2】少なくとも1つの実施形態によるハイパースペクトル画像処理の例示的な方法のフローチャート図である。
図3A】少なくとも1つの実施形態によるハイパースペクトル画像処理方法のフローチャート図である。
図3B】少なくとも1つの実施形態に従って測定及び再構成された例示的なパワー密度スペクトルを示すチャートである。
図4A】スキップ接続を有するフィードバックループとしての結合モードフォトニックネットワークを示す概略図である。
図4B】学習可能な結合共振層を図示する概略図である。
図4C】少なくとも1つの実施形態による、学習された微分可能な投影を使用して生成されたパラメトリック幾何学的形状を示す顕微鏡写真である。
図5A】FVgNETデータセットにおけるオブジェクトクラスの分布を示す円グラフである。
図5B】FVgNETデータセットにおけるオブジェクトクラスの分布を示す棒グラフである。
図5C】少なくとも1つの実施形態に従って決定されたセマンティックセグメンテーション(領域分類、画像の画素1つ1つに対してラベル付けしていく手法)マスクを示すラスタ画像である。
図6A】作製された符号化サブアレイの例の走査型電子顕微鏡(SEM)画像である。
図6B図6Aの符号化サブアレイのエンコーダを通して知覚されるFVgNETデータセットからのシーンのシミュレートされたラスタ画像である。
図6C図6Bのシーンのハイパースペクトル再構成間の定性的比較を示す画像の表である。
図6D】定量的な比較を示す、折れ線グラフの表である。
図7】スペクトルのセマンティックセグメンテーションとRGBベースのセマンティックセグメンテーションとの比較を示す表である。
図8A】少なくとも1つの実施形態に従った微分可能なハイブリッド逆問題設計予測器のネットワークモデル例を示す概略図である。
図8B図8Aの例示的なネットワークモデルの完全に接続されたブロックを示す概略図である。
図8C】サンプルのメタサーフェスに対する、学習済のスペクトル応答とグラウンドトゥルース(AIモデルの出力の学習やテストに使用される実際のデータ)のスペクトル応答との間の3つの定性的比較を示す一連のチャートである。
図9】データセットを増強するために使用される画像の表である。
図10A】実際のブドウ及び人工のブドウについての一対の反射率プロットである。
図10B図10Aにその反射率がプロットされている、実際のブドウの画像である。
図10C】反射率が図10Aにプロットされている人工ブドウの画像である。
図11】果実のセマンティックセグメンテーションに関するRGBモデルとスペクトル情報モデルとの比較を示す画像の表である。
図12】異なる波長での画像スペクトルの再構成を示す一連の画像である。
【発明を実施するための形態】
【0023】
ハイパースペクトル画像処理は、コンピュータビジョンにおける画像分類及び自動パターン認識のためのスペクトルシグネチャを識別するために、大きな注目を集めている。
既存のスナップショットハイパースペクトル画像処理の実装は、レンズ、分光計、及びフィルタを含む、嵩張り、一体化されておらず且つ高価な光学要素に依存する。これらの巨視的な構成要素は、これらのシステムに関連する大きなデータサイズ(ギガバイト範囲内のものもある)とともに、通常はリアルタイムで高解像度のビデオなどの高速データ処理を可能にしない。
このような肉眼で見える構成要素は、これらのシステムに関連する大きなデータサイズ(ギガバイト級のものもある)とともに、通常、リアルタイムで高解像度のビデオなどの高速データ処理を可能にしない。
【0024】
記載される実施形態は、一般に、ハイパースペクトル画像処理装置のための一体型アーキテクチャを提供し、一体型アーキテクチャは、CMOS互換であり、バルク光学系をナノスケールの平坦な光学的メタサーフェスと置き換え、該光学的メタサーフェスはそれらの空間幾何学的形状を使用して光の波長を符号化し、所望の伝送応答を生成することができる、
メタサーフェスの例は、例えば、「平坦な光学装置の偏光子ビームスプリッタ」と題された米国特許出願第62/799,324号、及び「多層ナノ要素に基づく光処理デバイス」と題された米国特許出願第2022/0091318A1号に記載されている。幾つかの場合において、メタサーフェスは、所与の用途について実質的に完全かつ再構成可能である情報を伝送応答に保持するために、機械的学習技法を使用して逆問題設計され得る。
従来のRGB狭帯域カラーフィルタとは異なり、メタサーフェスは、単一帯域に限定されない様々な伝送特性を有することができ、したがって、広帯域情報を成功裡に再構成することができる。さらに、メタサーフェスは、異なる用途のための種々の基本的光学構成要素と統合することができる。
【0025】
記載された実施形態は、特殊化された分光計を必要とせず、代わりに、従来のモノクロ画像センサまたはカメラを利用することができ、したがって、複雑性及びコストを低減した、リアルタイムかつ高解像度のハイパースペクトル画像形成の可能性を開拓する。画像処理装置の性能は、リアルタイムの画像及び/又はビデオの取得をサポートするのに十分な速さである。
説明される実施形態は、一般にモデル駆動型の最適化を採用しており、物理的なメタサーフェス層と、エンドツーエンドのトレーニングに基づく最新のビジュアル・コンピューティング・アプローチとを接続することができる。
説明される実施形態は、この技術を活用して、大規模ハイパースペクトル・データセットに基づいてエンドツーエンド学習で設計された、適切に定義されたプロジェクタ(例えば、本明細書にさらに説明される図1C及び図1Dを参照)を介して、高次元スペクトルデータを低次元空間に圧縮する。メタサーフェスプロジェクタを設計するために使用することができる人工知能(AI)を利用する逆問題設計ソフトウェアが、例えば、米国特許出願第62/799,324号;Getmanら、「ユニバーサル近似器を介して可視領域で99%までの実験効率を有する広帯域ベクトル型超薄型光学素子」、Light:Science&Applications、10(1):1-14、Mar.2021年3月、及びMakarenkoら、「進化型ニューロン型回路網を介しての可撓性基板上のロバスト且つスケーラブルな平坦な光学素子」、Advanced Intelligent Systems、2021年8月2100105ページに記載されている。これらのナノ構造は、入射スペクトルによって運ばれる広帯域情報を、強度信号の離散パターンからなるバーコードにコード化するようにパターン化される(例えば、本明細書にさらに記載される図1Dを参照されたい)。物理的モデルを考慮したフレームワークは、所望の用途に基づいて設計された様々な学習スキームにより、最適なプロジェクタの応答を決定する。
【0026】
従来のRGBカメラは可視スペクトル全体を3原色のみのフィルタに投影するため、従来のハイパースペクトル再構成は一般に、低次元のRGB画像から高密度にサンプリングされたハイパースペクトル画像(HSI)への逆投影を伴う。メタメリズムとは、異なるスペクトルパワー分布が視覚センサの類似した活性化レベルをもたらす効果のことである。
この効果により、重要なハイパースペクトル情報が除去され、異なる物体を区別することが困難になるが、ハイパースペクトル再構成は、そのような失われた情報を部分的に回復するために使用されるアプローチである。このようなスペクトル投影は、入力を低次元空間にダウンサンプリングするという意味で、オートエンコーダに似ている。
幾つかの場合において、この空間を効率的に探索する適切なアルゴリズムがあれば、初期入力を再構築するのに十分なデータを取り出すことが可能であり得る。
【0027】
スパースコーディング方法(信号を少数の基底の線形和で表現する方法)は、事前に知られているハイパースペクトル画像(HSI)データセットから基底ベクトルのセットを静的に発見する。K-SVDアルゴリズムは、過完備な(overcomplete)HSI及びRGB辞書を作成するために使用されている。ハイパースペクトル画像(HSI)は、入力画像を基底ベクトルの線形結合に分解することによって再構成され、次いでハイパースペクトル辞書に転送される。
スパースコーディング方法の限界の1つは、適用される行列分解アルゴリズムであり、これは外れ値の影響を受けやすく、性能が低下する。しかし、これらの手法の能力は、ディープラーニング、特に教師あり学習によって拡張され、UNetのようなアーキテクチャを学習させることで、単一のRGB画像からハイパースペクトル画像(HSI)を予測できるようになった。
例えば、放射基底関数ネットワークは、ホワイトバランスされたRGB値を反射スペクトルに変換するように学習された。同様に、RGB画像に対する補間ベースのアップサンプリング法からなる2段階の再構成アプローチが提案されている。提案されたエンドツーエンドト学習(様々な処理を行う複数の層・モジュールを備えた一つの大きなニューラルネットワークに置き換えて学習を行うもの)は、アップサンプリングされた画像から真のハイパースペクトル画像(HSI)を回復する。別のアプローチは、異なるRGBカメラを使用して、重複しないスペクトル情報を取得し、ハイパースペクトル画像(HSI)を再構成する。これらのアプローチは、それらの教師つき学習構造によって制限される、高度に非線形な予測モデルからスペクトル情報を再構築する。このモデルは、HSIまたは一般的なRGBカメラに色生成関数を適用することで、最適でないRGB画像へのデータダウンサンプリングを制約する。
対照的に、記載された実施形態は、最適に設計されたメタサーフェスエンコーダまたはプロジェクタでスペクトルダウンサンプリングを実行することにより、スパースコーディング及びディープラーニング再構成方法のすべての問題を回避する。
【0028】
従来のカメラの光学プロジェクタは、3原色に基づいて人間の色覚を模倣している。しかしながら、人間の視界の帯域幅範囲は、すべての現実世界の目的に十分ではないか、または適切ではない場合がある。したがって、記載された実施形態は、RGBカメラの概念を3チャンネルから任意の低次元の反射スペクトルのサンプリングに拡張し、最適化ルーチンの様々なバリエーションを採用することで、初期候補の数から最適なプロジェクタのセットに収束させる。
これにより、選択されたプロジェクタは、ハイパースペクトル画像(HSI)のマルチチャネル再構成を提供する。また、1×1畳み込み演算により、マルチスペクトルデータフレームを処理しながら、光学プロジェクタと同様の機能を達成することが実証された。ネットワークは、オートエンコーダのようなものであり、入力されるハイパースペクトル画像(HSI)は、ダウンサンプリングされ、次いで、デコーダネットワークによって再構成される。
【0029】
メタサーフェスプロジェクタの逆問題設計の場合、最良に適合するフィルタを最適化することは次元削減問題であり、最小の損失を示す固有ベクトルを符号化する主成分方向を見つけることを含む。結果は、計算または薄膜フィルタの実験的測定から生成され、正確な主成分の大まかな近似を表している。ハイパースペクトル画像処理では、これらの成分は一般的に、周波数に依存した不規則なパターンを示し、これはシャープな共振とブロードな共振の複雑な分布からなる。
従来のメタサーフェスの設計アプローチは、通常、事前に計算されたメタサーフェス応答のライブラリと、設計パラメータとデバイス性能の関係をさらに一般化するための多項式フィッティングに依存している。しかしながら、記載される実施形態の少なくとも幾つかにおいて、メタサーフェス光学プロジェクタは、古典的最適化とディープラーニングを組み合わせたハイブリッド逆問題設計アプローチを用いて設計することができる。
幾つかの追加の実施形態では、このハイブリッド逆問題設計アプローチは、微分可能性、物理モデル正則化、複雑なデコーダプロジェクタを追加することによってさらに拡張することができ、異なるコンピュータビジョンタスクに取り組み、教師ありエンドツーエンドの学習プロセスを通じて何千ものパラメータ最適化を実行することができる。
【0030】
ここで特に図1A乃至図1Dを参照すると、少なくとも1つの実施形態によるハイパースペクトル画像処理装置が示されている。装置100は、プロセッサ190に結合された画像処理サブシステム101を有する。画像処理サブシステム101は、画像処理層120と位置合わせされるエンコーダ層110を有する。図1Aは、画像処理装置100の平面図である。図1Bは、画像処理装置の正面図であり、エンコーダ層110が画像処理層120の上に積層されている。図1Cは、画像処理サブシステムの分解斜視図である。図1Dは、例示的なエンコーダ層110の符号化サブアレイ112の走査型電子顕微鏡の写真である。
【0031】
エンコーダ層110は、i×j個の符号化サブアレイ112のアレイを有し、各符号化サブアレイは、複数の夫々の伝送特性を有するスペクトルエンコーダ114、またはプロジェクタのm×n個のアレイから構成される。
スペクトルエンコーダは平旦な光学系であり、少なくとも幾つかの実施形態では、夫々の伝送特性を生成するように設計されたパターン化されたナノ構造から形成される。特に、複数の夫々の伝送特性は、k次元空間内のハイパースペクトル周波数範囲を符号化するように選択され、ここでkはm×nである。少なくとも幾つかの実施形態では、伝送特性は、線形オペレータと共に使用するために線形である。しかしながら、幾つかの代替の実施形態では、1つ又は複数の伝送特性は、適切な非線形演算子とともに使用するために非線形であり得る。
【0032】
少なくとも幾つかの実施形態では、サブアレイ内の各エンコーダに対する伝送特性は、用途に対して伝送特性を最適化しながら、損失関数を反復的に最小化することによって選択される。
【0033】
幾つかの他の実施形態では、サブアレイ内の各エンコーダに対する伝送特性は、用途に対して最小の損失で固有ベクトルを符号化するk個の主成分を決定することによって選択され、それらk個の主成分は、特異値分解を実行することによって決定することができる。
【0034】
一般に、エンコーダ層110の各符号化サブアレイ112は、画像処理層120の夫々の検出サブアレイ122と位置合わせされる。次いで、各エンコーダ114は、エンコーダ層110の各エンコーダ114と画像処理層120の夫々の光検出器124との間に1対1の対応関係があるように、夫々の光検出器124と位置合わせされる。一緒に、符号化サブアレイの各エンコーダは、「バーコード」を生成し、このバーコードは、検出サブアレイの対応する光検出器によって検出されて、出力「画素」を生成する。符号化サブアレイ及び検出サブアレイの正確なサイズは、用途に応じて変わり得る。幾つかの実施形態では、符号化サブアレイ及び検出サブアレイ(及び「バーコード」)は、3x3サイズを有する。他の実施形態では、サイズは、例えば、2x2、4x3、3x4など、異なってもよい。この説明は、サブアレイの長方形の例を提供するが、サブアレイは、長方形の幾何学形状に限定されない。
【0035】
上述のように、エンコーダ層110は、スペクトルエンコーダの夫々の伝送特性を通じて、入力される高次元HSI βを伝送応答の低次元マルチスペクトル・イメージ・テンソルに圧縮する光学線形スペクトル・エンコーダとして働く。
エンコーダ層110は、光線形スペクトルエンコーダとして機能し、スペクトルエンコーダの夫々の伝送特性を介して、入力される高次元HSIβを伝送応答の低次元マルチスペクトル画像テンソル
【数1】
に圧縮する。
エンコーダは、例えば、光学グレードの溶融シリカガラススライド上に堆積されたアモルファスシリコンの薄層をパターン化することによって製造することができる。
【0036】
少なくとも1つの実施形態では、エンコーダ層は、基板として15mm幅及び0.5mm厚さの正方形片の溶融石英ガラスを使用して製造される。プラズマ強化蒸着法により、アモルファスシリコンの薄層がガラス上に蒸着され、その厚さは、設計要件に適合するように各サンプル上で制御される。さらに、200nmの第1のレジスト(例えば、ZEON社製のZEP-520A)及び40nmの第2のレジスト(例えば、ALLRESIST製のAR-PC 5090)を、100kV加速電圧を用いた電子ビームリソグラフィシステムを用いて、ナノ構造の形状にスピンコーティングし、パターン化する。次に、脱イオン水中に各試料を60秒間浸漬することによって、第2のレジストを除去する。デバイスは、それらを溶媒(例えば、ZEON社製のZED-50)中に90秒間浸漬し、イソプロピルアルコール中で60秒間すすぐことによって作り出される。さらに、電子ビーム蒸着を用いて22nmのクロムを蒸着し、ハードマスクを作製し、リフトオフを実行し、続いて超音波攪拌を1分間行う。次に、保護されていないシリコンは、反応性イオンエッチングを使用して除去され、30秒間、エッチング液(例えば、Microchemicals社からのTechniEtch Cr01)中にデバイスを浸漬して、金属マスクを除去し、脱イオン水ですすいで、最終的なデバイスを得る。
【0037】
デバイスを製造するために、他のプロセスを使用することもできる。例えば、1つのレジストのみを使用すること、レジストの厚さを変化させること(例えば、20nmから1000nmの間で)が可能である。異なる加速電圧の電子ビームリソグラフィシステム(例えば、50kV)が使用され得る。溶媒は、等価物で置換されてもよい。さらに、反転バージョンのパターンがレジスト内で露光される場合、またはネガティブ極性レジストが使用され、エッチングが十分に最適化される場合、メタルマスクを省略することができる。
【0038】
幾つかの場合において、十分に高い解像度を有するUVリソグラフィーを使用することができ、大量生産に適することができる。他のいくつかの場合では、ナノインプリントリソグラフィーを用いてもよいし、またはシリコン構造をパターン化レジストの孔の内側に成長させてもよい。
【0039】
図6Aは、9つのエンコーダの各々のナノスケール構造を詳述する、加工されたサブアレイ600をエンコーディングした例の走査型電子顕微鏡(SEM)画像である。図示の例では、3×3サブアレイの各エンコーダは、幅2.4μmの正方形の領域を占めるように配置されている。これは、最近のデジタルイメージセンサに見られる光検出器の典型的なサイズであり、画像処理層120との統合を可能にする。例では、各エンコーダの光学応答は、400nmから1000nmの波長の直線偏光を使用して特徴付けられる。
【0040】
再び図1Aから図1Dを参照すると、画像処理層120は、エンコーダ層110の符号化サブアレイ112のi×jアレイと位置合わせされた検出サブアレイ122のi×jアレイを有し、各検出サブアレイ122は、光検出器124のm×nアレイを含み、各光検出器124は、(例えば、可視光線、近赤外線、最高中赤外線、又は紫外線、又はこれらの任意の組み合わせを包含する)広帯域光に応答して、夫々のスペクトルエンコーダ114の夫々の伝送応答を検出するように配置される。画像処理層120は、i×jアレイの画素応答をプロセッサ190に出力し、各画素応答は、m×nの伝送応答の画素ベクトルを含む。
【0041】
プロセッサ190は、ハイパースペクトル画像の再構成を実行して、特定用途向けのデコーダマッピングに基づいて、伝送応答のテンソル
【数2】
をハイパースペクトル画像(HSI)出力に変換する。場合によっては、プロセッサ190はまた、結果として生じるハイパースペクトル画像(HSI)のセマンティックセグメンテーション(領域分類、画像の画素1つ1つに対してラベル付けしていく手法)を実行してもよい。
【0042】
本明細書に記載の少なくともいくつかの実施形態において、エンコーダ層は、光学的であり、一般に光の速度でデータを取得し、符号化する。したがって、データ取得速度は、主にセンサのフレームレート(例えば、毎秒30フレーム(FPS))と処理速度によって制限される。
リアルタイムの分類/セグメンテーションタスクの場合、ネットワークの残りの層は、ハイパースペクトル画像のリアルタイム処理とタスクの出力との間に遅延が発生する。リアルタイム処理を実現するためのアプローチの1つは、グラフィックス処理ユニット(GPU)に実装された浅いネットワークを使用することである。
一実施形態では、学習に使用されたデータセットの仕様は一致し、システムは400nmから700nmまで、10nmのスペクトル分解能と512×512の空間分解能で動作するように設計された。一般に、400nmから700nmまでの波長範囲をカバーする、2nmより良好なスペクトル分解能を達成することができる。現在市販されている高分解能の画像処理センサ(例えば、12メガピクセル以上の分解能)を用いて、2メガピクセル以上の分解能と1Tb/sに近い取得速度を有するハイパースペクトル画像処理装置を達成することができる。
【0043】
ここで図2を参照すると、ハイパースペクトル画像処理の例示的な方法のフローチャート図が示されている。方法200は、例えば装置100のもののようなエンコーダ層、画像処理層及びプロセッサによって実行され得る。
記載されるように、エンコーダ層は、符号化サブアレイのi×jアレイを有し、各符号化サブアレイは、複数の夫々の伝送特性を有するスペクトルエンコーダのm×nアレイから構成され、複数の夫々の伝送特性は、k次元空間内のハイパースペクトル周波数範囲を符号化するように選択される。ここで、kはm×nである。画像処理層は、エンコーダ層の符号化サブアレイのi×jアレイと位置合わせされた検出サブアレイのi×jアレイを有し、各検出サブアレイは、光検出器のm×nアレイを含む。
【0044】
方法200は、ステップ210において、装置100のエンコーダ層110などのエンコーダ層をハイパースペクトルシーンからの広帯域光に曝し、エンコーダ層が、本明細書で説明するように、各エンコードサブ層内のエンコーダの伝送特性に従って光を符号化して、複数の伝送応答を生成することから始まる。
【0045】
ステップ220で、装置100の画像処理層120などの画像処理層の各光検出器は、広帯域光に応答して、夫々のスペクトルエンコーダの各伝送応答を検出する。次いで、画像処理層は、画像処理層からの画素応答のi×jアレイを出力し、各画素応答は、m×nの伝送応答の画素ベクトルを含む。
【0046】
ステップ225において、装置100のプロセッサ190などのプロセッサが、画素応答のi×jアレイを、対応する画素スペクトルのi×jアレイに復号化)て、ハイパースペクトル周波数範囲を包含する出力されるハイパースペクトル画像を生成する。
【0047】
任意で、ステップ240において、プロセッサは、本明細書でさらに説明するように、出力されるハイパースペクトル画像に基づいてセマンティックセグメンテーション(画像の画素1つ1つに対してラベル付けしていく手法)を実行し得る。
【0048】
ハイパースペクトル画像の再構成は、入力されるハイパースペクトル画像(HSI)またはそのテンソルを最小の損失で再構成する役割を果たす。損失はHSIの二乗平均平方根誤差(RMSE)
【数3】
によって定義することができる。
従って、使用されるデコーダは、HSIテンソルの次元性を満たすように調整された入力層及び出力層を有するU-Netアーキテクチャを使用するデコーダDsegであり得る。デコーダは、各画素のグラウンドトゥルースラベルyを観察する確率を表すソフトマックスロジット
【数4】
を出力する。これらの予測は、クロスエントロピー損失関数Lsegを用いて定量的に評価することができる。
【0049】
エンコーダ層において、サブミクロンのナノ構造アレイの伝達関数は、任意に定義された連続関数を近似することができる。記載される実施形態は、この普遍的な近似能力を使用して、用途に固有のハイパースペクトル情報に関連する画像処理タスクに最適な線形スペクトルのエンコーダハードウェアを設計および実装する。
【0050】
ここで図3Aを参照すると、少なくとも1つの実施形態によるハイパースペクトル画像処理方法のデータワークフローが示されている。ワークフローは、一般的な線形エンコーダ演算子
【数5】
について示されている。
ハイパースペクトル画像305は、カメラ仮想画像面に対応する2つの空間次元(x,y)と、1つの画像処理層画素306における画素応答として取得されたパワー密度スペクトル319(図3Bに示すように)を測定する1つの周波数軸ωとの3次元を有するテンソルβとして表すことができる。
【0051】
テンソルβの新しい等価な符号化表現を見つける線形次元削減演算子Λが得られる。画像のデータセットのハイパースペクトルテンソルは、各列に画素セットのパワー密度スペクトルを含むマトリックスBに平坦化される。
次に、線形符号化Λ+を適用して、画素ごとにスペクトル座標βijをスカラー係数Sijkのセットにマッピングする線形プロジェクタΛ(ω)のセットを介してマトリックスBの近似を得る。
【数6】
【0052】
スペクトル座標βij(ω)に含まれるスペクトル情報は、数個の成分からなる等価な「バーコード」Sijkに埋め込まれる。Λエンコーダ層をハードウェアに実装するには、2つの異なるアプローチを用いることができる。
【0053】
1つのアプローチでは、ユーザ側のタスクが、例えばスペクトル再構成のような、追加の制約を課さない場合、エンコーダは、物理的なメタサーフェス応答
【数7】
とターゲットΛの間のノルム(ベクトルの大きさ)を最小化するために、上記のハイブリッド逆問題設計アプローチと主成分分析(PCA)などの最適化フレームワークを利用して設計することができる。
【数8】
【0054】
あるいは、例えば、ハイパースペクトルのセマンティックセグメンテーション(画像の画素1つ1つに対してラベル付けしていく手法)などのさらなる条件を課し得るタスクにおいて、学習可能なバックボーンを使用することもでき、該バックボーンは、上記した微分可能なハイブリッド逆問題設計アプローチを使用し、エンドツーエンドのアプローチで学習された微分可能な物理モデルを作成する。
微分可能なハイブリッド逆問題設計アプローチは、プロジェクタ応答Λとメタサーフェスを定義する全てのパラメータを含むベクトルLを同時に最適化することにより、損失関数Lsegを最小化する反復プロセスを通じてメタサーフェス形状を設計する。
【数9】
【0055】
上述のように、単一の画像処理サブアレイ、又は「画素」応答は、エンコーダ(または「サブ画素」)の2次元サブアレイ内にて、複数のエンコーダまたはメタサーフェスプロジェクタ(即ち、符号化サブアレイの)からの伝送応答を統合し、これらは、空間内で複製されて、エンコーダ層を形成する。
各符号化サブアレイは、シーンから生じる反射スペクトルを、「バーコード」
【数10】
に変換し、該バーコードは式(1)で定義されるように、入力スペクトルと各プロジェクタの応答との間の重なりに比例する強度信号のセットから構成される。
メタサーフェスの背後に置かれた、CMOSまたはCCD画像処理層の光検出器は、画像処理読取り層として働く。画像処理層の個々の光検出器は、エンコーダ層の対応する夫々の「サブ画素」に一致し、したがって、バーコード
【数11】
の1つの強度信号を取得する(その一例を図3Bのスペクトル369として示す)。
このように、検出サブアレイ内の光検出器の群は、RGB画像処理センサのサブ画素に一般的に類似した方法で、「バーコード」全体を検出し、「画素」出力を生成することができ、該光検出器の群は、Bayerフィルタ(例えば、BGGR、RGBG、GRBGなど)の後ろに配置された4つの光検出器を含むことができ、各「画素」に対して単一の色値を生成する。
【0056】
PCAハイブリッド逆問題設計アプローチにおいて、線形エンコーダΛは、主成分分析(PCA)を使用した教師なし学習手法によって取得される。
主成分分析PCAは、
【数12】
の特異値分解からk個の最も強い(例えばk=9)主成分
【数13】
を選択し、Bを以下のように近似することにより、ハードウェア符号化εを実行する。
【数14】
【0057】
式(2)は、最小二乗の意味でBの最も近い線形近似を示す。デコーダDは、線形プロジェクタ
【数15】
で実装され、選択されたPCA成分から画素スペクトル(例えば、スペクトル369)
【数16】
の最良の最小二乗近似を復元する。
【0058】
選択される特定の線形演算子は、特定の用途に合わせて調整される。
【0059】
幾つかの実施形態では、例えばJPEG圧縮など、PCA以外の線形エンコーダを使用することができる。
【0060】
更に他の実施形態では、メタサーフェスが非線形伝送特性を有する材料から生成される場合には、非線形エンコーダを使用することができる。
【0061】
微分可能なハイブリッド逆問題設計アプローチでは、デコーダ演算子Dは、入力テンソル
【数17】
を出力測定テンソル
【数18】
に投影する階層的非線形演算子Fの集合として表現される。
このプロセスは、教師あり学習によって繰り返し学習され、測定値
【数19】
をあるグランドトゥルース(AIモデルの出力の学習やテストに使用される実際のデータ)テンソル
【数20】
と比較する。
このエンドツーエンドの学習により、最適な特徴空間
【数21】
と関連する線形プロジェクタΛが求められる。誤差逆伝播法を用いるこのアプローチで学習を実行するために、エンコーダEは微分可能である。
【0062】
プロジェクタの逆問題設計では、エンコーダε=Hであり、H(ω)はメタサーフェス応答の出力伝達関数を表し、それは以下の結合モード方程式のセットの解から得られる。
【数22】
ここでWは、モードの共振周波数ωnを有する対角行列であり、
【数23】
は、共振器空間上の衝突波
【数24】
の散乱をモデル化する散乱行列であり、
【数25】
は、進行波
【数26】
と共振器モード
【数27】
との間の相互作用を表す結合行列である。
式(3)は、入射波(+)及び反射波(-)
【数28】
と相互作用する共振器モード
【数29】
のネットワークのダイナミクスを記述する。
【0063】
このアプローチは時間領域結合モード理論(TDCMT)に基づいており、これはMaxwellの方程式と等価な厳密な結合モード方程式のセットを用いている。結合モードアプローチの原理は、光伝播の幾何学的空間Ωを共振器空間Ωrと外部空間Ωeに分割することである。外部空間は、ソースまたは電荷を含まないと仮定される。この定式化のもとでは、Maxwellの方程式群は、1/Xを逆行列X-1として、式(3)に換算される。
パワー保存は、結合モード方程式の解から規定されるマトリックスσ
【数30】
がユニタリσ+・σ=1であることを意味する。
【0064】
式(3)は、システムのダイナミクスが3つの独立した行列、すなわち結合行列
【数31】
、散乱行列
【数32】
、共振行列Wにのみ依存することを示している。
【0065】
式(3)の解から得られる入出力伝達関数
【数33】
は、散乱行列
【数34】
で定義される伝搬項と、有理関数
【数35】
を含む非線形項という、2つの主要な項の重ね合わせである。式(3)は、誤差逆伝播が可能なWの微分可能関数を表す。
【0066】
図4A乃至図4Cは、微分可能なメタサーフェスの物理モデルとしての結合モードネットワークの一例を示す。図4Aは、光がメタサーフェスエンコーダを通過する際の共振及び伝搬効果を示す概略図である。図4Aに示すように、結合モード理論から導き出された物理モデルは、スキップ結合ニューラルネットワークと共通のアーキテクチャを共有する。図4Bは、学習可能な結合共振層を示す概略図である。図4Cは、学習された共鳴層の走査型電子顕微鏡(SEM)画像である。最適化された幾何学的形状は、上述のメタサーフェスエンコーダの機能を形成する。
【0067】
幾つかの実施形態では、微分可能なハイブリッド逆問題設計アプローチを使用して、式(3)の共振器量をメタサーフェス入力パラメータLに投影するために、教師付き最適化プロセスを使用することができる。
式(3)におけるメタサーフェス入力パラメータLと共振器変数との間の関係を学習するために、ディープニューラルネットワークが学習される。ここに記載される同じアプローチに従い、ネットワークは、シミュレートされた伝送/反射応答を持つシリコンボックスのアレイを使用して、教師ありスペクトル予測タスクで学習される。
【0068】
図8Aは、微分可能なハイブリッド逆問題設計予測器800の一例のモデルを示しており、この予測器は、連続入力808と、いくつかの完全に接続された(FC)ブロック810a及び810bとが順次接続された第1の分岐805を有している。各FCブロック810(図8Bに示す)は、異なるサイズの多層パーセプトロン812(MLP)、バッチ正規化層814、およびドロップアウト816で構成される。カテゴリー入力変数(例えば、周期、厚さ)を個別に処理するために、カテゴリ入力840、線形埋め込み層850、FCブロック810cが順次接続された第2の分岐845が設けられる。分岐845の主な目的は、モデルにおけるカテゴリ変数と連続的な変数の重みのバランスをとることである。
次に、連続した分岐805とカテゴリ分岐845の両方がブロック860で連結され、複数のFCブロック810d、810eと非線形読み出し部880からなる読出し分岐890に供給される。
【0069】
一例では、例えば、全電磁場/散乱場(TFSF)シミュレーションの下でのガラス上の純粋シリコン構造の600000回を超えるシミュレーション結果を含む学習データセットを使用することができる。この例では、各シミュレーションは、3つの異なる周期(250nm、500nm又は750nm)の何れかと、25nmステップで50nm乃至300nmの10種類の離散厚さのいずれかを持つ周期的境界条件を有する。
各構造は、立方体共振器のランダムな組み合わせ(最大5つ)で構成されている。データセットはテスト用部分と学習用部分に分けられ、夫々全体の20%と80%を占め、学習用セットの10%が検証セットとして使われる。
【0070】
学習用部分のために、Adam最適化手法が、例えば学習率1×10-5と、ステップサイズ=50及びγ=0.1のハイパーパラメータを備えたステップ学習率スケジューラを用いて使用することができる。
伝送又は反射の何れかで所望のシステム応答を達成するために、シグモイド活性化関数がFCNの最上層に適用される。この関数は、出力スペクトルを範囲[0,1]にマッピングし、これは、学習段階の開始時に収束を支援する。周期的境界条件を使用するため、ランダムな並進及び回転がデータ増大のために使用されることがある。
【0071】
このアプローチを使用して、0.008の検証平均二乗誤差が達成される。図8Cは、学習されたスペクトル応答とグランドトゥルース(AIモデルの出力の学習やテストに使用される実際のデータ)スペクトル応答との定性的比較を提供する。
【0072】
説明される実施形態は、様々なデータセットを使用して学習され、検証され得る。いくつかの実施形態では、3つの公開されて利用可能なデータセット、
すなわち、400nm乃至700nmをカバーする32の屋内画像から構成されCAVEデータセット(https://www1.cs.columbia.edu/CAVE/databases/multispectral/で利用可能)、並びに420nm乃至720nm及び400nm乃至700nmをカバーするスペクトル帯を夫々有する、屋内及び屋外の両方の場面をそれぞれ含み、75個及び409個の画像を夫々含むHarvard及びKAUSTデータセット(http://vision.seas.harvard.edu.hyperspec及びhttps://repository.kaust.edu.sa/handle/10754/670368,で夫々利用可能)を使用することができる。
追加のハイパースペクトルデータセットFVgNETを使用することもできる(https://github.com/makamoa/hyplexで入手可能である)。FVgNETは、自然と人工の両方の果実と野菜を示す317のシーンで構成され、制御された照明条件下で屋内で撮影され、400nmから1000nmの範囲をカバーしている。
シーンの約40%は、カメラの焦点面に配置された1列のオブジェクトからなる。残りのシーンは、2列のオブジェクトを示し、焦点面はその間に位置する。白色基準パネルは、正規化を容易にするために、データセット全体にわたってほぼ一定である。ハイパースペクトル画像は、512×512画素及び204スペクトル帯域の空間分解能を有する。RGB画像はまた、同じ空間分解能を有する各シーンについてRGBカメラのレンズを通して見られるように提供される。幾つかの場合において、一般化能力を検証するために、データセットは、例えば、20個の追加の画像(その例を図9に示す)で拡張され得る。これらの例示的な画像の結果として得られる再構成誤差は、2.54±2.72であり、エンコーダを学習するために使用されるKAUSTデータセットで得られた結果と一致する値である。
【0073】
FVgNET画像は、無限曲線に配置された白紙シート、背景から物体を分離するために写真撮影に使用される構成からなるセットアップを使用して取得された。これは、オーバーヘッド白色LED室内照明、ガラス拡散器を備えた150Wハロゲンランプ(Thorlabs(商標)社OSL2)及び拡散反射器内に取り付けられた100Wタングステン電球により物体を照明することにより、最終画像における影の存在を最小限に抑えながら、良好なスペクトル範囲を実現する。
【0074】
ここで図5A及び図5Bを参照すると、FVgNETデータセットにおけるオブジェクトクラスの分布を示すチャートが示されている。オブジェクトの各クラス(例えば、林檎、オレンジ、唐辛子)について、ほぼ等しい数のシーンが生成され、a)自然のオブジェクトのみ、及びb)人工的なオブジェクトのみを示す。データセットは12のクラスから成り、それらの色の多様性に比例して画像中に表現される。さらに、画像の80%は、追加のセグメンテーションマスクで注釈付けされる。各クラスは、より色彩的な多様性を有するので、林檎及び唐辛子を除いて、データセットにおいてほぼ等しい数のインスタンスを有する。セマンティックセグメンテーション(画素1つ1つに対してラベル付けしていく手法)マスクは、204個のスペクトルチャネルから生成されたRGB画像を処理することによってデータセットに組み込まれる。画像は、オブジェクトの交差を回避するような方法で取得され、各オブジェクトによって占有される領域のためのマスクの自動生成を可能にする。次に、マーキングされた各オブジェクトに注釈を付け、各オブジェクトクラスを識別し、それらが自然であるか人工であるかを識別した。
【0075】
図5Cは、データセットの画像上のセマンティックセグメンテーションマスク(ラベル)の実装を示している。左側は、ハイパースペクトル画像のRGB可視化である。右側は、各オブジェクトのセグメンテーションマスクとラベルである。
【0076】
ここで図6Bを参照すると、例示的なデータに基づいて、符号化サブアレイ600から構成される符号化層のエンコーダの各々を通して知覚される、FVgNETデータセットからのシーンが示されている。図6Cは、シミュレートされたバーコードと例示されたバーコードの両方に基づくこのシーンのハイパースペクトル再構成とオリジナルとの定性的比較を示す。
図6Dは、従来の手法による、オリジナルのスペクトル610と、例示的な実施形態による再構成されたスペクトル650と、再構成されたスペクトル690との間の定量的な比較を示す。データセットの80%がデコーダの学習のために指定され、残りは検証の目的のために指定された。
【0077】
ここで図7A乃至図7Cを参照すると、スペクトルのセマンティックセグメンテーションとRGBベースのセマンティックセグメンテーションとの比較が示されている。図示の例では、セグメンテーションは、FVgNETデータセットのシーンからの人工的な果実と実際の果実との間で実行される。人工的な果実と実際の果実は、同様のRGB色を有する。しかしながら、それらは、図10A乃至図10Cに示すように、それらの反射スペクトルにおいて大きく異なる。
【0078】
記載された実施形態の性能は、比較目的のために2つの分類ネットワークを学習することによって例示することができる。1つのモデルは、セマンティックセグメンテーションのラベリングのために説明されたエンコーダを使用し、第2のモデルは、RGBチャネルを使用する。
どちらのモデルも、同一のU-Netのようなデコーダーと同一のパラメータ(エポック数、バッチサイズ、学習レート)を使用している。結果は、図7A乃至図7Cに要約され、ここで、図7Aは、スペクトル情報モデル、RGBのみのモデル、及びグランドトゥルースから生成されたセグメンテーションマスク間の比較を示し、図7Bは、RGBのみのモデルの混同行列を示し、図7Cは、スペクトル情報モデルに対する混同行列を示す図である。混同行列内の各値は、列の項目のセグメンテーションマスクのうち、行の項目として分類された画素数を表す。
【0079】
マスク品質は、両方の方法について同様であるが、スペクトル情報モデルについての平均的なIntersection over Union(mIoU)スコアは、RGBモデルと比較して非常に高い。エンコーダの理論的及び実験的応答で計算したmIoUは81%に達し、74%に達した。逆に、RGBモデルでは、mIoUは68%に減少する。RGB学習済みモデルの混同行列は、RGBモデルが、類似した色を持つ実際の果実と人工的な果実のペアに対して正しい結果を予測するのに苦労していることを示している(例えば、図7B)。
逆に、スペクトル情報モデルは、殆どの実際の果実と人工的な果実のペアに対して正しいラベルを生成し(例えば、図7C)、mIoU及びF1におけるRGBモデルよりも性能が優れている。これらの結果は、説明された実施形態によって生成された小型バーコードが、画像処理されたオブジェクトについての重要な情報を伝達するスペクトル特徴を効率的に圧縮することを実証する。
【0080】
ここで図11を参照すると、果実のセマンティックセグメント化に関するRGBモデルとスペクトル情報モデルとの比較が示されている。上段の第1の行には、果実の16のRGB写真が示されている。上から2番目の行には、第1の行の16のRGB写真に対応するハイパースペクトル画像に基づいて生成された16のセグメンテーションマスクが示されている。上から3番目の行には、1行目の16のRGB写真に対応するRGB画像に基づいて生成された16個のセグメンテーションマスクが表示される。上から4番目の行には、第1の行の16のRGB写真のグラウンドトゥルース(実際のデータ)に基づいて生成された16のセグメント化マスクが示されている。
【0081】
図12を参照すると、異なる波長での画像スペクトル再構成を示す一連の画像が提供されている。左上からの第1の列及び第2の列は、7つの異なる波長における自転車の元の画像及びスペクトル再構成の画像を示す。右側の3x3グリッドを用いて、9つのエンコーダ夫々を介してシーンがどのように認識されるかをシミュレートしている。
【0082】
同様に、第3の行と第4の行は、7つの異なる波長での果実のディスプレイについての元の画像とスペクトル再構成の画像を示しており、右側の3x3のグリッドを用いて、9つの異なるエンコーダ夫々を介して知覚されるシーンの視界をシミュレートしている。
【0083】
同様に、第5の行と第6の行は、7つの異なる波長での書込みサンプルについての元の画像とスペクトル再構成の画像を示しており、右側の3x3グリッドを用いて、9つの異なるエンコーダ夫々を介して知覚されるシーンの視界をシミュレートしている。
【0084】
同様に、第7の行と第8の行は、7つの異なる波長での果実の配置についての元の画像とスペクトル再構成の画像を示しており、右側の3x3グリッドを用いて、9つの異なるエンコーダの夫々を介して知覚されるシーンの視界をシミュレートしている。
【0085】
特許請求される主題事項の実施形態の例を提供するために、様々な装置またはプロセスが説明されてきた。説明されたそのような例示的な実施形態は、いかなる請求項も限定せず、いかなる請求項も、説明されたものとは異なるプロセスまたは装置をカバーし得る。
特許請求の範囲は、上述の任意の1つの装置またはプロセスのすべての特徴を有する装置またはプロセス、あるいは上述の複数またはすべての装置またはプロセスに共通の特徴に限定されない。上述の装置またはプロセスは、本特許出願の発行によって付与される排他的権利の実施形態ではないことが可能である。上記の主題であって、この特許出願の発行により排他権が付与されていないものは、他の保護文書、例えば、継続特許出願の主題事項とすることができ、出願人、発明者又は特許権者は、この文書におけるその開示により、当該主題事項を放棄し、放棄し又は公衆のために捧げることを意図していない。
【0086】
説明を簡単かつ明瞭にするために、符号は、対応するまたは類似の要素を示すために、図面間で繰り返され得る。加えて、本明細書に記載される主題事項の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、本明細書に記載される主題事項は、これらの特定の詳細なしに実施され得ることが、当業者によって理解されるであろう。他の例では周知の方法、手順、及び構成要素は、本明細書で説明される主題を不明瞭にしないように、詳細には説明されていない。
【0087】
本明細書で使用される場合、「及び/又は」という用語は、包括的な「または」を表すことを意図する。すなわち、「X及び/又はY」は、例えば、X又はYまたはその両方を意味することが意図される。さらなる例として、「X、Y及び/又はZ」は、X、Y、Z又はそれらの任意の組み合わせを意味することを意図する。
【0088】
「実質的に」、「約」、及び「およそ」などの程度の用語は、本明細書で使用される場合、結果が有意に変化しないような、修飾された用語の妥当な量の逸脱を意味する。これらの程度の用語はまた、この逸脱が、それが修正する用語の意味を否定しない場合、修正された用語の逸脱を含むと解釈され得る。
【0089】
本明細書における端点による数値範囲の任意の記載は、その範囲内に包含される全ての数及び分数を含む(例えば、1乃至5は、1、1.5、2、2.75、3、3.90、4及び5を含む)。また、その全ての数及び分数は、結果が大きく変化しない場合に参照される数の一定量までの変動を意味する用語「約」によって修飾されると推定されることも理解されるべきである。
【0090】
本明細書における幾つかの要素は、基本番号とそれに続くアルファベットまたは下付き数字の接尾語(例えば、112a、または112-1)から構成される部品番号によって識別され得る。共通の基数を持つすべての要素は、接尾辞のない基数(例:112)を使用して集合的にまたは総称的に参照され得る。
【0091】
本明細書で説明されるシステム及び方法は、ハードウェアまたはソフトウェアの組合せとして実施され得る。幾つかの場合において、本明細書に記載されるシステムおよび方法は、少なくとも部分的に、少なくとも1つの処理要素およびデータ記憶要素(揮発性メモリ及び不揮発性メモリ、及び/又は格納要素)を含む)を含む1つまたは複数のプログラマブルデバイス上で実行される1つまたは複数のコンピュータプログラムを使用することによって実施され得る。これらのシステムはまた、デバイスの性質に応じて、少なくとも1つの入力デバイス(たとえば、押しボタンキーボード、マウス、タッチスクリーンなど)と、少なくとも1つの出力デバイス(たとえば、ディスプレイスクリーン、プリンタ、無線ラジオなど)とを有し得る。
さらに、幾つかの例では、本明細書で説明するシステム及び方法のうちの1つ又は複数は、コンピューティングネットワークにわたって分散された複数のコンピューティング構成要素を有する分散型またはクラウドベースのコンピューティングシステム内で、またはその一部として実施され得る。例えば、分散型またはクラウドベースのコンピューティングシステムは、組織に関連付けられたプライベート分散型またはクラウドベースのコンピューティングクラスタに対応することができる。加えて、または代替として、分散またはクラウドベースのコンピューティングシステムは、Microsoft Azure(商標)、Amazon Web Services(商標)、Google Cloud(商標)、または別の第3者のプロバイダによって維持されるコンピューティングクラスタなど、公的にアクセス可能な分散またはクラウドベースのコンピューティングクラスタである。幾つかの例では、分散型またはクラウドベースの演算システムの分散型演算要素は、Apache Spark(商標)分散型クラスタ演算フレームワークによって供給されるプロセスなど、1つまたは複数の並列化されたフォールトトレラントな分散コンピューティングおよび分析プロセスを実施するように構成されてもよい。
さらに、本明細書で説明するCPUに加えて、分散型演算要素はまた、単一のクロックサイクルで何千もの演算(たとえば、ベクトル演算)を処理することが可能な1つまたは複数のグラフィックス処理ユニット(GPU)を含み得、さらに、または代替として、単一のクロックサイクルで何十万もの演算(たとえば、行列演算)を処理することが可能な1つまたは複数のテンソル処理ユニット(TPU)を含み得る。
【0092】
本明細書に記載するシステム、方法、及びデバイスの少なくとも一部を実施するために使用されるいくつかの要素は、オブジェクト指向プログラミング言語などの高レベル手続き型言語で書かれたソフトウェアを介して実施することができる。したがって、プログラムコードは、例えばPython(商標)やJava(登録商標)のような任意の適切なプログラミング言語で書くことができる。代替として、またはそれに加えて、ソフトウェアを介して実施されるこれらの要素のいくつかは、必要に応じて、アセンブリ言語、機械言語、またはファームウェアで書かれ得る。何れの場合も、言語はコンパイル型言語又はインタープリタ型言語であってもよい。
【0093】
これらのソフトウェアプログラムの少なくともいくつかは、記憶媒体(例えば、読み取り専用メモリ、磁気ディスク、光ディスクなどであるが、これらに限定されない、コンピュータ可読媒体)、または汎用または専用プログラマブルデバイスによって可読であるデバイス上に記憶され得る。ソフトウェアプログラムコードは、プログラマブルデバイスによって読み取られると、プログラマブルデバイスを、本明細書に記載の方法のうちの少なくとも1つを実行するために、新しい、特定の且つ事前定義された方法で動作するように構成する。
【0094】
さらに、本明細書で説明するシステム及び方法に関連するプログラムの少なくともいくつかは、1つまたは複数のプロセッサのためのコンピュータ使用可能命令を担持するコンピュータ可読媒体を含むコンピュータプログラム製品中に分散されることが可能である。媒体は、限定はしないが、1つまたは複数のディスケット、コンパクトディスク、テープ、チップ、ならびに磁気及び電子記憶装置などの非一時的な形態を含む、様々な形態で提供され得る。あるいは、媒体は、限定されるものではないが、有線伝送、衛星伝送、インターネット伝送(例えば、ダウンロード)、媒体、デジタル及びアナログ信号等のような性質の一時的なものであってもよい。コンピュータ使用可能命令はまた、コンパイル済み及び非コンパイル済みコードを含む種々のフォーマットであり得る。
【0095】
上記の説明は、1つまたは複数のプロセスまたは装置の例を提供するが、他のプロセスまたは装置が、添付の特許請求の範囲内に含まれることが理解されよう。
【0096】
以前か否かにかかわらず、任意の技術に関して以前になされた補正、特性評価、または他の主張(本件または関連する特許出願または特許(親、兄弟、子を含む))が解釈できる範囲で、この出願の本開示によって裏付けられる主題の放棄事項としての限りにおいて、本出願人は、そのような放棄を取り消し、撤回する。また、出願人は、関連する特許出願又は特許(親、兄弟又は子を含む。)において先に考慮された先行技術について、再び閲覧する必要があることを提出する。
図1A
図1B
図1C
図1D
図2
図3A
図3B
図4A
図4B
図4C
図5A
図5B
図5C
図6A
図6B
図6C
図6D
図7
図8A
図8B
図8C
図9
図10A
図10B
図10C
図11
図12
【国際調査報告】