(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-21
(54)【発明の名称】データからノイズを除去するための方法および装置
(51)【国際特許分類】
G01N 21/65 20060101AFI20240614BHJP
G06N 20/00 20190101ALI20240614BHJP
【FI】
G01N21/65
G06N20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023576055
(86)(22)【出願日】2022-06-06
(85)【翻訳文提出日】2024-01-10
(86)【国際出願番号】 GB2022051412
(87)【国際公開番号】W WO2022258951
(87)【国際公開日】2022-12-15
(32)【優先日】2021-06-09
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】391002306
【氏名又は名称】レニショウ パブリック リミテッド カンパニー
【氏名又は名称原語表記】RENISHAW PUBLIC LIMITED COMPANY
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】イアン マック ベル
【テーマコード(参考)】
2G043
【Fターム(参考)】
2G043AA01
2G043EA01
2G043EA03
2G043EA13
2G043JA01
2G043KA01
2G043LA03
2G043MA01
2G043NA01
2G043NA02
2G043NA06
(57)【要約】
分光器を使用して記録されたスペクトルデータからノイズを除去するための方法である。方法は、スペクトルデータを正規化して(103)、データスペクトルデータからノイズを除去するための正規化された方法および装置を生成することと、機械学習モデルを正規化されたスペクトルデータに適用すること(104)とを備える。前記機械学習モデルは、正規化された訓練データを使用してスペクトルデータからノイズを除去するように訓練され、前記スペクトルデータは、前記訓練データの正規化とは異なるスケーリングに基づいて正規化される。
【特許請求の範囲】
【請求項1】
分光器を使用して記録されたスペクトルデータからノイズを除去するための方法であって、前記方法は、スペクトルデータを正規化して、正規化されたスペクトルデータを生成することと、機械学習モデルを前記正規化されたスペクトルデータに適用することとを備え、前記機械学習モデルは、正規化された訓練データを使用してスペクトルデータからノイズを除去するように訓練され、前記スペクトルデータは、前記訓練データの正規化とは異なるスケーリングに基づいて正規化される、
方法。
【請求項2】
前記正規化は、再スケーリングであり、前記異なるスケーリングは、前記訓練データのスケーリングとは異なる範囲へのスペクトルデータのスケーリングである、
請求項1に記載の方法。
【請求項3】
前記正規化は、平均値正規化である、
請求項1に記載の方法。
【請求項4】
前記正規化は、標準化正規化である、
請求項1に記載の方法。
【請求項5】
ユーザからの前記スペクトルデータに適用する前記異なるスケーリングの選択を受信することを備える、
請求項1から4に記載の方法。
【請求項6】
分光法をサンプルに実行することにより前記スペクトルデータを生成することを備える、
請求項1から5に記載の方法。
【請求項7】
前記機械学習モデルを前記スペクトルデータに適用することにより生成される処理されたスペクトルデータを出力することを備える、
請求項1から6に記載の方法。
【請求項8】
前記方法は、コンピュータ実装される、
請求項1から7に記載の方法。
【請求項9】
請求項1乃至8のいずれか1項に記載の方法を実行するように構成されるプロセッサを備える、
装置。
【請求項10】
分光器を備える、
請求項9に記載の装置。
【請求項11】
前記スペクトルデータに適用する前記異なるスケーリングのユーザからの入力を受信するように構成されるインターフェースを備える、
請求項9または10に記載の装置。
【請求項12】
前記スペクトルデータの正規化された値および/またはサンプルに存在するものと決定された1つまたは複数の成分を出力するように構成される出力デバイスを備える、
請求項9乃至11のいずれか1項に記載の装置。
【請求項13】
プロセッサによって実行されたときに、前記プロセッサに請求項1乃至8のいずれか1項に記載の方法を実行させる、記憶された命令を有するデータキャリア。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、データ、特に分光器を使用して記録されたスペクトルデータからノイズを除去するための方法および装置に関する。方法および装置は、ラマン分光測定に特に適用されるが、分光分析の他の形態、例えば、狭線フォトルミネッセンス、蛍光、カソードルミネッセンス、UV可視(UV Vis)、核磁気共鳴(NMR)、中赤外(mid-IR)または近赤外(NIR)でも使用されることが可能である。
【背景技術】
【0002】
ラマン効果は、サンプルによる光の非弾性散乱である。ラマン分光法では、サンプルに単色レーザー光を照射し、散乱光を回折格子などの分散装置、例えば、モノクロメータ、で分散させて、ラマンスペクトルと呼ばれるスペクトルを生成する。ラマンスペクトルは、電荷結合デバイス(CCD)などの検出器により検出される。ラマン分光装置の例は、参照により本明細書に組み込まれる特許文献1および特許文献2から知られている。
【0003】
化合物が異なれば、特徴的なラマンスペクトルも異なる。したがって、ラマン効果を使用して、サンプルに存在する化合物を分析することが可能である。
【0004】
検出されたスペクトルは、ラマンスペクトルと、システムおよび周囲の環境により生成されたノイズとを含む。サンプルに存在する成分を特定するためにスペクトルデータを分析する前に、スペクトルデータからノイズを除去するためにスペクトルデータを処理することが望ましい。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許第5,442,438号
【特許文献2】米国特許第5,510,894号
【発明の概要】
【課題を解決するための手段】
【0006】
本発明の第1の態様によれば、分光器を使用して記録されたスペクトルデータからノイズを除去するための方法であって、前記方法は、スペクトルデータを正規化して、正規化されたスペクトルデータを生成することと、機械学習モデルを前記正規化されたスペクトルデータに適用することとを備え、前記機械学習モデルは、正規化された訓練データを使用してスペクトルデータからノイズを除去するように訓練され、前記スペクトルデータは、前記訓練データの正規化とは異なるスケーリングに基づいて正規化される、方法が提供される。
【0007】
(正規化された)訓練データが、ニューラルネットワークなどの機械学習モデルを訓練するために使用される前に、すべての訓練データが同じスケールになるように、データ正規化ステップ(特徴スケーリング)が、通常、訓練データに対して実行される。機械学習モデルが適用された後のスペクトルデータは、通常、同じスケールに正規化される。しかしながら、発明者は、機械学習モデルをより高い値にスケーリングされたスペクトルデータに適用した場合、ノイズを除去することにおける機械学習モデルの効果が、実際の高周波数特徴へのあらゆるダメージとともに減少することを発見した。機械学習モデルをより低い値にスケーリングされたスペクトルデータに適用した場合は、その逆となる。それゆえ、訓練データのスケーリングに対するスペクトルデータのスケーリングを調整することにより、ユーザはノイズ除去の程度を制御することが可能である。このようにして、ユーザは、再スケーリングされた訓練データに基づいて新しい機械学習モデルが計算されるのを待つことなく、ノイズ除去の程度を制御することが可能である。機械学習モデルをスペクトルデータに適用した後(修正されたスペクトルデータを生成するため)、機械学習モデルを適用する前にスペクトルデータに適用された正規化は、修正されたスペクトルデータの再スケーリングを通じて逆転される。この修正されたスペクトルデータは、ユーザに表示されるなど、出力され得る。
【0008】
本明細書で使用される「異なるスケーリング」という用語は、訓練データの値を正規化するために使用される正規化アルゴリズム、例えば、数式、を使用して、そうでなければ取得される正規化された値を増加させるまたは減少させる、ことを意味することが理解されるだろう。異なるスケーリングは、訓練データについての正規化された値を決定するために使用される正規化アルゴリズムに乗数(1とは異なる)を追加することにより取得され得る。
【0009】
本明細書で使用される「機械学習モデル」という用語は、訓練データに基づいて機械学習を使用して構築され、特定のタスク、本発明ではノイズ除去、を実行するために同様のデータに適用されることが可能であるアルゴリズムを意味する。
【0010】
スペクトルデータは、分光器により異なる波長/波数/周波数で検出された電磁放射線の強度値であり得る。
【0011】
正規化は再スケーリング(最小-最大値正規化または最大値正規化)であり得、異なるスケーリングは、訓練データのスケーリングとは異なる範囲へのスペクトルデータのスケーリングである。例えば、訓練データは、範囲[0,1]でスケーリングされ得、一方で、スペクトルデータは、異なる範囲で、例えば、1とは異なる最大値で、スケーリングされ得る。異なるスケーリングは、正規化された値、以下により与えられるx’、に適用された乗数であり得る。
【0012】
【0013】
ここで、xは、特定の波長/波数/周波数におけるスペクトルデータの強度値である。max(x)は、スペクトルデータにおける最大x値である。min(x)は、スペクトルデータにおける最小x値である。
【0014】
正規化は、最大値正規化であり得、正規化された値、x’、は、以下により与えられる。
【0015】
【0016】
正規化は、平均(平均-中心)値正規化であり得る。異なるスケーリングは、正規化された値、以下により与えられるx’、に適用された乗数であり得る。
【0017】
【0018】
ここで、xは、特定の波長/波数/周波数におけるスペクトルデータの強度値である。
【0019】
正規化は、標準化(Z-スコア)正規化であり得る。異なるスケーリングは、正規化された値、以下により与えられるx’、に適用された乗数であり得る。
【0020】
【0021】
ここで、xは、特定の波長/波数/周波数におけるスペクトルデータの強度値であり、σは、標準偏差である。さらなる実施形態では、除数は、標準偏差ではなく分散であってよい。
【0022】
前記方法は、ユーザからの前記スペクトルデータに適用する前記異なるスケーリングの選択を受信することを備え得る。
【0023】
前記方法は、ラマン分光法などの分光法をサンプルに実行することにより前記スペクトルデータを生成することを備え得る。
【0024】
前記方法は、前記機械学習モデルを前記スペクトルデータに適用することにより生成される処理されたスペクトルデータを、スクリーン上の表示など、出力することを備え得る。前記方法は、処理されたスペクトルデータを分析して、サンプルに成分が存在するかを決定し得る。前記方法は、前記サンプルに存在するものと決定された1つまたは複数の成分を特定する、スクリーン上の表示などの出力を生成することを備え得る。
【0025】
前記方法は、コンピュータ実装され得る。
【0026】
本発明の第2の態様によれば、記録されたデータからノイズを除去するための方法であって、前記方法は、記録されたデータを正規化して、正規化された記録されたデータを生成することと、機械学習モデルを前記記録されたデータに適用することとを備え、前記機械学習モデルは、正規化された訓練データを使用して記録されたデータからノイズを除去するように訓練され、前記記録されたデータは、前記訓練データの前記正規化とは異なるスケーリングに基づいて正規化される、方法が提供される。
【0027】
本発明の第3の態様によれば、本発明の第1の態様または第2の態様の方法を実行するように構成されるプロセッサを備える装置が提供される。
【0028】
前記装置は、分光器を備え得る。
【0029】
前記装置は、前記スペクトルデータに適用する前記異なるスケーリングの前記ユーザからの入力を受信するように構成されるインターフェースを備え得る。
【0030】
前記装置は、スクリーンなどの、前記スペクトルデータの正規化された値および/または前記サンプルに存在するものと決定された1つまたは複数の成分を出力するための出力デバイスを備え得る。
【0031】
本発明の第4の態様によれば、プロセッサによって実行されたときに、前記プロセッサに本発明の第1または第2の態様の方法を実行させる、記憶された命令を有するデータキャリアが提供される。
【0032】
データキャリアは、揮発性メモリ、例えばRAM、不揮発性メモリ、例えばROM、フラッシュメモリ、およびハードディスク、光ディスクなどのデータストレージデバイス、などの非一時的データキャリア、または、電子信号若しくは光信号などの一時的データキャリアであり得る。
【図面の簡単な説明】
【0033】
【
図1】
図1は、本発明の一実施形態による分光器装置の概略図である。
【
図2】
図2は、データ処理モジュールまたは分光器装置のプログラムされた機能の概略図である。
【
図3a】
図3aおよび
図3bは、ニューラルネットワークモデルを使用して処理されたスペクトルデータを示すグラフであり、ニューラルネットワークモデルへ入力されるスペクトルデータは、訓練データと同じスケールに正規化されている。
【
図3b】
図3aおよび
図3bは、ニューラルネットワークモデルを使用して処理されたスペクトルデータを示すグラフであり、ニューラルネットワークモデルへ入力されるスペクトルデータは、訓練データと同じスケールに正規化されている。
【
図4a】
図4aおよび
図4bは、ニューラルネットワークモデルを使用して処理された同じスペクトルデータを示すグラフであり、ニューラルネットワークモデルへ入力されるスペクトルデータは、訓練データよりも広い範囲に正規化されている。
【
図4b】
図4aおよび
図4bは、ニューラルネットワークモデルを使用して処理された同じスペクトルデータを示すグラフであり、ニューラルネットワークモデルへ入力されるスペクトルデータは、訓練データよりも広い範囲に正規化されている。
【
図5】
図5は、ニューラルネットワークモデルを使用して処理されたスペクトルデータを示すグラフであり、ニューラルネットワークモデルへ入力されるスペクトルデータは、訓練データと同じスケールに正規化されている。
【
図6】
図6は、ニューラルネットワークモデルを使用して処理された
図5と同じスペクトルデータを示すグラフであり、ニューラルネットワークモデルへ入力されたスペクトルデータは、訓練データよりも狭い範囲に正規化されている。
【発明を実施するための形態】
【0034】
図1を参照すると、本発明による装置は、メモリ29に接続しているコンピュータ25に結合されたラマン分光器を含む。
【0035】
ラマン分光器は、光路に対して45度に配置されたダイクロイックフィルター12により90度反射された入力レーザービーム10を含む。代替的に、ホログラフィックダイクロイックフィルターは、10度などの低い入射角で配置され得る。レーザービームは、対物レンズ16を通過し、焦点19でサンプル18上のスポットに集光される。光はこの照射スポットでサンプルにより散乱され、対物レンズ16により集められ、ダイクロイックフィルター12に戻る平行ビームにコリメートされる。フィルター12は、入力レーザービーム10と同じ周波数を有するレイリー散乱光を除去し、ラマン散乱光を透過させる。ラマン散乱光はそして、ラマン分析器20に送られる。
【0036】
ラマン分析器20は、回折格子などの分散要素を含む。分析器20からの光は、レンズ22により適切な光検出器24上に集光される。光検出器アレイが好ましい。本実施形態では、検出器24は電荷結合デバイス(CCD)であり、ピクセルの2次元アレイから構成され、各ピクセルからデータを取得し、必要に応じて分析するコンピュータ25に結合されている。分析器20は、CCD24に沿って一直線に広がるスペクトルを生成する。
【0037】
サンプル18は、例えば、コンピュータ25の制御下で、焦点19をX方向およびY方向に走査することが可能であるように、X-Yテーブル上に取り付けられ得る。その後、複数のスペクトルを収集することが可能であり、各スペクトルは、サンプル上の異なる点に対応する。その後、収集されたスペクトルから決定されたサンプルの特性に基づいて、マップを生成することが可能である。
【0038】
コンピュータ25は、メモリ29などの適切な媒体上のソフトウェアコードでプログラムされており、コンピュータ25のプロセッサによって実行されると、以下に説明する分析ルーチンをコンピュータ25に実行させる命令を含んでいる。代替的に、取得されたラマンスペクトル/スペクトル(複数)のデータは、この分析のためのそのようなソフトウェアを有する別のコンピュータに転送され得る。いずれの場合も、分析が進むにつれて、決定された値は、当該コンピュータに記憶され、さらに処理され得、サンプル/サンプル(複数)中の成分の濃度を示すように出力または表示され得る。
【0039】
スペクトルデータを処理してラマンスペクトル/スペクトル(複数)存在を決定し、ひいては、サンプルの化学成分/特性を決定するために、スペクトルデータは、ノイズを除去するためにまず処理される。
【0040】
プロセッサは、サンプルからラマン分光器により生成されたスペクトルデータを受信し(101)、スペクトルデータの正規化に適用するスケーリングのユーザの選択を受信する(102)。スケーリングは、機械学習モデルを訓練するために使用される訓練データの正規化で適用されるスケーリングよりも大きくても小さくてもよい。本実施形態では、ニューラルネットワークモデル、特に回帰型ニューラルネットワーク(RNN)(具体的には、双方向長・短期記憶(bidirectional Long Short Term Memory)(LSTM)ネットワーク)が使用される。訓練データに適用されるスケーリングは、N=1とみなされ、スペクトルデータに適用されるスケーリングは、スペクトルデータのNの値が1より大きいか小さいかをユーザが選択することにより訓練データセットに適用されるスケーリングの比率である。
【0041】
スペクトルデータは、訓練データのために使用されたものと同じ正規化アルゴリズムを使用して正規化されるが、スペクトルデータについてユーザにより選択されたNの値がさらに乗じられる(103)。本実施形態では、スペクトルデータの正規化は、以下により与えられる、最大値正規化である。
【0042】
【0043】
ここで、xは、特定の波長/波数/周波数におけるスペクトルデータの強度値であり、x’は、正規化された値である。
【0044】
ニューラルネットワークモデルを正規化されたスペクトルデータに適用して、スペクトルデータからノイズを除去する(104)。スペクトルデータへの機械学習モデルの適用の後(修正されたスペクトルデータを生成するため)、機械学習モデルを適用する前にスペクトルデータに適用された正規化は、修正されたスペクトルデータの再スケーリングを通じて逆転される(105)。ノイズが除去された再スケーリングされた修正されたスペクトルデータは、スペクトルデータからサンプルの化学組成を特定するために分析に供される(106)。これは通常、ノイズが除去されたスペクトルデータに曲線を一致させること、例えば公知のラマンスペクトルをスペクトルデータに一致させること、を含む。分析結果は、例えばスクリーン上の表示により、ユーザに出力される(107)。
【0045】
図3aおよび
図3bは、2つの異なる入力スペクトルデータ(シミュレートされたノイズを用いてコンピュータにより生成される)、対応する予測される(一致する)曲線、対応するターゲットスペクトル、およびスペクトルデータがN=1で正規化された場合の誤差(正規化のスケーリングは、訓練データについてのものと同じである)を示すグラフである。
図4aおよび
図4bは、同じ入力スペクトルデータ、対応する予測される(一致する)曲線、ターゲットスペクトル、およびスペクトルデータがN=3で正規化された場合の誤差(正規化のスケーリングは、訓練データについてのものと異なる)を示すグラフである。見られるように、N=3で正規化されたスペクトルデータは、データ中の高周波ラマン特徴を再現することにおいて、より良いパフォーマンスを示している。
【0046】
図5は、さらなる入力スペクトルデータ(シミュレートされたノイズを用いてコンピュータにより生成される)、対応する予測される(一致する)曲線、対応するターゲットスペクトル、およびスペクトルデータがN=1で正規化された場合の誤差(正規化のスケーリングは、訓練データについてのものと同じである)を示すグラフである。
図6は、さらなる入力スペクトルデータ、対応する予測される(一致する)曲線、対応するターゲットスペクトル、およびスペクトルデータがN=0.01で正規化された場合の誤差を示すグラフである。見られるように、N=0.01で正規化されたスペクトルデータは、ノイズ追従の傾向が減少していることを示している。
【0047】
したがって、訓練データに対するスペクトルデータのスケーリングを選択することにより、新しいニューラルネットワークモデルを生成することなく、ノイズ除去の程度を変更することが可能である。それゆえ、方法は、同じニューラルネットワークモデルを使用しながら、ユーザの要求に応じてノイズ除去量をユーザが制御することを可能にさせる。
【国際調査報告】