特許第6077568号(P6077568)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レコ コーポレイションの特許一覧

特許6077568クロマトグラフィーシステムでのデータを処理するためのシステム及び方法
<>
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000027
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000028
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000029
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000030
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000031
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000032
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000033
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000034
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000035
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000036
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000037
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000038
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000039
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000040
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000041
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000042
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000043
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000044
  • 特許6077568-クロマトグラフィーシステムでのデータを処理するためのシステム及び方法 図000045
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6077568
(24)【登録日】2017年1月20日
(45)【発行日】2017年2月8日
(54)【発明の名称】クロマトグラフィーシステムでのデータを処理するためのシステム及び方法
(51)【国際特許分類】
   G01N 30/86 20060101AFI20170130BHJP
   G01N 30/72 20060101ALN20170130BHJP
   G01N 27/62 20060101ALN20170130BHJP
【FI】
   G01N30/86 G
   !G01N30/72 A
   !G01N27/62 C
   !G01N27/62 X
   !G01N30/72 C
【請求項の数】76
【全頁数】39
(21)【出願番号】特願2014-552183(P2014-552183)
(86)(22)【出願日】2012年9月11日
(65)【公表番号】特表2015-503763(P2015-503763A)
(43)【公表日】2015年2月2日
(86)【国際出願番号】US2012054589
(87)【国際公開番号】WO2013109314
(87)【国際公開日】20130725
【審査請求日】2014年10月2日
(31)【優先権主張番号】PCT/US2012/028754
(32)【優先日】2012年3月12日
(33)【優先権主張国】US
(31)【優先権主張番号】61/587,041
(32)【優先日】2012年1月16日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】592071853
【氏名又は名称】レコ コーポレイション
【氏名又は名称原語表記】LECO CORPORATION
(74)【代理人】
【識別番号】100140109
【弁理士】
【氏名又は名称】小野 新次郎
(74)【代理人】
【識別番号】100075270
【弁理士】
【氏名又は名称】小林 泰
(74)【代理人】
【識別番号】100101373
【弁理士】
【氏名又は名称】竹内 茂雄
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100147511
【弁理士】
【氏名又は名称】北来 亘
(72)【発明者】
【氏名】ワーン,ジホン
(72)【発明者】
【氏名】ウィリス,ピーター・マーケル
【審査官】 赤坂 祐樹
(56)【参考文献】
【文献】 特開2009−008582(JP,A)
【文献】 DI MARCO VALERIO B,JOURNAL OF CHROMATOGRAPHY,NL,ELSEVIER SCIENCE PUBLISHERS B V,2001年10月 5日,V931 N1-2,P1-30
(58)【調査した分野】(Int.Cl.,DB名)
G01N 30/00−30/96
(57)【特許請求の範囲】
【請求項1】
クロマトグラフィー質量分析法システムでのデータ捕捉システムからのデータを処理する方法において、
前記クロマトグラフィー質量分析法システムの質量分析計内に生データを形成する段階と、
前記生データを処理する段階であって、
処理されたデータを生成する段階、及び
前記処理されたデータを分析して、そこからノイズを抽出する段階により前記質量分析計と関係するモジュールを処理することによって、前記生データを処理する段階と、を備えており、前記データは、少なくとも事前に定義された数のスティックを有する長いクラスタ、及び前記事前に定義された数のスティックより少ない数のスティックを有する短いクラスタを含んでおり、前記処理されたデータを生成する段階は、
前記長いクラスタを前記短いクラスタから分離する段階と、
前記データをフィルタ処理して当該データを平滑化し、それにより、前記長いクラスタからフィルタ処理されたクラスタをもたらす段階と、
前記生データの2つの近接するピークの間の谷の最小点を識別することによって、前記フィルタ処理されたクラスタをサブクラスタへ分ける段階と、
クロマトグラフ情報を含んでいないサブクラスタを前記データから除去する段階と、を備えている方法。
【請求項2】
前記分離する段階は、
前記データをブロックへ分離する段階と、
それぞれのブロックの中心のベースラインの強度を推定する段階と、
それぞれのブロックの等距離四分位点間を線形補間してベースライン推定を出す段階と、
前記ベースラインレベルより上のデータをクリップし、当該ベースラインより下のデータを温存する段階と、
前記クリップされたデータを平滑化して前記ベースラインの改善版を出す段階と、を更に備えている、請求項1の方法。
【請求項3】
それぞれのブロックの長さは、前記生データの半値全幅(full-width half height)の倍数である、請求項2の方法。
【請求項4】
それぞれのブロックの長さは、前記生データの半値全幅の5倍と推定されている、請求項2の方法。
【請求項5】
前記平滑化する段階は、Savitzky−Golay平滑化アルゴリズムの適用を伴っている、請求項2の方法。
【請求項6】
ブロックの中心のベースラインの前記強度の推定は、前記ブロックの下四分位の前記ベースラインの強度に基づいている、請求項2の方法。
【請求項7】
前記除去する段階は、
閾値信号対ノイズ比より大きい信号対ノイズ比を有するサブクラスタを選択する段階と、
閾値品質より大きいピーク形状を有するサブクラスタを選択する段階と、
最小クラスタ長さを有するサブクラスタを選択する段階と、のうちの少なくとも1つを備えている、請求項1の方法。
【請求項8】
前記閾値信号対ノイズ比は10である、請求項7の方法。
【請求項9】
前記信号対ノイズ比のノイズは、四分の一(1/4)イオン面積の事前に定義されている捕捉ノイズとして測定されている、請求項7の方法。
【請求項10】
前記ノイズは、前記元のクラスタデータと前記平滑化されたクラスタデータの間の残差の標準偏差である、請求項7の方法。
【請求項11】
前記閾値信号対ノイズ比より小さい信号対ノイズ比を有するサブクラスタは、それらが同位体又は付加体である場合には、なお因子分析のために使用される、請求項7の方法。
【請求項12】
サブクラスタの前記ベースラインをピークの左右の側からトリミングする段階、を更に備えている、請求項7の方法。
【請求項13】
前記トリミングする段階は、
前記サブクラスタ内の生データを両端から中心へ向かって走査する段階と、
各端での前記強度が閾値より上に立ち上がっている場所を新しい端点として識別する段階と、
前記新しい端点の外側の前記データを捨てる段階と、を更に備えている、請求項12の方法。
【請求項14】
前記閾値は、前記サブクラスタの標準偏差の4倍である、請求項13の方法。
【請求項15】
前記閾値品質は、前記サブクラスタと事前に定義されている曲線の間の相関に基づいている、請求項7の方法。
【請求項16】
前記事前に定義されている曲線は、二重ガウス(bi-Gaussian)曲線である、請求項15の方法。
【請求項17】
前記閾値相関は0.6である、請求項15の方法。
【請求項18】
前記閾値相関は0.8である、請求項16の方法。
【請求項19】
前記フィルタ処理する段階は、無限インパルス応答フィルタを利用している、請求項1の方法。
【請求項20】
前記フィルタ処理する段階は、
前記生データ内に最も大きいピークを識別する段階と、
前記識別されたピークの前記半値全幅を推定する段階と、
前記推定された半値全幅をルックアップ表と突き合わせて1つ又はそれ以上の最適化されているフィルタ係数を識別する段階と、
前記最適化されているフィルタ係数に基づいて前記データを平滑化する段階と、
それぞれのクラスタについてノイズ指数を識別する段階と、を備えている、請求項1の方法。
【請求項21】
前記最適化されているフィルタ係数は、順逆二次無限インパルス応答フィルタ係数を含んでいる、請求項20の方法。
【請求項22】
前記ノイズ指数は、前記平滑データと前記生データの間の残差の標準偏差である、請求項21の方法。
【請求項23】
前記ノイズ指数は、或るクラスタから導出されている前記サブクラスタのそれぞれへ割り当てられる、請求項22の方法。
【請求項24】
前記最適化されている係数は、次の段階、即ち、
ガウスピークをそれぞれの半値全幅で形成する段階と、
前記ガウスピークへノイズを加え、それにより、ノイズのあるガウスピークをもたらす段階と、
前記フィルタ係数を調整するべく、前記ガウスピークを、前記ノイズのあるガウスピークと前記ガウスピークの間の残差を実質的に最小化する方式で最適化する段階と、に従って計算される、請求項21の方法。
【請求項25】
前記最適化する段階は、非線形Levenburg−Marquardt処理を利用している、請求項24の方法。
【請求項26】
前記クラスタはピークと谷を有しており、前記分ける段階は、
フィルタ処理されたクラスタ内に、2つのピークの間に位置する谷が前記2つのピークの定義されている強度より小さい最小点を有しているそれぞれのインスタンスを識別する段階と、
仮にあれば、それぞれの識別されたインスタンスに基づいて、前記クラスタをサブクラスタへ分離する段階と、を更に備えている、請求項1の方法。
【請求項27】
前記定義されている強度は、前記2つのピークの一方又は両方の前記強度の約二分の一である、請求項26に記載の方法。
【請求項28】
前記分析する段階は、
因子分析にとって有意な因子を求める段階と、
それらの因子の初期シード推定を提供する段階と、を更に備えている、請求項1に記載の方法。
【請求項29】
下四分位ピークを除外する段階、を更に備えている、請求項28に記載の方法。
【請求項30】
前記分析する段階は、
前記データの間でベースピークを選択する段階と、
全ての局所データを評価して、それらを前記ベースピークと相関付ける段階と、
既定の最小相関値を有する局所データを前記ベースピークと組み合わせて因子を作成する段階と、
前記因子についてスペクトルを推定する段階と、を更に備えている、請求項1に記載の方法。
【請求項31】
前記ベースピークは手動で選択されている、請求項30に記載の方法。
【請求項32】
前記生データのデータセットの中で最も強度の高いサブクラスタピークが前記ベースピークとして選択されている、請求項30に記載の方法。
【請求項33】
前記最小相関値は0.6である、請求項30に記載の方法。
【請求項34】
A)ひとたび前記ベースピークが識別されたら、残っているデータの中で次に最も強度の高いピークを次の因子として選択する段階と、
B)前記(A)段階が完了し次第、残っているデータの中で次に最も強度の高いピークを次の因子として選択する段階と、
C)前記(B)段階を、全てのサブクラスタが因子を割り当てられるまで繰り返す段階と、を更に備えている、請求項33に記載の方法。
【請求項35】
前記最小相関値と関係している信頼区間を比較して、前記組み合わせる段階で組み合わされた前記局所データで組み合わされるべきではなかった局所データを、別々の因子へ分離する段階を、更に備えている、請求項30に記載の方法。
【請求項36】
前記比較する段階は、
前記因子の中で最も強度の高いサブクラスタを選択する段階と、
前記ベースサブクラスタと前記因子の中のその他のサブクラスタのうちの少なくとも1つの間の相関を求める段階と、
前記サブクラスタの少なくとも1つについて頂点位置信頼区間を求める段階と、
(i)重なり合うベースピークと、(ii)前記ベースピークへの相関で定義されている相関閾値より大きい相関と、を有するサブクラスタをひとまとめにグループ化する段階と、を更に備えている、請求項35に記載の方法。
【請求項37】
それぞれの因子についての平均濃度プロファイルを計算する段階を、更に備えている、請求項35に記載の方法。
【請求項38】
前記計算する段階は、それぞれの因子についての前記平均濃度プロファイルを求めるのに多変量曲線分解法を利用している、請求項37に記載の方法。
【請求項39】
計算された前記平均濃度プロファイルは、それぞれの因子についての推定されたピーク形状として使用される、請求項38に記載に方法。
【請求項40】
前記平均濃度プロファイルの前記ピーク品質を測定する段階と、
閾値ピーク品質より小さいピーク品質を有するデータを除去する段階と、を更に備えている、請求項37に記載の方法。
【請求項41】
前記測定する段階は、それぞれの濃度プロファイルのフィットの残差の偏差を求めることによって計算されている、請求項40に記載の方法。
【請求項42】
前記偏差は、二重ガウス系での標準偏差である、請求項41に記載の方法。
【請求項43】
前記閾値ピーク品質は0.5である、請求項40に記載の方法。
【請求項44】
前記入力相関パラメータは手動入力されている、請求項43に記載の方法。
【請求項45】
前記推定されたピーク形状を、少なくとも1つの事前に選択されている曲線と比較する段階を、更に備えている、請求項39に記載の方法。
【請求項46】
前記推定されたピーク形状を、前記比較する段階に先立って正規化して、正規化された推定ピーク形状を定義する段階を、更に備えている、請求項45に記載の方法。
【請求項47】
前記正規化する段階は、前記推定されたピーク形状を、再サンプリング手続きを通して引き伸ばすか又は縮めるかのうち少なくとも一方を行い、次いで中心合わせして、前記少なくとも1つの事前に選択されている曲線の幅と中心に整合させる段階、を含んでいる、請求項46に記載の方法。
【請求項48】
前記正規化されたピーク形状と前記少なくとも1つの事前に選択されている曲線の間の相関を計算する段階を、更に備えている、請求項46に記載の方法。
【請求項49】
前記最適整合についての歪度値及び尖度値が前記最適化のためのシードとして選択されている、請求項48に記載の方法。
【請求項50】
前記少なくとも1つの事前に選択されている曲線は、ピアソンIV関数から生成されている、請求項45に記載の方法。
【請求項51】
前記少なくとも1つの事前に選択されている曲線は前記歪度と前記尖度の少なくとも一方の順列であり、一方、残りのパラメータは一定に維持されており、その後、前記ピーク形状が記録され、それぞれの順列について保存される、請求項50に記載の方法。
【請求項52】
因子を誤ってグループ化されている同位体/付加体を識別する段階と、
その様な識別された同位体/付加体を正しい因子へ割り当て直す段階と、を
更に備えている、請求項35の方法。
【請求項53】
前記識別する段階は、
因子の濃度プロファイルを近隣の因子の濃度プロファイルに比較して相関を識別する段階と、
第1の因子の前記濃度プロファイルと近隣の因子のそれとの間の前記相関が閾値相関より大きい場合は、前記第1の因子からの同位体/付加体突き止めに対し前記近隣の因子を調べ直す段階と、
前記調べ直す段階に基づいて、前記同位体/付加体を前記第1の因子へ割り当て直す段階と、を備えている、請求項52の方法。
【請求項54】
前記閾値相関は0.9である、請求項53の方法。
【請求項55】
前記相関パラメータは、ユーザーによって定義されている、請求項35の方法。
【請求項56】
因子分割を防止する段階を、更に備えている請求項35の方法であって、
前記防止する段階は、
或る因子内のベース同位体/付加体サブクラスタと前記因子内のその他のサブクラスタの間の平均相関に基づく局所相関閾値を求める段階と、
前記因子と近接の因子の前記濃度プロファイルを相関付ける段階と、
前記相関が局所相関閾値より大きい場合は、前記因子と前記近接の因子を併合する段階と、を更に備えている、請求項35の方法。
【請求項57】
因子が併合される場合、前記因子と次に近接している因子との前記濃度プロファイルの相関付け段階、を更に備えている、請求項56の方法。
【請求項58】
前記閾値相関は0.9である、請求項56の方法。
【請求項59】
前記最小クラスタ長さは5スティックである、請求項7の方法。
【請求項60】
因子分割を防止する段階を、更に備えている請求項35の方法であって、
前記防止する段階が、
第1のピークを第2のピークと、それらの間のもう1つの条件に基づいて、比較する段階と、
前記第1及び前記第2のピークを、前記1つ又はそれ以上の条件に基づいて、関係有り又は関係無しの何れかとして分類する段階と、を備え、前記比較する段階は、(i)前記第1のピークの分散を前記第2のピークの前記分散と比較する段階と(ii)前記第1のピークの平均保持時間を前記第2のピークの前記平均保持時間と比較する段階のうちの一方又は両方を比較する、請求項35の方法。
【請求項61】
前記比較する段階は、前記第1のピークの前記分散と前記第2のピークの前記分散及び前記第1のピークの前記平均保持時間と前記第2のピークの前記平均保持時間の両方を比較する、請求項60に記載の方法。
【請求項62】
前記第1のピークの前記分散を前記第2のピークの前記分散と比較する前記段階は、
前記第1のピークと前記第2のピークの間のF統計量を求める段階、
前記F統計量に関係付けられるF統計量信頼区間を割り当てる段階、
前記F統計量信頼区間を既定のt統計量パラメータに対照して比較する段階、
前記F統計量信頼区間を既定のF統計量パラメータに対照して比較する前記段階に基づいて、前記第1のピークと前記第2のピークを関係有り又は関係無しとして特徴付ける段階、という下位段階を備えている、請求項61に記載の方法。
【請求項63】
前記第1のピークの前記平均保持時間を前記第2のピークの前記平均保持時間と比較する前記段階は、
前記第1のピークと前記第2のピークの間のt統計量を求める段階、
前記F統計量に関係付けられるt統計量信頼区間を割り当てる段階、
前記t統計量信頼区間を既定のF統計量パラメータに対照して比較する段階、
前記t統計量信頼区間を既定のt統計量パラメータに対照して比較する前記段階に基づいて、前記第1のピークと前記第2のピークを関係有り又は関係無しとして特徴付ける段階、という下位段階を備えている、請求項61に記載の方法。
【請求項64】
前記第1のピークの前記平均保持時間を前記第2のピークの前記平均保持時間と比較する前記段階が、
前記第1のピークと前記第2のピークの間のt統計量を求める段階、
前記F統計量に関係付けられるt統計量信頼区間を割り当てる段階、
前記t統計量信頼区間を既定のF統計量パラメータに対照して比較する段階、という下位段階を備え、
前記第1のピークの前記分散を前記第2のピークの前記分散と比較する前記段階が、
前記第1のピークと前記第2のピークの間のF統計量を求める段階、
前記t統計量に関係付けられるF統計量信頼区間を割り当てる段階、
前記F統計量信頼区間を既定のt統計量パラメータに対照して比較する段階、
(i)前記t統計量信頼区間を既定のt統計量パラメータに対照して比較する前記段階及び(ii)前記F統計量信頼区間を既定のF統計量パラメータに対照して比較する前記段階に基づいて、前記第1のピークと前記第2のピークを関係有り又は関係無しとして特徴付ける段階、という下位段階を備えている、請求項61に記載の方法。
【請求項65】
前記クロマトグラフィーシステムはF統計量ルックアップ表を有するメモリ含んでおり、F統計量を求める前記段階は、前記ルックアップ表上の前記F統計量をルックアップする段階を含んでいる、請求項61に記載の方法。
【請求項66】
前記F統計量ルックアップ表は、特異値分解を用いて計算され前記システムのメモリ内に記憶されている既定のF統計量値を含んでいる、請求項65に記載の方法。
【請求項67】
前記クロマトグラフィーシステムはF統計量ルックアップ表を有するメモリを含んでおり、F統計量を求める前記段階は、前記ルックアップ表上の前記F統計量をルックアップする段階を含んでいる、請求項64に記載の方法。
【請求項68】
前記F統計量ルックアップ表は、特異値分解を用いて計算され前記システムのメモリ内に記憶されている既定のF統計量値を含んでいる、請求項67に記載の方法。
【請求項69】
前記因子は1つ又はそれ以上のピークを含んでおり、a1、σ1、a2、及びσ2は概して前記複数のピークのそれぞれについて制約されており、前記方法は、更に、
前記1つ又はそれ以上のクロマトグラフピークを二重指数モデル(bi-exponential model)を使用してモデル化し、当該1つ又はそれ以上のクロマトグラフピークと前記二重指数モデルの間の残差フィッティングを識別する段階と、
前記残差フィッティングが残差フィッティング既定条件を満たさない場合には、反復残差が反復残差フィッティング既定条件を満たすまで前記信号をもう1ピークずつ反復的に増加させる段階と、を備えている、請求項34に記載の方法。
【請求項70】
反復的に増加させる前記段階は、前記信号を最適化する段階を伴っている、請求項69に記載の方法。
【請求項71】
前記信号はLevenberg−Marquardt(LM)アルゴリズムを使用することによって最適化される、請求項70に記載の方法。
【請求項72】
前記LMアルゴリズムは分析式を使用して計算される、請求項71に記載の方法。
【請求項73】
前記因子は1つ又はそれ以上のピークを含んでおり、a1、σ1、a2、及びσ2は概して前記複数のピークのそれぞれについて制約されており、前記方法は、更に、
前記1つ又はそれ以上のクロマトグラフピークを二重指数モデル(bi-exponential model)を使用してモデル化し、当該1つ又はそれ以上のクロマトグラフピークと前記二重指数モデルの間の残差フィッティングを識別する段階と、
前記残差フィッティングが残差フィッティング既定条件を満たさない場合には、反復残差が反復残差フィッティング既定条件を満たすまで前記信号をもう1ピークずつ反復的に増加させる段階と、を備えている、請求項35に記載の方法。
【請求項74】
反復的に増加させる前記段階は、前記信号を最適化する段階を伴っている、請求項73に記載の方法。
【請求項75】
前記信号はLevenberg−Marquardt(LM)アルゴリズムを使用することによって最適化される、請求項74に記載の方法。
【請求項76】
前記LMアルゴリズムは分析式を使用して計算される、請求項75に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
[0001]優先権の主張
本出願は、2012年3月12日出願の国際特許出願PCT/US2012/028754号及び2012年1月16日出願の米国仮特許出願第61/587,041号に対する優先権を主張する。上記出願のそれぞれをここに参考文献としてそっくりそのまま援用する。
【0002】
[0002]本開示は、クロマトグラフフィー質量分析法システムでの取得されたデータのためのデータ処理技法に関する。
【背景技術】
【0003】
[0003]クロマトグラフィー質量分析計は大量のデータを発生させること、またそれらデータの多くがノイズ又は不要な情報から成ることは知られている。関連情報をノイズから効率的に精度よく分別し、同情報を効率的且つ高分解能な方式で処理するシステム及び方法が所望されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際特許出願PCT/US2012/028754号
【特許文献2】米国仮特許出願第61/587,041号
【特許文献3】米国特許第7,501,621号
【特許文献4】米国特許第7,825,373号
【特許文献5】米国特許第7,884,319号
【特許文献6】米国仮特許出願第61/445,674号
【発明の概要】
【0005】
本願発明の実施形態は、例えば、以下の通りである。
[形態1]
クロマトグラフィー質量分析法システムでのデータ捕捉システムからのデータを処理する方法において、
前記クロマトグラフィー質量分析法システムの質量分析計内に生データを形成する段階と、
前記生データを処理する段階であって、
処理されたデータを生成する段階、及び
前記処理されたデータを分析して、そこからノイズを抽出する段階により前記質量分析計と関係するモジュールを処理することによって、前記生データを処理する段階と、を備えており、前記生データは、少なくとも事前に定義された数のスティックを有する長いクラスタ、及び前記事前に定義された数のスティックより少ない数のスティックを有する短いクラスタを含んでおり、前記処理されたデータを生成する段階は、
前記長いクラスタを前記短いクラスタから分離する段階と、
前記生データをフィルタ処理して当該生データを平滑化し、それにより、前記長いクラスタからフィルタ処理されたクラスタをもたらす段階と、
前記生データの2つの近接するピークの間の谷の最小点を識別することによって、前記フィルタ処理されたクラスタをサブクラスタへ分ける段階と、
クロマトグラフ情報を含んでいないサブクラスタを前記生データから除去する段階と、を備えている方法。
[形態2]
前記分離する段階は、
前記生データをブロックへ分離する段階と、
それぞれのブロックの中心のベースラインの強度を推定する段階と、
それぞれのブロックの等距離四分位点間を線形補間してベースライン推定を出す段階と、
前記ベースラインレベルより上の生データをクリップし、当該ベースラインより下の生データを温存する段階と、
前記クリップされたデータを平滑化して前記ベースラインの改善版を出す段階と、を更に備えている、形態1の方法。
[形態3]
それぞれのブロックの長さは、前記生データの半値全幅(full-width half height)の倍数である、形態2の方法。
[形態4]
それぞれのブロックの長さは、前記生データの半値全幅の5倍と推定されている、形態2の方法。
[形態5]
前記平滑化する段階は、Savitzky−Golay平滑化アルゴリズムの適用を伴っている、形態2の方法。
[形態6]
ブロックの中心のベースラインの前記強度の推定は、前記ブロックの下四分位の前記ベースラインの強度に基づいている、形態2の方法。
[形態7]
前記除去する段階は、
閾値信号対ノイズ比より大きい信号対ノイズ比を有するサブクラスタを選択する段階と、
閾値品質より大きいピーク形状を有するサブクラスタを選択する段階と、
最小クラスタ長さを有するサブクラスタを選択する段階と、のうちの少なくとも1つを備えている、形態1の方法。
[形態8]
前記閾値信号対ノイズ比は10である、形態7の方法。
[形態9]
前記信号対ノイズ比のノイズは、四分の一(1/4)イオン面積の事前に定義されている捕捉ノイズとして測定されている、形態7の方法。
[形態10]
前記ノイズは、前記元のクラスタデータと前記平滑化されたクラスタデータの間の残差の標準偏差である、形態7の方法。
[形態11]
前記閾値信号対ノイズ比より小さい信号対ノイズ比を有するサブクラスタは、それらが同位体又は付加体である場合には、なお因子分析のために使用される、形態7の方法。
[形態12]
サブクラスタの前記ベースラインをピークの左右の側からトリミングする段階、を更に備えている、形態7の方法。
[形態13]
前記トリミングする段階は、
前記サブクラスタ内の生データを両端から中心へ向かって走査する段階と、
各端での前記強度が閾値より上に立ち上がっている場所を新しい端点として識別する段階と、
前記新しい端点の外側の前記生データを捨てる段階と、を更に備えている、形態12の方法。
[形態14]
前記閾値は、前記サブクラスタの標準偏差の4倍である、形態13の方法。
[形態15]
前記閾値品質は、前記サブクラスタと事前に定義されている曲線の間の相関に基づいている、形態7の方法。
[形態16]
前記事前に定義されている曲線は、二重ガウス(bi-Gaussian)曲線である、形態15の方法。
[形態17]
前記閾値相関は0.6である、形態15の方法。
[形態18]
前記閾値相関は0.8である、形態16の方法。
[形態19]
前記フィルタ処理する段階は、無限インパルス応答フィルタを利用している、形態1の方法。
[形態20]
前記フィルタ処理する段階は、
前記生データ内に最も大きいピークを識別する段階と、
前記識別されたピークの前記半値全幅を推定する段階と、
前記推定された半値全幅をルックアップ表と突き合わせて1つ又はそれ以上の最適化されているフィルタ係数を識別する段階と、
前記最適化されているフィルタ係数に基づいて前記生データを平滑化する段階と、
それぞれのクラスタについてノイズ指数を識別する段階と、を備えている、形態1の方法。
[形態21]
前記最適化されているフィルタ係数は、順逆二次無限インパルス応答フィルタ係数を含んでいる、形態20の方法。
[形態22]
前記ノイズ指数は、前記平滑データと前記生データの間の残差の標準偏差である、形態21の方法。
[形態23]
前記ノイズ指数は、或るクラスタから導出されている前記サブクラスタのそれぞれへ割り当てられる、形態22の方法。
[形態24]
前記最適化されている係数は、次の段階、即ち、
ガウスピークをそれぞれの半値全幅で形成する段階と、
前記ガウスピークへノイズを加え、それにより、ノイズのあるガウスピークをもたらす段階と、
前記フィルタ係数を調整するべく、前記ガウスピークを、前記ノイズのあるガウスピークと前記ガウスピークの間の残差を実質的に最小化する方式で最適化する段階と、に従って計算される、形態21の方法。
[形態25]
前記最適化する段階は、非線形Levenburg−Marquardt処理を利用している、形態24の方法。
[形態26]
前記クラスタはピークと谷を有しており、前記分ける段階は、
フィルタ処理されたクラスタ内に、2つのピークの間に位置する谷が前記2つのピークの定義されている強度より小さい最小点を有しているそれぞれのインスタンスを識別する段階と、
仮にあれば、それぞれの識別されたインスタンスに基づいて、前記クラスタをサブクラスタへ分離する段階と、を更に備えている、形態1の方法。
[形態27]
前記定義されている強度は、前記2つのピークの一方又は両方の前記強度の約二分の一である、形態26に記載の方法。
[形態28]
前記分析する段階は、
因子分析にとって有意な因子を求める段階と、
それらの因子の初期シード推定を提供する段階と、を更に備えている、形態1に記載の方法。
[形態29]
下四分位ピークを除外する段階、を更に備えている、形態28に記載の方法。
[形態30]
前記分析する段階は、
前記生データの間でベースピークを選択する段階と、
全ての局所データを評価して、それらを前記ベースピークと相関付ける段階と、
既定の最小相関値を有する局所データを前記ベースピークと組み合わせて因子を作成する段階と、
前記因子についてスペクトルを推定する段階と、を更に備えている、形態1に記載の方法。
[形態31]
前記ベースピークは手動で選択されている、形態30に記載の方法。
[形態32]
前記生データのデータセットの中で最も強度の高いサブクラスタピークが前記ベースピークとして選択されている、形態30に記載の方法。
[形態33]
前記最小相関値は0.6である、形態30に記載の方法。
[形態34]
A)ひとたび前記ベースピークが識別されたら、残っているデータの中で次に最も強度の高いピークを次の因子として選択する段階と、
B)前記(A)段階が完了し次第、残っているデータの中で次に最も強度の高いピークを次の因子として選択する段階と、
C)前記(B)段階を、全てのサブクラスタが因子を割り当てられるまで繰り返す段階と、を更に備えている、形態33に記載の方法。
[形態35]
前記最小相関値と関係している信頼区間を比較して、前記組み合わせる段階で組み合わされた前記局所データで組み合わされるべきではなかった局所データを、別々の因子へ分離する段階を、更に備えている、形態30に記載の方法。
[形態36]
前記比較する段階は、
前記因子の中で最も強度の高いサブクラスタを選択する段階と、
前記ベースサブクラスタと前記因子の中のその他のサブクラスタのうちの少なくとも1つの間の相関を求める段階と、
前記サブクラスタの少なくとも1つについて頂点位置信頼区間を求める段階と、
(i)重なり合うベースピークと、(ii)前記ベースピークへの相関で定義されている相関閾値より大きい相関と、を有するサブクラスタをひとまとめにグループ化する段階と、を更に備えている、形態35に記載の方法。
[形態37]
それぞれの因子についての平均濃度プロファイルを計算する段階を、更に備えている、形態35に記載の方法。
[形態38]
前記計算する段階は、それぞれの因子についての前記平均濃度プロファイルを求めるのに多変量曲線分解法を利用している、形態37に記載の方法。
[形態39]
計算された前記平均濃度プロファイルは、それぞれの因子についての推定されたピーク形状として使用される、形態38に記載に方法。
[形態40]
前記平均濃度プロファイルの前記ピーク品質を測定する段階と、
閾値ピーク品質より小さいピーク品質を有するデータを除去する段階と、を更に備えている、形態37に記載の方法。
[形態41]
前記測定する段階は、それぞれの濃度プロファイルのフィットの残差の偏差を求めることによって計算されている、形態40に記載の方法。
[形態42]
前記偏差は、二重ガウス系での標準偏差である、形態41に記載の方法。
[形態43]
前記閾値ピーク品質は0.5である、形態40に記載の方法。
[形態44]
前記入力相関パラメータは手動入力されている、形態43に記載の方法。
[形態45]
前記推定されたピーク形状を、少なくとも1つの事前に選択されている曲線と比較する段階を、更に備えている、形態39に記載の方法。
[形態46]
前記推定されたピーク形状を、前記比較する段階に先立って正規化して、正規化された推定ピーク形状を定義する段階を、更に備えている、形態45に記載の方法。
[形態47]
前記正規化する段階は、前記推定されたピーク形状を、再サンプリング手続きを通して引き伸ばすか又は縮めるかのうち少なくとも一方を行い、次いで中心合わせして、前記少なくとも1つの事前に選択されている曲線の幅と中心に整合させる段階、を含んでいる、形態46に記載の方法。
[形態48]
前記正規化されたピーク形状と前記少なくとも1つの事前に選択されている曲線の間の相関を計算する段階を、更に備えている、形態46に記載の方法。
[形態49]
前記最適整合についての歪度値及び尖度値が前記最適化のためのシードとして選択されている、形態48に記載の方法。
[形態50]
前記少なくとも1つの事前に選択されている曲線は、ピアソンIV関数から生成されている、形態45に記載の方法。
[形態51]
前記少なくとも1つの事前に選択されている曲線は前記歪度と前記尖度の少なくとも一方の順列であり、一方、残りのパラメータは一定に維持されており、その後、前記ピーク形状が記録され、それぞれの順列について保存される、形態50に記載の方法。
[形態52]
クロマトグラフィー質量分析法システムでのデータ捕捉システムからのデータを処理する方法において、
前記クロマトグラフィー質量分析法システムの質量分析計内に生データを形成する段階と、
前記生データを処理する段階であって、
処理されたデータを生成する段階、及び
前記処理されたデータを分析して、そこからノイズを抽出する段階により前記質量分析計と関係するモジュールを処理することによって、前記生データを処理する段階と、
同位体と付加体の一方又は両方と関連付けられている情報を求めて前記生データを調べ直す段階と、
前記関連付けられているデータを選択する段階と、
前記関連付けられているデータの適性認定を行う段階と、
前記関連付けられているデータが適性を認定された場合、それを因子へ割り当てる段階と、を備えている方法。
[形態53]
前記適性認定を行う段階は、
因子に対して前記データの相関を計算する段階と、
前記相関が前記最小相関より大きい場合は、それを因子へ割り当てる段階と、を備えている、形態52の方法。
[形態54]
前記最小相関は0.9である、形態53の方法。
[形態55]
因子を誤ってグループ化されている同位体/付加体を識別する段階と、
その様な識別された同位体/付加体を正しい因子へ割り当て直す段階と、を
更に備えている、形態35の方法。
[形態56]
前記識別する段階は、
因子の濃度プロファイルを近隣の因子の濃度プロファイルに比較して相関を識別する段階と、
第1の因子の前記濃度プロファイルと近隣の因子のそれとの間の前記相関が閾値相関より大きい場合は、前記第1の因子からの同位体/付加体突き止めに対し前記近隣の因子を調べ直す段階と、
前記調べ直す段階に基づいて、前記同位体/付加体を前記第1の因子へ割り当て直す段階と、を備えている、形態55の方法。
[形態57]
前記閾値相関は0.9である、形態56の方法。
[形態58]
前記相関パラメータは、ユーザーによって定義されている、形態35の方法。
[形態59]
因子分割を防止する段階を、更に備えている形態35の方法であって、
前記防止する段階は、
或る因子内のベース同位体/付加体サブクラスタと前記因子内のその他のサブクラスタの間の平均相関に基づく局所相関閾値を求める段階と、
前記因子と近接の因子の前記濃度プロファイルを相関付ける段階と、
前記相関が局所相関閾値より大きい場合は、前記因子と前記近接の因子を併合する段階と、を更に備えている、形態35の方法。
[形態60]
因子が併合される場合、前記因子と次に近接している因子との前記濃度プロファイルの相関付け段階、を更に備えている、形態59の方法。
[形態61]
前記閾値相関は0.9である、形態59の方法。
[形態62]
前記最小クラスタ長さは5スティックである、形態7の方法。
[形態63]
因子分割を防止する段階を、更に備えている形態35の方法であって、
前記防止する段階が、
第1のピークを第2のピークと、それらの間のもう1つの条件に基づいて、比較する段階と、
前記第1及び前記第2のピークを、前記1つ又はそれ以上の条件に基づいて、関係有り又は関係無しの何れかとして分類する段階と、を備え、前記比較する段階は、(i)前記第1のピークの分散を前記第2のピークの前記分散と比較する段階と(ii)前記第1のピークの平均保持時間を前記第2のピークの前記平均保持時間と比較する段階のうちの一方又は両方を比較する、形態35の方法。
[形態64]
前記比較する段階は、前記第1のピークの前記分散と前記第2のピークの前記分散及び前記第1のピークの前記平均保持時間と前記第2のピークの前記平均保持時間の両方を比較する、形態63に記載の方法。
[形態65]
前記第1のピークの前記分散を前記第2のピークの前記分散と比較する前記段階は、
前記第1のピークと前記第2のピークの間のF統計量を求める段階、
前記F統計量に関係付けられるF統計量信頼区間を割り当てる段階、
前記F統計量信頼区間を既定のt統計量パラメータに対照して比較する段階、
前記F統計量信頼区間を既定のF統計量パラメータに対照して比較する前記段階に基づいて、前記第1のピークと前記第2のピークを関係有り又は関係無しとして特徴付ける段階、という下位段階を備えている、形態64に記載の方法。
[形態66]
前記第1のピークの前記平均保持時間を前記第2のピークの前記平均保持時間と比較する前記段階は、
前記第1のピークと前記第2のピークの間のt統計量を求める段階、
前記F統計量に関係付けられるt統計量信頼区間を割り当てる段階、
前記t統計量信頼区間を既定のF統計量パラメータに対照して比較する段階、
前記t統計量信頼区間を既定のt統計量パラメータに対照して比較する前記段階に基づいて、前記第1のピークと前記第2のピークを関係有り又は関係無しとして特徴付ける段階、という下位段階を備えている、形態64に記載の方法。
[形態67]
前記第1のピークの前記平均保持時間を前記第2のピークの前記平均保持時間と比較する前記段階が、
前記第1のピークと前記第2のピークの間のt統計量を求める段階、
前記F統計量に関係付けられるt統計量信頼区間を割り当てる段階、
前記t統計量信頼区間を既定のF統計量パラメータに対照して比較する段階、という下位段階を備え、
前記第1のピークの前記分散を前記第2のピークの前記分散と比較する前記段階が、
前記第1のピークと前記第2のピークの間のF統計量を求める段階、
前記t統計量に関係付けられるF統計量信頼区間を割り当てる段階、
前記F統計量信頼区間を既定のt統計量パラメータに対照して比較する段階、
(i)前記t統計量信頼区間を既定のt統計量パラメータに対照して比較する前記段階及び(ii)前記F統計量信頼区間を既定のF統計量パラメータに対照して比較する前記段階に基づいて、前記第1のピークと前記第2のピークを関係有り又は関係無しとして特徴付ける段階、という下位段階を備えている、形態64に記載の方法。
[形態68]
前記クロマトグラフィーシステムはF統計量ルックアップ表を有するメモリ含んでおり、F統計量を求める前記段階は、前記ルックアップ表上の前記F統計量をルックアップする段階を含んでいる、形態64に記載の方法。
[形態69]
前記F統計量ルックアップ表は、特異値分解を用いて計算され前記システムのメモリ内に記憶されている既定のF統計量値を含んでいる、形態68に記載の方法。
[形態70]
前記クロマトグラフィーシステムはF統計量ルックアップ表を有するメモリを含んでおり、F統計量を求める前記段階は、前記ルックアップ表上の前記F統計量をルックアップする段階を含んでいる、形態67に記載の方法。
[形態71]
前記F統計量ルックアップ表は、特異値分解を用いて計算され前記システムのメモリ内に記憶されている既定のF統計量値を含んでいる、形態70に記載の方法。
[形態72]
前記因子は1つ又はそれ以上のピークを含んでおり、a1、σ1、a2、及びσ2は概して前記複数のピークのそれぞれについて制約されており、前記方法は、更に、
前記1つ又はそれ以上のクロマトグラフピークを二重指数モデル(bi-exponential model)を使用してモデル化し、当該1つ又はそれ以上のクロマトグラフピークと前記二重指数モデルの間の残差フィッティングを識別する段階と、
前記残差フィッティングが残差フィッティング既定条件を満たさない場合には、反復残差が反復残差フィッティング既定条件を満たすまで前記信号をもう1ピークずつ反復的に増加させる段階と、を備えている、形態34に記載の方法。
[形態73]
反復的に増加させる前記段階は、前記信号を最適化する段階を伴っている、形態72に記載の方法。
[形態74]
前記信号はLevenberg−Marquardt(LM)アルゴリズムを使用することによって最適化される、形態73に記載の方法。
[形態75]
前記LMアルゴリズムは分析式を使用して計算される、形態74に記載の方法。
[形態76]
前記因子は1つ又はそれ以上のピークを含んでおり、a1、σ1、a2、及びσ2は概して前記複数のピークのそれぞれについて制約されており、前記方法は、更に、
前記1つ又はそれ以上のクロマトグラフピークを二重指数モデル(bi-exponential model)を使用してモデル化し、当該1つ又はそれ以上のクロマトグラフピークと前記二重指数モデルの間の残差フィッティングを識別する段階と、
前記残差フィッティングが残差フィッティング既定条件を満たさない場合には、反復残差が反復残差フィッティング既定条件を満たすまで前記信号をもう1ピークずつ反復的に増加させる段階と、を備えている、形態35に記載の方法。
[形態77]
反復的に増加させる前記段階は、前記信号を最適化する段階を伴っている、形態76に記載の方法。
[形態78]
前記信号はLevenberg−Marquardt(LM)アルゴリズムを使用することによって最適化される、形態77に記載の方法。
[形態79]
前記LMアルゴリズムは分析式を使用して計算される、形態78に記載の方法。
[0004]クロマトグラフィーシステムでのデータを処理するためのシステム及び方法が記載されている。或る実施形では、本システム及び方法は、クロマトグラフィーシステムによって生成されたデータを処理して処理されたデータを生成する段階と、処理されたデータを分析する段階と、処理されたデータに基づく結果を用意し提供する段階と、を含んでいる。
【図面の簡単な説明】
【0006】
図1】[0005]本開示に記載されている或る実施形による、クロマトグラフピークを識別しデコンボリューションするための因子分析技法に関する全般的な処理を描いている。
図2】[0006]ガスクロマトグラフィー質量分析法システムの全体的なブロック図である。
図3】[0007]或る実施形による、本技法の或る特徴を示している。
図4】[0008]或る実施形による、データ捕捉システムからのデータを前処理するための例示としての方法を表している。
図5】[0009]或る実施形による、ベースライン補正の或る例示としての方法を表している。
図6】[0010]フィルタリング処理の或る例示としての実施形を識別している。
図7】[0011]本開示で論じられている原理による、実質的に最適化された係数を識別するための代表的な処理を描いている。
図8】[0012]或る実施形態による、サブクラスタのピーク形状の適性認定を行うのに使用することのできる代表的な処理を示している。
図9】[0013]或る実施形による、概ね無関係なデータをサブクラスタから除去してデータを精錬させることのできる方法を述べている。
図10】[0014]共有質量(shared masses)を識別するための代表的な処理を描いている。
図11】[0015]ここに記載の実施形の態様によるシーディング法を描いている。
図12】[0016]記載の実施形態に従った因子識別のための処理を示している。
図13】[0017]或る例示としてのシステムでのM対ピーク相関閾値の比較を描いている。
図14】[0018]或る実施形でのM対ピーク相関閾値をグラフに実例的に示している。
図15】[0019]因子分割を防ぐ方法を提供している。
図16】[0020]本開示に記載されている或る実施形による、ピークグループ化に関連する全般的な処理を描いている。
図17】[0021]或る実施形による、ピーク平均及びピーク標準偏差を求めるための例示としての方法を描いている。
図18】[0022]或る実施形による、第1のピーク及び第2のピークの平均保持時間が実質的に同じであるかどうかを判定するための例示としての方法を描いている。
図19】[0023]或る実施形による、第1のピーク及び第2のピークの分散が実質的に同じであるかどうかを判定するための例示としての方法を描いている。
【発明を実施するための形態】
【0007】
[0024]様々な図面中の同様の符号は同様の要素を指し示している。
[0025]図1を参照すると、クロマトグラフィー質量分析法システムからのクロマトグラフピークを識別しデコンボリューションする因子分析技法としての或る例示としての方法が開示されている。本方法は、液体及び気体を含むクロマトグラフィーシステムの全型式で使用することができるものと理解されたい。例示されている或る実施形態では、本方法は、(i)分析システムによって受信されたデータを前処理する段階(S200)と、(ii)前処理されたデータを分析する段階(S300)と、(iii)データ中に表されていることが確信される何らかの同位体又は付加体と関連付けられるデータを処理する段階(S400)と、(v)関連付けられる結果を用意し提供する段階(S500)と、を含んでいる。
【0008】
[0026]或る実施形では、データは、分析のために、質量分析計と関連付けられているデータ捕捉システムによって供給される。本開示の解釈上、データ捕捉とは、米国特許第7,501,621号、米国特許第7,825,373号、米国特許第7,884,319号に示されているシステムとされていることを了解されたい。
【0009】
[0027]更に、その様な分析を施されるのに先立ち、データ捕捉システムからのデータは、米国仮特許出願第61/445,674号に示されている様に調整されてもよい。上記及び他の全ての参照されている特許及び出願をここに参考文献としてそっくりそのまま援用する。援用されている参考文献中の用語の定義又は使用が、ここに提供されている当該用語の定義と矛盾しているか又は相容れない場合には、ここに提供されている当該用語の定義が適用され、参考文献中の当該用語の定義は適用されない。
【0010】
[0028]かいつまめば、上記データ捕捉システムは、概して、質量分析法システムからの生データを、それぞれがイオンピークを表していて強度と正確な質量値と質量分解能値から成っている「スティック」(sticks)と呼ばれる質量中心質量スペクトル(centroided mass spectral)へ変換する。スティックの構築時、アナログ対デジタル変換器からの生データは、約10又は10:1の圧縮を施され、捕捉ノイズと冗長情報の大半は除去されてしまう。しかしながら、このデータ捕捉システムの目的は全イオン情報を以降の処理工程へ回送することなので、結果は、非常に疎な二次元データであるが、化学背景ノイズは依然として残っている可能性がある。次に、スティックはドリフト補正され、隣接する保持時間走査で統計学的に似通った質量のクラスタへまとめられる。
【0011】
[0029]或る実施形では、似通った強度プロファィルを有するクラスタ同士は、クロマトグラフカラムから溶離する分子化合物由来の様々な同位体、付加体、及びフラグメントイオンを表していると考えられる。加えて、カラムブリード、移動相汚染物質、雰囲気汚染物質、及び同種のもの、の様な多様な発生源に由来する、クロマトグラフ構造を全く持たない背景イオンのクラスタがある。クラスタフィルタを適用して、所望の最小信号対ノイズレベルより小さいレベルを有するクラスタを除去し、次いで、残っているクラスタを処理システムへ送って、分析を続行させるようにすることができよう。
【0012】
[0030]本開示の内容に基づいて理解されるべきこととして、データ処理のそれぞれの工程で、優良情報の保持は、図3によって表されている様に幾らかの残留ノイズ保持を代償としていることが典型的に好適である。概して、記載のシステムは、データの完全性を保全するために保持されるノイズの量を最適化した。
【0013】
[0031]図4は、処理システムによってデータ捕捉システムから受信されるデータを前処理するための或る例示としての方法を表している。或る実施形では、処理(S200)は、長いクラスタを短いクラスタから分離し、長いクラスタをベースライン補正する段階(S210)と、データをフィルタ処理して平滑化する段階(S220)と、フィルタ処理されたクラスタをサブクラスタへ分ける段階(S230)と、サブクラスタの適性認定を行う段階(S240)と、を含んでいる。或る実施形態では、サブクラスタの適性認定は、ピーク形状の適性認定を行うことと信号対ノイズの適性認定を行うことのうち少なくとも一方を含んでおり、それぞれは以下に更に詳細に論じられている。
【0014】
[0032]長いクラスタは全分析の長さに近い持続時間を有しているかもしれないこと、及びこれらの長いクラスタの殆どは適正に取り扱われなかったなら事実上結果にバイアスを掛けてしまう背景イオンであること、が見出されている。更に、長いクラスタは、多くの場合、相対的に強度が高く、典型的にはそれらと関連付けられる高いノイズを有している。また一方で、このデータの一部が、溶離化合物の共有質量による寄与のせいで望ましいクロマトグラフデータを保有しているということもあるため、長いクラスタを一括りに抽出するのではなくむしろ長いクラスタへの更なる分析を提供するのが好適であろう。その様な長いクラスタは、それらの高くなった強度のせいで、或る実施形では、最初にベースライン補正を施されることになる。
【0015】
[0033]その様なベースライン補正の或る方法をこれより開示してゆく。図5に示されている或る実施形では、データへベースライン補正を遂行するための段階は、以下の手続き、即ち、データをブロックへ分離する段階であって、それぞれのブロックの長さは、クロマトグラフデータの期待半値全幅(full-width half-height)の倍数として求められている、分離する段階(S211)と、ブロックの中心のベースラインの強度を、当該ブロックの下四分位のベースラインの強度に基づいて推定する段階(S212)と、上記の等距離四分位点間を線形補間してベースライン推定を出す段階(S213)と、ベースラインレベルに対しベースラインより上のデータをクリップし、ベースラインより下のデータを温存する段階(S214)と、クリップされたデータ上で曲線を平滑化してベースラインの改善版を出す段階(S215)と、段階(S214)及び段階(S215)を、全て又は実質的に全てのデータが平滑化されたベースラインより上に最小許容誤差内で納まるまで、繰り返す段階と、を備えていてもよい。上記ベースライン補正は、それぞれの所望の分離されたブロックに遂行されてもよく、或る実施形では、分離されたブロック全て又は実質的に全てが含まれている。同様に、補正は、それぞれの長いクラスタに適用されてもよく、或る実施形では、長いクラスタ全て又は実質的に全てが含まれている。
【0016】
[0034]或る実施形では、段階(S211)中のブロックの長さは、クロマトグラフデータの期待半値全幅の5倍と推定されるが、本開示に基づき、長さは5倍より大きいこともあれば小さいこともあるものと理解されたい。
【0017】
[0035]論じられている様に、データをクリップする段階(S214)は、クリップされたデータ上で曲線を平滑化することを伴う。或る実施形では、平滑化する段階を提供するのにSavitzky−Golay平滑化アルゴリズムが実施されている。他の平滑化アルゴリズムを採用することもでき、本発明はそれによってその様に限定されるものではない。
【0018】
[0036]引き続き図4を参照して、データは次にフィルタ処理されてノイズが除去されることになる(S220)。その様なフィルタリング処理の実施形が図6に示されている。論じられている或る実施形態では、この段階を遂行する場合に無限インパルス応答フィルタが使用されているが、但し、本明細書の内容に基づき、有限インパルス応答フィルタの様な他の型式のフィルタがそれに置き換えられてもよいものと理解されたい。引き続き図6を参照すると、データ内で最も大きいピークが識別され、当該ピークの半値全幅が推定される(S221)。この推定値は、次に、事前に定義されているルックアップ表と突き合わされて、順逆二次無限インパルス応答フィルタ係数のセットであって、クロマトグラフピークをそれらの半値全幅に基づいて平滑化するために最適化されている係数のセットが識別される(S222)。(S222)で導出されている識別された最適化済みの係数を使用して、データが平滑化される(S223)。次に、平滑化されたデータが生データに対照して比較されて、それぞれのクラスタについてのノイズ指数が識別される(S224)。或る実施形では、それぞれのクラスタについてのノイズ指数は、平滑データと生データの間の残差の標準偏差として計算されている。本開示に基づいて明らかになってくる目的のために、ノイズ指数は、(S230)に従って或るクラスタから導出されているサブクラスタのそれぞれへ割り当てられるものとして保持される。この方法は、高強度データによって不当に影響されない分析を促し低強度データが十分に表されるようにする最尤最小二乗法推定を提供する。
【0019】
[0037]論じられている様に、或る実施形態では、最適化された係数は、(S222)のルックアップ表の使用を通して識別される。或る実施形では、最適化された係数は、何れかの処理が起こる前に、幾つかの期待半値全幅値について事前に計算されシステムに保存される。図7は、係数を事前に計算することのできる1つのやり方を示している。
【0020】
[0038](S225)で、それぞれの期待半値全幅で幾つかの純粋なガウスピークが形成される。或る実施形では、これらのピークの幅は、実質的に目標の半値全幅の約三分の一(1/3)乃至当該半値全幅の3倍を範囲としており、それらは基準ピークとして格納される。次に、(S226)で、ノイズが、基準ピークの全て又は選択されたものに加えられる。或る実施形では、ノイズはホワイトノイズであり、ガウス分布に従ってピークのそれぞれに加えられている。次いで、(S227)で、フィルタ係数を調整するべく、ピークのそれぞれ又は選択されたものが、平滑化されたノイズのあるピークと基準ピークの間の残差を実質的に最小化する方式で最適化される。最適化(S227)は、非線形Levenburg−Marquardt法を使用して提供されてもよい。最適化中、係数は、安定したインパルス応答を発生させるように制約を付けられる。この処理がそれぞれの又は選択された基準半値全幅について繰り返され(S228)、最適化された係数値がルックアップ表に格納される(S229)。或る実施形では、例示としての得られた平滑化フィルタのインパルス応答は、フィルタの主ローブの幅が目標の半値全幅の大凡二分の一である正弦フィルタのインパルス応答と似ていた。この実施形を使用すれば、ピークの形状と構造は実質的に保全され、検知される偽の正ピーク数は実質的に最小限になることであろう。
【0021】
[0039]図4に戻って、フィルタ処理されたクラスタは、サブクラスタへ分けられることになる(S230)。或る実施形では、フィルタ処理されたクラスタのデータが調べられて、(2つのピーク又は頂点の間に位置する)谷の最点が近接のピークの定義されている強度未満であるそれぞれのインスタンスが識別される。一例として、ピーク強度は、近接しているピークの一方又は両方のピークの強度の二分の一(1/2)又は約二分の一となるように選択されていてもよい。識別されたら、谷はクラスタ切断点として認識され、それによってクラスタを1つ又はそれ以上のサブクラスタへ分離させる。理解されるであろうが、分けられるサブクラスタの数は、所与のクラスタのクラスタ切断点の量に依存することになる。
【0022】
[0040]図8は、サブクラスタのピーク形状の適性認定を行うのに使用することのできる代表的な処理を示している(S240)。この処理は、確実に、関連のサブクラスタがクロマトグラフ情報を保有するようにさせるのに役立つ。実際には、サブクラスタの幾つかは、クロマトグラフ情報を保有しないデータを含んでいることがあり、その様なデータを、これ以後、外れ値と呼称する。それら外れ値のうち、関連データを除去することなく実践できる限り多くの外れ値をデータから抽出し省くのが好適である。或る実施形では、所望のサブクラスタを外れ値から分離するのに、次の技法、即ち、(i)最小信号対ノイズ比より大きい信号対ノイズ比を有するサブクラスタを選択する(S242)、(ii)最小品質より大きいピーク形状を有するサブクラスタを選択する(S244)、及び(iii)最小クラスタ長さを有するサブクラスタを選択する(S246)、のうちの1つ又はそれ以上が使用されている。或る実施形では、最小クラスタ長さは、3乃至8スティック、4乃至7スティック、3乃至7スティック、4乃至8スティック、4乃至6スティック、又は5スティック、の長さが選択されている。他の最小クラスタ長さが使用されていてもよい。或る実施形では、前記分離処理のそれぞれが使用されている。開示を分かり易くするために、本開示は、図8に描かれている様に、処理のどれもが使用されている実施形態を論じてゆく。また、どの分離処理が使用されようと、本開示はそれらが処理される順序に限定されるものではない。
【0023】
[0041]最小又は閾値信号対ノイズ比より大きい信号対ノイズ比を有するサブクラスタを選択するための或る例示としての処理(S241)が提供されている。或る実施形では、閾値比は、ハードコードされた値とユーザーが定義した値のうちより小さい方として選択されていてもよい。一例として、閾値は10又は約10とすることができよう。他にも技法はあるが中でも特に、ノイズは四分の一(1/4)イオン面積の事前に定義されている捕捉ノイズとして、又は元のクラスタデータと平滑化されたクラスタデータの間の残差の標準偏差として、測定されていてもよい。とはいえ、閾値未満の比を有するサブクラスタでも、それらが適性条件を満たすピークの同位体又は付加体であるなら、因子分析でなお使用されることもあるものと理解されたい。
【0024】
[0042]閾値より大きい信号対ノイズ比を有するサブクラスタは、冗長データ又はノイズをなおも保有しているかもしれないことから、それらサブクラスタを更にトリミングすることが望ましいであろう。1つのトリミング方法は、その様なサブクラスタのベースラインをピークの左右両側からトリミングすることを伴う。或る実施形では、サブクラスタ内の生データが一方の端又は両方の端から中心へ向かって走査され―強度(左/右)が閾値より上に立ち上がっている場所が、サブクラスタの新しい端となり、ベースラインデータは捨てられる。或る実施形では、閾値強度は、サブクラスタノイズの標準偏差の4倍である。
【0025】
[0043]前に説明されている様に、所望のサブクラスタを識別し外れ値を除外する別の手法は、最小又は閾値品質より大きいピーク形状を有するサブクラスタを選択すること(S244)である。或る実施形では、閾値品質は、クロマトグラフピークが合理的にモデル化され得る全体形状を有しているとの仮定に基づいていてもよく、モデル化は、二重ガウス(bi-Gaussian)曲線を使用するのが好ましいが、本発明はそれによってその様に限定されるものではない。二重ガウス曲線は、フィッティングの速さと安定性について、ピアソンIVの様な他のピーク形状に勝って好適である。従って、図9に描かれている或る実施形態では、それぞれのサブクラスタは、まず、二重ガウスピークにフィットされる(S247)。サブクラスタとフィットさせたピークの間の相関が識別される(S248)。閾値相関より大きいか又は実質的に閾値相関にある相関を有するピークが選択され、閾値より小さい相関を有するピークは外れ値として識別される(S249)。或る実施形では、閾値相関は0.6、好適には0.8とされている。
【0026】
[0044]それぞれのサブクラスタは単一のクロマトグラフピークを保有しているものと見なされているため、その様なサブクラスタが2つ又はそれ以上の共溶出化合物からの情報が組み合わさっていることに因る共有質量複合ピークである、ということもあり得るものと理解している。従って、或る実施形では、ピークが共有質量を含んでいるかどうかを確かめ、更には単一化合物に関係付けられるピークのグループを識別するべく、デコンボリューションの方法及びシステムが随意的に採用されてもよい。その様なピークのグループを識別する場合に、デコンボリューション処理をクロマトグラフピークの1つ、幾つか、又は全てに対して実施して、それぞれの分析されるピークが属するグループ分けを解き明かすようにしてもよい。
【0027】
[0045]理解されるであろうが、質量分析計へ連結されているクロマトグラフィーシステムは、質量ピークとクロマトグラフピークの両方をもたらすことができる。質量ピークはガウス形状に酷似し、クロマトグラフピークと比較すると、概して、ひどく歪められたりノイズを含んでいたりすることはない。結果として、質量ピークのデコンボリューションと関連付けられるデコンボリューション処理では、多くの場合、ガウスモデルが実施されている。例えば、その様な質量ピークに亘って期待値最大化(EM)アルゴリズムを採用することが知られている。
【0028】
[0046]クロマトグラフピークは、質量ピークとは違い、多くの場合、ガウス形状に酷似しておらず、ノイズに著しい歪みを含んでいる。従って、ガウスモデル及び二重ガウスモデルは、多くの場合、クロマトグラフピークにはうまくフィットせず、EMアルゴリズムは、ピークのスキューイングのせいで貧弱な収束を有する。ピークパラメータを推定するのに非線形反復法も導入されているが、その様な方法は緩慢でシステムでは悠長となろう。
【0029】
[0047]本発明人は、以上に論じられているクロマトグラフピークの様なピークをモデル化するための新規な曲線型式を開発した。本開示の解釈上、論じられているモデル及び曲線型式を、ここでは、二重指数モデル(bi-exponential model)又は二重指数曲線(bi-exponential curve)と呼称することにする。従来は、以上に論じられている様に、ガウス曲線、二重ガウス曲線、又は一般的な指数曲線及びモデルが採用されてきた。新規な二重指数モデルは、ピークを頂点で分離し、ピークの各側を独立した指数曲線でモデル化する。
【0030】
[0048]或る実施形では、二重曲線モデルは、次の様に、即ち、
【0031】
【数1】
【0032】
と表すことができる。
[0049]本開示に基づいて理解されてゆく様に、二重指数モデルは、aとaがそれぞれ2に設定されている場合の二重ガウスモデルと同じである。一般化されている指数モデルと比較して、二重指数モデルはaとaの間の変動を許容する。
【0033】
[0050]上記モデルを利用すると、ピーク曲線は而して二重指数曲線の総和を用いて次の様に、即ち、
【0034】
【数2】
【0035】
と表すことができる。
[0051]高分解能飛行時間質量分析計では、共有質量のピーク形状は強度と位置のみが相違するはずで、その様な場合は全て、大抵は全Pピークが典型的に共通のσ、σ、a、及びaを有しているものなので、それにより、以下に述べられている様に更なる分析が簡略化される。
【0036】
[0052]図10を参照して、或る実施形では、前処理されたデータを分析する段階は、随意的に、(S285)での二重指数モデルを使用して信号をモデル化し残差フィッティングを識別する段階で補われてもよく、(S290)で、残差フィッティングが望ましくない場合には、クロマトグラフをフィットさせるべく、フィット残差が事前に定義されている残差内に納まるまで、信号をもう1ピークずつ反復的に増加させてゆく。事前定義の残差は、所望の目的に従った制約へ設定されていることもあり得る。
【0037】
[0053]或る実施形では、信号は最適化され、(S290)はLevenberg−Marquardt(LM)アルゴリズムを使用することによって達成されている。従来は、LMアルゴリズムはヤコビ行列を次の様に、即ち、
【0038】
【数3】
【0039】
の様に動的に計算していた。
[0054]本発明人は、ここに記載されている二重指数モデルを制約付きのパラメータと組み合わせて使用すれば、動的計算を免除でき、代わりにヤコビ行列は次の分析式、即ち、
【0040】
【数4】
【0041】
【数5】
【0042】
【数6】
【0043】
【数7】
【0044】
【数8】
【0045】
【数9】
【0046】
を使用して求められることを発見した。
[0055]或る実施形では、上記計算では計算の多くが使用されているので、一部の特定の計算、例えば(t−m)a1などは、後でアクセスするためにメモリ内に格納しておくようにしてもよい。
【0047】
[0056]図1に戻って、上記に従って前処理され、次いで随意的に、図10に示されているデコンボリューションを行われたデータは、次に(S300)で分析を施される。この段階での、因子分析のための有意因子の数を求め、それらの因子の初期シード推定を提供するための方法が開示されている。ここに論じられている因子シーディングの適用により、因子分析が不当に局所的最小値に集中しないようにした方法がもたらされる。結果として、より高い精度と分解能で素早く結果を得ることができるようになる。
【0048】
[0057]図11に示されている或る実施形態では、開示されているシーディング法は、(S310)で、1つ又はそれ以上の値を充当して、有意因子の数を処理する又は他のやり方で求め、デコンボリューションを制御することを伴う。或る実施形態では、使用することのできる値には、中でもとりわけ、クロマトグラフ分解能の度数、ピーク重なり又はピーク相関閾値、及び得られる因子の最小品質が含まれる。値は、ユーザーが選択したものであってもよいし、事前に定義されていてもよいし、前シーディング処理中に分析結果に基づいて動的に生成されてもよい。
【0049】
[0058]或る実施形態では、マルチパス処理が因子確定を容易にすることであろう。これより2パス処理を論じてゆくが、本開示に基づいて、様々なパス処理が使用されてもよく、本発明はその幅一杯まで権利が及ぶものと理解されたい。更に、2パス処理は、随意であり、単一パスからもたらされる結果が十分であると判断されれば単一パスが使用されてもよい。かいつまめば、本処理は、因子をその様なピークとして求めるときに、結果をぼやけさせるか又はそれ以外に処理を遅行させたりしないとも限らない低品質ピークの除外をやり易くする。とはいえ、後段で論じられている様に、除外されたピークの幾つか又は全ては、その様なピークが同位体又は付加体に関係していると判定された場合には、後刻、処理に加えられることになる。
【0050】
[0059]或る実施形では、第1パスは、求められる因子の第1推定値を提供する(S320)のに使用される。図12に示されている様に、このパスは、因子についてのベースピーク又は濃度プロファイルの選択(S321)で始まる。ベースピークは、手動で選択されてもよいし、又は自動的に、例えばアルゴリズム関数又は同種のものの実装を通すなどして、選択されてもよい。或る実施形では、データセットの中で最も強度の高いサブクラスタピークがベースピークとして選択されており、というのも、その様なピークは、比較上強度の低いサブクラスタピークと比較して、純粋な化学物質を最もよく表している可能性が高いと想定できるからである。或る実施形では、選択されたサブクラスタピークは、因子についてのベースピーク又は濃度プロファイルとして選択される。
【0051】
[0060]ベースピークの選択に続いて、全ての局所データ(例えば、このベースピークを横切るサブクラスタ)が評価され、ベースピークと相関付けられて、ベースピークとの相関値Cを充当させる(S322)。既知の相関方法が使用されてもよい。或る実施形態では、既定の最小相関値を有する局所データがベースピークと組み合わされて因子を作成する(S323)。次いで、識別された因子について、スペクトルの初期推定値Sが指定される(S324)。
【0052】
[0061]次に、残っているデータの中で最も強度の高いピークが次の因子として選択され、この場合も同様に、相関データが上述の処理に従って組み合わされる(S325)。この処理は、サブクラスタの全てが因子へ初期割り当てされてしまうまで続く。
【0053】
[0062]次に、第2パス(S330)が採用され、それによって、第1パスからの因子は更に分析され、第1パスで識別された単一の因子を更に個別化された因子に分離できるか又は分離するべきかについて判定が下されることになる。この段階中、相関パラメータ及び関係のある信頼区間を使用して、第1パスで間違って併合されたかもしれないデータを分離するようにしてもよい。或る実施形では、相関パラメータは、ユーザーが識別したものであってもよいし、事前に定義されたものであってもよい。
【0054】
[0063]図13は、その様な第2パス(S330)で使用することのできる実施形を例示している。描かれている様に、因子の中で最も強度の高いサブクラスタが選択され(S331)、当該サブクラスタのことを、他の用語を使用することもできるであろうがベースピークと識別することにする。当該ベースピークと因子中の他のサブクラスタの1つ又は全ての間で相関が計算される(S332)。更に、ベースピークを含め、サブクラスタのそれぞれについて、頂点位置信頼区間が計算される(S333)。或る例示としての信頼区間の求め方は、
【0055】
【数10】
【0056】
とされている。
[0064]上記方程式では、(i)Mは、シグマ乗数を指し、所望の標準偏差の数と関係していて、以下で論じられている様にピーク相関閾値と関係付けられる場合もあり、(ii)PeakWidthは、その信頼区間が所望されているサブクラスタピークの半値全幅であり、(iii)S/Nは、サブクラスタのピーク高さ対ピーク・ツー・ピークノイズの比として計算されているサブクラスタについての信号対ノイズ比であり、ApexLocationは、ピークの頂点の時間位置である。或る例示としての信頼区間の求め方が開示されているが、他の計算が使用されてもよく、特に否定されていない限り、本発明は開示されている例に限定されるものではない。
【0057】
[0065]前に述べられている様に好適な場合、或る実施形では、Mは図13に描かれている様に関数的にピーク相関閾値に関係付けることができる。図14は、可変量で時間推移する2つのガウス分布の相関及び信頼区間の重なりの測定値に基づくM対ピーク相関閾値をグラフに実例的に示している。プロットされている関係を使用すると、ピーク相関閾値かMのどちらかが識別されているとき、他方の値はこの実例的に示されている関係に基づいて自動的に導出されることになる。代わりに、或る実施形態では、独立したピーク相関閾値とMを提供するのが望ましいこともある。
【0058】
[0066]或る実施形では、高信頼は、大きいM(2乃至4或いは3又は約3)と広い信頼区間を有する傾向があろう。また、非常に強度の高いピーク(例えば、信号対ノイズ比が高くなる傾向のあるもの)については、信頼区間は狭くなる傾向があり、というのは、頂点位置の不確定さを非常に小さくさせるだけの十分な数のイオンがあるからである。例えば、その頂点が時間20に在るベース(又はサブクラスタ)についてシグマ乗数3を使用した場合、ピークは、幅が2、高さが2560、ピーク・ツー・ピークノイズが10であり、そのとき信頼区間はベースピークの頂点位置について20±0.375である。自身の信頼区間がベースピークの信頼区間と重なり合うサブクラスタ及び自身のベースピークへの相関がユーザー指定によるピーク相関閾値より大きいサブクラスタは皆ひとまとめに因子へグループ化される(S334)。所望に応じ、何らかの残っているサブクラスタがある場合に残っているサブクラスタのうち最も強度の高いものが新しい因子についてのベースピークとして選択され、残っているサブクラスタがなくなるまで当該処理が繰り返される(S335)。この処理を通して作成される新しい因子の量は、共溶出化合物の量に関係している。第2パスは、実質的に等しい頂点位置を有してはいるが異なった形状を有する2つのピークがデコンボリューションされる方法を提供している。
【0059】
[0067]上記と同時発生に、又は前に示されている因子識別の1つ、幾つか、又は全てが完了し次第、平均濃度プロファイルがそれぞれの因子について計算されており(S340)、図11を参照されたし。それぞれの因子について平均濃度プロファイルを求めるのに、一例として、1多変量曲線分解(MCR)法が採用されてもよい。或る実施形では、因子の1つ又は全てについて、計算された平均濃度プロファイルがそれぞれの因子についての推定ピーク形状として使用される。随意的には、ベースピーク形状が、所望に応じ、因子の1つ又は全てについての推定ピーク形状として識別されてもよい。更に、2つの推定ピーク形状を使用し、計算された平均濃度プロファイルとベースピーク形状が因子の1つ又は全てに使用されるようにしてもよい。
【0060】
[0068]平均濃度プロファイルの使用を通し、追加の望ましからざる因子を、平均濃度プロファイルのピーク品質(PQ)の測定(S350)によって、更なる計算から抜かすことができる。或る実施形では、PQは、それぞれの濃度プロファイルのフィットの残差の偏差を求めることによって計算することができる。異なった偏差方法が採用されてもよく、例えば、好適には二重ガウス系での標準偏差を使用することができる。或る実施形では、閾値ピーク品質(例えば、0.5)より小さいピーク品質は、データ及び引き続く計算から除去される(S360)。但し、PQ閾値の選択及び偏差計算並びにそのための方法は、所望の結果に依存して変えられてもよく、本発明はそれによってその様に限定されるものではないと理解されたい。
【0061】
[0069]図1に戻って、データを同位体及び付加体に関係している因子へ加え戻すことが望ましいこともある(S400)。或る実施形では、生データは調べ直され、同位体及び付加体に関係していることが確信されるデータが選択され、次いで因子の全て又は選択されたものに対しての適性認定が行われる。因子に対する適性認定は、データが、閾値誤差率より小さい誤差率を有する最小相関より大きい相関を指し示している場合に起こるものとされていてもよい。或る実施形では、最小相関は0.9であり、誤差率は20%である。データは、適性が認定されたなら、当該因子へ割り当てられる。
【0062】
[0070]或る実施形では、同位体/付加体は、生データに対し典型的な同位体m/zスペーシング及び付加体m/zスペーシングを調べ直し、調べ直しに基づいて同位体/付加体を指し示すデータを抽出することによって、生データ中に識別できる。例えば、一価炭素含有化合物は、n=1,2,3,…として、大凡n*1.003質量単位だけ間隔の空いた同位体を有しており、塩素化合物では、同位体は、典型的には、1.997質量単位だけ間隔が空いている。付加体については、分子が単一ナトリウムイオンを使用してイオン化された場合、それは、単一水素イオンによってイオン化された同じ分子から21.982質量単位の質量シフトを有しているはずである。
【0063】
[0071]更に、化合物の同位体/付加体は、近隣の共溶出因子と共に誤ってグループ化されてしまっているかもしれない(例えば、ノイズが原因で、同位体/付加体のピークは、その真のベースピークに対する相関よりも近隣のピークに対する相関の方が高くなっていることがある)。その様な同位体/付加体は、識別されたら、割り当て直されることが望ましいであろう。その様な誤ったグループ化を割り出して割り当て直す1つの方法は、或る因子をその近隣の(単数又は複数の)因子と比較することである。或る実施形では、近隣の因子を構成しているものの身元は、第1因子の濃度プロファイルと近接の因子のそれとの間の相関に基づいている。相関が最小相関より大きい場合には、当該因子は、近隣因子であって、潜在的に第1因子からの同位体又は付加体を含んでいる可能性があると識別される。或る実施形では、最小相関は0.9である。次に、近隣の因子が走査され、同位体/付加体が第1因子に属するとして適性認定された場合には、それらは第1因子へ割り当て直される。或る実施形では、この処理は、次に近接している因子について、相関が最小相関より小さくなるまで繰り返されることになる。因子と同位体/付加体の間の適性認定は、データが、閾値誤り率より小さい誤り率を有する最小相関より大きい相関を指し示している場合に起こるものとされていてもよい。或る実施形では、最小相関は0.9であり、誤り率は20%である。この処理で、因子がその全ての構成要素を空にされたら、当該因子は除外される。この処理は、データの全て又は選択された部分に対し繰り返すことができる。
【0064】
[0072]処理中は時として相関閾値が高すぎることに気付かれることもあろう。例えば、その様なことは、密接な共溶出化合物をデコンボリューションしようとしたせいで起こることがある。しかしながら、同位体及び付加体がこれほど高く相関していない場合には、不当に高い相関閾値のせいで因子分割が引き起こされることがある(即ち、単一の溶出化合物が1つより多い因子よってモデル化される事態となる)。因子がこの様に分割するのを防ぐのに役立つ1つの方法が図15に示されている。或る因子内のベース同位体/付加体サブクラスタ(即ち、最も強度の高いもの)と当該因子内のその他のサブクラスタの間の相関の平均が計算され、「局所相関閾値」とされる(S610)。次に、或る因子の濃度プロファイルとこの因子の近隣の因子の間の相関が求められる(S620)。因子同士の間の相関が局所相関閾値より大きい場合には、当該2つの因子は併合される(S630)。この処理は、因子全てに亘って、それぞれの識別されたベース同位体/付加体サブクラスタについて繰り返されることになる。
【0065】
[0073]代わりとして、又は以上に論じられている相関閾値との組合せとして、或る処理を使用してピークのグループ化を識別することができる。図16を参照すると、ピークのグループ化及び識別、即ちデータセット内の個々のピークを識別すること及びそれぞれの識別された個々のピークのスペクトルを識別すること、のための例示としての方法が開示されている。理解されるであろうが、その様なピークの適正な識別が、その後のデータ解析段階でのより効率的な処理を実現し易くする。
【0066】
[0074]開示されている方法及び処理を使用する或る実施形では、イオン統計量が信号における分散の有力なソースである。イオン統計量を有力なソースとして達成することは、概して信号内からの電気ノイズを抑制する超高分解能質量分析計を使用することによって実現し易くなろう。当該システムに基づくと、大抵は、その様なシステム内の質量スペクトル干渉の殆どは機器の高分解能品質のおかげで自動的に分解される。翻せば、このことは、外部質量スペクトル干渉の有意回避をもたらし、共有質量が存在する場合には、その様なシステムはデコンボリューションを行うことができる。
【0067】
[0075]ここに論じられている方法の実施形態を利用するにあたり、解析される信号内に存在するイオンの数は既知であり、ノイズは概して信号から除去されている。加えて、図16図19の解釈上、各々が1刻みのサイズ(m)を有する第1のピーク(x)と第2のピーク(y)を使用する例示を論じてゆく。これらの例における表記法は、第1及び第2のピーク(x,y)に対する以下の変数を割り当てている。即ち、
x:ベースピークのクロマトグラフピークの列ベクトル、
:xのi番目の要素のスカラー、
y:xとの併合を審査するクロマトグラフピークの列ベクトル、
:yのi番目の要素のスカラー、
:i番目の場所の保持時間のスカラー、
m:x及びyの長さのスカラー、
px:ピークx中のイオン数のスカラー、
py:ピークy中のイオン数のスカラー、
α:有意レベルのスカラー、
meanpx:ピークxの平均のスカラー、
meanpy:ピークyの平均のスカラー、
σpx:ピークxの標準偏差のスカラー、
σpy:ピークyの標準偏差のスカラー、
px:ピークxの標準偏差の推定のスカラー、
py:ピークyの標準偏差の推定のスカラー、
xy:ベクトルxとベクトルyの相関係数のスカラー、とされている。
【0068】
[0076]図16を参照して、或る実施形では、ピークをグループ化及び識別する方法は、S710での第1のピーク(x)を第2のピークと比較する段階と、S720での第1及び第2のピーク(x,y)はひとまとめにグループ化されるべきかどうかを判定する段階と、を含んでいる。
【0069】
[0077]図16図19の解釈上、言及されているピークとは、イオン統計量が実質的に有力で、ノイズは概して排除され、イオン体積が既知であるとしたときの、平均及び標準偏差を有するイオンの確率分布である、と考えるものと理解しておきたい。或る実施形では、比較する段階S710は、720での第1のピーク(x)の平均保持時間を第2のピーク(y)の平均保持時間と比較する段階と、S760での第1のピーク(x)の分散を第2のピーク(y)の分散と比較する段階と、S780での第1及び第2のピーク(x,y)を両比較段階の条件に基づいて関係有り又は関係無しの何れかとして分類する段階と、を含んでいる。更に、或る実施形では、第1及び第2のピーク(x,y)は、(a)第1のピーク及び第2のピークの平均保持時間が実質的に同じであり且つ(b)第1のピーク及び第2のピークの分散が実質的に同じであるという条件において、関係有りと分類される。
【0070】
[0078]図17は、後で使用されることになるピーク平均とピーク標準偏差を求めるための或る例示としての方法を描いている。図示されている様に、第1のピーク(x)の平均と第2のピーク(y)の平均はS810で求められる。或る実施形では、平均は、次式、即ち、
【0071】
【数11】
【0072】
【数12】
【0073】
に従って求められる。
[0079]引き続き図17を参照して、第1のピーク(x)の標準偏差及び第2のピーク(y)の標準偏差はS820で求められる。これらのピーク標準偏差は、次式、即ち、
【0074】
【数13】
【0075】
【数14】
【0076】
に示されている様に求めることができる。
[0080]ピーク平均及びピーク標準偏差を求めるには、ここに示されている例以外の他の方法が使用されてもよいものと理解しておきたい。例えば、他にもあろうが中でも、高い強度と概ね滑らかなイオン確率密度関数(PDF)を有している正規(例えばガウス)分布を持つピークの場合、ピーク平均は頂点位置として推定することができ、ピーク標準偏差は信号の半値全幅(FWHM)と関係付けることができる。但し、頂点/FWHM関連付けは、低強度ピークの場合には、ピーク平均と頂点位置の間でバイアスが大きくなり得ることから、適用可能でないことも理解しておきたい。代わりに、頂点と平均の間、また同じくFWHMと標準偏差の間、のバイアスを最小限にするために、様々な平滑化をピークに適用することができよう。
【0077】
[0081]或る実施形では、本開示の残り部分について言及されている様に、第1のピーク(x)の平均保持時間を第2のピーク(y)の平均保持時間と比較する段階(S720)は、t仮説と呼称される。t仮説は、第1のピーク(x)及び第2のピーク(y)の保持時間の平均が実質的に同じであり、よってそれらの間の信頼区間が潜在的に第1のピーク(x)の第2のピーク(y)とのグループ化を正当化するかどうかを検定するのに採用することができる。
【0078】
[0082]次に図18を参照して、第1のピーク(x)の平均保持時間を第2のピーク(y)の平均保持時間と比較する場合の或る実施形を開示する。まずS724で、所与の信頼区間について、t統計量が、次式、即ち、
【0079】
【数15】
【0080】
に従って求められる。
[0083]或る実施形では、S728で、t統計量を広げるために信頼区間が使用されるが、そのうちで次式、即ち、
【0081】
【数16】
【0082】
は、その様な信頼区間を割り当てるほんの一例である。
[0084]S732で、
【0083】
【数17】
【0084】
であるなら、第1のピーク(x)及び第2のピーク(y)の保持時間の平均は実質的に同じであり、よって、それらの間の信頼区間は潜在的に第1のピーク(x)の第2のピーク(y)とのグループ化を正当化する、ということになる。
【0085】
[0085]或る実施形では、本開示の残り部分について言及されている様に、第1のピーク(x)の保持時間の分散を第2のピーク(y)の保持時間の分散と比較する段階(S760)は、F仮説と呼称される。或る実施形では、F仮説は、第1のピーク(x)及び第2のピーク(y)の保持時間の分散が実質的に同じであり、よってそれらの間の信頼区間が潜在的に第1のピーク(x)の第2のピーク(y)とのグループ化を正当化するかどうかを検定するのに採用される。
【0086】
[0086]次に図19を参照して、第1のピーク(x)の分散を第2のピーク(y)の分散と比較する場合の或る実施形を開示する。まずS764で、所与の有意レベルについて、F統計量が、次式、即ち、
【0087】
【数18】
【0088】
に従って求められる。
[0087]或る実施形では、S168で、値を広げるために信頼区間が使用されるが、そのうちで次式、即ち、
【0089】
【数19】
【0090】
は、その様な信頼区間を割り当てるほんの一例である。
[0088]S772で、
【0091】
【数20】
【0092】
であるなら、第1のピーク(x)及び第2のピーク(y)の保持時間の分散は実質的に同じであり、よって、それらの間の信頼区間は潜在的に第1のピーク(x)の第2のピーク(y)とのグループ化を正当化する、ということになる。
【0093】
[0089]大きなサイズのデータセットでは、毎回ピーク間でF統計量を計算するというのは処理の見地からするとあまりに悠長であろう。或る実施形では、処理をスピードアップするのに助けとなる、F統計量を求める代わりの方法は、既定のF統計量値をシステム内に記憶する段階を含んでおり、既定のF統計量値は特異値分解を用いて事前に計算され、システムのメモリ内に記憶される。或る実施形態では、メモリ内に記憶されている表は、以下のF統計量情報、即ち、
【0094】
【数21】
【0095】
ここに、i=1,...,1000;j=1,...,1000、
を含んでいよう。
[0090]或る実施形では、表は、以下の様な事前に計算されたF統計量に対する特異値分解、即ち、
【0096】
【数22】
【0097】
又は、
【0098】
【数23】
【0099】
を実施することによって更に分解されていてもよい。
[0091]従って、分解された表は、百万(1,000,000)個ではなしに六千(6,000)個の値を有することになり、それにより、メモリ所要量を削減でき、また上の式によってFtableX及びFtableY、追加的にFtable(i,j)を再構築すればよいだけなので計算速度を上げられる。
【0100】
[0092]α/2及び1−α/2の両側F統計量を計算するのに2つの表が使用されてもよい。1000より大きい自由度の場合については、F統計量を再構築する際に値1000が使用され、即ち、
【0101】
【数24】
【0102】
【数25】
【0103】
である。
[0093]ひとたび因子が識別され、因子について適切な推定濃度プロファイルが選択されたら、推定されたピーク形状が既知のパラメータを有する選択された曲線と比較される(S370)。或る実施形では、推定濃度プロファイルは、正規化され、次いで1つ又はそれ以上の事前に求められ事前に計算された曲線と比較される。正規化は、再サンプリング手続きを通して引き伸ばすこと又は縮めることによって提供することができ、次いで、事前に計算されている曲線の幅及び中心に整合するように中心合わせされる。
【0104】
[0094]新しいデータと定義済みの曲線のセットの間の相関が次いで計算され(S380)、最適整合についての歪度値及び尖度値が、最適化のためのシードとして選択される(S390)。
【0105】
[0095]或る実施形では、ピアソン関数を使用して、事前に計算されている曲線、好適にはピアソンIV曲線が割り当てられている。ピアソンIV曲線とは、5つのパラメータ、即ち、(i)高さ、(ii)中心、(iii)幅、(iv)歪度(3次モーメント)(v)尖度(4次モーメント)、を有しているものをいう。或る実施形では、事前に計算されている曲線は、歪度と尖度の少なくとも一方の順列であり、一方で、残りのパラメータは一定に保持されており、その後、ピーク形状が記録され、それぞれの順列について保存される。他の順列が利用されてもよく、だからといって特許請求の範囲はここに開示されている例示としての実施形に限定されるものではないと理解されたい。例えば、中でもとりわけ、中心、幅、及び尖度、並びに一定の値を保持する一方で、高さと歪度は変えられてもよい。
【0106】
[0096]ここに記載されているシステム及び技法の様々な実施形は、デジタル電子回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せ、に実現させることができるものと理解されたい。これらの様々な実施形は、専用又は汎用であって、データ及び命令をストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスから受信するように、及びデータ及び命令をストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスへ送信するように、連結されている少なくとも1つのプロセッサ、を含むプログラム可能なシステム上で実施可能及び/又は翻訳可能である1つ又はそれ以上のコンピュータプログラムでの実施形を含むことができる。
【0107】
[0097]これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られている)は、プログラム可能なプロセッサのための機械命令を含み、高級手続き型及び/又はオブジェクト指向型プログラミング言語に、及び/又はアセンブリ/機械言語に、実装されてもよい。ここでの使用に際し、「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含め、機械命令及び/又はデータをプログラム可能なプロセッサへ提供するのに使用される何れのコンピュータプログラム製品、装置、及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))をも指す。「機械可読信号」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサへ提供するのに使用される何れの信号をも指す。
【0108】
[0098]ユーザーとの対話を提供するために、ここに記載のシステム及び技法は、情報をユーザーへ表示するためのディスプレイデバイス(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザーが入力をコンピュータへ提供できるようにするキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と、を有するコンピュータ上に実装することができる。ユーザーとの対話を提供するのに同様に他の種類のデバイスを使用することもでき、例えば、ユーザーに提供されるフィードバックは、何らかの形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよいし、またユーザーからの入力は、音響入力、音声入力、又は触覚を用いた入力を含む何れの形態で受信されてもよい。
【0109】
[0099]ここに記載のシステム及び技法は、バックエンド構成要素(例えば、データサーバとして)を含んでいるコンピューティングシステム、又はミドルウェア構成要素(例えば、アプリケーションサーバ)を含んでいるコンピューティングシステム、又はフロントエンド構成要素(例えば、グラフィックユーザーインターフェースを有するクライアントコンピュータ、又はユーザーがここに記載のシステム及び技法の実施形と対話できるようにするウェブブラウザ)を含んでいるコンピューティングシステム、又はその様なバックエンド、ミドルウェア、又はフロントエンドの構成要素の何らかの組合せを含んでいるコンピューティングシステム、に実装することができる。システムの構成要素は、何らかの形態又は何らかの媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互接続されていてもよい。通信ネットワークの例には、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、及びインターネットが含まれる。
【0110】
[0100]コンピューティングシステムは、クライアントとサーバを含んでいよう。クライアントとサーバは、概して互いから遠隔にあり、典型的には通信ネットワークを通じて対話している。クライアントとサーバの関係は、それぞれのコンピュータ上で走っていて互いにクライアント−サーバ関係を有しているコンピュータプログラムに基づいて発生する。
【0111】
[0101]本明細書に記載の主題及び機能的動作の実施形は、デジタル電子回路構成に、又は本明細書に開示されている構造並びにそれらの構造的等価物を含むコンピュータソフトウェア、ファームウェア、又はハードウェアに、又はそれらの1つ又はそれ以上から成る組合せに、実装することができる。本明細書に記載されている主題の実施形は、1つ又はそれ以上のコンピュータプログラム製品として、即ち、データ処理装置による実行のために又はデータ処理装置の動作を制御するようにコンピュータ可読媒体上にエンコードされているコンピュータプログラム命令の1つ又はそれ以上のモジュールとして、実装することができる。コンピュータ可読媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、メモリデバイス、機械可読伝搬信号を実効化する組成物、又はそれらの1つ又はそれ以上から成る組合せであってもよい。「データ処理装置」という用語は、一例としてプログラム可能なプロセッサ、コンピュータ、又は複数のプロセッサ又はコンピュータを含め、データを処理するためのあらゆる装置、デバイス、及び機械を網羅する。装置は、ハードウェアに加え、問題のコンピュータプログラムのための実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらの1つ又はそれ以上から成る組合せ、を構成しているコードを含んでいてもよい。伝播信号は、適した受信側装置への送信に向けて情報をエンコードするために生成されている人工的に生成された信号、例えば、機械生成の電気信号、光信号、又は電磁信号である。
【0112】
[0102]コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、又はコードとしても知られている)は、コンパイル又は翻訳された言語を含む何れの形態のプログラミング言語で書かれていてもよく、また、独立型プログラムとしての形態、又はモジュール、構成要素、サブルーチン、又はコンピューティング環境での使用に適した他のユニットとしての形態、を含む何れの形態に配備されていてもよい。コンピュータプログラムは、必ずしも、ファイルシステム中のファイルに対応しているわけではない。プログラムは、ファイルの他のプログラム又はデータを保持している部分に格納されていてもよいし(例えば、マークアップ言語文書に格納されている1つ又はそれ以上のスクリプト)、又は問題のプログラム専用の単一ファイルに格納されていてもよいし、又は複数の連係ファイルに格納されていてもよい(例えば、1つ又はそれ以上のモジュール、サブプログラム、又はコードの部分、を格納している複数ファイル)。コンピュータプログラムは、1つのコンピュータ上で実行されるように配備されていてもよいし、又は1つの現場に設置されているか又は複数の現場をまたいで分散されていて通信ネットワークによって相互接続されている複数のコンピュータ上で実行されるように配備されていてもよい。
【0113】
[0103]本明細書に記載されている処理及び論理フローは、1つ又はそれ以上のコンピュータプログラムを実行して入力データに対する動作及び出力の生成によって機能を遂行させる1つ又はそれ以上のプログラム可能なプロセッサによって遂行されてもよい。処理及び論理フローは、同様に、特殊目的論理回路構成、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)によって遂行されてもよく、装置もまたその様な特殊目的論理回路構成として実装されてもよい。
【0114】
[0104]コンピュータプログラムの実行に適したプロセッサには、一例として、汎用と特殊目的の両方のマイクロプロセッサ、及び何らかの種類のデジタルコンピュータの何れか1つ又はそれ以上のプロセッサが含まれる。概して、プロセッサは、読み出し専用メモリ又はランダムアクセスメモリ又はそれら両方から命令及びデータを受信することになろう。コンピュータの必須要素は、命令を遂行するためのプロセッサと、命令及びデータを格納するための1つ又はそれ以上のメモリデバイスである。概して、コンピュータは、更に、データを格納するための1つ又はそれ以上のマスストレージデバイス、例えば、磁気ディスク、光磁気ディスク、光ディスク、を含んでいるか、又はその様なマスストレージデバイスからデータを受信する又は当該デバイスへデータを送信する又はその両方を行うように動作可能に連結されることになろう。とはいえ、コンピュータはその様なデバイスを有していなくてもよい。また、コンピュータは、別のデバイス、例えば、ほんの数例を挙げるなら、移動体電話、パーソナルデジタルアシスタント(PDA)、移動体オーディオプレーヤー、全地球測位システム(GPS)受信機、に内蔵されていてもよい。コンピュータプログラム命令及びデータを格納するのに適したコンピュータ可読媒体には、あらゆる形態の不揮発性メモリ、媒体、及びメモリデバイスが含まれ、一例として、半導体メモリデバイス、例えば、EPROM、EEPROM、及びフラッシュメモリデバイス;磁気ディスク、例えば、内部ハードディスク又はリムーバブルディスク;光磁気ディスク;及びCD ROMディスク及びDVD−ROMディスク、が挙げられる。プロセッサ及びメモリは、特殊目的論理回路構成によって補完されていてもよいし、当該論理回路構成に組み込まれていてもよい。
【0115】
[0105]ユーザーとの対話を提供するために、本明細書に記載されている主題の実施形は、情報をユーザーへ表示するためのディスプレイデバイス(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザーが入力をコンピュータへ提供できるようにするキーボード及びポインティングデバイス、例えば、マウス又はトラックボールと、を有するコンピュータ上に実装することができる。ユーザーとの対話を提供するのに同様に他の種類のデバイスを使用することもでき、例えば、ユーザーに提供されるフィードバックは、何らかの形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック、であってもよいし、またユーザーからの入力は、音響入力、音声入力、又は触覚を用いた入力を含む何れの形態で受信されてもよい。
【0116】
[0106]本明細書は多くの詳細を含んでいるが、これらは本発明の範囲又は特許請求されるものの範囲への限定としてではなく、むしろ本発明の特定の実施形に固有の特徴の記述として解釈されたい。本明細書中に別々の実施形に照らして記載されている一部の特定の特徴は、更に、組み合わせて単一の実施形に実施することもできる。逆に、単一の実施形に照らして記載されている様々な特徴は、同様に、複数の実施形に別々に又は何らかの適した部分的組合せに実施することもできる。また、特徴は特定の組合せで作用するものとして以上に記載されているかもしれないし、更にはそういうものとして冒頭に特許請求されているかもしれないが、特許請求されている組合せからの1つ又はそれ以上の特徴は、場合によっては、当該組合せから削除されることもあり得るし、また特許請求されている組合せは、部分的組合せ又は部分的組合せの変型へ向けられてもよい。
【0117】
[0107]同様に、動作は図面では特定の順序に描かれているが、このことは、その様な動作が示されている特定の順序で又は連続した順序で遂行されること、又は所望の結果を実現するのに例示されている動作全てが遂行されること、を要求しているものと理解されてはならない。一部の特定の状況では、マルチタスク処理及び並列処理が有利であるかもしれない。また、上述の実施形の様々なシステム構成要素の分離は、その様な分離が全ての実施形で要求されているものと理解されてはならず、また、記載のプログラム構成要素及びシステムは、概して、一体に単一のソフトウェア製品に統合することもできるし、又は複数のソフトウェア製品へパッケージ化することもできるものと理解されたい。
【0118】
[0108]以上、数多くの実施形を説明してきた。とはいえ、本開示の精神及び範囲から逸脱することなく様々な修正がなされる余地のあることが理解されるであろう。例えば、以上に示されているフローの様々な形態は、諸段階を順序換えしたり、追加したり、或いは除去して使用されてもよい。また、本システム及び方法の幾つかの応用を説明してきたが、数々の他の応用が企図されるものと認識されたい。従って、他の実施形は、付随の特許請求の範囲による範囲内にある。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19