(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025018979
(43)【公開日】2025-02-06
(54)【発明の名称】化合物アセンブリ
(51)【国際特許分類】
G01N 27/62 20210101AFI20250130BHJP
H01J 49/00 20060101ALI20250130BHJP
【FI】
G01N27/62 D
H01J49/00 400
H01J49/00 360
【審査請求】有
【請求項の数】22
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024115467
(22)【出願日】2024-07-19
(31)【優先権主張番号】63/528,253
(32)【優先日】2023-07-21
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】508306565
【氏名又は名称】サーモ フィッシャー サイエンティフィック (ブレーメン) ゲーエムベーハー
(71)【出願人】
【識別番号】501192059
【氏名又は名称】サーモ フィニガン リミテッド ライアビリティ カンパニー
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100119013
【弁理士】
【氏名又は名称】山崎 一夫
(74)【代理人】
【識別番号】100130937
【弁理士】
【氏名又は名称】山本 泰史
(74)【代理人】
【識別番号】100144451
【弁理士】
【氏名又は名称】鈴木 博子
(74)【代理人】
【識別番号】100224672
【弁理士】
【氏名又は名称】深田 孝徳
(72)【発明者】
【氏名】マルティン シュトローハルム
(72)【発明者】
【氏名】ラルフ タウテンハーン
(57)【要約】
【課題】質量スペクトルデータを処理する方法を提供する。
【解決手段】質量スペクトルデータは、複数のMS
1質量スペクトル及び複数のMS
N質量スペクトルを含み、各質量スペクトルは、それぞれの関連する保持時間を有する。方法は、複数のMS
1質量スペクトル内の特徴のグループを検出することを含み、グループの各特徴は、それぞれの質量を有し、グループの特徴は、対応する保持時間を有する。方法は、グループの1つ以上の特徴の各々について、(i)その特徴についての識別結果を取得するために、対応するMS
N質量スペクトルを質量スペクトル検索エンジンにかけることと、(ii)特徴に関連付けられた質量と、識別結果からの予想された質量との間の質量差に基づいて、特徴についての候補イオンタイプを決定することと、を含む。方法は、特徴のグループ、及び候補イオンタイプに基づいて、1つ以上の化合物を識別することを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
質量スペクトルデータを処理する方法であって、前記質量スペクトルデータは、複数のMS1質量スペクトル及び複数のMSN(N≧2)質量スペクトルを含み、各質量スペクトルは、それぞれの関連する保持時間を有し、前記方法は、
前記複数のMS1質量スペクトル内の特徴のグループを検出することであって、前記グループの各特徴は、それぞれの質量を有し、前記グループの前記特徴は、対応する保持時間を有する、検出することと、
前記グループの1つ以上の特徴の各々について、(i)その特徴についての識別結果を取得するために、対応するMSN質量スペクトルを質量スペクトル検索エンジンにかけることと、(ii)前記特徴に関連付けられた前記質量と、前記識別結果からの予想された質量との間の質量差に基づいて、前記特徴についての候補イオンタイプを決定することと、次いで、
特徴の前記グループ、及び前記候補イオンタイプに基づいて、1つ以上の化合物を識別することと、を含む、方法。
【請求項2】
(ii)前記特徴についての候補イオンタイプを決定するステップは、前記特徴の前記質量と、前記識別結果からの前記予想された質量との間の前記質量差に基づいて、前記特徴についての候補付加イオンタイプを決定することを含む、請求項1に記載の方法。
【請求項3】
前記質量スペクトルデータは、少なくとも1つのサンプルファイルを含み、各サンプルファイルは、それぞれのクロマトグラフ分離スキャンに対応し、かつ複数のMS1質量スペクトル及び複数のMSN質量スペクトルを含み、前記複数のMS1質量スペクトル内の特徴のグループを検出するステップは、
各サンプルファイルについて、そのサンプルファイル内の、複数のファイル毎の特徴を検出することであって、各ファイル毎の特徴は、それぞれの質量及びそれぞれの保持時間を有する、検出することと、
前記ファイル毎の特徴から複数の特徴を形成することであって、各特徴は、それぞれの質量及びそれぞれの保持時間を有する、形成することと、
対応する保持時間を有する特徴をグループ化することによって、特徴のグループを形成することと、を含む、請求項1又は2に記載の方法。
【請求項4】
サンプルファイル内の複数のファイル毎の特徴を検出する前記ステップは、
前記サンプルファイルの前記複数のMS1質量スペクトルから複数のクロマトグラムを構築することであって、各クロマトグラムは、それぞれの質量電荷比(m/z)を有する、構築することと、
各クロマトグラムについての特徴的な保持時間を決定することと、
対応する特徴的な保持時間を有するクロマトグラムをクロマトグラムの1つ以上のセットにグループ化することと、
ファイル毎の特徴のグループを形成するように、同位体除去アルゴリズムをクロマトグラムの各セットに適用することと、を含む、請求項3に記載の方法。
【請求項5】
対応する保持時間を有する特徴をグループ化するステップは、第1の許容範囲内で等しい保持時間を有する特徴をグループ化することを含み、
対応する特徴的な保持時間を有するクロマトグラムをグループ化するステップは、第2の許容範囲内で等しい保持時間を有するクロマトグラムをグループ化することを含み、
前記第2の許容範囲は、前記第1の許容範囲よりも小さい、請求項4に記載の方法。
【請求項6】
前記質量スペクトルデータは、複数のサンプルファイルを含み、前記複数の特徴の各特徴は、対応する質量及び対応する保持時間を有するファイル毎の特徴をグループ化することによって形成される、請求項3、4、又は5に記載の方法。
【請求項7】
特徴の各グループは、各サンプルファイル内の、ファイル毎の特徴の対応するグループから形成されており、特徴の前記グループに基づいて、1つ以上の化合物を識別する前記ステップは、
それぞれのサンプルファイル内のファイル毎の特徴の各グループについて、
(i)ファイル毎の特徴の1つ以上のクラスタを決定することであって、ファイル毎の特徴の各クラスタは、前記グループの1つ以上のファイル毎の特徴を含み、場合によっては、それぞれの化合物に対応する、決定することと、
(ii)ファイル毎の特徴の前記グループについて、ファイル毎の特徴の前記クラスタの1つ以上の配置を決定することであって、各配置は、ファイル毎の特徴の1つ以上の競合しないクラスタを含む、決定することと、
(iii)ファイル毎の特徴の前記グループについて、ファイル毎の特徴のクラスタの前記1つ以上の配置から好ましい配置を選択することと、
次いで、前記複数のサンプルファイルについての前記好ましい配置に基づいて、
(iv)特徴の前記グループについて、特徴のクラスタの1つ以上の配置を決定することであって、特徴の各クラスタは、特徴の前記グループの1つ以上の特徴を含み、場合によっては、それぞれの化合物に対応しており、各配置は、特徴の1つ以上の競合しないクラスタを含む、決定することと、
(v)特徴の前記グループについて、特徴のクラスタの前記1つ以上の配置から好ましい配置を選択することと、次いで、
特徴のクラスタの前記好ましい配置に基づいて、1つ以上の化合物を識別することと、を含む、請求項6に記載の方法。
【請求項8】
質量スペクトルデータを処理する方法であって、前記質量スペクトルデータは、複数のサンプルファイルを含み、各サンプルファイルは、複数のMS1質量スペクトル及び複数のMSN(N≧2)質量スペクトルを含み、各質量スペクトルは、それぞれの関連する保持時間を有し、前記方法は、
各サンプルファイルについて、そのサンプルファイルの前記MS1質量スペクトル内の、複数のファイル毎の特徴を検出することであって、各ファイル毎の特徴は、それぞれの質量及びそれぞれの保持時間を有する、検出することと、
対応する質量及び対応する保持時間を有するファイル毎の特徴をグループ化することによって、前記ファイル毎の特徴から複数の特徴を形成することと、
対応する保持時間を有する特徴をグループ化し、かつ各サンプルファイル内のファイル毎の特徴の対応するグループを形成することによって、特徴のグループを形成することと、次いで、
それぞれのサンプルファイル内のファイル毎の特徴の各グループについて、
(i)ファイル毎の特徴の1つ以上のクラスタを決定することであって、ファイル毎の特徴の各クラスタは、前記グループの1つ以上のファイル毎の特徴を含み、場合によっては、それぞれの化合物に対応する、決定することと、
(ii)ファイル毎の特徴の前記グループについて、ファイル毎の特徴の前記クラスタの1つ以上の配置を決定することであって、各配置は、ファイル毎の特徴の1つ以上の競合しないクラスタを含む、決定することと、
(iii)ファイル毎の特徴の前記グループについて、ファイル毎の特徴のクラスタの前記1つ以上の配置から好ましい配置を選択することと、
次いで、前記複数のサンプルファイルについての前記好ましい配置に基づいて、
(iv)特徴の前記グループについて、特徴のクラスタの1つ以上の配置を決定することであって、特徴の各クラスタは、特徴の前記グループの1つ以上の特徴を含み、場合によっては、それぞれの化合物に対応しており、各配置は、特徴の1つ以上の競合しないクラスタを含む、決定することと、
(v)特徴の前記グループについて、特徴のクラスタの前記1つ以上の配置から好ましい配置を選択することと、次いで、
特徴のクラスタの前記好ましい配置に基づいて、1つ以上の化合物を識別することと、を含む、方法。
【請求項9】
ファイル毎の特徴の1つ以上のクラスタを決定するステップは、それぞれのサンプルファイル内のファイル毎の特徴の各グループについて、
1つ以上の候補イオンタイプを前記グループの各ファイル毎の特徴に割り当てることと、
前記グループのファイル毎の特徴間の1つ以上の候補関係を決定することと、
前記候補イオンタイプと前記候補関係との間の任意の競合を解決することと、を含む、請求項7又は8に記載の方法。
【請求項10】
各ファイル毎の特徴は、それぞれの電荷を有しており、1つ以上の候補イオンタイプを前記グループの各ファイル毎の特徴に割り当てる前記ステップは、
識別されたイオンタイプを、識別結果が取得された特徴に対応する前記グループの任意のファイル毎の特徴に割り当てること、及び/又は
前記ファイル毎の特徴の前記それぞれの電荷に基づいて、ユーザ定義された塩基イオンタイプ、若しくはデフォルトイオンタイプを、前記グループの各ファイル毎の特徴に割り当てること、を含む、請求項9に記載の方法。
【請求項11】
1つ以上の候補イオンタイプを前記グループの各ファイル毎の特徴に割り当てる前記ステップは、ソース内断片イオンタイプを、前記グループ内の別のファイル毎の特徴の予想されたソース内断片の質量に対応する前記質量を有する前記グループの任意のファイル毎の特徴に割り当てることを含み、かつ/又は
前記グループのファイル毎の特徴間の1つ以上の候補関係を決定する前記ステップは、前記ファイル毎の特徴が他のファイル毎の特徴の予想されたソース内断片の質量に対応する前記質量を有するときに、前記グループのファイル毎の特徴と、前記グループの別のファイル毎の特徴との間のソース内断片関係を決定することを含む、請求項9又は10に記載の方法。
【請求項12】
ファイル毎の特徴の予想されたソース内断片の前記質量を取得することであって、
ファイル毎の特徴の予想されたソース内断片の前記質量を、前記ファイル毎の特徴に対応するMSN質量スペクトルから決定することによる、取得すること、を更に含む、請求項11に記載の方法。
【請求項13】
ファイル毎の特徴の予想されたソース内断片の前記質量を取得することであって、
特徴についての前記識別結果の一部として、前記特徴の1つ以上の予想されたソース内断片の前記質量を提供することによる、取得すること、を更に含む、請求項11又は12に記載の方法。
【請求項14】
質量スペクトルデータを処理する方法であって、前記質量スペクトルデータは、複数のMS1質量スペクトル及び複数のMSN(N≧2)質量スペクトルを含み、各質量スペクトルは、それぞれの関連する保持時間を有し、前記方法は、
前記複数のMS1質量スペクトル内の特徴のグループを検出することであって、前記グループの各特徴は、それぞれの質量を有し、前記グループの前記特徴は、対応する保持時間を有する、検出することと、
前記グループの1つ以上の特徴の各々について、(i)その特徴についての識別結果を取得するために、対応するMSN質量スペクトルを質量スペクトル検索エンジンにかけることと、(ii)前記識別結果の一部として、前記特徴の1つ以上の予想されたソース内断片の前記質量を提供することと、
ソース内断片イオンタイプを、前記グループ内の別の特徴の予想されたソース内断片の質量に対応する前記質量を有する前記グループの任意の特徴に割り当てることと、
特徴の前記グループ、及び前記ソース内断片イオンタイプに基づいて、1つ以上の化合物を識別することと、を含む、方法。
【請求項15】
前記識別結果の一部として提供された前記質量は、ソース内断片化をシミュレートするように構成された1つ以上のMSN質量スペクトルから決定される、請求項13又は14に記載の方法。
【請求項16】
前記グループのファイル毎の特徴間の1つ以上の候補関係を決定する前記ステップは、
前記グループのファイル毎の特徴間の許容された質量シフトに基づいて、前記グループのファイル毎の特徴間の1つ以上の候補付加物関係を決定することを含む、請求項9~15のいずれか一項に記載の方法。
【請求項17】
クラスタの前記1つ以上の配置からクラスタの好ましい配置を選択する前記ステップは、
クラスタの各配置についてのスコアを決定することと、
最も高いスコアを有する前記配置を選択することと、を含む、請求項7~16のいずれか一項に記載の方法。
【請求項18】
クラスタの各配置についてのスコアを決定する前記ステップは、
前記配置における各クラスタについてのクラスタスコアを決定することであって、(i)前記クラスタの各候補イオンタイプ割り当てに重み係数を割り当てること、(ii)前記クラスタの各候補関係に関係スコアを割り当てること、並びに(iii)前記重み係数及び関係スコアの合計を、前記クラスタ内の特徴又はファイル毎の特徴の数で除算することによって前記クラスタについてのクラスタスコアを計算すること、による、決定することと、
前記配置についての前記クラスタスコアの前記合計を、前記配置内のクラスタの前記数で除算することによって、各配置についてのスコアを決定することと、を含む、請求項17に記載の方法。
【請求項19】
質量測定の方法であって、
サンプルを分析して、複数のMS1質量スペクトル及び複数のMSN質量スペクトルを含む質量スペクトルデータを取得することであって、各質量スペクトルは、それぞれの関連する保持時間を有する、取得することと、
請求項1~18のいずれか一項に記載の方法を使用して、前記質量スペクトルデータを処理することと、を含む、方法。
【請求項20】
プロセッサ上で実行されるとき、請求項1~19のいずれか一項に記載の方法を行うコンピュータソフトウェアコードを記憶する、非一時的コンピュータ可読記憶媒体。
【請求項21】
分析機器のための制御システムであって、前記制御システムは、前記分析機器に、請求項1~19のいずれか一項に記載の方法を行わせるように構成されている、制御システム。
【請求項22】
請求項21に記載の制御システムを備える、分析機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、質量測定の分野に関し、より詳細には、質量スペクトルデータを処理する方法に関する。
【背景技術】
【0002】
ソフトイオン化技術の発見により、小分子、ペプチド、及びタンパク質をそのままの状態で質量測定分析が可能になってから、かなりの時間が経過している。これらの技術を使用すると、ソース内の断片化が非常に制限され、取得されたスペクトルを大幅に単純化する。しかしながら、単一の化合物は、依然として、一連の質量電荷比(m/z)信号に表れる。これらの信号には、同位体の他に、溶媒付加物、ホモ二量体又はヘテロ二量体、異なる電荷状態、及び任意の残りのソース内断片が含まれる。これらの複数のm/z信号を正確に「アセンブリ」することは、定性分析及び定量分析の両方において重要なステップである。
【0003】
質量スペクトルデータを処理するための方法には、まだ改善の余地が残っていると考えられる。
【発明の概要】
【0004】
サンプルのための質量スペクトルデータを処理する方法が提供される。質量スペクトルデータは、複数のMS1質量スペクトル及び複数のMSN質量スペクトルを含み、複数のMS1質量スペクトル及び複数のMSN質量スペクトルの各質量スペクトルは、それぞれの関連する保持時間を有する。方法は、複数のMS1質量スペクトル内の特徴のグループを検出することであって、グループの各特徴は、それぞれの質量を有し、グループの特徴は、対応する保持時間を有する、検出すること、を含む。方法は、特徴のグループに基づいて、サンプル中の1つ以上の化合物を識別することを含む。
【0005】
以下で更に詳細に説明されるように、様々な実施形態が、質量スペクトルデータを処理する改善された方法を提供する。
【0006】
複数の実施形態では、質量スペクトルデータは、クロマトグラフ分離デバイス(液体クロマトグラフィ(liquid chromatography、LC)分離デバイス又はガスクロマトグラフィ(gas chromatography、GC)分離デバイスなど)及び質量測定器を備える、分析機器によって生成される。クロマトグラフ分離デバイスは、クロマトグラフ分離スキャンにおいてサンプルを分離することができ、質量測定器は、クロマトグラフ分離スキャン中に質量スペクトルデータを取得することができる。したがって、複数のMS1質量スペクトル及び複数のMSN質量スペクトルの各質量スペクトルは、それぞれの関連する保持時間を有することになり、すなわち、各質量スペクトルは、クロマトグラフ分離スキャン中に、それぞれのクロマトグラフ保持時間において取得されていることになる。
【0007】
以下で更に説明されるように、いくつかの実施形態では、各MSN質量スペクトルは、MS2質量スペクトルである。しかしながら、各MSNは、代わりに、MS3スペクトルなどのより高次の断片化スペクトルであり得る。一般に、Nは、整数≧2である。
【0008】
質量スペクトルデータは、少なくとも1つのサンプルファイルから構成されてもよく(すなわち、それらから形成されてもよく)、各サンプルファイルは、それぞれのクロマトグラフ分離スキャンからの質量測定器から出力されたデータである。各サンプルファイルの質量スペクトルデータは、複数のMS1質量スペクトルのうちの複数のMS1質量スペクトルと、複数のMSN質量スペクトルのうちの複数のMSN質量スペクトルと、を含み得る。質量スペクトルデータは、単一のそのようなサンプルファイル、又は複数のサンプルファイルを含み得る。複数のサンプルファイルが存在する場合、各サンプルファイルは、同じサンプルの異なる分別についてのクロマトグラフ分離スキャンから取得され得る。
【0009】
方法は、複数のMS1質量スペクトル内の特徴のグループを検出することを含む。グループの各特徴は、それぞれの質量、及びそれに関連付けられるそれぞれの保持時間を有し得る。グループの特徴は、対応する(例えば、第1の許容範囲内で等しい)保持時間を有し得るが、異なる質量を有し得る。方法は、複数のMS1質量スペクトル内の特徴の1つ以上の更なるグループを検出することを含み得、各それぞれの異なるグループは、それぞれの異なる保持時間を有する。特徴の単一のグループのみを処理することは、以下で詳細に説明されるが、特徴の更なる各グループが同様の方法で処理され得ることが理解されるであろう。
【0010】
いくつかの実施形態では、特徴の各グループは、最初に複数のMS1質量スペクトル内の特徴を検出し、次いで、対応する(すなわち、第1の許容範囲内で等しい)保持時間を有する検出された特徴をグループ化することによって検出される。そして次に、特徴は、最初に各サンプルファイルのMS1質量スペクトル内のファイル毎の特徴を検出し、次いで、対応する質量及び保持時間を有するサンプルファイルにわたってファイル毎の特徴(feature-per-file)をグループ化して特徴を形成することによって、複数のMS1質量スペクトル内で検出され得る。
【0011】
したがって、複数のMS1質量スペクトル内の特徴のグループを検出するステップは、
各サンプルファイルについて、そのサンプルファイル内の複数のファイル毎の特徴を検出することであって、各ファイル毎の特徴は、それぞれの質量及びそれぞれの保持時間を有する、検出することと、
ファイル毎の特徴から複数の特徴を形成することであって、各特徴は、それぞれの質量及びそれぞれの保持時間を有する、形成することと、
対応する保持時間を有する特徴をグループ化することによって、特徴のグループを形成することと、を含み得る。
【0012】
これらの実施形態では、サンプルファイル内の各ファイル毎の特徴は、最初にサンプルファイルの複数のMS1質量スペクトル内の各固有の質量電荷比(m/z)についてのクロマトグラムを構築し、各クロマトグラムについての特徴的な保持時間を決定することによって検出され得る。クロマトグラムについての特徴的な保持時間は、クロマトグラムの中心又は頂点における保持時間であり得、例えば、ピーク検出アルゴリズム又は同様のものを使用して、決定され得る。次いで、クロマトグラムは、それらの特徴的な保持時間に応じてセットにグループ化され得、同位体除去アルゴリズムは、ファイル毎の特徴のグループを形成するために、クロマトグラムの各セットに適用され得る。
【0013】
したがって、各ファイル毎の特徴は、質量及び保持時間の固有の組み合わせを有する、同位体除去されたMS1質量スペクトルデータ内に現れる特徴である。次いで、ファイル毎の特徴の各グループの、各ファイル毎の特徴は、それぞれの質量及びそれぞれの保持時間を有することになり、各グループのファイル毎の特徴は、対応する(すなわち、第2の許容範囲内で同じ)保持時間を有することになる。
【0014】
同様に、サンプルファイル内の複数のファイル毎の特徴を検出するステップは、
サンプルファイルの複数のMS1質量スペクトルから複数のクロマトグラムを構築することであって、各クロマトグラムは、それぞれの質量電荷比(m/z)を有する、構築することと、
各クロマトグラムについての特徴的な保持時間を決定することと、
対応する特徴的な保持時間を有するクロマトグラムをクロマトグラムの1つ以上のセットにグループ化することと、
同位体除去アルゴリズムをクロマトグラムの各セットに適用して、ファイル毎の特徴のグループを形成することと、を含み得る。
【0015】
上述したように、特徴の各グループ内の特徴は、第1の許容範囲内で等しい保持時間を有し得、一方、ファイル毎の特徴の各グループにおけるファイル毎の特徴は、第2の許容範囲内で等しい保持時間を有し得る。第2の許容範囲は、第1の許容範囲よりも小さくてもよい。以下で更に説明されるように、これは、異なるサンプルファイル間の保持時間差を適切に説明する効果を有する。
【0016】
したがって、対応する保持時間を有する特徴をグループ化するステップは、第1の許容範囲内で等しい保持時間を有する特徴をグループ化することを含み得、
対応する特徴的な保持時間を有するクロマトグラムをグループ化するステップは、第2の許容範囲内で等しい保持時間を有するクロマトグラムをグループ化することを含み得、
第2の許容範囲は、第1の許容範囲よりも小さくてもよい。
【0017】
いくつかの実施形態では、方法は、特徴のグループの1つ以上の特徴の各々について、(i)その特徴について識別結果を取得するために、対応するMSN質量スペクトルを質量スペクトル検索エンジンにかけることと、(ii)特徴に関連付けられた質量と、識別結果からの予想された質量との間の任意の質量差に基づいて、特徴についての候補イオンタイプ(候補付加イオンタイプなど)を決定することと、を含む。この場合、サンプル内の1つ以上の化合物を識別するステップは、特徴のグループと候補(付加)イオンタイプとの両方に基づき得る。
【0018】
これらの実施形態では、ステップ(i)及び(ii)は、対応するMSNデータが質量スペクトルデータにおいて利用可能である、グループのそれらの特徴について実施され得る。複数のサンプルファイルが存在する場合、対応するMSN質量スペクトルが、サンプルファイルのうちのいずれかから取得され得る。したがって、特徴に対応するMSN質量スペクトルは、その特徴に対応するファイル毎の特徴のうちのいずれか1つについての(複数のMSN質量スペクトルからの)MSNスペクトルであり得る。
【0019】
上述したように、質量スペクトルデータが単一のサンプルファイルのみを含むことが可能であり、その場合、複数の特徴の各特徴は、複数のファイル毎の特徴のうちの、ファイル毎の1つの特徴から形成される。
【0020】
これらの実施形態では、特徴のグループに基づいて、1つ以上の化合物を識別するステップは、(i)特徴の1つ以上のクラスタを決定することであって、特徴の各クラスタは、グループの1つ以上の特徴を含み、場合によっては、それぞれの(単一の)化合物に対応する、決定することと、(ii)特徴のグループについて、特徴のクラスタの1つ以上の配置を決定することであって、各配置は、特徴の1つ以上の競合しないクラスタを含む、決定することと、(iii)特徴のグループについて、特徴のクラスタの1つ以上の配置から好ましい配置を選択することと、次いで、
特徴のクラスタの好ましい配置に基づいて、1つ以上の化合物を識別することと、を含み得る。
【0021】
しかしながら、特定の実施形態では、質量スペクトルデータは、複数のサンプルファイルを含み、複数の特徴の各特徴は、対応する質量及び対応する保持時間を有するサンプルファイルにわたってファイル毎の特徴をグループ化することによって形成される。この場合、特徴の各グループについて、複数のサンプルファイルの各サンプルファイル内に、ファイル毎の特徴の対応するグループが存在する。
【0022】
次いで、特徴のグループに基づいて、1つ以上の化合物を識別するステップは、
それぞれのサンプルファイル内のファイル毎の特徴の各グループについて、
(i) ファイル毎の特徴の1つ以上のクラスタを決定することであって、ファイル毎の特徴の各クラスタは、グループの1つ以上のファイル毎の特徴を含み、場合によっては、それぞれの化合物に対応する、決定することと、
(ii) ファイル毎の特徴のグループについて、ファイル毎の特徴のクラスタの1つ以上の配置を決定することであって、各配置は、ファイル毎の特徴の1つ以上の競合しないクラスタを含む、決定することと、
(iii) ファイル毎の特徴のグループについて、ファイル毎の特徴のクラスタの1つ以上の配置からの好ましい配置を選択することと、
次いで、複数のサンプルファイルについての好ましい配置に基づいて、
(iv) 特徴のグループについて、特徴のクラスタの1つ以上の配置を決定することであって、特徴の各クラスタは、特徴のグループの1つ以上の特徴を含み、場合によっては、それぞれの化合物に対応し、各配置は、特徴の1つ以上の競合しないクラスタを含む、決定することと、
(v) 特徴のグループについて、特徴のクラスタの1つ以上の配置から好ましい配置を選択することと、次いで、
特徴のクラスタの好ましい配置に基づいて、1つ以上の化合物を識別することと、を含み得る。
【0023】
以下で更に詳細に説明されるように、最初に各サンプルファイルに関して好ましい配置を決定し、次いで、異なるサンプルファイルからの好ましい配置間の任意の競合を解決するというこの2段階プロセスは、複数のサンプルファイルが存在する場合、化合物識別の信頼度及び一貫性を高める効果を有する。
【0024】
いくつかの実施形態では、ファイル毎の特徴の1つ以上のクラスタを決定するステップは、それぞれのサンプルファイル内の、ファイル毎の特徴の各グループについて、
1つ以上の候補イオンタイプをグループの各ファイル毎の特徴に割り当てることと、
グループのファイル毎の特徴間の1つ以上の候補関係を決定することと、
グループについての候補イオンタイプと候補関係との間の任意の競合を解決することと、を含み得る。
【0025】
これらの実施形態では、1つ以上の候補イオンタイプを、グループの各ファイル毎の特徴に割り当てるステップは、複数の異なるカテゴリからの1つ以上の候補イオンタイプをグループの各ファイル毎の特徴に割り当てることを含み得る。候補イオンタイプカテゴリには、例えば、(i)識別されたイオンタイプ、(ii)ユーザ定義された塩基イオンタイプ、(iii)デフォルトイオンタイプ、及び(iv)ソース内断片イオンタイプが含まれ得る。
【0026】
同様に、グループのファイル毎の特徴間の1つ以上の候補関係(又は「遷移」)を決定するステップは、関係の複数の異なるカテゴリから1つ以上の候補関係を決定することを含み得る。関係のカテゴリには、例えば、(i)ソース内断片関係、及び(ii)付加物関係が含まれ得る。
【0027】
したがって、例えば、グループの各ファイル毎の特徴は、それぞれの電荷を有し得、1つ以上の候補イオンタイプを、グループの各ファイル毎の特徴に割り当てるステップは、
識別されたイオンタイプを、識別結果が取得された特徴に対応するグループの任意のファイル毎の特徴に割り当てること、及び/又は
ファイル毎の特徴のそれぞれの電荷に基づいて、ユーザ定義された塩基イオンタイプ又はデフォルトイオンタイプをグループの各ファイル毎の特徴に割り当てることを含み得る。
【0028】
追加的又は代替的に、1つ以上の候補イオンタイプを、グループの各ファイル毎の特徴に割り当てるステップは、ソース内の断片イオンタイプを、グループ内の別のファイル毎の特徴の予想されたソース内断片の質量に対応する質量を有する、グループの任意のファイル毎の特徴に割り当てることを含み得る。
【0029】
この場合、グループのファイル毎の特徴間の1つ以上の候補関係を決定するステップは、ファイル毎の特徴が他のファイル毎の特徴の予想されたソース内断片の質量に対応する質量を有する場合(又は、同様な意味合いで、他のファイル毎の特徴がファイル毎の特徴の予想されたソース内断片の質量に対応する質量を有する場合)、グループのファイル毎の特徴と、グループの別のファイル毎の特徴との間のソース内断片関係を決定することを含み得る。
【0030】
これらの実施形態では、ファイル毎の特徴の1つ以上の予想されたソース内断片の質量は、ファイル毎のその特徴に対応するMSN質量スペクトルから(複数のMSN質量スペクトルから)決定され得る。
【0031】
代替的に、方法は、特徴についての識別結果の一部として、その特徴の1つ以上の予想されたソース内断片の質量を提供することを含み得る。この場合、ファイル毎の特徴の1つ以上の予想されたソース内断片の質量は、提供された質量から導出され得る。
【0032】
更に、識別結果の一部として提供された質量は、ソース内断片化をシミュレートするように構成された1つ以上のMSN質量スペクトルから決定され得る。以下で更に詳細に説明されるように、このようにして特化したMSN質量スペクトルを使用することによって、ソース内断片化の識別は、大幅に改善され得る。
【0033】
いくつかの実施形態では、グループのファイル毎の特徴間の1つ以上の候補関係を決定するステップは、グループのファイル毎の特徴の質量間の許容された質量シフトに基づいて、グループのファイル毎の特徴間の1つ以上の候補付加物関係を決定することを含み得る。
【0034】
実施形態では、全ての可能な候補イオンタイプ及び候補関係がファイル毎の特徴のグループについて決定されると、任意の競合が解決される。
【0035】
いくつかの実施形態では、候補イオンタイプと候補関係との間の任意の競合を解決するステップは、
識別されたイオンタイプとして割り当てられたファイル毎の特徴と競合する任意の候補関係を除去すること(例えば、識別されたイオンタイプとして割り当てられたファイル毎の特徴と競合する任意の候補付加物関係を除去すること、及び/若しくは任意の候補ソース内断片関係を除去すること)、並びに/又は
任意の違反している候補ソース内断片関係を除去すること、を含み得る。
【0036】
上述したように、いくつかの実施形態では、方法は、それぞれのサンプルファイル内のファイル毎の特徴の各グループについての、ファイル毎の特徴の1つ以上のクラスタを決定することを含む。各々のそのような決定されたクラスタは、それぞれの化合物に潜在的に対応し得る。
【0037】
したがって、実施形態では、ファイル毎の特徴の1つ以上のクラスタを決定するステップは、
ファイル毎の特徴のほとんど又は全ての可能なクラスタを決定すること、次いで、
任意の無効なクラスタを除去すること、並びに/又は
ユーザ定義された塩基イオンとして割り当てられたファイル毎の特徴を含まない任意のクラスタを除去することを含み得る。
【0038】
また上述したように、方法は、各グループについての(ファイル毎の特徴の、又は特徴の)クラスタの1つ以上の配置を決定すること、次いで、配置のうちの1つを、好ましい配置として選択することを含み得る。各々のそのような配置は、互いに競合しない1つ以上のクラスタを含む。競合するクラスタを有しない任意のクラスタは、更に処理することなく、好ましい配置において直ちに使用され得る。
【0039】
したがって、(ファイル毎の特徴の、又は特徴の)クラスタの1つ以上の配置を決定するステップは、
クラスタが1つ以上の他のクラスタと競合するかどうかを判定することと、
クラスタが他のいずれのクラスタとも競合しないと判定されるときに、グループについてのクラスタの好ましい配置においてそのクラスタを使用することと、を含み得る。
【0040】
これに反して、競合するクラスタが存在する場合、これらは、互いに解決されなければならない。実施形態では、これは、クラスタの複数の異なる配置を決定すること、各配置にスコアを与えること、及び最も高いスコアを有する配置を好ましい配置として選択することによって行われる。
【0041】
したがって、クラスタの1つ以上の配置から(ファイル毎の特徴の、又は特徴の)クラスタの好ましい配置を選択するステップは、
クラスタの各配置についてのスコアを決定することと、
最も高いスコアを有する配置を選択することと、を含み得る。
【0042】
クラスタの各配置についてのスコアを決定するステップは、
配置における各クラスタについてのクラスタスコアを決定することであって、(i)重み係数をクラスタの各候補イオンタイプ割り当てに割り当てること、(ii)関係スコアをクラスタの各候補関係に割り当てること、並びに(iii)重み係数及び関係スコアの合計を、クラスタ内の特徴又はファイル毎の特徴の数で除算することによって、クラスタについてのクラスタスコアを計算することによる、決定することと、
配置についてのクラスタスコアの合計を、配置におけるクラスタの数で除算することによって、各配置についてのスコアを決定することと、を含み得る。
【0043】
更なる態様は、質量測定の方法を提供し、この質量分析法は、
複数のMS1質量スペクトル及び複数のMSN質量スペクトルを含む質量スペクトルデータを取得するようにサンプルを分析することであって、各質量スペクトルは、それぞれの関連する保持時間を有する、分析することと、
上述の方法を使用して質量スペクトルデータを処理することと、を含む。
【0044】
更なる態様は、プロセッサ上で実行されたとき、上述の方法を行うコンピュータソフトウェアコードを記憶する非一時的コンピュータ可読記憶媒体を提供する。
【0045】
更なる態様は、質量測定器などの分析機器のための制御システムを提供し、制御システムは、分析機器に、上述の方法を実施させるように構成される。
【0046】
更なる態様は、上述の制御システムを備える、質量測定器などの分析機器を提供する。
【0047】
次に、添付の図面を参照して、様々な実施形態をより詳細に記載する。
【図面の簡単な説明】
【0048】
【
図1】実施形態に従って動作することができる質量測定器を概略的に示す。
【
図3】複数の特徴を含むメイン関係グラフを表現したものを示す。
【
図4】複数のファイル毎の特徴を含む、ファイル毎の関係グラフを表現したものを示す。
【
図5A】識別されたイオンタイプを有する、ファイル毎の特徴を表現したものを示す。
【
図5B】2つの異なるユーザ定義された塩基イオンタイプのうちのいずれかであるとしてラベル付けされている、ファイル毎の特徴を表現したものを示す。
【
図5C】デフォルトイオンタイプであるとしてラベル付けされている、ファイル毎の特徴を表現したものを示す。
【
図5D】2つの異なるユーザ定義された塩基イオンタイプ、又はソース内断片イオンのうちのいずれかであるとしてラベル付けされている、ファイル毎の特徴を表現したものを示す。
【
図6】ファイル毎の2つの特徴を備え、かつ様々な可能なイオンタイプ及び遷移を含む、ファイル毎の関係グラフを表現したものを示す。
【
図7A】ファイル毎の初期の関係グラフから無効な遷移を除去するプロセスを例示する。
【
図7B】ファイル毎の初期の関係グラフから無効な遷移を除去するプロセスを例示する。
【
図8】ファイル毎の8つの特徴を備え、かつ様々な可能なイオンタイプ及び遷移を含む、ファイル毎の関係グラフを表現したものを示す。
【
図9】
図8のファイル毎の特徴から形成された様々な可能なクラスタを表現したものを示す。
【
図10】可能なクラスタの初期のセットから無効なクラスタを除去するプロセスを例示する。
【
図11】可能なクラスタの初期のセットから無効な孤立クラスタを除去するプロセスを例示する。
【
図12】無効なクラスタが除去された後の、
図8のファイル毎の特徴から形成された様々な可能なクラスタを表現したものを示す。
【
図13】
図12の様々な可能なクラスタから、ファイル毎の特徴のグループについての様々な可能な説明を決定するプロセスを例示する。
【
図14】実施形態に従って決定されたような、ファイル毎の特徴のグループについての最終的な説明を例示する。
【
図16A】従来のアセンブリ方法を使用した実験結果を例示する。
【
図16B】様々な実施形態のアセンブリ方法を使用する実験結果を例示する。
【発明を実施するための形態】
【0049】
図1は、本明細書で説明される方法と併せて使用され得る、質量測定器などの分析機器を概略的に例示している。
図1に示されるように、機器は、イオン源10、質量フィルタ20、断片化デバイス30、及び質量分析装置40を含む。
【0050】
イオン源10は、サンプルからイオンを生成するように構成されている。イオン源10は、液体クロマトグラフィ(LC)分離デバイス、ガスクロマトグラフィ(GC)分離デバイス、又はキャピラリ電気泳動分離デバイスなどのクロマトグラフ分離デバイス(図示せず)に結合され得、その結果、イオン源10内でイオン化されるサンプルは、分離デバイスからもたらされる。イオン源10は、エレクトロスプレーイオン化(electrospray ionisation、ESI)イオン源、大気圧イオン化(atmospheric pressure ionisation、API)イオン源、化学イオン化イオン源、電子衝撃(electron impact、EI)イオン源、又は同様のものなどの任意の好適なイオン源であってもよい。
【0051】
質量フィルタ20は、イオン源10の下流に配置され、イオン源10からイオンを受け取るように構成されている。質量フィルタ20は、受け取ったイオンを、それらの質量電荷比(m/z)に従ってフィルタリングするように構成されている。質量フィルタ20は、質量フィルタのm/z移送ウィンドウ内のm/zを有する受け取ったイオンが質量フィルタによって前方に移送される一方で、m/z移送ウィンドウ外のm/zを有する受け取ったイオンが質量フィルタによって減衰するように、すなわち、質量フィルタによって前方に移送されないように、構成され得る。移送ウィンドウの幅及び/又は中心m/zは、例えば、質量フィルタ20の電極に印加されるRF及び/又はDC電圧の好適な制御によって、制御可能(可変)とすることができる。したがって、例えば、質量フィルタ20は、比較的広いm/zウィンドウ内のほとんど又は全てのイオンが質量フィルタ20によって前方に移送される移送動作モードで動作可能であってもよく、また、(所望のm/zを中心とする)比較的狭いm/zウィンドウ内のイオンのみが質量フィルタ20によって前方に移送されるフィルタリング動作モードで動作可能であってもよい。質量フィルタ20は、四重極質量フィルタなどの任意の好適なタイプの質量フィルタであり得る。
【0052】
断片化デバイス30は、質量フィルタ20の下流に配置され、質量フィルタ20によって移送されたほとんど又は全てのイオンを受け取るように構成されている。断片化デバイス30は、受け取られたイオンの一部又は全部を選択的に断片化するように、すなわち断片イオンを生成するように構成され得る。断片化デバイス30は、断片イオン(断片イオンは次いで断片化デバイス30から前方に移送され得る)を生成するためにほとんど又は全ての受け取られたイオンが断片化される断片化動作モードと、ほとんど又は全ての受け取られたイオンが(意図的に)断片化されることなく前方に移送される非断片化動作モードとで動作可能であり得る。また、非断片化動作モードが、イオンに、断片化デバイス30を回避させることによって実装されることも可能である。断片化デバイス30はまた、例えば、断片化の程度が制御可能(可変)である1つ以上の中間動作モードで動作可能であってもよい。断片化デバイス30はまた、例えば、断片イオンが断片化デバイス30によって1回以上更に断片化されるような高次(MSN)断片化動作モードで動作可能であってもよい。
【0053】
断片化デバイス30は、例えば、衝突誘起解離(collision induced dissociation、CID)断片化デバイス、電子誘起解離(electron induced dissociation、EID)断片化デバイス、光解離断片化デバイスなどの任意の好適なタイプの断片化デバイスであってもよい。多数の他のタイプの断片化が可能である。
【0054】
いくつかの実施形態では、断片化デバイス30は、衝突誘起解離(CID)断片化デバイスである。したがって、断片化デバイスは、例えば比較的高い圧力に維持された衝突ガスで満たされ得る衝突セルを含み得る。イオンは、イオンが衝突セルに進入させられる運動エネルギーを制御(変動)することによって、衝突セル内で選択的に断片化することができる。断片化動作モードでは、イオンは、比較的高い運動エネルギーで衝突セルに進入するように加速されてもよく、これにより加速されたイオンの大部分又は全部を断片化させてもよい。非断片化動作モードでは、イオンは、比較的低い運動エネルギーを伴って衝突セルに進入させられてもよく、これはイオンの大部分又は全部を断片化させるために不十分であり得る。中間モードでは、イオンは、中間運動エネルギーで衝突セルに進入させられてもよい。
【0055】
質量分析装置40は、断片化デバイス30の下流に配置され、断片化デバイス30からイオンを受け取るように構成されている。したがって、質量分析装置40は、断片化デバイス30の動作モードに応じて、断片化されていない前駆体イオン又は断片イオンを受け取ることができる。質量分析装置40は、受け取ったイオンを分析して、それらの質量電荷比(m/z)及び/又は質量を決定するように、すなわち、イオンの質量スペクトルを生成するように構成されている。質量分析装置40は、イオントラップ質量分析装置、静電軌道トラップ質量分析装置(Thermo Fisher Scientific社製のOrbitrap(商標)FT質量分析装置など)、又は多重反射飛行時間型(multi-reflecting time-of-flight、MR-ToF)質量分析装置などの飛行時間型(time-of-flight、ToF)質量分析装置などの任意の好適なタイプの質量分析装置であってもよい。
【0056】
図1は、単なる概略的なものであり、機器は、任意の数の1つ以上の追加の構成要素を含み得、実施形態ではもちろん含むことに留意されたい。例えば、機器は、例えば、大気圧インターフェース、並びに/又は1つ以上のイオンガイド、レンズ、及び/若しくは、イオンの一部又は全てが機器を通って適切に移送され得るように構成された他のイオン光学デバイスを含む、例示された構成要素のうちのいずれかの間に配置された1つ以上のイオン移送ステージを含んでもよい。このイオン移送ステージには、任意の好適な数及び構成のイオン光学デバイスが含まれ得、例えば、任意選択的に、1つ以上のイオンガイド、レンズ、及び/又は他のイオン光学デバイスが含まれ得る。
【0057】
いくつかの実施形態では、機器は、2つ以上の質量分析装置を含むことができる。例えば、機器は、欧州特許第3,410,463号に記載されたタイプの二重質量分析装置ハイブリッド質量測定器であってもよく、その内容は、参照により、本明細書に組み込まれる。
【0058】
また
図1に示されるように、機器は、適切にプログラムされたコンピュータなどの制御ユニット50の制御下にあり、その制御ユニットは、機器の様々な構成要素の動作を制御し、例えば、機器の様々な構成要素に印加されるべき電圧を設定する。制御ユニット50はまた、様々な実施形態の方法における分析装置を含む様々な構成要素からデータを受信及び処理することもできる。
【0059】
機器は、様々な動作モードで動作可能であり得る。例えば、機器は、MS1動作モード及びMS2動作モードで動作可能なタンデム型質量測定器であってもよい。
【0060】
MS1(又は「全質量スキャン」)動作モードでは、質量フィルタ20は、その移送動作モードで動作し、また断片化デバイス30は、非断片化動作モードで動作し、その結果、例えば、広いm/z範囲(例えば、全質量範囲)の断片化されていない(「前駆体」又は「親」)イオンが分析装置40によって分析されて、MS1スペクトルを生成する。
【0061】
MS2動作モードでは、質量フィルタ20は、そのフィルタリング動作モードで動作し、また断片化デバイス30は、その断片化動作モードで動作し、その結果、例えば、選択された狭いm/z範囲の前駆体イオンが断片化され、結果として得られた断片(「生成物」又は「娘」)イオンが、分析装置40によって分析されて、MS2スペクトルを生成する。
【0062】
機器はまた、例えば、MS3動作モードなどの1つ以上の高次断片化動作モードで動作可能であってもよく、それによって、前駆体イオンが、断片化され、結果として得られた断片イオンのうちの少なくとも一部が、それ自体断片化され、第2世代断片イオン(「孫娘イオン」)が、分析装置40によって分析されて、MS3スペクトルを生成する。一般に、機器は、任意の順番の断片化動作モードで、すなわち、N≧2であるMSN動作モードで動作可能であり得る。
【0063】
分析機器を動作させる方法は、サンプルがクロマトグラフ的に分離されるように、サンプルをクロマトグラフ(例えば、LC又はGC)分離デバイスに提供すること、イオン源10においてクロマトグラフ分離デバイスからの溶出液をイオン化すること、及び結果として得られたイオンを分析すること、を含む。サンプル内の異なる化合物は、クロマトグラフ分離デバイス内で異なる保持時間(retention time、RT)を経験し、したがって、異なる時間でクロマトグラフ分離デバイスから溶出(及びイオン化)する。クロマトグラフ分離デバイスは、通常、各クロマトグラフ分離スキャンを完了するのに数十秒又は数分かかる。
【0064】
各クロマトグラフ分離スキャン中に、複数のMS2スペクトル(又は、より一般的には、複数のMSNスペクトル)が、例えば、それぞれの異なるm/zを有する複数の異なる前駆体イオンの各々を順次選択(及び断片化)するように、複数の異なるm/z値の各々の間で質量フィルタの(狭い)m/zウィンドウの中心を順次変更することによって取得され得る。
【0065】
データ依存取得(data dependent acquisition、DDA)動作モードでは、複数の異なるm/z値は、対応するMS1データ(すなわち、全質量スキャン)から識別される複数の異なる前駆体イオンに対応し得る。したがって、典型的なデータ依存取得(DDA)方法は、クロマトグラフ分離スキャン中に、(i)関心対象のm/z範囲にわたってMS1スペクトルを取得するステップ、(ii)MS1スペクトル内の関心対象の1つ以上の前駆体イオンを識別するステップ、及び(iii)関心対象の各識別された前駆体イオンに関してMS2(又はMSN)スペクトルを取得するステップ、を繰り返して実施することを含む。ステップ(iii)は、識別された前駆体イオンの各々について、質量フィルタ20を使用して前駆体イオンを単離することと、断片化デバイス30において単離された前駆体イオンを断片化することと、質量分析装置40を使用して断片イオンを質量分析することと、を含む。
【0066】
データ独立取得(data independent acquisition、DIA)MS2(又はMSN)動作モードでは、複数の異なるm/z値は、所定の(固定された)リストから、すなわち、MS1データを参照せずに、取得され得る。例えば、狭いm/z分離ウィンドウは、例えば、欧州特許第3,410,463号に記載されているように、関心対象のm/z範囲全体にわたって順次段階を進めてもよい。
【0067】
いずれにしても、分析機器によって実施される各クロマトグラフ分離スキャンは、サンプルファイルを生成することになる。各サンプルファイルは、複数のMS1スペクトルに関して、各々が関連する保持時間を有するデータと、複数のMS2(又はMSN)スペクトルに関して、各々が関連する保持時間及び関連する質量フィルタ分離ウィンドウ又は前駆体イオンm/zを有するデータと、を含む。調製されたサンプルは、分別されてもよく、クロマトグラフ分離スキャンは、各分別について実施されて、同じサンプルに関してそのような複数のサンプルファイルを生成することができる。
【0068】
DDA/DIA法の繰り返し速度は、そのクロマトグラフ溶出中に、クロマトグラフ的に分離された関心対象の各々の化合物をサンプリングするのに十分な速さとすることができる。したがって、各サンプルファイルについて、クロマトグラム痕跡が、複数のMS1スペクトルからの関心対象の各固有のm/zについて構築され得る。そのようなクロマトグラムは、通常、それぞれクロマトグラフ的に分離された化合物のクロマトグラフ溶出ピークに対応するピークとして表れる。
【0069】
次いで、各クロマトグラムの中心(例えば頂点)保持時間(RT)は、例えば、好適なピーク検出アルゴリズムなどを使用して、決定され得る。同じ(例えば、特定の許容範囲内の)中心保持時間(RT)を有するクロマトグラムをともにグループ化して、複数のm/zの1つ以上のセットを得ることができ、ここで、セット内の全てのm/zは、同じ保持時間(RT)を有すると判定されている。
【0070】
複数のm/zの各々のそのようなセットは、クロマトグラフ分離デバイスから共溶出する複数の異なる化合物から生じる可能性があり、非常に複雑で、かつ解釈が困難であり得る。したがって、複数のm/zの各セットを1つ以上のクラスタに「アセンブル」する必要があり、ここで、各クラスタは、同じRTを有すると判定された複数のm/zのセット(又は、適宜、完全なセット)からのm/zのサブセットであり、クラスタ内の全てのm/zは、同じ単一の化合物に属する。言い替えると、各単一のクロマトグラフ分離化合物は、(同じRTを有する)MS1データにおいて複数のm/zのクラスタを生じさせる可能性があり、複数の共溶出化合物が存在する場合、MS1データにおいて複雑さを生じさせる。
【0071】
単一の化合物は、例えば、異なる電荷状態(z)及び異なる同位体に起因して、MS1において(同じRTで)複数の異なるm/zを生じさせ得る。同位体のセットは、MS1データにおいて、一価の種については1m/z、二価の種については1/2m/z、三価の種については1/3m/zなどによって、互いに分離された特徴的な一連のピークとして現れる。これを理解すると、MS1データが、例えば、同位体のセットにともに対応する(同じRTを有すると決定された複数のm/zのセットにおける)それらのm/zを、いわゆる「ファイル毎の特徴」にグループ化することによって、「同位体除去」することが可能であることを意味し、各ファイル毎の特徴は、単一の特徴的なm/z(例えば、最も軽い同位体に対応する)を有する。これをまた理解すると、正確な電荷状態が、(同位体ピーク間のm/z分離から)各々のそのようなファイル毎の特徴について決定することが可能であることを意味する。(MS1データにおいて現れる任意の「一重項」(すなわち、対応する同位体が検出限界未満である場合、対応する同位体が全く現れないピーク-通常、低同位体存在比ピーク)は、一価である(又はサンプルタイプ等に応じて、何らかの他のデフォルト電荷を有する)と想定することができる。)そして次に、電荷状態(z)及び質量電荷比(m/z)の知識は、単一の特徴的な質量(m)が各ファイル毎の特徴について決定することが可能であることを意味する。そのような同位体除去及び電荷状態決定のためのアルゴリズムは、当技術分野において既知である。
【0072】
しかしながら、そのような同位体除去アルゴリズムにもかかわらず、複数のファイル毎の特徴は、各化合物に対して依然として存在し得る。言い替えると、複数のm/zの各セットが同位体除去されると、複数のファイル毎の特徴のグループが残る可能性があり(ここでは、複数のファイル毎の特徴の各々のそのようなグループは、単一の化合物から、又は複数の異なる共溶出化合物から生じ得る)、したがって、複数のファイル毎の特徴の各グループを1つ以上のクラスタに更にアセンブルし、クラスタ内の全てのファイル毎の特徴は、同じ単一の化合物に属する必要がある。
【0073】
単一の化合物についての複数のファイル毎の特徴の存在は、いくつかの異なる原因を有し得る。特に、これは、以下に起因し得る。
(i)溶媒付加物;すなわち、イオン化プロセス中の付加物は、化合物の中性質量Mに対して特徴的な質量差を有するMS1のピークをもたらし得る。例えば、プロトン化イオン[M+H]+は、約1の質量差を有するが、アンモニア付加物[M+NH4]+は、約18の質量差を有する、などである。
(ii)ホモ二量体又はヘテロ二量体;すなわち、2つのタンパク質がともに結合した。これらは、MS1における特徴的な質量差として再び顕在化し得る。
(iii)ソース内断片;すなわち、イオンの意図しない断片化は、MS1スペクトル(所望されるようなMS2スペクトルだけではない)に現れる断片イオンをもたらし得、MS1スペクトルを解釈する際に困難をもたらす。
【0074】
同様に、同じサンプルについて複数のサンプルファイルが存在する場合、複数の「特徴」が、各化合物について存在し得る(ここで、特徴は、複数のサンプルファイルからのファイル毎の複数の対応する特徴のセットである)。理想的には、特徴のファイル毎の全ての対応する特徴が、m/z及びRTに関して同一であるべきだが、実際には、RTは、異なるクロマトグラフ分離実行の間でわずかに異なる可能性がある。したがって、クラスタ内の全ての特徴が同じ単一の化合物に属する状態で、複数の特徴の各グループを1つ以上のクラスタにアセンブルする必要がある。
【0075】
様々な実施形態は、そのような特徴又はファイル毎の特徴をクラスタにアセンブルするための方法、すなわち、どの特徴又はファイル毎の特徴が同じ化合物に関係するかを判定するための方法を主題としている。
【0076】
そのような複合アセンブリを実施する既知の方法は、ファイル毎の特徴間の予想された質量シフトのみに基づく。しかしながら、今回、本発明者らは、これらの手法がいくつかの問題を有することを認識した。
(i)(a)固有電荷を有する化合物は、正確に識別することができない。いくつかの化合物は、固有電荷を有して存在し、これらは、通常、追加の付加イオンを形成しない。したがって、MS1において観察可能な質量シフト(少なくとも2つの異なるイオンの間の)は存在せず、これは、それらの正確な割り当てのためのヒントを提供する(すなわち、イオンが、例えば、プロトン化イオン[M+H]+又はアンモニア付加イオン[M+NH4]+等であるかどうかを、MS1データのみから判定することができず、これは、化合物の中性質量Mを確実に判定することができることを知る必要がある)。既知の手法では、これらの「孤立イオン」は、例えば、デフォルトイオン定義(例えば、エレクトロスプレーイオン化のためのプロトン化イオン[M+H]+)を使用して、不正確に割り当てられる可能性がある。以下で更に説明されるように、様々な実施形態は、標準のデータベース(例えば、mzCloud(商標)データベースなど)に対してその断片化(例えば、MS2又はMSN)データを検索することによる、化合物の予備的識別を実施することによって、この問題に対処する。
(i)(b)関連して、(脱)プロトン化イオンを形成しない化合物は、しばしば不正確に識別される。いくつかの化合物は、デフォルトイオンとは異なり得る(例えば、エレクトロスプレーイオン化のためのプロトン化イオン[M+H]+とは異なる)1つのタイプのイオンを作成することが好ましい。例えば、いくつかの脂質は、ナトリウム付加イオン[M+Na]+のみを形成する傾向がある。これにより、上記と同じ問題が生じる。以下で更に説明されるように、様々な実施形態は、標準のデータベースに対してその断片化データを検索することによる、化合物の予備的識別を実施することによって、この問題に再び対処する。
(ii)化合物特有のソース内断片は、識別されない。多くの化合物は、イオン化中に(又はMS1スキャン中の機器内のどこかで)少量の断片化を受け、したがって、それらの断片は、MS1スペクトル内に現れる。次いで、これらの断片イオンは、追加のMS1特徴として、アセンブリアルゴリズムによって不正確に処置され得、偽陽性ヒットを作り出す。この一例には、EG(エチレングリコール)の1つ以上の単位を喪失したPEG(ポリエチレングリコール)がある。分析すると、それは、サンプルがまるでPEGn6及びPEGn5の両方を含有するように見え得るが、後者は、実際には、機器内で作り出された断片である。以下で説明されるように、様々な実施形態は、(例えば、サンプルファイル内のMS2若しくはMSNデータから)各特徴についての基準MS2(又はMSNデータを取得することによって、又は識別ステップ(例えば、mzCloud(商標))に(ソース内断片化をシミュレートするように構成され得る)低エネルギーMS2若しくはMSNスペクトルの収集から標準MS2若しくはMSNスペクトルを戻し、次いで、基準MS2又はMSNデータ内の断片に整合する断片についてMS1データを検索することによって、この問題に対処する。
(iii)複数のサンプルファイルにわたる一貫性のない付加物タイプ割り当て。同じサンプルの異なる分別が付加物タイプ割り当てに関して異なる結果を生じさせ得るいくつかの理由が存在する。これは、例えば、付加物のうちの1つ以上が検出限界未満になり、結果として付加物クラスタ全体が異なるように割り当てられる、分別間の強度/同位体存在比の変動に起因する可能性がある。以下で説明されるように、実施形態は、複数の潜在的に競合する個々の分別説明(又は「配置」)を最終グラフに設置することによって、この問題に対処し、その最終グラフは、プロセスの終わりに解決される。
【0077】
図2は、実施形態による方法を例示している。
図2に示されるように、第1のステップ(ステップ100)において、ファイル毎の特徴が、(上述で説明されたやり方で)個々のサンプルファイルにおいて検出され、次いで、これらは、それらのRT及びm/z値を整合させることによって、複数のサンプルファイルにわたって特徴にグループ化される。これらの統合された特徴は、例えば、ノードとして、メイン関係グラフ510に挿入される。
【0078】
図3は、そのようなメイン関係グラフ510の一例の説明図を示している。
図3において、それぞれの影付き円(ノード)は、識別された特徴を表す。
【0079】
図2に戻ると、ステップ200において、MS2(又はMS
N)データが、(同じサンプルについてのサンプルファイルのいずれかの中のMS2又はMS
Nデータから)検出された特徴のうちのいずれかについて利用可能である場合、このデータは、識別のためのデータベース検索アルゴリズムにかけられる。例えば、mzCloud(商標)スペクトルライブラリなどの任意の好適なデータベース検索アルゴリズムを使用することができる。(前駆体イオン中性質量Mを含むことになる)戻された結果から、可能な付加物タイプの割り当てが決定される。特に、測定された質量と、抽出された識別質量との間の質量シフトを使用して、特徴のイオンタイプを計算することができる。例えば、MS1において測定された質量が(M+18)である場合、特徴は、アンモニア付加[M+NH4]
+として識別され、この情報は、イオンタイプの1つの可能な識別として、メイン関係グラフ510に挿入される。
【0080】
このプロセスは、特徴のイオンタイプの高い信頼度の割り当てを可能にするだけでなく、固有電荷を有する化合物を正確に識別するための方法を提供する。可能なイオンタイプは、識別メタデータから直接取得、若しくは1つ以上の事前定義されたリストから取得されてもよく、又は必要に応じて、例えば、(脱)プロトン化によって、所与の電荷状態に対して自動的に生成されてもよい。
【0081】
したがって、実施形態では、ライブラリ検索200は、ステップ500において最終的な化合物アセンブリの前に実施される。検索200の結果は、(従来のように)特徴の決定的な識別として取り扱われず、むしろ、(例えば、他のサンプルファイルからの)任意の他の競合する説明及び識別に対して後で解決されなければならない、1つの有力な可能性として取り扱われる。
【0082】
図2のステップ300及び400を実行して、(同じRTにおける)ファイル毎の特徴の各グループについてのファイル毎の特徴を、関連するファイル毎の特徴の可能なクラスタにグループ化する。上記の問題(iii)に対処するために、このプロセスは、ファイル毎に基づいて機能し、次いで、可能な全ての説明が、メイングラフ510に追加され、異なるサンプルファイルからの説明間の任意の競合は、(以下で更に説明される)ステップ500において解決される。
【0083】
ステップ300において、各サンプルファイル内のファイル毎の特徴は、(例えば、上述の方法で)RT値、及び任意選択的に、ピーク形状等のような1つ以上の他の特性を整合させることによってステップ310においてグループ化される。このプロセスは、この段階においてファイル毎に基づいて機能するため、非常に狭い許容範囲を使用して、RTによってファイル毎の特徴をグループ化することができる。示されるように、特徴にマッピングすることは、ステップ320において実施される。
【0084】
図4は、結果として得られたファイル毎の関係グラフの一例の説明図を示している。このファイル毎の文脈では、
図4のそれぞれの影付き円は、同じRTを有すると判定されたファイル毎の特徴のグループにおけるファイル毎の特徴を表す。
【0085】
図2のステップ400において、グループ化されたファイル毎の特徴を分析して、各グループ内のファイル毎の様々な特徴間の全ての可能な関係を判定することができる。
【0086】
これは、最初に、全ての可能なイオンタイプを、グループの各ファイル毎の特徴に暫定的に割り当てることを含む。識別されたイオン(
図5A)、塩基イオン(
図5B)、デフォルトイオン(
図5C)、及び断片イオン(
図5D)を含む、様々な可能なイオンタイプのカテゴリが、
図5A~
図5Dに例示されている。この段階において、各ファイル毎の特徴は、複数の可能な暫定イオンタイプ割り当てを有することができ、それらは、プロセスにおいて、後で解決され得る。
【0087】
イオンタイプ識別情報(ステップ200からの)は、対応する特徴がステップ200において識別されたファイル毎のそれらの特徴に追加される。したがって、例えば、
図5Aは、ステップ200において、プロトン化イオン[M+H]
+であるとして識別された特徴のファイル毎の特徴を表す。
【0088】
各ファイル毎の特徴はまた、ファイル毎の特徴の既知の電荷に応じて、1つ以上のユーザ定義された塩基イオン(
図5B)として暫定的に割り当てられる(ここで、各ファイル毎の特徴の電荷は、上述したように(又はデータの何らかの他の事前処理から)、同位体除去アルゴリズムから既知である)か、又はさもなければ、ユーザがそのファイル毎の特徴の既知の電荷を有するイオンについて塩基イオンを定義しなかったデフォルトイオン(
図5C)として、暫定的に割り当てられる。ユーザ定義された塩基イオンは、例えば、サンプル化学、及び/又はイオン源の構成等に応じて、ユーザが所望する通りに設定することができる。以下で更に説明されるように、いくつかの実施形態では、少なくとも1つのユーザ定義された塩基イオンは、そのクラスタが有効であるとみなされるクラスタ内に存在する必要があり得る。デフォルトイオンは、ファイル毎の特徴の電荷を有するイオンについてのイオン化中に、(例えば、(脱)プロトン化によって)形成された最も一般的なイオンであり得る。例えば、エレクトロスプレーイオン化の場合、デフォルトイオンは、一価の正電荷を有するイオンに対しては、プロトン化イオン[M+H]
+として設定されてもよく、二価の正電荷を有するイオンに対しては、[M+2H]
2+などとして設定されてもよい。
【0089】
したがって、例えば、
図5Bは、2つのユーザ定義された塩基イオンのどちらか、すなわち、プロトン化イオン[M+H]
+又はナトリウム付加イオン[M+Na]
+のどちらかであるとして暫定的に割り当てられている、一価の正電荷を有するファイル毎の特徴を表す。
図5Cは、デフォルトの二価の正電荷を有するイオン、すなわち、[M+2H]
2+であるとして暫定的に割り当てられている、二価の正電荷を有するファイル毎の特徴を表す。
【0090】
再び
図2に戻ると、ステップ410において、グループ内のファイル毎の特徴を分析して、ファイル毎の特徴のうちのいずれかがソース内断片であり得るかどうかを判定する。対応する特徴(すなわち、ステップ200において識別されたものと同じ特徴)に対してMS2(又はMS
N)データが利用可能である、グループのファイル毎のそれらの特徴について、代表的なMS2(又はMS
N)データが取得される。
【0091】
代表的なMS2(又はMSN)データは、サンプルファイルからの対応するMS2(又はMSN)データであってもよいか、又はより有用には、低エネルギー衝突スペクトルのライブラリからの標準MS2(又はMSN)スペクトルであってもよい。そのようなスペクトルは、(例えば、mzCloud(商標)からの)識別とともに戻されてもよく、ソース内断片化を正確にシミュレートするように構成されてもよい。したがって、実施形態では、各識別ヒットの一部として低エネルギー衝突スペクトル(例えば、HCD10)から質量を返す新しい機能が検索エンジン(例えば、mzCloud(商標))に追加される。
【0092】
識別200が成功しなかった場合、及び/又は低エネルギー衝突データが利用可能でない場合、生のファイルから取得されたMS2(又はMSN)スペクトルは、代わりに、代表的なMS2(又はMSN)として使用されてもよい。しかしながら、割り当て信頼度は、信頼できる標準に基づく収集された断片化データが使用されるときに、より高くなる。
【0093】
次いで、代表的なMS2(又はMSN)データは、グループ内の他のファイル毎の特徴と比較されて、例えば、代表的なMS2(又はMSN)データ内にソース内断片の質量に整合する質量を有する、グループ内のファイル毎の特徴を探すことによって、他のファイル毎の特徴のうちのいずれかが検討中のファイル毎の特徴のソース内断片である可能性があるかどうかを判定する。
【0094】
そのような整合する質量を有する、グループ内のファイル毎の特徴のうちのいずれかは、潜在的にソース内断片であるとしてラベル付けされる。したがって、例えば、
図5Dは、2つのユーザ定義された塩基イオン([M+H]
+若しくは[M+Na]
+)のうちのどちらか、又はソース内断片イオンであるとして暫定的に割り当てられている、一価の正電荷を有するファイル毎の特徴を表す。ソース内断片のイオンタイプは、一般に、未知であるため、汎用的なイオンタイプ割り当て(例えば、[M-e]
+)が使用され得る。
【0095】
可能なソース内断片については、可能なソース内断片と、そのソース内断片の親イオンとの間の関係もまた、グラフに記録される。したがって、例えば、
図6において、この潜在的な関係は、ノード間の点線接続によって示されている(「P」とラベル付けされたファイル毎の特徴は、潜在的に、ソース内断片「F」の前駆体イオンである)。
【0096】
再び
図2に戻ると、次のステップ(ステップ420)において、グループ内のファイル毎の特徴間の可能な付加物関係は、ファイル毎の特徴の質量間の許容される質量シフトを探すことによって決定される。事前定義されたイオンタイプ(例えば、付加物、共通中性損失、単純な多量体、及び電荷状態)のリストを使用して、予想された質量シフトを生成し、これらの予想された質量シフトは、各グループに適用されて、グループのファイル毎の特徴間の全ての可能な関係を見出す。したがって、例えば、ファイル毎の2つの特徴が17(=18-1)の質量差を有する場合、それらの2つの特徴は、プロトン化イオン[M+H]
+及びそのアンモニア付加[M+NH4]
+であり得、差が22(=23-1)である場合、ファイル毎の特徴は、[M+H]
+及び[M+Na]
+であり得るなどである。
【0097】
そのような任意の可能な関係が、グラフに記録される。したがって、例えば、
図6において、潜在的な付加物関係が、ノード間の実線接続によって示されており、ここで、線は、可能な付加物関係(すなわち、この例では、[M+H]
+⇔[M+NH4]
+)に応じてラベル付けされている。
【0098】
図6は、ラベル付けされた様々な可能な関係を有するファイル毎の2つの特徴のグループの単純な例を示している。特に、第1の特徴(左側)は、識別されたイオンのタイプ[M+H]
+又はソース内断片[M-e]
+のどちらかとしてラベル付けされている。第2の特徴(右側)は、2つの異なる塩基イオン、すなわち、[M+H]
+又は[M+NH4]
+のどちらかとしてラベル付けされている。加えて、
図6において、[M+H]
+⇔[M+NH4]
+とラベル付けされた実線は、可能な付加物遷移を表すのに対し、点線は、可能なソース内断片関係を表す(「P」とラベル付けされた特徴は、ソース内断片「F」の前駆体イオンである)。
【0099】
図6の例からわかるように、上述のプロセスは、結果として、グループ内のファイル毎の特徴間の、複数の可能な潜在的に競合する関係をもたらす可能性がある。次に、
図2のステップ430において、これらの競合は解決される。
【0100】
これを行うために、最初に、イオンタイプ割り当て(ループ)と遷移(ノード間の接続)との間の任意の競合が解決される。このプロセスは、
図7によって例示されており、(i)識別されたイオンと競合する任意の遷移を除去すること(
図7A)、及び(ii)違反している断片遷移を除去すること(
図7B)を含む。
【0101】
図7Aは、
図6の例を再び示しているが、[M+H-NH3]
+⇔[M+H]
+とラベル付けされた追加の実線を有しており、これは、(遷移[M+H]
+⇔[M+NH4]
+に加えて)第2の可能な付加物遷移を表す。
図7Aに見られるように、ファイル毎の第1の特徴についてのソース内断片ラベル[M-e]
+は、これがファイル毎の第1の特徴についての識別されたイオンタイプ[M+H]
+と競合するため、除去されている。次いで、第2の可能な付加物遷移([M+H-NH3]
+⇔[M+H]
+)は、その遷移のために必要とされる[M+H-NH3]
+もまた、ファイル毎の第1の特徴についての識別されたイオンタイプ[M+H]
+と競合するため、除去されている。
【0102】
図7Bは、違反している断片遷移が除去される一例を示している。具体的には、断片遷移[M+H]
+⇔[M+Na]
+は、[M+H]
+断片が[M+Na]
+前駆体から作成されることができないため、除去される(すなわち、断片遷移は、新しい要素を「作成」してはならない)。対照的に、可能な断片遷移[M+H]
+⇔[M+NH4]
+は、[M+H]
+断片が[M+NH4]
+前駆体から作成されることができるため、保持される。
【0103】
図8は、上述したプロセスから結果として生じ得る単純化した例示的なファイル毎のグラフを示しており、全ての残りの可能なイオンタイプ割り当て及び遷移が、ノード間の様々なループ及び接続によって示されている。ファイル毎の特徴をアセンブルするためのいくつかの異なる説明が、依然として可能である。
図8のグラフから、全ての可能なクラスタ(各クラスタが単一の化合物Mに対応する)が決定され得る。
【0104】
図9は、この決定の結果を示している。
図9において、各可能なクラスタが、影付きボックスとして示されている。左端のボックス431は、他の競合する説明を有しない(すなわち、ファイル毎の特徴が任意の他の可能なクラスタに現れない)クラスタを表す。したがって、これは、(ファイル毎のレベルにおいて)更に処理される必要のないクラスタの成功した識別を表す。このクラスタ431は、メイングラフ510に追加される(ステップ500において、他のサンプルファイルからの任意の他の競合する説明に対して後で解決される)。
【0105】
それぞれの残りのクラスタは、少なくとも1つの他の可能なクラスタと競合する、可能なクラスタである。これらの様々な競合は、
図9における垂直の破線によって例示されている。次に、これらの競合が解決される。
【0106】
図10によって例示されるように、実施形態において、ユーザが(上述したように)1つ以上の塩基イオンタイプを提供した場合、潜在的に塩基イオンタイプのうちの1つ以上であるとして割り当てられた1つ以上のファイル毎の特徴を含まない、可能なクラスタのうちのいずれかは、拒絶される。(ユーザが、必要とされる塩基イオンタイプを全く提供しなかった場合、このステップはスキップされてもよい。)したがって、
図10Aによって例示されるように、塩基イオンを有するクラスタは、保持され得る。
図10Bによって例示されるように、識別されたイオンのみを有するクラスタは、拒絶され得る。
図10Cによって例示されるように、デフォルトイオンのみを有するクラスタは、拒絶され得る。
図10Dによって例示されるように、いずれのイオンも有しないクラスタは、拒絶され得る。
【0107】
再び
図9を参照すると、例示された例では、クラスタ432内のノードのうちのいずれかへの、塩基付加イオン又は識別された付加イオンの可能ないかなる割り当て(ループ)も伴わずに2つの遷移のみが見出されるため、432とラベル付けされた可能なクラスタは、除去される。したがって、クラスタ432は、無効であるとみなされ、更なる検討から除外される。
【0108】
次に、
図11に例示されるように、任意の無効イオンクラスタを拒絶した後、残った任意の孤立クラスタ(すなわち、ファイル毎の任意の他の特徴に決して遷移しないファイル毎の単一の特徴)が検討される。
図11Aによって例示されるように、有効なイオンタイプ割り当て(すなわち、塩基イオン割り当て、識別されたイオン割り当て、又はデフォルトイオン割り当て)を有する任意の孤立クラスタに対する割り当ては、保持される。
図11Bによって例示されるように、潜在的にソース内断片であるとしてラベル付けされた孤立クラスタについて、イオンタイプ割り当ては、識別されたイオン及び汎用的な断片イオンの場合にのみ保持される(一方、イオンタイプ割り当ては、塩基イオン及びデフォルトイオンの場合に除去される)。
【0109】
したがって、実施形態では、ステップ430は、(i)整合しない電荷を有するイオンタイプ割り当てを除去すること、(ii)任意の事前に識別されたイオンタイプと競合するイオンタイプ割り当てを除去すること、(iii)1つ以上のユーザ指定された塩基イオンタイプを失っている任意のクラスタを除去すること、及び(iv)任意の無効な断片-前駆体関係(例えば、追加の原子が断片に追加される必要がある場合)を除去すること、を含む。
【0110】
図12は、
図9のグラフを処理した後に結果として得られたグラフを示している。
図12に見られるように、
図9からのクラスタ431及び432は、(上で与えられた理由のために)除去されている。更に、クラスタ432を除去した後、
図9からの孤立ノード433は、もはやいずれの他のノードとも競合せず、したがって、それは、解決されているとみなされ、また、
図12のグラフから除去されている。
【0111】
図12に見られるように、この段階では、依然として、複数の競合する可能なクラスタが存在し得る。しかしながら、グラフは、2つの切り離されたサブグラフに分解されており、それらのサブグラフは、互いに競合しないため、それぞれ、別個に更に処理することができる。
【0112】
次に、残りの競合は、スコア付けシステムを使用して解決される。このプロセスは、
図13によって例示されており、これは、
図12の左端のサブグラフについてのプロセスを示している。同様のプロセスが、
図12の他のサブグラフについて、別個に実施されることになる。
【0113】
スコア付けプロセスにおいて、可能なクラスタのうちの最大のものが、最初に選択され、正確(「有効」)であると想定される。したがって、
図13のAに示されるように、434とラベル付けされたクラスタは、最初に有効化される。次いで、この最大のクラスタと競合する任意の他のクラスタは、いずれも無効化される。今度は、次に最大の可能なクラスタ(未だ有効でも無効でもない)が有効化され、第1の説明(又は「割り当て」又は「配置」)に到着するまで、以下同様である。したがって、
図13のAの例では、下部の画像は、この初期の説明を表し、そこでは、ファイル毎の特徴のグループは、2つのクラスタ434、435によって説明されている。
【0114】
次いで、この説明には、割り当てスコアが与えられる。割り当てスコアを計算するために、各イオンタイプ割り当て(ループ)には、相対重み係数が与えられる。任意の好適な重み係数を使用することができる。例えば、最も高い相対重みが、最も一般的な付加物(例えば、[M+H]又は[M-H])に対して使用され得、多少低い重みが、一般的な付加物(例えば、[M+Na]又は[M+K])に対して使用され得、更に低い重みが、残り(例えば、一般的でない付加物)に対して使用され得る。様々な重み係数の相対的な大きさは、例えば、データを取得するために使用される特定の実験条件/サンプル化学の下で現れる特定の付加物の確率を反映させるように、所望に応じて構成されてもよく、ユーザによって設定されてもよい。
【0115】
加えて、各遷移は、その2つのイオン重み係数の合計の2倍としてスコア付けされる。ここで係数2が使用されるのは、遷移が2つのノードを説明するのに対して、ループ割り当てが単に1つのノードを説明するためである。デフォルト割り当て(ループ)は、通常、重みが最も高い付加物であるため、アルゴリズムは、それ以外の場合には、デフォルト付加物として割り当てられた孤立を優先的に好むが、これは、望ましくない。
【0116】
次いで、各クラスタには、クラスタスコアが与えられ、このクラスタスコアは、クラスタについての全てのループスコア及び遷移スコアの合計をクラスタ内のノード数で除算したものである。
【0117】
最後に、その説明のための割り当てスコアが計算され、この割り当てスコアは、説明内の全ての有効化されたクラスタに対する全てのクラスタスコアの合計をクラスタの数で除算したものである。割り当てスコアは、多数の同様のクラスタが存在する状況に対して高いスコアを生成するように、(かつ、例えば、1つのみの大きなクラスタ、及び多数の孤立クラスタを含む説明を回避するように)設計される。
【0118】
再び
図13に戻ると、次に、1つ以上の他の可能な説明がテストされる。
図13のBに示されるように、これを行うために、第1のステップ(すなわち、
図13のA)において無効化されたクラスタのうちの1つが有効化され、上記のプロセスは、繰り返されて、競合する説明を生成する。したがって、例えば、
図13のBにおいて、右の画像は、この競合する説明を表し、そこでは、ファイル毎の特徴のグループは、現在、3つのクラスタ436、437、438によって説明されている。この説明は、同じスコア付けシステムを使用して、再びスコア付けされる。
【0119】
再び、別の可能な説明が、第1のステップにおいて無効化されたクラスタのうちの異なる1つを有効化することによってテストされ、上記のプロセスは、繰り返されて、別の競合する説明を生成する。したがって、例えば、
図13のCにおいて、右の画像は、この更なる競合する説明を表し、そこでは、ファイル毎の特徴のグループは、現在、2つのクラスタ437、439によって説明されている。この説明は、同じスコア付けシステムを使用して、再びスコア付けされる。
【0120】
このプロセスは、例えば、全ての可能な説明がスコア付けされるまで、繰り返すことができる。次いで、最も高い割り当てスコアを有する説明は、出力のための最終的な説明として選択することができる。
【0121】
したがって、可能なクラスタは、再帰的に評価されて、最良の可能な割り当てスコアに到達し、ここで、スコア設計は、例えば、特定のクロマトグラフ条件下でほとんどの化合物が同様に挙動し、したがって、同様のイオンクラスタを作成するという点で、分析されたサンプルの性質を反映させる。
【0122】
図14は、最終的な説明の例を示しており、そこでは、
図9からのファイル毎の特徴のグループは、5つのクラスタ431、433、437、439、440によって説明されている。この最終的な説明は、メイングラフ510に追加される。
【0123】
複数のサンプルファイルが存在する場合、同様のプロセスが、各サンプルファイルに対して実施され、サンプルファイル毎に1つの説明が、メイングラフ510に追加される(かつ、任意の複製は、除去される)。これにより、いくつかの競合する説明を有するメイングラフ510を結果としてもたらし得る(すなわち、
図12と同様に)。
【0124】
したがって、
図2に戻ると、ステップ500において、メイングラフ510における任意の競合する説明が解決される。このプロセスは、(
図12~
図14を参照して)上述したものと同じアルゴリズムを使用して実施される。このステップは、全てのサンプルファイルからの情報が考慮されること、及びファイルにわたって一貫した割り当てが達成されることを確実にする。
【0125】
その結果得られた各サブクラスタは、固有の化合物を表す。したがって、最終的に、最終メイングラフ内の各クラスタから、化合物を識別することができる(
図2のステップ520)。
【0126】
様々な特定の実施形態が上述されてきたが、様々な代替実施形態及び追加実施形態が可能である。
【0127】
例えば、処理パイプラインにおける1つの可能な更なるステップとしては、結果の定量分析であってもよい。このためには、クラスタ内のどの特徴が使用され得るか、及び(例えば、定量化のためにそれらの面積を合計するために)どの特徴が無視されるべきかを知ることが必要である。通常、任意の断片は、無視され、意味のある付加物として割り当てられたイオンのみが、このために使用される。しかしながら、例えば、断片が実際の付加イオンと関係する場合、断片を定量化のために使用するべきである可能性がある。例えば、[M+NH4]の一般的な断片は、[M+H]である。したがって、追加のステップを適用して、更なる処理のために使用されるべき実際の付加イオンをマーキングすることができ、一方、任意の一般的な断片は、無視されるべきである。
【0128】
このプロセスは、
図15によって例示されており、そこでは、
図15のAに例示されているように、いくつかの断片が複数の前駆体によって共有されることが可能である。これがそのケースである場合、
図15のBによって例示されるように、前駆体のうちの1つに対する関係がまた、有効な付加物遷移でもある場合、任意の他の前駆体に対する関係は、拒絶される。これは、断片が複数回使用されることを回避しながら、断片は、更なる使用のために保持され得ることを意味する。
図15のCに例示されるように、断片について、断片-前駆体関係が検出されなかった場合の特徴からのいくつかの他の付加物遷移が存在する場合、それらの割り当ては、拒絶され、その断片は、一般的な断片イオンとして割り当てられる。
【0129】
本明細書で説明される方法は、例えば、代謝経路分析、分解生成物分析、法医学分析等などの小分子の質量測定分析への一般的な適用可能性を有する。
【0130】
図16は、それぞれの[13]Cでラベル付けされる類似物とともに、既知の比で混合された8つの化合物の人工サンプルからの例示的な結果を示している。固有のラベル付けに起因して、全ての可能な類似物とともに化合物を決定し、かつその方法を評価することが可能であった。
【0131】
図16Aに示されるように、従来の技術は、明らかに、予想された同位体交換プロファイルを示すが、予想された化合物のうちの1つに近い保持時間を有する3つの追加の化合物を報告した。割り当てられた分子式、及び、特に同じ保持時間における化合物間の式の差を考慮すると、不正確な解釈が示唆された。
【0132】
図16Bに示されるように、同じデータが、実施形態による化合物アセンブリの方法によって分析された。この場合、3つの全ての追加の化合物は、ソース内断片として正確に解釈され、それらのそれぞれの前駆体に結合された。
【0133】
様々な実施形態の化合物アセンブリ方法は、複数のサンプル内の単一の化合物から作り出される複数の多様な形態のイオンの完全かつ一貫したアセンブリを可能にする。MS1スペクトル内の予想された質量シフトに専ら基づく従来の技術とは異なり、実施形態は、初期の付加物割り当てのために、並びに標的とされないソース内断片検出のために、追加的に、MS2断片化スペクトル及びオンライン識別ツールを利用する。これらのステップからの結果は、化学的かつ発見的ルールのセットを使用して、固有のイオンクラスタに統合される。この方策は、偽陽性識別の数を大幅に減少させる。
【0134】
実施形態によれば、これは、特に、以下によって行われる。
(i)2段階グループ化メカニズムを適用して、複数の異なるサンプルファイルにわたって、関連する可能性がある特徴を統合すること。これは、複数の異なるサンプルファイルにわたる、一貫したイオン割り当てを可能にする。
(ii)取得されたMS2データを利用して化合物を事前に識別し、スペクトルライブラリの整合に基づいて、高い信頼度の付加物割り当て候補を提供すること。これにより、識別可能な化合物の更なるイオン誤割り当てが回避される。
(iii)データ中の既に識別された化合物のキュレートされた低エネルギー衝突スペクトルを利用し、次いで、特定のソース内断片候補を検索すること。これは、偽陽性の固有の化合物の数を減らすことに役立つ。
(iv)取得されたMS2スペクトルを利用して、ソース内断片候補と整合させるために検索すること。これは、低エネルギー衝突スペクトルが利用可能でない場合に、偽陽性の固有の化合物の数を減らすことに役立つ。
(v)全ての可能なイオン関係のネットワークにルールのセットを適用して、低い信頼度を有する割り当てを除去すること。これは、間違った付加物割り当ての機会を減らす。
(vi)特注のスコア付け及び評価メカニズムを、イオン関係の統合されたネットワークに適用して、可能な競合する割り当てを解決すること。これは、固有の化合物に対応する個々のイオンクラスタを作成する。
【0135】
様々な実施形態を参照して本発明を記載してきたが、添付の特許請求の範囲に記載されている本発明の範囲から逸脱することなく、様々な変更を行うことができることが理解されるであろう。
【手続補正書】
【提出日】2024-12-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
質量スペクトルデータを処理する方法であって、前記質量スペクトルデータは、複数のMS1質量スペクトル及び複数のMSN(N≧2)質量スペクトルを含み、各質量スペクトルは、それぞれの関連する保持時間を有し、前記方法は、
前記複数のMS1質量スペクトル内の特徴のグループを検出することであって、前記グループの各特徴は、それぞれの質量を有し、前記グループの前記特徴は、対応する保持時間を有する、検出することと、
前記グループの1つ以上の特徴の各々について、(i)その特徴についての識別結果を取得するために、対応するMSN質量スペクトルを質量スペクトル検索エンジンにかけることと、(ii)前記特徴に関連付けられた前記質量と、前記識別結果からの予想された質量との間の質量差に基づいて、前記特徴についての候補イオンタイプを決定することと、次いで、
特徴の前記グループ、及び前記候補イオンタイプに基づいて、1つ以上の化合物を識別することと、を含む、方法。
【請求項2】
(ii)前記特徴についての候補イオンタイプを決定するステップは、前記特徴の前記質量と、前記識別結果からの前記予想された質量との間の前記質量差に基づいて、前記特徴についての候補付加イオンタイプを決定することを含む、請求項1に記載の方法。
【請求項3】
前記質量スペクトルデータは、少なくとも1つのサンプルファイルを含み、各サンプルファイルは、それぞれのクロマトグラフ分離スキャンに対応し、かつ複数のMS1質量スペクトル及び複数のMSN質量スペクトルを含み、前記複数のMS1質量スペクトル内の特徴のグループを検出するステップは、
各サンプルファイルについて、そのサンプルファイル内の、複数のファイル毎の特徴を検出することであって、各ファイル毎の特徴は、それぞれの質量及びそれぞれの保持時間を有する、検出することと、
前記ファイル毎の特徴から複数の特徴を形成することであって、各特徴は、それぞれの質量及びそれぞれの保持時間を有する、形成することと、
対応する保持時間を有する特徴をグループ化することによって、特徴のグループを形成することと、を含む、請求項1又は2に記載の方法。
【請求項4】
サンプルファイル内の複数のファイル毎の特徴を検出する前記ステップは、
前記サンプルファイルの前記複数のMS1質量スペクトルから複数のクロマトグラムを構築することであって、各クロマトグラムは、それぞれの質量電荷比(m/z)を有する、構築することと、
各クロマトグラムについての特徴的な保持時間を決定することと、
対応する特徴的な保持時間を有するクロマトグラムをクロマトグラムの1つ以上のセットにグループ化することと、
ファイル毎の特徴のグループを形成するように、同位体除去アルゴリズムをクロマトグラムの各セットに適用することと、を含む、請求項3に記載の方法。
【請求項5】
対応する保持時間を有する特徴をグループ化するステップは、第1の許容範囲内で等しい保持時間を有する特徴をグループ化することを含み、
対応する特徴的な保持時間を有するクロマトグラムをグループ化するステップは、第2の許容範囲内で等しい保持時間を有するクロマトグラムをグループ化することを含み、
前記第2の許容範囲は、前記第1の許容範囲よりも小さい、請求項4に記載の方法。
【請求項6】
前記質量スペクトルデータは、複数のサンプルファイルを含み、前記複数の特徴の各特徴は、対応する質量及び対応する保持時間を有するファイル毎の特徴をグループ化することによって形成される、請求項4に記載の方法。
【請求項7】
特徴の各グループは、各サンプルファイル内の、ファイル毎の特徴の対応するグループから形成されており、特徴の前記グループに基づいて、1つ以上の化合物を識別する前記ステップは、
それぞれのサンプルファイル内のファイル毎の特徴の各グループについて、
(i)ファイル毎の特徴の1つ以上のクラスタを決定することであって、ファイル毎の特徴の各クラスタは、前記グループの1つ以上のファイル毎の特徴を含み、場合によっては、それぞれの化合物に対応する、決定することと、
(ii)ファイル毎の特徴の前記グループについて、ファイル毎の特徴の前記クラスタの1つ以上の配置を決定することであって、各配置は、ファイル毎の特徴の1つ以上の競合しないクラスタを含む、決定することと、
(iii)ファイル毎の特徴の前記グループについて、ファイル毎の特徴のクラスタの前記1つ以上の配置から好ましい配置を選択することと、
次いで、前記複数のサンプルファイルについての前記好ましい配置に基づいて、
(iv)特徴の前記グループについて、特徴のクラスタの1つ以上の配置を決定することであって、特徴の各クラスタは、特徴の前記グループの1つ以上の特徴を含み、場合によっては、それぞれの化合物に対応しており、各配置は、特徴の1つ以上の競合しないクラスタを含む、決定することと、
(v)特徴の前記グループについて、特徴のクラスタの前記1つ以上の配置から好ましい配置を選択することと、次いで、
特徴のクラスタの前記好ましい配置に基づいて、1つ以上の化合物を識別することと、を含む、請求項6に記載の方法。
【請求項8】
質量スペクトルデータを処理する方法であって、前記質量スペクトルデータは、複数のサンプルファイルを含み、各サンプルファイルは、複数のMS1質量スペクトル及び複数のMSN(N≧2)質量スペクトルを含み、各質量スペクトルは、それぞれの関連する保持時間を有し、前記方法は、
各サンプルファイルについて、そのサンプルファイルの前記MS1質量スペクトル内の、複数のファイル毎の特徴を検出することであって、各ファイル毎の特徴は、それぞれの質量及びそれぞれの保持時間を有する、検出することと、
対応する質量及び対応する保持時間を有するファイル毎の特徴をグループ化することによって、前記ファイル毎の特徴から複数の特徴を形成することと、
対応する保持時間を有する特徴をグループ化し、かつ各サンプルファイル内のファイル毎の特徴の対応するグループを形成することによって、特徴のグループを形成することと、次いで、
それぞれのサンプルファイル内のファイル毎の特徴の各グループについて、
(i)ファイル毎の特徴の1つ以上のクラスタを決定することであって、ファイル毎の特徴の各クラスタは、前記グループの1つ以上のファイル毎の特徴を含み、場合によっては、それぞれの化合物に対応する、決定することと、
(ii)ファイル毎の特徴の前記グループについて、ファイル毎の特徴の前記クラスタの1つ以上の配置を決定することであって、各配置は、ファイル毎の特徴の1つ以上の競合しないクラスタを含む、決定することと、
(iii)ファイル毎の特徴の前記グループについて、ファイル毎の特徴のクラスタの前記1つ以上の配置から好ましい配置を選択することと、
次いで、前記複数のサンプルファイルについての前記好ましい配置に基づいて、
(iv)特徴の前記グループについて、特徴のクラスタの1つ以上の配置を決定することであって、特徴の各クラスタは、特徴の前記グループの1つ以上の特徴を含み、場合によっては、それぞれの化合物に対応しており、各配置は、特徴の1つ以上の競合しないクラスタを含む、決定することと、
(v)特徴の前記グループについて、特徴のクラスタの前記1つ以上の配置から好ましい配置を選択することと、次いで、
特徴のクラスタの前記好ましい配置に基づいて、1つ以上の化合物を識別することと、を含む、方法。
【請求項9】
ファイル毎の特徴の1つ以上のクラスタを決定するステップは、それぞれのサンプルファイル内のファイル毎の特徴の各グループについて、
1つ以上の候補イオンタイプを前記グループの各ファイル毎の特徴に割り当てることと、
前記グループのファイル毎の特徴間の1つ以上の候補関係を決定することと、
前記候補イオンタイプと前記候補関係との間の任意の競合を解決することと、を含む、請求項8に記載の方法。
【請求項10】
各ファイル毎の特徴は、それぞれの電荷を有しており、1つ以上の候補イオンタイプを前記グループの各ファイル毎の特徴に割り当てる前記ステップは、
識別されたイオンタイプを、識別結果が取得された特徴に対応する前記グループの任意のファイル毎の特徴に割り当てること、及び/又は
前記ファイル毎の特徴の前記それぞれの電荷に基づいて、ユーザ定義された塩基イオンタイプ、若しくはデフォルトイオンタイプを、前記グループの各ファイル毎の特徴に割り当てること、を含む、請求項9に記載の方法。
【請求項11】
1つ以上の候補イオンタイプを前記グループの各ファイル毎の特徴に割り当てる前記ステップは、ソース内断片イオンタイプを、前記グループ内の別のファイル毎の特徴の予想されたソース内断片の質量に対応する前記質量を有する前記グループの任意のファイル毎の特徴に割り当てることを含み、かつ/又は
前記グループのファイル毎の特徴間の1つ以上の候補関係を決定する前記ステップは、前記ファイル毎の特徴が他のファイル毎の特徴の予想されたソース内断片の質量に対応する前記質量を有するときに、前記グループのファイル毎の特徴と、前記グループの別のファイル毎の特徴との間のソース内断片関係を決定することを含む、請求項9又は10に記載の方法。
【請求項12】
ファイル毎の特徴の予想されたソース内断片の前記質量を取得することであって、
ファイル毎の特徴の予想されたソース内断片の前記質量を、前記ファイル毎の特徴に対応するMSN質量スペクトルから決定することによる、取得すること、を更に含む、請求項11に記載の方法。
【請求項13】
ファイル毎の特徴の予想されたソース内断片の前記質量を取得することであって、
特徴についての識別結果の一部として、前記特徴の1つ以上の予想されたソース内断片の前記質量を提供することによる、取得すること、を更に含む、請求項11に記載の方法。
【請求項14】
質量スペクトルデータを処理する方法であって、前記質量スペクトルデータは、複数のMS1質量スペクトル及び複数のMSN(N≧2)質量スペクトルを含み、各質量スペクトルは、それぞれの関連する保持時間を有し、前記方法は、
前記複数のMS1質量スペクトル内の特徴のグループを検出することであって、前記グループの各特徴は、それぞれの質量を有し、前記グループの前記特徴は、対応する保持時間を有する、検出することと、
前記グループの1つ以上の特徴の各々について、(i)その特徴についての識別結果を取得するために、対応するMSN質量スペクトルを質量スペクトル検索エンジンにかけることと、(ii)前記識別結果の一部として、前記特徴の1つ以上の予想されたソース内断片の前記質量を提供することと、
ソース内断片イオンタイプを、前記グループ内の別の特徴の予想されたソース内断片の質量に対応する前記質量を有する前記グループの任意の特徴に割り当てることと、
特徴の前記グループ、及び前記ソース内断片イオンタイプに基づいて、1つ以上の化合物を識別することと、を含む、方法。
【請求項15】
前記識別結果の一部として提供された前記質量は、ソース内断片化をシミュレートするように構成された1つ以上のMSN質量スペクトルから決定される、請求項14に記載の方法。
【請求項16】
前記グループのファイル毎の特徴間の1つ以上の候補関係を決定する前記ステップは、
前記グループのファイル毎の特徴間の許容された質量シフトに基づいて、前記グループのファイル毎の特徴間の1つ以上の候補付加物関係を決定することを含む、請求項9又は10に記載の方法。
【請求項17】
クラスタの前記1つ以上の配置からクラスタの好ましい配置を選択するステップは、
クラスタの各配置についてのスコアを決定することと、
最も高いスコアを有する前記配置を選択することと、を含む、請求項8に記載の方法。
【請求項18】
クラスタの各配置についてのスコアを決定する前記ステップは、
前記配置における各クラスタについてのクラスタスコアを決定することであって、(i)前記クラスタの各候補イオンタイプ割り当てに重み係数を割り当てること、(ii)前記クラスタの各候補関係に関係スコアを割り当てること、並びに(iii)前記重み係数及び関係スコアの合計を、前記クラスタ内の特徴又はファイル毎の特徴の数で除算することによって前記クラスタについてのクラスタスコアを計算すること、による、決定することと、
前記配置についての前記クラスタスコアの前記合計を、前記配置内のクラスタの前記数で除算することによって、各配置についてのスコアを決定することと、を含む、請求項17に記載の方法。
【請求項19】
質量測定の方法であって、
サンプルを分析して、複数のMS1質量スペクトル及び複数のMSN質量スペクトルを含む質量スペクトルデータを取得することであって、各質量スペクトルは、それぞれの関連する保持時間を有する、取得することと、
請求項1、2、8、9、10、14、15、17及び18のいずれか一項に記載の方法を使用して、前記質量スペクトルデータを処理することと、を含む、方法。
【請求項20】
プロセッサ上で実行されるとき、請求項1、2、8、9、10、14、15、17及び18のいずれか一項に記載の方法を行うコンピュータソフトウェアコードを記憶する、非一時的コンピュータ可読記憶媒体。
【請求項21】
分析機器のための制御システムであって、前記制御システムは、前記分析機器に、請求項1、2、8、9、10、14、15、17及び18のいずれか一項に記載の方法を行わせるように構成されている、制御システム。
【請求項22】
請求項21に記載の制御システムを備える、分析機器。
【外国語明細書】