IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サーモ フィッシャー サイエンティフィック (ブレーメン) ゲーエムベーハーの特許一覧 ▶ エムエスエイド ゲーエムベーハーの特許一覧

特開2024-173816質量分析科学的機器のための支援システム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024173816
(43)【公開日】2024-12-12
(54)【発明の名称】質量分析科学的機器のための支援システム
(51)【国際特許分類】
   G01N 27/62 20210101AFI20241205BHJP
   G06N 20/00 20190101ALI20241205BHJP
【FI】
G01N27/62 D
G06N20/00
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024088528
(22)【出願日】2024-05-31
(31)【優先権主張番号】63/505,650
(32)【優先日】2023-06-01
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】508306565
【氏名又は名称】サーモ フィッシャー サイエンティフィック (ブレーメン) ゲーエムベーハー
(71)【出願人】
【識別番号】524207563
【氏名又は名称】エムエスエイド ゲーエムベーハー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】クリストフ ヘンリッヒ
(72)【発明者】
【氏名】マーティン フレイノ
(72)【発明者】
【氏名】トビアス シュミット
(72)【発明者】
【氏名】フロリアン ゼーフリート
(72)【発明者】
【氏名】カイ フリッツェマイヤー
【テーマコード(参考)】
2G041
【Fターム(参考)】
2G041CA01
2G041FA12
2G041FA13
2G041GA09
2G041JA02
2G041LA01
2G041LA07
2G041LA10
2G041LA12
(57)【要約】      (修正有)
【課題】質量分析計及び質量分析計のための支援装置などの科学的機器及び科学的機器支援装置を提供する。
【解決手段】命令を記憶するメモリハードウェアと、命令を実行する処理ハードウェアとを含む科学的機器において、命令は、質量分析計によって生成された生スペクトルファイルのバッチを読み込むことと、生スペクトルファイルを第1のサブセット及び第2のサブセットに分割することと、生スペクトルファイルの第1のサブセットの各々を機械学習モデルで処理して、スペクトルマッチファイルの第1のサブセットを生成することと、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することと、を含み、さらに、生スペクトルファイルの第2のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの第2のサブセットを生成することを含む。
【選択図】図3A
【特許請求の範囲】
【請求項1】
科学的機器支援装置であって、
命令を記憶するように構成されたメモリハードウェアと、
前記命令を実行するように構成された処理ハードウェアであって、前記命令は、
質量分析計によって生成された生スペクトルファイルのバッチを読み込むことと、
前記生スペクトルファイルを第1のサブセット及び第2のサブセットに分割することと、
生スペクトルファイルの前記第1のサブセットの各々を機械学習モデルで処理して、スペクトルマッチファイルの第1のサブセットを生成することと、
スペクトルマッチファイルの前記第1のサブセットからスクリーニングリストを生成することと、
生スペクトルファイルの前記第2のサブセットの各々及び前記スクリーニングリストを前記機械学習モデルで処理して、スペクトルマッチファイルの第2のサブセットを生成することと、を含む、
処理ハードウェアと、を含む、
科学的機器支援装置。
【請求項2】
前記命令は、スペクトルマッチファイルの前記第2のサブセットから結果リストを生成することを含む、請求項1に記載の科学的機器支援装置。
【請求項3】
前記命令は、
生スペクトルファイルの前記第1のサブセットの各々及び前記スクリーニングリストを前記機械学習モデルで処理して、スペクトルマッチファイルの更新された第1のサブセットを生成することと、
スペクトルマッチファイルの前記更新された第1のサブセット及びスペクトルマッチファイルの前記第2のサブセットから結果リストを生成することと、を含む、
請求項1に記載の科学的機器支援装置。
【請求項4】
前記機械学習モデルは、
選択された生スペクトルファイルを前処理することと、
タンパク質データベースを読み込むことと、
前記タンパク質データベース内の各ペプチドについて試験スペクトルを生成することと、
前記前処理されたスペクトルファイル内のスペクトルを前記生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成することと、によって、
各スペクトルマッチファイルを生成するように構成されている、
請求項1に記載の科学的機器支援装置。
【請求項5】
前記機械学習モデルは、
前記スクリーニングリストが読み込まれているか否かを判定することと、
前記スクリーニングリストが読み込まれていないと判定したことに応答して、
第1の閾値未満のスコアを有する一致したスペクトルを破棄することと、
残りの一致したスペクトルを前記スペクトルマッチファイルに保存することと、によって、
各スペクトルファイルを生成するように構成されている、
請求項4に記載の科学的機器支援装置。
【請求項6】
前記機械学習モデルは、
前記スクリーニングリストが読み込まれているか否かを判定することと、
前記スクリーニングリストが読み込まれていると判定したことに応答して、
前記スクリーニングリストが包含リストを含むか否かを判定することと、
前記スクリーニングリストが前記包含リストを含むと判定したことに応答して、
第1の閾値未満のスコアを有し、かつ前記包含リスト上にない一致したスペクトルを破棄することと、
前記スクリーニングリストが除外リストを含むか否かを判定することと、
前記スクリーニングリストが前記除外リストを含むと判定したことに応答して、
前記除外リスト上にある一致したスペクトルを破棄することと、
前記第1の閾値未満のスコアを有する一致したスペクトルを破棄することと、
残りの一致したスペクトルを前記スペクトルマッチファイルに保存することと、によって、
各スペクトルファイルを生成するように構成されている、
請求項4に記載の科学的機器支援装置。
【請求項7】
スペクトルマッチファイルの前記第1のサブセットから前記スクリーニングリストを生成することは、
スペクトルマッチファイルの前記第1のサブセットを解析して、存在するペプチドを識別することと、
前記識別されたペプチドの各々について出現頻度を計算することと、
第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、
残りの前記識別されたペプチドを包含リストに追加することと、を含む、
請求項6に記載の科学的機器支援装置。
【請求項8】
スペクトルマッチファイルの前記第1のサブセットから前記スクリーニングリストを生成することは、
スペクトルマッチファイルの前記第1のサブセットのスペクトルから強度閾値未満のピークを除去することによって、フィルタリングされたスペクトルを生成することと、
前記フィルタリングされたスペクトルを処理して、前記フィルタリングされたスペクトルに関連するペプチドを識別することと、
識別された各ペプチドの出現数をカウントすることと、
第3の閾値未満の出現数を有するペプチドを前記除外リストに保存することと、を含む、
請求項7に記載の科学的機器支援装置。
【請求項9】
前記選択された生スペクトルファイルを前処理することは、
前記生スペクトルファイルのスペクトル内のピークを検出することと、
前記スペクトルからノイズを除去することと、
前記スペクトルにベースライン補正を適用することと、
前記スペクトルに質量校正を適用することと、
前記スペクトルに逆畳み込み処理を適用することと、を含む、
請求項4に記載の科学的機器支援装置。
【請求項10】
前記質量分析計は、
調製された試料をイオン化することと、
前記イオン化された試料に対してイオン分離を行うことと、
分離されたイオンを検出することと、
前記検出された分離イオンから質量スペクトルを生成することと、によって、
生スペクトルファイルを生成する、
請求項1に記載の科学的機器支援装置。
【請求項11】
科学的機器支援のためのコンピュータ実装方法であって、
質量分析計によって生成された生スペクトルファイルのバッチを読み込むことと、
前記生スペクトルファイルを第1のサブセット及び第2のサブセットに分割することと、
生スペクトルファイルの前記第1のサブセットの各々を機械学習モデルで処理して、スペクトルマッチファイルの第1のサブセットを生成することと、
スペクトルマッチファイルの前記第1のサブセットからスクリーニングリストを生成することと、
生スペクトルファイルの前記第2のサブセットの各々及び前記スクリーニングリストを前記機械学習モデルで処理して、スペクトルマッチファイルの第2のサブセットを生成することと、を含む、
コンピュータ実装方法。
【請求項12】
スペクトルマッチファイルの前記第2のサブセットから結果リストを生成することを含む、請求項11に記載の方法。
【請求項13】
生スペクトルファイルの前記第1のサブセットの各々及び前記スクリーニングリストを前記機械学習モデルで処理して、スペクトルマッチファイルの更新された第1のサブセットを生成することと、
スペクトルマッチファイルの前記更新された第1のサブセット及びスペクトルマッチファイルの前記第2のサブセットから結果リストを生成することと、を含む、
請求項11に記載の方法。
【請求項14】
前記機械学習モデルは、
選択された生スペクトルファイルを前処理することと、
タンパク質データベースを読み込むことと、
前記タンパク質データベース内の各ペプチドについて試験スペクトルを生成することと、
前記前処理されたスペクトルファイル内のスペクトルを前記生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成することと、によって、
各スペクトルマッチファイルを生成するように構成されている、
請求項11に記載の方法。
【請求項15】
前記機械学習モデルは、
前記スクリーニングリストが読み込まれているか否かを判定することと、
前記スクリーニングリストが読み込まれていないと判定したことに応答して、
第1の閾値未満のスコアを有する一致したスペクトルを破棄することと、
残りの一致したスペクトルを前記スペクトルマッチファイルに保存することと、によって、
各スペクトルファイルを生成するように構成されている、
請求項14に記載の方法。
【請求項16】
前記機械学習モデルは、
前記スクリーニングリストが読み込まれているか否かを判定することと、
前記スクリーニングリストが読み込まれていると判定したことに応答して、
前記スクリーニングリストが包含リストを含むか否かを判定することと、
前記スクリーニングリストが前記包含リストを含むと判定したことに応答して、
第1の閾値未満のスコアを有し、かつ前記包含リスト上にない一致したスペクトルを破棄することと、
前記スクリーニングリストが除外リストを含むか否かを判定することと、
前記スクリーニングリストが前記除外リストを含むと判定したことに応答して、
前記除外リスト上にある一致したスペクトルを破棄することと、
前記第1の閾値未満のスコアを有する一致したスペクトルを破棄することと、
残りの一致したスペクトルを前記スペクトルマッチファイルに保存することと、によって、
各スペクトルファイルを生成するように構成されている、
請求項14に記載の方法。
【請求項17】
スペクトルマッチファイルの前記第1のサブセットから前記スクリーニングリストを生成することは、
スペクトルマッチファイルの前記第1のサブセットを解析して、存在するペプチドを識別することと、
前記識別されたペプチドの各々について出現頻度を計算することと、
第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、
残りの前記識別されたペプチドを包含リストに追加することと、を含む、
請求項16に記載の方法。
【請求項18】
スペクトルマッチファイルの前記第1のサブセットから前記スクリーニングリストを生成することは、
スペクトルマッチファイルの前記第1のサブセットのスペクトルから強度閾値未満のピークを除去することによって、フィルタリングされたスペクトルを生成することと、
前記フィルタリングされたスペクトルを処理して、前記フィルタリングされたスペクトルに関連するペプチドを識別することと、
識別された各ペプチドの出現数をカウントすることと、
第3の閾値未満の出現数を有するペプチドを前記除外リストに保存することと、を含む、
請求項17に記載の方法。
【請求項19】
科学的機器支援装置であって、
質量分析計によって生成された生データ構造のバッチを受信するための第1のロジックと、
生データ構造の前記バッチを第1のサブセット及び第2のサブセットに分割し、
生データ構造の前記第1のサブセットの各々を人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第1のサブセットを生成し、
処理されたデータ構造の前記第1のサブセットを解析して、比較リストを構築し、
生データ構造の前記第2のサブセットの各々及び前記比較リストを前記人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第2のサブセットを生成するための、第2のロジックと、を含む、
科学的機器支援装置。
【請求項20】
前記人工知能対応データ分析システムは、
前記比較リストが読み込まれているか否かを判定し、
前記比較リストが読み込まれていないと判定したことに応答して、
第1の閾値未満のスコアを有する一致したスペクトルを破棄し、
残りの一致したスペクトルを前記処理されたデータ構造に保存する、ように構成されている、
請求項19に記載の科学的機器支援装置。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の参照)
本出願は、2023年6月1日に出願された「SUPPORT SYSTEMS FOR MASS SPECTROMETRY SCIENTIFIC INSTRUMENTS」と題する米国仮出願第63/505,650号の優先権を主張し、この開示全体は、参照によりその全体が本明細書に組み込まれる。
【0002】
(技術分野)
種々の実施形態は、概して、ただし排他的ではなく、質量分析計及び質量分析計のための支援装置など、科学的機器及び科学的機器支援装置に関する。
【発明の概要】
【0003】
科学的機器は、可動構成要素、センサ、入力と出力ポート、エネルギー源、並びに消耗品構成要素の複雑な配置を含み得る。センサによって生成されたデータは、科学的機器支援装置によって保存及び処理され得る。例えば、典型的なプロテオーム解析ランにおいて、質量分析計は、タンパク質試料の単一のバッチに対して数千から数百万又は数十億個もの質量スペクトルを生成し得る。これらの質量スペクトルは、典型的には、1つの測定に属する全てのスペクトルを含む、生スペクトルファイルとして保存される。各生スペクトルファイルは、質量分析計において検出された各イオンについて、質量電荷比(m/z)及びそれらの対応する強度を記録し得る。生スペクトルファイルは、典型的にはクロマトグラフィーランからの、多くのスペクトルを含み得る。これらの生スペクトルファイルは、プロテオームデータ解析のための開始点として機能し得る。例えば、生スペクトルファイルは、タンパク質試料のバッチ中に存在し得るペプチド及び/又はタンパク質を識別及び/又は定量化するために、様々な計算技法を使用して解析され得る。
【0004】
いくつかの技法は、最初に生スペクトルファイルのバッチを処理して、各生スペクトルファイルについて初期スペクトルマッチファイルを生成することを含む。生スペクトルファイルのバッチは、同じ試料の複数の測定又は複数のサンプルの複数の測定からの一群のデータファイルを含み得る。スペクトルマッチファイルは、対応する生スペクトルファイルについての推定ペプチド配列、タンパク質識別、及び信頼スコアなどの情報を含み得る。次いで、初期スペクトルマッチファイルを処理して、スクリーニングリスト又は関心のあるエンティティのリスト(包含リスト及び/又は除外リストなど)を生成する。次いで、生スペクトルファイルを関心のあるエンティティのリストで再処理して、各生スペクトルファイルについて結果ファイルを生成する。次いで、結果ファイルを解析して、結果リストを生成する。このような技法を使用して、生スペクトルファイルのバッチ全体を処理して初期スペクトルマッチファイルを生成しなければならず、初期スペクトルマッチファイルのバッチ全体を処理してスクリーニングリストを生成しなければならない。次いで、生スペクトルファイルのバッチ全体を包含リスト及び/又は除外リストで再処理して結果ファイルを生成しなければならず、結果ファイルのバッチ全体を処理して結果リストを生成しなければならない。いくつかの実施形態では、初期結果ファイルのバッチ全体を再処理してコンセンサスレポートを生成しなければならない。
【0005】
データの各バッチのサイズが大きいこと(例えば、数千又は数万個ものファイル)、及びバッチ全体が複数回(典型的には2回)処理されなければならないことを考慮すると、前述したものなどの技法は計算集約的であり、それらを使用してリアルタイム又はほぼリアルタイムのデータ分析を実施することは、計算的に実行不可能であり得る。必要とされるのは、リアルタイム又はほぼリアルタイムのデータ分析を可能にするために、計算負荷を低減し、計算スループットを増加させる最適化された技法である。
【0006】
一実施例は、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含む科学的機器支援装置を提供する。命令は、質量分析計によって生成された生スペクトルファイルのバッチを読み込むことと、生スペクトルファイルを第1のサブセット及び第2のサブセットに分割することと、生スペクトルファイルの第1のサブセットの各々を機械学習モデルで処理して、スペクトルマッチファイルの第1のサブセットを生成することと、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することと、生スペクトルファイルの第2のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの第2のサブセットを生成することと、を含む。
【0007】
他の特徴では、命令は、スペクトルマッチファイルの第2のサブセットから結果リストを生成することを含む。他の特徴では、命令は、生スペクトルファイルの第1のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの更新された第1のサブセットを生成することと、スペクトルマッチファイルの更新された第1のサブセット及びスペクトルマッチファイルの第2のサブセットから結果リストを生成することとを含む。他の特徴では、機械学習モデルは、選択された生スペクトルファイルを前処理することと、タンパク質データベースを読み込むことと、タンパク質データベース内の各ペプチドについて試験スペクトルを生成することと、前処理されたスペクトルファイル内のスペクトルを生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成することとによって、各スペクトルマッチファイルを生成するように構成されている。他の特徴では、機械学習モデルは、スクリーニングリストが読み込まれているか否かを判定することと、スクリーニングリストが読み込まれていないと判定したことに応答して、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルをスペクトルマッチファイルに保存することとによって、各スペクトルファイルを生成するように構成されている。
【0008】
他の特徴では、機械学習モデルは、スクリーニングリストが読み込まれているか否かを判定することによって、各スペクトルファイルを生成するように構成されている。スクリーニングリストが読み込まれていると判定したことに応答して、機械学習モデルは、スクリーニングリストが包含リストを含むか否かを判定することと、スクリーニングリストが包含リストを含むと判定したことに応答して、第1の閾値未満のスコアを有し、かつ包含リスト上にない一致したスペクトルを破棄することと、スクリーニングリストが除外リストを含むか否かを判定することと、スクリーニングリストが除外リストを含むと判定したことに応答して、除外リスト上にある一致したスペクトルを破棄することとによって、各スペクトルファイルを生成するように構成されている。機械学習モデルは、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルをスペクトルマッチファイルに保存することによって各スペクトルファイルを生成するように構成されている。他の特徴では、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することは、スペクトルマッチファイルの第1のサブセットを解析して、存在するペプチドを識別することと、識別されたペプチドの各々について出現頻度を計算することと、第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、残りの識別されたペプチドを包含リストに追加することとを含む。
【0009】
他の特徴では、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することは、スペクトルマッチファイルの第1のサブセットのスペクトルから強度閾値未満のピークを除去することによって、フィルタリングされたスペクトルを生成することと、フィルタリングされたスペクトルを処理して、フィルタリングされたスペクトルに関連するペプチドを識別することと、識別された各ペプチドの出現数をカウントすることと、第3の閾値未満の出現数を有するペプチドを除外リストに保存することと、を含む。他の特徴では、選択された生スペクトルファイルを前処理することは、生スペクトルファイルのスペクトル内のピークを検出することと、スペクトルからノイズを除去することと、スペクトルにベースライン補正を適用することと、スペクトルに質量校正を適用することと、スペクトルに逆畳み込み処理を適用することとを含む。他の特徴では、質量分析計は、調製された試料をイオン化することと、イオン化された試料に対してイオン分離を行うことと、分離されたイオンを検出することと、検出された分離イオンから質量スペクトルを生成することとによって、生スペクトルファイルを生成する。
【0010】
他の実施例は、質量分析計によって生成された生スペクトルファイルのバッチを読み込むことと、生スペクトルファイルを第1のサブセット及び第2のサブセットに分割することと、生スペクトルファイルの第1のサブセットの各々を機械学習モデルで処理して、スペクトルマッチファイルの第1のサブセットを生成することと、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することと、生スペクトルファイルの第2のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの第2のサブセットを生成することと、を含む、科学的機器支援のためのコンピュータ実装方法を提供する。
【0011】
他の特徴では、本方法は、スペクトルマッチファイルの第2のサブセットから結果リストを生成することを含む。他の特徴では、本方法は、生スペクトルファイルの第1のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの更新された第1のサブセットを生成することと、スペクトルマッチファイルの更新された第1のサブセット及びスペクトルマッチファイルの第2のサブセットから結果リストを生成することと、を含む。他の特徴では、機械学習モデルは、選択された生スペクトルファイルを前処理することと、タンパク質データベースを読み込むことと、タンパク質データベース内の各ペプチドについて試験スペクトルを生成することと、前処理されたスペクトルファイル内のスペクトルを生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成することとによって各スペクトルマッチファイルを生成するように構成されている。他の特徴では、機械学習モデルは、スクリーニングリストが読み込まれているか否かを判定することと、スクリーニングリストが読み込まれていないと判定したことに応答して、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルをスペクトルマッチファイルに保存することとによって、各スペクトルファイルを生成するように構成されている。
【0012】
他の特徴では、機械学習モデルは、スクリーニングリストが読み込まれているか否かを判定することによって各スペクトルファイルを生成するように構成されている。スクリーニングリストが読み込まれていると判定したことに応答して、機械学習モデルは、スクリーニングリストが包含リストを含むか否かを判定することと、スクリーニングリストが包含リストを含むと判定したことに応答して、第1の閾値未満のスコアを有し、かつ包含リスト上にない一致したスペクトルを破棄することと、スクリーニングリストが除外リストを含むか否かを判定することと、スクリーニングリストが除外リストを含むと判定したことに応答して、除外リスト上にある一致したスペクトルを破棄することとによって、各スペクトルファイルを生成するように構成されている。機械学習モデルは、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルをスペクトルマッチファイルに保存することによって、各スペクトルファイルを生成するように構成されている。他の特徴では、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することは、スペクトルマッチファイルの第1のサブセットを解析して、存在するペプチドを識別することと、識別されたペプチドの各々について出現頻度を計算することと、第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、残りの識別されたペプチドを包含リストに追加することとを含む。
【0013】
他の特徴では、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することは、スペクトルマッチファイルの第1のサブセットのスペクトルから強度閾値未満のピークを除去することによって、フィルタリングされたスペクトルを生成することと、フィルタリングされたスペクトルを処理して、フィルタリングされたスペクトルに関連するペプチドを識別することと、識別された各ペプチドの出現数をカウントすることと、第3の閾値未満の出現数を有するペプチドを除外リストに保存することと、を含む。他の特徴では、選択された生スペクトルファイルを前処理することは、生スペクトルファイルのスペクトル内のピークを検出することと、スペクトルからノイズを除去することと、スペクトルにベースライン補正を適用することと、スペクトルに質量校正を適用することと、スペクトルに逆畳み込み処理を適用することと、を含む。他の特徴では、質量分析計は、調製された試料をイオン化することと、イオン化された試料に対してイオン分離を行うことと、分離されたイオンを検出することと、検出された分離イオンから質量スペクトルを生成することとによって、生スペクトルファイルを生成する。
【0014】
他の特徴では、1つ以上の非一時的コンピュータ可読媒体が、科学的機器支援装置の1つ以上の処理デバイスによって実行されると科学的機器支援装置に本方法を実施させる命令をその上に含む。
【0015】
いくつかの実施例によれば、科学的機器支援装置は、質量分析計によって生成された生データ構造のバッチを受信するための第1のロジックと、生データ構造のバッチを第1のサブセット及び第2のサブセットに分割し、生データ構造の第1のサブセットの各々を人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第1のサブセットを生成し、処理されたデータ構造の第1のサブセットを解析して、比較リストを構築し、生データ構造の第2のサブセットの各々及び比較リストを人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第2のサブセットを生成するための第2のロジックと、を含む。
【0016】
他の特徴では、質量分析計は、調製された試料をイオン化することと、イオン化された試料に対してイオン分離を行うことと、分離されたイオンを検出することと、検出された分離イオンから質量スペクトルを生成することとによって、生データ構造を生成するように構成されている。他の特徴では、人工知能対応データ分析システムは、選択されたデータ構造を前処理し、データベースを読み込み、データベース内の各ペプチドについて試験スペクトルを生成し、前処理されたデータ構造内のスペクトルを生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成するように構成されている。他の特徴では、人工知能対応データ分析システムは、比較リストが読み込まれているか否かを判定し、比較リストが読み込まれていないと判定したことに応答して、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルを処理されたデータ構造に保存するように構成されている。
【0017】
他の特徴では、人工知能対応データ分析システムは、比較リストが読み込まれているか否かを判定するように構成されている。比較リストが読み込まれていると判定したことに応答して、人工知能対応データ分析システムは、比較リストが包含リストを含むか否かを判定し、比較リストが包含リストを含むと判定したことに応答して、第1の閾値未満のスコアを有し、かつ包含リスト上にない一致したスペクトルを破棄し、比較リストが除外リストを含むか否かを判定し、比較リストが除外リストを含むと判定したことに応答して、除外リスト上にある一致したスペクトルを破棄するように構成されている。人工知能対応データ分析システムは、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルを処理されたデータ構造に保存するように構成されている。他の特徴では、選択されたデータ構造を前処理することは、選択されたデータ構造のスペクトル内のピークを検出することと、スペクトルからノイズを除去することと、スペクトルにベースライン補正を適用することと、スペクトルに質量校正を適用することと、スペクトルに逆畳み込み処理を適用することとを含む。
【0018】
他の特徴では、第2のロジックは、処理されたデータ構造の第1のサブセットを解析して、存在するペプチドを識別することと、識別されたペプチドの各々について出現頻度を計算することと、第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、残りの識別されたペプチドを包含リストに追加することとによって、比較リストを構築するように構成されている。他の特徴では、第2のロジックは、処理されたデータ構造の第1のサブセットを解析して、強度閾値未満のピークを除去することによってフィルタリングされたスペクトルを生成することと、フィルタリングされたスペクトルを処理して、フィルタリングされたスペクトルに関連するペプチドを識別することと、識別された各ペプチドの出現数をカウントすることと、第3の閾値未満の出現数を有するペプチドを除外リストに保存することとによって、比較リストを構築するように構成されている。他の特徴では、第2のロジックは、処理されたデータ構造の第2のサブセットを処理することによって出力リストを生成するように構成されている。他の特徴では、第2のロジックは、生データ構造の第1のサブセットの各々及び比較リストを人工知能対応データ分析システムに提供することによって、処理されたデータ構造の更新された第1のサブセットを生成し、処理されたデータ構造の更新された第1のサブセット及び処理されたデータ構造の第2のサブセットを処理することによって、出力リストを生成するように構成されている。
【0019】
他の実施例は、質量分析計によって生成された生データ構造のバッチを読み込むことと、生データ構造のバッチを第1のサブセット及び第2のサブセットに分割することと、生データ構造の第1のサブセットの各々を人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第1のサブセットを生成することと、処理されたデータ構造の第1のサブセットを解析して、比較リストを構築することと、生データ構造の第2のサブセットの各々及び比較リストを人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第2のサブセットを生成することと、を含む、科学的機器支援のための方法を提供する。
【0020】
他の特徴では、質量分析計は、調製された試料をイオン化することと、イオン化された試料に対してイオン分離を行うことと、分離されたイオンを検出することと、検出された分離イオンから質量スペクトルを生成することとによって、生データ構造を生成するように構成されている。他の特徴では、人工知能対応データ分析システムは、選択されたデータ構造を前処理し、データベースを読み込み、データベース内の各ペプチドについて試験スペクトルを生成し、前処理されたデータ構造内のスペクトルを生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成するように構成されている。他の特徴では、人工知能対応データ分析システムは、比較リストが読み込まれているか否かを判定し、比較リストが読み込まれていないと判定したことに応答して、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルを処理されたデータ構造に保存するように構成されている。
【0021】
他の特徴では、人工知能対応データ分析システムは、比較リストが読み込まれているか否かを判定するように構成されている。比較リストが読み込まれていると判定したことに応答して、人工知能対応データ分析システムは、比較リストが包含リストを含むか否かを判定し、比較リストが包含リストを含むと判定したことに応答して、第1の閾値未満のスコアを有し、かつ包含リスト上にない一致したスペクトルを破棄し、比較リストが除外リストを含むか否かを判定し、比較リストが除外リストを含むと判定したことに応答して、除外リスト上にある一致したスペクトルを破棄するように構成されている。人工知能対応データ分析システムは、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルを処理されたデータ構造に保存するように構成されている。
【0022】
他の特徴では、選択されたデータ構造を前処理することは、選択されたデータ構造のスペクトル内のピークを検出することと、スペクトルからノイズを除去することと、スペクトルにベースライン補正を適用することと、スペクトルに質量校正を適用することと、スペクトルに逆畳み込み処理を適用することと、を含む。他の特徴では、処理されたデータ構造の第1のサブセットを解析して比較リストを構築することは、処理されたデータ構造の第1のサブセットを解析して、存在するペプチドを識別することと、識別されたペプチドの各々について出現頻度を計算することと、第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、残りの識別されたペプチドを包含リストに追加することとを含む。
【0023】
他の特徴では、処理されたデータ構造の第1のサブセットを解析して比較リストを構築することは、処理されたデータ構造の第1のサブセットを解析して、強度閾値未満のピークを除去することによってフィルタリングされたスペクトルを生成することと、フィルタリングされたスペクトルを処理して、フィルタリングされたスペクトルに関連するペプチドを識別することと、識別された各ペプチドの出現数をカウントすることと、第3の閾値未満の出現数を有するペプチドを除外リストに保存することと、を含む。他の特徴では、本方法は、処理されたデータ構造の第2のサブセットを処理することによって出力リストを生成することを含む。他の特徴では、本方法は、生データ構造の第1のサブセットの各々及び比較リストを人工知能対応データ分析システムに提供することによって、処理されたデータ構造の更新された第1のサブセットを生成することと、処理されたデータ構造の更新された第1のサブセット及び処理されたデータ構造の第2のサブセットを処理することによって、出力リストを生成することと、を含む。
【0024】
他の特徴では、1つ以上の非一時的コンピュータ可読媒体が、科学的機器支援装置の1つ以上の処理デバイスによって実行されると科学的機器支援装置に本方法を実施させる命令をその上に含む。
【0025】
いくつかの実施例は、質量分析データの第1のセットを受信することと、質量分析データの第1のセットを処理して、識別されたエンティティのデータベースを生成することと、質量分析データの第2のセットを受信することと、質量分析データの第2のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することと、を含む、科学的機器支援のための方法を含む。
【0026】
他の特徴では、質量分析データの第1のセット及び質量分析データの第2のセットは、同じデータ取得方法を使用して生成される。他の特徴では、データ取得方法は、データ独立取得方法である。他の特徴では、データ取得方法は、データ依存取得方法である。他の特徴では、質量分析データの第1のセットを処理して、識別されたエンティティのデータベースを生成することは、質量分析データの第1のセットからのイオンスペクトルを参照データベースと比較することを含む。他の特徴では、質量分析データの第1のセットを処理して、識別されたエンティティのデータベースを生成することは、最低限の品質基準を満たしている質量分析データの第1のセットからのエンティティを識別されたエンティティのデータベースに追加することを含む。他の特徴では、最低限の品質基準は、閾値、偽検出率、又はスペクトルマッチスコアのうちの少なくとも1つに従って設定される。
【0027】
他の特徴では、識別されたエンティティのデータベースは、ペプチド配列を含む。他の特徴では、識別されたエンティティのデータベースは、ペプチド識別を含む。他の特徴では、識別されたエンティティのデータベースは、質量スペクトルを含む。他の特徴では、識別されたエンティティのデータベースは、プリカーサイオン情報を含む。他の特徴では、プリカーサイオン情報は、質量情報を含む。他の特徴では、プリカーサイオン情報は、質量電荷比を含む。他の特徴では、プリカーサイオン情報は、質量電荷ウィンドウを含む。他の特徴では、本方法は、質量分析データの第1のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することを含む。他の特徴では、本方法は、質量分析データの第2のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することが、質量分析データの第2のセットからのイオンスペクトルを識別されたエンティティのデータベース内のエントリと比較することを含むことを含む。
【0028】
他の特徴では、本方法は、質量分析データの第2のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することが、質量分析データの第2のセットからのフラグメンテーションスペクトルを識別されたエンティティのデータベース内のエントリと比較することを含むことを含む。他の特徴では、本方法は、質量分析データの第2のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することが、識別されたエンティティのデータベース内にあるエンティティについて質量分析データの第2のセットを検索することを含むことを含む。他の特徴では、識別されたエンティティのデータベース内にあるエンティティについて質量分析データの第2のセットを検索することは、プリカーサ情報又は保持時間情報のうちの少なくとも1つについて、識別されたエンティティのデータベースを検索することを含む。他の特徴では、本方法は、質量分析データの第2のセットのうちの少なくともいくつかを処理して、識別されたエンティティのデータベースを拡張することを含む。
【0029】
他の特徴では、質量分析データの第2のセットのうちの少なくともいくつかを処理して、識別されたエンティティのデータベースを拡張することは、質量分析データの第1及び第2のセットの既に処理されたメンバーを再検索して、更なる識別及び/又は定量情報を受信することを含む。他の特徴では、質量分析データの第2のセットのうちの少なくともいくつかを処理して、識別されたエンティティのデータベースを拡張することは、識別されたエンティティのデータベースの成長率が第2の閾値を下回ることに応答して停止される。他の特徴では、第2の閾値は、質量分析データの第2のセットのメンバー当たり平均10個未満の追加エントリである。他の特徴では、第2の閾値は、質量分析データの第2のセットのメンバー当たり平均1個未満の追加エントリである。他の特徴では、第2の閾値は、質量分析データの第2のセットのメンバー当たり平均0.1個未満の追加エントリである。他の特徴では、第2の閾値は、質量分析データの第2のセットのメンバー当たり平均0.01個未満の追加エントリである。
【0030】
他の特徴では、質量分析データの第1のセットのメンバーは、質量分析データの第2のセットのメンバーよりも高い濃度を有するように選択されている。他の特徴では、科学的機器支援装置は、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含み、命令は、処理ハードウェアによって実行されると、科学的機器支援装置に本方法を実施させる。
【0031】
他の特徴では、1つ以上の非一時的コンピュータ可読媒体が、科学的機器支援装置の1つ以上の処理デバイスによって実行されると科学的機器支援装置に本方法を実施させる命令をその上に含む。
【0032】
実施例は、1つ以上の試料を表す質量分析ファイルの第1のセットを受信することと、質量分析データの第1のセットの各スペクトルファイルを機械学習モデルの第1のセットから選択された機械学習モデルで分析して初期結果を生成することと、初期結果を分析してスクリーニングリストを生成することと、質量分析データの第2のセットから1つ以上の生スペクトルファイルを受信することと、質量分析データの第2のセットからの1つ以上の生スペクトルファイルの各々を機械学習モデルの第2のセットから選択された機械学習モデルにおいて分析して結果ファイルを生成することと、結果ファイルをデータストアに保存することとを含む、科学的機器支援のための方法を含む。
【0033】
他の特徴では、機械学習モデルの第1のセットから選択された機械学習モデルは、機械学習モデルの第2のセットから選択された機械学習モデルと同じである。他の特徴では、機械学習モデルの第1のセットから選択された機械学習モデルは、機械学習モデルの第2のセットから選択された機械学習モデルと異なる。他の特徴では、機械学習モデルの第1のセットから選択された機械学習モデル及び機械学習モデルの第2のセットから選択された機械学習モデルは、データベース検索エンジンを含む。他の特徴では、データベース検索エンジンはペプチド検索エンジンである。
【0034】
他の特徴では、初期結果を分析してスクリーニングリストを生成することは、全ての検索からの高信頼度の識別を、所与の実験設定について識別されたエンティティの1つのスクリーニングリストにマージすることを含む。他の特徴では、科学的機器支援装置は、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含み、命令は、処理ハードウェアによって実行されると、科学的機器支援装置に本方法を実施させる。
【0035】
他の特徴では、1つ以上の非一時的コンピュータ可読媒体が、その上に、科学的機器支援装置の1つ以上の処理デバイスによって実行されると科学的機器支援装置に本方法を実施させる命令を含む。
【0036】
科学的機器支援のための方法は、質量分析データのセットの第1のサブセットを受信することと、第1のスクリーニングリストを受信することと、質量分析データの第1のサブセット及び第1のスクリーニングリストを第1のデータベース検索エンジンにおいて処理して、第2のスクリーニングリストを生成することと、質量分析データのセットの第2のサブセットを受信することと、質量分析データの第2のサブセットの各ファイル及びターゲットスクリーニングリストを第2のデータベース検索エンジンに提供して、質量分析データの第2のサブセットの各ファイルについて結果ファイルを生成することと、を含み、ターゲットスクリーニングリストは、第2のスクリーニングリストに基づく。
【0037】
他の特徴では、第2のスクリーニングリストは、ターゲットスクリーニングリストとして第2のデータベース検索エンジンに提供される。他の特徴では、ターゲットスクリーニングリストは、第1のスクリーニングリストと第2のスクリーニングリストとをマージすることによって生成される。他の特徴では、質量分析データのセットは、1つ以上の関連した研究からのデータを含む。他の特徴では、質量分析データのセットは、質量データ、強度データ、保持時間、イオン移動度データ、物理化学的特性、及び空間的に配置された試料上の位置のうちの少なくとも1つを含む。他の特徴では、質量分析データのセットの要素は、試料の類似性及びデータ取得方法の類似性のうちの少なくとも1つによって関連付けられる。他の特徴では、第1のスクリーニングリストは、FASTAフォーマットでフォーマットされている。他の特徴では、質量分析データの第1のサブセット及び第1のスクリーニングリストを第1のデータベース検索エンジンにおいて処理して、第2のスクリーニングリストを生成することは、基準に従ってエンティティを選択することを含む。
【0038】
他の特徴では、エンティティはタンパク質又はペプチドを含む。他の特徴では、基準に従ってエンティティを選択することは、各エンティティが品質管理試験に合格又は不合格であると判定することと、各エンティティが品質管理試験に合格であると判定したことに応答して、そのエンティティを識別されたエンティティのデータベースに追加することとを含む。他の特徴では、品質管理試験は、偽発見率に基づいてエンティティを選択することと、エンティティがスペクトル品質閾値を満たすか又は超えるか否かを判定することと、エンティティが参照と共通する少なくともいくつかのピークを有するか否かを判定することと、エンティティがサブセット内で最小限の出現数を満たすか又は超えるか否かを判定することとのうちの少なくとも1つを含む。他の特徴では、品質管理試験は、パーコレーター(percolator)機械学習モデルに従ってエンティティをランク付けすることと、真陽性エンティティ識別を誤ったエンティティ識別から分離することとを含む。
【0039】
他の特徴では、各エンティティは、エンティティ識別子、タンパク質配列、ペプチド配列、質量分析(MS)分光計からの1つ以上の質量、タンデム質量分析(MS/MS)分光計からの1つ以上の質量、強度値、物理化学的特性、保持時間、又はイオン移動度のうちの少なくとも1つによって表される。他の特徴では、質量分析データの第2のサブセットの各ファイル及びターゲットスクリーニングリストを第2のデータベース検索エンジンに提供して、質量分析データの第2のサブセットの各ファイルについて結果ファイルを生成することは、ターゲットスクリーニングリストに存在しないエンティティを更なる処理から除外することと、ターゲットスクリーニングリストに存在するエンティティを更なる処理のために含めることとのうちの少なくとも1つを含む。
【0040】
他の特徴では、質量分析データの第2のサブセットの各ファイル及びターゲットスクリーニングリストを第2のデータベース検索エンジンに提供して、質量分析データの第2のサブセットの各ファイルについて結果ファイルを生成することは、第2のサブセットの各ファイルからの質量分析データをライブラリスペクトルデータと比較することを含む。他の特徴では、質量分析データの第2のサブセットの各ファイル及びターゲットスクリーニングリストを第2のデータベース検索エンジンに提供して、質量分析データの第2のサブセットの各ファイルについて結果ファイルを生成することは、ターゲットスクリーニングリストに存在するエンティティに基づいて作成された合成スペクトルに対する第2のサブセットの各ファイルからの質量分析データを含む。
【0041】
他の特徴では、第2のサブセットの各ファイルからの質量分析データは、質量データ、強度データ、保持時間データ、及びイオン移動度データのうちの少なくとも1つを含む。他の特徴では、第1のデータベース検索エンジン及び第2のデータベース検索エンジンは、同じ処理ツールチェーンを適用する。他の特徴では、第1のデータベース検索エンジン及び第2のデータベース検索エンジンは、異なる処理ツールチェーンを適用する。他の特徴では、第1のデータベース検索エンジンは、質量分析データの第1のサブセットからのエンティティを第1の基準に基づいて第1の参照エンティティと照合し、第2のデータベース検索エンジンは、質量分析データの第2のサブセットからのエンティティを第2の基準に基づいて第2の参照エンティティと照合し、第1の基準は、第2の基準よりも高い一致を必要とする。
【0042】
他の特徴では、第1の基準は、フラグメント、質量偏差、保持時間、及び物理化学的特性のうちの少なくとも1つに基づいてエンティティを照合することを含む。他の特徴では、第2の基準は、フラグメント、質量偏差、保持時間、及び物理化学的特性のうちの少なくとも1つに基づいてエンティティを照合することを含む。他の特徴では、第2のデータベース検索エンジンは、試料ごとの識別の整列されたデータベースを出力するように構成されている。他の特徴では、第2のデータベース検索エンジンは、定量値を計算することによって更なる処理ステップを実施するように構成されている。他の特徴では、第2のデータベース検索エンジンは、試料内の相対強度に基づいて定量値を計算するように構成されている。他の特徴では、第2のデータベース検索エンジンは、試料間にわたる相対強度に基づいて定量値を計算するように構成されている。
【0043】
他の特徴では、第2のデータベース検索エンジンは、複数の隣接する質量スペクトルにわたる信号強度から定量値を計算するように構成されている。他の特徴では、第2のデータベース検索エンジンは、複数の隣接する質量スペクトルにわたるスペクトル寄与因子から定量値を計算するように構成されている。他の特徴では、第2のデータベース検索エンジンは、標識されていない校正物質を使用して定量値を計算するように構成されている。他の特徴では、第2のデータベース検索エンジンは、標識された校正物質を使用して定量値を計算するように構成されている。他の特徴では、標識された校正物質の標識は、質量タグ及び同位体標識のうちの少なくとも1つを含む。
【0044】
他の特徴では、第2のデータベース検索エンジンは、質量分析データのセット、質量分析データの第1のサブセット、質量分析データの第2のサブセット、質量分析データの更なるサブセット、並びに質量分析データのセットの第1のサブセット及び1つ以上の追加の要素を含む第3のサブセットのうちの少なくとも1つにわたって出現を判定するように構成されている。他の特徴では、第2のデータベース検索エンジンは、質量分析データのセット、質量分析データの第1のサブセット、質量分析データの第2のサブセット、質量分析データの更なるサブセット、並びに質量分析データのセットの第1のサブセット及び1つ以上の追加の要素を含む第3のサブセットのうちの少なくとも1つにわたって出現を比較するように構成されている。
【0045】
他の特徴では、第2のデータベース検索エンジンは、質量分析データのセット、質量分析データの第1のサブセット、質量分析データの第2のサブセット、質量分析データの更なるサブセット、並びに質量分析データのセットの第1のサブセット及び1つ以上の追加の要素を含む第3のサブセットのうちの少なくとも1つにわたって定量比較を判定するように構成されている。他の特徴では、第2のデータベース検索エンジンは、質量分析データのセットにわたる識別及び定量のデータベースを出力するように構成されている。他の特徴では、第2のデータベース検索エンジンは、質量分析データのセットの一部にわたる識別及び定量のデータベースを出力するように構成されている。他の特徴では、本方法は、スクリーン上に表示されるグラフィカルユーザインターフェースに少なくとも1つの結果ファイルを出力することを更に含む。グラフィカルユーザインターフェースは、ユーザ又は他のデータシステムが、(i)試料間の有意差、(ii)1つ以上の試料内での物質の存在、及び(iii)1つ以上の試料内での物質の非存在のうちの少なくとも1つに関して、少なくとも1つの結果ファイルに問い合わせることを可能にするように構成されている。
【0046】
他の特徴では、科学的機器支援装置は、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含み、命令は、処理ハードウェアによって実行されると、科学的機器支援装置に本方法を実施させる。他の特徴では、1つ以上の非一時的コンピュータ可読媒体が、その上に、科学的機器支援装置の1つ以上の処理デバイスによって実行されると科学的機器支援装置に本方法を実施させる命令を有する。
【図面の簡単な説明】
【0047】
実施形態は、添付の図面と併せて以下の詳細な説明によって容易に理解されるであろう。この説明を容易にするために、同様の参照番号は同様の構造要素を指している。実施形態は、限定としてではなく例として、添付の図面の図に例解されている。
図1】支援動作を実施するための科学的機器支援モジュールのブロック図である。
図2A】科学的機器によって生成されたセンサデータを処理するための第1の例示的なプロセスのフローチャートである。
図2B】科学的機器によって生成されたセンサデータを処理するための第1の例示的なプロセスのフローチャートである。
図3A】科学的機器によって生成されたセンサデータを処理するための第2の例示的なプロセスのフローチャートである。
図3B】科学的機器によって生成されたセンサデータを処理するための第2の例示的なプロセスのフローチャートである。
図3C】科学的機器によって生成されたセンサデータを処理するための第2の例示的なプロセスのフローチャートである。
図4】質量分析計を使用して試料のバッチから生スペクトルファイルを生成するための例示的なプロセスのフローチャートである。
図5A】生スペクトルファイルを処理して結果ファイルを生成するための例示的なプロセスのフローチャートである。
図5B】生スペクトルファイルを処理して結果ファイルを生成するための例示的なプロセスのフローチャートである。
図6】スペクトルマッチファイルからスクリーニングリストを生成するための例示的なプロセスのフローチャートである。
図7】スペクトルマッチファイルからスクリーニングリストを生成するための例示的なプロセスのフローチャートである。
図8】スペクトルマッチファイルから結果リストを生成するための例示的なプロセスのフローチャートである。
図9】生スペクトルファイルを前処理するための例示的なプロセスのフローチャートである。
図10】科学的機器支援方法の実施において使用され得る例示的なグラフィカルユーザインターフェースを示す。
図11】科学的機器支援方法が実施され得るコンピューティングデバイスのブロック図である。
図12】科学的機器支援方法が実施され得る例示的な科学的機器支援システムのブロック図である。
図13図2A及び図2Bの第1の例示的なプロセスの一部の例示的な実装形態のブロック図である。
図14図3A図3B、及び図3Cの第2の例示的なプロセスの一部の例示的な実装形態のブロック図である。
図15図3A図3B、及び図3Cの第2の例示的なプロセスの一部の例示的な実装形態のブロック図である。
図16図3A図3B、及び図3Cの第2の例示的なプロセスの一部の例示的な実装形態のブロック図である。
図17図3A図3B、及び図3Cの第2の例示的なプロセスの一部の例示的な実装形態のブロック図である。
【発明を実施するための形態】
【0048】
本明細書に開示されるのは、科学的機器支援システム、並びに関連する方法、コンピューティングデバイス、及びコンピュータ可読媒体である。例えば、いくつかの実施形態では、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含む科学的機器支援装置である。命令は、質量分析計によって生成された生スペクトルファイルのバッチを読み込むことと、生スペクトルファイルを第1のサブセット及び第2のサブセットに分割することと、生スペクトルファイルの第1のサブセットの各々を機械学習モデルで処理して、スペクトルマッチファイルの第1のサブセットを生成することと、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することと、生スペクトルファイルの第2のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの第2のサブセットを生成することと、を含む。
【0049】
本明細書に開示される科学的機器支援の実施形態は、従来のアプローチに対して改善された性能を達成し得る。例えば、プロテオミクスでは、質量分析機器を使用して、生体試料(タンパク質試料など)の質量スペクトルを生成する。各質量スペクトルは、生体試料中に存在する化合物の相対強度対質量電荷比(m/z)のヒストグラムプロットとして表すことができる。したがって、プロテオミクスにおいて使用される場合、各質量スペクトルは、ペプチド(又は複数のペプチド)の化学成分、すなわち、タンパク質の構成要素を表し得る。ペプチドは、分析される前の生体試料の調製中に消化によって生成される。典型的には、生体試料から生成された組み合わされた質量スペクトルは、試料中に存在するペプチドを識別するための様々な技法を使用して分析され得る。
【0050】
従来の質量分析技法(並びに関連するデータ合成及び分析技法)には、様々な問題が存在する。例えば、各生体試料は、典型的には、質量分析計によって分析される前に化学的に分解される。したがって、いくつかの例では、各個々の試料は、1回だけ分析することができる。これは、多くの場合、試料間で高レベルのラン間変動をもたらす。この変動は、(i)生体試料がその構成ペプチドに完全に分解しない、(ii)生体試料、及び/若しくはタンパク質を分解するために使用される溶媒が汚染されている、(iii)生体試料自体が不完全である(例えば、同じタンパク質の異なる試料間に組成的及び/又は構造的変動が存在し得る)、並びに/又は(iv)質量分析計によって導入される器差が存在するために生じ得る。これらの問題のために、個々の試料から生成された質量スペクトルは、タンパク質の組成の信頼できる指標とみなすことができない。各個々の試料から生成された質量スペクトルは、欠損データである、及び/又は過剰データを含有する傾向があり得る(例えば、汚染物質又は器差によって導入されるノイズのため)。したがって、タンパク質の化学組成の信頼できる絵を構築するために、大量の試料からの質量スペクトルが、典型的には、統計的方法又は他のアルゴリズムを使用して分析されて、(i)欠損データを補充する、及び/又は(ii)ノイズを排除する。
【0051】
そのような分析における技法は、ラン間マッチ技法である。一般に、ラン間マッチ技法は、(i)個々のランにおけるペプチド特徴(ペプチドイオンに対応するクロマトグラフィーピークなど)を検出し、(ii)検出された特徴を(例えば、それらの保持時間[RT]、質量電荷比[m/z]、及び/又は強度に従って)特徴付け、(iii)ペプチド特徴(それらの実験スペクトルなど)をタンパク質データベースによって生成された理論若しくは測定スペクトルと比較することによってペプチドを識別し、(iv)保持時間アラインメントを実施して、ラン間の保持時間の変動性を考慮し、(v)複数のランにわたってペプチド特徴を照合し、(vi)偽検出率(FDR)閾値を適用して、偽陽性識別の比率を制御し、(vii)強度正規化動作を実施して、一致した特徴の強度が全てのランにわたって比較可能であることを確実にし、並びに/又は(viii)アラインメント及び一致したペプチド特徴を単一のデータセットに統合することによってデータ統合及び分析動作を実施し得る。
【0052】
ペプチド識別を更に改善し、欠測値を低減し、再現性を高め、ラン間マッチ技法の全体的性能を改善するために、包含リスト及び/又は除外リストがラン間マッチプロセス中に使用され得る。例えば、包含リスト及び/又は除外リストは、包含リスト中のペプチドイオンを優先する、及び/又はデータからノイズを除去するために、ペプチド識別及び/又はペプチドマッチング段階中に使用され得る。従来のアプローチでは、(i)データベース検索アルゴリズムを使用してデータセット内の全てのスペクトルを処理して一致を生成し、(ii)データセット全体の一致を処理して包含リスト及び/又は除外リストを生成し、(iii)次いで、生成された包含リスト及び/又は除外リストを用いてデータセット全体の全てのスペクトルを再処理して、更新された一致を生成する。
【0053】
典型的な質量分析ランでは、何千個もの、又は何万個もの生スペクトルファイルが、タンパク質試料のバッチに対して生成され得る。これらの数千又は数万個もの生スペクトルファイルは、(i)処理され、(ii)包含リスト及び/又は除外リストを生成するために分析され、(iii)包含リスト及び/又は除外リストで再処理されなければならない。従来の技法を使用して質量分析データセットを処理することに関連した膨大な計算要件は、リアルタイム又はほぼリアルタイムの処理を行う。したがって、リアルタイム又はほぼリアルタイムの結果を可能にするために、質量分析システムの計算スループットを改善する新しい計算技法が必要とされる。
【0054】
したがって、本明細書で開示の実施形態は、科学的機器技術に改善を提供する(例えば、とりわけ、かかる科学的機器を支援するコンピュータ技術の改善など)。前述したように、本明細書に開示される実施形態は、従来のアプローチと比較して、より高い計算スループットを達成し得る。本明細書に開示される実施形態のうちの種々のものは、計算スループットを改善し、質量分析データがリアルタイム又はほぼリアルタイムで処理されることを可能にするという技術的利点を達成するために、従来のアプローチを改良し得る。そのような技術的利点は、日常的な従来のアプローチでは達成できないものであり、そのような実施形態を含むシステムの全てのユーザは、これらの利点の恩恵を受け得る(例えば、ガイドされたヒューマンマシン相互作用プロセスによって、質量分析計を使用してデータを生成すること、及び生成したデータを処理することなど、技術的タスクの実施においてユーザを支援することによる)。したがって、本明細書に開示される実施形態の技術的特徴は、本明細書に開示される実施形態の特徴の組み合わせと同様に、質量分析の分野では明らかに非慣用的である。本明細書で更に論じられるように、本明細書で開示される実施形態の様々な態様は、コンピュータ自体の機能を改善することができる。例えば、コンピュータのスループットを改善することによる。本明細書に開示される計算及びユーザインターフェース特徴は、情報の収集及び比較を伴うだけでなく、質量分析におけるデータ処理及び分析パイプラインの動作を変更するための新しい分析技法及び技術的技法を適用する。したがって、本開示は、従来のコンピューティングデバイスも人間も実施することができなかった機能を導入する。
【0055】
それ故、本開示の実施形態は、特定の技術システム、又はプロセスを制御すること、測定値から機械を制御する方法を決定すること、混合信号におけるソースの分離、コンピュータネットワークにおける負荷分散を最適化すること、生体試料についての推定値及び信頼区間を提供すること、技術的項目又はプロセスの挙動をシミュレートすること、遺伝子型推定値を導出すること、処理されるべきセンサデータの量を低減すること、並びに/又はセンサデータのより高速な処理を提供することなど、複数の技術的目的のいずれかを果たし得る。したがって、本明細書に開示される実施形態は、質量分析技術に対する改善(例えば、改善の中でも、質量分析を支援するコンピュータ技術の改善)を提供する。
【0056】
以下の詳細な説明では、本明細書の一部を形成する添付の図面が参照され、同様の数字は全体を通して同様の部分を示し、例解として、実施され得る実施形態が示される。本開示の範囲から逸脱することなく、他の実施形態が利用され得、構造的又は論理的変更が行われ得ることを理解されたい。したがって、以下の詳細な説明は、限定的な意味で解釈されるべきではない。
【0057】
様々な動作は、本明細書に開示される主題を理解するのに最も役立つように、複数の別個のアクション又は動作として順に説明され得る。しかしながら、説明の順序は、これらの動作が必然的に順序に依存することを示唆するものとして解釈されるべきではない。具体的には、これらの動作は、提示の順序で実施されない場合がある。説明される動作は、説明される実施形態とは異なる順序で実施され得る。様々な追加の動作が実施され得、及び/又は説明された動作が追加の実施形態において省略され得る。
【0058】
本開示の目的のために、「A及び/又はB(A and/or B)」及び「A又はB(A or B)」という語句は、(A)、(B)、又は(A及びB)を意味する。本開示の目的のために、「A、B、及び/又はC(A, B, and/or C)」及び「A、B、又はC(A, B, or C)」という語句は、(A)、(B)、(C)、(A及びB)、(A及びC)、(B及びC)、又は(A、B、及びC)を意味する。いくつかの要素は単数形(例えば、「処理デバイス」)で言及され得るが、任意の適切な要素は、その要素の複数のインスタンスによって表され得、逆もまた同様である。例えば、処理デバイスによって実施されるものとして説明された動作のセットは、異なる処理デバイスによって実施される動作のうちの異なるものを用いて実装され得る。
【0059】
本説明は、「ある実施形態」、「様々な実施形態」、及び「いくつかの実施形態」という語句を使用し、それらの各々は、同じ又は異なる実施形態のうちの1つ以上を指し得る。更に、本開示の実施形態に関して使用される「備える(comprising)」、「含む(including)」、「有する(having)」などの用語は、同義である。寸法の範囲を説明するために使用されるとき、「X~Y(between X and Y)」という語句は、XとYとを含む範囲を表す。本明細書で使用する場合、「装置」は、任意の個々のデバイス、デバイスの集合、デバイスの一部、又はデバイスの一部の集合を指し得る。図面は、必ずしも縮尺どおりではない。
【0060】
図1は、様々な実施形態による、支援動作を実施するための科学的機器支援モジュール1000のブロック図である。科学的機器支援モジュール1000は、プログラムされたコンピューティングデバイスなどの回路(例えば、電気的及び/又は光学的構成要素を含む)によって実装され得る。科学的機器支援モジュール1000のロジックは、単一のコンピューティングデバイスに含まれてもよく、又は必要に応じて互いに通信する複数のコンピューティングデバイスにわたって分散されてもよい。単独、又は組み合わせて、科学的機器支援モジュール1000を実装し得るコンピューティングデバイスの例は、図11のコンピューティングデバイス11000を参照しながら本明細書で検討され、更に、科学的機器支援モジュール1000がコンピューティングデバイスの1つ以上にわたって実装され得る相互接続されたコンピューティングデバイスのシステムの例は、図12の科学的機器支援システム12000を参照して本明細書で検討される。
【0061】
科学的機器支援モジュール1000は、本明細書ではオーケストレーションロジック1002と称され得る第1のロジックと、本明細書では機器ロジック1004と称され得る第2のロジックと、本明細書では分析ロジック1006と称され得る第3のロジックとを含み得る。本明細書で使用する場合、「ロジック」という用語は、ロジックと関連付けられた動作のセットを実施する装置を含み得る。例えば、支援モジュール1000に含まれるロジック要素のいずれかは、コンピューティングデバイスの1つ以上の処理デバイスに(例えば、1つ以上の(one or more)処理デバイスのグループ又はセットとして集合的に)、関連付けられた動作のセットを実施させる命令でプログラムされた、1つ以上のコンピューティングデバイスによって実装され得る。いくつかの実施形態では、ロジック要素は、1つ以上の非一時的コンピュータ可読媒体を含み得、1つ以上の非一時的コンピュータ可読媒体は、1つ以上のコンピューティングデバイスの1つ以上の処理デバイスによって実行されるときに、1つ以上のコンピューティングデバイスに、関連付けられた動作のセットを実施させる命令を有する。本明細書で使用される場合、「モジュール」という用語は、一緒にモジュールと関連する機能を実施する、1つ以上のロジック要素の集合を指し得る。モジュール内のロジック要素のうちの異なるものは、同じ形態をとり得るか、又は異なる形態をとり得る。例えば、モジュール内のいくつかのロジックは、プログラムされた汎用処理デバイスによって実装され得、モジュール内の他のロジックは、特定用途向け集積回路(application-specific integrated circuit、ASIC)によって実装され得る。他の例では、モジュール内のロジック要素の異なるものは、1つ以上の処理デバイスによって実行される、異なる命令のセットと関連付けられ得る。モジュールは、関連する図面に示されたロジック要素の全てを含まない場合があり、例えば、モジュールは、そのモジュールが、そのモジュールを参照して本明細書で論じられる動作のサブセットを実施するとき、関連する図面に示されるロジック要素のサブセットを含み得る。オーケストレーションロジック1002、機器ロジック1004、及び/又は分析ロジック1006の更なる機能は、図2A図9を参照して本明細書において更に説明される。
【0062】
図2A図9は、様々な実施形態による、支援動作を実施するための例示的なプロセス2000~9000のフローチャートである。プロセス2000~9000の動作は、本明細書に開示される特定の実施形態を参照しながら説明され得るが(例えば、図1を参照しながら本明細書で検討される科学的機器支援モジュール1000、図10を参照しながら本明細書で検討されるGUI10000、図11を参照しながら本明細書で検討されるコンピューティングデバイス11000、及び/又は図12を参照しながら本明細書で検討される科学的機器支援システム12000)、プロセス2000~9000は、任意の好適な支援動作を実施するための任意の好適な設定で使用され得る。動作は、図2A図9においてそれぞれ1度ずつ特定の順序で示されているが、これらの動作は、所望に応じて、適宜に並べ替えられ、及び/又は繰り返されてよい(例えば、実施される異なる動作が、好適なものとして、並行して実施されてもよい)。
【0063】
図2A図2Bは、科学的機器(質量分析計など)によって生成されたセンサデータ(質量スペクトルデータなど)を処理するための第1の例示的なプロセス2000のフローチャートである。2002において、オーケストレーションロジック1002及び/又は機器ロジック1004は、試料のバッチについて生スペクトルファイルを生成し得る。例えば、オーケストレーションロジック1002は、データ表示領域、データ分析領域、制御領域、及び設定領域などのユーザインターフェース要素を有するユーザインターフェースを生成し得る。ユーザは、制御領域を使用して、質量分析計などの科学的機器に、試料のバッチについて生スペクトルファイルを生成するように命令し得る。ユーザがユーザインターフェース上で1つ以上の選択可能なコマンドを選択したことに応答して、オーケストレーションロジック1002は、質量分析計が生スペクトルファイルを生成する信号を質量分析計に送信するように、機器ロジック1004に指令し得る。様々な実装形態では、生スペクトルファイルは、データ依存取得(DDA)法に従って生成される。例示的なDDA法では、質量分析計は、所与の走査におけるそれらの存在量に基づいて、プリカーサイオンを選択的に単離及び断片化する。例えば、質量分析計は、最初に、試料中の全てのイオンの完全走査を実施して、存在する全てのイオンのスペクトル(それらの質量電荷比[m/z]に従って分類される)を提供し得る。次いで、質量分析計は、スペクトルから最も強いイオンをプリカーサイオンとして選択する(これらのイオンは、最も豊富なイオンに対応するはずである)。次いで、各選択されたプリカーサイオンは、例えば、衝突誘起解離(CID)又は高エネルギーCトラップ解離(HCD)によって、単離及び断片化されて、より小さい生成イオンを作り出す。次いで、生成イオンは、第2の質量分析走査において分析され、これにより、各プリカーサイオンについてフラグメンテーションスペクトルを生成する。
【0064】
いくつかの例では、生スペクトルファイルは、データ独立取得法(DIA)に従って生成される。DDA法とは対照的に、DIA法は、特定の質量電荷比(m/z)範囲内の全てのイオンを(それらの存在量とは無関係に)断片化する。次いで、質量分析計は、断片化された各イオンのフラグメンテーションスペクトルを生成することができる。試料のバッチについて生スペクトルファイルを生成することに関連した追加の詳細が、図4を参照して本明細書で更に説明される。
【0065】
2004において、分析ロジック1006は、試料のバッチについて生成された生スペクトルファイルを読み込む。例えば、ユーザは、支援モジュール1000がデータ処理動作を開始するように、制御領域内の1つ以上のユーザインターフェース要素を選択し得る。ユーザが1つ以上のユーザインターフェース要素を選択したことに応答して、オーケストレーションロジック1002は、機器ロジック1004から生スペクトルファイルを取り出し、生スペクトルファイルを読み込むように、分析ロジック1006に指令し得る。2006において、分析ロジック1006は、バッチ内の初期生スペクトルファイルを選択する。2012において、分析ロジック1006は、選択された生スペクトルファイルをデータベース検索エンジンなどの機械学習モデルに読み込んで、選択された生スペクトルファイルから初期スペクトルマッチファイルを生成する。様々な実装形態では、データベース検索エンジンは、人工知能対応データベース検索エンジンであり得る。データベース検索エンジンの好適な例としては、University of Washingtonによって開発されたSEQUESTソフトウェア、Matrix Scienceによって開発されたMascotソフトウェア、Technical University of Munichによって開発されたPrositソフトウェア、Global Proteome Machine Organizationによって開発されたX! Tandemソフトウェア、Andromedaソフトウェア(これは、Max-Planck-Institute of Biochemistryによって開発されたMaxQuantソフトウェアパッケージに統合されている)、National Institute of Healthによって開発されたOpen Mass Spectrometry Search Algorithmソフトウェア、University of Washingtonによって開発されたCometソフトウェア、Pacific Northwest National Laboratoryによって開発されたMS-GF+ソフトウェア、Bioinformatics Solutions Inc.によって開発されたPEAKS(登録商標)ソフトウェア、Institute for Systems Biologyによって開発されたSpectraSTソフトウェア、Protein Metricsによって開発されたByonic(商標)ソフトウェア、MSAID GmbHによって開発されたCHIMERYS(登録商標)ソフトウェア、並びに/又はThermo Fisher Scientific Inc.によって開発されたThermo Scientific(商標)Proteome Discoverer(商標)ソフトウェア、Thermo Scientific(商標)Orbitrap(商標)、及び/若しくはThermo Scientific(商標)Q Exactive(商標)ソフトウェアが挙げられる。初期スペクトルマッチファイルを生成することに関連した追加の詳細が、図5A及び図5Bを参照して本明細書で更に説明される。
【0066】
2014において、分析ロジック1006は、2012においてまだ処理されていない別の生スペクトルファイルがバッチ内に存在するか否かを判定する。処理されていない別のスペクトルファイルがバッチ内に存在すると分析ロジック1006が判定したことに応答して(判定ブロック2014における「はい」)、分析ロジック1006は、2016において、次の生スペクトルファイルを選択し、2012において、選択された生スペクトルファイルを機械学習モデルに読み込んで、選択された生スペクトルファイルから対応する初期生スペクトルマッチファイルを生成する。処理されていない別のスペクトルファイルがバッチ内に存在しないと分析ロジック1006が判定したことに応答して(判定ブロック2014における「いいえ」)、分析ロジック1006は、2018において、バッチの初期スペクトルマッチファイルからスクリーニングリストを生成する。いくつかの実施形態では、スクリーニングリストは、関心のあるエンティティ(関心のあるペプチドなど)を含み得る。いくつかの実装形態では、分析ロジック1006は、スクリーニングリストの代わりに、識別されたエンティティのデータベースを生成する。スクリーニングリストを生成することに関連した追加の詳細が、図6及び図7を参照して本明細書で更に説明される。2020において、分析ロジック1006は再び、バッチ内の初期生スペクトルファイルを選択する。2022において、分析ロジック1006は、選択された生スペクトルファイル及びスクリーニングリスト(2018において生成されたスクリーニングリストなど)を機械学習モデルに読み込んで、選択された生スペクトルファイル及びスクリーニングリストから結果ファイル(更新された又は洗練されたスペクトルマッチファイルなど)を生成する。様々な実装形態では、機械学習モデルは、2012を参照して前述したデータベース検索エンジンのいずれかを含み得る。結果ファイルを生成することに関連した追加の詳細が、図5A及び図5Bを参照して本明細書で更に説明される。
【0067】
2024において、分析ロジック1006は、2022においてまだ処理されていない別の生スペクトルファイルがバッチ内に存在するか否かを判定する。処理されていない別のスペクトルファイルがバッチ内に存在すると分析ロジック1006が判定したことに応答して(判定ブロック2024における「はい」)、分析ロジック1006は、2026において、次の生スペクトルファイルを選択し、2022において、選択された生スペクトルファイルを機械学習モデルに読み込んで、選択された生スペクトルファイルから対応する結果ファイルを生成する。処理されていない別のスペクトルファイルがバッチ内に存在しないと分析ロジック1006が判定したことに応答して(判定ブロック2024における「いいえ」)、分析ロジック1006は、2028において、バッチの結果ファイルから結果リストを生成する。結果リストを生成することに関連した追加の詳細が、図8を参照して本明細書で更に説明される。様々な実装形態では、ユーザインターフェースは、生成された結果を、データ表示領域及び/又はデータ分析領域を介してユーザに表示することができる。
【0068】
図3A図3Cは、科学的機器(質量分析計など)によって生成されたセンサデータ(質量スペクトルデータなど)を、計算スループットを改善し、リアルタイム又はほぼリアルタイムのデータ処理を可能にする最適化された技法を使用して処理するための第2の例示的なプロセスのフローチャートである。3002において、オーケストレーションロジック1002は、試料のバッチについて生スペクトルファイルを生成する。様々な実装形態では、生スペクトルファイルは、2002を参照して前述したように生成され得る。試料のバッチについて生スペクトルファイルを生成することに関連した追加の詳細が、図4を参照して本明細書で更に説明される。3004において、分析ロジック1006は、バッチの生スペクトルファイルを読み込み、生スペクトルファイルを第1のサブセット及び第2のサブセットに分割する。様々な実装形態では、第1のサブセットの生スペクトルファイル及び第2のサブセットの生スペクトルファイルは、同じデータ取得方法に従って生成される。様々な実装形態では、分析ロジック1006は、2004を参照して前述したように生スペクトルファイルを読み込み得る。いくつかの例では、第1のサブセット及び第2のサブセットは、総バッチのパーセンテージとして定義され得る。いくつかの実施形態では、第1のサブセットはバッチの約10%であり得、第2のサブセットはバッチの約90%であり得る。様々な実装形態では、第1のサブセットはバッチの約20%であり得、第2のサブセットはバッチの約80%であり得る。いくつかの例では、第1のサブセットはバッチの約25%であり得、第2のサブセットはバッチの約75%であり得る。いくつかの実装形態では、第1のサブセットはバッチの約33%であり得、第2のサブセットはバッチの約67%であり得る。例示的な実施形態では、第1のサブセットはバッチの約50%であり得、第2のサブセットはバッチの約50%であり得る。様々な実装形態では、第1のサブセットは、バッチからの定義された数の生スペクトルファイルを含む。例えば、第1のサブセットは、バッチからの1つの生スペクトルファイルから約100個の生スペクトルファイルまでのいずれかを含む。いくつかの例では、第1のサブセットは、関連する生スペクトルファイルを高い確率で含むように生成又は選択される(例えば、第1のサブセットのメンバーが第2のサブセットのメンバーよりも高い濃度を有し得るか、又は試料がプールされ得る)。
【0069】
3006において、分析ロジック1006は、第1のサブセットの生スペクトルファイルを読み込む。3008において、分析ロジック1006は、第1のサブセット内の初期生スペクトルファイルを選択する。3010において、分析ロジック1006は、選択された生スペクトルファイルを機械学習モデルに読み込んで、選択された生スペクトルファイルから初期スペクトルマッチファイルを生成する。いくつかの例では、初期スペクトルマッチファイルは、2012を参照して前述したように生成され得る。生スペクトルファイルを生成することに関連した追加の詳細が、図5A及び図5Bを参照して本明細書で更に説明される。様々な実装形態では、分析ロジック1006は、選択された生スペクトルファイル及び検索空間ファイルを機械学習モデルに提供する。検索空間ファイルは、機械学習モデルのための検索空間を定義し得る。例えば、機械学習モデルがデータベース検索エンジンを含む実施形態では、検索空間ファイルは、タンパク質配列のデータベースを含み得る。タンパク質配列のデータベースは、生スペクトルファイルからの実験スペクトルをデータベースに由来する理論スペクトルと照合するために探索することができる複雑な検索空間を定義するためにデータベース検索エンジンが使用するタンパク質の一次配列データを含み得る。様々な実装形態では、検索空間ファイルは、FASTAファイルを含み得る。
【0070】
3012において、分析ロジック1006は、3010においてまだ処理されていない別の生スペクトルファイルが第1のサブセット内に存在するか否かを判定する。処理されていない別の生スペクトルファイルが第1のサブセット内に存在すると分析ロジック1006が判定したことに応答して(判定ブロック3012における「はい」)、分析ロジック1006は、3014において、次の生スペクトルファイルを選択し、3010において、選択された生スペクトルファイルを機械学習モデルに読み込んで、選択された生スペクトルファイルから対応する初期生スペクトルファイルを生成する。処理されていない別の生スペクトルファイルが第1のサブセット内に存在しないと分析ロジック1006が判定したことに応答して(判定ブロック3012における「いいえ」)、分析ロジック1006は、3016において、第1のサブセットの初期スペクトルマッチファイルからスクリーニングリストを生成する。様々な実装形態では、スクリーニングリストは、2018を参照して前述したように生成され得る。いくつかの実装形態では、分析ロジック1006は、スクリーニングリストの代わりに、又はそれに追加して、識別されたエンティティのデータベースを生成する。スクリーニングリストを生成することに関連した追加の詳細が、図6及び図7を参照して本明細書で更に説明される。
【0071】
3018において、分析ロジック1006は、第2のサブセットの生スペクトルファイルを読み込む。3020において、分析ロジック1006は、第2のサブセット内の初期生スペクトルファイルを選択する。3022において、分析ロジック1006は、選択された生スペクトルファイル及び3016において生成されたスクリーニングリストを機械学習モデルに読み込んで、結果ファイルを生成する。結果ファイルを生成することに関連した追加の詳細が、図5A及び図5Bを参照して本明細書で更に説明される。3024において、分析ロジック1006は、3022においてまだ処理されていない別の生スペクトルファイルが第2のサブセット内に存在するか否かを判定する。処理されていない別の生スペクトルファイルが第2のサブセット内に存在すると判定したことに応答して(判定ブロック3024における「はい」)、分析ロジック1006は、3026において、第2のサブセット内の次の生スペクトルファイルを選択し、3022において、選択された生スペクトルファイル及びスクリーニングリストを機械学習モデルに読み込んで、選択された生スペクトルファイルから結果ファイル(更新された又は洗練されたスペクトルマッチファイルなど)を生成する。処理されていない別の生スペクトルファイルが第2のサブセットに存在しないと判定したことに応答して(判定ブロック3024における「いいえ」)、プロセス3000は3028又は3030のいずれかに進む。
【0072】
様々な実装形態では、プロセス3000は、3024から3028に進む。3028において、分析ロジック1006は、第2のサブセットの結果ファイルから結果リストを生成する。結果リストを生成することに関連した追加の詳細が、図8を参照して本明細書で更に検討される。様々な実装形態では、生成された結果リストは、ユーザインターフェースのデータ表示領域及び/又はデータ分析領域を介してユーザに表示され得る。
【0073】
いくつかの例では、プロセス3000は、3024から3030に進む。3030において、分析ロジック1006は、第1のサブセットの生スペクトルファイルを読み込む。3032において、分析ロジック1006は、第1のサブセット内の初期生スペクトルファイルを選択する。3034において、分析ロジック1006は、選択された生スペクトルファイル及び3022において生成されたスクリーニングリストを機械学習モデルに読み込んで、結果ファイルを生成する。結果ファイルを生成することに関連した追加の詳細が、図5A及び図5Bを参照して本明細書で更に説明される。3036において、分析ロジック1006は、3034においてまだ処理されていない別の生スペクトルファイルが第1のサブセット内に存在するか否かを判定する。処理されていない別の生スペクトルファイルが第1のサブセット内に存在すると判定したことに応答して(判定ブロック3036における「はい」)、分析ロジック1006は、3038において、第1のサブセット内の次の生スペクトルファイルを選択し、3034において、選択された生スペクトルファイル及びスクリーニングリストを機械学習モデルに読み込んで、結果ファイルを生成する。処理されていない別の生スペクトルファイルが第1のサブセット内に存在しないと判定したことに応答して(判定ブロック3036における「いいえ」)、分析ロジック1006は、第1のサブセットの結果ファイル及び第2のサブセットのスペクトルマッチファイルから結果リストを生成する。結果リストを生成することに関連した追加の詳細が、図8を参照して本明細書で更に説明される。様々な実装形態では、生成された結果リストは、ユーザインターフェースのデータ表示領域及び/又はデータ分析領域を介してユーザに表示され得る。
【0074】
例示的なプロセス3000は、他の方法によって実現されない様々な技術的利益を提供し得る。例えば、プロセス3000は、第1のサブセットの生スペクトルファイルのみを処理した後、3016においてスクリーニングリストを生成し得る。対照的に、例示的なプロセス2000において説明したものなどの技法は、バッチ全体の生スペクトルファイルを処理した後にのみ、スクリーニングリストを生成する。サブセットのみの生スペクトルファイルを処理した後にスクリーニングリストを生成することによって(これは、完全なバッチよりも実質的に小さいものになり得る)、例示的なプロセス3000は、必要とされる計算量を劇的に低減し、したがって、支援モジュール1000の効率及びスループットを改善する。効率及びスループットを改善することによって、例示的なプロセス3000は、支援モジュール1000が、科学的機器からの質量スペクトルのリアルタイム又はほぼリアルタイムの処理、すなわち、例示的なプロセス2000などの技法によって達成され得ない技術的効果を達成することを可能にする。
【0075】
図4は、質量分析計を使用して試料のバッチから生スペクトルファイルを生成するための例示的なプロセス4000のフローチャートである。4002において、初期試料が選択される。様々な実装形態では、オーケストレーションロジックは、機器ロジック1004に、試料のバッチについて生質量スペクトルファイルの生成を開始するように命令し得る。例えば、機器ロジック1004は、自動化された試料調製プラットフォーム及び/又は質量分析計に、処理するための初期試料を選択するように指示し得る。好適な自動化された試料調製プラットフォームの例としては、Thermo Fisher Scientific Inc.から入手可能なAccelerOme Automated Sample Preparationプラットフォームが挙げられる。4004において、機器ロジック1004は、自動化された試料調製プラットフォームに、選択された試料を調製するように指示する。いくつかの実施形態では、自動化された試料調製プラットフォームは、生体試料からタンパク質を抽出し得る。例えば、自動化された試料調製プラットフォームは、タンパク質の変性、還元、及び/又はアルキル化を使用して、ジスルフィド結合を分解し、試料中のタンパク質を安定化させ得る。様々な実装形態では、自動化された試料調製プラットフォームは、タンパク質分解技法を試料に適用し得る。例えば、自動化された試料調製プラットフォームは、酵素(プロテアーゼなど)を試料に適用して、試料中のタンパク質をより小さいペプチドフラグメントに消化し得る。いくつかの例では、自動化された試料調製プラットフォーム及び/又は質量分析計は、逆相液体クロマトグラフィーなどの液体クロマトグラフィー技法を使用して試料中のペプチドを分離し得る。
【0076】
4006において、機器ロジック1004は、質量分析計に、調製された試料をイオン化するように指示する。様々な実装形態では、質量分析計は、エレクトロスプレーイオン化又はマトリックス支援レーザー脱離/イオン化などの技法を使用して、調製された試料中の分離されたペプチドをイオン化し得る。4008において、機器ロジック1004は、質量分析計に、イオン化された試料に対してイオン分離を実施するように指示する。様々な実施態様では、質量分析計は、イオン化された試料をそれらの質量電荷比(m/z)に基づいて分離し得る。4010において、機器ロジック1004は、質量分析計に、分離されたイオンを検出するように指示する。様々な実装形態では、質量分析計は、タンデム質量分析を実施し得る。例えば、質量分析計は、衝突誘起解離技法などの断片化技法を使用して、特定のプリカーサ/ペプチドイオンを選択し、それらを断片化し得る。4012において、機器ロジック1004は、質量分析計に、検出された分離イオンから質量スペクトルを生成するように指示する。例えば、質量分析計は、結果として生じるイオンフラグメントを分析して、タンデム質量スペクトルを生成し得る。
【0077】
4014において、機器ロジック1004は、処理されていない別の試料が試料のバッチ内に存在するか否かを判定する。処理されていない別の試料がバッチ内にあると判定したことに応答して(判定ブロック4014における「はい」)、機器ロジック1004は、自動化された試料調製プラットフォームに、4016において次の試料を選択し、4004において、選択された試料を調製するように指示する。処理されていない別の試料がバッチ内にないと判定したことに応答して(判定ブロック4014における「いいえ」)、機器ロジック1004は、処理された試料について生成された質量スペクトルを、試料のバッチの生スペクトルファイルとして保存する。
【0078】
図5A図5Bは、生スペクトルファイルを処理して結果ファイル(更新された又は洗練されたスペクトルマッチファイルなど)を生成するための例示的なプロセス5000のフローチャートである。5002において、分析ロジック1006は生スペクトルファイルを読み込む。5004において、分析ロジック1006はスクリーニングリストを読み込む。5006において、分析ロジック1006はタンパク質データベースを読み込む。様々な実装形態では、タンパク質データベースは、関心のある生物及び/又は試料についての参照タンパク質配列を含む。5008において、分析ロジック1006は生スペクトルファイルを前処理する。生スペクトルファイルを前処理することに関連した追加の詳細が、図9を参照して本明細書で更に説明される。5010において、分析ロジック1006は、読み込まれたタンパク質データベース中の各ペプチド配列について理論スペクトルを生成する。様々な実施態様では、分析ロジック1006は、タンパク質データベース内のペプチドフラグメントの予想される質量電荷比(m/z)を計算する。いくつかの実施形態では、予想される質量電荷比(m/z)は、質量分析計によって使用される断片化技法に基づいて計算され得る。5012において、分析ロジック1006は、5002において読み込まれた前処理されたスペクトルファイル内のスペクトルを、5010において生成された理論スペクトルと照合する。いくつかの例では、分析ロジック1006はまた、生スペクトルファイル内のスペクトルと、一致した理論スペクトルとの間の近さを反映する各一致のスコアを計算し得る。いくつかの実装形態では、ブロック5006、5010、及び5012は実施されず、むしろ、データベース検索エンジンが、各スペクトルファイル(及びプリカーサ質量)に対してこの機能の全部又は一部を(例えば、インシリコで)実施し得る。また、いくつかの実装形態では、データベース検索エンジンは、図5Aに示され、図5Aに関して説明された機能とは異なる方法でこの機能を実施し得る。
【0079】
5014において、分析ロジック1006は、スクリーニングリストが5004において読み込まれたか否かを判定する。スクリーニングリストが読み込まれなかったと判定したことに応答して(判定ブロック5014における「いいえ」)、分析ロジック1006は、5016において、閾値未満のスコアを有する一致したスペクトルを破棄する。5018において、分析ロジック1006は、残りの一致したスペクトル、関連ペプチド、及び/又はスコアをスペクトルマッチファイルに保存する。スクリーニングリストが読み込まれたと判定したことに応答して(判定ブロック5014における「はい」)、分析ロジック1006は、5020において、スクリーニングリストが包含リストを含むか否かを判定する。スクリーニングリストが包含リストを含むと判定したことに応答して(判定ブロック5020における「はい」)、分析ロジック1006は、5022において、(i)包含リスト上になく、かつ(ii)閾値未満のスコアを有する一致したスペクトルを破棄する。分析ロジック1006は、5024において、スクリーニングリストが除外リストを含むか否かを判定する。スクリーニングリストが包含リストを含まないと判定したことに応答して(判定ブロック5020における「いいえ」)、分析ロジック1006は、5024において、スクリーニングリストが除外リストを含むか否かを判定する。スクリーニングリストが除外リストを含むと判定したことに応答して(判定ブロック5024における「はい」)、分析ロジックは、5026において、除外リスト上にある一致したスペクトルを破棄し、5028において、残りの一致したスペクトル、関連ペプチド、及び/又はスコアを結果ファイルに保存する。
【0080】
図6は、スペクトルマッチファイルからスクリーニングリストを生成するための例示的なプロセス6000のフローチャートである。6002において、分析ロジック1006はスペクトルファイルを読み込む。6004において、分析ロジック1006は、読み込まれたスペクトルファイルを処理し、読み込まれたスペクトルファイルのスペクトルに対応するペプチドを識別する。例えば、分析ロジック1006は、5010及び5012を参照して前述したようにペプチドを識別し得る。6006において、分析ロジック1006は、読み込まれたスペクトルファイルのバッチ内の全ての識別されたペプチドにわたる各識別されたペプチドの出現の頻度を決定する。6008において、分析ロジック1006は、初期の識別されたペプチドを選択する。6010において、分析ロジック1006は、識別されたペプチドの出現頻度が閾値を上回るか否かを判定する。様々な実装形態では、閾値は、ペプチドが、ありふれたものであるとみなされるためにマッチスペクトルのバッチにわたって出現しなければならない最小頻度であり得る。選択された識別されたペプチドの出現頻度が閾値以上であると判定したことに応答して(判定ブロック6010における「はい」)、分析ロジック1006は、6012において、選択された識別されたペプチドを包含リストに追加し、6014において、6010でまだ処理されていない別の識別されたペプチドがバッチ内に存在するか否かを判定する。選択された識別されたペプチドの出現頻度が閾値以上でないと判定したことに応答して(判定ブロック6010における「いいえ」)、分析ロジック1006は、6014において、6010でまだ処理されていない別の識別されたペプチドがバッチ内に存在するか否かを判定する。
【0081】
6014において、分析ロジック1006は、6010においてまだ処理されていない別の識別されたペプチドが6014におけるバッチ内に存在するか否かを判定する。処理されていない別の識別されたペプチドが存在すると判定したことに応答して(判定ブロック6014における「はい」)、分析ロジック1006は、6016において、次の識別されたペプチドを選択し、6010において、その選択された識別されたペプチドについての出現頻度が閾値以上であるか否かを判定する。処理されていない別の識別されたペプチドが存在しないと判定したことに応答して(判定ブロック6014における「いいえ」)、分析ロジック1006は、6018において包含リストを保存する。
【0082】
図7は、スペクトルマッチファイルからスクリーニングリストを生成するための例示的なプロセス7000のフローチャートである。7002において、分析ロジック1006はスペクトルマッチファイルを読み込む。7004において、分析ロジック1006は、最小強度スペクトルを設定し、読み込まれたスペクトルファイルから低強度ピーク(最小強度閾値未満のピークなど)をフィルタリングで除去し、フィルタリングされた読み込まれたスペクトルファイルをフィルタリングされたスペクトルファイルとして保存する。7006において、分析ロジック1006は、フィルタリングされたスペクトルファイルを処理してペプチドを識別する。例えば、分析ロジック1006は、5010及び5012を参照して前述したようにペプチドを識別し得る。7008において、分析ロジック1006は、フィルタリングされたスペクトルファイル内の各識別されたペプチドの出現数をカウントする。7010において、分析ロジック1006は、ペプチドが汚染物質とみなされる最小出現閾値を設定する。7012において、分析ロジック1006は、フィルタリングされたスペクトルファイルから初期の識別されたペプチドを選択する。
【0083】
7014において、分析ロジック1006は、選択された識別されたペプチドの出現数が最小出現閾値未満であるか否かを判定する。選択された識別されたペプチドの出現数が最小出現閾値未満であると判定したことに応答して(判定ブロック7014における「はい」)、分析ロジック1006は、7016において、選択された識別されたペプチドを除外リストに追加し、7018において、7014でまだ処理されていない別の識別されたペプチドがバッチ内に存在するか否かを判定する。選択された識別されたペプチドの出現数が最小出現閾値未満でないと判定したことに応答して(判定ブロック7014における「いいえ」)、分析ロジックは、7018において、処理されていない別の識別されたペプチドが存在するか否かを判定する。フィルタリングされたスペクトルファイルのバッチ内に処理されていない別のペプチドが存在すると判定したことに応答して(7018における「はい」)、分析ロジック1006は、フィルタリングされたスペクトルファイルから次の識別されたペプチドを選択し、7014において、選択された識別されたペプチドの出現数が最小出現閾値を上回るか否かを判定する。フィルタリングされたスペクトルファイルのバッチ内に処理されていない別のペプチドが存在しないと判定したことに応答して(7018における「いいえ」)、分析ロジック1006は、7022において除外リストを保存する。
【0084】
図8は、スペクトルマッチファイルから結果リストを生成するための例示的なプロセス8000のフローチャートである。8002において、分析ロジック1006は、スペクトルマッチファイルを単一のデータ構造に組み合わせる。様々な実装形態では、単一のデータ構造は、リスト若しくはテーブル、又はリレーショナルデータベースであり得る。8004において、分析ロジック1006は、品質基準に基づいてスペクトルマッチファイルをフィルタリングする。いくつかの実施形態では、品質基準は、偽発見率、プリカーサ質量公差、及び/又は検索エンジン閾値を含み得る。スペクトルマッチファイルをフィルタリングすることは、低信頼度の識別を除去することによってスペクトルマッチファイルの全体的な信頼度を改善する。8006において、分析ロジック1006は、スペクトルマッチファイルをペプチド及び/又はタンパク質識別にグループ化する。様々な実装形態では、分析ロジック1006は、同じペプチド配列を有するスペクトルマッチファイルを集約することによって、及び/又は異なるタンパク質の間で共有若しくは固有のペプチドを考慮することによって、フィルタリングされたスペクトルマッチファイルをペプチド及びタンパク質識別にグループ化する。8008において、分析ロジック1006は、スペクトルマッチファイルの強度及び/又はスペクトルカウントに基づいてペプチド及び/又はタンパク質存在量を計算する。8010において、分析ロジック1006は、スペクトルマッチファイルに対して統計的検定を実施して、異なる実験間で有意に変化したタンパク質を識別する。8012において、分析ロジック1006は、ペプチド及び/又はタンパク質識別についての情報を含む結果リストを生成する。
【0085】
図9は、生スペクトルファイルを前処理するための例示的なプロセス9000のフローチャートである。9002において、分析ロジック1006は、取得された質量スペクトルにおけるピークを検出する。例えば、分析ロジック1006は、微分解析技法、ウェーブレットベースの方法、又は他の技法を使用して、質量スペクトル内の極大値を見つけ得る。9004において、分析ロジック1006は、質量スペクトルからノイズを除去する。信号における電子ノイズ、化学ノイズ、及び/又はランダムな変動が、質量スペクトルにノイズを導入し得る。ノイズ除去は、全体的な信号対ノイズ比を改善し、質量スペクトルの品質を高める。様々な実装形態では、分析ロジック1006は、移動平均フィルタリング技法、メディアンフィルタリング技法、Savitzky-Golayフィルタ、及び/又はウェーブレットベースのノイズ除去技法を適用し得る。9006において、分析ロジック1006は、ベースライン補正を質量スペクトルに適用する。質量スペクトルのベースラインはバックグラウンド信号を表す。ベースラインを補正することにより、ピーク高さがイオン強度を正確に表すことが保証される。好適なベースライン補正方法の例としては、多項式関数フィッティング技法、非対称最小二乗アルゴリズム、又はベースラインをモデル化し、次いでモデル化されたベースラインを元の質量スペクトルデータから減算するのに適した他の技法が挙げられる。9008において、分析ロジック1006は、質量校正を質量スペクトルに適用する。機器のドリフト及び/又は質量電荷比の変動などの要因が、取得されたスペクトルの質量精度に影響を及ぼす可能性がある。質量校正は、これらの不正確さを補正するために質量電荷比を調整する。様々な実装形態では、分析ロジック1006は、校正データ(例えば、既知の参照化合物を表す校正データ)を使用することによって質量校正を実施し得る。いくつかの例では、分析ロジック1006は、観察された質量偏差を考慮する質量補正関数を適用し得る。
【0086】
9010において、分析ロジック1006は、逆畳み込み処理を質量スペクトルに適用する。質量スペクトルデータは、典型的には一連のピークとして表され、各ピークは特定の質量電荷比の強度を示す。しかしながら、同様の質量電荷比を有する複数のイオンが共溶出すると、ピークが重なり合うことがある。このステップにより、質量スペクトルにおけるこれらの複数のイオンを区別することができる。質量スペクトルデータに逆畳み込みアルゴリズムを適用することは、(i)重なり合うピークを分解して、正確なピーク割り当て及び識別を可能にし、(ii)共溶出若しくは重なり合う同位体ピークを分離して、データベース検索の精度を改善し、並びに/又は(iii)ピークの数を減少させることによって質量スペクトルを単純化して、データベース検索の効率及び精度を改善する。好適な逆畳み込み技法としては、最大エントロピーベースの方法、ピークフィッティングアプローチ、及び数学的変換が挙げられる。ピークフィッティングアプローチの例としては、観察されたデータを最もよく表すピーク形状及び位置の組み合わせを見つけるために、一連の所定のピーク形状(ガウス関数又はローレンツ関数など)を質量スペクトルにフィッティングすることを含む方法が挙げられる。好適な数学的変換の例としては、フーリエ変換、ウェーブレット変換、及び/又はSavitzky-Golay法など、重なり合うピークを分離する数学的変換が挙げられる。
【0087】
本明細書に開示される科学的機器支援方法は、(例えば、図12を参照して本明細書で検討されるユーザローカルコンピューティングデバイス12020を介した)人間ユーザとの相互作用を含み得る。これらの相互作用は、ユーザに情報を提供すること(例えば、図12の科学的機器12010などの科学的機器の動作に関する情報、分析されている試料若しくは科学的機器によって実施される他の試験若しくは測定に関する情報、ローカル若しくはリモートデータベースから取得された情報、又は他の情報)、又はユーザがコマンド(例えば、図12の科学的機器10010などの科学的機器の動作を制御するため、又は科学的機器によって生成されるデータの分析を制御するため)、クエリ(例えば、ローカル又はリモートデータベース向け)、若しくは他の情報を入力するオプションを提供することを含み得る。いくつかの実施形態では、これらの相互作用は、ユーザに出力を提供し、かつ/又は入力を提供するようにユーザに指示する(例えば、図11を参照して本明細書で論じられる他のI/Oデバイス11012に含まれるキーボード、マウス、トラックパッド、又はタッチスクリーンなどの、1つ以上の入力デバイスを介して)ディスプレイデバイス(例えば、図11を参照して本明細書で論じられる、ディスプレイデバイス11010)上の視覚的表示を含むグラフィカルユーザインターフェース(GUI)を通じて、実施され得る。本明細書に開示される科学的機器支援システムは、ユーザとの相互作用のための任意の好適なGUIを含み得る。
【0088】
図10は、様々な実施形態による、本明細書に開示される支援方法の一部又は全ての実施において使用され得る、例示的なGUI10000を示す。上記のように、GUI10000は、科学的機器支援システム(例えば、図12を参照して本明細書で検討される科学的機器支援システム12000)のコンピューティングデバイス(例えば、図11を参照して本明細書で検討されるコンピューティングデバイス11000)のディスプレイデバイス(例えば、図11を参照して本明細書で検討されるディスプレイデバイス11010)上に提供され得、ユーザは、任意の好適な入力デバイス(例えば、図11を参照して本明細書で検討される他のI/Oデバイス11012に含まれる入力デバイスのいずれか)、及び入力技法(例えば、カーソルの移動、モーションキャプチャ、顔認識、ジェスチャ検出、音声認識、ボタンの作動など)を使用して、GUI10000と相互作用し得る。
【0089】
GUI10000は、データ表示領域10002、データ分析領域10004、科学的機器制御領域10006、及び設定領域10008を含み得る。図10で示す領域の特定の数及び配置は、例示的なものに過ぎず、任意の所望の特徴を含む領域の任意の数及び配置がGUI10000に含まれ得る。いくつかの例では、GUI10000は、図2A図3Cを参照して前述したユーザインターフェースを実装し得る。
【0090】
データ表示領域10002は、科学的機器(例えば、図12を参照して本明細書で検討される科学的機器12010)によって生成されたデータを表示し得る。例えば、データ表示領域10002は、質量スペクトル(図2A図9を参照して検討される質量スペクトルなど)のグラフィカル表現を表示し得る。様々な実装形態では、データ表示領域10002は、図2A図3Cを参照して前述したデータ表示領域を実装し得る。
【0091】
データ分析領域10004は、データ分析の結果(例えば、データ表示領域10002に示されるデータ及び/又は他のデータを分析した結果)を表示し得る。例えば、データ分析領域10004は、図2A図3C及び図8を参照して検討される結果リストを表示し得る。いくつかの実施形態では、データ表示領域10002及びデータ分析領域10004は、GUI10000において組み合わされ得る(例えば、科学的機器からのデータ出力、及びデータのいくつかの分析を、共通のグラフ又は領域に含めるために)。様々な実装形態では、データ分析領域10004は、図2A図3Cを参照して前述したデータ分析領域を実装し得る。
【0092】
科学的機器制御領域10006は、ユーザが科学的機器(例えば、図12を参照して本明細書で検討される科学的機器12010)を制御することを可能にするオプションを含み得る。例えば、科学的機器制御領域10006は、ユーザが(例えば、図2A図9のステップのいずれかにおいて)前述の質量分析計及び/又は自動化された試料調製プラットフォームなどの科学的機器に指令することを可能にする、選択可能な要素を含み得る。様々な実装形態では、科学的機器制御領域10006は、図2A図3Cを参照して前述した制御領域を実装し得る。設定領域10008は、ユーザが、GUI10000(及び/又は、他のGUI)の特徴及び機能を制御する、かつ/又はデータ表示領域10002及びデータ分析領域10004に関する共通のコンピューティング動作を実施することを可能にするオプションを含み得る(例えば、図11を参照して本明細書で論じられる記憶デバイス11004などの記憶デバイス上にデータを保存すること、別のユーザにデータを送信すること、データをラベル付けすることなど。
【0093】
上記のように、科学的機器支援モジュール1000は、1つ以上のコンピューティングデバイスによって実装され得る。図11は、様々な実施形態による、本明細書に開示される科学的機器支援方法の一部又は全てを実施し得るコンピューティングデバイス11000のブロック図である。いくつかの実施形態では、科学的機器支援モジュール1000は、単一のコンピューティングデバイス11000によって、又は複数のコンピューティングデバイス11000によって実装され得る。更に、以下で検討するように、科学的機器支援モジュール1000を実装するコンピューティングデバイス11000(又は複数のコンピューティングデバイス11000)は、図12の科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、又はリモートコンピューティングデバイス12040の1つ以上の一部であってもよい。
【0094】
図11のコンピューティングデバイス11000は、いくつかの構成要素を有するものとして例示されているが、こうした構成要素のうちのいずれか1つ以上は、用途及び設定に合わせて好適となるように省略又は複製されてもよい。いくつかの実施形態では、コンピューティングデバイス11000に含まれる構成要素の一部又は全ては、1つ以上のマザーボードに取り付けられ、ハウジング(例えば、プラスチック、金属、及び/又は他の材料を含む)に封入されてもよい。いくつかの実施形態では、これらの構成要素の一部は、単一のシステムオンチップ(SoC)上に製造されてもよい(例えば、SoCは、1つ以上の処理デバイス11002及び1つ以上の記憶デバイス11004を含み得る)。加えて、様々な実施形態では、コンピューティングデバイス11000は、図11に示される1つ以上の構成要素を含まない場合があるが、任意の好適なインターフェース(例えば、ユニバーサルシリアルバス(USB)インターフェース、高精細マルチメディアインターフェース(HDMI(登録商標))インターフェース、コントローラエリアネットワーク(CAN)インターフェース、シリアルペリフェラルインターフェース(SPI)インターフェース、イーサネットインターフェース、ワイヤレスインターフェース、又は任意の他の適切なインターフェース)を使用して1つ以上の構成要素に結合するためのインターフェース回路(図示せず)を含み得る。例えば、コンピューティングデバイス11000は、ディスプレイデバイス11010を含まない場合があるが、ディスプレイデバイス11010が結合され得るディスプレイデバイスインターフェース回路(例えば、コネクタ及びドライバ回路)を含み得る。
【0095】
コンピューティングデバイス11000は、処理デバイス11002(例えば、1つ以上の処理デバイス)を含み得る。本明細書で使用する場合、「処理デバイス」という用語は、レジスタ、及び/又はメモリからの電子データを処理して、その電子データをレジスタ及び/又はメモリに格納され得る他の電子データに変換する、任意のデバイス又はデバイスの一部分を指し得る。処理デバイス11002は、1つ以上のデジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、暗号プロセッサ(ハードウェア内で暗号アルゴリズムを実行する専用プロセッサ)、サーバプロセッサ、又は任意の他の好適な処理デバイスを含み得る。
【0096】
コンピューティングデバイス11000は、記憶デバイス11004(例えば、1つ以上の記憶デバイス)を含み得る。記憶デバイス11004は、ランダムアクセスメモリ(RAM)(例えば、静的RAM(SRAM)デバイス、磁気RAM(MRAM)デバイス、ダイナミックRAM(DRAM)デバイス、抵抗性RAM(RRAM)デバイス、又は導電性ブリッジRAM(CBRAM)デバイス)、ハードドライブベースのメモリデバイス、ソリッドステートメモリデバイス、ネットワークドライブ、クラウドドライブ、又はメモリデバイスの任意の組み合わせなどの1つ以上のメモリデバイスを含み得る。いくつかの実施形態では、記憶デバイス11004は、処理デバイス11002とダイを共有するメモリを含み得る。かかる実施形態では、メモリは、キャッシュメモリとして使用され得、例えば、組み込みダイナミックランダムアクセスメモリ(embedded dynamic random access memory、eDRAM)、又はスピン転送トルク磁気ランダムアクセスメモリ(spin transfer torque magnetic random access memory、STT-MRAM)を含み得る。いくつかの実施形態では、記憶デバイス11004は、1つ以上の処理デバイス(例えば、処理デバイス11002)によって実行されると、コンピューティングデバイス11000に、本明細書に開示される方法のうちの任意の適切なもの又はそれらの方法の部分を実施させる命令を有する非一時的コンピュータ可読媒体を含み得る。
【0097】
コンピューティングデバイス11000は、インターフェースデバイス11006(例えば、1つ以上のインターフェースデバイス4006)を含み得る。インターフェースデバイス11006は、コンピューティングデバイス11000と他のコンピューティングデバイスとの間の通信を管理するために、1つ以上の通信チップ、コネクタ、並びに/又は他のハードウェア及びソフトウェアを含み得る。例えば、インターフェースデバイス11006は、コンピューティングデバイス11000との間でデータを転送するための無線通信を管理する回路を含み得る。「無線」という用語及びその派生語は、非固体媒体を介した変調された電磁放射の使用を通じてデータを通信し得る回路、デバイス、システム、方法、技法、通信チャネルなどを説明するために使用され得る。この用語は、関連するデバイスがいかなる配線も含まないことを意味するものではないが、実施形態によっては、含まない場合もある。無線通信を管理するためのインターフェースデバイス11006に含まれる回路は、限定されないが、Wi-Fi(IEEE802.11ファミリ)、IEEE802.16規格(例えば、IEEE802.16-2005 Amendment)を含む米国電気電子学会(IEEE)規格、何らかの修正、更新、及び/又は改訂を伴うロングタームエボリューション(LTE)プロジェクト(例えば、アドバンストLTEプロジェクト、ウルトラモバイルブロードバンド(UMB)プロジェクト(「3GPP(登録商標)2」とも称される)など)を含む、いくつかの無線規格、又はプロトコルのいずれかを実装し得る。いくつかの実施形態では、無線通信を管理するためのインターフェースデバイス11006に含まれる回路は、モバイル通信用グローバルシステム(GSM)、汎用パケット無線サービス(GPRS)、ユニバーサルモバイル電気通信システム(UMTS)、高速パケットアクセス(HSPA)、進化型HSPA(E-HSPA)、又はLTEネットワークに従って動作し得る。いくつかの実施形態では、無線通信を管理するためのインターフェースデバイス11006に含まれる回路は、GSM進化型高速データ(EDGE)、GSM EDGE無線アクセスネットワーク(GERAN)、ユニバーサル地上無線アクセスネットワーク(UTRAN)、又は進化型UTRAN(E-UTRAN)に従って動作し得る。いくつかの実施形態では、無線通信を管理するためのインターフェースデバイス11006に含まれる回路は、符号分割多元接続(CDMA)、時分割多元接続(TDMA)、デジタル拡張コードレス電気通信(DECT)、エボリューションデータ最適化(EV-DO)、及びそれらの派生物、並びに3G、4G、5G、及びそれ以降として指定される任意の他の無線プロトコルに従って動作し得る。いくつかの実施形態では、インターフェースデバイス11006は、無線通信の受信及び/又は送信用の1つ以上のアンテナ(例えば、1つ以上のアンテナアレイ)を含み得る。
【0098】
いくつかの実施形態では、インターフェースデバイス11006は、電気的、光学的、又は任意の他の好適な通信プロトコルなどの有線通信を管理するための回路を含み得る。例えば、インターフェースデバイス11006は、イーサネット技術に従って通信を支援する回路を含み得る。いくつかの実施形態では、インターフェースデバイス11006は、無線通信及び有線通信の双方を支援し得、かつ/又は複数の有線通信プロトコル及び/若しくは複数の無線通信プロトコルを支援し得る。例えば、インターフェースデバイス11006の回路の第1のセットは、Wi-Fi又はBluetoothなどの短距離無線通信専用であってもよく、インターフェースデバイスデバイス11006の回路の第2のセットは、全地球測位システム(GPS)、EDGE、GPRS、CDMA、WiMAX、LTE、EV-DOなどの長距離無線通信専用であってもよい。いくつかの実施形態では、インターフェースデバイス11006の回路の第1のセットは、無線通信専用であってもよく、インターフェースデバイス11006の回路の第2のセットは、有線通信専用であってもよい。
【0099】
コンピューティングデバイス11000は、バッテリ/電力回路11008を含み得る。バッテリ/電力回路11008は、1つ以上のエネルギー貯蔵デバイス(例えば、バッテリ若しくはコンデンサ)、及び/又はコンピューティングデバイス11000の構成要素をコンピューティングデバイス11000とは別個のエネルギー源(例えば、ACライン電力)に結合するための回路を含み得る。
【0100】
コンピューティングデバイス11000は、ディスプレイデバイス11010(例えば、複数のディスプレイデバイス)を含み得る。ディスプレイデバイス11010は、ヘッドアップディスプレイ、コンピュータモニタ、プロジェクタ、タッチスクリーンディスプレイ、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ、又はフラットパネルディスプレイなどの任意の視覚インジケータを含み得る。
【0101】
コンピューティングデバイス11000は、他の入力/出力(I/O)デバイス11012を含み得る。他のI/Oデバイス11012は、例えば、1つ以上のオーディオ出力デバイス(例えば、スピーカ、ヘッドセット、イヤホン、アラームなど)、1つ以上のオーディオ入力デバイス(例えば、マイクロフォン又はマイクロフォンアレイ)、位置デバイス(例えば、当技術分野で既知であるような、コンピューティングデバイス11000の位置を受信するために衛星ベースシステムと通信するGPSデバイス)、オーディオコーデック、ビデオコーデック、プリンタ、センサ(例えば、熱電対若しくは他の温度センサ、湿度センサ、圧力センサ、振動センサ、加速度計、ジャイロスコープなど)、カメラなどの画像キャプチャデバイス、キーボード、カーソル制御デバイス(マウス、スタイラス、トラックボール、又はタッチパッドなど)、バーコードリーダ、クイックレスポンス(QR)コードリーダ、又は無線周波数識別(RFID)リーダを含み得る。
【0102】
コンピューティングデバイス11000は、ハンドヘルド若しくはモバイルコンピューティングデバイス(例えば、携帯電話、スマートフォン、モバイルインターネットデバイス、タブレットコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、ウルトラブックコンピュータ、パーソナルデジタルアシスタント(PDA)、ウルトラモバイルパーソナルコンピュータなど)、デスクトップコンピューティングデバイス、又はサーバコンピューティングデバイス若しくは他のネットワーク化されたコンピューティング構成要素など、その用途及び設定に好適な任意のフォームファクタを有し得る。
【0103】
本明細書に開示される科学的機器支援モジュール又は方法のいずれかを実装する1つ以上のコンピューティングデバイスは、科学的機器支援システムの一部であり得る。図12は、様々な実施形態による、本明細書に開示される科学的機器支援方法の一部又は全てが実施され得る、例示的な科学的機器支援システム12000のブロック図である。本明細書に開示される科学的機器支援モジュール及び方法(例えば、図1の科学的機器支援モジュール1000、及び図2A図9のプロセス2000~9000)は、科学的機器支援システム12000の科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、又はリモートコンピューティングデバイス12040の1つ以上によって実装され得る。
【0104】
科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、又はリモートコンピューティングデバイス12040のいずれかは、図11を参照して本明細書で検討されるコンピューティングデバイス11000の実施形態のいずれかを含み得、科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、又はリモートコンピューティングデバイス12040のいずれかは、図11を参照して本明細書で検討されるコンピューティングデバイス11000の実施形態のいずれか適切なものの形態をとり得る。
【0105】
科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、又はリモートコンピューティングデバイス12040はそれぞれ、処理デバイス12002、記憶デバイス12004、及びインターフェースデバイス12006を含み得る。処理デバイス12002は、図11を参照して本明細書で検討される処理デバイス11002のいずれかの形態を含む、任意の好適な形態を取り得、科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、又はリモートコンピューティングデバイス12040のうち異なるものに含まれる処理デバイス12002は、同じ形態又は異なる形態を取り得る。記憶デバイス12004は、図11を参照して本明細書で検討される記憶デバイス11004のいずれかの形態を含む、任意の好適な形態を取り得、科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、又はリモートコンピューティングデバイス12040のうち異なるものに含まれる記憶デバイス12004は、同じ形態又は異なる形態を取り得る。インターフェースデバイス12006は、図11を参照して本明細書で検討されるインターフェースデバイス11006のいずれかの形態を含む、任意の好適な形態を取り得、科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、又はリモートコンピューティングデバイス12040のうち異なるものに含まれるインターフェースデバイス12006は、同じ形態又は異なる形態を取り得る。
【0106】
科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、及びリモートコンピューティングデバイス12040は、通信経路12008を介して、科学的機器支援システム12000の他の要素と通信し得る。通信経路12008は、図示のとおり、科学的機器支援システム12000の様々な要素のインターフェースデバイス12006と通信可能に結合され得、有線又は無線通信経路であり得る(例えば、図11のコンピューティングデバイス11000のインターフェースデバイス11006を参照して本明細書で検討される通信技法のいずれかに従って)。図12に示される特定の科学的機器支援システム12000は、科学的機器12010、ユーザローカルコンピューティングデバイス12020、サービスローカルコンピューティングデバイス12030、及びリモートコンピューティングデバイス12040の各ペア間の通信経路を含むが、この「完全に接続された」実装形態は例示的なものに過ぎず、様々な実施形態では、通信経路12008の様々なものが存在しない場合がある。例えば、いくつかの実施形態では、サービスローカルコンピューティングデバイス12030は、そのインターフェースデバイス12006と科学的機器12010のインターフェースデバイス12006との間に直接通信経路12008を有さない場合があり、その代わりとして、サービスローカルコンピューティングデバイス12030とユーザローカルコンピューティングデバイス12020との間の通信経路12008、及びユーザローカルコンピューティングデバイス12020と科学的機器12010との間の通信経路12008を介して、科学的機器12010と通信し得る。
【0107】
科学的機器12010は、質量分析計又は自動化された試料調製プラットフォームなど、任意の適切な科学的機器を含み得る。様々な実装形態では、科学的機器12010は、1つ以上の質量分析計及び1つ以上の自動化された試料調製プラットフォームなど、複数の科学的機器を含み得る。好適な自動化された試料調製プラットフォームの例としては、図2A図9を参照して前述したもののいずれかが挙げられる。好適な質量分析計の例としては、四重極質量分析計、飛行時間型質量分析計、イオントラップ質量分析計、三連四重極質量分析計、四重極飛行時間型質量分析計、及び/又はフーリエ変換イオンサイクロトロン共鳴質量分析計が挙げられ得る。様々な実装形態では、好適な質量分析計は、質量分析計のOrbitrap及びQ Exactive(商標)ラインなど、Thermo Fisher Scientific Inc.から入手可能な質量分析計のいずれかを含み得る。
【0108】
ユーザローカルコンピューティングデバイス12020は、科学的機器12010のユーザの近くにある(例えば、本明細書で考察されるコンピューティングデバイス11000の実施形態のいずれかによる)コンピューティングデバイスであり得る。いくつかの実施形態では、ユーザローカルコンピューティングデバイス12020はまた、科学的機器12010の近くにあり得るが、そうである必要はない。例えば、ユーザの自宅又はオフィスにあるユーザローカルコンピューティングデバイス12020は、科学的機器12010から離れた場所にあるが、それと通信し得、その結果、ユーザは、ユーザローカルコンピューティングデバイス12020を使用して科学的機器12010からのデータを制御し及び/又はそれにアクセスし得る。いくつかの実施形態では、ユーザローカルコンピューティングデバイス12020は、ラップトップ、スマートフォン、又はタブレットデバイスであり得る。いくつかの実施形態では、ユーザローカルコンピューティングデバイス12020は、ポータブルコンピューティングデバイスであり得る。
【0109】
サービスローカルコンピューティングデバイス12030は、科学的機器12010にサービスを提供するエンティティの近くにある(例えば、本明細書で考察されるコンピューティングデバイス11000の実施形態のいずれかによる)コンピューティングデバイスであり得る。例えば、サービスローカルコンピューティングデバイス12030は、科学的機器12010の製造元、又はサードパーティサービス会社の近くにあり得る。いくつかの実施形態では、サービスローカルコンピューティングデバイス12030は、科学的機器12010、ユーザローカルコンピューティングデバイス12020、及び/又はリモートコンピューティングデバイス12040と通信して(例えば、これまで考察したように、直接通信経路12008を介して、又は複数の「間接」通信経路12008を介して)、科学的機器12010、ユーザローカルコンピューティングデバイス12020、及び/又はリモートコンピューティングデバイス12040の動作に関するデータ(例えば、科学的機器12010の自己診断テストの結果、科学的機器12010によって使用される校正係数、科学的機器12010に関連付けられたセンサの測定値など)を受信し得る。いくつかの実施形態では、サービスローカルコンピューティングデバイス12030は、科学的機器12010、ユーザローカルコンピューティングデバイス12020、及び/又はリモートコンピューティングデバイス12040と通信して(例えば、これまで考察したように、直接通信経路12008、又は複数の「間接」通信経路12008を介して)、科学的機器12010、ユーザローカルコンピューティングデバイス12020、及び/又はリモートコンピューティングデバイス12040に(例えば、科学的機器12010において、ファームウェアなどのプログラムされた命令を更新するため、科学的機器12010において試験又は校正シーケンスの実施を開始するため、ユーザローカルコンピューティングデバイス12020又はリモートコンピューティングデバイス12040において、ソフトウェアなどのプログラムされた命令を更新するなどのため)データを送信し得る。科学的機器12010のユーザは、科学的機器12010若しくはユーザローカルコンピューティングデバイス12020に関する問題を報告するために、科学的機器12010の動作を改善させる訪問を技術者に要求するために、科学的機器12010に関連付けられた消耗品若しくは交換部品を注文するために、又は他の目的のために、科学的機器12010又はユーザローカルコンピューティングデバイス12020を利用してサービスローカルコンピューティングデバイス12030と通信し得る。
【0110】
リモートコンピューティングデバイス12040は、科学的機器12010から、及び/又はユーザローカルコンピューティングデバイス12020から離れた場所にある(例えば、本明細書で考察されるコンピューティングデバイス11000の実施形態のうちのいずれかによる)コンピューティングデバイスであり得る。いくつかの実施形態では、リモートコンピューティングデバイス12040は、データセンター又は他の大規模サーバ環境に含まれ得る。いくつかの実施形態では、リモートコンピューティングデバイス12040は、ネットワーク接続ストレージを含み得る(例えば、記憶デバイス12004の一部として)。リモートコンピューティングデバイス12040は、科学的機器12010によって生成されたデータを記憶し、科学的機器12010によって生成されたデータの分析を実施し(例えば、プログラムされた命令に従って)、ユーザローカルコンピューティングデバイス12020と科学的機器12010との間の通信を支援し、かつ/又はサービスローカルコンピューティングデバイス12030と科学的機器12010との間の通信を支援し得る。
【0111】
いくつかの実施形態では、図12で例示される科学的機器支援システム12000の要素の1つ以上が存在しない場合がある。更に、いくつかの実施形態では、図12の科学的機器支援システム12000の要素の様々な要素の複数のものが、存在し得る。例えば、科学的機器支援システム12000は、複数のユーザローカルコンピューティングデバイス12020(例えば、異なるユーザと関連付けられた又は異なる場所における異なるユーザローカルコンピューティングデバイス12020)を含み得る。別の実施例では、科学的機器支援システム12000は、複数の科学的機器12010を含み得、全てがサービスローカルコンピューティングデバイス12030及び/又はリモートコンピューティングデバイス12040と通信する。かかる実施形態では、サービスローカルコンピューティングデバイス12030は、これらの複数の科学的機器12010を監視し得、サービスローカルコンピューティングデバイス12030が更新を引き起こし得るか、又は他の情報が同時に複数の科学的機器12010に「一斉送信」され得る。科学的機器支援システム12000内の科学的機器12010の異なるものは、互いに近くに(例えば、同じ部屋に)又は互いに遠くに(例えば、建物の異なる階に、異なる建物に、異なる都市になど)位置し得る。いくつかの実施形態では、科学的機器12010は、ウェブベースのアプリケーション、仮想若しくは拡張現実アプリケーション、モバイルアプリケーション、及び/又はデスクトップアプリケーションを通じて科学的機器12010の指令及び制御を可能にするモノのインターネット(IoT)スタックに接続され得る。これらのアプリケーションのいずれも、介在するリモートコンピューティングデバイス12040によって科学的機器12010と通信するユーザローカルコンピューティングデバイス12020をユーザが操作することによってアクセスされ得る。いくつかの実施形態では、科学的機器12010は、ローカル科学的機器コンピューティングユニット12012の一部として、1つ以上の関連するユーザローカルコンピューティングデバイス12020と合わせて、製造元から販売され得る。
【0112】
いくつかの実施形態では、科学的機器支援システム12000に含まれる科学的機器12010のうちの異なるものは、異なるタイプの科学的機器12010であり得る。例えば、1つの科学的機器12010は質量分析計であり得、別の科学的機器12010は自動化された試料調製プラットフォームであり得る。いくつかのそのような実施形態では、リモートコンピューティングデバイス12040及び/又はユーザローカルコンピューティングデバイス12020は、科学的機器支援システム12000に含まれる異なるタイプの科学的機器12010からのデータを組み合わせ得る。
【0113】
図13は、第1のプロセス2000の一部の例示的な実装形態のブロック図である。プロセス2000を参照して前述したように、分析ロジック1006は、試料のバッチ全体について生スペクトルファイルを読み込み得る。図13の実施例に示されるように、バッチはn個の試料を含み得る。したがって、分析ロジック1006は、生スペクトルファイル1~nを読み込み得る。3つの生スペクトルファイル13002-1、13002-2、及び13002-3のみが図13に示されているが、nは任意の数であり得、したがって、任意の数nの生スペクトルファイルが読み込まれ得る。分析ロジック1006は、n個の生スペクトルファイル13002-1~13002-3の各々を機械学習モデル(機械学習モデル13004など)に読み込む。機械学習モデル13004は、n個の生スペクトルファイル13002-1~13002-3の各々を処理し、n個の生スペクトルファイル13002-1~13002-3の各々について初期スペクトルマッチファイルを生成する。したがって、図13の例に示されるように、機械学習モデル13004は、n個の初期スペクトルマッチファイル13006-1~13006-3を生成し得、各初期スペクトルマッチファイルは、生スペクトルファイルに対応する。3つの初期スペクトルマッチファイル13006-1~13006-3のみが図13に示されているが、nは任意の数であり得、したがって、任意の数nの初期スペクトルマッチファイルが生成され得る。次に、分析ロジック1006は、n個の初期スペクトルマッチファイル13006-1~13006-3のバッチ全体を解析して、スクリーニングリスト14006を生成する。
【0114】
分析ロジック1006は、スクリーニングリスト13008を有するn個の生スペクトルファイル13002-1~13002-3のバッチ全体の各々を機械学習モデル13004に提供する。スクリーニングリスト13008を用いてn個の生スペクトルファイル13002-1~13002-3の各々を処理した後、機械学習モデル13004は、n個の生スペクトルファイル13002-1~13002-3の各々について結果ファイルを生成する。3つの生スペクトルファイル13002-1~13002-3及び3つの結果ファイル13010-1~13010-3のみが図13に示されているが、nは、任意の数であり得、したがって、任意の数nの結果ファイルを生成するために、任意の数nの生スペクトルマッチファイルが機械学習モデル13004に提供され得る。したがって、図13の例に示されるように、機械学習モデル13004は、n個の結果ファイル13010-1~13010-3を生成し得る(各結果ファイルは、生スペクトルファイルに対応する)。次に、分析ロジック1006は、n個の結果ファイル13010-1~13010-3のバッチ全体を解析して、結果リスト13012を生成する。図13に示されるように、いくつかのプロセスは、(i)バッチのn個の初期スペクトルマッチファイル13006-1~13006-3を生成するために、機械学習モデル13004によって処理されるn個の結果ファイル13002-1~13002-3のバッチ全体を必要とし、(ii)スクリーニングリスト13008を生成できる前に、分析ロジック1006によって処理されるn個の初期スペクトルマッチファイル13006-1~13006-3のバッチ全体を必要とする。
【0115】
図14は、第2のプロセス3000の一部の例示的な実装形態のブロック図である。プロセス3000を参照して前述したように、分析ロジック1006は、n個の試料のバッチ全体について生スペクトルファイルを読み込み得る。分析ロジック1006は、n個の生スペクトルファイルのバッチをm個の生スペクトルファイルのより小さいサブセットに分割し得る。前述したように、mのサイズは、nのサイズよりも実質的に小さくてもよい。例えば、いくつかの実施形態では、mは、nの約10%であり得る。様々な実装形態では、mは、nの約20%であり得る。いくつかの実施例によれば、mは、nの約25%であり得る。他の実施例では、mは、nの約33%であり得る。様々な実施形態では、mは、nの約50%であり得る。いくつかの実装形態では、mは、nの約67%であり得る。分析ロジック1006は、図14に生スペクトルファイル14002-1~14002-3として示される、m個の生スペクトルファイルのサブセットを機械学習モデル13004に提供して、m個の初期スペクトルマッチファイル14004-1~14004-3を生成する。2つの生スペクトルファイル14002-1~14002-3及び2つの初期スペクトルマッチファイル14004-1~14004-3のみが図14に示されているが、mは、任意の数であり得、したがって、任意の数mの生スペクトルファイルが読み込まれ得、任意の数mの初期スペクトルマッチファイルが生成され得る。図14に示されるように、機械学習モデル13004は、m個の生スペクトルファイル14002-1~14002-3のサブセットの各々について、対応する初期スペクトルマッチファイルを生成し得る。次に、分析ロジック1006は、n個の初期スペクトルマッチファイル14004-1~14004-3のサブセットを処理して、スクリーニングリスト14006を生成する。
【0116】
分析ロジック1006は、n個の生スペクトルファイル14002-1~14002-4のバッチ全体の第2のサブセットの各々(又は図14の例に示されるように、n個の生スペクトルファイル14002-1~14002-4のバッチ全体)をスクリーニングリスト14006とともに機械学習モデル13004に提供して、機械学習モデル13004に入力された生スペクトルファイルの各々について結果ファイルを生成する。4つの生スペクトルファイル14002-1~14002-4のみが図14に示されているが、nは、任意の数であり得、したがって、n個の生スペクトルファイルのバッチは、任意の数の生スペクトルファイルを含み得る。同様に、4つの結果ファイル14008-1~14008-4のみが図14に示されているが、機械学習モデル1004は、入力された生スペクトルファイルに基づいて任意の数nの結果ファイルを生成し得る。次に、分析ロジック1006は、結果ファイル14008-1~14008-4を処理して、結果リスト14010を生成する。
【0117】
図15は、第2のプロセス3000の一部の例示的な実装形態のブロック図である。プロセス3000を参照して前述したように、分析ロジック1006は、n個の試料のバッチ全体について生スペクトルファイルを読み込む。n個の試料のバッチは、1つ以上の試料を表す質量分析データを含み得る。分析ロジック1006は、n個の生スペクトルファイルのバッチをm個の生スペクトルファイルのより小さいサブセットに分割する。分析ロジック1006は、図15に生スペクトルファイル14002-1~14002-3として示される、m個の生スペクトルファイルのサブセットをデータベース検索エンジン15002に提供して、m個の初期スペクトルマッチファイル14004-1~14004-3を生成する。2つの生スペクトルファイル14002-1~14002-3及び2つの初期スペクトルマッチファイル14004-1~14004-3のみが図14に示されているが、mは、任意の数であり得る(したがって、任意の数mの生スペクトルファイルが読み込まれ得、任意の数mの初期スペクトルマッチファイルが生成され得る。図15に示されるように、データベース検索エンジン15002は、m個の生スペクトルファイル14002-1~14002-3のサブセットの各々について、対応する初期スペクトルマッチファイルを生成し得る。次に、分析ロジック1006は、m個の初期スペクトルマッチファイル14004-1~14004-3のサブセットの結果を統合して、識別されたエンティティファイルのデータベース15004を生成する。
【0118】
様々な実装形態では、分析ロジック1006は、初期質量スペクトルファイルからの質量スペクトルを測定スペクトル、後処理されたスペクトル、及び/又は合成スペクトルの参照データベースからのエントリと比較することによって初期質量スペクトルファイルを処理することによって、識別されたエンティティのデータベース15004を生成する。例えば、識別されたエンティティの最低限の品質基準を識別するために、閾値、偽検出率、及び/又はスペクトルマッチスコアのうちの少なくとも1つが使用され得る。最低限の品質基準を上回るエンティティのみが、識別されたエンティティのデータベース15004に追加される。例示的な実施形態では、参照データベースはペプチドスペクトルを含み得る。いくつかの例では、参照データベースはペプチド配列を含み得る。様々な実装形態では、参照データベースは、リアルタイムで、又は比較プロセスと同時に生成され得る、合成スペクトルを含み得る。例示的な実装形態では、識別されたエンティティのデータベース15004は、ペプチド配列、ペプチド識別、ペプチドの質量スペクトル、保持時間及び/若しくは保持指標情報、並びに/又はプリカーサイオン情報(質量、質量電荷比[m/z]、及び/又はm/zウィンドウなど)を含み得る。
【0119】
様々な実装形態では(図15には図示せず)、データベース検索エンジン15002は、識別されたエンティティのデータベース15004を使用してm個の生スペクトルファイル14002-1~14002-3のバッチを再処理して、そのバッチのm個の結果ファイルを生成する(例えば、識別されたエンティティのデータベース15004に基づいてエンティティを識別及び/又は定量する)。
【0120】
分析ロジック1006は、n個の生スペクトルファイル14002-1~14002-4のバッチの第2のサブセットの各々(又は図15の例に示されるように、n個の生スペクトルファイルのバッチ全体)を識別されたエンティティのデータベース15004とともにデータベース検索エンジン15006に提供して、データベース検索エンジン15006に入力された生スペクトルファイルの各々について結果ファイルを生成する。様々な実装形態では、データベース検索エンジン15006は、データベース検索エンジン15002と同じであり得る。他の実施例では、データベース検索エンジン15006は、データベース検索エンジン15002と異なり得る。様々な実装形態では、データベース検索エンジン15006は、生スペクトルファイルからのイオンスペクトル又はフラグメンテーションスペクトルを識別されたエンティティのデータベース15006内のエントリと比較することによって結果ファイルを生成する。例えば、データベース検索エンジン15006は、具体的には、識別されたエンティティのデータベース15004内のエンティティについて(例えば、プリカーサ情報及び/又は保持時間情報を使用して)生スペクトルファイルを検索し得る。
【0121】
様々な実装形態では、データベース検索エンジン15006は、n個の生スペクトルファイルの第2のサブセットの少なくとも一部又はバッチ全体を処理して、識別されたエンティティのデータベース15004を拡張し得る。例えば、データベース検索エンジン15006は、m個の初期スペクトルマッチファイル14004-1~14004-3のサブセット及びn個の結果ファイルの第2のサブセット又はバッチ全体を再検索して、更なる識別及び/又は定量情報を受信し得る。この追加の処理は、識別されたエンティティのデータベース15004の成長率が閾値を下回ると(例えば、スペクトルファイル当たり平均10、1、0.1、又は0.01未満の追加のエントリ)、停止され得る。
【0122】
4つの生スペクトルファイル14002-1~14002-4のみが図15に示されているが、nは、任意の数であり得、したがって、n個の生スペクトルファイルのバッチは、任意の数の生スペクトルファイルを含み得る。同様に、4つの結果ファイル14008-1~14008-4のみが図15に示されているが、機械学習モデル1004は、入力された生スペクトルファイルに基づいて任意の数nの結果ファイルを生成し得る。次に、分析ロジック1006は、結果ファイル14008-1~14008-4を処理して、結果リスト15008を生成する。
【0123】
図16は、第2のプロセス3000の一部の例示的な実装形態のブロック図である。プロセス3000を参照して前述したように、分析ロジック1006は、生スペクトルファイルのバッチを読み込む。例えば、分析ロジック1006は、1つ以上の試料を表す生スペクトルファイルの第1のセットを作成する。生スペクトルファイルの第1のセットは、生スペクトルファイル14002-1を含み得る。生スペクトルファイルの第1のセットからの単一の生スペクトルファイルのみが図16に示されているが、生スペクトルファイルの第1のセットは、任意の数の生スペクトルファイルを含み得る。分析ロジック1006は、生スペクトルファイルの第1のセットからの各生スペクトルファイルを検索空間ファイル16002とともに機械学習モデル(データベース検索エンジン15002-1など)に提供する。データベース検索エンジン15002-1は、生スペクトルファイルの第1のセットからの各生スペクトルファイルについて初期スペクトルマッチファイル(初期スペクトルマッチファイル14004-1など)を生成する。分析ロジック1006は、生スペクトルファイルの第1のセットの結果(初期スペクトルマッチファイルなど)を統合及び/又は分析して、スクリーニングリスト13008を生成する。様々な実装形態では、分析ロジックは、全ての検索からの高信頼度の識別を識別されたエンティティの1つのスクリーニングリスト(所与の実験設定に対応する)にマージすることによって、スクリーニングリスト13008を生成する。
【0124】
分析ロジック1006は、生スペクトルファイル14002-5~14002-4など、生スペクトルファイルの第2のセットを読み込む。生スペクトルファイルの第2のセットからの2つの生スペクトルファイルのみが図16に示されているが、生スペクトルファイルの第2のセットは、任意の数の生スペクトルファイルを含み得る。生スペクトルファイルの第2のセットからの各生スペクトルファイルは、スクリーニングリスト13008及び、任意選択で、検索空間ファイル16002とともに、データベース検索エンジンに提供される。生スペクトルファイルの第2のセットからの各生スペクトルファイルは、同じ又は異なるデータベース検索エンジンに提供され得る。例えば、データベース検索エンジン15002-2は、データベース検索エンジン15002-3と同じであっても異なっていてもよい。同様に、データベース検索エンジン15002-1は、データベース検索エンジン15002-2~15002-3と同じであっても異なっていてもよい。次いで、各データベース検索エンジンは、生スペクトルファイルの第2のセットのそれぞれのスペクトルマッチファイルについて結果ファイルを生成する。2つの結果ファイル14008-4~14004-5のみが示されているが、生スペクトルファイルの第2のセットは任意のサイズであり得、したがって、生スペクトルファイルの第2のセットについて任意の数の結果ファイルが生成され得る。
【0125】
図17は、第2のプロセス3000の一部の例示的な実装形態のブロック図である。プロセス3000を参照して前述したように、分析ロジック1006は、生スペクトルファイルのバッチなど、1つ以上の関連した研究からの関連する質量分析データのセットを読み込む。質量分析データは、質量、強度、保持時間、イオン移動度特性、物理化学的特性、及び/又は空間的に配置された試料(組織、細胞、又はゲルなど)上の位置を含み得る。質量分析データのセットの要素は、1つ以上の研究からの個々の試料を含み得るか又は表し得、(i)試料タイプ(血液試料、細胞培養試料、及び/又は組織試料など)の類似性、及び(ii)データ取得方法の類似性(液体クロマトグラフィー質量分析[LC-MS]から生成される、マトリックス支援レーザー脱離/イオン化[MALDI]質量分析から生成される、同じ液体クロマトグラフィー[LC]カラムで生成される、同じ分離剤で調製される、共通の試料調製を共有する、同じマトリックスを共有する、同じ質量分析スキームを共有する[例えば、同様のフラグメンテーションウィンドウ及び/又はエネルギーを有するデータ独立取得スキームを共有する、同様の質量分析設定を共有する、細胞培養におけるアミノ酸による安定同位体標識(SILAC)などの同じ方法によって生成される、同位体質量タグを共有するなど]など)のうちの1つ以上によって関連付けられ得る。
【0126】
図17に示されるように、分析ロジック1006は、生スペクトルファイルの第1のセットなど、質量分析データの第1のサブセットを作成し得る。生スペクトルファイルの第1のセットは、生スペクトルファイル14002-1を含み得る。生スペクトルファイルの第1のセットからの単一の生スペクトルファイルのみが図17に示されているが、生スペクトルファイルの第1のセットは、任意の数の生スペクトルファイル(単一の生スペクトルファイルのみも含む)を含み得る。分析ロジック1006は、生スペクトルファイルの第1のセットからの各生スペクトルファイル及びスクリーニングリスト17002を機械学習モデル(データベース検索エンジン15002-1など)に提供する。様々な実装形態では、スクリーニングリスト17002は、FASTAファイルを含み、データベース検索エンジン15002-1(又はプロセス3000で使用される機械学習モデルのいずれか)のための検索空間を定義し得る。いくつかの実施例では、データベース検索エンジン15002-1は、生スペクトルファイルの第1のセットを処理し、生スペクトルファイル(ra spectrum files)の第1のセットからの各生スペクトルファイルについて初期スペクトルマッチファイル(初期スペクトルマッチファイル14004-1など)を生成する。分析ロジック1006は、生スペクトルファイルの第1のセットの結果(初期スペクトルマッチファイルなど)を統合及び/又は分析して、スクリーニングリスト13008を生成する。
【0127】
いくつかの実施形態では、スクリーニングリスト13008は、識別されたエンティティのデータベースを含み得、エンティティは、ペプチド及び/又はタンパク質を含み得る。様々な実装形態では、データベース検索エンジン15002-1は、品質管理ロジック17004を含み得、識別されたエンティティのデータベース内のエンティティが、品質管理試験に合格したことに応答して選択され得る。いくつかの実施例では、品質管理試験は、偽発見率試験、最小閾値(例えば、最小強度又は他のスペクトル品質)を満たすこと、最小マッチングスコアを満たすこと(例えば、最小限の数のピークを参照スペクトルと共有すること)、及びサブセット内で最小限の出現数を有することのうちの少なくとも1つを含む。いくつかの実施例では、品質管理ロジック17004は、ペプチド検出のためのパーコレーター及び/又はmokapot半教師あり学習技法などの機械学習モデルとして実装され得る。様々な実装形態では、識別されたエンティティのデータベース内のエンティティは、エンティティ識別子(例えば、CAS登録番号及び/又はSwiss-Prot ID)、タンパク質又はペプチド配列、MS又はMS/MSスペクトルからの1つ以上の質量(強度値あり又はなし)、及び1つ以上の更なる物理化学的特性(例えば、保持時間及び/又はイオン移動度)のうちの1つ以上によって表され得る。
【0128】
分析ロジック1006は、生スペクトルファイルのバッチの第2のセットなど、関連する質量分析データのセットの第2のサブセットを読み込む。例えば、分析ロジック1006は、生スペクトルファイル14005-2~14002-4を読み込む。生スペクトルファイルの第2のセットからの2つの生スペクトルファイルのみが図16に示されているが、生スペクトルファイルの第2のセットは、任意の数(1つのみも含む)の生スペクトルファイルを含み得る。生スペクトルファイルの第2のセットからの各生スペクトルファイルは、スクリーニングリスト13008とともに、データベース検索エンジンに送られる。いくつかの実施例では、スクリーニングリストマージロジック17006は、スクリーニングリスト17002をスクリーニングリスト13008とマージし、マージされたスクリーニングリストをデータベース検索エンジンに提供する。生スペクトルファイルの第2のセットからの各生スペクトルファイルは、同じ又は異なるデータベース検索エンジンに提供され得る。例えば、データベース検索エンジン15002-2は、データベース検索エンジン15002-3と同じであっても異なっていてもよい。同様に、データベース検索エンジン15002-1は、データベース検索エンジン15002-2~15002-3と同じであっても異なっていてもよい。次いで、各データベース検索エンジンは、生スペクトルファイルの第2のセットのそれぞれのスペクトルマッチファイルをスクリーニングリスト13008又はマージされたスクリーニングリストとともに処理して、結果ファイルを生成する。
【0129】
様々な実装形態では、データベース検索エンジンは、スクリーニングリスト13008又はマージされたスクリーニングリストに存在しないエンティティを更なる処理から除外し得る。いくつかの実施例では、データベース検索エンジンは、スクリーニングリスト13008又はマージされたスクリーニングリストに含まれる任意のエンティティを更なる処理に含め得る。いくつかの実施形態では、データベース検索エンジンは、スクリーニングリスト17002を使用して、第2のスクリーニングリストへの追加のために更なるエンティティを識別し得る。既に処理されたデータは、スクリーニングリスト13008の新しい要素のための処理及び更なる処理を含むように遡及的に再処理され得る。様々な実装形態では、データベース検索エンジンは、質量分析データ(質量、強度、保持時間、及びイオン移動度のうちの1つ以上など)を選択された参照ライブラリスペクトルと比較することによって、生スペクトルファイルを処理し得る。いくつかの実施例では、データベース検索エンジンは、質量分析データを、スクリーニングリスト13008又はマージされたスクリーニングリスト内のエンティティに基づいて生成された合成スペクトルと比較することによって、生スペクトルファイルを処理し得る。いくつかの実施形態では、データベース検索エンジンは、類似性スコア、マッチング確率、及び機械学習モデルからの予測のうちの少なくとも1つに基づいて、生スペクトルファイルからのスペクトルを参照ライブラリスペクトル及び/又は生成された合成スペクトルと照合することによって、生スペクトルファイル内に存在するエンティティを識別し得る。
【0130】
前述したように、生スペクトルファイルの第2のセットの生スペクトルファイルを処理するデータベース検索エンジンによって使用される処理ツールチェーンは、生スペクトルファイルの第1のセットの生スペクトルファイルを処理するデータベース検索エンジンによって使用される処理ツールチェーンと同じであっても異なっていてもよい。いくつかの実施例では、ツールチェーンが同じであっても、生スペクトルファイルの第2のセットを処理するデータベース検索エンジンは、生スペクトルファイルの第1のセットを処理するデータベース検索エンジンとは異なる基準を適用し得る。例えば、生スペクトルファイルの第2のセットを処理するデータベース検索エンジンは、生スペクトルファイル内のスペクトルと参照ライブラリスペクトル及び/又は生成された合成スペクトルとの間で、(より少ないマッチングフラグメントを必要とする、より高い質量偏差を可能にする、並びに/又は保持時間及び/若しくは他の物理化学的特性のより高い偏差を可能にするなど)生スペクトルファイルの第1のセットを処理するデータベース検索エンジンよりも厳密性の低い一致を必要とし得る。
【0131】
様々な実装形態では、生スペクトルファイルの第2のセットを処理するために使用されるデータベース検索エンジン(データベース検索エンジン15002-2及びデータベース検索エンジン15002-3など)は、生スペクトルファイルの第2のセットについて結果ファイル(結果ファイル14008-5~14008-4など)を生成する前に、更なる処理ロジック17008及び/又は品質管理ロジック17010を含むか、又は呼び出す。いくつかの実施例では、更なる処理ロジック17008は定量値を計算し得る。定量値は、(i)試料内の及び/若しくは試料間にわたる相対強度に基づいて、(ii)複数の隣接する質量スペクトルにわたる面積としての信号強度及び/若しくはスペクトル寄与因子から、並びに/又は(iii)標識された若しくは標識されていない校正物質を使用して、計算され得る。標識された校正物質を使用して定量値が計算される実施例では、標識は、質量タグ及び/又は同位体標識を含み得る。様々な実装形態では、更なる処理ロジック17007は、(i)質量分析データのセット、質量分析データの第1のサブセット、質量分析データの第2のサブセット、質量分析データの更なるサブセット、並びに/又は質量分析データのセットの第1のサブセット及び1つ以上の追加の要素を含むサブセットにわたって出現及び/又は定量比較を判定及び/又は比較し得る。
【0132】
いくつかの実施形態では、品質管理ロジック17010は、品質管理ロジック17004を参照して前述した機能を実施し得る。いくつかの実装形態では、生スペクトルファイルの第2のバッチを処理した後にデータベース検索エンジンによって出力される結果ファイルは、質量分析データの完全なセットにわたる識別及び定量のデータベースを含み得る。様々な実装形態では、データベース検索エンジンは、これまでに処理された質量分析データのセットのサブセットを、中間出力として、提供し得る。様々な実装形態では、出力の内容(結果ファイルの内容など)は、グラフィカルユーザインターフェース出力を介してスクリーンに提示される。出力は、試料間の有意差及び/又は1つ以上の試料からの特定の物質の存在若しくは非存在を決定するために、ユーザ又は他のデータシステムによって問い合わせされ得る。
【0133】
図14図17に示されるように、第2のプロセス3000の実装は、図13に示されるような第1のプロセス2000の実装を上回る計算上の利点を提供する。例えば、前述したように、図13に従って実装されるプロセスは、スクリーニングリストが生成される前に、機械学習モデル13004によって処理されるn個の生スペクトルファイルのバッチ全体と、分析ロジック1006によって処理される初期スペクトルマッチファイルのバッチn全体とを必要とする。これは、スクリーニングリストが生成される前に2×n回の計算動作を必要とする。対照的に、図14図16に従って実装されるプロセス(プロセス3000など)は、スクリーニングリスト(又は識別されたエンティティのデータベース)が生成される前に、機械学習モデル13004によって処理されるm個の生スペクトルファイルのサブセット、及び分析ロジック1006によって処理されるm個の初期スペクトルマッチファイルのサブセットのみを必要とし、2×m回の計算動作のみを必要とする。mがnの10%である実施例では、図14図17に従って実装されるプロセスは、図13に従って実装されるプロセスの計算時間の10%しか必要とせず、最大で10倍の計算スループットの増加を提供する。計算スループットのこの増加は、図14図17に従って実装されるプロセスが、リアルタイム又はほぼリアルタイムで完了されることを可能にする(例えば、各生スペクトルファイルについて、そのようなファイルが生成されるのとほぼ同時にそのファイルについての結果を提供する)。
【0134】
更に、図14図17に従って実装されるプロセスの種々の実装形態は、n個の生スペクトルファイルのバッチ全体に対する完全な結果が生成される前に、識別されたエンティティのスクリーニングリスト及び/又はデータベースを生成することができる。例えば、識別されたエンティティのスクリーニングリスト及び/又はデータベースは、第1のサブセットからの単一の生スペクトルファイルのみが処理された後に生成され得、したがって、支援モジュール1000は、次の試料(第2のサブセットの生スペクトルファイルなど)の処理を、それらが科学的機器12010によって生成されるときにリアルタイム又はほぼリアルタイムで直ちに開始することができる。
【0135】
以下の段落は、本明細書に開示される実施形態の様々な例を提供する。
【0136】
実施例1は、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含む科学的機器支援装置を含む。命令は、質量分析計によって生成された生スペクトルファイルのバッチを読み込むことと、生スペクトルファイルを第1のサブセット及び第2のサブセットに分割することと、生スペクトルファイルの第1のサブセットの各々を機械学習モデルで処理して、スペクトルマッチファイルの第1のサブセットを生成することと、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することと、生スペクトルファイルの第2のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの第2のサブセットを生成することと、を含む。
【0137】
実施例2は、実施例1の主題を含み、命令は、スペクトルマッチファイルの第2のサブセットから結果リストを生成することを更に含む。
【0138】
実施例3は、実施例1の主題を含み、命令は、生スペクトルファイルの第1のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの更新された第1のサブセットを生成することと、スペクトルマッチファイルの更新された第1のサブセット及びスペクトルマッチファイルの第2のサブセットから結果リストを生成することとを更に含む。
【0139】
実施例4は、実施例1~3のいずれかの主題を含み、機械学習モデルが、選択された生スペクトルファイルを前処理することと、タンパク質データベースを読み込むことと、タンパク質データベース内の各ペプチドについて試験スペクトルを生成することと、前処理されたスペクトルファイル内のスペクトルを生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成することとによって各スペクトルマッチファイルを生成するように構成されていることを更に指定する。
【0140】
実施例5は、実施例4の主題を含み、機械学習モデルが、スクリーニングリストが読み込まれているか否かを判定することと、スクリーニングリストが読み込まれていないと判定したことに応答して、(i)第1の閾値未満のスコアを有する一致したスペクトルを破棄し、(ii)残りの一致したスペクトルをスペクトルマッチファイルに保存することとによって各スペクトルファイルを生成するように構成されていることを更に指定する。
【0141】
実施例6は、実施例4の主題を含み、機械学習モデルが、スクリーニングリストが読み込まれているか否かを判定することによって各スペクトルファイルを生成するように構成されていることを更に指定する。スクリーニングリストが読み込まれていると判定したことに応答して、機械学習モデルは、スクリーニングリストが包含リストを含むか否かを判定し、第1の閾値未満のスコアを有し、かつ包含リスト上にない一致したスペクトルを破棄し、スクリーニングリストが除外リストを含むか否かを判定し、スクリーニングリストが除外リストを含むと判定したことに応答して、除外リスト上にある一致したスペクトルを破棄するように構成されている。機械学習モデルは、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルをスペクトルマッチファイルに保存するように構成されている。
【0142】
実施例7は、実施例1~6のいずれかの主題を含み、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することが、スペクトルマッチファイルの第1のサブセットを解析して、存在するペプチドを識別することと、識別されたペプチドの各々について出現頻度を計算することと、第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、残りの識別されたペプチドを包含リストに追加することとを含むことを更に指定する。
【0143】
実施例8は、実施例1~7のいずれかの主題を含み、スペクトルマッチファイルの第1のサブセットからのスクリーニングリストが、スペクトルマッチファイルの第1のサブセットのスペクトルから強度閾値未満のピークを除去することによって、フィルタリングされたスペクトルを生成することと、フィルタリングされたスペクトルを処理して、フィルタリングされたスペクトルに関連するペプチドを識別することと、識別された各ペプチドの出現数をカウントすることと、第3の閾値未満の出現数を有するペプチドを除外リストに保存することと、を含むことを更に指定する。
【0144】
実施例9は、実施例4の主題を含み、選択された生スペクトルファイルを前処理することが、生スペクトルファイルのスペクトル内のピークを検出することと、スペクトルからノイズを除去することと、スペクトルにベースライン補正を適用することと、スペクトルに質量校正を適用することと、スペクトルに逆畳み込み処理を適用することとを含む。
【0145】
実施例10は、実施例1~9の主題を含み、質量分析計が、調製された試料をイオン化することと、イオン化された試料に対してイオン分離を行うことと、分離されたイオンを検出することと、検出された分離イオンから質量スペクトルを生成することとによって生スペクトルファイルを生成する。
【0146】
実施例11は、質量分析計によって生成された生スペクトルファイルのバッチを読み込むことと、生スペクトルファイルを第1のサブセット及び第2のサブセットに分割することと、生スペクトルファイルの第1のサブセットの各々を機械学習モデルで処理して、スペクトルマッチファイルの第1のサブセットを生成することと、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することと、生スペクトルファイルの第2のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの第2のサブセットを生成することと、を含む、科学的機器支援のためのコンピュータ実装方法を含む。
【0147】
実施例12は、実施例11の主題を含み、スペクトルマッチファイルの第2のサブセットから結果リストを生成することを更に指定する。
【0148】
実施例13は、実施例11の主題を含み、生スペクトルファイルの第1のサブセットの各々及びスクリーニングリストを機械学習モデルで処理して、スペクトルマッチファイルの更新された第1のサブセットを生成することと、スペクトルマッチファイルの更新された第1のサブセット及びスペクトルマッチファイルの第2のサブセットから結果リストを生成することとを更に指定する。
【0149】
実施例14は、実施例11~13のいずれかの主題を含み、機械学習モデルが、選択された生スペクトルファイルを前処理することと、タンパク質データベースを読み込むことと、タンパク質データベース内の各ペプチドについて試験スペクトルを生成することと、前処理されたスペクトルファイル内のスペクトルを生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成することとによって、各スペクトルマッチファイルを生成するように構成されていることを更に指定する。
【0150】
実施例15は、実施例14の主題を含み、機械学習モデルが、スクリーニングリストが読み込まれているか否かを判定することと、スクリーニングリストが読み込まれていないと判定したことに応答して、(i)第1の閾値未満のスコアを有する一致したスペクトルを破棄し、(ii)残りの一致したスペクトルをスペクトルマッチファイルに保存することとによって各スペクトルファイルを生成するように構成されていることを更に指定する。
【0151】
実施例16は、実施例14の主題を含み、機械学習モデルが、スクリーニングリストが読み込まれているか否かを判定することによって各スペクトルファイルを生成するように構成されていることを更に指定する。スクリーニングリストが読み込まれていると判定したことに応答して、機械学習モデルは、スクリーニングリストが包含リストを含むか否かを判定することと、スクリーニングリストが包含リストを含むと判定したことに応答して、第1の閾値未満のスコアを有し、かつ包含リスト上にない一致したスペクトルを破棄することと、スクリーニングリストが除外リストを含むか否かを判定することと、スクリーニングリストが除外リストを含むと判定したことに応答して、除外リスト上にある一致したスペクトルを破棄することとによって、各スペクトルファイルを生成するように構成されている。機械学習モデルは、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルをスペクトルマッチファイルに保存することによって各スペクトルファイルを生成するように構成されている。
【0152】
実施例17は、実施例11~16のいずれかの主題を含み、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することが、スペクトルマッチファイルの第1のサブセットを解析して、存在するペプチドを識別することと、識別されたペプチドの各々について出現頻度を計算することと、第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、残りの識別されたペプチドを包含リストに追加することとを含むことを更に指定する。
【0153】
実施例18は、実施例11~17のいずれかの主題を含み、スペクトルマッチファイルの第1のサブセットからスクリーニングリストを生成することが、スペクトルマッチファイルの第1のサブセットのスペクトルから強度閾値未満のピークを除去することによって、フィルタリングされたスペクトルを生成することと、フィルタリングされたスペクトルを処理して、フィルタリングされたスペクトルに関連するペプチドを識別することと、識別された各ペプチドの出現数をカウントすることと、第3の閾値未満の出現数を有するペプチドを除外リストに保存することと、を含むことを更に指定する。
【0154】
実施例19は、実施例14の主題を含み、選択された生スペクトルファイルを前処理することが、生スペクトルファイルのスペクトル内のピークを検出することと、スペクトルからノイズを除去することと、スペクトルにベースライン補正を適用することと、スペクトルに質量校正を適用することと、スペクトルに逆畳み込み処理を適用することとを含むことを更に指定する。
【0155】
実施例20は、実施例11~19の主題を含み、質量分析計が、調製された試料をイオン化することと、イオン化された試料に対してイオン分離を行うことと、分離されたイオンを検出することと、検出された分離イオンから質量スペクトルを生成することとによって、生スペクトルファイルを生成することを更に指定する。
【0156】
実施例21は、質量分析計によって生成された生データ構造のバッチを受信するための第1のロジックと、生データ構造のバッチを第1のサブセット及び第2のサブセットに分割し、生データ構造の第1のサブセットの各々を人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第1のサブセットを生成し、処理されたデータ構造の第1のサブセットを解析して、比較リストを構築し、生データ構造の第2のサブセットの各々及び比較リストを人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第2のサブセットを生成するための第2のロジックと、を含む、科学的機器支援装置を含む。
【0157】
実施例22は、実施例21の主題を含み、質量分析計が、調製された試料をイオン化することと、イオン化された試料に対してイオン分離を行うことと、分離されたイオンを検出することと、検出された分離イオンから質量スペクトルを生成することとによって、生データ構造を生成するように構成されていることを更に指定する。
【0158】
実施例23は、実施例21~22の主題を含み、人工知能対応データ分析システムが、選択されたデータ構造を前処理し、データベースを読み込み、データベース内の各ペプチドについて試験スペクトルを生成し、前処理されたデータ構造内のスペクトルを生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成するように構成されていることを更に指定する。
【0159】
実施例24は、実施例23の主題を含み、人工知能対応データ分析システムが、比較リストが読み込まれているか否かを判定し、比較リストが読み込まれていないと判定したことに応答して、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルを処理されたデータ構造に保存するように構成されていることを更に指定する。
【0160】
実施例25は、実施例23の主題を含み、人工知能対応データ分析システムが、比較リストが読み込まれているか否かを判定するように構成されていることを更に指定する。比較リストが読み込まれていると判定したことに応答して、人工知能対応データ分析システムは、比較リストが包含リストを含むか否かを判定し、比較リストが包含リストを含むと判定したことに応答して、第1の閾値未満のスコアを有し、かつ包含リスト上にない一致したスペクトルを破棄し、比較リストが除外リストを含むか否かを判定し、比較リストが除外リストを含むと判定したことに応答して、除外リスト上にある一致したスペクトルを破棄するように構成されている。人工知能対応データ分析システムは、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルを処理されたデータ構造に保存するように構成されている。
【0161】
実施例26は、実施例23~25のいずれかの主題を含み、選択されたデータ構造を前処理することが、選択されたデータ構造のスペクトル内のピークを検出することと、スペクトルからノイズを除去することと、スペクトルにベースライン補正を適用することと、スペクトルに質量校正を適用することと、スペクトルに逆畳み込み処理を適用することとを含むことを更に指定する。
【0162】
実施例27は、実施例21~26のいずれかの主題を含み、第2のロジックが、処理されたデータ構造の第1のサブセットを解析して、存在するペプチドを識別することと、識別されたペプチドの各々について出現頻度を計算することと、第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、残りの識別されたペプチドを包含リストに追加することとによって、比較リストを構築するように構成されていることを更に指定する。
【0163】
実施例28は、実施例21~27のいずれかの主題を含み、第2のロジックが、処理されたデータ構造の第1のサブセットを解析して、強度閾値未満のピークを除去することによってフィルタリングされたスペクトルを生成することと、フィルタリングされたスペクトルを処理して、フィルタリングされたスペクトルに関連するペプチドを識別することと、識別された各ペプチドの出現数をカウントすることと、第3の閾値未満の出現数を有するペプチドを除外リストに保存することとによって、比較リストを構築するように構成されていることを更に指定する。
【0164】
実施例29は、実施例21~28のいずれかの主題を含み、第2のロジックが、処理されたデータ構造の第2のサブセットを処理することによって出力リストを生成するように構成されていることを更に指定する。
【0165】
実施例30は、実施例21~28のいずれかの主題を含み、第2のロジックが、生データ構造の第1のサブセットの各々及び比較リストを人工知能対応データ分析システムに提供することによって、処理されたデータ構造の更新された第1のサブセットを生成し、処理されたデータ構造の更新された第1のサブセット及び処理されたデータ構造の第2のサブセットを処理することによって出力リストを生成するように構成されていることを更に指定する。
【0166】
実施例31は、質量分析計によって生成された生データ構造のバッチを読み込むことと、生データ構造のバッチを第1のサブセット及び第2のサブセットに分割することと、生データ構造の第1のサブセットの各々を人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第1のサブセットを生成することと、処理されたデータ構造の第1のサブセットを解析して、比較リストを構築することと、生データ構造の第2のサブセットの各々及び比較リストを人工知能対応データ分析システムに提供することによって、処理されたデータ構造の第2のサブセットを生成することと、を含む、科学的機器支援のための方法を含む。
【0167】
実施例32は、実施例31の主題を含み、質量分析計が、調製された試料をイオン化することと、イオン化された試料に対してイオン分離を行うことと、分離されたイオンを検出することと、検出された分離イオンから質量スペクトルを生成することとによって、生データ構造を生成するように構成されていることを更に指定する。
【0168】
実施例33は、実施例31~32のいずれかの主題を含み、人工知能対応データ分析システムが、選択されたデータ構造を前処理し、データベースを読み込み、データベース内の各ペプチドについて試験スペクトルを生成し、前処理されたデータ構造内のスペクトルを生成された試験スペクトルと照合し、各一致の近さを評価するスコアを生成するように構成されていることを更に指定する。
【0169】
実施例34は、実施例33の主題を含み、人工知能対応データ分析システムが、比較リストが読み込まれているか否かを判定し、比較リストが読み込まれていないと判定したことに応答して、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルを処理されたデータ構造に保存するように構成されていることを更に指定する。
【0170】
実施例35は、実施例33の主題を含み、人工知能対応データ分析システムが、比較リストが読み込まれているか否かを判定するように構成されていることを更に指定する。比較リストが読み込まれていると判定したことに応答して、人工知能対応データ分析システムは、比較リストが包含リストを含むか否かを判定し、比較リストが包含リストを含むと判定したことに応答して、第1の閾値未満のスコアを有し、かつ包含リスト上にない一致したスペクトルを破棄し、比較リストが除外リストを含むか否かを判定し、比較リストが除外リストを含むと判定したことに応答して、除外リスト上にある一致したスペクトルを破棄するように構成されている。人工知能対応データ分析システムは、第1の閾値未満のスコアを有する一致したスペクトルを破棄し、残りの一致したスペクトルを処理されたデータ構造に保存するように構成されている。
【0171】
実施例36は、実施例33~35のいずれかの主題を含み、選択されたデータ構造を前処理することが、選択されたデータ構造のスペクトル内のピークを検出することと、スペクトルからノイズを除去することと、スペクトルにベースライン補正を適用することと、スペクトルに質量校正を適用することと、スペクトルに逆畳み込み処理を適用することとを含むことを更に指定する。
【0172】
実施例37は、実施例31~36のいずれかの主題を含み、処理されたデータ構造の第1のサブセットを解析して比較リストを構築することが、処理されたデータ構造の第1のサブセットを解析して、存在するペプチドを識別することと、識別されたペプチドの各々について出現頻度を計算することと、第2の閾値未満の出現頻度を有する識別されたペプチドを破棄することと、残りの識別されたペプチドを包含リストに追加することとを含むことを更に指定する。
【0173】
実施例38は、実施例31~37のいずれかの主題を含み、処理されたデータ構造の第1のサブセットを解析して比較リストを構築することが、処理されたデータ構造の第1のサブセットを解析して、強度閾値未満のピークを除去することによってフィルタリングされたスペクトルを生成することと、フィルタリングされたスペクトルを処理して、フィルタリングされたスペクトルに関連するペプチドを識別することと、識別された各ペプチドの出現数をカウントすることと、第3の閾値未満の出現数を有するペプチドを除外リストに保存することと、を含むことを更に指定する。
【0174】
実施例39は、実施例31~38のいずれかの主題を含み、処理されたデータ構造の第2のサブセットを処理することによって出力リストを生成することを更に指定する。
【0175】
実施例40は、実施例31~38のいずれかの主題を含み、生データ構造の第1のサブセットの各々及び比較リストを人工知能対応データ分析システムに提供することによって、処理されたデータ構造の更新された第1のサブセットを生成することと、処理されたデータ構造の更新された第1のサブセット及び処理されたデータ構造の第2のサブセットを処理することによって出力リストを生成することとを更に指定する。
【0176】
実施例41は、質量分析データの第1のセットを受信することと、質量分析データの第1のセットを処理して、識別されたエンティティのデータベースを生成することと、質量分析データの第2のセットを受信することと、質量分析データの第2のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することとを含む、科学的機器支援のための方法を含む。
【0177】
実施例42は、実施例41の主題を含み、質量分析データの第1のセット及び質量分析データの第2のセットが、同じデータ取得方法を使用して生成されることを更に指定する。
【0178】
実施例43は、実施例42の主題を含み、データ取得方法がデータ独立取得方法であることを更に指定する。
【0179】
実施例44は、実施例42の主題を含み、データ取得方法がデータ依存取得方法であることを更に指定する。
【0180】
実施例45は、実施例41~44のいずれかの主題を含み、質量分析データの第1のセットを処理して、識別されたエンティティのデータベースを生成することが、質量分析データの第1のセットからのイオンスペクトルを参照データベースと比較することを含むことを更に指定する。
【0181】
実施例46は、実施例41~45のいずれかの主題を含み、質量分析データの第1のセットを処理して、識別されたエンティティのデータベースを生成することが、最低限の品質基準を満たしている質量分析データの第1のセットからのエンティティを識別されたエンティティのデータベースに追加することを含むことを更に指定する。
【0182】
実施例47は、実施例46の主題を含み、最低限の品質基準が、閾値、偽検出率、又はスペクトルマッチスコアのうちの少なくとも1つに従って設定されることを更に指定する。
【0183】
実施例48は、実施例41~47のいずれかの主題を含み、識別されたエンティティのデータベースがペプチド配列を含むことを更に指定する。
【0184】
実施例49は、実施例41~48のいずれかの主題を含み、識別されたエンティティのデータベースがペプチド識別を含むことを更に指定する。
【0185】
実施例50は、実施例41~49のいずれかの主題を含み、識別されたエンティティのデータベースが質量スペクトルを含むことを更に指定する。
【0186】
実施例51は、実施例41~50のいずれかの主題を含み、識別されたエンティティのデータベースがプリカーサイオン情報を含むことを更に指定する。
【0187】
実施例52は、実施例51の主題を含み、プリカーサイオン情報が質量情報を含むことを更に指定する。
【0188】
実施例53は、実施例51~52のいずれかの主題を含み、プリカーサイオン情報が質量電荷比を含むことを更に指定する。
【0189】
実施例54は、実施例51~53のいずれかの主題を含み、プリカーサイオン情報が質量電荷ウィンドウを含むことを更に指定する。
【0190】
実施例55は、実施例41~54のいずれかの主題を含み、質量分析データの第1のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することを更に指定する。
【0191】
実施例56は、実施例41~55のいずれかの主題を含み、質量分析データの第2のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することが、質量分析データの第2のセットからのイオンスペクトルを識別されたエンティティのデータベース内のエントリと比較することを含むことを更に指定する。
【0192】
実施例57は、実施例41~56のいずれかの主題を含み、質量分析データの第2のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することが、質量分析データの第2のセットからのフラグメンテーションスペクトルを識別されたエンティティのデータベース内のエントリと比較することを含むことを更に指定する。
【0193】
実施例58は、実施例41~56のいずれかの主題を含み、質量分析データの第2のセットを処理して、識別されたエンティティのデータベースに基づいてエンティティを識別及び/又は定量することが、識別されたエンティティのデータベース内にあるエンティティについて質量分析データの第2のセットを検索することを含むことを更に指定する。
【0194】
実施例59は、実施例58の主題を含み、識別されたエンティティのデータベース内にあるエンティティについて質量分析データの第2のセットを検索することが、プリカーサ情報又は保持時間情報のうちの少なくとも1つについて、識別されたエンティティのデータベースを検索することを含むことを更に指定する。
【0195】
実施例60は、実施例41~59のいずれかの主題を含み、質量分析データの第2のセットの少なくともいくつかを処理して、識別されたエンティティのデータベースを拡張することを更に指定する。
【0196】
実施例61は、実施例60の主題を含み、質量分析データの第2のセットのうちの少なくともいくつかを処理して、識別されたエンティティのデータベースを拡張することが、質量分析データの第1及び第2のセットの既に処理されたメンバーを再検索して、更なる識別及び/又は定量情報を受信することを含むことを更に指定する。
【0197】
実施例62は、実施例61の主題を含み、質量分析データの第2のセットのうちの少なくともいくつかを処理して、識別されたエンティティのデータベースを拡張することが、識別されたエンティティのデータベースの成長率が第2の閾値を下回ることに応答して停止されることを更に指定する。
【0198】
実施例63は、実施例62の主題を含み、第2の閾値が、質量分析データの第2のセットのメンバー当たり平均10個未満の追加エントリであることを更に指定する。
【0199】
実施例64は、実施例62の主題を含み、第2の閾値が、質量分析データの第2のセットのメンバー当たり平均1個未満の追加エントリであることを更に指定する。
【0200】
実施例65は、実施例62の主題を含み、第2の閾値が、質量分析データの第2のセットのメンバー当たり平均0.1個未満の追加エントリであることを更に指定する。
【0201】
実施例66は、実施例62の主題を含み、第2の閾値が、質量分析データの第2のセットのメンバー当たり平均0.01個未満の追加エントリであることを更に指定する。
【0202】
実施例67は、実施例41~66のいずれかの主題を含み、質量分析データの第1のセットのメンバーが、質量分析データの第2のセットのメンバーよりも高い濃度を有するように選択されることを更に指定する。
【0203】
実施例68は、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含む科学的機器支援装置を含み、命令は、処理ハードウェアによって実行されると、科学的機器支援装置に実施例41~67のいずれかに記載の方法を実施させる。
【0204】
実施例69は、科学的機器支援装置の1つ以上の処理デバイスによって実行されると、科学的機器支援装置に実施例11~20のいずれかに記載の方法を実施させる命令をその上に有する1つ以上の非一時的コンピュータ可読媒体を含む。
【0205】
実施例70は、科学的機器支援装置の1つ以上の処理デバイスによって実行されると、科学的機器支援装置に実施例31~40のいずれかに記載の方法を実施させる命令をその上に有する1つ以上の非一時的コンピュータ可読媒体を含む。
【0206】
実施例71は、科学的機器支援装置の1つ以上の処理デバイスによって実行されると、科学的機器支援装置に実施例41~66のいずれかに記載の方法を実施させる命令をその上に有する1つ以上の非一時的コンピュータ可読媒体を含む。
【0207】
実施例72は、1つ以上の試料を表す質量分析ファイルの第1のセットを受信することと、質量分析データの第1のセットの各スペクトルファイルを機械学習モデルの第1のセットから選択された機械学習モデルで分析して初期結果を生成することと、初期結果を分析してスクリーニングリストを生成することと、質量分析データの第2のセットから1つ以上の生スペクトルファイルを受信することと、質量分析データの第2のセットからの1つ以上の生スペクトルファイルの各々を機械学習モデルの第2のセットから選択された機械学習モデルにおいて分析して結果ファイルを生成することと、結果ファイルをデータストアに保存することとを含む、科学的機器支援のための方法を含む。
【0208】
実施例73は、実施例72の主題を含み、機械学習モデルの第1のセットから選択された機械学習モデルが、機械学習モデルの第2のセットから選択された機械学習モデルと同じであることを更に指定する。
【0209】
実施例74は、実施例72の主題を含み、機械学習モデルの第1のセットから選択された機械学習モデルが、機械学習モデルの第2のセットから選択された機械学習モデルと異なることを更に指定する。
【0210】
実施例75は、実施例72~74のいずれかの主題を含み、機械学習モデルの第1のセットから選択された機械学習モデル及び機械学習モデルの第2のセットから選択された機械学習モデルがデータベース検索エンジンを含むことを更に指定する。
【0211】
実施例76は、実施例75の主題を含み、データベース検索エンジンがペプチド検索エンジンであることを更に指定する。
【0212】
実施例77は、実施例72~76のいずれかの主題を含み、初期結果を分析してスクリーニングリストを生成することが、全ての検索からの高信頼度の識別を、所与の実験設定について識別されたエンティティの1つのスクリーニングリストにマージすることを含むことを更に指定する。
【0213】
実施例78は、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含む科学的機器支援装置を含み、命令は、処理ハードウェアによって実行されると、科学的機器支援装置に実施例72~77のいずれかに記載の方法を実施させる。
【0214】
実施例79は、科学的機器支援装置の1つ以上の処理デバイスによって実行されると、科学的機器支援装置に実施例72~77のいずれかに記載の方法を実施させる命令をその上に有する1つ以上の非一時的コンピュータ可読媒体を含む。
【0215】
実施例80は、質量分析データのセットの第1のサブセットを受信することと、第1のスクリーニングリストを受信することと、質量分析データの第1のサブセット及び第1のスクリーニングリストを第1のデータベース検索エンジンにおいて処理して、第2のスクリーニングリストを生成することと、質量分析データのセットの第2のサブセットを受信することと、質量分析データの第2のサブセットの各ファイル及びターゲットスクリーニングリストを第2のデータベース検索エンジンに提供して、質量分析データの第2のサブセットの各ファイルについて結果ファイルを生成することと、を含む、科学的機器支援のための方法を含む。ターゲットスクリーニングリストは、第2のスクリーニングリストに基づく。
【0216】
実施例81は、実施例80の主題を含み、第2のスクリーニングリストが、ターゲットスクリーニングリストとして第2のデータベース検索エンジンに提供されることを更に指定する。
【0217】
実施例82は、実施例80の主題を含み、ターゲットスクリーニングリストが、第1のスクリーニングリスト及び第2のスクリーニングリストをマージすることによって生成されることを更に指定する。
【0218】
実施例83は、実施例80~82のいずれかの主題を含み、質量分析データのセットが、1つ以上の関連した研究からのデータを含むことを更に指定する。
【0219】
実施例84は、実施例83の主題を含み、質量分析データのセットが、質量データ、強度データ、保持時間、イオン移動度データ、物理化学的特性、及び空間的に配置された試料上の位置のうちの少なくとも1つを含むことを更に指定する。
【0220】
実施例85は、実施例80~84のいずれかの主題を含み、質量分析データのセットの要素が、試料の類似性及びデータ取得方法の類似性のうちの少なくとも1つによって関連付けられることを更に指定する。
【0221】
実施例86は、実施例80~85のいずれかの主題を含み、第1のスクリーニングリストがFASTAフォーマットでフォーマットされていることを更に指定する。
【0222】
実施例87は、実施例80~86のいずれかの主題を含み、質量分析データの第1のサブセット及び第1のスクリーニングリストを第1のデータベース検索エンジンにおいて処理して、第2のスクリーニングリストを生成することが、基準に従ってエンティティを選択することを含むことを更に指定する。
【0223】
実施例88は、実施例87の主題を含み、エンティティがタンパク質又はペプチドを含むことを更に指定する。
【0224】
実施例89は、実施例87~88のいずれかの主題を含み、基準に従ってエンティティを選択することが、各エンティティが品質管理試験に合格又は不合格であると判定することと、各エンティティが品質管理試験に合格であると判定したことに応答して、そのエンティティを識別されたエンティティのデータベースに追加することとを含むことを更に指定する。
【0225】
実施例90は、実施例89の主題を含み、品質管理試験が、偽発見率に基づいてエンティティを選択することと、エンティティがスペクトル品質閾値を満たすか又は超えるか否かを判定することと、エンティティが参照と共通する少なくともいくつかのピークを有するか否かを判定することと、エンティティがサブセット内で最小限の出現数を満たすか又は超えるか否かを判定することとのうちの少なくとも1つを含むことを更に指定する。
【0226】
実施例91は、実施例89の主題を含み、品質管理試験が、パーコレーター機械学習モデルに従ってエンティティをランク付けすることと、真陽性エンティティ識別を誤ったエンティティ識別から分離することとを含むことを更に指定する。
【0227】
実施例92は、実施例87~91のいずれかの主題を含み、各エンティティが、エンティティ識別子、タンパク質配列、ペプチド配列、質量分析(MS)分光計からの1つ以上の質量、タンデム質量分析(MS/MS)分光計からの1つ以上の質量、強度値、物理化学的特性、保持時間、又はイオン移動度のうちの少なくとも1つによって表されることを更に指定する。
【0228】
実施例93は、実施例80~92のいずれかの主題を含み、質量分析データの第2のサブセットの各ファイル及びターゲットスクリーニングリストを第2のデータベース検索エンジンに提供して、質量分析データの第2のサブセットの各ファイルについて結果ファイルを生成することが、ターゲットスクリーニングリストに存在しないエンティティを更なる処理から除外することと、ターゲットスクリーニングリストに存在するエンティティを更なる処理のために含めることとのうちの少なくとも1つを含むことを更に指定する。
【0229】
実施例94は、実施例80~93のいずれかの主題を含み、質量分析データの第2のサブセットの各ファイル及びターゲットスクリーニングリストを第2のデータベース検索エンジンに提供して、質量分析データの第2のサブセットの各ファイルについて結果ファイルを生成することが、第2のサブセットの各ファイルからの質量分析データをライブラリスペクトルデータと比較することを含むことを更に指定する。
【0230】
実施例95は、実施例80~93のいずれかの主題を含み、質量分析データの第2のサブセットの各ファイル及びターゲットスクリーニングリストを第2のデータベース検索エンジンに提供して、質量分析データの第2のサブセットの各ファイルについて結果ファイルを生成することが、ターゲットスクリーニングリストに存在するエンティティに基づいて作成された合成スペクトルに対する第2のサブセットの各ファイルからの質量分析データを含むことを更に指定する。
【0231】
実施例96は、実施例94~95のいずれかの主題を含み、第2のサブセットの各ファイルからの質量分析データが、質量データ、強度データ、保持時間データ、及びイオン移動度データのうちの少なくとも1つを含むことを更に指定する。
【0232】
実施例97は、実施例80~96のいずれかの主題を含み、第1のデータベース検索エンジン及び第2のデータベース検索エンジンが同じ処理ツールチェーンを適用することを更に指定する。
【0233】
実施例98は、実施例80~96のいずれかの主題を含み、第1のデータベース検索エンジン及び第2のデータベース検索エンジンが異なる処理ツールチェーンを適用することを更に指定する。
【0234】
実施例99は、実施例80~98のいずれかの主題を含み、第1のデータベース検索エンジンが、質量分析データの第1のサブセットからのエンティティを第1の基準に基づいて第1の参照エンティティと照合し、第2のデータベース検索エンジンが、質量分析データの第2のサブセットからのエンティティを第2の基準に基づいて第2の参照エンティティと照合し、第1の基準が、第2の基準よりも高い一致を必要とすることを更に指定する。
【0235】
実施例100は、実施例99の主題を含み、第1の基準が、フラグメント、質量偏差、保持時間、及び物理化学的特性のうちの少なくとも1つに基づいてエンティティを照合することを含むことを更に指定する。
【0236】
実施例101は、実施例99~100の主題を含み、第2の基準が、フラグメント、質量偏差、保持時間、及び物理化学的特性のうちの少なくとも1つに基づいてエンティティを照合することを含むことを更に指定する。
【0237】
実施例102は、実施例80~101のいずれかの主題を含み、第2のデータベース検索エンジンが、試料ごとの識別の整列されたデータベースを出力するように構成されていることを更に指定する。
【0238】
実施例103は、実施例80~102のいずれかの主題を含み、第2のデータベース検索エンジンが、定量値を計算することによって更なる処理ステップを実施するように構成されていることを更に指定する。
【0239】
実施例104は、実施例103の主題を含み、第2のデータベース検索エンジンが、試料内の相対強度に基づいて定量値を計算するように構成されていることを更に指定する。
【0240】
実施例105は、実施例103の主題を含み、第2のデータベース検索エンジンが、試料間にわたる相対強度に基づいて定量値を計算するように構成されていることを更に指定する。
【0241】
実施例106は、実施例103の主題を含み、第2のデータベース検索エンジンが、複数の隣接する質量スペクトルにわたる信号強度から定量値を計算するように構成されていることを更に指定する。
【0242】
実施例107は、実施例103の主題を含み、第2のデータベース検索エンジンが、複数の隣接する質量スペクトルにわたるスペクトル寄与因子から定量値を計算するように構成されていることを更に指定する。
【0243】
実施例108は、実施例103の主題を含み、第2のデータベース検索エンジンが、標識されていない校正物質を使用して定量値を計算するように構成されていることを更に指定する。
【0244】
実施例109は、実施例103の主題を含み、第2のデータベース検索エンジンが、標識された校正物質を使用して定量値を計算するように構成されていることを更に指定する。
【0245】
実施例110は、実施例109の主題を含み、標識された校正物質の標識が、質量タグ及び同位体標識のうちの少なくとも1つを含むことを更に指定する。
【0246】
実施例111は、実施例102~110のいずれかの主題を含み、第2のデータベース検索エンジンが、質量分析データのセット、質量分析データの第1のサブセット、質量分析データの第2のサブセット、質量分析データの更なるサブセット、並びに質量分析データのセットの第1のサブセット及び1つ以上の追加の要素を含む第3のサブセットのうちの少なくとも1つにわたって出現を判定するように構成されていることを更に指定する。
【0247】
実施例112は、実施例102~110のいずれかの主題を含み、第2のデータベース検索エンジンが、質量分析データのセット、質量分析データの第1のサブセット、質量分析データの第2のサブセット、質量分析データの更なるサブセット、並びに質量分析データのセットの第1のサブセット及び1つ以上の追加の要素を含む第3のサブセットのうちの少なくとも1つにわたって出現を比較するように構成されていることを更に指定する。
【0248】
実施例113は、実施例102~110のいずれかの主題を含み、第2のデータベース検索エンジンが、質量分析データのセット、質量分析データの第1のサブセット、質量分析データの第2のサブセット、質量分析データの更なるサブセット、並びに質量分析データのセットの第1のサブセット及び1つ以上の追加の要素を含む第3のサブセットのうちの少なくとも1つにわたって定量比較を判定するように構成されていることを更に指定する。
【0249】
実施例114は、実施例102~113のいずれかの主題を含み、第2のデータベース検索エンジンが、質量分析データのセットにわたる識別及び定量のデータベースを出力するように構成されていることを更に指定する。
【0250】
実施例115は、実施例102~113のいずれかの主題を含み、第2のデータベース検索エンジンが、質量分析データのセットの一部にわたる識別及び定量のデータベースを出力するように構成されていることを更に指定する。
【0251】
実施例116は、実施例80~115のいずれかの主題を含み、スクリーン上に表示されるグラフィカルユーザインターフェースに少なくとも1つの結果ファイルを出力することを更に指定し、グラフィカルユーザインターフェースは、ユーザ又は他のデータシステムが、(i)試料間の有意差、(ii)1つ以上の試料内での物質の存在、及び(iii)1つ以上の試料内での物質の非存在のうちの少なくとも1つに関して、少なくとも1つの結果ファイルに問い合わせることを可能にするように構成されている。
【0252】
実施例117は、命令を記憶するように構成されたメモリハードウェアと、命令を実行するように構成された処理ハードウェアとを含む科学的機器支援装置を含み、命令は、処理ハードウェアによって実行されると、科学的機器支援装置に実施例80~116のいずれかに記載の方法を実施させる。
【0253】
実施例118は、科学的機器支援装置の1つ以上の処理デバイスによって実行されると、科学的機器支援装置に実施例72~116のいずれかに記載の方法を実施させる命令をその上に有する1つ以上の非一時的コンピュータ可読媒体を含む。
図1
図2A
図2B
図3A
図3B
図3C
図4
図5A
図5B
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【外国語明細書】