特表2022-525427 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴェンバイオサイエンシーズコーポレーションの特許一覧

特表2022-525427質量分析法データにおける境界の自動検出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
6A
6B
6C
7A
7B
8A
8B
8C
9A
9B
10
11A
11B
12
13A
13B
13C
13D
13E
13F
14A
14B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-05-13

(54)【発明の名称】質量分析法データにおける境界の自動検出

(51)【国際特許分類】

G01N 27/62 20210101AFI20220506BHJP

G01N 30/72 20060101ALI20220506BHJP

G06N 3/04 20060101ALI20220506BHJP

【ＦＩ】

G01N27/62 D

G01N30/72 A

G01N30/72 C

G06N3/04 145

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2021557093

(86)(22)【出願日】2020-03-27

(85)【翻訳文提出日】2021-11-22

(86)【国際出願番号】 US2020025502

(87)【国際公開番号】W WO2020205649

(87)【国際公開日】2020-10-08

(31)【優先権主張番号】62/826,228

(32)【優先日】2019-03-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】521339843

【氏名又は名称】ヴェンバイオサイエンシーズコーポレーション

(74)【代理人】

【識別番号】100082072

【弁理士】

【氏名又は名称】清原義博

(72)【発明者】

【氏名】セリエ，ダニエル

(72)【発明者】

【氏名】ウー，ジェンチン

【テーマコード（参考）】

2G041

【Ｆターム（参考）】

2G041CA01

2G041EA04

2G041EA06

2G041FA10

2G041FA12

(57)【要約】

【解決手段】
周波数もしくは時間依存性データの観点から表された、または周波数もしくは時間依存性データから導出された強度に基づいた数量の存在または不在の自動検出のためのシステム及び方法。一例によれば、質量分析法の強度は、それから存在量を決定し得る、強度の開始ピーク及び停止ピークを見つけ出すように訓練された人工ニューラルネットワークなど、非線形数学モデルを使用して識別される。
【選択図】図１２

【特許請求の範囲】

【請求項1】

質量分析法のピークを識別するようにモデルを訓練する方法であって、
複数のラベル付きシーケンシャルデータを使用することであって、前記複数のラベル付きシーケンシャルデータの各々が、グリコペプチドもしくはペプチド、またはそのフラグメントに特有な保持時間値を表すピーク開始ラベル及びピーク停止ラベルを含む、前記使用することと、
前記ラベル付きシーケンシャルデータを使用して少なくとも１つの機械学習モデルを訓練することであって、前記訓練されたモデルが、生体サンプルに存在する、１つ以上のグリコペプチドもしくはペプチド、またはそのフラグメントの存在を示す質量分析法の開始ピーク及び停止ピークを識別するために適合される、前記訓練することと
を含む、前記方法。

【請求項2】

前記生体サンプルから前記質量分析法の開始ピークと停止ピークとの間で経時的に積分によって前記１つ以上のグリコペプチドまたはペプチドの前記存在を数値化することをさらに含む、請求項１に記載の方法。

【請求項3】

前記機械学習モデルがリカレントニューラルネットワークモデルである、請求項１に記載の方法。

【請求項4】

前記リカレントニューラルネットワークが、アテンション層を有する双方向ＬＳＴＭリカレントニューラルネットワークモデルである、請求項３に記載の方法。

【請求項5】

請求項１に記載の前記プロセスによって訓練された機械学習モデルを使用して、グリコペプチドまたはペプチドについて存在量を計算することを含む方法。

【請求項6】

システムであって、
ラベル付きシーケンシャルデータのデータリポジトリと、
前記リポジトリに結合された１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されるとき、請求項１～５のいずれかに記載の前記方法を実行する、前記１つ以上のプロセッサがアクセス可能な非一時的なメモリに常駐する機械実行可能コードと
を備える、前記システム。

【請求項7】

質量分析法のピークを識別する方法であって、
入力パラメータの関数として出力を生成する少なくとも１つの訓練されたニューラルネットワークモデルを提供することであって、前記入力パラメータの値が、ｍ／ｚ（質量対電荷）比を有するグリコペプチドの保持時間値のシーケンスを含む、前記提供することと、
生体サンプルの質量分析法から前記保持時間値のシーケンスにわたる質量対電荷（ｍ／ｚ）比を含む前記入力パラメータの質量分析法（ＭＳ）データの値を提供することと
を含み、
前記出力が、前記生体サンプル中の１つ以上の分析物またはそのフラグメントの存在を示す１つ以上のピーク開始保持時間値及びピーク停止保持時間値の場所を含む、
前記方法。

【請求項8】

前記生体サンプルから前記質量分析法の開始ピークと停止ピークとの間で保持時間値に対する加算または積分によって前記１つ以上のグリコペプチドまたはペプチドの前記存在を数値化することをさらに含む、請求項７に記載の方法。

【請求項9】

前記数値化するステップが、前記予測された開始ピーク及び停止ピークに対して重み付き平滑化関数を適用することを含む、請求項８に記載の方法。

【請求項10】

システムであって、
質量分析法（ＭＳ）データのデータリポジトリと、
前記リポジトリに結合された１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されるとき、請求項７～９のいずれかの前記方法を実行する、前記１つ以上のプロセッサがアクセスできる非一時的なメモリに常駐する機械実行可能コードと
を備える、前記システム。

【請求項11】

方法であって、
未処理ＭＳデータからデータをフィーチャ化することであって、前記未処理ＭＳデータが、各々が質量／電荷強度を表す複数のアナログサンプルを含む、前記フィーチャ化することを含み、前記フィーチャ化することが、前記アナログサンプルの各々に、
前記サンプルを保持時間ウィンドウ内の中心に置くステップと、
前記サンプルを、強度値を表す点のシーケンスに離散化するステップと、
前記強度値を標準化するステップと、
ラベル付きの点のシーケンスを生成するために、ピーク開始時間及びピーク停止時間に対応する前記点のシーケンスの中の点にラベルを割り当てるステップと
を含み、
前記ラベル付きの点のシーケンスが、目に見えないＭＳデータの中の存在量を予測するように機械学習モデルを訓練するために構成される
前記方法。

【請求項12】

前記中心に置くことが、前記保持ウィンドウの中心に曲線の頂点を配置することを含む、請求項１１に記載の方法。

【請求項13】

前記強度値を前記標準化することが、閾値量よりも大きい強度値を除外する、請求項１１に記載の方法。

【請求項14】

前記閾値量が約５００である、請求項１３のいずれかに記載の方法。

【請求項15】

システムであって、
複数のアナログサンプルを含む未処理の質量分析法（ＭＳ）データのデータリポジトリと、
前記リポジトリに結合された１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されるとき、請求項１１～１４のいずれかの前記方法を実行する、前記１つ以上のプロセッサがアクセス可能な非一時的なメモリに常駐する機械実行可能コードと
を備える、前記システム。

【請求項16】

方法であって、
所与のｍ／ｚ比及び保持期間について質量分析法（ＭＳ）データを表す点のシーケンスにわたって確率の分布を計算することであって、前記確率がありそうなピーク開始保持時間またはピーク停止保持時間を表す、前記計算することと、
前記確率の分布を使用して存在量の統計値を計算することであって、前記統計値が、前記ＭＳデータの生体サンプルの存在を示す、前記計算することと
を含む、前記方法。

【請求項17】

前記統計値が、前記積分を評価するための開始点及び終了点のすべての考えられる対を使用して積分の加重和として計算される平均存在量である、請求項１６に記載の方法。

【請求項18】

前記機械学習モデルが、シーケンシャルモデル（モデルＡ）または基準ベースのモデル（モデルＢ）である、請求項１、７、または１１のいずれかに記載の方法。

【請求項19】

方法であって、
複数のラベル付きシーケンシャルデータを使用することと、
前記ラベル付きシーケンシャルデータを使用して、少なくとも１つの機械学習モデルを訓練することであって、前記訓練されたモデルが、強度の開始ピーク及び停止ピークが目に見えないサンプルで発生する期間または周波数範囲を識別するために適合される、前記訓練することと
を含む、前記方法。

【請求項20】

前記開始ピーク及び停止ピークが雑音対信号遷移期間に含まれる、請求項１９に記載の方法。

【請求項21】

前記機械学習モデルが、アテンション層を有するリカレントニューラルネットワークである、請求項１９に記載の方法。

【請求項22】

前記サンプルが、前記強度の前記開始ピークから前記停止ピークまでの時間または周波数に対する加法または積分が物理的なものを数値化するように、前記物理的なものを表す、請求項１９に記載の方法。

【請求項23】

前記サンプルが、指定された期間にわたって質量対電荷強度の連続するシリーズであり、前記加法または積分が前記物理的なものの前記存在量を表す、請求項１９に記載の方法。

【請求項24】

方法であって、
入力パラメータの関数として出力を生成する少なくとも１つの訓練されたニューラルネットワークモデルを提供することであって、前記入力パラメータの値が、数量を表す強度値の時系列またはスペクトル系列である、前記提供することと、
前記入力パラメータの各々に値を提供することであって、前記値が、数量の目に見えない強度のシーケンスを表す、前記提供することと
を含み、
前記出力が、前記数量を数値化するために使用される、１つ以上のピーク開始の時間または周波数及びピーク停止の時間または周波数を含む、
前記方法。

【請求項25】

前記数量が、それぞれ前記ピーク開始の時間または周波数と前記ピーク停止の時間または周波数との間の時間または周波数に対する加算または積分によって数値化される、請求項２４に記載の方法。

【請求項26】

前記強度が、質量分析法、ＭＲＭ、液体クロマトグラフィもしくはガスクロマトグラフィ、ｘ線回折、ラマン分光法、ＵＶ－ＶＩＳ分光法、蛍光定量分光法もしくは燐光分析分光法、核磁気共鳴（ＮＭＲ）分光法、または磁気共鳴映像法（ＭＲＩ）のセットから選択されたプロセスから取得される、請求項２４または請求項２２に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本願は、全体の内容が、すべての目的のためにその全体として参照により本明細書に組み込まれる、２０１９年３月２９日に出願された米国仮特許出願第６２／８２６，２２８号の優先権及び利益を主張する。

【0002】

本開示は、一般に、質量分析法を使用する物理的なものの検出に関し、特に、多重反応モニタリング質量分析法（ＭＲＭ－ＭＳ）を使用する生物学的量の自動検出に関する。

【背景技術】

【0003】

多重反応モニタリング（ＭＲＭ）は、他の分析物の中でも、タンパク質、脂質、及び翻訳後修飾（ＰＴＭ）の高感度検出及び特異的検出を可能にするタンデム質量分析法（ＭＳ）で利用される技術である。この技術は、新しい臨床分析及び臨床診断における使用に大きな見込みがあるが、正確な分析ソフトウェアの可用性はボトルネックのままである。

【0004】

ＭＲＭ実験の従来の分析は、手でクロマトグラフピークの開始及び停止を選び、データ依存取得技術または他の発見技術によって以前に特徴付けられた遷移から作業することを伴っていた。典型的な実施態様は、強度が、所与の前駆物質及び製品質量対電荷比に対する保持時間（ＲＴ）の事前に指定された範囲にわたって描かれるＡｇｉｌｅｎｔのＭａｓｓＨｕｎｔｅｒソフトウェアで確かめることができる。ピークの始まり及び終わりを選択することにより、観察ＲＴ、ピーク幅、及び統合存在量値が生じる。評価における個人差、人的エラー、及び大きな時間投資により、この方法は、研究以外での使用には不十分である。近年、多くのソフトウェアパッケージが、遷移のリストからピークを自動的に統合することによってこのギャップを埋めようと試してきた。

【0005】

既存のソフトウェアパッケージは、質量分析法データに高い相対的な存在量が存在するときに、例えばペプチドを数値化する上で非常に有用であるのが判明している。しかし、これらのソフトウェアパッケージは、糖化ペプチドなど、相対的に低い存在量で高度に不均質な種を統合する上では正確ではない。

【発明の概要】

【0006】

本開示は、時系列データの観点から表された、または時系列データから導出された数量の存在の自動検出のための方法及びシステムを説明する。また、本開示は、周波数依存性データの観点から表された、または周波数依存性データから導出された数量の存在の自動検出のための方法及びシステムも説明する。

【0007】

一実施態様では、自動検出は、強度対時間の時系列に適用される。強度は、数量の存在または不在を検出する検出器から生じる。例えば、自動検出は、強度が、例えば保持時間など、時間の関数として遷移値を検出するＭＳ検出器から生じる質量分析法（ＭＳ）に適用され得る。したがって、本明細書に説明する自動検出は、時間の関数としてまたは周波数の関数として観察された強度値に基づいて多種多様のデータ入力に適用し得る。

【0008】

一実施態様では、自動検出は、質量分析法（ＭＳ）を伴うプロセスから生成された、時間に対比した質量対電荷比の強度の時系列に適用され得る。別の実施態様では、自動検出は、液体クロマトグラフィまたはガスクロマトグラフィを伴うプロセスから生成された、時間に対比した強度の時系列に適用される。

【0009】

他の例によれば、自動検出は、時間データもしくは周波数データの観点から表された、または時間データもしくは周波数データから導出された以下の強度のいずれにも適用され得る。
・強度が、例えば２θなど、走査角度が時間の関数として観察されるｘ線走査角度の関数としてｘ線の反射を検出する、例えば、電荷結合素子（ＣＣＤ）など、ｘ線検出器から生じるｘ線回折。
・強度が、例えばｃｍ^―１など、光波長の吸収または発射の関数として振動モードを検出する赤外線検出器から生じるラマン分光法。
・強度が、紫外光及び可視光の波長または周波数の関数として電子遷移の強度を検出する光検出器から生じるＵＶ－ＶＩＳ分光法。発射された蛍光またはリン光の光強度が、入射、つまり吸収されたまたは励起の波長の関数として検出される蛍光定量分光法または燐光分析分光法。
・強度が、強力な磁場内での放射周波数の吸収または発射の関数として核遷移を検出する電波検出器から生じる核磁気共鳴（ＮＭＲ）分光法。ＮＭＲでは、強度対周波数の検出は、例えばフーリエ変換を使用して、同等な強度対時間に変換することができる。また、ＮＭＲに適用可能な同じ原理は、磁気共鳴映像法（ＭＲＩ）にも適用可能である。

【0010】

１つの特定の実施態様では、自動検出は、質量分析法を伴うプロセスから生成された、時間に対比した質量対電荷比の強度の時系列に適用される。この実施態様によれば、自動検出は、開始ピーク及び終了ピークがＭＳデータで発生する場所を検出するために１つ以上の数学モデルを使用することを伴う。これらの境界点の正確な選択を提供することによって、存在量のより正確な評価が行われる。

【0011】

一態様によれば、質量分析法のピークを識別するように機械学習モデルを訓練する方法は、訓練セットとして、ピーク開始及びピーク停止がラベル付けされる質量／電荷比を表す点のシーケンスを使用する。訓練されたモデルは、生体サンプル中に存在する、１つ以上のグリコペプチドもしくはペプチド、またはそのフラグメントの存在を示す、質量分析法の開始ピーク及び停止ピークを識別するために適合される。

【0012】

別の態様によれば、質量分析法のピークを識別する方法は、入力パラメータの関数として出力を生成する、少なくとも１つの訓練されたニューラルネットワークモデルを使用し、入力パラメータの値は、ｍ／ｚ（質量対電荷）比を有するグリコペプチドの保持時間のシーケンスであってよい。

【0013】

別の態様によれば、未処理のＭＳデータは、ＭＳデータ中のピーク開始時間及びピーク停止時間を識別するようにモデルを訓練する目的で、機械学習モデル用の訓練セットを生成するためにフィーチャ化される（ｆｅａｔｕｒｉｚｅｄ）。フィーチャ化（ｆｅａｔｕｒｉｚａｔｉｏｎ）は、ＭＳデータのアナログサンプルを点のシーケンスに離散化することであって、アナログサンプル中のピーク面積に対応する保持時間が点のシーケンスから除外される、離散化すること、及びピーク開始時間及びピーク停止時間に対応する点のシーケンスの中の点にラベルを割り当てて、ラベル付きの点のシーケンスを生成することを含み得る。ラベルは、表示装置及び入力装置を使用してピーク開始時間及びピーク停止時間を選択するように訓練された人間のアノテータを使用して見つけられる場合がある。

【0014】

別の態様によれば、方法は、所与のｍ／ｚ比及び保持期間のＭＳデータを表す点のシーケンスにわたって確率の分布を計算し、確率はありそうなピーク開始保持時間またはピーク停止保持時間を表す。これらの確率の分布から、存在量の統計値が計算される。統計値は平均であってよい。

【0015】

別の態様によれば、病気を診断する方法は、質量分析法の遷移を数値化することであって、遷移が、アミノ酸配列を含む、グリコペプチドもしくはペプチド、またはそのフラグメントに特有なｍ／ｚ強度値ピークである、数値化すること、及び数値化に基づいてサンプルが病気分類内に入るまたは入らない確率を決定するためにモデルを使用して数値化を分析することを含む。いくつかの例では、アミノ酸配列を含むグリコペプチドもしくはペプチド、またはそのフラグメントは、国際特許出願公開第ＷＯ２０１９／０４６８１４号－Ｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｕｓｅｏｆｇｌｙｃｏｐｅｐｔｉｄｅｓａｓｂｉｏｍａｒｋｅｒｓｆｏｒｄｉａｇｎｏｓｉｓａｎｄｔｒｅａｔｍｅｎｔｍｏｎｉｔｏｒｉｎｇ、国際特許出願公開第ＷＯ２０１９０７６３９Ａ１号－Ｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｕｓｅｏｆｂｉｏｌｏｇｉｃａｌｐａｒａｍｅｔｅｒｓｆｏｒｄｉａｇｎｏｓｉｓａｎｄｔｒｅａｔｍｅｎｔｍｏｎｉｔｏｒｉｎｇ、米国特許出願公開第ＵＳ２０１９０１０１５４４Ａ１号－Ｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｕｓｅｏｆｇｌｙｃｏｐｅｐｔｉｄｅｓａｓｂｉｏｍａｒｋｅｒｓｆｏｒｄｉａｇｎｏｓｉｓａｎｄｔｒｅａｔｍｅｎｔｍｏｎｉｔｏｒｉｎｇ、２０２０年１月３１日に出願された国際ＰＣＴ特許出願第ＰＣＴ／ＵＳ２０２０／０１６２８６１号、及び２０２０年３月１３日に出願された米国仮特許出願第６２／９８９，５１０号に説明されるそれらの配列から選択される。これらの特許出願の各々の全体的な内容は、すべての目的のためにその全体として参照により本明細書に組み込まれる。

【図面の簡単な説明】

【0016】

【図1】機械学習モデルを使用して質量分析法データから存在量を計算するためのプロセスを示す。

【図2】図１の機械学習モデルを訓練するためのプロセスを示す。テストセットＡ、境界予測での絶対誤差の棒グラフ及びテストセットＢ、境界予測誤差の累積分布でのモデル性能。１９０３９（２８．１％）のサンプルが規則ベースの予測の範囲外（＞６秒）にあり、４８２４（７．１％）のサンプルがシーケンシャルＮＮ内にあり、１４７０（２．２％）のサンプルが基準ベースのＮＮ内にあることに留意されたい。Ｃ、テストセットでのピーク存在量予測／アノテーションの散布図。

【図3】図２の機械学習モデルに対する入力として使用されるＭＳサンプルから点のシーケンスを生成するためのプロセスを示す。

【図4】ＭＳサンプルのピーク開始保持時間及びピーク停止保持時間の計算した確率に基づいて存在量を計算するためのプロセスである。

【図5A】Ａ及びＢは、長・短期記憶装置及びアテンション層を有する双方向リカレントニューラルネットワークである第１の機械学習モデル（モデルＡ）のモデルアーキテクチャを示す。

【図5B】Ａ及びＢは、長・短期記憶装置及びアテンション層を有する双方向リカレントニューラルネットワークである第１の機械学習モデル（モデルＡ）のモデルアーキテクチャを示す。

【図6A】長・短期記憶装置及びアテンション層を有する双方向リカレントニューラルネットワークである第２の機械学習モデル（モデルＢ）のためのモデルアーキテクチャを示す。

【図6B】長・短期記憶装置及びアテンション層を有する双方向リカレントニューラルネットワークである第２の機械学習モデル（モデルＢ）のモデルアーキテクチャを示す。

【図6C】モデルＢを使用するサンプルのアテンションマップを示す。図６Ｃでは、サンプルピーク及び基準ベースモデルの予測は、すべての目的のためにその全体として参照により本明細書に組み込まれる、２０２０年１月３１日に出願された国際特許ＰＣＴ出願第ＰＣＴ／ＵＳ２０２０／０１６２８６１号のＳＥＱＩＤ１番のＭＲＭ遷移、ならびに右下パネル、及び左下パネルのアテンションマップ（モデルから抽出される）に示すその基準ピーク用である。

【図7A】モデルＡ及びモデルＢのサンプルラベル付き入力及び計算された確率（境界予測）を示す。星及び三角形のアノテーションは、モデルを訓練するためのＭＳデータのラベル付けを表す。緑の曲線はモデルＢを使用する予測を表し、青の曲線はモデルＡを使用する予測を表す。

【図7B】モデルＡ及びモデルＢのサンプルラベル付き入力及び計算された確率（境界予測）を示す。星及び三角形のアノテーションは、モデルを訓練するためのＭＳデータのラベル付けを表す。緑の曲線はモデルＢを使用する予測を表し、青の曲線はモデルＡを使用する予測を表す。

【図8A】同じデータ（規則ベースの方法－赤、１）に関して訓練された既知の機械学習アーキテクチャと対照したモデルＡ（青、２）及びモデルＢ（緑、３）の性能を示す。図１０では、３つの縦棒の各セットは、規則ベース、ＭＡＥ４．７９秒、シーケンシャルＮＮ、ＭＡＥ２．３３秒、及び基準ベースＮＮ、ＭＡＥ１．５６秒として左から右に提示される。

【図8B】同じデータ（規則ベースの方法－赤、１）に関して訓練された既知の機械学習アーキテクチャと対照したモデルＡ（青、２）及びモデルＢ（緑、３）の性能を示す。図１０では、３つの縦棒の各セットは、規則ベース、ＭＡＥ４．７９秒、シーケンシャルＮＮ、ＭＡＥ２．３３秒、及び基準ベースＮＮ、ＭＡＥ１．５６秒として左から右に提示される。

【図8C】同じデータ（規則ベースの方法－赤、１）に関して訓練された既知の機械学習アーキテクチャと対照したモデルＡ（青、２）及びモデルＢ（緑、３）の性能を示す。図１０では、３つの縦棒の各セットは、規則ベース、ＭＡＥ４．７９秒、シーケンシャルＮＮ、ＭＡＥ２．３３秒、及び基準ベースＮＮ、ＭＡＥ１．５６秒として左から右に提示される。

【図9A】モデルＡ及びモデルＢの追加のサンプルラベル付き入力及び計算された確率（境界予測）を示す。星及び三角形のアノテーションは、モデルを訓練するためのＭＳデータのラベル付けを表す。緑の曲線は、モデルＢを使用する予測を表し、青の共線はモデルＡを使用する予測を表す。グリコペプチド遷移の基準ピーク及びサンプルピーク。Ａ：基準ピークでは、灰色の線は入力曲線を表し、赤の星及び赤の三角形は人間がアノテートしたピーク開始及び終了であり、青／緑の実線及び破線は、ピーク開始確率及びピーク終了確率のシーケンシャル／基準ベースのニューラルネットワークモデルの予測を示す。Ｂ：異なる入力曲線を有する同じ遷移のサンプルピーク。基準ベースのモデル（緑）は、はるかに多い一貫した予測を出力することに留意されたい。

【図9B】それぞれモデルＡ及びモデルＢの追加のサンプルラベル付き入力及び計算された確率（境界予測）を示す。星及び三角形のアノテーションは、モデルを訓練するためのＭＳデータのラベル付けを表す。緑の曲線は、モデルＢを使用する予測を表し、青の共線はモデルＡを使用する予測を表す。グリコペプチド遷移の基準ピーク及びサンプルピーク。Ａ：基準ピークでは、灰色の線は入力曲線を表し、赤の星及び赤の三角形は人間がアノテートしたピーク開始及び終了であり、青／緑の実線及び破線は、ピーク開始確率及びピーク終了確率のシーケンシャル／基準ベースのニューラルネットワークモデルの予測を示す。Ｂ：異なる入力曲線を有する同じ遷移のサンプルピーク。基準ベースのモデル（緑）は、はるかに多い一貫した予測を出力することに留意されたい。

【図10】人間のアノテータ（灰色、１）対モデルＡ（青、２）及びモデルＢ（緑、３）の境界点選択の相対的な標準偏差を示す。縦棒プロットは、１３人の人間のアノテータの相対的な標準偏差（ＲＳＤ）、及びシーケンシャル／基準ベースのニューラルネットワーク予測の相対誤差（ＲＥ）のものである。図１０では、３つの縦棒の各セットは、シーケンシャルＮＮ、平均ＲＥ０．０３４、基準ベースのＮＮ、平均Ｒ０．０１９、及び人間のアノテータ、平均＝０．０２５として左から右に提示される。

【図11A】モデルＡとモデルＢの間の存在量計算を比較する散布図である。シーケンシャル（Ａ）及び基準ベース（Ｂ）のニューラルネットワークのピーク存在量予測／アノテーションの散布図。シーケンシャルモデルの予測では、重みを付けた存在量（紫の点）は、グラウンドトゥルース及び最大点集合存在量（青の点）よりも少ない外れ値を有するより高い一貫性を示し、ピアソンのｒは０．９９６９でより高い。重みを付けた存在量が、低存在量範囲で上方に偏向されることに留意すること。基準ベースの予測の間、結果は非常に類似する。

【図11B】それぞれ、モデルＡとモデルＢの間の存在量計算を比較する散布図である。シーケンシャル（Ａ）及び基準ベース（Ｂ）のニューラルネットワークのピーク存在量予測／アノテーションの散布図。シーケンシャルモデルの予測では、重みを付けた存在量（紫の点）は、グラウンドトゥルース及び最大点集合存在量（青の点）よりも少ない外れ値を有するより高い一貫性を示し、ピアソンのｒは０．９９６９でより高い。重みを付けた存在量が、低存在量範囲で上方に偏向されることに留意すること。基準ベースの予測の間、結果は非常に類似する。

【図12】モデルＢの信頼スコア、及び信頼スコアを計算するために使用される方程式を示す。信頼スコアの図：青の破線（＊）－モデルが予測したピーク終了確率、えんじ色の線（＃）－最大点集合予測、明るい赤の線（！）－他の極大値。信頼スコア（０．６３４）は、黒いボックス内の領域で除算された陰影をつけた領域の面積である。

【図13A】モデルＡについて予測信頼性のヒストグラム、境界予測の平均絶対誤差、及び異なる信頼スコアのビンの散布図を示す。Ａ：シーケンシャルニューラルネットワークの予測信頼性のヒストグラム。４つのビンのサンプルの存在量予測は、以下のパネルに示す。Ｂ：境界予測の平均絶対誤差（ＭＡＥ）は、確実性が高まるにつれ、サンプル上で着実に減少する。Ｃ、Ｄ、Ｅ、Ｆ：異なる信頼スコアのビン内でのピーク存在量の予測／アノテーションの散布図。確実性が高い方のサンプルが、より優れた相関スコアを達成した。報告された対数－存在量ピアソンのｒの値が、異なる遷移からのサンプルの組み合わせに対して計算されることに留意されたい。

【図13B】モデルＡについて予測信頼性のヒストグラム、境界予測の平均絶対誤差、及び異なる信頼スコアのビンの散布図を示す。Ａ：シーケンシャルニューラルネットワークの予測信頼性のヒストグラム。４つのビンのサンプルの存在量予測は、以下のパネルに示す。Ｂ：境界予測の平均絶対誤差（ＭＡＥ）は、確実性が高まるにつれ、サンプル上で着実に減少する。Ｃ、Ｄ、Ｅ、Ｆ：異なる信頼スコアのビン内でのピーク存在量の予測／アノテーションの散布図。確実性が高い方のサンプルが、より優れた相関スコアを達成した。報告された対数－存在量ピアソンのｒの値が、異なる遷移からのサンプルの組み合わせに対して計算されることに留意されたい。

【図13C】モデルＡについて予測信頼性のヒストグラム、境界予測の平均絶対誤差、及び異なる信頼スコアのビンの散布図を示す。Ａ：シーケンシャルニューラルネットワークの予測信頼性のヒストグラム。４つのビンのサンプルの存在量予測は、以下のパネルに示す。Ｂ：境界予測の平均絶対誤差（ＭＡＥ）は、確実性が高まるにつれ、サンプル上で着実に減少する。Ｃ、Ｄ、Ｅ、Ｆ：異なる信頼スコアのビン内でのピーク存在量の予測／アノテーションの散布図。確実性が高い方のサンプルが、より優れた相関スコアを達成した。報告された対数－存在量ピアソンのｒの値が、異なる遷移からのサンプルの組み合わせに対して計算されることに留意されたい。

【図13D】モデルＡについて予測信頼性のヒストグラム、境界予測の平均絶対誤差、及び異なる信頼スコアのビンの散布図を示す。Ａ：シーケンシャルニューラルネットワークの予測信頼性のヒストグラム。４つのビンのサンプルの存在量予測は、以下のパネルに示す。Ｂ：境界予測の平均絶対誤差（ＭＡＥ）は、確実性が高まるにつれ、サンプル上で着実に減少する。Ｃ、Ｄ、Ｅ、Ｆ：異なる信頼スコアのビン内でのピーク存在量の予測／アノテーションの散布図。確実性が高い方のサンプルが、より優れた相関スコアを達成した。報告された対数－存在量ピアソンのｒの値が、異なる遷移からのサンプルの組み合わせに対して計算されることに留意されたい。

【図13E】モデルＡについて予測信頼性のヒストグラム、境界予測の平均絶対誤差、及び異なる信頼スコアのビンの散布図を示す。Ａ：シーケンシャルニューラルネットワークの予測信頼性のヒストグラム。４つのビンのサンプルの存在量予測は、以下のパネルに示す。Ｂ：境界予測の平均絶対誤差（ＭＡＥ）は、確実性が高まるにつれ、サンプル上で着実に減少する。Ｃ、Ｄ、Ｅ、Ｆ：異なる信頼スコアのビン内でのピーク存在量の予測／アノテーションの散布図。確実性が高い方のサンプルが、より優れた相関スコアを達成した。報告された対数－存在量ピアソンのｒの値が、異なる遷移からのサンプルの組み合わせに対して計算されることに留意されたい。

【図13F】モデルＡについて予測信頼性のヒストグラム、境界予測の平均絶対誤差、及び異なる信頼スコアのビンの散布図を示す。Ａ：シーケンシャルニューラルネットワークの予測信頼性のヒストグラム。４つのビンのサンプルの存在量予測は、以下のパネルに示す。Ｂ：境界予測の平均絶対誤差（ＭＡＥ）は、確実性が高まるにつれ、サンプル上で着実に減少する。Ｃ、Ｄ、Ｅ、Ｆ：異なる信頼スコアのビン内でのピーク存在量の予測／アノテーションの散布図。確実性が高い方のサンプルが、より優れた相関スコアを達成した。報告された対数－存在量ピアソンのｒの値が、異なる遷移からのサンプルの組み合わせに対して計算されることに留意されたい。

【図14A】モデルＢについて、予測信頼性のヒストグラム、及び境界予測の平均絶対誤差を示す。Ａ：基準ベースのニューラルネットワークの予測信頼性のヒストグラム。Ｂ：境界予測の平均絶対誤差（ＭＡＥ）は、確実性が高まるにつれ、サンプル上で着実に減少する。

【図14B】モデルＢについて、予測信頼性のヒストグラム、及び境界予測の平均絶対誤差を示す。Ａ：基準ベースのニューラルネットワークの予測信頼性のヒストグラム。Ｂ：境界予測の平均絶対誤差（ＭＡＥ）は、確実性が高まるにつれ、サンプル上で着実に減少する。

【発明を実施するための形態】

【0017】

明細書では、図面及び説明に表示される参照番号は、異なる図の間で対応する要素または類似する要素を指定する。

【0018】

定義
本明細書で使用する場合、以下の単語及び語句は、それらが使用される文脈が明確に別段に示す場合を除き、以下に述べる意味を有すると意図される。

【0019】

「遷移」は、質量分析法の質量対電荷比の強度の時系列を指す。本明細書で使用する場合、語句「遷移」または「多重反応モニタリング（ＭＲＭ）遷移」は、グリコペプチドまたはそのフラグメントがＭＲＭ－ＭＳによって検出されるときに観察される質量対電荷（ｍ／ｚ）ピークまたは信号を指す。ＭＲＭ遷移は、前駆物質及びプロダクトイオンの遷移として検出される。遷移検出の時間間隔は、タンデム液体クロマトグラフィ計器の送り速度、及びＭＲＭ分析計内の流量に依存する。

【0020】

「生物学的量」は、生体サンプル中の分析物の量またはタンデムクロマトグラフィ計器内の溶質の量を意味するとして理解される。分析物及び溶質は、多糖、ペプチド、グリコペプチド、糖化ペプチド、タンパク質、糖タンパク質、及びそれらのフラグメントを含むが、これに限定されるものではない。

【0021】

本明細書で使用する場合、語句「生体サンプル」は、有機体からまたは有機体の流体もしくは組織から導出された、有機体からまたは有機体の流体もしくは組織によって取得された、有機体からまたは有機体の流体もしくは組織から生成された、有機体からまたは有機体の流体もしくは組織から提供された、有機体からまたは有機体の流体もしくは組織から採取された、または有機体からまたは有機体の流体もしくは組織から除去されたサンプルを指す。生体サンプルは、生検によって取得された滑液、全血、血清、血漿、尿、痰、組織、唾液、涙、脊髄液、組織切片（複数可）、組織培養に配置または適合された細胞（複数可）、汗、粘膜、糞便物質、胃液、腹水、羊水、嚢胞液、腹膜水、膵液、乳汁、肺洗浄液、骨髄、胃酸、胆汁、精液、膿、水性体液、漏出液など、及び上述の派生物、部分、及び組み合わせを含むが、これらに限定されるものではない。いくつかの例では、生体サンプルは、血液及び／または血漿を含むが、これらに限定されるものではない。いくつかの例では、生体サンプルは、尿または糞便を含むが、これらに限定されるものではない。生体サンプルは、唾液を含むが、これに限定されるものではない。生体サンプルは、組織解剖及び組織生検を含むが、これらに限定されるものではない。生体サンプルは、上記の生体サンプルの任意の派生物または一部を含むが、これに限定されるものではない。

【0022】

本明細書で使用する場合、用語「多糖」は、グリコペプチド、糖タンパク質、糖脂質、またはプロテオグリカンの炭水化物部分など、複合糖質の炭水化物残基を指す。

【0023】

本明細書で使用する場合、用語「グリコペプチド」は、それに結合された少なくとも１つの多糖残基を有するペプチドを指す。

【0024】

本明細書で使用する場合、語句「糖化ペプチド」は、多糖残基に結合されたペプチドを指す。

【0025】

本明細書で使用する場合、語句「グリコペプチドフラグメント」または「糖化ペプチドフラグメント」は、糖化タンパク質のアミノ酸配列の部分（であるが、すべてではない）と同じであるアミノ酸配列を有する糖化ペプチド（またはグリコペプチド）を指す。糖化ペプチドは、糖化タンパク質から、例えば１つ以上のプロテアーゼ（複数可）による消化によって、または例えばＭＲＭ－ＭＳ計器内でのイオンフラグメンテーションなどのフラグメンテーションによって得られる。ＭＲＭは、多重反応モニタリングを指す。

【0026】

本明細書で使用する場合、語句「グリコペプチドをフラグメント化する」は、ＭＲＭ－ＭＳ計器内で発生するイオンフラグメンテーションのプロセスを指す。フラグメンテーションは、同じ質量を有するが、その電荷に関して変化する様々なフラグメントを生成し得る。

【0027】

本明細書で使用する場合、語句「多重反応モニタリング質量分析法（ＭＲＭ－ＭＳ）」は、生体サンプル中の多糖及びペプチドのターゲット数値化のための高感度かつ選択的な方法を指す。従来の質量分析法と異なり、ＭＲＭ－ＭＳはきわめて選択的であり（ターゲットを定めた）、研究者が計器を微調整して、関心のある特定のペプチドフラグメントを具体的に探すことを可能にする。ＭＲＭは、潜在的なバイオマーカなど、関心のあるペプチドフラグメントのより大きい感度、特異性、速度、及び計量を可能にする。ＭＲＭ－ＭＳは、三連四重極（ＱＱＱ）質量分析計及び四重極飛行時間（ｑＴＯＦ）質量分析計の１つ以上を使用することを伴う。

【0028】

本明細書で使用する場合、「ペプチド」は、特に明記しない限りグリコペプチドを含むことを意味する。

【0029】

「保持時間（ＲＴ）」は、溶質がクロマトグラフィカラムを通過するのに要する時間を意味すると理解される。ＲＴは、注入から検出までの時間として計算される。ＲＴは、ガス流量、炉とカラム内との温度差、カラム劣化、カラム長さ、カラムタイプ、キャリヤガスを含むが、これらに限定されないいくつかの要因に依存する。

【0030】

質量分析法（ＭＳ）データまたはデータセットは、遷移数の関数として遷移の強度を描画するスペクトルの集合体を意味するとして理解される。所与の遷移値のＭＳデータは、保持時間（ＲＴ）である期間（ｔ）にわたる電荷（ｚ）強度レベルに比較した質量（ｍ）（ｍ／ｚ）である。

【0031】

「存在量」は、質量分析法データの中で表されるなんらかの生物学的量の計算された量を意味すると理解される。存在量は、開始ピーク境界と停止ピーク境界との間の離散時点での値を合計することによって計算し得る。また、存在量は、開始ピーク境界と停止ピーク境界との間の離散時間ステップにわたる積分によっても計算し得る。積分は、任意の標準的な方法、例えば、Σ（ｔ_ｉ＋１－ｔ_ｉ）＊（１／２）＊［Ｉ（ｔ_ｉ）＋Ｉ（ｔ_ｉ＋１）］、ｉ＝１．．ｎ－１（ｎは、境界間の離散点の数であり、Ｉ（ｔ_ｉ）は、保持時間ｔ_ｉでの質量対電荷強度である）によって実行され得る。特別の定めのない限り、存在量は、別のＭＲＭピークに対する１つの統合されたＭＲＭピークの相対存在量を指す。

【0032】

非線形性により、最小値を見つけることに基づいて最適化された関数／モデルパラメータのセットは存在せず、むしろ最適化された関数／モデルパラメータは極小値にのみ常駐する（極大値は存在しない）という意味で、本発明の態様を実践するために開発され得る数学モデルは非線形数学モデルに制限される。企図されたモデルアーキテクチャは、人工ニューラルネットワーク、グラフモデル、及びサポートベクトルマシンを含むが、これらに限定されない。

【0033】

「機械学習モデル」または「学習モデル」は、（１つ以上のアフィン変換に加えて）少なくとも１つの非線形活性化層を有する任意の種々の数学モデルを意味すると理解される。機械学習モデルは、さらに、モデル自体とは別個である１つ以上の損失関数の最小化（例えば、交差エントロピー損失または負の対数尤度の最小化）によって訓練または最適化される。訓練または最適化のプロセスは、既知の結果（低バイアス）を再現するためにモデルを最適化し、モデルが目に見えない経験（低分散）から正確な予測を行うことを可能にしようとする。モデルの出力は、例えば、確率または統計値、分類、シーケンスなど、タスクに関連する任意の種々のものであってよい。１つの特定の例では、モデルを訓練及び最適化するために使用するデータは、ターゲットの結果が既知である時系列データなどのシーケンシャルデータであり、既知のターゲット出力を有するそのシーケンシャルデータは、ラベル付きのシーケンシャルデータまたはアノテーション付きのシーケンシャルデータを意味すると解釈される。

【0034】

ラベル付きのシーケンシャルデータに基づいて予測を行うために適した周知のモデルの一例は、長・短期記憶（ＬＳＴＭ）装置またはゲートリカレントユニット（ＧＲＵ）を有し、任意選択でアテンションメカニズムを有する、一方向、または双方向のリカレントニューラルネットワーク（ＲＮＮ）である。アテンションメカニズム（またはアテンション層）は、将来の状態予測に影響を与えるために、過去の状態から蓄積した知識を表す双方向ＲＮＮとともに、シーケンスの最終的なＬＳＴＭ装置もしくはＧＲＵ、またはＬＳＴＭ装置もしくはＧＲＵの組み合わせで考えられる得るものよりもより重要な情報を過去の状態変数から保持し得る。アテンションメカニズムは、学習した重みを入力状態の各々に適用して、出力予測を生成するときにシーケンスに表示される入力されたＭＳデータ点のより重要ではないまたはより重要な特徴を強調する。これらの学習された重みは、所望の出力に応じて、対応する出力状態、または最終的な出力状態の各々に多かれ少なかれ直接的に結合される。

【0035】

ラベル付きデータだけを使用して訓練及び最適化されたモデルは、教師ありモデルとして知られる。また、学習モデルは、教師なしモデルまたは半教師ありモデルであってもよい。これらのモデルは、ラベルなしデータまたはラベル付きデータとラベルなしデータとの組み合わせを使用し、訓練及び最適化される。ラベル付きデータとラベルなしデータの組み合わせまたはおもにラベルなしデータを使用して訓練及び最適化されたモデルは、それぞれ半教師ありモデル及び教師なしモデルとして知られる。学習モデルは、確率的勾配降下法（ＳＧＤ）の周知の手法によって効率的に訓練及び最適化され得る。学習モデルのハイパーパラメータは、訓練及び／またはバリデーションの間に手動の調整によって最適化される場合もあれば、学習モデルのグローバル損失関数の最小化と並行して、ハイパーパラメータの１つ以上に関して代理損失関数を最小限に抑える方法によって学習される場合もある。

【0036】

「訓練セット」は、既知のターゲット出力を再現するために学習モデルでパラメータを訓練または調整するために使用されるデータセットである。

【0037】

「バリデーションセット」は、ラベル付きデータ（低バイアス）に一致することと、目に見えない遷移（低分散）の開始／停止場所を予測することとの間の最適なバランスに到達するために、新しい経験と対照してモデルの予測機能を調整するために使用されるデータセットである。バリデーションセットは、モデルが訓練セットに基づいて調整された後に適用される。

【0038】

「テストセット」（または除外バリデーションセット）は、最適化されたモデルの予測能力を評価するために使用されるデータセットである。テストセットと対照したモデルの性能は、新しい目に見えない遷移の正確な予測を行うモデルの能力を評価するために使用されるメトリクスである。

【0039】

「フィーチャ化」は、入力として使用するための分布から、サンプルを表す未処理データを機械学習モデルに変換することと関連するプロセスを意味すると理解される。フィーチャ化の例は、アナログ信号のデジタル信号への離散化、データの部分のフィルタリング、またはノイズ除去、またはクリッピング（例えば、信号対雑音比の低減）、信号の正規化及び信号の標準化（例えば、ウィンドウの中心にターゲットピークを置くこと）を含む。また、フィーチャ化は、一般化のためにサンプルのモデルまたは関連する増強を確証する、及び／または新しい（または目に見えない）経験から予測を行うモデルの能力を高めるためにデータセットに雑音を導入することを含んでもよい。

【0040】

本開示によれば、訓練データセット、検証データセット、及び試験データセットがその中からサンプリングされたシーケンシャルデータのデータセットは、遷移のために少なくともラベル付きの開始場所及び停止場所を含み得、その場所の各々は、境界点の間で積分により存在量を計算するための境界点を示す。好ましい実施形態では、ターゲットとされる出力は、遷移のシーケンシャルデータの中の各点の開始場所及び停止場所の確率である。

【0041】

説明
上述のように、ＭＲＭ実験の従来の分析は、手でクロマトグラフのピークの開始及び停止を選び、データ依存取得技術または他の発見技術によって以前に特徴付けられた遷移から作業することを伴う。ＡｇｉｌｅｎｔのＭａｓｓＨｕｎｔｅｒソフトウェアなどのソフトウェアスイートは、所与の前駆物質及び製品質量対電荷比について保持時間（ＲＴ）の事前に指定された範囲にわたって信号強度を描画する。ピークの始まり及び終わりを手動で選択することによって、観察ＲＴ、ピーク幅、及び統合された存在量値が生じる。しかしながら、評価における個人差、人的エラー、及び大きな時間投資により、この方法は、研究以外での使用には不十分である

【0042】

明確に定義された単一のピーク及び高い信号対雑音比によって特徴付けられた遷移の場合、存在量を計算するために境界点を選ぶ上記の手動のプロセスは効果的である場合があるが、この方法は、低い信号対雑音比によって特徴付けられた生物学的量の存在量を検出するとき、正確な結果を提供しない、または一貫性のある結果を生じさせない場合がある。

【0043】

図１を参照すると、本開示によれば、指定された保持時間ウィンドウ及び質量／電荷強度についてマススペクトルで境界点を自動的に選択するために、訓練された機械学習モデルが代わりに使用される。機械学習モデルに対する入力は、点のシーケンス（ＭＳデータのサンプル）である。各点は、対応する保持時間の質量／電荷強度を表す。

【0044】

図２を参照すると、一実施態様によれば、機械学習モデルは、入力として提供された対応する点の各々のピーク開始時間及びピーク停止時間の確率を生成するニューラルネットワークである。ニューラルネットワークは、ラベル付きのターゲットピーク開始保持時間及びピーク停止保持時間を有するマススペクトルを使用して訓練される。訓練及びバリデーションのプロセスを通じて、最適なモデルパラメータが見つけられる。ラベル付きデータは、グラフィカルユーザーインタフェース及び入力装置を使用してピーク開始時間／停止時間を選択する人間のアノテータから取得されてもよい。

【0045】

図３を参照すると、図１の機械学習モデルへの入力のための未処理のマススペクトルデータをフィーチャ化するためのプロセスの流れがある。フィーチャ化ステップは、（１）特定の閾値量を超える質量／電荷の強度を削除すること、または代わりにほとんど雑音であり、ＭＳデータの信号対雑音遷移領域に近いそれらの点だけを選ぶこと、及び（２）シーケンシャルデータを生成するためにアナログ信号を点のセットに離散化することを含み得る。

【0046】

図４を参照すると、１つの特定の実施態様では、モデルは、積分の加重和に基づいて存在度の量を計算する。最も直接的な方法の１つは、機械学習モデルの予測結果を確率分布として解釈することである。言い換えると、モデルに、ピーク開始／終了マーカとしての機能を果たすであろうシーケンス中の点のすべての考えられる対の確率を評価させることである。Ｎ個の点のシーケンスの場合、これは、順序の制約を課した後に、合計でＮ×（Ｎ－１）／２対を含む。各対の確率は、２つの点でピーク開始／終了タスクの予測値を乗算することによって容易に計算できる。確率は、次に、対応する対の間で積分に対して加重和を計算するために使用され、真の境界の最高の確率を有する２つの端点から計算される単一の存在度の値の代わりに、平均推定値を提供する。存在量の平均は、よりロバストな存在量推定値を提供し得る。

【0047】

実施形態
いくつかの例では、複数のラベル付きシーケンシャルデータを使用することであって、複数のラベル付きシーケンシャルデータの各々が、グリコペプチドもしくはペプチド、またはそのフラグメントに特有な保持時間値を表すピーク開始ラベル及びピーク停止ラベルを含む、使用すること、及びラベル付きシーケンシャルデータを使用して少なくとも１つの機械学習モデルを訓練することであって、訓練されたモデルが、生体サンプルに存在する、１つ以上のグリコペプチドもしくはペプチド、またはそのフラグメントの存在を示す質量分析法の開始ピーク及び停止ピークを識別するために適合された、訓練することを含む、質量分析法のピークを識別するようにモデルを訓練する方法が、本明細書に説明されている。

【0048】

上記のいずれかを含むいくつかの例では、方法は、生体サンプルから質量分析法の開始ピークと停止ピークとの間で経時的に積分によって１つ以上のグリコペプチドまたはペプチドの存在を数値化することをさらに含む。

【0049】

上記のいずれかを含むいくつかの例では、機械学習モデルはリカレントニューラルネットワークモデルである。

【0050】

上記のいずれかを含むいくつかの例では、リカレントニューラルネットワークは、アテンション層を有する双方向ＬＳＴＭリカレントニューラルネットワークモデルである。

【0051】

いくつかの例では、本明細書に説明するプロセスを実行するように訓練された機械学習モデルを使用して、グリコペプチドまたはペプチドの存在量を計算することを含む方法が、本明細書に説明されている。

【0052】

いくつかの例では、ラベル付きシーケンシャルデータのデータリポジトリ、リポジトリに結合された１つ以上のプロセッサ、１つ以上のプロセッサによって実行されるとき、本明細書に説明する方法を実行する、１つ以上のプロセッサがアクセス可能な非一時的なメモリに常駐する機械実行可能コードを含むシステムが、本明細書に説明されている。

【0053】

いくつかの例では、入力パラメータの関数としての出力を生成する少なくとも１つの訓練されたニューラルネットワークモデルを提供することであって、入力パラメータの値がｍ／ｚ（質量対電荷）比を有するグリコペプチドの保持時間値のシーケンスを含む、提供すること、及び入力パラメータの値として、生体サンプルの質量分析法の保持時間値のシーケンスに対する質量対電荷（ｍ／ｚ）比を含む質量分析法（ＭＳ）データを提供することを含み、出力が、生体サンプル中の１つ以上の分析物またはそのフラグメントの存在を示す１つ以上のピーク開始保持時間値及びピーク停止保持時間値の場所を含む、質量分析法のピークを識別する方法が、本明細書に説明されている。

【0054】

上記のいずれかを含むいくつかの例では、方法は、生体サンプルから質量分析法の開始ピークと停止ピークとの間の保持時間値に対する加算または積分によって１つ以上のグリコペプチドまたはペプチドの存在を数値化することをさらに含む。

【0055】

上記のいずれかを含むいくつかの例では、方法は、生体サンプルから質量分析法の開始ピーク及び停止ピークの間の保持時間値に対する加算によって１つ以上のグリコペプチドまたはペプチドの存在を数値化することをさらに含む。上記のいずれかを含むいくつかの例では、方法は、生体サンプルから質量分析法の開始ピーク及び停止ピークの間の保持時間値に対する積分によって１つ以上のグリコペプチドまたはペプチドの存在を数値化することをさらに含む。

【0056】

上記のいずれかを含むいくつかの例では、数値化するステップは、予測された開始ピーク及び停止ピークに対して重み付き平滑化関数を適用することを含む。

【0057】

いくつかの例では、質量分析法（ＭＳ）データのデータリポジトリ、リポジトリに結合された１つ以上のプロセッサ、１つ以上のプロセッサによって実行されるとき、本明細書に説明する方法を実行する、１つ以上のプロセッサがアクセス可能な非一時的なメモリに常駐する機械実行可能コードを含むシステムが、本明細書に説明されている。

【0058】

いくつかの例では、未処理のＭＳデータからデータをフィーチャ化することであって、未処理のＭＳデータが、各々が質量／電荷強度を表す複数のアナログサンプルを含む、フィーチャ化することを含み、フィーチャ化することが、アナログサンプルの各々について、保持時間ウィンドウ内の中心にサンプルを置くステップと、サンプルを、強度値を表す点のシーケンスに離散化するステップと、強度値を標準化するステップと、ラベル付きの点のシーケンスを生成するために、ピーク開始時間及びピーク停止時間に対応する点のシーケンスの中で点にラベルを割り当てるステップと、を含み、ラベル付きの点のシーケンスが、目に見えないＭＳデータの存在量を予測するように機械学習モデルを訓練するために構成される、方法が本明細書に説明されている。

【0059】

上記のいずれかを含むいくつかの例では、中心に置くことは、保持ウィンドウの中心に曲線の頂点を配置することを含む。

【0060】

上記のいずれかを含むいくつかの例では、強度値を標準化することは、閾値量よりも大きい強度値を除外する。上記のいずれかを含むいくつかの例では、閾値量は約５００である。

【0061】

いくつかの例では、複数のアナログサンプルを含む未処理の質量分析法（ＭＳ）データのデータリポジトリ、リポジトリに結合された１つ以上のプロセッサ、１つ以上のプロセッサによって実行されるとき、いずれかの方法を実行する、１つ以上のプロセッサがアクセス可能な非一時的なメモリに常駐する機械実行可能コードを含むシステムが、本明細書に説明されている。いくつかの例では、所与のｍ／ｚ比及び保持時間期間の質量分析法（ＭＳ）データを表す点のシーケンスにわたって確率の分布を計算することであって、確率がありそうなピーク開始保持時間またはピーク停止保持時間を表す、計算すること、及び確率の分布を使用して存在量の統計値を計算することであって、統計値がＭＳデータの中の生体サンプルの存在を示す、計算することを含む方法が、本明細書に説明されている。

【0062】

上記のいずれかを含むいくつかの例では、統計値は、積分を評価するための開始点及び終了点のすべての考えられる対を使用して、積分の加重和として計算された平均存在量である。

【0063】

上記のいずれかを含むいくつかの例では、機械学習モデルは、シーケンシャルモデル（モデルＡ）または基準ベースモデル（モデルＢ）である。

【0064】

いくつかの例では、複数のラベル付きシーケンシャルデータを使用すること、及びラベル付きシーケンシャルデータを使用して少なくとも１つの機械学習モデルを訓練することであって、訓練されたモデルが、強度の開始ピーク及び停止ピークが目に見えないサンプルで発生する期間または周波数範囲を識別するために適合された、訓練することを含む方法が、本明細書に説明されている。

【0065】

上記のいずれかを含むいくつかの例では、開始ピーク及び停止ピークは、雑音から信号への遷移期間に含まれる。

【0066】

上記のいずれかを含むいくつかの例では、機械学習モデルは、アテンション層を有するリカレントニューラルネットワークである。

【0067】

上記のいずれかを含むいくつかの例では、強度の開始ピークから停止ピークまでの時間または周波数に対する加法または積分により、物理的なものが数値化されるように、サンプルは物理的なものを表す。

【0068】

上記のいずれかを含むいくつかの例では、サンプルは、指定された期間にわたって質量対電荷強度の連続するシリーズであり、加法または積分は物理的なものの存在量を表す。

【0069】

いくつかの例では、入力パラメータの関数として出力を生成する少なくとも１つの訓練されたニューラルネットワークモデルを提供することであって、入力パラメータの値が、数量を表す強度値の時系列またはスペクトル系列である、提供すること、及び入力パラメータの各々に値を提供することであって、値は数量の目に見えない強度のシーケンスを表す、提供することを含み、出力は、数量を数値化するために使用される１つ以上のピーク開始及びピーク停止の時間または周波数を含む方法が、本明細書に説明されている。

【0070】

上記のいずれかを含むいくつかの例では、数量は、それぞれピーク開始の時間または周波数とピーク停止の時間または周波数との間の時間または周波数に対する加算または積分によって数値化される。

【0071】

上記のいずれかを含むいくつかの例では、強度は、質量分析法、ＭＲＭ、液体クロマトグラフィもしくはガスクロマトグラフィ、ｘ線回折、ラマン分光法、ＵＶ－ＶＩＳ分光法、蛍光定量分光法もしくは燐光分析分光法、核磁気共鳴（ＮＭＲ）分光法、または磁気共鳴映像法（ＭＲＩ）のセットから選択されたプロセスから取得される。

【0072】

実施例
以下の実施例は、本開示のいくつかの態様に従って実施された研究を説明する。

【0073】

この研究では、２つの学習モデルが、訓練され、検証され、次に、ピークの場所を予測する際の精度（またはより正確には、関連付けられた遷移の存在量をより正確に計算するためにピークの開始／停止境界）を評価するために試験された。学習モデルのために選ばれた特定のアーキテクチャは、長・短期記憶装置及びアテンション層を有する双方向リカレントニューラルネットワーク（ＲＮＮ－ＬＳＴＭ－ＡＬ）であった。モデルアーキテクチャ及び訓練方法は、図５Ａ、図５Ｂ、図６Ａ、図６Ｂ、及び図６Ｃに示されている。モデルの入力パラメータまたは入力状態変数は、質量対電荷比（ｍ／ｚ）強度を表す時系列に対応する。

【0074】

研究は、ペプチドと無傷のグリコペプチドの両方を含む広いダイナミックレンジに及ぶ質量分析法（ＭＳ）遷移からの手動でラベル付けしたピークの大きいデータセットにアクセスした。データセットは、各遷移の保持時間（ＲＴ）内の強度の時系列を含んでいた。これらの遷移の各遷移は、ＲＮＮ－ＬＳＴＭ－ＡＬに入力されたシーケンシャルデータであり、訓練遷移、バリデーション遷移、及び試験遷移の各遷移とともに含まれる、関連する人間によりアノテーションを付けられた（またはラベルを付けられた）（存在量を導出するために積分のための境界点を示す）開始ＲＴ及び停止ＲＴは、それぞれ教師あり学習、バリデーション、及び試験のために使用されるラベルである。

【0075】

２．１データセット
２つの質量分析法データセットが研究のために使用された。第１の実験用の未処理のＡｇｉｌｅｎｔＱＱＱＭＳ出力は、２１０のヒト血清サンプル内で評価された７１６の遷移から成り立っていた。これにより、正の存在量及びＲＴシフトについてフィルタリング後、１０６３５５の有効なサンプルピークが生じた。このセットは、５７２の遷移を有する訓練セット、及び１４４のピークを有するバリデーションセットに分割された。

【0076】

第２の実験は、商用のバイオリポジトリから購入した１３５のヒト血清サンプルから生成されたＭＳ出力を使用した。５０３の遷移が評価され、試験専用に使用された６７６７２の高品質のピークが生じた。３１３のテストセット遷移は、訓練セット／バリデーションセットに存在していなかった。３１３のテストセット遷移は、モデル出力予測を比較するために使用された。

【0077】

２．２ベースライン方法
訓練され、確証されたＲＮＮ－ＬＳＴＭ－ＡＬモデルの性能は、２つのベースライン予測因子に比較された。これらのベースライン予測因子の第１の予測因子は、多重反応モニタリングを含む質量分析法アプリケーションのデータ分析に使用される周知のオープンソースのソフトウェアツールであるＳｋｙｌｉｎｅである。Ｓｋｙｌｉｎｅソフトウェアは、テストサンプルのピーク面積（存在量）を計算する。ＲＮＮモデルとの比較用の第２のベースライン予測因子は予測の決定論的方法であり、以後「規則ベースの」方法と呼ぶ。規則ベースの方法のアーキテクチャは、ＫｅｎＡｏｓｈｉｍａ、ＫｅｎｔａｒｏＴａｋａｈａｓｈｉ、ＭａｓａｙｕｋｉＩｋａｗａ、ＴａｋａｙｕｋｉＫｉｍｕｒａ、ＭｉｔｓｕｒｕＦｕｋｕｄａ、ＳａｔｏｓｈｉＴａｎａｋａ、ＨｏｗｅｌｌＥＰａｒｒｙ、ＹｕｉｃｈｉｒｏＦｕｊｉｔａ、ＡｋｉｙａｓｕＣＹｏｓｈｉｚａｗａ、Ｓｈｉｎ－ｉｃｈｉＵｔｓｕｎｏｍｉｙａらのＡｓｉｍｐｌｅｐｅａｋｄｅｔｅｃｔｉｏｎａｎｄｌａｂｅｌｆｒｅｅｑｕａｎｔｉｔａｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｃｈｒｏｍａｔｏｇｒａｐｈｙ－ｍａｓｓｓｐｅｃｔｒｏｍｅｔｒｙ、ＢＭＣｂｉｏｉｎｆｏｒｍａｔｉｃｓ、１５（１）：３７６，２０１４に説明されている。規則ベースの方法モデルは、そのモデルパラメータを調整して、訓練セット及びバリデーションセットの性能を最大限にすることによってこの研究のために開発された。そしてこれらの調整されたパラメータは、次にテストセットの評価中に適用された。

【0078】

２．３ピーク積分のためのシーケンシャルモデル
ＲＮＮ－ＬＳＴＭ－ＡＬアーキテクチャは、研究においてＭＳデータオンシーケンスから予測するために選択された。

【0079】

研究で使用された２つのＲＮＮ－ＬＳＴＭ－ＡＬモデルのうちの第１のモデル（以後、「モデルＡ」または「シーケンシャルモデル」）の訓練／予測プロセス及び流れの視覚的なブロック説明は、図５Ａ及び図５Ｂに示されている。入力（時間の関数としての質量／電荷比の強度）は、別々の位置を関連付けるためにｂｉ－ＬＳＴＭ層及びアテンションメカニズムを通して符号化される。予測は点単位で行われ、あらゆる入力について、モデルが出力を予測することを意味する。モデルは、Ｎ×２の次元性で出力のシーケンスを生成するように訓練された。ここで、「Ｎ」は、モデルＡの入力パラメータの数（サンプル中の曲線の性質に応じて５０～３００の範囲の、強度値がモデルに入力された保持時間に対応する点、以下５．３を参照）、シーケンス中のデータポイントの数、及び各入力値に対応する出力値である。Ｎ個の点の各々について出力された二つ（２）の値は、対応する点がピーク開始またはピーク停止を表す確率（０から１の範囲）である。所与の遷移について値が１（高確率）に最も近いモデルから出力された１つの点または点の近傍は、次に存在量積分（継時的に積分された）が計算される間隔の境界を定めるために使用される。

【0080】

モデルからの出力確率は、このようにして境界の分布を形成する。モデルは、予測された境界とグラウンドトゥルースとの間の交差エントロピー損失に対する勾配降下法、または手作業でラベル付けしたピーク開始及びピーク停止によってエンドツーエンドで訓練される。例えば、モデルのハイパーパラメータに関して最小限に抑えられた目的関数に適用されたベイジアン最適化など、最小ハイパーパラメータ検索は、優れた一般化を達成し、訓練セットに対する過剰適合を回避する目的で、除外バリデーションセットまたはテストセットで性能を最適化するために適用される。フィーチャ化及びハイパーパラメータは、以下により詳細に説明する。

【0081】

２．４基準ベースのシーケンシャルモデル
いくつかの用途では、遷移ピークの高度に可変的な形状及び幅のため、モデルＡなどの統一した予測モデルは、目に見えない遷移に対して十分に一般化しない場合がある。同じ遷移での異なる患者のサンプルの形状が一貫している旨の観察に基づいて、第２のＲＮＮ－ＬＳＴＭ－ＡＬモデル（以後「モデルＢ」または「基準ベースのモデル」）も開発された。

【0082】

モデルＢの訓練／予測プロセス及び流れの視覚的なブロック説明は、図６Ａ、図６Ｂ、及び図６Ｃに示されている。モデルＢは、入力としてそれぞれクエリサンプル及び基準を採取する。両方の符号化された特徴は比較され、サンプル－基準アテンション層にマージされ、予測を生成する。クエリピーク特徴、基準ピーク特徴、及び基準ラベルを提供され、アテンション層は、基準の中のラベル付きの開始／停止点に非常に類似しているクエリの中の点がより高い予測確率を取得するように、クエリ及び基準を逐一比較する。２つの一貫したサンプルを所与として、この操作の理想的なアテンションマップは、同じ周辺を有する点がきわめて類似していると見なされる（図６Ｃを参照）「単位行列」となる。アテンションマップと保持時間マッピング行列との間の発散項は、優れた正則化を達成するために最適化プロセスに含まれた。

【0083】

（クエリベースの予測と対照的に）基準ベースの予測の状況では、タスクは、雑音－信号遷移点を、モデルＡと同様に識別しようとしなくなるが、類似性のマッピングを最適化するために、むしろシーケンスの中の点及びそのコンテキストの優れた符号化機構を識別しようとすることに留意されたい。アプリケーションでは、基準ベースのモデルは、フューショットラーニングモデルと同様に作動する。基準ベースのモデルは、クエリ／基準の対で訓練され、クエリサンプルでの予測に基準ラベルを正確にマッピングすることを目指す。これにより、当然、単一の（またはいくつかの）正しくラベル付けした基準が提供される限り、モデルは目に見えない遷移ピークに対してよりうまく機能できるようになる。

【0084】

モデルＢの採用された構造は、いくつかの高品質の基準ピークの手動アノテーションが妥当な前提条件である、遷移の同じセットでの高スループット実験に対して最も適用可能かつ費用効率が高い場合がある。大部分の発見または小規模の実験では、スタンドアロン基準なし予測因子が好ましい場合がある。

【0085】

図７Ａ及び図７Ｂを参照すると、各図は、２つのプロットを有している。第１のプロットは、それぞれ星及び三角形で示されたラベル付きの開始時間及び停止時間を有する遷移のプロットである。下部のプロットは、訓練され、確証されたモデルによって予測された開始時間／停止時間の確率のプロットである。

【0086】

３．１境界及び存在量の予測性能
除外サンプルまたはテストセットサンプルが、モデルを評価するために使用された。解決されている問題の包括的な図を提示するためにいくつかのメトリクスが使用された。予測は、２つの基準、つまり（１）境界（ピーク開始／停止）を予測する上での精度、及び（２）存在量（ピーク面積）を予測する上での精度について評価される。前者は問題の設定に直接的に関連付けられるが、後者は、分析のために分析物の存在量を利用する下流のアプリケーションにとってよりははるかに重要になる。

【0087】

予測では、２つのタスク、つまりピーク開始時間及びピーク終了時間を見つけるタスクの最大予測確率を有する曲線中の点は、以下の文中では「最大点集合境界」と呼ぶ境界のマーカとして使用される。我々は、その境界予測がグラウンドトゥルースアノテーション（人間がラベルを付けた点）の周辺の１．２秒（１シーケンス内で２つの点）の誤差閾値の範囲内であるサンプルの比率として定義された精度スコアとともに、最大点集合境界と人間のアノテーションまたはラベルとの間の平均絶対誤差（ＭＡＥ）を計算した。ピーク持続時間がテストセットで２０＋／－８秒（シーケンス中の３３＋／－１４点）であることを所与とすると、誤差閾値は、ウィンドウ内の任意の境界予測が存在量を大幅に変更しないほど十分に小さい。

【0088】

存在量の評価の場合、最初に計算されるのは、それぞれグラウンドトゥルース（人間がラベル付けした）からの境界と、モデル予測との間のベースライン調整済みの積分であり、次に各個別遷移での２つの間のスピアマン順位相関係数（スピアマンのｒ）及びピアソン相関係数（ピアソンのｒ）が評価される。広範囲の存在量（１～１０^１５）のため、ピアソンのｒは、存在量が大きいサンプルによって支配され、ここでは、バイアスを回避するために、代わりに対数存在量に対して計算された相関が報告される。全遷移にわたる平均スコアが報告される。さらに、実用的な使用法の表示のために、その予測存在量がアノテートされた存在量の＋／－５％の範囲内にあるサンプルの比率として定義された精度スコアも報告される。この精度メトリクスに１つの注意事項がある。つまり、開始／停止境界予測誤差は、互いを相殺する場合があるため、アノテートされた存在量を逸脱する境界予測によって定義された間隔にわたって計算された積分は、アノテートされた存在量と非常に似た存在量を有するように見える場合があることに留意されたい。すなわち、強度値が積分で合計されるとき、予測されたピーク開始時間の１％の誤差は、予測されたピーク停止時間の対応する％の誤差を相殺する場合がある。

【0089】

【表1】

【0090】

【表2】

^＊境界予測が１．２秒の誤差の範囲内であるサンプルの比率
^＊＊存在量予測が５％の誤差の範囲内であるサンプルの比率

【0091】

【表3】

【0092】

表１は、３つの試験した方法及びＳｋｙｌｉｎｅ予測の性能スコアを提示する。Ｓｋｌｉｎｅが、存在量の予測のみを生成し、境界予測タスクに対して評価及び比較されなかったことに留意されたい。モデルＡとモデルＢの両方とも、規則ベースの方法及びＳｋｙｌｉｎｅ予測と比べてすべてのタスクで著しい性能の向上を明示した。モデルＢは、追加の基準データを用いて最高のスコアを達成した。境界予測では、規則ベースの方法は訓練／バリデーションセットの性能を最適化するために調整されているので（表３を参照）、強力な過剰適合が観察される。比較すると、より優れたサンプル品質のおかげで、モデルＡ及びモデルＢは、（基準あり及び基準なしで）それぞれテストセットで、規則ベースの方法よりも２倍小さい２．３３及び１．５６秒のＭＡＥを達成した。同様に、精度スコア性能では、モデルＢは、規則ベースの方法に比べて３０％有利になった。図８Ａ及び図８Ｂは、それぞれ、境界予測誤差の棒グラフ及び正規化されていない累積分布を示し、モデルＡ及びモデルＢは、誤差がより低く、外れ値がより少ない分布を提示した。

【0093】

存在量の予測は同様の結果を提示した。つまりモデルＡ及びモデルＢは、ピーク存在量の評価時により優れ、よりロバストな性能を達成し（図８Ｃ）、精度では２０％を超えて上昇した。この問題では、境界点は通常全体的な積分にほとんど寄与しないため、境界予測の誤差の影響が大きく軽減されることに留意されたい。相関スコアは、モデルＡ及びモデルＢが、現在の既製の質量分析法データ分析ソフトウェアよりも著しくよく機能し、スピアマンの相関係数は０．９９７５及び０．９９９０でほぼ完璧であることを示した。興味深いことに、規則ベースの方法もＳｋｙｌｉｎｅの予測よりもはるかに高い相関スコアを達成した。いかなる理論にも拘束されることを望むものではないが、この結果は、テストサンプルの複雑な組成に起因していた可能性があり、これにより保存時間が近い共溶出ピークまたは化合物が生成された。ＲＴウィンドウが所望の遷移の周りに密接に設定されたとき（通常、人間のアノテータによって使用される設定でもある）、Ｓｋｙｌｉｎｅは誤って異なる範囲からピークを選び、結果的に性能が著しく悪くなった可能性がある。

【0094】

モデルＡとモデルＢを比較すると、追加の「基準データ」は、モデルＢの訓練段階及びバリデーション段階の間に含まれたため、このモデルはモデルＡよりもよく機能し、境界予測及び存在量予測の精度で１５％及び１０％の向上を提供した。モデルＢは、存在量相関プロットでの観察と一致して、外れ値がより少ない（２．２％対７．１％、図８Ｂを参照）より優れた境界誤差分布を提示した。緑の点は中心線の周りにより集中し、一方、青の点はいくつかの外れた予測を含んでいる（図８Ｃ）。

【0095】

しかしながら、必要とされる訓練セットがより少ないので、用途によってはモデルＡが好ましい場合もある。結果が示すように、モデルＡは優れた精度／予測存在量を提供し得るので、モデルＢとともに使用される追加の基準データは、必要とされない場合もあれば、小規模の用途または実験に実用的である場合もある。モデルＢは、より大規模な実験に、またはより精度が必要とされるときに好ましい場合がある。

【0096】

これらの実験では、モデルＢは、プロットに表示されていない別の優位点、つまり複数のサンプルにわたる同じ遷移に対する予測のより高い一貫性を提供した。特に、境界が肩の点及び谷の点のために変わる場合がある遷移の場合、モデルＢは、そのモデル構造設計の主要な目的である、その基準の同じ予測形式に従う傾向がある（図９Ａ）。これは、存在量が、まさに同じ標準に基づいて生成され、したがってより正確な比較及び数値化を可能にするという点で、高スループット実験で非常に望ましい。しかし、保持時間のシフトまたは強力なバッチ効果の場合、モデルでの強力な以前の仮定がその性能を損なわせる場合があることにも留意されたい。

【0097】

３．２人間のアノテータとの比較
ニューラルネットワークベースのモデルの実用的な使用法をさらに確証するために、我々は、モデル予測を、ピーク存在量を計算する人間のアノテータのグループと比較した。

【0098】

テストセットの中では、１３５すべての血清サンプルに対して１２の遷移から成り立つサブセットが分析され、１２人のアノテータが独立してピーク開始／終了をマーキングした。元のテストセットラベルと結合され、人間のアノテータの１３のセットがこのサブセットのために調製された。次に、我々は、異なるアノテータ間の変動のための代理として、１３のアノテーション全体でサンプルピークごとに相対的な標準偏差を計算し、モデルＡの及びモデルＢの予測相対誤差と比較した。

【0099】

結果は図１０に要約されている。図１０の灰色の縦線で明示されるように、大部分のサンプルでアノテータに優る高い一貫性が観察される。人間のアノテータの場合のすべてのサンプルピークでの平均ＲＳＤは、２．５％である。同時に、モデルＡとモデルＢの両方ともサブセットに対して良好に機能し、人間のアノテータの平均と比較して、それぞれ３．５％と２．１％の平均相対誤差を達成した。誤差の分布は、青の縦棒及び緑の縦棒に示すように、類似しているがアノテータ全体でのＲＳＤよりもわずかに悪い。ウィルコクソンの符号付検定は、両方のモデルに対して有意性（＄ｐ＝０．１１、０．５０＄）を示さず、差が有意ではないことを示している。

【0100】

個々の各アノテータの予測をグループとして見て、我々は次に、アノテータ間の対ごとの差、つまり各サンプルピークでの相対的な存在量の差の平均を計算した。結果は、０．０２５＋／－０．００９でアノテータ間の不一致を示し、ＲＳＤ値と一致している。同時に、モデルＢの予測と１３人のアノテータとの間の差は、０．０２６＋／－０．００７であり、アノテータ間の差と重複している。モデルＡの対応する値は０．０３９＋／－０．００５である。モデル対人間の差が著しく大きくない、または基準ベースの場合にはさらに近いことを所与とすると、ニューラルネットワークベースのモデルが、このタスクでの手動のアノテーションの優れた代用品の機能を果たすことができることが明らかである。また、人間のアノテータが、開始及び停止が読み取りの基準としての機能を果たすために選択されたピークを有し、そのタスクをモデルＢに直接的に類似させていたことも留意する。

【0101】

３．３存在量計算のための加重ピーク開始／終了
肩及び谷の点のあるピークでは、境界の決定は、はるかに高い可変性に苦しむ。人間のアノテーションでさえ、異なるアノテータの中で変動が存在するため、モデルＡ及びモデルＢからの出力は、訓練サンプル全体での平均化のために、多峰型の形状を示すことが予想される（図９Ｂ、図７Ｂ）。強力な基準の事前確率が存在しないので、これは、基準がない場合（モデルＡ）でもやや深刻であり、最大点集合境界を適用するときに結果は不定になる。これらの場合、境界の単一点の推定値の代わりに完全な予測によりうまく対応できる方法が検討された。

【0102】

最も直接的な方法の１つは、予測結果を確率分布として解釈することである。言い換えると、モデルに、ピーク開始／終了マーカとしての機能を果たすであろうシーケンス中の点のすべての考えられる対の確率を評価させることである。Ｎ個の点のシーケンスの場合、これは、順序の制約を課した後に、合計でＮ×（Ｎ－１）／２対を含む。各対の確率は、２つの点でピーク開始／終了タスクの予測値を乗算することによって容易に計算できる。確率は、次に、対応する対の間で積分に対して加重和を計算するために使用され、ＭＡＰ推定値の代わりに、平均推定値を提供する（存在量を計算するためのこの代替方法は、以下「加重和法」と呼ばれる）。ＭＡＰ推定値は、最大点集合値をエンドポイントとして使用して１つの存在量値を計算する。

【0103】

存在量の平均は、特にモデルＢよりもモデルＡにより類似したモデルアーキテクチャが使用されるとき、最大点集合境界を使用するよりもよりロバストな存在量推定値を提供し得る。明示的な境界は使用されないので、方法は、ピーク開始予測の前に（または非常に近くに）現れるピーク終了予測の問題を回避し得る。モデルＡ及びモデルＢの存在量相関の比較は、それぞれ図１１Ａ及び図１１Ｂに提示される。

【0104】

特にモデルＡの場合、加重和法は、より正確な存在量を生成し、存在量相関を０．９８９７から０．９９６９に上昇させるのに役立った。モデルＢでの増加は、相対的に小さい（０．９９７４から０．９９７７）。後処理ステップは、その最大点集合境界が人間のアノテーションよりも著しく低い存在量を生じさせた外れ値を回避する上でおもに役に立った。これらのサンプルは、通常、次に最大点集合操作によって選ばれる（谷または肩の点での）ピークの範囲内の異常に高い境界確率に苦しむ。同時に、加重和法により、全体的な予測は、低存在量ピークの場合、上方に偏向した。これはおもに雑音の多い信号及び予測に起因する。信号対雑音比が低い場合、予測境界確率は、ピークの周辺でのより長い保持時間範囲で変動し（図７Ａ及び図７Ｂ、ならびに図１２）より高い加重和につながるであろう。雑音の多いピークは、下流のアプリケーションにとってはあまり価値がないので、我々は、この影響を許容できると見なした。

【0105】

これらの規則から、信頼値は以下の通りに計算された。Ｎ個の点のあるサンプル曲線での予測の場合、範囲内のすべての極大値を計算する。最大値は、以下としてラベル付けされ、

【0106】

【数1】

、ここでは

【0107】

【数2】

である。

【0108】

（極大値が存在する場合）その左側にある極大値は、

【0109】

【数3】

としてラベル付けされ、ここでは

【0110】

【数4】

であり、（最大値が存在する場合）右側にある最大値は、

【0111】

【数5】

としてラベル付けされ、ここでは

【0112】

【数6】

である。さらに、

【0113】

【数7】

及び

【0114】

【数8】

を定義することによって、確実性は以下の通り計算される。

【0115】

【数9】

図解は図１２に示される。

【0116】

３．４予測信頼性
点ごとの予測構造のもう１つの中心的な優位点は、予測確実性を推定する際の容易さである。ニューラルネットワーク予測の不確実性を数値化する内部の方法は依然として複雑であり、制限を伴うが、このタスクでは、境界についてモデル予測を検査することによって確実／不確実を推論することはかなり簡単である。大部分の予測された確率はガウス混合の形をとり、その数量、及び高さはモデルの確実性を表す。研究では、以下の指針に基づいて予測信頼性を数値化するために発見的方法が採用された。
項目より低い予測値－＞より低い確実性
項目複数の極大値－＞より低い確実性
項目より分散した極大値－＞より低い確実性

【0117】

これらの規則から、信頼値が計算された。図１２は、図解とともに信頼水準を計算するために使用された計算の説明を提供する。信頼スコアは、陰影領域に比例する。予測値を高く（１に近く）、単峰型にするか、複数の極大値が表示される場合は閉じることを必要とする。

【0118】

信頼スコアは、モデルＡ及びモデルＢのすべての予測について計算された（図１３Ａ及び図１４Ａ）。異なる信頼カットオフ全体で、性能の変化の傾向を見ることができる。図１３Ｂ及び図１４Ｂに示すように、境界での予測誤差は、確実性が高まるにつれて着実に減少し、最も自信があるサンプルでは１秒近くまで低下する。

【0119】

異なる信頼区間での存在量の相関は、図１３Ａ～図１３Ｆに示されている。高存在量サンプルでの予測は、通常、より高い確実性を有し、人間のアノテーションとより良く一致する。上位２つのビンの予測は、０．９９９を超えるピアソンのｒを達成した。対照的に、より低い予測信頼性のサンプルはより悪い性能を生じさせ、境界の平均絶対誤差（ＭＡＥ）はより高く、存在量相関はより低い。これは、部分的には、低い存在量によって示される入力サンプルのより悪い信号対雑音比に起因する。全体的には、確実性の測定はノイズスケール及びモデル性能の優れた指標としての機能を果たした。

【0120】

この後処理ステップは、ワークフロー品質管理を実施する上で多用途性を提供し得る。現実世界の用途では、直接的な使用法は、値を下回る予測が除外される、または再評価のために人間の専門家に提示されるように閾値信頼スコアを設定することであろう。また、これは実験データの異常を検出するためにも役立つであろう。

【0121】

５．０実験
実験パラメータ
化学薬品及び試薬：ヒト血清、ジチオスレイトール（ＤＴＴ）、及びヨードアセトアミド（ＩＡＡ）は、Ｓｉｇｍａ－Ａｌｄｒｉｃｈ（Ｓｔ．Ｌｏｕｉｓ、ＭＯ）から購入した。シークエンシンググレードのトリプシンは、Ｐｒｏｍｅｇａ（Ｍａｄｉｓｏｎ、ＷＩ）から購入した。アセトニトリル（ＬＣ－ＭＳグレード）はＨｏｎｅｙｗｅｌｌ（Ｍｕｓｋｅｇｏｎ、ＭＩ）から購入した。
サンプル調製：血清サンプルは、ＤＴＴで還元し、ＩＡＡでアルキル化した後、水槽内でトリプシンを用いて３７℃で１８時間温浸した。温浸を冷ますために、インキュベーション後、各サンプルにギ酸を添加し、最終濃度を１％（ｖ／ｖ）にした。

【0122】

５．１ＬＣ－ＭＳ分析
温浸した血清サンプルは、Ａｇｉｌｅｎｔ１２９０無限ＵＨＰＬＣシステム及びＡｇｉｌｅｎｔＺＯＲＢＡＸＥｃｌｉｐｓｅＰｌｕｓＣ１８カラム（２．１ｍｍ×１５０ｍｍ内径１．８ｕｍ粒子径）を備えたＡｇｉｌｅｎｔ６４９０三連四重極質量分析計に注入した。ペプチド及びグリコペプチドの分離は、７０分のバイナリグラジエントを使用して実行された。水性移動相Ａは３％アセトニトリル、０．１％水中のギ酸（ｖ／ｖ）、及び有機移動相Ｂは９０％アセトニトリル、０．１％水中のギ酸（ｖ／ｖ）であった。流量は０．５ｍＬ／分に設定された。イオン化源としてエレクトロスプレーイオン化（ＥＳＩ）を使用し、陽イオンモードで操作した。三連四重極は、動的多重反応モニタリング（ｄＭＲＭ）モードで操作した。訓練及び試験で用いたペプチド及びグリコペプチドの遷移は、その内容全体が、すべての目的のためにその全体として参照により本明細書に組み込まれる、Ｌｉｅｔａｌ．，Ｓｉｔｅ－ＳｐｅｃｉｆｉｃＧｌｙｃｓｙｌａｔｉｏｎＱｕａｎｔｉｆｉｃａｔｉｏｎｏｆ５０ｓｅｒｕｍＧｌｙｃｏｐｒｏｔｅｉｎｓＥｎｈａｎｃｅｄｂｙＰｒｅｄｉｃｔｉｖｅＧｌｃｏｐｅｐｔｉｄｏｍｉｃｓｆｏｒＩｍｐｒｏｖｅｄＤｉｓｅａｓｅＢｉｏｍａｒｋｅｒＤｉｓｃｏｖｅｒｙ，Ａｎａｌ．Ｃｈｅｍ．２０１９，９１，５４３３－５４４５；ＤＯＩ：１０．１０２１／ａｃｓ．ａｎａｌｃｈｅｍ．９ｂ００７７６に公開されたものの選択であった。

【0123】

５．２データセットの準備
訓練セット及びバリデーションセットのピーク、ならびにテストセットのピークは、２セットのマススペクトル実験から収集された。セット１は、２０１７年後半にＵＣＤａｖｉｓのＣａｒｌｉｔｏＬｅｂｒｉｌｌａの実験室で測定されたヒト血清サンプル及び遷移から成り立っていた。一方、セット２は、２０１８年半ばにＩｎｄｉｖｕｍｅｄＧｍｂＨから購入した卵巣がん及び良性腫瘤患者からの市販の血清であった。サンプルの両方のセットは、上記に概略した実験プロトコルを受けた。ポストランＡｇｉｌｉｅｎｔ．Ｄフォーマットファイルが、バイオインフォマティクス処理用のＰｒｏｔｅｏｗｉｚａｒｄ３．０ソフトウェアスイートの中のｍｓＣｏｎｖｅｒｔを介してｍｚＭＬに変換された。

【0124】

人間のアノテーションを取得するために、すべての遷移は、１つの基準血清サンプル（プールされたシグマ血清）のためにマススペクトル専門家によってラベルを付けられ、これらのラベルが「基準」ピークを構成している。残りのサンプルについて、アノテータは、基準ピークに基づいて、及び保持時間の任意のシフトを考慮して、ＡｇｉｌｅｎｔのＭａｓｓＨｕｎｔｅｒＱｕｎａｔｉｔａｔｉｖｅＡｎａｌｙｓｉｓＢ５．０でピーク開始及びピーク終了の保持時間マークをラベル付けした。

【0125】

２つの実験から、正の存在量でラベル付けされたピークだけが選択された。また、保持時間の大きいシフト（＞０．２分）のあるサンプルも除外された。合計１０６３５５（訓練／バリデーション）及び６７６７２（試験）ピークがサニティテストに合格し、この研究で使用された。遷移ごとに、我々は、基準保持時間開始－０．２分から基準時間停止＋０．２分までの保持時間ウィンドウの中のすべての信号を収集し、所望の前駆物質及び製品ｍ／ｚの周囲で＋／－０．１の質量－電荷比ウィンドウを可能にした。信号は、質量－電荷比ウィドウに沿って合計され、抽出イオンクロマトグラム（ＸＩＣ）を生成した。シーケンシャルモデルと人間のアノテータの両方とも、ターゲット遷移の周囲でトリミングされたＸＩＣ曲線を提示された（図７Ａ、図７Ｂ、及び図９Ｂは、いくつかの例示的なＸＩＣ入力を示している）。

【0126】

「人間のアノテータとの比較」と題する上記の項で使用したテストセットは、１６１９のピークを含んでいた。すべてのピークは、整合性のために１２人のアノテータによって独立してさらにアノテートされたが、正の存在量のアノテーションだけが、遷移ごとの相対的な標準偏差及びアノテータ間の対ごとの不一致を計算するために使用された。

【0127】

５．３フィーチャ化
入力は、一定の開始／停止または長さがない、強度－保持時間平面上の点のシーケンスとして策定された。一様な表現を生成するために、フィーチャ化が各サンプル曲線で適用された。単一のサンプルの中のすべての点の保持時間が最初にサンプル曲線の頂点位置で中心に置かれ、次に－１分から１分に及ぶ、１２８の等しく離間されたガウスビンによって拡大され、時点を表す２５６の実数のベクトルＦ_ＲＴを生成した。

【0128】

質量対電荷の強度値は広範囲を有し、強度値は、２５６のガウス関数を０から５００までの範囲に適用することによって同様に離散化され、アナログ値を、強度を表す２５６の実数のベクトルＩ_ＲＴに変換した。上位閾値よりも大きい強度を有するあらゆる点は、ピークの一部と見なさなければならない旨の仮定を採用して、雑音段階または雑音－信号遷移段階に位置するそれらの点だけがフィーチャ化された。Ｆ_ＲＴ及びＩ_ＲＴを形成した後の各サンプル曲線の完全な入力Ｘ（つまり、ＲＮＮモデルに対する入力パラメータまたは状態）は、サイズＮ×３８４の行列に形成された。変数Ｎは５０～３００に及び、曲線の長さを表していた。

【0129】

モデルＢの場合、各サンプルは基準と対にされた。入力の対は、上記と同じフィーチャ化プロセスを有し、寸法Ｎ×３８４及びＮ’×３８４の２つの行列Ｘ及びＸ_ｒｅｆとして形成された。Ｎ及びＮ’は近くなければならないが、それらは必ずしも互いに等しくはない。

【0130】

サンプルのラベル付けは、ピーク開始／終了の人間のアノテーションが対応するタスクで１の値を有する同じ連続構造として策定された。安定性及びロバスト性を強化するために、さらなるラベル平滑化が適用された。つまり、人間によってアノテートされた

【0131】

【数10】

ラベル／グラウンドトゥルース開始／終了アノテーションに近いサンプル点も以下として計算された正のラベル値を有する。
ｄ_ＲＴ及びｄ_ＡＢＤは、保持時間（ＲＴ）の差及び存在量（ＡＢＤ）の差であり、σ_ＲＴ及びσ_ＡＢＤは、訓練中のそれぞれの減衰率を制御するハイパーパラメータである。平滑化の目的は、雑音の多いラベルに対するモデル適応性を可能にする、及び／または単一の点を指定しない人間のラベル付け／アノテーションを説明することである。しかしながら、ラベルに近い点の近傍は、雑音から信号への遷移も示す妥当な点を表す可能性がある。

【0132】

５．４訓練設定
再び図５Ａと図５Ｂ（モデルＡ）及び図６Ａと図６Ｂ（モデルＢ）を参照すると、モデルＡ及びモデルＢはＰｙｔｏｒｃｈに実装されていた。

【0133】

モデルＡは、隠れ状態のための１２８の特徴を有する２つのｂｉ－ＬＳＴＭ層を含み、ＬＳＴＭ出力は、次に８つのヘッド及び各ヘッドに３２の特徴を有するマルチヘッドアテンション層に適用される。ヘッドからの出力は連結され、３２のユニットを有する完全に接続された隠れ層を通過し、次に各々がアフィン層を通して２つのクラスを有する２つのタスクにマッピングする。ソフトマックスは、ピーク開始／終了の確率を生成するために各タスク及びシーケンス中の各点に適用される。モデルは、平滑化したラベルと、バッチサイズが８、及び学習率が０．００１である２０のエポックに対して８６３１１のサンプルを含む訓練サブセットに対するソフトマックス予測との間の交差エントロピー損失によって訓練される。早期停止は、バリデーションセットの性能に基づいて適用される。

【0134】

モデルＢは、それぞれサンプル及び基準を符号化するために使用される、完全に接続された層を除き、上記と同一の２セットのシーケンシャルネットワーク構造を含んでいた。重みは２つの構造の間で共有されない。サンプル－基準アテンション層は、（クエリとして）サンプル符号化、（キーとして）基準符号化、及び（値として）基準ラベルで適用され、その出力はサンプル符号化と同じ長さであり、タスク寸法で２である。これは、ピーク開始／終了確率のためのモデル予測として直接的に使用される。別の損失項は、サンプル－基準アテンションマップと、（単位行列と同様に）点をサンプル及び基準の同じ保持時間と接続する標準マッピングとの間のＫＬ発散として計算される。モデルは、同じ設定で同じ訓練セットの追加の発散項を加えた交差エントロピー損失によって訓練される。

【0135】

追加の定義
本明細書で使用する場合、「プロセッサ」は、ＳＡＳプログラムコードを実行すること、ＧＵＩのためにデータを処理すること、またはメモリから読み書きすることなどのタスクを実行するために使用される１つまたは複数のプロセッサを含むと解釈されるべきであり、汎用コンピュータを含む。

【0136】

本明細書で使用する場合、「ユーザー」は、アプリケーションをローカルで使用する、または遠隔に位置するコンピュータを使用するウェブブラウザを遠隔で使用してアプリケーションにアクセスする実際の人物を含むと解釈されるべきである。

【0137】

本明細書で使用する場合、「コンピュータ」は、ハードディスクから読み取り、ハードディスクに書き込むためのハードディスクドライブ、取り外し可能な磁気ディスクから読み取るまたは取り外し可能な磁気ディスクに書き込むための磁気ディスクドライブ、及びＣＤＲＯＭ、ＤＶＤ、または他の光学媒体などの取り外し可能な光ディスクから読み取るまたは取り外し可能な光ディスクに書き込むための光ディスクドライブを有するコンピュータを含むと解釈されるべきである。ハードディスクドライブ、磁気ディスクドライブ、及び光ディスクドライブは、それぞれハードディスクドライブインタフェース、磁気ディスクドライブインタフェース、及び光ドライブインタフェースによってシステムバスに接続される。ドライブ及びそれらの関連するコンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラム、及びコンピュータシステムのための他のデータの不揮発性（非一時的な）ストレージを提供する。

【0138】

本明細書で使用する場合、「データベース」は、集中データベースまたは分散データベースを含むと解釈されるべきであり、ＳＱＬデータベースを含む。

【0139】

本明細書で使用する場合、用語「データ」は、ファイルシステムの機械可読メモリに含まれる、もしくはデータベースで使用される任意の情報、または他の構造化データ、または一時的なメモリもしくは非一時的なメモリ内の非構造化データ表現を含むと解釈されるべきである。

【0140】

本明細書で使用する場合、「入力装置」は、キーボード、マウス、ポインタ、タッチパッド、音声認識装置、またはメモリに格納され得る電子コンテンツに修正を加える、探索する、アクセスする、または生成するための（ディスプレイ付きのまたはディスプレイなしの）コンピュータに接続された他の形の入力装置を含むと解釈されるべきである。

【0141】

本明細書で使用する場合、「ディスプレイ」は、コンピュータに接続され、ＧＵＩを使用して入力をレンダリング及び受信することが可能である、または機械実行可能コードを実行するコンピュータで実行中のアプリケーションによって生成される他の情報を表示するＬＣＤ／ＬＥＤタイプのディスプレイまたは他のタイプの表示装置である。

【0142】

本明細書で使用する場合、「モジュール」または「コンポーネント」は、ソフトウェアもしくはソースコードファイル、またはソースコードファイルに含まれているもしくは含まれておらず、非一時的メモリ媒体もしくは一時的メモリ媒体に存在する機械実行可能命令のセットを含むと解釈されるべきである。モジュールは、スタンドアロンプログラムとして存在する、または別のプログラムによって呼び出されるプログラムを表す場合がある。「コンポーネント」は、モジュールが、モジュールの１つのタスクまたは複数のタスクの部分を実行するためにコンポーネントを呼び出すという意味では「モジュール」の一部分である。

【0143】

使用され、解釈される「データリポジトリ」または「リポジトリ」は、データベース、データストア、データウェアハウス、データレイク、またはこれらのものの組み合わせを含む場合がある。

【0144】

本明細書で使用する場合、「メモリ」は、機械可読媒体、一時的なコンピュータ可読記憶媒体または非一時的なコンピュータ可読記憶媒体のどちらかを含むと解釈されるべきである。様々な実施形態では、メモリの揮発性（一時的な）部分は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、同期ダイナミックＲＡＭ、または任意の他のタイプのメモリなど、任意の適切なメモリ技術を使用して実装され得る。図示され、説明されるメモリの例は単一の機械可読媒体を指す場合があるが、メモリは、機械実行可能コードまたはデータの１つ以上のセットを格納する、単一の媒体または複数の媒体（例えば、集中データベースもしくは分散データベース、及び／または関連するキャッシュとサーバ、ならびにプロセッサレジスタ、メモリ、及び記憶装置などの種々の記憶媒体）を含むと解釈されるべきである。また、用語「機械可読媒体」は、機械による実行のために命令のセットを格納する、符号化する、または運ぶことができ、機械に本明細書の方法の任意の１つ以上を実行させる、またはそのような命令のセットによって利用されるもしくはそのような命令のセットと関連付けられるデータ構造を格納する、符号化する、または運ぶことができる任意の媒体を含むと解釈されるものとする。用語メモリは、相応して、ソリッドステートメモリならびに光媒体及び磁気媒体など、有形媒体を含むと解釈されるものとする。

【0145】

本明細書で使用する場合、「モジュール」は、他のモジュールに情報を提供する、及び他のモジュールから情報を受け取ることができる異なる機能のユニットを含むと解釈されるべきである。したがって、説明するモジュールは、通信で結合されていると見なし得る。また、モジュールは、入力装置または出力装置との通信を開始し得、リソース（例えば、データベースなど、情報の集合体）に作用することができる。モジュールは、様々な実施形態の特定の実装のために、必要に応じて、ハードウェア回路、光学部品、シングルプロセッサ回路もしくはマルチプロセッサ回路、メモリ回路、ソフトウェアプログラムモジュール及びオブジェクト、ならびにそれらの組み合わせを含み得る。用語「モジュール」は、特定の機能、操作、処理、または手順を達成するために、コード、データ、または計算オブジェクトの識別可能な部分を含む場合がある。

【0146】

いくつかの例では、質量分析法の遷移を数値化することであって、遷移が、アミノ酸配列を含むグリコペプチドまたはペプチドに特有なｍ／ｚ強度値のピークである、数値化すること、及び数値化に基づいて、サンプルが病気分類の範囲内にある、または範囲内にない確率を決定するために、モデルを使用して数値化を分析することを含む、病気を診断するための方法が、本明細書に説明される。これらの例のいくつかでは、遷移、グリコペプチド、ペプチド、アミノ酸配列、またはそれらの任意の組み合わせは、２０２０年１月３１日に出願された国際ＰＣＴ特許出願第ＰＣＴ／ＵＳ２０２０／０１６２８６１号に説明されるものであってよい。

【0147】

要約書に説明されることを含む本発明の示されている実施形態の上記説明は、網羅的になる、または本発明を開示される正確な形に限定することを意図していない。本発明の具体的な実施形態及び実施例は、例示の目的で本明細書に説明されているが、関連技術の当業者が認識するように、様々な修正が本発明の範囲内で考えられる。

【0148】

これらの修正は、上記の詳細な説明を鑑みて本発明に加えることができる。特許請求の範囲で使用する用語は、本発明を、明細書に開示する特定の実施形態に限定すると解釈されるべきではない。

【図1】