(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-26
(54)【発明の名称】クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのための方法
(51)【国際特許分類】
G01N 30/86 20060101AFI20240918BHJP
G01N 27/62 20210101ALI20240918BHJP
【FI】
G01N30/86 V
G01N27/62 D
G01N30/86 R
G01N30/86 D
G01N30/86 G
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024514703
(86)(22)【出願日】2022-09-05
(85)【翻訳文提出日】2024-03-06
(86)【国際出願番号】 EP2022074552
(87)【国際公開番号】W WO2023031447
(87)【国際公開日】2023-03-09
(32)【優先日】2021-09-06
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】591003013
【氏名又は名称】エフ. ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100173565
【氏名又は名称】末松 亮太
(72)【発明者】
【氏名】フンメル,マヌエラ
(72)【発明者】
【氏名】ラング,ロベルト
(72)【発明者】
【氏名】ライヒェルト,アンドレアス
(72)【発明者】
【氏名】タラソフ,キリル
(72)【発明者】
【氏名】バーグナー,マリウス
【テーマコード(参考)】
2G041
【Fターム(参考)】
2G041CA01
2G041DA04
2G041DA14
2G041DA18
2G041EA04
2G041HA01
2G041LA06
(57)【要約】
クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法が開示される。本方法は、以下:a)少なくとも1つの質量分析装置(112)によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを提供するステップ(110)と、b)クロマトグラフィーデータおよび/または質量スペクトルデータに少なくとも1つの訓練された機械学習モデルを適用することによってクロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップ(114)であって、訓練された機械学習モデルは少なくとも1つの回帰モデル(116)を使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップ(114)とを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法であって、以下:
a)少なくとも1つの質量分析装置(112)によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを提供するステップ(110)と、
b)前記クロマトグラフィーデータおよび/または質量スペクトルデータに少なくとも1つの訓練された機械学習モデルを適用することによって前記クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップ(114)であって、前記訓練された機械学習モデルは少なくとも1つの回帰モデル(116)を使用し、前記訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、前記訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、前記クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップ(114)と
を含む、方法。
【請求項2】
前記分析物が、試料から定量される、ビタミンD、乱用薬物、治療薬、ホルモン、および代謝産物からなる群から選択される少なくとも1つの標的物質である、請求項1に記載の方法。
【請求項3】
前記回帰モデル(116)が、ランダムフォレスト、勾配ブースティングフォレスト、部分最小二乗法、Lasso回帰、ロジスティック回帰、ベイズ回帰からなる群から選択される少なくとも1つの回帰モデルである、請求項1または2のいずれか一項に記載の方法。
【請求項4】
完全に自動で実行される、請求項1から3のいずれか一項に記載の方法。
【請求項5】
分類された前記品質は、許容可能なクロマトグラフィーデータおよび/または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび/または質量スペクトルデータとを区別するために使用され、前記方法は、前記分類された品質に基づいて、許容可能または許容不可能として前記クロマトグラフィーデータおよび/または質量スペクトルデータにフラグを割り当てることを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
少なくとも1つのユーザインターフェース(128)を介して、前記クロマトグラフィーデータおよび/または質量スペクトルデータの前記フラグに応じた少なくとも1つの情報をユーザに提供することを含む、請求項5に記載の方法。
【請求項7】
前記機械学習モデルが特徴セット(118)を使用し、前記特徴セット(118)が、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Q4比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離、および処理済データと生データから導出された場合の前述の特徴のいずれかの偏差からなる群から選択される少なくとも1つの特徴を含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
c)少なくとも1つの訓練ステップ(120)であって、前記訓練ステップ(120)が、前記訓練データセットに基づいて前記機械学習モデルを訓練することを含む、少なくとも1つの訓練ステップ(120)
を含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記訓練ステップ(120)が、異なる分析物に対する機械学習モデルの訓練を含む、請求項8に記載の方法。
【請求項10】
前記訓練データセットが、前記過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または前記半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを2つのカテゴリに手動で分類することによって生成される、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータが、修正された過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含み、前記過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータが、少なくとも1つの干渉の導入、バックグランドの導入、保持時間への少なくとも1つのシフトの導入、ピーク幅の修正、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの1つまたは複数によって修正される、請求項1から10のいずれか一項に記載の方法。
【請求項12】
請求項1から11のいずれか一項に記載の方法を実行するように構成されたテストシステム(122)であって、
- 少なくとも1つの質量分析装置(112)によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを受信するように構成された少なくとも1つの通信インターフェース(124)と、
- 前記クロマトグラフィーデータおよび/または質量スペクトルデータに少なくとも1つの訓練された機械学習モデルを適用することによって前記クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するように構成された少なくとも1つの処理装置(126)であって、前記訓練された機械学習モデルは少なくとも1つの回帰モデル(116)を使用し、前記訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、前記訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、少なくとも1つの処理装置(126)と、
- 分類された前記品質に関する情報をユーザに提供するように構成された少なくとも1つのユーザインターフェース(128)と
を備える、テストシステム(122)。
【請求項13】
請求項1から11のいずれか一項に記載の方法のステップa)からb)および任意にステップc)を実行するように構成されている、請求項12に記載のテストシステム(122)。
【請求項14】
命令を含むコンピュータプログラムであって、前記命令が、前記プログラムが請求項12または13のいずれか一項に記載のテストシステム(122)によって実行されると、前記テストシステムに、請求項1から11のいずれか一項に記載の方法のステップa)からb)および任意にステップc)を実行させる、コンピュータプログラム。
【請求項15】
命令を含むコンピュータ可読記憶媒体であって、前記命令が、請求項12または13のいずれか一項に記載のテストシステム(122)によって実行されると、前記テストシステムに、請求項1から11のいずれか一項に記載の方法のステップa)からb)および任意にステップc)を実行させる、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのための方法、テストシステム、コンピュータプログラムおよびコンピュータプログラム製品に関する。本提案の方法および装置は、質量分析の技術分野において、とりわけ液体クロマトグラフィー質量分析に使用され得る。
【背景技術】
【0002】
現在の質量分析(MS)データ処理では、通常、取得したすべてのデータの手動データレビューと、その後の、高いエラー率に起因する結果の約5~20%の手動補正が必要となる。これは、訓練されたオペレータが何百ものプロットを退屈な視覚分析をすることによって行われる。質量分析(LC-MS)またはタンデム質量分析(LC-MS/MS)と連結された液体クロマトグラフィーなどのMS計器を使用することによって得られた信頼できないデータに手動でフラグを付けすることは時間がかかる。しかしながら、自動ピーク積分によって生成された信頼できない結果にフラグを付けるための解決策はわずかしかない。提案された手法の意図は、問題のある結果に焦点を当てることによって手動レビューの量を減らすことである。しかしながら、依然としてデータのかなりの部分を修正し、場合によっては手動で再統合しなければならない。
【0003】
さらに、これらの手法のいくつかは、機械学習手法に依存している。しかし、これらの手法は実際の訓練データセットに依存するため、これらのデータセットは、特定の検査室設定に合わせて調整され、主観的に「良好」または「不良」とラベル付けされ、試料サイズが制限される。
【0004】
例えば、www.indigobio.com/ascent/には、ASCENTのピークプロセッサが記載されており、これは依然として手動検査が必要な場合に実行されることがある。ASCENTは、レビューすべきピークを通知し、ピークに焦点を当てたフラグのセットを提示する。この手法は、手動ピークレビューを減らす場合があるが、これに取って代わるものではない。同様に、Yu M,Bazydlo LAL,Bruns DE,Harrison JH Jr.,“Streamlining Quality Review of Mass Spectrometry Data in the Clinical Laboratory by Use of Machine Learning”、Arch Pathol Lab Med.2019年8月;143(8):990-998.doi:10.5858/arpa.2018-0238-OAには、標準的な機械学習アルゴリズムを使用して作成された分類モデルが、分析的に許容可能なMS結果を検証し、それによって手動レビュー要件を削減できるかどうかを判定することが記載されている。提案された技術は、手動ピークレビューを減らす場合があるが、これに取って代わるものではない。Toghi Eshghi S,Auger P,Mathews WR,“Quality assessment and interference detection in targeted mass spectrometry data using machine learning”、Clin Proteomics。2018 10月6日;15:33.doi:10.1186/s12014-018-9209-xには、アルゴリズムが教師あり機械学習を利用して、専門の分析者によって注釈が付けられたピークのセットに基づいて干渉またはクロマトグラフィー不良を伴うピークを識別することが記載されている。TargetedMSQCを使用して標的化されたプロテオミクスデータを分析すると、ピークの手動検査に費やされる時間が短縮され、干渉検出の速度と精度の両方が改善される。ここでも、提案された技術は、手動ピークレビューを減らす場合があるが、これに取って代わるものではない。
【先行技術文献】
【非特許文献】
【0005】
非特許文献1:www.indigobio.com/ascent/
非特許文献2:Yu M,Bazydlo LAL,Bruns DE,Harrison JH Jr.,“Streamlining Quality Review of Mass Spectrometry Data in the Clinical Laboratory by Use of Machine Learning”、Arch Pathol Lab Med.2019年8月;143(8):990-998.doi:10.5858/arpa.2018-0238-OA
非特許文献3:Toghi Eshghi S,Auger P,Mathews WR,“Quality assessment and interference detection in targeted mass spectrometry data using machine learning”、Clin Proteomics。2018 10月6日;15:33.doi:10.1186/s12014-018-9209-x
【発明の概要】
【発明が解決しようとする課題】
【0006】
したがって、本発明の目的は、既知の方法、装置、コンピュータプログラムおよびコンピュータプログラム製品の上述の欠点を回避する、クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのための方法、テストシステム、コンピュータプログラムおよびコンピュータプログラム製品を提供することである。特に、手動ピークレビューに取って代わることを可能にする方法および装置が提供される。
【0007】
概要
この問題は、独立請求項の特徴を有する、クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのための方法、テストシステム、コンピュータプログラムおよびコンピュータプログラム製品によって対処される。単独で実現されても、任意の組合せで実現されてもよい有利な実施形態が、従属請求項ならびに明細書全体に記載される。
【0008】
以下で使用される場合、「有する(have)」、「備える(comprise)」、もしくは「含む(include)」という用語、またはそれらの任意の文法上の変形は、非排他的な方法で使用される。したがって、これらの用語は、これらの用語によって導入される特徴の他に、この文脈で説明されるエンティティにさらなる特徴が存在しない状況と、1つまたは複数のさらなる特徴が存在する状況との両方を指す場合がある。一例として、「AはBを有する」、「AはBを備える」および「AはBを含む」という表現は、B以外に、他の要素がAに存在しない状況(すなわち、Aが単独で、かつ排他的にBからなる状況)と、B以外に、要素C、要素CおよびD、さらにはさらなる要素など、1つまたは複数のさらなる要素がエンティティAに存在する状況との両方を指す場合がある。
【0009】
さらに、特徴または要素が1回または2回以上存在してもよいことを示す「少なくとも1つ」、「1つまたは複数」という用語または同様の表現は、典型的には、それぞれの特徴または要素を導入するときに1回のみ使用されることに留意されたい。以下では、ほとんどの場合、それぞれの特徴または要素を指すとき、それぞれの特徴または要素が1回または複数回存在してもよいという事実にもかかわらず、「少なくとも1つの」または「1つまたは複数の」という表現は、繰り返されない。
【0010】
さらに、以下で使用される場合、用語「好ましくは」、「より好ましくは」、「特に」、「より特に」、「具体的に」、「より具体的に」または同様の用語は、代替の可能性を制限することなく、任意の特徴と併せて使用される。したがって、これらの用語によって導入される特徴は、任意の特徴であり、特許請求の範囲をいかなる方法によっても制約することは意図されていない。本発明は、当業者が認識するように、代替の特徴を使用することによって実行されてもよい。同様に、「本発明の実施形態において」または同様の表現によって導入される特徴は、本発明の代替の実施形態に関していかなる制限も伴わず、本発明の範囲に関していかなる制限も伴わず、そのようなやり方で導入される特徴を本発明の他の任意の特徴または任意ではない特徴と組み合わせる可能性に関していかなる制限も伴わない任意の特徴であることが意図される。
【課題を解決するための手段】
【0011】
第1の態様では、クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法が提案される。
【0012】
本明細書で使用される「コンピュータ実装方法」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも1つのコンピュータおよび/または少なくとも1つのコンピュータネットワークが関与する方法を指すことがある。コンピュータおよび/またはコンピュータネットワークは、本発明による方法の方法ステップのうちの少なくとも1つを実行するように構成された少なくとも1つのプロセッサを備え得る。好ましくは、方法ステップのそれぞれが、コンピュータおよび/またはコンピュータネットワークによって実行される。本方法は、完全に自動的に、具体的にはユーザとの対話なしに実行されてよい。本明細書で使用される「自動的に」および「自動化された」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも1つのコンピュータおよび/またはコンピュータネットワークおよび/または機械によって、特に手動動作および/またはユーザとの対話なしに完全に実施されるプロセスを指すことがある。
【0013】
本明細書で使用される「質量分析データ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも1つの質量分析装置を使用することによって得られたデータ、特に少なくとも1つの質量スペクトルを指すことがある。
【0014】
本明細書において使用される「クロマトグラフィーデータ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも1つのクロマトグラフィー装置、例えば少なくとも1つの液体クロマトグラフを使用することによって得られたデータを指すことがある。クロマトグラフィーデータは、少なくとも1つのクロマトグラムを含んでもよい。
【0015】
本明細書で使用される「質量分析」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、イオンの質量対電荷の比を決定するための分析技術を指すことがある。質量分析は、少なくとも1つの質量分析装置を使用して実行されてもよい。本明細書で使用される場合、用語「質量分析装置」は、「質量分析器」とも呼ばれるが、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、質量対電荷の比に基づいて少なくとも1つの分析物を検出するように構成された分析器を指すことがある。質量分析器は、少なくとも1つの四重極分析器であってよく、または少なくとも1つの四重極分析器を備えてもよい。本明細書で使用される場合、「四重極質量分析器」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、質量フィルタとして少なくとも1つの四重極を備える質量分析器を指すことがある。四重極質量分析器は、複数の四重極を備えてもよい。例えば、四重極質量分析器は、三連四重極質量分析器であってよい。本明細書で使用される場合、「質量フィルタ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、質量対電荷の比m/zに従って質量フィルタに注入されるイオンを選択するように構成された装置を指すことがある。質量フィルタは、2対の電極を備え得る。電極は、棒状であってもよく、特に円柱状であってもよい。理想的な場合、電極は、双曲線であってもよい。電極は、同一に設計されてもよい。電極は、共通の軸、例えばz軸に沿って平行に延在するように配置されてもよい。四重極質量分析器は、質量フィルタの2対の電極間に少なくとも1つの直流(DC)電圧および少なくとも1つの交流(AC)電圧を印加するように構成された少なくとも1つの電源回路を備えてもよい。電源回路は、各対向する電極対を同一の電位に保持するように構成されてもよい。電源回路は、特定の質量対電荷の比m/z内のイオンについてのみ安定した軌道が可能であるように、電極対の電荷の符号を周期的に変化させるように構成されてもよい。質量フィルタにおけるイオンの軌道は、マシュー微分方程式によって記述され得る。異なるm/z値のイオンを測定するために、DCおよびAC電圧を時間的に変化させて、異なるm/z値を有するイオンを質量分析装置の検出器に送るようにしてもよい。
【0016】
質量分析装置は、少なくとも1つのイオン化源をさらに備え得る。本明細書で使用される場合、「イオン源」としても示される「イオン化源」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、例えば中性ガス分子からイオンを生成するように構成された装置を指すことがある。イオン化源は、少なくとも1つの電子衝撃(EI)源または少なくとも1つの化学イオン化(CI)源などの少なくとも1つの気相イオン化源、少なくとも1つのプラズマ脱離(PDMS)源、少なくとも1つの高速原子衝撃(FAB)源、少なくとも1つの二次イオン質量分析(SIMS)源、少なくとも1つのレーザ脱離(LDMS)源、および少なくとも1つのマトリックス支援レーザ脱離(MALDI)源などの少なくとも1つの脱離イオン化源、少なくとも1つのサーモスプレー(TSP)源、少なくとも1つの大気圧化学イオン化(APCI)源、少なくとも1つのエレクトロスプレー(ESI)源、および少なくとも1つの大気圧イオン化(API)源などの少なくとも1つのスプレーイオン化源からなる群から選択される少なくとも1つの源であってもよく、またはそれを備えてもよい。
【0017】
質量分析装置は、少なくとも1つの検出器を備え得る。本明細書で使用される場合、「検出器」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、到来するイオンを検出するように構成された装置を指すことがある。検出器は、荷電粒子を検出するように構成されてもよい。検出器は、少なくとも1つの電子増倍器であってもよく、またはそれを備えてもよい。
【0018】
質量分析装置、特に質量分析装置の検出器および/または少なくとも1つの処理ユニットは、検出されたイオンの少なくとも1つの質量スペクトルを決定するように構成されてもよい。本明細書で使用される場合、「質量スペクトル」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、電荷対質量の比m/zに対する信号強度の二次元表現を指すことがあり、信号強度は、それぞれのイオンの存在量に対応する。質量スペクトルは、ピクセル化画像であってもよい。質量スペクトルのピクセルの得られた強度を決定するために、特定のm/z範囲内の検出器によって検出された信号が積分されてもよい。試料中の分析物は、処理ユニットによって同定され得る。具体的には、処理ユニットは、既知の質量を同定された質量に相関させるか、または特徴的なフラグメンテーションパターンを介して相関させるように構成されてもよい。
【0019】
質量分析装置は、液体クロマトグラフィー質量分析装置であってよく、またはそれを備えてもよい。質量分析装置は、少なくとも1つの液体クロマトグラフに接続されてよく、および/または少なくとも1つの液体クロマトグラフを備えてもよい。液体クロマトグラフは、質量分析装置のための試料調製として使用されてもよい。少なくとも1つのガスクロマトグラフなど、試料調製の他の実施形態が可能である場合がある。本明細書で使用される場合、「液体クロマトグラフィー質量分析装置」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、液体クロマトグラフィーと質量分析との組合せを指す場合がある。質量分析装置は、少なくとも1つの液体クロマトグラフを備え得る。液体クロマトグラフィー質量分析装置は、少なくとも1つの高速液体クロマトグラフィー(HPLC)装置または少なくとも1つのマイクロ液体クロマトグラフィー(μLC)装置であってもよく、あるいはこれらを備えてもよい。液体クロマトグラフィー質量分析装置は、液体クロマトグラフィー(LC)装置と、この場合は質量フィルタである質量分析(MS)装置とを備え得て、LC装置および質量フィルタは、少なくとも1つのインターフェースを介して連結される。LC装置とMS装置とを連結するインターフェースは、分子イオンを生成し、分子イオンを気相に移動させるように構成されたイオン化源を備え得る。インターフェースは、イオン化源と質量フィルタとの間に配置された少なくとも1つのイオン移動度モジュールをさらに備えてもよい。例えば、イオン移動度モジュールは、高電界非対称波形イオン移動度分光法(FAIMS)モジュールであってもよい。
【0020】
本明細書で使用される場合、「液体クロマトグラフィー(LC)装置」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、質量分析装置を用いて1つまたは複数の分析物を検出するために、試料の1つまたは複数の分析対象物を試料の他の成分から分離するように構成された分析モジュールを指すことがある。LC装置は、少なくとも1つのLCカラムを備え得る。例えば、LC装置は、シングルカラム型のLC装置であってもよく、複数のLCカラムを有するマルチカラム型のLC装置であってもよい。LCカラムは、分析対象物の分離および/または溶出および/または移動を行うために移動相が圧送される固定相を有し得る。液体クロマトグラフィー質量分析装置は、それぞれが少なくとも1つの分析対象物を含む試料の自動的な前処理および調製のための試料調製ステーションをさらに備え得る。
【0021】
本明細書で使用される場合、「品質チェック」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、限定されないが、信頼できる自動ピーク積分と信頼できない自動ピーク積分とを区別するプロセスを特に指すことがある。品質チェックは、ピーク積分プロセスが完了したかどうか、すなわち計算された公称信号が利用可能であるかどうか、データ品質が自動ピーク積分に適していたかどうか、および計算された公称信号および読み出し値が信頼できるかどうかの情報を判定することを含んでもよい。
【0022】
本明細書で使用される「品質」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、限定されないが、MS装置および/またはLC装置によって提供されるデータに対して実行される自動ピーク積分の信頼性の尺度を指すことがある。分類された品質は、許容可能なクロマトグラフィーデータおよび/または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび/または質量スペクトルデータとを区別するために使用されてもよい。具体的には、品質は、信頼性のある自動ピーク積分については良好(許容可能)として、信頼性のない自動ピーク積分については不良(許容不可能)として分類されてもよい。品質の分類は、信頼性のある自動ピーク積分と信頼性のない自動ピーク積分とを区別することを含んでもよい。品質は、ノイズレベル、バックグランド、目標ピークから分離できなかった干渉、保持時間のシフト、ピーク幅、および内部標準信号の有無などのいくつかの要因に依存することがある。
【0023】
本方法は、一例として、所与の順序で実行されてもよい以下のステップを含む。しかしながら、異なる順序も可能であることに留意されたい。さらに、方法ステップの1つまたは複数を1回または繰り返し実行することも可能である。さらに、方法ステップの2つ以上を同時にまたは適時に重複して実行することが可能である。本方法は、記載されていないさらなる方法ステップを含んでもよい。
【0024】
本方法は、以下:
a)少なくとも1つの質量分析装置によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを提供するステップと、
b)少なくとも1つの訓練された機械学習モデルをクロマトグラフィーデータおよび/または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップであって、訓練された機械学習モデルは少なくとも1つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップと
を含む。
【0025】
本明細書で使用される「処理済クロマトグラフィーデータおよび/または質量スペクトルデータ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、自動ピーク積分下で行われたクロマトグラフィーデータおよび/または質量スペクトルデータを指すことがある。自動ピーク積分に関しては、その全内容が参照により含まれる国際公開第2021/023865A1号パンフレットを参照されたい。
【0026】
本明細書で使用される場合、「提供する」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、限定されないが、特に質量分析装置を用いて少なくとも1つの測定を行い、続いてデータを処理することによって、処理済クロマトグラフィーデータおよび/または質量スペクトルデータを決定および/または生成および/または利用可能にするプロセスを指すことがある。したがって、本明細書で使用される「処理済クロマトグラフィーデータおよび/または質量スペクトルデータを提供する」という用語は、広義の用語であり、当業者にとってのその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、限定されないが、特定の受信時に、質量分析装置から得られたデータ処理済クロマトグラフィーデータおよび/または質量スペクトルデータを検索すること、ならびに/あるいは質量分析装置を用いて少なくとも1つの測定および処理を行い、それによって処理済クロマトグラフィーデータおよび/または質量スペクトルデータを決定することを指すことがある。
【0027】
本明細書で使用される「分類する」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、クロマトグラフィーデータおよび/または質量スペクトルデータを少なくとも2つのカテゴリに、例えば、信頼できる自動ピーク積分では良好または信頼できるに、および信頼できない自動ピーク積分では不良または信頼できないに分類するプロセスを指すことがあるが、これに限定されない。分類は、少なくとも1つの訓練された機械学習モデルを適用することによって実行される。したがって、本発明によれば、少なくとも1つの機械学習モデルは、ピーク積分の失敗を予測するために使用され、結果のリリースに関する完全に自動化された決定を提供することができる。したがって、提案された方法は、データの手動検査の必要性を排除することを可能にする。
【0028】
本明細書で使用される「機械学習モデル」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、機械学習、特にディープラーニングまたは他の形態の人工知能を使用して少なくとも1つの訓練データセット上で訓練可能な数学的モデルを指すことがある。本明細書で使用される「機械学習」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、特に、限定されないが、自動的にモデルを構築するために人工知能(AI)を使用する方法を指すことがある。訓練は、少なくとも1つの機械学習システムを使用して実行されることがある。本明細書で使用される「機械学習システム」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、機械学習のために、特に所与のアルゴリズムにおいて論理を実行ために構成されたプロセッサ、マイクロプロセッサ、またはコンピュータシステムなどの少なくとも1つの処理ユニットを備えるシステムまたはユニットを指すことがある。機械学習システムは、少なくとも1つの機械学習アルゴリズムを実施するおよび/または実行するように構成されてもよく、機械学習アルゴリズムは、訓練された機械学習モデルを構築するように構成される。機械学習システムは、質量分析装置の一部であってもよく、および/またはクラウドなどの外部プロセッサによって実行されてもよい。
【0029】
訓練された機械学習モデルは、少なくとも1つの回帰モデルを使用する。本明細書で使用される「回帰モデル」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、データセット内の目標変数と独立変数との間の関係を分析するように構成された予測モデルを指すことがある。クロマトグラフィーデータの目標変数は、期待される結果値からの連続的な偏差であってもよい。質量スペクトルデータの場合、目標変数は、結果が有効であるか否かに関する二分情報であってもよい。回帰モデルは、以下からなる群、すなわち、例えば、Breiman L.,Random forests,Machine Learning,2001,45(1):5-32に記載されているようなランダムフォレスト、Friedman,J.H(2001)に記載されているような勾配ブースティングフォレスト、例えば、「A Gradient Boosting Machine」、The Annals of Statistics,29(5):1189-1232に記載されているようなGreedy関数近似、例えば、Wold,H.(1985)、Partial least squares,in Kotz,Samuel、Johnson,Norman L.(編)、Encyclopedia of statistical sciences、6.New York:Wiley581~591ページに記載されているような部分最小二乗法、例えば、Tibshirani,R.(1996)、Regression Shrinkage and Selection via the lasso,Journal of the Royal Statistical Society.Series B(methodological).Wiley.58(1):267-88に記載されているようなLasso回帰、例えば、Hosmer,D.、Lemeshow,S.:Applied logistic regression,Wiley,New York 2000に記載されているようなロジスティック回帰、または例えば、Box,G.E.P.,Tiao,G.C.(1973)、Bayesian Inference in Statistical Analysis.Wileyに記載されているようなベイズ回帰から選択される少なくとも1つの回帰モデルであってもよい。例えば、回帰モデルは、勾配ブースティングフォレストまたはランダムフォレストから選択される。回帰モデルは、例えば、勾配ブースティングフォレストである。回帰モデルは、例えば、ランダムフォレストである。
【0030】
訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである。例えば、分析物は、試料から定量される、ビタミンD、乱用薬物、治療薬、ホルモンおよび代謝産物からなる群から選択される少なくとも1つの標的物質である。本明細書で使用される用語「試料」は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、生物学的試料および/または内部標準試料などの任意の検査試料を指すことがある。試料は、1つまたは複数の分析対象物を含んでもよい。例えば、検査試料は、血液、血清、血漿、唾液、眼水晶体液、脳脊髄液、汗、尿、乳、腹水、粘液、滑液、腹腔液、羊水、組織、細胞などを含む生理学的流体からなる群から選択されてよい。試料は、それぞれの供給源から得られたものとして直接使用されてもよく、あるいは前処理および/または試料調製ワークフローに供されてもよい。例えば、試料は、内部標準の添加および/または別の溶液での希釈および/または試薬との混合などによって前処理されてもよい。例えば、分析対象物は、一般に、ビタミンD、乱用薬物、治療薬、ホルモン、および代謝産物であってよい。内部標準試料は、既知の濃度を有する少なくとも1つの内部標準物質を含む試料であってもよい。試料に関するさらなる詳細については、例えば、その全開示が参照により本明細書に含まれる欧州特許出願公開第3425369号明細書を参照されたい。他の分析対象物も可能である。
【0031】
機械学習モデルは、特徴セットを使用し得る。データおよびピーク積分品質に有益であると考えられる特徴のセットには、ピーク非対称性またはイオン比、異なる遷移間のパラメータの比、例えば分析物定量子と内部標準定量子との間の保持時間比、ピークフィットの品質を評価するための特徴、例えば残差比またはピークフィットの不確実性、ならびにノイズ、バックグランドおよびピーク形状を記述するさらなる設計特徴などの標準的なMS品質パラメータが含まれてもよい。特徴セットには、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Q4比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離(Earth Mover’s Distance)、および処理済データ、すなわち積分されたピークおよび生データから導出されたときに言及された特徴のいずれかの偏差、例えば、フィッティングされたピークと生信号との保持時間の差からなる群から選択される少なくとも1つの特徴が含まれてもよい。ピークバックグランドは、ピーク間隔における推定バックグランドの強度を指してもよい。相対バックグランドは、ピークバックグランドとピーク高さとの比を指してもよい。イオン比は、分析物の面積または内部標準(ISTD)定量子の面積に対する分析物またはISTD定性子の面積を指してもよい。Q4比は、Q4=(分析物定量子の面積/分析物定性子の面積)/(ISTD定量子の面積/ISTD定性子の面積)によって与えられ得る。保持時間比は、RT_analyte_qualifier/RT_analyte_quantifier、RT_IStd_qualifier/RT_ISTD_quantifierまたはRT_analyte_quantifier/RT_ISTD_quantifierのうちの1つまたは複数を指してもよく、RT_analyte_qualifierは、分析物定性子の保持時間であり、RT_analyte_quantifierは、分析物定量子の保持時間であり、RT_ISTD_qualifierは、ISTD定性子の保持時間であり、RT_ISTD_quantifierは、ISTD定量子の保持時間である。ピーク非対称性は、USP40ガイドライン(本明細書ではUSP40とも呼ばれる)に従って定義されてもよく、http://pharmacopeia.cn/v29240/usp29nf24s0_c621_viewall.html、特に
図2を参照されたい。非対称比は、asymmetry_analyte_qualifier/asymmetry_analyte_quantifier、asymmetry_ISTD_qualifier/asymmetry_ISTD_quantifier、またはasymmetry_analyte_quantifier/asymmetry_ISTD_quantifierのうちの1つまたは複数を指してもよく、asymmetry_analyte_qualifierは、分析物定性子のピークの非対称性であり、asymmetry_ISTD_qualifierは、ISTD定性子のピークの非対称性であり、asymmetry_ISTD_qualifierは、ISTD定量子のピークの非対称性である。ピーク幅比は、width_analyte_qualifier/width_analyte_quantifier、width_ISTD_qualifier/width_ISTD_quantifier、またはwidth_analyte_quantifier/width_ISTD_quantifierのうちの1つまたは複数を指してもよく、width_analyte_qualifierは分析物定性子のピーク幅であり、width_analyte_quantifierは分析物定量子のピーク幅であり、width_ISTD_qualifierはISTD定性子のピーク幅であり、width_ISTD_quantifierはISTD定量子のピーク幅である。信号対ノイズ比は、USP40に従って定義されてもよい。単一サイクル比中央値は、分析物定量子の強度とISTD定量子の強度との比の中央値を指してもよい。単一サイクルイオン比中央値は、分析物定量子の強度と分析物定性子の強度との比、あるいはISTD定量子の強度とISTD定性子の強度との比の1つまたは複数の中央値を指してもよい。ピークフィット平均二乗誤差は、平均[(平滑化された強度/フィッティングされた強度の面積/面積)2]によって与えられてもよい。フィット強度相関は、cor(平滑化強度、フィット強度)またはcor(前処理強度、フィット強度)の1つまたは複数を指してもよい。アースムーバ距離に関しては、例えばhttps://en.wikipedia.org/wiki/Earth_mover%27s_distanceを参照されたい。特徴の豊富なセットは、クロマトグラフィーデータおよび/または質量スペクトルデータから導出され得て、回帰モデルを構築するために使用され得る。モデルの訓練は、特徴ランキングを決定することを含んでもよい。モデルの訓練は、特徴を選択することを含んでもよい。
【0032】
特徴セットの特徴は、ピーク積分の失敗と同等物としての面積比偏差を予測するための機械学習モデルにおいて組み合わされてもよい。回帰モデル、例えばランダムフォレストおよび勾配ブースティングは、評価時間および必要なディスクスペースに関して妥当なモデル複雑度で良好な性能を示すことが分かった。アルゴリズムのタイプ、特徴の数、ツリーの数およびサイズなどのモデルパラメータは、再サンプリング技術によって調整されてもよい。
【0033】
ランダムフォレストの場合、ランダムフォレストは特徴を増やすことで性能が向上することが分かった。勾配ブースティングフォレストの場合、勾配ブースティングフォレストは特徴を減らすことで性能が向上することが分かった。特徴選択は、多くのデータ分割および/またはモデルにわたって「安定した」上位の特徴が選択されるように実行されてもよい。本方法は、新たに作成された特徴の評価を含む特徴エンジニアリングを含んでもよい。例えば、勾配ブースティングフォレストの場合、最小のリーフサイズ50および400のツリーで50個の特徴が使用されてもよい。
【0034】
ステップb)における回帰モデル結果は、既知の真値からの面積比のパーセント偏差であってもよい。分類のために、少なくとも1つのしきい値が、分類のためのバイナリ結果を生成するために使用されてもよい。回帰モデルの結果がしきい値より大きい場合、データは不良と分類されてもよく、そうでない場合、回帰モデルの結果がしきい値を下回る場合は、良好と分類されてもよい。例えば、しきい値は10%であってもよい。
【0035】
本方法は、少なくとも1つの訓練ステップであるステップc)を含んでもよい。訓練ステップは、訓練データセットに基づいて機械学習モデルを訓練することを含んでもよい。
【0036】
本明細書で使用される「訓練」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、限定されないが、訓練された機械学習モデルを構築するプロセス、特にモデルのパラメータ、特に重みを決定するプロセスを指すことがある。訓練は、モデルのパラメータを決定および/または更新することを含んでもよい。訓練された機械学習モデルは、少なくとも部分的にデータ駆動型であってもよい。本明細書で使用される場合、「少なくとも部分的にデータ駆動型モデル」という用語は広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、モデルがデータ駆動型モデル部分と、物理化学の法則などに基づく他のモデル部分とを含むという事実を指すことがある。訓練は、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータに対して実行されてもよい。訓練は、例えばMSおよび/またはLC-MS装置の操作中などに、追加のクロマトグラフィーデータおよび/または質量スペクトルデータを取得した後に、訓練済みモデルを再訓練することを含んでもよい。
【0037】
訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練される。訓練データセットは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを2つのカテゴリに手動で分類することによって生成されてもよい。
【0038】
訓練ステップは、異なる分析物に対する機械学習モデルの訓練を含んでもよい。訓練ステップは、複数の異なるアッセイに対するアッセイ開発中に実行されてもよく、異なるアッセイに対する訓練された機械学習モデルは、少なくとも1つのデータバンクに格納される。データバンクは、データ処理構成ファイルを含んでもよく、計器上でのピーク積分結果の自動フラグ付けを可能にする。本方法は、ステップb)の前に実行される少なくとも1つの選択ステップを含んでもよく、選択ステップにおいて、1つの訓練された機械学習モデルは、提供されたクロマトグラフィーデータおよび/または質量スペクトルデータを得るために使用された分析物に対して訓練された訓練済み機械学習モデルから選択される。
【0039】
訓練された機械学習モデルは、同様のクロマトグラフィーを有する異なる分析物に適している可能性がある。訓練ステップは、異なるクロマトグラフィータイプに対する機械学習モデルの訓練を含んでもよい。異なるクロマトグラフィータイプについては、例えば、ピークフィットが適用され得る標準的なクロマトグラフィー、境界検出を適用する必要がある非標準的なクロマトグラフィー、および分析物と正確に同じ保持時間を有し、分析物とISTDとの間に保持時間のオフセットが存在する内部標準が利用できない場合を考慮して、別個のモデルが使用されてもよい。
【0040】
本明細書で使用される「過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも1つの質量分析装置を使用することによって得られた測定結果を指すことがある。過去のデータは、実際のデータであってもよい。過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、いくつかの分析物を測定し、異なるシナリオを有する異なる計器からのデータを含んでもよい。過去の訓練データセットの例は、11週間の期間中に一方のシステムからの2つの計器および他方のシステムからの3つの計器で測定された、5つの異なる分析物を含む約500個のクロマトグラフィー測定値を含んでもよい。
【0041】
訓練データセットは、半合成データセットとも呼ばれる半合成のクロマトグラフィーデータおよび/または質量スペクトルデータを含む。本明細書で使用される「半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータに基づいてシミュレートされたクロマトグラフィーデータおよび/もしくは質量スペクトルデータを指すことがある。半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、実際の測定されたクロマトグラフィーデータおよび/もしくは質量スペクトルデータに定義された外乱を適用ならびに/またはシミュレートすることによって生成されてもよい。半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、修正された過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含んでもよい。過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、少なくとも1つの干渉の導入、バックグランドの導入、保持時間への少なくとも1つのシフトの導入、ピーク幅の変更、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの1つまたは複数によって修正されてもよい。半合成シミュレーション手法は、シミュレーション研究において真実を知る利点を、現実世界の特性を有するデータセットの提供と組み合わせたものである。モデル訓練のためにシミュレートされたデータセットを使用することは、測定の真の状態を客観的に定義できること、まれなケースおよび「グレーゾーン」を調査できること、試料サイズの点でスケーラブルであることなど、実際のデータに比べていくつかの利点を有する。可能な限り実際のデータに類似させるために、半合成手法が採用され、実際の測定値は制御された方法で修正される。
【0042】
半合成データセットは、以下のように生成されてもよい。ピークが明瞭で積分結果が信頼できる(手動でキュレートされた)実際のクロマトグラムが選択され、その後、ピーク積分にとって困難な状況に似せるように修正されてもよい。半合成データセットの生成は、以下の状況、すなわち、干渉、バックグランド、保持時間のシフト、ピーク幅、および内部標準信号の欠落のうちの1つまたは複数を考慮することを含んでもよい。例えば、干渉を考慮するために、実際の内部標準ピークのフィット強度が分析物ピークの隣の生の強度に追加される。ピーク間の距離によって、様々な分解能を調べることができる。人工的な干渉ピークの高さは、対象とするピークと干渉との間の様々な相対的なピーク高さをシミュレートするために拡大または縮小され得る。例えば、バックグランドを考慮するために、変化するバックグランド信号をシミュレートするために、最初にステップ関数が生成され、ステップの高さは均一分布から引き出される。最大ステップ高さによって、シミュレートされたバックグランドの大きさが制御され得る。次に、バックグランドフィットがステップ関数に適用され、得られた曲線が実際のクロマトグラム強度に追加される。バックグランドフィットにおける曲率パラメータは、人工バックグランドの曲率を操作することを可能にする。例えば、保持時間のシフトを考慮するために、実際の信号を時間スケールに沿ってシフトさせることによって、保持時間のばらつきを容易にシミュレートすることができる。例えば、ピーク幅を考慮するために、フィッティング関数の各パラメータを変更することによってピークフィットが再スケーリングされる。ピーク下の面積を維持するために、強度を再スケーリングする。次いで、元のデータから再スケーリングされたノイズが新しいピークフィットに追加される。例えば、内部標準信号の欠落を考慮するために、内部標準のクロマトグラムを二重ブランク試料のクロマトグラムに置き換える。
【0043】
シミュレートされたデータ、すなわち半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、実際のデータ、すなわち過去の合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータよりもはるかに高い割合の不良ケースおよびはるかに高い割合のボーダラインケースを有する可能性がある。訓練のために実際のデータの一部を含めると、モデルの性能を向上させることができる。実際のデータの他の部分は、訓練されたモデルをテストするために使用されてもよい。実際のデータは、手動でラベル付けされた真のデータセットであってもよい。
【0044】
本方法は、少なくとも1つのテストステップを含んでもよく、テストステップは、訓練されたモデルをテストすることを含む。テストステップは、少なくとも1つのテストデータセットに対して訓練されたモデルをテストすることを含んでもよい。テストステップは、訓練されたモデルの性能特性、例えば精度、偽陽性率および偽陰性率を得ることを含んでもよい。予測性能を評価するために、モデルのテストは、シミュレートされたデータを使用して、および/または実際のデータ、特に手動でラベル付けされた真のデータセットに対して実行されてもよい。テストデータセットは、シミュレートされたデータおよび/または実際のデータを含んでもよい。
【0045】
例えば、訓練データセットは、7062個の測定値を含むなど、第1の半合成データセットを含んでもよく、テストデータセットは、3638個の測定値など、第2の半合成データセットを含んでもよい。
【0046】
例えば、訓練データセットは、半合成データセットと、「良好」とラベル付けされた実際のデータの一部との両方を含んでもよい。訓練データセットは、「良好」とラベル付けされた実際のデータの別の部分と、「不良」とラベル付けされた実際のデータとを含んでもよい。
【0047】
標準的なピーク形状を有する分析物(例えば、Testosterone)の例示的な機械学習モデルを半合成データセットで訓練した。機械学習モデルは、異なる計器での10回の試料実行から取得された241個の手動でラベル付けされた実際の測定値で訓練された。121個は手動で不良としてラベル付けされ、120個は手動で良好とラベル付けされた。訓練された機械学習モデルを使用したピーク積分の品質チェックは、120個の「良好」測定値すべてを正しく分類した。121個の「不良」測定値のうちの5個は、訓練された機械学習モデルによって「良好」と分類された。精度は0.9793、偽陽性率は0.0000、偽陰性率は0.0413と決定された。
【0048】
次いで、訓練された機械学習モデルは、ステップb)で実行されるように、新しい測定値の品質状態を予測するために展開されてもよい。異なる分析物および/または異なるクロマトグラフィータイプに対する訓練された機械学習モデルは、データ処理構成ファイルに転送されてもよい。データ処理構成ファイルは、質量分析装置の少なくとも1つのデータ記憶装置に記憶されてもよい。これにより、質量分析装置でのピーク積分結果の自動フラグ付けを可能にすることがある。
【0049】
本方法は、分類された品質に基づいて、許容可能または許容不可能としてクロマトグラフィーデータおよび/または質量スペクトルデータにフラグを割り当てることを含んでもよい。導入された「妨害要因」によってデータがどの程度影響を受けるかの尺度は、作成された半合成データについて計算された面積比結果の、元の実際のデータセットの面積比からのパーセント偏差であってもよい。面積比偏差は、回帰モデルの連続的な結果を表す。次いで、例えばる面積比偏差が10%を超える測定値にフラグを付けることによって、エラー処理のためのゴールドスタンダードを定義することができる。バイナリフラグは、精度および偽陽性/偽陰性率に関して予測性能を評価する際の真の状態として機能する。本方法は、少なくとも1つのユーザインターフェースを介して、クロマトグラフィーデータおよび/または質量スペクトルデータのフラグに応じて少なくとも1つの情報をユーザに提供することを含んでもよい。本明細書において使用される「ユーザインターフェース」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、限定されないが、データまたはコマンドの1つまたは複数を交換するなどのために、一方向または双方向に情報を交換する目的などのために、その環境と相互作用するように構成された要素またはユニットを指すことがある。例えば、ユーザインターフェースは、ユーザと情報を共有し、ユーザによって情報を受信するように構成されてもよい。ユーザインターフェースは、ディスプレイなどのユーザと視覚的に相互作用する機能、またはユーザと音響的に相互作用する機能であってもよい。ユーザインターフェースは、一例として、グラフィーカルユーザインターフェース、無線および/または有線のデータインターフェースなどのデータインターフェースのうちの1つまたは複数を含んでもよい。
【0050】
さらなる態様では、本発明による方法を実行するように構成されたテストシステムが提案される。テストシステムの特徴の定義およびテストシステムの任意の特徴については、上記で開示された方法または以下でさらに詳細に開示される方法の実施形態の1つまたは複数が参照されてもよい。テストシステムは、質量分析装置の一部であってもよい。
【0051】
テストシステムは、
- 少なくとも1つの質量分析装置によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを受信するように構成された少なくとも1つの通信インターフェースと、
- 少なくとも1つの訓練された機械学習モデルをクロマトグラフィーデータおよび/または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するように構成された少なくとも1つの処理装置であって、訓練された機械学習モデルは少なくとも1つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、訓練された機械学習モデルは分析物固有の訓練された機械学習モデルである、少なくとも1つの処理装置と、
- 分類された品質に関する情報をユーザに提供するように構成された少なくとも1つのユーザインターフェースと
を備える。
【0052】
テストシステムは、本発明による方法のステップa)~b)および任意にステップc)を実行するように構成されてもよい。
【0053】
本明細書で使用される「通信インターフェース」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定はされないが、情報を転送するように構成された境界を形成するアイテムまたは要素を指すことがある。特に、通信インターフェースは、例えば別の装置へと情報を送信または出力するなどの目的で、例えばコンピュータなどの計算装置から情報を転送するように構成されてよい。これに加え、あるいは代えて、通信インターフェースは、例えば情報を受信するなどのために、計算装置、例えばコンピュータに情報を転送するように構成されてよい。通信インターフェースは、具体的には、情報を転送または交換するための手段を提供してもよい。特に、通信インターフェースは、例えば、ブルートゥース(登録商標)、NFC、誘導結合などのデータ転送接続を提供してもよい。例として、通信インターフェースは、ネットワークまたはインターネットポート、USBポート、およびディスクドライブのうちの1つまたは複数を備える少なくとも1つのポートであってよく、あるいはそのような少なくとも1つのポートを備えてよい。通信インターフェースは、少なくとも1つのウェブインターフェースであってよい。
【0054】
本明細書でさらに開示および提案されるのは、プログラムが、コンピュータまたはコンピュータネットワーク、特にテストシステム上で実行されると、本明細書に包含される実施形態の1つまたは複数において本発明による方法を実行するためのコンピュータ実行可能命令を含むコンピュータプログラムである。具体的には、コンピュータプログラムは、コンピュータ可読データキャリアおよび/またはコンピュータ可読記憶媒体に記憶されてもよい。
【0055】
本明細書で使用される場合、「コンピュータ可読データキャリア」および「コンピュータ可読記憶媒体」という用語は、具体的には、コンピュータ実行可能命令を記憶したハードウェア記憶媒体などの非一過性データ記憶手段を指してもよい。コンピュータ可読データキャリアまたは記憶媒体は、具体的には、ランダムアクセスメモリ(RAM)および/または読み出し専用メモリ(ROM)などの記憶媒体であってもよく、またはそれを含んでもよい。
【0056】
したがって、具体的には、上記の方法ステップa)~b)および任意にステップc)の1つ、2つ以上またはさらにはすべては、コンピュータまたはコンピュータネットワークを使用することによって、好ましくはコンピュータプログラムを使用することによって実行されてもよい。
【0057】
本明細書でさらに開示および提案されるのは、プログラムが、コンピュータまたはコンピュータネットワーク、特にテストシステム上で実行されると、本明細書に包含される実施形態の1つまたは複数において本発明による方法を実行するためのプログラムコード手段を有するコンピュータプログラム製品である。具体的には、プログラムコード手段は、コンピュータ可読データキャリアおよび/またはコンピュータ可読記憶媒体に記憶されてもよい。
【0058】
本明細書においてさらに開示および提案されるのは、コンピュータまたはコンピュータネットワークのワーキングメモリまたはメインメモリなどのコンピュータまたはコンピュータネットワークにロードした後、本明細書に開示される実施形態のうちの1つまたは複数による方法を実行し得るデータ構造が記憶されたデータキャリアである。
【0059】
本明細書でさらに開示および提案されるのは、プログラムが、コンピュータまたはコンピュータネットワーク、特にテストシステム上で実行されると、本明細書で開示される実施形態のうちの1つまたは複数による方法を実行するために、機械可読キャリアに記憶されたプログラムコード手段を有するコンピュータプログラム製品である。本明細書で使用される場合、コンピュータプログラム製品は、取引可能な製品としてのプログラムを指す。製品は、一般に、紙のフォーマットなどの任意のフォーマットで、またはコンピュータ可読データキャリア上および/もしくはコンピュータ可読記憶媒体上に存在してもよい。具体的には、コンピュータプログラム製品は、データネットワークを介して配信されてもよい。
【0060】
最後に、本明細書において開示および提案されるのは、本明細書に開示される実施形態のうちの1つまたは複数による方法を実行するための、コンピュータシステムまたはコンピュータネットワークによって読み取り可能な命令を含む変調データ信号である。
【0061】
本発明のコンピュータ実施態様を参照すると、本明細書に開示される実施形態のうちの1つまたは複数による方法のうちの1つまたは複数の方法ステップあるいはすべての方法ステップは、コンピュータまたはコンピュータネットワークを使用することによって実行されてもよい。したがって、一般に、データの提供および/または操作を含む方法ステップのいずれかは、コンピュータまたはコンピュータネットワークを使用することによって実行されてもよい。一般に、これらの方法ステップは、試料の提供および/または実際の測定を実行する特定の態様などの手動作業を必要とする方法ステップを通常除いて、任意の方法ステップを含んでもよい。
【0062】
具体的には、本明細書では、
- 少なくとも1つのプロセッサを備え、プロセッサが本明細書に記載の実施形態のうちの1つによる方法を実行するように構成されているコンピュータまたはコンピュータネットワークと、
- データ構造がコンピュータ上で実行されている間に、本明細書に記載の実施形態のうちの1つによる方法を実行するように適合されたコンピュータロード可能データ構造と、
- プログラムがコンピュータ上で実行されている間に、本明細書に記載の実施形態のうちの1つによる方法を実行するように適合されたコンピュータプログラムと、
- コンピュータプログラムがコンピュータまたはコンピュータネットワーク上で実行されている間に、本明細書に記載の実施形態のうちの1つによる方法を実行するためのプログラム手段を含むコンピュータプログラムと、
- 前述の実施形態によるプログラム手段を含むコンピュータプログラムであって、プログラム手段がコンピュータ可読記憶媒体に記憶されている、コンピュータプログラムと、
- 記憶媒体であって、データ構造が記憶媒体に記憶され、データ構造が、コンピュータまたはコンピュータネットワークの主記憶装置および/または作業記憶装置にロードされた後に、本明細書に記載の実施形態のうちの1つによる方法を実行するように適合されている、記憶媒体と、
- プログラムコード手段を有するコンピュータプログラム製品であって、プログラムコード手段がコンピュータまたはコンピュータネットワーク上で実行される場合、本明細書に記載の実施形態のうちの1つによる方法を実行するために、プログラムコード手段が記憶媒体に記憶され得るか、または記憶媒体に記憶される、コンピュータプログラム製品と
が、さらに開示される。
【0063】
要約すると、さらなる実施形態の可能性を排除することなく、以下の実施形態が想定されてもよい。
【0064】
実施形態1 クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法であって、以下:
a)少なくとも1つの質量分析装置によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを提供するステップと、
b)少なくとも1つの訓練された機械学習モデルをクロマトグラフィーデータおよび/または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップであって、訓練された機械学習モデルは少なくとも1つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップと
を含む、方法。
【0065】
実施形態2 分析物が、試料から定量される、ビタミンD、乱用薬物、治療薬、ホルモン、および代謝産物からなる群から選択される少なくとも1つの標的物質である、実施形態1に記載の方法。
【0066】
実施形態3 回帰モデルが、ランダムフォレスト、勾配ブースティングフォレスト、部分最小二乗法、Lasso回帰、ロジスティック回帰、ベイズ回帰からなる群から選択される少なくとも1つの回帰モデルである、実施形態1または2のいずれか一項に記載の方法。
【0067】
実施形態4 回帰モデルが、勾配ブースティングフォレストまたはランダムフォレストの群から選択される少なくとも1つの回帰モデルである、実施形態1~3のいずれか一項に記載の方法。
【0068】
実施形態5 回帰モデルが勾配ブースティングフォレストである、実施形態1~4のいずれか一項に記載の方法。
【0069】
実施形態6 回帰モデルがランダムフォレストである、実施形態1~5のいずれか一項に記載の方法。
【0070】
実施形態7 完全に自動的に実行される、実施形態1~6のいずれか一項に記載の方法。
【0071】
実施形態8 分類された品質が、許容可能なクロマトグラフィーデータおよび/または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび/または質量スペクトルデータとを区別するために使用され、分類された品質に基づいて許容可能または許容不可能としてクロマトグラフィーデータおよび/または質量スペクトルデータにフラグを割り当てるステップを含む、実施形態1~7のいずれか一項に記載の方法。
【0072】
実施形態9 クロマトグラフィーデータおよび/または質量スペクトルデータのフラグに応じた少なくとも1つの情報を、少なくとも1つのユーザインターフェースを介してユーザに提供するステップを含む、実施形態1~8に記載の方法。
【0073】
実施形態10 機械学習モデルが特徴セットを使用し、特徴セットが、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Q4比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離、および処理済データと生データから導出された場合の上述の特徴のいずれかの偏差からなる群から選択される少なくとも1つの特徴を含む、実施形態1~9のいずれか一項に記載の方法。
【0074】
実施形態11 c)少なくとも1つの訓練ステップであって、訓練ステップが訓練データセットに基づいて機械学習モデルを訓練することを含む、少なくとも1つの訓練ステップ
を含む、実施形態1~10のいずれか一項に記載の方法。
【0075】
実施形態12 訓練ステップが、異なる分析物に対する機械学習モデルを訓練することを含む、実施形態11に記載の方法。
【0076】
実施形態13 訓練ステップが、複数の異なるアッセイに対するアッセイ開発中に実行され、異なるアッセイに対する訓練された機械学習モデルが、少なくとも1つのデータバンクに記憶される、実施形態12に記載の方法。
【0077】
実施形態14 ステップb)の前に実行される少なくとも1つの選択ステップを含み、選択ステップにおいて、1つの訓練された機械学習モデルが、提供されたクロマトグラフィーデータおよび/または質量スペクトルデータを得るために使用された分析物に対して訓練された訓練済み機械学習モデルから選択される、実施形態12または13のいずれか一項に記載の方法。
【0078】
実施形態15 訓練データセットが、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを2つのカテゴリに手動で分類することによって生成される、実施形態1~14のいずれか一項に記載の方法。
【0079】
実施形態16 半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータが、修正された過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含み、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータが、少なくとも1つの干渉の導入、バックグランドの導入、保持時間への少なくとも1つのシフトの導入、ピーク幅の修正、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの1つまたは複数によって修正される、実施形態1~15のいずれか一項に記載の方法。
【0080】
実施形態17 実施形態1~16のいずれか一項に記載の方法を実行するように構成されたテストシステムであって、
- 少なくとも1つの質量分析装置によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを受信するように構成された少なくとも1つの通信インターフェースと、
- 少なくとも1つの訓練された機械学習モデルをクロマトグラフィーデータおよび/または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するように構成された少なくとも1つの処理装置であって、訓練された機械学習モデルは少なくとも1つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、訓練された機械学習モデルは分析物固有の訓練された機械学習モデルである、少なくとも1つの処理装置と、
- 分類された品質に関する情報をユーザに提供するように構成された少なくとも1つのユーザインターフェースと
を備える、テストシステム。
【0081】
実施形態18 実施形態1~16のいずれか一項に記載の方法のステップa)~b)および任意にステップc)を実行するように構成されている、実施形態17に記載のテストシステム。
【0082】
実施形態19 命令を含むコンピュータプログラムであって、該命令が、プログラムが実施形態17または18に記載のテストシステムによって実行されると、テストシステムに、実施形態1~16のいずれか一項に記載の方法のステップa)~b)および任意にステップc)を実行させる、コンピュータプログラム。
【0083】
実施形態20 命令を含むコンピュータ可読記憶媒体であって、該命令が、実施形態17または18に記載のテストシステムによって実行されると、テストシステムに、実施形態1~16のいずれか一項に記載の方法のステップa)~b)および任意にステップc)を実行させる、コンピュータ可読記憶媒体。
【図面の簡単な説明】
【0084】
さらなる任意の特徴および実施形態は、好ましくは従属請求項と併せて、実施形態の以下の説明においてより詳細に開示される。本説明では、それぞれの任意の特徴は、当業者が理解するように、単独で、ならびに任意の実現可能な組合せで実現されてもよい。本発明の範囲は、好ましい実施形態によって制約されない。実施形態は、図に概略的に示されている。実施形態において、これらの図における同一の参照番号は、同一のまたは機能的に同等の要素を指す。
【
図1】本発明によるクロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのための方法の一実施形態を示す図である。
【
図2】訓練された機械学習モデルの開発および展開の概略図である。
【
図3a】シミュレーションシナリオを示す図である。
【
図3b】シミュレーションシナリオを示す図である。
【
図3c】シミュレーションシナリオを示す図である。
【
図3d】シミュレーションシナリオを示す図である。
【
図3e】シミュレーションシナリオを示す図である。
【
図4】元の面積比からのパーセント偏差による回帰モデル結果の定義を示す図である。
【
図5】本発明によるテストシステムを備える質量分析装置の一実施形態を示す図である。
【発明を実施するための形態】
【0085】
図1はクロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法のフロー図である。本方法は、以下:
a)少なくとも1つの質量分析装置112によって得られた処理済クロマトグラフデータおよび/または質量スペクトルデータを提供するステップ(参照番号110で示す)と、
b)少なくとも1つの訓練された機械学習モデルをクロマトグラフィーデータおよび/または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップ(参照番号114で示す)であって、訓練された機械学習モデルは、少なくとも1つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップと
を含む。
【0086】
質量スペクトルデータは、少なくとも1つの質量分析装置112を使用することによって得られたデータ、特に少なくとも1つの質量スペクトルであってもよい。クロマトグラフィーデータは、少なくとも1つのクロマトグラムであってもよい。
【0087】
品質チェックは、信頼できる自動ピーク積分と信頼できない自動ピーク積分とを区別するプロセスであってもよい。品質チェックは、生データ削減プロセスが完了したかどうか、データ品質が自動ピーク積分に適していたかどうか、および計算された公称信号および読み出し値が信頼できるかどうかの情報を判定することを含んでもよい。品質は、MS装置および/またはLC装置112によって提供されるデータに対して実行される自動ピーク積分の信頼性の尺度であってもよい。分類された品質は、許容可能なクロマトグラフィーデータおよび/または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび/または質量スペクトルデータとを区別するために使用されてもよい。具体的には、品質は、信頼性のある自動ピーク積分については良好(許容可能)として、信頼性のない自動ピーク積分については不良(許容不可能)として分類されてもよい。品質の分類は、信頼性のある自動ピーク積分と信頼性のない自動ピーク積分とを区別することを含んでもよい。品質は、ノイズレベル、バックグランド、干渉、保持時間のシフト、ピーク幅、および内部標準信号の有無などのいくつかの要因に依存し得る。
【0088】
処理済クロマトグラフィーデータおよび/または質量スペクトルデータは、自動ピーク積分下で行われたクロマトグラフィーデータおよび/または質量スペクトルデータであってもよい。自動ピーク積分に関しては、その全内容が参照により含まれる国際公開第2021/023865A1号パンフレットを参照されたい。
【0089】
ステップa)110における提供は、特に質量分析装置を用いて少なくとも1回の測定を行い、その後データを処理することによって、処理済クロマトグラフィーデータおよび/または質量スペクトルデータを決定および/または生成および/または利用可能にすることを含んでもよい。処理済クロマトグラフィーデータおよび/または質量スペクトルデータを提供することは、特定の受信時に、質量分析装置112から得られたデータ処理済クロマトグラフィーデータおよび/または質量スペクトルデータを検索すること、ならびに/あるいは質量分析装置112を用いて少なくとも1つの測定および処理を実行し、それによって処理済クロマトグラフィーデータおよび/または質量スペクトルデータを決定することを含んでもよい。
【0090】
ステップb)114)における分類は、クロマトグラフィーデータおよび/または質量スペクトルデータを、信頼できる自動ピーク積分に対しては良好または信頼できる、信頼できない自動ピーク積分に対しては不良または信頼できないなど、少なくとも2つのカテゴリに分類することを含んでもよい。分類は、少なくとも1つの訓練された機械学習モデルを適用することによって実行される。したがって、本発明によれば、少なくとも1つの機械学習モデルは、ピーク積分の失敗を予測するために使用され、結果のリリースに関する完全に自動化された決定を提供することができる。したがって、提案された方法は、データの手動検査の必要性を排除することを可能にする。
【0091】
訓練された機械学習モデルは、少なくとも1つの回帰モデル116を使用する。回帰モデル116は、データセット内の目標変数と独立変数との関係を分析するように構成された予測モデルであってもよい。クロマトグラフィーデータの目標変数は、期待される結果値からの連続的な偏差であってもよい。質量スペクトルデータの場合、目標変数は、結果が有効であるか否かに関する二分情報であってもよい。回帰モデル116は、以下からなる群、すなわち、例えば、Breiman L.,Random forests,Machine Learning,2001,45(1):5-32に記載されているようなランダムフォレスト、Friedman,J.H(2001)に記載されているような勾配ブースティングフォレスト、例えば、「A Gradient Boosting Machine」、The Annals of Statistics,29(5):1189-1232に記載されているようなGreedy関数近似、例えば、Wold,H.(1985)、Partial least squares,in Kotz,Samuel、Johnson,Norman L.(編)、Encyclopedia of statistical sciences、6.New York:Wiley581~591ページに記載されているような部分最小二乗法、例えば、Tibshirani,R.(1996)、Regression Shrinkage and Selection via the lasso,Journal of the Royal Statistical Society.Series B(methodological).Wiley.58(1):267-88に記載されているようなLasso回帰、例えば、Hosmer,D.、Lemeshow,S.:Applied logistic regression,Wiley,New York 2000に記載されているようなロジスティック回帰、または例えば、Box,G.E.P.,Tiao,G.C.(1973)、Bayesian Inference in Statistical Analysis.Wileyに記載されているようなベイズ回帰から選択される少なくとも1つの回帰モデルであってもよい。例えば、回帰モデル116は、勾配ブースティングフォレストまたはランダムフォレストから選択される。例えば、回帰モデル116は、勾配ブースティングフォレストである。例えば、回帰モデル116は、ランダムフォレストである。
【0092】
訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである。例えば、分析物は、試料から定量される、ビタミンD、乱用薬物、治療薬、ホルモンおよび代謝産物からなる群から選択される少なくとも1つの標的物質である。試料は、生物学的試料および/または内部標準試料などの任意の検査試料であってもよい。試料は、1つまたは複数の分析対象物を含んでもよい。例えば、検査試料は、血液、血清、血漿、唾液、眼水晶体液、脳脊髄液、汗、尿、乳、腹水、粘液、滑液、腹腔液、羊水、組織、細胞などを含む生理学的流体からなる群から選択されてよい。試料は、それぞれの供給源から得られたものとして直接使用されてもよく、あるいは前処理および/または試料調製ワークフローに供されてもよい。例えば、試料は、内部標準の添加および/または別の溶液での希釈および/または試薬との混合などによって前処理されてもよい。例えば、分析対象物は、一般に、ビタミンD、乱用薬物、治療薬、ホルモン、および代謝産物であってよい。内部標準試料は、既知の濃度を有する少なくとも1つの内部標準物質を含む試料であってもよい。試料に関するさらなる詳細については、例えば、その全開示が参照により本明細書に含まれる欧州特許出願公開第3425369A1号明細書を参照されたい。他の分析対象物も可能である。
【0093】
機械学習モデルは、特徴セット118を使用し得る。データおよびピーク積分品質に有益であると考えられる特徴セット118には、ピーク非対称性またはイオン比、異なる遷移間のパラメータの比、例えば分析物定量子と内部標準定量子との間の保持時間比、ピークフィットの品質を評価するための特徴、例えば残差比またはピークフィットの不確実性、ならびにノイズ、バックグランドおよびピーク形状を記述するさらなる設計特徴などの標準的なMS品質パラメータが含まれてもよい。特徴セット118には、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Q4比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離、および処理済データ、すなわち積分されたピークおよび生データから導出されたときに言及された特徴のいずれかの偏差、例えば、フィッティングされたピークと生信号との保持時間の差からなる群から選択される少なくとも1つの特徴が含まれてもよい。ピークバックグランドは、ピーク間隔における推定バックグランドの強度を指してもよい。相対バックグランドは、ピークバックグランドとピーク高さとの比を指してもよい。イオン比は、分析物の面積または内部標準(ISTD)定量子の面積に対する分析物またはISTD定性子の面積を指してもよい。Q4比は、Q4=(分析物定量子の面積/分析物定性子の面積)/(ISTD定量子の面積/ISTD定性子の面積)によって与えられ得る。保持時間比は、RT_analyte_qualifier/RT_analyte_quantifier、RT_ISTD_qualifier/RT_ISTD_quantifierまたはRT_analyte_quantifier/RT_ISTD_quantifierのうちの1つまたは複数を指してもよく、RT_analyte_qualifierは、分析物定性子の保持時間であり、RT_analyte_quantifierは、分析物定量子の保持時間であり、RT_ISTD_qualifierは、ISTD定性子の保持時間であり、RT_ISTD_quantifierは、ISTD定量子の保持時間である。ピーク非対称性は、USP40に従って定義されてもよい非対称比は、asymmetry_analyte_qualifier/asymmetry_analyte_quantifier、asymmetry_ISTD_qualifier/asymmetry_ISTD_quantifier、またはasymmetry_analyte_quantifier/asymmetry_ISTD_quantifierのうちの1つまたは複数を指すことがあり、asymmetry_analyte_qualifierは、分析物定性子のピークの非対称性であり、asymmetry_ISTD_qualifierは、ISTD定性子のピークの非対称性であり、asymmetry_ISTD_qualifierは、ISTD定量子のピークの非対称性である。ピーク幅比は、width_analyte_qualifier/width_analyte_quantifier、width_ISTD_qualifier/width_ISTD_quantifier、またはwidth_analyte_quantifier/width_ISTD_quantifierのうちの1つまたは複数を指してもよく、width_analyte_qualifierは分析物定性子のピーク幅であり、width_analyte_quantifierは分析物定量子のピーク幅であり、width_ISTD_qualifierはISTD定性子のピーク幅であり、width_ISTD_quantifierはISTD定量子のピーク幅である。信号対ノイズ比は、USP40に従って定義されてもよい。単一サイクル比中央値は、分析物定量子の強度とISTD定量子の強度との比の中央値を指してもよい。単一サイクルイオン比中央値は、分析物定量子の強度と分析物定性子の強度との比、あるいはISTD定量子の強度とISTD定性子の強度との比の1つまたは複数の中央値を指してもよい。ピークフィット平均二乗誤差は、平均[(平滑化された強度/フィッティングされた強度の面積/面積)2]によって与えられてもよい。フィット強度相関は、cor(平滑化強度、フィット強度)またはcor(前処理強度、フィット強度)の1つまたは複数を指してもよい。アースムーバ距離に関しては、例えばhttps://en.wikipedia.org/wiki/Earth_mover%27s_distanceを参照されたい。特徴の豊富なセットは、クロマトグラフィーデータおよび/または質量スペクトルデータから導出され得て、回帰モデルを構築するために使用され得る。モデルの訓練は、特徴ランキングを決定することを含んでもよい。モデルの訓練は、特徴を選択することを含んでもよい。
【0094】
図2は、訓練された機械学習モデル、この場合は回帰モデル116の開発および展開の概略図を示す。特徴セット118の特徴は、ピーク積分の失敗の同等物としての面積比偏差を予測するための回帰モデル116において組み合わされてもよい。次いで、訓練された回帰モデルは、ステップb)114で実行されるように、新しい測定値の品質状態を予測するために展開されてもよい。
図2では、左から右に、特徴セット118、例示的な回帰モデル116、ならびに例示的な処理済クロマトグラフィーデータおよび/または質量スペクトルデータに対する訓練された回帰モデル116の適用が示されている。右上のプロットでは、処理済クロマトグラフィーデータおよび/または質量スペクトルデータは、ステップb)において良好と分類され、右下のプロットでは不良と分類される。
【0095】
回帰モデル116、例えばランダムフォレストおよび勾配ブースティングは、評価時間および必要なディスクスペースに関して妥当なモデル複雑度で良好な性能を示すことが分かった。アルゴリズムのタイプ、特徴の数、ツリーの数およびサイズなどのモデルパラメータは、再サンプリング技術によって調整されてもよい。
【0096】
ランダムフォレストの場合、ランダムフォレストは特徴を増やすことで性能が向上することが分かった。勾配ブースティングフォレストの場合、勾配ブースティングフォレストは特徴を減らすことで性能が向上することが分かった。特徴選択は、多くのデータ分割および/またはモデルにわたって「安定した」上位の特徴が選択されるように実行されてもよい。本方法は、新たに作成された特徴の評価を含む特徴エンジニアリングを含んでもよい。例えば、勾配ブースティングフォレスト場合、最小のリーフサイズ50および400のツリーで50個の特徴が使用されてもよい。
【0097】
本方法は、少なくとも1つの訓練ステップであるステップc)120を含んでもよい。訓練ステップは、訓練データセットに基づいて機械学習モデルを訓練することを含んでもよい。
【0098】
訓練は、訓練された機械学習モデルを構築するプロセス、特にモデルのパラメータ、特に重みを決定するプロセスを含んでもよい。訓練は、モデルのパラメータを決定および/または更新することを含んでもよい。訓練は、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータに対して実行されてもよい。訓練は、例えばMSおよび/またはLC-MS装置の操作中などに、追加のクロマトグラフィーデータおよび/または質量スペクトルデータを得た後に、訓練されたモデルを再訓練することを含んでもよい。
【0099】
訓練ステップ120は、異なる分析物に対する機械学習モデルの訓練を含んでもよい。訓練ステップ120は、複数の異なるアッセイに対するアッセイ開発中に実行されてもよく、異なるアッセイに対する訓練された機械学習モデルは、少なくとも1つのデータバンクに記憶される。データバンクは、データ処理構成ファイルを含んでもよく、計器上でのピーク積分結果の自動フラグ付けを可能にする。本方法は、例えばステップc)の一部として、ステップb)の前に実行される少なくとも1つの選択ステップを含んでもよく、選択ステップにおいて、1つの訓練された機械学習モデルは、提供されたクロマトグラフィーデータおよび/または質量スペクトルデータを得るために使用された分析物に対して訓練された訓練済み機械学習モデルから選択される。
【0100】
訓練された機械学習モデルは、同様のクロマトグラフィーを有する異なる分析物に適している可能性がある。訓練ステップは、異なるクロマトグラフィータイプに対する機械学習モデルの訓練を含んでもよい。異なるクロマトグラフィータイプについては、例えば、ピークフィットが適用され得る標準的なクロマトグラフィー、境界検出を適用する必要がある非標準的なクロマトグラフィー、および分析物と正確に同じ保持時間を有し、分析物とISTDとの間に保持時間のオフセットが存在する内部標準が利用できない場合を考慮して、別個のモデルが使用されてもよい。
【0101】
過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、少なくとも1つの質量分析装置を使用することによって得られた測定結果を含んでもよい。過去のデータは、実際のデータであってもよい。過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、いくつかの分析物を測定し、異なるシナリオを有する異なる計器からのデータを含んでもよい。過去の訓練データセットの例は、11週間の期間中に一方のシステムからの2つの計器および他方のシステムからの3つの計器で測定された、5つの異なる分析物を含む約500個のクロマトグラフィー測定値を含んでもよい。
【0102】
訓練データセットは、半合成データセットとも呼ばれる半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む。半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータに基づいてシミュレートされてもよい。半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、実際の測定されたクロマトグラフィーデータおよび/もしくは質量スペクトルデータに定義された外乱を適用ならびに/またはシミュレートすることによって生成されてもよい。半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、修正された過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含んでもよい。過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、少なくとも1つの干渉の導入、バックグランドの導入、保持時間への少なくとも1つのシフトの導入、ピーク幅の変更、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの1つまたは複数によって修正されてもよい。半合成シミュレーション手法は、シミュレーション研究において真実を知る利点を、現実世界の特性を有するデータセットの提供と組み合わせたものである。モデル訓練のためにシミュレートされたデータセットを使用することは、測定の真の状態を客観的に定義できること、まれなケースおよび「グレーゾーン」を調査できること、試料サイズの点でスケーラブルであることなど、実際のデータに比べていくつかの利点を有する。可能な限り実際のデータに類似させるために、半合成手法が採用され、実際の測定値は制御された方法で修正される。
【0103】
図3、a~eは、異なるシミュレーションシナリオを示す。上段は実際のデータを示し、下段は実際のデータ+導入された外乱を示す。
図3aでは、遷移、位置、分解能、および相対的な高さを変えることによって、少なくとも1つの干渉が導入された。
図3bでは、シフトを変えることによって保持時間のシフトが導入された。
図3cでは、高さおよび曲率を変えることによってバックグランドが導入された。
図3dでは、スケールファクタを変えることによってピーク幅を変化させた。
図3eでは、欠落したISTD信号がシミュレートされた。
【0104】
半合成データセットは、以下のように生成されてもよい。ピークが明瞭で積分結果が信頼できる(手動でキュレートされた)実際のクロマトグラムが選択され、その後、ピーク積分にとって困難な状況に似せるように修正されてもよい。半合成データセットの生成は、以下の状況、すなわち、干渉、バックグランド、保持時間のシフト、ピーク幅、および内部標準信号の欠落のうちの1つまたは複数を考慮することを含んでもよい。例えば、干渉を考慮するために、実際の内部標準ピークのフィット強度が分析物ピークの隣の生の強度に追加される。ピーク間の距離によって、様々な分解能を調べることができる。人工的な干渉ピークの高さは、目的のピークと干渉との間の異なる相対的なピーク高さをシミュレートするために拡大または縮小され得る。例えば、バックグランドを考慮するために、変化するバックグランド信号をシミュレートするために、最初にステップ関数が生成され、ステップの高さは均一分布から引き出される。最大ステップ高さによって、シミュレートされたバックグランドの大きさが制御され得る。次に、バックグランドフィットがステップ関数に適用され、得られた曲線が実際のクロマトグラム強度に追加される。バックグランドフィットにおける曲率パラメータは、人工バックグランドの曲率を操作することを可能にする。例えば、保持時間のシフトを考慮するために、実際の信号を時間スケールに沿ってシフトさせることによって、保持時間のばらつきを容易にシミュレートすることができる。例えば、ピーク幅を考慮するために、フィッティング関数の各パラメータを変更することによってピークフィットが再スケーリングされる。ピーク下の面積を維持するために、強度を再スケーリングする。次いで、元のデータから再スケーリングされたノイズが新しいピークフィットに追加される。例えば、内部標準信号の欠落を考慮するために、内部標準のクロマトグラムを二重ブランク試料のクロマトグラムに置き換える。
【0105】
シミュレートされたデータ、すなわちクロマトグラフィーデータおよび/もしくは質量スペクトルデータは、実際のデータ、すなわち過去の合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータよりもはるかに高い割合の不良ケースおよびはるかに高い割合のボーダラインケースを有することがある。訓練のために実際のデータの一部を含めると、モデルの性能を向上させることができる。実際のデータの他の部分は、訓練されたモデルをテストするために使用されてもよい。実際のデータは、手動でラベル付けされた真のデータセットであってもよい。
【0106】
本方法は、少なくとも1つのテストステップを含んでもよく、テストステップは、訓練されたモデルをテストすることを含む。テストステップは、少なくとも1つのテストデータセットに対して訓練されたモデルをテストすることを含んでもよい。テストステップは、訓練されたモデルの性能特性、例えば精度、偽陽性率および偽陰性率を得ることを含んでもよい。予測性能を評価するために、モデルのテストは、シミュレートされたデータを使用して、および/または実際のデータ、特に手動でラベル付けされた真のデータセットに対して実行されてもよい。テストデータセットは、シミュレートされたデータおよび/または実際のデータを含んでもよい。
【0107】
標準的なピーク形状を有する分析物(例えば、Testosterone)の例示的な機械学習モデルを半合成データセットで訓練した。機械学習モデルは、異なる計器での10回の試料実行から取得された241個の手動でラベル付けされた実際の測定値で訓練された。121個は手動で不良とラベル付けされ、120個は手動で良好とラベル付けされた。訓練された機械学習モデルを使用したピーク積分の品質チェックは、120個の「良好な」測定値すべてを正しく分類した。121個の「不良」測定値のうちの5個は、訓練された機械学習モデルによって「良好」と分類された。精度は0.9793、偽陽性率は0.0000、偽陰性率は0.0413と決定された。
【0108】
導入された「妨害要因」によってデータがどの程度影響を受けるかの尺度は、作成された半合成データについて計算された面積比結果の、元の実際のデータセットの面積比からのパーセント偏差であってもよい。面積比偏差は、回帰モデルの連続的な結果を表す。次いで、例えば10%を超える面積比偏差のしきい値を考慮して測定値にフラグを付けることによって、エラー処理のためのゴールドスタンダードを定義することができる。バイナリフラグは、精度および偽陽性/偽陰性率に関して予測性能を評価する際の真の状態として機能する。
図4は、元の面積比からのパーセント偏差による回帰モデル結果の定義を示す。
図4の上段は、A~Eで示される5つの積分ピークを示す。
図4の下側のプロットは、A~Eについて、予測に対する連続的な結果としてのパーセント面積比偏差を示す。さらに、>10%のしきい値が示されている。
【0109】
次いで、訓練された機械学習モデルは、ステップb)で実行されるように、新しい測定値の品質状態を予測するために展開されてもよい。異なる分析物および/または異なるクロマトグラフィータイプに対する訓練された機械学習モデルは、データ処理構成ファイルに転送されてもよい。データ処理構成ファイルは、質量分析装置112の少なくとも1つのデータ記憶部に記憶されてもよい。これにより、質量分析装置112のピーク積分結果の自動フラグ付けを可能にすることがある。
【0110】
図5は、本発明によるテストシステム122を備える質量分析装置112の一実施形態を示す。テストシステム122は、
- 少なくとも1つの質量分析装置112によって得られた、処理済クロマトグラフィーデータおよび/または質量スペクトルデータを受信するように構成された少なくとも1つの通信インターフェース124と、
- 少なくとも1つの訓練された機械学習モデルをクロマトグラフィーデータおよび/または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するように構成された少なくとも1つの処理装置126であって、訓練された機械学習モデルは少なくとも1つの回帰モデル116を使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、訓練された機械学習モデルは分析物固有の訓練された機械学習モデルである、少なくとも1つの処理装置126と、
- 分類された品質に関する情報をユーザに提供するように構成された少なくとも1つのユーザインターフェース128と
を備える。
【0111】
図6は、モデル最適化の一例を示す。この表は、異なるモデル設定に対してデータ再サンプリングによって導出された曲線下面積(AUC)値を含み、左ブロックに勾配ブースティングフォレスト(GBR)、右ブロックにランダムフォレスト回帰(RFR)、列に推定器の数(「num_est」=ツリーの数)、次元の数(「d」=特徴の数)および行に最小リーフサイズ(「msl」=ツリーのサイズ)がある。より暗い色およびより大きい値は、より良好なモデル性能を示す。
【符号の説明】
【0112】
110 ステップa)
112 質量分析装置
114 ステップb)
116 回帰モデル
118 特徴セット
120 ステップc)
122 テストシステム
124 通信インターフェース
126 処理装置
128 ユーザインターフェース
【手続補正書】
【提出日】2024-03-06
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
クロマトグラフィーデータおよび/または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法であって、
a)少なくとも1つの質量分析装置(112)によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを供給するステップ(110)と、
b)前記クロマトグラフィーデータおよび/または質量スペクトルデータに対し少なくとも1つの訓練された機械学習モデルを適用することによって、前記クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するステップ(114)であって、
前記訓練された機械学習モデルは少なくとも1つの回帰モデル(116)を使用し、前記訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含んだ少なくとも1つの訓練データセットで訓練され、前記訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、ステップ(114)と、
を含む、方法。
【請求項2】
前記分析物が、試料から定量される、ビタミンD、乱用薬物、治療薬、ホルモン、および代謝産物からなる群から選択される少なくとも1つの標的物質である、請求項1に記載の方法。
【請求項3】
前記回帰モデル(116)が、ランダムフォレスト、勾配ブースティングフォレスト、部分最小二乗法、Lasso回帰、ロジスティック回帰、ベイズ回帰からなる群から選択される少なくとも1つの回帰モデルである、請求項1に記載の方法。
【請求項4】
完全に自動で実行される、請求項1に記載の方法。
【請求項5】
分類された前記品質は、許容可能なクロマトグラフィーデータおよび/または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび/または質量スペクトルデータとの間を区別するために使用され、
当該方法が、前記分類された品質に基づいて、許容可能または許容不可能なものとして、前記クロマトグラフィーデータおよび/または質量スペクトルデータにフラグを割り当てるステップを含む、請求項1に記載の方法。
【請求項6】
少なくとも1つのユーザインターフェース(128)を介して、前記クロマトグラフィーデータおよび/または質量スペクトルデータの前記フラグに応じた少なくとも1つの情報を、ユーザに提供するステップを含む、請求項5に記載の方法。
【請求項7】
前記機械学習モデルが特徴セット(118)を使用し、前記特徴セット(118)が、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Q4比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離、および処理済データと生データから導出された場合の前述の特徴のいずれかの偏差からなる群から選択される少なくとも1つの特徴を含む、請求項1に記載の方法。
【請求項8】
c)少なくとも1つの訓練ステップ(120)であって、前記訓練データセットに基づいて前記機械学習モデルを訓練することを含む、少なくとも1つの訓練ステップ(120)
を含む、請求項1に記載の方法。
【請求項9】
前記訓練ステップ(120)が、異なる分析物に対する機械学習モデルの訓練を含む、請求項8に記載の方法。
【請求項10】
前記訓練データセットは、前記過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または前記半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータが、2つのカテゴリに手動で分類されることによって生成される、請求項1に記載の方法。
【請求項11】
前記半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータが、修正された過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含み、
前記過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータが、少なくとも1つの干渉の導入、バックグランドの導入、保持時間への少なくとも1つのシフトの導入、ピーク幅の修正、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの1つまたは複数によって修正される、請求項1に記載の方法。
【請求項12】
請求項1から11のいずれか一項に記載の方法を実行するように構成されたテストシステム(122)であって、
- 少なくとも1つの質量分析装置(112)によって得られた処理済クロマトグラフィーデータおよび/または質量スペクトルデータを受信するように構成された少なくとも1つの通信インターフェース(124)と、
- 前記クロマトグラフィーデータおよび/または質量スペクトルデータに対し少なくとも1つの訓練された機械学習モデルを適用することによって、前記クロマトグラフィーデータおよび/または質量スペクトルデータの品質を分類するように構成された少なくとも1つの処理装置(126)であって、
前記訓練された機械学習モデルが少なくとも1つの回帰モデル(116)を使用し、
前記訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび/もしくは質量スペクトルデータ、ならびに/または半合成のクロマトグラフィーデータおよび/もしくは質量スペクトルデータを含む少なくとも1つの訓練データセットで訓練され、前記訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、少なくとも1つの処理装置(126)と、
- 分類された前記品質に関する情報をユーザに提供するように構成された少なくとも1つのユーザインターフェース(128)と、
を備える、テストシステム(122)。
【請求項13】
前記ステップa)からb)および任意に前記ステップc)を実行するように構成されている、請求項12に記載のテストシステム(122)。
【請求項14】
命令を含むコンピュータプログラムであって、前記命令が、前記プログラムが請求項12に記載のテストシステム(122)によって実行されると、前記テストシステムに、前記ステップa)からb)および任意に前記ステップc)を実行させる、コンピュータプログラム。
【請求項15】
命令を含むコンピュータ可読記憶媒体であって、前記命令が、請求項12に記載のテストシステム(122)によって実行されると、前記テストシステムに、前記ステップa)からb)および任意に前記ステップc)を実行させる、コンピュータ可読記憶媒体。
【国際調査報告】