特表2024-534939 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エフ．ホフマン−ラ　ロシュ　アーゲーの特許一覧

特表2024-534939クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのための方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3a
3b
3c
3d
3e
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-26

(54)【発明の名称】クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのための方法

(51)【国際特許分類】

G01N 30/86 20060101AFI20240918BHJP

G01N 27/62 20210101ALI20240918BHJP

【ＦＩ】

G01N30/86 V

G01N27/62 D

G01N30/86 R

G01N30/86 D

G01N30/86 G

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024514703

(86)(22)【出願日】2022-09-05

(85)【翻訳文提出日】2024-03-06

(86)【国際出願番号】 EP2022074552

(87)【国際公開番号】W WO2023031447

(87)【国際公開日】2023-03-09

(31)【優先権主張番号】21195136.3

(32)【優先日】2021-09-06

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】591003013

【氏名又は名称】エフ．ホフマン－ラロシュアーゲー

【氏名又は名称原語表記】Ｆ．ＨＯＦＦＭＡＮＮ－ＬＡＲＯＣＨＥＡＫＴＩＥＮＧＥＳＥＬＬＳＣＨＡＦＴ

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100173565

【弁理士】

【氏名又は名称】末松亮太

(72)【発明者】

【氏名】フンメル，マヌエラ

(72)【発明者】

【氏名】ラング，ロベルト

(72)【発明者】

【氏名】ライヒェルト，アンドレアス

(72)【発明者】

【氏名】タラソフ，キリル

(72)【発明者】

【氏名】バーグナー，マリウス

【テーマコード（参考）】

2G041

【Ｆターム（参考）】

2G041CA01

2G041DA04

2G041DA14

2G041DA18

2G041EA04

2G041HA01

2G041LA06

(57)【要約】

クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法が開示される。本方法は、以下：ａ）少なくとも１つの質量分析装置（１１２）によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを提供するステップ（１１０）と、ｂ）クロマトグラフィーデータおよび／または質量スペクトルデータに少なくとも１つの訓練された機械学習モデルを適用することによってクロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップ（１１４）であって、訓練された機械学習モデルは少なくとも１つの回帰モデル（１１６）を使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップ（１１４）とを含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法であって、以下：
ａ）少なくとも１つの質量分析装置（１１２）によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを提供するステップ（１１０）と、
ｂ）前記クロマトグラフィーデータおよび／または質量スペクトルデータに少なくとも１つの訓練された機械学習モデルを適用することによって前記クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップ（１１４）であって、前記訓練された機械学習モデルは少なくとも１つの回帰モデル（１１６）を使用し、前記訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、前記訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、前記クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップ（１１４）と
を含む、方法。

【請求項2】

前記分析物が、試料から定量される、ビタミンＤ、乱用薬物、治療薬、ホルモン、および代謝産物からなる群から選択される少なくとも１つの標的物質である、請求項１に記載の方法。

【請求項3】

前記回帰モデル（１１６）が、ランダムフォレスト、勾配ブースティングフォレスト、部分最小二乗法、Ｌａｓｓｏ回帰、ロジスティック回帰、ベイズ回帰からなる群から選択される少なくとも１つの回帰モデルである、請求項１または２のいずれか一項に記載の方法。

【請求項4】

完全に自動で実行される、請求項１から３のいずれか一項に記載の方法。

【請求項5】

分類された前記品質は、許容可能なクロマトグラフィーデータおよび／または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび／または質量スペクトルデータとを区別するために使用され、前記方法は、前記分類された品質に基づいて、許容可能または許容不可能として前記クロマトグラフィーデータおよび／または質量スペクトルデータにフラグを割り当てることを含む、請求項１から４のいずれか一項に記載の方法。

【請求項6】

少なくとも１つのユーザインターフェース（１２８）を介して、前記クロマトグラフィーデータおよび／または質量スペクトルデータの前記フラグに応じた少なくとも１つの情報をユーザに提供することを含む、請求項５に記載の方法。

【請求項7】

前記機械学習モデルが特徴セット（１１８）を使用し、前記特徴セット（１１８）が、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Ｑ４比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離、および処理済データと生データから導出された場合の前述の特徴のいずれかの偏差からなる群から選択される少なくとも１つの特徴を含む、請求項１から６のいずれか一項に記載の方法。

【請求項8】

ｃ）少なくとも１つの訓練ステップ（１２０）であって、前記訓練ステップ（１２０）が、前記訓練データセットに基づいて前記機械学習モデルを訓練することを含む、少なくとも１つの訓練ステップ（１２０）
を含む、請求項１から７のいずれか一項に記載の方法。

【請求項9】

前記訓練ステップ（１２０）が、異なる分析物に対する機械学習モデルの訓練を含む、請求項８に記載の方法。

【請求項10】

前記訓練データセットが、前記過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または前記半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを２つのカテゴリに手動で分類することによって生成される、請求項１から９のいずれか一項に記載の方法。

【請求項11】

前記半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータが、修正された過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含み、前記過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータが、少なくとも１つの干渉の導入、バックグランドの導入、保持時間への少なくとも１つのシフトの導入、ピーク幅の修正、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの１つまたは複数によって修正される、請求項１から１０のいずれか一項に記載の方法。

【請求項12】

請求項１から１１のいずれか一項に記載の方法を実行するように構成されたテストシステム（１２２）であって、
－少なくとも１つの質量分析装置（１１２）によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを受信するように構成された少なくとも１つの通信インターフェース（１２４）と、
－前記クロマトグラフィーデータおよび／または質量スペクトルデータに少なくとも１つの訓練された機械学習モデルを適用することによって前記クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するように構成された少なくとも１つの処理装置（１２６）であって、前記訓練された機械学習モデルは少なくとも１つの回帰モデル（１１６）を使用し、前記訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、前記訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、少なくとも１つの処理装置（１２６）と、
－分類された前記品質に関する情報をユーザに提供するように構成された少なくとも１つのユーザインターフェース（１２８）と
を備える、テストシステム（１２２）。

【請求項13】

請求項１から１１のいずれか一項に記載の方法のステップａ）からｂ）および任意にステップｃ）を実行するように構成されている、請求項１２に記載のテストシステム（１２２）。

【請求項14】

命令を含むコンピュータプログラムであって、前記命令が、前記プログラムが請求項１２または１３のいずれか一項に記載のテストシステム（１２２）によって実行されると、前記テストシステムに、請求項１から１１のいずれか一項に記載の方法のステップａ）からｂ）および任意にステップｃ）を実行させる、コンピュータプログラム。

【請求項15】

命令を含むコンピュータ可読記憶媒体であって、前記命令が、請求項１２または１３のいずれか一項に記載のテストシステム（１２２）によって実行されると、前記テストシステムに、請求項１から１１のいずれか一項に記載の方法のステップａ）からｂ）および任意にステップｃ）を実行させる、コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのための方法、テストシステム、コンピュータプログラムおよびコンピュータプログラム製品に関する。本提案の方法および装置は、質量分析の技術分野において、とりわけ液体クロマトグラフィー質量分析に使用され得る。

【背景技術】

【0002】

現在の質量分析（ＭＳ）データ処理では、通常、取得したすべてのデータの手動データレビューと、その後の、高いエラー率に起因する結果の約５～２０％の手動補正が必要となる。これは、訓練されたオペレータが何百ものプロットを退屈な視覚分析をすることによって行われる。質量分析（ＬＣ－ＭＳ）またはタンデム質量分析（ＬＣ－ＭＳ／ＭＳ）と連結された液体クロマトグラフィーなどのＭＳ計器を使用することによって得られた信頼できないデータに手動でフラグを付けすることは時間がかかる。しかしながら、自動ピーク積分によって生成された信頼できない結果にフラグを付けるための解決策はわずかしかない。提案された手法の意図は、問題のある結果に焦点を当てることによって手動レビューの量を減らすことである。しかしながら、依然としてデータのかなりの部分を修正し、場合によっては手動で再統合しなければならない。

【0003】

さらに、これらの手法のいくつかは、機械学習手法に依存している。しかし、これらの手法は実際の訓練データセットに依存するため、これらのデータセットは、特定の検査室設定に合わせて調整され、主観的に「良好」または「不良」とラベル付けされ、試料サイズが制限される。

【0004】

例えば、ｗｗｗ．ｉｎｄｉｇｏｂｉｏ．ｃｏｍ／ａｓｃｅｎｔ／には、ＡＳＣＥＮＴのピークプロセッサが記載されており、これは依然として手動検査が必要な場合に実行されることがある。ＡＳＣＥＮＴは、レビューすべきピークを通知し、ピークに焦点を当てたフラグのセットを提示する。この手法は、手動ピークレビューを減らす場合があるが、これに取って代わるものではない。同様に、ＹｕＭ，ＢａｚｙｄｌｏＬＡＬ，ＢｒｕｎｓＤＥ，ＨａｒｒｉｓｏｎＪＨＪｒ．，“ＳｔｒｅａｍｌｉｎｉｎｇＱｕａｌｉｔｙＲｅｖｉｅｗｏｆＭａｓｓＳｐｅｃｔｒｏｍｅｔｒｙＤａｔａｉｎｔｈｅＣｌｉｎｉｃａｌＬａｂｏｒａｔｏｒｙｂｙＵｓｅｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇ”、ＡｒｃｈＰａｔｈｏｌＬａｂＭｅｄ．２０１９年８月；１４３（８）：９９０－９９８．ｄｏｉ：１０．５８５８／ａｒｐａ．２０１８－０２３８－ＯＡには、標準的な機械学習アルゴリズムを使用して作成された分類モデルが、分析的に許容可能なＭＳ結果を検証し、それによって手動レビュー要件を削減できるかどうかを判定することが記載されている。提案された技術は、手動ピークレビューを減らす場合があるが、これに取って代わるものではない。ＴｏｇｈｉＥｓｈｇｈｉＳ，ＡｕｇｅｒＰ，ＭａｔｈｅｗｓＷＲ，“Ｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔａｎｄｉｎｔｅｒｆｅｒｅｎｃｅｄｅｔｅｃｔｉｏｎｉｎｔａｒｇｅｔｅｄｍａｓｓｓｐｅｃｔｒｏｍｅｔｒｙｄａｔａｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇ”、ＣｌｉｎＰｒｏｔｅｏｍｉｃｓ。２０１８１０月６日；１５：３３．ｄｏｉ：１０．１１８６／ｓ１２０１４－０１８－９２０９－ｘには、アルゴリズムが教師あり機械学習を利用して、専門の分析者によって注釈が付けられたピークのセットに基づいて干渉またはクロマトグラフィー不良を伴うピークを識別することが記載されている。ＴａｒｇｅｔｅｄＭＳＱＣを使用して標的化されたプロテオミクスデータを分析すると、ピークの手動検査に費やされる時間が短縮され、干渉検出の速度と精度の両方が改善される。ここでも、提案された技術は、手動ピークレビューを減らす場合があるが、これに取って代わるものではない。

【先行技術文献】

【非特許文献】

【0005】

非特許文献１：ｗｗｗ．ｉｎｄｉｇｏｂｉｏ．ｃｏｍ／ａｓｃｅｎｔ／
非特許文献２：ＹｕＭ，ＢａｚｙｄｌｏＬＡＬ，ＢｒｕｎｓＤＥ，ＨａｒｒｉｓｏｎＪＨＪｒ．，“ＳｔｒｅａｍｌｉｎｉｎｇＱｕａｌｉｔｙＲｅｖｉｅｗｏｆＭａｓｓＳｐｅｃｔｒｏｍｅｔｒｙＤａｔａｉｎｔｈｅＣｌｉｎｉｃａｌＬａｂｏｒａｔｏｒｙｂｙＵｓｅｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇ”、ＡｒｃｈＰａｔｈｏｌＬａｂＭｅｄ．２０１９年８月；１４３（８）：９９０－９９８．ｄｏｉ：１０．５８５８／ａｒｐａ．２０１８－０２３８－ＯＡ
非特許文献３：ＴｏｇｈｉＥｓｈｇｈｉＳ，ＡｕｇｅｒＰ，ＭａｔｈｅｗｓＷＲ，“Ｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔａｎｄｉｎｔｅｒｆｅｒｅｎｃｅｄｅｔｅｃｔｉｏｎｉｎｔａｒｇｅｔｅｄｍａｓｓｓｐｅｃｔｒｏｍｅｔｒｙｄａｔａｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇ”、ＣｌｉｎＰｒｏｔｅｏｍｉｃｓ。２０１８１０月６日；１５：３３．ｄｏｉ：１０．１１８６／ｓ１２０１４－０１８－９２０９－ｘ

【発明の概要】

【発明が解決しようとする課題】

【0006】

したがって、本発明の目的は、既知の方法、装置、コンピュータプログラムおよびコンピュータプログラム製品の上述の欠点を回避する、クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのための方法、テストシステム、コンピュータプログラムおよびコンピュータプログラム製品を提供することである。特に、手動ピークレビューに取って代わることを可能にする方法および装置が提供される。

【0007】

概要
この問題は、独立請求項の特徴を有する、クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのための方法、テストシステム、コンピュータプログラムおよびコンピュータプログラム製品によって対処される。単独で実現されても、任意の組合せで実現されてもよい有利な実施形態が、従属請求項ならびに明細書全体に記載される。

【0008】

以下で使用される場合、「有する（ｈａｖｅ）」、「備える（ｃｏｍｐｒｉｓｅ）」、もしくは「含む（ｉｎｃｌｕｄｅ）」という用語、またはそれらの任意の文法上の変形は、非排他的な方法で使用される。したがって、これらの用語は、これらの用語によって導入される特徴の他に、この文脈で説明されるエンティティにさらなる特徴が存在しない状況と、１つまたは複数のさらなる特徴が存在する状況との両方を指す場合がある。一例として、「ＡはＢを有する」、「ＡはＢを備える」および「ＡはＢを含む」という表現は、Ｂ以外に、他の要素がＡに存在しない状況（すなわち、Ａが単独で、かつ排他的にＢからなる状況）と、Ｂ以外に、要素Ｃ、要素ＣおよびＤ、さらにはさらなる要素など、１つまたは複数のさらなる要素がエンティティＡに存在する状況との両方を指す場合がある。

【0009】

さらに、特徴または要素が１回または２回以上存在してもよいことを示す「少なくとも１つ」、「１つまたは複数」という用語または同様の表現は、典型的には、それぞれの特徴または要素を導入するときに１回のみ使用されることに留意されたい。以下では、ほとんどの場合、それぞれの特徴または要素を指すとき、それぞれの特徴または要素が１回または複数回存在してもよいという事実にもかかわらず、「少なくとも１つの」または「１つまたは複数の」という表現は、繰り返されない。

【0010】

さらに、以下で使用される場合、用語「好ましくは」、「より好ましくは」、「特に」、「より特に」、「具体的に」、「より具体的に」または同様の用語は、代替の可能性を制限することなく、任意の特徴と併せて使用される。したがって、これらの用語によって導入される特徴は、任意の特徴であり、特許請求の範囲をいかなる方法によっても制約することは意図されていない。本発明は、当業者が認識するように、代替の特徴を使用することによって実行されてもよい。同様に、「本発明の実施形態において」または同様の表現によって導入される特徴は、本発明の代替の実施形態に関していかなる制限も伴わず、本発明の範囲に関していかなる制限も伴わず、そのようなやり方で導入される特徴を本発明の他の任意の特徴または任意ではない特徴と組み合わせる可能性に関していかなる制限も伴わない任意の特徴であることが意図される。

【課題を解決するための手段】

【0011】

第１の態様では、クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法が提案される。

【0012】

本明細書で使用される「コンピュータ実装方法」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも１つのコンピュータおよび／または少なくとも１つのコンピュータネットワークが関与する方法を指すことがある。コンピュータおよび／またはコンピュータネットワークは、本発明による方法の方法ステップのうちの少なくとも１つを実行するように構成された少なくとも１つのプロセッサを備え得る。好ましくは、方法ステップのそれぞれが、コンピュータおよび／またはコンピュータネットワークによって実行される。本方法は、完全に自動的に、具体的にはユーザとの対話なしに実行されてよい。本明細書で使用される「自動的に」および「自動化された」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも１つのコンピュータおよび／またはコンピュータネットワークおよび／または機械によって、特に手動動作および／またはユーザとの対話なしに完全に実施されるプロセスを指すことがある。

【0013】

本明細書で使用される「質量分析データ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも１つの質量分析装置を使用することによって得られたデータ、特に少なくとも１つの質量スペクトルを指すことがある。

【0014】

本明細書において使用される「クロマトグラフィーデータ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも１つのクロマトグラフィー装置、例えば少なくとも１つの液体クロマトグラフを使用することによって得られたデータを指すことがある。クロマトグラフィーデータは、少なくとも１つのクロマトグラムを含んでもよい。

【0015】

本明細書で使用される「質量分析」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、イオンの質量対電荷の比を決定するための分析技術を指すことがある。質量分析は、少なくとも１つの質量分析装置を使用して実行されてもよい。本明細書で使用される場合、用語「質量分析装置」は、「質量分析器」とも呼ばれるが、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、質量対電荷の比に基づいて少なくとも１つの分析物を検出するように構成された分析器を指すことがある。質量分析器は、少なくとも１つの四重極分析器であってよく、または少なくとも１つの四重極分析器を備えてもよい。本明細書で使用される場合、「四重極質量分析器」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、質量フィルタとして少なくとも１つの四重極を備える質量分析器を指すことがある。四重極質量分析器は、複数の四重極を備えてもよい。例えば、四重極質量分析器は、三連四重極質量分析器であってよい。本明細書で使用される場合、「質量フィルタ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、質量対電荷の比ｍ／ｚに従って質量フィルタに注入されるイオンを選択するように構成された装置を指すことがある。質量フィルタは、２対の電極を備え得る。電極は、棒状であってもよく、特に円柱状であってもよい。理想的な場合、電極は、双曲線であってもよい。電極は、同一に設計されてもよい。電極は、共通の軸、例えばｚ軸に沿って平行に延在するように配置されてもよい。四重極質量分析器は、質量フィルタの２対の電極間に少なくとも１つの直流（ＤＣ）電圧および少なくとも１つの交流（ＡＣ）電圧を印加するように構成された少なくとも１つの電源回路を備えてもよい。電源回路は、各対向する電極対を同一の電位に保持するように構成されてもよい。電源回路は、特定の質量対電荷の比ｍ／ｚ内のイオンについてのみ安定した軌道が可能であるように、電極対の電荷の符号を周期的に変化させるように構成されてもよい。質量フィルタにおけるイオンの軌道は、マシュー微分方程式によって記述され得る。異なるｍ／ｚ値のイオンを測定するために、ＤＣおよびＡＣ電圧を時間的に変化させて、異なるｍ／ｚ値を有するイオンを質量分析装置の検出器に送るようにしてもよい。

【0016】

質量分析装置は、少なくとも１つのイオン化源をさらに備え得る。本明細書で使用される場合、「イオン源」としても示される「イオン化源」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、例えば中性ガス分子からイオンを生成するように構成された装置を指すことがある。イオン化源は、少なくとも１つの電子衝撃（ＥＩ）源または少なくとも１つの化学イオン化（ＣＩ）源などの少なくとも１つの気相イオン化源、少なくとも１つのプラズマ脱離（ＰＤＭＳ）源、少なくとも１つの高速原子衝撃（ＦＡＢ）源、少なくとも１つの二次イオン質量分析（ＳＩＭＳ）源、少なくとも１つのレーザ脱離（ＬＤＭＳ）源、および少なくとも１つのマトリックス支援レーザ脱離（ＭＡＬＤＩ）源などの少なくとも１つの脱離イオン化源、少なくとも１つのサーモスプレー（ＴＳＰ）源、少なくとも１つの大気圧化学イオン化（ＡＰＣＩ）源、少なくとも１つのエレクトロスプレー（ＥＳＩ）源、および少なくとも１つの大気圧イオン化（ＡＰＩ）源などの少なくとも１つのスプレーイオン化源からなる群から選択される少なくとも１つの源であってもよく、またはそれを備えてもよい。

【0017】

質量分析装置は、少なくとも１つの検出器を備え得る。本明細書で使用される場合、「検出器」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、到来するイオンを検出するように構成された装置を指すことがある。検出器は、荷電粒子を検出するように構成されてもよい。検出器は、少なくとも１つの電子増倍器であってもよく、またはそれを備えてもよい。

【0018】

質量分析装置、特に質量分析装置の検出器および／または少なくとも１つの処理ユニットは、検出されたイオンの少なくとも１つの質量スペクトルを決定するように構成されてもよい。本明細書で使用される場合、「質量スペクトル」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、電荷対質量の比ｍ／ｚに対する信号強度の二次元表現を指すことがあり、信号強度は、それぞれのイオンの存在量に対応する。質量スペクトルは、ピクセル化画像であってもよい。質量スペクトルのピクセルの得られた強度を決定するために、特定のｍ／ｚ範囲内の検出器によって検出された信号が積分されてもよい。試料中の分析物は、処理ユニットによって同定され得る。具体的には、処理ユニットは、既知の質量を同定された質量に相関させるか、または特徴的なフラグメンテーションパターンを介して相関させるように構成されてもよい。

【0019】

質量分析装置は、液体クロマトグラフィー質量分析装置であってよく、またはそれを備えてもよい。質量分析装置は、少なくとも１つの液体クロマトグラフに接続されてよく、および／または少なくとも１つの液体クロマトグラフを備えてもよい。液体クロマトグラフは、質量分析装置のための試料調製として使用されてもよい。少なくとも１つのガスクロマトグラフなど、試料調製の他の実施形態が可能である場合がある。本明細書で使用される場合、「液体クロマトグラフィー質量分析装置」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、液体クロマトグラフィーと質量分析との組合せを指す場合がある。質量分析装置は、少なくとも１つの液体クロマトグラフを備え得る。液体クロマトグラフィー質量分析装置は、少なくとも１つの高速液体クロマトグラフィー（ＨＰＬＣ）装置または少なくとも１つのマイクロ液体クロマトグラフィー（μＬＣ）装置であってもよく、あるいはこれらを備えてもよい。液体クロマトグラフィー質量分析装置は、液体クロマトグラフィー（ＬＣ）装置と、この場合は質量フィルタである質量分析（ＭＳ）装置とを備え得て、ＬＣ装置および質量フィルタは、少なくとも１つのインターフェースを介して連結される。ＬＣ装置とＭＳ装置とを連結するインターフェースは、分子イオンを生成し、分子イオンを気相に移動させるように構成されたイオン化源を備え得る。インターフェースは、イオン化源と質量フィルタとの間に配置された少なくとも１つのイオン移動度モジュールをさらに備えてもよい。例えば、イオン移動度モジュールは、高電界非対称波形イオン移動度分光法（ＦＡＩＭＳ）モジュールであってもよい。

【0020】

本明細書で使用される場合、「液体クロマトグラフィー（ＬＣ）装置」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、質量分析装置を用いて１つまたは複数の分析物を検出するために、試料の１つまたは複数の分析対象物を試料の他の成分から分離するように構成された分析モジュールを指すことがある。ＬＣ装置は、少なくとも１つのＬＣカラムを備え得る。例えば、ＬＣ装置は、シングルカラム型のＬＣ装置であってもよく、複数のＬＣカラムを有するマルチカラム型のＬＣ装置であってもよい。ＬＣカラムは、分析対象物の分離および／または溶出および／または移動を行うために移動相が圧送される固定相を有し得る。液体クロマトグラフィー質量分析装置は、それぞれが少なくとも１つの分析対象物を含む試料の自動的な前処理および調製のための試料調製ステーションをさらに備え得る。

【0021】

本明細書で使用される場合、「品質チェック」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、限定されないが、信頼できる自動ピーク積分と信頼できない自動ピーク積分とを区別するプロセスを特に指すことがある。品質チェックは、ピーク積分プロセスが完了したかどうか、すなわち計算された公称信号が利用可能であるかどうか、データ品質が自動ピーク積分に適していたかどうか、および計算された公称信号および読み出し値が信頼できるかどうかの情報を判定することを含んでもよい。

【0022】

本明細書で使用される「品質」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、限定されないが、ＭＳ装置および／またはＬＣ装置によって提供されるデータに対して実行される自動ピーク積分の信頼性の尺度を指すことがある。分類された品質は、許容可能なクロマトグラフィーデータおよび／または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび／または質量スペクトルデータとを区別するために使用されてもよい。具体的には、品質は、信頼性のある自動ピーク積分については良好（許容可能）として、信頼性のない自動ピーク積分については不良（許容不可能）として分類されてもよい。品質の分類は、信頼性のある自動ピーク積分と信頼性のない自動ピーク積分とを区別することを含んでもよい。品質は、ノイズレベル、バックグランド、目標ピークから分離できなかった干渉、保持時間のシフト、ピーク幅、および内部標準信号の有無などのいくつかの要因に依存することがある。

【0023】

本方法は、一例として、所与の順序で実行されてもよい以下のステップを含む。しかしながら、異なる順序も可能であることに留意されたい。さらに、方法ステップの１つまたは複数を１回または繰り返し実行することも可能である。さらに、方法ステップの２つ以上を同時にまたは適時に重複して実行することが可能である。本方法は、記載されていないさらなる方法ステップを含んでもよい。

【0024】

本方法は、以下：
ａ）少なくとも１つの質量分析装置によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを提供するステップと、
ｂ）少なくとも１つの訓練された機械学習モデルをクロマトグラフィーデータおよび／または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップであって、訓練された機械学習モデルは少なくとも１つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップと
を含む。

【0025】

本明細書で使用される「処理済クロマトグラフィーデータおよび／または質量スペクトルデータ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、自動ピーク積分下で行われたクロマトグラフィーデータおよび／または質量スペクトルデータを指すことがある。自動ピーク積分に関しては、その全内容が参照により含まれる国際公開第２０２１／０２３８６５Ａ１号パンフレットを参照されたい。

【0026】

本明細書で使用される場合、「提供する」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、限定されないが、特に質量分析装置を用いて少なくとも１つの測定を行い、続いてデータを処理することによって、処理済クロマトグラフィーデータおよび／または質量スペクトルデータを決定および／または生成および／または利用可能にするプロセスを指すことがある。したがって、本明細書で使用される「処理済クロマトグラフィーデータおよび／または質量スペクトルデータを提供する」という用語は、広義の用語であり、当業者にとってのその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、限定されないが、特定の受信時に、質量分析装置から得られたデータ処理済クロマトグラフィーデータおよび／または質量スペクトルデータを検索すること、ならびに／あるいは質量分析装置を用いて少なくとも１つの測定および処理を行い、それによって処理済クロマトグラフィーデータおよび／または質量スペクトルデータを決定することを指すことがある。

【0027】

本明細書で使用される「分類する」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、クロマトグラフィーデータおよび／または質量スペクトルデータを少なくとも２つのカテゴリに、例えば、信頼できる自動ピーク積分では良好または信頼できるに、および信頼できない自動ピーク積分では不良または信頼できないに分類するプロセスを指すことがあるが、これに限定されない。分類は、少なくとも１つの訓練された機械学習モデルを適用することによって実行される。したがって、本発明によれば、少なくとも１つの機械学習モデルは、ピーク積分の失敗を予測するために使用され、結果のリリースに関する完全に自動化された決定を提供することができる。したがって、提案された方法は、データの手動検査の必要性を排除することを可能にする。

【0028】

本明細書で使用される「機械学習モデル」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、機械学習、特にディープラーニングまたは他の形態の人工知能を使用して少なくとも１つの訓練データセット上で訓練可能な数学的モデルを指すことがある。本明細書で使用される「機械学習」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、特に、限定されないが、自動的にモデルを構築するために人工知能（ＡＩ）を使用する方法を指すことがある。訓練は、少なくとも１つの機械学習システムを使用して実行されることがある。本明細書で使用される「機械学習システム」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、機械学習のために、特に所与のアルゴリズムにおいて論理を実行ために構成されたプロセッサ、マイクロプロセッサ、またはコンピュータシステムなどの少なくとも１つの処理ユニットを備えるシステムまたはユニットを指すことがある。機械学習システムは、少なくとも１つの機械学習アルゴリズムを実施するおよび／または実行するように構成されてもよく、機械学習アルゴリズムは、訓練された機械学習モデルを構築するように構成される。機械学習システムは、質量分析装置の一部であってもよく、および／またはクラウドなどの外部プロセッサによって実行されてもよい。

【0029】

訓練された機械学習モデルは、少なくとも１つの回帰モデルを使用する。本明細書で使用される「回帰モデル」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、データセット内の目標変数と独立変数との間の関係を分析するように構成された予測モデルを指すことがある。クロマトグラフィーデータの目標変数は、期待される結果値からの連続的な偏差であってもよい。質量スペクトルデータの場合、目標変数は、結果が有効であるか否かに関する二分情報であってもよい。回帰モデルは、以下からなる群、すなわち、例えば、ＢｒｅｉｍａｎＬ．，Ｒａｎｄｏｍｆｏｒｅｓｔｓ，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２００１，４５（１）：５－３２に記載されているようなランダムフォレスト、Ｆｒｉｅｄｍａｎ，Ｊ．Ｈ（２００１）に記載されているような勾配ブースティングフォレスト、例えば、「ＡＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＭａｃｈｉｎｅ」、ＴｈｅＡｎｎａｌｓｏｆＳｔａｔｉｓｔｉｃｓ，２９（５）：１１８９－１２３２に記載されているようなＧｒｅｅｄｙ関数近似、例えば、Ｗｏｌｄ，Ｈ．（１９８５）、Ｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓ，ｉｎＫｏｔｚ，Ｓａｍｕｅｌ、Ｊｏｈｎｓｏｎ，ＮｏｒｍａｎＬ．（編）、Ｅｎｃｙｃｌｏｐｅｄｉａｏｆｓｔａｔｉｓｔｉｃａｌｓｃｉｅｎｃｅｓ、６．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ５８１～５９１ページに記載されているような部分最小二乗法、例えば、Ｔｉｂｓｈｉｒａｎｉ，Ｒ．（１９９６）、ＲｅｇｒｅｓｓｉｏｎＳｈｒｉｎｋａｇｅａｎｄＳｅｌｅｃｔｉｏｎｖｉａｔｈｅｌａｓｓｏ，ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ．ＳｅｒｉｅｓＢ（ｍｅｔｈｏｄｏｌｏｇｉｃａｌ）．Ｗｉｌｅｙ．５８（１）：２６７－８８に記載されているようなＬａｓｓｏ回帰、例えば、Ｈｏｓｍｅｒ，Ｄ．、Ｌｅｍｅｓｈｏｗ，Ｓ．：Ａｐｐｌｉｅｄｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ２０００に記載されているようなロジスティック回帰、または例えば、Ｂｏｘ，Ｇ．Ｅ．Ｐ．，Ｔｉａｏ，Ｇ．Ｃ．（１９７３）、ＢａｙｅｓｉａｎＩｎｆｅｒｅｎｃｅｉｎＳｔａｔｉｓｔｉｃａｌＡｎａｌｙｓｉｓ．Ｗｉｌｅｙに記載されているようなベイズ回帰から選択される少なくとも１つの回帰モデルであってもよい。例えば、回帰モデルは、勾配ブースティングフォレストまたはランダムフォレストから選択される。回帰モデルは、例えば、勾配ブースティングフォレストである。回帰モデルは、例えば、ランダムフォレストである。

【0030】

訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである。例えば、分析物は、試料から定量される、ビタミンＤ、乱用薬物、治療薬、ホルモンおよび代謝産物からなる群から選択される少なくとも１つの標的物質である。本明細書で使用される用語「試料」は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、生物学的試料および／または内部標準試料などの任意の検査試料を指すことがある。試料は、１つまたは複数の分析対象物を含んでもよい。例えば、検査試料は、血液、血清、血漿、唾液、眼水晶体液、脳脊髄液、汗、尿、乳、腹水、粘液、滑液、腹腔液、羊水、組織、細胞などを含む生理学的流体からなる群から選択されてよい。試料は、それぞれの供給源から得られたものとして直接使用されてもよく、あるいは前処理および／または試料調製ワークフローに供されてもよい。例えば、試料は、内部標準の添加および／または別の溶液での希釈および／または試薬との混合などによって前処理されてもよい。例えば、分析対象物は、一般に、ビタミンＤ、乱用薬物、治療薬、ホルモン、および代謝産物であってよい。内部標準試料は、既知の濃度を有する少なくとも１つの内部標準物質を含む試料であってもよい。試料に関するさらなる詳細については、例えば、その全開示が参照により本明細書に含まれる欧州特許出願公開第３４２５３６９号明細書を参照されたい。他の分析対象物も可能である。

【0031】

機械学習モデルは、特徴セットを使用し得る。データおよびピーク積分品質に有益であると考えられる特徴のセットには、ピーク非対称性またはイオン比、異なる遷移間のパラメータの比、例えば分析物定量子と内部標準定量子との間の保持時間比、ピークフィットの品質を評価するための特徴、例えば残差比またはピークフィットの不確実性、ならびにノイズ、バックグランドおよびピーク形状を記述するさらなる設計特徴などの標準的なＭＳ品質パラメータが含まれてもよい。特徴セットには、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Ｑ４比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離（ＥａｒｔｈＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅ）、および処理済データ、すなわち積分されたピークおよび生データから導出されたときに言及された特徴のいずれかの偏差、例えば、フィッティングされたピークと生信号との保持時間の差からなる群から選択される少なくとも１つの特徴が含まれてもよい。ピークバックグランドは、ピーク間隔における推定バックグランドの強度を指してもよい。相対バックグランドは、ピークバックグランドとピーク高さとの比を指してもよい。イオン比は、分析物の面積または内部標準（ＩＳＴＤ）定量子の面積に対する分析物またはＩＳＴＤ定性子の面積を指してもよい。Ｑ４比は、Ｑ４＝（分析物定量子の面積／分析物定性子の面積）／（ＩＳＴＤ定量子の面積／ＩＳＴＤ定性子の面積）によって与えられ得る。保持時間比は、ＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒ／ＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ、ＲＴ＿ＩＳｔｄ＿ｑｕａｌｉｆｉｅｒ／ＲＴ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒまたはＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ／ＲＴ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒのうちの１つまたは複数を指してもよく、ＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒは、分析物定性子の保持時間であり、ＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒは、分析物定量子の保持時間であり、ＲＴ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒは、ＩＳＴＤ定性子の保持時間であり、ＲＴ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒは、ＩＳＴＤ定量子の保持時間である。ピーク非対称性は、ＵＳＰ４０ガイドライン（本明細書ではＵＳＰ４０とも呼ばれる）に従って定義されてもよく、ｈｔｔｐ：／／ｐｈａｒｍａｃｏｐｅｉａ．ｃｎ／ｖ２９２４０／ｕｓｐ２９ｎｆ２４ｓ０＿ｃ６２１＿ｖｉｅｗａｌｌ．ｈｔｍｌ、特に図２を参照されたい。非対称比は、ａｓｙｍｍｅｔｒｙ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒ／ａｓｙｍｍｅｔｒｙ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ、ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒ／ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒ、またはａｓｙｍｍｅｔｒｙ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ／ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒのうちの１つまたは複数を指してもよく、ａｓｙｍｍｅｔｒｙ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒは、分析物定性子のピークの非対称性であり、ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒは、ＩＳＴＤ定性子のピークの非対称性であり、ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒは、ＩＳＴＤ定量子のピークの非対称性である。ピーク幅比は、ｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒ／ｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ、ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒ／ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒ、またはｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ／ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒのうちの１つまたは複数を指してもよく、ｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒは分析物定性子のピーク幅であり、ｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒは分析物定量子のピーク幅であり、ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒはＩＳＴＤ定性子のピーク幅であり、ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒはＩＳＴＤ定量子のピーク幅である。信号対ノイズ比は、ＵＳＰ４０に従って定義されてもよい。単一サイクル比中央値は、分析物定量子の強度とＩＳＴＤ定量子の強度との比の中央値を指してもよい。単一サイクルイオン比中央値は、分析物定量子の強度と分析物定性子の強度との比、あるいはＩＳＴＤ定量子の強度とＩＳＴＤ定性子の強度との比の１つまたは複数の中央値を指してもよい。ピークフィット平均二乗誤差は、平均［（平滑化された強度／フィッティングされた強度の面積／面積）２］によって与えられてもよい。フィット強度相関は、ｃｏｒ（平滑化強度、フィット強度）またはｃｏｒ（前処理強度、フィット強度）の１つまたは複数を指してもよい。アースムーバ距離に関しては、例えばｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｅａｒｔｈ＿ｍｏｖｅｒ％２７ｓ＿ｄｉｓｔａｎｃｅを参照されたい。特徴の豊富なセットは、クロマトグラフィーデータおよび／または質量スペクトルデータから導出され得て、回帰モデルを構築するために使用され得る。モデルの訓練は、特徴ランキングを決定することを含んでもよい。モデルの訓練は、特徴を選択することを含んでもよい。

【0032】

特徴セットの特徴は、ピーク積分の失敗と同等物としての面積比偏差を予測するための機械学習モデルにおいて組み合わされてもよい。回帰モデル、例えばランダムフォレストおよび勾配ブースティングは、評価時間および必要なディスクスペースに関して妥当なモデル複雑度で良好な性能を示すことが分かった。アルゴリズムのタイプ、特徴の数、ツリーの数およびサイズなどのモデルパラメータは、再サンプリング技術によって調整されてもよい。

【0033】

ランダムフォレストの場合、ランダムフォレストは特徴を増やすことで性能が向上することが分かった。勾配ブースティングフォレストの場合、勾配ブースティングフォレストは特徴を減らすことで性能が向上することが分かった。特徴選択は、多くのデータ分割および／またはモデルにわたって「安定した」上位の特徴が選択されるように実行されてもよい。本方法は、新たに作成された特徴の評価を含む特徴エンジニアリングを含んでもよい。例えば、勾配ブースティングフォレストの場合、最小のリーフサイズ５０および４００のツリーで５０個の特徴が使用されてもよい。

【0034】

ステップｂ）における回帰モデル結果は、既知の真値からの面積比のパーセント偏差であってもよい。分類のために、少なくとも１つのしきい値が、分類のためのバイナリ結果を生成するために使用されてもよい。回帰モデルの結果がしきい値より大きい場合、データは不良と分類されてもよく、そうでない場合、回帰モデルの結果がしきい値を下回る場合は、良好と分類されてもよい。例えば、しきい値は１０％であってもよい。

【0035】

本方法は、少なくとも１つの訓練ステップであるステップｃ）を含んでもよい。訓練ステップは、訓練データセットに基づいて機械学習モデルを訓練することを含んでもよい。

【0036】

本明細書で使用される「訓練」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は具体的には、限定されないが、訓練された機械学習モデルを構築するプロセス、特にモデルのパラメータ、特に重みを決定するプロセスを指すことがある。訓練は、モデルのパラメータを決定および／または更新することを含んでもよい。訓練された機械学習モデルは、少なくとも部分的にデータ駆動型であってもよい。本明細書で使用される場合、「少なくとも部分的にデータ駆動型モデル」という用語は広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、モデルがデータ駆動型モデル部分と、物理化学の法則などに基づく他のモデル部分とを含むという事実を指すことがある。訓練は、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータに対して実行されてもよい。訓練は、例えばＭＳおよび／またはＬＣ－ＭＳ装置の操作中などに、追加のクロマトグラフィーデータおよび／または質量スペクトルデータを取得した後に、訓練済みモデルを再訓練することを含んでもよい。

【0037】

訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練される。訓練データセットは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを２つのカテゴリに手動で分類することによって生成されてもよい。

【0038】

訓練ステップは、異なる分析物に対する機械学習モデルの訓練を含んでもよい。訓練ステップは、複数の異なるアッセイに対するアッセイ開発中に実行されてもよく、異なるアッセイに対する訓練された機械学習モデルは、少なくとも１つのデータバンクに格納される。データバンクは、データ処理構成ファイルを含んでもよく、計器上でのピーク積分結果の自動フラグ付けを可能にする。本方法は、ステップｂ）の前に実行される少なくとも１つの選択ステップを含んでもよく、選択ステップにおいて、１つの訓練された機械学習モデルは、提供されたクロマトグラフィーデータおよび／または質量スペクトルデータを得るために使用された分析物に対して訓練された訓練済み機械学習モデルから選択される。

【0039】

訓練された機械学習モデルは、同様のクロマトグラフィーを有する異なる分析物に適している可能性がある。訓練ステップは、異なるクロマトグラフィータイプに対する機械学習モデルの訓練を含んでもよい。異なるクロマトグラフィータイプについては、例えば、ピークフィットが適用され得る標準的なクロマトグラフィー、境界検出を適用する必要がある非標準的なクロマトグラフィー、および分析物と正確に同じ保持時間を有し、分析物とＩＳＴＤとの間に保持時間のオフセットが存在する内部標準が利用できない場合を考慮して、別個のモデルが使用されてもよい。

【0040】

本明細書で使用される「過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、少なくとも１つの質量分析装置を使用することによって得られた測定結果を指すことがある。過去のデータは、実際のデータであってもよい。過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、いくつかの分析物を測定し、異なるシナリオを有する異なる計器からのデータを含んでもよい。過去の訓練データセットの例は、１１週間の期間中に一方のシステムからの２つの計器および他方のシステムからの３つの計器で測定された、５つの異なる分析物を含む約５００個のクロマトグラフィー測定値を含んでもよい。

【0041】

訓練データセットは、半合成データセットとも呼ばれる半合成のクロマトグラフィーデータおよび／または質量スペクトルデータを含む。本明細書で使用される「半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定されないが、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータに基づいてシミュレートされたクロマトグラフィーデータおよび／もしくは質量スペクトルデータを指すことがある。半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、実際の測定されたクロマトグラフィーデータおよび／もしくは質量スペクトルデータに定義された外乱を適用ならびに／またはシミュレートすることによって生成されてもよい。半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、修正された過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含んでもよい。過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、少なくとも１つの干渉の導入、バックグランドの導入、保持時間への少なくとも１つのシフトの導入、ピーク幅の変更、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの１つまたは複数によって修正されてもよい。半合成シミュレーション手法は、シミュレーション研究において真実を知る利点を、現実世界の特性を有するデータセットの提供と組み合わせたものである。モデル訓練のためにシミュレートされたデータセットを使用することは、測定の真の状態を客観的に定義できること、まれなケースおよび「グレーゾーン」を調査できること、試料サイズの点でスケーラブルであることなど、実際のデータに比べていくつかの利点を有する。可能な限り実際のデータに類似させるために、半合成手法が採用され、実際の測定値は制御された方法で修正される。

【0042】

半合成データセットは、以下のように生成されてもよい。ピークが明瞭で積分結果が信頼できる（手動でキュレートされた）実際のクロマトグラムが選択され、その後、ピーク積分にとって困難な状況に似せるように修正されてもよい。半合成データセットの生成は、以下の状況、すなわち、干渉、バックグランド、保持時間のシフト、ピーク幅、および内部標準信号の欠落のうちの１つまたは複数を考慮することを含んでもよい。例えば、干渉を考慮するために、実際の内部標準ピークのフィット強度が分析物ピークの隣の生の強度に追加される。ピーク間の距離によって、様々な分解能を調べることができる。人工的な干渉ピークの高さは、対象とするピークと干渉との間の様々な相対的なピーク高さをシミュレートするために拡大または縮小され得る。例えば、バックグランドを考慮するために、変化するバックグランド信号をシミュレートするために、最初にステップ関数が生成され、ステップの高さは均一分布から引き出される。最大ステップ高さによって、シミュレートされたバックグランドの大きさが制御され得る。次に、バックグランドフィットがステップ関数に適用され、得られた曲線が実際のクロマトグラム強度に追加される。バックグランドフィットにおける曲率パラメータは、人工バックグランドの曲率を操作することを可能にする。例えば、保持時間のシフトを考慮するために、実際の信号を時間スケールに沿ってシフトさせることによって、保持時間のばらつきを容易にシミュレートすることができる。例えば、ピーク幅を考慮するために、フィッティング関数の各パラメータを変更することによってピークフィットが再スケーリングされる。ピーク下の面積を維持するために、強度を再スケーリングする。次いで、元のデータから再スケーリングされたノイズが新しいピークフィットに追加される。例えば、内部標準信号の欠落を考慮するために、内部標準のクロマトグラムを二重ブランク試料のクロマトグラムに置き換える。

【0043】

シミュレートされたデータ、すなわち半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、実際のデータ、すなわち過去の合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータよりもはるかに高い割合の不良ケースおよびはるかに高い割合のボーダラインケースを有する可能性がある。訓練のために実際のデータの一部を含めると、モデルの性能を向上させることができる。実際のデータの他の部分は、訓練されたモデルをテストするために使用されてもよい。実際のデータは、手動でラベル付けされた真のデータセットであってもよい。

【0044】

本方法は、少なくとも１つのテストステップを含んでもよく、テストステップは、訓練されたモデルをテストすることを含む。テストステップは、少なくとも１つのテストデータセットに対して訓練されたモデルをテストすることを含んでもよい。テストステップは、訓練されたモデルの性能特性、例えば精度、偽陽性率および偽陰性率を得ることを含んでもよい。予測性能を評価するために、モデルのテストは、シミュレートされたデータを使用して、および／または実際のデータ、特に手動でラベル付けされた真のデータセットに対して実行されてもよい。テストデータセットは、シミュレートされたデータおよび／または実際のデータを含んでもよい。

【0045】

例えば、訓練データセットは、７０６２個の測定値を含むなど、第１の半合成データセットを含んでもよく、テストデータセットは、３６３８個の測定値など、第２の半合成データセットを含んでもよい。

【0046】

例えば、訓練データセットは、半合成データセットと、「良好」とラベル付けされた実際のデータの一部との両方を含んでもよい。訓練データセットは、「良好」とラベル付けされた実際のデータの別の部分と、「不良」とラベル付けされた実際のデータとを含んでもよい。

【0047】

標準的なピーク形状を有する分析物（例えば、Ｔｅｓｔｏｓｔｅｒｏｎｅ）の例示的な機械学習モデルを半合成データセットで訓練した。機械学習モデルは、異なる計器での１０回の試料実行から取得された２４１個の手動でラベル付けされた実際の測定値で訓練された。１２１個は手動で不良としてラベル付けされ、１２０個は手動で良好とラベル付けされた。訓練された機械学習モデルを使用したピーク積分の品質チェックは、１２０個の「良好」測定値すべてを正しく分類した。１２１個の「不良」測定値のうちの５個は、訓練された機械学習モデルによって「良好」と分類された。精度は０．９７９３、偽陽性率は０．００００、偽陰性率は０．０４１３と決定された。

【0048】

次いで、訓練された機械学習モデルは、ステップｂ）で実行されるように、新しい測定値の品質状態を予測するために展開されてもよい。異なる分析物および／または異なるクロマトグラフィータイプに対する訓練された機械学習モデルは、データ処理構成ファイルに転送されてもよい。データ処理構成ファイルは、質量分析装置の少なくとも１つのデータ記憶装置に記憶されてもよい。これにより、質量分析装置でのピーク積分結果の自動フラグ付けを可能にすることがある。

【0049】

本方法は、分類された品質に基づいて、許容可能または許容不可能としてクロマトグラフィーデータおよび／または質量スペクトルデータにフラグを割り当てることを含んでもよい。導入された「妨害要因」によってデータがどの程度影響を受けるかの尺度は、作成された半合成データについて計算された面積比結果の、元の実際のデータセットの面積比からのパーセント偏差であってもよい。面積比偏差は、回帰モデルの連続的な結果を表す。次いで、例えばる面積比偏差が１０％を超える測定値にフラグを付けることによって、エラー処理のためのゴールドスタンダードを定義することができる。バイナリフラグは、精度および偽陽性／偽陰性率に関して予測性能を評価する際の真の状態として機能する。本方法は、少なくとも１つのユーザインターフェースを介して、クロマトグラフィーデータおよび／または質量スペクトルデータのフラグに応じて少なくとも１つの情報をユーザに提供することを含んでもよい。本明細書において使用される「ユーザインターフェース」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、限定されないが、データまたはコマンドの１つまたは複数を交換するなどのために、一方向または双方向に情報を交換する目的などのために、その環境と相互作用するように構成された要素またはユニットを指すことがある。例えば、ユーザインターフェースは、ユーザと情報を共有し、ユーザによって情報を受信するように構成されてもよい。ユーザインターフェースは、ディスプレイなどのユーザと視覚的に相互作用する機能、またはユーザと音響的に相互作用する機能であってもよい。ユーザインターフェースは、一例として、グラフィーカルユーザインターフェース、無線および／または有線のデータインターフェースなどのデータインターフェースのうちの１つまたは複数を含んでもよい。

【0050】

さらなる態様では、本発明による方法を実行するように構成されたテストシステムが提案される。テストシステムの特徴の定義およびテストシステムの任意の特徴については、上記で開示された方法または以下でさらに詳細に開示される方法の実施形態の１つまたは複数が参照されてもよい。テストシステムは、質量分析装置の一部であってもよい。

【0051】

テストシステムは、
－少なくとも１つの質量分析装置によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを受信するように構成された少なくとも１つの通信インターフェースと、
－少なくとも１つの訓練された機械学習モデルをクロマトグラフィーデータおよび／または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するように構成された少なくとも１つの処理装置であって、訓練された機械学習モデルは少なくとも１つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、訓練された機械学習モデルは分析物固有の訓練された機械学習モデルである、少なくとも１つの処理装置と、
－分類された品質に関する情報をユーザに提供するように構成された少なくとも１つのユーザインターフェースと
を備える。

【0052】

テストシステムは、本発明による方法のステップａ）～ｂ）および任意にステップｃ）を実行するように構成されてもよい。

【0053】

本明細書で使用される「通信インターフェース」という用語は、広義の用語であり、当業者にとってその通常の慣習的な意味が与えられるべきであり、特別なまたはカスタマイズされた意味に限定されるべきではない。この用語は、具体的には、限定はされないが、情報を転送するように構成された境界を形成するアイテムまたは要素を指すことがある。特に、通信インターフェースは、例えば別の装置へと情報を送信または出力するなどの目的で、例えばコンピュータなどの計算装置から情報を転送するように構成されてよい。これに加え、あるいは代えて、通信インターフェースは、例えば情報を受信するなどのために、計算装置、例えばコンピュータに情報を転送するように構成されてよい。通信インターフェースは、具体的には、情報を転送または交換するための手段を提供してもよい。特に、通信インターフェースは、例えば、ブルートゥース（登録商標）、ＮＦＣ、誘導結合などのデータ転送接続を提供してもよい。例として、通信インターフェースは、ネットワークまたはインターネットポート、ＵＳＢポート、およびディスクドライブのうちの１つまたは複数を備える少なくとも１つのポートであってよく、あるいはそのような少なくとも１つのポートを備えてよい。通信インターフェースは、少なくとも１つのウェブインターフェースであってよい。

【0054】

本明細書でさらに開示および提案されるのは、プログラムが、コンピュータまたはコンピュータネットワーク、特にテストシステム上で実行されると、本明細書に包含される実施形態の１つまたは複数において本発明による方法を実行するためのコンピュータ実行可能命令を含むコンピュータプログラムである。具体的には、コンピュータプログラムは、コンピュータ可読データキャリアおよび／またはコンピュータ可読記憶媒体に記憶されてもよい。

【0055】

本明細書で使用される場合、「コンピュータ可読データキャリア」および「コンピュータ可読記憶媒体」という用語は、具体的には、コンピュータ実行可能命令を記憶したハードウェア記憶媒体などの非一過性データ記憶手段を指してもよい。コンピュータ可読データキャリアまたは記憶媒体は、具体的には、ランダムアクセスメモリ（ＲＡＭ）および／または読み出し専用メモリ（ＲＯＭ）などの記憶媒体であってもよく、またはそれを含んでもよい。

【0056】

したがって、具体的には、上記の方法ステップａ）～ｂ）および任意にステップｃ）の１つ、２つ以上またはさらにはすべては、コンピュータまたはコンピュータネットワークを使用することによって、好ましくはコンピュータプログラムを使用することによって実行されてもよい。

【0057】

本明細書でさらに開示および提案されるのは、プログラムが、コンピュータまたはコンピュータネットワーク、特にテストシステム上で実行されると、本明細書に包含される実施形態の１つまたは複数において本発明による方法を実行するためのプログラムコード手段を有するコンピュータプログラム製品である。具体的には、プログラムコード手段は、コンピュータ可読データキャリアおよび／またはコンピュータ可読記憶媒体に記憶されてもよい。

【0058】

本明細書においてさらに開示および提案されるのは、コンピュータまたはコンピュータネットワークのワーキングメモリまたはメインメモリなどのコンピュータまたはコンピュータネットワークにロードした後、本明細書に開示される実施形態のうちの１つまたは複数による方法を実行し得るデータ構造が記憶されたデータキャリアである。

【0059】

本明細書でさらに開示および提案されるのは、プログラムが、コンピュータまたはコンピュータネットワーク、特にテストシステム上で実行されると、本明細書で開示される実施形態のうちの１つまたは複数による方法を実行するために、機械可読キャリアに記憶されたプログラムコード手段を有するコンピュータプログラム製品である。本明細書で使用される場合、コンピュータプログラム製品は、取引可能な製品としてのプログラムを指す。製品は、一般に、紙のフォーマットなどの任意のフォーマットで、またはコンピュータ可読データキャリア上および／もしくはコンピュータ可読記憶媒体上に存在してもよい。具体的には、コンピュータプログラム製品は、データネットワークを介して配信されてもよい。

【0060】

最後に、本明細書において開示および提案されるのは、本明細書に開示される実施形態のうちの１つまたは複数による方法を実行するための、コンピュータシステムまたはコンピュータネットワークによって読み取り可能な命令を含む変調データ信号である。

【0061】

本発明のコンピュータ実施態様を参照すると、本明細書に開示される実施形態のうちの１つまたは複数による方法のうちの１つまたは複数の方法ステップあるいはすべての方法ステップは、コンピュータまたはコンピュータネットワークを使用することによって実行されてもよい。したがって、一般に、データの提供および／または操作を含む方法ステップのいずれかは、コンピュータまたはコンピュータネットワークを使用することによって実行されてもよい。一般に、これらの方法ステップは、試料の提供および／または実際の測定を実行する特定の態様などの手動作業を必要とする方法ステップを通常除いて、任意の方法ステップを含んでもよい。

【0062】

具体的には、本明細書では、
－少なくとも１つのプロセッサを備え、プロセッサが本明細書に記載の実施形態のうちの１つによる方法を実行するように構成されているコンピュータまたはコンピュータネットワークと、
－データ構造がコンピュータ上で実行されている間に、本明細書に記載の実施形態のうちの１つによる方法を実行するように適合されたコンピュータロード可能データ構造と、
－プログラムがコンピュータ上で実行されている間に、本明細書に記載の実施形態のうちの１つによる方法を実行するように適合されたコンピュータプログラムと、
－コンピュータプログラムがコンピュータまたはコンピュータネットワーク上で実行されている間に、本明細書に記載の実施形態のうちの１つによる方法を実行するためのプログラム手段を含むコンピュータプログラムと、
－前述の実施形態によるプログラム手段を含むコンピュータプログラムであって、プログラム手段がコンピュータ可読記憶媒体に記憶されている、コンピュータプログラムと、
－記憶媒体であって、データ構造が記憶媒体に記憶され、データ構造が、コンピュータまたはコンピュータネットワークの主記憶装置および／または作業記憶装置にロードされた後に、本明細書に記載の実施形態のうちの１つによる方法を実行するように適合されている、記憶媒体と、
－プログラムコード手段を有するコンピュータプログラム製品であって、プログラムコード手段がコンピュータまたはコンピュータネットワーク上で実行される場合、本明細書に記載の実施形態のうちの１つによる方法を実行するために、プログラムコード手段が記憶媒体に記憶され得るか、または記憶媒体に記憶される、コンピュータプログラム製品と
が、さらに開示される。

【0063】

要約すると、さらなる実施形態の可能性を排除することなく、以下の実施形態が想定されてもよい。

【0064】

実施形態１クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法であって、以下：
ａ）少なくとも１つの質量分析装置によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを提供するステップと、
ｂ）少なくとも１つの訓練された機械学習モデルをクロマトグラフィーデータおよび／または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップであって、訓練された機械学習モデルは少なくとも１つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップと
を含む、方法。

【0065】

実施形態２分析物が、試料から定量される、ビタミンＤ、乱用薬物、治療薬、ホルモン、および代謝産物からなる群から選択される少なくとも１つの標的物質である、実施形態１に記載の方法。

【0066】

実施形態３回帰モデルが、ランダムフォレスト、勾配ブースティングフォレスト、部分最小二乗法、Ｌａｓｓｏ回帰、ロジスティック回帰、ベイズ回帰からなる群から選択される少なくとも１つの回帰モデルである、実施形態１または２のいずれか一項に記載の方法。

【0067】

実施形態４回帰モデルが、勾配ブースティングフォレストまたはランダムフォレストの群から選択される少なくとも１つの回帰モデルである、実施形態１～３のいずれか一項に記載の方法。

【0068】

実施形態５回帰モデルが勾配ブースティングフォレストである、実施形態１～４のいずれか一項に記載の方法。

【0069】

実施形態６回帰モデルがランダムフォレストである、実施形態１～５のいずれか一項に記載の方法。

【0070】

実施形態７完全に自動的に実行される、実施形態１～６のいずれか一項に記載の方法。

【0071】

実施形態８分類された品質が、許容可能なクロマトグラフィーデータおよび／または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび／または質量スペクトルデータとを区別するために使用され、分類された品質に基づいて許容可能または許容不可能としてクロマトグラフィーデータおよび／または質量スペクトルデータにフラグを割り当てるステップを含む、実施形態１～７のいずれか一項に記載の方法。

【0072】

実施形態９クロマトグラフィーデータおよび／または質量スペクトルデータのフラグに応じた少なくとも１つの情報を、少なくとも１つのユーザインターフェースを介してユーザに提供するステップを含む、実施形態１～８に記載の方法。

【0073】

実施形態１０機械学習モデルが特徴セットを使用し、特徴セットが、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Ｑ４比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離、および処理済データと生データから導出された場合の上述の特徴のいずれかの偏差からなる群から選択される少なくとも１つの特徴を含む、実施形態１～９のいずれか一項に記載の方法。

【0074】

実施形態１１ｃ）少なくとも１つの訓練ステップであって、訓練ステップが訓練データセットに基づいて機械学習モデルを訓練することを含む、少なくとも１つの訓練ステップ
を含む、実施形態１～１０のいずれか一項に記載の方法。

【0075】

実施形態１２訓練ステップが、異なる分析物に対する機械学習モデルを訓練することを含む、実施形態１１に記載の方法。

【0076】

実施形態１３訓練ステップが、複数の異なるアッセイに対するアッセイ開発中に実行され、異なるアッセイに対する訓練された機械学習モデルが、少なくとも１つのデータバンクに記憶される、実施形態１２に記載の方法。

【0077】

実施形態１４ステップｂ）の前に実行される少なくとも１つの選択ステップを含み、選択ステップにおいて、１つの訓練された機械学習モデルが、提供されたクロマトグラフィーデータおよび／または質量スペクトルデータを得るために使用された分析物に対して訓練された訓練済み機械学習モデルから選択される、実施形態１２または１３のいずれか一項に記載の方法。

【0078】

実施形態１５訓練データセットが、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを２つのカテゴリに手動で分類することによって生成される、実施形態１～１４のいずれか一項に記載の方法。

【0079】

実施形態１６半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータが、修正された過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含み、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータが、少なくとも１つの干渉の導入、バックグランドの導入、保持時間への少なくとも１つのシフトの導入、ピーク幅の修正、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの１つまたは複数によって修正される、実施形態１～１５のいずれか一項に記載の方法。

【0080】

実施形態１７実施形態１～１６のいずれか一項に記載の方法を実行するように構成されたテストシステムであって、
－少なくとも１つの質量分析装置によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを受信するように構成された少なくとも１つの通信インターフェースと、
－少なくとも１つの訓練された機械学習モデルをクロマトグラフィーデータおよび／または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するように構成された少なくとも１つの処理装置であって、訓練された機械学習モデルは少なくとも１つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、訓練された機械学習モデルは分析物固有の訓練された機械学習モデルである、少なくとも１つの処理装置と、
－分類された品質に関する情報をユーザに提供するように構成された少なくとも１つのユーザインターフェースと
を備える、テストシステム。

【0081】

実施形態１８実施形態１～１６のいずれか一項に記載の方法のステップａ）～ｂ）および任意にステップｃ）を実行するように構成されている、実施形態１７に記載のテストシステム。

【0082】

実施形態１９命令を含むコンピュータプログラムであって、該命令が、プログラムが実施形態１７または１８に記載のテストシステムによって実行されると、テストシステムに、実施形態１～１６のいずれか一項に記載の方法のステップａ）～ｂ）および任意にステップｃ）を実行させる、コンピュータプログラム。

【0083】

実施形態２０命令を含むコンピュータ可読記憶媒体であって、該命令が、実施形態１７または１８に記載のテストシステムによって実行されると、テストシステムに、実施形態１～１６のいずれか一項に記載の方法のステップａ）～ｂ）および任意にステップｃ）を実行させる、コンピュータ可読記憶媒体。

【図面の簡単な説明】

【0084】

さらなる任意の特徴および実施形態は、好ましくは従属請求項と併せて、実施形態の以下の説明においてより詳細に開示される。本説明では、それぞれの任意の特徴は、当業者が理解するように、単独で、ならびに任意の実現可能な組合せで実現されてもよい。本発明の範囲は、好ましい実施形態によって制約されない。実施形態は、図に概略的に示されている。実施形態において、これらの図における同一の参照番号は、同一のまたは機能的に同等の要素を指す。

【図1】本発明によるクロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのための方法の一実施形態を示す図である。

【図2】訓練された機械学習モデルの開発および展開の概略図である。

【図3a】シミュレーションシナリオを示す図である。

【図3b】シミュレーションシナリオを示す図である。

【図3c】シミュレーションシナリオを示す図である。

【図3d】シミュレーションシナリオを示す図である。

【図3e】シミュレーションシナリオを示す図である。

【図4】元の面積比からのパーセント偏差による回帰モデル結果の定義を示す図である。

【図5】本発明によるテストシステムを備える質量分析装置の一実施形態を示す図である。

【図6】モデル最適化の一例を示す図である。

【発明を実施するための形態】

【0085】

図１はクロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法のフロー図である。本方法は、以下：
ａ）少なくとも１つの質量分析装置１１２によって得られた処理済クロマトグラフデータおよび／または質量スペクトルデータを提供するステップ（参照番号１１０で示す）と、
ｂ）少なくとも１つの訓練された機械学習モデルをクロマトグラフィーデータおよび／または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップ（参照番号１１４で示す）であって、訓練された機械学習モデルは、少なくとも１つの回帰モデルを使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップと
を含む。

【0086】

質量スペクトルデータは、少なくとも１つの質量分析装置１１２を使用することによって得られたデータ、特に少なくとも１つの質量スペクトルであってもよい。クロマトグラフィーデータは、少なくとも１つのクロマトグラムであってもよい。

【0087】

品質チェックは、信頼できる自動ピーク積分と信頼できない自動ピーク積分とを区別するプロセスであってもよい。品質チェックは、生データ削減プロセスが完了したかどうか、データ品質が自動ピーク積分に適していたかどうか、および計算された公称信号および読み出し値が信頼できるかどうかの情報を判定することを含んでもよい。品質は、ＭＳ装置および／またはＬＣ装置１１２によって提供されるデータに対して実行される自動ピーク積分の信頼性の尺度であってもよい。分類された品質は、許容可能なクロマトグラフィーデータおよび／または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび／または質量スペクトルデータとを区別するために使用されてもよい。具体的には、品質は、信頼性のある自動ピーク積分については良好（許容可能）として、信頼性のない自動ピーク積分については不良（許容不可能）として分類されてもよい。品質の分類は、信頼性のある自動ピーク積分と信頼性のない自動ピーク積分とを区別することを含んでもよい。品質は、ノイズレベル、バックグランド、干渉、保持時間のシフト、ピーク幅、および内部標準信号の有無などのいくつかの要因に依存し得る。

【0088】

処理済クロマトグラフィーデータおよび／または質量スペクトルデータは、自動ピーク積分下で行われたクロマトグラフィーデータおよび／または質量スペクトルデータであってもよい。自動ピーク積分に関しては、その全内容が参照により含まれる国際公開第２０２１／０２３８６５Ａ１号パンフレットを参照されたい。

【0089】

ステップａ）１１０における提供は、特に質量分析装置を用いて少なくとも１回の測定を行い、その後データを処理することによって、処理済クロマトグラフィーデータおよび／または質量スペクトルデータを決定および／または生成および／または利用可能にすることを含んでもよい。処理済クロマトグラフィーデータおよび／または質量スペクトルデータを提供することは、特定の受信時に、質量分析装置１１２から得られたデータ処理済クロマトグラフィーデータおよび／または質量スペクトルデータを検索すること、ならびに／あるいは質量分析装置１１２を用いて少なくとも１つの測定および処理を実行し、それによって処理済クロマトグラフィーデータおよび／または質量スペクトルデータを決定することを含んでもよい。

【0090】

ステップｂ）１１４）における分類は、クロマトグラフィーデータおよび／または質量スペクトルデータを、信頼できる自動ピーク積分に対しては良好または信頼できる、信頼できない自動ピーク積分に対しては不良または信頼できないなど、少なくとも２つのカテゴリに分類することを含んでもよい。分類は、少なくとも１つの訓練された機械学習モデルを適用することによって実行される。したがって、本発明によれば、少なくとも１つの機械学習モデルは、ピーク積分の失敗を予測するために使用され、結果のリリースに関する完全に自動化された決定を提供することができる。したがって、提案された方法は、データの手動検査の必要性を排除することを可能にする。

【0091】

訓練された機械学習モデルは、少なくとも１つの回帰モデル１１６を使用する。回帰モデル１１６は、データセット内の目標変数と独立変数との関係を分析するように構成された予測モデルであってもよい。クロマトグラフィーデータの目標変数は、期待される結果値からの連続的な偏差であってもよい。質量スペクトルデータの場合、目標変数は、結果が有効であるか否かに関する二分情報であってもよい。回帰モデル１１６は、以下からなる群、すなわち、例えば、ＢｒｅｉｍａｎＬ．，Ｒａｎｄｏｍｆｏｒｅｓｔｓ，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２００１，４５（１）：５－３２に記載されているようなランダムフォレスト、Ｆｒｉｅｄｍａｎ，Ｊ．Ｈ（２００１）に記載されているような勾配ブースティングフォレスト、例えば、「ＡＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＭａｃｈｉｎｅ」、ＴｈｅＡｎｎａｌｓｏｆＳｔａｔｉｓｔｉｃｓ，２９（５）：１１８９－１２３２に記載されているようなＧｒｅｅｄｙ関数近似、例えば、Ｗｏｌｄ，Ｈ．（１９８５）、Ｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓ，ｉｎＫｏｔｚ，Ｓａｍｕｅｌ、Ｊｏｈｎｓｏｎ，ＮｏｒｍａｎＬ．（編）、Ｅｎｃｙｃｌｏｐｅｄｉａｏｆｓｔａｔｉｓｔｉｃａｌｓｃｉｅｎｃｅｓ、６．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ５８１～５９１ページに記載されているような部分最小二乗法、例えば、Ｔｉｂｓｈｉｒａｎｉ，Ｒ．（１９９６）、ＲｅｇｒｅｓｓｉｏｎＳｈｒｉｎｋａｇｅａｎｄＳｅｌｅｃｔｉｏｎｖｉａｔｈｅｌａｓｓｏ，ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ．ＳｅｒｉｅｓＢ（ｍｅｔｈｏｄｏｌｏｇｉｃａｌ）．Ｗｉｌｅｙ．５８（１）：２６７－８８に記載されているようなＬａｓｓｏ回帰、例えば、Ｈｏｓｍｅｒ，Ｄ．、Ｌｅｍｅｓｈｏｗ，Ｓ．：Ａｐｐｌｉｅｄｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ２０００に記載されているようなロジスティック回帰、または例えば、Ｂｏｘ，Ｇ．Ｅ．Ｐ．，Ｔｉａｏ，Ｇ．Ｃ．（１９７３）、ＢａｙｅｓｉａｎＩｎｆｅｒｅｎｃｅｉｎＳｔａｔｉｓｔｉｃａｌＡｎａｌｙｓｉｓ．Ｗｉｌｅｙに記載されているようなベイズ回帰から選択される少なくとも１つの回帰モデルであってもよい。例えば、回帰モデル１１６は、勾配ブースティングフォレストまたはランダムフォレストから選択される。例えば、回帰モデル１１６は、勾配ブースティングフォレストである。例えば、回帰モデル１１６は、ランダムフォレストである。

【0092】

訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである。例えば、分析物は、試料から定量される、ビタミンＤ、乱用薬物、治療薬、ホルモンおよび代謝産物からなる群から選択される少なくとも１つの標的物質である。試料は、生物学的試料および／または内部標準試料などの任意の検査試料であってもよい。試料は、１つまたは複数の分析対象物を含んでもよい。例えば、検査試料は、血液、血清、血漿、唾液、眼水晶体液、脳脊髄液、汗、尿、乳、腹水、粘液、滑液、腹腔液、羊水、組織、細胞などを含む生理学的流体からなる群から選択されてよい。試料は、それぞれの供給源から得られたものとして直接使用されてもよく、あるいは前処理および／または試料調製ワークフローに供されてもよい。例えば、試料は、内部標準の添加および／または別の溶液での希釈および／または試薬との混合などによって前処理されてもよい。例えば、分析対象物は、一般に、ビタミンＤ、乱用薬物、治療薬、ホルモン、および代謝産物であってよい。内部標準試料は、既知の濃度を有する少なくとも１つの内部標準物質を含む試料であってもよい。試料に関するさらなる詳細については、例えば、その全開示が参照により本明細書に含まれる欧州特許出願公開第３４２５３６９Ａ１号明細書を参照されたい。他の分析対象物も可能である。

【0093】

機械学習モデルは、特徴セット１１８を使用し得る。データおよびピーク積分品質に有益であると考えられる特徴セット１１８には、ピーク非対称性またはイオン比、異なる遷移間のパラメータの比、例えば分析物定量子と内部標準定量子との間の保持時間比、ピークフィットの品質を評価するための特徴、例えば残差比またはピークフィットの不確実性、ならびにノイズ、バックグランドおよびピーク形状を記述するさらなる設計特徴などの標準的なＭＳ品質パラメータが含まれてもよい。特徴セット１１８には、ピーク面積、ピークバックグランド、相対バックグランド、イオン比、Ｑ４比、保持時間比、ピーク非対称性、非対称比、ピーク幅、ピーク幅比、積分残差の面積、ピーク面積の信頼区間、質量シフト、半値全幅、信号対ノイズ比、単一サイクル比中央値、単一サイクルイオン比中央値、ピーク高さ、ピークフィット平均二乗誤差、フィット強度相関、アースムーバ距離、および処理済データ、すなわち積分されたピークおよび生データから導出されたときに言及された特徴のいずれかの偏差、例えば、フィッティングされたピークと生信号との保持時間の差からなる群から選択される少なくとも１つの特徴が含まれてもよい。ピークバックグランドは、ピーク間隔における推定バックグランドの強度を指してもよい。相対バックグランドは、ピークバックグランドとピーク高さとの比を指してもよい。イオン比は、分析物の面積または内部標準（ＩＳＴＤ）定量子の面積に対する分析物またはＩＳＴＤ定性子の面積を指してもよい。Ｑ４比は、Ｑ４＝（分析物定量子の面積／分析物定性子の面積）／（ＩＳＴＤ定量子の面積／ＩＳＴＤ定性子の面積）によって与えられ得る。保持時間比は、ＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒ／ＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ、ＲＴ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒ／ＲＴ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒまたはＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ／ＲＴ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒのうちの１つまたは複数を指してもよく、ＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒは、分析物定性子の保持時間であり、ＲＴ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒは、分析物定量子の保持時間であり、ＲＴ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒは、ＩＳＴＤ定性子の保持時間であり、ＲＴ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒは、ＩＳＴＤ定量子の保持時間である。ピーク非対称性は、ＵＳＰ４０に従って定義されてもよい非対称比は、ａｓｙｍｍｅｔｒｙ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒ／ａｓｙｍｍｅｔｒｙ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ、ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒ／ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒ、またはａｓｙｍｍｅｔｒｙ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ／ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒのうちの１つまたは複数を指すことがあり、ａｓｙｍｍｅｔｒｙ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒは、分析物定性子のピークの非対称性であり、ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒは、ＩＳＴＤ定性子のピークの非対称性であり、ａｓｙｍｍｅｔｒｙ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒは、ＩＳＴＤ定量子のピークの非対称性である。ピーク幅比は、ｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒ／ｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ、ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒ／ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒ、またはｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒ／ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒのうちの１つまたは複数を指してもよく、ｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｌｉｆｉｅｒは分析物定性子のピーク幅であり、ｗｉｄｔｈ＿ａｎａｌｙｔｅ＿ｑｕａｎｔｉｆｉｅｒは分析物定量子のピーク幅であり、ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｌｉｆｉｅｒはＩＳＴＤ定性子のピーク幅であり、ｗｉｄｔｈ＿ＩＳＴＤ＿ｑｕａｎｔｉｆｉｅｒはＩＳＴＤ定量子のピーク幅である。信号対ノイズ比は、ＵＳＰ４０に従って定義されてもよい。単一サイクル比中央値は、分析物定量子の強度とＩＳＴＤ定量子の強度との比の中央値を指してもよい。単一サイクルイオン比中央値は、分析物定量子の強度と分析物定性子の強度との比、あるいはＩＳＴＤ定量子の強度とＩＳＴＤ定性子の強度との比の１つまたは複数の中央値を指してもよい。ピークフィット平均二乗誤差は、平均［（平滑化された強度／フィッティングされた強度の面積／面積）２］によって与えられてもよい。フィット強度相関は、ｃｏｒ（平滑化強度、フィット強度）またはｃｏｒ（前処理強度、フィット強度）の１つまたは複数を指してもよい。アースムーバ距離に関しては、例えばｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｅａｒｔｈ＿ｍｏｖｅｒ％２７ｓ＿ｄｉｓｔａｎｃｅを参照されたい。特徴の豊富なセットは、クロマトグラフィーデータおよび／または質量スペクトルデータから導出され得て、回帰モデルを構築するために使用され得る。モデルの訓練は、特徴ランキングを決定することを含んでもよい。モデルの訓練は、特徴を選択することを含んでもよい。

【0094】

図２は、訓練された機械学習モデル、この場合は回帰モデル１１６の開発および展開の概略図を示す。特徴セット１１８の特徴は、ピーク積分の失敗の同等物としての面積比偏差を予測するための回帰モデル１１６において組み合わされてもよい。次いで、訓練された回帰モデルは、ステップｂ）１１４で実行されるように、新しい測定値の品質状態を予測するために展開されてもよい。図２では、左から右に、特徴セット１１８、例示的な回帰モデル１１６、ならびに例示的な処理済クロマトグラフィーデータおよび／または質量スペクトルデータに対する訓練された回帰モデル１１６の適用が示されている。右上のプロットでは、処理済クロマトグラフィーデータおよび／または質量スペクトルデータは、ステップｂ）において良好と分類され、右下のプロットでは不良と分類される。

【0095】

回帰モデル１１６、例えばランダムフォレストおよび勾配ブースティングは、評価時間および必要なディスクスペースに関して妥当なモデル複雑度で良好な性能を示すことが分かった。アルゴリズムのタイプ、特徴の数、ツリーの数およびサイズなどのモデルパラメータは、再サンプリング技術によって調整されてもよい。

【0096】

ランダムフォレストの場合、ランダムフォレストは特徴を増やすことで性能が向上することが分かった。勾配ブースティングフォレストの場合、勾配ブースティングフォレストは特徴を減らすことで性能が向上することが分かった。特徴選択は、多くのデータ分割および／またはモデルにわたって「安定した」上位の特徴が選択されるように実行されてもよい。本方法は、新たに作成された特徴の評価を含む特徴エンジニアリングを含んでもよい。例えば、勾配ブースティングフォレスト場合、最小のリーフサイズ５０および４００のツリーで５０個の特徴が使用されてもよい。

【0097】

本方法は、少なくとも１つの訓練ステップであるステップｃ）１２０を含んでもよい。訓練ステップは、訓練データセットに基づいて機械学習モデルを訓練することを含んでもよい。

【0098】

訓練は、訓練された機械学習モデルを構築するプロセス、特にモデルのパラメータ、特に重みを決定するプロセスを含んでもよい。訓練は、モデルのパラメータを決定および／または更新することを含んでもよい。訓練は、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータに対して実行されてもよい。訓練は、例えばＭＳおよび／またはＬＣ－ＭＳ装置の操作中などに、追加のクロマトグラフィーデータおよび／または質量スペクトルデータを得た後に、訓練されたモデルを再訓練することを含んでもよい。

【0099】

訓練ステップ１２０は、異なる分析物に対する機械学習モデルの訓練を含んでもよい。訓練ステップ１２０は、複数の異なるアッセイに対するアッセイ開発中に実行されてもよく、異なるアッセイに対する訓練された機械学習モデルは、少なくとも１つのデータバンクに記憶される。データバンクは、データ処理構成ファイルを含んでもよく、計器上でのピーク積分結果の自動フラグ付けを可能にする。本方法は、例えばステップｃ）の一部として、ステップｂ）の前に実行される少なくとも１つの選択ステップを含んでもよく、選択ステップにおいて、１つの訓練された機械学習モデルは、提供されたクロマトグラフィーデータおよび／または質量スペクトルデータを得るために使用された分析物に対して訓練された訓練済み機械学習モデルから選択される。

【0100】

【0101】

過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、少なくとも１つの質量分析装置を使用することによって得られた測定結果を含んでもよい。過去のデータは、実際のデータであってもよい。過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、いくつかの分析物を測定し、異なるシナリオを有する異なる計器からのデータを含んでもよい。過去の訓練データセットの例は、１１週間の期間中に一方のシステムからの２つの計器および他方のシステムからの３つの計器で測定された、５つの異なる分析物を含む約５００個のクロマトグラフィー測定値を含んでもよい。

【0102】

訓練データセットは、半合成データセットとも呼ばれる半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む。半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータに基づいてシミュレートされてもよい。半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、実際の測定されたクロマトグラフィーデータおよび／もしくは質量スペクトルデータに定義された外乱を適用ならびに／またはシミュレートすることによって生成されてもよい。半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、修正された過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含んでもよい。過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、少なくとも１つの干渉の導入、バックグランドの導入、保持時間への少なくとも１つのシフトの導入、ピーク幅の変更、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの１つまたは複数によって修正されてもよい。半合成シミュレーション手法は、シミュレーション研究において真実を知る利点を、現実世界の特性を有するデータセットの提供と組み合わせたものである。モデル訓練のためにシミュレートされたデータセットを使用することは、測定の真の状態を客観的に定義できること、まれなケースおよび「グレーゾーン」を調査できること、試料サイズの点でスケーラブルであることなど、実際のデータに比べていくつかの利点を有する。可能な限り実際のデータに類似させるために、半合成手法が採用され、実際の測定値は制御された方法で修正される。

【0103】

図３、ａ～ｅは、異なるシミュレーションシナリオを示す。上段は実際のデータを示し、下段は実際のデータ＋導入された外乱を示す。図３ａでは、遷移、位置、分解能、および相対的な高さを変えることによって、少なくとも１つの干渉が導入された。図３ｂでは、シフトを変えることによって保持時間のシフトが導入された。図３ｃでは、高さおよび曲率を変えることによってバックグランドが導入された。図３ｄでは、スケールファクタを変えることによってピーク幅を変化させた。図３ｅでは、欠落したＩＳＴＤ信号がシミュレートされた。

【0104】

半合成データセットは、以下のように生成されてもよい。ピークが明瞭で積分結果が信頼できる（手動でキュレートされた）実際のクロマトグラムが選択され、その後、ピーク積分にとって困難な状況に似せるように修正されてもよい。半合成データセットの生成は、以下の状況、すなわち、干渉、バックグランド、保持時間のシフト、ピーク幅、および内部標準信号の欠落のうちの１つまたは複数を考慮することを含んでもよい。例えば、干渉を考慮するために、実際の内部標準ピークのフィット強度が分析物ピークの隣の生の強度に追加される。ピーク間の距離によって、様々な分解能を調べることができる。人工的な干渉ピークの高さは、目的のピークと干渉との間の異なる相対的なピーク高さをシミュレートするために拡大または縮小され得る。例えば、バックグランドを考慮するために、変化するバックグランド信号をシミュレートするために、最初にステップ関数が生成され、ステップの高さは均一分布から引き出される。最大ステップ高さによって、シミュレートされたバックグランドの大きさが制御され得る。次に、バックグランドフィットがステップ関数に適用され、得られた曲線が実際のクロマトグラム強度に追加される。バックグランドフィットにおける曲率パラメータは、人工バックグランドの曲率を操作することを可能にする。例えば、保持時間のシフトを考慮するために、実際の信号を時間スケールに沿ってシフトさせることによって、保持時間のばらつきを容易にシミュレートすることができる。例えば、ピーク幅を考慮するために、フィッティング関数の各パラメータを変更することによってピークフィットが再スケーリングされる。ピーク下の面積を維持するために、強度を再スケーリングする。次いで、元のデータから再スケーリングされたノイズが新しいピークフィットに追加される。例えば、内部標準信号の欠落を考慮するために、内部標準のクロマトグラムを二重ブランク試料のクロマトグラムに置き換える。

【0105】

シミュレートされたデータ、すなわちクロマトグラフィーデータおよび／もしくは質量スペクトルデータは、実際のデータ、すなわち過去の合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータよりもはるかに高い割合の不良ケースおよびはるかに高い割合のボーダラインケースを有することがある。訓練のために実際のデータの一部を含めると、モデルの性能を向上させることができる。実際のデータの他の部分は、訓練されたモデルをテストするために使用されてもよい。実際のデータは、手動でラベル付けされた真のデータセットであってもよい。

【0106】

【0107】

標準的なピーク形状を有する分析物（例えば、Ｔｅｓｔｏｓｔｅｒｏｎｅ）の例示的な機械学習モデルを半合成データセットで訓練した。機械学習モデルは、異なる計器での１０回の試料実行から取得された２４１個の手動でラベル付けされた実際の測定値で訓練された。１２１個は手動で不良とラベル付けされ、１２０個は手動で良好とラベル付けされた。訓練された機械学習モデルを使用したピーク積分の品質チェックは、１２０個の「良好な」測定値すべてを正しく分類した。１２１個の「不良」測定値のうちの５個は、訓練された機械学習モデルによって「良好」と分類された。精度は０．９７９３、偽陽性率は０．００００、偽陰性率は０．０４１３と決定された。

【0108】

導入された「妨害要因」によってデータがどの程度影響を受けるかの尺度は、作成された半合成データについて計算された面積比結果の、元の実際のデータセットの面積比からのパーセント偏差であってもよい。面積比偏差は、回帰モデルの連続的な結果を表す。次いで、例えば１０％を超える面積比偏差のしきい値を考慮して測定値にフラグを付けることによって、エラー処理のためのゴールドスタンダードを定義することができる。バイナリフラグは、精度および偽陽性／偽陰性率に関して予測性能を評価する際の真の状態として機能する。図４は、元の面積比からのパーセント偏差による回帰モデル結果の定義を示す。図４の上段は、Ａ～Ｅで示される５つの積分ピークを示す。図４の下側のプロットは、Ａ～Ｅについて、予測に対する連続的な結果としてのパーセント面積比偏差を示す。さらに、＞１０％のしきい値が示されている。

【0109】

次いで、訓練された機械学習モデルは、ステップｂ）で実行されるように、新しい測定値の品質状態を予測するために展開されてもよい。異なる分析物および／または異なるクロマトグラフィータイプに対する訓練された機械学習モデルは、データ処理構成ファイルに転送されてもよい。データ処理構成ファイルは、質量分析装置１１２の少なくとも１つのデータ記憶部に記憶されてもよい。これにより、質量分析装置１１２のピーク積分結果の自動フラグ付けを可能にすることがある。

【0110】

図５は、本発明によるテストシステム１２２を備える質量分析装置１１２の一実施形態を示す。テストシステム１２２は、
－少なくとも１つの質量分析装置１１２によって得られた、処理済クロマトグラフィーデータおよび／または質量スペクトルデータを受信するように構成された少なくとも１つの通信インターフェース１２４と、
－少なくとも１つの訓練された機械学習モデルをクロマトグラフィーデータおよび／または質量スペクトルデータに適用することによってクロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するように構成された少なくとも１つの処理装置１２６であって、訓練された機械学習モデルは少なくとも１つの回帰モデル１１６を使用し、訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、訓練された機械学習モデルは分析物固有の訓練された機械学習モデルである、少なくとも１つの処理装置１２６と、
－分類された品質に関する情報をユーザに提供するように構成された少なくとも１つのユーザインターフェース１２８と
を備える。

【0111】

図６は、モデル最適化の一例を示す。この表は、異なるモデル設定に対してデータ再サンプリングによって導出された曲線下面積（ＡＵＣ）値を含み、左ブロックに勾配ブースティングフォレスト（ＧＢＲ）、右ブロックにランダムフォレスト回帰（ＲＦＲ）、列に推定器の数（「ｎｕｍ＿ｅｓｔ」＝ツリーの数）、次元の数（「ｄ」＝特徴の数）および行に最小リーフサイズ（「ｍｓｌ」＝ツリーのサイズ）がある。より暗い色およびより大きい値は、より良好なモデル性能を示す。

【符号の説明】

【0112】

１１０ステップａ）
１１２質量分析装置
１１４ステップｂ）
１１６回帰モデル
１１８特徴セット
１２０ステップｃ）
１２２テストシステム
１２４通信インターフェース
１２６処理装置
１２８ユーザインターフェース

【図1】

【図2】

【図3a】

【図3b】

【図3c】

【図3d】

【図3e】

【図4】

【図5】

【図6】

【手続補正書】

【提出日】2024-03-06

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

クロマトグラフィーデータおよび／または質量スペクトルデータの自動品質チェックのためのコンピュータ実装方法であって、
ａ）少なくとも１つの質量分析装置（１１２）によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを供給するステップ（１１０）と、
ｂ）前記クロマトグラフィーデータおよび／または質量スペクトルデータに対し少なくとも１つの訓練された機械学習モデルを適用することによって、前記クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するステップ（１１４）であって、
前記訓練された機械学習モデルは少なくとも１つの回帰モデル（１１６）を使用し、前記訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含んだ少なくとも１つの訓練データセットで訓練され、前記訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、ステップ（１１４）と、
を含む、方法。

【請求項2】

【請求項3】

前記回帰モデル（１１６）が、ランダムフォレスト、勾配ブースティングフォレスト、部分最小二乗法、Ｌａｓｓｏ回帰、ロジスティック回帰、ベイズ回帰からなる群から選択される少なくとも１つの回帰モデルである、請求項１に記載の方法。

【請求項4】

完全に自動で実行される、請求項１に記載の方法。

【請求項5】

分類された前記品質は、許容可能なクロマトグラフィーデータおよび／または質量スペクトルデータと許容不可能なクロマトグラフィーデータおよび／または質量スペクトルデータとの間を区別するために使用され、
当該方法が、前記分類された品質に基づいて、許容可能または許容不可能なものとして、前記クロマトグラフィーデータおよび／または質量スペクトルデータにフラグを割り当てるステップを含む、請求項１に記載の方法。

【請求項6】

少なくとも１つのユーザインターフェース（１２８）を介して、前記クロマトグラフィーデータおよび／または質量スペクトルデータの前記フラグに応じた少なくとも１つの情報を、ユーザに提供するステップを含む、請求項５に記載の方法。

【請求項7】

【請求項8】

ｃ）少なくとも１つの訓練ステップ（１２０）であって、前記訓練データセットに基づいて前記機械学習モデルを訓練することを含む、少なくとも１つの訓練ステップ（１２０）
を含む、請求項１に記載の方法。

【請求項9】

前記訓練ステップ（１２０）が、異なる分析物に対する機械学習モデルの訓練を含む、請求項８に記載の方法。

【請求項10】

前記訓練データセットは、前記過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または前記半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータが、２つのカテゴリに手動で分類されることによって生成される、請求項１に記載の方法。

【請求項11】

前記半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータが、修正された過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含み、
前記過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータが、少なくとも１つの干渉の導入、バックグランドの導入、保持時間への少なくとも１つのシフトの導入、ピーク幅の修正、内部標準信号の二重ブランク試料からのクロマトグラムへの置き換えのうちの１つまたは複数によって修正される、請求項１に記載の方法。

【請求項12】

請求項１から１１のいずれか一項に記載の方法を実行するように構成されたテストシステム（１２２）であって、
－少なくとも１つの質量分析装置（１１２）によって得られた処理済クロマトグラフィーデータおよび／または質量スペクトルデータを受信するように構成された少なくとも１つの通信インターフェース（１２４）と、
－前記クロマトグラフィーデータおよび／または質量スペクトルデータに対し少なくとも１つの訓練された機械学習モデルを適用することによって、前記クロマトグラフィーデータおよび／または質量スペクトルデータの品質を分類するように構成された少なくとも１つの処理装置（１２６）であって、
前記訓練された機械学習モデルが少なくとも１つの回帰モデル（１１６）を使用し、
前記訓練された機械学習モデルは、過去のクロマトグラフィーデータおよび／もしくは質量スペクトルデータ、ならびに／または半合成のクロマトグラフィーデータおよび／もしくは質量スペクトルデータを含む少なくとも１つの訓練データセットで訓練され、前記訓練された機械学習モデルは、分析物固有の訓練された機械学習モデルである、少なくとも１つの処理装置（１２６）と、
－分類された前記品質に関する情報をユーザに提供するように構成された少なくとも１つのユーザインターフェース（１２８）と、
を備える、テストシステム（１２２）。

【請求項13】

前記ステップａ）からｂ）および任意に前記ステップｃ）を実行するように構成されている、請求項１２に記載のテストシステム（１２２）。

【請求項14】

命令を含むコンピュータプログラムであって、前記命令が、前記プログラムが請求項１２に記載のテストシステム（１２２）によって実行されると、前記テストシステムに、前記ステップａ）からｂ）および任意に前記ステップｃ）を実行させる、コンピュータプログラム。

【請求項15】

命令を含むコンピュータ可読記憶媒体であって、前記命令が、請求項１２に記載のテストシステム（１２２）によって実行されると、前記テストシステムに、前記ステップａ）からｂ）および任意に前記ステップｃ）を実行させる、コンピュータ可読記憶媒体。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版