【文献】
Najla Almasoud, et al.,"Optimization of matrix assisted desorption/ionization time of flight mass spectrometry (MALDI-TOF-MS) for the characterization of Bacillus and Brevibacillus species",Analytica Chimica Acta,2014年 8月20日,Vol.840,pp.49-57,URL,doi:10.1016/j.aca.2014.06.032
【文献】
Anja Freiwald et al.,"Phylogenetic classification and identification of bacteria by mass spectrometry",NATURE PROTOCOLS,2009年 5月,Vol.4, No.5,pp.732-742,URL,doi:10.1038/nprot.2009.37
(58)【調査した分野】(Int.Cl.,DB名)
前記参照質量対電荷のリストを最適化するステップを含み、前記最適化ステップが、前記調整ステップのうちの少なくとも1つの調整ステップの後に得られた調整の品質に基づく、請求項1または2に記載の同定方法。
前記さまざまな亜群に共通し、前記1つの群の各前記亜群の前記ピークの存在の頻度の統計的基準に従って推測された参照質量対電荷のリストを、調整モデルの前記構築が使用する、請求項1から5のいずれか一項に記載の同定方法。
前記離散化ステップが、前記スペクトルの前記取得の後に得られた質量対電荷の区間に関して制限された質量対電荷の前記区間にわたって実行される、請求項7に記載の同定方法。
前記近似ステップが、保持された各質量対電荷の付近に存在するピークの位置の分布を代表する位置を探索することからなる、請求項5から8のいずれか一項に記載の同定方法。
関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築する前記ステップが、前記取得されたスペクトルの質量対電荷を離散化するステップを含む、請求項1から9のいずれか一項に記載の同定方法。
関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築する前記ステップが、前記取得されたスペクトルの強度を処理するステップを含む、請求項1から10のいずれか一項に記載の同定方法。
関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築する前記ステップが、前記取得されたスペクトルの品質を制御するステップを含む、請求項1から11のいずれか一項に記載の同定方法。
関連群ごとに1つの知識ベースおよび1つの分類モデルを構築する前記第1のステップのために取得された前記スペクトルが、関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築する前記第2のステップのために直接に使用され、学習微生物の群および亜群が既知である、請求項1から13のいずれか一項に記載の同定方法。
【発明の概要】
【0011】
本発明の目的は、取得される質量スペクトルのピークの位置の精度を向上させることによってこの変動性を小さくすることにある。
【0012】
本発明の他の目的は、また既存の試料調製法を変更しない方法であって、既存のプロトコールを用いて直接に使用することができる方法、すなわち追加の内標準または外標準を特に必要としない方法を提供することにある。
【0013】
本発明の目的は、群レベルで微生物を同定した後に亜群レベルで微生物を同定することができる方法を提供することにある。
【0014】
したがって、本発明の1つの主題は、不明微生物の群を同定した後に同じ微生物の亜群を質量分析によって同定する方法である。
【0015】
この目的のため、本発明は、質量分析によって不明微生物亜群を一組の参照亜群の中で同定する方法であって、
・前記群に属する微生物として同定された微生物の一組の学習スペクトルに基づいて、関連群ごとに1つの知識ベースおよび1つの分類モデルを構築する第1のステップと、
・その群の前記亜群に属する微生物として同定された微生物の少なくとも一組の学習スペクトルの取得に基づいて、関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築する第2のステップであり、
○取得されたスペクトルの質量対電荷オフセットをそれらのさまざまな亜群に共通する参照質量対電荷に基づいて補正することを可能にする調整モデルを構築すること、
○学習スペクトルの全てのピークリストの質量対電荷を調整すること、
○調整された学習スペクトルに基づいて、亜群ごとに1つの分類モデルおよび関連知識ベースを構築すること
を含む第2のステップと、
・不明微生物を1つの亜群に分類する第3のステップであり、
○不明微生物の少なくとも1つのスペクトルを取得すること、
○前記群ごとの分類モデルおよび前記群ごとの知識ベースに従って、前記スペクトルを1つの群に分類すること、
○不明微生物のスペクトルの質量対電荷オフセットを補正することを可能にする調整モデルに従って、前記スペクトルの全てのピークリストの質量対電荷を調整すること、
○前記亜群ごとの分類モデルおよび亜群ごとの知識ベースを用いて、前記1つの群の1つの亜群に分類すること
を含む第3のステップと
を含む方法に関する。
【0016】
したがって、本発明は、不明微生物の群が同定された後、直接に、同じ微生物の亜群(亜種、株の型など)を質量分析によって同定することを可能にする。これは全て、不明微生物を含む試料の質量スペクトルの2回目の取得することなしに、また、内標準を追加することなしに達成される。
【0017】
したがって、本発明は、質量対電荷の精度に対して、内標準の使用と同じ効果を有し、単純な群レベル同定とまったく同じルーチンの操作モードを同一の質量分析装置のユーザに提案することを可能にする。加えて、本発明は、亜群レベル知識ベースを開発するのに要する時間および不明微生物をルーチンとして分類するのに要する時間に関して特に経済的であり、内標準または外標準の追加のコストを削減する。さらに、分類モデルおよび関連知識ベースを構築するのに要する介入の数、ならびに不明微生物をルーチンとして分析するのに要する介入の数を制限するために、本発明に基づく方法のステップの大部分を自動化することができる。
【0018】
群および亜群とは、知識ベースの構築において使用される参照微生物のタイプ、例えば進化および/または表現型および/または遺伝子型に関するタイプのツリーの形態の階層的表現を意味する。亜群レベルは常に群の部分集合に対応する。したがって、細菌の場合には、群が、従来の分析技法の意味で種であることがあり、亜群はおそらく、その群の亜種またはその群の特定の表現型でさえある。しかしながら、群が、従来の分析技法を用いて識別することができない複数の種からなることもあり、したがって、対応するそれぞれの亜群はおそらく、それらの種のうちの1つまたは複数の種に対応する。
【0019】
有利には、参照質量対電荷のリストを最適化するステップを実行することができ、このステップは、前記調整ステップのうちの少なくとも1つの調整ステップの後に得られた調整の品質に基づく。
【0020】
前記さまざまな亜群に共通する参照質量対電荷は、予め知られている質量対電荷に基づいて、または前記群のそれぞれの亜群のピークの存在の頻度の統計的基準に従って推測された質量対電荷に基づいて、同定および選択することができる。
【0021】
そのために、本発明に基づく方法は、
・それぞれの亜群のそれぞれのスペクトルの質量対電荷の空間を離散化すること、
・離散化ステップによって画定された質量対電荷の付近のピークの存在または非存在を許容係数(tolerance factor)に従って検出すること、
・それぞれの亜群のピークの存在の頻度に応じて前記質量対電荷をフィルタリングすること、
・保持された質量対電荷の位置を近似すること
からなるステップを含むことができる。
【0022】
有利には、離散化ステップを、スペクトルの取得の後に得られた質量対電荷の区間(interval)に関して制限された質量対電荷の区間にわたって実行することができる。有利には、近似ステップが、保持されたそれぞれの質量対電荷の付近に存在するピークの位置の分布を代表する位置を探索することからなることができる。
【0023】
したがって、この方法の参照質量対電荷の同定は、分類モデルの開発と分類モデルのルーチンの使用の両方に関して亜群の知識ベースの構築のために取得されたスペクトルのピークの存在の頻度の統計的分析に基づくことができる。
【0024】
有利には、この方法が、関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築するステップの中に、
・取得されたスペクトルの質量対電荷オフセットを前記さまざまな亜群に共通する参照質量対電荷に基づいて補正することを可能にする第2の調整モデルを構築すること、
・学習スペクトルの全てのピークリストの質量対電荷を第2の調整モデルに基づいて調整する第2のステップ
を含む。
【0025】
有利には、この方法が、関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築するステップの中に、質量対電荷を調整するステップのうちの少なくとも1つのステップの後に調整を制御するステップを含む。
【0026】
有利には、調整モデルのパラメータを、ロバストな推定法と呼ばれる方法を用いて得ることができる。
【0027】
有利には、前記さまざまな亜群に共通する既知の参照質量対電荷が、
・参照質量対電荷の付近のピークの存在または非存在を許容係数に従って検出すること、
・それぞれの亜群のピークの存在の頻度に応じて前記質量対電荷をフィルタリングし、かつ/または保持された参照質量対電荷の位置を近似すること
からなるステップを用いて選択される。
【0028】
有利には、関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築するステップが、取得されたスペクトルの質量対電荷を離散化するステップを含む。
【0029】
有利には、関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築するステップが、取得されたスペクトルの強度を処理するステップを含む。
【0030】
有利には、関連亜群ごとに1つの知識ベースおよび1つの分類モデルを構築するステップが、取得されたスペクトルの品質を制御するステップを含む。
【0031】
一実施形態によれば、質量分析がMALDI−TOF質量分析である。
【0032】
本発明の別の主題は、質量分析によって微生物を同定するデバイスであって、
■同定する微生物の質量スペクトルを生成することができる質量分析計と、
■前記請求項のいずれか一項に記載の方法を実装することによって、質量分析計によって生成された質量スペクトルに関連づけられた微生物を同定することができるコンピュータシステムと
を備えるデバイスである。
【0033】
本発明の別の主題は、質量分析によって微生物を同定するデバイスであって、
■同定する微生物の少なくとも1つの質量スペクトルを取得することができる質量分析計と、
■質量分析計によって取得された前記少なくとも1つの質量スペクトルに関連づけられた微生物を同定することができるコンピュータシステムと
を備え、前記システムが、
− コンピュータメモリであり、
○微生物の群ごとの1つの知識ベースおよび1つの分類モデルと、
○微生物の亜群ごとの1つの知識ベースおよび1つの分類モデルと、
○質量分析計によって取得されたスペクトルの質量対電荷オフセットを、亜群ごとの知識ベースおよび亜群ごとの分類モデルの前記さまざまな亜群に共通する参照に基づいて補正する調整モデルと、
○取得された質量スペクトルに基づいてピークリストを作成するコンピュータ命令と、
○前記群ごとの分類モデルおよび前記群ごとの知識ベースに従って、微生物を、作成されたピークリストに応じた1つの群に分類するコンピュータ命令と、
○調整モデルに従ってピークリストを調整するコンピュータ命令と、
○前記亜群ごとの分類モデルおよび前記亜群ごとの知識ベースに従って、微生物を、調整されたピークリストに応じた1つの亜群に分類するコンピュータ命令と
を記憶したコンピュータメモリ、
− コンピュータメモリに記憶されたコンピュータ命令を実装して、微生物を1つの群および1つの亜群に分類するマイクロプロセッサベースのコンピュータユニット、
− 分類の結果を記憶するコンピュータメモリおよび/または分類の結果を表示する表示画面
を備える、デバイスである。
【0034】
このコンピュータシステムは、部分的にもしくは完全に質量分析計に組み込まれているか、または通信ネットワークによって質量分析計に接続されている。この通信ネットワークは無線通信ネットワークであってもまたはそうでなくてもよい。このシステムは例えば、1つまたは複数のパーソナルコンピュータ、サーバ、プリント回路板、ディジタル信号プロセッサ(またはDSP)を含み、このシステムは一般に、例えばコンピュータメモリに記憶するためおよび/または画面上に表示するためにデータを受け取り、記憶し、処理し、処理されたデータを出力として生成することができるマイクロプロセッサベースのシステムである。このシステムはおそらくそれ自体が、特定のデータの処理およびそれらの中での通信を担当するマイクロプロセッサベースの1つまたは複数のコンピュータユニットを備える。例えば、質量分析計に第1のコンピュータユニットが組み込まれており、この第1のコンピュータユニットが、測定された信号の前処理(例えば飛行時間信号の質量対電荷信号への変換、質量スペクトルを得ることを可能にする処理の全部もしくは一部、および/または質量スペクトルから導き出されるピークリストを得ることを可能にする処理の全部もしくは一部)を担当し、例えばより多くの実質的な演算資源を有する第2のリモートコンピュータユニットが、微生物の同定に至る残りの処理を実行するために第1のコンピュータユニットに接続されている。例えばクラウドコンピューティング型のサービスを提供するのは、第2のコンピュータユニットの問題であることがある。コンピュータメモリは例えば大容量記憶デバイス(例えばハードディスク)である。
【0035】
微生物を同定する本発明に基づくデバイスはさらに、前述の分類する第3のステップを実装するのに必要なデータおよび命令を記憶している。
【0036】
例えば、これらのデータ(知識ベース、分類モデル、調整モデルなど)および命令は、本発明を実施する目的に使用可能なコンピュータ資源を既に有する先行技術の同定デバイスに組み込まれている。特に、本発明は、本出願の出願人によって販売されているVitek(登録商標) MSを備える同定システムによって実装される。
【0037】
本発明は、添付図面を参照して以下の説明を読むことによってより完全に理解される。以下の説明は、単に例として提供される。
【発明を実施するための形態】
【0039】
次に、
図1の流れ図を参照して本発明に基づく方法を説明する。
【0040】
この方法は、群ごとに、前記群に属する微生物として同定された微生物の一組の学習スペクトルから、1つの知識ベースおよび1つの分類モデルを構築する第1のステップ100を含む。一般に、このステップは、不明微生物の質量スペクトルが前記群に属するのかどうかを取得したスペクトルのピークリストに基づいて判定することを可能にする知識ベースおよび分類モデルを所与の1つまたは複数の群について得ることを目的とする多数の手法で実行することができる。分光計によって実装される後述するステップ110を除き、ステップ100は、コンピュータによって、例えば1つまたは複数のパーソナルコンピュータ、サーバ、プリント回路板、ディジタル信号プロセッサ(またはDSP)によって、一般に、例えばコンピュータメモリに記憶するためおよび/または画面上に表示するためにデータを受け取り、記憶し、処理し、処理されたデータを出力として生成することができるマイクロプロセッサベースのシステムによって実装される。このシステムはおそらくそれ自体が、特定のデータの処理およびそれらの中での通信を担当するマイクロプロセッサベースの1つまたは複数のユニットを備える。
【0041】
この第1のステップ100の一実施形態の例が
図2に詳細に示されている。したがって、ステップ100は、1つの群に属する微生物として同定された1種または数種の微生物の一組の学習質量スペクトルおよび外部較正質量スペクトルを、MALDI−TOF質量分析によって取得するステップ110から始めることができる(MALDI−TOFは、Matrix−assisted laser desorption/ionization time−of−flight(マトリックス支援レーザー脱離/イオン化飛行時間型)の頭字語である)。MALDI−TOF質量分析はそれ自体がよく知られており、したがって以下でより詳細に説明することはしない。読者は例えばJackson O.Lay、「Maldi−tof spectrometry of bacteria」、Mass Spectrometry Reviews、2001、20、172〜194を参照することができる。次いで、取得したスペクトルを前処理する。具体的には、それ自体が知られている手法で、取得したスペクトルの雑音を除去し、取得したスペクトルを平滑化し、または必要ならば取得したスペクトルのベースラインを除去する。
【0042】
この質量スペクトルの取得は、ホルダ上の試料の1つの位置またはさまざまな位置にある当該の試料にレーザー光を何度か照射することからなることができる。得られるスペクトルは、加算、平均の計算、中央値の計算、またはそれぞれの照射のそれぞれのスペクトルの強度の寄与に重み付けして「合成」スペクトルを形成することを目的とする任意の他の方法によって得られる「合成」スペクトルからなる。それ自体がよく知られている照射のこの累積は特に、信号対雑音比を増大させ、同時に、試料、装置、取得が実行された条件などに起因する再現不能の(non−repeatable)効果の影響を制限することを可能にする。
【0043】
次いで、120で、取得したスペクトル中に存在するピークを、例えば極大の検出に基づくピーク検出アルゴリズムによって検出するステップを実行する。このようにして、取得したそれぞれのスペクトルのピークのリストを作成する。前記リストは、そのスペクトルのピークの箇所(質量対電荷値とも呼ばれる)および強度を含む。
【0044】
有利には、それらのピークは、予め設定された[m
min;m
max]トムソン(thomson:Th)の範囲内で、好ましくは[m
min;m
max]=[3000;17000]トムソンの範囲で検出される。具体的には、質量対電荷比のこの範囲内には微生物を同定するのに十分な情報が含まれることが観察されており、したがってこれよりも大きな範囲を考慮する必要はない。
【0045】
この方法は続いて、130で、取得した較正質量スペクトルに基づく外部較正ステップを実行する。この外部較正は、観察されるピークがそのピークの理論上の位置と一致するように、参照試料の質量スペクトルのm/z軸を調整することからなる。参照試料の内容は既知である。大腸菌(Escherichia coli)株は、例えば質量対電荷の偏差を検出し、質量対電荷のオフセットを補正する外標準の役目を果たすことができる。このキャリブレーターに対して、特性質量対電荷に対応する参照ピークのリストが予め定義される。この較正ステップでは、そのスペクトルのピークリスト内で、これらの特性質量対電荷に対応する参照ピークの存在を、予想される位置の所与の許容差で探索する。次いで、観察された位置に応じてそのスペクトルを再整列させる。次いで、取得したキャリブレーターピークを参照ピークと再整列させるのに使用した変換を使用して、その試料のスペクトルのピークを再整列させる。
【0046】
このステップ130の実装態様の一例によれば、それぞれの取得群(例えば本出願の出願人によって販売されているVITEK(登録商標) MS装置用の取得ホルダ上の4×4個の箇所)について、前記取得群の較正用に予約された箇所に較正大腸菌株(ATCC8739)を置く。較正株のスペクトルを取得した後、大腸菌の特性質量対電荷に対応する11個の参照ピークの存在を、それらのピークの予想される位置の付近で、0.07%の許容差で探索する。予想される位置区間内で、11個のピークのうち少なくとも8つのピークが見つかった場合には、較正株のスペクトルのそれらのピークを再整列させて、それらの参照位置を反映させる。次いで、取得したキャリブレーターピークを参照ピークと再整列させるために使用した変換、例えば1次または2次の多項式変換を使用して、取得群の他の全ての箇所のスペクトルのピークを再整列させる。
【0047】
任意選択で、予防措置として、検出された参照ピークが最小数に達しない場合、例えば検出された特性質量対電荷が8つよりも少ない場合には、この取得操作をやめることができる。予想される参照ピークの位置を中心とする許容差を0.15%まで増大させることも可能である。その場合に、増大させた新たな許容差で少なくとも5つの特性質量対電荷が検出された場合には、最初にキャリブレータースペクトルのピークを再整列させ、次いで、最初の0.07%の許容差でより多くの参照ピークを探索することが好ましい。より多くのピークが見つかった場合には、決定された変換を使用して、スペクトルのピークの2回目の再整列を実行する。
【0048】
この較正ステップの後に、取得群を構成する他の試料のピークの取得、前処理および検出を実行してもよい。決定された変換は、それらの試料のスペクトルに対応するピークリストに適用される。あるいは、ステップ130は、取得ステップ110で試料と混合されたキャリブレーターに基づく内部調整ステップからなることもでき、またはこのような内部調整ステップによってステップ130を補うこともできる。
【0049】
較正ステップ130の後、本発明に基づく方法は、取得したスペクトルの品質を制御するステップ140、および/または質量対電荷を離散化するステップ150、および/またはスペクトルの強度を処理するステップ155を含むことができる。これらのステップ140、150、155を実行する順序は変更することができる。
【0050】
したがって、任意選択で、この方法は続いて、140で、取得したスペクトルの品質を制御するステップを実行する。例えば、同定されたピークの数が十分であることを確かめることができる。ピークの数が少なすぎると、取得したスペクトルを使用して当該の微生物を分類することができず、ピークの数が多すぎるのは雑音のしるしである。加えて、スペクトルの品質を制御するこのステップで、検出されたピークの強度に基づくテストを実行することもできる。
【0051】
ステップ130および任意選択でステップ140の後、質量対電荷を離散化するステップ150、または質量対電荷をビン(bin)に入れるステップ150を実行することができる。そのために、[m
min;m
max]トムソン範囲を複数の幅区間またはビンにさらに分割する。この幅区間またはビンの幅は例えば一定とするかまたは対数目盛上で一定とする。複数のピークを含むそれぞれの区間について単一のピークを維持することができる。有利には、そのピークが最大強度を有する。したがって、この方法を使用して、スペクトルを整列させ、質量対電荷の位置のわずかな誤差の影響を低下させる。達成される整列は、離散化区間のサイズに直接に関係する。このようにして、測定されたスペクトルのそれぞれのピークリストから、より短いリストを作成する。そのリストのそれぞれの構成要素は、離散化の1つの区間に対応し、その区間に対して維持されるピークの強度を値に対して有する。値「0」は、その区間でピークが検出されなかったことを意味する。
【0052】
ステップ130、任意選択でステップ140、および任意選択でステップ150の後、スペクトルの強度を処理するステップ155を実行することもできる。強度は、スペクトルごとにおよび/または分光計ごとに大幅に変動する量である。この変動性のため、未処理の強度値を分類ツールで使用することは難しい。したがって、質量対電荷の離散化の前またはステップ150の後に、未処理のスペクトルに対してこのステップを実行することができる。特に、このステップは、強度をしきい値処理するステップからなることができる。しきい値よりも低い強度はゼロであるとみなされ、しきい値よりも高い強度は維持される。変形ステップとして、ピークがしきい値よりも高いときまたは対応する離散化区間内にピークが存在するときにはリストの構成要素の値を「1」に設定し、ピークがしきい値より低いときまたはこの離散化区間内にピークが存在しないときにはリストの構成要素の値を「0」に設定することにより、このしきい値処理によって得られた強度のリストまたは離散化ステップの後に得られた強度のリストを「2値化」することもできる。あるいは、得られた強度のリストを対数目盛に従って変換し、その区間内にピークが存在しないときまたはピークがしきい値より低いときには構成要素の値を「0」に設定する。最後に、(未処理の、しきい値処理された、「2値化」された、または対数目盛に従って変換された)それぞれの強度リストを正規化することができる。
【0053】
有利には、強度リストを対数目盛に従って変換し、次いで正規化する。これには、続いて実施される分類アルゴリズムの学習をよりロバストにする効果がある。
【0054】
1つの群に属する微生物として同定された微生物の学習スペクトルにそれぞれが対応するこれらのピークリストから、この方法は、続いてステップ160で、群ごとに1つの知識ベースを作成し、ステップ170で、群ごとに1つの分類モデルを作成する。この知識ベースは、分類モデルのパラメータと、学習に使用するそれぞれの微生物の群に関する情報とを含み、学習微生物の群の中から不明微生物を分類することを可能にする。
【0055】
ステップ170で、最近傍法、ロジスティック回帰、判別分析、分類木、「LASSO」型または「エラスティックネット」型の回帰法、SVMアルゴリズム(SVMは「support vector machine(サポートベクターマシーン)」の略である)などの知られている教師あり分類アルゴリズムに基づいて、群ごとに1つの分類モデルを確立する。
【0056】
図1において、この方法は、続いて、ステップ200で、前の群およびその群の亜群に属する微生物として同定された微生物の一組の学習スペクトルに基づいて、亜群ごとに1つの知識ベースおよび1つの分類モデルを構築する。分光計によって実装される後述するステップ210を除き、ステップ200は、コンピュータによって、例えば1つまたは複数のパーソナルコンピュータ、サーバ、プリント回路板、ディジタル信号プロセッサ(またはDSP)によって、一般に、例えばコンピュータメモリに記憶するためおよび/または画面上に表示するためにデータを受け取り、記憶し、処理し、処理されたデータを出力として生成することができる任意のマイクロプロセッサベースのシステムによって実施される。このシステムはおそらくそれ自体が、特定のデータの処理およびそれらの中での通信を担当するマイクロプロセッサベースの1つまたは複数のユニットを備える。
【0057】
ステップ200は
図3aに詳細に示されている。このステップ200は、微生物の少なくとも1つのスペクトルを取得すること210を含む。その微生物の群および亜群は分かっており、前記亜群のそれぞれの亜群に対してこの取得を実施する。この取得ステップは、ステップ110と同様の手法で実行する。したがって、取得したスペクトルを前処理する。具体的には、取得したスペクトルの雑音を除去し、取得したスペクトルを平滑化し、または必要ならば取得したスペクトルのベースラインを除去する。この方法は、続いて、ステップ220で、ステップ120と同様の手法でスペクトルのピークを同定し、ステップ130と同様の手法でそれぞれのスペクトルの内部較正または外部較正を実行し、任意選択で、ステップ140と同様の手法でスペクトルの品質を制御する。
【0058】
ステップ210は、この方法のステップ110と同時に直接に実行することが好ましい。その目的は、これらの取得ステップにおいて必要となる手動ステップの数を制限することである。その場合には、ステップ110とステップ210が、その群および亜群が分かっている微生物のスペクトルを取得する単一のステップからなる。次いで、同様に、ステップ120および130、ならびに任意選択でステップ140と同時に、ステップ220を実行する。
【0059】
次いで、ステップ220の後、群および亜群が分かっているそれらの微生物のスペクトルを、一組のピークリストの形態で表現する。それぞれのピークリストは、群および亜群が分かっている1つの微生物に対応する。
【0060】
これらのピークリストに基づいて、この方法は続いて、ステップ230で、取得したスペクトルの質量対電荷オフセットを補正することを可能にする調整モデルを構築する。この構築ステップ230は、最初に、さまざまな亜群に共通する参照質量対電荷を同定および選択するステップを含む。具体的に言うと、その群のさまざまな亜群に共通しない質量対電荷は、判別質量対電荷であり、したがって、その質量対電荷に基づく調整モデルはバイアスがかかったものになる。その群を詳細に特徴付ける質量対電荷のリストを得るためには、これらの質量対電荷がさまざまな亜群に共通しており、スペクトル中の近接した位置にピークを含まないことが理想的である。
【0061】
二者択一の第1のステップ240によれば、さまざまな亜群に共通するこれらの参照質量対電荷を、統計的基準から推測する。
【0062】
特に、
図3bに示されているように、これらの参照質量対電荷は、
・関心の質量対電荷の範囲を離散化する第1のステップ241
によって得ることができる。このステップは、微生物の特性質量対電荷の大部分を含むことが知られている取得後に得られた質量対電荷区間に関して制限されたピークリストの質量対電荷区間にわたって、例えば3000から17000Thまでの質量対電荷範囲にわたって実行することができる。この区間に基づいて、質量対電荷の範囲を、
○規則正しい質量対電荷区間(例えば1Th)に、または
○次第に増大する質量対電荷区間に
離散化する。
【0063】
したがって、離散化後に得られた全ての質量対電荷に対応する集合
{m(i)};i=1,...,I
を得る。それぞれの値m(i)は、値m(i+1)から、離散化ピッチと呼ばれる質量対電荷区間だけ分離されている。
【0064】
それぞれの質量対電荷m(i)を中心とする区間を画定する許容係数t
1を定義する。この方法が適正に機能するためには、選ばれる離散化が、少なくとも、許容係数t
1によって画定される1つの質量対電荷から次の質量対電荷までの区間の重なり、理想的には区間の幅の半分の重なりを保証しなければならないことに留意されたい。したがって、それらの亜群の特性であり、したがって調整に役立つであろう質量対電荷を捨ててしまわないように、離散化ピッチは、大きすぎるよりは小さい方が好ましい。したがって小さな離散化ピッチは、情報の損失を制限することを可能にする。
【0065】
1つの質量対電荷から次の質量対電荷までの区間の重なりを保証する1つの手法は、式
m(i+1)=m(i)+t
1×m(i)
を用いて離散化を反復的に定義し、m(1)を関心の質量対電荷の範囲の下限に初期値とすることである。上式でt
1は許容係数である。したがって、離散化ピッチはt
1×m(i)に等しい。例えば、関心の質量対電荷範囲が3000から17000Th、許容差がt
1=0.0008であるときには、3000Thにおける離散化ピッチが2.4Thであり、17000Thにおける離散化ピッチが13.6Thである。
【0066】
1つの質量対電荷から次の質量対電荷までの区間の重なりを保証する別のより単純な手法は、関心の質量対電荷の範囲の下限における離散化を下式を用いて定義するものである。
m(i+1)=m(i)+t
1×m(1)
【0067】
例えば、関心の質量対電荷範囲が3000から17000Th、許容差がt
1=0.0008であるときには、質量対電荷範囲の全体に適用可能な離散化ピッチが3000×0.0008=2.4Thである。
【0068】
続いて、離散化ステップによって画定されたそれぞれの質量対電荷m(i)を中心とするt
1に基づく区間内における1つまたは複数のピークの存在または非存在を検出する第2のステップ242を実行する。それぞれのスペクトルについて、許容差t
1は、取得したそれぞれのスペクトルの中で探索される質量対電荷の位置の不確かさを考慮することを可能にする。したがって、当該のスペクトルの質量対電荷のリストは
X={x(s)};s=1,...,S
であり、質量対電荷に適用される許容係数はt
1である。この操作は、許容差によって画定された当該の質量対電荷m(i)を中心とする区間、すなわち区間[m(i)−m(i)×t
1;m(i)+m(i)×t
1]内において、X={x(s)};s=1,...,Sの中のピークの存在を探索することからなる。
【0069】
演算時間を最適化するために、当該の区間内にピークが存在することを1で表し、ピークの非存在または複数のピークの存在を0で表して、下表1の形をとる存在行列を得ることができる。Tは、取得した学習スペクトルの数である。
【0070】
この行列に基づいて、第3のステップ243は、亜群ごとのピークの存在の頻度に応じて質量対電荷をフィルリングすることからなる。
【0071】
それぞれの質量対電荷m(i)を中心とする許容差、すなわち離散化ステップ時に定義した許容差によって画定された区間内におけるピークの存在の頻度を亜群ごとに計算し、百分率に変換する。
【0072】
このステップが
図4に示されている。
図4は、当該の群のそれぞれの亜群AからEについて、それぞれのピークの頻度を示している。これらのピークは、前記亜群に対応するスペクトルから、区間5330Th〜5410Th内において得られたものである。
【0073】
次に、判別するそれぞれの亜群について、しきい値よりも高い存在百分率、例えば60%よりも高い存在百分率を有する質量対電荷m(i)を保持する。
図4ではこのしきい値が、破線の水平線によって表されている。
【0074】
したがって、
{m(i)};i=1,...,Iの中から、質量対電荷の集合{m(j)};j=1,...,J、J≦I
を得る。これらの質量対電荷は、頻度に関するフィルタリングステップの後も保持される。例えば、下表2によれば、フィルタリングの後、質量対電荷m(I−1)およびm(I)だけが保持される。
【0075】
頻度しきい値に従ってフィルタリングされた質量対電荷のこのリストに基づいて、次のステップ244は、前記保持された質量対電荷の位置を近似することからなる。
【0076】
保持された質量対電荷は、ステップ241で実行した離散化に応じたおおよその精度を有する。したがって、質量対電荷m(j)の付近に存在するピークの位置の分布を代表する位置を得るために、これらの質量対電荷の位置を近似するステップを実行する。代表的な位置のこの演算は例えば、ピークの分布を代表するガウス関数を推定し、その関数の極値の位置を探索するステップを含む。別の方法は、質量対電荷m(j)の付近に存在するピークの位置の中央値を反復的に演算する複数のステップを実行することからなることができる。中央値を使用するこの方法では、M(j)が、質量対電荷の位置の理論値である。M(j,0)=m(j)である場合、M(j,n+1)は、以下のアルゴリズムを用いて得る。
【0077】
それぞれのスペクトルについて、この方法の1つのステップは、質量対電荷M(j,n)を中心とする区間、すなわち区間[M(j,n)−M(j,n)×t
2;M(j,n)+M(j,n)×t
2]内に存在する、X={x(S)};s=1,...,Sの中のピークを探索することからなる。ここで、t
2は、質量対電荷M(j,n)の位置を中心とする許容係数であり、許容係数t
1の値は、t
2よりも大きいかまたはt
2に等しい。
【0078】
次いで、保持されたピークの値の中央値を、M(j,n)を中心とする区間内の全てのスペクトルにわたって計算することによって、M(j,n+1)の値を得る。
【0079】
この最適化ステップを停止する基準は例えば、予め決められた反復回数とすることができ、かつ/または増分の検査(inspection)に基づくことができる。
【0080】
例えば、予め決められた反復回数を定義するケースでは、予め決められた回数がNである場合に、M(j)を、
によって近似する。
【0081】
この方法が、増分を検査するステップを含むケースでは、εを、M(j)の細分された演算(refined computation)のために設定された許容差とする。この反復は、
|M(j,n+1)−M(j,n)|<ε
となったときに終了となる。
【0082】
次いで、M(j)を、
によって近似する。
【0083】
増分の検査によるこの方法の収束を確実にするため、およびこのステップに必要な演算時間を節約するために、最大反復回数Nを予め決めておくともできる。
【0084】
したがって、本発明の実装態様に対しては、予め決められた反復回数N=3に基づく停止基準が好ましい。3つの質量対電荷に対する3反復の反復演算の例が
図5aから5iに示されている。
図5aでは、M(j,0)の付近のピークの値に基づいて計算された中央値M(j,1)が5339.6Thに等しく、破線の垂直線によって表されている。
図5dに示されている2回目の反復では、したがってM(j,1)の付近のピークの値に基づいて中央値M(j,2)が計算され、次いで5339.8Thに等しい新たな値が得られている。
図5dでは、M(j,1)が実線の垂直線によって表されており、M(j,2)が破線の垂直線によって表されている。
図5gに示されている3回目の反復では、したがってM(j,2)の付近のピークの値に基づいて中央値M(j,3)が計算され、次いで5339.8Thに等しい値が再び得られており、この方法の収束を証明している。
図5gでは、M(j,2)が実線の垂直線によって表されており、M(j,3)が破線の垂直線によって表されている。この演算はこの3回目の反復で停止され、5338Thの離散化によって保持された質量対電荷に対して近似値5339.8Thが維持される。
【0085】
離散化後に得られた理論上のそれぞれの質量対電荷に対して同様の3ステップにおける演算を実行する。したがって
図5b、5eおよび5hは、離散化M(j+1,0)=m(j+1)によって保持された質量対電荷の値5340ThからM(j+1,3)の近似値5339.8Thへの収束を示す。同様に、
図5c、5fおよび5iは、離散化M(j+2,0)=m(j+2)によって保持された質量対電荷の値5342ThからM(j+2,3)の近似値5339.8Thへの収束を示す。
【0086】
近似ステップ244の後、この方法は、続いて、ステップ245で、全く同じおおよその質量対電荷を除去する。
【0087】
この近似の後、リスト
が得られる。最初の離散化は、1つの質量対電荷から次の質量対電荷までの区間の重なりを保証するように選ばれたため、複数の保持された質量対電荷m(j)が、同じおおよその質量対電荷に対応することがある。この場合、これらの質量対電荷の近似値
は、その値の演算において保持された精度に応じて等しいかまたはほぼ等しい。下表3は、離散化ピッチが2Thである本発明の実装態様の一例について、区間5338から5398Th内の保持されたおおよその質量対電荷の位置を特に示す。
【0088】
したがって、それぞれの値に対して単一の近似値が維持される。
【0089】
したがって、その群の参照質量対電荷の新たなリストR={R(k)};k=1,...,K;K≦Jが得られる。
【0090】
二者択一の第2のステップ250によれば、これらのさまざまな亜群に共通するこれらの質量対電荷が予め分かっている。それらの質量対電荷は例えば、群レベル分類のための参照ピークとして使用するピークのリストに基づいて決定することができる。これらのピークはその群を表すことが分かっているため、本発明の文脈における参照質量対電荷としてそれらのピークを使用することができる確率は高い。それらの質量対電荷は、質量分析による以前の分析から知ることもでき、または、それらのさまざまな亜群に特有の分子もしくはタンパク質、したがって当該の群に特有の分子もしくはタンパク質についてピークの理論上の質量対電荷を決定することを可能にする他の分析法によって知ることもできる。
【0091】
任意選択で、これらの質量対電荷の選択を改善する目的で、それぞれの分かっている参照質量対電荷を中心とする許容区間内の1つまたは複数のピークの存在または非存在を検出するステップ242に似たステップを実行することもできる。このステップ242の後に、亜群ごとのピークの存在の頻度に応じて質量対電荷をフィルタリングすることからなるステップ243に似たステップを実行することができる。
【0092】
許容差によって画定されたそれぞれの既に分かっている参照質量対電荷を中心とする区間内におけるピークの存在の頻度を亜群ごとに計算し、百分率に変換する。
【0093】
その代わりにまたはそれに加えて、このステップ242の後に、既に分かっている参照質量対電荷の位置を近似するステップ244に似たステップを実行することもできる。
【0094】
ステップ240または250に従って参照質量対電荷のリストを得た後、この方法は、続いて、
図3aに基づくステップ260で、全てのピークリストの質量対電荷を調整する。
【0095】
ステップ260の目的は、ピークリストによって表されたそれぞれのスペクトルについて、参照質量対電荷の位置に基づいて変換モデルを学習することによって、全てのピークの位置を調整することである。このモデルのパラメータは、スペクトル中で観察されるピークが、ステップ240の終わりに得られる参照質量対電荷のおおよその位置、またはステップ250の終わりに得られる参照質量対電荷の理論上の位置とできるだけよく一致するように推定される。
【0096】
それぞれのスペクトルについて、このピークリストフォーマットでは、
− X={x(s)};s=1,...,Sが、当該のスペクトルのピークの質量対電荷のリストであり、
− R={R(k)};k=1,...,Kが、参照質量対電荷のリストであり、
− t
3が、質量対電荷{R(k)}の位置を中心とする許容係数であり、例えばt
3=0.0004である。許容係数t
2の値は、t
3よりも大きいかまたはt
3に等しい。
【0097】
それぞれの参照質量対電荷{R(k)}について、この方法は、この許容差によって画定された質量対電荷{R(k)}を中心とする区間、すなわち区間
[R(k)−R(k)×t
3;R(k)+R(k)×t
3]
内に存在する、{x(s)};s=1,...,Sの中の質量対電荷を探索することからなる。
【0098】
場合により、スペクトルの質量対電荷のオフセットが大きすぎるとき、または、例えばスペクトルが少数のピークだけを含むときには、当該の区間内でピークが観察されない。
【0099】
観察列(sequence of observations){R(l);x(l)},l⊆{1,...,K}は、当該のスペクトル中の位置x(l)においてピークが観察された参照質量対電荷{R(l)}のリストである。スペクトルの質量対電荷に適用する変換は、モデルR=f(x)によってモデル化され、モデルfはおそらく以下のモデルである。
・線形回帰モデル:
C=β
0+β
1x;β
0およびβ
1はモデルの定数である。
・2次多項式回帰モデル:
C=β
0+β
1x+β
2x
2;β
0、β
1およびβ
2はモデルの定数である。
・非パラメトリックまたは非線形回帰モデル、例えばスプライン、LoessもしくはLowess型回帰などの局所回帰モデルまたはカーネル回帰モデルなど
【0100】
モデルのパラメータを推定するために使用した質量対電荷ドメインの外へ前記モデルが外挿されるときの予測誤差を制限するために、本発明の実装態様に対しては線形回帰モデルが好ましい。外挿が必要となるのは、例えば、選択された参照質量対電荷が、関心の質量対電荷ドメインのサブセットだけをカバーするとき、または、当該のスペクトルの質量対電荷のオフセットが、当該の許容差t
3に比べて大きすぎるときである。
【0101】
このモデルのパラメータは、通常の最小二乗法を用いて推定することができる。しかしながら、例えば、テストされた試料の特異性によって、または質量対電荷範囲のあるゾーン内における質量対電荷の初期のオフセットがあまりに大きいことによって、ある質量対電荷に対して異常値が観察されることがある。最小二乗法は、たとえ少数であっても、異常値の存在に非常に敏感である。異常点の影響を受けないパラメータ推定を得るために、異常点の検出の問題とモデルのパラメータ推定の問題とを同時に解決することを可能にするロバストな推定法と呼ばれる方法を使用することが好ましい。したがって、本発明の実装態様に対してはTukeyのバイウエイトエスティメータ(Tukey’s biweight estimator)が好ましく、Tukeyのバイウエイトエスティメータは、反復加重最小二乗(iteratively reweighted least squares:IRLS)アルゴリズムの使用によって解かれることが好ましい。他のロバストな推定法、特に、最小二乗中央値(least median of squares:LMS)法、最小刈込み二乗(least trimmed squares:LTS)法、およびMエスティメータクラスからとられた方法も明らかに予見される。Tukeyのバイウエイトエスティメータは、Mエスティメータクラスの具体的な一例である。
【0102】
次いで、参照質量対電荷から予め学習されたモデルによって、スペクトルの全てのピークの調整された位置を推量する。したがって、調整に使用した質量対電荷の区間の範囲を超えて質量対電荷の補正を外挿する。
・それぞれの質量対電荷x(s)に対して、調整された質量対電荷を
を用いて得る。
・スペクトルのピークの調整された位置のリストを
;s=1,...,Sで示す。
【0103】
調整ステップ260の後、任意選択のステップ265は、参照質量対電荷のリストを最適化することからなることができる。この最適化は、得られた調整の品質に基づく。このステップの目的は、保持されたそれぞれの参照質量対電荷の品質が関心のさまざまな亜群間で同様であることを保証することにある。
【0104】
それぞれの参照質量対電荷R={R(k)};k=1,...,K;K≦Jおよびそれぞれの亜群について、この方法は、許容差t
3によって画定された質量対電荷R(k)を中心とする区間内のそれぞれのスペクトルの質量対電荷の調整の後に、それぞれの亜群について、ピークの存在の頻度を演算するステップを含む。この頻度が第1のインジケータを形成する。
【0105】
このステップの後、この方法は、参照質量対電荷の調整後に、それぞれの亜群について、例えば質量対電荷R(k)に関連した剰余の中央値または平均値を演算することによって、ピークの位置の不一致(discrepancy)を演算するステップを含む。この不一致が第2のインジケータを形成する。
【0106】
続いて、参照質量対電荷に対する調整の後に、それぞれの亜群について、例えば質量対電荷R(k)に関連した剰余の標準偏差、範囲または四分位間区間を演算することによって、ピークの位置の分散を演算するステップを実行する。一般に、分散を演算するこのステップは、観察されたピークの位置の値の分散を定量化することを可能にする任意の方法によって実行することができる。この分散が第3のインジケータを形成する。
【0107】
この演算に基づいて、ステップ265は続いて、当該の群の亜群間におけるこれらの3つのインジケータのうちの少なくとも1つのインジケータの不均一性に基づいて、ある参照質量対電荷を除去するステップを実行する。
【0108】
図6は、2つの質量対電荷アルファおよびベータについて以下の演算を示す。
− それぞれの亜群AからFのピークの存在の頻度。
− それぞれの亜群の剰余の中央値。この中央値は、それぞれの箱ひげ図内の水平線によって表されている。
− それぞれの亜群の剰余の四分位間区間。この四分位間区間は、それぞれの箱ひげ図の大きさによって表されている。
【0109】
したがって、これらの3つのインジケータは例えば、質量対電荷アルファを維持すること、および質量対電荷ベータを捨てることを許す。具体的には、質量対電荷アルファは、亜群間の約100%の頻度、それぞれの亜群について0に近い剰余の中央値、およびそれぞれの亜群間で同様の剰余の分散を有する。対照的に、質量対電荷ベータは、ピークの存在の頻度が2つの亜群で60%未満であり、剰余の中央値が、亜群Aでは、1または−1(破線)に設定されたしきい値を超えているため、除外すべきである。加えて、亜群AおよびEでは、剰余の四分位間区間が明らかに大きい。したがって、これらの3つの基準の演算は、質量対電荷を統計学的に捨てまたは維持することを許すしきい値を確立することを可能にする。
【0110】
次いで、ステップ265は最後に、ステップ260に似た再調整ステップを実行する。
しかしながら、この再調整ステップは、当該の群の亜群間におけるこれらの3つのインジケータのうちの少なくとも1つのインジケータの不均一性に基づいてある参照質量対電荷を除去するステップ後も保持された質量対電荷だけに基づいて実行される。
【0111】
任意選択で、ステップ260またはステップ265の後に、亜群ごとの分類のために関心の質量対電荷範囲内で質量対電荷を調整することを可能にする第2のモデルを学習および構築するステップ270を実行することができる。
【0112】
ステップ270は、それらのさまざまな亜群に共通する参照質量対電荷を同定および選択するステップ230、ならびに、第1の調整を既に受けたピークリスト、したがってより小さいと想定される質量対電荷オフセットを有するピークリストに基づいて第2の調整モデルを構築するために、質量対電荷を調整するモデルを学習および構築するステップ260を繰り返す。
【0113】
具体的には、質量対電荷の初期のかなりのオフセットの結果、ステップ260に従った第1の調整ステップが、関心の質量対電荷の範囲のあるゾーン内における質量対電荷のリセットの外挿に至ることがある。より大きな質量対電荷範囲内のピークの位置をより細かく調整するために、多項式回帰モデル、例えば2次多項式回帰モデルによって質量対電荷を調整することを可能にする第2のモデルを学習および構築する第2のステップを実行することができる。そのために、ステップ230および260、ならびにステップ265を再現して、それらのさまざまな亜群に共通する参照質量対電荷のリストを選択し、亜群ごとの分類のために関心の質量対電荷範囲にわたって全てのピークリストの質量対電荷を調整する。
【0114】
図7aおよび7bは、この第2の調整ステップの利点を示す。
【0115】
図7aは、所与の亜群Aのスペクトルに対する線形回帰モデルによる第1の調整の結果を示す。黒の曲線は、参照質量対電荷と調整前に観察された質量対電荷の位置との間の不一致を表す。灰色の曲線は、それ自体としては参照質量対電荷と調整後の質量対電荷の位置との間の不一致を表す。質量対電荷の初期オフセットが大きかったため、4000Thから8000Thの間の参照質量対電荷だけが検出された。次いで、質量対電荷を補正するモデルを、当該のスペクトルの全てのピークにわたる質量対電荷のこの区間の外へ外挿する。線形モデルを最初に使用すると、外挿誤差を制限することができる。
【0116】
図7bは、2次多項式回帰モデルによる同じスペクトルの第2の調整の結果を示す。黒の曲線は、参照質量対電荷と、第1の調整の後、第2の調整の前の観察された質量対電荷の位置との間の不一致を表す。灰色の曲線は、それ自体としては参照質量対電荷と第2の調整後の質量対電荷の位置との間の不一致を表す。このモデルは、3000Thから12000Thの間で検出された質量対電荷に対して調整されていることに留意されたい。このことは、より広範囲の質量対電荷にわたってピークの位置をより細かく調整することを可能にする。
【0117】
任意選択で、n番目の調整モデルを構築し、したがってスペクトルの調整を改良するために、ステップ270をn回繰り返すことができる。
【0118】
最後に、次のステップ280は、専用の知識ベースを学習および構築することからなり、次のステップ290では、専用の分類アルゴリズムが、この調整または質量対電荷を調整する前述のステップを受けたスペクトルのピークリストに基づいて亜群を判別することを可能にする。
【0119】
質量対電荷を調整するこの1つまたは複数のステップが、ピークの箇所の精度を大幅に向上させることを可能にしたため、この分類アルゴリズムは、
− 例えば群レベル分類のための許容距離(tolerance distance)に等しいか、または有利には、群レベル分類のための許容距離よりも小さい許容距離の演算に基づくことができ、
− 例えばステップ150で説明したような質量対電荷の離散化によって得られたピークの行列に基づくことができる。質量対電荷の離散化に使用されるピッチは、群レベル分類に使用されるピッチとまったく同じか、または有利には、群レベル分類に使用されるピッチよりも細かい。
【0120】
知られている任意の分類アルゴリズム(例えばロジスティック回帰、判別分析、分類木、「LASSO」型もしくは「エラスティックネット」型の回帰法、またはSVM型のアルゴリズム(SVMは、「support vector machine(サポートベクターマシーン)」の略である))を使用することができる。
【0121】
したがって、本発明に基づく方法は、参照質量対電荷の1つからn個のリストを含む質量対電荷を調整するモデル、質量対電荷を調整する1つからn個のモデル、ならびに当該の群の亜群を判別する専用の知識ベースおよび分類アルゴリズムを得ることを可能にする。
【0122】
群を判別する専用の知識ベースおよび分類アルゴリズム、ならびに当該の群のうちの少なくとも1つの群の亜群を判別する専用の知識ベースおよび分類アルゴリズムに基づいて、この方法は、続いて、不明微生物を分類するステップを実行する。
【0123】
この分類ステップは例えば、
■不明微生物の少なくとも1つの質量スペクトルを取得することができる質量分析計と、
■質量分析計によって取得された1つまたは複数の質量スペクトルに応じて不明微生物を同定することができるコンピュータシステムと
を備え、前記システムが、
− コンピュータメモリであり、
○微生物群ごとの分類モデルおよび知識ベースと、
○微生物亜群ごとの分類モデルおよび知識ベースと、
○質量対電荷オフセットを補正する調整モデルと、
○取得した質量スペクトルに基づいてピークリストを作成するコンピュータ命令と、
○前記群ごとの分類モデルおよび前記群ごとの知識ベースに従って、不明微生物を、作成されたピークリストに応じた1つの群に分類するコンピュータ命令と、
○調整モデルに従ってピークリストを調整するコンピュータ命令と、
○前記亜群ごとの分類モデルおよび前記亜群ごとの知識ベースに従って、微生物を、調整されたピークリストに応じた1つの亜群に分類するコンピュータ命令と
を記憶したコンピュータメモリ、
− コンピュータメモリに記憶されたコンピュータ命令を実施して、微生物を1つの群および1つの亜群に分類するマイクロプロセッサベースのコンピュータユニット、
− 分類の結果を記憶するコンピュータメモリおよび/または分類の結果を表示する表示画面
を備える、デバイスによって実施される。
【0124】
したがって、この方法は、続いて、
図1の群ごとの分類ステップ300を実行する。前述のとおり、このステップは、群ごとの知識ベースおよび関連する群ごとの分類アルゴリズムに基づく。この群ごとの知識ベースおよび群ごとの分類アルゴリズムは、既に存在するかまたは微生物の一組のスペクトルに基づいて構築され、この微生物の群は予め同定されている。
【0125】
図3cによれば、群ごとの分類ステップ300は、前記不明微生物の少なくとも1つの質量スペクトルを取得するステップ310から始まる。ステップ310は、同定する不明微生物の試料を調製することから始まり、続いて、質量分析計、例えばMALDI−TOF質量分析計によって、調製された試料の1つまたは複数の質量スペクトルを取得する。このステップは、ステップ110と同様の手法で実行される。
【0126】
この取得ステップの後、この方法は、続いて、ステップ120と同様の手法でスペクトルのピークを検出するステップ320、およびステップ130と同様の手法でそれらのスペクトルを外部較正または内部較正するステップ330を実行する。このステップの目的は、前記微生物を1つの群に分類することを可能にするピークの整列を得ることである。前述のとおり、外部較正は、観察されるピークがそれらのピークの理論上の位置と一致するように、参照試料の質量スペクトルのm/z軸を調整することからなる。参照試料の内容は知られており、参照試料は、プレート上の試料とは異なる点に置かれる。したがって、このステップは、ステップ130と同様の手法で実行され、キャリブレーターのスペクトルに適用する変換に応じて、不明微生物のスペクトルのピークを再整列させる。
【0127】
このステップの後、この方法は、得られた1つまたは複数のピークリストを分類するステップ340を含む。そのために、関連する群ごとの知識ベースに関して、群ごとの分類アルゴリズムを実装する。このようにして、分析された試料の1つまたは複数の群(科、属、種など)を同定する。有利には、この群ごとの分類ステップを改良するため、このステップの前に、ステップ140と同様の手法でスペクトルの品質を制御するステップを実行することができ、任意選択で、質量対電荷を離散化するステップ150と同様のステップおよび/または強度を処理するステップ155と同様のステップを実行することができる。
【0128】
あるいは、分析された微生物の群が分かっており、亜群が不明の場合には、ステップ340を実行しなくともよい。この場合、この方法は続いてステップ350を直接に実行する。
【0129】
続くステップ350では、分類ステップの結果を、例えば不明微生物が1つまたは複数の群に属する確率を評価するスコアの形態で得る。保持された群または保持された複数の群のうちの少なくとも1つの群が、亜群ごとの知識ベース内に示されている場合、本発明に基づく方法は続いて、亜群ごとの分類ステップ400を実行する。
【0130】
前述のとおり、このステップは、構築された亜群ごとの知識ベースおよび関連する亜群ごとの分類アルゴリズムに基づく。この亜群ごとの知識ベースおよび亜群ごとの分類アルゴリズムは、微生物の一組のスペクトルに基づいて得たものであり、この微生物の群および亜群は予め同定されている。
【0131】
したがって、
図3dによれば、亜群ごとの分類ステップ400は、ステップ350の群の分類結果を認識するステップ410から始まる。この群に対しては、亜群ごとの知識ベースおよび亜群ごとの分類アルゴリズムが存在する。例えば、種としての大腸菌(以後、種大腸菌)およびシゲラ属(Shigella)を含む分類群を、非O157大腸菌(亜群A)、O157大腸菌(亜群B)、シゲラ属の種である志賀赤痢菌(Shigella dysenteriae)(亜群C)、フレクスナー赤痢菌(Shigella flexneri)(亜群D)、ボイド赤痢菌(Shigella boydii)(亜群E)、ソンネ赤痢菌(Shigella sonnei)(亜群F)などを分離する亜群ごとの分類知識ベースに関連づけることができる。
【0132】
次いで、次のステップ420は、ステップ260に従って得たモデルを使用してステップ330に従って得たピークリストの質量対電荷、およびその群の特性であるステップ240で定義された参照質量対電荷またはその群の特性であるステップ250に従って保持された参照質量対電荷を調整することからなる。第2の調整モデルが作成されている場合には、ステップ270に従って得た調整モデルを使用したピークリストの2回目の調整を実行する。そのときに使用する特性質量対電荷は第2のモデルの特性質量対電荷である。同様に、n番目の調整モデルが作成されている場合には、ステップ270に従って得た調整モデルを使用してピークリストのn回目の調整を実行する。そのときに使用する特性質量対電荷はn番目モデルの特性質量対電荷である。
【0133】
任意選択で、この方法は、続いて、質量対電荷の調整の品質を制御するステップ430を実行することができる。そのために、取得した1つまたは複数のスペクトル中で検出される参照質量対電荷の数(または百分率)は、所与のしきい値よりも必ず大きいと定義することができる。その代わりにまたはそれに加えて、それぞれの参照質量対電荷の理論上の位置と、取得した1つまたは複数のスペクトル中のこれらの質量対電荷の調整後の位置との間の2乗平均平方誤差(root−mean−squared error:RMSE)は、所与のしきい値よりも必ず小さいと定義することもできる。したがって、この2乗平均平方誤差は、下式を用いた従来の手法で演算することができる。
上式で、
○{R(l)},l={1,...,L}は、当該のスペクトル中でピークが観察されたL個の参照質量対電荷のリストである。
○fは、ステップ260および任意選択の270に従って得た調整モデルである。
○
は、
を用いて得た調整された質量対電荷である。
【0134】
ステップ420または430の後、この方法は、続いて、予め学習および定義された亜群を判別することを可能にする亜群ごとの知識ベースおよび分類アルゴリズムに基づいて、調整されたスペクトルを分類するステップ440を実行する。
【0135】
有利には、亜群ごとの分類ステップを改良するため、このステップの前に、質量対電荷を離散化するステップ150と同様のステップおよび/または強度を処理するステップ155と同様のステップを実行することができる。
【0136】
続くステップ450では、亜群ごとの分類ステップの結果を、例えば不明微生物が1つまたは複数の亜群に属する確率を評価するスコアの形態で得る。
【0137】
この群ごとの分類および亜群ごとの分類の結果を、有利にはそれらの分類スコアとともに、コンピュータメモリに記憶し、かつ/またはユーザの注意を引くために画面上に表示する。
【0138】
種大腸菌およびシゲラ属によって形成された群の亜群ごとの分類の例
本発明に基づく方法を、種大腸菌の血清群(serogroup)およびシゲラ属の種の血清群の分類に適用する。したがって、この方法の目的は、病原性に応じて亜群を識別することである。
【0139】
この方法は、本出願の出願人によって販売されているMALDI−TOF VITEK(登録商標) MS(bioMerieux(フランス))質量分析計を使用する。MALDI−TOF VITEK(登録商標) MSは、VITEK(登録商標) MS v2.0.0群ごとの知識ベースを含み、この知識ベースは、VITEK(登録商標) MS v2.0.0データベースとも呼ばれている。このVITEK(登録商標) MS装置はさらに、多変量分類(multi−variant classification)を使用する関連する群ごとの分類アルゴリズムを含む。このアルゴリズムは、群ごとの知識ベースに関連づけられている。このアルゴリズムによって不明微生物のスペクトルを分類するステップに従って、それぞれの群に属するスコアを得る。
【0140】
したがって、本発明に基づく方法は、質量分析装置上でルーチンとして実行することができる2ステップ分類(群ごとに分類し次いで亜群ごとに分類する分類)を提案することを可能にする。最初に、群、ここでは種レベルの分類群を同定し、次いで、この大腸菌/シゲラ属群の場合には、種大腸菌のO157血清群および種大腸菌の非O157血清群から前記群のシゲラ属の4つの種を区別する2番目の亜群ごとの分類レベルを提案する。
【0141】
従来の表現型および血清型分類技法を用いて大腸菌およびシゲラ属の群ならびに亜群を同定する、116株の微生物からなる第1のバッチAを調製する。このバッチは、参照亜群ごとに1つの知識ベースおよび1つの分類モデルを構築する目的に使用される。
【0142】
このバッチAは、
○亜群Aを形成する60株の非O157大腸菌(参照esh−col)
○亜群Bを形成する8株のO157大腸菌(参照esh−o157)
○亜群Cを形成する12株の志賀赤痢菌(参照shg−dys)
○亜群Dを形成する12株のフレクスナー赤痢菌(参照shg−flx)
○亜群Eを形成する12株のボイド赤痢菌(参照shg−boy)
○亜群Fを形成する12株のソンネ赤痢菌(参照shg−son)
を含む。現在のVITEK(登録商標) MS装置はこれらの116種類の微生物を識別しない。したがって、この装置の分類アルゴリズムは、これらの微生物を、関連知識ベースの群「大腸菌/シゲラ属」に分類する。
【0143】
質量分析によるバッチAの微生物のスペクトルの取得に進むため、従来のプロトコールに従って、これらの微生物を含む試料を調製する。
・ブロス(broth)を使用した寒天増殖培地上で培養した後、コロニーをサンプリングする。
・脱塩水300μLを含む2mLのエッペンドルフ管中でコロニーを懸濁させる。
・無水エタノール0.9mLを加え、(渦流)混合する。
・10000rpmで2分間、遠心分離する。
・ピペットを使用して上澄みを除く。
・70%ギ酸40μLを加え、(渦流)混合する。
・アセトニトリル40μLを加え、(渦流)混合する。
・10000rpmで2分間、遠心分離する。
・上澄み1μLを付着させる。
・乾燥させる。
・HCCAマトリックス1μLを加える。
【0144】
それぞれの株のそれぞれの試料のある量を、VITEK(登録商標) MS装置用のMaldiプレート上に置く。取得は2連または4連で行う。取得は、LaunchPad V2.8ソフトウェアパッケージを使用し、以下のパラメータを用いて実行する。
・線形モード
・ラスタリング:レギュラーサーキュラ(regular circular)
・1試料当たり100プロファイル
・1プロファイル当たり5照射
・2000トムソンから20000トムソンの間での取得
・オートクオリティパラメータ(auto−quality parameter)の起動
【0145】
これらのスペクトルを取得した後、このVITEK(登録商標) MS装置は、取得群の較正のために予約された箇所に置かれた標準大腸菌株(ATCC8739)のスペクトルの取得に基づいて、前処理および外部較正を実行する。この標準株のスペクトルを取得した後、大腸菌の特性質量対電荷に対応する11個の参照ピークの存在を、それらのピークの予想される位置を中心とする0.07%の許容差で探索する。予想される位置区間内で11個の参照ピークのうちの少なくとも8つのピークが見つかった場合には、標準株のスペクトルのピークを、それらのピークの参照位置に応じて再整列させる。得られた変換を使用して、試料の取得されたスペクトルを再整列させる。
【0146】
バッチAの群の116種類の株に対応する合計388個のスペクトルが、したがって群レベル知識ベースおよび関連分類アルゴリズムを生成することを可能にする。VITEK(登録商標) MS v2.0.0データベースおよび関連アルゴリズムに関して、バッチAの微生物がこの装置によって識別されないこと、およびバッチAの微生物が同じ群に属することを確認するため、群ごとの分類ステップを実行する。バッチAに対するこの分類の結果が下表4に示されている。
【0147】
バッチAの99.7%のスペクトルが、VITEK(登録商標) MS v2.0.0データベースの大腸菌/シゲラ属群に属するものとして正しく予測されている。フレクスナー赤痢菌の1つの株から得られた単一のスペクトルは、良好な品質を有するものの、同定はされていない。それにもかかわらず、このスペクトルは、以降のステップでの亜群レベル知識ベースの構築のために維持される。
【0148】
バッチAおよび大腸菌/シゲラ属群に対応する388個のスペクトルのこの基礎を基に、亜群レベル知識ベースおよび関連分類法を生成する。
【0149】
そのために、2つの調整モデルの連続する構築によって、検出されたピークの質量対電荷の位置を、2つの調整ステップで調整する。ステップ230、240および260と同様の手法で実行される第1の調整ステップでは、388個のスペクトルの中で、この群の10個の特性質量対電荷を探索する。これらの10個の特性質量対電荷は、予め分かっており、大腸菌/シゲラ属群に対するものであり、4000から10000Thの間に位置し、キャリブレーターの質量対電荷に対応する。取得されたそれぞれのスペクトル中のこれらの質量対電荷の位置を中心とする許容差をt=0.0005%に設定する。これらの質量対電荷の観察された位置およびそれらの理論上の位置に基づいて、それらの観察された位置をそれらの理論上の位置と再整列させるための線形回帰モデルを演算する。さらに、得られた変換を、取得されたそれぞれのスペクトルの全てのピークに適用する。
【0150】
この第1のステップに続いて、第2の調整ステップ270を、調整された2次多項式回帰モデルによって、ステップ240で説明した方法に従って統計学的に決定された参照質量対電荷リストに対して実行する。そのために、第1の調整ステップに従って調整されたそれぞれのスペクトルを、関心の質量対電荷の範囲内で、3000から6000Thの間は1Th、6000から10000Thの間は2Th、10000から20000Thの間は3Thのピッチで離散化する。したがって、それぞれのスペクトルを8366個の質量対電荷区間に離散化する。この離散化によって画定されたそれぞれの質量対電荷m(i)を中心とする0.0003%の許容差を用いて、ピークの存在または非存在を、ステップ242で説明した方法に従って探索する。次いで、このようにして得た質量対電荷m(i)を、ステップ243で説明した方法に従って、それぞれの亜群のピークの存在の頻度に応じてフィルタリングする。それぞれの亜群について最小存在頻度60%を有する133個の質量対電荷が保持される。これは、この群にとりわけ特有の質量対電荷を選択することを可能にする。
【0151】
次いで、保持された質量対電荷の位置の統計的モデルに従ってこれらの質量対電荷の位置を近似する。このステップは、前述のステップ244に対応する。
【0152】
補正された位置に基づいて、46個の固有の質量対電荷のリストを保持するために、同一のまたはほぼ同一のおおよその質量対電荷を除去する。このリストはこの群に特有である。2つの質量対電荷間の観察された不一致が0.1Thよりも小さい場合、近似後に、それらの2つの質量対電荷は同一であるとみなされる。このステップは、前述のステップ245に対応する。
【0153】
上表5は、5338から5398Thの質量対電荷区間について、質量対電荷の離散化された空間内の選択された質量対電荷の位置、同じ質量対電荷の近似値、および同一の質量対電荷の除去の後に保持された質量対電荷の最終的なリストを示す。
【0154】
次に、調整ステップを、したがってステップ270と同様の手法で、保持された質量対電荷の位置に基づいて実行する。参照質量対電荷のリストを制御および最適化することを可能にする、得られた調整品質に基づく任意選択のステップは、最終的な37個の参照質量対電荷からなるより短いリストを保持することを可能にする。このステップは、ステップ265で定義した基準などの基準に基づく。5つの質量対電荷を除去する。これは、それらの質量対電荷が、少なくとも1つの亜群について、60%よりも低い調整後のピークの存在百分率、または1Thよりも大きい剰余の中央値、または2Thよりも大きい剰余の四分位間区間を有するためである。この方法は、続いて、このより短い参照質量対電荷リストに基づいて、この群のピークリストの全ての質量対電荷を再調整させる。
【0155】
図8aによれば、この方法は、質量対電荷の初期オフセットが大きかったために5000から10000Thの間でのみ検出した参照質量対電荷に対する、調整された線形回帰モデルによるステップ260と同様の第1の調整を含む。この質量対電荷区間を超えて質量対電荷のこの補正を外挿する。線形モデルを最初に使用すると、当該のスペクトルの質量対電荷リストの外挿における誤差を制限することができる。
図8bによれば、この方法は、より幅広い質量対電荷範囲にわたって当該のスペクトルのピークの位置をより細かく調整することを可能にする3000から12000Thの間で検出された質量対電荷に対する、調整された2次多項式回帰モデルによるステップ270と同様の第2の調整を含む。
【0156】
図9aは、調整前の群および対応する亜群の全てのスペクトル中のピークの観察された位置を、1つの質量対電荷範囲について示す。
図9bは、第2の調整後の同じピークの位置を示しており、この図は、実行された調整の品質および参照質量対電荷として選択された質量対電荷の妥当性を実証している。
【0157】
製造業者が主張しているVITEK(登録商標) MS装置の外部較正後の精度は400ppmである。すなわち、トムソンに換算すれば3000Thにおいて約1.2Th/11000Thにおいて約4.4Thの精度である。中央値を示す
図10aによれば、当該の一組のデータについて、外部較正後に観察されたトムソンで表した精度は、主張された精度とほぼ同じである。すなわち、3000Th付近の質量対電荷については約1.2Th、11000Th付近の質量対電荷については約3Thである。
図10bによれば、本発明に基づく方法を用いた質量対電荷の第2の調整後の精度は3000Thにおいて約0.12Th、11000Thにおいて約0.44Thであり、すなわち約40ppmの精度である。本発明に基づく方法を用いた調整後のこの精度の増大は、選択された参照質量対電荷の妥当性および実行された調整の品質を実証している。
【0158】
次いで、前述の調整を経たスペクトルのピークリストに基づいて大腸菌/シゲラ属群の亜群を判別することを可能にする専用知識ベースおよび専用分類アルゴリズムを、ステップ280および290で説明した方法に従って構築する。
【0159】
そのために、下記の6つの亜群を識別することを可能にする知識ベースおよび専用分類アルゴリズムを構築する。
■非O157大腸菌、亜群A
■O157大腸菌、亜群B
■志賀赤痢菌、亜群C
■フレクスナー赤痢菌、亜群D
■ボイド赤痢菌、亜群E
■ソンネ赤痢菌、亜群F
【0160】
例として、
図11aは、調整前の群および対応する亜群の全てのスペクトル中のピークの観察された位置を、O157大腸菌亜群を他の亜群から判別することを可能にする質量を含む1つの質量対電荷範囲について示す。
図11bは、第2の調整後の同じピークの位置を示しており、この図は、許容差+/−2Thの10139Thにおけるピークの存在/非存在を使用して、このピークが存在しないO157大腸菌亜群を検出することが可能であることを実証している。
【0161】
微生物を亜群に分類する分類モデルおよび関連する亜群ごとの知識ベースの能力を検証するため、大腸菌/シゲラ属群に属する株として同定された31個の株からなる第2のバッチBをさらに形成する。これらの株の亜群は、従来の分析法によって決定されている。
【0162】
評価バッチと呼ばれるこのバッチBは、6つの異なるO血清型、すなわちO26、O45、O103、O111、O121およびO145の31株の志賀毒素大腸菌(Shiga Toxin Escherichia Coli:STEC)を含む。
【0163】
試料調製プロトコールは上で使用したものと全く同じである。下表6に従って配分された62個のスペクトルからなるリストを得るために、株ごとに2つのスペクトルを取得する。
【0164】
これらの株は、刊行物American Type Culture Collection ATCC:「BigSix」 Non−o157 Shiga Toxin−Producing Escherichia coli(STEC) Research Materialsの中で特に識別されている。
【0165】
バッチBの微生物が、先行技術の装置および知識ベースによって識別されないこと、したがってバッチBの微生物が同じ群に属することを確認するために、ステップ300に基づく群ごとの分類ステップを実行する。バッチBに対するこの分類の結果が下表7に示されている。
【0166】
100%のスペクトルが、VITEK(登録商標) MS v2.0.0知識ベースおよび分類アルゴリズムによって大腸菌/シゲラ属群に属するものとして正しく予測されている。
【0167】
ステップ400に基づく亜群ごとの分類アルゴリズムおよび知識ベースの評価に対して、バッチBの全てのスペクトルを維持する。
【0168】
本発明に基づく方法は、予め作成された亜群ごとの知識ベースおよび関連する分類アルゴリズムに基づいて実装される。バッチBに対する予想される分類の結果は非O157大腸菌亜群型である。
【0169】
そのために、質量対電荷を調整する第1および第2のモデルを使用して、群レベル分類ステップ中に得られたピークリストの質量対電荷を調整する。これらのモデルは予め定義されている。
【0170】
分類の性能を向上させるため、任意選択で、質量対電荷の調整に対する品質管理を実行する。それぞれのスペクトルの質量対電荷の調整の品質を保証するために定義される品質基準は以下のとおりである。
− 当該のスペクトルについて、予め決められた37個の参照質量対電荷のうち少なくとも28個の質量対電荷が検出されなければならず、それぞれの参照質量対電荷の理論上の位置と、取得されたスペクトル中のこれらの質量対電荷の調整後の位置との間の二乗平均平方根誤差(RMSE)は、1よりも小さくなければならない。
【0171】
5つのスペクトルはこれらの基準を満たさないが、58個のスペクトルはこれらの基準を満たす。
【0172】
予め定義された亜群のレベルでの分類を可能にする知識ベースおよび分類アルゴリズムに基づいて、保持された58個のスペクトルを分類する。
図12に示されているように、全てのスペクトルが、高スコアで、非O157大腸菌亜群に属するものとして正しく同定されている。加えて、別の亜群で得られた2番目に高いスコアがこれよりもはるかに低いことは明らかである。このことは、この分類のロバストネスを保証している。