(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024000735
(43)【公開日】2024-01-09
(54)【発明の名称】学習データを作成する方法、微生物の判別方法、解析装置、プログラム
(51)【国際特許分類】
G01N 27/62 20210101AFI20231226BHJP
【FI】
G01N27/62 D
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022099601
(22)【出願日】2022-06-21
(71)【出願人】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】山田 賢志
(72)【発明者】
【氏名】大久保 達樹
(72)【発明者】
【氏名】寺本 華奈江
(72)【発明者】
【氏名】林 努
(72)【発明者】
【氏名】稲岡 粛正
【テーマコード(参考)】
2G041
【Fターム(参考)】
2G041CA01
2G041DA04
2G041FA10
2G041FA12
2G041GA06
(57)【要約】
【課題】質量分析法を用いて微生物を判別する機械学習モデルの学習データの品質を向上することであり、またこれにより、判別精度の高い機械学習モデルを提供することである。
【解決手段】微生物の質量分析を実行して得られたマススペクトルを含む収集データを作成するステップS2と、収集データに含まれるマススペクトルについて、特定条件を満たすかを判定するステップと、特定条件を満たすマススペクトルを用いて学習データを作成するステップS8とを備える。特定条件を満たすかを判定するステップは、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークに対応するm/zの一致率が第1数値以上であるという第1条件を満たすかを判定するステップS4と、微生物の分類の特徴を反映しない特定パターンのピークが含まれないという第2条件を満たすかを判定するステップS6とを含む。
【選択図】
図4
【特許請求の範囲】
【請求項1】
質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する方法であって、
微生物の質量分析を実行して得られたマススペクトルを取得して、取得したマススペクトルを含む収集データを作成するステップと、
前記収集データに含まれるマススペクトルについて、特定条件を満たすかを判定するステップと、
前記特定条件を満たすマススペクトルを用いて学習データを作成するステップとを備え、
前記特定条件を満たすかを判定するステップは、
同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークに対応するm/zの一致率が第1数値以上であるという第1条件を満たすかを判定するステップと、
微生物の分類の特徴を反映しない特定パターンのピークが含まれないという第2条件を満たすかを判定するステップとを含む、学習データを作成する方法。
【請求項2】
前記特定条件を満たすかを判定するステップは、
前記収集データに含まれるマススペクトルについて、全てのピークの個数が特定ピーク数を示す範囲内であるという第3条件を満たすかを判定するステップをさらに含む、請求項1に記載の学習データを作成する方法。
【請求項3】
前記特定条件を満たすかを判定するステップは、
前記特定条件の判定対象となるピークを、強度が特定強度以上という第1基準、S/N比が特定S/N比以上という第2基準またはm/zが特定m/zを示す範囲内であるという第3基準の少なくとも1つを満たすピークとするステップをさらに含む、請求項1に記載の学習データを作成する方法。
【請求項4】
前記第1条件を満たすかを判定するステップは、
前記収集データに含まれるマススペクトルから、前記複数のマススペクトルを選択するステップと、
前記複数のマススペクトルの各々について第1幅を有する第1区間にm/zを分割するステップと、
前記複数のマススペクトルの各々について各第1区間において共にピークを有する場合、ピークに対応するm/zが一致したと判定するステップと、
前記複数のマススペクトルの各々において、全てのピークの個数に対する、ピークに対応するm/zが一致したピークの個数の比率を一致率として算出するステップと、
前記複数のマススペクトルの各々について前記一致率が前記第1数値以上であるかを判定するステップとを含む、請求項1~3のいずれか1項に記載の学習データを作成する方法。
【請求項5】
前記ピークに対応するm/zが一致したと判定するステップは、
前記複数のマススペクトルが同一の第1区間において共にピークを有し、かつ、前記同一の第1区間に含まれる各々のピークの強度の分布が特定分布を示す範囲内である場合、ピークに対応するm/zが一致したと判定するステップを含む、請求項4に記載の学習データを作成する方法。
【請求項6】
前記特定分布は、前記各々のピークのうち最も大きい強度を示すピークと最も小さい強度を示すピークの強度比が特定強度比以下である状態である、請求項5に記載の学習データを作成する方法。
【請求項7】
前記ピークに対応するm/zが一致したと判定するステップは、
前記複数のマススペクトルについて各第1区間において共にピークを有する割合が第1割合以上の場合、ピークに対応するm/zが一致したと判定するステップを含む、請求項5に記載の学習データを作成する方法。
【請求項8】
前記第2条件を満たすかを判定するステップは、
前記収集データに含まれるマススペクトルについて、周期的なピークを含むかを判定するステップを含む、請求項1~3のいずれか1項に記載の学習データを作成する方法。
【請求項9】
前記周期的なピークを含むかを判定するステップは、
前記収集データに含まれるマススペクトルに含まれるピークのうち、隣り合うピーク同士のm/z差を求めるステップと、
第2幅を有する第2区間毎に階級分けしたm/z差の度数分布を作成するステップと、
前記度数分布の最大度数が第2数値未満であるかを判定するステップとを含む、請求項8に記載の学習データを作成する方法。
【請求項10】
請求項1に記載の学習データを作成する方法を用いて作成された学習データを用いて作成された機械学習モデルを用いて微生物を判別する、微生物の判別方法。
【請求項11】
前記機械学習モデルは、ニューラルネットワークを含む、請求項10に記載の微生物の判別方法。
【請求項12】
質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する解析装置であって、
微生物のマススペクトルを記憶するメモリと、
前記メモリに記憶されたマススペクトルを用いて学習データを作成する方法を実行するプロセッサとを備え、
前記プロセッサは、
微生物の質量分析を実行して得られたマススペクトルを取得して、取得したマススペクトルを含む収集データを作成し、
前記収集データに含まれるマススペクトルについて、
同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークに対応するm/zの一致率が第1数値以上であるという第1条件を満たすかを判定し、
微生物の分類の特徴を反映しない特定パターンのピークが含まれないという第2条件を満たすかを判定し、
前記第1条件および前記第2条件を含む特定条件を満たすマススペクトルを用いて学習データを作成する、解析装置。
【請求項13】
コンピュータによって実行されることにより、前記コンピュータに請求項1に記載の学習データを作成する方法を実施させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習データを作成する方法、微生物の判別方法、解析装置、プログラムに関する。
【背景技術】
【0002】
従来、微生物をMALDI-MS(Matrix Assisted Laser Desorption/Ionization-Mass Spectrometry)分析して得られたマススペクトルに基づいて、微生物を判別する方法が知られている。非特許文献1,2には、特定のタンパク質に対応するピークに基づいて、微生物を判別する方法が開示されている。
【0003】
また、近年では、当該マススペクトルに基づいて微生物を分類する方法として、機械学習モデルを使用する方法が着目されている。US 2020/0118805 A1(特許文献1)および非特許文献3には、機械学習モデルを用いて、微生物を判別する方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】US 2020/0118805 A1
【非特許文献】
【0005】
【非特許文献1】Yudai Hotta et al.,”Classification of the Genus Bacillus Based on MALDI-TOF MS Analysis of Ribosomal Proteins Coded in S10 and spc Operons”,Journal of Agricultural and Food Chemistry,2011,59(10),pp.5222-5230.
【非特許文献2】Kanae Teramoto et al.,”Classification of Cutibacterium acnes at phylotype level by MALDI-MS proteotyping”,Proceedings of the Japan Academy,Series B,2019,Volume 95,Issue 10,Pages612-623.
【非特許文献3】Thomas Mortier et al.,”Bacterial species identification using MALDI-TOF mass spectrometry and machine learning techniques:A large-scale benchmarking study”,Computational and Structural Biotechnology,Journal 19(2021),pp.6157-6168.
【発明の概要】
【発明が解決しようとする課題】
【0006】
このような機械学習モデルを用いて微生物を精度よく判別するためには、正しく学習された機械学習モデルが必要である。正しく学習された機械学習モデルを構築するためには、学習データの品質が高いことが望まれる。たとえば培養条件および/または質量分析条件が不適切であるといった、微生物の分類の特徴を反映しない(たとえばノイズが多い)品質の低いマススペクトルが学習データに含まれた場合、機械学習モデルが正しく学習できない。すなわち、学習データの品質を向上することにより、正しく学習された機械学習モデルが作成され、微生物を精度よく判別できるようになることが期待される。
【0007】
本開示は、このような事情を鑑みてなされたものであり、その目的は、質量分析法を用いて微生物を判別する機械学習モデルの学習データの品質を向上することであり、またこれにより、判別精度の高い機械学習モデルを提供することである。
【課題を解決するための手段】
【0008】
本開示の第1の態様は、質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する方法であって、微生物の質量分析を実行して得られたマススペクトルを取得して、取得したマススペクトルを含む収集データを作成するステップと、収集データに含まれるマススペクトルについて、特定条件を満たすかを判定するステップと、特定条件を満たすマススペクトルを用いて学習データを作成するステップとを備える。特定条件を満たすかを判定するステップは、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークに対応するm/zの一致率が第1数値以上であるという第1条件を満たすかを判定するステップと、微生物の分類の特徴を反映しない特定パターンのピークが含まれないという第2条件を満たすかを判定するステップとを含む。
【0009】
本開示の第2の態様は、質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する解析装置であって、メモリと、プロセッサとを備える。メモリは、微生物のマススペクトルを記憶する。プロセッサは、メモリに記憶されたマススペクトルを用いて学習データを作成する方法を実行する。プロセッサは、微生物の質量分析を実行して得られたマススペクトルを取得して、取得したマススペクトルを含む収集データを作成する。プロセッサは、収集データに含まれるマススペクトルについて、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークに対応するm/zの一致率が第1数値以上であるという第1条件を満たすかを判定し、微生物の分類の特徴を反映しない特定パターンのピークが含まれないという第2条件を満たすかを判定する。プロセッサは、第1条件および第2条件を含む特定条件を満たすマススペクトルを用いて学習データを作成する。
【発明の効果】
【0010】
本開示による学習データを作成する方法によれば、質量分析法を用いて微生物を判別する機械学習モデルの学習データの品質が向上される。またこれにより、判別精度の高い機械学習モデルを提供することができる。
【図面の簡単な説明】
【0011】
【
図1】実施形態に係る解析装置の構成を示す図である。
【
図2】実施形態に係る学習データと機械学習モデルとの関係を説明するための図である。
【
図3】ニューラルネットワークを説明するための図である。
【
図4】実施形態に係る学習データの作成処理を示すフローチャートである。
【
図5】同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークm/zが一致しない例を示す図である。
【
図6】第1条件を満たすかを判定する処理を示すフローチャートである。
【
図7】ピークm/zが一致したかを判定する処理の一例を示すフローチャートである。
【
図8】ピークm/zが一致したかを判定する処理の他の例を示すフローチャートである。
【
図9】周期的なピークが含まれるマススペクトルの例を示す図である。
【
図10】第2条件を満たすかを判定する処理の一例を示すフローチャートである。
【
図11】周期的なピークを含むかを判定する処理を示すフローチャートである。
【
図12】第3条件を満たすかを判定する処理を示すフローチャートである。
【
図13】条件の判定対象となるピークを選択する処理を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下に、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下では図中の同一または相当部分には同一の符号を付して、その説明は原則的に繰返さないものとする。
【0013】
[1.解析装置の構成]
図1は、実施形態に係る解析装置の構成を示す図である。
図1を参照して、解析装置100は、コントローラ101と、ディスプレイ15と、操作部14とを含む。コントローラ101には、ディスプレイ15および操作部14が接続される。操作部14は、典型的には、タッチパネル、キーボード、マウスなどで構成される。操作部14は、プロセッサ10に対するユーザの操作入力を受け付ける。ディスプレイ15は、例えば画像を表示可能な液晶パネルで構成される。ディスプレイ15は、ユーザの操作入力の受け付けに関する画像を表示し、プロセッサ10による処理の結果を表示する。
【0014】
コントローラ101は、主な構成要素として、プロセッサ10と、メモリ11と、通信インターフェイス(I/F)12と、入出力I/F13とを有する。これらの各部は、バスを介して互いに通信可能に接続される。
【0015】
プロセッサ10は、典型的には、CPU(Central Processing Unit)またはMPU(Micro Processing Unit)などの演算処理部である。プロセッサ10は、メモリ11に記憶されたプログラムを読み出して実行することで、解析装置100の動作を制御する。当該プログラムは、コンピュータによって実行されることにより、コンピュータに実施形態に係る学習データを作成する方法を実施させるプログラムを含む。
【0016】
メモリ11は、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、および、HDD(Hard Disk Drive)などの記憶装置で実現される。ROMは、プロセッサ10にて実行されるプログラムを格納することができる。RAMは、プロセッサ10におけるプログラムの実行中に利用されるデータを一時的に格納することができ、作業領域として利用される一時的なデータメモリとして機能することができる。HDDは、不揮発性の記憶装置である。HDDに加えて、あるいは、HDDに代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。なお、上記プログラムおよび/またはデータは、プロセッサ10がアクセス可能な外部の記憶装置に格納されていてもよい。
【0017】
通信I/F12は、外部装置と各種データをやり取りするための通信インターフェイスであり、アダプタまたはコネクタなどによって実現される。なお、通信方式は、無線LAN(Local Area Network)などによる無線通信方式であってもよいし、USB(Universal Serial Bus)などを利用した有線通信方式であってもよい。
【0018】
入出力I/F13は、プロセッサ10と、入出力I/F13に接続される外部機器との間で各種データをやり取りするためのインターフェイスである。外部機器は、操作部14と、ディスプレイ15とを含む。入出力I/F13には、質量分析装置(MS)16が接続されてもよい。
【0019】
MS16は、微生物由来のサンプルに含まれる成分の質量分析を行なうための装置であり、例えば、MALDI-TOF MS(Matrix-Assisted Laser Desorption/Ionization Time-of-Flight Mass Spectrometry)である。MS16では、レーザ照射により生じたイオンをフライトチューブに引き出して飛行させ、飛行時間に応じて分離したのち検出する。飛行時間は、成分の質量電荷比m/zに相関する。その結果、m/zを横軸に、検出されたイオン強度を縦軸に示したマススペクトルが得られる。
【0020】
本明細書において、MS16はサンプル中のタンパク質の質量分析を行なう。よって、マススペクトルにおいては、サンプル中のタンパク質の質量電荷比(m/z)に応じてピークが検出される。よって、マススペクトルのパターン、より特定的にはピークのパターンを参照すると、サンプルに含まれるタンパク質を認識することができる。
【0021】
異なる分類の微生物は、異なるタンパク質を含むので、それぞれのマススペクトルのパターンも異なったものとなる。すなわち、一般的に、マススペクトルのパターンは、微生物の分類を反映する。なお、本明細書において、微生物の「分類」とは、例えば、微生物の「ジェノタイプ、株、あるいは亜種・種・属・科等の系統分類群のランク」の少なくとも1つを含む。また、本明細書において、「微生物の分類の特徴を反映するマススペクトル」とは、たとえば、微生物が産生するタンパク質に対応するマススペクトルのうち、後述する微生物の分類の特徴を反映しない特定パターンを含むマススペクトルを除外したものである。また、以降、特に説明のない限り、単に「タンパク質」と記載する場合は、後述するバイオポリマーを除いたタンパク質を示す。
【0022】
MS16は、微生物を含むサンプルの質量分析を行なったのち、サンプルのマススペクトルを解析装置100に送信する。プロセッサ10は、マススペクトルに基づいて、微生物を判別するための機械学習モデルの学習データを作成する。
【0023】
なお、解析装置100は、1つのコンピュータによって構成される必要はなく、複数のコンピュータによって構成されてもよい。
【0024】
[2.従来のマススペクトルを用いた微生物の判別方法]
上記のように、マススペクトルのパターンは微生物の分類を反映する。これを利用して、微生物をMALDI-MS分析して得られたマススペクトルのパターンに基づいて、微生物の判別を行なう方法が知られている。非特許文献1,2には、リボソーム等のバイオマーカーとなるタンパク質を利用して、微生物を分類する方法が開示されている。
【0025】
分類が未知の微生物を判別するための従来の方法は、たとえば、以下の三段階で行なわれる。第1の段階では、分類が既知の微生物のマススペクトルを多数取得し、マススペクトルデータベースを作成する。第2の段階では、分類が未知の微生物のマススペクトルを取得する。第3の段階では、マススペクトルデータベースに含まれるマススペクトルの中から、分類が未知の微生物のマススペクトルと類似度の高いマススペクトルを選択する。当該類似度の高いマススペクトルに対応する微生物の分類が、上記未知の微生物の分類であると判定する。
【0026】
より具体的には、第3の段階では、たとえば、マススペクトルデータベースに含まれるマススペクトルごとに、分類が未知の微生物のマススペクトルとの類似度を表すスコアを算出する。そして、スコアが最も高くなったマススペクトルデータベースに含まれるマススペクトルに対応する微生物の分類を、未知の微生物の分類であると判定する。
【0027】
当該スコアの算出においては、分類の判別に寄与するピークに重み付けする等の方法がとられていた。しかし当該方法には明確な指針がなかったため、精度よく微生物を判別するためには、ユーザが試行錯誤を重ねるための時間とコストが必要であった。また、当該方法に属人性が含まれるおそれも考えられた。
【0028】
このような事情により、微生物の判別に、近年発展が著しい機械学習技術を適用する試みがなされている。US 2020/0118805 A1(特許文献1)および非特許文献3には、機械学習モデルを用いて微生物を判別する構成が開示されている。
【0029】
たとえば学習データとして、既知の微生物のマススペクトルを与えて学習させた機械学習モデルを用いて未知の微生物が判別できれば、従来の微生物の判別方法で問題であったピークの重み付け等にかかる時間およびコストが削減でき、属人性に関する懸念も解消すると考えられる。
【0030】
しかし、一方でノイズが多い等の品質が低いマススペクトルが学習データに含まれると、機械学習モデルにおいて誤った学習がなされ、不適切な判別を行なってしまうことが懸念される。そこで、本実施形態に係る学習データの作成方法においては、品質の低いマススペクトルを除外することで学習データの品質を向上する。これにより、正しく学習された機械学習モデルを提供することができるので、精度よい微生物の判別が可能になる。
【0031】
[3.実施形態に係る学習データと機械学習モデルの関係]
図2は、実施形態に係る学習データと機械学習モデルとの関係を説明するための図である。当該機械学習モデルは、微生物のマススペクトルを入力すると、微生物の分類を出力する。これにより、機械学習モデルは、微生物を判別することができる。なお、本明細書において、「微生物を判別する」とは、微生物の分類を分類学的に同定することを指す。
【0032】
このような機械学習モデルは、たとえばニューラルネットワーク(
図3)を含む。ニューラルネットワークにおいては、入力に対する適切な出力のために、各ノードに重み付けがなされている。当該重み付けは、学習データによる学習により決定されている。
【0033】
より詳細には、ニューラルネットワークにおいては、複数の入力が入力層に与えられると、入力層においては各入力と重みとが乗算され、その乗算結果は次の層に送られる。次の層においては当該乗算結果と重みとを乗算し、その乗算結果はさらに次の層に送られる。最終的には、出力層から出力が得られる。
【0034】
機械学習モデルの学習は、たとえば以下のように行なわれる。まず、分類が既知の微生物のマススペクトルを多数取得する。次に、機械学習モデルの入力であるマススペクトルと、当該入力に対してあるべき出力(正解)である分類とのセットを、学習データとして機械学習モデルに学習させる。これにより、機械学習モデルは、入力に対してあるべき出力を出力できるように学習する。
図3の例では、各ノードの重み付けが適切に調整される。
【0035】
このような機械学習において、精度よく微生物を判別するための機械学習モデルを作成するためには、品質の高い学習データを学習させることが重要である。
【0036】
たとえば、微生物の分類の特徴を反映しないピークを多く含む、品質の低いマススペクトルを含む学習データを学習させると、機械学習モデルが正しく学習できない。逆に、主に微生物の分類の特徴を反映するピークを含む、品質の高いマススペクトルを含む学習データを学習させると、微生物を精度よく判別できる機械学習モデルが作成できる。
【0037】
そこで、本実施形態に係る学習データを作成する方法においては、マススペクトルの品質に関する条件を満たすマススペクトルを含む学習データを作成する。
【0038】
[4.実施形態に係る学習データの作成方法]
図4は、実施形態に係る学習データの作成処理を示すフローチャートである。
図4に示す各ステップは、プロセッサ10によって、実行される。
【0039】
ステップ(以下、ステップを「S」と略す。)2において、プロセッサ10は、微生物の質量分析を実行して得られたマススペクトルを取得して、取得したマススペクトルを含む収集データを作成する。
【0040】
続くS4,S6において、プロセッサ10は、収集データに含まれるマススペクトルについて、特定条件を満たすかを判定する。特定条件は、第1条件および第2条件を含む。
【0041】
S4において、プロセッサ10は、収集データに含まれる全てのマススペクトルについて、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークに対応するピークm/zの一致率R1が第1数値α1以上(R1≧α1)であるという第1条件を満たすかを判定する。第1条件の詳細な内容については後述する。
【0042】
マススペクトルが第1条件を満たす場合(S4においてYES)、S6において、プロセッサ10は、第1条件を満たすマススペクトルの各々について、微生物の分類の特徴を反映しない特定パターンのピークが含まれないという第2条件を満たすかを判定する。第2条件の詳細な内容については後述する。
【0043】
マススペクトルが第2条件を満たす場合(S6においてYES)、S8において、プロセッサ10は、残ったマススペクトルを学習データに含んで、処理を終了する。残ったマススペクトルは、第1条件および第2条件を含む特定条件を満たすマススペクトルである。よって、S8において、プロセッサ10は、特定条件を満たすマススペクトルを含む学習データを作成できる。
【0044】
マススペクトルが第1条件を満たさない場合(S4においてNO)、または、第2条件を満たさない場合(S6においてNO)、S10において、プロセッサ10は、第1条件および/または第2条件を満たさないマススペクトルを除去し、処理を終了する。なお、第1条件を満たさないマススペクトルとは、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのうち、ピークm/zの一致率R1が第1数値α1未満であるマススペクトルである。一方、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのうち、ピークm/zの一致率R1が第1数値α1以上であるマススペクトルはS6において第2条件を満たすかを判定される。
【0045】
S2において、マススペクトルはたとえばMS16から受信されるが、これに限定されない。たとえば、解析装置100は、微生物の質量分析を実行して得られたマススペクトルを含む収集データを外部の装置または記憶媒体から取得し、S4以降の処理を行なってもよい。このように外部の装置または記憶媒体からマススペクトルまたは収集データを取得した場合も、S2における「解析装置100が収集データを作成する」処理に含まれる。
【0046】
S4に関して、収集データにおいて、同一の微生物に対するマススペクトルが1つしか含まれない場合、当該マススペクトルについては、便宜上S4を満たすと判定してS6の判定を行なってもよいし、逆に便宜上S4を満たさないと判定してS10で除外してもよい。
【0047】
また、実施形態に係る学習データの作成方法は上記の例に限定されず、たとえば、
図4において、第1条件の判定と第2条件の判定とは順序が逆であってもよい。また収集データに含まれるマススペクトルの各々について、第1条件の判定と、第2条件の判定とを別々に行ない、第1条件の判定結果と第2条件との判定結果を合わせてどちらも満たしている場合のみ、学習データに含む態様としてもよい。さらには、第1条件の判定および第2条件の判定のいずれか一方のみを含む構成としてもよい。
【0048】
図4の処理により、マススペクトルの品質に関する第1条件および第2条件を含む特定条件を満たすマススペクトルを用いた学習データを作成できる。これにより、学習データの品質が向上する。よって、
図4の処理により作成された学習データを用いて、機械学習モデルを正しく学習させることができる。よって、微生物を精度よく判別可能な機械学習モデルを作成することができる。
【0049】
(4-1.第1条件)
次に、第1条件について詳細に説明する。
【0050】
(4-1-1.第1条件の対象となるマススペクトルの例)
質量分析装置に供するサンプル調整の条件、および/または、質量分析装置における測定条件が不適切な場合、ピークの強度(以下、「ピーク強度」とも称する)が全体的に弱く、ノイズピークを多く含むマススペクトルしか取得できないときがある。また、質量分析装置の不良、サンプルの取り違え、および/またはコンタミネーションによって、分析対象である微生物由来のピークと異なる位置(m/z)にピークが観測される場合がある。
【0051】
このような問題に対して、同一の微生物に対する繰り返し測定を行なって得られた複数のマススペクトルから、ピーク位置が安定しないマススペクトルを除くことにより、ピーク強度が十分でない、または、分析対象である微生物由来のピークと異なる位置に見られるマススペクトルを除外することができる。
【0052】
図5は、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークm/zが一致しない例を示す図である。
図5は、Staphylococcus arlettae由来のサンプルについて質量分析を複数回実行して得られた4つのマススペクトルを示している。約m/z5000(破線)の付近に着目すると、上から1~3段目のマススペクトルにおいては、約m/z5000の位置に、ピークが観測される。換言すると、対応する(略同一の)m/zにピークが観測されている。一方、上から4段目のマススペクトルについては、ピークが高m/z側にずれていることが分かる。
【0053】
すなわち、上記約m/z5000付近のピークにおいて、1~3段目のマススペクトルはピークm/zが一致するのに対し、4段目のマススペクトルのピークm/zは一致しない。このことから、1~3段目のマススペクトルの上記ピークは、Staphylococcus arlettaeで発現する所定のタンパク質のm/zを正しく反映しているのに対し、4段目のマススペクトルの上記ピークは正しく反映していないと考えられる。
【0054】
このように、同じ微生物について得られた複数のマススペクトルにおいて、一部のマススペクトルにおけるピークのピークm/zが他の多くのマススペクトルのピークm/zと一致しない場合、当該一部のマススペクトルにおけるピークは「微生物の分類の特徴を正しく反映しないピーク」であると考えられる。そして、当該「微生物の分類の特徴を正しく反映しないピーク」を多く含むマススペクトルは、微生物の分類の特徴を正しく反映していない品質の低いマススペクトルといえる。よって、同じ微生物について得られた複数のマススペクトルから、ピークm/zの一致率R1を指標として品質の低いマススペクトルを除外することにより、学習データの品質が向上する。
【0055】
(4-1-2.第1条件の判定処理)
複数のマススペクトルのピークm/zの一致率R1の算出および当該一致率R1に基づくマススペクトルの選別は、たとえば、以下のように行なわれる。
【0056】
図6は、第1条件の判定処理を示すフローチャートである。
図6に示す各ステップは、
図4のS4のサブルーチンに相当し、S2の後に実行される。
【0057】
S41において、プロセッサ10は、収集データに含まれるマススペクトルから、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルを選択する。
【0058】
S42において、プロセッサ10は、複数のマススペクトルの各々について第1幅を有する第1区間(いわゆるビン(bin))にm/zを分割する。
【0059】
S43において、プロセッサ10は、複数のマススペクトルの各々について各第1区間において共にピークを有する場合、ピークm/zが一致したと判定する。
【0060】
S44において、プロセッサ10は、複数のマススペクトルの各々において、全てのピークの個数に対するピークm/zが一致したピークの個数の比率を一致率R1として算出する。
【0061】
S45において、複数のマススペクトルの各々について一致率R1が第1数値α1以上であるかを判定する。第1数値α1は、たとえば、60%である。
【0062】
第1数値α1以上である場合(S45においてYES)、プロセッサ10は、S6に処理を進める。よって、複数のマススペクトルのうち、一致率R1が第1数値α1以上のマススペクトルは学習データに含まれる。
【0063】
第1数値α1未満である場合(S45においてNO)、プロセッサ10は、S10に処理を進める。よって、複数のマススペクトルのうち、一致率R1が第1数値α1未満のマススペクトルは学習データに含まれない。
【0064】
なお、S42の第1区間の分割および後続の処理は、全てのm/z範囲においてされてもよいし、特定m/zを示す範囲を示す範囲に限定されて行なわれてもよい。特定m/zとは、たとえば微生物に対して適切に質量分析が行なわれた場合に、タンパク質に対応するピークが取り得るm/zである。
【0065】
また、
図6の処理は、1つの微生物から同時に調整されたサンプルから得られたマススペクトルに限定して行なわれてもよいし、1つの微生物から別に調整されたサンプルから得られたマススペクトルを含んで行なわれてもよい。前者であれば、主に測定時の原因により不適切なピークを含むマススペクトルが除外される。後者であれば、測定時、サンプル調整時、培養時等の原因により不適切なピークを含むマススペクトルが除外される。
【0066】
図6の処理により、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルについて、同じ第1区間に、すなわち、対応するm/zにピークがある場合、ピークm/zが一致したと判定される。この処理が、第1区間毎に行なわれることにより、各第1区間毎に一致したピークがカウントされる。そして、ピークの一致率R1が第1数値α1以上であるマススペクトルが、学習データに含まれる。すなわち、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルから、他のマススペクトルと異なる位置にピークが多く観測されたマススペクトルが除外される。すなわち、何らかの原因で適切に測定されなかったと考えられるマススペクトルが除外される。
【0067】
このように、微生物の分類の特徴を正しく反映していない、品質の低いマススペクトルを除外することにより、品質の高い学習データが作成できる。
【0068】
(4-1-3.ピークの一致判定処理)
次に、S43の他の態様を、以下の2つの例で説明する。
【0069】
図7は、ピークの一致判定処理の一例を示すフローチャートである。
図7に示すステップは、
図6のS43の一例に相当し、S42とS44との間に実行される。
【0070】
S43Aにおいて、プロセッサ10は、複数のマススペクトルが同一の第1区間において共にピークを有し、かつ、各々のピークの強度の分布が特定分布を示す範囲内である場合、ピークm/zが一致したと判定する。特定分布は、たとえば、各々のピークの強度の分布が、ピークm/zが一致したと判定するのに適している状態を示す。特定分布はたとえば、各々のピークのうち最も小さい強度を示すピークに対する最も大きい強度を示すピークの強度比が特定強度比以下である状態を示す。特定強度比は、たとえば4倍である。
【0071】
図7の処理により、複数のマススペクトルが同一の第1区間において共にピークを有していても、各々のピークの強度の分布がピークm/zが一致したと判定するのに適していない状態である場合、ピークm/zが一致したと判定されない。
【0072】
特に、同一の微生物の複数のマススペクトルにおいて、各々のピーク強度が同一のタンパク質の発現量を反映するものであれば、各々のピーク強度は所定の範囲内に収まると推定される。よって、各々のピーク強度の比が所定の数値(特定強度比)より大きい場合、各々のピークの少なくとも1つは、同一のタンパク質の発現量を反映していない可能性が考えられる。同一のタンパク質の発現量を反映するものでないピークとは、たとえば測定時に生じたノイズ、または、混入物のピークである。よって、当該同一のタンパク質の発現量を反映するものでない可能性が高いピークをピークm/zの一致の判定対象から除外することにより、同一のタンパク質の発現量を反映するピークのピークm/zの一致のみを判定できる。すなわち、微生物の分類の特徴を反映していると考えられるピークの一致のみが、一致率R1の値に反映される。
【0073】
なお、特定分布は、上記のようなピーク強度の相対的な関係で示される状態に限定されず、絶対値で示される所定範囲に含まれる状態としてもよい。たとえば、特定分布は、微生物に対して適切に質量分析が行なわれた場合に、タンパク質に対応するピーク強度として妥当な上限値および下限値で規定されてもよい。これにより、マススペクトル測定時のノイズまたは混入物のピークである可能性が懸念される、ピーク強度が極端に低いまたは極端に高いピークをピークm/zの一致の判定対象から除外できる。
【0074】
以上により、
図7の処理により、第1条件の判定が適切に行なわれる。そして、学習データに含むマススペクトルが適切に選択される。
【0075】
図8は、ピークの一致判定処理の他の例を示すフローチャートである。
図8に示すステップは、
図4のS43の他の例に相当し、S42とS44との間に実行される。
【0076】
S43Bにおいて、プロセッサ10は、複数のマススペクトルについて各第1区間において共にピークを有する割合が第1割合以上の場合、ピークm/zが一致したと判定する。第1割合はたとえば4分の3である。すなわち第1割合は、各第1区間において、上記複数のマススペクトルのうち共にピークを有するマススペクトルの個数を、上記複数のマススペクトルの個数で除算した値である。第1割合は、たとえば、4分の3である。
【0077】
図8の処理により、同一の微生物の質量分析を複数回実行して得られた複数のマススペクトルのうち第1割合以上のマススペクトルにおいて、同一の第1区間において共にピークが観測される場合、当該ピークが共に観測されたマススペクトルにおいてピークm/zが一致したと判定できる。
【0078】
たとえば、先の
図5の例において、上から1段~3段のマススペクトルにおいては、約m/z5000を含む第1区間において、共にピークが観測される。一方、上から4段目のマススペクトルにおいては当該第1区間にはピークが観測されない。
図8の処理において、第1割合を4分の3と設定すると、1段~3段のマススペクトルにおいては、約m/z5000を含む第1区間において、ピークm/zが一致したと判定される。このように、第1割合を適切に設定することにより、ピークの一致が適切に判定できる。
【0079】
(4-2.第2条件)
次に、第2条件について詳細に説明する。
【0080】
(4-2-1.第2条件の対象となるマススペクトルの例)
微生物の質量分析を実行して得られたマススペクトルにおいては、微生物の分類の特徴を反映していない特定パターンのピークが含まれる場合がある。
【0081】
たとえば、培養条件によってある種の微生物がバイオポリマーを生成した場合、および/または、実験機器等に由来するポリマーがサンプルに混入した場合、マススペクトルデータにおいて、当該ポリマーに対応するピーク(本明細書においては「ポリマーピーク」とも称する)が含まれる場合がある。このような問題に対して、ポリマーピークに類似する周期的なピークを含むマススペクトルを除外することで対応することができる。
【0082】
図9は、周期的なピークが含まれるマススペクトルの例を示す図である。
図9は、Arthrobacter bergerei由来のサンプルについて質量分析を実行して得られたマススペクトルである。
図9を参照して、一定間隔で現れる周期的なピークは、約128Da間隔であることから、Arthrobacter bergereiにより産生されたポリリジンであると推定される。
図9の例では、微生物の分類の特徴を反映するピークに比べ、当該周期的なピークが顕著に見られる。
図9のようなポリマーピークに類似する周期的なピークを含むマススペクトルを学習データに含むと、機械学習モデルは、微生物の分類の特徴を反映するピークを正しく学習できないおそれがある。たとえば、約128Da間隔のピークがArthrobacter bergereiの特徴であると学習してしまう可能性が生じる。
【0083】
よって、ポリマーピークに類似する周期的なピークを含むマススペクトルは品質の低いマススペクトルといえる。よって、以下の
図10のように、当該周期的なピークを含むマススペクトルを除外することで、学習データの品質を向上することができる。
【0084】
(4-2-2.第2条件の判定処理)
図10は、第2条件の判定処理の一例を示すフローチャートである。
図10に示すステップは、
図4のS6の一例に相当し、S4とS8との間に実行される。
【0085】
S6Aにおいて、プロセッサ10は、収集データに含まれるマススペクトルについて、周期的なピークを含むか否かを判定する。
【0086】
(4-2-3.周期的なピークの判定処理)
マススペクトルが周期的なピークを含むか否かの判定は、たとえば、以下のように行なわれる。
【0087】
図11は、周期的なピークの判定処理を示すフローチャートである。
図11に示す各ステップは、
図10のS6Aのサブルーチンに相当し、S4の後に実行される。
【0088】
S6A1において、プロセッサ10は、収集データにおけるマススペクトルに含まれるピークのうち、隣り合うピーク同士の間隔(m/z差)を求める。
【0089】
S6A2において、プロセッサ10は、第2幅を有する第2区間(ビン)ごとに階級分けしたm/z差の度数分布を作成する。度数分布は、たとえば、ヒストグラムで表される。第2幅は、たとえば、1Daである。
【0090】
S6A3において、プロセッサ10は、度数分布の最大度数が第2数値α2未満であるかを判定する。第2数値は、たとえば、6である。
【0091】
度数分布の最大度数が第2数値α2未満である場合(S6A3においてYES)、プロセッサ10は、S8に処理を進める。
【0092】
度数分布の最大度数が第2数値α2以上である場合(S6A3においてNO)、プロセッサ10は、S10に処理を進める。
【0093】
図11の処理において、マススペクトルに周期的なピークが含まれる場合、隣り合うピーク同士のm/z差には、当該周期の間隔に対応するものが多く含まれる。よって、当該周期の間隔を含む第2区間に階級分けされるm/z差の個数は多くなる。従って、特定の第2区間に対するm/z差の個数が第2数値α2以上であるマススペクトルは、周期的なピークを含まれると判定できる。
【0094】
一方で、m/z差の個数が第2数値α2未満であるマススペクトルは、周期的なピークを含まないと判定できる。
【0095】
すなわち、
図11の処理により、ポリマーピークに類似する周期的なピークを含む品質の低いマススペクトルを簡易な処理により除外できる。
【0096】
なお、以上では、微生物の分類の特徴を反映していない特定パターンのピークの例として、周期的なピークを例示したが、これに限定されず、微生物の分類の特徴を反映しないことが明らかである他のパターンのピークであってもよい。
【0097】
[5.変型例1]
さらに、実施形態に係る学習データの作成方法は、マススペクトルの品質に関する他の条件を含んでもよい。
【0098】
図12は、第3条件の判定処理を示すフローチャートである。
図12のフローチャートは、
図4のフローチャートのS6の後にS7が追加されたものである。
【0099】
S7において、プロセッサ10は、各マススペクトルに含まれる全てのピークの個数であるピーク数が特定ピーク数の範囲内という第3条件を満たすかを判定する。特定ピーク数とは、たとえば、微生物に対して適切に質量分析が行なわれた場合に、そのマススペクトルに含まれることが妥当であるピーク数である。
【0100】
第3条件を満たす場合(S7においてYES)、プロセッサ10は、S8に処理を進める。
【0101】
第3条件を満たさない場合(S7においてNO)、プロセッサ10は、S10に処理を進める。
【0102】
図12の処理により、たとえばピーク数が異常に少ないマススペクトル、および、ピーク数が異常に多いマススペクトルを除外した学習データを作成できる。
【0103】
ピーク数が異常に少ない状態は、たとえば、質量分析装置によるピークの検出異常、サンプルの調製の失敗、質量分析装置のサンプルプレートへのサンプルの適切な滴下の失敗、サンプルの取り違え等の可能性がある。これらの可能性があるマススペクトルは微生物の分類の特徴を反映するピークも適切に検出できていないことが懸念される。よって、ピーク数が異常に少ないマススペクトルを除外することで、学習データの品質が向上する。
【0104】
ピーク数が異常に多い状態は、たとえば、質量分析装置によるピークの検出異常(たとえば質量分析装置の調整不良による多数のノイズピークの検出)、サンプルの調製の失敗、コンタミネーション等の可能性がある。これらの可能性があるマススペクトルは、分析対象である微生物に由来しないノイズとなるピークを多く含むことが懸念される。よって、ピーク数が異常に多いマススペクトルを除外することで、学習データの品質を向上することができる。
【0105】
すなわち、
図12の処理により、ピーク数が異常に少ないまたは異常に多い、品質の低いマススペクトルを除外した、品質の高い学習データが作成できる。
【0106】
[6.変型例2]
また、
図4において、各条件の判定の前に、各条件の判定対象となるピークを選択する処理を加えてもよい。
【0107】
図13は、条件の判定対象となるピークの選択処理を示すフローチャートである。
図13のフローチャートは、
図4のフローチャートのS2の前にS1が追加されたものである。
【0108】
S1において、プロセッサ10は、後続のステップにおいて条件の判定対象となるピークを、強度が特定強度以上という第1基準、S/N比が特定S/N比以上という第2基準または特定m/zを示す範囲内であるという第3基準の少なくとも1つを満たすピークとする。
【0109】
特定強度とは、たとえば、微生物に対して適切に質量分析が行なわれた場合に、タンパク質に対応するピーク強度として妥当な下限値である。特定強度は、たとえば、0.05または0.1である。
【0110】
特定S/N比とは、たとえば、微生物に対して適切に質量分析が行なわれ、ピークがタンパク質を適切に反映している場合に取り得る、マススペクトル全体のノイズレベルに対する、ピークの強度を示す値の下限値である。マススペクトル全体のノイズレベルは、たとえば、ピークが検出されない領域の平均的な信号強度に基づいて算出される。
【0111】
特定m/zとは、上記したように、たとえば微生物の質量分析が適切に行なわれた場合に、タンパク質に対応するピークが取り得るm/zである。特定m/zを示す範囲は、たとえば、2,000Da以上、20,000Da以下の範囲である。
【0112】
すなわちS1において、第1基準、第2基準および第3基準に基づいて、微生物のタンパク質を適切に反映していないピークを、後続のステップの条件判定の対象から除外できる。よって、後続のステップにおいて、微生物のタンパク質を適切に反映しているピークに基づいて条件を満たすかを判定できる可能性があがる。よって、後続の条件を適切に判定できる。
【0113】
[7.数値例]
表1は、実施形態に係る学習データを作成する方法で使用した数値を示す。表1の「項目」には、第1条件および第2条件に関する各数値または範囲の名称が記載されている(
図4、
図6、
図8、
図11、
図13も参照)。
【0114】
【0115】
これらの数値に基づいて学習データを作成すると、続く表2に示すように、微生物を精度よく判別できる機械学習モデルが作成できる。
【0116】
[8.実施形態に係る学習データを用いて学習した機械学習モデルの微生物判別結果]
表2は、実施形態に係る学習データを作成する方法により作成した学習データで学習した機械学習モデルにおいて、微生物のマススペクトルを判別した結果を示す。
【0117】
【0118】
表2を参照して、「比較例に係る機械学習モデル」は、収集データに含まれるマススペクトルの全てを含む学習データを使用した機械学習モデルの、判別結果の正答率である。判別結果の正答率とは、機械学習モデルに入力したマススペクトルに対して出力された判別結果が、当該マススペクトルに対応する微生物の正しい分類を示した確率である。「実施形態に係る機械学習モデル」は、収集データに含まれるマススペクトルに対し、条件1,2を満たすマススペクトルのみを含む学習データを使用した機械学習モデルの、正答率である。
【0119】
実施形態に係る機械学習モデルでは、比較例に係る機械学習モデルに比べ、正答率が向上しているのがわかる。すなわち、実施形態に係る学習データを作成する方法により作成した学習データを用いた機械学習モデルでは、微生物の判別精度が向上している。
【0120】
[態様]
上述した複数の例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
【0121】
(第1項)一態様に係る学習データを作成する方法は、質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する方法であって、微生物の質量分析を実行して得られたマススペクトルを取得して、取得したマススペクトルを含む収集データを作成するステップと、収集データに含まれるマススペクトルについて、特定条件を満たすかを判定するステップと、特定条件を満たすマススペクトルを用いて学習データを作成するステップとを備える。特定条件を満たすかを判定するステップは、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークに対応するm/zの一致率が第1数値以上であるという第1条件を満たすかを判定するステップと、微生物の分類の特徴を反映しない特定パターンのピークが含まれないという第2条件を満たすかを判定するステップとを含む。
【0122】
第1項に記載の学習データを作成する方法によれば、質量分析法を用いて微生物を判別する機械学習モデルの学習データの品質が向上される。またこれにより、判別精度の高い機械学習モデルを提供することができる。
【0123】
(第2項)第1項に記載の学習データを作成する方法において、特定条件を満たすかを判定するステップは、収集データに含まれるマススペクトルについて、全てのピークの個数が特定ピーク数を示す範囲内であるという第3条件を満たすかを判定するステップをさらに含む。
【0124】
第2項に記載の学習データを作成する方法によれば、ピーク数が異常に少ないまたは異常に多い、品質の低いマススペクトルを除外した、品質の高い学習データが作成できる。
【0125】
(第3項)第1または2項に記載の学習データを作成する方法において、定条件を満たすかを判定するステップは、特定条件の判定対象となるピークを、強度が特定強度以上という第1基準、S/N比が特定S/N比以上という第2基準またはm/zが特定m/zを示す範囲内であるという第3基準の少なくとも1つを満たすピークとするステップをさらに含む。
【0126】
第3項に記載の学習データを作成する方法によれば、第1基準、第2基準および第3基準に基づいて、微生物のタンパク質を適切に反映していないピークを、条件判定の対象から除外できる。よって、後続のステップにおいて、微生物のタンパク質を適切に反映しているピークに基づいて条件を満たすかを判定できる可能性があがる。よって、条件を適切に判定できる。
【0127】
(第4項)第1~3のいずれか1項に記載の学習データを作成する方法において、第1条件を満たすかを判定するステップは、収集データに含まれるマススペクトルから、複数のマススペクトルを選択するステップと、複数のマススペクトルの各々について第1幅を有する第1区間にm/zを分割するステップと、複数のマススペクトルの各々について各第1区間において共にピークを有する場合、ピークに対応するm/zが一致したと判定するステップと、複数のマススペクトルの各々において、全てのピークの個数に対する、ピークに対応するm/zが一致したピークの個数の比率を一致率として算出するステップと、複数のマススペクトルの各々について一致率が第1数値以上であるかを判定するステップとを含む。
【0128】
第4項に記載の学習データを作成する方法によれば、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルから、他のマススペクトルと異なる位置にピークが多く観測されたマススペクトルが除外される。すなわち、何らかの原因で適切に測定されなかったと考えられるマススペクトルが除外される。このように、微生物の分類の特徴を正しく反映していない、品質の低いマススペクトルを除外することにより、品質の高い学習データが作成できる。
【0129】
(第5項)第4項に記載の学習データを作成する方法において、ピークに対応するm/zが一致したと判定するステップは、複数のマススペクトルが同一の第1区間において共にピークを有し、かつ、同一の第1区間に含まれる各々のピークの強度の分布が特定分布を示す範囲内である場合、ピークに対応するm/zが一致したと判定するステップを含む。
【0130】
第5項に記載の学習データを作成する方法によれば、複数のマススペクトルが同一の第1区間において共にピークを有していても、各々のピークの強度の分布がピークm/zが一致したと判定するのに適していない状態である場合、ピークm/zが一致したと判定されない。すなわち、微生物の分類の特徴を反映していると考えられるピークの一致のみが、一致率の値に反映される。これにより、第1条件の判定が適切に行なわれる。そして、学習データに含むマススペクトルが適切に選択される。
【0131】
(第6項)第5項に記載の学習データを作成する方法において、特定分布は、各々のピークのうち最も大きい強度を示すピークと最も小さい強度を示すピークの強度比が特定強度比以下である状態である。
【0132】
第6項に記載の学習データを作成する方法によれば、同一のタンパク質の発現量を反映するピークのピークm/zの一致のみを判定できる。すなわち、微生物の分類の特徴を反映していると考えられるピークの一致のみが、一致率の値に反映される。
【0133】
(第7項)第5または6項に記載の学習データを作成する方法において、ピークに対応するm/zが一致したと判定するステップは、複数のマススペクトルについて各第1区間において共にピークを有する割合が第1割合以上の場合、ピークに対応するm/zが一致したと判定するステップを含む。
【0134】
第7項に記載の学習データを作成する方法によれば、第1割合を適切に設定することにより、ピークの一致が適切に判定できる。
【0135】
(第8項)第1~7のいずれか1項に記載の学習データを作成する方法において、第2条件を満たすかを判定するステップは、収集データに含まれるマススペクトルについて、周期的なピークを含むかを判定するステップを含む。
【0136】
第8項に記載の学習データを作成する方法によれば、ポリマーピークに類似する周期的なピークを含むマススペクトルを除外することで、学習データの品質を向上することができる。
【0137】
(第9項)第8項に記載の学習データを作成する方法において、周期的なピークを含むかを判定するステップは、収集データに含まれるマススペクトルに含まれるピークのうち、隣り合うピーク同士のm/z差を求めるステップと、第2幅を有する第2区間毎に階級分けしたm/z差の度数分布を作成するステップと、度数分布の最大度数が第2数値未満であるかを判定するステップとを含む。
【0138】
第9項に記載の学習データを作成する方法によれば、ポリマーピークに類似する周期的なピークを含む品質の低いマススペクトルを簡易な処理により除外できる。
【0139】
(第10項)第1~9のいずれか1項に記載の学習データを作成する方法を用いて作成された学習データを用いて作成された機械学習モデルを用いて微生物を判別する、微生物の判別方法。
【0140】
(第11項)第1~10のいずれか1項に記載の微生物の判別方法は、ニューラルネットワークを含む。
【0141】
第11項に記載の学習データを作成する方法によれば、ニューラルネットワークを用いて第10項に記載の微生物の判別方法を実施できる。
【0142】
(第12項)一態様にかかる解析装置は、質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する解析装置であって、メモリと、プロセッサとを備える。メモリは、微生物のマススペクトルを記憶する。プロセッサは、メモリに記憶されたマススペクトルを用いて学習データを作成する方法を実行する。プロセッサは、微生物の質量分析を実行して得られたマススペクトルを取得して、取得したマススペクトルを含む収集データを作成する。プロセッサは、収集データに含まれるマススペクトルについて、同じ微生物について質量分析を複数回実行して得られた複数のマススペクトルのピークに対応するm/zの一致率が第1数値以上であるという第1条件を満たすかを判定し、微生物の分類の特徴を反映しない特定パターンのピークが含まれないという第2条件を満たすかを判定する。プロセッサは、第1条件および第2条件を含む特定を満たすマススペクトルを用いて学習データを作成する。
【0143】
第12項に記載の学習データを作成する方法によれば、質量分析法を用いて微生物を判別する機械学習モデルの学習データの品質が向上される。またこれにより、判別精度の高い機械学習モデルを提供することができる。
【0144】
(第13項)コンピュータによって実行されることにより、コンピュータに第1~9のいずれか1項に記載の学習データを作成する方法を実施させる、プログラム。
【0145】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0146】
10 プロセッサ、11 メモリ、12 通信I/F、13 入出力I/F、14 操作部、15 ディスプレイ、16 MS、100 解析装置、101 コントローラ。