(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024025520
(43)【公開日】2024-02-26
(54)【発明の名称】学習データを作成する方法、機械学習モデル、微生物の判別方法、解析装置、プログラム
(51)【国際特許分類】
G01N 27/62 20210101AFI20240216BHJP
G16B 30/00 20190101ALI20240216BHJP
G16B 40/00 20190101ALI20240216BHJP
G06N 20/00 20190101ALI20240216BHJP
G06N 3/02 20060101ALI20240216BHJP
C12Q 1/6872 20180101ALN20240216BHJP
【FI】
G01N27/62 V
G01N27/62 D
G16B30/00
G16B40/00
G06N20/00
G06N3/02
C12Q1/6872 Z
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022129028
(22)【出願日】2022-08-12
(71)【出願人】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】大久保 達樹
(72)【発明者】
【氏名】寺本 華奈江
【テーマコード(参考)】
2G041
4B063
【Fターム(参考)】
2G041CA01
2G041DA04
2G041FA10
2G041FA11
2G041FA12
2G041GA06
4B063QA13
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QS36
4B063QS39
4B063QX02
(57)【要約】
【課題】遺伝情報が類似している微生物の種類の誤判別の可能性が低い機械学習モデル、および、当該機械学習モデル作成のための学習データを作成する。
【解決手段】質量分析法を用いて微生物の種類を判別する機械学習モデルの学習データを作成する方法であって、微生物の種類ごとの遺伝情報を取得するステップS1と、遺伝情報が類似している微生物の種類を推定し、遺伝情報が類似していると推定された微生物の種類を含むグループを作成するステップS2と、グループに関する情報を学習データに含むステップS3とを含む。
【選択図】
図4
【特許請求の範囲】
【請求項1】
質量分析法を用いて微生物の種類を判別する機械学習モデルの学習データを作成する方法であって、
前記微生物の種類ごとの遺伝情報を取得するステップと、
遺伝情報が類似している前記微生物の種類を推定し、遺伝情報が類似していると推定された前記微生物の種類を含むグループを作成するステップと、
前記グループに関する情報を学習データに含むステップとを含む、学習データを作成する方法。
【請求項2】
前記微生物の種類は、前記微生物の種であり、
前記微生物は1以上の種を含み、
前記遺伝情報が類似している微生物の種類は、近縁種である、請求項1に記載の学習データを作成する方法。
【請求項3】
前記遺伝情報を取得するステップは、
前記微生物の各種に対応するタンパク質ごとに1以上のアミノ酸配列を取得するステップを含み、
前記グループを作成するステップは、
各種について、タンパク質ごとに1以上のアミノ酸配列を要素として含む配列リストを作成するステップと、
各種について、前記配列リストを要素とするタンパク質リストを作成するステップと、
異なる2つの種間の前記タンパク質リストの類似度を算出するステップと、
前記類似度に基づいて、近縁種を推定するステップと、
前記近縁種を含むグループを作成するステップとを含む、請求項2に記載の学習データを作成する方法。
【請求項4】
前記異なる2つの種は、第1種と、第2種とを含み、
前記類似度を算出するステップは、
前記第1種のタンパク質リストに含まれる各タンパク質のアミノ酸配列について、前記第2種のタンパク質リストに含まれる各アミノ酸配列との特定差違が特定条件を満たすかを判定し、前記特定差違が特定条件を満たす場合があるタンパク質の特定個数を算出するステップと、
前記第1種のタンパク質リストの含まれるタンパク質の総数に対する、前記特定個数の割合を、第1種から見た第2種の前記類似度として算出するステップとを含む、請求項3に記載の学習データを作成する方法。
【請求項5】
前記特定差違は、アミノ酸配列の編集距離、もしくは、Average Amino-acid Identity法に基づいて算出される数値である、請求項4に記載の学習データを作成する方法。
【請求項6】
前記特定差違が編集距離である場合、特定条件は10以下の所定の自然数より小さいという条件である、請求項5に記載の学習データを作成する方法。
【請求項7】
前記アミノ酸配列を取得するステップは、
タンパク質名に対応したアミノ酸配列を含むアミノ酸配列のデータベースから、タンパク質名に特定の文字列を含むアミノ酸配列のみを取得するステップを含む、請求項3に記載の学習データを生成する方法。
【請求項8】
前記特定の文字列は、ハウスキーピングタンパク質およびDNA結合タンパク質の少なくとも1つを示す文字列を含む、請求項7に記載の学習データを生成する方法。
【請求項9】
前記近縁種を推定するステップは、
前記類似度に対して、閾値、平均、標準偏差、外れ値検定の少なくとも1つを用いる統計的手法を用いることにより、近縁種を推定するステップを含む、請求項3に記載の学習データを作成する方法。
【請求項10】
前記学習データに含むステップは、
前記グループに含まれる微生物の種類に同じラベルを付加するステップを含む、請求項1に記載の学習データを作成する方法。
【請求項11】
請求項1に記載の学習データを作成する方法を用いて作成された学習データを用いて作成された機械学習モデル。
【請求項12】
請求項11に記載の機械学習モデルを用いて微生物を判別する、微生物の判別方法。
【請求項13】
前記機械学習モデルは、ニューラルネットワークを含む、請求項12に記載の微生物の判別方法。
【請求項14】
質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する解析装置であって、
微生物の遺伝情報を記憶するメモリと、
前記メモリに記憶された遺伝情報を用いて学習データを作成する方法を実行するプロセッサとを備え、
前記プロセッサは、
微生物ごとの前記遺伝情報を取得し、
前記遺伝情報が類似している微生物を推定し、前記遺伝情報が類似していると推定された微生物を含むグループを作成し、
前記グループに関する情報を学習データに含む、解析装置。
【請求項15】
コンピュータによって実行されることにより、前記コンピュータに請求項1に記載の学習データを作成する方法を実施させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習データを作成する方法、機械学習モデル、微生物の判別方法、解析装置、プログラムに関する。
【背景技術】
【0002】
従来、微生物をMALDI-MS(Matrix Assisted Laser Desorption/Ionization-Mass Spectrometry)分析して得られたマススペクトルに基づいて、微生物を判別する方法が知られている。
【0003】
特に、近年では、当該マススペクトルに基づいて微生物を分類する方法として、機械学習モデルを使用する方法が着目されている。米国特許出願公開第2020/0118805号(特許文献1)には、機械学習モデルを用いて、微生物を判別する方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】米国特許出願公開第2020/0118805号
【非特許文献】
【0005】
【非特許文献1】Monika Ehling-Schulz et al.,”The Bacillus cereus Group: Bacillus species with Pathogenic Potential”,Microbiology Spectrum,Vol.7,No.3,17 May 2019,DOI:https://doi.org/10.1128/microbiolspec.GPP3-0032-2018.
【非特許文献2】Bacillus subtilis group,https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=653685
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、このような質量分析法を用いた微生物の判別において、微生物の分類が異なっていても、マススペクトルが類似している場合、判別が困難なときがある。たとえば、同属異種であっても遺伝情報が類似している近縁種は、マススペクトルによっても判別が困難となり得る。このような近縁種について、他の近縁種がない種と同様に学習データに含んでしまうと、当該学習データを用いて学習した機械学習モデルは、近縁種の中で誤判別を行なってしまう可能性があった。すなわち、当該機械学習モデルは、近縁種を有する所定の種のマススペクトルが入力された場合、当該所定の種でなくその近縁種であるという判別結果を出力してしまう可能性があった。
【0007】
本開示は、このような事情を鑑みてなされたものであり、その目的は、質量分析法を用いて微生物を判別する機械学習の分野において、遺伝情報が類似している微生物の種類の誤判別の可能性が低い機械学習モデル、および、当該機械学習モデル作成のための学習データを作成することである。
【課題を解決するための手段】
【0008】
本開示の第1の態様は、質量分析法を用いて微生物の種類を判別する機械学習モデルの学習データを作成する方法であって、微生物の種類ごとの遺伝情報を取得するステップと、遺伝情報が類似している微生物の種類を推定し、遺伝情報が類似していると推定された微生物の種類を含むグループを作成するステップと、グループに関する情報を学習データに含むステップとを含む。
【0009】
本開示の第2の態様は、質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する解析装置である。解析装置は、メモリと、プロセッサとを備える。メモリは、微生物の遺伝情報を記憶する。プロセッサは、メモリに記憶された遺伝情報を用いて学習データを作成する方法を実行する。プロセッサは、微生物ごとの遺伝情報を取得し、遺伝情報が類似している微生物を推定し、遺伝情報が類似していると推定された微生物を含むグループを作成し、グループに関する情報を学習データに含む。
【発明の効果】
【0010】
本開示による学習データを作成する方法によれば、遺伝情報が類似していると推定された微生物の種類を含むグループの情報を学習データに含むことにより、当該学習データを用いた機械学習モデルにおいて、グループに含まれる微生物の種類同士(たとえば近縁種同士)の判別を行なわないように設定可能である。よって、遺伝情報が類似している微生物の種類の中での誤判別を防ぐことができる。すなわち、遺伝情報が類似している微生物の種類の誤判別の可能性が低い機械学習モデル、および、当該機械学習モデルを作成するための学習データが提供できる。
【図面の簡単な説明】
【0011】
【
図1】実施形態に係る解析装置の構成を示す図である。
【
図2】実施形態に係る学習データと機械学習モデルとの関係を説明するための図である。
【
図3】ニューラルネットワークを説明するための図である。
【
図4】実施形態に係る学習データの作成処理を示すフローチャートである。
【
図5】グループに関する情報の学習データへの付加処理の一例を示すフローチャートである。
【
図6】アミノ酸配列の取得処理を示すフローチャートである。
【
図7】アミノ酸配列に基づいた近縁種の推定処理を示すフローチャートである。
【
図8】配列リストおよびタンパク質リストを説明するための図である。
【
図9】アミノ酸配列の類似度の算出処理の一例を示すフローチャートである。
【
図10】類似度の算出方法を説明するための図である。
【
図11】類似度に基づく近縁種の推定処理の一例を示すフローチャートである。
【
図12】アミノ酸配列の取得処理の一例を示すフローチャートである。
【
図13】実施形態に係る機械学習モデルによる近縁種の推定結果を説明するための図である。
【発明を実施するための形態】
【0012】
以下に、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下では図中の同一または相当部分には同一の符号を付して、その説明は原則的に繰返さないものとする。
【0013】
[1.解析装置の構成]
図1は、実施形態に係る解析装置100の構成を示す図である。解析装置100は、微生物の種類に応じたマススペクトルを取得し、マススペクトルを用いて微生物の種類を判別する機械学習モデルの学習データを作成する。
図1を参照して、解析装置100は、コントローラ101と、ディスプレイ15と、操作部14とを含む。コントローラ101には、ディスプレイ15および操作部14が接続される。操作部14は、典型的には、タッチパネル、キーボード、マウスなどで構成される。操作部14は、プロセッサ10に対するユーザの操作入力を受け付ける。ディスプレイ15は、例えば画像を表示可能な液晶パネルで構成される。ディスプレイ15は、ユーザの操作入力の受け付けに関する画像を表示し、プロセッサ10による処理の結果を表示する。
【0014】
コントローラ101は、主な構成要素として、プロセッサ10と、メモリ11と、通信インターフェイス(I/F)12と、入出力I/F13とを有する。これらの各部は、バスを介して互いに通信可能に接続される。
【0015】
プロセッサ10は、典型的には、CPU(Central Processing Unit)またはMPU(Micro Processing Unit)などの演算処理部である。プロセッサ10は、メモリ11に記憶されたプログラムを読み出して実行することで、解析装置100の動作を制御する。当該プログラムは、コンピュータによって実行されることにより、コンピュータに実施形態に係る学習データを作成する方法を実施させるプログラムを含む。
【0016】
メモリ11は、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、および、HDD(Hard Disk Drive)などの記憶装置で実現される。ROMは、プロセッサ10にて実行されるプログラムを格納することができる。RAMは、プロセッサ10におけるプログラムの実行中に利用されるデータを一時的に格納することができ、作業領域として利用される一時的なデータメモリとして機能することができる。HDDは、不揮発性の記憶装置である。HDDに加えて、あるいは、HDDに代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。なお、上記プログラムおよび/またはデータは、プロセッサ10がアクセス可能な外部の記憶装置に格納されていてもよい。
【0017】
通信I/F12は、外部装置と各種データをやり取りするための通信インターフェイスであり、アダプタまたはコネクタなどによって実現される。なお、通信方式は、無線LAN(Local Area Network)などによる無線通信方式であってもよいし、USB(Universal Serial Bus)などを利用した有線通信方式であってもよい。
【0018】
入出力I/F13は、プロセッサ10と、入出力I/F13に接続される外部機器との間で各種データをやり取りするためのインターフェイスである。外部機器は、操作部14と、ディスプレイ15とを含む。入出力I/F13には、質量分析装置(MS)16が接続されてもよい。
【0019】
MS16は、微生物由来のサンプルに含まれる成分の質量分析を行なうための装置であり、例えば、MALDI-TOF MS(Matrix-Assisted Laser Desorption/Ionization Time-of-Flight Mass Spectrometry)である。MS16では、レーザ照射により生じたイオンをフライトチューブに引き出して飛行させ、飛行時間に応じて分離したのち検出する。飛行時間は、成分の質量電荷比m/zに相関する。その結果、m/zを横軸に、検出されたイオン強度を縦軸に示したマススペクトルが得られる。
【0020】
本明細書において、MS16はサンプル中のタンパク質の質量分析を行なう。よって、マススペクトルにおいては、サンプル中のタンパク質の質量電荷比(m/z)に応じてピークが検出される。よって、マススペクトルのパターン、より特定的にはピークのパターンを参照すると、サンプルに含まれるタンパク質を認識することができる。
【0021】
異なる種類の微生物は、異なるタンパク質を含むので、それぞれのマススペクトルのパターンも異なったものとなる。すなわち、一般的に、マススペクトルのパターンは、微生物の種類を反映する。なお、本明細書において、微生物の「種類」とは、例えば、微生物の「ジェノタイプ、株、あるいは亜種・種・属・科等の系統分類群のランク」の少なくとも1つを含む。
【0022】
MS16は、微生物を含むサンプルの質量分析を行なったのち、サンプルのマススペクトルを解析装置100に送信する。プロセッサ10は、マススペクトルに基づいて、微生物を判別するための機械学習モデルの学習データを作成する。プロセッサ10は、当該学習データを用いて、当該機械学習モデルを作成する。プロセッサ10は、当該機械学習モデルを用いて、マススペクトルに基づいた微生物の判別を行なう。
【0023】
なお、解析装置100は、1つのコンピュータによって構成される必要はなく、複数のコンピュータによって構成されてもよい。
【0024】
[2.従来のマススペクトルを用いた微生物の判別方法]
上記のように、マススペクトルのパターンは微生物の種類を反映する。これを利用して、微生物をMALDI-MS分析して得られたマススペクトルのパターンに基づいて、微生物の判別を行なう方法が知られている。
【0025】
近年では、当該微生物の判別に機械学習技術を用いる試みがなされている。米国特許出願公開第2020/0118805号(特許文献1)には、機械学習モデルを用いて微生物を判別する構成が開示されている。具体的には、たとえば、学習データとして既知の微生物の種類に対応付けたマススペクトルを機械学習モデルに与えて学習させる。これにより、機械学習モデルは、未知の微生物のマススペクトルが入力されると、その微生物の種類(分類)を出力できる。
【0026】
しかし、このようなマススペクトルのパターンに基づく微生物判別法において、微生物の種類が異なっていても、マススペクトルが類似している場合、判別が困難となる場合がある。以下にその例を説明する。
【0027】
一般的に同属異種の微生物においては、遺伝情報が異なるため、マススペクトルも異なっており、マススペクトルによる種の判別が可能である。しかし、同属異種の微生物であっても、ごく一部の種間においては、その遺伝情報が互いに類似している。当該遺伝情報が互いに類似する同属異種は、一般に「近縁種」と称される。また、本明細書においては、当該遺伝情報が互いに類似する同属異種のグループを近縁種グループと称する。また、本明細書においては、互いに近縁種となる(すなわち互いに遺伝情報が類似する)同属異種の関係を、「近縁種に位置づけられる」とも称する。すなわち、近縁種グループは、互いに近縁種と位置づけられる複数の種により構成される。当該遺伝情報が類似している近縁種に位置づけられる同属異種間においては、マススペクトルも類似しており、判別が困難であると考えられる。このようなある近縁種グループに含まれる種も、他の近縁種がない種(すなわち当該近縁種グループにも他の近縁種グループにも属さない種)と同様に、独立した種として学習データに含んでしまうと、当該学習データにより学習した機械学習モデルは、当該近縁種グループに含まれる近縁種の中で誤判別を起こしてしまう可能性が懸念された。たとえば、当該機械学習モデルに、ある近縁種グループの中の所定の種のマススペクトルが入力された場合、当該近縁種グループの中の他の種を判別結果として出力してしまう可能性がある。
【0028】
機械学習モデルが近縁種の誤判別を行なってしまうと、以下のような問題が生じる可能性がある。近縁種の中には、既に知られているものもあるが、ユーザにその知見がない場合、ユーザは当該近縁種グループに含まれる微生物について誤った判別結果が出力されても、誤判別の可能性を疑うことが困難である。この場合、ユーザは誤った判別結果を信じてしまう可能性がある。また、未知の近縁種に関して、誤った判別結果が返された場合には、ユーザがその判別結果が誤っている可能性を知ることは困難である。その結果、機械学習モデルの判別結果が誤っているか否かをユーザが判断しがたい状態が生じるおそれがある。このような状態では、近縁種がない種について、たとえ正しい判別結果が出力されたとしても、本当に正しい判別結果であるか否かを判定することが難しい可能性がある。すなわち、機械学習モデルの判別結果への信頼性が低下してしまう可能性がある。
【0029】
そこで、本実施形態に係る学習データの作成方法においては、予め、遺伝情報が互いに類似している微生物の種類(たとえば近縁種)を推定し、当該遺伝情報が類似している微生物の種類を含むグループ(たとえば近縁種グループ)を作成し、当該グループに含まれる微生物の種類に共通のラベルを付加した状態で学習データとして用いる。このような学習データにより学習した機械学習モデルにおいては、当該グループに含まれる微生物同士の区別を行なわずに、判別(分類)が行なわれる。そのため、当該グループに含まれる微生物間での誤判別を防ぐことができる。すなわち、遺伝情報が類似している微生物の種類の誤判別の可能性が低い機械学習モデル、および、当該機械学習モデルを作成するための学習データが提供できる。
【0030】
[3.実施形態に係る学習データと機械学習モデルの関係]
図2は、実施形態に係る学習データと機械学習モデルとの関係を説明するための図である。当該機械学習モデルは、微生物のマススペクトルを入力すると、微生物の種類を出力する。これにより、機械学習モデルは、微生物を判別することができる。なお、本明細書において、「微生物を判別する」とは、微生物の種類を分類学的に同定することを指す。
【0031】
このような機械学習モデルは、たとえばニューラルネットワーク(
図3)を含む。ニューラルネットワークにおいては、入力に対する適切な出力のために、各ノードに重み付けがなされている。当該重み付けは、学習データによる学習により決定されている。
【0032】
より詳細には、ニューラルネットワークにおいては、複数の入力が入力層に与えられると、入力層においては各入力と重みとが乗算され、その乗算結果は次の層に送られる。次の層においては当該乗算結果と重みとを乗算し、その乗算結果はさらに次の層に送られる。最終的には、出力層から出力が得られる。
【0033】
機械学習モデルの学習は、たとえば以下のように行なわれる。まず、種類が既知の微生物のマススペクトルを多数取得する。次に、機械学習モデルの入力であるマススペクトルと、当該入力に対してあるべき出力(正解)である種類とのセットを、学習データとして機械学習モデルに学習させる。これにより、機械学習モデルは、入力に対してあるべき出力を出力できるように学習する。
図3の例では、各ノードの重み付けが適切に調整される。
【0034】
[4.実施形態に係る学習データの作成方法]
以下、質量分析法を用いた微生物の種類を判別する機械学習モデルの学習データを作成する方法について、質量分析法を用いた微生物の「種」を判別する機械学習モデルの学習データを作成する方法を例として、
図4~
図5を用いて説明する。
【0035】
図4は、実施形態に係る学習データの作成処理を示すフローチャートである。
図4に示す各ステップは、プロセッサ10によって、実行される。
【0036】
ステップ(以下、ステップを「S」と略す。)1において、プロセッサ10は、微生物の種ごとの遺伝情報を取得する。
【0037】
S2において、プロセッサ10は、遺伝情報が類似している複数の微生物の「種」(すなわち互いに近縁種として位置づけられる複数の微生物の種)を推定し、当該近縁種を含む近縁種グループを作成する。本明細書において、近縁種グループは「近縁種を含むグループ」の一実施例に対応する。
【0038】
S3において、プロセッサ10は、近縁種グループに関する情報を学習データに含んで処理を終了する。
【0039】
図5は、S3における、近縁種グループに関する情報の学習データへの付加処理を、より詳細に示したフローチャートである。
【0040】
図5のS31は、
図4のS3の一例に対応し、
図4のS2の後に行なわれる。
S31において、プロセッサ10は、近縁種グループに含まれる近縁種に同じラベルを付加して、処理を終了する。より詳細には、
図4のS2で同じ近縁種グループに属すると推定された微生物種(近縁種)に、同じラベルを付加する。
【0041】
図4~
図5に示す処理で作成された学習データを用いた機械学習モデルにおいては、近縁種グループに含まれる近縁種の中での判別を行なわない。よって、近縁種同士の誤判別を防ぐことができる。
【0042】
なお、上記したように、
図4以降では特に微生物の種を判別する機械学習モデルの学習データを作成する方法を例示するが、他のランクの微生物の種類(たとえばジェノタイプ、株、亜種、属、科の少なくとも1つ)を判別する機械学習モデルの学習データを作成する方法にも、必要に応じて援用可能である。この場合も
図4と同様にして、プロセッサ10は、遺伝情報が類似している微生物の種類を推定し、遺伝情報が類似していると推定された微生物の種類を含むグループを作成する。そして、プロセッサ10は、当該グループに関する情報を学習データに含む。たとえば、プロセッサ10は、当該グループに含まれる微生物の種類に同じラベルを付加する。その結果、当該学習データを用いた機械学習モデルにおいては、当該グループに含まれる微生物の種類の中での判別を行なわない。このような機械学習モデルにおいては、遺伝情報が類似している微生物の種類間での誤判別を防ぐことができる。すなわち、本明細書において、近縁種は、「遺伝情報が互いに類似していると推定された微生物の種類」の一実施例に対応する。
【0043】
(4-1.アミノ酸配列に基づく近縁種の推定方法)
以上で説明した、本実施形態に係る学習データを作成する方法について、
図6~
図8を用いてより具体的な例を示す。
【0044】
図6は、アミノ酸配列の取得処理を示すフローチャートである。
図6のS11は、
図4のS1の一例に対応する。
【0045】
S11において、プロセッサ10は、微生物の各種に対応するタンパク質ごとに1以上のアミノ酸配列を取得する。
【0046】
図7は、アミノ酸配列に基づいた近縁種の推定処理を示すフローチャートである。
図7の各ステップは、
図4のS2の一例に対応し、
図6のS11の後に行なわれる。
【0047】
S21において、プロセッサ10は、各種について、タンパク質ごとに1以上のアミノ酸配列を要素として含む配列リストを作成する。
【0048】
S22において、プロセッサ10は、各種について、配列リストを要素とするタンパク質リストを作成する。
【0049】
S23において、プロセッサ10は、異なる2つの種間のタンパク質リストの類似度を算出する。
【0050】
S24において、プロセッサ10は、類似度に基づいて、近縁種を推定する。
S25において、プロセッサ10は、近縁種を含む近縁種グループを作成し、処理をS3に進める。
【0051】
図6~
図7で示す処理によれば、タンパク質のアミノ酸配列の情報を利用して、近縁種を推定することができる。微生物のタンパク質のアミノ酸配列は、他の遺伝情報であるDNA(Deoxyribonucleic Acid)配列、RNA配列(Ribonucleic Acid)等と共に、公的データベースにおいて多数公開されているので、効率よく収集することが可能である。
【0052】
一般に遺伝情報が類似している種では、マススペクトルも類似しており、判別が困難であると考えられる。しかし、その中でも、DNAからRNAが転写され、RNAからアミノ酸が翻訳され、タンパク質を生成すること、および、質量分析法により測定されるタンパク質のm/zはアミノ酸配列を直接反映することを考えると、アミノ酸配列の類似度が、最もマススペクトルの類似度に相関すると考えられる。
【0053】
よって、
図6~
図7の処理に示すように、他の遺伝情報ではなくアミノ酸配列を取得し、その類似度により近縁種を推定し、当該近縁種を含む近縁種グループを作成することで、マススペクトルによって判別が困難である種を含むグループを効率的に作成できる。
【0054】
ただし、本実施形態に係る遺伝情報の取得方法は以上の例に限定されず、微生物の分類を反映する遺伝情報を取得できればよい。たとえば、プロセッサ10が公的データベースからDNA配列およびRNA配列を取得して、プロセッサ10においてアミノ酸配列を算出する態様であってもよい。またたとえば、遺伝情報は、公的データベース以外の外部の記憶装置から取得されたものを含んでもよいし、ユーザが実験を行なって得た遺伝情報を含んでもよい。
【0055】
一般に、アミノ酸配列のデータベースは、微生物の分類(たとえば種)、当該微生物において発現するタンパク質名、および、タンパク質名に対応するアミノ酸配列というように階層的な情報を含む。換言すると、各アミノ酸配列の情報は、対応する微生物の分類および対応するタンパク質名に紐付けられて格納されている。
【0056】
そして、所定の種の所定のタンパク質に対応するアミノ酸配列は多くの場合複数である。これは、種以下のランクの分類(たとえば亜種、株)に対応するアミノ酸配列が各々データベースに登録されていることが多いからである。1つの種に対して通常複数の亜種または株が存在することから、1つの種に対応するアミノ酸配列も通常複数となる。よって、アミノ酸配列により近縁種を推定するためには、これら各タンパク質に対応する1以上のアミノ酸配列を適切に用いて、その類似度を求める必要がある。
【0057】
図8は、
図7のS21~S22で作成される配列リストおよびタンパク質リストを説明するための図である。
図8は、種Xおよび種Yに対応するタンパク質リストを示す。タンパク質リストは、タンパク質a~タンパク質cの配列リストを含む。各配列リストは、それぞれ1以上のアミノ酸配列を含む。
【0058】
図6~
図8で説明したようにアミノ酸配列を処理することで、異なる2つの種間のアミノ酸配列の類似度を求めることができる。そして、アミノ酸配列の類似度に基づいて、近縁種を推定できる。
【0059】
(4-2.類似度の算出方法の一例)
次に、アミノ酸配列の類似度の算出方法の具体例を、
図9~
図10を用いて説明する。
【0060】
図9は、アミノ酸配列の類似度の算出処理の一例を示すフローチャートである。
図9の一連のステップは、
図7のS23の一例に対応し、
図7のS22の後に行なわれる。
【0061】
図9においては、
図7のS23に記載の「異なる2つの種」に含まれる、第1種および第2種の類似度が算出される。
【0062】
S231において、プロセッサ10は、第1種のタンパク質リストに含まれる各タンパク質のアミノ酸配列について、第2種のタンパク質リストに含まれる各アミノ酸配列との特定差違が特定条件を満たすかを判定し、特定差違が特定条件を満たす場合があるタンパク質の特定個数を算出する。
【0063】
S232において、プロセッサ10は、第1種のタンパク質リストの含まれるタンパク質の総数に対する、特定個数の割合を、第1種から見た第2種の類似度として算出し、処理をS24に進める。
【0064】
図10は、
図9において示した、類似度の算出方法をより詳細に説明するための図である。
図10を参照して、種Xから見た種Yの類似度の算出方法を説明する。
【0065】
まず、プロセッサ10は、種Xのタンパク質aのアミノ酸配列aX1と、種Yに含まれる各アミノ酸配列とを比較する。そして、これらのアミノ酸配列の差違である特定差違が特定条件を満たすかを判定する。
【0066】
特定差違は、たとえば、アミノ酸配列の編集距離、もしくは、Average Amino-acid Identity法に基づいて算出される数値である。アミノ酸配列の編集距離は、2つのアミノ酸配列の差違を示す数値である。より具体的には、編集距離は、一方のアミノ酸配列をもう一方のアミノ酸配列と同じ配列にするために必要なアミノ酸の置換、欠失および/または挿入の回数に基づいて算出される。Average Amino-acid Identity法は、アミノ酸配列の類似度を簡便にコンピュータ上で比較するための方法である。より具体的には、Average Amino-acid Identity法は、コンピュータ上でアミノ酸配列を断片化し、当該断片の類似度に基づいて、アミノ酸配列全体の類似度を算出する方法である。
【0067】
特定条件は、特定差違に基づいて決定される、当該特定条件を満たせば2つのアミノ酸配列が類似していると判定できると考えられる条件である。特定差違が編集距離である場合、特定条件はたとえば10以下の所定の自然数より小さいという条件である。
【0068】
図10の場合、種Xのタンパク質aのアミノ酸配列aX1との特定差違が特定条件を満たす種Yに含まれるアミノ酸配列として、アミノ酸配列aY2が見いだされた。これにより、種Xのタンパク質aについては、そのアミノ酸配列に類似するアミノ酸配列が種Yに含まれると判定できる。すなわち、種Xのタンパク質aについては、類似するタンパク質が種Yに含まれると判定できる。
【0069】
次に、プロセッサ10は、種Xのタンパク質bのアミノ酸配列bX1と、種Yに含まれる各アミノ酸配列とを比較する。そして、これらのアミノ酸配列の差違である特定差違が特定条件を満たすかを判定する。種Xのタンパク質bのアミノ酸配列bX1と、特定差違が特定条件を満たす種Yのアミノ酸配列が見いだされない場合、プロセッサ10は、種Xのタンパク質bの他のアミノ酸配列bX2についても、特定差違が特定条件を満たす種Yのアミノ酸配列を探す。もし、種Xのタンパク質bのアミノ酸配列の全てについて、特定差違が特定条件を満たす種Yのアミノ酸配列が見いだされない場合、種Xのタンパク質bについては、そのアミノ酸配に類似するアミノ酸配列が種Yに含まれていないと判定できる。すなわち、種Xのタンパク質bについては、類似するタンパク質が種Yに含まれないと判定できる。
【0070】
プロセッサ10は、種Xの全てのタンパク質について、そのアミノ酸配に類似するアミノ酸配列が種Yに含まれているかを判定する。
図10の例では、タンパク質bおよびタンパク質cについては、そのアミノ酸配に類似するアミノ酸配列が種Yに含まれていなかった。
【0071】
次に、プロセッサ10は、種Xのタンパク質リストにおいて、種Yの各アミノ酸配列との特定差違が特定条件を満たす場合があるアミノ酸配列を含むタンパク質の特定個数を算出する。換言すると、特定個数は、そのアミノ酸配に類似するアミノ酸配列が種Yに含まれていたタンパク質の個数である。すなわち、特定個数は、種Yに類似するタンパク質が含まれていた種Xのタンパク質の個数である。
【0072】
図10の例では、特定個数は1である。ここで、種Xのタンパク質の総数は3個であるため、種Xから見た種Yの類似度は(特定個数/総数)=(1/3)である。
【0073】
図9~
図10において説明した方法によれば、異なる2つの種に各々含まれるアミノ酸配列同士の差違を適切に算出することができる。またこれにより、当該差違に基づいて、異なる2つの種間のアミノ酸配列の類似度を数値化することができる。
【0074】
(4-3.類似度に基づく近縁種の推定方法の一例)
次に、以上のように算出した類似度に基づいて、近縁種を推定する方法を、
図11を用いてより詳細に説明する。
【0075】
図11は、類似度に基づく近縁種の推定処理の具体例を示すフローチャートである。
図11のS241は、
図7のS24の一例に対応し、
図7のS23の後に行なわれる。
【0076】
S241において、プロセッサ10は、類似度に対して、閾値、平均、標準偏差、外れ値検定の少なくとも1つを用いる統計的手法を用いることにより、近縁種を推定し、処理をS25に進める。
【0077】
図11の処理によれば、類似度を統計的に処理することで、統計学的な近縁種を推定できる。これにより、ユーザの主観をまじえずに、かつ、簡易な方法で近縁種を推定することができる。
【0078】
(4-4.アミノ酸配列の取得方法の一例)
以上のようなタンパク質のアミノ酸配列の類似度に基づく近縁種の推定は、全てのタンパク質を用いて行なわれてもよいが、特定のタンパク質に限定して行なわれてもよい。
【0079】
図12は、アミノ酸配列の取得処理の具体例を示すフローチャートである。
図12のS111は、
図7のS11の一例に対応する。
【0080】
S111において、プロセッサ10は、タンパク質名に対応したアミノ酸配列を含むアミノ酸配列のデータベースから、タンパク質名に特定の文字列を含むアミノ酸配列のみを取得する。特定の文字列は、たとえば、ハウスキーピングタンパク質および/またはDNA結合タンパク質を示す文字列を含む。ハウスキーピングタンパク質は、リボソームタンパク質等の基本的な細胞機能の維持に必要なタンパク質を示す。ハウスキーピングタンパク質を示す文字列は、たとえば、”60kDa chaperonin”,”Citrate synthase”,”CTP synthase”および”RNA polymerase sigma factor RpoD”の少なくとも1つを含む。DNA結合タンパク質を示す文字列は、たとえば”DNA-binding”を含む。
【0081】
図12の処理によれば、全てではなく、特定のタンパク質の類似度に基づいて近縁種を推定できる。特に、ハウスキーピングタンパク質および/またはDNA結合タンパク質の類似度に基づいて近縁種を推定できる。すなわち、機能が重要であり、アミノ酸配列が保存されていると考えられるタンパク質の類似度に基づいて、近縁種を推定できる。
【0082】
[5.近縁種の推定結果]
次に、以上で示した方法で近縁種を推定した結果を、
図13を用いて説明する。
【0083】
図13は、実施形態に係る学習データを作成する方法における近縁種の推定結果を説明するための図である。
図13は、バチラス属18種の、所定の種Aから見た他の種Bの類似度を、縦方向に並べた表である。種名に続く括弧には、比較に用いたタンパク質の数を示している。類似度の算出方法においては、編集距離が3以下であるという特定条件を使用している。また、タンパク質名に、”60kDa chaperonin”,”Citrate synthase”,”CTP synthase”,”RNA polymerase sigma factor RpoD”,”DNA-binding”の少なくとも1つの文字列を含むタンパク質を対象としている。
【0084】
また、類似度に基づいて近縁種を推定する手法として、所定の種Aから見た他の種Bの類似度について、外れ値検定の一つであるスミルノフ・グラブズ検定を行ない、5%水準で有意性が認められた箇所を斜線で示している。
【0085】
これにより、斜線で示された箇所に対応する、第1のグループ「amiloliquefaciens,atrophaeus,licheniformis,mojavensis,subtilis」、第2のグループ「megateirum,simplex」、第3のグループ「mycoides,thuringiensis,weihenstephaensis」は、グループ内の種のタンパク質リストの類似度が高く、近縁種であると推定できた。このうち第1のグループおよび第3のグループについては、実際に識別が困難であると報告されている(非特許文献1および2 参照)。すなわち、本実施形態に係る学習データを作成する方法における近縁種の推定方法により、実際に近縁種が推定できた。
【0086】
[態様]
上述した複数の例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
【0087】
(第1項)一態様に係る学習データを作成する方法は、質量分析法を用いて微生物の種類を判別する機械学習モデルの学習データを作成する方法であって、微生物の種類ごとの遺伝情報を取得するステップと、遺伝情報が類似している微生物の種類を推定し、遺伝情報が類似していると推定された微生物の種類を含むグループを作成するステップと、グループに関する情報を学習データに含むステップとを含む。
【0088】
第1項に記載の学習データを作成する方法によれば、遺伝情報が類似している微生物の種類の中での誤判別を防ぐことができる。すなわち、遺伝情報が類似している微生物の種類の誤判別の可能性が低い機械学習モデル、および、当該機械学習モデルを作成するための学習データが提供できる。
【0089】
(第2項)
第2項に記載の学習データを作成する方法において、微生物の種類は、微生物の種であり、微生物は1以上の種を含み、遺伝情報が類似している微生物の種類は、近縁種である。
【0090】
第2項に記載の学習データを作成する方法によれば、近縁種の中での誤判別を防ぐことができる。
【0091】
(第3項)
第2項に記載の学習データを作成する方法において、遺伝情報を取得するステップは、微生物の各種に対応するタンパク質ごとに1以上のアミノ酸配列を取得するステップを含む。グループを作成するステップは、各種について、タンパク質ごとに1以上のアミノ酸配列を要素として含む配列リストを作成するステップと、各種について、配列リストを要素とするタンパク質リストを作成するステップと、異なる2つの種間のタンパク質リストの類似度を算出するステップと、類似度に基づいて、近縁種を推定するステップと、近縁種を含むグループを作成するステップとを含む。
【0092】
第3項に記載の学習データを作成する方法によれば、異なる2つの種間のアミノ酸配列の類似度を求めることができる。そして、アミノ酸配列の類似度に基づいて、近縁種を推定できる。
【0093】
(第4項)
第3項に記載の学習データを作成する方法において、異なる2つの種は、第1種と、第2種とを含み、類似度を算出するステップは、第1種のタンパク質リストに含まれる各タンパク質のアミノ酸配列について、第2種のタンパク質リストに含まれる各アミノ酸配列との特定差違が特定条件を満たすかを判定し、特定差違が特定条件を満たす場合があるタンパク質の特定個数を算出するステップと、第1種のタンパク質リストの含まれるタンパク質の総数に対する、特定個数の割合を、第1種から見た第2種の類似度として算出するステップとを含む。
【0094】
第4項に記載の学習データを作成する方法によれば、異なる2つの種に各々含まれるアミノ酸配列同士の差違を適切に算出することができる。また、当該差違に基づいて、異なる2つの種間のアミノ酸配列の類似度を数値化することができる。
【0095】
(第5項)
第4項に記載の学習データを作成する方法において、特定差違は、アミノ酸配列の編集距離、もしくは、Average Amino-acid Identity法に基づいて算出される数値である。
【0096】
第5項に記載の学習データを作成する方法によれば、異なる2つの種に各々含まれるアミノ酸配列同士の差違を適切に算出することができる。またこれにより、当該差違に基づいて、異なる2つの種間のアミノ酸配列の類似度を数値化することができる。
【0097】
(第6項)
第5項に記載の学習データを作成する方法において、特定差違が編集距離である場合、特定条件は10以下の所定の自然数より小さいという条件である。
【0098】
第6項に記載の学習データを作成する方法によれば、上記特定差違および上記特定条件に基づいて、適切に近縁種が推定できる。
【0099】
(第7項)
第3~6のいずれか1項に記載の学習データを作成する方法において、アミノ酸配列を取得するステップは、タンパク質名に対応したアミノ酸配列を含むアミノ酸配列のデータベースから、タンパク質名に特定の文字列を含むアミノ酸配列のみを取得するステップを含む。
【0100】
第7項に記載の学習データを作成する方法によれば、全てではなく、特定のタンパク質に基づいて近縁種を推定できる。
【0101】
(第8項)
第7項に記載の学習データを作成する方法において、特定の文字列は、ハウスキーピングタンパク質およびDNA結合タンパク質の少なくとも1つを示す文字列を含む。
【0102】
第8項に記載の学習データを作成する方法によれば、上記文字列が示す、機能が重要であり、アミノ酸配列が保存されていると考えられるタンパク質の類似度に基づいて、近縁種を推定できる。
【0103】
(第9項)
第3~8のいずれか1項に記載の学習データを作成する方法において、近縁種を推定するステップは、類似度に対して、閾値、平均、標準偏差、外れ値検定の少なくとも1つを用いる統計的手法を用いることにより、近縁種を推定するステップを含む。
【0104】
第9項に記載の学習データを作成する方法によれば、類似度を統計的に処理することで、統計学的な近縁種を推定できる。これにより、ユーザの主観をまじえずに、かつ、簡易な方法で近縁種を推定することができる。
【0105】
(第10項)
第1~9のいずれか1項に記載の学習データを作成する方法において、学習データに含むステップは、グループに含まれる微生物の種類に同じラベルを付加するステップを含む。
【0106】
第10項に記載の学習データを作成する方法によれば、当該学習データを用いた機械学習モデルにおいては、当該グループに含まれる微生物の種類の中での判別を行なわない。このような機械学習モデルにおいては、遺伝情報が類似している微生物の種類間での誤判別を防ぐことができる。
【0107】
(第11項)
第1~10のいずれか1項に記載の学習データを作成する方法を用いて作成された学習データを用いて作成された機械学習モデル。
【0108】
第11項に記載の機械学習モデルによれば、遺伝情報が類似している微生物の種類間での誤判別を防ぐことができる。
【0109】
(第12項)
第11項に記載の機械学習モデルを用いて微生物を判別する、微生物の判別方法。
【0110】
第12項に記載の微生物の判別方法においては、遺伝情報が類似している微生物の種類間での誤判別の可能性が低減される。
【0111】
(第13項)
第12項に記載の微生物の判別方法において、機械学習モデルは、ニューラルネットワークを含む。
【0112】
第13項に記載の微生物の判別方法においては、ニューラルネットワークを用いて第12項に記載の微生物の判別方法を実行できる。
【0113】
(第14項)一態様に係る解析装置は、質量分析法を用いて微生物を判別する機械学習モデルの学習データを作成する解析装置である。解析装置は、メモリと、プロセッサとを備える。メモリは、微生物の遺伝情報を記憶する。プロセッサは、メモリに記憶された遺伝情報を用いて学習データを作成する方法を実行する。プロセッサは、微生物ごとの遺伝情報を取得し、遺伝情報が類似している微生物を推定し、遺伝情報が類似していると推定された微生物を含むグループを作成し、グループに関する情報を学習データに含む。
【0114】
第14項に記載の解析装置によれば、遺伝情報が類似している微生物の種類の中での誤判別を防ぐことができる。すなわち、遺伝情報が類似している微生物の種類の誤判別の可能性が低い機械学習モデル、および、当該機械学習モデルを作成するための学習データが提供できる。
【0115】
(第15項)
コンピュータによって実行されることにより、コンピュータに第1~10のいずれか1項に記載の学習データを作成する方法を実施させる、プログラム。
【0116】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0117】
10 プロセッサ、11 メモリ、12 通信I/F、13 入出力I/F、14 操作部、15 ディスプレイ、16 MS、100 解析装置、101 コントローラ。