(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-25
(45)【発行日】2023-05-08
(54)【発明の名称】質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラム
(51)【国際特許分類】
G01N 27/62 20210101AFI20230426BHJP
H01J 49/26 20060101ALI20230426BHJP
H01J 49/16 20060101ALI20230426BHJP
C12Q 1/02 20060101ALI20230426BHJP
【FI】
G01N27/62 D
H01J49/26
H01J49/16
C12Q1/02
(21)【出願番号】P 2019145984
(22)【出願日】2019-08-08
【審査請求日】2021-11-29
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001069
【氏名又は名称】弁理士法人京都国際特許事務所
(72)【発明者】
【氏名】大久保 達樹
(72)【発明者】
【氏名】山田 賢志
【審査官】横尾 雅一
(56)【参考文献】
【文献】特開2018-152000(JP,A)
【文献】国際公開第2019/009420(WO,A1)
【文献】特開2008-298770(JP,A)
【文献】特開2009-110212(JP,A)
【文献】特開2013-068565(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 27/60 - G01N 27/70
H01J 40/00 - H01J 49/48
C12Q 1/02
G06N 3/00 - G06N 3/12
G06N 5/00 - G06N 7/06
G06N 7/08 - G06N 99/00
G01N 21/00 - G01N 21/61
G01N 21/84 - G01N 21/958
G01J 3/00 - G01J 3/52
(57)【特許請求の範囲】
【請求項1】
レーザイオン化による試料のイオン化を行う質量分析装置において
一つの既知試料に対する複数回のレーザ光照射を行い、該複数回のレーザ光照射の各々において前記
一つの既知試料から発生するイオンのm/zと強度との関係を示すスペクトルである複数のプロファイルデータを取得
するプロファイルデータ取得工程と、
前記複数のプロファイルデータを、各グループに一つ以上のプロファイルデータが含まれるように複数のグループに振り分け
るグループ化工程と、
前記複数のグループの各々について、該グループに含まれる前記一つ以上のプロファイルデータに基づいて前記
一つの既知試料に由来するピークのm/zと該ピークの強度とを記載したピークリストを生成
するピークリスト生成工程と、
前記ピークリスト生成工程で生成された前記一つの既知試料に関する複数の前記ピークリスト
の各々に、前記
一つの既知試料の種類に関する情報を
関連付けることによって学習データ
を生成する学習データ生成工程と、
複数の既知試料の各々について前記プロファイルデータ取得工程、前記グループ化工程、前記ピークリスト生成工程、及び前記学習データ生成工程を実行することによって得られた複数の前記学習データを用いて未知試料を判別するための判別モデルを生成する
判別モデル生成工程と、
を含む質量分析データ処理方法。
【請求項2】
前記複数のプロファイルデータを、前記複数のグループにランダムに振り分ける請求項1に記載の質量分析データ処理方法。
【請求項3】
前記複数のプロファイルデータを前記複数のグループに振り分ける際に、前記複数のプロファイルデータのうちの少なくとも一つを、前記複数のグループのうちの二つ以上に重複して振り分ける請求項1又は2に記載の質量分析データ処理方法。
【請求項4】
更に、未知試料を質量分析して得られたプロファイルデータに基づいて生成されたピークリストを、前記判別モデルに適用することによって前記未知試料の判別を行う請求項1~3のいずれかに記載の質量分析データ処理方法。
【請求項5】
レーザイオン化による試料のイオン化を行う質量分析装置において
一つの既知試料に対する複数回のレーザ光照射を行って取得された、該複数回のレーザ光照射の各々において前記
一つの既知試料から発生するイオンのm/zと強度との関係を示すスペクトルである複数のプロファイルデータを取得するプロファイルデータ取得部と、
前記複数のプロファイルデータを、各グループに一つ以上のプロファイルデータが含まれるように複数のグループに振り分けるグループ化部と、
前記複数のグループの各々について、該グループに含まれる前記一つ以上のプロファイルデータに基づいて前記
一つの既知試料に由来するピークのm/zと該ピークの強度とを記載したピークリストを生成するピークリスト生成部と、
前記ピークリスト生成部によって生成された前記一つの既知試料に関する複数の前記ピークリスト
の各々に、前記
一つの既知試料の種類に関する情報を
関連付けることよって学習データ
を生成する学習データ生成部と、
複数の既知試料の各々について前記プロファイルデータ取得部、前記グループ化部、前記ピークリスト生成部、及び前記学習データ生成部による処理を実行することによって得られた複数の前記学習データを用いて未知試料を判別するための判別モデルを生成する判別モデル生成部と、
を備える質量分析データ処理システム。
【請求項6】
前記グループ化部が、前記複数のプロファイルデータを、前記複数のグループにランダムに振り分ける請求項5に記載の質量分析データ処理システム。
【請求項7】
前記グループ化部が、前記複数のプロファイルデータのうちの少なくとも一つを、前記複数のグループのうちの二つ以上に重複して振り分ける請求項5又は6に記載の質量分析データ処理システム。
【請求項8】
未知試料を質量分析して得られたプロファイルデータに基づいて生成されたピークリストを、前記判別モデルに適用することによって前記未知試料の判別を行う判別部、
を更に備える請求項5~7のいずれかに記載の質量分析データ処理システム。
【請求項9】
コンピュータを、請求項5~8のいずれかに記載の質量分析データ処理システムの各部として機能させる質量分析データ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラムに関する。
【背景技術】
【0002】
質量分析装置のイオン化法の一つとしてマトリックス支援レーザ脱離イオン化(Matrix Assisted Laser Desorption/Ionization;MALDI)法がよく知られている。MALDI法は、レーザ光を吸収しにくい試料、又はタンパク質等のレーザ光で損傷を受けやすい試料を分析するために、レーザ光を吸収し易く且つイオン化し易い物質をマトリクスとして試料に予め混合しておき、これにレーザ光を照射することで試料をイオン化する手法である。特にMALDIイオン源を用いた質量分析装置(以下、MALDI-MSとよぶ)は、分子量の大きな高分子化合物をあまり開裂させることなく分析することが可能であり、しかも微量分析にも好適であることから、生命科学などの分野で広範に利用されている。
【0003】
また、近年ではMALDI-MSによって得られたマススペクトルに機械学習を適用することによって未知試料の判別を行う試みが進められている(例えば、特許文献1を参照)。機械学習は、多種多様である大量のデータの中から規則性を見出し、それを利用してデータの予測、判別、又は回帰を行うために有用な手法の一つであり、大別して教師あり学習と教師なし学習がある。例えば、微生物をMALDI-MSで分析した結果に基づいて当該微生物の種類(例えば、種、亜種、株、又はタイプなど)を判別しようとする場合、予め種々の微生物について多数の質量分析データを集めておき、それらのデータを学習データ(教師データ又は訓練データともいう)とする教師あり学習を行って、未知微生物の種類を判別するための判別モデルを構築する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2018-155522号公報
【文献】特開2010-205460号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、高精度な判別モデルを構築するためには、多数の学習データを収集する必要がある。そのためには、多数回の質量分析を行う必要があるため、多くの労力とコストが掛かるという問題があった。
【0006】
本発明は上記の点に鑑みてなされたものであり、その目的とするところは、高精度な判別モデルを構築するために必要な多量の学習データを、少ない質量分析回数で得ることのできる質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために成された本発明に係る質量分析データ処理方法は、
レーザイオン化による試料のイオン化を行う質量分析装置において既知試料に対する複数回のレーザ光照射を行い、該複数回のレーザ光照射の各々において前記既知試料から発生するイオンのm/zと強度との関係を示すスペクトルである複数のプロファイルデータを取得し、
前記複数のプロファイルデータを、各グループに一つ以上のプロファイルデータが含まれるように複数のグループに振り分け、
前記複数のグループの各々について、該グループに含まれる前記一つ以上のプロファイルデータに基づいて前記既知試料に由来するピークのm/zと該ピークの強度とを記載したピークリストを生成し、
前記ピークリスト及び前記既知試料の種類に関する情報を学習データとして、未知試料を判別するための判別モデルを生成するものである。
【0008】
上記課題を解決するために成された本発明に係る質量分析データ処理システムは、
レーザイオン化による試料のイオン化を行う質量分析装置において既知試料に対する複数回のレーザ光照射を行って取得された、該複数回のレーザ光照射の各々において前記既知試料から発生するイオンのm/zと強度との関係を示すスペクトルである複数のプロファイルデータを取得するプロファイルデータ取得部と、
前記複数のプロファイルデータを、各グループに一つ以上のプロファイルデータが含まれるように複数のグループに振り分けるグループ化部と、
前記複数のグループの各々について、該グループに含まれる前記一つ以上のプロファイルデータに基づいて前記既知試料に由来するピークのm/zと該ピークの強度とを記載したピークリストを生成するピークリスト生成部と、
前記ピークリスト及び前記既知試料の種類に関する情報を学習データとして、未知試料を判別するための判別モデルを生成する判別モデル生成部と、
を備えるものである。
【0009】
上記課題を解決するために成された本発明に係る質量分析データ処理プログラムは、コンピュータを、前記質量分析データ処理システムの各部として機能させるものである。
【発明の効果】
【0010】
上記本発明に係る質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラムでは、一つの試料に対する多数回のレーザ光照射に伴って得られたプロファイルデータを複数のグループに分割し、グループ毎に一つのピークリストを生成する。これにより、一つの試料に対する質量分析で得られるピークリストの数を増やすことができる。その結果、高精度な判別モデルを構築するために必要な多量の学習データを、少ない質量分析回数で得ることが可能となる。
【図面の簡単な説明】
【0011】
【
図1】本発明の一実施形態に係る質量分析データ処理システムの要部構成を示すブロック図。
【
図2】同実施形態における質量分析データの処理手順を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、本発明を実施するための形態について図面を参照しつつ説明する。
図1は、本発明の一実施形態に係る質量分析データ処理システム10の要部構成を示すブロック図である。
【0013】
このシステム10は、図示しないMALDI-MSによる試料の分析によって得られた質量分析データを処理するものであって、学習データ生成部20と、判別モデル生成部30と、判別部40と、データ記憶部50と、マウス等のポインティングデバイス及びキーボード等を含む入力部60と、液晶ディスプレイ等の表示装置を含む表示部70とを備えている。
【0014】
学習データ生成部20は、既知試料(例えば属する株が既知である微生物)をMALDI-MSで分析して得られた質量分析データに所定の処理を施すことによって、機械学習に用いるための学習データを生成するものである。学習データ生成部20は、プロファイルデータ取得部21、グループ化部22、及びピークリスト生成部23を含んでいる。
【0015】
判別モデル生成部30は、学習データ生成部20で生成された複数の学習データを用いて、未知試料(例えば属する株が不明である微生物)を判別するための判別モデルを生成するものである。
【0016】
判別部40は、未知試料をMALDI-MSで分析して得られた質量分析データを前記判別モデルに適用することによって、該未知試料の種類(例えば前記微生物が属する株)を判別するものである。判別部40は、未知サンプルデータ取得部41と、判別実行部42とを備えている。
【0017】
学習データ生成部20、判別モデル生成部30、及び判別部40の実体は、コンピュータ(パーソナルコンピュータ又はそれよりも高性能なコンピュータ)であり、該コンピュータに予めインストールされた専用のデータ処理ソフトウェアを該コンピュータ上で動作させることにより、前記各部の機能が実現される。データ記憶部50は、前記コンピュータに内蔵された又は前記コンピュータに直接接続された記憶装置によるものとするほか、例えば、前記コンピュータからインターネット等を介してアクセス可能である別のコンピュータシステム上に存在する、つまりはクラウドコンピューティングにおける記憶装置などを利用してもよい。
【0018】
また、本実施形態に係るシステム10は、学習データ生成部20、判別モデル生成部30、及び判別部40の機能を複数のコンピュータに分担させるものとすることもできる。具体的には、例えば、学習データ生成部20及び判別モデル生成部30の機能を一台のコンピュータに割り当て、判別部40の機能をそれとは別のコンピュータに割り当てることが考えられる。
【0019】
続いて、本実施形態に係るシステム10における処理の特徴について説明する。
【0020】
一般的に、MALDI-MSでは、一つの試料に対して、レーザ光照射によるイオンの生成→生成したイオンの分離及び検出、というプロセスが多数回(例えば120回)繰り返し実行されて、多数のプロファイルデータが生成される(特許文献2など参照)。プロファイルデータとは、質量分析装置の生データ(Raw Data)に相当するデータ形態であり、質量分析装置に設けられたイオン検出器から連続的に送出される検出信号の波形を、横軸を時間(又はm/z)とし、縦軸をイオン強度として表したものである。
【0021】
従来のデータ処理方法では、上記のような一つの試料に対する多数回のレーザ光照射に伴って得られたプロファイルデータをすべて積算した上で、その後のデータ処理の便のために、該積算後のプロファイルデータ(積算プロファイルデータとよぶ)の波形に含まれるピークを検出し(すなわちピーク検出処理を行い)、検出された各ピークの重心位置(又は中心位置)を表すm/z値と、該ピークの面積値とを示したリスト(ピークリスト)に変換していた。すなわち、従来のデータ処理方法では、一つの試料に対する一回の質量分析の結果として、一つのピークリストが生成されていた。
【0022】
これに対し、本実施形態に係る質量分析データ処理方法は、上記のような一つの試料に対する多数回のレーザ光照射に伴って得られたプロファイルデータを複数のグループに分割し、グループ毎に一つのピークリストを生成する。すなわち、一つの試料に対する一回の質量分析の結果として、複数のピークリストを生成する。これにより、質量分析の実行回数を増やすことなく、より多くの学習データを得ることが可能となる。
【0023】
以下、このような処理の詳細について、
図2のフローチャートを参照しつつ説明する。なお、ここでは予め複数の既知試料(例えば株が既知である微生物)についてMALDI-MSによる質量分析が行われ、前記複数の既知試料の各々についての質量分析結果として、それぞれN個(Nは2以上の整数)のプロファイルデータが、該既知試料の種類の情報(例えば、既知微生物の株の情報)と関連付けてデータ記憶部50に記憶されているものとする。以下、前記既知試料の種類の情報を「正解ラベル」とよぶ。
【0024】
まず、ユーザが入力部60で所定の操作を行って、データ記憶部50に記憶されている前記複数の既知試料の質量分析結果を指定すると共に、これらに基づく学習データの生成を指示すると、学習データ生成部20によって学習データの生成が実行される。具体的には、まず、学習データ生成部20のプロファイルデータ取得部21が、ユーザによって指定された複数の既知試料の質量分析結果のうち、一つの既知試料に関する質量分析結果、すなわち該試料に関するN個のプロファイルデータをデータ記憶部50から取得する(ステップS11)。
【0025】
次にグループ化部22が、前記N個のプロファイルデータを、所定の基準にしたがって(例えばプロファイルデータの生成順に)、予め定められたM個(MはN以下の整数)のグループに割り振っていく(ステップS12)。このとき、前記M個のグループには、それぞれ少なくとも一つのプロファイルデータが含まれるようにする。また、各グループに割り振られるプロファイルデータの数はなるべく均等になるようにする。なお、グループの個数Mは、予めシステム10側に記憶されている値としてもよく、ユーザが自由に設定できるようにしてもよい。また、プロファイルデータの個数N、又は必要とする判別精度等に基づいてシステム10側で自動的に決定されるようにしてもよい。
【0026】
なお、MALDIによる試料のイオン化では、試料上の同じ位置にレーザ光を繰り返し照射し続けると次第にイオンが発生しなくなるため、通常は、試料上の測定領域内で互いに近接した複数の異なる位置にレーザ光が照射させるように試料又はレーザ光を移動させており、プロファイルデータは、その異なる位置(測定点)毎に取得される。このとき、前記測定領域内における試料成分の濃淡によって、各測定点から発生するイオンの量にばらつきが生じる。そこで、前記ステップS12では、前記N個のプロファイルデータをランダムに前記M個のグループに割り振るようにすることが望ましい。これにより、測定領域内における試料成分の濃淡の影響を受けることなく適切な学習データを生成することができる。
【0027】
また、ステップS12では、前記N個のプロファイルデータの一部又は全部をそれぞれ複数のグループに重複して割り振るようにしてもよい。このようにすれば、プロファイルデータの個数Nが少ない場合や、グループの個数Mが多い場合でも、各グループに割り振られるプロファイルデータの数を多くすることができるため、S/Nの低下を防ぐことができる。
【0028】
続いて、ピークリスト生成部23が、ステップS12で生成されたM個のグループ毎にピークリストを生成する(ステップS13)。具体的には、ピークリスト生成部23が各グループに含まれるプロファイルデータの数を確認し、複数のプロファイルデータを含むグループについては、該複数のプロファイルデータを積算することによって積算プロファイルデータを生成する。そして、該積算プロファイルデータに対して、ノイズ除去処理(バックグラウンド除去処理及びスムージング処理)を行った上で、所定のピーク検出アルゴリズムによってピーク検出を行う。そして、検出されたピークの重心位置又は中心位置と該ピークの面積値を求め、各ピークの重心位置(又は中心位置)のm/zと、該ピークの面積値(強度に相当)を記載したピークリストを生成する。一方、プロファイルデータが一つしか含まれていないグループについては、前記積算処理を行うことなく、該一つのプロファイルデータに対してノイズ除去処理(バックグラウンド除去処理及びスムージング処理)、及びピーク検出処理を行って、ピークリストを生成する。これにより得られたM個(すなわちクループの数と同数)のピークリストは、前記正解ラベルと関連付けてデータ記憶部50に記憶される。
【0029】
その後、ユーザが指示した前記複数の既知試料の全てについてステップS11~S13の処理を行い、全ての既知試料について各々M個のピークリストを生成する。なお、ここでは、説明の簡略化のため、全ての既知試料についてN個のプロファイルデータ取得し、該プロファイルデータをM個のグループに分割して、グループごとにピークリストを生成するものとしたが、プロファイルデータの個数N、並びにグループ(及びピークリスト)の個数Mは、試料ごとに異なっていてもよい。
【0030】
続いて、ユーザが入力部60を操作して、前記既知試料の各々について生成されたピークリストを学習データとする判別モデルの生成を指示すると、判別モデル生成部30において判別モデルの生成が行われる(ステップS14)。具体的には、判別モデル生成部30がデータ記憶部50から前記既知試料の各々について生成された各M個のピークリストと、該ピークリストの各々に関連付けられた正解ラベルを読み出し、それらを学習データとして、予め定められた機械学習手法による判別モデルの生成を行う。生成された判別モデルは、データ記憶部50に記憶される。なお、本実施形態におけるピークリストは、各ピークのm/zをそれぞれ一つの次元とする多次元データであり、判別モデルは、例えば多次元入力と出力との関係を表す判別分析の関数である。
【0031】
ステップS14で判別モデルの生成に用いられる機械学習手法は、教師あり学習を行うものであれば特に限定されないが、例えば、サポートベクターマシン、ランダムフォレスト、ニューラルネットワーク、線形判別法、非線形判別法などとするとよい。どのような手法を用いるのかは、解析対象であるデータの種類、性質などにより適宜選択することが好ましい。
【0032】
その後、判別対象とする未知試料(例えば、株が未知である微生物)をMALDI-MSによって分析し、得られたピークリストをデータ記憶部50に記憶させた上で、ユーザが入力部60を介して前記判別モデルによる前記未知試料の判別を指示する。なお、前記未知試料のピークリストは、該未知試料をMALDI-MSで分析して得られた複数のプロファイルデータを全て積算し、積算プロファイルデータに対してバックグラウンド除去処理、スムージング処理、及びピーク検出処理を行うことによって予め生成される。前記ユーザからの指示を受けた判別部40では、未知サンプルデータ取得部41が前記未知試料のピークリストをデータ記憶部50から読み出し(ステップS15)、判別実行部42が、前記判別モデルに該未知試料ピークリストを入力することによって得られる出力値から、前記未知試料の種類(例えば未知微生物が属する株)を判別する(ステップS16)。
【0033】
判別部40による判別結果は、データ記憶部50に記憶されると共に、表示部70の画面上に表示されてユーザに提示される(ステップS17)。
【0034】
なお、本実施形態に係る質量分析データ判別システム及び質量分析データ処理方法は、微生物の判別(未知微生物が属する種、亜種、株、又はタイプ等の判別)のための判別モデルの生成に限らず、種々の試料の判別、例えば、油種の判別、又は疾患の判別(がん等の所定の疾病を罹患している人に由来する生体試料と該疾患を罹患していない人に由来する生体試料との判別)のための判別モデルの生成などに適用することができる。また、本実施形態に係る質量分析データ判別システム及び質量分析データ処理方法において学習データの生成に用いるプロファイルデータ及び判別対象とする未知試料のピークリストは、MALDI-MSによる分析で取得されたものに限らず、その他のレーザイオン化法、例えば表面支援レーザ脱離イオン化(Surface Assisted Laser Desorption/Ionization)法などによる試料のイオン化を行う質量分析装置で取得されたものであってもよい。
【実施例】
【0035】
本発明の効果を、2種類の微生物(A群とB群)の識別性能によって検証した。ここで、A群は大腸菌(Escherichia coli)であり、B群はアクロモバクター属の微生物 (Achromobacter. sp)である。
【0036】
まず、MALDI-MSによってA群のサンプルとB群のサンプルをそれぞれ4回ずつ測定した。なお、このとき、1回の測定毎に、サンプルへのレーザ照射を120回行って120個のプロファイルデータを取得した。そして、実施例として、該プロファイルデータを本発明の方法で処理することによってピークリストを生成し、該ピークリストを用いた判別モデルの生成を行った。また、比較例として、前記プロファイルデータを従来の方法で処理することによってピークリストを生成し、該ピークリストを用いた判別モデルの生成を行った。
【0037】
具体的には、実施例では、前記判別モデルの生成に際し、1回の測定で得られた120個のプロファイルデータをランダムに4つのグループに分割した。そして、各グループに含まれる30個のプロファイルデータを積算し、得られた積算プロファイルデータに対してノイズ除去処理及びピーク検出処理を行って単一のピークリストを生成した。これにより得られた32個のピークリスト(2群×4測定×4グループ)を学習データとして、A群とB群を判別するための判別モデルを生成した。
【0038】
一方、比較例では、前記判別モデルの生成に際し、1回の測定で得られた120個のプロファイルデータをすべて積算し、得られた積算プロファイルデータに対してノイズ除去処理及びピーク検出処理を行って単一のピークリストを生成した。これにより得られた8個のピークリスト(2群×4測定)を学習モデルとして、A群とB群を判別するための判別モデルを生成した。
【0039】
なお、実施例及び比較例のいずれにおいても、判別モデルの生成には、統計解析ソフトeMSTAT Solution(登録商標)を使用し、機械学習アルゴリズムとしてSVM(サポートベクトルマシン)を使用した(以下、同じ)。
【0040】
実施例の判別モデル及び比較例の判別モデルによる判別性能を検証したところ、テストデータを与えた出力結果(データがA群であるかB群であるか)については両手法とも100%正解であったが、クロスバリデーションによる誤差(推定誤差)は、比較例のモデルが13%であるのに対し、実施例のモデルでは0%であった。なお、前記クロスバリデーションにはleave-one-out法を使用した(後述の実施例2,3において同じ)。すなわち、各群の学習データから各々1データをテスト用データとして抜き出し、残ったデータで機械学習を行った。これを全データが1回ずつテストデータとなるまで繰り返し、それらの結果を平均して推定誤差を求めた。これにより、本発明によれば測定回数を増やすことなく従来よりも高精度な判別モデルを得られることが確かめられた。
【0041】
また、更なる実施例(実施例2)として、前記A群のサンプルとB群のサンプルに対する各4回の測定のうちの1測定分のデータである120個のプロファイルデータを、120個のグループに分割した。そして、各グループに含まれる1個のプロファイルデータに対して、それぞれノイズ除去処理及びピーク検出処理を行ってピークリストを生成した。これにより得られた240個(2群×1測定×120グループ)のピークリストを学習データとして、A群とB群を判別するための判別モデルを生成した。なお、ここで各群について1測定分のみのプロファイルデータを判別モデルに使用したのは、データ数が多くなりすぎて処理に時間が掛かるのを防ぐためである。
【0042】
また、更なる実施例(実施例3)として、前記A群のサンプルとB群のサンプルに対する各4回の測定について、各回の測定で得られた120個のプロファイルデータをランダムに2つのグループに分割した。そして、各グループに含まれる60個のプロファイルデータを積算し、得られた積算プロファイルデータにノイズ除去処理及びピーク検出処理を行ったピークリストを生成した。これにより得られた16個のピークリスト(2群×4測定×2グループ)を学習データとして、A群とB群を判別するための判別モデルを生成した。
【0043】
前記実施例2及び実施例3で得られた判別モデルの判別性能を検証したところ、いずれにおいても、推定誤差0%のモデルを生成できること及びテストデータを100%正解できることが確認された。
【0044】
[種々の態様]
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
【0045】
(第1項)一態様に係る質量分析データ処理方法は、
レーザイオン化による試料のイオン化を行う質量分析装置において既知試料に対する複数回のレーザ光照射を行い、該複数回のレーザ光照射の各々において前記既知試料から発生するイオンのm/zと強度との関係を示すスペクトルである複数のプロファイルデータを取得し、
前記複数のプロファイルデータを、各グループに一つ以上のプロファイルデータが含まれるように複数のグループに振り分け、
前記複数のグループの各々について、該グループに含まれる前記一つ以上のプロファイルデータに基づいて前記既知試料に由来するピークのm/zと該ピークの強度とを記載したピークリストを生成し、
前記ピークリスト及び前記既知試料の種類に関する情報を学習データとして、未知試料を判別するための判別モデルを生成するものである。
【0046】
(第2項)第1項に記載の質量分析データ処理方法は、
前記複数のプロファイルデータを、前記複数のグループにランダムに振り分けるものであってもよい。
【0047】
(第3項)第1項又は第2項に記載の質量分析データ処理方法は、
前記複数のプロファイルデータを前記複数のグループに振り分ける際に、前記複数のプロファイルデータのうちの少なくとも一つを、前記複数のグループのうちの二つ以上に重複して振り分けるものであってもよい。
【0048】
(第4項)第1項~第3項のいずれかに記載の質量分析データ処理方法は、
更に、未知試料を質量分析して得られたプロファイルデータに基づいて生成されたピークリストを、前記判別モデルに適用することによって前記未知試料の判別を行うものであってもよい。
【0049】
(第5項)一態様に係る質量分析データ処理システムは、
レーザイオン化による試料のイオン化を行う質量分析装置において既知試料に対する複数回のレーザ光照射を行って取得された、該複数回のレーザ光照射の各々において前記既知試料から発生するイオンのm/zと強度との関係を示すスペクトルである複数のプロファイルデータを取得するプロファイルデータ取得部と、
前記複数のプロファイルデータを、各グループに一つ以上のプロファイルデータが含まれるように複数のグループに振り分けるグループ化部と、
前記複数のグループの各々について、該グループに含まれる前記一つ以上のプロファイルデータに基づいて前記既知試料に由来するピークのm/zと該ピークの強度とを記載したピークリストを生成するピークリスト生成部と、
前記ピークリスト及び前記既知試料の種類に関する情報を学習データとして、未知試料を判別するための判別モデルを生成する判別モデル生成部と、
を備えるものである。
【0050】
(第6項)第5項に記載の質量分析データ処理システムは、
前記グループ化部が、前記複数のプロファイルデータを、前記複数のグループにランダムに振り分けるものであってもよい。
【0051】
(第7項)第5項又は第6項に記載の質量分析データ処理システムは、
前記グループ化部が、前記複数のプロファイルデータのうちの少なくとも一つを、前記複数のグループのうちの二つ以上に重複して振り分けるものであってもよい。
【0052】
(第8項)第5項~第7項のいずれかに記載の質量分析データ処理システムは、
未知試料を質量分析して得られたプロファイルデータに基づいて生成されたピークリストを、前記判別モデルに適用することによって前記未知試料の判別を行う判別部、
を更に備えるものであってもよい。
【0053】
(第9項)一態様に係る質量分析データ処理プログラムは、コンピュータを、第5項~第8項のいずれかに記載の質量分析データ処理システムの各部として機能させるものである。
【0054】
第1項に記載の質量分析データ処理方法、第5項に記載の質量分析データ処理システム、又は第9項に記載の質量分析データ処理プログラムによれば、高精度な判別モデルを構築するために必要な多量の学習データを、少ない質量分析回数で得ることが可能となる。
【0055】
また、第2項に記載の質量分析データ処理方法又は第6項に記載の質量分析データ処理システムによれば、試料上の測定領域内における試料成分の濃淡の影響を受けることなく適切な学習データを生成することができる。
【0056】
また、第3項に記載の質量分析データ処理方法又は第7項に記載の質量分析データ処理システムによれば、プロファイルデータの数が少ない場合や、グループの数が多い場合でも、各グループに割り振られるプロファイルデータの数を多くすることができるため、S/Nの低下を防ぐことができる。
【符号の説明】
【0057】
10…質量分析データ処理システム
20…学習データ生成部
21…プロファイルデータ取得部
22…グループ化部
23…ピークリスト生成部
30…判別モデル生成部
40…判別部
41…未知サンプルデータ取得部
42…判別実行部
50…データ記憶部
60…入力部
70…表示部