(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022164961
(43)【公開日】2022-10-31
(54)【発明の名称】情報処理方法、情報処理装置、及び情報処理プログラム
(51)【国際特許分類】
G01N 27/62 20210101AFI20221024BHJP
【FI】
G01N27/62 D
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021070084
(22)【出願日】2021-04-19
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】山崎 一寿
(72)【発明者】
【氏名】滋野 真弓
(72)【発明者】
【氏名】片岡 祐治
【テーマコード(参考)】
2G041
【Fターム(参考)】
2G041CA01
2G041FA02
2G041FA06
2G041FA21
2G041LA06
(57)【要約】
【課題】質量分析により得られた質量スペクトルを、効率的かつ高精度に解析できる情報処理方法等の提供。
【解決手段】質量分析により得られた質量スペクトルを解析する情報処理方法であって、前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する第1変換処理と、前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する第2変換処理と、前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定処理とをコンピュータが実行する情報処理方法である。
【選択図】なし
【特許請求の範囲】
【請求項1】
質量分析により得られた質量スペクトルを解析する情報処理方法であって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する第1変換処理と、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する第2変換処理と、
前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定処理と、
をコンピュータが実行することを特徴とする情報処理方法。
【請求項2】
前記第1変換処理において前記コンピュータが、
前記離散データに対して、前記質量スペクトルには含まれないダミーピークデータを追加して、前記離散データを前記連続データに変換する、請求項1に記載の情報処理方法。
【請求項3】
前記第1変換処理において、
前記ダミーピークデータにおける前記検出強度の値の大きさは前記ダミーピークデータに隣接する前記ピークデータにおける検出強度の値の大きさの1%以下である、請求項2に記載の情報処理方法。
【請求項4】
前記第2変換処理において前記コンピュータが、
前記パーシステントホモロジー手法として、lower star filtration法を用い、前記連続データにおける前記極大値と前記極小値に基づいて、前記特徴データを含むプロットデータを特定することにより、前記連続データを前記パーシステントデータに変換する、請求項1から3のいずれかに記載の情報処理方法。
【請求項5】
前記第2変換処理において前記コンピュータが、
前記パーシステントデータにおける前記プロットデータの内、前記パーシステントデータにおけるBirthの値とDeathの値の差が所定値以上の前記プロットデータを、前記質量スペクトルにおける前記特徴データとして特定する、請求項4に記載の情報処理方法。
【請求項6】
前記コンピュータが、
同定対象物質についての前記質量分析から得られた第1の質量スペクトルにおける前記特徴データと、
複数の物質についての前記質量スペクトルのデータが保存されたデータベースにおける、前記同定対象物質の候補となる候補物質についての第2の質量スペクトルにおける前記特徴データと、
を照合することにより、前記同定対象物質を同定する物質同定処理を更に実行する、請求項1から5のいずれかに記載の情報処理方法。
【請求項7】
前記物質同定処理において前記コンピュータが、
前記第1の質量スペクトルの前記特徴データと、前記第2の質量スペクトルの前記特徴データとにおける、数及び分布の少なくともいずれかに基づいて、前記第1の質量スペクトルと前記第2の質量スペクトルとの類似度を特定し、前記類似度に基づいて前記同定対象物質を同定する、請求項6に記載の情報処理方法。
【請求項8】
前記物質同定処理において前記コンピュータが、
前記第1の質量スペクトルにおける前記特徴データと、前記第2の質量スペクトルにおける前記特徴データとの間のコサイン類似度に基づいて、前記同定対象物質を同定する、請求項6又は7に記載の情報処理方法。
【請求項9】
質量分析により得られた質量スペクトルを解析する情報処理装置であって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータのそれぞれに対応した極大値と、極小値とを有する連続データに変換し、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換し、前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定部を有することを特徴とする情報処理装置。
【請求項10】
質量分析により得られた質量スペクトルを解析する情報処理プログラムであって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する第1変換処理と、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する第2変換処理と、
前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定処理と、
をコンピュータに行わせることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本件は、情報処理方法、情報処理装置、及び情報処理プログラムに関する。
【背景技術】
【0002】
質量分析は、試料に含まれる物質の同定などを目的として、原子や分子をイオン化して、各イオンにおける質量電荷比(m/z)と量(検出強度)を測定して分析を行う分析手法である。より具体的には、質量分析では、例えば、原子、分子、クラスターなどを、電子衝撃などの手法により気体状のイオンとし、真空中での電界や磁界の作用、飛行時間差などから、これらのイオンを質量電荷比に応じて分離及び検出する。
このため、質量分析においては、例えば、横軸を質量電荷比、縦軸を検出強度とした、各イオンのフラグメントに対応する離散的なピークで表される質量スペクトル(マススペクトル)が、分析の結果として得られる。
【0003】
また、質量分析において、試料に含まれる物質を同定する際には、例えば、当該試料についての分析から得られた質量スペクトルと、既知の物質についての質量スペクトルが蓄積されたデータベースにおける質量スペクトルとを照合することにより、当該試料に含まれる物質を同定する。
より具体的には、質量分析により試料に含まれる物質を同定する際には、例えば、質量スペクトルのデータベース(ライブラリー)を参照し、当該データベースの中から、当該試料の質量スペクトルと類似性の高い質量スペクトルを選択することにより物質を同定する。また、結合の開裂を伴う一種の化学反応であるフラグメンテーションについては、例えば、イオンの構造と結合開裂反応の間の規則性を踏まえて質量スペクトル自体を解析した後、シミュレーションによる仮想スペクトルと照合することで、物質を同定することができる。
【0004】
質量分析に関する従来技術としては、例えば、質量分析に用いる質量分析器を多段構成として複数回質量分析を行うことにより、質量分析の精度を高める技術が提案されている(例えば、特許文献1参照)。また、質量分析に関する他の従来技術としては、例えば、分子量とフラグメントイオンのピークの質量差と各ピーク強度とを一対とするパラメータを用いて、類似する質量スペクトルを検索する技術が提案されている(例えば、特許文献2参照)。
ここで、これらの従来技術では、試料に含まれる物質を同定する際に、当該試料についての質量スペクトルと、データベースに保存されている質量スペクトルとについて、離散的なピークを互いに照合することにより、当該試料に含まれる物質を同定している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2011-220773号公報
【特許文献2】特開平11-64285号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
一つの側面では、本件は、質量分析により得られた質量スペクトルを、効率的かつ高精度に解析できる情報処理方法等を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するための手段の一つの実施態様は、以下の通りである。
即ち、一つの実施態様では、情報処理方法は、質量分析により得られた質量スペクトルを解析する情報処理方法であって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する第1変換処理と、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する第2変換処理と、
前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定処理と
をコンピュータが実行する。
【発明の効果】
【0008】
一つの側面では、本件は、質量分析により得られた質量スペクトルを、効率的かつ高精度に解析できる情報処理方法等を提供できる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、質量分析により得られるベンズアルデヒドの質量スペクトルの一例を示す図である。
【
図2】
図2は、質量分析において、同定対象物質を同定する方法の一例を示す図である。
【
図3】
図3は、離散データを変換した連続データからパーシステント図を作成する方法の一例を説明する図である。
【
図4A】
図4Aは、質量スペクトルにおける複数のピークデータを含む離散データの一例を示す図である。
【
図4B】
図4Bは、ダミーピークデータの挿入の有無がわかるように
図4Aにおける検出強度が0.6までの部分を拡大した図である。
【
図4D】
図4Dは、
図4Cの連続データを「lower star filtration法」によりパーシステントデータに変換したパーシステント図である。
【
図5A】
図5Aは、質量スペクトルにおける複数のピークデータを含む離散データの一例を示す図である。
【
図5B】
図5Bは、ダミーピークデータの挿入の有無がわかるように
図5Aにおける検出強度が0.6までの部分を拡大した図である。
【
図5D】
図5Dは、
図5Cの連続データを「lower star filtration法」によりパーシステントデータに変換したパーシステント図である。
【
図6A】
図6Aは、質量スペクトルにおける複数のピークデータを含む離散データの一例を示す図である。
【
図6B】
図6Bは、ダミーピークデータの挿入の有無がわかるように
図6Aにおける検出強度が2.0までの部分を拡大した図である。
【
図6D】
図6Dは、
図6Cの連続データを「lower star filtration法」によりパーシステントデータに変換したパーシステント図である。
【
図7A】
図7Aは、質量スペクトルにおける複数のピークデータを含む離散データの一例を示す図である。
【
図7B】
図7Bは、ダミーピークデータの挿入の有無がわかるように
図7Aにおける検出強度が2.0までの部分を拡大した図である。
【
図7D】
図7Dは、
図7Cの連続データを「lower star filtration法」によりパーシステントデータに変換したパーシステント図である。
【
図8】
図8は、本件で開示する情報処理方法の処理の流れの一例を示す図である。
【
図9】
図9は、本件で開示する情報処理装置のハードウェア構成例を示すブロック図である。
【
図10】
図10は、本件で開示する情報処理装置の他のハードウェア構成例を示すブロック図である。
【
図11】
図11は、本件で開示する情報処理装置の機能構成例を示すブロック図である。
【
図12】
図12は、本件で開示する技術の一例を用いて、同定対象物質を同定する処理の流れの一例を示すフローチャートである。
【
図13】
図13は、実施例1における同定対象物質を同定する処理の流れの一例を示す図である。
【
図14】
図14は、比較例1における同定対象物質を同定する処理の流れの一例を示す図である。
【発明を実施するための形態】
【0010】
(情報処理方法)
本件で開示する技術は、従来技術では、質量分析により得られた質量スペクトルを解析する際に、解析が非効率になってしまう場合や、解析の精度が不十分になってしまう場合があるという、本発明者らの知見に基づくものである。そこで、本件で開示する技術の詳細を説明する前に、従来技術の問題点等について説明する。
【0011】
上述したように、質量分析では、例えば、原子、分子、クラスターなどをイオン化し、イオンの質量電荷比に応じてイオンを分離及び検出する。ここで、質量分析において、通常、各イオンが受ける力は、質量(m)と電荷(z)の比である質量電荷比(m/z)に比例することになる。このため、質量分析では、分析結果として、横軸に質量電荷比(m/z)を、縦軸に検出されたイオン量(検出強度)をとった質量スペクトル(マススペクトル)が得られる。
図1に、質量分析により得られるベンズアルデヒドの質量スペクトルの一例を示す。
図1に示すように、質量スペクトルでは、例えば、横軸を質量電荷比(m/z)、縦軸をイオン量(Abundance)とすると、イオン量が多いイオンは大きなピーク(高い棒)として表される。このように、質量スペクトルは、通常、各イオンのフラグメントに対応する離散的なピークで表され、離散的な棒グラフとしてチャートにされる。
【0012】
質量分析は、例えば、物質の元素組成及び構造を解析する際に用いられる。元素組成解析では、
図2の上段に示すように、例えば、構造が既知である(又は推定されている)物質の質量スペクトルから、構造の特徴を表す部分を特定し、当該物質の構造と関連づける。そして、構造解析では、例えば、解析対象の関連物質を解析した論文などの情報に基づいて、質量スペクトルのデータベース又はライブラリーを用いて、質量分析により取得した質量スペクトルと類似性の高いものを特定することで、試料に含まれる物質を同定する。一方、
図2の下段に示すように、結合の開裂を伴う一種の化学反応であるフラグメンテーションにおいて、同位体ピークの観察や窒素ルールなど、イオンの構造と結合開裂反応の間の規則性を踏まえて質量スペクトル自体を解析する。そして、元素組成解析では、例えば、シミュレーション等から得た仮想スペクトルと、質量分析により取得した質量スペクトルとを照合することにより、試料に含まれる物質を同定する。
【0013】
以上説明したように、従来技術では、離散的なピークを総当たりで照合する必要があることから非効率であることに加えて、質量スペクトルに含まれるノイズに起因するピークの影響により、物質の同定精度(質量スペクトルの類似度の評価精度)が不十分であるという問題があった。
【0014】
そこで、本発明者は、質量分析により得られた質量スペクトルを解析する方法等について鋭意検討を重ねた結果、以下の知見を得た。即ち、本発明者は、下記の情報処理方法等により、質量分析により得られた質量スペクトルを効率的かつ高精度に解析できることを知見した。
本件で開示する技術の一例としての情報処理方法は、質量分析により得られた質量スペクトルを解析する情報処理方法であって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する第1変換処理と、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する第2変換処理と、
前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定処理と
をコンピュータが実行する。
【0015】
以下では、本件で開示する情報処理方法が含む各工程について、図面を参照しながら詳細に説明する。本件で開示する情報処理方法は、第1変換処理と、第2変換処理と、特徴データ特定処理とをコンピュータが実行し、物質同定処理をコンピュータが実行することが好ましく、更に必要に応じてその他の処理を含む。
まず、本件で開示する情報処理方法は、質量分析により得られた質量スペクトルを解析する情報処理方法である。
本件で開示する情報処理方法によると、構造解析に向けたデータベース又はライブラリーとの照合や検索に際して、登録データの中から迅速かつ正確に類似性の高い質量スペクトルを選びだすことによって、同定対象物質の高精度な同定を実現することができる。
【0016】
<第1変換処理>
本件で開示する技術の一例における第1変換処理では、例えば、前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する。
【0017】
まず、質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、ピークデータに対応した極大値及び極小値を有する連続データに変換する。即ち、
図1に示すような離散的な質量スペクトルを
図3の左図に示すような連続的な質量スペクトルに変換する。これは、質量スペクトルにおける全てのピークデータ(信号)を
図3の右図に示すようなパーシステント図に反映させるためには、離散データを連続データに変換した連続的な質量スペクトルが
図3の左図に示すような「山」と「谷」を持たなければならないからである。なお、離散データを連続データに変換する方法としては、
図3の左図に示すような滑らかな曲線を形成する必要はなく、各ピークの頂点を線で繋いで折れ線を形成する方法などが挙げられる。
【0018】
本件で開示する技術の一例では、質量スペクトルにおける全てのピークデータ(信号)をパーシステント図に反映させるために、棒グラフ上のピーク(棒)の間に質量スペクトルには本来含まれないダミーピークデータを意図的に設け、変換された連続的な質量スペクトルが「山」と「谷」を必ず持つようにすることが好ましい。しかし、ダミーピークデータは、パーシステント図において実際に存在するピークの情報として認識されず、特徴量の抽出に当たってはノイズとして除外されなければならない。したがって、ダミーピークデータによる情報はパーシステント図の対角線に極めて近い位置に現れる必要がある。そのため、ダミーピークデータにおける検出強度の値の大きさは、ダミーピークデータに隣接するピークデータにおける検出強度の値の大きさの1%以下が好ましく、0%よりも大きく1%よりも小さいことがより好ましい。
また、ダミーピークデータは、上述したように、例えば、ダミーピークデータに隣接するピークデータにおける検出強度の値の大きさの1%以下の大きさとすることによって、本来のピークデータによる特徴に影響がでないように(特徴量がシフトしないように)できる。
【0019】
本件で開示する技術の一例において、ダミーピークデータを挿入する位置及び挿入する数は、変換後の連続データが各ピークに対応する「山」と「谷」を持つことができる範囲であれば特に制限はなく、目的に応じて適宜選択することができる。具体的には、各ピークを繋いだ線(折れ線)に「山」と「谷」が現れない箇所(単調増加する箇所)のみにダミーピークデータを挿入し、ダミーピークデータを挿入しなくても「山」と「谷」が現れる箇所には、ダミーピークデータを挿入しないようにしてもよい。即ち、n番目のピークの検出強度よりn+1番目のピークの検出強度が大きくなる箇所に、ダミーピークデータの挿入を行う。
なお、変換後の連続データが各ピークに対応する「山」と「谷」を持つことの有無に関わらず離散データのすべてのピークの隣にダミーピークデータを挿入しても構わない。また、離散データを変換した連続データが各ピークに対応する「山」と「谷」を有している場合には、離散データの各ピークに対してダミーピークデータを挿入する必要はない。
【0020】
<第2変換処理>
第2変換処理では、前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する。
【0021】
本件で開示する技術の一例において、連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する際には、例えば、「lower star filtration法」という手法を用いることができる。この「lower star filtration法」では、連続データにおける「谷」を「Birth(横軸)」、「山」を「Death(縦軸)」として扱い、
図3の右図に示すようなパーシステント図を作成する。
【0022】
「lower star filtration法」を用いて、連続データからパーシステントデータ(パーシステント図)に変換する処理は公知のソフトウェアを用いて行うことができる。ソフトウェアの情報については、下記のインターネットに公開されているプログラムコードを用いてパーシステント図を作成することができる。
『Lower Star Image Filtrations [online],[2021年4月4日検索],インターネット,<URL:<https://ripser.scikit-tda.org/en/latest/notebooks/Lower%20Star%20Image%20Filtrations.html>』
【0023】
<特徴データ特定処理>
特徴データ特定処理は、前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する。
【0024】
図3の右図に示すパーシステント図においては、「Birth(横軸)」と「Death(縦軸)」の値が等しくなる直線(対角線)に近いプロットは、「生まれてからすぐに死んでしまう(ライフタイムが短い)」プロットであり、有意な特徴を含まないノイズであると考えられる。このため、本件で開示する技術の一例では、「Birth(横軸)」と「Death(縦軸)」の値が等しくなる直線(対角線)に近いプロットは、ノイズとして特徴量(特徴データ)から除去することが好ましい。
なお、対角線に近いか否かを判定する際の、対角線とプロットとの距離の閾値については、特に制限はなく、分析を行う中で知見した経験的な値を用いることができ、例えば、対角線から質量スペクトルでのプロットの最大値を100としたとき5%~7%であることが好ましい。対角線とプロットとの距離の閾値を5%~7%の範囲とすることにより、ノイズ成分及びノイズに近い成分(例えば、ダミーピークデータ)を適切に除去することができる。
また、本件で開示する技術の一例において、分析を行う質量スペクトルにおける検出強度は、正の値(0より大きい値)となる物理量であることから、パーシステント図における各プロットは、「Birth(横軸)」と「Death(縦軸)」の値が等しくなる直線(対角線)の上側に位置することになり、下側には位置しない。
【0025】
ここで、
図4A~
図4Dは、質量スペクトルの離散データにダミーピークデータを挿入しないで連続データに変化した質量スペクトルをパーシステントデータに変換し、パーシステントデータに基づいて質量スペクトルの特徴を表す特徴データを特定する方法を説明する図である。
図4Aは質量スペクトルの離散データを示す図、
図4Bはダミーピークデータの挿入の有無がわかるように
図4Aにおける検出強度が0.6まで部分を拡大した図、
図4Cは
図4Bの離散データを連続データに変換した図、
図4Dは
図4Cの連続データを「lower star filtration法」によりパーシステントデータに変換したパーシステント図をそれぞれ示す。
図4D中の楕円で囲まれたプロットはパーシステントデータに基づいて特定された質量スペクトルの特徴を表す特徴量(特徴データ)を示す。
【0026】
一方、
図5A~
図5Dは、質量スペクトルの離散データの各ピークの後(ピーク間の中央)に検出強度が0.1のダミーピークデータを挿入し、連続データに変化した質量スペクトルをパーシステントデータに変換し、パーシステントデータに基づいて質量スペクトルの特徴を表す特徴データを特定する方法を説明する図である。
図5Aは質量スペクトルの離散データを示す図、
図5Bはダミーピークデータの挿入の有無がわかるように
図5Aにおける検出強度が0.6まで部分を拡大した図、
図5Cは
図5Bの離散データを連続データに変換した図、
図5Dは
図5Cの連続データを「lower star filtration法」によりパーシステントデータに変換したパーシステント図をそれぞれ示す。
図5D中の楕円で囲まれたプロットはパーシステントデータに基づいて特定された質量スペクトルの特徴を表す特徴量(特徴データ)を示す。
【0027】
図4Dのパーシステントデータと
図5Dのパーシステントデータを比較すると、
図5Dの対角線上のプロットは主にダミーピークデータに由来するものでありノイズとして無視でき、
図5Dの方が
図4Dに比べて特徴量のプロット数が多くなっており、ダミーピークデータを挿入したことによって高精度な解析を行うことができる。
【0028】
図6A~
図6Dは、質量スペクトルの離散データにダミーピークデータを挿入しないで連続データに変化した質量スペクトルをパーシステントデータに変換し、パーシステントデータに基づいて質量スペクトルの特徴を表す特徴データを特定する方法を説明する図である。
図6Aは質量スペクトルの離散データを示す図、
図6Bはダミーピークデータの挿入の有無がわかるように
図6Aにおける検出強度が2.0まで部分を拡大した図、
図6Cは
図6Bの離散データを連続データに変換した図、
図6Dは
図6Cの連続データを「lower star filtration法」によりパーシステントデータに変換したパーシステント図をそれぞれ示す。
【0029】
一方、
図7A~
図7Dは、質量スペクトルの離散データの各ピークの後に検出強度が0.1のダミーピークデータを挿入し、連続データに変化した質量スペクトルをパーシステントデータに変換し、パーシステントデータに基づいて質量スペクトルの特徴を表す特徴データを特定する方法を説明する図である。
図7Aは質量スペクトルの離散データを示す図、
図7Bはダミーピークデータの挿入の有無がわかるように
図7Aにおける検出強度が2.0まで部分を拡大した図、
図7Cは
図7Bの離散データを連続データに変換した図、
図7Dは
図7Cの連続データを「lower star filtration法」によりパーシステントデータに変換したパーシステント図をそれぞれ示す。
図7D中の楕円で囲まれたプロットはパーシステントデータに基づいて特定された質量スペクトルの特徴を表す特徴量(特徴データ)を示す。
【0030】
図6A及び
図7Aに示すように質量スペクトルの各ピークを繋いだ線(折れ線)に「山」と「谷」が現れない場合(質量電荷比(m/z)に対して検出強度が単調に増加する場合)には、
図7Bに示すように、離散データの各ピークにダミーピークデータを挿入することにより、変換された連続的な質量スペクトルが「山」と「谷」を持つようになるので、ダミーピークデータを挿入する効果が顕著であることがわかる。このことから、n番目のピークの検出強度がn+1番目の検出強度より大きくなる場合には、ダミーピークを挿入することが有効である。
図6Dのパーシステントデータと
図7Dのパーシステントデータを比較すると、
図6Dの方が
図7Dに比べて特徴量のプロット数が顕著に多くなっており、ダミーピークデータを挿入したことにより、高精度な解析を行うことができる。
【0031】
<物質同定処理>
本件で開示する技術の一例における物質同定処理では、コンピュータが、同定対象物質についての前記質量分析から得られた第1の質量スペクトルにおける前記特徴データと、複数の物質についての前記質量スペクトルのデータが保存されたデータベースにおける、前記同定対象物質の候補となる候補物質についての第2の質量スペクトルにおける前記特徴データと、を照合することにより、同定対象物質を同定する。
【0032】
-同定対象物質-
同定対象物質としては、イオン化が可能な物質であれば特に制限はなく、目的に応じて適宜選択することができ、例えば、気体、液体、及び固体のいずれであっても構わない。
質量分析が適用される分野としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、合成化学、天然物化学、錯体化学等の有機化学;構造生物学、分子生物学、植物科学、食品化学、脂質工学、糖鎖工学等の生化学;無機元素定量、同位体解析等の無機化学;合成高分子、生体試料等の形態解析;抗体医薬、代謝、組織形態研究等の医科学;水、土壌、大気等の環境分野;農薬、動物薬、アレルゲン、ダイオキシン、機能性食品、産地偽装捜査等の食品分野;乱用薬物等の法医学;高分子、ナノ材料、ファインケミカル、高機能性材料、半導体、化粧品、香料、洗剤、接着剤、触媒等の化学工業;医薬品生理活性発現の機構解析又は速度論解析等のバイオ又は低分子医薬品開発;代謝、組織形態研究、生体メカニズム等の医科学などが挙げられる。
【0033】
-データベース-
質量スペクトルのデータが保存されたデータベースとしては、特に制限はなく、目的に応じて適宜選択することができ、例えば、MSSJ MassBank(日本質量分析学会(MSSJ)の公式データベース)、NIST20(質量スぺクトルデータベース)(NIST/EPA/NIH)、Norman MassBank(EP)、Wiley Registry of Mass Spectral Data,12th Edition(Wiley社製)などが挙げられる。
【0034】
-候補物質-
候補物質としては、効率よく照合及び検索を行うために質量スペクトルのデータベースから同定対象物質の候補を選定した物質であり、例えば、質量スペクトルのデータベースにおいて同定対象の質量スペクトルを取得した際の分析手法、検出器、検出イオンの極性、予測される精密質量、構造式などから候補を絞り込んだ物質である。
【0035】
-照合方法-
第1の質量スペクトルにおける特徴データと、第2の質量スペクトルにおける特徴データとを照合する方法としては、例えば、第1の質量スペクトルの特徴データと、第2の質量スペクトルの特徴データとにおける、数及び分布の少なくともいずれかに基づいて、第1の質量スペクトルと第2の質量スペクトルとの類似度を特定し、類似度に基づいて同定対象物質を同定することができ、第1の質量スペクトルにおける特徴データと、第2の質量スペクトルにおける特徴データとの間のコサイン類似度に基づいて、同定対象物質を同定することが好ましい。
【0036】
具体的には、本件で開示する技術の一例では、例えば、上述したようにして特定した、質量スペクトルの特徴を表す特徴量(例えば、パーシステント図の対角線から離れているプロット)に基づいて、質量分析の対象となった試料に含まれる物質を同定する。具体的には、本件で開示する技術の一例においては、例えば、同定対象物質についての質量分析から得た第1の質量スペクトルと、複数の物質についての質量スペクトルのデータが保存されたデータベースにおける、同定対象物質の候補となる候補物質についての第2の質量スペクトルとを、それぞれパーシステントデータに変換し、パーシステントデータに基づいて特定した特徴量(特徴データ)どうしの類似度を算出する。
【0037】
本件で開示する技術の一例において、パーシステントデータに基づいて特定した特徴量どうしの類似度を算出する際には、例えば、特徴量の数と、特徴量の位置(座標)とに基づいて、類似度を算出することができる。具体的には、同定対象物質についての第1の質量スペクトルにおける特徴量の数と、特徴量の数が同一の質量スペクトルをデータベースから抽出し、抽出した第2の質量スペクトルについて「コサイン類似度」を算出することで、同定対象物質についての第1の質量スペクトルと候補物質についての第2の質量スペクトルの類似度を求めることができる。
なお、特徴量の数が同一の第2の質量スペクトルをデータベースから抽出する際には、同定対象物質についての第1の質量スペクトルにおける特徴量の数と完全に一致するものだけでなく、多少の数の違い(例えば、±10%など)を許容して、第2の質量スペクトルを抽出してもよい。
【0038】
また、本件で開示する技術の一例では、同定対象物質についての第1の質量スペクトルと候補物質についての第2の質量スペクトルのコサイン類似度を求める際には、「疎行列(スパース行列)」を利用することができる。疎行列を用いることにより、同定対象物質についての第1の質量スペクトルと、複数の候補物質の第2の質量スペクトルとについて、同時に(一括して)コサイン類似度を求めることができる。
【0039】
なお、コサイン類似度を用いた疎行列による類似度の算出は、公知のソフトウェアを利用して行うことができる。
「疎行列」については、下記のURLにPythonでプログラムを組むためのライブラリーが公開されている。
『SciPy.org Sparse matrices(scipy.sparse) [online],[2021年4月4日検索],インターネット,URL:<https://docs.scipy.org/doc/scipy/reference/sparse.html>』
【0040】
「コサイン類似度」については、下記のURLにPythonでプログラムを組むためのライブラリーが公開されている。
『scikit-learn 6.8.Pairwise metrics,Affinities and Kernels 6.8.1 Cosine similarity [online],[2021年4月4日検索],インターネット,URL:<https://scikit-learn.org/stable/modules/metrics.html#cosine-similarity>』
【0041】
<その他の処理>
その他の処理としては、特に制限はなく、目的に応じて適宜選択することができる。
【0042】
ここで、
図8は、本件で開示する情報処理方法の処理の流れの一例を示す図である。
本件で開示する情報処理方法は、
図8に示すように、同定対象物質の質量スペクトル(同定対象スペクトル)の離散データにダミーピークデータを挿入するとともに離散データを連続データに変換する第1の工程と、
変換された連続データをパーシステントホモロジー手法としての「lower star filtration法」に基づきパーシステント図を作成し、同定対象スペクトルの特徴を表す特徴データを特定する第2の工程と、
同定対象物質の精密質量などからデータベースに登録されている質量スペクトルを絞り込んだ候補スペクトルの離散データにダミーピークデータを挿入するとともに離散データを連続データに変換する第3の工程と、
変換された連続データをパーシステントホモロジー手法としての「lower star filtration法」に基づきパーシステント図を作成し、候補スペクトルの特徴を表す特徴データを特定する第4の工程と、
第2の工程により特定した同定対象スペクトルにおける特徴データと第4の工程により特定した候補スペクトルにおける特徴データとを照合し、特徴データの数と特徴データの位置(座標)とから類似度を特定し、この類似度により同定対象物質を同定する第5の工程とを含む。
【0043】
(情報処理装置)
本件で開示する情報処理装置は、質量分析により得られた質量スペクトルを解析する情報処理装置であって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータのそれぞれに対応した極大値及び極小値を有する連続データに変換し、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換し、前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定部を有する。
【0044】
本件で開示する情報処理装置は、特徴データ特定部を有し、物質同定部を有することが好ましく、更に必要に応じて、その他の部(ユニット)を備える。
情報処理装置は、例えば、メモリと、プロセッサとを有し、更に必要に応じて、その他のユニットを有する。プロセッサとしては、第1の変換処理、第2の変換処理、及び特徴データ特定処理を実行できるように、メモリに結合されているものを好適に用いることができる。
プロセッサは、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)又はその組み合わせとすることができる。
このように、本件で開示する情報処理装置は、例えば、本件で開示する情報処理方法を行う装置(コンピュータ)とすることができる。したがって、本件で開示する情報処理装置における好適な態様は、本件で開示する情報処理方法における好適な態様と同様にすることができる。
【0045】
(情報処理プログラム)
本件で開示する情報処理プログラムは、質量分析により得られた質量スペクトルを解析する情報処理プログラムであって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する第1変換処理と、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する第2変換処理と、
前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定処理と
をコンピュータに行わせる。
【0046】
本件で開示する情報処理プログラムは、例えば、本件で開示する情報処理方法をコンピュータに実行させるプログラムとすることができる。また、本件で開示する情報処理プログラムにおける好適な態様は、例えば、本件で開示する情報処理方法における好適な態様と同様にすることができる。
【0047】
本件で開示する情報処理プログラムは、使用するコンピュータシステムの構成及びオペレーティングシステムの種類・バージョンなどに応じて、公知の各種のプログラム言語を用いて作成することができる。
【0048】
本件で開示する情報処理プログラムは、内蔵ハードディスク、外付けハードディスクなどの記録媒体に記録しておいてもよいし、CD-ROM、DVD-ROM、MOディスク、USBメモリなどの記録媒体に記録しておいてもよい。
さらに、本件で開示する情報処理プログラムを、上記の記録媒体に記録する場合には、必要に応じて、コンピュータシステムが有する記録媒体読取装置を通じて、これを直接又はハードディスクにインストールして使用することができる。また、コンピュータシステムから情報通信ネットワークを通じてアクセス可能な外部記憶領域(他のコンピュータなど)に本件で開示する情報処理プログラムを記録しておいてもよい。この場合、外部記憶領域に記録された本件で開示する情報処理プログラムは、必要に応じて、外部記憶領域から情報通信ネットワークを通じてこれを直接、又はハードディスクにインストールして使用することができる。
なお、本件で開示する情報処理プログラムは、複数の記録媒体に、任意の処理毎に分割されて記録されていてもよい。
【0049】
(コンピュータが読み取り可能な記録媒体)
本件で開示するコンピュータが読み取り可能な記録媒体は、本件で開示する情報処理プログラムを記録してなる。
本件で開示するコンピュータが読み取り可能な記録媒体としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、内蔵ハードディスク、外付けハードディスク、CD-ROM、DVD-ROM、MOディスク、USBメモリなどが挙げられる。
また、本件で開示するコンピュータが読み取り可能な記録媒体は、本件で開示する情報処理プログラムが任意の処理毎に分割されて記録された複数の記録媒体であってもよい。
【0050】
以下では、装置の構成例及びフローチャートなどを用いて、本件で開示する技術の一例を更に詳細に説明する。
図9に、本件で開示する情報処理装置のハードウェア構成例を示す。
情報処理装置100においては、例えば、制御部101、主記憶装置102、補助記憶装置103、I/Oインターフェイス104、通信インターフェイス105、入力装置106、出力装置107、表示装置108が、システムバス109を介して接続されている。
【0051】
制御部101は、演算(四則演算、比較演算、焼き鈍し法の演算等)、ハードウェア及びソフトウェアの動作制御などを行う。制御部101としては、例えば、CPU(Central Processing Unit)を用いることができる。
制御部101は、例えば、主記憶装置102などに読み込まれたプログラム(例えば、本件で開示する情報処理プログラムなど)を実行することにより、種々の機能を実現する。
本件で開示する情報処理装置における特徴データ特定部が行う処理は、例えば、制御部101により行うことができる。
【0052】
主記憶装置102は、各種プログラムを記憶するとともに、各種プログラムを実行するために必要なデータ等を記憶する。主記憶装置102としては、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)の少なくともいずれかを有するものを用いることができる。
ROMは、例えば、BIOS(Basic Input/Output System)などの各種プログラムなどを記憶する。また、ROMとしては、特に制限はなく、目的に応じて適宜選択することができ、例えば、マスクROM、PROM(Programmable ROM)などが挙げられる。
RAMは、例えば、ROMや補助記憶装置103などに記憶された各種プログラムが、制御部101により実行される際に展開される作業範囲として機能する。RAMとしては、特に制限はなく、目的に応じて適宜選択することができ、例えば、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)などが挙げられる。
【0053】
補助記憶装置103としては、各種情報を記憶できれば特に制限はなく、目的に応じて適宜選択することができ、例えば、ソリッドステートドライブ(SSD)、ハードディスクドライブ(HDD)などが挙げられる。また、補助記憶装置103は、CDドライブ、DVDドライブ、BD(Blu-ray(登録商標) Disc)ドライブなどの可搬記憶装置としてもよい。
また、本件で開示する情報処理装置プログラムは、例えば、補助記憶装置103に格納され、主記憶装置102のRAM(主メモリ)にロードされ、制御部101により実行される。
【0054】
I/Oインターフェイス104は、各種の外部装置を接続するためのインターフェイスである。I/Oインターフェイス104は、例えば、CD-ROM(Compact Disc ROM)、DVD-ROM(Digital Versatile Disk ROM)、MOディスク(Magneto-Optical disk)、USBメモリ〔USB(Universal Serial Bus) flash drive〕などのデータの入出力を可能にする。
【0055】
通信インターフェイス105としては、特に制限はなく、適宜公知のものを用いることができ、例えば、無線又は有線を用いた通信デバイスなどが挙げられる。
入力装置106としては、情報処理装置100に対する各種要求や情報の入力を受け付けることができれば特に制限はなく、適宜公知のものを用いることができ、例えば、キーボード、マウス、タッチパネル、マイクなどが挙げられる。また、入力装置106がタッチパネル(タッチディスプレイ)である場合は、入力装置106が表示装置108を兼ねることができる。
【0056】
出力装置107としては、特に制限はなく、適宜公知のものを用いることができ、例えば、プリンタなどが挙げられる。
表示装置108としては、特に制限はなく、適宜公知のものを用いることができ、例えば、液晶ディスプレイ、有機ELディスプレイなどが挙げられる。
【0057】
図10に、本件で開示する情報処理装置の他のハードウェア構成例を示す。
図10に示す例において、情報処理装置100は、端末装置200と、サーバーコンピュータ300とに分かれている。
図10に示す例では、端末装置200は、例えば、データの入力、同定対象物質を同定した結果としての類似度の表示などの処理を行う。一方、サーバーコンピュータ300は、例えば、特徴データを特定するための、連続データをパーシステントデータに変換する処理、類似度の算出処理などを行う。また、
図10に示す例において、情報処理装置100における端末装置200とサーバーコンピュータ300は、ネットワーク400により接続されている。
【0058】
図10に示す例では、例えば、端末装置200としては、通常のパーソナルコンピュータを用いることができ、サーバーコンピュータ300としては、複数のコンピュータを接続したコンピュータクラスタや、スーパーコンピュータなどの大型で高性能のコンピュータを用いることができる。なお、サーバーコンピュータ300としては、クラウド上のコンピュータ群であってもよい。
【0059】
図11に、本件で開示する情報処理装置の機能構成例を示す。
図11に示すように、情報処理装置100は、通信機能部120と、入力機能部130と、出力機能部140と、表示機能部150と、記憶機能部160と、制御機能部170とを備える。
【0060】
通信機能部120は、例えば、各種のデータを外部の装置と送受信する。
入力機能部130は、例えば、情報処理装置100に対する各種指示を受け付ける。
出力機能部140は、例えば、同定対象物質を解析した結果としての類似度などをプリントして出力する。
表示機能部150は、例えば、同定対象物質を解析した結果としての類似度などをディスプレイに表示する。
記憶機能部160は、例えば、各種プログラム、同定対象物質を解析した結果としての類似度などを記憶する。
【0061】
制御機能部170は、特徴データ特定部171と物質同定部172を有する。制御機能部170は、例えば、記憶機能部160に記憶された各種プログラムを実行するとともに、情報処理装置100全体の動作を制御する。
特徴データ特定部171は、上述したように、質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、ピークデータのそれぞれに対応した極大値と、極小値とを有する連続データに変換し、連続データを、パーシステントホモロジー手法によりパーシステントデータに変換し、パーシステントデータに基づいて質量スペクトルの特徴を表す特徴データを特定する処理などを行う。
物質同定部172は、上述したように、同定対象物質についての質量分析から得られた第1の質量スペクトルにおける特徴データと、複数の物質についての質量スペクトルのデータが保存されたデータベースにおける、同定対象物質の候補となる候補物質についての第2の質量スペクトルにおける特徴データと、を照合することにより、同定対象物質を同定する処理などを行う。
【0062】
ここで、
図12を参照して、本件で開示する技術の一例を用いて、同定対象物質を同定する処理の流れの一例について、
図9から
図11を参照して説明する。
【0063】
図12に示すように、ステップS1では、特徴データ特定部171は、同定対象物質についての質量スペクトル(同定対象スペクトル)を取得すると、処理をS2に移行する。より具体的には、S1において、特徴データ特定部171は、例えば、同定対象物質を質量分析計で測定して得られた質量スペクトル(同定対象スペクトル)を取得する。
【0064】
ステップS2では、特徴データ特定部171は、nに1を入力し、mに同定対象スペクトルのピーク総数を入力すると、処理をS3に移行する。nは同定対象スペクトルの何番目のピークであるかを示す。
【0065】
ステップS3では、特徴データ特定部171は、同定対象スペクトルにおけるn番目のピークの検出強度とn+1番目のピークの検出強度を比較し、n番目のピークの検出強度がn+1番目のピークの検出強度より小さい場合には処理をS4に移行し、n番目のピークの検出強度がn+1番目のピークの検出強度より大きい場合には処理をS5に移行する。
【0066】
ステップS4では、特徴データ特定部171は、n番目のピークとn+1番目のピークとの間にダミーピークデータを挿入すると、処理をS5に移行する。より具体的には、S4において、挿入するダミーピークデータにおける検出強度の値の大きさは、ダミーピークデータに隣接するn番目のピークデータにおける検出強度の値の大きさの1%以下とする。
【0067】
ステップS5では、特徴データ特定部171は、nに1を加えると、処理をS6に移行する。
【0068】
ステップS6では、特徴データ特定部171は、nとmの大きさを比較し、nがmよりも大きい場合には処理をS7に移行し、nがm以下である場合には処理をS3に移行する。
【0069】
ステップS7では、特徴データ特定部171は、同定対象スペクトルの離散データを連続データに変換すると、処理をS8に移行する。
【0070】
ステップS8では、特徴データ特定部171は、連続データをパーシステントホモロジー手法によりパーシステントデータに変換すると、処理をS9に移行する。より具体的には、S8において、特徴データ特定部171は、パーシステントホモロジー手法としてlower star filtration法を用い、連続データをパーシステントデータに変換する。
【0071】
ステップS9では、特徴データ特定部171は、パーシステントデータに基づいて同定対象スペクトルの特徴を表す特徴データを特定すると、処理をS20に移行する。
【0072】
一方、ステップS10では、特徴データ特定部171は、同定対象物質が含まれているスペクトルデータベースを選択すると、処理をS11に移行する。
【0073】
ステップS11では、特徴データ特定部171は、スペクトルデータベースから候補スペクトルを抽出すると、処理をS12に移行する。より具体的には、候補スペクトルの抽出は、同定対象物質の精密質量などの情報に基づいて行われる。
【0074】
ステップS12では、特徴データ特定部171は、xに1を入力し、yに候補スペクトルのピーク総数を入力すると処理をS13に移行する。xは候補スペクトルの何番目のピークであるかを示す。
【0075】
ステップS13では、特徴データ特定部171は、候補スペクトルにおけるx番目のピークの検出強度とx+1番目のピークの検出強度を比較し、x番目のピークの検出強度がx+1番目のピークの検出強度より小さい場合には処理をS14に移行し、x番目のピークの検出強度がx+1番目のピークの検出強度より大きい場合には処理をS15に移行する。
【0076】
ステップS14では、特徴データ特定部171は、x番目のピークとx+1番目のピークとの間にダミーピークデータを挿入すると、処理をS15に移行する。より具体的には、S14において、挿入するダミーピークデータにおける検出強度の値の大きさは、ダミーピークデータに隣接するx番目のピークデータにおける検出強度の値の大きさの1%以下とする。
【0077】
ステップS15では、特徴データ特定部171は、xに1を加えると、処理をS16に移行する。
【0078】
ステップS16では、特徴データ特定部171は、xとyの大きさを比較し、xがyよりも大きい場合には処理をS17に移行し、xがy以下である場合には処理をS13に移行する。
【0079】
ステップS17では、特徴データ特定部171は、候補スペクトルの離散データを連続データに変換すると、処理をS18に移行する。
【0080】
ステップS18では、特徴データ特定部171は、連続データをパーシステントホモロジー手法によりパーシステントデータに変換すると、処理をS19に移行する。より具体的には、S18において、特徴データ特定部171は、パーシステントホモロジー手法としてlower star filtration法を用い、連続データをパーシステントデータに変換する。
【0081】
ステップS19では、特徴データ特定部171は、パーシステントデータに基づいて候補スペクトルの特徴を表す特徴データを特定すると、処理をS20に移行する。
なお、ステップS11からS19の処理は、候補スペクトルの抽出数に応じて繰り返して行われる。即ち、候補スペクトルの抽出数が複数である場合には、候補スペクトルの抽出数に応じてステップS11からS19の処理をそれぞれ行い、候補スペクトル毎に特徴データを求める。
【0082】
次に、ステップS20では、物質同定部172は、ステップS9で得られた同定対象スペクトルの特徴データとステップS19で得られた候補スペクトルの特徴データとを照合し、類似度を特定すると、処理をS21に移行する。より具体的には、S20において、物質同定部172は、同定対象スペクトルと候補スペクトルとにおける特徴データの数及び特徴データの位置(座標)の少なくともいずれかに基づいて類似度を特定する。
【0083】
ステップS21では、物質同定部172は、特定された類似度に基づき同定対象物質を同定すると、本件の処理を完了する。
【0084】
図12に示したような処理を行うことにより、本件で開示する技術の一例では、例えば、同定対象物質を効率よく高い精度で同定することができる。
【0085】
また、
図12においては、本件で開示する技術の一例における処理の流れについて、特定の順序に従って説明したが、本件で開示する技術においては、技術的に可能な範囲で、適宜各ステップの順序を入れ替えることができる。また本件で開示する技術においては、技術的に可能な範囲で、複数のステップを一括して行ってもよい。
また、
図12においては、候補スペクトルについてステップS10からS19の処理を行っているが、ステップS10からS19の処理を省略して、ステップS1からS9の処理を行った後、ステップ9で得られた同定対象スペクトルの特徴データと、パーシステントデータに変換していない生の候補スペクトルとを照合し、類似度を求めてもよい。
【実施例0086】
本件で開示する技術の一実施例について説明するが、本件で開示する技術は、この実施例に何ら限定されるものではない。
【0087】
(実施例1)
実施例1では、
図9から
図11に示すようなハードウェア構成を有する情報処理装置を用いて、
図12に示すフローチャートにおけるS1からS21に相当する処理を行い、同定対象物質の同定を行った。
【0088】
図13は、実施例1における同定対象物質を同定する処理の流れの一例を示す図である。
まず、公開されている質量スペクトルのデータベースから精密質量「72」の質量スペクトルを38本抽出(38本の候補スペクトル)し、そのうちの1本のButanal(HMDB0003543_c_ms_99820)を同定対象スペクトルとした。
次に、離散データからなる同定対象スペクトル及び38本の候補スペクトルについて、
図12に示すフローチャートにおけるS2からS6に相当する処理及びS12からS16に相当する処理を行い、ダミーピークデータを挿入し、連続データに変換した。得られた連続データからlower star filtration法によりパーシステント図(パーシステントデータ)をそれぞれ得た。
次に、同定対象スペクトルの特徴データと候補スペクトルの特徴データの照合には、上記パーシステントデータを用いた。同定対象スペクトルと候補スペクトルとの照合に際しては、上記パーシステントデータをCRS(Compressed Row Storage)形式で疎行列として格納し、コサイン類似度計算により類似度を求め、この類似度により同定対象物質の同定を行った。結果を表1に示した。
【0089】
(比較例1)
図14は、比較例1における同定対象物質を同定する処理の流れの一例を示す図である。
比較例1では、同定対象スペクトルと候補スペクトルとの照合にはパーシステントデータを用いないで、生スペクトルの座標を直接照合した以外は、実施例1と同様にして、類似度を求め、この類似度により同定対象物質の同定を行った。結果を表1に示した。
なお、比較例1では、実施例1との対比を正確に行うために、同定対象スペクトルと候補スペクトルとの照合の際には、実施例1と同じCRS形式の疎行列とコサイン類似度計算を用いて行った。
【0090】
【0091】
表1の結果から、実施例1は、38本の候補スペクトルの中で、「Butanal(HMDB0003543_c_ms_99820)」が同定対象スペクトルと完全に一致した(完全一致はスコア「1.00」で類似度の減少に伴ってスコアは小さくなる)。
「Butanal(HMDB0003543_c_ms_99820)」と「butyraldehyde(Fiehnl_ib000095)」は別のデータベースに異なる名前で登録されているが全く同じスペクトルであり、類似度は1.00(100%一致)となった。
また、「Butanal(HMDB0003543_c_ms_99820)」と同じ化学物質である「butyraldehyde(Fiehnl_ib000096)」及び「butyraldehyde(Fiehnl_ib000094)」から得られた質量スペクトルに対しても類似度が0.99以上の極めて高い類似性を示した。これらの質量スペクトルは、いずれも同一測定法及び同一測定装置により3度測定した結果である。
したがって、実施例1は、本件で開示する技術を用いることにより、パーシステントデータにおける特徴量に基づいて特定した類似度に基づいて、高い精度で同定対象物質を同定できることがわかった。
【0092】
比較例1は、全く同じ質量スペクトルである「Butanal(HMDB0003543_c_ms_99820)」と「butyraldehyde(Fiehnl_ib000095)」では、実施例1と同様に類似度が1.00(100%一致)であり、比較例1におけるコサイン類似度計算は、実施例1におけるコサイン類似度計算と問題なく比較できると言ってよい。
その結果を踏まえて、同じ化学物質であるが異なる測定法(測定装置は同じ)である「butyraldehyde(Fiehnl_ib000096)及び「butyraldehyde(Fiehnl_ib000094)」の結果を比較すると、比較例1は実施例1よりも低い類似度であった。このことは、比較例1では、測定法ごとに異なるノイズやバックグラウンドなどの相違を排除できなかったことを意味している。
以上の結果から、実施例1の本件で開示する技術は、比較例1の従来法に比べて高い精度で同定対象物質を同定できる点で優位であることがわかった。
【0093】
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
質量分析により得られた質量スペクトルを解析する情報処理方法であって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する第1変換処理と、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する第2変換処理と、
前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定処理と、
をコンピュータが実行することを特徴とする情報処理方法。
(付記2)
前記第1変換処理において前記コンピュータが、
前記離散データに対して、前記質量スペクトルには含まれないダミーピークデータを追加して、前記離散データを前記連続データに変換する、付記1に記載の情報処理方法。
(付記3)
前記第1変換処理において、
前記ダミーピークデータにおける前記検出強度の値の大きさは前記ダミーピークデータに隣接する前記ピークデータにおける検出強度の値の大きさの1%以下である、付記2に記載の情報処理方法。
(付記4)
前記第2変換処理において前記コンピュータが、
前記パーシステントホモロジー手法として、lower star filtration法を用い、前記連続データにおける前記極大値と前記極小値に基づいて、前記特徴データを含むプロットデータを特定することにより、前記連続データを前記パーシステントデータに変換する、付記1から3のいずれかに記載の情報処理方法。
(付記5)
前記第2変換処理において前記コンピュータが、
前記パーシステントデータにおける前記プロットデータの内、前記パーシステントデータにおけるBirthの値とDeathの値の差が所定値以上の前記プロットデータを、前記質量スペクトルにおける前記特徴データとして特定する、付記4に記載の情報処理方法。
(付記6)
前記コンピュータが、
同定対象物質についての前記質量分析から得られた第1の質量スペクトルにおける前記特徴データと、
複数の物質についての前記質量スペクトルのデータが保存されたデータベースにおける、前記同定対象物質の候補となる候補物質についての第2の質量スペクトルにおける前記特徴データと、
を照合することにより、前記同定対象物質を同定する物質同定処理を更に実行する、付記1から5のいずれかに記載の情報処理方法。
(付記7)
前記物質同定処理において前記コンピュータが、
前記第1の質量スペクトルの前記特徴データと、前記第2の質量スペクトルの前記特徴データとにおける、数及び分布の少なくともいずれかに基づいて、前記第1の質量スペクトルと前記第2の質量スペクトルとの類似度を特定し、前記類似度に基づいて前記同定対象物質を同定する、付記6に記載の情報処理方法。
(付記8)
前記物質同定処理において前記コンピュータが、
前記第1の質量スペクトルにおける前記特徴データと、前記第2の質量スペクトルにおける前記特徴データとの間のコサイン類似度に基づいて、前記同定対象物質を同定する、付記6又は7に記載の情報処理方法。
(付記9)
質量分析により得られた質量スペクトルを解析する情報処理装置であって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータのそれぞれに対応した極大値と、極小値と、を有する連続データに変換し、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換し、前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定部を有することを特徴とする情報処理装置。
(付記10)
前記特徴データ特定部が、
前記離散データに対して、前記質量スペクトルには本来含まれないダミーピークデータを追加して、前記離散データを前記連続データに変換する、付記9に記載の情報処理装置。
(付記11)
前記特徴データ特定部が、
前記ダミーピークデータにおける前記検出強度の値の大きさを、前記ダミーピークデータに隣接する前記ピークデータにおける検出強度の値の大きさの1%以下とする、付記10に記載の情報処理装置。
(付記12)
前記特徴データ特定部が、
前記パーシステントホモロジー手法として、lower star filtration法を用い、前記連続データにおける前記極大値と前記極小値に基づいて、前記特徴データを含むプロットデータを特定することにより、前記連続データを前記パーシステントデータに変換する、付記9から11のいずれかに記載の情報処理装置。
(付記13)
前記特徴データ特定部が、
前記パーシステントデータにおける前記プロットデータの内、前記パーシステントデータにおけるBirthの値とDeathの値の差が所定値以上の前記プロットデータを、前記質量スペクトルにおける前記特徴データとして特定する、付記12に記載の情報処理装置。
(付記14)
同定対象物質についての前記質量分析から得られた第1の質量スペクトルにおける前記特徴データと、
複数の物質についての前記質量スペクトルのデータが保存されたデータベースにおける、前記同定対象物質の候補となる候補物質についての第2の質量スペクトルにおける前記特徴データと、
を照合することにより、前記同定対象物質を同定する物質同定部を更に有する、付記9から13のいずれかに記載の情報処理装置。
(付記15)
前記物質同定部が、
前記第1の質量スペクトルの前記特徴データと、前記第2の質量スペクトルの前記特徴データとにおける、数及び分布の少なくともいずれかに基づいて、前記第1の質量スペクトルと前記第2の質量スペクトルとの類似度を特定し、前記類似度に基づいて前記同定対象物質を同定する、付記14に記載の情報処理装置。
(付記16)
前記物質同定部が、
記第1の質量スペクトルにおける前記特徴データと、前記第2の質量スペクトルにおける前記特徴データとの間のコサイン類似度に基づいて、前記同定対象物質を同定する、付記14又は15に記載の情報処理装置。
(付記17)
質量分析により得られた質量スペクトルを解析する情報処理プログラムであって、
前記質量スペクトルにおける、質量電荷比の情報と検出強度の情報とで表される複数のピークデータを含む離散データを、前記ピークデータに対応した極大値と、極小値とを有する連続データに変換する第1変換処理と、
前記連続データを、パーシステントホモロジー手法によりパーシステントデータに変換する第2変換処理と、
前記パーシステントデータに基づいて前記質量スペクトルの特徴を表す特徴データを特定する特徴データ特定処理と、
をコンピュータに行わせることを特徴とする情報処理プログラム。
(付記18)
前記第1変換処理において前記コンピュータが、
前記離散データに対して、前記質量スペクトルには含まれないダミーピークデータを追加して、前記離散データを前記連続データに変換する、付記17に記載の情報処理プログラム。
(付記19)
前記第1変換処理において、
前記ダミーピークデータにおける前記検出強度の値の大きさは前記ダミーピークデータに隣接する前記ピークデータにおける検出強度の値の大きさの1%以下である、付記18に記載の情報処理プログラム。
(付記20)
前記第2変換処理において前記コンピュータが、
前記パーシステントホモロジー手法として、lower star filtration法を用い、前記連続データにおける前記極大値と前記極小値に基づいて、前記特徴データを含むプロットデータを特定することにより、前記連続データを前記パーシステントデータに変換する、付記17から19のいずれかに記載の情報処理プログラム。
(付記21)
前記第2変換処理において前記コンピュータが、
前記パーシステントデータにおける前記プロットデータの内、前記パーシステントデータにおけるBirthの値とDeathの値の差が所定値以上の前記プロットデータを、前記質量スペクトルにおける前記特徴データとして特定する、付記20に記載の情報処理プログラム。
(付記22)
前記コンピュータが、
同定対象物質についての前記質量分析から得られた第1の質量スペクトルにおける前記特徴データと、
複数の物質についての前記質量スペクトルのデータが保存されたデータベースにおける、前記同定対象物質の候補となる候補物質についての第2の質量スペクトルにおける前記特徴データと、
を照合することにより、前記同定対象物質を同定する物質同定処理を更に実行する、付記17から21のいずれかに記載の情報処理プログラム。
(付記23)
前記物質同定処理において前記コンピュータが、
前記第1の質量スペクトルの前記特徴データと、前記第2の質量スペクトルの前記特徴データとにおける、数及び分布の少なくともいずれかに基づいて、前記第1の質量スペクトルと前記第2の質量スペクトルとの類似度を特定し、前記類似度に基づいて前記同定対象物質を同定する、付記22に記載の情報処理プログラム。
(付記24)
前記物質同定処理において前記コンピュータが、
前記第1の質量スペクトルにおける前記特徴データと、前記第2の質量スペクトルにおける前記特徴データとの間のコサイン類似度に基づいて、前記同定対象物質を同定する、付記22又は23に記載の情報処理プログラム。