(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022177799
(43)【公開日】2022-12-01
(54)【発明の名称】化合物解析装置、方法及びプログラム、並びに予測モデルの構築方法
(51)【国際特許分類】
G16C 20/30 20190101AFI20221124BHJP
G01N 27/62 20210101ALI20221124BHJP
【FI】
G16C20/30
G01N27/62 D
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022065765
(22)【出願日】2022-04-12
(31)【優先権主張番号】P 2021084063
(32)【優先日】2021-05-18
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】504059429
【氏名又は名称】ヒューマン・メタボローム・テクノロジーズ株式会社
(74)【代理人】
【識別番号】100106518
【弁理士】
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100135703
【弁理士】
【氏名又は名称】岡部 英隆
(74)【代理人】
【識別番号】100199314
【弁理士】
【氏名又は名称】竹内 寛
(72)【発明者】
【氏名】田中 弥
(72)【発明者】
【氏名】山本 博之
【テーマコード(参考)】
2G041
【Fターム(参考)】
2G041CA01
2G041FA10
2G041GA09
2G041LA05
(57)【要約】
【課題】開裂する化合物の構造を解析し易くすることができる化合物解析装置及び方法を提供する。
【解決手段】化合物解析装置(5)は、化合物(1)の構造に関する情報を生成する装置であって、解析対象とする化合物構造を示す入力情報を取得する取得部(53,55,56)と、入力情報が示す化合物構造を解析する処理を実行する制御部(51)とを備える。制御部は、化合物中で互いに結合する第1及び第2の原子(41,42)による結合箇所の構造を示す構造特徴量に基づいて当該結合箇所を開裂するエネルギーを算出するように機械学習が行われた予測モデル(50)に、入力情報が示す化合物構造中の結合箇所を開裂するエネルギーを算出させ、予測モデルにより算出されたエネルギーに基づいて、入力情報が示す化合物構造中の結合箇所が開裂する傾向を示す解析情報(30)を生成する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
化合物の構造に関する情報を生成する化合物解析装置であって、
解析対象とする化合物構造を示す入力情報を取得する取得部と、
前記入力情報が示す化合物構造を解析する処理を実行する制御部とを備え、
前記制御部は、
化合物中で互いに結合する第1及び第2の原子による結合箇所の構造を示す構造特徴量に基づいて当該結合箇所を開裂するエネルギーを算出するように機械学習が行われた予測モデルに、前記入力情報が示す化合物構造中の結合箇所を開裂するエネルギーを算出させ、
前記予測モデルにより算出されたエネルギーに基づいて、前記入力情報が示す化合物構造中の結合箇所が開裂する傾向を示す解析情報を生成する
化合物解析装置。
【請求項2】
前記制御部は、
前記入力情報に基づいて、前記化合物構造中の結合箇所における前記第1及び第2の原子とその周囲の原子から当該結合箇所の構造特徴量を抽出して、
抽出した構造特徴量を前記予測モデルに入力する
請求項1に記載の化合物解析装置。
【請求項3】
前記制御部は、
前記入力情報が示す化合物構造がイオン化した状態に基づいて、前記化合物構造中の結合箇所から、開裂する結合箇所を選定し、
選定した結合箇所を開裂するエネルギーを前記予測モデルに算出させる
請求項1に記載の化合物解析装置。
【請求項4】
前記解析情報は、前記化合物構造において、前記予測モデルにより前記エネルギーを算出された結合箇所と、当該結合箇所が開裂する傾向とを対応付けて示す
請求項1に記載の化合物解析装置。
【請求項5】
前記解析情報は、前記化合物構造において前記結合箇所が開裂する傾向が高いほど当該結合箇所を強調して示す
請求項4に記載の化合物解析装置。
【請求項6】
前記予測モデルは、前記化合物構造がカチオンの状態から開裂するエネルギーを算出し、
前記構造特徴量は、前記第1及び第2の原子の特徴と、前記第1又は第2の原子に隣接する原子の特徴とを含む
請求項1に記載の化合物解析装置。
【請求項7】
前記予測モデルは、前記化合物構造がアニオンの状態から開裂するエネルギーを算出し、
前記構造特徴量は、前記第1及び第2の原子の特徴と、前記第1又は第2の原子に隣接する原子の特徴と、前記隣接する原子に隣接する原子の特徴とを含む
請求項1に記載の化合物解析装置。
【請求項8】
前記構造特徴量は、前記第1及び第2の原子の原子種、電子軌道及び部分電荷と、前記第1又は第2の原子に隣接する原子の原子種毎の個数とを含む
請求項1に記載の化合物解析装置。
【請求項9】
前記制御部は、前記算出されたエネルギーを参照して、前記化合物中の結合箇所が開裂したフラグメントの構造を示す情報を生成する
請求項1に記載の化合物解析装置。
【請求項10】
コンピュータにより化合物の構造に関する情報を生成する化合物解析方法であって、
前記コンピュータが解析対象とする化合物構造を示す入力情報を取得するステップと、
前記コンピュータの制御部が、化合物中で互いに結合する二原子による結合箇所の構造を示す構造特徴量に基づいて当該結合箇所を開裂するエネルギーを算出するように機械学習が行われた予測モデルに、前記入力情報が示す化合物構造中の結合箇所を開裂するエネルギーを算出させるステップと、
前記制御部が、前記予測モデルにより算出されたエネルギーに基づいて、前記入力情報が示す化合物構造中の結合箇所が開裂する傾向を示す解析情報を生成するステップと
を含む化合物解析方法。
【請求項11】
請求項10に記載の化合物解析方法をコンピュータの制御部に実行させるためのプログラム。
【請求項12】
化合物の開裂に関する予測モデルを構築する方法であって、
化合物中で互いに結合する二原子による結合箇所の構造を示す構造特徴量と、当該結合箇所を開裂するエネルギーとを含む学習データを準備するステップと、
前記学習データに基づく機械学習により、前記結合箇所に関する構造特徴量を入力すると当該結合箇所を開裂するエネルギーを算出するように予測モデルを構築するステップとを含む
予測モデルの構築方法。
【請求項13】
前記学習データを準備するステップにおいて、データベースに含まれる結合パターンを構造特徴量に基づきクラスタリングして、各クラスタの結像パターンを前記学習データに含める
請求項12に記載の予測モデルの構築方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば未知の化合物の化学構造を推定するための情報を生成する化合物解析装置、方法及びプログラム、並びに予測モデルの構築方法に関する。
【背景技術】
【0002】
例えばメタボローム解析における質量分析では、質量電荷比や移動時間あるいは保持時間の測定値が既知の物質と合致しない、構造不明の未知化合物が多量に検出されることがある。こうした未知化合物の構造推定においては、その試料を対象として断片化(フラグメンテーション)を行ってフラグメントスペクトルを測定するタンデム質量分析(MS/MS)が、広く用いられている。
【0003】
例えば、測定されたフラグメントスペクトルと、既存のデータベース上にある標準スペクトル、又は候補の化合物構造から理論予測される仮想スペクトル(非特許文献1,2参照)と比較から、対象とした化合物の構造を推定する場合がある。しかしながら、標準スペクトルは、測定環境に依存して敏感に変動し、且つその数にも限りがあるため、実用上、測定結果と完全に一致するものを見つけられる例は稀である。また、仮想スペクトルの予測は、現在研究が進められている段階であり、不完全であることも多い。未知化合物の構造を推定する際には、候補とする化合物構造と、測定されたフラグメントスペクトルとを対応付ける帰属を考慮する必要性が考えられる。
【0004】
非特許文献1は、化合物内のすべての結合を開裂対象としてフラグメントを生成し、そのフラグメントにスコア付けする方法を開示している。非特許文献2は、既存の標準スペクトルを用いて、ある結合の周辺環境からその結合が開裂する確率を機械学習で予測する方法を開示している。非特許文献3は、本願発明者の先行研究であり、分子内でプロトン化により開裂が予想される結合についての開裂エネルギーを、量子化学計算の数値シミュレーションによって求める方法を開示している。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】H. Tsugawa, et al, "Hydrogen Rearrangement Rules: Computational MS/MS Fragmentation and Structure Elucidation Using MS-FINDER Software," Anal. Chem., vol. 88, no. 16, pp. 7946-7958, 2016.
【非特許文献2】F. Allen, et al, "Competitive fragmentation modeling of ESI-MS/MS spectra for putative metabolite identification," Metabolomics, vol. 11, pp. 98-110, 2015.
【非特許文献3】W. Tanaka, et al, "Physicochemical Prediction of Metabolite Fragmentation in Tandem Mass Spectrometry," Mass Spectrom. (Tokyo), vol. 7, p. A0066, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1,2どちらの方法も、実際には測定されないようなフラグメントを多数、予測してしまう傾向がある。例えば、非特許文献2では、予測したフラグメントのうち実測に合致するものは30%程度である。本願発明者は、より現実的なフラグメントの予測を図るべく鋭意研究を重ねたところ、非特許文献3に開示した技術のみでは、例えば未知化合物の構造推定において、開裂し得る各種候補の化合物構造の解析を実現し難い困難が明らかとなった。
【0007】
本発明は、開裂する化合物の構造を解析し易くすることができる化合物解析装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明における化合物解析装置は、化合物の構造に関する情報を生成する装置であって、解析対象とする化合物構造を示す入力情報を取得する取得部と、入力情報が示す化合物構造を解析する処理を実行する制御部とを備える。制御部は、化合物中で互いに結合する第1及び第2の原子による結合箇所の構造を示す構造特徴量に基づいて当該結合箇所を開裂するエネルギーを算出するように機械学習が行われた予測モデルに、入力情報が示す化合物構造中の結合箇所を開裂するエネルギーを算出させ、予測モデルにより算出されたエネルギーに基づいて、入力情報が示す化合物構造中の結合箇所が開裂する傾向を示す解析情報を生成する。
【0009】
本発明における化合物解析方法は、コンピュータにより化合物の構造に関する情報を生成する方法である。本方法は、コンピュータが解析対象とする化合物構造を示す入力情報を取得するステップと、コンピュータの制御部が、化合物中で互いに結合する二原子による結合箇所の構造を示す構造特徴量に基づいて当該結合箇所を開裂するエネルギーを算出するように機械学習が行われた予測モデルに、入力情報が示す化合物構造中の結合箇所を開裂するエネルギーを算出させるステップと、制御部が、予測モデルにより算出されたエネルギーに基づいて、入力情報が示す化合物構造中の結合箇所が開裂する傾向を示す解析情報を生成するステップとを含む。
【0010】
本発明における予測モデルの解析方法は、化合物の開裂に関する予測モデルを構築する方法である。本方法は、化合物中で互いに結合する二原子による結合箇所の構造を示す構造特徴量と、当該結合箇所を開裂するエネルギーとを含む学習データを準備するステップと、学習データに基づく機械学習により、結合箇所に関する構造特徴量を入力すると当該結合箇所を開裂するエネルギーを算出するように予測モデルを構築するステップとを含む。
【発明の効果】
【0011】
本発明における化合物解析装置及び各方法によると、化合物中の結合箇所が開裂するエネルギーを予測することにより、開裂する化合物の構造を解析し易くすることができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施形態1に係る化合物解析装置の適用例を説明するための図
【
図3】化合物解析装置の動作の概要を説明するための図
【
図4】実施形態1に係る化合物解析装置の動作を例示するフローチャート
【
図5】実施形態1の化合物解析装置における予測モデルを説明するための図
【
図6】実施形態1における構造特徴量を規定する局所構造を説明するための図
【
図7】実施形態1における構造特徴量のデータ構造を説明するための図
【
図9】化合物解析装置におけるカチオン構造解析処理を例示するフローチャート
【
図10】化合物解析装置におけるカチオン構造解析処理を説明するための図
【
図11】予測モデルに入力される予測対象を例示するテーブル
【
図12】化合物解析装置における開裂傾向の可視化処理を例示するフローチャート
【
図13】予測モデルから出力される予測結果を例示するテーブル
【
図14】化合物解析装置における開裂傾向の可視化処理を説明するための図
【
図15】カチオン開裂時の水素移動を説明するための図
【
図16】実施形態1の化合物解析装置における予測モデル構築処理を説明するためのフローチャート
【
図17】予測モデルの学習データを説明するための図
【
図18】実施形態1における予測モデルの性能評価の結果を示すグラフ
【
図19】実施形態2に係る化合物解析装置の動作を例示するフローチャート
【
図20】実施形態2における構造特徴量のデータ構造を説明するための図
【
図22】アニオン開裂時の水素移動を説明するための図
【
図23】実施形態2における予測モデルの性能評価の結果を示すグラフ
【
図24】第1の変形例の化合物解析装置における開裂傾向情報の表示例を示す図
【
図25】第2の変形例の化合物解析装置における開裂傾向情報の表示例を示す図
【
図26】学習データ準備の変形例におけるカチオンの結合パターンのクラスタリング結果を例示するグラフ
【
図27】学習データ準備の変形例におけるアニオンの結合パターンのクラスタリング結果を例示するグラフ
【
図28】化合物解析装置の予測結果テーブルの変形例を示す図
【発明を実施するための形態】
【0013】
以下、添付の図面を参照して本発明に係る化合物解析装置、方法及びプログラム、並びに予測モデルの構築方法の実施の形態を説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。
【0014】
(実施形態1)
実施形態1では、化合物の構造推定を行う際の情報支援に適用可能な化合物解析装置の一例を説明する。
【0015】
1.構成
1-1.概要
本発明の実施形態1に係る化合物解析装置の概要について、
図1を用いて説明する。
図1は、本実施形態に係る化合物解析装置5の適用例を説明するための図である。
【0016】
図1の適用例では、本実施形態の化合物解析装置5が、対象化合物1の構造推定を行う解析者に対する情報支援に適用される例を示す。
図1では、推定対象とする未知の化合物1のフラグメントスペクトル10と、対象化合物1の化学構造を推定する際の候補とする化合物構造2とを例示する。フラグメントスペクトル10は、対象化合物1にタンデム質量分析(MS/MS)を行うことによって測定され、複数のピーク11を含む。フラグメントスペクトル10中の各ピーク11は、それぞれ対象化合物1の部分的な構造(フラグメント)に対応する。
【0017】
例えば解析者が、対象化合物1の化学構造を推定するためには、測定したフラグメントスペクトル10と標準/仮想スペクトルとの単純な比較だけでは不十分であり、推定結果の候補とする化合物構造2の確からしさの評価が必要である。この評価として、候補の化合物構造2の部分構造とフラグメントスペクトル10中のピーク11との対応付け、即ちフラグメントの帰属が実施される。
【0018】
図1では、推定候補の化合物構造2において破線を引いた結合の開裂により生じると予想されるフラグメントが、その質量電荷比を介して、フラグメントスペクトル10中のピーク11に対応付け(帰属)されている。帰属できるフラグメントが多ければ、対象化合物1の化学構造が候補とした化合物構造2である可能性が高いと評価できる。フラグメントの帰属は、例えば解析者が、候補の化合物構造2等のある分子内結合の周辺環境から、その結合の切れやすさ(開裂傾向)を予想することによって行われるといった高度に専門的な作業である。
【0019】
こうした作業は、化合物の断片化について専門的な知識や経験を要する。このため、フラグメントの帰属を行うことは高難度の作業であり、その上、帰属の過程を説明することは更に難しい。その結果、フラグメントスペクトル10から未知の対象化合物1を推定する際に、推定を行える解析者が限られる、推定結果が解析者に依って変動する、他者が推定結果を理解するのが困難になる等といった問題が生じる。
【0020】
そこで、本実施形態では、例えば解析者にとって化合物構造2のフラグメント帰属の作業及び説明などを行い易くする情報支援を行う化合物解析装置5を提供する。
【0021】
1-2.装置構成
本実施形態に係る化合物解析装置5の構成について、
図2を用いて説明する。
図2は、化合物解析装置5の構成を例示するブロック図である。
【0022】
化合物解析装置5は、例えばPC(パーソナルコンピュータ)などの情報処理装置で構成される。化合物解析装置5は、
図2に示すように、制御部51と、記憶部52と、操作部53と、表示部54と、機器インタフェース55と、ネットワークインタフェース56とを備える。
【0023】
制御部51は、例えばソフトウェアと協働して所定の機能を実現するCPUやMPU等を含み、化合物解析装置5の全体動作を制御する。制御部51は、記憶部52に格納されたデータやプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。例えば、制御部51は、本実施形態に係るデータ解析方法を化合物解析装置5に行わせるための命令群を含んだプログラムを実行する。上記のプログラムは、インターネット等の通信ネットワークから提供されてもよいし、可搬性を有する記録媒体に格納されていてもよい。
【0024】
また、制御部51は、所定の機能を実現するように設計された専用の電子回路や再構成可能な電子回路などのハードウェア回路であってもよい。制御部51は、CPU、MPU、GPU、マイコン、DSP、FPGA、ASIC等の種々の半導体集積回路で構成されてもよい。
【0025】
記憶部52は、化合物解析装置5の機能を実現するために必要なプログラム及びデータを記憶する記録媒体であり、例えばハードディスク(HDD)や半導体記憶装置(SSD)を備える。例えば、記憶部52は、後述する予測モデル50を示す情報などを格納する。また、記憶部52は、例えば、DRAMやSRAM等の半導体デバイスを備えてもよく、データを一時的に記憶するとともに制御部51の作業エリアとしても機能する。
【0026】
操作部53は、ユーザが操作を行うユーザインタフェースである。操作部53は、例えば、キーボード、タッチパッド、タッチパネル、ボタン、スイッチ、及びこれらの組み合わせで構成される。操作部53は、ユーザによって入力される諸情報を取得する取得部の一例である。
【0027】
表示部54は、例えば、液晶ディスプレイや有機ELディスプレイで構成される。表示部54は、例えば操作部53から入力された情報など、種々の情報を表示する。
【0028】
機器インタフェース55は、化合物解析装置5に他の機器を接続するための回路(モジュール)である。機器インタフェース55は、所定の通信規格にしたがい通信を行う取得部の一例である。所定の規格には、USB、HDMI(登録商標)、IEEE1394、WiFi、Bluetooth(登録商標)等が含まれる。
【0029】
ネットワークインタフェース56は、無線または有線の通信回線を介して化合物解析装置5をネットワークに接続するための回路(モジュール)である。ネットワークインタフェース56は、所定の通信規格に準拠した通信を行う取得部の一例である。所定の通信規格には、IEEE802.3,IEEE802.11a/11b/11g/11ac等の通信規格が含まれる。
【0030】
以上の説明では、PC等で構成される化合物解析装置5の一例を説明した。化合物解析装置5はこれに限定されず、種々の情報処理装置(即ちコンピュータ)であってもよい。例えば、化合物解析装置5は、ASPサーバなどの一つ又は複数のサーバ装置であってもよい。また、コンピュータクラスタ或いはクラウドコンピューティングなどにおいて、本開示に係る情報処理が実行されてもよい。
【0031】
例えば、化合物解析装置5は、外部から通信ネットワークを介して入力された情報をネットワークインタフェース56により取得して、本実施形態の化合物解析方法を実行してもよい。化合物解析装置5は、ネットワークインタフェース56から外部に、化合物解析方法の解析結果を送信してもよい。
【0032】
2.動作
以上のように構成される化合物解析装置5の動作について、以下説明する。
【0033】
2-1.動作の概要
本実施形態に係る化合物解析装置5の動作の概要を、
図3を用いて説明する。
【0034】
本実施形態の化合物解析装置5は、例えば未知の対象化合物1の推定候補として想定される化合物構造2を示す化合物情報20を入力して、予め機械学習で構築された予測モデル50に開裂エネルギーを算出させる。本実施形態の化合物解析装置5は、予測モデル50の演算結果に基づき、入力された化合物情報20に応じた開裂傾向情報30を生成する。開裂傾向情報30は、化合物構造2における結合箇所毎の切れやすさ即ち開裂傾向を示す。
【0035】
開裂傾向情報30によると、入力した化合物情報20の化合物構造において、何れの結合箇所が開裂し易いのかが、例えば解析者にとって可視化される。解析者は、入力した化合物構造において開裂し易い結合箇所を認識でき、化合物構造がどのように断片化されるかを把握するようなことができる。このように、本実施形態の化合物解析装置5は、候補とする化合物構造2において開裂傾向を予測および可視化することにより、解析者がフラグメントの帰属を行い易くなる情報支援を実現することができる。
【0036】
ここで、非特許文献1,2の開示技術は、フラグメントのスコアや生成確率を複雑なモデルで算出しており、こうして予測された仮想スペクトル等は、候補化合物の構造に対するフラグメント帰属の情報支援に適用し難い。これに対して、本実施形態の化合物解析装置5は、化合物構造2における開裂傾向を定量的に表すと考えられる開裂エネルギーを予測することにより、フラグメント帰属等に有用な情報支援を行うことができる。
【0037】
又、上述したフラグメント帰属時に検討されるような種々の化合物情報20の入力に応じて開裂傾向情報30を生成することは、非特許文献3の開示技術だけでは実現困難という課題があった。これに対して、本実施形態の化合物解析装置5は、機械学習で構築された予測モデル50を用いることにより、従来困難であった上記課題を解決する。以下、本実施形態の化合物解析装置5の動作の詳細を説明する。
【0038】
2-2.化合物解析の動作
本実施形態の化合物解析装置5において上記の情報支援が行われる化合物解析の動作について、
図4~5を用いて説明する。本実施形態では、例えばESI(Electrospray ionization)-MS/MSにより、対象化合物1をカチオンにイオン化して開裂させる場合における化合物解析装置5の動作の一例を説明する。
【0039】
図4は、本実施形態に係る化合物解析装置5の動作を例示するフローチャートである。
図5は、化合物解析装置5における予測モデル50を説明するための図である。
【0040】
図4のフローチャートに示す処理は、例えば、解析者が、予め得られたMS/MSの結果のフラグメントスペクトル10からフラグメント帰属を行うにあたり、候補とする化合物構造を設定した状態で開始される。本フローの処理は、例えば化合物解析装置5の制御部51によって実行される。
【0041】
まず、本実施形態の化合物解析装置5において、制御部51は、入力される化合物情報20に基づいて、予測モデル50の入力とする特徴量を抽出するための処理としてカチオン構造解析処理を行う(S1)。
図5では、化合物構造2が陽イオン化されたカチオン構造4の一例を示している。カチオン構造解析処理(S1)では、カチオン構造4において開裂し得る結合箇所n毎に、結合箇所n周辺の局所的な特徴を示す構造特徴量fが抽出される。カチオン構造解析処理(S1)の詳細は後述する。
【0042】
次に、制御部51は、抽出された構造特徴量fに基づいて、予め機械学習により構築された予測モデル50により開裂エネルギーを算出する(S2)。
図5に例示するように、予測モデル50は、1つの結合箇所nに対応する構造特徴量fを入力すると、当該結合箇所nを開裂するための予測値の開裂エネルギーを出力する。ステップS2では、ステップS1で抽出された結合箇所n毎の構造特徴量fを順次、予測モデル50に入力して、各結合箇所nの開裂エネルギーが算出される。
【0043】
開裂エネルギーは、例えば開裂前にイオン化された化合物構造(カチオン構造)が有するエネルギーと、開裂後の各フラグメントが有するエネルギーとの間の差分のエネルギーで規定される。本実施形態では、カチオンの開裂エネルギーを予測するように機械学習によって予測モデル50を構築する。予測モデル50の詳細については後述する。
【0044】
次に、制御部51は、算出された各開裂エネルギーに基づいて、化合物情報20が示す化合物構造において開裂傾向を可視化するための処理を行う(S3)。開裂傾向は、化合物構造における各種の結合箇所nが開裂し易いかどうかを示す。結合箇所nは、開裂エネルギーが小さいほど開裂し易い、即ち開裂傾向が高いこととなり、開裂エネルギーが大きいほど開裂し難い、即ち開裂傾向が低いこととなる。このように、開裂エネルギーは、開裂傾向を定量的に表す指標と考えられる。
【0045】
そこで、開裂傾向の可視化処理(S3)では、開裂エネルギーの大きさに応じて、対応する結合箇所nの表示態様を変化させるように、開裂傾向情報30を生成する。又、ステップS3では、その他にもフラグメント帰属に有用な各種情報が生成される。開裂傾向の可視化処理(S3)の詳細は後述する。
【0046】
制御部51は、例えば生成した開裂傾向情報30(S3)を表示部54等に出力すると、本フローチャートに示す処理を終了する。制御部51は、種々の化合物情報20が入力される毎に、ステップS1以降の処理を実行できる。
【0047】
以上の処理によると、入力された化合物構造2中でカチオン化して開裂し得る結合箇所nについて(S1)、予測モデル50により開裂エネルギーが算出され(S2)、その開裂傾向が可視化される(S3)。これにより、例えば、解析者が、フラグメント帰属の候補として所望の化合物構造2を入力すると、化合物構造2における開裂傾向を確認でき、フラグメント帰属などの情報支援を実現できる。
【0048】
上記のような情報支援を実現する上で、例えば非特許文献3に開示されるように、様々な結合箇所nの全ての開裂エネルギーを、それぞれ量子化学の数値計算によって求めることは、膨大な計算負荷のため実現困難である問題が、本願発明者により見出された。そこで、本実施形態では、開裂エネルギーの予測モデル50を機械学習により構築することで、量子化学の数値計算が行われていない結合箇所nの開裂エネルギーも予測できるようにして、上記の問題を解消している。
【0049】
2-2-1.予測モデルについて
本実施形態における開裂エネルギーの予測モデル50の詳細を以下、説明する。本実施形態の予測モデル50は、カチオン構造4の構造特徴量fを入力として、カチオン構造4の開裂エネルギーを算出する。予測モデル50の入力に設定される構造特徴量fについて、
図6~8を用いて説明する。
【0050】
図6は、本実施形態における構造特徴量fを規定する局所構造45を説明するための図である。本実施形態において、予測モデル50の入力に採用する構造特徴量fは、カチオンが開裂するメカニズムを考慮して、開裂する結合箇所n近傍の局所的な構造45の特徴を示すように規定される。
【0051】
図6に示すように、局所構造45は、開裂する結合箇所nを構成する2原子41,42、及びそれらに結合する原子43~44を含む。以下では、開裂する結合箇所nの両端の2原子41,42のうち、開裂前のイオン構造において荷電した側の原子41をサイド原子といい、反対側の原子42をルート原子という。又、サイド原子41に結合する各原子43をサイド隣接原子といい、ルート原子42に結合する各原子44をルート隣接原子という。
【0052】
図7は、本実施形態における構造特徴量fのデータ構造を説明するための図である。本実施形態において、カチオンの構造特徴量fは、局所構造45におけるルート原子42の特徴と、ルート隣接原子44の特徴と、サイド原子41の特徴と、サイド隣接原子43の特徴とを含む。カチオンの局所構造45の一例を
図7(A)に示す。
【0053】
図7(A)に例示する局所構造45において、ルート原子42は炭素であり、サイド原子41は窒素である。ルート隣接原子44は、1個の水素、1個の炭素及び1個の酸素を含む。サイド隣接原子43は、1個の水素及び2個の炭素を含む。ルート原子42は、(sp
3軌道により)各ルート隣接原子44と単結合で結合している。サイド原子41は、(sp
3軌道により)各サイド隣接原子43と単結合で結合している。こうした局所構造45の各種情報が、構造特徴量fに含まれ得る。
【0054】
図7(A)の例の局所構造45における構造特徴量fのデータを
図7(B)に例示する。構造特徴量fのデータ構造は、ルート原子42についての原子種、軌道、部分電荷及び隣接原子数と、サイド原子41についての原子種、軌道、部分電荷及び隣接原子数とを含む。
【0055】
本実施形態において、予測モデル50の入力とする構造特徴量fの局所構造45における各原子41~44は、所定の原子種群に含まれる1つの原子種にそれぞれ設定される。所定の原子種群は、例えばメタボローム解析の場合、水素、炭素、窒素、酸素、リン及び硫黄などと予め設定される。構造特徴量fのデータ構造において、ルート原子42及びサイド原子41の「原子種」は、上記の原子種群の中から、水素以外の原子種に設定される。
【0056】
「軌道」は、例えば「sp3」、「sp2」及び「sp」の中から、ルート原子42(又はサイド原子41)の原子種に応じて化学理論的に有り得る軌道の中から設定される。例えば、ルート原子42が炭素の場合、上記3種の軌道の何れも設定可能である一方、酸素の場合は「sp3」又は「sp2」に設定可能となる。
【0057】
例えばルート原子42の「軌道」は、ルート原子42がルート隣接原子44と結合する際の結合次数(の最大値)に対応している。例えばルート原子42が、高次の結合次数を有する場合に、何れのルート隣接原子44と高次の結合をしているのかは、特に構造特徴量fのデータ構造において管理されなくてもよい。サイド原子41についても以上と同様である。
【0058】
ルート原子42についての「部分電荷」は、ルート原子42自体の部分電荷と、ルート隣接原子44における水素(隣接水素)の部分電荷とを含む。ルート隣接原子44に隣接水素が複数在る場合、構造特徴量fのデータ構造には、例えば複数の隣接水素の部分電荷の合計値が格納される。サイド原子41についての「部分電荷」も同様に、サイド原子41自体の部分電荷と、サイド隣接原子43における隣接水素の部分電荷とを含む。
【0059】
ルート原子42についての「隣接原子数」は、ルート隣接原子44中の隣接水素以外の原子種毎の個数を含む。サイド原子41についての「隣接原子数」は、サイド隣接原子43中の隣接水素以外の原子種毎の個数を含む。構造特徴量fのデータ構造において、隣接水素の個数は、明示的には格納されていないが、実質的には他に格納された情報(隣接原子数、原子種など)から特定可能である。
【0060】
以上のような構造特徴量fにおいて、「軌道」等によると、機械学習に必要なパターン数を抑えることができる。すなわち、本実施形態では、二重結合等の有無と隣の原子種毎の個数を考慮する一方、敢えて考慮しない情報も意図して構造特徴量fを管理している。例えば、隣接原子に炭素と酸素が1つずつだった場合に、炭素と酸素のどちらと二重結合しているのかは考慮していない。このため、例えば隣接基(=O、-CH3など)を別個に管理する場合よりもパターン数を少なく済ませて、機械学習の効率性を良くできる。
【0061】
又、本実施形態の構造特徴量fにおける「軌道」によると、隣接するヘテロ原子の電子対供与の可否を予測に反映することができる。例えば、ルート原子がsp軌道であった場合、隣接原子が窒素であってもsp2軌道やsp3軌道の場合と比べてエネルギーを下げる寄与が小さくなる傾向がある。本実施形態の構造特徴量fでは、「軌道」の管理によりこうした傾向を反映でき、単に隣接原子が何であるかのみを考慮する場合よりも正確な予測を実現できる。
【0062】
また、本実施形態の構造特徴量fにおける「部分電荷」によると、局所構造45に直接、含まれない周辺構造の寄与を或る程度、取り込むことができる。例えば、隣接原子が炭素であった場合に、その炭素がメチル基(CH3)なのかカルボキシル基(COOH)なのかは、局所構造45には現れない。しかし、これらの違いによって部分電荷の値は変動することから、構造特徴量fの「部分電荷」により、局所構造45では見えていない部分の影響も、機械学習による予測に取り入れることができる。
【0063】
以上のような本実施形態の構造特徴量fは、カチオンの開裂メカニズムを考慮することにより設定された。以下、この点について
図8を用いて説明する。
【0064】
図8は、カチオンの開裂メカニズムを例示する図である。
図8(A)は、開裂前のカチオンを例示する。
図8(B)は、
図8(A)のカチオンが開裂した後の状態を例示する。
図8(C)は、
図8(B)から安定化した開裂結果のフラグメントを例示する。
【0065】
カチオンにおいては、
図8(A)に示すように、サイド原子41が、開裂前に正の電荷を有し、開裂の始点となる(即ち始点原子を構成する)。結合箇所nの開裂により、サイド原子41とルート原子42との間で電荷が移動する。サイド原子41は、結合箇所nを介してルート原子42から電子を取り込み、ルート原子42が正に荷電することとなる(
図8(B))。
【0066】
その後、例えば
図8(B)に示すように、ルート原子42は、ルート隣接原子44のうちの非共有電子対を有する原子(以下「安定化原子」という)43aから、電子の供与を受ける。これにより、
図8(C)に示すように、開裂後に安定化したフラグメントが得られる。このように、カチオンの開裂メカニズムにおいては、開裂後にルート原子42を安定化させる安定化原子44aが、ルート原子42の隣に存在することが考えられる。
【0067】
以上のようなカチオンの開裂メカニズムに基づいた開裂エネルギーの予測の機械学習を実現するべく、本実施形態の予測モデル50の入力とする構造特徴量fにおいては、上述したように、ルート原子42及びサイド原子41、並びにこれらに隣接する原子43,44の情報を含めている。機械学習よる予測モデル50の構築方法については後述する。
【0068】
以上のような予測モデル50は、種々の学習器で構成可能であり、例えば、回帰木などの決定木を含んだ各種の決定木モデルで構成されてもよい。こうした決定木の予測モデル50によると、以下のように開裂エネルギーの予測に適した効果を得ることができる。
【0069】
すなわち、開裂エネルギーの予測においては、構造特徴量における一変数の値に応じて他の変数の作用が変わる場合が考えられる。例えば、カチオンの結合パターンにおいては、sp混成軌道以外のルート原子42に窒素が結合すると開裂エネルギーが低下する一方、sp混成軌道のルート原子42においては結合する窒素の有無に開裂エネルギーが殆ど依存しないといった傾向がある。
【0070】
上記のような傾向について、決定木に基づく予測モデル50は、各変数でデータを分割して当てはまる値を予測することから、例えばルート原子42の軌道が「sp」でない場合のみルート隣接原子44の窒素数に注目するといった条件分けを学習可能である。このように、開裂エネルギーの傾向に応じた予測を実現し易くするために決定木の予測モデル50は有利である。
【0071】
2-2-2.カチオン構造解析処理
図4のステップS1におけるカチオン構造解析処理について、
図9~11を用いて説明する。
図9は、化合物解析装置5におけるカチオン構造解析処理(S1)を例示するフローチャートである。
【0072】
まず、制御部51は、各種取得部53,55,56を介して、開裂傾向の予測対象とする化合物構造2を示す化合物情報20を入力する(S11)。化合物情報20は、例えば分子構造式などの化学式を規定するデータを含む入力情報の一例である。
図10(A)に、入力した化合物構造2を例示する。
【0073】
ステップS11において、制御部51は、例えば
図10(A)に示すように、入力した化合物構造2における各結合箇所nに識別番号n1~n8を付与して、個々の結合箇所nを識別する。ユーザは、例えば操作部53を操作することにより、化合物情報20を化合物解析装置5に入力できる。また、化合物情報20は、機器インタフェース55或いはネットワークインタフェース56を介して取得されてもよい。
【0074】
次に、制御部51は、入力した化合物情報20に基づいて、化合物構造2のプロトン化により生成可能な全てのカチオン構造4をデータ生成する(S12)。
図10に、ステップS12で生成されるカチオン構造4を例示する。
【0075】
図10(B)~(E)は、
図10(A)の化合物構造2から生成されるカチオン構造を例示する。例えば、
図10(B)は、化合物構造2における窒素原子に水素イオンが付加されたカチオン構造4を示す。同様に、
図10(C),(D),(E)は、それぞれ化合物構造2において二重結合を有する酸素原子、単結合を有する酸素原子、及び硫黄原子に水素イオンが付加されたカチオン構造4を示す。
【0076】
ステップS12において、制御部51は、例えば入力の化合物構造2に含まれる原子において化学理論的に水素イオンを付加可能な原子を逐次検知して、検知された各原子に水素イオンを付加して得られるカチオン構造4を網羅的に生成する。上記検知の対象となる原子は、例えば窒素原子、酸素原子、硫黄原子及びリン原子である。
【0077】
次に、制御部51は、生成したカチオン構造4に基づいて、入力の化合物構造2に含まれる結合箇所n1~n8から、開裂エネルギーの予測対象とする結合箇所nを選定する(S13)。
【0078】
ステップS13において、制御部51は、例えば各カチオン構造4に含まれる結合箇所n1~n8において、水素イオンが付加された原子(サイド原子41)と炭素原子(ルート原子42)との間の単結合の結合箇所nを予測対象として選定する。また、化合物構造2にリン酸基または硫酸基が含まれる場合、上記ルート原子42は、炭素原子の代わりにリン原子または硫黄原子であってもよい。
【0079】
例えば、
図10(B)の例では、水素イオンが付加された窒素原子の両隣の結合箇所n1,n2が、予測対象として選定される。一方、
図10(C)の例において、水素イオンが付加された酸素原子と他の原子との間の結合は二重結合のみであり、その結合箇所n4は予測対象に選定されない。同様に、
図10(D)の例から結合箇所n5が選定され、
図10(E)の例から結合箇所n7,n8が選定される。
【0080】
次に、制御部51は、開裂エネルギーの予測対象として選定した結合箇所n毎に、当該結合箇所nの周囲の局所構造から構造特徴量を抽出する(S14)。例えば、制御部51は、
図10の例における予測対象の結合箇所nからの構造特徴量fの抽出結果として、
図11に示すように予測対象テーブルD1を生成する。
【0081】
予測対象テーブルD1は、予測対象として選定された結合箇所nの識別番号と、当該結合箇所nから抽出された構造特徴量fとを関連付けて記録する。ステップS14において、制御部51は、1つの結合箇所nの構造特徴量fを抽出するにあたり、例えば対応するカチオン構造4に基づいて、当該結合箇所nに対応するルート原子42及びサイド原子41といった局所構造45(
図6)を認識する。
【0082】
例えば、制御部51は、
図10(D)のカチオン構造4に基づいて、結合箇所n5における原子種「C」のルート原子及び原子種「O」のサイド原子を認識する(
図11)。制御部51は、認識したルート原子が有する二重結合から、その電子軌道「sp
2」を特定し、隣接原子数として(水素以外の)原子種毎にルート原子隣接原子の個数を計数する。さらに、制御部51は、各種原子種に応じた電気陰性度に基づいて、ルート原子及び隣接水素の部分電荷を算出する。また、制御部51は、サイド原子についての電子軌道、隣接原子数、及び部分電荷も、上記ルート原子の場合と同様に抽出する。
【0083】
制御部51は、全ての予測対象の構造特徴量の抽出結果として予測対象テーブルD1を生成する(S14)と、カチオン構造解析処理(
図4のS1)を終了して、ステップS2に進む。
【0084】
以上のカチオン構造解析処理(
図4のS1)によると、入力される化合物構造2が、カチオンを経由して断片化される際に開裂し得ると想定される結合箇所nを網羅的に選定し(S11~S13)、選定された各結合箇所nについての構造特徴量fがそれぞれ抽出できる(S14)。続く
図4のステップS2において、制御部51は、予測対象として選定された各結合箇所nの構造特徴量fのデータを予測モデル50に順次入力して、各々の結合箇所nに対する予測結果の開裂エネルギーをそれぞれ算出する(
図13参照)。
【0085】
以上で説明したカチオン構造解析処理(S1)は一例であり、適宜変更されてもよい。例えば、ステップS11において入力された化合物情報20がカチオン等の荷電した状態を示す場合、ステップS12において制御部51は、入力のカチオンから水素イオンを移動させたカチオン構造4を生成してもよい。
【0086】
上記のステップS11においては、炭素間の結合が開裂エネルギーの予測対象として選定されてもよい。例えば、制御部51は、「C-C+=O」といった特定の構造が含まれる場合は、その中の炭素間の単結合が予測対象として選定するようにしてもよい。炭素間結合の開裂は、普通は起こり難いと考えられるが、一酸化炭素の脱離は実測でよく見られる断片化の説明に重要である。こうした観点から、上記構造が含まれる場合は特別に考慮するような例外処理を、化合物解析装置5に予め設定可能である。
【0087】
2-2-3.開裂傾向の可視化処理
図4のステップS3における開裂傾向の可視化処理について、
図12~15を用いて説明する。
図12は、化合物解析装置5における開裂傾向の可視化処理(S3)を例示するフローチャートである。
【0088】
まず、制御部51は、
図4のステップS2において予測モデル50により算出された開裂エネルギーの予測結果を取得する(S30)。例えば、制御部51は、
図11の例の予測対象テーブルD1における結合箇所n毎の入力による予測モデル50の出力に基づいて、
図13に示すように予測結果テーブルD2を生成する。予測結果テーブルD2は、予測対象として選定した各結合箇所nの識別番号と、当該結合箇所nの構造特徴量fから予測モデル50が算出した開裂エネルギー(予測値)とを関連付けて記録する。
【0089】
制御部51は、予測モデル50による開裂エネルギーの予測結果と、
図4のステップS1において入力された化合物情報20とに基づいて、化合物構造2に対応付けた開裂傾向情報30を生成する(S31)。例えば、制御部51は、入力の化合物構造2において開裂エネルギーの予測対象となった各結合箇所nに、算出された開裂エネルギーの大きさに応じた表示属性を付与する。
【0090】
上記の開裂傾向情報30の表示属性は、例えば、開裂エネルギーが小さいほど開裂傾向が大きいことを示すように、色情報などを割り当てる属性情報である。例えば表示属性は、黄色から緑色を介して青色に到る色相の範囲において、開裂エネルギーが小さいほど黄色に近い色情報を割り当て、開裂エネルギーが大きいほど青色に近い色情報を割り当てる。表示属性はこれに限らず、例えば上記とは異なる色情報であってもよいし、階調、模様、線幅または数値などであってもよい。
【0091】
また、制御部51は、開裂エネルギーの予測結果を参照して、例えば予測された開裂エネルギーが所定のしきい値以下の結合箇所nにおいて化合物構造2を開裂させたフラグメントの構造を示す情報を生成する(S32)。しきい値は、例えばフラグメントスペクトル10において測定可能に開裂が生じると想定される基準の値に設定される。ステップS32で生成されるフラグメント構造を
図14に例示する。
【0092】
図14は、
図13の例における5つの結合箇所n1,n2,n5,n7,n8の開裂結果のフラグメント構造61~65を示す。ステップS32において、制御部51は、例えば
図9のステップS12で生成したカチオン構造4(
図10)に基づいて、各々の開裂結果のフラグメント構造61~65を生成する。
【0093】
図14(A)は、
図10(B)のカチオン構造4における結合箇所n1の開裂結果のフラグメント構造61を示す。
図14(B)は、
図10(B)のカチオン構造4における結合箇所n2の開裂結果のフラグメント構造62を示す。
図14(C)は、
図10(D)のカチオン構造4における結合箇所n5の開裂結果のフラグメント構造63a,63bを示す。
図14(D),(E)は、それぞれ
図10(E)のカチオン構造4における結合箇所n7,n8の開裂結果のフラグメント構造64,65を示す。
【0094】
例えば
図14(A)に示すように、開裂する結合箇所n1が環内である場合、1個のフラグメント構造61が生成される。一方、例えば
図14(C)に示すように、開裂する結合箇所n5が環内でない場合、2個のフラグメント構造63a,63bが生成される。
【0095】
例えば、上述したしきい値が10kcal/molに設定されていれば、ステップS32において制御部51は、予測結果テーブルD2(
図13)に基づいて、結合箇所n1,n2,n7の開裂結果(
図14(A),(B),(D))は生成せずに、結合箇所n5,n8の開裂結果のフラグメント構造63a,63b,65(
図14(C),(E))を生成する。このように、開裂傾向が大きいと予測されるフラグメント構造63a,63b,65が選択的に生成されてもよい。
【0096】
図12に戻り、制御部51は、以上のような各種予測結果を示す情報を、例えば表示部54に表示させるように出力して(S33)、開裂傾向の可視化処理(
図4のS3)を終了する。
【0097】
以上の開裂傾向の可視化処理(
図4のS3)によると、予測モデル50による開裂エネルギーの予測結果に基づいて、入力の化合物構造2におけるどの結合箇所nが開裂し易いのか等を可視化することができる(S31)。
【0098】
さらに、入力の化合物構造2を開裂して得られるフラグメント構造61~65を生成することもできる(S32)。又、制御部51は、生成されたフラグメント構造61~65の各々を新たな入力として、
図4のステップS1~S3の処理を行ってもよい。これにより、多段階の断片化についての情報支援を行うことができる。こうした処理は、例えば、カチオン構造解析処理(S1)において、元の化合物構造2に代えて1つのフラグメント構造を入力し(
図9のS11)、入力のフラグメント構造が取り得るカチオン構造を生成する(S12)ことにより、上記と同様に実行できる。
【0099】
ステップS32において、カチオン構造4からフラグメント構造61~65を生成する際には、開裂前後における水素の移動が考慮されてもよい。カチオン開裂時の水素移動について、
図15を用いて説明する。
【0100】
図15(A)は、開裂前のカチオンを例示する。
図15(B)は、
図15(A)のカチオンが開裂した際に、水素移動が生じなかった場合のフラグメントを例示する。
図15(C)は、
図15(A)のカチオンが開裂した際に、水素移動が生じた場合のフラグメントを例示する。
【0101】
図15(A)では、カチオンの局所構造45に加えて、移動可能な水素原子46の一例を示している。本例の水素原子46は、カチオンの局所構造45においてルート原子42の側(より具体的にはルート隣接原子44の隣)に位置する。
【0102】
図15(B)の例では、水素原子46が特に移動せずに結合箇所nが開裂することにより、ルート原子42を含む側のフラグメントが荷電することとなる。一方、
図15(C)の例では、
図15(B)と同様の開裂時に、水素原子46が、ルート原子42側のフラグメントからサイド原子41側のフラグメントへ移動する。これにより、サイド原子41側のフラグメントが荷電することとなる。
【0103】
以上のような水素移動を考慮して、ステップS32において、制御部51は、例えば上述した水素原子46の移動がある場合(
図14(B),(D),(E))とない場合(
図14(A),(C)との双方のフラグメント構造を生成してもよい。
【0104】
例えば、ステップS32において、制御部51は、ルート原子42と荷電したサイド原子41の間の結合を開裂すると、水素の脱離に対応する中性化の処理を行ってもよい。中性化の処理は、ルート側のフラグメント構造においてルート隣接原子44いずれかとの結合次数を1つ上げ、当該隣接原子から1つの水素イオンを1つ除く。当該隣接原子としては、例えばヘテロ原子(水素がなくても良い)が優先して選ばれ、ヘテロ原子がない場合は少なくとも1つの水素が付いた炭素原子が選ばれる。
【0105】
上記の中性化の処理においては、例外的にイオンのままで維持する場合があってもよい。例えば、隣接ヘテロ原子が水素を持たない場合、あるいは結合次数を増やす隣接原子がない場合は、水素イオンの除去は行わず、そのフラグメント構造をイオンのままとしてもよい(
図14(A),(C)参照)。また、ルート側のフラグメント構造が「C-C
+=O」を含む場合は、その構造のまま維持してもよい。こうした各種の例外は、予め化合物解析装置5に予め設定可能である。
【0106】
こうした中性化の処理の結果に基づいて、制御部51は、例えば中性化したルート側のフラグメント構造と、開裂後そのままのサイド側のフラグメント構造とをそれぞれ出力する(S32)。ルート側のフラグメント構造は、中性化の処理の例外に該当した場合は、カチオンのままで出力される。又、開裂した結合が環の一部だった場合は、特にサイド側に当たるフラグメント構造は出力されず、1つのフラグメント構造が出力される。
【0107】
以上のように得られる各種のフラグメント構造を新たな入力として
図4のステップS1~S3の処理を行う際に、中性のフラグメント構造には、上述したステップS1以降の処理がそのまま適用できる。又、カチオンのフラグメント構造には、カチオン構造解析処理(S1)において、
図9のステップS12の処理を省略して、既にイオン化された部分についてその後の処理を適用できる。
【0108】
また、上述したステップS32におけるフラグメントの生成では、水素移動がある場合とない場合との間の偏りは無視でき、双方が同程度の比率で生成されることとしてもよい。この場合、予測モデル50における予測結果の開裂エネルギーは、水素移動の有無を考慮せずに算出可能である。また、上記の偏りを無視しない場合、水素移動の有無に応じて開裂エネルギーが別々に予測されるように、予測モデル50が構築されてもよい。
【0109】
2-3.予測モデルの機械学習
以上のような化合物解析装置5における予測モデル50を、機械学習により構築する方法について、
図16~18を用いて説明する。
【0110】
図16は、本実施形態の化合物解析装置5における予測モデル構築処理を説明するためのフローチャートである。以下では、化合物解析装置5の制御部51が、
図16のフローに示す処理を実行して、予測モデル50を構築する例を説明する。なお、予測モデル構築処理(
図16)は、特に化合物解析装置5に限らず、別の各種コンピュータの制御部において行われてもよい。
【0111】
まず、制御部51は、例えば学習用の結合パターンを取得する(S41)。結合パターンは、学習対象とする様々な化合物中に存在し得る結合周辺の構造の組み合わせを示す。ステップS41~S43は、予測モデル50の機械学習に用いる学習データD3(
図17)を準備するための処理の一例である。
【0112】
例えば、制御部51は、化学理論的に有り得る原子の組み合わせに基づき局所構造45(
図6)を生成することにより、学習用の結合パターンを取得する(S41)。結合パターンは、例えば局所構造45を含む(イオン化された)分子モデルに対応する。分子モデルにおいて、局所構造45外の部分には、分子(又はイオン)としてモデル化するための隣接基が適宜、配置される(例えば各隣接原子43,44の隣に水素原子を配置する等)。
【0113】
例えばステップS41において、制御部51は、上述した所定の原子種群(水素を除く)からサイド原子41及びルート原子42の原子種を設定し、さらに各原子41,42の結合次数を設定する。制御部51は、サイド原子41の設定に基づき、上記原子種群から可能な範囲でサイド隣接原子43の原子種と各々の結合の種類を含むサイド原子41側の構造パターンを生成し、上記と同様にルート原子42の設定に基づきルート原子42側の構造パターンを生成する。制御部51は、サイド原子41側の構造パターンとルート原子42側の構造パターンと組み合わせて、結合パターンを生成する。こうした処理において、例えばリンまたは硫黄等の特定の原子種については、特有の構造を考慮した例外処理が適宜含められる。
【0114】
ステップS41において、制御部51は、理論的に可能な全ての結合パターンを学習用の結合パターンとして取得しなくてよく、適宜サンプリングしてよい。ステップS41において取得される学習用の結合パターンの総数Mは、例えば150以上である。
【0115】
次に、制御部51は、取得した結合パターン毎に量子化学の数値計算シミュレーションを行うことにより、各結合パターンの開裂エネルギーを算出する(S42)。ステップS42において結合パターンの開裂エネルギーを算出する方法としては、公知の手法を適用可能である(例えば非特許文献3参照)。
【0116】
例えばステップS42において、制御部51は、1つの結合パターン毎に、まず、開裂前のカチオンの分子モデルと、開裂後のフラグメントの分子モデルとを生成する。量子化学の数値計算シミュレーションにおいて、各分子モデルの構造が最適化され、最適化された構造が有するエネルギーを計算される。制御部51は、開裂前の構造のエネルギーと開裂後の構造のエネルギーとの間の差分を、開裂エネルギーとして算出する。以上の計算は、学習用の結合パターンの各々に対して行われる。
【0117】
制御部51は、取得した学習用の結合パターン及び算出した開裂エネルギーに基づいて、例えば
図17に示すように学習データD3を生成する(S43)。制御部51は、各結合パターンにおける局所構造から構造特徴量を抽出し、結合パターン毎に、抽出した構造特徴量と、算出した開裂エネルギーとを互いに関連付ける。学習データD3は、例えば予測モデル50の訓練用のデータD31とテスト用のデータD32との双方を含む。訓練データD31における結合パターンの個数は、例えば120以上である。
【0118】
制御部51は、生成した学習データD3に基づいて、各結合パターンの構造特徴量を入力とし、開裂エネルギーを出力とする機械学習を実行して、予測モデル50を構築する(S44)。ステップS44おいては、学習データD3における訓練データD31が予測モデル50の機械学習に用いられる。機械学習のアルゴリズムは、各種の教師あり学習のアルゴリズムであってもよく、例えばランダムフォレスト又は勾配ブースティング等であってもよい。
【0119】
制御部51は、予測モデル50の学習結果(S44)を示す情報を、例えば記憶部52に格納して、本フローに示す処理を終了する。
【0120】
以上の予測モデル構築処理によると、結合パターンの構造特徴量を入力するとその結合パターンの開裂エネルギーを算出する予測モデル50を構築(即ち生成)することができる。
【0121】
以上のように機械学習によって構築された予測モデル50によると、量子化学の数値計算を行っていない結合パターンの局所構造45に対しても、開裂エネルギーを予測値として算出することが可能になる。ここで、量子化学シミュレーションによる開裂エネルギーの数値計算を膨大な数の結合パターンに対して網羅的に行うことは、現実的な観点から計算負荷が過大となり、実現し難いという困難がある。これに対して、本実施形態の予測モデル50によると、開裂エネルギーの数値計算は学習用の結合パターンだけに抑えられ、上記の困難を回避して様々な結合箇所の開裂エネルギーの予測を実現可能である。
【0122】
本願発明者は、上記のような方法により本実施形態における(カチオンの開裂エネルギーの)予測モデル50を構築して、その性能を評価した。
図18は、本実施形態における予測モデル50の性能評価の結果を示すグラフである。
【0123】
図18において、横軸は上述した量子化学の数値計算による開裂エネルギーの計算値を示し、縦軸は予測モデル50により出力される予測値を示す。
図18の例では、訓練データD31及びテストデータD32双方の計算値及び予測値を示す。
【0124】
本例において、学習データD3は493種の結合パターンを含み、そのうち394種を訓練データD31とし、99種をテストデータD32とした。訓練データD31を学習した予測モデル50は、
図18に示すように、訓練データD31とテストデータD32どちらに対しても、計算値に精度良く適合する予測を与えた。この場合の決定係数R
2は、訓練データD31で「0.993」であり、テストデータD32で「0.962」であった。このことからも、予測モデル50は、精度良く適合していることが確認できた。
【0125】
図16に戻り、上記のステップS41では、学習用の結合パターンが、理論的な組み合わせに基づき取得される例を説明したが、これに限らず、例えば外部のデータベース等に基づき取得されてもよい。
【0126】
例えばステップS42において、制御部51は、様々な化合物の構造に関する情報が蓄積された構造データベースにおいて化合物構造を走査して、化合物構造ごとに開裂し得る結合箇所を選出する。例えば、カチオンについて炭素原子同士ではない結合箇所が選出される。制御部51は、選定した結合箇所の結合パターンを順次、特徴量等で記録するようにテーブル化し、テーブルに既出の結合パターンが在ると記録をスキップする。こうした処理によると、理論的な組み合わせよりも現実的に存在する結合パターンに特化して、学習用の結合パターンを取得することができる。
【0127】
また、上記のような予測モデル構築処理においては、新たな結合パターンを追加して予測モデル50の追加学習が行われてもよい。これにより、予測モデル50による開裂エネルギーの予測精度を継続的に向上することができる。この際、上述した構造特徴量fのデータ構造は(
図7)、例えば各隣接原子43,44の隣以降の原子の情報を含むように拡張されてもよい。本実施形態における構造特徴量fのデータ構造によると、結合箇所nからの近さに応じた各種原子41~44の情報を管理することから、上記のような拡張も容易に行える。
【0128】
3.まとめ
以上のように、本実施形態において、化合物解析装置5は、対象化合物1等の化合物の構造に関する情報を生成する装置であって、各種取得部53,55,56と、制御部51とを備える。各種取得部53,55,56は、解析対象とする化合物構造2を示す入力情報の一例である化合物情報20を取得する。制御部51は、化合物情報20が示す化合物構造2を解析する処理を実行する。制御部51は、予測モデル50に、化合物情報20が示す化合物構造2中の結合箇所nを開裂するエネルギー即ち開裂エネルギーを算出させる(S2)。予測モデル50には、化合物中で互いに結合するサイド原子41(第1の原子)及びルート原子42(第2の原子)による結合箇所nの構造を示す構造特徴量に基づいて当該結合箇所nの開裂エネルギーを算出するように機械学習が行われてある。制御部51は、予測モデル50により算出された開裂エネルギーに基づいて、化合物情報20が示す化合物構造2中の結合箇所nが開裂する傾向を示す解析情報の一例である開裂傾向情報30を生成する(S3)。
【0129】
以上の化合物解析装置5によると、入力された化合物構造2における結合箇所nについて、予測モデル50によって開裂エネルギーを算出して、開裂傾向情報30が得られる。これにより、対象化合物1等の開裂する化合物の構造を解析し易くすることができる。
【0130】
本実施形態において、制御部51は、化合物情報20に基づいて、化合物構造2中の結合箇所nの二原子41,42とその周囲の原子43,44から当該結合箇所nの構造特徴量を抽出して(S1)、抽出した構造特徴量を予測モデル50に入力する(S2)。これにより、入力の化合物構造2から、予測モデル50による開裂エネルギーの予測を行うための情報が自動的に抽出され、対象化合物1等の構造解析を行い易くすることができる。
【0131】
本実施形態において、制御部51は、化合物情報20が示す化合物構造2がイオン化した状態の一例であるカチオン構造4に基づいて、化合物構造2中の結合箇所nから、開裂する結合箇所nを選定し(S12,S13)、選定した結合箇所nを開裂するエネルギーを予測モデル50に算出させる(S2、
図11参照)。これにより、化合物構造2において開裂し得る結合箇所nについて選択的に、開裂エネルギーが予測され、対象化合物1の断片化などの解析を行い易くできる。
【0132】
本実施形態において、開裂傾向情報30は、化合物構造2において、予測モデル50によりエネルギーを算出された結合箇所nと、当該結合箇所nが開裂する傾向とを対応付けて示す(
図3参照)。これにより、化合物構造2において何れの結合箇所nが開裂し易いか等が可視化され、例えばフラグメント帰属等の解析者にとって解析を行い易くすることができる。
【0133】
本実施形態において、開裂傾向情報30は、化合物構造2において結合箇所nが開裂する傾向が高いほど当該結合箇所nを強調して示してもよい。こうした強調表示は、例えば特定の色情報(例えば黄色)で行われてもよいし、他の手法で行われてもよい。開裂傾向情報30は、予測モデル50により算出された開裂エネルギーが小さいほど、対応する結合箇所nが開裂する傾向を高く示す各種の手法で表示可能である。
【0134】
本実施形態において、予測モデル50は、化合物構造2がカチオンの状態から開裂する開裂エネルギーを算出する(
図5参照)。構造特徴量は、サイド原子41及びルート原子42に関する特徴と、サイド原子41又はルート原子42に隣接する原子43,44の特徴とを含む。具体的に、構造特徴量は、サイド原子41及びルート原子42の原子種、電子軌道及び部分電荷と、サイド原子41又はルート原子42に隣接する原子43,44の原子種毎の個数とを含む(
図7参照)。こうした構造特徴量を予測モデル50の入力とすることにより、開裂エネルギーを予測可能な予測モデル50を機械学習により実現できる。
【0135】
本実施形態において、制御部51は、算出された開裂エネルギーを参照して、化合物中の結合箇所nが開裂したフラグメントを示す情報を生成してもよい(S32,
図14参照)。こうした情報が、本実施形態の解析情報に含まれてもよい。
【0136】
本実施形態において、化合物解析装置5などのコンピュータにより化合物の構造に関する情報を生成する化合物解析方法が提供される。本方法は、コンピュータが解析対象とする化合物構造2を示す化合物情報20を取得するステップと、コンピュータの制御部51が、化合物中で互いに結合する第1及び第2の原子による結合箇所nの構造を示す構造特徴量に基づいて当該結合箇所nを開裂するエネルギーを算出するように機械学習が行われた予測モデル50に、化合物情報20が示す化合物構造2中の結合箇所nを開裂するエネルギーを算出させるステップと、制御部51が、予測モデル50により算出されたエネルギーに基づいて、化合物情報20が示す化合物構造2中の結合箇所nが開裂する傾向を示す開裂傾向情報30を生成するステップとを含む。
【0137】
本実施形態において、以上の化合物解析方法をコンピュータの制御部51に実行させるためのプログラムが提供されてもよい。こうした化合物解析方法によると、上記と同様に開裂する化合物の構造を解析し易くすることができる。
【0138】
本実施形態において、予測モデル50の構築方法は、化合物の開裂に関する予測モデル50を構築する方法である。本方法は、化合物中で互いに結合する二原子41,42による結合箇所nの構造を示す構造特徴量と、当該結合箇所nの開裂エネルギーとを含む学習データD3を準備するステップ(S41~S43)と、学習データD3に基づく機械学習により、結合箇所nに関する構造特徴量を入力すると当該結合箇所nの開裂エネルギーを算出するように予測モデル50を構築するステップ(S44)とを含む。本方法によると、予測モデル50を構築して、開裂する化合物の構造を解析し易くすることができる。
【0139】
(実施形態2)
実施形態1では、化合物解析装置5において予測モデル50にカチオンの開裂エネルギーを予測させる例を説明した。実施形態2では、予測モデル50にアニオンの開裂エネルギーを予測させる化合物解析装置5について説明する。
【0140】
図19は、実施形態2に係る化合物解析装置5の動作を例示する。本実施形態の化合物解析装置5において、制御部51は、実施形態1と同様の動作において、カチオン構造解析処理(
図4のS1)の代わりに、アニオンの開裂エネルギーを予測モデル50で予測するための構造特徴量を抽出する処理、即ちアニオン構造解析処理を行う(S1A)。
【0141】
アニオン構造解析処理において、制御部51は、
図9のステップS11~S14と同様の処理において、ステップS12でカチオン構造の代わりに陰イオン化したアニオン構造を生成し、アニオン構造中で開裂し得る結合箇所を選定する。例えば、荷電した原子の近傍においてOH基又はSH基に隣接する単結合が選定される。
【0142】
さらに、本実施形態において、制御部51は、予めアニオンの開裂エネルギーの予測を機械学習させた予測モデル50に、アニオン構造解析処理で抽出された構造特徴量を予測モデル50に入力して、開裂エネルギーを算出する(S2A)。
【0143】
図20は、実施形態2における構造特徴量faのデータ構造を説明するための図である。
図20(A)は、アニオンの局所構造45Aの一例を示す。
図20(B)は、
図20(A)の例の局所構造45Aにおける構造特徴量faのデータを例示する。
【0144】
アニオンの局所構造45Aにおいては、例えば
図20(A)に示すように、サイド原子41の隣の1原子(即ちサイド隣接原子43の1つ)43aが負に荷電する。このことから、本実施形態の予測モデル50において、アニオンの構造特徴量faは、実施形態1と同様の成分に加えて(
図7(B)参照)、例えば
図20(B)に示すようにサイド隣接原子43について「荷電原子種」を含む。「荷電原子種」は、荷電したサイド隣接原子43aの原子種を示す。
【0145】
さらに、本実施形態において、アニオンの構造特徴量は、例えば
図20(B)に示すように、ルート隣接原子44について「軌道数」と「隣接原子数合計」途を含む。「軌道数」は、全てのルート隣接原子44における各種軌道毎の個数を示す。「隣接原子数合計」は、各ルート隣接原子44の隣接原子数の、全ルート隣接原子44にわたる合計を示す。以上のような本実施形態の構造特徴量faは、アニオンの開裂メカニズムを考慮することにより設定された。以下、この点について
図21を用いて説明する。
【0146】
図21は、アニオンの開裂メカニズムを説明した図である。
図21(A)は、開裂前のアニオンを例示する。
図21(B)は、
図21(A)のアニオンが開裂した後の状態を例示する。
図21(C)は、
図21(B)から安定化した開裂結果のフラグメントを例示する。
【0147】
アニオンにおいては、
図21(A)に示すように、荷電したサイド隣接原子43aが始点原子を構成する。始点原子43aの非共有電子対からサイド原子41に電子が供与されると共に、結合箇所nが開裂して、負電荷がルート原子42へ移動する(
図21(B))。
【0148】
その後、例えば
図21(B),(C)に示すように、電荷がルート原子42からルート隣接原子44の隣の原子47(安定化原子)にまで移動することにより、フラグメントの安定化に到る。このように、アニオンの開裂メカニズムにおいては、開裂後にルート原子42を安定化させる安定化原子47が、ルート原子42の2つ隣に存在することが考えられる。こうしたアニオンの開裂メカニズムを反映して、本実施形態の構造特徴量faには、
図20(B)に示すようにルート原子42からルート隣接原子44の隣に到るまでの原子の特徴を含めている。
【0149】
図22は、アニオン開裂時の水素移動を説明するための図である。
図22(A)は、開裂前のアニオンを例示する。
図22(B)は、
図22(A)のアニオンが開裂した際に、水素移動が生じなかった場合のフラグメントを例示する。
図22(C)は、
図22(A)のアニオンが開裂した際に、水素移動が生じた場合のフラグメントを例示する。
【0150】
アニオンの場合、例えば
図22(A)~(C)に示すように、開裂前はサイド原子41側に位置した水素原子46が、開裂後にルート原子42側へ移動し得る。これにより、負に荷電するフラグメントが、サイド原子41側になったり、ルート原子42側になったりし得る。本実施形態では、こうしたアニオンの水素移動を考慮して、化合物解析装置5が動作してもよい。例えば、本実施形態のステップS3において、水素移動の影響を考慮したフラグメントの生成が行われてもよい(
図12のS32参照)。
【0151】
例えば、本実施形態の化合物解析装置5においては、アニオンの場合のフラグメント生成(S32)にて、制御部51は、まず、ルート原子42とサイド原子41間の結合を開裂させて、サイド原子41と荷電したサイド隣接原子(始点原子)43a間の結合次数を1つ上げる。この際、制御部51は、ルート原子42及びルート隣接原子44の環境に基づいて、電荷位置を決定して水素イオンを付加するといったアニオンの中性化の処理を行ってもよい。
【0152】
例えば、アニオンの中性化の処理は、ルート隣接原子44に二重結合した酸素または硫黄があった場合、ルート原子42から当該原子にまで負電荷を移動して、当該原子に水素イオンを付加する。一方、上記の原子がない場合、ルート原子42に水素イオンを付加する。こうしたアニオンの中性化の処理によっても、実施形態1と同様に、処理結果を含むフラグメント構造を出力できる。なお、アニオンの中性化の処理においては、負電荷を有する原子に水素イオンを付加すれば中性化できることから、フラグメント構造がアニオンのまま出力される例外はなくて良い。
【0153】
図23は、実施形態2における予測モデル50の性能評価の結果を示すグラフである。本願発明者は、カチオンの場合(
図23)と同様に、上記のようなアニオンの場合についても予測モデル50を構築して、その性能を評価した。この場合の学習データは、1000種の結合パターンを含み、そのうち800種を訓練データとし、200種をテストデータとした。この場合の予測モデル50も、
図23に示すように、訓練データとテストデータどちらに対しても、計算値に精度良く適合する予測を与えており、精度良い予測精度が得られていることが確認できた。
【0154】
以上のように、本実施形態の化合物解析装置5において、予測モデル50は、化合物構造2がアニオンの状態から開裂する開裂エネルギーを算出する。この場合の構造特徴量faは、サイド原子41及びルート原子42に関する特徴と、サイド原子41又はルート原子42に隣接する原子43,44の特徴と、ルート隣接原子44に隣接する原子の特徴とを含む。こうした構造特徴量faを予測モデル50の入力とすることにより、アニオンの開裂エネルギーを予測可能な予測モデル50を機械学習により実現できる。なお、構造特徴量faは、ルート隣接原子44に隣接する原子の特徴と同様に、サイド隣接原子43に隣接する原子の特徴を含んでもよい。
【0155】
(他の実施形態)
上記の各実施形態においては、開裂傾向情報30の表示例の一例(
図3)を示したが、特にこれに限らず、開裂傾向情報30は種々の形態で表示されてもよい。こうした変形例について、
図24,25を用いて説明する。
【0156】
図24は、化合物解析装置5の第1の変形例における開裂傾向情報30の表示例を示す。
図25は、第2の変形例における開裂傾向情報30の表示例を示す。本実施形態の化合物解析装置5は、例えば上記各表示例の開裂傾向情報30を表示部54に表示する。
【0157】
図24の例の開裂傾向情報30は、化合物の構造式上の各結合箇所に、開裂傾向を示す破線を有する。当該破線は、開裂エネルギーが小さいほど線幅を太く設定され、線幅が太いほど開裂し易い開裂傾向を示す。
図25の例の開裂傾向情報30は、化合物の構造式上の各結合の線幅を、開裂傾向に応じて変化させている。本実施形態の化合物解析装置5においては、こうした様々な形態で開裂傾向情報30は表示可能である。
【0158】
上記の各実施形態において、化合物解析装置5により生成される解析情報の一例として開裂傾向情報30を説明した。本実施形態において、解析情報は開裂傾向情報30に限らない。例えば、ステップS3において制御部51は、解析情報の一例として予測結果テーブルD2のような情報を出力してもよい。この場合、開裂エネルギーの予測値の大きさにより、開裂傾向の小ささが示される。本実施形態の解析情報は、以上に限定されず、予測モデルにより算出された開裂エネルギーに基づいて、化合物構造中の結合箇所が開裂する傾向を示す各種の情報であってもよい。
【0159】
上記の各実施形態においては、水素移動を考慮したフラグメント生成(S32)について説明した。本実施形態において、水素移動を特に考慮せずにフラグメント生成が行われてもよい。例えば、ステップS32において、制御部51は、開裂対象の結合を除去すると、除去により空いた結合価を水素で補充する処理を行ってもよい。この際、上記補充だけでは開裂前後で水素の数が合わないため、制御部51は、水素の再配置をルール化してフラグメントの質量を計算したり、ルールに合わないフラグメントにはスコア計算時にペナルティを付けたりする処理を行ってもよい。又、上記のような空いた結合価を単純に水素で補充する処理は、明示的に行われる必要もなく、化合物構造を扱うソフトウェアにおいて公知の手法と同様に、自動的に補充されることとしてもよい。フラグメント生成における水素移動の扱いは、各種の公知手法を適用可能である。
【0160】
上記の各実施形態において、学習データD3を準備するステップの一例として
図16のステップS41~S43を例示した。本実施形態において、予測モデルの構築方法における学習データを準備するステップは、上記に限らず、例えば既存の学習データを外部から取得することによって行われてもよい。この場合、
図16のステップS41~S43の処理は省略可能である。
【0161】
また、本実施形態において、学習データD3の準備には、結合パターンのクラスタが考慮されてもよい。こうした変形例について、
図26,27を用いて説明する。
【0162】
図26は、学習データD3準備の変形例におけるカチオンの結合パターンのクラスタリング結果を例示する。
図27は、アニオンの結合パターンのクラスタリング結果を例示する。本実施形態の学習データD3を準備するステップにおいて、例えば制御部51は、外部の構造データベースから多数の結合パターンを収集して、局所構造の構造特徴量に基づきクラスタリングしてもよい。こうしたクラスタリングには、種々の手法が適用でき、例えばUMAP(Uniform Manifold Approximation and Projection)パッケージ(v0.4.6)及びHDBSCANパッケージ(v0.8.26)が適用できる。
【0163】
図26,27の縦軸および横軸は、上記手法により局所構造の各種変数が2次元化された2変数を示す。
図26,27において、グレーのドットは、それぞれ外部データベースから得られた結合パターンのサンプルを示し、十字線(黒線又は白線)は、学習データD3に採用された結合パターンを示す。又、各図中では、クラスタを構成する複数のドットをそれぞれ囲み枠で囲んでいる。なお、破線で結んだ囲み枠は互いに同じクラスタを示す。
【0164】
本実施形態の学習データD3は、上記のような各クラスタから結合パターンを選出することによって生成されてもよい。例えば
図26,27に示すように、各クラスタに含まれる結合パターンの個数は、様々である。そこで、本実施形態において、例えば制御部51は、1つのクラスタから最低5個など所定値以上の結合パターンを選出して、学習データD3に採用してもよい。これにより、結合パターンの個数が比較的少ないマイナーなクラスタにおいて特徴的な構造が、学習データD3即ち予測モデルの機械学習の対象から取りこぼされる事態を回避して、予測モデルが各種クラスタの特徴を機械学習により獲得し易くすることができる。
【0165】
以上のように、本実施形態における予測モデルの構築方法では、学習データを準備するステップにおいて、データベースに含まれる結合パターンを構造特徴量に基づきクラスタリングして、各クラスタの結合パターンを前記学習データに含めてもよい。これにより、予測モデルの学習の精度を向上できる。
【0166】
また、上記の各実施形態では、化合物解析装置5の適用例の一例を説明したが、化合物解析装置5の適用例は、特に上記に限定されない。例えば、本実施形態の化合物解析装置5は、構造推定の対象とする未知の化合物の候補となり得る多数の化合物構造に、スクリーニングや絞り込み、ランク付け等を行う用途に適用されてもよい。
【0167】
例えば、本実施形態において、化合物解析装置5の制御部51は、外部データベース等において分子式が等しい複数の化合物構造を取得して、各化合物構造を入力として
図4又は19と同様の処理を行って、各々の開裂エネルギーの予測結果を生成する。こうした予測結果テーブルD2の変形例を
図28に示す。
【0168】
図28に例示する予測結果テーブルD2は、
図14の例において入力の化合物構造2(
図3等)における各種結合箇所n1~n8に対応して、当該結合箇所nが開裂した際のフラグメント構造61~65と開裂エネルギーとを関連付けて管理する。予測結果テーブルD2におけるフラグメント構造61~65は、例えばSMILESといった文字列形式で表される。本変形例において、制御部51は、入力とする種々の化合物構造の各々について、例えば
図28に示すような予測結果テーブルD2を生成する。こうした予測結果テーブルD2は、本変形例の解析情報の一例である。本実施形態の化合物解析装置5によると、上記のように得られる各化合物構造の開裂エネルギーの予測結果(
図28)を用いることにより、実測のスペクトルとの整合性の観点から候補の化合物構造を絞り込んだり、候補としての尤度を示すランキングのスコアを算出したりすることができる。
【0169】
例えば、MS/MSの衝突エネルギーを変化させた複数の実測スペクトルにおいて、比較的に低い衝突エネルギーで強度が大きいフラグメント構造は、低い開裂エネルギーにより生成されたと推測される。又、比較的に高い衝突エネルギーで強度が大きいフラグメント構造は、高い開裂エネルギーにより生成されたと推測される。又、多段階の開裂過程に基づくため予測に表れないことも推測される。こうした推測にしたがって、実測スペクトルにおける各種ピークの質量電荷比に対応した開裂エネルギーに対してしきい値を設けるといった推測条件を設定して、予測結果テーブルD2と照合することにより、化合物構造の候補数を減らすことができる。
【0170】
上記の各実施形態では、化合物解析装置5をメタボローム解析に適用する例を説明したが、本実施形態の化合物解析装置5は、メタボローム解析に限らず、各種の化合物の構造解析に適用可能である。本実施形態において、解析対象の化合物は、代謝物に含まれるような有機化合物に限らない各種の有機化合物であってもよいし、無機化合物であってもよい。
【0171】
(態様のまとめ)
以下、本発明に係る各種の態様を例示する。
【0172】
第1の態様は、化合物の構造に関する情報を生成する化合物解析装置であって、解析対象とする化合物構造を示す入力情報を取得する取得部と、入力情報が示す化合物構造を解析する処理を実行する制御部とを備える。制御部は、化合物中で互いに結合する第1及び第2の原子による結合箇所の構造を示す構造特徴量に基づいて当該結合箇所を開裂するエネルギーを算出するように機械学習が行われた予測モデルに、入力情報が示す化合物構造中の結合箇所を開裂するエネルギーを算出させ、予測モデルにより算出されたエネルギーに基づいて、入力情報が示す化合物構造中の結合箇所が開裂する傾向を示す解析情報を生成する。
【0173】
第2の態様は、第1の態様の化合物解析装置において、制御部は、入力情報に基づいて、化合物構造中の結合箇所における第1及び第2の原子とその周囲の原子から当該結合箇所の構造特徴量を抽出して、抽出した構造特徴量を予測モデルに入力する。
【0174】
第3の態様は、第1又は第2の態様の化合物解析装置において、制御部は、入力情報が示す化合物構造がイオン化した状態に基づいて、化合物構造中の結合箇所から、開裂する結合箇所を選定し、選定した結合箇所を開裂するエネルギーを予測モデルに算出させる。
【0175】
第4の態様は、第1から第3の態様の何れかの化合物解析装置において、解析情報は、化合物構造において、予測モデルによりエネルギーを算出された結合箇所と、当該結合箇所が開裂する傾向とを対応付けて示す。
【0176】
第5の態様は、第4の態様の化合物解析装置において、解析情報は、化合物構造において結合箇所が開裂する傾向が高いほど当該結合箇所を強調して示す。
【0177】
第6の態様は、第1から第5の態様の何れかの化合物解析装置において、予測モデルは、化合物構造がカチオンの状態から開裂するエネルギーを算出し、構造特徴量は、第1及び第2の原子の特徴と、第1又は第2の原子に隣接する原子の特徴とを含む。
【0178】
第7の態様は、第1から第5の態様の何れかの化合物解析装置において、予測モデルは、化合物構造がアニオンの状態から開裂するエネルギーを算出し、構造特徴量は、第1及び第2の原子の特徴と、第1又は第2の原子に隣接する原子の特徴と、隣接する原子に隣接する原子の特徴とを含む。
【0179】
第8の態様は、第1から第7の態様の何れかの化合物解析装置において、構造特徴量は、第1及び第2の原子の原子種、電子軌道及び部分電荷と、第1又は第2の原子に隣接する原子の原子種毎の個数とを含む。
【0180】
第9の態様は、第1から第8の態様の何れかの化合物解析装置において、制御部は、算出されたエネルギーを参照して、化合物中の結合箇所が開裂したフラグメントの構造を示す情報を生成する。
【0181】
第10の態様は、コンピュータにより化合物の構造に関する情報を生成する化合物解析方法であって、コンピュータが解析対象とする化合物構造を示す入力情報を取得するステップと、コンピュータの制御部が、化合物中で互いに結合する二原子による結合箇所の構造を示す構造特徴量に基づいて当該結合箇所を開裂するエネルギーを算出するように機械学習が行われた予測モデルに、入力情報が示す化合物構造中の結合箇所を開裂するエネルギーを算出させるステップと、制御部が、予測モデルにより算出されたエネルギーに基づいて、入力情報が示す化合物構造中の結合箇所が開裂する傾向を示す解析情報を生成するステップとを含む。
【0182】
第11の態様は、第10の態様の化合物解析方法をコンピュータの制御部に実行させるためのプログラムである。
【0183】
第12の態様は、化合物の開裂に関する予測モデルを構築する方法であって、化合物中で互いに結合する二原子による結合箇所の構造を示す構造特徴量と、当該結合箇所を開裂するエネルギーとを含む学習データを準備するステップと、学習データに基づく機械学習により、結合箇所に関する構造特徴量を入力すると当該結合箇所を開裂するエネルギーを算出するように予測モデルを構築するステップとを含む予測モデルの構築方法である。
【0184】
第13の態様は、第12の態様の予測モデルの構築方法において、学習データを準備するステップにおいて、データベースに含まれる結合パターンを構造特徴量に基づきクラスタリングして、各クラスタの結像パターンを学習データに含める。
【符号の説明】
【0185】
1 対象化合物
2 化合物構造
20 化合物情報
30 開裂傾向情報
5 化合物解析装置
51 制御部
52 記憶部
53 操作部
54 表示部
55 機器インタフェース
56 ネットワークインタフェース