(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-03-18
(45)【発行日】2025-03-27
(54)【発明の名称】逆合成解析システム、逆合成解析装置、逆合成解析方法、及び、逆合成解析プログラム
(51)【国際特許分類】
G16C 60/00 20190101AFI20250319BHJP
【FI】
G16C60/00
(21)【出願番号】P 2025010917
(22)【出願日】2025-01-24
【審査請求日】2025-01-27
【早期審査対象出願】
(73)【特許権者】
【識別番号】518043977
【氏名又は名称】MI-6株式会社
(74)【代理人】
【識別番号】110002790
【氏名又は名称】One ip弁理士法人
(72)【発明者】
【氏名】吉田 拓未
(72)【発明者】
【氏名】エン イリン
【審査官】前田 侑香
(56)【参考文献】
【文献】特開平02-220176(JP,A)
【文献】米国特許出願公開第2024/0212796(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
G16C 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
1又は複数のコンピュータを備える逆合成解析システムであって、
前記コンピュータは、
分析対象の目的化合物
の入力を受け付ける入力情報受付部と、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、
分子構造の一部の削除、分子構造の一部に対するマスク、分子構造の一部を削除した状態の構造への変換、及び、分子構造の一部よりも単純な構造への変換のうちの1以上の処理により基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理部と、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定する解析部と、を備える逆合成解析システム。
【請求項2】
前記前処理部は、
前記基点化合物の分子構造内に同一構造の置換基が複数存在するか否かを判定し、
同一構造の置換基が複数存在すると判定した場合に、同一構造の複数の置換基のうち、少なくとも1つを削除することで、前記仮構造化合物を設定する、請求項1に記載の逆合成解析システム。
【請求項3】
前記前処理部は、
前記基点化合物の分子構造のうちから対称性を有する部位を特定し、
前記対称性を有する部位に含まれる少なくとも1つの置換基を削除することで、前記仮構造化合物を設定する、請求項1に記載の逆合成解析システム。
【請求項4】
前記前処理部は、
前記基点化合物の分子構造に含まれる置換基のうち、結合の切断を一時的に制限する反応制約置換基をマスクすることで前記分子構造の一部を簡略化し、前記仮構造化合物を設定する、請求項1~3のいずれかに記載の逆合成解析システム。
【請求項5】
前記入力情報受付部は、ユーザから前記反応制約置換基に設定する置換基の指定を受け付け、
前記前処理部は、前記基点化合物の分子構造のうちから、前記ユーザにより指定された前記反応制約置換基を特定し、前記反応制約置換基がマスクされた前記仮構造化合物を設定する、請求項4に記載の逆合成解析システム。
【請求項6】
前記前処理部は、前記反応制約置換基の候補となる部分構造のデータベースに基づいて、前記基点化合物の分子構造のうちから前記反応制約置換基を自動で特定し、前記反応制約置換基がマスクされた前記仮構造化合物を設定する、請求項4に記載の逆合成解析システム。
【請求項7】
前記解析部は、
前記マスクが施された前記仮構造化合物に対する逆合成解析で決定された中間化合物から、前記マスクを仮解除する処理を実行し、
前記マスクを外した状態で、前記中間化合物から次の合成経路を出力できるか否かを検証する、請求項4に記載の逆合成解析システム。
【請求項8】
前記解析部は、前記次の合成経路を出力できると判定した場合に、前記マスクを解除した状態で前記中間化合物に対する逆合成解析を行い、当該中間化合物の合成反応を決定する、請求項7に記載の逆合成解析システム。
【請求項9】
前記解析部は、前記次の合成経路を出力できないと判定した場合に、前記中間化合物に前記マスクを再適用して逆合成解析を行い、当該中間化合物の合成反応を決定する、請求項7に記載の逆合成解析システム。
【請求項10】
前記解析部によって決定された合成経路を表示部へ出力する表示制御部、をさらに備え、
前記表示制御部は、前記表示部に出力した合成経路上で、前記前処理によって簡略化した部位を提示する、請求項1~3のいずれかに記載の逆合成解析システム。
【請求項11】
分析対象の目的化合物
の入力を受け付ける入力情報受付部と、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、
分子構造の一部の削除、分子構造の一部に対するマスク、分子構造の一部を削除した状態の構造への変換、及び、分子構造の一部よりも単純な構造への変換のうちの1以上の処理により基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理部と、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定する解析部と、を備える逆合成解析装置。
【請求項12】
分析対象の目的化合物
の入力を受け付けることと、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、
分子構造の一部の削除、分子構造の一部に対するマスク、分子構造の一部を削除した状態の構造への変換、及び、分子構造の一部よりも単純な構造への変換のうちの1以上の処理により基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理を実行することと、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定することと、をコンピュータが実行する逆合成解析方法。
【請求項13】
分析対象の目的化合物
の入力を受け付けることと、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、
分子構造の一部の削除、分子構造の一部に対するマスク、分子構造の一部を削除した状態の構造への変換、及び、分子構造の一部よりも単純な構造への変換のうちの1以上の処理により基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理を実行することと、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定することと、をコンピュータに実行させるための逆合成解析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、化合物の合成経路を解析するための逆合成解析システム、逆合成解析装置、逆合成解析方法、及び、逆合成解析プログラムに関する。
【背景技術】
【0002】
特許文献1に示すように、逆合成解析により目的化合物の合成経路を立案する方法が知られている。逆合成解析では、目的化合物を出発点として、当該目的化合物の分子構造に含まれる結合を切断し、前駆体に分解する。このような前駆体への分解ステップを、生成される前駆体が市販薬などの入手可能な化合物に至るまで、繰り返すことで、目的化合物を得るための多段階の合成経路を立案する。このような逆合成解析を行う情報処理システムでは、既知の化学反応及び化合物などを学習させたニューラルネットワークなどの機械学習モデル及び強化学習による経路探索アルゴリズムが利用されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の逆合成解析技術では、目的化合物を段階的に分解していく過程において、実施不可能な化学反応が出力されたり、必要以上に複雑な合成経路が出力されたりするという問題があった。
【0005】
例えば、逆合成解析技術では、ワンステップ処理(1つの反応点に対して、当該反応点を生成する化学反応及び反応前の化合物を同定するというサイクルを繰り返す処理)が採用されていることが一般的であり、1ステップあたり1つの反応点の変化しか検出できないという制約がある。実際の化学反応では、1回の化学反応で複数の反応点が生じる場合があるが(例えば、1回の化学反応で前駆体に対して同一構造の置換基が複数付加される場合がある)、ワンステップ処理による逆合成解析技術では、このような化学反応を検出できず、必要以上に複雑な合成経路を出力することがあった。
【0006】
また、分子量の大きい化合物、環状構造を有する化合物などの複雑な構造を有する化合物の合成経路を決定しようとする場合には、置換基の反応性、立体障害、競合反応など化学反応に影響し得る様々な要因を考慮する必要がある。しかしながら、従来の逆合成解析技術では、有名な化学反応、実施頻度の高い化学反応などを優先して採用する傾向があり、目的化合物の構造にそぐわない化学反応を出力したり、実施不可能な化学反応を出力してしまったりすることがあった。
【0007】
本開示の例示的な実施形態の目的は、効率的に目的化合物の合成経路を探索できる逆合成解析システム、逆合成解析装置、逆合成解析方法、及び、逆合成解析プログラムを提供することである。
【課題を解決するための手段】
【0008】
本開示の一様態に関わる逆合成解析システムは、
分析対象の目的化合物を受け付ける入力情報受付部と、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理部と、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定する解析部と、を備える。
【0009】
逆合成解析システムが上記の特徴を有することで、逆合成解析における合成経路探索の効率化を図ることができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本開示における一実施形態に係わる逆合成解析システムの構成を例示する図である。
【
図2】
図2は、
図1に示す管理サーバのハードウェア構成を示すブロック図である。
【
図3】
図3は、
図1に示す管理サーバのソフトウェア構成を例示するブロック図である。
【
図4】
図4は、前処理の一実施例を説明するための図である。
【
図5】
図5は、前処理の他の実施例を説明するための図である。
【
図6】
図6は、前処理の他の実施例を説明するための図である。
【
図7】
図7は、前処理無しで逆合成解析を実施した場合の解析結果(比較例)を模擬的に示す図である。
【
図8】
図8は、逆合成解析結果の一実施例を示す図である。
【
図9】
図9は、前処理無しで逆合成解析を実施した場合の解析結果(比較例)を模擬的に示す図である。
【
図10】
図10は、逆合成解析結果の他の実施例を示す図である。
【
図11】
図11は、前処理無しで逆合成解析を実施した場合の解析結果(比較例)を模擬的に示す図である。
【
図12】
図12は、逆合成解析結果の他の実施例を示す図である。
【
図13】
図13は、本実施形態に係わる逆合成解析方法を例示するフローチャートである。
【
図14】
図14は、本実施形態に係わる逆合成解析方法を例示するフローチャートである。
【発明を実施するための形態】
【0011】
本開示の一実施形態に係わる逆合成解析システムを、図面を参照しつつ説明する。添付の各図面において、同一または類似の要素には同一または類似の参照符号及び名称が付され、実施形態の説明において同一または類似の要素に関する重複する説明は省略することがある。なお、各図面に示す内容は、あくまでも、本実施形態を説明するための例示であり、本実施形態を説明し易いように概略的に示す例示にすぎない。各図面の内容は、技術的に問題が生じない範囲内で改変したり、変更したりしてもよい。
【0012】
<システム概要>
本実施形態に係わる逆合成解析システムは、ユーザから最終生成物である目的化合物の入力を受け付けて、当該目的化合物に対する逆合成解析を実行し、市販薬などのユーザが入手可能な化合物から目的化合物に至るまでの合成経路を立案する情報処理システムである。
【0013】
<逆合成解析の概要>
逆合成解析システムで解析対象とする目的化合物は、主として有機化合物である。本システムにおいて逆合成解析は、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)などの所定のニューラルネットワークにより構築された機械学習モデル、及び/又は、モンテカルロ木探索などの強化学習を用いた探索アルゴリズムによって実行される。本システムで採用するニューラルネットワークのアーキテクチャは特に限定されず、線形モデル、ツリーモデルなど、ニューラルネットワーク以外の機械学習モデルを採用してもよい。また、逆合成解析用の機械学習モデルのための学習データも、特に限定されず、例えば、化合物データベース、化学反応データベース、又はこれらのデータベースに基づいて設計された教師ラベル付きの学習データなどが用いられてもよい。本システムで採用する機械学習モデルは、化合物の構造情報を入力として受け付け、化学反応の予測及び反応化合物(反応に用いられる化合物)を予測するモデルとして構成されていてもよい。また、機械学習モデルは、単一のモデルとして構成されていてもよいし、各予測を担当する複数のモデルを組み合わせて構成されていてもよい。なお、化学反応および反応化合物の予測は、機械学習を利用しない古典的演算処理により実行されてもよいが、本実施形態では機械学習モデルを使用することを想定することとする。また、本システムで採用する探索アルゴリズムは、機械学習モデルによって予測された化学反応及び反応化合物を用いて合成ステップ数などの報酬関数に基づき経路探索を行う。なお、探索アルゴリズムにはモンテカルロ木探索以外の強化学習、ベイズ最適化などの能動学習が採用されてもよく、その他、古典的な探索アルゴリズムが採用されてもよい。また、探索のための報酬関数も特に限定されない。
【0014】
本実施形態の逆合成解析システムでは、逆合成解析にあたって、まず、ユーザからターゲットとする目的化合物の入力を受け付ける。逆合成解析では、機械学習モデルと探索アルゴリズムによる化学反応と反応化合物の決定を1ステップとして、目的化合物の生成のために用いられる中間化合物がいずれも市販薬などの入手可能な化合物に至るまで当該ステップを繰り返すことで、目的化合物を合成するための一連の合成経路を立案する。逆合成解析のアルゴリズムは特に限定されず既知のアルゴリズムを採用できる。
【0015】
例えば、逆合成解析用の機械学習モデルは、化合物データベース、化学反応データベースなどを参照して、目的化合物に含まれるレトロン(所定の化学反応によって合成できる最小の部分構造)を探索することで、結合の切断箇所(すなわち化学反応)と、結合の切断によって分けられる化合物(すなわち原料化合物、中間化合物(前駆体)などの反応前の化合物)を決定する。なお、結合の切断によって生じる分子の断片をシントン(合成等価体)と称する。シントンは、あくまでも断片であって実在できないため、逆合成解析では、反応時にシントンの供給源となる反応化合物を化合物データベースのうちから決定する。本実施形態では逆合成解析で決定されるシントンに対応する化合物(反応剤)を「シントン化合物」と称する場合がある。
【0016】
最適な合成経路を出力する観点では、機械学習モデルとともに強化学習等で構築された探索アルゴリズムを用いることが好ましい。逆合成解析用の探索アルゴリズムは、機械学習モデルの出力を参照して、目的化合物を生成するための化学反応の候補を決定する。例えば、探索アルゴリズムは、機械学習モデルが出力した対象のステップの各候補化学反応および反応化合物に対して、さらに当該反応化合物を生成するための化学反応の候補(つまり、合成経路上で対象のステップよりも前のステップ)を機械学習モデルに基づいて決定する。一連の処理を複数回繰り返すことにより、目的化合物に対する合成経路の候補を算出する。そして探索アルゴリズムは、報酬関数を用いてそれらの経路を評価し、より高い報酬に繋がる合成経路を出力し得る化学反応および反応化合物を対象のステップでの化学反応として決定する。探索アルゴリズムは、上記のような処理を繰り返すことにより全体の合成経路を決定する。
【0017】
上述のような機械学習モデル及び/又は探索アルゴリズムにより1ステップの化学反応を決定した後、中間化合物(シントン化合物または反応化合物)のいずれか1つが、原料として入手困難である場合には、当該中間化合物を逆合成解析アルゴリズムへの入力データとして、次のステップの逆合成解析を実行し、当該中間化合物を生成する化学反応を探索する。本実施形態では、逆合成解析の各ステップで機械学習モデルへの入力データとなる目的化合物及び中間化合物を「基点化合物」と称することとする。また、原料として入手可能な中間化合物を、「登録化合物」と称することとする。登録化合物は、市販薬として登録されている化合物(市販化合物)であってもよいし、市販化合物でなくてもユーザが独自に管理又は保有しているものとして登録されている化合物(ユーザ登録化合物)であってもよいし、市販化合物及びユーザ登録化合物のうち在庫が存在する化合物(在庫化合物)であってもよい。
【0018】
逆合成解析では、所定のステップにおいて決定された中間化合物がいずれも登録化合物である場合に、「合成経路の探索成功」と判断する。そして、当該ステップを逆合成の最終ステップ(合成時には最初の化学反応となるステップ)として、目的化合物から最終ステップまでの一連の化学反応を示す「逆合成の系統樹」が出力される。上記のような、最終ステップ(中間化合物がいずれも登録化合物となるステップ)が見つけられないと、逆合成のステップを繰り返し続けることとなるが、ステップ数が増えすぎると、実用的な合成経路とはいえない。そのため、逆合成解析では、解析の条件として、探索時間、探索ステップ数、コストなどに所定の上限(探索の制限条件)を設け、当該条件に到達するまでに最終ステップを見出すことができなければ、「合成経路の探索失敗」として逆合成解析の演算処理を終了する。
【0019】
逆合成解析では、より少ないステップ数で効率的な合成経路を立案することが求められる。しかしながら、従来の逆合成解析システムでは、目的化合物の構造に含まれる反応点に対してワンステップ処理で一か所ずつ反応前の構造を同定していくため、単純な合成経路で済むはずの目的化合物に対して複雑な合成経路を出力してしまうことがあった。また、化学反応を探索する際に、有名な化学反応、実施頻度の高い化学反応等を優先するアルゴリズムが採用されている。このような優先する化学反応を設定しておく運用は、化学反応の探索を効率化するうえで有益な場合もあるが、目的化合物の構造にそぐわない化学反応を出力したり、実施不可能な化学反応を出力してしまったりする課題もある。
【0020】
本実施形態の逆合成解析システムでは、基点化合物に対して、当該基点化合物の分子構造の簡略化する前処理を施すことで、従来よりも効率的な合成経路の立案を実現している。以下、本実施形態の逆合成解析システムの詳細について説明する。
【0021】
<逆合成解析システムの構成要素>
図1に示されるように、本実施形態の逆合成解析システムは、管理サーバ1と、1以上のユーザ端末2と、を有する。管理サーバ1と、ユーザ端末2とは、ネットワークNWを介して通信可能に接続されている。本実施形態において、ネットワークNWは、主としてインターネットを想定するが、ネットワークNWはインターネットに限られず、例えば、公衆電話回線網、携帯電話回線網、無線通信網、イーサネット(登録商標)などにより構築されていてもよい。なお、
図1に示す、逆合成解析システムの構成は一例であり、ある構成が他の構成を兼ね備えていたり、他の構成が含まれていたりしてもよい。
【0022】
管理サーバ1は、逆合成解析に係わる処理を実行する情報処理装置(逆合成解析装置)であり、逆合成解析システムを提供する提供者により管理されていてもよい。管理サーバ1は、例えばワークステーション及びパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されていてもよい。管理サーバ1は、
図2に示すように、少なくとも、プロセッサ10、メモリ11、ストレージ12、送受信部13、入出力部14等を備え、これらはバス15を通じて相互に電気的に接続される。なお、図示された構成は一例であり、管理サーバ1は、これ以外の構成を有していてもよい。
【0023】
プロセッサ10は、管理サーバ1全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えばプロセッサ10はCPU(Central Processing Unit)および/またはGPU(Graphics Processing Unit)であり、ストレージ12に格納されメモリ11に展開されたプログラム等を実行して各情報処理を実施する。
【0024】
メモリ11は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリ、HDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ11は、プロセッサ10のワークエリア等として使用され、また、管理サーバ1の起動時に実行されるBIOS(Basic Input / Output System)、及び各種設定情報等を格納する。
【0025】
ストレージ12は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ12に構築されていてもよい。例えば、後述の記憶部120がメモリ11及び/又はストレージ12の記憶領域の一部に設けられていてもよい。
【0026】
送受信部13は、管理サーバ1が通信ネットワークを介してユーザ端末2等と通信を行うための通信インターフェースである。送受信部13は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)などの近距離通信インターフェース及び/又はUSB(Universal Serial Bus)端子等をさらに備えていてもよい。
【0027】
入出力部14は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
【0028】
バス15は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
【0029】
ユーザ端末2は、例えば、目的物質の研究開発を行う組織のユーザが使用する端末である。逆合成解析システムでは、ユーザがユーザ端末2を操作して、目的化合物の指定、逆合成解析の条件設定など各種入力操作が実行される。ユーザ端末2は、例えば、ワークステーション又はパーソナルコンピュータのような汎用コンピュータであってもよいし、スマートフォン、タブレットなどのモバイル端末であってもよい。
【0030】
ユーザ端末2もまた、プロセッサ、メモリ、ストレージ、送受信部、入出力部等を備え、これらはバスを通じて相互に電気的に接続される。ユーザ端末2のハードウェア構成は、上述した管理サーバ1と同様に構成することが可能であり、ユーザ端末2のハードウェア構成における各要素の詳細な説明は省略する。
【0031】
<管理サーバ1の機能>
図3は、管理サーバ1に実装される機能を例示したブロック図である。本実施形態においては、管理サーバ1は、入力情報受付部101、前処理部102、解析部103、及び、表示制御部104、を備えていてもよい。また、管理サーバ1の記憶部120は、化合物DB(データベース)121、化学反応DB122、解析情報記憶部123、特定構造DB124などの各種データベースを含んでいてもよい。なお、
図3に示す各種機能部は、管理サーバ1のプロセッサ10により実現される機能部として例示しているが、各種機能部の一部または全部は、ユーザ端末2のプロセッサにおいて実現されていてもよい。
【0032】
化合物DB121は、逆合成解析の際に参照される、化合物に関する情報を集約したデータベースである。化合物DB121に収録される各化合物のデータは、必ずしも限定されない。例えば、化合物DB121には、各化合物の物質名、構造式、示性式、CAS登録番号等の基本情報に加えて、物性データ(融点、沸点、溶解度等)、安全性データ(毒性、引火性、取扱注意事項等)、入手のための情報(製造元、製品番号、価格、在庫状況等)などが含まれていてもよい。なお、各化合物の示性式は、SMILES形式、InChI形式、MOLファイル形式等の機械可読できる形式で記憶されていてもよい。
【0033】
化合物DB121に登録される化合物は、2つの区分で管理されていてもよい。例えば、第1の区分は、市販薬などの合成原料として入手可能な化合物(以下、原料化合物)であり、第2の区分は、中間化合物、最終化合物等のように所定の合成により製造される化合物である。第1の区分で登録される原料化合物は、市販されている化合物に限らず、ユーザが独自で管理又は保有している化合物が登録されていてもよい。第1の区分で登録される原料化合物に関する情報には、在庫の有無、在庫数量、価格、保管先、入手先、製造元などの情報が含まれていてもよく、第2の区分に登録される化合物に関する情報には、合成方法、合成のための製造コストなどの情報が含まれていてもよい。
【0034】
化合物DB121は、公開されている既知のデータベースを利用して構築されていてもよく、ユーザにより管理・保有されている化合物の情報を公開データベースに追加登録することで構築されていてもよいし、ユーザが独自で設定(及び適宜更新)したデータベースを化合物DB121として採用してもよい。また、化合物DB121には、逆合成解析のためにユーザから入力された新規の目的化合物、逆合成解析で出力された中間化合物などが随時追加されることで、拡充されてもよい(つまり、過去の逆合成解析結果に基づいて化合物DB121の情報が更新されてもよい)。また、化合物DB121は、試薬メーカなどが提供する公開データベースに基づいて更新されてもよい。化合物DB121を更新する場合には、ウェブスクレイピングなどの技術を利用して、試薬メーカのウェブサイト、その他公開データベースから、在庫状況などの更新に必要な情報が自動収集されてもよい。化合物DB121に対する化合物の追加、変更、修正等のデータベースの更新は、システムの提供者の操作によって実行されてもよい。
【0035】
化学反応DB122は、逆合成解析の際に参照される、化学反応に関する情報を集約したデータベースである。化学反応DBに集約される化学反応は、既知の化学反応に限られず、機械学習モデルなどの情報技術により生成された新規の化学反応が含まれてもよい。化学反応DB122に収録される各化学反応のデータは、必ずしも限定されない。例えば、化学反応DB122には、化学反応の名称、反応式、反応物(原料化合物)及び生成物を特定する情報(化合物名、分子構造などを特定する情報)、反応条件(温度、圧力、溶媒の種類、反応時間、触媒の種類及び量など)、収率、副生成物、化学反応のコスト、その他反応に関わる情報(例えば、原料の比率、添加順序、後処理などの製造に関わる情報)などの情報が含まれていてもよい。化学反応DB122においても、反応式、反応物、生成物などは機械可読できる形式で記憶されていてもよい。
【0036】
化学反応DB122についても、化合物DB121と同様に、公開されているデータベースを利用して構築されていてもよく、このような公開データベースにユーザが把握している化学反応を追加で登録したり、データベースの内容を変更、削除、又は修正などの校正処理をしたりすることで化学反応DB122と構築してもよい。また、化学反応DB122は、学術論文データベース、その他公開データベースなどから新規の化学反応に関する情報を収集することで更新されてもよいし、過去の逆合成解析結果に基づいて更新されてもよい。公開データベース等から化学反応に関する情報を収集する際には、ウェブスクレイピングなどの技術が利用されてもよい。化学反応DB122の更新ついても、システムの提供者の操作によって実行されてもよい。
【0037】
解析情報記憶部123は、過去に実行された逆合成解析結果に関わる情報が記憶される。逆合成解析結果に関わる情報には、例えば、解析実行日時、解析依頼者(ユーザ)に関する情報(ユーザID、所属組織等)、ユーザから入力された目的化合物を示す情報、解析時に設定された条件に関する情報(探索時間の上限、探索ステップ数の上限、使用可能な原料の制限等)、前処理部102で実行された前処理の内容(簡略化した部位、マスクした置換基等)、解析部103で出力された合成経路、当該合成経路の評価指標(収率、コスト、工程数等)、逆合成解析で実行された反応予測モデル(機械学習モデル)の種類と当該反応予測モデルのパラメータ、経路探索の最適化アルゴリズム(探索アルゴリズム)の種類と当該最適化アルゴリズムのパラメータ等が含まれていてもよい。解析情報記憶部123に記録された逆合成解析結果の閲覧については、解析を依頼したユーザのみが閲覧できるように閲覧制限が設定されていてもよい。解析情報記憶部123に記録される逆合成解析結果に関わる情報は、新規の逆合成解析を実行する際に解析部103により参照されてもよい。
【0038】
特定構造DB124は、後述する前処理の対象となり得る分子構造に関する情報が記憶される。例えば、特定構造DB124には、反応制約置換基の候補となる部分構造のリストが所定の形式(例えば、SMILES形式、MOLファイル形式等)で記憶されていてもよい。反応制約置換基の候補となる構造は、解析情報記憶部123に登録された過去の逆合成解析結果から、ユーザが反応制約置換基として指定した置換基の情報を収集することで設定されてもよく、化学者等の専門家の知見に基づいて設定されてもよい。
【0039】
上述した化合物DB121、化学反応DB122、解析情報記憶部123、特定構造DB124に記憶される各種データは、逆合成解析を実行する機械学習モデルを構築又は強化するための学習データとして利用され得る。また、記憶部120に含まれる各種データベースは、必ずしも管理サーバ1内に構築される必要はなく、外部のデータベースサーバに設けられていてもよい。例えば、化合物DB121及び化学反応DB122については、試薬メーカなどが提供する外部データベースを直接参照する構成としてもよい。また、解析情報記憶部123については、セキュリティ確保の観点から、専用のストレージサーバを設けて管理する構成としてもよい。記憶部120は、上記の各データベースの他に、ユーザ識別番号などのユーザに関するデータ、各種権限に関するデータ、その他逆合成解析に使用される各種データ(例えば化学合成のコストに関するデータベース等)が記憶されていてもよい。
【0040】
入力情報受付部101は、ユーザから入力される分析対象の目的化合物の指定を受け付ける。ユーザによる目的化合物の入力形式は、特に限定されず、例えば、SMILES形式、MOLファイル形式等の機械可読形式で目的化合物の入力を受け付けてもよいし、その他、物質名、構造式による入力を受け付けてもよい。入力情報受付部101は、SMILES形式などの機械可読形式で目的化合物の入力を受け付けた場合、ユーザに入力された化合物の構造式を生成してユーザに提示して、入力内容に誤りがあるか否かを確認させてもよい。また、入力情報受付部101は、逆合成解析の条件に関する入力をユーザから受け付けてもよい。逆合成解析の条件に設定される項目は、特に限定されず、例えば、探索時間、探索ステップ数、コスト等に関する条件が挙げられる。これらの条件は、ユーザにより指定されてもよいし、システムの提供者により予め規定された条件が使用されてもよい。
【0041】
また、入力情報受付部101は、後述する反応制約置換基などの前処理の対象とする部位(置換基)の指定を受け付けてもよい。前処理の対象とする部位の指定についても、目的化合物の入力の場合と同様に、SMILES形式等の機械可読形式で入力されてもよいし、置換基名、構造式などの形式で入力されてもよい。
【0042】
前処理部102は、目的化合物、及び/又は、目的化合物の中間化合物を基点化合物として、基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する。
【0043】
ここで、「目的化合物、及び/又は、目的化合物の中間化合物を基点化合物とする」とは、前処理は、逆合成解析の開始前(最初の経路探索を実行する前)に目的化合物に対して実施されてもよいし、合成経路の途中のステップで中間化合物に対して実施されてもよく、開始前に実施したうえでさらに途中のステップのいずれかで実施されてもよい、ことを意味する。また、「分子構造の一部を簡略化する」とは、例えば、分子構造の一部を「削除」する、分子構造の一部を「マスク」する、分子構造の一部が削除された状態の構造又は単純な構造に「変換」する、ことなどが該当する。前処理では、「削除」「マスク」「変換」のうちのいずれか1種の処理を実行してもよいし、これらのうちを複数の処理を組み合わせて実行してもよい。本実施形態では、前処理を施した後の構造の化合物を「仮構造化合物」と称することとする。以下、
図4-
図6に示す実施例に基づき前処理について詳述する。
【0044】
図4は、分子構造の一部を「削除」する前処理を例示した図である。
図4の(a)が、実施例1として例示する4,4'-(4-(テトラヒドロフラン-2-イル)フェニル)アザンジイル)ジフェノール (4,4'-(4-(tetrahydrofuran-2-yl)phenyl)azanediyl)diphenol)の分子構造である。この実施例1の化合物は、
図4の(b)において2点鎖線で囲って示すように、同一構造の2つの置換基(置換基Ia及び置換基Ib)を有している。
【0045】
この同一構造の2つの置換基は、一度の化学反応で同時に形成(付加)され得る置換基である。前処理部102は、基点化合物の分子構造内に同一構造の置換基が複数存在するか否かを判定し、
図4(b)に示すように、同一構造の置換基が複数存在すると判定した場合に、同一構造の複数の置換基のうち、少なくとも1つを削除することで、仮構造化合物を設定する。
図4の(c)が前処理により設定する仮構造化合物の例示であり、同一構造の置換基Iaと置換基Ibのうち、置換基Ibを残して置換基Iaを削除することで仮構造化合物を設定している(置換基Iaを残して置換基Ibを削除してもよい)。このように同一構造の置換基のうちの少なくとも1つを削除した場合、前処理部102は、削除箇所を水素原子に置換して仮構造化合物を設定してもよく、水素原子以外の原子に削除箇所を置き換えて仮構造化合物を設定してもよい(
図4(c)では水素原子に置き換えた場合を例示)。
【0046】
図4では、同一構造の置換基が2つ存在する場合を例示しているが、同一構造の置換基が3以上存在する場合も、同様の前処理を実行すればよく、削除する置換基の選択は特に限定されない。より具体的には、同一構造の複数の置換基のうち、いずれか1つの置換基を残し、それ以外の置換基を削除してよい(つまり少なくとも1つだけ残しておけばよい)。
【0047】
なお、同一構造の複数の置換基を有する分子構造では、分子構造内に対称性を有する部位が生じる場合がある。例えば、
図4に示す化合物の場合、
図4(b)において一点鎖線で囲った部位Aが対称性を有する部位であるといえる。前処理部102は、基点化合物の分子構造のうちから対称性を有する部位を特定し、当該対称性を有する部位に含まれる少なくとも1つの置換基を削除することで、仮構造化合物を設定してもよい。より具体的には、対称性を有する部位において当該対称性を生み出す要素となっている複数の置換基のうち、いずれか1つの置換基を残し、他の置換基を削除してよい。このように対称性に基づいて基点化合物の分子構造を簡略化する場合でも、上述の同一構造置換基を探索する場合と同様の仮構造化合物(
図4(c))が設定される。
【0048】
構造の同一性と対称性とを概括して削除対象とする部位を特定する方法として、例えば、以下に示すように、周辺構造を参照する方法を採用してもよい。当該方法では、
図4(a)の化合物における窒素原子(N)のような、置換基等の構造が付与された原子を基点として半径rまでの周辺構造を参照範囲とする。ここで示す「半径r」は、分子構造における原子等の頂点をノード、結合等の頂点の間をエッジとして、ノードとエッジで分子構造内の範囲を示す値であって、整数で表現される(半径rはオングストロームなどの長さの単位で表される円を規定するものではないことに留意されたい)。つまり、「基点から半径rまでの周辺構造」は、基点とする原子から、半径rで示す値のエッジの分だけ離れたノードまでの範囲を意味する。例えば、
図4(a)の化合物において、半径rを「5」と設定し、基点を窒素原子とした場合、窒素原子から3つのエッジに沿って、置換基IaのOH基、置換基IbのOH基、及び、テトラヒドロ-2-フリル基(テトラヒドロフラニル基)までの範囲が、「基点から半径r=5までの周辺構造」に該当することとなる。
【0049】
上記のように参照範囲を定めたうえで、基点の原子に付与されている構造(置換基)同士を比較する際に、半径rで定める周辺構造を参照し、比較する構造同士が周辺構造まで含めて一致していれば、比較した構造を前処理における削除の対象と判定する。半径rを「r=0」に設定した場合は、周辺構造を考慮することなく基点に付与されている構造が同一か否かを判定することとなる(つまり、r=0は同一の構造を削除することと等価)。一方で、半径rを「r=∞(若しくは末端のノードまで含まれるような正の整数)」に設定した場合は、周辺構造が完全に一致するか否かを判定することとなる(つまり、r=∞は対称性を有する部位を削除することと等価)。上記のような方法を採用する場合、参照範囲を定めるための半径rは、入力情報受付部101において、ユーザから半径rの指定を受け付けることで設定されてもよい。また、前処理部102は、機械学習モデル及び/又はユーザのログデータ(履歴データ等)を用いて、半径rの値をユーザに提案(推薦)してもよいし、自動的に決定してもよい。
【0050】
図5は、分子構造の一部を「マスク」する前処理を例示した図である。
図5の(a)が、実施例2として例示するN-フェニル-2,7-ジブチル-10-(ピペリジン-1-イル)ピレン-4-カルボキサミド (N-phenyl-2,7-dibutyl-10-(piperidin-1-yl)pyrene-4-carboxamide)の分子構造である。この実施例2の化合物は、置換基IIa,置換基IIbで示すとおりブチル基を有しているが、これらブチル基は、反応性に制約のある置換基であり、順合成の終盤(言い換えると逆合成の序盤)では前駆体に付加できない場合がある。実施例2の逆合成解析の序盤において、ブチル基の結合を切断してしまうと、計算上では成り立ったとしても、実際には再現性のない(実現可能性の低い)合成経路が出力されてしまう。適切な合成経路を立案するためには、置換基の反応性を考慮する必要がある。
【0051】
実施例2のブチル基のように反応性に制約がある置換基としては、強固な共有結合を有する置換基、共鳴安定化された電子構造を有する置換基などのように結合特性による制約がある置換基(例;フェニル基、シクロヘキシル基、トリフルオロメチル基等)、接近障害(立体障害)を引き起こすような立体的要因による制約がある置換基(例;イソプロピル基、tert-ブチル基、メシチル基等)、求電子攻撃に対して不活性な置換基、求核攻撃に対して不活性な置換基などの電子的要因による制約がある置換基(例;ニトロ基、スルホニル基、トリメチルシリル基等)、溶媒和され難い置換基、分子間相互作用が制限される置換基など物理化学的特性による制約がある置換基(例;パーフルオロアルキル基、クラウンエーテル環、ビフェニル基等)が挙げられる。
【0052】
また、上述のような置換基自体の反応性に制約があるものの他にも、所定の化学反応から保護する目的、又は、位置選択的な反応を実現する目的などにより、合成経路の過程において特定の置換基(官能基)を一時的に保護して当該置換基の反応を制約する場合もある(所謂、保護基)。本実施形態では、上記のような反応性に制約のある置換基、保護すべき置換基などを総じて、「反応制約置換基」と称することとする。反応制約置換基は、本実施形態の逆合成解析においては、「結合の切断を一時的に制限する置換基」と定義する。
【0053】
前処理部102は、基点化合物の分子構造に含まれる置換基のうち、結合の切断を一時的に制限する反応制約置換基をマスクすることで、分子構造の一部を簡略化し、仮構造化合物を設定してもよい。「反応制約置換基をマスクする」とは、所定の置換基をマスクにより仮想的に覆い隠すことでが、マスクした箇所が結合切断の対象とならないように、逆合成解析の化学反応探索の対象から一時的に外すことを意味する。
【0054】
マスクする箇所、すなわち、反応制約置換基は、ユーザにより指定されてもよい。この場合、入力情報受付部101は、ユーザから反応制約置換基に設定する置換基の指定を受け付ける。このようなユーザによる反応制約置換基の指定は、目的化合物の入力時に実行されてもよいし、合成経路探索の途中で実行されてもよい。後者の場合には、例えば、候補となる合成経路が複数に分岐する場合、次の合成ステップの化学反応の候補が見つからない場合などの、ユーザにアラートを通知して、当該アラートをトリガーに、反応制約置換基の指定を受け付けてもよい。前処理部102は、基点化合物の分子構造のうちから、ユーザにより指定された反応制約置換基を特定し、反応制約置換基がマスクされた仮構造化合物を設定する。
【0055】
ユーザが指定する方法に限られず、前処理部102が、反応制約置換基又はその候補を自動で特定してもよい。この場合、前処理部102は、前述の特定構造DB124を参照し、反応制約置換基の候補となる部分構造のデータベースに基づいて、基点化合物の分子構造のうちから反応制約置換基を自動で特定し、反応制約置換基がマスクされた仮構造化合物を設定してもよい。また、前処理部102は、反応制約置換基の候補となる部分構造のデータベースに基づいて、基点化合物の分子構造のうちから反応制約置換基とする置換基の候補を特定してユーザに提示(サジェスト)してもよい。そして、当該提示を受けたユーザに、提示した候補のうちから反応制約置換基としてマスクする置換基を選択させることで、前処理部102は、仮構造化合物を設定してもよい。
【0056】
なお、反応制約置換基の候補となる部分構造のデータベースについては、前述のとおり、過去の逆合成解析結果(すなわち、過去の解析でユーザが反応制約置換基として指定した置換基を示す履歴データ)に基づいて構築されていてもよいし、専門家の知見に基づいて構築されていてもよく、両者のデータが反映されたデータベースであってもよい。
【0057】
図5の実施例2では、(a)に示す置換基IIa、置換基IIbのブチル基が反応制約置換基として特定され、当該ブチル基をマスクした仮構造化合物が設定される(
図5の(b))。なお、実施例2の化合物において、置換基IIa、及び、置換基IIbは「同一構造の置換基(対称性を有する部位の置換基)」にも該当する。このようなケースでは、前処理部102は、基点化合物に対して、同一構造の置換基の一部を削除する前処理と、反応制約置換基をマスクする前処理との両方を施して、仮構造化合物を設定してもよい。例えば、同一構造の置換基の少なくとも1つを削除したうえで(置換基IIa、置換基IIbのいずれか一方を削除)、残した置換基に対してマスクを施してもよい。また、置換基IIa及び置換基IIbの両方にマスクを施して逆合成解析による合成経路探索を進め、所定のステップでマスクを解除したタイミングで、同一構造の置換基の少なくとも1つを削除する前処理を実行してもよい。
【0058】
図6についても、
図5と同様に、分子構造の一部を「マスク」する前処理を例示した図である。
図6の(a)が、実施例3として例示する2-プロピル-6-(ピペリジン-1-イル)-4-フェニルベンゾエート-ナフタレン (2-propyl-6-(piperidin-1-yl)-4-phenylbenzoate-naphthalene)の分子構造である。実施例3の化合物においても、置換基IIIで示すブチル基が反応制約置換基として特定され、当該ブチル基をマスクした仮構造化合物(
図6の(b))が設定される。
【0059】
解析部103は、逆合成解析を実行して、基点化合物の合成経路を決定する機能部である。解析部103は、反応予測のための機械学習モデルと反応経路探索のための探索アルゴリズムとを用いて実現されていてもよい。解析部103が実行する逆合成解析のアーキテクチャは、既知のアルゴリズムを採用してもよく、必ずしも限定されない。
【0060】
前処理が実行されている場合、解析部103は、分子構造の一部が簡略化されている仮構造化合物を入力情報として、当該仮構造化合物に対する逆合成解析を実行する。具体的に、解析部103は、「削除」「マスク」「変換」等により簡略化された構造を除く、仮構造化合物の分子構造を対象とし、化合物DB121及び/又は化学反応DB122を参照して、仮構造化合物の分子構造を合成する化学反応を探索する。そして、各種DBと逆合成解析のアーキテクチャに基づき、仮構造化合物の分子構造を生成するための化学反応、及び、当該化学反応に必要となる中間化合物を決定する。
【0061】
化学反応の探索時には、合成コストの低い反応を優先する、在庫がある原料化合物が中間化合物として出力される反応を優先する、などといった探索条件が設定されていてもよい(その他、有名な化学反応を優先する、実施頻度の高い化学反応を優先するなどの条件が採用されていてもよい)。また、解析部103は、化学反応の探索により複数の化学反応の候補が見つかった場合には、合成経路を並列で分岐させて、分岐させた各経路についてそれぞれ逆合成解析を継続してもよい。若しくは、複数の化学反応の候補が見つかった場合には、その候補をユーザに提示して、採用する化学反応を選択させてもよい。また、複数の化学反応の候補が存在する場合には、解析部103は、合成コストが最も低い反応を採用してもよいし、化合物DB121に記録されている在庫状況などの情報を参照して、在庫が存在する化合物で対応できる化学反応を優先して採用してもよい。なお、所定ステップにおける逆合成解析の前に基点化合物に対する前処理が実施されていない場合には、解析部103は、基点化合物の分子構造をそのまま入力情報として受け付け、通常の逆合成解析を実施すればよい。
【0062】
上記のように一のステップにおける化学反応を決定した後、解析部103は、決定した化学反応で必要となる中間化合物を基点化合物として逆合成解析を続行する。この際、解析部103は、前処理によって簡略化した部分構造を元に戻すかどうかの検証を実行してもよい。例えば、解析部103は、マスクが施された仮構造化合物に対する逆合成解析で決定された中間化合物から、マスクを仮解除する処理を実行し、マスクを外した状態の分子構造で、当該中間化合物から次の合成経路を出力できるか否か(次のステップの適正な化学反応が見つかるかどうか)を検証してもよい。
【0063】
解析部103は、次の合成経路を出力できると判定した場合に、マスクを解除した状態で、マスク解除後の中間化合物に対する逆合成解析を行い、当該中間化合物の合成反応(化学反応)を決定する。一方で、次の合成経路を出力できないと判定した場合(若しくはマスクの解除が適切ではないと判定した場合)には、解析部103は、中間化合物に対してマスクを再適用して、逆合成解析を行い、当該中間化合物の合成反応を決定する。再適用するマスクの箇所は、前のステップでマスクが適用された箇所と同じ個所とする。
【0064】
また、解析部103は、各ステップにおける化学反応の決定後に、進行中の一連の逆合成解析が制限条件を満たしているか否か(すなわち探索時間の上限、探索ステップの上限、又は、合成コストの上限に達しているか否か)を判定し、逆合成解析の継続可否を判定してもよい。進行中の解析が制限条件の範囲内であれば逆合成解析を継続し、進行中の解析が制限条件の範囲外となる場合(探索時間の上限、探索ステップの上限、又は、合成コストの上限に達した場合)には、探索失敗として処理を停止させてもよい。制限条件の範囲内で、決定された化学反応の中間化合物がいずれも登録化合物となった場合には、解析部103は、当該解析の探索成功と判断し、対象の目的化合物に対する解析を終了させる。なお、解析部103は、市販薬、ユーザ登録化合物などの登録化合物を合成経路探索のゴールに設定してもよいし、化合物DB121の在庫状況を参照して、在庫がある登録化合物のみを合成経路探索終了のためのゴールに設定してもよい。
【0065】
例えば、
図8、
図10、及び
図12が、解析部103によって実行された実施例1-3の逆合成解析結果の例示であり、
図7、
図9、及び
図11が対応する比較例データである。以下、各比較例及び実施例の解析結果について説明する。
【0066】
比較例1
図7は、
図4(a)に示す化合物に対して前処理を施すことなく逆合成解析を実行した結果(比較例1)を示す図である。
図7に示すとおり、同一構造の置換基(対称性を有する部位)を有する
図4(a)の化合物に対して前処理を施さなかった場合には、分子構造の端部で細かく結合が切断されていき、なかなか合成経路が収束せずにステップ数が制限条件を超えて合成経路の探索失敗となった。なお、
図7ではステップ2までの出力結果のみ図示しているが、実際にはステップ2以降においても化学反応の探索が継続されており、ステップ2以降の探索結果は図示省略している。
【0067】
実施例1
一方、
図8は、
図4(a)に示す化合物について、同一構造の置換基(対称性を有する部位)のうちの一部の置換基を削除する前処理を実施して、逆合成解析を実行した結果(実施例1)を示す図である。具体的に、実施例1では、分子構造に含まれる2つのヒドロキシフェニル基のうちの一方を削除し、仮構造化合物を設定した。そして、この仮構造化合物を逆合成解析アルゴリズムに入力して解析を実行したところ、
図8に示すとおり、ステップ2で、両方の中間化合物が登録化合物に収束し、比較例1よりも効率的な合成経路を出力できた。
【0068】
比較例2
図9は、
図5(a)に示す化合物に対して前処理を施すことなく逆合成解析を実行した結果(比較例2)を示す図である。
図9に示すように、比較例2では、ブチル基を避けるように分子構造の端部から細かく結合が切断される合成経路が探索されたことで、なかなか合成経路が収束せずにステップ数が制限条件を超えて合成経路の探索失敗となった。なお、
図9においてもステップ3以降の探索結果は図示省略している。
【0069】
実施例2
一方、
図10は、
図5(a)に示す化合物について、分子構造の一部をマスクして簡略化する前処理を実施して、逆合成解析を実行した結果(実施例2)を示す図である。
図10に示すように、実施例2では、分子構造に含まれる2つのブチル基を反応制約置換基として指定し、これらブチル基をマスクした仮構造化合物を設定した。このマスクを施した仮構造化合物を機械学習モデルに入力して逆合成解析を実行した。この実施例2のケースにおいて、解析部103は、ステップ1の化学反応を決定した後、マスクを仮解除し、マスクを外した状態のステップ1の中間化合物から次の合成反応を出力できるか否かを検証した。その結果、マスクを再適用したうえでステップ2の化学反応を決定した。ステップ2の後も、同様の検証を行ったうえで、マスクを再適用して、ステップ3の化学反応を決定した。
【0070】
ステップ3の後には、マスクを解除したうえで、前処理部102が、ステップ3の中間化合物に対して、同一構造の2つの置換基(ブチル基)のうちの一方を削除する前処理を施し、解析部103が前処理後の仮構造化合物に対する逆合成解析によりステップ4の化学反応を決定した。なお、同一構造の置換基の削除は、ステップ3とステップ4との間ではなく、最初の目的化合物に対する前処理の段階で実行されてもよい。実施例2では、最終的に、ステップ5において、2つの登録化合物による合成反応を出力でき、比較例2よりも少ないステップ数で効率的な合成経路を出力できた。
【0071】
比較例3
図11は、
図6(a)に示す化合物に対して前処理を施すことなく逆合成解析を実行した結果(比較例3)を示す図である。比較例3においても、比較例2の時と同様に、細かく結合を切断する合成経路が選択されてしまい、合成経路が収束せずにステップ数が制限条件を超えて合成経路の探索失敗となった。
図11では、ステップ5以降の化学反応探索を図示省略している。
【0072】
実施例3
一方、
図12は、
図6(a)に示す化合物について、分子構造の一部をマスクして簡略化する前処理を実施して、逆合成解析を実行した結果(実施例3)を示す図である。
図12に示すように、実施例3では、分子構造に含まれるブチル基を反応制約置換基として指定し、このブチル基をマスクした仮構造化合物を設定した。実施例3では、ステップ5の後でマスクが解除され、ステップ6において、2つの登録化合物に収束する合成反応を出力できた。実施例3についても、他の実施例と同様に、比較例3よりも効率的に少ないステップ数の合成経路を出力することができた。
【0073】
実施例1~3で示したように、本実施形態の逆合成解析システムでは、逆合成解析の前処理として、基点化合物の分子構造の一部を簡略化(削除、マスク、変換等)することで、比較例で示される経路よりも効率的な合成経路を設定することができた。
【0074】
表示制御部104は、解析部103によって決定された目的化合物の合成経路をユーザ端末2の表示部22へ出力する処理を実行する。解析部103によって出力される合成経路は、逆合成解析で決定された一連のステップの化学反応を示す系統樹(例;
図8、
図10、
図12)の形式で出力されてもよい。表示制御部104は、逆合成解析が最終ステップまで完了した後(探索が収束した後)で、当該解析によって決定した合成経路を表示部22へ出力してもよいし、各ステップでの化学反応の決定後に順次、系統樹を更新して解析結果を出力してもよい。
【0075】
なお、
図8、
図10、
図12などでは合成経路の分岐がない解析結果を図示しているが、ステップの途中で適切な合成反応の候補が複数探索された場合には、合成経路を分岐させて解析結果を出力してもよい。このようなケースにおいて、表示制御部104は、分岐される複数の合成反応の候補をユーザに通知して、表示部22に提示するUI(User Interface)上で、いずれの経路の化学反応探索を継続するかについてユーザからの選択操作を受け付けてもよい。
【0076】
逆合成解析の最初の段階及び/又は合成経路の途中で、前処理が実行された場合には、表示制御部104は、表示部22に出力した合成経路上で、前処理によって簡略化した部位を視認可能な様態で提示してもよい。前処理した部位の提示方法は特に限定されず、例えば、対象部位の色を変える、対象部位を強調表示する、前処理のステップ(基点化合物から仮構造化合物への変遷)を示す、などの方法を採用してもよい。また、前処理自体は、実際の合成反応においては実行されないステップであるため、前処理の対象部位(ステップ)を合成経路上に表示させるか否かについては、ユーザの選択操作に応じて、切り替え可能としてもよい。
【0077】
目的化合物の入力時、又は、逆合成解析の途中のステップでユーザから反応制約置換基の指定を受け付ける場合には、表示制御部104は、表示部22に提示するUI上で基点化合物の分子構造(例;構造式)を提示して、当該分子構造を提示するUI画面を介して反応制約置換基として設定する置換基をユーザに選択させてもよい。また、前処理部102が、自動で反応制約置換基を設定する場合には、表示制御部104は、表示部22に提示するUI上に、基点化合物の分子構造とともに、前処理部102がした反応制約置換基を提示してもよく、当該UI画面を介して前処理部102が特定した反応制約置換基の設定を受け入れるか否かの選択をユーザに実行させてもよい。前処理部102が、自動で反応制約置換基とする置換基の候補を提案(サジェスト)する場合においても、表示制御部104は、表示部22のUI画面上に反応制約置換基の候補を提示し、反応制約置換基を設定するか否か(マスクを適用するか否か)、複数候補のうちのいずれの置換基を反応制約置換基とするか、などの選択をユーザに実行させてもよい。
【0078】
管理サーバ1は、
図3で例示していない機能を有していてもよい。例えば、管理サーバ1は、解析部103の機能を実現する逆合成解析用の機械学習モデルによる予測及び/又は探索アルゴリズムを実行する機能部(学習部)を有していてもよい。この学習部は、化合物DB121、化学反応DB122などの各種データベースの更新にともなって、機械学習モデルに更新された各種データベースの内容を追加学習させる機能を有していてもよい。また、学習部は、解析情報記憶部123に格納される逆合成解析結果データ(探索の成功/失敗を示す情報を含むデータ)を利用して機械学習モデルの追加学習及び/又は探索アルゴリズムの修正を実行してもよい。管理サーバ1は、機械学習を実行する機能部の他に、機械学習に利用する学習データを構築する機能部を備えていてもよい。
【0079】
上述したような管理サーバ1の機能の一部又は全部は、ユーザ端末2のプロセッサによって実現されてもよい。
【0080】
<ユーザ端末2の機能>
図3に示すようにユーザ端末2は、例えば、入力部21、表示部22、送受信部23などを備えていてもよい。入力部21は、例えば、キーボード・マウス類、タッチパネル等の情報入力機器により構成され、目的化合物の指定、反応制約置換基の指定、探索時の制限条件の指定、などのユーザによる各種入力操作を直接受け付ける。表示部22は、ディスプレイ、タッチパネルなどの情報表示機器により構成され、入力操作を受け付けるUI、解析結果を提示するUI、管理サーバ1から送信されてくるその他のデータなどを画面上に表示させる。入力部21及び表示部22は一体的に構成されていてもよい(例;タッチパネル)。送受信部23は、ユーザ端末2と管理サーバ1との通信を行う通信インターフェースである。送受信部23は、ユーザ端末2を介して入力されるユーザの操作情報を管理サーバ1に送信する機能、管理サーバ1によって出力される解析結果などの各種処理結果情報を、管理サーバ1から受信する機能を有する。
【0081】
<逆合成解析方法の一例>
続いて、
図13及び
図14で例示するフローチャートを参照して、本実施形態に係わる逆合成解析方法について説明する。
【0082】
逆合成解析を実施する際には、まず、入力情報受付部101が、ユーザ端末2を介して、ユーザから解析のターゲットとする目的化合物の入力を受け付ける(
図13のステップSQ101)。この際に入力情報受付部101は、探索時間の上限、探索ステップ数の上限、合成コストの上限などのような探索時の制限情報の指定をユーザから受け付けてもよい。
【0083】
次に、前処理部102が、ユーザから入力された目的化合物の分子構造内に、前処理の対象とする部分構造(例えば、同一構造の複数の置換基、対称性を有する部位、又は、反応制約置換基等)が存在するか否かを判定する(ステップSQ102)。目的化合物の分子構造内に前処理対象の部分構造が存在すると判定した場合には(ステップSQ102の「Yes」)、前処理部102は、目的化合物(基点化合物)の分子構造の一部を簡略化する前処理を実行し、一部の構造が簡略化された仮構造化合物を設定する(ステップSQ103)。当該前処理における「簡略化」とは、例えば、分子構造の一部を「削除」する、分子構造の一部を「マスク」する、分子構造の一部が削除された状態の構造又は単純な構造に「変換」する、ことなどが該当する。仮構造化合物の設定後、解析部103は、当該仮構造化合物を入力情報として、仮構造化合物に対して逆合成解析を行い、目的化合物を生成する化学反応を決定する(ステップSQ104)
【0084】
なお、ステップSQ102において、前処理部102が、目的化合物の分子構造内に前処理対象の部分構造が存在しないと判定した場合には(ステップSQ102の「No」)、前処理を実行することなくステップSQ104へ進み、目的化合物の分子構造をそのまま入力情報として、逆合成解析を実行する。
【0085】
ステップSQ104の逆合成解析では、解析部103が、化合物DB121、化学反応DB122などの各種データベースを参照して、入力情報の分子構造内で結合を切断する箇所、結合の切断によって生じる中間化合物、化学反応を決定する。当該ステップSQ104における解析部103の機能は、逆合成解析のための機械学習モデルあるいは探索アルゴリズムの機能として実行されてもよく、逆合成解析のアーキテクチャは特に限定されない。
【0086】
ステップSQ104の逆合成解析により決定された中間化合物のいずれか一つでも登録化合物でないものが含まれるには(ステップSQ105の「Yes」)、解析部103は、当該中間化合物を機械学習モデルおよび探索アルゴリズムに入力する基点化合物として逆合成解析のステップを継続する。この際、解析部103は、進行中の解析が、所定の制限条件の範囲内であるか否か(探索時間の上限に達しているか否か、探索ステップ数の上限に達しているか否か、合成コストの上限に達しているか否かなど)を判定する(ステップSQ106)。解析が制限条件の範囲内で解析を続行できると判定した場合には、解析部103は、ステップSQ104で決定された中間化合物に対して前処理を行うか否かを判定する(ステップSQ107)。
【0087】
中間化合物の分子構造内に前処理対象の部分構造が含まれ、解析部103が、次の合成経路を決定するうえで前処理を実行すべきと判断した場合には(ステップSQ107の「Yes」)、ステップSQ103へ移行する。そして、前処理部102が、中間化合物の分子構造の一部を簡略化した仮構造化合物を設定し、当該仮構造化合物に対する逆合成解析を実行する(ステップSQ104)。一方、解析部103が、中間化合物に対して前処理を実行しないと判断した場合には(ステップSQ107の「No」)、ステップSQ104へ移行し、解析部103は、前処理を施していない中間化合物の分子構造に対して逆合成解析を実行する。
【0088】
上記のようなステップSQ103~ステップSQ107のサイクルを繰り返し、解析結果の中間化合物がいずれも原料として入手可能な登録化合物に収束するまで逆合成解析のワンステップ処理を継続する。ステップSQ105において、逆合成解析で決定された中間化合物がいずれも登録化合物である場合には、ステップSQ108へ移行し、解析部103は、化学反応の探索を完了して、解析結果である一連の合成経路をユーザ端末2へ出力する。一方、ステップSQ103~ステップSQ107のサイクルの繰り返しにおいて、解析が制限条件に設定された所定の上限(探索時間の上限、探索ステップ数の上限、合成コストの上限等)に到達した場合には(ステップSQ106の「No」)、解析部103は、合成経路の探索失敗と判断し、解析を終了する。
【0089】
図14では、ユーザから反応制約置換基の指定を受け付けたうえで逆合成解析を実施する場合のフローチャートの一例を示している。
図14のフローチャートでは、
図13におけるステップSQ101、ステップSQ102、ステップSQ103、及び、ステップSQ107の工程を具体化しており、その他の工程については、
図13に示すフローチャートと同様で、同じ符号を付している。
【0090】
図14のステップSQ1011に示すように、入力情報受付部101は、ユーザから目的化合物の入力を受け付けるとともに、反応性の制約がある置換基(反応性の低い置換基)のような、結合の切断を一時的に制限する反応制約置換基の指定をユーザから受け付けてもよい。次に、前処理部102は、ユーザから入力された目的化合物の分子構造内に、同一構造の置換基が複数存在するか否か(換言すると、対称性を有する部位が存在するか否か)を判定する(
図14のステップSQ1021)。同一構造の置換基が複数存在する場合(ステップSQ1021の「Yes」)、前処理部102は、同一構造の複数の置換基のうちの少なくとも1つの置換基を削除することで、目的化合物の分子構造の一部を簡略化する(ステップSQ1031)。一方、目的化合物の分子構造内に、同一構造の置換基が存在していない場合(ステップSQ1021の「No」)、ステップSQ1032へ移行する。
【0091】
ステップSQ1032では、前処理部102は、ユーザから指定された反応制約置換基をマスクすることで、仮構造化合物を設定する。そして、解析部103は、ステップSQ1031~ステップSQ1032で設定された仮構造化合物に対して逆合成解析を実行し、基点化合物の合成反応を決定する(ステップSQ104)。ワンステップ処理で一の化学反応が決定された後、
図13と同様のフローで解析を継続する場合には、ステップSQ1071において、解析部103は、ステップSQ104で決定された中間化合物からマスクを仮解除し、次の合成経路を出力できるか否かを検証する(ステップSQ1072)。
【0092】
次の合成経路を出力できる場合(ステップSQ1072の「Yes」)、解析部103は、前処理で設定したマスクを解除してステップSQ104へ移行して、マスク解除後の中間化合物に対して逆合成解析を実行する。一方、次の合成経路を出力できないと判定した場合にはステップSQ1032へ移行し、前処理部102が中間化合物の分子構造内の反応制約置換基に対してマスクを再適用する。そしてマスクが適用された状態の中間化合物に対して逆合成解析を実行する。
【0093】
図14に示すフローにおいても、ステップSQ1031~ステップSQ1072までのサイクルを繰り返し、合成経路が登録化合物に収束した場合に(ステップSQ105「No」)、化学反応の探索を終了し、一連の合成経路を出力する。
【0094】
なお、
図13及び
図14に示す逆合成解析方法のフローはあくまでも例示であって、本実施形態の逆合成解析方法は、
図13-
図14に示す例に限定されない。例えば、前処理部102が、過去の逆合成解析結果、及び/又は、専門家の知見などに基づいて構築されたデータベース(反応制約置換基の候補となる部分構造のデータベース)に基づいて、基点化合物の分子構造のうちから反応制約置換基を自動で設定してもよいし、反応制約置換基の候補をサジェストしてもよい。また、
図13及び
図14に示す工程の一部は順序が入れ替わっていてもよい。例えば、ユーザによる反応制約置換基の指定は、最初の工程(ステップSQ1011)ではなく逆合成解析の途中のステップ(SQ107)などで実行されてもよい。また、
図14では、反応制約置換基をマスクする前の工程で、同一構造の置換基の一部を削除する前処理を実行しているが、同一構造の置換基の一部削除は、中間化合物からマスクを解除した段階で実行されてもよい(SQ107)。
【0095】
本実施形態に係わる逆合成解析システムでは、上記のとおり、目的化合物又は中間化合物を基点化合物として、基点化合物の分子構造の一部を簡略化する前処理を実行したうえで、逆合成解析を実行することで、効率的に目的化合物の合成経路を探索できる。その結果、同一構造の複数の置換基を有する分子構造、対称性を有する分子構造、反応制約置換基を含む分子構造などの所定の構造を有する化合物について、実現可能性のある効率的な合成経路を立案することができる。
【0096】
上述した実施形態は、本開示の理解を容易にするための例示に過ぎず、本開示を限定して解釈するためのものではない。本開示は、その趣旨を逸脱することなく、変更、改良することができると共に、本開示にはその均等物が含まれることは言うまでもない。
【0097】
<変形例>
例えば、逆合成解析の前処理は、分子構造の一部を簡略化する場合に限らない。前処理部102は、基点化合物の分子構造の一部に対して、所定の部分構造(保護基などの置換基)を付加する前処理を実行してもよい。有機化合物の合成経路では、特定の置換基を一時的に修飾して(いわゆる保護基)、その置換基の反応性を制御し、合成途中の化学反応から保護する場合がある。このような保護基は、化学反応からの保護を目的とする場合に限らず、位置選択的な反応を実現するため、又は、所定の溶媒に対する溶解性を制御するために形成される場合がある。保護基は、合成経路の過程でその目的を終えた後は、脱保護反応等により取り外される(除去される)。
【0098】
保護基の形成は付加反応であるが、逆合成解析は、結合の切断等、反応点の化学反応及び反応化合物を順次決定し合成経路を探索していく手法であるため、通常の逆合成解析では、適切な保護基の形成、選択が難しい場合がある。本開示の逆合成解析システムにおいては、基点化合物の分子構造の一部に対して付加すべき保護基の指定をユーザから受け付けたうえで、当該保護基が形成された置換基をマスクして、逆合成解析を実行してもよい。この場合、前処理部102は、逆合成解析の途中で保護基の指定を受け付けてもよいし、逆合成解析の所定のタイミングで、保護基を取り外す旨の指示を受け付けてもよい。ユーザから保護基の指定を受け付ける場合は、保護基とする1つの構造の指定を受け付ける場合に限らず、候補となる複数の構造の指定、及び/又は、複数候補からの選択を受け付けてもよい。例えば、F基の追加を受け付けるだけでなく、Cl,Br,Iなどの他のハロゲン原子も含めた候補群の指定を受け付け、前処理部102が受け付けた候補群のうちから適宜、基点化合物に付加する構造を決定してもよい。また、ユーザから保護基の指定を受け付ける場合に限らず、前処理部102は、過去の逆合成解析結果、及び/又は、専門家の知見に基づくデータベースを参照して、保護基の形成及び取り外しを自動的に設定、又は、サジェストしてもよい。
【0099】
本開示において、前処理部102は、基点化合物に対して複数の前処理を組み合わせて実行してもよい。例えば、同一構造の置換基の削除とマスク処理とを組み合わせる場合、(1)同一構造の置換基を削除した後にマスク処理を実行する、(2)マスク処理を実行した後に同一構造の置換基を削除する、(3)マスク処理と同一構造の置換基の削除を並行して実行する、などの様々な組み合わせが可能である。前処理の組み合わせ順序は、目的化合物の構造、ユーザによる指定などに応じて適宜設定されてよい。
【0100】
本明細書において説明した逆合成解析システムは、単独の装置として実現されてもよく、一部または全部がネットワークで接続された複数の装置(例えばクラウドサーバ)等により実現されてもよい。例えば、管理サーバ1の制御部(プロセッサ10)およびストレージ12の機能は、互いにネットワークで接続された異なるサーバにより実現されてもよい。
【0101】
また、本明細書において説明した逆合成解析システムによる一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係る管理サーバ1の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することも可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
【0102】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0103】
本開示の逆合成解析システム、逆合成解析装置、逆合成解析方法、及び、逆合成解析プログラムは、以下のような構成を備えていてもよい。
[項目1]
分析対象の目的化合物を受け付ける入力情報受付部と、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理部と、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定する解析部と、を備える逆合成解析システム。
[項目2]
前記前処理部は、
前記基点化合物の分子構造内に同一構造の置換基が複数存在するか否かを判定し、
同一構造の置換基が複数存在すると判定した場合に、同一構造の複数の置換基のうち、少なくとも1つを削除することで、前記仮構造化合物を設定する、項目1に記載の逆合成解析システム。
[項目3]
前記前処理部は、
前記基点化合物の分子構造のうちから対称性を有する部位を特定し、
前記対称性を有する部位に含まれる少なくとも1つの置換基を削除することで、前記仮構造化合物を設定する、項目1に記載の逆合成解析システム。
[項目4]
前記前処理部は、
前記基点化合物の分子構造に含まれる置換基のうち、結合の切断を一時的に制限する反応制約置換基をマスクすることで前記分子構造の一部を簡略化し、前記仮構造化合物を設定する、項目1~3のいずれかに記載の逆合成解析システム。
[項目5]
前記入力情報受付部は、ユーザから前記反応制約置換基に設定する置換基の指定を受け付け、
前記前処理部は、前記基点化合物の分子構造のうちから、前記ユーザにより指定された前記反応制約置換基を特定し、前記反応制約置換基がマスクされた前記仮構造化合物を設定する、項目4に記載の逆合成解析システム。
[項目6]
前記前処理部は、前記反応制約置換基の候補となる部分構造のデータベースに基づいて、前記基点化合物の分子構造のうちから前記反応制約置換基を自動で特定し、前記反応制約置換基がマスクされた前記仮構造化合物を設定する、項目4に記載の逆合成解析システム。
[項目7]
前記解析部は、
前記マスクが施された前記仮構造化合物に対する逆合成解析で決定された中間化合物から、前記マスクを仮解除する処理を実行し、
前記マスクを外した状態で、前記中間化合物から次の合成経路を出力できるか否かを検証する、項目4に記載の逆合成解析システム。
[項目8]
前記解析部は、前記次の合成経路を出力できると判定した場合に、前記マスクを解除した状態で前記中間化合物に対する逆合成解析を行い、当該中間化合物の合成反応を決定する、項目7に記載の逆合成解析システム。
[項目9]
前記解析部は、前記次の合成経路を出力できないと判定した場合に、前記中間化合物に前記マスクを再適用して逆合成解析を行い、当該中間化合物の合成反応を決定する、項目7に記載の逆合成解析システム。
[項目10]
前記解析部によって決定された合成経路を表示部へ出力する表示制御部、をさらに備え、
前記表示制御部は、前記表示部に出力した合成経路上で、前記前処理によって簡略化した部位を提示する、項目1~3のいずれかに記載の逆合成解析システム。
[項目11]
分析対象の目的化合物を受け付ける入力情報受付部と、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理部と、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定する解析部と、を備える逆合成解析装置。
[項目12]
分析対象の目的化合物を受け付けることと、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理を実行することと、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定することと、をコンピュータが実行する逆合成解析方法。
[項目13]
分析対象の目的化合物を受け付けることと、
前記目的化合物、及び/又は、前記目的化合物の中間化合物を基点化合物として、基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理を実行することと、
前記仮構造化合物に対して逆合成解析を行い、前記基点化合物の合成経路を決定することと、をコンピュータに実行させるための逆合成解析プログラム。
【符号の説明】
【0104】
1 管理サーバ
2 ユーザ端末
101 入力情報受付部
102 前処理部
103 解析部
104 表示制御部
【要約】
【課題】効率的に目的化合物の合成経路を探索できる逆合成解析システム、逆合成解析装置、逆合成解析方法、及び、逆合成解析プログラムを提供すること。
【解決手段】分析対象の目的化合物を受け付ける入力情報受付部と、目的化合物、又及び/は、目的化合物の中間化合物を基点化合物として、基点化合物の分子構造の一部を簡略化する前処理を実行し、仮構造化合物を設定する前処理部と、仮構造化合物に対して逆合成解析を行い、基点化合物の合成経路を決定する解析部と、を備える逆合成解析システム。
【選択図】
図1