(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025027715
(43)【公開日】2025-02-28
(54)【発明の名称】低分子化合物探索装置、低分子化合物探索方法、及びプログラム
(51)【国際特許分類】
G16C 20/40 20190101AFI20250220BHJP
【FI】
G16C20/40
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023132775
(22)【出願日】2023-08-17
(71)【出願人】
【識別番号】000000044
【氏名又は名称】AGC株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】吉田 拓未
(72)【発明者】
【氏名】河口 聡史
(72)【発明者】
【氏名】今村 穣
(57)【要約】
【課題】低分子化合物の探索において探索にかかる時間を短縮できる低分子化合物探索装置を提供する。
【解決手段】低分子化合物探索装置2は、化合物に要求される化学構造の制約を示す化学構造制約情報B1を取得する制約情報取得部202と、複数の第1低分子化合物のなかから、化学構造制約情報B1が示す制約を満たす化学構造を有する第2低分子化合物を選別する第1化学構造選別部203と、低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて生成された回帰モデルに基づいて、第2低分子化合物それぞれについて、第2低分子化合物の化学構造から第2低分子化合物の物性値の推定値を算出する回帰計算部207と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
化合物に要求される化学構造の制約を示す化学構造制約情報を取得する制約情報取得部と、
複数の第1低分子化合物のなかから、前記制約情報取得部によって取得された前記化学構造制約情報が示す前記制約を満たす化学構造を有する第2低分子化合物を選別する第1化学構造選別部と、
低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて生成された回帰モデルに基づいて、前記第1化学構造選別部によって選別された前記第2低分子化合物それぞれについて、前記第2低分子化合物の化学構造から前記第2低分子化合物の物性値の推定値を算出する回帰計算部と、
を備える低分子化合物探索装置。
【請求項2】
前記回帰計算部によって算出された前記推定値に基づいて、前記第1化学構造選別部によって選別された前記第2低分子化合物のなかから目標物性値を満たす第3低分子化合物を選別する第2化学構造選別部をさらに備える
請求項1に記載の低分子化合物探索装置。
【請求項3】
前記回帰計算部は、前記第1化学構造選別部によって選別された前記第2低分子化合物それぞれについて、前記回帰モデルに基づいて、前記第2低分子化合物の化学構造から前記第2低分子化合物の物性値の確率分布を算出し、算出した前記確率分布から獲得関数を算出する、
請求項1に記載の低分子化合物探索装置。
【請求項4】
前記回帰モデルは、ガウス過程回帰、ベイジアンリッジ回帰、アンサンブル回帰、ディープラーニング、または勾配ブースティングに基づく回帰のいずれかに基づく回帰モデルである
請求項3に記載の低分子化合物探索装置。
【請求項5】
前記第1低分子化合物の化学構造を示す構造式を前記複数の前記第1低分子化合物それぞれについて生成する化学構造生成部をさらに備える、
請求項1に記載の低分子化合物探索装置。
【請求項6】
前記複数の第1低分子化合物は、人によって選択された化合物と、データベースから抽出された化合物と、特定のアルゴリズムによって設計された化合物とのうちの少なくとも1つを含む、
請求項1に記載の低分子化合物探索装置。
【請求項7】
前記回帰モデルの生成に用いられる物性値は、低分子化合物の物性値の実測値、もしくは特定のアルゴリズムによって計算または予測された計算値のうちの少なくとも1つである
請求項1に記載の低分子化合物探索装置。
【請求項8】
低分子化合物の合成に用いる所望の反応または低分子化合物の物性を示す制約生成情報に基づいて前記化学構造制約情報を生成する制約条件生成部をさらに備える、
請求項1に記載の低分子化合物探索装置。
【請求項9】
前記化学構造制約情報が示す前記制約には、第1制約と、第1制約よりも多くの低分子化合物の化学構造に当てはまる第2制約とが含まれ、
前記第1化学構造選別部は、前記第2制約を満たす化学構造を有する第2低分子化合物を選別した後、選別した第2低分子化合物のなかから第1制約を満たす化学構造を有する第2低分子化合物を選別する
請求項1に記載の低分子化合物探索装置。
【請求項10】
低分子化合物の化学構造を文字列に変換する文字列変換部をさらに含む、
請求項1に記載の低分子化合物探索装置。
【請求項11】
化合物に要求される化学構造の制約を示す化学構造制約情報を取得し、
複数の第1低分子化合物のなかから、取得された前記化学構造制約情報が示す前記制約を満たす化学構造を有する第2低分子化合物を選別し、
低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて生成された回帰モデルに基づいて、選別された前記第2低分子化合物それぞれについて、前記第2低分子化合物の化学構造から前記第2低分子化合物の物性値の推定値を算出する、
低分子化合物探索方法。
【請求項12】
コンピュータに、
化合物に要求される化学構造の制約を示す化学構造制約情報を取得し、
複数の第1低分子化合物のなかから、取得された前記化学構造制約情報が示す前記制約を満たす化学構造を有する第2低分子化合物を選別し、
低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて生成された回帰モデルに基づいて、選別された前記第2低分子化合物それぞれについて、前記第2低分子化合物の化学構造から前記第2低分子化合物の物性値の推定値を算出する、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、低分子化合物探索装置、低分子化合物探索方法、及びプログラムに関する。
【背景技術】
【0002】
所望の物性を有する化合物を、情報科学に基づいて探索することが行われている。例えば、低分子化合物を回帰モデルに基づいて探索する探索方法が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
化合物の化学構造の集合である化合物空間は非常に広く、低分子化合物の探索を行う際に取得すべき化学構造の数は非常に多い。特許文献1に記載の探索方法においては、化学構造をそのまま回帰モデルに入力して推定値、及び当該推定値のばらつきを算出している。しかしながら、多くの数の化学構造をそのまま回帰モデルに入力する場合、化学構造の数が多いため推定値の算出に時間がかかる。
低分子化合物の探索において探索にかかる時間を短縮することが求められている。
【0005】
本発明は上記の点に鑑みてなされたものであり、低分子化合物の探索において探索にかかる時間を短縮できる低分子化合物探索装置、低分子化合物探索方法、及びプログラムを提供する。
【課題を解決するための手段】
【0006】
本発明は、上記課題を解決するために、以下の構成を備える。
[1]化合物に要求される化学構造の制約を示す化学構造制約情報を取得する制約情報取得部と、複数の第1低分子化合物のなかから、前記制約情報取得部によって取得された前記化学構造制約情報が示す前記制約を満たす化学構造を有する第2低分子化合物を選別する第1化学構造選別部と、低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて生成された回帰モデルに基づいて、前記第1化学構造選別部によって選別された前記第2低分子化合物それぞれについて、前記第2低分子化合物の化学構造から前記第2低分子化合物の物性値の推定値を算出する回帰計算部と、を備える低分子化合物探索装置。
【0007】
[2]前記回帰計算部によって算出された前記推定値に基づいて、前記第1化学構造選別部によって選別された前記第2低分子化合物のなかから目標物性値を満たす第3低分子化合物を選別する第2化学構造選別部をさらに備える[1]に記載の低分子化合物探索装置。
【0008】
[3]前記回帰計算部は、前記第1化学構造選別部によって選別された前記第2低分子化合物それぞれについて、前記回帰モデルに基づいて、前記第2低分子化合物の化学構造から前記第2低分子化合物の物性値の確率分布を算出し、算出した前記確率分布から獲得関数を算出する、[1]に記載の低分子化合物探索装置。
【0009】
[4]前記回帰モデルは、ガウス過程回帰、ベイジアンリッジ回帰、アンサンブル回帰、ディープラーニング、または勾配ブースティングに基づく回帰のいずれかに基づく回帰モデルである[3]に記載の低分子化合物探索装置。
【0010】
[5]前記第1低分子化合物の化学構造を示す構造式を前記複数の前記第1低分子化合物それぞれについて生成する化学構造生成部をさらに備える、[1]に記載の低分子化合物探索装置。
【0011】
[6]前記複数の第1低分子化合物は、人によって選択された化合物と、データベースから抽出された化合物と、特定のアルゴリズムによって設計された化合物とのうちの少なくとも1つを含む、[1]に記載の低分子化合物探索装置。
【0012】
[7]前記回帰モデルの生成に用いられる物性値は、低分子化合物の物性値の実測値、もしくは特定のアルゴリズムによって計算または予測された計算値のうちの少なくとも1つである[1]に記載の低分子化合物探索装置。
【0013】
[8]低分子化合物の合成に用いる所望の反応または低分子化合物の物性を示す制約生成情報に基づいて前記化学構造制約情報を生成する制約条件生成部をさらに備える、[1]に記載の低分子化合物探索装置。
【0014】
[9]前記化学構造制約情報が示す前記制約には、第1制約と、第1制約よりも多くの低分子化合物の化学構造に当てはまる第2制約とが含まれ、前記第1化学構造選別部は、前記第2制約を満たす化学構造を有する第2低分子化合物を選別した後、選別した第2低分子化合物のなかから第1制約を満たす化学構造を有する第2低分子化合物を選別する[1]に記載の低分子化合物探索装置。
【0015】
[10]低分子化合物の化学構造を文字列に変換する文字列変換部をさらに含む、[1]に記載の低分子化合物探索装置。
【0016】
[11]化合物に要求される化学構造の制約を示す化学構造制約情報を取得し、複数の第1低分子化合物のなかから、取得された前記化学構造制約情報が示す前記制約を満たす化学構造を有する第2低分子化合物を選別し、低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて生成された回帰モデルに基づいて、選別された前記第2低分子化合物それぞれについて、前記第2低分子化合物の化学構造から前記第2低分子化合物の物性値の推定値を算出する、低分子化合物探索方法。
【0017】
[12]コンピュータに、化合物に要求される化学構造の制約を示す化学構造制約情報を取得し、複数の第1低分子化合物のなかから、取得された前記化学構造制約情報が示す前記制約を満たす化学構造を有する第2低分子化合物を選別し、低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて生成された回帰モデルに基づいて、選別された前記第2低分子化合物それぞれについて、前記第2低分子化合物の化学構造から前記第2低分子化合物の物性値の推定値を算出する、を実行させるためのプログラム。
【発明の効果】
【0018】
本発明によれば、低分子化合物の探索において探索にかかる時間を短縮できる。
【図面の簡単な説明】
【0019】
【
図1】本発明の第1の実施形態に係る低分子化合物探索システム1の構成の一例を示す図である。
【
図2】本発明の第1の実施形態に係る低分子化合物探索装置2の機能構成の一例を示す図である。
【
図3】本発明の第1の実施形態に係る構造スクリーニング処理の一例を示す図である。
【
図4】本発明の第1の実施形態に係る学習処理の一例を示す図である。
【
図5】本発明の第1の実施形態に係る物性スクリーニング処理の一例を示す図である。
【
図6】本発明の第2の実施形態に係る低分子化合物探索装置2aの機能構成の一例を示す図である。
【
図7】本発明の第2の実施形態に係る構造スクリーニング処理の一例を示す図である。
【発明を実施するための形態】
【0020】
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本実施形態に係る低分子化合物探索システム1の構成の一例を示す図である。低分子化合物探索システム1は、低分子化合物探索装置2と、入力装置3と、提示装置4とを備える。
【0021】
低分子化合物探索装置2は、低分子化合物のなかから目標物性値を満たす低分子化合物を探索する。ここで低分子化合物探索装置2は、探索対象の低分子化合物の化学構造として、低分子化合物の化学構造のなかから化合物に要求される化学構造の制約を満たす低分子化合物の化学構造を選別する。つまり、低分子化合物探索装置2は、化学構造の制約に基づいて低分子化合物の化学構造についてのスクリーニングを行う。低分子化合物探索装置2は、一例として、パーソナルコンピュータ(Personal Computer:PC)、またはサーバなどのコンピュータである。
【0022】
入力装置3は、低分子化合物探索装置2に各種のデータを入力する。入力装置3が入力する各種のデータには、化学構造制約情報B1が含まれる。化学構造制約情報B1は、化合物に要求される化学構造の制約を示す。化学構造制約情報B1は、低分子化合物探索装置2が化学構造についてのスクリーニングを行うために用いられる。化学構造制約情報B1については、後述する。
【0023】
入力装置3は、例えば、キーボード、マウス、またはタッチパネルなどである。なお、入力装置3は、低分子化合物探索装置2に入力される各種のデータが記憶された外部記憶装置であってもよい。また、入力装置3は、低分子化合物探索装置2と通信を行う端末装置であってもよい。
【0024】
提示装置4は、低分子化合物探索装置2が処理に用いる各種のデータ、及び低分子化合物探索装置2による探索結果を提示する。提示装置4は、例えば、ディスプレイである。提示装置4は、低分子化合物探索装置2と通信を行う外部サーバであってもよい。
【0025】
本実施形態において低分子化合物とは、分子量が1万以下の化合物である。
以下の説明において、低分子化合物探索装置2によって化学構造についてのスクリーニングが行われる前の低分子化合物を第1低分子化合物と記載する。第1低分子化合物のうち化学構造制約情報B1が示す制約を満たす低分子化合物を第2低分子化合物と記載する。2低分子化合物のうち目標物性値を満たす低分子化合物を第3低分子化合物と記載する。
【0026】
[低分子化合物探索装置2の機能構成]
図2は、本実施形態に係る低分子化合物探索装置2の機能構成の一例を示す図である。低分子化合物探索装置2は、制御部20と、記憶部21とを備える。
【0027】
制御部20は、例えばCPU(Central Processing Unit)などを備えており、種々の演算や情報の授受を行う。制御部20は、化学構造生成部200と、構造スクリーニング部201と、物性スクリーニング部204と、文字列変換部209と、出力部210とを備える。制御部20に備えられるこれらの機能部はそれぞれ、例えばCPUがROM(Read Only Memory)から読み込んだプログラムをRAM(Random Access Memory)に展開して、当該プログラムに従って処理を実行することにより実現される。当該ROM、当該RAMは、記憶部21に含まれる。
【0028】
化学構造生成部200は、第1低分子化合物の化学構造を示す構造式を複数の第1低分子化合物それぞれについて生成する。化学構造生成部200は、生成した構造式を示す情報を第1低分子化合物構造式情報A1として記憶部21に記憶させる。第1低分子化合物構造式情報A1は、第1低分子化合物の化学構造を示す構造式を示す情報である。なお、化学構造生成部200が構造式を生成する対象とする複数の第1低分子化合物を示す情報は、予め記憶部21に記憶されている(不図示)。
【0029】
構造スクリーニング部201は、複数の第1低分子化合物に対して化学構造についてのスクリーニングを行う。構造スクリーニング部201は、制約情報取得部202と、第1化学構造選別部203とを備える。
【0030】
制約情報取得部202は、化学構造制約情報B1を取得する。化学構造制約情報B1は、入力装置3から入力される化学構造制約情報B1を取得する。化学構造制約情報B1は、化合物に要求される化学構造の制約を示す情報である。化学構造制約情報B1が示す制約は、1つであっても複数であってもよい。制約情報取得部202は、取得した化学構造制約情報B1を記憶部21に記憶させる。
【0031】
化合物に要求される化学構造の制約とは、例えば、カルボン酸を含まない、エーテル構造を含む、ハライド原子を5つ以上含まない、5員環または6員環の環構造を有する、ヘテロ原子同士の結合を含まない、もしくは、複素環を含むといった制約である。
【0032】
第1化学構造選別部203は、複数の第1低分子化合物のなかから、制約情報取得部202によって取得された化学構造制約情報B1が示す制約を満たす化学構造を有する第2低分子化合物を選別する。第1化学構造選別部203は、選別結果を第2低分子化合物構造式情報C1として記憶部21に記憶させる。第2低分子化合物構造式情報C1は、第1化学構造選別部203によって選別された第2低分子化合物を当該第2低分子化合物の構造式によって示す情報である。
【0033】
物性スクリーニング部204は、複数の第2低分子化合物に対して物性についてのスクリーニングを行う。物性スクリーニング部204は、特徴量算出部205と、学習部206と、回帰計算部207と、第2化学構造選別部208とを備える。
【0034】
特徴量算出部205は、低分子化合物物性データD1から特徴量を算出する。低分子化合物物性データD1は、低分子化合物について、当該低分子化合物の化学構造と、当該低分子化合物の物性値とを示すデータである。当該低分子化合物とは、例えば、低分子化合物探索システム1の外部に備えられる化合物のデータベースから抽出された低分子化合物である。当該物性値は、実測値、もしくは特定のアルゴリズムによって計算または予測された計算値のうちの少なくとも1つである。
【0035】
なお、低分子化合物物性データD1は、例えば、低分子化合物を識別する情報、化学構造、及び物性値の各項目の列を有している。低分子化合物を識別する情報は、例えば、名称、識別子などである。低分子化合物物性データD1は、低分子化合物毎に化学構造、及び物性値が格納される行と列からなる2次元の表形式のデータである。低分子化合物物性データD1は、記憶部21に予め記憶される。
【0036】
特徴量算出部205は、算出した特徴量を特徴量情報E1として記憶部21に記憶させる。特徴量情報E1は、特徴量算出部205によって低分子化合物物性データD1から算出された特徴量を示す情報である。
【0037】
学習部206は、特徴量情報E1に基づいて回帰モデルを生成する。換言すれば、学習部206は、低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて回帰モデルを生成する。学習部206は、生成した回帰モデルを学習済みモデルF1として記憶部21に記憶させる。
【0038】
回帰計算部207は、回帰モデルに基づいて、第1化学構造選別部203によって選別された第2低分子化合物それぞれについて、第2低分子化合物の化学構造から当該第2低分子化合物の物性値の推定値を算出する。当該回帰モデルは、学習済みモデルF1である。第1化学構造選別部203によって選別された第2低分子化合物は、上述したように第2低分子化合物構造式情報C1によって示される。回帰計算部207は、推定結果を予測物性値情報G1として記憶部21に記憶させる。
なお、物性値の推定値を算出することを、物性値を推定する、または物性値を予測するとも記載する。
【0039】
第2化学構造選別部208は、回帰計算部207によって算出された推定値に基づいて、第1化学構造選別部203によって選別された第2低分子化合物のなかから目標物性値を満たす第3低分子化合物を選別する。目標物性値は、低分子化合物探索システム1のユーザの所望の物性値である。目標物性値は、例えば、入力装置3から入力されて記憶部21に記憶される。なお、目標物性値は、記憶部21に予め記憶されていてもよい。第2化学構造選別部208は、選別結果を第3低分子化合物構造式情報H1として記憶部21に記憶させる。
【0040】
文字列変換部209は、低分子化合物の化学構造を文字列に変換する。文字列とは、例えば、SMILES(Simplified Molecular Input Line Entry System)の文字列である。なお、文字列は、MOLファイル、またはSDFなどのSMILES以外の表記方法であってもよい。
【0041】
制御部20が行う処理において、化学構造は文字列に変換されて処理が行われる。文字列変換部209は、制御部20が行う処理のうち化学構造に基づく処理が行われる前に、当該化学構造を文字列に変換する。
なお、第1低分子化合物構造式情報A1、化学構造制約情報B1、第2低分子化合物構造式情報C1、及び低分子化合物物性データD1の各情報には化学構造が含まれるが、これらの情報には、化学構造が文字列変換部209によって予め文字列に変換されて含まれてもよい。
【0042】
出力部210は、低分子化合物探索装置2による探索結果として第3低分子化合物構造式情報H1を出力する。出力部210は、第3低分子化合物構造式情報H1を提示装置4に出力する。なお、出力部210は、外部サーバに第3低分子化合物構造式情報H1を出力させてもよい。
【0043】
記憶部21は、各種の情報を記憶する。記憶部21は、例えば、第1低分子化合物構造式情報A1、化学構造制約情報B1、第2低分子化合物構造式情報C1、低分子化合物物性データD1、特徴量情報E1、学習済みモデルF1、予測物性値情報G1、及び第3低分子化合物構造式情報H1をそれぞれ記憶する。記憶部21は、磁気ハードディスク装置、または半導体記憶装置等の記憶装置を用いて構成される。
【0044】
なお、低分子化合物探索装置2は、仮想サーバとして実現されてもよい。低分子化合物探索装置2が備える各機能部は、複数のサーバに分散されて備えられてもよい。低分子化合物探索装置2は、クラウドサーバとして実現されてもよい。
【0045】
ここで低分子化合物探索装置2が行う処理には、構造スクリーニング処理と、学習処理と、物性スクリーニング処理とが含まれる。
図3、
図4、及び
図5を参照し、構造スクリーニング処理と、学習処理と、物性スクリーニング処理とについてそれぞれ説明する。
【0046】
[構造スクリーニング処理]
図3は、本実施形態に係る構造スクリーニング処理の一例を示す図である。構造スクリーニング処理は、第2低分子化合物構造式情報C1を生成するための処理であり、制御部20によって実行される。構造スクリーニング処理は、例えば、学習処理よりも前の時期に実行される。なお、構造スクリーニング処理は、学習処理より後の時期に実行されてもよい。構造スクリーニング処理と、学習処理とが並行して実行されてもよい。
【0047】
ステップS10:化学構造生成部200は、第1低分子化合物の化学構造を示す構造式を複数の第1低分子化合物それぞれについて生成する。化学構造生成部200は、生成した構造式を示す情報を第1低分子化合物構造式情報A1として記憶部21に記憶させる。
【0048】
上述したように、化学構造生成部200が構造式を生成する対象とする複数の第1低分子化合物を示す情報は、予め記憶部21に記憶されている。化学構造生成部200が構造式を生成する対象とする複数の第1低分子化合物は、人によって選択された化合物と、データベースから抽出された化合物と、特定のアルゴリズムによって設計された化合物とのうちの少なくとも1つを含む。
【0049】
ここで人とは、低分子化合物探索システム1のユーザである。データベースとは、例えば、低分子化合物探索システム1の外部に備えられる化合物のデータベースである。特定のアルゴリズムとしては、分子を部分構造にフラグメント化するアルゴリズム、分子を部分構造にフラグメント化した後にそれらの部分構造をつなぐアルゴリズム、または、任意の部分構造を列挙した後にそれらの部分構造をつなぐアルゴリズムなどが挙げられる。
【0050】
ステップS20:化学構造制約情報B1は、入力装置3から入力される化学構造制約情報B1を取得する。例えば、低分子化合物探索システム1のユーザは、入力装置3としてのキーボード、マウス、またはタッチパネルなどを操作することによって、化合物に要求される化学構造の制約を低分子化合物探索装置2に入力する。制約情報取得部202は、取得した化学構造制約情報B1を記憶部21に記憶させる。
【0051】
ステップS30:第1化学構造選別部203は、化学構造生成部200によって生成された構造式に基づいて、複数の第1低分子化合物のなかから、制約情報取得部202によって取得された化学構造制約情報B1が示す制約を満たす化学構造を有する第2低分子化合物を選別する。
【0052】
なお、化学構造生成部200によって生成された構造式は、第1低分子化合物構造式情報A1によって示される。第1化学構造選別部203は、第1低分子化合物構造式情報A1が示す構造式が文字列変換部209によって変換された文字列に基づいて選別の処理を行う。
【0053】
ここで化学構造制約情報B1が示す制約が複数である場合、第1化学構造選別部203は、複数の制約のうち、なるべく多くの低分子化合物の化学構造に当てはまる制約から順に、当該制約を満たす化学構造を有する第2低分子化合物を選別する。
【0054】
したがって、化学構造制約情報B1が示す制約には、第1制約と、第1制約よりも多くの低分子化合物の化学構造に当てはまる第2制約とが含まれる。第1化学構造選別部203は、第2制約を満たす化学構造を有する第2低分子化合物を選別した後、選別した第2低分子化合物のなかから第1制約を満たす化学構造を有する第2低分子化合物を選別する。第1制約、及び第2制約は、選別の対象となる第1低分子化合物構造式情報A1の化合物分布によって決定される。
例えば第1低分子化合物構造式情報A1にカルボン酸を含む構造式が多く含まれていて、エステルを含む構造式があまり多く含まれていないとする。また、カルボン酸を含まない構造とエステルを含まない構造がそれぞれ制約条件であるとする。この場合、カルボン酸を含まない構造という制約条件は、第2制約の一例であり、エステルを含まない構造は、第1制約の一例である。
【0055】
なお、第1化学構造選別部203が選別に用いる制約の順序は、上記した順序に限定されない。第1化学構造選別部203は、複数の制約のうち、化学構造制約情報B1において指定されている順、またはランダムな順に、当該制約を満たす化学構造を有する第2低分子化合物を選別してもよい。また、第1化学構造選別部203が選別に用いる制約の順序は、低分子化合物探索システム1のユーザによって指定されてもよい。
【0056】
第1化学構造選別部203は、選別結果を第2低分子化合物構造式情報C1として記憶部21に記憶させる。
以上で、制御部20は、構造スクリーニング処理を終了する。
【0057】
[学習処理]
図4は、本実施形態に係る学習処理の一例を示す図である。学習処理は、回帰モデルを生成するための処理であり、制御部20によって実行される。
【0058】
ステップS110:特徴量算出部205は、低分子化合物物性データD1から特徴量を算出する。特徴量算出部205は、算出した特徴量を特徴量情報E1として記憶部21に記憶させる。
【0059】
ここで特徴量算出部205は、低分子化合物物性データD1に含まれる化学構造から特徴量を算出する。特徴量算出部205は、低分子化合物物性データD1に含まれる化学構造が文字列変換部209によって変換された文字列から特徴量を算出する。
【0060】
化学構造から算出される特徴量とは、例えば、分子記述子である。分子記述子とは、分子の特性などの特徴量を数字に変換したものである。分子記述子には、例えば、分子量、原子の数、重原子の数、ハロゲン原子の数、環の数、二重結合の数、三重結合の数、回転可能結合の数、分子サイズ、及びトポロジカル極性表面積(Toplogical Polar Surface Area:TPSA)のうち1以上が含まれる。
【0061】
上述したように、回帰モデルを生成するために用いられる低分子化合物物性データD1に含まれる低分子化合物は、化合物のデータベースから抽出された低分子化合物である。なお、回帰モデルを生成するために用いられる低分子化合物に、第1低分子化合物が含まれていてもよい。また、回帰モデルを生成するために用いられる低分子化合物に、構造スクリーニング部201によって構造スクリーニングが行われて選別された第2低分子化合物が含まれていてもよい。
【0062】
ステップS120:学習部206は、特徴量情報E1に基づいて回帰モデルを生成する。換言すれば、学習部206は、低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて回帰モデルを生成する。
【0063】
ここで回帰モデルは、例えば、ガウス過程回帰に基づく回帰モデルである。なお、回帰モデルは、ベイジアンリッジ回帰、アンサンブル回帰、ディープラーニング、または勾配ブースティングに基づく回帰のいずれかに基づく回帰モデルであってもよい。
また、回帰モデルの生成に用いられる物性値は、低分子化合物の物性値の実測値、もしくは特定のアルゴリズムによって計算または予測された計算値のうちの少なくとも1つである。
【0064】
学習部206は、生成した回帰モデルを学習済みモデルF1として記憶部21に記憶させる。
以上で、制御部20は、学習処理を終了する。
【0065】
図5は、本実施形態に係る物性スクリーニング処理の一例を示す図である。物性スクリーニング処理は、第3低分子化合物構造式情報H1を生成するための処理であり、制御部20によって実行される。物性スクリーニング処理は、構造スクリーニング処理、及び学習処理の後の時期に実行される。
【0066】
ステップS210:回帰計算部207は、回帰モデルに基づいて、第1化学構造選別部203によって選別された第2低分子化合物それぞれについて、第2低分子化合物の化学構造から当該第2低分子化合物の物性値の推定値を算出する。
【0067】
本実施形態では、一例として、回帰計算部207は、第1化学構造選別部203によって選別された第2低分子化合物それぞれについて、回帰モデルに基づいて、第2低分子化合物の化学構造から第2低分子化合物の物性値の確率分布を算出する。上述したように本実施形態では、回帰モデルは、ガウス過程回帰に基づく回帰モデルである。物性値の確率分布とは、物性値の推定値としての確率分布の平均値、及び推定値のばらつきとしての確率分布の標準偏差である。さらに、回帰計算部207は、算出した確率分布から獲得関数を算出する。
【0068】
獲得関数は、ガウス過程回帰において探索点を決定するための関数である。本実施形態では、獲得関数は、一例として、EI(Expected Improvement)である。獲得関数は、他の例として、PI(Probability of Improvement)、UCB(Upper Confidence Bound)、またはLCB(Lower Confidence Bound)などのうちいずれかであってもよい。
【0069】
ステップS220:第2化学構造選別部208は、回帰計算部207によって算出された推定値に基づいて、第1化学構造選別部203によって選別された第2低分子化合物のなかから目標物性値を満たす第3低分子化合物を選別する。
【0070】
ここで第2化学構造選別部208は、回帰計算部207によって算出された獲得関数が最大または最小となる低分子化合物を決定する。本実施形態では、獲得関数はEIである。第2化学構造選別部208は、第2低分子化合物のなかからEIが最大または最小となる低分子化合物を、目標物性値を満たす第3低分子化合物として決定する。なお、第2化学構造選別部208は、第2低分子化合物のなかからEIが大きい順、または小さい順に所定の数の低分子化合物を、目標物性値を満たす第3低分子化合物として決定してもよい。
第2化学構造選別部208は、選別結果を第3低分子化合物構造式情報H1として記憶部21に記憶させる。
【0071】
ステップS230:出力部210は、低分子化合物探索装置2による探索結果として第3低分子化合物構造式情報H1を出力する。出力部210は、第3低分子化合物構造式情報H1を提示装置4に出力する。
以上で、制御部20は、物性スクリーニング処理を終了する。
【0072】
なお、本実施形態では、第1低分子化合物構造式情報A1が化学構造生成部200によって生成される場合の一例について説明したが、これに限られない。低分子化合物探索装置2は、低分子化合物探索装置2とは別体の外部装置(データベースサーバなど)から第1低分子化合物構造式情報A1を取得してもよい。また、第1低分子化合物構造式情報A1は、記憶部21に予め記憶されていてもよい。それらの場合、低分子化合物探索装置2の構成から化学構造生成部200は省略されてよい。
【0073】
また、本実施形態では、学習済みモデルF1が学習部206によって生成される場合の一例について説明したが、これに限られない。学習済みモデルF1は、低分子化合物探索装置2とは別体の外部装置(PC、またはサーバなど)によって生成されてもよい。その場合、低分子化合物探索装置2は、当該外部装置から学習済みモデルF1を取得する。また、学習済みモデルF1は、記憶部21に予め記憶されていてもよい。それらの場合、低分子化合物探索装置2の構成から特徴量算出部205、及び学習部206は省略されてよい。
【0074】
また、本実施形態では、回帰計算部207によって算出された推定値に基づいて第2低分子化合物のなかから目標物性値を満たす第3低分子化合物が選別される場合の一例について説明したが、これに限られない。低分子化合物探索装置2は、第3低分子化合物を選別しなくてもよい。つまり、低分子化合物探索装置2は、第2低分子化合物の化学構造から第2低分子化合物の物性値の推定値を算出し、算出結果を予測物性値情報G1として記憶部21に記憶させた後、処理を終了してもよい。その場合、予測物性値情報G1が低分子化合物探索装置2から低分子化合物探索装置2とは別体の外部装置(PC、またはサーバなど)に出力され、当該外部装置によって第2低分子化合物のなかから目標物性値を満たす第3低分子化合物が選別されてもよい。また、その場合、低分子化合物探索装置2の構成から第2化学構造選別部208は省略されてよい。
【0075】
また、本実施形態では、文字列変換部209によって低分子化合物の化学構造を文字列に変換される場合の一例について説明したが、これに限られない。低分子化合物探索装置2が実行する各処理において用いられる化学構造を含む情報には、化学構造が予め字列として含まれていてもよい。その場合、低分子化合物探索装置2の構成から文字列変換部209は省略されてよい。
【0076】
以上に説明したように、本実施形態に係る低分子化合物探索装置2は、制約情報取得部202と、第1化学構造選別部203と、回帰計算部207とを備える。
制約情報取得部202は、化合物に要求される化学構造の制約を示す化学構造制約情報B1を取得する。
第1化学構造選別部203は、複数の第1低分子化合物のなかから、制約情報取得部202によって取得された化学構造制約情報B1が示す制約を満たす化学構造を有する第2低分子化合物を選別する。
回帰計算部207は、低分子化合物の化学構造と当該低分子化合物の物性値とに基づいて生成された回帰モデル(本実施形態において、学習済みモデルF1)に基づいて、第1化学構造選別部203によって選別された第2低分子化合物それぞれについて、第2低分子化合物の化学構造から第2低分子化合物の物性値の推定値を算出する。
【0077】
この構成により、本実施形態に係る低分子化合物探索装置2は、物性値の推定値を算出する前に、複数の第1低分子化合物のなかから化合物に要求される化学構造の制約を満たす化学構造を有する第2低分子化合物を選別できるため、低分子化合物の探索において探索にかかる時間を短縮できる。
【0078】
有機分子の取り得る数は非常に多く、低分子化合物に限っても10の60乗個の化合物があると言われており、単純に構造生成を行うと大量の化合物を扱う必要があり非常に時間がかかる。例えばC5H8O2という分子式を取り得る化学構造を数え上げると1168個ある。一方で、これらの化学構造を見ると、多種多様の構造を取っており目的に見合っていないものが多く含まれている。
【0079】
そこで本実施形態に係る低分子化合物探索装置2では、目的に合わせ化学構造の制限を掛けてスクリーニングを行うことによって化学構造の数を減らすことができる。例えば5員環もしくは6員環の環構造を持たなければならないとしてスクリーニングを行うと、119個まで化学構造を減らすことができる。化学構造についてのスクリーニングにより10分の1に化合物を予め減らすことができ、物性についてのスクリーニングを迅速に行うことができる。
また、そもそも化合物に要求される化学構造の制約に基づいて、目的の化合物に不適なものが選別されることを防ぐことができる。
【0080】
また、本実施形態に係る低分子化合物探索装置2では、回帰計算部207によって算出された推定値に基づいて、第1化学構造選別部203によって選別された第2低分子化合物のなかから目標物性値を満たす第3低分子化合物を選別する第2化学構造選別部208をさらに備えてもよい。
この構成により、本実施形態に係る低分子化合物探索装置2では、第2低分子化合物のなかから目標物性値を満たす第3低分子化合物を選別できる。
【0081】
また、本実施形態に係る低分子化合物探索装置2では、回帰計算部207は、第1化学構造選別部203によって選別された第2低分子化合物それぞれについて、回帰モデルに基づいて、第2低分子化合物の化学構造から第2低分子化合物の物性値の確率分布を算出し、算出した確率分布から獲得関数を算出してもよい。
ここでガウス過程回帰に基づく回帰モデルによって、物性値の確率分布を算出する場合、一般的な機械学習による推定(予測)よりも時間のかかることが多い。上記の構成により、本実施形態に係る低分子化合物探索装置2では、構造スクリーニング処理によって第2低分子化合物を予め選別するため、物性値の確率分布を算出するために用いられる化学構造を減らすことができる。そのため、本実施形態に係る低分子化合物探索装置2は、ガウス過程回帰に基づく回帰モデルによって物性値の確率分布を算出するために好適である。
【0082】
また、本実施形態に係る低分子化合物探索装置2では、回帰モデルは、ガウス過程回帰、ベイジアンリッジ回帰、アンサンブル回帰、ディープラーニング、または勾配ブースティングに基づく回帰のいずれかに基づく回帰モデルであってもよい。
この構成により、本実施形態に係る低分子化合物探索装置2では、ガウス過程回帰、ベイジアンリッジ回帰、アンサンブル回帰、ディープラーニング、または勾配ブースティングに基づく回帰のいずれかに基づく回帰モデルを用いる場合であっても、構造スクリーニング処理によって第2低分子化合物を予め選別して、第2低分子化合物の物性値の推定値を算出するために用いられる化学構造を減らすことができるため、低分子化合物の探索において探索にかかる時間を短縮できる。
【0083】
また、本実施形態に係る低分子化合物探索装置2では、第1低分子化合物の化学構造を示す構造式を複数の第1低分子化合物それぞれについて生成する化学構造生成部200をさらに備えてもよい。
この構成により、本実施形態に係る低分子化合物探索装置2では、第1低分子化合物の化学構造を示す構造式を生成できるため、当該構造式を示す情報を外部装置から取得する必要がない。
【0084】
また、本実施形態に係る低分子化合物探索装置2では、複数の第1低分子化合物は、人によって選択された化合物と、データベースから抽出された化合物と、特定のアルゴリズムによって設計された化合物とのうちの少なくとも1つを含んでもよい。
この構成により、本実施形態に係る低分子化合物探索装置2では、人によって選択された化合物、データベースから抽出された化合物、または特定のアルゴリズムによって設計された化合物の化学構造が多い場合であっても、構造スクリーニング処理によって第2低分子化合物を予め選別できるため、低分子化合物の探索において探索にかかる時間を短縮できる。
【0085】
また、本実施形態に係る低分子化合物探索装置2では、回帰モデル(本実施形態において、学習済みモデルF1)の生成に用いられる物性値は、低分子化合物の物性値の実測値、もしくは特定のアルゴリズムによって計算または予測された計算値のうちの少なくとも1つであってもよい。
この構成により、本実施形態に係る低分子化合物探索装置2では、回帰モデルを生成する際に用いる物性値として、実測値が取得できる場合には実測値を用い、実測値が取得できない場合には計算値を用いて、様々な方法で物性値を取得できる。
【0086】
また、本実施形態に係る低分子化合物探索装置2では、化学構造制約情報B1が示す制約には、第1制約と、第1制約よりも多くの低分子化合物の化学構造に当てはまる第2制約とが含まれてよく、第1化学構造選別部203は、第2制約を満たす化学構造を有する第2低分子化合物を選別した後、選別した第2低分子化合物のなかから第1制約を満たす化学構造を有する第2低分子化合物を選別してもよい。
この構成により、本実施形態に係る低分子化合物探索装置2では、多くの低分子化合物の化学構造に当てはまる制約を満たす化学構造を有する第2低分子化合物から順に選別できるため、第2低分子化合物を選別する効率を高めることができる。
【0087】
また、本実施形態に係る低分子化合物探索装置2では、低分子化合物の化学構造を文字列に変換する文字列変換部209をさらに含んでよい。
この構成により、本実施形態に係る低分子化合物探索装置2では、化学構造をプログラムに従って処理を実行するための文字列に変換できるため、処理に用いる情報に化学構造が文字列として含まれていない場合であっても、処理を実行できる。
【0088】
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について詳しく説明する。
上記第1の実施形態では、化学構造制約情報B1が入力される場合について説明をした。本実施形態では、入力された目標物性値に基づいて化学構造制約情報B1が生成される場合について説明をする。
なお、上述した第1の実施形態と同一の構成については同一の符号を付して、同一の構成及び動作についてはその説明を省略する場合がある。
【0089】
本実施形態に係る低分子化合物探索システムを低分子化合物探索システム1aと記載し、低分子化合物探索装置を低分子化合物探索装置2aと記載する。低分子化合物探索システム1aの構成は、低分子化合物探索装置2の代わりに低分子化合物探索装置2aが備えられる点以外は、低分子化合物探索システム1の構成(
図1)と同様である。
【0090】
[低分子化合物探索装置2aの機能構成]
図6は、本実施形態に係る低分子化合物探索装置2aの機能構成の一例を示す図である。低分子化合物探索装置2aは、制御部20aと、記憶部21とを備える。
【0091】
制御部20aは、化学構造生成部200と、構造スクリーニング部201aと、物性スクリーニング部204と、文字列変換部209と、出力部210とを備える。本実施形態に係る制御部20a(
図6)と第1の実施形態に係る制御部20(
図2)とを比較すると、構造スクリーニング部201aが異なる。ここで、他の構成要素(化学構造生成部200、物性スクリーニング部204、文字列変換部209、及び出力部210)が持つ機能は第1の実施形態と同じである。
【0092】
構造スクリーニング部201aは、制約情報取得部202と、第1化学構造選別部203と、制約条件生成部211aとを備える。第1化学構造選別部203が持つ機能は第1の実施形態と同じである。
【0093】
制約条件生成部211aは、制約生成情報J1に基づいて化学構造制約情報B1を生成する。制約生成情報J1は、低分子化合物の合成に用いる所望の反応または低分子化合物の物性を示す情報である。制約生成情報J1は、入力装置3から入力される制約生成情報J1を取得する。
【0094】
制約情報取得部202は、制約条件生成部211aによって生成された制約生成情報J1を取得する。
【0095】
[構造スクリーニング処理]
本実施形態に係る低分子化合物探索装置2aが行う処理と、第1の実施形態に係る低分子化合物探索装置2が行う処理とでは、構造スクリーニング処理が異なる。学習処理、及び物性スクリーニング処理については、第1の実施形態と同様である。
【0096】
図7は、本実施形態に係る構造スクリーニング処理の一例を示す図である。なお、ステップS310、及びステップS350の各処理は、
図3におけるステップS10、及びステップS30の各処理と同様であるため、説明を省略する。
【0097】
ステップS320:制約生成情報J1は、入力装置3から入力される制約生成情報J1を取得する。
【0098】
ステップS330:制約条件生成部211aは、制約生成情報J1に基づいて化学構造制約情報B1を生成する。制約条件生成部211aは、例えば、機械学習に基づいて制約生成情報J1から化学構造制約情報B1を生成する。機械学習を用いる場合、制約条件生成部211aは、低分子化合物の合成に用いる所望の反応または低分子化合物の物性と、化合物に要求される化学構造の制約との関係が学習された学習済みモデルに基づいて、制約生成情報J1から化学構造制約情報B1を生成する。別の一例として、制約条件生成部211aは、低分子化合物の合成に用いる所望の反応または低分子化合物の物性と、化合物に要求される化学構造の制約との関係を示すテーブルに基づいて、制約生成情報J1から化学構造制約情報B1を生成してもよい。
【0099】
ステップS340:制約情報取得部202は、制約条件生成部211aによって生成された制約生成情報J1を取得する。制約情報取得部202は取得した化学構造制約情報B1を記憶部21に記憶させる。
以上で、制御部20aは、構造スクリーニング処理を終了する。
【0100】
以上に説明したように、本実施形態に係る低分子化合物探索装置2aは、低分子化合物の合成に用いる所望の反応または低分子化合物の物性を示す制約生成情報J1に基づいて化学構造制約情報B1を生成する制約条件生成部211aをさらに備える。
この構成により、本実施形態に係る低分子化合物探索装置2aでは、低分子化合物の合成に用いる所望の反応または低分子化合物の物性を示す制約生成情報J1を入力しさえすれば、低分子化合物の探索を実行できる。本実施形態に係る低分子化合物探索装置2aを用いれば、低分子化合物の合成に用いる所望の反応または低分子化合物の物性に対応する化学構造の制約の知識が十分にないユーザであっても、低分子化合物の探索を実行できる。
【0101】
なお、上述した実施形態における低分子化合物探索装置2、2aの一部、例えば、化学構造生成部200、構造スクリーニング部201、201a、物性スクリーニング部204、文字列変換部209、出力部210をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、低分子化合物探索装置2、2aに内蔵されたコンピュータシステムであって、オペレーティングシステム(Operating system:OS)や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc-Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における低分子化合物探索装置2、2aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。低分子化合物探索装置2、2aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0102】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0103】
2、2a…低分子化合物探索装置、202…制約情報取得部、203…第1化学構造選別部、207…回帰計算部、B1…化学構造制約情報、F1…学習済みモデル(回帰モデル)