(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024127560
(43)【公開日】2024-09-20
(54)【発明の名称】情報処理システム、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
G16C 20/10 20190101AFI20240912BHJP
G06N 20/00 20190101ALI20240912BHJP
【FI】
G16C20/10
G06N20/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023036792
(22)【出願日】2023-03-09
(71)【出願人】
【識別番号】000004455
【氏名又は名称】株式会社レゾナック
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100128381
【弁理士】
【氏名又は名称】清水 義憲
(74)【代理人】
【識別番号】100169454
【弁理士】
【氏名又は名称】平野 裕之
(74)【代理人】
【識別番号】100144440
【弁理士】
【氏名又は名称】保坂 一之
(72)【発明者】
【氏名】小川 秀之
(72)【発明者】
【氏名】松井 弘之
(72)【発明者】
【氏名】本間 友
(57)【要約】
【課題】容易に合成できる有機化合物を探索する。
【解決手段】情報処理システムは、有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得し、フラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力して、有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得し、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得する、
情報処理システム。
【請求項2】
前記少なくとも一つのプロセッサが、
有機化合物の集合を示す化合物データを記憶する化合物データベースを参照して、該集合に含まれる各有機化合物について前記複数の部分構造を特定し、
前記集合における前記複数の部分構造のそれぞれの出現回数を取得し、
前記出現回数に基づいて前記フラグメントスコアを算出する、
請求項1に記載の情報処理システム。
【請求項3】
前記少なくとも一つのプロセッサが、前記複数の部分構造についての前記出現回数の対数の和を前記フラグメントスコアとして算出する、
請求項2に記載の情報処理システム。
【請求項4】
前記複雑性ペナルティが、環状構造に関するペナルティ、立体異性体に関するペナルティ、および大員環に関するペナルティのうちの少なくとも一つを含み、サイズに関するペナルティを含まない、
請求項3に記載の情報処理システム。
【請求項5】
前記少なくとも一つのプロセッサが、
前記複数の部分構造のそれぞれについて、前記部分構造の種類数に基づく定数に対する前記出現回数の比の対数を算出し、
複数の前記対数の和を前記フラグメントスコアとして算出する、
請求項2に記載の情報処理システム。
【請求項6】
前記複雑性ペナルティが、サイズに関するペナルティを少なくとも含む、
請求項5に記載の情報処理システム。
【請求項7】
前記機械学習モデルが、ランダムフォレスト回帰である、
請求項1~6のいずれか一項に記載の情報処理システム。
【請求項8】
少なくとも一つのプロセッサを備える情報処理システムにより実行される情報処理方法であって、
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップと、
を含む情報処理方法。
【請求項9】
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップと、
をコンピュータに実行させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の一側面は、情報処理システム、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
非特許文献1には、合計1710種類のキノン(Q)およびハイドロキノン(QH2)酸化還元対の研究に適用した高スループット計算スクリーニング法が記載されている。非特許文献2には、240種類のリチウムイオン電導性固体高分子電解質のデータベースを新たに構築し、そのデータベースの機械学習により解析する手法が記載されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】S Er, C Suh, MP Marshak, A Aspuru-Guzik, “Computationaldesign of molecules for an all-quinone redox flow battery,” Chem. Sci. 2015, 6 (2), 885-893. doi: 10.1039/c4sc03030c
【非特許文献2】Hatakeyama Sato, K., Tezuka, T., Nishikitani, Y., Nishide, H., andOyaizu, K. “Synthesis of Lithium-ion ConductingPolymers Designed by Machine Learning-based Prediction and Screening.” Chem. Lett. 2019, 48, 130-132. doi: 10.1246/cl.180847
【発明の概要】
【発明が解決しようとする課題】
【0004】
容易に合成できる有機化合物を探索するための新たな手法が望まれている。
【課題を解決するための手段】
【0005】
本開示の一側面に係る情報処理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得し、フラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力して、有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得する。
【0006】
本開示の一側面に係る情報処理方法は、少なくとも一つのプロセッサを備える情報処理システムにより実行される。この情報処理方法は、有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、フラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力して、有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップとを含む。
【0007】
本開示の一側面に係る情報処理プログラムは、有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、フラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力して、有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップとをコンピュータに実行させる。
【0008】
このような側面においては、有機化合物の部分構造および複雑さに着目した機械学習によって、該有機化合物の合成容易性を示す合成容易性スコアが推定される。この処理により、容易に合成できる有機化合物を探索することが可能になる。
【発明の効果】
【0009】
本開示の一側面によれば、容易に合成できる有機化合物を探索することが可能になる。
【図面の簡単な説明】
【0010】
【
図1】情報処理システムの機能構成の一例を示す図である。
【
図2】学習済みモデルの生成の一例を示すフローチャートである。
【
図5】合成容易性スコアの推定の一例を示すフローチャートである。
【
図6】合成容易性に関する各種スコアを示すグラフである。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。
【0012】
[システムの概要]
一例に係る情報処理システム10は、有機化合物の合成容易性を示す合成容易性スコアを機械学習によって推定するコンピュータシステムである。機械学習とは、与えられた情報に基づいて反復的に学習することで、法則またはルールを自律的に見つけ出す手法をいう。合成容易性とは、化合物の合成がどれくらい容易であるかを示す指標をいう。
【0013】
情報処理システム10は様々な目的のために利用され得る。例えば、情報処理システム10は、特定の製品において用いられ容易に合成できる有機化合物を探索するために用いられてよい。その探索の例として、情報処理システム10は、充電によって繰り返し利用可能な電池である二次電池の活物質としての有機化合物を探索するために用いられてよい。その活物質は正極活物質および負極活物質の少なくとも一方でもよい。
【0014】
[システムの構成]
情報処理システム10は1以上のコンピュータで構成される。複数のコンピュータが用いられる場合には、これらのコンピュータが例えばインターネット、イントラネット等の通信ネットワークを介して接続されることで、論理的に一つの情報処理システム10が構築される。
【0015】
情報処理システム10を構成するコンピュータは、一般にハードウェア装置としてプロセッサ、メモリ、および通信インタフェースを備える。プロセッサは例えばCPUであり、メモリはフラッシュメモリ、ハードディスク等で構成される。情報処理システム10の各機能は、プロセッサが、メモリに格納されているプログラムを実行することで実現される。
【0016】
コンピュータを情報処理システム10として機能させるための情報処理プログラムは、情報処理システム10の各機能モジュールを実現するためのプログラムコードを含む。この情報処理プログラムは、例えばCD―ROM、DVD―ROM、または半導体メモリの有形の記録媒体に非一時的に記録された上で提供されてもよい。あるいは、情報処理プログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供された情報処理プログラムは例えばメモリに記録される。
【0017】
図1は情報処理システム10の機能構成の一例を示す図である。この例では、情報処理システム10はプロセッサ101を備える。一例では、プロセッサ101は、生成部11、フラグメンテーション部12、算出部13、学習部14、および推定部15として機能する。生成部11は、機械学習において用いられる教師データを生成する機能モジュールである。一例として、教師データは、それぞれの有機化合物についての、フラグメントスコア、複雑性ペナルティ、および合成容易性スコアの組合せを示す。フラグメントスコアとは、有機化合物に含まれる複数の部分構造に基づく指標をいう。部分構造とは、有機化合物の一部を構成する分子構造または原子をいう。複雑性ペナルティとは、有機化合物の複雑さに関する指標をいう。フラグメンテーション部12は、有機化合物の部分構造を特定し、該部分構造の出現回数を算出または取得する機能モジュールである。本開示では、部分構造を特定する処理を「フラグメント化」ともいう。出現回数とは、有機化合物の集合において部分構造が出現する回数をいう。算出部13は、有機化合物のフラグメントスコアおよび複雑性ペナルティを算出する機能モジュールである。算出部13はフラグメントスコアの計算において出現回数を考慮する。学習部14は、教師データを用いた機械学習によって所定の機械学習モデルを訓練して、学習済みモデル19を生成する機能モジュールである。推定部15は、その学習済みモデル19を用いて有機化合物の合成容易性スコアを推定する機能モジュールである。
【0018】
一例では、情報処理システム10は化合物データベース21、出現回数データベース22、および学習サンプルデータベース23にアクセスする。化合物データベース21は、有機化合物の構造を示す化合物データを記憶するデータベースである。一例では、化合物データベース21は、米国の国立生物工学情報センター(NCBI)によって提供されているPubChemデータベースであってもよいし、ケンブリッジ結晶学データセンター(CCDC)によって提供されているケンブリッジ結晶構造データベース(CSD)であってもよい。出現回数データベース22は、部分構造の出現回数を記憶するデータベースである。学習サンプルデータベース23は教師データを記憶するデータベースである。化合物データベース21、出現回数データベース22、および学習サンプルデータベース23はいずれも、情報処理システム10の構成要素であってもよいし、情報処理システム10とは別のコンピュータシステム内に設けられてもよい。
【0019】
[システムの動作]
以下では、情報処理システム10の動作の一例を説明するとともに、一例に係る情報処理方法の一例を説明する。
【0020】
(学習済みモデルの生成)
図2を参照しながら、学習済みモデル19の生成について説明する。
図2はその処理の一例を処理フローS1として示すフローチャートである。処理フローS1は学習フェーズに相当する。
【0021】
ステップS11では、フラグメンテーション部12が複数の有機化合物の集合に対応する化合物データを化合物データベース21から取得する。
【0022】
ステップS12では、フラグメンテーション部12がその集合における各部分構造の出現回数を算出する。フラグメンテーション部12はまず、それぞれの有機化合物について複数の部分構造を特定する。そして、フラグメンテーション部12は、それぞれの部分構造について、有機化合物の集合における出現回数を算出する。フラグメンテーション部12は、部分構造および出現回数の複数の組合せに対応する複数のレコードを生成し、これらのレコードを出現回数データベース22に格納する。
【0023】
一例では、フラグメンテーション部12は或る一つの有機化合物について次のようにフラグメント化を実行する。フラグメンテーション部12は、一つの基準原子と、該基準原子のj個隣までの範囲に位置する少なくとも一つの原子とから成るパターンに基づいて複数の部分構造を特定する。フラグメンテーション部12はその有機化合物を成すそれぞれの原子を基準原子として設定して、その基準原子を含む部分構造(パターン)を特定し、その部分構造の出現回数をカウントする。値jを便宜的に距離レベルというとすると、フラグメンテーション部12はその有機化合物について、距離レベルを1ずつインクリメントしながら、個々の距離レベルに関して、部分構造を特定し出現回数をカウントする。例えば、フラグメンテーション部12は距離レベル1~3のそれぞれに関して、部分構造を特定し出現回数をカウントしてもよい。フラグメンテーション部12は所定の距離レベルのそれぞれについて部分構造および出現回数の組合せを特定した後に、各部分構造の出現回数を集計する。
【0024】
フラグメンテーション部12は、少なくとも一部が連続しない複数の任意の距離レベルのそれぞれに関して、部分構造を特定し出現回数をカウントしてもよい。このような距離レベルの設定の例として、1,3という2個の距離レベルと、2,3,5という3個の距離レベルとが挙げられる。あるいは、フラグメンテーション部12は、単一の任意の距離レベルに関して、部分構造を特定し出現回数をカウントしてもよい。距離レベルは4以上であってもよい。
【0025】
フラグメンテーション部12は各有機化合物について、このように部分構造を特定し出現回数を集計する。続いて、フラグメンテーション部12は各部分構造について、有機化合物の集合における出現回数を算出する。そして、フラグメンテーション部12は部分構造および出現回数の組合せを示すレコードを生成し、それぞれのレコードを出現回数データベース22に格納する。
【0026】
図3および
図4を参照しながら、距離レベルに基づく部分構造の特定について説明する。
図3は一つの基準原子に対応するフラグメント化の一例を示す図である。
図4は部分構造および出現回数の一例を示す図である。
図3および
図4のいずれも有機化合物としてトルエンを示す。
【0027】
図3の例では、フラグメンテーション部12は一つの水素原子を基準原子201として選択している。距離レベルが1である場合には、フラグメンテーション部12は基準原子201と、基準原子201の一つ隣に位置する1個の炭素原子とから成る部分構造202を特定する。距離レベルが2である場合には、フラグメンテーション部12はそれら2個の原子に加えて、基準原子201の二つ隣に位置する1個の炭素原子および2個の水素原子を特定し、これら5個の原子から成る部分構造203を特定する。距離レベルが3である場合には、フラグメンテーション部12はそれら5個の原子に加えて、基準原子201の三つ隣に位置する2個の炭素原子を特定し、これら7個の原子から成る部分構造204を特定する。
【0028】
図4は、距離レベルが1である場合に得られる部分構造および出現回数を示す。この例では、フラグメンテーション部12は部分構造211,212,213,214の出現回数をそれぞれ1、1、5、8と特定する。
【0029】
フラグメンテーション部12は、基準原子から最も離れた原子である末端原子を*(アスタリスク)等により表記し、当該末端原子のみが異なる部分構造同士を同じ部分構造として特定してもよい。あるいは、フラグメンテーション部12は、原子間の結合のタイプを区別して部分構造を特定してもよいし、該原子間の結合のタイプを区別せずに部分構造を特定してもよい。一例として、原子間の結合のタイプは、単結合、二重結合である。
【0030】
図2に戻って、ステップS13では、生成部11が機械学習に用いられる1以上の有機化合物を示す化合物データを取得する。以下ではその有機化合物を「サンプル化合物」ともいう。生成部11は、化合物データベース21等の所定の記憶装置から化合物データを読み出してもよいし、ユーザによって入力された化合物データを受け付けてもよいし、別のコンピュータから送信された化合物データを受信してもよい。
【0031】
ステップS14では、フラグメンテーション部12が1以上のサンプル化合物のそれぞれついて、該サンプル化合物の1以上の部分構造を特定し、各部分構造の出現回数を取得する。一例では、フラグメンテーション部12はそれぞれのサンプル化合物に基づいて以下の処理を実行する。フラグメンテーション部12はまず、距離レベルに基づくフラグメント化を実行して、そのサンプル化合物から複数の部分構造を特定する。そして、フラグメンテーション部12は、複数の部分構造のそれぞれの出現回数を出現回数データベース22から取得する。上述したように、取得される出現回数は、有機化合物の集合において部分構造が出現する回数であり、サンプル化合物において部分構造が出現する回数ではないことに留意されたい。
【0032】
ステップS15では、算出部13が1以上のサンプル化合物のそれぞれについて、該サンプル化合物の各部分構造の出現回数に基づいてフラグメントスコアを取得する。一例では、算出部13は1以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれる複数の部分構造の出現回数に関する合計値に基づいてフラグメントスコアを算出する。
【0033】
例えば、算出部13は下記の式(1)によってフラグメントスコアSfを求める。ここで、サンプル化合物に含まれるn種類(nは2以上の整数)の部分構造を部分構造Xi(i=1,2,…,n)とし、該部分構造Xiの出現回数をNi(i=1,2,…,n)とする。
【0034】
【0035】
すなわち、算出部13は、複数の部分構造についての出現回数の対数の和をフラグメントスコアとして求めてもよい。有機化合物の集合から得られた個々の部分構造の出現回数を昇順に並べ、その並びに従って出現回数をグラフで表すと、個々の部分構造の出現回数はべき分布のような傾向を示す。すなわち、部分構造の間で出現回数の差が非常に大きい可能性がある。出現回数を対数によって把握することで出現回数のオーダが小さくなるので、ユーザにとって直感的に理解しやすいフラグメントスコアが得られる。
【0036】
別の例では、算出部13は下記の式(2)によってフラグメントスコアSfを求める。ここで、出現回数が得られた部分構造の全種類数に基づく定数をMとする。一例では、算出部13は、すべての部分構造の出現回数の総和Kallを求める。また、算出部13は出現回数の昇順にすべての部分構造を並べた上で、1番目の部分構造から順に出現回数を積算し、総和Kallに対する所定の割合にその積算値が達した時点での部分構造の種類数を定数Mとして求める。その割合は60~90%の間でもよく、例えば80%でもよい。
【0037】
【0038】
すなわち、算出部13は、複数の部分構造についての、定数Mに対する出現回数の比の対数の和を、フラグメントスコアとして求めてもよい。
【0039】
ステップS16では、算出部13が1以上のサンプル化合物のそれぞれの複雑性ペナルティを算出する。例えば、算出部13は複雑性ペナルティとして、環状構造に関するペナルティPr、立体異性体に関するペナルティPc、大員環に関するペナルティPm、およびサイズに関するペナルティPsのうちの少なくとも一つを算出する。
【0040】
一例では、算出部13は、1以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれる二つの環の間の橋掛け構造を形成する橋掛け原子の個数、およびスピロ環に含まれるスピロ原子の個数に基づいて、環状構造に関するペナルティPrを算出する。例えば、算出部13は下記の式(3)によって環状構造に関するペナルティPrを算出する。
【0041】
【0042】
一例では、算出部13は、1以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれるステレオ中心の個数に基づいて、立体異性体に関するペナルティPcを算出する。ステレオ中心とは、或る基準原子に結合している原子または基が相互に交換されることによって、サンプル化合物の立体異性体が得られる場合における、該基準原子をいう。例えば、算出部13は下記の式(4)によって立体異性体に関するペナルティPcを算出する。
【0043】
【0044】
一例では、算出部13は、1以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれる8員環より大きな環の個数に基づいて、大員環に関するペナルティPmを算出する。例えば、算出部13は下記の式(5)によって大員環に関するペナルティPmを算出する。
【0045】
【0046】
一例では、算出部13は、1以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれる原子の個数に基づいて、該サンプル化合物のサイズに関するペナルティPsを算出する。例えば、算出部13は下記の式(6)によってサイズに関するペナルティPsを算出する。
【0047】
【0048】
一例として、フラグメントスコアを上記式(1)により求める場合には、サイズに関する情報が上記式(1)に間接的に反映されるので、複雑性ペナルティは、サイズに関するペナルティを含まなくてもよい。一方、フラグメントスコアを上記式(2)により求める場合には、複雑性ペナルティは、サイズに関するペナルティを含んでもよい。
【0049】
ステップS17では、生成部11が1以上のサンプル化合物のそれぞれの合成容易性スコアを取得する。生成部11は、ユーザによって入力された合成容易性スコアを受け付けてもよい。一例では、生成部11は、サンプル化合物を評価した複数の専門家によって決定されたスコアの平均値である化学者スコアを合成容易性スコアとして取得してもよい。一例では、化学者スコアは1から10の範囲の値である。有機化合物の合成が容易であるほど、化学者スコアは小さくなる。
【0050】
ステップS18では、生成部11が1以上のサンプル化合物に関する教師データを生成し、該教師データを学習サンプルデータベース23に格納する。生成部11はそれぞれのサンプル化合物について、フラグメントスコア、複雑性ペナルティ、および合成容易性スコアを互いに関連付けてレコードを生成する。複雑性ペナルティは、上述した4種類のペナルティの少なくとも一つを含む。合成容易性スコアは機械学習において正解(ground truth)として用いられる。生成部11は1以上のサンプル化合物に対応する1以上のレコードを学習サンプルデータベース23に格納する。
【0051】
ステップS19では、学習部14がその教師データを用いた機械学習によって、フラグメントスコアおよび複雑性ペナルティから合成容易性スコアを推定するための学習済みモデル19を生成する。学習部14は、機械学習モデルとして、線形回帰、リッジ回帰、ランダムフォレスト回帰、またはニューラルネットワークを用いてもよい。学習部14は学習サンプルデータベース23内の教師データの各レコードについて以下の処理を実行する。学習部14はそのレコードで示されるフラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力し、その機械学習モデルから出力される合成容易性スコアの推定結果を得る。学習部14はその推定結果と、そのレコードで示される合成容易性スコアとの誤差に基づいて、バックプロパゲーション(誤差逆伝播法)等の手法を用いて機械学習モデル内のパラメータを更新する。学習部14は所定の終了条件が満たされるまで、レコードを変更しながら、すなわち入力値を変更しながら機械学習を繰り返す。例えば、終了条件は、学習サンプルデータベース23に含まれるすべてのレコードを処理することであってもよい。学習部14は機械学習が終了した時点での機械学習モデルを学習済みモデル19として出力する。例えば、学習部14は学習済みモデル19を所定の記憶装置に格納する。この学習済みモデル19は推定部15によって用いられる。
【0052】
(合成容易性スコアの推定)
図5を参照しながら、合成容易性スコアの推定について説明する。
図5はその処理の一例を処理フローS2として示すフローチャートである。処理フローS2は運用フェーズに相当する。
【0053】
ステップS21では、推定部15が、合成容易性スコアを推定しようとする有機化合物を示すデータを取得する。以下ではその有機化合物を「対象化合物」ともいう。推定部15は、化合物データベース21等の所定の記憶装置から化合物データを読み出してもよいし、ユーザによって入力された化合物データを受け付けてもよいし、別のコンピュータから送信された化合物データを受信してもよい。
【0054】
ステップS22では、フラグメンテーション部12が対象化合物の1以上の部分構造を特定し、各部分構造の出現回数を取得する。一例では、フラグメンテーション部12は、サンプル化合物に対する処理(ステップS14)と同様の手法により、部分構造を特定し出現回数を取得する。
【0055】
ステップS23では、算出部13が対象化合物の各部分構造の出現回数に基づいてフラグメントスコアを取得する。一例では、フラグメンテーション部12は、サンプル化合物に対する処理(ステップS15)と同様の手法によりフラグメントスコアを算出する。
【0056】
ステップS24では、算出部13が対象化合物の複雑性ペナルティを算出する。一例では、算出部13は、サンプル化合物に対する処理(ステップS16)と同様に複雑性ペナルティを算出する。
【0057】
ステップS25では、推定部15が対象化合物のフラグメントスコアおよび複雑性ペナルティを学習済みモデル19に入力して、該対象化合物の合成容易性スコアを推定する。推定部15は学習済みモデル19から出力される推定値を合成容易性スコアとして取得する。
【0058】
ステップS26では、推定部15がその合成容易性スコアを含む推定結果を出力する。推定結果は、特定された各部分構造、フラグメントスコア、および複雑性ペナルティのうちの少なくとも一つを更に含んでもよい。推定部15は推定結果を、所与のデータベースに格納してもよいし、他のコンピュータまたはコンピュータシステムに向けて送信してもよいし、表示装置上に表示してもよい。あるいは、推定部15は情報処理システム10での後続処理のために推定結果を他の機能モジュールに出力してもよい。
【0059】
[推定例]
図6は17個の有機化合物のそれぞれの合成容易性の一例を示すグラフである。このグラフは、各有機化合物について化学者スコア、推定スコア、およびSAスコア(Synthetic Accessibility score(SAscore))を示す。グラフの横軸は有機化合物のインデックス、すなわち個々の有機化合物を示し、縦軸はスコアを示す。スコアが低いほど、有機化合物の合成が容易である。化学者スコアは正解として見ることができる。推定スコアは、情報処理システム10の学習済みモデル19によって推定された合成容易性スコアである。SAスコアは、合成容易性を評価する方法および指標の一例である。SAスコアは、“よく現れる部分構造は合成し易い”という仮定の下で分子の複雑さに基づいて合成容易性を求める手法である。化学者スコアと同様に、SAスコアは1から10までの範囲に標準化される。SAスコアは、フラグメントスコアから複雑性ペナルティを引いた結果に-1を掛け、1から10までの範囲にスケーリングすることにより得られる。
【0060】
この例では、生成部11はケンブリッジ結晶構造データベースから選択された40個のサンプル化合物に基づいて教師データを生成した。生成部11は合成容易性スコアの正解として化学者スコアを用いた。学習部14はその教師データを用いて、ランダムフォレスト回帰に基づく機械学習モデルを訓練して学習済みモデル19を生成した。推定部15は、40個のサンプル化合物のうちの17個を対象化合物として処理して、各対象化合物の合成容易性スコアを推定した。この推定値は1~10の範囲になると期待される。この一連の処理において、算出部13は上記式(1)によってフラグメントスコアを算出し、上記式(3)~(6)によって得られる4種類のペナルティを複雑性ペナルティとして算出した。
【0061】
下記表1は、インデックスが2,15,16の化合物の化学式、化学者スコア、SAスコア、および推定結果を示す。インデックスが2の有機化合物は「4-tert-butyl-N-[7-hydroxy-8-(hydroxymethyl)-4a,8-dimethyl-4-[2-oxo-2-(prop-2-ynylamino)ethyl]-4,5,6,7,8a,9-hexahydrobenzo[f][1,3]benzothiazol-2-yl]benzamide」である。インデックスが15の有機化合物は「8-[4-(Dimethylamino)-3-hydroxy-6-methyltetrahydro-2H-pyran-2-yloxy]-2-ethyl-1,5,7,9,11,13-hexamethyl-9-{3-[3-(2-quinolyl)-5-isoxazolyl]-2-propynyloxy}-3,17-dioxa-15-azabicyclo[12.3.0]heptadecane-4,6,12,16-tetrone」であり、インデックスが16の有機化合物名は「10,14,15-Trihydroxy-7,9,13-trimethyl-5'-methylenetetrahydrospiro[5-oxapentacyclo[10.8.0.02,9.04,8.013,18]icos-18-ene-6,2'-pyran]-16-ylacetate」である。
【0062】
【0063】
[変形例]
以上、本開示に係る技術をその様々な例に基づいて詳細に説明した。しかし、本開示は上記の例に限定されるものではない。本開示に係る技術については、その要旨を逸脱しない範囲で様々な変形が可能である。
【0064】
本開示に係る情報処理システムは学習部および推定部のいずれか一方を備えなくてもよい。すなわち、情報処理システムは学習フェーズおよび運用フェーズのいずれか一方を実行しなくてもよい。学習済みモデルはコンピュータシステム間で移植可能である。したがって、学習部は他のコンピュータシステムに学習済みモデルを提供してもよく、推定部は他のコンピュータから提供された学習済みモデルを用いてもよい。
【0065】
少なくとも一つのプロセッサにより実行される方法の処理手順は上記の例に限定されない。例えば、上述したステップの一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。
【0066】
本開示における二つの数値の大小関係の比較では、「以上」および「よりも大きい」という二つの基準のどちらが用いられてもよく、「以下」および「未満」の二つの基準のうちのどちらが用いられてもよい。
【0067】
本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第Lの処理を実行する。」との表現、またはこれに対応する表現は、第1の処理から第Lの処理までのL個の処理の実行主体、すなわちプロセッサ、が途中で変わる場合を含む概念を示す。すなわち、この表現は、L個の処理のすべてが同じプロセッサで実行される場合と、L個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。
【0068】
[付記]
上記の様々な例から把握されるとおり、本開示は以下に示す態様を含む。
(付記1)
少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得し、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得する、
情報処理システム。
(付記2)
前記少なくとも一つのプロセッサが、
有機化合物の集合を示す化合物データを記憶する化合物データベースを参照して、該集合に含まれる各有機化合物について前記複数の部分構造を特定し、
前記集合における前記複数の部分構造のそれぞれの出現回数を取得し、
前記出現回数に基づいて前記フラグメントスコアを算出する、
付記1に記載の情報処理システム。
(付記3)
前記少なくとも一つのプロセッサが、前記複数の部分構造についての前記出現回数の対数の和を前記フラグメントスコアとして算出する、
付記2に記載の情報処理システム。
(付記4)
前記複雑性ペナルティが、環状構造に関するペナルティ、立体異性体に関するペナルティ、および大員環に関するペナルティのうちの少なくとも一つを含み、サイズに関するペナルティを含まない、
付記3に記載の情報処理システム。
(付記5)
前記少なくとも一つのプロセッサが、
前記複数の部分構造のそれぞれについて、前記部分構造の種類数に基づく定数に対する前記出現回数の比の対数を算出し、
複数の前記対数の和を前記フラグメントスコアとして算出する、
付記2に記載の情報処理システム。
(付記6)
前記複雑性ペナルティが、サイズに関するペナルティを少なくとも含む、
付記5に記載の情報処理システム。
(付記7)
前記機械学習モデルが、ランダムフォレスト回帰である、
付記1~6に記載の情報処理システム。
(付記8)
少なくとも一つのプロセッサを備える情報処理システムにより実行される情報処理方法であって、
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップと、
を含む情報処理方法。
(付記9)
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップと、
をコンピュータに実行させる情報処理プログラム。
【0069】
付記1,8,9によれば、有機化合物の部分構造および複雑さに着目した機械学習によって、該有機化合物の合成容易性を示す合成容易性スコアが推定される。合成容易性スコアが推定されることにより、容易に合成できる有機化合物を探索することが可能になる。
【0070】
付記2によれば、有機化合物の集合における部分構造の出現の程度を考慮して個々の有機化合物のフラグメントスコアが得られるので、合成容易性スコアを精度良く推定できる。
【0071】
付記3によれば、出現回数の対数を用いることで出現回数のオーダが小さくなるので、ユーザにとって直感的に理解しやすいフラグメントスコアを得ることが可能になる。加えて、サイズが間接的に反映されたフラグメントスコアを得ることができる。したがって、直感的に理解し易く精度の良い合成容易性スコアを推定できる。
【0072】
付記4によれば、サイズに関するペナルティを用いることなく合成容易性スコアが得られる。その分、複雑性ペナルティの算出に掛かる処理負荷を低減できる。
【0073】
付記5によれば、出現回数の対数を用いることで出現回数のオーダが小さくなるので、ユーザにとって直感的に理解しやすいフラグメントスコアを得ることが可能になる。加えて、部分構造の種類数との関係も考慮されたフラグメントスコアを得ることができる。したがって、直感的に理解し易く精度の良い合成容易性スコアを推定できる。
【0074】
付記6によれば、サイズに関するペナルティが考慮されるので、サイズが考慮された合成容易性スコアが得られる。したがって、合成容易性スコアを精度良く推定できる。
【0075】
付記7によれば、ランダムフォレスト回帰に基づく機械学習モデルが用いられるので、教師データの量が少ない場合でも、精度の良い学習済みモデルを生成できる。
【符号の説明】
【0076】
10…情報処理システム、11…生成部、12…フラグメンテーション部、13…算出部、14…学習部、15…推定部、19…学習済みモデル、21…化合物データベース、22…出現回数データベース、23…学習サンプルデータベース、101…プロセッサ。