特開2024-127560 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立化成株式会社の特許一覧

特開2024-127560情報処理システム、情報処理方法、および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024127560

(43)【公開日】2024-09-20

(54)【発明の名称】情報処理システム、情報処理方法、および情報処理プログラム

(51)【国際特許分類】

G16C 20/10 20190101AFI20240912BHJP

G06N 20/00 20190101ALI20240912BHJP

【ＦＩ】

G16C20/10

G06N20/00

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023036792

(22)【出願日】2023-03-09

(71)【出願人】

【識別番号】000004455

【氏名又は名称】株式会社レゾナック

(74)【代理人】

【識別番号】100088155

【弁理士】

【氏名又は名称】長谷川芳樹

(74)【代理人】

【識別番号】100128381

【弁理士】

【氏名又は名称】清水義憲

(74)【代理人】

【識別番号】100169454

【弁理士】

【氏名又は名称】平野裕之

(74)【代理人】

【識別番号】100144440

【弁理士】

【氏名又は名称】保坂一之

(72)【発明者】

【氏名】小川秀之

(72)【発明者】

【氏名】松井弘之

(72)【発明者】

【氏名】本間友

(57)【要約】

【課題】容易に合成できる有機化合物を探索する。
【解決手段】情報処理システムは、有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得し、フラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力して、有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得する。
【選択図】図１

【特許請求の範囲】

【請求項1】

少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得し、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得する、
情報処理システム。

【請求項2】

前記少なくとも一つのプロセッサが、
有機化合物の集合を示す化合物データを記憶する化合物データベースを参照して、該集合に含まれる各有機化合物について前記複数の部分構造を特定し、
前記集合における前記複数の部分構造のそれぞれの出現回数を取得し、
前記出現回数に基づいて前記フラグメントスコアを算出する、
請求項１に記載の情報処理システム。

【請求項3】

前記少なくとも一つのプロセッサが、前記複数の部分構造についての前記出現回数の対数の和を前記フラグメントスコアとして算出する、
請求項２に記載の情報処理システム。

【請求項4】

前記複雑性ペナルティが、環状構造に関するペナルティ、立体異性体に関するペナルティ、および大員環に関するペナルティのうちの少なくとも一つを含み、サイズに関するペナルティを含まない、
請求項３に記載の情報処理システム。

【請求項5】

前記少なくとも一つのプロセッサが、
前記複数の部分構造のそれぞれについて、前記部分構造の種類数に基づく定数に対する前記出現回数の比の対数を算出し、
複数の前記対数の和を前記フラグメントスコアとして算出する、
請求項２に記載の情報処理システム。

【請求項6】

前記複雑性ペナルティが、サイズに関するペナルティを少なくとも含む、
請求項５に記載の情報処理システム。

【請求項7】

前記機械学習モデルが、ランダムフォレスト回帰である、
請求項１～６のいずれか一項に記載の情報処理システム。

【請求項8】

少なくとも一つのプロセッサを備える情報処理システムにより実行される情報処理方法であって、
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップと、
を含む情報処理方法。

【請求項9】

有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップと、
をコンピュータに実行させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示の一側面は、情報処理システム、情報処理方法、および情報処理プログラムに関する。

【背景技術】

【0002】

非特許文献１には、合計１７１０種類のキノン（Ｑ）およびハイドロキノン（ＱＨ２）酸化還元対の研究に適用した高スループット計算スクリーニング法が記載されている。非特許文献２には、２４０種類のリチウムイオン電導性固体高分子電解質のデータベースを新たに構築し、そのデータベースの機械学習により解析する手法が記載されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】S Er, C Suh, MP Marshak, A Aspuru-Guzik, “Computationaldesign of molecules for an all-quinone redox flow battery,” Chem. Sci. 2015, 6 (2), 885-893. doi: 10.1039/c4sc03030c

【非特許文献2】Hatakeyama Sato, K., Tezuka, T., Nishikitani, Y., Nishide, H., andOyaizu, K. “Synthesis of Lithium-ion ConductingPolymers Designed by Machine Learning-based Prediction and Screening.” Chem. Lett. 2019, 48, 130-132. doi: 10.1246/cl.180847

【発明の概要】

【発明が解決しようとする課題】

【0004】

容易に合成できる有機化合物を探索するための新たな手法が望まれている。

【課題を解決するための手段】

【0005】

本開示の一側面に係る情報処理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得し、フラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力して、有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得する。

【0006】

本開示の一側面に係る情報処理方法は、少なくとも一つのプロセッサを備える情報処理システムにより実行される。この情報処理方法は、有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、フラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力して、有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップとを含む。

【0007】

本開示の一側面に係る情報処理プログラムは、有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、フラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力して、有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップとをコンピュータに実行させる。

【0008】

このような側面においては、有機化合物の部分構造および複雑さに着目した機械学習によって、該有機化合物の合成容易性を示す合成容易性スコアが推定される。この処理により、容易に合成できる有機化合物を探索することが可能になる。

【発明の効果】

【0009】

本開示の一側面によれば、容易に合成できる有機化合物を探索することが可能になる。

【図面の簡単な説明】

【0010】

【図1】情報処理システムの機能構成の一例を示す図である。

【図2】学習済みモデルの生成の一例を示すフローチャートである。

【図3】部分構造の特定の一例を示す図である。

【図4】部分構造の出現回数の一例を示す図である。

【図5】合成容易性スコアの推定の一例を示すフローチャートである。

【図6】合成容易性に関する各種スコアを示すグラフである。

【発明を実施するための形態】

【0011】

以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。

【0012】

［システムの概要］
一例に係る情報処理システム１０は、有機化合物の合成容易性を示す合成容易性スコアを機械学習によって推定するコンピュータシステムである。機械学習とは、与えられた情報に基づいて反復的に学習することで、法則またはルールを自律的に見つけ出す手法をいう。合成容易性とは、化合物の合成がどれくらい容易であるかを示す指標をいう。

【0013】

情報処理システム１０は様々な目的のために利用され得る。例えば、情報処理システム１０は、特定の製品において用いられ容易に合成できる有機化合物を探索するために用いられてよい。その探索の例として、情報処理システム１０は、充電によって繰り返し利用可能な電池である二次電池の活物質としての有機化合物を探索するために用いられてよい。その活物質は正極活物質および負極活物質の少なくとも一方でもよい。

【0014】

［システムの構成］
情報処理システム１０は１以上のコンピュータで構成される。複数のコンピュータが用いられる場合には、これらのコンピュータが例えばインターネット、イントラネット等の通信ネットワークを介して接続されることで、論理的に一つの情報処理システム１０が構築される。

【0015】

情報処理システム１０を構成するコンピュータは、一般にハードウェア装置としてプロセッサ、メモリ、および通信インタフェースを備える。プロセッサは例えばＣＰＵであり、メモリはフラッシュメモリ、ハードディスク等で構成される。情報処理システム１０の各機能は、プロセッサが、メモリに格納されているプログラムを実行することで実現される。

【0016】

コンピュータを情報処理システム１０として機能させるための情報処理プログラムは、情報処理システム１０の各機能モジュールを実現するためのプログラムコードを含む。この情報処理プログラムは、例えばＣＤ―ＲＯＭ、ＤＶＤ―ＲＯＭ、または半導体メモリの有形の記録媒体に非一時的に記録された上で提供されてもよい。あるいは、情報処理プログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供された情報処理プログラムは例えばメモリに記録される。

【0017】

図１は情報処理システム１０の機能構成の一例を示す図である。この例では、情報処理システム１０はプロセッサ１０１を備える。一例では、プロセッサ１０１は、生成部１１、フラグメンテーション部１２、算出部１３、学習部１４、および推定部１５として機能する。生成部１１は、機械学習において用いられる教師データを生成する機能モジュールである。一例として、教師データは、それぞれの有機化合物についての、フラグメントスコア、複雑性ペナルティ、および合成容易性スコアの組合せを示す。フラグメントスコアとは、有機化合物に含まれる複数の部分構造に基づく指標をいう。部分構造とは、有機化合物の一部を構成する分子構造または原子をいう。複雑性ペナルティとは、有機化合物の複雑さに関する指標をいう。フラグメンテーション部１２は、有機化合物の部分構造を特定し、該部分構造の出現回数を算出または取得する機能モジュールである。本開示では、部分構造を特定する処理を「フラグメント化」ともいう。出現回数とは、有機化合物の集合において部分構造が出現する回数をいう。算出部１３は、有機化合物のフラグメントスコアおよび複雑性ペナルティを算出する機能モジュールである。算出部１３はフラグメントスコアの計算において出現回数を考慮する。学習部１４は、教師データを用いた機械学習によって所定の機械学習モデルを訓練して、学習済みモデル１９を生成する機能モジュールである。推定部１５は、その学習済みモデル１９を用いて有機化合物の合成容易性スコアを推定する機能モジュールである。

【0018】

一例では、情報処理システム１０は化合物データベース２１、出現回数データベース２２、および学習サンプルデータベース２３にアクセスする。化合物データベース２１は、有機化合物の構造を示す化合物データを記憶するデータベースである。一例では、化合物データベース２１は、米国の国立生物工学情報センター（ＮＣＢＩ）によって提供されているＰｕｂＣｈｅｍデータベースであってもよいし、ケンブリッジ結晶学データセンター（ＣＣＤＣ）によって提供されているケンブリッジ結晶構造データベース（ＣＳＤ）であってもよい。出現回数データベース２２は、部分構造の出現回数を記憶するデータベースである。学習サンプルデータベース２３は教師データを記憶するデータベースである。化合物データベース２１、出現回数データベース２２、および学習サンプルデータベース２３はいずれも、情報処理システム１０の構成要素であってもよいし、情報処理システム１０とは別のコンピュータシステム内に設けられてもよい。

【0019】

［システムの動作］
以下では、情報処理システム１０の動作の一例を説明するとともに、一例に係る情報処理方法の一例を説明する。

【0020】

（学習済みモデルの生成）
図２を参照しながら、学習済みモデル１９の生成について説明する。図２はその処理の一例を処理フローＳ１として示すフローチャートである。処理フローＳ１は学習フェーズに相当する。

【0021】

ステップＳ１１では、フラグメンテーション部１２が複数の有機化合物の集合に対応する化合物データを化合物データベース２１から取得する。

【0022】

ステップＳ１２では、フラグメンテーション部１２がその集合における各部分構造の出現回数を算出する。フラグメンテーション部１２はまず、それぞれの有機化合物について複数の部分構造を特定する。そして、フラグメンテーション部１２は、それぞれの部分構造について、有機化合物の集合における出現回数を算出する。フラグメンテーション部１２は、部分構造および出現回数の複数の組合せに対応する複数のレコードを生成し、これらのレコードを出現回数データベース２２に格納する。

【0023】

一例では、フラグメンテーション部１２は或る一つの有機化合物について次のようにフラグメント化を実行する。フラグメンテーション部１２は、一つの基準原子と、該基準原子のｊ個隣までの範囲に位置する少なくとも一つの原子とから成るパターンに基づいて複数の部分構造を特定する。フラグメンテーション部１２はその有機化合物を成すそれぞれの原子を基準原子として設定して、その基準原子を含む部分構造（パターン）を特定し、その部分構造の出現回数をカウントする。値ｊを便宜的に距離レベルというとすると、フラグメンテーション部１２はその有機化合物について、距離レベルを１ずつインクリメントしながら、個々の距離レベルに関して、部分構造を特定し出現回数をカウントする。例えば、フラグメンテーション部１２は距離レベル１～３のそれぞれに関して、部分構造を特定し出現回数をカウントしてもよい。フラグメンテーション部１２は所定の距離レベルのそれぞれについて部分構造および出現回数の組合せを特定した後に、各部分構造の出現回数を集計する。

【0024】

フラグメンテーション部１２は、少なくとも一部が連続しない複数の任意の距離レベルのそれぞれに関して、部分構造を特定し出現回数をカウントしてもよい。このような距離レベルの設定の例として、１，３という２個の距離レベルと、２，３，５という３個の距離レベルとが挙げられる。あるいは、フラグメンテーション部１２は、単一の任意の距離レベルに関して、部分構造を特定し出現回数をカウントしてもよい。距離レベルは４以上であってもよい。

【0025】

フラグメンテーション部１２は各有機化合物について、このように部分構造を特定し出現回数を集計する。続いて、フラグメンテーション部１２は各部分構造について、有機化合物の集合における出現回数を算出する。そして、フラグメンテーション部１２は部分構造および出現回数の組合せを示すレコードを生成し、それぞれのレコードを出現回数データベース２２に格納する。

【0026】

図３および図４を参照しながら、距離レベルに基づく部分構造の特定について説明する。図３は一つの基準原子に対応するフラグメント化の一例を示す図である。図４は部分構造および出現回数の一例を示す図である。図３および図４のいずれも有機化合物としてトルエンを示す。

【0027】

図３の例では、フラグメンテーション部１２は一つの水素原子を基準原子２０１として選択している。距離レベルが１である場合には、フラグメンテーション部１２は基準原子２０１と、基準原子２０１の一つ隣に位置する１個の炭素原子とから成る部分構造２０２を特定する。距離レベルが２である場合には、フラグメンテーション部１２はそれら２個の原子に加えて、基準原子２０１の二つ隣に位置する１個の炭素原子および２個の水素原子を特定し、これら５個の原子から成る部分構造２０３を特定する。距離レベルが３である場合には、フラグメンテーション部１２はそれら５個の原子に加えて、基準原子２０１の三つ隣に位置する２個の炭素原子を特定し、これら７個の原子から成る部分構造２０４を特定する。

【0028】

図４は、距離レベルが１である場合に得られる部分構造および出現回数を示す。この例では、フラグメンテーション部１２は部分構造２１１，２１２，２１３，２１４の出現回数をそれぞれ１、１、５、８と特定する。

【0029】

フラグメンテーション部１２は、基準原子から最も離れた原子である末端原子を＊（アスタリスク）等により表記し、当該末端原子のみが異なる部分構造同士を同じ部分構造として特定してもよい。あるいは、フラグメンテーション部１２は、原子間の結合のタイプを区別して部分構造を特定してもよいし、該原子間の結合のタイプを区別せずに部分構造を特定してもよい。一例として、原子間の結合のタイプは、単結合、二重結合である。

【0030】

図２に戻って、ステップＳ１３では、生成部１１が機械学習に用いられる１以上の有機化合物を示す化合物データを取得する。以下ではその有機化合物を「サンプル化合物」ともいう。生成部１１は、化合物データベース２１等の所定の記憶装置から化合物データを読み出してもよいし、ユーザによって入力された化合物データを受け付けてもよいし、別のコンピュータから送信された化合物データを受信してもよい。

【0031】

ステップＳ１４では、フラグメンテーション部１２が１以上のサンプル化合物のそれぞれついて、該サンプル化合物の１以上の部分構造を特定し、各部分構造の出現回数を取得する。一例では、フラグメンテーション部１２はそれぞれのサンプル化合物に基づいて以下の処理を実行する。フラグメンテーション部１２はまず、距離レベルに基づくフラグメント化を実行して、そのサンプル化合物から複数の部分構造を特定する。そして、フラグメンテーション部１２は、複数の部分構造のそれぞれの出現回数を出現回数データベース２２から取得する。上述したように、取得される出現回数は、有機化合物の集合において部分構造が出現する回数であり、サンプル化合物において部分構造が出現する回数ではないことに留意されたい。

【0032】

ステップＳ１５では、算出部１３が１以上のサンプル化合物のそれぞれについて、該サンプル化合物の各部分構造の出現回数に基づいてフラグメントスコアを取得する。一例では、算出部１３は１以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれる複数の部分構造の出現回数に関する合計値に基づいてフラグメントスコアを算出する。

【0033】

例えば、算出部１３は下記の式（１）によってフラグメントスコアＳ_ｆを求める。ここで、サンプル化合物に含まれるｎ種類（ｎは２以上の整数）の部分構造を部分構造Ｘ_ｉ（ｉ＝１，２，…，ｎ）とし、該部分構造Ｘ_ｉの出現回数をＮ_ｉ（ｉ＝１，２，…，ｎ）とする。

【0034】

【数1】

【0035】

すなわち、算出部１３は、複数の部分構造についての出現回数の対数の和をフラグメントスコアとして求めてもよい。有機化合物の集合から得られた個々の部分構造の出現回数を昇順に並べ、その並びに従って出現回数をグラフで表すと、個々の部分構造の出現回数はべき分布のような傾向を示す。すなわち、部分構造の間で出現回数の差が非常に大きい可能性がある。出現回数を対数によって把握することで出現回数のオーダが小さくなるので、ユーザにとって直感的に理解しやすいフラグメントスコアが得られる。

【0036】

別の例では、算出部１３は下記の式（２）によってフラグメントスコアＳ_ｆを求める。ここで、出現回数が得られた部分構造の全種類数に基づく定数をＭとする。一例では、算出部１３は、すべての部分構造の出現回数の総和Ｋ_ａｌｌを求める。また、算出部１３は出現回数の昇順にすべての部分構造を並べた上で、１番目の部分構造から順に出現回数を積算し、総和Ｋ_ａｌｌに対する所定の割合にその積算値が達した時点での部分構造の種類数を定数Ｍとして求める。その割合は６０～９０％の間でもよく、例えば８０％でもよい。

【0037】

【数2】

【0038】

すなわち、算出部１３は、複数の部分構造についての、定数Ｍに対する出現回数の比の対数の和を、フラグメントスコアとして求めてもよい。

【0039】

ステップＳ１６では、算出部１３が１以上のサンプル化合物のそれぞれの複雑性ペナルティを算出する。例えば、算出部１３は複雑性ペナルティとして、環状構造に関するペナルティＰ_ｒ、立体異性体に関するペナルティＰ_ｃ、大員環に関するペナルティＰ_ｍ、およびサイズに関するペナルティＰ_ｓのうちの少なくとも一つを算出する。

【0040】

一例では、算出部１３は、１以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれる二つの環の間の橋掛け構造を形成する橋掛け原子の個数、およびスピロ環に含まれるスピロ原子の個数に基づいて、環状構造に関するペナルティＰ_ｒを算出する。例えば、算出部１３は下記の式（３）によって環状構造に関するペナルティＰ_ｒを算出する。

【0041】

【数3】

【0042】

一例では、算出部１３は、１以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれるステレオ中心の個数に基づいて、立体異性体に関するペナルティＰ_ｃを算出する。ステレオ中心とは、或る基準原子に結合している原子または基が相互に交換されることによって、サンプル化合物の立体異性体が得られる場合における、該基準原子をいう。例えば、算出部１３は下記の式（４）によって立体異性体に関するペナルティＰ_ｃを算出する。

【0043】

【数4】

【0044】

一例では、算出部１３は、１以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれる８員環より大きな環の個数に基づいて、大員環に関するペナルティＰ_ｍを算出する。例えば、算出部１３は下記の式（５）によって大員環に関するペナルティＰ_ｍを算出する。

【0045】

【数5】

【0046】

一例では、算出部１３は、１以上のサンプル化合物のそれぞれについて、該サンプル化合物に含まれる原子の個数に基づいて、該サンプル化合物のサイズに関するペナルティＰ_ｓを算出する。例えば、算出部１３は下記の式（６）によってサイズに関するペナルティＰ_ｓを算出する。

【0047】

【数6】

【0048】

一例として、フラグメントスコアを上記式（１）により求める場合には、サイズに関する情報が上記式（１）に間接的に反映されるので、複雑性ペナルティは、サイズに関するペナルティを含まなくてもよい。一方、フラグメントスコアを上記式（２）により求める場合には、複雑性ペナルティは、サイズに関するペナルティを含んでもよい。

【0049】

ステップＳ１７では、生成部１１が１以上のサンプル化合物のそれぞれの合成容易性スコアを取得する。生成部１１は、ユーザによって入力された合成容易性スコアを受け付けてもよい。一例では、生成部１１は、サンプル化合物を評価した複数の専門家によって決定されたスコアの平均値である化学者スコアを合成容易性スコアとして取得してもよい。一例では、化学者スコアは１から１０の範囲の値である。有機化合物の合成が容易であるほど、化学者スコアは小さくなる。

【0050】

ステップＳ１８では、生成部１１が１以上のサンプル化合物に関する教師データを生成し、該教師データを学習サンプルデータベース２３に格納する。生成部１１はそれぞれのサンプル化合物について、フラグメントスコア、複雑性ペナルティ、および合成容易性スコアを互いに関連付けてレコードを生成する。複雑性ペナルティは、上述した４種類のペナルティの少なくとも一つを含む。合成容易性スコアは機械学習において正解（ｇｒｏｕｎｄｔｒｕｔｈ）として用いられる。生成部１１は１以上のサンプル化合物に対応する１以上のレコードを学習サンプルデータベース２３に格納する。

【0051】

ステップＳ１９では、学習部１４がその教師データを用いた機械学習によって、フラグメントスコアおよび複雑性ペナルティから合成容易性スコアを推定するための学習済みモデル１９を生成する。学習部１４は、機械学習モデルとして、線形回帰、リッジ回帰、ランダムフォレスト回帰、またはニューラルネットワークを用いてもよい。学習部１４は学習サンプルデータベース２３内の教師データの各レコードについて以下の処理を実行する。学習部１４はそのレコードで示されるフラグメントスコアおよび複雑性ペナルティを機械学習モデルに入力し、その機械学習モデルから出力される合成容易性スコアの推定結果を得る。学習部１４はその推定結果と、そのレコードで示される合成容易性スコアとの誤差に基づいて、バックプロパゲーション（誤差逆伝播法）等の手法を用いて機械学習モデル内のパラメータを更新する。学習部１４は所定の終了条件が満たされるまで、レコードを変更しながら、すなわち入力値を変更しながら機械学習を繰り返す。例えば、終了条件は、学習サンプルデータベース２３に含まれるすべてのレコードを処理することであってもよい。学習部１４は機械学習が終了した時点での機械学習モデルを学習済みモデル１９として出力する。例えば、学習部１４は学習済みモデル１９を所定の記憶装置に格納する。この学習済みモデル１９は推定部１５によって用いられる。

【0052】

（合成容易性スコアの推定）
図５を参照しながら、合成容易性スコアの推定について説明する。図５はその処理の一例を処理フローＳ２として示すフローチャートである。処理フローＳ２は運用フェーズに相当する。

【0053】

ステップＳ２１では、推定部１５が、合成容易性スコアを推定しようとする有機化合物を示すデータを取得する。以下ではその有機化合物を「対象化合物」ともいう。推定部１５は、化合物データベース２１等の所定の記憶装置から化合物データを読み出してもよいし、ユーザによって入力された化合物データを受け付けてもよいし、別のコンピュータから送信された化合物データを受信してもよい。

【0054】

ステップＳ２２では、フラグメンテーション部１２が対象化合物の１以上の部分構造を特定し、各部分構造の出現回数を取得する。一例では、フラグメンテーション部１２は、サンプル化合物に対する処理（ステップＳ１４）と同様の手法により、部分構造を特定し出現回数を取得する。

【0055】

ステップＳ２３では、算出部１３が対象化合物の各部分構造の出現回数に基づいてフラグメントスコアを取得する。一例では、フラグメンテーション部１２は、サンプル化合物に対する処理（ステップＳ１５）と同様の手法によりフラグメントスコアを算出する。

【0056】

ステップＳ２４では、算出部１３が対象化合物の複雑性ペナルティを算出する。一例では、算出部１３は、サンプル化合物に対する処理（ステップＳ１６）と同様に複雑性ペナルティを算出する。

【0057】

ステップＳ２５では、推定部１５が対象化合物のフラグメントスコアおよび複雑性ペナルティを学習済みモデル１９に入力して、該対象化合物の合成容易性スコアを推定する。推定部１５は学習済みモデル１９から出力される推定値を合成容易性スコアとして取得する。

【0058】

ステップＳ２６では、推定部１５がその合成容易性スコアを含む推定結果を出力する。推定結果は、特定された各部分構造、フラグメントスコア、および複雑性ペナルティのうちの少なくとも一つを更に含んでもよい。推定部１５は推定結果を、所与のデータベースに格納してもよいし、他のコンピュータまたはコンピュータシステムに向けて送信してもよいし、表示装置上に表示してもよい。あるいは、推定部１５は情報処理システム１０での後続処理のために推定結果を他の機能モジュールに出力してもよい。

【0059】

［推定例］
図６は１７個の有機化合物のそれぞれの合成容易性の一例を示すグラフである。このグラフは、各有機化合物について化学者スコア、推定スコア、およびＳＡスコア（ＳｙｎｔｈｅｔｉｃＡｃｃｅｓｓｉｂｉｌｉｔｙｓｃｏｒｅ（ＳＡｓｃｏｒｅ））を示す。グラフの横軸は有機化合物のインデックス、すなわち個々の有機化合物を示し、縦軸はスコアを示す。スコアが低いほど、有機化合物の合成が容易である。化学者スコアは正解として見ることができる。推定スコアは、情報処理システム１０の学習済みモデル１９によって推定された合成容易性スコアである。ＳＡスコアは、合成容易性を評価する方法および指標の一例である。ＳＡスコアは、“よく現れる部分構造は合成し易い”という仮定の下で分子の複雑さに基づいて合成容易性を求める手法である。化学者スコアと同様に、ＳＡスコアは１から１０までの範囲に標準化される。ＳＡスコアは、フラグメントスコアから複雑性ペナルティを引いた結果に－１を掛け、１から１０までの範囲にスケーリングすることにより得られる。

【0060】

この例では、生成部１１はケンブリッジ結晶構造データベースから選択された４０個のサンプル化合物に基づいて教師データを生成した。生成部１１は合成容易性スコアの正解として化学者スコアを用いた。学習部１４はその教師データを用いて、ランダムフォレスト回帰に基づく機械学習モデルを訓練して学習済みモデル１９を生成した。推定部１５は、４０個のサンプル化合物のうちの１７個を対象化合物として処理して、各対象化合物の合成容易性スコアを推定した。この推定値は１～１０の範囲になると期待される。この一連の処理において、算出部１３は上記式（１）によってフラグメントスコアを算出し、上記式（３）～（６）によって得られる４種類のペナルティを複雑性ペナルティとして算出した。

【0061】

下記表１は、インデックスが２，１５，１６の化合物の化学式、化学者スコア、ＳＡスコア、および推定結果を示す。インデックスが２の有機化合物は「4-tert-butyl-N-[7-hydroxy-8-(hydroxymethyl)-4a,8-dimethyl-4-[2-oxo-2-(prop-2-ynylamino)ethyl]-4,5,6,7,8a,9-hexahydrobenzo[f][1,3]benzothiazol-2-yl]benzamide」である。インデックスが１５の有機化合物は「8-[4-(Dimethylamino)-3-hydroxy-6-methyltetrahydro-2H-pyran-2-yloxy]-2-ethyl-1,5,7,9,11,13-hexamethyl-9-{3-[3-(2-quinolyl)-5-isoxazolyl]-2-propynyloxy}-3,17-dioxa-15-azabicyclo[12.3.0]heptadecane-4,6,12,16-tetrone」であり、インデックスが１６の有機化合物名は「10,14,15-Trihydroxy-7,9,13-trimethyl-5'-methylenetetrahydrospiro[5-oxapentacyclo[10.8.0.02,9.04,8.013,18]icos-18-ene-6,2'-pyran]-16-ylacetate」である。

【0062】

【表1】

【0063】

［変形例］
以上、本開示に係る技術をその様々な例に基づいて詳細に説明した。しかし、本開示は上記の例に限定されるものではない。本開示に係る技術については、その要旨を逸脱しない範囲で様々な変形が可能である。

【0064】

本開示に係る情報処理システムは学習部および推定部のいずれか一方を備えなくてもよい。すなわち、情報処理システムは学習フェーズおよび運用フェーズのいずれか一方を実行しなくてもよい。学習済みモデルはコンピュータシステム間で移植可能である。したがって、学習部は他のコンピュータシステムに学習済みモデルを提供してもよく、推定部は他のコンピュータから提供された学習済みモデルを用いてもよい。

【0065】

少なくとも一つのプロセッサにより実行される方法の処理手順は上記の例に限定されない。例えば、上述したステップの一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の２以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。

【0066】

本開示における二つの数値の大小関係の比較では、「以上」および「よりも大きい」という二つの基準のどちらが用いられてもよく、「以下」および「未満」の二つの基準のうちのどちらが用いられてもよい。

【0067】

本開示において、「少なくとも一つのプロセッサが、第１の処理を実行し、第２の処理を実行し、…第Ｌの処理を実行する。」との表現、またはこれに対応する表現は、第１の処理から第Ｌの処理までのＬ個の処理の実行主体、すなわちプロセッサ、が途中で変わる場合を含む概念を示す。すなわち、この表現は、Ｌ個の処理のすべてが同じプロセッサで実行される場合と、Ｌ個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。

【0068】

［付記］
上記の様々な例から把握されるとおり、本開示は以下に示す態様を含む。
（付記１）
少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得し、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得する、
情報処理システム。
（付記２）
前記少なくとも一つのプロセッサが、
有機化合物の集合を示す化合物データを記憶する化合物データベースを参照して、該集合に含まれる各有機化合物について前記複数の部分構造を特定し、
前記集合における前記複数の部分構造のそれぞれの出現回数を取得し、
前記出現回数に基づいて前記フラグメントスコアを算出する、
付記１に記載の情報処理システム。
（付記３）
前記少なくとも一つのプロセッサが、前記複数の部分構造についての前記出現回数の対数の和を前記フラグメントスコアとして算出する、
付記２に記載の情報処理システム。
（付記４）
前記複雑性ペナルティが、環状構造に関するペナルティ、立体異性体に関するペナルティ、および大員環に関するペナルティのうちの少なくとも一つを含み、サイズに関するペナルティを含まない、
付記３に記載の情報処理システム。
（付記５）
前記少なくとも一つのプロセッサが、
前記複数の部分構造のそれぞれについて、前記部分構造の種類数に基づく定数に対する前記出現回数の比の対数を算出し、
複数の前記対数の和を前記フラグメントスコアとして算出する、
付記２に記載の情報処理システム。
（付記６）
前記複雑性ペナルティが、サイズに関するペナルティを少なくとも含む、
付記５に記載の情報処理システム。
（付記７）
前記機械学習モデルが、ランダムフォレスト回帰である、
付記１～６に記載の情報処理システム。
（付記８）
少なくとも一つのプロセッサを備える情報処理システムにより実行される情報処理方法であって、
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップと、
を含む情報処理方法。
（付記９）
有機化合物に含まれる複数の部分構造に基づくフラグメントスコアと、該有機化合物の複雑さに関する複雑性ペナルティとを取得するステップと、
前記フラグメントスコアおよび前記複雑性ペナルティを機械学習モデルに入力して、前記有機化合物の合成容易性を示す合成容易性スコアを該機械学習モデルから取得するステップと、
をコンピュータに実行させる情報処理プログラム。

【0069】

付記１，８，９によれば、有機化合物の部分構造および複雑さに着目した機械学習によって、該有機化合物の合成容易性を示す合成容易性スコアが推定される。合成容易性スコアが推定されることにより、容易に合成できる有機化合物を探索することが可能になる。

【0070】

付記２によれば、有機化合物の集合における部分構造の出現の程度を考慮して個々の有機化合物のフラグメントスコアが得られるので、合成容易性スコアを精度良く推定できる。

【0071】

付記３によれば、出現回数の対数を用いることで出現回数のオーダが小さくなるので、ユーザにとって直感的に理解しやすいフラグメントスコアを得ることが可能になる。加えて、サイズが間接的に反映されたフラグメントスコアを得ることができる。したがって、直感的に理解し易く精度の良い合成容易性スコアを推定できる。

【0072】

付記４によれば、サイズに関するペナルティを用いることなく合成容易性スコアが得られる。その分、複雑性ペナルティの算出に掛かる処理負荷を低減できる。

【0073】

付記５によれば、出現回数の対数を用いることで出現回数のオーダが小さくなるので、ユーザにとって直感的に理解しやすいフラグメントスコアを得ることが可能になる。加えて、部分構造の種類数との関係も考慮されたフラグメントスコアを得ることができる。したがって、直感的に理解し易く精度の良い合成容易性スコアを推定できる。

【0074】

付記６によれば、サイズに関するペナルティが考慮されるので、サイズが考慮された合成容易性スコアが得られる。したがって、合成容易性スコアを精度良く推定できる。

【0075】

付記７によれば、ランダムフォレスト回帰に基づく機械学習モデルが用いられるので、教師データの量が少ない場合でも、精度の良い学習済みモデルを生成できる。

【符号の説明】

【0076】

１０…情報処理システム、１１…生成部、１２…フラグメンテーション部、１３…算出部、１４…学習部、１５…推定部、１９…学習済みモデル、２１…化合物データベース、２２…出現回数データベース、２３…学習サンプルデータベース、１０１…プロセッサ。

【図1】