(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-28
(54)【発明の名称】所望の有機分子に対して有機合成経路を設計するためのシステムおよび方法
(51)【国際特許分類】
G16C 20/10 20190101AFI20221221BHJP
G06F 30/27 20200101ALI20221221BHJP
【FI】
G16C20/10
G06F30/27
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022520409
(86)(22)【出願日】2020-10-01
(85)【翻訳文提出日】2022-05-26
(86)【国際出願番号】 IB2020000815
(87)【国際公開番号】W WO2021064461
(87)【国際公開日】2021-04-08
(32)【優先日】2019-10-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522129546
【氏名又は名称】モレキュール ワン エスピー.ゼット オー.オー.
(74)【代理人】
【識別番号】100114775
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】ウロダークジーク-プラスジンスキ,パウエル
(72)【発明者】
【氏名】ビアスキ,ピョートル
(72)【発明者】
【氏名】ラスカルゼウスキ,パウエル
(72)【発明者】
【氏名】サチャ,ミコライ
(72)【発明者】
【氏名】ブラズ,ミコライ
(72)【発明者】
【氏名】ピルコウスキ,スジモン
(72)【発明者】
【氏名】ブルーノ-カミンスキ,マテウス
(72)【発明者】
【氏名】スタインスロウ,ジャストゥルゼブスキ
【テーマコード(参考)】
5B146
【Fターム(参考)】
5B146AA10
5B146DC03
5B146DC04
5B146DE16
5B146DG04
5B146DL08
(57)【要約】
方法およびシステムは、ユーザー提案された標的分子、ユーザー提供された反応制約、または両方の組合わせを所与として、化学反応を合成するための提案された経路を提供する。実施形態は、既知またはモデルの事前の使用によって作成された、既知の成功反応および実現不可能な反応の両方を使用してモデルを訓練することを利用し得る。標的分子および基質を生成するための化学反応は、モデルを使用して提案される。提案された反応から、合成経路が抽出され、費用推定に従ってランク付けされる。ランク付けされた合成経路は次いでユーザーに提供される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも1つのソフトウェアモジュールからのモジュールにより、第1の分子構造を受信することと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、前記第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、前記第1の分子構造を合成するための第1の複数の反応を提案することであって、前記第1の複数の反応の少なくとも1つは、前記モジュールによって作成されていて、データベースから取得されていないことと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、前記第1の複数の反応から、前記第1の分子構造を生成する少なくとも1つの第1の経路を抽出することと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、各抽出された第1の経路に対する費用を予測することと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、前記予測された費用に従って各抽出された第1の経路をランク付けすることと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、各第1の経路を前記ランキングによって決定された順序で含むリストを提供することと
を含む、方法。
【請求項2】
前記少なくとも1つのソフトウェアモジュールからの前記モジュールにより、前記第1の分子構造に加えて、前記第1の複数の反応の前記決定に関する制約を受信することをさらに含み、前記モジュールは、前記第1の複数の反応の決定における前記制約に従う、請求項1に記載の方法。
【請求項3】
前記制約は、前記第1の分子構造を参照して定義され、前記モジュールは、前記第1の複数の反応の決定における前記制約に従う、請求項2に記載の方法。
【請求項4】
抽出された第1の経路を選択することと、
前記選択された第1の経路から、前記選択された第1の経路内の第1の基質を選択することと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、前記第1の基質を、市販の化合物のデータベース内の化合物と比較することと、
前記比較に基づき、前記モジュールにより、市販の化合物の前記データベースから、第2の基質を選択することと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、前記選択された第1の経路内の前記第1の基質の代わりに前記第2の基質を使うことと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、前記第2の基質と、前記選択された第1の経路内の前記第1の分子構造との間の任意の反応を修正して、前記第2の基質と前記第1の基質との間の差を吸収することであって、前記修正は、第2の経路の前記結果が前記第2の分子構造となるように、前記第2の経路および前記第1の分子構造に対する変更となることと、
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、前記第2の経路を、前記選択された第1の経路と関連付けることであって、各第1の経路を前記ランキングによって決定された順序で含む前記リストを前記提供することは、前記第2の経路を前記関連付けられた第1の経路と共にリストすることを含むことと、
をさらに含む、請求項1に記載の方法。
【請求項5】
抽出された第1の経路を選択することは前記ユーザーが前記第1の経路を選択することを含み、かつ
前記選択された第1の経路から、前記選択された第1の経路内の反応によって合成される第1の基質を選択することは、前記少なくとも1つのソフトウェアモジュールからのモジュールが前記第1の基質を選択することを含む、
請求項4に記載の方法。
【請求項6】
前記モジュールにより前記第1の分子構造および、既知の反応を使用して機械学習によって生成された前記モデルを使用して、前記第1の分子構造を合成するための前記第1の複数の反応を前記提案することは、
前記モジュールにより、有向リンクをもつ反応ノードと化学化合物ノードのセットを作成することを含み、前記セットは前記第1の分子構造をもたらす複数の経路を含み、かつ
前記モジュールにより前記第1の複数の反応から、前記第1の分子構造を生成する少なくとも1つの第1の経路を前記抽出することは、
前記モジュールにより、反応ノードと化学化合物ノードの前記セットから前記少なくとも1つの第1の経路を抽出することを含む、
請求項1に記載の方法。
【請求項7】
前記モジュールにより、有向リンクをもつ反応ノードと化学化合物ノードのセットを前記作成することは、前記セット内の第1の化学化合物ノードによって表される少なくとも前記第1の分子構造で開始すること、および前記モジュールにより、
前記セットから、拡張すべき化学化合物ノードを選択することと、
前記モジュールにより前記モデルを使用して、前記選択された化学化合物ノードによって表される化学化合物を生成する少なくとも1つの追加の反応を提案することと、
前記モジュールにより、各提案された追加の反応に対して、反応ノードを前記セットに追加し、前記反応ノードからの有向リンクを前記選択された化学化合物ノードに追加することと、
前記モジュールにより、各提案された追加の反応内の各基質に対して、化学化合物ノードを前記セットに追加し、前記追加された化学化合物ノードからの有向リンクを、前記追加の反応を表す前記反応ノードに追加することと
を含む、拡張の少なくとも1つの反復を実行することにより拡張されたセットを作成することを含む、請求項6に記載の方法。
【請求項8】
各第1の経路を前記ランキングによって決定された順序で含む前記リストは、
前記モジュールによりコンピュータディスプレイ上に、各第1の経路に対して、有向リンクをもつ反応ノードと化学化合物ノードの前記セットから抽出された、有向リンクをもつ反応ノードと化学化合物ノードのサブセットを表示すること
を含む、請求項7に記載の方法。
【請求項9】
前記モジュールにより前記第1の複数の反応から、前記第1の分子構造を生成する少なくとも1つの第1の経路を前記抽出することは、
前記モジュールにより、前記拡張されたセットから前記少なくとも1つの第1の経路を抽出すること
を含む、請求項7に記載の方法。
【請求項10】
前記モジュールにより、各抽出された第1の経路に対する費用を前記予測することは、
前記モジュールにより、既知の反応データおよび実現不可能な反応データを使用して反応実現可能性を予測するように訓練された統計的モデルを使用して各反応ノードを評価することにより、抽出された経路内の各反応ノードに対する成功の確率を判断すること
を含む、請求項6に記載の方法。
【請求項11】
前記実現不可能な反応データは、前記少なくとも1つのソフトウェアモジュールからのモジュールによって生成された反応:
起こることが知られている反応のセットを受信することと、
基質を廃棄して反応生成物だけを残すことと、
前記第1の分子構造および、既知の反応を使用して機械学習によって生成された前記モデルを使用して、前記反応生成物の各々に対して、前記反応生成物の逆合成中の第1のステップである反応を提案することと、
前記生成された反応を、起こることが知られている反応の前記セットと比較して、起こることが知られている反応の前記セットの特性に適合しない生成された反応のセットを決定することと、
適合しない生成された反応の前記セットを前記実現不可能な反応データに追加することと、
を含む、請求項10に記載の方法。
【請求項12】
前記少なくとも1つのソフトウェアモジュールからの前記モジュールにより、前記第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、前記第1の分子構造を合成するための第1の複数の反応を前記提案することは、
前記モジュールにより、前記第1の分子構造の生成物部分グラフと一致する生成物部分グラフに対する前記既知の反応のテンプレートグラフを探索することと、
各一致する生成物部分グラフに対して、基質部分グラフの提案されたセットを生成することと、
前記モジュールにより、基質の前記提案されたセットおよび前記関連した生成物部分グラフから無効な化学化合物を除去することと、
前記モジュールにより、各残りの生成物部分グラフおよび、基質部分グラフの生成されたセット、反応テンプレートからテンプレートを抽出することと
含む、請求項1に記載の方法。
【請求項13】
前記第1の分子構造を合成するための前記第1の複数の反応の少なくとも1つは、最初は前記第1の分子構造を合成するための一段階経路であり、前記最初の一段階経路は、前記少なくとも1つのソフトウェアモジュールからのモジュールによって多段階経路:
1)前記最初の一段階経路からの基質を標的分子構造として指定することと、
2)前記標的分子構造および前記モデルを使用して、前記指定された標的分子構造を合成するための少なくとも1つの一段階経路を提案することと、
3)前記少なくとも1つの提案された一段階経路を前記第1の複数の反応に追加することと
に拡張される、請求項1に記載の方法。
【請求項14】
前記第1の複数の反応内の各基質に対してステップ1~3を、前記基質が市販の化合物のデータベース内で見つかると前記ソフトウェアモジュールが判断するか、または前記ソフトウェアモジュールが前記基質に対してステップ1~3の反復を最大数回実行するまで、反復することをさらに含む、請求項13に記載の方法。
【請求項15】
前記第1の分子構造を生成する抽出された少なくとも1つの第1の経路は、複数の一段階経路を含む多段階経路である、請求項13に記載の方法。
【請求項16】
前記第1の複数の反応の最初のサブセットをランク付けすることをさらに含み、前記最初の一段階経路は、前記第1の複数の反応の前記最初のサブセットから最高位にランク付け付けされた反応として選択される、請求項13に記載の方法。
【請求項17】
前記第1の複数の反応のサブセットは、前記抽出された第1の経路の1つ以上内で中間反応になる反応を含む、請求項1に記載の方法。
【請求項18】
リストを前記提供することは、前記少なくとも1つのソフトウェアモジュールからの前記モジュールによりコンピュータモニター上に、前記リストを、各第1の経路の前記ランキングによって決定された順序での対話型表示として提供することを含む、請求項1に記載の方法。
【請求項19】
前記少なくとも1つのソフトウェアモジュールからのモジュールにより、抽出された第1の経路に対して、前記抽出された経路に従った前記第1の分子構造の合成における困難さの推定を提供することをさらに含み、前記推定は、前記モジュールによる、前記抽出された第1の経路内の各反応の、分析に少なくとも一部基づく、請求項1に記載の方法。
【請求項20】
前記推定は前記抽出された第1の経路の前記費用にも基づく、請求項19に記載の方法。
【請求項21】
前記少なくとも1つのソフトウェアモジュールからの前記モジュールにより、前記第1の分子構造、および既知の反応を使用して機械学習によって生成されたモデルを使用して、前記第1の分子構造を合成するための第1の複数の反応を前記提案することは、前記モジュールにより、前記第1の複数の反応の経路内の各ステップに対する反応実現可能性の推定を作成することを含み、
前記少なくとも1つのソフトウェアモジュールからの前記モジュールにより前記第1の複数の反応から、前記第1の分子構造を生成する少なくとも1つの第1の経路を前記抽出することは、前記モジュールにより、少なくとも1つのどの第1の経路を抽出すべきかの判断において反応実現可能性の前記推定を使用することを含む、
請求項1に記載の方法。
【請求項22】
前記モデルにより、前記第1の複数の反応の経路内の各ステップに対する反応実現可能性の推定を前記作成することは、
前記モジュールにより前記モデルを使用して、前記第1の複数の反応内のステップの第1のサブセットの各々に対して反応実現可能性の第1の推定を作成することと、
前記モジュールにより、前記第1の複数の反応内のステップの第2のサブセットの各々に対して反応実現可能性の第2の推定を、
前記ステップと関連付けられた反応テンプレートを決定し、前記同じ反応テンプレートと関連付けられている参照データセット内の実現可能な反応の第1の数を決定し、前記同じ反応テンプレートと関連付けられている前記参照データセット内の実現不可能な反応の第2の数を決定し、前記第1の数を、前記第1と第2の数の合計で割ることによって作成することであって、前記除算の結果が反応実現可能性の前記第2の推定であることと
を含む、請求項21に記載の方法。
【請求項23】
前記少なくとも1つのソフトウェアモジュールからの第1のモジュールは、
第1の分子構造を前記受信することと、
各第1の経路を前記ランキングによって決定された順序で含むリストを前記提供することと
を実行し、かつ
前記少なくとも1つのソフトウェアモジュールからの第2のモジュールは、
前記第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、前記第1の分子構造を合成するための第1の複数の反応を前記提案することであって、前記第1の複数の反応の少なくとも1つは、前記モジュールによって作成されていて、データベースから取得されないことと、
前記第1の複数の反応から、前記第1の分子構造を生成する少なくとも1つの第1の経路を前記抽出することと、
各抽出された第1の経路に対する費用を前記予測することと、
各抽出された第1の経路を前記予測された費用に従って前記ランク付けすることと
を実行する、
請求項1に記載の方法。
【請求項24】
少なくとも1つのプロセッサと、命令を有するメモリとを備えるシステムであって、前記命令は、前記少なくとも1つのプロセッサによって実行されるときに、前記システムに、
第1の分子構造を受信することと、
前記第1の分子構造、および既知の反応を使用して機械学習によって生成されたモデルを使用して、前記第1の分子構造を合成するための第1の複数の反応を提案することであって、前記第1の複数の反応の少なくとも1つは、前記システムによって作成されていて、前記システムによってアクセス可能ないずれの位置にも前から存在していないことと、
前記第1の複数の反応から、前記第1の分子構造を生成する少なくとも1つの第1の経路を抽出することと、
各抽出された第1の経路に対する費用を予測することと、
各抽出された第1の経路を前記予測された費用に従ってランク付けすることと、
各第1の経路を前記ランキングによって決定された順序で含むリストを提供することと
を含む動作を実行させる、システム。
【請求項25】
命令を含む持続性コンピュータ可読媒体であって、前記命令は、コンピューティング装置のプロセッサによって実行されるときに、前記コンピューティング装置に
第1の分子構造を受信することと、
前記第1の分子構造、および既知の反応を使用して機械学習によって生成されたモデルを使用して、前記第1の分子構造を合成するための第1の複数の反応を提案することであって、前記第1の複数の反応の少なくとも1つは、前記システムによって作成されていて、前記システムによってアクセス可能ないずれの位置にも前から存在していないことと、
前記第1の複数の反応から、前記第1の分子構造を生成する少なくとも1つの第1の経路を抽出することと、
各抽出された第1の経路に対する費用を予測することと、
各抽出された第1の経路を前記予測された費用に従ってランク付けすることと、
各第1の経路を前記ランキングによって決定された順序で含むリストを提供することと
を含む動作を実行させる、持続性コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連事例の相互参照
本出願は、2019年10月1日に出願された「SYSTEMS AND METHOD FOR DESIGNING ORGANIC SYNTHESIS PATHWAYS FOR DESIRED ORGANIC MOLECULES」というタイトルの米国仮特許出願第62/909,160号に対する優先権を主張し、それは全体として組み込まれる。
【0002】
技術分野
請求された主題は一般に、化学合成の分野に関し、より詳細には、化学合成経路の決定および表示を自動化するための方法に関する。
【背景技術】
【0003】
典型的には、市場に出す各薬剤に対して、2万もの薬剤らしい分子が研究室内で作製されてテストされる必要がある。分子作製プロセスは化学合成と呼ばれる。逆合成におけるタスクは、反応して標的分子をもたらす基質を見つけることである。分子をどのように合成するかを決定することは、非常に非効率的であり、エラーを起こしやすい。それは数十または数百の科学論文を手作業でレビューする化学者を必要とする。化学合成は創薬において見落とされるボトルネックである。
【0004】
従って、必要とされているのは、合成経路の決定を加速または自動化さえする方法およびシステムである。
【0005】
実施形態は一例として示されており、付随する図面の図における制限ではなく、図面中、同様の参照は同様の要素を示す:
【図面の簡単な説明】
【0006】
【
図1】合成経路を提案するための方法の一実施形態のフローチャートである。
【
図2】合成経路を提案するための方法の要素の一実施形態におけるステップのフローチャートである。
【
図3】合成経路を提案するための方法300の一実施形態のフローチャートである。
【
図4】合成経路を提案するための方法の一実施形態のステップのフローチャートである。
【
図5】合成経路を提案するための方法の一実施形態のステップのフローチャートである。
【
図6】反応テンプレートを抽出するための方法の一実施形態のステップを例示する略図である。
【
図7】反応を提案するための方法の一実施形態におけるステップのフローチャートである。
【
図8】恐らく間違っている反応を除去するための方法の一実施形態におけるステップのフローチャートである。
【
図9】陰性反応を作成するための方法の一実施形態におけるステップのフローチャートである。
【
図10】反応を表現するための方法の一実施形態を例示する略図である。
【
図11】合成経路を提案するためのモデルを訓練するための方法の一実施形態におけるステップのフローチャートである。
【
図12】経路ビューの一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図13】合成経路からの反応の詳細なビューを表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図14】標的化合物入力画面を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図15】ユーザーが探索パラメータを入力する画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図16】結果が生成されている間に表示される画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図17】部分探索結果の詳細なビューを表示している画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図18】部分探索結果の詳細なビューを表示している画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図19】完了した探索結果の詳細なビューを表示している画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図20】
図19に表示されている結果に対する完全な合成経路を表示している画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図21】
図19および
図20の反応に類似した反応を表示している画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図22】一実施形態によって生成された提案された合成経路の一例である。
【
図24】実施形態により代替化合物を使用して生成された提案された合成経路の一例である。
【
図25】グループ化された反応を表示している画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
【
図26】支援情報を例示している画面の一実施形態を表示しているユーザーインタフェースの一実施形態を示している図面である。
【
図27】陽性および陰性反応の一実施形態の図解である。
【
図28】陽性および陰性反応を生成するための方法の一実施形態の図解である。
【
図29】合成容易性スコアの一実施形態と既知のスコアリング法との間の相関関係を示すチャートである
【
図30】異なる数の反応をもつ経路に対する既知のスコアリング法と対照して、合成容易性スコアの一実施形態からの比較結果を示すチャートである。
【
図31】合成経路を提案するための方法の一実施形態に対するアーキテクチャを示すフローチャートである。
【
図32】合成経路を提案するための方法の探索木の一実施形態を表示しているユーザーインタフェースの一実施形態を示している図面である。
【
図33】探索木の一実施形態および探索木の特徴を表示しているユーザーインタフェースの一実施形態を示している図面である。
【
図34】探索木の一実施形態および探索木の特徴を表示しているユーザーインタフェースの一実施形態を示している図面である。
【
図35】探索木の一実施形態および探索木の特徴を表示しているユーザーインタフェースの一実施形態を示している図面である。
【
図36】探索木の一実施形態および探索木の特徴を表示しているユーザーインタフェースの一実施形態を示している図面である。
【
図37】合成経路を提案するための方法の一実施形態の一態様の図解である。
【
図38】合成経路を提案するための方法の一実施形態の一態様の図解である。
【
図39】本開示の方法の実施形態を実装するためのシステムの一実施形態を示している例示的なブロック図である。
【
図40】コンピューティング装置を示している例示的なブロック図である。
【発明を実施するための形態】
【0007】
一実施形態の概要
標的分子への合成経路を提案するための方法の一実施形態では、実施形態は人工知能を利用して、化学合成を、数時間または数日ではなく、数秒以内に設計する。実施形態では、任意の合成経路内の中間反応の一部は完全に新規-中間反応が、アクセス可能なデータベース内の反応からフィルタリングされるのではなく、本方法によって作成されるという意味において、であり得る。
【0008】
図1は、合成経路を提案するための方法の一実施形態を示す。第1のステップ10で、化学者(本方法のプロトタイプユーザー)は、合成の標的である分子の構造を、任意選択の、追加の基準と共に、システムに入力する。ステップ12で、ユーザーは、本明細書で詳細に説明されるように、標的分子を分析して合成経路を提案する、システムを開始する。一般に、ステップ12で、システムは、市販の分子から標的分子を合成するための経路を決定する。最後に、ステップ14で、決定された経路が、任意選択でユーザー定義の基準に従って、ランク付けされて、ユーザーに提示される。実施形態では、提案された経路は、例えば、反応実現可能性を示す、補強するラボ試験済み証拠を伴い得る。
【0009】
図2は、分析ステップ12の要素の一実施形態を示す。
図2で、分析は発生装置20を適用して提案された分析経路を生成した。発生装置20は、テンプレートベースまたはニューラルネットワークベースであり得る。提案された経路の生成後、弁別装置22が生成された反応の確率または実現可能性を判断する。
【0010】
一実施形態の例示的な使用では、ユーザーは標的分子を入力し得る。例えば、オシメルチニブの構造。ユーザーは次いで、後期創薬に適した合成基準:培地量、出発物質の短い出荷時間を選択し得る。システムが次いで、開始され得る。最初の結果は数秒以内に得られ得るが、完全な結果は数分の計算を必要とし得る。実施形態では、システムはディープラーニングを採用し得-異なる分子間のどの種類の変換が実行可能であるかを見つけるために以前の実験に関する情報を利用する。システムは次いで、今まで見たことがない分子をもたらす新規の合成ステップを提案することが可能である。これらの合成ステップは次いで、基質から標的分子への全ての提案された反応を含む探索木に組み立てられる。探索木から、出発物質から生成物までの経路が抽出されてランク付けされる。経路ランキングは、実際の顧客シナリオを反映する、ユーザー選択基準を考慮して吸収し得る。探索が完了すると、最も有望な結果がGUI(例えば、
図12)でユーザーに示される。画面の左側にユーザーの標的分子が表示される。異なる色の助けを借りて、ユーザーは標的分子の個々の原子、または構造部分を市販の分子まで遡って追跡できる。従って、実施形態を使用すると、以前は化学者の時間を何時間も必要としたプロセス-たった1つの薬剤を開発するための数千回もの反復を必要とするプロセスが、数分以内に実行され得る。
【0011】
システム機能の最上位説明
実施形態では、システムおよびソフトウェアは、ユーザーが作成したい分子(複数可)の1つ以上の構造を入力する所望の有機分子のための有機合成経路を設計する。
【0012】
一実施形態では、経路は出発物質(基質)および出発物質から所望の生成物(標的分子)に至る1つ以上の反応の集合から成る。
【0013】
一実施形態では、ソフトウェアは、以前に実行された反応(既知の、または「参照」反応)、市販の出発物質、およびユーザーが投入したパラメータを含む、複数のタイプの情報を利用する。一実施形態では、ソフトウェアは、ユーザーがこの情報をシステムに入力するのを可能にし得るが、しかし、絶対的に必要なデータはシステムに供給されるので、この情報の入力はシステムが機能するために必要ではない。
【0014】
一実施形態では、ソフトウェアは新規の化学反応を提案し得る。これらの「新規の」反応は、従って、システムに投入されていない。代わりに、それらは、ソフトウェアによる場合、「オンザフライ」で生成される。システムは、本明細書で説明される、反応実現可能性推定のためのモジュールを有する。「新規の(novel)」に関して、上で使用されているように、それは、システムによって作成されていて、システムによってデータベースから取得されていないことを意味する。従って、新規の反応は、システムによってアクセスされるデータベース内にあるか、または別の方法でシステムに供給されるいずれの反応とも異なり得る。言い換えれば、新規の反応は、データセットにプログラム化されないが、アルゴリズム的に生成される。簡潔に言うと、「どんな種類の反応が可能であるか」という規則が反応データベースから抽出され、次いでそれらが、たとえ見たことがないものであっても、任意の化学化合物に適用される。これは後に、「反応提案」セクションで説明される。従って、既知の反応は結果に組み込まれ得るが、実施形態の特徴は、反応を新たに生成する能力である。
【0015】
一実施形態では、ソフトウェアは、提案された反応を複反応合成経路に組み立てて、これらの経路をランク付けする。これは探索木に関して更に説明される。反応はまず、探索木構造に組み立てられ、次いで経路がその構造から抽出される。つまり、探索木は、標的分子を合成するために使用され得る全ての異なる反応を含む。これらの反応は、例えば、探索木の、異なる側枝、幹、大枝、枝、または葉として含まれる。一実施形態では、化合物は化合物ノードによって、反応は反応ノードによって表され得る。実施形態では、反応を示すために、有向リンクが化合物ノードを反応ノードに接合し得、有向リンクは反応ノードを生成化合物またはノードに接合し得る。一実施形態では、単一の化合物ノードは1つ以上の「上流」反応の生成物および単一の「下流」反応に対する基質の両方であり得、「上流」および「下流」は有向リンクによって決定される。実施形態では、単一の化合物は複数の下流反応および複数の上流反応の両方にリンクされ得る。すなわち、反応提案方法の実施形態は、特定の化合物(例えば、ユーザーの標的化合物、またはユーザーの標的化合物を合成するために提案された反応における基質であり得る)を合成するために複数の方法を決定し得る。反応提案機構は、その同じ化合物を後続反応における基質として採用するためのいくつかの方法も決定し得る。従って、探索木の一実施形態は、基質からユーザーの標的分子に至る反応の相互接続されたグループである。
【0016】
一実施形態では、反応提案機構は、合成された基質とはわずかに異なる市販の基質を用いた、探索木内の合成された基質から生じる、代替の究極的な標的分子もユーザーに提案し得る。この実施形態では、変更された基質からの下流反応は変更を反映するように修正されて、修正された反応は、代替の究極的な標的分子に至る、探索木の異なる枝になる。ユーザーは次いで、合成された代替標的分子を、ユーザーの元の標的分子に追加して、または元の標的分子の代わりに、のいずれで合成するかを決定し得る。
【0017】
一実施形態では、ランキングは、統計的およびヒューリスティックを含む、複数の方法によって行われる。ランキングは、出発物質の費用および合成失敗のリスクを含む、経路実行の総推定費用を表すこと意味する。ユーザー嗜好が考慮されて吸収される。例えば、総推定費用は究極的な基準であり得るが、総推定費用は、費用関数に関して以下で説明されるように、ユーザー嗜好に基づき得る。
【0018】
一実施形態では、ソフトウェアは、システム内の情報およびユーザーによって投入された情報に基づき、反応実行条件、価格、および出発物質の入手可能性などの、支援情報を含む各反応および化合物の詳細なビューを提供する。支援情報は、システムの判断の根拠としても役立ち、この文脈では、システムの論拠の全体:どの反応を提案すべきか、それらの実現可能性は何か、それらの費用はどれくらいと推定されるか、どの合成経路がユーザーに表示されるか等、を含む。
【0019】
一実施形態では、GUIはユーザーが提案された経路を見て、それらとやり取りするのを可能にする。ユーザーは、計画プロセスが進む方向に大きな影響を有し得る。例えば、GUIを使用すると、ユーザーは、もっと完全に分析すべき探索結果内の化合物を精選し得、ユーザーは、以下で説明されるように、探索ポリシーの挙動も変更し得る。
【0020】
一実施形態では、ユーザーは探索結果およびシステムによって提供される全ての情報を異なるフォーマットでエクスポートし得る。ユーザーは、クエリーおよび探索結果を後の使用のために保存もし得る。
【0021】
一実施形態では、ユーザーが投入し得る入力および制約は、提案される反応に大きな影響を持ち得る。例えば、ユーザー入力制約は、所望される標的化合物の量、機器および試薬の入手可能性に関する制約(例えば、各基質に対するサプライチェーンに基づく制約を含む)、合成経路内で使用され得る反応のカテゴリに関する制約、ならびに標的分子の詳細に関する制約(例えば、合成経路中に破壊されない可能性がある標的分子における結合)を含み得る。典型的なソフトウェアは単純に、例えば、合成プラン内の反応の最大数、出発物質の量あたりの最高価格、スコアリング関数タイプAまたはB等の、使用事例にそれほど適していないパラメータが指定されるのを可能にする。
【0022】
2つの主要な使用事例がある。第1の使用事例では、ユーザーがどんな最終生成物を合成するかを定義する。第2の使用事例では、システムが、ユーザー定義の制約に基づいて類似の化合物のライブラリを生成し、ライブラリ内の各化合物に対する合成経路を提案する。第2の使用事例では、化合物の各々を別々に合成するよりも、複数の類似の化合物を一度に合成するほうがはるかに安価であり得る。これは、各最終生成物の合成プランにとって共通の中間化合物および出発物質を再利用できるからである(一種の「スケールメリット」)。第2の使用事例および類似化合物(例えば、ユーザー制約に基づく、またはユーザー選択の標的最終生成物に対する類似性に基づく)のライブラリの生成に関して、システムは、異なる類似化合物に対して提案された反応経路と共通するか、またはユーザー提案された標的化合物と共通する、中間体も出発基質も有していない1つの類似の化合物に対する反応経路を提案し得る。
【0023】
図3は、合成経路を提案するための方法300の一実施形態のフローチャートである。ステップ302で、第1の分子構造がソフトウェアモジュールに提供される。分子構造は典型的には、ユーザーによりGUIを通して提供される。ステップ304で、ソフトウェアモジュールは、第1の分子構造を合成するための第1の複数の反応を提案し、コンピュータモジュールによって作成されている第1の複数の反応の少なくとも1つは、そのコンピュータモジュールによってアクセス可能などの位置にも前から存在していない。この提案ステップで、ソフトウェアモジュールは第1の分子構造、および既知の反応を使用して機械学習によって生成されたモデルを使用する。ステップ306で、ソフトウェアモジュールは、第1の複数の反応から、第1の分子構造を生成する少なくとも1つの第1の反応経路を抽出する。ステップ308で、ソフトウェアモジュールは、各抽出された第1の反応経路に対する費用を決定する。ステップ310で、ソフトウェアモジュールは、決定された費用に従い、各抽出された第1の反応経路をランク付けする。そしてステップ312で、ソフトウェアモジュールは、各第1の反応経路をランキングによって決定された順序で含むリストを提供する。
【0024】
逆合成を統計的モデルで支援する
実施形態では、ソフトウェアの主要な特徴は、標的化合物に至る化学反応を提案する能力である。これは、本明細書では陽性または「参照反応」と呼ばれる、以前に実行された成功した反応に関する情報を使用する、機械学習モデルの助けを借りて行われる。実施形態では、モデルは、陽性反応および陰性反応の両方を使用しても訓練され得、陰性反応は既知の成功しなかった反応に関する情報、もしくは「実現不可能」であると指定されている提案された反応に関する情報、または既知の成功しなかった反応および提案された実現不可能な反応の両方を含む。
【0025】
標的化合物のための候補反応を提案する
逆合成の典型的な方法では、ユーザーによる化学化合物の入力に応答して、システムは、分子に至るいくつかの候補反応を出力する。候補反応の数は極めて多い場合があり、そのため、実施形態では、数が制限され得る。逆合成の典型的な方法では、これは、いくつかの技術の任意の1つを使用し得る、反応発生装置によって行われる。1)反応はテンプレートを標的化合物に適用することによって生成され得る。一段階逆合成のための反応テンプレートは、標的を基質に書き直すための規則である。合成プランニングソフトウェアの文脈では、反応テンプレートは通常、反応データから自動的に抽出される。それらは手作業でも精選でき、テンプレートが適用できる条件のセットを含むことができる。統計的モデルは参照反応のデータセットに関して訓練され得る。それは多くの方法で実現され得る。一例は、一対のニューラルネットワークであり、第1のネットワークは反応が起こる標的化合物内の場所を予測し、第2のネットワークは標的および反応場所に基づいて完全な反応を生成する。2)システムが参照反応を探索し得、その生成物は標的化合物と類似している。化合物間の類似性をうまく測定するために、分子フィンガープリントなどの、確立された技術が使用され得る。一実施形態では、反応場所が標的化合物と一致する、いくつかの最も類似した参照反応が使用され、それらを適用して候補反応を取得する。
【0026】
個別に、前者のアプローチは逆合成に対する既知の方法であり得る。しかし、一実施形態では、我々のシステムはこれらのアプローチを新規の方法で組み合わせ得る。統計的モデルが、参照反応のデータベース内を探索するのを支援するために使用され得る。これらの方法は、両方向において利益をもたらし得る:関連する参照反応が統計的モデルを強化でき、統計的モデルは参照データベース内の探索を改善できる。
【0027】
統計的モデルは、探索が参照反応のデータセットに関して最も効率的になるように訓練され得る、すなわち、参照反応からの生成物に関して、対応する参照反応が可能な限り頻繁に提案される。これは、いくつかの方法のいずれかで行われ得る。1)化合物間で相似関数を学習するモデルの訓練。これは、類似性基準を逆合成タスクにより適したものにするために使用され得る。2)所望の参照反応のいくつかの特性(例えば、反応のタイプ)を予測するモデルの訓練。参照反応はその結果、いくつかの予測された基準に一致し、恐らくユーザーにとってより適しているものだけに限定され得る。
【0028】
入力インタフェースの説明
一実施形態では、入力インタフェースは、所望の分子の構造または複数の構造を次の1つ以上を介して入力するのを可能にするツールである:SMILES、化学テーブルファイルのような機械可読フォーマット;プラグインされた外部分子エディタ;ソフトウェアと統合されている外部データソース内の構造の探索;APIを介して自動的に;またはビルトイン分子エディタ。
【0029】
一実施形態では、入力インタフェースは、ユーザーが経路設計プロセスで使用されるデータおよび選好を投入するのを可能にするツールである。例えば、インタフェースは:外部データソースをプラグインし;かつ/または、出発物質、ランキング選好、反応条件および探索に影響する他の要因に関して、情報をそのインタフェースを通して直接投入するために使用され得る。
【0030】
探索木
一実施形態では、探索木は、システムが合成経路を組み立てるために使用し得る基本データ構造である。
【0031】
一実施形態では、探索木は、反応ノードおよび化学化合物ノードから成る有向グラフであり得る。探索の開始時に、探索木は、単一の化学化合物ノード-生成物を表す木の根、から成り得る。木の構造は、以下で説明される反復(「拡張(expansion)」)の直接的な結果である。
【0032】
探索木は、合成経路と構造的に類似している。合成経路と探索木との間の主な違いは、探索木には、所与の化学化合物をもたらす複数の反応があり得ることである。概念上、探索木は、探索中に我々が提案した反応から組み立てられ得る全ての考えられる合成経路のセットを表す。
【0033】
一実施形態では、経路組み立てアルゴリズムは、探索木を反復して「拡張」し、次いで合成経路をそれから抽出することによって機能する。合成経路の抽出は、任意の数の反復後に行われ得、従って、たとえ探索が完了する前であっても、システムが探索の部分結果をユーザーに見せるのを可能にする。
【0034】
一実施形態では、全ての合成経路および/または最善の合成経路のいくつかおよび/またはある制約に従う経路のサブセット/...を探索木から抽出することは、標準的な動的プログラミングアプローチを使用して行われ得る。
【0035】
図4は、探索木のノードを拡張するための方法400の一実施形態のステップを示すフローチャートである。方法400は、探索木のノードの拡張の反復を記述し、多くのかかる反復は任意の探索木上で実行され得る。ステップ402で、化学化合物ノードが「拡張する」ために選択される。それは、探索ポリシーまたはユーザー動作に従って選択され得る。例えば、システムがもっと多くの時間をある化合物の分析に費やすことをユーザーが要求する場合、探索ポリシーはその要求によって制約され得る。それに応じてそれは、ユーザー選択の化合物を表すノードの部分木に属するノードのサブセットから1つのノードを選択する。通常かかる事例では、かかる制約で実行された複数の反復がある。ステップ404で、反応提案機構は、生成物が、選択されたノードによって表される化学化合物と同じである反応を生成するために問い合わせが行われる。ステップ406で、基質のいずれかが、選択されたノードから根(最終生成物)までの経路上の化合物のいずれかと同じである反応がこのセットから除去される。この除去は、ループを含む合成(「BからAを作り、その後AからBを作る」)を回避するために行われる。ステップ408で、各反応に対して、探索木に追加された新規の反応ノードがある。ステップ410で、各新規の反応ノードに対して、それから選択されたノードまでのエッジが追加される。ステップ412で、上で作成された各反応ノードに対して:かかるノードによって表される反応の各基質に対して、化学化合物ノードが作成される。そしてステップ414で、各新規の化学化合物ノードに対して、それから関連のあるノードまでエッジが追加される。
【0036】
プロセスの結果として、各化学化合物および各化学反応はノードとして探索木内で複数回、表され得る。それらのノードの各々は、合成プロセス内の所与の反応または化合物を利用する異なる方法を表す、それから根までの異なる経路を有する。
【0037】
探索木内の各ノードに対して、メモリ内に格納されて、アルゴリズムの性能を改善するため、または探索ポリシー/スコアリングアルゴリズムの機能を可能にするために、各拡張に関して更新される、追加のデータおよび/もしくは統計データがあり得る。
【0038】
費用関数および合成経路の総推定費用の推定
一実施形態では、費用関数は合成経路の総推定費用を計算するため、および探索ポリシーのために使用される。費用関数の複数の変形がある。合成経路の総推定費用を計算するために使用される例示的な費用関数は以下のように説明される。
【0039】
費用関数は、合成経路内の各反応ノードおよび化合物ノードに対して計算される。最終生成物の費用関数の値は合成経路の総推定費用である。
【0040】
出発物質(探索木内の葉)である化合物ノードに対する費用関数は、化合物ノードによって表される化合物の価格に等しい。それは、探索パラメータの多くによって異なる。例えば、ユーザーが、各出発物質が複数のベンダーから入手可能であること(ベンダーは信頼できない可能性があるのでそれは有用である)を要求する場合、アルゴリズムは、最も安価なものの代わりに、所与の化学化合物に対してn番目に最も安価なベンダー(ここでn=ユーザーが出発物質を入手したいベンダーの数)から価格を選ぶ。一般に、出発物質のベンダーの冗長性に対する要求を出発物質の計算価格に組み入れるための多くの方法があり得る。出発物質に対する価格は合成のために要求される量によって影響され得る。この量は、パラメータで渡されたユーザーが合成したい最終生成物の量、および出発物質から最終生成物までの経路上の各反応の推定される収率および化学量論超過に基づいて計算される(各反応は、非100%の収率のために幾分の損失を被り、従ってより多くの量の基質の使用を必要とする)。ユーザーはベンダーを認めないか、または好適なベンダーにし得る(一実施形態では、ユーザーは探索パラメータ画面内のリストからベンダーを選択し得る)。ユーザーによって要求された時間以上の出荷時間での化合物に対する申し出は廃棄され得るか、または出発物質の推定される出荷時間は価格タグを遅延の各日に置くことによって出発物質の価格に組み入れられ得る(入手可能な化合物のデータベースは出荷時間の推定を含む)。第2のアプローチは、合成経路自体が短い場合、長い出荷時間が容認可能であり得るという事実を実施形態が吸収するのを可能にする。実施形態は、ユーザーまたはユーザーの調達データに対して利用可能な化学化合物のユーザー提供データベースを利用し得る。
【0041】
合成経路内の他の化合物ノードは、合成経路内の何らかの反応の生成物であり得る。これらの化合物ノードの各々に対する費用関数は、対応する反応の費用関数に等しい。
【0042】
反応ノードの費用関数は、基質の費用、化学者の労力の費用などを含む、所与の反応を実行する推定費用である。一実施形態では、費用関数=(各基質ノードに対する費用関数の合計+線形係数×基質の量+定数係数)×1/成功の確率。
【0043】
成功の確率は、他のセクションで説明される、反応実現可能性予測モデルを使用して導出され得る。(1/成功の確率)係数は、失敗の場合、化合物は、恐らく全く異なる方法で、再度作成される必要があるという事実を実施形態が吸収するのを可能にする。
【0044】
線形係数は、反応に取り入れる必要がある基質の量と共に略線形に増す化学反応の実行費用を表し得、それは、触媒の費用、溶媒の費用などを含む。一実施形態では、最も単純な実施態様は、全ての提案された反応に対して同じ値の線形係数を想定する。その値は、化学合成で使用される溶媒および触媒の平均価格を考慮することによって概算できる(例えば、ごく一般的な溶媒は、100$/リットルかかるTHFであり、通常、基質のモル毎に反応は1Lの溶媒を必要とする等)。過去に実行された反応に関するもっと正確なデータを有しているので、実施形態は、提案された反応に対する最も適切な溶媒、および触媒ならびに条件を調べて、その値をもっと正確に推定することができる。
【0045】
定数係数は、化学合成を実際に実行するために必要な化学者の労力の費用を表し、その値は探索パラメータから直接的または間接的に導出され得る(ユーザーは費用を直接入力し得るか、または実施形態は、線形係数に対して行ったように、何らかの一定値を想定し得る)。
【0046】
基質の量は、前述のように、ユーザーが合成することを望む最終生成物の量に基づいて計算される。
【0047】
どの経路がユーザーに提示されるかにパラメータがどのように影響するかの例の1つは、少量の最終生成物が要求される場合である。その場合、反応を実行する費用(定数係数)は出発物質の費用に優越し、たとえ出発物質が比較的高価であっても、より短い経路を最善のものとしてユーザーに提示する。逆に、大量の最終生成物に対して、たとえより多くの反応を実行する必要があっても、少量の非常に安価な出発物質を使用することは経済的により合理的である。この挙動(大量は長い合成となり、少量は短い合成となる)は、ユーザーの予想と一致し、緊急の挙動(emergent behavior)、すなわち、システム内で明示的にコード化されていない挙動である。
【0048】
従って、実施形態では、抽出された経路の費用の計算は、合成の複雑さの抽象的な基準ではなく、経路合成を実行する実際の費用の提供を対象とする。
【0049】
探索ポリシー(設計ポリシーを規定するアルゴリズム)
一実施形態では、探索ポリシーは、探索中に拡張されるノードを選択する責任を負う。一実施形態では、探索ポリシーは、以下で説明される、費用関数の変形-「探索ポリシー費用関数」-を利用し得る。探索木内の各拡張されていないノードに対して、所与のノードを含む最も安価な(探索ポリシー費用関数の観点から)合成経路の費用が計算され-この費用が低ければ、それだけ良い。次いで、1つまたはいくつかの最善ノードが拡張のために選択される。探索ポリシーのために、それらの合成経路は、市販の出発物質を有する必要はない。
【0050】
一実施形態では、ユーザーが何らかの化合物をもっと完全に分析したい場合、実施形態は、探索木から選択されるノードのセットを、所与の化合物を表すノードの部分木に属するノードに制限する。
【0051】
一実施形態では、探索ポリシー費用関数と前述の費用関数との間の主な差は、探索ポリシーのために、実施形態は出発物質の価格を使用せず、むしろ、以下で説明される、その推定を使用する。価格推定は、A*アルゴリズム(グラフ内での最短ルートの発見における使用のために当業者によって既知のアルゴリズム)における評価関数と同じ目的を果たし、探索アルゴリズム全体がA*アルゴリズムの大幅に変更された変形と考えられ得、その場合、グラフ内で最短ルートを探索する代わりに、探索木の最も安価な部分木(すなわち、最も安価な合成経路)を探す。
【0052】
図5は、費用推定のための方法500の一実施形態のステップを例示するフローチャートである。ステップ502で、実施形態は、各出発物質は何らかの未知の反応から取得されると仮定する。ステップ504で、実施形態は、その出発物質の価格および未知の反応の基質の価格は、それらの化合物のサイズまたは複雑さの何らかの容易に計算可能な基準の数学関数(例えば、非水素原子の数)として表現され得る。ステップ506で、実施形態は、未知の反応の基質のサイズ(複数可)は出発物質のサイズの部分であると仮定する。ステップ508で、実施形態は、合成経路の総推定費用の計算において利用される反応の費用関数の何らかの簡略化された形式を使用して、未知の反応の基質の費用と出発物質の費用との間の関係を表現する。ステップ510で、実施形態は、その関係を記述する式を解き、従って、出発物質の費用の明示的な関数をそのサイズに関して取得する。一実施形態では、(1)出発物質、または未知の反応の基質の費用は、その化合物の量に比例する、(2)反応は同じサイズの2つの基質を必要とする、および(3)反応の費用の定数係数は無視できる、と仮定する。従って、実施形態は次の式に達する:
f(x)=(r+f(kx)・2/y)・1/p 式1
式中:
-x=出発物質のサイズ、f(x)=出発物質の価格
-k=基質の生成物サイズに対する比、kx=未知の反応の基質のサイズ
-y=未知の反応の収率
-r=反応費用の線形係数
-p=未知の反応の成功の確率
【0053】
境界条件:f(x0)=foを指定することにより、実施形態は前述の式1を解いて以下を得ることができる:
f(x)=(q+fo)(x/xo)ln(y・p/2)/ln(k)-q 式2
式中、q=r・y/(2-p・y)である。この式は、出発物質のサイズから推定価格を計算するためにシステムによって直接使用され得る。従って、実施形態は、たとえ出発物質が入手可能でない場合でさえ、合成経路の費用を計算し得る。
【0054】
一実施形態では、定数r、p、y、kの値は、可能であれば、合成経路の総推定費用の計算のために使用される費用関数内の定数と一致するように選択される。
【0055】
可能ではない場合、それは機械学習モデルを使用して反応ごとに計算されるので、事例の一例は、成功の確率である。従って、価格推定のために、一実施形態では、モデルが出力する確率分布に基づいて何らかの楽観値が手作業で選択される。それは、価格推定が楽観的であることを確実にして、アルゴリズムに最適な解決策を見つける高い可能性をもたらす-ちょうどA*アルゴリズムにおいて許容可能なヒューリスティック(すなわち、目標の費用を過大評価しないもの)が最適なルートが見つかるのを確実にするのと同様である。
【0056】
一実施形態では、境界条件値(x0,f0)は現在、有機合成において一般に使用される出発物質の平均サイズおよび、ほとんどの化学者によって妥当であると考えられる出発物質の費用に一致するように手作業で選択される。
【0057】
一実施形態では、1つの改善は、さらに微調整されたサイズ計算であり:非水素原子の数を計算する代わりに、分子内の各非水素原子に重量が割り当てられる。これらの重量が合計されて、価格を推定する目的で分子のサイズをもたらす。重量は次の方法で計算され得る。まず、グラフのセットがオフラインで生成されて(探索を始める前に)、グラフの各々に係数(factor)が割り当てられる。探索中に化合物中の原子の重量を計算するために、システムは、対象の原子を含むグラフのセットから全ての部分グラフを見つける。重量はそれらのグラフに割り当てられている全ての係数の積である。
【0058】
一実施形態では、部分グラフおよびそれらの係数を手動で選択することは、分子の合成をより困難に(1より大きい係数が割り当てられる場合)、またはより容易に(1より小さい係数が割り当てられる場合)している、分子の頻繁に生じているフラグメントを考慮することによって行われる。このプロセスは、市販されている化合物のデータセット内で利用可能な分子内で最も頻繁に生じている部分グラフのセットをアルゴリズム的に見つけ、次いでそれらの係数に基づきサイズを使用して計算された推定価格が、市販されている化合物のデータベースを介してシステムがアクセスできる実際の価格と一致するように、統計的回帰によってそれらの部分グラフの係数を割り当てることによって自動化され得る。同様に、推定価格に対する式の定数が適合され得る。
【0059】
一実施形態では、前述の探索ポリシーは、この探索ポリシーおよび他のポリシー(ランダムまたは加重ランダム、BFS、異なる-多かれ少なかれ楽観的な-パラメータのセットをもつ探索ポリシー等)を使用する拡張ノードの並列選択により、探索ポリシーなどによって選択されたノード上での反復深化開始の実行などの技術を使用して、他のアプローチと混合される。
【0060】
反応提案
一実施形態では、反応提案方法は、以前に実行された反応のデータベースから生成されたテンプレートのセットに基づく。
【0061】
一実施形態では、各テンプレートは、反応からアルゴリズム的に生成され得る。テンプレートは:1)反応の結果として生じる基質のグラフ構造における変化、および2)変化したグラフの部分の属している原子の近隣、に関する情報をコード化する。
【0062】
一実施形態では、複数の反応が同じテンプレートをもたらし得る。例えば、
図27の全ての反応は同じテンプレートをもたらす。間違いを含み得るデータセットの場合、誤った反応は極めて稀なテンプレートをもたらす傾向があるので、特定のテンプレートをもたらすデータセット内の反応の数が反応をフィルタにかけて除去するための大雑把な方法として使用される。
【0063】
一実施形態では、テンプレート生成アルゴリズムは:1)基質のグラフ、2)生成物のグラフ、および3)マッピングに関する情報、すなわち、生成物内のどの原子が基質の1つ中のどの原子に対応するかに関する情報、の形での入力を必要とする。
【0064】
一実施形態では、テンプレート生成アルゴリズムは、基質も生成物も完全にマッピングされることを必要とせず(すなわち、基質中の全ての原子が対応する生成原子を有する必要はなく、逆もまた同様である)、アルゴリズムはマッピング内の不一致を修正するように設計される。
【0065】
一実施形態では、基質および生成物中の元素はバランスが取れている必要がなく(すなわち、それらはウィキペディアからのこの引用に従わない:「質量保存の法則により、各元素の量は化学反応で変化しない。従って、化学反応式の各側は任意の特定の元素の同じ量を表していなければならない」)、そのためアルゴリズムは、基質の一部が省略されている(例えば、エステル加水分解の事例では、水分子が反応式の基質中に何らかの形で含まれる必要があることは明らかである)か、または副生成物が省略される反応を許容する。
【0066】
一実施形態では、マッピング情報は重複していない可能性がある、すなわち、2つ以上の対応する生成原子を有する基質原子またはその逆はないはずである。注意:かかる重複したマッピングはあるマッピングアルゴリズムによって時々生成され得、一部の基質は反応内で「2回以上」使用され-複数の分子Aが1つの分子Bと反応する、1:1とは化学量論的に異なるという事実に注意する。
【0067】
図6は、反応テンプレート72を構築するための方法の一実施形態を例示する略図である。
図6では、変化している原子または結合は矢印74によって示される。単結合は線76によって示される。除去される「ボーリング(boring)」結合はクロスハッチ(cross-hatched)線78によって示される。特殊なマッピングエッジは破線80で示される。特殊な「欠損結合(missing bond)」エッジは点線82によって示される。ワイルドカードはアスタリスク84によって示される。そして除去された非ワイルドカード原子間のマッピングエッジはクロスハッチ破線86によって示される。
図6では、反応して生成物66を作成する基質62、64間の反応60から、初期グラフ68は部分グラフ、すなわち、基質部分グラフ62、64および生成物部分グラフ66、の合計である。
【0068】
一実施形態では、
図6を参照すると、テンプレート構築方法は概念上は次のフェーズに分けられる:1)アノテーション:基質62、64および生成物66の両方に関して、原子および各結合の各々に対して、実施形態はそれらの特徴(所与の原子もしくは結合が何らかの環の一部であるか、またはあるサイズの環であるかどうか、原子もしくは結合が何らかのある部分グラフに属しているかどうか等)を判断して、結合および原子に特徴、例えば、インジケータ74...86の1つ以上、で注釈を付け得る。各原子は追加的に、それが基質または生成物の1つの一部であるかどうかに関する情報でタグ付けされ得る。2)混合(merger):実施形態は、基質62a、64aおよび生成物66aグラフの単純合計であるグラフ68(
図6)を作成し得る。次いで、グラフ68で、入力として追加された、マッピングデータに従い、テンプレート生成プロセスの実施形態は、対応する基質62a、64aおよび生成物66a原子の各対に対して特殊な「マッピング」グラフエッジ80を追加し得る。次いで、基質原子間の各結合エッジ76に対して、結合が基質内にはないが生成物内で見つかる場合には、実施形態は特殊な「欠損結合」エッジ82を、例えば、基質62aの窒素と64aの炭素との間に追加し得る。3)反応コアの抽出:実施形態は、「ボーリング」(以下で説明される)結合78を選択することによりグラフ68をグラフ70に変更し得る。かかる結合によって接続された各原子はワイルドカード84とマークを付けられて、ボーリング結合78は除去される。グラフ70は次によって反応テンプレート72に変更される。非ワイルドカード原子間のマッピングエッジ78が除去される。「欠損結合」エッジが再計算される(それらは前と同じ規則に従って除去されて再度追加される)。欠損結合エッジ84は次のように再計算される:マッピングエッジが除去されると、生成物中の窒素原子は基質中に対応する原子をもう有しておらず、従って結合は欠損しているとはもはや考えられない。ワイルドカード原子を有していないグラフ70の接続された成分は廃棄される(グラフ70に適用可能ではない)。従って、基質62b、64bおよび生成物66bが保持される。対応する原子を有しておらず、かつ反応中に変化している原子を有していないグラフの接続された成分は破棄される。「変化した」はその電荷が変化したこと、またはそれは反応中に変化した結合によって接続されることを意味する。従って、グラフ70の各側上の外側の2つの特殊なマッピングエッジ80は破棄される。マッピングエッジ86は、同じタイプのマッピング反応の異なる方法を統一するために、非ワイルドカード原子(N)から除去され、その利益は式3に関して説明される。式3では、描かれたようなエステル化反応に対して、基質中の酸素原子を生成物中の酸素原子にマッピングする6つの異なる方法があるが、差異は新しいエステル化反応を生成する目的のためには無関係である。従って、前述のようなテンプレート生成方法は単一のテンプレートをもたらすであろう。
【化1】
【0069】
一実施形態では、「ボーリング」エッジは興味深くないエッジである。全ての「マッピング」および「欠損結合」エッジは興味深い。対応するエッジを有していないか、またはその対応する生成物結合エッジが興味を引くか、またはその対応する結合が異なっている(すなわち、対応する結合が反応中に変化した)全ての結合エッジは興味深い。
【0070】
それらの結合を興味深いと見なすこと(従って、テンプレートを抽出するプロセス内でそれらを除去しない)は、反応中に生じる基質のグラフ構造における変化をコード化するために必要である。
【0071】
一実施形態では、定性的に異なる反応タイプが、「ハロゲン化アシルおよびアルコールからのエステル形成」または「ウィリアムソンエーテル合成」の間の区別などの、異なるテンプレートをもたらすように、他のエッジは興味深いと見なされる。これも、同じタイプの反応をマッピングする異なる方法を統一する役に立つ。実施形態において興味深いと見なされ得る他の結合は1)芳香環の一部ではない全ての二重結合および三重結合、2)中性炭素原子を中性炭素原子と接続せず、芳香環の一部ではない全ての結合、ならびに3)中性炭素原子を中性炭素原子と接続せず、少なくとも1つの変化した原子(変化した原子は「反応コアの抽出」で定義される)を接続する全ての結合、を含む。
【0072】
図7は、合成経路を提案するための方法のステップを例示するフローチャートである。一実施形態では、特定のテンプレートに基づいて、要求された生成物をもたらす反応を提案するために、以下の方法が使用され得る。ステップ702で、テンプレートグラフが2つの部分グラフ:生成物テンプレートグラフおよび基質テンプレートグラフ、に分割される。ステップ704で、実施形態は次いで、要求された生成物中の生成物テンプレートグラフと一致する部分グラフを探索し得る。ステップ706で、各一致に対して、実施形態は、生成物中の一致した原子および結合を除去して、基質のテンプレートグラフ原子および結合を追加することにより提案された基質のセットを生成し得る。ステップ708で、一致した生成物原子に接続された各結合は次いで、対応する基質原子と接続される同じ次数の結合と置換され得る。ステップ710で、このプロセスは有効な化学化合物ではない(例えば、一部の原子が有効な原子価を有していない可能性がある)基質のセットに対する候補をもたらし得、実施形態はそれらを除去し得る。ステップ712で、各対:(対が提案された基質のセットおよび生成物を含む場合)は反応として扱われる。ステップ714で、各反応に対して、実施形態はテンプレートをそれから抽出し得る。ステップ716で、実施形態は、抽出されたテンプレートが、この反応を生成するために使用された同じテンプレートではない反応を除去し得る。この等価チェックは、テンプレート作成中に生成されたグラフ同形およびアノテーションのチェックに基づいて行われる。
【0073】
一実施形態では、このプロセスは、要求された基質に基づき、基質テンプレートグラフおよび生成物テンプレートグラフの役割を逆転させることにより考えられる生成物を生成するためにも使用され得る。注意:前述の説明で使用された、反応の対としての表現:(基質のセットのグラフ、生成物のグラフ)は、元素のバランスを取ることも、反応が完全にマッピングされることも要求されないが、その他の点では異なるという事実により、機械学習モデルによって使用される反応の表現に関連する。
【0074】
反応提案方法の一実施形態に関して、平均的な複雑さの例示的な標的分子を合成するための第1の複数の反応は、システムが計算を略3分間実行することとなり、例えば、17,000の反応を提案する結果となり得る。この反応のセットから、抽出された経路は、最も安価な費用にランク付けされた、任意のユーザー提供の制約を満足する経路を含む。
【0075】
反応実現可能性推定
一実施形態では、機械学習を使用するシステムの別の特徴は反応実現可能性推定である。反応実現可能性推定は直接ユーザーに提供され得、逆合成ステップで提案された候補反応ランキングのための方法として使用され得る。候補反応の提案と同様に、実施形態は、参照反応のデータセットを使用して候補反応の実現可能性を推定し得る。1)実施形態は、類似性基準(例えば、反応フィンガープリントの使用)を使用して、候補反応に最も類似した参照反応を見つけ、その反応実現可能性を「最も近い」参照反応までの距離の逆数として推定し得る。反応フィンガープリントは当業者によって知られており、反応をビットの固定長ベクトルとして表すために使用され得る。ユークリッド距離またはジャッカード指数などの、反応(例えば、候補反応と参照反応)間の距離を測定するために使用され得る既知の基準がある。2)実施形態は、統計的方法で反応実現可能性を推定し得る:かかる方法は、化学反応のデータセットに基づき統計的モデルを(機械学習、またはより具体的には、ディープラーニング技術で)構築(学習)することを伴う。参照反応は主要なデータ源である。統計的モデルでは、実施形態は、カスタム反応表現を無向グラフとして使用し得、それは「化学反応表現」に関して以下で説明される。実施形態は、参照反応を「陽性」反応、すなわち、実際に起こる反応として扱い、カスタムヒューリスティックを使用して「陰性」(実現不可能な)反応を生成し得る。反応実現可能性推定には、以下で説明される、統計的モデルの2つのバージョンがある。
【0076】
一実施形態では、反応実現可能性推定に関して、2つの新規性が導入され得る:1)システムによって生成されたが、参照反応データセットに対するそれらの低類似性に起因して化学的にありそうにないと考えられる化学反応を弁別できる統計的モデルの構築。このアプローチの主な利点は、データセットのかなりの部分が、我々のシステムによって生成されたが、実現不可能と考えられる、反応から成るデータセット(それはモデルの訓練で使用される)の構成である。「反応実現可能性推定のための統計的モデル」において以下で説明される、異なるタイプの生成された「陰性」(実現不可能な)反応を使用して訓練されるモデルの2つのバージョンがある。これらの陰性反応を生成する2つの方法は、反応実現可能性推定のための統計的モデルに関するセクション内で説明される。これらの方法では、「陰性」としてマークを付けられた各反応は機械学習モデルの訓練を目的として実現不可能と考えられる。システムによって生成された反応が実際には実現不可能であるという論拠はヒューリスティックであり、それは現実には、「陰性」反応の一部の事例では誤っている可能性がある。2)これらの統計的モデルは、カスタム反応表現を、「化学反応表現」に関して以下で説明される、グラフノードとして表された原子、ならびに反応基質および生成物中の化学結合を表す異なる種類のエッジをもつ、無向マルチグラフとして使用する。
【0077】
反応実現可能性推定のための統計的モデル
一実施形態は、参照反応データセットを使用して反応実現可能性を推定するための2つの機械学習アプローチを導入し得る:第1は、所与の化学反応が起こる確率をモデル化する;および第2は参照反応によって表されるデータの分布と一致しないシステムによって生成された化学反応を弁別する。一実施形態では、次の説明に従って開発された反応実現可能性推定の基準は、合成容易性スコア(SAS)と呼ばれ、同様に
図29、
図30C、
図37、および
図38を参照して本明細書で更に説明される。
【0078】
実験に基づき、訓練のための両方のアプローチを使用して、反応実現可能性を推定するための最も強力な統計的モデルをもたらす。
【0079】
1.所与の化学反応が起こる確率のモデリング
【0080】
このタイプのモデルは、反応をそれらの確率によってランキングするか、または起こりそうにない反応を除去することにより、逆合成を支援するために使用され得る。しかし、典型的なモデルは、逆合成設定に対して、特別に調整されないか、または単に対処しない。
【0081】
図8は、化学反応が起こる確率を提供するためにモデルを訓練するためのデータセットを構築するための方法800の一実施形態におけるステップのフローチャートである。実施形態では、このモデルを訓練するための反応のデータセットは次のように構築される。ステップ802で、実施形態は参照反応を「陽性」反応、すなわち、実際に起こる反応として扱い得る。ステップ804で、各反応に対して、実施形態は固有のテンプレートをそれに割り当てて、この反応の重要な詳細(どの結合が特に変化したか)を記述し得る。ステップ806で、テンプレート出現頻度に基づき、実施形態は滅多に起こらない反応をデータセットから除去する。この除去は、無効な反応が最後にデータセットに行き着くのを防ぐ。
【0082】
モデルの訓練は、「陰性」データ、すなわち、実際に起こる確率が小さいと判断された反応、も使用し得る。かかる陰性データは合成であり、次のように構築され得る。第1に、各参照反応に対して、実施形態はそのテンプレートを使用して、同じ基質であるが異なる生成物をもつ、合成反応を生成する。フローは基質から生成物へ進むので、これは正反応または下流反応である。この合成反応は、同じタイプの反応であり、元のもの(例えば、異なる場所にある基質)とは異なって進んで、代替生成物を生じた。次いで、得られた反応は「陰性」反応、この事例では「正陰性(forward negative)」反応とマークを付けられる。
【0083】
モデルは、機械学習モデルのうまく確立された要素である、構成ブロックから構築され得る。実施形態は、グラフ入力に作用するグラフ畳み込みニューラルネットワークを使用し得る。しかし、実施形態は、この種類のモデルを、反応の単一グラフとしての直接表現に使用する最初のものであり得る。モデルは、その内部パラメータを反復して適応させることにより、陽性および陰性データに基づいて反応実現可能性を予測するように学習する。
【0084】
2.参照反応によって表されるデータの分布と一致しない、システムによって生成された化学反応の弁別
【0085】
このタイプのモデルアーキテクチャおよび訓練方法は、以前のモデルと広範囲にわたっては異なっていないが、このモデルは次の理由のために新規であり得る。第1に、それは、そのデータセット構築中の次の概念的シフトのために逆合成問題に直接適している:人工的な実現不可能な反応を生成するために参照反応内で見つかったテンプレートだけを使用する代わりに、実施形態は、かかる陰性サンプルを構築するために実施形態自身によって生成された反応も利用する。第2に、以前のモデルと比較すると、このモデルは次の追加の統計的方法を使用する:実施形態は、その実施形態の反応発生装置を使用して反応を生成し、参照反応のある統計値に一致しない反応を陰性反応データセットに追加する。これらの統計値の計算の詳細は、「データセット構築」に関して以下で説明される。発生装置の観点から、目的は、同じ生成物に対して提案され得るが、グラウンドトゥルースデータセットに報告されなかった、他の反応と比較してグラウンドトゥルース反応のスコアを最大限にすることである。
【0086】
データセット構築:実施形態は以前に説明された陽性および陰性データを基礎として使用し得る。
【0087】
図9は、フローが生成物から基質に進むという意味で逆または上流である陰性反応を作成するための方法の一実施形態におけるステップのフローチャートである。実施形態では、鍵となる考えは、次の手順(逆合成中に実行される反応生成のための手順に類似している)で作成された、追加の陰性合成反応の追加である。ステップ902で、ランダム参照反応サブセットが選択される。ステップ904で、各反応で基質が廃棄されて、生成物だけが残る。ステップ906で、各生成物に対して、逆合成反応生成の1ステップが実行されて、その生成物の合成に至るいくつかの化学反応を生成する。ステップ908で、それらの反応から、類似のタイプの参照反応で観察された統計的特性に適合しないものだけが選択される。ステップ910で、選択された反応が陰性反応としてマークを付けられて、基礎データセットに追加される。ステップ912で、生成プロセスは、生成された陰性反応の数が何らかの設定された割合を超えるまで繰り返される。この割合は、生成された反応の何割が通常実現不可能であるかを手作業で推定することによって決定される。一実施形態では、モデルを訓練するために使用される陰性反応の数は、陽性(「参照」)反応の数と同じオーダーであり、それは、実施形態では、略百万の陽性反応である。従って、実施形態では、モデルは略2百万の総反応を使用して訓練され得る。
【0088】
かかる逆陰性例は所与の化合物をもたす代替(グラウンドトゥルースとは異なる)反応を表す。化合物は、それらに至る多くの考えられる反応を有するので、機械モデルの訓練におけるそれらの使用は、化学者にとって直感的ではなく、そのため逆陰性例はいくつかの偽陽性を含む必要がある。
【0089】
モデル構築:第1のモデルにおけるように進む。第1と第2のモデルの差は、異なるモデル構造からではなく、学習中に使用された異なるデータセットに起因する。
【0090】
化学反応表現
上で説明されて、反応実現可能性を推定するために使用される両方のモデルは、グラフニューラルネットワークのタイプ、一般的に使用される機械学習モデルである。しかし、実施形態は、
図10に例示される、グラフとしての化学反応の次の表現を、統計的モデルの訓練において使用される入力として使用し得る。
【0091】
図10は、基質1002から始まって生成物1004をもたらす反応をコード化するための方法1000の一実施形態を例示する略図である。方法1000では、反応は、基質フラグ1006および生成物グラフ1008を含む無向マルチグラフ1005として表される。機械学習のための反応を表す、グラフ1005で、生成物1004中の全ての原子が基質1002中に見られるとは限らない。例えば、元素O、N、O 1024は基質1002中に見当たらないが、それらは生成物1004(N 1036、O 1038、O 1040)中に見られるので、図に示されるようにグラフ1006内に表される。元素O、N、O 1026は生成物グラフ1008内に示されている。また、実施形態は、水などの、いくつかの単純化合物を、基質のリスト内でのそれらの存在は暗黙的に推測される得るので、廃棄し得る。そのため、マルチグラフ1005は完全であり、仮定は、窒素および酸素原子は、何らかの他の化合物、例えば、NO2、に由来するということである。マルチグラフ1005で、各ノード(すなわち、最上位行1016、1020内の各原子、第1の列1022内の各原子と同じである)は反応中の固有の原子を表す。基質および生成物の両方中に存在する原子は、単一ノードとして表される。基質中だけ、または生成物中だけに生じる原子も、単一ノードとして表される。言い換えれば、実施形態では、各原子は単一ノードとして表され、基質中および生成物中の両方に原子がある場合、それは複製されて2つのノードとして表されるのではなく、むしろ単一ノードとして表される。原子間に2つのタイプのエッジがあり:1つは基質中の化学結合を表し、他方は生成物中の化学結合を表す。2つのタイプのエッジは、それぞれ、2つの別個の部分グラフ1006、1008の隣接マトリックス1010および1012内に表される。マトリックス内の各エントリは、一対の原子間の結合の化学型(単結合(-)または二重結合(=)として記号で示される)を表す数値を含む。行および列の次数は、反応1004中の原子に与えられて、グラフ1005の列1022にミラー化された、ラベルに対応する。次数は列1022および上の各行1016、1020によって示されているが、次数のこのリストは任意選択である(例示目的のために有用であるが)。グラフ1005は反応の前(部分グラフ1006)および後(部分グラフ1008)の原子間の関係を記述する。モデルは、基質部分グラフ1006と生成物部分グラフ1008との間の差を調べるように学習して反応実現可能性を評価できる。明確にするために、マルチグラフ1005は、反応を表すために使用され得、1つ以上の実施形態に従い訓練入力として受け取り得る統計的モデルに提供され得る。
【0092】
図10に示される例では、基質部分グラフ1006は、反応において示される各原子に対する行および列で構築される。従って、部分グラフ1006は、反応の基質側に示されていない原子1024を含む。原子は任意に配列され得るが、行1016および1020ならびにそれらの列の次数は同様でなければならない。この配列は、「自己」によって示される識別の斜めの行となり、「自己」ラインの両側の情報は他のミラーである。従って、一実施形態では、各マトリックス1010、1012はそのマトリックスの固有の半分に制限され得る。
【0093】
完全な合成経路の生成
前の段落では、単一の標的生成物(「一段階」逆合成)に対して反応がどのように提案されるかについて実施形態を説明した。しかし、実施形態は、市販されている単純な化学化合物から標的生成物に至る完全な経路または複数の経路(「多段階」逆合成)をユーザーに提供し得る。実施形態では、多段階逆合成に対処する2つの基本的な方法がある:第1では、多段階逆合成は、標的分子に対して提案されている化合物に至る反応を再帰的に提案し、その値の何らかのヒューリスティックに起因して最も有望な経路を選択することにより解決され得る。第2では、多段階逆合成タスクは、最も有望な反応を提案するように学習する統計的モデルを使用して解決されて、参照データセットに関して性能を最大限にし得る。
【0094】
図11は、合成経路を提案するためにモデルを訓練するための方法1100の一実施形態におけるステップのフローチャートである。ステップ1102で、モデルは前述した発生装置の1つを使用して標的化合物に対する候補反応を生成する。ステップ1104で、モデルは標的化合物に至る単一の最も有望な反応を選択する。ステップ1106で、モデルはこのプロセスを、候補反応における基質の各々に対して繰り返す。ステップ1108で、モデルはこのプロセスを、全ての最終基質が市販の分子になるか、または何らかの最大ステップ数の後まで、繰り返す。ステップ1110で、この第2のモデルは、最終基準を満足する基質に到達しない場合に罰せられ、最少の考えられる数の中間反応で適切な基質に到達する経路に対して報酬が与えられる。
【0095】
完全な合成経路を生成するための我々のモデルの実施形態は、少なくとも内部モジュールのその併用のために新規である。1)テンプレートおよび/またはディープニューラルネットワークを使用する発生装置。2)参照データセットに対する類似性探索(分子フィンガープリントまたは訓練されたモデルによる)。3)反応実現可能性推定装置。発生装置は多くのおそらく有用な反応を提案するために使用され得、他方、反応実現可能性推定装置は、標的化合物に対する最も可能性が高い反応を選択するために参照データセット類似性と組み合わせて使用される。
【0096】
全体的な経路/経路ビュー
図12は、探索木から抽出された多段階反応経路1210の一実施形態を表示しているグラフィカルユーザーインタフェース1200の一実施形態からのスクリーンショットである。
図12に例示される実施形態では、標的分子1228への経路1210は、化合物1212、1214、1216、1218、1226、1230、1232、1234の集合として、化学反応を表す方向矢印(リンク)1203、1207、1209、1213、1217と共に提示される。各矢印は、1つの反応を表して、反応基質(複数可)から反応生成物へ進む。従って、化合物の多くは基質および反応生成物の両方である。
図12で、ユーザーは、探索木から抽出された、提案された合成経路1210を、いくつかの抽出された反応経路のスコアリング(「ランキング」としても知られる)によって決定された順で提供される。スコアは、費用関数および合成経路の総推定費用の推定のセクションで決定された合成経路の費用である。加えて、探索ポリシー(設計ポリシーを規定するアルゴリズム)のセクションでは、同様に使用され得る費用関数の異なる変形を説明する。合成経路内の各化合物に対して、ユーザーは、この化合物を異なる方法で合成したいか、またはシステムに、分析のこの部分にもっと多くの時間を費やして欲しいと決定し得る。ユーザーは1つの化合物、例えば、1226を選択し得、システムは、合成経路の適切な上流部分、すなわち、反応1213および潜在的に1217を再設計する。
図12では、GUI 1200は化合物タブ1202、反応探索タブ1204(選択されて、「合成プラン」という名前になり得る)、保存された反応タブ1206、および評価ツールタブ1208を含む。反応探索タブ1204は、1つ以上の抽出された反応経路(例えば、経路1210)、または反応探索の状態を表示する。ユーザーが標的分子1228からの構造または官能基をその構造または官能基のソースまで辿るのを支援するために、GUI 1200は標的分子1228のコード部分を着色し、その色分けをコード化部分のソースまで伝搬させ得る。例えば、標的分子1228は色分けされたセクション1220a、1222a、1224aを有する。これらのセクションの各々は上流反応において起源となる基質まで色分けされる。すなわち、セクション1222aは、分子1230内でセクション1222bとして示されており、それはセクション1220aに対するソース基質である。セクション1220aに対して、そのセクションは分子1232、1223、1226、1214内で、および最後に起源となる基質1218内でセクション1220fとして、見られる。ユーザーはかかるソース情報を使用して、選択、例えば、どの反応が反応提案機構を再設計すべきかに関する選択をさらに通知し得る。GUI 1200の一実施形態では、各化合物の近くにボタンが表示され得るか、またはユーザーは化合物上を直接クリックすることが可能であり得る。ボタンまたは化合物が選択されると、システムはその化合物に関する動作、例えば、その化合物に到達するか、またはその化合物から通じる経路の再設計、を実行するように要求され得る(例えば、
図33および
図35を参照)。いくつかのあまり重要ではない反応は隠され得る(注意:
図12では反応は隠されていない)。
【0097】
結果からの反応の詳細なビュー
図13は、合成経路からの反応1300の詳細なビューを表示しているGUI 1200の一実施形態からのスクリーンショットである。
図13で、合成経路からの反応1300、1330がユーザーに表示される。GUI 1200は探索が完了したことを示す状態インジケータ1314を有する。GUI 1200は、反応提案探索1310を再実行するか、または完全な合成経路1312を表示するためにユーザーが選択し得るオプション1310および1312ボタンを含む。ボタン1316、1318を使用すると、ユーザーは探索木から抽出されたランク付けされた(より良い1316、悪い1318)反応合成経路の間をナビゲートして、同じ生成物に至る他の反応を見得る。現在表示されている反応の基質に至る反応を見るために、ユーザーは基質自体の上をクリックし得る。例えば、基質1324上をクリックすると、一部だけが表示されている基質(1332)に至る反応1330を表示する。既定により、同じ生成物に至る反応が、それらが含まれている完全な合成経路のランキングまたはスコアリングに従って表示される(すなわち、ランキングは経路内の任意の特定のステップに関してローカルではなく、グルーバルであり-抽出された反応合成経路全体に適用して-単一ステップではなく、プロセス全体を最適化する)。ユーザーは、ボタン1320を使用して類似性基準によって決定されたとおり、反応1300に類似している反応を見ることを選択し得、それは次いで反応1300に類似している類似反応を表示する。ユーザーは、適切な入力を追加するか、またはインタフェース内で選択を行うことにより(
図15)ランキングに影響を及ぼすか、またはある反応を選別し得る。反応は、ユーザーがそれらをブラウズするのをもっと容易にするために、類似性基準を使用してグループ化され得る。ユーザーはグループがどのように形成されるかに影響を及ぼし得る。一実施形態では、類似性基準は、標的分子の同じ部分または複数の部分を改変する反応を一緒にグループ化するグループ化機構によって使用される。他の実施形態では、グループ化機構は反応のタイプ(「脱保護反応」、「保護反応」、「炭素-炭素結合形成反応」、「官能基相互変換」...のような)または化学者に周知で意味のある他のカテゴリに基づきグループ化され得る。明確にするために、類似反応は、問題の反応に対する参照として提供される反応(そこで1320をクリックすると1300に対する参照が表示される画面をもたらす)であり;一方、反応のグループ化は、参照を表示するためではなく、ブラウズをより容易にするために行われる。GUI 1200で、反応は、同様の要素、官能基、または構造がユーザーによって視覚的に追跡され得るように色分けされ得る。反応1300で、生成物1322および基質1324の両方において、N元素1326は同じ色を有し得る。同様に、CL元素1328は、N1326とは異なる、同じ色を有し得る。反応1330で、N元素1326は、生成物1332および基質1336、1338の両方において反応1300におけるように着色され得る。
【0098】
図25は、グループ化された反応を表示している画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。各赤線(2506、2508、2510、2512、2514、2516)は、対応するグループから各反応中に作成される結合にマークを付ける。各グループ内の反応は、その結合の作成を共通して有する。
【0099】
図26は、化合物2604に関する情報2608の表示を例示しているユーザーインタフェース1200のスクリーンショットである。設計された合成経路内に出現する各市販の化合物に関して、ユーザーは、例えば、それを購入するか、または自身で作製するのが最も費用効率が高いかを判断するのに役立つ支援情報を提供され得る(
図17~
図19、
図34、
図36、および
図37も参照)。この情報は、研究室内での合成のより効率的な実行に向けて寄与し得る。
図26で、情報2608は、反応合成経路1210からの化合物2604は3つの異なるベンダーから異なる価格および量で入手できることを示す。ベンダーは、それらがどの階層に属しているかに従ってランク付けされる。情報2610はEnamine BBベンダーに関する。Enamine BBは階層3ベンダーとしてリストされており、それは実施形態では、その化合物は在庫があることを意味する。それに対して、より高い、階層4は、化合物は在庫がないことを意味する。結果として、情報2608は、提案された合成反応経路に対する制約としてユーザーによって使用できる-ユーザーは、提案された合成経路が市販の化学物質が市販されていて在庫がある(階層3以下)ことを必要とするように要求できる。追加として、ユーザー追加の制約は、特定の基質の在庫を持つ必要な数のベンダーであり得る。そのため、反応提案機構が化合物2604を購入基質として提案する前に、ユーザーが、2つ以上のベンダーが化合物2604の在庫を持っていることを要求した場合、化合物2604はその基準を満足しないであろう。結果として、一実施形態では、反応提案機構は、基準を満足するか、または自身で合成する必要がある基質から化合物2604が生成される合成経路を提案するであろう。類似の情報が化合物2602および2606から利用可能であり得る。一実施形態では、各ベンダーに関して、GUI 1200はベンダー/調達サイトに進む能力を提供し得る。全ての提案および抽出された反応に関して、GUI 1200は、システムがアクセスできるデータ内で見つかる最も類似した反応に対する参照を表示し得る。実施形態は、かかる参照を外部データ源またはユーザー提供データ内で探索することが可能であり得る。
【0100】
図14は、標的化合物入力画面を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
図14で、GUI 1200は、化合物タブ1202内で、ユーザーが標的分子1228を入力する能力を提供する。実施形態では、化合物は、外部供給源からインポートされた既知の化合物(例えば、オシメルチニブ)であり得るか、または埋め込み分子エディタを使用して作成され得る。一実施形態では、標的分子1228は、あるセクションの合成を追跡する際に使用を支援するために色分けされ得る。例えば、セクション1220a、1222a、および1224aは各々異なる着色を有し得る。同様に、元素1414、1416は同様に着色され得、元素1418、1420は同様に着色され得る。色分けはユーザーが探索制約を直接分子構造に対して定義するのを支援し得る。
【0101】
図15は、ユーザーが探索パラメータを入力する画面の一実施形態を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
図15で、合成プランタブ1204内で、ユーザーは進捗インジケータ1520および探索パラメータに関するオプションを提供され得る。例えば、オプション1506は、反応提案機構において機械学習の使用をユーザーに提供し得る。オプション1508は、提案される反応を一段階経路に制限することを提供し得る。オプション1510は、市販の化合物がある数のサプライヤから入手可能であるという要求を提供し得る。オプション1512は、合成スケールに関係し得る。オプション1514はサプライヤおよびそれらの出荷に関する能力またはタイミングに更に関係し得る。オプション1516は、例えば、表示のためにランク付けされる抽出される反応経路の数に関する標準的な制限などの、標準探索パラメータのオーバーライドを提供し得る。画面内で、合成の探索ボタン1518はユーザーが、反応経路(例えば、経路1210)の探索、およびその提案のためにシステムを開始するのを可能にする。
【0102】
図16は、結果が生成されている間のユーザーインタフェースの一実施形態からのスクリーンショットである。
図16で、GUI 1200は、標的分子1228に対する反応合成経路の探索の開始からの時間を提供するタイマー1602を含む。反応結果セクション1604は探索進捗を反映するように変化する。
【0103】
図17は、部分探索結果の詳細なビューを表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
図17で、GUI 1200は、探索が活発な実行フェーズ1702に入ったことを示す。反応結果セクション1604は、標的分子1228が基質1232と1230との間の反応の生成物である提案された反応1203を表示するように変化した。価格インジケータ1710は、基質1230は市販されていて、いくらであるかを示す。基質1232に対する類似の価格インジケータがないことは、基質1232は市販されていない可能性があることを示し得る。ランク付け結果インジケータ1316、1318は、反応1704が計算のこの時点において39の提案された反応経路のうちの最善であることを示す。基質1232に対する類似の価格インジケータがないことは、システムが、出発物質の一部が市販されていない反応の経路を作成および表示できるためでもあり得る。すなわち、基質1232に至る反応はユーザーがそれをクリックすると表示され得る。
【0104】
図18は、部分探索結果の詳細なビューを表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
図18で、GUI 1200は、結果(経路1704を含む39の反応経路)は更新されている(1802)ことを示す。
【0105】
図19は、完了した探索結果の詳細なビューを表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
図19で、GUI 1200は、反応合成は完了している(1314)ことを示す。結果として、ユーザーは合成1310を再実行する(恐らく1つ以上の入力パラメータを変更した後)か、または完全な反応合成経路1312を表示するオプションを提供される。
【0106】
図20は、
図19に表示されている結果に対する完全な合成経路を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
図20で、合成を表示ボタン1312がユーザーによって選択された後に、GUI 1200は標的分子1228の合成に対する完全な合成経路1704を表示する。
図20で、基質の近くのカート記号は、その基質は市販されており、選択されると、カート記号はその化合物に関する情報を提供することを示す。カート記号は化合物2008に対しても表示されていて、反応は化合物2008を合成するように提案されているので、表示は、化合物2008を購入するよりも化合物2008を合成する方がより経済的であるとシステムが判断していることを示す。点線で囲まれたセクション2002は、ユーザーが反応生成物1228と基質1216、1218、1230、1232、2002、2004、2006、2008、および2010との間の経路の態様を追跡するのを支援し得る同様に着色された元素を示す。
図20には示されていないが、標的分子1228の他のセクションが、
図12に示されているように、着色されて、反応経路1704を通して追跡され得る。
【0107】
図21は、
図19および
図20の反応1203に類似した反応を表示して、ユーザーが研究室内で反応を実行するのを支援するユーザーインタフェースの一実施形態からのスクリーンショットである。
図21で、GUI 1200は、基質2104と2106との間の反応2103の生成物である標的分子2102を表示する。実施形態では、システムは、標的2102は標的分子1228に類似して、反応2103は反応1203に類似していたと判断した。従って、システムは反応2103を、その記述と共に支援情報として反応1203に提供した。反応2103の表示は、類似性判断に起因して、反応2103を実行するために使用された反応条件はユーザーが反応1203を実行するのも可能にする確率が高いので、ユーザーが反応1203を実行するのに役立ち得る。
【0108】
複数の化合物のための合成の計画
現在のところ、一実施形態に従って、反応提案機構は、ユーザーによって入力された標的分子の合成のために探索木を生成し、その探索木から反応経路を抽出する。一実施形態では、ユーザーは単一の基質、例えば、出発基質または反応経路内の中間化合物を選択し得、システムは、選択された化合物を、候補化合物のグループの中からシステムによって選択された代替化合物と置換することにより反応の追加のグループ(選択された基質からの下流)を生成し得る。実施形態では、候補化合物は全て、既知の化合物の1つ以上のデータベースを探索するシステムによって決定された市販の化合物であり得る。選択された化合物が中間体である(かつ出発物質ではない)場合、代替生成物に至る上流反応はもう必要ないので、生成された経路は切り詰められる-下流反応に制限される。一実施形態では、ユーザーは代替化合物を選択し得る。どちらの場合にも、システムは代替化合物から下流反応を提案する。
【0109】
一実施形態では、反応経路からの中間化合物は、第2の標的分子の合成で使用され得る。従って、各々が合成経路内のあるポイントで見つかる共通の基質で分岐している、2つ以上の合成経路が提案され得る。一実施形態では、提案された第2の標的分子は、前述の、類似性基準によって判断されたとおりユーザーの標的分子に可能な限り類似すると判断された分子であり得る。
【0110】
図22は、一実施形態によって生成されて、基質2204、2206、および2208からユーザー選択標的分子2202を生成する、提案された合成経路2200の一例である。実施形態では、ユーザーは基質2204を選択して、システムが代替化合物のライブラリを生成することを要求し得る。生成されたライブラリから、ユーザー、またはシステム、または両方は、基質2302(
図23)を選択し得る。新しい基質2302に基づき、システムは次いで化合物2204から下流の反応を修正して化合物2204に対する化合物2302の置換を反映する。
図24は、化合物2302を使用する反応のシステムの修正の結果を例示する。新しい反応生成物2402は、置換化合物2302の使用を反映する。一実施形態では、化合物2402のセクション2404aは着色され、上流反応を通して2404bおよび2404cとして追跡されて部分2404aの始まりを示し得る。同様に、化合物2302と関連した構造は同様に着色されてその起源を示し得る。
図22~
図24は、実施形態の2つの態様を示す。第1に、1つの基質の別の基質に対する置換は、異なる標的分子2402対2202となり得る。第2に、単一の基質2206は2つの異なる基質2204、2302と反応して、2つの異なる標的分子2202、2402を生成し得る。第1および第2の標的分子の両方ならびにそれらの関連した合成経路を表示しているGUI 1200の一実施形態では、ユーザーは、中間化合物2206を合成し、化合物2206を使用してユーザーの標的分子2202および第2の標的分子2402の両方を合成することにおいて優位性を見いだし得る。言い換えれば、化合物2208から化合物2206に至る反応は両方の経路に対して同じであるので、ユーザーは、4つの代わりに3つの反応を実行することにより化合物2202および2402の両方を合成することの利点を見いだし得る。一実施形態では、システムは、代替物として提案されて、ユーザーがライブラリを合成するために購入し得る市販の化合物のリストを提供し得る。
【0111】
一実施形態では、元の基質に対する代替は、修正された合成経路内の下流反応が元の経路内の反応から実質的に変化しないように使用され得る基質を含み得る。すなわち、修正された合成経路は、元の基質と代替基質との間の構造上の差に直接起因し得る変化を除いて、元の経路と同じであり、修正された合成経路は、下流反応内の反応のタイプまたはカテゴリに対する変化を含んでいない。
【0112】
一実施形態では、代替標的分子は、その代替標的分子が元の標的分子からどれくらい近接しているかによって判断されたランキングで提案され得る。実施形態では、代替基質のライブラリからの各代替基質に対して、システムは代替標的化合物を生成し得る。第2の合成経路内の反応が結局、実現不可能であると分かる場合、システムは代替標的化合物を生成できない可能性がある。各代替標的化合物に対して、システムは次いで、代替と元の標的化合物の比較を実行して、類似性スコアを生成する。システムは次いで、類似性スコアに従って代替標的化合物をランク付けし、最も類似した代替標的化合物および関連した合成経路、または代替標的化合物および合成経路のランク付けされたリストをユーザーに提供する。
【0113】
一実施形態では、代替標的化合物に至る修正された合成経路の提案において、反応提案モジュールは、元の標的分子から基質への逆合成経路を提案するために使用された同じテンプレートを採用する。従って、実施形態は、既に評価されて実現可能な結果をもたらすと判断されているテンプレートを使用するが、それらは新しい文脈で再評価される。言い換えれば、同じテンプレートによってもたらされる実現可能および実現不可能な両方の反応があり得る。所与の反応の実現可能性を判断することは統計的モデルの役割である。
【0114】
図22を参照すると、複数の化合物の合成をプランする実施形態が、置換のための1つの候補(化合物2204)、1つだけの置換する化合物(化合物2302)および変更される1つだけの反応(
図22におけるように、2202をもたらす)がある合成経路を参照して説明され得る。第1の一連のステップでは(
図6に関して説明されたとおり)、システムは反応(
図22におけるように、2202をもたらす)から反応テンプレートを抽出し、この反応テンプレートを基質のセットに、それらの1つを置き換えて(2206および2302)正の、下流方向に適用する。結果として複数の反応が生成され得る。
【0115】
元の反応内の変化しない基質のいずれかに対して、新しく生成された反応中に変化した原子のセットが元の反応内の変化した原子のセットと異なる場合、新しく生成された反応は廃棄される。これは、生成された反応が、基質の元の反応と同じ部分を改変する(または「起こる」)ことを確実にする。
【0116】
次いで、システムによって使用された統計的モデルに従って(および前述された)実現不可能な反応は廃棄される。通常、最大で1つの反応が残る。この新たに生成された反応の生成物は、合成され得る化合物としてシステムがユーザーに返す化合物のライブラリに追加される。
【0117】
図22のものよりも比較的長い合成経路、例えば、
図20の合成経路1704では、置換のための候補化合物が合成経路の最終反応(すなわち、
図20の反応1203)内の基質ではない場合、前述した前述のプロセスが、置換化合物から標的化合物に至る各反応に対して繰り返される。例えば、
図20の化合物2006が置換された場合、前述のステップは、化合物2006と標的分子1228の間の各反応に対して繰り返される必要があるだろう。
【0118】
プロセスは各代替化合物に対して繰り返される。何百万ものかかる化合物があり得るので、様々な最適化が利用され得る。システム内で現在、実装されている、1つのかかる最適化は、次のように説明される。第1のステップで、システムは、置換化合物内のどの官能基が元の反応に加わるかを検出する。官能基は、例えば、置換化合物のグラフを「ボーリングエッジ」(
図6に関する説明を参照)に沿って断片化し、結果として生じた接続された成分の各々を官能基として解釈することにより、生成される。かかる官能基の少なくとも1つの原子が元の反応中に改変される場合、それは元の反応に加わっていると解釈され、従って、代替化合物はかかる官能基を含む必要がある。
【0119】
次いで、各代替化合物に対して前述のステップを実行する代わりに、第1の変更された反応が起こるために必要な官能基の全てを有する代替化合物だけが選択される。このフィルタリングは、ルックアップテーブルを用いて実装され、この場合、鍵は官能基であり、値は所与の官能基を有する化合物のリストである。このプロセスは、極めて高速であり、大半の事例で、検討される市販の化合物の数を少なくとも1桁だけ減らす。
【0120】
一実施形態では、生成された標的化合物のライブラリが、多くの方法で、ソートされ、フィルタリングされ、またはランク付けされ得る。ソートは、代替化合物の市販での入手可能性、例えば、グラムあたりの価格またはあるベンダーでの入手可能性、に基づき得る。ソートは、反応性官能基に起因した毒性、溶解性、分配係数などの、化合物の推定されたADMET特性に基づき得る(確立された方法を使用)。ソートは、ライブラリ内の所与の化合物に至る新たに生成された反応の推定された実現可能性に基づき得る(前述の統計的モデルを使用)。ソートは、例えば、ECFPなどの、確立された方法を使用して、生成された生成物の、元の合成経路の最終生成物に対する類似性に基づき得る。
【0121】
図27は、陰性反応を作成するための方法の一実施形態の図解である。
図27で、基質2702と2704との間の反応2700は、基質2704を塩素原子の代わりに基質2702の炭素原子に結合するためにベンゼン環上に4つの考えられる位置2706、2708、2710、2714を有するとして示されている。矢印は基質から生成物への方向を示すので、
図27は、「正」または「下流」反応を示す。反応2706は、既知の参照反応であるので、陽性反応と考えられる。反応2706で、化合物2704は炭素2714で化合物2702に連結される。炭素2714の位置は、参照のために化合物2708、2710、および2712内にも示されている。陰性反応2708、2710、2714を作成するために、化合物2704は炭素位置で分子2702に結合され、それは実現可能であると分かっていないが、同じカテゴリの反応である。すなわち、これらは、化合物2706を生成する反応と同じカテゴリである3つの代替反応であり、塩素との結合はベンゼン環の炭素との結合と置換される。
【0122】
図28は、陰性反応を作成するための異なる方法の一実施形態を例示する。矢印は生成物から基質への方向を示すので、
図28は「逆」または「上流」反応を示す。
図28で、生成物化合物2802は基質2808間の反応2804によって生じることが分かっている。
図28で、システムは、テンプレート(抽出された1つだけでなく、任意のテンプレート)を生成物に適用することにより、既知の反応のデータベース内で見当たらない、それぞれ基質2810a、2810bとの組合わせで2つの他の考えられる反応2806a、2806bがあると判断する。反応2806a、2806bはその結果、陰性反応として指定される。
図28では、2つの陰性反応が示されているが、陰性反応の数は制限されていない。
【0123】
実施形態では、陽性および陰性反応の両方がシステムにより統計的モデルを訓練するために使用されて、反応発生装置によって提案された反応から実現可能な反応と実現不可能な反応を弁別する。
【0124】
図29は、合成容易性スコアの一実施形態と既知のスコアリング法との間の相関関係を示すチャートである。合成容易性スコア(SAS)の一実施形態は上で開示されており-合成経路の費用(「費用関数および合成経路の総推定費用の推定」セクションにおけるとおり)はSASの一実施形態である。
図29で、Mlスコア、高速Mlスコア、Mlスコア(分散)、および高速Mlスコア(実験的、分散)は、各抽出された反応経路に対してシステムによって決定された合成容易性スコア(SAS)の各実施形態である。SASは、抽出された反応経路の実行の困難さの基準であり、より困難な経路はより高いSASとなる。SASは、システムが利用できる情報、すなわち、抽出された反応、各市販の基質と関連した情報、に基づく。
図29で、SASの高速Mlスコア実施形態は、1時間あたり数万の化合物に対してSASを提供するために使用され得、それは抽出された合成経路をランク付けするためにシステムによって処理される必要がある反応の数を示すことに留意されたい。一実施形態では、SASは所与の化合物の合成の困難さを測定するが、単一の経路に結び付いていないので-一例として、複数の考えられる経路を有することは、それらの全部が失敗するリスクを低減し、従って合成の困難さを低減する。
【0125】
図30Cは、経路内に異なる数のステップをもつ合成経路を点数化するための合成容易性スコアの一実施形態の使用からの結果を示すチャート3000である。
図30Aおよび
図30Bはチャート3004、3002であり、それぞれ、
図30Cで点数化された同じ反応のスコアリングの従来技術方法の使用からの結果を示す。各チャートは、x軸3014にわたる反応経路内のステップ数をリストする。SASチャート3000反応からの2段階経路結果3010の、SCスコア3002からの2段階経路結果3012との比較は結果3010がよりしっかりとグループ化されていることを示す。これは、化合物が購入されることを示す、合成経路3006、3008内の0ステップに対してさえ、当てはまる。各チャートからの一般結果の比較は、チャート3000が増大する合成経路長の効果をより明瞭に反映することを示す。
【0126】
実施形態では、SASは、抽出された合成経路に基づいており、実際の抽出された経路を使用して、その実行価格を推定し、それは次いで、スコアの計算および出力に使用されるので、合成容易性を評価する以前の方法に対して優位性を提供する。これは、環内の原子数または立体中心の数などの分子特徴を使用して構造から直接スコアを計算する方法よりも正確であることが分かる。
【0127】
SASは抽出された経路にアクセスできるので、利用可能な出発物質のセットを吸収し得る。その構造だけが分かっている任意の化合物の市販での入手可能性を、データベースにアクセスすることなく、アルゴリズ的に判断することは不可能である。合成経路の中間体の市販での入手可能性は実行する必要のある反応数を減らし、従って合成の複雑さを著しく低減し得るので、その知識は重要である。
【0128】
SASで最終生成物の費用が推定されるという事実は、出発物質の価格の最終スコアへのスムーズな組込み(所与の出発物質は、少量の合成の場合、取るに足らない費用であり得るが、マルチグラムスケール合成で使用される場合高過ぎる可能性がある)を可能にする。通常、自動逆合成の文脈では、固定のカットオフが適用される(「100$/g未満の化合物だけが容認可能な出発物質である」のような)。それは、その費用が閾値に近い化合物の利用に関して問題がある-閾値をわずかに上回る化合物が完全に無視されて、閾値をほんの少し下回る化合物のかなりの費用が顧みられない。
【0129】
SASは抽出された経路にアクセスできるので、実行する必要のある実際の反応を吸収し得る。時々、所望の生成物から著しく異なる化合物がそれを急速に合成するために利用され得、逆の場合も同じである-最終化合物と略同一の化合物は、最終化合物の合成のために役に立たない可能性がある。特定の化合物に対して、新しい反応が発見されると、この状況は変わり得る。同様に重要なことは、経路内の反応の1つに起因する化合物の改変は、異なる反応の利用を可能にし得ることである。従って、合成の複雑さが正確に推定される場合、合成経路に実際にアクセスできること(SASが有する計算方法として)は極めて有用である。
【0130】
図37は、SASのこれらの利点を例示する。たとえかご型構造3708(アダマンチル基)が複雑なものと見なされても、標的化合物3702は、a)この構造を含む安価な出発物質3706がある、かつb)この出発物質を利用する反応が実現可能である、ために一段階で容易に合成できる。それらの要因のいずれかを無視することは誤った結果をもたらし得る。
【0131】
SASの実際的な使用事例は次を含む。SASスコアは創薬パイプラインの様々なフェーズで設計された構造に優先順位を付けるために使用され得る。優先順はどれが最初に合成されるべきか(またはそもそも合成されるべきか)を決定するために使用され得る。これは、新しい構造の活性に関する情報を収集して、可能な限り迅速に更なる決定を行うために重要である。SASスコアは、in-silico手法によって生成された構造の多目的最適化のために利用され得;モデルを訓練して、所望の薬理学的特性を有していて、容易に合成できる構造を生成する。
【0132】
図31は、合成経路を提案するための方法の一実施形態に対するアーキテクチャ3100を示すフローチャートである。
図31において、ステップ3102で、ユーザーはシステムに対して標的化合物に対する合成経路を提供する要求を提出する。ステップ3104で、PostgresデータベースがAPI層から要求を受信する。定期的に実行されるステップ3106および3108のループ3130で、ステップ3106において、要求がPostgresデータベースからLambda層によってフェッチされ、Lambda層はステップ3108でECSタスクを作成する。ステップ3110で、ECS層は、Autoscaling Group層によって提供される、ECSクラスタオートスケーリングを介して新しいインスタンスをスピンする。ステップ3111で、保留中の要求がなくなるまでループが実行される。ループ3111は、要求がPostgresデータベースからフェッチされ、Rust層に提供されると、「進行中」とマークを付けられる、ステップ3112を含む。ステップ3134で、ループ3111内のループは、ステップ3114および3116で探索木を構築する。探索木の構築において、ステップ3114で、Rust層内で、化合物が不完全な探索木から選択されて、反応がその化合物を合成するように生成される。ステップ3116で、予測(または「反応実現可能性推定」)がPython層からRust層によってフェッチされる。ステップ3118で、予測がPython層によってRust層に返される。実施形態では、Rust層およびPython層の両方は、ECSタスク内部で実行するdockerイメージである。ステップ3120で、依然としてループ3111内で、結果がRust層によってPostres層に挿入される。ステップ3122で、ユーザーが結果を要求する。ステップ3124で、APIは結果に対する要求をPostres層に転送する。ステップ3126で、Postres層は結果3126(ランク付けされて、抽出された合成経路、および前述され、GUI 12000を介してユーザーに表示されるような他の結果)を返し、それは、ステップ3128で、API層によってユーザーに提供される。
図31に示されるアーキテクチャで、Postres(RDS)は格納および処理キューのためであり;EC2オートスケーリンググループは計算のために使用され;APIはユーザークエリーを受理して各化合物をキューに挿入し;Lambda層はキューを監視してECSタスクを作成し;EC2 Autoscaling GroupはECSタスクの数に従ってスケーリングし;タスクはキューから処理される別個の化合物をピックアップして;ECSタスクは、キューが空のときにクローズし、その時点でEC2オートスケーリンググループはスケールダウンする。
【0133】
図31の合成経路を提案する方法の実施形態では、ユーザーがシステムとやり取りする前にデータがシステムに入力される。システムに入力される反応データに関して、データセット内の各反応に対して必要な情報の最低レベルは、基質および主生成物のリストである。その反応データへの一括アクセスが必要である。反応データの処理に関して。システムはchem-infツールキット(Rust、
図31)およびPython(
図31)(PyTorch、RdKit)を含む。Rust層(
図31)のchem-infツールキットに関して、これは実施形態の次の関数またはステップを実行する:化合物の正規化および正準smiles生成;統計的分類モデルを訓練するための陰性データ生成;ユーザーアプリケーション内での反応生成および木探索。さらに、訓練されたMLモデルがRust層に埋め込まれ得る。Python層に関して、この層は実施形態の次の関数またはステップを実行する:データ分割のためのフィンガープリント計算(RdKit);訓練および推定中のMLモデルに対する入力としての反応グラフ生成。一実施形態では、Python層は、Rust層エンドユーザーアプリケーション内に埋め込まれたMLモデルによって置換され得る。
【0134】
一実施形態では、反応提案機構はテンプレートプライア(Template Prior)概念を採用し得る。本開示で説明されるように、実施形態は、標的化合物に至る合成経路を提案し得る。探索の誘導および最終反応実現可能性推定への関与の両方を行うシステムの構成要素の1つは、本明細書で説明されるように、反応の実現可能性を推定するために、陽性および陰性反応(すなわち、「反応実現可能性推定のための統計的モデル」に従って生成された陽性「参照」および陰性「実現不可能な」のデータセット)に関して訓練された機械学習モデルである。特定の反応R(「M(R)」として示される)に適用されるこの機械学習モデルの出力は、Rの実現可能性を推定して、システムが最も有望な反応を選択するのを支援する。それは最終反応/経路スコアの一部でもある。全ての探索ステップでモデルを適用することは時間がかかる。反応提案(「探索」としても知られている)フェーズ中にモデルに取って代わるために高速ヒューリスティック(「テンプレートプライア」)が開発された。高速ヒューリスティック「テンプレートプライア」の使用は、モデルの適用が全ての反応のほんの一部にだけ必要であり得るので、モデルの利用削減のために提供される。
【0135】
一実施形態では、「テンプレートプライア」は次のように定義されて作成され得る。第1に、テンプレートT(R)をもつ反応Rに対して、TemplatePrior(T(R))は次のように計算される:
TemplatePrior(T(R))=(テンプレートT(R)をもつ陽性および陰性反応のデータセット内の陽性反応の数)/(テンプレートT(R)をもつデータセット内の陽性および陰性反応の両方の数)。
次いで、TemplatePrior(T(R))値が、探索フェーズ中に計算されて、M(R)の代わりに、M(R)のはるかに高速(あまり正確ではないが)プロキシとして、使用される。最終結果の計算がM(R)を使用して行われる。
【0136】
M(R)値の使用と、TemplatePrior(T(R))値を使用しての、標的化合物に対する反応経路の提案間の比較において、テンプレートプライア値の使用は、テスト探索標的の参照セットに関する総探索時間の略9倍の減少となった。テンプレートプライアを使用するテスト標的の約95%に対して、システムは、M(R)を使用した元の変更されていない探索によって見つかった最善経路と一致する合成経路を見つけることができた。
【0137】
図32は、合成経路を提案するための方法の一実施形態の態様を表示しているユーザーインタフェースの一実施形態からのスクリーンショットである。
図32で、GUI 1200は、標的化合物3202が、出発物質3210、3212、3214、3216、および中間体3204、3206、3208を用いた、一連の反応3203、3205、3207、3209の生成物である、合成経路1210を表示する。各化合物は、点線3218によって示されたGUIの領域内にあると示されている。一実施形態では、各化合物に対して、領域3218が選択され得、その使用は選択された化合物に関するオプションが提供される。
【0138】
図33は、
図32の反応を示す。
図33で、ユーザーは、化合物3204と関連付けられた領域3218を選択している。それに応じて、GUI 1200はオプション3302を提供している。実施形態では、オプション3302は:代替のビュー3304、ここから新しい探索、MDLをエクスポート、化合物を保存、およびSMILESをコピー、を含む。ユーザーが代替のビュー3304を選択すると、化合物のライブラリに対する類似性基準を計算するシステムによって決定されたように、GUI 1200はユーザーに化合物3204の代替である化合物を提供して、結果のランク付けされたリストを提供する。
図34で、GUI 1200は、ユーザーの選択に応答して、化合物3402、3404、3406を含む、代替化合物のビュー3400を表示する。実施形態では、ビュー3400は、供給源3408および価格3410などの、各化合物に関する追加情報を含む。かかる情報を用いて、ユーザーは化合物3204を置き換えるための代替化合物を選択することを選び得る。ユーザーは次いでシステムに経路1210の下流部分を、化合物3204から、例えば、化合物3406への変更を反映するように修正するように指示し得る。化合物3406は市販されているので、置換された化合物3204から上流である経路1210の部分が廃棄されるであろう。システムは次いで、反応3203を、化合物3406の化合物3206との反応を反映するように修正し、生成物3202をそれに応じて修正する。このように、ユーザーは標的分子に影響を及ぼし得る。新しい標的分子および経路は保存され得る。
【0139】
図35で、ユーザーは化合物3214と関連付けられた領域3218を選択している。それに応答して、GUI 1200はオプション3302を提供している。ユーザーの代替のビュー3304の選択に応答して、GUI 1200は、
図36で、化合物3602、3604、3606を含む、代替化合物ビュー3400を表示する。ユーザーが化合物3214を置換するために化合物3602、3604、3606のいずれかを選択するならば、合成経路1210内の下流でのその変更の伝播は化合物3206および3218の両方に対する変更となるであろう。化合物3214は出発物質であるので、この変更と関連した廃棄される上流変更はない。
【0140】
図37は、合成容易性スコア(SAS、「費用関数および合成経路の総推定費用の推定」に関するセクションに従って計算されたとおり)を計算するための方法の一実施形態の一態様の図解である。SASに影響を与える要因は:合成経路内のステップ数、各ステップの確実性(AIを使用した方法によって評価されるとおり)、出発物質の費用、合成経路の形状(収束性または直線的)、経路内の個々の反応の順序(よりリスクのある反応は、それらの失敗がそれほど影響を及ぼさないように、好ましくは経路の最初にある)を含む。
【0141】
SASの一実施形態のテストで、ベンダーから供給された標的分子(その大多数は実現可能な合成経路を有すると考えられた)のグループに対して、および学術プロジェクトからの標的分子のグループ(その大多数は実現不可能な合成経路を有すると予期された)に対して、スコアが開発された。テストは、ベンダー化合物に対するSASおよび学術プロジェクト化合物に対するSASが、ベンダー化合物は大部分が実現可能で、学術化合物は大部分が実現不可能であるという予想を反映するかどうかを判断するためであった。テストでは、合成経路が前述の実施形態を使用して各分子に対して決定された。ベンダー化合物のグループに対して、合成経路が化合物の大部分に対して見つかり得、SAS平均は比較的密な分布で略3.5であった。比較的わずかな割合のベンダー化合物だけが10に近い(反応が実現不可能であることを示す)SASを受け取った。学術プロジェクトからの実現可能な化合物は、約2倍の分布で略4のSASの平均値となった。しかし、学術化合物の大部分は10のSASを受け取って、それらが実現不可能な反応であることを示した。従って、テストは反応実現可能性の予想と相関した。
【0142】
図37で、合成反応経路3700は、基質3704、3706間の反応の生成物である標的化合物3702を含む。基質3706と化合物3702の両方は、表面上は複雑なアダマンチル成分3708を含む。実施形態では、SASは化合物3702に対して計算され得、この場合SASは、基質3706に関する情報およびそれが市販されているという事実を含む、合成経路3700全体に関する情報を受信するので、SASは、従来技術の困難さの基準よりも比較的低い。それに対して、従来技術の基準は典型的には、反応生成物、例えば、3702に基づき、基質の入手可能性を考慮しない。従って、従来技術の基準は、同じ奇妙な構造3708をもつ出発物質の入手可能性を吸収しないので、アダマンチル成分3708を見て、その分子に対して不必要に高いスコア(合成が困難であることを示す)を計算し得る。
【0143】
図38は、合成容易性スコア(SAS)を計算するための方法の一実施形態の一態様の図解である。
図38で、化合物3802および3804は、五員環中の二重結合3806、3808、3810、3812の位置および3つの窒素原子の配置を除いて類似している。これらの化合物に関して、従来技術基準は、化合物の見掛け上の類似性のために比較的類似の合成スコアを提供し得る。しかし、それに対して、化合物3802に対する合成経路全体を有するので、本方法は、化合物3802の合成は、化合物3802と関連付けられた経路に反映されるように、化合物3804の合成よりも著しく困難であるという事実を吸収できるので、化合物3802に対するSASは、化合物3804に対するSASよりも著しく高いであろう。
【0144】
図39は、例えば、
図31を含む、以前の図を参照して説明されるとおり、本開示の方法の実施形態を実装するためのシステムの一実施形態を示している例示的なブロック図である。
図39で、コンピュータネットワーク3900は、いくつかのコンピューティング装置3910a~3910b、および複数の通信リンク3930を介して通信ネットワーク3960に結合された1つ以上のサーバーシステム3920を含む。通信ネットワーク3960は分散ネットワーク3900の様々な構成要素が情報を相互に伝達して交換するのを可能にするための機構を提供する。
【0145】
通信ネットワーク3960自体は1つ以上の相互接続されたコンピュータシステムおよび通信リンクから構成される。通信リンク3930は、ハードウェアリンク、光リンク、衛星もしくは他の無線通信リンク、波伝播リンク、または情報伝達のための任意の他の機構を含み得る。
図39に示される様々なシステム間の通信を容易にするために様々な通信プロトコルが使用され得る。これらの通信プロトコルは、TCP/IP、UDP、HTTPプロトコル、無線アプリケーションプロトコル(WAP)、BLUETOOTH、Zigbee、802.11、802.15、6LoWPAN、LiFi、Google Weave、NFC、GSM、CDMA、他のセルラーデータ通信プロトコル、無線テレフォニープロトコル、インターネットテレフォニー、IPテレフォニー、デジタル音声、広帯域音声通信(VoBB)、ブロードバンドテレフォニー、ボイスオーバーIP(VoIP)、ベンダー独自のプロトコル、カスタマイズプロトコル、およびその他を含み得る。一実施形態では、通信ネットワーク3960はインターネットであるが、他の実施形態では、通信ネットワーク3960は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、無線ネットワーク、セルラーネットワーク、パーソナルエリアネットワーク、イントラネット、プライベートネットワーク、近距離無線通信(NFC)ネットワーク、公衆ネットワーク、スイッチドネットワーク、ピアツーピアネットワーク、およびこれらの組合わせ、ならびに同様のものを含む、任意の適切な通信ネットワークであり得る。
【0146】
一実施形態では、サーバー3920はコンピューティング装置のユーザーの近くに配置されておらず、ネットワークを通して通信する。異なる実施形態では、サーバー3920は、ユーザーが身につけて搬送できるか、または近くに保持することができる装置である。一実施形態では、サーバー3920は、セルネットワークまたはWi-Fiなどの長距離通信ネットワークに電力を供給するための大規模な電池を有する。サーバー3920は、有線リンクまたはBLUETOOTHなどの低出力短距離無線通信を経由してシステムの他の構成要素と通信する。一実施形態では、システムの他の構成要素の1つ、例えば、PC 3910bが、サーバーの役割を果たす。
【0147】
図39の分散コンピュータネットワーク3900は、実施形態を組み込んでいる一実施形態の例示に過ぎず、クレームに列挙される本発明の範囲をに制限しない。当業者は、他の変形、修正、および代替を認識するであろう。例えば、2つ以上のサーバーシステム3920は、通信ネットワーク3960に接続され得る。別の例として、いくつかのコンピューティング装置3910a~3910bが、アクセスプロバイダ(図示せず)または何らかの他のサーバーシステムを介して通信ネットワーク3960に結合され得る。
【0148】
コンピューティング装置3910a~3910bは典型的には、情報を提供するサーバーシステムから情報を要求する。サーバーシステムは定義により典型的には、これらのコンピューティング装置よりも多くのコンピューティングおよび記憶容量を有し、それらは多くの場合、携帯機器、モバイル通信装置、またはクライアントサーバー操作においてクライアントの役割を果たす他のコンピューティング装置などである。しかし、特定のコンピューティング装置は、そのコンピューティング装置が情報を要求しているか、または提供しているかに応じて、クライアントおよびサーバーの両方として動作し得る。実施形態の態様は、クライアント-サーバー環境またはクラウドコンピューティング環境を使用して具現化され得る。
【0149】
サーバー3920は、コンピューティング装置3910a~3910bから情報要求を受信すること、その要求を満足するために必要な処理を実行すること、および要求に対応する結果を要求側コンピューティング装置に転送して戻すことに責任を負う。要求を満足するために必要な処理は、サーバーシステム3920によって実行され得るか、または代替として、通信ネットワーク3960もしくは他の通信ネットワークに接続された他のサーバーに委任され得る。サーバー3920はコンピューティング装置3910の近くに配置され得るか、またはコンピューティング装置3910からリモートであり得る。サーバー3920は、モノのインターネットシナリオ内のモノのローカルエンクレーブ(local enclave)を制御するハブであり得る。
【0150】
コンピューティング装置3910a~3910bは、ユーザーが、サーバーシステム3920によって格納された情報またはアプリケーションにアクセスして問い合わせるのを可能にする。いくつかのコンピューティング装置例は、Apple iPhone(登録商標)、Apple iPad(登録商標)、Palm Pre(商標)などの携帯用電子機器(例えば、モバイル通信装置)、またはApple iOS(商標)、Android(商標)OS、Google Chrome OS、Symbian OS(登録商標)、Windows 10、Windows Mobile(登録商標)OS、Palm OS(登録商標)もしくはPalm Web OS(商標)、またはモノのインターネット(IoT)装置もしくは自動車もしくは他の車両のために使用される様々なオペレーティングシステムのいずれか、またはRIOT OS、Windows 10 for IoT、WindRiver VxWorks、Google Brillo、ARM Mbed OS、Embedded Apple iOSおよびOS X、Nucleus RTOS、Green Hills Integrity、もしくはContikiなどの、リアルタイムオペレーティングシステム(RTOS)、またはMicroware OS-9、VxWorks、QNX Neutrino、FreeRTOS、Micrium μC/OS-11、Micrium μC/OS-III、Windows CE、TI-RTOS、RTEMSなどの、様々なプログラマブル論理制御装置(PLC)もしくはログラマブルオートメーションコントローラ(PAC)オペレーティングシステムのいずれか、を実行する任意のコンピューティング装置、を含む。他のオペレーティングシステムが使用され得る。特定の実施形態では、コンピューティング装置上で実行する「ウェブブラウザ」アプリケーションは、ユーザーが、サーバーシステム3920によって格納された情報および/またはアプリケーションを選択、アクセス、取得、または問い合わせを行うのを可能にする。ウェブブラウザの例は、Googleによって提供されるAndroidブラウザ、Appleによって提供されるSafari(登録商標)、Opera Softwareによって提供されるOpera Web、Research In Motionによって提供されるBlackBerry(登録商標)、Microsoft Corporationによって提供されるInternet Explorer(登録商標)およびInternet Explorer Mobileブラウザ、Mozilla(登録商標)によって提供されるFirefox(登録商標)およびFirefox for Mobileブラウザ、ならびにその他を含む。
【0151】
図40は、一実施形態のコンピューティング装置4000を示している例示的なブロック図である。コンピューティング装置4000は、
図39からのコンピューティング装置3910のいずれかであり得る。コンピューティング装置4000は、ディスプレイ、画面、またはモニター4005、ハウジング4010、および入力装置4015を含み得る。ハウジング4010は、よく知られたコンピュータ構成要素、例えば、プロセッサ4020、メモリ4025、バッテリー4030、スピーカー、送受信機、アンテナ4035、マイクロホン、ポート、ジャック、コネクタ、カメラ、入力/出力(I/O)コントローラ、ディスプレイアダプタ、ネットワークインタフェース、大容量記憶装置4040、様々なセンサー、および同様のものなどを収容し、その一部は示されていない。
【0152】
入力装置4015は、タッチスクリーン(例えば、抵抗膜方式、弾性表面波、容量感知、赤外線、光学イメージング、分散信号、または音響パルス認識)、キーボード(例えば、電子キーボードまたは物理キーボード)、ボタン、スイッチ、スタイラス、またはこれらの組合わせも含み得る。
【0153】
大容量記憶装置4040は、フラッシュドライブ、フラッシュメモリ、またはUSBフラッシュドライブなどの、フラッシュおよび他の不揮発性ソリッドステート記憶またはソリッドステートドライブ(SSD)を含み得る。大容量記憶の他の例は、大容量ディスクドライブ、フロッピィディスク、磁気ディスク、光ディスク、光磁気ディスク、固定ディスク、ハードディスク、SDカード、CD-ROM、レコーダブルCD、DVD、レコーダブルDVD(例えば、DVD-R、DVD+R、DVD-RW、DVD+RW、HD-DVD、またはブルーレイディスク)、バッテリーバックアップ付き揮発性メモリ、テープストレージ、リーダー、および他の類似の媒体、ならびにこれらの組合わせを含む。
【0154】
実施形態はまた、異なる構成を有する、例えば、追加のサブシステムまたはもっと少ないサブシステムを備えた、コンピュータシステムと共に使用され得る。例えば、コンピュータシステムは2つ以上のプロセッサ(すなわち、情報の並列処理を可能にし得る、マルチプロセッサシステム)を含み得るか、またはシステムはキャッシュメモリを含み得る。
図40に示されるコンピュータシステムは、実施形態との使用に適したコンピュータシステムの一例に過ぎない。実施形態との使用に適したサブシステムの他の構成は当業者には容易に明らかであろう。例えば、特定の実施態様では、コンピューティング装置は、スマートフォンまたはタブレットコンピュータなどの、モバイル通信装置である。スマートフォンのいくつかの具体例は、HTC Corporationによって提供されるDroid IncredibleおよびGoogle Nexus One、共にAppleによって提供されるiPhoneまたはiPad、および他の多くを含む。コンピューティング装置は、ラップトップまたはネットブックであり得る。別の特定の実施態様では、コンピューティング装置は、デスクトップコンピュータまたはワークステーションなどの非可搬型コンピューティング装置である。
【0155】
実施形態を実施するために有用なプログラム命令のコンピュータ実装またはコンピュータ実行可能バージョンは、コンピュータ可読媒体を使用して具現化され、コンピュータ可読媒体上に格納され、またはコンピュータ可読媒体と関連付けられ得る。コンピュータ可読媒体は、メモリ4025または大容量記憶4040などの、実行のために1つ以上のプロセッサへの命令の提供に関与する任意の媒体を含み得る。かかる媒体は、不揮発性、揮発性、伝送、非印刷、および印刷媒体を含むが、それらに限定されない、多くの形を取り得る。不揮発性媒体は、例えば、フラッシュメモリ、または光もしくは磁気ディスクを含む。揮発性媒体は、キャッシュメモリまたはRAMなどの、スタティックまたはダイナミックメモリを含む。伝送媒体は同軸ケーブル、銅線、光ファイバー線、およびバス内に配置されたワイヤーを含む。伝送媒体は、電波および赤外線データ通信中に生成されるものなどの、電磁、無線周波数、音響、または光波の形も取ることができる。
【0156】
例えば、実施形態を実施するために有用なソフトウェアのバイナリ、機械実行可能バージョンは、RAMもしくはキャッシュメモリ内、または大容量記憶装置4040に格納され得る。このソフトウェアのソースコードも大容量記憶装置4040(例えば、フラッシュドライブ、ハードディスク、磁気ディスク、テープ、またはCD-ROM)上に格納され得る。更なる例として、実施形態を実施するために有用なコードは、ワイヤー、無線で、またはインターネットなどのネットワークを通して送信され得る。別の具体例では、実施形態の特徴を実装するための様々なソフトウェアプログラムコードを含むコンピュータプログラム製品が提供される。
【0157】
コンピュータソフトウェア製品は、C、C++、C#、Pascal、Fortran、Perl、Matlab(MathWorksから、www.mathworks.com)、SAS、SPSS、JavaScript、CoffeeScript、Objective-C、Swift、Objective-I、Ruby、Rust、Python、Erlang、Lisp、Scala、Clojure、およびJavaなどの、様々な適切なプログラミング言語のいずれかで書かれ得る。コンピュータソフトウェア製品は、データ入力およびデータ表示モジュールを備えた独立したアプリケーションであり得る。代替として、コンピュータソフトウェア製品は分散オブジェクトとしてインスタンス化され得るクラスであり得る。コンピュータソフトウェア製品は、Java Beans(Oracleから)またはEnterprise Java Beans(OracleからのEJB)などのコンポーネントソフトウェアでもあり得る。
【0158】
システムのためのオペレーティングシステムは、Androidオペレーティングシステム、iPhone OS(すなわち、iOS)、Symbian、BlackBerry OS、Palm web OS、Bada、MeeGo、Maemo、Limo、またはBrew OSであり得る。オペレーティングシステムの他の例は、Microsoft Windowsファミリのオペレーティングシステム(例えば、Windows 95、98、Me、Windows NT、Windows 2000、Windows XP、Windows XP x64エディション、Windows Vista、Windows 10または他のWindowsバージョン、Windows CE、Windows Mobile、Windows Phone、Windows 10 Mobile)の1つ、Linux、HP-UX、UNIX、Sun OS、Solaris、Mac OS X、Alpha OS、AIX、IRIX32、もしくはIRIX64、またはモノのインターネット(IoT)装置もしくは自動車もしくは他の車両のために使用される様々なオペレーティングシステムのいずれか、またはリアルタイムオペレーティングシステム(RTOS)、例えば、RIOT OS、Windows 10 for IoT、WindRiver VxWorks、Google Brillo、ARM Mbed OS、Embedded Apple iOSおよびOS X、Nucleus RTOS、Green Hills Integrity、もしくはContikiなど、またはMicroware OS-9、VxWorks、QNX Neutrino、FreeRTOS、Micrium μC/OS-11、Micrium μC/OS-III、Windows CE、TI-RTOS、RTEMSなどの、様々なプログラマブル論理制御装置(PLC)もしくはログラマブルオートメーションコントローラ(PAC)オペレーティングシステムのいずれか、を含む。他のオペレーティングシステムが使用され得る。
【0159】
さらに、コンピュータはネットワークに接続され得、このネットワークを使用して他のコンピュータとインタフェースを取り得る。ネットワークは、とりわけイントラネット、インターネット、またはInternetであり得る。ネットワークは、有線ネットワーク(例えば、銅を使用)、電話ネットワーク、パケットネットワーク、光ネットワーク(例えば、光ファイバーを使用)、もしくは無線ネットワーク、またはこれらの任意の組合わせであり得る。例えば、データおよび他の情報は、コンピュータと実施形態の実施で有用なシステムの構成要素(またはステップ)の間で、Wi-Fi(2~3例を挙げると、IEEE標準802.11、802.lla、802.llb、802.1le、802.1lg、802.1li、および802.1ln)などのプロトコル、またはBLUETOOTHもしくはNFCもしくは802.15もしくはセルラーなどの他のプロトコル、を採用している無線ネットワークを使用して渡され得るか、または通信プロトコルはTCP/IP、UDP、HTTPプロトコル、無線アプリケーションプロトコル(WAP)、BLUETOOTH、Zigbee、802.11、802.15、6LoWPAN、LiFi、Google Weave、NFC、GSM、CDMA、他のセルラーデータ通信プロトコル、無線テレフォニープロトコルまたは同様のものを含み得る。例えば、コンピュータからの信号は、少なくとも一部、無線で、構成要素または他のコンピュータに転送され得る。
【0160】
次の段落は、列挙された実施形態を記載する。
【0161】
実施形態1は方法に対するものであり、
少なくとも1つのソフトウェアモジュールからのモジュールにより、第1の分子構造を受信すること、
少なくとも1つのソフトウェアモジュールからのモジュールにより、第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、第1の分子構造を合成するための第1の複数の反応を提案することであって、第1の複数の反応の少なくとも1つは、モジュールによって作成されていて、データベースから取得されていないこと、
少なくとも1つのソフトウェアモジュールからのモジュールにより、第1の複数の反応から、第1の分子構造を生成する少なくとも1つの第1の経路を抽出すること、
少なくとも1つのソフトウェアモジュールからのモジュールにより、各抽出された第1の経路に対する費用を予測すること、
少なくとも1つのソフトウェアモジュールからのモジュールにより、予測された費用に従って各抽出された第1の経路をランク付けすること、ならびに
少なくとも1つのソフトウェアモジュールからのモジュールにより、各第1の経路をランキングによって決定された順序で含むリストを提供すること
を含む。
【0162】
実施形態2は実施形態1の方法に対するものであり、
少なくとも1つのソフトウェアモジュールからのモジュールにより、第1の分子構造に加えて、第1の複数の反応の決定に関する制約を受信することをさらに含み、モジュールは、第1の複数の反応の決定における制約に従う。
【0163】
実施形態3は実施形態2の方法に対するものであり、制約は、第1の分子構造を参照して定義され、モジュールは、第1の複数の反応の決定における制約に従う。
【0164】
実施形態4は実施形態1の方法に対するものであり、
抽出された第1の経路を選択すること、
選択された第1の経路から、選択された第1の経路内の第1の基質を選択すること、
少なくとも1つのソフトウェアモジュールからのモジュールにより、第1の基質を、市販の化合物のデータベース内の化合物と比較すること、
比較に基づき、モジュールにより、市販の化合物のデータベースから、第2の基質を選択すること、
少なくとも1つのソフトウェアモジュールからのモジュールにより、選択された第1の経路内の第1の基質の代わりに第2の基質を使うこと、
少なくとも1つのソフトウェアモジュールからのモジュールにより、第2の基質と選択された第1の経路内の第1の分子構造との間の任意の反応を修正して、第2の基質と第1の基質との間の差を吸収することであって、修正は、第2の経路の結果が第2の分子構造となるように、第2の経路および第1の分子構造に対する変更となること、ならびに
少なくとも1つのソフトウェアモジュールからのモジュールにより、第2の経路を選択された第1の経路と関連付けることであって、各第1の経路をランキングによって決定された順序で含むリストを提供することは、第2の経路を関連付けられた第1の経路と共にリストすることを含むこと、
をさらに含む。
【0165】
実施形態5は実施形態4の方法に対するものであり、
抽出された第1の経路を選択することはユーザーが第1の経路を選択することを含み、かつ
選択された第1の経路から、選択された第1の経路内の反応によって合成される第1の基質を選択することは、少なくとも1つのソフトウェアモジュールからのモジュールが第1の基質を選択することを含む。
【0166】
実施形態6は実施形態1の方法に対するものであり、
モジュールにより第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、第1の分子構造を合成するための第1の複数の反応を提案することは、
モジュールにより、有向リンクをもつ反応ノードと化学化合物ノードのセットを作成することを含み、セットは第1の分子構造をもたらす複数の経路を含み、かつ
モジュールにより第1の複数の反応から、第1の複数の反応から、第1の分子構造を生成する少なくとも1つの第1の経路を抽出することは、
モジュールにより、反応ノードと化学化合物ノードのセットから少なくとも1つの第1の経路を抽出することを含む。
【0167】
実施形態7は実施形態6の方法に対するものであり、モジュールにより、有向リンクをもつ反応ノードと化学化合物ノードのセットを作成することは、セット内の第1の化学化合物ノードによって表される少なくとも第1の分子構造で開始すること、およびモジュールにより、
セットから、拡張すべき化学化合物ノードを選択すること、
モジュールによりモデルを使用して、選択された化学化合物ノードによって表される化学化合物を生成する少なくとも1つの追加の反応を提案すること、
モジュールにより、各提案された追加の反応に対して、反応ノードをセットに追加し、反応ノードからの有向リンクを選択された化学化合物ノードに追加すること、および
モジュールにより、各提案された追加の反応内の各基質に対して、化学化合物ノードをセットに追加し、追加された化学化合物ノードからの有向リンクを、追加の反応を表す反応ノードに追加すること
を含む、拡張の少なくとも1つの反復を実行することにより拡張されたセットを作成することを含む。
【0168】
実施形態8は実施形態7の方法に対するものであり、各第1の経路をランキングによって決定された順序で含むリストは、
モジュールによりコンピュータディスプレイ上に、各第1の経路に対して、有向リンクをもつ反応ノードと化学化合物ノードのセットから抽出された、有向リンクをもつ反応ノードと化学化合物ノードのサブセットを表示することを含む。
【0169】
実施形態8は実施形態7の方法に対するものであり、モジュールにより第1の複数の反応から、第1の分子構造を生成する少なくとも1つの第1の経路を抽出することは、
モジュールにより、拡張されたセットから少なくとも1つの第1の経路を抽出すること
を含む。
【0170】
実施形態10は実施形態6の方法に対するものであり、モジュールにより、各抽出された第1の経路に対する費用を予測することは、
モジュールにより、既知の反応データおよび実現不可能な反応データを使用して反応実現可能性を予測するように訓練された統計的モデルを使用して各反応ノードを評価することにより、抽出された経路内の各反応ノードに対する成功の確率を判断すること
を含む。
【0171】
実施形態11は実施形態10の方法に対するものであり、実現不可能な反応データは、少なくとも1つのソフトウェアモジュールからのモジュールによって生成された反応:
起こることが知られている反応のセットを受信すること、
基質を廃棄して反応生成物だけを残すこと、
第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、反応生成物の各々に対して、反応生成物の逆合成中の第1のステップである反応を提案すること、
生成された反応を、起こることが知られている反応のセットと比較して、起こることが知られている反応のセットの特性に適合しない生成された反応のセットを決定すること、ならびに
適合しない生成された反応のセットを実現不可能な反応データに追加すること、
を含む。
【0172】
実施形態12は実施形態1の方法に対するものであり、少なくとも1つのソフトウェアモジュールからのモジュールにより、第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、第1の分子構造を合成するための第1の複数の反応を提案することは、
モジュールにより、第1の分子構造の生成物部分グラフと一致する生成物部分グラフに対する既知の反応のテンプレートグラフを探索すること、
各一致する生成物部分グラフに対して、基質部分グラフの提案されたセットを生成すること、
モジュールにより、基質の提案されたセットおよび関連した生成物部分グラフから無効な化学化合物を除去すること、ならびに
モジュールにより、各残りの生成物部分グラフおよび基質部分グラフの生成されたセット、反応テンプレートからテンプレートを抽出すること
含む。
【0173】
実施形態13は実施形態1の方法に対するものであり、第1の分子構造を合成するための第1の複数の反応の少なくとも1つは、最初は第1の分子構造を合成するための一段階経路であり、最初の一段階経路は、少なくとも1つのソフトウェアモジュールからのモジュールによって多段階経路:
1)最初の一段階経路から基質を標的分子構造として指定すること、
2)標的分子構造およびモデルを使用して、指定された標的分子構造を合成するための少なくとも1つの一段階経路を提案すること、ならびに
3)少なくとも1つの提案された一段階経路を第1の複数の反応に追加すること
に拡張される。
【0174】
実施形態14は実施形態13の方法に対するものであり、第1の複数の反応内の各基質に対してステップ1~3を、その基質が市販の化合物のデータベース内で見つかるとソフトウェアモジュールが判断するか、またはソフトウェアモジュールがその基質に対してステップ1~3の反復を最大数回実行するまで、反復することをさらに含む。
【0175】
実施形態15は実施形態13の方法に対するものであり、第1の分子構造を生成する抽出された少なくとも1つの第1の経路は、複数の一段階経路を含む多段階経路である。
【0176】
実施形態16は実施形態13の方法に対するものであり、第1の複数の反応の最初のサブセットをランク付けすることをさらに含み、最初の一段階経路は、第1の複数の反応の最初のサブセットから最高位にランク付け付けされた反応として選択される。
【0177】
実施形態17は実施形態1の方法に対するものであり、第1の複数の反応のサブセットは、抽出された第1の経路の1つ以上内で中間反応になる反応を含む。
【0178】
実施形態18は実施形態1の方法に対するものであり、リストを提供することは、少なくとも1つのソフトウェアモジュールからのモジュールによりコンピュータモニター上に、リストを、各第1の経路のランキングによって決定された順序での対話型表示として提供することを含む。
【0179】
実施形態19は実施形態1の方法に対するものであり、
少なくとも1つのソフトウェアモジュールからのモジュールにより、抽出された第1の経路に対して、抽出された経路に従った第1の分子構造の合成における困難さの推定を提供することをさらに含み、推定は、モジュールによる、抽出された第1の経路内の各反応の、分析に少なくとも一部基づく。
【0180】
実施形態20は実施形態19の方法に対するものであり、推定は抽出された第1の経路の費用にも基づく。
【0181】
実施形態21は実施形態1の方法に対するものであり、
少なくとも1つのソフトウェアモジュールからのモジュールにより、第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、第1の分子構造を合成するための第1の複数の反応を提案することは、モジュールにより、第1の複数の反応の経路内の各ステップに対する反応実現可能性の推定を作成することを含み、かつ少なくとも1つのソフトウェアモジュールからのモジュールにより第1の複数の反応から、第1の分子構造を生成する少なくとも1つの第1の経路を抽出することは、モジュールにより、少なくとも1つのどの第1の経路を抽出すべきかの判断において反応実現可能性の推定を使用することを含む。
【0182】
実施形態22は実施形態21の方法に対するものであり、モデルにより、第1の複数の反応の経路内の各ステップに対する反応実現可能性の推定を作成することは、
モジュールによりモデルを使用して、第1の複数の反応内のステップの第1のサブセットの各々に対して反応実現可能性の第1の推定を作成すること、および
モジュールにより、第1の複数の反応内のステップの第2のサブセットの各々に対して反応実現可能性の第2の推定を、ステップと関連付けられた反応テンプレートを決定し、同じ反応テンプレートと関連付けられている参照データセット内の実現可能な反応の第1の数を決定し、同じ反応テンプレートと関連付けられている参照データセット内の実現不可能な反応の第2の数を決定し、第1の数を、第1と第2の数の合計で割ることによって作成することであって、除算の結果が反応実現可能性の第2の推定であること
を含む。
【0183】
実施形態23は実施形態1の方法に対するものであり、
少なくとも1つのソフトウェアモジュールからの第1のモジュールは、
第1の分子構造を受信すること、および
各第1の経路をランキングによって決定された順序で含むリストを提供することを実行し、かつ
少なくとも1つのソフトウェアモジュールからの第2のモジュールは、
第1の分子構造および 既知の反応を使用して機械学習によって生成されたモデルを使用して、第1の分子構造を合成するための第1の複数の反応を提案することであって、第1の複数の反応の少なくとも1つは、モジュールによって作成されていて、データベースから取得されないこと、
第1の複数の反応から、第1の分子構造を生成する少なくとも1つの第1の経路を抽出すること、
各抽出された第1の経路に対する費用を予測すること、ならびに
各抽出された第1の経路を予測された費用に従ってランク付けすること
を実行する。
【0184】
少なくとも1つのプロセッサおよび、その少なくとも1つのプロセッサによって実行されるときに、実施形態1~23のいずれかの方法に従った動作をシステムに実行させる命令を有するメモリを含むシステム。
【0185】
少なくとも1つのプロセッサおよび、その少なくとも1つのプロセッサによって実行されるときに、
第1の分子構造を受信すること、
第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、第1の分子構造を合成するための第1の複数の反応を提案することであって、第1の複数の反応の少なくとも1つは、システムによって作成されていて、システムによってアクセス可能ないずれの位置にも前から存在していないこと、
第1の複数の反応から、第1の分子構造を生成する少なくとも1つの第1の経路を抽出すること、
各抽出された第1の経路に対する費用を予測すること、
各抽出された第1の経路を予測された費用に従ってランク付けすること、および
各第1の経路をランキングによって決定された順序で含むリストを提供すること
を含む動作をシステムに実行させる命令を有するメモリを含むシステム。
【0186】
コンピューティング装置のプロセッサによって実行されるときに、実施形態1~23のいずれかの方法に従った動作をコンピューティング装置に実行させる命令を含む、持続性コンピュータ可読媒体。
【0187】
コンピューティング装置のプロセッサによって実行されるときに、コンピューティング装置に、
第1の分子構造を受信すること、
第1の分子構造および、既知の反応を使用して機械学習によって生成されたモデルを使用して、第1の分子構造を合成するための第1の複数の反応を提案することであって、第1の複数の反応の少なくとも1つは、システムによって作成されていて、システムによってアクセス可能ないずれの位置にも前から存在していないこと、
第1の複数の反応から、第1の分子構造を生成する少なくとも1つの第1の経路を抽出すること、
各抽出された第1の経路に対する費用を予測すること、
各抽出された第1の経路を予測された費用に従ってランク付けすること、および
各第1の経路をランキングによって決定された順序で含むリストを提供すること
を含む動作を実行させる命令を含む、持続性コンピュータ可読媒体。
【0188】
実施形態は特定の実施形態に関して説明されてきたが、追加の変形が発明概念から逸脱することなく考案され得ることが認識されている。
【0189】
本明細書で使用される用語は特定の実施形態を説明することだけを目的としており、請求された主題の制限を意図していない。本明細書では、用語「および/または」は、関連したリスト項目の1つ以上のいずれかおよび全部を含む。本明細書では、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、その内容について別段の明確な指示がない限り、単数形だけでなく複数形も含むことを意図する。用語「含む(comprise)」および/または「含み(comprising)」は、本明細書で使用される場合、状態特徴、ステップ、操作、要素、および/または構成要素の存在を指定するが、1つ以上の他の特徴、ステップ、操作、要素、構成要素、および/もしくはそれらのグループの存在または追加を除外しないことがさらに理解されるであろう。
【0190】
別に定義されていない限り、本明細書で使用される全ての用語(技術および科学用語を含む)は、本実施形態が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。一般に使用される辞書で定義されているような用語は、関連技術および本開示の文脈におけるそれらの意味と一致する意味を有すると解釈されるべきであり、本明細書で明示的にそう定義されていない限り、理想的または過度に形式的な意味で解釈されないことがさらに理解されるであろう。
【0191】
実施形態の説明において、いくつかの要素、技術、およびステップが開示されることが理解されるであろう。これらの各々は、個々の利益を有しており、各々は、他の開示される要素、もしくは技術の1つ以上、またはいくつかの事例では、全部と共に使用することもできる。明細書およびクレームは、かかる組合わせが完全に実施形態および請求された主題の範囲内であるという理解に基づいて、読まれるべきである。
【0192】
前述および全体の記述において、多数の特定の詳細が本開示の一実施形態の完全な理解を提供するために記載されている。しかし、当業者にとって、一実施形態はこれら特定の詳細なしで実施され得ることが明らかであろう。他の事例では、周知の構造および装置は説明を容易にするためにブロック図の形で示されている。好ましい実施形態の説明は本明細書に添付のクレームの範囲を制限することを意図していない。さらに、本明細書で開示される方法では、一実施形態の機能の一部を例示する様々なステップが開示される。これらのステップは例に過ぎず、いかなる方法でも制限することを意図しない。他のステップおよび機能は、本開示または一実施形態の範囲から逸脱することなく企図され得る。
【国際調査報告】