IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ モレキュール ワン エスピー.ゼット オー. オー.の特許一覧

特表2024-541898多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法
<>
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図1
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図2
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図3
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図4
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図5
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図6
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図7
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図8A
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図8B
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図9
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図10
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図11
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図12
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図13
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図14
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図15
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図16
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図17
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図18
  • 特表-多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】多様性に富み精度の高いデータセットに基づいて、高い信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法
(51)【国際特許分類】
   G16C 20/10 20190101AFI20241106BHJP
【FI】
G16C20/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024524387
(86)(22)【出願日】2022-10-24
(85)【翻訳文提出日】2024-06-11
(86)【国際出願番号】 EP2022079671
(87)【国際公開番号】W WO2023067202
(87)【国際公開日】2023-04-27
(31)【優先権主張番号】63/270,932
(32)【優先日】2021-10-22
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/351,295
(32)【優先日】2022-06-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.ZIGBEE
3.VXWORKS
4.Blu-ray
5.JAVASCRIPT
6.SWIFT
7.PYTHON
8.JAVA
9.Linux
10.UNIX
11.SOLARIS
12.MAC OS
(71)【出願人】
【識別番号】524148901
【氏名又は名称】モレキュール ワン エスピー.ゼット オー. オー.
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【弁理士】
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【弁理士】
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【弁理士】
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【弁理士】
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】ジャストゥルゼブスキ,スタインスロウ
(72)【発明者】
【氏名】ブルーノ-カミンスキ,マテウス
(72)【発明者】
【氏名】ブス,ジャン
(72)【発明者】
【氏名】ビアスキ,ピョートル
(72)【発明者】
【氏名】チョルジュ,アートゥア
(72)【発明者】
【氏名】ダブロウスキ-トゥマーンスキ,パウエル
(72)【発明者】
【氏名】ディボフスキ,トマシュ
(72)【発明者】
【氏名】ヘルム,ピョートル
(72)【発明者】
【氏名】ピエトルザク,マレク
(72)【発明者】
【氏名】ピルコウスキ,スジモン
(72)【発明者】
【氏名】ルズィムコウスキ,ジャン
(72)【発明者】
【氏名】サドウスキ,ミハル
(72)【発明者】
【氏名】スクズパク,ウカシュ
(72)【発明者】
【氏名】サチャ,ミコライ
(72)【発明者】
【氏名】ウラトフスキ,フィリップ
(72)【発明者】
【氏名】ヴァン ウォルクム,ルアード
(72)【発明者】
【氏名】ワッハ,パウリーナ
(72)【発明者】
【氏名】ロブロティン,プルゼミスラウ
(72)【発明者】
【氏名】ウロダークジーク-プラスジンスキ,パウエル
(57)【要約】
自動化されたまたは半自動化された研究室を機械学習方法論と組み合わせて、化学反応の結果の予測または反応条件の予測を可能にする方法及びシステムを開示している。モデルは、ユーザが所望の目標を満たすために意図的に選択された、研究室からのデータを含む反応に基づいて訓練できる。ユーザは、ユーザとマシンの効率的なインタラクションを可能にするように設計された専用のユーザインターフェースを介してプロセス及びモデルとインタラクト可能である。方法は、自動化された化学研究室の運営、DNAエンコードライブラリなどの化合物の大規模な集合体の合成、薬物様化合物が関与する反応に対する高収率の反応条件の推奨など、化学における複数の困難な問題のコンテキストで使用できる。
【選択図】図17

【特許請求の範囲】
【請求項1】
化学反応のターゲットセットを定義することと、
前記ターゲットセットとの関連性の測定値に部分的に基づいて、化学反応の第1のセットを選択することと、
化学反応の前記第1のセットを実行することと、
前記第1のセットで実行された化学反応ごとに結果を決定することと、
少なくとも1つの決定された結果を含むトレーニングデータセットを組み立てることと、
第1のコンピュータシステム、機械学習、トレーニングデータセットを用いて、化学反応の特性や結果を予測する、または不完全な化学反応を完了させるため1つまたは複数の反応物、反応条件、生成物を提案するモデルを構築及び訓練することを備える、方法。
【請求項2】
1つまたは複数の生成物、反応物、または反応条件を含む入力を前記モデルに提供することと、
前記入力と前記モデルを実行する前記コンピュータシステムを使用して、以下の1つ以上を生成することと、
化学反応の予測物性値または予測結果、
予測された一連の反応条件、または
不完全な化学反応を完了させるため、反応物、反応条件、または生成物のうち提案される1つ以上のもの、または
前記不完全な化学反応の予測結果、及び
生成された予測または提案をユーザに提供することをさらに含む、請求項1に記載の方法。
【請求項3】
前記モデルを構築して訓練するステップの後、化学反応の第1のセットを選択するステップ、化学反応の前記第1のセットを実行するステップ、決定した結果を決定するステップ、またはトレーニングデータセットを組み立てるステップのうちの1つ以上の繰り返しを決定することと、
前記1つ以上のステップを繰り返すことをさらに備える、請求項1に記載の方法。
【請求項4】
1つ以上の前記ステップを繰り返す決定が前記第1のコンピュータシステムまたは第2のコンピュータシステムによって自動的に実行される、請求項3に記載の方法。
【請求項5】
化学反応の前記第1のセットは、自動化された研究室装置または半自動化された研究室装置を使用して実行され、
決定した結果を決定することは、各反応後混合物の測定と、ソフトウェア処理を使用して少なくとも1つの収率を決定する定量化を行うことを含む、請求項1に記載の方法。
【請求項6】
前記ターゲットセットを定義することは、前記ターゲットセットの化学反応が満たされる必要がある、1つまたは複数の制約を指定することによって前記ターゲットセットを定義することを含む、請求項1に記載の方法。
【請求項7】
前記ターゲットセットを定義することは、
ユーザによって、化学化合物のリスト、化学化合物に関する1つまたは複数の制約、または反応に関する1つまたは複数の制約を提供することと、
前記ターゲットセットを、前記化学化合物のリストからの生成物または前記制約を満たす生成物を有する前記制約を満たす仮説的な反応として定義することを含む、請求項1に記載の方法。
【請求項8】
化学反応の前記第1のセットが、以下を含む1つまたは複数の要因に部分的に基づいて選択される、請求項1に記載の方法:
(a)前記セットの反応と前記ターゲットセットの反応との化学的類似性、
(b)前記セットの反応同士の化学的類似性、
(c)第1の化学反応における試薬または反応物の価格、
(d)前記第1の化学反応における試薬または反応物の入手可能性、
(e)前記化学反応を入力したときの前記モデルの1つまたは複数の予測、または
(f)前記化学反応を入力したときの前記モデルの予測に関する不確実性の1つまたは複数の推定値。
【請求項9】
以下から1つまたは複数の生成物、基質、または条件を含む入力を前記モデルに提供することと:
前記ターゲットセット、
反応の前記第1のセットよりも化学的に複雑な化学反応のセット、または
前記モデルを訓練するのに使用しなかった、前記実行された反応の一部、
前記入力と前記モデルを実行する前記コンピュータシステムを使用して、以下の1つ以上を生成することと:
化学反応の予測結果、
予測された最適な一連の反応条件、または
部分的な化学反応を完了するため、提案される試薬または生成物、
作成された予測または提案を前記ターゲットセットからの反応と比較することと、
前記比較に基づいて前記モデルのパフォーマンスのレベルを決定することであって、
1つ以上の前記ステップを繰り返す決定は、前記パフォーマンスのレベルに基づく、前記決定することをさらに備える、請求項3に記載の方法。
【請求項10】
前記トレーニングデータセットには、以下のうちの1つまたは複数が含まれる、請求項1に記載の方法:
(i)前記化学反応を実行することで決定される化学反応の結果、
(ii)コンピュータシステムによってテキストから抽出された化学反応の結果、
(iii)分子モデリングを使用して化学反応の結果をシミュレートするコンピュータプログラムの結果、または
(iv)電子実験ノートに記録された化学反応の結果。
【請求項11】
前記入力及び前記モデルを実行する前記コンピュータシステムを使用して、
化学反応の予測結果、
予測された最適な一連の反応条件、または
部分的な化学反応を完了するため、提案される試薬または生成物のうちの1つまたは複数を生成することは、
前記入力と前記モデルを実行する前記コンピュータシステムを使用して、化学反応の複数の予測結果、または前記化学反応を実行するための複数の最適条件のセットを生成することと、
前記モデルによって、前記複数の予測結果または前記複数の最適条件のセットをフィルタリングして、確実性の閾値レベルを下回る確実性レベルで予測結果を除去するか、またはパフォーマンスの閾値レベルを下回るパフォーマンスレベルで最適条件のセットを除去することを含む、請求項2に記載の方法。
【請求項12】
ユーザが方法に何らかの形で前記方法に影響を与える質問をされると、以下の特性のうちの1つまたは複数を備えるユーザインターフェースが示される、請求項1に記載の方法:
(a)任意のメトリクスによる前記モデルのパフォーマンス、
(b)前記モデルを訓練するのに使用された前記データセットから取得した例によって補足された前記モデルの予測、または
(c)前記ユーザが前記モデルとインタラクトするために使用される前記ユーザインターフェースにも存在できる機能。
【請求項13】
反応の前記セットは、前記ユーザインターフェースを使用して1つまたは複数の化学反応に関する質問に答える人によって割り当てられる数値スコアを含む因子にも基づいて選択される、請求項12に記載の方法。
【請求項14】
化合物または化合物の集合体の合成を、
ユーザまたは前記第1のコンピュータシステムまたは第2のコンピュータシステムによって、前記化合物または前記化合物の集合体を合成する方法について部分的に指定された作り方を設計することと、
前記モデルを使用して、ユーザ提供制約を満たす前記作り方の欠落している情報を生成することによって計画することをさらに備える、請求項1に記載の方法。
【請求項15】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサによって実行されると、システムに動作を実行させる命令を備えたメモリとを備えるシステムであり、前記動作は:
化学反応のターゲットセットを受け取ることと、
前記ターゲットセットとの関連性の測定値に部分的に基づいて、選択された化学反応の第1のセットを受け取ることと、
前記第1のセットで実行された化学反応ごとに決定した結果を決定することと、
前記第1のセットからの各化学反応からの少なくとも1つの結果を含む組み立てられたトレーニングデータセットを受信し、少なくとも1つの結果はそれぞれ、前記第1のセットとは異なる化学反応のパフォーマンスから決定されることと、及び
機械学習と前記トレーニングデータセットを使用してモデルを構築及び訓練し、化学反応の特性を予測や、部分指定の化学反応を完了するための試薬や生成物の提案を行うことを備える、前記システム。
【請求項16】
前記動作は、
1つまたは複数の生成物、基質、または条件を含む入力を前記モデルへ受けとることと、
前記入力を用いて前記モデルを実行して、以下の1つ以上を生成することと:
化学反応の予測結果、
予測された最適な一連の反応条件、または
部分的な化学反応を完了するため、提案される試薬または生成物、及び
生成された予測または提案をユーザに提供することをさらに備える、請求項15に記載のシステム。
【請求項17】
前記入力及び前記モデルを実行する前記コンピュータシステムを使用して、
化学反応の予測結果、
予測された最適な一連の反応条件、または
部分的な化学反応を完了するため、提案される試薬または生成物のうちの1つまたは複数を生成することは、
前記入力を用いて前記モデルを実行して、化学反応の複数の予測結果、または前記化学反応を実行するための複数の最適条件のセットを生成することと、及び
前記モデルを用いて、前記複数の予測結果または前記複数の最適条件のセットをフィルタリングして、確実性の閾値レベルを下回る確実性レベルで予測結果を除去するか、またはパフォーマンスの閾値レベルを下回るパフォーマンスレベルで最適条件のセットを除去することを含む、請求項16に記載のシステム。
【請求項18】
コンピューティングデバイスのプロセッサによって実行されると、前記コンピューティングデバイスに動作を実行させる命令を備える、非一時的コンピュータ可読媒体であり、前記動作は:
化学反応のターゲットセットを受け取ることと、
前記ターゲットセットとの関連性の測定値に部分的に基づいて、選択された化学反応の第1のセットを受け取ることと、
前記第1のセットで実行された化学反応ごとに決定した結果を決定することと、
前記第1のセットからの各化学反応からの少なくとも1つの結果を含む組み立てられたトレーニングデータセットを受信し、少なくとも1つの結果はそれぞれ、前記第1のセットとは異なる化学反応のパフォーマンスから決定されることと、及び
機械学習と前記トレーニングデータセットを使用してモデルを構築及び訓練し、化学反応の特性を予測や、部分指定の化学反応を完了するための試薬や生成物の提案を行うことを備える、前記非一時的コンピュータ可読媒体。
【請求項19】
前記動作は、
1つまたは複数の生成物、基質、または条件を含む入力を前記モデルへ受けとることと、
前記入力を用いて前記モデルを実行して、以下の1つ以上を生成することと、
化学反応の予測結果、
予測された最適な一連の反応条件、または
部分的な化学反応を完了するため、提案される試薬または生成物、及び
生成された予測または提案をユーザに提供することをさらに備える、請求項18に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記入力及び前記モデルを実行する前記コンピュータシステムを使用して、
化学反応の予測結果、
予測された最適な一連の反応条件、または
部分的な化学反応を完了するため、提案される試薬または生成物のうちの1つまたは複数を生成することは、
前記入力を用いて前記モデルを実行して、化学反応の複数の予測結果、または前記化学反応を実行するための複数の最適条件のセットを生成することと、及び
前記モデルを用いて、前記複数の予測結果または前記複数の最適条件のセットをフィルタリングして、確実性の閾値レベルを下回る確実性レベルで予測結果を除去するか、またはパフォーマンスの閾値レベルを下回るパフォーマンスレベルで最適条件のセットを除去することを含む、請求項19に記載の非一時的コンピュータ可読媒体。

【発明の詳細な説明】
【技術分野】
【0001】
関連事例の相互参照
本出願は、2021年10月22日に出願された「Trust-Worthy Systems And Methods For Discovering Novel Chemical Reactions Or Classes Of Reactions」と題する米国仮特許出願第63/270,932号及び2022年6月10日に出願された「Tool For Recommending Chemical Reaction Conditions」と題する米国仮特許出願第63/351,295号に基づき優先権を主張し、共に参照により本明細書に組み込まれる。本出願は、2021年1月14日に出願された米国特許「Systems And Method For Designing Organic Synthesis Pathways For Desired Organic Molecules」と題する米国特許出願第17/060,765号の関連出願である。
【背景技術】
【0002】
化学反応の結果を予測することは、創薬、農業、化粧品など、化学を使用する多くの産業にとって中心的な課題である。創薬について考察する。市場に出回っているすべての薬に対して、通常は数千種類の薬を研究室で合成し、テストする必要がある。例えば、研究室で所望の製品が得られないといった使用される化学プロセスの非効率性は、下流部門に重大な影響を及ぼし、商品やサービスの価格を上昇させる可能性がある。
【0003】
残念ながら、多くの種類の化学反応の結果予測は、人間にとってもコンピュータにとっても同様に困難である。例えば、業界内データによると、バックワルド・ハートウィッグのカップリング反応は、内部失敗率が55%であることが報告されている。この課題はコンピュータにとっても難しいものである。計算化学は大幅に進歩しているものの、シミュレーションが実験の代わりになることができるにはまだ暫く時間がかかる。(a)反応機構が十分に理解されており、(b)反応機構が単純であり(例えば、遷移状態を1つだけ含む)、(c)関与する反応物や試薬の全体的な化学的複雑性が低い場合、第一原理から特定の化学反応の結果を正確に予測することが可能な場合がある。
【0004】
反応結果を予測する他のアプローチは、機械学習、特にディープニューラルネットワーク(DNN)に基づいている。ただし、機械学習法は、利用可能なデータによって基本的に制限される。公開されているデータで訓練されたディープニューラルネットワークは、公開されているデータに固有のバイアスがあるため、一般化されない。特に、ほぼすべてのデータソースでは、失敗した実験が完全に省略されている。
【0005】
しかし、現在のアプローチは、広範な化学空間に対する反応結果を正確に予測するという点で限界がある。制限要因の1つは、これまでの研究のほとんどが分子空間の範囲を非常に小さくしか考慮してこなかったことにある。例えば、shields et alは主に、反応生成物が数個だけ、または1つだけの反応空間を検討している。
【0006】
反応結果が予測できないと、特に、コストが増加し、新薬を市場に導入するまでのスケジュールが長期化するようになる。したがって、高い精度と信頼性の下、化学反応の結果及び条件を予測するためのシステムと方法が必要とされている。
【0007】
これらの実施形態を、添付の図面において、限定ではなく一例として例示し、同様の参照符号は類似の要素を示す。
【図面の簡単な説明】
【0008】
図1】化学反応の結果及び条件を予測するためのモデルである実施形態に対するグラフィカルユーザインターフェース(GUI)の実施形態のスクリーンショットである。
図2】新しい官能基化の作成を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図3】官能基化の検索探索概要を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図4】マークされた位置がホバー状態の探索概要を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図5】官能基化タイプでフィルタリングされた探索概要結果を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図6】官能基化の詳細図を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図7】参照反応を展開した官能基化の詳細を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図8A】化学反応の結果及び条件を予測する方法の実施形態を示すフローチャートである。
図8B】化学反応の結果及び条件を予測する方法の実施形態を示すフローチャートである。
図9】化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図10】化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図11】化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。
図12】化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態における入力形式及び出力形式を示す図である。
図13】化学反応の結果及び条件を予測するためのモデルのデータ収集方法の実施形態を示すフローチャートである。
図14】化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態における高度なクエリビルダのスクリーンショットである。
図15】化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態における基準反応の描写のスクリーンショットである。
図16】化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態におけるリアクションエディタのスクリーンショットである。
図17】化学反応の結果及び条件を予測する方法の実施形態を示すフローチャートである。
図18】本開示における方法の実施形態を実装するためのシステムの実施形態を示す例示的なブロック図である。
図19】コンピューティングデバイスを示す例示的なブロック図である。
【発明を実施するための形態】
【0009】
本発明は、広範で商業的に価値のある化合物の反応結果を正確に予測できる機械学習モデルを取得することを目的とする。このイノベーションは、鈴木カップリングやヘックカップリングなどの反応に高収率の条件を推奨するなど、化学における難題に対処できるよう設計されている。
【0010】
広範で商業的に価値のある化合物に対して高精度を達成することを目的としたいくつかの実施形態がある。特に、半自動化されたハイスループット研究室を使用することで、大規模な化学反応のデータセットを生成することができる。もう1つのイノベーションは、ユーザ関連の反応に対して高精度を達成することに重点的な新しい方法を用いて、反応(研究室での実行用)に優先順位を付けることである。
【0011】
いくつかの実施形態では、費用効果が高い、ハイスループット(HT)有機化学研究室は、機械学習モデルを訓練するための重点的な大規模な化学反応のデータセットの作成に基づき、高い精度及び高い信頼性の下、化学反応の結果及び条件を予測するための方法で使用され得る。そのような実施形態は、モデル(コンピュータプログラム)が、高精度及び不確実性の適切な予測で、広範で商業的に価値のある化合物の反応の結果を正確かつ確実に予測することを学習するプロセスを含み得る。このようなモデルを、有機化学などの難題を予測するために適用してもよい。
【0012】
実施形態は、2つの重要な制約、すなわち、(a)反応当たりの低コスト(例えば、反応当たり1ドル未満)、及び(b)ハイスループット(例えば、週当たり5000の反応)を伴って設計されたハイスループット研究室を使用し得る。例えば、MolPortなどの大規模なプロバイダーからビルディングブロックを調達することで、コストの制約に対処できる可能性がある。
【0013】
一実施形態では、モデルが広範囲の薬物様分子に一般化できることを保証するために、本明細書で後述するように、薬物様分子を含むターゲットセットに特に関係する反応を含むように実験反応が選択される。薬物様分子には非常に偏った構造があるため、このような重点的な実験反応のセットを選択すると、薬物様分子に対するパフォーマンスが大幅に向上する可能性があり、集中実験が比較的少ない回数でカバーできる可能性がある。いくつかの実施形態では、ターゲットセットは、所与の用途に最も関連する任意の分子タイプからなるように指定されてよい。いくつかの実施形態では、特定の化学空間内で広範囲の分子にモデルが一般化できるようにモデルをよりよく訓練するため、ターゲットセットの化学空間の広さを表す、化学空間内の実験反応が選択される。
【0014】
いくつかの実施形態では、特定の反応クラス内で実験計画に直接情報を与えるのに十分にロバストな結果を生成できるように機械学習モデルを訓練するための方法が開示される。
【0015】
いくつかの実施形態は、特定の化学反応クラスに高度に特化したモデルを訓練するために使用される化学反応のデータセットの意図的な作成を含む。さらに、実施形態は、上記を行うためにミディアムスループットまたはハイスループット化学実験の使用、上記を行うためにDNAエンコードライブラリの使用、上記を行うためにMALDI-TOF質量分析の使用、上記を行うためにMISERクロマトグラフィの使用、上記を行うために自動化された化学実験室の使用、上記を行うために独自のデータマイニングアルゴリズムの使用を含みうる。
【0016】
いくつかの実施形態は、所望の化学反応についてシステムに問い合わせること、システムの推奨事項を直観的に表示すること、結果に対して新しい信頼性をユーザに与える広範なサポート情報を参照することを可能にする直観的なグラフィカルユーザインターフェースを含んでもよく、特にMLモデル出力、独自の実験データセット(上述)を含みうる。
【0017】
いくつかの実施形態は、より高い収率を有するなど、ある点においてより優れた方法を含み、特定の化学反応を実行する方法を識別すること、または限られた範囲の条件など、特定のユーザ定義の制約で実行可能な化学反応を識別すること、または実行する自動合成システムに直接送信できる化学反応を識別することを目的として、ユーザとマシンのインタラクション及びマシンとマシンのインタラクションを可能にする方法論/コンピュータシステムにおいて上記のすべてを組み合わせてもよい。
【0018】
一部の文脈では、「マシンとマシンのインタラクション」は、システムの結果を別のコンピュータシステム(自動化された研究室を管理するコンピュータシステムなど)に直接出力することを意味する。
【0019】
いくつかの実施形態は、創薬パイプラインにおける化合物の後期官能基化(このような実施形態は、本開示において後ほどより詳細に説明される)及び化学反応の条件の予測(本開示において後ほどより詳細に説明される)での分野において1つまたは複数の上述の方法論の使用を含みうる。
【0020】
いくつかの実施形態は、DNAエンコードライブラリ(DEL)合成の分野において1つまたは複数の上述の方法論の使用を含みうる。このような実施形態は、より多様な、またはより効率的なDELの生成が可能な反応条件を識別するために、以下により詳細に記載されるようにステップ1~3の戦略を適用することを含む。これは、広く知られているが、DEL合成のコンテキストでは許容できない、特定の化学反応または化学反応の特定の条件を除外するのに有用とされる。このような実施形態では、ステップ1~3の方法論(以下に記載)を使用して、特定の反応を受けることに成功する基質をより適切に選択することでDEL合成の効率を上げることができる。DEL合成のコンテキストにおいて、大規模で高純度の基準が必要となるため、これは重要である。他のこのような実施形態では、所与の化学反応は、ステップ1~3の方法論を適用することによって、DEL合成に適した条件での適用性に最適化されうる。(例えば、DNAを分解させるなど)DNAタグに悪影響を及ぼすことのない温和な条件下で化学反応を実行することは、DEL合成の役に立つ。
【0021】
いくつかの実施形態は、ロボットを使用して化学反応の実行を自動化する分野において1つまたは複数の上述の方法論の使用を含みうる。典型的なアプローチではハードウェアの自動合成または特定のアプリケーションの自動合成に焦点を当てることになるが、本開示で提示される実施形態のアプローチでは、大規模な反応データベースを使用して化学空間の一部を包括的にカバーすること、及び/またはこれらのデータベースを使用して正確な予測を行うモデルの開発に焦点を当てている。これは、化学反応を自動的に実行するための他の手順が抱える重要な問題、つまりユーザが実行に必要な基質、条件、その他のパラメータを設定してロボットをプログラミングする必要があるという重要な問題に対処しているという特色を示す。そのような一実施形態では、ステップ1~3の方法は、範囲を最大化する、すなわち、同じ条件下で所与の反応が多数の異なる基質の収率を満たす、特定の化学反応を実行するための条件を確立することに焦点を当てる。
【0022】
実施形態では、方法は、化学者にとって信頼に値する方法で新たな化学的性質を予測することを可能にする。このような文脈において、「新たな化学的性質」とは、以下の1つ以上を意味する。すなわち、化学反応クラスの新たな発見、既知の反応クラスの分子範囲の拡大、新規化合物の合成の可能化、既知の反応の収率の増加、または既知の化学反応の新規条件の発見である。
【0023】
いくつかの実施形態では、方法は以下のステップ1~3から構成される。
【0024】
ステップ1)方法論のユーザにとって関心のある化学反応クラスの1つ以上に焦点を当て、選択された新しい化学反応の結果を大きな信頼性の下、予測するのに十分広い化学反応の詳細なデータセットを作成すること。このようなデータセットは、以下の方法論(a~g)の1つ以上の組み合わせに基づいて作成することができる。
【0025】
a.化学反応(データセットの一部である場合がある)を抽出するために、反応に関するテキストデータ(例えば、文献、教科書、特許権、実験ノート、インターネットウェブサイトなど)を自動または手動で解析すること。このような解析では、i)一般に知られている技術を変更して、対象の化学構造を実行してもよい。実施形態の説明には、特定の新しい構成要素が含まれている。このような解析では、ii)人為的な反応を自動的に生成するために使用できる、手動で指定した反応ルールを使用してデータセットを強化することができる。このようなルールには、変換の種類、その範囲、必要な反応条件などの情報を含みうる。このような解析では、iii)分子の外部データセットまたは化学反応の外部データセットを使用してデータセットを強化することもできる。特に、米国特許商標庁に提出された特許から取り出された化学反応をその目的に使用することができる。
【0026】
b.MALDI-TOFやMISERなどのミディアムスループット及びハイスループットの分析技術の使用。MALDI-TOFは質量分析において一般的に知られている技術であり、化学化合物を識別するために使用される一連の技術である。この方法論の目的として重要なMALDI-TOFの特徴の1つは、ハイスループット(サンプルあたり1秒未満)を達成できることである。実施形態では、この技術は、対象となるデータセットを作成するために適応が必要とされる場合がある。対象となるデータセットの作成にこの手法を適用することは、マトリックス組成やイオン化セットアップの選択などを含むが、これに限定されない適切な分析手順の使用に役立つ。MS検出を伴うMISERクロマトグラフィは、化合物の分離及び識別に関して一般的に知られている技術である。この方法論の目的に有用な特徴の1つは、ミディアムスループットからハイスループット(サンプルあたり30秒未満)を達成できることである。この技術もまた、対象となるデータセットを作成するために適応が必要とされる場合がある。実施形態では、これらの技術を使用して、本開示で説明するようなシステムなどを駆動するのに十分な大きさと品質を持つ反応結果のデータセットを作成することができる。特に、これは、他の化学反応の結果を予測する機械学習モデルにこれらのデータセットを自動的に送ることによって容易にされうる。実施形態では、ディープニューラルネットワークを使用して、MALDI-TOFやMISERなどのハイスループット分析技術を用いて生成された分析結果のノイズを除去したり忠実度を高めることができる。特に、ニューラルネットワークは、MALDI-TOFやMISERからの出力に基づいて分子の全質量スペクトログラムを予測するように訓練されうる。例えば、一実施形態では、機械学習法を使用して、既知のイオン化性を含む他の化合物のイオン化性に関するデータに基づいて、MALDI-TOFまたは他のMS法で分析された化合物のイオン化を予測することができ、これによりこれらの分析法の「定量性」の精度が向上する。
【0027】
c.ミディアムスループット化学実験及びハイスループット化学実験の使用。一般的に知られている技術では、対象の反応を実行するために変更される場合がある。これらの技術を使用して、本開示で説明するようなシステムなどを駆動するのに十分な大きさと品質を持つデータセットを作成することができる。さらに、実施形態では、ユーザは、システム結果を検証するために化学反応を自ら実行することができる。さらに、いくつかの実施形態では、実験は自動液体及び/または固体ディスペンサを利用して実施することができる。
【0028】
d.DNAエンコードライブラリの使用。いくつかの実施形態では、DNAエンコードライブラリ(DEL)は、DNAタグ付き試薬の反応性に関する実験データを生成するための手段として使用することができ、機械学習モデル(特にモデル)を訓練するのに適している。この種の一実施形態では、共通の官能基を有し、それぞれが異なるDNAタグでタグ付けされた試薬のライブラリを使用する。このようなタグ付きライブラリ成分(A)の混合物は、特定の試薬(複数可)(B)と化学反応を起こすことができるので、Aのいくつかの要素とBのいくつかの要素との間に共有結合が形成される。試薬Bの適切な構築(タグ付けまたは固定化)により、形成されたAB付加物のその後の安価な同定が可能になる。実施形態では、ポリメラーゼ連鎖反応(PCR)や次世代シーケンシング(NGS)などの広く知られている技術を使用することで、試薬Bは、DNA鎖、タンパク質(ポリペプチド)、ナノ粒子、またはポリマー樹脂ビーズなどの大きな分子に付着できるため、非反応性のライブラリ成分Aをウォッシュアウトし、次いで試薬Bとの反応を受けるライブラリ成分AのDNAタグを識別することが可能になる。
【0029】
e.シミュレーションソフトウェアの使用。実施形態では、データセットをエンリッチ化するため、分子シミュレーションソフトウェアを使用して化学反応の結果を予測することができる。実施形態では、シミュレーションソフトウェアを使用して、十分に正確な結果が得られる簡単な分子の化学反応の結果を予測し、より複雑な反応の結果を予測する機械学習モデルのブートストラップ学習を行うことができる。
【0030】
f.既存の文献データと既存の機械学習モデルを使った実験で、対象の化学の文脈においてどの実験が最も有益かを発見し、作成されたデータセットが既に十分詳細であるかどうかをテストすること。例えば、実施形態では、i.機械学習モデルを使用して、より信頼できる予測を可能にするために実行すべき最も有用な反応を発見することができる。特に、機械学習の確実性推定を使用して、不確実性が最も高い反応を選択することができる。予測の不確実性が最も高いモデルの反応をトレーニングセットに追加してモデルを強化するために、研究室で反応の実行及び分析ができる。さらに、実施形態では、ii.既存の文献データまたは他の情報源を使用して、データセットが対象の化学目標に対して既に十分に詳細であるかどうかを判定することができる。このような一実施形態では、既存の情報源は、対象の化学構造に含まれるデータポイント数に関して検討され得る。このような分析は、化学者、統計モデル、またはその両方の組み合わせによって行うことができる。他のこのような実施形態では、これらの情報源は、以下のステップ2aで参照されるもののような機械学習モデルのトレーニングデータセットとして使用することができる。さらに、実施形態では、iii.化学反応の空間は、(一般的に知られている化学ソフトウェア及び機械学習モデルを使用して計算された)広範な化学的特徴を用いてグループ化され得る。例えば、実施形態では、研究室でこれらの選択されたグループが実行及び分析されるときに、他のグループからの化学反応のプールの結果を予測する際にロバスト性を高めるため、これらの選択されたグループが機械学習アルゴリズム用の最も有用なトレーニングデータを与えるように、化学反応のこれらのグループから、より少数のグループを選択することができる。他の例において、実施形態では、ロバストな機械学習システムを使用せずにそのような反応の結果を予測するのが相対的に最も難しい反応のグループが選択され得る。そのうえ選択したグループを使用して、対象の各グループから化学反応が高密度にサンプリングされるように実験を設計することができる。このような実験的設計により、よりロバストな機械学習モデルの訓練が可能になる。他の実施形態では、iv.合成計画ソフトウェアを使用して、どの反応が所与の対象の分子に到達できるかを調査することもできる。
【0031】
g.化学者による機械学習ソフトウェアによって生成された反応の手動でのラベル付け。実施形態では、i.反応候補は、以下のサブセクション3a「後期官能基化」に記載の方法を用いたコンピュータシステムによって生成され、反応ラベルを割り当てるよう指示される1人以上の化学者に与えられ得る。
【0032】
実施形態では、上記の様々な技術(1.a~1.g)は、信頼できる化学構造を識別することに焦点を当てた機械学習モデルを訓練するために使用できる化学反応のデータセットを作成し(ステップ2)、研究室の実験コストを最小限に抑えながらロバスト性を最大化するために慎重に選択された新しい反応データを用いてデータセットを継続的に更新するというコンテキストで組み合わせることができる。
【0033】
ステップ2)信頼できる化学構造を識別することに重点を置く機械学習モデルを、作成された詳細なデータセット及びその他の関連する情報源で訓練すること。
【0034】
a.実施形態では、機械学習モデルは、ステップ1で作成したデータセットに限定されるものではないが、これを使用して訓練され、対象の化学構造を予測できる任意のモデルであってよい。特に、対象の化学構造で反応を行うための詳細な条件(試薬、溶媒、温度など)を予測する必要がある場合、モデルからの出力に含まれる。
【0035】
b.実施形態では、新規(未発見)の化学構造(例えば、新しい分子)に対して信頼できる予測を行うことに焦点を当てた機械学習モデルが作成される。システムは、示される予測の数と引き換えに、信頼性の高い予測を示すように設計されている。
【0036】
c.実施形態では、機械学習モデルを、十分に信頼できる予測を行うことが可能な方法で訓練することができ、i.ステップ1で作成された詳細なデータセット、ii.どのような分子が存在するかについての知識をより広範にモデルに触れさせるための分子または反応の追加のデータセットでの訓練、iii.ドメイン間での一般化(一実施形態では因果学習)を高めるのに使用されるアンサンブルまたは他の技術、これらの1つまたは複数を使用することで提供することができる。
【0037】
d.実施形態では、これらの技術を使用して、反応結果に関する予測に確信を持つ機械学習モデルを訓練することができる(ステップ2)。
【0038】
ステップ3)aまたはbの一方または両方を組み合わせて、対象の化学反応を行う方法を見つけること。a.使いやすいインターフェースは、対象となる特定の化学構造に適応しており、ユーザとマシン間の効率的なインタラクションを可能にすることに重点を置いている。例えば、i.信頼できるモデルは、化学者が信頼できる詳細な実験データセットと組み合わせることができる。ii.ユーザは、両方の情報源から最も化学的に関連した化学反応を探索できるため、結果を検討し、文献及び作成されたデータセット(ステップ1)と比較することができる。iiの実施形態では、これらの関連する化学反応は、関連する可能性のある反応生成物と対象の反応生成物とのフィンガープリントにおける類似性によって選ばれる。iiの別の実施形態では、これらの関連する化学反応は、関連する可能性のある反応生成物と対象の反応生成物との分子構造の類似性に基づいて選ばれる。このような分子構造の例として、官能基の存在、反応が起こっている原子の順序、反応の分子内性質または分子間性質が挙げられる。
【0039】
b.自動合成プラットフォーム。実施形態では、ユーザは、新しい予測を実験的に検証する化学反応を提案し、実行することができる。
【0040】
実施形態では、ステップ1~3の手順は、各ステップの結果を改善するためにステップ3から得られる結果を用いてステップ1で反復的に適用され得る。
後期官能基化
【0041】
提案された方法論の実施形態では、ロバストな機械学習モデル、文献に基づくデータセット(カスタム多段階抽出パイプラインを使用して取得される)、及び直感的なGUIが組み合わさり、後期官能基化に適用される。後期官能基化は、創薬プロセスにおける方法論であり、有力な薬剤候補がその構造を少し変更することで最適化される。新しい構造はすべて、密接な類似体で利用可能なアクティビティデータを享受するため、非常に価値がある。ただし、後期官能基化の実行には、化学選択的に変換を実行できる反応条件を見つけるという大きな課題が伴う。
【0042】
実施形態は、分子がどのような条件下でどのように修飾されるかについての非常に信頼できる予測をユーザが利用できるようにし、次いで、実施形態を使用しない場合よりも広範囲の類似体をユーザが利用できるようにする。
【0043】
このような一実施形態では、1.機械学習モデルは、トランスフォーマーアーキテクチャに基づくニューラルネットワークであり(他の実施形態では、モデルは、同様に他のモデルアーキテクチャに基づいてもよい)、ステップ2で上述した技術のいくつかを使用して訓練されて、対象の化学構造に対して信頼できる予測を可能にする。
【0044】
2.他のこのような実施形態では、a.過去に成功した化学反応に関する情報を含む公開されている文書(特許など)から抽出されたデータを使用する自己教師あり学習と呼ばれる技術を使用してモデルを訓練することができる。これらの化学反応の詳細は、広範囲に及ぶ詳細でロバストなデータセットを作成する機械学習法を使用して抽出できる。i.化学データの抽出は、データを複数の段階で解析する機械学習モデルのパイプラインを使用して実行される。1.第1段階では、テキストの断片が化学反応を説明しているかどうかを予測するモデルを用いる。2.第2段階では、化学反応の記述パラグラフ内にヘッダー、ディスクリプション、またはフッターとしてラベル付けを行うモデルを用いる。3.第3段階では、反応のディスクリプションのどの部分が、反応生成物、基質、溶媒、触媒、反応を行うのに必要な他の条件などのエンティティ名であるかを予測するモデルを用いる。ii.実施形態では、反応抽出パイプラインの全段階は、手動でラベル付けされたデータセットを使用してタスクごとに特化して訓練されたトランスフォーマーアーキテクチャに基づくニューラルネットワークによって実行され得る。これらは、化学関連タスクに使用されるモデル(この段落の冒頭にある上記実施形態1に記載のモデルなど)とは別のタイプのモデルである。セクションi.1-3の-実施形態2に記載のモデルを自然言語処理タスクに特化して訓練する。iii.パイプラインによって予測される詳細な反応特性により、前述の自己教師あり学習の手法を使用する効率が向上する。モデルは、b.前のポイントと同じデータに基づく教師あり学習目的や、c.おそらく間違っている(つまり、おそらく研究室では機能しない)自動生成された多数の人工化学反応を使用して訓練できる。
【0045】
3.新たな化学的性質を予測する実施形態の場合、信頼性の高い予測のみがモデル出力から選択される。これを達成するために、モデルはその信頼性を別の出力として予測し、この出力の値が所定の閾値を超える化学反応のみが選択される。例えば、化学反応は、生成モデル(生成物に基づいて基質を生成するモデル、または基質に基づいて生成物を生成するモデル)によって、またはいわゆる反応テンプレートを使用して生成できる。後者の場合、最終的な信頼レベルは、正例と負例で訓練された識別器モデル(化学反応が成功する確率を示す単一値を出力する分類モデル)を使用して計算できる。
【0046】
図1は、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。図1において、検索10、20はそれぞれ、システム内で以前に実行された官能基化検索である。分子12、14は、以前に検索が実行された分子を示す。そして、各検索に対して概略16、18が提示される。GUIでは、検索10、20のいずれかで項目を選択すると、関連項目の検索探索ページ(図3)にリダイレクトされる。「新規官能基化」ボタンは、新規官能基化を作成する機能を備える(図2)。この画面では、同様の原子は類似して色付けされ得る。例えば、分子12のF原子は水色、「O」原子は赤になり得る。
【0047】
図2は、新しい官能基化の作成を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。分子22(既に分子12として識別されている)、24、26は、検索を実行するために選択できる分子を示す。新しい化合物28を選択することで、新しい分子が作成できる。化合物を選択後、「予測開始」を選択することで検索(予測)が開始可能となる。この画面では、同様の原子及び同様の官能基は類似して色付けされ得る。例えば、分子22のF原子は水色、分子24の「NH」基はロイヤルブルーに色付けされ得る。
【0048】
図3は、官能基化の検索探索概要を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。リスト30には、現在表示されている官能基化30a~30eが含まれており、それぞれを選択すると官能化詳細図(図6)にリダイレクトされ、選択された入力分子32(図1の分子12)の隣に表示される。官能基化30a~30eごとのモデル予測の信頼レベル(例えば、パーセンテージで示される)を示す数値が含まれてもよい。デフォルトでは、上位予測の選択が表示される。各予測に対応する具体的な位置が、各位置で上位予測の信頼スコア(値)とタイプ(色)をコード化する円グラフ(34a~34d)でグラフ上にマークされる。図示のように、官能基化は以下のとおり円グラフに対応する。すなわち、30aと34a、30bと34b、30cと34c、30dと34dである。官能基化30eに対応する円グラフは図示されていない。図4に示すように、項目上にインジケータを維持することによって、位置が「ホバリング」され、情報を表示することができる。図5に示すように、予測は官能基化タイプによってフィルタリングすることができる。この画面では、同様の官能基化は官能基化の関連原子によって類似して色付けされ得る。例えば、分子32で見つかったF官能基化は水色で色付けされ、分子32で見つかったBr官能基化はベージュであり得る。
【0049】
図4は、位置40上でホバリングすることで表示される探索概要を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。ホバリングにより、位置40で見つかった官能基化リスト42をその位置の隣のフローティングメニューに表示する。各官能基化44a、44bを選択して、官能基化に関する詳細、例えば信頼水準の割合を表示することができる。この画面では、同様の官能基化は官能基化の関連原子によって類似して色付けされ得る。例えば、分子32で見つかったF官能基化は水色で色付けされ、分子32で見つかったBr官能基化はベージュであり得る。
【0050】
図5は、官能基化タイプF38でフィルタリングされた探索概要結果を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。官能基化タイプF38を選択すると、位置40上でのホバリング時に表示される官能基化リストが、フィルタ基準を満たすものまで減る。
【0051】
図6は、官能基化の詳細図を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。スクリーンショットは、GUIが選択された位置の概要44にナビゲーションを提示すること、ならびにリスト30の他の官能基化を示す。基質(右側、反応の方向矢印にも関連付けられる)及び反応条件(反応の方向矢印に関連付けられる)を含む予測反応グラフ46が表示される。予測反応の下には、参照反応48、50(部分的に表示)のリストが表示される。各参照反応、例えば反応48は、さらに展開され(52)、図7に示すような詳細な情報を示し得る。この画面では、同様の官能基化はその官能基化の関連原子によって類似して色付けされ得る。例えば、F官能基化は水色、Br官能基化はベージュ色であり得る。
【0052】
図7は、参照反応48を展開した官能基化の詳細を示す、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUIの実施形態のスクリーンショットである。リンク52(図6)の展開では、結果として手順54が表示される。
【0053】
セクション1
【0054】
図8は、化学反応の結果及び条件を予測する方法800の実施形態を示すフローチャートであり、その中にはデータ収集方法の実施形態が含まれる。いくつかの実施形態では、データ収集方法またはデータ収集は、本開示システムで使用される機械学習モデルを訓練するために使用される実験結果を設計及び実行するために使用される、複数のステップ(ターゲットセットの選択、または試薬の購入など)を含む方法として理解され得る。データ収集方法の目的の1つは、化学空間の特定のサブセットにおける特定のクラスの化学変換の高収率反応条件について正確な予測を行うのに適したデータを集めることである。
【0055】
方法800は、図示の順序で実行できる(ただし、そうする必要はない)いくつかのステップを含む。図8は、GUI100を介してコンピュータシステム(複数可)851と入出力を行うアクション801を示す。第1のステップ852はターゲットセットの選択である(例については本文を参照)。ユーザ入力808は、経路838、876を介してGUI100で受信され得る。ターゲットセットは、公開されたソース804、またはユーザ806にとって重要な生成物及び反応の他の構造を含み得る外部ソース802から選択され得る。選択されたターゲットセットはステップ854に提供され(888)、ステップ854は実行するための反応の優先順位付けに焦点を当て、経路840、878を介してユーザ入力810を受信することができる。優先順位付け入力810は、モデル出力814、利用可能なリソース816、市販の試薬818、及びユーザ在庫820で入手可能な試薬を含み得る考慮事項812に基づいてユーザによって選択され得る。ステップ894では、選択された反応がステップ856に送られる。選択された反応は、ステップ872を介して送られる(890、908)。ステップ872では、コンピュータプログラムが、自動化された研究室でのユーザ及びハードウェアによる実験の実行を監視することができる。ステップ856では、ステップ854で選択された反応が実行され、その結果が分析される。ステップ856における結果の分析は、いくつかの実施形態では、分析データの解釈をサポートするコンピュータプログラム及び/またはMLモデル及び/またはシミュレーションが実行されるステップ874によって支援され得る(910)。ステップ874の結果は、ステップ858(経路896を介して)、870(経路896を介して)、868(経路886を介して)、836(経路886、850を介して)に提供される。ステップ858では、モデルトレーニング用のデータセットが組み立てられる。ステップ870では、モデル評価898用にデータセットが組み立てられる。ステップ858からのモデルトレーニング用のデータセットは、経路900を介してステップ860に提供され、そこでMLモデルが訓練される。訓練されたモデルは、経路902を介して、モデルが評価されるステップ862で利用できる。モデルの評価において、ステップ862は、モデル評価用のデータセットの経路912を介してステップ870からさらに入力を受け取ることができる。ステップ862は、経路844、882を介してユーザ選択及び優先順位付け入力832を受信することもできる。ステップ866では、いずれかのステップを繰り返すかどうかが決定される。経路906を介した決定866からの入力と、経路846、884を介して提供される起こり得るユーザ選択及び優先順位付け入力834からの入力により、ステップ864で次の反応のセットに優先順位が付けられる。優先順位付けされた次の反応は、経路892を介してステップ854に提供され、実行のために選択される反応リストに含めることができる。ステップ836では、ユーザはモデルとインタラクトして、対象の反応に対して、及びそれらの反応の探索に対してステップ868からモデルの結果を表示する。ステップ836及びステップ868は共に、経路848を介してユーザ入力822を受信することができ、これには、例えば、コンピュータシミュレーションからのデータ(826)、化学反応の他の記録からのデータ(例えば、ELN)(828)、及びテキストからのデータ(科学文献や特許など)を含む追加データ824が含まれ得る。
【0056】
基本的には、図8に示すように、ユーザは、モデルやデータセットとインタラクトすることができ、グラフィカルユーザインターフェース(GUI)100などの専用のユーザインターフェースを介して方法を監視することができる。いくつかの実施形態では、モデルまたは現行モデル(モデルの再トレーニングが行われたことを意味する)は、方法の所与のステップで利用可能な化学データのすべてまたは一部で訓練された機械学習モデルとして理解され得る。例えば、ユーザは、得られたモデルを使用し(例えば、ステップ836にて)、ユーザインターフェースがモデルにアクセスして(ステップ868にて)、化学反応の高収率条件を予測することができる。この方法の一実施形態の目的は、反応結果の予測を提供し、満足のいくパフォーマンスで(パフォーマンスの測定方法の例については本文を参照)、完全指定の反応(定義を参照)の最適な反応条件を予測するようにモデルを訓練することであり、上述したように、データ収集とモデルのトレーニングサイクルの1回の反復または複数回の反復後に取得できる。
【0057】
いくつかの実施形態では、ユーザは、例えばAPIによってシステムとインターフェースで接続するコンピュータシステムであってよい。いくつかの実施形態では、人間のユーザとコンピュータシステム/ユーザの両方が存在する場合がある。つまり、この説明では、ユーザによって実行されるステップは、人間のユーザまたはコンピュータシステムのユーザ、あるいはその両方によって実行される可能性がある。
【0058】
いくつかの実施形態では、ターゲットセットは、データ収集方法のステップの1つでの入力である(完全指定または部分指定の)化学反応のセットを含むと理解され得る。セットは通常、ユーザによって定義される。セットは、明示的(例えば、承認されている、または臨床試験中の既知の薬物様化合物を形成する特定のクラスの反応)または暗黙的に(例えば、分子量などの特性に制約を課す、いわゆるリピンスキーのルールオブファイブを満たす化学化合物を生成物として形成する特定のクラスの反応)定義することができる。
【0059】
いくつかの実施形態では、モデルまたは現行モデル(モデルの再トレーニングが行われたことを意味する)は、データ収集の所与のステップで利用可能な化学データのすべてまたは一部で訓練された機械学習モデルとして理解され得る。モデルは、部分指定の化学反応を入力と受け止める(必要な条件や結果などの他の情報の一部を入力が除外する可能性があるという意味では、反応は部分的に定義できる)。モデルが結果情報のみを欠いている反応を入力として受け取った場合、モデルは反応結果を出力する。モデルが部分指定の反応を入力として受け取った場合、モデルは1つまたは複数の予測された完全指定の反応を出力する。モデルは、予測の説明や予測に関するモデルの確実性など、追加の出力をいくらでも行うことができる。
【0060】
いくつかの実施形態では、現在のデータセットは、データ収集の所与のステップで利用可能なデータセットであり、現行モデルを訓練するのに適したデータセットとして理解することができ、これは、すでに実行された実験から組み立てられ、他の利用可能なデータソース(例えば、公開されている文献から、または量子計算に基づく)と結びつく可能性があり得る。
【0061】
いくつかの実施形態では、化学反応または反応は、反応物質及び条件に関するすべての情報、ならびに反応結果に関する情報を含む、完全指定の化学反応として理解され得る。いくつかの実施形態では、反応結果が、どの生成物がどのような収率(パーセンテージ)で形成されるかとして理解されることができ、(例えばユーザによって提供される、コンテキストに応じて)所与の生成物が所与の値を超える収率で形成されたか否かの二元表示の例外として理解され得る。特に、熟練した化学者は、研究室でこれらの情報に基づいて化学反応を実行できるはずである。
【0062】
いくつかの実施形態では、結果を持たない化学反応は、結果に関する情報のみが欠けている完全指定の化学反応として理解され得る。
【0063】
いくつかの実施形態では、反応条件は、その原子が予想される生成物(反応物と呼ばれる)の構造に寄与する反応物の構造を除いて、完全指定の化学反応を実行する方法の包括的な記載の一部であると理解され得る。例えば、反応条件には、反応に影響を与えるすべての物理変数、すなわち温度、圧力、反応時間、撹拌強度、試薬の添加順序、試薬の添加速度、それらの原子が予想される目的生成物に寄与しない反応混合物のすべての成分(溶媒(複数可)、触媒、塩基、酸、カップリング試薬など)、使用試薬の品質、反応混合物成分の割合が含まれる。
【0064】
いくつかの実施形態では、部分指定の化学反応または部分指定の反応は、完全指定の化学反応からの任意の情報になり得る、情報の一部が省略された部分指定の反応として理解され得る。特に、溶媒や触媒などの条件が不足している場合がある。
【0065】
いくつかの実施形態では、化学反応の結果は、形成される生成物として、ならびに化学反応に対して各生成物がどのような収率で形成されるかを理解され得る。
【0066】
いくつかの実施形態では、ユーザの要件を満たす(例えば、部分指定の化学反応に基づいて高収率である)化学反応条件を予測するため、及び/または1)と、任意で2)の組み合わせにより、ユーザ(以下、ターゲットセットと呼ぶ)によって(例示のように、暗黙的または明示的に)指定された化学反応を高い精度で得るように設計された所与の化学反応の結果を予測するためのコンピュータシステムが開示される。
【0067】
1)以下を組み合わせた化学反応の多様な実験結果のセットに基づいて訓練された機械学習モデル:
【0068】
(1)(i)1つまたは複数の以下の特性を組み合わせた方法論で設計及び実行される実験: 化学反応は、訓練されたモデルがターゲットセットで高精度を成すことができるようにするという最終目標を持って選択される(詳細はセクション2.2及びセクション5に記載の化学反応の優先順位付け方法を参照)、自動液体及び/または固体ディスペンサを利用してハイスループット方式で実行される(例えば、適切な方法または実験用ハードウェアを選択することによる。詳細はセクション3及びセクション5を参照)、反応結果(どの生成物がどのような収率で形成されるか)が分析され(例えば、UV/Vis検出器を備えたLCMS機器によって実行され)、定量化される(例えば、反応の収率を決定するために既製のソフトウェアによって処理される)、または1人または複数のユーザによる決定を伴うもの(特にユーザがどのような決定を下すかについての詳細はセクション2.4及びセクション5を参照)、または
【0069】
(1)(ii)必要に応じて、開示されている特許や科学文献などのテキスト情報から任意の方法を用いて抽出された化学反応を含む他の化学情報源、または実行後の実験(電子実験ノートなど)の文書化された記録から得られたデータセットを含むが、これらに限定されない化学反応の他のデータセット、または
【0070】
(1)(iii)必要に応じて、さまざまな理論レベルでの分子モデリングを使用して化学反応の結果をシミュレートすることを目的としたコンピュータプログラムの結果(理論レベルとは、計算化学で用いられる用語であり、より高い理論レベルとは、コンピュータプログラムが、処理時間は長くなるが、より高いシミュレーションの精度を達成することを意味する)。
【0071】
さらに、機械学習モデルは、セクション2.4で後述するように、ターゲットセットにおいてより正確な予測を可能にする手法を使用して訓練することができる。
【0072】
2)必要に応じて、ユーザが所望の目的を達成できるようにするグラフィカルユーザインターフェースを備えたコンピュータプログラム。このようなコンピュータプログラムの実施形態には、(i)及び(ii)が含まれる:
【0073】
(2)(i)任意の既知のアルゴリズムを使用し、ユーザ指定の制約(実施形態では、これらは、利用可能な化学のハードウェア、購入する反応物の価格や入手可能性の好ましい条件または制限などであるが、これらに限定されない)と一致する合成経路を計画するコンピュータプログラム。実施形態では、コンピュータプログラムは、機械学習モデルを使用して、反応条件を予測し、示すことができる(セクション5.3も参照)。一実施形態では、コンピュータで設計した経路に沿った合成ステップは、1つまたは複数の実験装置の一部を主体的に実行することができる。実施形態では、システムは、アプリケーションプログラミングインターフェースを介して実験装置と通信することができる。他の実施形態では、合成経路計画の結果は、ユーザに示される化合物を合成する予想コストを示す単一の数字に要約することができる。
【0074】
(2)(ii)機械学習モデルを使用して作成された予測最適条件をユーザが受け取ることができるグラフィカルインターフェースを介して、ユーザ指定の化学反応に対してユーザの制約(例えば、高収率)を満たす反応条件をユーザに見つけさせるコンピュータプログラム(図5及び図16を参照)。この種の一実施形態では、ユーザは、モデル予測と効果的にインタラクトすることができる(例えば、モデル予測の探索または修正)。この種の一実施形態では、プログラムは、ユーザに(完全な反応ではなく)基質のうちの1つだけを入力させ、プログラムは、機械学習モデルを使用して複数の潜在生成物の合成に関する反応条件を提案する。詳細については、セクション「5.2反応結果と選択した反応の最適条件の予測」を参照。予測に対する制約を選択するユーザ機能に関して、この機能により、ユーザは制約の選択によって、最適条件になると考えられるものを定義できる。
【0075】
さらに、いくつかの実施形態は、化合物収集の合成計画及び可能性のある合成を提供する。具体的な例としては、システムによって行われた予測に基づいて、DNAエンコードライブラリを合成することができる。また、システムの予測に基づいて化合物の仮想カタログを作成することができる。
【0076】
セクション2.データ収集方法
【0077】
セクション2.1
【0078】
実施形態では、データ収集方法は1回または複数回の反復を伴う。各反復は、以下の1つまたは複数のステップの実行を含む:1)ターゲットセットとの類似性に部分的に基づいて、研究室で実行する化学反応のバッチを選択すること(バッチを選択する方法の説明については、セクション2.2及びセクション5を参照)、2)化学反応の選択したバッチを研究室で実行し、反応の収率(形成された生成物の割合)を定量化する目的で、適切な分析方法によって反応後の混合物を分析すること(このステップでは、市場で化学物質を購入する必要がある場合がある)、3)分析データのソフトウェア処理を使用して、実行後の反応結果を推定すること、4)現行のデータセットで訓練することで新しいモデルを取得すること(これには、前のステップで実行された反応のすべてまたはサブセットも含まれる)、5)多数のメトリクス(明細書の後半で定義するように、GUIで表示可能)に応じてモデルのパフォーマンスを分析し、データ収集の継続を決定すること(詳細はセクション2.4を参照)、6)ユーザインターフェース(グラフィカルまたは非グラフィカル)でモデル及びデータセットとインタラクトすること。特に、このインタラクションには、部分指定の化学反応をモデルに入力し、出力(化学反応の予測結果と反応条件などの追加情報)を読み取り/表示することが含まれる(このステップについてはセクション5を参照)。
【0079】
セクション2.2
【0080】
一実施形態では、ターゲットセットは、最終モデルの所与のアプリケーションに関係がある反応の任意のセットからなる。
【0081】
一実施形態では、ターゲットセットの反応は、その生成物が臨床試験中の分子もしくは臨床試験中であった分子、または関連する生物学的標的の強力な結合剤/阻害剤として同定された分子である任意の反応である。この種の一実施形態では、所与のタイプ(例えば、アミドカップリング)の反応のみがターゲットセットに含まれる。
【0082】
一実施形態では、機械学習モデル、及び/またはヒューリスティックアルゴリズム及び/またはユーザ検査を使用して、ターゲットセット内の反応とターゲットセット内の他の反応との化学的類似性の低下、最小サイズのターゲットセットを用いて、特定のユーザ定義の化学空間の適切なカバーなど、1つまたは複数の目的を達成するために、特定の化学反応を優先することによってターゲットセットのサイズを縮小する。
【0083】
実行する化学反応の選択に関して、一実施形態では、データ収集の所与のステップで実行、分析、現在のデータセットへの追加を行う反応は、考えられるあらゆる化学反応の空間から、以下の式(1)の数式に従って最高スコアの反応セットとして選択される:
S=argmax_{S,|S|=N}f(S)、式(1)
式中、f(S)は反応のセットにスコアを割り当てるスコアリング関数であり、Sはバッチの一部であるN個の反応のセットである。明細書の残りの部分ではfを反応優先順位付け関数と呼ぶ。
【0084】
実施形態では、関数f(S)は、以下に定義される1つまたは複数の因子の組み合わせを含むことができる:a)ターゲットセットの一部である反応が、セットSの反応と化学的に(以下に定義される)類似している数、b)(1)ターゲットセットの一部である反応が、セットSの反応と化学的に類似している数であり、(2)現行モデルによって低い確実性が割り当てられている反応の数、c)ターゲットセットの一部である反応が、(1)反応セットSに類似している数であり、(2)1人または複数のユーザによって可能性が低いとみなされる(所定の尺度に従って所定のスコアを下回っている)反応の数(いくつかの実施形態では、ユーザはGUIで各反応を示すことができる(セクション2.4を参照))(いくつかの実施形態では、機械学習モデルを使用して専門家の意見を近似することができる)、d)反応Sを実行するために必要な試薬の価格、e)注文日から化合物提供者から試薬が研究室に到着した時刻(特に、試薬が既に購入されているかどうか)、f)モデルによって割り当てられた、セットSの反応の確実性、g)(モデルを訓練するのに使用される)データセットとの反応の類似性(例えば、モデル予測のユークリッド距離または分散の形式)、h)反応セットSのそれ自体に対する化学的類似性(以下に定義される)(一実施形態では、式は、セットSの反応同士の化学的類似性の分布を入力として受け取る。一般に、多くの場合、化学反応が化学空間のサブセットをより広くカバーしていることを示しているため(したがって、ターゲットセットのサブセットをより広くカバーしている可能性がある)、セットSの化学反応は低い類似性が望まれる。換言すれば、それらはターゲットに類似しつつも、互いに異なる必要がある)、i)モデルの不確実性の推定(一実施形態では、不確実性は、それぞれが同じデータセットで再トレーニングされた、モデルの異なるコピーの平均に基づく)、j)化学反応のタイプ(一実施形態では、所与の化学タイプの反応のみが選択される(例えば、アミドカップリング反応のみ))、k)その反応がターゲットセットでモデルのパフォーマンスの向上に関連するかどうかの意見を反映する、1人または複数のユーザによって割り当てられたスコア(いくつかの実施形態では、ユーザ(複数可)にGUIで化学反応が表示される(セクション2.4)を参照)。
【0085】
一実施形態では、セットSを決定する際に使用される反応同士の化学的類似性は、各反応における反応物(基質、生成物)及び試薬の数値表現に基づく。一実施形態では、数値表現は、MACCSまたはモーガンフィンガープリント(総称して化学フィンガープリントと呼ぶ)などの化学化合物を表す任意の公開されている方法を使用して計算される。一実施形態では、化学的類似度関数は、反応の中心から特定の距離よりも遠い原子が除去された分子について計算された化学フィンガープリントに基づいており、反応の中心は、化学反応中に影響を受ける原子として定義される。一実施形態では、数値表現は、化学反応をモデルに入力し、その化学反応の隠れ表現を保存することによって計算される。いくつかの実施形態では、数値表現を使用して、ユークリッド距離またはジャッカード係数などの2組の数値表現間の類似性の測度を使用して化学的類似性を計算することができる。
【0086】
データ収集の任意のステップに関して、一実施形態では、データ収集は、多数の試薬を購入して、それらに関する反応を実行するのにすぐに利用できるようにするステップを含むことができる。特に、反応優先順位付け関数f(S)に時間有効度係数(f)が含まれている場合、これらの反応は自然に実行する優先順位が付けられる。
【0087】
一実施形態では、以下の式(2)の数式を最大化する試薬Rのセットを見つけることによって、試薬セットRに優先順位を付けることができる。
R=argmax_{R,|S|=N}g(R)、式(2)
式中、g(R)は試薬Rのセットにスコアを割り当てるスコアリング関数であり、Rはバッチの一部であるN個の反応のセットである。一実施形態では、関数f(R)は、以下を含む1つまたは複数の因子を含む:a)以下の形式のいずれかの因子:Vは、試薬Rのセットが与えられた場合に潜在的に実行され得る反応のセットを示すものとする(因子はf(V)であり、fは反応優先順位付け関数である)、b)化学化合物の提供者からの試薬の価格、c)注文日からの化学化合物の提供者から試薬が研究室に到着した時刻(特に、試薬が既に購入されているかどうか。この場合、時刻t=0)、d)試薬Rのセットのそれ自体に対する化学的類似性。
【0088】
一実施形態では、試薬Rのセットまたは反応Sのセットは、(2)で提示された最適化問題に対する近似解を見つけることを目的とする以下の反復最適化アルゴリズムに従って選択される。第1のステップでは、f(S)の(g(R)はf(S)=\sum f(s_i)(g(R)=\sum g(r_i)と分解できる)場合、各試薬または反応が個別にスコア付けされる。第2のステップでは、最高スコアを持つ1つまたは複数の試薬または反応が選択される。第1のステップと第2のステップは、試薬または反応の所望の数(N)が選択されるまで繰り返される。所望の数Nは、方法のユーザによって設定されるパラメータであり、方法の異なるステップでは異ならせることができる。
【0089】
一実施形態では、式(1)及び(2)の解は、離散最適化のための既製のソフトウェアを使用することによって解くことができる。
【0090】
一実施形態では、1人または複数のユーザは、反応Sの試薬Rの異なるセットをグラフィカルユーザインターフェースに表示し、スコアリング関数f(S)またはg(R)の一部として使用できる追加の入力を求めることができる。
【0091】
セクション2.3
【0092】
いくつかの実施形態は、他のソースからのデータを使用することを含む。一実施形態では、現在のデータセットには、学術誌論文や特許などのテキスト情報から抽出した化学反応が含まれる。この種の一実施形態では、テキストデータから化学情報を自動的に抽出するように訓練された機械学習モデルを使用して、抽出を自動的に行うことができる。この種の一実施形態では、機械学習モデルは、最初に、化学情報を抽出するために使用するテキストに関して自己教師あり法で(シーケンス内の次の単語を予測するなどの一般的な疑似タスクを使用して)訓練される。この種の一実施形態では、抽出を実行するためにトランスフォーマーアーキテクチャが使用される。この種の一実施形態では、以下の計算パイプラインを使用して、テキストデータから情報を抽出する:(i)テキストの断片が化学反応を説明しているかどうかを(トランスフォーマーアーキテクチャを使用して)予測する、(ii)化学反応の記述内の段落をヘッダー、ディスクリプション、またはフッターとして(トランスフォーマーアーキテクチャを使用して)ラベル付けする、(iii)反応のディスクリプションから、反応生成物、基質、溶媒、触媒、反応を実行するために必要なその他の条件などのエンティティを(トランスフォーマーアーキテクチャを使用して)予測する。
【0093】
一実施形態では、現行のデータセットには、化学反応の結果の予測に直接関係しない補助的な情報源が含まれる。この種の一実施形態では、(任意の種類であり、量子化学計算などの任意の手段を使用して計算された)分子特性のデータセットがデータセットと結合される。この種の一実施形態では、補助的な情報源を含むデータセットは、ターゲットセットとの類似性と、現行のデータセット内の反応との任意の種類の化学的類似性の両方に基づいて選択される。
【0094】
一実施形態では、追加データでデータセットを強化させるために、ハイスループット実験の代わりに、またはハイスループット実験と並行して、量子コンピュータまたは量子化学計算プログラムを実行して、任意の化学反応の(近似)結果を予測することができる。この種の一実施形態では、研究室で実行する反応を選択するために使用するのと同じ手順を、量子コンピュータまたは量子化学計算プログラムを使用して予測される反応を選択するために使用することができる。
【0095】
実施形態では、量子計算に基づいて化合物及び反応の特性を予測するためのより正確な機械学習モデルを作成する方法が開示される。実施形態は、(a)簡素化された量子システムの正確なシミュレーション(「簡素」という用語は、化学反応に含まれる反応機構及び/または試薬の簡素化の両方を指すことができる)が、合理的な計算量で取得できる、(b)機械学習モデルは、より複雑な量子システムの実験反応結果データやシミュレーション結果など、より複雑なデータを予測するときに、簡素化された量子システムのデータにアクセスすることで大きな利益を得る可能性があるという前提に基づいている。この種のいくつかの実施形態では、(次の段落で説明するように)1つまたは複数の計算パイプラインが確立され、広範囲の異なる基質及び生成物の化学反応の結果を計算し、その後、(要素の1つとして)機械学習モデルを訓練するために使用する。この種の一実施形態では、それぞれが化学反応の一態様に関する特定の情報を含むことを目的とする複数の量子化学計算パイプラインが確立される。パイプラインを使用して化学反応の結果を計算することにより、比較的正確にシミュレートされた反応結果でデータセットを強化することができる。この技術は、実験データセットで十分にカバーされていない化学化合物に特に有用である。
【0096】
量子計算パイプラインは、(i)分子のエネルギーの計算に使用されるアルゴリズム(GFN-xTBなど)、(ii)シミュレートされる反応の遷移状態、(iii)分子のエネルギー計算に使用されるアルゴリズムのパラメータ(使用する分子軌道の数、アルゴリズムの許容誤差など)など、さまざまな方法でパラメータ化できる。
【0097】
この種の一実施形態では、量子化学計算パイプラインが、様々な可能なパラメータ化を検索することによって確立され、化学化合物の所与のサブセット(例えば、より小さい化合物)についての実験データとの有意な相関関係が達成される。一実施形態では、データセットには、前の段落で説明した量子計算方法論に従って計算される結果を伴う化学反応が含まれる。
【0098】
セクション2.4
【0099】
セクション2.4.1:データ収集中にユーザ(複数可)に入力を求める
【0100】
様々な実施形態において、データ収集は、回答を使用してプロセスを進めることを目的として、ユーザ(複数可)への質問を含み得る。いくつかの実施形態では、複数のユーザが同じ質問をされてもよく、その回答は、コンテキストに適した方法を使用して(例えば、データ収集を停止するかどうかを決定するコンテキストで最大投票を使用して)すべてのユーザからプールされる。
【0101】
いくつかの実施形態では、ユーザ(複数可)は、以下の質問のうちの1つまたは複数を回答することができる(ここでは簡単に説明するだけであり、明細書内の他の場所で詳しく説明する):a)データ収集を継続するかどうか(詳細については、セクション2.4.3を参照)、b)ターゲットセットのパフォーマンスを向上させる化学反応または化学反応のセットとの関連性をある程度の尺度で評価する(詳細については、セクション2.2を参照)、c)データ収集のさまざまなパラメータを指定する。これには、(i)優先順位を付ける反応の数、(ii)ターゲットセットとは何か、(iii)反応優先順位付け中に使用する関数を含み得るが、これらに限定されない。(セクション2.2を参照)。パラメータの具体的な詳細は、関連セクションに記載されている。
【0102】
いくつかの実施形態では、機械学習モデルを使用して、データ収集の以前の反復または実行で収集された回答のデータセットで回答予測モデルを訓練することによって、ユーザの回答を予測することができる。いくつかの実施形態では、回答予測モデルは、質問の関連コンテキスト(データ収集方法の履歴など)を表すトークン列からなる入力と、回答(データ収集を停止するか続行するかを示す「0」または「1」など)を表すトークン列である出力を備えたトランスフォーマーアーキテクチャに基づくことができる。
【0103】
セクション2.4.2:質問に答える際のユーザ(複数可)のサポート
【0104】
いくつかの実施形態では、ユーザ(複数可)は、専用のユーザインターフェース(グラフィカルユーザインターフェース(GUI)など)を使用し、データ収集を継続するかどうかの決定など、データ収集中に提起される質問により正確に答えるのを助けることができる。どのような疑問が生じるかについての詳細は、セクション2.4.1を参照。以下のテキストでは、GUIの機能について説明する。
【0105】
いくつかの実施形態では、GUIは、セクション5に記載されているように、任意のユースケースで使用できる機能を有する。特に、それほど形式的ではないが、GUIは、基礎となるデータセットのクエリ、モデルに予測を求めること、モデル予測に関するユーザが解釈可能な説明(科学的根拠など、詳細についてはセクション5を参照)の表示をサポートすることができる。
【0106】
いくつかの実施形態では、現行モデルのそれぞれのパフォーマンスが(セクション2.4.3で説明される1つまたは複数のメトリクスに従って)要約され、GUIに表示される。
【0107】
いくつかの実施形態では、ユーザは、データ収集の任意のステップでの質問への回答をサポートするために、GUIを使用してデータベースに対してクエリを実行することができる。クエリは、(a)所与の化学構造の有無、(b)所与の化学反応との類似性、(c)所与の化学的特性(例えば、親油性または酸性)の有無または値など、さまざまな手段で指定できる。クエリを実行すると、化学反応性をより深く理解できるため、より適切な選択が可能となる。この種の一実施形態では、GUIを使用して、モデルが化学反応の収率を正確に予測する可能性に関する質問に答えるのに役立つことができる。一実施形態では、ユースケース(セクション5を参照)の一部として開示されているデータセットを探索するために使用されるグラフィカルインターフェースは、データセットをクエリする目的でデータ収集プロセスでも使用することができる。
【0108】
セクション2.4.3:データ収集の停止に関する評価と決定
【0109】
いくつかの実施形態では、データ収集プロセスは、プロセスを継続するか否かを決定するステップを含む。いくつかの実施形態では、決定は部分的にまたは完全にユーザによって行われる。いくつかの実施形態では、決定は完全に自主的に行われる。
【0110】
いくつかの実施形態では、決定は、モデルのパフォーマンス(例えば、化学反応の結果を予測する能力)を1つまたは複数のメトリクスに要約することによる評価に基づく。いくつかの実施形態では、メトリクスには、(i)高収率反応と低収率反応を区別するモデルの精度(高収率反応と低収率反応を区別するパーセンテージ閾値をユーザが決定できる)、(ii)部分指定の反応に基づいて完全指定の反応を予測するモデルの精度、(iii)予測収率(収率は反応結果の一部である)と選択した生成物(例えば、最も高収率の生成物)の実際の収率との相関関係が含まれ得る。決定が完全に自主的であるこの種の実施形態では、ユーザは、気が済んだらデータ収集のプロセスを終了するユーザメトリクスに基づいて一連の論理制約を指定する(ユーザが、データ収集を停止するように求められるか、またはデータ収集を駆動するコンピュータシステムが制約を満たしていることを確認して、データ収集を停止する)。
【0111】
いくつかの実施形態では、メトリクスは、以下の1つまたは複数のソースからの反応(後で「化学反応の評価セット」と呼ばれる)で計算することができる:(a)ターゲットセット、(b)モデルを訓練する使用されなかった実行後の反応、(c)ユーザによる、または任意の方法を自主的に使用してパフォーマンスを評価する目的で、特に選択及び実行される反応の別のセット(例えば、このセットには、ターゲットセットには含まれなかった特に困難な反応のセットが含まれ得る)。この種の一実施形態では、評価セットの一部である試薬は、実験に含まれる試薬よりも化学的に複雑である(化学的に複雑とは、例えば、所定のリストからの異なる化学構造の数によって測定される)。この種の別の実施形態では、評価セットの試薬は、既知の薬物または臨床試験中の化合物に対する反応の反応物同士の化学的類似性(上述したとおり)の観点から、既知の薬物または臨床試験中の化合物に対して最も類似した反応を選択する方法で選択することができる。
【0112】
セクション2.5
【0113】
セクション2.5.1:モデルの特性
【0114】
いくつかの実施形態では、以下の特性のうちの1つまたは複数を有するようにモデルを訓練することができる(モデルを訓練する方法は、使用されるモデルの正確なタイプによる。詳細については、セクション2.5.2を参照):a)完全指定の化学反応(この場合、モデルは指定された結果にマスクをかける)、または部分指定の化学反応からなる入力に基づいて反応結果を予測することができる、b)完全指定の化学反応または部分指定の化学反応に基づいて1つまたは複数の化学反応を予測することができ、これらは追加の情報(例えば、使用条件に関する情報)を含むことができる。完全指定の化学反応とは、反応物質と条件に関するすべての情報に加え、反応結果(どのような生成物がどのような収率(パーセンテージ)で生成されるか)に関する情報を含むものである。特に、熟練した化学者は、研究室でこの情報に基づいて化学反応を実行できるはずである。部分指定の化学反応または部分指定の反応:部分指定の反応は、完全指定の化学反応から情報の一部が省略されている。特に、溶媒や触媒などの条件に関する情報が欠落している可能性がある。(b)の具体例としては、基質と生成物からなる入力に基づいて高収率の反応条件を予測することが挙げられる。
【0115】
いくつかの実施形態では、モデル出力は、その予測に関する不確実性を含むことができる(計算方法の詳細は次の段落にある)。モデルの不確実性は、モデルが使用されるデータ収集の各段階での予測の精度を向上させるために使用できる。例えば、モデルが使用される場合:(a)データ収集中の反応優先順位付け(セクション2.2を参照)、または(b)あらゆるユースケースでGUIに表示される追加出力(予測された反応条件の表示など)。
【0116】
いくつかの実施形態では、モデル入力は、条件などの追加情報を伴う生成された化学反応に対するユーザ要件のセットを含み得る。いくつかの実施形態では、ユーザ要件は、以下のタイプのうち1つまたは複数を含む。
(a)反応が可能な限り高い収率を有する。
(b)反応条件が低温の使用などの特定の制約を満たしている。
(c)基質及び生成物が、所与の購入価格を下回るなど、特定の論理的制約を満たしている。
【0117】
いくつかの実施形態では、モデルのアンサンブルを訓練することができ、モデルは、モデルの複数のバリアントから構成されるものとして理解することができる。いくつかの実施形態では、モデルの個々のバリアントは、トレーニング手順を繰り返すことによって得ることができるが、トレーニング中に表示されるトレーニング例の順序を変更する、またはトレーニング手順(トレーニングの長さなど)の異なるパラメータを使用するなど、より少ないまたはより重要な方法で構成を変更する。これらの実施形態では、アンサンブルモデルが出力をするよう求められると、各バリアントに入力され、出力の平均化(平均化が明確に定義されている場合)または投票(出力がカテゴリカルである場合)などの任意の方法に従って出力がプールされる。
【0118】
いくつかの実施形態では、モデル出力は、ユーザによるモデルの解釈可能性を高めることを目的とした出力をさらに含むことができる。いくつかの実施形態では、モデルは、データセットからの化学反応(完全指定または部分指定)のリストを有することができ、予測された反応に関連する、既に実行された反応の結果を表示する機能を備えているため、モデル出力が正しいかどうか(モデル出力が実験と一致するかどうか)についてユーザが意見をまとめるのに役立つ。いくつかの実施形態では、モデルは、以下のような、予測を行った理由についてユーザが解釈可能な説明を有することができる:(a)予測に関連する物理化学的特性(例えば、水中での生成物の溶解度)に関する予測を出力する、(b)反応機構の予測を含む(例えば、臨界遷移状態を遷移状態の予測エネルギーとともに示す)。いくつかの実施形態では、ユーザは、提供された説明がどの程度説得力があるか、またはどれだけ有用であるかに関する質問を(例えばGUIを介して。セクション2.5を参照)尋ねられてもよい。この種のいくつかの実施形態では、モデルは、提供された説明がどれほど説得力があるか、または有用であるかについての、提供された情報に関する情報を用いて強化されたデータセットで訓練できる。
【0119】
いくつかの実施形態では、不確実性は、予測量の最大値及び最小値の可能性を示す信頼区間として計算することができる。一実施形態では、アンサンブルのメンバが求めた予測の平均(収率が何らかのユーザ定義の閾値を超えるかどうかを予測するなどの分類出力の場合)または予測の分散(収率の予測などの回帰出力の場合)が、モデルの不確実性に影響を与える要因として使用される。この種の別の実施形態では、トレーニングセットからの入力と例との間の距離の形式(例えば、モデルがニューラルネットワークである場合、モデルから得られた隠れ表現間のユークリッド距離)を、次の式で使用し、モデルの不確実性を計算する。
【0120】
いくつかの実施形態では、モデルは、不確実性の推定とは別に、モデルが類似のデータで訓練されたかどうかを定量化するスカラを出力する。この種の一実施形態では、スカラ量は、異なるモデルのアンサンブルを訓練し、アンサンブルのメンバそれぞれの予測の分散を計算することによって計算される。いくつかの実施形態では、スカラが低い場合、それに応じて不確実性が増加するように、スカラを使用して不確実性の推定を修正する。スカラ量は、モデル出力の不確実性が使用されるデータ収集のどのステップでも使用できる(本文の適所で規定されているとおり)。
【0121】
いくつかの実施形態では、モデル出力は、反応が特定の閾値を超える収率を持つ可能性がどれだけ高いかをユーザが思う観点から(例えば、反応が所望の生成物の収率5%よりも高い収率を達成する1から5の尺度で)、関連する予測反応をユーザがどのように判断するかを概算するスカラを含み得る。この種のいくつかの実施形態では、データセットは、そのような割り当てられたスカラを持つ反応を含むように拡張され、これにより、スカラを予測するモデルを訓練することが可能になる。
【0122】
マルチタスク学習は、画像内にどのようなオブジェクトがあるのかの予測や、画像内のオブジェクトがどこにあるかの予測の両方など、多くのタスクに対して所与の機械学習モデルを訓練できる広範な手法である。タスクを含むトレーニングは、モデルが例の所与のセットに対して所与の機能(タスク)を達成するようにトレーニングを構成することとして理解され得る。一実施形態では、モデルは、任意の形式のマルチタスク学習を使用してデータセットで訓練される。この種の一実施形態では、個々の重みがデータセットのサブセットに割り当てられる。この種の別の実施形態では、モデルは最初に完全なデータセットで訓練され、次にデータセットのサブセットで再び訓練される。
【0123】
一実施形態では、モデルまたはトレーニング手順は、温度が特定の範囲内にあるなど、特定の論理条件を満たす反応をモデルが予測するように修正することができる。一実施形態では、モデルは、制約を満たす反応からなるデータセットのサブセットで(すべての反応についてのトレーニング後に)訓練または微調整することができる。この特性は、自動化された研究室を使用して合成を予測及び実行するコンテキストでの使用など、特定のユースケースで役に立つ。自動化された研究室では、特定の反応条件のみ(特定の条件のみ、または特定の温度範囲のみなど)を使用できる可能性がある。いくつかの実施形態では、これは、所与の論理制約に従わないモデルの出力を除外する、モデルからの出力を生成した後に追加される追加フィルタリングステップを追加することによって達成され得る。
【0124】
データセット内の反応との化学的類似性が低い反応に対して高精度を達成することは、一部のユースケースでは重要な場合がある。特に、薬物様化合物は化学的に複雑であることが多い(例えば、原子の数が多い)ため、購入するには高値である。したがって、データ収集中に優先順位が付けられる頻度が少なくなるおそれがある(セクション2.2を参照)。いくつかの実施形態では、モデルまたはトレーニング手順は、以下の方法でそのような反応の精度を高めることを目的として構成することができる。いくつかの実施形態では、(前の段落で記載したように)アンサンブルを用いてモデルを作成することができる。いくつかの実施形態では、トレーニング手順は、対照学習、自己教師あり学習、または半教師あり学習のタスク(これらは、マルチタスク学習のフレームワーク内で使用できる周知の広範なタスクのカテゴリーである。前段落を参照)を含み得る。例えば、除去またはマスキングした入力部分を予測する(例えば、基質が除去またはマスクキングされた反応に基づいて基質を予測する)。いくつかの実施形態では、トレーニングは、分子の溶解度または沸点などの分子の1つまたは複数の特性(データセットのある反応の一部であるか、またはCheMBLデータベースなどの異なるデータソースから得られるものであり得る)を予測することを含み得る。いくつかの実施形態では、トレーニング手順は、反応結果を因果的に予測する(ニューラルネットワークなどの内部表現を有するモデルにおいて)表現を学習することを目的としたタスクまたは方法を含み得る。この種のいくつかの実施形態では、因果探索の任意の方法を適用して、より因果的な方法で反応結果を予測する表現の部分を発見することができる。
【0125】
一実施形態では、モデルは、反応結果が研究室で測定されたか、量子計算パイプラインを使用してシミュレートされたかなど、所与の化学反応に関するメタ情報を使用するトレーニング方法を使用して訓練することができる。
【0126】
いくつかの実施形態では、モデル入力は、異なる分子特性(例えば、各原子の電気陰性度)の値などの化学反応に関連する補助情報からさらに構成されてもよい。いくつかの実施形態では、これらの分子特性は、ORCAまたはシュレーディンガーなどの量子シミュレーションソフトウェアを使用して計算することができる。いくつかの実施形態では、これらの分子特性は、分子特性を含むデータセットで訓練された機械学習モデルを使用して予測することができる。
【0127】
セクション2.5.2:トランスフォーマーアーキテクチャまたはグラフニューラルネットワークアーキテクチャに基づく実施形態
【0128】
一実施形態では、モデルは、入力と出力の両方がトークン列を含み、各トークンが割り当てられた化学的意味を有するトランスフォーマーアーキテクチャなどのシーケンストゥシーケンスディープニューラルネットワークに基づいている。この種の一実施形態では、反応の基質及び生成物は文字列の形式でエンコードされ(例えば、SMILES記法に従う)、出力は予測収率及び/または反応条件を表すトークンの形式でエンコードされる。この種の別の実施形態では、入力は、化学反応の1つまたは複数の情報が欠落している反応(例えば、欠落している生成物)からなり、出力は、収率及び欠落情報の予測(例えば、生成物はどうあるべきかなど)からなる。いくつかの実施形態では、モデルは、反応収率が特定の(ユーザ指定の)閾値を超えるかどうかを示すトークンを出力として含み得る。モデルの入力及び出力表現の視覚化(アミドカップリング反応の場合)を図12に示す。
【0129】
一実施形態では、モデルは、頂点(原子)及びエッジ(化学結合)を有するグラフを入力として受け取るニューラルネットワークの種類であり、各頂点及びエッジは追加の特性(例えば、原子の種類)を持つ、グラフニューラルネットワークに基づいている。出力は前の段落に記載したものと同じであってよい。いくつかの実施形態では、反応条件は、入力グラフの追加の頂点のプロパティとしてエンコードされる。いくつかの実施形態では、各反応条件は入力グラフの追加の頂点として扱われる。
【0130】
図12は、化学反応の結果及び条件を予測するためのモデルである実施形態に対するGUI100の実施形態における入力形式及び出力形式を示す図である。図12において、モデルは、入力116として、基質112、具体的には112a、112b、生成物114、具体的には114a、必要に応じてワンホットエンコーディング124、126、128、130または他の分子のテキスト符号化の形式でエンコードされた反応条件120を受け取る。モデルは、4つのトークン列として条件124、126、128、130(入力として送られなかった場合)とともに、最初のトークンとして予測クラス122(ユーザ定義の収率閾値に対する高収率と低収率)を備えるエンコードされた条件120を出力する(118)。いくつかの実施形態では、トレーニング中に、トレーニング時間の一部である入力116の一部をマスキングまたは削除してもよい。
【0131】
セクション3.ハイスループット研究室
【0132】
いくつかの実施形態では、所望のターゲットセットでのモデルのパフォーマンスを向上させるために特別に設計された研究室で実行される反応を含むデータセットで、モデルを訓練する。
【0133】
一実施形態では、ハイスループット研究室は、反応で形成される生成物(複数可)の量と出発物質の消費レベルを決定するために、反応後混合物の組成の分析に適用されるMALDI-MS、Echo-MS、MISERクロマトグラフィなどのミディアムスループット分析技術及びハイスループット分析技術の使用を含む。
【0134】
一実施形態では、機械学習モデルを使用して、生の分析データから化学反応の収率を予測することができる。特に、機械学習モデルを使用すると、MALDI-MS、Echo-MS、MISERモードのクロマトグラフィなど、ハイスループットだがノイズが大きい分析技術の出力に基づいて反応収率を予測できる。一実施形態では、モデルは、(潜在的により低いスループット技術を使用して)定量化された収率を有する化学反応のデータセットで訓練可能である。
【0135】
この種の別の実施形態では、機械学習モデルを訓練し、任意の分析装置(LCMS機器など)から得られる生の分析データから反応収率(生成物の量)を直接決定するために使用することができる。特に分析対象の既知量の純粋な化合物の分析信号のレベルを知らなくても、または測定しなくても(すなわち、モル吸光係数を知らなくても)定量化が可能になる場合がある。
【0136】
一実施形態では、反応後混合物のLCMS分析から得られるデータを使用して、反応後混合物の選択された成分の量を推定する(そして実行された反応収率に再計算する)ことができる。
【0137】
一実施形態では、自動化ソリューションを使用して、反応混合物を生成し、異なる装置間で反応混合物を移送することができる。この種の一実施形態では、自動液体ハンドラー(例えば、OpentronOT-2)または96チャネルピペット(例えば、Integra Mini)などの研究室のハードウェアを使用して、(例えば、ピペッティングを自動化することによって)反応混合物の生成を自動化することができる。
【0138】
実施形態では、DNAエンコードライブラリ(DEL)は、DNAタグ付き試薬の反応性に関する実験データ(化学反応の結果)を生成するための手段として使用することができ、機械学習モデル(特にモデル)を訓練するのに適している。この種の一実施形態では、共通の官能基を有し、それぞれが異なるDNAタグでタグ付けされた試薬のライブラリが使用される。このようなタグ付きライブラリ成分(A)の混合物は、特定の試薬(複数可)(B)と化学反応を起こすことができるので、Aのいくつかの要素とBのいくつかの要素との間に共有結合が形成される。試薬Bの適切な構築(タグ付けまたは固定化)により、形成されたAB付加物のその後の安価で信頼性の高い分離と同定が可能になる。実施形態では、ポリメラーゼ連鎖反応(PCR)や次世代シーケンシング(NGS)などの広く知られている技術を使用することで、試薬Bは、DNA鎖、タンパク質(ポリペプチド)、ナノ粒子、またはポリマー樹脂ビーズなどの大きな分子に付着できるため、非反応性のライブラリ成分Aをウォッシュアウトし、次いで試薬Bとの反応を受けるライブラリ成分AのDNAタグを識別することが可能になる。
【0139】
データを生成する手段として使用されるDELの別の実施形態では、DELは、DEL内のいくつかの分子に付着した対象のフラグメントの結合標的となる分子にさらされ得る。標的分子はタンパク質または小分子であってもよく、固体担体材料に共有結合してもよい。標的に結合しなかった分子はウォッシュアウトされる。一実施形態では、DELの一部である残りの分子は、ポリメラーゼ連鎖反応(PCR)や次世代シーケンシング(NGS)などの一般に知られている技術を使用して同定され得る。
【0140】
セクション4.データ収集方法の実施形態
【0141】
図13は、化学反応の結果及び条件を予測するためのモデルのデータ収集方法140の実施形態を示すフローチャートである。図13において、プロセスは、ステップ144~ステップ150を含む初期段階142で始まる。ステップ144は、ターゲットセットの選択である。実施形態では、ターゲットセットは、その標的が、認識されている生物学的標的の強力な結合剤もしくは阻害剤として同定された、または臨床試験中もしくは臨床試験後の複数の公開されている薬物様化合物を含む反応からなるように構成され得る。実施形態では、ターゲットセットは、そのような化合物の任意のサブセットに基づくことができる。ステップ146では、ターゲットセットの試薬との類似性及びターゲットセットの他の試薬との化学的類似性に基づいて、大きな単一バッチの試薬が購入されるか、またはアクセスされる。ステップ148では、前のステップで注文した試薬を含むランダムに選択された多数の反応が実行される(潜在的な反応が多すぎるため、購入した試薬を含むすべての反応を実行することは通常は現実的ではない)。一実施形態では、初期段階はステップ150で終了し、ユーザが異なるセットの化合物(上記1.bで述べた試薬の一部ではない薬物様化合物を含むが、これに限定されない)に対する現行モデルのパフォーマンスを検査する。これらの検査に基づいて、1人または複数のユーザは、データ収集方法が初期段階142の、154ではなく、別の反復152を続行すべきかどうかを決定する。そうでない場合、次の段階156に入る。段階156のそれぞれの(例えば、隔週)反復で、ステップ158~ステップ164が繰り返さる。ステップ158では、反応の優先順位付けに使用できる現行モデルの出力数(前のステップで購入した試薬に関する反応である入力を用いて)が計算される(後で本文を参照)。ステップ160では、必要に応じて、ユーザは、GUIで、(前のステップで購入した試薬に関する反応のうち)どの反応を優先すべきかについて質問をされる。ステップ162では、優先順位付けされた反応の最終セットを決定した後、優先順位付けされた反応が研究室で実行され、定量化される(すなわち、反応収率が反応混合物分析に基づいて計算される)。ステップ164では、ステップ162で生成されたデータを少なくとも部分的に含む現行データセットで現行モデルが再トレーニングされ、ユーザはデータ収集を継続するか(166ではなく160)否かを決定するために現行モデルのパフォーマンスを検査する。検査には、GUIを使用して、さまざまな化合物のセットに対するモデルの精度を検査することを含み得る(反応の評価セットについては本文を参照)。そうでない場合(166)、モデルは、様々な実施形態のいずれかに記載されているように引き続き使用され得る(170)。
【0142】
一実施形態では、ステップ146の化合物は、関数g(R)に従って、MolPortなどの化学物質の外部プロバイダーから購入することができ、Rは、以下の特性を有する試薬のセットである:
【0143】
g(R)はg(R)=\sum_{i=1}^Ng(R_i)と分解でき、R_iは購入する単一試薬、Nは所望の試薬数を示す。
【0144】
化合物(R_i)価格が所定の閾値を超えるか、到着までの時間が所定の閾値を超える場合、g(R_i)はマイナス無限値に設定される。それ以外の場合、g(R_i)は、基質の1つと試薬間の類似性がユーザ定義の閾値を超えるように、ターゲットセットからの反応の数に設定される。
【0145】
この種の別の実施形態では、g(R_i)は、試薬R_iに関してどの程度の反応が(例えば、1から10の尺度)ターゲットセットで生じるモデルのパフォーマンスを改善するかについて1人または複数のユーザの回答を示す項をさらに含むことができる。セクション2.4で説明したように、いくつかの実施形態では、ユーザは、質問に答えるときにGUIにアクセスすることができる。
【0146】
この種のいくつかの実施形態では、関数g(R)は、以前に開示された反復最適化アルゴリズムを使用して最適化される(セクション「2.データ収集方法」)。
【0147】
この種のいくつかの実施形態では、データ収集を継続すべきかどうかの決定は、GUIに表示できる、ターゲットセットからの反応結果を予測するモデルのパフォーマンスに基づく(セクション2.4を参照)。
【0148】
上記の実施形態では、反応は、ハイスループット(単位時間当たりの実行及び分析される反応の数)及び低操作コストを達成するために最適化されたハイスループット化学研究室で実行され得る。
【0149】
この種の一実施形態では、反応混合物は標準サイズのマルチウェルプレートの別々のウェルで調製される。
【0150】
この種の一実施形態では、すべての反応物のすべての溶液が調製され、標準サイズのマルチウェルプレートの別々のウェルに保存され、反応混合物を調製するためのストック溶液として機能する。
【0151】
この種の一実施形態では、OpentronsOT-2などのシングルチャネルまたは8チャネルピペットを備えた自動液体ハンドラーを、反応混合物を調製する1つまたは複数の段階で使用することができる。
【0152】
この種の一実施形態では、96チャネルピペット(例えば、Integra Mini-96)または384チャネルピペットを、反応混合物または反応後の分析サンプルを調製する1つまたは複数の段階で使用することができる。
【0153】
この種の一実施形態では、反応混合物を含むマルチウェルプレートは、粘着性のポリマーまたは金属のカバー、あるいはシリコンまたはゴムマットで密閉される。シーリングマットは、シーリングマットを備えたプレートを2つの剛性パネルの間(1つはプレートの下、もう1つはマットの上)に置き、ネジなどでパネルを圧縮することによって、正しい位置に保持できる。プレートのウェル内の反応混合物は、オービタル(サーモ)シェーカーでプレートを振盪することによって、または各ウェルに配置され、外部装置によって生成される磁場を変化させることによって強制的に動かされる磁気撹拌子によって撹拌することができる。プレートのウェル内の反応混合物は、マルチウェルプレートをサーモシェーカーまたは加熱/冷却ブロックに配置することによって加熱または冷却することができる。
【0154】
この種の一実施形態では、既知量の1つまたは複数の化学的に不活性な化合物が、選択されたまたは反応後混合物すべてに添加され、反応後混合物の量化をサポートする内部標準として機能する。一実施形態では、異なる内部標準またはそれらの混合物が、反応後混合物の選択されたサブセットに添加される。
【0155】
この種の一実施形態では、反応後混合物の選択された成分を選択的に吸収できる不活性膜または固定相のいずれかを備えたマルチウェル濾過プレートを、反応後分析サンプルを調製する1つまたは複数の段階で使用することができる。
【0156】
実施形態では、反応後混合物は、単一波長または多波長のUV-Vis検出器、蛍光検出器、蒸発光散乱検出器(ELSD)、荷電化粒子検出器(CAD)、放射線検出器、電気化学検出器、化学発光窒素検出器、または質量分析計を含む1つまたは複数の検出器と組み合わせた高圧液体クロマトグラフィ(HPLC)などの既製の装置を使用して分析及び定量化することができる。
【0157】
この種の一実施形態では、プレカラム誘導体化またはポストカラム誘導体化が、すべての分析サンプルまたは選択された分析サンプルの分析に適用される。プレカラム誘導体化またはポストカラム誘導体化の様々な方法が、分析サンプルの多様なサブセットに適用できる。
【0158】
この種の一実施形態では、反応後の分析サンプルは、MALDI-MS分析法またはEcho-MS分析法によって分析される。
【0159】
この種の一実施形態では、反応後混合物のアリコートを液体クロマトグラフィに供し、満足のいく純度で分離した生成物を含む画分を手動または自動フラクションコレクターを使用して収集する。集めた画分における生成物の量は、溶離液(複数可)を蒸発させた後の固体残留物の重さを量って測定される。この種の一実施形態では、カラムから出てくる溶離液の流れは、フラクションコレクターとMSまたはELSDなどのサンプル破壊検出器との間で既知の分割比で分割される。この種の一実施形態では、水晶振動子マイクロバランスを使用して、固体残留物の質量を査定する。
【0160】
この種の一実施形態では、反応後の分析サンプルは核磁気共鳴(NMR)分光法によって分析される。この種の一実施形態では、反応は重水素化溶媒またはその混合物で行われ、生成物は未処理の反応混合物または処理後の反応混合物でNMRによって定量化される。
【0161】
この種の一実施形態では、化学反応の選択されたバッチの実行(分析サンプルの調製を含む)は、専用のソフトウェアによってサポートされる。ソフトウェアは、実行予定の化学反応のバッチなどを入力として使用し、以下に挙げられている行為の任意の組み合わせを実行できる:
a)ウェル(容器)に試薬を分注するプロセスを最適化するために、反応バッチをサブセット(各サブセットは1つのプレート上のウェル(または1つのラック内の容器群)で実行)に分割する。
b)ウェル(容器)に試薬を分注するプロセスを最適化するために、プレート上のウェル(またはラック内の容器)の特定の位置を各反応に割り当てる。
c)人間の検査室オペレータ(複数可)に、反応バッチの実行に必要なステップの詳細なリストを提供する。
d)人間(複数可)及び/または研究室のハードウェアによって実行される連続するステップをインタラクティブな方法で監視することにより、実験プロトコルの実行を監視する。
e)1つまたは複数の自動化された実験装置用のコマンドセットを作成する。
f)特に、温度、圧力、湿度、酸素(またはその他の関連するガス)濃度(複数可)、撹拌時間と強度、各手順の開始時間と終了時間の監視及び記録に基づいて、反応を実行するのに使用される手順に関する詳細なレポートを作成する。
g)分析装置(複数可)及び/または生の分析データの処理に使用されるソフトウェアによって使用される出力を生成する。
【0162】
この種の一実施形態では、データ収集を継続するかどうかの決定に関するステップ164の間、現行モデルによって行われる予測の精度が、既知の結果を伴う以下の1つまたは複数の反応のセットの組み合わせに基づいて評価される:(i)前のステップで購入した試薬に関する反応のランダムなサブセット、(ii)データ収集の開始時に事前に決定されたより小さいセットからの試薬に関する反応のランダムなサブセット、(iii)薬物様化合物を形成する多数の反応。このような評価の結果はGUIで表示できる。さらに、評価プロセスは、これまでに見たことのない反応を入力として送る設定でモデルを有意義にテストすることを保証するため、データ収集中、これら3つのセットからのいかなる反応もモデルを訓練するのに使用できない。上記の実施形態では、ユーザはGUIで計算された精度が表示され、各段階の終了時にデータ収集プロセスを続行すべきか否かを決定するよう求められる。
【0163】
この種の実施形態では、現行のデータセットには、データ収集の段階の間、これまでに実行されたいくつかの反応が含まれる。この種の別の実施形態では、現行のデータセットを、特許公報及び公開特許公報から抽出された反応と結合することができる。
【0164】
この種の実施形態では、現行モデルは、(本開示の前の部分で開示したように)トランスフォーマーアーキテクチャに基づくことができる。
【0165】
この種の実施形態では、反応推奨は、優先順位付け関数f(S)の以下の3つのバリアントに従って、データ収集中に優先順位付けされ得る:(i)f(S)は、購入した試薬を使用して実行可能な反応のランダム選択をもたらす乱数である、(ii)f(S)は、セットSのモデルの不確実性の測定値とセットSの化学的類似性の測定値の加重合計であるため、化学的に多様で最も不確実な反応が選択される、(iii)(ii)に記載のf(S)の構築に加えて、関数には、反応セットSの生成物とターゲットセットの生成物との化学的類似性を測定する追加因子が含まれる。実施形態では、反応推奨は、GUIを使用して1人または複数のユーザによって検査され、セットSをより少ない反応に絞り込むことができる。
【0166】
セクション5.ユースケースの例
【0167】
一部のユースケースでは、GUIまたはUIにより、ユーザがモデルにアクセスする能力が大幅に向上し、それによって所望の目標を達成できる。しかし、本開示は、いくつかのスクリーンショットによって示されるような特定のGUIに言及するが、他のユーザインターフェース(UI)は、GUIを参照して説明が可能であり、ユーザとモデル、または複数のモデル間のインターフェースに対して開示した実施形態で使用され得ることを理解されたい。さらに、ユーザはコンピュータシステムである場合もあるため、GUIまたは他のUIの観点から説明される行為は、APIなどのコンピュータシステムのインターフェースに起因すると理解されたい。
【0168】
セクション5.1ユースケースの特徴
【0169】
いくつかの実施形態では、ユースケースのGUIまたはUIは、自動化された研究室または半自動化された研究室で所与の化学反応を実行するためのオプションを含んでもよい。この種の一実施形態では、このオプションにより、ユーザはモデル予測を確認またはテストできるようになる。実施形態では、ユースケースは、研究室のハードウェアと通信するためのアプリケーションプログラミングインターフェース(API)を要する場合がある。この種のいくつかの実施形態では、実行された実験の結果がUIでユーザに示される。この種のいくつかの実施形態では、実行された実験の結果は、例えばステップ160でデータセットに追加され得る。
【0170】
いくつかの実施形態では、反応の反応物及び生成物は、モデルによって予測される反応条件とともに、APIを介して、入力を使用して、合成のユーザ可読プロトコル及び/または自動化された研究室のハードウェア実行可能プロトコルを生成する別のソフトウェアに送られる。いくつかの実施形態では、そのようなプロトコルは、1つまたは複数の一連のステップを含み、各ステップは研究室装置を使用して実行することができる。いくつかの実施形態では、そのようなステップを実行するための命令は、APIを介して関連する研究室の装置に提供される。プロトコルによって指示できる研究室のハードウェアの例として、自動液体ディスペンサ、自動固体ディスペンサ、マルチチャネルピペット、試薬ディスペンサ、プレート、容器、または容器のラックを移動させるグリッパーを備えたロボットアーム、プレートシーラー、容器のキャッピング/デキャッピング装置、ガス/真空バルブ、マグネチックスターラー、オービタルシェーカー、冷却/加熱装置、遠心分離機、蒸発器、濾過装置、バッファー交換装置、磁気モジュール(磁気ビーズベースの化学用)、蠕動ポンプ、シリンジポンプ、真空ポンプ、ガス発生器、ガスコンプレッサ、コンベアベルト、レールベースのプレート(またはベッサー、またはラック)ムーバー、車のようなプレート(またはベッサー、またはラック)ムーバー(部分的に自律型の機器、例えばFormulatrixのROVERを含む)が挙げられる。ユーザは、例えば、生成されたプロトコルから特定の反応を除外することによって、生成されたプロトコル(複数可)を監視し、影響を与えることができる。
【0171】
いくつかの実施形態では、最も信頼性がある予測のみを選択するという最終目標に向けて、ユースケースにおけるモデル予測は、そのような予測の信頼性がある閾値を超える場合にのみ表示される(モデル出力による。モデルについてはセクション2.5を参照)。本発明は、システム全体及びその潜在用途のコンテキストに特に有用である。ユーザ目標は、モデルを化学空間のサブセットにのみ絞り込むことで既に満たされている場合があるが、信頼性がある閾値を超える反応だけのこのサブスペースに絞り込むことで、モデルの信頼性をさらに大幅に高めることができる。
【0172】
いくつかの実施形態では、ユースケースのグラフィカルインターフェースは、データセットからの反応を表示し、場合によってはそれに対して複雑なクエリを実行して、ユーザに関連する反応を見つけることを可能にするGUIを含むことができる。この種の一実施形態では、ユーザはGUIを介してインタラクトすることができ、データセットからどのような反応を取得すべきかを反映するクエリを構築することができる。いくつかの実施形態では、クエリは、所与の化学構造がいずれかの基質に存在するかなどの論理的制約の入れ子構造として(潜在的に)定義され得る。図14は、そのような実施可能な実施形態の1つを示す。
【0173】
いくつかの実施形態では、モデル予測は、選択された科学的根拠とともに示すことができる(科学的根拠については以下の本文を参照)。一実施形態では、モデル予測は、データセットからの反応(参照反応と呼ぶ)とともに示され、所与の例が所与のモデル予測に関連する理由を説明する短いテキストの説明とともに示すことができる。この実施形態をGUIに実装する方法の一例を図15に示す。
【0174】
いくつかの実施形態では、モデルの解釈可能性を高めるために設計された追加出力とともに、モデルの予測が示される。このような説明の形式の詳細については、セクション2.5を参照。いくつかの例には、科学的根拠やデータセットからの関連参照反応のリストの表示が挙げられる。この種のいくつかの実施形態では、提供された説明が自分たちにとってどの程度有用であるか、または説得力があるかについて、ユーザに意見を求める場合がある。
【0175】
実施形態では、任意のグラフィカルインターフェースで、所与の化学反応に対する機械学習モデルの出力を閲覧しているユーザに、ある化学者が所与の化学反応がなぜあり得るのか、それともありえないのかを説明するような、ユーザが読み取り可能な説明(これを科学的根拠と呼ぶ)を示すことができる。
【0176】
この種の一実施形態では、データセット(例えば、所与のモデルを訓練するために使用されるトレーニングデータセット)からの1つまたは複数の例が、所与の基準(手動または自動で定義される)を満たしている場合、そのような基準に関するテキストの説明とともにユーザに表示される。化学反応の結果を予測する機械学習モデルのコンテキストにおいて、そのような基準の例としては、(a)定義された閾値よりも高い類似性を持つ化学反応、(b)立体障害や電子密度分布など、ユーザが解釈できる同じ化学的特徴を持つ化学反応、(c)同様に推定または測定されたエネルギー障壁の大きさ(同様の活性化エネルギー)を持つ化学反応が挙げられる。
【0177】
この種の一実施形態では、科学的根拠は、化合物の任意のセット(例えば、ターゲットセット)でのモデルのパフォーマンスの概要に基づくことができる。たとえば、専門家にその種類についての説明を示すことができる:「このモデルは、図に示されている種類の複素環の高収率反応を予測する精度が80%に達する。」
いくつかの実施形態では、GUIは、前の段落に記載した方法で(前の段落で定義した)科学的根拠の表示を含む。
【0178】
セクション5.2.選択した反応の反応結果と最適条件の予測
【0179】
一実施形態では、モデルを使用して、化学反応の高収率を達成する、またはグラフィカルユーザインターフェースまたはユーザインターフェースにおいてユーザによって挿入された別のユーザ指定の制約を満たす、溶媒、温度、触媒などの条件を予測することができる。図16は、このユースケースのGUIの1つのインスタンス化を示す。
【0180】
一実施形態では、条件に関する追加情報を持つ化学反応をモデルに入力することによって、モデルを使用して、ユーザ指定の化学反応における生成物の収率を予測することができる(セクション2.5を参照)。
【0181】
一実施形態では、収率情報を含む完全指定の化学反応をモデルに入力することによって、モデルを使用して、所与の条件下で実行された反応が選択された閾値よりも高いユーザ提供生成物の収率となる確率を推定することができる(セクション2.5を参照)。
【0182】
セクション5.3.モデルを使用し、自律型化学実験室のオプションの制御を用いた合成計画
【0183】
合成経路の設計及び自律型化学実験室の制御に関して、いくつかの実施形態では、モデルを使用して、ユーザ指定の標的分子で終わる合成経路を設計することができる。この種の一実施形態では、合成計画アルゴリズム(Retro*またはAiZynthFinderなど)は、モデル出力が最終的に設計された合成計画に影響を与えるように、多くの方法で修正することができる(次の段落に例を記載)。
【0184】
この種の一実施形態では、合成計画アルゴリズムは、合成計画に含まれる反応の予測収率及び関連する信頼度が、他の合成計画に対する合成計画の優先順位付けに影響を与えるように修正され得る。この種の一実施形態では、Retro*またはAiZynthFinder合成計画アルゴリズムが使用される。この種の一実施形態では、(動作中に)アルゴリズムによって反応に割り当てられるスコアには、反応の予測収率及び予測に関する信頼度を含む1つまたは複数の要因が含まれる(セクション2.5も参照)。合成計画の出力は、GUIの形式でユーザに表示することも、APIを介してプログラムで読み取ることもできる。
【0185】
このような一実施形態では、合成計画を使用して、自動化された研究室または半自動化された研究室の操作を制御し、高収率条件とともに化学反応の正確な順序を示唆することができる。
【0186】
一実施形態では、GUIにより、エンドユーザは、自動化された研究室または半自動化された研究室で実行する所与の化学反応を送信することができる。
【0187】
一実施形態では、別個の機械学習モデルを使用して、合成計画アルゴリズムを高速化するために、モデルに基づいて合成計画システムの結果を予測することができる。一実施形態では、トランスフォーマーアーキテクチャに基づくニューラルネットワークは、合成計画ソフトウェアによって予測される合成ツリーの最終的な深さを予測するため、または合成計画ソフトウェアの出力から抽出される他の量を予測するために使用される。
【0188】
セクション5.4
【0189】
いくつかの実施形態では、モデルを使用して、所与の分子のどの後期官能基化がどのような反応条件下で成功する可能性が高いかを予測することができ、出力はGUIに表示するか、非グラフィカルインターフェースを使用してアクセスすることができる。後期官能基化は、創薬プロセスにおける段階であり、有力な薬剤候補がその構造を(通常)少し変更することで最適化される。この種の実施形態では、モデルへの入力は基質の1つであり、出力には追加的に(収率及び/または条件に加えて)予測された欠落基質(複数可)及び予測された生成物(複数可)が含まれる。実施形態では、モデルは、モデルへの入力の一部として制約としてのこれらの要件を指定することによって、確実性の推定及び条件情報とともに、可能性の高い官能基化化学反応を出力するように適合される(セクション2.5を参照)。一実施形態では、本開示内のスクリーンショットに示されるように、モデル予測をGUIでユーザに示すことができる。一実施形態では、モデルは、マスキングした反応の部分を予測するように訓練され(例えば、トレーニング中、入力はマスクされた基質との反応であり、出力はマスクされた基質の正体である)、これにより、後期官能基化のためにモデルを使用することが可能になる。
【0190】
6.化合物のライブラリ(物理的または仮想的)の作成に関するアプリケーション
【0191】
一実施形態では、化合物の(大規模な)集合体を合成するための合成計画は、セクション5.3に記載の方法を使用して計画に含まれる反応の反応条件を予測するモデルを用いて設計される。一実施形態では、合成計画は以下のステップに従って設計される:
a.ユーザは、化学反応の実行を伴うステップの一部またはすべての反応条件など、一部の情報を除外した集合体を合成する方法の作り方を入力する。
b.モデルはユーザによって使用され、例えば、反応を室温で実行する必要がある、または所望の生成物の収率が特定の閾値を超えていなければならないといったユーザ指定の制約(セクション2.5「モデルに制約を指定できる」に記載のとおり)を追加的に満たす、ステップごとの条件のセットなど、情報の欠けている部分を予測する。
【0192】
DNAエンコードライブラリ(DEL)は、膨大な(数百万にも及ぶ)化合物を1つの溶液に混合したもので、各化合物が(通常はDNA鎖)タグ付けされており、DNAシーケンスなどの安価な分析方法を使用して識別可能である。このコンテキストでモデルを適用することで想定される利点は、より多様な(例えば、より広範囲の分子に対する新しい化学構造または化学反応を含む)またはより高品質な(混合物中の予期せぬ/未確認の化合物の割合が低い)DELを作成することである。
【0193】
DNAエンコードライブラリは、通常、化学反応の実行を含む一連のステップを実行することで作成される。各ステップでは、数百から数百万のタグ付き化合物の混合物が、選択された条件下で単一試薬と反応する。DELを作成する際の重要な課題は、化学反応は混合物中のすべての化合物に対して非常に高い収率で所望の生成物を得る必要があり、通常はDNAタグと互換性のある条件下、例えば反応を実行する温度に室温を使用するなどの比較的穏やかな条件下で実行する必要があり、それらの条件では混合物中の化合物に結合しているDNA鎖を破壊しない。
【0194】
上記の種類の一実施形態では、この手順は、合成計画を設計し、場合によってはDELライブラリの合成を実行するために使用される。この種の実施形態では、ユーザは、推奨条件が、DNAタグの完全性を維持するために十分に低い温度を使用するなど、DELライブラリの合成に関連する特定の制約を満たすような制約を提供する可能性がある。
【0195】
この種のどの実施形態でも、合成計画はどの研究室でも実行でき、化合物の集合体は物理的に入手できる。この種のいくつかの実施形態では、人間のユーザは、例えば、任意のユースケースアプリケーションの1つまたは複数の機能を有するユーザインターフェースを使用してモデル予測を調べることによって、計画の任意の部分を変更することができる。
【0196】
実施形態では、化合物の大規模な集合体を合成するための合成計画は、以下のステップを使用してより自動的に作成することができる:
(a)ユーザは「開始」化合物のリストを指定する。
(b)ユーザは、最終的な合成計画の各反応が満たすべき制約のリストを指定する。
(c)ユーザは最大数の合成ステップを指定する。
(d)すべての化合物は、生成物としてこの化合物で終わるモデルによって生成される一連の反応が存在するように挙げられる。
【0197】
この種の別の実施形態では、予測された反応は、任意のユースケースアプリケーションの1つまたは複数の機能を有するGUIに示される。
【0198】
一実施形態では、モデルに従って可能性が高いと予測される(高い信頼性で十分に高い収率を達成すると予測される)市販の化合物を列挙して化学反応を適用することによって、多数の仮想化学構造を生成し、潜在的に合成することができる。この種の一実施形態では、モデルの不確実性関連出力を使用してモデル予測がフィルタリングされ、最も信頼性の高い予測のみが含まれる。
【0199】
一実施形態では、ユーザは、どの化合物が化合物の集合体の一部であるかを探索するために、GUIまたはプログラムAPIにアクセス可能である。
【0200】
図9は、データ収集プロセス中にユーザの意思決定(質問に答える。詳細についてはセクション2.4を参照)を強化するために使用できるGUI100の一部のスクリーンショットである。図9のスクリーンショットは、次のステップ「実行可能セット」で実行できるターゲット反応のロード済みのデータセット101、現行MLモデル102、反応のロード済みのデータセット103を示すGUI100の基本図である:モデル予測の確実性を示すために色分けされ得るターゲットセットからのすべての反応、例えば104a~104gのグラフィカルなインタラクティブビュー104、実行可能セット(データ収集に使用される研究室で実行可能な反応を含む化学反応のセット)からのすべての反応のグラフィカルなインタラクティブビュー105、例えば、104a及び104dは赤色r「低」確実性でコード化され、104bは緑色t「高」確実性でコード化され、104gはオレンジ色o「中」確実性でコード化される、カラーコーディングの説明110。「アップロード」ボタンを使用すると、ターゲット反応データセット、実行可能反応データセット、またはモデルのいずれかをアップロードでき、ユーザとシステムとのインタラクション後、「ダウンロード」ボタンがアクティブになる。
【0201】
図9のスクリーンショットから、図10のスクリーンショットで示されるように、ユーザは、ターゲットセット104から1つまたは複数の反応104a~104gを選択することができる。反応が選択されると、選択された反応に対応するグラフィック記号が強調表示される(104a、104d、104e、104gの周りの円)、選択された反応はリスト108として表示される(反応108aは104aに対応し、反応108bは104dに対応し、反応108cは104eに対応し、反応108dは104gに対応する)、MLモデルは、実行可能セット105から反応(複数可)105a~105jを識別する。これにより、「実行可能セット」(データ収集に使用される研究室で実行可能な反応を含む化学反応のセット)から示された反応の結果が得られるというシナリオで、選択された反応104a、104d、104e、104gの予測の確実性が向上する可能性があることが知られている。実行可能セットからの所与の反応によってサポートされる、ターゲットセット104の選択されたサブセットの反応の数は、数字105a~105jによって示され、「実行可能セット」からのこの反応の結果が分かれば、MLモデルの予測が改善される可能性があるターゲットセットから選択された反応からの反応の数に対応する。実行可能セット105からの反応109のリストは、割り当てられた番号とともに反応109a~109dとして表される(円105a~105jは反応109a~109dの1つに対応または1つも対応しない)。このようにして取得された情報は、ダウンロード111bを介して適切な形式のファイルにエクスポートできる。
【0202】
図10のスクリーンショットから、図11のスクリーンショットに示されているように、ユーザは、実行可能セット105から1つまたは複数の反応105j~105mを選択することができ、選択された反応は、図示のように強調表示され、109を反応109a~109dとして挙げた。選択された反応104a、104d、104e、及び104gによってサポートされ得るターゲットセット104からの反応104h~104kが強調表示され、108に挙げられる(反応108aは104hに対応し、反応108bは104iに対応し、反応108cは104jに対応し、反応108dは104kに対応する)。ターゲットセット104の強調表示された反応の予測に対するモデルの現在の確実性は、カラーコード110によって表示される。このようにして取得された情報は、ダウンロード111bを用いて適切な形式のファイルにエクスポートできる。
【0203】
図14は、化学反応の結果及び条件の予測を含む実施形態、データ収集における人間の意思決定を強化するために使用されるGUI、及び他の実施形態においてユーザが使用できる高度なクエリビルダのスクリーンショットである。高度なクエリビルダは、「親」フィルタ202、204の作成を可能にし、それぞれが、親フィルタをその「子」と結合するための論理演算子を指定する。子フィルタ204、206c、206dは親フィルタ202の子である。子フィルタ206a、206bはフィルタ204の子である。クエリビルダは、ボタン208a、208bを使用してクエリビルダ内に新しい子フィルタを作成することを可能にする。フィルタは同時に親にも子にもなれる。フィルタ204はフィルタ202の子であるが、フィルタ206a、206bの親である。「ルート」フィルタ202を除くすべてのフィルタ及びすべてのフィルタ要素は、ドラッグアンドドロップ機能201を介して自由に再配置することができる。各フィルタは、事前定義されたセット206a~206cまたはカスタムSMARTS206dから選択される1つまたは複数の官能基として指定することができる。フィルタは以下から構成される:I.官能基名またはカスタムSMARTS212、II.該当する場合、同様の化学的性質のサブセットに配置された官能基の別個のグラフィック及び/またはテキストリストを開くボタン214、III.所与のフィルタが反応に適用されるロジック(内/外)216及び位置218、220を指定する3つの選択フィールド、IV.削除ボタン222。
【0204】
図15は、化学反応の結果及び条件を予測するためのモデルの実施形態に対するGUI100の実施形態、データ収集における人間の意思決定を強化するために使用されるGUI、及び他の実施形態においてユーザが使用することができる参照反応の描写のスクリーンショット300である。図15は、単一予測116aに対する参照反応302a、302bを示す。各参照反応302a、302bは、条件304a、304b、ソース特許情報を切り替えるボタン306、または反応が研究室内で実行された場合にはマーク308、及びこの特定の予測に選ばれた理由を説明する手がかり310a、310bのリストを伴う反応グラフを表示する。参照反応のフィルタリングは、手がかり312による方法とカスタムフィルタ314による方法の2つで可能であり、フィルタリングされた結果はその2つの交差部分となる。
【0205】
図16は、化学反応の結果及び条件を予測するためのモデルの実施形態に対するGUI100の実施形態、データ収集における人間の意思決定を強化するために使用されるGUI、及び他の実施形態においてユーザが使用することができるリアクションエディタのスクリーンショット400である。図16では、リアクションエディタは空の状態にある。エディタにより、ユーザは、基質112、具体的には112e、112f、生成物114、具体的には114c、及び反応条件402からなるリアクショングラフを描くことができる。エディタボタン120aにより、原子及び構造全体を追加することができる。ポップアップ404は、事前定義されたテンプレートからリアクショングラフを開始するためのボタン406a、406bを備える。反応の妥当性(ここでの妥当性とは、モデルによって予測されるものではなく、論理的妥当性を指す。例えば、物理的に不可能である炭素が4つを超える原子に結合していないなど)は、編集中にライブでチェックされ、ステータス120aがユーザに表示される。結果ビュー(図15)への予測条件ボタン408は、収率などのモデルの他の出力とともに、指定された反応についての予測条件のセットを示す。予測条件ボタン408は、有効な反応が指定されるまで無効になる。
【0206】
図17は、化学反応の結果及び条件を予測する方法1700の実施形態を示すフローチャートである。方法1700では、ステップ1702において、化学反応のターゲットセットが定義される。ステップ1704において、化学反応の第1のセットは、ターゲットセットに関連する測定値に部分的に基づいて選択される。ステップ1706では、化学反応の第1のセットが実行される。ステップ1708では、第1のセットから実行された化学反応ごとに結果が決定される。ステップ1710では、少なくとも1つの決定された結果を含むトレーニングデータセットが組み立てられる。ステップ1712では、コンピュータシステム、機械学習、及びトレーニングデータセットを使用して、モデルが構築及び訓練され、化学反応の特性の予測や、部分指定の化学反応またはその両方を完了するための試薬または生成物の提案を行う。さらに、方法1700は、ステップ1714から1718を含むことができる。ステップ1714では、モデルに入力が提供され、その入力には、1つまたは複数の生成物、基質、または条件が含まれる。ステップ1716では、入力及びモデルを実行するコンピュータシステムを使用して、次のうちの1つまたは複数が生成される:化学反応の予測結果、予測された最適な一連の反応条件、または部分的な化学反応を完了する提案される試薬または生成物。ステップ1718では、生成された予測または提案がユーザに提供される。
【0207】
一般に、化学反応の特性には、反応物質、生成物、反応条件、収率など、反応のあらゆる特性または結果が含まれることが理解できる。
【0208】
一般に、どの実施形態でも、それぞれが異なる機能に対応し、異なるユーザによって使用される可能性があり、相互に通信しない可能性がある、1つまたは複数の個別のGUIが実装される可能性がある。特に、反応条件の推奨または自動化された研究室の操作のための使用を伴う実施形態では、一部のユーザによるこれらの用途に使用されるGUIは、ユーザがデータ収集方法を操作するために使用するGUIとは別のものであってもよい。
【0209】
図18は、例えば前の図を参照して説明したとおり、本開示の方法の実施形態を実施するためのシステムの一実施形態を示す例示的なブロック図である。図18において、コンピュータネットワーク1800は、複数のコンピューティングデバイス1810a~1810bと、複数の通信リンク1830を介して通信ネットワーク1860に接続された1つまたは複数のサーバシステム1820とを含む。通信ネットワーク1860は、分散型ネットワーク1800の様々なコンポーネントが相互に通信し、情報を交換できるようにする機構を備える。
【0210】
通信ネットワーク1860自体は、1つまたは複数の相互接続されたコンピュータシステム及び通信リンクから構成される。通信リンク1830は、配線リンク、光リンク、衛星または他の無線通信リンク、波動伝播リンク、または情報通信のための他の任意の機構を含み得る。図18に示す様々なシステム間の通信を容易にするために、様々な通信プロトコルが使用され得る。これらの通信プロトコルには、TCP/IP、UDP、HTTPプロトコル、ワイヤレスアプリケーションプロトコル(WAP)、BLUETOOTH、Zigbee、802.11、802.15、6LoWPAN、LiFi、Google Weave、NFC、GSM、CDMA、その他のモバイルデータ通信プロトコル、ワイヤレステレフォニープロトコル、インターネットテレフォニー、IPテレフォニー、デジタル音声、ボイスオーバーブロードバンド(VoBB)、ブロードバンドテレフォニー、ボイスオーバーIP(VoIP)、ベンダー固有のプロトコル、カスタマイズされたプロトコルなどを含み得る。一実施形態では、通信ネットワーク1860はインターネットであるが、他の実施形態では、通信ネットワーク1860は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、無線ネットワーク、セルラーネットワーク、パーソナルエリアネットワーク、イントラネット、プライベートネットワーク、近距離無線通信(NFC)ネットワーク、公衆ネットワーク、交換ネットワーク、ピアツーピアネットワーク、及びこれらの組み合わせなどを含む任意の適切な通信ネットワークであってよい。
【0211】
実施形態では、サーバ1820はコンピューティングデバイスのユーザの近くに配置されておらず、ネットワークを介して通信される。別の実施形態では、サーバ1820は、ユーザが身に着けることができる、または近くに置いておくことができるデバイスである。実施形態では、サーバ1820は、セルネットワークまたはWi-Fiなどの長距離通信ネットワークに電力を供給するための大きなバッテリを有する。サーバ1820は、有線リンクまたはBLUETOOTHなどの低電力短距離無線通信を介してシステムの他のコンポーネントと通信する。実施形態では、システムの他のコンポーネントの1つ、例えばPC1810bがサーバの役割を果たす。
【0212】
図18の分散コンピュータネットワーク1800は、複数の実施形態を組み込んだある実施形態を単に例示するものであり、特許請求の範囲に記載される本発明の範囲を限定するものではない。当業者であれば、他の変形、修正、及び代替を認識するであろう。例えば、2つ以上のサーバシステム1820が通信ネットワーク1860に接続されてもよい。別の例として、多数のコンピューティングデバイス1810a~1810bは、アクセスプロバイダ(図示せず)または何らかの他のサーバシステムを介して通信ネットワーク1860に接続されてよい。
【0213】
コンピューティングデバイス1810a~1810bは、通常、情報を提供するサーバシステムに情報を要求する。サーバシステムは、定義上は、通常、これらのコンピューティングデバイスよりも多くのコンピューティング容量とストレージ容量を備えおり、多くの場合、クライアントーサーバ操作でクライアントの役割を果たすポータブルデバイス、モバイル通信デバイス、またはその他のコンピューティングデバイスなどである。ただし、特定のコンピューティングデバイスは、そのコンピューティングデバイスが情報を要求しているか提供しているかに応じて、クライアントとサーバの両方として機能することができる。実施形態の態様は、クライアントーサーバ環境またはクラウドークラウドコンピューティング環境を使用して具現化することができる。
【0214】
サーバ1820は、コンピューティングデバイス1810a~1810bから情報要求を受信し、その要求を満たすために必要な処理を実行し、要求に対応する結果を要求元のコンピューティングデバイスに転送する役割を担う。要求を満たすために必要な処理は、サーバシステム1820によって実行されてもよいし、通信ネットワーク1860または他の通信ネットワークに接続された他のサーバに委ねられてもよい。サーバ1820は、コンピューティングデバイス1810の近くに配置されてもよいし、コンピューティングデバイス1810から遠くに配置されてもよい。サーバ1820は、モノのインターネットのシナリオにおいてモノのローカルのエンクレーブを制御するハブであってもよい。
【0215】
コンピューティングデバイス1810a~1810bにより、ユーザは、サーバシステム1820によって格納された情報またはアプリケーションにアクセスし、クエリを行うことができる。コンピューティングデバイスの例としては、Apple iPhone(登録商標)、Apple iPad(登録商標)、Palm Pre(商標)、またはApple iOS(商標)、Android(商標)OS、Google Chrome OS、Symbian OS(登録商標)、Windows 10、Windows Mobile(登録商標)OS、Palm OS(登録商標)またはPalm Web OS(商標)を実行する任意のコンピューティングデバイスなどのポータブル電子デバイス(モバイル通信デバイスなど)、RIOT OS、Windows 10 for IoT、WindRiver VxWorks、Google Brillo、ARM Mbed OS、組み込みApple OS及びOS X、Nucleus RTOS、Green Hills IntegrityまたはContikiなどのモノのインターネット(IoT)デバイス、自動車またはその他の車両、またはリアルタイムオペレーティングシステム(RTOS)に使用される様々なオペレーティングシステムのいずれか、またはMicroware OS-9、VxWorks、QNX Neutrino、FreeRTOS、Micrium μC/OS-II、Micrium μC/OS-III、Windows CE、TI-RTOS、RTEMSなどの様々なプログラマブルロジックコントローラ(PLC)またはプログラマブルオートメーションコントローラ(PAC)オペレーティングシステムが挙げられる。他のオペレーティングシステムが使用されてもよい。特定の実施形態では、コンピューティングデバイス上で実行される「ウェブブラウザ」アプリケーションにより、ユーザは、サーバシステム1820によって格納された情報及び/またはアプリケーションを選択、アクセス、取得、またはクエリすることができる。ウェブブラウザの例としては、Googleが提供するAndroidブラウザ、Appleが提供するSafari(登録商標)ブラウザ、Opera Softwareが提供するOperaウェブブラウザ、Research In Motionが提供するBlackBerry(登録商標)ブラウザ、Microsoft Corporationが提供するInternet Explorer(登録商標)及びInternet Explorer Mobileブラウザ、Mozilla(登録商標)が提供するFirefox(登録商標)及びFirefox for Mobileブラウザなどが挙げられる。
【0216】
図19は、一実施形態のコンピューティングデバイス1900を示す例示的なブロック図である。コンピューティングデバイス1900は、図18のコンピューティングデバイス1810a、1810b、1820のいずれであってもよい。コンピューティングデバイス1900は、ディスプレイ、スクリーン、またはモニタ1905、ハウジング1910、及び入力デバイス1915を含み得る。ハウジング1910は、プロセッサ1920、メモリ1925、バッテリ1930、スピーカ、トランシーバ、アンテナ1935、マイク、ポート、ジャック、コネクタ、カメラ、入出力(I/O)コントローラ、ディスプレイアダプタ、ネットワークインターフェース、大容量記憶装置1940、各種センサーなど、精通しているコンピュータコンポーネントをしまうが、それらの一部は図示しない。
【0217】
入力デバイス1915はまた、タッチスクリーン(例えば、抵抗膜、表面弾性波、容量性感知、赤外線、光学画像、分散信号、または音響パルス認識)、キーボード(例えば、電子キーボードまたは物理キーボード)、ボタン、スイッチ、スタイラス、またはこれらの組み合わせを含んでもよい。
【0218】
大容量記憶装置1940は、フラッシュドライブ、フラッシュメモリ、またはUSBフラッシュドライブなど、フラッシュ及び他の不揮発性ソリッドステートストレージまたはソリッドステートドライブ(SSD)を含み得る。大容量ストレージの他の例としては、大容量ディスクドライブ、フロッピーディスク、磁気ディスク、光ディスク、光磁気ディスク、固定ディスク、ハードディスク、SDカード、CD-ROM、書き込み可能なCD、DVD、書き込み可能なDVD(例えば、DVDーR、DVD+R、DVDーRW、DVD+RW、HD-DVD、またはBlu-rayディスク)、バッテリーバックアップされた揮発性メモリ、テープストレージ、リーダー、及びその他の同様のメディア、及びこれらの組み合わせが挙げられる。
【0219】
実施形態はまた、異なる構成を有するコンピュータシステム、例えば追加のまたはより少ないサブシステムを備えたコンピュータシステムを用いて使用されてもよい。例えば、コンピュータシステムは、複数のプロセッサ(つまり、情報の並列処理を可能にするマルチプロセッサシステム)を含むことができ、あるいはシステムはキャッシュメモリを含むことができる。図19に示すコンピュータシステムは、実施形態での使用に適したコンピュータシステムの一例にすぎない。実施形態での使用に適したサブシステムの他の構成は、当業者には容易に明らかになるであろう。例えば、特定の実装形態では、コンピューティングデバイスは、スマートフォンまたはタブレットコンピュータなどのモバイル通信デバイスである。スマートフォンの具体的な例としては、HTC Corporationが提供するDroid Incredible及びGoogle Nexus One、Appleが提供するiPhoneまたはiPad、及びその他多数が挙げられる。コンピューティングデバイスは、ラップトップまたはネットブックでもよい。別の特定の実装形態では、コンピューティングデバイスは、デスクトップコンピュータまたはワークステーションなどの非ポータブルコンピューティングデバイスである。
【0220】
実施形態を実践するのに有用なコンピュータ実装またはコンピュータ実行可能バージョンのプログラム命令は、コンピュータ可読媒体を使用して具体化し、コンピュータ可読媒体上に記憶し、またはコンピュータ可読媒体に関連付けることができる。コンピュータ可読媒体は、メモリ1925または大容量記憶装置1940など、実行する1つまたは複数のプロセッサに命令を送ることに関与する任意の媒体を含み得る。このような媒体は、不揮発性媒体、揮発性媒体、送信媒体、非印刷媒体、及び印刷媒体を含むがこれらに限定されない多くの形式を取ることができる。不揮発性メディアには、例えば、フラッシュメモリ、光ディスク、磁気ディスクなどが含まれる。揮発性メディアには、キャッシュメモリやRAMなどの静的メモリまたは動的メモリが含まれる。伝送媒体には、同軸ケーブル、銅線、光ファイバー回線、バス内に配置されたワイヤーが含まれる。伝送媒体は、電波や赤外線データ通信中に生成される電磁波、無線周波数、音響波、または光波の形をとることができる。
【0221】
例えば、実施形態を実践するのに有用なソフトウェアのバイナリの機械実行可能バージョンは、RAMもしくはキャッシュメモリ、または大容量記憶装置1940に格納または常駐することができる。このソフトウェアのソースコードは、大容量記憶装置1940(例えば、フラッシュドライブ、ハードディスク、磁気ディスク、テープ、またはCD-ROM)に記憶または常駐することもできる。さらなる例として、実施形態を実施するのに有用なコードは、有線、電波、またはインターネットなどのネットワークを介して送信されてもよい。別の特定の実施形態では、実施形態の特徴を実現するためのさまざまなソフトウェアプログラムコードを含むコンピュータプログラム製品を備える。
【0222】
コンピュータソフトウェア製品は、C、C++、C#、Pascal、Fortran、Perl、Matlab(MathWorks製、www.mathworks.com)、SAS、SPSS、JavaScript、CoffeeScript、Objectiveー C、Swift、Objective-J、Ruby、Rust、Python、Erlang、Lisp、Scala、Clojure、及びJavaなど、様々な適したプログラミング言語の任意のもので書かれてよい。コンピュータソフトウェア製品は、データ入力モジュールとデータ表示モジュールを備えた独立したアプリケーションであってよい。あるいは、コンピュータソフトウェア製品は、分散オブジェクトとしてインスタンス化できるクラスであってもよい。コンピュータソフトウェア製品は、Java Beans(Oracle製)やEnterprise Java Beans(Oracle製EJB)などのコンポーネントソフトウェアであってよい。
【0223】
システムのオペレーティングシステムは、Androidオペレーティングシステム、iPhone OS(すなわち、iOS)、Symbian、BlackBerry OS、Palm web OS、Bada、MeeGo、Maemo、Limo、またはBrew OSであってもよい。オペレーティングシステムの他の例としては、Microsoft Windowsファミリーのオペレーティングシステム(例えば、Windows 95、98、Me、Windows NT、Windows 2000、Windows XP、Windows XP x64 Edition、Windows Vista、Windows 10、またはその他のWindowsバージョン、Windows CE、Windows Mobile、Windows Phone、Windows 10 Mobile)、Linux、HP-UX、UNIX、Sun OS、Solaris、Mac OS X、Alpha OS、AIX、IRIX32、またはIRIX64、またはRIOT OS、Windows 10 for IoT、WindRiver VxWorks、Google Brillo、ARM Mbed OS、組み込みApple iOS及びOS X、Nucleus RTOS、Green Hills Integrity、またはContikiなどのモノのインターネット(IoT)デバイス、自動車またはその他の車両、またはReal Time Operating Systems(RTOS)に対して使用される様々なオペレーティングシステムのいずれか、またはMicroware OS-9、VxWorks、QNX Neutrino、FreeRTOS、Micrium μC/OS-III、Windows CE、TIーRTOS、RTEMSなどの様々なプログラマブルロジックコントローラ(PLC)またはプログラマブルオートメーションコントローラ(PAC)オペレーティングシステムのうちのいずれか1つが挙げられる。他のオペレーティングシステムが使用されてもよい。
【0224】
さらに、コンピュータはネットワークに接続することができ、このネットワークを使用して他のコンピュータに接続することができる。ネットワークは、特にイントラネット、インターネット、インターネットなどでよい。ネットワークは、有線ネットワーク(例えば、銅線を使用)、電話ネットワーク、パケットネットワーク、光ネットワーク(例えば、光ファイバーを使用)、無線ネットワーク、またはこれらの任意の組み合わせであってもよい。例えば、データ及び他の情報は、コンピュータと、Wi-Fi(いくつか例を挙げると、IEEE標準802.11、802.11a、802.11b、802.11e、802.11g、802.11i、及び802.11n)などのプロトコル、またはBLUETOOTH、NFC、802.15、またはセルラーなどの他のプロトコル、またはTCP/IP、UDP、HTTPプロトコル、無線アプリケーションプロトコル(WAP)、BLUETOOTH、Zigbee、802.11、802.15、6LoWPAN、LiFi、Google Weave、NFC、GSM、CDMA、他のセルラーデータ通信プロトコル、無線電話プロトコルなどを含み得る通信プロトコルを使用する無線ネットワークを使用して実施形態を実施するのに有用なシステムのコンポーネント(またはステップ)との間で送ることができる。例えば、コンピュータからの信号は、少なくとも部分的にコンポーネントまたは他のコンピュータに無線で転送されてよい。
【0225】
以下の段落は、列挙した実施形態を含む。
実施形態1.
化学反応のターゲットセットを定義することと、
前記ターゲットセットとの関連性の測定値に部分的に基づいて、化学反応の第1のセットを選択することと、
化学反応の前記第1のセットを実行することと、
前記第1のセットで実行された化学反応ごとに結果を決定することと、
少なくとも1つの決定された結果を含むトレーニングデータセットを組み立てることと、
コンピュータシステム、機械学習、トレーニングデータセットを用いて、化学反応の特性や結果を予測する、または不完全な化学反応を完了させるため1つまたは複数の反応物、反応条件、生成物を提案するモデルを構築及び訓練することを備える、方法。
【0226】
実施形態2.
1つまたは複数の生成物、基質、または条件を含む入力を前記モデルに提供することと、
前記入力と前記モデルを実行する前記コンピュータシステムを使用して、以下の1つ以上を生成することと:
化学反応の予測結果、
予測された一連の反応条件、または
不完全な化学反応を完了させるため、反応物、反応条件、または生成物のそれぞれから提案される1つ以上のもの、または
前記不完全な化学反応の予測結果、及び
生成された予測または提案をユーザに提供することをさらに含む、実施形態1に記載の方法。
【0227】
実施形態3.
前記提供するステップは、ユーザインターフェースを使用して実行される、実施形態2に記載の方法。
【0228】
実施形態4.
モデルを構築して訓練するステップの後、化学反応の第1のセットを選択するステップ、化学反応の前記第1のセットを実行するステップ、決定した結果を決定するステップ、またはトレーニングデータセットを組み立てるステップのうちの1つ以上の繰り返しを決定することと、
前記1つ以上のステップを繰り返すことをさらに備える、実施形態1に記載の方法。
【0229】
実施形態5.
1つ以上の前記ステップを繰り返す決定が前記コンピュータシステムによって自動的に実行される、実施形態4に記載の方法。
【0230】
実施形態6.
化学反応の前記第1のセットは、自動化された研究室装置または半自動化された研究室装置を使用して実行され、
決定した結果を決定することは、各反応後混合物の測定と、ソフトウェア処理を使用して少なくとも1つの収率を決定する定量化を行うことを含む、実施形態1に記載の方法。
【0231】
実施形態7.
前記ターゲットセットを定義することは、前記ターゲットセットの化学反応が満たされる必要がある、1つまたは複数の制約を指定することによって前記ターゲットセットを定義することを含む、実施形態1に記載の方法。
【0232】
実施形態8.
前記ターゲットセットを定義することは、
ユーザによって、化学化合物のリスト、化学化合物に関する1つまたは複数の制約、または反応に関する1つまたは複数の制約を提供することと、
前記ターゲットセットを、前記化学化合物のリストからの生成物または前記制約を満たす生成物を有する制約を満たす仮説的な反応として定義することを含む、実施形態1に記載の方法。
【0233】
実施形態9.
化学反応の前記第1のセットが、以下を含む1つまたは複数の要因に部分的に基づいて選択される、実施形態1に記載の方法:
(a)前記セットの反応と前記ターゲットセットの反応との化学的類似性、
(b)前記セットの反応同士の化学的類似性、
(c)第1の化学反応における試薬または反応物の価格、
(d)前記第1の化学反応における試薬または反応物の入手可能性、
(e)前記化学反応を入力したときの前記モデルの1つまたは複数の予測、または
(f)前記化学反応を入力したときの前記モデルの予測に関する不確実性の1つまたは複数の推定値。
【0234】
実施形態10.
以下から1つまたは複数の生成物、基質、または条件を含む入力を前記モデルに提供することと:
前記ターゲットセット、
反応の前記第1のセットよりも化学的に複雑な化学反応のセット、または
前記モデルを訓練するのに使用しなかった、前記実行された反応の一部、
前記入力と前記モデルを実行する前記コンピュータシステムを使用して、以下の1つ以上を生成することと:
化学反応の予測結果、
予測された最適な一連の反応条件、または
部分的な化学反応を完了させるため、提案される試薬または生成物、
作成された予測または提案を前記ターゲットセットからの反応と比較することと、
前記比較に基づいて前記モデルのパフォーマンスのレベルを決定することであって、
1つ以上の前記ステップを繰り返す決定は、前記パフォーマンスのレベルに基づく、前記決定することをさらに備える、実施形態4に記載の方法。
【0235】
実施形態11.
前記トレーニングデータセットには、以下のうちの1つまたは複数が含まれる、実施形態1に記載の方法:
(i)前記化学反応を実行することで決定される化学反応の結果、
(ii)前記コンピュータシステムによってテキストから抽出された化学反応の結果、
(iii)分子モデリングを使用して化学反応の結果をシミュレートするコンピュータプログラムの結果、または
(iv)電子実験ノートに記録された化学反応の結果。
【0236】
実施形態12.
前記入力及び前記モデルを実行する前記コンピュータシステムを使用して、
化学反応の予測結果、
予測された最適な一連の反応条件、または
部分的な化学反応を完了するため、提案される試薬または生成物のうちの1つまたは複数を生成することは、
前記入力と前記モデルを実行する前記コンピュータシステムを使用して、化学反応の複数の予測結果、または前記化学反応を実行するための複数の最適条件のセットを生成することと、
前記モデルによって、前記複数の予測結果または前記複数の最適条件のセットをフィルタリングして、確実性の閾値レベルを下回る確実性レベルで予測結果を除去するか、またはパフォーマンスの閾値レベルを下回るパフォーマンスレベルで最適条件のセットを除去することを含む、実施形態2に記載の方法。
【0237】
実施形態13.
人が方法に何らかの形で前記方法に影響を与える質問をされると、以下の特性のうちの1つまたは複数を備えるユーザインターフェースが示される、実施形態1に記載の方法:
(a)任意のメトリクスに従って示される前記モデルのパフォーマンス、
(b)前記モデルを訓練するのに使用された前記データセットから取得した例によって補足された前記モデルの予測、
(c)前記ユーザが前記モデルとインタラクトするために使用される前記ユーザインターフェースにも存在できる機能。
【0238】
実施形態14.
反応の前記セットは、前記ユーザインターフェースを使用して1つまたは複数の化学反応に関する質問に答える人によって割り当てられる数値スコアを含む因子にも基づいて選択される、実施形態13に記載の方法。
【0239】
実施形態15.
ユーザが、まだ実行する準備ができていない化合物の集合体を合成する方法について、部分的に指定された作り方を入力することと、
前記モデルを使用して、ユーザ提供制約を満たす前記作り方の欠落している情報を生成することと、
必要に応じて、前記作り方及び/または化合物の前記集合体をユーザインターフェースに表示することと、
必要に応じて、前記作り方を実行して化合物の前記集合体を合成することによって、化合物の新しい集合体の合成が、計画及び潜在的に実行される、実施形態1に記載の方法。
【0240】
実施形態16.
化合物の前記集合体が単一溶液に溶解され、各化合物がDNA鎖またはその識別を可能にする別の原子のセットによって識別される、実施形態15に記載の方法。
【0241】
実施形態17.
ユーザ提供制約には、
(a)反応収率が所定の閾値を超えていることと、
(b)条件は特定の論理制約を満たすことのうち、1つまたは複数が含まれる、実施形態15に記載の方法。
【0242】
実施形態18.
合成計画は、
(a)前記ユーザが、開始化合物のリストを指定するステップと、
(a)前記ユーザが、最終的な前記合成計画の各反応が満たすべき制約のリストを指定するステップと、
(b)前記ユーザが、最大数の合成ステップを指定するステップと、
(c)すべての化合物は、前記生成物としてこの化合物で終わる前記モデルによって生成される一連の反応が存在するように挙げられるステップを使用して生成される、実施形態15に記載の方法。
【0243】
実施形態19.
ユーザが部分的に指定された化学反応を入力することと(例えば、指定された生成物と基質の1つだけを含む)、
前記反応の欠落部分を予測するために前記モデルをさらに訓練した後、前記モデルを使用して前記反応を完了することと、
モデルが前記完了した反応の前記最適な条件と収率に関する予測を生成することをさらに備える、実施形態1に記載の方法。
【0244】
実施形態20.
ユーザが標的分子構造を入力することと、
前記モデルと、そのモデルと任意の合成計画ソフトウェアを利用する合成計画アルゴリズムを使用して、予測、標的分子構造の1つまたは複数の合成経路を生成することと、
ユーザインターフェースを使用して、前記予測された合成経路を表示することをさらに備える、実施形態1に記載の方法。
【0245】
実施形態21.
前記合成経路の選択に影響を与える要因として前記モデルによって前記予測された最適条件を使用する逆合成アルゴリズムを使用して合成経路を生成することをさらに備える、実施形態20に記載の方法。
【0246】
実施形態22.
実施形態1に記載の方法であるが、以下のいずれかが成立する:
(i)化学反応の実行は、自動固体ディスペンサ及び/または液体ディスペンサを使用して行われることと、
(ii)化学反応の実行は、標準化された寸法のマルチウェルプレートで行われ、各ウェルで個別の反応が持たれることと、
(iii)化学反応の実行はガラス、プラスチック、または金属製の容器内で行われ、各反応は別個の容器内で行われ、容器はラック内で空間的に整理されることと、
(iv)化学反応の実行は、磁気撹拌子またはオービタルシェーカーによる反応混合物の撹拌によって行われることと、
(v)化学反応の実行は、加熱/冷却ブロックまたはサーモシェーカー内で前記反応混合物を加熱または冷却して行われること。
【0247】
実施形態23.
実施形態1に記載の方法であるが、前記反応後混合物中の生成物の予想される量の分析は、以下の任意の組み合わせによって達成される:
(i):以下に挙げる1つまたは複数の検出器と組み合わせた液体クロマトグラフィ:
単一波長または多波長のUV-Vis検出器、
蛍光検出器、
蒸発光散乱検出器(ELSD)、
荷電化粒子検出器(CAD)、
放射線検出器、
電気化学検出器、
化学発光窒素検出器、または
質量分析、
(ii)手動または自動のフラクションの集合体を伴う液体クロマトグラフィ、及びその後の適用可能な分析方法による、前記予想される生成物を含有する組み合わせたフラクションの前記生成物の量の決定、
(iii)(ii)と同様の方法であるが、固相抽出(SPE)法による前記生成物の分離を伴う方法、
(iv)(i)と同様の方法であるが、MISER(単一実験操作中に多重注入)モードである方法、
(v)成分を分離せずに、反応後混合物の適切に調製された分析サンプルのMALDI-MSまたはEcho-MS分析、
(vi)未処理または何らかの方法で処理された反応後混合物の核磁気共鳴(NMR)分光法。
【0248】
実施形態24.
実施形態1に記載の方法であるが、以下のいずれかが成立する:
(i)前記反応後混合物の前記分析サンプルを取得した分析機器からの信号(データ)を、前記予想される生成物を自動的に定量化するために、専用のコンピュータプログラムによって処理することと、
(ii)いずれかの計算手法またはMLモデルを使用して、予想される反応生成物の分析信号のレベルを予測することと、
(iii)いずれかの計算手法またはMLモデルは、前記分析サンプル中の生成物の量を定量化するために、内部分析標準(複数可)及び反応生成物の前記分析信号を使用すること。
【0249】
実施形態25.
機械学習モデルは、以下のいずれかの特徴を有する、実施形態1に記載の方法:
(a)モデルアーキテクチャは、トランスフォーマーアーキテクチャなどのディープニューラルネットワークを順序付けるシーケンスであることと、
(b)前記モデルはアンサンブルに基づいていることと、
(c)モデル出力には、他の出力の不確実性の測定値が追加で含まれることと、
(d)モデルの不確実性は、アンサンブルのメンバの個々の出力に基づいて計算されることと、
(e)前記モデルは、前記出力によって満たされる論理制約のセットを入力として受け入れ、これらの制約を満たす出力を生成すること。
【0250】
実施形態26.
ユーザがモデルを訓練するのに使用されるデータセットの一部である反応を探索及び表示できるユーザインターフェースをさらに備える、実施形態1に記載の方法。
【0251】
実施形態27.
ユーザが外部の半自動化された研究室または自動化された研究室で選択した反応を実行できるユーザインターフェースをさらに備える、実施形態1に記載の方法。
【0252】
実施形態28.
実施形態27に記載の方法ではあるが、反応中に存在する化学構造などのユーザ提供制約を満たす反応を表面化する前記データベースに対してクエリの実行を可能にする機構によって探索が可能になる。
【0253】
実施形態29.
例えば、ユーザが手動で実行できる任意の行為の実行をソフトウェアに指示する一連の命令をコンピュータ媒体にエンコードすることによって、ユーザがソフトウェアをプログラム的に使用できるようにするユーザインターフェースをさらに備える、実施形態1に記載の方法。
【0254】
実施形態30.
前記モデルが、以下のいずれかの制約を満たす予測または提案を提供するように訓練されており:
(a)予測の信頼レベルが特定の閾値を超えている、
(b)予測された条件または結果によって満たされる論理的制約、
(c)提案された反応によって満たされる論理的制約、
1つまたは複数の生成物、基質、または条件が含まれる入力の前記モデルへの提供であり、前記入力は、さらに以下のいずれかを含むことであり:
(a)選択された信頼レベルの閾値、
(b)予測された条件または結果によって満たされる選択された論理的制約、
(c)提案された反応によって満たされる選択された論理的制約、
前記入力と前記モデルを実行する前記コンピュータシステムを使用して、以下の1つ以上を生成すること、
入力された信頼レベルと一致する関連する可能性のある信頼レベルを持つ、化学反応の予測結果、
入力された信頼レベルと一致する関連する可能性のある信頼レベルを持つ、予測された最適な一連の反応条件、または
入力された信頼レベルと一致する関連する可能性のある信頼レベルを持つ、部分的な化学反応を完了するために提案される反応物、反応条件、または生成物、及び
生成された予測または提案をユーザに提供することを含む、実施形態2に記載の方法。
【0255】
実施形態31.
前記ユーザが標的分子構造を入力することと、
前記モデルと、前記モデル及び合成計画ソフトウェアを利用する合成計画アルゴリズムを使用して、生成することと、
標的分子構造の1つまたは複数の合成経路の予測、及び
必要に応じて、ユーザインターフェースを使用して、予測された合成経路を表示すること、または
必要に応じて、自動化された研究室または半自動化された研究室を使用して前記合成計画を実行することをさらに備える、実施形態1に記載の方法。
【0256】
実施形態32.
実施形態1に記載の方法であるが、以下のいずれかが成立する:
(i)前記反応後混合物の前記分析サンプルを取得した分析機器からの信号(データ)を、前記予想される生成物を自動的に定量化するために、専用のコンピュータプログラムによって処理する、
(ii)いずれかの計算手法またはMLモデルを使用して、予想される反応生成物の分析信号のレベルを予測する、
(iii)いずれかの計算手法またはMLモデルは、前記分析サンプル中の生成物の量を定量化するために、内部分析標準(複数可)及び反応生成物の前記分析信号を使用する。
【0257】
実施形態33.
化合物または化合物の集合体の合成を、
ユーザまたは前記第1のコンピュータシステムまたは第2のコンピュータシステムによって、前記化合物または前記化合物の集合体を合成する方法について部分的に指定された作り方を設計することと、
前記モデルを使用して、ユーザ提供制約を満たす前記作り方の欠落している情報を生成することによって計画することをさらに備える、請求項1に記載の方法。
【0258】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサによって実行されると、システムに上記の実施形態1~33のいずれかによる動作を実行させる命令を備えたメモリとを備えるシステム。
【0259】
コンピューティングデバイスのプロセッサによって実行されると、前記コンピューティングデバイスに上記の実施形態1~33のいずれかによる動作を実行させる命令を備える、非一時的コンピュータ可読媒体。
【0260】
特定の実施形態に関して実施形態を説明してきたが、本発明の概念から逸脱することなく追加の変形を考案できることが認識される。
【0261】
本明細書に使用される用語は、特定の実施形態を説明する目的のみであり、クレームに記載された対象を制限するように意図するものではない。本明細書で使用する場合、「及び/または」という用語には、関連して列挙した項目の1つまたは複数のあらゆる組み合わせを含む。本明細書で使用する場合、単数形「a」、「an」、及び「the」は、文脈が別途明らかに示さない限り、複数形と単数形を含むことを意図する。用語「含む(comprise)」及び/または「含んだ(comprising)」は、本明細書で使用されるとき、述べられる特徴、ステップ、動作、要素、及び/または構成要素の存在を指定するが、1つ以上の他の特徴、ステップ、動作、要素、構成要素、及び/またはそれらのグループを排除の存在を排除しないことがさらに理解されよう。
【0262】
別途定義されない限り、本明細書で使用されるすべての用語(技術及び科学用語を含む)は、実施形態が属する当業者により一般に理解されるものと同じ意味を有する。さらに、一般に使用される辞書で定義されているような用語は、関連技術及び本開示の文脈における意味と一致する意味を有するものとして解釈されるべきであり、本明細書で明示的に定義されていない限り、理想化された、または過度に形式的な意味で解釈されるべきではないことも理解されたい。
【0263】
実施形態を説明する際に、多数の要素、技術、及びステップが開示されることが理解されるであろう。これらのそれぞれには個別の利点があり、それぞれを他の開示された要素または技術の1つまたは複数、場合によってはすべてと組み合わせて使用することもできる。明細書及び特許請求の範囲は、そのような組み合わせが完全に実施形態及びクレームに記載された対象の範囲内にあることを理解して読まれるべきである。
【0264】
上記及び全体の記載を通して、本開示の実施形態の完全な理解を提供するために、多くの具体的な詳細が述べられている。しかし、実施形態がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の事例では、説明を促進するために、周知の構造及びデバイスがブロック図の形式で示されている。好ましい実施形態の説明は、本明細書に添付される特許請求の範囲を限定することを意図したものではない。さらに、本明細書に開示されている方法では、実施形態の機能の一部を示すさまざまなステップが開示される。これらの手順は単なる例であり、いかなる意味でも限定することを意図していない。本開示または実施形態の範囲から逸脱することなく、他のステップ及び機能を考慮することができる。

図1
図2
図3
図4
図5
図6
図7
図8A
図8B
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
【国際調査報告】