IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フイルメニツヒ ソシエテ アノニムの特許一覧

特表2023-545891化学反応グラフ符号化ソフトウェア、対応する方法および関連するデータアプリケーション
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-01
(54)【発明の名称】化学反応グラフ符号化ソフトウェア、対応する方法および関連するデータアプリケーション
(51)【国際特許分類】
   G16C 20/10 20190101AFI20231025BHJP
   G16C 20/70 20190101ALI20231025BHJP
【FI】
G16C20/10
G16C20/70
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023502970
(86)(22)【出願日】2021-10-26
(85)【翻訳文提出日】2023-03-16
(86)【国際出願番号】 EP2021079732
(87)【国際公開番号】W WO2022090263
(87)【国際公開日】2022-05-05
(31)【優先権主張番号】20203945.9
(32)【優先日】2020-10-26
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】21171478.7
(32)【優先日】2021-04-30
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009287
【氏名又は名称】フイルメニツヒ ソシエテ アノニム
【氏名又は名称原語表記】Firmenich SA
【住所又は居所原語表記】7,Rue de la Bergere,1242 Satigny,Switzerland
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ギヨーム ゴダン
(72)【発明者】
【氏名】ルート ファン デュールセン
(57)【要約】
一段階、多段階および平衡反応のための化学反応符号化方法(100)は、少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程(105)と、前記少なくとも1種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第1の工程(110)と、前記少なくとも1つの試薬および前記生成物の化学構造を表す符号化内の変化する結合を、コンピュータデバイスにより判定する工程(115)と、判定された少なくとも1つの変化する結合について、結合変化を受ける原子を表す少なくとも1つの文字、判定された変化する結合の種類を表す少なくとも1つの文字および結合変化により生じる原子を表す少なくとも1つの文字を、コンピュータデバイスにより単一の文字列に符号化する第2の工程(120)であって、変化する結合は、判定された前記変化する結合を表す2つの文字のセットにより符号化され、第1の文字は、試薬の結合を表し、第2の文字は、生成物の結合を表し、各文字は、1つの文字が1つの結合種の変化を表す全単射文字のライブラリ内で選択される、符号化する第2の工程(120)と、化学反応の変化する結合の符号化に対応する文字の文字列を、コンピュータインタフェース上で提供する工程(125)とを含む。
【特許請求の範囲】
【請求項1】
一段階反応、多段階反応および平衡反応のための化学反応符号化ソフトウェアにおいて、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程(105)と、
- 前記少なくとも1種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第1の工程(110)と、
- 前記少なくとも1種の反応試薬および前記生成物の化学構造を表す前記符号化内の変化する結合を、コンピュータデバイスにより判定する工程(115)と、
- 判定された少なくとも1つの変化する結合について、結合変化を受ける原子を表す少なくとも1つの文字、判定された変化する結合の種類を表す少なくとも1つの文字および前記結合変化により生じる原子を表す少なくとも1つの文字を、コンピュータデバイスにより単一の文字列に符号化する第2の工程(120)であって、変化する結合は、判定された前記変化する結合を表す2つの文字のセットにより符号化され、第1の文字は、前記試薬の結合を表し、第2の文字は、前記生成物の結合を表し、各文字は、1つの文字が1つの結合種を表す全単射文字のライブラリ内で選択される、符号化する第2の工程(120)と、
- 前記化学反応の変化する結合の前記符号化に対応する前記文字の文字列を、コンピュータインタフェース上で提供する工程(125)と
に対応する命令を実行することを特徴とする、ソフトウェア。
【請求項2】
前記符号化する第2の工程(120)が、前記変化する結合の符号化の存在を表す2つのニュートラルタグ文字の間に、判定された前記変化する結合を表す2つの文字を埋め込むように構成されている、請求項1記載のソフトウェア。
【請求項3】
2つの原子間の一連の結合変化により表される多段階反応が、一連の単一の文字により符号化され、各単一の文字が、前記2つの原子間の結合の連続的な状態を表し、前記文字の順序が、前記2つの原子間の結合変化の順序を表す、請求項1または2記載のソフトウェア。
【請求項4】
一段階反応、多段階反応および平衡反応のための化学反応符号化方法(100)において、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程(105)と、
- 前記少なくとも1種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第1の工程(110)と、
- 前記少なくとも1種の反応試薬および前記生成物の化学構造を表す前記符号化内の変化する結合を、コンピュータデバイスにより判定する工程(115)と、
- 判定された少なくとも1つの変化する結合について、結合変化を受ける原子を表す少なくとも1つの文字、判定された変化する結合の種類を表す少なくとも1つの文字および前記結合変化により生じる原子を表す少なくとも1つの文字を、コンピュータデバイスにより単一の文字列に符号化する第2の工程(120)であって、変化する結合は、判定された前記変化する結合を表す2つの文字のセットにより符号化され、第1の文字は、前記試薬の結合を表し、第2の文字は、前記生成物の結合を表し、各文字は、1つの文字が1つの結合種の変化を表す全単射文字のライブラリ内で選択される、符号化する第2の工程(120)と、
- 前記化学反応の変化する結合の前記符号化に対応する前記文字の文字列を、コンピュータインタフェース上で提供する工程(125)と
を含むことを特徴とする、方法(100)。
【請求項5】
2つの原子間の一連の結合変化により表される多段階反応が、一連の単一の文字により符号化され、各単一の文字が、前記2つの原子間の結合の連続的な状態を表し、前記文字の順序が、前記2つの原子間の結合変化の順序を表す、請求項4記載の方法(100)。
【請求項6】
前記符号化する第1の工程(110)が、前記化学反応グラフを行表記に符号化するように構成されており、前記方法が、前記符号化する第2の工程(120)の前に、前記行表記符号化を拡張する工程(130)をさらに含む、請求項4または5記載の方法(100)。
【請求項7】
前記符号化する第2の工程(120)が、コンピュータメモリから試薬および生成物の結合テーブルを、コンピュータデバイスにより抽出する工程(121)を含み、前記符号化が、前記結合テーブルの関数として実行される、請求項4または6記載の方法(100)。
【請求項8】
前記符号化する第2の工程(120)が、前記符号化する第1の工程(110)から得られた第1の符号化から、少なくとも1種の試薬および/または生成物からの少なくとも1つの原子識別子を除去する工程を含み、前記原子および関連する結合が、前記化学反応の試薬反応段階から生成物段階まで変化しないままである生成物および/または試薬中に位置する場合、前記各原子が、前記判定する工程(115)の結果として除去される、請求項4から7までのいずれか1項記載の方法(100)。
【請求項9】
物理デバイス内で前記化学反応を行うことにより、符号化された前記化学反応の生成物を取得する工程(135)を含む、請求項4から8までのいずれか1項記載の方法(100)。
【請求項10】
文字列(205,210)を含む符号化された化学反応において、
請求項4から9までのいずれか1項記載の方法(100)により得られることを特徴とする、符号化された化学反応。
【請求項11】
化学反応データセットの拡張方法(300)において、
- 請求項10記載の符号化に従って、文字列を、コンピュータインタフェース上で受信する工程(305)と、
- 原子を表す少なくとも1つの文字と、前記対応する原子に関連付けられた結合変化を表す少なくとも1つの文字の少なくとも1つの文字列とをシフトさせるために、前記文字列を、コンピュータシステムにより並べ替える工程(310)と、
- 受信された前記文字列により最初に符号化された反応に対応する拡張された文字列を、コンピュータインタフェース上で出力する工程(320)と
を含むことを特徴とする、拡張方法(300)。
【請求項12】
請求項9記載のフォーマットに従って、少なくとも2つの文字列を、コンピュータシステムにより関連付ける工程(315)をさらに含み、各前記文字列が、同じ化学反応グラフを表す、請求項11記載の拡張方法(300)。
【請求項13】
化学反応データセットの前処理方法(400)において、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む少なくとも2つの化学反応グラフのデータセットを、コンピュータインタフェース上で受信する工程(405)と、
- 請求項4から9までのいずれか1項記載の方法に従って、少なくとも2つの化学反応グラフを圧縮する工程(100)と、
- 符号化された前記データセット内の化学反応クラスの分布を、コンピュータシステムにより判定する工程(410)と、
- 請求項7または8記載の方法に従って、判定された前記分布の関数として、少なくとも1つの化学反応クラスについてデータセットを拡張する工程(300)と、
- 前処理された前記データセットを、コンピュータインタフェース上で出力する工程(415)と
を含むことを特徴とする、前処理方法(400)。
【請求項14】
分類器、トランスフォーマまたはリグレッサのための訓練方法(500)において、
- 請求項8記載の圧縮された符号化において符号化された化学反応グラフのデータセットを、コンピュータインタフェース上で入力する工程(505)と、
- 前記化学反応グラフのデータセットを入力として使用して、化学反応結合の進展を入力の関数として分類するように構成された再帰的ニューラルネットワークアーキテクチャを、コンピュータシステムにより動作させる工程(510)と、
- 訓練された分類器、トランスフォーマまたはリグレッサを、コンピュータインタフェース上で出力する工程(515)と
を含むことを特徴とする、訓練方法(500)。
【請求項15】
化学反応結合進展の予測方法において、
請求項14記載の方法(500)により得られた分類器、トランスフォーマまたはリグレッサを動作させることを特徴とする、予測方法。
【請求項16】
化学反応生成方法において、
請求項14記載の方法(500)により得られた分類器、トランスフォーマまたはリグレッサを動作させることを特徴とする、化学反応生成方法。
【請求項17】
コンピュータ実装された分類器において、
前記分類器、トランスフォーマまたはリグレッサが、請求項14記載の方法(500)により得られることを特徴とする、分類器。
【請求項18】
コンピュータプログラムにおいて、
請求項14から16までのいずれか1項記載の方法(500)を動作させるための命令を含むことを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、化学反応グラフ圧縮ソフトウェア、対応する方法、化学反応グラフフォーマット、化学反応データセットの拡張方法、化学反応データセットの前処理方法、分類器、トランスフォーマまたはリグレッサのための訓練方法、化学反応結合進展の予測方法、化学反応生成方法、コンピュータ実装された分類器、トランスフォーマまたはリグレッサおよび関連するコンピュータプログラムに関する。本発明は、特に、医薬品、香料、香味料、洗浄製品、フレグランス設計および嗅覚検査、芳香剤、微細フレグランス香料および香味設計を含む(が、これらに限定されない)有機化学の分野に適用される。
【0002】
発明の背景
化学種および化学反応のデジタルモデリングの分野において重要な符号化システムの1つは、行表記、例えば、Simplified molecular-input line-entry system(SMILES)フォーマットである。このようなフォーマットは、多くのソース、例えば、共同百科事典ウィキペディアを含めて、豊富に文書化されている。
【0003】
このようなフォーマット、例えば、SMARTSおよびSMIRKSは、化学的相互作用をモデル化するための理解および能力に役立ってきたが、欠点が現れ始めている。
【0004】
- 化学反応を符号化するために、過剰な数の文字が必要であり、対応する物理的メモリ空間が占拠される。これは、このようなフォーマットを使用するシステムのためのより長い伝送および処理時間を意味する。
【0005】
- このようなフォーマットの性能は、このフォーマット内に記憶されている過剰な量の可能性のある無関係な情報のために、機械学習アプリケーションにおいて低下する。
【0006】
- より古いフォーマット、例えば、SMARTSまたはSMIRKS文字列において、この文字列は、ドットで分離された試薬、ドットで分離された作用因子(反応を可能にするもの、反応条件)およびドットで分離された生成物から構成され、反応を定義するために明示的な原子マッピングを必要とする。本発明者らの新規な短いCRSフォーマットでは、大量の情報を必要とする。
【0007】
- 可逆性を単純かつコンパクトに符号化できない。
【0008】
- 多段階反応、すなわち、A>B>Cを単純かつコンパクトに符号化できない。
【0009】
- 平衡反応、すなわち、A<>BまたはA>B>Aを単純かつコンパクトに符号化できない。
【0010】
- 反応メカニズム、すなわち、A>T>B(式中、Tは、反応の遷移状態を定義する)を単純かつコンパクトに符号化できない。
【0011】
- 反応分類およびデータクリーニングが不可能であり、このため、データが使用される際に、シグナル対ノイズ比が低減してしまう。
【0012】
- 使用される文字が多義的であり、これにより、データが使用される際に、シグナル対ノイズ比が低減してしまう。
【0013】
- 複数の中間体から構成される生化学経路を単純かつコンパクトに符号化できない。
【0014】
- 立体化学を単純かつコンパクトに符号化できない。
【0015】
- 四価キラル中心についての立体異性の変化を表示することができない。
【0016】
さらに、現代の化学反応研究および開発サイクルには、典型的な試行錯誤アプローチまたは組織内の既存の知識のみに基づく他のアプローチより高度なツールが必要である。このような状況において、機械学習は、この研究および開発サイクルの最適化の基礎であると考えられる。しかしながら、機械学習モデルの性能は、入力データの品質により制限される。現在のところ、化学反応挙動を予測するためまたは自律的に新たな化学反応を生成するための機械学習モデルを生成するのに満足のいく方法は存在しない。
【0017】
発明の概要
本発明は、これらの欠点の全てまたは一部を改善することを意図している。
【0018】
このために、第1の態様によれば、本発明は、一段階反応、多段階反応および平衡反応のための化学反応グラフ圧縮ソフトウェアであって、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程と、
- 前記少なくとも1種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第1の工程と、
- 前記少なくとも1種の反応試薬および前記生成物の化学構造を表す前記符号化内の変化する結合を、コンピュータデバイスにより判定する工程と、
- 判定された少なくとも1つの変化する結合について、結合変化を受ける原子を表す少なくとも1つの文字、判定された変化する結合の種類を表す少なくとも1つの文字および結合変化により生じる原子を表す少なくとも1つの文字を、コンピュータデバイスにより単一の文字列に符号化する第2の工程であって、変化する結合は、判定された変化する結合を表す2つの文字のセットにより符号化され、第1の文字は、試薬の結合を表し、第2の文字は、生成物の結合を表し、各文字は、1つの文字が1つの結合種を表す全単射文字のライブラリ内で選択される、符号化する第2の工程と、
- 化学反応の変化する結合の符号化に対応する前記文字列を、コンピュータインタフェース上で提供する工程と
に対応する命令を実行する、ソフトウェアを目的とする。
【0019】
このような提供は、結合変化が生じる試薬の位置に焦点を当てており、このため、符号化する物質を制限することにより、高度に実行可能な符号化が可能となる。得られたコードは、よりコンパクトであり、物理メモリ使用量を制限する。さらに、結合変化に焦点を当てたことにより、機械学習アプリケーションは、化学反応の関連部分のみを標的とすることができ、このため、速度および精度の向上が可能となる。
【0020】
加えて、このフォーマット化により、多段階反応または化学平衡反応、すなわち、個々の反応A>BおよびB>Aの記述による疑似二段階反応としてのA<>Bまたは多段階反応A>B>Aのモジュール化が可能となる。
【0021】
さらに、得られたフォーマット化は可逆的であり、これにより、平衡反応の定義が可能となり、反応機構の符号化が可能となり、一義的であり、反応分類およびデータクリーニングが可能となり、立体化学変化の符号化が可能となり、四価キラル中心に対する変化を示すことができる。
【0022】
特定の実施形態では、符号化する第2の工程は、前記変化する結合の符号化の存在を表す2つのニュートラルタグ文字の間に、判定された変化する結合を表す2つの文字を埋め込むように構成されている。
【0023】
特定の実施形態では、2つの原子間の一連の結合変化により表される多段階反応は、一連の単一の文字により符号化され、各単一の文字は、前記2つの原子間の結合の連続的な状態を表し、文字の順序は、前記2つの原子間の結合変化の順序を表す。
【0024】
このような実施形態では、変化する結合を表す2つの文字が原子自体を表すものではないとして分離されることを、ソフトウェアの要素により自動的に認識することが可能となる。
【0025】
第2の態様によれば、本発明は、一段階反応、多段階反応および平衡反応のための化学反応グラフ圧縮方法であって、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程と、
- 前記少なくとも1種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第1の工程と、
- 前記少なくとも1種の反応試薬および前記生成物の化学構造を表す符号化内の変化する結合を、コンピュータデバイスにより判定する工程と、
- 判定された少なくとも1つの変化する結合について、結合変化を受ける原子を表す少なくとも1つの文字、判定された変化する結合の種類を表す少なくとも1つの文字および結合変化により生じる原子を表す少なくとも1つの文字を、コンピュータデバイスにより単一の文字列に符号化する第2の工程であって、変化する結合は、判定された変化する結合を表す2つの文字のセットにより符号化され、第1の文字は、試薬の結合を表し、第2の文字は、生成物の結合を表し、各文字は、1つの文字が1つの結合種の変化を表す全単射文字のライブラリ内で選択される、符号化する第2の工程と、
- 化学反応の変化する結合の符号化に対応する文字の文字列を、コンピュータインタフェース上で提供する工程と
を含む、方法を目的とする。
【0026】
この方法の利益および利点は、本発明の第1の態様の目的であるソフトウェアの利益に対応する。
【0027】
特定の実施形態では、2つの原子間の一連の結合変化により表される多段階反応は、一連の単一の文字により符号化され、各単一の文字は、前記2つの原子間の結合の連続的な状態を表し、文字の順序は、前記2つの原子間の結合変化の順序を表す。
【0028】
特定の実施形態では、符号化する第1の工程は、化学反応グラフを行表記に符号化するように構成されており、方法は、符号化する第2の工程の前に、行表記符号化を拡張する工程をさらに含む。
【0029】
このような実施形態により、単一の化学反応グラフから開始して、サンプルサイズを大きくすることが可能となる。これは、機械学習アプリケーションにおいて特に有用である。
【0030】
特定の実施形態では、符号化する第2の工程は、コンピュータメモリから試薬および生成物の結合テーブルを、コンピュータデバイスにより抽出する工程を含み、前記符号化は、前記結合テーブルの関数として実行される。
【0031】
特定の実施形態では、符号化する第2の工程は、符号化する第1の工程から得られた第1の符号化から、少なくとも1種の試薬および/または生成物からの少なくとも1つの原子識別子を除去する工程を含み、前記原子および関連する結合が、化学反応の試薬反応段階から生成物段階まで変化しないままである生成物および/または試薬中に位置する場合、前記各原子は、判定する工程の結果として除去される。
【0032】
このような実施形態では、反応の表記を反応部位に制限することにより、化学反応フォーマットのより高い圧縮が可能となる。
【0033】
特定の実施形態では、本発明の目的である方法は、物理デバイス内で前記化学反応を行うことにより、符号化された化学反応の生成物を取得する工程を含む。
【0034】
第3の態様によれば、本発明は、本発明の第2の態様の目的である方法により得られた文字の文字列を含む符号化された化学反応を目的とする。
【0035】
このフォーマットされた化学反応グラフの利益および利点は、本発明の第2の態様の目的である方法の利益に対応する。
【0036】
第4の態様によれば、本発明は、
- 本発明の第3の態様の目的である符号化に従って、文字列を、コンピュータインタフェース上で受信する工程と、
- 原子を表す少なくとも1つの文字と、対応する原子に関連付けられた結合変化を表す少なくとも1つの文字の少なくとも1つの文字列とをシフトさせるために、文字列を、コンピュータシステムにより並べ替える工程と、
- 受信された文字列により最初に符号化された反応に対応する拡張された文字列を、コンピュータインタフェース上で出力する工程と
を含む、化学反応データセットの拡張方法を目的とする。
【0037】
このような提供により、単一の化学反応グラフから開始して、サンプルサイズを大きくすることが可能となる。これは、機械学習アプリケーションにおいて特に有用である。
【0038】
特定の実施形態では、本発明の目的である方法は、本発明の第3の態様の目的であるフォーマットに従って、少なくとも2つの文字列を、コンピュータシステムにより関連付ける工程を含み、各前記文字列は、同じ化学反応グラフを表す。
【0039】
このような提供により、機械学習アプリケーションにおいて特に有用な多次元入力の作成が可能となる。
【0040】
第5の態様によれば、本発明は、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む少なくとも2つの化学反応グラフのデータセットを、コンピュータインタフェース上で受信する工程と、
- 本発明の第2の態様の目的である方法に従って、少なくとも2つの化学反応グラフを圧縮する工程と、
- 符号化されたデータセット内の化学反応クラスの分布を、コンピュータシステムにより判定する工程と、
- 本発明の第4の態様の目的である方法に従って、判定された分布の関数として、少なくとも1つの化学反応クラスについてデータセットを拡張する工程と、
- 前処理されたデータセットを、コンピュータインタフェース上で出力する工程と
を含む、化学反応データセットの前処理方法を目的とする。
【0041】
このような提供により、機械学習アプリケーションを最適化するためのデータセットの動的かつスマートな拡張が可能となる。
【0042】
第6の態様によれば、本発明は、
- 本発明の第3の態様の目的である圧縮された符号化において符号化された化学反応グラフのデータセットを、コンピュータインタフェース上で入力することと、
- 化学反応グラフのデータセットを入力として使用して、化学反応結合の進展を入力の関数として分類するように構成された再帰的ニューラルネットワークアーキテクチャを、コンピュータシステムにより動作させることと、
- 訓練された分類器、トランスフォーマまたはリグレッサを、コンピュータインタフェース上で出力することと
を含む、分類器、トランスフォーマまたはリグレッサのための訓練方法を目的とする。
【0043】
このような提供により、訓練された分類器、トランスフォーマまたはリグレッサの最適な作成が可能となる。使用される化学グラフ反応フォーマットにより、生成されたモデルの品質が顕著に改善されるためである。
【0044】
第7の態様によれば、本発明は、本発明の第6の態様の目的である方法により得られた分類器、トランスフォーマまたはリグレッサを動作させる、化学反応結合進展の予測方法を目的とする。
【0045】
このような提供により、任意に入力された化学試薬の結合進展を正確に予測することが可能となる。
【0046】
第8の態様によれば、本発明は、本発明の第6の態様の目的である方法により得られた分類器、トランスフォーマまたはリグレッサを動作させる、化学反応生成方法を目的とする。
【0047】
このような提供により、対応するグラフおよび/または行表記を使用して、化学反応の自律的な生成が可能となる。
【0048】
第9の態様によれば、本発明は、分類器、トランスフォーマまたはリグレッサが、本発明の第6の態様の目的である方法により得られる、コンピュータ実装された分類器、トランスフォーマまたはリグレッサを目的とする。
【0049】
このコンピュータ実装された分類器、トランスフォーマまたはリグレッサの利益および利点は、本発明の第6の態様の目的である方法の利益に対応する。
【0050】
第10の態様によれば、本発明は、本発明の第6、第7または第8の態様のいずれか1つの目的である方法を動作させるための命令を含む、コンピュータプログラムを目的とする。
【0051】
このコンピュータプログラムの利益および利点は、本発明の対応する第6、第7または第8の態様の目的である方法の利益に対応する。
【0052】
本発明の他の利点、目的および特定の特徴は、添付の図面に関連して、本発明の少なくとも1つの特定の実施形態の以下の非網羅的な説明から明らかであろう。
【図面の簡単な説明】
【0053】
図1】本発明の目的である方法を表す第1の特定の連続工程を模式的に表す図である。
図2】本発明の目的である方法により符号化された化学反応グラフを模式的に表す図である。
図3】本発明の目的である方法を表す第2の特定の連続工程を模式的に表す図である。
図4】本発明の目的である方法を表す第3の特定の連続工程を模式的に表す図である。
図5】本発明の目的である方法を表す第4の特定の連続工程を模式的に表す図である。
図6】本発明の目的であるソフトウェアにより、化学反応を符号化している状態を模式的に表す図である。
図7】本発明の目的であるソフトウェアにより、平衡化学反応を符号化している状態を模式的に表す図である。
図8】本発明の目的であるソフトウェアの特定の命令セットの命令を模式的に表す図である。
図9】本発明の目的であるソフトウェアにより、多段階化学反応を符号化している状態を模式的に表す図である。
図10】本発明の目的であるソフトウェアにより、平衡化学反応を符号化している状態を模式的に表す図である。
図11】本発明の目的である拡張方法に関する特定の連続工程を模式的に表す図である。
図12】本発明の目的である化学反応グラフを生成する方法に関する特定の連続工程を模式的に表す図である。
図13】本発明の目的である分類器を訓練する方法に関する第1の特定の連続工程を模式的に表す図である。
図14】本発明の目的である分類器を訓練する方法に関する第2の特定の連続工程を模式的に表す図である。
図15】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図16】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図17】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図18】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図19】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図20】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図21】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図22】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図23】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図24】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図25】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図26】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
図27】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。
【0054】
発明の詳細な説明
1つの実施形態の各特徴は、任意の他の実施形態の任意の他の特徴と、有利な方法で組み合わせることができるため、この説明は網羅的ではない。
【0055】
また、種々の発明概念を、例が提供された1つ以上の方法として具現化することができる。方法の一部として実行される動作を、任意の適切な方法で順序付けることができる。したがって、示されているものとは異なる順序で動作が実行される実施形態を構築することができる。これは、例示的な実施形態において順次動作として示されているとしても、幾つかの動作を同時に実行することを含むことができる。
【0056】
本明細書および特許請求の範囲において、本明細書で使用する場合、不定冠詞「a」および「an」は、明確に反対の指示がない限り、「少なくとも1つ」を意味すると理解されたい。
【0057】
本明細書および特許請求の範囲において、本明細書で使用する場合、「および/または」という表現は、そのように結合された要素の「いずれかまたは両方」、すなわち、ある場合には結合的に存在し、他の場合には分離的に存在する要素を意味すると理解されたい。「および/または」で列記された複数の要素は、同じ様式で、すなわち、そのように結合された要素の「1つ以上」で解釈されたい。「および/または」節により具体的に識別されるような要素以外の他の要素は、それらの具体的に識別される要素に関連するかまたは関連しないかにかかわらず、場合により存在することができる。このため、非限定的な例として、「Aおよび/またはB」への言及は、オープンエンドの言い回し、例えば、「含む(comprising)」と併せて使用される場合、一実施形態では、Aのみ(場合により、B以外の要素を含む)、別の実施形態では、Bのみ(場合により、A以外の要素を含む)、さらに別の実施形態では、AとBとの両方(場合により、他の要素を含む)等を指すことができる。
【0058】
本明細書および特許請求の範囲において使用する場合、「または」は、上記定義された「および/または」と同じ意味を有すると理解されたい。例えば、リスト内の項目を分離する場合、「または」または「および/または」は、包括的であると解釈されるものとし、すなわち、少なくとも1つを含むが、多数の要素または要素のリストのうちの2つ以上を含み、かつ場合により、追加の非リスト項目を含むものと解釈されるものとする。反対に明確に示される用語、例えば、「のうちの1つのみ」もしくは「のうちの正確に1つ」または特許請求の範囲で使用する場合、「からなる」のみが、多数の要素または要素のリストのうちの正確に1つの要素を含むことを指すであろう。一般的には、本明細書で使用する場合、「または」という用語は、排他性の用語、例えば、「いずれか」、「のうちの1つ」、「のうちの1つのみ」または「のうちの正確に1つ」に修飾される場合のみ、排他的代替(すなわち、「一方または他方であるが、両方ではない」)を示すものと解釈されるものとする。「から本質的になる」は、特許請求の範囲で使用する場合、特許法の分野において使用される通常の意味を有するものとする。
【0059】
本明細書および特許請求の範囲において使用する場合、1つ以上の要素のリストに関して、「少なくとも1つ」という表現は、要素のリスト中の任意の1つ以上の要素から選択される少なくとも1つの要素を意味するが、必ずしも要素のリスト中に具体的に列記される各々および全ての要素の少なくとも1つを含む必要はなく、要素のリスト中の要素の任意の組み合わせを排除しないと理解されたい。また、この定義により、「少なくとも1つ」という表現が指す要素のリスト内で具体的に特定された要素以外の要素が、それらの具体的に特定された要素に関連するかまたは関連しないかにかかわらず、場合により存在し得ることが可能となる。このため、非限定的な例として、「AおよびBのうちの少なくとも1つ」(または同等に、「AまたはBのうちの少なくとも1つ」または同等に「Aおよび/またはBのうちの少なくとも1つ」)は、一実施形態では、少なくとも1つのA、場合により、2つ以上のAを含み、Bは存在しない(かつ場合により、B以外の要素を含む)こと;別の実施形態では、少なくとも1つのB、場合により、2つ以上のBを含み、Aは存在しない(かつ場合により、A以外の要素を含む)こと;さらに別の実施形態では、少なくとも1つのA、場合により、2つ以上のAを含みかつ少なくとも1つのB、場合により、2つ以上のBを含む(かつ場合により、他の要素を含む)こと等を指すことができる。
【0060】
特許請求の範囲および上記明細書において、全ての移行句、例えば、「含む(comprising)」、「含む(including)」、「保持する(carrying)」、「有する(having)」、「含有する(containing)」、「含む(involving)」、「保持する(holding)」、「で構成される(composed of)」等は、オープンエンドである、すなわち、「含むがこれらに限定されない」ことを意味すると理解されたい。「からなる(consisting of)」および「から本質的になる(consisting essentially of)」という移行句のみが、米国特許庁の特許審査手続マニュアル第2111.03条に記載されているように、それぞれクローズドまたは半クローズドの移行句であるものとする。
【0061】
この時点で、図は、正確な縮尺ではないことに留意されたい。
【0062】
「コンピュータインタフェース」という用語は、任意の種類のヒューマン-マシンインタフェース、例えば、入力手段、例えば、キーボード、マウスまたはタッチスクリーンに関連付けられたグラフィックユーザインタフェース(GUI)等と理解されるべきであることに留意されたい。また、これらの用語は、任意のソフトウェアもしくはデジタルインタフェース、例えば、アプリケーションプログラミングインタフェース(「API」)等または任意の他の種類のデジタル入力/出力手段もしくはソフトウェアも指す。
【0063】
「コンピュータデバイス」または「コンピュータシステム」という用語は、任意の電子計算手段、例えば、好ましくは、コンピュータメモリおよび必要な入力/出力サブシステムに関連付けられたマイクロプロセッサと理解されるべきであることに留意されたい。以下の説明で使用されるコンピュータシステムの特定のアーキテクチャは、本発明を考慮すると重要ではない。すなわち、このようなコンピュータシステムは、クライアントサーバアーキテクチャを使用してまたはローカルおよび/もしくは遠隔コンピュータリソースを使用して分散させ、統合することができる。記憶され、アクセスされるデータを、伝統的なデータベース、コンピュータメモリまたは分散データベースに記憶させることができる。
【0064】
「化学反応グラフ」という用語は、各分子(試薬および生成物)がグラフにモデル化され、その頂点が化合物の原子に対応し、エッジが化学結合に対応する、グラフフォーマットでの化学反応のモデル化を指定することに留意されたい。すなわち、化学反応グラフは、グラフ理論の観点から化合物の構造式をモデル化する。典型的には、分子グラフは、グラフの構築を可能にする原子のデジタル識別子および結合のデジタル識別子を含む。これらのデジタル識別子を、ラベルおよび頂点にグラフィカルに翻訳することができる。このようなデジタル識別子を、デジタル記憶デバイス、例えば、コンピュータメモリ、サーバデータベースまたは分散データベースに記憶させることができる。
【0065】
「文字」という用語は、入力からコードを生成するのに使用することができる任意の記号(アルファベットであるか否かにかかわらず)を指すと理解されたい。典型的には、文字は、文字を表すASCII(「American Standard Code for Information Interchange」)コードであることができる。ただし、これは、本発明を限定するものではない。
【0066】
図1に、例えば、一段階反応、多段階反応および平衡反応のための化学反応グラフ圧縮ソフトウェアの命令に対応する一連の工程を示す。このソフトウェアは、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程105と、
- 前記少なくとも1種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第1の工程110と、
- 前記少なくとも1種の反応試薬および前記生成物の化学構造を表す符号化内の変化する結合を、コンピュータデバイスにより判定する工程115と、
- 判定された少なくとも1つの変化する結合について、結合変化を受ける原子を表す少なくとも1つの文字、判定された変化する結合の種類を表す少なくとも1つの文字および結合変化により生じる原子を表す少なくとも1つの文字を、コンピュータデバイスにより単一の文字列に符号化する第2の工程120であって、変化する結合は、判定された変化する結合を表す2つの文字のセットにより符号化され、第1の文字は、試薬の結合を表し、第2の文字は、生成物の結合を表し、各文字は、1つの文字が1つの結合種を表す全単射文字のライブラリ内で選択される、符号化する第2の工程120と、
- 化学反応の変化する結合の符号化に対応する前記文字列を、コンピュータインタフェース上で提供する工程125と
に対応する命令を実行する。
【0067】
受信する工程105を、例えば、任意の種類のコンピュータインタフェースを使用して行う。この受信する工程105の間に、デジタルリソースを受信し、前記デジタルリソースは、化学反応グラフを表す。「デジタルリソース」は、可能な限り広い意味で理解されるべきであり、すなわち、データの構造化されたセットである。このようなデジタルリソースは、コンピュータメモリ内に記憶されるかまたは必要なときに生成されるファイルであることができる。代替的には、ファイル自体の代わりに、ファイルについてのデジタルアドレスを受信することができる。
【0068】
代替的には、受信する工程105の間に、少なくとも1種の試薬および少なくとも1種の生成物に対応するデジタル識別子を受信する。このようなデジタル識別子は、試薬もしくは生成物を表すデジタルリソースまたは前記デジタルリソースに対する任意のポインタのいずれかであることができる。このようなデジタル識別子は、例えば、データベース内のアドレスまたは前記試薬もしくは生成物を表す自然言語の文字列であることができる。他の変形形態では、デジタル識別子は、ユーザにより実行可能であり、一旦アクティブ化されると、関連付けられたリソースおよび/または前記リソースのアドレスの入力をトリガするGUIのコンポーネントである。
【0069】
受信する工程105を、ユーザまたは自動入力によりトリガすることができる。
【0070】
符号化する第1の工程110を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この符号化する工程110を、例えば、化学反応グラフのSMILESフォーマットが生成される方法と同様に行うことができる。この符号化する工程110の間に、化学反応グラフを、好ましくは、ASCIIフォーマットの文字の文字列に符号化する。
【0071】
代替的には、符号化する第1の工程110は、SMILES符号化フォーマットのSMARTS(「SMILES arbitrary target specification」)変形形態を使用して、行表記を提供するように構成されている。SMARTS符号化フォーマットは、分子内の部分構造パターンを特定するための言語である。図6に、反応605および610それぞれについての参照630および640に関する符号化のこのような第1の工程110の結果を示す。
【0072】
判定する工程115を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この判定する工程115の間に、幾つかの選択肢を実装することができる。
【0073】
- 化学反応グラフ内の原子および結合をマッピングするのにおいて、コンピュータインタフェース上での人間による入力を必要とすることまたは
- コンピュータシステムにより、化学反応グラフ内の原子および結合を自動的にマッピングすることのいずれか、次いで、いずれの場合にも、
- 分子グラフ内の特定のマッピングされた位置についての原子の変化もしくは関連する分子内の前記マッピングされた原子もしくは任意の他の原子に対する結合変化のいずれかによる分子構造の変化を検出するために、コンピュータシステムにより、生成物の分子化学グラフを試薬の分子化学グラフと比較することおよび
- 比較する工程の結果の関数として、事前設定された種類のリスト内の特定された結合変化を、コンピュータシステムにより分類すること。
【0074】
重ね合わせ比較を使用するこのような実施形態は、典型的には、現代の解決策に使用される。ただし、これらのアプローチは、典型的には、得られるマッピングの確実性に欠ける。それらは、構造的最小共通性を探すためである。この共通性は、例えば、酸素分子が試薬として使用されかつ生成物として産生される場合、この破壊-生成プロセスを検出しないであろう。
【0075】
より高度な実施形態では、トランスフォーマ機械学習アルゴリズムを使用する。
【0076】
このようなモデルを、Schneider et al.による論文(Schneider, N.; Stiefl, N.; Landrum, G.A., What’s What: The - Nearly - Definitive Guide to Reaction Role Assignment. J Chem Inf Model 2016, 56, 2336-2346)からのUSPTO-50セット(またはその一部)を含むデータにより訓練することができ、一部の計算には、Jaworksi et al.(Jaworski, W., Szymkuc, S., Mikulak-Klucznik, B. et al. Automatic mapping of atoms across both simple and complex chemical reactions. Nat Commun 10, 1434-2019)からの訓練セットデータを使用することもできる。
【0077】
このようなモデルを、訓練に使用されないUSPTO-50セットの一部であってもよい試験セットや手作業で精選された反応に対して試験することができる。加えて、Jaworksi et al.の857の反応の試験セットを使用して、開発された方法の性能を試験することができる。
【0078】
このようなデータを、入力前に精選することができる。さらに、データを、訓練/試験データとして使用する前に、本発明の目的である方法100に従って、圧縮し、符号化することができる。
【0079】
例えば、以下の刊行物研究のいずれかに記載されているようなトランスフォーマアーキテクチャを使用することができる。
- Vaswani, A., et al. Attention Is All You Need. Preprint at https://arxiv.org/abs/ 1706.03762 (2017)
- Schwaller, P., et al. Molecular transformer: a model for uncertainty-calibrated chemical reaction prediction. ACS Cent. Sci. 5, 1572-1583 (2019)および/または
- Tetko, I.V., Karpov, P., Van Deursen, R. et al. State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis. Nat Common 11, 5575 (2020)
【0080】
すなわち、トランスフォーマは、6つの層および8つのヘッド(6×8)からなる。モデルの訓練を、100エポックに制限し、3000文字のバッチサイズを使用した。入力データは、SMIRKSフォーマットの反応データ(試薬および生成物の両方)とし、ターゲットは、本発明の目的である方法100に従って、圧縮され、符号化された各化学反応グラフとした。図12に示されたように、入力シーケンスおよび標的シーケンスの両方を拡張することができる。これにより、データの多様性が向上し、ニューラルネットワークの過学習の影響が排除される。モデル訓練およびテストのためのデータを、例えば、それぞれ5×および20×倍に拡張することができる。
【0081】
トランスフォーマモデルにより、ビームサーチを使用して、与えられた入力データのための複数の予測を生成することができる。ビームサーチを使用して、n=10にし、このようにして、本発明の目的である方法100の目的に従って、10個の予測された圧縮および符号化化学反応グラフ(CRS)を、各入力反応について受信する。使用された20×データ拡張を、各反応について使用することができるため、各分析された反応について、最大200個の予測CRSの総数を計算することができる。
【0082】
更なる後処理、例えば、
- 明らかなフォーマットエラーのために、更なる分析の前に一部の計算されたCRSをフィルタリングすること、
- 反応物および/または生成物の質量平衡化を行って、CRSを分解することにより生成された全ての反応物および試薬が初期反応中に存在することを確認すること
を行うことができる。
【0083】
このようなトランスフォーマモデルにより、以下のような結果を提供することができる。
【表1】
【0084】
このようなトランスフォーマを実装することにより、このようなデータを使用して訓練されたときに、優れた性能が実証された。43.8k(43,800)のUSPTO-50k訓練セットを使用して開発されたモデルにより、4,885の反応の試験セットについて、99.9%のカバー率(Coverage)および100%の精度(Precision)が実証された。このため、トランスフォーマは、その試験セットから全ての反応の原子マッピングを正確に予測することが可能であった。このモデルの性能は、手作業による注釈付きセットAについてはより低かった。このセットについて、96.7%のカバー率および96.9%の精度に達した。
【0085】
NatureTestセットについて、カバー率ははるかに低く、わずか67.3%であった。より低いカバー率から、Natureセットは、特許が存在せずかつ/またはより複雑な反応種を含有し、モデルが、それらのための1つ以上の有効なCRSを生成することができなかったことが示された。ただし、同じ非常に高い精度が計算された。このため、トランスフォーマモデルは、生成されたCRSが初期反応データの全ての成分を含む場合、正確に正しいマッピングを再現することができた。
【0086】
NatureTrainセット(n=548)を加えることによるデータの多様性の向上により、NatureTestについてのカバー率が、約7.3%改善しかつセットAについて1%を超えて改善された。NatureTrainセットを使用して生成されたシミュレーションデータを追加すると、NatureTestについてのカバー率の追加ブーストが達成された。これらのデータは、各初期反応につき10個の生成された反応を含んだ。この生成は、稀な反応をより良く表現し、モデルの精度を高めた。しかしながら、シミュレーションされた反応の追加後でさえ、カバー率は、NatureTestについて80%未満であった。これは、このセットからの一部の反応が、USPTO特許およびNatureTrainセットの両方において十分に表現されていないことを示している。
【0087】
この問題に対処するために、NatureTestに対するシミュレーションされた反応を含ませることが可能である。これにより、精度率を低下させることなく、この設定に対するカバー率が95%まで高まる。また、データセットの後者の拡張により、セットAについての最良の全体的な結果も提供された。カバー率は、98.9%に向上し、精度率は、97.4%を達成した。セットBについては、結果は変化せず、3つの精度測定値は全て、約100%であった。
【0088】
符号化する第2の工程120を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この符号化する第2の工程120の間に、判定された変化する結合のうちの少なくとも1つを、判定された変化する結合の種類を表すASCII文字のセットに符号化する。
【0089】
この符号化する第2の工程120は、例えば、以下の工程を含むことができる。
【0090】
- 符号化する第1の工程110から得られた符号化反応グラフを構文解析する工程、
- 試薬および生成物のための結合テーブルを抽出する工程、
- 試薬および生成物の反応グラフをアセンブルすることにより、第2の符号化を生成する工程および
- 場合により、生成された第2の符号化を、正準線形表記文字列にエクスポートし、以下に示されるような指定された記号を使用して結合を書き込むことができる。
【0091】
単一の文字列において前記変化する結合を符号化する第2の工程120を、各変化する結合を記号、例えば、結合変化の種類を記述する一連の少なくとも1つの文字と関連付けることにより行うことができる。この記号は、好ましくは、結合変化が起こっている間の隣接原子と関連付けられる。
【0092】
このような記号は、中括弧またはニュートラル(中立)として定義される他の文字により囲まれた、試薬および生成物の結合種のための単一の結合文字から構成される4文字列であることができる。反応における単結合から二重結合への変化は、例えば、文字順列「{-=}」を使用して記述される。文字と表現される結合変化とを結びつける関係は、好ましくは、全単射である。「全単射」という用語は、本明細書において、文字と表現される結合変化とを結びつける1対1の関係を指す。「文字」という用語は、記号の辞書における任意の記号として理解されたく、限定的に英数字に制限されない。これは、符号化する工程の前に、文字のライブラリを設定することができることを意味する。このライブラリにおいて、各文字は、結合変化の種類を表す。このライブラリの構成を、手作業でまたは自動的に行うことができる。特定の実施形態では、アルゴリズムを、それ自体の記号を学習するように訓練することができる。後続の符号化する工程の間に、適切な文字または記号を、判定された結合変化の関数としてライブラリから選択する。
【0093】
試薬および生成物の両方が単一の文字列であるフォーマットとは別に、このフォーマットは、反応部位をマークするために明示的な原子の番号を必要としない非常に短いフォーマットにより際立っている。実際、反応は、変化する結合により暗黙的に定義される。SMARTS化学反応では、全ての試薬および生成物が、新たなSMILES文字列により定義される。原子の順序は、正準形式を含めて、広く変化する場合がある。結果として、SMILES文字列において、どの原子が試薬および生成物において同一であるかを定義するための明示的なインデックス、例えば、[CH3:1][CH2:2][CH3:3](式中、:1、:2および:3は、原子インデックスを定義する)を定義しなければならない。作用因子(Agents)は、典型的には組み込まれない。それらは、正味の化学修飾に寄与しないためである。作用因子および条件は反応によって異なり、反応種に基づいて、ユーザが選択することができる。このような作用因子および条件を、図7に例示されたように、ユーザの裁量で調整することができる。本提案の更なる重要な利点は、大規模データセットについての圧縮性である。実際、このフォーマットは、反応を記述するのに知られている中で最も短いフォーマットである。本出願では、結合の切断、形成および結合の順序の変更を伴う反応に焦点を当てているが、他の種類の結合変化を、この方法で符号化することができる。イオン結合の形成および切断を伴う反応ならびに精製、例えば、キラル分離は、ここでは考慮されない。後者の反応群では、原子のグラフ連結性が変化しない。このような分離を、Bを生成する精製の例として、A.B>Bと記述することができる。
【0094】
対応する表は、異なる種類の結合変化についての可能性のある記号選択を表す。
【表2】
【0095】
試薬において「なし」で示された結合は、反応中に形成される生成物の結合である。生成物において「なし」で示された結合は、反応中に切断された試薬の結合である。
【0096】
特定の実施形態では、符号化する第2の工程120は、判定された変化する結合を表す2つの文字のセットにおいて変化する結合を符号化するように構成されている。第1の文字は、試薬の結合を表し、第2の文字は、生成物の結合を表す。
【0097】
特定の実施形態では、符号化する第2の工程120は、前記変化する結合の符号化の存在を表す2つのニュートラルタグ文字の間に、判定された変化する結合を表す2つの文字を埋め込むように構成されている。
【0098】
このような出力205の例を、図2に示す。
【0099】
提供する工程125を、例えば、GUI上でまたはAPIを使用して行う。
【0100】
図1に、上記開示されたソフトウェアにより実装される方法100をさらに示す。一段階反応、多段階反応および平衡反応のためのこの化学反応グラフ圧縮方法100は、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程105と、
- 前記少なくとも1種の試薬および/または前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第1の工程110と、
- 少なくとも1種の反応試薬の化学構造を表す符号化内の変化する結合を、コンピュータデバイスにより判定する工程115と、
- 判定された少なくとも1つの変化する結合について、結合変化を受ける原子を表す少なくとも1つの文字および結合変化により生じる原子を表す少なくとも1つの文字に関連付けられた少なくとも1つの文字の文字列内の変化する結合を、コンピュータデバイスにより単一の文字列に符号化する第2の工程120と、
- 化学反応の変化する結合の符号化に対応する文字の文字列を、コンピュータインタフェース上で提供する工程125と
を含む。
【0101】
特定の実施形態では、符号化する第1の工程110は、化学反応グラフを行表記に符号化するように構成されている。方法は、符号化する第2の工程120の前に、行表記符号化を拡張する工程130をさらに含む。
【0102】
拡張する工程130を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この拡張する工程130の間に、化学反応グラフの行表記を、その化学反応についての代替的な符号化を依然として提供しながら、符号化される化学反応の性質を変化させないように再編成する。
【0103】
拡張する工程130の結果の例を、図12に示す。
【0104】
特定の変形形態では、反応を、反応符号化または化学反応グラフの縮小工程(図示せず)において、反応部位に縮小することができる。反応符号化のこのような縮小工程を、例えば、符号化する第1の工程110または符号化する第2の工程120から得られる行表記に基づいて行う。それにより、モデル化された化学反応中に不活性のままである全ての原子識別子が除去される。例えば、前記原子識別子および関連する結合が、化学反応の試薬反応段階から生成物段階まで変化しないままである分子中に位置する場合、原子識別子は除去される。
【0105】
反応符号化のこの縮小工程により、化学反応グラフが有用な記号セットにさらに圧縮される。図6に、生成物の形成のために反応部位に縮小された反応615を示す。反応は、第1の隣接原子を含めて示される。
【0106】
反応(図6における615)が反応部位に縮小される変形形態では、化学反応結果620の間に、修飾を受ける原子および結合に限定された線形表記を、対応して得ることができる。このような線形表記を、「SiteSMARTS」とラベル付けすることができる。このような結果は、符号化する第1の工程110の出力に、または符号化する第1の工程110の上流もしくは下流に位置する場合がある反応符号化の専用の縮小工程の出力に、対応することができる。
【0107】
実際、反応において、生成物を生成するためにそれ自体の間で相互作用する化合物である試薬および反応中に変化しない他の化学物質、例えば、触媒、溶媒を区別することができる。このため、原子マッピングは、結合情報が変化する化学物質についてのみ必要とされ、一方で、非相互作用部分/非変化部分をスキップすることができる。
【0108】
反応部位に限定された圧縮化学反応グラフに対応する「SiteCRS」を、
- 反応部位を特定する工程と、
- 場合により、ユーザ指定トポロジー深さまでの隣接原子および/または原子の環もしくは環系中の原子を含む、反応に「関連する」とする全ての部位原子にフラグを立てる工程と、
- 分子から「関連する」とフラグを立てられていない全ての原子を除去する工程と、
- 反応部位との反応の縮小グラフを、場合により、正準な文字の文字列にエクスポートする工程と
を使用して計算することができる。
【0109】
現在のデータセットでは、反応を、SMARTSフォーマット、すなわち、「試薬>作用因子>生成物」を使用して記述することができる。完全な反応についてのSMARTSは、
- 原子および結合変化に基づいて、変化した環境を有する原子を特定する工程と、
- 場合により、ユーザ指定トポロジー深さまでの隣接原子および/または原子の環もしくは環系中の原子を含む、変化を有する全ての原子に、関連するとフラグを立てる工程と、
- 分子から「関連する」とフラグ立てされていない全ての原子を除去する工程と、
- 任意の正準化により、原子上のマップ番号に番号を振り直す工程と、
- SMARTSを、場合により、正準なSiteSMARTSを作成するためにエクスポートする工程と
を適用して、SiteSMARTSに変換される。
【0110】
反応のサブセットは、例えば、NextMove Pistachioデータセット5から分析される。この反応を、公開されたクラスにより分割し、分析することができる。例えば、クラス1.1.1は、チャン-ラムアルキルアミンカップリングを定義する。例えば、
- 正味の反応に関与する試薬および生成物を特定する工程と、
- 作用因子、溶媒および非関与反応を除去する工程と、
- 反応を文字付けるためにSiteSMARTSおよびSiteCRSを計算する工程と
を適用することができる。
【0111】
生成されたSiteCRSを、フィンガープリントの代わりに、文字列タグを使用して反応変換をクラスタリングするのに使用することができる。2つの主な利点がある:化学者は、タグを理解することができ、このため、得られたタグが、精選プロセス中の反応種に関連するかどうかをチェックすることができる。
【0112】
本発明の目的である方法100から得られるフォーマットに従った反応の圧縮化学グラフを、立体化学のための変化を含むように拡張することができる。例えば、{-/}および{-\}は、単結合からアップライトまたはダウンライト単結合への変化を定義し、単結合についての{-^}および{-_}は、四面体中心上の相対的立体化学のために「シングルアップ」または「シングルダウン」への変化を定義する。同様に、二重結合からシングルアップまたはシングルダウンに移行することが可能である。このため、記号{=^}および{=_}を使用することができる。このため、逆方向、例えば、{^=}シングルアップから二重結合および{_=}シングルダウンから二重結合に移行させることができる。このような反応の例は、アルキンの水素化である。反応条件に応じて、化学者は、アルキンからシス-およびトランス-アルケンそれぞれを調製するために、syn-水素化またはanti-水素化を伴う反応を行うことができる。四面体立体中心を有する立体化学反応の例は、酵素クラスアルコールデヒドロゲナーゼによるケトンの第二級アルコールへの生体触媒的還元である。例は、ラズベリーケトンの4-3R--ヒドロキシブチル)フェノールへの還元である。
【0113】
念のために、図2に、上記開示された方法100により得られた、フォーマットされた化学反応グラフ205および210の例を示す。
【0114】
図3に、本発明の目的である方法300の特定の実施形態を示す。この化学反応データセット拡張方法300は、
図1に関して開示された方法100の実装の任意の変形形態から得られたフォーマットに従って、文字列を、コンピュータインタフェース上で受信する工程305と、
- 原子を表す少なくとも1つの文字と対応する原子に関連付けられた結合変化を表す少なくとも1つの文字の少なくとも1つの文字列とをシフトさせるために、文字列を、コンピュータシステムにより並べ替える工程310と、
- 受信された文字列により最初に符号化された反応に対応する文字の拡張された文字列を、コンピュータインタフェース上で出力する工程320と
を含む。
【0115】
機能的かつ構造的に、受信する工程305は、図1に関して開示された受信する工程105の任意の変形形態に類似している。
【0116】
並べ替える工程310は、図1に関して開示された拡張する工程130と機能的かつ構造的に類似している。この工程310の間に、方法100に従ってフォーマットされ、圧縮された化学反応グラフの記号または文字は、単一の化学反応グラフを表す代替的な符号化を提供するように形式的に再編成される。このような例を、図2に見ることができる。この例では、化学反応グラフが、2つの代替的な符号化205および210においてフォーマットされ、圧縮される。
【0117】
特定の変形形態では、本発明の目的である方法300は、図1に関して開示された方法100の実装の任意の変形形態から得られるフォーマットに従って、少なくとも2つの文字列を、コンピュータシステムにより関連付ける工程315を含み、前記各文字列は、同じ化学反応グラフを表す。
【0118】
この関連付ける工程315を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この関連付ける工程315の間に、化学反応グラフのための代替的な圧縮された符号化を、単一の文字列に連結させ、好ましくは、ニュートラル記号または文字、例えば、図2に示された例215におけるドットにより分離することができる。
【0119】
出力する工程320は、図1に関して開示された提供する工程125と機能的かつ構造的に類似している。
【0120】
本発明の使用により達成可能な拡張機能1100のより広い視野を、図11に見ることができる。図11に、以下のような幾つかの可能性のある拡張入力1105,1110および1115を示す。
【0121】
- 本発明の目的であるフォーマットに従って圧縮され、フォーマットされた化学反応グラフ1105、このようなフォーマットは、CRS(「化学反応文字列(chemical reaction string)」)と略される。
【0122】
- 任意の機械可読化学フォーマットにおける1つ以上の有効な試薬および生成物を定義する入力(例えば、ファイル)1110、この入力は、例えば、.mol(「Molfile」)、.sdf(「構造データファイル」)、.xyz(「XYZファイルフォーマット」)ファイルを含む。かつ/または
- 化学反応、例えば、SMARTS符号化化学反応の行表記を表す入力、このようなフォーマットは、RxnSmartsと略される。
【0123】
図11に、以下のような幾つかの可能性のある拡張出力1125,1130,1135,1140および1145を示す。
【0124】
- 原子順序の変化を伴う同じ反応を記述する代替的な圧縮され、フォーマットされた化学反応グラフ1125-正準的な形を、原子順序を標準化するのに使用することができる。
【0125】
- 同じ反応を定義する[1,N]の圧縮され、フォーマットされた化学反応グラフの有限リスト、このリストにより、おそらく、固有の圧縮され、フォーマットされた化学反応グラフのセットに縮小される。
【0126】
- 例えば、ドット文字「.」を使用して区切られた、[1,N]の圧縮され、フォーマットされた化学反応グラフの有限リスト、同じ反応を記述する圧縮され、フォーマットされた化学反応グラフを、固有の圧縮され、フォーマットされた化学反応グラフのセットに縮小することができる。
【0127】
- [1,N]の区切られ、圧縮され、フォーマットされた化学反応グラフの[1,N]の有限リストのリストもしくはセット、
- 同じ反応についての単一もしくは連結された、圧縮され、フォーマットされた化学反応グラフを定義する[1-N]行と[1-M]列とを有する有限行列ならびに/または
- 単一もしくは連結された、圧縮され、フォーマットされた化学反応グラフを定義する[1-N]行と[1-M]列との[1,N]の有限行列のリストもしくはセット。
【0128】
このような拡張1120を、拡張する工程130または上記開示されたような並べ替える工程310と同様に達成することができる。
【0129】
データの拡張を、各種のアプリケーションにおいて使用することができる。
【0130】
- 小さなデータセットのためのモデルの学習のためのデータ増加
- 不均衡データセットの平衡化および/または
- アンサンブル表現を使用したニューラルネットワークまたはモデルの学習。
【0131】
図4に、本発明の目的である方法400の特定の実施形態を示す。この化学反応データセットの前処理方法400は、
- 少なくとも1種の化学反応試薬および少なくとも1種の化学反応生成物を含む少なくとも2つの化学反応グラフのデータセットを、コンピュータインタフェース上で受信する工程405と、
図1に関して開示された方法に従って、少なくとも2つの化学反応グラフを圧縮する工程100と、
- 符号化されたデータセット内の化学反応クラスの分布を、コンピュータシステムにより判定する工程410と、
図3に関して開示された方法に従って、判定された分布の関数として、少なくとも1つの化学反応クラスについてデータセットを拡張する工程300と、
- 前処理されたデータセットを、コンピュータインタフェース上で出力する工程415と
を含む。
【0132】
機能的かつ構造的に、受信する工程405は、図1に関して開示された受信する工程105の任意の変形形態に類似している。この受信する工程405を、受信する工程105の幾つかの連続的もしくはシリアルなインスタンスを実装することによりまたは幾つかのデータセットを1つの入力で受信するように構成された1つの単一の受信する工程105を実装することにより行うことができる。
【0133】
圧縮する工程または圧縮方法100は、図1に関して、幾つかの変形形態で開示されている。
【0134】
判定する工程410を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この判定する工程410の間に、統計分析を、データセットに対して行い、静的または動的許容閾値と比較する。このような閾値は、例えば、絶対値または相対値における反応クラス当たりのサンプルに関して、データセット中の他の反応クラスについてのサンプルに関してである場合がある。「化学反応クラス」という用語は、「化学反応種」(例えば、合成、分解および置換)とも呼ばれる。
【0135】
データセットを拡張する工程または方法300は、図3に関して、幾つかの変形形態で開示されている。代替的には、データセットを拡張するこの工程300は、データセットを拡張するための符号化する第2の工程120の前のデータセットを拡張する工程130の実行の代わりとなる場合がありまたはこれと並行して実行される場合がある。
【0136】
出力する工程415は、図1に関して開示された提供する工程125と機能的かつ構造的に類似している。
【0137】
図5に、本発明の目的である方法500の特定の実施形態を示す。分類器、トランスフォーマまたはリグレッサのためのこの訓練方法500は、
図1に関して開示された方法100の任意の変形形態により得られるような圧縮フォーマットにおいて符号化された化学反応グラフのデータセットを、コンピュータインタフェース上で入力する工程505と、
- 化学反応グラフのデータセットを入力として使用して、化学反応結合の進展を入力の関数として分類するように構成された再帰的ニューラルネットワークアーキテクチャを、コンピュータシステムにより動作させる工程510と、
- 訓練された分類器、トランスフォーマまたはリグレッサを、コンピュータインタフェース上で出力する工程515と
を含む。
【0138】
機能的かつ構造的に、受信する工程505は、図1に関して開示された受信する工程105の任意の変形形態に類似している。この受信する工程405を、受信する工程105の幾つかの連続的またはシリアルなインスタンスを実装することによりまたは幾つかのデータセットを1つの入力で受信するように構成された1つの単一の受信する工程105を実装することにより行うことができる。
【0139】
動作させる工程510を、例えば、訓練セットに基づいて、コンピュータシステム上で再帰的ニューラルネットワークアーキテクチャおよび関連するソフトウェアを実行することにより行う。
【0140】
出力する工程515は、図1に関して開示された提供する工程125と機能的かつ構造的に類似している。
【0141】
リグレッサに関しては、ターゲットとなる「反応収率」、「反応の平衡定数」または「遷移状態エネルギー」に従って訓練することができる。
【0142】
このようなリグレッサを、以下の例のいずれかに従って訓練することができる。
【0143】
- 「Predicting reaction performance in C-N cross-coupling using machine learning」 by D. T. Ahneman, J. G. Estrada, S. Lin, S. D. Dreher, A. G. Doyle - April 13, 2018または
- Schwaller, Philippe; Vaucher, Alain C.; Laino, Teodoro; Reymond, Jean-Louis (2020): Prediction of Chemical Reaction Yields using Deep Learning. ChemRxiv. Preprint. (https://doi.org/10.26434/chemrxiv.12758474.v2)。
【0144】
また、本発明は、図5に関して開示された訓練方法により得られた分類器、トランスフォーマまたはリグレッサを動作させる、化学反応結合進展の予測方法も目的とする。
【0145】
これらの実施形態により、反応部位の検出が可能となる。このような実施形態は、上記に開示されている。
【0146】
また、本発明は、図5に関して開示された訓練方法により得られた分類器、トランスフォーマまたはリグレッサを動作させる、化学反応生成方法も目的とする。
【0147】
このような化学反応生成方法は、以下のようなものを入力として使用する。
【0148】
- 本発明の目的である方法100により得られ、圧縮され、フォーマットされた化学反応グラフの一部における文字の種類を特定するために離散値を含む長さNのベクトル、例えば、ワンホットエンコーダにトークン化されている圧縮され、フォーマットされた化学反応グラフ、
- 本発明の目的である方法100により得られ、可能性のある文字を定義するN行と、圧縮され、フォーマットされた化学反応グラフの一部の長さを記述するM列とを含むN×M次元のワンホット符号化行列にトークン化されている圧縮され、フォーマットされた化学反応グラフ、
- 次の文字を定義する、サイズMのワンホット符号化ベクトル、
- 本発明の目的である方法100より得られ、場合により、文字群として使用することができ、例えば、「{!-}」がベクトル内の単一の位置を定義する、圧縮され、フォーマットされた化学反応グラフにおける柔軟な反応結合および/または
- 文の末尾に停止文字を追加するトークナイザ。
【0149】
このような化学反応生成方法では、例えば、以下を含む4層アーキテクチャをネットワークとして使用する。
【0150】
- シーケンス長NおよびMの可能性のある文字のためのトークン化されたベクトルまたは行列をとる入力層、
- 2から1024までのシーケンス長の1つ以上の再帰的ニューラルネットワーク(RNN)、
- RNNの出力の一部(0から100%未満まで)のドロップアウト層および次の文字の確率を有するサイズMのベクトルの緻密層。
【0151】
このようなモデルを、化学的に正確であるように、ネットワーク内の次の最も可能性の高い文字を訓練することができる。ネットワークは、全ての可能性のある文字の確率を予測し、次の文字をランダムに選択する。書き込みは、有限数Nの有効な反応が生成されるまで、書き込みの再帰的プロセス:選択-予測-選択-予測である。
【0152】
ネットワークの出力は、生成モデルがどれだけ深く訓練されているかに応じて、学習された反応空間内外で、CRSを連続的に書き込む。
【0153】
図12に、生成ニューラルネットワークを訓練する工程1205および反応を生成する工程1210の2つの工程と、関連する、生成ニューラルネットワークを訓練するためにサンプルデータを入力する工程1215と、生成された反応を出力する工程1220とを実行するアーキテクチャ1200をさらに示す。
【0154】
図13に、上記開示された訓練方法1300をさらに示す。この方法1300では、
- 圧縮され、フォーマットされた(符号化された)化学反応グラフは、トークナイザ1310に入力され(1305)、
- 前記トークナイザ1310は、
- 圧縮され、フォーマットされた(符号化された)化学反応グラフを、離散ベクトルまたはワンホット行列型のいずれかであるネットワーク入力1315にトークン化する工程と、
- 各トークンを、入力され、圧縮され、フォーマットされた(符号化された)化学反応グラフ中の次の文字とペアリングする工程1325と
を動作させるように構成されている。前記トークンは、RNNのための学習ターゲット1320として使用され、前記学習ターゲット1320は、例えば、ワンホットベクトルに編集されている。
【0155】
図14に、図13の代替方法1400を示す。この方法1400では、原子間の結合変化を符号化する文字の文字列が、特定のユニタリトークンとして符号化される。
【0156】
図6に、本発明の目的であるソフトウェアにより、化学反応を符号化している状態600の特定の実施形態を示す。
【0157】
例えば、参照符号605および610に関して、化学反応グラフを図6に見ることができる。図6に、ウィリアムソンエーテル合成を例として示す。参照符号605は、ジエチルエーテルを形成するためのエチルアルコールと臭化エチルとの間のエーテル合成を指定し、610は、エトキシシクロヘキサンを形成するためのシクロヘキサノールと臭化エチルとの間のエーテル合成を指定する。
【0158】
図7に、本発明の目的であるソフトウェアにより、平衡化学反応を符号化している状態700の特定の実施形態を示す。これらの状態700は、
- 反応定数Kを有し、完全な原子マッピングおよび正味の化学平衡を示す平衡反応705と、
- 順方向反応710についてのSMARTSおよび圧縮された化学反応グラフと、
- 逆方向反応715についてのSMARTSおよび圧縮された化学反応グラフと
を含む。
【0159】
順方向反応と逆方向反応との間の圧縮され、フォーマットされた結合は、文字の文字列内の結合順序を変化させることにより、本発明の目的であるフォーマットの容易な可逆性を示す。これは、合成および逆合成のような逆の作用を表す反応710と715との間に示される「=」と「!」との文字スワップにおいて容易に見ることができる。これにより、記憶されるデータの量と、機械学習アプリケーションのためにより少ないサンプルを使用する能力とが大幅に減少する。
【0160】
例えば、任意の反応、例えば、反応705を、定数Kが生成物と試薬との間の比を定義することができる平衡により形式的に表すことができる。Kの値は、ゼロから無限大まで変化することができる。この現象を、両方のCRS表現を使用する(好ましくは、順方向反応のCRSと逆方向反応のCRSとを組み合わせる)ことにより、反応データを拡張するのに使用することができる。
【0161】
本発明のフォーマットの更なる重要な利点は、大規模データセットについての圧縮性である。圧縮された化学反応グラフは、現在利用可能な正味の化学反応を定義するための最短フォーマットを定義する。
【0162】
また、図7に、反応条件、例えば、溶媒および/または触媒を、CRS文字の文字列に加えるためのフォーマットの能力も示す。ここに示された例は、グリニャール反応であり、これは、溶媒ジエチルエーテル中でマグネシウムMgを使用して行われる。CRS中で「O」と化学的に記述された水は、加水分解により反応を停止させるのに使用される。この種のCRSは、所定のCRSについての反応条件を提案するための「条件付きCRS」と見なすことができる。
【0163】
図8に、本発明の目的であるソフトウェアの特定の実施形態800の命令を模式的に示す。これらの命令は、
- 例えば、アルカリ条件(KOH)および溶媒(Me2SO)を含むRxnSMARTSフォーマットを入力すること(805)と、
- 反応RxnSMARTSを関与する試薬および生成物のみでクリーニングすること(810)(この工程によっても、試薬および/または生成物をニュートラルにし、正味の化学変換が定義される)と、
- 原子マップ数を完成させて(815)、完全な正味の化学反応を定義することと、
- CRS、SiteCRSおよび/またはSiteSMARTSを生成すること(820)と
である。
【0164】
図9に、本発明の目的であるソフトウェアにより、多段階反応符号化900内において符号化された連続反応段階(AおよびB)を模式的に示す。
【0165】
特定の実施形態では、2つの原子間の一連の結合変化により表される多段階反応が、一連の単一の文字により符号化され、各単一の文字は、前記2つの原子間の結合の連続的な状態を表し、文字の順序は、前記2つの原子間の結合変化の順序を表す。
【0166】
このような実施形態では、2つの原子間の結合変化が、このように符号化される:「原子記号1」「{」(ニュートラル文字)「試薬の結合文字」「第1段階の生成物の反応結合文字」「第2段階の生成物の反応結合文字」「第n段階の生成物の反応結合文字」「}」(ニュートラル文字)「原子記号2」。
【0167】
図10に、本発明の目的であるソフトウェアにより、平衡反応符号化1000内に符号化された平衡反応を模式的に示す。
【0168】
本明細書に開示された新規な反応フォーマットは、正味の化学変換を記述するための最短の可能性のあるシンタックスである。実際、新たに生成された圧縮化学反応グラフは、同じ反応についての対応するRxnSMARTSと比較した場合、約20%の長さを有する(図6図10)。
【0169】
また、このような化学反応生成方法を、図15図27の観点からも理解することができる。
【0170】
近年、生成ニューラルネットワークは、現実世界の例から現実的なin silicoデータを生成するための強力な深層学習法となっている。生成ニューラルネットワークは、現実的なコンピュータ生成画像および動画を作成するために、画像および音声のためのディープフェイクを生成するのにうまく使用されている。深層生成モデルの例は、潜在空間、典型的には、Z(μ、σ)からのサンプリングに基づき、圧縮されたパラメータのセットを使用するかまたは2つのネットワーク、すなわち、ジェネレータGとディスクリミネータDとが繰り返し競合して、ディスクリミネータにより現実のデータともはや区別することができない現実的な合成解を生成する敵対的生成ネットワークを使用する、変分オートエンコーダ(VAE)を含む。
【0171】
化学において、生成モデルは、新規な分子を生成するために上記技術を使用する分子発見に非常に有用である。特に、化学言語SMILESを記述することを学習した生成ニューラルネットワークは、自然言語処理から公知の方法論を使用して使用されている。これらのアプローチは、分子レベルの処理に限定される。本発明は、確率的サンプリングによる検査メカニズムを含むことを提案する。この新たな戦略では、最高レベルの創造性を維持するための早期停止機能の適応を定義する生成的検査ネットワークを導入した。この検査メカニズムでは、モデルは、化学的に正しいSMILES文字列、すなわち、エラーなしに化学ツールキットにより処理することができるSMILESを記述する上でのモデルの成功を評価するために、妥当なサイズの統計的サンプルを生成する。例示されたように、ニューラルネットワークの訓練は、生成されたエントリに対してネットワークが統計的に安定した後に停止される。
【0172】
本発明の目的であるフォーマットは、化学反応グラフの1行表記を定義するためのシンタックスを提供する。このシンタックスは、限定的な意味ではないが、「化学反応文字列(Chemical Reaction String)」(CRS)と呼ばれる場合があり、行表記に反応結合を導入する。このシンタックスは、現在公知の反応SMARTSの大きな圧縮を定義し、明示的な原子インデックス付けを何ら必要としないため離れている。CRSを、補助的な非修飾分子を含めて拡張することができる。CRSシンタックスは、1)使用された結合記号の反転による反応の容易な可逆性;2)柔軟な結合に追加の工程を加えることによる多段階反応のための容易な拡張という2つの主な利点を含む。本明細書において、これらの能力は、以下の反応のセットについて例示される:1)基を脱離するようなヨウ素との8つの置換反応のセット。2)アルキン、アルケンおよびアルカン間の多段階水素化および脱水素化。最後に、CRS文字列により一段階反応または多段階反応を生成する主な利点は、複数のタスクの即時生成である。まず、任意の単一の反応CRSは、試薬、生成物および反応を同時に定義する。このため、次に、反応に対する条件、例えば、不変の分子または溶媒を含むことが可能である。例:グリニャール反応についての「CC({-!}Br)C(C){=-}O.CCOCC.[Mg].O」。この文字列において、CCOCCおよび[Mg]は、補助試薬である。
【0173】
1つのこのような例は、以下の技術的考察を利用する。
【0174】
- データセット:本研究では、PubChemに公開されている分子を使用して生成されたデータセットを使用した。周知の反応に基づいて後に生成された反応データセットを得た。一段階反応の例のために、強力な脱離基ヨウ素についての置換反応を使用した。多段階反応のために、アルケンを介したアルカンへのアルキンの水素化を使用した。
【0175】
- 置換反応:PubChemから、単一のヨウ素を有する脂肪族および芳香族ヨウ素分子を選択した。ヨウ素についての8つの置換を適用し、8つの異なる一段階置換反応を定義した(図15)。これらの反応1500において、ヨウ素は、より強い脱離基であり、反応は、非平衡反応と考えられる。
【0176】
- 水素化反応:PubChemから、単一の脂肪族炭素-炭素三重結合を有する分子を選択した。この結合を、多段階反応で変換して、反応1600 アルキン>アルケン>アルカンを定義した(図16)。全ての順方向反応を、水素化結合、すなわち、{#=-}を多段階脱水素結合、すなわち、{-=#}に置き換えることにより反転させた。
【0177】
- ニューラルネットワーク:この例では、再帰的ニューラルネットワークを使用して、次の可能性のある文字を予測した。このため、このようなネットワークは、以前に書き込まれた文字のシーケンスに基づいて、次の可能性のある文字をサンプリングする反復ライタを定義する。本明細書で使用されたニューラルネットワークは、以下の層から構成される(図17)。
【表3】
【0178】
- 例示的なニューラルネットワークは、カテゴリクロスエントロピーを使用して訓練される。ニューラルネットワークの訓練を、検査メカニズムを使用することにより停止させた。検査メカニズムは、数十または数百の生成されたエントリの統計的に関連するサンプルを生成し、有効なエントリの数を測定する早期停止機能である。早期停止機能は、モデルがユーザ指定の有効エントリの割合に基づいて統計的に安定した結果を示すとき、訓練を停止させる。有効エントリの割合は、その割合が最低10エポックの使用サンプルサイズについての90%信頼区間内にある場合、統計的に安定していると見なされる。また、この早期停止機能のためのジェネレータとして、以下に記載されるようなジェネレータメカニズムも使用されている。
【0179】
生成に使用されるニューラルネットワークは、本明細書において、先に書き込まれた文字に基づいて、次の可能性のある文字を予測するのに使用される。このため、ネットワークは、反復ライタである。図17に、ネットワークレイアウトを示す。本出願を例示するために本明細書で使用されるネットワークは、シーケンスを入力として記述するワンホットエンコーダ行列をとるネットワークである。図18に、カテゴリクロスエントロピー損失関数の進行を示す学習過程のモニタリングプロットを示す。図19に、生成ニューラルネットワークにより生成された有効な反応の割合を示す、生成検査ネットワークに使用される早期停止機能を示す。太線および破線は、生成された100の反応のサンプルサイズについて、関連付けられた90%信頼区間を有する平均%を示す。結果が90%信頼区間内で統計的に安定していれば、訓練は、早期に停止される。このため、上記例では、訓練を、65エポック後に停止させた。
【0180】
- 生成:ニューラルネットワークの訓練が完了すると、すなわち、ニューラルネットワークが、有効な反応の生成のための統計的に安定した結果を得たとき、生成プロセスが開始される。ジェネレータは、反復ライタであり、最後の文字数「n」に基づいて、次の可能性のある文字を予測する。書き込まれた文字が少なかった場合、ジェネレータは、全ての文字を使用する。使用される最初のシードは、前の分子の終わりを定義するための「\n」である。生成の間に、この方法は、文字、例えば、「\nC」、「\nCC」、「\nCCC」等を繰り返し書き込む。サイズn+1に達すると、この方法は、単語の最後のn文字のみを使用して、次の文字を予測する。
【0181】
- 評価:180の反応セットについてのモデル評価を、正しい反応の数を計数し、SiteCRS、すなわち、反応種を定義する反応部位の鍵を抽出することにより行う。結果に基づいて、幾つかの反応がデータセット中の比より頻繁に、より少ない頻度でまたは近似比で生成されるかどうかが評価される。この計算のために、無効な反応の数は、計算において無視され、表中に別個に列記されている。
【0182】
このような例により、以下に開示される結果がもたらされる。
【0183】
図20図22に、置換反応についての生成結果を示す。(#)でフラグを立てられた反応を、読み取り可能であるが、価数エラーの理由で無効な反応と定義した。(^)でフラグを立てられた反応は、複数種の置換の組み合わせで構成される反応である。「公知」という語は、文献から公知の反応とは逆である。「可能性のある」という語は、反応する可能性がある場合があることを示す。「二段階」とコメントされた「可能性のある」との語は、反応がおそらく2つの独立した段階で構成されていることを示し、「ワンポット」は、反応が異なっていても、両方の段階が一段階で行われ得ることを示す。
【0184】
図23に、入力反応について生成された例を示す。ジェネレータにより提案される反応は、有効な試薬および有効な生成物のための反応を定義する。ジェネレータを、可能性のある化学反応を仮定するための知識を使用して専ら訓練し、収率に関する情報を使用しては訓練しなかった。A)脂肪族ヨウ素から塩素への置換。B)脂肪族ヨウ素から臭素への置換。C)芳香族ヨウ素から塩素への置換。D)芳香族ヨウ素から臭素への置換。E)脂肪族ヨウ素からアミンへの置換。F)ウィリアムソン型反応を使用したメチルエーテル形成。G)ヨウ素の置換による芳香族メトキシル化。H)ヨウ素から第一級アミンへの芳香族置換。
【0185】
図24に、多段階水素化および脱水素化についての結果を示す。
【0186】
図25に、モデルの入力反応について生成された反応の例を示す。全ての反応を、右側に示すSiteCRSを使用して、多段階反応として生成している。例示のために、多段階を、その第1および第2の段階で分解した。ここで示された反応は、in silicoで生成され、合成の可能性については評価しなかった。
【0187】
理解することができるように、本発明の目的である生成方法により、芳香族ヨウ素および脂肪族ヨウ素についての8つの異なる置換反応から構成される単一の反応データセットが作成される。全ての置換は、強力な脱離基であるヨウ素が別の求核剤により置換されるという点で共通している。結果として、反応ジェネレータは、訓練セットにおいて利用可能な全ての反応についてジェネレータの例が可能であることが分かる。なお、有効な反応の全ての割合は、無効な反応の数を除いて計算されていることに留意されたい。結果として、表示された密度値を、入力セット内の反応密度と比較することができる。全てのサンプルにおいて、生成されたセットにおける密度は、入力セットにおける密度から明らかに変化する場合があることが観察される。それにもかかわらず、反応の大部分は、生成ニューラルネットワークに提示される反応のクラス内に入る。統計的変動は、明らかに、この生成ニューラルネットワークの重要な利点であり、ジェネレータは、予測された確率の境界内の次の文字の選択に基づいて自由に生成することができる。結果として、生成された反応における分布は、生成された分子のセット間で変化する場合がある。加えて、ジェネレータの自由度は、新たな反応の創出に重要な利点である。これらの新たな反応は、複数の部位での置換を含むが、反応は、以前はジェネレータに知られていなかった新たなアイデアを定義する場合がある。このような反応の例は、N-ヨードピロールからN-アミノピロールへの置換である。この例は、入力データセットが炭素原子上での置換のみを含んでいたため、注目に値する。このため、まとめると、反応ジェネレータは、化学的に正しい分子を書き込むという獲得された知識に基づいて、同じ反応空間内の両方の反応を提案することができかつ新たな反応を生成することができる。ジェネレータの創造性を維持するための本質的なメカニズムは、ジェネレータの知識を定期的に試験して、有効な化学反応を生成する確率的試験メカニズムの使用である。
【0188】
図26に、ジェネレータにより生成される新たな反応の例を示す。入力セットでは未知である、すなわち、最初に定義された8つの反応で構成されていたにもかかわらず、ジェネレータは、新たな反応を生成した。全ての反応は、試薬、生成物および反応矢印の上のSiteCRSで示される。例は、A)アルカンの脱ハロゲン化、B)アミン上でのヨウ素から塩素への置換、C)脂肪族+芳香族ヨウ素から臭素への置換、D)カルボアニオンによるヨウ素の置換、E)N-ヨードピロールからN-アミノピロールへの置換、F)ヨウ素から臭素への二重芳香族置換である。
【0189】
多段階反応の例として、ジェネレータを、多段階水素化、すなわち、アルキンからアルケンへおよび生成されたアルケンからアルカンへの水素化について訓練した。データセット内で、脱水素化も、多段階反応、すなわち、アルカンからアルケンおよびアルキンへの反応として定義した。このため、水素化および脱水素化をそれぞれ、SiteCRS C{#=-}CおよびC{-=#}で書き込む。CRSシンタックスを、柔軟性があり、複数の反応段階に対応できるように選択した。多段階水素化のためのSiteCRS、すなわち、C{#=-}Cは、2つの水素化反応:1)C{#-}Cと書き込まれたアルキンからアルカンおよび2)C{=-}と書き込まれたアルケンからアルカンの内部結合である。二段階反応の例は、先に示された単一反応の最初の拡張である。ユーザの裁量で、この柔軟な結合種を、第3、第4等の反応を定義するために追加の文字を含むように拡張することができる。先の結果と比較して、反応ジェネレータが、多段階反応を考慮しなければならなかったにもかかわらず、これらの反応のためのジェネレータは、有効な反応を生成するより高い成功率を有することが明らかに分かる。主な違いは、分子のセットにおける多様性の低下であり、すなわち、このデータセットに使用された全ての分子が、脂肪族アルカン、アルケンおよびアルキンであり、一方、置換データセットは、芳香族化合物と脂肪族化合物との両方を含む。図24に、180の生成された反応の3つのランおよび180の生成された例の3つのランについての生成結果をまとめる。この分子セットの多様性の低下も、創造性のレベルの低下と共に見ることができる。実際、提案された新たな反応のセットは非常に限られている。それにもかかわらず、ジェネレータは、新たな化学の生成を示し、新たな反応を仮定している。まず、ジェネレータは、複数の反応部位、例えば、2つの三重結合を有する分子を定義する「{#=-}.{#=-}」を有する分子を生成したことが分かる(図27C図27D)。これは、モデルが単一の部位で構成されるデータセットについて訓練されたため、注目に値する。次に、ジェネレータは、平衡反応、例えば、「C{-=-}C」および「C{#=#}C」を導入した。これらのSiteCRSは、アルカンからアルケンへの脱水素化とアルキンからアルケンへの水素化についての平衡反応を定義している(図27A図27B)。このネットワークは、どのような種類の一段階反応、二段階反応または多段階反応にも対応できるように開いている。ニューラルネットワークにより生成された平衡(図27A図27B)は、特殊な種類の二段階反応であり、このため、CRSフォーマットを使用して扱うことができる。
【0190】
図27に、多段階反応についての新たな反応生成を示す。上記反応は、データセットには示されていない。この例は、訓練は単一反応のみを含んでいたにもかかわらず、2つの平衡反応(AおよびB)の生成および2つの多段階反応の生成を含む。A)アルカン-アルケンの脱水素化についての平衡。B)アルキン-アルケンの水素化についての平衡。C)2つの部位での水素化反応。D)2つの部位での脱水素化反応。
【0191】
反応の生成を標的とする他の実施形態では、AIアルゴリズムを、化学空間のマイニングのために設定することができる。それにより、多様性が維持され、化学を確実に書き込むモデルの最も早い可能性がある段階を選択するための統計的検査メカニズムが導入される。同じアルゴリズムを適用して、上記開示されたような反応を生成することができる。
【0192】
生成された「CRS」の主な利点は、1)生成されたCRSから抽出することができる生成物;2)生成されたCRSから抽出することができる試薬を含む。次いで、生成された経路を、その経路が既存の出発物質から可能であるかどうかを調べることができる。
【0193】
このため、主な利点は、生成物および経路が単一の生成により生成されることである。単一分子ではなく反応を生成する可能性は、現在のアプローチとは非常に異なる。現在のアプローチでは、1)分子を生成し/定義する;2)可能性のある合成について検討する。
【0194】
アプリケーション「Generation」には、CRS生成を有する。この出願についての特許を防御しなければならず、追加の出願特許をバックアップとして検討しなければならない場合がある。CPUコンピュータが、化学空間を迅速にマイニングし、化学空間のマイニングが、新たな分子を特定するのに不可欠なツールであることが示された(公開データソース、例えば、PubChemは、非常に少ない候補分子しか提供しない)。
【0195】
回帰および分類のためのアプリケーションを標的とする他の実施形態では、以下に定義されるアプリケーションが、分子自体の予測と、生成されたCRS文字列との両方に適用される。CRSは、目的の分子を生成する反応を定義する。結果として、分子についての任意の予測標的は、CRSでの予測についての関心事でもある。
【0196】
例えば、
- 再生可能炭素についての回帰/分類:提案された反応から、アルゴリズムにより、経路が再生可能炭素の経路であるかどうかが分かるであろう。使用される全ての出発物質が「再生可能」である場合、生成物は、「再生可能」と言える。含量が高いほど、将来の受け入れが良好である。
【0197】
- 酵素反応についての回帰/分類:反応から、反応が酵素反応である場合がある場合、回帰/分類により予測することができる。酵素反応の利益は、生成物が「自然」と考えられることである。これも、将来の受け入れを押し進めるであろう。
【0198】
- 反応収率についての回帰/分類:反応収率がほとんど報告されていない場合でも、反応が機能するかどうかを大まかに推定することができる。
【0199】
- 熱力学的特性および遷移状態についての回帰/分類:このような予測は、合成の容易さまたは合成の収率を特定するのに有益である場合があるエネルギー予測である。
【0200】
- 嗅覚または味覚のための関連標的についての回帰/分類:生成された生成物について、以下を特定することが可能となる場合がある:1)生成物を、市場に導入することができるかどうか(「評価運命」);2)嗅覚ディスクリプタ;3)関連する感覚および物理化学的特性、例えば、臭気検出閾値、臭気値、ヘンリー、溶解度、logP、揮発性および/または蒸気圧;4)嗅覚受容体に対する活性;4)味覚受容体活性(例えば、甘味を増強するアロステリックモジュレーター);5)トップハートベースの注釈分類:これは、強度を定義する測定基準である。予測のためのメカニズムを変化させることができ、化学フォーマットにおける知識ベースの方法、古典的な機械学習方法およびディープラーニング方法を含むことができる。
【0201】
- MSまたはNMRスペクトルの回帰/分類:MSおよびNMRスペクトルの予測を使用して、新たな分子についての同一性を確認することができる。
【0202】
- 不純物の予測についての回帰/分類:このようなアプリケーションは、反応により生成される不純物およびその量を予測するのに役立つ場合がある。ここでは、主に立体異性体(例えば、R-リモネンまたはS-リモネン)および位置異性体(パラ-リラールおよびメタ-リラール)の混合物について考える。ただし、予測アルゴリズムは、生成される他の不純物も予測することができる。
【0203】
- 危険性の予測についての回帰/分類:ここでは、生成物の安定性、あらゆる種類の毒性、あらゆる種類の蓄積(土壌、水、...)を評価する必要がある。
【0204】
- 生産コストについての回帰/分類:この方法は、反応の生成を検討する。
【0205】
- 変化する結合の回帰/分類:反応予測を得るために、生成物における変化する結合を予測する(SMILES in=>CRS out)。このような予測を、おそらく、特性:1)市場での成分、2)再生可能炭素、3)酵素反応または4)高収率反応のいずれかについての定量的報酬で強化することができる(強化学習)。強化学習では、幾つかの選択基準を満たすため、特に良好な解に対して報酬を与える。
【0206】
理解されるように、任意の実施形態を、以下の化学反応の非限定的なリストのうちの任意の1つを符号化し、分類しまたは生成するのに使用することができる:
【表4-1】
【表4-2】
【表4-3】
【表4-4】
【表4-5】
【表4-6】
【表4-7】
【表4-8】
【表4-9】
【表4-10】
【表4-11】
【表4-12】
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23A)】
図23B)】
図23C)】
図23D)】
図23E)】
図23F)】
図23G)】
図23H)】
図24
図25
図26A)】
図26B)】
図26C)】
図26D)】
図26E)】
図26F)】
図27
【国際調査報告】