特表2023-545891 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フイルメニツヒ　ソシエテ　アノニムの特許一覧

特表2023-545891化学反応グラフ符号化ソフトウェア、対応する方法および関連するデータアプリケーション

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23A)
23B)
23C)
23D)
23E)
23F)
23G)
23H)
24
25
26A)
26B)
26C)
26D)
26E)
26F)
27

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-01

(54)【発明の名称】化学反応グラフ符号化ソフトウェア、対応する方法および関連するデータアプリケーション

(51)【国際特許分類】

G16C 20/10 20190101AFI20231025BHJP

G16C 20/70 20190101ALI20231025BHJP

【ＦＩ】

G16C20/10

G16C20/70

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023502970

(86)(22)【出願日】2021-10-26

(85)【翻訳文提出日】2023-03-16

(86)【国際出願番号】 EP2021079732

(87)【国際公開番号】W WO2022090263

(87)【国際公開日】2022-05-05

(31)【優先権主張番号】20203945.9

(32)【優先日】2020-10-26

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】21171478.7

(32)【優先日】2021-04-30

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009287

【氏名又は名称】フイルメニツヒソシエテアノニム

【氏名又は名称原語表記】ＦｉｒｍｅｎｉｃｈＳＡ

【住所又は居所原語表記】７，ＲｕｅｄｅｌａＢｅｒｇｅｒｅ，１２４２Ｓａｔｉｇｎｙ，Ｓｗｉｔｚｅｒｌａｎｄ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】ギヨームゴダン

(72)【発明者】

【氏名】ルートファンデュールセン

(57)【要約】

一段階、多段階および平衡反応のための化学反応符号化方法（１００）は、少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程（１０５）と、前記少なくとも１種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第１の工程（１１０）と、前記少なくとも１つの試薬および前記生成物の化学構造を表す符号化内の変化する結合を、コンピュータデバイスにより判定する工程（１１５）と、判定された少なくとも１つの変化する結合について、結合変化を受ける原子を表す少なくとも１つの文字、判定された変化する結合の種類を表す少なくとも１つの文字および結合変化により生じる原子を表す少なくとも１つの文字を、コンピュータデバイスにより単一の文字列に符号化する第２の工程（１２０）であって、変化する結合は、判定された前記変化する結合を表す２つの文字のセットにより符号化され、第１の文字は、試薬の結合を表し、第２の文字は、生成物の結合を表し、各文字は、１つの文字が１つの結合種の変化を表す全単射文字のライブラリ内で選択される、符号化する第２の工程（１２０）と、化学反応の変化する結合の符号化に対応する文字の文字列を、コンピュータインタフェース上で提供する工程（１２５）とを含む。

【特許請求の範囲】

【請求項1】

一段階反応、多段階反応および平衡反応のための化学反応符号化ソフトウェアにおいて、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程（１０５）と、
－前記少なくとも１種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第１の工程（１１０）と、
－前記少なくとも１種の反応試薬および前記生成物の化学構造を表す前記符号化内の変化する結合を、コンピュータデバイスにより判定する工程（１１５）と、
－判定された少なくとも１つの変化する結合について、結合変化を受ける原子を表す少なくとも１つの文字、判定された変化する結合の種類を表す少なくとも１つの文字および前記結合変化により生じる原子を表す少なくとも１つの文字を、コンピュータデバイスにより単一の文字列に符号化する第２の工程（１２０）であって、変化する結合は、判定された前記変化する結合を表す２つの文字のセットにより符号化され、第１の文字は、前記試薬の結合を表し、第２の文字は、前記生成物の結合を表し、各文字は、１つの文字が１つの結合種を表す全単射文字のライブラリ内で選択される、符号化する第２の工程（１２０）と、
－前記化学反応の変化する結合の前記符号化に対応する前記文字の文字列を、コンピュータインタフェース上で提供する工程（１２５）と
に対応する命令を実行することを特徴とする、ソフトウェア。

【請求項2】

前記符号化する第２の工程（１２０）が、前記変化する結合の符号化の存在を表す２つのニュートラルタグ文字の間に、判定された前記変化する結合を表す２つの文字を埋め込むように構成されている、請求項１記載のソフトウェア。

【請求項3】

２つの原子間の一連の結合変化により表される多段階反応が、一連の単一の文字により符号化され、各単一の文字が、前記２つの原子間の結合の連続的な状態を表し、前記文字の順序が、前記２つの原子間の結合変化の順序を表す、請求項１または２記載のソフトウェア。

【請求項4】

一段階反応、多段階反応および平衡反応のための化学反応符号化方法（１００）において、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程（１０５）と、
－前記少なくとも１種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第１の工程（１１０）と、
－前記少なくとも１種の反応試薬および前記生成物の化学構造を表す前記符号化内の変化する結合を、コンピュータデバイスにより判定する工程（１１５）と、
－判定された少なくとも１つの変化する結合について、結合変化を受ける原子を表す少なくとも１つの文字、判定された変化する結合の種類を表す少なくとも１つの文字および前記結合変化により生じる原子を表す少なくとも１つの文字を、コンピュータデバイスにより単一の文字列に符号化する第２の工程（１２０）であって、変化する結合は、判定された前記変化する結合を表す２つの文字のセットにより符号化され、第１の文字は、前記試薬の結合を表し、第２の文字は、前記生成物の結合を表し、各文字は、１つの文字が１つの結合種の変化を表す全単射文字のライブラリ内で選択される、符号化する第２の工程（１２０）と、
－前記化学反応の変化する結合の前記符号化に対応する前記文字の文字列を、コンピュータインタフェース上で提供する工程（１２５）と
を含むことを特徴とする、方法（１００）。

【請求項5】

２つの原子間の一連の結合変化により表される多段階反応が、一連の単一の文字により符号化され、各単一の文字が、前記２つの原子間の結合の連続的な状態を表し、前記文字の順序が、前記２つの原子間の結合変化の順序を表す、請求項４記載の方法（１００）。

【請求項6】

前記符号化する第１の工程（１１０）が、前記化学反応グラフを行表記に符号化するように構成されており、前記方法が、前記符号化する第２の工程（１２０）の前に、前記行表記符号化を拡張する工程（１３０）をさらに含む、請求項４または５記載の方法（１００）。

【請求項7】

前記符号化する第２の工程（１２０）が、コンピュータメモリから試薬および生成物の結合テーブルを、コンピュータデバイスにより抽出する工程（１２１）を含み、前記符号化が、前記結合テーブルの関数として実行される、請求項４または６記載の方法（１００）。

【請求項8】

前記符号化する第２の工程（１２０）が、前記符号化する第１の工程（１１０）から得られた第１の符号化から、少なくとも１種の試薬および／または生成物からの少なくとも１つの原子識別子を除去する工程を含み、前記原子および関連する結合が、前記化学反応の試薬反応段階から生成物段階まで変化しないままである生成物および／または試薬中に位置する場合、前記各原子が、前記判定する工程（１１５）の結果として除去される、請求項４から７までのいずれか１項記載の方法（１００）。

【請求項9】

物理デバイス内で前記化学反応を行うことにより、符号化された前記化学反応の生成物を取得する工程（１３５）を含む、請求項４から８までのいずれか１項記載の方法（１００）。

【請求項10】

文字列（２０５，２１０）を含む符号化された化学反応において、
請求項４から９までのいずれか１項記載の方法（１００）により得られることを特徴とする、符号化された化学反応。

【請求項11】

化学反応データセットの拡張方法（３００）において、
－請求項１０記載の符号化に従って、文字列を、コンピュータインタフェース上で受信する工程（３０５）と、
－原子を表す少なくとも１つの文字と、前記対応する原子に関連付けられた結合変化を表す少なくとも１つの文字の少なくとも１つの文字列とをシフトさせるために、前記文字列を、コンピュータシステムにより並べ替える工程（３１０）と、
－受信された前記文字列により最初に符号化された反応に対応する拡張された文字列を、コンピュータインタフェース上で出力する工程（３２０）と
を含むことを特徴とする、拡張方法（３００）。

【請求項12】

請求項９記載のフォーマットに従って、少なくとも２つの文字列を、コンピュータシステムにより関連付ける工程（３１５）をさらに含み、各前記文字列が、同じ化学反応グラフを表す、請求項１１記載の拡張方法（３００）。

【請求項13】

化学反応データセットの前処理方法（４００）において、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む少なくとも２つの化学反応グラフのデータセットを、コンピュータインタフェース上で受信する工程（４０５）と、
－請求項４から９までのいずれか１項記載の方法に従って、少なくとも２つの化学反応グラフを圧縮する工程（１００）と、
－符号化された前記データセット内の化学反応クラスの分布を、コンピュータシステムにより判定する工程（４１０）と、
－請求項７または８記載の方法に従って、判定された前記分布の関数として、少なくとも１つの化学反応クラスについてデータセットを拡張する工程（３００）と、
－前処理された前記データセットを、コンピュータインタフェース上で出力する工程（４１５）と
を含むことを特徴とする、前処理方法（４００）。

【請求項14】

分類器、トランスフォーマまたはリグレッサのための訓練方法（５００）において、
－請求項８記載の圧縮された符号化において符号化された化学反応グラフのデータセットを、コンピュータインタフェース上で入力する工程（５０５）と、
－前記化学反応グラフのデータセットを入力として使用して、化学反応結合の進展を入力の関数として分類するように構成された再帰的ニューラルネットワークアーキテクチャを、コンピュータシステムにより動作させる工程（５１０）と、
－訓練された分類器、トランスフォーマまたはリグレッサを、コンピュータインタフェース上で出力する工程（５１５）と
を含むことを特徴とする、訓練方法（５００）。

【請求項15】

化学反応結合進展の予測方法において、
請求項１４記載の方法（５００）により得られた分類器、トランスフォーマまたはリグレッサを動作させることを特徴とする、予測方法。

【請求項16】

化学反応生成方法において、
請求項１４記載の方法（５００）により得られた分類器、トランスフォーマまたはリグレッサを動作させることを特徴とする、化学反応生成方法。

【請求項17】

コンピュータ実装された分類器において、
前記分類器、トランスフォーマまたはリグレッサが、請求項１４記載の方法（５００）により得られることを特徴とする、分類器。

【請求項18】

コンピュータプログラムにおいて、
請求項１４から１６までのいずれか１項記載の方法（５００）を動作させるための命令を含むことを特徴とする、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、化学反応グラフ圧縮ソフトウェア、対応する方法、化学反応グラフフォーマット、化学反応データセットの拡張方法、化学反応データセットの前処理方法、分類器、トランスフォーマまたはリグレッサのための訓練方法、化学反応結合進展の予測方法、化学反応生成方法、コンピュータ実装された分類器、トランスフォーマまたはリグレッサおよび関連するコンピュータプログラムに関する。本発明は、特に、医薬品、香料、香味料、洗浄製品、フレグランス設計および嗅覚検査、芳香剤、微細フレグランス香料および香味設計を含む（が、これらに限定されない）有機化学の分野に適用される。

【0002】

発明の背景
化学種および化学反応のデジタルモデリングの分野において重要な符号化システムの１つは、行表記、例えば、Ｓｉｍｐｌｉｆｉｅｄｍｏｌｅｃｕｌａｒ－ｉｎｐｕｔｌｉｎｅ－ｅｎｔｒｙｓｙｓｔｅｍ（ＳＭＩＬＥＳ）フォーマットである。このようなフォーマットは、多くのソース、例えば、共同百科事典ウィキペディアを含めて、豊富に文書化されている。

【0003】

このようなフォーマット、例えば、ＳＭＡＲＴＳおよびＳＭＩＲＫＳは、化学的相互作用をモデル化するための理解および能力に役立ってきたが、欠点が現れ始めている。

【0004】

－化学反応を符号化するために、過剰な数の文字が必要であり、対応する物理的メモリ空間が占拠される。これは、このようなフォーマットを使用するシステムのためのより長い伝送および処理時間を意味する。

【0005】

－このようなフォーマットの性能は、このフォーマット内に記憶されている過剰な量の可能性のある無関係な情報のために、機械学習アプリケーションにおいて低下する。

【0006】

－より古いフォーマット、例えば、ＳＭＡＲＴＳまたはＳＭＩＲＫＳ文字列において、この文字列は、ドットで分離された試薬、ドットで分離された作用因子（反応を可能にするもの、反応条件）およびドットで分離された生成物から構成され、反応を定義するために明示的な原子マッピングを必要とする。本発明者らの新規な短いＣＲＳフォーマットでは、大量の情報を必要とする。

【0007】

－可逆性を単純かつコンパクトに符号化できない。

【0008】

－多段階反応、すなわち、Ａ＞Ｂ＞Ｃを単純かつコンパクトに符号化できない。

【0009】

－平衡反応、すなわち、Ａ＜＞ＢまたはＡ＞Ｂ＞Ａを単純かつコンパクトに符号化できない。

【0010】

－反応メカニズム、すなわち、Ａ＞Ｔ＞Ｂ（式中、Ｔは、反応の遷移状態を定義する）を単純かつコンパクトに符号化できない。

【0011】

－反応分類およびデータクリーニングが不可能であり、このため、データが使用される際に、シグナル対ノイズ比が低減してしまう。

【0012】

－使用される文字が多義的であり、これにより、データが使用される際に、シグナル対ノイズ比が低減してしまう。

【0013】

－複数の中間体から構成される生化学経路を単純かつコンパクトに符号化できない。

【0014】

－立体化学を単純かつコンパクトに符号化できない。

【0015】

－四価キラル中心についての立体異性の変化を表示することができない。

【0016】

さらに、現代の化学反応研究および開発サイクルには、典型的な試行錯誤アプローチまたは組織内の既存の知識のみに基づく他のアプローチより高度なツールが必要である。このような状況において、機械学習は、この研究および開発サイクルの最適化の基礎であると考えられる。しかしながら、機械学習モデルの性能は、入力データの品質により制限される。現在のところ、化学反応挙動を予測するためまたは自律的に新たな化学反応を生成するための機械学習モデルを生成するのに満足のいく方法は存在しない。

【0017】

発明の概要
本発明は、これらの欠点の全てまたは一部を改善することを意図している。

【0018】

このために、第１の態様によれば、本発明は、一段階反応、多段階反応および平衡反応のための化学反応グラフ圧縮ソフトウェアであって、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程と、
－前記少なくとも１種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第１の工程と、
－前記少なくとも１種の反応試薬および前記生成物の化学構造を表す前記符号化内の変化する結合を、コンピュータデバイスにより判定する工程と、
－判定された少なくとも１つの変化する結合について、結合変化を受ける原子を表す少なくとも１つの文字、判定された変化する結合の種類を表す少なくとも１つの文字および結合変化により生じる原子を表す少なくとも１つの文字を、コンピュータデバイスにより単一の文字列に符号化する第２の工程であって、変化する結合は、判定された変化する結合を表す２つの文字のセットにより符号化され、第１の文字は、試薬の結合を表し、第２の文字は、生成物の結合を表し、各文字は、１つの文字が１つの結合種を表す全単射文字のライブラリ内で選択される、符号化する第２の工程と、
－化学反応の変化する結合の符号化に対応する前記文字列を、コンピュータインタフェース上で提供する工程と
に対応する命令を実行する、ソフトウェアを目的とする。

【0019】

このような提供は、結合変化が生じる試薬の位置に焦点を当てており、このため、符号化する物質を制限することにより、高度に実行可能な符号化が可能となる。得られたコードは、よりコンパクトであり、物理メモリ使用量を制限する。さらに、結合変化に焦点を当てたことにより、機械学習アプリケーションは、化学反応の関連部分のみを標的とすることができ、このため、速度および精度の向上が可能となる。

【0020】

加えて、このフォーマット化により、多段階反応または化学平衡反応、すなわち、個々の反応Ａ＞ＢおよびＢ＞Ａの記述による疑似二段階反応としてのＡ＜＞Ｂまたは多段階反応Ａ＞Ｂ＞Ａのモジュール化が可能となる。

【0021】

さらに、得られたフォーマット化は可逆的であり、これにより、平衡反応の定義が可能となり、反応機構の符号化が可能となり、一義的であり、反応分類およびデータクリーニングが可能となり、立体化学変化の符号化が可能となり、四価キラル中心に対する変化を示すことができる。

【0022】

特定の実施形態では、符号化する第２の工程は、前記変化する結合の符号化の存在を表す２つのニュートラルタグ文字の間に、判定された変化する結合を表す２つの文字を埋め込むように構成されている。

【0023】

特定の実施形態では、２つの原子間の一連の結合変化により表される多段階反応は、一連の単一の文字により符号化され、各単一の文字は、前記２つの原子間の結合の連続的な状態を表し、文字の順序は、前記２つの原子間の結合変化の順序を表す。

【0024】

このような実施形態では、変化する結合を表す２つの文字が原子自体を表すものではないとして分離されることを、ソフトウェアの要素により自動的に認識することが可能となる。

【0025】

第２の態様によれば、本発明は、一段階反応、多段階反応および平衡反応のための化学反応グラフ圧縮方法であって、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程と、
－前記少なくとも１種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第１の工程と、
－前記少なくとも１種の反応試薬および前記生成物の化学構造を表す符号化内の変化する結合を、コンピュータデバイスにより判定する工程と、
－判定された少なくとも１つの変化する結合について、結合変化を受ける原子を表す少なくとも１つの文字、判定された変化する結合の種類を表す少なくとも１つの文字および結合変化により生じる原子を表す少なくとも１つの文字を、コンピュータデバイスにより単一の文字列に符号化する第２の工程であって、変化する結合は、判定された変化する結合を表す２つの文字のセットにより符号化され、第１の文字は、試薬の結合を表し、第２の文字は、生成物の結合を表し、各文字は、１つの文字が１つの結合種の変化を表す全単射文字のライブラリ内で選択される、符号化する第２の工程と、
－化学反応の変化する結合の符号化に対応する文字の文字列を、コンピュータインタフェース上で提供する工程と
を含む、方法を目的とする。

【0026】

この方法の利益および利点は、本発明の第１の態様の目的であるソフトウェアの利益に対応する。

【0027】

【0028】

特定の実施形態では、符号化する第１の工程は、化学反応グラフを行表記に符号化するように構成されており、方法は、符号化する第２の工程の前に、行表記符号化を拡張する工程をさらに含む。

【0029】

このような実施形態により、単一の化学反応グラフから開始して、サンプルサイズを大きくすることが可能となる。これは、機械学習アプリケーションにおいて特に有用である。

【0030】

特定の実施形態では、符号化する第２の工程は、コンピュータメモリから試薬および生成物の結合テーブルを、コンピュータデバイスにより抽出する工程を含み、前記符号化は、前記結合テーブルの関数として実行される。

【0031】

特定の実施形態では、符号化する第２の工程は、符号化する第１の工程から得られた第１の符号化から、少なくとも１種の試薬および／または生成物からの少なくとも１つの原子識別子を除去する工程を含み、前記原子および関連する結合が、化学反応の試薬反応段階から生成物段階まで変化しないままである生成物および／または試薬中に位置する場合、前記各原子は、判定する工程の結果として除去される。

【0032】

このような実施形態では、反応の表記を反応部位に制限することにより、化学反応フォーマットのより高い圧縮が可能となる。

【0033】

特定の実施形態では、本発明の目的である方法は、物理デバイス内で前記化学反応を行うことにより、符号化された化学反応の生成物を取得する工程を含む。

【0034】

第３の態様によれば、本発明は、本発明の第２の態様の目的である方法により得られた文字の文字列を含む符号化された化学反応を目的とする。

【0035】

このフォーマットされた化学反応グラフの利益および利点は、本発明の第２の態様の目的である方法の利益に対応する。

【0036】

第４の態様によれば、本発明は、
－本発明の第３の態様の目的である符号化に従って、文字列を、コンピュータインタフェース上で受信する工程と、
－原子を表す少なくとも１つの文字と、対応する原子に関連付けられた結合変化を表す少なくとも１つの文字の少なくとも１つの文字列とをシフトさせるために、文字列を、コンピュータシステムにより並べ替える工程と、
－受信された文字列により最初に符号化された反応に対応する拡張された文字列を、コンピュータインタフェース上で出力する工程と
を含む、化学反応データセットの拡張方法を目的とする。

【0037】

このような提供により、単一の化学反応グラフから開始して、サンプルサイズを大きくすることが可能となる。これは、機械学習アプリケーションにおいて特に有用である。

【0038】

特定の実施形態では、本発明の目的である方法は、本発明の第３の態様の目的であるフォーマットに従って、少なくとも２つの文字列を、コンピュータシステムにより関連付ける工程を含み、各前記文字列は、同じ化学反応グラフを表す。

【0039】

このような提供により、機械学習アプリケーションにおいて特に有用な多次元入力の作成が可能となる。

【0040】

第５の態様によれば、本発明は、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む少なくとも２つの化学反応グラフのデータセットを、コンピュータインタフェース上で受信する工程と、
－本発明の第２の態様の目的である方法に従って、少なくとも２つの化学反応グラフを圧縮する工程と、
－符号化されたデータセット内の化学反応クラスの分布を、コンピュータシステムにより判定する工程と、
－本発明の第４の態様の目的である方法に従って、判定された分布の関数として、少なくとも１つの化学反応クラスについてデータセットを拡張する工程と、
－前処理されたデータセットを、コンピュータインタフェース上で出力する工程と
を含む、化学反応データセットの前処理方法を目的とする。

【0041】

このような提供により、機械学習アプリケーションを最適化するためのデータセットの動的かつスマートな拡張が可能となる。

【0042】

第６の態様によれば、本発明は、
－本発明の第３の態様の目的である圧縮された符号化において符号化された化学反応グラフのデータセットを、コンピュータインタフェース上で入力することと、
－化学反応グラフのデータセットを入力として使用して、化学反応結合の進展を入力の関数として分類するように構成された再帰的ニューラルネットワークアーキテクチャを、コンピュータシステムにより動作させることと、
－訓練された分類器、トランスフォーマまたはリグレッサを、コンピュータインタフェース上で出力することと
を含む、分類器、トランスフォーマまたはリグレッサのための訓練方法を目的とする。

【0043】

このような提供により、訓練された分類器、トランスフォーマまたはリグレッサの最適な作成が可能となる。使用される化学グラフ反応フォーマットにより、生成されたモデルの品質が顕著に改善されるためである。

【0044】

第７の態様によれば、本発明は、本発明の第６の態様の目的である方法により得られた分類器、トランスフォーマまたはリグレッサを動作させる、化学反応結合進展の予測方法を目的とする。

【0045】

このような提供により、任意に入力された化学試薬の結合進展を正確に予測することが可能となる。

【0046】

第８の態様によれば、本発明は、本発明の第６の態様の目的である方法により得られた分類器、トランスフォーマまたはリグレッサを動作させる、化学反応生成方法を目的とする。

【0047】

このような提供により、対応するグラフおよび／または行表記を使用して、化学反応の自律的な生成が可能となる。

【0048】

第９の態様によれば、本発明は、分類器、トランスフォーマまたはリグレッサが、本発明の第６の態様の目的である方法により得られる、コンピュータ実装された分類器、トランスフォーマまたはリグレッサを目的とする。

【0049】

このコンピュータ実装された分類器、トランスフォーマまたはリグレッサの利益および利点は、本発明の第６の態様の目的である方法の利益に対応する。

【0050】

第１０の態様によれば、本発明は、本発明の第６、第７または第８の態様のいずれか１つの目的である方法を動作させるための命令を含む、コンピュータプログラムを目的とする。

【0051】

このコンピュータプログラムの利益および利点は、本発明の対応する第６、第７または第８の態様の目的である方法の利益に対応する。

【0052】

本発明の他の利点、目的および特定の特徴は、添付の図面に関連して、本発明の少なくとも１つの特定の実施形態の以下の非網羅的な説明から明らかであろう。

【図面の簡単な説明】

【0053】

【図1】本発明の目的である方法を表す第１の特定の連続工程を模式的に表す図である。

【図2】本発明の目的である方法により符号化された化学反応グラフを模式的に表す図である。

【図3】本発明の目的である方法を表す第２の特定の連続工程を模式的に表す図である。

【図4】本発明の目的である方法を表す第３の特定の連続工程を模式的に表す図である。

【図5】本発明の目的である方法を表す第４の特定の連続工程を模式的に表す図である。

【図6】本発明の目的であるソフトウェアにより、化学反応を符号化している状態を模式的に表す図である。

【図7】本発明の目的であるソフトウェアにより、平衡化学反応を符号化している状態を模式的に表す図である。

【図8】本発明の目的であるソフトウェアの特定の命令セットの命令を模式的に表す図である。

【図9】本発明の目的であるソフトウェアにより、多段階化学反応を符号化している状態を模式的に表す図である。

【図10】本発明の目的であるソフトウェアにより、平衡化学反応を符号化している状態を模式的に表す図である。

【図11】本発明の目的である拡張方法に関する特定の連続工程を模式的に表す図である。

【図12】本発明の目的である化学反応グラフを生成する方法に関する特定の連続工程を模式的に表す図である。

【図13】本発明の目的である分類器を訓練する方法に関する第１の特定の連続工程を模式的に表す図である。

【図14】本発明の目的である分類器を訓練する方法に関する第２の特定の連続工程を模式的に表す図である。

【図15】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図16】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図17】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図18】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図19】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図20】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図21】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図22】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図23】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図24】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図25】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図26】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【図27】本発明の目的である生成方法の特定の例および関連する結果を模式的に表す図である。

【0054】

発明の詳細な説明
１つの実施形態の各特徴は、任意の他の実施形態の任意の他の特徴と、有利な方法で組み合わせることができるため、この説明は網羅的ではない。

【0055】

また、種々の発明概念を、例が提供された１つ以上の方法として具現化することができる。方法の一部として実行される動作を、任意の適切な方法で順序付けることができる。したがって、示されているものとは異なる順序で動作が実行される実施形態を構築することができる。これは、例示的な実施形態において順次動作として示されているとしても、幾つかの動作を同時に実行することを含むことができる。

【0056】

本明細書および特許請求の範囲において、本明細書で使用する場合、不定冠詞「a」および「an」は、明確に反対の指示がない限り、「少なくとも１つ」を意味すると理解されたい。

【0057】

本明細書および特許請求の範囲において、本明細書で使用する場合、「および／または」という表現は、そのように結合された要素の「いずれかまたは両方」、すなわち、ある場合には結合的に存在し、他の場合には分離的に存在する要素を意味すると理解されたい。「および／または」で列記された複数の要素は、同じ様式で、すなわち、そのように結合された要素の「１つ以上」で解釈されたい。「および／または」節により具体的に識別されるような要素以外の他の要素は、それらの具体的に識別される要素に関連するかまたは関連しないかにかかわらず、場合により存在することができる。このため、非限定的な例として、「Ａおよび／またはＢ」への言及は、オープンエンドの言い回し、例えば、「含む（comprising）」と併せて使用される場合、一実施形態では、Ａのみ（場合により、Ｂ以外の要素を含む）、別の実施形態では、Ｂのみ（場合により、Ａ以外の要素を含む）、さらに別の実施形態では、ＡとＢとの両方（場合により、他の要素を含む）等を指すことができる。

【0058】

本明細書および特許請求の範囲において使用する場合、「または」は、上記定義された「および／または」と同じ意味を有すると理解されたい。例えば、リスト内の項目を分離する場合、「または」または「および／または」は、包括的であると解釈されるものとし、すなわち、少なくとも１つを含むが、多数の要素または要素のリストのうちの２つ以上を含み、かつ場合により、追加の非リスト項目を含むものと解釈されるものとする。反対に明確に示される用語、例えば、「のうちの１つのみ」もしくは「のうちの正確に１つ」または特許請求の範囲で使用する場合、「からなる」のみが、多数の要素または要素のリストのうちの正確に１つの要素を含むことを指すであろう。一般的には、本明細書で使用する場合、「または」という用語は、排他性の用語、例えば、「いずれか」、「のうちの１つ」、「のうちの１つのみ」または「のうちの正確に１つ」に修飾される場合のみ、排他的代替（すなわち、「一方または他方であるが、両方ではない」）を示すものと解釈されるものとする。「から本質的になる」は、特許請求の範囲で使用する場合、特許法の分野において使用される通常の意味を有するものとする。

【0059】

本明細書および特許請求の範囲において使用する場合、１つ以上の要素のリストに関して、「少なくとも１つ」という表現は、要素のリスト中の任意の１つ以上の要素から選択される少なくとも１つの要素を意味するが、必ずしも要素のリスト中に具体的に列記される各々および全ての要素の少なくとも１つを含む必要はなく、要素のリスト中の要素の任意の組み合わせを排除しないと理解されたい。また、この定義により、「少なくとも１つ」という表現が指す要素のリスト内で具体的に特定された要素以外の要素が、それらの具体的に特定された要素に関連するかまたは関連しないかにかかわらず、場合により存在し得ることが可能となる。このため、非限定的な例として、「ＡおよびＢのうちの少なくとも１つ」（または同等に、「ＡまたはＢのうちの少なくとも１つ」または同等に「Ａおよび／またはＢのうちの少なくとも１つ」）は、一実施形態では、少なくとも１つのＡ、場合により、２つ以上のＡを含み、Ｂは存在しない（かつ場合により、Ｂ以外の要素を含む）こと；別の実施形態では、少なくとも１つのＢ、場合により、２つ以上のＢを含み、Ａは存在しない（かつ場合により、Ａ以外の要素を含む）こと；さらに別の実施形態では、少なくとも１つのＡ、場合により、２つ以上のＡを含みかつ少なくとも１つのＢ、場合により、２つ以上のＢを含む（かつ場合により、他の要素を含む）こと等を指すことができる。

【0060】

特許請求の範囲および上記明細書において、全ての移行句、例えば、「含む（comprising）」、「含む（including）」、「保持する（carrying）」、「有する（having）」、「含有する（containing）」、「含む（involving）」、「保持する（holding）」、「で構成される（composed of）」等は、オープンエンドである、すなわち、「含むがこれらに限定されない」ことを意味すると理解されたい。「からなる（consisting of）」および「から本質的になる（consisting essentially of）」という移行句のみが、米国特許庁の特許審査手続マニュアル第２１１１．０３条に記載されているように、それぞれクローズドまたは半クローズドの移行句であるものとする。

【0061】

この時点で、図は、正確な縮尺ではないことに留意されたい。

【0062】

「コンピュータインタフェース」という用語は、任意の種類のヒューマン－マシンインタフェース、例えば、入力手段、例えば、キーボード、マウスまたはタッチスクリーンに関連付けられたグラフィックユーザインタフェース（ＧＵＩ）等と理解されるべきであることに留意されたい。また、これらの用語は、任意のソフトウェアもしくはデジタルインタフェース、例えば、アプリケーションプログラミングインタフェース（「ＡＰＩ」）等または任意の他の種類のデジタル入力／出力手段もしくはソフトウェアも指す。

【0063】

「コンピュータデバイス」または「コンピュータシステム」という用語は、任意の電子計算手段、例えば、好ましくは、コンピュータメモリおよび必要な入力／出力サブシステムに関連付けられたマイクロプロセッサと理解されるべきであることに留意されたい。以下の説明で使用されるコンピュータシステムの特定のアーキテクチャは、本発明を考慮すると重要ではない。すなわち、このようなコンピュータシステムは、クライアントサーバアーキテクチャを使用してまたはローカルおよび／もしくは遠隔コンピュータリソースを使用して分散させ、統合することができる。記憶され、アクセスされるデータを、伝統的なデータベース、コンピュータメモリまたは分散データベースに記憶させることができる。

【0064】

「化学反応グラフ」という用語は、各分子（試薬および生成物）がグラフにモデル化され、その頂点が化合物の原子に対応し、エッジが化学結合に対応する、グラフフォーマットでの化学反応のモデル化を指定することに留意されたい。すなわち、化学反応グラフは、グラフ理論の観点から化合物の構造式をモデル化する。典型的には、分子グラフは、グラフの構築を可能にする原子のデジタル識別子および結合のデジタル識別子を含む。これらのデジタル識別子を、ラベルおよび頂点にグラフィカルに翻訳することができる。このようなデジタル識別子を、デジタル記憶デバイス、例えば、コンピュータメモリ、サーバデータベースまたは分散データベースに記憶させることができる。

【0065】

「文字」という用語は、入力からコードを生成するのに使用することができる任意の記号（アルファベットであるか否かにかかわらず）を指すと理解されたい。典型的には、文字は、文字を表すＡＳＣＩＩ（「American Standard Code for Information Interchange」）コードであることができる。ただし、これは、本発明を限定するものではない。

【0066】

図１に、例えば、一段階反応、多段階反応および平衡反応のための化学反応グラフ圧縮ソフトウェアの命令に対応する一連の工程を示す。このソフトウェアは、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程１０５と、
－前記少なくとも１種の試薬および前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第１の工程１１０と、
－前記少なくとも１種の反応試薬および前記生成物の化学構造を表す符号化内の変化する結合を、コンピュータデバイスにより判定する工程１１５と、
－判定された少なくとも１つの変化する結合について、結合変化を受ける原子を表す少なくとも１つの文字、判定された変化する結合の種類を表す少なくとも１つの文字および結合変化により生じる原子を表す少なくとも１つの文字を、コンピュータデバイスにより単一の文字列に符号化する第２の工程１２０であって、変化する結合は、判定された変化する結合を表す２つの文字のセットにより符号化され、第１の文字は、試薬の結合を表し、第２の文字は、生成物の結合を表し、各文字は、１つの文字が１つの結合種を表す全単射文字のライブラリ内で選択される、符号化する第２の工程１２０と、
－化学反応の変化する結合の符号化に対応する前記文字列を、コンピュータインタフェース上で提供する工程１２５と
に対応する命令を実行する。

【0067】

受信する工程１０５を、例えば、任意の種類のコンピュータインタフェースを使用して行う。この受信する工程１０５の間に、デジタルリソースを受信し、前記デジタルリソースは、化学反応グラフを表す。「デジタルリソース」は、可能な限り広い意味で理解されるべきであり、すなわち、データの構造化されたセットである。このようなデジタルリソースは、コンピュータメモリ内に記憶されるかまたは必要なときに生成されるファイルであることができる。代替的には、ファイル自体の代わりに、ファイルについてのデジタルアドレスを受信することができる。

【0068】

代替的には、受信する工程１０５の間に、少なくとも１種の試薬および少なくとも１種の生成物に対応するデジタル識別子を受信する。このようなデジタル識別子は、試薬もしくは生成物を表すデジタルリソースまたは前記デジタルリソースに対する任意のポインタのいずれかであることができる。このようなデジタル識別子は、例えば、データベース内のアドレスまたは前記試薬もしくは生成物を表す自然言語の文字列であることができる。他の変形形態では、デジタル識別子は、ユーザにより実行可能であり、一旦アクティブ化されると、関連付けられたリソースおよび／または前記リソースのアドレスの入力をトリガするＧＵＩのコンポーネントである。

【0069】

受信する工程１０５を、ユーザまたは自動入力によりトリガすることができる。

【0070】

符号化する第１の工程１１０を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この符号化する工程１１０を、例えば、化学反応グラフのＳＭＩＬＥＳフォーマットが生成される方法と同様に行うことができる。この符号化する工程１１０の間に、化学反応グラフを、好ましくは、ＡＳＣＩＩフォーマットの文字の文字列に符号化する。

【0071】

代替的には、符号化する第１の工程１１０は、ＳＭＩＬＥＳ符号化フォーマットのＳＭＡＲＴＳ（「SMILES arbitrary target specification」）変形形態を使用して、行表記を提供するように構成されている。ＳＭＡＲＴＳ符号化フォーマットは、分子内の部分構造パターンを特定するための言語である。図６に、反応６０５および６１０それぞれについての参照６３０および６４０に関する符号化のこのような第１の工程１１０の結果を示す。

【0072】

判定する工程１１５を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この判定する工程１１５の間に、幾つかの選択肢を実装することができる。

【0073】

－化学反応グラフ内の原子および結合をマッピングするのにおいて、コンピュータインタフェース上での人間による入力を必要とすることまたは
－コンピュータシステムにより、化学反応グラフ内の原子および結合を自動的にマッピングすることのいずれか、次いで、いずれの場合にも、
－分子グラフ内の特定のマッピングされた位置についての原子の変化もしくは関連する分子内の前記マッピングされた原子もしくは任意の他の原子に対する結合変化のいずれかによる分子構造の変化を検出するために、コンピュータシステムにより、生成物の分子化学グラフを試薬の分子化学グラフと比較することおよび
－比較する工程の結果の関数として、事前設定された種類のリスト内の特定された結合変化を、コンピュータシステムにより分類すること。

【0074】

重ね合わせ比較を使用するこのような実施形態は、典型的には、現代の解決策に使用される。ただし、これらのアプローチは、典型的には、得られるマッピングの確実性に欠ける。それらは、構造的最小共通性を探すためである。この共通性は、例えば、酸素分子が試薬として使用されかつ生成物として産生される場合、この破壊－生成プロセスを検出しないであろう。

【0075】

より高度な実施形態では、トランスフォーマ機械学習アルゴリズムを使用する。

【0076】

このようなモデルを、Schneider et al.による論文（Schneider, N.; Stiefl, N.; Landrum, G.A., What’s What: The - Nearly - Definitive Guide to Reaction Role Assignment. J Chem Inf Model 2016, 56, 2336-2346）からのＵＳＰＴＯ－５０セット（またはその一部）を含むデータにより訓練することができ、一部の計算には、Jaworksi et al.（Jaworski, W., Szymkuc, S., Mikulak-Klucznik, B. et al. Automatic mapping of atoms across both simple and complex chemical reactions. Nat Commun 10, 1434-2019）からの訓練セットデータを使用することもできる。

【0077】

このようなモデルを、訓練に使用されないＵＳＰＴＯ－５０セットの一部であってもよい試験セットや手作業で精選された反応に対して試験することができる。加えて、Jaworksi et al.の８５７の反応の試験セットを使用して、開発された方法の性能を試験することができる。

【0078】

このようなデータを、入力前に精選することができる。さらに、データを、訓練／試験データとして使用する前に、本発明の目的である方法１００に従って、圧縮し、符号化することができる。

【0079】

例えば、以下の刊行物研究のいずれかに記載されているようなトランスフォーマアーキテクチャを使用することができる。
－ Vaswani, A., et al. Attention Is All You Need. Preprint at https://arxiv.org/abs/ 1706.03762 (2017)
－ Schwaller, P., et al. Molecular transformer: a model for uncertainty-calibrated chemical reaction prediction. ACS Cent. Sci. 5, 1572-1583 (2019)および／または
－ Tetko, I.V., Karpov, P., Van Deursen, R. et al. State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis. Nat Common 11, 5575 (2020)

【0080】

すなわち、トランスフォーマは、６つの層および８つのヘッド（６×８）からなる。モデルの訓練を、１００エポックに制限し、３０００文字のバッチサイズを使用した。入力データは、ＳＭＩＲＫＳフォーマットの反応データ（試薬および生成物の両方）とし、ターゲットは、本発明の目的である方法１００に従って、圧縮され、符号化された各化学反応グラフとした。図１２に示されたように、入力シーケンスおよび標的シーケンスの両方を拡張することができる。これにより、データの多様性が向上し、ニューラルネットワークの過学習の影響が排除される。モデル訓練およびテストのためのデータを、例えば、それぞれ５×および２０×倍に拡張することができる。

【0081】

トランスフォーマモデルにより、ビームサーチを使用して、与えられた入力データのための複数の予測を生成することができる。ビームサーチを使用して、ｎ＝１０にし、このようにして、本発明の目的である方法１００の目的に従って、１０個の予測された圧縮および符号化化学反応グラフ（ＣＲＳ）を、各入力反応について受信する。使用された２０×データ拡張を、各反応について使用することができるため、各分析された反応について、最大２００個の予測ＣＲＳの総数を計算することができる。

【0082】

更なる後処理、例えば、
－明らかなフォーマットエラーのために、更なる分析の前に一部の計算されたＣＲＳをフィルタリングすること、
－反応物および／または生成物の質量平衡化を行って、ＣＲＳを分解することにより生成された全ての反応物および試薬が初期反応中に存在することを確認すること
を行うことができる。

【0083】

このようなトランスフォーマモデルにより、以下のような結果を提供することができる。

【表1】

【0084】

このようなトランスフォーマを実装することにより、このようなデータを使用して訓練されたときに、優れた性能が実証された。４３．８ｋ（４３，８００）のＵＳＰＴＯ－５０ｋ訓練セットを使用して開発されたモデルにより、４，８８５の反応の試験セットについて、９９．９％のカバー率（Ｃｏｖｅｒａｇｅ）および１００％の精度（Ｐｒｅｃｉｓｉｏｎ）が実証された。このため、トランスフォーマは、その試験セットから全ての反応の原子マッピングを正確に予測することが可能であった。このモデルの性能は、手作業による注釈付きセットＡについてはより低かった。このセットについて、９６．７％のカバー率および９６．９％の精度に達した。

【0085】

ＮａｔｕｒｅＴｅｓｔセットについて、カバー率ははるかに低く、わずか６７．３％であった。より低いカバー率から、Ｎａｔｕｒｅセットは、特許が存在せずかつ／またはより複雑な反応種を含有し、モデルが、それらのための１つ以上の有効なＣＲＳを生成することができなかったことが示された。ただし、同じ非常に高い精度が計算された。このため、トランスフォーマモデルは、生成されたＣＲＳが初期反応データの全ての成分を含む場合、正確に正しいマッピングを再現することができた。

【0086】

ＮａｔｕｒｅＴｒａｉｎセット（ｎ＝５４８）を加えることによるデータの多様性の向上により、ＮａｔｕｒｅＴｅｓｔについてのカバー率が、約７．３％改善しかつセットＡについて１％を超えて改善された。ＮａｔｕｒｅＴｒａｉｎセットを使用して生成されたシミュレーションデータを追加すると、ＮａｔｕｒｅＴｅｓｔについてのカバー率の追加ブーストが達成された。これらのデータは、各初期反応につき１０個の生成された反応を含んだ。この生成は、稀な反応をより良く表現し、モデルの精度を高めた。しかしながら、シミュレーションされた反応の追加後でさえ、カバー率は、ＮａｔｕｒｅＴｅｓｔについて８０％未満であった。これは、このセットからの一部の反応が、ＵＳＰＴＯ特許およびＮａｔｕｒｅＴｒａｉｎセットの両方において十分に表現されていないことを示している。

【0087】

この問題に対処するために、ＮａｔｕｒｅＴｅｓｔに対するシミュレーションされた反応を含ませることが可能である。これにより、精度率を低下させることなく、この設定に対するカバー率が９５％まで高まる。また、データセットの後者の拡張により、セットＡについての最良の全体的な結果も提供された。カバー率は、９８．９％に向上し、精度率は、９７．４％を達成した。セットＢについては、結果は変化せず、３つの精度測定値は全て、約１００％であった。

【0088】

符号化する第２の工程１２０を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この符号化する第２の工程１２０の間に、判定された変化する結合のうちの少なくとも１つを、判定された変化する結合の種類を表すＡＳＣＩＩ文字のセットに符号化する。

【0089】

この符号化する第２の工程１２０は、例えば、以下の工程を含むことができる。

【0090】

－符号化する第１の工程１１０から得られた符号化反応グラフを構文解析する工程、
－試薬および生成物のための結合テーブルを抽出する工程、
－試薬および生成物の反応グラフをアセンブルすることにより、第２の符号化を生成する工程および
－場合により、生成された第２の符号化を、正準線形表記文字列にエクスポートし、以下に示されるような指定された記号を使用して結合を書き込むことができる。

【0091】

単一の文字列において前記変化する結合を符号化する第２の工程１２０を、各変化する結合を記号、例えば、結合変化の種類を記述する一連の少なくとも１つの文字と関連付けることにより行うことができる。この記号は、好ましくは、結合変化が起こっている間の隣接原子と関連付けられる。

【0092】

このような記号は、中括弧またはニュートラル（中立）として定義される他の文字により囲まれた、試薬および生成物の結合種のための単一の結合文字から構成される４文字列であることができる。反応における単結合から二重結合への変化は、例えば、文字順列「｛－＝｝」を使用して記述される。文字と表現される結合変化とを結びつける関係は、好ましくは、全単射である。「全単射」という用語は、本明細書において、文字と表現される結合変化とを結びつける１対１の関係を指す。「文字」という用語は、記号の辞書における任意の記号として理解されたく、限定的に英数字に制限されない。これは、符号化する工程の前に、文字のライブラリを設定することができることを意味する。このライブラリにおいて、各文字は、結合変化の種類を表す。このライブラリの構成を、手作業でまたは自動的に行うことができる。特定の実施形態では、アルゴリズムを、それ自体の記号を学習するように訓練することができる。後続の符号化する工程の間に、適切な文字または記号を、判定された結合変化の関数としてライブラリから選択する。

【0093】

試薬および生成物の両方が単一の文字列であるフォーマットとは別に、このフォーマットは、反応部位をマークするために明示的な原子の番号を必要としない非常に短いフォーマットにより際立っている。実際、反応は、変化する結合により暗黙的に定義される。ＳＭＡＲＴＳ化学反応では、全ての試薬および生成物が、新たなＳＭＩＬＥＳ文字列により定義される。原子の順序は、正準形式を含めて、広く変化する場合がある。結果として、ＳＭＩＬＥＳ文字列において、どの原子が試薬および生成物において同一であるかを定義するための明示的なインデックス、例えば、［ＣＨ３：１］［ＣＨ２：２］［ＣＨ３：３］（式中、：１、：２および：３は、原子インデックスを定義する）を定義しなければならない。作用因子（Ａｇｅｎｔｓ）は、典型的には組み込まれない。それらは、正味の化学修飾に寄与しないためである。作用因子および条件は反応によって異なり、反応種に基づいて、ユーザが選択することができる。このような作用因子および条件を、図７に例示されたように、ユーザの裁量で調整することができる。本提案の更なる重要な利点は、大規模データセットについての圧縮性である。実際、このフォーマットは、反応を記述するのに知られている中で最も短いフォーマットである。本出願では、結合の切断、形成および結合の順序の変更を伴う反応に焦点を当てているが、他の種類の結合変化を、この方法で符号化することができる。イオン結合の形成および切断を伴う反応ならびに精製、例えば、キラル分離は、ここでは考慮されない。後者の反応群では、原子のグラフ連結性が変化しない。このような分離を、Ｂを生成する精製の例として、Ａ．Ｂ＞Ｂと記述することができる。

【0094】

対応する表は、異なる種類の結合変化についての可能性のある記号選択を表す。

【表2】

【0095】

試薬において「なし」で示された結合は、反応中に形成される生成物の結合である。生成物において「なし」で示された結合は、反応中に切断された試薬の結合である。

【0096】

特定の実施形態では、符号化する第２の工程１２０は、判定された変化する結合を表す２つの文字のセットにおいて変化する結合を符号化するように構成されている。第１の文字は、試薬の結合を表し、第２の文字は、生成物の結合を表す。

【0097】

特定の実施形態では、符号化する第２の工程１２０は、前記変化する結合の符号化の存在を表す２つのニュートラルタグ文字の間に、判定された変化する結合を表す２つの文字を埋め込むように構成されている。

【0098】

このような出力２０５の例を、図２に示す。

【0099】

提供する工程１２５を、例えば、ＧＵＩ上でまたはＡＰＩを使用して行う。

【0100】

図１に、上記開示されたソフトウェアにより実装される方法１００をさらに示す。一段階反応、多段階反応および平衡反応のためのこの化学反応グラフ圧縮方法１００は、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む化学反応グラフを、コンピュータインタフェース上で受信する工程１０５と、
－前記少なくとも１種の試薬および／または前記生成物の構造を記述する前記化学反応グラフを、コンピュータデバイスにより符号化する第１の工程１１０と、
－少なくとも１種の反応試薬の化学構造を表す符号化内の変化する結合を、コンピュータデバイスにより判定する工程１１５と、
－判定された少なくとも１つの変化する結合について、結合変化を受ける原子を表す少なくとも１つの文字および結合変化により生じる原子を表す少なくとも１つの文字に関連付けられた少なくとも１つの文字の文字列内の変化する結合を、コンピュータデバイスにより単一の文字列に符号化する第２の工程１２０と、
－化学反応の変化する結合の符号化に対応する文字の文字列を、コンピュータインタフェース上で提供する工程１２５と
を含む。

【0101】

特定の実施形態では、符号化する第１の工程１１０は、化学反応グラフを行表記に符号化するように構成されている。方法は、符号化する第２の工程１２０の前に、行表記符号化を拡張する工程１３０をさらに含む。

【0102】

拡張する工程１３０を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この拡張する工程１３０の間に、化学反応グラフの行表記を、その化学反応についての代替的な符号化を依然として提供しながら、符号化される化学反応の性質を変化させないように再編成する。

【0103】

拡張する工程１３０の結果の例を、図１２に示す。

【0104】

特定の変形形態では、反応を、反応符号化または化学反応グラフの縮小工程（図示せず）において、反応部位に縮小することができる。反応符号化のこのような縮小工程を、例えば、符号化する第１の工程１１０または符号化する第２の工程１２０から得られる行表記に基づいて行う。それにより、モデル化された化学反応中に不活性のままである全ての原子識別子が除去される。例えば、前記原子識別子および関連する結合が、化学反応の試薬反応段階から生成物段階まで変化しないままである分子中に位置する場合、原子識別子は除去される。

【0105】

反応符号化のこの縮小工程により、化学反応グラフが有用な記号セットにさらに圧縮される。図６に、生成物の形成のために反応部位に縮小された反応６１５を示す。反応は、第１の隣接原子を含めて示される。

【0106】

反応（図６における６１５）が反応部位に縮小される変形形態では、化学反応結果６２０の間に、修飾を受ける原子および結合に限定された線形表記を、対応して得ることができる。このような線形表記を、「ＳｉｔｅＳＭＡＲＴＳ」とラベル付けすることができる。このような結果は、符号化する第１の工程１１０の出力に、または符号化する第１の工程１１０の上流もしくは下流に位置する場合がある反応符号化の専用の縮小工程の出力に、対応することができる。

【0107】

実際、反応において、生成物を生成するためにそれ自体の間で相互作用する化合物である試薬および反応中に変化しない他の化学物質、例えば、触媒、溶媒を区別することができる。このため、原子マッピングは、結合情報が変化する化学物質についてのみ必要とされ、一方で、非相互作用部分／非変化部分をスキップすることができる。

【0108】

反応部位に限定された圧縮化学反応グラフに対応する「ＳｉｔｅＣＲＳ」を、
－反応部位を特定する工程と、
－場合により、ユーザ指定トポロジー深さまでの隣接原子および／または原子の環もしくは環系中の原子を含む、反応に「関連する」とする全ての部位原子にフラグを立てる工程と、
－分子から「関連する」とフラグを立てられていない全ての原子を除去する工程と、
－反応部位との反応の縮小グラフを、場合により、正準な文字の文字列にエクスポートする工程と
を使用して計算することができる。

【0109】

現在のデータセットでは、反応を、ＳＭＡＲＴＳフォーマット、すなわち、「試薬＞作用因子＞生成物」を使用して記述することができる。完全な反応についてのＳＭＡＲＴＳは、
－原子および結合変化に基づいて、変化した環境を有する原子を特定する工程と、
－場合により、ユーザ指定トポロジー深さまでの隣接原子および／または原子の環もしくは環系中の原子を含む、変化を有する全ての原子に、関連するとフラグを立てる工程と、
－分子から「関連する」とフラグ立てされていない全ての原子を除去する工程と、
－任意の正準化により、原子上のマップ番号に番号を振り直す工程と、
－ＳＭＡＲＴＳを、場合により、正準なＳｉｔｅＳＭＡＲＴＳを作成するためにエクスポートする工程と
を適用して、ＳｉｔｅＳＭＡＲＴＳに変換される。

【0110】

反応のサブセットは、例えば、ＮｅｘｔＭｏｖｅＰｉｓｔａｃｈｉｏデータセット５から分析される。この反応を、公開されたクラスにより分割し、分析することができる。例えば、クラス１．１．１は、チャン－ラムアルキルアミンカップリングを定義する。例えば、
－正味の反応に関与する試薬および生成物を特定する工程と、
－作用因子、溶媒および非関与反応を除去する工程と、
－反応を文字付けるためにＳｉｔｅＳＭＡＲＴＳおよびＳｉｔｅＣＲＳを計算する工程と
を適用することができる。

【0111】

生成されたＳｉｔｅＣＲＳを、フィンガープリントの代わりに、文字列タグを使用して反応変換をクラスタリングするのに使用することができる。２つの主な利点がある：化学者は、タグを理解することができ、このため、得られたタグが、精選プロセス中の反応種に関連するかどうかをチェックすることができる。

【0112】

本発明の目的である方法１００から得られるフォーマットに従った反応の圧縮化学グラフを、立体化学のための変化を含むように拡張することができる。例えば、｛－／｝および｛－＼｝は、単結合からアップライトまたはダウンライト単結合への変化を定義し、単結合についての｛－＾｝および｛－＿｝は、四面体中心上の相対的立体化学のために「シングルアップ」または「シングルダウン」への変化を定義する。同様に、二重結合からシングルアップまたはシングルダウンに移行することが可能である。このため、記号｛＝＾｝および｛＝＿｝を使用することができる。このため、逆方向、例えば、｛＾＝｝シングルアップから二重結合および｛＿＝｝シングルダウンから二重結合に移行させることができる。このような反応の例は、アルキンの水素化である。反応条件に応じて、化学者は、アルキンからシス－およびトランス－アルケンそれぞれを調製するために、ｓｙｎ－水素化またはａｎｔｉ－水素化を伴う反応を行うことができる。四面体立体中心を有する立体化学反応の例は、酵素クラスアルコールデヒドロゲナーゼによるケトンの第二級アルコールへの生体触媒的還元である。例は、ラズベリーケトンの４－３Ｒ－－ヒドロキシブチル）フェノールへの還元である。

【0113】

念のために、図２に、上記開示された方法１００により得られた、フォーマットされた化学反応グラフ２０５および２１０の例を示す。

【0114】

図３に、本発明の目的である方法３００の特定の実施形態を示す。この化学反応データセット拡張方法３００は、
－図１に関して開示された方法１００の実装の任意の変形形態から得られたフォーマットに従って、文字列を、コンピュータインタフェース上で受信する工程３０５と、
－原子を表す少なくとも１つの文字と対応する原子に関連付けられた結合変化を表す少なくとも１つの文字の少なくとも１つの文字列とをシフトさせるために、文字列を、コンピュータシステムにより並べ替える工程３１０と、
－受信された文字列により最初に符号化された反応に対応する文字の拡張された文字列を、コンピュータインタフェース上で出力する工程３２０と
を含む。

【0115】

機能的かつ構造的に、受信する工程３０５は、図１に関して開示された受信する工程１０５の任意の変形形態に類似している。

【0116】

並べ替える工程３１０は、図１に関して開示された拡張する工程１３０と機能的かつ構造的に類似している。この工程３１０の間に、方法１００に従ってフォーマットされ、圧縮された化学反応グラフの記号または文字は、単一の化学反応グラフを表す代替的な符号化を提供するように形式的に再編成される。このような例を、図２に見ることができる。この例では、化学反応グラフが、２つの代替的な符号化２０５および２１０においてフォーマットされ、圧縮される。

【0117】

特定の変形形態では、本発明の目的である方法３００は、図１に関して開示された方法１００の実装の任意の変形形態から得られるフォーマットに従って、少なくとも２つの文字列を、コンピュータシステムにより関連付ける工程３１５を含み、前記各文字列は、同じ化学反応グラフを表す。

【0118】

この関連付ける工程３１５を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この関連付ける工程３１５の間に、化学反応グラフのための代替的な圧縮された符号化を、単一の文字列に連結させ、好ましくは、ニュートラル記号または文字、例えば、図２に示された例２１５におけるドットにより分離することができる。

【0119】

出力する工程３２０は、図１に関して開示された提供する工程１２５と機能的かつ構造的に類似している。

【0120】

本発明の使用により達成可能な拡張機能１１００のより広い視野を、図１１に見ることができる。図１１に、以下のような幾つかの可能性のある拡張入力１１０５，１１１０および１１１５を示す。

【0121】

－本発明の目的であるフォーマットに従って圧縮され、フォーマットされた化学反応グラフ１１０５、このようなフォーマットは、ＣＲＳ（「化学反応文字列（ｃｈｅｍｉｃａｌｒｅａｃｔｉｏｎｓｔｒｉｎｇ）」）と略される。

【0122】

－任意の機械可読化学フォーマットにおける１つ以上の有効な試薬および生成物を定義する入力（例えば、ファイル）１１１０、この入力は、例えば、．ｍｏｌ（「Ｍｏｌｆｉｌｅ」）、．ｓｄｆ（「構造データファイル」）、．ｘｙｚ（「ＸＹＺファイルフォーマット」）ファイルを含む。かつ／または
－化学反応、例えば、ＳＭＡＲＴＳ符号化化学反応の行表記を表す入力、このようなフォーマットは、ＲｘｎＳｍａｒｔｓと略される。

【0123】

図１１に、以下のような幾つかの可能性のある拡張出力１１２５，１１３０，１１３５，１１４０および１１４５を示す。

【0124】

－原子順序の変化を伴う同じ反応を記述する代替的な圧縮され、フォーマットされた化学反応グラフ１１２５－正準的な形を、原子順序を標準化するのに使用することができる。

【0125】

－同じ反応を定義する［１，Ｎ］の圧縮され、フォーマットされた化学反応グラフの有限リスト、このリストにより、おそらく、固有の圧縮され、フォーマットされた化学反応グラフのセットに縮小される。

【0126】

－例えば、ドット文字「．」を使用して区切られた、［１，Ｎ］の圧縮され、フォーマットされた化学反応グラフの有限リスト、同じ反応を記述する圧縮され、フォーマットされた化学反応グラフを、固有の圧縮され、フォーマットされた化学反応グラフのセットに縮小することができる。

【0127】

－［１，Ｎ］の区切られ、圧縮され、フォーマットされた化学反応グラフの［１，Ｎ］の有限リストのリストもしくはセット、
－同じ反応についての単一もしくは連結された、圧縮され、フォーマットされた化学反応グラフを定義する［１－Ｎ］行と［１－Ｍ］列とを有する有限行列ならびに／または
－単一もしくは連結された、圧縮され、フォーマットされた化学反応グラフを定義する［１－Ｎ］行と［１－Ｍ］列との［１，Ｎ］の有限行列のリストもしくはセット。

【0128】

このような拡張１１２０を、拡張する工程１３０または上記開示されたような並べ替える工程３１０と同様に達成することができる。

【0129】

データの拡張を、各種のアプリケーションにおいて使用することができる。

【0130】

－小さなデータセットのためのモデルの学習のためのデータ増加
－不均衡データセットの平衡化および／または
－アンサンブル表現を使用したニューラルネットワークまたはモデルの学習。

【0131】

図４に、本発明の目的である方法４００の特定の実施形態を示す。この化学反応データセットの前処理方法４００は、
－少なくとも１種の化学反応試薬および少なくとも１種の化学反応生成物を含む少なくとも２つの化学反応グラフのデータセットを、コンピュータインタフェース上で受信する工程４０５と、
－図１に関して開示された方法に従って、少なくとも２つの化学反応グラフを圧縮する工程１００と、
－符号化されたデータセット内の化学反応クラスの分布を、コンピュータシステムにより判定する工程４１０と、
－図３に関して開示された方法に従って、判定された分布の関数として、少なくとも１つの化学反応クラスについてデータセットを拡張する工程３００と、
－前処理されたデータセットを、コンピュータインタフェース上で出力する工程４１５と
を含む。

【0132】

機能的かつ構造的に、受信する工程４０５は、図１に関して開示された受信する工程１０５の任意の変形形態に類似している。この受信する工程４０５を、受信する工程１０５の幾つかの連続的もしくはシリアルなインスタンスを実装することによりまたは幾つかのデータセットを１つの入力で受信するように構成された１つの単一の受信する工程１０５を実装することにより行うことができる。

【0133】

圧縮する工程または圧縮方法１００は、図１に関して、幾つかの変形形態で開示されている。

【0134】

判定する工程４１０を、例えば、専用ソフトウェアを実行するように構成されたコンピュータシステムにより行う。この判定する工程４１０の間に、統計分析を、データセットに対して行い、静的または動的許容閾値と比較する。このような閾値は、例えば、絶対値または相対値における反応クラス当たりのサンプルに関して、データセット中の他の反応クラスについてのサンプルに関してである場合がある。「化学反応クラス」という用語は、「化学反応種」（例えば、合成、分解および置換）とも呼ばれる。

【0135】

データセットを拡張する工程または方法３００は、図３に関して、幾つかの変形形態で開示されている。代替的には、データセットを拡張するこの工程３００は、データセットを拡張するための符号化する第２の工程１２０の前のデータセットを拡張する工程１３０の実行の代わりとなる場合がありまたはこれと並行して実行される場合がある。

【0136】

出力する工程４１５は、図１に関して開示された提供する工程１２５と機能的かつ構造的に類似している。

【0137】

図５に、本発明の目的である方法５００の特定の実施形態を示す。分類器、トランスフォーマまたはリグレッサのためのこの訓練方法５００は、
－図１に関して開示された方法１００の任意の変形形態により得られるような圧縮フォーマットにおいて符号化された化学反応グラフのデータセットを、コンピュータインタフェース上で入力する工程５０５と、
－化学反応グラフのデータセットを入力として使用して、化学反応結合の進展を入力の関数として分類するように構成された再帰的ニューラルネットワークアーキテクチャを、コンピュータシステムにより動作させる工程５１０と、
－訓練された分類器、トランスフォーマまたはリグレッサを、コンピュータインタフェース上で出力する工程５１５と
を含む。

【0138】

機能的かつ構造的に、受信する工程５０５は、図１に関して開示された受信する工程１０５の任意の変形形態に類似している。この受信する工程４０５を、受信する工程１０５の幾つかの連続的またはシリアルなインスタンスを実装することによりまたは幾つかのデータセットを１つの入力で受信するように構成された１つの単一の受信する工程１０５を実装することにより行うことができる。

【0139】

動作させる工程５１０を、例えば、訓練セットに基づいて、コンピュータシステム上で再帰的ニューラルネットワークアーキテクチャおよび関連するソフトウェアを実行することにより行う。

【0140】

出力する工程５１５は、図１に関して開示された提供する工程１２５と機能的かつ構造的に類似している。

【0141】

リグレッサに関しては、ターゲットとなる「反応収率」、「反応の平衡定数」または「遷移状態エネルギー」に従って訓練することができる。

【0142】

このようなリグレッサを、以下の例のいずれかに従って訓練することができる。

【0143】

－「Predicting reaction performance in C-N cross-coupling using machine learning」 by D. T. Ahneman, J. G. Estrada, S. Lin, S. D. Dreher, A. G. Doyle - April 13, 2018または
－ Schwaller, Philippe; Vaucher, Alain C.; Laino, Teodoro; Reymond, Jean-Louis (2020): Prediction of Chemical Reaction Yields using Deep Learning. ChemRxiv. Preprint. (https://doi.org/10.26434/chemrxiv.12758474.v2)。

【0144】

また、本発明は、図５に関して開示された訓練方法により得られた分類器、トランスフォーマまたはリグレッサを動作させる、化学反応結合進展の予測方法も目的とする。

【0145】

これらの実施形態により、反応部位の検出が可能となる。このような実施形態は、上記に開示されている。

【0146】

また、本発明は、図５に関して開示された訓練方法により得られた分類器、トランスフォーマまたはリグレッサを動作させる、化学反応生成方法も目的とする。

【0147】

このような化学反応生成方法は、以下のようなものを入力として使用する。

【0148】

－本発明の目的である方法１００により得られ、圧縮され、フォーマットされた化学反応グラフの一部における文字の種類を特定するために離散値を含む長さＮのベクトル、例えば、ワンホットエンコーダにトークン化されている圧縮され、フォーマットされた化学反応グラフ、
－本発明の目的である方法１００により得られ、可能性のある文字を定義するＮ行と、圧縮され、フォーマットされた化学反応グラフの一部の長さを記述するＭ列とを含むＮ×Ｍ次元のワンホット符号化行列にトークン化されている圧縮され、フォーマットされた化学反応グラフ、
－次の文字を定義する、サイズＭのワンホット符号化ベクトル、
－本発明の目的である方法１００より得られ、場合により、文字群として使用することができ、例えば、「｛！－｝」がベクトル内の単一の位置を定義する、圧縮され、フォーマットされた化学反応グラフにおける柔軟な反応結合および／または
－文の末尾に停止文字を追加するトークナイザ。

【0149】

このような化学反応生成方法では、例えば、以下を含む４層アーキテクチャをネットワークとして使用する。

【0150】

－シーケンス長ＮおよびＭの可能性のある文字のためのトークン化されたベクトルまたは行列をとる入力層、
－２から１０２４までのシーケンス長の１つ以上の再帰的ニューラルネットワーク（ＲＮＮ）、
－ＲＮＮの出力の一部（０から１００％未満まで）のドロップアウト層および次の文字の確率を有するサイズＭのベクトルの緻密層。

【0151】

このようなモデルを、化学的に正確であるように、ネットワーク内の次の最も可能性の高い文字を訓練することができる。ネットワークは、全ての可能性のある文字の確率を予測し、次の文字をランダムに選択する。書き込みは、有限数Ｎの有効な反応が生成されるまで、書き込みの再帰的プロセス：選択－予測－選択－予測である。

【0152】

ネットワークの出力は、生成モデルがどれだけ深く訓練されているかに応じて、学習された反応空間内外で、ＣＲＳを連続的に書き込む。

【0153】

図１２に、生成ニューラルネットワークを訓練する工程１２０５および反応を生成する工程１２１０の２つの工程と、関連する、生成ニューラルネットワークを訓練するためにサンプルデータを入力する工程１２１５と、生成された反応を出力する工程１２２０とを実行するアーキテクチャ１２００をさらに示す。

【0154】

図１３に、上記開示された訓練方法１３００をさらに示す。この方法１３００では、
－圧縮され、フォーマットされた（符号化された）化学反応グラフは、トークナイザ１３１０に入力され（１３０５）、
－前記トークナイザ１３１０は、
－圧縮され、フォーマットされた（符号化された）化学反応グラフを、離散ベクトルまたはワンホット行列型のいずれかであるネットワーク入力１３１５にトークン化する工程と、
－各トークンを、入力され、圧縮され、フォーマットされた（符号化された）化学反応グラフ中の次の文字とペアリングする工程１３２５と
を動作させるように構成されている。前記トークンは、ＲＮＮのための学習ターゲット１３２０として使用され、前記学習ターゲット１３２０は、例えば、ワンホットベクトルに編集されている。

【0155】

図１４に、図１３の代替方法１４００を示す。この方法１４００では、原子間の結合変化を符号化する文字の文字列が、特定のユニタリトークンとして符号化される。

【0156】

図６に、本発明の目的であるソフトウェアにより、化学反応を符号化している状態６００の特定の実施形態を示す。

【0157】

例えば、参照符号６０５および６１０に関して、化学反応グラフを図６に見ることができる。図６に、ウィリアムソンエーテル合成を例として示す。参照符号６０５は、ジエチルエーテルを形成するためのエチルアルコールと臭化エチルとの間のエーテル合成を指定し、６１０は、エトキシシクロヘキサンを形成するためのシクロヘキサノールと臭化エチルとの間のエーテル合成を指定する。

【0158】

図７に、本発明の目的であるソフトウェアにより、平衡化学反応を符号化している状態７００の特定の実施形態を示す。これらの状態７００は、
－反応定数Ｋを有し、完全な原子マッピングおよび正味の化学平衡を示す平衡反応７０５と、
－順方向反応７１０についてのＳＭＡＲＴＳおよび圧縮された化学反応グラフと、
－逆方向反応７１５についてのＳＭＡＲＴＳおよび圧縮された化学反応グラフと
を含む。

【0159】

順方向反応と逆方向反応との間の圧縮され、フォーマットされた結合は、文字の文字列内の結合順序を変化させることにより、本発明の目的であるフォーマットの容易な可逆性を示す。これは、合成および逆合成のような逆の作用を表す反応７１０と７１５との間に示される「＝」と「！」との文字スワップにおいて容易に見ることができる。これにより、記憶されるデータの量と、機械学習アプリケーションのためにより少ないサンプルを使用する能力とが大幅に減少する。

【0160】

例えば、任意の反応、例えば、反応７０５を、定数Ｋが生成物と試薬との間の比を定義することができる平衡により形式的に表すことができる。Ｋの値は、ゼロから無限大まで変化することができる。この現象を、両方のＣＲＳ表現を使用する（好ましくは、順方向反応のＣＲＳと逆方向反応のＣＲＳとを組み合わせる）ことにより、反応データを拡張するのに使用することができる。

【0161】

本発明のフォーマットの更なる重要な利点は、大規模データセットについての圧縮性である。圧縮された化学反応グラフは、現在利用可能な正味の化学反応を定義するための最短フォーマットを定義する。

【0162】

また、図７に、反応条件、例えば、溶媒および／または触媒を、ＣＲＳ文字の文字列に加えるためのフォーマットの能力も示す。ここに示された例は、グリニャール反応であり、これは、溶媒ジエチルエーテル中でマグネシウムＭｇを使用して行われる。ＣＲＳ中で「Ｏ」と化学的に記述された水は、加水分解により反応を停止させるのに使用される。この種のＣＲＳは、所定のＣＲＳについての反応条件を提案するための「条件付きＣＲＳ」と見なすことができる。

【0163】

図８に、本発明の目的であるソフトウェアの特定の実施形態８００の命令を模式的に示す。これらの命令は、
－例えば、アルカリ条件（ＫＯＨ）および溶媒（Ｍｅ２ＳＯ）を含むＲｘｎＳＭＡＲＴＳフォーマットを入力すること（８０５）と、
－反応ＲｘｎＳＭＡＲＴＳを関与する試薬および生成物のみでクリーニングすること（８１０）（この工程によっても、試薬および／または生成物をニュートラルにし、正味の化学変換が定義される）と、
－原子マップ数を完成させて（８１５）、完全な正味の化学反応を定義することと、
－ＣＲＳ、ＳｉｔｅＣＲＳおよび／またはＳｉｔｅＳＭＡＲＴＳを生成すること（８２０）と
である。

【0164】

図９に、本発明の目的であるソフトウェアにより、多段階反応符号化９００内において符号化された連続反応段階（ＡおよびＢ）を模式的に示す。

【0165】

特定の実施形態では、２つの原子間の一連の結合変化により表される多段階反応が、一連の単一の文字により符号化され、各単一の文字は、前記２つの原子間の結合の連続的な状態を表し、文字の順序は、前記２つの原子間の結合変化の順序を表す。

【0166】

このような実施形態では、２つの原子間の結合変化が、このように符号化される：「原子記号１」「｛」（ニュートラル文字）「試薬の結合文字」「第１段階の生成物の反応結合文字」「第２段階の生成物の反応結合文字」「第ｎ段階の生成物の反応結合文字」「｝」（ニュートラル文字）「原子記号２」。

【0167】

図１０に、本発明の目的であるソフトウェアにより、平衡反応符号化１０００内に符号化された平衡反応を模式的に示す。

【0168】

本明細書に開示された新規な反応フォーマットは、正味の化学変換を記述するための最短の可能性のあるシンタックスである。実際、新たに生成された圧縮化学反応グラフは、同じ反応についての対応するＲｘｎＳＭＡＲＴＳと比較した場合、約２０％の長さを有する（図６～図１０）。

【0169】

また、このような化学反応生成方法を、図１５～図２７の観点からも理解することができる。

【0170】

近年、生成ニューラルネットワークは、現実世界の例から現実的なｉｎｓｉｌｉｃｏデータを生成するための強力な深層学習法となっている。生成ニューラルネットワークは、現実的なコンピュータ生成画像および動画を作成するために、画像および音声のためのディープフェイクを生成するのにうまく使用されている。深層生成モデルの例は、潜在空間、典型的には、Ｚ（μ、σ^２）からのサンプリングに基づき、圧縮されたパラメータのセットを使用するかまたは２つのネットワーク、すなわち、ジェネレータＧとディスクリミネータＤとが繰り返し競合して、ディスクリミネータにより現実のデータともはや区別することができない現実的な合成解を生成する敵対的生成ネットワークを使用する、変分オートエンコーダ（ＶＡＥ）を含む。

【0171】

化学において、生成モデルは、新規な分子を生成するために上記技術を使用する分子発見に非常に有用である。特に、化学言語ＳＭＩＬＥＳを記述することを学習した生成ニューラルネットワークは、自然言語処理から公知の方法論を使用して使用されている。これらのアプローチは、分子レベルの処理に限定される。本発明は、確率的サンプリングによる検査メカニズムを含むことを提案する。この新たな戦略では、最高レベルの創造性を維持するための早期停止機能の適応を定義する生成的検査ネットワークを導入した。この検査メカニズムでは、モデルは、化学的に正しいＳＭＩＬＥＳ文字列、すなわち、エラーなしに化学ツールキットにより処理することができるＳＭＩＬＥＳを記述する上でのモデルの成功を評価するために、妥当なサイズの統計的サンプルを生成する。例示されたように、ニューラルネットワークの訓練は、生成されたエントリに対してネットワークが統計的に安定した後に停止される。

【0172】

本発明の目的であるフォーマットは、化学反応グラフの１行表記を定義するためのシンタックスを提供する。このシンタックスは、限定的な意味ではないが、「化学反応文字列（ＣｈｅｍｉｃａｌＲｅａｃｔｉｏｎＳｔｒｉｎｇ）」（ＣＲＳ）と呼ばれる場合があり、行表記に反応結合を導入する。このシンタックスは、現在公知の反応ＳＭＡＲＴＳの大きな圧縮を定義し、明示的な原子インデックス付けを何ら必要としないため離れている。ＣＲＳを、補助的な非修飾分子を含めて拡張することができる。ＣＲＳシンタックスは、１）使用された結合記号の反転による反応の容易な可逆性；２）柔軟な結合に追加の工程を加えることによる多段階反応のための容易な拡張という２つの主な利点を含む。本明細書において、これらの能力は、以下の反応のセットについて例示される：１）基を脱離するようなヨウ素との８つの置換反応のセット。２）アルキン、アルケンおよびアルカン間の多段階水素化および脱水素化。最後に、ＣＲＳ文字列により一段階反応または多段階反応を生成する主な利点は、複数のタスクの即時生成である。まず、任意の単一の反応ＣＲＳは、試薬、生成物および反応を同時に定義する。このため、次に、反応に対する条件、例えば、不変の分子または溶媒を含むことが可能である。例：グリニャール反応についての「ＣＣ（｛－！｝Ｂｒ）Ｃ（Ｃ）｛＝－｝Ｏ．ＣＣＯＣＣ．［Ｍｇ］．Ｏ」。この文字列において、ＣＣＯＣＣおよび［Ｍｇ］は、補助試薬である。

【0173】

１つのこのような例は、以下の技術的考察を利用する。

【0174】

－データセット：本研究では、ＰｕｂＣｈｅｍに公開されている分子を使用して生成されたデータセットを使用した。周知の反応に基づいて後に生成された反応データセットを得た。一段階反応の例のために、強力な脱離基ヨウ素についての置換反応を使用した。多段階反応のために、アルケンを介したアルカンへのアルキンの水素化を使用した。

【0175】

－置換反応：ＰｕｂＣｈｅｍから、単一のヨウ素を有する脂肪族および芳香族ヨウ素分子を選択した。ヨウ素についての８つの置換を適用し、８つの異なる一段階置換反応を定義した（図１５）。これらの反応１５００において、ヨウ素は、より強い脱離基であり、反応は、非平衡反応と考えられる。

【0176】

－水素化反応：ＰｕｂＣｈｅｍから、単一の脂肪族炭素－炭素三重結合を有する分子を選択した。この結合を、多段階反応で変換して、反応１６００アルキン＞アルケン＞アルカンを定義した（図１６）。全ての順方向反応を、水素化結合、すなわち、｛＃＝－｝を多段階脱水素結合、すなわち、｛－＝＃｝に置き換えることにより反転させた。

【0177】

－ニューラルネットワーク：この例では、再帰的ニューラルネットワークを使用して、次の可能性のある文字を予測した。このため、このようなネットワークは、以前に書き込まれた文字のシーケンスに基づいて、次の可能性のある文字をサンプリングする反復ライタを定義する。本明細書で使用されたニューラルネットワークは、以下の層から構成される（図１７）。

【表3】

【0178】

－例示的なニューラルネットワークは、カテゴリクロスエントロピーを使用して訓練される。ニューラルネットワークの訓練を、検査メカニズムを使用することにより停止させた。検査メカニズムは、数十または数百の生成されたエントリの統計的に関連するサンプルを生成し、有効なエントリの数を測定する早期停止機能である。早期停止機能は、モデルがユーザ指定の有効エントリの割合に基づいて統計的に安定した結果を示すとき、訓練を停止させる。有効エントリの割合は、その割合が最低１０エポックの使用サンプルサイズについての９０％信頼区間内にある場合、統計的に安定していると見なされる。また、この早期停止機能のためのジェネレータとして、以下に記載されるようなジェネレータメカニズムも使用されている。

【0179】

生成に使用されるニューラルネットワークは、本明細書において、先に書き込まれた文字に基づいて、次の可能性のある文字を予測するのに使用される。このため、ネットワークは、反復ライタである。図１７に、ネットワークレイアウトを示す。本出願を例示するために本明細書で使用されるネットワークは、シーケンスを入力として記述するワンホットエンコーダ行列をとるネットワークである。図１８に、カテゴリクロスエントロピー損失関数の進行を示す学習過程のモニタリングプロットを示す。図１９に、生成ニューラルネットワークにより生成された有効な反応の割合を示す、生成検査ネットワークに使用される早期停止機能を示す。太線および破線は、生成された１００の反応のサンプルサイズについて、関連付けられた９０％信頼区間を有する平均％を示す。結果が９０％信頼区間内で統計的に安定していれば、訓練は、早期に停止される。このため、上記例では、訓練を、６５エポック後に停止させた。

【0180】

－生成：ニューラルネットワークの訓練が完了すると、すなわち、ニューラルネットワークが、有効な反応の生成のための統計的に安定した結果を得たとき、生成プロセスが開始される。ジェネレータは、反復ライタであり、最後の文字数「ｎ」に基づいて、次の可能性のある文字を予測する。書き込まれた文字が少なかった場合、ジェネレータは、全ての文字を使用する。使用される最初のシードは、前の分子の終わりを定義するための「＼ｎ」である。生成の間に、この方法は、文字、例えば、「＼ｎＣ」、「＼ｎＣＣ」、「＼ｎＣＣＣ」等を繰り返し書き込む。サイズｎ＋１に達すると、この方法は、単語の最後のｎ文字のみを使用して、次の文字を予測する。

【0181】

－評価：１８０の反応セットについてのモデル評価を、正しい反応の数を計数し、ＳｉｔｅＣＲＳ、すなわち、反応種を定義する反応部位の鍵を抽出することにより行う。結果に基づいて、幾つかの反応がデータセット中の比より頻繁に、より少ない頻度でまたは近似比で生成されるかどうかが評価される。この計算のために、無効な反応の数は、計算において無視され、表中に別個に列記されている。

【0182】

このような例により、以下に開示される結果がもたらされる。

【0183】

図２０～図２２に、置換反応についての生成結果を示す。（＃）でフラグを立てられた反応を、読み取り可能であるが、価数エラーの理由で無効な反応と定義した。（＾）でフラグを立てられた反応は、複数種の置換の組み合わせで構成される反応である。「公知」という語は、文献から公知の反応とは逆である。「可能性のある」という語は、反応する可能性がある場合があることを示す。「二段階」とコメントされた「可能性のある」との語は、反応がおそらく２つの独立した段階で構成されていることを示し、「ワンポット」は、反応が異なっていても、両方の段階が一段階で行われ得ることを示す。

【0184】

図２３に、入力反応について生成された例を示す。ジェネレータにより提案される反応は、有効な試薬および有効な生成物のための反応を定義する。ジェネレータを、可能性のある化学反応を仮定するための知識を使用して専ら訓練し、収率に関する情報を使用しては訓練しなかった。Ａ）脂肪族ヨウ素から塩素への置換。Ｂ）脂肪族ヨウ素から臭素への置換。Ｃ）芳香族ヨウ素から塩素への置換。Ｄ）芳香族ヨウ素から臭素への置換。Ｅ）脂肪族ヨウ素からアミンへの置換。Ｆ）ウィリアムソン型反応を使用したメチルエーテル形成。Ｇ）ヨウ素の置換による芳香族メトキシル化。Ｈ）ヨウ素から第一級アミンへの芳香族置換。

【0185】

図２４に、多段階水素化および脱水素化についての結果を示す。

【0186】

図２５に、モデルの入力反応について生成された反応の例を示す。全ての反応を、右側に示すＳｉｔｅＣＲＳを使用して、多段階反応として生成している。例示のために、多段階を、その第１および第２の段階で分解した。ここで示された反応は、ｉｎｓｉｌｉｃｏで生成され、合成の可能性については評価しなかった。

【0187】

理解することができるように、本発明の目的である生成方法により、芳香族ヨウ素および脂肪族ヨウ素についての８つの異なる置換反応から構成される単一の反応データセットが作成される。全ての置換は、強力な脱離基であるヨウ素が別の求核剤により置換されるという点で共通している。結果として、反応ジェネレータは、訓練セットにおいて利用可能な全ての反応についてジェネレータの例が可能であることが分かる。なお、有効な反応の全ての割合は、無効な反応の数を除いて計算されていることに留意されたい。結果として、表示された密度値を、入力セット内の反応密度と比較することができる。全てのサンプルにおいて、生成されたセットにおける密度は、入力セットにおける密度から明らかに変化する場合があることが観察される。それにもかかわらず、反応の大部分は、生成ニューラルネットワークに提示される反応のクラス内に入る。統計的変動は、明らかに、この生成ニューラルネットワークの重要な利点であり、ジェネレータは、予測された確率の境界内の次の文字の選択に基づいて自由に生成することができる。結果として、生成された反応における分布は、生成された分子のセット間で変化する場合がある。加えて、ジェネレータの自由度は、新たな反応の創出に重要な利点である。これらの新たな反応は、複数の部位での置換を含むが、反応は、以前はジェネレータに知られていなかった新たなアイデアを定義する場合がある。このような反応の例は、Ｎ－ヨードピロールからＮ－アミノピロールへの置換である。この例は、入力データセットが炭素原子上での置換のみを含んでいたため、注目に値する。このため、まとめると、反応ジェネレータは、化学的に正しい分子を書き込むという獲得された知識に基づいて、同じ反応空間内の両方の反応を提案することができかつ新たな反応を生成することができる。ジェネレータの創造性を維持するための本質的なメカニズムは、ジェネレータの知識を定期的に試験して、有効な化学反応を生成する確率的試験メカニズムの使用である。

【0188】

図２６に、ジェネレータにより生成される新たな反応の例を示す。入力セットでは未知である、すなわち、最初に定義された８つの反応で構成されていたにもかかわらず、ジェネレータは、新たな反応を生成した。全ての反応は、試薬、生成物および反応矢印の上のＳｉｔｅＣＲＳで示される。例は、Ａ）アルカンの脱ハロゲン化、Ｂ）アミン上でのヨウ素から塩素への置換、Ｃ）脂肪族＋芳香族ヨウ素から臭素への置換、Ｄ）カルボアニオンによるヨウ素の置換、Ｅ）Ｎ－ヨードピロールからＮ－アミノピロールへの置換、Ｆ）ヨウ素から臭素への二重芳香族置換である。

【0189】

多段階反応の例として、ジェネレータを、多段階水素化、すなわち、アルキンからアルケンへおよび生成されたアルケンからアルカンへの水素化について訓練した。データセット内で、脱水素化も、多段階反応、すなわち、アルカンからアルケンおよびアルキンへの反応として定義した。このため、水素化および脱水素化をそれぞれ、ＳｉｔｅＣＲＳＣ｛＃＝－｝ＣおよびＣ｛－＝＃｝で書き込む。ＣＲＳシンタックスを、柔軟性があり、複数の反応段階に対応できるように選択した。多段階水素化のためのＳｉｔｅＣＲＳ、すなわち、Ｃ｛＃＝－｝Ｃは、２つの水素化反応：１）Ｃ｛＃－｝Ｃと書き込まれたアルキンからアルカンおよび２）Ｃ｛＝－｝と書き込まれたアルケンからアルカンの内部結合である。二段階反応の例は、先に示された単一反応の最初の拡張である。ユーザの裁量で、この柔軟な結合種を、第３、第４等の反応を定義するために追加の文字を含むように拡張することができる。先の結果と比較して、反応ジェネレータが、多段階反応を考慮しなければならなかったにもかかわらず、これらの反応のためのジェネレータは、有効な反応を生成するより高い成功率を有することが明らかに分かる。主な違いは、分子のセットにおける多様性の低下であり、すなわち、このデータセットに使用された全ての分子が、脂肪族アルカン、アルケンおよびアルキンであり、一方、置換データセットは、芳香族化合物と脂肪族化合物との両方を含む。図２４に、１８０の生成された反応の３つのランおよび１８０の生成された例の３つのランについての生成結果をまとめる。この分子セットの多様性の低下も、創造性のレベルの低下と共に見ることができる。実際、提案された新たな反応のセットは非常に限られている。それにもかかわらず、ジェネレータは、新たな化学の生成を示し、新たな反応を仮定している。まず、ジェネレータは、複数の反応部位、例えば、２つの三重結合を有する分子を定義する「｛＃＝－｝．｛＃＝－｝」を有する分子を生成したことが分かる（図２７Ｃ～図２７Ｄ）。これは、モデルが単一の部位で構成されるデータセットについて訓練されたため、注目に値する。次に、ジェネレータは、平衡反応、例えば、「Ｃ｛－＝－｝Ｃ」および「Ｃ｛＃＝＃｝Ｃ」を導入した。これらのＳｉｔｅＣＲＳは、アルカンからアルケンへの脱水素化とアルキンからアルケンへの水素化についての平衡反応を定義している（図２７Ａ～図２７Ｂ）。このネットワークは、どのような種類の一段階反応、二段階反応または多段階反応にも対応できるように開いている。ニューラルネットワークにより生成された平衡（図２７Ａ～図２７Ｂ）は、特殊な種類の二段階反応であり、このため、ＣＲＳフォーマットを使用して扱うことができる。

【0190】

図２７に、多段階反応についての新たな反応生成を示す。上記反応は、データセットには示されていない。この例は、訓練は単一反応のみを含んでいたにもかかわらず、２つの平衡反応（ＡおよびＢ）の生成および２つの多段階反応の生成を含む。Ａ）アルカン－アルケンの脱水素化についての平衡。Ｂ）アルキン－アルケンの水素化についての平衡。Ｃ）２つの部位での水素化反応。Ｄ）２つの部位での脱水素化反応。

【0191】

反応の生成を標的とする他の実施形態では、ＡＩアルゴリズムを、化学空間のマイニングのために設定することができる。それにより、多様性が維持され、化学を確実に書き込むモデルの最も早い可能性がある段階を選択するための統計的検査メカニズムが導入される。同じアルゴリズムを適用して、上記開示されたような反応を生成することができる。

【0192】

生成された「ＣＲＳ」の主な利点は、１）生成されたＣＲＳから抽出することができる生成物；２）生成されたＣＲＳから抽出することができる試薬を含む。次いで、生成された経路を、その経路が既存の出発物質から可能であるかどうかを調べることができる。

【0193】

このため、主な利点は、生成物および経路が単一の生成により生成されることである。単一分子ではなく反応を生成する可能性は、現在のアプローチとは非常に異なる。現在のアプローチでは、１）分子を生成し／定義する；２）可能性のある合成について検討する。

【0194】

アプリケーション「Ｇｅｎｅｒａｔｉｏｎ」には、ＣＲＳ生成を有する。この出願についての特許を防御しなければならず、追加の出願特許をバックアップとして検討しなければならない場合がある。ＣＰＵコンピュータが、化学空間を迅速にマイニングし、化学空間のマイニングが、新たな分子を特定するのに不可欠なツールであることが示された（公開データソース、例えば、ＰｕｂＣｈｅｍは、非常に少ない候補分子しか提供しない）。

【0195】

回帰および分類のためのアプリケーションを標的とする他の実施形態では、以下に定義されるアプリケーションが、分子自体の予測と、生成されたＣＲＳ文字列との両方に適用される。ＣＲＳは、目的の分子を生成する反応を定義する。結果として、分子についての任意の予測標的は、ＣＲＳでの予測についての関心事でもある。

【0196】

例えば、
－再生可能炭素についての回帰／分類：提案された反応から、アルゴリズムにより、経路が再生可能炭素の経路であるかどうかが分かるであろう。使用される全ての出発物質が「再生可能」である場合、生成物は、「再生可能」と言える。含量が高いほど、将来の受け入れが良好である。

【0197】

－酵素反応についての回帰／分類：反応から、反応が酵素反応である場合がある場合、回帰／分類により予測することができる。酵素反応の利益は、生成物が「自然」と考えられることである。これも、将来の受け入れを押し進めるであろう。

【0198】

－反応収率についての回帰／分類：反応収率がほとんど報告されていない場合でも、反応が機能するかどうかを大まかに推定することができる。

【0199】

－熱力学的特性および遷移状態についての回帰／分類：このような予測は、合成の容易さまたは合成の収率を特定するのに有益である場合があるエネルギー予測である。

【0200】

－嗅覚または味覚のための関連標的についての回帰／分類：生成された生成物について、以下を特定することが可能となる場合がある：１）生成物を、市場に導入することができるかどうか（「評価運命」）；２）嗅覚ディスクリプタ；３）関連する感覚および物理化学的特性、例えば、臭気検出閾値、臭気値、ヘンリー、溶解度、ｌｏｇＰ、揮発性および／または蒸気圧；４）嗅覚受容体に対する活性；４）味覚受容体活性（例えば、甘味を増強するアロステリックモジュレーター）；５）トップハートベースの注釈分類：これは、強度を定義する測定基準である。予測のためのメカニズムを変化させることができ、化学フォーマットにおける知識ベースの方法、古典的な機械学習方法およびディープラーニング方法を含むことができる。

【0201】

－ＭＳまたはＮＭＲスペクトルの回帰／分類：ＭＳおよびＮＭＲスペクトルの予測を使用して、新たな分子についての同一性を確認することができる。

【0202】

－不純物の予測についての回帰／分類：このようなアプリケーションは、反応により生成される不純物およびその量を予測するのに役立つ場合がある。ここでは、主に立体異性体（例えば、Ｒ－リモネンまたはＳ－リモネン）および位置異性体（パラ－リラールおよびメタ－リラール）の混合物について考える。ただし、予測アルゴリズムは、生成される他の不純物も予測することができる。

【0203】

－危険性の予測についての回帰／分類：ここでは、生成物の安定性、あらゆる種類の毒性、あらゆる種類の蓄積（土壌、水、．．．）を評価する必要がある。

【0204】

－生産コストについての回帰／分類：この方法は、反応の生成を検討する。

【0205】

－変化する結合の回帰／分類：反応予測を得るために、生成物における変化する結合を予測する（ＳＭＩＬＥＳｉｎ＝＞ＣＲＳｏｕｔ）。このような予測を、おそらく、特性：１）市場での成分、２）再生可能炭素、３）酵素反応または４）高収率反応のいずれかについての定量的報酬で強化することができる（強化学習）。強化学習では、幾つかの選択基準を満たすため、特に良好な解に対して報酬を与える。

【0206】

理解されるように、任意の実施形態を、以下の化学反応の非限定的なリストのうちの任意の１つを符号化し、分類しまたは生成するのに使用することができる：

【表4-1】