特許7580851 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技（深▲セン▼）有限公司の特許一覧

特許7580851化合物分子の逆合成予測方法及び関連装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-01

(45)【発行日】2024-11-12

(54)【発明の名称】化合物分子の逆合成予測方法及び関連装置

(51)【国際特許分類】

G16C 20/10 20190101AFI20241105BHJP

G16C 20/70 20190101ALI20241105BHJP

【ＦＩ】

G16C20/10

G16C20/70

【請求項の数】 14

(21)【出願番号】P 2023528742

(86)(22)【出願日】2022-01-21

(65)【公表番号】

(43)【公表日】2023-11-24

(86)【国際出願番号】 CN2022073158

(87)【国際公開番号】W WO2022161269

(87)【国際公開日】2022-08-04

【審査請求日】2023-05-15

(31)【優先権主張番号】202110112207.8

(32)【優先日】2021-01-27

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】517392436

【氏名又は名称】▲騰▼▲訊▼科技（深▲セン▼）有限公司

【氏名又は名称原語表記】ＴＥＮＣＥＮＴＴＥＣＨＮＯＬＯＧＹ（ＳＨＥＮＺＨＥＮ）ＣＯＭＰＡＮＹＬＩＭＩＴＥＤ

【住所又は居所原語表記】３５／Ｆ，ＴｅｎｃｅｎｔＢｕｉｌｄｉｎｇ，ＫｅｊｉｚｈｏｎｇｙｉＲｏａｄ，ＭｉｄｗｅｓｔＤｉｓｔｒｉｃｔｏｆＨｉ－ｔｅｃｈＰａｒｋ，ＮａｎｓｈａｎＤｉｓｔｒｉｃｔ，Ｓｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８０５７，ＣＨＩＮＡ

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】于洋

(72)【発明者】

【氏名】路 ▲嬋▼

(72)【発明者】

【氏名】▲趙▼ 沛霖

【審査官】前田侑香

(56)【参考文献】

【文献】LIN Kangjie ほか3名，“Automatic retrosynthetic route planning using template-free models”，Chemical Science [online]，The Royal Society of Chemistry，2020年11月，p.3355-3364，[2024年5月10日検索]，インターネット<URL:https://pubs.rsc.org/en/content/articlepdf/2020/sc/c9sc03666k>

【文献】SEGLER Marwin H. S. ほか2名，“Planning chemical syntheses with deep neural networks and symbolic AI”，Nature [online]，Macmillan Publishers Limited，2018年03月29日，p.604-610，[2024年5月10日検索]，インターネット<URL:https://www.nature.com/articles/nature25978>

【文献】YAO Chaochao ほか6名，“RetroXpert: Decompose Retrosynthesis Prediction Like A Chemist”，ARXIV.ORG [online]，CORNELL UNIVERSITY ，2020年11月04日，p.1-16，[2024年5月10日検索]，インターネット<URL:https://chemrxiv.org/engage/api-gateway/chemrxiv/assets/orp/resource/item/60c7529dbdbb89d788a3a2ff/original/retro-xpert-decompose-retrosynthesis-prediction-like-a-chemist.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｑ１０／００－９９／００

Ｇ１６Ｂ５／００－９９／００

Ｇ１６Ｃ１０／００－９９／００

(57)【特許請求の範囲】

【請求項1】

コンピュータ機器が実行する化合物分子の逆合成予測方法であって、
標的分子を取得し、前記標的分子を木構造のルートノードとするステップであって、前記ルートノードは前記木構造の第１のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含むステップと、
ターゲット逆合成モデルによって、前記第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得するステップであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第１のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものである、ステップと、
前記第２のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するステップと、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するステップと、を含み、
前記グラフニューラルネットワークは、
第１のトレーニング分子、及び対応する第１のトレーニングシントンを取得し、
前記第１のトレーニング分子及び前記第１のトレーニングシントンのノード特徴及びエッジ特徴を決定し、前記ノード特徴は前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の原子の関係を示すものであり、前記エッジ特徴は前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の化学結合の関係を示すものであり、
前記ノード特徴及び前記エッジ特徴に基づいて、第１の損失関数を決定し、
前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の化学結合の結合切断確率を決定し、
前記結合切断確率に基づいて、第２の損失関数を決定し、
前記第１の損失関数及び前記第２の損失関数に基づいて、前記グラフニューラルネットワークのモデルパラメータを更新することにより、
トレーニングされる、
方法。

【請求項2】

前記ターゲット逆合成モデルによって、前記第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得するステップは、
前記第１のリーフノードに対応する化合物分子の第１の文字列を決定するステップと、
前記第１の文字列を第１の分子グラフに変換するステップと、
前記グラフニューラルネットワークによって、前記第１の分子グラフに基づいて前記第１のリーフノードに対応する化合物分子の結合切断位置を決定するステップと、
前記反応物生成ネットワークによって、前記結合切断位置に基づいて少なくとも１つのシントンを決定するステップと、
所定のルールに基づいて前記少なくとも１つのシントンに対してフィルタリング処理を行うことで、前記予測分子セットを決定するステップと、を含む
請求項１に記載の方法。

【請求項3】

前記グラフニューラルネットワークによって、前記第１の分子グラフに基づいて前記第１のリーフノードに対応する化合物分子の結合切断位置を決定するステップは、
前記グラフニューラルネットワークによって、前記第１の分子グラフ、及び結合切断の数の制限に基づいて、結合切断情報を決定し、前記標的分子に基づいてターゲットキー特徴を決定するステップであって、前記ターゲットキー特徴は原子キー特徴及び結合キー特徴を含み、前記原子キー特徴は原子タイプ、結合数、形式電荷、キラリティー、水素原子数、原子混成状態、芳香性、原子量、高周波反応中心特徴、及び反応タイプのうちの少なくとも１つを含み、前記結合キー特徴は結合タイプ、共役性、環結合、及び分子立体化学特徴のうちの少なくとも１つを含むステップと、
前記ターゲットキー特徴に基づいて前記結合切断情報を抽出して前記結合切断位置を決定するステップと、を含む
請求項２に記載の方法。

【請求項4】

前記反応物生成ネットワークによって、前記結合切断位置に基づいて少なくとも１つのシントンを決定するステップは、
前記結合切断位置に基づいて前記標的分子に対して分割処理を行うことで、少なくとも１つのシントン分子グラフを取得するステップと、
前記シントン分子グラフを第２の文字列に変換するステップと、
所定の反応タイプに基づいて前記第２の文字列を更新することで、第３の文字列を取得するステップと、
前記反応物生成ネットワークによって、前記第３の文字列に基づいて前記少なくとも１つのシントンを決定するステップと、を含む
請求項２に記載の方法。

【請求項5】

前記反応物生成ネットワークは、
第２のトレーニング分子、第２のトレーニングシントン、及びトレーニング反応物を取得し、
前記第２のトレーニング分子に対応する文字列、前記第２のトレーニングシントンに対応する文字列、及び前記所定の反応タイプに基づいて、第１のトレーニング文字列を決定し、前記トレーニング反応物に対応する第２のトレーニング文字列を決定し、
前記第１のトレーニング文字列と前記第２のトレーニング文字列とを関連付けることで、第１のトレーニングサンプルペアを決定し、
前記第１のトレーニングサンプルペアに基づいて、前記反応物生成ネットワークをトレーニングすることにより、
トレーニングされる
請求項４に記載の方法。

【請求項6】

前記グラフニューラルネットワークによって予測された候補文字列を取得するステップと、
前記候補文字列を、前記第２のトレーニングシントンに対応する文字列に追加して、前記第１のトレーニング文字列を第３のトレーニング文字列に更新するステップと、
前記第３のトレーニング文字列と前記第２のトレーニング文字列とを関連付けることで、第２のトレーニングサンプルペアを決定するステップと、
前記第２のトレーニングサンプルペアに基づいて、前記反応物生成ネットワークをトレーニングするステップと、をさらに含む
請求項５に記載の方法。

【請求項7】

ターゲットキャラクタフォーマットを決定するステップと、
前記ターゲットキャラクタフォーマットに基づいて、前記第１のトレーニング文字列を更新するステップと、をさらに含む
請求項５に記載の方法。

【請求項8】

前記複数の第２のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するステップは、
所定の反応タイプの下で、前記第２のリーフノードに対応する前記予測分子セットに対応する第１の候補分子を決定するステップと、
前記ターゲット逆合成モデルによって前記第１の候補分子に対して展開処理を行うことで、第３のリーフノードを取得するステップと、
前記第３のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、第２の候補分子を決定するステップと、
前記第２の候補分子が前記所定の条件を満たすと、前記第２の候補分子に対応するリーフノードが前記末端ノードであると決定するステップと、を含む
請求項１に記載の方法。

【請求項9】

前記第２の候補分子が前記所定の条件を満たすと、前記第２の候補分子に対応するリーフノードが前記末端ノードであると決定するステップは、
前記第２の候補分子に基づいてトラバースすることで、複数の経路分子を取得するステップと、
前記経路分子が基本分子セットにおける分子であれば、前記第２の候補分子が前記所定の条件を満たすと決定し、前記第２の候補分子に対応するリーフノードが前記末端ノードであると決定するステップと、を含む
請求項８に記載の方法。

【請求項10】

前記第２の候補分子が前記所定の条件を満たすと、前記第２の候補分子に対応するリーフノードが前記末端ノードである決定するステップは、
前記木構造において前記第２の候補分子に対応する展開の数を決定するステップと、
前記展開の数が所定値に達した場合、前記第２の候補分子が前記所定の条件を満たすと決定し、前記第２の候補分子に対応するリーフノードが前記末端ノードであると決定するステップと、を含む
請求項８に記載の方法。

【請求項11】

前記標的分子は薬物分子であり、前記木構造はモンテカルロ木であり、前記第２のリーフノードに対応する化合物分子は基の競合反応、保護基の運用、特徴的な基の反応特徴、及び人名反応ルールのうちの少なくとも１つに基づいてスクリーニングすることで得られた請求項１に記載の方法。

【請求項12】

化合物分子の逆合成予測装置であって、
標的分子を取得し、前記標的分子を木構造のルートノードとするためのものであって、前記ルートノードは前記木構造の第１のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含む取得ユニットと、
ターゲット逆合成モデルによって、前記第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得するためのものであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第１のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものである展開ユニットと、
前記第２のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するための処理ユニットと、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するための予測ユニットと、を含み、
前記グラフニューラルネットワークは、
第１のトレーニング分子、及び対応する第１のトレーニングシントンを取得し、
前記第１のトレーニング分子及び前記第１のトレーニングシントンのノード特徴及びエッジ特徴を決定し、前記ノード特徴は前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の原子の関係を示すものであり、前記エッジ特徴は前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の化学結合の関係を示すものであり、
前記ノード特徴及び前記エッジ特徴に基づいて、第１の損失関数を決定し、
前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の化学結合の結合切断確率を決定し、
前記結合切断確率に基づいて、第２の損失関数を決定し、
前記第１の損失関数及び前記第２の損失関数に基づいて、前記グラフニューラルネットワークのモデルパラメータを更新することにより、
トレーニングされる、
装置。

【請求項13】

プログラムコードを記憶するためのメモリと、
前記プログラムコードのコマンドに従って、請求項１～１１のいずれか１項に記載の化合物分子の逆合成予測方法を実行するためのプロセッサーと、を含む
コンピュータ機器。

【請求項14】

コンピュータで実行される場合、請求項１～１１のいずれか１項に記載の化合物分子の逆合成予測方法をコンピュータに実行させるコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は２０２１年０１月２７日にて中国特許庁に提出され、出願番号が２０２１１０１１２２０７８であり、出願名称が「化合物分子の逆合成予測方法及び関連装置」である中国特許出願の優先権を主張して、その内容全体が援用により本明細書に組み込まれる。

【0002】

本出願は人工知能の技術分野に関して、特、化合物分子の逆合成予測技術に関する。

【背景技術】

【0003】

人工知能技術は急速に発展しているため、様々な科学分野に徐々に導入され、重要な役割を果たしている。化学分野において、化学反応は異なる条件によって無限に変化するため、化合物分子を製造する場合、一般に、研究者は、合理な有機合成経路を設計できるために、多くの手間がかかり、人工知能技術を利用して、研究者による有機合成経路の設計を支援すれば、研究者による化学薬品分子や他の化合物の研究開発の効率を大幅に向上させることができる。

【0004】

現在、人工知能の逆合成アルゴリズムは、主に、テンプレート（ｔｅｍｐｌａｔｅ）に基づく逆合成アルゴリズムを含む。テンプレートに基づく逆合成アルゴリズムでは、まず、化学反応変換ルールを記述するためのテンプレート又はルールを取得し、当該テンプレート又はルールは、手動でラベル付けするか、既存の化学反応ライブラリから抽出することができる。そして、取得したテンプレート又はルールに基づいて、標的分子に対して予測される化学反応をマッチングする。

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところが、テンプレートに基づく逆合成アルゴリズムは一般に、大量の反応テンプレーを必要とし、反応テンプレートがない逆合成プロセスの場合、予測できないか、又は誤って予測する恐れがあり、さらに、化合物分子逆合成予測の正確性に影響を与える。

【0006】

これに鑑みて、本出願は、化合物分子逆合成予測の正確性を効果的に向上させることができる化合物分子の逆合成予測方法及び関連装置を提供する。

【課題を解決するための手段】

【0007】

本出願の第１の態様はコンピュータ機器が実行する化合物分子の逆合成予測方法を提供し、具体的に、
標的分子を取得し、前記標的分子を木構造のルートノードとするステップであって、前記ルートノードは前記木構造の第１のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含むステップと、
ターゲット逆合成モデルによって、前記第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得するステップであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第１のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものであるステップと、
前記第２のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するステップと、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するステップと、を含む。

【0008】

本出願第２の態様は化合物分子の逆合成予測装置を提供し、
標的分子を取得し、前記標的分子を木構造のルートノードとするためのものであって、前記ルートノードは前記木構造の第１のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含む取得ユニットと、
ターゲット逆合成モデルによって、前記第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得するためのものであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第１のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものである展開ユニットと、
前記第２のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するための処理ユニットと、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するための予測ユニットと、を含む。

【0009】

本出願の第３の態様はコンピュータ機器を提供し、メモリ、プロセッサー及びバスシステムを含み、前記メモリはプログラムコードを記憶し、前記プロセッサーは前記プログラムコードのコマンドに従って上記の第１の態様に記載の化合物分子の逆合成予測方法を実行する。

【0010】

本出願の第４の態様は、コンピュータで実行される場合、上記の第１の態様に記載の化合物分子の逆合成予測方法をコンピュータに実行させるコマンドが記憶されているコンピュータ可読記憶媒体を提供する。

【0011】

本出願の第５の態様は、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータコマンドを含み、当該コンピュータコマンドはコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータコマンドを読み取り、プロセッサーは、当該コンピュータコマンドを実行することで、上記の第１の態様に記載の化合物分子の逆合成予測方法を当該コンピュータ機器に実行させる。

【発明の効果】

【0012】

以上の技術案から分かるように、本出願の実施例は以下の利点を備える。
標的分子を取得し、標的分子を木構造のルートノードとし、ルートノードは木構造の第１のリーフノードに関連付けられ、木構造は標的分子の逆合成経路を含み、次に、ターゲット逆合成モデルによって、第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得し、ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、グラフニューラルネットワークは第１のリーフノードにおける化合物分子の結合切断位置を予測するものであり、反応物生成ネットワークは結合切断位置に基づいて予測分子セットを決定するものであり、さらに、第２のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定し、さらに、末端ノードに対応する経路情報をトラバースして、標的分子の逆合成経路を決定する。このようにすれば、多段階反応の逆合成予測プロセスを実現し、リーフノードを徐々に再帰的に展開してスクリーニングし、所定の条件を満たす際の末端ノードに対して経路追跡を行うことで、多段階反応の逆合成予測プロセスによって決定される反応物の信頼性を確保し、化合物分子の逆合成予測の精度を向上させることができる。

【図面の簡単な説明】

【0013】

【図1】化合物分子の逆合成予測システムが実行するネットワークアーキテクチャ図である。

【図2】本出願の実施例で提供される化合物分子の逆合成予測のアーキテクチャ図である。

【図3】本出願の実施例で提供される化合物分子の逆合成予測方法のフローチャートである。

【図4】本出願の実施例で提供される探索木の動作プロセスの概略図である。

【図5】本出願の実施例で提供される中間反応物を予測するプロセスの概略図である。

【図6】本出願の実施例で提供されるターゲット逆合成モデルの動作プロセスの概略図である。

【図7】本出願の実施例で提供される逆合成反応プロセスの概略図である。

【図8】本出願の実施例で提供されるグラフニューラルネットワークの動作プロセスの概略図である。

【図9】本出願の実施例で提供される文字列変換の概略図である。

【図10】本出願の実施例で提供される別の化合物分子の逆合成予測方法のフローチャートである。

【図11】本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図である。

【図12】本出願の実施例で提供される別の化合物分子の逆合成予測プロセスの概略図である。

【図13】本出願の実施例で提供される別の化合物分子の逆合成予測プロセスの概略図である。

【図14】本出願の実施例で提供される別の化合物分子の逆合成予測プロセスの概略図である。

【図15】本出願の実施例で提供される化合物分子の逆合成予測装置の構造概略図である。

【図16】本出願の実施例で提供される端末機器の構造概略図である。

【図17】本出願の実施例で提供されるサーバーの構造概略図である。

【発明を実施するための形態】

【0014】

まず、本出願の実施例において出現可能性があるいくつかの用語を解釈する。

【0015】

ＳＭＩＬＥＳ記法（Ｓｉｍｐｌｉｆｉｅｄｍｏｌｅｃｕｌａｒｉｎｐｕｔｌｉｎｅｅｎｔｒｙｓｐｅｃｉｆｉｃａｔｉｏｎ、ＳＭＩＬＥＳ）：ＡＳＣＩＩ文字列で分子構造を明確に記述する仕様である。

【0016】

Ｔｒａｎｓｆｏｒｍｅｒ: アテンションメカニズムに基づいて逐次学習を行うニューラルネットワークモデルである。

【0017】

グラフニューラルネットワーク（ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＧＮＮ）：グラフデータを処理するニューラルネットワークであり、例えば、分子マップ（「分子グラフ」とも呼ばれる）上で演算する一連のニューラルネットワークアルゴリズムである。

【0018】

反応中心：逆合成において切断されるキーの頂点及びその第１レベルの隣接するエッジから構成されるサブグラフである。

【0019】

モンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈ、ＭＣＴＳ）：決定過程に対する、ヒューリスティクスな探索アルゴリズムである。

【0020】

ａｔｏｍ－ｍａｐｐｉｎｇ：反応物と生成物との関係での原子を一対一にマッチングする、化学反応を示す方式である。一般に、テンプレートに基づく逆合成アルゴリズムに使用される。

【0021】

基本分子セット：多段階逆合成において反応予測終端点を決定する化合物ライブラリであり、即ち、予測された反応物は基本分子セットにあると、合成経路を予測するためにさらに分解されることなく、反応物の予測を停止することができる。これに基づいて、基本分子セットに含まれる化合物の量は、逆合成経路の階段数を决定することができる。

【0022】

ルートノード：木構造における検索開始ノードであり、化合物の逆合成予測において、ターゲット合成化合物を指示するものである。

【0023】

リーフノード：ルートノードの下層ノードであり、化合物の逆合成予測において、単段階または多段階の逆合成によって予測される中間化合物を示すものである。

【0024】

末端ノード：木構造において検索終止条件を満たすノード、例えば、逆合成予測のためのモンテカルロ木において検索終止条件を満たすノードであり、当該検索終止条件は、末端ノードの展開の数が所定値に達することであってもよいし、又は、末端ノードが基本分子セットにおける分子であることであってもよい。

【0025】

逆合成経路：標的合成化合物から反応に参加する化合物に導出する経路である。

【0026】

ここで、本出願で提供される化合物分子の逆合成予測方法はコンピュータ機器に適用され、具体的に、コンピュータ機器で実行する、化合物分子の逆合成予測機能を有するシステム又はプログラム、例えば、薬物合成アシスタントによって実行されることができ、具体的に、化合物分子の逆合成予測システムは図１のネットワークアーキテクチャで実行することができ、図１に示すように、化合物分子の逆合成予測システムは、複数の情報源向けの化合物分子の逆合成予測サービスを提供でき、例えば、端末側で操作をトリガーすることで、標的分子をサーバーに送信し、サーバーは反応物を予測し、予測結果を端末にフィードバックするようにする。図１に様々な端末機器を示し、端末機器はコンピュータ機器であってもよく、実際のシナリオにおいて、より多く又は少ないタイプの端末機器は化合物分子の逆合成予測プロセスに参加してもよく、具体的な数及びタイプは実際のシナリオに応じて決定され、ここで、限定しない。また、図１は１つのサーバーを示し、実際のシナリオにおいて、複数のサーバーが参加してもよく、具体的に、化合物分子の逆合成予測プロセスに参加するサーバーの数は、実際シナリオによって決定される。

【0027】

本実施例において、サーバーは独立した物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、基本的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。端末はスマートフォン、タブレット、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチなどであってもよいが、これらに限定されていない。端末とサーバーとは有線又は無線の通信で直接又は間接的に接続されてもよく、端末とサーバーは接続してブロックチェーンネットワークを形成することができるが、これは本開示に限定されない。

【0028】

ここで、上記の化合物分子の逆合成予測システムは個人の携帯端末で実行されることができ、例えば、薬物合成アシスタントに類似するアプリケーションプログラムとして、サーバーで実行されてもよいし、サードパーティの機器に実行され、化合物分子の逆合成予測を行うことで、情報源の化合物分子の逆合成予測処理結果を取得してもよく、具体的に、化合物分子の逆合成予測システムはプログラムとして上記の機器で実行されてもよいし、上記の機器におけるシステム部品として実行されてもよいし、さらに、クラウドサービスプログラムの１つとしてもよく、具体的な実行モードは実際のシナリオによって決定され、ここで、限定していない。

【0029】

現在、主に、テンプレートに基づくアルゴリズムを使用して化合物分子の逆合成予測を実現し、テンプレートに基づくアルゴリズムにおいて、大量の反応テンプレートを必要とし、反応テンプレートのない逆合成プロセスの場合、予測できないか、又は誤って予測する可能性があり、化合物分子逆合成予測の正確性に影響を与える。

【0030】

上記の問題を解決するために、本出願は化合物分子の逆合成予測方法を提出し、当該方法は図２の化合物分子の逆合成予測のアーキテクチャに適用され、図２に示すように、ユーザーは端末によって標的分子を入力するターゲット操作を実行して、端末は標的分子をサーバーに送信し、さらに、サーバーは単段階反応予測及び多段階反応予測を組み合わせて、標的分子に対応する反応物を予測する。具体的に、既存生成物（標的分子）の分子グラフ構造情報及びＳＭＩＬＥＳ文字列情報を使用して、結合切断後のシントンを補足して、反応物を取得する。予測プロセスで、分子のグラフ構造及びＳＭＩＬＥＳ文字列情報を十分に使用し、また、逆合成のフロー全体はまず、結合切断位置を与えて、結合切断後のシントンを補足して、フロー全体は可視化されやすくなり、解釈可能性を備える。以降、モンテカルロ木探索の方法で単段階結果をソーティングして選択し、さらに、多段階反応予測を実現して、反応物を取得する。

【0031】

ここで、本出願が提供する方法はプログラムの書き込みであってもよく、ハードウェアシステムにおける処理ロジック、又は化合物分子の逆合成予測装置として、集積又は外付けの形態で上記の処理ロジックを実現してもよい。実現方式として、当該化合物分子の逆合成予測装置は標的分子を取得し、標的分子を木構造のルートノードとし、ルートノードは木構造の第１のリーフノードに関連付けられ、木構造は標的分子の逆合成経路を含み、そして、ターゲット逆合成モデルに基づいて第１のリーフノードを展開して、複数の第２のリーフノードを取得し、ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、グラフニューラルネットワークは第１のリーフノードにおける化合物分子の結合切断位置を決定し、反応物生成ネットワークは結合切断位置に基づいて予測分子セットを取得し、さらに、第２のリーフノードにおける予測分子セットに対して再帰処理を行うことで、所定条件に達した時の末端ノードを決定し、さらに、末端ノードに対応する経路情報をトラバースし、標的分子の逆合成経路を決定する。このように、多段階反応の逆合成予測プロセスを実現し、逆合成予測プロセスで、段階的な再帰的展開を行って、リーフノードを徐々に再帰的に展開してスクリーニングし、所定の条件を満たす末端ノードに対して経路追跡を行うことで、多段階反応の逆合成予測プロセスによって予測された反応物の信頼性を確保し、化合物分子逆合成予測の正確性を向上させる。

【0032】

本出願の実施例で提供される解決策は人工知能の機械学習技術に関して、具体的に、以下の実施例によって説明する。

【0033】

以下、本出願の実施例で提供される化合物分子の逆合成予測方法を紹介し、図３を参照し、図３は本出願の実施例で提供される化合物分子の逆合成予測方法のフローチャートであり、当該予測方法はコンピュータ機器によって実行され、具体的に、端末によって実行されてもよいし、サーバーによって実行されてもよいし、さらに、端末及びサーバーによって共同に実行されてもよく、本出願の実施例は少なくとも以下のステップを含み、
３０１：標的分子を取得し、標的分子を木構造におけるルートノードとする。

【0034】

本実施例において、標的分子は薬物分子であってもよいし、他の用途を有する化合物分子であってもよく、具体的な分子形態は実際のシナリオによって決定される。

【0035】

また、ルートノードは木構造の第１のリーフノードに関連付けられ、木構造は標的分子の逆合成経路を含み、木構造は、決定プロセスのためのヒューリスティクスな探索アルゴリズム木であるモンテカルロ木であってもよく、木構造において、ルートノードはリーフノードの上位ノードであり、リーフノードからルートノードまで経路をたどることで、標的分子の合成経路を決定することができる。

【0036】

理解を容易にするために、以下、図４に示す本出願の実施例で提供される探索木の動作プロセスの概略図を参照する。各ノードは１つの分子セットに対応し（例えば、反応物セットに対応するノードには複数の反応物分子が含まれる）、また、末端分子（反応物）に対応するノードは末端ノードとして定義される。ルートノード（標的分子）から開始して、探索木は、選択（ｓｅｌｅｃｔｉｏｎ）、展開（ｅｘｐａｎｓｉｏｎ）、ロールアウト（ｒｏｌｌｏｕｔ）及び更新（ｕｐｄａｔｅ）の４つのステップを反復的に実行して、そして、更新の完了後、再び選択に戻り、上記のプロセスを繰り返すことができる。

【0037】

具体的に、選択プロセスは、探索木がルートノード（標的分子）からリーフノードをトラバースすることを意味し、このプロセスにおいて、高いスコアを有するサブノードＡを選択する。スコアはスコアリング関数によって生成され、スコアリング関数は、当該ルートノードから展開された全ての末端ノードによってフィードバックされた得点（ｒｅｗａｒｄ）と、当該ルートノードのアクセス回数の逆数との加重和である。

【0038】

展開プロセスは、スコアが高いノードＡに基づいて展開してノードＢ及びノードＣを取得し、即ち、ターゲット逆合成モデルによって、リーフノードを追加する。例えば、まず、１０種の反応タイプをトラバースし、各反応タイプに対して３つの結果を予測し、合計で３０個の結果を取得し、その後、３０個の結果をフィルタリングして、一部のルール、逆合成確率モデル、順方向合成予測モデル確率などの方法を使用して、可能性が高いいくつかを保留することができる。一部のルールは以下を含む：（１）生成された結果分子は自然界で存在する分子である。（２）生成された結果分子は有機物である。（３）生成された結果分子の環数は増加しない。逆合成確率モデル及び順方向合成予測モデルは、合成経験に基づいてまとめて取得された経験モデルであり、両者は展開された化合物の実現可能性を反映することができる。

【0039】

ロールアウトプロセスの例示的な実現方式は以下の通りであり、まず、１０種の反応タイプをトラバースし、各種の反応タイプに対して１つの結果を予測し、合計で１０個の結果を取得する。そして、１０個の結果をフィルタリングして、逆合成確率、順方向合成予測確率などを使用して、可能性が最も高い反応を選択して次の展開を行う。停止条件を満たすまで、以上のプロセスを繰り返す。具体的な停止条件は、リーフノードに対応する分子がすべて基本分子セット内にあること、又は所定の回数に達したことである。

【0040】

更新プロセスは、末端ノードのｒｅｗａｒｄスコアを計算し、上位層のノードへ徐々に更新することを意味する。Ｒｅｗａｒｄの計算について、ロールアウトにより、末端ノードを生成可能な合成経路を取得し、当該合成経路における全てのリーフノードに対応する分子に対して、原材料ライブラリにおける数と全てのリーフノード分子数との比をｒｅｗａｒｄとして計算することで、木構造のスコアリングを更新し、以降の選択－展開－ロールアウト－更新という循環の実行を容易にすることができ、当該木構造に基づいて適切な反応物を正確に抽出することができる。

【0041】

本実施例の木構造におけるスコアリングは、循環プロセスとして設定され、具体的なスコアリング関数は、循環過程における何れかのラウンドのスコアリング関数を使用してもよく、また、上記のステップ解釈における数値説明は一例であり、具体的な数値は実際のシナリオによって決定されることを理解されたい。

【0042】

３０２において、ターゲット逆合成モデルによって、第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得する。

【0043】

本実施例において、ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、グラフニューラルネットワークは第１のリーフノードに対応する化合物分子の結合切断位置を予測し、反応物生成ネットワークは結合切断位置に基づいて予測分子セットを決定するものであり、即ち、中間反応物を決定するプロセスは、分子の潜在的な結合切断位置を予測し、結合切断後のシントンを生成するための階段と、反応物の情報によってシントンを補足して、中間反応物を取得する階段とを含む。

【0044】

任意選択で、中間反応物の取得プロセス（即ち、第２のリーフノードの決定過程）において、複数の候補結果を取得する可能性があるので、中間反応物を取得するためにスクリーニングする必要があり、図５は本出願の実施例で提供される中間反応物を予測する過程の概略図であり、図５に示すように、化合物分子Ａについて、その結合切断位置を決定した後、まず、反応タイプに基づいて展開処理を行い、次に、反応タイプの予備選択を行って候補シーケンス１（Ｒ１－Ｒｎ）を取得し、例えば、各反応タイプのうちの、得点が最も高い１０種を選択し、有効性スクリーニングを行って候補シーケンス２（Ｒ１－Ｒｋ、ｋ＜ｎ）を取得し、例えば、候補シーケンス１における各分子が効果で安定した分子であるかどうかを決定し、さらに、原子保存のスクリーニングを行って候補シーケンス３（Ｒ１－Ｒｍ、ｍ＜ｋ）を取得し、候補シーケンス３における合成確率を計算することにより、スクリーニングして可能な反応物セットＢ及びＣを取得し、合成確率はデータベース中の異なるタイプの反応の成功率または使用率の統計に基づいて得られることができる。

【0045】

また、中間反応物の決定について、直接に反応タイプが展開されたセットに基づいて結合切断確率を判定してもよく、又は反応タイプの予備選択後、反応物予測確率を判定することで得られてもよく、両者の結合の重複に基づいて第２のリーフノードにおける反応物セットを決定してもよい

【0046】

１つの複雑な分子について、一般に、複数の単段階反応予測を行う必要があり、そして、単段階のソーティング結果に基づいて、取得された反応物又は中間生成物に対して、文献による既知又は市販の原材料ライブラリ（ここで、逆合成分析の終端点を决定するための基本分子セットとして定義される）に達するまで、次の単段階反応予測を行う。従って、単段階反応予測の正確性は、多段階逆合成全体の予測において重要な役割を果たす。

【0047】

以下、単段階予測の過程、即ち、ターゲット逆合成モデルの使用過程について説明する。図６は本出願の実施例で提供されるターゲット逆合成モデルの動作プロセスの概略図であり、図に単段階予測の過程を示し、まず、第１のリーフノードに対応する化合物分子の第１の文字列を決定し、そして、第１の文字列を第１の分子グラフに変換し、さらに、グラフニューラルネットワークによって、第１の分子グラフに基づいてグラフを入力し、当該第１のリーフノードに対応する化合物分子の結合切断位置を決定し（結合切断位置判定）、反応物生成ネットワークによって、結合切断位置の入力に基づいて、少なくとも１つのシントンを決定し、最後、所定のルールに基づいて少なくとも１つのシントンをフィルタリングして、予測分子セット（反応物セット）を決定する。

【0048】

反応物セットを取得した後、具体的な反応過程を得ることができ、図７は本出願の実施例で提供される逆合成反応プロセスの概略図であり、図に、標的分子に基づいて決定されたシントン１及びシントン２、シントン１及びシントン２に対応する反応物１及び反応物２を示し、反応物１はシントン１に対して基本分子セット検索を行うことで決定され、即ち、基本分子セットにおいて、シントンに関連付けられた分子を検索する。

【0049】

結合切断予測を処理する問題は、グラフからグラフへの変換問題であることを理解されたい。上記のステップでは、分子グラフの決定過程は具体的に以下の通りであり、まず、所定の生成物のＳＭＩＬＥＳ文字列を、対応するＮｐ個のノードを有する分子グラフＧｐに変換してから、分子グラフＧｐをグラフニューラルネットワークに入力し、さらに、当該分子グラフＧｐ内において結合切断を予測する。

【0050】

具体的に、結合切断の予測プロセスはターゲットキー特徴に基づいて行われる。具体的に、まず、グラフニューラルネットワークによって第１の分子グラフ、及び結合切断の数の制限に基づいて、結合切断情報を取得し、及び、標的分子に基づいてターゲットキー特徴、例えば、標的分子に含まれる原子のタイプ及び結合のタイプを決定し、さらに、ターゲットキー特徴に基づいて結合切断情報を抽出し、結合切断位置を決定する。

【0051】

ターゲットキー特徴は、原子キー特徴及び結合キー特徴を含み得、ターゲットキー特徴が使用する原子（ｎｏｄｅ）及び結合（ｅｄｇｅ）の特徴は、オープンソースのＲＤＫｉｔを使用して自動に抽出され、具体的に、原子キー特徴は、原子タイプ、結合数、形式電荷、キラリティー、水素原子数、原子混成状態、芳香性、原子量、高周波反応中心特徴及び反応タイプのうちの少なくとも１つを含んでもよく、結合キー特徴は、結合タイプ、共役性、環結合及び分子立体化学特徴のうちの少なくとも１つを含んでもよいことを理解されたい。

【0052】

具体的に、原子タイプは当該原子の原子番号であり(周期表において元素が順で並べる番号を指す)、結合の数は、当該原子が所属する、異なる化学結合の数であり、形式電荷は、生成物分子に割り当てられた当該原子の電荷であり、キラリティーは、１つの分子がその鏡像と重ね合わすことができないことを指し、例えば、人間の両手のように、左手とその鏡像である右手は互いに重ね合わせられないことであり、水素原子数は当該原子に接続された水素原子数であり、原子混成状態はｓｐ、ｓｐ２、ｓｐ３、ｓｐ３ｄ又はｓｐ３ｄ２を含み、芳香性は当該原子が芳香環系にあるかどうかを特徴付けるものであり、原子量は当該原子の重量であり、高周波反応中心特徴は１つの原子が高周波反応中心特徴を有するかどうかを特徴付けるものであり、当該原子を含む分子サブマップが高周波反応中心であるかどうかに依存し、高周波反応中心は逆合成トレーニングセットの生成物から抽出された頻繁な反応の中心であり、反応タイプは逆合成反応の化学反応タイプであり、原子の１つの特徴としてもよい。

【0053】

結合タイプは、当該化学結合が所属するタイプを示し、例えば、単結合、二重結合、三重結合、芳香族結合などであり、共役特徴は当該化学結合が共役であるかどうかを示し、環結合特徴は当該化学結合が環結合の一部であるかどうかを示し、分子立体化学特徴はアキラリティー要素、キラリティー要素の任意、又は二重結合の立体化学などである。

【0054】

任意選択で、所定の標的分子について様々な結合切断の組み合わせを有する可能性があるため、補助タスクを増やすことで、結合切断の総数を制限することができる。図８は本出願の実施例で提供されるグラフニューラルネットワークの動作プロセスの概略図である。図に、原子特徴による結合切断予測プロセス（ａ）、原子特徴及び結合特徴による結合切断予測プロセス（ｂ）を示し、原子特徴の結合切断予測プロセスを基に結合切断の数、結合切断タイプ又は結合切断エネルギー値に制限を設定することで、決定された結合切断位置の正確性を向上させることができる。

【0055】

以下、本実施例のグラフニューラルネットワークのトレーニング過程について説明し、トレーニング過程に係るモデルトレーニングデータは米国特許データベースＵＳＰＴＯ中の１８０萬のデータセットのサブセットＵＳＰＴＯ＿５０ｋ及びＵＳＰＴＯ＿４８０ｋデータからのものであってもよい。反応にキラリティー分子が含まれた反応データを除去し、全部でａｔｏｍ－ｍａｐｐｉｎｇで処理する。反応タイプの分布は、表１に示されるように、主に１０種の化学反応タイプを含む。

【表1】

【0056】

具体的に、グラフニューラルネットワークのトレーニング過程について、まず、第１のトレーニング分子、及び対応する第１のトレーニングシントンを取得し、その後、第１のトレーニング分子及び第１のトレーニングシントンのノード特徴（原子特徴）、エッジ特徴（結合特徴）を決定し、ノード特徴は第１のトレーニング分子と第１のトレーニングシントンとの間の原子の関係を示すものであり、エッジ特徴は第１のトレーニング分子と第１のトレーニングシントンとの間の化学結合の関係を示すものであり、そして、ノード特徴及びエッジ特徴に基づいて、第１の損失関数を決定し、第１のトレーニング分子と第１のトレーニングシントンとの間の化学結合の結合切断確率を決定し、結合切断確率に基づいて、第２の損失関数を決定し、さらに、第１の損失関数及び第２の損失関数に基づいて、グラフニューラルネットワークのモデルパラメータを更新する。

【0057】

具体的に、第１の損失関数の決定過程、即ち、所定の入力について、
Ｇｐ＝｛Ａｐ、Ｅｐ、Ｘｐ｝
Ｇｐは第１のトレーニング分子の分子グラフであり、Ａｐは第１のトレーニング分子の原子特徴であり、Ｅｐは第１のトレーニング分子の結合特徴であり、ＸｐはＧＡＴモデルのパラメータである。

【0058】

【数1】

【0059】

まず、ノードのベクトル表現（ｅｍｂｅｄｄｉｎｇ）に重みを掛ける。

【数2】

そして、活性化関数を使用して計算する（ここで、Ｍｉｓｈ関数を例として説明する）。

【数3】

さらに、ｓｏｆｔｍａｘによってｌ+１層のｅｍｂｅｄｄｉｎｇを取得し、最後の式はｌ+１層の頂点ｉ、ｊ及びエッジの３つのベクトルを連結し、重み係数を掛け、具体的な式は以下の通りである。

【数4】

その中、初期ｅｍｂｅｄｄｉｎｇ

【数5】

はそれぞれ入力されたノード及びエッジの特徴である。Ｗ、Ｖ、Ｕは異なる重み係数のベクトルであり、ｚ_ｉ、ｃ_ｉ,ｊは中間変数であり、

【数6】

はトレーニング可能なパラメータであり（Ｆ、Ｆ’、Ｄはそれぞれ異なる特徴ベクトルの次元の数値である）、N_iはノードｉの隣接ノードであり、a_i,jはノードｉ及びその隣接ｊのａｔｔｅｎｔｉｏｎパラメータである。

【数7】

はそれぞれ出力されたノード及びエッジの表現である。

【0060】

【数8】

【0061】

さらに、結合切断予測を最適化する目的は、結合切断d_i,j及び実のy_i,j∈{0,1}を最小化することであり、１つのバイナリクロスエントロピー損失関数によって１つの尤度の負の対数を計算し、具体的な関数は以下の通りである。

【数9】

その中、Ｋは結合b_i、jの間に存在する全てのデータの量であり、Ｇは対応する分子グラフであり、y_i,jは信頼度パラメータであり、d_i,jは結合切断の位置である。

【0062】

結合b_i,jは、対応する隣接元素a_i,jはゼロではない際に存在する。ｇｒｏｕｎｄ－ｔｒｕｔｈについて、y_i,j=１であれば、第ｉの原子及び第ｊの原子の化学結合が切断したことを意味することを理解されたい。

【0063】

任意選択で、当該モデルトレーニング階段でｍｕｌｔｉｓｔｅｐの方法を使用できるが、学習率を高めるために、コサインアニーリング（Ｃｏｓｉｎｅａｎｎｅａｌｉｎｇ）のトレーニング方法を使用するように最適化し、即ち、学習率を循環的に変化させることができる。

【0064】

具体的に、コサインアニーリングはコサイン関数によって学習率を低減させることができる。コサイン関数において、ｘの増加に連れて、コサイン値はゆっくりと低下し、次に加速して低下し、その後再びゆっくりと低下する。このような変化モードは学習率と組み合わせ、非常に効果的な計算方式でよい効果を発揮することができ、具体的な計算式は以下の通りである。

【数10】

その中、η_ｔは学習率であり、η_ｍａｘは最大学習率であり、η_ｍｉｎは最小学習率であり、Ｔ_ｃｕｒは現在の反復回数であり、Ｔ_ｍａｘは最大反復回数である。

【0065】

上記の計算過程により、現在の局所最適点から抜け出し、新たな局所最適点を見つけることができる。各周期の計算が完了した後、異なる局所最適点のモデルパラメータを保存して、学習率をスムーズに低下させる。

【0066】

上記の実施例はグラフニューラルネットワークの使用及び学習の過程について説明したが、以下、反応物生成ネットワークの使用及び学習の過程について説明する。

【0067】

具体的に、結合切断位を予測した後、標的分子を分割することでシントンを取得することができる。分割後のシントンサブグラフをＲＤＫｉｔからＳＭＩＬＥＳ表現に変換することができる。ここで、シントンは必ずしも実の反応物ではなく、反応物のサブ構造であり得ることに留意されたい。そして、Ｔｒａｎｓｆｏｒｍｅｒに基づく反応物予測のためのニューラルネットワーク（反応物生成ネットワーク）を構築することができる。

【0068】

具体的に、反応物生成ネットワークの応用過程は以下の通りであり、まず、グラフニューラルネットワークによって決定された結合切断位置に基づいて標的分子に対して分割処理を行うことで、少なくとも１つのシントン分子グラフを取得し、その後、シントン分子グラフを第２の文字列に変換し、所定の反応タイプに基づいて第２の文字列を更新することで、第３の文字列を取得し、所定の反応タイプは、表１に示す反応タイプの何れか１つであってもよく、さらに、反応物生成ネットワークによって、第３の文字列に基づいて、少なくとも１つのシントンを決定する。

【0069】

可能なシナリオにおいて、図９は本出願の実施例で提供される文字列変換の概略図であり、各反応タイプは１つの文字列ＲＸＮとして表すことができ、例えば、第ｋ種の反応タイプはＲＸＮ＿ｋで表してもよく、各生成物分子は１つのＳＭＩＬＥＳ文字列として表現され、Ｐｒｏｄｕｃｔと記され、各シントンも１つのＳＭＩＬＥＳ文字列として表現され、Ｓｙｎｔｈｏｎと記され、各シントンに対応する分子も１つのＳＭＩＬＥＳ文字列として表現され、Ｒｅａｃｔａｎｔと記されることができる。ここで、ソースシーケンスデータ情報は、反応タイプ情報（もしあれば）、標準生成物ＳＭＩＬＥＳ文字列及び対応するシントンを連結することで得られるものである。ターゲットシーケンスは各シントンの反応物のＳＭＩＬＥＳ情報に対応する。さらに、生成物とシントンの両方を観察できるようにａｔｔｅｎｔｉｏｎメカニズムを使用することができ、それによってアルゴリズムの解釈可能性を高める。

【0070】

また、反応物生成ネットワークのトレーニング過程で、トレーニング分子、トレーニングシントン及びトレーニング反応物の関連関係をキャラクタ次元で表す必要がある。具体的に、まず、第２のトレーニング分子、第２のトレーニングシントン、及びトレーニング反応物を取得し、その後、第２のトレーニング分子に対応する文字列、第２のトレーニングシントンに対応する文字列、及び所定の反応タイプに基づいて、第１のトレーニング文字列を決定し、トレーニング反応物に対応する第２のトレーニング文字列を決定し、さらに、第１のトレーニング文字列と第２のトレーニング文字列とを関連付けて、第１のトレーニングサンプルペアを決定し、ひいては、第１のトレーニングサンプルペアに基づいて、反応物生成ネットワークをトレーニングすることができる。

【0071】

可能なシナリオにおいて、第２のトレーニングシントンが２つであり、２つのトレーニングシントンのＳＭＩＬＥＳ文字列がそれぞれSynthon1及びSynthon2であると仮定すると、反応タイプ、生成物分子、シントンのそれぞれに対応する文字列を連結することで、長い文字列（第１のトレーニング文字列）を取得することができ、以下の通りである。
U=<RXN_i>Product<LINK>Sython1.Synthon2
さらに、対応する正確な標的分子文字列Reactant1及びReactant2（ここで、２つの反応物のみがあると仮定する）を長いターゲット文字列（第２のトレーニング文字列）に連結する。
V=Reactant1.Reactant2
そして、U及びVからトレーニングサンプル（第１のトレーニングサンプルペア）を構成する：
(U,V)

【0072】

任意選択で、反応物生成ネットワークのロバスト性を高めるために、第１の階段（結合切断分割）にて予測されたシントンのＳＭＩＬＥＳ文字列をトレーニングデータとしてもよく、当該予測結果は不正確であり得る。具体的に、まず、グラフニューラルネットワークによって予測された候補文字列（予測結果）を取得し、その後、候補文字列を第２のトレーニングシントンに対応する文字列に追加して、第１のトレーニング文字列を第３のトレーニング文字列に更新し、さらに、第３のトレーニング文字列と第２のトレーニング文字列とを関連付けて、第２のトレーニングサンプルペアを決定し、最後、第２のトレーニングサンプルペアに基づいて、反応物生成ネットワークをトレーニングする。

【0073】

可能なシナリオにおいて、第１の階段モデルが３つのシントン（候補文字列）を予測したと仮定する。

【数11】

この３つのシントンのそれぞれに対応する候補文字列に基づいて、以下の第３のトレーニング文字列を決定する。

【数12】

そして、正確な出力ターゲットＶと組み合わせて、１つのサンプル（第２のトレーニングサンプルペア）を構成する。

【数13】

さらに、第２のトレーニングサンプルペアに基づいて、第２の階段のモデル（反応物生成ネットワーク）をトレーニングする。

【0074】

具体的に、トレーニング過程において、予測された文字列と実の反応物の文字列との間の差を最小化することをトレーニング目的とし、具体的な式は以下の通りである。

【数14】

その中、Sはモデルが予測した全ての反応物のＳＭＩＬＥＳ文字列であり、ｓはｓ番目の反応サンプルのインデックスを代表し、lは何れかの適切な損失関数、例えば、負の尤度関数である。

【0075】

任意選択で、シーケンスモデル学習の難しさを軽減するために、学習目的、即ち反応物のＳＭＩＬＥＳの表現式とＳｙｎｔｈｏｎとの編集距離をできるだけ小さくして、即ち、各ＳｙｎｔｈｏｎのＳＭＩＬＥＳに対して正規化（ｃａｎｏｎｉｃａｌ）処理を行うことができる。具体的に、まず、ターゲットキャラクタフォーマットを決定し、例えば、オープンソースの化学情報学ツールＲＤＫｉｔを使用して処理し、そして、ターゲットキャラクタフォーマットに基づいて、第２のトレーニングシントンに対応する文字列及び所定の反応タイプに基づいて決定された第１のトレーニング文字列を更新することで、第２のトレーニングシントンに対応する文字列と、所定の反応タイプに基づいて決定された第１のトレーニング文字列との間の距離を小さくし、それにより、シーケンスモデル学習の難さを低減させる。

【0076】

３０３において、第２のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定する。

【0077】

本実施例において、再帰処理は、操作を繰り返すことで、問題を同種のサブ問題に分解して、問題を解决する方法であり、即ち、第２のリーフノードに対応する予測分子セットにおける化合物に対して、所定の条件を満たすまで、上記のステップ３０２における分割することでシントンを取得する過程を繰り返して実行する。

【0078】

具体的に、再帰処理の過程は以下の通りであり、まず、第２のリーフノードに対応する予測分子セットが所定の反応タイプの下で対応する第１の候補分子を決定し、その後、ターゲット逆合成モデルに基づいて第１の候補分子に対して展開処理を行うことで、第３のリーフノードを取得し、第３のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、第２の候補分子を決定し、第２の候補分子が所定の条件を満たすと、第２の候補分子に対応するリーフノードを末端ノードとして決定し、このように、多階段の逆合成の予測を実現する。

【0079】

具体的に、所定の条件の設定について、上記の再帰処理後のシントンが基本分子セットにおける分子であってもよく、即ち、まず、第２の候補分子に基づいてトラバースすることで、複数の経路分子を取得し、経路分子は基本分子セットにおける分子であれば、第２の候補分子が所定の条件を満たすと決定し、第２の候補分子に対応するリーフノードが末端ノードであると判定され、このように、予測して取得する合成経路での化合物分子がすべて簡単な基本分子であることを確保し、実際のシナリオでのこの案の実行可能性を確保する。

【0080】

また、基本分子セットの選択は、多段階逆合成の予測結果に対する基本分子セットの合理性を考慮する必要があり、ここで、合理性は、化学者が実際の合成において、合成経路の各段階における中間体の価格と商業的入手可能性を考慮し、これらの要因に従って逆合成を継続するかどうかを決定することを意味する。従って、基本分子セットの選択では、薬物の仮想スクリーニングに使用される薬物分子ではなく、分子がすべて市販の化学中間体であることを可能な限り保証する必要がある。両者の相違点は以下の通りであり、化学中間体は一般に包装仕様 (ｇ単位) が大きく、スクリーニングのための薬物分子は一般にミリグラム単位のような包装仕様が小さく、比較的高価であるという点である。当該原則に基づいて、公開試薬カタログを有するいくつかの化合物試薬会社、および他の分子ライブラリを有する他の会社のＢｕｉｌｄｉｎｇｂｌｏｃｋライブラリを選択することができる。Ｂｕｉｌｄｉｎｇｂｌｏｃｋライブラリは、その分子が小さく、構造が簡単であるため、実際の使用シナリオでは、コストの利点を備える。

【0081】

ここで、基本分子セットの選択は、主に化合物の商業的入手可能性、及び既知であるかどうかを考慮するため、通常の化合物原材料供給業者ｅＭｏｌｅｃｕｌｅｓ（Ｐｌｕｓライブラリ及びＳＣライブラリ、２０００萬以上）、及びＢｕｉｌｄｉｎｇｂｌｏｃｋを提供する通常の化合物ライブラリ会社Ｅｎａｍｉｎｅ（９.７萬）及びＣｈｅｍＤｉｖ（７萬）を選択し得ることを理解されたい。いくつかのライブラリのマージ及び重複排除の後、最終的に決定された基本分子セットは約２３００萬の分子を備える。

【0082】

任意選択で、所定の条件は、再帰処理の回数、即ち、第２の候補分子のる展開の数であってもよく、具体的に、まず、木構造において、第２の候補分子に対応する展開の数を決定し、展開の数が所定値に達すると、第２の候補分子が所定の条件を満たすと決定して、第２の候補分子に対応するリーフノードを末端ノードとして決定する。例えば、所定の第２の候補分子の展開の数が２であるとすると、第２の候補分子を分割して第３の候補分子を取得し、その後、第３の候補分子をさらに分割して第４の候補分子を取得し、第４の候補分子が末端ノードであると決定し得る。

【0083】

３０４において、末端ノードに対応する経路情報をトラバースして、標的分子の逆合成経路を決定する。

【0084】

本実施例において、末端ノードに対応する経路情報をトラバースし、即ち、末端ノードからルートノードへの方向に基づいて逆検索を行って、経路での関する化合物を関連付けて、標的分子の逆合成経路に決定する。

【0085】

可能なシナリオにおいて、上記の多段階逆合成の予測方法は、開示されたＣｈＥＭＢＬの１００個の分子テストセットのｔｏｐ－１０について予測正確率が６４％に達し、即ち、１００個の分子のうちの６４個を予測でき、Ｔｏｐ－１の予測正確率は４３％であり、当該結果は、開示されたいくつかのプラットフォームの表現効果と比較して、トップの位置にある。

【0086】

上記の実施例から分かるように、標的分子を取得し、標的分子を木構造のルートノードとし、ルートノードは木構造の第１のリーフノードに関連付けられ、木構造は標的分子の逆合成経路を含み、次に、ターゲット逆合成モデルによって、第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得し、ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、グラフニューラルネットワークは第１のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、反応物生成ネットワークは結合切断位置に基づいて予測分子セットを決定するものであり、さらに、第２のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定し、さらに、末端ノードに対応する経路情報をトラバースして、標的分子の逆合成経路を決定する。このようにすれば、多段階反応の逆合成予測プロセスを実現し、リーフノードを徐々に再帰的に展開してスクリーニングし、所定の条件を満たす末端ノードに対して経路追跡を行うことで、多段階反応の逆合成予測プロセスで取得された反応物の信頼性を確保し、化合物分子逆合成予測の正確性を向上させることができる。

【0087】

上記の実施例では、多段階反応の逆合成予測プロセスを説明した。展開過程において、異なるルール（例えば、生成された結果分子が自然界に存在する分子であること、生成された結果分子が有機物であること、生成された結果分子の環数が増えないことなど）、及びモデル（例えば、逆合成確率モデル、順方向合成予測モデルなど）を用いてノードをスクリーニングし、ルール及びモデルを具体的に設定する場合、自動に呼び出してもよいし、関係者が必要に応じて設定してもよく、以下、当該シナリオについて説明する。図１０を参照して、本出願の実施例で提供される別の化合物分子の逆合成予測方法のフローチャートであり、本出願の実施例は少なくとも以下のステップを含む。
１００１において、標的分子を取得し、標的分子を木構造におけるルートノードとする。
１００２において、ターゲット逆合成モデルによって、第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得する。

【0088】

本実施例において、ステップ１００１～１００２の実現過程は図３の実施例におけるステップ３０１～３０２の実現過程と同様であるので、関連する特徴の説明については、図３の説明を参照すればよく、ここで、贅言していない。

【0089】

１００３において、ターゲット操作に応答して、反応スクリーニング要件を取得する。

【0090】

本実施例において、反応スクリーニング要件は、以降、ロールアウトに参加するノードをスクリーニングするものであり、例えば、競合反応リスクを有する化合物をスクリーニングして、保護基有する化合物を選択し、Ｃ－Ｈ結合の分布特徴に基づいて化合物をスクリーニングし、人名反応に係る化合物などを選択し、具体的な反応スクリーニング要件は、実際のシナリオによって決定される。

【0091】

ターゲット操作は、バックグラウンドで関係者によってトリガーされる入力操作であってもよいし、木構造のノード間にスクリーニングルールを設定する操作であってもよい。具体的な操作方法は、実際のシナリオによって決定されることを理解されたい。

【0092】

任意選択で、上記の反応スクリーニング要件は、展開プロセスにおけるスクリーニングにも適用され得る。たとえば、拡張プロセスでは、まず、１０種の反応タイプをトラバースし、各反応タイプに対して３つの結果を予測し、最大で合計３０個が取得される。次に、３０個の結果をフィルタリングする場合、上記の反応スクリーニング要件を使用してスクリーニングして、尤度が高いいくつかを保留する。

【0093】

１００４において、反応スクリーニング要件に基づいて、第２のリーフノードに対応する化合物分子をスクリーニングする。

【0094】

本実施例において、上記の反応スクリーニング要件に対して、具体的な反応に基づいて説明する。
（１）競合反応の運用。
本実施例において、競合反応の運用によって反応経路を合理的に設計することで、基の競合反応（ｆｕｎｃｔｉｏｎａｌｇｒｏｕｐｉｎｔｅｒｆｅｒｅｎｃｅ）を回避し、図１１は本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図である。図面における合成経路の重要なステップは、Ｃ＝ＯをＣ＝Ｓ二重結合に変換することである。化合物３で経路を予測する際に、チオ反応を行うと、複数のＣ＝Ｏ二重結合の競合反応、即ち、アルデヒドカルボニル及びアミドカルボニルの競合反応が発生し、従って、対応する反応物を含むノードを除去する必要がある。これによって、与えられた経路は、競合反応を含む予測を回避でき、即ち、化合物５の選択時にチオ反応が発生し、その後、アルデヒド基を導入して化合物３を取得し、逆合成予測の正確性を向上させる。
（２）保護基の運用。
保護基の合理的な使用は、コンピュータ支援逆合成予測の課題であった。これは、コンピュータが反応基質中の競合反応を起こす可能性のある基を解析し、反応に参加するのを望まない基を合理的に保護基で保護し、その後、保護基を除去する必要があるからである。

【0095】

可能なシナリオにおいて、図１２は本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図であり、ターゲット合成化合物９について、遊離のＮＨ２基は競合反応を起こすため、ＮＨＢｏｃに基づいて取得された化合物１０を保護してから、化合物１０は化合物１１及び１２から容易に取得され、さもなければ、遊離のＮＨ２は１２内にあると、分子内反応が発生して、反応結果に影響を与える。

【0096】

別の可能なシナリオにおいて、ヒドロキシル基は、酸化中またはアルカリ条件下での特定の反応において保護される必要があることが多い。具体的な保護方式は以下を含む：(１)ヒドロキシル基が塩基によって影響を受けるのを防ぐために、エーテル反応を使用できる。例えば、ＲＯＨ＋ＲＯＨ→Ｈ２Ｏ＋Ｒ-Ｏ-Ｒ。(２)ヒドロキシル基が酸化することを防止するために、エステル化反応を使用できる。

【0097】

また、高温又はアルカリ性条件下でカルボキシル基を保護する必要がある場合がある。カルボキシル基を保護するために最も一般的に使用される方法は、エステル化反応である。又は、不飽合炭素－炭素結合を保護し、炭素－炭素二重結合は酸化されやすいため、その保護は主に付加反応で飽合させる。又は、カルボニル基の保護(よく情報問題形態で出現する)について、特に、アルデヒド基は、酸化反応中または塩基の存在下で保護される必要があり、カルボニル基の保護は、一般に、アセタール又はケタールを生成する方法を使用し、生成されたアセタール又はケタールに対して加水分解を行うと、元のアルデヒド又はケトンになる。保護基の決定は具体的に、実際のシナリオによって決定され、ここで、限定していない。

【0098】

（３）位置選択性（ｒｅｇｉｏｓｅｌｅｃｔｉｖｉｔｙ）の運用。
本実施例において、芳香環上のＣ－Ｈ置換反応のｒｅｇｉｏｓｅｌｅｃｔｉｖｉｔｙ問題を解决し、図１３は本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図であり、分子１５を予測する場合、ＮＢＳ（１６）及び化合物１７の臭素化反応を選択する。化合物１７の複数の芳香環のＣ－Ｈ（ピリジン環及びフラン環）は化合物１６によって臭素化される可能性がある。従って、各Ｃ－Ｈのｐａｒｔｉａｌｃｈａｒｇｅの分布などの特徴を合理的に使用することは、ｒｅｇｉｏｓｅｌｅｃｔｉｖｉｔｙを正確に予測する鍵となり、従って、反応スクリーニング要件の設定過程において、具体的なＣ－Ｈ分布ルールを規定して、対応する反応物を選択することができる。

【0099】

（４）古典的人名反応の使用。
本実施例において、有機人名反応は、多くの有機化学者の研究および使用によって決定されたほとんど信頼できる化学反応であるため、基質の普遍性も高くなり、反応経路は比較的容易に実現される。従って、逆合成分析では、古典的人名反応の使用は比較的信頼性の高い経路であり、比較的にユーザーの愛顧を受けやすく、合理且つロバスト性を有する化学反応を予測できる。図１４は本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図であり、図において、Ｍｉｔｓｕｎｏｂｕ反応を示し、即ち、反応物のスクリーニング過程において、化合物２１及び２２を優先的に選択する。

【0100】

具体的に、古典的人名反応の運用は以下の例を含むが、これらに限定されていない。
ｂｅｃｋｍａｎベックマン転位：酸性条件下でのケトキシムからアミドへの反応（カプロラクタム）
ｃａｎｎｉｚｚａｒｒｏカニッツァーロ不均化：強塩基下でのα-ｈのないアルデヒドがアルコール及びカルボン酸 (ベンズアルデヒド) を形成する反応
ｃｌａｉｓｅｎクライゼン縮合：エステルが強塩基下でカルバニオンを形成し他のエステルに求核付加・脱離する反応
ｃｌｅｍｍｅｎｓｅｎクレメンゼン還元法：亜鉛アマルガムと濃塩酸下でのアルデヒドとケトンから炭化水素に還元する反応（カルボニル基からメチレン基へ）
ｃｏｐｅコープ脱離反応：過酸化水素で処理した後、加熱した第３級アミンの脱離反応（ホフマン則）
ｃｏｒｅｙ－ｈｏｕｓｅコーリー・ハウス・ポスナー・ホワイトサイズ反応：ハロゲン化炭化水素とジアルキル銅リチウム試薬とのカップリング（炭素鎖を連結するための重要な反応）
ｃｒａｍクラム則：求核剤は立体障害の小さい側から優先的に攻撃する
ｄｉｃｋｅｒｍａｎディークマン縮合：反応はエステル縮合および環形成に似ている
ｄｉｅｌｓ－ａｌｄｅｒディールス・アルダー反応：一般に、１、３－ブタジエンの誘導体とエチレンの誘導体との反応（相乗反応）
ｆｅｈｌｉｎｇフェーリング液：新たに調製された水酸化銅は、アルデヒドを酸に酸化する
ｆｒｉｅｄｅｌ－ｃｒａｆｔｓフリーデル・クラフツ反応：ベンゼン環に炭化水素基またはアシル基が導入される反応

【0101】

実際のシナリオにおいて、上記の反応スクリーニング要件のうちの１つまたは複数を使用でき、具体的な数及び判定の順序は実際のシナリオによって決定されることを理解されたい。

【0102】

１００５において、スクリーニング後の第２のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、所定の条件を満たす時の末端ノードを決定する。

【0103】

具体的に、再帰処理において、毎回シミュレートするオブジェクトについて、１０種の反応タイプをトラバースして、各種の反応タイプに対して１つの結果を予測し、合計で１０個がある。そして、１０個の結果をフィルタリングし、上記の反応スクリーニング要件を使用して、逆合成確率、順方向合成予測確率などを結合して、最も可能性の高い１つの反応を選択して次の展開を行う。そして、停止条件を満たすまで、以上の過程を繰り返す。停止条件は、全てのリーフノードに対応する化合物分子が基本分子セット内にあること、又は所定の再帰回数に達することである。

【0104】

１００６において、末端ノードに対応する経路情報をトラバースして、標的分子の逆合成経路を決定する。

【0105】

本実施例において、ステップ１００５～ステップ１００６の実現過程は図３の実施例のステップ３０３～３０４の実現過程と同様であるため、関連特徴の説明について参照すればよく、ここで、贅言していない。

【0106】

理解されるように、上記の反応スクリーニング要件の設定は、単段階逆合成予測のシナリオにも適用されてもよく、即ち、本出願は、単段階逆合成予測方法も開示し、具体的に、図３の実施例のステップ３０２を参照すればよく、ここで、贅言していない。

【0107】

単段階逆合成予測プロセスについて、反応タイプラベルのないデータでも６２.４％の予測正確率に達し、方法の普遍性及び実用性がより強くなり、なぜならば、実際の使用シナリオにおいて、このような反応タイプのラベルを具備しない可能性があるためである。大規模なデータセットが単段階予測の正確性の向上に寄与することをある程度で検証する。具体的に、５萬のデータセットで可能な予測正確性は５８％であり、データセットは４８萬に増加し、正確性は６２.４％に高まる。

【0108】

本実施例において、多段階逆合成の予測正確性について、現在、開示されたいくつかのプラットフォームの表現効果と比較し先頭位置にある。開示されたＣｈＥＭＢＬの１００個の分子テストセットでｔｏｐ－１０の予測正確性は６４％であり、即ち、１００個の分子から６４個を予測でき、Ｔｏｐ－１の予測正確性は４３％であり、優れた実施可能性を有する。

【0109】

本出願の実施例は、上記の解決策を実施する関連装置をさらに提供する。図１５を参照し、図１５は本出願の実施例で提供される化合物分子の逆合成予測装置の構造概略図であり、予測装置１５００は、
標的分子を取得し、前記標的分子を木構造のルートノードとするためのものであって、前記ルートノードは前記木構造の第１のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含む取得ユニット１５０１と、
ターゲット逆合成モデルによって、前記第１のリーフノードに対して展開処理を行うことで、複数の第２のリーフノードを取得するためのものであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第１のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものである展開ユニット１５０２と、
前記第２のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するための処理ユニット１５０３と、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するための予測ユニット１５０４と、を含む。

【0110】

好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット１５０２は、具体的に、
前記第１のリーフノードに対応する化合物分子の第１の文字列を決定し、
前記第１の文字列を第１の分子グラフに変換し、
前記グラフニューラルネットワークによって、前記第１の分子グラフに基づいて前記第１のリーフノードに対応する化合物分子の結合切断位置を決定し、
前記反応物生成ネットワークによって前記結合切断位置に基づいて少なくとも１つのシントンを決定し、
所定のルールに基づいて前記少なくとも１つのシントンに対してフィルタリング処理を行うことで、前記予測分子セットを決定する、ために用いられる。

【0111】

好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット１５０２は、具体的に、
前記グラフニューラルネットワークによって、前記第１の分子グラフ、及び結合切断の数の制限に基づいて、結合切断情報を決定し、前記標的分子に基づいてターゲットキー特徴を決定するステップであって、前記ターゲットキー特徴は原子キー特徴及び結合キー特徴を含み、前記原子キー特徴は原子タイプ、結合数、形式電荷、キラリティー、水素原子数、原子混成状態、芳香性、原子量、高周波反応中心特徴、及び反応タイプのうちの少なくとも１つを含み、前記結合キー特徴は結合タイプ、共役性、環結合、及び分子立体化学特徴のうちの少なくとも１つを含み、
前記ターゲットキー特徴に基づいて前記結合切断情報を抽出して前記結合切断位置を決定する、ために用いられる。

【0112】

好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット１５０２は、具体的に、
第１のトレーニング分子、及び対応する第１のトレーニングシントンを取得し、
前記第１のトレーニング分子及び前記第１のトレーニングシントンのノード特徴及びエッジ特徴を決定し、前記ノード特徴は前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の原子の関係を示すものであり、前記エッジ特徴は前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の化学結合の関係を示すものであり、
前記ノード特徴及び前記エッジ特徴に基づいて、第１の損失関数を決定し、
前記第１のトレーニング分子と前記第１のトレーニングシントンとの間の化学結合の結合切断確率を決定し、
前記結合切断確率に基づいて、第２の損失関数を決定し、
前記第１の損失関数及び前記第２の損失関数に基づいて、前記グラフニューラルネットワークのモデルパラメータを更新する、ために用いられる。

【0113】

好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット１５０２は、具体的に、
前記結合切断位置に基づいて前記標的分子に対して分割処理を行うことで、少なくとも１つのシントン分子グラフを取得し、
前記シントン分子グラフを第２の文字列に変換し、
所定の反応タイプに基づいて前記第２の文字列を更新することで、第３の文字列を取得し、
反応物生成ネットワークによって、前記第３の文字列に基づいて前記少なくとも１つのシントンを決定する、ために用いられる。

【0114】

好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット１５０２は、具体的に、
第２のトレーニング分子、第２のトレーニングシントン、及びトレーニング反応物を取得し、
前記第２のトレーニング分子に対応する文字列、前記第２のトレーニングシントンに対応する文字列、及び前記所定の反応タイプに基づいて、第１のトレーニング文字列を決定し、
前記トレーニング反応物に対応する第２のトレーニング文字列を決定し、
前記第１のトレーニング文字列と前記第２のトレーニング文字列とを関連付けることで、第１のトレーニングサンプルペアを決定し、
前記第１のトレーニングサンプルペアに基づいて、前記反応物生成ネットワークをトレーニングする、ために用いられる。

【0115】

好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット１５０２は、具体的に、
前記グラフニューラルネットワークによって予測された候補文字列を取得し、
前記候補文字列を、前記第２のトレーニングシントンに対応する文字列に追加して、前記第１のトレーニング文字列を第３のトレーニング文字列に更新し、
前記第３のトレーニング文字列と前記第２のトレーニング文字列とを関連付けることで、第２のトレーニングサンプルペアを決定し、
前記第２のトレーニングサンプルペアに基づいて、前記反応物生成ネットワークをトレーニングする、ために用いられる。

【0116】

好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット１５０２は、具体的に、
ターゲットキャラクタフォーマットを決定し、
前記ターゲットキャラクタフォーマットに基づいて、前記第１のトレーニング文字列を更新する、ために用いられる。

【0117】

好ましくは、本出願のいくつかの可能な実現方式において、前記処理ユニット１５０３は、具体的に、
所定の反応タイプの下で、前記第２のリーフノードに対応する前記予測分子セットに対応する第１の候補分子を決定し、
前記ターゲット逆合成モデルによって前記第１の候補分子に対して展開処理を行うことで、第３のリーフノードを取得し、
前記第３のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、第２の候補分子を決定し、
前記第２の候補分子が所定の条件を満たすと、前記第２の候補分子に対応するリーフノードが前記末端ノードであると決定する、ために用いられる。

【0118】

好ましくは、本出願のいくつかの可能な実現方式において、前記処理ユニット１５０３は、具体的に、
前記第２の候補分子に基づいてトラバースして、複数の経路分子を取得し、
前記経路分子が基本分子セットにおける分子であれば、前記第２の候補分子が前記所定の条件を満たすと決定して、前記第２の候補分子に対応するリーフノードが前記末端ノードであると決定する、ために用いられる。

【0119】

好ましくは、本出願のいくつかの可能な実現方式において、前記処理ユニット１５０３は、具体的に、
前記木構造において前記第２の候補分子に対応する展開の数を決定し、
前記展開の数が所定値に達した場合、前記第２の候補分子が前記所定の条件を満たすと決定して、前記第２の候補分子に対応するリーフノードが前記末端ノードであると決定する、ために用いられる。

【0120】

上記の装置によれば、多段階反応の逆合成予測プロセスを実現し、リーフノードを徐々に再帰的に展開してスクリーニングし、所定の条件を満たす末端ノードに対して経路追跡を行うことで、多段階反応の逆合成予測プロセスによって決定される反応物の信頼性を確保し、化合物分子の逆合成予測の精度を向上させることができる。

【0121】

本出願の実施例は端末機器をさらに提供し、図１６は本出願の実施例で提供される別の端末機器の構造概略図であり、説明を容易にするために、本出願の実施例に関する部分のみを示し、開示されていない具体的な技術詳細について、本出願の実施例方法の部分を参照すればよい。当該端末は携帯電話、タブレット、携帯情報端末（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、ＰＤＡ）、販売端末（ｐｏｉｎｔｏｆｓａｌｅｓ、ＰＯＳ）、車載用コンピュータなどを含む任意の端末機器であってもよく、端末がコンピュータであることを例とする。

【0122】

図１６は本出願の実施例で提供される端末に関連するコンピュータの一部の構造のブロック図を示す。図１６を参照して、コンピュータは無線周波数（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ、ＲＦ）回路１６１０、メモリ１６２０、入力ユニット１６３０（タッチパネル１６３１及び他の入力装置１６３２を含む）、表示ユニット１６４０（表示パネル１６４１を含む）、センサー１６５０、オーディオ回路１６６０（スピーカ１６６１及びマイクロフォン１６６２が接続された）、ワイヤレスフィデリティ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ、ＷｉＦｉ）モジュール１６７０、プロセッサー１６８０、及び電源１６９０などの部材を含む。当業者であれば理解できるように、図１６のコンピュータ構造はコンピュータを限定せず、図示より多く又は少ない部材を含んでもよいし、又はいくつかの部材を組み合わせてもよいし、或いは異なる部材配置を使用してもよい。

【0123】

携帯電話は、各部材に給電する電源１６９０（例えばバッテリ）をさらに含み、好ましくは、電源は電源管理システムを介してセッサー１６８０に論理的に接続されることで、電源管理システムを介して充電、放電の管理、及び消費電力の管理などの機能を実現することができる。

【0124】

図示されていないが、携帯電話は、カメラ、ブルートゥースモジュールなどを含んでもよく、ここで、贅言していない。

【0125】

本出願の実施例において、当該端末に含まれるプロセッサー１６８０は、上記の化合物分子の逆合成予測方法の各ステップの機能を実行するために用いられる。

【0126】

本出願の実施例はサーバーをさらに提供し、図１７を参照し、図１７は本出願の実施例で提供されるサーバーの構造概略図であり、当該サーバー１７００は、配置又は性能によって大きく異なり、１つ又は１つ以上の中央演算処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）１７２２（例えば、１つ又は１つ以上のプロセッサー）及びメモリ１７３２、アプリケーションプログラム１７４２又はデータ１７４４を記憶する１つ又は１つ以上の記憶媒体１７３０（例えば１つ又は１つ以上の大容量ストレージデバイス）を含む。メモリ１７３２及び記憶媒体１７３０は一時記憶又は永続的記憶であってもよい。記憶媒体１７３０に記憶されるプログラムは１つ又は１つ以上のモジュール（図示せず）を含み、各モジュールはサーバーにおける一連のコマンド操作を含む。さらに、中央演算処理装置１７２２は記憶媒体１７３０と通信して、サーバー１７００で記憶媒体１７３０における一連のコマンド操作を実行するように配置される。

【0127】

サーバー１７００は１つ又は１つ以上の電源１７２６、１つ又は１つ以上の有線又は無線ネットワークインターフェース１７５０、１つ又は１つ以上の入出力インターフェース１７５８、及び/又は１つ又は１つ以上のオペレーティングシステム１７４１、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒ^ＴＭ、ＭａｃＯＳＸ^ＴＭ、Ｕｎｉｘ^ＴＭ、Ｌｉｎｕｘ^ＴＭ、ＦｒｅｅＢＳＤ^ＴＭなどをさらに含むことができる。

【0128】

具体的に、サーバー１７００の中央演算処理装置１７２２は、具体的に、上記の化合物分子の逆合成予測方法の各ステップの機能を実行するために用いられる。

【0129】

本出願の実施例は、コンピュータ可読記憶媒体をさらに提供し、当該コンピュータ可読記憶媒体には化合物分子の逆合成予測コマンドが記憶され、コンピュータで実行される場合、上記図３～図１４の実施例に記載の方法における化合物分子の逆合成予測装置が実行するステップをコンピュータに実行させる。

【0130】

本出願の実施例は、化合物分子の逆合成予測コマンドを含むコンピュータプログラム製品をさらに提供し、コンピュータで実行される場合、上記図３～図１４の実施例に記載の方法における化合物分子の逆合成予測装置が実行するステップをコンピュータに実行させる。

【0131】

本出願の実施例は化合物分子の逆合成予測システムをさらに提供し、前記化合物分子の逆合成予測システムは、図１５に記載の実施例における化合物分子の逆合成予測装置、又は図１６に記載の実施例における端末機器、または図１７に記載のサーバーを含むことができる。

【0132】

当業者であれば明らかに理解できるように、便利で簡潔な説明のために、上記に記載のシステム、装置及びユニットの具体的な動作プロセスについて、上記方法実施例における対応するプロセスを参照でき、ここで、贅言していない。

【0133】

以上説明したように、上記の実施例は、本願に係る発明を説明するためにのみ使用され、それらに限定されたものではない。上述の実施例を参照して、本願を詳細に説明したが、当業者は、依然として、上述の各実施例に記載された技術的案を修正したり、その中の一部の技術的特徴を均等に置換したりすることができ、これらの修正または置換は、相応的な技術的案の本質を本願の各実施例の技術的案の精神と範囲から逸脱させない、ということが理解されるべきである。

【符号の説明】

【0134】

１５００予測装置
１５０１取得ユニット
１５０２展開ユニット
１５０３処理ユニット
１５０４予測ユニット
１６１０無線周波数回路
１６２０メモリ
１６３０入力ユニット
１６３１タッチパネル
１６３２入力装置
１６４０表示ユニット
１６４１表示パネル
１６５０センサー
１６６０オーディオ回路
１６６１スピーカ
１６６２マイクロフォン
１６７０ＷｉＦｉモジュール
１６８０プロセッサー
１６９０電源
１７００サーバー
１７２２中央演算処理装置
１７２６電源
１７３０記憶媒体
１７３２メモリ
１７４１オペレーティングシステム
１７４２アプリケーションプログラム
１７４４データ
１７５０無線ネットワークインターフェース
１７５８入出力インターフェース

【図1】