IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7580851化合物分子の逆合成予測方法及び関連装置
<>
  • 特許-化合物分子の逆合成予測方法及び関連装置 図1
  • 特許-化合物分子の逆合成予測方法及び関連装置 図2
  • 特許-化合物分子の逆合成予測方法及び関連装置 図3
  • 特許-化合物分子の逆合成予測方法及び関連装置 図4
  • 特許-化合物分子の逆合成予測方法及び関連装置 図5
  • 特許-化合物分子の逆合成予測方法及び関連装置 図6
  • 特許-化合物分子の逆合成予測方法及び関連装置 図7
  • 特許-化合物分子の逆合成予測方法及び関連装置 図8
  • 特許-化合物分子の逆合成予測方法及び関連装置 図9
  • 特許-化合物分子の逆合成予測方法及び関連装置 図10
  • 特許-化合物分子の逆合成予測方法及び関連装置 図11
  • 特許-化合物分子の逆合成予測方法及び関連装置 図12
  • 特許-化合物分子の逆合成予測方法及び関連装置 図13
  • 特許-化合物分子の逆合成予測方法及び関連装置 図14
  • 特許-化合物分子の逆合成予測方法及び関連装置 図15
  • 特許-化合物分子の逆合成予測方法及び関連装置 図16
  • 特許-化合物分子の逆合成予測方法及び関連装置 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-01
(45)【発行日】2024-11-12
(54)【発明の名称】化合物分子の逆合成予測方法及び関連装置
(51)【国際特許分類】
   G16C 20/10 20190101AFI20241105BHJP
   G16C 20/70 20190101ALI20241105BHJP
【FI】
G16C20/10
G16C20/70
【請求項の数】 14
(21)【出願番号】P 2023528742
(86)(22)【出願日】2022-01-21
(65)【公表番号】
(43)【公表日】2023-11-24
(86)【国際出願番号】 CN2022073158
(87)【国際公開番号】W WO2022161269
(87)【国際公開日】2022-08-04
【審査請求日】2023-05-15
(31)【優先権主張番号】202110112207.8
(32)【優先日】2021-01-27
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】于 洋
(72)【発明者】
【氏名】路 ▲嬋▼
(72)【発明者】
【氏名】▲趙▼ 沛霖
【審査官】前田 侑香
(56)【参考文献】
【文献】LIN Kangjie ほか3名,“Automatic retrosynthetic route planning using template-free models”,Chemical Science [online],The Royal Society of Chemistry,2020年11月,p.3355-3364,[2024年5月10日検索],インターネット<URL:https://pubs.rsc.org/en/content/articlepdf/2020/sc/c9sc03666k>
【文献】SEGLER Marwin H. S. ほか2名,“Planning chemical syntheses with deep neural networks and symbolic AI”,Nature [online],Macmillan Publishers Limited,2018年03月29日,p.604-610,[2024年5月10日検索],インターネット<URL:https://www.nature.com/articles/nature25978>
【文献】YAO Chaochao ほか6名,“RetroXpert: Decompose Retrosynthesis Prediction Like A Chemist”,ARXIV.ORG [online],CORNELL UNIVERSITY ,2020年11月04日,p.1-16,[2024年5月10日検索],インターネット<URL:https://chemrxiv.org/engage/api-gateway/chemrxiv/assets/orp/resource/item/60c7529dbdbb89d788a3a2ff/original/retro-xpert-decompose-retrosynthesis-prediction-like-a-chemist.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
G16C 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する化合物分子の逆合成予測方法であって、
標的分子を取得し、前記標的分子を木構造のルートノードとするステップであって、前記ルートノードは前記木構造の第1のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含むステップと、
ターゲット逆合成モデルによって、前記第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得するステップであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第1のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものである、ステップと、
前記第2のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するステップと、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するステップと、を含み、
前記グラフニューラルネットワークは、
第1のトレーニング分子、及び対応する第1のトレーニングシントンを取得し、
前記第1のトレーニング分子及び前記第1のトレーニングシントンのノード特徴及びエッジ特徴を決定し、前記ノード特徴は前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の原子の関係を示すものであり、前記エッジ特徴は前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の化学結合の関係を示すものであり、
前記ノード特徴及び前記エッジ特徴に基づいて、第1の損失関数を決定し、
前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の化学結合の結合切断確率を決定し、
前記結合切断確率に基づいて、第2の損失関数を決定し、
前記第1の損失関数及び前記第2の損失関数に基づいて、前記グラフニューラルネットワークのモデルパラメータを更新することにより、
トレーニングされる、
方法。
【請求項2】
前記ターゲット逆合成モデルによって、前記第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得するステップは、
前記第1のリーフノードに対応する化合物分子の第1の文字列を決定するステップと、
前記第1の文字列を第1の分子グラフに変換するステップと、
前記グラフニューラルネットワークによって、前記第1の分子グラフに基づいて前記第1のリーフノードに対応する化合物分子の結合切断位置を決定するステップと、
前記反応物生成ネットワークによって、前記結合切断位置に基づいて少なくとも1つのシントンを決定するステップと、
所定のルールに基づいて前記少なくとも1つのシントンに対してフィルタリング処理を行うことで、前記予測分子セットを決定するステップと、を含む
請求項1に記載の方法。
【請求項3】
前記グラフニューラルネットワークによって、前記第1の分子グラフに基づいて前記第1のリーフノードに対応する化合物分子の結合切断位置を決定するステップは、
前記グラフニューラルネットワークによって、前記第1の分子グラフ、及び結合切断の数の制限に基づいて、結合切断情報を決定し、前記標的分子に基づいてターゲットキー特徴を決定するステップであって、前記ターゲットキー特徴は原子キー特徴及び結合キー特徴を含み、前記原子キー特徴は原子タイプ、結合数、形式電荷、キラリティー、水素原子数、原子混成状態、芳香性、原子量、高周波反応中心特徴、及び反応タイプのうちの少なくとも1つを含み、前記結合キー特徴は結合タイプ、共役性、環結合、及び分子立体化学特徴のうちの少なくとも1つを含むステップと、
前記ターゲットキー特徴に基づいて前記結合切断情報を抽出して前記結合切断位置を決定するステップと、を含む
請求項2に記載の方法。
【請求項4】
前記反応物生成ネットワークによって、前記結合切断位置に基づいて少なくとも1つのシントンを決定するステップは、
前記結合切断位置に基づいて前記標的分子に対して分割処理を行うことで、少なくとも1つのシントン分子グラフを取得するステップと、
前記シントン分子グラフを第2の文字列に変換するステップと、
所定の反応タイプに基づいて前記第2の文字列を更新することで、第3の文字列を取得するステップと、
前記反応物生成ネットワークによって、前記第3の文字列に基づいて前記少なくとも1つのシントンを決定するステップと、を含む
請求項2に記載の方法。
【請求項5】
前記反応物生成ネットワークは、
第2のトレーニング分子、第2のトレーニングシントン、及びトレーニング反応物を取得し、
前記第2のトレーニング分子に対応する文字列、前記第2のトレーニングシントンに対応する文字列、及び前記所定の反応タイプに基づいて、第1のトレーニング文字列を決定し、前記トレーニング反応物に対応する第2のトレーニング文字列を決定し、
前記第1のトレーニング文字列と前記第2のトレーニング文字列とを関連付けることで、第1のトレーニングサンプルペアを決定し、
前記第1のトレーニングサンプルペアに基づいて、前記反応物生成ネットワークをトレーニングすることにより、
トレーニングされる
請求項に記載の方法。
【請求項6】
前記グラフニューラルネットワークによって予測された候補文字列を取得するステップと、
前記候補文字列を、前記第2のトレーニングシントンに対応する文字列に追加して、前記第1のトレーニング文字列を第3のトレーニング文字列に更新するステップと、
前記第3のトレーニング文字列と前記第2のトレーニング文字列とを関連付けることで、第2のトレーニングサンプルペアを決定するステップと、
前記第2のトレーニングサンプルペアに基づいて、前記反応物生成ネットワークをトレーニングするステップと、をさらに含む
請求項に記載の方法。
【請求項7】
ターゲットキャラクタフォーマットを決定するステップと、
前記ターゲットキャラクタフォーマットに基づいて、前記第1のトレーニング文字列を更新するステップと、をさらに含む
請求項に記載の方法。
【請求項8】
前記複数の第2のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するステップは、
所定の反応タイプの下で、前記第2のリーフノードに対応する前記予測分子セットに対応する第1の候補分子を決定するステップと、
前記ターゲット逆合成モデルによって前記第1の候補分子に対して展開処理を行うことで、第3のリーフノードを取得するステップと、
前記第3のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、第2の候補分子を決定するステップと、
前記第2の候補分子が前記所定の条件を満たすと、前記第2の候補分子に対応するリーフノードが前記末端ノードであると決定するステップと、を含む
請求項1に記載の方法。
【請求項9】
前記第2の候補分子が前記所定の条件を満たすと、前記第2の候補分子に対応するリーフノードが前記末端ノードであると決定するステップは、
前記第2の候補分子に基づいてトラバースすることで、複数の経路分子を取得するステップと、
前記経路分子が基本分子セットにおける分子であれば、前記第2の候補分子が前記所定の条件を満たすと決定し、前記第2の候補分子に対応するリーフノードが前記末端ノードであると決定するステップと、を含む
請求項に記載の方法。
【請求項10】
前記第2の候補分子が前記所定の条件を満たすと、前記第2の候補分子に対応するリーフノードが前記末端ノードである決定するステップは、
前記木構造において前記第2の候補分子に対応する展開の数を決定するステップと、
前記展開の数が所定値に達した場合、前記第2の候補分子が前記所定の条件を満たすと決定し、前記第2の候補分子に対応するリーフノードが前記末端ノードであると決定するステップと、を含む
請求項に記載の方法。
【請求項11】
前記標的分子は薬物分子であり、前記木構造はモンテカルロ木であり、前記第2のリーフノードに対応する化合物分子は基の競合反応、保護基の運用、特徴的な基の反応特徴、及び人名反応ルールのうちの少なくとも1つに基づいてスクリーニングすることで得られた請求項1に記載の方法。
【請求項12】
化合物分子の逆合成予測装置であって、
標的分子を取得し、前記標的分子を木構造のルートノードとするためのものであって、前記ルートノードは前記木構造の第1のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含む取得ユニットと、
ターゲット逆合成モデルによって、前記第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得するためのものであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第1のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものである展開ユニットと、
前記第2のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するための処理ユニットと、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するための予測ユニットと、を含み、
前記グラフニューラルネットワークは、
第1のトレーニング分子、及び対応する第1のトレーニングシントンを取得し、
前記第1のトレーニング分子及び前記第1のトレーニングシントンのノード特徴及びエッジ特徴を決定し、前記ノード特徴は前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の原子の関係を示すものであり、前記エッジ特徴は前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の化学結合の関係を示すものであり、
前記ノード特徴及び前記エッジ特徴に基づいて、第1の損失関数を決定し、
前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の化学結合の結合切断確率を決定し、
前記結合切断確率に基づいて、第2の損失関数を決定し、
前記第1の損失関数及び前記第2の損失関数に基づいて、前記グラフニューラルネットワークのモデルパラメータを更新することにより、
トレーニングされる、
装置。
【請求項13】
プログラムコードを記憶するためのメモリと、
前記プログラムコードのコマンドに従って、請求項1~11のいずれか1項に記載の化合物分子の逆合成予測方法を実行するためのプロセッサーと、を含む
コンピュータ機器。
【請求項14】
コンピュータで実行される場合、請求項1~11のいずれか1項に記載の化合物分子の逆合成予測方法をコンピュータに実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は2021年01月27日にて中国特許庁に提出され、出願番号が2021101122078であり、出願名称が「化合物分子の逆合成予測方法及び関連装置」である中国特許出願の優先権を主張して、その内容全体が援用により本明細書に組み込まれる。
【0002】
本出願は人工知能の技術分野に関して、特、化合物分子の逆合成予測技術に関する。
【背景技術】
【0003】
人工知能技術は急速に発展しているため、様々な科学分野に徐々に導入され、重要な役割を果たしている。化学分野において、化学反応は異なる条件によって無限に変化するため、化合物分子を製造する場合、一般に、研究者は、合理な有機合成経路を設計できるために、多くの手間がかかり、人工知能技術を利用して、研究者による有機合成経路の設計を支援すれば、研究者による化学薬品分子や他の化合物の研究開発の効率を大幅に向上させることができる。
【0004】
現在、人工知能の逆合成アルゴリズムは、主に、テンプレート(template)に基づく逆合成アルゴリズムを含む。テンプレートに基づく逆合成アルゴリズムでは、まず、化学反応変換ルールを記述するためのテンプレート又はルールを取得し、当該テンプレート又はルールは、手動でラベル付けするか、既存の化学反応ライブラリから抽出することができる。そして、取得したテンプレート又はルールに基づいて、標的分子に対して予測される化学反応をマッチングする。
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところが、テンプレートに基づく逆合成アルゴリズムは一般に、大量の反応テンプレーを必要とし、反応テンプレートがない逆合成プロセスの場合、予測できないか、又は誤って予測する恐れがあり、さらに、化合物分子逆合成予測の正確性に影響を与える。
【0006】
これに鑑みて、本出願は、化合物分子逆合成予測の正確性を効果的に向上させることができる化合物分子の逆合成予測方法及び関連装置を提供する。
【課題を解決するための手段】
【0007】
本出願の第1の態様はコンピュータ機器が実行する化合物分子の逆合成予測方法を提供し、具体的に、
標的分子を取得し、前記標的分子を木構造のルートノードとするステップであって、前記ルートノードは前記木構造の第1のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含むステップと、
ターゲット逆合成モデルによって、前記第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得するステップであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第1のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものであるステップと、
前記第2のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するステップと、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するステップと、を含む。
【0008】
本出願第2の態様は化合物分子の逆合成予測装置を提供し、
標的分子を取得し、前記標的分子を木構造のルートノードとするためのものであって、前記ルートノードは前記木構造の第1のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含む取得ユニットと、
ターゲット逆合成モデルによって、前記第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得するためのものであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第1のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものである展開ユニットと、
前記第2のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するための処理ユニットと、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するための予測ユニットと、を含む。
【0009】
本出願の第3の態様はコンピュータ機器を提供し、メモリ、プロセッサー及びバスシステムを含み、前記メモリはプログラムコードを記憶し、前記プロセッサーは前記プログラムコードのコマンドに従って上記の第1の態様に記載の化合物分子の逆合成予測方法を実行する。
【0010】
本出願の第4の態様は、コンピュータで実行される場合、上記の第1の態様に記載の化合物分子の逆合成予測方法をコンピュータに実行させるコマンドが記憶されているコンピュータ可読記憶媒体を提供する。
【0011】
本出願の第5の態様は、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータコマンドを含み、当該コンピュータコマンドはコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータコマンドを読み取り、プロセッサーは、当該コンピュータコマンドを実行することで、上記の第1の態様に記載の化合物分子の逆合成予測方法を当該コンピュータ機器に実行させる。
【発明の効果】
【0012】
以上の技術案から分かるように、本出願の実施例は以下の利点を備える。
標的分子を取得し、標的分子を木構造のルートノードとし、ルートノードは木構造の第1のリーフノードに関連付けられ、木構造は標的分子の逆合成経路を含み、次に、ターゲット逆合成モデルによって、第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得し、ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、グラフニューラルネットワークは第1のリーフノードにおける化合物分子の結合切断位置を予測するものであり、反応物生成ネットワークは結合切断位置に基づいて予測分子セットを決定するものであり、さらに、第2のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定し、さらに、末端ノードに対応する経路情報をトラバースして、標的分子の逆合成経路を決定する。このようにすれば、多段階反応の逆合成予測プロセスを実現し、リーフノードを徐々に再帰的に展開してスクリーニングし、所定の条件を満たす際の末端ノードに対して経路追跡を行うことで、多段階反応の逆合成予測プロセスによって決定される反応物の信頼性を確保し、化合物分子の逆合成予測の精度を向上させることができる。
【図面の簡単な説明】
【0013】
図1】化合物分子の逆合成予測システムが実行するネットワークアーキテクチャ図である。
図2】本出願の実施例で提供される化合物分子の逆合成予測のアーキテクチャ図である。
図3】本出願の実施例で提供される化合物分子の逆合成予測方法のフローチャートである。
図4】本出願の実施例で提供される探索木の動作プロセスの概略図である。
図5】本出願の実施例で提供される中間反応物を予測するプロセスの概略図である。
図6】本出願の実施例で提供されるターゲット逆合成モデルの動作プロセスの概略図である。
図7】本出願の実施例で提供される逆合成反応プロセスの概略図である。
図8】本出願の実施例で提供されるグラフニューラルネットワークの動作プロセスの概略図である。
図9】本出願の実施例で提供される文字列変換の概略図である。
図10】本出願の実施例で提供される別の化合物分子の逆合成予測方法のフローチャートである。
図11】本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図である。
図12】本出願の実施例で提供される別の化合物分子の逆合成予測プロセスの概略図である。
図13】本出願の実施例で提供される別の化合物分子の逆合成予測プロセスの概略図である。
図14】本出願の実施例で提供される別の化合物分子の逆合成予測プロセスの概略図である。
図15】本出願の実施例で提供される化合物分子の逆合成予測装置の構造概略図である。
図16】本出願の実施例で提供される端末機器の構造概略図である。
図17】本出願の実施例で提供されるサーバーの構造概略図である。
【発明を実施するための形態】
【0014】
まず、本出願の実施例において出現可能性があるいくつかの用語を解釈する。
【0015】
SMILES記法(Simplified molecular input line entry specification、SMILES):ASCII文字列で分子構造を明確に記述する仕様である。
【0016】
Transformer: アテンションメカニズムに基づいて逐次学習を行うニューラルネットワークモデルである。
【0017】
グラフニューラルネットワーク(Graph Neural Networks、GNN):グラフデータを処理するニューラルネットワークであり、例えば、分子マップ(「分子グラフ」とも呼ばれる)上で演算する一連のニューラルネットワークアルゴリズムである。
【0018】
反応中心:逆合成において切断されるキーの頂点及びその第1レベルの隣接するエッジから構成されるサブグラフである。
【0019】
モンテカルロ木探索(Monte Carlo Tree Search、MCTS):決定過程に対する、ヒューリスティクスな探索アルゴリズムである。
【0020】
atom-mapping:反応物と生成物との関係での原子を一対一にマッチングする、化学反応を示す方式である。一般に、テンプレートに基づく逆合成アルゴリズムに使用される。
【0021】
基本分子セット:多段階逆合成において反応予測終端点を決定する化合物ライブラリであり、即ち、予測された反応物は基本分子セットにあると、合成経路を予測するためにさらに分解されることなく、反応物の予測を停止することができる。これに基づいて、基本分子セットに含まれる化合物の量は、逆合成経路の階段数を决定することができる。
【0022】
ルートノード:木構造における検索開始ノードであり、化合物の逆合成予測において、ターゲット合成化合物を指示するものである。
【0023】
リーフノード:ルートノードの下層ノードであり、化合物の逆合成予測において、単段階または多段階の逆合成によって予測される中間化合物を示すものである。
【0024】
末端ノード:木構造において検索終止条件を満たすノード、例えば、逆合成予測のためのモンテカルロ木において検索終止条件を満たすノードであり、当該検索終止条件は、末端ノードの展開の数が所定値に達することであってもよいし、又は、末端ノードが基本分子セットにおける分子であることであってもよい。
【0025】
逆合成経路:標的合成化合物から反応に参加する化合物に導出する経路である。
【0026】
ここで、本出願で提供される化合物分子の逆合成予測方法はコンピュータ機器に適用され、具体的に、コンピュータ機器で実行する、化合物分子の逆合成予測機能を有するシステム又はプログラム、例えば、薬物合成アシスタントによって実行されることができ、具体的に、化合物分子の逆合成予測システムは図1のネットワークアーキテクチャで実行することができ、図1に示すように、化合物分子の逆合成予測システムは、複数の情報源向けの化合物分子の逆合成予測サービスを提供でき、例えば、端末側で操作をトリガーすることで、標的分子をサーバーに送信し、サーバーは反応物を予測し、予測結果を端末にフィードバックするようにする。図1に様々な端末機器を示し、端末機器はコンピュータ機器であってもよく、実際のシナリオにおいて、より多く又は少ないタイプの端末機器は化合物分子の逆合成予測プロセスに参加してもよく、具体的な数及びタイプは実際のシナリオに応じて決定され、ここで、限定しない。また、図1は1つのサーバーを示し、実際のシナリオにおいて、複数のサーバーが参加してもよく、具体的に、化合物分子の逆合成予測プロセスに参加するサーバーの数は、実際シナリオによって決定される。
【0027】
本実施例において、サーバーは独立した物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、基本的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。端末はスマートフォン、タブレット、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチなどであってもよいが、これらに限定されていない。端末とサーバーとは有線又は無線の通信で直接又は間接的に接続されてもよく、端末とサーバーは接続してブロックチェーンネットワークを形成することができるが、これは本開示に限定されない。
【0028】
ここで、上記の化合物分子の逆合成予測システムは個人の携帯端末で実行されることができ、例えば、薬物合成アシスタントに類似するアプリケーションプログラムとして、サーバーで実行されてもよいし、サードパーティの機器に実行され、化合物分子の逆合成予測を行うことで、情報源の化合物分子の逆合成予測処理結果を取得してもよく、具体的に、化合物分子の逆合成予測システムはプログラムとして上記の機器で実行されてもよいし、上記の機器におけるシステム部品として実行されてもよいし、さらに、クラウドサービスプログラムの1つとしてもよく、具体的な実行モードは実際のシナリオによって決定され、ここで、限定していない。
【0029】
現在、主に、テンプレートに基づくアルゴリズムを使用して化合物分子の逆合成予測を実現し、テンプレートに基づくアルゴリズムにおいて、大量の反応テンプレートを必要とし、反応テンプレートのない逆合成プロセスの場合、予測できないか、又は誤って予測する可能性があり、化合物分子逆合成予測の正確性に影響を与える。
【0030】
上記の問題を解決するために、本出願は化合物分子の逆合成予測方法を提出し、当該方法は図2の化合物分子の逆合成予測のアーキテクチャに適用され、図2に示すように、ユーザーは端末によって標的分子を入力するターゲット操作を実行して、端末は標的分子をサーバーに送信し、さらに、サーバーは単段階反応予測及び多段階反応予測を組み合わせて、標的分子に対応する反応物を予測する。具体的に、既存生成物(標的分子)の分子グラフ構造情報及びSMILES文字列情報を使用して、結合切断後のシントンを補足して、反応物を取得する。予測プロセスで、分子のグラフ構造及びSMILES文字列情報を十分に使用し、また、逆合成のフロー全体はまず、結合切断位置を与えて、結合切断後のシントンを補足して、フロー全体は可視化されやすくなり、解釈可能性を備える。以降、モンテカルロ木探索の方法で単段階結果をソーティングして選択し、さらに、多段階反応予測を実現して、反応物を取得する。
【0031】
ここで、本出願が提供する方法はプログラムの書き込みであってもよく、ハードウェアシステムにおける処理ロジック、又は化合物分子の逆合成予測装置として、集積又は外付けの形態で上記の処理ロジックを実現してもよい。実現方式として、当該化合物分子の逆合成予測装置は標的分子を取得し、標的分子を木構造のルートノードとし、ルートノードは木構造の第1のリーフノードに関連付けられ、木構造は標的分子の逆合成経路を含み、そして、ターゲット逆合成モデルに基づいて第1のリーフノードを展開して、複数の第2のリーフノードを取得し、ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、グラフニューラルネットワークは第1のリーフノードにおける化合物分子の結合切断位置を決定し、反応物生成ネットワークは結合切断位置に基づいて予測分子セットを取得し、さらに、第2のリーフノードにおける予測分子セットに対して再帰処理を行うことで、所定条件に達した時の末端ノードを決定し、さらに、末端ノードに対応する経路情報をトラバースし、標的分子の逆合成経路を決定する。このように、多段階反応の逆合成予測プロセスを実現し、逆合成予測プロセスで、段階的な再帰的展開を行って、リーフノードを徐々に再帰的に展開してスクリーニングし、所定の条件を満たす末端ノードに対して経路追跡を行うことで、多段階反応の逆合成予測プロセスによって予測された反応物の信頼性を確保し、化合物分子逆合成予測の正確性を向上させる。
【0032】
本出願の実施例で提供される解決策は人工知能の機械学習技術に関して、具体的に、以下の実施例によって説明する。
【0033】
以下、本出願の実施例で提供される化合物分子の逆合成予測方法を紹介し、図3を参照し、図3は本出願の実施例で提供される化合物分子の逆合成予測方法のフローチャートであり、当該予測方法はコンピュータ機器によって実行され、具体的に、端末によって実行されてもよいし、サーバーによって実行されてもよいし、さらに、端末及びサーバーによって共同に実行されてもよく、本出願の実施例は少なくとも以下のステップを含み、
301:標的分子を取得し、標的分子を木構造におけるルートノードとする。
【0034】
本実施例において、標的分子は薬物分子であってもよいし、他の用途を有する化合物分子であってもよく、具体的な分子形態は実際のシナリオによって決定される。
【0035】
また、ルートノードは木構造の第1のリーフノードに関連付けられ、木構造は標的分子の逆合成経路を含み、木構造は、決定プロセスのためのヒューリスティクスな探索アルゴリズム木であるモンテカルロ木であってもよく、木構造において、ルートノードはリーフノードの上位ノードであり、リーフノードからルートノードまで経路をたどることで、標的分子の合成経路を決定することができる。
【0036】
理解を容易にするために、以下、図4に示す本出願の実施例で提供される探索木の動作プロセスの概略図を参照する。各ノードは1つの分子セットに対応し(例えば、反応物セットに対応するノードには複数の反応物分子が含まれる)、また、末端分子(反応物)に対応するノードは末端ノードとして定義される。ルートノード(標的分子)から開始して、探索木は、選択(selection)、展開(expansion)、ロールアウト(rollout)及び更新(update)の4つのステップを反復的に実行して、そして、更新の完了後、再び選択に戻り、上記のプロセスを繰り返すことができる。
【0037】
具体的に、選択プロセスは、探索木がルートノード(標的分子)からリーフノードをトラバースすることを意味し、このプロセスにおいて、高いスコアを有するサブノードAを選択する。スコアはスコアリング関数によって生成され、スコアリング関数は、当該ルートノードから展開された全ての末端ノードによってフィードバックされた得点(reward)と、当該ルートノードのアクセス回数の逆数との加重和である。
【0038】
展開プロセスは、スコアが高いノードAに基づいて展開してノードB及びノードCを取得し、即ち、ターゲット逆合成モデルによって、リーフノードを追加する。例えば、まず、10種の反応タイプをトラバースし、各反応タイプに対して3つの結果を予測し、合計で30個の結果を取得し、その後、30個の結果をフィルタリングして、一部のルール、逆合成確率モデル、順方向合成予測モデル確率などの方法を使用して、可能性が高いいくつかを保留することができる。一部のルールは以下を含む:(1)生成された結果分子は自然界で存在する分子である。(2) 生成された結果分子は有機物である。(3)生成された結果分子の環数は増加しない。逆合成確率モデル及び順方向合成予測モデルは、合成経験に基づいてまとめて取得された経験モデルであり、両者は展開された化合物の実現可能性を反映することができる。
【0039】
ロールアウトプロセスの例示的な実現方式は以下の通りであり、まず、10種の反応タイプをトラバースし、各種の反応タイプに対して1つの結果を予測し、合計で10個の結果を取得する。そして、10個の結果をフィルタリングして、逆合成確率、順方向合成予測確率などを使用して、可能性が最も高い反応を選択して次の展開を行う。停止条件を満たすまで、以上のプロセスを繰り返す。具体的な停止条件は、リーフノードに対応する分子がすべて基本分子セット内にあること、又は所定の回数に達したことである。
【0040】
更新プロセスは、末端ノードのrewardスコアを計算し、上位層のノードへ徐々に更新することを意味する。Rewardの計算について、ロールアウトにより、末端ノードを生成可能な合成経路を取得し、当該合成経路における全てのリーフノードに対応する分子に対して、原材料ライブラリにおける数と全てのリーフノード分子数との比をrewardとして計算することで、木構造のスコアリングを更新し、以降の選択-展開-ロールアウト-更新という循環の実行を容易にすることができ、当該木構造に基づいて適切な反応物を正確に抽出することができる。
【0041】
本実施例の木構造におけるスコアリングは、循環プロセスとして設定され、具体的なスコアリング関数は、循環過程における何れかのラウンドのスコアリング関数を使用してもよく、また、上記のステップ解釈における数値説明は一例であり、具体的な数値は実際のシナリオによって決定されることを理解されたい。
【0042】
302において、ターゲット逆合成モデルによって、第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得する。
【0043】
本実施例において、ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、グラフニューラルネットワークは第1のリーフノードに対応する化合物分子の結合切断位置を予測し、反応物生成ネットワークは結合切断位置に基づいて予測分子セットを決定するものであり、即ち、中間反応物を決定するプロセスは、分子の潜在的な結合切断位置を予測し、結合切断後のシントンを生成するための階段と、反応物の情報によってシントンを補足して、中間反応物を取得する階段とを含む。
【0044】
任意選択で、中間反応物の取得プロセス(即ち、第2のリーフノードの決定過程)において、複数の候補結果を取得する可能性があるので、中間反応物を取得するためにスクリーニングする必要があり、図5は本出願の実施例で提供される中間反応物を予測する過程の概略図であり、図5に示すように、化合物分子Aについて、その結合切断位置を決定した後、まず、反応タイプに基づいて展開処理を行い、次に、反応タイプの予備選択を行って候補シーケンス1(R1-Rn)を取得し、例えば、各反応タイプのうちの、得点が最も高い10種を選択し、有効性スクリーニングを行って候補シーケンス2(R1-Rk、k<n)を取得し、例えば、候補シーケンス1における各分子が効果で安定した分子であるかどうかを決定し、さらに、原子保存のスクリーニングを行って候補シーケンス3(R1-Rm、m<k)を取得し、候補シーケンス3における合成確率を計算することにより、スクリーニングして可能な反応物セットB及びCを取得し、合成確率はデータベース中の異なるタイプの反応の成功率または使用率の統計に基づいて得られることができる。
【0045】
また、中間反応物の決定について、直接に反応タイプが展開されたセットに基づいて結合切断確率を判定してもよく、又は反応タイプの予備選択後、反応物予測確率を判定することで得られてもよく、両者の結合の重複に基づいて第2のリーフノードにおける反応物セットを決定してもよい
【0046】
1つの複雑な分子について、一般に、複数の単段階反応予測を行う必要があり、そして、単段階のソーティング結果に基づいて、取得された反応物又は中間生成物に対して、文献による既知又は市販の原材料ライブラリ(ここで、逆合成分析の終端点を决定するための基本分子セットとして定義される)に達するまで、次の単段階反応予測を行う。従って、単段階反応予測の正確性は、多段階逆合成全体の予測において重要な役割を果たす。
【0047】
以下、単段階予測の過程、即ち、ターゲット逆合成モデルの使用過程について説明する。図6は本出願の実施例で提供されるターゲット逆合成モデルの動作プロセスの概略図であり、図に単段階予測の過程を示し、まず、第1のリーフノードに対応する化合物分子の第1の文字列を決定し、そして、第1の文字列を第1の分子グラフに変換し、さらに、グラフニューラルネットワークによって、第1の分子グラフに基づいてグラフを入力し、当該第1のリーフノードに対応する化合物分子の結合切断位置を決定し(結合切断位置判定)、反応物生成ネットワークによって、結合切断位置の入力に基づいて、少なくとも1つのシントンを決定し、最後、所定のルールに基づいて少なくとも1つのシントンをフィルタリングして、予測分子セット(反応物セット)を決定する。
【0048】
反応物セットを取得した後、具体的な反応過程を得ることができ、図7は本出願の実施例で提供される逆合成反応プロセスの概略図であり、図に、標的分子に基づいて決定されたシントン1及びシントン2、シントン1及びシントン2に対応する反応物1及び反応物2を示し、反応物1はシントン1に対して基本分子セット検索を行うことで決定され、即ち、基本分子セットにおいて、シントンに関連付けられた分子を検索する。
【0049】
結合切断予測を処理する問題は、グラフからグラフへの変換問題であることを理解されたい。上記のステップでは、分子グラフの決定過程は具体的に以下の通りであり、まず、所定の生成物のSMILES文字列を、対応するNp個のノードを有する分子グラフGpに変換してから、分子グラフGpをグラフニューラルネットワークに入力し、さらに、当該分子グラフGp内において結合切断を予測する。
【0050】
具体的に、結合切断の予測プロセスはターゲットキー特徴に基づいて行われる。具体的に、まず、グラフニューラルネットワークによって第1の分子グラフ、及び結合切断の数の制限に基づいて、結合切断情報を取得し、及び、標的分子に基づいてターゲットキー特徴、例えば、標的分子に含まれる原子のタイプ及び結合のタイプを決定し、さらに、ターゲットキー特徴に基づいて結合切断情報を抽出し、結合切断位置を決定する。
【0051】
ターゲットキー特徴は、原子キー特徴及び結合キー特徴を含み得、ターゲットキー特徴が使用する原子(node)及び結合(edge)の特徴は、オープンソースのRDKitを使用して自動に抽出され、具体的に、原子キー特徴は、原子タイプ、結合数、形式電荷、キラリティー、水素原子数、原子混成状態、芳香性、原子量、高周波反応中心特徴及び反応タイプのうちの少なくとも1つを含んでもよく、結合キー特徴は、結合タイプ、共役性、環結合及び分子立体化学特徴のうちの少なくとも1つを含んでもよいことを理解されたい。
【0052】
具体的に、原子タイプは当該原子の原子番号であり(周期表において元素が順で並べる番号を指す)、結合の数は、当該原子が所属する、異なる化学結合の数であり、形式電荷は、生成物分子に割り当てられた当該原子の電荷であり、キラリティーは、1つの分子がその鏡像と重ね合わすことができないことを指し、例えば、人間の両手のように、左手とその鏡像である右手は互いに重ね合わせられないことであり、水素原子数は当該原子に接続された水素原子数であり、原子混成状態はsp、sp2、sp3、sp3d又はsp3d2を含み、芳香性は当該原子が芳香環系にあるかどうかを特徴付けるものであり、原子量は当該原子の重量であり、高周波反応中心特徴は1つの原子が高周波反応中心特徴を有するかどうかを特徴付けるものであり、当該原子を含む分子サブマップが高周波反応中心であるかどうかに依存し、高周波反応中心は逆合成トレーニングセットの生成物から抽出された頻繁な反応の中心であり、反応タイプは逆合成反応の化学反応タイプであり、原子の1つの特徴としてもよい。
【0053】
結合タイプは、当該化学結合が所属するタイプを示し、例えば、単結合、二重結合、三重結合、芳香族結合などであり、共役特徴は当該化学結合が共役であるかどうかを示し、環結合特徴は当該化学結合が環結合の一部であるかどうかを示し、分子立体化学特徴はアキラリティー要素、キラリティー要素の任意、又は二重結合の立体化学などである。
【0054】
任意選択で、所定の標的分子について様々な結合切断の組み合わせを有する可能性があるため、補助タスクを増やすことで、結合切断の総数を制限することができる。図8は本出願の実施例で提供されるグラフニューラルネットワークの動作プロセスの概略図である。図に、原子特徴による結合切断予測プロセス(a)、原子特徴及び結合特徴による結合切断予測プロセス(b)を示し、原子特徴の結合切断予測プロセスを基に結合切断の数、結合切断タイプ又は結合切断エネルギー値に制限を設定することで、決定された結合切断位置の正確性を向上させることができる。
【0055】
以下、本実施例のグラフニューラルネットワークのトレーニング過程について説明し、トレーニング過程に係るモデルトレーニングデータは米国特許データベースUSPTO中の180萬のデータセットのサブセットUSPTO_50k及びUSPTO_480kデータからのものであってもよい。反応にキラリティー分子が含まれた反応データを除去し、全部でatom-mappingで処理する。反応タイプの分布は、表1に示されるように、主に10種の化学反応タイプを含む。
【表1】
【0056】
具体的に、グラフニューラルネットワークのトレーニング過程について、まず、第1のトレーニング分子、及び対応する第1のトレーニングシントンを取得し、その後、第1のトレーニング分子及び第1のトレーニングシントンのノード特徴(原子特徴)、エッジ特徴(結合特徴)を決定し、ノード特徴は第1のトレーニング分子と第1のトレーニングシントンとの間の原子の関係を示すものであり、エッジ特徴は第1のトレーニング分子と第1のトレーニングシントンとの間の化学結合の関係を示すものであり、そして、ノード特徴及びエッジ特徴に基づいて、第1の損失関数を決定し、第1のトレーニング分子と第1のトレーニングシントンとの間の化学結合の結合切断確率を決定し、結合切断確率に基づいて、第2の損失関数を決定し、さらに、第1の損失関数及び第2の損失関数に基づいて、グラフニューラルネットワークのモデルパラメータを更新する。
【0057】
具体的に、第1の損失関数の決定過程、即ち、所定の入力について、
Gp = {Ap、Ep、Xp}
Gpは第1のトレーニング分子の分子グラフであり、Apは第1のトレーニング分子の原子特徴であり、Epは第1のトレーニング分子の結合特徴であり、XpはGATモデルのパラメータである。
【0058】
【数1】
【0059】
まず、ノードのベクトル表現(embedding)に重みを掛ける。
【数2】
そして、活性化関数を使用して計算する(ここで、Mish関数を例として説明する)。
【数3】
さらに、softmaxによってl+1層のembeddingを取得し、最後の式はl+1層の頂点i、j及びエッジの3つのベクトルを連結し、重み係数を掛け、具体的な式は以下の通りである。
【数4】
その中、初期embedding
【数5】
はそれぞれ入力されたノード及びエッジの特徴である。W、V、Uは異なる重み係数のベクトルであり、z、ci,jは中間変数であり、
【数6】
はトレーニング可能なパラメータであり(F、F’、Dはそれぞれ異なる特徴ベクトルの次元の数値である)、Niはノードiの隣接ノードであり、ai,jはノードi及びその隣接jのattentionパラメータである。
【数7】
はそれぞれ出力されたノード及びエッジの表現である。
【0060】
【数8】
【0061】
さらに、結合切断予測を最適化する目的は、結合切断di,j及び実のyi,j∈{0,1}を最小化することであり、1つのバイナリクロスエントロピー損失関数によって1つの尤度の負の対数を計算し、具体的な関数は以下の通りである。
【数9】
その中、Kは結合bi、jの間に存在する全てのデータの量であり、Gは対応する分子グラフであり、yi,jは信頼度パラメータであり、di,jは結合切断の位置である。
【0062】
結合bi,jは、対応する隣接元素ai,jはゼロではない際に存在する。ground-truthについて、yi,j=1であれば、第iの原子及び第jの原子の化学結合が切断したことを意味することを理解されたい。
【0063】
任意選択で、当該モデルトレーニング階段でmultistepの方法を使用できるが、学習率を高めるために、コサインアニーリング(Cosine annealing)のトレーニング方法を使用するように最適化し、即ち、学習率を循環的に変化させることができる。
【0064】
具体的に、コサインアニーリングはコサイン関数によって学習率を低減させることができる。コサイン関数において、xの増加に連れて、コサイン値はゆっくりと低下し、次に加速して低下し、その後再びゆっくりと低下する。このような変化モードは学習率と組み合わせ、非常に効果的な計算方式でよい効果を発揮することができ、具体的な計算式は以下の通りである。
【数10】
その中、ηは学習率であり、ηmaxは最大学習率であり、ηminは最小学習率であり、Tcurは現在の反復回数であり、Tmaxは最大反復回数である。
【0065】
上記の計算過程により、現在の局所最適点から抜け出し、新たな局所最適点を見つけることができる。各周期の計算が完了した後、異なる局所最適点のモデルパラメータを保存して、学習率をスムーズに低下させる。
【0066】
上記の実施例はグラフニューラルネットワークの使用及び学習の過程について説明したが、以下、反応物生成ネットワークの使用及び学習の過程について説明する。
【0067】
具体的に、結合切断位を予測した後、標的分子を分割することでシントンを取得することができる。分割後のシントンサブグラフをRDKitからSMILES表現に変換することができる。ここで、シントンは必ずしも実の反応物ではなく、反応物のサブ構造であり得ることに留意されたい。そして、Transformerに基づく反応物予測のためのニューラルネットワーク(反応物生成ネットワーク)を構築することができる。
【0068】
具体的に、反応物生成ネットワークの応用過程は以下の通りであり、まず、グラフニューラルネットワークによって決定された結合切断位置に基づいて標的分子に対して分割処理を行うことで、少なくとも1つのシントン分子グラフを取得し、その後、シントン分子グラフを第2の文字列に変換し、所定の反応タイプに基づいて第2の文字列を更新することで、第3の文字列を取得し、所定の反応タイプは、表1に示す反応タイプの何れか1つであってもよく、さらに、反応物生成ネットワークによって、第3の文字列に基づいて、少なくとも1つのシントンを決定する。
【0069】
可能なシナリオにおいて、図9は本出願の実施例で提供される文字列変換の概略図であり、各反応タイプは1つの文字列RXNとして表すことができ、例えば、第k種の反応タイプはRXN_kで表してもよく、各生成物分子は1つのSMILES文字列として表現され、Productと記され、各シントンも1つのSMILES文字列として表現され、Synthonと記され、各シントンに対応する分子も1つのSMILES文字列として表現され、Reactantと記されることができる。ここで、ソースシーケンスデータ情報は、反応タイプ情報(もしあれば)、標準生成物SMILES文字列及び対応するシントンを連結することで得られるものである。ターゲットシーケンスは各シントンの反応物のSMILES情報に対応する。さらに、生成物とシントンの両方を観察できるようにattentionメカニズムを使用することができ、それによってアルゴリズムの解釈可能性を高める。
【0070】
また、反応物生成ネットワークのトレーニング過程で、トレーニング分子、トレーニングシントン及びトレーニング反応物の関連関係をキャラクタ次元で表す必要がある。具体的に、まず、第2のトレーニング分子、第2のトレーニングシントン、及びトレーニング反応物を取得し、その後、第2のトレーニング分子に対応する文字列、第2のトレーニングシントンに対応する文字列、及び所定の反応タイプに基づいて、第1のトレーニング文字列を決定し、トレーニング反応物に対応する第2のトレーニング文字列を決定し、さらに、第1のトレーニング文字列と第2のトレーニング文字列とを関連付けて、第1のトレーニングサンプルペアを決定し、ひいては、第1のトレーニングサンプルペアに基づいて、反応物生成ネットワークをトレーニングすることができる。
【0071】
可能なシナリオにおいて、第2のトレーニングシントンが2つであり、2つのトレーニングシントンのSMILES文字列がそれぞれSynthon1及びSynthon2であると仮定すると、反応タイプ、生成物分子、シントンのそれぞれに対応する文字列を連結することで、長い文字列(第1のトレーニング文字列)を取得することができ、以下の通りである。
U=<RXN_i>Product<LINK>Sython1.Synthon2
さらに、対応する正確な標的分子文字列Reactant1及びReactant2(ここで、2つの反応物のみがあると仮定する)を長いターゲット文字列(第2のトレーニング文字列)に連結する。
V=Reactant1.Reactant2
そして、U及びVからトレーニングサンプル(第1のトレーニングサンプルペア)を構成する:
(U,V)
【0072】
任意選択で、反応物生成ネットワークのロバスト性を高めるために、第1の階段(結合切断分割)にて予測されたシントンのSMILES文字列をトレーニングデータとしてもよく、当該予測結果は不正確であり得る。具体的に、まず、グラフニューラルネットワークによって予測された候補文字列(予測結果)を取得し、その後、候補文字列を第2のトレーニングシントンに対応する文字列に追加して、第1のトレーニング文字列を第3のトレーニング文字列に更新し、さらに、第3のトレーニング文字列と第2のトレーニング文字列とを関連付けて、第2のトレーニングサンプルペアを決定し、最後、第2のトレーニングサンプルペアに基づいて、反応物生成ネットワークをトレーニングする。
【0073】
可能なシナリオにおいて、第1の階段モデルが3つのシントン(候補文字列)を予測したと仮定する。
【数11】
この3つのシントンのそれぞれに対応する候補文字列に基づいて、以下の第3のトレーニング文字列を決定する。
【数12】
そして、正確な出力ターゲットVと組み合わせて、1つのサンプル(第2のトレーニングサンプルペア)を構成する。
【数13】
さらに、第2のトレーニングサンプルペアに基づいて、第2の階段のモデル(反応物生成ネットワーク)をトレーニングする。
【0074】
具体的に、トレーニング過程において、予測された文字列と実の反応物の文字列との間の差を最小化することをトレーニング目的とし、具体的な式は以下の通りである。
【数14】
その中、Sはモデルが予測した全ての反応物のSMILES文字列であり、sはs番目の反応サンプルのインデックスを代表し、lは何れかの適切な損失関数、例えば、負の尤度関数である。
【0075】
任意選択で、シーケンスモデル学習の難しさを軽減するために、学習目的、即ち反応物のSMILESの表現式とSynthonとの編集距離をできるだけ小さくして、即ち、各SynthonのSMILESに対して正規化(canonical)処理を行うことができる。具体的に、まず、ターゲットキャラクタフォーマットを決定し、例えば、オープンソースの化学情報学ツールRDKitを使用して処理し、そして、ターゲットキャラクタフォーマットに基づいて、第2のトレーニングシントンに対応する文字列及び所定の反応タイプに基づいて決定された第1のトレーニング文字列を更新することで、第2のトレーニングシントンに対応する文字列と、所定の反応タイプに基づいて決定された第1のトレーニング文字列との間の距離を小さくし、それにより、シーケンスモデル学習の難さを低減させる。
【0076】
303において、第2のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定する。
【0077】
本実施例において、再帰処理は、操作を繰り返すことで、問題を同種のサブ問題に分解して、問題を解决する方法であり、即ち、第2のリーフノードに対応する予測分子セットにおける化合物に対して、所定の条件を満たすまで、上記のステップ302における分割することでシントンを取得する過程を繰り返して実行する。
【0078】
具体的に、再帰処理の過程は以下の通りであり、まず、第2のリーフノードに対応する予測分子セットが所定の反応タイプの下で対応する第1の候補分子を決定し、その後、ターゲット逆合成モデルに基づいて第1の候補分子に対して展開処理を行うことで、第3のリーフノードを取得し、第3のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、第2の候補分子を決定し、第2の候補分子が所定の条件を満たすと、第2の候補分子に対応するリーフノードを末端ノードとして決定し、このように、多階段の逆合成の予測を実現する。
【0079】
具体的に、所定の条件の設定について、上記の再帰処理後のシントンが基本分子セットにおける分子であってもよく、即ち、まず、第2の候補分子に基づいてトラバースすることで、複数の経路分子を取得し、経路分子は基本分子セットにおける分子であれば、第2の候補分子が所定の条件を満たすと決定し、第2の候補分子に対応するリーフノードが末端ノードであると判定され、このように、予測して取得する合成経路での化合物分子がすべて簡単な基本分子であることを確保し、実際のシナリオでのこの案の実行可能性を確保する。
【0080】
また、基本分子セットの選択は、多段階逆合成の予測結果に対する基本分子セットの合理性を考慮する必要があり、ここで、合理性は、化学者が実際の合成において、合成経路の各段階における中間体の価格と商業的入手可能性を考慮し、これらの要因に従って逆合成を継続するかどうかを決定することを意味する。従って、基本分子セットの選択では、薬物の仮想スクリーニングに使用される薬物分子ではなく、分子がすべて市販の化学中間体であることを可能な限り保証する必要がある。両者の相違点は以下の通りであり、化学中間体は一般に包装仕様 (g単位) が大きく、スクリーニングのための薬物分子は一般にミリグラム単位のような包装仕様が小さく、比較的高価であるという点である。当該原則に基づいて、公開試薬カタログを有するいくつかの化合物試薬会社、および他の分子ライブラリを有する他の会社のBuilding blockライブラリを選択することができる。Building blockライブラリは、その分子が小さく、構造が簡単であるため、実際の使用シナリオでは、コストの利点を備える。
【0081】
ここで、基本分子セットの選択は、主に化合物の商業的入手可能性、及び既知であるかどうかを考慮するため、通常の化合物原材料供給業者eMolecules(Plusライブラリ及びSCライブラリ、2000萬以上)、及びBuilding blockを提供する通常の化合物ライブラリ会社Enamine(9.7萬)及びChemDiv (7萬)を選択し得ることを理解されたい。いくつかのライブラリのマージ及び重複排除の後、最終的に決定された基本分子セットは約2300萬の分子を備える。
【0082】
任意選択で、所定の条件は、再帰処理の回数、即ち、第2の候補分子のる展開の数であってもよく、具体的に、まず、木構造において、第2の候補分子に対応する展開の数を決定し、展開の数が所定値に達すると、第2の候補分子が所定の条件を満たすと決定して、第2の候補分子に対応するリーフノードを末端ノードとして決定する。例えば、所定の第2の候補分子の展開の数が2であるとすると、第2の候補分子を分割して第3の候補分子を取得し、その後、第3の候補分子をさらに分割して第4の候補分子を取得し、第4の候補分子が末端ノードであると決定し得る。
【0083】
304において、末端ノードに対応する経路情報をトラバースして、標的分子の逆合成経路を決定する。
【0084】
本実施例において、末端ノードに対応する経路情報をトラバースし、即ち、末端ノードからルートノードへの方向に基づいて逆検索を行って、経路での関する化合物を関連付けて、標的分子の逆合成経路に決定する。
【0085】
可能なシナリオにおいて、上記の多段階逆合成の予測方法は、開示されたChEMBLの100個の分子テストセットのtop-10について予測正確率が64%に達し、即ち、100個の分子のうちの64個を予測でき、Top-1の予測正確率は43%であり、当該結果は、開示されたいくつかのプラットフォームの表現効果と比較して、トップの位置にある。
【0086】
上記の実施例から分かるように、標的分子を取得し、標的分子を木構造のルートノードとし、ルートノードは木構造の第1のリーフノードに関連付けられ、木構造は標的分子の逆合成経路を含み、次に、ターゲット逆合成モデルによって、第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得し、ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、グラフニューラルネットワークは第1のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、反応物生成ネットワークは結合切断位置に基づいて予測分子セットを決定するものであり、さらに、第2のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定し、さらに、末端ノードに対応する経路情報をトラバースして、標的分子の逆合成経路を決定する。このようにすれば、多段階反応の逆合成予測プロセスを実現し、リーフノードを徐々に再帰的に展開してスクリーニングし、所定の条件を満たす末端ノードに対して経路追跡を行うことで、多段階反応の逆合成予測プロセスで取得された反応物の信頼性を確保し、化合物分子逆合成予測の正確性を向上させることができる。
【0087】
上記の実施例では、多段階反応の逆合成予測プロセスを説明した。展開過程において、異なるルール(例えば、生成された結果分子が自然界に存在する分子であること、生成された結果分子が有機物であること、生成された結果分子の環数が増えないことなど)、及びモデル(例えば、逆合成確率モデル、順方向合成予測モデルなど)を用いてノードをスクリーニングし、ルール及びモデルを具体的に設定する場合、自動に呼び出してもよいし、関係者が必要に応じて設定してもよく、以下、当該シナリオについて説明する。図10を参照して、本出願の実施例で提供される別の化合物分子の逆合成予測方法のフローチャートであり、本出願の実施例は少なくとも以下のステップを含む。
1001において、標的分子を取得し、標的分子を木構造におけるルートノードとする。
1002において、ターゲット逆合成モデルによって、第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得する。
【0088】
本実施例において、ステップ1001~1002の実現過程は図3の実施例におけるステップ301~302の実現過程と同様であるので、関連する特徴の説明については、図3の説明を参照すればよく、ここで、贅言していない。
【0089】
1003において、ターゲット操作に応答して、反応スクリーニング要件を取得する。
【0090】
本実施例において、反応スクリーニング要件は、以降、ロールアウトに参加するノードをスクリーニングするものであり、例えば、競合反応リスクを有する化合物をスクリーニングして、保護基有する化合物を選択し、C-H結合の分布特徴に基づいて化合物をスクリーニングし、人名反応に係る化合物などを選択し、具体的な反応スクリーニング要件は、実際のシナリオによって決定される。
【0091】
ターゲット操作は、バックグラウンドで関係者によってトリガーされる入力操作であってもよいし、木構造のノード間にスクリーニングルールを設定する操作であってもよい。 具体的な操作方法は、実際のシナリオによって決定されることを理解されたい。
【0092】
任意選択で、上記の反応スクリーニング要件は、展開プロセスにおけるスクリーニングにも適用され得る。たとえば、拡張プロセスでは、まず、10種の反応タイプをトラバースし、各反応タイプに対して 3つの結果を予測し、最大で合計 30個が取得される。次に、30個の結果をフィルタリングする場合、上記の反応スクリーニング要件を使用してスクリーニングして、尤度が高いいくつかを保留する。
【0093】
1004において、反応スクリーニング要件に基づいて、第2のリーフノードに対応する化合物分子をスクリーニングする。
【0094】
本実施例において、上記の反応スクリーニング要件に対して、具体的な反応に基づいて説明する。
(1)競合反応の運用。
本実施例において、競合反応の運用によって反応経路を合理的に設計することで、基の競合反応(functional group interference)を回避し、図11は本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図である。図面における合成経路の重要なステップは、C=OをC=S二重結合に変換することである。化合物3で経路を予測する際に、チオ反応を行うと、複数のC=O二重結合の競合反応、即ち、アルデヒドカルボニル及びアミドカルボニルの競合反応が発生し、従って、対応する反応物を含むノードを除去する必要がある。これによって、与えられた経路は、競合反応を含む予測を回避でき、即ち、化合物5の選択時にチオ反応が発生し、その後、アルデヒド基を導入して化合物3を取得し、逆合成予測の正確性を向上させる。
(2)保護基の運用。
保護基の合理的な使用は、コンピュータ支援逆合成予測の課題であった。これは、コンピュータが反応基質中の競合反応を起こす可能性のある基を解析し、反応に参加するのを望まない基を合理的に保護基で保護し、その後、保護基を除去する必要があるからである。
【0095】
可能なシナリオにおいて、図12は本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図であり、ターゲット合成化合物9について、遊離のNH2基は競合反応を起こすため、NHBocに基づいて取得された化合物10を保護してから、化合物10は化合物11及び12から容易に取得され、さもなければ、遊離のNH2は12内にあると、分子内反応が発生して、反応結果に影響を与える。
【0096】
別の可能なシナリオにおいて、ヒドロキシル基は、酸化中またはアルカリ条件下での特定の反応において保護される必要があることが多い。具体的な保護方式は以下を含む:(1)ヒドロキシル基が塩基によって影響を受けるのを防ぐために、エーテル反応を使用できる。例えば、ROH +ROH→H2O+R-O-R。(2)ヒドロキシル基が酸化することを防止するために、エステル化反応を使用できる。
【0097】
また、高温又はアルカリ性条件下でカルボキシル基を保護する必要がある場合がある。カルボキシル基を保護するために最も一般的に使用される方法は、エステル化反応である。又は、不飽合炭素-炭素結合を保護し、炭素-炭素二重結合は酸化されやすいため、その保護は主に付加反応で飽合させる。又は、カルボニル基の保護(よく情報問題形態で出現する)について、特に、アルデヒド基は、酸化反応中または塩基の存在下で保護される必要があり、カルボニル基の保護は、一般に、アセタール又はケタールを生成する方法を使用し、生成されたアセタール又はケタールに対して加水分解を行うと、元のアルデヒド又はケトンになる。保護基の決定は具体的に、実際のシナリオによって決定され、ここで、限定していない。
【0098】
(3)位置選択性(regioselectivity)の運用。
本実施例において、芳香環上のC-H置換反応のregioselectivity問題を解决し、図13は本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図であり、分子15を予測する場合、NBS(16)及び化合物17の臭素化反応を選択する。化合物17の複数の芳香環のC-H(ピリジン環及びフラン環)は化合物16によって臭素化される可能性がある。従って、各C-Hのpartial chargeの分布などの特徴を合理的に使用することは、regioselectivityを正確に予測する鍵となり、従って、反応スクリーニング要件の設定過程において、具体的なC-H分布ルールを規定して、対応する反応物を選択することができる。
【0099】
(4)古典的人名反応の使用。
本実施例において、有機人名反応は、多くの有機化学者の研究および使用によって決定されたほとんど信頼できる化学反応であるため、基質の普遍性も高くなり、反応経路は比較的容易に実現される。従って、逆合成分析では、古典的人名反応の使用は比較的信頼性の高い経路であり、比較的にユーザーの愛顧を受けやすく、合理且つロバスト性を有する化学反応を予測できる。図14は本出願の実施例で提供される化合物分子の逆合成予測プロセスの概略図であり、図において、Mitsunobu反応を示し、即ち、反応物のスクリーニング過程において、化合物21及び22を優先的に選択する。
【0100】
具体的に、古典的人名反応の運用は以下の例を含むが、これらに限定されていない。
beckman ベックマン転位:酸性条件下でのケトキシムからアミドへの反応(カプロラクタム)
cannizzarro カニッツァーロ不均化:強塩基下でのα-hのないアルデヒドがアルコール及びカルボン酸 (ベンズアルデヒド) を形成する反応
claisen クライゼン縮合:エステルが強塩基下でカルバニオンを形成し他のエステルに求核付加・脱離する反応
clemmensen クレメンゼン還元法:亜鉛アマルガムと濃塩酸下でのアルデヒドとケトンから炭化水素に還元する反応(カルボニル基からメチレン基へ)
cope コープ脱離反応:過酸化水素で処理した後、加熱した第3級アミンの脱離反応(ホフマン則)
corey-houseコーリー・ハウス・ポスナー・ホワイトサイズ反応:ハロゲン化炭化水素とジアルキル銅リチウム試薬とのカップリング(炭素鎖を連結するための重要な反応)
cram クラム則:求核剤は立体障害の小さい側から優先的に攻撃する
dickerman ディークマン縮合:反応はエステル縮合および環形成に似ている
diels-alder ディールス・アルダー反応:一般に、1、3-ブタジエンの誘導体とエチレンの誘導体との反応(相乗反応)
fehling フェーリング液:新たに調製された水酸化銅は、アルデヒドを酸に酸化する
friedel-crafts フリーデル・クラフツ反応:ベンゼン環に炭化水素基またはアシル基が導入される反応
【0101】
実際のシナリオにおいて、上記の反応スクリーニング要件のうちの1つまたは複数を使用でき、具体的な数及び判定の順序は実際のシナリオによって決定されることを理解されたい。
【0102】
1005において、スクリーニング後の第2のリーフノードに対応する予測分子セットに対して再帰処理を行うことで、所定の条件を満たす時の末端ノードを決定する。
【0103】
具体的に、再帰処理において、毎回シミュレートするオブジェクトについて、10種の反応タイプをトラバースして、各種の反応タイプに対して1つの結果を予測し、合計で10個がある。そして、10個の結果をフィルタリングし、上記の反応スクリーニング要件を使用して、逆合成確率、順方向合成予測確率などを結合して、最も可能性の高い1つの反応を選択して次の展開を行う。そして、停止条件を満たすまで、以上の過程を繰り返す。停止条件は、全てのリーフノードに対応する化合物分子が基本分子セット内にあること、又は所定の再帰回数に達することである。
【0104】
1006において、末端ノードに対応する経路情報をトラバースして、標的分子の逆合成経路を決定する。
【0105】
本実施例において、ステップ1005~ステップ1006の実現過程は図3の実施例のステップ303~304の実現過程と同様であるため、関連特徴の説明について参照すればよく、ここで、贅言していない。
【0106】
理解されるように、上記の反応スクリーニング要件の設定は、単段階逆合成予測のシナリオにも適用されてもよく、即ち、本出願は、単段階逆合成予測方法も開示し、具体的に、図3の実施例のステップ302を参照すればよく、ここで、贅言していない。
【0107】
単段階逆合成予測プロセスについて、反応タイプラベルのないデータでも62.4%の予測正確率に達し、方法の普遍性及び実用性がより強くなり、なぜならば、実際の使用シナリオにおいて、このような反応タイプのラベルを具備しない可能性があるためである。大規模なデータセットが単段階予測の正確性の向上に寄与することをある程度で検証する。具体的に、5萬のデータセットで可能な予測正確性は58%であり、データセットは48萬に増加し、正確性は62.4%に高まる。
【0108】
本実施例において、多段階逆合成の予測正確性について、現在、開示されたいくつかのプラットフォームの表現効果と比較し先頭位置にある。開示されたChEMBLの100個の分子テストセットでtop-10の予測正確性は64%であり、即ち、100個の分子から64個を予測でき、Top-1の予測正確性は43%であり、優れた実施可能性を有する。
【0109】
本出願の実施例は、上記の解決策を実施する関連装置をさらに提供する。図15を参照し、図15は本出願の実施例で提供される化合物分子の逆合成予測装置の構造概略図であり、予測装置1500は、
標的分子を取得し、前記標的分子を木構造のルートノードとするためのものであって、前記ルートノードは前記木構造の第1のリーフノードに関連付けられ、前記木構造は前記標的分子の逆合成経路を含む取得ユニット1501と、
ターゲット逆合成モデルによって、前記第1のリーフノードに対して展開処理を行うことで、複数の第2のリーフノードを取得するためのものであって、前記ターゲット逆合成モデルはグラフニューラルネットワーク及び反応物生成ネットワークを含み、前記グラフニューラルネットワークは前記第1のリーフノードに対応する化合物分子の結合切断位置を予測するものであり、前記反応物生成ネットワークは前記結合切断位置に基づいて予測分子セットを決定するものである展開ユニット1502と、
前記第2のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、所定の条件を満たす末端ノードを決定するための処理ユニット1503と、
前記末端ノードに対応する経路情報をトラバースして、前記標的分子の逆合成経路を決定するための予測ユニット1504と、を含む。
【0110】
好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット1502は、具体的に、
前記第1のリーフノードに対応する化合物分子の第1の文字列を決定し、
前記第1の文字列を第1の分子グラフに変換し、
前記グラフニューラルネットワークによって、前記第1の分子グラフに基づいて前記第1のリーフノードに対応する化合物分子の結合切断位置を決定し、
前記反応物生成ネットワークによって前記結合切断位置に基づいて少なくとも1つのシントンを決定し、
所定のルールに基づいて前記少なくとも1つのシントンに対してフィルタリング処理を行うことで、前記予測分子セットを決定する、ために用いられる。
【0111】
好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット1502は、具体的に、
前記グラフニューラルネットワークによって、前記第1の分子グラフ、及び結合切断の数の制限に基づいて、結合切断情報を決定し、前記標的分子に基づいてターゲットキー特徴を決定するステップであって、前記ターゲットキー特徴は原子キー特徴及び結合キー特徴を含み、前記原子キー特徴は原子タイプ、結合数、形式電荷、キラリティー、水素原子数、原子混成状態、芳香性、原子量、高周波反応中心特徴、及び反応タイプのうちの少なくとも1つを含み、前記結合キー特徴は結合タイプ、共役性、環結合、及び分子立体化学特徴のうちの少なくとも1つを含み、
前記ターゲットキー特徴に基づいて前記結合切断情報を抽出して前記結合切断位置を決定する、ために用いられる。
【0112】
好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット1502は、具体的に、
第1のトレーニング分子、及び対応する第1のトレーニングシントンを取得し、
前記第1のトレーニング分子及び前記第1のトレーニングシントンのノード特徴及びエッジ特徴を決定し、前記ノード特徴は前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の原子の関係を示すものであり、前記エッジ特徴は前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の化学結合の関係を示すものであり、
前記ノード特徴及び前記エッジ特徴に基づいて、第1の損失関数を決定し、
前記第1のトレーニング分子と前記第1のトレーニングシントンとの間の化学結合の結合切断確率を決定し、
前記結合切断確率に基づいて、第2の損失関数を決定し、
前記第1の損失関数及び前記第2の損失関数に基づいて、前記グラフニューラルネットワークのモデルパラメータを更新する、ために用いられる。
【0113】
好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット1502は、具体的に、
前記結合切断位置に基づいて前記標的分子に対して分割処理を行うことで、少なくとも1つのシントン分子グラフを取得し、
前記シントン分子グラフを第2の文字列に変換し、
所定の反応タイプに基づいて前記第2の文字列を更新することで、第3の文字列を取得し、
反応物生成ネットワークによって、前記第3の文字列に基づいて前記少なくとも1つのシントンを決定する、ために用いられる。
【0114】
好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット1502は、具体的に、
第2のトレーニング分子、第2のトレーニングシントン、及びトレーニング反応物を取得し、
前記第2のトレーニング分子に対応する文字列、前記第2のトレーニングシントンに対応する文字列、及び前記所定の反応タイプに基づいて、第1のトレーニング文字列を決定し、
前記トレーニング反応物に対応する第2のトレーニング文字列を決定し、
前記第1のトレーニング文字列と前記第2のトレーニング文字列とを関連付けることで、第1のトレーニングサンプルペアを決定し、
前記第1のトレーニングサンプルペアに基づいて、前記反応物生成ネットワークをトレーニングする、ために用いられる。
【0115】
好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット1502は、具体的に、
前記グラフニューラルネットワークによって予測された候補文字列を取得し、
前記候補文字列を、前記第2のトレーニングシントンに対応する文字列に追加して、前記第1のトレーニング文字列を第3のトレーニング文字列に更新し、
前記第3のトレーニング文字列と前記第2のトレーニング文字列とを関連付けることで、第2のトレーニングサンプルペアを決定し、
前記第2のトレーニングサンプルペアに基づいて、前記反応物生成ネットワークをトレーニングする、ために用いられる。
【0116】
好ましくは、本出願のいくつかの可能な実現方式において、前記展開ユニット1502は、具体的に、
ターゲットキャラクタフォーマットを決定し、
前記ターゲットキャラクタフォーマットに基づいて、前記第1のトレーニング文字列を更新する、ために用いられる。
【0117】
好ましくは、本出願のいくつかの可能な実現方式において、前記処理ユニット1503は、具体的に、
所定の反応タイプの下で、前記第2のリーフノードに対応する前記予測分子セットに対応する第1の候補分子を決定し、
前記ターゲット逆合成モデルによって前記第1の候補分子に対して展開処理を行うことで、第3のリーフノードを取得し、
前記第3のリーフノードに対応する前記予測分子セットに対して再帰処理を行うことで、第2の候補分子を決定し、
前記第2の候補分子が所定の条件を満たすと、前記第2の候補分子に対応するリーフノードが前記末端ノードであると決定する、ために用いられる。
【0118】
好ましくは、本出願のいくつかの可能な実現方式において、前記処理ユニット1503は、具体的に、
前記第2の候補分子に基づいてトラバースして、複数の経路分子を取得し、
前記経路分子が基本分子セットにおける分子であれば、前記第2の候補分子が前記所定の条件を満たすと決定して、前記第2の候補分子に対応するリーフノードが前記末端ノードであると決定する、ために用いられる。
【0119】
好ましくは、本出願のいくつかの可能な実現方式において、前記処理ユニット1503は、具体的に、
前記木構造において前記第2の候補分子に対応する展開の数を決定し、
前記展開の数が所定値に達した場合、前記第2の候補分子が前記所定の条件を満たすと決定して、前記第2の候補分子に対応するリーフノードが前記末端ノードであると決定する、ために用いられる。
【0120】
上記の装置によれば、多段階反応の逆合成予測プロセスを実現し、リーフノードを徐々に再帰的に展開してスクリーニングし、所定の条件を満たす末端ノードに対して経路追跡を行うことで、多段階反応の逆合成予測プロセスによって決定される反応物の信頼性を確保し、化合物分子の逆合成予測の精度を向上させることができる。
【0121】
本出願の実施例は端末機器をさらに提供し、図16は本出願の実施例で提供される別の端末機器の構造概略図であり、説明を容易にするために、本出願の実施例に関する部分のみを示し、開示されていない具体的な技術詳細について、本出願の実施例方法の部分を参照すればよい。当該端末は携帯電話、タブレット、携帯情報端末(personal digital assistant、PDA)、販売端末(point of sales、POS)、車載用コンピュータなどを含む任意の端末機器であってもよく、端末がコンピュータであることを例とする。
【0122】
図16は本出願の実施例で提供される端末に関連するコンピュータの一部の構造のブロック図を示す。図16を参照して、コンピュータは無線周波数(radio frequency、RF)回路1610、メモリ1620、入力ユニット1630(タッチパネル1631及び他の入力装置1632を含む)、表示ユニット1640(表示パネル1641を含む)、センサー1650、オーディオ回路1660(スピーカ1661及びマイクロフォン1662が接続された)、ワイヤレスフィデリティ(wireless fidelity、WiFi)モジュール1670、プロセッサー1680、及び電源1690などの部材を含む。当業者であれば理解できるように、図16のコンピュータ構造はコンピュータを限定せず、図示より多く又は少ない部材を含んでもよいし、又はいくつかの部材を組み合わせてもよいし、或いは異なる部材配置を使用してもよい。
【0123】
携帯電話は、各部材に給電する電源1690(例えばバッテリ)をさらに含み、好ましくは、電源は電源管理システムを介してセッサー1680に論理的に接続されることで、電源管理システムを介して充電、放電の管理、及び消費電力の管理などの機能を実現することができる。
【0124】
図示されていないが、携帯電話は、カメラ、ブルートゥースモジュールなどを含んでもよく、ここで、贅言していない。
【0125】
本出願の実施例において、当該端末に含まれるプロセッサー1680は、上記の化合物分子の逆合成予測方法の各ステップの機能を実行するために用いられる。
【0126】
本出願の実施例はサーバーをさらに提供し、図17を参照し、図17は本出願の実施例で提供されるサーバーの構造概略図であり、当該サーバー1700は、配置又は性能によって大きく異なり、1つ又は1つ以上の中央演算処理装置(central processing units、CPU)1722(例えば、1つ又は1つ以上のプロセッサー)及びメモリ1732、アプリケーションプログラム1742又はデータ1744を記憶する1つ又は1つ以上の記憶媒体1730(例えば1つ又は1つ以上の大容量ストレージデバイス)を含む。メモリ1732及び記憶媒体1730は一時記憶又は永続的記憶であってもよい。記憶媒体1730に記憶されるプログラムは1つ又は1つ以上のモジュール(図示せず)を含み、各モジュールはサーバーにおける一連のコマンド操作を含む。さらに、中央演算処理装置1722は記憶媒体1730と通信して、サーバー1700で記憶媒体1730における一連のコマンド操作を実行するように配置される。
【0127】
サーバー1700は1つ又は1つ以上の電源1726、1つ又は1つ以上の有線又は無線ネットワークインターフェース1750、1つ又は1つ以上の入出力インターフェース1758、及び/又は1つ又は1つ以上のオペレーティングシステム1741、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMなどをさらに含むことができる。
【0128】
具体的に、サーバー1700の中央演算処理装置1722は、具体的に、上記の化合物分子の逆合成予測方法の各ステップの機能を実行するために用いられる。
【0129】
本出願の実施例は、コンピュータ可読記憶媒体をさらに提供し、当該コンピュータ可読記憶媒体には化合物分子の逆合成予測コマンドが記憶され、コンピュータで実行される場合、上記図3図14の実施例に記載の方法における化合物分子の逆合成予測装置が実行するステップをコンピュータに実行させる。
【0130】
本出願の実施例は、化合物分子の逆合成予測コマンドを含むコンピュータプログラム製品をさらに提供し、コンピュータで実行される場合、上記図3図14の実施例に記載の方法における化合物分子の逆合成予測装置が実行するステップをコンピュータに実行させる。
【0131】
本出願の実施例は化合物分子の逆合成予測システムをさらに提供し、前記化合物分子の逆合成予測システムは、図15に記載の実施例における化合物分子の逆合成予測装置、又は図16に記載の実施例における端末機器、または図17に記載のサーバーを含むことができる。
【0132】
当業者であれば明らかに理解できるように、便利で簡潔な説明のために、上記に記載のシステム、装置及びユニットの具体的な動作プロセスについて、上記方法実施例における対応するプロセスを参照でき、ここで、贅言していない。
【0133】
以上説明したように、上記の実施例は、本願に係る発明を説明するためにのみ使用され、それらに限定されたものではない。上述の実施例を参照して、本願を詳細に説明したが、当業者は、依然として、上述の各実施例に記載された技術的案を修正したり、その中の一部の技術的特徴を均等に置換したりすることができ、これらの修正または置換は、相応的な技術的案の本質を本願の各実施例の技術的案の精神と範囲から逸脱させない、ということが理解されるべきである。
【符号の説明】
【0134】
1500 予測装置
1501 取得ユニット
1502 展開ユニット
1503 処理ユニット
1504 予測ユニット
1610 無線周波数回路
1620 メモリ
1630 入力ユニット
1631 タッチパネル
1632 入力装置
1640 表示ユニット
1641 表示パネル
1650 センサー
1660 オーディオ回路
1661 スピーカ
1662 マイクロフォン
1670 WiFiモジュール
1680 プロセッサー
1690 電源
1700 サーバー
1722 中央演算処理装置
1726 電源
1730 記憶媒体
1732 メモリ
1741 オペレーティングシステム
1742 アプリケーションプログラム
1744 データ
1750 無線ネットワークインターフェース
1758 入出力インターフェース
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17