IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッドの特許一覧

特表2024-500246分子構造の再構成方法、装置、デバイス及びコンピュータプログラム
<>
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図1
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図2
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図3
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図4
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図5
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図6
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図7
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図8
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図9
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図10
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図11
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図12
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図13
  • 特表-分子構造の再構成方法、装置、デバイス及びコンピュータプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-05
(54)【発明の名称】分子構造の再構成方法、装置、デバイス及びコンピュータプログラム
(51)【国際特許分類】
   G16C 20/50 20190101AFI20231225BHJP
   G16C 20/70 20190101ALI20231225BHJP
【FI】
G16C20/50
G16C20/70
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023538920
(86)(22)【出願日】2022-02-28
(85)【翻訳文提出日】2023-06-23
(86)【国際出願番号】 CN2022078182
(87)【国際公開番号】W WO2022188643
(87)【国際公開日】2022-09-15
(31)【優先権主張番号】202110260462.7
(32)【優先日】2021-03-10
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】シュー,ティンヤン
(72)【発明者】
【氏名】ホアン,ジュンホン
(72)【発明者】
【氏名】シュー,シャオヨン
(72)【発明者】
【氏名】ティアン,リー
(72)【発明者】
【氏名】チェン,シンデ
(72)【発明者】
【氏名】リウ,ウェイ
(72)【発明者】
【氏名】ホアン,ジュンゾウ
(72)【発明者】
【氏名】シュエ,ディン
(72)【発明者】
【氏名】ユー,ヤン
(57)【要約】
分子構造の再構成方法、装置、デバイス及び読み取り可能な記憶媒体であり、機械学習の分野に関する。該方法は、参照分子の構造データを取得するステップ(101)と、参照分子の構造データを構造分解して、参照分子に対応する分子フラグメント群のデータセットを取得するステップ(102)と、分子フラグメント群のデータセットに対して特徴処理を行って、シャードフラグメントを取り替えるための候補フラグメントを取得するステップ(103)と、候補フラグメント及び側鎖フラグメントに基づいて、再構成分子の構造データを生成するステップ(104)と、を含む。
【特許請求の範囲】
【請求項1】
コンピュータデバイスが実行する、分子構造を再構成する方法であって、
参照分子の構造データを取得するステップであって、前記参照分子は、目標ターゲットで活性を示す分子である、ステップと、
前記参照分子の構造データを構造分解して、前記参照分子に対応する分子フラグメント群のデータセットを取得するステップであって、前記分子フラグメント群は、前記参照分子のシャードフラグメント及び前記シャードフラグメントに対応する側鎖フラグメントを含む、ステップと、
前記分子フラグメント群のデータセットに対して特徴分析を行って、前記シャードフラグメントを取り替えるための候補フラグメントを取得するステップと、
前記候補フラグメント及び前記側鎖フラグメントに基づいて、再構成分子の構造データを生成するステップであって、前記再構成分子は、前記目標ターゲットで活性を示す、ステップと、を含む、方法。
【請求項2】
前記参照分子の構造データを構造分解して、前記参照分子に対応する分子フラグメント群のデータセットを取得するステップは、
所定の分解ルールを取得するステップであって、前記所定の分解ルールは、骨格の分解ルール及び回転可能な結合の分解ルールのうちの少なくとも1つを含む、ステップと、
所定の分解ルールに基づいて、前記参照分子の構造データを構造分解して、前記参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得するステップと、を含む、請求項1に記載の方法。
【請求項3】
前記所定の分解ルールは、前記骨格の分解ルールを含み、
所定の分解ルールに基づいて、前記参照分子の構造データを構造分解して、前記参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得するステップは、
前記参照分子の構造データから骨格要件を満たす骨格構造を抽出するステップと、
前記骨格構造を前記参照分子の構造データから削除して、前記骨格構造に対応する側鎖構造を取得するステップと、
前記骨格構造を前記シャードフラグメントとし、前記側鎖構造を前記側鎖フラグメントとして、前記参照分子に対応する前記少なくとも1つの分子フラグメント群のデータセットを取得するステップと、を含む、請求項2に記載の方法。
【請求項4】
前記参照分子から骨格要件を満たす骨格構造を抽出するステップは、
前記参照分子の構造データから一次骨格構造を抽出するステップであって、前記一次骨格構造は、前記参照分子における最大骨格構造である、ステップと、
前記一次骨格構造から二次骨格構造を抽出するステップと、
前記一次骨格構造及び前記二次骨格構造から前記骨格要件を満たす前記骨格構造を決定するステップと、を含む、請求項3に記載の方法。
【請求項5】
前記骨格要件は、環数要件、重原子数要件及び回転可能な結合要件のうちの少なくとも1つを含み、
前記参照分子から骨格要件を満たす骨格構造を抽出するステップは、
前記環数要件を含む前記骨格要件に応答して、前記参照分子の構造データから、環数が環数要件の範囲内にある前記骨格構造を抽出するステップと、
前記重原子数要件を含む前記骨格要件に応答して、前記参照分子の構造データから、重原子数が重原子数要件の範囲内にある前記骨格構造を抽出するステップと、
前記回転可能な結合要件を含む前記骨格要件に応答して、前記参照分子の構造データから、回転可能な結合数が回転可能な結合数要件の範囲内にある前記骨格構造を抽出するステップと、を含む、請求項3に記載の方法。
【請求項6】
前記所定の分解ルールは、前記回転可能な結合の分解ルールを含み、
所定の分解ルールに基づいて、前記参照分子の構造データを構造分解して、前記参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得するステップは、
前記参照分子の構造データを前記回転可能な結合から切断して、シャード要件を満たす前記シャードフラグメントを取得するステップと、
前記シャードフラグメントを前記参照分子から削除して、前記側鎖フラグメントを取得するステップと、
前記シャードフラグメント及び前記側鎖フラグメントに基づいて、前記参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得するステップと、を含む、請求項2に記載の方法。
【請求項7】
各シャードフラグメントは、シャード骨格を含み、前記シャード要件は、シャード基礎要件及びシャード骨格要件のうちの少なくとも1つを含み、
前記シャード基礎要件は、シャード環数要件、シャード原子数要件、シャード回転可能な結合要件及びシャード構造要件のうちの少なくとも1つを含み、
前記シャード骨格要件は、前記シャード骨格に対する骨格原子数要件及び骨格回転可能な結合要件のうちの少なくとも1つを含む、請求項6に記載の方法。
【請求項8】
前記分子フラグメント群に対して特徴分析を行って、前記シャードフラグメントを取り替えるための候補フラグメントを取得するステップは、
前記分子フラグメント群のデータセットを分子再構成モデルに入力するステップと、
前記分子再構成モデルにより前記分子フラグメント群のデータセットに対して特徴分析を行って、前記シャードフラグメントを取り替えるための前記候補フラグメントを出力して取得するステップと、を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記分子再構成モデルは、コーデックアーキテクチャにおけるエンコーダ及びデコーダを含み、
前記分子再構成モデルにより前記分子フラグメント群のデータセットに対して特徴分析を行って、前記シャードフラグメントを取り替えるための前記候補フラグメントを出力して取得するステップは、
前記側鎖フラグメントに基づいて、前記エンコーダにより前記シャードフラグメントをエンコードして、フラグメント特徴を取得するステップと、
所定の摂動ルールにより前記フラグメント特徴に摂動を与えて、摂動特徴を取得するステップと、
前記デコーダにより前記摂動特徴をデコードして、前記シャードフラグメントを取り替えるための前記候補フラグメントを生成するステップと、を含む、請求項8に記載の方法。
【請求項10】
前記側鎖フラグメントに基づいて、前記エンコーダにより前記シャードフラグメントをエンコードして、フラグメント特徴を取得するステップは、
前記側鎖フラグメントを特徴空間にマッピングして、側鎖空間特徴を取得するステップと、
前記側鎖空間特徴を構造条件とし、前記エンコーダにより前記シャードフラグメントをエンコードして、前記フラグメント特徴を取得するステップと、を含む、請求項9に記載の方法。
【請求項11】
前記側鎖空間特徴を構造条件とし、前記エンコーダにより前記シャードフラグメントをエンコードして、前記フラグメント特徴を取得するステップは、
前記シャードフラグメントをエンコードして、エンコード特徴を取得するステップと、
前記側鎖空間特徴を構造条件とし、前記エンコード特徴を前記特徴空間にマッピングして、フラグメント特徴を取得するステップと、を含む、請求項10に記載の方法。
【請求項12】
前記分子再構成モデルのトレーニングプロセスは、
サンプル分子の構造データを取得するステップであって、前記サンプル分子は、少なくとも1組のサンプルシャード及びサンプル側鎖に分解可能である、ステップと、
前記分子再構成モデルにより、前記サンプル分子の構造データに対して特徴分析を行って、前記サンプルシャードを取り替えるための再構成シャードを出力して取得するステップと、
前記サンプルシャードと前記再構成シャードとの間の相違度で、前記分子再構成モデルのモデルパラメータを調整するステップと、を含む、請求項8に記載の方法。
【請求項13】
前記サンプルシャードと前記再構成シャードとの間の相違度で、前記モデルパラメータを調整するステップは、
前記サンプルシャードと前記再構成シャードとの特徴空間でのマッピングの離散度で、前記モデルパラメータを調整するステップであって、前記特徴空間は、前記モデルパラメータにより決定されるものである、ステップを含む、請求項12に記載の方法。
【請求項14】
前記候補フラグメント及び前記側鎖フラグメントに基づいて、再構成分子の構造データを生成するステップは、
所定のスクリーニングルールに基づいて、前記候補フラグメントをスクリーニングするステップであって、前記所定のスクリーニングルールは、合法性スクリーニングルール、唯一性スクリーニングルール、重原子数スクリーニングルール、環スクリーニングルールのうちの少なくとも1つを含む、ステップと、
スクリーニング後に得られた残存フラグメント及び前記側鎖フラグメントに基づいて、前記再構成分子の構造データを生成するステップと、を含む、請求項1~7のいずれか一項に記載の方法。
【請求項15】
スクリーニング後に得られた残存フラグメント及び前記側鎖フラグメントに基づいて、前記再構成分子の構造データを生成するステップは、
前記残存フラグメントと前記シャードフラグメントとのフラグメント類似度を取得するステップと、
フラグメント類似度が最も高いq個(qは、正の整数である)の残存フラグメントを保留し、前記側鎖フラグメントと共に前記再構成分子の構造データを生成するステップと、を含む、請求項14に記載の方法。
【請求項16】
前記候補フラグメント及び前記側鎖フラグメントに基づいて、再構成分子の構造データを生成するステップは、
前記候補フラグメントにおける水素サイトと前記側鎖フラグメントとを接合して、n個(nは、正の整数である)の候補分子を取得するステップと、
所定の分子ライブラリ内の分子構造データに基づいて、前記n個の候補分子をスクリーニングして、前記再構成分子の構造データを取得するステップと、を含む、請求項1~7のいずれか一項に記載の方法。
【請求項17】
前記所定の分子ライブラリ内の分子構造データに基づいて、前記n個の候補分子をスクリーニングして、前記再構成分子の構造データを取得するステップは、
前記所定の分子ライブラリ内の分子構造データに基づいて、前記n個の候補分子をスクリーニングして、前記所定の分子ライブラリ内に含まれないm個(0≦m≦n)の候補分子を取得するステップと、
前記m個の候補分子から前記再構成分子の構造データを決定するステップと、を含む、請求項16に記載の方法。
【請求項18】
前記m個の候補分子から前記再構成分子の構造データを決定するステップは、
前記m個の候補分子の、前記参照分子にそれぞれ対応するm個の分子類似度を取得するステップであって、i番目(iは、正の整数である)の候補分子は、i番目の分子類似度に対応するステップと、
分子類似度が最も高いk個(0<k<m)の前記候補分子から前記再構成分子の構造データを決定するステップと、を含む、請求項17に記載の方法。
【請求項19】
参照分子の構造データを取得する取得モジュールであって、前記参照分子は、目標ターゲットで活性を示す分子である、取得モジュールと、
前記参照分子の構造データを構造分解して、前記参照分子に対応する分子フラグメント群のデータセットを取得する分解モジュールであって、前記分子フラグメント群は、前記参照分子のシャードフラグメント及び前記シャードフラグメントに対応する側鎖フラグメントを含む、分解モジュールと、
前記分子フラグメント群のデータセットに対して特徴分析を行って、前記シャードフラグメントを取り替えるための候補フラグメントを取得する生成モジュールと、を含み、
前記生成モジュールは、さらに、前記候補フラグメント及び前記側鎖フラグメントに基づいて、再構成分子の構造データを生成し、前記再構成分子は、前記目標ターゲットで活性を示す、分子構造の再構成装置。
【請求項20】
プロセッサ及びメモリを含み、前記メモリには、少なくとも1つのプログラムが記憶されており、前記少なくとも1つのプログラムは、前記プロセッサによりロードされて実行されることにより、請求項1~18のいずれか一項に記載の、分子構造を再構成する方法を実現する、コンピュータデバイス。
【請求項21】
コンピュータに、請求項1~18のいずれか一項に記載の、分子構造を再構成する方法を実施させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本願は、2021年3月10日に提出された、出願番号が「202110260462.7」で、発明の名称が「分子構造の再構成方法、装置、デバイス及び読み取り可能な記憶媒体」である中国特許出願の優先権を主張するものであり、その全ての内容は、参照により本願に組み込まれるものとする。
【0002】
本願の実施例は、機械学習の分野に関し、特に分子構造の再構成方法、装置、デバイス、記憶媒体及びプログラム製品に関する。
【背景技術】
【0003】
分子生成とは、従来の分子構造に基づいて変更することにより、従来の分子構造と異なるが、同じ活性を有する分子構造を生成することを指す。例えば、参照分子は、目標ターゲットで活性を示す分子であり、分子生成は、参照分子に基づいて目標ターゲットで同様の活性を示す他の構造の分子を生成する。
【0004】
従来技術において、人工知能(Artificial Intelligence、AI)方式により分子生成を行い、AI分子生成技術は、一般的に、参照分子に基づいて分子再構成の能力と分子再構成の合法性を結びつけて、新たな構造の分子を生成する。
【0005】
しかしながら、上記方式は、分子を再構成する場合、ルールに基づいて分子を再構成し、分子構造設計の主な考え方から抜けにくいため、再構成された分子が既存の分子構造を回避しにくく、分子再構成の成功率が低い。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願の実施例によれば、分子再構成の成功率及び効率を向上させることができる分子構造の再構成方法、装置、デバイス、記憶媒体及びプログラム製品が提供される。前記技術的手段は、以下のとおりである。
【課題を解決するための手段】
【0007】
一態様では、コンピュータデバイスが実行する分子構造の再構成方法であって、
参照分子の構造データを取得するステップであって、前記参照分子は、目標ターゲットで活性を示す分子であるステップと、
前記参照分子の構造データを構造分解して、前記参照分子に対応する分子フラグメント群のデータセットを取得するステップであって、前記分子フラグメント群は、前記参照分子のシャードフラグメント及び前記シャードフラグメントに対応する側鎖フラグメントを含むステップと、
前記分子フラグメント群のデータセットに対して特徴分析を行って、前記シャードフラグメントを取り替えるための候補フラグメントを取得するステップと、
前記候補フラグメント及び前記側鎖フラグメントに基づいて、再構成分子の構造データを生成するステップであって、前記再構成分子は、前記目標ターゲットで活性を示すステップと、を含む、分子構造の再構成方法が提供される。
【0008】
他の態様では、
参照分子の構造データを取得する取得モジュールであって、前記参照分子は、目標ターゲットで活性を示す分子である取得モジュールと、
前記参照分子の構造データを構造分解して、前記参照分子に対応する分子フラグメント群のデータセットを取得する分解モジュールであって、前記分子フラグメント群は、前記参照分子のシャードフラグメント及び前記シャードフラグメントに対応する側鎖フラグメントを含む分解モジュールと、
前記分子フラグメント群のデータセットに対して特徴分析を行って、前記シャードフラグメントを取り替えるための候補フラグメントを取得する生成モジュールと、を含み、
前記生成モジュールは、さらに、前記候補フラグメント及び前記側鎖フラグメントに基づいて、再構成分子の構造データを生成し、前記再構成分子は、前記目標ターゲットで活性を示す、分子構造の再構成装置が提供される。
【0009】
他の態様では、プロセッサ及びメモリを含み、前記メモリには、少なくとも1つのプログラムが記憶され、前記少なくとも1つのプログラムは、前記プロセッサによりロードされて実行されることにより、上記本願の実施例のいずれか一項に記載の分子構造の再構成方法を実現する、コンピュータデバイスが提供される。
【0010】
他の態様では、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、プロセッサによりロードされて実行されることにより、上記本願の実施例のいずれか一項に記載の分子構造の再構成方法を実現する、コンピュータ読み取り可能な記憶媒体が提供される。
【0011】
他の態様では、コンピュータ命令を含み、該コンピュータ命令は、コンピュータ読み取り可能な記憶媒体に記憶される、コンピュータプログラム製品又はコンピュータプログラムが提供される。コンピュータデバイスのプロセッサは、コンピュータ読み取り可能な記憶媒体から該コンピュータ命令を読み取り、プロセッサは、該コンピュータ命令を実行して、該コンピュータデバイスに上記実施例のいずれか一項に記載の分子構造の再構成方法を実行させる。
【発明の効果】
【0012】
本願の実施例に係る技術的手段による有益な効果は、少なくとも、参照分子の構造データを構造分解して、シャードフラグメント及び側鎖フラグメントを取得し、それにより側鎖フラグメントを構造条件として、シャードフラグメントを取り替えるための新たな分子フラグメント構造を予測して、候補フラグメントを取得し、すなわち、分子を切断して関連フラグメントの構造ルールを学習し、新たに生成された候補フラグメントを用いて元の分子におけるシャードフラグメントを取り替えることにより分子の修正を実現し、構造条件に基づいて生成可能な候補フラグメントの数が多いため、新たに生成された分子が従来の分子構造と異なる確率を向上させ、それにより分子再構成の成功率を向上させることを含む。
【図面の簡単な説明】
【0013】
図1】本願の1つの例示的な実施例に係る分子構造の再構成方法のフローチャートである。
図2図1に示された実施例に係る骨格分解過程の概略図である。
図3図1に示された実施例に係る骨格分解結果の概略図である。
図4図3に示された実施例に係る骨格分解結果の概略図である。
図5図3に示された実施例に係るシャード分解結果の概略図である。
図6】本願の1つの例示的な実施例に係るモデルトレーニングプロセスの概略図である。
図7】本願の1つの例示的な実施例に係る分子再構成プロセスの概略図である。
図8】本願の別の例示的な実施例に係る分子構造の再構成方法のフローチャートである。
図9】本願の別の例示的な実施例に係る分子構造の再構成方法のフローチャートである。
図10図9に示された実施例に係る分子サイトの接合方式の概略図である。
図11】本願の1つの例示的な実施例に係る分子再構成方法の全体フローチャートである。
図12】本願の1つの例示的な実施例に係る分子構造の再構成装置のブロック構成図である。
図13】本願の別の例示的な実施例に係る分子構造の再構成装置のブロック構成図である。
図14】本願の1つの例示的な実施例に係るコンピュータデバイスの概略構成図である。
【発明を実施するための形態】
【0014】
まず、本願の実施例に係る名詞を簡単に説明する。
【0015】
分子再構成とは、従来の分子構造に基づいて変更することにより、従来の分子構造と異なるが、同じ活性を有する分子構造を生成することを指す。例えば、参照分子は、目標ターゲットを対象とする分子であり、すなわち、参照分子は、目標ターゲットで活性を示し、分子生成は、参照分子に基づいて目標ターゲットで同様の活性を示す他の構造の分子を生成する。薬物の分野を例として、目標ターゲットで活性を示すことは、目標ターゲットで薬物作用を示すことができることを指す。
【0016】
従来技術において、AI分子生成技術は、新たな構造分子を生成する技術であり、AI分子生成技術は、参照分子に基づいて分子再構成の能力及び分子再構成の合法性を結びつける必要があり、主に、ガウス分布に基づく分子の潜在空間をどのように確立するかに着目するため、再構成された分子が目標ターゲットの分子構造と非常に類似し、参照分子の構造ルールから抜けることができない。
【0017】
本願の実施例は、参照分子に対してフラグメント修正を行うAI分子設計方法を提供し、参照分子を分解することにより、修正して取り替える必要があるシャードフラグメント及び対応する側鎖フラグメントを取得し、このように、シャードフラグメントに基づいて新たなフラグメントを生成した後、側鎖フラグメントと、生成された新たなフラグメントとを接合して、再構成された分子構造を取得する。
【0018】
なお、本願の実施例において、シャードフラグメントを取り替えることを例として説明し、いくつかの実施例において、側鎖フラグメントを取り替えるか、又は側鎖フラグメント及びシャードフラグメントを取り替えることにより実現することができ、本願の実施例は、これに限定されない。
【0019】
なお、本願に係る情報(ユーザーデバイス情報、ユーザー個人情報などを含むが、これらに限定されない)、データ(分析に用いられるデータ、記憶されたデータ、表示されたデータなどを含むが、これらに限定されない)及び信号は、いずれもユーザーにより許可されるか又は各当事者により完全に許可され、かつ関連データの収集、使用及び処理は、関連国及び地域の関連法律、法規及び標準を遵守する必要がある。例えば、本願に係る参照分子の取得は、いずれも完全に許可された場合に取得される。
【0020】
まず、本願の実施例に係る分子構造の再構成方法について説明する。図1は、本願の1つの例示的な実施例に係る分子構造の再構成方法のフローチャートであり、該方法がコンピュータデバイス(例えば、端末又はサーバ)によって実行されることを例として説明し、図1に示すように、該方法は、以下のステップ101~ステップ104を含む。
【0021】
ステップ101では、参照分子の構造データを取得し、参照分子は、目標ターゲットで活性を示す分子である。
【0022】
いくつかの実施例において、参照分子は、現在存在した分子構造である。好ましくは、参照分子は、所定の分子ライブラリにおける保護された分子構造であり、或いは、参照分子は、構造が簡略化されるべき分子であり、或いは、参照分子は、薬物動態学的性質が改善されるべき分子である。
【0023】
本実施例において、医療分野を例として説明し、参照分子は、目標ターゲットを対象とする分子であり、すなわち、参照分子は、目標ターゲットで活性を示すことができ、それにより、目標ターゲットで薬物作用を示す。本願の実施例において、参照分子に基づいて構造の再構成を行う必要があり、それにより参照分子とは構造的に異なるが、活性作用が同じであるか又は類似する分子を生成し、すなわち、再構成された分子も目標ターゲットで活性を示す分子である。
【0024】
いくつかの実施例において、参照分子は、ユーザーが分子再構成インタフェースによりアップロードした分子構造であり、ユーザーが分子再構成インタフェースにおいて、参照分子の分子構造を描画することにより、コンピュータデバイスが該参照分子を取得し、或いは、ユーザーが分子再構成インタフェースにおいて、記憶された分子構造を選択することにより、コンピュータデバイスが該参照分子を取得し、或いは、ユーザーが分子再構成インタフェースにおいて、参照分子の化学式を編集し、かつアップロードすることにより、コンピュータデバイスが該参照分子を取得する。コンピュータデバイスは、端末自体であってもよく、端末がアップロードした分子構造を受信するサーバであってもよく、本実施例は、これに限定されない。
【0025】
本願の実施例において、参照分子の構造データは、参照分子の化学式として実現され、或いは、参照分子の構造データは、参照分子のパターン化構造表現として実現され、本実施例は、これに限定されない。
【0026】
ステップ102では、参照分子の構造データを構造分解して、参照分子に対応する分子フラグメント群のデータセットを取得する。
【0027】
分子フラグメント群は、参照分子のシャードフラグメント及びシャードフラグメントに対応する側鎖フラグメントを含む。
【0028】
いくつかの実施例において、参照分子の構造データを構造分解する場合、所定の分解ルールに基づく必要がある。
【0029】
すなわち、まず、所定の分解ルールを取得し、該所定の分解ルールは、骨格の分解ルール及び回転可能な結合の分解ルールのうちの少なくとも1つを含む。所定の分解ルールに基づいて参照分子の構造データを構造分解して、参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得する。1つの分子フラグメント群は、1つのシャードフラグメント及び少なくとも1つの側鎖フラグメントを含み、シャードフラグメントは、上記所定の分解ルールに基づいて分解して得られ、シャードフラグメントを参照分子の構造から削除した後、残りの構造は、削除されたシャードフラグメントに対応する側鎖フラグメントである。
【0030】
所定の分解ルールは、2つの分解ルールのうちの少なくとも1つを含み、すなわち、骨格の分解ルールにより分解してa個の分子フラグメント群を取得し、回転可能な結合の分解ルールにより分解してb個の分子フラグメント群を取得する場合、a個の分子フラグメント群により分子再構成を行うか、又は、b個の分子フラグメント群により分子再構成を行うか、又は、a+b個の分子フラグメント群により分子再構成を行う。ここで、a、bは、いずれも正の整数である。いくつかの実施例において、a+b個の分子フラグメント群により分子再構成を行う場合、分子再構成モデルの汎化性を増加させる。以下、上記2つの所定の分解ルールに対して、それぞれ説明する。
【0031】
一、骨格の分解ルール
すなわち、所定の分解ルールは、骨格の分解ルールを含み、参照分子を構造分解する場合、参照分子の構造データから骨格要件を満たす骨格構造を抽出し、骨格構造を参照分子の構造データから削除して、骨格構造に対応する側鎖構造を取得し、骨格構造をシャードフラグメントとし、側鎖構造を側鎖フラグメントとして、参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得する。
【0032】
骨格の分解ルールに基づいて参照分子を分解する場合、まず、参照分子の構造データから対応する一次骨格を抽出し、かつ一次骨格を取得した上で、異なる環状構造に基づいてより小さな二次骨格構造をさらに分解する。骨格の分解ルールに基づいて分解して得られたシャードフラグメントは、参照分子における一次骨格構造であってもよく、一次骨格構造を分解して得られた二次骨格構造であってもよい。
【0033】
概略的には、図2は、本願の1つの例示的な実施例に係る骨格分解過程の概略図を示し、図2に示すように、参照分子210のパターン化構造に対して、まず、骨格分解を行って一次骨格220を取得し、それにより、一次骨格220に基づいて1回又は複数回分解を行って、より小さい二次骨格構造230を取得する。
【0034】
上記一次骨格220及び各二次骨格230を取得した後、一次骨格220及び二次骨格230から骨格要件を満たす骨格構造を選択して、参照分子を分解するための骨格構造とする。いくつかの実施例において、骨格要件を満たす複数の骨格構造がある場合、そのうちの骨格要件を満たす1つの骨格構造を参照分子から削除した後、参照分子が1つ以における側鎖に粉砕され、削除された骨格構造と、粉砕して得られた側鎖とを1組として1つの分子フラグメント群を取得し、すなわち、1つの分子フラグメント群は、1つの骨格構造及び少なくとも1つの側鎖を含む。
【0035】
骨格要件を満たす各骨格構造に対して上記処理を行った後、少なくとも1つの分子フラグメント群を取得する。いくつかの実施例において、骨格構造が削除された後、取得された側鎖の数が少なくとも2つであれば、該骨格構造及び少なくとも2つの側鎖を1つの分子フラグメント群とする。概略的には、図3に示すように、分子310から二次骨格320を削除した後、側鎖331及び側鎖332を含む2つの側鎖330を取得する。二次骨格320及び2つの側鎖330を分子310に対応する1つの分子フラグメント群とする。
【0036】
いくつかの実施例において、分子フラグメント群のデータセット(「群データ」とも呼ばれる)は、骨格構造及び骨格構造に対応する側鎖フラグメントを含む。他のいくつかの実施例において、分子フラグメント群のデータセットは、参照分子の構造データ及び骨格構造を含んでもよく、分子再構成モデルは、参照分子の構造データ及び骨格構造に基づいて側鎖フラグメントを直接決定することができる。
【0037】
上記骨格要件は、環数要件、重原子数要件及び回転可能な結合要件のうちの少なくとも1つを含み、環数要件を含む骨格要件に応答して、参照分子から、環数が環数要件の範囲内にある骨格構造を抽出し、重原子数要件を含む骨格要件に応答して、参照分子から、重原子数が重原子数要件の範囲内にある骨格構造を抽出し、回転可能な結合要件を含む骨格要件に応答して、参照分子から、回転可能な結合数が要件範囲内にある骨格構造を抽出する。
【0038】
概略的には、骨格要件は、具体的には、以下要件を含む。
【0039】
1、骨格構造における環数は、2以上であり、すなわち、参照分子から分解して得られた骨格構造において、環数が2つ以上必要であることを示し、
2、骨格構造における重原子数は、20より小さく、すなわち、参照分子から分解して得られた骨格構造において、重原子数が20より小さい必要があることを示し、
3、骨格構造における回転可能な結合数は、3より小さく、すなわち、参照分子から分解して得られた骨格構造において、回転可能な結合数が3より小さい必要があることを示す。
【0040】
概略的には、図4は、本願の1つの例示的な実施例に係る骨格分解結果の概略図を示し、図4に示すように、参照分子400を分解した後、少なくとも2つの分解結果を含み、第1の分解結果410において、参照分子400を分解して骨格構造411及び側鎖412を取得し、第2の分解結果420において、参照分子400を分解して骨格構造421及び側鎖422を取得する。骨格構造411及び側鎖412は、1つの分子フラグメント群を構成し、骨格構造421及び側鎖422は、1つの分子フラグメント群を構成する。
【0041】
二、回転可能な結合の分解ルール
すなわち、所定の分解ルールは、回転可能な結合の分解ルールを含み、参照分子の構造データを構造分解する場合、参照分子の構造データを回転可能な結合から切断して、シャード要件を満たすシャードフラグメントを取得し、かつシャードフラグメントに基づいて参照分子に対応する少なくとも1つの分子フラグメント群を取得する。
【0042】
回転可能な結合から参照分子を切断する場合、切断後のシャードは、シャード要件を満たす必要がある。いくつかの実施例において、シャード要件は、シャード基礎要件及びシャード骨格要件のうちの少なくとも1つを含む。回転可能な結合から参照分子を切断する場合、切断された部分は、シャード(fragment)と呼ばれ、各シャードは、いずれも骨格(scaffold)を含む。シャード基礎要件は、シャード全体に対する要件であり、シャード骨格要件は、シャードに含まれる骨格に対する要件である。
【0043】
いくつかの実施例において、シャード基礎要件は、シャード環数要件、シャード原子数要件、シャード回転可能な結合要件及びシャード構造要件のうちの少なくとも1つを含み、シャード骨格要件は、シャード骨格に対する骨格原子数要件及び骨格回転可能な結合要件のうちの少なくとも1つを含む。
【0044】
概略的には、シャード要件は、具体的には、以下要件を含む。
【0045】
1、シャードフラグメントは、1つの環のみを含み、
2、シャードフラグメントにおける非H原子数は、5より大きくかつ30より小さく、すなわち、シャードフラグメントにおける非水素原子の数が5~30の間であることを示し、
3、シャードフラグメント内部の環の大きさは、8より小さく、すなわち、シャードフラグメントにおける環が8より小さい環であることを示し、
4、シャードフラグメントの回転可能な結合数が9より小さく、すなわち、シャードフラグメントにおける回転可能な結合数が9より小さいことを示し、
5、シャードフラグメントにシャード骨格が存在し、すなわち、シャードフラグメントが骨格を含むフラグメントであることを示し、
6、シャード骨格における非H原子数は、20より小さく、すなわち、シャードフラグメントにおける骨格に含まれる非水素原子数が20より小さいことを示し、
7、シャード骨格の回転可能な結合数は、3より小さく、すなわち、シャードフラグメントにおける骨格に含まれる回転可能な結合数が3より小さいことを示し、
8、シャードフラグメントの非H原子数とシャード骨格の非H原子数との差は、10より小さく、
9、シャードフラグメントは、1つの単環構造のみを含んではいけない。
【0046】
概略的には、図5は、本願の1つの例示的な実施例に係るシャード分解結果の概略図を示し、図5に示すように、参照分子500のパターン化構造を分解した後、少なくとも4つの分解結果を含み、第1の分解結果において、参照分子500を分解してシャードフラグメント511を取得し、第2の分解結果において、参照分子500を分解してシャードフラグメント521を取得し、第3の分解結果において、参照分子500を分解してシャードフラグメント531を取得し、第4の分解結果において、参照分子500を分解してシャードフラグメント541を取得する。各分解方式におけるシャードフラグメントを参照分子から削除した後、側鎖フラグメントを取得する。各分解方式は、1つの分子フラグメント群に対応する。
【0047】
ステップ103では、分子フラグメント群のデータセットに対して特徴分析を行って、シャードフラグメントを取り替えるための候補フラグメントを取得する。
【0048】
いくつかの実施例において、分子フラグメント群のデータセットを分子再構成モデルに入力し、分子再構成モデルにより分子フラグメント群のデータセットに特徴分析を行い、かつシャードフラグメントを取り替えるための候補フラグメントを取得する。好ましくは、1つの参照分子に対して少なくとも1つの分子フラグメント群が存在すれば、少なくとも1つの分子フラグメント群のデータセットを分子再構成モデルに順次入力し、分子再構成モデルにより少なくとも1つの分子フラグメント群における各分子フラグメント群を順次分析し、各分子フラグメント群に対応する複数の候補フラグメントを取得する。
【0049】
いくつかの実施例において、側鎖フラグメントに基づいて分子フラグメント群のデータセットをエンコードして、フラグメント特徴を生成し、フラグメント特徴をデコードして、シャードフラグメントを取り替えるための候補フラグメントを生成する。
【0050】
分子再構成モデルは、コーデックアーキテクチャにおけるエンコーダ及びデコーダを含み、まず、側鎖フラグメントに基づいて、エンコーダによりシャードフラグメントをエンコードして、フラグメント特徴を取得し、所定の摂動ルールによりフラグメント特徴に摂動を与えて、摂動特徴を取得し、デコーダにより摂動特徴をデコードして、シャードフラグメントを取り替えるための候補フラグメントを生成する。摂動を与える過程は、生成された候補フラグメントの多様性を増加させる過程である。すなわち、摂動を与えることにより、候補フラグメントが初期のシャードフラグメントに基づいて変更し、このように、初期のシャードフラグメントに対応する特徴空間の近傍に候補フラグメントを決定し、それにより候補フラグメントの多様性を向上させる。
【0051】
エンコードしてフラグメント特徴を取得する過程において、側鎖フラグメントを特徴空間にマッピングして、側鎖空間特徴を取得し、側鎖空間特徴を構造条件としてエンコーダによりシャードフラグメントをエンコードして、フラグメント特徴を取得する。いくつかの実施例において、エンコーダによりシャードフラグメントをエンコードした後、まず、エンコード特徴を取得し、側鎖空間特徴を構造条件とし、エンコード特徴を特徴空間にマッピングしてフラグメント特徴を取得する。
【0052】
エンコーダ、デコーダ及び特徴空間は、事前にトレーニングして得られるものであり、すなわち、シャードフラグメント及び側鎖フラグメントの特徴空間でのマッピング過程は、事前にトレーニングされた分子再構成モデルに基づいて実現される。特徴空間は、ガウス分布条件を満たすガウス空間として実現される。分子再構成モデルのトレーニングと適用は、後の実施例において具体的に説明する。
【0053】
ステップ104では、候補フラグメント及び側鎖フラグメントに基づいて、再構成分子の構造データを生成する。
【0054】
いくつかの実施例において、候補フラグメントにおける水素サイトと側鎖フラグメントとを接合して、再構成分子の構造データを取得する。再構成分子は、目標ターゲットで活性を示す。すなわち、再構成分子と参照分子は、同一の目標ターゲットで活性を示す。
【0055】
候補フラグメントと側鎖フラグメントとを接合した後、得られた再構成分子に対して分子構造スクリーニングをさらに行う必要があり、スクリーニングプロセスは、事前に設定される。
【0056】
なお、本実施例に係る候補フラグメント、側鎖フラグメント、シャードフラグメント、及び候補分子などは、候補フラグメントの構造データ、側鎖フラグメントの構造データ、シャードフラグメントの構造データ、及び候補分子の構造データを指す。
【0057】
以上より、本願の実施例に係る分子構造の再構成方法は、参照分子の構造データを構造分解して、シャードフラグメント及び側鎖フラグメントを取得し、それにより側鎖フラグメントを構造条件として、シャードフラグメントを取り替えるための新たな分子フラグメント構造を予測して、候補フラグメントを取得し、すなわち、分子を切断して関連フラグメントの構造ルールを学習し、新たに生成された候補フラグメントを用いて元の分子におけるシャードフラグメントを取り替えることにより分子の修正を実現し、構造条件に基づいて生成可能な候補フラグメントの数が多いため、新たに生成された分子が従来の分子構造と異なる確率を向上させ、それにより分子再構成の成功率を向上させる。
【0058】
上記ステップ103における分子再構成モデルに対して、分子再構成モデルのトレーニングプロセス及び適用プロセスをそれぞれ説明する。モデルトレーニングプロセスにおけるサンプル分子であっても、実際の再構成における参照分子であっても、分子構造を分解することにより、分子構造をシャードフラグメント及び側鎖フラグメントに分解する必要がある。トレーニングプロセス及び適用プロセスにおけるモデル処理プロセスについて、それぞれ以下に説明する。
【0059】
(一)トレーニングプロセス
トレーニングプロセスは、事前トレーニングプロセス及び微調整プロセスを含む。
【0060】
事前トレーニングプロセスは、主に、公共データベース内の分子構造を学習することにより、モデルが分子のベクトル表現を学習できることである。すなわち、事前トレーニングプロセスは、分子をベクトル特徴に変換することをモデルが学習するプロセスである。
【0061】
いくつかの実施例において、候補フラグメントは、分子再構成モデルにより予測して得られる。
【0062】
概略的には、図6は、本願の1つの例示的な実施例に係るモデルトレーニングプロセスの概略図を示し、1つのサンプル分子を分解して得られた1つの分子フラグメント群を例として説明し、図6に示すように、サンプル分子の構造データを分解してシャードフラグメント601及び側鎖フラグメント602を取得し、分子再構成モデル610は、エンコーダ611及びデコーダ612を含み、エンコーダ611によりシャードフラグメント601及び側鎖フラグメント602をエンコードして、シャードフラグメント601に対応する第1のフラグメントベクトル621及び側鎖フラグメント602に対応する第2のフラグメントベクトル622を取得し、第1のフラグメントベクトル621及び第2のフラグメントベクトル622をデコーダ612によりデコードした後、シャードフラグメント601及び側鎖フラグメント602を復元することを目標としてコーデックをトレーニングする。
【0063】
本願の実施例に係る分子再構成モデルは、条件付き変分オートエンコーダ(Conditional Variational Autoencoders、CVAE)に基づいて改善される。従来技術において、CVAEのトレーニング条件パラメータは、量子化されたベクトルであり、本願の実施例において、分子をシャードと側鎖に分解し、次に側鎖を1つの構造条件としてモデルに入力する。具体的には、側鎖構造を埋め込み(embedding)空間にマッピングした後、マッピングされた構造embeddingを条件として入力する。具体的な最適化条件は、以下の式1を参照する。
【数1】
【0064】
但し、f(・)は、本願の実施例における簡単化した分子式の線形表記法(Simplified Molecular Input Line Entry System、SMILES)エンコーダを示し、いくつかの実施例において、SMILESエンコーダとCVAEエンコーダは、初期時にパラメータを共有する。f(・)により、側鎖yをembedding空間にマッピングし、かつシャードxとSMILESデコード計算を行う。相対エントロピー(Kullback Leibler、KL)は、ダイバージェンス計算を示す。θ及びΘは、モデルパラメータであり、すなわち、トレーニングプロセスにおいて最適化対象のパラメータである。pθ(x|f(y))は、f(y)を条件としての条件付き確率分布を示し、
【数2】
は、qΘガウス分布とpθガウス分布との間の離散度を示し、zは、特徴がマッピングされた特徴空間を示し、qΘガウス分布とpθガウス分布を近づけることにより、モデルパラメータのトレーニングを実現する。
【0065】
サンプル分子の構造データを分子再構成モデル610に入力した後、出力された分子フラグメントとサンプル分子のシャードフラグメントとの間のダイバージェンスに基づいてモデルパラメータをトレーニングすることにより、分子再構成モデル610が分子構造から抽出したベクトル表現である上記第1のフラグメントベクトル621及び第2のフラグメントベクトル622を最適化し、すなわち、エンコーダを最適化し、また、ベクトル表現から分子フラグメントに変換するプロセスを最適化し、すなわち、デコーダを最適化する。
【0066】
なお、上記事前トレーニングプロセスに適用するサンプル分子は、ターゲット制限のない分子であるか、又は、上記事前トレーニングプロセスに適用するサンプル分子は、ターゲット情報が付与されていない分子である。
【0067】
微調整プロセスにおいて、目標ターゲットに基づいて意図的なトレーニングを行い、すなわち、目標ターゲットで活性を示す分子を入力して分解し、かつモデルをさらにトレーニングすることにより、分子再構成モデル610が再構成した分子は、目標ターゲットで活性を示す分子と類似する分子になる傾向がある。微調整プロセスにおけるモデルパラメータに対する調整方式は、事前トレーニングプロセスにおけるモデルパラメータに対する調整方式と同じであるが、データセットが公共データベースから目標ターゲットで活性を示す分子データセットに切り替えられる点で相違する。
【0068】
(二)適用プロセス
概略的には、図7は、本願に係る分子再構成プロセスの概略図を示し、図7に示すように、まず、参照分子700の構造データをトレーニングされた分子再構成モデル710に入力し、参照分子700は、シャードフラグメント721及び側鎖フラグメント722を含み、分子再構成モデル710に入力する前に参照分子700の構造データを分解し、或いは、分子再構成モデル710により参照分子700を分解して、エンコーダ711により参照分子700におけるシャードフラグメント721をエンコードして、シャードフラグメント721に対応するフラグメントベクトル730を取得し、かつデコーダ712によりフラグメントベクトル730をデコードして、シャードフラグメント721を取り替えるための候補フラグメント740を取得する。エンコーダ711が参照分子700をエンコードする過程において、側鎖フラグメント722を構造条件としてシャードフラグメント721の特徴マッピングを制約することにより、フラグメントベクトル730を取得し、また、フラグメント構造における変化を行うために、所定の摂動ルールによりフラグメントベクトル730に摂動を与える必要があり、フラグメントベクトル730に対してガウス空間の近傍で摂動されたベクトルを決定し、概略的には、フラグメントベクトル730の特徴値は、所定の摂動範囲内で調整される。側鎖フラグメント722と候補フラグメント740とを接合した後、再構成分子750の構造データを取得する。
【0069】
いくつかの実施例において、適用プロセスは、候補フラグメント740のスクリーニングプロセス、及び再構成分子750のスクリーニングプロセスをさらに含み、後続の実施例において説明する。
【0070】
なお、上記分子再構成モデルは、さらに、自然言語処理ベースのモデル、又はグラフ構造ベースのモデルなどとして実現可能であり、本願の実施例は、モデルの具体的な実現方式を限定しない。
【0071】
なお、いくつかの実施例において、上記フラグメントベクトルに与えられた摂動は、適用プロセスにおいて実行され、分子再構成モデルに対するトレーニングプロセスにおいて、フラグメントベクトルに対して摂動を与えない。
【0072】
いくつかの実施例において、分子再構成モデルは、予測して候補フラグメントを取得した後、さらに候補フラグメントをスクリーニングする必要がある。図8は、本願の別の例示的な実施例に係る分子構造の再構成方法のフローチャートであり、該方法がコンピュータデバイスによって実行されることを例として説明し、図8に示すように、該方法は、ステップ801~ステップ805を含む。
【0073】
ステップ801では、参照分子の構造データを取得し、参照分子は、目標ターゲットで活性を示す分子である。
【0074】
本実施例において、医療分野を例として説明し、参照分子は、目標ターゲットを対象とする分子であり、すなわち、参照分子は、目標ターゲットで活性を示すことができ、それにより、目標ターゲットで薬物作用を示す。
【0075】
ステップ802では、参照分子の構造データを構造分解して、参照分子に対応する分子フラグメント群のデータセットを取得する。
【0076】
いくつかの実施例において、参照分子を構造分解する場合、所定の分解ルールに基づく必要がある。
【0077】
すなわち、まず、所定の分解ルールを取得し、該所定の分解ルールは、骨格の分解ルール及び回転可能な結合の分解ルールのうちの少なくとも1つを含む。所定の分解ルールに対応する分解方式は、上記ステップ102において既に詳細に説明され、ここでは説明を省略する。
【0078】
ステップ803では、分子フラグメント群のデータセットに対して特徴分析を行って、シャードフラグメントを取り替えるための候補フラグメントを取得する。
【0079】
分子フラグメント群のデータセットを分子再構成モデルに入力した後、分子再構成モデルにおけるエンコーダにより、側鎖フラグメントをエンコードした後の特徴を構造条件として、分子フラグメント群におけるシャードフラグメントをエンコードして、エンコードベクトルを取得し、かつエンコードベクトルに摂動を与えた後、分子再構成モデルにおけるデコーダによりエンコードベクトルをデコードして、シャードフラグメントを取り替えるための候補フラグメントを取得する。
【0080】
ステップ804では、所定のスクリーニングルールに基づいて、候補フラグメントをスクリーニングする。
【0081】
いくつかの実施例において、所定のスクリーニングルールは、合法性スクリーニングルール、唯一性スクリーニングルール、重原子数スクリーニングルール、環スクリーニングルールのうちの少なくとも1つを含む。
【0082】
合法性スクリーニングルールとは、SMILES合法性を満たす候補フラグメントを保留し、SMILES合法性を満たさない候補フラグメントを削除することを指す。SMILES仕様は、米国情報交換標準コード(American Standard Code for Information Interchange、ASCII)文字列で分子構造を明確に説明する仕様であり、すなわち、生成された候補フラグメントは、SMILES仕様を満たす必要がある。いくつかの実施例において、SMILES仕様は、分子構造の文法ルールを規定し、概略的には、4価の窒素(N)サイトに5つの結合が接合された場合、SMILES仕様を満たさない。
【0083】
唯一性スクリーニングルールとは、複数の候補フラグメントのうちの重複フラグメントを削除し、各候補フラグメントと他の候補フラグメントとの間に重複がないことを確保することを指す。いくつかの実施例において、1つの分子フラグメント群に基づいて1つ又は複数の候補フラグメントを取得することができるため、1つの分子フラグメント群に基づいて複数の候補フラグメントを取得する場合、唯一性スクリーニングルールは、1つの分子フラグメント群に基づいて予測して得られた候補フラグメントに対して実行するか、又は全ての分子フラグメント群に基づいて予測して得られた候補フラグメントに対して実行する。
【0084】
重原子数スクリーニングルールとは、再構成する必要がある分子に基づいて、重原子数の範囲を選択することにより、生成された候補フラグメントをスクリーニングすることを指す。一般的には、重原子数範囲は、参照分子自身が有する重原子数に基づいて決定され、概略的には、参照分子は、12個の重原子数を含み、いくつかの実施例において、再構成する必要がある分子の重原子数の範囲を9~15個に決定し、重原子数範囲の要件に基づいて候補フラグメントをスクリーニングし、重原子数が重原子数範囲を満たさない候補フラグメントをフィルタリングして削除する。
【0085】
いくつかの実施例において、さらに、環スクリーニングルールにより候補フラグメントをスクリーニングする必要がある。概略的には、上記スクリーニングが終了した後、生成されたフラグメントセットにおける候補フラグメントを選択的にスクリーニングし、当該スクリーニングは、環(ring)又は芳香環(aromatic ring)を含むフラグメントのみを保留することを含む。好ましくは、環スクリーニングルールは、ring数に対する要件、又はaromatic ring数に対する要件などをさらに含む。
【0086】
ステップ805では、スクリーニング後に得られた残存フラグメント及び側鎖フラグメントに基づいて、再構成分子の構造データを生成する。
【0087】
再構成分子は、新たに生成された、目標ターゲットで活性を示す分子である。いくつかの実施例において、構造が類似する分子が同一のターゲットで活性を示す確率が大きいため、残存フラグメントとシャードフラグメントとのフラグメント類似度を取得する必要があり、類似度が最も高いq個(qは、正の整数である)の残存フラグメントを保留し、側鎖フラグメントと共に再構成分子を生成する。
【0088】
フラグメント類似度とは、残存フラグメントとシャードフラグメントとの3次元(3-Dimension、3D)構造における類似度を指す。すなわち、生成された候補フラグメントを取得し、かつスクリーニングして大量の残存フラグメントを取得した後、残存フラグメントと、参照分子における修正の必要な部分(すなわち、シャードフラグメント部分)とができるだけ類似することを確保する必要があり、このように、分子は、活性を保持する。いくつかの実施例において、化学情報ソフトウェアパッケージRDKitツール又は他の3D類似度計算ツールを用いて、候補フラグメント(又は、スクリーニングした後に得られた残存フラグメント)と参照フラグメント(すなわち、参照分子におけるシャードフラグメント)との3D類似度を計算し、かつ類似度が最も高いq個を抽出して、さらなる接合を行って、最終的に再構成分子を取得する。
【0089】
以上より、本願の実施例に係る分子構造の再構成方法は、参照分子を構造分解して、シャードフラグメント及び側鎖フラグメントを取得し、それにより側鎖フラグメントを構造条件として、シャードフラグメントを取り替えるための新たな分子フラグメント構造を予測して、候補フラグメントを取得し、すなわち、分子を切断して関連フラグメントの構造ルールを学習し、新たに生成された候補フラグメントを用いて元の分子におけるシャードフラグメントを取り替えることにより分子の修正を実現し、構造条件に基づいて生成可能な候補フラグメントの数が多いため、新たに生成された分子が従来の分子構造と異なる確率を向上させ、それにより分子再構成の成功率を向上させる。
【0090】
本実施例に係る方法は、候補フラグメントをスクリーニングして、非合法又は重複のフラグメントをフィルタリングして削除し、また、重原子範囲要件に基づいて、重原子数要件を満たさないフラグメントをフィルタリングして削除することにより、幾度もスクリーニングして候補フラグメントにおける基礎要件を満たすフラグメントを保留し、要件を満たさないフラグメントを削除し、このように、後続に生成された再構成分子の数が大きすぎるため、非合法のフラグメントを有する分子があることによりフィルタリングできないことによる分子再構成効率が低いという問題を回避する。
【0091】
本実施例に係る方法は、候補フラグメントとシャードフラグメントに対して3D類似度の計算を行うことにより、保留された候補フラグメントと、参照分子における修正の必要なシャードフラグメントとが3D構造においてできるだけ類似することを確保し、このように、活性を保持しやすい。
【0092】
いくつかの実施例において、候補フラグメント及び側鎖フラグメントに基づいて、再構成分子を生成する場合、さらに分子スクリーニングを行う必要がある。図9は、本願の別の例示的な実施例に係る分子構造の再構成方法のフローチャートであり、該方法がコンピュータデバイスによって実行されることを例として説明し、図9に示すように、該方法は、ステップ901~ステップ905を含む。
【0093】
ステップ901では、参照分子の構造データを取得し、参照分子は、目標ターゲットで活性を示す分子である。
【0094】
本実施例において、医療分野を例として説明し、参照分子は、目標ターゲットを対象とする分子であり、すなわち、参照分子は、目標ターゲットで活性を示すことができ、それにより、目標ターゲットで薬物作用を示す。
【0095】
ステップ902では、参照分子の構造データを構造分解して、参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得する。
【0096】
いくつかの実施例において、参照分子を構造分解する場合、所定の分解ルールに基づく必要がある。
【0097】
すなわち、まず、所定の分解ルールを取得し、該所定の分解ルールは、骨格の分解ルール及び回転可能な結合の分解ルールのうちの少なくとも1つを含む。所定の分解ルールに対応する分解方式は、上記ステップ302において既に詳細に説明され、ここでは説明を省略する。
【0098】
ステップ903では、分子フラグメント群のデータセットに対して特徴分析を行って、シャードフラグメントを取り替えるための候補フラグメントを取得する。
【0099】
分子フラグメント群を分子再構成モデルに入力した後、分子再構成モデルにおけるエンコーダにより、側鎖フラグメントを構造条件として、分子フラグメント群におけるシャードフラグメントをエンコードして、エンコードベクトルを取得し、分子再構成モデルにおけるデコーダにより、側鎖フラグメントを構造条件としてエンコードベクトルをデコードして、シャードフラグメントを取り替えるための候補フラグメントを取得する。
【0100】
なお、本実施例において、候補フラグメントを例として説明したが、いくつかの実施例において、候補フラグメントは、図8に示された実施例に係る技術的手段と組み合わせて、スクリーニングした後に得られた残存フラグメントとして実現することもでき、すなわち、まず、候補フラグメントをスクリーニングし、その後、残存フラグメントと後続の側鎖フラグメントとを接合し、本願の実施例は、これに限定されない。
【0101】
ステップ904では、候補フラグメントと側鎖フラグメントとを接合して、n個(nは、正の整数である)の候補分子を取得する。
【0102】
いくつかの実施例において、参照分子における修正の必要な部分(例えば、元の骨格)を削除した後、骨格に接続された元の部分と候補フラグメントにおける任意のHサイトを接合し、また、そのSMILES合法性を保証することにより、新たな分子である上記n個の候補分子を生成する。
【0103】
概略的には、図10は、本願の1つの例示的な実施例に係る分子サイトの接合方式の概略図を示し、図10に示すように、参照分子1000を分解してシャードフラグメント1010及び側鎖フラグメント1020を取得し、分子再構成モデルにより候補フラグメント1030を生成した後、候補フラグメント1030と側鎖フラグメント1020とを接合して、接合結果1040を取得し、側鎖フラグメント1020と候補フラグメント1030における異なる接合可能な水素結合との接合結果を含む。
【0104】
ステップ905では、所定の分子ライブラリ内の分子構造データに基づいて、n個の候補分子をスクリーニングして、再構成分子の構造データを取得する。
【0105】
再構成分子は、新たに生成された、目標ターゲットで活性を示す分子である。
【0106】
いくつかの実施例において、所定の分子ライブラリ内の分子構造データに基づいて、n個の候補分子をスクリーニングして、所定の分子ライブラリ内に含まれないm個(0≦m≦n)の候補分子を取得し、それによりm個の候補分子から再構成分子の構造データを決定する。
【0107】
いくつかの実施例において、所定の分子ライブラリにおける既存の分子を回避することを目標として、接合された候補分子をスクリーニングし、所定の分子ライブラリに含まれる分子を削除し、好ましくは、該所定の分子ライブラリは、特許ライブラリ又は特許骨格セットを含み、いくつかの実施例において、所定の分子ライブラリは、さらに目標ターゲットに対して設定された分子ライブラリであってもよく、本願の実施例は、スクリーニング方式を限定しない。
【0108】
いくつかの実施例において、候補分子に対するスクリーニングプロセスは、コンピュータデバイスにより実現されたドラッガブル特性のスクリーニングプロセスをさらに含む。すなわち、生成された候補分子に対してドラッガブル特性のスクリーニングを行い、概略的には、具体的なスクリーニングプロセスは、以下のプロセス1~2を含む。1、ミニカプセルフィルター(Mini Capsule Filter、MCF)によるスクリーニングを行い、主に、活性基又は毒性基を含有する候補分子を削除し、2、候補分子の物理化学的性質のスクリーニングを行い、例えば、候補分子は、分子重量(Molecular Weight、MW)≦550、水溶性が区間[-5,6]内にあり、分子のトポロジカル極性表面積≦120、回転可能な結合数<10、水素結合受容体の数が区間[0,10]内にあり、水素結合供与体の数が区間[0,5]内にあるなどの条件を満たす必要がある。
【0109】
いくつかの実施例において、m個の候補分子から再構成分子を決定する場合、m個の候補分子の、参照分子にそれぞれ対応するm個の分子類似度を取得し、i番目(iは、正の整数である)の候補分子は、i番目の分子類似度に対応し、分子類似度が最も高いk個(0<k<m)の候補分子から再構成分子を決定する。
【0110】
すなわち、フィルタリングされた候補分子を取得した後、活性を示す分子をスクリーニングする確率をより高くするために、候補分子と、参照分子とができるだけ類似することを要求し、このように、活性を保持しやすい。したがって、RDKitツール又は他の3D類似度計算ツールを用いて、候補分子と参照分子との3D類似度を計算し、かつ類似度が最も高いk個の候補分子を抽出して、後続の再構成分子の生成フローを行う。
【0111】
いくつかの実施例において、候補分子に対するスクリーニングは、さらに、タンパク質ポケット情報を利用して、生成された候補分子の主な作用力を抽出し、参照分子の作用力を含まない分子をスクリーニングして削除し、次に、分子活性予測モデルを利用して、タンパク質ポケット情報及び生成された候補分子を入力し、PIC50活性数値を出力し、候補分子をソートすることにより、スクリーニングの目的を達成する。
【0112】
以上より、本願の実施例に係る分子構造の再構成方法は、参照分子を構造分解して、シャードフラグメント及び側鎖フラグメントを取得し、それにより側鎖フラグメントを構造条件として、シャードフラグメントを取り替えるための新たな分子フラグメント構造を予測して、候補フラグメントを取得し、すなわち、環構造に応じて分子を切断して関連フラグメントの構造ルールを学習し、新たに生成された候補フラグメントを用いて元の分子におけるシャードフラグメントを取り替えることにより分子の修正を実現し、生成された分子が従来の分子構造の構造ルールから抜ける確率が大きく、それにより分子再構成の成功率を向上させる。
【0113】
本実施例に係る方法は、候補分子を生成した後、複数のスクリーニングメカニズムにより候補分子をスクリーニングして、スクリーニングした後に得られた候補分子から再構成分子を決定し、このように、大量の候補分子から再構成分子を決定することによる、人工スクリーニングプロセスが煩雑であるという問題を回避する。
【0114】
概略的には、図11は、本願の1つの例示的な実施例に係る分子再構成方法の全体フローチャートであり、図11に示すように、該プロセスは、以下のステップ1101~ステップ1112を含む。
【0115】
ステップ1101では、事前トレーニングプロセスを行う。
【0116】
事前トレーニングプロセスとは、構造条件付き変分オートエンコーダモデルに公共データベース内の分子を学習させることにより、モデルが分子のベクトル表現をよりよく学習できることを指す。公共データベースは、SMILES形式で薬らしい分子を記録する。
【0117】
事前トレーニングプロセスにおいて、2つの分解方法のうちの少なくとも1つにより、サンプル分子を分解して骨格及び側鎖対を取得する。分解された骨格及び側鎖対をトレーニングデータとして構造条件付き変分オートエンコーダモデルに入力することにより、モデル事前トレーニングのタスクを完了する。
【0118】
ステップ1102では、微調整プロセスを行う。
【0119】
微調整プロセスにおいて、目標ターゲットで活性を示すサンプル分子を入力して分解し、かつモデルをさらにトレーニングし(トレーニング方式が事前トレーニングプロセスと同じであるが、入力データセットが公共データベースから目標ターゲットで活性を示す分子データセットに切り替えられる)、これにより、生成された分子が目標ターゲットで活性を示す分子と類似する分子になる傾向がある。
【0120】
微調整プロセスが終了した後、トレーニングにより得られたモデルは、参照分子に対してフラグメント予測を行うことにより、候補フラグメントを取得することができる。
【0121】
ステップ1103では、フラグメントサイズのスクリーニングプロセスを行う。
【0122】
好ましくは、生成された候補フラグメントセットに対してSMILES合法化及び唯一化処理を行い、非合法及び重複のフラグメントを削除し、次に選択された重原子範囲に基づいて、生成された候補フラグメントをスクリーニングし、重原子範囲以外の候補フラグメントを削除する。
【0123】
ステップ1104では、分子環数、構造特性のスクリーニングプロセスを行う。
【0124】
分子の環数又は芳香環数に基づいて、候補分子をスクリーニングし、或いは、分子構造の性質に基づいて、候補分子をスクリーニングする。
【0125】
なお、上記ステップ1103及びステップ1104は、2つの並列ステップであり、ステップ1103を先に実行してもよく、ステップ1104を先に実行してもよく、さらにステップ1103及びステップ1104を同時に実行してもよい。
【0126】
ステップ1105では、フラグメント3D類似度の計算プロセスを行う。
【0127】
大量の候補フラグメントを取得した後、候補フラグメントと、参照分子における修正の必要な部分とができるだけ類似することを要求し、このように、活性を保持しやすい。したがって、RDKitを用いて、生成されたフラグメントと参照フラグメントの3D類似度を計算し、かつq個の類似度が最も高い候補フラグメントを抽出して、さらなる接合を行う。
【0128】
ステップ1106では、分子フラグメントの接合プロセスを行う。
【0129】
参照分子における修正の必要な部分(元の骨格)を削除した後、元の骨格に接続された元の部分と候補フラグメントにおける任意のHサイトを接合し、また、そのSMILES合法性を保証することにより、新たな分子を生成する。
【0130】
ステップ1107では、所定の分子ライブラリによるフィルタリングプロセスを行う。
【0131】
接合された候補分子に対して、所定の分子ライブラリを回避するスクリーニングを行い、所定の分子ライブラリに含まれる分子を削除する。
【0132】
ステップ1108では、ドラッガブル特性パラメータのスクリーニングプロセスを行う。
【0133】
生成された候補分子に対してドラッガブル特性のスクリーニングを行い、概略的には、具体的なスクリーニング詳細は、以下のプロセス1~2を含む。1、ミニカプセルフィルター(Mini Capsule Filter、MCF)によるスクリーニングを行い、主に、活性基又は毒性基を含有する候補分子を削除し、2、候補分子の物理化学的性質のスクリーニングを行い、例えば、候補分子は、分子重量MW≦550、水溶性が区間[-5,6]内にあり、分子のトポロジカル極性表面積≦120、回転可能な結合数<11、水素結合受容体の数が区間[0,11]内にあり、水素結合供与体の数が区間[0,5]内にあるなどの条件を満たす必要がある。
【0134】
なお、上記ステップ1107及びステップ1108は、2つの並列ステップである。
【0135】
ステップ1109では、分子3D類似度の計算プロセスを行う。
【0136】
フィルタリングされた候補分子を取得した後、活性を示す分子をスクリーニングする確率をより高くするために、候補分子と、参照分子とができるだけ類似することを要求し、このように、活性を保持しやすい。RDKitツール又は他の3D類似度計算ツールを用いて、候補分子と参照分子との3D類似度を計算し、かつtop k個の候補分子を抽出して、後続の再構成分子の生成フローを行う。
【0137】
ステップ1110では、主な作用力のスクリーニング及びバーチャルスクリーニングプロセスを行う。
【0138】
候補分子に対するスクリーニングは、さらに、タンパク質ポケット情報を利用して、生成された候補分子の主な作用力を抽出し、参照分子の作用力を含まない分子をスクリーニングして削除し、次に、分子活性予測モデルを利用して、タンパク質ポケット情報及び生成された候補分子を入力し、PIC50活性数値を出力し、候補分子をソートすることにより、スクリーニングの目的を達成する。
【0139】
ステップ1111では、仮想検査プロセスを行う。
【0140】
いくつかの実施例において、幾度もスクリーニングして残された候補分子に対して手動スクリーニングを行う。
【0141】
ステップ1112では、再構成された好ましい分子を取得する。
【0142】
一般的に、候補分子から数十個の候補分子をスクリーニングして、好ましい分子とする。
【0143】
以上より、本願の実施例に係る分子構造の再構成方法は、参照分子を構造分解して、シャードフラグメント及び側鎖フラグメントを取得し、それにより側鎖フラグメントを構造条件として、シャードフラグメントを取り替えるための新たな分子フラグメント構造を予測して、候補フラグメントを取得し、すなわち、分子を切断して関連フラグメントの構造ルールを学習し、新たに生成された候補フラグメントを用いて元の分子におけるシャードフラグメントを取り替えることにより分子の修正を実現し、構造条件に基づいて生成可能な候補フラグメントの数が多いため、新たに生成された分子が従来の分子構造と異なる確率を向上させ、それにより分子再構成の成功率を向上させる。
【0144】
図12は、本願の1つの例示的な実施例に係る分子構造の再構成装置の概略構成図であり、図12に示すように、該装置は、
参照分子の構造データを取得する取得モジュール1210であって、上記参照分子は、目標ターゲットで活性を示す分子である取得モジュール1210と、
上記参照分子の構造データを構造分解して、上記参照分子に対応する分子フラグメント群のデータセットを取得する分解モジュール1220であって、上記分子フラグメント群は、上記参照分子のシャードフラグメント及び上記シャードフラグメントに対応する側鎖フラグメントを含む分解モジュール1220と、
上記分子フラグメント群のデータセットに対して特徴分析を行って、上記シャードフラグメントを取り替えるための候補フラグメントを取得する生成モジュール1230と、を含み、
上記生成モジュール1230は、さらに、上記候補フラグメント及び上記側鎖フラグメントに基づいて、再構成分子の構造データを生成し、上記再構成分子は、上記目標ターゲットで活性を示す。
【0145】
1つの好ましい実施例において、上記取得モジュール1210は、さらに、所定の分解ルールを取得し、上記所定の分解ルールは、骨格の分解ルール及び回転可能な結合の分解ルールのうちの少なくとも1つを含み、
上記分解モジュール1220は、さらに、所定の分解ルールに基づいて、上記参照分子の構造データを構造分解して、上記参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得する。
【0146】
1つの好ましい実施例において、上記所定の分解ルールは、上記骨格の分解ルールを含み、
上記分解モジュール1220は、さらに、上記参照分子の構造データから骨格要件を満たす骨格構造を抽出し、上記骨格構造を上記参照分子の構造データから削除して、上記骨格構造に対応する側鎖構造を取得し、上記骨格構造を上記シャードフラグメントとし、上記側鎖構造を上記側鎖フラグメントとして、上記参照分子に対応する上記少なくとも1つの分子フラグメント群のデータセットを取得する。
【0147】
1つの好ましい実施例において、上記分解モジュール1220は、さらに、上記参照分子の構造データから一次骨格構造を抽出し、上記一次骨格構造は、上記参照分子における最大骨格構造であり、上記一次骨格構造から二次骨格構造を抽出し、上記一次骨格構造及び上記二次骨格構造から上記骨格要件を満たす上記骨格構造を決定する。
【0148】
1つの好ましい実施例において、上記骨格要件は、環数要件、重原子数要件及び回転可能な結合要件のうちの少なくとも1つを含み、
上記分解モジュール1220は、さらに、上記環数要件を含む上記骨格要件に応答して、上記参照分子の構造データから、環数が環数要件の範囲内にある上記骨格構造を抽出し、
上記分解モジュール1220は、さらに、上記重原子数要件を含む上記骨格要件に応答して、上記参照分子の構造データから、重原子数が重原子数要件の範囲内にある上記骨格構造を抽出し、
上記分解モジュール1220は、さらに、上記回転可能な結合要件を含む上記骨格要件に応答して、上記参照分子の構造データから、回転可能な結合数が回転可能な結合数要件の範囲内にある上記骨格構造を抽出する。
【0149】
1つの好ましい実施例において、上記所定の分解ルールは、上記回転可能な結合の分解ルールを含み、
上記分解モジュール1220は、さらに、上記参照分子の構造データを上記回転可能な結合から切断して、シャード要件を満たす上記シャードフラグメントを取得し、上記シャードフラグメントを上記参照分子から削除して、上記側鎖フラグメントを取得し、上記シャードフラグメント及び上記側鎖フラグメントに基づいて、上記参照分子に対応する少なくとも1つの分子フラグメント群のデータセットを取得する。
【0150】
1つの好ましい実施例において、各シャードフラグメントは、シャード骨格を含み、上記シャード要件は、シャード基礎要件及びシャード骨格要件のうちの少なくとも1つを含み、
上記シャード基礎要件は、シャード環数要件、シャード原子数要件、シャード回転可能な結合要件及びシャード構造要件のうちの少なくとも1つを含み、
上記シャード骨格要件は、上記シャード骨格に対する骨格原子数要件及び骨格回転可能な結合要件のうちの少なくとも1つを含む。
【0151】
1つの好ましい実施例において、図13に示すように、上記生成モジュール1230は、
所定のスクリーニングルールに基づいて、上記候補フラグメントをスクリーニングするスクリーニングユニット1231であって、上記所定のスクリーニングルールは、合法性スクリーニングルール、唯一性スクリーニングルール、重原子数スクリーニングルール、環スクリーニングルールのうちの少なくとも1つを含むスクリーニングユニット1231と、
スクリーニング後に得られた残存フラグメント及び上記側鎖フラグメントに基づいて、上記再構成分子の構造データを生成する生成ユニット1232と、を含む。
【0152】
1つの好ましい実施例において、上記取得モジュール1210は、さらに、上記残存フラグメントと上記シャードフラグメントとのフラグメント類似度を取得し、
上記生成ユニット1232は、さらに、フラグメント類似度が最も高いq個(qは、正の整数である)の残存フラグメントを保留し、上記側鎖フラグメントと共に上記再構成分子の構造データを生成する。
【0153】
1つの好ましい実施例において、上記生成モジュール1230は、さらに、上記分子フラグメント群のデータセットを分子再構成モデルに入力し、上記分子再構成モデルにより上記分子フラグメント群のデータセットに対して特徴分析を行って、上記シャードフラグメントを取り替えるための上記候補フラグメントを出力して取得する。
【0154】
1つの好ましい実施例において、上記分子再構成モデルは、コーデックアーキテクチャにおけるエンコーダ及びデコーダを含み、
上記生成モジュール1230は、さらに、上記側鎖フラグメントに基づいて、上記エンコーダにより上記シャードフラグメントをエンコードして、フラグメント特徴を取得し、所定の摂動ルールにより上記フラグメント特徴に摂動を与えて、摂動特徴を取得し、上記デコーダにより上記摂動特徴をデコードして、上記シャードフラグメントを取り替えるための上記候補フラグメントを生成する。
【0155】
1つの好ましい実施例において、上記生成モジュール1230は、さらに、上記側鎖フラグメントを特徴空間にマッピングして、側鎖空間特徴を取得し、上記側鎖空間特徴を構造条件とし、上記エンコーダにより上記シャードフラグメントをエンコードして、上記フラグメント特徴を取得する。
【0156】
1つの好ましい実施例において、上記生成モジュール1230は、さらに、上記シャードフラグメントをエンコードして、エンコード特徴を取得し、上記側鎖空間特徴を構造条件とし、上記エンコード特徴を上記特徴空間にマッピングして、フラグメント特徴を取得する。
【0157】
1つの好ましい実施例において、上記分子再構成モデルは、モデルパラメータを含み、
上記取得モジュール1210は、サンプル分子の構造データを取得し、上記サンプル分子は、少なくとも1組のサンプルシャード及びサンプル側鎖に分解可能であり、
上記装置は、
上記分子再構成モデルにより、上記サンプル分子の構造データに対して特徴分析を行って、上記サンプルシャードを取り替えるための再構成シャードを出力して取得し、上記サンプルシャードと上記再構成シャードとの間の相違度で、モデルパラメータを調整するトレーニングモジュール1240をさらに含む。
【0158】
1つの好ましい実施例において、トレーニングモジュール1240は、さらに、上記サンプルシャードと上記再構成シャードとの特徴空間でのマッピングの離散度で、上記モデルパラメータを調整し、上記特徴空間は、上記モデルパラメータにより決定される。
【0159】
1つの好ましい実施例において、上記生成モジュール1230は、
上記候補フラグメントにおける水素サイトと上記側鎖フラグメントとを接合して、n個(nは、正の整数である)の候補分子を取得する接合ユニット1233と、
所定の分子ライブラリ内の分子構造データに基づいて、上記n個の候補分子をスクリーニングして、上記再構成分子の構造データを取得するスクリーニングユニット1231と、を含む。
【0160】
1つの好ましい実施例において、上記スクリーニングユニット1231は、さらに、上記所定の分子ライブラリ内の分子構造データに基づいて、上記n個の候補分子をスクリーニングして、上記所定の分子ライブラリ内に含まれないm個(0≦m≦n)の候補分子を取得し、
上記生成モジュール1230は、
上記m個の候補分子から上記再構成分子の構造データを決定する生成ユニット1232をさらに含む。
【0161】
1つの好ましい実施例において、上記生成ユニット1232は、さらに、上記m個の候補分子の、上記参照分子にそれぞれ対応するm個の分子類似度を取得し、i番目(iは、正の整数である)の候補分子は、i番目の分子類似度に対応し、分子類似度が最も高いk個(0<k<m)の上記候補分子から上記再構成分子の構造データを決定する。
【0162】
以上より、本願の実施例に係る分子構造の再構成装置は、参照分子の構造データを構造分解して、シャードフラグメント及び側鎖フラグメントを取得し、それにより側鎖フラグメントを構造条件として、シャードフラグメントを取り替えるための新たな分子フラグメント構造を予測して、候補フラグメントを取得し、すなわち、分子を切断して関連フラグメントの構造ルールを学習し、新たに生成された候補フラグメントを用いて元の分子におけるシャードフラグメントを取り替えることにより分子の修正を実現し、構造条件に基づいて生成可能な候補フラグメントの数が多いため、新たに生成された分子が従来の分子構造と異なる確率を向上させ、それにより分子再構成の成功率を向上させる。
【0163】
なお、上記実施例に係る分子構造の再構成装置は、上記各機能モジュールの分割のみを例に挙げて説明したが、実際の応用において、必要に応じて上記機能を異なる機能モジュールに割り当てて完了させることができ、つまり、デバイスの内部構造を異なる機能モジュールに分割することにより、以上で説明された機能の全部又は一部を完了することができる。また、上記実施例に係る分子構造の再構成装置は、分子構造の再構成方法の実施例と同じ構想に属し、その具体的な実現プロセスについては、方法の実施例を参照でき、ここでは繰り返して説明しない。
【0164】
図14は、本願の1つの例示的な実施例に係るコンピュータデバイスの概略構成図を示し、該コンピュータデバイスは、サーバ又は端末として実現可能である。具体的には、
コンピュータデバイス1400は、中央処理ユニット(Central Processing Unit、CPU)1401と、ランダムアクセスメモリ(Random Access Memory、RAM)1402及びリードオンリーメモリ(Read Only Memory、ROM)1403を含むシステムメモリ1404と、システムメモリ1404を中央処理ユニット1401に接続するシステムバス1405を含む。コンピュータデバイス1400は、オペレーティングシステム1413、アプリケーションプログラム1414、及び他のプログラムモジュール1415を記憶するための大容量ストレージデバイス1406と、をさらに含む。
【0165】
大容量ストレージデバイス1406は、システムバス1405に接続された大容量ストレージコントローラ(図示せず)を介して中央処理ユニット1401に接続される。大容量ストレージデバイス1406及びそれに関連するコンピュータ読み取り可能な媒体は、コンピュータデバイス1400に不揮発性ストレージを提供する。すなわち、大容量ストレージデバイス1406は、ハードディスク又はコンパクトディスク読み取り専用メモリ(Compact Disc Read Only Memory、CD-ROM)ドライブのようなコンピュータ読み取り可能な媒体(図示せず)を含んでもよい。
【0166】
一般性を失わず、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール又は他のデータなどの情報を記憶するための任意の方法又は技術で実装される揮発性及び不揮発性媒体、取り外し可能及び取り出し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、消去可能プログラマブルリードオンリーメモリ(Erasable Programmable Read Only Memory、EPROM)、電気的消去可能プログラマブルリードオンリーメモリ(Electrically Erasable Programmable Read Only Memory、EEPROM)、フラッシュメモリ又は他の固体記憶装置技術、CD-ROM、デジタル多用途ディスク(Digital Versatile Disc、DVD)又は他の光学式記憶装置、テープカセット、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置を含む。当然のことながら、当業者であれば、コンピュータ記憶媒体が上述の種類に限定されないことがわかるであろう。上記システムメモリ1404及び大容量ストレージデバイス1406を総称してメモリと呼ぶことがある。
【0167】
本願の様々な実施例によれば、コンピュータデバイス1400は、さらに、インターネットなどのネットワークを介してネットワークにおけるリモートコンピュータに接続されて実行することができる。すなわち、コンピュータデバイス1400は、システムバス1405に接続されたネットワークインタフェースユニット1411を介してネットワーク1412に接続されてもよく、又は、ネットワークインタフェースユニット1411を用いて他のタイプのネットワーク又はリモートコンピュータシステム(図示せず)に接続されてもよい。
【0168】
上記メモリは、さらに、1つ又は1つ以におけるプログラムを含み、1つ又は1つ以におけるプログラムは、メモリに記憶され、CPUにより実行されるように構成される。
【0169】
本願の実施例によれば、プロセッサ及びメモリを含み、該メモリには、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、プロセッサによりロードされて実行されることにより、上記各方法の実施例に記載の分子構造の再構成方法を実現する、コンピュータデバイスがさらに提供される。
【0170】
本願の実施例によれば、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、プロセッサによりロードされて実行されることにより、上記各方法の実施例に記載の分子構造の再構成方法を実現する、コンピュータ読み取り可能な記憶媒体がさらに提供される。
【0171】
本願の実施例によれば、コンピュータ命令を含み、該コンピュータ命令は、コンピュータ読み取り可能な記憶媒体に記憶される、コンピュータプログラム製品又はコンピュータプログラムがさらに提供される。コンピュータデバイスのプロセッサは、コンピュータ読み取り可能な記憶媒体から該コンピュータ命令を読み取り、プロセッサは、該コンピュータ命令を実行して、該コンピュータデバイスに上記実施例のいずれか一項に記載の分子構造の再構成方法を実行させる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
【国際調査報告】