(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-28
(45)【発行日】2024-12-06
(54)【発明の名称】分子骨格ホッピングの処理方法およびその装置、媒体、電子機器並びにコンピュータプログラム
(51)【国際特許分類】
G16C 20/50 20190101AFI20241129BHJP
G06N 3/04 20230101ALI20241129BHJP
【FI】
G16C20/50
G06N3/04 100
(21)【出願番号】P 2023538910
(86)(22)【出願日】2022-02-28
(86)【国際出願番号】 CN2022078336
(87)【国際公開番号】W WO2022188653
(87)【国際公開日】2022-09-15
【審査請求日】2023-06-21
(31)【優先権主張番号】202110260343.1
(32)【優先日】2021-03-10
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(73)【特許権者】
【識別番号】523233536
【氏名又は名称】成都先▲導▼▲薬▼物▲開▼▲発▼股▲フン▼有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】徐 挺洋
(72)【発明者】
【氏名】于 洋
(72)【発明者】
【氏名】▲栄▼ ▲ユ▼
(72)【発明者】
【氏名】▲劉▼ ▲偉▼
(72)【発明者】
【氏名】黄 俊洲
(72)【発明者】
【氏名】▲塗▼ ▲貴▼平
(72)【発明者】
【氏名】邱 ▲亞▼平
(72)【発明者】
【氏名】程 学▲敏▼
【審査官】塩田 徳彦
(56)【参考文献】
【文献】中国特許出願公開第112201301(CN,A)
【文献】中国特許出願公開第108205613(CN,A)
【文献】中国特許出願公開第111209468(CN,A)
【文献】中国特許出願公開第108140131(CN,A)
【文献】国際公開第2005/081158(WO,A2)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
G06N 3/04
(57)【特許請求の範囲】
【請求項1】
電子機器によって実行される、分子骨格ホッピングの処理方法であって、
参照薬物分子に対応する連結グラフの構造に基づいて、前記参照薬物分子に対応する原子潜在ベクトルを生成するステップ
であって、前記連結グラフの構造内のノードは、前記参照薬物分子の原子を表し、前記連結グラフの構造は、前記参照薬物分子の原子特徴を表すノード特徴と、前記参照薬物分子の原子間の特徴を表す辺特徴とを含む、ステップと、
前記原子潜在ベクトルに対して原子マスキング処理を実行して、前記原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを得るステップと、
前記骨格潜在ベクトルの空間分布に基づいて、前記骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成するステップと、
前記目標骨格潜在ベクトルおよび前記側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成するステップと、を含む、
分子骨格ホッピングの処理方法。
【請求項2】
参照薬物分子に対応する連結グラフの構造に基づいて、前記参照薬物分子に対応する原子潜在ベクトルを生成する前記ステップは、
前記連結グラフの構造に含まれる
前記ノード特徴および
前記辺特徴に基づいて、グラフエンコーダを介して前記連結グラフの構造内の各ノードのノード情報を決定するステッ
プと、
前記各ノードのノード情報および前記各ノードのノード特徴に基づいて、前記各ノードの潜在ベクトルを生成するステップと、
前記各ノードの潜在ベクトルおよび前記参照薬物分子に含まれる原子に基づいて、前記参照薬物分子に対応する原子潜在ベクトルを生成するステップと、を含む、
請求項1に記載の分子骨格ホッピングの処理方法。
【請求項3】
前記グラフエンコーダは、複数のカスケード隠れ層を含み、
前記連結グラフの構造に含まれる
前記ノード特徴および
前記辺特徴に基づいて、グラフエンコーダを介して前記連結グラフの構造内の各ノードのノード情報を決定する前記ステップは、
前記連結グラフの構造における第1ノードのノード特徴、前記連結グラフの構造における第2ノードのノード特徴、および前記第1ノードの隣接ノードにおける前記第2ノード以外の他のノードと前記第1ノードとの間の第1隠れ層内の辺情報に基づいて、前記第1ノードと前記第2ノードとの間の第2隠れ層内の情報を決定するステップであって、前記第1ノードは、前記連結グラフの構造内の任意のノードであり、前記第2ノードは、前記連結グラフの構造内の前記第1ノードの任意の隣接ノードであり、前記第2隠れ層は、前記第1隠れ層の次の隠れ層である、ステップと、
前記第1ノードと前記他のノードとの間の第1隠れ層内の辺情報、および前記第1ノードと前記第2ノードとの間の第2隠れ層内の情報に基づいて、前記第1ノードと前記第2ノードとの間の第2隠れ層内の辺情報を決定するステップであって、前記連結グラフの構造内の2つのノード間の初期隠れ層内の辺情報は、前記2つのノードのうちの1つのノードのノード特徴、および前記2つのノード間の辺特徴に基づいて得られるものである、ステップと、
各ノードの前記複数の隠れ層における対応する辺情報を加算処理して、前記各ノードのノード情報を得るステップと、を含む、
請求項2に記載の分子骨格ホッピングの処理方法。
【請求項4】
前記原子潜在ベクトルに対して原子マスキング処理を実行して、前記原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを得る前記ステップは、
前記参照薬物分子に対応するビットベクトルを決定するステップであって、前記ビットベクトルの長さは、前記参照薬物分子に含まれる原子数と同じであり、前記ビットベクトルにおける骨格原子に対応するビット値は、第1値である、ステップと、
前記ビットベクトルに基づいて前記参照薬物分子に対応する原子潜在ベクトルに対して選別処理を実行して、前記骨格原子の潜在ベクトルおよび側鎖原子の潜在ベクトルを得るステップと、
前記骨格原子の潜在ベクトルに対してマルチヘッドアテンション処理を実行して、前記骨格潜在ベクトルを得、前記側鎖原子の潜在ベクトルに対してマルチヘッドアテンション処理を実行して、前記側鎖潜在ベクトルを得るステップと、を含む、
請求項1に記載の分子骨格ホッピングの処理方法。
【請求項5】
前記骨格潜在ベクトルの空間分布に基づいて、前記骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成する前に、前記分子骨格ホッピングの処理方法は、
複数の骨格クラスタを取得するステップであって、前記複数の骨格クラスタ内の各骨格クラスタのクラスタ中心は、混合ガウス分布に合致する、ステップと、
前記骨格潜在ベクトルと前記各骨格クラスタのクラスタ中心との第1距離を決定し、前記第1距離に基づいて前記参照薬物分子の骨格が属する目標骨格クラスタを決定するステップと、
前記目標骨格クラスタのクラスタ中心に応じて、前記骨格潜在ベクトルが属する混合ガウス分布を決定するステップと、をさらに含む、
請求項1に記載の分子骨格ホッピングの処理方法。
【請求項6】
前記骨格潜在ベクトルの空間分布に基づいて、前記骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成する前記ステップは、
前記目標ホッピング度に基づいて前記目標骨格クラスタに対してランダムサンプリング処理を実行して、前記目標ホッピング度に対応するオフセット量を得るステップと、
前記骨格潜在ベクトルと前記前記目標ホッピング度に対応するオフセット量とを加算処理して、前記目標骨格潜在ベクトルを得るステップと、を含む、
請求項5に記載の分子骨格ホッピングの処理方法。
【請求項7】
前記目標ホッピング度に基づいて前記目標骨格クラスタに対してランダムサンプリング処理を実行して、前記目標ホッピング度に対応するオフセット量を得る前記ステップは、
前記目標ホッピング度が第1ホッピング度である場合、前記目標骨格クラスタの分散とランダムサンプリングによって得られた第1ベクトルとを積算処理して、第1オフセット量を得、前記第1オフセット量を前記第1ホッピング度に対応するオフセット量として使用するステップであって、前記第1ホッピング度は、同一の骨格クラスタ内のホッピングを表す、ステップを含む、
請求項6に記載の分子骨格ホッピングの処理方法。
【請求項8】
前記目標ホッピング度に基づいて前記目標骨格クラスタに対してランダムサンプリング処理を実行して、前記目標ホッピング度に対応するオフセット量を得る前記ステップは、
前記目標ホッピング度が第2ホッピング度である場合、前記複数の骨格クラスタから第1骨格クラスタを選択するステップであって、前記第1骨格クラスタのクラスタ中心と前記目標骨格クラスタのクラスタ中心との間の距離は、第1設定値以下であり、前記第2ホッピング度は、隣接骨格クラスタへのホッピングを示す、ステップと、
前記第1骨格クラスタの分散とランダムサンプリングによって得られた第2ベクトルとの積算、前記目標骨格クラスタのクラスタ中心と前記第1骨格クラスタのクラスタ中心に基づいて、第2オフセット量を生成し、前記第2オフセット量を前記第2ホッピング度に対応するオフセット量として使用するステップと、を含む、
請求項6に記載の分子骨格ホッピングの処理方法。
【請求項9】
前記目標ホッピング度に基づいて前記目標骨格クラスタに対してランダムサンプリング処理を実行して、前記目標ホッピング度に対応するオフセット量を得る前記ステップは、
前記目標ホッピング度が第3ホッピング度である場合、前記複数の骨格クラスタから第2骨格クラスタを選択するステップであって、前記第2骨格クラスタのクラスタ中心と前記目標骨格クラスタのクラスタ中心との間の距離は、第2設定値以上である、ステップと、
前記第2骨格クラスタの分散とランダムサンプリングによって得られた第3ベクトルとの積算、前記目標骨格クラスタのクラスタ中心と前記第2骨格クラスタのクラスタ中心に基づいて、第3オフセット量を生成し、前記第3オフセット量を前記第3ホッピング度に対応するオフセット量として使用するステップと、を含む
請求項6に記載の分子骨格ホッピングの処理方法。
【請求項10】
前記目標骨格潜在ベクトルおよび前記側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成する前記ステップは、
指定された前記参照薬物分子の標的と目標活性値を取得するステップと、
前記目標骨格潜在ベクトル、前記側鎖潜在ベクトル、前記参照薬物分子の標的と前記目標活性値に基づいて、ホッピング後の薬物分子を生成するステップと、を含む、
請求項1に記載の分子骨格ホッピングの処理方法。
【請求項11】
前記目標骨格潜在ベクトルおよび前記側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成した後、前記分子骨格ホッピングの処理方法は、
前記ホッピング後の薬物分子に基づいて物理化学的性質の分子ろ過処理を実行して、薬物様特性の薬物分子を得るステップと、
前記参照薬物分子に対応する共晶構造を取得し、前記薬物様特性の薬物分子を前記共晶構造にドッキングするステップと、
前記薬物様特性の薬物分子と前記共晶構造との結合様式に基づいて、前記共晶構造にマッチングしない薬物分子を除去して、選別後の薬物分子を得るステップと、
前記選別後の薬物分子と前記共晶構造のドッキングに基づいて、化合物の合成と検証を実行するステップと、をさらに含む、
請求項1に記載の分子骨格ホッピングの処理方法。
【請求項12】
前記分子骨格ホッピングの処理方法は、機械学習モデルによって実現され、
前記分子骨格ホッピングの処理方法は、
サンプル分子に対応するサンプル骨格潜在ベクトルを取得し、複数の骨格クラスタを取得するステップであって、前記複数の骨格クラスタ内の各骨格クラスタのクラスタ中心は、混合ガウス分布に合致する、ステップと、
前記サンプル分子のサンプル骨格潜在ベクトルと各骨格クラスタのクラスタ中心との間の第2距離を決定し、前記第2距離に基づいて前記サンプル分子のサンプル骨格が属する骨格クラスタを決定するステップと、
前記サンプル骨格潜在ベクトルと、前記サンプル骨格が属する骨格クラスタのクラスタ中心との間の距離に基づいて、距離に基づく交差エントロピー損失を生成するステップと、
前記交差エントロピー損失および前記サンプル分子に対する前記機械学習モデルの予測損失に基づいて、前記機械学習モデルの損失関数を生成するステップと、
前記損失関数に基づいて前記機械学習モデルのパラメータを調整するステップと、をさらに含む、
請求項1から11のいずれか一項に記載の分子骨格ホッピングの処理方法。
【請求項13】
前記機械学習モデルは、デコーダを含み、
前記分子骨格ホッピングの処理方法は、
前記機械学習モデルを介して前記サンプル分子に対応するサンプル骨格潜在ベクトルおよびサンプル側鎖潜在ベクトルを取得した後、前記サンプル骨格潜在ベクトル、前記サンプル側鎖潜在ベクトルおよび前記サンプル分子に対応する目標分子を前記デコーダに入力するステップと、
前記デコーダの出力および前記目標分子に基づいて前記予測損失を決定するステップと、をさらに含む、
請求項12に記載の分子骨格ホッピングの処理方法。
【請求項14】
分子骨格ホッピングの処理装置であって、
参照薬物分子に対応する連結グラフの構造に基づいて、前記参照薬物分子に対応する原子潜在ベクトルを生成するように構成される第1生成ユニット
であって、前記連結グラフの構造内のノードは、前記参照薬物分子の原子を表し、前記連結グラフの構造は、前記参照薬物分子の原子特徴を表すノード特徴と、前記参照薬物分子の原子間の特徴を表す辺特徴とを含む、第1生成ユニットと、
前記原子潜在ベクトルに対して原子マスキング処理を実行して、前記原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを得るように構成される第1処理ユニットと、
前記骨格潜在ベクトルの空間分布に基づいて、前記骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成するように構成される第2生成ユニットと、
前記目標骨格潜在ベクトルおよび前記側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成するように構成される第3生成ユニットと、
を備える、分子骨格ホッピングの処理装置。
【請求項15】
プロセッサに請求項1から13のいずれか一項に記載の分子骨格ホッピングの処理方法を実行させるコンピュータプログラムが記憶された、コンピュータ可読媒体。
【請求項16】
電子機器であって、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶する記憶装置と、を備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されるときに、前記1つまたは複数のプロセッサに請求項1から13のいずれか一項に記載の分子骨格ホッピングの処理方法を実行させる、電子機器。
【請求項17】
コンピュータに請求項1から13のいずれか一項に記載の分子骨格ホッピングの処理方法を実行させるように構成される、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本願実施例は、2021年03月10日に中国特許局に提出された、出願番号が第202110260343.1号である中国特許出願の優先権を主張し、その内容の全てが参照により本願実施例に援用される。
【0002】
本願は、コンピュータおよび通信技術分野に関し、具体的には、分子骨格ホッピングの処理方法およびその装置、媒体、電子機器並びにコンピュータプログラム製品に関するものである。
【背景技術】
【0003】
骨格ホッピング(「Scaffold Hopping」や「足場ホッピング」とも呼ばれる)は、薬化学設計のための非常に重要なツールであり、その主な目的は、従来の分子構造を変更すること、複雑な天然産物の局所構造を置換すること、および/または分子骨格を変更することにより分子の薬物動態学的特性を向上させることである。
【0004】
関連技術における骨格ホッピングの技術案は主に、薬理作用団に基づくモデル、分子形状の相似性検索などの技術案である。しかしながら、これらの技術案はいずれも、規則に基づいて生成されるものであるため、薬化学的専門家の設計マインドから抜け出すことが難しく、それにより、ホッピング後の分子の新規性が不足している。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願実施例は、新たに生成された薬物分子の新規性を向上させる、分子骨格ホッピングの処理方法およびその装置、媒体及電子機器を提供する。
【0006】
本発明の他の特性および利点は、以下の詳細な説明によって明らかになり、または本発明の実践によって部分的に学習される。
【課題を解決するための手段】
【0007】
本願実施例は、分子骨格ホッピングの処理方法を提供し、当該方法は、参照薬物分子に対応する連結グラフの構造に基づいて前記参照薬物分子に対応する原子潜在ベクトルを生成するステップと、前記原子潜在ベクトルに対して原子マスキング処理を実行して、前記原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを得るステップと、前記骨格潜在ベクトルの空間分布に基づいて、前記骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成するステップと、前記目標骨格潜在ベクトルおよび前記側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成するステップと、を含む。
【0008】
本願実施例は、分子骨格ホッピングの処理装置を提供し、当該装置は、参照薬物分子に対応する連結グラフの構造に基づいて前記参照薬物分子に対応する原子潜在ベクトルを生成するように構成される第1生成ユニットと、前記原子潜在ベクトルに対して原子マスキング処理を実行して、前記原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを得るように構成される第1処理ユニットと、前記骨格潜在ベクトルの空間分布に基づいて、前記骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成するように構成される第2生成ユニットと、前記目標骨格潜在ベクトルおよび前記側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成するように構成される第3生成ユニットと、を備える。
【0009】
本願実施例は、コンピュータプログラムが記憶されたコンピュータ可読媒体を提供し、前記コンピュータプログラムは、プロセッサに、上述した実施例に記載の分子骨格ホッピングの処理方法を実行させる。
【0010】
本願実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、を備える、電子機器を提供し、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されるときに、前記1つまたは複数のプロセッサに上述した実施例に記載の分子骨格ホッピングの処理方法を実現する。
【0011】
本願実施例は、コンピュータ命令を含む、コンピュータプログラム製品またはコンピュータプログラムを提供する。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されており、コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取って実行することにより、当該コンピュータ機器に、上記の種々の例示的な実施例によって提供される分子骨格ホッピングの処理方法を実行させる。
【発明の効果】
【0012】
本願のいくつかの実施例によって提供される技術的解決策では、薬物分子に対応する原子潜在ベクトルに対して原子マスキング処理を実行して、骨格潜在ベクトルおよび側鎖潜在ベクトルを得、次に、骨格潜在ベクトルの空間分布に基づいて、目標ホッピング度を有する目標骨格潜在ベクトルを生成し、目標骨格潜在ベクトルおよび側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成する。したがって、骨格潜在ベクトルを空間分布にマッピングすることにより、生成された目標骨格潜在ベクトルが薬化学的専門家の設計マインドセットから飛び出すようにし、ひいては優れた新規性を達成することができるとともに、電子機器による自動的な実行が可能となり、骨格ホッピングの効率を向上させることができる。
【0013】
なお、上述した一般的な説明および後述する詳細な説明は、例示的および説明的なものであり、本願を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0014】
【
図1】本願実施例の技術的解決策を適用可能な例示的なシステムアーキテクチャの概略図を示す。
【
図2】本願実施例に係る分子骨格ホッピングの処理方法のフローチャートを示す。
【
図3A】本願実施例に係る参照薬物分子に対応する原子潜在ベクトルを生成するフローチャートを示す。
【
図3B】本願実施例に係る、参照薬物分子に対応する原子潜在ベクトルに対して原子マスキング処理を実行するフローチャートを示す。
【
図3C】本願実施例に係る、指定されたホッピング度を有する目標骨格潜在ベクトルを生成するフローチャートを示す
【
図4A】本願実施例に係る機械学習モデルの概略的な構造図を示す。
【
図4B】本願実施例に係るグラフエンコーダの処理プロセスの概略図を示す。
【
図5】本願実施例に係る原子マスキングおよび読み出し関数部分の概略図を示す。
【
図6】本願実施例に係る距離表現方式の概略図を示す。
【
図7】本願実施例のデコーダの処理プロセスの概略図を示す。
【
図8】本願実施例に係る、モデルを介して骨格潜在ベクトルおよび側鎖潜在ベクトルを生成する処理プロセスの概略図を示す。
【
図9】本願実施例に係るモデル復号過程の概略図を示す。
【
図10】本願実施例に係る骨格ホッピング方式の概略図を示す。
【
図11】本願実施例に係る分子骨格ホッピングの処理装置のブロック図を示す。
【
図12】本願実施例に係る電子機器を実現するのに適するコンピュータシステムの概略的な構造図を示す。
【発明を実施するための形態】
【0015】
以下、例示的な実施形態を図面を参照してより包括的に説明する。しかしながら、例示的な実施形態は、種々の形態で実施され得、且つここで説明される例に限定されるものではないと理解され得;逆に、これらの実施形態を提供することにより、本発明をより包括的かつ完全にし、例示的な実施形態の構想を当業者に総合的に伝えるようにする。
【0016】
さらに、説明された特徴、構造または特性は、任意の適切な方式で1つまたは複数の実施例に組み合わされることができる。以下の説明では、本発明の実施例を十分に理解させるために、多くの具体的な詳細を提供する。しかしながら、当業者は、本発明の技術的解決策を、特定の詳細の1つ以上を持たずに実施することができ、または他の方法、構成要素、装置、ステップなどを採用できることが認識される。その他の場合、公知の方法、装置、実装または動作は、本発明の各態様を曖昧にしないように、詳細に図示または説明しない。
【0017】
図面に示すブロック図は、機能エンティティに過ぎず、必ずしも物理的に独立したエンティティに対応する必要がない。即ち、これらの機能エンティティは、ソフトウェアの形で実装されてもよいし、1つまたは複数のハードウェアモジュールまたは集積回路で実装されてもよいし、異なるネットワークおよび/またはプロセッサ装置および/またはマイクロコントローラ装置で実装されてもよい。
【0018】
図面に示すフローチャートは、例示的な説明に過ぎず、必ずしもすべてのコンテンツおよび動作/ステップを含む必要はなく、必ずしも記載された順で実行される必要もない。例えば、一部の動作/ステップは、分解されてもよく、一部の動作/ステップは、合併または部分的に合併されてもよいため、実際の実行順序は、実際の状況に応じて変更される可能性がある。
【0019】
なお、本明細書で言及された「複数」は、2つまたは2つ以上を指す。「および/または」は、関連オブジェクトの関連関係を記述し、例えば、Aおよび/またはBは、Aが単独で存在すること、AとBが同時に存在すること、Bが単独に存在することの3つの場合を表すことができる。文字「/」は一般的に、前後の関連オブジェクトが「または」の関係であることを示す。
【0020】
本願実施例による技術案は、人工知能の機械学習のような技術に関するものであり、具体的には、機械学習技術を薬物分子骨格ホッピングの技術案に適用するものである。
【0021】
本願実施例の分子骨格ホッピングの技術案を紹介する前に、先に、関連技術における処理案を紹介する。関連技術で提案された骨格ホッピングの技術案は主に、薬理作用団に基づくモデル、分子形状に基づく検索、フィンガープリント(Fingerprint)に基づく化学的相似性の検索と機械学習のアルゴリズムなどに基づいている。
【0022】
ここで、薬理作用団に基づくモデルは、配座の検索と分子のスタッキングにより、リガンド分子の活性配座をシミュレートし、即ち、活性に必要な特徴原子の分子骨格を保持する。薬理作用団の最大特徴は、一群の活性分子が共有する分子相互作用の特徴を有することであるため、薬理作用団は、真の分子や一群の化学基を表すものではなく、抽象的な概念である。薬理作用団の特徴としては、水素結合の受容体と供与体、正電荷と負電荷の相互作用、疎水作用、芳香環の相互作用などがある。このような薬理作用団の特徴が、ある分子から別の分子へホッピング可能である場合、即ち、参照分子と試験分子が同じ薬理作用団の特徴を有する場合、骨格ホッピングを実現することができる。これと類似した技術案として、タンパク質の構造に基づく薬物設計方法があり、これは、小分子とタンパク質内の結合部位の残基との間の相互作用をベクトルで表し、化合物ライブラリ内で、同一の特徴ベクトルを有する対応する分子を検索することにより、骨格ホッピングを実現する。
【0023】
分子形状に基づく検索は主に、分子空間上の体積を考慮して相似性の検索を行い、標的タンパク質との結合作用を維持し、骨格置換を実現できることが望まれる。この技術案と他の検索技術案とに存在する問題点は、検索時間が非常に長く、既存の化学空間によって制限され、既存の化合物ライブラリでしか検索できず、さらに、偽陽性の分子も多く、分子の活性を確保することが難しい。
【0024】
人工知能技術の発展に伴い、特に分子生成への人工知能技術の適用に伴い、薬物開発の能力は加速化されてきた。分子生成の最大の長所は、真新しい分子を生成して、薬物分子のデノボ設計を直接実現し、既存の分子空間を広げることである。関連技術で提案されたAIアルゴリズム基盤の分子生成方法は、分子の再構成能力と正当性を過度に重視するが、製薬会社の実際のニーズを満たすことは困難である。例えば、製薬会社は、既存の分子を変更し、既存の構造から飛び出すとともに、分子の活性を維持することを望んでいる。しかしながら、関連技術における技術案は、活性維持の要件を満たすことができるが、すべて規則に基づいた生成であるため、薬化学的専門家の設計マインドから抜け出すことが難しく、それにより、新たに生成された分子の新規性が不足している。
【0025】
以上のような問題点鑑み、本願実施例は、新しい分子骨格ホッピング処理の技術案を提供することにより、骨格潜在ベクトルを空間分布にマッピングすることにより、生成された目標骨格潜在ベクトルが薬化学的専門家の設計マインドセットから飛び出すようにし、ひいては優れた新規性を達成することができるとともに、電子機器による自動的な実行が可能となり、人件費および時間コストを削減することができる。以下、本願実施例の技術的解決策を詳細に説明する。
【0026】
図1は、本願実施例の技術的解決策を適用可能な例示的なシステムアーキテクチャの概略図を示す。
【0027】
図1に示すように、システムアーキテクチャ100は、端末110、ネットワーク120、サーバ130を含み得る。ここで、端末110とサーバ130は、ネットワーク120を介して接続される。
【0028】
本願実施例において、端末110は、スマートフォン、タブレットPC、ノートパソコン、デスクトップコンピュータ、スマートスピーカ、スマートウォッチであってもよいが、これに限定されるものではない。ネットワーク120は、端末110とサーバ130との間で通信リンクを提供することができる様々な接続タイプの通信媒体であり得、例えば、有線通信リンク、無線通信リンクまたは光ファイバケーブルなどであり得、本願実施例はここでは限定されない。サーバ130は、独立した物理サーバであってもよいし、複数の物理サーバで構成されたサーバクラスタまたは分散システムであってもよいし、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウドファンクション、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、コンテンツ配信ネットワーク(CDN:Content Delivery Network)、およびビッグデータや人工知能プラットフォームなどの基礎クラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
【0029】
なお、
図1における端末110、ネットワーク120、サーバ130の数は単に例示的なものである。実装の必要に応じて、任意の数の端末110、ネットワーク120、サーバ130を有することができる。例えば、サーバ130は、複数のサーバで構成されたサーバクラスタなどであり得る。
【0030】
本願実施例において、ユーザは、端末110により、ネットワーク120を介して、参照薬物分子、即ち骨格ホッピング処理を必要とする参照薬物分子をサーバ130に提出し、参照薬物分子のホッピングが必要な骨格を特定することができる。ただし、参照薬物分子のホッピングが必要な骨格を特定することは必須ではない。サーバ130は、参照薬物分子を取得した後、参照薬物分子の構造を連結グラフの構造に変換し、次に、参照薬物分子に対応する連結グラフの構造に基づいて参照薬物分子に対応する原子潜在ベクトルを生成することができる。
【0031】
サーバ130は、参照薬物分子に対応する原子潜在ベクトルを生成した後、当該原子潜在ベクトルに対して原子マスキング処理を実行して、原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを取得することができる。骨格ホッピング処理を実現するために、骨格潜在ベクトルの空間分布に基づいて、骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成し、次に、目標骨格潜在ベクトルと、前述した得られた側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成することができる。
【0032】
本願実施例の技術的解決策は、骨格潜在ベクトルを空間分布にマッピングすることにより、生成された目標骨格潜在ベクトルが薬化学的専門家の設計マインドセットから飛び出すようにし、ひいては優れた新規性を達成することができるとともに、機器による自動的な実行が可能となり、人件費および時間コストを削減することができる。
【0033】
なお、本願実施例によって提供される分子骨格ホッピングの処理方法は、一般的に、サーバ130によって実行され、それに対応して、分子骨格ホッピングの処理装置は、一般的に、サーバ130に設置される。しかしながら、本願の他の実施例において、端末機器は、サーバと類似した機能を有することもでき、それにより、本願実施例によって提供される分子骨格ホッピングの処理の技術案を実行することができる。
【0034】
本願実施例において、ユーザは、端末110により、骨格ホッピング処理を必要とする分子である参照薬物分子を提出し、参照薬物分子のホッピングが必要な骨格を特定する。ただし、参照薬物分子のホッピングが必要な骨格を特定することは必須ではない。端末110は、参照薬物分子を取得した後、参照薬物分子の構造を連結グラフの構造に変換し、次に、参照薬物分子に対応する連結グラフの構造に基づいて、参照薬物分子に対応する原子潜在ベクトルを生成することができる。
【0035】
端末110は、参照薬物分子に対応する原子潜在ベクトルを生成した後、当該原子潜在ベクトルに対して原子マスキング処理を実行して、原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを取得する。骨格ホッピング処理を実現するために、骨格潜在ベクトルの空間分布に基づいて、骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成し、次に、目標骨格潜在ベクトルおよび前述した得られた側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成することができる。
【0036】
以下、本願実施例に係る技術的解決策の実装の詳細を説明する。
【0037】
図2は、本願実施例に係る分子骨格ホッピングの処理方法のフローチャートを示し、当該分子骨格ホッピングの処理方法は、計算処理機能を有する電子機器によって実行されることができ、例えば、
図1に示すサーバ130によって実行されることができる。
図2に示すように、当該分子骨格ホッピングの処理方法は少なくとも、ステップS210~S240を含み、詳細の説明は次の通りである。
【0038】
ステップS210において、参照薬物分子に対応する連結グラフの構造に基づいて参照薬物分子に対応する原子潜在ベクトルを生成する。
【0039】
本願実施例において、参照薬物分子は、骨格ホッピング処理を必要とする分子であり、参照薬物分子に対応する連結グラフの構造は、参照薬物分子の構造変換に基づいて得られた連結グラフの構造である。
【0040】
例えば、1つの薬物分子に対応する連結グラフの構造は、
【数1】
で表し、ここで、Aは、接続行列を表し、Xは、ノード特徴を表し、Eは、辺特徴を表すことができる。連結グラフの構造において、ノードは、薬物分子の原子を表し;ノード特徴は、薬物分子の原子特徴を表す。例えば、原子量、原子電荷数、原子タイプ、原子価状態、原子が環内にあるか否か、芳香環内の原子であるか否かなどを含み得る。辺特徴は、薬物分子の原子間の特徴を表すものであり、例えば、辺は、一重結合の辺か二重結合の辺か、辺が環内にあるか否か、辺が芳香環内にあるか否かなどを含み得る。
【0041】
本願実施例において、参照薬物分子に対応する連結グラフの構造を生成した後、参照薬物分子に対応する連結グラフの構造にもと参照薬物分子に対応する原子潜在ベクトルを生成し、具体的には、
図3Aに示すように、次のステップS310a、ステップS320a、ステップS330aを含み、詳細の説明は次の通りである。
【0042】
ステップS310aにおいて、連結グラフの構造に含まれるノード特徴および辺特徴に基づいて、グラフエンコーダにより、連結グラフの構造内の各ノードのノード情報を決定する。
【0043】
本願実施例において、説明の便宜上、以下では、連結グラフの構造内の1つのノードvおよびノードwを例にとって説明する。ノードvのノード特徴は、xvと表し、ノードwのノード特徴は、xwと表し、ノードvとノードwとの間の辺特徴は、evwと表し、ノードvのノード情報は、mvと表し、ノードvの潜在ベクトルは、hvと表すことができる。すると、グラフエンコーダ(複数のカスケード隠れ層を含む)により、連結グラフの構造内の各ノードのノード情報を算出するプロセスは、次のことを含み得る。
【0044】
連結グラフの構造における第1ノード(第1ノードは、連結グラフの構造内の任意のノードであり、例えばノードvであってもよい)のノード特徴(x
vと記す)、連結グラフの構造における第2ノード(第2ノードは、第1ノード在連結グラフの構造内の隣接ノードであり、例えばノードwであってもよい)のノード特徴(x
wと記す)、および第1ノードの隣接ノードにおける第2ノード以外の他のノード(例えば、ノードk)と第1ノードとの間の第1隠れ層(隠れ層tとする)における辺情報(
【数2】
と記す)に基づいて、第1ノードと第2ノードとの間の第2隠れ層(隠れ層t+1と仮定)における情報(
【数3】
と記す)を決定する。
【0045】
次に、第1ノードと他のノードとの間の第1隠れ層における辺情報
【数4】
、および第1ノードと第2ノードとの間の第2隠れ層における情報
【数5】
に基づいて、第1ノードと第2ノードとの間の第2隠れ層における辺情報(
【数6】
と記す)を決定し;ここで、連結グラフの構造内の2つのノード間の初期隠れ層内の辺情報(例えばノードvとノードwとの初期隠れ層内の辺情報は、
【数7】
と表すことができる)は、2つのノードのうちの1つのノードのノード特徴、および2つのノード間の辺特徴に基づいて得られたものである。前述した計算に基づき、各ノードのすべての隠れ層における対応する辺情報を加算して、各ノードのノード情報を得る。
【0046】
本願実施例において、前述した
【数8】
は、下記式(1)により求めることができる:
【数9】
【0047】
上記の式(1)において、
【数10】
は、ノードkがノードvの隣接ノードN(v)における非ノードw以外の他のノードであることを表し;f
t(・)は、収束(aggregation)プロセスを表し、収束プロセスは、その中の変数(即ち、
【数11】
)を連結してもよいし(後述のcat(・)関数に類似する)、その中の変数(即ち、
【数12】
)を同一の次元にマッピングした後、加算または平均化してもよいし、他の形態でその中の変数(即ち、
【数13】
)を組み合わせてもよい。
【0048】
本願実施例において、前述した
【数14】
は、下記式(2)により求めることができる:
【数15】
【0049】
上記の式(2)において、g
t(・)は、更新(update)プロセスを表し、更新プロセスは、単純な累算または平均化であってもよいし、ゲート付き回帰型ユニット(GRU:Gated Recurrent Unit)の計算形態であってもよいが、GRUの計算形態であれば、その中の
【数16】
は、GRUの隠れ層の入力であり、
【数17】
は、GRUの実際の入力である。
【0050】
本願実施例において、前述した
【数18】
は、下記式(3)により求めることができる:
【数19】
【0051】
上記の式(3)において、τ(・)は、整流された線形関数(ReLU:Rectified Linear Unit、正規化線形ユニット関数とも称する)を表し;Wは、学習が必要であるパラメータを表し;cat(・)は、2つのベクトルを連結してより長い1つのベクトルを形成することを表し、例えば、1つの3次元のベクトルを1つの5次元のベクトルと連結して1つの8次元のベクトルを得ることを表す。
【0052】
本願実施例において、ノードvのノード情報がm
vであると仮定すると、ノード情報m
vは、下記式(4)により求めることができる:
【数20】
【0053】
上記の式(4)において、
【数21】
は、ノードkとノードvとのすべての隠れ層内の辺情報を表し;k∈N(v)は、ノードkがノードvの隣接ノードN(v)中のノードであることを表し;隣接ノード間でのみ辺情報が存在するため、m
vは、実際にはすべての隠れ層内のノードvの辺情報を加算するものである。
【0054】
ステップS320aにおいて、各ノードのノード情報および各ノードのノード特徴に基づいて、各ノードの潜在ベクトルを生成する。
【0055】
本願実施例において、前述した例で説明すれば、ノードvのノード情報m
vを取得した後、ノードvのノード情報m
vとノードvのノード特徴x
vに基づいて、ノードvの潜在ベクトルh
vを生成することができ、例えば、下記式(5)により求めることができる:
【数22】
【0056】
上記の式(5)において、τ(・)は、ReLU関数を表し;Waは、学習が必要であるパラメータを表し;cat(・)は、2つのベクトルを連結してより長い1つのベクトルを形成することを表し。
【0057】
ステップS330aにおいて、各ノードの潜在ベクトルおよび参照薬物分子に含まれる原子に基づいて、参照薬物分子に対応する原子潜在ベクトルを生成する。
【0058】
一実施例において、各ノードの潜在ベクトルが得られた後、行列の方式で参照薬物分子に対応する原子潜在ベクトルを表すことができ、即ち、各ノードの潜在ベクトルを行と列の形式の行列(H行列など)に配列することにより、参照薬物分子に対応する原子潜在ベクトルを表すことができる。
【0059】
なお、前述した式(1)~式(5)は例示に過ぎず、本願の他の実施例では、前述した式(1)~式(5)をさらに適切に変形(例えば、倍数の増加、倍数の減少、一定値増加、一定値減少など)して、新たな計算式を得ることができる。
【0060】
続いて、
図2に示すように、ステップS220において、参照薬物分子に対応する原子潜在ベクトルに対して原子マスキング処理を実行して、原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを得る。
【0061】
本願実施例において、参照薬物分子に対応する原子潜在ベクトルが得られた後、参照薬物分子に対応する原子潜在ベクトルに対して原子マスキング処理を実行する過程は、
図3Bに示すように、ステップS310b、ステップS320b、ステップS330bを含み得、詳細な説明は次の通りである:
【0062】
ステップS310bにおいて、参照薬物分子に対応するビットベクトルを決定し、当該ビットベクトルの長さは、参照薬物分子に含まれる原子数と同じであり、且つ当該ビットベクトルにおける骨格原子に対応するビット値は、第1値である。
【0063】
例えば、前述した実施例において、第1値は、例えば1であり得、即ち、1つの原子が骨格原子に属する場合、ビットベクトルにおける対応する1つのビット値は、1であり;1つの原子が側鎖原子に属する場合、ビットベクトルにおける対応する1つのビット値は、0である。この場合、ビットベクトルは、下記式(6)に示すような行列S
scaとして表すことができる:
【数23】
【0064】
上記の式(6)において、
【数24】
は、原子iが骨格原子に属することを表し;
【数25】
は、原子iが骨格原子に属しないことを表す。
【0065】
本願実施例において、前述したビットベクトルは、予め設定されたものであってもよく、参照薬物分子内のどの原子が骨格原子に属し、どの原子が側鎖原子に属するかを指示する。例えば、参照薬物分子内のホッピング(置換)する必要のある骨格に基づいて、構造検索の方式で参照薬物分子内で検索およびマッチングを実行して、参照薬物分子における骨格原子および側鎖原子を決定し、さらに前述したビットベクトルを得ることができる。
【0066】
本願実施例において、前述したビットベクトルは、1組の骨格決定規則に従って予め設定されたものであり得、当該骨格決定規則は、例えば、骨格の重原子数への要件、骨格環数への要件など、複数の要件を含み得、本願実施例ではこれに限定されない。薬物分子の場合、当該骨格決定規則に従って薬物分子内の骨格部分を自動的に検出し、次に、薬物分子内の骨格部分および骨格部分以外の部分(即ち、側鎖部分)に基づいて当該ビットベクトルを生成することができる。
【0067】
ステップS320bにおいて、当該ビットベクトルに基づいて参照薬物分子に対応する原子潜在ベクトルに対して選別処理を実行して、骨格原子の潜在ベクトルおよび側鎖原子の潜在ベクトルを得る。
【0068】
本願実施例において、参照薬物分子に対応する原子潜在ベクトル(即ち、元の原子の潜在ベクトル)がH
nodeと表わされると仮定すると、参照薬物分子に対応する原子潜在ベクトルから選択された骨格原子の潜在ベクトルは、
【数26】
と表されることができ、参照薬物分子に対応する原子の潜在ベクトルから選択された側鎖原子の潜在ベクトルは、
【数27】
として表されることができる。
【0069】
ステップS330bにおいて、骨格原子の潜在ベクトルに対してマルチヘッドアテンション処理を実行して、骨格潜在ベクトルを得、側鎖原子の潜在ベクトルに対してマルチヘッドアテンション処理を実行して、側鎖潜在ベクトルを得る。
【0070】
本願実施例において、マルチヘッド・アテンション・メカニズムは、各原子(骨格原子および側鎖原子)の潜在ベクトルに対応するスコア(即ち、重み)を決定し、それに基づいて骨格潜在ベクトルおよび側鎖潜在ベクトルを算出するために使用される。
【0071】
例えば、参照薬物分子に対応する原子潜在ベクトル(即ち、元の原子の潜在ベクトル)がH
nodeと表されると仮定すると、本願実施例における骨格潜在ベクトルZ
scaは、下記式(7)のように示し、側鎖潜在ベクトルZ
scは、下記式(8)のように示す:
【数28】
【0072】
上記の式(7)および式(8)において、softmax(・)関数は、マルチヘッド・アテンション・メカニズムの機能を実現し;W
1とW
2はいずれも、学習可能なパラメータであり;
【数29】
の転置を表す。
【0073】
もちろん、前述した式(7)および式(8)は例示に過ぎず、本願の他の実施例では、前述した式(7)および式(8)をさらに適切に変形(例えば、倍数の増加、倍数の減少、一定値増加、一定値減少など)して、新たな計算式を得ることができる。
【0074】
図2に示すように、ステップS230において、骨格潜在ベクトルの空間分布に基づいて、骨格潜在ベクトルに対して目標ホッピング度(指定されたホッピング度とも称する)を有する目標骨格潜在ベクトルを生成する。
【0075】
本願実施例において、骨格潜在ベクトルの空間分布は、混合ガウス分布であってもよいし、vMFM(von Mises-Fisher Mixture)分布などであってもよい。以下は、混合ガウス分布を例にとって説明する:
【0076】
本願実施例において、複数の骨格クラスタを予め設定してもよく、これらの複数の骨格クラスタ内の各骨格クラスタのクラスタ中心は、混合ガウス分布に適合する。例えば、これらの複数の骨格クラスタは、骨格クラスタリングアルゴリズム(即ち、クラスタ化アルゴリズム)によって、既存の分子の骨格をクラスタリングすることによって得られたものであり、1つの骨格クラスタのクラスタ中心を混合ガウス分布に適合し、このようにして、1つの骨格クラスタに含まれている骨格潜在ベクトルはいずれも、この混合ガウス分布に対応する空間分布に帰属する。
【0077】
この場合、骨格潜在ベクトルが得られた後、骨格潜在ベクトルと各骨格クラスタのクラスタ中心との間の第1距離を決定することができ、次に、当該第1距離に基づいて、参照薬物分子の骨格が属する目標骨格クラスタを決定し、さらに、当該目標骨格クラスタのクラスタ中心に基づいて、骨格潜在ベクトルが属する混合ガウス分布を決定する。
【0078】
例えば、m番目の骨格クラスタのクラスタ中心は、(μ
m,σ
m)と表すことができ、ここで、μ
mは、クラスタの中心を表し、σ
mは、標準偏差を表す。一般的な表現として、i番目の薬物分子に対応する骨格潜在ベクトルをZ
sca,iとすると、i番目の薬物分子に対応する骨格潜在ベクトルZ
sca,iと、m番目の骨格クラスタのクラスタ中心との間の距離d
iは、式(9)のように示すことができる:
【数30】
【0079】
上記の式(9)から算出されたi番目の薬物分子に対応する骨格潜在ベクトルZsca,iと、m番目の骨格クラスタのクラスタ中心との間の距離diに基づいて、クラスタ中心とi番目の薬物分子に対応する骨格潜在ベクトルZsca,iとの間の距離に最も近い目標骨格クラスタ(ciと記す)を選択することができ、さらに、目標骨格クラスタciのクラスタ中心(μi,σi)に基づいて骨格クラスタベクトルが属する混合ガウス分布を決定することができる。
【0080】
参照薬物分子に対応する骨格潜在ベクトルの空間分布が得られ、目標骨格クラスタが決定された後、ニーズに応じて、参照薬物分子に対応する骨格潜在ベクトルに対して指定されたホッピング度を有する目標骨格潜在ベクトルを生成することができ、以下に詳細に説明する:
【0081】
図3Cに示すように、本願実施例における目標ホッピング度を有する目標骨格潜在ベクトルを生成する過程は、ステップS310cおよびステップS320cを含み得、詳細な説明は、次の通りである:
【0082】
ステップS310cにおいて、目標ホッピング度に基づいて目標骨格クラスタに対してランダムサンプリング処理を実行して、当該目標ホッピング度に対応するオフセット量を得る。
【0083】
ステップS320cにおいて、参照薬物分子の骨格潜在ベクトルと当該目標ホッピング度に対応するオフセット量とを加算処理して、目標骨格潜在ベクトルを得る。
【0084】
例えば、指定されたホッピング度は、同一の骨格クラスタ内のホッピングであってもよいし、隣接骨格クラスタへのホッピングであってもよいし、遠い骨格クラスタへのホッピングであってもよく、以下は、これら3つのホッピング方式について説明する。
【0085】
本願実施例において、指定されたホッピング度が第1ホッピング度である場合、目標骨格クラスタの分散とランダムサンプリングによって得られた第1ベクトルとの積算によって、第1オフセット量を得、次に、第1オフセット量と参照薬物分子に対応する骨格潜在ベクトルとを加算して、目標骨格潜在ベクトルを生成することができる。例えば、当該第1ホッピング度は、同一の骨格クラスタ内のホッピングであってもよい。
【0086】
具体的には、目標骨格クラスタをc
iと表し、参照薬物分子に対応する骨格潜在ベクトルをZ
scaと表すと仮定する場合、第1ホッピング度を有する生成された目標骨格潜在ベクトルは、下記式(10)によって示されることができる:
【数31】
【0087】
上記の式(10)において、Znew_scaは、生成された目標骨格潜在ベクトルを表し;σ2(ci)は、目標骨格クラスタciのクラスタ中心に合致する混合ガウス分布の分散を表し;N(0,1)は、平均値が0、標準偏差が1である分布に基づくランダムサンプリングを表す。
【0088】
本願実施例において、指定されたホッピング度が第2ホッピング度である場合、目標骨格クラスタのクラスタ中心からの距離が第1設定値以下である第1骨格クラスタを複数の骨格クラスタから選択し、次に、第1骨格クラスタの分散とランダムサンプリングによって得られた第2ベクトルとの積算と、目標骨格クラスタのクラスタ中心と、第1骨格クラスタのクラスタ中心とに基づいて、第2オフセット量を生成し、さらに、第2オフセット量と参照薬物分子に対応する骨格潜在ベクトルとを加算して、目標骨格潜在ベクトルを生成することができる。例えば、当該第2ホッピング度は、隣接骨格へのホッピングであってもよい。
【0089】
例えば、目標骨格クラスタをc
iと表し、第1骨格クラスタをc
jと表し、参照薬物分子に対応する骨格潜在ベクトルをZ
scaと表すと仮定する場合、第2ホッピング度を有する生成された目標骨格潜在ベクトルは、下記式(11)によって示されることができる:
【数32】
【0090】
上記の式(11)において、Z
new_scaは、生成された目標骨格潜在ベクトルを表し;σ
2(c
j)は、第1骨格クラスタc
jのクラスタ中心に合致する混合ガウス分布の分散を表し;N(0,1)は、平均値が0、標準偏差が1である分布に基づくランダムサンプリングを表し;μ(c
i)は、目標骨格クラスタc
iの中心を表し;μ(c
j)は、第1骨格クラスタc
jの中心を表し;μ(c
k)は、骨格クラスタc
kの中心を表し;δ’は、第1設定値を表し;π(・)は、1つの多項行列(multi-nominal)サンプリングを表し;
【数33】
は、骨格クラスタc
iのクラスタ中心からの距離がδ’以下である骨格クラスタc
jを見つけることを表す。
【0091】
本願実施例において、指定されたホッピング度が第3ホッピング度である場合、目標骨格クラスタのクラスタ中心からの距離が第2設定値以上である第2骨格クラスタを複数の骨格クラスタから選択し、次に、第2骨格クラスタの分散とランダムサンプリングによって得られた第3ベクトルとの積算、目標骨格クラスタのクラスタ中心、第2骨格クラスタのクラスタ中心に基づいて、第3オフセット量を生成し、さらに、第3オフセット量と参照薬物分子に対応する骨格潜在ベクトルとを加算して、目標骨格潜在ベクトルを生成することができる。例えば、当該第3ホッピング度は、遠い骨格クラスタへのホッピングであってもよい。
【0092】
例えば、目標骨格クラスタをc
iと表し、第2骨格クラスタをc
jと表し、参照薬物分子に対応する骨格潜在ベクトルをZ
scaと表すと仮定する場合、第3ホッピング度を有する生成された目標骨格潜在ベクトルを下記式(12)によって示されることができる:
【数34】
【0093】
上記の式(12)において、Z
new_scaは、生成された目標骨格潜在ベクトルを表し;σ
2(c
j)は、第2骨格クラスタc
jのクラスタ中心に合致する混合ガウス分布の分散を表し;N(0,1)は、平均値が0、標準偏差が1である分布に基づくランダムサンプリングを表し;μ(c
i)は、目標骨格クラスタc
iの中心を表し;μ(c
j)は、第2骨格クラスタc
jの中心を表し;μ(c
k)は、骨格クラスタc
kの中心を表し;Δは、第2設定値を表し;π(・)は、1つの多項行列(multi-nominal)サンプリングを表し;
【数35】
は、骨格クラスタc
iのクラスタ中心からの距離がΔ以上である骨格クラスタc
jを見つけることを表す。
【0094】
なお、前述した式(9)~式(12)は例示に過ぎず、本願の他の実施例では、前述した式(9)~式(12)をさらに適切に変形(例えば、倍数の増加、倍数の減少、一定値増加、一定値減少など)して、新たな計算式を得ることができる。
【0095】
続いて、
図2に示すように、ステップS240において、目標骨格潜在ベクトルおよび側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成する。
【0096】
本願実施例において、参照薬物分子中の骨格潜在ベクトルを目標骨格潜在ベクトルで置き換え、側鎖潜在ベクトルと結合してホッピング後の薬物分子を得ることができる。
【0097】
本願実施例において、指定された参照薬物分子の標的(target)および目標活性値も取得することができ、次に、目標骨格潜在ベクトル、側鎖潜在ベクトル、参照薬物分子の標的および目標活性値に基づいて、ホッピング後の薬物分子を生成する。当該実施例の技術的解決策では、参照薬物分子の標的および目標活性値によって、生成された薬物分子の活性を制限することができる。
【0098】
本願実施例において、ホッピング後の薬物分子を生成した後、さらに、生成された薬物分子に対して選別処理を実行することができる。例えば、ホッピング後の薬物分子に基づいて、物理化学的性質の分子ろ過処理を実行して、薬物様特性の薬物分子を得、次に、参照薬物分子に対応する共晶構造を取得し、薬物様特性の薬物分子を共晶構造にドッキングして、薬物様特性の薬物分子と共晶構造との結合様式に基づいて、共晶構造にマッチングしない薬物分子を除去して、選別後の薬物分子を得ることができ;さらに、選別後の薬物分子と共晶構造のドッキングに基づいて、化合物の合成と検証を実行することができる。
【0099】
例えば、参照薬物分子に対応する共晶構造は、参照薬物分子が存在する共晶構造または参照薬物分子の同系化合物が存在する共晶構造であり得る。共晶構造にマッチングしない薬物分子は、ドッキング後の構造が著しく不合理な薬物分子である可能性がある。
【0100】
本願実施例において、機械学習モデルを介して、上記の実施例における関連処理を実行することができる。機械学習モデルを訓練する過程で、本願実施例の技術的解決策によれば、交差エントロピー損失およびサンプル分子への機械学習モデルの予測損失に応じて、損失関数を生成する技術案を提出した。以下、交差エントロピー損失および予測損失を取得する方法をそれぞれ説明する:
【0101】
本願実施例において、交差エントロピー損失の計算において、サンプル分子に対応するサンプル骨格潜在ベクトルを取得することができ、同時に、複数の骨格クラスタ(これらの複数の骨格クラスタは、前述した参照薬物分子への処理に使用される複数の骨格クラスタと同一であってもよい)を取得することができ、これらの複数の骨格クラスタ内の各骨格クラスタのクラスタ中心は、混合ガウス分布に適合する。次に、サンプル分子のサンプル骨格潜在ベクトルと各骨格クラスタのクラスタ中心との間の第2距離を決定し、当該第2距離に基づいて、サンプル分子のサンプル骨格が属する骨格クラスタを決定し、さらに、サンプル骨格潜在ベクトルとサンプル骨格が属する骨格クラスタのクラスタ中心との間の距離に基づいて、距離に基づく交差エントロピー損失を生成する。
【0102】
なお、サンプル分子に対応するサンプル骨格潜在ベクトルを取得する技術案は、参照薬物分子に対応する骨格潜在ベクトルを得る技術案と同様であるため、これ以上言及しない。同時に、サンプル分子のサンプル骨格潜在ベクトルと各骨格クラスタのクラスタ中心との間の第2距離を計算する式も、前述した式(9)によって計算して得られるものであり得る。
【0103】
例えば、前述した式(9)を例にとって説明(サンプル分子と参照薬物分子の関連計算式および処理方式が同じであるため、式(9)を用いて、参照薬物分子に対応する骨格潜在ベクトルと骨格クラスタのクラスタ中心との間の距離、およびサンプル分子に対応する骨格潜在ベクトルと骨格クラスタのクラスタ中心との間の距離を計算することができる)すると、式(13)に示すように、i番目の薬物分子(ここでは、i番目のサンプル分子と理解できる)に対応するサンプル骨格潜在ベクトルとサンプル骨格が属する骨格クラスタのクラスタ中心との間の距離をd
iと表すと仮定する場合、d
iの基で一定の偏向を加えて、モデル訓練の正確さを向上させることができる:
【数36】
【0104】
式(13)において、dadj,iは、diの基で偏向を加えた後の距離を表し;onehot(・)は、ワンホット符号化の関数を表し;ciは、ここで、i番目のサンプル分子のサンプル骨格が属する骨格クラスタを表し;δは、パラメータを表す。
【0105】
本願実施例において、d
adj,iが得られた後、下記式(14)に基づいて、距離に基づく交差エントロピー損失L
clsを生成することができる:
【数37】
【0106】
式(14)において、σmは、m番目の骨格クラスタのクラスタ中心に合致する混合ガウス分布の標準偏差を表す。
【0107】
本願実施例において、機械学習モデルには、デコーダが含まれ、機械学習モデルによってサンプル分子に対応するサンプル骨格潜在ベクトルおよびサンプル側鎖潜在ベクトルが取得された後、サンプル骨格潜在ベクトル、サンプル側鎖潜在ベクトルおよびサンプル分子に対応する目標分子を当該デコーダに入力し、次に、デコーダの出力と目標分子に基づいて、機械学習モデルの予測損失を計算する。
【0108】
なお、目標分子は、サンプル分子が処理された後に所望の生成分子である。サンプル分子に対応するサンプル骨格潜在ベクトルおよびサンプル側鎖潜在ベクトルを取得する技術案は、参照薬物分子に対応する骨格潜在ベクトルおよび側鎖潜在ベクトルを取得する技術案と類似しているため、ここでは詳細な説明を繰り返さない。
【0109】
本願実施例において、交差エントロピー損失および機械学習モデルの予測損失が計算された後、交差エントロピー損失および機械学習モデルの予測損失に基づいて、機械学習モデルの損失関数を生成することができ、さらに、当該損失関数に基づいて、機械学習モデルのパラメータを調整する。例えば、下記式(15)によって、機械学習モデルの損失関数Lを生成することができる:
【数38】
【0110】
上記の式(15)において、Lreconは、機械学習モデルの予測損失を表し;βは、2つの損失間の重みを調整するためのハイパーパラメータを表す。
【0111】
機械学習モデルへの訓練は、上記の損失関数Lを最小限にすることを目的としており、その中で、交差エントロピー損失Lclsの設定は、機械学習モデルへの訓練後に、機械学習モデルによって決定された骨格潜在ベクトルのそれぞれが、それが属する骨格クラスタの中心付近にあることを可能な限り保証することを目的とし;予測損失Lreconの設定は、機械学習モデルの訓練後、機械学習モデルが優れた目標骨格潜在ベクトルを見つけることを可能な限り保証し、さらに、条件に合致する薬物分子を得ることを保証することを目的とする。
【0112】
機械学習モデルへの訓練後に、機械学習モデルに基づいて参照薬物分子を処理してホッピング後の薬物分子を得ることができ、本願実施例の技術的解決策を容易に理解するために、以下は、
図3~
図10と組み合わせて本願実施例の技術的解決策の実現詳細を詳細に説明する:
【0113】
図4Aに示すように、機械学習モデルを介して分子骨格ホッピングの処理を実行する際に、モデル構造は、グラフエンコーダ(Graph Encoder)401、原子マスキングおよび読み出し関数(Node Masking and Graph Readout)、混合ガウス分布(GM:Gaussian mixture distribution)フィッティング処理、およびデコーダ402を含み得る。ここで、グラフエンコーダは、主に、薬物分子に対応する原子潜在ベクトルを生成するために使用され;原子マスキングおよび読み出し関数部分は、主に、原子マスキング処理によって、骨格潜在ベクトルおよび側鎖潜在ベクトルを取得するために使用され;混合ガウス分布フィッティング処理は、異なるホッピング度の処理を実現するために、骨格潜在ベクトルの混合ガウス分布を実現するために使用され;デコーダは、ホッピング処理後に得られた薬物分子を出力するために使用される。以下は、これらの部分についてそれぞれ詳細に説明する:
【0114】
本願実施例において、グラフエンコーダは、グラフ畳み込みニューラルネットワークである、ダイレクト・メッセージ・パッシング・ニューラルネットワーク(D-MPNN:Directed Message Passing Neural Network)を含む。グラフ畳み込みニューラルネットワークは、化学構造を含むグラフ構造に直接作用し、単一の固定長の特徴ベクトルを分子に割り当てるフィンガープリント表現とは異なり、グラフ構造表現は、特徴ベクトルを化学構造内の各結合(bond)と原子に割り当てる。
【0115】
簡単に言えば、D-MPNNは、マルチステップ・ニューラルネットワークとして理解でき、各ステップは、本質的にフィードフォワード・ニューラルネットワークであり、当該ニューラルネットワークは、次のステップの入力として使用される潜在的表現形態のセットを生成する。D-MPNNの主要事項は、分子図の局所サブ構造を利用して潜在ベクトルを更新する、メッセージ伝達ステップである。メッセージ伝達ステップの後、すべてのエッジからの潜在ベクトルが単一の固定長の潜在ベクトルに集約され、予測を生成するために、フィードフォワード・ニューラルネットワークに供給される。
図4Bに示すように、各結合は、一対の有向辺で表され、
図4Bに示す(a)におけるオレンジ色指向性結合(即ち、(a)の3→2と4→2)からのメッセージは、赤色指向性結合(即ち、(a)の2→1)の隠れ状態の更新を通知するために使用される。(b)における緑色指向性結合(即ち、(b)の5→1)からのメッセージは、紫色指向性結合(即ち、(b)の1→2)の隠れ状態の更新を通知するために使用される。
図4Bに示す(c)は、(a)における赤色有向結合(即ち、(a)の2→1)の隠れ表現形態の更新機能を示し、それは、反復プロセスであり、複数回(例えば、5回)繰り返すことができる。
図4Bに示す合併(concat)は、深層学習におけるポリシーであり、可変サイズの入力サンプルを効果的に処理することができる。
【0116】
1つの薬物分子については、グラフエンコーダに入力する前に、先に、薬物分子を、辺と点には対応する化学結合および原子の属性を有する連結グラフの構造に変換することができ、このような薬物分子に対応する連結グラフの構造は、
【数39】
と表し、ここで、Aは、接続行列を表し、Xは、ノード特徴を表し、Eは、辺特徴を表す。連結グラフの構造において、ノードは、薬物分子の原子を表し;ノード特徴は、薬物分子の原子特徴を示すために使用され、例えば、原子量、原子電荷数、原子タイプ、原子価状態、原子が環内にあるか否か、芳香環内の原子であるか否かなどを含み得る。辺特徴は、薬物分子の原子間の特徴を示すために使用され、例えば、辺が一重結合の辺か二重結合の辺か、辺が環内か、辺が芳香環内にあるか否かなどを含み得る。その上で、連結グラフの構造をD-MPNNに入力して処理することは、前述した式(1)~式(5)で表され、最後に、連結グラフの構造内の各ノードの潜在ベクトル、即ち薬物分子中の各原子の潜在ベクトルを得る。さらに、行列の方式で薬物分子に対応する原子潜在ベクトル、即ち各ノードの潜在ベクトルを行と列の形式の行列(例えば、H行列)に配列することにより、薬物分子に対応する原子潜在ベクトルを表すことができる。
【0117】
本願実施例において、
図5に示すように、原子マスキングおよび読み出し関数部分は主に、すべての原子の潜在ベクトル表現(即ち、薬物分子に対応する原子の潜在ベクトル)を得た後、原子へのマスキング読み出しにより、骨格および側鎖の潜在ベクトル表現、即ち、骨格潜在ベクトルおよび側鎖潜在ベクトルを得るために使用される。
【0118】
例えば、1つのビットベクトルに基づいて原子マスキング処理を実行することができ、当該ビットベクトルの長さは、薬物分子に含まれる原子数と同じである。例えば、当該ビットベクトルは、上記の式(6)により表されることができる。
【0119】
本願実施例において、読み出し関数は、骨格潜在ベクトルおよび側鎖潜在ベクトルを得るために使用され、さらに、本願実施例では、選択的自己注意力メカニズムが使用される。1つの薬物分子の原子潜在ベクトルをHnodeと仮定すると、骨格潜在ベクトルおよび側鎖潜在ベクトルは、それぞれ前述した式(7)と式(8)で算出することができる。
【0120】
本願実施例において、混合ガウス分布のフィッティング処理は、主に、異なるホッピング度の処理を実現するために、骨格潜在ベクトルの混合ガウス分布を実現する。側鎖については、ガウス分布フィッティングを行ってもよいし、分布仮設を実行しなくてもよい。本願実施例では、側鎖をよりよく維持するために、ガウス分布の仮設を実行せずに、オートエンコーダ(AutoEncoder)方法を採用して、側鎖の隠れ空間を処理することができる。
【0121】
本願実施例において、既存の分子の骨格は、予め骨格クラスタリングアルゴリズムによってM個の異なる骨格クラスタに分割されることができる。既存の分子は、機械学習モデルの訓練に使用されるサンプル分子であってもよいし、分子ライブラリから選択された分子であってもよく、これらの分子は薬物分子に限定されない。骨格隠れ空間では、同一の骨格クラスタの点が互いに近く、異なる骨格クラスタの点が互いに離れていることが望ましいため、M個の隠れ空間のクラスタ中心を(μ
m,σ
m)に設定することができ、ここで、μ
mは、クラスタの中心を表し、σ
mは、標準偏差を表す。さらに、上記の式(9)により、i番目の薬物分子に対応する骨格潜在ベクトルZ
sca,iとm番目の骨格クラスタのクラスタ中心との間の距離d
iを求めることができ、同時に、上記の式(13)により、当該距離d
iに対して偏向を加え、偏向を加えた後の距離表現方式は、
図6に示すようである。距離を計算した後、上記の式(14)により、距離に基づく交差エントロピー損失L
clsを計算することができる。
【0122】
本願実施例において、デコーダは、SMILESデコーダを採用することができ、即ち、隠れ層の表現をグラフではなく、SMILESに復号する。SMILESは、規則に応じて展開されたグラフのスパニングツリー(Spanning Tree)として理解でき、各薬物分子はいずれも、対応するcanonical SMILESを有することができるため、デコーダがSMILESを使用するのは合理的である。
図7に示すように、デコーダは、訓練過程のt時刻で、モデルの前時刻の出力を使用する代わりに、訓練データセットの実データ(Ground Truth)を次時刻の入力x(t+1)として使用することを動作原理とする、teacher forcingモードに従うことができる。
図7の701は実データの入力部分であり、702はモデルの出力部分である。
【0123】
本願実施例において、エンコーダの最終出力結果と正解(即ち、実データ)とに基づいて損失再構成(即ち、損失予測)を行って、Lreconを得る。一方、モデルの損失関数は再構成損失と交差エントロピー損失を含み、前述した式(15)を参照することができる。
【0124】
モデルを訓練した後、モデルを使用して分子の生成を行うことができ、分子の生成過程で、参照薬物分子として分子を入力する必要があり、参照薬物分子は、骨格置換を必要とする薬物分子である。さらに、参照薬物分子内の置換を必要とする骨格も表記することができ、参照薬物分子の構造を連結グラフの構造に変換してモデルに入力した後、モデルは、参照薬物分子に対応する骨格潜在ベクトルおよび側鎖潜在ベクトルを得ることができ、
図8に示すように、グラフエンコーダ801と
図4Aのグラフエンコーダ401の作用は同じであり、その処理プロセスは、前述した実施例で紹介された関連内容と類似しており、詳細な説明を繰り返さない。
【0125】
本願実施例において、骨格潜在ベクトルを取得した後、分子の生成過程は、モデルの訓練過程とはわずかに異なっており、分子の生成過程で、目標骨格潜在ベクトルが得られると、再サンプリング処理が必要である。復号処理プロセスは、
図9に示すようである。デコーダ901と
図4Aのデコーダ402の作用は同じである。ここで、側鎖潜在ベクトルは変更されず、サンプリング処理も実行されない。骨格潜在ベクトルは、モデル訓練により、混合ガウス分布の状態を呈し、このような分布状態は、骨格ホッピング処理を容易にする。
【0126】
本願実施例において、ホッピング度の状況に応じて、ホッピング方式を、同一の骨格クラスタ内のホッピング(scaffold crawling)、隣接骨格クラスタへのホッピング(scaffold hopping)、遠い骨格クラスタへのホッピング(scaffold leaping)の3つに分けることができる。
図10に示すように、scaffold crawlingは、最も軽微なホッピングであり、ホッピング後の分子の変化が最も小さく、主に、骨格潜在ベクトルは、同じ参照薬物分子の骨格クラスタからサンプリング(
図10のクラスタ1001)され、新たなサンプリング点に対応する目標骨格潜在ベクトル(即ち、新たに生成された骨格潜在ベクトル)を、前述した式(10)で表すことができる。
【0127】
scaffold hoppingは、大きなホッピングであり、ホッピング後の分子骨格の変化が大きく、骨格潜在ベクトルは、参照薬物分子の隣接骨格クラスタからサンプリング(
図10のクラスタ1002)され、新たなサンプリング点に対応する目標骨格潜在ベクトル(即ち、新たに生成された骨格潜在ベクトル)を、前述した式(11)で表すことができる。
【0128】
scaffold leapingは、最大限のホッピングであり、ホッピング後の分子骨格変化は非常に大きく、骨格潜在ベクトルは、参照薬物分子の骨格クラスタから遠く離れたクラスタからサンプリング(
図10のクラスタ1003)され、新たなサンプリング点に対応する目標骨格潜在ベクトル(即ち、新たに生成された骨格潜在ベクトル)を、前述した式(12)で表すことができる。
【0129】
続いて、
図9に示すように、側鎖潜在ベクトルと目標骨格潜在ベクトルを得る一方で、参照薬物分子の標的や期待値に対応するpIC50値などの活性条件をモデルに入力する必要がある。側鎖潜在ベクトル、目標骨格潜在ベクトル、活性条件の3つのベクトルを得た後、モデルは、SMILESデコーダを介して、新たなホッピング後の薬物分子を生成することができる。
【0130】
本願実施例において、骨格ホッピング後に生成された薬物分子は、次の2つの段階の選別を通過することができる。最初の段階は、物理化学的性質に基づく分子ろ過であり、リピンスキーの法則(Lipinski’s Rule of Five)などに従って選別を行うことができ、後続の評価における分子がいずれも薬物様特性を持つようにすることを保証するのをその目的とし;2番目の段階は、物理化学的性質の要件に合致する薬物様分子へのリガンドを準備し、後続の分子ドッキング段階に進入することであり、その目的は、標的との真の強い結合能力を持つ薬物様分子を選択することである。
【0131】
例えば、分子ドッキングための結晶構造は、タンパク質データファイル(PDB:Protein Data Bank)データベースから検索することができ、例えば、参照薬物分子またはその同系化合物が存在する共晶構造を選択することができ、同時に、選択された結晶構造が、高分解能で、結合ポケット近傍タンパク質の構造が完全であることを保証する必要がある。ドッキング中に、先に、分子ドッキングソフトウェアでタンパク質の準備を行い、次に、用意した結晶構造に分子をドッキングし、結合様式により、構造の正確さを判断するとともに、共晶構造における分子結合様式も、分子ドッキングのテンプレートとして用い、AIによって生成された分子の結合様式が合理的か否かを分析するために使用される。当該実施例の技術的解決策では、仮想選別により、構造的に明らかに不合理である分子を除去し、次に、前段階で保持したすべての構造に対して、より高精度の分子ドッキングを実行し、その後、3次元-畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)により、得られた結合様式を再スコアリングして、3D-CNNのスコアが少なくとも0.8(数値は例示に過ぎず)より大きく且つ重要な作用部位の結合様式が失われていない分子を選択し、さらに、化合物の合成と検証を実行することができる。
【0132】
なお、前述した実施例において、グラフエンコーダは、Dual-MPNNを採用することもできる。しかしながら、SMILESデコーダは、grammar-変分自動エンコーダ(VAE:Variational Autoencoder)、構文制御型VAE(SD-VAE:Syntax Directed-VAE)、およびTransformerの復号部分など、種々の自然言語処理のデコーダに置き換えることができる。
【0133】
本願の上記の実施例の技術的解決策によれば、骨格潜在ベクトルを空間分布にマッピングすることにより、生成された目標骨格潜在ベクトルが薬化学的専門家の設計マインドセットから飛び出すようにし、ひいては優れた新規性を達成することができるとともに、電子機器による自動的な実行が可能となり、人件費および時間コストを削減することができる。
【0134】
以下は、本願の装置の実施例について説明し、本願の上記の実施例における分子骨格ホッピングの処理方法を実行するために使用されることができる。本願の装置の実施例に開示されていない詳細については、本願の上記の分子骨格ホッピングの処理方法の実施例を参照することができる。
【0135】
図11は、本願実施例に係る分子骨格ホッピングの処理装置のブロック図を示し、当該分子骨格ホッピングの処理装置は、計算処理機能を有する機器内、例えば、
図1に示すサーバ130内に設置されることができる。
【0136】
図11に示すように、本願実施例の分子骨格ホッピングの処理装置1100は、第1生成ユニット1102と、第1処理ユニット1104と、第2生成ユニット1106と、第3生成ユニット1108とを備える。
【0137】
ここで、第1生成ユニット1102は、参照薬物分子に対応する連結グラフの構造に基づいて、前記参照薬物分子に対応する原子潜在ベクトルを生成するように構成され;第1処理ユニット1104は、前記原子潜在ベクトルに対して原子マスキング処理を実行して、前記原子潜在ベクトルに含まれる骨格潜在ベクトルおよび側鎖潜在ベクトルを得るように構成され;第2生成ユニット1106は、前記骨格潜在ベクトルの空間分布に基づいて、前記骨格潜在ベクトルに対して目標ホッピング度を有する目標骨格潜在ベクトルを生成するように構成され;第3生成ユニット1108は、前記目標骨格潜在ベクトルおよび前記側鎖潜在ベクトルに基づいて、ホッピング後の薬物分子を生成するように構成される。
【0138】
いくつかの実施例において、前述した技術案に基づいて、前記連結グラフの構造内のノードは、前記参照薬物分子の原子を表し;第1生成ユニット1102は、次のように構成される:前記連結グラフの構造に含まれるノード特徴および辺特徴に基づいて、グラフエンコーダを介して前記連結グラフの構造内の各ノードのノード情報を決定し、前記ノード特徴は、前記参照薬物分子の原子特徴を表し、前記辺特徴は、前記参照薬物分子の原子間の特徴を表し;前記各ノードのノード情報および前記各ノードのノード特徴に基づいて、前記各ノードの潜在ベクトルを生成し;前記各ノードの潜在ベクトルおよび前記参照薬物分子に含まれる原子に基づいて、前記参照薬物分子に対応する原子潜在ベクトルを生成する。
【0139】
いくつかの実施例において、前述した技術案に基づいて、第1生成ユニット1102は、次のように構成される:前記グラフエンコーダは、複数のカスケード隠れ層を含み;前記連結グラフの構造における第1ノードのノード特徴、前記連結グラフの構造における第2ノードのノード特徴、および前記第1ノードの隣接ノードにおける前記第2ノード以外の他のノードと前記第1ノードとの間の第1隠れ層内の辺情報に基づいて、前記第1ノードと前記第2ノードとの間の第2隠れ層内の情報を決定し、前記第1ノードは、前記連結グラフの構造内の任意のノードであり、前記第2ノードは、前記連結グラフの構造内の前記第1ノードの任意の隣接ノードであり、前記第2隠れ層は、前記第1隠れ層の次の隠れ層であり;前記第1ノードと前記他のノードとの間の第1隠れ層内の辺情報、および前記第1ノードと前記第2ノードとの間の第2隠れ層内の情報に基づいて、前記第1ノードと前記第2ノードとの間の第2隠れ層内の辺情報を決定し;ここで、前記連結グラフの構造内の2つのノード間の初期隠れ層内の辺情報は、前記2つのノードのうちの1つのノードのノード特徴、および前記2つのノード間の辺特徴に基づいて得られるものであり;各ノードの前記複数の隠れ層における対応する辺情報を加算処理して、前記各ノードのノード情報を得る。
【0140】
いくつかの実施例において、前述した技術案に基づいて、第1処理ユニット1104は、次のように構成される:前記参照薬物分子に対応するビットベクトルを決定し、前記ビットベクトルの長さは、前記参照薬物分子に含まれる原子数と同じであり、前記ビットベクトルにおける骨格原子に対応するビット値は、第1値であり;前記ビットベクトルに基づいて前記参照薬物分子に対応する原子潜在ベクトルに対して選別処理を実行して、前記骨格原子の潜在ベクトルおよび側鎖原子の潜在ベクトルを得;前記骨格原子の潜在ベクトルに対してマルチヘッドアテンション処理を実行して、前記骨格潜在ベクトルを得、前記側鎖原子の潜在ベクトルに対してマルチヘッドアテンション処理を実行して、前記側鎖潜在ベクトルを得る。
【0141】
いくつかの実施例において、前述した技術案に基づいて、第1処理ユニット1104はさらに、次のように構成される:複数の骨格クラスタを取得し、前記複数の骨格クラスタ内の各骨格クラスタのクラスタ中心は、混合ガウス分布に合致し;前記骨格潜在ベクトルと前記各骨格クラスタのクラスタ中心との第1距離を決定し、前記第1距離に基づいて前記参照薬物分子の骨格が属する目標骨格クラスタを決定し;前記目標骨格クラスタのクラスタ中心に応じて前記骨格潜在ベクトルが属する混合ガウス分布を決定する。
【0142】
いくつかの実施例において、前述した技術案に基づいて、第2生成ユニット1106は、次のように構成される:前記目標ホッピング度に基づいて前記目標骨格クラスタに対してランダムサンプリング処理を実行して、前記目標ホッピング度に対応するオフセット量を得;前記骨格潜在ベクトルと前記前記目標ホッピング度に対応するオフセット量とを加算処理して、前記目標骨格潜在ベクトルを得る。
【0143】
いくつかの実施例において、前述した技術案に基づいて、第2生成ユニット1106は、前記目標ホッピング度が第1ホッピング度である場合、前記目標骨格クラスタの分散とランダムサンプリングによって得られた第1ベクトルとを積算処理して、第1オフセット量を得、前記第1オフセット量を前記第1ホッピング度に対応するオフセット量として使用するように構成され、ここで、前記第1ホッピング度は、同一の骨格クラスタ内のホッピングを表す。
【0144】
いくつかの実施例において、前述した技術案に基づいて、第2生成ユニット1106は、次のように構成される:前記目標ホッピング度が第2ホッピング度である場合、前記複数の骨格クラスタから第1骨格クラスタを選択し、前記第1骨格クラスタのクラスタ中心と前記目標骨格クラスタのクラスタ中心との間の距離が第1設定値以下であり、前記第2ホッピング度は、隣接骨格クラスタへのホッピングを示し;前記第1骨格クラスタの分散とランダムサンプリングによって得られた第2ベクトルとの積算、前記目標骨格クラスタのクラスタ中心と前記第1骨格クラスタのクラスタ中心に基づいて、第2オフセット量を生成し、前記第2オフセット量を前記第2ホッピング度に対応するオフセット量として使用する。
【0145】
いくつかの実施例において、前述した技術案に基づいて、第2生成ユニット1106は、次のように構成される:前記指定されたホッピング度が第3ホッピング度である場合、前記複数の骨格クラスタから第2骨格クラスタを選択し、前記第2骨格クラスタのクラスタ中心と前記目標骨格クラスタのクラスタ中心との間の距離は、第2設定値以上であり;前記第2骨格クラスタの分散とランダムサンプリングによって得られた第3ベクトルとの積算、前記目標骨格クラスタのクラスタ中心と前記第2骨格クラスタのクラスタ中心に基づいて、第3オフセット量を生成し、前記第3オフセット量を前記第3ホッピング度に対応するオフセット量として使用する。
【0146】
いくつかの実施例において、前述した技術案に基づいて、第3生成ユニット1108は、指定された前記参照薬物分子の標的と目標活性値を取得し、前記目標骨格潜在ベクトル、前記側鎖潜在ベクトル、前記参照薬物分子の標的と前記目標活性値に基づいて、ホッピング後の薬物分子を生成するように構成される。
【0147】
いくつかの実施例において、前述した技術案に基づいて、前記装置1100はさらに、第2処理ユニットを備え、第2処理ユニットは、ホッピング後の薬物分子を生成した後、前記ホッピング後の薬物分子に基づいて物理化学的性質の分子ろ過処理を実行して、薬物様特性の薬物分子を得;前記参照薬物分子に対応する共晶構造を取得し、前記薬物様特性の薬物分子を前記共晶構造にドッキングし;前記薬物様特性の薬物分子と前記共晶構造との結合様式に基づいて、前記共晶構造にマッチングしない薬物分子を除去して、選別後の薬物分子を得;前記選別後の薬物分子と前記共晶構造のドッキングに基づいて、化合物の合成と検証を実行するように構成される。
【0148】
いくつかの実施例において、前述した技術案に基づいて、前記分子骨格ホッピングの処理方法は、機械学習モデルによって実現され、前記装置1100さらに、第3処理ユニットを備え、第3処理ユニットは、次のように構成される:サンプル分子に対応するサンプル骨格潜在ベクトルを取得し、複数の骨格クラスタを取得し、前記複数の骨格クラスタ内の各骨格クラスタのクラスタ中心は、混合ガウス分布に合致し;前記サンプル分子のサンプル骨格潜在ベクトルと各骨格クラスタのクラスタ中心との間の第2距離を決定し、前記第2距離に基づいて前記サンプル分子のサンプル骨格が属する骨格クラスタを決定し;前記サンプル骨格潜在ベクトルと、前記サンプル骨格が属する骨格クラスタのクラスタ中心との間の距離に基づいて、距離に基づく交差エントロピー損失を生成し;前記交差エントロピー損失および前記サンプル分子に対する前記機械学習モデルの予測損失に基づいて、前記機械学習モデルの損失関数を生成し、前記損失関数に基づいて前記機械学習モデルのパラメータを調整する。
【0149】
いくつかの実施例において、前述した技術案に基づいて、前記機械学習モデルには、デコーダが含まれ、前記第3処理ユニットはさらに、前記機械学習モデルを介して前記サンプル分子に対応するサンプル骨格潜在ベクトルおよびサンプル側鎖潜在ベクトルを取得した後、前記サンプル骨格潜在ベクトル、前記サンプル側鎖潜在ベクトルおよび前記サンプル分子に対応する目標分子を前記デコーダに入力し;前記デコーダの出力および前記目標分子に基づいて前記予測損失を決定するように構成される。
【0150】
図12は、本願実施例に係る電子機器を実現するのに適するコンピュータシステムの概略的な構造図を示す。
【0151】
なお、
図12に示す電子機器のコンピュータシステム1200は、一例に過ぎず、本願実施例の機能および使用範囲を限定するものではない。
【0152】
図12に示すように、コンピュータシステム1200は、中央処理ユニット(CPU:Central Processing Unit)1201を備え、CPU1201は、読み取り専用メモリ(ROM:Read-Only Memory)1202に記憶されたプログラム、または記憶部分1208からランダムアクセスメモリ(RAM:Random Access Memory)1203にロードされたプログラムに応じて、上記の実施例に記載の方法などの種々の適切な動作や処理を実行することができる。RAM1203には、システム動作に必要な種々のプログラムやデータも記憶されている。CPU1201、ROM1202およびRAM1203は、バス1204を介して互いに接続されている。入力/出力(I/O:Input/Output)インタフェース1205もバス1204に接続されている。
【0153】
I/Oインタフェース1205には、キーボード、マウスなどを含む入力部分1206と、陰極線管(CRT:Cathode Ray Tube)、液晶ディスプレイ(LCD:Liquid Crystal Display)およびスピーカなどの出力部分1207と、ハードディスクなどを含む記憶部分1208、およびLAN(Local Area Network)カード、モデムなどのネットワークインタフェースカードを含む通信部分1209とが接続されている。通信部分1209は、インターネットなどのネットワークを介して通信処理を実行する。ドライバ1210は、必要に応じてI/Oインタフェース1205にも接続される。ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア1211は、必要に応じてドライバ1210にインストールされ、それから読み出されたコンピュータプログラムが必要に応じて記憶部分1208にインストールされる。
【0154】
特に、本願実施例によれば、フローチャートを参照して説明した上記の過程は、コンピュータソフトウェアプログラムとして実装されることができる。例えば、本願実施例は、コンピュータ可読媒体上にロードされたコンピュータプログラムを含む、コンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのコンピュータプログラムを含む。このような実施例において、当該コンピュータプログラムは、通信部分1209を介してネットワークからダウンロードおよびインストールされ、および/またはリムーバブルメディア1211からインストールされてもよい。当該コンピュータプログラムがCPU1201によって実行されると、本願のシステムに限定される種々の機能が実行される。
【0155】
なお、本願実施例に示すコンピュータ可読媒体は、コンピュータ可読信号媒体であってもよいし、コンピュータ可読記憶媒体であってもよいし、これらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、または半導体のシステム、装置またはデバイス、または任意の組み合わせであってもよいが、これに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1つまたは複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM:Erasable Programmable Read Only Memory)、フラッシュメモリ、光ファイバ、ポータブルコンパクトディスクディスク読み取り専用メモリ(CD-ROM:Compact Disc Read-Only Memory)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形媒体であってもよく、当該プログラムは、命令実行システム、装置またはデバイスによって使用されるか、またはそれらと組み合わせて使用されることができる。本願において、コンピュータ可読信号媒体は、ベースバンド内に含まれるか、またはキャリアの一部によって伝播されるデータ信号として使用され得、その中には、コンピュータ可読コンピュータプログラムを搬送する。このような伝播されるデータ信号は、複数の形態を採用することができるが、電磁信号、光信号、または上述した任意の適切な組み合わせを含むが、これらに限定されるものではない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得、当該コンピュータ可読媒体は、命令実行システム、装置またはデバイスによって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるコンピュータプログラムは、無線、有線、または上記の任意の適切な組み合わせを含むが、これらに限定されない任意の適切な媒体で伝送することができる。
【0156】
図面のフローチャートおよびブロック図は、本願の様々な実施例によるシステム、方法、およびコンピュータプログラム製品の実装可能なアーキテクチャ、機能、および動作を示す。ここで、フローチャートまたはブロック図内の各プロックは、所定の論理機能を実装するための1つまたは複数の実行可能命令を含む、モジュール、プログラムセグメント、またはコードの一部を表すことができる。なお、代替としての実装の中には、プロックに記載された機能は、図面に記載されたものとは異なる順序で発生してもよい。例えば、連続して表される2つのプロックは、実際には、実質的に並列に実行されてもよく、場合によっては、関連する機能に応じて逆の順序で実行されてもよい。なお、ブロック図またはフローチャートの各プロック、およびブロック図またはフローチャートのプロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実現してもよいし、専用のハードウェアとコンピュータ命令の組み合わせで実現してもよい。
【0157】
本願実施例に係るユニットは、ソフトウェアの形で実装してもよいし、ハードウェアの形で実装してもよいし、記載されたユニットはプロセッサ内に設置されてもよい。ここで、これらのユニットの名称は、場合によってはそのユニット自体に対する限定を構成しない。
【0158】
別の態様として、本願実施例はさらに、コンピュータ可読媒体を提供し、当該コンピュータ可読媒体は、上記の実施例で説明した電子機器に含まれるものであってもよいし、当該電子機器に組み込まれずに独立して存在してもよい。上記のコンピュータ可読媒体には、1つまたは複数のプログラムが記憶されており、上記の1つまたは複数のプログラムが1つの当該電子機器によって実行されるときに、当該電子機器に上記の実施例に記載の方法を実現させる。
【0159】
なお、上述の詳細な説明では、動作実行のための機器のいくつかのモジュールまたはユニットについて言及したが、このような分割は必須ではない。実際には、本願の実施形態によれば、上述した2つ以上のモジュールまたはユニットの特徴および機能は、1つのモジュールまたはユニット内で具体化され得る。逆に、上述した1つのモジュールまたはユニットの特徴および機能は、複数のモジュールまたはユニットによってさらに具体化されるように、さらに分割され得る。
【0160】
以上の実施形態の説明により、当業者は、本明細書で説明する例示的な実施形態が、ソフトウェアによって実現してもよいし、必要なハードウェアをソフトウェアに結合して実現してもよいことを理解できる。したがって、本願実施形態の技術的解決策は、ソフトウェア製品の形態で具現することができ、当該ソフトウェア製品は、1台のコンピューティング機器(パーソナルコンピュータ、サーバ、タッチ端末、またはネットワーク機器など)に本願実施形態による方法を実行させるためのいくつかの命令を含む、不揮発性記憶媒体(CD-ROM、Uディスク、リムーバブルハードディスクなどであってもよい)またはネットワーク上に記憶され得る。
【0161】
当業者は、明細書を考慮し、本明細書に開示された本発明の実施形態を実践した後、本願の他の実施形態を容易に想到し得る。本願は、本発明の任意の変形、用途、または適応的変化を網羅することを意図している。これらの変形、用途、または適応的変化は、本開示の一般的原理に従い、且つ本開示で開示されていない当技術分野における周知の常識または慣用技術手段を含む。明細書および実施例は、例示的なものと見なされるべきであり、本発明の真の範囲および趣旨は、以下の特許請求の範囲で指摘される。
【0162】
なお、本願は、上述した図面に示した具体構成に限定されるものではなく、その範囲を逸脱しない範囲で種々の修正及び変更が可能であることを理解されたい
【符号の説明】
【0163】
100 システムアーキテクチャ
110 端末
120 ネットワーク
130 サーバ
701 実データの入力部分
702 モデルの出力部分
1001,1002,1003 クラスタ
1100 分子骨格ホッピングの処理装置
1102 第1生成ユニット
1104 第1処理ユニット
1106 第2生成ユニット
1108 第3生成ユニット
1200 コンピュータシステム
1201 中央処理ユニット(CPU)
1202 読み取り専用メモリ(ROM)
1203 ランダムアクセスメモリ(RAM)
1204 バス
1205 入力/出力(I/O)インタフェース
1206 入力部分
1207 出力部分
1208 記憶部分
1209 通信部分
1210 ドライバ
1211 リムーバブルメディア