IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2022-68277化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム
<>
  • 特開-化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム 図1
  • 特開-化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム 図2
  • 特開-化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム 図3
  • 特開-化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム 図4
  • 特開-化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム 図5
  • 特開-化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム 図6
  • 特開-化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022068277
(43)【公開日】2022-05-09
(54)【発明の名称】化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
   G16C 20/30 20190101AFI20220426BHJP
   G16C 20/70 20190101ALI20220426BHJP
【FI】
G16C20/30
G16C20/70
【審査請求】有
【請求項の数】15
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2022021792
(22)【出願日】2022-02-16
(31)【優先権主張番号】202110577762.8
(32)【優先日】2021-05-26
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000796
【氏名又は名称】特許業務法人三枝国際特許事務所
(72)【発明者】
【氏名】劉▲リー▼行
(72)【発明者】
【氏名】雷潔▲チォン▼
(72)【発明者】
【氏名】方暁敏
(72)【発明者】
【氏名】何東龍
(72)【発明者】
【氏名】王凡
(57)【要約】
【課題】本開示は、属性情報がアノテートされたサンプル量の少ない場合に、高精度の化合物属性予測モデルを訓練することができる深層学習、ニューラルネットワークなどの人工知能分野に関する、化合物属性予測モデル訓練方法を提供する。
【解決手段】上記方法は、第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報を取得することと、第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとし、訓練して空間構造予測モデルを得ることと、第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、空間構造予測モデルに基づいて訓練して化合物属性予測モデルを得ることと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報を取得することと、
前記第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとし、訓練して空間構造予測モデルを得ることと、
第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、前記空間構造予測モデルに基づいて訓練を継続して行い化合物属性予測モデルを得ることであって、属性情報がアノテートされた第二サンプル化合物のオーダーが、属性情報がアノテートされていない第一サンプル化合物のオーダーよりも小さいことと、を含む、
化合物属性予測モデル訓練方法。
【請求項2】
前述した第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報を取得することは、
前記第一サンプル化合物を構成する各原子、各前記原子からなる化学結合を取得することと、
分子動力学シミュレーションまたは実験的測定計算により、各前記原子の三次元座標、異なる前記化学結合間の結合角、各前記原子の原子距離、および各前記原子と各前記化学結合とによって共同して表現される全体的ポテンシャルエネルギーを決定することと、
前記三次元座標、前記結合角、前記原子距離および前記全体的ポテンシャルエネルギーのうちの少なくとも1つを前記第一サンプル化合物の空間構造情報とすることと、を含む、
請求項1に記載の方法。
【請求項3】
化合物の属性情報は、水溶性、毒性、プリセットタンパク質とのマッチング度、化合物反応特性、安定性および分解性のうちの少なくとも1つを含む、
請求項1に記載の方法。
【請求項4】
前述した第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、前記空間構造予測モデルに基づいて訓練を継続して行い化合物属性予測モデルを得ることは、
前記空間構造予測モデルを制御し、前記第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとしたサンプルペアから対応関係を微調整により学習させ、前記化合物属性予測モデルを得ることを含む、
請求項1に記載の方法。
【請求項5】
前記空間構造予測モデルの複雑度がプリセット複雑度を超えたことに応答して、モデル蒸留技術によって蒸留を行い、軽い空間構造予測モデルを得ることをさらに含む、
請求項1-4のいずれか一項に記載の方法。
【請求項6】
属性が決定されていない測定対象化合物情報を取得することと、
請求項1-5のいずれか一項に記載の化合物属性予測モデル訓練方法によって得られたプリセットの化合物属性予測モデルを呼び出し、前記測定対象化合物の属性情報を予測することと、を含む、
化合物属性予測方法。
【請求項7】
第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報を取得するように構成された空間構造情報取得ユニットと、
前記第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとし、訓練して空間構造予測モデルを得るように構成された空間構造予測モデル訓練ユニットと、
第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、前記空間構造予測モデルに基づいて訓練を継続して行い化合物属性予測モデルを得るように構成された化合物属性予測モデル訓練ユニットと、を含み、属性情報がアノテートされた第二サンプル化合物のオーダーが、属性情報がアノテートされていない第一サンプル化合物のオーダーよりも小さい化合物属性予測モデル訓練装置。
【請求項8】
前記空間構造情報取得ユニットは、
前記第一サンプル化合物を構成する各原子、各前記原子からなる化学結合を取得することと、
分子動力学シミュレーションまたは実験的測定計算により、各前記原子の三次元座標、異なる前記化学結合間の結合角、各前記原子の原子距離、および各前記原子と各前記化学結合とによって共同して表現される全体的ポテンシャルエネルギーを決定することと、
前記三次元座標、前記結合角、前記原子距離および前記全体的ポテンシャルエネルギーのうちの少なくとも1つを前記第一サンプル化合物の空間構造情報とすることと、を実行するようにさらに構成される、
請求項7に記載の装置。
【請求項9】
化合物の属性情報は、水溶性、毒性、プリセットタンパク質とのマッチング度、化合物反応特性、安定性および分解性のうちの少なくとも1つを含む、
請求項7に記載の装置。
【請求項10】
前記化合物属性予測モデル訓練ユニットは、
前記空間構造予測モデルを制御し、前記第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとしたサンプルペアから対応関係を微調整により学習させ、前記化合物属性予測モデルを得るようにさらに構成される、
請求項7に記載の装置。
【請求項11】
前記空間構造予測モデルの複雑度がプリセット複雑度を超えたことに応答して、モデル蒸留技術によって蒸留を行い、軽い空間構造予測モデルを得るように構成されたモデル蒸留ユニットをさらに含む、
請求項7-10のいずれか一項に記載の装置。
【請求項12】
属性が決定されていない測定対象化合物情報を取得するように構成された測定対象化合物情報取得ユニットと、
請求項7-11のいずれか一項に記載の化合物属性予測モデル訓練装置によって得られたプリセットの化合物属性予測モデルを呼び出し、前記測定対象化合物の属性情報を予測するように構成された予測モデル呼び出しユニットと、を含む、
化合物属性予測装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令は、前記少なくとも1つのプロセッサが請求項1-5のいずれか一項に記載の化合物属性予測モデル訓練方法および/または請求項6に記載の化合物属性予測方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
電子デバイス。
【請求項14】
コンピュータ指令が請求項1-6のいずれか一項に記載の方法をコンピュータに実行させるために使用されることを特徴とする、コンピュータ指令が格納されている非一時的なコンピュータ可読記憶媒体。
【請求項15】
プロセッサによって実行されると、請求項1-6のいずれか一項に記載の方法を実行するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能分野、具体的に深層学習、ニューラルネットワークなどの技術分野、特に化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラムに関する。
【背景技術】
【0002】
近年、AI(Artificial Intelligence,人工知能)によって駆動された医薬品設計は従来の生物学的実験よりも多くの注目を浴びているので、深層学習方法を用いて、例えば、薬物毒性予測、薬物リガンドとタンパク質受容体との親和性の予測などのような薬物分子の正確な予測を促進することがますます重要になってきている。
【0003】
従って、化合物分子の関連属性を如何に正確に予測できるかは、当該分野における技術者が早急に解決すべき問題になる。
【発明の概要】
【0004】
本開示の実施例は、化合物属性予測モデル訓練方法および装置、化合物属性予測方法及び装置、電子デバイス、コンピュータ可読記憶媒体およびコンピュータプログラムを提供する。
【0005】
第一態様では、本開示の実施例は化合物属性予測モデル訓練方法を提供する。この方法は、第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報(spatial structure information)を取得することと、第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとし、訓練して空間構造予測モデルを得ることと、第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、空間構造予測モデルに基づいて訓練を継続して行い化合物属性予測モデルを得ることであって、属性情報がアノテート(annotate)された第二サンプル化合物のオーダーが、属性情報がアノテートされていない第一サンプル化合物のオーダーよりも小さいことと、を含む。
【0006】
第二態様では、本開示の実施例は化合物属性予測モデル訓練装置を提供する。この装置は、第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報を取得するように構成された空間構造情報取得ユニットと、第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとし、訓練して空間構造予測モデルを得るように構成された空間構造予測モデル訓練ユニットと、第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、空間構造予測モデルに基づいて訓練を継続して行い化合物属性予測モデルを得るように構成された化合物属性予測モデル訓練ユニットとを含み、属性情報がアノテートされた第二サンプル化合物のオーダーが属性情報のアノテートされていない第一サンプル化合物のオーダーよりも小さい。
【0007】
第三態様では、本開示の実施例は化合物属性予測方法を提供する。この方法は、属性が決定されていない測定対象化合物を取得することと、第一態様の実施形態のいずれかに記載の化合物属性予測モデル訓練方法によって得られたプリセットの化合物属性予測モデルを呼び出し、測定対象化合物の属性情報を予測することと、を含む。
【0008】
第四態様では、本開示の実施例は化合物属性予測装置を提供する。この装置は、属性が決定されていない測定対象化合物を取得するように構成された測定対象化合物情報取得ユニットと、
第二態様の実施形態のいずれかに記載の化合物属性予測モデル訓練装置によって得られたプリセットの化合物属性予測モデルを呼び出し、測定対象化合物の属性情報を予測するように構成された予測モデル呼び出しユニットと、を含む。
【0009】
第五態様では、本開示の実施例は電子デバイスを提供する。この電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、このメモリは、少なくとも1つのプロセッサによって実行可能な指令が記憶され、この指令は、少なくとも1つのプロセッサが第一態様の実施形態のいずれかに記載の化合物属性予測モデル訓練方法または第三態様の実施形態のいずれかに記載の化合物属性予測方法を実行できるように、少なくとも1つのプロセッサによって実行される。
【0010】
第六態様では、本開示の実施例はコンピュータ指令が格納されている非一時的なコンピュータ可読記憶媒体を提供する。このコンピュータ指令は、第一態様の実施形態のいずれかに記載の化合物属性予測モデル訓練方法または第三態様の実施形態のいずれかに記載の化合物属性予測方法をコンピュータに実行させるために使用される。
【0011】
第七態様では、本開示の実施例はコンピュータプログラムを提供する。このコンピュータプログラムは、プロセッサによって実行されると、第一態様の実施形態のいずれかに記載の化合物属性予測モデル訓練方法または第三態様の実施形態のいずれかに記載の化合物属性予測方法を実行することができる。
【0012】
本開示の実施例によって提供される化合物属性予測モデル訓練方法および化合物属性予測方法は、サンプル量の厖大な第一サンプル化合物およびその空間構造情報を借りて、まず、空間構造情報に関連する知識を学習した空間構造予測モデルを訓練し、次に、空間構造情報に関連する知識を有する空間構造予測モデルに基づいて、サンプル量の少なくて属性情報がアノテートされた第二サンプル化合物を用いて継続して訓練し、即ち、オリジナルの空間構造と属性との間の直接対応関係を2つの部分に分解して順次訓練し、属性情報がアノテートされていなくて多くのサンプル化合物データを充分に利用することにより、属性情報がアノテートされサンプル化合物の数が少ない場合に高精度の化合物属性予測モデルを得ることができるようになる。
【0013】
なお、このセクションで説明される内容は、本開示の実施例の主要または重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定することを意図するものでもないことを理解されるべきである。本開示の他の特徴は、以下の説明から理解が容易になる。
【図面の簡単な説明】
【0014】
本開示の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになる。
図1】本開示が適用され得る例示的なシステムアーキテクチャ図である。
図2】本開示の実施例によって提供される化合物属性予測モデル訓練方法のフローチャートである。
図3】本開示の実施例によって提供される、サンプル化合物の空間構造情報を取得する方法のフローチャートである。
図4】本開示の実施例によって提供される別の化合物属性予測モデル訓練方法のフローチャートである。
図5】本開示の実施例によって提供される化合物属性予測モデル訓練装置の構造ブロック図である。
図6】本開示の実施例によって提供される化合物属性予測装置の構造ブロック図である。
図7】本開示の実施例によって提供される化合物属性予測モデル訓練方法および/または化合物属性予測方法を実行するのに適した電子デバイスの構造概略図である。
【発明を実施するための形態】
【0015】
以下に図面を参照しながら、本開示の例示的な実施例を説明し、これらの実施例の様々な詳細を含む説明は理解を助けるためのものであり、単なる例示と理解すべきである。従って、本開示の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者にとって理解されるべきである。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。なお、本開示の実施例および実施例における構成は、矛盾しない限り、互いに組み合わせることができる。
【0016】
本開示の技術的解決手段に係るユーザ個人情報の取得、記憶、適用などはいずれも、関連法令の規定に沿って行われており、公序良俗に違反することなく必要な機密保護措置を採用している。
【0017】
図1は、本願が適用され得る、顔認識モデルの訓練および顔認識の方法、装置、電子デバイス、およびコンピュータ可読記憶媒体の実施例の例示的なシステムアーキテクチャ100を示す。
【0018】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供するための媒体である。ネットワーク104は、例えば、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
【0019】
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105とやりとりして、メッセージなどを送受信することができる。端末装置101、102、103およびサーバ105には、分子動力学シミュレーションアプリケーション、モデル訓練アプリケーション、モデル呼び出しアプリケーションなど、両者間の情報通信を実現するための様々なアプリケーションがインストールされ得る。
【0020】
端末装置101、102、103およびサーバ105は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置101、102、103がハードウェアである場合は、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を備えた様々な電子デバイスであり得る。端末装置101、102、103がソフトウェアである場合は、複数のソフトウェアまたはソフトウェアモジュールとして、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る上記の電子デバイスにインストールされ得るが、ここでは特に限定されない。サーバ105がハードウェアである場合は、複数のサーバからなる分散型サーバクラスタとして実装され得るか、または単一のサーバとして実装され得る。サーバがソフトウェアである場合は、複数のソフトウェアまたはソフトウェアモジュールとして実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得るが、ここでは特に限定されない。
【0021】
サーバ105は、内蔵される様々なアプリケーションを介して様々なサービスを提供できる。化合物属性予測サービスをユーザに提供できるモデル呼び出しアプリケーションを例にすると、サーバ105は、このモデル呼び出しアプリケーションを実行するときに以下の効果を実現することができる。まず、ネットワーク104を介して、端末装置101、102、103から導入された属性が決定されていない測定対象化合物を取得し、次に、プリセット位置に記憶されたプリセットの化合物属性予測モデルを呼び出し、この測定対象化合物の属性情報を予測する。
【0022】
ここで、化合物属性予測モデルは、サーバ105に内蔵されたモデル訓練アプリケーションを介して以下のステップに従って訓練して得ることができる。まず、第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報を取得する。そして、第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとし、訓練して空間構造予測モデルを得る。次に、第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、空間構造予測モデルに基づいて継続して訓練して化合物属性予測モデルを得る。属性情報がアノテートされた第二サンプル化合物のオーダーは属性情報がアノテートされていない第一サンプル化合物のオーダーよりも小さい。
【0023】
化合物属性予測モデルを訓練して得るために多くの計算リソースおよび強い計算能力を必要となるので、本願の後続の各実施例によって提供される化合物属性予測モデル訓練方法は、一般的に、強い計算能力および多くの計算リソースを備えたサーバ105によって実行される。対応して、化合物属性予測モデル訓練装置は、一般的に、サーバ105にも設置される。ただし、端末装置101、102、103も要件を満たす計算能力および計算リソースを備えている場合、端末装置101、102、103も、インストールされた化合物属性予測モデル訓練アプリケーションを介して、元々サーバ105に割り当てられた上記の様々な計算を完了し、さらにサーバ105と同じ結果を出力することができる。対応して、化合物属性予測モデル訓練装置は、端末装置101、102、103にも設置され得る。この場合、例示的なシステムアーキテクチャ100は、サーバ105およびネットワーク104を含まなくてもよい。
【0024】
当然のことながら、化合物属性予測モデルを訓練して得るためのサーバは、訓練済みの化合物属性予測モデルの呼び出しによって使用されるサーバと異なり得る。特別な場合、サーバ105を介して訓練された化合物属性予測モデルは、モデル蒸留方式により、端末装置101、102、103に内蔵されるのに適した軽い化合物属性予測モデルを得ることができ、即ち、実際の必要に応じた認識の精度に基づいて、端末装置101、102、103内の軽い化合物属性予測モデルを使用するか、それともサーバ105内の複雑な化合物属性予測モデルを使用するかを柔軟に選択することができる。
【0025】
なお、図1中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されるべきである。実装の必要に応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。
【0026】
図2を参照すると、図2は、本開示の実施例によって提供される化合物属性予測モデル訓練方法のフローチャートである。フロー200は、以下のステップを含む。
【0027】
ステップ201:第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報を取得する。
【0028】
このステップは、化合物属性予測モデル訓練方法の実行主体(例えば、図1に示すサーバ105)が第一サンプル化合物の空間構造情報を取得することを目的とする。
【0029】
一種の原子のみからなる単体と異なり、化合物は少なくとも二種の異なる原子によって構成され、各原子の間に様々な化学結合が形成されるので、空間構造情報は、原子および化学結合によって形成されていれば、例えば、化学結合間の結合角、結合の長さ、各原子の三次元座標、化合物分子の全体的なポテンシャルエネルギー、原子距離などである。具体的には、上記言及したいくつかの空間構造情報は、分子動力学シミュレーションアプリケーションまたは関連実験によって測定することが可能である。
【0030】
なお、空間構造が、基礎となる平面構造に基づいて次元をさらに増加させることによって形成されたもので、本開示に記載の空間構造情報は実際に、基礎となる平面構造情報も含まれている。
【0031】
空間構造情報を取得する理由として、ミクロ的な角度から見ると、化合物分子の属性予測、薬物と標的との相互作用などのダウンストリームタスクは本質的に、分子間(タンパク質は大きな分子とすることができる)相互作用の結果であり、このプロセスは分子の空間構造およびエネルギーと密接な関係を有する。従って、空間構造情報を取得することは、この相互作用を認識するための基礎となる。
【0032】
ステップ202:第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとし、訓練して空間構造予測モデルを得る。
【0033】
ステップ201に基づいて、このステップは、上記実行主体が、第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとしたサンプルペアから、それに含まれる対応関係を学習した空間構造予測モデルを訓練することを目的とする。全体的ポテンシャルエネルギーを例にすると、この空間構造予測モデルは、具体的に全体的ポテンシャルエネルギー予測モデルであり得る。即ち、訓練済みの全体的ポテンシャルエネルギー予測モデルは、化合物と該化合物の全体的ポテンシャルエネルギーとの対応関係を特徴付けることができる。
【0034】
なお、分子動力学シミュレーションなどのシミュレーションツールまたは実験的測定計算などの手段を介して化合物の空間構造情報を取得することが(化合物の属性情報の取得に対して)相対的に容易であるので、このステップで使用される訓練サンプルペアのオーダーは相対的に大きく、これに基づいて訓練されたこの空間構造予測モデルが、化合物の空間構造を認識するための関連知識を学習できるようにすることを目的とすることを理解すべきである。
【0035】
即ち、空間構造予測モデルは、初期化されたブランクモデルから開始し、第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとして使用し、訓練によって得たものである。
【0036】
ステップ203:第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、空間構造予測モデルに基づいて継続して訓練し化合物属性予測モデルを得る。
【0037】
このステップは、ステップ203によって訓練された空間構造予測モデルに基づいて、上記実行主体が、第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとしたサンプルペアから、それに含まれる対応関係を学習した化合物属性予測モデルを継続して訓練することを目的とする。
【0038】
即ち、空間構造予測モデルの訓練プロセスと異なり、化合物属性予測モデルは、初期化されたブランクモデルを訓練の基礎とするのではなく、事前に訓練済みの空間構造予測モデルを直接的に用いて訓練の基礎とし、第二サンプル化合物を用いて入力サンプルとし、対応する属性情報を出力サンプルとし、訓練によって得る。
【0039】
化合物と該化合物の全体的ポテンシャルエネルギーとの対応関係を特徴付けることができる空間構造予測モデルを基礎としているので、このステップによって訓練された化合物属性予測モデルは、化合物の空間構造と属性との対応関係を特徴付けることもできる。これは、化合物の属性が本来その空間構造と関連しているからである。
【0040】
具体的には、属性情報は、水溶性、毒性、プリセットタンパク質とのマッチング度、化合物反応特性、安定性および分解性のうちの少なくとも1つを含み得る。当然のことながら、上記に列挙したいくつかの特定の化合物属性に加えて、化合物によって、空間構造により表現された他の異なる属性があってもよいが、ここでは繰り返して列挙することを省略する。
【0041】
ここで、属性情報のアノテートされた第二サンプル化合物のオーダーは属性情報のアノテートされていない第一サンプル化合物のオーダーよりも小さく、オーダーの差は一般的に10乃至10であるので、属性情報がアノテートされた第二サンプル化合物の実際の数量を基礎とし、オーダーがそれよりも少なくとも10乃至10大きくなる属性情報がアノテートされていない第一サンプル化合物を選択して用いる。例えば、属性情報がアノテートされた第二サンプル化合物の総数が数千である場合、一般的に、属性情報のアノテートされていない第一サンプル化合物の総数が十万乃至千万のオーダーになることが必要となるので、第二サンプル化合物の総数が少ない場合に高精度の化合物属性予測モデルを訓練することができる。
【0042】
本開示の実施例によって提供される化合物属性予測モデル訓練方法は、サンプル量の厖大な第一サンプル化合物およびその空間構造情報を借りて、まず、空間構造情報に関連する知識を学習した空間構造予測モデルを訓練し、次に、空間構造情報に関連する知識を有する空間構造予測モデルに基づいて、サンプル量の少ない属性情報がアノテートされた第二サンプル化合物を継続して訓練し、即ち、オリジナルの空間構造と属性との直接対応関係を2つの部分に分解して順次訓練し、属性情報がアノテートされていない多くのサンプル化合物データを充分に利用することにより、属性情報がアノテートされたサンプル化合物の数が少ない場合に高精度の化合物属性予測モデルを得ることができる。
【0043】
図3を参照すると、図3は、本開示の実施例によって提供される、サンプル化合物の空間構造情報を取得する方法のフローチャートである。即ち、図2に示すフロー200のステップ201に対応する具体的な実施形態が提供される。フロー200の他のステップを調整することなく、ステップ201を本実施例によって提供された具体的な実施形態に置き換えることにより、新たな完全な実施例を得ることができる。フロー300は、以下のステップを含む。
【0044】
ステップ301:第一サンプル化合物を構成する各原子、各原子からなる化学結合を取得する。
【0045】
ステップ302:分子動力学シミュレーションまたは実験的測定計算により、各原子の三次元座標、異なる化学結合の間の結合角、各原子の原子距離、および各原子と各化学結合とによって共同して表現される全体的ポテンシャルエネルギーを決定する。
【0046】
ステップ301に基づいて、このステップは、上記実行主体が、分子動力学シミュレーションまたは実験的測定計算により、化合物の空間構造を、異なる角度から記述する異なる空間構造情報を取得することを目的とする。
【0047】
ここで、分子動力学シミュレーションはシミュレーションツールに属し、プリセットデータベース情報に基づいて仮想空間内の分子の具体的構造をシミュレートし、プリセットの構造安定性の認識条件に基づいて可能な空間構造を決定することができる。
【0048】
ステップ303:三次元座標、結合角、原子距離および全体的ポテンシャルエネルギーのうちの少なくとも1つを第一サンプル化合物の空間構造情報とする。
【0049】
ステップ302に基づいて、このステップは、上記実行主体が、三次元座標、結合角、原子距離および全体的ポテンシャルエネルギーのうちの少なくとも1つを第一サンプル化合物の空間構造情報とすることを目的とする。
【0050】
現在の化合物属性からみると、化学結合間の結合角が化合物を構成する各分子の空間構造を形成する重要な要素であるので、精度への要求が高くないシーンでは、各化学結合間の結合角のみを唯一の空間構造情報として使用してもよい。精度への要求が高いシーンでは、各化学結合間の結合角がコアとなる空間構造情報とし、三次元座標、原子距離、全体的ポテンシャルエネルギーなどを補完補助用の空間構造情報とし、コアおよび補完補助用の空間構造情報を統合することにより判別精度をできる限り向上させることができる。
【0051】
上記実施例のいずれかに基づいて、訓練済みの単層空間構造予測モデルを重畳することにより、高次空間構造予測モデルを得ることができる。それにより、存在し得るペアとより複雑な空間構造に対応する属性との間に関連付けられた予測要件を満たすことができる。
【0052】
具体的には、一層の空間構造予測モデルは一次ネイバー(first-order neighbors)の特徴および空間構造をモデリングすることができ、二層の空間構造予測モデルは二次ネイバーの特徴および空間構造をモデリングすることができ、これをもって類推してn層の空間構造予測モデルが重畳されると、n次ネイバーの特徴および空間構造をモデリングすることができる。従って、適切なnを設定することにより、高次または完全な3D空間構造をモデリングし、豊富で複雑な空間構造情報をネットワークに直接統合することができる。このようにして、化合物分子の各特徴および各空間構造を考慮して、より完全な情報を学習することができ、さらに様々な予測タスクにおけるモデルの性能を向上させることができる。例えば、分子毒性の判断の場合、DTI(Drug-Target Interaction、薬剤-標的相互作用)に基づいて標的薬を正確に認識し、DDI(Drug-Drug Interaction、薬物相互作用)に基づいて薬物併用効果などを事前に予測する。
【0053】
さらに、空間構造予測モデルの複雑度がプリセット複雑度を超えた場合、モデル蒸留技術によって蒸留し、軽い空間構造予測モデルを得ることができる。即ち、モデル蒸留技術により、複雑なモデル(即ち、教師モデル)の予測精度をできる限り保持させた上で、蒸留された生徒モデルの複雑度、オーダーおよび体積をできる限り縮小させることができる。
【0054】
図4を参照すると、図4は、本開示の実施例によって提供される別の化合物属性予測モデル訓練方法のフローチャートである。化学結合間の結合角を空間構造情報とし、化合物の毒性をその属性情報として選択して用いることを例にすると、フロー400は、以下のステップを含む。
【0055】
ステップ401:第一サンプル化合物を構成する各化学結合間の結合角を取得する。
【0056】
ステップ402:第一サンプル化合物を入力サンプルとし、対応する結合角情報を出力サンプルとし、訓練して結合角予測モデルを得る。
【0057】
即ち、結合角予測モデルは、初期化されたブランクモデルから開始し、第一サンプル化合物を入力サンプルとし、対応する結合角情報を使用して出力サンプルとして使用し、訓練によって得られた。
【0058】
ステップ403:結合角予測モデルを制御し、第二サンプル化合物を入力サンプルとし、対応する毒性情報を出力サンプルとしたサンプルペアから対応関係を微調整方式で学習させ、化合物属性予測モデルを得る。
【0059】
微調整技術は英語でFine Tuneといい、その技術的原理を概略的に述べると、まずネットワークの構造図を理解し、それからネットワークの一部を自身の必要とするモデルに修正することである。微調整技術を借りて、事前訓練モデルから開始し、ニューラルネットワークを自身のデータセットに適用することができる。
【0060】
化合物属性予測モデルは、結合角予測モデルを訓練の基礎とするもので、第二サンプル化合物を入力サンプルとし、対応する毒性情報を使用して出力サンプルとして使用し、訓練によって得られる。
【0061】
上記各実施例は、化合物属性予測モデルを如何に訓練するかを各方面から説明した。実際の使用シーンから、訓練された化合物属性予測モデルの効果をできる限り強調するために、本開示は、訓練済みの化合物属性予測モデルを使用して実際の問題を解決する具体的な解決手段をさらに提供する。化合物属性予測方法は、
【0062】
属性が決定されていない測定対象化合物を取得することと、
【0063】
プリセットの化合物属性予測モデルを呼び出し、前記測定対象化合物の属性情報を予測することと、を含む。
【0064】
本実施例の実行主体は、化合物属性予測モデルを訓練するための上記実行主体と異なるものであってもよく、同じ実行主体であってもよいので、実際の必要に応じて柔軟に選択され得るが、ここでは特に限定はしない。
【0065】
言い換えると、本開示によって提供される技術的解決手段は、モデル訓練段階において、まず、属性情報がアノテートされていない大規模な化合物分子を使用して事前訓練を行い、空間構造に関連する知識を学習(習得)し、次に、訓練済みの空間構造予測モデルを基礎とし、サンプル量の少なく属性情報がアノテートされた化合物分子に換えて用い微調整を行う。このようにすると、研究開発のコストを低減させ、何億ものパラメータおよび高価なグラフィックス演算リソースを必要とせずに実行可能なモデルを効果的に直接訓練することができるだけでなく、化合物の属性予測性能を向上させ、より良好な学習体験をユーザに提供することもできる。さらに、本開示によって提供された技術的解決手段は、ミクロ的角度の空間構造情報の豊富さをある程度開発させ、薬剤の開発効率を向上させ、後続の挑戦的な製薬問題を解決するために重要な解決手段を提供した。
【0066】
さらに図5および図6を参照すると、上記各図に示す方法の実施形態として、本開示は、図2に示す化合物属性予測モデル訓練方法の実施例に対応する化合物属性予測モデル訓練装置の実施例、および化合物属性予測方法の実施例に対応する化合物属性予測装置の実施例をそれぞれ提供する。上記装置は、様々な電子デバイスに適用できる。
【0067】
図5に示すように、本実施例の化合物属性予測モデル訓練装置500は、空間構造情報取得ユニット501と、空間構造予測モデル訓練ユニット502と、化合物属性予測モデル訓練ユニット503とを含み得る。ここで、空間構造情報取得ユニット501は、第一サンプル化合物を構成する原子および化学結合によって形成された空間構造情報を取得するように構成される。空間構造予測モデル訓練ユニット502は、第一サンプル化合物を入力サンプルとし、対応する空間構造情報を出力サンプルとし、訓練して空間構造予測モデルを得るように構成される。化合物属性予測モデル訓練ユニット503は、第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとし、空間構造予測モデルに基づいて訓練を継続して行い化合物属性予測モデルを得るように構成され、属性情報のアノテートされた第二サンプル化合物のオーダーは属性情報のアノテートされていない第一サンプル化合物のオーダーよりも小さい。
【0068】
本実施例では、化合物属性予測モデル訓練装置500において、空間構造情報取得ユニット501、空間構造予測モデル訓練ユニット502、および化合物属性予測モデル訓練ユニット503の具体的な処理とそれによって奏される技術的効果については、それぞれ図2に対応する実施例のステップ201-203の関連説明を参照することができるので、ここではその説明を省略する。
【0069】
本実施例のいくつかのオプション的な実施形態では、空間構造情報取得ユニット501は、
【0070】
第一サンプル化合物を構成する各原子、各原子からなる化学結合を取得することと、
【0071】
分子動力学シミュレーションまたは実験的測定計算により、各原子の三次元座標、異なる化学結合間の結合角、各原子の原子距離、および各原子と各化学結合とによって共同して表現される全体的ポテンシャルエネルギーを決定することと、
【0072】
三次元座標、結合角、原子距離および全体的ポテンシャルエネルギーのうちの少なくとも1つを第一サンプル化合物の空間構造情報とすることと、を実行するようにさらに構成され得る。
【0073】
本実施例のいくつかのオプション的な実施形態では、化合物属性情報は、水溶性、毒性、プリセットタンパク質とのマッチング度、化合物反応特性、安定性および分解性のうちの少なくとも1つを含む。
【0074】
本実施例のいくつかのオプション的な実施形態では、化合物属性予測モデル訓練ユニット503は、
【0075】
空間構造予測モデルを制御し、第二サンプル化合物を入力サンプルとし、対応する属性情報を出力サンプルとしたサンプルペアから対応関係を微調整方式で学習させ、化合物属性予測モデルを得るようにさらに構成され得る。
【0076】
本実施例のいくつかのオプション的な実施形態では、化合物属性予測モデル訓練装置500は、
【0077】
空間構造予測モデルの複雑度がプリセット複雑度を超えたことに応答して、モデル蒸留技術によって蒸留を行い、軽い空間構造予測モデルを得るように構成されたモデル蒸留ユニットをさらに含み得る。
【0078】
図6に示すように、本実施例の化合物属性予測装置600は、測定対象化合物情報取得ユニット601と、予測モデル呼び出しユニット602とを含み得る。ここで、測定対象化合物情報取得ユニット601は、属性が決定されていない測定対象化合物を取得するように構成される。予測モデル呼び出しユニット602は、化合物属性予測モデル訓練装置500によって得られたプリセットの化合物属性予測モデルを呼び出し、測定対象化合物の属性情報を予測するように構成される。
【0079】
本実施例では、化合物属性予測装置600において、測定対象化合物情報取得ユニット601、および予測モデル呼び出しユニット602の具体的な処理とそれにより奏される技術的効果については、それぞれ方法の実施例の関連説明を参照することができるので、ここではその説明を省略する。
【0080】
本実施例は、上記方法の実施例に対応する装置の実施例として存在し、本実施例によって提供される化合物属性予測モデル訓練装置および化合物属性予測装置は、サンプル量の厖大な第一サンプル化合物およびその空間構造情報を借りて、まず、空間構造情報に関連する知識を学習した空間構造予測モデルを訓練し、次に、空間構造情報に関連する知識を有する空間構造予測モデルに基づいて、サンプル量の少なく属性情報がアノテートされた第二サンプル化合物を継続して訓練し、即ち、オリジナルの空間構造と属性との直接対応関係を2つの部分に分解して順次訓練し、属性情報がアノテートされていない大量のサンプル化合物データを充分に利用することにより、属性情報がアノテートされたサンプル化合物の数が少ない場合に高精度の化合物属性予測モデルを得ることができる。
【0081】
本開示の実施例によれば、本開示は、電子デバイスをさらに提供する。この電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、このメモリは、少なくとも1つのプロセッサによって実行可能な指令が記憶され、この指令は、少なくとも1つのプロセッサが上記実施例のいずれかに記載の化合物属性予測モデル訓練方法および/または化合物属性予測方法を実行できるように、少なくとも1つのプロセッサによって実行される。
【0082】
本開示の実施例によれば、本開示は、コンピュータ指令が格納された可読記憶媒体をさらに提供する。このコンピュータ指令は、上記実施例のいずれかに記載の化合物属性予測モデル訓練方法および/または化合物属性予測方法をコンピュータに実行させるために使用される。
【0083】
本開示の実施例は、コンピュータプログラムを提供する。このコンピュータプログラムは、プロセッサによって実行されると、上記実施例のいずれかに記載の化合物属性予測モデル訓練方法および/または化合物属性予測方法を実行することができる。
【0084】
図7は、本開示の実施例を実施するために使用され得る例示的な電子デバイス700の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本開示の実施形態を限定することを意図したものではない。
【0085】
図7に示すように、デバイス700は、リードオンリメモリ(ROM)702に記憶されたコンピュータプログラム、または記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って、各種の適切な動作および処理を実行することができる計算ユニット701を含む。RAM703には、デバイス700の動作に必要な各種のプログラムおよびデータも記憶され得る。計算ユニット701、ROM702、およびRAM703は、バス704を介して互いに接続される。入力/出力(I/O)インターフェース705も、バス704に接続される。
【0086】
デバイス700内の複数のコンポーネントは、I/Oインターフェース705に接続されており、キーボード、マウスなどの入力ユニット706と、各種のディスプレイ、スピーカーなどの出力ユニット707と、磁気ディスク、光ディスクなどの記憶ユニット708と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709と、を含む。通信ユニット709は、デバイス700が、インターネットなどのコンピュータネットワーク、および/または様々な通信ネットワークを介して、他のデバイスとの間で情報/データを交換することを可能にする。
【0087】
計算ユニット701は、処理能力および計算能力を備えた様々な汎用および/または専用の処理コンポーネントであり得る。計算ユニット701のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上記各方法および処理、例えば、化合物属性予測モデル訓練方法および/または化合物属性予測方法を実行する。例えば、いくつかの実施例では、化合物属性予測モデル訓練方法および/または化合物属性予測方法は、記憶ユニット708などの機械可読媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM702および/または通信ユニット709を介して、デバイス700にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM703にロードされ、計算ユニット701によって実行されると、上記の化合物属性予測モデル訓練方法および/または化合物属性予測方法の1つまたは複数のステップが実行され得る。あるいは、他の実施例では、計算ユニット701は、他の任意の適切な手段(例えば、ファームウェア)を介して、化合物属性予測モデル訓練方法および/または化合物属性予測方法を実行するように構成され得る。
【0088】
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途用標準品(ASSP)、システムオンチップ(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび指令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
【0089】
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供され得るので、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図で指定された機能/動作が実行される。プログラムコードは、完全にマシン上で実行され得るか、または部分的にマシン上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され得るか、または完全にリモートマシンまたはサーバ上で実行され得る。
【0090】
本開示のコンテキストにおいて、機械可読媒体は、指令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ(CD-ROM)、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。
ユーザとのやりとりを提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとのやりとりを提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
【0091】
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態とのやりとりを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
【0092】
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介してやりとりする。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、クラウドコンピューティングサービスシステムのホスト製品として、従来の物理ホストおよび仮想プライベートサーバ(VPS、Virtual Private Server)のサービスにおける、管理の難しさが高く、サービスの拡張性が低いという欠点を解決する。
【0093】
本開示の実施例の技術的解決手段は、サンプル量の厖大な第一サンプル化合物およびその空間構造情報を借りて、まず、空間構造情報に関連する知識を学習した空間構造予測モデルを訓練し、次に、空間構造情報に関連する知識を有する空間構造予測モデルに基づいて、サンプル量の少なく属性情報がアノテートされた第二サンプル化合物を継続して訓練し、即ち、オリジナルの空間構造と属性との直接対応関係を2つの部分に分解して順次訓練し、属性情報がアノテートされていない大量のサンプル化合物データを充分に利用することにより、属性情報がアノテートされたサンプル化合物の数が少ない場合に高精度の化合物属性予測モデルを得ることができる。
【0094】
なお、ステップの並べ替え、追加、または削除は、上記様々な形態のプロセスによって実行され得ることを理解されるべきである。例えば、本開示に記載の各ステップは、本開示に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行され得るが、本明細書では限定はしない。
【0095】
上記特定の実施形態は、本開示の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかである。本開示の精神と原則の範囲内で行われた修正、均等な置換、改良などは、本開示の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】