IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7246813分子結合部位検出方法、装置、電子機器及びコンピュータプログラム
<>
  • 特許-分子結合部位検出方法、装置、電子機器及びコンピュータプログラム 図1
  • 特許-分子結合部位検出方法、装置、電子機器及びコンピュータプログラム 図2
  • 特許-分子結合部位検出方法、装置、電子機器及びコンピュータプログラム 図3
  • 特許-分子結合部位検出方法、装置、電子機器及びコンピュータプログラム 図4
  • 特許-分子結合部位検出方法、装置、電子機器及びコンピュータプログラム 図5
  • 特許-分子結合部位検出方法、装置、電子機器及びコンピュータプログラム 図6
  • 特許-分子結合部位検出方法、装置、電子機器及びコンピュータプログラム 図7
  • 特許-分子結合部位検出方法、装置、電子機器及びコンピュータプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-17
(45)【発行日】2023-03-28
(54)【発明の名称】分子結合部位検出方法、装置、電子機器及びコンピュータプログラム
(51)【国際特許分類】
   G16B 15/30 20190101AFI20230320BHJP
   G06T 7/00 20170101ALI20230320BHJP
   G06T 7/521 20170101ALI20230320BHJP
   G06N 3/02 20060101ALI20230320BHJP
【FI】
G16B15/30
G06T7/00 350C
G06T7/521
G06N3/02
【請求項の数】 11
(21)【出願番号】P 2021545445
(86)(22)【出願日】2021-02-26
(65)【公表番号】
(43)【公表日】2022-07-13
(86)【国際出願番号】 CN2021078263
(87)【国際公開番号】W WO2021203865
(87)【国際公開日】2021-10-14
【審査請求日】2021-08-03
(31)【優先権主張番号】202010272124.0
(32)【優先日】2020-04-09
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】李 ▲賢▼芝
(72)【発明者】
【氏名】▲陳▼ ▲廣▼勇
(72)【発明者】
【氏名】王 平安
(72)【発明者】
【氏名】▲張▼ ▲勝▼誉
【審査官】岡北 有平
(56)【参考文献】
【文献】特開2019-028879(JP,A)
【文献】中国特許出願公開第109887541(CN,A)
【文献】David Hoksza, et al.,P2Rank: machine learning based tool for rapid and accurate prediction of ligand binding sites from protein structure,Journal of Cheminformatics [online],2018年08月14日,Vol.10, No.39,Pages 1-12,[検索日:2022年10月14日], <URL:https://jcheminf.biomedcentral.com/articles/10.1186/s13321-018-0285-8>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
G06T 7/00
G06T 7/521
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
電子機器に適用される分子結合部位検出方法であって、前記方法は、
検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得するステップであって、前記目標分子は結合部位を検出すべき化学分子である、ステップ、
各部位に対応する第1の目標点と第2の目標点をそれぞれ決定するステップであって、いずれか1つの部位の第1の目標点は目標球形空間内に含まれるすべての部位の中心点であり、前記目標球形空間は前記いずれか1つの部位を球心とし、目標長さを半径とする球形空間であり、いずれか1つの部位の第2の目標点は原点を始点とし、前記部位を指し示すベクトルの順方向延長線と前記目標球形空間の外表面との交点である、ステップ、
前記少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、前記少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップであって、前記位置特徴は前記少なくとも1つの部位の前記目標分子中に位置する位置情報を特徴付けることに用いられる、ステップ、
部位検出モデルを呼び出して抽出した前記位置特徴に対して予測処理を行うことによって、前記少なくとも1つの部位の少なくとも1つの予測確率を得るステップであって、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられる、ステップ、及び
前記少なくとも1つの予測確率に基づいて、前記目標分子中の前記少なくとも1つの部位内の結合部位を決定するステップ、を含み、
前記少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、前記少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出する前記ステップは、
前記少なくとも1つの部位のうちのいずれか1つの部位に対して、前記部位、前記部位に対応する第1の目標点、及び前記部位に対応する第2の目標点の三次元座標に基づいて、前記部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップを含み、
前記部位、前記部位に対応する第1の目標点、及び前記部位に対応する第2の目標点の三次元座標に基づいて、前記部位の三次元座標中において回転不変特性を有する位置特徴を抽出する前記ステップは、
前記部位、前記第1の目標点、及び前記第2の目標点の三次元座標に基づいて、前記部位のグローバル位置特徴を構築するステップであって、前記グローバル位置特徴は前記部位の目標分子内に位置する空間位置情報を特徴付けることに用いられる、ステップ、
前記部位、前記第1の目標点、前記第2の目標点、及び前記部位の少なくとも1つの隣接領域点の三次元座標に基づいて、前記部位と前記少なくとも1つの隣接領域点との間の少なくとも1つの局所位置特徴を構築するステップであって、1つの局所位置特徴は前記部位と1つの隣接領域点との間の相対位置情報を特徴付けることに用いられる、ステップ、及び
前記グローバル位置特徴と前記少なくとも1つの局所位置特徴に基づいて、前記部位の位置特徴を取得するステップ、を含み、
前記部位検出モデルはグラフ畳み込みニューラルネットワークであり、前記グラフ畳み込みニューラルネットワークは入力層、少なくとも1つのエッジ畳み込み層、及び出力層を含み、
部位検出モデルを呼び出して抽出した前記位置特徴に対して予測処理を行うことによって、前記少なくとも1つの部位の少なくとも1つの予測確率を得る前記ステップは、
前記少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、前記入力層によって前記少なくとも1つの部位のグラフデータを出力するステップであって、前記グラフデータはグラフの形で部位の位置特徴を表すことに用いられる、ステップ、
少なくとも1つの部位のグラフデータを前記グラフ畳み込みニューラルネットワーク中の少なくとも1つのエッジ畳み込み層に入力し、前記少なくとも1つのエッジ畳み込み層によって前記少なくとも1つの部位のグラフデータに対して特徴抽出を行い、前記少なくとも1つの部位のグローバル生物学的特徴を得るステップ、及び
前記グローバル生物学的特徴、前記少なくとも1つの部位のグラフデータ、及び前記少なくとも1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴を融合し、融合して得た特徴を前記グラフ畳み込みニューラルネットワークの出力層に入力し、前記出力層によって前記融合して得た特徴に対して確率フィッティングを行い、前記少なくとも1つの予測確率を得るステップ、を含む、分子結合部位検出方法。
【請求項2】
前記グローバル位置特徴は、前記部位のノルム、前記部位と前記第1の目標点との間の距離、前記第1の目標点と前記第2の目標点との間の距離、第1の夾角の余弦値、又は第2の夾角の余弦値のうちの少なくとも一つを含み、前記第1の夾角は第1の線分と第2の線分との間でなす夾角であり、前記第2の夾角は前記第2の線分と第3の線分との間でなす夾角であり、前記第1の線分は前記部位と前記第1の目標点との間でなす線分であり、前記第2の線分は前記第1の目標点と前記第2の目標点との間でなす線分であり、前記第3の線分は前記部位と前記第2の目標点との間でなす線分である、請求項に記載の方法。
【請求項3】
前記少なくとも1つの隣接領域点のうちのいずれか1つの隣接領域点に対して、前記部位と前記隣接領域点との間の局所位置特徴は、前記隣接領域点と前記部位との間の距離、前記隣接領域点と前記第1の目標点との間の距離、前記隣接領域点と前記第2の目標点との間の距離、第3の夾角の余弦値、第4の夾角の余弦値、又は第5の夾角の余弦値のうちの少なくとも一つを含み、前記第3の夾角は第4の線分と第5の線分との間でなす夾角であり、前記第4の夾角は前記第5の線分と第6の線分との間でなす夾角であり、前記第5の夾角は前記第6の線分と前記第4の線分との間でなす夾角であり、前記第4の線分は前記隣接領域点と前記部位との間でなす線分であり、前記第5の線分は前記隣接領域点と前記第1の目標点との間でなす線分であり、前記第6の線分は前記隣接領域点と前記第2の目標点との間でなす線分である、請求項に記載の方法。
【請求項4】
前記少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、前記入力層によって前記少なくとも1つの部位のグラフデータを出力する前記ステップは、
前記少なくとも1つの部位の位置特徴を前記入力層中の多層パーセプトロンに入力し、前記多層パーセプトロンによって前記少なくとも1つの部位の位置特徴に対してマッピングを行い、前記少なくとも1つの部位の第1の特徴を得るステップであって、前記第1の特徴の次元は前記位置特徴の次元よりも大きい、ステップ、及び
前記少なくとも1つの部位の第1の特徴を前記入力層中のプーリング層に入力し、前記プーリング層によって前記少なくとも1つの部位の第1の特徴に対して次元削減を行い、前記少なくとも1つの部位のグラフデータを得るステップ、を含む、請求項に記載の方法。
【請求項5】
前記少なくとも1つのエッジ畳み込み層によって前記少なくとも1つの部位のグラフデータに対して特徴抽出を行い、前記少なくとも1つの部位のグローバル生物学的特徴を得る前記ステップは、
前記少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に対して特徴抽出を行い、抽出したエッジ畳み込み特徴を次の1つのエッジ畳み込み層に入力するステップ、
前記少なくとも1つの部位のグラフデータ、及び前記少なくとも1つのエッジ畳み込み層によって出力された少なくとも1つのエッジ畳み込み特徴をステッチして、第2の特徴を得るステップ、
前記第2の特徴を多層パーセプトロンに入力し、前記多層パーセプトロンによって前記第2の特徴に対してマッピングを行い、第3の特徴を得るステップ、及び
前記第3の特徴をプーリング層に入力し、前記プーリング層によって前記第3の特徴に対して次元削減を行い、前記グローバル生物学的特徴を得るステップ、を含む、請求項に記載の方法。
【請求項6】
前記少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に対して特徴抽出を行い、抽出したエッジ畳み込み特徴を次の1つのエッジ畳み込み層に入力する前記ステップは、
前記少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に基づいて、クラスタリンググラフを構築するステップ、
前記クラスタリンググラフを前記エッジ畳み込み層中の多層パーセプトロンに入力し、前記多層パーセプトロンによって前記クラスタリンググラフに対してマッピングを行い、前記クラスタリンググラフの中間特徴を得るステップ、及び
前記中間特徴を前記エッジ畳み込み層中のプーリング層に入力し、前記プーリング層によって前記中間特徴に対して次元削減を行い、次元削減後の中間特徴を次の1つのエッジ畳み込み層中に入力するステップ、を含む、請求項に記載の方法。
【請求項7】
融合して得た特徴を前記グラフ畳み込みニューラルネットワークの出力層に入力し、前記出力層によって前記融合して得た特徴に対して確率フィッティングを行い、前記少なくとも1つの予測確率を得る前記ステップは、
融合して得た特徴を前記出力層中の多層パーセプトロンに入力し、前記多層パーセプトロンによって前記融合して得た特徴に対してマッピングを行い、前記少なくとも1つの予測確率を得るステップを含む、請求項に記載の方法。
【請求項8】
前記少なくとも1つの予測確率に基づいて、前記目標分子中の前記少なくとも1つの部位内の結合部位を決定する前記ステップは、
前記少なくとも1つの部位の中から、予測確率が確率閾値よりも大きい部位を結合部位として決定するステップを含む、請求項1に記載の方法。
【請求項9】
分子結合部位検出装置であって、前記装置は、取得モジュール、第1の決定モジュール、抽出モジュール、予測モジュール、及び第2の決定モジュールを含み、
前記取得モジュールは、検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得することに用いられ、前記目標分子は結合部位を検出すべき化学分子であり、
前記第1の決定モジュールは、各部位に対応する第1の目標点と第2の目標点をそれぞれ決定することに用いられ、いずれか1つの部位の第1の目標点は目標球形空間内に含まれるすべての部位の中心点であり、前記目標球形空間は前記いずれか1つの部位を球心とし、目標長さを半径とする球形空間であり、いずれか1つの部位の第2の目標点は原点を始点とし、前記部位を指し示すベクトルの順方向延長線と前記目標球形空間の外表面との交点であり、
前記抽出モジュールは、前記少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、前記少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出することに用いられ、前記位置特徴は前記少なくとも1つの部位の前記目標分子中に位置する位置情報を特徴付けることに用いられ、
前記予測モジュールは、部位検出モデルを呼び出して抽出した前記位置特徴に対して予測処理を行うことによって、前記少なくとも1つの部位の少なくとも1つの予測確率を得ることに用いられ、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられ、
前記第2の決定モジュールは、前記少なくとも1つの予測確率に基づいて、前記目標分子中の前記少なくとも1つの部位内の結合部位を決定することに用いられ
前記抽出モジュールは、抽出ユニットを含み、
前記抽出ユニットは、前記少なくとも1つの部位のうちのいずれか1つの部位に対して、前記部位、前記部位に対応する第1の目標点、及び前記部位に対応する第2の目標点の三次元座標に基づいて、前記部位の三次元座標中において回転不変特性を有する位置特徴を抽出することに用いられ、
前記抽出ユニットは、さらに、
前記部位、前記第1の目標点、及び前記第2の目標点の三次元座標に基づいて、前記部位のグローバル位置特徴を構築し、前記グローバル位置特徴は前記部位の目標分子内に位置する空間位置情報を特徴付けることに用いられ、
前記部位、前記第1の目標点、前記第2の目標点、及び前記部位の少なくとも1つの隣接領域点の三次元座標に基づいて、前記部位と前記少なくとも1つの隣接領域点との間の少なくとも1つの局所位置特徴を構築し、1つの局所位置特徴は前記部位と1つの隣接領域点との間の相対位置情報を特徴付けることに用いられ、且つ
前記グローバル位置特徴と前記少なくとも1つの局所位置特徴に基づいて、前記部位の位置特徴を取得し、
前記部位検出モデルはグラフ畳み込みニューラルネットワークであり、前記グラフ畳み込みニューラルネットワークは入力層、少なくとも1つのエッジ畳み込み層、及び出力層を含み、
部位検出モデルを呼び出して抽出した前記位置特徴に対して予測処理を行うことによって、前記少なくとも1つの部位の少なくとも1つの予測確率を得ることは、
前記少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、前記入力層によって前記少なくとも1つの部位のグラフデータを出力することであって、前記グラフデータはグラフの形で部位の位置特徴を表すことに用いられること、
少なくとも1つの部位のグラフデータを前記グラフ畳み込みニューラルネットワーク中の少なくとも1つのエッジ畳み込み層に入力し、前記少なくとも1つのエッジ畳み込み層によって前記少なくとも1つの部位のグラフデータに対して特徴抽出を行い、前記少なくとも1つの部位のグローバル生物学的特徴を得ること、及び
前記グローバル生物学的特徴、前記少なくとも1つの部位のグラフデータ、及び前記少なくとも1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴を融合し、融合して得た特徴を前記グラフ畳み込みニューラルネットワークの出力層に入力し、前記出力層によって前記融合して得た特徴に対して確率フィッティングを行い、前記少なくとも1つの予測確率を得ること、を含む、分子結合部位検出装置。
【請求項10】
電子機器であって、
前記電子機器は、1つ又は複数のプロセッサと1つ又は複数のメモリを含み、前記1つ又は複数のメモリ中に少なくとも1つのプログラムコードが記憶されており、前記少なくとも1つのプログラムコードは、前記1つ又は複数のプロセッサがロードし且つ実行することによって、請求項1~請求項のいずれか1項に記載の分子結合部位検出方法を実現する、電子機器。
【請求項11】
コンピュータプログラムであって、
前記コンピュータプログラム中には少なくとも1つのプログラムコードが記憶されており、前記少なくとも1つのプログラムコードは、プロセッサがロードし且つ実行することによって、請求項1~請求項のいずれか1項に記載の分子結合部位検出方法を実施する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願はコンピュータの技術分野に関し、特に分子結合部位検出方法、装置、電子機器及び記憶媒体に関する。
【0002】
本出願は、2020年4月9日に提出された出願番号が第202010272124.0号、発明の名称が「分子結合部位検出方法、装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張しており、その全内容は引用によって本出願に組み込まれている。
【背景技術】
【0003】
コンピュータ技術の発展に伴い、生物医学分野においてコンピュータによってタンパク質分子の結合部位をどのように検出するかは1つのホットトピックとなっており、そのうち、タンパク質分子の結合部位(binding site)とは、タンパク質分子上で他の分子と互いにバンディングされる位置点を指し、一般的には「タンパク質結合ポケット」と呼ばれる。タンパク質分子の結合部位の決定は、タンパク質構造と機能の分析に対して重要な意義があり、したがって、タンパク質分子中の結合部位をどのように正確に検出するかは、1つの重要な研究方向である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願の実施例は、分子結合部位検出方法、装置、電子機器及び記憶媒体を提供し、分子結合部位の検出過程の正確率を高めることができる。該技術的手段は以下のとおりである。
【0005】
一態様は、分子結合部位検出方法を提供し、電子機器に適用され、該方法は、
検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得するステップであって、該目標分子は結合部位を検出すべき化学分子である、ステップ、
各部位に対応する第1の目標点と第2の目標点をそれぞれ決定するステップであって、いずれか1つの部位の第1の目標点は目標球形空間内に含まれるすべての部位の中心点であり、該目標球形空間は該いずれか1つの部位を球心とし、目標長さを半径とする球形空間であり、いずれか1つの部位の第2の目標点は原点を始点とし、該部位を指し示すベクトルの順方向延長線と該目標球形空間の外表面との交点である、ステップ、
該少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップであって、該位置特徴は該少なくとも1つの部位の該目標分子中に位置する位置情報を特徴付けることに用いられる、ステップ、
部位検出モデルを呼び出して抽出した該位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得るステップであって、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられる、ステップ、及び
該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定するステップを含む。
【0006】
一態様は、分子結合部位検出装置を提供し、該装置は、取得モジュール、第1の決定モジュール、抽出モジュール、予測モジュール、及び第2の決定モジュールを含み、
前記取得モジュールは、検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得することに用いられ、該目標分子は結合部位を検出すべき化学分子であり、
前記第1の決定モジュールは、各部位に対応する第1の目標点と第2の目標点をそれぞれ決定することに用いられ、いずれか1つの部位の第1の目標点は目標球形空間内に含まれるすべての部位の中心点であり、該目標球形空間は該いずれか1つの部位を球心とし、目標長さを半径とする球形空間であり、いずれか1つの部位の第2の目標点は原点を始点とし、該部位を指し示すベクトルの順方向延長線と該目標球形空間の外表面との交点であり、
前記抽出モジュールは、該少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出することに用いられ、該位置特徴は該少なくとも1つの部位の該目標分子中に位置する位置情報を特徴付けることに用いられ、
前記予測モジュールは、部位検出モデルを呼び出して抽出した該位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得ることに用いられ、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられ、
前記第2の決定モジュールは、該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定することに用いられる。
【0007】
一態様は、電子機器を提供し、該電子機器は1つ又は複数のプロセッサと1つ又は複数のメモリを含み、該1つ又は複数のメモリ中に少なくとも1つのプログラムコードが記憶されており、該少なくとも1つのプログラムコードは該1つ又は複数のプロセッサがロードし且つ実行することによって、上記のいずれか一種の可能な実現方式に記載の分子結合部位検出方法を実現する。
【0008】
一態様は、記憶媒体を提供し、該記憶媒体中に少なくとも1つのプログラムコードが記憶されており、該少なくとも1つのプログラムコードは、プロセッサがロードし且つ実行することによって、上記のいずれか一種の可能な実現方式に記載の分子結合部位検出方法を実現する。
【発明の効果】
【0009】
本出願の実施例で提供される技術的手段による有益な効果は少なくとも以下を含む。
【0010】
目標分子中の各々の部位の三次元座標を取得することによって、各々の部位のそれぞれに対応する第1の目標点と第2の目標点を決定し、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標に基づいて、各々の部位の三次元座標中において回転不変特性を有する位置特徴を抽出し、部位検出モデルを呼び出して抽出した位置特徴に対して予測を行い、各々の部位が結合部位に属するか否かの予測確率を得て、それにより、予測確率に基づいて目標分子の結合部位を決定し、第1の目標点と第2の目標点が各々の部位に関連しており、且つ一定の空間代表性を有する点であり、したがって、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標を活かして、目標分子の細部構造を完全に表現でき、回転不変特性を有する位置特徴を構造し、それにより、目標分子のためにボクセル特徴を設計することによる細部損失を回避しており、それによって、位置特徴に基づいて結合部位検出を行うときに、目標分子の細部構造の位置情報を十分に利用し、分子結合部位の検出過程の正確性を高めることができる。
【0011】
本出願の実施例における技術的手段をより明確に説明するために、以下、実施例の記述において使用される必要がある図面を簡単に紹介し、明らかなように、以下の記述における図面は本出願のいくつかの実施例に過ぎず、当業者にとっては、創造的な努力をしない前提下で、これらの図面に基づいて他の図面を獲得することもできる。
【図面の簡単な説明】
【0012】
図1】本出願の実施例で提供される分子結合部位検出方法の実施環境の模式図である。
図2】本出願の実施例で提供される分子結合部位検出方法のフローチャートである。
図3】本出願の実施例で提供される分子結合部位検出方法のフローチャートである。
図4】本出願の実施例で提供される第1の目標点と第2の目標点の模式図である。
図5】本出願の実施例で提供されるグラフ畳み込みニューラルネットワークの原理的模式図である。
図6】本出願の実施例で提供されるエッジ畳み込み層の構造模式図である。
図7】本出願の実施例で提供される分子結合部位検出装置の構造模式図である。
図8】本出願の実施例で提供される電子機器の構造模式図である。
【発明を実施するための形態】
【0013】
本出願の目的、技術的手段及び利点をより明確にするために、以下、図面に関連付けて本出願の実施形態をさらに詳細に記述する。
【0014】
本出願では、用語「第1の」「第2の」などの文字は作用及び機能がほぼ同じである同一項目又は類似項目を区別することに用いられ、理解すべきものとして、「第1の」、「第2の」、「第nの」の間は論理的又は時系列的な依存関係を備えず、数及び実行順序を限定することもない。
【0015】
本出願では、用語「少なくとも1つ」とは1つ又は複数を指し、「複数」の意味は2つ又は2つ以上であり、例えば、複数の第1の位置とは、2つ又は2つ以上の第1の位置を指す。
【0016】
人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ、又はデジタルコンピュータで制御される機械を利用して人間の知能をシミュレーション、延伸及び拡張し、環境を感知して、知識を取得し且つ知識を使用して最適な結果を獲得する理論、方法、技術及び適用システムである。言い換えれば、人工知能はコンピュータ科学の1つの総合的な技術であり、それは知能の本質を把握し、且つ人間の知能に類似した方式で応答できる新しい知能機械を生産することを図る。人工知能は、つまり、各種の知能機械の設計原理及び実現方法を研究し、機械に感知、推論及び意思決定の機能を持たせるものである。
【0017】
人工知能技術は、1つの総合的な学科であり、関連する分野が広く、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能の基礎技術は一般にセンサ、専用の人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング/インタラクションシステム、メカトロニクスなどの技術を含む。人工知能のソフトウェア技術は主に、オーディオ処理技術、コンピュータビジョン技術、自然言語処理技術、及び機械学習/深層学習などの複数の主な方向を含む。
【0018】
本出願の実施例で提供される技術的手段は人工知能分野の機械学習技術に関し、機械学習(Machine Learning、ML)は、複数の分野が交差する学科であり、確率理論、統計学、近似理論、凸解析、アルゴリズム複雑度理論などの複数の学科に関する。機械学習技術は、コンピュータが人間の学習行為を専門的にどのようにシミュレーション又は実現することで、新しい知識又はスキルを取得し、既存の知識構造を改めて組織して自体の性能をそれに絶えず改善させる。機械学習は、人工知能のコアであり、コンピュータに知能を持たせる根本的な経路であり、その適用は、人工知能の各々の分野に及ぼす。機械学習及び深層学習は、通常、人工ニューラルネットワーク、信頼ネットワーク、強化学習、転移学習、帰納学習、教示学習などの技術を含む。
【0019】
機械学習技術の研究及び進歩に伴い、機械学習技術は複数の分野において広い研究及び適用を進めており、本出願の実施例で提供される技術的手段は、機械学習技術の生物医学分野での適用に関し、具体的には、人工知能に基づく分子結合部位検出方法に関し、結合部位とは、現在の分子上で他の分子と互いにバンディングする様々な部位を指し、一般的には「結合ポケット」、「結合ポケット部位」と呼ばれる。
【0020】
タンパク質分子を例にして説明すると、生物学及び医学において重要なタンパク質分子の構造についての知識が絶えず多くなるに伴い、タンパク質分子の結合部位の予測は1つのますます重要なホットトピックとなっており、タンパク質分子の結合部位を予測することによって、タンパク質の分子機能をよりよく掲示することができる。生物学的過程がすべてタンパク質分子の相互作用によって実現されるため、生物学的過程を完全に理解し又は操縦しようとすると、技術者がタンパク質分子の相互作用に含まれるメカニズムを確かめる必要があり、そのうち、例えば生物学的過程は、DNA(DeoxyriboNucleic Acid、デオキシリボ核酸)合成、信号伝達、生命代謝などを含み、一方、タンパク質分子の相互作用メカニズムを研究する第1のステップは、タンパク質分子の相互作用部位(つまり、結合部位)を識別することである。したがって、タンパク質分子の結合部位の予測は、技術者が後でタンパク質分子の構造及び機能を分析することを支援できる。
【0021】
さらに、タンパク質分子の結合部位の予測は、また、合理的な薬物分子を設計するのにヘルプを提供することもでき、タンパク質分子の作用分析は各種の疾患の治療の点では極めて大きな促進作用を有し、タンパク質分子の構造及び機能に対する分析によって、ある疾患の発症機構を掲示することができ、さらにある薬物のターゲットを特定すること、新薬物を研究開発するために指導の作用を有する。
【0022】
したがって、タンパク質分子の結合部位の予測は、タンパク質分子自体の構造及び機能を掲示することに対して重大な意義があるだけでなく、且つタンパク質分子自体の構造及び機能を掲示することによって、さらに病理学的にある疾患の発症機構を掲示し、それにより、薬物のターゲットの特定、新薬物の研究開発を指導することもできる。
【0023】
説明すべきものとして、本出願の実施例の分子結合部位検出方法は、目標分子の結合部位を検出することに用いられるが、目標分子は上記タンパク質分子に制限されず、該目標分子はATP(Adenosine TriphosPhate、アデノシン三リン酸)分子、有機重合体分子、及び有機小分子などの化学分子であり、本出願の実施例は、目標分子のタイプを具体的に限定しない。
【0024】
以下、本出願の実施例が関する用語を解釈する。
【0025】
タンパク質結合ポケット:タンパク質分子上に位置し他の分子と互いにバンディングする様々な結合部位。
【0026】
点群データ(point cloud data):ある座標系下での点のデータ集合。各点のデータは豊富な情報を含み、該点の三次元座標、色、強度値、時間等を含み、通常、三次元レーザースキャナーを利用してデータを収集して点群データを取得する。
【0027】
深層畳み込みニューラルネットワーク(Deep Convolutional Neural Network、DCNN):DCNNは、畳み込み計算を含み且つ深層構造を有する一種のフィードフォワードニューラルネットワークであり、深層学習の代表的なアルゴリズムの1つである。DCNNの構造は、入力層、隠れ層及び出力層を含む。隠れ層中には、通常、畳み込み層(convolutional layer)、プーリング層(pooling layer)、及び全接続層(fully-connected layer)が含まれる。畳み込み層の機能は入力データに対して特徴抽出を行うことであり、畳み込み層の内部に複数の畳み込みカーネルが含まれ、畳み込みカーネルを構成する各要素はすべて1つの重み係数と1つの偏差量に対応する。畳み込み層が特徴抽出を行った後、出力した特徴グラフはプーリング層に伝送されて特徴選択及びフィルタリングを行うことになる。全接続層は畳み込みニューラルネットワークの隠れ層の最後の部分に位置する。特徴グラフは全接続層中に空間的トポロジー構造を失い、ベクトルとして展開され、かつ活性化関数によって出力層に伝達されることになる。DCNNの研究対象は規則的な空間構造を有する必要があり、例えば画像、ボクセル等である。
【0028】
グラフ畳み込みニューラルネットワーク(Graph Convolutional Network、GCN):GCNはグラフデータに対して深層学習を行える方法であり、GCNは入力データに対して点と辺を有するグラフデータを構築し、複数の隠れ層を利用して各点のために高次元特徴を抽出し、該特徴は、この点と周辺の点との間のグラフ接続関係を隠し、最後に、出力層によって予期される出力結果が得られる。GCNは、電子商取引推奨システム、新薬物研究開発、点群分析など、多くのタスクにおいて成功を遂げており、GCNネットワーク構造は、Spectral CNN(スペクトル畳み込みニューラルネットワーク)、Graph Attention Network(グラフ注意ネットワーク)、Graph Recurrent Attention Network(グラフ再帰注意ネットワーク)、Dynamic Graph CNN(動的グラフ畳み込みニューラルネットワーク、DGCNN)等を含む。伝統的なGCNは回転不変特性を備えていない。
【0029】
多層パーセプトロン(Multilayer Perceptron、MLP):MLPはフィードフォワード構造の人工ニューラルネットワークであり、1組の入力ベクトルを1組の出力ベクトルにマッピングすることができる。
【0030】
関連技術では、タンパク質分子を例にすると、DCNNを利用してタンパク質分子の結合部位(タンパク質結合ポケット)の検出を行い、DCNNは、近年、画像及びビデオの分析、識別、処理などの分野において、すべて良好な性能を示し、したがって、DCNNをタンパク質結合ポケットの識別というタスクに転移することを試みる。伝統的なDCNNは、多くのタスクにおいて成功を遂げているが、DCNNの研究対象は規則的な空間構造を有する必要があり、例えば画像の画素、分子のボクセル等であり、実生活で規則的な空間構造を有しない多くのデータ(例えばタンパク質分子)に対しては、DCNNをタンパク質結合ポケットの検出過程に転移しようとすると、技術者はタンパク質分子に規則的な空間構造を有する1つの特徴を手動で設計し、これをDCNNの入力とする必要がある。例えば、タンパク質結合ポケットを検出するときに、タンパク質分子について1つのボクセル特徴を設計し、次に該ボクセル特徴を深層畳み込みニューラルネットワークDCNN中に入力し、DCNNによって入力したボクセル特徴に対応する分子構造がタンパク質結合ポケットであるか否かを予測し、この過程は、DCNNを利用して1つのバイナリ分類問題を処理するものとしてみなされる。
【0031】
一例では、DeepSiteネットワークは最初に提案されたタンパク質結合ポケットを検出するDCNNネットワークであり、タンパク質分子中から特徴(本質的には一種のサブ構造である)を手動で設計してDCNNの入力とし、且つ多層畳み込みニューラルネットワークを用いて入力したタンパク質分子のサブ構造がポケット結合部位に属するか否かを予測する。その後、別の例では、技術者はまた、全く新しい特徴抽出器を提案し、タンパク質分子の形状及び結合部位のエネルギーの2つの点から特徴抽出を行い、出力した特徴は3Dボクセルの表示方式(つまり、ボクセル特徴)でDCNNネットワーク中に入力される。類似するように、別の例では、FRSiteもタンパク質結合ポケットを検出するDCNNネットワークであり、タンパク質分子中からボクセル特徴を抽出してDCNNネットワークの入力とし、且つ高速畳み込みニューラルネットワークを利用して結合部位の検出を行う。同様に、別の例では、DeepDrup3Dもタンパク質結合ポケットを検出するDCNNネットワークであり、タンパク質分子を3Dボクセルに直接変換してDCNNネットワークの入力とすることによって、さらにタンパク質結合ポケットを予測する。
【0032】
しかしながら、上記したボクセル特徴に基づくDCNN検出方法は、ボクセルの解像度により深刻に制限されてしまい、より微細なタンパク質の分子構造を処理することができない。且つ、すべてボクセル特徴を手動で設計してDCNNネットワークの入力とする必要がある。このため、これらのボクセル特徴は技術者により細かく設計されているものの、まだタンパク質分子に暗黙的に含まれる重要な情報を十分に特徴付けることを確保できない。したがって、タンパク質結合ポケットの最終的な検出結果は設計されたボクセル特徴の抽出方法により制限される場合も多い。
【0033】
以上に鑑み、本出願の実施例は分子結合部位検出方法を提供し、目標分子の結合部位を検出することに用いられ、目標分子がタンパク質分子であることを例にして説明すると、タンパク質分子の点群データ(三次元座標を含む)を直接システムの入力とし、グラフ畳み込みニューラルネットワークなどの部位検出モデルを用いて自律探索を行い、部位検出モデルは、タンパク質分子の組織構造を十分に探索し、それにより、効率的で結合ポケット検出に最も有利である生物学的特徴を自動的に抽出することができ、したがって、タンパク質分子の点群データ中からタンパク質結合ポケットを正確に識別できる。
【0034】
さらに、伝統的なグラフ畳み込みニューラルネットワークに比べて、伝統的なグラフ畳み込みニューラルネットワークは回転不変特性を備えないが、タンパク質分子は三次元空間内を自由に回転可能であるため、採用されるネットワーク構造が回転不変特性を備えないと、同じタンパク質分子の回転前後のポケット検出結果が大きく異なる可能性があり、これは、タンパク質結合ポケットの検出の正確率を大幅に低下させる。一方、本出願の実施例は、タンパク質分子の点群データ中の三次元座標点を回転不変の特徴付け(つまり位置特徴)、例えば角度、長さなどに変換することによって、回転変化の三次元座標点の代わりに回転不変性を備えた位置特徴をシステムの入力とし、部位検出モデルのネットワーク構造が回転不変特性を有するようにし、換言すると、タンパク質結合ポケットの検出結果は入力されるタンパク質の点群データの方向に応じて変化することがなく、これは、タンパク質結合ポケットの検出過程に対して画期的な意義がある。以下、本出願の実施例の適用シナリオを詳しく説明する。
【0035】
図1は本出願の実施例で提供される分子結合部位検出方法の実施環境の模式図である。図1に参照されるように、該実施環境中には、端末101とサーバ102が含まれ、端末101とサーバ102はすべて電子機器である。
【0036】
端末101は目標分子の点群データを提供することに用いられ、例えば、端末101は三次元レーザースキャナーの制御端末であり、三次元レーザースキャナーによって目標分子に対してデータ収集を行い、収集した点群データを該制御端末にエクスポートし、制御端末によって目標分子の点群データが付されている検出要求を生成し、該検出要求は、目標分子の結合部位を検出するようサーバ102に要求し、サーバ102が検出要求に応答して、目標分子の点群データに基づいて目標分子に対して結合部位の検出動作を行い、目標分子の結合部位を決定し、該目標分子の結合部位を該制御端末に返すようにすることに用いられる。
【0037】
上記過程では、制御端末は目標分子の点群データ全体をすべてサーバ102に送信し、サーバ102が目標分子に対してより包括的な分子構造分析を行うようにすることができる。いくつかの実施例では、点群データが各々の部位の三次元座標に加えて色、強度値、及び時間などの付加属性をさらに含むため、いくつかの実施例では、制御端末は目標分子中の少なくとも1つの部位の三次元座標だけをサーバ102に送信し、それにより、データ伝送過程の通信量を節約できる。
【0038】
端末101とサーバ102は有線ネットワーク又は無線ネットワークによって連結される。
【0039】
サーバ102は、分子結合部位の検出サービスを提供することに用いられ、サーバ102はいずれか1つの端末の検出要求を受信した後、該検出要求を解析し、目標分子の点群データを得て、点群データ中の各々の部位の三次元座標に基づいて、各々の部位が回転不変性を有する位置特徴を抽出し、該位置特徴を部位検出モデルの入力として、結合部位を予測する操作を実行し、目標分子の結合部位を得る。
【0040】
いくつかの実施例では、サーバ102は一台のサーバ、複数台のサーバ、クラウドコンピューティングプラットフォーム、又は仮想化センタのうちの少なくとも一種を含む。いくつかの実施例では、サーバ102は主要な計算動作を担当し、端末101は補助計算動作を担当し、又は、サーバ102は補助計算動作を担当し、端末101は主要な計算動作を担当し、又は、端末101とサーバ102の両方の間は、分散式計算アーキテクチャを採用して協調計算を行う。
【0041】
上記過程では、端末101とサーバ102が通信インタラクションによって分子結合部位検出を完了することを例にして説明し、いくつかの実施例では、端末101は独立して分子結合部位の検出動作を完了してもよく、このとき、端末101は目標分子の点群データを収集した後、直接点群データ中の各々の部位の三次元座標に基づいて、部位検出モデルに基づく予測処理を実行し、目標分子の結合部位を予測し、サーバ102の予測過程と類似しているので、ここでは詳しく説明しない。
【0042】
いくつかの実施例では、端末101は、一般的には複数の端末のうちの1つを指し、端末101の機器タイプは、スマートフォン、タブレットパソコン、電子ブックリーダー、MP3(Moving Picture Experts Group Audio Layer III、ムービング・ピクチャー・エクスパーツ・グループ・レイヤー3)プレーヤー、MP4(Moving Picture Experts Group Audio Layer IV、ムービング・ピクチャー・エクスパーツ・グループ・レイヤー4)プレーヤー、ラップトップポータブルコンピュータ、又はデスクトップコンピュータのうちの少なくとも一種を含むが、これらに制限されない。以下の実施例では、端末がスマートフォンを含む場合を挙げて説明する。
【0043】
当業者に公知のように、上記端末101の数はより多く又はより少なくてもよい。例えば上記端末101は1つだけであり、又は上記端末101は数十個又は数百個、又はより多くの数である。本出願の実施例は、端末101の数及び機器タイプについて限定しない。
【0044】
図2は本出願の実施例で提供される分子結合部位検出方法のフローチャートである。図2に参照されるように、該方法は、電子機器に適用され、該実施例は下記ステップを含む。
【0045】
201:電子機器は、検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得し、該目標分子は結合部位を検出すべき化学分子である。
【0046】
そのうち、目標分子は、いずれか1つの結合部位を検出すべき化学分子、例えばタンパク質分子、ATP(Adenosine TriphosPhate、アデノシン三リン酸)分子、有機重合体分子、及び有機小分子等であり、本出願の実施例は、目標分子のタイプを具体的に限定しない。
【0047】
いくつかの実施例では、該少なくとも1つの部位の三次元座標は、点群データの形で表わされ、ある座標系内の少なくとも1つの三次元座標点が一体にスタックして目標分子の構造を記述する。3Dボクセルで現れる形に比べて、点群データが占める記憶空間はより小さく、且つ3Dボクセルが特徴抽出方式に依存するため、特徴抽出過程中に目標分子中のいくつかの細部構造が失われやすく、したがって、点群データは目標分子の細部構造を記述することもできる。
【0048】
三次元座標点が回転に対して非常に敏感な一種のデータであり、タンパク質分子を例にすると、同じタンパク質点群が回転を経た後、各々の部位の三次元座標値が変わることになり、したがって、各々の部位の三次元座標を部位検出モデル中に直接入力し、特徴抽出及び結合部位予測を行うと、座標値が回転前後に変わることになるため、同一の部位検出モデルは、回転前後の入力に対して、それぞれ異なる生物学的特徴を抽出し、それにより、異なる結合部位を予測する可能性があり、換言すると、三次元座標点が回転不変性を備えるからこそ、部位検出モデルが同一タンパク質分子に対して回転前後に異なる結合部位を予測することを引き起こし、分子結合部位の検出過程の正確性を確保できないことを引き起こす。
【0049】
202:電子機器は、各部位に対応する第1の目標点と第2の目標点をそれぞれ決定し、そのうち、いずれか1つの部位の第1の目標点は目標球形空間内に含まれるすべての部位の中心点であり、該目標球形空間は該いずれか1つの部位を球心とし、目標長さを半径とする球形空間であり、いずれか1つの部位の第2の目標点は原点を始点とし、該部位を指し示すベクトルの順方向延長線と該目標球形空間の外表面との交点である。
【0050】
そのうち、各部位は、すべて1つの第1の目標点と第2の目標点に一意に対応し、各部位に関しては、その第1の目標点とは、該部位を球心とし、目標長さを半径とする目標球形空間内に含まれる目標分子のすべての部位の中心点を指し、この中心点は、目標球形空間内に含まれるすべての部位の三次元座標に基づいて平均計算を行って得た1つの空間点であり、したがって、第1の目標点は必ずしも目標分子の点群データ中に現実的に存在する部位であるとは限らず、目標長さは0よりも大きいいずれか1つの数値であり、その第2の目標点とは、原点を始点とし、該部位を指し示すベクトルの順方向延長線と該目標球形空間の外表面との交点を指し、該原点は、該目標分子が位置する三次元座標系の原点であり、原点を始点として該部位を指し示す1つのベクトルを引き、該ベクトルの方向は原点から該部位に指し、該ベクトルの長さは該部位のノルムに等しく、該ベクトルの順方向延長線と目標球形空間の外表面とは、一意な1つの交点を有し、この交点は第2の目標点であり、同様に、第2の目標点も必ずしも目標分子の点群データ中に現実的に存在する部位であるとは限らない。
【0051】
203:電子機器は、該少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出し、該位置特徴は該少なくとも1つの部位の該目標分子中に位置する位置情報を特徴付けることに用いられる。
【0052】
上記ステップ203では、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標によって各々の部位の位置特徴を取得し、つまり、該位置特徴は、目標分子の回転角度による影響を受けず、三次元座標を位置特徴に変更して部位検出モデルの入力とすることによって、上記ステップ201に係る、三次元座標が回転不変性を備えないことにより検出正確性が下がることを引き起こすという問題を回避できる。
【0053】
204:電子機器は、部位検出モデルを呼び出して抽出した位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得て、そのうち、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられる。
【0054】
そのうち、該部位検出モデルは目標分子の結合部位を検出することに用いられ、いくつかの実施例では、部位検出モデルは一種の分類モデルに属し、目標分子中の各々の部位が結合部位という分類タスクに属するか否かを処理することに用いられ、いくつかの実施例では、該部位検出モデルはグラフ畳み込みニューラルネットワークを含み、又は、他の深層学習ネットワークを含み、本出願の実施例は、部位検出モデルのタイプを具体的に限定しない。
【0055】
上記ステップ204では、電子機器は、各々の部位の位置特徴を部位検出モデルに入力し、部位検出モデルによって各々の部位の位置特徴に基づいて結合部位の予測操作を行い、いくつかの実施例では、部位検出モデルでは、まず、各々の部位の位置特徴に基づいて目標分子の生物学的特徴を抽出し、次に、目標分子の生物学的特徴に基づいて結合部位の検出を行い、各々の部位の予測確率を得る。
【0056】
205:電子機器は、該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定する。
【0057】
上記過程では、電子機器は、予測確率が確率閾値よりも大きい部位を結合部位として決定し、又は予測確率が大きいものから小さいものになるような順序に従って部位を並べ替え、順位が最初の目標数である部位を結合部位として決定する。そのうち、該確率閾値は0以上、且つ1以下のいずれか1つの数値であり、該目標数は1以上のいずれか1つの整数である。例えば、目標数が3である場合、電子機器は、予測確率が大きいものから小さいものになるような順序に従って部位を並べ替え、順位が最初の3位にある部位を結合部位として決定する。
【0058】
本出願の実施例で提供される方法は、目標分子中の各々の部位の三次元座標を取得することによって、各々の部位のそれぞれに対応する第1の目標点と第2の目標点を決定し、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標に基づいて、各々の部位の三次元座標中において回転不変特性を有する位置特徴を抽出し、部位検出モデルを呼び出して抽出した位置特徴に対して予測を行い、各々の部位が結合部位に属するか否かの予測確率を得て、それにより、予測確率に基づいて目標分子の結合部位を決定し、第1の目標点と第2の目標点が各々の部位に関連しており、且つ一定の空間代表性を有する点であり、したがって、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標を活かして、目標分子の細部構造を完全に表現でき、回転不変特性を有する位置特徴を構造し、それにより、目標分子のためにボクセル特徴を設計することによる細部損失を回避しており、それによって、位置特徴に基づいて結合部位検出を行うときに、目標分子の細部構造の位置情報を十分に利用し、分子結合部位の検出過程の正確性を高めることができる。
【0059】
図3は本出願の実施例で提供される分子結合部位検出方法のフローチャートである。図3に参照されるように、該実施例は、電子機器に適用され、電子機器が端末である場合を例にして説明し、該実施例は下記ステップを含む。
【0060】
300、端末は、検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得し、該目標分子は結合部位を検出すべき化学分子である。
【0061】
上記ステップ300は上記ステップ201と類似しているので、ここでは詳しく説明しない。
【0062】
301:該少なくとも1つの部位のうちのいずれか1つの部位に対して、端末は、該部位の三次元座標に基づいて、該部位に対応する第1の目標点と第2の目標点を決定する。
【0063】
そのうち、各部位は、すべて1つの第1の目標点に一意に対応し、各部位に関しては、その第1の目標点とは、該部位を球心とし、目標長さを半径とする目標球形空間内に含まれるすべての部位の中心点を指し、該目標球形空間とは、該部位を球心とし、目標長さを半径とする球形空間であり、この中心点は、目標球形空間内に含まれるすべての部位の三次元座標に基づいて平均計算を行って得た1つの空間点であり、したがって、第1の目標点は必ずしも目標分子の点群データ中に現実的に存在する部位であると限らず、そのうち、該目標長さは技術者によって指定され、目標長さは0よりも大きいいずれか1つの数値である。
【0064】
そのうち、各部位は、すべて1つの第2の目標点に一意に対応し、各部位に関しては、その第2の目標点とは、原点を始点とし、該部位を指し示すベクトルの順方向延長線と該目標球形空間の外表面との交点を指し、原点を始点として該部位を指し示す1つのベクトルを引き、該ベクトルの方向は原点から該部位に指し、該ベクトルの長さは該部位のノルムに等しく、該ベクトルの順方向延長線と目標球形空間の外表面とは、一意な1つの交点を有し、この交点は第2の目標点であり、同様に、第2の目標点は必ずしも目標分子の点群データ中に現実的に存在する部位であるとは限らない。
【0065】
上記過程では、端末は、第1の目標点と第2の目標点を決定する過程において、まず、該部位を球心とし、目標長さを半径とする目標球形空間を決定し、次に、目標分子の少なくとも1つの部位の中から、該目標球形空間内に位置するすべての部位を決定し、目標球形空間内に位置するすべての部位の中心点を第1の目標点として決定し、いくつかの実施例では、上記中心点を決定するときに、該目標球形空間内に位置するすべての部位の三次元座標を取得し、該目標球形空間内に位置するすべての部位の三次元座標の平均値座標を上記中心点の三次元座標として決定し、つまり、これは第1の目標点の三次元座標である。さらに、原点を始点とし、該部位を指し示すベクトルを決定し、該ベクトルの順方向延長線と目標球形空間の外表面との交点を第2の目標点として決定する。
【0066】
図4は本出願の実施例で提供される第1の目標点と第2の目標点の模式図であり、図4に参照されるように、一例では、タンパク質分子の点群データがN(N≧1)個の部位の三次元座標を含むと仮定すると、該点群データはN個の三次元座標点([式1])がスタックしてなる。
【0067】
【数1】
【0068】
そのうち原点はorigin(0,0,0)であり、pはi番目の部位の三次元座標を表し、x、y、zはそれぞれi番目の部位のx、y、z軸上の座標値を表し、iは1以上且つN以下の整数であり、点群データによってタンパク質分子の構造を記述することができる。i番目の部位400については、pを球心とし、rを半径とする目標球形空間401において、目標球形空間401に含まれるすべての部位の中心点mを第1の目標点402として決定し、具体的には、目標球形空間401に含まれるすべての部位のx軸座標の平均値を中心点mのx軸座標として決定し、目標球形空間401に含まれるすべての部位のy軸座標の平均値を中心点mのy軸座標として決定し、目標球形空間401に含まれるすべての部位のz軸座標の平均値を中心点mのz軸座標として決定し、原点を始点とし、pを指し示すベクトルの順方向延長線と目標球形空間401の外表面との交点sを第2の目標点403として決定する。
【0069】
302:端末は、該部位、該第1の目標点、及び該第2の目標点の三次元座標に基づいて、該部位のグローバル位置特徴を構築し、該グローバル位置特徴は、該部位の目標分子内に位置する空間位置情報を特徴付けることに用いられる。
【0070】
いくつかの実施例では、該グローバル位置特徴は、該部位のノルム、該部位と該第1の目標点との間の距離、該第1の目標点と該第2の目標点との間の距離、第1の夾角の余弦値、又は第2の夾角の余弦値のうちの少なくとも一つを含み、そのうち、該第1の夾角は第1の線分と第2の線分との間でなす夾角であり、該第2の夾角は該第2の線分と第3の線分との間でなす夾角であり、該第1の線分は該部位と該第1の目標点との間でなす線分であり、該第2の線分は該第1の目標点と該第2の目標点との間でなす線分であり、該第3の線分は該部位と該第2の目標点との間でなす線分である。
【0071】
いくつかの実施例では、端末は、該部位のノルム、該部位と該第1の目標点との間の距離、該第1の目標点と該第2の目標点との間の距離、第1の夾角の余弦値、及び第2の夾角の余弦値を取得し、上記5つのデータに基づいて1つの五次元ベクトルを構築し、該五次元ベクトルを該部位のグローバル位置特徴とする。
【0072】
いくつかの実施例では、該グローバル位置特徴は、該部位のノルム、該部位と該第1の目標点との間の距離、該第1の目標点と該第2の目標点との間の距離、第1の夾角の角度、又は第2の夾角の角度のうちの少なくとも一つを含む。換言すると、第1の夾角と第2の夾角に対して余弦値を取らず、第1の夾角と第2の夾角の角度をそのままグローバル位置特徴中の要素とする。
【0073】
一例では、図4に参照されるように、i番目の部位400(pで表わされる)に対して、pを球心とし、rを半径とする目標球形空間401において、上記ステップ301によって第1の目標点402(mで表わされる)と第2の目標点403(sで表わされる)を決定し、端末はそれぞれ以下の5つのデータを取得する。
【0074】
1)部位pのノルム([式2])。
【0075】
【数2】
【0076】
2)部位pと第1の目標点mとの間の距離([式3])。
【0077】
【数3】
【0078】
3)部位pと第2の目標点sとの間の距離([式4])。
【0079】
【数4】
【0080】
4)第1の夾角αの余弦値cos(α)であって、該第1の夾角αは第1の線分と第2の線分との間でなす夾角であり、該第1の線分は部位pと第1の目標点mとの間でなす線分であり、該第2の線分は第1の目標点mと第2の目標点sとの間でなす線分である。
【0081】
5)第2の夾角βの余弦値cos(β)であって、該第2の夾角βは上記第2の線分と第3の線分との間でなす夾角であり、該第3の線分は部位pと第2の目標点sとの間でなす線分である。
【0082】
図4から見出せるように、第1の夾角αと第2の夾角βは三角形△mの2つの内角である。端末は、上記1)~5)という5つのデータに基づいて、1つの五次元ベクトルを構造して部位pのグローバル位置特徴を以下のようにすることができる。
[dp;dpm;dsm;cos(α);cos(β)]
【0083】
上記例に基づいて分析し、点群のうちのいずれか1つの部位pが与えられる場合、部位pの三次元座標点(x,y,z)を部位検出モデル中に直接入力すれば、三次元座標点が有回転不変性を備えないため、部位検出モデルが同一タンパク質分子について異なる結合部位検出結果を予測し、結合部位の検出過程の正確性を低下させることを引き起こす。
【0084】
いくつかの実施例では、部位pのノルム([式5])だけを部位pの位置特徴として利用すると仮定すると、ノルムが回転不変性を有するため、部位pの三次元座標点の代わりに部位pのノルムを部位検出モデル中に入力すると、三次元座標点が回転性を備えないという問題を解決できる。
【0085】
【数5】
【0086】
しかしながら、部位pのノルムだけが知られているため、実際には部位pの点群空間座標系中に位置する位置を精度よく位置決めすることができず、ノルムだけを位置特徴として利用すると、タンパク質分子の各々の部位の間の一部の位置情報を損失することはある。
【0087】
いくつかの実施例では、部位pのノルムdpに加えて、端末が4つのデータ[dpm;dsm;α;β]を追加的に抽出すると仮定すると、明らかなように、距離量dp、dpm、dsmであっても、角度量αとβであっても、いずれもタンパク質分子の回転に応じて変化することはなく、したがって、回転不変性を有する。上記各項のデータに基づいて、五次元ベクトル[dp;dpm;dsm;cos(α);cos(β)]を構造してグローバル位置特徴とし、三次元座標点(x,y,z)をグローバル位置特徴に変更して部位pの点群空間座標系中に位置する位置を表し、換言すると、グローバル位置特徴に基づいて部位pの点群空間座標系中に位置する位置を精度よく位置決めすることができ、したがって、該グローバル位置特徴は、部位pの位置情報を最大限に保留することができ、且つ該グローバル位置特徴は回転不変性を有する。
【0088】
説明すべきものとして、タンパク質分子の点群データのすべてを、原点を球心とし、半径を1とする1つの目標球形空間内に事前に正規化しておくため、距離量dp、dpm、dsmの値の範囲はすべて0~1の間にあり、一方、第1の夾角αと第2の夾角βの値の範囲は0~πの間([式6])にあり、それぞれ第1の夾角αと第2の夾角βに対して余弦値を取ることによって、それぞれ値の範囲が0~1の間にあるcos(α)とcos(β)を得て、それにより、部位検出モデルに入力されるデータが統一した値の範囲を有することを確保することができ、部位検出モデルがより安定的な訓練性能及び予測性能を有し得るようにすることができる。
【0089】
【数6】
【0090】
303:端末は、該部位、該第1の目標点、該第2の目標点、及び該部位の少なくとも1つの隣接領域点の三次元座標に基づいて、該部位と該少なくとも1つの隣接領域点との間の少なくとも1つの局所位置特徴を構築し、1つの局所位置特徴は、該部位と1つの隣接領域点との間の相対位置情報を特徴付けることに用いられる。
【0091】
いくつかの実施例では、該部位の隣接領域点とは、該目標分子中の、該部位に最も近接するK個の点を指し、Kは1以上であり、又は、該部位の隣接領域点とは、該部位の目標隣接領域内に含まれる点を指し、例えば、該目標隣接領域は、該部位を中心とする球状隣接領域、柱状隣接領域等であり、本出願の実施例はこれについて限定しない。
【0092】
いくつかの実施例では、該部位の少なくとも1つの隣接領域点のうちのいずれか1つの隣接領域点に対しては、該部位と該隣接領域点との間の局所位置特徴は、該隣接領域点と該部位との間の距離、該隣接領域点と該第1の目標点との間の距離、該隣接領域点と該第2の目標点との間の距離、第3の夾角の余弦値、第4の夾角の余弦値、又は第5の夾角の余弦値のうちの少なくとも一つを含み、そのうち、該第3の夾角は第4の線分と第5の線分との間でなす夾角であり、該第4の夾角は該第5の線分と第6の線分との間でなす夾角であり、該第5の夾角は該第6の線分と該第4の線分との間でなす夾角であり、該第4の線分は該隣接領域点と該部位との間でなす線分であり、該第5の線分は該隣接領域点と該第1の目標点との間でなす線分であり、該第6の線分は該隣接領域点と該第2の目標点との間でなす線分である。
【0093】
いくつかの実施例では、該部位の少なくとも1つの隣接領域点のうちのいずれか1つの隣接領域点に対しては、端末は、該隣接領域点と該部位との間の距離、該隣接領域点と第1の目標点との間の距離、該隣接領域点と第2の目標点との間の距離、第3の夾角の余弦値、第4の夾角の余弦値、及び第5の夾角の余弦値を取得し、上記6つのデータに基づいて1つの六次元ベクトルを構築し、該六次元ベクトルを該部位の1つの局所位置特徴とし、さらに、すべての隣接領域点に対して類似している操作を実行し、該部位のすべての隣接領域点に対する局所位置特徴を得る。
【0094】
いくつかの実施例では、該部位の少なくとも1つの隣接領域点のうちのいずれか1つの隣接領域点に対しては、該部位と該隣接領域点との間の局所位置特徴は、該隣接領域点と該部位との間の距離、該隣接領域点と該第1の目標点との間の距離、該隣接領域点と該第2の目標点との間の距離、第3の夾角の角度、第4の夾角の角度、又は第5の夾角の角度のうちの少なくとも一つを含む。換言すると、第3の夾角、第4の夾角及び第5の夾角に対して余弦値を取らず、第3の夾角、第4の夾角及び第5の夾角の角度をそのまま局所位置特徴中の要素とする。
【0095】
一例では、図4に参照されるように、i番目の部位400(pで表わされる)については、pを球心とし、rを半径とする目標球形空間401において、上記ステップ301によって第1の目標点402(mで表わされる)と第2の目標点403(sで表わされる)を決定することができ、i番目の部位pのj番目の隣接領域点pij(j≧1)が存在すると仮定すると、部位p、第1の目標点m、第2の目標点s、及び隣接領域点pijを利用して1つの四面体を構築できることが分かり、且つ四面体の辺長中に該隣接領域点pijと該部位pとの間の距離dppij(第4の線分の長さ)、該隣接領域点pijと該第1の目標点mとの間の距離dpmij(第5の線分の長さ)、該隣接領域点pijと該第2の目標点sとの間の距離dpsij(第6の線分の長さ)が含まれ、四面体の夾角中に第3の夾角([式7])、第4の夾角([式8])及び第5の夾角([式9])が含まれ、そのうち、該第3の夾角([式7])は第4の線分dppijと第5の線分dpmijとの間でなす夾角であり、該第4の夾角([式8])は該第5の線分dpmijと第6の線分dpsijとの間でなす夾角であり、該第5の夾角([式9])は該第6の線分dpsijと該第4の線分dppijとの間でなす夾角である。
【0096】
【数7】
【0097】
【数8】
【0098】
【数9】
【0099】
さらに、それぞれ第3の夾角([式7])、第4の夾角([式8])及び第5の夾角([式9])について余弦値を取り、3つの夾角のそれぞれに対応する余弦値([式10])、([式11])及び([式12])を得て、六次元ベクトル([式13])を構築して部位pと隣接領域点pijとの間の局所位置特徴とすることによって、該局所位置特徴は、点群空間座標系中における部位pと隣接領域点pijとの間の相対位置関係を記述することができ、グローバル位置特徴と局所位置特徴によって、部位pのタンパク質分子の点群空間座標系中の位置情報をより包括的で精密に表現することができる。
【0100】
【数10】
【0101】
【数11】
【0102】
【数12】
【0103】
【数13】
【0104】
304:端末は、該グローバル位置特徴と該少なくとも1つの局所位置特徴に基づいて、該部位の位置特徴を取得する。
【0105】
上記ステップ302では、端末は、1つの五次元のグローバル位置特徴を取得し、上記ステップ303では、端末は、少なくとも1つの六次元の局所位置特徴を取得し、各局所位置特徴に対しては、該局所位置特徴のすべてをグローバル位置特徴とステッチすると、1つの十一次元の位置特徴成分を得ることができ、すべての位置特徴成分からなるマトリックスを該部位の位置特徴として決定する。
【0106】
上記ステップ302~304では、目標分子の各部位に対して、端末は、該部位、該第1の目標点、及び該第2の目標点の三次元座標に基づいて、該部位の位置特徴を抽出することができる。本出願の実施例では、位置特徴がグローバル位置特徴と局所位置特徴を含む場合だけを例にして説明しており、いくつかの実施例では、位置特徴はグローバル位置特徴に相当し、換言すると、端末は、ステップ302においてグローバル位置特徴を取得する操作を実行した後、上記ステップ303~304を実行せずに、各々の部位のグローバル位置特徴を部位検出モデルに直接入力し、各々の部位の局所位置特徴を取得せず、結合部位検出方法の手順を簡素化させ、結合部位の検出過程の計算量を低下させることができる。
【0107】
一例では、目標分子のi番目の部位pに対しては、部位pに対応する第1の目標点m、第2の目標点s、及びK(K≧1)個の隣接領域点([式14])が存在し、上記ステップ302によって1つの5次元(5-dim)のグローバル位置特徴[dp;dpm;dsm;cos(α);cos(β)]を抽出し、上記ステップ303によれば、それぞれK個の隣接領域点に対応するK個の6次元(6-dim)の局所位置特徴([式15])を抽出し、各局所位置特徴のすべてをグローバル位置特徴とステッチし、K個の11次元の位置特徴成分を得て、それにより、1つの[K×11]次元の、回転不変性を有する位置特徴を得て、該位置特徴の表現式は以下の[式16]とおりである。
【0108】
【数14】
【0109】
【数15】
【0110】
【数16】
【0111】
上記マトリックスの形の位置特徴から見出せるように、マトリックスの左側は部位pのグローバル位置特徴Gを示し、部位pの点群空間中の位置を表すことに用いられ、マトリックスの右側は部位pとそのK個の隣接領域点pi1~pikとの間のK個の局所位置特徴Li1~Likを示し、部位pとそのK個の隣接領域点pi1~pikとの間の相対位置を表すことに用いられる。
【0112】
305:端末は、目標分子中の少なくとも1つの部位に対して、上記ステップ301~304を繰り返して実行し、該少なくとも1つの部位の位置特徴を得る。
【0113】
上記ステップ301~305では、端末は、少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出することができ、該位置特徴は、該少なくとも1つの部位の目標分子中に位置する位置情報を特徴付けることに用いられ、言い換えると、端末は、各々の部位の三次元座標によって、各々の部位の位置情報を十分に特徴付けることができ、且つ回転不変性を有する1つの位置特徴を構造し、比較的高い特徴表現能力を有する。
【0114】
306:端末は、該少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、該入力層によって該少なくとも1つの部位のグラフデータを出力し、該グラフデータはグラフの形で部位の位置特徴を表すことに用いられる。
【0115】
本出願の実施例では、部位検出モデルがグラフ畳み込みニューラルネットワークである場合を例にして説明し、該グラフ畳み込みニューラルネットワークは、入力層、少なくとも1つのエッジ畳み込み(EdgeConv)層、及び出力層を含み、該入力層は各々の部位のグラフデータを抽出することに用いられ、該少なくとも1つのエッジ畳み込み層は、各々の部位のグローバル生物学的特徴を抽出することに用いられ、該出力層は特徴融合及び確率予測を行うことに用いられる。
【0116】
いくつかの実施例では、該グラフ畳み込みニューラルネットワークの入力層中に多層パーセプトロンとプーリング層が含まれ、端末は、該少なくとも1つの部位の位置特徴を該入力層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該少なくとも1つの部位の位置特徴に対してマッピングを行い、該少なくとも1つの部位の第1の特徴を得て、該第1の特徴の次元は該位置特徴の次元よりも大きく、該少なくとも1つの部位の第1の特徴を該入力層中のプーリング層に入力し、該プーリング層によって該少なくとも1つの部位の第1の特徴に対して次元削減を行い、該少なくとも1つの部位のグラフデータを得る。
【0117】
いくつかの実施例では、該プーリング層は最大プーリング層(max pooling layer)であり、最大プーリング層中において第1の特徴に対して最大プーリング操作を行い、又は該プーリング層は平均プーリング層(average pooling layer)であり、平均プーリング層中において第1の特徴に対して平均プーリング操作を行い、本出願の実施例はプーリング層のタイプについて具体的に限定しない。
【0118】
上記過程では、多層パーセプトロンが入力した位置特徴を出力した第1の特徴にマッピングすることは、位置特徴に対して次元増加を行い、高次元の第1の特徴を抽出することに相当し、プーリング層によって第1の特徴に対して次元削減を行うことは、第1の特徴に対してフィルタリングと選択を行い、一部の重要ではない情報をフィルタリングにより除去し、グラフデータを得ることに相当する。
【0119】
図5は本出願の実施例で提供されるグラフ畳み込みニューラルネットワークの原理的模式図であり、図5に参照されるように、1つのタンパク質分子の[N×3]次元の点群データ500が与えられると仮定すると、回転不変特徴付け抽出器(ステップ301と類似)を利用して点群データを[N×K×11]次元の回転不変特徴付け501に変換し、該回転不変特徴付け501は各々の部位の位置特徴である。そして、多層パーセプトロンMLPsを利用して、元に入力した[N×K×11]次元の回転不変特徴付け501を基に、さらに[N×K×32]次元の第1の特徴502を抽出し、且つ最大プーリング層を採用して[N×K×32]次元の第1の特徴502に対してK次元の方向に沿って最大プーリングを行い、[N×K×32]次元の第1の特徴502を[N×32]次元のグラフデータ503に変換する。
【0120】
307:端末は、少なくとも1つの部位のグラフデータを該グラフ畳み込みニューラルネットワーク中の少なくとも1つのエッジ畳み込み層に入力し、該少なくとも1つのエッジ畳み込み層によって該少なくとも1つの部位のグラフデータに対して特徴抽出を行い、該少なくとも1つの部位のグローバル生物学的特徴を得る。
【0121】
いくつかの実施例では、グローバル生物学的特徴を抽出する過程において、端末は下記サブステップ3071~3074を実行する。
【0122】
3071:該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、端末は、該エッジ畳み込み層によって、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に対して特徴抽出を行い、抽出したエッジ畳み込み特徴を次の1つのエッジ畳み込み層に入力する。
【0123】
いくつかの実施例では、各エッジ畳み込み層のいずれにも多層パーセプトロンとプーリング層が含まれ、いずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に基づいて、クラスタリンググラフを構築し、該クラスタリンググラフを該エッジ畳み込み層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該クラスタリンググラフに対してマッピングを行い、該クラスタリンググラフの中間特徴を得て、該中間特徴を該エッジ畳み込み層中のプーリング層に入力し、該プーリング層によって該中間特徴に対して次元削減を行い、次元削減後の中間特徴を次の1つのエッジ畳み込み層中に入力する。
【0124】
いくつかの実施例では、クラスタリンググラフを構築する過程において、前の1つの畳み込み層によって出力されたエッジ畳み込み特徴に対して、KNN(k-Nearest Neighbor最近隣)アルゴリズムによってクラスタリンググラフを構築し、このとき、構築したクラスタリンググラフをKNNグラフと呼び、勿論、K平均アルゴリズムを利用してクラスタリンググラフを構築することもでき、本出願の実施例はクラスタリンググラフを構築する方法を具体的に限定しない。
【0125】
いくつかの実施例では、該プーリング層は最大プーリング層(max pooling layer)であり、最大プーリング層中において中間特徴に対して最大プーリング操作を行い、又は平均プーリング層(average pooling layer)であり、平均プーリング層中において中間特徴に対して平均プーリング操作を行い、本出願の実施例はプーリング層のタイプを具体的に限定しない。
【0126】
図6は本出願の実施例で提供されるエッジ畳み込み層の構造模式図であり、図6に参照されるように、いずれか1つのエッジ畳み込み層において、前の1つの畳み込み層によって出力された[N×C]次元のエッジ畳み込み特徴601に対して、KNNアルゴリズムによってクラスタリンググラフ(KNNグラフ)を作成し、多層パーセプトロンMLPsを利用してクラスタリンググラフに対して高次元特徴の抽出を行い、このように、[N×C]次元のエッジ畳み込み特徴601を[N×K×C’]次元の中間特徴602としてマッピングすることができ、プーリング層を利用して[N×K×C’]次元の中間特徴602に対して次元削減を行い、[N×C’]次元のエッジ畳み込み特徴603(次元削減後の中間特徴)を得て、[N×C’]次元のエッジ畳み込み特徴603を次の1つのエッジ畳み込み層に入力する。
【0127】
上記過程では、端末は、少なくとも1つのエッジ畳み込み層のうちの各エッジ畳み込み層のいずれに対しても上記操作を実行し、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴は次の1つのエッジ畳み込み層の入力とし、それにより、該少なくとも1つのエッジ畳み込み層によれば、該少なくとも1つの部位のグラフデータに対して一連のより高次元の特徴抽出を行うことに相当する。
【0128】
一例では、図5に参照されるように、グラフ畳み込みニューラルネットワーク中に2個のエッジ畳み込み層が含まれる場合を例にすると、端末は[N×32]次元のグラフデータ503を一番目のエッジ畳み込み層中に入力し、一番目のエッジ畳み込み層によって[N×64]次元のエッジ畳み込み特徴504を出力し、端末は、[N×64]次元のエッジ畳み込み特徴504を二番目のエッジ畳み込み層中に入力し、二番目のエッジ畳み込み層によって[N×128]次元のエッジ畳み込み特徴505を出力し、下記ステップ3072を実行する。
【0129】
3072:端末は、該少なくとも1つの部位のグラフデータ、及び該少なくとも1つのエッジ畳み込み層によって出力された少なくとも1つのエッジ畳み込み特徴をステッチし、第2の特徴を得る。
【0130】
上記過程では、端末は、各々の部位のグラフデータ、及び各エッジ畳み込み層によって出力されたエッジ畳み込み層特徴をステッチし、第2の特徴を得て、該第2の特徴は、該少なくとも1つのエッジ畳み込み層の残差特徴に相当し、それにより、グローバル生物学的特徴を抽出する過程において、最後の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴を考慮するだけでなく、且つ最初に入力された各々の部位のグラフデータ、及び中間の各エッジ畳み込み層によって出力されたエッジ畳み込み特徴も考慮することができ、グローバル生物学的特徴の表現能力を高めることに有利である。
【0131】
説明すべきものとして、ここでいうステッチとは、グラフデータと各々のエッジ畳み込み層によって出力されたエッジ畳み込み特徴とを直接次元的に連結することを指し、例えば、エッジ畳み込み層の個数が1であると仮定すると、[N×32]次元のグラフデータと[N×64]次元のエッジ畳み込み特徴とをステッチし、[N×96]次元の第2の特徴を得る。
【0132】
一例では、図5に参照されるように、グラフ畳み込みニューラルネットワーク中に2個のエッジ畳み込み層が含まれる場合を例にすると、端末は、[N×32]次元のグラフデータ503、一番目のエッジ畳み込み層によって出力された[N×64]次元のエッジ畳み込み特徴504、及び二番目のエッジ畳み込み層によって出力された[N×128]次元のエッジ畳み込み特徴505をステッチし、[N×224]次元の第2の特徴を得る。
【0133】
3073:端末は、該第2の特徴を多層パーセプトロンに入力し、該多層パーセプトロンによって該第2の特徴に対してマッピングを行い、第3の特徴を得る。
【0134】
上記過程では、端末が多層パーセプトロンによって特徴マッピングを行う過程は、前述の各々のステップにおいて多層パーセプトロンによって特徴マッピングを行う過程と類似しているので、ここでは詳しく説明しない。
【0135】
3074:端末は該第3の特徴をプーリング層に入力し、該プーリング層によって該第3の特徴に対して次元削減を行い、グローバル生物学的特徴を得る。
【0136】
いくつかの実施例では、該プーリング層は最大プーリング層(max pooling layer)であり、最大プーリング層中において第3の特徴に対して最大プーリング操作を行い、又は平均プーリング層(average pooling layer)であり、平均プーリング層中において第3の特徴に対して平均プーリング操作を行い、本出願の実施例はプーリング層のタイプを具体的に限定しない。
【0137】
一例では、図5に参照されるように、[N×224]次元の第2の特徴を多層パーセプトロンMLPsと最大プーリング層に順次入力し、1つのタンパク質点群の[1×1024]次元のグローバル生物学的特徴506を得て、下記ステップ308を実行する。
【0138】
308:端末は、該グローバル生物学的特徴、該少なくとも1つの部位のグラフデータ、及び該少なくとも1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴を融合し、融合して得た特徴を該グラフ畳み込みニューラルネットワークの出力層に入力し、該出力層によって該融合して得た特徴に対して確率フィッティングを行い、少なくとも1つの予測確率を得る。
【0139】
そのうち、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられる。
【0140】
いくつかの実施例では、融合して得た特徴に対して確率フィッティングを行う過程において、融合して得た特徴を該出力層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該融合して得た特徴に対してマッピングを行い、該少なくとも1つの予測確率を得る。多層パーセプトロンのマッピング過程は前述の各々のステップにおける多層パーセプトロンのマッピング過程と類似しているので、ここでは詳しく説明しない。
【0141】
上記過程では、端末は、グローバル生物学的特徴、各々の部位のグラフデータ、及び各々のエッジ畳み込み層によって出力されたエッジ畳み込み特徴を融合し、最終的に多層パーセプトロンを利用して、融合して得た特徴に対して確率フィッティングを行い、各部位が結合部位に属する予測確率をフィッティングし、いくつかの実施例では、上記融合過程は、グローバル生物学的特徴、各々の部位のグラフデータ、及び各々のエッジ畳み込み層によって出力されたエッジ畳み込み特徴を直接ステッチすることである。
【0142】
一例では、図5に参照されるように、グラフ畳み込みニューラルネットワーク中に2個のエッジ畳み込み層が含まれる場合を例にすると、端末は、[N×32]次元のグラフデータ503、一番目のエッジ畳み込み層によって出力された[N×64]次元のエッジ畳み込み特徴504、二番目のエッジ畳み込み層によって出力された[N×128]次元のエッジ畳み込み特徴505、及び[1×1024]次元のグローバル生物学的特徴506をステッチし、1つの[1×1248]次元の融合特徴507を得て、[1×1248]次元の融合特徴507を多層パーセプトロンMLPsに入力し、多層パーセプトロンMLPsを利用して各部位に対してすべて該部位が結合部位に属する予測確率をフィッティングし、最終的に出力した検出結果は1つの[N×1]次元のアレイ508であり、アレイ508中の各値は1つの部位が結合部位に属する予測確率を代表する。上記過程では、入力したタンパク質分子のうち各部位が結合部位であるか否かを予測する必要があるため、このタスクをポイントバイポイント分割タスクとみなす。
【0143】
上記ステップ306~308では、部位検出モデルがグラフ畳み込みニューラルネットワークである場合を例にすると、端末は部位検出モデルを呼び出して抽出した位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得る過程を示しており、いくつかの実施例では、該部位検出モデルは他の深層学習ネットワークであり、本出願の実施例は部位検出モデルのタイプを具体的に限定しない。
【0144】
309:端末は、該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定する。
【0145】
上記過程では、端末は、該少なくとも1つの部位の中から、予測確率が確率閾値よりも大きい部位を結合部位として決定し、又は、端末は、予測確率が大きいものから小さいものになるような順序に従って部位を並べ替え、順位が最初の目標数にある部位を結合部位として決定する。
【0146】
そのうち、該確率閾値は、0以上且つ1以下のいずれか1つの数値であり、該目標数は1以上のいずれか1つの整数である。例えば、目標数が3である場合、電子機器は、予測確率が大きいものから小さいものになるような順序に従って部位を並べ替え、順位が最初の3位にある部位を結合部位として決定する。
【0147】
本出願の実施例で提供される方法は、目標分子中の各々の部位の三次元座標を取得することによって、各々の部位のそれぞれに対応する第1の目標点と第2の目標点を決定し、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標に基づいて、各々の部位の三次元座標中において回転不変特性を有する位置特徴を抽出し、部位検出モデルを呼び出して抽出した位置特徴に対して予測を行い、各々の部位が結合部位に属するか否かの予測確率を得て、それにより、予測確率に基づいて目標分子の結合部位を決定し、第1の目標点と第2の目標点が各々の部位に関連しており、且つ一定の空間代表性を有する点であり、したがって、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標を活かして、目標分子の細部構造を完全に表現でき、回転不変特性を有する位置特徴を構造し、それにより、目標分子のためにボクセル特徴を設計することによる細部損失を回避しており、それによって、位置特徴に基づいて結合部位検出を行うときに、目標分子の細部構造の位置情報を十分に利用し、分子結合部位の検出過程の正確性を高めることができる。
【0148】
本出願の実施例では、技術者が1つのボクセル特徴を人工的に設計して生物学的特徴とするのではなく、深層学習におけるグラフ畳み込みニューラルネットワークの強い性能を利用してタンパク質分子の生物学的特徴を抽出し、それにより、より高い表現能力を有する生物学的特徴を取得することができ、それにより、より良好な結合部位の識別正確率を達成させることができ、且つ、GPU(Graphics Processing Unit、画像プロセッサ)によれば、結合部位の予測動作を完了することができ、リアルタイムに検出する要件を満たし、且つ、各々の部位の位置特徴が回転不変性を有するため、タンパク質分子が回転した場合にも、まだグラフ畳み込みニューラルネットワークによって安定的な予測結果を生成することができ、結合部位の検出過程全体の正確率、安定性を高める。
【0149】
上記すべての好適な技術的手段は、任意の組み合わせを採用して本出願の好適な実施例を形成し、ここでは1つずつ詳しく説明しない。
【0150】
図7は本出願の実施例で提供される分子結合部位検出装置の構造模式図であり、図7に参照されるように、該装置は、取得モジュール701、第1の決定モジュール702、抽出モジュール703、予測モジュール704、及び第2の決定モジュール705を含む。
【0151】
取得モジュール701は、検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得することに用いられ、該目標分子は結合部位を検出すべき化学分子であり、
第1の決定モジュール702は、各部位に対応する第1の目標点と第2の目標点をそれぞれ決定することに用いられ、そのうち、いずれか1つの部位の第1の目標点は目標球形空間内に含まれるすべての部位の中心点であり、前記目標球形空間は前記いずれか1つの部位を球心とし、目標長さを半径とする球形空間であり、いずれか1つの部位の第2の目標点は原点を始点とし、前記部位を指し示すベクトルの順方向延長線と前記目標球形空間の外表面との交点であり、
抽出モジュール703は、該少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出することに用いられ、該位置特徴は該少なくとも1つの部位の該目標分子中に位置する位置情報を特徴付けることに用いられ、
予測モジュール704は、部位検出モデルを呼び出して抽出した該位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得ることに用いられ、そのうち、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられ、
第2の決定モジュール705は、該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定することに用いられる。
【0152】
本出願の実施例で提供される装置は、目標分子中の各々の部位の三次元座標を取得することによって、各々の部位のそれぞれに対応する第1の目標点と第2の目標点を決定し、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標に基づいて、各々の部位の三次元座標中において回転不変特性を有する位置特徴を抽出し、部位検出モデルを呼び出して抽出した位置特徴に対して予測を行い、各々の部位が結合部位に属するか否かの予測確率を得て、それにより、予測確率に基づいて目標分子の結合部位を決定し、第1の目標点と第2の目標点が各々の部位に関連しており、且つ一定の空間代表性を有する点であり、したがって、各々の部位、各々の第1の目標点、及び各々の第2の目標点の三次元座標を活かして、目標分子の細部構造を完全に表現でき、回転不変特性を有する位置特徴を構造し、それにより、目標分子のためにボクセル特徴を設計することによる細部損失を回避しており、それによって、位置特徴に基づいて結合部位検出を行うときに、目標分子の細部構造の位置情報を十分に利用し、分子結合部位の検出過程の正確性を高めることができる。
【0153】
1つの可能な実施形態では、図7の装置の構成に基づいて、該抽出モジュール703は抽出ユニットを含み、
上記抽出ユニットは、該少なくとも1つの部位のうちのいずれか1つの部位に対して、該部位、該部位に対応する第1の目標点、及び該部位に対応する第2の目標点の三次元座標に基づいて、該部位の三次元座標中において回転不変特性を有する位置特徴を抽出することに用いられる。
【0154】
1つの可能な実施形態では、該抽出ユニットは、
該部位、該第1の目標点、及び該第2の目標点の三次元座標に基づいて、該部位のグローバル位置特徴を構築し、該グローバル位置特徴は該部位の目標分子内に位置する空間位置情報を特徴付けることに用いられ、
該部位、該第1の目標点、該第2の目標点、及び該部位の少なくとも1つの隣接領域点の三次元座標に基づいて、該部位と該少なくとも1つの隣接領域点との間の少なくとも1つの局所位置特徴を構築し、1つの局所位置特徴は、該部位と1つの隣接領域点との間の相対位置情報を特徴付けることに用いられ、
該グローバル位置特徴と該少なくとも1つの局所位置特徴に基づいて、該部位の位置特徴を取得することに用いられる。
【0155】
1つの可能な実施形態では、該グローバル位置特徴は、該部位のノルム、該部位と該第1の目標点との間の距離、該第1の目標点と該第2の目標点との間の距離、第1の夾角の余弦値、又は第2の夾角の余弦値のうちの少なくとも一つを含み、そのうち、該第1の夾角は第1の線分と第2の線分との間でなす夾角であり、該第2の夾角は該第2の線分と第3の線分との間でなす夾角であり、該第1の線分は該部位と該第1の目標点との間でなす線分であり、該第2の線分は該第1の目標点と該第2の目標点との間でなす線分であり、該第3の線分は該部位と該第2の目標点との間でなす線分である。
【0156】
1つの可能な実施形態では、該少なくとも1つの隣接領域点のうちのいずれか1つの隣接領域点に対して、該部位と該隣接領域点との間の局所位置特徴は、該隣接領域点と該部位との間の距離、該隣接領域点と該第1の目標点との間の距離、該隣接領域点と該第2の目標点との間の距離、第3の夾角の余弦値、第4の夾角の余弦値、又は第5の夾角の余弦値のうちの少なくとも一つを含み、そのうち、該第3の夾角は第4の線分と第5の線分との間でなす夾角であり、該第4の夾角は該第5の線分と第6の線分との間でなす夾角であり、該第5の夾角は該第6の線分と該第4の線分との間でなす夾角であり、該第4の線分は該隣接領域点と該部位との間でなす線分であり、該第5の線分は該隣接領域点と該第1の目標点との間でなす線分であり、該第6の線分は該隣接領域点と該第2の目標点との間でなす線分である。
【0157】
1つの可能な実施形態では、該部位検出モデルはグラフ畳み込みニューラルネットワークであり、該グラフ畳み込みニューラルネットワークは入力層、少なくとも1つのエッジ畳み込み層、及び出力層を含み、
図7の装置の構成に基づいて、該予測モジュール704は、入力出力ユニット、特徴抽出ユニット、及び確率フィッティングユニットを含む。
【0158】
上記入力出力ユニットは、該少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、該入力層によって該少なくとも1つの部位のグラフデータを出力することに用いられ、該グラフデータはグラフの形で部位の位置特徴を表すことに用いられ、
上記特徴抽出ユニットは、少なくとも1つの部位のグラフデータを該グラフ畳み込みニューラルネットワーク中の少なくとも1つのエッジ畳み込み層に入力し、該少なくとも1つのエッジ畳み込み層によって該少なくとも1つの部位のグラフデータに対して特徴抽出を行い、該少なくとも1つの部位のグローバル生物学的特徴を得ることに用いられ、
上記確率フィッティングユニットは、該グローバル生物学的特徴、該少なくとも1つの部位のグラフデータ、及び該少なくとも1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴を融合し、融合して得た特徴を該グラフ畳み込みニューラルネットワークの出力層に入力し、該出力層によって該融合して得た特徴に対して確率フィッティングを行い、該少なくとも1つの予測確率を得ることに用いられる。
【0159】
1つの可能な実施形態では、該入力出力ユニットは、
該少なくとも1つの部位の位置特徴を該入力層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該少なくとも1つの部位の位置特徴に対してマッピングを行い、該少なくとも1つの部位の第1の特徴を得ることに用いられ、該第1の特徴の次元は該位置特徴の次元よりも大きく、
該少なくとも1つの部位の第1の特徴を該入力層中のプーリング層に入力し、該プーリング層によって該少なくとも1つの部位の第1の特徴に対して次元削減を行い、該少なくとも1つの部位のグラフデータを得ることに用いられる。
【0160】
1つの可能な実施形態では、図7の装置の構成に基づいて、該特徴抽出ユニットは、抽出入力サブユニット、ステッチサブユニット、マッピングサブユニット、及び次元削減サブユニットを含む。
【0161】
上記抽出入力サブユニットは、該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に対して特徴抽出を行い、抽出したエッジ畳み込み特徴を次の1つのエッジ畳み込み層に入力することに用いられ、
上記ステッチサブユニットは、該少なくとも1つの部位のグラフデータ、及び該少なくとも1つのエッジ畳み込み層によって出力された少なくとも1つのエッジ畳み込み特徴をステッチし、第2の特徴を得ることに用いられ、
上記マッピングサブユニットは、該第2の特徴を多層パーセプトロンに入力し、該多層パーセプトロンによって該第2の特徴に対してマッピングを行い、第3の特徴を得ることに用いられ、
上記次元削減サブユニットは、該第3の特徴をプーリング層に入力し、該プーリング層によって該第3の特徴に対して次元削減を行い、該グローバル生物学的特徴を得ることに用いられる。
【0162】
1つの可能な実施形態では、該抽出入力サブユニットは、
該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に基づいて、クラスタリンググラフを構築することに用いられ、
該クラスタリンググラフを該エッジ畳み込み層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該クラスタリンググラフに対してマッピングを行い、該クラスタリンググラフの中間特徴を得ることに用いられ、
該中間特徴を該エッジ畳み込み層中のプーリング層に入力し、該プーリング層によって該中間特徴に対して次元削減を行い、次元削減後の中間特徴を次の1つのエッジ畳み込み層中に入力することに用いられる。
【0163】
1つの可能な実施形態では、該確率フィッティングユニットは、
融合して得た特徴を該出力層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該融合して得た特徴に対してマッピングを行い、該少なくとも1つの予測確率を得ることに用いられる。
【0164】
1つの可能な実施形態では、該第2の決定モジュール705は、
該少なくとも1つの部位の中から、予測確率が確率閾値よりも大きい部位を結合部位として決定することに用いられる。
【0165】
上記すべての好適な技術的手段は、任意の組み合わせを採用して本出願の好適な実施例を形成し、ここでは1つずつ詳しく説明しない。
【0166】
説明すべきものとして、上記実施例で提供される分子結合部位検出装置は、目標分子の結合部位を検出するときに、上記各機能モジュールの区分を挙げて説明するだけであり、実際の適用では、必要に応じて上記機能を異なる機能モジュールに割り当てて達成させてもよく、即ち、電子機器の内部構造を異なる機能モジュールに区分することで、前述の全部、又は一部の機能を達成させる。また、上記実施例で提供される分子結合部位検出装置は、分子結合部位検出方法の実施例と同じ構想に属し、その具体的な実現過程は分子結合部位検出方法の実施例に詳しく記載されており、ここでは詳しく説明しない。
【0167】
図8は本出願の実施例で提供される電子機器の構造模式図である。図8に参照されるように、電子機器が端末800である場合を例にして説明し、該端末800は、スマートフォン、タブレットパソコン、MP3プレーヤー(Moving Picture Experts Group Audio Layer III、ムービング・ピクチャー・エクスパーツ・グループ・レイヤー3)、MP4(Moving Picture Experts Group Audio Layer IV、ムービング・ピクチャー・エクスパーツ・グループ・レイヤー4)プレーヤー、ノードパソコン又はデスクトップパソコンである。端末800はユーザ機器、ポータブル端末、ラップトップ端末、デスクトップ端末など、他の名称と呼ばれてもよい。
【0168】
通常、端末800は、プロセッサ801とメモリ802を含む。
【0169】
プロセッサ801は、1つ又は複数の処理コアを含み、例えば4コアプロセッサ、8コアプロセッサ等である。プロセッサ801は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ)、及びPLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも一種のハードウェアの形を採用して実現される。いくつかの実施例では、プロセッサ801は、メインプロセッサとコプロセッサを含み、メインプロセッサは、ウェイク状態下でのデータを処理することに用いられるプロセッサであり、CPU(Central Processing Unit、中央プロセッサ)とも呼ばれ、コプロセッサは、待機状態下でのデータを処理することに用いられる低電力プロセッサである。いくつかの実施例では、プロセッサ801は、GPU(Graphics Processing Unit、画像プロセッサ)を集積しており、GPUは、表示画面に表示する必要がある内容のレンダリング及び描画を担当することに用いられる。いくつかの実施例では、プロセッサ801は、AI(Artificial Intelligence、人工知能)プロセッサを含み、該AIプロセッサは、機械学習に関連する計算操作を処理することに用いられる。
【0170】
メモリ802は1つ又は複数のコンピュータ読み取り可能な記憶媒体を含み、該コンピュータ読み取り可能な記憶媒体は非一時的である。いくつかの実施例では、メモリ802は高速ランダムアクセスメモリ、及び非揮発性メモリ、例えば1つ又は複数の磁気ディスク記憶機器、フラッシュ記憶機器をさらに含む。いくつかの実施例では、メモリ802中の非一時的コンピュータ読み取り可能な記憶媒体は、少なくとも1つの命令を記憶することに用いられ、該少なくとも1つの命令は、プロセッサ801によって実行されることで、下記分子結合部位検出のステップを実現することに用いられる。
【0171】
検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得し、該目標分子は結合部位を検出すべき化学分子であり、
各部位に対応する第1の目標点と第2の目標点をそれぞれ決定し、そのうち、いずれか1つの部位の第1の目標点は目標球形空間内に含まれるすべての部位の中心点であり、該目標球形空間は該いずれか1つの部位を球心とし、目標長さを半径とする球形空間であり、いずれか1つの部位の第2の目標点は原点を始点とし、該部位を指し示すベクトルの順方向延長線と該目標球形空間の外表面との交点であり、
該少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出し、該位置特徴は該少なくとも1つの部位の該目標分子中に位置する位置情報を特徴付けることに用いられ、
部位検出モデルを呼び出して抽出した該位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得て、そのうち、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられ、
該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定する。
【0172】
1つの可能な実施形態では、この該少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップは、
該少なくとも1つの部位のうちのいずれか1つの部位に対して、該部位、該部位に対応する第1の目標点、及び該部位に対応する第2の目標点の三次元座標に基づいて、該部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップを含む。
【0173】
1つの可能な実施形態では、この該部位、該部位に対応する第1の目標点、及び該部位に対応する第2の目標点の三次元座標に基づいて、該部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップは、
該部位、該第1の目標点、及び該第2の目標点の三次元座標に基づいて、該部位のグローバル位置特徴を構築するステップであって、該グローバル位置特徴は該部位の目標分子内に位置する空間位置情報を特徴付けることに用いられる、ステップ、
該部位、該第1の目標点、該第2の目標点、及び該部位の少なくとも1つの隣接領域点の三次元座標に基づいて、該部位と該少なくとも1つの隣接領域点との間の少なくとも1つの局所位置特徴を構築するステップであって、1つの局所位置特徴は、該部位と1つの隣接領域点との間の相対位置情報を特徴付けることに用いられる、ステップ、及び
該グローバル位置特徴と該少なくとも1つの局所位置特徴に基づいて、該部位の位置特徴を取得するステップを含む。
【0174】
1つの可能な実施形態では、該グローバル位置特徴は、該部位のノルム、該部位と該第1の目標点との間の距離、該第1の目標点と該第2の目標点との間の距離、第1の夾角の余弦値、又は第2の夾角の余弦値のうちの少なくとも一つを含み、そのうち、該第1の夾角は第1の線分と第2の線分との間でなす夾角であり、該第2の夾角は該第2の線分と第3の線分との間でなす夾角であり、該第1の線分は該部位と該第1の目標点との間でなす線分であり、該第2の線分は該第1の目標点と該第2の目標点との間でなす線分であり、該第3の線分は該部位と該第2の目標点との間でなす線分である。
【0175】
1つの可能な実施形態では、該少なくとも1つの隣接領域点のうちのいずれか1つの隣接領域点に対して、該部位と該隣接領域点との間の局所位置特徴は、該隣接領域点と該部位との間の距離、該隣接領域点と該第1の目標点との間の距離、該隣接領域点と該第2の目標点との間の距離、第3の夾角の余弦値、第4の夾角の余弦値、又は第5の夾角の余弦値のうちの少なくとも一つを含み、そのうち、該第3の夾角は第4の線分と第5の線分との間でなす夾角であり、該第4の夾角は該第5の線分と第6の線分との間でなす夾角であり、該第5の夾角は該第6の線分と該第4の線分との間でなす夾角であり、該第4の線分は該隣接領域点と該部位との間でなす線分であり、該第5の線分は該隣接領域点と該第1の目標点との間でなす線分であり、該第6の線分は該隣接領域点と該第2の目標点との間でなす線分である。
【0176】
1つの可能な実施形態では、該部位検出モデルはグラフ畳み込みニューラルネットワークであり、該グラフ畳み込みニューラルネットワークは入力層、少なくとも1つのエッジ畳み込み層、及び出力層を含み、
この部位検出モデルを呼び出して抽出した該位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得るステップは、
該少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、該入力層によって該少なくとも1つの部位のグラフデータを出力するステップであって、該グラフデータはグラフの形で部位の位置特徴を表すことに用いられる、ステップ、
少なくとも1つの部位のグラフデータを該グラフ畳み込みニューラルネットワーク中の少なくとも1つのエッジ畳み込み層に入力し、該少なくとも1つのエッジ畳み込み層によって該少なくとも1つの部位のグラフデータに対して特徴抽出を行い、該少なくとも1つの部位のグローバル生物学的特徴を得るステップ、及び
該グローバル生物学的特徴、該少なくとも1つの部位のグラフデータ、及び該少なくとも1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴を融合し、融合して得た特徴を該グラフ畳み込みニューラルネットワークの出力層に入力し、該出力層によって該融合して得た特徴に対して確率フィッティングを行い、該少なくとも1つの予測確率を得るステップを含む。
【0177】
1つの可能な実施形態では、この該少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、該入力層によって該少なくとも1つの部位のグラフデータを出力するステップは、
該少なくとも1つの部位の位置特徴を該入力層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該少なくとも1つの部位の位置特徴に対してマッピングを行い、該少なくとも1つの部位の第1の特徴を得るステップであって、該第1の特徴の次元は該位置特徴の次元よりも大きい、ステップ、及び
該少なくとも1つの部位の第1の特徴を該入力層中のプーリング層に入力し、該プーリング層によって該少なくとも1つの部位の第1の特徴に対して次元削減を行い、該少なくとも1つの部位のグラフデータを得るステップを含む。
【0178】
1つの可能な実施形態では、この該少なくとも1つのエッジ畳み込み層によって該少なくとも1つの部位のグラフデータに対して特徴抽出を行い、該少なくとも1つの部位のグローバル生物学的特徴を得るステップは、
該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に対して特徴抽出を行い、抽出したエッジ畳み込み特徴を次の1つのエッジ畳み込み層に入力するステップ、
該少なくとも1つの部位のグラフデータ、及び該少なくとも1つのエッジ畳み込み層によって出力された少なくとも1つのエッジ畳み込み特徴をステッチし、第2の特徴を得るステップ、
該第2の特徴を多層パーセプトロンに入力し、該多層パーセプトロンによって該第2の特徴に対してマッピングを行い、第3の特徴を得るステップ、及び
該第3の特徴をプーリング層に入力し、該プーリング層によって該第3の特徴に対して次元削減を行い、該グローバル生物学的特徴を得るステップを含む。
【0179】
1つの可能な実施形態では、この該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に対して特徴抽出を行い、抽出したエッジ畳み込み特徴を次の1つのエッジ畳み込み層に入力するステップは、
該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に基づいて、クラスタリンググラフを構築するステップ、
該クラスタリンググラフを該エッジ畳み込み層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該クラスタリンググラフに対してマッピングを行い、該クラスタリンググラフの中間特徴を得るステップ、及び
該中間特徴を該エッジ畳み込み層中のプーリング層に入力し、該プーリング層によって該中間特徴に対して次元削減を行い、次元削減後の中間特徴を次の1つのエッジ畳み込み層中に入力するステップを含む。
【0180】
1つの可能な実施形態では、この融合して得た特徴を該グラフ畳み込みニューラルネットワークの出力層に入力し、該出力層によって該融合して得た特徴に対して確率フィッティングを行い、該少なくとも1つの予測確率を得るステップは、
融合して得た特徴を該出力層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該融合して得た特徴に対してマッピングを行い、該少なくとも1つの予測確率を得るステップを含む。
【0181】
1つの可能な実施形態では、この該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定するステップは、
該少なくとも1つの部位の中から、予測確率が確率閾値よりも大きい部位を結合部位として決定するステップを含む。
【0182】
いくつかの実施例では、端末800は、好適には、周辺機器インタフェース803と少なくとも1つの周辺機器をさらに含む。プロセッサ801、メモリ802、及び周辺機器インタフェース803の間はバス又は信号線を介して連結される。各々の周辺機器はバス、信号線又は回路基板を介して周辺機器インタフェース803に連結される。好適には、周辺機器は表示画面804を含む。
【0183】
周辺機器インタフェース803は、I/O(Input /Output、入力/出力)に関連する少なくとも1つの周辺機器をプロセッサ801とメモリ802に接続することに用いられ得る。
【0184】
表示画面804は、UI(User Interface、ユーザインタフェース)を表示することに用いられる。該UIはグラフィック、テキスト、アイコン、ビデオ及びこれらの任意の組み合わせを含む。表示画面804がタッチ表示画面である場合、表示画面804は、表示画面804の表面又は表面の上方でのタッチ信号を収集する能力も有する。いくつかの実施例では、該タッチ信号は制御信号としてプロセッサ801に入力されて処理される。このとき、表示画面804は、仮想ボタン及び/又は仮想キーボードを提供することにも用いられ、これはソフトボタン及び/又はソフトキーボードとも呼ばれる。
【0185】
当業者が理解できるように、図8に示す構造は端末800に対する限定を構成するものではなく、図示よりも多い又は少ない部品を含んだり、これらの部品を組み合わせたり、異なる部品レイアウトを採用したりする。
【0186】
例示的な実施例では、コンピュータ読み取り可能な記憶媒体、例えば少なくとも1つのプログラムコードを含むメモリをさらに提供し、上記少なくとも1つのプログラムコードは端末中のプロセッサによって実行されることによって、下記の分子結合部位検出のステップを完了してもよい。
【0187】
検出すべき目標分子中の少なくとも1つの部位の三次元座標を取得し、該目標分子は結合部位を検出すべき化学分子であり、
各部位に対応する第1の目標点と第2の目標点をそれぞれ決定し、そのうち、いずれか1つの部位の第1の目標点は目標球形空間内に含まれるすべての部位の中心点であり、該目標球形空間は該いずれか1つの部位を球心とし、目標長さを半径とする球形空間であり、いずれか1つの部位の第2の目標点は原点を始点とし、該部位を指し示すベクトルの順方向延長線と該目標球形空間の外表面との交点であり、
該少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出し、該位置特徴は該少なくとも1つの部位の該目標分子中に位置する位置情報を特徴付けることに用いられ、
部位検出モデルを呼び出して抽出した該位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得て、そのうち、1つの予測確率は1つの部位が結合部位に属する可能性を特徴付けることに用いられ、
該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定する。
【0188】
1つの可能な実施形態では、この該少なくとも1つの部位、少なくとも1つの第1の目標点、及び少なくとも1つの第2の目標点の三次元座標に基づいて、該少なくとも1つの部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップは、
該少なくとも1つの部位のうちのいずれか1つの部位に対して、該部位、該部位に対応する第1の目標点、及び該部位に対応する第2の目標点の三次元座標に基づいて、該部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップを含む。
【0189】
1つの可能な実施形態では、この該部位、該部位に対応する第1の目標点、及び該部位に対応する第2の目標点の三次元座標に基づいて、該部位の三次元座標中において回転不変特性を有する位置特徴を抽出するステップは、
該部位、該第1の目標点、及び該第2の目標点の三次元座標に基づいて、該部位のグローバル位置特徴を構築するステップであって、該グローバル位置特徴は該部位の目標分子内に位置する空間位置情報を特徴付けることに用いられる、ステップ、
該部位、該第1の目標点、該第2の目標点、及び該部位の少なくとも1つの隣接領域点の三次元座標に基づいて、該部位と該少なくとも1つの隣接領域点との間の少なくとも1つの局所位置特徴を構築するステップであって、1つの局所位置特徴は、該部位と1つの隣接領域点との間の相対位置情報を特徴付けることに用いられる、ステップ、及び
該グローバル位置特徴と該少なくとも1つの局所位置特徴に基づいて、該部位の位置特徴を取得するステップを含む。
【0190】
1つの可能な実施形態では、該グローバル位置特徴は、該部位のノルム、該部位と該第1の目標点との間の距離、該第1の目標点と該第2の目標点との間の距離、第1の夾角の余弦値、又は第2の夾角の余弦値のうちの少なくとも一つを含み、そのうち、該第1の夾角は第1の線分と第2の線分との間でなす夾角であり、該第2の夾角は該第2の線分と第3の線分との間でなす夾角であり、該第1の線分は該部位と該第1の目標点との間でなす線分であり、該第2の線分は該第1の目標点と該第2の目標点との間でなす線分であり、該第3の線分は該部位と該第2の目標点との間でなす線分である。
【0191】
1つの可能な実施形態では、該少なくとも1つの隣接領域点のうちのいずれか1つの隣接領域点に対して、該部位と該隣接領域点との間の局所位置特徴は、該隣接領域点と該部位との間の距離、該隣接領域点と該第1の目標点との間の距離、該隣接領域点と該第2の目標点との間の距離、第3の夾角の余弦値、第4の夾角の余弦値、又は第5の夾角の余弦値のうちの少なくとも一つを含み、そのうち、該第3の夾角は第4の線分と第5の線分との間でなす夾角であり、該第4の夾角は該第5の線分と第6の線分との間でなす夾角であり、該第5の夾角は該第6の線分と該第4の線分との間でなす夾角であり、該第4の線分は該隣接領域点と該部位との間でなす線分であり、該第5の線分は該隣接領域点と該第1の目標点との間でなす線分であり、該第6の線分は該隣接領域点と該第2の目標点との間でなす線分である。
【0192】
1つの可能な実施形態では、該部位検出モデルはグラフ畳み込みニューラルネットワークであり、該グラフ畳み込みニューラルネットワークは入力層、少なくとも1つのエッジ畳み込み層、及び出力層を含み、
この部位検出モデルを呼び出して抽出した該位置特徴に対して予測処理を行うことによって、該少なくとも1つの部位の少なくとも1つの予測確率を得るステップは、
該少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、該入力層によって該少なくとも1つの部位のグラフデータを出力するステップであって、該グラフデータはグラフの形で部位の位置特徴を表すことに用いられる、ステップ、
少なくとも1つの部位のグラフデータを該グラフ畳み込みニューラルネットワーク中の少なくとも1つのエッジ畳み込み層に入力し、該少なくとも1つのエッジ畳み込み層によって該少なくとも1つの部位のグラフデータに対して特徴抽出を行い、該少なくとも1つの部位のグローバル生物学的特徴を得るステップ、及び
該グローバル生物学的特徴、該少なくとも1つの部位のグラフデータ、及び該少なくとも1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴を融合し、融合して得た特徴を該グラフ畳み込みニューラルネットワークの出力層に入力し、該出力層によって該融合して得た特徴に対して確率フィッティングを行い、該少なくとも1つの予測確率を得るステップを含む。
【0193】
1つの可能な実施形態では、この該少なくとも1つの部位の位置特徴をグラフ畳み込みニューラルネットワーク中の入力層に入力し、該入力層によって該少なくとも1つの部位のグラフデータを出力するステップは、
該少なくとも1つの部位の位置特徴を該入力層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該少なくとも1つの部位の位置特徴に対してマッピングを行い、該少なくとも1つの部位の第1の特徴を得るステップであって、該第1の特徴の次元は該位置特徴の次元よりも大きい、ステップ、及び
該少なくとも1つの部位の第1の特徴を該入力層中のプーリング層に入力し、該プーリング層によって該少なくとも1つの部位の第1の特徴に対して次元削減を行い、該少なくとも1つの部位のグラフデータを得るステップを含む。
【0194】
1つの可能な実施形態では、この該少なくとも1つのエッジ畳み込み層によって該少なくとも1つの部位のグラフデータに対して特徴抽出を行い、該少なくとも1つの部位のグローバル生物学的特徴を得るステップは、
該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に対して特徴抽出を行い、抽出したエッジ畳み込み特徴を次の1つのエッジ畳み込み層に入力するステップ、
該少なくとも1つの部位のグラフデータ、及び該少なくとも1つのエッジ畳み込み層によって出力された少なくとも1つのエッジ畳み込み特徴をステッチし、第2の特徴を得るステップ、
該第2の特徴を多層パーセプトロンに入力し、該多層パーセプトロンによって該第2の特徴に対してマッピングを行い、第3の特徴を得るステップ、及び
該第3の特徴をプーリング層に入力し、該プーリング層によって該第3の特徴に対して次元削減を行い、該グローバル生物学的特徴を得るステップを含む。
【0195】
1つの可能な実施形態では、この該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に対して特徴抽出を行い、抽出したエッジ畳み込み特徴を次の1つのエッジ畳み込み層に入力するステップは、
該少なくとも1つのエッジ畳み込み層のうちのいずれか1つのエッジ畳み込み層に対して、前の1つのエッジ畳み込み層によって出力されたエッジ畳み込み特徴に基づいて、クラスタリンググラフを構築するステップ、
該クラスタリンググラフを該エッジ畳み込み層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該クラスタリンググラフに対してマッピングを行い、該クラスタリンググラフの中間特徴を得るステップ、及び
該中間特徴を該エッジ畳み込み層中のプーリング層に入力し、該プーリング層によって該中間特徴に対して次元削減を行い、次元削減後の中間特徴を次の1つのエッジ畳み込み層中に入力するステップを含む。
【0196】
1つの可能な実施形態では、この融合して得た特徴を該グラフ畳み込みニューラルネットワークの出力層に入力し、該出力層によって該融合して得た特徴に対して確率フィッティングを行い、該少なくとも1つの予測確率を得るステップは、
融合して得た特徴を該出力層中の多層パーセプトロンに入力し、該多層パーセプトロンによって該融合して得た特徴に対してマッピングを行い、該少なくとも1つの予測確率を得るステップを含む。
【0197】
1つの可能な実施形態では、この該少なくとも1つの予測確率に基づいて、該目標分子中の該少なくとも1つの部位内の結合部位を決定するステップは、
該少なくとも1つの部位の中から、予測確率が確率閾値よりも大きい部位を結合部位として決定するステップを含む。
【0198】
いくつかの実施例では、上記コンピュータ読み取り可能な記憶媒体はROM(Read-Only Memory、読み取り専用メモリ)、RAM(Random-Access Memory、ランダムアクセスメモリ)、CD-ROM(Compact Disc Read-Only Memory、読み取り専用コンパクトディスク)、磁気テープ、フロッピーディスク又は光学データ記憶機器等である。
【0199】
当業者が理解できるように、上記実施例を実現する全部又は一部のステップはハードウェアによって完了され、又はプログラムによって関連ハードウェアに命令を出して完了させ、該プログラムはコンピュータ読み取り可能な記憶媒体中に記憶されており、上記で言及する記憶媒体は読み取り専用メモリ、磁気ディスク又はコンパクトディスク等である。
【0200】
以上は本出願の好適な実施例に過ぎず、本出願を制限するものではなく、本出願の精神及び原則内で行われる任意の修正、同等置換、改良などであれば、すべて本出願の技術的範囲に含まれるべきである。
【符号の説明】
【0201】
101 端末
102 サーバ
400 部位
401 目標球形空間
402 第1の目標点
403 第2の目標点
500 点群データ
503 グラフデータ
508 アレイ
701 取得モジュール
702 第1の決定モジュール
703 抽出モジュール
704 予測モジュール
705 第2の決定モジュール
800 端末
801 プロセッサ
802 メモリ
803 周辺機器インタフェース
804 表示画面
図1
図2
図3
図4
図5
図6
図7
図8