IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7495467タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置
<>
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図1
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図2
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図3
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図4
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図5
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図6
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図7
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図8
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図9
  • 特許-タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-27
(45)【発行日】2024-06-04
(54)【発明の名称】タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置
(51)【国際特許分類】
   G16B 40/00 20190101AFI20240528BHJP
   G16B 30/00 20190101ALI20240528BHJP
【FI】
G16B40/00
G16B30/00
【請求項の数】 12
(21)【出願番号】P 2022179421
(22)【出願日】2022-11-09
(65)【公開番号】P2023022060
(43)【公開日】2023-02-14
【審査請求日】2022-11-09
(31)【優先権主張番号】202111423752.5
(32)【優先日】2021-11-26
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】シュー, ヤン
(72)【発明者】
【氏名】リウ, ジン
(72)【発明者】
【氏名】ファン, シャオミン
(72)【発明者】
【氏名】ワン, ファン
(72)【発明者】
【氏名】へー, ジンゾウ
【審査官】橋沼 和樹
(56)【参考文献】
【文献】中国特許出願公開第113412519(CN,A)
【文献】中国特許出願公開第113239705(CN,A)
【文献】中国特許出願公開第112614538(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
タンパク質表現モデルの事前トレーニング方法であって、
タンパク質のアミノ酸配列、機能情報及び構造情報を取得するステップと、
前記アミノ酸配列、前記機能情報及び前記構造情報に基づいて、タンパク質表現モデルを事前にトレーニングするステップと、
を含み、
前記アミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップが、
前記機能情報をマスクに置き換え、前記アミノ酸配列、前記構造情報及び前記タンパク質に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップ、及び/又は、
前記機能情報及び前記構造情報をそれぞれマスク文字に置き換え、前記アミノ酸配列及び前記タンパク質に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップ、及び/又は
前記構造情報をマスク文字に置き換え、前記アミノ酸配列、前記機能情報及び前記タンパク質に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップ、
を含み、
前記方法が、
前記アミノ酸配列中のマスク対象のアミノ酸をマスク処理して、マスクされたアミノ酸配列を得るステップと、
前記マスク対象のアミノ酸、前記マスクされたアミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップと、
をさらに含み、
前記マスク対象のアミノ酸、前記マスクされたアミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップが、
前記マスクされたアミノ酸配列、前記機能情報及び前記構造情報を前記タンパク質表現モデルに入力して、第1の融合表現ベクトルを得るステップと、
前記第1の融合表現ベクトルに基づいて、前記マスク対象のアミノ酸に対応するアミノ酸予測結果を決定するステップと、
前記マスク対象のアミノ酸及び前記アミノ酸予測結果に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップと、
を含む、タンパク質表現モデルの事前トレーニング方法。
【請求項2】
前記マスクされたアミノ酸配列、前記機能情報及び前記構造情報を前記タンパク質表現モデルに入力して、第1の融合表現ベクトルを得るステップが、
前記マスクされたアミノ酸配列、前記構造情報及びマスク処理された前記機能情報中の各文字に対応する文字ベクトル及び位置ベクトルをそれぞれ決定するステップと、
前記マスクされたアミノ酸配列、前記構造情報及び前記機能情報中の各文字に対応する文字ベクトル及び位置ベクトルを結合して、各文字に対応する結合ベクトルを得るステップと、
各文字に対応する結合ベクトルを前記タンパク質表現モデルに入力して、前記第1の融合表現ベクトルを得るステップと、
を含む請求項に記載のタンパク質表現モデルの事前トレーニング方法。
【請求項3】
前記機能情報中のマスク対象の文字をマスク処理して、マスクされた機能情報を得るステップと、
前記マスク対象の文字、前記マスクされた機能情報、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップと、
を含む請求項に記載のタンパク質表現モデルの事前トレーニング方法。
【請求項4】
前記マスク対象の文字、前記マスクされた機能情報、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップが、
前記マスクされた機能情報、前記機能情報及び前記構造情報を前記タンパク質表現モデルに入力して、第2の融合表現ベクトルを得るステップと、
前記第2の融合表現ベクトルに基づいて、前記マスク対象の文字に対応する文字予測結果を決定するステップと、
前記マスク対象の文字及び前記文字予測結果に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップと、
を含む請求項に記載のタンパク質表現モデルの事前トレーニング方法。
【請求項5】
前記タンパク質の構造ファイルを取得し、
該構造ファイルから前記タンパク質の重原子からなる点群を抽出し、
該点群に基づいて、前記タンパク質のトポロジー複合体のバーコード情報を決定し、
該バーコード情報を離散化して、前記タンパク質の構造情報を得る請求項1に記載のタンパク質表現モデルの事前トレーニング方法。
【請求項6】
複数の処理対象のタンパク質と、各前記タンパク質に対応するアミノ酸配列、機能情報及び構造情報とを取得するステップと、
各前記タンパク質に対応するアミノ酸配列、機能情報及び構造情報に基づいて、請求項1に記載の事前トレーニングによって得られたタンパク質表現モデルによって、各前記タンパク質に対応する融合表現ベクトルを得るステップと、
各前記タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数の前記タンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得るステップと、
を含む、タンパク質相互作用の予測方法。
【請求項7】
タンパク質表現モデルの事前トレーニング装置であって、
タンパク質のアミノ酸配列、機能情報及び構造情報を取得するための取得モジュールと、
前記アミノ酸配列、前記機能情報及び前記構造情報に基づいて、タンパク質表現モデルを事前にトレーニングするための第1の事前トレーニングモジュールと、
を備え
前記第1の事前トレーニングモジュールが、
前記機能情報をマスクに置き換え、前記アミノ酸配列、前記構造情報及び前記タンパク質に基づいて、前記タンパク質表現モデルを事前にトレーニングし、及び/又は、
前記機能情報及び前記構造情報をそれぞれマスク文字に置き換え、前記アミノ酸配列及び前記タンパク質に基づいて、前記タンパク質表現モデルを事前にトレーニングし、及び/又は
前記構造情報をマスク文字に置き換え、前記アミノ酸配列、前記機能情報及び前記タンパク質に基づいて、前記タンパク質表現モデルを事前にトレーニングし、
前記装置が、
前記アミノ酸配列中のマスク対象のアミノ酸をマスク処理して、マスクされたアミノ酸配列を得、前記マスク対象のアミノ酸、前記マスクされたアミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするための第2の事前トレーニングモジュールをさらに備え、
前記マスク対象のアミノ酸、前記マスクされたアミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングすることが、
前記マスクされたアミノ酸配列、前記機能情報及び前記構造情報を前記タンパク質表現モデルに入力して、第1の融合表現ベクトルを得ることと、
前記第1の融合表現ベクトルに基づいて、前記マスク対象のアミノ酸に対応するアミノ酸予測結果を決定することと、
前記マスク対象のアミノ酸及び前記アミノ酸予測結果に基づいて、前記タンパク質表現モデルを事前にトレーニングすることと、
を含む、タンパク質表現モデルの事前トレーニング装置。
【請求項8】
前記機能情報中のマスク対象の文字をマスク処理して、マスクされた機能情報を得、前記マスク対象の文字、前記マスクされた機能情報、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするための第3の事前トレーニングモジュールを備える請求項に記載のタンパク質表現モデルの事前トレーニング装置。
【請求項9】
複数の処理対象のタンパク質と、各前記タンパク質に対応するアミノ酸配列、機能情報及び構造情報とを取得するための取得モジュールと、
各前記タンパク質に対応するアミノ酸配列、機能情報及び構造情報に基づいて、請求項1からのいずれか一項に記載の事前トレーニングによって得られたタンパク質表現モデルによって、各前記タンパク質に対応する融合表現ベクトルを得るための表現モジュールと、
各前記タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数の前記タンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得るための相互作用予測モジュールと、
を備える、タンパク質相互作用の予測装置。
【請求項10】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサに通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1からまたは請求項のいずれか一項に記載の方法を実行できる電子機器。
【請求項11】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1からまたは請求項のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項12】
プロセッサによって実行される場合、請求項1からまたは請求項のいずれか一項に記載の方法が実現されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術の分野に関し、具体的には自然言語処理、深層学習技術の分野に関し、特にタンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置に関する。
【背景技術】
【0002】
タンパク質間の相互作用の予測は、ワクチン設計、抗体薬物設計、ポリペプチド薬物設計などの使用に重要な意義がある。タンパク質間の相互作用を予測する過程で、タンパク質の表現の正確さは、タンパク質間の相互作用の予測結果に直接影響する。
【発明の概要】
【0003】
本開示は、タンパク質表現モデルの事前トレーニング、タンパク質相互作用の予測方法および装置を提供する。
【0004】
本開示の一態様によれば、タンパク質表現モデルの事前トレーニング方法を提供し、前記方法は、タンパク質のアミノ酸配列、機能情報及び構造情報を取得するステップと、前記アミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするステップと、を含む。
【0005】
本願の実施例に係るタンパク質表現モデルの事前トレーニング方法は、タンパク質のアミノ酸配列、機能情報及び構造情報を取得し、上記アミノ酸の配列、機能情報及び構造情報に基づいて、タンパク質表現モデルを事前にトレーニングする。これにより、トレーニングされたタンパク質表現モデルをより正確にするように、タンパク質表現モデルを事前にトレーニングする方式が提供される。
【0006】
本開示の別の態様によれば、タンパク質相互作用の予測方法を提供し、前記方法は、複数の処理対象のタンパク質と、各前記タンパク質に対応するアミノ酸配列、機能情報及び構造情報とを取得するステップと、各前記タンパク質に対応するアミノ酸配列、機能情報及び構造情報に基づいて、事前トレーニングによって得られたタンパク質表現モデルによって、各前記タンパク質に対応する融合表現ベクトルを得るステップと、各前記タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数の前記タンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得るステップと、を含む。
【0007】
本開示の実施例に係るタンパク質相互作用の予測方法は、事前トレーニングによって得られたタンパク質表現モデルによって各タンパク質に対応するアミノ酸配列、機能情報及び構造情報を融合表現して、各タンパク質に対応する融合表現ベクトルを得、各前記タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数の前記タンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得る。これにより、正確なタンパク質の融合表現ベクトルに基づいて、タンパク質相互作用の予測モデルにより良い予測精度、ロバスト性及び汎化性を持たせる。
【0008】
本開示の別の態様によれば、タンパク質表現モデルの事前トレーニング装置を提供し、前記装置は、タンパク質のアミノ酸配列、機能情報及び構造情報を取得するための取得モジュールと、前記アミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングするための第1の事前トレーニングモジュールと、を備える。
【0009】
本開示の別の態様によれば、タンパク質相互作用の予測装置を提供し、前記装置は、複数の処理対象のタンパク質と、各前記タンパク質に対応するアミノ酸配列、機能情報及び構造情報とを取得するための取得モジュールと、各前記タンパク質に対応するアミノ酸配列、機能情報及び構造情報に基づいて、上記事前トレーニングによって得られたタンパク質表現モデルによって、各前記タンパク質に対応する融合表現ベクトルを得るための表現モジュールと、各前記タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数の前記タンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得るための相互作用予測モジュールと、を備える。
【0010】
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが本開示のタンパク質表現モデルの事前トレーニング方法を実行できる。
【0011】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の実施例によって開示されるタンパク質表現モデルの事前トレーニング方法を実行させる。
【0012】
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示のタンパク質表現モデルの事前トレーニング方法が実現される。
【0013】
なお、本部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。
【図面の簡単な説明】
【0014】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
図1】本開示の第1の実施例に係るタンパク質表現モデルの事前トレーニング方法の概略フローチャートである。
図2】本開示の第2の実施例に係るタンパク質表現モデルの事前トレーニング方法の概略フローチャートである。
図3】本開示の第3の実施例に係るタンパク質表現モデルの事前トレーニング方法の概略フローチャートである。
図4】本開示の第4の実施例に係るタンパク質表現モデルの事前トレーニング方法の概略フローチャートである。
図5】本開示の第5の実施例に係るタンパク質「配列-構造-機能」マルチモード事前トレーニングモデルの概略図である。
図6】本開示の第6の実施例に係るタンパク質相互作用の予測方法の概略フローチャートである。
図7】本開示の第7の実施例に係るタンパク質表現モデルの事前トレーニング装置の概略構成図である。
図8】本開示の第8の実施例に係るタンパク質表現モデルの事前トレーニング装置の概略構成図である。
図9】本開示の第9の実施例に係るタンパク質相互作用の予測装置の概略構成図である。
図10】本開示の実施例の方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0015】
以下、図面を組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0016】
現在、タンパク質間の相互作用の予測方法は2つの段階に分けられ得る。(1)タンパク質の表現であり、すなわち、コンピュータモデルに利用可能な特徴ベクトルの形式でタンパク質のアミノ酸配列や構造ファイルを表す。(2)ダウンストリーム予測ネットワークであり、分類または回帰モデルによってタンパク質間に相互作用が起こるか否かを予測し、またはタンパク質間に相互作用が起こる親和スコアを予測する。通常、タンパク質の表現の正確さはダウンストリーム予測ネットワークによってタンパク質間の相互作用を予測する上で非常に重要である。関連技術では、通常、タンパク質に基づくアミノ酸情報を用いて、タンパク質表現モデルを事前にトレーニングし、トレーニングされたタンパク質表現モデルに基づいてタンパク質を表現する。しかしながら、タンパク質に基づいて言語モデルを事前にトレーニングする手法では、依然としてタンパク質の構造や機能などの高度な特徴が欠落しており、これらの特徴はタンパク質間の相互作用の予測に対して特に重要である。
【0017】
そのため、本開示は、タンパク質表現モデルの事前トレーニング方法を提供し、当該方法は、タンパク質の配列と構造と機能との3つのモードの協同データを用いて、マルチモードのタンパク質表現モデルをトレーニングして、より良いタンパク質表現モデルを構築する。
【0018】
以下、図面を参照して本開示の実施例に係るタンパク質表現モデルの事前トレーニング方法、タンパク質相互作用の予測方法および装置を説明する。
【0019】
図1は、本開示の第1の実施例に係るタンパク質表現モデルの事前トレーニング方法の概略フローチャートである、
【0020】
図1に示すように、当該タンパク質表現モデルの事前トレーニング方法は、以下のステップ101~102を含むことができる。
【0021】
ステップ101では、タンパク質のアミノ酸配列、機能情報及び構造情報を取得する。
【0022】
ここで、本実施例のタンパク質表現モデルの事前トレーニング方法の実行本体はタンパク質表現モデルの事前トレーニング装置であり、このタンパク質表現モデルの事前トレーニング装置は、ソフトウェアおよび/またはハードウェアで実現されてもよく、このタンパク質表現モデルの事前トレーニング装置は電子機器に配置されてもよく、この電子機器は、端末機器、サーバなどを備えてもよいが、これらに限定されず、本実施例では電子機器に特に限定されない。
【0023】
いくつかの実施例では、上記機能情報はタンパク質の機能のテキスト記述情報である。
【0024】
いくつかの実施例では、タンパク質表現モデルがタンパク質間の相互作用に有用な構造情報に基づいて、タンパク質を表現できるように、上記構造情報は、当該タンパク質に対応する構造ファイルから抽出された情報であり得る。具体的には、前記タンパク質の構造ファイルを取得し、そして、構造ファイルからタンパク質の重原子からなる点群を抽出し、点群に基づいて、タンパク質のトポロジー複合体のバーコード情報を決定し、その後、バーコード情報を離散化して、タンパク質の構造情報を得る。これにより、タンパク質の原子粒度の微細な構造情報が得られる。
【0025】
ここで、上記タンパク質の重原子は、炭素C、窒素N、酸素Oなどの重原子を含むが、これらに限定されない。
【0026】
ステップ102では、前記アミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングする。
【0027】
いくつかの実施例では、タンパク質「配列-構造-機能」マルチモード事前トレーニングモデルによって事前にトレーニングすることができる。
【0028】
いくつかの実施例では、異なる使用シナリオでは、上記前記アミノ酸配列、前記機能情報及び前記構造情報に基づいて、前記タンパク質表現モデルを事前にトレーニングする実現形態は異なり、例示的な一実施形態としては、アミノ酸配列、機能情報及び構造情報をタンパク質表現モデルに入力して、融合表現ベクトルを得、予め設定されたデコーディングネットワークに基づいて、融合表現ベクトルに対応する予測タンパク質を決定し、タンパク質及び当該予測タンパク質に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0029】
具体的には、アミノ酸配列、機能情報及び構造情報に対してベクトル化表現を行って、上記3つの情報にそれぞれ対応するベクトル表現を取得し、上記3つの情報にそれぞれ対応するベクトル表現を加算し、加算して得られたベクトル表現をタンパク質表現モデルに入力して、融合表現ベクトルを得ることができる。
【0030】
なお、タンパク質表現モデルの事前トレーニングは複数回行うことができ、複数組のタンパク質のアミノ酸配列、機能情報及び構造情報を入力として使用することができ、トレーニングの回数及び入力の組数はここで具体的に限定されない。
【0031】
いくつかの実施例では、上記タンパク質表現モデルの精度を向上させるために、上記予め設定されたデコーディングネットワークは入力されたタンパク質のタイプに基づいて分類され得、異なるタンパク質のタイプは異なる予め設定されたデコーディングネットワークに対応することができる。
【0032】
本開示の実施例に係るタンパク質表現モデルの事前トレーニング方法は、タンパク質のアミノ酸配列、機能情報及び構造情報を取得し、上記アミノ酸の配列、機能情報及び構造情報に基づいて、タンパク質表現モデルを事前にトレーニングする。これにより、トレーニングされたタンパク質表現モデルをより正確にするように、タンパク質表現モデルを事前にトレーニングする方式が提供される。
【0033】
上記実施例を基に、以下、図2と組み合わせてこの実施例の方法をさらに説明する。
【0034】
図2に示すように、当該方法は、以下のステップを含むことができる。
【0035】
ステップ201では、タンパク質のアミノ酸配列、機能情報及び構造情報を取得する。
【0036】
ここで、ステップ201の具体的な実施形態は、上記実施例の関連する説明を参照することができ、ここでは説明を省略する。
【0037】
ステップ202では、機能情報をマスク文字に置き換え、アミノ酸配列、構造情報及び当該タンパク質に基づいて、当該タンパク質表現モデルを事前にトレーニングする。
【0038】
いくつかの実施例では、機能情報をマスク文字に置き換え、アミノ酸配列、構造情報及び当該タンパク質に基づいて、当該タンパク質表現モデルを事前にトレーニングする例示的な方式としては、アミノ酸配列、及び構造情報をタンパク質表現モデルに入力して、融合表現ベクトルを得、融合表現ベクトルを予め設定されたデコーディングネットワークに入力して、対応する予測タンパク質を取得し、タンパク質と当該予測タンパク質との間の相違に基づいて、予測タンパク質と当該タンパク質が同じになるまで、タンパク質表現モデルのパラメータを調整し、この場合、当該タンパク質表現モデルのトレーニングが完了したことを示している。
【0039】
本実施例では、タンパク質に機能情報が欠ける場合があり、タンパク質表現モデルがタンパク質のアミノ酸配列及び構造情報に基づいて、タンパク質を正確に表現できるために、本実施例では、タンパク質表現モデルを事前にトレーニングする過程で、さらにアミノ酸配列及び構造情報に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0040】
ステップ203では、機能情報及び構造情報をそれぞれマスク文字に置き換え、アミノ酸配列及び当該タンパク質に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0041】
いくつかの実施例では、タンパク質に機能情報及び構造情報が欠ける場合があり、タンパク質表現モデルがタンパク質のアミノ酸配列に基づいて、タンパク質を正確に表現できるために、本実施例では、タンパク質表現モデルを事前にトレーニングする過程で、さらにアミノ酸配列及びタンパク質に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0042】
いくつかの実施例では、アミノ酸配列及びタンパク質に基づいて、タンパク質表現モデルを事前にトレーニングする例示的な実施形態としては、アミノ酸配列をタンパク質表現モデルに入力して、融合表現ベクトルを得、融合表現ベクトルを予め設定されたデコーディングネットワークに入力して、予測タンパク質を取得し、予測タンパク質とタンパク質との間の相違に基づいて、タンパク質表現モデルを事前にトレーニングすることができる。
【0043】
ステップ204では、構造情報をマスク文字に置き換え、アミノ酸配列、機能情報及び当該タンパク質に基づいて、当該タンパク質表現モデルを事前にトレーニングする。
【0044】
いくつかの実施例では、タンパク質存に構造情報が欠ける場合があり、タンパク質表現モデルがタンパク質のアミノ酸配列及び機能情報に基づいて、タンパク質を正確に表現できるために、本実施例では、タンパク質表現モデルを事前にトレーニングする過程で、さらにタンパク質のアミノ酸配列、機能情報及びタンパク質に基づいて、タンパク質表現モデルを事前にトレーニングする。いくつかの実施例では、アミノ酸配列、機能情報及びタンパク質に基づいて、タンパク質表現モデルを事前にトレーニングする例示的な一実施形態としては、アミノ酸配列、及び機能情報をタンパク質表現モデルに入力して、融合表現ベクトルを得、そして、融合表現ベクトルを予め設定されたデコーディングネットワークに入力して、予測タンパク質を取得し、当該予測タンパク質とタンパク質との間の相違に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0045】
ここで、なお、上記ステップ202、ステップ203及びステップ204のうちの1つまたは組み合わせに基づいて、当該タンパク質表現モデルを事前にトレーニングすることができ、この実施例はこれを限定しない。
【0046】
いくつかの実施例では、タンパク質のアミノ酸配列にアミノ酸が誤る、または、アミノ酸が欠ける場合があり、タンパク質表現モデルのタンパク質表現の精度をさらに向上させるために、上記実施例のいずれかを基に、図3に示すように、当該方法は、以下のステップ301~302をさらに含むことができる。
【0047】
ステップ301では、アミノ酸配列中のマスク対象のアミノ酸をマスク処理して、マスクされたアミノ酸配列を得る。
【0048】
ここで、異なる使用シナリオでは、前記アミノ酸配列中のマスク対象のアミノ酸をマスク処理して、マスクされたアミノ酸配列を得ることは様々な方式で実現でき、以下のように例示的に説明する。
【0049】
例示的な一実施形態として、アミノ酸配列中のマスク対象のアミノ酸をランダムな文字に置き換えることにより、マスクされたアミノ酸配列を得ることができる。
【0050】
別の例示的な実施形態として、アミノ酸配列中のマスク対象のアミノ酸を予め設定された識別子に置き換えることにより、マスクされたアミノ酸配列を得る。
【0051】
ステップ302では、マスク対象のアミノ酸、マスクされたアミノ酸配列、機能情報及び構造情報に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0052】
つまり、本実施例では、自己教師マスク配列に基づくモデリングタスクのように、タンパク質表現モデルを事前にトレーニングしてもよい。
【0053】
いくつかの実施例では、タンパク質表現モデルを正確に事前にトレーニングできるために、上記マスク対象のアミノ酸、マスクされたアミノ酸配列、機能情報及び構造情報に基づいて、タンパク質表現モデルを事前にトレーニングする例示的な一実施形態としては、マスクされたアミノ酸配列、機能情報及び構造情報をタンパク質表現モデルに入力して、第1の融合表現ベクトルを得、第1の融合表現ベクトルに基づいて、マスク対象のアミノ酸に対応するアミノ酸予測結果を決定し、マスク対象のアミノ酸及びアミノ酸予測結果に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0054】
具体的には、マスク対象のアミノ酸とアミノ酸予測結果との間の相違情報に基づいて、マスク対象のアミノ酸とアミノ酸予測結果との間の相違情報が予め設定された閾値よりも小さくなる、または、マスク対象のアミノ酸とアミノ酸予測結果が同じになるまで、タンパク質表現モデルのパラメータを調整する。
【0055】
いくつかの実施例では、タンパク質表現モデルがタンパク質を正確に表現できるために、マスクされたアミノ酸配列、機能情報及び構造情報をタンパク質表現モデルに入力して、第1の融合表現ベクトルを得る例示的な一実施形態としては、マスクされたアミノ酸配列、構造情報及びマスク処理された機能情報中の各文字に対応する文字ベクトル及び位置ベクトルをそれぞれ決定し、マスクされたアミノ酸配列、構造情報及び機能情報中の各文字に対応する文字ベクトル及び位置ベクトルを結合して、各文字に対応する結合ベクトルを得、各文字に対応する結合ベクトルを前記タンパク質表現モデルに入力して、第1の融合表現ベクトルを得る。
【0056】
ここで、マスクされたアミノ酸配列の対応する文字に対応する位置ベクトルは、対応する文字(すなわち、アミノ酸)のアミノ酸配列における位置を表す。
【0057】
ここで、機能情報の対応する文字に対応する位置ベクトルは、対応する文字の機能情報における位置を表す。
【0058】
ここで、構造情報の対応する文字に対応する位置ベクトルはすべて0である。
【0059】
具体的には、タンパク質「配列-構造-機能」マルチモード事前トレーニングモデルに基づいて、タンパク質配列とタンパク質機能という2つの配列されたモードに対して独立した位置コードを導入することにより、モデルがアミノ酸及び機能記述ワードの順序情報を得ることができる。マスクされたアミノ酸配列、構造情報及びマスク処理された機能情報中の各文字は特徴ベクトルの文字ベクトル及び位置ベクトルを対応的に有する。マスクされたアミノ酸配列、構造情報及び機能情報中の各文字に対応する文字ベクトル及び位置ベクトルを加算して結合することにより、各文字に対応する結合ベクトルを得ることができる。各文字に対応する結合ベクトルを前記タンパク質表現モデルに入力して、第1の融合表現ベクトルを得る。
【0060】
いくつかの実施例では、タンパク質の機能情報にミス文字があるまたは文字が欠ける場合があり、タンパク質表現モデルのタンパク質表現の精度をさらに向上させ、トレーニングされたタンパク質表現モデルが機能情報に文字が欠けるまたはミス文字があるタンパク質を正確に表現するために、上記いずれかの実施例を基に、図4に示すように、当該タンパク質表現モデルの事前トレーニング方法は、以下のステップ401~402をさらに含むことができる。
【0061】
ステップ401では、機能情報中のマスク対象の文字をマスク処理して、マスクされた機能情報を得る。
【0062】
ここで、異なる使用シナリオでは、機能情報中のマスク対象の文字をマスク処理して、マスクされた機能情報を得ることは様々な方式で実現でき、以下のように例示的に説明する。
【0063】
例示的な一実施形態として、機能情報中のマスク対象の文字をランダムな文字に置き換えることにより、マスクされた機能情報を得ることができる。
【0064】
別の例示的な実施形態として、機能情報中のマスク対象の文字を予め設定された識別子に置き換えることにより、マスクされた機能情報を得ることができる。
【0065】
ステップ402では、マスク対象の文字、マスクされた機能情報、機能情報及び構造情報に基づいて、当該タンパク質表現モデルを事前にトレーニングする。
【0066】
つまり、本実施例では、自己教師マスク機能に基づくモデリングタスクのように、タンパク質表現モデルを事前にトレーニングしてもよい。
【0067】
いくつかの実施例では、タンパク質表現モデルを正確に事前にトレーニングできるために、マスク対象の文字、マスクされた機能情報、機能情報及び構造情報に基づいて、当該タンパク質表現モデルを事前にトレーニングする例示的な一実施形態としては、マスクされた機能情報、機能情報及び構造情報をタンパク質表現モデルに入力して、第2の融合表現ベクトルを得、第2の融合表現ベクトルに基づいて、マスク対象の文字に対応する文字予測結果を決定し、マスク対象の文字及び文字予測結果に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0068】
具体的には、マスク対象の文字と文字予測結果との間の相違情報に基づいて、マスク文字と文字予測結果が同じになるまで、タンパク質表現モデルのパラメータを調整し、タンパク質表現モデルの事前トレーニングを終了する。
【0069】
いくつかの実施例では、当業者が本開示を明確に理解するために、以下、図5と組み合わせてこの実施例に係るタンパク質表現モデルのトレーニング過程を例示的に説明する。
【0070】
なお、本実施形態は、タンパク質「配列-構造-機能」マルチモード事前トレーニングモデルに基づいて実現され、当該モデルは変換Transformerベースの単流マルチモード事前トレーニングモデルであり、異なるモードはセグメント表現(Segment
Embedding)によって区別され、1組の位置コード(Position Embedding)のみがある単一モードのTransformerモデルとは異なり、当該モデルは、タンパク質配列及びタンパク質機能(タンパク質機能のテキスト記述)という2つの配列されたモードに対して独立した位置コードを導入することにより、モデルがアミノ酸及び機能記述ワードの順序情報を得ることができる。マルチモードTokenコード(Multimodal
Token Embedding)は、配列、構造及び機能という3つのモードを含む。当該モデルは配列されたタンパク質アミノ酸配列及び機能記述データに対して、自己教師マスク配列モデリング(Masked
Sequence Modeling)及びマスク機能モデリング(Masked Function Modeling)タスクを導入する。また、マルチモード間の協同情報を学習するために、本開示では「配列-構造-機能」マルチモードアラインメントタスク(Sequence-Structure-Function
Alignment)が導入されている。ここで、マルチモードアラインメントタスクがタンパク質表現モデルを事前にトレーニングする過程は、図2の実施例の関連する説明を参照することができ、ここでは説明を省略する。
【0071】
本開示の実施例は、タンパク質相互作用の予測方法をさらに提供する。
【0072】
図6は本開示の第6の実施例に係るタンパク質相互作用の予測方法の概略フローチャートである。
【0073】
図6に示すように、当該タンパク質相互作用の予測方法は、以下のステップ601~603を含むことができる。
【0074】
ステップ601では、複数の処理対象のタンパク質と、各タンパク質に対応するアミノ酸配列、機能情報及び構造情報とを取得する。
【0075】
ステップ602では、各タンパク質に対応するアミノ酸配列、機能情報及び構造情報に基づいて、上記事前トレーニングによって得られたタンパク質表現モデルによって、各タンパク質に対応する融合表現ベクトルを得る。
【0076】
具体的には、事前トレーニングによって得られたタンパク質表現モデルに基づいて、タンパク質の事前トレーニング表現を入力として、各タンパク質に対応する融合表現ベクトルを得る。
【0077】
ここで、タンパク質表現モデルの事前トレーニングの具体的な過程は、上記実施例の関連する説明を参照することができ、ここでは説明を省略する。
【0078】
ステップ603では、各タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数のタンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得る。
【0079】
具体的には、異なるタンパク質間の相互作用タスクのダウンストリームニューラルネットワークに対して、各タンパク質に対応する融合表現ベクトルを入力として、各タンパク質間の相互作用を予測して、各タンパク質相互作用の予測結果を得る。
【0080】
なお、タンパク質間の相互作用の予測モデルは、様々なタイプのタンパク質のニーズを満たすために、様々なタイプのダウンストリームタスクネットワークとして設計できる。例えば、ダウンストリームタスクモデルは、1対のタンパク質をタンパク質間の相互作用タスクの入力としたり、3つのタンパク質をタンパク質間の相互作用タスクの入力としたり、2対のタンパク質をタンパク質間の相互作用タスクの入力としたりすることができる。
【0081】
本開示の実施例に係るタンパク質相互作用の予測方法は、事前トレーニングによって得られたタンパク質表現モデルによって各タンパク質に対応するアミノ酸配列、機能情報及び構造情報を融合表現して、各タンパク質に対応する融合表現ベクトルを得、各前記タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数の前記タンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得る。これにより、正確なタンパク質の融合表現ベクトルに基づいて、タンパク質相互作用の予測モデルにより良い予測精度、ロバスト性及び汎化性を持たせる。
【0082】
上記実施例を実現するために、本開示の実施例は、タンパク質表現モデルの事前トレーニング装置をさらに提供する。
【0083】
図7は本開示の第7の実施例に係るタンパク質表現モデルの事前トレーニング装置の概略構成図である。
【0084】
図7に示すように、このタンパク質表現モデルの事前トレーニング装置700は、取得モジュール701と第1の事前トレーニングモジュール702とを備えることができ、取得モジュール701は、タンパク質のアミノ酸配列、機能情報及び構造情報を取得し、第1の事前トレーニングモジュール702は、アミノ酸配列、機能情報及び構造情報に基づいて、当該タンパク質表現モデルを事前にトレーニングする。ここで、上記タンパク質表現モデルの事前トレーニング方法の実施例の解釈及び説明は本実施例にも適用され、本実施例では説明を省略する。
【0085】
本開示の実施例に係るタンパク質表現モデルの事前トレーニング装置は、タンパク質のアミノ酸配列、機能情報及び構造情報を取得し、上記アミノ酸の配列、機能情報及び構造情報に基づいて、タンパク質表現モデルを事前にトレーニングする。これにより、トレーニングされたタンパク質表現モデルをより正確にするように、タンパク質表現モデルを事前にトレーニングする方式が提供される。
【0086】
いくつかの実施例では、図8に示すように、このタンパク質表現モデルの事前トレーニング装置800は、取得モジュール801、第1の事前トレーニングモジュール802、第2の事前トレーニングモジュール803及び第3の事前トレーニングモジュール804を備えることができる。
【0087】
ここで、なお、取得モジュール801の詳しい説明は図7に示される実施例における取得モジュール701の説明を参照することができ、ここでは説明を省略する。
【0088】
いくつかの実施例では、上記第1の事前トレーニングモジュール802は、具体的には、機能情報をマスクに置き換え、アミノ酸配列、構造情報及びタンパク質に基づいて、タンパク質表現モデルを事前にトレーニングし、及び/又は、機能情報及び構造情報をそれぞれマスク文字に置き換え、アミノ酸配列及びタンパク質に基づいて、タンパク質表現モデルを事前にトレーニングし、及び/又は構造情報をマスク文字に置き換え、アミノ酸配列、機能情報及びタンパク質に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0089】
いくつかの実施例では、上記第2の事前トレーニングモジュール803は、アミノ酸配列中のマスク対象のアミノ酸をマスク処理して、マスクされたアミノ酸配列を得、マスク対象のアミノ酸、マスクされたアミノ酸配列、機能情報及び構造情報に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0090】
いくつかの実施例では、上記第2の事前トレーニングモジュール803は、具体的には、マスクされたアミノ酸配列、機能情報及び構造情報をタンパク質表現モデルに入力して、第1の融合表現ベクトルを得、第1の融合表現ベクトルに基づいて、マスク対象のアミノ酸に対応するアミノ酸予測結果を決定し、マスク対象のアミノ酸及びアミノ酸予測結果に基づいて、タンパク質表現モデルを事前にトレーニングする。いくつかの実施例では、上記マスクされたアミノ酸配列、機能情報及び構造情報をタンパク質表現モデルに入力して、第1の融合表現ベクトルを得る例示的な一実施形態としては、マスクされたアミノ酸配列、構造情報及びマスク処理された機能情報中の各文字に対応する文字ベクトル及び位置ベクトルをそれぞれ決定し、マスクされたアミノ酸配列、構造情報及び機能情報中の各文字に対応する文字ベクトル及び位置ベクトルを結合して、各文字に対応する結合ベクトルを得、各文字に対応する結合ベクトルをタンパク質表現モデルに入力して、第1の融合表現ベクトルを得る。
【0091】
いくつかの実施例では、第3の事前トレーニングモジュール804は、機能情報中のマスク対象の文字をマスク処理して、マスクされた機能情報を得、マスク対象の文字、マスクされた機能情報、機能情報及び構造情報に基づいて、タンパク質表現モデルを事前にトレーニングする。
【0092】
本開示のいくつかの実施例では、上記第3の事前トレーニングモジュール804は、具体的には、マスクされた機能情報、機能情報及び構造情報をタンパク質表現モデルに入力して、第2の融合表現ベクトルを得、第2の融合表現ベクトルに基づいて、マスク対象の文字に対応する文字予測結果を決定し、マスク対象の文字及び文字予測結果に基づいて、タンパク質表現モデルを事前にトレーニングする。いくつかの実施例では、構造情報は、以下の方式によって得られる:タンパク質の構造ファイルを取得し、構造ファイルからタンパク質の重原子からなる点群を抽出し、点群に基づいて、タンパク質のトポロジー複合体のバーコード情報を決定し、バーコード情報を離散化して、タンパク質の構造情報を得る。
【0093】
ここで、なお、上記タンパク質表現モデルの事前トレーニング方法の実施例の解釈及び説明は、本実施例におけるタンパク質表現モデルの事前トレーニング装置にも適用され、ここでは説明を省略する。
【0094】
本開示の実施例は、タンパク質相互作用の予測装置をさらに提供する。
【0095】
図9は本開示の第9の実施例に係るタンパク質相互作用の予測装置の概略構成図である。
【0096】
図9に示すように、このタンパク質相互作用の予測装置900は、取得モジュール901、表現モジュール902及び相互作用予測モジュール903を備えることができ、ここで、取得モジュール901が、複数の処理対象のタンパク質と、各タンパク質に対応するアミノ酸配列、機能情報及び構造情報とを取得し、表現モジュール902が、各タンパク質に対応するアミノ酸配列、機能情報及び構造情報に基づいて、上記事前トレーニングによって得られたタンパク質表現モデルによって、各タンパク質に対応する融合表現ベクトルを得、相互作用予測モジュール903が、各タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数のタンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得る。
【0097】
ここで、なお、上記タンパク質相互作用の予測方法の実施例の解釈及び説明は、本実施例にも適用され、本実施例では説明を省略する。
【0098】
本開示の実施例に係るタンパク質相互作用の予測装置は、事前トレーニングによって得られたタンパク質表現モデルによって各タンパク質に対応するアミノ酸配列、機能情報及び構造情報を融合表現して、各タンパク質に対応する融合表現ベクトルを得、各タンパク質に対応する融合表現ベクトルをタンパク質相互作用の予測モデルに入力して、複数のタンパク質相互作用を予測することにより、タンパク質相互作用の予測結果を得る。これにより、正確なタンパク質の融合表現ベクトルに基づいて、タンパク質相互作用の予測モデルにより良い予測精度、ロバスト性及び汎化性を持たせる。
【0099】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供する。
【0100】
図10は、本開示の実施例を実施するために使用できる電子機器1000の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限するものではない。
【0101】
図10に示すように、機器1000は、リードオンリーメモリ(ROM)1002に記憶されているコンピュータプログラム、又は記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット1001を備える。RAM1003には、機器1000の動作に必要な様々なプログラム及びデータが記憶されていてもよい。計算ユニット1001、ROM1002及びRAM1003は、バス1004を介して互いに接続されている。入出力(I/O)インターフェース1005もバス1004に接続されている。
【0102】
機器1000における、キーボード、マウスなどの入力ユニット1006と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1007と、磁気ディスク、光ディスクなどの記憶ユニット1008と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009と、を備える複数のコンポーネントは、入出力(I/O)インターフェース1005に接続されている。通信ユニット1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0103】
計算ユニット1001は、各種の処理及び計算能力を有する汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、セントラルプロセッシングユニット(CPU)、グラフィックスプロセッシングユニット(GPU)、各種の専用人工知能(AI)計算チップ、各種の機械学習モデルアルゴリズムを運行する計算ユニット、デジタルシグナルプロセッサ(DSP)、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1001は、上述したそれぞれの方法及び処理、例えば、タンパク質表現モデルの事前トレーニング方法を実行する。例えば、いくつかの実施例で、タンパク質表現モデルの事前トレーニング方法は、記憶ユニット1008のような機械読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例で、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信ユニット1009を介して機器1000にロッド及び/又はインストールすることができる。コンピュータプログラムがRAM1003にロッドされて計算ユニット1001によって実行された場合、上述したタンパク質表現モデルの事前トレーニング方法の1つ又は複数のステップを実行することができる。あるいは、他の実施例で、計算ユニット1001は、他の任意の適切な形態で(例えば、ファーとウェアにより)タンパク質表現モデルの事前トレーニング方法を実行するように構成されてもよい。
【0104】
別のいくつかの実施例では、上記計算ユニット1001は、上述したタンパク質表現モデルの事前トレーニング方法を実行する。例えば、いくつかの実施例で、タンパク質表現モデルの事前トレーニング方法は、記憶ユニット1008のような機械読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例で、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信ユニット1009を介して機器1000にロッド及び/又はインストールすることができる。コンピュータプログラムがRAM1003にロッドされて計算ユニット1001によって実行された場合、上述したタンパク質表現モデルの事前トレーニング方法の1つ又は複数のステップを実行することができる。あるいは、他の実施例で、計算ユニット1001は、他の任意の適切な形態で(例えば、ファーとウェアにより)タンパク質表現モデルの事前トレーニング方法を実行するように構成されてもよい。
【0105】
本明細書で上述したシステム及び技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組合せにおいて実現してもよい。これらの各種の実施形態は、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステムにおいて実行及び/又は解釈することができる1つ又は複数のコンピュータプログラムにおいて実現されてもよく、当該プログラマブルプロセッサは、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を伝送することができる専用及び/又は汎用プログラマブルプロセッサであってもよい。
【0106】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
【0107】
本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM)又はフラッシュメモリ、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0108】
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0109】
ここで説明されるシステム及び技術は、バックエンドユニットを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアユニットを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドユニットを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドユニットと、ミドルウェアユニットと、フロントエンドユニットの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
【0110】
コンピュータシステムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってよく、クラウドコンピューティングサーバ又はクラウドホストとも称され、クラウドコンピューティングサービスアーキテクチャにおけるホスト製品の1つであり、従来の物理ホスト及びVPSサービス(Virtual Private Server、又は「VPS」と略称する)における管理困難性が高く、トラフィック拡張性が低いという欠点を解決する。サーバは分散システムのサーバでも、ブロックチェーンを組み合わせたサーバでもよい。
【0111】
なお、人工知能とは、コンピュータに人間の思考過程や知能行動(学習、推論、思考、訂画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術がある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/ディープラーニング、ビッグデータ処理技術、知識マップ技術などのいくつかの方向を含む。
【0112】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
【0113】
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10