(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-21
(45)【発行日】2024-07-01
(54)【発明の名称】アミノ酸における原子座標の決定、トレーニング方法、装置、機器及び媒体
(51)【国際特許分類】
G16B 15/00 20190101AFI20240624BHJP
【FI】
G16B15/00
(21)【出願番号】P 2023022515
(22)【出願日】2023-02-16
【審査請求日】2023-02-16
(31)【優先権主張番号】202210707422.7
(32)【優先日】2022-06-21
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】ワン ファン
(72)【発明者】
【氏名】ファン シャオミン
(72)【発明者】
【氏名】ファ ジンジョウ
(72)【発明者】
【氏名】ジャン シャオナン
(72)【発明者】
【氏名】リュウ リーハン
(72)【発明者】
【氏名】シャン イュンフェイ
(72)【発明者】
【氏名】シュエ ヤン
(72)【発明者】
【氏名】ウー ファ
(72)【発明者】
【氏名】ウー ティエン
(72)【発明者】
【氏名】ワン ハイフン
【審査官】前田 侑香
(56)【参考文献】
【文献】特表2022-501695(JP,A)
【文献】中国特許出願公開第114333982(CN,A)
【文献】中国特許出願公開第114283878(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
アミノ酸における原子座標の決定方法であって、
測定対象であるタンパク質のアミノ酸配列を取得するステップと、
前記アミノ酸配列に対して
位置特徴抽出を行って、第1の符号化配列を得るステップであって、前記第1の符号化配列に前記アミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれるステップと、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定するステップと、
前記第1の符号化配列と前記符号化行列に基づいて、前記測定対象であるタンパク質における各前記アミノ酸における原子の予想座標を決定するステップと、を含
み、
前記第1の符号化配列はL個のアミノ酸位置を含み、Lは正の整数であり、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定するステップは、
前記第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得るステップと、
前記L個のアミノ酸位置での融合ベクトルに基づいて、前記i番目のアミノ酸位置に対応する融合配列を生成するステップと、
各前記アミノ酸位置に対応する融合配列に基づいて、前記符号化行列を生成するステップであって、iがL以下である正の整数であるステップと、を含み、
前記第1の符号化配列と前記符号化行列に基づいて、前記測定対象であるタンパク質における各前記アミノ酸における原子の予想座標を決定するステップは、
前記第1の符号化配列と前記符号化行列をタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、前記第1の符号化配列に対応するマッピング配列及び前記符号化行列に対応するマッピング行列を得るステップと、
前記タンパク質構造予測モデルにおける復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号して、各前記アミノ酸における原子の予想座標を得るステップと、を含み、
前記タンパク質構造予測モデルにおける復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号して、各前記アミノ酸における原子の予想座標を得るステップは、
前記復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号し、各前記アミノ酸における原子の初期座標を得るステップと、
各前記アミノ酸における原子の初期座標、前記第1の符号化配列及び前記符号化行列に基づいて、各前記アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを行って、各前記アミノ酸における原子に対して座標更新を行うステップと、
最後のラウンドの前記繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とするステップと、を含み、
以下の式により、各アミノ酸における原子の初期座標pを決定し、
【数1】
【数2】
はマッピング配列であり、
【数3】
はマッピング行列であり、rはrecycleサイクルを指し、kはk回目のサイクルを指し、Structure Moduleは構造モデルであり、neは配列/2元対相互作用注意力ネットワークの層数であり、
マッピング配列とマッピング行列は以下の式により決定され、
【数4】
【数5】
は第1の符号化配列であり、
【数6】
は符号化行列であり、kはk回目のサイクルを指す、
アミノ酸における原子座標の決定方法
。
【請求項2】
前記アミノ酸配列に対して
位置特徴抽出を行って、前記第1の符号化配列を得るステップは、
前記アミノ酸配列における複数のアミノ酸を符号化して、複数のアミノ酸位置を含む第2の符号化配列を得るステップと、
前記第2の符号化配列をタンパク質構造予測モデルにおける少なくとも1層の符号化層に入力して特徴抽出を行って、第1の符号化配列を得るステップであって、前記第1の符号化配列に前記複数のアミノ酸位置での符号化ベクトルが含まれるステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記設定されたラウンド数の繰り返しにおける最初のラウンドの繰り返しは、
前記復号ネットワークから出力された各前記アミノ酸における原子の初期座標に基づいて前記符号化行列を更新して、前記最初のラウンドの繰り返しの符号化行列を得るステップと、
前記注意力ネットワークから出力されたマッピング配列に基づいて、前記第1の符号化配列を更新して、前記最初のラウンドの繰り返しの第1の符号化配列を得るステップと、
前記最初のラウンドの繰り返しの第1の符号化配列と符号化行列を前記注意力ネットワークに入力してマッピング処理を行って、前記最初のラウンドの繰り返しにおいて前記注意力ネットワークから出力されたマッピング配列とマッピング行列を得るステップと、
前記最初のラウンドの繰り返しのマッピング配列とマッピング行列を前記復号ネットワークに入力して復号して、前記最初のラウンドの繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標を得るステップと、を含む、
ことを特徴とする請求項
1に記載の方法。
【請求項4】
前記設定されたラウンド数の繰り返しにおける非最初のラウンドの繰り返しは、
本ラウンドの繰り返しの前のラウンドの繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標に基づいて、前記符号化行列を更新して、前記本ラウンドの繰り返しの符号化行列を得るステップと、
前記前のラウンドの繰り返しにおいて前記注意力ネットワークから出力されたマッピング配列に基づいて、前記第1の符号化配列を更新して、前記本ラウンドの繰り返しの第1の符号化配列を得るステップと、
前記本ラウンドの繰り返しの第1の符号化配列と符号化行列を前記注意力ネットワークに入力してマッピング処理を行って、前記本ラウンドの繰り返しにおける前記注意力ネットワークから出力されたマッピング配列とマッピング行列を得るステップと、
前記本ラウンドの繰り返しのマッピング配列とマッピング行列を前記復号ネットワークに入力して復号し、前記本ラウンドの繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標を得るステップと、を含む、
ことを特徴とする請求項
3に記載の方法。
【請求項5】
本ラウンドの繰り返しの前のラウンドの繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標に基づいて、前記符号化行列を更新して、前記本ラウンドの繰り返しの符号化行列を得るステップは、
前記前のラウンドの繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標に基づいて、各前記アミノ酸における任意の2つのアミノ酸における原子間の距離を決定するステップと、
前記任意の2つのアミノ酸における原子間の距離に基づいて、第1の距離行列を生成するステップと、
前記第1の距離行列に対して次元マッピングを行って、第2の距離行列を得るステップと、
前記第2の距離行列と前記符号化行列とを融合して、前記本ラウンドの繰り返しの符号化行列を得るステップと、を含
み、
以下の式により、本ラウンドの繰り返しの符号化行列を計算し、
【数7】
【数8】
StopGradientは、符号化行列を計算する際、ネットワークパラメータの勾配リターン時に勾配を計算しないことを表し、
【数9】
は第2の距離行列であり、
【数10】
は符号化行列であり、
【数11】
は第1の距離行列であり、
【数12】
はi番目とj番目のアミノ酸における原子間の距離である、
ことを特徴とする請求項
4に記載の方法。
【請求項6】
タンパク質構造予測モデルのトレーニング方法であって、
サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得するステップと、
初期のタンパク質構造予測モデルを使用して前記アミノ酸配列に対して
位置特徴抽出を行って、第1の符号化配列を得るステップであって、前記第1の符号化配列に前記アミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれるステップと、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定するステップと、
前記初期のタンパク質構造予測モデルを使用して前記第1の符号化配列と前記符号化行列に基づいて、前記サンプルタンパク質における各前記アミノ酸における原子の予想座標を予想するステップと、
各前記アミノ酸における原子の予想座標と前記トレーニングサンプルに対応する各前記アミノ酸における原子の参照座標間の差異に基づいて、前記初期のタンパク質構造予測モデルに対して第1のトレーニングを行うステップと、を含
み、
前記第1の符号化配列はL個のアミノ酸位置を含み、Lは正の整数であり、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定するステップは、
前記第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得るステップと、
前記L個のアミノ酸位置での融合ベクトルに基づいて、前記i番目のアミノ酸位置に対応する融合配列を生成するステップと、
各前記アミノ酸位置に対応する融合配列に基づいて、前記符号化行列を生成するステップであって、iがL以下である正の整数であるステップと、を含み、
前記初期のタンパク質構造予測モデルを使用して前記第1の符号化配列と前記符号化行列に基づいて、前記サンプルタンパク質における各前記アミノ酸における原子の予想座標を予想するステップは、
前記第1の符号化配列と前記符号化行列を前記初期のタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、前記第1の符号化配列に対応するマッピング配列及び前記符号化行列に対応するマッピング行列を得るステップと、
前記初期のタンパク質構造予測モデルにおける復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号して、各前記アミノ酸における原子の予想座標を得るステップと、を含み、
前記初期のタンパク質構造予測モデルにおける復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号して、各前記アミノ酸における原子の予想座標を得るステップは、
前記復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号し、各前記アミノ酸における原子の初期座標を得るステップと、
各前記アミノ酸における原子の初期座標、前記第1の符号化配列及び前記符号化行列に基づいて、各前記アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを行って、各前記アミノ酸における原子に対して座標更新を行うステップと、
最後のラウンドの前記繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とするステップと、を含み、
以下の式により、各アミノ酸における原子の初期座標pを決定し、
【数1】
【数2】
はマッピング配列であり、
【数3】
はマッピング行列であり、rはrecycleサイクルを指し、kはk回目のサイクルを指し、Structure Moduleは構造モデルであり、neは配列/2元対相互作用注意力ネットワークの層数であり、
マッピング配列とマッピング行列は以下の式により決定され、
【数4】
【数5】
は第1の符号化配列であり、
【数6】
は符号化行列であり、kはk回目のサイクルを指す、
ことを特徴とするタンパク質構造予測モデルのトレーニング方法。
【請求項7】
初期のタンパク質構造予測モデルを使用して前記アミノ酸配列に対して
位置特徴抽出を行って、第1の符号化配列を得るステップは、
前記アミノ酸配列における複数のアミノ酸を符号化して、複数のアミノ酸位置を含む第2の符号化配列を得るステップと、
前記第2の符号化配列を前記初期のタンパク質構造予測モデルにおける少なくとも1層の符号化層に対して特徴抽出を行って、第1の符号化配列を得るステップであって、前記第1の符号化配列に前記複数のアミノ酸位置での符号化ベクトルが含まれるステップと、を含む、
ことを特徴とする請求項
6に記載の方法。
【請求項8】
前記アミノ酸配列における少なくとも1つのアミノ酸に対してマスク処理を行って、マスク後のアミノ酸配列を得るステップと、
前記初期のタンパク質構造予測モデルを使用して前記マスク後のアミノ酸配列を予想して、予想配列を得るステップと、
前記予想配列と前記アミノ酸配列との差異に基づいて、前記初期のタンパク質構造予測モデルに対して第2のトレーニングを行うステップと、をさらに含む、
ことを特徴とする請求項
6に記載の方法。
【請求項9】
前記アミノ酸配列に対応する複数の相同性配列を取得するステップと、
前記複数の相同性配列に基づいて、前記複数の相同性配列における各アミノ酸位置に対応する第1の確率分布を決定するステップであって、前記第1の確率分布が前記複数の相同性配列における対応するアミノ酸位置での複数のアミノ酸の出現確率を示すために使用されるステップと、
前記初期のタンパク質構造予測モデルを使用して前記アミノ酸配列に基づいて、前記複数の相同性配列における各前記アミノ酸位置に対応する第2の確率分布を予想するステップと、
各前記アミノ酸位置に対応する第1の確率分布と第2の確率分布との差異に基づいて、前記初期のタンパク質構造予測モデルに対して第3のトレーニングを行うステップと、をさらに含む、
ことを特徴とする請求項
6に記載の方法。
【請求項10】
各前記アミノ酸における原子の参照座標に基づいて、各前記アミノ酸における任意2つのアミノ酸における同一原子間の第1の距離を決定するステップと、
前記符号化行列に基づいて、前記同一原子間の第2の距離を決定するステップと、
前記同一原子の第1の距離と第2の距離との差異に基づいて、前記初期のタンパク質構造予測モデルに対して第4のトレーニングを行うステップと、をさらに含む、
ことを特徴とする請求項
6に記載の方法。
【請求項11】
アミノ酸における原子座標の決定方法であって、
測定対象であるタンパク質のアミノ酸配列を取得するステップと、
請求項の
6~10のいずれかに記載の方法でトレーニングして得られたタンパク質構造予測モデルと前記アミノ酸配列に基づいて、前記測定対象であるタンパク質における各前記アミノ酸における原子の予想座標を決定するステップと、を含む、
ことを特徴とするアミノ酸における原子座標の決定方法。
【請求項12】
アミノ酸における原子座標の決定装置であって、
測定対象であるタンパク質のアミノ酸配列を取得する取得モジュールと、
前記アミノ酸配列に対して
位置特徴抽出を行って、第1の符号化配列を得る抽出モジュールであって、前記第1の符号化配列に前記アミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる抽出モジュールと、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する第1の決定モジュールと、
前記第1の符号化配列と前記符号化行列に基づいて、前記測定対象であるタンパク質における各前記アミノ酸における原子の予想座標を決定する第2の決定モジュールと、を含
み、
前記第1の符号化配列はL個のアミノ酸位置を含み、Lは正の整数であり、
前記第1の決定モジュールが、
前記第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得、
前記L個のアミノ酸位置での融合ベクトルに基づいて、前記i番目のアミノ酸位置に対応する融合配列を生成し、
各前記アミノ酸位置に対応する融合配列に基づいて、前記符号化行列を生成し、iがL以下である正の整数であり、
前記第2の決定モジュールが、
前記第1の符号化配列と前記符号化行列をタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、前記第1の符号化配列に対応するマッピング配列及び前記符号化行列に対応するマッピング行列を得、
前記タンパク質構造予測モデルにおける復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号して、各前記アミノ酸における原子の予想座標を得、
前記タンパク質構造予測モデルにおける復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号して、各前記アミノ酸における原子の予想座標を得ることは、
前記復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号し、各前記アミノ酸における原子の初期座標を得ることと、
各前記アミノ酸における原子の初期座標、前記第1の符号化配列及び前記符号化行列に基づいて、各前記アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを行って、各前記アミノ酸における原子に対して座標更新を行うことと、
最後のラウンドの前記繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とすることと、を含み、
以下の式により、各アミノ酸における原子の初期座標pを決定し、
【数1】
【数2】
はマッピング配列であり、
【数3】
はマッピング行列であり、rはrecycleサイクルを指し、kはk回目のサイクルを指し、Structure Moduleは構造モデルであり、neは配列/2元対相互作用注意力ネットワークの層数であり、
マッピング配列とマッピング行列は以下の式により決定され、
【数4】
【数5】
は第1の符号化配列であり、
【数6】
は符号化行列であり、kはk回目のサイクルを指す、
ことを特徴とするアミノ酸における原子座標の決定装置
。
【請求項13】
タンパク質構造予測モデルのトレーニング装置であって、
サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得する取得モジュールと、
初期のタンパク質構造予測モデルを使用して前記アミノ酸配列に対して
位置特徴抽出を行って、第1の符号化配列を得る抽出モジュールであって、前記第1の符号化配列に前記アミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる抽出モジュールと、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する決定モジュールと、
前記初期のタンパク質構造予測モデルを使用して前記第1の符号化配列と前記符号化行列に基づいて、前記サンプルタンパク質における各前記アミノ酸における原子の予想座標を予想する予想モジュールと、
各前記アミノ酸における原子の予想座標と前記トレーニングサンプルに対応する各前記アミノ酸における原子の参照座標間の差異に基づいて、前記初期のタンパク質構造予測モデルに対して第1のトレーニングを行うトレーニングモジュールと、を含
み、
前記第1の符号化配列はL個のアミノ酸位置を含み、Lは正の整数であり、
前記決定モジュールが、
前記第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得、
前記L個のアミノ酸位置での融合ベクトルに基づいて、前記i番目のアミノ酸位置に対応する融合配列を生成し、
各前記アミノ酸位置に対応する融合配列に基づいて、前記符号化行列を生成し、iがL以下である正の整数であり、
前記予想モジュールが、
前記第1の符号化配列と前記符号化行列を前記初期のタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、前記第1の符号化配列に対応するマッピング配列及び前記符号化行列に対応するマッピング行列を得、
前記初期のタンパク質構造予測モデルにおける復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号して、各前記アミノ酸における原子の予想座標を得、
前記初期のタンパク質構造予測モデルにおける復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号して、各前記アミノ酸における原子の予想座標を得ることは、
前記復号ネットワークを用いて前記マッピング配列と前記マッピング行列を復号し、各前記アミノ酸における原子の初期座標を得ることと、
各前記アミノ酸における原子の初期座標、前記第1の符号化配列及び前記符号化行列に基づいて、各前記アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを行って、各前記アミノ酸における原子に対して座標更新を行うことと、
最後のラウンドの前記繰り返しにおいて更新して得られた各前記アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とすることと、を含み、
以下の式により、各アミノ酸における原子の初期座標pを決定し、
【数1】
【数2】
はマッピング配列であり、
【数3】
はマッピング行列であり、rはrecycleサイクルを指し、kはk回目のサイクルを指し、Structure Moduleは構造モデルであり、neは配列/2元対相互作用注意力ネットワークの層数であり、
マッピング配列とマッピング行列は以下の式により決定され、
【数4】
【数5】
は第1の符号化配列であり、
【数6】
は符号化行列であり、kはk回目のサイクルを指す、
ことを特徴とするタンパク質構造予測モデルのトレーニング装置
。
【請求項14】
電子機器であって、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1に記載の方法、または、請求項
6に記載の方法、または、請求項
11に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。
【請求項15】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は
、コンピュータに請求項1に記載の方法、または請求項
6に記載の方法、または請求項
11に記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項16】
コンピュータプログラムであって、前記コンピュータプログラムはプロセッサによって実行される場合、請求項1に記載の方法のステップ、または、請求項
6に記載の方法のステップ、または、請求項
11に記載の方法のステップを実現する、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は人工知能技術の分野に関し、具体的に、深層学習及び生物計算などの技術分野であり、特にアミノ酸における原子座標の決定、トレーニング方法、装置、機器及び媒体に関する。
【背景技術】
【0002】
生物計算分野では、タンパク質コンフォメーションまたは構造の解析は、冷凍電子顕微鏡、結晶などの設備によって実現することができる。しかしながら、上記装置の価格は比較的高価であり、タンパク質コンフォメーションの解析コストを削減するために、計算能力を有する電子機器を介して人工知能分野における深層学習技術を用いて、タンパク質コンフォメーションを決定する一次配列(すなわちタンパク質ポリペプチド鎖を構成する線形アミノ酸配列)に基づいて、タンパク質コンフォメーションを予想することができる。
【0003】
したがって、タンパク質の一次配列に基づいて計算能力を有する電子機器を介して相関計算を行って、予想してタンパク質コンフォメーションを得る方法は非常に重要である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示はアミノ酸における原子座標の決定及びトレーニング方法、装置、機器及び媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、アミノ酸における原子座標の決定方法を提供し、前記方法は、
測定対象であるタンパク質のアミノ酸配列を取得するステップと、
前記アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得るステップであって、前記第1の符号化配列に前記アミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれるステップと、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定するステップと、
前記第1の符号化配列と前記符号化行列に基づいて、前記測定対象であるタンパク質における各前記アミノ酸における原子の予想座標を決定するステップと、を含む。
【0006】
本開示の別の態様によれば、タンパク質構造予測モデルのトレーニング方法を提供し、前記方法は、
サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得するステップと、
初期のタンパク質構造予測モデルを使用して前記アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得るステップであって、前記第1の符号化配列に前記アミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれるステップと、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定するステップと、
前記初期のタンパク質構造予測モデルを使用して前記第1の符号化配列と前記符号化行列に基づいて、前記サンプルタンパク質における各前記アミノ酸における原子の予想座標を予想するステップと、
各前記アミノ酸における原子の予想座標と前記トレーニングサンプルに対応する各前記アミノ酸における原子の参照座標間の差異に基づいて、前記初期のタンパク質構造予測モデルに対して第1のトレーニングを行うステップと、を含む。
【0007】
本開示の別の態様によれば、別のアミノ酸における原子座標の決定方法を提供し、前記方法は、
測定対象であるタンパク質のアミノ酸配列を取得するステップと、
本開示の上記の別の態様に記載の方法でトレーニングして得られたタンパク質構造予測モデルと前記アミノ酸配列に基づいて、前記測定対象であるタンパク質における各前記アミノ酸における原子の予想座標を決定するステップと、を含む。
【0008】
本開示の別の態様によれば、アミノ酸における原子座標の決定装置を提供し、前記装置は、
測定対象であるタンパク質のアミノ酸配列を取得する取得モジュールと、
前記アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得る抽出モジュールであって、前記第1の符号化配列に前記アミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる抽出モジュールと、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する第1の決定モジュールと、
前記第1の符号化配列と前記符号化行列に基づいて、前記測定対象であるタンパク質における各前記アミノ酸における原子の予想座標を決定する第2の決定モジュールと、を含む。
【0009】
本開示の別の態様によれば、タンパク質構造予測モデルのトレーニング装置を提供し、前記装置は、
サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得する取得モジュールと、
初期のタンパク質構造予測モデルを使用して前記アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得る抽出モジュールであって、前記第1の符号化配列に前記アミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる抽出モジュールと、
前記第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する決定モジュールと、
前記初期の構造認識モデルで前記第1の符号化配列と前記符号化行列に基づいて、前記サンプルタンパク質における各前記アミノ酸における原子の予想座標を予想する予想モジュールと、
各前記アミノ酸における原子の予想座標と前記トレーニングサンプルに対応する各前記アミノ酸における原子の参照座標間の差異に基づいて、前記初期のタンパク質構造予測モデルに対して第1のトレーニングを行うトレーニングモジュールと、を含む。
【0010】
本開示の別の態様によれば、アミノ酸における原子座標の決定装置を提供し、前記装置は、
測定対象であるタンパク質のアミノ酸配列を取得する取得モジュールと、
本開示の上記の別の態様に記載の装置でトレーニングして得られたタンパク質構造予測モデルと前記アミノ酸配列に基づいて、前記測定対象であるタンパク質における各前記アミノ酸における原子の予想座標を決定する決定モジュールと、を含む。
【0011】
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示の上記の一態様によって提案された方法、または、本開示の上記の別の態様によって提案された方法、または本開示の上記のも1つの態様によって提案された方法を実行するように、前記少なくとも1つのプロセッサによって実行される。
【0012】
本開示の別の態様によれば、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本開示の上記の一態様によって提案された方法、または、本開示の上記の別の態様によって提案された方法、または本開示の上記のも1つの態様によって提案された方法を実行させる。
【0013】
本開示のもう1つの態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示の上記の一態様によって提案された方法、または、本開示の上記の別の態様によって提案された方法、または本開示の上記のも1つの態様によって提案された方法を実現する。
【0014】
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0015】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
【
図2】本開示の実施例1によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【
図3】本開示の実施例2によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【
図4】本開示の実施例3によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【
図6】本開示の実施例4によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【
図7】本開示の実施例5によって提供されるタンパク質構造予測モデルのトレーニング方法の概略フローチャートである。
【
図8】本開示の実施例6によって提供されるタンパク質構造予測モデルのトレーニング方法の概略フローチャートである。
【
図9】本開示の実施例によって提供されるタンパク質構造予測モデルの概略構成図である。
【
図10】本開示の実施例7によって提供されるタンパク質構造予測モデルのトレーニング方法の概略フローチャートである。
【
図11】本開示の実施例8によって提供されるタンパク質構造予測モデルのトレーニング方法の概略フローチャートである。
【
図12】本開示の実施例9によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【
図13】本開示の実施例10によって提供されるアミノ酸における原子座標の決定装置の概略構成図である。
【
図14】本開示の実施例11によって提供されるタンパク質構造予測モデルのトレーニング装置の概略構成図である。
【
図15】本開示の実施例12によって提供されるアミノ酸における原子座標の決定装置の概略構成図である。
【
図16】本開示の実施例を実施するために使用できる例示的な電子機器の概略ブロック図である。
【発明を実施するための形態】
【0016】
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0017】
現在、人工知能プログラムAlphaFold 2は、タンパク質コンフォメーションの計算解析において実験に近い表現を示しており、タンパク質構造の計算を可能にする。AlphaFold2はタンパク質の一次配列(20+種類のアミノ酸からなる長鎖)、及び相同性配列情報とテンプレート情報を用いて構造予想を行う。
【0018】
相同性シーケンス情報は、MSA(Multi-Sequence-Alignment)と略称する。MSA配列とは自然に存在するものであり、現在計算されているタンパク質とある程度の類似性があるが、いくつかの異なる配列が存在することを指す。MSA配列は、進化の過程で、同じ種類のタンパク質の変異分化によるものである可能性がある相同性タンパク質に属すると考えられることが多い。
【0019】
AlphaFold 2モデルは、2つ主要な造を含み、1つは、バックボーンモジュールEvoFormer(または配列/2元対相互作用注意ネットワークと呼ばれる)であり、もう1つは構造モジュールStructure Moduleである。EvoFormerは、上記の3種類の情報(一次配列、相同性配列情報、及びテンプレート情報)を、配列ベクトルsequenceとペアワイズベクトルpairwiseの2種類で特徴づけ、sequenceとpairwiseは自己注意力層Self-attention、3元対注意力層Triangle-attentionなどの構造によって情報伝達を行い、EvoFormerの出力を得て、EvoFormerの出力はStructure Moduleに入力して計算され、各原子の座標を得る。
【0020】
トレーニングプロセスはタンパク質構造が大量にラベル付けされたデータを必要としており、トレーニングデータの形態は(一次配列、相同配列、テンプレート情報、ラベル付けされた構造情報の)4元対である。
【0021】
上記の方式では、AlphaFold2モデルはMSA配列の予想に強く依存しているが、MSA配列の抽出は比較的煩雑であり、大量のマッチングルールに依存し、時間がかかり、精度が確保できない大量の配列マッチングプロセスを行う必要がある。また、大量のMSA配列が存在する一次配列については、モデルがどのMSA配列を用いるかを考慮する必要があり、また、MSA配列が少ない孤立タンパク質については、AlphaFoldの予想効果が劣っている。全体評価指標(TMScore)80+の場合、MSA配列を削除した場合の性能はさらに20未満である。
【0022】
一例として、タンパク質の相同性配列は
図1に示すことができ、
図1の各行がタンパク質の相同性配列である。
【0023】
上記に存在する少なくとも1つの問題に対して、本開示はアミノ酸における原子座標の決定及びトレーニング方法、装置、電子機器及び媒体を提案する。
【0024】
以下、図面を参照しながら、本開示の実施例のアミノ酸における原子座標の決定及びトレーニング方法、装置、機器及び媒体を説明する。
【0025】
図2は、本開示の実施例1によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【0026】
本開示の実施例は、このアミノ酸における原子座標の決定方法がアミノ酸における原子座標の決定装置に構成されたことを例として説明し、このアミノ酸における原子座標の決定装置は、この電子機器がアミノ酸における原子座標の決定機能を実行できるように、任意の電子機器に適用することができる。
【0027】
電子機器は任意の計算能力を備えるデバイス、例えば、コンピュータ、モバイル端末、サーバなどであってもよく、モバイル端末は、例えば、車載機器、携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント、ウェアラブルデバイスなどの各種のオペレーティングシステム、タッチスクリーン及び/又はディスプレイを備えるハードウェアデバイスであってもよい。
【0028】
図2に示すように、このアミノ酸における原子座標の決定方法は以下のステップ201~204を含むことができる。
【0029】
ステップ201、測定対象であるタンパク質のアミノ酸配列を取得する。
【0030】
本開示の実施例では、アミノ酸配列の取得方式は限定されず、例えば、アミノ酸配列は既存のテストセットから取得することができ、または、アミノ酸配列はオンラインで収集することもでき、例えばネットワーククローラ技術によって、オンラインでアミノ酸配列を収集することができ、または、アミノ酸配列はユーザによって提供することもでき、など、本開示はこれに対して限定しない。
【0031】
ステップ202、アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。
【0032】
本開示の実施例では、アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得ることができ、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。例えば、アミノ酸配列がL個のアミノ酸を含む場合、第1の符号化配列はL×Hであるベクトルであってもよく、各アミノ酸は、次元がHである1つの符号化ベクトルに対応する。
【0033】
ステップ203、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する。
【0034】
本開示の実施例では、第1の符号化配列における任意の2つのアミノ酸に対して、この任意2つのアミノ酸の符号化ベクトルを融合し、融合ベクトルを得ることができる。例えば、任意の2つのアミノ酸の符号化ベクトルにおける同じ次元の元素を乗算して、融合ベクトルを得ることができる。
【0035】
本開示の実施例では、上記任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定することができる。
【0036】
ステップ204、第1の符号化配列と符号化行列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定する。
【0037】
本開示の実施例では、第1の符号化配列と符号化行列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定することができる。
【0038】
本開示の実施例のアミノ酸における原子座標の決定方法は、測定対象であるタンパク質のアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれ、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定し、第1の符号化配列と符号化行列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定することにより、測定対象であるタンパク質のアミノ酸配列に基づいて、測定対象であるタンパク質の相同性配列を用いて測定対象であるタンパク質の構造を予想する必要がなく、測定対象であるタンパク質の構造を直接予想することを実現することができ(すなわち、測定対象であるタンパク質の各アミノ酸における原子の座標を予想する)、測定対象であるタンパク質の構造の予想効率を向上させることができる。
【0039】
なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれもユーザの同意を得た上で行い、関連法律法規の規定に合致し、かつ公序良俗に違反しない。
【0040】
本開示のいずれかの実施例では、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する方法を明確に説明するために、本開示は、アミノ酸における原子座標の決定方法をさらに提案する。
【0041】
図3は、本開示の実施例2によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【0042】
図3に示すように、このアミノ酸における原子座標の決定方法は以下のステップ301~306を含むことができる。
【0043】
ステップ301、測定対象であるタンパク質のアミノ酸配列を取得する。
【0044】
ステップ302、アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。
【0045】
ステップ301~302の説明は、本開示のいずれかの実施例における関連説明を参照することができ、ここでは説明を省略する。
【0046】
本開示のいずれかの実施例では、アミノ酸配列における複数のアミノ酸を符号化して、複数のアミノ酸位置を含む第2の符号化配列を得ることができ、例えば、アミノ酸配列にL個のアミノ酸が含まれる場合、第1の符号化配列はL個のアミノ酸位置を含むことができる。その後、第2の符号化配列をタンパク質構造予測モデルにおける少なくとも1層の符号化層に入力して特徴抽出を行って、第1の符号化配列を得ることができ、第1の符号化配列に複数のアミノ酸位置での符号化ベクトルが含まれる。Lは正の整数である。
【0047】
各層の符号化層は、MSA(Muti-Head Self-Attention、マルチヘッダ自己注意モジュール)とFFN(Feed-Forward Network、フィードフォワードネットワーク)を含むことができ、MSAとFFNによって第2の符号化配列における意味情報を融合し、これによって特徴抽出の精度と信頼性を向上させる。
【0048】
一例として、アミノ酸配列における複数のアミノ酸を符号化し、第2の符号化配列を得ることができ、例えば、アミノ酸配列にL個のアミノ酸が含まれる場合、第2の符号化配列はL個のアミノ酸のベクトル化表現Embeddingを含むことができ、EmbeddingがH次元であると仮定すると、第2の符号化配列はL×Hである配列ベクトルであってもよい。
【0049】
L×Hである第2の符号化配列を少なくとも1層の符号化層(例えば符号化層はTransformerネットワークであってもよく、またはスパース混合エキスパートネットワークSparse Mixture of Expertであってもよい)に入力して特徴抽出を行って、第1の符号化配列を得ることができる。
【0050】
【0051】
【0052】
これにより、深層習技術に基づいてアミノ酸配列に対して特徴抽出を行うことができ、第1の符号化配列抽出結果の精度と信頼性を向上させることができる。
【0053】
ステップ303、第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得る。
【0054】
本開示の実施例では、第1の符号化配列はL個のアミノ酸位置を含み、第1の符号化配列におけるi番目のアミノ酸位置に対して、i番目のアミノ酸位置に対応する符号化ベクトルとL個のアミノ酸位置での符号化ベクトルとをそれぞれ融合して、L個のアミノ酸位置での融合ベクトルを得ることができる。i=1、2、…、L、すなわちiがL以下である正の整数である。
【0055】
すなわち、i番目のアミノ酸位置に対応する符号化ベクトルと1番目のアミノ酸位置での符号化ベクトルとを融合し、1番目のアミノ酸位置での融合ベクトルを得て、i個のアミノ酸位置に対応する符号化ベクトルと2番目のアミノ酸位置での符号化ベクトルとを融合し、2番目のアミノ酸位置での融合ベクトルを得て、…、i個のアミノ酸位置に対応する符号化ベクトルとL番目のアミノ酸位置での符号化ベクトルとを融合し、L番目のアミノ酸位置での融合ベクトルを得ることができる。
【0056】
ステップ304、L個のアミノ酸位置での融合ベクトルに基づいて、i番目のアミノ酸位置に対応する融合配列を生成する。
【0057】
本開示の実施例では、上記L個のアミノ酸位置での融合ベクトルに基づいて、i番目のアミノ酸位置に対応する融合配列を生成することができる。すなわち、1番目のアミノ酸位置での融合ベクトルを、i番目のアミノ酸位置に対応する融合配列における最初の元素として、2番目のアミノ酸位置での融合ベクトルを、i番目のアミノ酸位置に対応する融合配列における2番目の元素として、…、L番目のアミノ酸位置での融合ベクトルを、i番目のアミノ酸位置に対応する融合配列における最後の元素とすることができる。
【0058】
ステップ305、各アミノ酸位置に対応する融合配列に基づいて、符号化行列を生成し、iがL以下である正の整数である。
【0059】
本開示の実施例では、各アミノ酸位置に対応する融合配列に基づいて、L×L×Hである符号化行列を生成することができる。例えば、1番目のアミノ酸位置に対応する融合配列を、符号化行列の1行目として、2番目のアミノ酸位置に対応する融合配列を、符号化行列の2行目として、…、L番目のアミノ酸位置に対応する融合配列を、符号化行列の最後の行とすることができる。また、例えば、1番目のアミノ酸位置に対応する融合配列を、符号化行列の1列目として、2番目のアミノ酸位置に対応する融合配列を、符号化行列の2列目として、…、L番目のアミノ酸位置に対応する融合配列を、符号化行列の最後の列とすることができる。
【0060】
【0061】
【0062】
ステップ306、第1の符号化配列と符号化行列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定する。
【0063】
ステップ306の説明は、本開示のいずれかの実施例の関連説明を参照することができ、ここでは説明を省略する。
【0064】
本開示の実施例のアミノ酸における原子座標の決定方法は、第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得て、L個のアミノ酸位置での融合ベクトルに基づいて、i番目のアミノ酸位置に対応する融合配列を生成し、各アミノ酸位置に対応する融合配列に基づいて、符号化行列を生成し、i=1、2、…、Lであり、これにより、各アミノ酸位置での符号化ベクトルに基づいて、符号化行列を効果的に生成することを実現することができる。
【0065】
本開示のいずれかの実施例において、第1の符号化配列と符号化行列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定する方法を明確に説明するために、本開示は、アミノ酸における原子座標の決定方法をさらに提案する。
【0066】
図4は、本開示の実施例3によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【0067】
図4に示すように、このアミノ酸における原子座標の決定方法は以下のステップ401~405を含むことができる。
【0068】
ステップ401、測定対象であるタンパク質のアミノ酸配列を取得する。
【0069】
ステップ402、アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。
【0070】
ステップ403、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する。
【0071】
ステップ401~403の説明は、本開示のいずれかの実施例の関連説明を参照することができ、ここでは説明を省略する。
【0072】
ステップ404、第1の符号化配列と符号化行列をタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、第1の符号化配列に対するマッピング配列及び符号化行列に対するマッピング行列を得る。
【0073】
本開示の実施例では、第1の符号化配列と符号化行列をタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、第1の符号化配列に対応するマッピング配列を得て、符号化行列に対応するマッピング行列を得ることができる。
【0074】
一例として、注意力ネットワークは、関連技術の多層EvoFormer(配列/2元対相互作用注意力ネットワーク)を含むことができ、例えば、当該注意力ネットワークはne層のEvoFormerを含むことができ、当該EvoFromerの構造は
図5に示すように、neの取り得る値の範囲が12~24であってもよい。
【0075】
【0076】
ステップ405、タンパク質構造予測モデルにおける復号ネットワークを用いてマッピング配列とマッピング行列を復号して、各アミノ酸における原子の予想座標を得る。
【0077】
本開示の実施例では、タンパク質構造予測モデルにおける復号ネットワークを用いてマッピング配列とマッピング行列を復号して、各アミノ酸における原子の予想座標を得ることができる。
【0078】
本開示の実施例のアミノ酸における原子座標の決定方法は、第1の符号化配列と符号化行列をタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、第1の符号化配列に対するマッピング配列及び符号化行列に対するマッピング行列を得て、タンパク質構造予測モデルにおける復号ネットワークを用いてマッピング配列とマッピング行列を復号して、各アミノ酸における原子の予想座標を得ることにより、深層学習技術を用いて、各アミノ酸中原子の予想座標を予想することができ、予想結果の精度と信頼性を向上させることができる。
【0079】
本開示のいずれかの実施例においてマッピング配列とマッピング行列を復号し、各アミノ酸における原子の予想座標を得る方法を明確に説明するために、本開示はアミノ酸における原子座標の決定方法をさらに提案する。
【0080】
図6は、本開示の実施例4によって提供されるアミノ酸における原子座標の決定方法の概略フローチャートである。
【0081】
図6に示すように、このアミノ酸における原子座標の決定方法は以下のステップ601~607を含むことができる。
【0082】
ステップ601、測定対象であるタンパク質のアミノ酸配列を取得する。
【0083】
ステップ602、アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。
【0084】
ステップ603、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する。
【0085】
ステップ604、第1の符号化配列と符号化行列をタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、第1の符号化配列に対するマッピング配列及び符号化行列に対するマッピング行列を得る。
【0086】
ステップ601~604の説明は、本開示のいずれかの実施例の関連説明を参照することができ、ここでは説明を省略する。
【0087】
注意力ネットワークは、関連技術の多層EvoFormer(配列/2元対相互作用注意力ネットワーク)を含むことができ、例えば、当該注意力ネットワークは、ne層EvoFormerを含むことができ、当該EvoFormerの構造は
図5に示すことができ、neの取り得る値の範囲が12~24であってもよい。
【0088】
【0089】
【0090】
【0091】
ステップ605、タンパク質構造予測モデルにおける復号ネットワークを用いてマッピング配列とマッピング行列を復号し、各アミノ酸における原子の初期座標を得る。
【0092】
本開示の実施例では、ネットワークを用いてマッピング配列とマッピング行列を復号し、各アミノ酸における原子の初期座標を得ることができる。
【0093】
【0094】
ステップ606、各アミノ酸における原子の初期座標、第1の符号化配列及び符号化行列に基づいて、各アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを実行して、各アミノ酸における原子に対して座標更新を行う。
【0095】
設定されたラウンド数は、予め設定することができる。設定されたラウンド数がKであるとラベル付け、例えばKの取り得る値の範囲は3~6であってもよい。
【0096】
本開示の実施例では、各アミノ酸における原子の初期座標、第1の符号化配列及び符号化行列に基づいて、各アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを実行して、各アミノ酸における原子に対して座標更新を行うことができる。
【0097】
1つの可能な実現形態として、設定されたラウンド数の繰り返しにおける最初のラウンドの繰り返しに対して、まず、復号ネットワークから出力された各アミノ酸における原子の初期座標に基づいて符号化行列を更新して、最初のラウンドの繰り返しの符号化行列を得ることができる。
【0098】
一例として、復号ネットワークから出力された各アミノ酸における原子の初期座標に基づいて、各アミノ酸のうちの任意の2つのアミノ酸における原子間の距離を決定し、上記任意2つのアミノ酸における原子間の距離に基づいて、第1の距離行列を生成し、第1の距離行列に対して次元マッピングを行って、第2の距離行列を得て、第2の距離行列と符号化行列を融合して、最初のラウンドの繰り返しの符号化行列を得ることができる。
【0099】
【0100】
StopGradientは、符号化行列を計算する際、ネットワークパラメータの勾配リターン時に勾配を計算しないことを表す。
【0101】
【0102】
その後、注意力ネットワークから出力されたマッピング配列に基づいて、第1の符号化配列を更新して、最初のラウンドの繰り返しの第1の符号化配列を得ることができる。例えば、マッピング配列と第2の符号化配列における同じ位置の要素を加算して、最初のラウンドの繰り返しの第1の符号化配列を得ることができる。
【0103】
【0104】
その後、最初のラウンドの繰り返しの第1の符号化配列と符号化行列を注意力ネットワークに入力してマッピング処理を行って、最初のラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列とマッピング行列を得ることができ、これによって最初のラウンドの繰り返しのマッピング配列とマッピング行列を復号ネットワークに入力して復号して、最初のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を得ることができる。
【0105】
【0106】
これに応じて、設定されたラウンド数の繰り返しのうちの非最初のラウンドの繰り返しに対して、本ラウンドの繰り返しの前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、符号化行列を更新して、本ラウンドの繰り返しの符号化行列を得ることができる。
【0107】
一例として、前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、各アミノ酸のうちの任意の2つのアミノ酸における原子間の距離を決定し、上記任意2つのアミノ酸における原子間の距離に基づいて、第1の距離行列を生成し、第1の距離行列に対して次元マッピングを行って、第2の距離行列を得ることができ、これによって第2の距離行列と符号化行列を融合して、本ラウンドの繰り返しの符号化行列を得ることができる。式(5)と式(6)で、本ラウンドの繰り返しの符号化行列を得ることができる。
【0108】
これにより、前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、符号化行列の効果的な更新を実現することができ、これによって本ラウンドの繰り返しの符号化行列を得る。
【0109】
その後、前のラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列に基づいて、第1の符号化配列を更新して、本ラウンドの繰り返しの第1の符号化配列を得ることができる。本ラウンドの繰り返しの第1の符号化配列と符号化行列を注意力ネットワークに入力してマッピング処理を行って、本ラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列とマッピング行列を得て、これによって本ラウンドの繰り返しのマッピング配列とマッピング行列を復号ネットワークに入力して復号して、本ラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を得ることができる。
【0110】
これにより、繰り返しで、各アミノ酸における原子の座標の効果的な更新を実現することができ、これによって原子座標予想結果の精度と信頼性を向上させる。
【0111】
ステップ607、最後のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とする。
【0112】
本開示の実施例では、最後のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とすることができる。
【0113】
本開示の実施例のアミノ酸における原子座標の決定方法は、タンパク質構造予測モデルにおける復号ネットワークを用いてマッピング配列とマッピング行列を復号し、各アミノ酸における原子の初期座標を得て、各アミノ酸における原子の初期座標、第1の符号化配列及び符号化行列に基づいて、各アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを実行して、各アミノ酸における原子に対して座標更新を行い、最後のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とすることにより、複数ラウンドの繰り返しで、各アミノ酸における原子の予想座標の効果的な計算を実現することができる。
【0114】
上記はタンパク質構造予測モデルの予想方法(すなわち、アミノ酸における原子座標の決定方法)に対応する各実施例であり、本開示は、タンパク質構造予測モデルのトレーニング方法をさらに提案する。
【0115】
図7は、本開示の実施例5によって提供されるタンパク質構造予測モデルのトレーニング方法の概略フローチャートである。
【0116】
図7に示すように、当該タンパク質構造予測モデルのトレーニング方法は以下ステップのステップ701~704を含むことができる。
【0117】
ステップ701、サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得する。
【0118】
本開示の実施例では、トレーニングサンプルの取得方式に対して限定せず、例えば、トレーニングサンプルは既存のトレーニングセットから取得することができ、あるいは、トレーニングサンプルはオンラインで収集することもでき、例えばネットワーククローラ技術によりオンラインでトレーニングサンプルを収集することができ、あるいは、トレーニングサンプルはオフラインで収集することもでき、など、本開示はこれに対して限定しない。トレーニングサンプルの数は少なくとも1つであってもよい。
【0119】
ステップ702、初期のタンパク質構造予測モデルを使用してアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。
【0120】
本開示の実施例では、初期のタンパク質構造予測モデルを使用してアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得ることができ、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。例えば、アミノ酸配列がL個のアミノ酸を含む場合、第1の符号化配列はL×Hであるベクトルであってもよく、各アミノ酸は、次元がHである1つの符号化ベクトルに対応する。
【0121】
ステップ703、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する。
【0122】
本開示の実施例では、第1の符号化配列における任意の2つのアミノ酸に対して、この任意2つのアミノ酸の符号化ベクトルを融合し、融合ベクトルを得ることができる。例えば、任意の2つのアミノ酸の符号化ベクトルにおける同じ次元の元素を乗算して、融合ベクトルを得ることができる。
【0123】
本開示の実施例では、上記任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定することができる。
【0124】
ステップ704、初期のタンパク質予想認識モデルを使用して第1の符号化配列と符号化行列に基づいて、サンプルタンパク質における各アミノ酸における原子の予想座標を予想する。
【0125】
本開示の実施例では、初期のタンパク質構造予測モデルを使用して第1の符号化配列と符号化行列に基づいて、サンプルタンパク質における各アミノ酸における原子の予想座標を予想する。
【0126】
ステップ705、各アミノ酸における原子の予想座標とトレーニングサンプルに対応する各アミノ酸における原子の参照座標との差異に基づいて、初期のタンパク質構造予測モデルに対して第1のトレーニングを行う。
【0127】
本開示の実施例では、トレーニングサンプルのラベル付けされた情報に基づいて、各アミノ酸における原子の参照座標を決定し、すなわちトレーニングサンプルに各アミノ酸における原子の参照座標がラベル付けられた(当該参照座標は、実際の座標または真の座標と呼ばれることもできる)。あるいは、ラベル付けされた情報を有するトレーニングサンプルの数が相対的に少ないことを考慮して、トレーニングサンプルに対応する各アミノ酸における原子の参照座標は、AlphaFold 2予想によって得られるなど、既存の予想精度の高いモデル予想を用いて得ることができる。
【0128】
本開示の実施例では、各アミノ酸における原子の予想座標とトレーニングサンプルに対応する各アミノ酸における原子の参照座標との差異に基づいて、初期のタンパク質構造予測モデルに対して第1のトレーニングを行うことができる。
【0129】
一例として、各アミノ酸中原子の予想座標と各アミノ酸における原子の参照座標との差異に基づいて、第1の損失値(座標誤差損失とも呼ばれる)を生成することができ、第1の損失値は、上記差異と正の関係(すなわち正の相関関係となる)となり、すなわち、差異が小さいほど、第1の損失値の取り得る値は小さくなり、逆に、差異が大きいほど、第1の損失値の取り得る値は大きくなり、これによって本開示では、第1の損失値に基づいて、初期のタンパク質構造予測モデルにおけるモデルパラメータを調整することができて、第1の損失値的取り得る値を最小化する。
【0130】
なお、上記内容は、モデルトレーニングの終了条件が第1の損失値の取り得る値の最小化であることのみを例として挙げたが、実際に適用する場合、他の終了条件を設定することもでき、例えば、終了条件はトレーニング回数が設定回数に達したことであってもよく、または、終了条件はトレーニング時間長が設定時間長に達したことなどであってもよく、本開示はこれに対して限定しない。
【0131】
本開示の実施例のタンパク質構造予測モデルのトレーニング方法は、サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得し、初期のタンパク質構造予測モデルを使用してアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれ、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定し、初期のタンパク質予想認識モデルを使用して第1の符号化配列と前記符号化行列に基づいて、サンプルタンパク質における各アミノ酸における原子の予想座標を予想し、各アミノ酸における原子の予想座標とトレーニングサンプルに対応する各アミノ酸における原子の参照座標との差異に基づいて、初期のタンパク質構造予測モデルに対して第1のトレーニングを行い、各アミノ酸における原子の予想座標とトレーニングサンプルに対応する各アミノ酸における原子の参照座標との差異に基づいて、初期のタンパク質構造予測モデルに対して第1のトレーニングを行うことにより、初期のタンパク質構造予測モデルをトレーニングし、トレーニング後のタンパク質構造予測モデルの予想精度を向上させることができる。サンプルタンパク質の相同性配列を用いてモデルをトレーニングする必要がないため、モデルのトレーニング周期を減らすことができる。
【0132】
明確に説明するために上記実施例、本開示は、タンパク質構造予測モデルのトレーニング方法をさらに提案する。
【0133】
図8は、本開示の実施例6によって提供されるタンパク質構造予測モデルのトレーニング方法の概略フローチャートである。
【0134】
図8に示すように、当該タンパク質構造予測モデルのトレーニング方法は以下のステップ801~808を含むことができる。
【0135】
ステップ801、サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得する。
【0136】
ステップ802、初期のタンパク質構造予測モデルを使用してアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。
【0137】
本開示の実施例の1つの可能な実現形態では、アミノ酸配列における複数のアミノ酸を符号化して、複数のアミノ酸位置を含む第2の符号化配列を得ることができ、第2の符号化配列を初期のタンパク質構造予測モデルにおける少なくとも1層の符号化層に入力して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列に複数のアミノ酸位置での符号化ベクトルが含まれる。具体的な実現プロセスはステップ302の関連説明を参照することができ、ここでは説明を省略する。
【0138】
ステップ803、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する。
【0139】
本開示の実施例の1つの可能な実現形態では、第1の符号化配列はL個のアミノ酸位置を含み、第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得て、L個のアミノ酸位置での融合ベクトルに基づいて、i番目のアミノ酸位置に対応する融合配列を生成し、各アミノ酸位置に対応する融合配列に基づいて、符号化行列を生成し、Lは正の整数であり、iがL以下である正の整数である。具体的な実現プロセスは、ステップ303~305の関連説明を参照することができ、ここでは説明を省略する。
【0140】
ステップ804、初期のタンパク質構造予測モデルを使用して第1の符号化配列と符号化行列に基づいて、サンプルタンパク質における各アミノ酸における原子の予想座標を予想する。
【0141】
本開示の実施例の1つの可能な実現形態では、第1の符号化配列と符号化行列を初期のタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行うことができて、第1の符号化配列に対応するマッピング配列及び符号化行列に対応するマッピング行列を得て、初期のタンパク質構造予測モデルにおける復号ネットワークを用いてマッピング配列とマッピング行列を復号して、各アミノ酸における原子の予想座標を得る。具体的な実現プロセスは、上記実施例のステップ404~405の関連説明を参照することができ、ここでは説明を省略する。
【0142】
1つの可能な実現形態として、ネットワークを用いてマッピング配列とマッピング行列を復号し、各アミノ酸における原子の初期座標を得ることができ、各アミノ酸における原子の初期座標、第1の符号化配列及び符号化行列に基づいて、各アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを実行して、各アミノ酸における原子に対して座標更新を行い、最後のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とする。具体的な実現プロセスは、上記実施例のステップ605~607の関連説明を参照することができ、ここでは説明を省略する。
【0143】
一例として、設定されたラウンド数の繰り返しにおける最初のラウンドの繰り返しに対して、復号ネットワークから出力された各アミノ酸における原子の初期座標に基づいて符号化行列を更新して、最初のラウンドの繰り返しの符号化行列を得ることができ、注意力ネットワークから出力されたマッピング配列に基づいて、第1の符号化配列を更新して、最初のラウンドの繰り返しの第1の符号化配列を得て、最初のラウンドの繰り返しの第1の符号化配列と符号化行列を注意力ネットワークに入力してマッピング処理を行って、最初のラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列とマッピング行列を得て、最初のラウンドの繰り返しのマッピング配列とマッピング行列を復号ネットワークに入力して復号して、最初のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を得る。具体的な実現プロセスは、上記実施例のステップ606の関連説明を参照することができ、ここでは説明を省略する。
【0144】
別の例として、設定されたラウンド数の繰り返しのうちの非最初のラウンドの繰り返しに対して、本ラウンドの繰り返しの前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、符号化行列を更新して、本ラウンドの繰り返しの符号化行列を得ることができる。
【0145】
例えば、前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、各アミノ酸のうちの任意の2つのアミノ酸における原子間の距離を決定することができ、任意の2つのアミノ酸における原子間の距離に基づいて、第1の距離行列を生成し、第1の距離行列に対して次元マッピングを行って、第2の距離行列を得て、第2の距離行列と符号化行列を融合して、本ラウンドの繰り返しの符号化行列を得る。
【0146】
その後、前のラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列に基づいて、第1の符号化配列を更新して、本ラウンドの繰り返しの第1の符号化配列を得ることができ、本ラウンドの繰り返しの第1の符号化配列と符号化行列を注意力ネットワークに入力してマッピング処理を行って、本ラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列とマッピング行列を得て、本ラウンドの繰り返しのマッピング配列とマッピング行列を復号ネットワークに入力して復号して、本ラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を得る。具体的な実現プロセスは、上記実施例のステップ606の関連説明を参照することができ、ここでは説明を省略する。
【0147】
ステップ805、各アミノ酸における原子の予想座標とトレーニングサンプルに対応する各アミノ酸における原子の参照座標との差異に基づいて、初期のタンパク質構造予測モデルに対して第1のトレーニングを行う。
【0148】
ステップ801~805の説明は、本開示のいずれかの実施例の関連説明を参照することができ、ここでは説明を省略する。
【0149】
ステップ806、アミノ酸配列における少なくとも1つのアミノ酸に対してマスク処理を行って、マスク後のアミノ酸配列を得る。
【0150】
本開示の実施例では、アミノ酸配列における少なくとも1つのアミノ酸に対してマスク処理を行って、マスク後のアミノ酸配列を得ることができる。
【0151】
ステップ807、初期のタンパク質構造予測モデルを使用してマスク後のアミノ酸配列を予想して、予想配列を得る。
【0152】
本開示の実施例では、初期のタンパク質構造予測モデルを使用してマスク後のアミノ酸配列を予想して、予想配列を得ることができる。
【0153】
ステップ808、予想配列とアミノ酸配列との差異に基づいて、初期のタンパク質構造予測モデルに対して第2のトレーニングを行う。
【0154】
本開示の実施例では、予想配列とアミノ酸配列との差異に基づいて、初期のタンパク質構造予測モデルに対して第2のトレーニングを行うことができる。例えば、予想配列とアミノ酸配列との差異に基づいて、第2の損失値を生成することができ、第2の損失値が上記差異と正の関係(すなわち、正の相関関係となる)となり、すなわち、差異が小さいほど、第2の損失値の取り得る値は小さくなり、逆に、差異が大きいほど、第2の損失値の取り得る値は大きくなり、これによって本開示では、第2の損失値に基づいて、初期のタンパク質構造予測モデルにおけるモデルパラメータを調整することができて、第2の損失値の取り得る値を最小化する。
【0155】
なお、上記内容は、モデルトレーニングの終了条件が第2の損失値の取り得る値の最小化であることのみを例として挙げたが、実際に適用する場合、他の終了条件を設定することもでき、例えば、終了条件はトレーニング回数が設定回数に達したことであってもよく、または、終了条件はトレーニング時間長が設定時間長に達したことなどであってもよく、本開示はこれに対して限定しない。
【0156】
一例として、初期のタンパク質構造予測モデルの構造が
図9に示すことを例として、
図9では、Multi-Head Attentionとはマルチヘッダ注意力層を指し、Add&Normとは残差接続-正規化層を指し、Feed Forwardとはフィードフォワードニューラルネットワークを指す。
【0157】
【0158】
【0159】
【0160】
【0161】
【0162】
なお、本開示では、806~808の実行タイミングを限定せず、すなわち、第1のトレーニングと第2のトレーニングの優先順位を限定せず、例えば、第2のトレーニングは第1のトレーニングの前に実行することができ、または、第2のトレーニングは第1のトレーニングと並列に実行することができる。
【0163】
例えば、第1の損失値と第2の損失値に基づいて、第1のターゲット損失値を生成することができ、これによって第1のターゲット損失値に基づいて、初期のタンパク質構造予測モデルをトレーニングすることができる。第1のターゲット損失値は第1の損失値と正の関係となり、第1のターゲット損失値は第2の損失値と正の関係ともなる。
【0164】
本開示の実施例のタンパク質構造予測モデルのトレーニング方法は、アミノ酸配列における少なくとも1つのアミノ酸に対してマスク処理を行って、マスク後のアミノ酸配列を得て、初期のタンパク質構造予測モデルを使用してマスク後のアミノ酸配列を予想して、予想配列を得て、予想配列とアミノ酸配列との差異に基づいて、初期のタンパク質構造予測モデルに対して第2のトレーニングを行うことにより、マスク方式で、初期のタンパク質構造予測モデルに対して第2のトレーニングを行い、モデルの予想効果をさらに向上させることができ、すなわち、モデル予想結果の精度と信頼性をさらに向上させる。
【0165】
本開示の実施例の1つの可能な実現形態では、さらに、初期のタンパク質構造予測モデルを使用して、MSAにおける各アミノ酸位置の確率分布を予想することができ、予想結果に基づいてモデルに対して第3のトレーニングを行って、モデルの予想効果をさらに向上させる。以下
図10と併せて、上記プロセスに対して詳細に説明する。
【0166】
図10は、本開示の実施例7によって提供されるタンパク質構造予測モデルのトレーニング方法の概略フローチャートである。
【0167】
図10に示すように、
図7または
図8に示す実施例に加えて、当該タンパク質構造予測モデルのトレーニング方法は以下のステップ1001~1004をさらに含むことができる。
【0168】
ステップ1001、アミノ酸配列に対応する複数の相同性配列を取得する。
【0169】
本開示の実施例では、アミノ酸配列に対応する複数の相同性配列を取得することができる。例えば、関連技術のマッチングルールを用いて、アミノ酸配列にマッチングする複数の相同性配列を決定することができる。
【0170】
ステップ1002、複数の相同性配列に基づいて、複数の相同性配列における各アミノ酸位置に対応する第1の確率分布を決定し、第1の確率分布が複数の相同性配列における対応するアミノ酸位置における複数のアミノ酸の出現確率を示す。
【0171】
本開示の実施例では、複数の相同性配列における各アミノ酸位置でのアミノ酸を統計することができて、複数の相同性配列における各アミノ酸位置に対応する第1の確率分布を決定し、各アミノ酸位置に対応する第1の確率分布が、複数の相同性配列における当該アミノ酸位置上で複数のアミノ酸の出現確率を示す。
【0172】
ステップ1003、初期のタンパク質構造予測モデルを使用してアミノ酸配列に基づいて、複数の相同性配列における各アミノ酸位置に対応する第2の確率分布を予想する。
【0173】
本開示の実施例では、初期のタンパク質構造予測モデルを使用してアミノ酸配列に基づいて、複数の相同性配列における各アミノ酸位置に対応する第2の確率分布を予想することができる。すなわち、第1の確率分布はアミノ酸位置での実際の確率分布であり、第2の確率分布はアミノ酸位置での予想確率分布である。
【0174】
ステップ1004、各アミノ酸位置に対応する第1の確率分布と第2の確率分布との差異に基づいて、初期のタンパク質構造予測モデルに対して第3のトレーニングを行う。
【0175】
本開示の実施例では、各アミノ酸位置に対応する第1の確率分布と第2の確率分布との差異に基づいて、初期のタンパク質構造予測モデルに対して第3のトレーニングを行うことができる。例えば、各アミノ酸位置に対応する第1の確率分布と第2の確率分布との差異に基づいて、第3の損失値を生成することができ、第3の損失値は上記差異と正の関係(すなわち、正の相関関係となる)となり、すなわち、差異が小さいほど、第3の損失値の取り得る値は小さくなり、逆に、差異が大きいほど、第3の損失値の取り得る値は大きくなり、これによって本開示では、第3の損失値に基づいて、初期のタンパク質構造予測モデルにおけるモデルパラメータを調整することができて、第3の損失値の取り得る値を最小化する。
【0176】
なお、上記内容は、モデルトレーニングの終了条件が第3の損失値の取り得る値の最小化であることのみを例として挙げたが、実際に適用する場合、他の終了条件を設定することもでき、例えば、終了条件はトレーニング回数が設定回数に達したことであってもよく、または、終了条件はトレーニング時間長が設定時間長に達したことなどであってもよく、本開示はこれに対して限定しない。
【0177】
【0178】
【0179】
【0180】
本開示の実施例のタンパク質構造予測モデルのトレーニング方法は、アミノ酸配列に対応する複数の相同性配列を取得し、複数の相同性配列に基づいて、複数の相同性配列における各アミノ酸位置に対応する第1の確率分布を決定し、第1の確率分布が複数の相同性配列中で対応するアミノ酸位置における複数のアミノ酸の出現確率を示し、初期のタンパク質構造予測モデルを使用してアミノ酸配列に基づいて、複数の相同性配列における各アミノ酸位置に対応する第2の確率分布を予想し、各アミノ酸位置に対応する第1の確率分布と第2の確率分布との差異に基づいて、初期のタンパク質構造予測モデルに対して第3のトレーニングを行うことにより、モデルでMSAにおける各アミノ酸位置の確率分布を予想し、予想された確率分布に基づいてモデルに対して第3のトレーニングを行い、モデルの予想効果をさらに向上させることができ、すなわち、モデル予想結果の精度と信頼性をさらに向上させる。
【0181】
本開示の実施例の1つの可能な実現形態では、さらに初期のタンパク質構造予測モデルを使用して、2つのアミノ酸位置間の同一原子(例えばC
α原子)間の距離を予想することができ、予想結果に基づいてモデルに対して第4のトレーニングを行って、モデルの予想効果をさらに向上させる。以下
図11と併せて、上記のプロセスを詳細に説明する。
【0182】
図11は、本開示の実施例8によって提供されるタンパク質構造予測モデルのトレーニング方法の概略フローチャートである。
【0183】
図11に示すように、
図7~
図10のいずれかの実施例に加えて、当該タンパク質構造予測モデルのトレーニング方法は、以下のステップ1101~1103をさらに含むことができる。
【0184】
ステップ1101、各アミノ酸における原子の参照座標に基づいて、各アミノ酸における任意の2つのアミノ酸における同一原子間の第1の距離を決定する。
【0185】
本開示の実施例では、各アミノ酸における原子の参照座標に基づいて、各アミノ酸における任意の2つのアミノ酸における同一原子間の距離(本開示では第1の距離と記載する)を決定することができる。
【0186】
ステップ1102、符号化行列に基づいて、上記同一原子間の第2の距離を決定する。
【0187】
本開示の実施例では、符号化行列に基づいて、上記同一原子間の第2の距離を決定することができる。
【0188】
【0189】
ステップ1103、同一原子の第1の距離と第2の距離との間の差異に基づいて、初期のタンパク質構造予測モデルに対して第4のトレーニングを行う。
【0190】
本開示の実施例では、上記同一原子の第1の距離と第2の距離との間の差異に基づいて、初期のタンパク質構造予測モデルに対して第4のトレーニングを行うことができる。例えば、上記同一原子の第1の距離と第2の距離との間の差異に基づいて、第4の損失値を生成することができ、第4の損失値は上記差異と正の関係(すなわち、正の相関関係となる)となり、すなわち、差異が小さいほど、第4の損失値の取り得る値は小さくなり、逆に、差異が大きいほど、第4の損失値の取り得る値は大きくなり、これによって本開示では、第4の損失値に基づいて、初期のタンパク質構造予測モデルにおけるモデルパラメータを調整することができて、第4の損失値の取り得る値を最小化する。
【0191】
【0192】
なお、式(14)はMSE(平均二乗誤差)損失を用いることができ、分類損失を用いることもでき、本開示はこれに対して限定しない。
【0193】
なお、上記内容は、モデルトレーニングの終了条件が第4の損失値の取り得る値の最小化であることのみを例として挙げたが、実際に適用する場合、他の終了条件を設定することもでき、例えば、終了条件はトレーニング回数が設定回数に達したことであってもよく、または、終了条件はトレーニング時間長が設定時間長に達したことなどであってもよく、本開示はこれに対して限定しない。
【0194】
本開示の実施例のタンパク質構造予測モデルのトレーニング方法は、各アミノ酸における原子の参照座標に基づいて、各アミノ酸における任意の2つのアミノ酸における同一原子間の第1の距離を決定し、符号化行列に基づいて、上記同一原子間の第2の距離を決定し、同一原子の第1の距離と第2の距離との間の差異に基づいて、初期のタンパク質構造予測モデルに対して第4のトレーニングを行うことにより、モデルによって2つのアミノ酸位置間の同一原子間の距離を予想し、予想された距離に基づいてモデルに対して第4のトレーニングを行い、モデルの予想効果をさらに向上させることができ、すなわち、モデル予想結果の精度と信頼性をさらに向上させる。
【0195】
一例として、タンパク質構造予測モデルの構造が
図9に示すことを例として、以下ステップによって、タンパク質構造を決定することができる。
【0196】
【0197】
【0198】
【0199】
【0200】
【0201】
6、各原子の座標に基づいてEvoFormerの入力を更新し、K回繰り返し、最終的に各原子の予想座標を得る。
【0202】
タンパク質構造予測モデルのトレーニング段階では、複数の損失値を導入することができる。
【0203】
第1に、Transformerの出力に、2タイプの損失を導入することができる。
【0204】
【0205】
【0206】
2)MSAにおける各アミノ酸位置の確率分布を予想する((一次配列、MSA)2元群データが必要で、千万級に達することができる)。
【0207】
【0208】
【0209】
【0210】
【0211】
なお、式(14)はMSE(平均二乗誤差)損失を用いることができ、分類損失を用いることもでき、本開示はこれに対して限定しない。
【0212】
第3に、Structure Moduleの出力側に座標誤差損失(本開示では第1の損失値と記載する)を導入する。
【0213】
上記複数の損失値を用いてモデルに対して共同トレーニングを行うことができ、例えば、複数の損失値を重み付け加算し、ターゲット損失値を得て、ターゲット損失値に基づいて、タンパク質構造予測モデルをトレーニングすることができる。あるいは、上記複数の損失値を用いてモデルを段階的にトレーニングすることができ、例えば、最初の段階は、第2の損失値および/または第3の損失値に基づいて、Transformerをトレーニングすることができ、すなわち、Transformerにおけるモデルパラメータを調整し、モデルが収束する時、EvoFormerとStructure Moduleの共同トレーニングを追加する。
【0214】
以上のように、より大量の無監視(無タンパク質構造)のアミノ酸配列を導入することができ、数量は1億を超えることができ、EvoFormerにトレーニングコストが低く、パラメータ量が大きいTransformerまたはSparse Mixture of Expert Transformerを導入し、配列情報を直接記憶し、テンプレート情報に全く依存せず、(一次配列、真の構造)の監督データ、(一次配列、予想構造)の自己蒸留データと(一次配列、MSA)の無監視データのみに基づいてモデルをトレーニングする。
【0215】
ラベル付け構造はトレーニングサンプルにラベル付けられた各アミノ酸における原子の真の座標を含み、予想構造は、従来の予想精度の高いモデルによって予想された各アミノ酸における原子の予想座標を含む。
【0216】
これにより、モデルの予想段階では、MSA抽出を行う必要がなく、タンパク質のアミノ酸配列(すなわち一次配列)を用いて直接構造予想を行うことができ、時間消費を20~30分から30秒以内に低減することができ、タンパク質設計などの作業効率を大幅に向上させる。MSAが少ない孤立タンパク質に対して、一次配列の汎化能力を用いて、予想効果をより優れたようにする。
【0217】
本開示はモデル予想方法をさらに提案し、すなわち、タンパク質構造予測モデルを使用して、アミノ酸における原子座標を予想する方法を提案し、
図12は、本開示の実施例9によって提供されるアミノ酸における原子座標の決定方法である。
【0218】
図12に示すように、このアミノ酸における原子座標の決定方法は以下のステップ301~306を含むことができる。
【0219】
ステップ1201、測定対象であるタンパク質のアミノ酸配列を取得する。
【0220】
ステップ1201の説明はステップ201の関連説明を参照することができ、ここでは説明を省略する。
【0221】
ステップ1202、トレーニング後のタンパク質構造予測モデルとアミノ酸配列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定する。
【0222】
本開示の実施例では、タンパク質構造予測モデルは、上記
図7~
図11のいずれかの実施例に記載の方法でトレーニングして得られた。
【0223】
本開示の実施例では、トレーニング後のタンパク質構造予測モデルとアミノ酸配列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定することができる。具体的な実現プロセスは上記いずれかの実施例の関連説明を参照することができ、ここでは説明を省略する。
【0224】
本開示の実施例のアミノ酸における原子座標の決定方法は、測定対象であるタンパク質のアミノ酸配列を取得し、トレーニング後のタンパク質構造予測モデルとアミノ酸配列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定することにより、深層学習技術に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を予想することができ、予想結果の精度と信頼性を向上させることができる。
【0225】
上記
図2~
図6の実施例によって提供されるアミノ酸における原子座標の決定方法に対応し、本開示は、アミノ酸における原子座標の決定装置をさらに提供し、本開示の実施例によって提供されるアミノ酸における原子座標の決定装置が上記
図2~
図6の実施例によって提供されるアミノ酸における原子座標の決定方法に対応するため、アミノ酸における原子座標の決定方法の実施形態は本開示の実施例によって提供されるアミノ酸における原子座標の決定装置にも適用され、本開示の実施例では説明を省略する。
【0226】
図13は、本開示の実施例10によって提供されるアミノ酸における原子座標の決定装置の概略構成図である。
【0227】
図13に示すように、当該アミノ酸における原子座標の決定装置1300は、取得モジュール1301、抽出モジュール1302、第1の決定モジュール1303及び第2の決定モジュール1304を含むことができる。
【0228】
取得モジュール1301は、測定対象であるタンパク質のアミノ酸配列を取得する。
【0229】
抽出モジュール1302は、アミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。
【0230】
第1の決定モジュール1303は、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する。
【0231】
第2の決定モジュール1304は、第1の符号化配列と符号化行列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定する。
【0232】
本開示の実施例の1つの可能な実現形態では、抽出モジュール1302は、アミノ酸配列における複数のアミノ酸を符号化して、複数のアミノ酸位置を含む第2の符号化配列を得て、第2の符号化配列をタンパク質構造予測モデルにおける少なくとも1層の符号化層に入力して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列に複数のアミノ酸位置での符号化ベクトルが含まれる。
【0233】
本開示の実施例の1つの可能な実現形態では、第1の符号化配列はL個のアミノ酸位置を含み、Lは正の整数であり、第1の決定モジュール1303は、第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得て、L個のアミノ酸位置での融合ベクトルに基づいて、i番目のアミノ酸位置に対応する融合配列を生成し、各アミノ酸位置に対応する融合配列に基づいて、符号化行列を生成し、iがL以下である正の整数である。
【0234】
本開示の実施例の1つの可能な実現形態では、第2の決定モジュール1304は、
第1の符号化配列と符号化行列をタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、第1の符号化配列に対するマッピング配列及び符号化行列に対するマッピング行列を得る入力ユニットと、
タンパク質構造予測モデルにおける復号ネットワークを用いてマッピング配列とマッピング行列を復号して、各アミノ酸における原子の予想座標を得る復号ユニットと、を含むことができる。
【0235】
本開示の実施例の1つの可能な実現形態では、復号ユニットは、ネットワークを用いてマッピング配列とマッピング行列を復号し、各アミノ酸における原子の初期座標を得て、各アミノ酸における原子の初期座標、第1の符号化配列及び符号化行列に基づいて、各アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを実行して、各アミノ酸における原子に対して座標更新を行い、最後のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とする。
【0236】
本開示の実施例の1つの可能な実現形態では、設定されたラウンド数の繰り返しのうちの最初のラウンドの繰り返しは、
復号ネットワークから出力された各アミノ酸における原子の初期座標に基づいて符号化行列を更新して、最初のラウンドの繰り返しの符号化行列を得るステップと、
注意力ネットワークから出力されたマッピング配列に基づいて、第1の符号化配列を更新して、最初のラウンドの繰り返しの第1の符号化配列を得るステップと、
最初のラウンドの繰り返しの第1の符号化配列と符号化行列を注意力ネットワークに入力してマッピング処理を行って、最初のラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列とマッピング行列を得るステップと、
最初のラウンドの繰り返しのマッピング配列とマッピング行列を復号ネットワークに入力して復号して、最初のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を得るステップと、を含む。
【0237】
本開示の実施例の1つの可能な実現形態では、設定されたラウンド数の繰り返しのうちの非最初のラウンドの繰り返しは、
本ラウンドの繰り返しの前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、符号化行列を更新して、本ラウンドの繰り返しの符号化行列を得るステップと、
前のラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列に基づいて、第1の符号化配列を更新して、本ラウンドの繰り返しの第1の符号化配列を得るステップと、
本ラウンドの繰り返しの第1の符号化配列と符号化行列を注意力ネットワークに入力してマッピング処理を行って、本ラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列とマッピング行列を得るステップと、
本ラウンドの繰り返しのマッピング配列とマッピング行列を復号ネットワークに入力して復号して、本ラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を得るステップと、を含む。
【0238】
本開示の実施例の1つの可能な実現形態では、復号ユニットは、前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、各アミノ酸のうちの任意の2つのアミノ酸における原子間の距離を決定し、任意の2つのアミノ酸における原子間の距離に基づいて、第1の距離行列を生成し、第1の距離行列に対して次元マッピングを行って、第2の距離行列を得て、第2の距離行列と符号化行列を融合して、本ラウンドの繰り返しの符号化行列を得る。
【0239】
本開示の実施例のアミノ酸における原子座標の決定装置は、測定対象であるタンパク質のアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれ、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定し、第1の符号化配列と符号化行列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定することにより、測定対象であるタンパク質のアミノ酸配列に基づいて、測定対象であるタンパク質の相同性配列を用いて測定対象であるタンパク質の構造を予想する必要がなく、測定対象であるタンパク質の構造を直接予想することを実現することができ(すなわち、測定対象であるタンパク質の各アミノ酸における原子の座標を予想する)、測定対象であるタンパク質の構造の予想効率を向上させることができる。
【0240】
上記
図7~
図11の実施例によって提供されるタンパク質構造予測モデルのトレーニング方法に対応し、本開示は、タンパク質構造予測モデルのトレーニング装置をさらに提供し、本開示の実施例によって提供されるタンパク質構造予測モデルのトレーニング装置が上記
図7~
図11の実施例によって提供されるタンパク質構造予測モデルのトレーニング方法に対応するため、タンパク質構造予測モデルのトレーニング方法の実施形態は本開示の実施例によって提供されるタンパク質構造予測モデルのトレーニング装置にも適用され、本開示の実施例はここで説明を省略する。
【0241】
図14は、本開示の実施例11によって提供されるタンパク質構造予測モデルのトレーニング装置の概略構成図である。
【0242】
図14に示すように、当該タンパク質構造予測モデルのトレーニング装置1400は、取得モジュール1401、抽出モジュール1402、決定モジュール1403、予想モジュール1404及びトレーニングモジュール1405を含むことができる。
【0243】
取得モジュール1401は、サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得する。
【0244】
抽出モジュール1402は、初期のタンパク質構造予測モデルを使用してアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれる。
【0245】
決定モジュール1403は、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定する。
【0246】
予想モジュール1404は、初期のタンパク質構造予測モデルを使用して第1の符号化配列と符号化行列に基づいて、サンプルタンパク質における各アミノ酸における原子の予想座標を予想する。
【0247】
トレーニングモジュール1405は、各アミノ酸における原子の予想座標とトレーニングサンプルに対応する各アミノ酸における原子の参照座標との差異に基づいて、初期のタンパク質構造予測モデルに対して第1のトレーニングを行う。
【0248】
本開示の実施例の1つの可能な実現形態では、抽出モジュール1402は、アミノ酸配列における複数のアミノ酸を符号化して、複数のアミノ酸位置を含む第2の符号化配列を得て、第2の符号化配列を初期のタンパク質構造予測モデルにおける少なくとも1層の符号化層に入力して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列に複数のアミノ酸位置での符号化ベクトルが含まれる。
【0249】
本開示の実施例の1つの可能な実現形態では、第1の符号化配列はL個のアミノ酸位置を含み、Lは正の整数であり、決定モジュール1403は、第1の符号化配列におけるi番目のアミノ酸位置に対して、対応する符号化ベクトルをそれぞれL個のアミノ酸位置での符号化ベクトルと融合して、L個のアミノ酸位置での融合ベクトルを得て、L個のアミノ酸位置での融合ベクトルに基づいて、i番目のアミノ酸位置に対応する融合配列を生成し、各アミノ酸位置に対応する融合配列に基づいて、符号化行列を生成し、iがL以下である正の整数である。
【0250】
本開示の実施例の1つの可能な実現形態では、当該タンパク質構造予測モデルのトレーニング装置1400は、
アミノ酸配列における少なくとも1つのアミノ酸に対してマスク処理を行って、マスク後のアミノ酸配列を得る処理モジュールと、
初期のタンパク質構造予測モデルを使用してマスク後のアミノ酸配列を予想して、予想配列を得る予想モジュール1404と、
予想配列とアミノ酸配列との差異に基づいて、初期のタンパク質構造予測モデルに対して第2のトレーニングを行うトレーニングモジュール1405と、をさらに含むことができる。
【0251】
本開示の実施例の1つの可能な実現形態では、取得モジュール1401は、さらに、アミノ酸配列に対応する複数の相同性配列を取得する。
【0252】
決定モジュール1403は、さらに、複数の相同性配列に基づいて、複数の相同性配列における各アミノ酸位置に対応する第1の確率分布を決定し、第1の確率分布が複数の相同性配列中で対応するアミノ酸位置における複数のアミノ酸の出現確率を示す。
【0253】
予想モジュール1404は、さらに、初期のタンパク質構造予測モデルを使用してアミノ酸配列に基づいて、複数の相同性配列における各アミノ酸位置に対応する第2の確率分布を予想する。
【0254】
トレーニングモジュール1405は、さらに各アミノ酸位置に対応する第1の確率分布と第2の確率分布との差異に基づいて、初期のタンパク質構造予測モデルに対して第3のトレーニングを行う。
【0255】
本開示の実施例の1つの可能な実現形態では、決定モジュール1403は、さらに各アミノ酸における原子の参照座標に基づいて、各アミノ酸における任意の2つのアミノ酸における同一原子間の第1の距離を決定する。
【0256】
決定モジュール1403は、さらに符号化行列に基づいて、同一原子間の第2の距離を決定する。
【0257】
トレーニングモジュール1405は、さらに、同一原子の第1の距離と第2の距離との間の差異に基づいて、初期のタンパク質構造予測モデルに対して第4のトレーニングを行う。
【0258】
本開示の実施例の1つの可能な実現形態では、予想モジュール1404は、第1の符号化配列と符号化行列を初期のタンパク質構造予測モデルにおける注意力ネットワークに入力してマッピング処理を行って、第1の符号化配列に対応するマッピング配列及び符号化行列に対応するマッピング行列を得ることができ、初期のタンパク質構造予測モデルにおける復号ネットワークを用いてマッピング配列とマッピング行列を復号して、各アミノ酸における原子の予想座標を得る。
【0259】
本開示の実施例の1つの可能な実現形態では、予想モジュール1404は、ネットワークを用いてマッピング配列とマッピング行列を復号し、各アミノ酸における原子の初期座標を得て、各アミノ酸における原子の初期座標、第1の符号化配列及び符号化行列に基づいて、各アミノ酸における原子の初期座標に対して設定されたラウンド数の繰り返しを実行して、各アミノ酸における原子に対して座標更新を行い、最後のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を、対応するアミノ酸における原子の予想座標とする。
【0260】
本開示の実施例の1つの可能な実現形態では、設定されたラウンド数の繰り返しのうちの最初のラウンドの繰り返しは、
復号ネットワークから出力された各アミノ酸における原子の初期座標に基づいて符号化行列を更新して、最初のラウンドの繰り返しの符号化行列を得るステップと、
注意力ネットワークから出力されたマッピング配列に基づいて、第1の符号化配列を更新して、最初のラウンドの繰り返しの第1の符号化配列を得るステップと、
最初のラウンドの繰り返しの第1の符号化配列と符号化行列を注意力ネットワークに入力してマッピング処理を行って、最初のラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列とマッピング行列を得るステップと、
最初のラウンドの繰り返しのマッピング配列とマッピング行列を復号ネットワークに入力して復号して、最初のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を得るステップと、を含む。
【0261】
本開示の実施例の1つの可能な実現形態では、設定されたラウンド数の繰り返しのうちの非最初のラウンドの繰り返しは、
本ラウンドの繰り返しの前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、符号化行列を更新して、本ラウンドの繰り返しの符号化行列を得るステップと、
前のラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列に基づいて、第1の符号化配列を更新して、本ラウンドの繰り返しの第1の符号化配列を得るステップと、
本ラウンドの繰り返しの第1の符号化配列と符号化行列を注意力ネットワークに入力してマッピング処理を行って、本ラウンドの繰り返しで注意力ネットワークから出力されたマッピング配列とマッピング行列を得るステップと、
本ラウンドの繰り返しのマッピング配列とマッピング行列を復号ネットワークに入力して復号して、本ラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標を得るステップと、を含む。
【0262】
本開示の実施例の1つの可能な実現形態では、予想モジュール1404は、前のラウンドの繰り返しで更新して得られた各アミノ酸における原子の座標に基づいて、各アミノ酸のうちの任意の2つのアミノ酸における原子間の距離を決定し、任意の2つのアミノ酸における原子間の距離に基づいて、第1の距離行列を生成し、第1の距離行列に対して次元マッピングを行って、第2の距離行列を得て、第2の距離行列と符号化行列を融合して、本ラウンドの繰り返しの符号化行列を得る。
【0263】
本開示の実施例のタンパク質構造予測モデルのトレーニング装置は、サンプルタンパク質のアミノ酸配列を含むトレーニングサンプルを取得し、初期のタンパク質構造予測モデルを使用してアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれ、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定し、初期の構造認識モデルを使用して第1の符号化配列と符号化行列に基づいて、サンプルタンパク質における各アミノ酸における原子の予想座標を予想し、各アミノ酸における原子の予想座標とトレーニングサンプルに対応する各アミノ酸における原子の参照座標との差異に基づいて、初期のタンパク質構造予測モデルに対して第1のトレーニングを行い、各アミノ酸における原子の予想座標とトレーニングサンプルに対応する各アミノ酸における原子の参照座標との差異に基づいて、初期のタンパク質構造予測モデルに対して第1のトレーニングを行うことにより、初期のタンパク質構造予測モデルをトレーニングし、トレーニング後のタンパク質構造予測モデルの予想精度を向上させることができる。サンプルタンパク質の相同性配列を用いてモデルをトレーニングする必要がないため、モデルのトレーニング周期を減らすことができる。
【0264】
上記
図12の実施例によって提供されるアミノ酸における原子座標の決定方法に対応し、本開示は、アミノ酸における原子座標の決定装置をさらに提供し、本開示の実施例によって提供されるアミノ酸における原子座標の決定装置が上記
図12の実施例によって提供されるアミノ酸における原子座標の決定方法に対応するため、アミノ酸における原子座標の決定方法の実施形態は、本開示の実施例によって提供されるアミノ酸における原子座標の決定装置にも適用され、本開示の実施例では説明を省略する。
【0265】
図15は、本開示の実施例12によって提供されるアミノ酸における原子座標の決定装置の概略構成図である。
【0266】
図15に示すように、当該アミノ酸における原子座標の決定装置1500は、取得モジュール1501と決定モジュール1502を含むことができる。
【0267】
取得モジュール1501は、測定対象であるタンパク質のアミノ酸配列を取得する。
【0268】
決定モジュール1502は、
図14に記載の装置でトレーニングして得られたタンパク質構造予測モデルとアミノ酸配列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定する。
【0269】
本開示の実施例のアミノ酸における原子座標の決定装置は、測定対象であるタンパク質のアミノ酸配列を取得し、トレーニング後のタンパク質構造予測モデルとアミノ酸配列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定することにより、深層学習技術に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を予想することができ、予想結果の精度と信頼性を向上させることができる。
【0270】
上記実施例を実現するために、本開示は電子機器をさらに提供し、当該電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含むことができ、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、命令は、少なくとも1つのプロセッサが本開示の上記のいずれかの実施例によって提出されるアミノ酸における原子座標の決定方法、または、タンパク質構造予測モデルのトレーニング方法を実行できるように、少なくとも1つのプロセッサによって実行される。
【0271】
上記の実施例を実現するために、本開示はコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令は、コンピュータに上記本開示のいずれかの実施例によって提出されアミノ酸における原子座標の決定方法、または、タンパク質構造予測モデルのトレーニング方法を実行させる。
【0272】
上記の実施例を実現するために、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記のいずれかの実施例によって提出されたアミノ酸における原子座標の決定方法、または、タンパク質構造予測モデルのトレーニング方法を実現する。
【0273】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
【0274】
図16は、本開示の実施例を実施するために使用できる例示的な電子機器の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
【0275】
図16に示すように、電子機器1600は、ROM(Read-Only Memory,読み取り専用メモリ)1602に記憶されたコンピュータプログラムまたは記憶ユニット1608からRAM(Random Access Memory、ランダムアクセス/メモリ)1603にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行する計算ユニット1601を含む。RAM1603には、電子機器1600の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット1601、ROM 1602 、及びRAM 1603は、バス1604を介して互いに接続されている。パス1604には、I/O(Input/Output、入力/出力)インタフェース1605も接続されている。
【0276】
電子機器1600の複数のコンポーネントはI/Oインタフェース1605に接続され、キーボード、マウスなどの入力ユニット1606、各タイプのディスプレイ、スピーカなどの出力ユニット1607、磁気ディスク、光ディスクなどの記憶ユニット1608、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1609を含む。通信ユニット1609は、電子機器1600が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0277】
計算ユニット1601は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1601のいくつかの例は、CPU(Central Processing Unit,中央処理ユニット)、GPU(Graphic Processing Units、グラフィック処理ユニット)、各種の専用のAI(Artificial Intelligence、人工知能)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor、デジタル信号プロセッサ)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1601は、上記に記載された各方法および処理、例えば、上記のアミノ酸における原子座標の決定方法、または、タンパク質構造予測モデルのトレーニング方法を実行する。例えば、いくつかの実施例では、上記アミノ酸における原子座標の決定方法、または、タンパク質構造予測モデルのトレーニング方法を、記憶ユニット1608などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 1602および/または通信ユニット1609を介して電子機器1600にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 1603にロードされ、計算ユニット1601によって実行される場合、上記に記載されたアミノ酸における原子座標の決定方法、または、タンパク質構造予測モデルのトレーニング方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット1601は上記のアミノ酸における原子座標の決定方法、または、タンパク質構造予測モデルのトレーニング方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
【0278】
本明細書の上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)、ASIC(Application-Specific Integrated Circuit、特定用途向け集積回路)、ASSP(Application Specific Standard Product、特定用途向け標準製品)、SOC(System On Chip、システムオンチップ)、CPLD(Complex Programmable Logic Device、コンプレックス・プログラマブル・ロジック・デバイス)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および/または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
【0279】
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/またはブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
【0280】
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,消去可能プログラマブルリードオンリーメモリ)又はフラッシュメモリ、光ファイバ、CD-ROM(Compact Disc Read-Only Memory,ポータブルコンパクトディスクリードオンリーメモリ)、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。
【0281】
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(Cathode-Ray Tube,陰極線管)又はLCD(Liquid Crystal Display,液晶ディスプレイ)モニタ)、及びキーボードとポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
【0282】
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、LAN(Local Area Network,ローカルエリアネットワーク)、WAN(Wide Area Network、広域ネットワーク)、インターネット、ブロックチェーンネットワークを含む。
【0283】
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であって、従来の物理ホストとVPSサービス(Virtual Private Server,仮想専用サーバ)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
【0284】
なお、人工知能はコンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術ともある。人工知能ハードウェア技術は一般にセンサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
【0285】
本開示の実施例の技術案によれば、測定対象であるタンパク質のアミノ酸配列に対して特徴抽出を行って、第1の符号化配列を得て、第1の符号化配列にアミノ酸配列における複数のアミノ酸の符号化ベクトルが含まれ、第1の符号化配列における任意の2つのアミノ酸の符号化ベクトルの融合ベクトルに基づいて、符号化行列を決定し、第1の符号化配列と符号化行列に基づいて、測定対象であるタンパク質における各アミノ酸における原子の予想座標を決定することにより、測定対象であるタンパク質のアミノ酸配列に基づいて、測定対象であるタンパク質の相同性配列を用いて測定対象であるタンパク質の構造を予想する必要がなく、測定対象であるタンパク質の構造を直接予想することを実現することができ(すなわち、測定対象であるタンパク質の各アミノ酸における原子の座標を予想する)、測定対象であるタンパク質の構造の予想効率を向上させることができる。
【0286】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよいが、本開示で提出されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
【0287】
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。