(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024161599
(43)【公開日】2024-11-19
(54)【発明の名称】タンパク質複合体の構造予測方法及びその装置
(51)【国際特許分類】
G16B 15/00 20190101AFI20241112BHJP
G16B 40/20 20190101ALI20241112BHJP
G16B 30/10 20190101ALI20241112BHJP
【FI】
G16B15/00
G16B40/20
G16B30/10
【審査請求】有
【請求項の数】25
【出願形態】OL
【公開請求】
(21)【出願番号】P 2024145815
(22)【出願日】2024-08-27
(31)【優先権主張番号】202311477801.2
(32)【優先日】2023-11-08
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】朱昆睿
(72)【発明者】
【氏名】▲劉▼▲リー▼行
(72)【発明者】
【氏名】方▲暁▼敏
(72)【発明者】
【氏名】▲張▼肖男
(72)【発明者】
【氏名】何径舟
(57)【要約】 (修正有)
【課題】予測タンパク質の構造を正確に予測し、タンパク質複合体の構造予測の効率を向上させるタンパク質複合体の構造予測方法及びその装置を提供する。
【解決手段】方法は、ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得するステップと、各アミノ酸残基の初期座標、各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、N段階の折り畳み反復ネットワーク層によって各アミノ酸残基のねじれ角、残基レベルの位置変換及び単量体鎖レベルの位置変換を予測して、各アミノ酸残基のターゲット座標を取得して、タンパク質複合体の予測構造を取得するステップと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
タンパク質複合体の構造予測方法であって、
ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、前記ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得するステップと、
各前記アミノ酸残基の初期座標、各前記タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、前記N段階の折り畳み反復ネットワーク層によって、各前記アミノ酸残基のねじれ角、残基レベルの位置変換および単量体鎖レベルの位置変換を予測して、各前記アミノ酸残基のターゲット座標を取得して、前記タンパク質複合体の予測構造を取得するステップと、を含み、
前記第1多重配列アラインメント特徴は、正則化された多重配列アラインメント特徴であり、前記第2多重配列アラインメント特徴は、マッピングされた多重配列アラインメント特徴であり、前記Nは1より大きい整数である、
タンパク質複合体の構造予測方法。
【請求項2】
前記初期座標、前記ターゲット残基ペア特徴及び前記第2多重配列アラインメント特徴を第1段階の折り畳み反復ネットワーク層に入力して、各前記アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、前記第1段階の折り畳み反復ネットワーク層のターゲット残基コード1と候補位置変換1とを取得するステップと、
第m段階の折り畳み反復ネットワーク層に対して、前記ターゲット残基ペア特徴、前記第m-1段階の折り畳み反復ネットワーク層のターゲット残基コードm-1及び候補位置変換m-1を前記第m段階の折り畳み反復ネットワーク層に入力し、各前記アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、前記第m段階の折り畳み反復ネットワーク層のターゲット残基コードm及び候補位置変換mを取得するステップであって、前記mの値が2~Nであるステップと、
前記第N段階の折り畳み反復ネットワーク層によって、前記第1多重配列アラインメント特徴と前記第N段階の折り畳み反復ネットワーク層のターゲット残基コードNとに対して側鎖及びねじれ角予測を行って、各前記アミノ酸残基の側鎖におけるねじれ角を取得し、各前記アミノ酸残基の側鎖におけるねじれ角と前記第N段階の折り畳み反復ネットワーク層の候補位置変換Nとに基づいて、各前記アミノ酸残基のターゲット座標を取得するステップと、をさらに含む、
請求項1に記載のタンパク質複合体の構造予測方法。
【請求項3】
前記初期座標、前記ターゲット残基ペア特徴及び前記第2多重配列アラインメント特徴を第1段階の折り畳み反復ネットワーク層に入力し、各前記アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、前記第1段階の折り畳み反復ネットワーク層のターゲット残基コード1と候補位置変換1とを取得するステップは、
前記第1段階の折り畳み反復ネットワーク層によって、前記初期座標、前記ターゲット残基ペア特徴及び前記第2多重配列アラインメント特徴に対して不変点注意メカニズム及びマッピング処理を行って、前記ターゲット残基コード1を取得するステップと、
前記ターゲット残基コード1に対して残基レベルの位置変換の予測を行って、各前記アミノ酸残基の第1位置変換1を取得し、前記ターゲット残基コード1に対して単量体鎖レベルの位置変換の予測を行って、各前記アミノ酸残基の第2位置変換1を取得するステップと、
前記第1位置変換1、前記第2位置変換1、及び前記初期座標に基づいて位置更新を行って、前記第1段階の折り畳みネットワーク層の候補位置変換1を取得するステップと、を含む、
請求項2に記載のタンパク質複合体の構造予測方法。
【請求項4】
前記ターゲット残基ペア特徴、前記第m-1段階の折り畳み反復ネットワーク層のターゲット残基コードm-1および候補位置変換m-1を前記第m段階の折り畳み反復ネットワーク層に入力し、各前記アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、前記第m段階の折り畳み反復ネットワーク層のターゲット残基コードmと候補位置変換mとを取得するステップは、
前記第m段階の折り畳みネットワーク層に入力された第m-1段階の折り畳み反復ネットワーク層の候補位置変換m-1と前記ターゲット残基ペア特徴とに対して不変点注意メカニズム及びマッピング処理を行って、前記ターゲット残基コードmを取得するステップと、
前記ターゲット残基コードmに対して残基レベルの位置変換の予測を行って、各前記アミノ酸残基の第1位置変換mを取得し、前記ターゲット残基コードmに対して単量体鎖レベルの位置変換の予測を行って、各前記アミノ酸残基の第2位置変換mを取得するステップと、
前記第1位置変換mと前記第2位置変換mとに基づいて、前記第m段階の折り畳みネットワーク層の候補位置変換mを取得するステップと、を含む、
請求項2に記載のタンパク質複合体の構造予測方法。
【請求項5】
各前記アミノ酸残基のターゲット残基コードに対して残基レベルの位置変換の予測を行って、各前記アミノ酸残基の第1位置変換を取得するプロセスは、
バックボーン更新アルゴリズムに基づいて各前記アミノ酸残基のターゲット残基コードをマッピングして、各前記アミノ酸残基の前記第1位置変換を取得するステップを含む、
請求項3に記載のタンパク質複合体の構造予測方法。
【請求項6】
各前記アミノ酸残基のターゲット残基コードに対して単量体鎖レベルの位置変換の予測を行って、各前記アミノ酸残基の第2位置変換を取得するプロセスは、
各前記アミノ酸残基に対して、前記アミノ酸残基の前記ターゲット残基コードに基づいて、隣接する2つ又は複数の前記アミノ酸残基を異なる単量体鎖に分割するステップと、
いずれか1つの単量体鎖におけるターゲットアミノ酸残基に対して、前記ターゲットアミノ酸残基の前記ターゲット残基コードに対して平均値の計算を行って、鎖レベルの候補残基コードを取得し、多層ニューラルネットワーク構造に基づいて前記候補残基コードをマッピングして、該単量体鎖における各前記アミノ酸残基の前記第2位置変換を取得するステップと、を含む、
請求項3に記載のタンパク質複合体の構造予測方法。
【請求項7】
前記多層ニューラルネットワーク構造は3層線形ネットワークを含み、
前記多層ニューラルネットワーク構造に基づいて前記候補残基コードをマッピングして、該単量体鎖における各前記アミノ酸残基の前記第2位置変換を取得するステップは、
前記候補残基コードを第1線形ネットワークに入力してマッピングして、第1変換表現を取得するステップと、
前記第1変換表現を第2線形ネットワーク入力してマッピングして、第2変換表現を取得するステップと、
前記第1変換表現と前記第2変換表現とを第3線形ネットワークに入力してマッピングして、該単量体鎖における各前記アミノ酸残基の前記第2位置変換を取得するステップと、を含む、
請求項6に記載のタンパク質複合体の構造予測方法。
【請求項8】
前記ターゲットタンパク質複合体における各前記タンパク質単量体のターゲット残基ペア特徴を取得するステップは、
各前記タンパク質単量体のテンプレート特徴を取得し、各前記タンパク質単量体のアミノ酸配列のペア特徴を構築するステップと、
各前記タンパク質単量体のテンプレート特徴を線形ネットワークに入力してマッピングした後、各前記タンパク質単量体のペア特徴に加算して、候補残基ペア特徴を取得するステップと、
前記候補残基ペア特徴を予め設定されたエンコーダに入力して符号化して、各前記タンパク質単量体のターゲット残基ペア特徴を取得するステップと、を含む、
請求項1に記載のタンパク質複合体の構造予測方法。
【請求項9】
各前記タンパク質単量体のテンプレート特徴を取得することは、
各前記タンパク質単量体のターゲットアミノ酸配列をタンパク質構造データベースにおける複数の第1アミノ酸配列に対してマッチング照会して、類似度が予め設定された閾値より大きい第2アミノ酸配列を取得することと、
前記第2アミノ酸配列のアミノ酸残基の座標間の距離を抽出して、各前記タンパク質単量体のテンプレート特徴とすることと、を含む、
請求項8に記載のタンパク質複合体の構造予測方法。
【請求項10】
各前記タンパク質単量体のアミノ酸配列のペア特徴を構築することは、
各前記タンパク質単量体のアミノ酸配列を予め設定された2つの線形ネットワークに入力して、候補配列符号化特徴を取得することと、
前記候補配列符号化特徴の異なる方向にそれぞれ1つの空次元を追加して、第1配列符号化特徴と第2配列符号化特徴とを取得することと、
前記第1配列符号化特徴と前記第2配列符号化特徴とを加算して、各前記タンパク質単量体のペア特徴を取得することと、を含む、
請求項8に記載のタンパク質複合体の構造予測方法。
【請求項11】
前記ターゲットタンパク質複合体における各前記タンパク質単量体の第1多重配列アラインメント特徴と第2多重配列アラインメント特徴とを取得するステップは、
各前記タンパク質単量体のターゲットアミノ酸配列に基づいて、複数の遺伝子配列データベースから各前記タンパク質単量体の相同性配列を検索して取得するステップと、
各前記タンパク質単量体の相同性配列に対して多重配列アラインメントを行って、各前記タンパク質単量体の候補多重配列アラインメント特徴を取得するステップと、
前記各前記タンパク質単量体の候補多重配列アラインメント特徴を予め設定されたエンコーダに入力して符号化して、各前記タンパク質単量体のターゲット多重配列アラインメント特徴を取得するステップと、
各前記タンパク質単量体のターゲット多重配列アラインメント特徴を正則化して、各前記タンパク質単量体の第1多重配列アラインメント特徴を取得し、各前記タンパク質単量体のターゲット多重配列アラインメント特徴をマッピングして、各前記タンパク質単量体の第2多重配列アラインメント特徴を取得するステップと、を含む、
請求項1に記載のタンパク質複合体の構造予測方法。
【請求項12】
タンパク質複合体の構造予測装置であって、
ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、前記ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得するための取得モジュールと、
各前記アミノ酸残基の初期座標、各前記タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、前記N段階の折り畳み反復ネットワーク層によって、各前記アミノ酸残基のねじれ角、残基レベルの位置変換および単量体鎖レベルの位置変換を予測して、各前記アミノ酸残基のターゲット座標を取得して、前記タンパク質複合体の予測構造を取得する構造予測モジュールと、を含み、
前記第1多重配列アラインメント特徴は、正則化された多重配列アラインメント特徴であり、前記第2多重配列アラインメント特徴は、マッピングされた多重配列アラインメント特徴であり、前記Nは1より大きい整数である、
タンパク質複合体の構造予測装置。
【請求項13】
前記構造予測モジュールがさらに、
前記初期座標、前記ターゲット残基ペア特徴及び前記第2多重配列アラインメント特徴を第1段階の折り畳み反復ネットワーク層に入力し、各前記アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、前記第1段階の折り畳み反復ネットワーク層のターゲット残基コード1と候補位置変換1とを取得し、
第m段階の折り畳み反復ネットワーク層に対して、前記ターゲット残基ペア特徴、前記第m-1段階の折り畳み反復ネットワーク層のターゲット残基コードm-1及び候補位置変換m-1を前記第m段階の折り畳み反復ネットワーク層に入力し、各前記アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、前記第m段階の折り畳み反復ネットワーク層のターゲット残基コードm及び候補位置変換mを取得し、前記mの値は2~Nであり、
前記第N段階の折り畳み反復ネットワーク層によって、前記第1多重配列アラインメント特徴と前記第N段階の折り畳み反復ネットワーク層のターゲット残基コードNとに対して側鎖及びねじれ角予測を行って、各前記アミノ酸残基の側鎖におけるねじれ角を取得し、各前記アミノ酸残基の側鎖におけるねじれ角と前記第N段階の折り畳み反復ネットワーク層の候補位置変換Nとに基づいて、各前記アミノ酸残基のターゲット座標を取得する、
請求項12に記載のタンパク質複合体の構造予測装置。
【請求項14】
前記構造予測モジュールがさらに、
前記第1段階の折り畳み反復ネットワーク層によって、前記初期座標、前記ターゲット残基ペア特徴及び前記第2多重配列アラインメント特徴に対して不変点注意メカニズム及びマッピング処理を行って、前記ターゲット残基コード1を取得し、
前記ターゲット残基コード1に対して残基レベルの位置変換の予測を行って、各前記アミノ酸残基の第1位置変換1を取得し、前記ターゲット残基コード1に対して単量体鎖レベルの位置変換の予測を行って、各前記アミノ酸残基の第2位置変換1を取得し、
前記第1位置変換1、前記第2位置変換1、及び前記初期座標に基づいて位置更新を行って、前記第1段階の折り畳みネットワーク層の候補位置変換1を取得する、
請求項13に記載のタンパク質複合体の構造予測装置。
【請求項15】
前記構造予測モジュールが、
前記第m段階の折り畳みネットワーク層に入力された第m-1段階の折り畳み反復ネットワーク層の候補位置変換m-1と前記ターゲット残基ペア特徴に対して不変点注意メカニズム及びマッピング処理を行って、前記ターゲット残基コードmを取得し、
前記ターゲット残基コードmに対して残基レベルの位置変換の予測を行って、各前記アミノ酸残基の第1位置変換mを取得し、前記ターゲット残基コードmに対して単量体鎖レベルの位置変換の予測を行って、各前記アミノ酸残基の第2位置変換mを取得し、
前記第1位置変換mと前記第2位置変換mとに基づいて、前記第m段階の折り畳みネットワーク層の候補位置変換mを取得する、
請求項13に記載のタンパク質複合体の構造予測装置。
【請求項16】
前記構造予測モジュールがさらに、
バックボーン更新アルゴリズムに基づいて各前記アミノ酸残基のターゲット残基コードをマッピングして、各前記アミノ酸残基の前記第1位置変換を取得する、
請求項14に記載のタンパク質複合体の構造予測装置。
【請求項17】
前記構造予測モジュールがさらに、
各前記アミノ酸残基に対して、前記アミノ酸残基の前記ターゲット残基コードに基づいて、隣接する2つ又は複数の前記アミノ酸残基を異なる単量体鎖上に分割し、
いずれか1つの単量体鎖におけるターゲットアミノ酸残基に対して、前記ターゲットアミノ酸残基の前記ターゲット残基コードに対して平均値の計算を行って、鎖レベルの候補残基コードを取得し、多層ニューラルネットワーク構造に基づいて前記候補残基コードをマッピングして、該単量体鎖における各前記アミノ酸残基の前記第2位置変換を取得する、
請求項14に記載のタンパク質複合体の構造予測装置。
【請求項18】
前記多層ニューラルネットワーク構造は3層線形ネットワークを含み、
前記構造予測モジュールがさらに、
前記候補残基コードを第1線形ネットワークに入力してマッピングして、第1変換表現を取得し、
前記第1変換表現を第2線形ネットワーク入力してマッピングして、第2変換表現を取得し、
前記第1変換表現と前記第2変換表現とを第3線形ネットワークに入力してマッピングして、該単量体鎖における各前記アミノ酸残基の前記第2位置変換を取得する、
請求項17に記載のタンパク質複合体の構造予測装置。
【請求項19】
前記取得モジュールがさらに、
各前記タンパク質単量体のテンプレート特徴を取得し、各前記タンパク質単量体のアミノ酸配列のペア特徴を構築し、
各前記タンパク質単量体のテンプレート特徴を線形ネットワークに入力してマッピングした後、各前記タンパク質単量体のペア特徴に加算して、候補残基ペア特徴を取得し、
前記候補残基ペア特徴を予め設定されたエンコーダに入力して符号化して、各前記タンパク質単量体のターゲット残基ペア特徴を取得する、
請求項12に記載のタンパク質複合体の構造予測装置。
【請求項20】
前記取得モジュールが、
各前記タンパク質単量体のターゲットアミノ酸配列をタンパク質構造データベースにおける複数の第1アミノ酸配列に対してマッチング照会して、類似度が予め設定された閾値より大きい第2アミノ酸配列を取得し、
前記第2アミノ酸配列のアミノ酸残基の座標間の距離を抽出して、各前記タンパク質単量体のテンプレート特徴とする、
請求項19に記載のタンパク質複合体の構造予測装置。
【請求項21】
前記取得モジュールがさらに、
各前記タンパク質単量体のアミノ酸配列を予め設定された2つの線形ネットワークに入力して、候補配列符号化特徴を取得し、
前記候補配列符号化特徴の異なる方向にそれぞれ1つの空次元を追加して、第1配列符号化特徴と第2配列符号化特徴とを取得し、
前記第1配列符号化特徴と前記第2配列符号化特徴とを加算して、各前記タンパク質単量体のペア特徴を取得する、
請求項19に記載のタンパク質複合体の構造予測装置。
【請求項22】
前記取得モジュールがさらに、
各前記タンパク質単量体のターゲットアミノ酸配列に基づいて、複数の遺伝子配列データベースから各前記タンパク質単量体の相同性配列を検索して取得し、
各前記タンパク質単量体の相同性配列に対して多重配列アラインメントを行って、各前記タンパク質単量体の候補多重配列アラインメント特徴を取得し、
前記各前記タンパク質単量体の候補多重配列アラインメント特徴を予め設定されたエンコーダに入力して符号化して、各前記タンパク質単量体のターゲット多重配列アラインメント特徴を取得し、
各前記タンパク質単量体のターゲット多重配列アラインメント特徴を正則化して、各前記タンパク質単量体の第1多重配列アラインメント特徴を取得し、各前記タンパク質単量体のターゲット多重配列アラインメント特徴をマッピングして、各前記タンパク質単量体の第2多重配列アラインメント特徴を取得する、
請求項12に記載のタンパク質複合体の構造予測装置。
【請求項23】
電子デバイスであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~11のいずれかに記載の方法を実行させる、
電子デバイス。
【請求項24】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1~11のいずれかに記載の方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項25】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~11のいずれかに記載の方法のステップが実現される、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は人工知能技術の分野に関し、特に自然言語処理、バイオコンピューティングなどの技術分野に関する。
【背景技術】
【0002】
タンパク質複合体は、2つ又は複数のタンパク質分子の相互作用によって形成された安定的な高分子複合体であり、酵素反応、細胞シグナル伝達、代謝調節、遺伝子発現など、さまざまな生物学的機能において重要な役割を果たしている。ここで、タンパク質の機能は、タンパク質自体の空間構造によって大きく決まり、タンパク質鎖のアミノ酸カテゴリ(一次構造)に基づいて、空間におけるタンパク質の三次元構造(三次構造)を予測する技術は、ライフサイエンス分野において極めて高い研究価値を持っている。
【0003】
したがって、どのようにしてタンパク質の構造を正確に予測し、タンパク質複合体の構造予測の効率を向上させ、さまざまな生物学的応用に対応するかは、重要な研究方向の1つとなっている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示はタンパク質複合体の構造予測方法及びその装置を提供している。
【課題を解決するための手段】
【0005】
本開示の一態様によると、タンパク質複合体の構造予測方法を提供し、該方法は、
ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得するステップと、
各アミノ酸残基の初期座標、各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、N段階の折り畳み反復ネットワーク層によって、各アミノ酸残基のねじれ角、残基レベルの位置変換及び単量体鎖レベルの位置変換を予測して、各アミノ酸残基のターゲット座標を取得して、タンパク質複合体の予測構造を取得するステップと、を含み、
ここで、第1多重配列アラインメント特徴は、正則化された多重配列アラインメント特徴であり、第2多重配列アラインメント特徴は、マッピングされた多重配列アラインメント特徴であり、Nは1より大きい整数である。
【0006】
本開示は、タンパク質複合体における各単量体鎖の相対的な独立性を考慮し、残基レベルの位置変換の基に、単量体鎖レベルの位置変換を追加することで、各アミノ酸残基の座標を更新し、予測タンパク質の構造を正確に予測し、タンパク質複合体の構造予測の効率を向上させ、タンパク質複合体に複数の鎖が含まれる適用シーンによりよく適用することができる。
【0007】
本開示のもう1つの態様によると、タンパク質複合体の構造予測装置を提供し、該装置は、
ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得するための取得モジュールと、
各アミノ酸残基の初期座標、各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、N段階の折り畳み反復ネットワーク層によって、各アミノ酸残基のねじれ角、残基レベルの位置変換及び単量体鎖レベルの位置変換を予測して、各アミノ酸残基のターゲット座標を取得して、タンパク質複合体の予測構造を取得するための構造予測モジュールと、を含み、
ここで、第1多重配列アラインメント特徴は、正則化された多重配列アラインメント特徴であり、第2多重配列アラインメント特徴は、マッピングされた多重配列アラインメント特徴であり、Nは1より大きい整数である。
【0008】
本開示のもう1つの態様によると、電子デバイスを提供し、少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、ここで、
メモリには、少なくとも1つのプロセッサによって実行される命令が記憶され、命令が少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサに本開示の第1態様の実施例のタンパク質複合体の構造予測方法を実行させる。
【0009】
本開示のもう1つの態様によると、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、ここで、コンピュータ命令は、コンピュータに本開示の第1態様の実施例のタンパク質複合体の構造予測方法を実行させる。
【0010】
本開示のもう1つの態様によると、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示の第1態様の実施例のタンパク質複合体の構造予測方法のステップが実現される。
【0011】
なお、この部分で説明される内容は、本開示の実施例の肝心又は重要な特徴を特定するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の明細書により理解しやすくなる。
【図面の簡単な説明】
【0012】
図面は本解決案をよりよく理解するためのものであり、本開示を限定するものではない。
【
図1】本開示の一実施例に係るタンパク質複合体の構造予測方法のフローチャートである。
【
図2】本開示の一実施例に係るタンパク質複合体の構造予測方法のフローチャートである。
【
図3】本開示の一実施例に係るタンパク質複合体の構造予測方法の構造図である。
【
図4】本開示の一実施例に係るタンパク質複合体の構造予測方法のフローチャートである。
【
図5】本開示の一実施例に係るタンパク質複合体の構造予測方法の構造図である。
【
図6】本開示の一実施例に係るタンパク質複合体の構造予測装置の構造図である。
【
図7】本開示の実施例の方法を実現する電子デバイスのブロック図である。
【発明を実施するための形態】
【0013】
以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするために本開示の実施例の様々な詳細が含まれており、それらを例示的なものとして見なすべきである。したがって、当業者であれば分かるように、本開示の範囲と精神から逸脱しない限り、実施例に対して様々な変更と修正を行うことができる。同様に、明確かつ簡潔にするために、以下の説明では、周知の機能や構造に対する説明が省略されている。
【0014】
本開示の実施例は、コンピュータビジョン、深層学習などの人工知能技術の分野に関する。
【0015】
人工知能(Artificial Intelligence)は、英語の略称がAIである。それは、人間の知能をシミュレートし且つ拡張する理論、方法、技術及び応用システムを研究開発する技術科学である。
【0016】
自然言語処理(Natural Language Processing,NLP)は、コンピュータ科学分野と人工知能分野における1つの重要な方向である。それは、人間とコンピュータとの間で自然言語で有効な通信を行うことを実現する様々な論理と方法を研究する。自然言語処理は、言語学、コンピュータ科学、数学を一体として統合した科学である。したがって、この分野の研究は、自然言語に関し、即ち人々が日常で使われる言語に関し、そのため、言語学の研究と密接に関連しているが、重要な違いがある。自然言語処理は、自然言語を一般に研究するものではなく、自然言語通信を効果的に実現可能なコンピュータシステムの研究、特にソフトウェアシステムの研究をするものである。それは、コンピュータ科学の一部である。
【0017】
バイオコンピューティングとは、生物システムの固有の情報処理メカニズムを利用して研究開発された新しいコンピューティングモードを指す。バイオコンピューティング研究は、デバイスとシステムという2つの方面を含む。有機(又は生物)材料が分子スケール内で構成した秩序化システムを用いて、分子レベルでの物理的および化学的プロセスを介した情報の検出、処理、送信、および保存を行う基本ユニットを提供する。
【0018】
以下、図面と組み合わせて本開示のタンパク質複合体の構造予測方法及びその装置を説明する。
【0019】
図1は本開示の一実施例に係るタンパク質複合体の構造予測方法のフローチャートであり、
図1に示すように、該方法は以下のステップS101~S102を含む。
【0020】
S101において、ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得する。
【0021】
タンパク質複合体は複数のタンパク質単量体を有し、各タンパク質単量体は1つのアミノ酸配列を有し、アミノ酸は、互いに結合してペプチド結合を形成する際に1つの分子水を失い、そのため、ポリペプチド/タンパク質におけるアミノ酸単位をアミノ酸残基とする。本開示の実施例では、タンパク質構造の回転不変性に適応するために、相対的な位置変換を用いて各残基の座標を表し、且つ座標の原点でタンパク質複合体の空間構造を初期化し、つまり、ターゲットタンパク質複合体における各アミノ酸残基の座標を初期化し、初期座標であるTi=(I,0(→))を取得し、ここで、Ti=(I,0(→))は、回転/平行移動で表される遠点座標を表し、Iは、回転がないことを示す単位行列であり、0(→)ベクトルは、平行移動がないことを表し、iは第i個のアミノ酸残基を表す。
【0022】
本開示の実施例では、各前記タンパク質単量体のテンプレート特徴を取得し、各前記タンパク質単量体のアミノ酸配列のペア特徴を構築し、各タンパク質単量体に対して、該タンパク質単量体のテンプレート特徴とペア特徴とに基づいて、該タンパク質単量体のターゲット残基ペア特徴を取得する。
【0023】
幾つかの実施形態では、各タンパク質単量体に対して、タンパク質単量体のターゲットアミノ酸配列に基づいて、複数の遺伝子配列データベースから該タンパク質単量体の相同性配列を検索して取得し、該タンパク質単量体の相同性配列に対して多重配列アラインメントを行って、タンパク質単量体の多重配列アラインメント特徴を取得し、さらに、多重配列アラインメント特徴に基づいて、異なる処理を行って、第1多重配列アラインメント特徴と第2多重配列アラインメント特徴とを取得し、選択可能に、第1多重配列アラインメント特徴は、正則化された多重配列アラインメント特徴であり、第2多重配列アラインメント特徴は、マッピングされた多重配列アラインメント特徴である。
【0024】
S102において、各アミノ酸残基の初期座標、各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、N段階の折り畳み反復ネットワーク層によって、各アミノ酸残基のねじれ角、残基レベルの位置変換及び単量体鎖レベルの位置変換を予測して、各アミノ酸残基のターゲット座標を取得して、タンパク質複合体の予測構造を取得する。ここで、Nは1より大きい整数である。
【0025】
選択可能に、N段階の折り畳み反復ネットワーク層における側鎖及びねじれ角予測器(Side Chain and torsion angle predictor)に基づいて、残基側鎖におけるねじれ角を予測することができる。
【0026】
幾つかの実施形態では、タンパク質複合体は構造予測をする際に、複合体における複数の鎖の残基コードを座標変換に直接マッピングし、これらの変換は、残基のみに作用し、本開示はこのような変換を残基レベルの位置変換と呼ぶ。
【0027】
本開示の実施例では、タンパク質複合体における各単量体鎖の相対的な独立性を考慮しており、残基レベルの位置変換の基に単量体鎖レベルの位置変換を追加することで、各アミノ酸残基の座標を更新し、これにより、鎖内残基位置予測と娘鎖全体位置予測との分離を実現し、タンパク質構造予測モデルの全体的な効果を向上させることができる。
【0028】
本開示の実施例では、各アミノ酸残基の初期座標、各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、N段階の折り畳み反復ネットワーク層によって各アミノ酸残基のねじれ角、残基レベルの位置変換および単量体鎖レベルの位置変換を予測して、各アミノ酸残基のターゲット座標を取得することにより、タンパク質複合体における各単量体鎖の相対的な独立性を考慮し、残基レベルの位置変換の基に単量体鎖レベルの位置変換を追加することで、各アミノ酸残基の座標を更新し、予測タンパク質の構造を正確に予測し、タンパク質複合体の構造予測の効率を向上させ、タンパク質複合体に複数の鎖が含まれる適用シーンによりよく適用することができる。
【0029】
図2は本開示の一実施例に係るタンパク質複合体の構造予測方法のフローチャートであり、
図2に示すように、該方法は以下のステップS201~S204を含む。
【0030】
S201において、ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得する。
【0031】
ステップS201の紹介について上記実施例における関連説明を参照されたく、ここで詳しい説明を省略する。
【0032】
S202において、初期座標、ターゲット残基ペア特徴及び第2多重配列アラインメント特徴を第1段階の折り畳み反復ネットワーク層に入力して、各アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、第1段階の折り畳み反復ネットワーク層のターゲット残基コード1と候補位置変換1とを取得する。
【0033】
第1段階の折り畳み反復ネットワーク層によって、初期座標、ターゲット残基ペア特徴及び第2多重配列アラインメント特徴に対して不変点注意力(Invariant Point Attention)メカニズムを行って、回転不変性を有する残基コードを取得し、さらに、線形ネットワークによってマッピング処理を行って、ターゲット残基コード1を取得する。
【0034】
バックボーン更新アルゴリズムに基づいて、各アミノ酸残基のターゲット残基コードをマッピングし、ターゲット残基コード1に対して残基レベルの位置変換の予測を行って、各アミノ酸残基の第1位置変換1を取得し、ターゲット残基コード1に対して単量体鎖レベルの位置変換の予測を行って、各アミノ酸残基の第2位置変換1を取得する。
【0035】
図3に示すように、幾つかの実施形態では、単量体鎖レベルの位置変換更新(Chain Affine Update)プロセスは、各アミノ酸残基に対して、アミノ酸残基のターゲット残基コードに基づいて、隣接する2つ又は複数のアミノ酸残基を異なる単量体鎖に分割することを含み、例えば、隣接する3つのアミノ酸残基を同一の単量体鎖に分割してもよく、つまり、残基コード[s
1,s
2,s
3,….,s
i,….,s
r]を指定し、下表の[1,2,3,…,i,…,r]により、スプライシング前の単量体鎖(例えばs
1~s
3が単量体鎖1に属し、s
r-2~s
rが単量体鎖nに属する)に局在させ、各単量体鎖のターゲット残基コードを平均計算して、候補残基コードである鎖レベルの表現を取得する。
【0036】
本開示の実施例では、いずれか1つの単量体鎖におけるターゲットアミノ酸残基に対して、ターゲットアミノ酸残基のターゲット残基コードの平均値meanを計算して、鎖レベルの候補残基コードを取得し、多層ニューラルネットワーク構造(
図3に示す多層線形ネットワークLinear)に基づいて候補残基コードをマッピングし、該単量体鎖における各アミノ酸残基の第2位置変換を取得する。
【0037】
図3に示すように、幾つかの実施形態では、多層ニューラルネットワーク構造は3層線形ネットワーク構造を含み、候補残基コードを第1線形ネットワークに入力してマッピングし、第1変換表現を取得する。第1変換表現を第2線形ネットワーク入力してマッピングし、第2変換表現を取得する。第1変換表現と第2変換表現とを第3線形ネットワークに入力してマッピングして、該単量体鎖における各アミノ酸残基の第2位置変換を取得する。3層線形ネットワークの構造は同じであってもよく、異なってもよく、本願の実施例はこれについて限定しない。
【0038】
第1位置変換1、第2位置変換1、及び初期座標に基づいて位置更新を行って、第1段階の折り畳みネットワーク層の候補位置変換1を取得する。
【0039】
S203において、第m段階の折り畳み反復ネットワーク層に対して、ターゲット残基ペア特徴、第m-1段階の折り畳み反復ネットワーク層のターゲット残基コードm-1及び候補位置変換m-1を第m段階の折り畳み反復ネットワーク層に入力して、各アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、第m段階の折り畳み反復ネットワーク層のターゲット残基コードmと候補位置変換mとを取得し、mの値は2~Nである。
【0040】
第m段階の折り畳みネットワーク層に入力された第m-1段階の折り畳み反復ネットワーク層の候補位置変換m-1及びターゲット残基ペア特徴に対して不変点注意メカニズムを行って、回転不変性を有する残基コードを取得し、線形ネットワークによってマッピング処理を行って、ターゲット残基コードmを取得する。
【0041】
同様に、ステップS202における方法を用いて、第N段階の折り畳みネットワーク層の候補位置変換Nとターゲット残基コードNとを取得するまで、引き続きターゲット残基コードmに対して残基レベルの位置変換の予測を行って、各アミノ酸残基の第1位置変換mを取得し、ターゲット残基コードmに対して単量体鎖レベルの位置変換の予測を行って、各アミノ酸残基の第2位置変換mを取得し、第1位置変換mと第2位置変換mとに基づいて、第m段階の折り畳みネットワーク層の候補位置変換mを取得する。
【0042】
S204において、第N段階の折り畳み反復ネットワーク層によって、第1多重配列アラインメント特徴と第N段階の折り畳み反復ネットワーク層のターゲット残基コードNとに対して側鎖及びねじれ角予測を行って、各アミノ酸残基の側鎖におけるねじれ角を取得し、各アミノ酸残基の側鎖におけるねじれ角と第N段階の折り畳み反復ネットワーク層の候補位置変換Nとに基づいて、各アミノ酸残基のターゲット座標を取得する。
【0043】
第1多重配列アラインメント特徴と第N段階の折り畳み反復ネットワーク層のターゲット残基コードNとを第N段階の折り畳み反復ネットワーク層の側鎖及びねじれ角予測器に入力して、アミノ酸残基の側鎖におけるねじれ角を取得し、各アミノ酸残基の側鎖におけるねじれ角、第N段階の折り畳み反復ネットワーク層の候補位置変換N及び逆行位置更新に基づいて、アミノ酸残基のターゲット座標を取得する。
【0044】
本願の実施例では、タンパク質複合体における各単量体鎖の相対的な独立性を考慮しており、残基レベルの位置変換の基に単量体鎖レベルの位置変換を追加することで、各アミノ酸残基の座標を更新し、鎖内残基位置予測と娘鎖全体位置予測との分離を実現することができ、タンパク質構造予測モデルの全体的な効果を向上させ、単鎖内の残基の相対位置を保持しながら、鎖間のドッキング関係をより適切に全体的に調整でき、タンパク質複合体構造予測によりよく適合することができる。
【0045】
図4は本開示の一実施例に係るタンパク質複合体の構造予測方法のフローチャートであり、
図4に示すように、該方法は以下のステップS401~S408を含む。
【0046】
S401において、各タンパク質単量体のテンプレート特徴を取得し、各タンパク質単量体のアミノ酸配列のペア特徴を構築する。
【0047】
幾つかの実施形態では、各タンパク質単量体のターゲットアミノ酸配列をタンパク質構造データベースにおける複数の第1アミノ酸配列に対してマッチング照会して、類似度が予め設定された閾値より大きい第2アミノ酸配列を取得し、第2アミノ酸配列のアミノ酸残基の座標間の距離を抽出して、各タンパク質単量体のテンプレート特徴とする。つまり、タンパク質単量体のアミノ酸配列に対して、類似した配列を持つタンパク質構造を解析済みのタンパク質構造データベースから検索し、タンパク質配列分析用のツール、例えば隠れマルコフモデル(HMM)の検索方法(HHSearch)に基づいて、残基間の距離を抽出して、テンプレート(Template)特徴とする。
【0048】
幾つかの実施形態では、各タンパク質単量体のアミノ酸配列を予め設定された2つの線形ネットワークに入力して、候補配列符号化特徴を取得する。候補配列符号化特徴の異なる方向にそれぞれ1つの空次元を追加して、第1配列符号化特徴と第2配列符号化特徴とを取得し、第1配列符号化特徴と第2配列符号化特徴とを加算して、各タンパク質単量体のペア特徴を取得する。複数の配列、スプライシング後の長さがrである複合体配列を、2つの線形ネットワークLinear層で符号化して、形状が[r,c]である配列符号化特徴を得て、即ち第1配列符号化特徴z1と第2配列符号化特徴z2を得て、ここで、cはLinearネットワーク隠れ層深さ(ハイパーパラメータ)であり、この後、z1とz2に1つの空次元(z1の形状を[r,1,c]に変換し、z2の形状を[1,r,c]に変換する)を追加し、加算してペアpair特徴zpairを取得し、ここで、zpairの形状は[r,r,c]であり、zpair=z1+z2である。
【0049】
S402において、各タンパク質単量体のテンプレート特徴を線形ネットワークに入力してマッピングした後、各タンパク質単量体のペア特徴に加算して候補残基ペア特徴を取得する。
【0050】
本開示の実施例では、Template特徴のスプライシング後の形状は[r,r]であり、Linear層によって符号化された後に、Piar特徴の形状と一致する特徴ztempを得て、特徴ztempとペア特徴とを加算して候補残基ペア特徴を取得する。
【0051】
S403において、前記候補残基ペア特徴を予め設定されたエンコーダに入力して符号化し、各タンパク質単量体のターゲット残基ペア特徴を取得する。
【0052】
本開示の実施例では、候補残基ペア特徴をエンコーダ(Evofomer Encoder)に入力して符号化し、各タンパク質単量体のターゲット残基ペア特徴を取得する。
【0053】
S404において、各タンパク質単量体のターゲットアミノ酸配列に基づいて、複数の遺伝子配列データベースから各タンパク質単量体の相同性配列を検索して取得する。
【0054】
本発明は、まず、複合体における各タンパク質単量体のアミノ酸配列をクエリquery要求とし、複数の遺伝子配列データベースから相同性配列を検索する。既存のツールJackHMMERとHHblitsを用いることで、タンパク質配列に対するより深い分析と注釈を実現することができる。JackHMMERを用いることで、隠れマルコフモデル(HMM)の快速ヒューリスティック検索を行うことができ、HHblitsを利用して、発見されたタンパク質配列に対してより詳細な注釈を行うことができ、これによって各タンパク質単量体の相同性配列を取得する。
【0055】
S405において、各タンパク質単量体の相同性配列に対して多重配列アラインメントを行って、各タンパク質単量体の候補多重配列アラインメント特徴を取得する。
【0056】
得られた相同性配列において、多重配列アラインメントを利用して、各単量体の多重配列アラインメント特徴(MSA)を取得する。
【0057】
S406において、各タンパク質単量体の候補多重配列アラインメント特徴を予め設定されたエンコーダに入力して符号化し、各タンパク質単量体のターゲット多重配列アラインメント特徴を取得する。
【0058】
各タンパク質単量体の候補多重配列アラインメント特徴をエンコーダ(Evofomer Encoder)に入力して符号化し、各タンパク質単量体のターゲット多重配列アラインメント特徴を取得する。
【0059】
S407、各タンパク質単量体のターゲット多重配列アラインメント特徴を正則化して、各タンパク質単量体の第1多重配列アラインメント特徴を取得し、各タンパク質単量体のターゲット多重配列アラインメント特徴をマッピングして、各タンパク質単量体の第2多重配列アラインメント特徴を取得する。
【0060】
各タンパク質単量体のターゲット多重配列アラインメント特徴に対して正則化Norm処理を行って、各タンパク質単量体の第1多重配列アラインメント特徴を取得し、線形ネットワークに基づいて、各タンパク質単量体のターゲット多重配列アラインメント特徴をマッピングして、各タンパク質単量体の第2多重配列アラインメント特徴を取得する。
【0061】
S408において、各アミノ酸残基の初期座標、各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、N段階の折り畳み反復ネットワーク層によって各アミノ酸残基のねじれ角、残基レベルの位置変換及び単量体鎖レベルの位置変換を予測して、各アミノ酸残基のターゲット座標を取得して、タンパク質複合体の予測構造を取得する。
【0062】
ステップS408についての説明は、上記実施例における関連内容を参照されたく、ここで詳しい説明を省略する。
【0063】
本願の実施例では、ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、前記ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得し、タンパク質単量体構造予測タスクの発展を効果的に促進し、タンパク質構造予測の全体的な効果を高めることができる。
【0064】
図5は、本開示の一実施例に係るタンパク質複合体の構造予測方法の構造図であり、
図5に示すように、本開示の実施例では、ターゲットタンパク質複合体における各前記タンパク質単量体のアミノ酸配列[Sequence 1、......、Sequence N]に基づいて、複数の遺伝子配列データベース(Sequence Data Base)から相同性配列を検索して、多重配列アラインメントを行って各タンパク質単量体の多重配列アラインメント特徴[MSA 1、......、MSA N]を得て、多重配列アラインメント特徴[MSA 1、......、MSA N]をEvofomer Encoderに入力して符号化して、ターゲット多重配列アラインメント特徴を得て、各前記タンパク質単量体のアミノ酸配列を予め設定された2つの線形ネットワークLinearに入力して、ペアPair特徴を生成し、各前記タンパク質単量体のターゲットアミノ酸配列に対して、類似した配列を持つタンパク質構造をタンパク質構造データベース(Structure Data Base)から検索し、残基間の距離を抽出してテンプレート(Template)特徴とし、選択可能に、Pair and Mergeはマージを示し、つまり、MSA representation特徴、pair representation特徴に対してマージ処理を行うことを示し、各前記タンパク質単量体のテンプレート特徴を線形ネットワークに入力してマッピングした後、各前記タンパク質単量体のペア特徴に加算して、Evofomerエンコーダを入力して符号化し、各前記タンパク質単量体のターゲット残基ペア特徴を取得する。Evofomerエンコーダは、MSA、Pair及びTemplateデータから各残基の隠れ層コードを抽出することができ、復号化段階では、本開示はタンパク質複合体構造予測AF2Multimerモデルにおける構造予測モジュール(Structure Module)に基づいて、MSA遮蔽予測(Mask MSA)、LDDT予測(LDDTは、予め存在していて、タンパク質構造予測分野に用いられる測定方法である)、残基距離予測などによりトレーニングタスクを支援することができる。ここで、initial frameは初期座標を表す。
【0065】
図5に示すように、r個の残基を含む1つのタンパク質複合体を入力し、Evofomer Encoderにより処理された後、モデルはターゲットタンパク質複合体の各残基iのMSA特徴コードを得て、すなわちターゲット多重配列アラインメント特徴
【0066】
【数1】
(c
sはハイパーパラメータ隠れ層のサイズ)、及びPair特徴とTemplate特徴とを含む残基ペア符号化、すなわちZ
i,j∈R
1×c,i,j∈[0,1,...,r]を得る。各前記タンパク質単量体のターゲット多重配列アラインメント特徴を正則化Norm層ネットワークに入力して、各前記タンパク質単量体の第1多重配列アラインメント特徴を取得し、各前記タンパク質単量体のターゲット多重配列アラインメント特徴を線形ネットワークLinearに入力して、各前記タンパク質単量体の第2多重配列アラインメント特徴を取得する。ここで、Rは形状を示し、ここで示されているのは、
【0067】
【数2】
の形状が[1,c]であり、cがモデルの隠れ層深さであるということである。
【0068】
本開示の実施例では、N段階の折り畳み反復ネットワーク層(Fold Iterationモジュール)を用いてターゲットタンパク質複合体の構造を予測し、選択可能に、Nの値は8であってもよく、他の実現では、Nは他の値であってもよく、本願の実施例では限定されない。
【0069】
タンパク質構造の回転不変性に適応するために、本発明は、相対的な位置変換Ti=(Ri,t(→)i)を用いて各残基の座標を表し、且つ座標原点Ti=(I,0(→))でタンパク質複合体の空間構造を初期化する。本発明は、まず2つの正則化Norm層ネットワークを用いて
【0070】
【数3】
とZ
i,jコードを更新し、線形Linear層を用いて
【0071】
【数4】
を隠れ層表現s
iにマッピングし、ここで、s
iは、第i個の残基のコードを示し、Z
i,jは残基i~残基jのpairコードを表し、T
iは、残基iの回転と平行移動を表す。R
iは残基iの回転変換であり、t
iは残基iの移動変換であり、アルファフォールドAlphafoldモデルに基づいて、絶対座標を相対的な回転及び平行移動表現残基座標に変換して回転不変性を実現する。
【0072】
ここで、各層Fold Iterationはs
i、Z
i,j、T
iにアクセスした後、まず、不変点注意力モジュール(Invariant Point Attention)によって、回転不変性を有する残基コードs
iを取得する。Linear層、Norm層及びDropout層などのネットワーク層を経た後、本開示は、得られたコードを用いて、各残基の側鎖のねじれ角af i∈R
2及び各残基座標TC k=(RC k,tC k)を予測し、ここで、Dropout層は、ネットワークパラメータをランダムに破棄するために使用され、小さな役割を果たしており、
図5に示しておらず、この層を省略したり削除したりしてもよい。
【0073】
図5に示すように、本開示の実施例では、各層Fold Iterationにおいて、側鎖及びねじれ角予測器(Side Chain and torsion angle predictor)を用いて残基i側鎖におけるねじれ角af i∈R
2を予測し、ここで
【0074】
【数5】
は、各残基でねじれ可能な7つのコンポーネントを表す。
【0075】
タンパク質複合体バックボーンネットワーク構造の予測では、本開示はまず、浅層ニューラルネットワーク(Linear and Norm)構造を用いて残基特徴を符号化し、そしてBackboneUpdateアルゴリズムを用いて各残基iのユークリッド変換Ti、即ち第1位置変換を予測する。BackboneUpdateでは、隠れ層特徴を1つの6次元の表現にマッピングし、ここで、最初の3つの次元bi、ci、diは等式を通じて残基iの回転行列Riとして使用され、最後の3つの次元t(→)iは残基の移動変換を直接表す。ここで、Fold Iterationdの入力は、前のステップで予測された側鎖及びねじれ角を考慮せず、主鎖の位置変換affineと残基コードのみを考慮する。
【0076】
残基iの空間位置変換の予測TR i=(Ri,t(→)i)を得た後、モデルはTi=Ti
OにTR iに基づいて、残基の相対的な位置を更新して、残基レベルの位置変換を完成させ、等式では、最初のTiは、更新後のTiを示し、2番目のTiは更新前のTiを示す。
【0077】
上記変換の基に、本開示は、単量体鎖レベルの位置変換Chainaffineモジュールを導入して鎖レベルの残基変換を予測し、Chainaffineモジュールは、タンパク質複合体鎖kの全体的な変換TC kを予測することを目的としており、モジュール構造は様々な形式により実現可能であり、例えば
図3に示すように、1つのChainaffineモジュールの実現方法である。s
iを入力として、Chainaffineモジュールは、まず、残基位置コードに基づいて、s
iを異なる単量体鎖に分割し、同一単量体のすべての残基表現の平均値を計算した後に鎖レベルの隠れ層表現
【0078】
【数6】
を取得する(nはタンパク質複合体の娘鎖の数であり、dはChainaffineネットワークの隠れ層のサイズである)。
【0079】
この後、Chainaffineモジュールは、多層ニューラルネットワーク構造を用いて
【0080】
【数7】
を、6次元を含む変換表現にマッピングし、BackboneUpdateと同じ方法により、各鎖の空間位置変換、即ち第2位置変換を取得する。
【0081】
図5に示すように、鎖内残基位置を更新する際に、鎖kにおけるすべての残基iは変換TC kを共有し、各残基の鎖レベルの第2位置変換TC iを取得する。最終的に、モデルはT
i=T
i
OTC iに基づいて、複合体における各残基の位置を更新する。式中では、最初のT
iは更新後のT
iを表し、2番目のT
iは更新前のT
iを表す。ここで、TC iはT
iの前側に作用し、鎖内の残基を原点回りに変換させる。
【0082】
バックボーンネットワークのユークリッド変換と側鎖のねじれ角度を得た後、本願の実施例では、残基更新モジュールresidue update、フレーム更新Update frameモジュールに基づいて、Tiとaf iを各残基の3次元座標に変換して、タンパク質の三次構造予測を完成させる。ここで、角度Anglesモジュールは側鎖ねじれ角を予測し、座標変換Coordinates convertモジュールは、主鎖変換と側鎖ねじれ角を受信した後、変換後の空間座標を出力する。
【0083】
図6は本開示の一実施例に係るタンパク質複合体の構造予測装置の構造図であり、
図6に示すように、タンパク質複合体の構造予測装置600は、
ターゲットタンパク質複合体における各アミノ酸残基の初期座標を取得し、ターゲットタンパク質複合体における各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴を取得するための取得モジュール610と、
各アミノ酸残基の初期座標、各タンパク質単量体のターゲット残基ペア特徴、第1多重配列アラインメント特徴及び第2多重配列アラインメント特徴をN段階の折り畳み反復ネットワーク層に入力し、N段階の折り畳み反復ネットワーク層によって各アミノ酸残基のねじれ角、残基レベルの位置変換及び単量体鎖レベルの位置変換を予測して、各アミノ酸残基のターゲット座標を取得して、タンパク質複合体の予測構造を取得するための構造予測モジュール620と、を含み、
ここで、第1多重配列アラインメント特徴は、正則化された多重配列アラインメント特徴であり、第2多重配列アラインメント特徴は、マッピングされた多重配列アラインメント特徴であり、Nは1より大きい整数である。
【0084】
幾つかの実施形態では、構造予測モジュール620はさらに、
初期座標、ターゲット残基ペア特徴及び第2多重配列アラインメント特徴を第1段階の折り畳み反復ネットワーク層に入力して、各アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、第1段階の折り畳み反復ネットワーク層のターゲット残基コード1と候補位置変換1とを取得し、
第m段階の折り畳み反復ネットワーク層に対して、ターゲット残基ペア特徴、第m-1段階の折り畳み反復ネットワーク層のターゲット残基コードm-1及び候補位置変換m-1を第m段階の折り畳み反復ネットワーク層に入力して、各アミノ酸残基に対して残基レベルの位置変換の予測及び単量体鎖レベルの位置変換の予測を行って、第m段階の折り畳み反復ネットワーク層のターゲット残基コードm及び候補位置変換mを取得し、mの値が2~Nであり、
第N段階の折り畳み反復ネットワーク層によって、第1多重配列アラインメント特徴と第N段階の折り畳み反復ネットワーク層のターゲット残基コードNとに対して側鎖及びねじれ角予測を行って、各アミノ酸残基の側鎖におけるねじれ角を取得し、各アミノ酸残基の側鎖におけるねじれ角と第N段階の折り畳み反復ネットワーク層の候補位置変換Nとに基づいて、各アミノ酸残基のターゲット座標を取得する。
【0085】
幾つかの実施形態では、構造予測モジュール620はさらに、
第1段階の折り畳み反復ネットワーク層によって、初期座標、ターゲット残基ペア特徴及び第2多重配列アラインメント特徴に対して不変点注意メカニズム及びマッピング処理を行って、ターゲット残基コード1を取得し、
ターゲット残基コード1に対して残基レベルの位置変換の予測を行って、各アミノ酸残基の第1位置変換1を取得し、ターゲット残基コード1に対して単量体鎖レベルの位置変換の予測を行って、各アミノ酸残基の第2位置変換1を取得し、
第1位置変換1、第2位置変換1、及び初期座標に基づいて位置更新を行って、第1段階の折り畳みネットワーク層の候補位置変換1を取得する。
【0086】
幾つかの実施形態では、構造予測モジュール620はさらに、
第m段階の折り畳みネットワーク層に入力された第m-1段階の折り畳み反復ネットワーク層の候補位置変換m-1とターゲット残基ペア特徴とに対して不変点注意メカニズム及びマッピング処理を行って、ターゲット残基コードmを取得し、
ターゲット残基コードmに対して残基レベルの位置変換の予測を行って、各アミノ酸残基の第1位置変換mを取得し、ターゲット残基コードmに対して単量体鎖レベルの位置変換の予測を行って、各アミノ酸残基の第2位置変換mを取得し、
第1位置変換mと第2位置変換mとに基づいて、第m段階の折り畳みネットワーク層の候補位置変換mを取得する。
【0087】
幾つかの実施形態では、構造予測モジュール620はさらに、
バックボーン更新アルゴリズムに基づいて、各アミノ酸残基のターゲット残基コードをマッピングして、各アミノ酸残基の第1位置変換を取得する。
【0088】
幾つかの実施形態では、構造予測モジュール620はさらに、
各アミノ酸残基に対して、アミノ酸残基のターゲット残基コードに基づいて、隣接する2つ又は複数のアミノ酸残基を異なる単量体鎖に分割し、
いずれか1つの単量体鎖におけるターゲットアミノ酸残基に対して、ターゲットアミノ酸残基のターゲット残基コードに対して平均値の計算を行って、鎖レベルの候補残基コードを取得し、多層ニューラルネットワーク構造に基づいて候補残基コードをマッピングし、該単量体鎖における各アミノ酸残基の第2位置変換を取得する。
【0089】
幾つかの実施形態では、多層ニューラルネットワーク構造は3層線形ネットワークを含み、
構造予測モジュール620はさらに、
候補残基コードを第1線形ネットワークに入力してマッピングして、第1変換表現を取得し、
第1変換表現を第2線形ネットワーク入力してマッピングして、第2変換表現を取得し、
第1変換表現と第2変換表現を第3線形ネットワークに入力してマッピングして、該単量体鎖における各アミノ酸残基の第2位置変換を取得する。
【0090】
幾つかの実施形態では、取得モジュール610はさらに、
各タンパク質単量体のテンプレート特徴を取得し、各タンパク質単量体のアミノ酸配列のペア特徴を構築し、
各タンパク質単量体のテンプレート特徴を線形ネットワークに入力してマッピングした後、各タンパク質単量体のペア特徴を加算して候補残基ペア特徴を取得し、
前記候補残基ペア特徴を予め設定されたエンコーダに入力して符号化して、各タンパク質単量体のターゲット残基ペア特徴を取得する。
【0091】
幾つかの実施形態では、取得モジュール610は、
各タンパク質単量体のターゲットアミノ酸配列をタンパク質構造データベースにおける複数の第1アミノ酸配列に対してマッチング照会して、類似度が予め設定された閾値より大きい第2アミノ酸配列を取得し、
第2アミノ酸配列のアミノ酸残基の座標間の距離を抽出して、各タンパク質単量体のテンプレート特徴とする。
【0092】
幾つかの実施形態では、取得モジュール610はさらに、
各タンパク質単量体のアミノ酸配列を予め設定された2つの線形ネットワークに入力して、候補配列符号化特徴を取得し、
候補配列符号化特徴の異なる方向にそれぞれ1つの空次元を追加して、第1配列符号化特徴と第2配列符号化特徴とを取得し、
第1配列符号化特徴と第2配列符号化特徴とを加算して、各タンパク質単量体のペア特徴を取得する。
【0093】
幾つかの実施形態では、取得モジュール610はさらに、
各タンパク質単量体のターゲットアミノ酸配列に基づいて、複数の遺伝子配列データベースから各タンパク質単量体の相同性配列を検索して取得し、
各タンパク質単量体の相同性配列に対して多重配列アラインメントを行って、各タンパク質単量体の候補多重配列アラインメント特徴を取得し、
各タンパク質単量体の候補多重配列アラインメント特徴を予め設定されたエンコーダに入力して符号化し、各タンパク質単量体のターゲット多重配列アラインメント特徴を取得し、
各タンパク質単量体のターゲット多重配列アラインメント特徴を正則化して、各タンパク質単量体の第1多重配列アラインメント特徴を取得し、各タンパク質単量体のターゲット多重配列アラインメント特徴をマッピングして、各タンパク質単量体の第2多重配列アラインメント特徴を取得する。
【0094】
本開示は、タンパク質複合体における各単量体鎖の相対的な独立性を考慮し、残基レベルの位置変換の基に、単量体鎖レベルの位置変換を追加して、各アミノ酸残基の座標を更新し、予測タンパク質の構造を正確に予測し、タンパク質複合体の構造予測の効率を向上させ、タンパク質複合体に複数の鎖が含まれる適用シーンによりよく適用することができる。
【0095】
本開示の実施例によると、本開示は電子デバイス、及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によると、本開示はコンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるタンパク質複合体の構造予測方法が実現される。
【0096】
図7は、本開示の実施例を実現する電子デバイスのブロック図である。該電子デバイスは、本開示の実施例のタンパク質複合体の構造予測方法を実現することができ、電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明される及び/又は要求される本開示の実現を制限することを意図したものではない。
【0097】
図7に示すように、デバイス700は、リードオンリーメモリ(ROM)702に記憶されたコンピュータプログラム又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムにより、様々な適切な動作及び処理を実行することができる計算ユニット701を含む。RAM703には、デバイス700の操作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット701、ROM 702及びRAM 703は、バス704を介して互いに接続される。入力/出力(I/O)インタフェース705もバス704に接続される。
【0098】
デバイス700の複数の構成要素はI/Oインタフェース705に接続され、キーボード、マウスなどの入力ユニット706と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット707と、磁気ディスク、光ディスクなどの記憶ユニット708と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット709と、を含む。通信ユニット709は、デバイス700がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して、他の機器と情報/データを交換することを可能にする。
【0099】
計算ユニット701は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントであり取得する。計算ユニット701のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上述した各方法と処理、例えば、テキスト訂正方法を実行する。例えば、いくつかの実施例では、テキスト訂正方法は、記憶ユニット708などの機械読み取り可能な媒体に有形に組み込まれたコンピュータソフトウェアプログラムとして実現され取得する。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM 702及び/又は通信ユニット709を介してデバイス700にロード及び/又はインストールされ取得する。コンピュータプログラムがRAM 703にロードされ、計算ユニット701により実行される時、上述したテキスト訂正方法の1つ以上のステップが実行され取得する。選択可能に、他の実施例では、計算ユニット701は、他の任意の適切な方式(例えば、ファームウェアを介して)でテキスト訂正方法を実行するように構成されてもよい。
【0100】
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、負荷プログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現され取得する。これらの様々な実施形態は1つ以上のコンピュータプログラムで実施されることを含むことができ、この1つ以上のコンピュータプログラムは、専用又は汎用のプログラマブルプロセッサであり取得する少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができ、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を送信することを含み取得する。
【0101】
本開示の方法を実施するためのプログラムコードは、1つ以上のプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供され、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図において特定された機能/操作が実施されるようにしてもよい。プログラムコードは、完全にマシン上で実行されてもよく、部分的にマシン上で実行されてもよく、独立型ソフトウェアパッケージとして一部がマシン上で実行され、一部がリモートマシン上で実行され、又は完全にリモートマシン又はサーバ上で実行されてもよい。
【0102】
本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又は機器により、又は命令実行システム、装置、又は機器と組み合わせて使用されるプログラムを含む、又は記憶することができる有形媒体であり取得する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であり取得する。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置、又は機器、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ以上の配線に基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。
【0103】
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティング装置により入力をコンピュータに提供することができる。他のタイプの装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、ユーザからの入力は任意の形態(音入力、音声入力、又は触覚入力を含む)で受信することができる。
【0104】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによりここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)とインターネットと、インターネットとを含む。
【0105】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムにより、クライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバであってもよく、又はブロックチェーンと組み合わせたサーバであってもよい。
【0106】
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替えたり、追加したり、又は削除したりすることができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術的解決手段の所望の結果を実現できる限り、本明細書では限定されない。
【0107】
上記の具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因に基づいて、様々な訂正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の訂正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。