(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-27
(54)【発明の名称】深層畳み込みニューラルネットワークを使用する変異体病原性を予測するためのマルチチャネルタンパク質ボクセル化
(51)【国際特許分類】
G16B 15/00 20190101AFI20240319BHJP
G16B 40/00 20190101ALI20240319BHJP
【FI】
G16B15/00
G16B40/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023563033
(86)(22)【出願日】2022-04-14
(85)【翻訳文提出日】2023-12-12
(86)【国際出願番号】 US2022024916
(87)【国際公開番号】W WO2022221591
(87)【国際公開日】2022-10-20
(32)【優先日】2021-04-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-04-16
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-03-24
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-03-24
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(71)【出願人】
【識別番号】519436884
【氏名又は名称】イルミナ・ケンブリッジ・リミテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】トビアス・ハンプ
(72)【発明者】
【氏名】ホン・ガオ
(72)【発明者】
【氏名】カイ-ハウ・ファー
(57)【要約】
システムは、少なくとも、ボクセル化器、代替対立遺伝子エンコーダ、進化的保存エンコーダ、及び畳み込みニューラルネットワークを含む。ボクセル化器は、タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成する。代替対立遺伝子エンコーダは、ボクセルの3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する。進化的保存エンコーダは、ボクセルの3次元グリッド内の各ボクセルに進化的保存配列を符号化する。畳み込みニューラルネットワークは、代替対立遺伝子配列及びそれぞれの進化的保存配列で符号化されたアミノ酸ごとの距離チャネルを含むテンソルに3次元畳み込みを適用し、テンソルに少なくとも部分的に基づいて変異体ヌクレオチドの病原性を決定する。
【特許請求の範囲】
【請求項1】
システムであって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、かつアミノ酸ベースで前記3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成するボクセル化器であって、
前記アミノ酸ごとの距離チャネルの各々が、ボクセルの前記3次元グリッド内の各ボクセルについての3次元距離値を有し、
前記3次元距離値が、ボクセルの前記3次元グリッド内の対応するボクセルから前記参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、ボクセル化器と、
ボクセルの前記3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダであって、
前記代替対立遺伝子アミノ酸が、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、代替対立遺伝子エンコーダと、
ボクセルの前記3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダであって、
前記進化的保存配列が、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
前記アミノ酸特異的保存頻度が、前記対応するボクセルへのアミノ酸近接度に応じて選択される、進化的保存エンコーダと、
畳み込みニューラルネットワークであって、
前記代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化された前記アミノ酸ごとの距離チャネルを含むテンソルに3次元畳み込みを適用し、
前記テンソルに少なくとも部分的に基づいて、前記変異体ヌクレオチドの病原性を決定するように構成された、畳み込みニューラルネットワークと、を含む、システム。
【請求項2】
前記ボクセル化器が、前記参照アミノ酸配列内の参照アミノ酸のそれぞれの残基のアルファ炭素原子上にボクセルの前記3次元グリッドを中心付ける、請求項1に記載のシステム。
【請求項3】
前記ボクセル化器が、前記変異体アミノ酸に位置する特定の参照アミノ酸の残基のアルファ炭素原子上にボクセルの前記3次元グリッドを中心付ける、請求項1又は2に記載のシステム。
【請求項4】
前記テンソルにおいて、前記特定の参照アミノ酸に先行する参照アミノ酸についての3次元距離値に方向性パラメータを乗算することによって、前記参照アミノ酸配列内の前記参照アミノ酸の方向性及び前記特定の参照アミノ酸の位置を符号化するように更に構成された、請求項1から3のいずれか一項に記載のシステム。
【請求項5】
前記距離が、ボクセルの前記3次元グリッド内の対応するボクセル中心から前記対応する参照アミノ酸の最も近い原子までの最も近い原子距離である、請求項1から4のいずれか一項に記載のシステム。
【請求項6】
前記最も近い原子距離が、ユークリッド距離である、請求項5に記載のシステム。
【請求項7】
前記最も近い原子距離が、前記ユークリッド距離を最大の最も近い原子距離で除算することによって正規化される、請求項5又は6に記載のシステム。
【請求項8】
前記参照アミノ酸が、アルファ炭素原子を有し、前記距離が、前記対応するボクセル中心から前記対応する参照アミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子距離である、請求項1から7のいずれか一項に記載のシステム。
【請求項9】
前記参照アミノ酸が、ベータ炭素原子を有し、前記距離が、前記対応するボクセル中心から前記対応する参照アミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子距離である、請求項1から7のいずれか一項に記載のシステム。
【請求項10】
前記参照アミノ酸が、骨格原子を有し、前記距離が、前記対応するボクセル中心から前記対応する参照アミノ酸の最も近い骨格原子までの最も近い骨格原子距離である、請求項1から7のいずれか一項に記載のシステム。
【請求項11】
前記参照アミノ酸が、側鎖原子を有し、前記距離が、前記対応するボクセル中心から前記対応する参照アミノ酸の最も近い側鎖原子までの最も近い側鎖原子距離である、請求項1から7のいずれか一項に記載のシステム。
【請求項12】
前記テンソルにおいて、各ボクセルから最も近い原子までの距離を指定する最も近い原子チャネルを符号化するように更に構成され、前記最も近い原子が、前記アミノ酸及び前記アミノ酸の原子エレメントに関係なく選択される、請求項1から11のいずれか一項に記載のシステム。
【請求項13】
前記距離が、ユークリッド距離である、請求項1から12のいずれか一項に記載のシステム。
【請求項14】
前記距離が、前記ユークリッド距離を最大距離で除算することによって正規化される、請求項1から13のいずれか一項に記載のシステム。
【請求項15】
前記アミノ酸が、非標準アミノ酸を含む、請求項1から14のいずれか一項に記載のシステム。
【請求項16】
前記テンソルが、ボクセル中心の所定の半径内に見つからない原子を指定する不在原子チャネルを更に含む、請求項1から15のいずれか一項に記載のシステム。
【請求項17】
前記不在原子チャネルが、ワンホット符号化される、請求項16に記載のシステム。
【請求項18】
ボクセルの前記3次元グリッド内の各ボクセルに参照対立遺伝子アミノ酸をボクセルごとで符号化する参照対立遺伝子エンコーダを更に含む、請求項1から17のいずれか一項に記載のシステム。
【請求項19】
前記参照対立遺伝子アミノ酸が、前記変異体アミノ酸を経験する参照アミノ酸のワンホット符号化の3次元表現である、請求項18に記載のシステム。
【請求項20】
前記アミノ酸特異的保存頻度が、前記複数の種にわたるそれぞれのアミノ酸の保存レベルを指定する、請求項1から19のいずれか一項に記載のシステム。
【請求項21】
前記進化的保存エンコーダが、
前記参照アミノ酸及び前記原子のカテゴリにわたって前記対応するボクセルへの最も近い原子を選択し、
前記最も近い原子を含む参照アミノ酸の残基について汎アミノ酸保存頻度を選択し、
前記進化的保存配列として前記汎アミノ酸保存頻度の3次元表現を使用する、請求項1から20のいずれか一項に記載のシステム。
【請求項22】
前記汎アミノ酸保存頻度が、前記複数の種において観察されるような前記残基の特定の位置について構成される、請求項21に記載のシステム。
【請求項23】
前記汎アミノ酸保存頻度が、特定の参照アミノ酸について欠損保存頻度が存在するかどうかを特定する、請求項21又は22に記載のシステム。
【請求項24】
前記進化的保存エンコーダが、
前記参照アミノ酸のそれぞれにおいて前記対応するボクセルにそれぞれの最も近い原子を選択し、
前記最も近い原子を含む前記参照アミノ酸のそれぞれの残基について、それぞれのアミノ酸ごとの保存頻度を選択し、
前記進化的保存配列として前記アミノ酸ごとの保存頻度の3次元表現を使用する、請求項1から23のいずれか一項に記載のシステム。
【請求項25】
前記アミノ酸ごとの保存頻度が、前記複数の種において観察されるような残基の特定の位置について構成される、請求項24に記載のシステム。
【請求項26】
前記アミノ酸ごとの保存頻度が、特定の参照アミノ酸について欠損保存頻度が存在するかどうかを特定する、請求項24又は25に記載のシステム。
【請求項27】
ボクセルの前記3次元グリッド内の各ボクセルに対して1つ以上のアノテーションチャネルをボクセルごとで符号化するアノテーションエンコーダを更に含み、
前記アノテーションチャネルが、残基アノテーションのワンホット符号化の3次元表現である、請求項1から26のいずれか一項に記載のシステム。
【請求項28】
前記アノテーションチャネルが、イニシエーターメチオニン、シグナル、輸送ペプチド、プロペプチド、鎖、及びペプチドを含む分子処理アノテーションである、請求項27に記載のシステム。
【請求項29】
前記アノテーションチャネルが、トポロジカルドメイン、膜貫通、膜内、ドメイン、反復、カルシウム結合、ジンクフィンガー、デオキシリボ核酸(DNA)結合、ヌクレオチド結合、領域、コイルドコイル、モチーフ、及び組成バイアスを含む領域アノテーションである、請求項27又は28に記載のシステム。
【請求項30】
前記アノテーションチャネルが、活性部位、金属結合、結合部位、及び部位を含む部位アノテーションである、請求項27から29のいずれか一項に記載のシステム。
【請求項31】
前記アノテーションチャネルが、非標準残基、修飾残基、脂質化、グリコシル化、ジスルフィド結合、及び架橋を含むアミノ酸修飾アノテーションである、請求項27から30のいずれか一項に記載のシステム。
【請求項32】
前記アノテーションチャネルが、ヘリックス、ターン、及びベータ鎖を含む二次構造アノテーションである、請求項27から31のいずれか一項に記載のシステム。
【請求項33】
前記アノテーションチャネルが、突然変異誘発、配列不確実性、配列競合、非隣接残基、及び非末端残基を含む実験情報アノテーションである、請求項27から32のいずれか一項に記載のシステム。
【請求項34】
ボクセルの前記3次元グリッド内の各ボクセルに対して1つ以上の構造信頼度チャネルをボクセルごとで符号化する構造信頼度エンコーダを更に含み、
前記構造信頼度チャネルが、それぞれの残基構造の質を指定する信頼度スコアの3次元表現である、請求項1から33のいずれか一項に記載のシステム。
【請求項35】
前記構造信頼度チャネルが、グローバルモデル品質推定(GMQE)である、請求項34に記載のシステム。
【請求項36】
前記構造信頼度チャネルが、定性的モデルエネルギー解析(QMEAN)スコアである、請求項34又は35に記載のシステム。
【請求項37】
前記構造信頼度チャネルが、前記残基がそれぞれのタンパク質構造の物理的制約を満たす程度を特定する温度因子である、請求項34から36のいずれか一項に記載のシステム。
【請求項38】
前記構造信頼度チャネルが、前記ボクセルへの最も近い原子の残基が整列した鋳型構造を有する程度を特定する鋳型構造アラインメントである、請求項34から37のいずれか一項に記載のシステム。
【請求項39】
前記構造信頼度チャネルが、前記整列された鋳型構造の鋳型モデリングスコアである、請求項34から38のいずれか一項に記載システム。
【請求項40】
前記構造信頼度チャネルが、前記鋳型モデリングスコアのうちの最小の1つ、前記鋳型モデリングスコアの平均、及び前記鋳型モデリングスコアのうちの最大の1つである、請求項39に記載のシステム。
【請求項41】
前記アミノ酸ごとの距離チャネルが生成される前に前記原子を回転させる原子回転エンジンを更に含む、請求項1から40のいずれか一項に記載のシステム。
【請求項42】
前記畳み込みニューラルネットワークが、1×1×1畳み込み、3×3×3畳み込み、正規化線形ユニット活性化層、バッチ正規化層、全結合層、ドロップアウト正則化層、及びソフトマックス分類層を使用する、請求項1から41のいずれか一項に記載のシステム。
【請求項43】
前記1×1×1畳み込み及び前記3×3×3畳み込みが、前記3次元畳み込みである、請求項42に記載のシステム。
【請求項44】
前記1×1×1の畳み込みの層が、前記テンソルを処理し、前記テンソルの畳み込み表現である中間出力を生成し、
前記3×3×3畳み込みの層の配列が、平坦化された出力を生成し、前記全結合層が、前記平坦化された出力を処理し、非正規化出力を生成し、前記ソフトマックス分類層が、前記非正規化出力を処理し、前記変異体ヌクレオチドが病原性及び良性である尤度を特定する指数関数的に正規化された出力を生成する、請求項42又は43に記載のシステム。
【請求項45】
シグモイド層が、前記非正規化出力を処理し、前記変異体ヌクレオチドが病原性である尤度を特定する正規化出力を生成する、請求項44に記載のシステム。
【請求項46】
前記畳み込みニューラルネットワークが、アテンションベースのニューラルネットワークである、請求項1から45のいずれか一項に記載のシステム。
【請求項47】
前記テンソルが、前記参照対立遺伝子アミノ酸で更に符号化された前記アミノ酸ごとの距離チャネルを含む、請求項1から46のいずれか一項に記載のシステム。
【請求項48】
前記テンソルが、前記アノテーションチャネルで更に符号化された前記アミノ酸ごとの距離チャネルを含む、請求項27から47のいずれか一項に記載のシステム。
【請求項49】
前記テンソルが、前記構造信頼度チャネルで更に符号化された前記アミノ酸ごとの距離チャネルを含む、請求項34から48のいずれか一項に記載のシステム。
【請求項50】
システムであって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、かつアミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、原子カテゴリごとの距離チャネルを生成するボクセル化器であって、
前記原子が、複数の原子カテゴリにまたがり、
前記複数の原子カテゴリのうちの原子カテゴリが、前記アミノ酸の原子エレメントを指定し、
前記原子カテゴリごとの距離チャネルの各々が、ボクセルの前記3次元グリッド内の各ボクセルについての3次元距離値を有し、
前記3次元距離値が、ボクセルの前記3次元グリッド内の対応するボクセルから前記複数の原子カテゴリ内の対応する原子カテゴリの原子までの距離を指定する、ボクセル化器と、
ボクセルの前記3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダであって、
前記代替対立遺伝子アミノ酸が、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、代替対立遺伝子エンコーダと、
ボクセルの前記3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダであって、
前記進化的保存配列が、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
前記アミノ酸特異的保存頻度が、前記対応するボクセルへのアミノ酸近接度に応じて選択される、進化的保存エンコーダと、
畳み込みニューラルネットワークであって、
前記代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化された前記原子カテゴリごとの距離チャネルを含むテンソルに3次元畳み込みを適用し、
前記テンソルに少なくとも部分的に基づいて、前記変異体ヌクレオチドの病原性を決定するように構成された、畳み込みニューラルネットワークと、を含む、システム。
【請求項51】
システムであって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、かつアミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成するボクセル化器であって、
前記アミノ酸ごとの距離チャネルの各々が、ボクセルの前記3次元グリッド内の各ボクセルについての3次元距離値を有し、
前記3次元距離値が、ボクセルの前記3次元グリッド内の対応するボクセルから前記参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、ボクセル化器と、
ボクセルの前記3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダであって、
前記代替対立遺伝子アミノ酸が、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、代替対立遺伝子エンコーダと、
ボクセルの前記3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダであって、
前記進化的保存配列が、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
前記アミノ酸特異的保存頻度が、前記対応するボクセルへのアミノ酸近接度に応じて選択される、進化的保存エンコーダと、
前記代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化された前記アミノ酸ごとの距離チャネルを含むテンソルを生成するように構成された、テンソル生成器と、を含む、システム。
【請求項52】
システムであって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、かつアミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、原子カテゴリごとの距離チャネルを生成するボクセル化器であって、前記原子が、複数の原子カテゴリにまたがり、
前記複数の原子カテゴリのうちの原子カテゴリが、前記アミノ酸の原子エレメントを指定し、
前記原子カテゴリごとの距離チャネルの各々が、ボクセルの前記3次元グリッド内の各ボクセルについての3次元距離値を有し、
前記3次元距離値が、ボクセルの前記3次元グリッド内の対応するボクセルから前記複数の原子カテゴリ内の対応する原子カテゴリの原子までの距離を指定する、ボクセル化器と、
ボクセルの前記3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダであって、
前記代替対立遺伝子アミノ酸が、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、代替対立遺伝子エンコーダと、
ボクセルの前記3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダであって、
前記進化的保存配列が、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
前記アミノ酸特異的保存頻度が、前記対応するボクセルへのアミノ酸近接度に応じて選択される、進化的保存エンコーダと、
前記代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化された前記原子カテゴリごとの距離チャネルを含むテンソルを生成するように構成された、テンソル生成器と、を含む、システム。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権出願)
本出願は、2022年3月24日に出願された「Multi-channel Protein Voxelization To Predict Variant Pathogenicity Using Deep Convolutional Neural Networks」と題する米国非仮特許出願第17/703,935号(代理人整理番号ILLM 1047-2/IP-2142-US)に対する優先権を主張するものであり、これは、2021年4月15日に出願された「Multi-channel Protein Voxelization To Predict Variant Pathogenicity Using Deep Convolutional Neural Networks」と題する米国仮特許出願第63/175,495号(代理人整理番号ILLM 1047-1/IP-2142-PRV)に対する優先権を主張するものである。
【0002】
本出願はまた、2022年3月24日に出願された「Efficient Voxelization For Deep Learning」と題する米国非仮特許出願第17/703,958号(代理人整理番号ILLM 1048-2/IP-2143-US)に対する優先権を主張するものであり、これは、2021年4月16日に出願された「Efficient Voxelization For Deep Learning」と題する米国仮特許出願第63/175,767号(代理人整理番号ILLM 1048-1/IP-2143-PRV)に対する優先権を主張するものである。
【0003】
優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
【0004】
(関連出願)
本出願は、同時に出願された「Efficient Voxelization For Deep Learning」と題するPCT特許出願(代理人整理番号ILLM 1048-3/IP-2143-PCT)に関する。関連出願は、全ての目的のために参照により本明細書に組み込まれる。
【0005】
(発明の分野)
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースのシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジー論理システム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。詳細には、開示される技術は、マルチチャネルボクセル化データを分析するために深層畳み込みニューラルネットワークを使用することに関する。
【0006】
(組み込み)
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
Sundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)、
Jaganathan,K.et al.Predicting splicing from primary sequence with deep learning.Cell 176,535-548(2019)、
2017年10月16日に出願された「TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE-SCALE BENIGN TRAINING DATA」と題する米国仮特許出願第62/573,144号(代理人整理番号ILLM 1000-1/IP-1611-PRV)、
2017年10月16日に出願された「PATHOGENICITY
CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)」と題する米国仮特許出願第62/573,149号(代理人整理番号ILLM 1000-2/IP-1612-PRV)、
2017年10月16日に出願された「DEEP SEMI-SUPERVISED LEARNING THAT GENERATES LARGE-SCALE PATHOGENIC TRAINING DATA」と題する米国仮特許出願第62/573,153号(代理人整理番号ILLM 1000-3/IP-1613-PRV)、
2017年11月7日に出願された「PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)」と題する米国仮特許出願第62/582,898号(代理人整理番号ILLM 1000-4/IP-1618-PRV)、
2018年10月15日に出願された「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国非仮特許出願第16/160,903号(代理人整理番号ILLM 1000-5/IP-1611-US)、
2018年10月15日に出願された「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」と題する米国非仮特許出願第16/160,986号(代理人整理番号ILLM 1000-6/IP-1612-US)、
2018年10月15日に出願された「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国非仮特許出願第16/160,968号(代理人整理番号ILLM 1000-7/IP-1613-US)、及び
2019年5月8日に出願された「DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国非仮特許出願第16/407,149号(代理人整理番号ILLM 1010-1/IP-1734-US)。
【背景技術】
【0007】
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。本節における主題は、単に異なるアプローチを表し、それ自体はまた、特許請求される技術の実装形態に対応し得る。
【0008】
広義のゲノミクスは、機能的ゲノミクスとも呼ばれ、ゲノム配列決定、トランスクリプトームプロファイリング及びプロテオミクスなどのゲノムスケールアッセイを使用することによって生物の全てのゲノムエレメントの機能を特徴付けることを目的とする。ゲノミクスは、データ主導の科学として生じ、予め考えられたモデル及び仮説を試験することによってではなく、ゲノムスケールデータの調査から新規の特性を発見することによって動作する。ゲノミクスの適用には、遺伝子型と表現型との間の関連を見出すこと、患者の層別化のためのバイオマーカーを発見すること、遺伝子の機能を予測すること、及び転写エンハンサーなどの生化学的に活性なゲノム領域を図表化することが含まれる。
【0009】
ゲノミクスデータは、ペアワイズ相関の視覚的調査のみによってマイニングするには大きすぎ、かつ複雑すぎる。その代わりに、予期しない関係の発見をサポートし、新規な仮説及びモデルを導き出し、予測を行うために、分析ツールが必要とされる。仮定及び領域専門知識がハード符号化されるいくつかのアルゴリズムとは異なり、機械学習アルゴリズムは、データ内のパターンを自動的に検出するように設計される。したがって、機械学習アルゴリズムは、データ駆動型科学、特にゲノミクスに適している。しかしながら、機械学習アルゴリズムの性能は、データがどのように表されるかに、すなわち、各変数(特徴とも呼ばれる)がどのように計算されるかに強く依存することができる。例えば、蛍光顕微鏡画像から腫瘍を悪性又は良性として分類するために、前処理アルゴリズムは、細胞を検出し、細胞型を特定し、各細胞型について細胞数のリストを生成することができる。
【0010】
機械学習モデルは、人手で設計した特徴の例である推定細胞数を、腫瘍を分類するための入力特徴として取ることができる。中心的な問題は、分類性能がこれらの特徴の質及び関連性に大きく依存することである。例えば、細胞形態、細胞間の距離又は器官内の局在化等の関連する視覚的特徴は、細胞計数において捕捉されず、データのこの不完全な表現は、分類精度を低減させ得る。
【0011】
機械学習のサブ規律である深層学習は、特徴の計算を機械学習モデル自体に埋め込み、エンドツーエンドモデルを生成することによって、この問題に対処する。この結果は、先行する動作の結果を入力として取ることによってますます複雑になる特徴を計算する、連続する基本動作を含む機械学習モデルである深層ニューラルネットワークの開発によって実現されている。ディープニューラルネットワークは、上記の例における細胞形態及び細胞の空間的構成など、複雑度の高い関連する特徴を発見することによって予測精度を改善することができる。深層ニューラルネットワークの構築及び訓練は、データ爆発、アルゴリズムの進歩、及び計算能力が大幅な増加によって、特に画像処理装置(GPU)の使用により可能になった。
【0012】
教師あり学習の目標は、特徴を入力として取り、いわゆるターゲット変数の予測を返すモデルを得ることである。教師あり学習問題の例は、標準スプライス部位配列の有無、スプライシング分岐点の位置又はイントロン長などのRNA上の特徴を考慮して、イントロンがスプライシングされるか否か(標的)を予測する問題である。機械学習モデルを訓練することは、そのパラメータを学習することを指し、これは一般に、未知のデータに対して正確な予測を行う目的で、訓練データに対する損失関数を最小化することを含む。
【0013】
計算生物学における多くの教師あり学習問題について、入力データは、複数の列又は特徴を有する表として表すことができ、その各々は、予測を行うのに潜在的に有用である数値データ又はカテゴリデータを含有する。いくつかの入力データは、表形式の特徴(例えば、温度又は時間)として自然に表されるが、他の入力データは、表の表現に適合させるために、特徴抽出と呼ばれるプロセスを使用して最初に変換される必要がある(例えば、デオキシリボ核酸(DNA)配列をUmerカウントに変換する)。イントロン-スプライシング予測問題のために、標準スプライス部位配列の有無、スプライシング分岐点の位置及びイントロン長は、表形式で収集された前処理された特徴であることができる。表形式データは、ロジスティック回帰などの単純な線形モデルから、ニューラルネットワーク及び多くの他のものなどのより柔軟な非線形モデルに及ぶ、広範囲の教師あり機械学習モデルの標準である。
【0014】
ロジスティック回帰は、バイナリ分類器、すなわち、バイナリターゲット変数を予測する教師あり学習モデルである。具体的には、ロジスティック回帰は、活性化関数の一種であるシグモイド関数を使用して[0,1]区間にマッピングされた入力特徴の加重和を計算することによって、陽性クラスの確率を予測する。ロジスティック回帰、又は異なる活性化関数を使用する他の線形分類器のパラメータは、加重和における重みである。線形分類器は、例えばイントロンがスプライシングされたか否かのクラスが入力特徴の加重和で十分に識別できない場合に失敗する。予測性能を改善するために、新しい入力特徴は、新しい方法で既存の特徴を変換又は組み合わせることによって、例えば、累乗又はペアワイズ積を取ることによって、手動で追加されることができる。
【0015】
ニューラルネットワークは、隠れ層を使用して、これらの非線形特徴変換を自動的に学習する。各隠れ層は、シグモイド関数又はより一般的な正規化線形ユニット(ReLU)などの非線形活性化関数によって変換された出力を有する複数の線形モデルと考えることができる。同時に、これらの層は、入力特徴を関連する複雑なパターンに構成し、2つのクラスを区別するタスクを容易にする。
【0016】
深層ニューラルネットワークは、多くの隠れ層を使用し、各ニューロンが先行する層の全てのニューロンから入力を受信するとき、層は全結合されていると言われる。ニューラルネットワークは、一般に、非常に大きなデータセット上でモデルを学習するのに適したアルゴリズムである確率的勾配降下法を使用して学習する。現代の深層学習フレームワークを使用するニューラルネットワークの実施態様は、異なるアーキテクチャ及びデータセットを用いたラピッドプロトタイピングを可能にする。全結合ニューラルネットワークは、スプライス因子の結合モチーフの存在又は配列保存などの配列特徴から、所与の配列に対してスプライシングされたエクソンの割合を予測すること、潜在的に疾患を引き起こす遺伝子変異体を優先順位付けすること、並びに所与のゲノム領域において、クロマチンマーク、遺伝子発現及び進化的保存などの特徴を用いてシス調節エレメントを予測することを含む、いくつかのゲノミクス用途に使用することができる。
【0017】
効果的な予測のためには、空間的及び縦断的データにおける局所的依存性を考慮しなければならない。例えば、DNA配列又は画像のピクセルのシャッフリングは、情報パターンを激しく乱す。これらの局所依存性は、特徴の順序付けが任意である表形式データとは別に、空間又は縦断的データを設定する。結合領域が、配列決定(ChIP-seq)データに続くクロマチン免疫沈降における高信頼度結合事象として定義される、特定の転写因子による結合対非結合としてゲノム領域を分類する問題を考慮されたい。転写因子は、配列モチーフを認識することによってDNAに結合する。配列中のk-merインスタンスの数又は位置重み行列(PWM)マッチなどの配列由来の特徴に基づく全結合層を、このタスクに使用することができる。k-mer又はPWMインスタンス頻度は、配列内のモチーフをシフトさせることに対してロバストであるため、そのようなモデルは、異なる位置に位置する同じモチーフを有する配列に十分に一般化することができる。しかしながら、それらは、転写因子結合が明確な間隔を有する複数のモチーフの組み合わせに依存するパターンを認識することができない。更に、可能なk-merの数は、k-mer長と共に指数関数的に増加し、これは、保存及び過剰適合の両方の課題をもたらす。
【0018】
畳み込み層は、同じ全結合層が局所的に、例えば6bpウィンドウ内で、全ての配列位置に適用される、全結合層の特別な形態である。このアプローチはまた、例えば、転写因子GATA1及びTAL1について、複数のPWMを使用して配列を走査することとみなすことができる。位置にわたって同じモデルパラメータを使用することによって、パラメータの総数は劇的に低減され、ネットワークは、学習中に見られない位置でモチーフを検出することができる。各畳み込み層は、フィルタと配列との間の一致を量子化するスカラー値を全ての位置において生成することによって、いくつかのフィルタを用いて配列を走査する。全結合ニューラルネットワークにおけるように、非線形活性化関数(一般にReLU)が各層において適用される。次に、プーリング演算が適用され、これは、位置軸にわたって連続するビン内の活性化を集約し、一般に、各チャネルについて最大又は平均活性化を取る。プーリングは、有効配列長を減少させ、信号を粗大化する。後続の畳み込み層は、前の層の出力を構成し、GATA1モチーフ及びTALIモチーフがある距離範囲に存在したかどうかを検出することができる。最後に、畳み込み層の出力は、最終予測タスクを実行するために全結合ニューラルネットワークへの入力として使用することができる。したがって、異なるタイプのニューラルネットワーク層(例えば、全結合層及び畳み込み層)を単一のニューラルネットワーク内で組み合わせることができる。
【0019】
畳み込みニューラルネットワーク(CNN)は、DNA配列のみに基づいて様々な分子表現型を予測することができる。用途としては、転写因子結合部位の分類、並びにクロマチン特徴、DNAコンタクトマップ、DNAメチル化、遺伝子発現、翻訳効率、RBP結合、及びマイクロRNA(miRNA)標的などの分子表現型の予測が挙げられる。配列から分子表現型を予測することに加えて、畳み込みニューラルネットワークは、人手で設計したバイオインフォマティクスパイプラインによって伝統的に対処されるより技術的なタスクに適用することができる。例えば、畳み込みニューラルネットワークは、ガイドRNAの特異性を予測し、ChIP-seqをノイズ除去し、Hi-Cデータ分解能を向上させ、DNA配列から実験室起源を予測し、遺伝子変異体を呼び出すことができる。畳み込みニューラルネットワークはまた、ゲノムにおける長期依存性をモデル化するために使用されてきた。相互作用する調節エレメントは、折り畳まれていない直鎖状DNA配列上に離れて位置し得るが、これらのエレメントは、多くの場合、実際の3Dクロマチン立体構造において近位である。したがって、線形DNA配列からの分子表現型のモデリングは、クロマチンの粗い近似ではあるが、長期依存性を可能にし、モデルがプロモーター-エンハンサーループなどの3D組織化の態様を暗示的に学習することを可能にすることによって改善することができる。これは、最大32kbの受容野を有する拡張畳み込みを使用することによって達成される。拡張畳み込みはまた、スプライス部位が10kbの受容野を使用して配列から予測されることを可能にし、それによって、典型的なヒトイントロンと同じ長さの距離にわたる遺伝子配列の統合を可能にする(Jaganathan,K.et al.Predicting splicing from primary sequence with deep learning.Cell 176,535-548(2019)を参照)。
【0020】
異なるタイプのニューラルネットワークは、それらのパラメータ共有スキームによって特徴付けることができる。例えば、全結合層はパラメータ共有を有さないが、畳み込み層は、それらの入力の全ての位置において同じフィルタを適用することによって並進不変性を課す。リカレントニューラルネットワーク(RNN)は、異なるパラメータ共有方式を実装する、DNA配列又は時系列などの順次データを処理するための畳み込みニューラルネットワークの代替である。リカレントニューラルネットワークは、各配列エレメントに同じ演算を適用する。この演算は、入力として、前の配列エレメントのメモリ及び新しい入力を取る。それはメモリを更新し、任意選択で出力を発し、この出力は後続の層に渡されるか、又はモデル予測として直接使用されるかのいずれかである。各配列エレメントにおいて同じモデルを適用することによって、リカレントニューラルネットワークは、処理された配列における位置指数に対して不変である。例えば、リカレントニューラルネットワークは、配列中の位置にかかわらず、DNA配列中のオープンリーディングフレームを検出することができる。このタスクは、開始コドンとそれに続くインフレーム停止コドンなどの特定の一連の入力の認識を必要とする。
【0021】
畳み込みニューラルネットワークに対するリカレントニューラルネットワークの主な利点は、理論的には、それらがメモリを介して無限に長い配列を通じて情報を引き継ぐことができることである。更に、リカレントニューラルネットワークは、mRNA配列のような広く変化する長さの配列を自然に処理することができる。しかしながら、様々なトリック(拡張畳み込みなど)と組み合わされた畳み込みニューラルネットワークは、オーディオ合成及び機械翻訳などの配列モデリングタスクに関して、リカレントニューラルネットワークに匹敵する、又はリカレントニューラルネットワークよりも更に良好な性能に達することができる。リカレントニューラルネットワークは、単一細胞DNAメチル化状態、RBP結合、転写因子結合、及びDNAアクセシビリティを予測するために、畳み込みニューラルネットワークの出力を集約することができる。更に、リカレントニューラルネットワークは逐次演算を適用するので、容易に並列化することができず、したがって、畳み込みニューラルネットワークよりも計算がはるかに遅い。
【0022】
ヒト遺伝子コードの大部分は全てのヒトに共通であるが、各ヒトは固有の遺伝子コードを有する。いくつかの場合において、ヒト遺伝子コードは、ヒト集団の比較的小さい群の個体間で共通であり得る、遺伝子変異体と呼ばれる外れ値を含み得る。例えば、特定のヒトタンパク質は、アミノ酸の特定の配列を含み得るが、そのタンパク質の変異体は、他の点では同じ特定の配列において1つのアミノ酸が異なり得る。
【0023】
遺伝子変異体は病原的であり得、疾患をもたらし得る。そのような遺伝子変異体のほとんどは、自然淘汰によってゲノムから枯渇しているが、どの遺伝子変異体が病原性である可能性が高いかを特定する能力は、研究者がこれらの遺伝子変異体に焦点を当てて、対応する疾患及びそれらの診断、治療、又は治癒の理解を得る助けとなることができる。何百万ものヒト遺伝子変異体の臨床的解釈は不明のままである。最も頻繁な病原性変異体のいくつかは、タンパク質のアミノ酸を変化させる単一ヌクレオチドミスセンス変異である。しかし、全てのミスセンス変異が病原性であるわけではない。
【0024】
生物学的配列から分子表現型を直接予測することができるモデルは、遺伝的変異と表現型変異との間の関連を調べるためのin silico摂動ツールとして使用することができ、定量的形質遺伝子座特定及び変異体優先順位付けのための新しい方法として出現した。これらのアプローチは、複雑な表現型のゲノムワイド関連研究によって特定された変異体の大部分が非コードであり、それがそれらの効果及び表現型への寄与を推定することを困難にすることを考慮すると、非常に重要である。更に、連鎖不平衡は、共遺伝される変異体のブロックをもたらし、これは、個々の原因変異体を正確に特定することを困難にする。したがって、そのような変異体の影響を評価するための照合ツールとして使用することができる配列ベースの深層学習モデルは、複雑な表現型の潜在的なドライバーを見出すための有望なアプローチを提供する。一例としては、転写因子結合、クロマチンアクセシビリティ又は遺伝子発現予測に関して、2つの変異体間の差異から間接的に非コード単一ヌクレオチド変異体及び短い挿入又は欠失(インデル)の効果を予測することが挙げられる。別の例としては、配列又はスプライシングに対する遺伝子変異体の定量的効果から新規スプライス部位生成を予測することが挙げられる。
【0025】
タンパク質配列及び配列保存データからミスセンス変異体の病原性を予測するために、変異体効果予測のためのエンドツーエンド深層学習アプローチが適用される(Sundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)を参照し、本明細書では「PrimateAI」と称される)。PrimateAIは、異種間情報を使用するデータ増強を用いて既知の病原性の変異体に対して学習した深層ニューラルネットワークを使用する。特に、PrimateAIは、野生型及び突然変異タンパク質の配列を使用して、差異を比較し、学習した深層ニューラルネットワークを使用して突然変異の病原性を決定する。病原性予測のためにタンパク質配列を利用するこのようなアプローチは、真円度問題及び以前の知識への過剰適合を回避することができるので、有望である。しかしながら、深層ニューラルネットワークを効果的に学習するのに十分な数のデータと比較して、ClinVarにおいて利用可能な臨床データの数は比較的少ない。このデータ不足を克服するために、PrimateAIは、一般的なヒト変異体及び霊長類由来の変異体を良性データとして使用し、トリヌクレオチド文脈に基づいてシミュレートされた変異体をラベルなしデータとして使用した。
【0026】
PrimateAIは、配列アラインメントに対して直接学習した場合、従来の方法よりも性能が優れている。PrimateAIは、重要なタンパク質ドメイン、保存されたアミノ酸位置、及び配列依存性を、約120,000のヒトサンプルからなる学習データから直接学習する。PrimateAIは、候補の発達障害遺伝子における良性及び病原性のデノボ突然変異を区別すること、及びClinVarにおける事前知識を再現することにおいて、他の変異体病原性予測ツールの性能を実質的に上回る。これらの結果は、PrimateAIが、臨床報告の事前知識への依存を減らすことができる変異体分類ツールのための重要な前進であることを示唆する。
【発明の概要】
【課題を解決するための手段】
【0027】
タンパク質生物学の中心は、構造エレメントが観察された機能をどのように生じさせるかの理解である。過度のタンパク質構造データは、構造-機能関係を支配する規則を系統的に導出するための計算方法の開発を可能にする。しかしながら、これらの方法の性能は、タンパク質構造表現の選択に決定的に依存する。
【0028】
タンパク質部位は、タンパク質構造内の微小環境であり、それらの構造的又は機能的役割によって区別される。部位は、3次元(3D)位置と、構造又は機能が存在するこの位置の周りの局所近傍とによって定義することができる。合理的なタンパク質工学の中心は、アミノ酸の構造的配置がどのようにしてタンパク質部位内に機能的特徴を作り出すかの理解である。タンパク質中の個々のアミノ酸の構造的及び機能的役割の決定は、タンパク質機能の操作及び改変の助けとなるための情報を提供する。機能的又は構造的に重要なアミノ酸を特定することにより、標的タンパク質の機能特性を改変するための部位特異的突然変異誘発などの集中的な工学的努力が可能になる。あるいは、この知識は、所望の機能を無効にする工学設計を回避する助けとなることができる。
【0029】
構造は配列よりもはるかに保存されていることが確立されているので、タンパク質構造データの増加は、データ駆動アプローチを使用して構造-機能関係を支配する基礎パターンを系統的に研究する機会を提供する。任意の計算タンパク質分析の基本的な態様は、タンパク質構造情報がどのように表されるかである。機械学習方法の性能は、使用される機械学習アルゴリズムよりもデータ表現の選択に依存することが多い。良好な表現は、最も重要な情報を効率的に捕捉するが、不良な表現は、基礎となるパターンのないノイズの多い分布を生成する。
【0030】
過度のタンパク質構造及び深層学習アルゴリズムの最近の成功は、タンパク質構造のタスク特異的表現を自動的に抽出するためのツールを開発する機会を提供する。したがって、深層ニューラルネットワークへの入力として3Dタンパク質構造のマルチチャネルボクセル化表現を使用して変異体病原性を予測する機会が生じる。
【0031】
特許又は出願ファイルは、カラーで創作された少なくとも1つの図面を含む。カラー図面(単数又は複数)を有するこの特許又は特許出願公開のコピーは、必要な料金の要求及び支払いの際に、庁によって提供される。
【0032】
カラー図面はまた、補足コンテンツタブを介してPAIR(patent application information retrieval:特許出願情報検索)で利用可能であり得る。図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。
【図面の簡単な説明】
【0033】
【
図1】開示される技術の様々な実施態様による、変異体の病原性を決定するためのシステムのプロセスを示す流れ図である。
【
図2】開示される技術の一実施態様による、タンパク質の例示的参照アミノ酸配列及びタンパク質の代替アミノ酸配列を概略的に示す図である。
【
図3】開示される技術の一実施態様による、
図2の参照アミノ酸配列中のアミノ酸の原子のアミノ酸ごとの分類を示す図である。
【
図4】開示される技術の一実施態様による、アミノ酸ベースで
図3に分類されたアルファ炭素原子の3D原子座標のアミノ酸ごとの帰属を示す図である。
【
図5】開示される技術の一実施態様による、ボクセルごとの距離値を決定するプロセスを概略的に示す図である。
【
図6】開示される技術の一実施態様による、21個のアミノ酸ごとの距離チャネルの例を示す図である。
【
図7】開示される技術の一実施態様による、距離チャネルテンソルの概略図である。
【
図8】開示される技術の一実施態様による、
図2からの参照アミノ酸及び代替アミノ酸のワンホット符号化を示す図である。
【
図9】開示される技術の一実施態様による、ボクセル化されたワンホット符号化参照アミノ酸及びボクセル化されたワンホット符号化変異体/代替アミノ酸の概略図である。
【
図10】開示される技術の一実施態様による、
図7の距離チャネルテンソルと参照対立遺伝子テンソルとをボクセルごとに連結する連結プロセスを概略的に示す図である。
【
図11】開示される技術の一実施態様による、
図7の距離チャネルテンソル、
図10の参照対立遺伝子テンソル、及び代替対立遺伝子テンソルをボクセルごとに連結する連結プロセスを概略的に示す図である。
【
図12】開示される技術の一実施態様による、最も近い原子の汎アミノ酸保存頻度を決定し、ボクセルに割り当てる(ボクセル化する)ためのシステムのプロセスを示す流れ図である。
【
図13】開示される技術の一実施態様による、ボクセルから最も近いアミノ酸を示す図である。
【
図14】開示される技術の一実施態様による、99の種にわたる参照アミノ酸配列の例示的多重配列アラインメントを示す図である。
【
図15】開示される技術の一実施態様による、特定のボクセルに対して汎アミノ酸保存頻度配列を決定する例を示す図である。
【
図16】開示される技術の一実施態様による、
図15に説明される位置頻度論理を使用して、それぞれのボクセルに対して決定される、それぞれの汎アミノ酸保存頻度を示す図である。
【
図17】開示される技術の一実施態様による、ボクセル化されたボクセルごとの進化的プロファイルを示す図である。
【
図18】開示された技術の一実施態様による、進化的プロファイルテンソルの例を示す図である。
【
図19】開示される技術の一実施態様による、最も近い原子のアミノ酸ごとの保存頻度を決定し、ボクセルに割り当てる(ボクセル化する)ためのシステムのプロセスを示す流れ図である。
【
図20】開示される技術の一実施態様による、距離チャネルテンソルと連結されるボクセル化されたアノテーションチャネルの種々の実施例を示す図である。
【
図21】開示される技術の一実施態様による、標的変異体の病原性決定のための病原性分類器への入力として提供することができる、入力チャネルの異なる組み合わせ及び順列を示す図である。
【
図22】開示される技術の様々な実施態様による、開示される距離チャネルを計算する異なる方法を示す図である。
【
図23】開示される技術の様々な実施態様による、進化的チャネルの異なる実施例を示す図である。
【
図24】開示される技術の様々な実施態様による、アノテーションチャネルの異なる実施例を示す図である。
【
図25】開示される技術の様々な実施態様による、構造信頼度チャネルの異なる例を示す図である。
【
図26】開示される技術の一実施態様による、病原性分類器の例示的処理アーキテクチャを示す図である。
【
図27】開示される技術の一実施態様による、病原性分類器の例示的処理アーキテクチャを示す図である。
【
図28】ベンチマークモデルとしてPrimateAIを使用して、開示されるPrimateAI 3Dの分類がPrimateAIを上回る優位性を実証する図である。
【
図29】ベンチマークモデルとしてPrimateAIを使用して、開示されるPrimateAI 3Dの分類がPrimateAIを上回る優位性を実証する図である。
【
図30】ベンチマークモデルとしてPrimateAIを使用して、開示されるPrimateAI 3Dの分類がPrimateAIを上回る優位性を実証する図である。
【
図31】ベンチマークモデルとしてPrimateAIを使用して、開示されるPrimateAI 3Dの分類がPrimateAIを上回る優位性を実証する図である。
【
図32】32A及び32Bは、開示される技術の様々な実施態様による、開示される効率的なボクセル化プロセスを示す図である。
【
図33】開示される技術の一実施態様による、原子が原子を含有するボクセルにどのように関連付けられるかを示す図である。
【
図34】開示される技術の一実施態様による、ボクセルごとへの最も近い原子を特定するために、原子からボクセルへのマッピングからボクセルから原子へのマッピングを生成することを示す図である。
【
図35A】開示された効率的なボクセル化が、開示された効率的なボクセル化を使用せずに、0(原子数)のランタイム複雑度対0(原子数
*ボクセル数)のランタイム複雑度をどのように有するかを示す図である。
【
図35B】開示された効率的なボクセル化が、開示された効率的なボクセル化を使用せずに、0(原子数)のランタイム複雑度対0(原子数
*ボクセル数)のランタイム複雑度をどのように有するかを示す図である。
【
図36】開示された技術を実装するために使用することのできる例示的なコンピュータシステムを示す図である。
【発明を実施するための形態】
【0034】
以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
【0035】
様々な実施態様の詳細な説明は、添付の図面と併せて読むと、より良く理解することができる。図が様々な実施態様の機能ブロックの図を示す限りにおいて、機能ブロックは、必ずしもハードウェア回路間の分割を示すものではない。したがって、例えば、機能ブロック(例えば、モジュール、プロセッサ、又はメモリ)のうちの1つ以上は、単一のハードウェア(例えば、汎用信号プロセッサ又はランダムアクセスメモリのブロック、ハードディスクなど)又は複数のハードウェアに実装されてもよい。同様に、プログラムは、スタンドアロンプログラムであってもよく、オペレーティングシステム内のサブルーチンとして組み込まれてもよく、インストールされたソフトウェアパッケージ内の機能である等でもよい。様々な実施態様は、図面に示された配置及び手段に限定されないことを理解されたい。
【0036】
モジュールとして指定された図の処理エンジン及びデータベースは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかのモジュールは、異なるプロセッサ、コンピュータ若しくはサーバ上に実装されてもよく、又は多数の異なるプロセッサ、コンピュータ若しくはサーバの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。図のモジュールはまた、方法におけるフローチャートステップと考えることができる。また、モジュールは、必ずしもメモリ内に隣接して配置された全てのコードを有する必要はない。コードのいくつかの部分は、他のモジュール又は他の機能からのコードが間に配置された状態で、コードの他の部分から分離することができる。
【0037】
タンパク質構造に基づく病原性の決定
図1は、変異体の病原性を決定するためのシステムのプロセス100を示す流れ図である。ステップ102において、システムの配列アクセサ104は、参照アミノ酸配列及び代替アミノ酸配列にアクセスする。112において、システムの3D構造生成器114は、参照アミノ酸配列の3Dタンパク質構造を生成する。いくつかの実施態様では、3Dタンパク質構造は、ヒトタンパク質の相同性モデルである。一実施態様では、いわゆるSwissModel相同性モデリングパイプラインが、予測されたヒトタンパク質構造の公開リポジトリを提供する。別の実施態様では、いわゆるHHpred相同性モデリングは、鋳型構造から標的タンパク質の構造を予測するためにModellerと呼ばれるツールを使用する。
【0038】
タンパク質は、原子の集合及び3D空間におけるそれらの座標によって表される。アミノ酸は、炭素原子、酸素(O)原子、窒素(N)原子、及び水素(H)原子などの様々な原子を有することができる。原子は、側鎖原子及び骨格原子として更に分類することができる。骨格炭素原子は、アルファ炭素(Cα)原子及びベータ炭素(Cβ)原子を含むことができる。
【0039】
ステップ122において、システムの座標分類器124は、アミノ酸ベースで3Dタンパク質構造の3D原子座標を分類する。一実施態様では、アミノ酸ごとの分類は、3D原子座標を21個のアミノ酸カテゴリ(停止又はギャップアミノ酸カテゴリを含む)に帰属させることを含む。一例では、アルファ炭素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下にアルファ炭素原子をそれぞれ列挙することができる。別の例では、ベータ炭素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下にベータ炭素原子をそれぞれ列挙することができる。
【0040】
更に別の例では、酸素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下に酸素原子をそれぞれ列挙することができる。更に別の例では、窒素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下に窒素原子をそれぞれ列挙することができる。更に別の例では、水素原子のアミノ酸ごとの分類は、21個のアミノ酸カテゴリの各々の下に水素原子をそれぞれ列挙することができる。
【0041】
当業者は、種々の実施において、アミノ酸ごとの分類が、21個のアミノ酸カテゴリのサブセット及び異なる原子エレメントのサブセットを含むことができることを理解するであろう。
【0042】
ステップ132において、システムのボクセルグリッド生成器134は、ボクセルグリッドをインスタンス化する。ボクセルグリッドは、任意の解像度、例えば、3×3×3、5×5×5、7×7×7などを有することができる。ボクセルグリッド内のボクセルは、任意のサイズ、例えば、各辺に1オングストローム(Å)、各辺に2Å、各辺に3Åなどであることができる。当業者は、ボクセルが立方体であるので、これらの例示的な寸法が立方体寸法を指すことを理解するであろう。また、当業者は、これらの例示的な寸法が非限定的であり、ボクセルが任意の立方体寸法を有することができることを理解するであろう。
【0043】
ステップ142において、システムのボクセルグリッドセンタラ144は、アミノ酸レベルで標的変異体を経験する参照アミノ酸にボクセルグリッドを中心とする。一実施態様では、ボクセルグリッドは、標的変異体を経験する参照アミノ酸の特定の原子の原子座標、例えば、標的変異体を経験する参照アミノ酸のアルファ炭素原子の3D原子座標に中心付けられる。
【0044】
距離チャネル
ボクセルグリッド内のボクセルは、複数のチャネル(又は特徴)を有することができる。一実施態様では、ボクセルグリッド内のボクセルは、複数の距離チャネル(例えば、それぞれ、21個のアミノ酸カテゴリ(停止又はギャップアミノ酸カテゴリを含む)のための21個の距離チャネル)を有する。ステップ152において、システムの距離チャネル生成器154は、ボクセルグリッド内のボクセルに対するアミノ酸ごとの距離チャネルを生成する。距離チャネルは、21個のアミノ酸カテゴリの各々について独立して生成される。
【0045】
例えば、アラニン(A)アミノ酸カテゴリを考慮されたい。更に、例えば、ボクセルグリッドが3×3×3のサイズであり、27個のボクセルを有することを考慮されたい。次いで、一実施態様では、アラニン距離チャネルは、ボクセルグリッド内の27個のボクセルに対する27個の距離値をそれぞれ含む。アラニン距離チャネルにおける27個の距離値は、ボクセルグリッドにおける27個のボクセルのそれぞれの中心から、アラニンアミノ酸カテゴリにおけるそれぞれの最も近い原子まで測定される。
【0046】
一例では、アラニンアミノ酸カテゴリは、アルファ炭素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニンアルファ炭素原子である。別の例では、アラニンアミノ酸カテゴリは、ベータ炭素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニンベータ炭素原子である。
【0047】
更に別の例では、アラニンアミノ酸カテゴリは酸素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニン酸素原子である。更に別の例では、アラニンアミノ酸カテゴリは窒素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニン窒素原子である。更に別の例では、アラニンアミノ酸カテゴリは水素原子のみを含み、したがって、最も近い原子は、それぞれボクセルグリッド内の27個のボクセルに最も近接するアラニン水素原子である。
【0048】
アラニン距離チャネルと同様に、距離チャネル生成器154は、残りのアミノ酸カテゴリの各々について距離チャネル(すなわち、ボクセルごとの距離値のセット)を生成する。他の実施態様では、距離チャネル生成器154は、21個のアミノ酸カテゴリのサブセットについてのみ距離チャネルを生成する。
【0049】
他の実施態様では、最も近い原子の選択は、特定の原子タイプに限定されない。すなわち、対象アミノ酸カテゴリ内で、特定のボクセルへの最も近い原子が、最も近い原子の原子エレメントに関係なく選択され、特定のボクセルの距離値が、対象アミノ酸カテゴリの距離チャネルに含めるために計算される。
【0050】
更に他の実施態様では、距離チャネルは、原子エレメントベースで生成される。アミノ酸カテゴリについて距離チャネルを有する代わりに、又はそれに加えて、原子が属するアミノ酸に関係なく、原子エレメントカテゴリについて距離値を生成することができる。例えば、参照アミノ酸配列中のアミノ酸の原子が、7つの原子エレメント、炭素、酸素、窒素、水素、カルシウム、ヨウ素及び硫黄に及ぶことを考慮されたい。次いで、ボクセルグリッド内のボクセルは、7つの距離チャネルを有するように構成され、その結果、7つの距離チャネルの各々は、対応する原子エレメントカテゴリ内のみの最も近い原子への距離を指定する27個のボクセルごとの距離値を有する。他の実施態様では、7つの原子エレメントのサブセットのみについての距離チャネルを生成することができる。更に他の実施態様では、原子エレメントカテゴリ及び距離チャネル生成は、同じ原子エレメント、例えば、アルファ炭素(Cα)原子及びベータ炭素(Cβ)原子の変形形態に更に階層化することができる。
【0051】
更に他の実施態様では、距離チャネルは、原子タイプベースで生成することができ、例えば、側鎖原子のみについての距離チャネル及び骨格原子のみについての距離チャネルである。
【0052】
最も近い原子は、ボクセル中心から所定の最大走査半径(例えば、6オングストローム(Å))内で検索することができる。また、複数の原子が、ボクセルグリッド内の同じボクセルに最も近くてもよい。
【0053】
距離は、ボクセル中心の3D座標と原子の3D原子座標との間で計算される。また、距離チャネルは、同じ位置に中心付けられる(例えば、標的変異体を経験する参照アミノ酸のアルファ炭素原子の3D原子座標に中心付けられる)ボクセルグリッドを用いて生成される。
【0054】
距離は、ユークリッド距離であることができる。また、距離は、原子サイズ(又は原子の影響)によって(例えば、問題の原子のレナード-ジョーンズポテンシャル及び/又はファンデルワールス原子半径を使用することによって)パラメータ化することができる。また、距離値は、最大走査半径によって、又は対象アミノ酸カテゴリ若しくは対象原子エレメントカテゴリ若しくは対象原子タイプカテゴリ内の最も遠い最も近い原子の最大観察距離値によって正規化することができる。いくつかの実施態様では、ボクセルと原子との間の距離は、ボクセル及び原子の極座標に基づいて計算される。極座標は、ボクセルと原子との間の角度によってパラメータ化される。一実施態様では、この角度情報は、ボクセルの角度チャネルを生成するために(すなわち、距離チャネルとは無関係に)使用される。いくつかの実施態様では、最も近い原子と隣接原子(例えば、骨格原子)との間の角度は、ボクセルを用いて符号化される特徴として使用されることができる。
【0055】
参照対立遺伝子及び代替対立遺伝子チャネル
ボクセルグリッド内のボクセルはまた、参照対立遺伝子及び代替対立遺伝子チャネルを有することができる。ステップ162において、システムのワンホットエンコーダ164は、参照アミノ酸配列内の参照アミノ酸の参照ワンホット符号化と、代替アミノ酸配列内の代替アミノ酸の代替ワンホット符号化とを生成する。参照アミノ酸は標的変異体を経験する。代替アミノ酸は標的変異体である。参照アミノ酸及び代替アミノ酸は、参照アミノ酸配列及び代替アミノ酸配列においてそれぞれ同じ位置に位置する。参照アミノ酸配列及び代替アミノ酸配列は、1つの例外を除いて、同じ位置ごとのアミノ酸組成を有する。例外は、参照アミノ酸配列中の参照アミノ酸及び代替アミノ酸配列中の代替アミノ酸を有する位置である。
【0056】
ステップ172において、システムの連結器174は、アミノ酸ごとの距離チャネルと参照及び代替ワンホット符号化とを連結する。別の実施態様では、連結器174は、原子エレメントごとの距離チャネルと、参照ワンホット符号化及び代替ワンホット符号化とを連結する。更に別の実施態様では、連結器174は、原子タイプごとの距離チャネルと、参照ワンホット符号化及び代替ワンホット符号化とを連結する。
【0057】
ステップ182において、システムのランタイムロジック184は、連結されたアミノ酸ごとの/原子エレメントごとの/原子タイプごとの距離チャネル並びに参照及び代替ワンホット符号化を病原性分類器(病原性決定エンジン)を介して処理して、標的変異体の病原性を決定し、これは次に、アミノ酸レベルで標的変異体を生成する基礎となるヌクレオチド変異体の病原性決定として推測される。病原性分類器は、良性及び病原性変異体のラベル付きデータセットを使用して、例えば、誤差逆伝播アルゴリズムを使用して学習する。良性及び病原性変異体のラベル付きデータセット、並びに病原性分類器の例示的なアーキテクチャ及び学習に関する更なる詳細は、共有に係る米国特許出願第16/160,903号、同第16/160,986号、同第16/160,968号、及び同第16/407,149号に見出すことができる。
【0058】
図2は、タンパク質200の参照アミノ酸配列202及びタンパク質200の代替アミノ酸配列212を概略的に示す。タンパク質200は、N個のアミノ酸を含む。タンパク質200中のアミノ酸の位置は、1、2、3、・・・、Nとラベル付けされる。図示された例において、位置16は、基礎となるヌクレオチド変異体によって引き起こされるアミノ酸変異体214(突然変異)を経験する位置である。例えば、参照アミノ酸配列202については、1位は参照アミノ酸フェニルアラニン(F)を有し、16位は参照アミノ酸グリシン(G)204を有し、N位(例えば、配列202の最後のアミノ酸)は参照アミノ酸ロイシン(L)を有する。明確にするために図示されていないが、参照アミノ酸配列202中の残りの位置は、タンパク質200に特異的な順序で様々なアミノ酸を含有する。代替アミノ酸配列212は、参照アミノ酸グリシン(G)204の代わりに代替アミノ酸アラニン(A)214を含有する16位の変異体214を除いて、参照アミノ酸配列202と同じである。
【0059】
図3は、本明細書において「原子分類300」とも呼ばれる、参照アミノ酸配列202中のアミノ酸の原子のアミノ酸ごとの分類を示す。列302に列挙される20個の天然アミノ酸のうちの特定のタイプのアミノ酸は、タンパク質中で反復し得る。すなわち、特定のタイプのアミノ酸は、タンパク質中に2回以上存在し得る。タンパク質はまた、第21の停止又はギャップアミノ酸カテゴリによって分類されるいくつかの未決定のアミノ酸を有し得る。
図3の右列は、異なるアミノ酸からのアルファ炭素(C
α)原子のカウントを含む。
【0060】
具体的には、
図3は、参照アミノ酸配列202中のアミノ酸のアルファ炭素(C
α)原子のアミノ酸ごとの分類を示す。
図3の列308は、21個のアミノ酸カテゴリの各々における参照アミノ酸配列202について観察されたアルファ炭素原子の総数を列挙する。例えば、列308は、アラニン(A)アミノ酸カテゴリについて観察された11個のアルファ-炭素原子を列挙する。各アミノ酸は1つのアルファ炭素原子のみを有するので、これは、アラニンが参照アミノ酸配列202において11回生じることを意味する。別の例において、アルギニン(R)は、参照アミノ酸配列202において35回出現する。21のアミノ酸カテゴリにわたるアルファ炭素原子の総数は、828である。
【0061】
図4は、
図3の原子分類300に基づく参照アミノ酸配列202のアルファ炭素原子の3D原子座標のアミノ酸ごとの帰属を示す。これは、本明細書では「原子座標バケッティング400」と呼ばれる。
図4において、リスト404~440は、21個のアミノ酸カテゴリの各々にバケットされたアルファ炭素原子の3D原子座標を表にしたものである。
【0062】
図示された実施態様において、
図4のバケッティング400は、
図3の分類300に従う。例えば、
図3において、アラニンアミノ酸カテゴリは、11個のアルファ炭素原子を有し、したがって、
図4において、アラニンアミノ酸カテゴリは、
図3からの対応する11個のアルファ炭素原子の11個の3D原子座標を有する。この分類からバケッティングへの論理は、他のアミノ酸カテゴリについても
図3から
図4に流れる。しかしながら、この分類からバケッティングへの論理は、表現目的のためのものにすぎず、他の実施態様では、開示される技術は、ボクセルごとの最も近い原子を位置特定するために分類300及びバケッティング400を実行する必要はなく、より少ないステップ、追加のステップ、又は異なるステップを実行することができる。例えば、いくつかの実施態様では、開示される技術は、ソート基準(例えば、アミノ酸ごとの、原子エレメントごとの、原子タイプごとの)、所定の最大走査半径、及び距離のタイプ(例えば、ユークリッド、マハラノビス、正規化、非正規化)等のクエリパラメータを受け入れるように構成される検索クエリに応答して、1つ以上のデータベースからボクセルごとの最も近い原子を返すソート及び検索アルゴリズムを使用することによって、ボクセルごとの最も近い原子を位置特定することができる。開示される技術の様々な実施態様では、現在又は将来の技術分野からの複数のソート及び検索アルゴリズムは、類似して、ボクセルごとの最も近い原子を位置特定するために当業者によって使用されることができる。
【0063】
図4において、3D原子座標は、デカルト座標x、y、zによって表されるが、球面又は円筒座標などの任意のタイプの座標系が使用されてもよく、特許請求される主題は、この点において限定されない。いくつかの実施態様では、1つ以上のデータベースは、タンパク質中のアミノ酸のアルファ炭素原子及び他の原子の3D原子座標に関する情報を含み得る。このようなデータベースは、特定のタンパク質によって検索可能であり得る。
【0064】
上述したように、ボクセル及びボクセルグリッドは3Dエンティティである。しかしながら、明確にするために、図面は、2次元(2D)フォーマットのボクセル及びボクセルグリッドを示し、説明はそれを考察する。例えば、27個のボクセルの3×3×3ボクセルグリッドは、9個の2Dピクセルを有する3×3の2Dピクセルグリッドとして本明細書に示され、説明される。当業者は、2Dフォーマットが表現目的のためだけに使用され、3D対応物をカバーすることが意図される(すなわち、2Dピクセルは3Dボクセルを表し、2Dピクセルグリッドは3Dボクセルグリッドを表す)ことを理解するであろう。また、図面も縮尺通りではない。例えば、サイズ2オングストローム(Å)のボクセルは、単一ピクセルを使用して描写される。
【0065】
ボクセルごとの距離計算
図5は、本明細書では「ボクセルごとの距離計算500」とも呼ばれる、ボクセルごとの距離値を決定するプロセスを概略的に示す。図示の例では、ボクセルごとの距離値は、アラニン(A)距離チャネルについてのみ計算される。しかし、
図1ごとに上で論じたように、21個のアミノ酸カテゴリの各々について同じ距離計算論理を実行して、21個のアミノ酸ごとの距離チャネルを生成し、ベータ炭素原子のような他の原子タイプ並びに酸素、窒素、及び水素のような他の原子エレメントに更に拡張することができる。いくつかの実施態様では、原子は、病原性分類器の学習を原子配向に対して不変にするために、距離計算の前にランダムに回転される。
【0066】
図5では、ボクセルグリッド522は、インデックス(1,1)、(1,2)、(1,3)、(2,1)、(2,2)、(2,3)、(3,1)、(3,2)、及び(3,3)で特定される9つのボクセル514を有する。ボクセルグリッド522は、例えば、参照アミノ酸配列202の位置16のグリシン(G)アミノ酸のアルファ炭素原子の3D原子座標532に中心付けられるが、これは、
図2に関して上述したように、代替アミノ酸配列212では、位置16がグリシン(G)アミノ酸をアラニン(A)アミノ酸に突然変異させる変異体を経験するためである。また、ボクセルグリッド522の中心は、ボクセル(2,2)の中心と一致する。
【0067】
中心付けられたボクセルグリッド522は、21個のアミノ酸ごとの距離チャネルの各々についての、ボクセルごとの距離計算のために使用される。例えば、アラニン(A)距離チャネルから開始して、9個のボクセル514の各々の中心の3D座標と11個のアラニンアルファ炭素原子の3D原子座標402との間の距離を測定して、9個のボクセル514の各々について最も近いアラニンアルファ炭素原子を位置特定する。次いで、9つのボクセル514とそれぞれの最も近いアラニンアルファ炭素原子との間の9つの距離についての9つの距離値が、アラニン距離チャネルを構築するために使用される。結果として得られるアラニン距離チャネルは、ボクセルグリッド522内の9つのボクセル514と同じ順序で9つのアラニン距離値を配置する。
【0068】
上記のプロセスは、21個のアミノ酸カテゴリの各々について実行される。例えば、中心ボクセルグリッド522は、アルギニン(R)距離チャネルを計算するために同様に使用され、したがって、9個のボクセル514のそれぞれの中心の3D座標と、35個のアルギニンアルファ炭素原子の3D原子座標404との間の距離を測定して、9個のボクセル514の各々について最も近いアルギニンアルファ炭素原子を位置特定する。次いで、9つのボクセル514とそれぞれの最も近いアルギニンアルファ炭素原子との間の9つの距離についての9つの距離値が、アルギニン距離チャネルを構築するために使用される。結果として得られるアルギニン距離チャネルは、ボクセルグリッド522内の9つのボクセル514と同じ順序で9つのアルギニン距離値を配置する。21個のアミノ酸ごとの距離チャネルをボクセルごとに符号化して距離チャネルテンソルを形成する。
【0069】
具体的には、図示された例では、距離512は、ボクセルグリッド522のボクセル(1,1)の中心と、リスト402内のCαA5原子である最も近いアルファ炭素(Cα)原子との間である。したがって、ボクセル(1,1)に割り当てられた値は距離512である。別の例では、CαA4原子は、ボクセル(1,2)の中心に最も近いCα原子である。したがって、ボクセル(1,2)に割り当てられる値は、ボクセル(1,2)の中心とCαA4原子との間の距離である。更に別の例では、CαA6原子は、ボクセル(2,1)の中心に最も近いCα原子である。したがって、ボクセル(2,1)に割り当てられる値は、ボクセル(2,1)の中心とCαA6原子との間の距離である。更に別の例では、CαA6原子はまた、ボクセル(3,2)及び(3,3)の中心に最も近いCα原子である。したがって、ボクセル(3,2)に割り当てられた値は、ボクセル(3,2)の中心とCαA6原子との間の距離であり、ボクセル(3,3)に割り当てられた値は、ボクセル(3,3)の中心とCαA6原子との間の距離である。いくつかの実施態様では、ボクセル514に割り当てられた距離値は、正規化された距離であり得る。例えば、ボクセル(1,1)に割り当てられた距離値は、距離512を最大距離502(所定の最大走査半径)で除算したものであってもよい。いくつかの実施態様では、最も近い原子距離は、ユークリッド距離であってもよく、最も近い原子距離は、ユークリッド距離を最大の最も近い原子距離(例えば、最大距離502等)で除算することによって正規化されてもよい。
【0070】
上記のように、アルファ炭素原子を有するアミノ酸については、距離は、対応するボクセル中心から対応するアミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子の距離であり得る。更に、ベータ炭素原子を有するアミノ酸に関して、距離は、対応するボクセル中心から対応するアミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子の距離であり得る。同様に、骨格原子を有するアミノ酸について、距離は、対応するボクセル中心から対応するアミノ酸の最も近い骨格原子までの最も近い骨格原子の距離であり得る。同様に、側鎖原子を有するアミノ酸について、距離は、対応するボクセル中心から対応するアミノ酸の最も近い側鎖原子までの最も近い側鎖原子の距離であり得る。いくつかの実施態様では、距離は、追加的/代替的に、2番目、3番目、4番目に近い原子までの距離などを含むことができる。
【0071】
アミノ酸ごとの距離チャネル
図6は、21個のアミノ酸ごとの距離チャネル600の例を示す。
図6の各列は、21個のアミノ酸ごとの距離チャネル602~642の各々1つに対応する。各アミノ酸ごとの距離チャネルは、ボクセルグリッド522のボクセル514の各々についての距離値を含む。例えば、アラニン(A)についてのアミノ酸ごとの距離チャネル602は、ボクセルグリッド522のボクセル514のそれぞれについての距離値を含む。上述したように、ボクセルグリッド522は、体積3×3×3の3Dグリッドであり、27個のボクセルを含む。同様に、
図6は、ボクセル514を2次元(例えば、3×3グリッドの9個のボクセル)で示すが、各アミノ酸ごとの距離チャネルは、3×3×3ボクセルグリッドについて27個のボクセルごとの距離値を含み得る。
【0072】
方向性符号化
いくつかの実施態様では、開示される技術は、方向性パラメータを使用して、参照アミノ酸配列202内の参照アミノ酸の方向性を指定する。いくつかの実施態様では、開示される技術は、方向性パラメータを使用して、代替アミノ酸配列212内の代替アミノ酸の方向性を指定する。いくつかの実施態様では、開示される技術は、方向性パラメータを使用して、アミノ酸レベルで標的変異体を経験するタンパク質200内の位置を指定する。
【0073】
上述したように、21個のアミノ酸ごとの距離チャネル602~642内の全ての距離値は、それぞれの最も近い原子からボクセルグリッド522内のボクセル514まで測定される。これらの最も近い原子は、参照アミノ酸配列202中の参照アミノ酸の1つに由来する。最も近い原子を含有するこれらの元の参照アミノ酸は、2つのカテゴリに分類することができる:(1)参照アミノ酸配列202中の変異体を経験する参照アミノ酸204に先行する元の参照アミノ酸及び(2)参照アミノ酸配列202中の変異体を経験する参照アミノ酸204に続く元の参照アミノ酸。第1のカテゴリにおける元の参照アミノ酸は、先行参照アミノ酸と呼ぶことができる。第2のカテゴリにおける元の参照アミノ酸は、後続の参照アミノ酸と呼ぶことができる。
【0074】
方向性パラメータは、先行参照アミノ酸に由来する最も近い原子から測定される21個のアミノ酸ごとの距離チャネル602~642における距離値に適用される。一実施態様では、方向性パラメータは、そのような距離値と乗算される。方向性パラメータは、-1などの任意の数であることができる。
【0075】
方向性パラメータの適用の結果として、21個のアミノ酸ごとの距離チャネル600は、タンパク質200のどの末端が開始末端であり、どの末端が終了末端であるかを病原性分類器に示すいくつかの距離値を含む。これはまた、病原性分類器が、距離チャネル並びに参照チャネル及び対立遺伝子チャネルによって供給される3Dタンパク質構造情報からタンパク質配列を再構築することを可能にする。
【0076】
距離チャネルテンソル
図7は、距離チャネルテンソル700の概略図である。距離チャネルテンソル700は、
図6からのアミノ酸ごとの距離チャネル600のボクセル化表現である。距離チャネルテンソル700において、21個のアミノ酸ごとの距離チャネル602~642は、カラー画像のRGBチャネルのようにボクセルごとに連結される。距離チャネルテンソル700のボクセル化された次元数は、21×3×3×3である(ここで、21は21個のアミノ酸カテゴリを示し、3×3×3は27個のボクセルを有する3Dボクセルグリッドを示す)。しかし、
図7は、次元数21×3×3の2D描写である。
【0077】
ワンホット符号化
図8は、参照アミノ酸204及び代替アミノ酸214のワンホット符号化800を示す。
図8において、左列は、参照アミノ酸グリシン(G)204のワンホット符号化802であり、1はグリシンアミノ酸カテゴリについてであり、0は他の全てのアミノ酸カテゴリについてである。
図8において、右列は、変異体/代替アミノ酸アラニン(A)214のワンホット符号化804であり、1はアラニンアミノ酸カテゴリについてであり、0は他の全てのアミノ酸カテゴリについてである。
【0078】
図9は、ボクセル化されたワンホット符号化参照アミノ酸902及びボクセル化されたワンホット符号化変異体/代替アミノ酸912の概略図である。ボクセル化されたワンホット符号化参照アミノ酸902は、
図8からの参照アミノ酸グリシン(G)204のワンホット符号化802のボクセル化表現である。ボクセル化されたワンホット符号化代替アミノ酸912は、
図8からの変異体/代替アミノ酸アラニン(A)214のワンホット符号化804のボクセル化表現である。ボクセル化されたワンホット符号化参照アミノ酸902のボクセル化次元数は、21×1×1×1である(ここで、21は21個のアミノ酸カテゴリを示す)。しかし、
図9は、次元数21×1×1の2D描写である。同様に、ボクセル化されたワンホット符号化代替アミノ酸912のボクセル化次元数は、21×1×1×1である(ここで、21は21個のアミノ酸カテゴリを示す)。しかし、
図9は、次元数21×1×1の2D描写である。
【0079】
参照対立遺伝子テンソル
図10は、
図7の距離チャネルテンソル700と参照対立遺伝子テンソル1004とをボクセルごとに連結する連結プロセス1000を概略的に示す。参照対立遺伝子テンソル1004は、
図9からのボクセル化されたワンホット符号化参照アミノ酸902のボクセルごとの集合(反復/クローニング/複製)である。すなわち、ボクセル化されたワンホット符号化参照アミノ酸902の複数のコピーは、参照対立遺伝子テンソル1004がボクセルグリッド522内のボクセル514の各々についてボクセル化されたワンホット符号化参照アミノ酸910の対応するコピーを有するように、ボクセルグリッド522内のボクセル514の空間配置に対して互いにボクセルごとに連結される。
【0080】
連結プロセス1000は、連結テンソル1010を生成する。参照対立遺伝子テンソル1004のボクセル化された次元数は、21×3×3×3である(ここで、21は21個のアミノ酸カテゴリを示し、3×3×3は27個のボクセルを有する3Dボクセルグリッドを示す)。しかし、
図10は、次元数21×3×3を有する参照対立遺伝子テンソル1004の2D描写である。連結テンソル1010のボクセル化された次元数は、42×3×3×3である。しかし、
図10は、次元数42×3×3を有する連結テンソル1010の2D描写である。
【0081】
代替対立遺伝子テンソル
図11は、
図7の距離チャネルテンソル700、
図10の参照対立遺伝子テンソル1004、及び代替対立遺伝子テンソル1104をボクセルごとに連結する連結プロセス1100を概略的に示す。代替対立遺伝子テンソル1104は、
図9からのボクセル化されたワンホット符号化代替アミノ酸912のボクセルごとの集合(反復/クローニング/複製)である。すなわち、ボクセル化されたワンホット符号化代替アミノ酸912の複数のコピーは、代替対立遺伝子テンソル1104がボクセルグリッド522内のボクセル514の各々についてボクセル化されたワンホット符号化代替アミノ酸910の対応するコピーを有するように、ボクセルグリッド522内のボクセル514の空間的配置に従って互いにボクセルごとに連結される。
【0082】
連結プロセス1100は、連結テンソル1110を生成する。代替対立遺伝子テンソル1104のボクセル化された次元数は、21×3×3×3である(ここで、21は21個のアミノ酸カテゴリを示し、3×3×3は27個のボクセルを有する3Dボクセルグリッドを示す)。しかし、
図11は、次元数21×3×3を有する代替対立遺伝子テンソル1104の2D描写である。連結テンソル1110のボクセル化された次元数は63×3×3×3である。しかし、
図11は、次元数63×3×3を有する連結テンソル1110の2D描写である。
【0083】
いくつかの実施態様では、ランタイムロジック184は、病原性分類器を介して連結テンソル1110を処理して、変異体/代替アミノ酸アラニン(A)214の病原性を決定し、これは次に、変異体/代替アミノ酸アラニン(A)214を生成する基礎となるヌクレオチド変異体の病原性決定として推測される。
【0084】
進化的保存チャネル
変異体の機能的結果を予測することは、少なくとも部分的には、タンパク質ファミリーにとって重要なアミノ酸が負の選択による進化を通じて保存されている(すなわち、これらの部位でのアミノ酸変化が過去に有害であった)という仮定、及びこれらの部位での突然変異がヒトにおいて病原性である(疾患を引き起こす)尤度が高いという仮定に依存する。一般に、標的タンパク質の相同配列が収集及び整列され、保存のメトリックは、アラインメント中の標的位置において観察される異なるアミノ酸の重み付けされた頻度に基づいて計算される。
【0085】
したがって、開示される技術は、距離チャネルテンソル700、参照対立遺伝子テンソル1004、及び代替対立遺伝子テンソル1104を進化的チャネルと連結する。進化的チャネルの一例は、汎アミノ酸保存頻度である。進化的チャネルの別の例は、アミノ酸ごとの保存頻度である。
【0086】
いくつかの実施態様では、進化的チャネルは、位置特異的重み行列(PWM)を使用して構築される。他の実施態様では、進化的チャネルは、位置固有頻度行列(PSFM)を使用して構築される。更に他の実施態様では、進化的チャネルは、SIFT、PolyPhen、及びPANTHER-PSECのような計算ツールを使用して構築される。更に他の実施態様では、進化的チャネルは、進化的保存に基づく保存チャネルである。保存は、タンパク質中の所定の部位における進化的変化を防止するように作用した負の選択の効果も反映するので、保存に関連する。
【0087】
汎アミノ酸進化的プロファイル
図12は、開示される技術の一実施態様による、最も近い原子の汎アミノ酸保存頻度を決定し、ボクセルに割り当てる(ボクセル化する)ためのシステムのプロセス1200を示す流れ図である。
図12、
図13、
図14、
図15、
図16、
図17、及び
図18は、並行して説明される。
【0088】
ステップ1202において、システムの類似配列ファインダ1204は、参照アミノ酸配列202に類似(相同)するアミノ酸配列を検索する。類似のアミノ酸配列は、霊長類、哺乳動物、及び脊椎動物のような複数の種から選択することができる。
【0089】
ステップ1212において、システムのアライナ1214は、参照アミノ酸配列202を類似アミノ酸配列と位置ごとに整列させ、すなわち、アライナ1214は、多重配列アラインメントを実行する。
図14は、99の種にわたる参照アミノ酸配列202の例示的な多重配列アラインメント1400を示す。いくつかの実施態様では、多重配列アラインメント1400は、例えば、霊長類のための第1の位置頻度行列1402、哺乳動物のための第2の位置頻度行列1412、及び霊長類のための第3の位置頻度行列1422を生成するために分割することができる。他の実施態様では、99の種にわたって単一の位置頻度行列が生成される。
【0090】
ステップ1222において、システムの汎アミノ酸保存頻度計算器1224は、多重配列アラインメントを使用して、参照アミノ酸配列202中の参照アミノ酸の汎アミノ酸保存頻度を決定する。
【0091】
ステップ1232において、システムの最も近い原子ファインダ1234は、ボクセルグリッド522内のボクセル514への最も近い原子を見出す。いくつかの実施態様では、ボクセルごとの最も近い原子の検索は、任意の特定のアミノ酸カテゴリ又は原子タイプに限定されなくてもよい。すなわち、ボクセルごとの最も近い原子は、それらがそれぞれのボクセル中心に最も近接した原子である限り、アミノ酸カテゴリ及びアミノ酸タイプにわたって選択することができる。他の実施態様では、ボクセルごとの最も近い原子の探索は、酸素、窒素、及び水素などの特定の原子エレメントのみ、又はアルファ炭素原子のみ、又はベータ炭素原子のみ、又は側鎖原子のみ、又は骨格原子のみなど、特定の原子カテゴリのみに限定することができる。
【0092】
ステップ1242において、システムのアミノ酸選択器1244は、ステップ1232において特定された最も近い原子を含有する参照アミノ酸配列202中の参照アミノ酸を選択する。このような参照アミノ酸は、最も近い参照アミノ酸と呼ぶことができる。
図13は、ボクセルグリッド522内のボクセル514への最も近い原子1302を位置特定し、ボクセルグリッド522内のボクセル514への最も近い原子1302を含有する最も近い参照アミノ酸1312をそれぞれマッピングする例を示す。これは、
図13において「ボクセルから最も近いアミノ酸へのマッピング1300」として特定される。
【0093】
ステップ1252において、システムのボクセル化器1254は、最も近い参照アミノ酸の汎アミノ酸保存頻度をボクセル化する。
図15は、本明細書において「ボクセルごとの進化的プロファイル決定1500」とも呼ばれる、ボクセルグリッド522における第1のボクセル(1,1)についての汎アミノ酸保存頻度配列を決定する例を示す。
【0094】
図13を参照すると、第1のボクセル(1,1)にマッピングされた最も近い参照アミノ酸は、参照アミノ酸配列202における15位のアスパラギン酸(D)アミノ酸である。次いで、参照アミノ酸配列202と、例えば、99種の99個の相同アミノ酸配列との多重配列アラインメントを、15位で分析する。このような位置特異的及び異種間分析は、21個のアミノ酸カテゴリの各々からのアミノ酸のいくつの例が、100個の整列されたアミノ酸配列(すなわち、参照アミノ酸配列202+99個の相同アミノ酸配列)にわたって15位で見出されるかを明らかにする。
【0095】
図15に示される例において、アスパラギン酸(D)アミノ酸は、100個の整列されたアミノ酸配列のうち96個において15位に見出される。したがって、アスパラギン酸アミノ酸カテゴリ1504には、0.96の汎アミノ酸保存頻度が割り当てられる。同様に、示された例において、バリン(V)酸アミノ酸は、100の整列されたアミノ酸配列のうち4つにおいて15位に見出される。したがって、バリン酸アミノ酸カテゴリ1514には、0.04の汎アミノ酸保存頻度が割り当てられる。他のアミノ酸カテゴリからのアミノ酸の例は15位で検出されないので、残りのアミノ酸カテゴリには0の汎アミノ酸保存頻度が割り当てられる。このようにして、21個のアミノ酸カテゴリの各々に、それぞれの汎アミノ酸保存頻度が割り当てられ、これは、第1のボクセル(1,1)についての汎アミノ酸保存頻度配列1502において符号化することができる。
【0096】
図16は、本明細書では「ボクセルから進化的プロファイルへのマッピング1600」とも呼ばれる、
図15に記載される位置頻度ロジックを使用してボクセルグリッド522内のボクセル514のそれぞれについて決定されたそれぞれの汎アミノ酸保存頻度1612~1692を示す。
【0097】
次いで、ボクセルごとの進化的プロファイル1602は、
図17に示すボクセル化されたボクセルごとの進化的プロファイル1700を生成するために、ボクセル化器1254によって使用される。多くの場合、ボクセルグリッド522内のボクセル514の各々は、異なる汎アミノ酸保存頻度配列を有し、したがって、ボクセルが異なる最も近い原子に、したがって異なる最も近い参照アミノ酸に規則的にマッピングされるので、ボクセルごとに異なるボクセル化進化的プロファイルを有する。もちろん、2つ以上のボクセルが同じ最も近い原子を有し、それによって同じ最も近い参照アミノ酸を有する場合、同じ汎アミノ酸保存頻度配列及び同じボクセルごとのボクセル化進化的プロフィールが、2つ以上のボクセルの各々に割り当てられる。
【0098】
図18は、ボクセル化されたボクセルごとの進化的プロファイル1700が、ボクセルグリッド522内のボクセル514の空間的配置に従って互いにボクセルごとに連結される、進化的プロファイルテンソル1800の例を示す。進化的プロファイルテンソル1800のボクセル化された次元数は、21×3×3×3である(ここで、21は21個のアミノ酸カテゴリを示し、3×3×3は27個のボクセルを有する3Dボクセルグリッドを示す)。しかし、
図18は、次元数21×3×3を有する進化的プロファイルテンソル1800の2D描写である。
【0099】
ステップ1262において、連結器174は、進化的プロファイルテンソル1800を距離チャネルテンソル700とボクセルごとに連結する。いくつかの実施態様では、進化的プロファイルテンソル1800は、連結テンソル1110とボクセルごとに連結されて、次元数84×3×3×3の更なる連結テンソル(図示せず)を生成する。
【0100】
ステップ1272において、ランタイムロジック184は、病原性分類器を介して次元84×3×3×3の更なる連結テンソルを処理して、標的変異体の病原性を決定し、これは次に、アミノ酸レベルで標的変異体を生成する基礎となるヌクレオチド変異体の病原性決定として推測される。
【0101】
アミノ酸ごとの進化的プロファイル
図19は、最も近い原子のアミノ酸ごとの保存頻度を決定し、ボクセルに割り当てる(ボクセル化する)ためのシステムのプロセス1900を示す流れ図である。
図19において、ステップ1202及び1212は
図12と同じである。
【0102】
ステップ1922において、システムのアミノ酸ごとの保存頻度計算器1924は、多重配列アラインメントを使用して、参照アミノ酸配列202における参照アミノ酸のアミノ酸ごとの保存頻度を決定する。
【0103】
ステップ1932において、システムの最も近い原子ファインダ1934は、ボクセルグリッド522内のボクセル514の各々について、21個のアミノ酸カテゴリの各々にわたって21個の最も近い原子を見出す。21個の最も近い原子の各々は、それらが異なるアミノ酸カテゴリから選択されるので、互いに異なる。これは、特定のボクセルについての21個の固有の最も近い参照アミノ酸の選択につながり、これは次に、特定のボクセルについての21個の固有の位置頻度行列の生成につながり、これは次に、特定のボクセルについての21個の固有のアミノ酸ごとの保存頻度の決定につながる。
【0104】
ステップ1942において、システムのアミノ酸選択器1944は、ボクセルグリッド522内のボクセル514の各々について、ステップ1932において特定された21個の最も近い原子を含有する参照アミノ酸配列202内の21個の参照アミノ酸を選択する。このような参照アミノ酸は、最も近い参照アミノ酸と呼ぶことができる。
【0105】
ステップ1952において、システムのボクセル化器1954は、ステップ1942において特定のボクセルについて特定された21個の最も近い参照アミノ酸のpen-アミノ酸保存頻度をボクセル化する。21個の最も近い参照アミノ酸は、異なる基礎となる最も近い原子に対応するので、参照アミノ酸配列202中の21個の異なる位置に必然的に位置する。したがって、特定のボクセルについて、21個の最も近い参照アミノ酸について21個の位置頻度行列を生成することができる。21個の位置頻度行列は、
図12~15に関して上述したように、その相同アミノ酸配列が参照アミノ酸配列202と位置ごとに整列される複数の種にわたって生成することができる。
【0106】
次いで、21個の位置頻度行列を使用して、21個の位置特異的保存スコアを、特定のボクセルについて特定された21個の最も近い参照アミノ酸について計算することができる。これら21個の位置特異的保存スコアは、
図12の汎アミノ酸保存頻度配列1502と同様に、特定のボクセルに対するpen-アミノ酸保存頻度を形成する。ただし、21個のアミノ酸カテゴリにわたる21個の最も近い参照アミノ酸は、異なる位置頻度行列をもたらし、それによって異なるアミノ酸ごとの保存頻度をもたらす異なる位置を必然的に有するので、配列1502は多くの0エントリを有するが、アミノ酸ごとの保存頻度配列における各要素(特徴)は値(例えば、浮動小数点数)を有する。
【0107】
上記のプロセスは、ボクセルグリッド522内のボクセル514の各々に対して実行され、結果として得られるボクセルごとのアミノ酸ごとの保存頻度は、
図12~
図18に関して説明した汎アミノ酸保存頻度と同様に、病原性決定のためにボクセル化され、テンソル化され、連結され、処理される。
【0108】
アノテーションチャネル
図20は、距離チャネルテンソル700と連結されるボクセル化されたアノテーションチャネル2000の様々な例を示す。いくつかの実施態様では、ボクセル化されたアノテーションチャネルは、異なるタンパク質アノテーション、例えば、アミノ酸(残基)が膜貫通領域、シグナルペプチド、活性部位、若しくは任意の他の結合部位の一部であるかどうか、又は残基が翻訳後修飾PathRatioなどを受けるかどうかのワンホットインジケータである(Pei P,Zhang A:A Topological Measurement for Weighted Protein Interaction Network.CSB 2005,268-278を参照)。アノテーションチャネルの追加の例は、以下の特定の実施態様のセクション及び特許請求の範囲において見出すことができる。
【0109】
ボクセル化されたアノテーションチャネルは、ボクセルが、ボクセル化された参照対立遺伝子及び代替対立遺伝子配列のような同じアノテーション配列を有することができるように(例えば、アノテーションチャネル2002、2004、2006)、又はボクセルが、ボクセル化されたボクセルごとの進化的プロファイル1700のようなそれぞれのアノテーション配列を有することができるように(例えば、アノテーションチャネル2012、2014、2016(異なる色によって示されるような))、ボクセルごとで配置される。
【0110】
アノテーションチャネルは、
図12~18に関して説明した汎アミノ酸保存頻度と同様に、病原性決定のためにボクセル化され、テンソル化され、連結され、処理される。
【0111】
構造信頼度チャネル
開示される技術はまた、様々なボクセル化された構造信頼度チャネルを距離チャネルテンソル700と連結することができる。構造信頼度チャネルのいくつかの例には、GMQEスコア(SwissModelによって提供される);が挙げられる。B因子;相同性モデルの温度因子列(残基がタンパク質構造における(物理的)制約をどの程度満たすかを示す);ボクセルの中心に最も近い残基に対する整列鋳型タンパク質の正規化された数(HHpredによって提供されるアラインメント、例えば、ボクセルは、6つの鋳型構造のうちの3つが整列する残基に最も近く、特徴が値3/6=0.5を有することを意味する);最小、最大、及び平均TMスコア;並びにボクセルに最も近い残基に整列する鋳型タンパク質構造の予測TMスコア(上記の例を続けると、3つの鋳型構造がTMスコア0.5、0.5、及び1.5を有すると仮定すると、最小は0.5であり、平均は2/3であり、最大は1.5である)が挙げられる。TMスコアは、HHpredによってタンパク質鋳型ごとに提供することができる。構造信頼度チャネルの追加の例は、以下の特定の実施態様のセクション及び特許請求の範囲において見出すことができる。
【0112】
ボクセル化された構造信頼度チャネルは、ボクセルが、ボクセル化された参照対立遺伝子及び代替対立遺伝子配列のような同じ構造信頼度配列を有することができるように、又はボクセルが、ボクセル化されたボクセルごとの進化的プロファイル1700のようなそれぞれの構造信頼度配列を有することができるように、ボクセルごとに配置される。
【0113】
構造信頼度チャネルは、
図12~18に関して説明した汎アミノ酸保存頻度と同様に、病原性決定のためにボクセル化され、テンソル化され、連結され、処理される。
【0114】
病原性分類器
図21は、標的変異体の病原性決定2106のために病原性分類器2108への入力2102として提供することができる入力チャネルの異なる組み合わせ及び順列を示す。入力2102のうちの1つは、距離チャネル生成器2272によって生成される距離チャネル2104であることができる。
図22は、距離チャネル2104を計算する異なる方法を示す。一実施態様では、距離チャネル2104は、アミノ酸に関係なく、複数の原子エレメントにわたるボクセル中心と原子との間の距離2202に基づいて生成される。いくつかの実施態様では、距離2202は、正規化された距離2202aを生成するために最大走査半径によって正規化される。別の実施態様では、距離チャネル2104は、アミノ酸ベースでボクセル中心とアルファ炭素原子との間の距離2212に基づいて生成される。いくつかの実施態様では、距離2212は、正規化された距離2212aを生成するために最大走査半径によって正規化される。別の実施態様では、距離チャネル2104は、アミノ酸ベースでボクセル中心とベータ炭素原子との間の距離2222に基づいて生成される。いくつかの実施態様では、距離2222は、正規化された距離2222aを生成するために最大走査半径によって正規化される。別の実施態様では、距離チャネル2104は、アミノ酸ベースでボクセル中心と側鎖原子との間の距離2232に基づいて生成される。いくつかの実施態様では、距離2232は、正規化された距離2232aを生成するために最大走査半径によって正規化される。別の実施態様では、距離チャネル2104は、アミノ酸ベースでボクセル中心と骨格原子との間の距離2242に基づいて生成される。いくつかの実施態様では、距離2242は、正規化された距離2242aを生成するために最大走査半径によって正規化される。更に別の実施態様では、距離チャネル2104は、原子タイプ及びアミノ酸タイプに関係なく、ボクセル中心とそれぞれの最も近い原子との間の距離2252(1つの特徴)に基づいて生成される。更に別の実施態様では、距離チャネル2104は、ボクセル中心と非標準アミノ酸からの原子との間の距離2262(1つの特徴)に基づいて生成される。いくつかの実施態様では、ボクセルと原子との間の距離は、ボクセル及び原子の極座標に基づいて計算される。極座標は、ボクセルと原子との間の角度によってパラメータ化される。一実施態様では、この角度情報は、ボクセルの角度チャネルを生成するために(すなわち、距離チャネルとは無関係に)使用される。いくつかの実施態様では、最も近い原子と隣接原子(例えば、骨格原子)との間の角度は、ボクセルを用いて符号化される特徴として使用されることができる。
【0115】
入力2102の別のものは、指定された半径内の欠失原子を示す特徴2114であることができる。
【0116】
入力2102の別のものは、参照アミノ酸のワンホット符号化2124であることができる。入力2102の別のものは、変異体/代替アミノ酸のワンホット符号化2134であることができる。
【0117】
入力2102の別のものは、
図23に示される進化的プロファイル生成器2372によって生成される進化的チャネル2144であることができる。一実施態様では、進化的チャネル2144は、汎アミノ酸保存頻度2302に基づいて生成することができる。一実施態様では、進化的チャネル2144は、汎アミノ酸保存頻度2312に基づいて生成することができる。
【0118】
入力2102の別のものは、欠失している残基又は欠失している進化的プロファイルを示す特徴2154であることができる。
【0119】
入力2102の別のものは、
図24に示されるアノテーション生成器2472によって生成されるアノテーションチャネル2164であることができる。一実施態様では、アノテーションチャネル2154は、分子処理アノテーション2402に基づいて生成することができる。別の実施態様では、アノテーションチャネル2154は、領域アノテーション2412に基づいて生成することができる。更に別の実施態様では、アノテーションチャネル2154は、部位アノテーション2422に基づいて生成することができる。更に別の実施態様では、アノテーションチャネル2154は、アミノ酸修飾アノテーション2432に基づいて生成することができる。更に別の実施態様では、アノテーションチャネル2154は、二次構造アノテーション2442に基づいて生成することができる。更に別の実施態様では、アノテーションチャネル2154は、実験情報アノテーション2452に基づいて生成することができる。
【0120】
入力2102の別のものは、
図25に示される構造信頼度生成器2572によって生成される構造信頼度チャネル2174であることができる。一実施態様では、構造信頼度2174は、グローバルモデル品質推定(GMQE)2502に基づいて生成することができる。別の実施態様では、構造信頼度2174は、定性的モデルエネルギー解析(QMEAN)スコア2512に基づいて生成することができる。更に別の実施態様では、構造信頼度2174は、温度因子2522に基づいて生成することができる。更に別の実施態様では、構造信頼度2174は、鋳型モデリングスコア2542に基づいて生成することができる。鋳型モデリングスコア2542の例には、最小鋳型モデリングスコア2542a、平均鋳型モデリングスコア2542b、及び最大鋳型モデリングスコア2542cが含まれる。
【0121】
当業者は、入力チャネルの任意の順列及び組み合わせが、標的変異体の病原性決定2106のために病原性分類器2108を通して処理するための入力に連結することができることを理解するであろう。いくつかの実施態様では、入力チャネルのサブセットのみが連結することができる。入力チャネルは、任意の順序で連結することができる。一実施態様では、入力チャネルは、テンソル生成器(入力エンコーダ)2110によって単一のテンソルに連結することができる。次いで、この単一のテンソルは、標的変異体の病原性決定2106のために病原性分類器2108への入力として提供することができる。
【0122】
一実施態様では、病原性分類器2108は、複数の畳み込み層を有する畳み込みニューラルネットワーク(CNN)を使用する。別の実施態様では、病原性分類器2108は、長期短期記憶ネットワーク(LSTM)、双方向LSTM(Bi-LSTM)、及びゲートされた回帰型ユニット(GRU)などのリカレントニューラルネットワーク(RNN)を使用する。更に別の実施態様では、病原性分類器2108は、CNNとRNNの両方を使用する。更に別の実施態様では、病原性分類器2108は、グラフ構造化データにおける依存性をモデル化するグラフ畳み込みニューラルネットワークを使用する。更に別の実施態様では、病原性分類器2108は、変分オートエンコーダ(VAE)を使用する。更に別の実施態様では、病原性分類器2108は、敵対的生成ネットワーク(GAN)を使用する。更に別の実施態様では、病原性分類器2108は、例えば、Transformer及びBERTによって実施されるものなどの自己注意に基づく言語モデルとすることもできる。
【0123】
更に他の実施態様では、病原性分類器2108は、1D畳み込み、2D畳み込み、3D畳み込み、4D畳み込み、5D畳み込み、拡張又は膨張畳み込み、転置畳み込み、奥行分離可能な畳み込み、点単位畳み込み、1×1畳み込み、グループ畳み込み、平坦化された畳み込み、空間及びクロスチャネルの畳み込み、シャッフルされたグループ化畳み込み、空間的な分離可能な畳み込み、並びに逆畳み込みを使用することができる。病原性分類器2108は、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ以上の損失関数を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期確率的勾配降下法(stochastic gradient descent、SGD)のような、任意の並列、効率、及び圧縮方式を使用することができる。それは、アップサンプリング層、ダウンサンプリング層、回帰接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残差ブロック、残差接続、ハイウェイ接続、スキップ接続、覗き穴結合、活性化関数(例えば、正規化線形ユニット(ReLU)、Leaky ReLU、指数関数的線形ユニット(ELU)、シグモイド及び双曲線正接関数(tanh)などの非線形変換関数)、バッチ正規化層、正則化層、ドロップアウト、プーリング層(例えば、最大又は平均プーリング)、グローバル平均プーリング層、注意機構、及びガウス誤差線形ユニットを含むことができる。
【0124】
病原性分類器2108は、逆伝播ベースの勾配更新技法を使用して学習する。病原性分類器2108が学習するために使用することのできる例示的な勾配降下技術としては、確率的勾配降下、バッチ勾配降下、及びミニバッチ勾配降下が挙げられる。病原性分類器2108が学習するために使用することのできる勾配降下最適化アルゴリズムのいくつかの例としては、Momentum、Nestorv加速勾配、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam、及びAMSGradが挙げられる。他の実施態様では、病原性分類器2108は、教師なし学習、半教師あり学習、自己学習、強化学習、マルチタスク学習、マルチモーダル学習、転移学習、知識蒸留などによって学習することができる。
【0125】
図26は、開示される技術の一実施態様による、病原性分類器2108の例示的な処理アーキテクチャ2600を示す。処理アーキテクチャ2600は、処理モジュール2606、2610、2614、2618、2622、2626、2630、2634、2638、及び2642のカスケードを含み、その各々は、1D畳み込み(1×1×1 CONV)、3D畳み込み(3×3×3 CONV)、ReLU非線形性、及びバッチ正規化(BN)を含むことができる。処理モジュールの他の例は、全結合(FC)層、ドロップアウト層、平坦化層、並びに良性クラス及び病原性クラスに属する標的変異体について指数関数的に正規化されたスコアを生成する最終ソフトマックス層を含む。
図26において、「64」は、特定の処理モジュールによって適用される畳み込みフィルタの数を示す。
図26では、入力ボクセル2602のサイズは15×15×15×8である。
図26はまた、処理アーキテクチャ2600によって生成された中間入力2604、2608、2612、2616、2620、2624、2628、2632、2636、及び2640のそれぞれの体積次元を示す。
【0126】
図27は、開示される技術の一実施態様による、病原性分類器2108の例示的な処理アーキテクチャ2700を示す。処理アーキテクチャ2700は、1D畳み込み(CONV 1D)、3D畳み込み(CONV 3D)、ReLU非線形性、及びバッチ正規化(BN)などの処理モジュール2708、2714、2720、2726、2732、2738、2744、2750、2756、2762、2768、2774、及び2780のカスケードを含む。処理モジュールの他の例は、全結合(密)層、ドロップアウト層、平坦化層、並びに良性クラス及び病原性クラスに属する標的変異体について指数関数的に正規化されたスコアを生成する最終ソフトマックス層を含む。
図27において、「64」及び「32」は、特定の処理モジュールによって適用される畳み込みフィルタの数を示す。
図27では、入力層2702によって供給される入力ボクセル2704のサイズは、7×7×7×108である。
図27はまた、処理アーキテクチャ2700によって生成された中間入力2710、2716、2722、2728、2734、2740、2746、2752、2758、2764、2770、2776、及び2782、並びに結果として生じる中間出力2706、2712、2718、2724、2730、2736、2742、2748、2754、2760、2766、2772、2778、及び2784のそれぞれの体積次元を示す。
【0127】
当業者であれば、他の現在及び将来の人工知能、機械学習、及び深層学習モデル、データセット、及び学習技法を、開示される技術の精神から逸脱することなく、開示される変異体病原性分類器に組み込むことができることを理解するであろう。
【0128】
発明性及び非自明性の客観的な指標としての性能結果
本明細書に開示される変異体病原性分類器は、3Dタンパク質構造に基づいて病原性予測を行い、「PrimateAI 3D」と称される。「Primate AI」は、タンパク質配列に基づいて病原性予測を行う、共有に係る以前に開示された変異体病原性分類器である。PrimateAIについての更なる詳細は、共有に係る米国特許出願第16/160,903号、同第16/160,986号、同第16/160,968号、及び同第16/407,149号、並びにSundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)に見出すことができる。
【0129】
図28、29、30、及び31は、PrimateAIに対するPrimateAI 3Dの分類の優位性を実証するためのベンチマークモデルとしてPrimateAIを使用する。
図28、29、30、及び31における性能結果は、複数の検証セットにわたって病原性変異体から良性変異体を正確に区別する分類タスクに基づいて生成される。PrimateAI 3Dは、複数の検証セットとは異なる学習セットで学習する。PrimateAI 3Dは、良性データセットとして使用される一般的なヒト変異体及び霊長類由来の変異体に対して学習し、一方、トリヌクレオチド文脈に基づいてシミュレートされた変異体は、ラベルなし又は偽病原性データセットとして使用される。
【0130】
新たな発達遅延障害(新たなDDD)は、Primate AIに対するPrimate AI 3Dの分類精度を比較するために使用される検証セットの一例である。新たなDDD検証セットは、DDDを有する個人からの変異体を病原性としてラベル付けし、DDDを有する個人の健康な血縁者からの同じ変異体を良性としてラベル付けする。同様のラベル付けスキームが、
図31に示される自閉症スペクトラム障害(ASD)検証セットと共に使用される。
【0131】
BRCA1は、Primate AIに対するPrimate AI 3Dの分類精度を比較するために使用される検証セットの別の例である。BRCA1検証セットは、BRCA1遺伝子のタンパク質をシミュレートする合成で生成された参照アミノ酸配列を良性変異体としてラベル付けし、BRCA1遺伝子のタンパク質をシミュレートする合成で改変された対立遺伝子アミノ酸配列を病原性変異体としてラベル付けする。TP53遺伝子、TP53S3遺伝子及びその変異体、並びに
図31に示される他の遺伝子及びそれらの変異体の異なる検証セットを用いて、同様のラベル付けスキームを使用する。
【0132】
図28は、青い水平バーを有するベンチマークPrimateAIモデルの性能と、橙色の水平バーを有する開示されたPrimateAI 3Dモデルの性能とを特定する。緑色の水平バーは、開示されたPrimateAI 3Dモデル及びベンチマークPrimateAIモデルのそれぞれの病原性予測を組み合わせることによって導出された病原性予測を示す。凡例において、「ens10」は、各々が異なるシード学習データセットで学習し、異なる重み及びバイアスでランダムに初期化された10個のPrimateAI 3Dモデルのアンサンブルを示す。また、「7×7×7×2」は、10個のPrimateAI 3Dモデルのアンサンブルの学習中に入力チャネルを符号化するために使用されるボクセルグリッドのサイズを示す。所与の変異体について、10個のPrimateAI 3Dモデルのアンサンブルは、それぞれ10個の病原性予測を生成し、これらはその後組み合わされて(例えば、平均化によって)、所与の変異体についての最終的な病原性予測を生成する。このロジックは、異なるグループサイズのアンサンブルにも同様に当てはまる。
【0133】
また、
図28において、y軸は異なる検証セットを有し、x軸はp値を有する。p値が大きいほど、すなわち、水平バーが長いほど、良性変異体を病原性変異体と区別する際の精度が高いことを示す。
図28におけるp値によって実証されるように、PrimateAI 3Dは、検証セットの大部分にわたってPrimateAIよりも性能が優れている(唯一の例外はtp53s3_A549検証セットである)。すなわち、PrimateAI 3Dの橙色の水平バーは、PrimateAIの青色の水平バーよりも一貫して長い。
【0134】
また、
図28において、y軸に沿った「平均」カテゴリは、検証セットの各々について決定されたp値の平均を計算する。平均カテゴリにおいても、PrimateAI 3DはPrimateAIよりも性能が優れている。
【0135】
図29では、PrimateAIが青い水平バーによって表され、サイズ3×3×3のボクセルグリッドで学習した20個のPrimateAI 3Dモデルのアンサンブルが赤い水平バーによって表され、サイズ7×7×7のボクセルグリッドで学習した10個のPrimateAI 3Dモデルのアンサンブルが紫色の水平バーによって表され、サイズ7×7×7のボクセルグリッドで学習した20個のPrimateAI 3Dモデルのアンサンブルが茶色の水平バーによって表され、サイズ17×17×17のボクセルグリッドで学習した20個のPrimateAI 3Dモデルのアンサンブルは、紫色の水平バーで表される。
【0136】
また、
図29において、y軸は異なる検証セットを有し、x軸はp値を有する。前と同様に、p値が大きいほど、すなわち、水平バーが長いほど、良性変異体を病原性変異体と区別する際の精度が高いことを示す。
図20のp値によって実証されるように、PrimateAI 3Dの異なる構成は、検証セットの大部分にわたってPrimateAIよりも性能が優れている。すなわち、PrimateAI 3Dの赤色、紫色、茶色、及びピンク色の水平バーは、PrimateAIの青色の水平バーよりも大部分が長い。
【0137】
また、
図29において、y軸に沿った「平均」カテゴリは、検証セットの各々について決定されたp値の平均を計算する。平均カテゴリにおいても、PrimateAI 3Dの異なる構成はPrimateAIよりも性能が優れている。
【0138】
図30において、赤色の垂直バーはPrimateAIを表し、シアンの垂直バーはPrimateAI 3Dを表す。
図30において、y軸はp値を有し、x軸は異なる検証セットを有する。
図30では、例外なく、PrimateAI 3Dは、検証セットの全てにわたってPrimateAIよりも一貫して性能が優れている。すなわち、PrimateAI 3Dのシアンの垂直バーは、PrimateAIの赤色の垂直バーよりも常に長い。
【0139】
図31は、青色の垂直バーを有するベンチマークPrimateAIモデルの性能と、橙色の垂直バーを有する開示されたPrimateAI 3Dモデルの性能とを特定する。緑色の垂直バーは、開示されたPrimateAI 3Dモデル及びベンチマークPrimateAIモデルのそれぞれの病原性予測を組み合わせることによって導出された病原性予測を示す。
図31において、y軸はp値を有し、x軸は異なる検証セットを有する。
【0140】
図31におけるp値によって実証されるように、PrimateAI 3Dは、検証セットの大部分にわたってPrimateAIよりも性能が優れている(唯一の例外はtp53s3_A549_p53NULL_Nutlin-3検証セットである)。すなわち、PrimateAI 3Dの橙色の垂直バーは、PrimateAIの青色の垂直バーよりも一貫して長い。
【0141】
また、
図31において、別個の「平均」チャートは、検証セットの各々について決定されたp値の平均を計算する。平均チャートにおいても、PrimateAI 3DはPrimateAIよりも性能が優れている。
【0142】
平均統計量は、外れ値によってバイアスされ得る。これに対処するために、別個の「方法ランク」チャートも
図31に示されている。ランクが高いほど、分類精度が悪いことを示す。方法ランクチャートにおいても同様に、PrimateAI 3Dは、全て3を有するPrimate AIに対して、より多くのより低いランク1及び2のカウントを有することによって、PrimateAIよりも性能が優れている。
【0143】
図28~31において、PrimateAI 3DをPrimateAIと組み合わせることにより、優れた分類精度が得られることも明らかである。すなわち、タンパク質をアミノ酸配列としてPrimateAIに供給して第1の出力を生成することができ、同じタンパク質を3Dボクセル化タンパク質構造としてPrimateAI 3Dに供給して第2の出力を生成することができ、第1及び第2の出力を組み合わせて、又は全体として分析して、タンパク質が経験する変異体の最終的な病原性予測を生成することができる。
【0144】
効率的なボクセル化
図32は、ボクセルごとに最も近い原子を効率的に特定する効率的なボクセル化プロセス3200を示すフローチャートである。
【0145】
ここで、距離チャネルについて再度説明する。上述したように、参照アミノ酸配列202は、アルファ炭素原子、ベータ炭素原子、酸素原子、窒素原子、水素原子などの異なるタイプの原子を含有することができる。したがって、上述したように、距離チャネルは、最も近いアルファ炭素原子、最も近いベータ炭素原子、最も近い酸素原子、最も近い窒素原子、最も近い水素原子などによって配置することができる。例えば、
図6において、9個のボクセル514の各々は、最も近いアルファ炭素原子について21個のアミノ酸ごとの距離チャネルを有する。
図6は、原子のタイプ及びアミノ酸のタイプに関係なく、9つのボクセル514の各々について、最も近いベータ炭素原子についての21アミノ酸ごとの距離チャネルも有するように、また9つのボクセル514の各々について、最も近い原子についての最も近い一般的な原子の距離チャネルも有するように、更に拡張することができる。このようにして、9個のボクセル514の各々は、43個の距離チャネルを有することができる。
【0146】
次に、距離チャネルに含めるためのボクセルごとの最も近い原子を特定するために必要な距離計算の数について説明する。21個のアミノ酸カテゴリにわたって分布する合計828個のアルファ炭素原子を示す
図3の例を考慮されたい。
図6のアミノ酸ごとの距離チャネル602~642を計算するために、すなわち、189個の距離値を決定するために、9個のボクセル514の各々から828個のアルファ炭素原子の各々までの距離が測定され、9
*828=7,452個の距離計算が得られる。27ボクセルの3Dの場合、これは、27
*828=22,356の距離計算をもたらす。828個のベータ炭素原子も含まれる場合、この数は27
*1656=44,712の距離計算に増加する。
【0147】
これは、
図35Aによって図示されるように、単一タンパク質ボクセル化のためのボクセルごとに最も近い原子を特定するランタイム複雑度が、O(原子数
*ボクセル数)であることを意味する。更に、距離チャネルが様々な属性(例えば、アノテーションチャネル及び構造信頼度チャネルのようなボクセルごとの異なる特徴又はチャネル)にわたって計算されるとき、単一タンパク質ボクセル化のランタイム複雑度は、O(原子数
*ボクセル数
*属性数)に増加する。
【0148】
結果として、距離計算は、ボクセル化プロセスの最も計算を消費する部分になり得、モデル学習及びモデル推論のような重要なランタイムタスクから貴重な計算リソースを取り去る。例えば、7,000個のタンパク質の学習データセットを用いたモデル学習の場合を考慮されたい。複数のアミノ酸、原子、及び属性にわたる複数のボクセルについて距離チャネルを生成することは、タンパク質あたり100を超えるボクセル化を伴い得、単一の学習反復(エポック)において約800,000のボクセル化をもたらす。各エポックにおける原子座標の回転を伴う20~40エポックの学習ランは、3200万ものボクセル化をもたらし得る。
【0149】
高い計算コストに加えて、3200万ボクセル化のためのデータのサイズは、メインメモリに適合するには大きすぎる例えば、15×15×15ボクセルグリッドに対して20TBを超える)。パラメータ最適化及びアンサンブル学習のための反復学習の実行を考慮すると、ボクセル化プロセスのメモリフットプリントは、ディスク上に記憶するには大きすぎ、ボクセル化プロセスをモデル学習の一部にし、事前計算ステップにしない。
【0150】
開示される技術は、O(原子数*ボクセル数)のランタイム複雑度に対して最大で約100倍のスピードアップを達成する効率的なボクセル化プロセスを提供する。開示される効率的なボクセル化プロセスは、単一タンパク質ボクセル化のためのランタイム複雑度をO(原子数)に低減する。ボクセルごとに異なる特徴又はチャネルの場合、開示される効率的なボクセル化プロセスは、単一タンパク質ボクセル化のためのランタイム複雑度をO(原子数*属性数)に低減する。結果として、ボクセル化プロセスは、モデル学習と同程度に高速になり、計算ボトルネックを、ボクセル化から、GPU、ASIC、TPU、FPGA、CGRAなどのプロセッサ上でニューラルネットワーク重みを計算することに戻す。
【0151】
大きなボクセルグリッドを伴う、開示される効率的なボクセル化プロセスのいくつかの実施態様では、単一タンパク質ボクセル化のためのランタイム複雑度は、ボクセルごとに異なる特徴又はチャネルの場合、O(原子数+ボクセル)及びO(原子数*属性数+ボクセル)である。「+ボクセル」の複雑度は、原子の数がボクセルの数と比較して非常に小さい場合、例えば、100×100×100ボクセルグリッド内に1つの原子が存在する場合(すなわち、原子あたり100万ボクセル)に観察される。そのようなシナリオでは、ランタイムは、例えば、100万個のボクセルにメモリを割り当てるため、100万個のボクセルを0に初期化するためなど、膨大な数のボクセルのオーバーヘッドによって支配される。
【0152】
【0153】
図32Aから開始して、ステップ3202において、各原子(例えば、828個のアルファ炭素原子の各々及び828個のベータ炭素原子の各々)は、原子を含有するボクセル(例えば、9個のボクセル514のうちの1つ)と関連付けられる。「含有する」という用語は、ボクセル内に位置する原子の3D原子座標を指す。原子を含有するボクセルは、本明細書では「原子含有ボクセル」とも呼ばれる。
【0154】
図32B及び
図33は、特定の原子を含有するボクセルがどのように選択されるかを説明する。
図33は、3D原子座標を表すものとして2D原子座標を使用する。ボクセルグリッド522は、ボクセル514の各々が同じステップサイズ(例えば、1オングストローム(Å)又は2Å)で等間隔に配置されていることに留意されたい。
【0155】
また、
図33では、ボクセルグリッド522は、第1の次元(例えば、x軸)に沿ってマゼンタのインデックス[0,1,2]を有し、第2の次元(例えば、y軸)に沿ってシアンのインデックス[0,1,2]を有する。また、
図33では、ボクセルグリッド522内のそれぞれのボクセル514は、緑色ボクセルインデックス[ボクセル0,ボクセル1,・・・,ボクセル8]によって、及び黒色ボクセル中心インデックス[(1,1),(1,2),・・・,(3,3)]によって特定される。
【0156】
また、
図33では、第1の次元に沿ったボクセル中心の中心座標、すなわち、第1の次元ボクセル座標が橙色で特定される。また、
図33では、第2の次元に沿ったボクセル中心の中心座標、すなわち、第2の次元ボクセル座標が赤色で特定される。
【0157】
まず、ステップ3202a(
図33のステップ1)において、特定の原子の3D原子座標(1.7456,2.14323)が量子化されて、量子化3D原子座標(1.7,2.1)が生成される。量子化は、ビットの丸め又は切り捨てによって達成することができる。
【0158】
次いで、ステップ3202b(
図33のステップ2)において、ボクセル514のボクセル座標(又はボクセル中心若しくはボクセル中心座標)が、次元ベースで量子化された3D原子座標に割り当てられる。第1の次元について、量子化された原子座標1.7は、1から2までの範囲の第1の次元のボクセル座標をカバーし、第1の次元において1.5に中心付けられるので、ボクセル1に割り当てられる。ボクセル1は、第2の次元に沿ってインデックス0を有するのとは対照的に、第1の次元に沿ってインデックス1を有することに留意されたい。
【0159】
第2の次元については、ボクセル1から開始して、ボクセルグリッド522が第2の次元に沿ってトラバースされる。これにより、量子化された原子座標2.5がボクセル7に割り当てられるが、これは、ボクセル7が2~3の範囲の第2次元ボクセル座標をカバーし、第2次元において2.5に中心付けられるためである。ボクセル7は、第1の次元に沿ってインデックス1を有するのとは対照的に、第2の次元に沿ってインデックス2を有することに留意されたい。
【0160】
次に、ステップ3202c(
図33のステップ3)において、割り当てられたボクセル座標に対応する次元インデックスが選択される。すなわち、ボクセル1については、第1の次元に沿ってインデックス1が選択され、ボクセル7については、第2の次元に沿ってインデックス2が選択される。上記のステップは、第3の次元に沿って次元インデックスを選択するために第3の次元に対して同様に実行することができることが当業者には理解されよう。
【0161】
次に、ステップ3202d(
図33のステップ4)において、選択された次元インデックスを基数の累乗で位置ごとに重み付けすることに基づいて、累積和が生成される。位置番号付けシステムの背後にある一般的な概念は、数値が基数(又は基数)の累乗を増加させることによって表されることであり、例えば、2進数は基数2であり、3進数は基数3であり、8進数は基数8であり、16進数は基数16である。これは、各位置が基数の累乗によって重み付けされるので、重み付け番号付けシステムと呼ばれることが多い。位置番号付けシステムに対する有効な数字のセットは、そのシステムの基数にサイズが等しい。例えば、10進法では0から9の10桁があり、3進法では0、1、2の3桁がある。基数システムにおける最大有効数は、基数よりも1小さい(したがって、8は、9よりも小さい基数系における有効数ではない)。任意の10進整数は、任意の他の整数基数システムにおいて正確に表現することができ、逆もまた同様である。
【0162】
図33の例に戻ると、選択された次元インデックス1及び2は、それらを基数3のそれぞれの累乗で位置ごとに乗算し、位置ごとの乗算の結果を合計することによって、単一の整数に変換される。3D原子座標が3次元を有するので、ここでは基数3が選択される(ただし、
図33は、簡略化のために2次元に沿った2D原子座標のみを示す)。
【0163】
インデックス2は最も右のビットすなわち、最下位ビットに位置しているので、3を0乗して2を得る。インデックス1は右端から2番目のビット(すなわち、最下位から2番目のビット)に位置しているので、3を1乗して3を得る。この結果、累積和は5になる。
【0164】
次に、ステップ3202e(
図33のステップ5)において、累積和に基づいて、特定の原子を含有するボクセルのボクセルインデックスが選択される。すなわち、累積和は、特定の原子を含有するボクセルのボクセルインデックスとして解釈される。
【0165】
ステップ3212では、各原子が原子含有ボクセルに関連付けられた後、各原子は、本明細書では「近傍ボクセル」とも呼ばれる、原子含有ボクセルの近傍にある1つ以上のボクセルに更に関連付けられる。近傍ボクセルは、原子含有ボクセルの所定の半径(例えば、5オングストローム(Å))内にあることに基づいて選択することができる。他の実施態様では、近傍ボクセルは、原子含有ボクセルに連続的に隣接していること(例えば、上、下、右、左隣接ボクセル)に基づいて選択することができる。各原子を原子含有ボクセル及び近傍ボクセルと関連付ける、結果として生じる関連付けは、本明細書ではエレメントからセルへのマッピングとも称される、原子からボクセルへのマッピング3402において符号化される。一例では、第1のアルファ炭素原子は、原子含有ボクセル及び第1のアルファ炭素原子の近傍ボクセルを含むボクセル3404の第1のサブセットに関連付けられる。別の例では、第2のアルファ炭素原子は、原子含有ボクセル及び第2のアルファ炭素原子の近傍ボクセルを含有するボクセル3406の第2のサブセットに関連付けられる。
【0166】
原子含有ボクセル及び近傍ボクセルを決定するために距離計算は行われないことに留意されたい。原子含有ボクセルは、量子化された3D原子座標を(距離計算を使用せずに)ボクセルグリッド内の対応する規則的に離間されたボクセル中心に割り当てることを可能にするボクセルの空間配置によって選択される。また、近傍ボクセルは、(この場合も距離計算を使用せずに)ボクセルグリッド内の原子含有ボクセルに空間的に隣接することによって選択される。
【0167】
ステップ3222において、各ボクセルは、ステップ3202及び3212で関連付けられた原子にマッピングされる。一実施態様では、このマッピングは、ボクセルから原子へのマッピング3412で符号化され、これは、(例えば、ボクセルベースのソートキーを原子からボクセルへのマッピング3402に適用することによって)原子からボクセルへのマッピング3402に基づいて生成される。ボクセルから原子へのマッピング3412は、本明細書では「セルからエレメントへのマッピング」とも呼ばれる。一例では、ステップ3202及び3212において、第1のボクセルは、第1のボクセルに関連付けられたアルファ炭素原子を含むアルファ炭素原子の第1のサブセット3414にマッピングされる。別の例では、ステップ3202及び3212において、第2のボクセルは、第2のボクセルに関連付けられたアルファ炭素原子を含むアルファ炭素原子の第2のサブセット3416にマッピングされる。
【0168】
ステップ3232において、各ボクセルについて、ボクセルとステップ3222においてボクセルにマッピングされた原子との間の距離が計算される。ステップ3232は、特定の原子までの距離が、ボクセルから原子へのマッピング3412において特定の原子が一意にマッピングされるそれぞれのボクセルから1回だけ測定されるので、O(原子数)のランタイム複雑度を有する。これは、隣接ボクセルが考慮されない場合に当てはまる。近傍がなければ、big-O記法で暗示される定数係数は1である。近傍があれば、近傍の数が各ボクセルに対して一定であるので、big-O記法は近傍の数+1に等しく、したがって、ランタイムの複雑度はO(原子数)のままである。対照的に、
図35Aでは、特定の原子までの距離は、ボクセルの数だけ重複して測定される(例えば、27個のボクセルに起因して、特定の原子について27個の距離)。
【0169】
図35Bでは、ボクセルから原子へのマッピング3412に基づいて、各ボクセルは、それぞれのボクセルに対するそれぞれの楕円によって示されるように、828個の原子のそれぞれのサブセット(近傍ボクセルまでの距離計算を含まない)にマッピングされる。それぞれのサブセットは、いくつかの例外を除いて、大部分は重複していない。
図35Bにおいてプライム記号「’」及び楕円間の黄色の重複によって示されるように、複数の原子が同じボクセルにマッピングされるいくつかの事例に起因して、わずかな重複が存在する。この最小の重複は、O(原子数)のランタイム複雑度に対して加算的効果を有し、乗算的効果を有さない。この重複は、原子を含有するボクセルを決定した後に、近傍ボクセルを考慮した結果である。近傍ボクセルがなければ、原子は1つのボクセルにのみ関連付けられるので、重複は存在し得ない。しかし、近傍を考慮すると、各近傍は、同じ原子と潜在的に関連し得る(より近い同じアミノ酸の他の原子が存在しない限り)。
【0170】
ステップ3242において、各ボクセルについて、ステップ3232で計算された距離に基づいて、ボクセルへの最も近い原子が特定される。一実施態様では、この特定は、本明細書では「セルから最も近いエレメントへのマッピング」とも呼ばれる、ボクセルから最も近い原子へのマッピング3422において符号化される。一例では、第1のボクセルは、その最も近いアルファ炭素原子3424として第2のアルファ炭素原子にマッピングされる。別の例では、第2のボクセルは、その最も近いアルファ炭素原子3426として第31のアルファ炭素原子にマッピングされる。
【0171】
更に、ボクセルごとの距離は、上述の技術を用いて計算されるので、原子の原子タイプ及びアミノ酸タイプの分類並びに対応する距離値は、分類された距離チャネルを生成するために記憶される。
【0172】
最も近い原子までの距離が、上述の技術を使用して特定されると、これらの距離は、病原性分類器2108によるボクセル化及び後続の処理のために、距離チャネルにおいて符号化されることができる。
【0173】
コンピュータシステム
図36は、開示された技術を実施するために使用することができる例示的コンピュータシステム3600を示す。コンピュータシステム3600は、バスサブシステム3655を介して多数の周辺デバイスと通信する少なくとも1つの中央処理ユニット(CPU)3672を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム3636を含む記憶サブシステム3610、ユーザインターフェース入力デバイス3638、ユーザインターフェース出力デバイス3676、並びにネットワークインターフェースサブシステム3674を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム3600とのユーザ対話を可能にする。ネットワークインターフェースサブシステム3674は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0174】
一実施態様では、病原性分類器2108は、記憶サブシステム3610及びユーザインターフェース入力デバイス3638に通信可能にリンクされている。
【0175】
ユーザインターフェース入力デバイス3638は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム3600に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0176】
ユーザインターフェース出力デバイス3676は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム3600からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0177】
記憶サブシステム3610は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ3678によって実行される。
【0178】
プロセッサ3678は、画像処理装置(graphics processing unit、GPU)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、及び/又は粗粒化再構成可能構造(coarse-grained reconfigurable architecture、CGRA)であることができる。プロセッサ3678は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ3678の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX36 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa VI 00s(商標)を有するLambda GPU Server、及び他のものを含む。
【0179】
記憶サブシステム3610で使用されるメモリサブシステム3622は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)3632と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)3634とを含む多数のメモリを含むことができる。ファイル記憶サブシステム3636は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、記憶サブシステム3610内のファイル記憶サブシステム3636によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。
【0180】
バスサブシステム3655は、コンピュータシステム3600の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム3655は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実施態様は、複数のバスを使用することができる。
【0181】
コンピュータシステム3600自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩く分散した一組の緩くネットワーク化されたコンピュータ、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであることができる。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、
図36に示されるコンピュータシステム3600の説明は、本発明の好ましい実施態様を例示する目的のための特定の実施例としてのみ意図される。コンピュータシステム3600の多くの他の構成は、
図36に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
【0182】
特定の実施態様1
以下の実施態様は、システム、方法、又は製品として実施することができる。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。
【0183】
開示される技術は、入力として3Dデータを使用するが、他の実施態様では、1Dデータ、2Dデータ(例えば、ピクセル及び2D原子座標)、4Dデータ、5Dデータなどを同様に使用することができる。
【0184】
いくつかの実施態様では、システムは、タンパク質中の複数のアミノ酸についてのアミノ酸ごとの距離チャネルを記憶するメモリを含む。アミノ酸ごとの距離チャネルの各々は、複数のボクセル内のボクセルについてのボクセルごとの距離値を有する。ボクセルごとの距離値は、複数のボクセル内の対応するボクセルから複数のアミノ酸内の対応するアミノ酸の原子までの距離を指定する。システムは、アミノ酸ごとの距離チャネルと、変異体によって発現されるタンパク質の代替対立遺伝子とを含むテンソルを処理するように構成された病原性決定エンジンを更に含む。病原性決定エンジンはまた、テンソルに少なくとも部分的に基づいて変異体の病原性を決定するように構成することができる。
【0185】
いくつかの実施態様では、システムは、ボクセルのボクセルグリッドをアミノ酸のそれぞれの残基のアルファ炭素原子上に中心付ける距離チャネル生成器を更に含む。距離チャネル生成器は、タンパク質中の変異体アミノ酸に位置する特定のアミノ酸の残基のアルファ炭素原子上にボクセルグリッドを中心付けることができる。
【0186】
システムは、特定のアミノ酸に先行するアミノ酸についてのボクセルごとの距離値に方向性パラメータを乗算することによって、テンソルにおいて、アミノ酸の方向性及び特定のアミノ酸の位置を符号化するように構成することができる。距離は、ボクセルグリッド内の対応するボクセル中心から対応するアミノ酸の最も近い原子までの最も近い原子の距離であることができる。いくつかの実施態様では、最も近い原子の距離はユークリッド距離であることができる。最も近い原子の距離は、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化することができる。アミノ酸は、アルファ炭素原子を有することができ、いくつかの実施態様では、距離は、対応するボクセル中心から対応するアミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子の距離であることができる。アミノ酸は、ベータ炭素原子を有することができ、いくつかの実施態様では、距離は、対応するボクセル中心から対応するアミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子の距離であることができる。アミノ酸は骨格原子を有することができ、いくつかの実施態様では、距離は、対応するボクセル中心から対応するアミノ酸の最も近い骨格原子までの最も近い骨格原子の距離であることができる。アミノ酸は側鎖原子を有し、いくつかの実施態様では、距離は、対応するボクセル中心から対応するアミノ酸の最も近い側鎖原子までの最も近い側鎖原子の距離であることができる。
【0187】
システムは、テンソルにおいて、各ボクセルから最も近い原子までの距離を指定する最も近い原子のチャネルを符号化するように更に構成することができる。最も近い原子は、アミノ酸及びアミノ酸の原子エレメントに関係なく選択することができる。いくつかの実装形態では、距離はユークリッド距離である。距離は、ユークリッド距離を最大距離で割ることによって正規化することができる。アミノ酸は、非標準アミノ酸を含むことができる。テンソルは、ボクセル中心の所定の半径内に見出されない原子を指定する不在原子チャネルを含むことができ、不在原子チャネルはワンホット符号化することができる。いくつかの実施態様では、テンソルは、アミノ酸ごとの距離チャネルの各々にボクセルごとに符号化される代替対立遺伝子のワンホット符号化を更に含むことができる。テンソルは、タンパク質の参照対立遺伝子を更に含むことができる。いくつかの実施態様では、テンソルは、アミノ酸ごとの距離チャネルの各々にボクセルごとに符号化される参照対立遺伝子のワンホット符号化を更に含むことができる。テンソルは、複数の種にわたるアミノ酸の保存レベルを指定する進化的プロファイルを更に含むことができる。
【0188】
このシステムは更に、ボクセルの各々について、アミノ酸及び原子カテゴリにわたって最も近い原子を選択し、最も近い原子を含むアミノ酸残基について汎アミノ酸保存頻度配列を選択し、汎アミノ酸保存頻度配列を進化的プロファイルの1つとして利用可能にする進化的プロファイル生成器を含むことができる。汎アミノ酸保存頻度配列は、複数の種において観察されるような残基の特定の位置について構成することができる。汎アミノ酸保存頻度配列は、特定のアミノ酸について欠失している保存頻度があるかどうかを指定することができる。いくつかの実施態様では、進化的プロファイル生成器は、ボクセルの各々について、アミノ酸のうちのそれぞれのものにおけるそれぞれの最も近い原子を選択することができ、最も近い原子を含むアミノ酸のそれぞれの残基についてそれぞれのアミノ酸ごとの保存頻度を選択することができ、アミノ酸ごとの保存頻度を進化的プロファイルの1つとして利用可能にすることができる。アミノ酸ごとの保存頻度は、複数の種において観察されるような残基の特定の位置について構成することができる。アミノ酸ごとの保存頻度は、特定のアミノ酸について欠失している保存頻度があるかどうかを指定することができる。
【0189】
システムのいくつかの実施態様では、テンソルは、アミノ酸のアノテーションチャネルを更に含むことができる。アノテーションチャネルは、テンソルにおいてワンホット符号化することができる。アノテーションチャネルは、イニシエーターメチオニン、シグナル、輸送ペプチド、プロペプチド、鎖、及びペプチドを含む分子処理アノテーションであることができる。アノテーションチャネルは、トポロジカルドメイン、膜貫通、膜内、ドメイン、リピート、カルシウム結合、ジンクフィンガー、デオキシリボ核酸(DNA)結合、ヌクレオチド結合、領域、コイルドコイル、モチーフ、及び組成バイアスを含む領域アノテーションであることができる。アノテーションチャネルは、活性部位、金属結合、結合部位、及び部位を含む部位アノテーションであることができる。アノテーションチャネルは、非標準残基、修飾残基、脂質化、グリコシル化、ジスルフィド結合、及び架橋を含むアミノ酸修飾アノテーションであることができる。アノテーションチャネルは、ヘリックス、ターン、及びベータ鎖を含む二次構造アノテーションであることができる。アノテーションチャネルは、突然変異誘発、配列不確実性、配列競合、非隣接残基、及び非末端残基を含む実験情報アノテーションであることができる。
【0190】
システムのいくつかの実施態様では、テンソルは、アミノ酸のそれぞれの構造の品質を指定するアミノ酸の構造信頼度チャネルを更に含む。構造信頼度チャネルは、グローバルモデル品質推定(GMQE)であることができる。構造信頼度チャネルは、定性的モデルエネルギー解析(QMEAN)スコアを含むことができる。構造信頼度チャネルは、残基がそれぞれのタンパク質構造の物理的制約を満たす程度を指定する温度因子であることができる。構造信頼度チャネルは、ボクセルに最も近い原子の残基が整列した鋳型構造を有する程度を指定する鋳型構造アラインメントであることができる。構造信頼度チャネルは、整列した鋳型構造の鋳型モデリングスコアであることができる。構造信頼度チャネルは、鋳型モデリングスコアのうちの最小のもの、鋳型モデリングスコアの平均、及び鋳型モデリングスコアのうちの最大のものであることができる。
【0191】
いくつかの実施態様では、システムは、アルファ炭素原子についてのアミノ酸ごとの距離チャネルを代替対立遺伝子のワンホット符号化とボクセルごとに連結して、テンソルを生成するテンソル生成器を更に含むことができる。テンソル生成器は、ベータ炭素原子についてのアミノ酸ごとの距離チャネルを代替対立遺伝子のワンホット符号化とボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、及び代替対立遺伝子のワンホット符号化をボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及び汎アミノ酸保存頻度をボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、汎アミノ酸保存頻度、及びアノテーションチャネルをボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、汎アミノ酸保存頻度、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及びアミノ酸の各々についてのアミノ酸ごとの保存頻度をボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、及びアノテーションチャネルをボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及び参照対立遺伝子のワンホット符号化をボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、及び汎アミノ酸保存頻度をボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、汎アミノ酸保存頻度、及びアノテーションチャネルをボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、汎アミノ酸保存頻度、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、及びアミノ酸の各々についてのアミノ酸ごとの保存頻度をボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、及びアノテーションチャネルをボクセルごとに連結して、テンソルを生成することができる。テンソル生成器は、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結して、テンソルを生成することができる。
【0192】
いくつかの実施態様では、システムは、アミノ酸ごとの距離チャネルが生成される前にアミノ酸の原子を回転させる原子回転エンジンを更に含むことができる。病原性決定エンジンは、ニューラルネットワークであることができる。特定の実施態様では、病原性決定エンジンは、畳み込みニューラルネットワークであることができる。畳み込みニューラルネットワークは、1×1×1畳み込み、3×3×3畳み込み、正規化線形ユニット活性化層、バッチ正規化層、全結合層、ドロップアウト正則化層、及びソフトマックス分類層を使用することができる。1×1×1畳み込み及び3×3×3畳み込みは、3次元畳み込みであることができる。
【0193】
いくつかの実施態様では、1×1×1の畳み込みの層は、テンソルを処理し、テンソルの畳み込み表現である中間出力を生成することができる。3×3×3の畳み込みの層の配列は、中間出力を処理し、平坦化された出力を生成することができる。全結合層は、平坦化された出力を処理し、非正規化出力を生成することができる。ソフトマックス分類層は、非正規化出力を処理し、変異体が病原性及び良性である尤度を特定する指数関数的に正規化された出力を生成することができる。シグモイド層は、非正規化出力を処理し、変異体が病原性である尤度を特定する正規化出力を生成することができる。ボクセル、原子、及び距離は、3次元座標を有することができる。テンソルは少なくとも3次元を有することができ、中間出力は少なくとも3次元を有することができ、平坦化された出力は1次元を有することができる。
【0194】
いくつかの実施態様では、病原性決定エンジンはリカレントニューラルネットワークである。他の実施態様では、病原性決定エンジンは、アテンションベースのニューラルネットワークである。更に他の実施態様では、病原性決定エンジンは勾配ブーストツリーである。更に他の実装形態では、病原性決定エンジンは状態ベクトルマシンである。
【0195】
他の実施態様では、システムは、タンパク質中のアミノ酸についての原子カテゴリごとの距離チャネルを記憶するメモリを含むことができる。アミノ酸は、複数の原子カテゴリの原子を有することができ、複数の原子カテゴリ内の原子カテゴリは、アミノ酸の原子エレメントを指定することができる。原子カテゴリごとの距離チャネルは、複数のボクセル内のボクセルについてのボクセルごとの距離値を有することができる。ボクセルごとの距離値は、複数のボクセル内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリ内の原子までの距離を指定することができる。システムは、原子カテゴリごとの距離チャネル及び変異体によって発現されるタンパク質の代替対立遺伝子を含むテンソルを処理し、テンソルに少なくとも部分的に基づいて変異体の病原性を決定するように構成された病原性決定エンジンを更に含むことができる。
【0196】
システムは、複数の原子カテゴリ内のそれぞれの原子カテゴリのそれぞれの原子上にボクセルのボクセルグリッドを中心付ける距離チャネル生成器を更に含むことができる。距離チャネル生成器は、タンパク質中の少なくとも1つの変異体アミノ酸の残基のアルファ炭素原子上にボクセルグリッドを中心付けることができる。距離は、ボクセルグリッド内の対応するボクセル中心から対応する原子カテゴリ中の最も近い原子までの最も近い原子の距離であることができる。最も近い原子の距離は、ユークリッド距離であることができる。最も近い原子の距離は、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化することができる。距離は、アミノ酸及びアミノ酸の原子カテゴリに関係なく、ボクセルグリッド内の対応するボクセル中心から最も近い原子までの最も近い原子の距離であることができる。最も近い原子の距離は、ユークリッド距離であることができる。最も近い原子の距離は、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化することができる。
【0197】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0198】
条項セット1
1.コンピュータ実装方法であって、
タンパク質中の複数のアミノ酸について、アミノ酸ごとの距離チャネルを記憶することであって、
アミノ酸ごとの距離チャネルの各々が、複数のボクセル内のボクセルについてのボクセルごとの距離値を有し、
ボクセルごとの距離値が、複数のボクセル内の対応するボクセルから複数のアミノ酸内の対応するアミノ酸の原子までの距離を指定する、記憶することと、
アミノ酸ごとの距離チャネルと、変異体によって発現されるタンパク質の代替対立遺伝子とを含むテンソルを処理することと、
テンソルに少なくとも部分的に基づいて、変異体の病原性を決定することと、を含む、コンピュータ実装方法。
2.ボクセルのボクセルグリッドを、アミノ酸のそれぞれの残基のアルファ炭素原子上に中心付けることを更に含む、条項1に記載のコンピュータ実装方法。
3.タンパク質中の少なくとも1つの変異体アミノ酸に対応する特定のアミノ酸の残基のアルファ炭素原子上にボクセルグリッドを中心付けることを更に含む、条項2に記載のコンピュータ実装方法。
4.特定のアミノ酸に先行するアミノ酸についてのボクセルごとの距離値に方向性パラメータを乗算することによって、テンソルにおいて、アミノ酸の方向性及び特定のアミノ酸の位置を符号化することを更に含む、条項3に記載のコンピュータ実装方法。
5.距離が、ボクセルグリッド内の対応するボクセル中心から対応するアミノ酸の最も近い原子までの最も近い原子の距離である、条項3に記載のコンピュータ実装方法。
6.最も近い原子の距離がユークリッド距離である、条項5に記載のコンピュータ実装方法。
7.最も近い原子の距離が、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化される、条項6に記載のコンピュータ実装方法。
8.アミノ酸がアルファ炭素原子を有し、距離が、対応するボクセル中心から対応するアミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子の距離である、条項5に記載のコンピュータ実装方法。
9.アミノ酸がベータ炭素原子を有し、距離が、対応するボクセル中心から対応するアミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子の距離である、条項5に記載のコンピュータ実装方法。
10.アミノ酸が骨格原子を有し、距離が、対応するボクセル中心から対応するアミノ酸の最も近い骨格原子までの最も近い骨格原子の距離である、条項5に記載のコンピュータ実装方法。
11.アミノ酸が側鎖原子を有し、距離が、対応するボクセル中心から対応するアミノ酸の最も近い側鎖原子までの最も近い側鎖原子の距離である、条項5に記載のコンピュータ実装方法。
12.テンソルにおいて、各ボクセルから、アミノ酸及びアミノ酸の原子エレメントに関係なく選択される最も近い原子までの距離を指定する最も近い原子のチャネルを符号化することを更に含む、条項3に記載のコンピュータ実装方法。
13.距離がユークリッド距離である、条項12に記載のコンピュータ実装方法。
14.距離が、ユークリッド距離を最大距離で除算することによって正規化される、条項13に記載のコンピュータ実装方法。
15.アミノ酸が非標準アミノ酸を含む、条項12に記載のコンピュータ実装方法。
16.テンソルが、ボクセル中心の所定の半径内に見出されない原子を指定する不在原子チャネルであって、ワンホット符号化される不在原子チャネルを更に含む、条項1に記載のコンピュータ実装方法。
17.テンソルが、アミノ酸ごとの距離チャネルの各々にボクセルごとに符号化される代替対立遺伝子のワンホット符号化を更に含む、条項1に記載のコンピュータ実装方法。
18.テンソルが、タンパク質の参照対立遺伝子を更に含む、条項1に記載のコンピュータ実装方法。
19.テンソルが、アミノ酸ごとの距離チャネルの各々にボクセルごとに符号化される参照対立遺伝子のワンホット符号化を更に含む、条項18に記載のコンピュータ実装方法。
20.テンソルが、複数の種にわたるアミノ酸の保存レベルを指定する進化的プロファイルを更に含む、条項1に記載のコンピュータ実装方法。
21.ボクセルの各々に対して、
アミノ酸及び原子カテゴリにわたって最も近い原子を選択することと、
最も近い原子を含むアミノ酸の残基について汎アミノ酸保存頻度配列を選択することと、
汎アミノ酸保存頻度配列を進化的プロファイルの1つとして利用可能にすることと、を更に含む、条項20に記載のコンピュータ実装方法。
22.汎アミノ酸保存頻度配列が、複数の種において観察されるような残基の特定の位置について構成される、条項21に記載のコンピュータ実装方法。
23.汎アミノ酸保存頻度配列が、特定のアミノ酸について欠失している保存頻度が存在するかどうかを指定する、条項21に記載のコンピュータ実装方法。
24.ボクセルの各々に対して、
アミノ酸のそれぞれにおけるそれぞれの最も近い原子を選択することと、
最も近い原子を含むアミノ酸のそれぞれの残基について、それぞれのアミノ酸ごとの保存頻度を選択することと、
進化的プロファイルの1つとして利用可能なアミノ酸ごとの保存頻度を作成することと、を更に含む、条項21に記載のコンピュータ実装方法。
25.アミノ酸ごとの保存頻度が、複数の種において観察されるような残基の特定の位置について構成される、条項24に記載のコンピュータ実装方法。
26.アミノ酸ごとの保存頻度が、特定のアミノ酸について欠失している保存頻度が存在するかどうかを指定する、条項24に記載のコンピュータ実装方法。
27.テンソルが、アミノ酸のアノテーションチャネルであって、テンソルにおいてワンホット符号化される、アノテーションチャネルを更に含む、条項1に記載のコンピュータ実装方法。
28.アノテーションチャネルが、イニシエーターメチオニン、シグナル、輸送ペプチド、プロペプチド、鎖、及びペプチドを含む分子処理アノテーションである、条項27に記載のコンピュータ実装方法。
29.アノテーションチャネルが、トポロジカルドメイン、膜貫通、膜内、ドメイン、リピート、カルシウム結合、ジンクフィンガー、デオキシリボ核酸(DNA)結合、ヌクレオチド結合、領域、コイルドコイル、モチーフ、及び組成バイアスを含む領域アノテーションである、条項27に記載のコンピュータ実装方法。
30.アノテーションチャネルが、活性部位、金属結合、結合部位、及び部位を含む部位アノテーションである、条項27に記載のコンピュータ実装方法。
31.アノテーションチャネルが、非標準残基、修飾残基、脂質化、グリコシル化、ジスルフィド結合、及び架橋を含むアミノ酸修飾アノテーションである、条項27に記載のコンピュータ実装方法。
32.アノテーションチャネルが、ヘリックス、ターン、及びベータ鎖を含む二次構造アノテーションである、条項27に記載のコンピュータ実装方法。
33.アノテーションチャネルが、突然変異誘発、配列不確実性、配列競合、非隣接残基、及び非末端残基を含む実験情報アノテーションである、条項27に記載のコンピュータ実装方法。
34.テンソルが、アミノ酸のそれぞれの構造の品質を指定するアミノ酸の構造信頼度チャネルを更に含む、条項1に記載のコンピュータ実装方法。
35.構造信頼度チャネルが、グローバルモデル品質推定(GMQE)である、条項34に記載のコンピュータ実装方法。
36.構造信頼度チャネルが、定性的モデルエネルギー解析(QMEAN)スコアを含む、条項34に記載のコンピュータ実装方法。
37.構造信頼度チャネルが、残基がそれぞれのタンパク質構造の物理的制約を満たす程度を指定する温度因子である、条項34に記載のコンピュータ実装方法。
38.構造信頼度チャネルが、ボクセルに最も近い原子の残基が整列した鋳型構造を有する程度を指定する鋳型構造アラインメントである、条項34に記載のコンピュータ実装方法。
39.構造信頼度チャネルが、整列された鋳型構造の鋳型モデリングスコアである、条項38に記載のコンピュータ実装方法。
40.構造信頼度チャネルが、鋳型モデリングスコアのうちの最小のもの、鋳型モデリングスコアの平均、及び鋳型モデリングスコアのうちの最大のものである、条項39に記載のコンピュータ実装方法。
41.アルファ炭素原子についてのアミノ酸ごとの距離チャネルを代替対立遺伝子のワンホット符号化とボクセルごとに連結して、テンソルを生成することを更に含む、条項1に記載のコンピュータ実装方法。
42.ベータ炭素原子についてのアミノ酸ごとの距離チャネルを代替対立遺伝子のワンホット符号化とボクセルごとに連結して、テンソルを生成することを更に含む、条項41に記載のコンピュータ実装方法。
43.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、及び代替対立遺伝子のワンホット符号化をボクセルごとに連結してテンソルを生成することを更に含む、条項42に記載のコンピュータ実装方法。
44.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及び汎アミノ酸保存頻度配列をボクセルごとに連結して、テンソルを生成することを更に含む、条項43に記載のコンピュータ実装方法。
45.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、及びアノテーションチャネルをボクセルごとに連結して、テンソルを生成することを更に含む、条項44に記載のコンピュータ実装方法。
46.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結して、テンソルを生成することを更に含む、条項45に記載のコンピュータ実装方法。
47.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及びアミノ酸の各々についてのアミノ酸ごとの保存頻度をボクセルごとに連結して、テンソルを生成することを更に含む、条項46に記載のコンピュータ実装方法。
48.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、及びアノテーションチャネルをボクセルごとに連結して、テンソルを生成することを更に含む、条項47に記載のコンピュータ実装方法。
49.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結して、テンソルを生成することを更に含む、条項48に記載のコンピュータ実装方法。
50.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及び参照対立遺伝子のワンホット符号化をボクセルごとに連結してテンソルを生成することを更に含む、条項49に記載のコンピュータ実装方法。
51.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、及び汎アミノ酸保存頻度配列をボクセルごとに連結してテンソルを生成することを更に含む、条項50に記載のコンピュータ実装方法。
52.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、及びアノテーションチャネルをボクセルごとに連結してテンソルを生成することを更に含む、条項51に記載のコンピュータ実装方法。
53.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結してテンソルを生成することを更に含む、条項52に記載のコンピュータ実装方法。
54.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、及びアミノ酸の各々についてのアミノ酸ごとの保存頻度をボクセルごとに連結してテンソルを生成することを更に含む、条項53に記載のコンピュータ実装方法。
55.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、及びアノテーションチャネルをボクセルごとに連結してテンソルを生成することを更に含む、条項54に記載のコンピュータ実装方法。
56.アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結してテンソルを生成することを更に含む、条項55に記載のコンピュータ実装方法。
57.アミノ酸ごとの距離チャネルが生成される前に、アミノ酸の原子を回転させることを更に含む、条項1に記載のコンピュータ実装方法。
58.畳み込みニューラルネットワークにおいて、1×1×1畳み込み、3×3×3畳み込み、正規化線形ユニット活性化層、バッチ正規化層、全結合層、ドロップアウト正則化層、及びソフトマックス分類層を使用することを更に含む、条項1に記載のコンピュータ実装方法。
59.1×1×1畳み込み及び3×3×3畳み込みが、3次元畳み込みである、条項58に記載のコンピュータ実装方法。
60.1×1×1畳み込みの層が、テンソルを処理し、テンソルの畳み込み表現である中間出力を生成し、3×3×3畳み込み層の配列が、中間出力を処理し、平坦化された出力を生成し、全結合層が、平坦化された出力を処理し、非正規化出力を生成し、ソフトマックス分類層が、非正規化出力を処理し、変異体が病原性及び良性である尤度を特定する指数関数的に正規化された出力を生成する、条項58に記載のコンピュータ実装方法。
61.シグモイド層が、非正規化出力を処理し、変異体が病原性である尤度を特定する正規化出力を生成する、条項60に記載のコンピュータ実装方法。
62.ボクセル、原子、及び距離が3次元座標を有し、テンソルが少なくとも3次元を有し、中間出力が少なくとも3次元を有し、平坦化された出力が1次元を有する、条項60に記載のコンピュータ実装方法。
63.コンピュータ実装方法であって、
タンパク質中のアミノ酸についての、原子カテゴリごとの距離チャネルを記憶することであって、
アミノ酸が、複数の原子カテゴリの原子を有し、
複数の原子カテゴリのうちの原子カテゴリが、アミノ酸の原子エレメントを指定し、
原子カテゴリごとの距離チャネルの各々が、複数のボクセル内のボクセルに対するボクセルごとの距離値を有し、
ボクセルごとの距離値が、複数のボクセル内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリ内の原子までの距離を指定する、記憶することと、
原子カテゴリごとの距離チャネルと、変異体によって発現されるタンパク質の代替対立遺伝子とを含むテンソルを処理することと、
テンソルに少なくとも部分的に基づいて、変異体の病原性を決定することと、を含む、コンピュータ実装方法。
64.複数の原子カテゴリ内のそれぞれの原子カテゴリのそれぞれの原子上にボクセルのボクセルグリッドを中心付けることを更に含む、条項63に記載のコンピュータ実装方法。
65.タンパク質中の少なくとも1つの変異体アミノ酸の残基のアルファ炭素原子上にボクセルグリッドを中心付けることを更に含む、条項64に記載のコンピュータ実装方法。
66.距離が、ボクセルグリッド内の対応するボクセル中心から対応する原子カテゴリ内の最も近い原子までの最も近い原子の距離である、条項65に記載のコンピュータ実装方法。
67.最も近い原子の距離が、ユークリッド距離である、条項66に記載のコンピュータ実装方法。
68.最も近い原子の距離が、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化される、条項67に記載のコンピュータ実装方法。
69.距離が、アミノ酸及びアミノ酸の原子カテゴリに関係なく、ボクセルグリッド内の対応するボクセル中心から最も近い原子までの最も近い原子の距離である、条項68に記載のコンピュータ実装方法。
70.最も近い原子の距離が、ユークリッド距離である、条項69に記載のコンピュータ実装方法。
71.最も近い原子の距離が、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化される、条項70に記載のコンピュータ実装方法。
【0199】
条項セット2
1.1つ以上のプロセッサ上で実行されると、
タンパク質中の複数のアミノ酸についてのアミノ酸ごとの距離チャネルを記憶することであって、アミノ酸ごとの距離チャネルの各々が、複数のボクセル内のボクセルについて、ボクセルごとの距離値を有し、
ボクセルごとの距離値が、複数のボクセル内の対応するボクセルから複数のアミノ酸内の対応するアミノ酸の原子までの距離を指定する、記憶することと、アミノ酸ごとの距離チャネルと、変異体によって発現されるタンパク質の代替対立遺伝子とを含むテンソルを処理することと、
テンソルに少なくとも部分的に基づいて、変異体の病原性を決定することと、を含む動作を実行するようにコンピュータを構成するコンピュータ実行可能命令を記憶する、1つ以上のコンピュータ可読媒体。
2.動作が、ボクセルのボクセルグリッドを、アミノ酸のそれぞれの残基のアルファ炭素原子上に中心付けることを更に含む条項1に記載のコンピュータ可読媒体。
3.動作が、タンパク質中の少なくとも1つの変異体アミノ酸に対応する特定のアミノ酸の残基のアルファ炭素原子上にボクセルグリッドを中心付けることを更に含む、条項2に記載のコンピュータ可読媒体。
4.動作が、特定のアミノ酸に先行するアミノ酸についてのボクセルごとの距離値に方向性パラメータを乗算することによって、テンソルにおいて、アミノ酸の方向性及び特定のアミノ酸の位置を符号化することを更に含む、条項3に記載のコンピュータ可読媒体。
5.距離が、ボクセルグリッド内の対応するボクセル中心から対応するアミノ酸の最も近い原子までの最も近い原子の距離である、条項3に記載のコンピュータ可読媒体。
6.最も近い原子の距離がユークリッド距離である、条項5に記載のコンピュータ可読媒体。
7.最も近い原子の距離が、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化される、条項6に記載のコンピュータ可読媒体。
8.アミノ酸がアルファ炭素原子を有し、距離が、対応するボクセル中心から対応するアミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子の距離である、条項5に記載のコンピュータ可読媒体。
9.アミノ酸がベータ炭素原子を有し、距離が、対応するボクセル中心から対応するアミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子の距離である、条項5に記載のコンピュータ可読媒体。
10.アミノ酸が骨格原子を有し、距離が、対応するボクセル中心から対応するアミノ酸の最も近い骨格原子までの最も近い骨格原子の距離である、条項5に記載のコンピュータ可読媒体。
11.アミノ酸が側鎖原子を有し、距離が、対応するボクセル中心から対応するアミノ酸の最も近い側鎖原子までの最も近い側鎖原子の距離である、条項5に記載のコンピュータ可読媒体。
12.動作が、テンソルにおいて、各ボクセルから、アミノ酸及びアミノ酸の原子エレメントに関係なく選択される最も近い原子までの距離を指定する最も近い原子のチャネルを符号化することを更に含む、条項3に記載のコンピュータ可読媒体。
13.距離がユークリッド距離である、条項12に記載のコンピュータ可読媒体。
14.距離が、ユークリッド距離を最大距離で除算することによって正規化される、条項13に記載のコンピュータ可読媒体。
15.アミノ酸が非標準アミノ酸を含む、条項12に記載のコンピュータ可読媒体。
16.テンソルが、ボクセル中心の所定の半径内に見出されない原子を指定する不在原子チャネルであって、ワンホット符号化される不在原子チャネルを更に含む、条項1に記載のコンピュータ可読媒体。
17.テンソルが、アミノ酸ごとの距離チャネルの各々にボクセルごとに符号化される代替対立遺伝子のワンホット符号化を更に含む、条項1に記載のコンピュータ可読媒体。
18.テンソルが、タンパク質の参照対立遺伝子を更に含む、条項1に記載のコンピュータ可読媒体。
19.テンソルが、アミノ酸ごとの距離チャネルの各々にボクセルごとに符号化される参照対立遺伝子のワンホット符号化を更に含む、条項18に記載のコンピュータ可読媒体。
20.テンソルが、複数の種にわたるアミノ酸の保存レベルを指定する進化的プロファイルを更に含む、条項1に記載のコンピュータ可読媒体。
21.動作が、ボクセルの各々に対して
アミノ酸及び原子カテゴリにわたって最も近い原子を選択することと、
最も近い原子を含むアミノ酸の残基について汎アミノ酸保存頻度配列を選択することと、
汎アミノ酸保存頻度配列を進化的プロファイルの1つとして利用可能にすることと、を更に含む、条項20に記載のコンピュータ可読媒体。
22.汎アミノ酸保存頻度配列が、複数の種において観察されるような残基の特定の位置について構成される、条項21に記載のコンピュータ可読媒体。
23.汎アミノ酸保存頻度配列が、特定のアミノ酸について欠失している保存頻度が存在するかどうかを指定する、条項21に記載のコンピュータ可読媒体。
24.動作が、ボクセルの各々について
アミノ酸のそれぞれにおけるそれぞれの最も近い原子を選択することと、
最も近い原子を含むアミノ酸のそれぞれの残基について、それぞれのアミノ酸ごとの保存頻度を選択することと、
進化的プロファイルの1つとして利用可能なアミノ酸ごとの保存頻度を作成することと、を更に含む、条項21に記載のコンピュータ可読媒体。
25.アミノ酸ごとの保存頻度が、複数の種において観察されるような残基の特定の位置について構成される、条項24に記載のコンピュータ可読媒体。
26.アミノ酸ごとの保存頻度が、特定のアミノ酸について欠失している保存頻度が存在するかどうかを指定する、条項24に記載のコンピュータ可読媒体。
27.テンソルが、アミノ酸のアノテーションチャネルであって、テンソルにおいてワンホット符号化される、アノテーションチャネルを更に含む、条項1に記載のコンピュータ可読媒体。
28.アノテーションチャネルが、イニシエーターメチオニン、シグナル、輸送ペプチド、プロペプチド、鎖、及びペプチドを含む分子処理アノテーションである、条項27に記載のコンピュータ可読媒体。
29.アノテーションチャネルが、トポロジカルドメイン、膜貫通、膜内、ドメイン、リピート、カルシウム結合、ジンクフィンガー、デオキシリボ核酸(DNA)結合、ヌクレオチド結合、領域、コイルドコイル、モチーフ、及び組成バイアスを含む領域アノテーションである、条項27に記載のコンピュータ可読媒体。
30.アノテーションチャネルが、活性部位、金属結合、結合部位、及び部位を含む部位アノテーションである、条項27に記載のコンピュータ可読媒体。
31.アノテーションチャネルが、非標準残基、修飾残基、脂質化、グリコシル化、ジスルフィド結合、及び架橋を含むアミノ酸修飾アノテーションである、条項27に記載のコンピュータ可読媒体。
32.アノテーションチャネルが、ヘリックス、ターン、及びベータ鎖を含む二次構造アノテーションである、条項27に記載のコンピュータ可読媒体。
33.アノテーションチャネルが、突然変異誘発、配列不確実性、配列競合、非隣接残基、及び非末端残基を含む実験情報アノテーションである、条項27に記載のコンピュータ可読媒体。
34.テンソルが、アミノ酸のそれぞれの構造の品質を指定するアミノ酸の構造信頼度チャネルを更に含む、条項1に記載のコンピュータ可読媒体。
35.構造信頼度チャネルが、グローバルモデル品質推定(GMQE)である、条項34に記載のコンピュータ可読媒体。
36.構造信頼度チャネルが、定性的モデルエネルギー解析(QMEAN)スコアを含む、条項34に記載のコンピュータ可読媒体。
37.構造信頼度チャネルが、残基がそれぞれのタンパク質構造の物理的制約を満たす程度を指定する温度因子である、条項34に記載のコンピュータ可読媒体。
38.構造信頼度チャネルが、ボクセルに最も近い原子の残基が整列した鋳型構造を有する程度を指定する鋳型構造アラインメントである、条項34に記載のコンピュータ可読媒体。
39.構造信頼度チャネルが、整列された鋳型構造の鋳型モデリングスコアである、条項38に記載のコンピュータ可読媒体。
40.構造信頼度チャネルが、鋳型モデリングスコアのうちの最小のもの、鋳型モデリングスコアの平均、及び鋳型モデリングスコアのうちの最大のものである、条項39に記載のコンピュータ可読媒体。
41.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネルを代替対立遺伝子のワンホット符号化とボクセルごとに連結して、テンソルを生成することを更に含む、条項1に記載のコンピュータ可読媒体。
42.動作が、ベータ炭素原子についてのアミノ酸ごとの距離チャネルを代替対立遺伝子のワンホット符号化とボクセルごとに連結して、テンソルを生成することを更に含む、条項41に記載のコンピュータ可読媒体。
43.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、及び代替対立遺伝子のワンホット符号化をボクセルごとに連結してテンソルを生成することを更に含む、条項42のコンピュータ可読媒体。
44.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及び汎アミノ酸保存頻度配列をボクセルごとに連結して、テンソルを生成することを更に含む、条項43のコンピュータ可読媒体。
45.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、及びアノテーションチャネルをボクセルごとに連結して、テンソルを生成することを更に含む、条項44に記載のコンピュータ可読媒体。
46.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結して、テンソルを生成することを更に含む、条項45に記載のコンピュータ可読媒体。
47.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及びアミノ酸の各々についてのアミノ酸ごとの保存頻度をボクセルごとに連結して、テンソルを生成することを更に含む、条項46に記載のコンピュータ可読媒体。
48.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、及びアノテーションチャネルをボクセルごとに連結して、テンソルを生成することを更に含む、条項47に記載のコンピュータ可読媒体。
49.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結して、テンソルを生成することを更に含む、条項48に記載のコンピュータ可読媒体。
50.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、及び参照対立遺伝子のワンホット符号化をボクセルごとに連結してテンソルを生成することを更に含む、条項49に記載のコンピュータ可読媒体。
51.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、及び汎アミノ酸保存頻度配列をボクセルごとに連結してテンソルを生成することを更に含む、条項50に記載のコンピュータ可読媒体。
52.操作が、テンソルを生成するために、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、及びアノテーションチャネルをボクセルごとに連結することを更に含む、条項51に記載のコンピュータ可読媒体。
53.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結してテンソルを生成することを更に含む、条項52に記載のコンピュータ可読媒体。
54.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、及びアミノ酸の各々についてのアミノ酸ごとの保存頻度をボクセルごとに連結してテンソルを生成することを更に含む、条項53に記載のコンピュータ可読媒体。
55.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、汎アミノ酸保存頻度配列、アミノ酸の各々についてのアミノ酸ごとの保存頻度、及びアノテーションチャネルをボクセルごとに連結してテンソルを生成することを更に含む、条項54に記載のコンピュータ可読媒体。
56.動作が、アルファ炭素原子についてのアミノ酸ごとの距離チャネル、ベータ炭素原子についてのアミノ酸ごとの距離チャネル、代替対立遺伝子のワンホット符号化、参照対立遺伝子のワンホット符号化、アミノ酸の各々についてのアミノ酸ごとの保存頻度、アノテーションチャネル、及び構造信頼度チャネルをボクセルごとに連結してテンソルを生成することを更に含む、条項55に記載のコンピュータ可読媒体。
57.動作が、アミノ酸ごとの距離チャネルが生成される前に、アミノ酸の原子を回転させることを更に含む、条項1に記載のコンピュータ可読媒体。
58.動作が、畳み込みニューラルネットワークにおいて、1×1×1畳み込み、3×3×3畳み込み、正規化線形ユニット活性化層、バッチ正規化層、全結合層、ドロップアウト正則化層、及びソフトマックス分類層を使用することを更に含む、条項1に記載のコンピュータ可読媒体。
59.1×1×1畳み込み及び3×3×3畳み込みが、3次元畳み込みである、条項58に記載のコンピュータ可読媒体。
60.1×1×1畳み込みの層が、テンソルを処理し、テンソルの畳み込み表現である中間出力を生成し、3×3×3畳み込み層の配列が、中間出力を処理し、平坦化された出力を生成し、全結合層が、平坦化された出力を処理し、非正規化出力を生成し、ソフトマックス分類層が、非正規化出力を処理し、変異体が病原性及び良性である尤度を特定する指数関数的に正規化された出力を生成する、条項58に記載のコンピュータ可読媒体。
61.シグモイド層が、非正規化出力を処理し、変異体が病原性である尤度を特定する正規化出力を生成する、条項60に記載のコンピュータ可読媒体。
62.ボクセル、原子、及び距離が3次元座標を有し、テンソルが少なくとも3次元を有し、中間出力が少なくとも3次元を有し、平坦化された出力が1次元を有する、条項60に記載のコンピュータ可読媒体。
63.1つ以上のプロセッサ上で実行されると、
タンパク質中のアミノ酸についての、原子カテゴリごとの距離チャネルを記憶することであって、
アミノ酸が、複数の原子カテゴリの原子を有し、
複数の原子カテゴリのうちの原子カテゴリが、アミノ酸の原子エレメントを指定し、
原子カテゴリごとの距離チャネルの各々が、複数のボクセル内のボクセルに対するボクセルごとの距離値を有し、
ボクセルごとの距離値が、複数のボクセル内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリ内の原子までの距離を指定する、記憶することと、
原子カテゴリごとの距離チャネルと、変異体によって発現されるタンパク質の代替対立遺伝子とを含むテンソルを処理することと、
テンソルに少なくとも部分的に基づいて、変異体の病原性を決定することと、を含む動作を実行するようにコンピュータを構成するコンピュータ実行可能命令を記憶する、1つ以上のコンピュータ可読媒体。
64.動作が、複数の原子カテゴリ内のそれぞれの原子カテゴリのそれぞれの原子上にボクセルのボクセルグリッドを中心付けることを更に含む、条項63に記載のコンピュータ可読媒体。
65.動作が、タンパク質中の少なくとも1つの変異体アミノ酸の残基のアルファ炭素原子上にボクセルグリッドを中心付けることを更に含む、条項64に記載のコンピュータ可読媒体。
66.距離が、ボクセルグリッド内の対応するボクセル中心から対応する原子カテゴリ内の最も近い原子までの最も近い原子の距離である、条項65に記載のコンピュータ可読媒体。
67.最も近い原子の距離が、ユークリッド距離である、条項66に記載のコンピュータ可読媒体。
68.最も近い原子の距離が、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化される、条項67に記載のコンピュータ可読媒体。
69.距離が、アミノ酸及びアミノ酸の原子カテゴリに関係なく、ボクセルグリッド内の対応するボクセル中心から最も近い原子までの最も近い原子の距離である、条項68に記載のコンピュータ可読媒体。
70.最も近い原子の距離が、ユークリッド距離である、条項69に記載のコンピュータ可読媒体。
71.最も近い原子の距離が、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化される、条項70に記載のコンピュータ可読媒体。
【0200】
特定の実施態様2
いくつかの実施態様では、システムは、タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成するボクセル化器を含む。アミノ酸ごとの距離チャネルの各々は、ボクセルの3次元グリッド内に各ボクセルについての3次元距離値を有する。3次元距離値は、ボクセルの3次元グリッド内の対応するボクセルから参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する。システムは、ボクセルの3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダを更に含む。代替対立遺伝子アミノ酸は、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である。システムは、ボクセルの3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダを更に含む。進化的保存配列は、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であることができる。アミノ酸特異的保存頻度は、対応するボクセルへのアミノ酸近接度に応じて選択することができる。システムは、代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化されたアミノ酸ごとの距離チャネルを含むテンソルに3次元畳み込みを適用するように構成された畳み込みニューラルネットワークを更に含む。畳み込みニューラルネットワークはまた、テンソルに少なくとも部分的に基づいて変異体ヌクレオチドの病原性を決定するように構成することができる。
【0201】
ボクセル化器は、参照アミノ酸配列内の参照アミノ酸のそれぞれの残基のアルファ炭素原子上にボクセルの3次元グリッドを中心付けることができる。ボクセル化器は、変異アミノ酸残基に位置する特定の参照アミノ酸残基のアルファ炭素原子上にボクセルの3次元グリッドを中心付けることができる。
【0202】
いくつかの実装形態では、システムは、テンソルにおいて、特定の参照アミノ酸に先行する参照アミノ酸についての3次元距離値に方向性パラメータを乗算することによって、参照アミノ酸配列内の参照アミノ酸の方向性及び特定の参照アミノ酸の位置を符号化するように更に構成することができる。距離は、ボクセルの3次元グリッドにおける対応するボクセル中心から、対応する参照アミノ酸の最も近い原子までの最も近い原子の距離であることができる。最も近い原子の距離はユークリッド距離であってもよく、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化することができる。
【0203】
いくつかの実施態様では、参照アミノ酸はアルファ炭素原子を有することができ、距離は、対応するボクセル中心から対応する参照アミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子の距離であることができる。いくつかの実施態様では、参照アミノ酸はベータ炭素原子を有することができ、距離は、対応するボクセル中心から対応する参照アミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子の距離であることができる。いくつかの実施態様では、参照アミノ酸は骨格原子を有することができ、距離は、対応するボクセル中心から対応する参照アミノ酸の最も近い骨格原子までの最も近い骨格原子の距離であることができる。いくつかの実施態様では、アミノ酸は側鎖原子を有することができ、距離は、対応するボクセル中心から対応する参照アミノ酸の最も近い側鎖原子までの最も近い側鎖原子の距離であることができる。
【0204】
いくつかの実施態様では、システムは、テンソルにおいて、各ボクセルから最も近い原子までの距離を指定する最も近い原子のチャネルを符号化するように更に構成することができる。最も近い原子は、アミノ酸及びアミノ酸の原子エレメントに関係なく選択することができる。距離はユークリッド距離であってもよく、ユークリッド距離を最大距離で除算することによって正規化することができる。アミノ酸は、非標準アミノ酸を含むことができる。テンソルは、ボクセル中心の所定の半径内に見出されない原子を指定する不在原子チャネルを更に含むことができる。不在原子チャネルは、ワンホット符号化することができる。
【0205】
いくつかの実施態様では、システムは、アミノ酸位置ベースで各3次元距離値に参照対立遺伝子アミノ酸をボクセルごとに符号化する参照対立遺伝子エンコーダを更に含むことができる。参照対立遺伝子アミノ酸は、参照アミノ酸配列のワンホット符号化の3次元表現であることができる。アミノ酸特異的保存頻度は、複数の種にわたるそれぞれのアミノ酸の保存レベルを指定することができる。
【0206】
いくつかの実施態様では、進化的保存エンコーダは、参照アミノ酸及び原子カテゴリにわたって、対応するボクセルへの最も近い原子を選択することができ、最も近い原子を含む参照アミノ酸の残基に対する汎アミノ酸保存頻度を選択することができ、汎アミノ酸保存頻度の3次元表現を進化的保存配列として使用することができる。汎アミノ酸保存頻度は、複数の種において観察されるような残基の特定の位置について構成することができる。汎アミノ酸保存頻度は、特定の参照アミノ酸について欠失している保存頻度があるかどうかを指定することができる。
【0207】
いくつかの実施態様では、進化的保存エンコーダは、参照アミノ酸のそれぞれにおいて対応するボクセルに対してそれぞれ最も近い原子を選択することができ、最も近い原子を含む参照アミノ酸のそれぞれの残基についてそれぞれのアミノ酸ごとの保存頻度を選択することができ、アミノ酸ごとの保存頻度の3次元表現を進化的保存配列として使用することができる。アミノ酸ごとの保存頻度は、複数の種において観察されるような残基の特定の位置について構成することができる。アミノ酸ごとの保存頻度は、特定の参照アミノ酸について欠失している保存頻度があるかどうかを指定することができる。
【0208】
いくつかの実施態様では、システムは、1つ以上のアノテーションチャネルを各3次元距離値にボクセルごとに符号化するアノテーションエンコーダを更に含むことができる。アノテーションチャネルは、残基アノテーションのワンホット符号化の3次元表現であり得、イニシエーターメチオニン、シグナル、輸送ペプチド、プロペプチド、鎖、及びペプチドを含む分子処理アノテーションであることができる。いくつかの実施態様では、アノテーションチャネルは、トポロジカルドメイン、膜貫通、膜内、ドメイン、リピート、カルシウム結合、ジンクフィンガー、デオキシリボ核酸(DNA)結合、ヌクレオチド結合、領域、コイルドコイル、モチーフ、及び組成バイアスを含む領域アノテーションであることができるか、又は活性部位、金属結合、結合部位、及び部位を含む部位アノテーションであることができる。いくつかの実施態様では、アノテーションチャネルは、非標準残基、修飾残基、脂質化、グリコシル化、ジスルフィド結合、及び架橋を含むアミノ酸修飾アノテーションであることができるか、又はヘリックス、ターン、及びベータ鎖を含む二次構造アノテーションであることができる。アノテーションチャネルは、突然変異誘発、配列不確実性、配列競合、非隣接残基、及び非末端残基を含む実験情報アノテーションであることができる。
【0209】
いくつかの実施態様では、システムは、1つ以上の構造信頼度チャネルを各3次元距離値にボクセルごとに符号化する構造信頼エンコーダを更に含むことができる。構造信頼度チャネルは、それぞれの残基構造の質を指定する信頼度スコアの3次元表現であることができる。構造信頼度チャネルは、グローバルモデル品質推定(GMQE)であることができ、定性的モデルエネルギー解析(QMEAN)スコアであることができ、残基がそれぞれのタンパク質構造の物理的制約を満たす程度を指定する温度因子であることができ、ボクセルに最も近い原子の残基が整列した鋳型構造を有する程度を指定する鋳型構造アラインメントであることができ、整列した鋳型構造の鋳型モデリングスコアであることができ、又は鋳型モデリングスコアのうちの最小のもの、鋳型モデリングスコアの平均、及び鋳型モデリングスコアのうちの最大のものであることができる。
【0210】
いくつかの実施態様では、システムは、アミノ酸ごとの距離チャネルが生成される前に原子を回転させる原子回転エンジンを更に含むことができる。
【0211】
畳み込みニューラルネットワークは、1×1×1畳み込み、3×3×3畳み込み、正規化線形ユニット活性化層、バッチ正規化層、全結合層、ドロップアウト正則化層、及びソフトマックス分類層を使用することができる。1×1×1畳み込み及び3×3×3畳み込みは、3次元畳み込みであることができる。いくつかの実施態様では、1×1×1の畳み込みの層は、テンソルを処理し、テンソルの畳み込み表現である中間出力を生成することができる。3×3×3の畳み込みの層の配列は、中間出力を処理し、平坦化された出力を生成することができる。全結合層は、平坦化された出力を処理し、非正規化出力を生成することができる。ソフトマックス分類層は、非正規化出力を処理し、変異体ヌクレオチドが病原性及び良性である尤度を特定する指数関数的に正規化された出力を生成することができる。
【0212】
いくつかの実施態様では、シグモイド層は、非正規化出力を処理し、変異体ヌクレオチドが病原性である尤度を特定する正規化出力を生成することができる。畳み込みニューラルネットワークは、アテンションベースのニューラルネットワークであることができる。テンソルは、参照対立遺伝子アミノ酸で更に符号化されるアミノ酸ごとの距離チャネルを含むことができ、アノテーションチャネルで更に符号化されるアミノ酸ごとの距離チャネルを含むことができ、又は構造信頼度チャネルで更に符号化されるアミノ酸ごとの距離チャネルを含むことができる。
【0213】
いくつかの実施態様では、システムは、タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、原子カテゴリごとの距離チャネルを生成するボクセル化器を含むことができる。原子は、アミノ酸の原子エレメントを指定する複数の原子カテゴリに及ぶ。原子カテゴリごとの距離チャネルの各々は、ボクセルの3次元グリッド内に各ボクセルについての3次元距離値を有する。3次元距離値は、ボクセルの3次元グリッド内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリの原子までの距離を指定する。システムは、ボクセルの3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダを更に含む。代替対立遺伝子アミノ酸は、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である。システムは、ボクセルの3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダを更に含む。進化的保存配列は、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であることができる。アミノ酸特異的保存頻度は、対応するボクセルへのアミノ酸近接度に応じて選択することができる。システムは、代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化された原子カテゴリごとの距離チャネルを含むテンソルに3次元畳み込みを適用し、テンソルに少なくとも部分的に基づいて変異体ヌクレオチドの病原性を決定するように構成された畳み込みニューラルネットワークを更に含む。
【0214】
いくつかの実施態様では、システムは、タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成するボクセル化器を含む。アミノ酸ごとの距離チャネルの各々は、ボクセルの3次元グリッド内に各ボクセルについての3次元距離値を有することができる。3次元距離値は、ボクセルの3次元グリッド内の対応するボクセルから参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定することができる。システムは、ボクセルの3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダを更に含む。代替対立遺伝子アミノ酸は、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である。システムは、ボクセルの3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダを更に含む。進化的保存配列は、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であることができる。アミノ酸特異的保存頻度は、対応するボクセルへのアミノ酸近接度に応じて選択することができる。システムは、代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化されたアミノ酸ごとの距離チャネルを含むテンソルを生成するように構成されたテンソル生成器を更に含む。
【0215】
いくつかの実施態様では、システムは、タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、原子カテゴリごとの距離チャネルを生成するボクセル化器を含む。原子は、アミノ酸の原子エレメントを指定する複数の原子カテゴリに及ぶことができる。原子カテゴリごとの距離チャネルの各々は、ボクセルの3次元グリッド内に各ボクセルについての3次元距離値を有することができる。3次元距離値は、ボクセルの3次元グリッド内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリの原子までの距離を指定することができる。システムは、ボクセルの3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダを更に含む。代替対立遺伝子アミノ酸は、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である。システムは、ボクセルの3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダを更に含む。進化的保存配列は、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であることができる。アミノ酸特異的保存頻度は、対応するボクセルへのアミノ酸近接度に応じて選択することができる。システムは、代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化された原子カテゴリごとの距離チャネルを含むテンソルを生成するように構成されたテンソル生成器を更に含む。
【0216】
条項セット1
1.コンピュータ実装方法であって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成することであって、
アミノ酸ごとの距離チャネルの各々が、ボクセルの3次元グリッド内の各ボクセルについての3次元距離値を有し、
3次元距離値が、ボクセルの3次元グリッド内の対応するボクセルから参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、生成することと、
ボクセルの3次元グリッド内の各ボクセルに代替対立遺伝子チャネルを符号化することであって、代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、アミノ酸ごとの距離チャネルにわたる3次元距離値の各配列に、進化的保存チャネルを符号化することであって、
進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
アミノ酸特異的保存頻度が、対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルで符号化されたアミノ酸ごとの距離チャネルを含むテンソルに3次元畳み込みを適用することと、
テンソルに少なくとも部分的に基づいて、変異体ヌクレオチドの病原性を決定することと、を含む、コンピュータ実装方法。
2.参照アミノ酸配列内の参照アミノ酸のそれぞれの残基のアルファ炭素原子上にボクセルの3次元グリッドを中心付けることを更に含む、条項1に記載のコンピュータ実装方法。
3.変異体アミノ酸に対応する特定の参照アミノ酸の残基のアルファ炭素原子上にボクセルの3次元グリッドを中心付けることを更に含む、条項2に記載のコンピュータ実装方法。
4.テンソルにおいて、特定の参照アミノ酸に先行する参照アミノ酸についての3次元距離値に方向性パラメータを乗算することによって、参照アミノ酸配列内の参照アミノ酸の方向性及び特定の参照アミノ酸の位置を符号化することを更に含む、条項3に記載のコンピュータ実装方法。
5.距離が、ボクセルの3次元グリッド内の対応するボクセル中心から対応する参照アミノ酸の最も近い原子までの最も近い原子の距離である、条項4に記載のコンピュータ実装方法。
6.最も近い原子の距離がユークリッド距離である、条項5に記載のコンピュータ実装方法。
7.最も近い原子の距離が、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化される、条項6に記載のコンピュータ実装方法。
8.参照アミノ酸がアルファ炭素原子を有し、距離が、対応するボクセル中心から対応する参照アミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子の距離である、条項5に記載のコンピュータ実装方法。
9.参照アミノ酸がベータ炭素原子を有し、距離が、対応するボクセル中心から対応する参照アミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子の距離である、条項5に記載のコンピュータ実装方法。
10.参照アミノ酸が骨格原子を有し、距離が、対応するボクセル中心から対応する参照アミノ酸の最も近い骨格原子までの最も近い骨格原子の距離である、条項5に記載のコンピュータ実装方法。
11.アミノ酸が側鎖原子を有し、距離が、対応するボクセル中心から対応する参照アミノ酸の最も近い側鎖原子までの最も近い側鎖原子の距離である、条項5に記載のコンピュータ実装方法。
12.テンソルにおいて、各ボクセルから、アミノ酸及びアミノ酸の原子エレメントに関係なく選択される最も近い原子までの距離を指定する最も近い原子のチャネルを符号化することを更に含む、条項3に記載のコンピュータ実装方法。
13.距離がユークリッド距離である、条項12に記載のコンピュータ実装方法。
14.距離が、ユークリッド距離を最大距離で除算することによって正規化される、条項13に記載のコンピュータ実装方法。
15.アミノ酸が非標準アミノ酸を含む、条項12に記載のコンピュータ実装方法。
16.テンソルが、ボクセル中心の所定の半径内に見出されない原子を指定する不在原子チャネルを更に含む、条項1に記載のコンピュータ実装方法。
17.不在原子チャネルがワンホット符号化される、条項16に記載のコンピュータ実装方法。
18.ボクセルの3次元グリッド内の各ボクセルに参照対立遺伝子チャネルをボクセルごとに符号化することを更に含む、条項1に記載のコンピュータ実装方法。
19.参照対立遺伝子アミノ酸が、変異体アミノ酸を経験する参照アミノ酸のワンホット符号化の3次元表現である、条項18に記載のコンピュータ実装方法。
20.アミノ酸特異的保存頻度が、複数の種にわたるそれぞれのアミノ酸の保存レベルを指定する、条項1に記載のコンピュータ実装方法。
21.
参照アミノ酸及び原子カテゴリにわたって対応するボクセルへの最も近い原子を選択することと、
最も近い原子を含む参照アミノ酸の残基について汎アミノ酸保存頻度を選択することと、
進化的保存チャネルとして汎アミノ酸保存頻度の3次元表現を使用することと、を更に含む、条項20に記載のコンピュータ実装方法。
22.汎アミノ酸保存頻度が、複数の種において観察されるような残基の特定の位置について構成される、条項21に記載のコンピュータ実装方法。
23.汎アミノ酸保存頻度が、特定の参照アミノ酸について欠失している保存頻度が存在するかどうかを指定する、条項21に記載のコンピュータ実装方法。
24.
参照アミノ酸のそれぞれにおいて対応するボクセルにそれぞれの最も近い原子を選択することと、
最も近い原子を含む参照アミノ酸のそれぞれの残基について、それぞれのアミノ酸ごとの保存頻度を選択することと、
進化的保存チャネルとしてアミノ酸ごとの保存頻度の3次元表現を使用することと、を更に含む、条項21に記載のコンピュータ実装方法。
25.アミノ酸ごとの保存頻度が、複数の種において観察されるような残基の特定の位置について構成される、条項24に記載のコンピュータ実装方法。
26.アミノ酸ごとの保存頻度が、特定の参照アミノ酸について欠失している保存頻度が存在するかどうかを指定する、条項24に記載のコンピュータ実装方法。
27.ボクセルの3次元グリッド内の各ボクセルに、残基アノテーションのワンホット符号化の3次元表現である1つ以上のアノテーションチャネルをボクセルごとに符号化することを更に含む、条項1に記載のコンピュータ実装方法。
28.アノテーションチャネルが、イニシエーターメチオニン、シグナル、輸送ペプチド、プロペプチド、鎖、及びペプチドを含む分子処理アノテーションである、条項27に記載のコンピュータ実装方法。
29.アノテーションチャネルが、トポロジカルドメイン、膜貫通、膜内、ドメイン、リピート、カルシウム結合、ジンクフィンガー、デオキシリボ核酸(DNA)結合、ヌクレオチド結合、領域、コイルドコイル、モチーフ、及び組成バイアスを含む領域アノテーションである、条項27に記載のコンピュータ実装方法。
30.アノテーションチャネルが、活性部位、金属結合、結合部位、及び部位を含む部位アノテーションである、条項27に記載のコンピュータ実装方法。
31.アノテーションチャネルが、非標準残基、修飾残基、脂質化、グリコシル化、ジスルフィド結合、及び架橋を含むアミノ酸修飾アノテーションである、条項27に記載のコンピュータ実装方法。
32.アノテーションチャネルが、ヘリックス、ターン、及びベータ鎖を含む二次構造アノテーションである、条項27に記載のコンピュータ実装方法。
33.アノテーションチャネルが、突然変異誘発、配列不確実性、配列競合、非隣接残基、及び非末端残基を含む実験情報アノテーションである、条項27に記載のコンピュータ実装方法。
34.それぞれの残基構造の質を指定する信頼度スコアの3次元表現である1つ以上の構造信頼度チャネルをボクセルの3次元グリッド内の各ボクセルにボクセルごとに符号化することを更に含む、条項1に記載のコンピュータ実装方法。
35.構造信頼度チャネルが、グローバルモデル品質推定(GMQE)である、条項34に記載のコンピュータ実装方法。
36.構造信頼度チャネルが、定性的モデルエネルギー解析(QMEAN)スコアである、条項34に記載のコンピュータ実装方法。
37.構造信頼度チャネルが、残基がそれぞれのタンパク質構造の物理的制約を満たす程度を指定する温度因子である、条項34に記載のコンピュータ実装方法。
38.構造信頼度チャネルが、ボクセルに最も近い原子の残基が整列した鋳型構造を有する程度を指定する鋳型構造アラインメントである、条項34に記載のコンピュータ実装方法。
39.構造信頼度チャネルが、整列された鋳型構造の鋳型モデリングスコアである、条項38に記載のコンピュータ実装方法。
40.構造信頼度チャネルが、鋳型モデリングスコアのうちの最小のもの、鋳型モデリングスコアの平均、及び鋳型モデリングスコアのうちの最大のものである、条項39に記載のコンピュータ実装方法。
41.アミノ酸ごとの距離チャネルが生成される前に、原子を回転させることを更に含む、条項1に記載のコンピュータ実装方法。
42.畳み込みニューラルネットワークにおいて、1×1×1畳み込み、3×3×3畳み込み、正規化線形ユニット活性化層、バッチ正規化層、全結合層、ドロップアウト正則化層、及びソフトマックス分類層を使用することを更に含む、条項1に記載のコンピュータ実装方法。
43.1×1×1畳み込み及び3×3×3畳み込みが、3次元畳み込みである、条項42に記載のコンピュータ実装方法。
44.1×1×1畳み込みの層が、テンソルを処理し、テンソルの畳み込み表現である中間出力を生成し、3×3×3畳み込みの層の配列が、中間出力を処理し、平坦化された出力を生成し、完全結合層が、平滑化された出力を処理し、非正規化出力を生成し、ソフトマックス分類層が、非正規化出力を処理し、変異体ヌクレオチドが病原性および良性である尤度を特定する指数関数的に正規化された出力を生成する、条項42に記載のコンピュータ実装方法。
45.シグモイド層が、非正規化出力を処理し、変異体ヌクレオチドが病原性である尤度を特定する正規化出力を生成する、条項44に記載のコンピュータ実装方法。
46.畳み込みニューラルネットワークが、アテンションベースのニューラルネットワークである、条項1に記載のコンピュータ実装方法。
47.テンソルが、参照対立遺伝子チャネルで更に符号化されたアミノ酸ごとの距離チャネルを含む、条項1に記載のコンピュータ実装方法。
48.テンソルが、アノテーションチャネルで更に符号化されたアミノ酸ごとの距離チャネルを含む、条項1に記載のコンピュータ実装方法。
49.テンソルが、構造信頼度チャネルで更に符号化されたアミノ酸ごとの距離チャネルを含む、条項1に記載のコンピュータ実装方法。
50.コンピュータ実装方法であって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで、3次元構造内の複数の原子カテゴリに及ぶ原子にボクセルの3次元グリッドを当てはめて、原子カテゴリごとの距離チャネルを生成することであって、
原子が、複数の原子カテゴリにまたがり、
複数の原子カテゴリのうちの原子カテゴリが、アミノ酸の原子エレメントを指定し、
原子カテゴリごとの距離チャネルの各々が、ボクセルの3次元グリッド内の各ボクセルについての3次元距離値を有し、
3次元距離値が、ボクセルの3次元グリッド内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリの原子までの距離を指定する、生成することと、
代替対立遺伝子チャネルをボクセルの3次元グリッド内の各ボクセルに符号化することであって、
代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、原子カテゴリごとの距離チャネルにわたる3次元距離値の各配列に進化的保存チャネルを符号化することであって、
進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
アミノ酸特異的保存頻度が、対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルで符号化された原子カテゴリごとの距離チャネルを含むテンソルに3次元畳み込みを適用することと、
テンソルに少なくとも部分的に基づいて、変異体ヌクレオチドの病原性を決定することと、を含む、コンピュータ実装方法。
51.コンピュータ実装方法であって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成することであって、
アミノ酸ごとの距離チャネルの各々が、ボクセルの3次元グリッド内の各ボクセルについての3次元距離値を有し、
3次元距離値が、ボクセルの3次元グリッド内の対応するボクセルから参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、生成することと、
代替対立遺伝子チャネルをボクセルの3次元グリッド内の各ボクセルに符号化することであって、
代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、アミノ酸ごとの距離チャネルにわたる3次元距離値の各配列に、進化的保存チャネルを符号化することであって、
進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
アミノ酸特異的保存頻度が、対応するボクセルへのアミノ酸近接度に応じて選択される、進化的保存エンコーダと、
代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルで符号化されたアミノ酸ごとの距離チャネルを含むテンソルを生成することと、を含む、コンピュータ実装方法。
52.コンピュータ実装方法であって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで、3次元構造内の複数の原子カテゴリに及ぶ原子にボクセルの3次元グリッドを当てはめて、原子カテゴリごとの距離チャネルを生成することであって、
原子が、複数の原子カテゴリにまたがり、
複数の原子カテゴリのうちの原子カテゴリが、アミノ酸の原子エレメントを指定し、
原子カテゴリごとの距離チャネルの各々が、ボクセルの3次元グリッド内の各ボクセルについての3次元距離値を有し、
3次元距離値が、ボクセルの3次元グリッド内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリの原子までの距離を指定する、生成することと、
代替対立遺伝子チャネルをボクセルの3次元グリッド内の各ボクセルに符号化することであって、
代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、原子カテゴリごとの距離チャネルにわたる3次元距離値の各配列に進化的保存チャネルを符号化することであって、
進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
アミノ酸特異的保存頻度が、対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルを用いて符号化された原子カテゴリごとの距離チャネルを含むテンソルを生成することと、を含む、コンピュータ実装方法。
【0217】
条項セット2
1.1つ以上のプロセッサ上で実行されると、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成することであって、
アミノ酸ごとの距離チャネルの各々が、ボクセルの3次元グリッド内の各ボクセルについての3次元距離値を有し、
3次元距離値が、ボクセルの3次元グリッド内の対応するボクセルから参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、生成することと、
代替対立遺伝子チャネルをボクセルの3次元グリッド内の各ボクセルに符号化することであって、
代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、アミノ酸ごとの距離チャネルにわたる3次元距離値の各配列に、進化的保存チャネルを符号化することであって、
進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
アミノ酸特異的保存頻度が、対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルで符号化されたアミノ酸ごとの距離チャネルを含むテンソルに3次元畳み込みを適用することと、
テンソルに少なくとも部分的に基づいて、変異体ヌクレオチドの病原性を決定することと、を含む動作を実行するようにコンピュータを構成するコンピュータ実行可能命令を記憶する、1つ以上のコンピュータ可読媒体。
2.動作が、参照アミノ酸配列内の参照アミノ酸のそれぞれの残基のアルファ炭素原子上にボクセルの3次元グリッドを中心付けることを更に含む、条項1に記載のコンピュータ可読媒体。
3.動作が、変異体アミノ酸に対応する特定の参照アミノ酸の残基のアルファ炭素原子上にボクセルの3次元グリッドを中心付けることを更に含む、条項2に記載のコンピュータ可読媒体。
4.動作が、テンソルにおいて、特定の参照アミノ酸に先行する参照アミノ酸についての3次元距離値に方向性パラメータを乗算することによって、参照アミノ酸配列内の参照アミノ酸の方向性及び特定の参照アミノ酸の位置を符号化することを更に含む、条項3に記載のコンピュータ可読媒体。
5.距離が、ボクセルの3次元グリッド内の対応するボクセル中心から対応する参照アミノ酸の最も近い原子までの最も近い原子の距離である、条項4に記載のコンピュータ可読媒体。
6.最も近い原子の距離がユークリッド距離である、条項5に記載のコンピュータ可読媒体。
7.最も近い原子の距離が、ユークリッド距離を最大の最も近い原子の距離で除算することによって正規化される、条項6に記載のコンピュータ可読媒体。
8.参照アミノ酸がアルファ炭素原子を有し、距離が、
対応するボクセル中心から対応する参照アミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子の距離である、条項5に記載のコンピュータ可読媒体。
9.参照アミノ酸がベータ炭素原子を有し、距離が、対応するボクセル中心から対応する参照アミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子の距離である、条項5に記載のコンピュータ可読媒体。
10.参照アミノ酸が骨格原子を有し、距離が、対応するボクセル中心から対応する参照アミノ酸の最も近い骨格原子までの最も近い骨格原子の距離である、条項5に記載のコンピュータ可読媒体。
11.アミノ酸が側鎖原子を有し、距離が、対応するボクセル中心から対応する参照アミノ酸の最も近い側鎖原子までの最も近い側鎖原子の距離である、条項5に記載のコンピュータ可読媒体。
12.動作が、テンソルにおいて、各ボクセルから、アミノ酸及びアミノ酸の原子エレメントに関係なく選択される最も近い原子までの距離を指定する最も近い原子のチャネルを符号化することを更に含む、条項3に記載のコンピュータ可読媒体。
13.距離がユークリッド距離である、条項12に記載のコンピュータ可読媒体。
14.距離が、ユークリッド距離を最大距離で除算することによって正規化される、条項13に記載のコンピュータ可読媒体。
15.アミノ酸が非標準アミノ酸を含む、条項12に記載のコンピュータ可読媒体。
16.テンソルが、ボクセル中心の所定の半径内に見つからない原子を指定する不在原子チャネルを更に含む、条項1に記載のコンピュータ可読媒体。
17.不在原子チャネルがワンホット符号化される、条項16に記載のコンピュータ可読媒体。
18.動作が、ボクセルの3次元グリッド内の各ボクセルに参照対立遺伝子チャネルをボクセルごとに符号化することを更に含む、条項1に記載のコンピュータ可読媒体。19.参照対立遺伝子アミノ酸が、変異体アミノ酸を経験する参照アミノ酸のワンホット符号化の3次元表現である、条項18に記載のコンピュータ可読媒体。
20.アミノ酸特異的保存頻度が、複数の種にわたるそれぞれのアミノ酸の保存レベルを指定する、条項1に記載のコンピュータ可読媒体。
21.動作が、
参照アミノ酸及び原子カテゴリにわたって対応するボクセルへの最も近い原子を選択することと、
最も近い原子を含む参照アミノ酸の残基について汎アミノ酸保存頻度を選択することと、
進化的保存チャネルとして汎アミノ酸保存頻度の3次元表現を使用することと、を更に含む、条項20に記載のコンピュータ可読媒体。
22.汎アミノ酸保存頻度が、複数の種において観察されるような残基の特定の位置について構成される、条項21に記載のコンピュータ可読媒体。
23.汎アミノ酸保存頻度が、特定の参照アミノ酸について欠失している保存頻度が存在するかどうかを指定する、条項21に記載のコンピュータ可読媒体。
24.操作が、参照アミノ酸のそれぞれにおいて対応するボクセルへのそれぞれの最も近い原子を選択するステップと、
最も近い原子を含む参照アミノ酸のそれぞれの残基について、それぞれのアミノ酸ごとの保存頻度を選択することと、
進化的保存チャネルとしてアミノ酸ごとの保存頻度の3次元表現を使用することと、を更に含む、条項21に記載のコンピュータ可読媒体。
25.アミノ酸ごとの保存頻度が、複数の種において観察されるような残基の特定の位置について構成される、条項24に記載のコンピュータ可読媒体。
26.アミノ酸ごとの保存頻度が、特定の参照アミノ酸について欠失している保存頻度が存在するかどうかを指定する、条項24に記載のコンピュータ可読媒体。
27.動作が、ボクセルの3次元グリッド内の各ボクセルに、残基アノテーションのワンホット符号化の3次元表現である1つ以上のアノテーションチャネルをボクセルごとに符号化することを更に含む、条項1に記載のコンピュータ可読媒体。
28.アノテーションチャネルが、イニシエーターメチオニン、シグナル、輸送ペプチド、プロペプチド、鎖、及びペプチドを含む分子処理アノテーションである、条項27に記載のコンピュータ可読媒体。
29.アノテーションチャネルが、トポロジカルドメイン、膜貫通、膜内、ドメイン、リピート、カルシウム結合、ジンクフィンガー、デオキシリボ核酸(DNA)結合、ヌクレオチド結合、領域、コイルドコイル、モチーフ、及び組成バイアスを含む領域アノテーションである、条項27に記載のコンピュータ可読媒体。
30.アノテーションチャネルが、活性部位、金属結合、結合部位、及び部位を含む部位アノテーションである、条項27に記載のコンピュータ可読媒体。
31.アノテーションチャネルが、非標準残基、修飾残基、脂質化、グリコシル化、ジスルフィド結合、及び架橋を含むアミノ酸修飾アノテーションである、条項27に記載のコンピュータ可読媒体。
32.アノテーションチャネルが、ヘリックス、ターン、及びベータ鎖を含む二次構造アノテーションである、条項27に記載のコンピュータ可読媒体。
33.アノテーションチャネルが、突然変異誘発、配列不確実性、配列競合、非隣接残基、及び非末端残基を含む実験情報アノテーションである、条項27に記載のコンピュータ可読媒体。
34.動作が、ボクセルの3次元グリッド内の各ボクセルに、それぞれの残基構造の質を指定する信頼度スコアの3次元表現である1つ以上の構造信頼度チャネルをボクセルごとに符号化することを更に含む、条項1に記載のコンピュータ可読媒体。
35.構造信頼度チャネルが、グローバルモデル品質推定(GMQE)である、条項34に記載のコンピュータ可読媒体。
36.構造信頼度チャネルが、定性的モデルエネルギー解析(QMEAN)スコアである、条項34に記載のコンピュータ可読媒体。
37.構造信頼度チャネルが、残基がそれぞれのタンパク質構造の物理的制約を満たす程度を指定する温度因子である、条項34に記載のコンピュータ可読媒体。
38.構造信頼度チャネルが、ボクセルに最も近い原子の残基が整列した鋳型構造を有する程度を指定する鋳型構造アラインメントである、条項34に記載のコンピュータ可読媒体。
39.構造信頼度チャネルが、整列された鋳型構造の鋳型モデリングスコアである、条項38に記載のコンピュータ可読媒体。
40.構造信頼度チャネルが、鋳型モデリングスコアのうちの最小のもの、鋳型モデリングスコアの平均、及び鋳型モデリングスコアのうちの最大のものである、条項39に記載のコンピュータ可読媒体。
41.動作が、アミノ酸ごとの距離チャネルが生成される前に、原子を回転させることを更に含む、条項1に記載のコンピュータ可読媒体。
42.動作が、畳み込みニューラルネットワークにおいて、1×1×1畳み込み、3×3×3畳み込み、正規化線形ユニット活性化層、バッチ正規化層、全結合層、ドロップアウト正則化層、及びソフトマックス分類層を使用することを更に含む、条項1に記載のコンピュータ可読媒体。
43.1×1×1畳み込み及び3×3×3畳み込みが、3次元畳み込みである、条項42に記載のコンピュータ可読媒体。
44.1×1×1畳み込みの層が、テンソルを処理し、テンソルの畳み込み表現である中間出力を生成し、3×3×3畳み込み層の配列が、中間出力を処理し、平坦化された出力を生成し、全結合層が、平坦化された出力を処理し、非正規化出力を生成し、ソフトマックス分類層が、非正規化出力を処理し、変異体ヌクレオチドが病原性及び良性である尤度を特定する指数関数的に正規化された出力を生成する、条項42に記載のコンピュータ可読媒体。
45.シグモイド層が、非正規化出力を処理し、変異体ヌクレオチドが病原性である尤度を特定する正規化出力を生成する、条項44に記載のコンピュータ可読媒体。
46.畳み込みニューラルネットワークが、アテンションベースのニューラルネットワークである、条項1に記載のコンピュータ可読媒体。
47.テンソルが、参照対立遺伝子チャネルで更に符号化されたアミノ酸ごとの距離チャネルを含む、条項1に記載のコンピュータ可読媒体。
48.テンソルが、アノテーションチャネルで更に符号化されたアミノ酸ごとの距離チャネルを含む、条項1に記載のコンピュータ可読媒体。
49.テンソルが、構造信頼度チャネルで更に符号化されたアミノ酸ごとの距離チャネルを含む、条項1に記載のコンピュータ可読媒体。
50.1つ以上のプロセッサ上で実行されると、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで、3次元構造内の複数の原子カテゴリに及ぶ原子にボクセルの3次元グリッドを当てはめて、原子カテゴリごとの距離チャネルを生成することであって、
原子が、複数の原子カテゴリにまたがり、
複数の原子カテゴリのうちの原子カテゴリが、アミノ酸の原子エレメントを指定し、
原子カテゴリごとの距離チャネルの各々が、ボクセルの3次元グリッド内の各ボクセルについての3次元距離値を有し、
3次元距離値が、ボクセルの3次元グリッド内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリの原子までの距離を指定する、生成することと、
代替対立遺伝子チャネルをボクセルの3次元グリッド内の各ボクセルに符号化することであって、
代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、原子カテゴリごとの距離チャネルにわたる3次元距離値の各配列に進化的保存チャネルを符号化することであって、
進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
アミノ酸特異的保存頻度が、対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルで符号化された原子カテゴリごとの距離チャネルを含むテンソルに3次元畳み込みを適用することと、
テンソルに少なくとも部分的に基づいて、変異体ヌクレオチドの病原性を決定することと、を含む動作を実行するようにコンピュータを構成するコンピュータ実行可能命令を記憶する、1つ以上のコンピュータ可読媒体。
51.1つ以上のプロセッサ上で実行されると、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成することであって、
アミノ酸ごとの距離チャネルの各々が、ボクセルの3次元グリッド内の各ボクセルについての3次元距離値を有し、
3次元距離値が、ボクセルの3次元グリッド内の対応するボクセルから参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、生成することと、
アミノ酸位置ベースで、アミノ酸ごとの距離チャネルの各々における各3次元距離値に、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である代替対立遺伝子チャネルを符号化することであって、
代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、アミノ酸ごとの距離チャネルにわたる3次元距離値の各配列に、進化的保存チャネルを符号化することであって、
進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
アミノ酸特異的保存頻度が、対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルで符号化されたアミノ酸ごとの距離チャネルを含むテンソルを生成することと、を含む動作を実行するようにコンピュータを構成するコンピュータ実行可能命令を記憶する、1つ以上のコンピュータ可読媒体。
52.1つ以上のプロセッサ上で実行されると、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、アミノ酸ベースで、3次元構造内の複数の原子カテゴリに及ぶ原子にボクセルの3次元グリッドを当てはめて、原子カテゴリごとの距離チャネルを生成することであって、
原子が、複数の原子カテゴリにまたがり、
複数の原子カテゴリのうちの原子カテゴリが、アミノ酸の原子エレメントを指定し、
原子カテゴリごとの距離チャネルの各々が、ボクセルの3次元グリッド内の各ボクセルについての3次元距離値を有し、
3次元距離値が、ボクセルの3次元グリッド内の対応するボクセルから複数の原子カテゴリ内の対応する原子カテゴリの原子までの距離を指定する、生成することと、
代替対立遺伝子チャネルをボクセルの3次元グリッド内の各ボクセルに符号化することであって、
代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、原子カテゴリごとの距離チャネルにわたる3次元距離値の各配列に進化的保存チャネルを符号化することであって、
進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
アミノ酸特異的保存頻度が、対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルを用いて符号化された原子カテゴリごとの距離チャネルを含むテンソルを生成することと、を含む動作を実行するようにコンピュータを構成するコンピュータ実行可能命令を記憶する、1つ以上のコンピュータ可読媒体。
【0218】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0219】
特定の実施態様3
条項セット1
1.グリッド内に均一に離間された、次元ごとのセルインデックス及びセル座標を有するセルに最も近い、エレメント座標を有する配列のエレメントを効率的に決定するコンピュータ実装方法であって、
エレメントの各々にセルのサブセットをマッピングするエレメントからセルへのマッピングを生成することであって、
配列内の特定のエレメントにマッピングされたセルのサブセットが、グリッド内の最も近いセル、及びグリッド内の1つ以上の近傍セルを含み、
最も近いセルが、特定のエレメントのエレメント座標をセル座標にマッチングすることに基づいて選択され、
近傍セルが、最も近いセルに連続的に隣接し、特定の要素からの距離近接範囲内にあることに基づいて選択される、生成することと、
セルの各々にエレメントのサブセットをマッピングするセルからエレメントへのマッピングを生成することであって、
グリッド内の特定のボクセルにマッピングされるエレメントのサブセットが、エレメントからセルへのマッピングによって特定のセルにマッピングされる配列内のエレメントを含む、生成することと、
セルからエレメントへのマッピングを使用して、セルの各々について、配列内の最も近いエレメントを決定することであって、
特定のセルに対する最も近いエレメントが、特定のセルとエレメントのサブセット内のエレメントとの間の距離に基づいて決定される、決定することと、を含む、コンピュータ実装方法。
2.特定のエレメントのエレメント座標をセル座標に一致させることが、エレメント座標の小数部分を切り捨てて切り捨てられたエレメント座標を生成することを更に含む、条項1に記載のコンピュータ実装方法。
3.特定のエレメントのエレメント座標をセル座標に一致させることが、
第1の次元について、切り捨てられたエレメント座標内の第1の切り捨てられたエレメント座標をグリッド内の第1のセルの第1のセル座標に一致させ、第1のセルの第1の次元インデックスを選択することと、
第2の次元について、切り捨てられたエレメント座標内の第2の切り捨てられたエレメント座標をグリッド内の第2のセルの第2のセル座標に一致させ、第2のセルの第2の次元インデックスを選択することと、
第3の次元について、切り捨てられたエレメント座標内の第3の切り捨てられたエレメント座標をグリッド内の第3のセルの第3のセル座標に一致させ、第3のセルの第3の次元インデックスを選択することと、
選択された第1、第2、及び第3の次元インデックスを使用して、基数の累乗によって選択された第1、第2、及び第3の次元インデックスを位置ごとに重み付けすることに基づいて累積和を生成することと、
累積和を、最も近いセルの選択のためのセルインデックスとして使用することと、を更に含む、条項2に記載のコンピュータ実装方法。
4.距離が、特定のセルのセル座標とエレメントのサブセット内のエレメントのエレメント座標との間で計算される、条項1に記載のコンピュータ実装方法。
5.配列が、アミノ酸のタンパク質配列である、条項1に記載のコンピュータ実装方法。
6.エレメントがアミノ酸の原子である、条項5に記載のコンピュータ実装方法。
7.エレメントからセルへのマッピングを生成するステップと、セルからエレメントへのマッピングを生成するステップと、セルからエレメントへのマッピングを使用して、セルの各々について、最も近いエレメントを決定するステップが、O(a*f+v)のランタイム複雑度を有し、
aが原子の数であり、
fがアミノ酸の数であり、
vがセルの個数であり、
*が乗算演算である、条項6に記載のコンピュータ実装方法。
8.原子がアルファ炭素原子を含む、条項7に記載のコンピュータ実装方法。
9.原子がベータ炭素原子を含む、条項7に記載のコンピュータ実装方法。
10.原子が非炭素原子を含む、条項7に記載のコンピュータ実装方法。
11.セルが3次元ボクセルである、条項1に記載のコンピュータ実装方法。
12.セル座標が3次元座標である、条項11に記載のコンピュータ実装方法。
13.エレメント座標が3次元座標である、条項12に記載のコンピュータ実装方法。
14.近傍セルが、最も近いセルからのインデックス隣接範囲内にあることに基づいて選択される、条項1に記載のコンピュータ実装方法。
15.近傍セルが、最も近いセルを含むグリッド内のセル近傍内にあることに基づいて選択される、条項1に記載のコンピュータ実装方法。
16.配列がM個のエレメントを含み、エレメントのサブセットがN個のエレメントを含み、M>>Nである、条項1に記載のコンピュータ実装方法。
17.グリッド内の3Dボクセル座標を有するボクセルに最も近い、タンパク質中の3次元(3D)原子座標を有する原子を効率的に決定するコンピュータ実装方法であって、
タンパク質の特定の原子の3D原子座標をグリッド内の3Dボクセル座標に一致させることに基づいて選択された包含ボクセルを原子の各々にマッピングする、原子からボクセルへのマッピングを生成することと、
ボクセルの各々に原子のサブセットをマッピングする、ボクセルから原子へのマッピングを生成することであって、グリッド内の特定のボクセルにマッピングされる原子のサブセットが、原子からボクセルへのマッピングによって特定のボクセルにマッピングされるタンパク質中の原子を含む、ことと、ボクセルから原子へのマッピングを使用して、ボクセルの各々について、タンパク質中の最も近い原子を決定することと、を含む、コンピュータ実装方法。
18.条項17のステップが、0(原子の数)のランタイム複雑度を有する、条項17に記載のコンピュータ実装方法。
【0220】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0221】
本発明は、上述の好ましい実施態様及び実施例を参照して開示されているが、これらの実施例は、限定的な意味でではなく例示的な意味で意図されていることが理解されるべきである。当業者であれば、変更及び組み合わせが容易に生じ、その変更及び組み合わせは、本発明の趣旨及び添付の特許請求の範囲の範囲内にあると考えられる。
【0222】
104 配列アクセサ
114 3D構造生成器
124 座標分類器
134 ボクセルグリッド生成器
144 ボクセルグリッドセンタラ
154 距離チャネル生成器
164 ワンホットエンコーダ
174 連結器
184 ランタイムロジック
1204 類似配列ファインダ
1214 アライナ
1224 汎アミノ酸保存頻度計算器
1234 最も近い原子ファインダ
1244 アミノ酸選択器
1254 ボクセル化器
1924 アミノ酸ごとの保存頻度計算器
1934 最も近い原子ファインダ
1944 アミノ酸選択器
1954 ボクセル化器
2108 病原性分類器
3600 コンピュータシステム
3610 記憶サブシステム
3622 メモリサブシステム
3632 RAM
3634 ROM
3636 ファイル記憶サブシステム
3638 ユーザインターフェース入力デバイス
3655 バスサブシステム
3672 CPU
3674 ネットワークインターフェースサブシステム
3676 ユーザインターフェース出力デバイス
3678 プロセッサ(GPU、FPGA、CGRA)
【手続補正書】
【提出日】2023-12-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
システムであって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、かつアミノ酸ベースで前記3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成するボクセル化器であって、
前記アミノ酸ごとの距離チャネルの各々が、ボクセルの前記3次元グリッド内の各ボクセルについての3次元距離値を有し、
前記3次元距離値が、ボクセルの前記3次元グリッド内の対応するボクセルから前記参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、ボクセル化器と、
ボクセルの前記3次元グリッド内の各ボクセルに代替対立遺伝子アミノ酸を符号化する代替対立遺伝子エンコーダであって、
前記代替対立遺伝子アミノ酸が、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、代替対立遺伝子エンコーダと、
ボクセルの前記3次元グリッド内の各ボクセルに進化的保存配列を符号化する進化的保存エンコーダであって、
前記進化的保存配列が、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
前記アミノ酸特異的保存頻度が、前記対応するボクセルへのアミノ酸近接度に応じて選択される、進化的保存エンコーダと、
畳み込みニューラルネットワークであって、
前記代替対立遺伝子アミノ酸及びそれぞれの進化的保存配列で符号化された前記アミノ酸ごとの距離チャネルを含むテンソルに3次元畳み込みを適用し、
前記テンソルに少なくとも部分的に基づいて、前記変異体ヌクレオチドの病原性を決定するように構成された、畳み込みニューラルネットワークと、を含む、システム。
【請求項2】
前記ボクセル化器が、前記参照アミノ酸配列内の参照アミノ酸のそれぞれの残基のアルファ炭素原子上にボクセルの前記3次元グリッドを中心付ける、請求項1に記載のシステム。
【請求項3】
前記ボクセル化器が、前記変異体アミノ酸に位置する特定の参照アミノ酸の残基のアルファ炭素原子上にボクセルの前記3次元グリッドを中心付ける、請求
項2に記載のシステム。
【請求項4】
前記テンソルにおいて、前記特定の参照アミノ酸に先行する参照アミノ酸についての3次元距離値に方向性パラメータを乗算することによって、前記参照アミノ酸配列内の前記参照アミノ酸の方向性及び前記特定の参照アミノ酸の位置を符号化するように更に構成された、請求項
3に記載のシステム。
【請求項5】
対応するボクセルから原子までの前記距離が、ボクセルの前記3次元グリッド内の対応するボクセル中心から前記対応する参照アミノ酸の最も近い原子までの最も近い原子距離である、請求項
4に記載のシステム。
【請求項6】
前記参照アミノ酸が、アルファ炭素原子を有し、
対応するボクセルから原子までの前記距離が
、対応するボクセル中心から前記対応する参照アミノ酸の最も近いアルファ炭素原子までの最も近いアルファ炭素原子距離である、請求項
5に記載のシステム。
【請求項7】
前記参照アミノ酸が、ベータ炭素原子を有し、
対応するボクセルから原子までの前記距離が
、対応するボクセル中心から前記対応する参照アミノ酸の最も近いベータ炭素原子までの最も近いベータ炭素原子距離である、請求項
5に記載のシステム。
【請求項8】
前記参照アミノ酸が、骨格原子を有し、
対応するボクセルから原子までの前記距離が
、対応するボクセル中心から前記対応する参照アミノ酸の最も近い骨格原子までの最も近い骨格原子距離である、請求項
5に記載のシステム。
【請求項9】
前記参照アミノ酸が、側鎖原子を有し、
対応するボクセルから原子までの前記距離が
、対応するボクセル中心から前記対応する参照アミノ酸の最も近い側鎖原子までの最も近い側鎖原子距離である、請求項
5に記載のシステム。
【請求項10】
前記テンソルにおいて、各ボクセルから最も近い原子までの距離を指定する最も近い原子チャネルを符号化するように更に構成され、前記最も近い原子が、
前記最も近い原子が属するアミノ酸及び前記アミノ酸の原子エレメントに関係なく選択される、請求項
3に記載のシステム。
【請求項11】
ボクセルの前記3次元グリッド内の各ボクセルに参照対立遺伝子アミノ酸をボクセルごとで符号化する参照対立遺伝子エンコーダを更に含む、請求項
1に記載のシステム。
【請求項12】
前記参照対立遺伝子アミノ酸が、前記変異体アミノ酸を経験する参照アミノ酸のワンホット符号化の3次元表現である、請求項
11に記載のシステム。
【請求項13】
前記アミノ酸特異的保存頻度が、前記複数の種にわたるそれぞれのアミノ酸の保存レベルを指定する、請求項
1に記載のシステム。
【請求項14】
ボクセルの前記3次元グリッド内の各ボクセルに対して1つ以上のアノテーションチャネルをボクセルごとで符号化するアノテーションエンコーダを更に含み、
前記
1つ以上のアノテーションチャネルが、残基アノテーションのワンホット符号化の3次元表現である、請求項
1に記載のシステム。
【請求項15】
ボクセルの前記3次元グリッド内の各ボクセルに対して1つ以上の構造信頼度チャネルをボクセルごとで符号化する構造信頼度エンコーダを更に含み、
前記
1つ以上の構造信頼度チャネルが、それぞれの残基構造の質を指定する信頼度スコアの3次元表現である、請求項
1に記載のシステム。
【請求項16】
コンピュータ実装方法であって、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、かつアミノ酸ベースで前記3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成することであって、
前記アミノ酸ごとの距離チャネルの各々が、ボクセルの前記3次元グリッド内の各ボクセルについての3次元距離値を有し、
前記3次元距離値が、ボクセルの前記3次元グリッド内の対応するボクセルから前記参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、生成することと、
ボクセルの前記3次元グリッド内の各ボクセルに代替対立遺伝子チャネルを符号化することであって、
前記代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、前記アミノ酸ごとの距離チャネルにわたる3次元距離値の各配列に、進化的保存チャネルを符号化することであって、
前記進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
前記アミノ酸特異的保存頻度が、前記対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
前記代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルで符号化されたアミノ酸ごとの距離チャネルを含むテンソルに3次元畳み込みを適用することと、
前記テンソルに少なくとも部分的に基づいて、前記変異体ヌクレオチドの病原性を決定することと、を含む、コンピュータ実装方法。
【請求項17】
前記参照アミノ酸及び原子カテゴリにわたって前記対応するボクセルへの最も近い原子を選択することと、
前記最も近い原子を含む参照アミノ酸の残基について汎アミノ酸保存頻度を選択することと、
前記進化的保存チャネルとして前記汎アミノ酸保存頻度の3次元表現を使用することと、を更に含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記汎アミノ酸保存頻度が、前記複数の種において観察されるような前記残基の特定の位置について構成される、請求項17に記載のコンピュータ実装方法。
【請求項19】
それぞれの参照アミノ酸において前記対応するボクセルにそれぞれの最も近い原子を選択することと、
前記それぞれの最も近い原子を含む前記参照アミノ酸のそれぞれの残基について、それぞれのアミノ酸ごとの保存頻度を選択することと、
前記進化的保存チャネルとして前記それぞれのアミノ酸ごとの保存頻度の3次元表現を使用することと、を更に含む、請求項16に記載のコンピュータ実装方法。
【請求項20】
非一時的コンピュータ可読媒体であって、少なくとも1つのプロセッサによって実行されると、システムに、
タンパク質の参照アミノ酸配列の3次元構造にアクセスし、かつアミノ酸ベースで前記3次元構造内の原子にボクセルの3次元グリッドを当てはめて、アミノ酸ごとの距離チャネルを生成することであって、
前記アミノ酸単位の距離チャネルの各々が、ボクセルの前記3次元グリッド内の各ボクセルについての3次元距離値を有し、
前記3次元距離値が、ボクセルの前記3次元グリッド内の対応するボクセルから前記参照アミノ酸配列内の対応する参照アミノ酸の原子までの距離を指定する、生成することと、
ボクセルの前記3次元グリッド内の各ボクセルに代替対立遺伝子チャネルを符号化することであって、
前記代替対立遺伝子チャネルが、変異体ヌクレオチドによって発現される変異体アミノ酸のワンホット符号化の3次元表現である、符号化することと、
ボクセル位置ベースで、前記アミノ酸ごとの距離チャネルにわたる3次元距離値の各配列に、進化的保存チャネルを符号化することであって、
前記進化的保存チャネルが、複数の種にわたるアミノ酸特異的保存頻度の3次元表現であり、
前記アミノ酸特異的保存頻度が、前記対応するボクセルへのアミノ酸近接度に応じて選択される、符号化することと、
前記代替対立遺伝子チャネル及びそれぞれの進化的保存チャネルで符号化されたアミノ酸ごとの距離チャネルを含むテンソルに3次元畳み込みを適用することと、
前記テンソルに少なくとも部分的に基づいて、前記変異体ヌクレオチドの病原性を決定することと、を含む動作を実行させる命令を記憶した、非一時的コンピュータ可読媒体。
【国際調査報告】