IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インビテ・コーポレイションの特許一覧

特表2024-540883コンフォメーション動力学からのバリアント効果の高スループット予測
<>
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図1
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図2
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図3
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図4
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図5
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図6
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図7
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図8
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図9
  • 特表-コンフォメーション動力学からのバリアント効果の高スループット予測 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-06
(54)【発明の名称】コンフォメーション動力学からのバリアント効果の高スループット予測
(51)【国際特許分類】
   G16B 20/20 20190101AFI20241029BHJP
   G16C 10/00 20190101ALI20241029BHJP
   G16B 40/20 20190101ALI20241029BHJP
   C07K 1/00 20060101ALN20241029BHJP
【FI】
G16B20/20
G16C10/00
G16B40/20
C07K1/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024522607
(86)(22)【出願日】2022-10-13
(85)【翻訳文提出日】2024-06-11
(86)【国際出願番号】 US2022078070
(87)【国際公開番号】W WO2023064874
(87)【国際公開日】2023-04-20
(31)【優先権主張番号】63/262,484
(32)【優先日】2021-10-13
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】524141256
【氏名又は名称】インビテ・コーポレイション
【氏名又は名称原語表記】INVITAE CORPORATION
(74)【代理人】
【識別番号】100145403
【弁理士】
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100106518
【弁理士】
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100138911
【弁理士】
【氏名又は名称】櫻井 陽子
(72)【発明者】
【氏名】ニコルディス,ジョン マイケル
(72)【発明者】
【氏名】アラヤ,カルロス エル
(72)【発明者】
【氏名】マンダース,トビー
(72)【発明者】
【氏名】コラヴァン,アレクサンドル
(72)【発明者】
【氏名】キス,ガート
【テーマコード(参考)】
4H045
【Fターム(参考)】
4H045AA30
4H045AA40
4H045EA20
(57)【要約】
本開示は、例えば、医学的遺伝子検査において、分子構造(例えば、タンパク質構造)のコンフォメーション動力学を使用して、観察された意義不明のバリアント(例えば、変異などのタンパク質ミスセンスバリアント)の機能的意義及び臨床解釈を自動的に予測するための方法を提供する。本開示は、(例えば、分子動力学を使用して)タンパク質構造のコンフォメーション動力学を生成し、これらのシミュレーションから特徴を計算し、コンフォメーション状態を抽出し、関連するバリアント(例えば、ミスセンスバリアント)のシミュレーションを開始し、バリアントの臨床的意義をスコアリングするための機械学習モデルを訓練、試験、及び展開することができる、コンピュータ実装方法、並びに統合されたデータ、インフラストラクチャ、及びソフトウェアシステムを提供する。
【選択図】図1
【特許請求の範囲】
【請求項1】
バリアント効果の高スループット分類のためのコンピュータ実装方法であって、
(i)(例えば、分子動力学(MD)を使用して)参照分子構造のコンフォメーション動力学を生成することと、
(ii)前記参照分子構造の前記コンフォメーション動力学を処理して、前記参照分子構造のコンフォメーションランドスケープの低次元表現を生成することと、
(iii)前記参照分子構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出して、バリアント分子構造のシミュレーションにシードすることと、
(iv)前記参照分子構造の抽出された前記コンフォメーション状態に少なくとも1つのバリアントを導入することによって、バリアント分子構造又はそのセットを生成することと、
(v)(例えば、MDを使用して)前記バリアント分子構造又はそのセットのコンフォメーション動力学を生成することと、
(vi)前記バリアント分子構造又はそのセットの前記コンフォメーション動力学を処理して、前記バリアント分子構造又はそのセットの前記コンフォメーションランドスケープの低次元表現を生成することと、
(vii)臨床データを訓練ラベルとして使用して、前記参照分子構造及びバリアント分子構造の前記コンフォメーションランドスケープの前記低次元表現を使用して、機械学習予測モデルを訓練することであって、前記予測モデルが、前記参照分子構造における前記バリアント効果を分類する、訓練することと、を含む、方法。
【請求項2】
前記参照分子構造又はバリアント分子構造のコンフォメーション動力学を生成することが、
(a)参照分子構造又はバリアント分子構造を取得することと、
(b)取得された参照分子構造又はバリアントタンパク質構造を使用して、コンフォメーション動力学を生成することと、を含む、請求項1に記載の方法。
【請求項3】
前記参照分子構造又はバリアント分子構造が、タンパク質データバンク(PDB)又はAlphaFoldから取得される、請求項2に記載の方法。
【請求項4】
前記コンフォメーション動力学が、GROMACS、OpenMM、NAMD、Amber、又はLAMPSを使用して生成される、請求項2に記載の方法。
【請求項5】
前記コンフォメーション動力学の生成が、並列化される、請求項2に記載の方法。
【請求項6】
前記参照分子構造が、野生型タンパク質の三次元構造である、請求項1に記載の方法。
【請求項7】
請求項1のステップ(i)及び/又はステップ(ii)の各々が、独立して、前記コンフォメーション動力学を含む少なくとも約10,000、少なくとも約20,000、少なくとも約30,000、少なくとも約40,000、少なくとも約50,000、少なくとも約60,000、少なくとも約70,000、少なくとも約80,000、少なくとも約90,000、少なくとも約100,000、少なくとも約200,000、少なくとも約300,000、少なくとも約400,000、少なくとも約500,000、少なくとも約600,000、少なくとも約700,000、少なくとも約800,000、少なくとも約900,000、又は少なくとも約1,000,000のシミュレーションされた構造コンフォメーションを含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記コンフォメーション動力学を処理して、前記参照分子構造の前記コンフォメーションランドスケープの低次元表現を生成することが、前記コンフォメーション動力学から構造的特徴を抽出することを含む、請求項1に記載の方法。
【請求項9】
前記構造的特徴が、結合角度、残基間距離、残基変動、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、及びそれらの任意の組み合わせからなる群から選択される、請求項8に記載の方法。
【請求項10】
構造的特徴の前記抽出が、構造的特徴の少なくとも20倍、30倍、40倍、又は50倍の減少をもたらす、請求項8又は9に記載の方法。
【請求項11】
前記コンフォメーション動力学を処理することが、次元削減を更に含む、請求項8~10のいずれか一項に記載の方法。
【請求項12】
前記次元削減が、主成分分析(PCA)又はオートエンコーダを使用して得られる、請求項11に記載の方法。
【請求項13】
前記次元削減が、構造的特徴の少なくとも50倍、60倍、70倍、80倍、90倍、又は100倍の減少をもたらす、請求項11又は12に記載の方法。
【請求項14】
前記コンフォメーションランドスケープの前記低次元表現が、前記参照分子構造及び/又はバリアント分子構造が準安定なコンフォメーション状態にあるコンフォメーションを特定する、請求項8~13のいずれか一項に記載の方法。
【請求項15】
前記低次元表現が、分子機能に関連するコンフォメーション変化を特徴付ける運動モードを含む、請求項1に記載の方法。
【請求項16】
前記低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出することが、低次元空間におけるそれらの表現に基づいて、コンフォメーション状態をクラスタリングすることを含む、請求項1~16のいずれか一項に記載の方法。
【請求項17】
コンフォメーション状態をクラスタリングすることが、k平均クラスタリング、階層的クラスタリング、密度ベースのクラスタリング、DBSCAN、スペクトルクラスタリング、ガウス混合モデル、又はそれらの任意の組み合わせを含む、請求項16に記載の方法。
【請求項18】
クラスタリングされたコンフォメーション状態を優先付けることを更に含む、請求項16又は17に記載の方法。
【請求項19】
クラスタリングされたコンフォメーション状態を優先付けることが、クラスター特性に基づく、請求項18に記載の方法。
【請求項20】
前記クラスター特性が、コンフォメーションランドスケープ重心からの距離、クラスター占有率、クラスター分布統計、クラスターの構造特性、クラスターの熱力学、又はそれらの任意の組み合わせからなる群から選択される、請求項19に記載の方法。
【請求項21】
前記構造特性が、結合角、残基間距離、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、既知のタンパク質コンフォメーションとの構造的類似性、及びそれらの任意の組み合わせからなる群から選択される、請求項20に記載の方法。
【請求項22】
前記結合角が、φ-ψ二面角、側鎖χ角、又はそれらの組み合わせを含む、請求項21に記載の方法。
【請求項23】
前記クラスター分布統計が、Silhouetteスコア、肘スコア、Calinski-Harabaszインデックス、Randインデックス、相互情報、均質性、完全性、V尺度、Davies-Bouldinインデックス、及びそれらの任意の組み合わせからなる群から選択される、請求項20に記載の方法。
【請求項24】
前記低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出することが、代表的なコンフォメーション状態を抽出することを含む、請求項1~23のいずれか一項に記載の方法。
【請求項25】
前記代表的なコンフォメーション状態が、クラスターの全てのコンフォメーション状態のうちの重心に最も近いコンフォメーション状態である、請求項24に記載の方法。
【請求項26】
少なくとも1つのバリアントが、病原性変異である、請求項1に記載の方法。
【請求項27】
少なくとも1つのバリアントが、非病原性(良性)変異である、請求項1に記載の方法。
【請求項28】
前記バリアント分子構造又はそのセットが、医学的遺伝子検査で観察された又は観察され得るバリアントを含む、請求項1に記載の方法。
【請求項29】
前記バリアント分子構造又はそのセットが、病原性バリアントを含む、請求項1に記載の方法。
【請求項30】
前記バリアント分子構造又はそのセットが、非病原性(良性)バリアントを含む、請求項1に記載の方法。
【請求項31】
前記バリアント分子構造又はそのセットが、意義不明のバリアントを含む、請求項1に記載の方法。
【請求項32】
前記バリアント分子構造又はそのセットが、骨格依存性ロータマーライブラリを使用して生成される、請求項1に記載の方法。
【請求項33】
前記骨格依存性ロータマーライブラリにおけるバリアント位置での前記バリアント分子構造の既存の骨格二面角を有する側鎖コンフォメーション(ロータマー)を特定することを含む、請求項32に記載の方法。
【請求項34】
ロータマーが特定された骨格依存性ロータマーライブラリの導入が、近くの残基との立体衝突を引き起こすかどうかを試験することを更に含む、請求項33に記載の方法。
【請求項35】
立体衝突を最小化するロータマーが特定されるまで、試験が実施される、請求項34に記載の方法。
【請求項36】
前記バリアント分子構造の前記コンフォメーションの幾何学的形状を正則化し、前記バリアント分子構造に前記バリアントを導入するエネルギー的影響を低減するために、最小化及び平衡化シミュレーションを実施することを更に含む、請求項34に記載の方法。
【請求項37】
前記予測モデルが、機械学習を使用して生成される、請求項1に記載の方法。
【請求項38】
訓練ラベルとして使用される前記臨床データが、バイオマーカー状態(例えば、特定のバイオマーカーの有無又はその発現レベル)、バイオメトリックデータ、ライフスタイル関連データ、治療に対する応答、疾患若しくは状態の症状、タンパク質発現データ、投与される治療の種類、投与量、投与量レジメン、投与経路、併用療法の有無、療法に対する応答、年齢、体重、性別、民族性、ClinVar提出物、INVITAE(商標)臨床解釈、他の実験若しくは計算モデルからのデータ、又はそれらの任意の組み合わせを含む、請求項1に記載の方法。
【請求項39】
前記参照分子構造における前記バリアント効果の前記分類が、予測される病原性確率の計算を含む、請求項1に記載の方法。
【請求項40】
前記機械学習予測モデルが、ロジスティック回帰を使用して生成される、請求項1に記載の方法。
【請求項41】
前記機械学習予測モデルが、ランダムフォレストを使用して生成される、請求項1に記載の方法。
【請求項42】
前記機械学習予測モデルが、人工ニューラルネットワークを使用して生成される、請求項1に記載の方法。
【請求項43】
バリアントの臨床的意義をスコアリングするためのコンピュータ実装方法であって、
(a)(例えば、MDを使用して)参照分子構造のコンフォメーション動力学を生成することと、
(b)前記参照分子構造の前記コンフォメーション動力学を処理して、前記参照分子構造のコンフォメーションランドスケープの低次元表現を生成することと、
(c)前記参照分子構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出して、バリアント分子構造のシミュレーションにシードすることと、
(d)前記参照分子構造の抽出された前記準安定なコンフォメーション状態に少なくとも1つのバリアントを導入することによって、バリアント分子構造又はそのセットを生成することと、
(e)(例えば、MDを使用して)前記バリアント分子構造又はそのセットのコンフォメーション動力学を生成することと、
(f)前記バリアント分子構造又はそのセットの前記コンフォメーション動力学を処理して、前記バリアント分子構造又はそのセットの前記コンフォメーションランドスケープの低次元表現を生成することと、
(g)臨床データを訓練ラベルとして使用して、前記参照分子構造及びバリアント分子構造の前記コンフォメーションランドスケープの前記低次元表現を使用して、機械学習予測モデルを訓練することであって、前記予測モデルが、前記バリアントの前記臨床的意義のスコアを出力する、訓練することと、を含む、方法。
【請求項44】
システムであって、
(i)メモリと、
(ii)少なくとも1つのプロセッサであって、メモリに結合され、
i.(例えば、MDを使用して)参照分子構造のコンフォメーション動力学を生成することと、
ii.前記参照分子構造の前記コンフォメーション動力学を処理して、前記参照分子構造のコンフォメーションランドスケープの低次元表現を生成することと、
iii.前記参照分子構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出して、バリアント分子構造のシミュレーションにシードすることと、
iv.前記参照分子構造の抽出された前記準安定なコンフォメーション状態に少なくとも1つのバリアントを導入することによって、バリアント分子構造又はそのセットを生成することと、
v.(例えば、MDを使用して)前記バリアント分子構造又はそのセットのコンフォメーション動力学を生成することと、
vi.前記バリアント分子構造又はそのセットの前記コンフォメーション動力学を処理して、前記バリアント分子構造又はそのセットの前記コンフォメーションランドスケープの低次元表現を生成することと、
vii.臨床データを訓練ラベルとして使用して、前記参照分子構造及びバリアント分子構造の前記コンフォメーションランドスケープの前記低次元表現を使用して、機械学習予測モデルを訓練することであって、前記予測モデルが、前記参照分子構造におけるバリアント効果を分類する、訓練することと、を行うように構成された、少なくとも1つのプロセッサと、を含む、システム。
【請求項45】
有形コンピュータ可読デバイスであって、それに記憶された命令を有し、少なくとも1つの計算デバイスによって実行されると、前記少なくとも1つの計算デバイスに、
i.(例えば、MDを使用して)参照分子構造のコンフォメーション動力学を生成することと、
ii.前記参照分子構造の前記コンフォメーション動力学を処理して、前記参照分子構造のコンフォメーションランドスケープの低次元表現を生成することと、
iii.前記参照分子構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出して、バリアント分子構造のシミュレーションにシードすることと、
iv.参照タンパク質構造の抽出された前記準安定なコンフォメーション状態に少なくとも1つのバリアントを導入することによって、バリアント分子構造又はそのセットを生成することと、
v.(例えば、MDを使用して)前記バリアント分子構造又はそのセットのコンフォメーション動力学を生成することと、
vi.前記バリアント分子構造又はそのセットの前記コンフォメーション動力学を処理して、前記バリアント分子構造又はそのセットの前記コンフォメーションランドスケープの低次元表現を生成することと、
vii.臨床データを訓練ラベルとして使用して、前記参照分子構造及びバリアント分子構造の前記コンフォメーションランドスケープの前記低次元表現を使用して、機械学習予測モデルを訓練することであって、前記予測モデルが、前記参照分子構造におけるバリアント効果を分類する、訓練することと、を含む動作を行わせる、有形コンピュータ可読デバイス。
【請求項46】
前記バリアント分子構造における前記バリアントの前記分類が、(i)患者を治療すること、(ii)治療のための患者を選択すること、(iii)治療を開始すること、(iv)治療を中止すること、(v)治療を中断すること、(vi)治療を修正すること、又は(vii)それらの任意の組み合わせに使用することができる、請求項1~43のいずれか一項に記載の方法、請求項44に記載のシステム、又は請求項45に記載の有形コンピュータ可読デバイス。
【請求項47】
(i)患者を治療すること、(ii)治療のための患者を選択すること、(iii)治療を開始すること、(iv)治療を中止すること、(v)治療を中断すること、(vi)治療を修正すること、又は(vii)それらの任意の組み合わせを行う方法であって、請求項1~43のいずれか一項に記載の方法、請求項44に記載のシステム、又は請求項45に記載の有形コンピュータ可読デバイスを適用することを含む、方法。
【請求項48】
請求項1~43のいずれか一項に記載の方法によって、又は請求項44に記載のシステム若しくは請求項45に記載の有形コンピュータ可読デバイスを使用することによって、病原性として特定されたバリアントによって引き起こされる疾患又は障害を治療することができる治療剤を含む、個別化医療治療。
【請求項49】
分子構造のコンフォメーションランドスケープの低次元表現を生成するためのコンピュータ実装方法であって、(i)前記分子構造の前記コンフォメーションランドスケープから構造的特徴を抽出することと、(ii)前記コンフォメーションランドスケープの次元数を削減することと、を含む、方法。
【請求項50】
前記構造的特徴が、結合角度、残基間距離、残基変動、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、及びそれらの任意の組み合わせからなる群から選択される、請求項49に記載の方法。
【請求項51】
構造的特徴を抽出することが、構造的特徴の少なくとも20倍、30倍、40倍、又は50倍の減少をもたらす、請求項50に記載の方法。
【請求項52】
前記次元数を削減することが、主成分分析(PCA)又はオートエンコーダを使用することを含む、請求項49に記載の方法。
【請求項53】
前記次元数を削減することが、構造的特徴の少なくとも50倍、60倍、70倍、80倍、90倍、又は100倍の減少をもたらす、請求項49に記載の方法。
【請求項54】
分子構造の準安定なコンフォメーション状態を特定するためのコンピュータ実装方法であって、前記分子構造のコンフォメーションランドスケープの低次元表現をクラスタリングすることを含む、方法。
【請求項55】
コンフォメーション状態をクラスタリングすることが、k平均クラスタリング、階層的クラスタリング、密度ベースのクラスタリング、DBSCAN、スペクトルクラスタリング、ガウス混合モデル、又はそれらの任意の組み合わせを含む、請求項54に記載の方法。
【請求項56】
クラスタリングされたコンフォメーション状態を優先付けることを更に含む、請求項54又は55に記載の方法。
【請求項57】
クラスタリングされたコンフォメーション状態を優先付けることが、クラスター特性に基づく、請求項56に記載の方法。
【請求項58】
前記クラスター特性が、コンフォメーションランドスケープ重心からの距離、クラスター占有率、クラスター分布統計、クラスターの構造特性、クラスターの熱力学、又はそれらの任意の組み合わせからなる群から選択される、請求項57に記載の方法。
【請求項59】
前記構造特性が、結合角、残基間距離、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、既知のタンパク質コンフォメーションとの構造的類似性、及びそれらの任意の組み合わせからなる群から選択される、請求項58に記載の方法。
【請求項60】
前記結合角が、φ-ψ二面角、側鎖χ角、又はそれらの組み合わせを含む、請求項59に記載の方法。
【請求項61】
前記クラスター分布統計が、Silhouetteスコア、肘スコア、Calinski-Harabaszインデックス、Randインデックス、相互情報、均質性、完全性、V尺度、Davies-Bouldinインデックス、及びそれらの任意の組み合わせからなる群から選択される、請求項58に記載の方法。
【請求項62】
分子構造におけるバリアント効果の高スループット分類のためのコンピュータ実装方法であって、(i)前記分子構造のコンフォメーションランドスケープの低次元表現を生成することと、(ii)前記分子構造の前記コンフォメーションランドスケープの前記低次元表現から準安定なコンフォメーション状態を特定することと、を含む、方法。
【請求項63】
前記分子の前記コンフォメーションランドスケープの低次元表現を生成することが、(a)前記分子構造の前記コンフォメーションランドスケープから構造的特徴を抽出することと、(b)前記コンフォメーションランドスケープの次元数を削減することと、を含む、請求項62に記載の方法。
【請求項64】
前記分子構造の前記コンフォメーションランドスケープの前記低次元表現から準安定なコンフォメーション状態を特定することが、前記分子構造の前記コンフォメーションランドスケープの低次元表現をクラスタリングすることを含む、請求項62に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、生体分子のコンフォメーション動力学に関する機械学習を使用して、遺伝的バリエーション、例えば、タンパク質ミスセンス変異の機能的影響を決定するための方法に関する。
【背景技術】
【0002】
正確なバリアント効果の予測は、遺伝子研究及び臨床診断において極めて重要である。ミスセンスバリアントは、最も一般的な種類のコード遺伝的バリアントであり、広範囲の一般的及びまれな疾患にわたる遺伝的リスクの主要なクラスである。構造的先天性欠損(Homsy et al.(2015)Science 350:1262-1266、Jin et al.(2017)Nat.Genet.49:1593-1601)及び神経発達障害(Iossifov et al.(2014)Nature 514:216-221、De Rubeis et al.(2014)Nature 515:209-215、McRae et al.(2017)Nature 542:433-438)には、デノボミスセンス変異が大きく寄与する。それにもかかわらず、ごく一部のミスセンスデノボ変異のみが病原性であり、疾患を引き起こすことになる。臨床遺伝子検査において、十分に確立されたリスク遺伝子における多くのミスセンスバリアントは、意義不明のバリアントとして分類され、既知の現在の臨床情報は、バリアントが病原性であるか又は良性であるかを決定するのに十分ではないことを示す。
【0003】
遺伝的バリアント(例えば、ミスセンス遺伝子バリアント)の分子レベルの効果の解釈は依然として困難であり、分子構造及び機能の文脈における変異(アミノ酸レベル又は核酸レベルのいずれか)の特定の調査を必要とする。遺伝的バリアントの有害な及び/又は中立的な結果が、影響を受ける分子の構造的特性に関連していることが報告されていることから(Sivley et al.(2018)Am.J.Hum.Genet.102:415-426、Hickset al.(2019)Proc.Natl.Acad.Sci.U.S.A.116:8960-8965)、ASTRID、mutation3D、COSMIC-3D、VarSite、VarMap、又はPhyreRiskなどの分子構造(例えば、タンパク質構造)上のバリアント(例えば、ミスセンスバリアント)をマッピング及び視覚化するためのリソース及びツールが開発されている。しかしながら、単なる可視化から変異の生物学的効果を推定することは、せいぜい推測的である。構造的特性を使用する現在の高スループット方法は、多くの機能喪失(LOF)ミスセンス変異が病原性であるメカニズムであるタンパク質の全体的な安定性の変化に典型的に関連付けられているタンパク質構造の変化を予測することができる。しかしながら、分子構造のコンフォメーション動力学の変化がどのように病原性に関連しているかについてはあまり知られていない。したがって、コンフォメーション動力学に対するバリアントの影響を決定し、観察された動力学を病原性と相関させることは、研究分野の成長を表している。分子構造のコンフォメーション動力学を決定するための計算アルゴリズムである分子動力学(MD)方法は、例えば、米国公開第2019/0189243A1号及びMcCoy et al.(2020)Biophysical Journal 120(2):189-204に記載されている方法で使用されている。しかしながら、これらの方法は、機械学習のための特徴を特定及び選択するためには人間による精選に依存し、得られる予測モデルは、特定の生物学的システムに特異的であるため(例えば、疾患又は障害に関連する特定のタンパク質)、当該技術分野で現在知られている方法は、拡張可能ではなく、したがって、真の高スループットモードで動作することができない。更に、分子構造のコンフォメーション動力学を決定するために使用される計算アルゴリズムは、現在、拡張可能な遺伝子検査システムにおける臨床的なバリアント効果の予測に使用するには非常に時間がかかる。
【発明の概要】
【0004】
本開示は、バリアント効果の高スループット分類のためのコンピュータ実装方法を提供し、本方法は、(i)(例えば、分子動力学(MD)を使用して)参照分子構造のコンフォメーション動力学を生成することと、(ii)参照分子構造のコンフォメーション動力学を処理して、参照分子構造のコンフォメーションランドスケープの低次元表現を生成することと、(iii)参照分子構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出して、バリアント分子構造のシミュレーションをシードすることと、(iv)参照分子構造の抽出されたコンフォメーション状態に少なくとも1つのバリアントを導入することによって、バリアント分子構造又はそのセットを生成することと、(v)(例えば、MDを使用して)バリアント分子構造又はそのセットのコンフォメーション動力学を生成することと、(vi)バリアント分子構造又はそのセットのコンフォメーション動力学を処理して、バリアント分子構造又はそのセットのコンフォメーションランドスケープの低次元表現を生成することと、(vii)臨床データを訓練ラベルとして使用して、参照分子構造及びバリアント分子構造のコンフォメーションランドスケープの低次元表現を使用して、機械学習予測モデルを訓練することであって、予測モデルが、参照分子構造におけるバリアント効果を分類する、訓練することと、を含む。いくつかの態様では、参照分子構造又はバリアント分子構造のコンフォメーション動力学を生成することは、(a)参照分子構造又はバリアント分子構造を取得することと、(b)取得した参照分子構造又はバリアントタンパク質構造を使用して、コンフォメーション動力学を生成することと、を含む。いくつかの態様では、参照分子構造又はバリアント分子構造は、タンパク質データバンク(PDB)又はAlphaFoldから取得される。いくつかの態様では、コンフォメーション動力学は、GROMACS、OpenMM、NAMD、Amber、又はLAMPSを使用して生成される。
【0005】
いくつかの態様では、コンフォメーション動力学の生成は、並列化される。いくつかの態様では、参照分子構造は、野生型タンパク質の三次元構造である。いくつかの態様では、上に開示された方法のステップ(i)及び/又はステップ(ii)の各々は、独立して、コンフォメーション動力学を含む少なくとも約10,000、少なくとも約20,000、少なくとも約30,000、少なくとも約40,000、少なくとも約50,000、少なくとも約60,000、少なくとも約70,000、少なくとも約80,000、少なくとも約90,000、少なくとも約100,000、少なくとも約200,000、少なくとも約300,000、少なくとも約400,000、少なくとも約500,000、少なくとも約600,000、少なくとも約700,000、少なくとも約800,000、少なくとも約900,000、又は少なくとも約1,000,000のシミュレーションされた構造コンフォメーションを含む。
【0006】
いくつかの態様では、コンフォメーション動力学を処理して、参照分子構造のコンフォメーションランドスケープの低次元表現を生成することは、コンフォメーション動力学から構造的特徴を抽出することを含む。いくつかの態様では、構造的特徴は、結合角、残基間距離、残基変動、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、及びそれらの任意の組み合わせからなる群から選択される。いくつかの態様では、構造的特徴の抽出は、構造的特徴の少なくとも20倍、30倍、40倍、又は50倍の減少をもたらす。
【0007】
いくつかの態様では、コンフォメーション動力学を処理することは、次元削減を更に含む。いくつかの態様では、次元削減は、主成分分析(PCA)又はオートエンコーダを使用して得られる。いくつかの態様では、次元削減は、構造的特徴の少なくとも50倍、60倍、70倍、80倍、90倍、又は100倍の減少をもたらす。
【0008】
いくつかの態様では、コンフォメーションランドスケープの低次元表現は、参照分子構造及び/又はバリアント分子構造が準安定なコンフォメーション状態にあるコンフォメーションを特定する。いくつかの態様では、低次元表現は、分子機能に関連するコンフォメーション変化を特徴付ける運動モードを含む。
【0009】
いくつかの態様では、低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出することは、低次元空間におけるそれらの表現に基づいてコンフォメーション状態をクラスタリングすることを含む。いくつかの態様では、コンフォメーション状態をクラスタリングすることは、k平均クラスタリング、階層的クラスタリング、密度ベースのクラスタリング、DBSCAN、スペクトルクラスタリング、ガウス混合モデル、又はそれらの任意の組み合わせを含む。いくつかの態様では、本方法は、クラスタリングされたコンフォメーション状態に優先順位を付けることを更に含む。いくつかの態様では、クラスタリングされたコンフォメーション状態に優先順位を付けることは、クラスター特性に基づく。いくつかの態様では、クラスター特性は、コンフォメーションランドスケープ重心からの距離、クラスター占有率、クラスター分布統計、クラスターの構造特性、クラスターの熱力学、又はそれらの任意の組み合わせからなる群から選択される。いくつかの態様では、構造特性は、結合角、残基間距離、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、既知のタンパク質コンフォメーションとの構造的類似性、及びそれらの任意の組み合わせからなる群から選択される。いくつかの態様では、結合角は、φ-ψ二面角、側鎖χ角、又はそれらの組み合わせを含む。いくつかの態様では、クラスター分布統計は、Silhouetteスコア、肘スコア、Calinski-Harabaszインデックス、Randインデックス、相互情報、均質性、完全性、V尺度、Davies-Bouldinインデックス、及びそれらの任意の組み合わせからなる群から選択される。
【0010】
いくつかの態様では、低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出することは、代表的なコンフォメーション状態を抽出することを含む。いくつかの態様では、代表的なコンフォメーション状態は、クラスターの全てのコンフォメーション状態のうちの重心に最も近いコンフォメーション状態である。いくつかの態様では、少なくとも1つのバリアントは、病原性変異である。いくつかの態様では、少なくとも1つのバリアントは、非病原性(良性)変異である。いくつかの態様では、バリアント分子構造又はそのセットは、医学的遺伝子検査で観察された又は観察され得るバリアントを含む。いくつかの態様では、バリアント分子構造又はそのセットは、病原性バリアントを含む。いくつかの態様では、バリアント分子構造又はそのセットは、非病原性(良性)バリアントを含む。いくつかの態様では、バリアント分子構造又はそのセットは、意義不明のバリアントを含む。いくつかの態様では、バリアント分子構造又はそのセットは、骨格依存性ロータマーライブラリを使用して生成される。いくつかの態様では、本方法は、骨格依存性ロータマーライブラリにおけるバリアント位置でのバリアント分子構造の既存の骨格二面角を有する側鎖コンフォメーション(ロータマー)を特定することを含む。いくつかの態様では、本方法は、ロータマーが特定された骨格依存性ロータマーライブラリの導入が、近くの残基との立体衝突を引き起こすかどうかを試験することを更に含む。いくつかの態様では、試験は、立体衝突を最小化するロータマーが特定されるまで実施される。いくつかの態様では、本方法は、バリアント分子構造のコンフォメーションの幾何学的形状を正則化し、バリアント分子構造にバリアントを導入するエネルギー的影響を低減するために、最小化及び平衡化シミュレーションを実施することを更に含む。
【0011】
いくつかの態様では、予測モデルは、機械学習を使用して生成される。いくつかの態様では、訓練ラベルとして使用される臨床データは、バイオマーカー状態(例えば、特定のバイオマーカーの有無又はその発現レベル)、バイオメトリックデータ、ライフスタイル関連データ、治療に対する応答、疾患若しくは状態の症状、タンパク質発現データ、投与される治療の種類、投与量、投与量レジメン、投与経路、併用療法の有無、療法に対する応答、年齢、体重、性別、民族性、ClinVar提出物、INVITAE(商標)臨床解釈、他の実験若しくは計算モデルからのデータ、又はそれらの任意の組み合わせを含む。いくつかの態様では、参照分子構造におけるバリアント効果の分類は、予測される病原性確率の計算を含む。いくつかの態様では、機械学習予測モデルは、ロジスティック回帰を使用して生成される。いくつかの態様では、機械学習予測モデルは、ランダムフォレストを使用して生成される。いくつかの態様では、機械学習予測モデルは、人工ニューラルネットワークを使用して生成される。
【0012】
本開示はまた、バリアントの臨床的意義をスコアリングするためのコンピュータ実装方法も提供し、本方法は、(a)(例えば、MDを使用して)参照分子構造のコンフォメーション動力学を生成することと、(b)参照分子構造のコンフォメーション動力学を処理して、参照分子構造のコンフォメーションランドスケープの低次元表現を生成することと、(c)参照分子構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出して、バリアント分子構造のシミュレーションにシードすることと、(d)参照分子構造の抽出されたコンフォメーション状態に少なくとも1つのバリアントを導入することによって、バリアント分子構造又はそのセットを生成することと、(e)(例えば、MDを使用して)バリアント分子構造又はそのセットのコンフォメーション動力学を生成することと、(f)バリアント分子構造又はそのセットのコンフォメーション動力学を処理して、バリアント分子構造又はそのセットのコンフォメーションランドスケープの低次元表現を生成することと、(g)臨床データを訓練ラベルとして使用して、参照分子構造及びバリアント分子構造のコンフォメーションランドスケープの低次元表現を使用して、機械学習予測モデルを訓練することであって、予測モデルが、バリアントの臨床的意義のスコアを出力する、訓練することと、を含む。
【0013】
本開示はまた、システムを提供し、システムが、(a)メモリと、(b)少なくとも1つのプロセッサであって、メモリに結合され、(i)(例えば、MDを使用して)参照分子構造のコンフォメーション動力学を生成することと、(ii)参照分子構造のコンフォメーション動力学を処理して、参照分子構造のコンフォメーションランドスケープの低次元表現を生成することと、(iii)参照分子構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出して、バリアント分子構造のシミュレーションにシードすることと、(iv)参照分子構造の抽出された準安定なコンフォメーション状態に少なくとも1つのバリアントを導入することによって、バリアント分子構造又はそのセットを生成することと、(v)(例えば、MDを使用して)バリアント分子構造又はそのセットのコンフォメーション動力学を生成することと、(vi)バリアント分子構造又はそのセットのコンフォメーション動力学を処理して、バリアント分子構造又はそのセットのコンフォメーションランドスケープの低次元表現を生成することと、(vii)臨床データを訓練ラベルとして使用して、参照分子構造及びバリアント分子構造のコンフォメーションランドスケープの低次元表現を使用して、機械学習予測モデルを訓練することであって、予測モデルが、参照分子構造におけるバリアント効果を分類する、訓練することと、を行うように構成された、少なくとも1つのプロセッサと、を含む。
【0014】
本開示はまた、有形コンピュータ可読デバイスを提供し、有形コンピュータ可読デバイスが、それに記憶された命令を有し、少なくとも1つの計算デバイスによって実行されると、少なくとも1つの計算デバイスに、(i)(例えば、MDを使用して)参照分子構造のコンフォメーション動力学を生成することと、(ii)参照分子構造のコンフォメーション動力学を処理して、参照分子構造のコンフォメーションランドスケープの低次元表現を生成することと、(iii)参照分子構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態を抽出して、バリアント分子構造のシミュレーションにシードすることと、(iv)参照タンパク質構造の抽出された準安定なコンフォメーション状態に少なくとも1つのバリアントを導入することによって、バリアント分子構造又はそのセットを生成することと、(v)(例えば、MDを使用して)バリアント分子構造又はそのセットのコンフォメーション動力学を生成することと、(vi)バリアント分子構造又はそのセットのコンフォメーション動力学を処理して、バリアント分子構造又はそのセットのコンフォメーションランドスケープの低次元表現を生成することと、(vii)臨床データを訓練ラベルとして使用して、参照分子構造及びバリアント分子構造のコンフォメーションランドスケープの低次元表現を使用して、機械学習予測モデルを訓練することであって、予測モデルが、参照分子構造におけるバリアント効果を分類する、訓練することと、を含む動作を行わせる。
【0015】
上に開示された方法、システム、又は有形計算可能可読デバイスのいくつかの態様では、バリアント分子構造におけるバリアントの分類は、(i)患者を治療すること、(ii)治療のための患者を選択すること、(iii)治療を開始すること、(iv)治療を中止すること、(v)治療を中断すること、(vi)治療を修正すること、又は(vii)それらの任意の組み合わせに使用することができる。
【0016】
いくつかの態様では、本開示は、(i)患者を治療する方法、(ii)治療のための患者を選択する方法、(iii)治療を開始する方法、(iv)治療を中止する方法、(v)治療を中断する方法、(vi)治療を修正する方法、又は(vii)それらの任意の組み合わせを提供し、上に開示された方法、システム、又は有形計算可能可読デバイスのうちのいずれかを適用することを含む。
【0017】
本開示はまた、上に開示された方法のうちのいずれかによって、又は上に開示されたシステム若しくは有形計算可能可読デバイスのうちのいずれかを使用することによって、病原性として特定されたバリアントによって引き起こされる疾患又は障害を治療することができる治療剤を含む個別化医療治療を提供する。
【0018】
本開示はまた、分子構造のコンフォメーションランドスケープの低次元表現を生成するためのコンピュータ実装方法を提供し、本方法は、(i)分子構造のコンフォメーションランドスケープから構造的特徴を抽出することと、(ii)コンフォメーションランドスケープの次元数を削減することと、を含む。いくつかの態様では、構造的特徴は、結合角、残基間距離、残基変動、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、及びそれらの任意の組み合わせからなる群から選択される。いくつかの態様では、構造的特徴を抽出することは、構造的特徴の少なくとも20倍、30倍、40倍、又は50倍の減少をもたらす。いくつかの態様では、次元数を削減することは、主成分分析(PCA)又はオートエンコーダを使用することを含む。いくつかの態様では、次元数を削減することは、構造的特徴の少なくとも50倍、60倍、70倍、80倍、90倍、又は100倍の減少をもたらす。
【0019】
本開示はまた、分子構造の準安定なコンフォメーション状態を特定するためのコンピュータ実装方法を提供し、本方法は、分子構造のコンフォメーションランドスケープの低次元表現をクラスタリングすることを含む。いくつかの態様では、コンフォメーション状態をクラスタリングすることは、k平均クラスタリング、階層的クラスタリング、密度ベースのクラスタリング、DBSCAN、スペクトルクラスタリング、ガウス混合モデル、又はそれらの任意の組み合わせを含む。いくつかの態様では、本方法は、クラスタリングされたコンフォメーション状態に優先順位を付けることを更に含む。いくつかの態様では、クラスタリングされたコンフォメーション状態に優先順位を付けることは、クラスター特性に基づく。いくつかの態様では、クラスター特性は、コンフォメーションランドスケープ重心からの距離、クラスター占有率、クラスター分布統計、クラスターの構造特性、クラスターの熱力学、又はそれらの任意の組み合わせからなる群から選択される。いくつかの態様では、構造特性は、結合角、残基間距離、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、既知のタンパク質コンフォメーションとの構造的類似性、及びそれらの任意の組み合わせからなる群から選択される。いくつかの態様では、結合角は、φ-ψ二面角、側鎖χ角、又はそれらの組み合わせを含む。いくつかの態様では、クラスター分布統計は、Silhouetteスコア、肘スコア、Calinski-Harabaszインデックス、Randインデックス、相互情報、均質性、完全性、V尺度、Davies-Bouldinインデックス、及びそれらの任意の組み合わせからなる群から選択される。
【0020】
本開示はまた、分子構造におけるバリアント効果の高スループット分類のためのコンピュータ実装方法を提供し、本方法は、(i)分子構造のコンフォメーションランドスケープの低次元表現を生成することと、(ii)分子構造のコンフォメーションランドスケープの低次元表現から準安定なコンフォメーション状態を特定することと、を含む。いくつかの態様では、分子のコンフォメーションランドスケープの低次元表現を生成することは、(a)分子構造のコンフォメーションランドスケープから構造的特徴を抽出することと、(b)コンフォメーションランドスケープの次元数を削減することと、を含む。いくつかの態様では、分子構造のコンフォメーションランドスケープの低次元表現から準安定なコンフォメーション状態を特定することは、分子構造のコンフォメーションランドスケープの低次元表現をクラスタリングすることを含む。
【図面の簡単な説明】
【0021】
図1】本開示の予測システムのシステム図を示す。
図2】生体分子のコンフォメーション動力学からのバリアント効果を予測するための、予測システムにおける連続したステップを示すワークフロー図を示す。
図3】構造的特徴量抽出ステップ及び次元削減ステップを含む、ワークフローの次元削減部分の概略図を示す。
図4】参照分子のコンフォメーションのエネルギー状態及びバリアント分子の準安定なコンフォメーションのエネルギー状態の概略図を示す。
図5】骨格ψ角分布などの特徴とバリアント分子の病原性との間に関係があることを例示する。
図6】構造的特徴量抽出及び次元削減に供された参照分子のコンフォメーション動力学からの>76,000の構造コンフォメーションのクラスタリングから得られる低次元コンフォメーションランドスケープ表現を示す。次いで、この低次元表現は、クラスタリングに供される。標識は、各々が参照分子の準安定なコンフォメーションを表す、特定のコンフォメーションクラスターを特定する。成分1及び成分2は、主成分分析からの最初の2つの代表的な成分である。
図7】コンフォメーションクラスターが、病原性バリアント及び良性バリアント(例えば、ミスセンス遺伝子バリアント)を区別するために使用され得ることを示す。
図8】機械学習モデルを最適化するために使用される様々な量のコンフォメーションデータ(データセット定義)及び特徴量化法を示す。データセットと特徴量化法との各組み合わせについて(それらが計算されなかった場合を除いて:NC)、機械学習モデルは、データセット定義に含まれるシミュレーションから抽出された特徴に対して訓練される。モデルの性能は、訓練セットに対して5分割交差検証を使用して評価され、バランス加重F1スコアに従って最高の性能のモデルを決定する。次いで、最終モデルの性能(この場合、データセット「3ns、2回の繰り返し、11の状態」及び特徴量化法「連結性tICA」)は、初期モデルの性能及び評価で使用されなかったシミュレーションのホールドアウト試験セットのバランス加重F1スコアを使用して決定される。
図9】配列ベースのモデル及びFoldXベースのモデルにおける同じバリアントの性能と比較し、真のラベルと比較した、バリアントの選択にわたるモデル(LSSモデル)の性能を示す。全体として、これらのバリアントのLSSモデルの予測は、他のどのモデルよりも真のラベルに近い。
図10】本明細書に開示される方法(LSS)に従って開発されたMSH2(MutSホモログ2)腫瘍サプレッサーの予測モデルの性能を、代替方法、例えば、FoldX及びPolyphenと比較する。
【発明を実施するための形態】
【0022】
本開示は、特定の生物学的システムに依存しない分子構造(例えば、タンパク質構造)のコンフォメーション動力学(例えば、分子動力学から生成される)を使用して、バリアント(例えば、ミスセンスバリアント)の表現型、表現型効果、又は生物学的効果(例えば、それらが病原性であるかどうか、及びそれらの病理学的表現型の重症度)を正確に予測することができる真の高スループットプラットフォームを提供し、機械学習モデルを訓練するための生物学的及び構造生物学的専門知識の必要性を排除する。
【0023】
これらの洞察は、医学的遺伝子検査からの意義不明のバリアントの解釈に役立ち、精密医療の原則を使用して薬理学的介入を導くことができる。
【0024】
対照的に、当該技術分野の従来のバリアント(例えば、ミスセンスバリアント)分類システムは、コンフォメーション動力学からバリアント効果を正確に予測することができる真の高スループットプラットフォームであることができず、そのようなシステムは、典型的には、機械学習モデルを訓練するために生物学的及び構造生物学的専門知識を必要とする。本開示の態様は、システムに依存しない様式でコンフォメーション動力学の次元を特徴付け、削減することによって、当該技術分野の他の方法よりも優れた性能及びスループットを達成する。したがって、機械学習モデルを訓練するための生物学的及び構造生物学的な人間の専門知識の必要性が排除される。更に、参照分子システムから準安定なコンフォメーション状態を決定し、これらの状態に導入されたバリアントのコンフォメーション動力学を決定し、これらの状態の低次元表現に対して機械学習モデルを訓練するプロセスは、正確なモデルを訓練するために必要なシミュレーション時間を大幅に削減し、それによって、バリアント解釈システムにおけるこのアプローチのスループットを増加させる。最後に、このアプローチは、推論のために事前に訓練されたモデルを記憶することによって、新たに観察されたバリアントに対して迅速にバリアント効果予測を行う方法を提供する。
【0025】
本開示は、分子構造のコンフォメーション動力学からのバリアント(例えば、ミスセンス遺伝子バリアント)の生物学的効果の高スループット予測のためのコンピュータ実装方法を提供し、本方法は、例えば、(a)参照分子(例えば、参照タンパク質)のコンフォメーション動力学を生成することと、(b)教師なし次元削減法を使用して、参照分子の低次元コンフォメーションランドスケープを定義することと、(c)参照分子の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態又はそのセットを決定することと、(d)準安定なコンフォメーション状態又はそのセットにおける参照分子に少なくとも1つの分子変化を導入することによって、バリアント分子(例えば、バリアントタンパク質)又はそのセットを構築することと、(e)準安定なコンフォメーション状態又はそのセットにおけるバリアント分子又はそのセットのコンフォメーション動力学を決定することと、(f)教師なし次元削減法を使用して、準安定なコンフォメーション状態又はそのセットにおけるバリアント分子又はそのセットのコンフォメーション動力学の低次元表現を生成することと、(g)生物学的データ又は臨床データを訓練ラベルとして使用して、バリアント分子又はそのセットのコンフォメーション動力学の低次元表現を使用して、予測モデルを訓練することであって、モデルが、参照分子に対するバリアント(例えば、ミスセンス変異)の生物学的効果を予測する、訓練することと、任意選択的に、(h)予測モデルを医学的遺伝子検査から新たに観察されたバリアントに迅速に拡張することと、を含む。
【0026】
分子構造(例えば、タンパク質構造)のコンフォメーション動力学を生成するために、分子構造は、分子システム内で定義されなければならない。
【0027】
本明細書で使用される場合、「分子システム」とは、タンパク質、ペプチド、核酸、又は他の生物学的に関連する分子(例えば、脂質、グリカン、又は小分子)などの生体分子の分子構造の集合を指す。分子システムはまた、システム内の分子成分の現実的な生物学的組成を定義する溶媒又は他の分子(例えば、イオン、脂質)を含み得る。「分子システム」は、システム(例えば、タンパク質、溶媒和水、イオンなど)を統合する分子成分の集合を含み、分子システムの「コンフォメーション状態」は、ある時点での分子システムの分子成分の三次元配置である。したがって、コンフォメーション状態は、分子システムの「スナップショット」を表す。本明細書で使用される場合、「コンフォメーション」、「コンフォメーション構造」、「構造」、及び「分子構造」という用語は、「コンフォメーション状態」と互換的に使用され得る。
【0028】
参照分子は、真空中の構造をとらず、したがって、システムの追加の成分(例えば、水分子、イオンなど)が存在しなければならないことを理解されたい。したがって、本開示の文脈において、「参照分子構造」又は「バリアント分子構造」への言及は、それらの追加の成分の存在を意味する。したがって、「参照分子システム」及び「参照分子構造」という用語は、同等かつ互換的であるとみなされる。同様に、「バリアント分子システム」及び「バリアント分子構造」という用語は、同等かつ互換的であるとみなされる。
【0029】
本明細書で使用される場合、「分子構造(molecular structure)」、「分子構造(molecule structure)」、及びその文法的変形は、生体分子(例えば、タンパク質)又はそのセットのいくつか又は全てを構成する原子の三次元座標及び同一性、並びにそれらの原子間の相互作用(例えば、共有結合及び非共有結合)を指す。分子構造は、例えば、原子のセット(複数可)を、原子(アミノ酸など)の組み合わせ及びそれらの他の原子との相互作用を表すことを意図した特性を有する「ダミー」原子に置き換えることによって、分子構造の複雑さを減少させる「粗視化」法(MARTINIアルゴリズムなど)によって表すことができる。
【0030】
分子システムは、例えば、プロテインデータバンク(PDB)又は電子顕微鏡データバンク(EMDB)などの実験構造のデータベースから分子構造(例えば、結晶学的タンパク質構造)を取得すること、独立して、実験方法又は計算方法を介して分子構造を決定し、それらを1つ以上のデータファイルに組み合わせること、又はAlphaFold予想構造のModBaseデータベース若しくは欧州生物学研究所データベースなどの計算的に予測された構造の既存のデータベースから分子構造を取得することによって生成することができる。代替的に、分子構造は、EVFold、AlphaFold、及びRoseTTAFoldなどのタンパク質構造予測アルゴリズムを使用して予測され得、又は相同性モデリングによって生成され得る。分子構造は、実験方法(例えば、単一分子生物物理学、大規模変異誘発実験(例えば、深層変異スキャン)、質量分析)によって更に情報を得ることができる。分子構造はまた、統合モデリングと呼ばれるアプローチにおいて、上記の任意の組み合わせによって決定することができる。
【0031】
本明細書で使用される場合、「分子」という用語は、タンパク質、脂質、核酸、炭水化物、及びそれらの組み合わせなどの生物学的実体を指す。本明細書で使用される「分子」という用語は、単一の分子実体及び複数の分子実体の両方を包含する。したがって、いくつかの態様では、本明細書に定義される分子は、例えば、複数のタンパク質サブユニットを含む多量体複合体、又は核酸と複合体化したタンパク質などであり得る。いくつかの態様では、分子という用語は、リガンド、例えば、受容体、補因子、薬物などのアンタゴニスト又はアゴニストと複合体化したタンパク質又は核酸などの生体分子を指す。本開示による特定のタイプの分子は、参照分子及びバリアント分子である。「分子」は、実体の組成を指し、「コンフォメーション」又は「構造」は、空間における分子の配置を指す。
【0032】
本明細書で使用される場合、「参照分子」という用語は、バリアント(例えば、ミスセンスバリアント)の導入によって調査される分子(例えば、タンパク質)を指す。参照分子(例えば、タンパク質)は、天然タンパク質(例えば、野生型タンパク質)であり得る。したがって、いくつかの態様では、参照分子構造は、天然タンパク質(例えば、野生型タンパク質)又はそのセットの構造であり得る。他の態様では、野生型である代わりに、参照分子(例えば、参照タンパク質)は、共通又は非共通のバリアント(例えば、ミスセンスバリアント)を含み得る。したがって、他の態様では、参照分子構造は、バリアント分子(例えば、ミスセンスバリアントタンパク質)又はそのセットの構造であり得る。したがって、参照分子(例えば、参照タンパク質)は、遺伝的バリアントを含まない必要はないが、同じバックグラウンドシステムを有する他のバリアント分子のセットと比較するための参照分子として使用されるべきであり、すなわち、バリアント分子(例えば、バリアントタンパク質)は、他のバリアント分子のセット(例えば、異なる変異のセットを有する他のバリアントタンパク質)におけるバリアント(例えば、変異)の効果を決定する参照分子として使用され得る。
【0033】
参照分子は、その組成(分子内の原子の同一性及び関係性)によって定義される。本明細書に開示される方法は、特定のコンフォメーション状態における参照分子を表す構造(参照分子構造)をデータベースから取得することを含む。MDのような方法を使用して、参照分子のコンフォメーション動力学を生成することができる。これらのコンフォメーション動力学は、参照分子のコンフォメーションランドスケープに近似している。コンフォメーションランドスケープは、参照分子のエネルギー的にアクセス可能な(パラメータ、すなわち、システムの温度、圧力を考慮した)コンフォメーション状態の集合である。
【0034】
「参照分子構造(reference molecular structure)」、「参照分子構造(reference molecule structure)」、及びその文法的変形は、参照分子(例えば、参照タンパク質)の構造の単一のコンフォメーション状態、又は参照分子の構造のコンフォメーション状態のアンサンブルを指し得る。
【0035】
本明細書で使用される「バリアント」という用語は、確立された参照分子に対する分子(例えば、タンパク質又は遺伝子)の特定の変化を指す。例えば、バリアントは、参照分子(すなわち、変化のない対応する分子)に対する核酸(例えば、遺伝子)、タンパク質、脂質、炭水化物などの変化であり得る。いくつかの態様では、バリアントは、遺伝子バリアントである。本明細書で使用される場合、「バリアント分子」という用語は、少なくとも1つのバリアント(例えば、ミスセンスバリアント)を含む分子(例えば、タンパク質)を指す。本明細書で使用される場合、「バリアント分子構造(variant molecular structure)」、「バリアント分子構造(variant molecule structure)」、及びその文法的変形は、バリアント分子の三次元構造を指す。いくつかでは、バリアント分子構造は、バリアント分子(例えば、バリアントタンパク質)の構造の単一のコンフォメーション状態、又はバリアント分子の構造のコンフォメーション状態のアンサンブルを指し得る。
【0036】
「遺伝子」という用語は、広く使用され、DNAの任意のセグメント又は生物学的機能に関連する他の核酸(例えば、mRNA、miRNAなど)を指す。したがって、遺伝子は、コード配列、及びその発現に必要な制御配列を含む。遺伝子はまた、任意選択的に、例えば、他のタンパク質の認識配列を形成する非発現核酸セグメントを含む。遺伝子は、目的の供給源からのクローニング、又は既知の若しくは予測された配列情報からの合成を含む、様々な供給源に由来してもよく、所望のパラメータを有するように設計された配列を含んでもよい。
【0037】
「遺伝子バリアント」という用語は、確立された参照ヌクレオチド又はヌクレオチド配列に対するヌクレオチド又はヌクレオチド配列の任意の特定の変化を意味する。ゲノム情報の変動は、対象間の表現型変動の原因を示す可能性があるため、特定するのに有用である。1つの理論は、正常な対象のゲノムの不変領域が、それらの対象の発生及び生存に必要な必須成分をコードするために重要である可能性が高いということである。バリアントは、対象間の正常な表現型の差異を説明し得る、及び/又はバリアントは、疾患関連変動を説明し得る。いくつかの態様では、バリアントは、変異体である。バリアントは、1つ以上の置換、挿入、交差、欠失、及び/又は他の遺伝子操作によって改変されたポリペプチド又はポリヌクレオチド配列である。本開示の目的では、バリアント及びバリアントは、それらを生成するいかなる特定の方法にも限定されない。いくつかの態様では、変異又はバリアント配列は、親配列と比較して、増加した、減少した、又は実質的に類似した活性又は特徴を有する。いくつかの態様では、バリアントポリペプチドは、野生型ポリペプチド(例えば、親ポリペプチド)のアミノ酸配列と比較して変異した1つ以上のアミノ酸残基を含む。いくつかの態様では、複数のポリペプチドを含むバリアントポリペプチドのうちのポリペプチドの1つ以上のアミノ酸残基は、親ポリペプチドに対して、一定、非バリアント、又は非変異のままである。いくつかの態様では、親ポリペプチドは、改善された安定性、活性、又は任意の他の所望の特性を有するバリアントを生成するための基礎として使用される。
【0038】
いくつかの態様では、バリアントは、ミスセンスバリアント遺伝子である。本明細書で使用される場合、「ミスセンスバリアント遺伝子」という用語は、ヌクレオチド置換が、遺伝子から作られるタンパク質における1つのアミノ酸の別のアミノ酸による置換をもたらす遺伝子を指す。アミノ酸の変化は、タンパク質の機能を変化させ得る。いくつかの態様では、アミノ酸の変化は、病原性バリアントをもたらし得る。いくつかの態様では、アミノ酸の変化は、良性バリアントをもたらし得る。
【0039】
「タンパク質」、「ポリペプチド」、及び「ペプチド」という用語は、互換的に使用され、アミド結合によって共有結合される2つ以上のアミノ酸からなる任意のポリマーを指す。場合によっては、ポリマーは、少なくとも約30アミノ酸残基、及び概して少なくとも約50アミノ酸残基を有する。より典型的には、ポリマーは、少なくとも約100アミノ酸残基を含む。本開示は、任意の特定の長さのアミノ酸配列に限定されることを意図していない。この用語は、概して、全長タンパク質又はペプチドの断片であるとみなされる組成物を包含する。D-アミノ酸及びL-アミノ酸、並びにD-アミノ酸とL-アミノ酸との混合物も、この定義に含まれる。本明細書に記載のポリペプチドは、遺伝的にコードされるアミノ酸に限定されない。実際、遺伝的にコードされたアミノ酸に加えて、本明細書に記載のポリペプチドは、全体的又は部分的に、天然に存在するアミノ酸及び/又は合成の非コードアミノ酸からなり得る。いくつかの態様では、ポリペプチドは、親ポリペプチドの機能活性を保持しながら、完全長親ポリペプチドのアミノ酸配列と比較して、アミノ酸の付加、又は欠失(例えば、ギャップ)、及び/又は置換を含むアミノ酸配列を有する。いくつかの態様では、ポリペプチドは、翻訳後修飾(例えば、メチル化、リン酸化、グリコシル化)を介して修飾され得る。
【0040】
いくつかの態様では、バリアントは、ミスセンスバリアントタンパク質であり得る。本明細書で使用される場合、「ミスセンスバリアントタンパク質」という用語は、ミスセンスバリアント遺伝子によってコードされるタンパク質を指し、そのタンパク質は、参照タンパク質、例えば、集団内で普及している野生型タンパク質又はバリアントタンパク質に対してアミノ酸置換を有する。ミスセンスバリアントタンパク質は、野生型又は他の参照タンパク質に対して異なるアミノ酸配列を有し、タンパク質の配列の変化は、その物理的特性及び/又は機能的特性の両方に影響を及ぼし得る。タンパク質における単一のアミノ酸変異がタンパク質の不活性を引き起こすことがあり、これは、機能活性の劇的な変化であり、対象の致死性疾患を引き起こす可能性がある。いくつかの態様では、ミスセンスバリアントタンパク質における置換は、例えば、対象において疾患又は障害を発症させる、生物学的効果を有し得る。
【0041】
本明細書で使用される場合、「生物学的効果」という用語は、バリアントがタンパク質(例えば、ミスセンスバリアントタンパク質)である、所与の生物学的実体(例えば、バリアント)の分子効果、並びに細胞、組織、又は生物のレベルでのそのような実体の効果を含む。生物学的効果は、例えば、分子レベルでの効果、並びに生理学的効果を包含する。したがって、いくつかの態様では、タンパク質の分子構造(例えば、三次元構造)の変化、又はそのリガンドに対する結合親和性の変化は、生物学的効果とみなされる。いくつかの態様では、タンパク質の機能の獲得又は喪失は、生物学的効果とみなすことができる。いくつかの態様では、例えば、タンパク質の機能の獲得若しくは喪失に起因する疾患若しくは障害、又はタンパク質のミスフォールディングに起因するタンパク質凝集の発症は、生物学的効果とみなすことができる。いくつかの態様では、疾患又は障害を発症するリスクの増加又は減少は、生物学的効果とみなすことができる。いくつかの態様では、病理学的表現型の発現は、生物学的効果とみなすことができる。いくつかの態様では、「生物学的効果」及び「臨床的意義」という用語は、互換的に使用することができる。
【0042】
参照分子(例えば、参照タンパク質)の「コンフォメーション動力学」を生成することは、計算アルゴリズムを使用して、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)の分子構造のコンフォメーション変化を決定することを含む。いくつかの態様では、これらのアルゴリズムは、分子動力学(MD)シミュレーションと呼ばれ、参照分子システムが、(1)原子間の物理的相互作用エネルギーを計算すること、及び(2)これらの相互作用エネルギーに従って原子を置換することを伴う計算サイクルを完了することによって、経時的にシミュレーションされる。ステップとしても知られるこれらのシミュレーションサイクルは、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)の経時的な軌跡を生成し、参照分子又はバリアント分子のコンフォメーション動力学を特徴付ける。本明細書で使用される場合、「軌跡」という用語は、コンフォメーション動力学シミュレーションから得られるデータのセットを指し、これには、特定の期間にわたるシミュレーション中に参照分子又はバリアント分子がとる別個のコンフォメーション状態が含まれる。
【0043】
いくつかの態様では、少なくとも1つの(1)独立した軌跡は、参照分子又はバリアント分子のコンフォメーション動力学を特徴付けることができる。いくつかの態様では、MDシミュレーションは、GROMACS、OpenMM、NAMD、Amber、又はLAMMPSを使用して実施される。いくつかの態様では、MDシミュレーションのサンプリングは、高度なサンプリング(AS)方法、例えば、アンブレラサンプリング、パラレルテンパリング、レプリカ交換、メタ動力学、及びシミュレーテッドアニーリングを使用することによって改善することができる。いくつかの態様では、深層学習アルゴリズムを使用して、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学を予測することができる。
【0044】
いくつかの態様では、同じ参照分子(例えば、参照タンパク質)若しくはバリアント分子(例えば、バリアントタンパク質)又はそれらのそれぞれの分子構造の複数のコンフォメーション状態を使用して、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学を推測することができる。参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学は、例えば、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)の約10,000~約1,000,000又はそれ以上のコンフォメーション状態を含み得る。参照分子構造(例えば、参照タンパク質構造)又はバリアント分子構造(例えば、バリアントタンパク質構造)のコンフォメーション動力学は、コンフォメーション動力学を表す分布に従ってコンフォメーション状態を生成するために使用することができる生成モデルを含み得る。
【0045】
本開示の文脈において、「低次元コンフォメーションランドスケープ」という用語は、次元削減の適用から得られる、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学の複数のコンフォメーション状態を指す。分子のコンフォメーション動力学(例えば、参照分子又はバリアント分子、例えば、参照タンパク質又はバリアントタンパク質)の低次元コンフォメーションランドスケープを生成することは、例えば、(1)分子のコンフォメーション動力学を定義するコンフォメーション状態に分子特徴量化法を適用することと、(2)これらの特徴量化されたコンフォメーション状態に教師なし次元削減法を使用して、次元数を更に削減することと、を含み得る。
【0046】
低次元コンフォメーションランドスケープは、参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)の成分(例えば、原子)の機能及び/又は挙動に関与する関連するコンフォメーション動力学を明らかにすることができる。参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)のコンフォメーションランドスケープは、例えば、低次元空間におけるコンフォメーション動力学の軌跡からの個々のコンフォメーション状態の別個の分布として表すことができる。コンフォメーションランドスケープはまた、低次元空間における連続分布として表すこともできる。分布の密度は、コンフォメーションランドスケープにおける特定の領域を占める参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)の傾向を反映し、いくつかの態様では、この密度は、コンフォメーションランドスケープの高密度領域が低エネルギーコンフォメーションを反映するように、参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)の全体的なエネルギーと相関する。病原性分子変化(バリアント又は変異)を含むバリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学は、良性分子変化(バリアント又は変異)を有する参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学とは異なる場合がある。
【0047】
本明細書に開示される方法は、特徴量化又は特徴量抽出ステップを含む。本明細書で使用される場合、「特徴量化」、「特徴量抽出」、及びそれらの文法的変形は、分子、例えば、本開示の参照分子(例えば、参照タンパク質)の構造的特徴を計算するために使用される方法を指す。分子の構造的特徴は、例えば、本開示の角度、配向、距離、相互作用、分散、変動、エネルギー、溶媒アクセシビリティ若しくはその欠如、又はそれらの任意の組み合わせを含み得る。構造的特徴は、構造エレメント(例えば、背骨、側鎖、残基、モチーフ、二次構造エレメント、又はドメイン)に従って、個々の原子又は原子のグループによって定義され得る。いくつかの態様では、分子特徴量化は、分子構造(例えば、本開示の参照分子又はバリアント分子)を定義する特徴の数の少なくとも10倍、20倍、30倍、40倍、又は50倍の減少をもたらす。特徴量化プロセスは、人間のオペレータを必要とせず(すなわち、プロセスが自動化され)、特定の特徴量化が、下流のモデル性能に基づいて選択される。
【0048】
次元削減のための特定の特徴(例えば、骨格ψ角)の選択の背後にある理論的根拠の例が図5に示されている。これは、分子の病原性及び良性バリアント(例えば、位置P349L、L341Pなどでの変異を含むバリアント)において、特定の位置(F650)での骨格ψ角の異なる分布があることを示す。したがって、特徴(骨格ψ角分布)とバリアント分子の病原性との間に関係がある。したがって、骨格ψ角は、次元削減のために抽出され得る構造的特徴である。本明細書に開示される方法はまた、次元削減ステップを含む。この次元削減ステップはまた、人間のオペレータを必要としない。したがって、次元削減ステップは、教師なしである。次元削減を使用して、分子の低次元表現を生成するために、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学から抽出される全体的な構造的特徴の数を更に減少させることができる。本明細書で使用される場合、「次元削減」という用語は、特徴選択(例えば、特徴相関、分散(variance)、分散(dispersion)、又はそれらの任意の組み合わせに基づいて特徴を選択する)、線形分解(例えば、主成分分析、PCA、及び/又は特異値分解、SVD)、非線形分解(例えば、多様体学習(例えば、UMAP)、アイソマップ、カーネルPCA、t分布型確率的近傍埋め込み(t-SNE)、及び多次元尺度(MDS))、ニューラルネットワーク埋め込み(例えば、(変分)オートエンコーダ又はグラフ埋め込みの使用などを通して、入力データの低次元表現を生成するための人工ニューラルネットワーク(ANN)を使用する)、又はそれらの任意の組み合わせを含む。教師なし次元削減は、少なくとも50倍、60倍、70倍、80倍、90倍、又は100倍の特徴の更なる減少をもたらし得る。
【0049】
図3に、本開示のワークフローの次元削減部分の概略図を示す。これには、(i)特定の元の特徴又は特性が選択される構造的特徴量抽出ステップと、(ii)PCA又はオートエンコーダなどの方法を使用して、選択された元の特徴又は特性が新しい特徴又は特性に変換される次元削減ステップと、が含まれている。その結果、コンフォメーション動力学の次元数の大幅な削減が達成され得る。例えば、複数の軌跡を含み、かつ10,000~100,000の自由度を有するシステムは、例えば、特徴の数の約50倍の減少を達成するために、本明細書に開示される構造的特徴量抽出ステップ(例えば、いくつかの例を挙げると、骨格角度、残基対、距離、残基変動、又は溶媒アクセシビリティなどの特徴を抽出する)に供され得る。構造的特徴量抽出を行った後、軌跡を、(例えば、PCA、オートエンコーダなどを使用して)本明細書に開示される次元削減ステップに供して、特徴の数が更に減少した(例えば、約100倍減少した)軌跡のセットを得ることができる。
【0050】
本明細書に開示される方法は、参照分子(例えば、参照タンパク質)の低次元コンフォメーションランドスケープから、準安定なコンフォメーション状態又はそのセットを決定することを更に含む。そのような準安定なコンフォメーション状態を決定するプロセスは、一般に、(1)クラスタリング技術を使用して、参照分子(例えば、タンパク質)の低次元コンフォメーションランドスケープにおけるコンフォメーションクラスターのセットを定義することと(例えば、(a)参照タンパク質構造のコンフォメーション動力学からコンフォメーション状態を低次元空間に投影することによって、低次元空間におけるコンフォメーション状態のセットを定義すること、及び(b)投影されたコンフォメーション状態を、コンフォメーションクラスターを定義するためのクラスタリングアルゴリズムへの入力として使用すること)、(2)全てのクラスターのセットからコンフォメーションクラスターのサブセットを選択することと、(3)更なる分析のための準安定なコンフォメーション状態として、選択された各コンフォメーションクラスターから代表的なコンフォメーション状態を定義することと、を含む。「コンフォメーションクラスター」は、低次元コンフォメーションランドスケープ(例えば、低次元コンフォメーションランドスケープにおける領域)において互いに近接しているコンフォメーション状態の集合である。
【0051】
開示された方法はまた、クラスター特性、例えば、コンフォメーションランドスケープ重心からの距離、クラスター占有率、クラスター分布統計、クラスターの構造特性、クラスターの熱力学、又はそれらの任意の組み合わせに基づいて、コンフォメーションクラスターのサブセットを選択するか、又は優先順位を付けることを含み得る。構造的特性は、分子システムの任意の数の構造成分の次元削減に使用される構造的特徴量化から選択することができる。
【0052】
いくつかの実施形態では、「準安定なコンフォメーション状態」という用語は、低次元表現におけるクラスターの全てのコンフォメーション状態のうちの重心に最も近いか又は最も近いものの1つである、コンフォメーションクラスターにおいてサンプリングされたコンフォメーション状態を指す。本明細書に開示される方法では、準安定なコンフォメーション状態は、選択された各コンフォメーションクラスターについて特定され得る。いくつかの実施形態では、準安定なコンフォメーション状態はまた、(i)オートエンコーダのデコーダネットワークなどの生成モデルによって生成されるコンフォメーションクラスターの領域におけるコンフォメーション状態、又はコンフォメーションクラスターにおける近くのコンフォメーション状態から補完された状態、(ii)コンフォメーションランドスケープにおける極小値、又は(iii)目的の分子成分が、他の準安定なコンフォメーション状態と少なくとも約2Åの骨格原子平均二乗偏差(RMSD)異なるコンフォメーション状態として定義され得る。
【0053】
図4に、参照分子のコンフォメーションのエネルギー状態及びバリアント分子の準安定なコンフォメーションのエネルギー状態の概略図を示す。この表現は、上で考察したように、軌跡特徴量化(特定の特徴を選択することによってコンフォメーション動力学の自由度を減少させること)及び次元削減(例えば、PCAを介して選択された特徴を他の特徴に変換すること)を通して、コンフォメーション空間を簡素化又は圧縮して、参照分子とバリアント分子とを区別しながら、簡素化されたコンフォメーション動力学を生成することが可能であることを例示する。次に、以下で説明するように、簡素化された表現は、機械学習モデルを生成するための入力として使用され得る。図6に、リンチ症候群I又はミスマッチ修復がん症候群2などの疾患に関連する、MutSホモログ2タンパク質(MSH2)のクラスタリング構造コンフォメーションから得られる例示的な低次元コンフォメーションランドスケープ表現を示す。図6に示されるクラスターの各々は、準安定なコンフォメーション状態を表す。
【0054】
低次元表現におけるコンフォメーション動力学は、例えば、図7に示されているように、病原性バリアントと良性バリアント(例えば、ミスセンス遺伝子バリアント)とを区別することができ、したがって、それらは、予測的機械学習モデルの特徴として効果的に使用することができる。バリアント分子(例えば、バリアントタンパク質)又はそのセットを構築することは、準安定なコンフォメーション状態又はそのセットにおいて、少なくとも1つのバリアント(例えば、変異)を参照分子(例えば、参照タンパク質)に導入することを含み得る。このプロセスは、例えば、(1)バリアント分子を構築するためのバリアント又はそのセット(例えば、変異又は変異のセット)、例えば、医学的遺伝子検査で観察される又は観察され得るバリアントのセットを定義することと、(2)分子システムの関連する分子成分にバリアント(例えば、変異)を導入することと(上に開示されているように、分子システムは、例えば、タンパク質などの参照分子、及び溶媒又はリガンドなどの追加の成分を含み得る)、(3)バリアントの立体ベース及び/又はエネルギーベースの最小化を行って(例えば、バリアントの導入後にバリアント分子とみなされるであろう参照分子における変異)、分子システムの急激なコンフォメーション変化を緩和することと、を含み得る。
【0055】
バリアントのセットは、(i)予測モデルの訓練ラベルとして使用される、既知の臨床的意義を有するバリアントのセット、及び(ii)臨床的意義は未知であるが、更なるバリアント効果の情報が望まれるバリアントのセットを含み得る。バリアントのセットには、システムの1つ以上の分子成分の組成を変化させることが知られているバリアント(例えば、タンパク質における特定の位置でアミノ酸残基を変化させることが知られているミスセンスバリアント)が含まれている必要がある。バリアントのセットには、分子システムに対して病原性効果を引き起こすことが知られている少なくとも1つのバリアントと、分子システム(それ自体が参照分子システムであり得る)に非病原性(良性)効果を引き起こすことが知られている1つのバリアントと、が含まれている必要がある。
【0056】
バリアント(例えば、変異)は、例えば、分子構造における原子の同一性、特性、相互作用、又は位置を改変する可能性がある。バリアントは、例えば、アミノ酸側鎖又は核酸塩基の変異であってもよい。バリアントは、バリアント遺伝子(例えば、置換、挿入、欠失、ミスセンス変異、又はナンセンス変異)によって直接コードされ得るか、あるいは間接的に、例えば、分子システムの組成の変化(例えば、分子成分の濃度の増加若しくは減少、又は分子成分の化学組成の違い)又は分子成分の非遺伝的修飾(例えば、リン酸化若しくはグリコシル化などの翻訳後修飾)が生じ得る。
【0057】
いくつかの態様では、バリアント分子構造を生成するためのバリアント(例えば、ミスセンスバリアント)を参照分子構造に導入することは、以下のステップの一部又は全てを含み得る:(1)参照分子(例えば、参照タンパク質)からバリアント位置での特定のアミノ酸側鎖の原子及び相互作用を除去するステップ、(2)骨格φ-ψ角の元の位置を決定するステップ、(3)骨格依存性ロータマーライブラリを使用して、ミスセンスアミノ酸の考えられるロータマーコンフォメーションを反復的に特定し、このロータマーのバリアント位置での配置によって引き起こされる立体衝突を計算し、立体衝突が閾値を下回るまで繰り返すステップ、及び(4)バリアントの導入に関連する立体的及びエネルギー的コストを更に削減するための緩和を完了するステップ。
【0058】
準安定なコンフォメーション状態におけるバリアント分子構造のコンフォメーション動力学を決定することは、計算方法を使用して、バリアントの導入後に生じるコンフォメーション変化をサンプリングすることを含み得る。これらのコンフォメーション変化は、例えば、分子動力学(MD)シミュレーションを使用して決定することができる。
【0059】
本開示の予測モデルは、例えば、線形又は非線形回帰、決定木(例えば、ランダムフォレスト)、又は人工ニューラルネットワーク(ANN)などの機械学習(ML)方法を使用して生成することができる。臨床データは、訓練ラベル、例えば、バイオマーカー状態(例えば、特定のバイオマーカーの有無又はその発現レベル)、バイオメトリックデータ、ライフスタイル関連データ、治療に対する応答、疾患若しくは状態の症状、タンパク質発現データ、投与される治療の種類、投与量、投与量レジメン、投与経路、併用療法の有無、療法に対する応答、年齢、体重、性別、民族性、NCBI ClinVarデータベース提出物、INVITAE(商標)臨床解釈、他の実験的若しくは計算モデルからのデータ、又はそれらの任意の組み合わせとして使用することができる。例えば、ANNは、バリアント分子の準安定なコンフォメーション状態のコンフォメーション動力学を決定した後に得られたバリアントタンパク質構造を含む訓練セットで訓練してもよい。訓練セットは、バリアントの導入によって引き起こされる構造変化と、例えば、観察された臨床特性(例えば、特定のバリアントが存在する場合の疾患の可能性又は重症度)に対応する各バリアントタンパク質構造に適用されるラベル(訓練ラベル)と、を含み得る。
【0060】
バリアント効果の予測は、バリアント分子の準安定なコンフォメーション状態のコンフォメーション動的変化を使用して、及びそのようなバリアント分子に適用される上に記載のものなどの訓練ラベルに対して予測モデルを訓練することと、訓練されたモデルを使用して、意義不明の他のバリアントの臨床的意義を予測することと、を含み得る。
【0061】
予測モデルは、例えば、(1)記憶された準安定なコンフォメーション状態から新しいバリアント分子(例えば、バリアントタンパク質)を構築することと、(2)新しいバリアント分子のコンフォメーション動力学を生成することと、(3)以前に計算された教師なし次元削減モデルを使用して、新しいバリアント分子の低次元コンフォメーション動力学を決定することと、(4)以前に訓練された予測モデルを使用して、新たに観察されたバリアントの臨床的意義を予測することと、を含むプロセスにおいて、遺伝子検査から新たに観察されたバリアントに拡張することができる。
【0062】
I.コンフォメーション動力学からのバリアント効果の高スループット予測
本開示は、バリアント(例えば、ミスセンス遺伝子及びタンパク質バリアント)の機能的結果、すなわち、生物学的効果の特徴付けを可能にする新規の計算方法を記載する。これらの方法は、コンフォメーション動力学の生成及び機械学習(ML)を統合して、分子システム(例えば、遺伝子又はタンパク質)及びそのバリアント(例えば、ミスセンスバリアント)の構造的特徴を特定及び定量化し、バリアント(例えば、変異)の効果及びそれらの潜在的な生物学的機能の破壊の測定又は予測を得る。次に、参照分子システム(例えば、野生型タンパク質若しくは遺伝子、又は一般的な対立遺伝子形態)に関する機能的破壊(すなわち、生物学的効果)、及びそれらの重症度の特定を、例えば、そのような機能的破壊に関連する疾患及び障害を治療するために使用することができる。
【0063】
いくつかの態様では、本開示は、バリアント(例えば、ミスセンスバリアント)の生物学的効果の高スループット予測のためのコンピュータ実装方法を提供し、本方法は、
(a)参照分子(例えば、野生型タンパク質若しくは遺伝子、又は一般的な対立遺伝子形態)の構造のコンフォメーション動力学を(例えば、分子動力学から)生成することと、
(b)教師なし次元削減法を使用して、参照分子(例えば、参照タンパク質)を含む参照分子システムの低次元コンフォメーションランドスケープを定義することと、
(c)参照分子(例えば、参照タンパク質)を含む参照分子システムの低次元コンフォメーションランドスケープから、準安定なコンフォメーション状態又はそのセットを決定することと、
(d)インシリコで少なくとも1つのバリアント(例えば、変異)を、参照分子システム、例えば、参照分子(例えば、参照タンパク質)における分子成分の準安定なコンフォメーション状態又はそのセットに導入し、それによって、例えば、バリアント分子(例えば、バリアントタンパク質)又はそのセットを含むバリアント分子システムを生成することと、
(e)準安定なコンフォメーション状態又はそのセットにおけるバリアント分子システム又はそのセットのコンフォメーション動力学を決定することと、
(f)教師なし次元削減法を使用して、準安定なコンフォメーション状態又はそのセットにおけるバリアント分子システム又はそのセットのコンフォメーション動力学の低次元表現を生成することと、
(g)バリアントシステム又はそのセットのコンフォメーション動力学の低次元表現、及び生物学的データ又は臨床データを訓練ラベルとして使用して、予測モデル(例えば、ANN)を訓練することであって、予測モデルが、参照分子システムの分子成分(例えば、タンパク質)(例えば、参照タンパク質)に対するバリアントの生物学的効果を予測する、訓練することと、任意選択的に、
(h)予測モデルを、医学的遺伝子検査から新たに観察されたバリアントに迅速に拡張することと(例えば、ワークフローのステップ(d)における評価のために新しいバリアントを導入すること)、を含む。
【0064】
ワークフローの異なるステップは、最初の反復後に事前に計算されるため、追加のバリアントの評価は、非常に迅速に行われるであろう。
【0065】
概して、本明細書に記載の方法は、上記のステップのうちの1つ以上を含む。いくつかの態様では、上記のステップの順序は、例えば、バリアント分子(例えば、バリアントタンパク質)又はそのセットのコンフォメーション動力学の生成(例えば、MDを使用して)は、参照分子(例えば、参照タンパク質)の構造コンフォメーションをシミュレーションする前に又は同時に実施され得る。他の態様では、ステップの特定のグループは、ループで繰り返され得る。例えば、バリアント分子システム(例えば、バリアントタンパク質構造を含む分子システム)又はそのセットを、インシリコで参照分子システム(例えば、参照分子(例えば、野生型タンパク質又は一般的な対立遺伝子形態などの参照タンパク質を含む分子システム)の準安定なコンフォメーション状態に少なくとも1つのバリアント(例えば、ミスセンス変異)を導入することによって、生成することと、例えば、分子動力学(MD)を適用することによって、バリアントシステム又はそのセットのコンフォメーション動力学を決定することと(すなわち、構造コンフォメーションをシミュレーションすること)、を含むステップは、バリアントの異なるバッチ又はファミリーに連続的又は同時に適用され得る。
【0066】
いくつかの態様では、本明細書に記載の方法は、(a)参照タンパク質のコンフォメーション動力学を生成することと、(b)教師なし次元削減法を使用して、参照タンパク質構造の低次元コンフォメーションランドスケープを定義することと、(c)参照タンパク質構造の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態又はそのセットを決定することと、(d)インシリコで少なくとも1つのバリアント(例えば、変異)を参照タンパク質構造の準安定なコンフォメーション状態又はそのセットに導入することによって、バリアントタンパク質又はそのセットを構築し、それによって、バリアントタンパク質構造又はそのセットを生成することと、(e)準安定なコンフォメーション状態又はそのセットにおけるバリアントタンパク質構造又はそのセットのコンフォメーション動力学を判定することと、(f)教師なし次元削減法を使用して、準安定なコンフォメーション状態又はそのセットにおけるバリアントタンパク質又はそのセットのコンフォメーション動力学の低次元表現を生成することと、(g)生物学的データ又は臨床データを訓練ラベルとして使用して、バリアントタンパク質又はそのセットのコンフォメーション動力学の低次元表現を使用して、予測モデルを訓練することであって、モデルが、参照タンパク質に対するバリアントの生物学的効果を予測する、訓練することと、任意選択的に、(h)予測モデルを、医学的遺伝子検査から新たに観察されたバリアントに迅速に拡張することと、を含む。いくつかの態様では、評価のための新しいバリアントが、ステップ(d)でパイプラインに導入され得る。
【0067】
図1及び図2に、本開示の例示的なワークフローの概略図を示す。図1の図は、主要なモジュール(コンフォメーション動力学の生成、教師なし次元削減、準安定なコンフォメーション状態の特定、バリアント構築、モデル拡張、及び予測モデリング;白色の背景)と、様々なモジュールの入力及び出力であるデータオブジェクト(参照分子、参照分子のコンフォメーション動力学、低次元コンフォメーションランドスケープ、準安定なコンフォメーション状態、バリアントリスト、バリアント分子、バリアント分子のコンフォメーション動力学、バリアント分子の低次元コンフォメーション動力学、遺伝子検査から新たに観察されたバリアント、バリアントの臨床訓練データ、及び予測されるバリアント効果;灰色の背景)と、を示す。
【0068】
本明細書に開示される分子コンフォメーション動力学からバリアント効果を予測する予測システムは、以下のステップ:(a)参照分子のコンフォメーション動力学を生成するステップと、(b)教師なし次元削減法を使用して、参照分子の低次元コンフォメーションランドスケープを定義するステップと、(c)参照分子の低次元コンフォメーションランドスケープから準安定なコンフォメーション状態又はそのセットを決定するステップと、(d)準安定なコンフォメーション状態又はそのセットにおける参照分子の分子成分に少なくとも1つの分子変化を導入することによって、バリアント分子又はそのセットを構築するステップと、(e)準安定なコンフォメーション状態又はそのセットにおけるバリアント分子又はそのセットのコンフォメーション動力学を決定するステップと、(f)教師なし次元削減法を使用して、準安定なコンフォメーション状態又はそのセットにおけるバリアント分子又はそのセットのコンフォメーション動力学の低次元表現を生成するステップと、(g)生物学的データ又は臨床データを訓練ラベルとして使用して、バリアント分子又はそのセットのコンフォメーション動力学の低次元表現を使用して、予測モデルを訓練するステップであって、モデルが、参照分子の分子成分に対するバリアントの生物学的効果を予測する、訓練するステップと、任意選択的に、(h)予測モデルを医学的遺伝子検査から新たに観察されたバリアントに迅速に拡張するステップと、を含み得る。図2を参照されたい。
【0069】
I.A コンフォメーション動力学の生成
本明細書に開示される方法は、分子構造のコンフォメーション動力学を使用する。コンフォメーション動力学は、例えば、本開示の参照分子又はバリアント分子を含むシステムにおける原子及び分子の運動を研究するためのコンピュータ方法(例えば、分子動力学(MD)シミュレーション)を使用して生成され得る。コンフォメーション動力学は、例えば、タンパク質及び核酸などの高度に動的な構造を有する大きな分子を含み得るシステムにおける原子及び分子の複雑な時間依存性の挙動を表す。かかる動力学には、例えば、分子の安定性、分子のフォールディング、分子のコンフォメーションの変化、及び分子の結合が含まれる。したがって、タンパク質の場合、そのような動力学は、例えば、タンパク質の安定性、タンパク質のフォールディング、タンパク質のコンフォメーションの変化、及び受容体/リガンド結合を含む分子結合を含む。これらの研究は、例えば、がん及び遺伝性疾患を含む様々な疾患の治療用の薬物を設計するための有用な情報を提供することができる。それらはまた、バリアント(例えば、変異)などの、分子(例えば、タンパク質(例えば、参照タンパク質又は本開示のミスセンスバリアントタンパク質などのバリアントタンパク質)などの巨大分子)の生物学的機能に対する破壊の重症度を予測するための情報を提供する。
【0070】
タンパク質などの分子のコンフォメーション動力学の研究は複雑であり、正確な情報を得るために、コンピュータ及び巨大分子構造及び巨大分子動力学のインシリコ研究が必要である。いくつかの態様では、本明細書に開示される方法は、任意のソフトウェア、ポテンシャルエネルギーを計算するために使用される任意のパラメータセット又は力場、及び任意のタンパク質/リガンド相互作用システムを使用して実施される、全原子コンフォメーション動力学シミュレーション(例えば、MDシミュレーション)を使用することができる。パラメータセットには、システムにおける個々の原子の挙動を制御するルールセットが含まれる。コンフォメーション動力学シミュレーション(例えば、MDシミュレーション)によって生成された分子構造は、本開示の参照分子又はバリアント分子のコンフォメーション動力学に対するバリアント(例えば、変異)の影響、例えば、全体的な構造的特徴、構造におけるサブドメインの動力学、エネルギー相互作用、及び構造の全体的な集合の統計的特徴を比較するためのいくつかのメトリックによって特徴付けることができる。
【0071】
計算集約的であることに加えて、(例えば、MDシミュレーションからの)コンフォメーション動力学には、時間の経過に伴う三次元の分子内の全ての原子の運動が含まれているため、高次元である。分子には10,000個以上の原子が存在することが多いため、これらの高次元システムの分析は、典型的には、目的の特徴を決定するために専門家の分析を必要とする。目的の特徴を決定するために人間の専門家を使用する必要があるため、高スループットモードでのこれらの方法の適用を妨げるボトルネックが生じる。したがって、例えば、機械学習を使用して、高スループットのバリアント分類のためにコンフォメーション動力学データ(例えば、MDデータ)を使用するために、(すなわち、人間の介入なしに)自動化された様式で、関連する構造的特徴を抽出し、コンフォメーション動力学データ(例えば、MDデータ)の次元数を削減することができる方法を開発する必要性がある。
【0072】
いくつかの態様では、コンフォメーション動力学を使用して、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)の構造コンフォメーションをシミュレーションすることは、(i)参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)の三次元構造を取得することと、(ii)参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)の取得された三次元構造を使用して、(例えば、MDから)コンフォメーション動力学を生成することと、を含む。いくつかの態様では、三次元分子構造は、(例えば、結晶学、電子顕微鏡、又は核磁気共鳴によって)実験的に決定される。いくつかの態様では、三次元分子構造は、PDBなどの実験的三次元タンパク質構造リポジトリから取得される。
【0073】
分子の(例えば、タンパク質の)構造を知ることで、それがどのように機能するかを理解するための重要なリソースが提供されるが、分子の構造を決定するための実験は、数ヶ月又はそれ以上かかることがあり、なかには手に負えないことが判明する。このため、研究者らは分子構造を予測するための計算方法を開発してきた。例えば、研究者は、それらの一次アミノ酸配列からタンパク質構造を予測するための計算方法を開発した。同様のタンパク質の三次元構造が、例えば、X線結晶学を使用して既に実験的に決定されている場合、「テンプレートモデリング」に基づくアルゴリズムは、タンパク質構造の正確な予測を提供することができる。したがって、いくつかの態様では、三次元構造は、テンプレートモデル構造である。
【0074】
いくつかの態様では、三次元分子構造は、実験的に決定された分子構造が利用できない分子(例えば、タンパク質)に対応する。したがって、いくつかの態様では、三次元分子構造は、計算モデリングを介して得られる。いくつかの態様では、自由モデル化三次元分子構造は、modbase、Pfam、EMDB、又はEVFoldなどの計算的に導出された構造を有するデータベースから取得される。いくつかの態様では、三次元分子構造は、AlphaFold又はtrRosettaなどの既存の計算構造予測ソフトウェアを使用した予測によって得られる。例えば、Senior et al.(2020)Nature 577:706-710及びYang et al.(2020)PNAS 117:1496-1503(それらのいずれも、その全体が参照により本明細書に組み込まれる)を参照されたい。いくつかの態様では、三次元分子構造は、実験方法及び計算方法の組み合わせによって決定される。
【0075】
いくつかの態様では、本明細書に開示される方法で使用される三次元分子構造は、それらの分解能に従って選択される。いくつかの態様では、本明細書に開示される方法で使用される三次元分子構造は、高分解能分子構造である。
【0076】
本明細書で使用される場合、「分解能」という用語は、実験的に導出された分子構造(例えば、本開示の参照分子又はバリアント分子の構造)について収集されたデータの品質の尺度を指す。例えば、X線結晶学を使用して得られた分子構造の場合、回折された結晶中の全てのタンパク質が同一の方法でアラインメントされ、非常に完璧な結晶を形成する場合、全てのタンパク質は、同じ方法でX線を散乱させ、回折パターンが、結晶化されたタンパク質の細部を示す。一方、結晶中のタンパク質が全てわずかに異なる場合、局所的な柔軟性又は運動のために、回折パターンはそれほど細かい情報を含まないであろう。したがって、分解能は、回折パターンに存在する詳細のレベル、及び電子密度マップが計算されるときに見られるであろう詳細のレベルの尺度である。結晶構造に適用される「高分解能」とは、分解能値が1Å程度で、高秩序であり、電子密度マップ内の全ての原子を容易に見ることができる構造を指す。結晶構造に適用される「低分解能」とは、タンパク質鎖の基本的な輪郭のみを示す分解能が3Å以上の構造を指し、原子構造を推測しなければならない。タンパク質の結晶学的に定義された構造のほとんどは、これらの2つの極値の間にある。一般的な経験則として、分解能値が小さい分子構造、すなわち、「高分解能構造」では、原子の位置の信頼性が高い。
【0077】
いくつかの態様では、「高分解能」という用語は、例えば、実験的に導出された構造、例えば、参照分子(例えば、参照タンパク質)の結晶構造において3.0Å以下の分解能を意味する。開示される方法において、6.0Å、5.0Å、4.0Å、3.0Å、2.0Å、又はそれ以下などの任意の分解能の分子構造を用いることができる。したがって、いくつかの態様では、分解能は、約1Å、約1.5Å、約2Å、約2.5Å、約3Å、約3.5Å、約4Å、約4.5Å、約5Å、約5.5Å、又は約6Åである。いくつかの態様では、分解能は、約6Åよりも優れている(高い)、約5Åよりも優れている、約4Åよりも優れている、約3Åよりも優れている、約2Åよりも優れている、又は約Å1よりも優れている。いくつかの態様では、分解能は、約1Å~約2Å、約2Å~約3Å、約3Å~約4Å、約4Å~約5Å、約5Å~約6Å、約1Å~約3Å、約2Å~約4Å、約3Å~約5Å、約4Å~約6Å、約1Å~約4Å、約2Å~約5Å、約3Å~約6Å、約1Å~約5Å、約2Å~約6Å、又は約1Å~約6Åである。
【0078】
いくつかの態様では、本明細書に開示される方法において使用される分子の三次元構造は、例えば、MDシミュレーションから、コンフォメーション動力学のエネルギー学に従って選択される。分解能は、実験的に導出された構造の考慮事項であるが、計算的に予測された構造には適用されない。標的を選択するための基準として構造及び予測品質メトリック(例えば、分解能)を使用することに加えて、例えば、MDシミュレーションからのコンフォメーション動力学を使用して、参照分子構造(例えば、参照タンパク質の三次元構造)がバリアント分子の構造モデルの構築に適しているかどうかを評価することができる。コンフォメーション動力学(例えば、タンパク質構造のMDシミュレーションからの)は、二次、三次、及び複合体の場合は四次構造の変化、並びに/又は溶媒にアクセス可能な表面積の変化について評価して、参照分子(例えば、参照タンパク質)のコンフォメーション動力学を正確に計算することができるかどうかを決定することができる。
【0079】
参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)のコンフォメーション動力学は、コンピュータ方法(例えば、MDシミュレーション)を、参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)の三次元構造に適用することによって決定される。MDは、原子及び分子の物理的な運動を分析するためのコンピュータシミュレーション方法である。原子と分子は一定期間相互作用することができ、システムの動的な「進化」の様子がわかる。最も一般的なバージョンでは、原子及び分子の軌跡は、相互作用している粒子のシステムについてのNewtonの運動方程式を数値的に解くことによって決定され、粒子とそれらのポテンシャルエネルギーとの間の力は、しばしば原子間ポテンシャル又は分子力学的力場を使用して計算される。分子システムは、典型的には膨大な数の粒子で構成されているため、そのような複雑なシステムの特性を分析的に決定することは不可能であり、MDシミュレーションは、数値方法を使用することによってこの問題を回避する。
【0080】
MD以外のコンフォメーション動力学を生成する他の方法を使用して、タンパク質のコンフォメーションランドスケープを決定することができる(www.sciencedirect.com/science/article/pii/S0969212619301145)。この方法は、コンフォメーション動力学のシミュレーション(例えば、MDシミュレーション)自体に依存せず、コンフォメーションランドスケープを表す別個のコンフォメーション状態の集合を有する。従来のMDの代わりに、分子のコンフォメーションランドスケープを決定するために、深層学習を組み込んだこのような方法を使用することができる。ノーマルモード解析(pubs.acs.org/doi/10.1021/cr900095e)も、従来のMDに類似して、タンパク質のコンフォメーション状態を計算するために使用することができる。
【0081】
計算が妥当な時間内に完了できるように、シミュレーションサイズ、タイムステップ、及び合計時間を選択しなければならない。しかしながら、コンフォメーションシミュレーションは、研究対象の自然なプロセスの時間スケールに適切な十分な長さである必要がある。コンフォメーションシミュレーションから統計的に有効な結論を出すには、シミュレーションされたタイムスパンが自然のプロセスの動態と一致する必要がある。例えば、タンパク質の動力学には、ナノ秒(10<+-><+9>秒)からマイクロ秒(10<+-><+6>秒)にわたるシミュレーションからのデータが使用される。これらのコンフォメーションシミュレーションを得るには、数CPU日からCPU年が必要である。並列アルゴリズムは、負荷をCPU間で分散させることを可能にし、一例は、空間分割アルゴリズム又は力分解アルゴリズムである。古典的なMDシミュレーション中、最もCPU集約的なタスクは、粒子の内部座標の関数としてのポテンシャルの評価である。シミュレーションに必要な総CPU時間に影響を与える別の要因は、積分タイムステップのサイズである。これは、ポテンシャルの評価間の時間の長さである。タイムステップは、離散化誤差を回避するために十分に小さい(すなわち、システムにおける最速の振動周波数に関連する期間よりも小さい)ように選択されなければならない。古典的なMDの典型的なタイムステップは、1フェムト秒(10<+-><+1><+5>秒)程度である。
【0082】
単一のタンパク質のコンフォメーション動力学を生成するためのCPU時間の要件を考慮すると、MDベースの方法は、高スループット解析には好適ではない。しかしながら、以下に詳細に開示されるように、現在開示されている方法は、MDシミュレーションで使用されるデータの次元数を削減し、CPU時間を劇的に削減することが可能であり、したがって、高スループットモードで、例えば、MDシミュレーションからのコンフォメーション動力学の適用が可能になる。
【0083】
いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、GROMACSパッケージ/プログラムを使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、NAMDパッケージ/プログラムを使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、OpenMMパッケージ/プログラムを使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、AMBERパッケージ/プログラムを使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、LAMMPSパッケージ/プログラムを使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、CHARMMパッケージ/プログラムを使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、Abaloneパッケージ/プログラムを使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、TINKERパッケージ/プログラムを使用して生成される。
【0084】
いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、GROMOS力場を使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、OPLS(Optimized Potentials for Liquid Simulations)力場を使用して生成される。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、AMBER(Assisted Model Building with Energy Refinement)力場を使用して生成される。いくつかの態様では、AMBER力場は、ff14SBである。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、CHARMM(Chemistry at Harvard Macromolecular Mechanics)力場を使用して実施される。いくつかの態様では、CHARMM力場は、CHARMM19(結合原子、場合によっては伸長原子と呼ばれる)、CHARMM22(全原子)、CHARMM22/CMAP(CHARMM22の二面角ポテンシャル補正バリアント)、CHARMM27、CHARMM36、CHARMM36m、又はCHARMM36IDPSFFである。いくつかの態様では、例えば、MDシミュレーションからのコンフォメーション動力学は、MMFF力場(Merck分子力場)を使用して実施される。
【0085】
いくつかの態様では、参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)は、MARTINI力場を使用して、参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)をシミュレーションするために必要な原子数(したがって、計算及び時間)を削減するなど、粗視化され得る。参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)を粗視化することによって、参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)のシミュレーション時間を削減することができる。
【0086】
いくつかの態様では、溶媒環境において参照分子又はバリアント分子(例えば、参照タンパク質又はバリアントタンパク質)をシミュレーションするために、溶媒分子が必要である。いくつかの態様では、これらの溶媒分子は、明示的水分子(explicit water molecule)(TIP3Pなど)である。いくつかの態様では、これらの溶媒分子は、イオン分子(Na<++>又はCl<+->など)を含む。いくつかの態様では、これらの溶媒分子は、脂質、全原子、又は粗視化原子のいずれかである。いくつかの態様では、これらの溶媒分子は、シミュレーションにおける原子数を減少させるために、陰溶媒モデルで表すことができる。
【0087】
特定の一態様では、明示的TIP3P溶媒を有するCHARMM36力場が使用される。標的システムの最小化シミュレーションは、拘束された骨格原子を用いた5,000を超えるシミュレーションステップで行われ、続いて、125ピコ秒から303Kの温度までの平衡化が行われ、続いて、1.2nmの半径の粒子メッシュEwald静電範囲及びVan der Waals相互作用のための1.2nmの半径カットオフを使用して、2フェムト秒ごとにサンプリングされた生産シミュレーションが行われる。
【0088】
シミュレーションを並列化し、粗視化又は陰溶媒を使用してその複雑さを低減し、高度なサンプリング方法を使用してサンプリングを改善することで、必要なシミュレーション時間が短縮される一方、参照タンパク質と同じ量のサンプリングで各バリアント分子をシミュレーションすることは、高スループットの臨床バリアント解釈プラットフォームで使用するために、依然として過度に計算、時間、及びコスト集約的である。しかしながら、本明細書に記載されるように、参照分子のコンフォメーションシミュレーションを使用して、コンフォメーションランドスケープの低次元表現を生成し、ランドスケープにおけるコンフォメーションをクラスタリングして、バリアント分子をシミュレーションするための準安定なコンフォメーション状態を特定することによって、バリアントのシミュレーション時間の総量を削減することができる。特定の一態様では、参照タンパク質を、約5マイクロ秒のシミュレーション時間でシミュレーションし、合計300時間を超える計算時間を要した。これと比較して、各バリアントタンパク質シミュレーションについて、高性能のモデルを生成するのに必要なシミュレーション時間はわずか100ナノ秒(7時間の計算時間)であり、すなわち、本明細書に記載されるように特定された事前に計算された準安定なコンフォメーション状態を選択することで、総計算時間が元の時間の約2%に削減された。言い換えれば、従来のコンフォメーション動力学アプローチが単一のバリアントタンパク質についてコンフォメーションシミュレーションを計算する間に、本方法は、40を超えるバリアントタンパク質についてコンフォメーション動力学シミュレーションを実施することができる。これらのシミュレーション時間の短縮は、コンフォメーションランドスケープの低次元表現を使用した結果であり、準安定なコンフォメーション状態を特定するためにランドスケープにおけるコンフォメーションをクラスタリングした結果であり、使用されるシミュレーションパッケージ/プログラム及び/又は高度なサンプリング方法とは独立した任意のシミュレーションアプローチに適用可能であることを強調することが重要である。
【0089】
いくつかの態様では、本明細書に開示される方法における(例えば、MDシミュレーションを介した)コンフォメーション動力学ステップの生成の各々は、独立して、各分子(例えば、参照タンパク質などの参照分子又はその任意のバリアント)について、少なくとも約1,000、少なくとも約5,000、少なくとも約10,000、少なくとも約20,000、少なくとも約30,000、少なくとも約40,000、少なくとも約50,000、少なくとも約60,000、少なくとも約70,000、少なくとも約80,000、少なくとも約90,000、少なくとも約100,000、少なくとも約200,000、少なくとも約300,000、少なくとも約400,000、少なくとも約500,000、少なくとも約600,000、少なくとも約700,000、少なくとも約800,000、少なくとも約900,000、又は少なくとも約1,000,000のシミュレーションされた構造コンフォメーションを生成することを含む。いくつかの態様では、本明細書に開示される方法における(例えば、MDシミュレーションを介した)コンフォメーション動力学ステップの生成の各々は、各分子(例えば、参照タンパク質などの参照分子又はその任意のバリアント)について、独立して、約1,000、約5,000、約10,000、約20,000、約30,000、約40,000、約50,000、約60,000、約70,000、約80,000、約90,000、約100,000、約200,000、約300,000、約400,000、約500,000、約600,000、約700,000、約800,000、約900,000、又は約1,000,000のシミュレーションされた構造コンフォメーションを生成することを含む。いくつかの態様では、本明細書に開示される方法における(例えば、MDシミュレーションを介した)コンフォメーション動力学ステップの生成の各々は、各分子(例えば、参照タンパク質などの参照分子又はその任意のバリアント)について、独立して、約1,000~約50,000、約50,000~約100,000、約100,000~約150,000、約150,000~約200,000、約200,000~約250,000、約250,000~約300,000、約300,000~約350,000、約350,000~約400,000、約450,000~約500,000、約500,000~約600,000、約600,000~約700,000、約700,000~約800,000、約800,000~約900,000、又は約900,000~約1,000,000のシミュレーションされた構造コンフォメーションを生成することを含む。いくつかの態様では、本明細書に開示される方法における(例えば、MDシミュレーションを介した)コンフォメーション動力学ステップの生成の各々は、各分子(例えば、参照タンパク質などの参照分子又はその任意のバリアント)について、独立して、少なくとも1,000,000のシミュレーションされた構造コンフォメーションを生成することを含む。いくつかの態様では、「シミュレーション」という用語は、所与のタンパク質についての全てのシミュレーションされた構造コンフォメーションを指す。「コンフォメーション動力学」、「シミュレーションされた構造コンフォメーション」、「コンフォメーションシミュレーション」、及びそれらの文法的変形は、互換的に使用され、コンフォメーション動力学(例えば、分子動力学(MD))を生成する方法の適用によって得られる参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、バリアントタンパク質)の三次元コンフォメーションを指す。
【0090】
いくつかの態様では、本明細書に開示される方法、例えば、上記のワークフローのステップ(a)及び(e)における(例えば、MDシミュレーションを介して)コンフォメーション動力学ステップの生成ステップの各々は、独立して、約1,000、約5,000、約10,000、約20,000、約30,000、約40,000、約50,000、約60,000、約70,000、約80,000、約90,000、約100,000、約150,000、約200,000、約250,000、約300,000、約350,000、約400,000、約450,000、約500,000、約600,000、約700,000、約800,000、約900,000、又は約1,000,000のシミュレーションされた構造コンフォメーションを生成することを含む。いくつかの態様では、本明細書に開示される方法、例えば、上記のワークフローのステップ(a)及び(e)における(例えば、MDシミュレーションを介した)コンフォメーション動力学ステップの生成ステップの各々は、独立して、約1,000~約5,000、約5,000~約10,000、約10,000~約20,000、約20,000~約50,000、約50,000~約100,000、約100,000~約200,000、約200,000~約300,000、約300,000~約400,000、約400,000~約500,000、約500,000~約600,000、約600,000~約700,000、約700,000~約800,000、約800,000~約900,000、約900,000~約1,000,000、約10,000~約50,000、約10,000~約100,000、約25,000~約100,000、約10,000~約150,000、約10,000~約200,000、又は約50,000~約150,000のシミュレーションされた構造コンフォメーションを生成することを含む。コンフォメーション動力学を生成することは時間とコストがかかるため、MDコミュニティによって開発された高度なサンプリングを使用すると、同じ量の計算時間/計算コストで有効なシミュレーション時間を増やすことができる。したがって、いくつかの態様では、本明細書に開示されるコンフォメーション動力学を生成することは、強化されたサンプリングMD方法を使用することを含む。強化されたサンプリング方法の大部分は、集団変数ベースの方法と集団変数フリーの方法の2つのカテゴリに分類される。コンフォメーション動力学を生成するボトルネックは、異なる構造/コンフォメーションを分離する高エネルギー障壁があるため、それらの間の遷移がまれな事象として現れるという事実にある。熱力学計算を加速するための直接的かつ効果的なアイデアは、システムのハミルトニアンにバイアス電位を加えることによってポテンシャルエネルギー曲面を修正すること、すなわち、エネルギー障壁を減少させて、サンプリング遷移領域を増加させることである。そのような方法には、広く使用されているアンブレラサンプリング、ポテンシャル平滑化方法、Jウォーキング、局所上昇、コンフォメーションフロッディング、ハイパー動力学、コンフォメーション空間アニーリング、適応バイアス力法、メタ動力学(MetaD)、局所上昇アンブレラサンプリング、及び変分強化サンプリング(VES)が含まれるが、これらに限定されない。いくつかの態様では、シミュレーションを効果的に導くために、これらの方法は、所定の反応座標又は集団変数(CV)を使用する。しかしながら、多くのシステムでは、適切な反応座標が容易に特定されないことはよく知られている。このような状況下では、集団変数を用いない方法が有用な場合がある。この後者の種類の方法では、正準確率分布は、ポテンシャルエネルギーのより広いサンプリングを誘導するであろう分布に変更される。いくつかのこのような方法、例えば、パラレルテンパリング並列テンパリング又はレプリカ交換分子動力学(REMD)、シミュレーテッドテンパリング、多正準シミュレーション、温度加速動力学、Wang-Landauアルゴリズム、加速分子動力学シミュレーション、統計的温度サンプリング、温度加速分子動力学、エンベロープ分布サンプリング、統合テンパリングサンプリング(ITS)、及び加速エンベロープ分布サンプリングが提案されている。いくつかの態様では、強化されたサンプリング方法は、MetaD、VES、REMD、又はITSである。いくつかの態様では、強化されたサンプリング方法は、異なる強化されたサンプリング方法の特徴を組み合わせたハイブリッド方法である。Yi et al(2019)J.Chem.Phys.151:070902(その全体が参照により組み込まれる)を参照されたい。
【0091】
I.B 教師なし次元削減
いくつかの態様では、本明細書に開示される方法は、(例えば、MDシミュレーションからの)コンフォメーション動力学の次元数が削減される処理ステップを含む。例えば、参照分子(例えば、参照タンパク質)又は対応するバリアント分子(例えば、ミスセンスバリアントタンパク質)のコンフォメーション動力学を処理して、参照分子又はバリアント分子のコンフォメーションランドスケープの低次元表現を生成することを含むステップは、参照分子(例えば、参照タンパク質)及びその各バリアント(例えば、バリアントタンパク質)のそれぞれのコンフォメーションランドスケープの低次元表現を生成するために、分子又はバリアント分子(又はバリアント分子のセット)のコンフォメーション動力学を独立して処理することを含む。
【0092】
本明細書で使用される場合、「コンフォメーションランドスケープ」という用語は、本開示の参照分子(例えば、参照タンパク質)又は対応するバリアント分子(例えば、ミスセンスバリアントタンパク質)によって採用され得るコンフォメーション(例えば、構造コンフォメーション)のセットを指す。分子システム内の多数の原子が、高次元データセットを作成する。
【0093】
本明細書で使用される場合、本開示のコンフォメーション動力学(例えば、MD)に適用される「次元数」という用語は、本明細書に開示される方法に従って生成されるコンフォメーション動力学のセット(すなわち、シミュレーションされた構造コンフォメーション)に存在する次元又は自由度の数を指す。
【0094】
高次元データはしばしばまばらであり、これは、統計的有意性を必要とする任意の方法では問題となる。各特徴が可能な値の範囲を有する高次元特徴空間における有限の数のデータサンプルから「自然な状態」を学習することを伴う機械学習問題では、典型的には、値の各組み合わせにいくつかのサンプルが存在することを確実にするには膨大な量の訓練データが必要である。
【0095】
本開示の参照分子(例えば、参照タンパク質)又は対応するバリアント分子(例えば、ミスセンスバリアントタンパク質)の(例えば、MDからの)コンフォメーション動力学は、例えば、10,000~100,000の自由度(n個の非溶媒原子×三次元×fフレーム×t軌跡)を含み得る。(例えば、MDからの)コンフォメーション動力学の高次元性は、機械学習方法の有意義な適用を妨げ、結果として、システムを真の高スループットモードにスケールアップすることを妨げる。したがって、コンフォメーション空間の低次元表現が必要である。コンフォメーション空間のこれらの低次元表現は、機械学習システムを訓練するために使用されるように十分に簡素化される。
【0096】
本開示によるコンフォメーション空間の低次元表現を生成するプロセスは、2つの定義された段階(すなわち、構造的特徴量抽出及び次元削減)を含む。構造的特徴量抽出は、特徴のサブセット(例えば、骨格角度)を返すが、次元削減は、元の特徴の機能(例えば、抽出された特徴のサブセット)から新しい特徴を作成する。
【0097】
いくつかの態様では、(例えば、MDからの)コンフォメーション動力学を処理して、参照分子(例えば、参照タンパク質)又は対応するバリアント分子(例えば、ミスセンスバリアントタンパク質)のコンフォメーションランドスケープの低次元表現を生成することは、構造的特徴が、第1の次元削減ステップとして、(例えば、MDからの)コンフォメーション動力学から選択及び計算される特徴選択プロセスを含む。この特徴選択アプローチは、入力変数(特徴又は属性とも呼ばれる)のサブセットを見つけようとする。
【0098】
本明細書で使用される場合、「構造的特徴」という用語は、参照分子(例えば、参照タンパク質)又は対応するバリアント分子(例えば、ミスセンスバリアントタンパク質)の(例えば、MDからの)コンフォメーション動力学における、参照分子又はバリアント分子の特定のコンフォメーション状態を定義する又はそれに影響を与える特徴又は属性を指す。構造的特徴は、分子(例えば、タンパク質)の純粋な構造的特徴に限定されず、また、分子機能(例えば、タンパク質機能)又は熱力学に関連する特徴又は属性を含み得る。いくつかの態様では、構造的特徴は、分子の幾何学的形状(例えば、タンパク質の幾何学的形状)に関する。いくつかの態様では、タンパク質の幾何学的形状に関連する構造的特徴は、例えば、原子の位置、結合角(例えば、骨格結合角)、骨格結合長、残基間距離及び/又は配向、立体化学コンフォメーション、二次構造、三次構造などを含む。いくつかの態様では、構造的特徴は、骨格結合角度に関する。いくつかの態様では、骨格結合角度に関連する構造的特徴は、ファイ(φ)角度、プサイ(ψ)角度、オメガ(ω)角度、又はそれらの任意の組み合わせである。いくつかの態様では、構造的特徴は、側鎖chi(χ)角度を含む。いくつかの態様では、構造的特徴は、タンパク質の物理化学的特性に関する。いくつかの態様では、タンパク質の物理化学的特性に関連する構造的特徴は、例えば、表面アクセシビリティ、表面エネルギー、溶媒アクセシビリティなどを含む。いくつかの態様では、構造的特徴は、ドメインアーキテクチャ、例えば、ドメインの相対配向、又はサブドメイン、例えば、全体的な構造の運動に対して異なる局所的な動力学をとり得る突出したループ又はストランドに関連する。したがって、構造におけるサブドメインの動力学を得ることができる。
【0099】
いくつかの態様では、構造的特徴は、タンパク質/リガンド相互作用、例えば、タンパク質-タンパク質相互作用、タンパク質-イオン相互作用、タンパク質-小分子相互作用、又はタンパク質-核酸相互作用などの結合特性を指す。いくつかの態様では、構造的特徴は、例えば、補因子結合部位又は基質結合部位の形状、親和性、又は特異性を指す。いくつかの態様では、リガンドは、標的タンパク質及び対応するミスセンスバリアントタンパク質が酵素である場合、基質であり得る。いくつかの態様では、リガンドはまた、アゴニスト、アンタゴニスト、エフェクター分子、又は抗体であり得る。タンパク質とリガンドとの間の全ての原子相互作用の合計を指すエネルギー相互作用を得ることができる。
【0100】
いくつかの態様では、構造的特徴は、二乗平均平方根変動(RMSF)及び/又は二乗平均平方根誤差(RMSD)を指す。
【0101】
いくつかの態様では、参照分子(例えば、参照タンパク質)又は対応するバリアント分子(例えば、ミスセンスバリアントタンパク質)の(例えば、MDからの)コンフォメーション動力学における特徴の総数を減少させるために使用される構造的特徴は、ファイ(φ)角度、プサイ(ψ)角度、オメガ(ω)角度、残基対の距離(残基間距離)、残基変動、溶媒アクセシビリティ、重心から結合部位までの距離又はそのような結合部位に結合したリガンドまでの距離、タンパク質形状に関連する全体的な構造的特徴(例えば、異なる軸に沿った長さ)、ドメイン相対配向、結合部位相互作用、エネルギー的特徴(例えば、ファンデルワールス力、静電力、(例えば、リガンドとタンパク質との間に)発生する非結合エネルギー)、及びそれらの任意の組み合わせを含む。
【0102】
いくつかの態様では、本開示の参照分子(例えば、参照タンパク質)又は対応するバリアント分子(例えば、ミスセンスバリアントタンパク質)についてのコンフォメーション動力学(例えば、MD)からの構造的特徴の抽出は、構造的特徴の抽出の前に、コンフォメーション動力学(例えば、MD)に存在する特徴の総数に対して、構造的特徴の少なくとも約3倍、約4倍、約5倍、約6倍、約7倍、約8倍、約9倍、約10倍、約15倍、約20倍、約25倍、約30倍、約35倍、約40倍、約45倍、約50倍、約60倍、約70倍、約80倍、約90倍、又は約100倍の減少をもたらすことができる。いくつかの態様では、本開示の参照分子(例えば、参照タンパク質)又は対応するバリアント分子(例えば、ミスセンスバリアントタンパク質)の構造的特徴のコンフォメーション動力学(例えば、MD)からの抽出は、構造的特徴の抽出の前に、コンフォメーション動力学(例えば、MD)に存在する特徴の総数に対して、構造的特徴の少なくとも約2倍~約5倍、約5倍~約10倍、約10倍~約20倍、約20倍~約30倍、約30倍~約40倍、約40倍~約50倍、約50倍~約60倍、約60倍~約70倍、約70倍~約80倍、約80倍~約90倍、又は約90倍~100倍の減少をもたらすことができる。
【0103】
コンフォメーション動力学の処理は、次元削減ステップを更に含むことができる。したがって、いくつかの態様では、コンフォメーション動力学からの(例えば、MDからの)構造的特徴の抽出は、例えば、主成分分析(PCA)又はオートエンコーダを使用して行われる次元削減のステップに続くことができ、構造的特徴量抽出ステップから得られる簡素化されたコンフォメーション状態に存在する特徴の総数は、更に削減され得る(又は新しい特徴に変換され得る)。PCA又はオートエンコーダなどの方法は、データを高次元空間からより少ない次元の空間に変換する。データ変換は、PCAのように線形であり得るが、非線形の次元削減技術も多数存在する。
【0104】
主成分分析(PCA)は、データポイントの集合の主成分を計算し、それらを使用してデータの基底の変更を行うプロセスであり、時には、最初のいくつかの主成分のみを使用し、残りを無視する。時間-構造独立成分分析又はtICAと呼ばれるPCAのバリエーションは、時間次元に沿ってゆっくりと変化する成分を特定し、タンパク質のコンフォメーション運動を理解するのに有用である可能性が低いバリエーションを排除するため、シミュレーションに特に有用である。
【0105】
オートエンコーダは、教師なしの様式で効率的なデータコーディングを学習するために使用される人工ニューラルネットワークの一種である。例としては、後続の分類タスクの表現を学習するのに効果的である正則化された(スパース、ノイズ除去、及び縮小)オートエンコーダ、並びに生成モデルとしてのアプリケーションを用いる変分オートエンコーダが挙げられる。
【0106】
PCA及びオートエンコーダの場合、データの変動の重要な部分を考慮するために、出力特徴の数が選択される。
【0107】
いくつかの態様では、(例えば、MDからの)コンフォメーション動力学の次元削減は、例えば、PCA、時間-構造独立成分分析(tICA)、非負値行列因子分解(NMF)、カーネルPCA、グラフベースのカーネルPCA、線形判別分析(LDA)、一般化判別分析(GDa)、オートエンコーダ、T分布型確率的近傍埋め込み(t-SNE)、又は一様多様体の近似と投影(UMAP)を使用して実施され得る。
【0108】
いくつかの態様では、構造的特徴量の抽出及び次元削減は、例えば、PCA、LDA、NMF、又は正準相関分析(CCA)技術を使用して、縮約次元空間における特徴ベクトル上のK-NNに続く前処理ステップとして、単一のステップに組み合わせることができる。いくつかの態様では、次元削減ステップは、構造的特徴の抽出の前に、(例えば、MDからの)コンフォメーション動力学に存在する特徴の総数に対して、構造的特徴の少なくとも約3倍、約4倍、約5倍、約6倍、約7倍、約8倍、約9倍、約10倍、約15倍、約20倍、約25倍、約30倍、約35倍、約40倍、約45倍、約50倍、約60倍、約70倍、約80倍、約90倍、又は約100倍の減少をもたらす。いくつかの態様では、次元削減ステップは、構造的特徴の抽出の後に、(例えば、MDからの)コンフォメーション動力学に存在する特徴の総数に対して、構造的特徴の少なくとも3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、25倍、30倍、35倍、40倍、45倍、50倍、60倍、70倍、80倍、90倍、又は100倍の減少をもたらす。いくつかの態様では、次元削減ステップは、構造的特徴の抽出の後に、(例えば、MDからの)コンフォメーション動力学に存在する特徴の総数に対して、構造的特徴の少なくとも約3倍~約5倍、約5倍~約10倍、約10倍~約20倍、約20倍~約30倍、約30倍~約40倍、約40倍~約50倍、約50倍~約60倍、約60倍~約70倍、約70倍~約80倍、約80倍~約90倍、又は約90倍~100倍の減少をもたらす。
【0109】
図8に、適用される次元削減法に続いて使用される特徴(例えば、二面角、tlPCA;連結性、tlCA;二面角、PCA;接触、PCA;及び連結性、PCA)に従って指定される特定の特徴量化法を示す。
【0110】
I.C 準安定なコンフォメーション状態の特定
いくつかの態様では、本明細書に開示される方法は、参照分子(例えば、参照タンパク質)の低次元コンフォメーションランドスケープからコンフォメーション状態(例えば、準安定なコンフォメーション状態)を抽出して、バリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学生成(例えば、MD)にシードすることに関連する処理ステップを含む。いくつかの態様では、本明細書に開示される方法はまた、バリアント分子(例えば、バリアントタンパク質)の低次元コンフォメーションランドスケープから、更なるバリアント分子(例えば、バリアントタンパク質)のコンフォメーション動力学生成(例えば、MD)のシードまで、コンフォメーション状態(例えば、準安定なコンフォメーション状態)を抽出することに関連する処理ステップも含み得る。
【0111】
いくつかの態様では、特定のコンフォメーション状態(例えば、低次元コンフォメーションランドスケープからの準安定なコンフォメーション状態)を抽出することは、構造的類似性に従って、コンフォメーション状態をクラスタリングすることを含み、例えば、低次元コンフォメーションランドスケープにおける様々な準安定なコンフォメーション状態は、コンフォメーション状態をクラスタリングした結果である。いくつかの態様では、特定されたコンフォメーション状態の骨格原子間の平均距離は、RMSDに従って測定され、RMSDが、少なくとも約2Åである。他の態様では、異なるRMSD閾値、例えば、1Å、1.5Å、2.5Å、3Å、3.5Å、4Å、4.5Å、5Å、又は任意の中間値を使用することができる。
【0112】
参照分子(例えば、野生型タンパク質であり得る参照タンパク質)のコンフォメーションランドスケープ(例えば、MDコンフォメーションランドスケープ)から特定のコンフォメーション状態(例えば、準安定なコンフォメーション)を抽出して、バリアントのシミュレーション(例えば、MDシミュレーション)にシードすることによって、バリアントを比較するために必要な全体的なシミュレーション時間を劇的に短縮することができる。例えば、いくつかの態様では、コンフォメーション状態の集合の抽出及びこれらのコンフォメーション状態におけるバリアント分子構造のその後のシミュレーションは、シミュレーション時間の少なくとも約10倍の短縮を達成する。いくつかの態様では、コンフォメーション状態の集合の抽出及びこれらのコンフォメーション状態におけるバリアント分子構造のその後のシミュレーションは、シミュレーション時間の少なくとも約3倍、少なくとも約4倍、少なくとも約5倍、少なくとも約6倍、少なくとも約7倍、少なくとも約8倍、少なくとも約9倍、少なくとも約10倍、少なくとも約15倍、又は少なくとも約20倍の短縮を達成する。いくつかの態様では、コンフォメーション状態の集合の抽出及びこれらのコンフォメーション状態におけるバリアント分子構造のその後のシミュレーションは、シミュレーション時間の約3倍、約4倍、約5倍、約6倍、約7倍、約8倍、約9倍、約10倍、約15倍、又は約20倍のシミュレーション時間の短縮を達成する。いくつかの態様では、これらの状態におけるコンフォメーション状態の集合の抽出及びその後のバリアント分子構造のシミュレーションは、約3倍~約5倍、約4倍~約6倍、約5倍~約8倍、約6倍~約9倍、約5倍~約10倍、約10倍~約15倍、又は約15倍~約20倍のシミュレーション時間の短縮を達成する。全ての性能の改善は、バリアントの効果をシミュレーションするために代表的な準安定なコンフォメーションを使用しないワークフローに関するものである。
【0113】
参照分子(例えば、参照タンパク質)の低次元コンフォメーションランドスケープから状態をクラスタリングして、バリアント分子(例えば、バリアントタンパク質)のシミュレーションにシードすることは、例えば、k平均クラスタリング、階層クラスタリング、密度ベースのクラスタリング、DBSCAN、スペクトルクラスタリング、ガウス混合モデル、又はそれらの任意の組み合わせを使用して行うことができる。
【0114】
クラスタリングは、一般に10~100のコンフォメーション状態の範囲にある低次元コンフォメーションランドスケープから複数のコンフォメーション状態を抽出することを可能にする。いくつかの態様では、少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、少なくとも75、少なくとも80、少なくとも85、少なくとも90、少なくとも95、又は少なくとも100のコンフォメーション状態が抽出される。いくつかの態様では、約5、約10、約15、約20、約25、約30、約35、約40、約45、約50、約55、約60、約65、約70、約75、約80、約85、約90、約95、又は約100のコンフォメーション状態が抽出される。いくつかの態様では、約10~約20、約20~約30、約30~約40、約40~約50、約50~約60、約60~約70、約70~約80、約80~約90、又は約90~約100のコンフォメーション状態が選択される。
【0115】
いくつかの態様では、本明細書に開示される方法は、コンフォメーション動力学(例えば、MDシミュレーション)を生成する前に、クラスタリングされたコンフォメーション状態を優先付けることを更に含む。いくつかの態様では、クラスタリングされたコンフォメーション状態は、クラスター特性、例えば、コンフォメーションランドスケープ重心からの距離、クラスター占有率、クラスター分布統計、クラスターの構造特性、クラスターの熱力学、又はそれらの任意の組み合わせに従って優先付けられる。いくつかの態様では、クラスター化されたコンフォメーション状態の構造的特性は、結合角(例えば、φ-ψ二面角)、残基間距離、表面アクセシビリティ、ドメイン相対配向、結合部位相互作用、既知のタンパク質コンフォメーションとの構造的類似性、及びそれらの任意の組み合わせからなる群から選択される。いくつかの態様では、クラスター分布統計は、Silhouetteスコア、肘スコア、Calinski-Harabaszインデックス、Randインデックス、相互情報、均質性、完全性、V尺度、Davies-Bouldinインデックス、及びそれらの任意の組み合わせからなる群から選択される。いくつかの場合、低次元コンフォメーションランドスケープから状態を抽出することは、代表的なコンフォメーション状態(例えば、準安定なコンフォメーション状態)を抽出することを含む。「代表的なコンフォメーション状態」は、選択されたコンフォメーションクラスターのコンフォメーションの重心に対するコンフォメーションランドスケープの低次元表現において距離が最も近いタンパク質コンフォメーションを選択することを含む。
【0116】
I.D バリアント分子及びバリアント分子構造の構築
本明細書に開示される方法は、抽出された状態のバリアント分子のシミュレーションされたタンパク質コンフォメーションに少なくとも1つのバリアント(例えば、ミスセンス変異)を導入することによって、バリアント分子(例えば、バリアントタンパク質)又はそのセット、及びその対応するバリアント分子構造(例えば、バリアントタンパク質構造)を生成することを含む。例えば、対象から得られたサンプルで特定された変異は、バリアントタンパク質構造を生成するために、本明細書に開示されるMDでシミュレーションされたコンフォメーションに導入することができる。そのような変異の効果は、その後、本明細書に開示される方法に従って評価され得る。他の態様では、バリアント(例えば、変異)は、例えば、特定のドメイン、領域、機能部位(例えば、リガンド結合部位)が参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、他のバリアントを既に含むバリアントタンパク質)に変異導入される場合、機能的及び生理学的効果、並びに任意選択的に、それらの重症度に関する知識を得るために、本明細書に開示されるMDでシミュレーションされたコンフォメーションに導入される推測的なバリアントであり得る。いくつかの態様では、本開示の方法に従って生成されたバリアント分子(例えば、バリアントタンパク質)の集合は、ライブラリとして保存することができる。
【0117】
本明細書に開示される方法のいくつかの態様では、少なくとも1つのバリアント(例えば、ミスセンス変異)が、例えば、参照分子(例えば、野生型タンパク質などの参照タンパク質)に導入されるか、又はそのバリアントが、病原性バリアント(例えば、病原性変異)である。本明細書で使用される「病原性バリアント」という用語は、疾患の出現に関連する悪性バリアントを指す。いくつかの態様では、病原性バリアントは、病原性変異である。本明細書で使用される「病原性変異」という用語は、疾患の出現に関連する悪性変異を指す。これらの用語はまた、疾患に対してリスク感受性であるバリアント又は変異を指し、バリアント又は変異は、対応する疾患表現型を引き起こすことが可能であり、すなわち、疾患若しくは障害を引き起こし、かつ/又はその特定の疾患若しくは障害に対する個体の感受性若しくは素因を増加させる遺伝的変化である。しかしながら、バリアント又は変異のみが疾患又は障害を引き起こす場合に限定されない。いくつかの態様では、例えば、参照分子(例えば、野生型タンパク質などの参照タンパク質)又はそのバリアントに導入される少なくとも1つのバリアント又は変異(例えば、ミスセンス変異)は、非病原性(良性)のバリアント又は変異、すなわち、対象において疾患若しくは障害を引き起こさない又は対象を特定の疾患若しくは障害に罹患させないバリアント又は変異である。いくつかの態様では、例えば、参照分子(例えば、野生型タンパク質などの参照タンパク質)又はそのバリアントに導入される少なくとも1つのバリアント(例えば、ミスセンス変異などの変異)は、意義不明のバリアント又は変異である。すなわち、バリアントに関して利用可能な経験的データは、そのようなバリアント又は変異を病原性又は非病原性のいずれかとして分類することを可能にしない。本明細書に開示される方法の目的の1つは、そのような意義不明のバリアント又は変異を病原性又は非病原性のいずれかとして分類すること、並びに、例えば、病原性として分類された関連性が不明のバリアント若しくは変異が疾患若しくは障害を引き起こすであろう可能性、及び/又は例えば、そのような疾患若しくは障害の重症度を決定することである。
【0118】
いくつかの態様では、バリアント分子(例えば、タンパク質)又はそのセットは、医学的遺伝子試験において観察されるタンパク質ミスセンスバリアントを含む。本明細書で使用される「遺伝子検査」という用語は、個体由来のサンプル中のDNA、RNA、又はタンパク質の分析を指し、これにより、限定されないが、試料中の1つ若しくは複数の遺伝子の配列、遺伝子に関連する1つ若しくは複数の遺伝マーカー、分散、変異、多型、若しくはマイクロサテライト配列の存在若しくは不在、1つ若しくは複数のウイルス配列、ウイルス様配列、若しくは反復配列の存在、1つ若しくは複数の遺伝子にまたがるハプロタイプ、1つ若しくは複数の遺伝子のコピー数、1つ若しくは複数の遺伝子から発現されるRNA若しくはタンパク質の量若しくは特徴、ゲノム内の遺伝子の配置、染色体番号、又は染色体の完全性が決定される。いくつかの態様では、本開示は、遺伝子疾患を診断し、多因子疾患に対する個体の傾向を決定し、治療薬に対する個体の応答を予測するための医学に有用な遺伝子検査に関する。遺伝子検査は、限定されないが、ハンチントン病、嚢胞性線維症、及びフェニルケトン尿症を含む多くの遺伝性疾患について開発されている。遺伝子検査はまた、限定されないが、アテローム性動脈硬化症、心不全、脳卒中、貧血、がん、凝固障害、認知症、内分泌疾患、及び肺疾患を含む疾患を引き起こす遺伝子についても開発されている。限定されないが、高コレステロールの治療のための薬、がんの治療のための薬、高血圧を軽減する薬、及び認知症を治療する薬を含む多くの薬物の薬物動態及び薬力学的特性を予測する遺伝子検査も報告されている。ヘルスケアに対する遺伝子検査の潜在的に大きな影響にもかかわらず、遺伝子検査の利用は現在非常に限られている。これまでに、ゲノムにおける遺伝子のほんの一部のみが特徴付けられており、疾患又は療法に対するその応答を予測するバリエーションの小さなサブセットのみが報告されている。
【0119】
いくつかの態様では、本明細書に開示される方法で使用されるか、又は本明細書に開示される方法に従って組み立てられたライブラリに含まれるバリアント分子構造(例えば、バリアントタンパク質構造)又はそのセットは、骨格依存性ロータマーライブラリを使用して、インシリコで生成される。これらのバリアント分子構造をインシリコで生成するために使用することができる他の方法としては、例えば、FoldX又はRosettaが挙げられる。「ロータマー」という用語は、アミノ酸側鎖の幾何学的形状を説明するねじれ角の組み合わせを指す。
【0120】
ロータマーライブラリは、当業者に既知であり、インターネットを含む様々なソースから得ることができる。ロータマーは、低エネルギーの側鎖コンフォメーションである。ロータマーのライブラリの使用により、構造のモデリングが最も可能性の高い側鎖コンフォメーションを試みることが可能になり、時間が節約され、正確である可能性がより高い構造が生成される。
【0121】
いくつかの態様では、本明細書に開示される方法において使用されるバリアント分子構造(例えば、バリアントタンパク質構造)のインシリコ生成は、骨格依存性ロータマーライブラリにおけるバリアント位置で、バリアント分子構造(例えば、バリアントタンパク質)の既存の骨格二面角を有する側鎖コンフォメーション(ロータマー)を特定することを含む。
【0122】
いくつかの態様では、バリアント分子構造をインシリコで生成する方法は、骨格依存性ロータマーライブラリから特定されたロータマーの導入が、近くの残基との立体衝突を引き起こすかどうかを試験することを更に含む。いくつかの態様では、試験は、立体衝突を最小化するロータマーが特定されるまで実施される。いくつかの態様では、本開示のバリアント分子構造(例えば、バリアントタンパク質構造)をインシリコで生成する方法は、バリアント分子構造(例えば、バリアントタンパク質構造)の幾何学的形状を正則化し、バリアント分子構造にバリアント(例えば、ミスセンス変異)を導入することによるエネルギー的影響を低減するために、最小化及び平衡化シミュレーションを実施することを更に含む。
【0123】
I.E 予測モデリング
いくつかの態様では、本明細書に開示される方法は、臨床データを訓練ラベルとして使用して、参照分子(例えば、参照タンパク質)及びバリアント分子(例えば、バリアントタンパク質)のコンフォメーションランドスケープの低次元表現を使用して、機械学習(ML)予測モデルを訓練することを含む処理ステップを含み、予測モデルが、参照分子(例えば、参照タンパク質)に対するバリアント(例えば、タンパク質ミスセンス変異)効果を分類又はスコアリングする。したがって、いくつかの態様では、選択されるML方法の訓練セットは、MDシミュレーション関連データ、並びに他のデータセット(例えば、臨床データ)の両方を含む。
【0124】
「訓練セット」という語句は、1つ以上のモデルの適合の対象であり、モデルがそれに基づいて構築される、観察のセットを意味する。例えば、タンパク質活性が予測される予測モデルの場合、訓練セットは、典型的には、ライブラリにおける各タンパク質の活性値とともに、完全又は部分的なタンパク質配列情報を含む。場合によっては、複数の活動タイプ(例えば、速度定数データ及び熱安定性データ)が訓練セットで一緒に提供される。タンパク質配列、タンパク質構造、タンパク質動力学、又はタンパク質活性に関連するデータに加えて、訓練セットは、例えば、臨床データを含み得る。
【0125】
いくつかの態様では、訓練セットにおける訓練ラベルとして使用される臨床データは、標的タンパク質又はそのバリアントに関連する疾患又は状態、症状、後遺症を発症している又は発症する危険性がある患者、疾患又は状態の治療、治療の転帰などに関連する任意のパラメータを含む。例えば、臨床データは、訓練ラベルとして使用することができ、これには、例えば、バイオマーカー状態(例えば、特定のバイオマーカーの有無又はその発現レベル、例えば、RNA若しくはタンパク質の発現レベル)、バイオメトリックデータ、ライフスタイル関連データ、治療に対する応答、疾患若しくは状態の症状、タンパク質発現データ、投与される治療の種類、投与量、投与量レジメン、投与経路、併用療法の有無、療法に対する応答、年齢、体重、性別、民族性、又はそれらの任意の組み合わせが含まれる。いくつかの態様では、訓練ラベルとして使用することができるデータは、例えば、NCBI ClinVarデータベース提出物、INVITAE(商標)臨床解釈、他の実験モデル又は計算モデルからのデータを含む。
【0126】
いくつかの態様では、訓練ラベルは、個々に特定された臨床データパラメータ、例えば、いくつかのタンパク質発現値、バイオメトリックパラメータなどの組み合わせから得られ、指標(例えば、BMI)又はスコア(例えば、2つのタンパク質の発現レベル間の比率)に組み合わせることができる。
【0127】
いくつかの態様では、参照分子(例えば、参照タンパク質)に対するバリアント(例えば、ミスセンス変異)の効果の分類は、ML予測モデルの出力に基づいて、予測される病原性確率の計算を含む。いくつかの態様では、確率は、ML予測モデルから信頼スコアとして計算される。いくつかの態様では、本明細書に開示される方法のML出力は、参照分子(例えば、参照タンパク質)と比較して、特異的な表現型破壊を予測し、破壊の相対重症度をランク付けすることができる。
【0128】
概して、本明細書に開示されるコンピュータ実装方法は、予測病原性スコアを生成し、これは、バリアントが病原性であるとモデルが予測する可能性の高さの信頼スコアである。いくつかの態様では、性能閾値が病原性スコアに適用されて、特定のバリアントが病原性又は良性である証拠を割り当てるかどうかを決定する。
【0129】
本開示の文脈において、予測モデルという用語は、同じ又は異なるクラスに属することができる1つ以上の予測モデル又は予測モデルの組み合わせを含むことが理解されるべきである。例えば、予測モデルは、異なるML技術を使用して、又は訓練ラベルとして臨床データの異なるセットを使用して生成される。予測モデルという用語は、特定のモデルの出力を説明するために使用される。例えば、表現型破壊の可能性及び/又は重症度を予測するML予測モデルに加えて、他のML予測モデルは、生成されたバリアントの特定の薬物への結合、候補療法、特定の療法による治療に関連する転帰、又はそれらの任意の組み合わせを予測し得る。
【0130】
いくつかの態様では、ML予測モデルを生成する前の訓練セットの前処理は、特徴選択、及び任意選択的に特徴正規化を含む。いくつかの態様では、MLモデルは、ハイパーパラメータチューニングを使用して訓練される。MLでは、ハイパーパラメータ最適化又はチューニングは、学習アルゴリズムの最適なハイパーパラメータのセットを選択する問題である。ハイパーパラメータは、その値が学習プロセスを制御するために使用されるパラメータである。対照的に、他のパラメータ(典型的には、ノード加重)の値が学習される。同じ種類のML予測モデルは、異なるデータパターンを一般化するために異なる制約、重み、又は学習率が必要になる場合がある。これらの尺度は、ハイパーパラメータと呼ばれ、モデルがML問題を最適に解決することができるように調整する必要がある。ハイパーパラメータの最適化は、所与の独立したデータに対して事前に定義された損失関数を最小化する最適なモデルを生成するハイパーパラメータのタプルを見つける。目的関数は、ハイパーパラメータのタプルを受け取り、関連する損失を返す。交差検証は、この汎化性能を推定するためにしばしば使用される。
【0131】
いくつかの態様では、本明細書に開示されるML予測モデルは、ロジスティック回帰、ランダムフォレスト、人工ニューラルネットワーク(ANN)、サポートベクターマシン(SVM)、XGBoost(XGB;速度及び性能に対して設計された勾配ブースティング決定木の実装)、Glmnet(ペナルティ付き最大尤度を介して一般化線形モデルに適合するパッケージ)、cforest(ランダムフォレストの実装及び基本学習器として条件付き推論木を利用するバギングアンサンブルアルゴリズム)、機械学習のための分類及び回帰木(CART)、Treebag(バギング、すなわち、ブートストラップ集約、訓練データの分離されたサブセットから複数のモデルを構築する回帰及び分類問題のモデル精度を向上させるアルゴリズム、並びに最終集約モデルを構築するアルゴリズム)、K近傍(kNN)、又はそれらの組み合わせからなる群から選択される機械学習技術の適用によって得られる。特定の態様では、本明細書に開示されるML予測モデルは、少なくとも1つのANN(例えば、1、2、3、4、又は5つのANN)の適用によって得られる。
【0132】
I.E.i ロジスティック回帰ML予測モデル
いくつかの態様では、本開示の機械学習(ML)予測モデルは、ロジスティック回帰を使用して生成される。ロジスティック回帰は、小さいデータセットに対する最良の予測因子のうちの1つとみなされることが多い。しかしながら、木ベースのモデル(例えば、ランダムフォレスト、ExtraTrees)及びANNは、特徴間の潜在相互作用を明らかにすることができる。しかし、相互作用がほとんどない場合、ロジスティック回帰及びより複雑なモデルは、同様の性能を有する。本開示のいくつかの態様では、ML予測モデルは、ロジスティック回帰を使用して生成される。一態様では、ロジスティック回帰モデルについて、以下のハイパーパラメータ:停止基準公差、ペナルティ、解決アルゴリズム(例えば、LIBLINEAR、確率的平均勾配)が調整された。
【0133】
I.E.ii ランダムフォレストML予測モデル
いくつかの態様では、本開示の機械学習(ML)予測モデルは、ランダムフォレスト(RF)を使用して生成される。RF又はランダム決定フォレストは、訓練時に多数の決定木を構築することによって動作する、分類、回帰、及び他のタスクのためのアンサンブル学習方法である。分類タスクの場合、RFの出力は、ほとんどの木によって選択されるクラスである。RFは、訓練セットに過剰適合させる決定木の癖に合わせて調整する。RFは、一般的に、決定木よりも優れている。RFアルゴリズムは、ブートストラップサンプルを使用して、個々の決定木を生成する。木は、各ノードで独立変数のランダムなサブサンプルを選択し、最良の結果を生み出す変数を選択することによって成長する。
【0134】
特定の一態様では、予測モデルは、ロジスティック回帰及びランダムフォレストの両方の間で(クラス加重F1スコアをチューニングメトリックとして使用して)検証性能を最適化することが可能である。ランダムフォレストの場合、以下のハイパーパラメータ:推定器の数、分割基準、最大の木の深さ、木を分割する最小サンプル、葉ノードにおける最小サンプル、及び特徴の最大数が調整された。
【0135】
I.E.iii 人工ニューラルネットワークML予測モデル
いくつかの態様では、本開示の機械学習(ML)予測モデルは、人工ニューラルネットワーク(ANN)を使用して生成される。「ニューラルネットワーク」は、計算への接続アプローチを使用して情報を処理する処理要素又は「ニューロン」の相互接続されたグループを含むモデルである。ニューラルネットワークは、入力値と出力値との間の複雑な関係をモデル化するため、又はデータパターンを見つけるために使用される。ほとんどのニューラルネットワークは、非線形、分散、及び並列の様式でデータを処理する。ほとんどの場合、ニューラルネットワークは、学習段階でその構造を変化させる適応システムである。機能は、様々なユニットが割り当てられているサブタスクの明示的な説明を使用するのではなく、要素を処理することによって集合的かつ並行して実行される。
【0136】
ニューラルネットワークは、Duda et al.,2001,Pattern Classification,Second Edition,John Wiley & Sons,Inc.,New York、及びHastie et al.,2001に記載されている(それらの全体が参照により本明細書に組み込まれる)。いくつかの態様では、本開示のニューラルネットワーク、例えば、逆伝播ニューラルネットワーク(例えば、Abdi,1994,“A neural network primer”,J.Biol System.2,247-283を参照されたい(その全体が参照により本明細書に組み込まれる))は、入力層、隠れ層、及び出力層を含み得る。いくつかの態様では、ニューラルネットワークは、EasyNN-Plusバージョン4.0gソフトウェアパッケージ(Neural Planner Software Inc.)、scikit-learn(scikit-learn.org)、PyTorch(github.com/pytorch/pytorch)、TensorFlow(github/tensorflow/tensorflow)、Keras、Torch、Flux、Caffe、CNTK(Microsoft Cognitive Toolkit)、又は当該技術分野で既知の任意の他の機械学習パッケージ又はプログラムを使用して実装され得る。
【0137】
いくつかの態様では、ML予測モデルは、ANNに由来するモデルを含む。いくつかの態様では、ANNは、フィードフォワードニューラルネットワークである。いくつかの態様では、ANNは、単純パーセプトロンネットワークである。
【0138】
いくつかの態様では、ANNは多層パーセプトロン(MLP)である。いくつかの態様では、活性化関数は、シグモイド関数である。いくつかの態様では、活性化関数は、正規化線形ユニット(ReLU)又はそのバリアント(例えば、ノイジーReLU、リーキーReLU、パラメトリックReLU、又は指数LUである。いくつかの態様では、MLPは、非線形活性化ノードの3つ以上の層(1つ以上の隠れ層を有する入力層及び出力層)を含む。その複数の層及び非線形活性化は、MLPを線形パーセプトロンと区別する。これは、線形分離可能ではないデータを区別することができる。MLPは完全に接続されているため、1つの層の各ノードは、次の層の全てのノードに特定の重みw<-i><-j>で接続する。学習は、予想される結果と比較した出力の誤差の量に基づいて、データの各部分が処理された後、接続重みを変更することによって、パーセプトロンで行われる。これは、教師あり学習の一例であり、逆伝播によって行われる。
【0139】
いくつかの態様では、MLPは、3つの層を有する。他の態様では、MLPは、4つ以上の層を有する。いくつかの態様では、MLPは、単一の隠れ層を有する。他の態様では、MLPは、複数の隠れ層を有する。
【0140】
いくつかの態様では、入力層は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、又は150個のニューロンを含む。いくつかの態様では、入力層は、70~100個のニューロンを含む。いくつかの態様では、入力層は、70~80個のニューロンを含む。いくつかの態様では、入力層は、80~90個のニューロンを含む。いくつかの態様では、入力層は、90~100個のニューロンを含む。いくつかの態様では、入力層は、70~75個のニューロンを含む。いくつかの態様では、入力層は、75~80個のニューロンを含む。いくつかの態様では、入力層は、80~85個のニューロンを含む。いくつかの態様では、入力層は、85~90個のニューロンを含む。いくつかの態様では、入力層は、90~95個のニューロンを含む。いくつかの態様では、入力層は、95~100個のニューロンを含む。いくつかの態様では、入力層は、少なくとも約1個~少なくとも約5個、少なくとも約5個~少なくとも約10個、少なくとも約10個~少なくとも約15個、少なくとも約15個~少なくとも約20個、少なくとも約20個~少なくとも約25個、少なくとも約25個~少なくとも約30個、少なくとも約30個~少なくとも約35個、少なくとも約35個~少なくとも約40個、少なくとも約40個~少なくとも約45個、少なくとも約45個~少なくとも約50個、少なくとも約50個~少なくとも約55個、少なくとも約55個~少なくとも約60個、少なくとも約60個~少なくとも約65個、少なくとも約65個~少なくとも約70個、少なくとも約70個~少なくとも約75個、少なくとも約75個~少なくとも約80個、少なくとも約80個~少なくとも約85個、少なくとも約85個~少なくとも約90個、少なくとも約90個~少なくとも約95個、少なくとも約95個~少なくとも約100個、少なくとも約100個~少なくとも約105個、少なくとも約105個~少なくとも約110個、少なくとも約110個~少なくとも約115個、少なくとも約115個~少なくとも約120個、少なくとも約120個~少なくとも約125個、少なくとも約125個~少なくとも約130個、少なくとも約130個~少なくとも約135個、少なくとも約135個~少なくとも約140個、少なくとも約140個~少なくとも約145個、又は少なくとも約145個~少なくとも約150個のニューロンを含む。いくつかの態様では、入力層は、少なくとも約1個~少なくとも約10個、少なくとも約10個~少なくとも約20個、少なくとも約20個~少なくとも約30個、少なくとも約30個~少なくとも約40個、少なくとも約40個~少なくとも約50個、少なくとも約50個~少なくとも約60個、少なくとも約60個~少なくとも約70個、少なくとも約70個~少なくとも約80個、少なくとも約80個~少なくとも約90個、少なくとも約90個~少なくとも約100個、少なくとも約100個~少なくとも約110個、少なくとも約110個~少なくとも約120個、少なくとも約120個~少なくとも約130個、少なくとも約130個~少なくとも約140個、又は少なくとも約140個~少なくとも約150個のニューロンを含む。いくつかの態様では、入力層は、少なくとも約1個~少なくとも約20個、少なくとも約20個~少なくとも約40個、少なくとも約40個~少なくとも約60個、少なくとも約60個~少なくとも約80個、少なくとも約80個~少なくとも約100個、少なくとも約100個~少なくとも約120個、少なくとも約120個~少なくとも約140個、少なくとも約10個~少なくとも約30個、少なくとも約30個~少なくとも約50個、少なくとも約50個~少なくとも約70個、少なくとも約70個~少なくとも約90個、少なくとも約90個~少なくとも約110個、少なくとも約110個~少なくとも約130、又は少なくとも約130個~少なくとも約150個のニューロンを含む。いくつかの態様では、入力層は、約1個超、約5個超、約10個超、約15個超、約20個超、約25個超、約30個超、約35個超、約40個超、約45個超、約50個超、約55個超、約60個超、約65個超、約70個超、約75個超、約80個超、約85個超、約90個超、約95個超、約100個超、約105個超、約110個超、約115個超、約120個超、約125個超、約130個超、約135個超、約140個超、約145個超、又は約150個超のニューロンを含む。いくつかの態様では、入力層は、約1個未満、約5個未満、約10個未満、約15個未満、約20個未満、約25個未満、約30個未満、約35個未満、約40個未満、約45個未満、約50個未満、約55個未満、約60個未満、約65個未満、約70個未満、約75個未満、約80個未満、約85個未満、約90個未満、約95個未満、約100個未満、約105個未満、約110個未満、約115個未満、約120個未満、約125個未満、約130個未満、約135個未満、約140個未満、約145個未満、又は約150個未満のニューロンを含む。いくつかの態様では、重みは、入力層におけるニューロンの各々の入力に適用される。いくつかの態様では、ANNは、単一の隠れ層を含む。いくつかの態様では、ANNは、1、2、3、4、5、6、7、8、9、又は10個の隠れ層を含む。いくつかの態様では、単一の隠れ層は、1、2、3、4、5、6、7、8、9、又は10個のニューロンを含む。いくつかの実施形態では、単一の隠れ層は、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、又は少なくとも10個のニューロンを含む。いくつかの態様では、単一の隠れ層は、10個未満、9個未満、8個未満、7個未満、6個未満、5個未満、4個未満、又は3個未満のニューロンを含む。いくつかの態様では、単一の隠れ層は、2つのニューロンを含む。いくつかの態様では、単一の隠れ層は、3つのニューロンを含む。いくつかの態様では、単一の隠れ層は、4つのニューロンを含む。いくつかの態様では、単一の隠れ層は、5つのニューロンを含む。いくつかの態様では、バイアスは、隠れ層におけるニューロンに適用される。いくつかの態様では、出力層の分類は、バイナリである。いくつかの態様では、出力層の分類は、予測された出力クラス(例えば、病理学的対非病理学的バリアント)にわたる確率分布に正規化され、成分は、それらが確率として解釈され得るように、1に加算されるであろう。いくつかの態様では、n個の表現型クラスへの出力層値の分類は、ロジスティック回帰関数を適用することによってサポートされる。いくつかの態様では、n個の表現型クラスへの出力層値の分類は、ロジスティック回帰予測モデル(例えば、Softmax関数)を適用することによってサポートされる。Softmaxは、1.0に加算される小数の確率を、各クラスに割り当てる。いくつかの態様では、Softmax関数などのロジスティック回帰予測モデルの使用は、訓練がより迅速に収束するのを助ける。いくつかの態様では、Softmax関数を含むロジスティック回帰予測モデルは、出力層の直前のニューラルネットワーク層を通して実装される。いくつかの態様では、出力層の直前のそのようなニューラルネットワーク層は、出力層と同じ数のノードを有する。いくつかの態様では、様々なカットオフは、使用される特定のデータセットに応じて、ロジスティック回帰予測モデル(例えば、Softmax関数)の結果に適用される(例えば、特定のタイプの病理学的表現型、又は特定の病理学的表現型の特定の重症度を選択するために適用されるカットオフを参照されたい)。したがって、異なるセットのカットオフを適用することで、ミスセンスバリアントの表現型への影響をバイナリ様式(例えば、病原性対非病原性)だけでなく、例えば、重症度に従って、ミスセンスバリアントの表現型への影響を分類又は層別化することができる。本開示のいくつかの態様では、ANNは、少なくとも1つの隠れ層を有する独立した状態NNを有する多層パーセプトロンであり、次いで、各状態NNごとのノード数に等しいノード数を有する組み合わされたNNに統合され、少なくとも1つの隠れ層及び最後のSoftmax出力層を有する。多層パーセプトロンは、ReLU又はtanh活性化、SGD又はAdam最適化、NLL、ヒンジ又はクロスエントロピー損失関数、及びドロップアウト層を使用して、過剰適合を防ぐことができる。
【0141】
いくつかの態様では、結果として得られるML予測モデルの品質が評価される。したがって、本開示の一態様では、各予測モデルは、当業者に既知の方法を使用して、訓練集団の各バリアント分子(例えば、バリアントタンパク質又はバリアント遺伝子)の表現型への影響を適切に特徴付ける能力について評価される。例えば、標準的な統計的方法を使用して、交差検証、一つ抜き交差検証(LOOCV)、N分割交差検証、又はジャックナイフ分析を使用して予測モデルを評価することができる。別の態様では、各予測モデルは、予測モデルを生成するために使用されなかったバリアント分子(例えば、バリアントタンパク質又はバリアント遺伝子)を適切に特徴付ける能力について評価される。いくつかの態様では、1つのデータセットを使用して予測モデルを訓練し、別の異なるデータセット上で予測モデルを評価することができる。一態様では、訓練セットの各バリアント分子(例えば、バリアントタンパク質又はバリアント遺伝子)を適切に特徴付ける能力について予測モデルを評価するために使用される方法は、予測モデルの感度(TPF、真陽性率)及び特異性(FPF、偽陽性率)を評価する方法である。一態様では、予測モデルを試験するために使用される方法は、受信者動作特性(「ROC」)であり、これは、生成される予測モデル(例えば、ANNの適用から導出される予測モデル)の結果の感度及び特異性の両方を評価するためのいくつかのパラメータを提供する。
【0142】
いくつかの態様では、訓練集団の各バリアント分子(例えば、バリアントタンパク質又はバリアント遺伝子)を適切に特徴付ける能力について予測モデルを評価するために使用されるメトリックは、分類精度(ACC)、受信者動作特性曲線下面積(AUC ROC)、感度(真陽性分画、TPF)、特異性(真陰性分画、TNF)、陽性的中率(PPV)、陰性的中率(NPV)、又はそれらの任意の組み合わせを含む。特定の一態様では、訓練集団の各バリアント分子(例えば、バリアントタンパク質又はバリアント遺伝子)を適切に特徴付ける能力について予測モデルを評価するために使用されるメトリックは、分類精度(ACC)、受信者動作特性曲線下面積(AUC ROC)、感度(真陽性率、TPF)、特異性(真陰性率、TNF)、陽性的中率(PPV)、及び陰性的中率(NPV)である。
【0143】
II.臨床、診断、及び薬物設計用途
いくつかの態様では、本明細書に開示されるバリアント(例えば、変異)の表現型への影響を決定するための計算方法は、(i)対象からの試料を取得及び処理して、参照分子(例えば、参照タンパク質)例えば、組織試料を得ることによって、参照分子(例えば、参照タンパク質)の任意のバリアント(例えば、ミスセンスバリアント)の存在を決定すること(例えば、組織試料を取得し、組織試料を処理して、RNA若しくはDNAを取得し、例えば、NGS法を使用して、RNA若しくはDNAを配列決定すること)、並びに/又は(ii)治療計画の策定すること(これには、例えば、対象への療法若しくは治療の投与が含まれ得る)、を更に含み得る。
【0144】
本明細書で使用される場合、「療法」及び「治療用」という用語は、予防(prophylaxis)及び予防(prophylactic)を含み、疾患又は障害に関連する症状の予防及び改善、疾患又は障害の進行の阻害又は遅延、並びに疾患又は障害の治療を包含する。
【0145】
本明細書で使用される「治療する」、「治療すること」、及び「治療」という用語は、疾患に関連する症状、合併症、状態、又は生化学的徴候の進行、発症、重症度、又は再発を、逆転、緩和、改善、阻害若しくは減速、又は予防し、全体的な生存率を向上させることを目的とした、対象に対して行われる介入若しくはプロセス、又は対象への活性剤の投与のいずれかのタイプを指す。治療は、疾患を有する対象又は疾患を有しない対象(例えば、予防のため)の治療であり得る。本明細書で使用される場合、「治療する」、「治療すること」、及び「治療」という用語は、有効用量又は有効投与量の投与を指す。
【0146】
本明細書で使用される場合、「疾患」という用語は、例えば、疾患若しくは疾患状態、疾患の素因若しくは感受性、又は異常な薬物応答を含む、関心のある任意の表現型又は表現型形質を意味する。疾患状態の例示的及び非限定的な例としては、がん、高コレステロールレベル、うっ血性心不全、高血圧、糖尿病、グルコース不耐症、うつ病、不安、感染症、中毒状態、薬物療法の副作用、薬物療法の非有効性、アルコール依存症、中毒、外傷などが挙げられる。一般に、疾患は、特定の原因及び特徴的な症状を有する体内の特定の特徴的なプロセスである。本明細書で使用される場合、「障害」という用語は、身体の正常な機能の不規則性、障害、又は中断を指す。
【0147】
「対象」とは、概して、分析のために利用可能な、関連する生物体、並びに配列情報、及び任意選択的に表現型情報を意味する。本明細書で使用される場合、「対象」という用語は、任意のヒト又は非ヒト動物を含む。本明細書では、対象及び患者という用語は、互換的に使用される。「非ヒト動物」という用語は、イヌ、ネコ、ウマ、ウシ、ブタ、イノシシ、ヒツジ、ヤギ、バッファロー、バイソン、ラマ、シカ、エルク、及び他の大型動物、並びに仔子ウシ及び仔ヒツジを含むそれらの幼若動物、並びにマウス、ラット、ウサギ、モルモット、サルなどの霊長類、及び他の実験動物を含むが、これらに限定されない。動物の中では、哺乳動物が好ましく、最も好ましくは、家庭のペット、競走馬、及びヒトの消費のための食品を直接的に(例えば、肉)又は間接的に(例えば、乳)生産するために使用される動物などの貴重で価値のある動物であるが、実験動物もまた含まれる。特定の態様では、対象は、ヒトである。したがって、本開示は、臨床用途、獣医学的用途、及び研究用途に適用可能である。
【0148】
例えば、対象からのバリアント分子(例えば、バリアント遺伝子)で特定されたバリアント(例えば、ミスセンス変異)を入力として使用して、バリアント分子構造(バリアントタンパク質構造)をインシリコで生成することができる。これは、例えば、変異の表現型への影響を決定すること、ライブラリに組み込むためにMDシミュレーション構造を生成すること、若しくは将来の分析のために保存すること、ML予測モデルを改善するためにML訓練セットを拡張すること、又はそれらの任意の組み合わせに使用することができる。
【0149】
いくつかの態様では、参照分子(例えば、参照タンパク質)のバリアントを特定するために使用される遺伝子検査のための試料は、例えば、医療提供者(例えば、医師)又は医療給付提供者によって要求される。いくつかの態様では、遺伝子検査のための試料は、同じ又は異なる医療提供者(例えば、看護師、病院)又は臨床検査室によって取得及び/又は処理され得、処理後、その結果は、元の医療提供者又は更に別の医療提供者、医療給付提供者、又は対象から得られたバリアント関連情報の計算分析を実施する施設(例えば、本明細書に開示されるワークフローの一部又は全体を実施する)に転送され得る。本明細書に開示される方法からの結果に基づいて、治療を投与するかどうかに関する決定を行うことができる。
【0150】
いくつかの態様では、「投与すること」という用語はまた、療法を開始すること、療法を中止若しくは中断すること、療法を一時的に中断すること、又は療法を修正すること(例えば、投与量又は用量の頻度を増加すること、又は併用療法で複数の治療剤のうちの1つを追加すること)を含み得る。
【0151】
本明細書で使用される場合、「医療提供者」という用語は、生きている対象、例えば、ヒト患者と直接相互作用し、投与する個人又は機関を指す。ヘルスケア提供者の非限定的な例としては、医師、看護師、技術者、セラピスト、薬剤師、カウンセラー、代替医療従事者、医療施設、医師事務所、病院、救急治療室、診療所、緊急ケアセンター、代替医療診療所/施設、並びに一般的及び/又は専門的な治療、評価、維持、療法、投薬、及び/又は患者の健康状態の全て又は一部に関連するアドバイスを提供する任意の他のエンティティが挙げられ、一般的な医療、専門的な医療、外科、及び/又は任意の他のタイプの治療、評価、維持、療法、投薬、及び/又はアドバイスが含まれるが、これらに限定されない。
【0152】
本明細書で使用される場合、「臨床検査室」という用語は、生きている対象、例えば、ヒトに由来する材料の検査又は処理のための施設を指す。処理の非限定的な例としては、例えば、生きている対象、例えば、ヒトの任意の疾患若しくは障害の診断、予防、若しくは治療、又は健康の評価のための情報の提供を目的とする、人体に由来する材料の生物学的、生化学的、血清学的、化学的、免疫血液学的、血液学的、生物物理学的、細胞学的、病理学的、遺伝的な検査、又は他の検査が挙げられる。これらの検査はまた、試料を採取する又はそうでなければ取得する手順、生きている対象(例えば、ヒト)の体内の様々な物質又は生きている対象(例えば、ヒト)の身体から得られた試料中の様々な物質を調製、決定、測定する、又はそうでなければそれらの有無を説明する手順も含み得る。
【0153】
本明細書で使用される場合、「医療給付提供者」という用語は、1つ以上の医療給付、給付プラン、健康保険、及び/又は医療費勘定プログラムへの患者のアクセスを提示する、提供する、それらの全体若しくは一部を支払う、又はそうでなければそれらに関連している、個々の当事者、組織、又はグループを包含する。
【0154】
医療提供者は、試料を取得し、試料を処理し、試料を提出し、試料を受け取り、試料を移送し、試料を分析若しくは測定し、試料を定量化し、試料を分析/測定/定量化した後に得られた結果を提供し、試料を分析/測定/定量化した後に得られた結果を受け取り、1つ以上の試料を分析/測定/定量化した後に得られた結果を比較/スコアリングし、1つ以上の試料からの比較/スコアを提供し、1つ以上の試料からの比較/スコアを取得し、療法を投与し、療法の投与を開始し、療法の投与を停止し、療法の投与を継続し、療法の投与を一時的に中断し、投与された治療剤の量を増加させ、投与された治療剤の量を減少させ、治療剤の量の投与を継続し、治療剤の投与頻度を増加させ、治療剤の投与頻度を減少させ、治療剤の同じ投与頻度を維持し、療法若しくは治療剤を少なくとも別の療法若しくは治療剤と置き換え、療法若しくは治療剤を少なくとも別の療法若しくは追加の治療剤と組み合わせる。
【0155】
いくつかの態様では、医療給付提供者は、例えば、試料の採取、試料の処理、試料の提出、試料の受領、試料の移転、試料の分析若しくは測定、試料の定量化、試料の分析/測定/定量化後に得られた結果の提供、試料の分析/測定/定量化後に得られた結果の移転、1つ以上の試料の分析/測定/定量化後に得られた結果の比較/スコアリング、1つ以上の試料からの比較/スコアの移転、療法若しくは治療剤の投与、療法若しくは治療剤の投与の開始、治療又は治療薬の投与の中止、療法若しくは治療剤の投与の継続、療法若しくは治療剤の投与の一時的な中断、投与された治療剤の量の増加、投与される治療剤の量の減少、治療剤の量の投与の継続、治療剤の投与頻度の増加、治療剤の投与頻度の減少、治療剤の同じ投薬頻度の維持、療法若しくは治療剤の少なくとも別の療法若しくは治療剤による置き換え、又は療法若しくは治療剤と少なくとも別の療法若しくは追加の治療剤との組み合わせ、を承認又は拒否することができる。
【0156】
更に、医療給付提供者は、例えば、療法の処方の承認又は拒否、療法の補償の承認又は拒否、治療費の払い戻しの承認又は拒否、療法の適格性の決定又は拒否を行うことができる。
【0157】
いくつかの態様では、臨床検査室は、例えば、試料の採取又は取得、試料の処理、試料の提出、試料の受け取り、試料の移送、試料の分析若しくは測定、試料の定量化、試料の分析/測定/定量化後に得られた結果の提供、試料の分析/測定/定量化後に得られた結果の受け取り、1つ以上の試料の分析/測定/定量化後に得られた結果の比較/スコアリング、1つ以上の試料からの比較/スコアの提供、1つ以上の試料からの比較/スコアの取得、又は他の関連する活動を行うことができる。
【0158】
本明細書に開示される方法、システム、有形計算可能可読デバイスなどを使用して、バリアント分子(例えば、バリアントタンパク質)におけるバリアント(例えば、タンパク質ミスセンス変異)を、例えば、病原性又は非病原性として分類することができ、次に、そのような分類を使用して、(i)患者の治療、(ii)治療のための患者の選択、(iii)治療の開始、(iv)治療の中止、(v)治療の中断、(vi)治療の修正、又は(vii)それらの任意の組み合わせを行うことができる。
【0159】
本開示は、(i)患者の治療、(ii)治療のための患者の選択、(iii)治療の開始、(iv)治療の中止、(v)治療の中断、(vi)治療の修正、又は(vii)それらの任意の組み合わせを行う方法を提供し、本明細書に開示される方法、システム、有形計算可能可読デバイスなどを適用することを含む。
【0160】
本開示はまた、特定の療法で対象を治療するかどうかを決定する方法も提供し、本明細書に開示される方法、システム、有形計算可能可読デバイスなどを適用することを含む。例えば、バリアント分子(例えば、バリアントタンパク質)が病原性であり、特定の症状の発現をもたらす可能性があることを決定することは、そのような症状を治療又は改善するであろう特定の療法を選択するために使用することができる。
【0161】
本開示はまた、個別化医療治療を提供し、これは、(i)対象における特定のバリアント分子(例えば、バリアントタンパク質)を特定することと、(ii)本明細書に開示される方法を使用して、例えば、バリアント分子(例えば、ミスセンスバリアントタンパク質などのバリアントタンパク質)の表現型への影響を診断及び/又は予測するためのML予測モデルを使用して、特定のバリアント分子(例えば、バリアントタンパク質)の表現型への影響を決定することであって、使用されるワークフローが、そのようなML予測モデルを生成するか、又はライブラリ(例えば、事前に計算されたMDモデルのライブラリ、低次元コンフォメーションランドスケープのライブラリ、低次元状態のライブラリ、又はML予測モデルのライブラリ)を関連付ける、決定することと、(iii)バリアント分子に関連する疾患又は状態を治療、予防、又は改善するための治療を選択することと、を含む。
【0162】
一態様では、本明細書に開示される方法は、対象におけるバリアント分子(例えば、バリアントタンパク質)の、例えば、本開示の予測モデルによる表現型への影響の分類又は予測に少なくとも部分的に基づいて、鑑別診断であり得る診断を行うことを含み、バリアント分子(例えば、バリアントタンパク質)が、本明細書に開示されるML予測モデルの適用によって分類されている。この診断は、患者の医療記録に記録され得る。医療記録は、紙の形式であり得、及び/又はコンピュータ可読媒体に維持され得る。医療記録は、検査室、診療所、病院、医療維持組織、保険会社、及び/又は個人医療記録ウェブサイトによって維持され得る。
【0163】
疾患又は障害を有するか、又はそれを有するリスクがある患者又は患者クラスの治療方針を診断及び/又は示唆、選択、指定、推奨、又はそうでなければ決定するための当該技術分野で既知の要因は、例えば、参照分子又はバリアント分子の発現の測定(例えば、参照又はバリアントタンパク質のRNA又はタンパク質の発現レベル)と組み合わせて、並びに病原性分類、予測モデル、又は本明細書に開示される方法からの他の出力と組み合わせて用いることができる。
【0164】
本開示はまた、バリアント分子(例えば、バリアントタンパク質)についての事前に計算されたバリアント分子構造(例えば、バリアントタンパク質構造)又は事前に計算された病原性スコアのポートフォリオを提供する。そのようなポートフォリオは、本明細書に開示される方法を使用して生成され得る。
【0165】
いくつかの態様では、本明細書に開示されるML予測モデルの適用に基づく診断は、カード、着用物品、及び/又は無線周波数識別(RFID)タグなどの医療警告物品上又はその中に記録され得る。本明細書で使用される場合、「着用物品」という用語は、タグ、ブレスレット、ネックレス、又はアームバンドを含むがこれらに限定されない、対象の身体に着用することができる任意の物品を指す。
【0166】
いくつかの態様では、本明細書に開示される方法、例えば、バリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルを生成するための方法、そのようなML予測モデルを生成するために使用されるワークフロー、及び/又は関連するライブラリ(例えば、事前に計算されたコンフォメーション動力学(例えば、MD)モデルのライブラリ、低次元コンフォメーションランドスケープのライブラリ、低次元状態のライブラリ、又はML予測モデルのライブラリ)を使用して、治療剤を設計又は選択して、参照分子(例えば、参照タンパク質)又はそのバリアントに関連する疾患又は状態を治療、予防、又は改善することができる。例えば、参照分子又はバリアント分子の事前に計算されたMDシミュレーション構造は、ドッキングプログラムによって、参照分子又はバリアント分子と最適に相互作用し得る新規又は既存の薬物を特定するために使用され得る。
【0167】
いくつかの態様では、本明細書に開示されているように事前に計算されたバリアント分子(例えば、事前に計算されたタンパク質構造)のポートフォリオ、バリアント分子の事前に計算された病原性スコア、生成されたモデル又はモデルのライブラリを使用して、臨床試験のための患者を選択することができる。
【0168】
III.参照分子及びバリアント分子並びに適応症
本明細書に記載の方法は、様々な疾患(例えば、がん、神経変性疾患、及び遺伝性疾患)を予測、診断、及び治療するための情報を提供するために、ミスセンスバリアントタンパク質とともに使用することができる。がんの例としては、乳がん、卵巣がん、肺がん、脳がん、白血病、前立腺がん、及び膵臓がんが挙げられる。神経変性疾患の例としては、アルツハイマー病、パーキンソン病、及びハンチントン病が挙げられる。遺伝性疾患には、単一の遺伝子の変異(一遺伝子疾患)若しくは複数の遺伝子の変異(多遺伝子疾患)、変異及び環境要因の組み合わせ、又は染色体への損傷(染色体全体の数若しくは構造の変化)によって引き起こされる、疾患及び障害が含まれる。一遺伝子疾患では、変異は、一方又は両方の染色体に存在し得る。一遺伝子疾患の例としては、マルファン症候群、テイ・サックス病、鎌状赤血球貧血、嚢胞性線維症、及び多発性嚢胞腎疾患が挙げられる。多遺伝子疾患は、複数の遺伝子における小さな遺伝的変異の組み合わせによって引き起こされる。多遺伝子疾患の例としては、がん、心疾患、糖尿病、及び自己免疫疾患が挙げられる。
【0169】
いくつかの態様では、本開示の参照分子は、以下に開示される遺伝子、又はそのドメインをコードするポリヌクレオチドであり得る。他の態様では、本開示の参照分子は、以下に開示される遺伝子によってコードされるタンパク質、又はそのドメインであり得る。いくつかの態様では、参照分子は、以下に開示される遺伝子によってコードされる少なくとも1つのタンパク質、又はそのドメインを含む複合体であり得る。
【0170】
いくつかの態様では、本開示のバリアント分子は、遺伝子の正準配列に関して1つ以上のバリアント(例えば、変異)を含む、以下に開示される遺伝子、又はそのドメインをコードするポリヌクレオチドであり得る。他の態様では、本開示のバリアント分子は、タンパク質の正準配列又はそのドメインに関して1つ以上のバリアント(例えば、変異)を含む、以下に開示する遺伝子によってコードされるタンパク質であり得る。いくつかの態様では、バリアント分子は、以下に開示される遺伝子によってコードされる少なくとも1つのタンパク質、又はそのドメインを含む複合体であり得る。
【0171】
以下に開示される遺伝子の正式名及び配列、並びにそれらに対応するタンパク質の正式名及び配列は、それらに対応するUniprot(www.uniprot.org)、及びRefSeq(www.ncbi.nlm.nih.gov/refseq)の2021年9月9日に入手可能な最新のデータベースリリースのエントリに見出すことができる(それらの全体が、参照により本明細書に組み込まれる)。
【0172】
いくつかの態様では、参照分子(例えば、参照タンパク質)は、SLC12A3、MLH1、GAA、MSH2、LDLR、COL6A2、TP53、GLDC、KCNQ1、COL6A1、CAPN3、MUTYH、VHL、TGM1、IGHMBP2、PYGM、ABCD1、PMS2、CLCN1、CHEK2、MFN2、WFS1、SLC22A5、及びCPT2からなる群から選択される。いくつかの態様では、参照分子(例えば、参照タンパク質)は、MSH2、そのドメイン、又はMSH2、例えば、MSH2/MSH6を含む複合体である。
【0173】
そのバリアントによって引き起こされる表現型への影響を予測するために、参照分子として使用することができる特定のタンパク質を以下に開示する。いくつかの態様では、参照分子(例えば、参照タンパク質)又はそのバリアント(すなわち、ミスセンスバリアントタンパク質などのバリアント分子)は、メンデル遺伝病(mendelian disorder)に関係又は関連しており、参照分子又はそのバリアントが、BRCA1、BRCA2、APOB、LDLR、PCSK9、SCN5A、APC、MLH1、MSH2、MSH6、STK11、MUTYH、MYH7、LMNA、MYBPC3、TNNI3、TNNT2、KCNQ1、KCNH2、SDHB、ACTA2、MYH11、VHL、RET、SDHAF2、SDHC、SDHD、TP53、TSC1、TSC2、NF2、PTEN、RB1、RYR1、GLA、RYR2、TGFBR1、TGFBR2、ACTC1、CACNA1S、COL3A1、DSC2、DSG2、DSP、FBN1、MEN1、MYL2、MYL3、PKP2、PMS2、PRKAG2、SMAD3、TMEM43、TPM1、WT1、BMPR1A、SMAD4、ATP7B、及びOTCからなる群から選択される遺伝子によってコードされる。「に関連している」という用語は、論じられた項目間に関連又は相関があることを意味する。例えば、特定のタンパク質又は遺伝子は、疾患に関連し得る。これは、タンパク質又は遺伝子が、疾患の存在に関連又は相関していることを意味するであろう。これはまた、タンパク質又は遺伝子が、全体的又は部分的に疾患の原因であることが示されていることを意味し得る。
【0174】
いくつかの態様では、遺伝子は、機械学習モデル(訓練された予測モデル)の訓練の結果に基づいて、ドライバー遺伝子であるように見える可能性がある。本明細書で使用される「ドライバー遺伝子」という用語は、ドライバー遺伝子変異を含む遺伝子を指す。いくつかの態様では、ドライバー遺伝子は、1つ以上の後天性変異(例えば、ドライバー遺伝子変異)が、例えば、がんの進行に因果的に関連し得る遺伝子である。いくつかの態様では、ドライバー遺伝子は、細胞運命の決定、細胞の生存、及びゲノムの維持を含む1つ以上の細胞プロセスを調節することができる。ドライバー遺伝子は、1つ以上のシグナル伝達経路、例えば、TGF-β経路、MAPK経路、STAT経路、PI3K経路、RAS経路、細胞周期経路、アポトーシス経路、Notch経路、Hedgehog(HH)経路、APC経路、クロマチン修飾経路、転写調節経路、DNA損傷制御経路、又はそれらの組み合わせに関連し得る(例えば、それらを調節し得る)。例示的なドライバー遺伝子としては、がん遺伝子及び腫瘍抑制因子が挙げられる。いくつかの態様では、ドライバー遺伝子は、それが生じる細胞に選択的な増殖の利点を提供する。いくつかの態様では、ドライバー遺伝子は、それが生じる細胞に増殖能力を提供し、例えば、細胞の増殖(例えば、クローン増殖)を可能にする。いくつかの態様では、ドライバー遺伝子は、がん遺伝子である。いくつかの態様では、ドライバー遺伝子は、腫瘍抑制遺伝子(TSG)である。
【0175】
いくつかの態様では、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、ミスセンスバリアントタンパク質)は、「がんドライバー」であり、参照分子又はバリアント分子が、TP53、PIK3CA、ARID1A、RB1、PTEN、KRAS、BRAF、CDKN2A、NRAS、FBXW7、STAG2、NFE2L2、NF1、IDH1、ATM、PIK3R1、CASP8、HRAS、MLL2、SF3B1、ERBB2、CREBBP、AKT1、HLA-A、CTCF、ERBB3、CTNNB1、RUNX1、MYD88、SMARCA4、EP300、SETD2、SMARCB1、EGFR、TBL1XR1、U2AF1、EZH2、RAC1、MLL3、IL7R、CD79B、POU2AF1、MAP2K1、PTPN11、CCND1、MAP2K4、TCF7L2、KIT、CDK4、FOXA1、TSC1、FAT1、WT1、BCOR、XPO1、PRDM1、KEAP1、NSD1、PPP2R1A、CDKN1B、ASXL1、MET、RPL5、MYCN、TNFRSF14、FLT3、ALK、KDM5C、KDM6A、APC、PBRM1、STK11、RAD21、EZR、SPOP、TET2、PHF6、IRF4、DDX5、CCDC6、HIST1H3B、CARD11、IDH2、MLL、FGFR2、CDK12、ERCC2、B2M、MED12、CEBPA、NOTCH1、BRCA1、MAP3K1、VHL、DNMT3A、FGFR3、NPM1、FAM46C、CBFB、GATA3、MYB、CDH1、BAP1、ELF3、ZNF198、MALT1、WIF1、KDR、SFRS3、MXRA5、SS18、TAL1、RXRA、TCEA1、HEAB、THRAP3、RUNDC2A、SLC44A3、TNF、TAL2、FLJ27352、LAF4、STK19、DDX10、MSI2、NUTM2A、POU5F1、TRIP11、STAT5B、NCOA2、AZGP1、NCOA1、STAT3、NCOA4、OR52N1、CDKN2a(p14)、CEP1、TFPT、SUFU、HOXA13、DB2、HOXA11、P2RY8、ECT2L、TRD@、IGH@、SMAD4、RBM10、LASP1、ROS1、KMT2D、WASF3、RBM15、PRKAR1A、KCNJ5、ATRX、EPHA2、BIRC3、HNRNPA2B1、OR4A16、NUTM2B、KLF4,MAP2K2,C15orf21,ERG、CD79A、SRGAP3、MLLT3、MITF、MN1、MLLT2、MLLT7、MLLT6、FAS、C15orf55、POU2F2、EIF2S2、MLLT4、EPS15、HERPUD1、TBC1D12、MLLT1、ALO17、CNOT3、FIP1L1,CBL、OLIG2、HOXC13、NT5C2、ABL1、ZNF521、PLAG1,TPM4、LMO1,LMO2、BLM、NTN4、SLC4A5、IRTA1、JAK3、PMS2、ATP1A1、TERT、CDH11、PTCH、DDX3X、HEY1、MORC4、TLX3、PALB2、BCR、BRCA2、MDM4、MDM2、BRD4、TFG、CSF3R、RPL10、PER1、ITPKB、PDSS2、CREB1、AF3p21、TRIM27、WRN、KIF5B、CHD8、RAB40A、GATA1、ATIC、CD1D、SETBP1、CRTC3、TNFRSF17、COL1A1、DUX4、ACVR1B、C16orf75、NIN、ZNF278、MAF、NF2、AKAP9、CCND2、MAX、MECT1、ARHGEF12、SEPT6,CBLB、FACL6,ALKBH6、CHN1、CBFA2T1、IL6ST、TCEB1、MEN1、FBXO11、HIST1H4I、RALGDS、BUB1B、FHIT、CRLF2、RASA1、TLX1、IGK@、SELP、TXNDC8、CACNA1D、GUSB、NUP214、NKX2-1、INPPL1、CBFA2T3、BCLAF1、TSC2、SDH5、CDC73、ZNF384、CDC27、OTUD7A、SIL、RANBP17、NDRG1、SMC3、FH、PAX7、CD273、HLA-B、PHOX2B、CD274、GNAS、GNAQ、PSIP1、ASPSCR1、GPHN、XIRP2、PAX8、MYOCD、FRMD7、RAP1GDS1、PAX3、AJUBA、SLC34A2、HLF、UBR5、REL、RPS2、GNA11、LHFP、TBX3、SMO、RET、PAPD5、RPS15、SS18L1、MYH11、EIF4A2、LCK、XPA、HSPCA、PPARG、CHIC2、HOXC11、H3F3B、JAK2、TFRC、ZNF620、SOX17、MTCP1、JUN、LCTL、TAF15、NONO、SRSF2、CHCHD7、MAML2、PPM1D、DAXX、H3F3A、JAK1、RIT1、CCND3、TRRAP、MED23、IGL@、SPEN、DIAPH1、CMKOR1、ZNF471、STL、POLE、MAP4K3、ING1、FOXO1A、LIFR、CHEK2、LCP1、AKT2、TPR、NFKB2、FOXL2、COL5A1、FEV、HMGA1、BCL3、HMGA2、CARS、PCSK7、ELL、GMPS、LYL1、BMPR1A、TGFBR2、SLC45A3、GRAF、HLXB9、HIST1H1E、DIS3、WWTR1、PDGFRA、PDE4DIP、ARID5B、ALDH2、STX2、SACS、ARNT、GOPC、SOS1、ITK、DICER1、KEL、CIC、RAB5EP、FVT1、PML、ADNP、FANCA、ABL2、C12orf9、BRIP1、MALAT1、FANCD2、PAFAH1B2、MUTYH、POT1、JAZF1、GNPTAB、FGFR1OP、RAD51L1、DNER、ZNF331、CD70、IKZF1、NCOR1、MLF1、MYH9、SYK、HCMOGT-1、FANCE、FANCF、FANCG、TPM3、NUP210L、INTS12、SDHC、RUNXBP2、BTG1、TTLL9、EML4、SDHB、CDK6、PMX1、PDGFRB、FOXO3A、NTRK1、CLTCL1、SH2B3、EBF1、GPC3、FGFR1、ETV6、NR4A3、SBDS、PIM1、ALPK2、PDGFB、CUL4B、YWHAE、ETV1、BCL10、PBX1、IL21R、CREB3L1、ATF1、FANCC、C2orf44、HSPCB、CANT1、PTPRC、WAS、NFIB、CREB3L2、AF1Q、NOTCH2、ABI1、SH3GL1、NBS1、OMD、SUZ12、TRA@、AF5q31、RSBN1L、BCL11B、MSH6、ERCC5、BCL11A、ERCC3、MSH2、NUMA1、KTN1、TFE3、IL2、MYCL1、LPP、HOXA9、RPL22、MSN、EVI1、BCL7A、AXIN1、NBPF1、ZNF9、MLH1、SFRS2、TRIM33、SIRT4、AXIN2、CIITA、ARHGAP35、SET、ELF4、HIP1、MSF、SOX2、FNBP1、CD74、TCL1A、RAF1、MADH4、COPEB、FLI1、CBLC、GATA2、EXT1、EXT2、MICALCL、DDIT3、D10S170、CDKN2C、MYC、GOLGA5、TRIM23、NTRK3、KLK2、SLC1A3、PRF1、ACSL3、NUP98、ELK4、CYLD、TMPRSS2、DDX6、CCNB1IP1、TTL、ZNF750、TIF1、SOCS1、PNUTL1、FOXQ1、ATP2B3、PMS1、FSTL3、PCBP1、KDM5A、ZNF145、PICALM、EWSR1、AF15Q14、BCL6、GNA13、BCL5、BCL9、ANK3、RHEB、BHD、QKI、PPP6C、CALR、PRCC、FCGR2B、BCL2、RPN1、SSX4、MDS2、TPX2、RARA、ZFHX3、TRB@、MDS1、MAFB、SLC26A3、SGK1、SDHD、CDX2、SSX1、ZRANB3、KIAA1549、SSX2、HOOK3、MTOR、SNX25、TCF1、MGA、LRIG3、PRDM16,ELKS、RHOA、ACO1、ELN、VTI1A、BRD3、MLLT10、RNF43、CDKN1A、ARID2、LCX、TFEB、WHSC1L1、ETV5、ETV4、HOXD11、GAS7、ARHH、IPO7、GOT1、SMAD2、WHSC1、TNFAIP3、TCL6、HOXD13、SDC4、PAX5、MPL、MPO、SFPQ、TCF3、NACA、RECQL4、SMC1A、ERCC4、TCF12、KLHL8、DNM2、CLTC、SMARCE1、DEK、XPC、USP6、FUBP1、PCM1、TRAF7、ZRSR2、FUS、FOXP1、FLG、TOP1、MUC1、TCP11L2、COX6C、MYST4、MUC17、CAMTA1、C3orf70、CUX1、CAP2、TRAF3、MKL1、CCNE1、TSHR、AMER1、CCDC120、CHD4、及びTAP1からなる群から選択される遺伝子によってコードされる。
【0176】
いくつかの態様では、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、ミスセンスバリアントタンパク質)は、「薬理ゲノミクス標的タンパク質」であり、参照分子又はバリアント分子が、A2M、ABAT、ABCA1、ABCA12、ABCA3、ABCA8、ABCB1、ABCB11、ABCB4、ABCB5、ABCB6、ABCB9、ABCC1、ABCC10、ABCC11、ABCC2、ABCC3、ABCC4、ABCC5、ABCC6、ABCC8、ABCC9、ABCD1、ABCD2、ABCG1、ABCG2、ABCG8、ABL1、ABO、ACBD4、ACE、ACE2、ACHE、ACP5、ACSS2、ACTG1、ACY3、ACYP2、ADA、ADAM12、ADAM33、ADAMTS1、ADAMTS14、ADCK4、ADCY2、ADCY9、ADD1、ADH1A、ADH1B、ADH1C、ADH7、ADIPOQ、ADK、ADM、ADORA1、ADORA2A、ADORA2A-AS1、ADRA1A、ADRA2A、ADRA2B、ADRA2C、ADRB1、ADRB2、ADRB3、ADRBK2、AFAP1L1、AGAP1、AGBL4、AGO1、AGT、AGTR1、AGXT、AHR、AIDA、AK4、AKR1C3、AKR1C4、AKR7A2、AKT1、AKT2、ALDH1A1、ALDH1A2、ALDH2、ALDH3A1、ALDH5A1、ALG10、ALOX12、ALOX15、ALOX5、ALOX5AP、AMHR2、AMPD1、ANGPT2、ANGPTL4、ANKFN1、ANKK1、ANKRD55、ANKS1B、ANXA11、AOX1、APBB1、APEH、APLF、APOA1、APOA4、APOA5、APOB、APOBEC2、APOC1、APOC3、APOE、APOH、AQP2、AQP9、ARAP1、ARAP2、AREG、ARG1、ARHGEF10、ARHGEF4、ARID5B、ARMS2、ARNT、ARNTL、ARRB2、ARVCF、AS3MT、ASIC2、ASPH、ASS1、ATF3、ATG16L1、ATG5、ATIC、ATM、ATP2B1、ATP5E、ATP7A、ATP7B、AXIN2、B4GALT2、BACH1、BAD、BAG6、BAZ2B、BCAP31、BCHE、BCL2、BCL2L11、BCR、BDKRB1、BDKRB2、BDNF、BDNF-AS、BGLAP、BLK、BLMH、BMP5、BMP7、BRAF、BRD2、BTG4、BTRC、C10orf107、C10orf11、C11orf30、C11orf65、C12orf40、C17orf51、C18orf21、C18orf56、C1orf167、C2、C20orf194、C3、C5、C5orf22、C8orf34、C9orf72、CA10,CA12、CACNA1A、CACNA1C、CACNA1E、CACNA1H、CACNA1S、CACNB2、CACNG2、CALU、CAMK1D、CAMK2N1、CAMK4、CAP2、CAPG、CAPN10、CAPZA1、CARD16、CARTPT、CASP1、CASP3、CASP7、CASP9、CASR、CAT、CBR1、CBR3、CBS、CCDC22、CCHCR1、CCL2、CCL21、CCND1、CCNH、CCNY、CCR5、CD14、CD28、CD38、CD3EAP、CD40、CD58、CD69、CD74、CD84、CDA、CDC5L、CDCA3、CDH13、CDH4、CDK1、CDK4、CDK9、CDKAL1、CDKN2B-AS1、CELF4、CELSR2、CEP68、CEP72、CERKL、CERS6、CES1、CES1P1、CES2、CETP、CFAP44、CFB、CFH、CFI、CFLAR、CFTR、CHAT、CHIA、CHIC2,CHL1、CHRM2、CHRM3、CHRM4、CHRNA1、CHRNA3、CHRNA4、CHRNA5、CHRNA7、CHRNB1、CHRNB2、CHRNB3、CHRNB4、CHST13、CHST3、CHUK、CLASP1、CLCN6、CLMN、CLNK、CLOCK、CMPK1、CNKSR3、CNOT1、CNPY4、CNR1、CNTF、CNTN4、CNTN5、CNTNAP2、COL18A1、COL1A1、COL1A2、COL22A1、COL26A1、COLEC10、COMT、COQ2、CPA2、CPS1、CR1、CR1L、CREB1、CRH、CRHR1、CRHR2、CRP、CRTC2、CRY1、CSK、CSMD1、CSMD2、CSMD3、CSNK1E、CSPG4、CSRNP3、CSRP3、CST5、CTH、CTLA4、CTNNA2、CTNNA3、CTNNB1、CUX1、CUX2、CXCL10、CXCL12、CXCL5、CXCL8、CXCR2、CXCR4、CXXC4、CYB5A、CYB5R3、CYBA、CYCSP5、CYP11B2、CYP19A1、CYP1A1、CYP1A2、CYP1B1、CYP24A1、CYP27B1、CYP2A6、CYP2B6、CYP2B7P1、CYP2C18、CYP2C19、CYP2C8、CYP2C9、CYP2D6、CYP2E1、CYP2J2、CYP2R1、CYP39A1、CYP3A、CYP3A4、CYP3A43、CYP3A5、CYP3A7、CYP4A11、CYP4B1、CYP4F11、CYP4F2、CYP51A1、CYP7A1、DAOA、DAPK1、DBH、DCAF4、DCBLD1、DCK、DCP1B、DCTD、DDC、DDHD1、DDRGK1、DDX20、DDX53、DDX58、DEAF1、DGCR5、DGKH、DGKI、DHFR、DHODH、DIAPH3、DIO1、DIO2、DKK1、DLEU7、DLG5、DLGAP1、DMPK、DNAH12、DNAJB13、DNMT3A、DOCK4、DOK5、DOT1L、DPP4、DPYD、DPYS、DRD1、DRD2、DRD3、DRD4、DROSHA、DSCAM、DTNBP1、DUSP1、DUX1、DYNC2H1、E2F7、EBF1、ECT2L、EDN1、EGF、EGFR、EGLN3、EHF、EIF2AK4、EIF3A、EIF4E2、ENG、ENOSF1、EPAS1、EPB41、EPHA5、EPHA6、EPHA8、EPHX1、EPM2A、EPM2AIP1、EPO、ERAP1、ERBB2、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ERCC6L2、EREG、ERICH3、ESR1、ESR2、ETS2、EXO1、F11、F12、F13A1、F2、F3、F5、F7、FAAH、FABP1、FABP2、FADS1、FAM19A5、FAM65B、FARS2、FAS、FASLG、FASTKD3、FAT1、FBXL17、FBXL19、FCAR、FCER1A、FCER1G、FCER2、FCGR2A、FCGR2B、FCGR3A、FDPS、FEN1、FGD4、FGF2、FGF5、FGFBP1、FGFBP2、FGFR2、FGFR4、FHIT、FKBP5、FLOT1、FLT1、FLT3、FLT4、FMO1、FMO2、FMO3、FMO5、FNTB、FOLH1、FOLR3、FOXC1、FOXP3、FPGS、FSHR、FSIP1、FSTL5、FTO、FYN、FZD3、FZD4、G6PD、GABRA1、GABRA3、GABRA6、GABRB1、GABRB2、GABRG2、GABRG3、GABRP、GABRQ、GAD2、GADL1、GAL、GALNT14、GALNT18、GALNT2、GALR1、GAPDHP64、GAPVD1、GATA3、GATA4、GATM、GBP6、GCG、GCKR、GCLC、GDNF、GEMIN4、GFRA2、GGCX、GGH、GHSR、GIPR、GJA1、GLCCI1、GLDC、GLP1R、GLRB、GNAS、GNB3、GNMT、GP1BA、GP6、GPR1、GPR83、GPX1、GPX3、GPX5、GRIA1、GRIA3、GRID2、GRIK1、GRIK2、GRIK3、GRIK4、GRIN1、GRIN2A、GRIN2B、GRIN3A、GRK4、GRK5、GRM3、GRM7、GSK3B、GSR、GSTA1、GSTA2、GSTA5、GSTM1、GSTM3、GSTM4、GSTP1、GSTT1、GSTZ1、H19、HAS3、HCG22、HCP5、HDAC1、HES6、HFE、HIF1A、HLA-A、HLA-B、HLA-C、HLA-DOB、HLA-DPA1、HLA-DPB1、HLA-DPB2、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB5、HLA-E、HLA-G、HMGB1、HMGB2、HMGCR、HNF1A、HNF1B、HNF4A、HNMT、HOMER1、HOTAIR、HOTTIP、HRH1、HRH2、HRH3、HRH4、HS3ST4、HSD11B1、HSD3B1、HSPA1A、HSPA1L、HSPA5、HSPG2、HTR1A、HTR1B、HTR1D、HTR2A、HTR2C、HTR3A、HTR3B、HTR5A、HTR6、HTR7、HTRA1、HUS1、HYKK、IBA57、IDO1、IFIT1、IFNAR1、IFNB1、IFNG、IFNGR1、IFNGR2、IFNL3、IFNL4、IGF1、IGF1R、IGF2BP2、IGF2R、IGFBP3、IGFBP7、IKBKG、IKZF3、IL10、IL11、IL12A、IL12B、IL13、IL16、IL17A、IL17F、IL17RA、IL18、IL1A、IL1B、IL1RN、IL2、IL21R、IL23R、IL27、IL2RA、IL2RB、IL3、IL4、IL4R、IL6、IL6R、IL6ST、IL7R、ILKAP、IMPA2、IMPDH1、IMPDH2、INSIG2、INSR、IP6K2、IRS1、ITGA1、ITGA2、ITGA9、ITGB1、ITGB3、ITGBL1、ITIH3、ITPA、ITPKC、JAK2、KANSL1、KCNE1、KCNH2、KCNH7、KCNIP1、KCNIP4、KCNJ1、KCNJ11、KCNJ6、KCNMA1、KCNMB1、KCNQ1、KCNQ5、KCNT1、KCNT2、KDM4A、KDR、KIAA0391、KIF6、KIR2DL2、KIRREL2、KIT、KL、KLC1、KLC3、KLRC1、KLRD1、KLRK1、KRAS、KYNU、LAMB3、LARP1B、LCE3B、LCE3C、LDLR、LECT2、LEP、LEPR、LGALS3、LGR5、LIG3、LINC00251、LINC00478、LIPC、LPA、LPHN3、LPIN1、LPL、LRP1、LRP1B、LRP2、LRP5、LRRC15、LST1、LTA、LTA4H、LTB、LTC4S、LUC7L2、LYN、LYRM5、MAD1L1、MAFB、MAFK、MALAT1、MAML3、MAN1B1、MAP3K1、MAP3K5、MAP4K4、MAPK1、MAPK14、MAPT、MC1R、MC4R、MCPH1、MDGA2、MDM2、MDM4、MECP2、MED12L、MEG3、MET、METTL21A、MEX3C、MGAT4A、MGMT、MIA3、MICA、MICB、MIR1206、MIR1307、MIR133B、MIR146A、MIR2053、MIR27A、MIR300、MIR423、MIR4278、MIR449B、MIR492、MIR577、MIR595、MIR604、MIR611、MIR618、MIR7-2、MISP、MLLT3、MLN、MME、MMP1、MMP10、MMP2、MMP3、MMP9、MOB3B、MOCOS、MOV10、MPO、MPZ、MS4A2、MSH2、MSH3、MSH6、MT-RNR1、MTCL1、MTHFD1、MTHFR、MTMR12、MTOR、MTR、MTRF1L、MTRR、MTTP、MUC5B、MUTYH、MVK、MYC、MYLIP、MYOCD、N6AMT
1、NALCN、NANOGP6、NAT1、NAT2、NAV2、NBAS、NBEA、NCF4、NCOA1、NCOA3、NEDD4、NEDD4L、NEFM、NELFCD、NELL1、NEUROD1、NFATC1、NFATC2、NFE2L2、NFKB1、NFKBIA、NGF、NGFR、NLGN1、NLRP3、NLRP8、NOD2、NOS1AP、NOS2、NOS3、NPAS3、NPC1L1、NPHS1、NPPA、NPPA-AS1、NQO1、NQO2、NR1D1、NR1H3、NR1I2、NR1I3、NR3C1、NR3C2、NRAS、NRG1、NRG3、NRP1、NRP2、NRXN1、NT5C1A、NT5C2、NT5C3A、NT5E、NTRK1、NTRK2、NUBPL、NUDT15、NUMA1、OAS1、OASL、OCRL、OPN1SW、OPRD1、OPRK1、OPRM1、OR10AE3P、OR4D6、OR52E2、OR52J3、ORM1、ORM2、ORMDL3、OSMR、OTOS、OXT、P2RY1、P2RY12、PACSIN2、PADI4、PAPD7、PAPLN、PAPPA2、PARD3B、PARP11、PAX4、PCK1、PCSK9、PDCD1LG2、PDE4B、PDE4C、PDE4D、PDGFRA、PDGFRB、PDLIM5、PDZRN3、PEAR1、PEMT、PER2、PER3、PGLYRP4、PGR、PHACTR1、PHB2、PHTF1、PI4KA、PICALM、PICK1、PIGB、PIK3CA、PIK3R1、PITPNM2、PKLR、PLA2G4A、PLAGL1、PLCB1、PLCD3、PLCG1、PLEKHH2、PLEKHN1、PLG、PLXNB3、PMCH、POLA2、POLG、POLR3G、POMT2、PON1、PON2、POR、POU2F1、POU2F2、POU5F1、PPARA、PPARD、PPARG、PPARGC1A、PPFIA1、PPM1A、PPP1R13L、PPP1R1C、PPP2R5E、PRB2、PRCP、PRDM1、PRDM16、PRDX4、PRIMPOL、PRKAA1、PRKAA2、PRKCA、PRKCB、PRKCE、PRKCQ、PRKG1、PROC、PROCR、PROM1、PROS1、PROX1、PRRC2A、PRSS53、PSMA4、PSMB3P、PSMB4、PSMB8、PSMD14、PSORS1C1、PSORS1C3、PSRC1、PTCHD1、PTEN、PTGER2、PTGER3、PTGER4、PTGES、PTGFR、PTGIR、PTGS1、PTGS2、PTH、PTH1R、PTPN22、PTPRC、PTPRD、PTPRM、PTPRN2、PYGL、RAB27A、RABEPK、RAC2、RAD18、RAD52、RAF1、RALBP1、RAPGEF5、RARG、RARS、RBFOX1、RBMS3、REEP5、REL、REN、REPS1、RET、REV1、REV3L、RFK、RGS17、RGS2、RGS4、RGS5、RHBDF2、RHOA、RICTOR、RND1、RNFT2、RORA、RPL13、RRAS2、RRM1,RRM2、RRM2B、RSBN1、RSRP1、RUNX1、RXRA、RYR1、RYR2、RYR3、SACM1L、SCAP、SCARB1、SCGB3A1、SCN10A、SCN1A、SCN2A、SCN4A、SCN5A、SCN8A、SCN9A、SCNN1B、SCNN1G、SELE、SELP、SEMA3C、SERPINA3、SERPINA6、SERPINE1、SERPINF1、SERPING1、SETD4、SFRP5、SH2B3、SH2D5、SH3BP2、SHMT1、SIK3、SIN3A、SKIV2L、SKOR2、SLC10A2、SLC12A3、SLC12A8、SLC14A2、SLC15A1、SLC15A2、SLC16A5、SLC16A7、SLC17A3、SLC18A2、SLC19A1、SLC1A1、SLC1A2、SLC1A3、SLC1A4、SLC22A1、SLC22A11、SLC22A12、SLC22A16、SLC22A17、SLC22A2、SLC22A3、SLC22A4、SLC22A5、SLC22A6、SLC22A7、SLC22A8、SLC24A4、SLC25A13、SLC25A14、SLC25A27、SLC25A31、SLC26A9、SLC28A1、SLC28A2、SLC28A3、SLC29A1、SLC2A1、SLC2A2、SLC2A9、SLC30A8、SLC30A9、SLC31A1、SLC37A1、SLC39A14、SLC47A1、SLC47A2、SLC5A2、SLC5A7、SLC6A12、SLC6A2、SLC6A3、SLC6A4、SLC6A5、SLC6A9、SLC7A5、SLC7A8、SLCO1A2、SLCO1B1、SLCO1B3、SLCO1C1、SLCO2B1、SLCO3A1、SLCO4C1、SLCO6A1、SLIT1、SMARCAD1、SMYD3、SNAP25、SNORA59B、SNORD68、SOCS3、SOD2、SOD3、SORT1、SOX10、SP1、SPARC、SPATS2L、SPECC1L、SPG7、SPIDR、SPINK5、SPP1、SPTA1、SQSTM1、SREBF1、SREBF2、SRP19、SRR、ST13、STAT3、STAT4、STAT6、STIM1、STIP1、STK39、STMN1、STMN2、STX1B、STX4、SUGCT、SULT1A1、SULT1A2、SULT1C4、SULT1E1、SULT2B1、SV2C、SYN3、SYNE3、SZRD1、T、TAAR6、TAC1、TAGAP、TANC1、TANC2、TAP1、TAP2、TAPBP、TAS2R16、TBC1D1、TBC1D32、TBX21、TBXA2R、TBXAS1、TCF19、TCF7L2、TCL1A、TDP1、TDRD6、TERT、TET2、TF、TGFB1、TGFBR2、TGFBR3、TH、THBD、THRA、THRB、TIGD1、TK1、TLR2、TLR3、TLR4、TLR5、TLR7、TLR9、TMCC1、TMCO6、TMEFF2、TMEM205、TMEM258、TMEM57、TMPRSS11E、TNF、TNFAIP3、TNFRSF10A、TNFRSF11A、TNFRSF11B、TNFRSF1A、TNFRSF1B、TNFSF10、TNFSF11、TNFSF13B、TNRC6A、TNRC6B、TOLLIP、TOMM40、TOMM40L、TOP1、TOP2B、TP53、TPH1、TPH2、TPMT、TRAF1、TRAF3IP2、TRIB3、TRIM5、TRPM6、TSC1、TSPAN5、TTC6、TUBB1、TUBB2A、TXNRD2、TYMP、TYMS、UBASH3B、UBE2I、UCP2、UCP3、UGGT2、UGT1A、UGT1A1、UGT1A10、UGT1A3、UGT1A4、UGT1A5、UGT1A6、UGT1A7、UGT1A8、UGT1A9、UGT2B10、UGT2B15、UGT2B17、UGT2B4、UGT2B7、ULK3,UMPS、UPB1、USH2A、USP24、USP5,UST、VAC14、VASP、VDR、VEGFA、VKORC1、WBP2NL、WBSCR17、WDR7,WIF1,WNK1、WNT5B、WT1、WWOX、XBP1、XDH、XPA、XPC、XPO1、XPO5、XRCC1、XRCC3、XRCC4、XRCC5、YAP1、YBX1、YEATS4、ZBTB22、ZBTB4、ZCCHC6、ZFP91-CNTF、ZMAT4、ZNF100、ZNF215、ZNF423、ZNF432、ZNF652、ZNF697、ZNF804A、ZNF816、ZNRD1-AS1、及びZSCAN25からなる群から選択される遺伝子によってコードされる。
【0177】
いくつかの態様では、参照分子(例えば、参照タンパク質)又はバリアント分子(例えば、ミスセンスバリアントタンパク質)は、LMNA、PTEN、TP53、BRCA2、MLH1、MSH2、BRCA1、MSH6、FGFR3、MECP2、CFTR、RET、PTPN11、SCN5A、MYH7、CAV3、PMS2、KRAS、APC、ATM、ARX、DMD、DES、STK11、POLG、NF1、BRAF、TSC1、CDKL5、TSC2、TTN、COL2A1、FMR1、FKTN、KCNQ1、VHL、SLC2A1、FBN1、EPCAM、HRAS、PALB2、RAF1、TNNT2、CEP290、SMAD4、MUTYH、SCN1A、SCN1B、KCNJ2、RYR2、GLA、CDH1、NRAS、FKRP、KCNH2、LDB3、CACNA1A、MYBPC3、FGFR2、UBE3A、CACNA1C、GJB2、TAZ、SDHB、TNNI3、ACTC1、GAA、TCAP、CHEK2、LAMP2、COL1A1、TTR、DSP、HBB、SDHD、SOS1、NBN、COL1A2、TGFBR2、POMT1、TPM1、FLNA、KCNE1、PCDH19、MAP2K1、CHD7、FOXG1、SDHC、TGFBR1、RYR1、MTHFR、SGCD、CDKN2A、PMP22、POMT2、FH、WT1、EMD、SCN4A、FGFR1、PLP1、PAX6、POMGNT1、TMEM43、MEN1、PKP2、SLC9A6、RHO、F5、GCK、BRIP1、TRIM32、DSG2、RAD51C、TRPV4、SCN2A、CPT2、KCNE2、GJB6、COL3A1、MAP2K2、NPHP1、DNM2、BMPR1A、PRKAG2、ACADM、OFD1、MYOT、CASQ2、HEXA、DSC2、MEF2C、HFE、CLN3、PTCH1、CRYAB、JUP、PLN、MED12、ZEB2、FHL1、ABCC8,F2、ACADVL、BAG3、ATP7A、CASR、SCN9A、BSCL2、PDHA1、SHOC2、ETFDH、KCNQ2、HADHA、TNNC1、PRRT2、TPP1、ANO5、COL5A1、ETFB、MPZ、ETFA、ACTA1、PPT1、CASK、STXBP1、ABCD1、KCNJ11、ATRX、GNAS、ABCA4、DYSF、ABCC9、TCF4、BLM、SLC22A5、SDHA、MYH6、HCN4、ATP7B、PLA2G6、FANCC、MYL2、CBS、ANK2、KCNE3、MYL3、CLN5、DCX、PANK2、ALDH7A1、NKX2-5、GBA、TIMM8A、PNKP、ACTA2、WFS1、MFN2、FOLR1、JAG1、SMN1、SMARCB1、L1CAM、GPC3、KIT、NSD1、OPA1、DHCR7、NF2、SGCA、MITF、CLRN1、TPM2、SPRED1、MKS1、NIPBL、AGL、OTC、RB1、CSRP3、GLB1、TMEM67、CLN6、HNF1B、SMC1A、SCN4B、CACNB2、ACVRL1、DLD、CBL、FXN、ARSA、PSEN1、COL6A3、LAMA2、SMAD3、ENG、PRPS1、ACTN2、TWNK、CAPN3、GDAP1、COL5A2、EYA1、PCDH15、GCH1、SURF1、SGCB、SCN3B、TMEM216、PITX2、COL6A1、PEX1、MYH11、VCL、NOTCH3、LARGE1、SLC26A4、CLN8、BTD、GAMT、USH2A、MYH9、AR、NPC1、TERT、GABRG2、GCDH、HNF1A、FLNC、IDS、COL6A2、BBS1、RPGR、FLCN、GNE、RPGRIP1L、MEFV、CALM1、CDKN1C、MFSD8、PRPH2、SMPD1、OPHN1、CNTNAP2、BCKDHB、PLOD1、PLEC、CREBBP、SDHAF2、ARHGEF9、AKAP9、RAD51D、NEB、OPA3、MBD5、NPC2、MYO7A、CTSD、VPS13B、GALC、KCNJ5、PAFAH1B1、PYGM、GRN、ASPA、CDK4、PEX7、MET、FBN2、CC2D2A、GARS、NRXN1、PIK3CA、COL11A2、HTT、SLC26A2、SETX、NEXN、TGFB3、SELENON、KCNJ10、CPT1A、HPRT1、ELN、UGT1A1、WAS、OCRL、KCND3、MUT、VCP、HADHB、GPD1L、KCNQ3、SUCLA2、SCO2、FTL、EGR2、PMM2、ALPL、SNTA1、BBS2、G6PC、HADH、PKD2、PKHD1、COQ2、MMACHC、GJB1、BEST1、SGCG、BCKDHA、LDLR、NPHP3、SLC25A20、ACADS、DYNC1H1、KCTD7、MAPT、FIG4、TREX1、MMAB、PQBP1、GRIN2A、COL4A5、MMAA、MKKS、RPE65、GBE1、NDP、HSD17B10、GATA1、APOB、TTC8、SPG7、PDX1、GABRA1、APTX、IKBKAP、NEFL、PEX6、COL11A1、TBC1D24、TGFB2、CRX、APOE、GUCY2D、PHOX2B、ISPD、ATP1A2、ATP13A2、ATL1、SYNE1、ATXN2、SLC6A8、ALMS1、HNF4A、AHI1、ACAD9、PRKAR1A、SNRPN、COL4A1、NOTCH1、SLC25A22、GLDC、ADGRV1、GALT、PEX26、TRDN、PHF6、PNPO、KCNT1、MTM1、COX15、SLC4A1、RRM2B、PRSS1、TPM3、BBS10、BAP1、BCS1L、CDH23、MRE11、PCCA、TBX5、MPL、PAH、SPTAN1、SCN8A、AMT、ASS1、PSEN2、CACNA1S、USH1C、FANCA、CYP21A2、FGD1、PEX12、SLC2A10、WDR62、FAH、GLI3、RUNX1、ANKRD1、GNPTAB、SLC25A4、SERPINA1、RELN、BARD1、RAPSN、DKC1、CSTB、SGCE、F8、KCNJ8、MYPN、MVK、PEX10、REEP1、CRB1、CHRNA1、RBM20、PCCB、BCOR、NLRP3、HBA1、EPM2A、SKI、GATA2、MYLK、FANCB、TYR、ABCB4、C12orf65、PEX2、LRP5、TTC21B、SLC25A13、HSPB1、HSPB8、MPV17、SPAST、SLC37A4、IQCB1、IDUA、EYA4、KCNA1、PGK1、CYP1B1、WHRN、SMARCA4、TERC、ADSL、DMPK、ATXN1、ATP6AP2、SYNGAP1、RDH12、TARDBP、KMT2D、PRKN、NPHP4、TK2、NHLRC1、GJA1、SUCLG1、GATA4、NDUFA1、COL4A3、ATXN3、VWF、TH、DBT、KIF1A、MMADHC、MID1、PKD1、AP3B1、CHRNA4、DNAJB6、APP、SHH、FA2H、CHRNB2、EDN3、SLC16A2、ELANE、FUS、INS、RPS6KA3、INVS、MYOZ2、TNNT1、ALK、TMEM70、CACNB4、JAK2、CNGB3、SPINK1、AGXT、PAX3、MCOLN1、PEX5、ASPM、DGUOK、IGHMBP2、CFH、SOD1、TUBA1A、DOLK、PROM1、SYN1、HMGCL、KDM5C、RAB39B、DNAJC5、AUH、SHOX、ATXN7、CENPJ、SRPX2、SOX10、CYP2D6、DCTN1、TBX1、ALDOB、ARL6、BBS12、COQ8A、TWIST1、RECQL4、OTX2、PC、DPAGT1、TP63、GP1BA、ARG1、POLD1、SACS、AKT1、PEX3、SMC3、OCA2、CYP2C19、RMRP、IL2RG、DNAH5、SPG11、NDRG1、COL4A4、FOXC1、BMPR2、MCCC2、MAX、F9、ERCC6、C9orf72、TYMP、RAI1、AIPL1、MCCC1、SLC25A19、COL9A1、BTK、P3H1、PDSS2、PCNT、NOTCH2、ATP8B1、ATP1A3、ETHE1、HEXB、SLC25A15、CP、COL9A2、CHRNA2、CHRNE、CUL4B、DOK7、CHRND、GUSB、SLC19A3、IVD、SH3TC2、EFHC1、IMPDH1、CRTAP、CYP27A1、HSPD1、SOX2、SDCCAG8、CYP2C9、ALS2、RPS19、GOSR2、RARS2、GFAP、PEX14、CYP11B1、GMPPB、BBS4、SGSH、GJC2、GLUD1、GATM、TMEM127、RPGRIP1、PDGFRA、LGI1、MT-ATP6、ADAMTS13、BBS5、WDR45、MTMR2、GATA6、BBS7、LITAF、POLG2、ABCB11、PRX、ALG2、ABCC6、RNASEH2B、FANCG、ADA、SIL1、RP2、RASA1、NTRK1、TNFRSF1A、SCNN1B、CHAT、USH1G、FLNB、DNAI1、CFL2、OPTN、NDUFS4、ARL13B、BBS9、TOR1A、LRPPRC、ATPAF2、SAMHD1、TSEN54、NPHS2、TSFM、HBA2、GALNS、FKBP14、CHST14、FOXRED1、TRPM4、NHS、RNASEH2A、RNASEH2C、ADGRG1、MT-RNR1、AGK、CEP152、ASL、SNCA、GRIN2B、DTNA、SIX1、CPS1、KIF7、AIFM1、PDHX、NAGLU、MT-TL1、NSDHL、HDAC8、HGSNAT、LRRK2、SBF2、RAB7A、SCNN1G、LRAT、DARS2、KIF5A、RIT1、PCSK9、GFM1、PINK1、NPHS1、ARSB、NDUFS7、POLE、PFKM、SCN2B、IDH2、FBLN5、INPP5E、PDSS1、GABRD、ATP6V0A2、PRICKLE1、ACAT1、SOX9、CACNA2D1、G6PD、SPG20、SCARB2、NLGN3、ANOS1、NLGN4X、GABRB3、HAX1、AFG3L2、GJB3、TINF2、KRIT1、GPR143、CDC73、EDNRB、MLYCD、AARS2、JAK3、SDHAF1、JPH2、NDUFV1、PEX13、PLCB1、ABHD12、PEX16、IRF6、SUMF1、BSND、DAG1、HLCS、ATR、EGFR、AFF2、EZH2、PEX19、ABCA3、PAK3、NDUFS1、PHYH、PRKCG、TMPO、TULP1、COMP、MPI、MYLK2、HESX1、YARS、BIN1、DPM3、LYST、AARS、SIX3、ACTG1、C19orf12、PDHBCOQ9、MLC1、NODAL、DPYD、CHM、DPM1,LIPA、SFTPC、DLAT、VRK1、TUBB2B、ATP6V1B1、HSD17B4、CERKL、EP300、SLC12A3、GATA3、FANCE、FGD4、CFI、SCN10A、COLQ、COX6B1、FKBP10、EXT1、ADAMTS2、SBDS、CD46、TGIF1、SALL1、ERCC4、KIF1B、SLC17A5、WNK1、KCNA5、ARFGEF2、FANCF、ELOVL4、SALL4、CYP7B1、KARS、GRIA3、ALDH5A1、SPR、CLCN1、HCCS、GNS、EIF2AK3、PUS1、PDE6B、PLOD2、PAX2、DHDDS、WDR19、ALG6、PPARG、VAPB、CHD2、RP1、PSAP、WRN、LMBRD1、INSR、CEBPA、LPIN1、SMS、MT-TK、PARK7、SUFU、UMOD、PRNP、AGA、RAD50、FUCA1、SLC39A13、NDUFA2、ISCU、MT-TS1、SEMA4A、FOXP3、TACO1、LI
G4、AIRE、SRY、KBTBD13、EIF2B5、MT-ND1、IKBKG、DICER1、TRMU、MUSK、SLC25A3、OTOF、POMK、TBP、RAG2、UPF3B、EDA、RLBP1、RAB3GAP1、LAMB2、CEP41、RAD21、KDM6A、MCPH1、CABP4、SPATA7、MTRR、LAMA4、EFEMP2,NDUFS8、GALK1、SAG、LCA5、NR2E3、EXT2、GCSH、PPIB、PORCN、EHMT1,CTNNB1、CTNS、TFR2、C3、HCN1、EIF2B1、SLX4、POU3F4、WDPCP、INF2、LIAS、CHRNB1、ACTB、AP1S2、PHEX、SPTB、NEUROD1、RS1、NPPA、SOX3、FGF23、MAN2B1、DNAH11、ERCC2、DGKE、CCM2、NDUFAF2、EVC、RAG1、HPS1、NDUFS3、NDUFS2、ZIC2、FGF8、LPL、FASTKD2、TCTN2、CACNA1D、HPS4、CACNA1F、CLCN5、GJA5、SYP、GP1BB、FANCL、ACSL4、IDH1、CLCNKB、CISD2、ROR2、NEU1、GATAD1、MYH3、NDE1、PRPF31、ABCG5、NKX2-1、PGM1、TMEM237、FBP1、CDK5RAP2、NDUFAF5、ZFYVE26、DPM2、PHKA1、MT-ND6、STIL、TUBB3、BICD2、IQSEC2、SPTA1、ITGA7、QDPR、TJP2、PTS、EIF2B3、NOD2、GLRA1、CSF1R、PRF1、ATN1、PAX4、GPSM2、CHMP2B、CFB、EYS、FANCI、ST3GAL3、AGPAT2、PDP1、IL7R、HK1、PNPLA2、RAB27A、DCLRE1C、MC4R、GYS2、B9D1、SCNN1A、ANG、ENPP1、PRPF8、SFTPB、FANCM、AXIN2、LMX1B、NHEJ1、SYNE2、TTC19、PROP1、MAGT1、COL7A1、FANCD2、FSCN2、NDUFAF1、MT-ND4、KCNJ1、COL12A1、CNGA3、STAT3、TYRP1、NDUFS6、GUCA1B、SLC2A2、SIX5、ADAR、SLC33A1、CCDC39、AMACR、GAN、HFE2、B3GLCT、EFNB1、UQCRB、SLC12A6、FGA、HPS3、XRCC2、MTR、C8orf37、ACTN4、EVC2、THAP1、TRPS1、IDH3B、RUNX2、LAMB3、SH2D1A、GDI1、TMC1、DNMT1、PDCD10、MRPS22、LAMA3、TOPORS、CHKB、MTPAP、CYP17A1、POMGNT2、SLC12A1、ZIC3、GLI2、RD3、ALAS2、RPL35A、CNGB1、LDLRAP1、DEPDC5、THBD、DYRK1A、SLC19A2、DNAI2、PGAM2、PNKD、ASAH1、WDR35、VKORC1、DOCK8、PHGDH、SLC45A2、GP9、CCDC78、SPTLC1、IL1RAPL1、SLC35C1、UBE2A、NR0B1、CAVIN1、ACOX1、AGRN、CA4、COL9A3、CNGA1、LAMC2、DTNBP1、EIF2B2,TTPA、FLVCR1、MYH14、ERBB2、ITGB3,VLDLR、WASHC5、NDUFA11、C2orf71、PTCHD1,NRL、ALDH4A1、RSPH9、ATP5E、GK、CTDP1、ABL1,TCTN1、ANK1、CTSA、SLC40A1、AKT3、B4GAT1、ZMPSTE24、MERTK、EIF2B4、ERCC8、NUBPL、PPOX、PDLIM3、PNPLA6、TNXB、PRKG1、FOXH1、COG7、RPL11、GPHN、ABCG8、PDE6C、B4GALT7、G6PC3、GNA11、CLCN2、NME8、KCNJ13、HEPACAM、SLCO1B1、UQCRQ、NDUFAF4、TMEM138、MT-ND5、NDUFAF3、HMBS、NHP2、IFITM5、MBTPS2、SMN2、PDE6A、VSX2、MYO6、CPOX、ALG13、CCDC40、ALDH3A2、NIPA1、TSHR、ZNF423、SQSTM1、MOCS2、L2HGDH、SCO1、TUBB4A、TCOF1、MOCS1、MTO1、CIB2、HINT1、KIAA2022、ERCC3、PITX3、PRPF3、DNM1L、TCTN3、FHL2、CA2、GRHPR、PLEKHG5、CDON、KLHL40、TSEN2、SLC1A3、RGR、NEBL、C5orf42、HPS6、GFI1、MYCN、LZTR1、BRWD3、TSEN34、F11、SNRNP200、GNAT2、ALG1、TMEM126A、SP7、KLHL7、TUFM、DLG3、DNAAF2、DNAAF1、VPS13A、NOP10、TMEM5、MCEE、STXBP2、MED25、SHANK3、SLC3A1、TECTA、COX10、CHRNG、RDH5、CDHR1、PHF8、RPL5、MAOA、GFPT1、RAB3GAP2、CALM2、NAGS、POLR1C、HSD3B2、AMPD1、BUB1B、NEK8、TUBA8、B3GALNT2、FLT3、MATR3、KRT5、GDF6、GREM1、AVPR2、DNAL1、ZDHHC9、CTC1、ALDOA、NR5A1、CYBB、FTSJ1、BLOC1S3、EBP、DCAF17、SPG21、ACAD8、ABCB7、F12、GLRB、GLIS2、EXOSC3、HUWE1、BMP4、TMIE、GNPTG、RPS26、ITGA2B、LRSAM1、SLC6A3、ALDH18A1、SERPINC1、KLF11、F7、RPS10、WNT10A、NFIX、MGAT2、ACSF3、RBBP8、CFHR5、COQ6、UBQLN2、CDKN1B、SUOX、FAM126A、COG8、NDUFA10、SMARCE1、ALG8、GSS、EPB42、RPL10、DNAJC19、NAA10、KCNMA1、RPS24、STX11、ALG3、XK、MFRP、TMPRSS3、TSPAN7、SERPINH1、IMPG2、ALG12、SERPINE1、SLC16A1、TCIRG1、STIM1、ETV6、CLCN7、GDF2、SLC35A1、FAM161A、ARID1B、TMEM231、SLC35A2、NGF、COX4I2、POU1F1、GLIS3、TAF1、PNP、POMC、KIF1BP、BLK、YARS2、TCN2、UNC13D、HAMP、HOGA1、ACADSB、B4GALT1、MANBA、KAT6B、RSPH4A、ACE、EDAR、WWOX、FARS2、GNAQ、GNPAT、ANKH、ENO3、FRAS1、RANGRF、GALE、TREM2、CD3D、LEP、TFG、IER3IP1、DYNC2H1、NPM1、KMT2A、CD40LG、PYGL、MT-CYB、DFNB59、MRPS16、RTN2、KCNE5、MATN3、TAT、NDUFV2、CDAN1、STS、CAV1、B3GALT6、CTSK、CALR3、KCNV2、AP4M1、SERPING1、GYS1、HPS5、ST3GAL5、SLC6A5、ARID1A、PRKRA、COG1、COL4A2、EFEMP1、PIK3R2、MTFMT、SEPT9、FOXP1、NDUFAF6、ROM1、KRT14、SLC25A12、SEC23B、TNNI2、CD3E、HPD、PHKB、AIP、FZD4、XPNPEP3、CEP164、ITGB4、SLMAP、PABPN1、TBCE、GHR、NOG、CACNA2D4、ALG9、FOXL2、TYROBP、THRB、AP4E1、BDNF、AKT2、DSPP、MPDU1、EDARADD、TPMT、SPTBN2、BLOC1S6、FGF14、CTSF、PRCD、SRD5A3、PRPF6、TRAPPC11、PHKA2、COCH、AGPS、EARS2、FOXE3、IGBP1、RBP3、PKLR、PIGA、MAT1A、SPTLC2、CEP63、FBXO7、SETBP1、OTOA、RTEL1、PTF1A、LEPR、SMARCAL1、SCP2、PCBD1、DMP1、MOGS、CNTN1、TNPO3、POLR3A、SLC46A1、FOXI1、MYO15A、KCNQ4、MYOC、PYCR1、APOA5、GRHL2、POR、AICDA、KISS1R、PRDM16、ARSE、LHFPL5、PDE6G、HARS、SNAI2、VCAN、SMPX、CSF3R、COL17A1、LOXHD1、MTTP、SERPINF1、PROKR2、GNRHR、D2HGDH、B9D2、ZAP70、AP5Z1、CTNNA3、CSF2RA、SLC34A3、ZNF513、TNFRSF11A、CTRC、RP9、HSPG2、KANSL1、RPS7、TRIOBP、CEL、SHROOM4、SLC7A7、RFT1、ADAMTSL4、ABCA12、ABAT、LPIN2、ERCC5、HGF、PROC、LHX4、ROGDI、ABCA1、DIABLO、ESCO2、PRDM5、PHKG2、FREM1、PRODH、DIS3L2、RDX、WRAP53、MC1R、ACVR1、ZNF711、IFT80、ACVR2B、EFTUD2、LTBP2、MEGF10、RAB18、CLDN14、FLT4、CCT5、SRCAP、ESRRB、PDZD7、NEK1、NR3C2、TBX20、DNAJB2、FAS、ATXN10、CFHR1、GDF5、PSTPIP1、ARHGEF6、TDP1、GUCA1A、OXCT1、PPP2R2B、AQP2、TRPC6、MARVELD2、FECH、OAT、PEX11B、PRICKLE2、APOC2、PDGFRB、CACNA1H、LHCGR、SARS2、LRTOMT、COL10A1、XIAP、UNG、MGME1、SLC26A5、CYBA、PITPNM3、PTH1R、TIMP3、DRD2,PDE6H、ALX4、TXNRD2、OBSL1、ORC1,GH1、CSPP1、LEFTY2、CCDC50、ABCD4、DIAPH1、CDH3、CHCHD10、PAX8、GDNF、MT-CO1、HARS2、HTRA1、BMP1、MSRB3、ZDHHC15、CAVIN4、AP4S1、CFHR3、ACADL、NDUFA9、MSX1、MYO3A、CYP11B2、CTF1、MAK、AP4B1、IFT122、ABHD5、MARS、A2ML1、CHST3、CYLD、GDF1、XPA、MT-TH、TPRN、MT-TQ、POU4F3、XPC、GRIN1、GIPC3、CYP27B1,POLR1D、LHX3、TGFB1、TOR1AIP1、CNBP、GM2A、DDHD2、TRPM1、BCKDK、DNAAF3、HSD11B2、ADAM9、CLCNKA、NDUFB3、LAS1L、MAGI2、ANKRD11、NMNAT1、ZFYVE27、DNMT3A、PROK2、SMARCA2、GFER、POLR3B、NDUFA12、PLCE1、STRA6、EMX2、HMGCS2、ASCL1、COMT、PROS1、KCNC3、ILK、FGB、C10orf11、ILDR1、ANKRD26、GRXCR1、SZT2、HNRNPDL、KIF11、FGG、DDC、TTBK2、FREM2、ZNF469、TUSC3、TFAP2A、DLL3、CLIC2、GDF3、MT-TS2、CYP3A5、AHCY、LDHA、SLC52A3、PRKCSH、ACY1、ACO2、KCNK3、AMER1、WNT1、MARS2、NYX、VPS35、UROS、COG6、REN、AVP、MTOR、TBX3、RBM10、PFN1、TPO、MYBPC1、SERPINB6、PTPRC、H19、ABCB6、WNT7A、MYO5A、CCDC88C、ATP6V0A4、OSTM1、SRD5A2、CDT1、DFNA5、ESPN、MYF6、USB1、DDOST、CRYM
、APOA1、ATXN8OS、AGTR2、SLC17A8、MSX2、DST、LTBP4、KLHL3、AAAS、RFX6、LBR、CYP3A4、F13A1、RAX2、RAC2、PREPL、ERLIN2、ANK3、NFU1、LRP4、TNFRSF13B、TNFSF11、SNAP29、LAMC3、RBM8A、ORC6、GRM6、COG5、ORC4、PDYN、CRELD1、SLC5A7、ITGA3、SPINK5、WNT4、ENAM、C1QTNF5、PDK3、HTRA2、GNB4、WNK4、COG4、MT-TI、HSPB3、MT-TL2、HCFC1、POT1、ICOS、SIGMAR1、ATP2A1、GNAT1、SOS2、CTSC、FOXP2、TMEM165、CXCR4、SH3BP2、TACR3、CFC1、ABCC2、DNAJC6、DHODH、CPA6、AK2、HOXD13、VPS45、PLOD3、KRT1、MT-ATP8、DNAAF5、TGM1、TSPAN12、IFT172、CD2AP、MRPL3、LIFR、RIMS1、CNNM4、CDC6、F10、FOXC2、STAT5B、PIK3R1、ORAI1、ZNF81、ZFP57、CYP24A1、GLE1、COL18A1、TIA1、RPL26、GNAO1、LCAT、VDR、ANO10、TNNT3、LZTFL1、COL4A6、及びSHANK2からなる群から選択される「臨床検査遺伝子」によってコードされる。
【0178】
IV.コンピュータシステム及び可読デバイス
本明細書に記載される方法、例えば、コンフォメーション動力学の生成(例えば、MDシミュレーション)、次元削減、MLモデル訓練、又はそれらの任意の組み合わせは、関与する計算の複雑さのため、コンピュータシステムを使用して実装され得る。したがって、いくつかの態様では、本開示は、システムを提供し、システムが、(a)メモリと、(b)少なくとも1つのプロセッサであって、メモリに結合され、(i)(例えば、MDを使用して)参照分子のコンフォメーション動力学を生成することと、(ii)参照分子のシミュレーションされたコンフォメーション動力学を処理して、参照分子のコンフォメーションランドスケープの低次元表現を生成することと、(iii)参照分子構造の低次元コンフォメーションランドスケープからコンフォメーション状態を抽出して、バリアント分子(例えば、バリアントタンパク質)のシミュレーションにシードすることと、(iv)抽出されたコンフォメーション状態にある参照分子のシミュレーションされたコンフォメーションに少なくとも1つのミスセンス変異を導入することによって、バリアントタンパク質又はそのセットを生成することと、(v)(例えば、MDを使用して)バリアント分子又はそのセットのコンフォメーション動力学を生成することと、(vi)バリアント分子又はそのセットのコンフォメーション動力学を処理して、バリアント分子又はそのセットのコンフォメーションランドスケープの低次元表現を生成することと、(vii)臨床データを訓練ラベルとして使用して、参照分子及びバリアント分子のコンフォメーションランドスケープの低次元表現を使用して、機械学習予測モデルを訓練することであって、予測モデルが、参照分子におけるバリアント(例えば、ミスセンス変異)効果を分類する、訓練することと、を行うように構成された、少なくとも1つのプロセッサと、を含む。
【0179】
本開示はまた、有形コンピュータ可読デバイスを提供し、有形コンピュータ可読デバイスが、それに記憶された命令を有し、少なくとも1つの計算デバイスによって実行されると、少なくとも1つの計算デバイスに、(a)(例えば、MDを使用して)参照分子(例えば、参照タンパク質)のコンフォメーション動力学を生成することと、(b)参照分子のコンフォメーション動力学を処理して、参照分子のコンフォメーションランドスケープの低次元表現を生成することと、(c)参照分子の低次元コンフォメーションランドスケープから状態を抽出して、バリアント分子のシミュレーションにシードすることと、(d)抽出された状態にある参照分子のシミュレーションされたコンフォメーションに少なくとも1つのバリアント(例えば、ミスセンス変異)を導入することによって、バリアント分子又はそのセットを生成することと、(e)(例えば、MDを使用して)バリアント分子又はそのセットのコンフォメーション動力学を生成することと、(f)バリアント分子又はそのセットのコンフォメーション動力学を処理して、バリアント分子又はそのセットのコンフォメーションランドスケープの低次元表現を生成することと、(g)臨床データを訓練ラベルとして使用して、参照分子及びバリアント分子のコンフォメーションランドスケープの低次元表現を使用して、機械学習予測モデルを訓練することであって、予測モデルが、参照分子におけるバリアント(例えば、タンパク質ミスセンス変異)効果を分類する、訓練することと、を含む動作を行わせる。
【0180】
本開示は、本明細書に記載の方法、例えば、バリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/若しくは予測するためのML予測モデル、並びに/又はそのようなML予測モデルを生成するステップを実装するためのコンピュータシステムを提供する。コンピュータシステムは、1つ以上のプロセッサ、メモリ、入力/出力インターフェース、及びネットワークインターフェースを含む装置又はデバイスである。いくつかの態様では、コンピュータシステムは、プロセッサ、入力デバイス、出力デバイス、記憶デバイス、コンピュータ可読記憶媒体リーダ、通信システム、処理加速(例えば、DSP又は特殊目的プロセッサ)、及びメモリを含む、バスを介して電気的に結合されたハードウェア要素を含む。
【0181】
コンピュータ可読記憶媒体リーダは、コンピュータ可読記憶媒体に更に結合され得、この組み合わせは、リモート、ローカル、固定された及び/又は取り外し可能な記憶デバイスに加えて、一時的及び/又はより永続的にコンピュータ可読情報を含むための記憶媒体、メモリなどを包括的に表し、これは、記憶デバイス、メモリ、及び/又は任意の他のそのようなアクセス可能なシステムリソースを含み得る。いくつかの態様では、メモリは、1つ以上のプロセッサと通信可能に結合される。1つ以上のプロセッサは、本明細書に記載の方法を実装するためのコンピュータプログラム命令を実行するように構成される。コンピュータプログラム命令は、メモリ上に記憶され、かつ/又はメモリによって提供される。コンピュータの例としては、パーソナルコンピュータ、ラップトップ、コンピュータクラスター、スーパーコンピュータ、及び任意の他のタイプのコンピュータが挙げられる。
【0182】
メモリは、コンピュータ可読媒体の一例である。それは、コンピュータ可読媒体内の揮発性記憶デバイス、ランダムアクセスメモリ(RAM)、及び/又は読み取り専用メモリ(ROM)若しくはフラッシュメモリ(フラッシュRAM)などの不揮発性メモリを含み得る。コンピュータ可読媒体には、永久的、非永久的、リムーバブル、及びノンリムーバブル媒体が含まれる。コンピュータ可読コマンド、データ構造、プログラムモジュールは、コンピュータ可読媒体に記憶された情報の例である。コンピュータ記憶媒体の例としては、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリ、コンパクトディスク読み取り専用メモリ(CD-ROM)、ディジット多機能ディスク(DVD)、及び磁気テープが挙げられる。コンピュータ可読媒体は、変調されたデータ信号及び搬送波などの一時的(temporary)又は一時的(transitory)なコンピュータ可読媒体を含まない。
【0183】
コンピュータプロセッサは、マルチコアCPU、マルチCPUコンピュータ及びコンピュータクラスター、多コアCPU、汎用グラフィカルプロセッサユニット(gpGPU)、及び他のコンピュータプロセッサを含む複数のコンポーネントを含む。
【0184】
実施形態では、本明細書に記載の方法、例えば、バリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/若しくは予測するためのML予測モデル、並びに/又はそのようなML予測モデルを生成するステップは、シミュレーション及び分析を行うのに十分な計算能力を有するコンピュータプロセッサを使用して実行される。現在、分子シミュレーション及び機械学習は、マルチコアCPU、マルチCPUシステム、及び汎用GPUなどの並列アーキテクチャ上で行われる。実施形態では、本明細書に記載の方法、例えば、バリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/若しくは予測するためのML予測モデル、並びに/又はそのようなML予測モデルを生成するステップを行うためのコンピュータシステムは、シミュレーション及び分析に十分な速度で、ディスク、ディスクアレイ、ソリッドステートドライブ(SSD)などの計算及びストレージに十分なメモリを含む。
【0185】
単一のアーキテクチャを利用して、現在望ましいプロトコル、プロトコルのバリエーション、拡張などに従って更に構成され得る、1つ以上のサーバを実装することができる。しかしながら、態様がより具体的なアプリケーション要件に従って十分に利用され得ることは、当業者には明白であろう。カスタマイズされたハードウェアも利用され得、及び/又は特定の要素は、ハードウェア、ソフトウェア、又はその両方に実装され得る。更に、ネットワーク入力/出力デバイス(図示せず)などの他の計算デバイスへの接続が用いられ得るが、有線、無線、モデム、及び/又は他の接続若しくは他の計算デバイスへの接続も用いられ得ることを理解されたい。
【0186】
一態様では、システムは、入力データを1つ以上のプロセッサに提供するための1つ以上のデバイスを更に含む。システムは、ランク付けされたデータ要素のデータセットを記憶するためのメモリを更に備える。別の態様では、入力データを提供するためのデバイスは、例えば、蛍光プレートリーダ、質量分析計、遺伝子チップリーダ、又は遺伝子シーケンサーなどのデータ要素の特徴を検出するための検出器を含む。
【0187】
システムは、更に、データベース管理システムを含み得る。ユーザのリクエスト又はクエリは、クエリを処理して訓練セットのデータベースから関連情報を抽出するデータベース管理システムによって理解される適切な言語でフォーマットされ得る。システムは、ネットワークサーバ及び1つ以上のクライアントが接続されているネットワークに接続可能であり得る。ネットワークは、当該技術分野で知られているように、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)であってもよい。好ましくは、サーバは、ユーザリクエストを処理するためのデータベースデータにアクセスするためにコンピュータプログラム製品(例えば、ソフトウェア)を実行するために必要なハードウェアを含む。システムは、データ要素に関するデータ(例えば、式の値)をシステムに提供するための入力デバイスと通信することができる。
【0188】
本明細書に記載のいくつかの態様は、コンピュータプログラム製品を含むように実装され得る。コンピュータプログラム製品は、データベースを備えたコンピュータ上でアプリケーションプログラムを実行させるために、媒体に組み込まれたコンピュータ可読プログラムコードを有するコンピュータ可読媒体を含み得る。本明細書で使用される場合、「コンピュータプログラム製品」とは、あらゆる性質の物理媒体(例えば、書面、電子、磁気、光学、又はその他)に含まれ、コンピュータ又は他の自動化されたデータ処理システムとともに使用され得る自然言語又はプログラミング言語ステートメントの形式で組織化された一連の命令を指す。そのようなプログラミング言語ステートメントは、コンピュータ又はデータ処理システムによって実行されると、コンピュータ又はデータ処理システムに、ステートメントの特定のコンテンツに従って動作させる。
【0189】
コンピュータプログラム製品には、限定されないが、ソースコード及びオブジェクトコードのプログラム、並びに/又はコンピュータ可読媒体に埋め込まれた試験又はデータライブラリが含まれる。更に、コンピュータシステム又はデータ処理装置デバイスが事前に選択された方法で動作することを可能にするコンピュータプログラム製品は、いくつかの形態で提供され得、これには、オリジナルソースコード、アセンブリコード、オブジェクトコード、機械言語、前述の暗号化された又は圧縮されたバージョン、及び任意の同等物が含まれるが、これらに限定されない。一態様では、コンピュータプログラム製品は、例えば、本明細書に開示されるML予測モデルによるバリアントタンパク質の分類に基づいて、特定の療法を投与するかどうかを決定するために、本明細書に開示される治療、診断、予後診断、又はモニタリング方法を実装するために提供される。
【0190】
いくつかの態様では、コンピュータプログラム製品は、コンピュータ可読媒体を含み、計算デバイス若しくはシステムのプロセッサによって実行可能なプログラムコード、本明細書に開示されるコンピュータ実装方法のうちの少なくとも1つを実行するプログラムコード、又は本明細書に開示される方法に従って生成されるML予測モデルを具現化する。いくつかの態様では、コンピュータ可読媒体は、事前に計算されたMD構造、事前に計算されたモデル、事前に計算されたバリアント病原性スコア、又はそれらの任意の組み合わせのライブラリを含み得る。
【0191】
様々な態様が方法又は装置として説明されてきたが、態様は、コンピュータと結合されたコード(例えば、コンピュータ上に常駐するコード又はコンピュータによってアクセス可能なコード)を通して実装され得ることを理解されたい。例えば、ソフトウェア及びデータベースを利用して、上記の方法の多くを実装することができる。したがって、ハードウェアによって達成される態様に加えて、これらの態様は、その中に具体化されたコンピュータ可読プログラムコードを有するコンピュータ使用可能媒体から構成される製品を使用して達成され得、これにより、本説明に開示される機能が可能になることにも留意されたい。したがって、態様もまた、それらのプログラムコード手段において本特許によって保護されているとみなされることが望ましい。
【0192】
更に、いくつかの態様は、限定されないが、RAM、ROM、磁気媒体、光学媒体、又は磁気光学媒体を含む実質的に任意の種類のコンピュータ可読メモリに記憶されたコードであり得る。更により一般的には、いくつかの態様は、汎用プロセッサ、マイクロコード、PLA、又はASIC上で動作するソフトウェアを含むがこれらに限定されない、ソフトウェア若しくはハードウェア、又はそれらの任意の組み合わせで実装され得る。
【0193】
いくつかの態様は、搬送波に具現化されたコンピュータ信号、並びに伝送媒体を介して伝播された信号(例えば、電気的及び光学的)として達成され得ることも想定される。したがって、上で論じた様々なタイプの情報は、データ構造などの構造でフォーマットされ得、伝送媒体を介して電気信号として伝送され得るか、又はコンピュータ可読媒体に記憶され得る。
【0194】
V.コンパニオン診断
本明細書に開示される方法又は本明細書に記載される生成される予測モデルは、潜在的な治療選択肢について臨床医又は患者に通知するために、例えば、ウェブサーバを介して利用可能なコンパニオン診断として提供され得る。本明細書に開示される方法は、生体試料を採取するか、又はそうでなければ生体試料を取得し、(例えば、本明細書に開示されるML予測モデルを適用して)分析方法を行って、バリアント(例えば、バリアントタンパク質における変異)を、例えば、病原性として分類し、割り当てに基づいて、患者に投与するための好適な治療を提供することを含み得る。
【0195】
VI.ML予測モデルの精度及び臨床性能メトリック
一般に、医学的診断のために開発された予測モデルは、検証され、その正確性は、医師によって信頼できると判断されるべきである。複数の性能指標を使用して、精度、RO曲線、カッパ統計、MAE、RMSEなどのML予測モデルを検証することができる。
【0196】
本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの精度は、95%信頼区間(CI)によって決定することができる。一般に、予測モデルは、95%CIが1と重複しない場合、良好な精度を有するとみなされる。いくつかの態様では、予測モデルの95%CIは、少なくとも約1.08、少なくとも約1.10、少なくとも約1.12、少なくとも約1.14、少なくとも約1.15、少なくとも約1.16、少なくとも約1.17、少なくとも約1.18、少なくとも約1.19、少なくとも約1.20、少なくとも約1.21、少なくとも約1.22、少なくとも約1.23、少なくとも約1.24、少なくとも約1.25、少なくとも約1.26、少なくとも約1.27、少なくとも約1.28、少なくとも約1.29、少なくとも約1.30、少なくとも約1.31、少なくとも約1.32、少なくとも約1.33、少なくとも約1.34、若しくは少なくとも約1.35、又はそれ以上である。予測モデルの95%CIは、少なくとも約1.14、少なくとも約1.15、少なくとも約1.16、少なくとも約1.20、少なくとも約1.21、少なくとも約1.26、又は少なくとも約1.28であり得る。予測モデルの95%CIは、約1.75未満、約1.74未満、約1.73未満、約1.72未満、約1.71未満、約1.70未満、約1.69未満、約1.68未満、約1.67未満、約1.66未満、約1.65未満、約1.64未満、約1.63未満、約1.62未満、約1.61未満、約1.60未満、約1.59未満、約1.58未満、約1.57未満、約1.56未満、約1.55未満、約1.54未満、約1.53未満、約1.52未満、約1.51未満、約1.50未満、又はそれ以下であり得る。予測モデルの95%CIは、約1.61未満、約1.60未満、約1.59未満、約1.58未満、約1.56、1.55、又は1.53未満であり得る。予測モデルの95%CIは、約1.10~1.70、約1.12~約1.68、約1.14~約1.62、約1.15~約1.61、約1.15~約1.59、約1.16~約1.160、約1.19~約1.55、約1.20~約1.54、約1.21~約1.53、約1.26~約1.63、約1.27~約1.61、又は約1.28~約1.60であり得る。
【0197】
いくつかの態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの精度は、95%CIの範囲の差(例えば、95%CI間隔の高い値と低い値との差)に依存する。一般に、95%CI間隔の範囲に大きな差を有するML予測モデルは、95%CI間隔の範囲に小さな差を有するML予測モデルよりも変動が大きく、精度が低いと考えられる。いくつかの態様では、95%CIの範囲の差が、約0.60未満、約0.55未満、約0.50未満、約0.49未満、約0.48未満、約0.47未満、約0.46未満、約0.45未満、約0.44未満、約0.43未満、約0.42未満、約0.41未満、約0.40未満、約0.39未満、約0.38未満、約0.37未満、約0.36未満、約0.35未満、約0.34未満、約0.33未満、約0.32未満、約0.31未満、約0.30未満、約0.29未満、約0.28未満、約0.27未満、約0.26未満、約0.25未満、又はそれ以下である場合、ML予測モデルは、より正確であるとみなされる。ML予測モデルの95%CIの範囲の差は、約0.48未満、約0.45未満、約0.44未満、約0.42未満、約0.40未満、約0.37未満、約0.35未満、約0.33未満、又は約0.32未満であり得る。いくつかの態様では、ML予測モデルの95%CIの範囲の差は、約0.25~約0.50、約0.27~約0.47、又は約0.30~約0.45である。いくつかの態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの感度は、少なくとも約60%である。いくつかの態様では、感度は、少なくとも約65%である。いくつかの態様では、感度は、少なくとも約70%である。いくつかの態様では、感度は、少なくとも約75%である。いくつかの態様では、感度は、少なくとも約80%である。いくつかの態様では、感度は、少なくとも約85%である。いくつかの態様では、感度は、少なくとも約90%である。いくつかの態様では、感度は、少なくとも約95%である。いくつかの態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルは、臨床的に有意である。いくつかの態様では、ML予測モデルの臨床的有意性は、AUC値によって決定される。臨床的に有意であるために、AUC値が、少なくとも約0.5、少なくとも約0.55、少なくとも約0.6、少なくとも約0.65、少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、又は少なくとも約0.95である。予測モデルの臨床的有意性は、パーセント精度によって決定され得る。例えば、予測モデルの精度が、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約72%、少なくとも約75%、少なくとも約77%、少なくとも約80%、少なくとも約82%、少なくとも約84%、少なくとも約86%、少なくとも約88%、少なくとも約90%、少なくとも約92%、少なくとも約94%、少なくとも約96%、又は少なくとも約98%である場合、予測モデルが臨床的に有意であると決定される。他の態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的有意性は、中央値倍率差(MDF)値によって決定される。臨床的に有意であるために、MDF値は、少なくとも約0.8、少なくとも約0.9、少なくとも約1.0、少なくとも約1.1、少なくとも約1.2、少なくとも約1.3、少なくとも約1.4、少なくとも約1.5、少なくとも約1.6、少なくとも約1.7、少なくとも約1.9、又は少なくとも約2.0である。いくつかの態様では、MDF値は、1.1以上である。他の態様では、MDF値は、1.2以上である。代替的に、又は追加的に、ML予測モデルの臨床的有意性は、t検定のP値によって決定される。いくつかの態様では、臨床的に有意であるために、t検定P値は、約0.070未満、約0.065未満、約0.060未満、約0.055未満、約0.050未満、約0.045未満、約0.040未満、約0.035未満、約0.030未満、約0.025未満、約0.020未満、約0.015未満、約0.010未満、約0.005未満、約0.004未満、又は約0.003未満である。t検定のP値は、約0.050未満であり得る。代替的に、t検定のP値は、約0.010未満である。いくつかの態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的有意性は、臨床転帰によって決定される。例えば、異なる臨床転帰は、予測モデルが臨床的に有意であるかどうかを決定するAUC値、MDF値、t検定のP値、及び精度値について、異なる最小又は最大閾値を有し得る。別の例では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルは、t検定のP値が、約0.08未満、約0.07未満、約0.06未満、約0.05未満、約0.04未満、約0.03未満、約0.02未満、約0.01未満、約0.005未満、約0.004未満、約0.003未満、約0.002未満、又は約0.001未満であった場合、臨床的に有意であるとみなされる。いくつかの態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの性能は、オッズ比に基づく。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルは、オッズ比が、少なくとも約1.30、少なくとも約1.31、少なくとも約1.32、少なくとも約1.33、少なくとも約1.34、少なくとも約1.35、少なくとも約1.36、少なくとも約1.37、少なくとも約1.38、少なくとも約1.39、少なくとも約1.40、少なくとも約1.41、少なくとも約1.42、少なくとも約1.43、少なくとも約1.44、少なくとも約1.45、少なくとも約1.46、少なくとも約1.47、少なくとも約1.48、少なくとも約1.49、少なくとも約1.50、少なくとも約1.52、少なくとも約1.55、少なくとも約1.57、少なくとも約1.60、少なくとも約1.62、少なくとも約1.65、少なくとも約1.67、少なくとも約1.70、又はそれ以上である場合、良好な性能を有するとみなされ得る。いくつかの態様では、ML予測モデルのオッズ比は、少なくとも約1.33である。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的有意性は、単変量解析オッズ比P値(uvaORPval)に基づいてもよい。予測モデルの単変量解析オッズ比P値(uvaORPval)は、約0~約0.4であり得る。予測モデルの単変量解析オッズ比P値(uvaORPval)は、約0~約0.3であり得る。予測モデルの単変量解析オッズ比P値(uvaORPval)は、約0~約0.2であり得る。ML予測モデルの単変量解析オッズ比P値(uvaORPval))は、0.25以下、約0.22以下、約0.21以下、約0.20以下、約0.19以下、約0.18以下、約0.17以下、約0.16以下、約0.15以下、約0.14以下、約0.13以下、約0.12以下、又は約0.11以下であり得る。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの単変量解析オッズ比P値(uvaORPval)は、約0.10以下、約0.09以下、約0.08以下、約0.07以下、約0.06以下、約0.05以下、約0.04以下、約0.03以下、約0.02以下、又は約0.01以下であり得る。ML予測モデルの単変量解析オッズ比P値(uvaORPval)は、約0.009以下、約0.008以下、約0.007以下、約0.006以下、約0.005以下、約0.004以下、約0.003以下、約0.002以下、又は約0.001以下であり得る。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的有意性は、多変数解析オッズ比P値(mvaORPval)に基づいてもよい。ML予測モデルの多変量解析オッズ比P値(mvaORPval)は、約0~約1であり得る。ML予測モデルの多変量解析オッズ比P値(mvaORPval)は、約0~約0.9であり得る。ML予測モデルの多変量解析オッズ比P値(mvaORPval)は、約0~約0.8であり得る。ML予測モデルの多変量解析オッズ比P値(mvaORPval)は、約0.90以下、約0.88以下、約0.86以下、約0.84以下、約0.82以下、又は約0.80以下であり得る。ML予測モデルの多変量解析オッズ比P値(mvaORPval)は、約0.78以下、約0.76以下、約0.74以下、約0.72以下、約0.70以下、約0.68以下、約0.66以下、約0.64以下、約0.62以下、約0.60以下、約0.58以下、約0.56以下、約0.54以下、約0.52以下、又は約0.50以下であり得る。ML予測モデルの多変量解析オッズ比P値(mvaORPval)は、約0.48以下、約0.46以下、約0.44以下、約0.42以下、約0.40以下、約0.38以下、約0.36以下、約0.34以下、約0.32以下、約0.30以下、約0.28以下、約0.26以下、約0.25以下、約0.22以下、約0.21以下、約0.20以下、約0.19以下、約0.18以下、約0.17以下、約0.16以下、約0.15以下、約0.14以下、約0.13以下、約0.12以下、又は約0.11以下であり得る。ML予測モデルの多変数解析オッズ比P値(mvaORPval)は、約0.10以下、約0.09以下、約0.08以下、約0.07以下、約0.06以下、約0.05以下、約0.04以下、約0.03以下、約0.02以下、又は約0.01以下であり得る。ML予測モデルの多変量解析オッズ比P値(mvaORPval))は、約0.009以下、約0.008以下、約0.007以下、約0.006以下、約0.005以下、約0.004以下、約0.003以下、約0.002以下、又は約0.001以下であり得る。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的有意性は、カプランマイヤーP値(KM P値)に基づいてもよい。ML予測モデルのカプランマイヤーP値(KM P値)は、約0~約0.8であり得る。ML予測モデルのカプランマイヤーP値(KM P値)は、約0~約0.7であり得る。ML予測モデルのカプランマイヤーP値(KM P値)は、約0.80以下、約0.78以下、約0.76以下、約0.74以下、約0.72以下、約0.70以下、約0.68以下、約0.66以下、約0.64以下、約0.62以下、約0.60以下、約0.58以下、約0.56以下、約0.54以下、約0.52以下、又は約0.50以下であり得る。ML予測モデルのカプランマイヤーP値(KM P値)は、約0.48以下、約0.46以下、約0.44以下、約0.42以下、約0.40以下、約0.38以下、約0.36以下、約0.34以下、約0.32以下、約0.30以下、約0.28以下、約0.26以下、約0.25以下、約0.22以下、約0.21以下、約0.20以下、約0.19以下、約0.18以下、約0.17以下、約0.16以下、約0.15以下、約0.14以下、約0.13以下、約0.12以下、又は約0.11以下であり得る。ML予測モデ
ルのカプランマイヤーP値(KM P値)は、約0.10以下、約0.09以下、約0.08以下、約0.07以下、約0.06以下、約0.05以下、約0.04以下、約0.03以下、約0.02以下、又は約0.01以下であり得る。ML予測モデルのカプランマイヤーP値(KM P値)は、約0.009以下、約0.008以下、約0.007以下、約0.006以下、約0.005以下、約0.004以下、約0.003以下、約0.002以下、又は約0.001以下であり得る。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的有意性は、生存率AUC値(survAUC)に基づいてもよい。ML予測モデルの生存率AUC値(survAUC)は、約0~1であり得る。ML予測モデルの生存率AUC値(survAUC)は、約0~約0.9であり得る。ML予測モデルの生存率AUC値(survAUC)は、約1以下、約0.98以下、約0.96以下、約0.94以下、約0.92以下、約0.90以下、約0.88以下、約0.86以下、約0.84以下、約0.82以下、又は約0.80以下であり得る。ML予測モデルの生存率AUC値(survAUC)は、約0.80以下、約0.78以下、約0.76以下、約0.74以下、約0.72以下、約0.70以下、約0.68以下、約0.66以下、約0.64以下、約0.62以下、約0.60以下、約0.58以下、約0.56以下、約0.54以下、約0.52以下、又は約0.50以下であり得る。ML予測モデルの生存率AUC値(survAUC)は、約0.48以下、約0.46以下、約0.44以下、約0.42以下、約0.40以下、約0.38以下、約0.36以下、約0.34以下、約0.32以下、約0.30以下、約0.28以下、約0.26以下、約0.25以下、約0.22以下、約0.21以下、約0.20以下、約0.19以下、約0.18以下、約0.17以下、約0.16以下、約0.15以下、約0.14以下、約0.13以下、約0.12以下、又は約0.11以下であり得る。ML予測モデルの生存率AUC値(survAUC)は、約0.10以下、約0.09以下、約0.08以下、約0.07以下、約0.06以下、約0.05以下、約0.04以下、約0.03以下、約0.02以下、又は約0.01以下であり得る。ML予測モデルの生存率AUC値(survAUC)は、約0.009以下、約0.008以下、約0.007以下、約0.006以下、約0.005以下、約0.004以下、約0.003以下、約0.002以下、又は約0.001以下であり得る。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的意義は、単変量解析ハザード比P値(uvaHRPval)に基づいてもよい。ML予測モデルの単変量解析ハザード比P値(uvaHRPval)は、約0~約0.4であり得る。ML予測モデルの単変量解析ハザード比P値(uvaHRPval)は、約0~約0.3であり得る。ML予測モデルの単変量解析ハザード比P値(uvaHRPval)は、約0.40以下、約0.38以下、約0.36以下、約0.34以下、又は約0.32以下であり得る。ML予測モデルの単変量解析ハザード比P値(uvaHRPval)は、約0.30以下、約0.29以下、約0.28以下、約0.27以下、約0.26以下、約0.25以下、約0.24以下、約0.23以下、約0.22以下、約0.21以下、又は約0.20以下であり得る。ML予測モデルの単変量解析ハザード比P値(uvaHRPval)は、約0.19以下、約0.18以下、約0.17以下、約0.16以下、約0.15以下、約0.14以下、約0.13以下、約0.12以下、又は約0.11以下であり得る。ML予測モデルの単変量解析ハザード比P値(uvaHRPval)は、約0.10以下、約0.09以下、約0.08以下、約0.07以下、約0.06以下、約0.05以下、約0.04以下、約0.03以下、約0.02以下、又は約0.01以下であり得る。ML予測モデルの単変量解析ハザード比P値(uvaHRPval)は、約0.009以下、約0.008以下、約0.007以下、約0.006以下、約0.005以下、約0.004以下、約0.003以下、約0.002以下、又は約0.001以下であり得る。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的有意性は、多変量分析ハザード比P値(mvaHRPval)に基づいてもよい。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0~約1であり得る。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0~約0.9であり得る。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約1以下、約0.98以下、約0.96以下、約0.94以下、約0.92以下、約0.90以下、約0.88以下、約0.86以下、約0.84以下、約0.82以下、又は約0.80以下であり得る。ML予測モデルの多変量解析ハザード比P値(mvaHRPval)は、約0.80以下、約0.78以下、約0.76以下、約0.74以下、約0.72以下、約0.70以下、約0.68以下、約0.66以下、約0.64以下、約0.62以下、約0.60以下、約0.58以下、約0.56以下、約0.54以下、約0.52以下、又は約0.50以下であり得る。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0.48以下、約0.46以下、約0.44以下、約0.42以下、約0.40以下、約0.38以下、約0.36以下、約0.34以下、約0.32以下、約0.30以下、約0.28以下、約0.26以下、約0.25以下、約0.22以下、約0.21以下、約0.20以下、約0.19以下、約0.18以下、約0.17以下、約0.16以下、約0.15以下、約0.14以下、約0.13以下、約0.12、又は約0.11以下である。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0.10以下、約0.09以下、約0.08以下、約0.07以下、約0.06以下、約0.05以下、約0.04以下、約0.03以下、約0.02以下、又は約0.01以下であり得る。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0.009以下、約0.008以下、約0.007以下、約0.006以下、約0.005以下、約0.004以下、約0.003以下、約0.002以下、又は約0.001以下であり得る。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの臨床的有意性は、多変量分析ハザード比P値(mvaHRPval)に基づいてもよい。予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0~約0.60であり得る。ML予測モデルの有意性は、多変量分析ハザード比P値(mvaHRPval)に基づいてもよい。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0~約0.50であり得る。予測モデルの有意性は、多変量分析ハザード比P値(mvaHRPval)に基づいてもよい。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0.50以下、約0.47以下、約0.45以下、約0.43以下、約0.40以下、約0.38以下、約0.35以下、約0.33以下、約0.30以下、約0.28以下、約0.25以下、約0.22以下、約0.20以下、約0.18以下、約0.16以下、約0.15以下、約0.14以下、約0.13以下、約0.12以下、約0.11、又は約0.10以下であり得る。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0.10以下、約0.09以下、約0.08以下、約0.07以下、約0.06以下、約0.05以下、約0.04以下、約0.03以下、約0.02以下、又は約0.01以下であり得る。ML予測モデルの多変数解析ハザード比P値(mvaHRPval)は、約0.01以下、約0.009以下、約0.008以下、約0.007以下、約0.006以下、約0.005以下、約0.004以下、約0.003以下、約0.002以下、又は約0.001以下であり得る。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの性能は、AUC値によって決定され得、性能の改善は、本明細書に開示されるML予測モデルのAUC値と現在の予測モデルのAUC値との差によって決定され得る。いくつかの態様では、本明細書に開示されるML予測モデルのAUC値が、現在の予測モデルのAUC値よりも少なくとも約0.05、少なくとも約0.06、少なくとも約0.07、少なくとも約0.08、少なくとも約0.09、少なくとも約0.10、少なくとも約0.11、少なくとも約0.12、少なくとも約0.13、約0.14、少なくとも約0.15、少なくとも約0.16、少なくとも約0.17、少なくとも約0.18、少なくとも約0.19、少なくとも約0.20、少なくとも約0.022、少なくとも約0.25、少なくとも約0.27、少なくとも約0.30、少なくとも約0.32、少なくとも約0.35、少なくとも約0.37、少なくとも約0.40、少なくとも約0.42、少なくとも約0.45、少なくとも約0.47、若しくは少なくとも約0.50、又はそれ以上大きい場合、本明細書に開示されるML予測モデルは、現在の予測モデルよりも優れている。いくつかの態様では、本明細書に開示されるML予測モデルのAUC値は、現在の予測モデルのAUC値よりも少なくとも約0.10大きい。いくつかの態様では、本明細書に開示されるML予測モデルのAUC値は、現在の予測モデルのAUC値よりも少なくとも約0.13大きい。いくつかの態様では、本明細書に開示されるML予測モデルのAUC値は、現在の予測モデルのAUC値よりも少なくとも約0.18大きい。本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの性能は、オッズ比によって決定され得、性能の改善は、本明細書に開示されるML予測モデルのオッズ比と現在の予測モデルのオッズ比とを比較することによって決定され得る。2つ以上の予測モデルの性能の比較は、一般に、第1の予測モデルの(1オッズ比)の絶対値と第2の予測モデルの(1オッズ比)の絶対値との比較に基づくことができる。一般に、(1オッズ比)の絶対値がより大きい予測モデルは、(1オッズ比)の絶対値がより小さい予測モデルと比較して、より優れた性能を有するとみなされ得る。
【0198】
いくつかの態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルの性能は、オッズ比及び95%信頼区間(CI)の比較に基づく。例えば、第1の予測モデルは、第2の予測モデルよりも大きな絶対値(1オッズ比)を有し得るが、第1の予測モデルの95%CIは、1と重なり得る(例えば、低い精度)が、第2の予測モデルの95%CIは、1と重ならない。この例では、第1の予測モデルの精度は、第2の予測モデルの精度よりも低いため、第2の予測モデルは、第1の予測モデルよりも優れているとみなされる。別の例では、第1の予測モデルは、オッズ比の比較に基づいて、第2の予測モデルよりも優れている可能性があるが、第1の予測モデルの95%CIの差は、第2の予測モデルの95%CIよりも少なくとも約2倍大きい。この場合、第2の予測モデルは、第1の予測モデルよりも優れているとみなされる。
【0199】
いくつかの態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルは、現在の予測モデルよりも正確である。本明細書に開示されるML予測モデルは、本明細書に開示されるML予測モデルの95%CIの範囲が1にまたがるか又は重ならず、かつ現在の予測モデル又は臨床変数の95%CIの範囲が1にまたがるか又は重なる場合、現在の予測モデルよりも正確である。いくつかの態様では、本明細書に開示されるバリアント(例えば、ミスセンスバリアント)の表現型への影響を診断及び/又は予測するためのML予測モデルは、当該技術分野で既知の現在の予測モデルよりも正確である。いくつかの態様では、本明細書に開示されるML予測モデルは、本明細書に開示されるML予測モデルの95%CIの範囲の差が、現在の予測モデルの95%CIの範囲の差よりも約0.70、約0.60、約0.50、約0.40、約0.30、約0.20、約0.15、約0.14、約0.13、約0.12、約0.10、約0.09、約0.08、約0.07、約0.06、約0.05、約0.04、約0.03、又は約0.02倍小さい場合、当該技術分野で既知の現在の予測モデルよりも正確である。本明細書に開示されるML予測モデルは、本明細書に開示されるML予測モデルの95%CIの範囲の差が、現在の予測モデルの95%CIの範囲の差よりも約0.20~約0.04倍小さい場合、現在の予測モデルよりも正確である。
【実施例
【0200】
実施例1
MSH2(MutSホモログ2)/MSH6(MutSホモログ6)ヘテロ二量体の予測モデル
ある特定の例では、天然のMSH2/MSH6ヘテロ二量体を、MDを使用してシミュレートして、コンフォメーション動力学を生成し、次いで、これを使用して、天然のコンフォメーションランドスケープを決定した。コンフォメーション動力学から、低次元表現を決定し、次いで、これを使用して、30の準安定なコンフォメーション状態を特定した。図6を参照されたい。これらのコンフォメーションの各々から、MSH2タンパク質に45のバリアントを導入し、各バリアントについてシミュレーションを行った。各バリアントは、1~25nsの間、30の状態の各々で10回シミュレーションし、バリアント当たりの合計は1マイクロ秒未満であった。これと比較して、天然のMSH2/MSH6ヘテロ二量体を約5マイクロ秒間シミュレートして、コンフォメーションランドスケープを決定した。
【0201】
各バリアントのシミュレーションを処理して、各状態の各軌跡における各コンフォメーションの構造的特徴(骨格二面角(φ、ψ角)、15nmの近くにあるアミノ酸の数によって定義される各アミノ酸位置の連結性又は18nmより近いアミノ酸対の残基間距離のいずれか)を最初に抽出することによって次元数を削減した。次いで、データの次元数を、PCA又はtICAを使用して、状態ごとに64の特徴の最終次元数に更に削減した。
【0202】
モデル訓練では、必要なシミュレーション時間の最小量を決定するために、モデリングでどのくらいの軌跡データが使用されるかを試験した。3つのデータセット定義:4つの状態について10nsの1回の繰り返し(バリアント当たり40ns)、17の状態について5nsの1回の繰り返し(バリアント当たり85ns)、又は11の状態について3nsの2回の繰り返し(バリアント当たり66ns)を使用した。図8を参照されたい。これは、天然MSH2/MSH6ヘテロ二量体のコンフォメーションランドスケープを決定するために必要な約5マイクロ秒のシミュレーションと比較して、バリアントごとに必要なシミュレーション時間の劇的な短縮を示した。
【0203】
まとめると、5つの次元削減法(二面角、tlCA;連結性、tlCA;二面角、PCA;接触、PCA;及び連結性、PCA)及び3つのデータセット定義(10ns、1回の繰り返し、4つの状態;5ns、1回の繰り返し、17の状態;3ns、2回の繰り返し、11の状態)を、特徴量化法及びデータセット定義のハイパーパラメータチューニングに使用した。
【0204】
次いで、削減された次元数のデータを、ハイパーパラメータチューニングを行うためにsklearnパイプラインを使用してモデル化した。データの25%を試験セットとして確保し、残りのデータを5分割交差検証セットに分割した。交差検証セットは、ランダムフォレストモデル、推定器の数、ノードを分割する最小サンプル数、木ごとの最大特徴数、木の最大深度、及び葉ごとの最小サンプルを調整するハイパーパラメータを使用して訓練した。ハイパーパラメータチューニングは、F1精度スコアに対してスコアリングした。交差検証セットの性能を使用して、特徴量化法及びデータセット定義を評価した。ホールドアウト試験セットを使用して、交差検証性能に基づいてトップモデルを選択した後、モデルの一般化を評価した。
【0205】
特徴量化法、データセット定義、モデルのハイパーパラメータチューニングから、ほぼ全ての組み合わせで高性能精度(>0.8)を達成した。図9に示されるように、本開示の方法に従って生成された最高の性能のモデル(LSSモデル)の性能を、バリアントの選択に対して、配列ベースのモデル及びFoldXベースのモデルにおける同じバリアントの性能と比較し、真のラベルと比較した場合、これらのバリアントの全体的なLSSモデル予測は、真のラベルに近かった。交差検証セットからの最高の性能のモデル(LSSモデル)(アミノ酸連結性、tICA次元削減を使用して)は、ホールドアウト試験セットに対してモデル性能を達成し、これは、配列ベース及びFoldXベースのモデルの性能よりも優れていた。図10に示されるように、本明細書に開示される方法(LSSモデル)に従って開発されたMSH2/MSH6ヘテロ二量体の予測モデルの性能は、受信者動作特性(ROC)曲線下面積によって測定されるように、例えば、FoldX、Polyphen、又はプロセスscikit(INVITAE(商標)が開発した計算予測器)を使用して開発された代替方法よりも良好であった。LSSモデルは、0.997AUCのモデル性能を達成し、一方、FoldX、Polyphen、及びプロセスscikitは、それぞれ、0.919、0.900、及び0.900AUCの性能を達成した。
【0206】
VII.用語
本開示をより容易に理解できるようにするために、まず、特定の用語を定義する。本開示で使用される場合、本明細書で明示的に提供される場合を除き、以下の用語の各々は、以下に記載される意味を有するものとする。追加の定義は、本開示全体を通して記載されている。
【0207】
文脈が別途明確に指示しない限り、単数形の「a」、「an」、及び「the」は、複数の指示語を含む。「a」(又は「an」)という用語、並びに「1つ以上(one or more)」及び「少なくとも1つ(at least one)」という用語は、本明細書では互換的に使用することができる。特定の態様では、という用語「a」又は「an」は、「単一の」を意味する。他の態様では、「a」又は「an」という用語は、「2つ以上」又は「複数」を含む。
【0208】
更に、「及び/又は」という用語は、本明細書で使用される場合、他方を伴うか若しくは伴わない2つの特定の特徴又は成分の各々の具体的な開示として理解されるべきである。したがって、本明細書の「A及び/又はB」などの語句で使用される「及び/又は」という用語は、A及びB、A又はB、A(単独)、及びB(単独)を含むことが意図される。同様に、「A、B、及び/又はC」などの語句で使用される「及び/又は」という用語は、以下の態様の各々を包含することが意図される:A、B、及びC;A、B、又はC;A又はC;A又はB;B又はC;A及びC;A及びB;B及びC;A(単独);B(単独);並びにC(単独)。
【0209】
本明細書に記載されるように、任意の濃度範囲、パーセンテージ範囲、比率範囲、又は整数範囲は、別段の指示がない限り、列挙した範囲内の任意の整数の値、及び適切な場合、その分数(整数の10分の1及び100分の1など)を含むと理解されるべきである。
【0210】
態様が、「含む(comprising)」という用語で本明細書に記載されるいかなる場合も、「からなる(consisting of)」及び/又は「から本質的になる(consisting essentially of)」という用語で記載される別法の類似の態様もまた提供されることが理解される。
【0211】
単位、接頭辞、及び記号は、国際単位系(SI)で承認された形式で表される。本明細書で提供される表題は、本開示の様々な態様の限定ではなく、本明細書全体を参照することによって理解され得る。したがって、定義される用語は、本明細書全体を参照することによってより完全に定義される。
【0212】
「約」、「から本質的になる(comprising essentially of)」、又は「から本質的になる(consisting essentially of)」という用語は、当業者によって決定される、特定の値又は組成物について許容可能な誤差範囲内にある値又は組成物を指し、これは、値又は組成物がどのように測定又は確定されるか、すなわち測定システムの限界に部分的に依存する。例えば、「約」、「から本質的になる(comprising essentially of)」、又は「から本質的になる(consisting essentially of)」は、当該技術分野の慣例に従って、1又は1を超える標準偏差内を意味し得る。代替的に、「約」、「から本質的になる(comprising essentially of)」、又は「から本質的になる(consisting essentially of)」は、最大10%の範囲を意味し得る。更に、特に生物学的システム又はプロセスに関して、この用語は、最大1桁又は最大5倍の値を意味する場合がある。本開示及び特許請求の範囲において特定の値又は組成物が提供される場合、別段の記載がない限り、「約」、「から本質的になる(comprising essentially of)」、又は「から本質的になる(consisting essentially of)」という意味は、その特定の値又は組成物について許容される誤差の範囲内であると考えるべきである。
【0213】
本明細書で使用される場合、「およそ」という用語は、1つ以上の目的の値に適用される場合、記載される参照値に類似する値を指す。特定の実施形態では、「およそ」という用語は、別段の記載がない限り、又は文脈から明らかでない限り、記載された参照値のいずれかの方向(より大きいか、より小さい)で、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、又はそれ未満内に収まる値の範囲を指す(そのような数値が可能な値の100%を超える場合を除く)。
【0214】
概要セクション及び要約セクションではなく、詳細な説明セクションが、実施形態を解釈するために使用されることが意図されることを理解されたい。概要セクション及び要約セクションは、本発明者(複数可)によって企図されるように、本発明の1つ以上だが全てではない例示的な実施形態を説明することができ、したがって、本発明及び添付の実施形態をいかなる形でも限定することを意図するものではない。
【0215】
本発明は、特定の機能及びそれらの関係の実装を例示する機能的ビルディングブロックを用いて上で説明されている。これらの機能的ビルディングブロックの境界は、本明細書において、説明の便宜のために任意に定義されている。特定の機能及びその関係が適切に行われる限り、代替的な境界を定義することができる。
【0216】
特定の実施形態の前述の説明は、本発明の一般的な性質を完全に明らかにするものであるため、他の者は、当該分野の技術の範囲内で知識を適用することによって、本発明の一般的な概念から逸脱することなく、過度の実験を行うことなく、かかる特定の実施形態を様々な用途に容易に修正及び/又は適合させることができる。したがって、かかる適合及び修正は、本明細書に提示される教示及び指針に基づいて、開示される実施形態の均等物の意味及び範囲内にあることが意図される。本明細書における用語又は専門用語は、本明細書の用語又は専門用語が、教示及び指針に照らして当業者によって解釈されるように、説明を目的とするものであり、限定するものではないことが理解されるべきである。
【0217】
本発明の幅及び範囲は、上記の例示的な実施形態のいずれかによって制限されるべきではなく、以下の実施形態及びそれらの均等物に従ってのみ定義されるべきである。
【0218】
本開示全体を通して引用され得る全ての引用文献(参考文献、特許、特許出願、及びウェブサイトを含む)の内容は、それらに引用されている参考文献と同様に、任意の目的のためにそれらの全体が参照により本明細書に明示的に組み込まれる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【国際調査報告】