【実施例】
【0048】
実施例1:コード突然変異の作用の測定
A.論拠及び手法
1.進化作用(EA)方程式
コード突然変異は、折り畳み、動力学、標的、相互作用、及びタンパク質を機能可能にする多くの他の特徴を乱す。個々の各特徴が配列にいかに依存するかを計算する確実な方法は存在しないため、突然変異への各特徴の応答をスコア付けして、合算し、タンパク質機能への幾らかの突然変異の全体的な影響を推測することができない。
【0049】
その代わり、本発明では、遺伝子型−表現型関係を引き合いに出すことにより、この問題への「システム」解決策が提案される。タンパク質配列(r
1,r
2,・・・,r
n)が、γと呼ばれるタンパク質遺伝子型を定義するものとし、その機能特徴一式が、φと呼ばれるタンパク質適応表現型を定義するものとする。遺伝子型が適応をエンコードする際、進化関数fが存在すると仮定する。
f(γ)=φ (1)
(時間及び外部制約は暗示的である)。長い時間尺度にわたり、進化は「平滑」であるとも仮定し、したがって、fは微分可能であり、進化勾配
∇f
が存在する。そうすると、遺伝子型摂動dγは、
∇f・dγ=dφ (2)
により与えられる表現型応答dφを生じさせることになる。最後に、残基位置iでの単一ミスセンス突然変異の場合、摂動ベクトルdγの唯一の非ゼロ成分は、i番目の成分Δr
iであり、一次近似に向けて、式(2)は
【数2】
に低減する。
【0050】
この進化作用(EA)方程式又は単に作用は、点突然変異の適応影響を定義する。驚くべきことに、fは全体を通して未知のままであるが、この研究は、置換大きさのように、その導関数が有益に近似することができることをテストし、示す。そうすると、式(3)の左辺は、任意のタンパク質、配列位置、及び置換について近似されて、突然変異の有害性を提供し、正の選択を識別し、疾患遺伝子の発見をガイドすることができる。
【0051】
他の考慮事項。式(1)は、遺伝子型−表現型結合モデルを単純に保つために、翻訳後修飾(又はエピジェネティック効果)を無視している。式(2)及び(3)は、点突然変異を進化尺度での「無限小」として見る。これが、ヒューマンスケールでのこれらのイベントの有害性を無視しないことを後に示す。
【0052】
2.進化勾配∂f/∂r
iを測定するために
式(3)は、
∂φ/∂r
i≒Δf/Δr
i (4)
と書き換えることができ、したがって、偏導関数は、適応が残基iでの摂動に対していかに応答するかを記述する。しかし、これは、あらゆる配列位置の重要性のETランクと同一であり、その理由は、突然変異が大きな系統発生変化に結合する位置ほど、ETランクが良好であるためである。したがって、ETを用いて勾配を近似し得、出現が新しいET法ほど正確であるため、それらの新しいET法がEAスコアを改善するか否かをテストすることができる(以下参照)。
【0053】
他の考慮事項。(i)機能部位及びアロステリックパスウェイを同定し、機能をブロック又は再プログラムする突然変異をガイドし、進化勾配の一般性を証明する基質特異性等のラージスケールでの機能を予測する構造的モチーフを定義した従来のET研究。(ii)ETは、アラインメントの生成に十分な既知のホモログ(少なくとも15〜20の関連配列)を有する任意のタンパク質の任意の配列位置について計算することができる。(iii)ETに精通した読み手は、ETが0(最良)〜1(最悪)のパーセンタイルで残基の重要性をランク付けることを想起し得る。進化勾配は、
(∂f/∂r
i=1−ETランク(i))
であるように逆にされる。
【0054】
3.置換大きさの測定
式(3)中の第2項は、置換のサイズΔr
iである。Δr
iを計算するために、相対進化置換率を使用する。その論拠は、アラニン及びセリン等の生物物理的類似性及び化学的類似性が大きい、すなわち、「近い」アミノ酸ほど、いずれとも類似性が低いアスパラギン酸塩の場合よりも相互に置換する頻度が高い。したがって、BLOSUM62等の転位行列は、対数オッズに関して置換の相対サイズを近似し得る。多くのタイプの置換行列があるため、どの置換行列がEAスコアを改善することができるかを評価する必要がある。
【0055】
B.性能評価及びデータ例
1.実験コントロール
EAを実験データセットと突き合わせて比較して、項∂f/∂r
i及びΔr
iの改善を評価する。
・E.coliでの4,041個のlacリプレッサー突然変異をβガラクトシダーゼ抑制について検査し、抑制活性が20倍未満に落ちた場合、有害と判断し、残りを中立と判断した。
図2A中、EAは、有害割合に相関した(R
2=0.94)。
・336個のHIV−1プロテアーゼ突然変異をGag及びGag−Pol前駆タンパク質からの分解産物の濃度により検査し、産物がわずかであるか、又はない場合、有害と分類し、一方、残りは中立と見なされた。
図2Cは、EAが分解喪失と相関する(R
2=0.96)ことを示す。
【0056】
他の考慮事項。(i)これらは大きな相関であるが、個々の値はビンの平均よりも散乱し得、プロットの幾つか(
図2A)は、線形性からのずれを示唆する。これらは、よりよいピアソン係数R
2によりガイドされる進化勾配及び置換行列を更に改善する理由である。(ii)これらのテストを実行する他の大規模データセットも有し、生じ得るバイアスを低減する(バクテリオファージT4内の2,015個のリゾチーム突然変異をリゾチームの宿主細胞壁破壊に起因したプラーク形成について検査し、2,314個のp53突然変異体をトランス活性化について検査した)。
【0057】
2.方法論的コントロール
EAをポリフェン2、SIFT、及びMAPP等の他の方法と比較することもできる。一テストは、ROC曲線下面積(AUC)を通して有害突然変異を分類することへの各手法の感度及び特異性を測定するというものである(
図2B及び
図2D)。lacリプレッサー及びHIV−1プロテアーゼに関して
図2B及び
図2Dに示されるように、EAの性能は最高である。
【0058】
他の考慮事項。上述したように、本発明者らは、ブラインドCAGIコンテストに参加した。2011年、84個の突然変異体が、正常はCYS4オルソログがない場合の酵母成長の回復について、カリフォルニア大学バークレー校のJasper Rine博士により、2つの異なる成長条件下で検査された。2013年、p16突然変異体の体外活性が、異なる時点での細胞増殖をブロックする能力について、Maria Chiara Scainiらにより検査された。本発明者らによる1回の提出は、2011年では1番にランクされ、2013年では2番(トップ提出のグループは他に3つの提出を有し、そのうちの2つは最下位近くにランクされ、1つは中間であった、
図3参照)にランクされた。重要なことに、全ての方法は大きなデータセットでトレーニングされた統計学的及び機械学習であり、それとは対照的に、本発明者らは本発明による分析手法を使用した。
【0059】
C.進化勾配の近似を改善するために
1.本質的により平滑なETアルゴリズム
本発明のデータ例は、∂f/∂r
iの近似に十分に確立されたバージョンのET108を使用した。新しい研究ほど、機能部位をよりよく同定する新規のETバージョンを代わりに使用することが有利であり得ることを示唆し、その理由は、進化重要性のETランクが、構造においてより平滑に分布する(すなわち、ETランクのラプラシアンの二次形式が最小化される)ためである。この新しいETは、タンパク質構造内の残基の接触対のランクを計算し、所与の残基についてランクの平均を出して、ETランクを見つける。この対相互作用ET又はpiETは、従来は見逃されてきた機能部位を同定し、5又は6個のトップランクの残基91の鋳型に基づいて、構造的プロテオーム全体にわたりタンパク質機能予測を改善する。恐らく、この新しいアルゴリズムは、∂f/∂r
iをよりよく近似する一手法を提供する。
【0060】
潜在的な危険。3D構造は利用可能ではないことがある。利用可能ではない場合、2つの対処的手法をテストすることができる。第1に、ホモロジーモデルは、例えば、ModBase及びSwissモデルで置換されるか、これらを用いて予め計算されるか、又はI−TASSER及びMUFOLDを用いて作成される。代替的には、piETの予備的1D実施を使用することができる。この1D piETは、配列に沿った最近傍にわたるETランクのラプラシアンの二次形式を最小化する。それ自体でなお、機能部位のET同定を大幅に上昇させることが可能であった(74個のタンパク質のテストセットの構造を考慮した場合の23%と比較して、これらの74個のタンパク質のテストセットにおいてzスコアを15%改善)。
【0061】
2.よりよい複数配列アラインメント(MSA)
配列アラインメントは、ETにとって重要であり、現在、各タンパク質に最適化されていない多くの選択(配列の類似性、挿入の程度、及び欠失に応じて、どのデータベース、検索及びアラインメントツール、及びどのホモログを含めるか?)を必要とする。一手法は、多種多様な配列データベース(NCBI非冗長データベース、Uniref90、Uniref100)への照会をBLASTすることであることができ、次に、配列データベースは、アラインメントのパラメータを変更させて、3つの方法:MUSCLE、MAFFT、及びClustalOmegaを用いてアラインすることができる。次に、各MSAの進化トレース分析の平均をとり、グローバルパーセンタイルランクを生成することができる。予備結果は、この平均が、単一の最良機能MSAと同程度良好であり、事例の75%で任意の個々のMSAよりも良好なAUCをもたらすことを示す。より良好であるが、計算的需要がより高い手法は、あらゆる異なるMSAから導出されるETランクの平滑性を評価して、先に示されたように、構造又は配列内でどれが良好であるかを判断するというものである。
【0062】
他の考慮事項。遺伝子複製(パラログ)は、機能的に多種多様であり得、不正確なETに繋がる。この状況は通常、タンパク質ファミリ全体のトレースと、対象となるタンパク質の近傍に制限されたブランチのトレースとの相違を認識する相違ETを用いて対処される。このプロセスは、固有のETトレース結果を求めて系統発生学的ツリー検索をトラバースすることにより、自動化することができる。系統発生学的ツリーのノードiの選択は、異なる配列集合に繋がり、これは、ETランク(x
j)の固有の集合に繋がる。タンパク質内の各位置のランク間の差を合算することにより、ノードjのETトレースとノードkのETトレースとを比較することができる。d
jk=Σ
i|x
j,i−x
k,i|。この関数は、ノード固有のETトレース間の類似性を表す距離行列(d)を提供する。次に、クラスタ化アルゴリズム(階層又は品質閾値等)を使用して、類似するETシグネチャを有するノードの集合を識別することができる。これにより、クエリタンパク質により関連する、開始ツリーから明らかに異なる分析を提供するノードの識別に繋がる。
【0063】
D.置換行列の近似を改善するために
1.より関連のある置換行列
予備置換対数オッズは、PDBデータベースの67,000のタンパク鎖に基づいた−サンプリングバイアスが生じた。行列が計算される配列は、対象となるタンパク質により特異的であるべきである。これは、(a)構造が利用可能であるか否かに関係なく、配列の参照セットを利用可能なもの全てに拡大し、(b)a%よりも大きな配列同一性を有する配列を削除することにより、冗長性バイアスをなくし(例えば、a=75%)、(c)参照配列を対象となる種のみ、多くの場合はモデル種(例えば、ヒト、マウス、ラット、ハエ、カエル、ミミズ、E.coli等)に限定し、(d)配列を同じGO注釈の細胞位置を有するものに制限し、(e)参照配列毎に、大半が機能的に関連する配列であるように、b%を超える配列同一性を有する配列のみを含むMSAを構築する(例えば、b=50%)ことにより行うことができる。この手法は、対象となるタンパク質により細かく合わせられた置換行列を生成することができる。
【0064】
2.ET依存置換行列
異なる進化勾配を有する配列位置の中で、相対置換率が同一であることは驚くべきことである。実際に、平均で、より大きなタンパク質の集合からの置換オッズは標準値に一致するが、進化勾配に応じて、この平均からの顕著なずれがある。例えば、アラニンからバリンへの置換オッズは、進化勾配が変化するにつれて、ベル型分布を形成し、アラニンからトレオニンへの置換オッズは、最初は平らであり、それから次第に小さくなり、一方、アラニンからアスパラギン酸塩への置換オッズは絶え間なく減衰する。これらのデータは、進化勾配が置換バイアスにおいて重要な因子であることを示し、本発明では、Δr
iを進化勾配−感度置換オッズにより近似することができる。予備データでは、ET依存置換行列は、ピアソンR
2及びAUCを5%〜10%改善する。
【0065】
他の考慮事項。(i)既知又は予測される(APSSP2、PSIPRED、JPRED、及びNPS@等の予測子を用いて)二次構造を説明し、三次構造に基づく溶媒露出度を説明するように、置換行列を更に改良することができる。予備データでは、これらは、有用であり、ET依存効果とは別個/相補的な変動を導入する。
【0066】
E.ベンチマーク及び予期される結果
∂f/∂r
i及びΔr
iのこれらの近似を互いと突き合わせて及び他の方法と突き合わせて評価するために、B.1において考察したデータセットを別個のトレーニングセット及びテストセットに分割することができる。テストは以下を含む。
【0067】
1.ピアソン線形相関の改善
ピアソンR
2線形相関係数及びEAの傾きと機能喪失突然変異の割合との関係を測定することができる。信頼区間を定義するブートストラップ法により、任意の改善の統計学的有意性を評価することができる。より広くは、線形相関係数が、線形関係の尺度として最良に機能し、代わりに線形相関関数がy=bx
aの形態である場合、乗法関係が予期され、対数変換を適用し、線形モデリング法を利用することが適切であることができることに留意する。
【0068】
2.AUCの改善
ROC曲線下面積は、感度(真の陽性率)と特異性(真の陰性率)との関係をプロットし、したがって、AUCは、正相関予測では0.5〜1である。ROC及びAUCに対処する統計学的方法は、ROCの分布を平均及び分散を有する正規分布として近似する(Pepe2003のセクション5.2.3の式5.2において与えられる)ことにより、十分に大きな標本サイズで、一定の偽陽性割合でのROC曲線の信頼区間を見つけることができることを示す。経験的AUCは、ウイルコクソン順位和検定であり、したがって、この統計でも同様に信頼区間を特定することができる。さらに、より小さな標本サイズで良好に機能する、式(5.10)により与えられる標本分散に基づいて、対数オッズAUCの信頼区間を見つけることができる(Pepe2003、セクション5.2.5)。EAのAUCを別の方法と比較することも可能であり、信頼区間及び標本分散は、AUCでの差について、Pepe2023、セクション5.2.6に与えられる。標本サイズが小さすぎるか、又は正規性仮定が満たされない場合、本発明では、ブートストラップ法を使用して、AUCの信頼区間を特定することができる。ROC曲線及びAUCは、RパッケージROCRを使用して計算し、作成することができる。
【0069】
3.現況技術の計算モデルとの比較
これらのテストは、EAをSIFT、ポリフェン2、MAPP、A−GVGD、SNAP、MutPred、及び突然変異アセッサー(他の方法:PANTHER、SNPs&GO、nsSNPAnalyer)等の他の方法と比較するのに適用することもできる。
【0070】
他の考慮事項。(i)本発明者らは、CAGI及びDREAM等の国際ブラインドアセスメントコンテストに参加し続ける。(ii)タンパク質は多機能であり、突然変異についての特定の実験アッセイ間に相違が存在し得る。これらの問題を研究するために、後ろ向きp53データセットが、p53活性の8つの異なるアッセイに対して突然変異的影響を与えることに留意する。EAをそれぞれ1つ又はそれらの平均と比較することができる。これまで、最良の適応(R
2=0.92)は平均を用いてのものである。(iii)異なる手法の相補性を評価することが重要である。次のセクションでは、それを行う方法について説明する。
【0071】
F.ミスセンス突然変異の予測結合
本発明者らは、捕捉−再捕捉パラダイムに基づくpostMと呼ばれる統計学的モデルを開発した。捕捉−再捕捉パラダイムとは、統計学的に厳密に有害影響の調和しない予測を結合し、その結果得られる、任意のミスセンス突然変異での機能性及び病原性の事後確率を推定する。この確率手法は、トレーニングセットも較正も必要としない。この確率手法は、異なるアルゴリズムが一致又は不一致であるデータのサブセットを分析することにより、ゴールドスタンダードがない状態で、個々の各コンピュータ内での方法の精度(感度及び特異性)と、有害である突然変異の割合を推定する。重要なことに、この枠組みにより、問い合わせられたアルゴリズムの読み取りを所与として、所与の部位での変異体が機能的に重要である事後確率を計算することができる。さらに、本発明者らは、追加の階層を導入することにより、より複雑であるが、より正確でもあるpostMutモデルを得た。実際には、本発明者らは、タンパク質機能に対して既知の機能的影響を及ぼすミスセンス突然変異への幾つかの適用を研究し、両アルゴリズムとも、シミュレーションデータで広くテストされ、
図4A及び
図4Bに示される好都合な結果を有した。
【0072】
他の考慮事項:PostMutはバイナリ予測を結合し、一方、アルゴリズムの大半は連続スコアを提供する。本発明は、新しいアルゴリズムpostMut−2においてこの欠点をなくすことができ、postMut−2では、幾つかのアルゴリズムの連続スコアに基づいて、機能的な変異体の事後確率を推定することができる。
【0073】
実施例2.疾患原因遺伝子の同定
A.論拠:集団でのEA分布
EAは適応性の変化と相関するため、個人の集団は、より大きな作用を有するより少数のコード多型を有するはずである。
図5A(破線)は、作用(EA)の関数として、1000ゲノムプロジェクト(TGP)からの261,899個の固有のコード変異の頻度を示す。特に接合性、優性、遺伝的背景、又は形質関連性に関せずに、有害性の影響の他の尺度(図示せず)とは対照的に、作用分布は略指数関数的(R
2=0.92)である。これは、集団が、適応性に伴って略指数関数的に多型を失うというFisherの1930年の予測に一致するが、その実験的検証は、ゲノム変異体の適応効果のサイズに実用的な尺度がないことに起因して、今までなかった。EA分布の減衰率(λ)は、必須遺伝子(細線及び太線の実線)で大きく、切断遺伝子(点線)では低く、対立遺伝子頻度(v)と対数線形である(
図5B、R
2=0.92)。これらのデータは、大きなEAスコアを有する変異ほど、より厳密に純化されることを示す。本発明者らの仮説は、このEAベースの純化パターンからのずれが、疾患に関連する異常な選択的制約を示すというものである。したがって、疾患原因突然変異、遺伝子、及びパスウェイが、それらを同定する異なるEA分布を有し、EA測定が改善するにつれてより有意性を得ることをテストすることができる。
【0074】
他の考慮事項:適応変化は、有益であってもよく、正の選択を受けることができる。しかし、EA分布の略指数関数的な減衰は、大半のコード変異が選択され、有利な突然変異はまれであり、せいぜい略中立の進化理論と一致しなければならないことを示す。
【0075】
B.EAスコアの分布に基づいて良性突然変異と疾患原因突然変異とを区別するために、まず、良性又は疾患関連のいずれかとして分類することができ、健康な患者又は罹患患者から様々にとられた突然変異及び遺伝子のEAスコアの分布を調べる。
【0076】
1.データソース
UniProt(LOVD−Leiden Open Variation Database及びHGMD−Human Gene Mutation Databse−として)は、手作業で精選(hand-curated)され、20,343個のヒト遺伝子について、表現型の参照及び説明を有するとともに、多型が疾患関連であるか、それとも中立であるか、それともまだ分類されていないかを報告する。これらの遺伝子を研究して、良性突然変異及び疾患突然変異でのEAスコアの分布を比較することができる。例として、それぞれが複数の疾患関連変異、良性変異、及び少数の未分類変異を有する218個の遺伝子の集合を選択した。これらの遺伝子の中で、TSC2(結節性硬化症2疾患)及びPKD1(多発性嚢胞腎1型)は、52個及び95の疾患連鎖突然変異並びに30個及び59個の良性変異をそれぞれ有する。
【0077】
多くの他の遺伝子固有データベースも存在し、例えば、TP53は、ヒトのがんで単一の最も突然変異するタンパク質であるp53をエンコードし、IARC(国際がん研究機関)は、ヒト腫瘍標本からの30,000を超えるTP53体細胞変異のデータベースを保持する。これらの突然変異は、有意性が不確かな散発性の突然変異から原因突然変異を区別するために、頻度により群化し得る。さらに、p53突然変異の略全てが、8つのp53応答要素での体外トランス活性化について酵母研究で検査されている。
【0078】
他の考慮事項:疾患関連遺伝子は、マウスの胚致死から(www.knockoutmouse.org)及びヒトの脳の過剰発現データから(http://www.ebi.ac.uk/gxa/)来ることもできる。良性変異のソースは、1092人の健康な個人で見つかったSNVを含む1000ゲノムプロジェクト(TGP)である。これらの注釈は、全てが等しく信頼できるものではない。最良のデータは、独立したデータベースが一致する場合に現れる。
【0079】
2.実験設計
これらのデータセットを使用して、良性突然変異と疾患関連突然変異との間でEAスコアの分布を比較することができる。個々の各突然変異で、EAスコアを式(3)から計算し、EA十位数によりビニングすることができる。
図6A〜
図6Eでの予備データは、これらの分布が大いに異なることを示す。TP53では、頻繁に見られ(10以上の事例)、原因である可能性が高い突然変異は、高作用にかなりスキューされ(skewed)、散発性TP53突然変異の平らなEA分布と統計学的に異なる(カイ二乗p値=9×10
-34)。EAスコアの分布は、TSC2及びPKD1の両方の疾患変異及び良性変異(ウイルコクソン順位和p値<0.01)及びUniProtデータベースからの全ての218個の遺伝子の間(ウイルコクソン順位和p値<10
-16)でも異なる。定量的に、これらの差は2つの方法で測定することができる:各分布にフィッティングされた指数関数の減衰率λの差を用いる方法及びブートストラップ実施に続けて、信頼区間により突き止められる統計学的有意性を用いる方法。または各突然変異をEAスコアに基づいて良性又は有害として分類し、次に、感度−特異性ROC(上記の実施例1参照)下のAUCを測定することにより、測定することができる。このAUCはそれぞれ、p53データでは0.86であり、218全てのタンパク質では0.85であり、SIFT、MAPP、ポリフェン、及びポリフェン2により達成されるよりも大きい(データは示されず)。
【0080】
3.期待される結果
これらの研究は、EAスコアが、コード突然変異の臨床的有害性の新規の尺度であることを示すはずである。疾患関連タンパク質では、低EAスコアを有するコード変異体は通常、良性であり、一方、有害なものは通常、より大きなEAスコアを有する。これは、予備データでのEAスコアの逆の分布バイアス及び現在約0.85であるAUCにより反映されるように、個々の遺伝子及び遺伝子集合全体に対して該当する。これらの数字は、実施例1において上述した手順の結果として、EAスコアが改善するにつれて改善することができる。
【0081】
潜在的な危険。(i)散発性突然変異が有害であることもあり、この分析の精度を下げる。これは、TP53では、機能的影響を評価する酵母ベースの体外アッセイの網羅的なバッテリー(battery)を通して対処することができる。
図6A及び
図6Bは、黒色で、p53突然変異体の有害割合(すなわち、トランス活性化の活性が平均で、8つの異なるアッセイにわたり50%低減した)を示す。体外で機能を損なった散発性突然変異は大方、カイ二乗p値2・10
-47で、大きなEAスコアにバイアスされた。したがって、高EAスコアを有する散発性突然変異は、体外で機能的に有害であり、がんでのドライバー突然変異である可能性が高い。
【0082】
C.疾患原因遺伝子を同定するために
これより、同一の疾患診断を有する患者のコホート内での突然変異のEAスコアの分布を調べる。そのようなコホートでは、繰り返し突然変異した遺伝子が原因であると考えられる。EAスコアもこれらの遺伝子を検出するか否かをテストすることができる。データ例を
図9A〜
図9Dに示す。
【0083】
1.データソース
がんゲノムアトラス(TCGA)は現在、29の腫瘍型からの約10,000のゲノムを含んでいる。国際がんゲノムコンソーシアム(ICGC)は、18の腫瘍型からの11,633のがんゲノムを含んでいる(データリリース2014年5月16日)。既知のがん遺伝子のリストががん遺伝子調査(CGC:Cancer Gene Census)から取得可能であり、CGCは現在、522のがん遺伝子をリストしている。
【0084】
2.実験設計及びデータ例
がんでの疾患原因遺伝子を同定するために、疾患コホート内の各遺伝子で見られる突然変異のEA分布を、遺伝子が疾患に関連しない場合に予期される分布と比較することができる。参照セットは、i)標準遺伝コードに従ったランダムヌクレオチド変化の翻訳により取得される、同じ遺伝子でのランダム突然変異、ii)TGPデータ(大半が健康な患者)からの同じ遺伝子での突然変異、及びiii)TCGAデータ内の任意の遺伝子で見られる全てのミスセンス変異を含む。
【0085】
全てのTGPコード変異体の背景EA分布(
図9A)は、
図5Aの破線曲線(「全ての遺伝子」)のベースである。TCGAからの全ての体細胞がん突然変異の同じ分布は、はるかに小さな指数関数的減衰率(λ=0.011)を有し、これは、ヌクレオチドがランダムに突然変異するシミュレーション分布から区別不可能である(
図9C、図により、がん細胞での大半の遺伝子変化はランダムである)。腫瘍サプレッサーTP53及びがん遺伝子PIK3CAの分布は劇的に異なり(
図9D)、高及び中EAスコアにそれぞれ強くバイアスされる。これはまた、同等のTGP分布及びがんに関連しないTCGA内の最も頻繁に突然変異する遺伝子であるDNAH5とは明らかな対照をなす。これらの結果例は、がん遺伝子のEA分布と非がん遺伝子のEA分布とを比較して、がん関連遺伝子を同定する遺伝子変化の優先的選択を検出可能なことを示唆する。
【0086】
3.統計
二標本コルモゴロフ−スミルノフ検定(q値、
図9)、ウィルコクソン順位検定、及びアンダーソン−ダーリング検定を用いて分布を比較することができる。コルモゴロフ−スミルノフは、古典的な検定であるが、漸近分布に基づいて計算される臨界値に頼り、したがって、小さな標本サイズを有する遺伝子は問題になるおそれがある。アンダーソン−ダーリング検定は、一般により強力であり、小さな標本サイズで有用であるが、コルモゴロフ−スミルノフ統計よりも遅い。ウィルコクソン順位検定も有用であり、その理由は、個々の観測の影響をあまり受けず、メジアンの差への感度が高い(コルモゴロフ−スミルノフは、分布のあらゆる差に対する感度が高い)ためである。
【0087】
他の考慮事項。これらの結果例は、EAががん遺伝子から腫瘍サプレッサーを区別し得ることも示唆する。TP53のEA分布は、高EA突然変異に向けて強くバイアスされ、その理由は恐らく、これらが遺伝子の腫瘍抑制機能を非活性化し、選択的成長利点をがん細胞に提供するためである。しかし、PIK3CAの場合、中EA値を有する突然変異が優先され、よりマイルドな影響で増強され、機能獲得突然変異であるが、機能を全てノックアウトするほどは強くない選択有利性ががん遺伝子で生じることを示唆する。
【0088】
D.特定のがんへの適用
1.頭部及び頸部のがん
これらのEA分布差を適用して、がん原因遺伝子を同定することができる。頭部及び頸部の扁平上皮がん(HNSC)でのTCGAからのデータ例は、306人の患者からの42,236個のミスセンス突然変異を使用するプロセスを示す。
【0089】
二標本コルモゴロフ−スミルノフ(KS)検定をHNSC突然変異の場合のEAスコアの各遺伝子の分布と、体細胞突然変異の場合の参照EA分布との間に適用する(TCGA HNSCデータ内の任意の遺伝子で見られた全てのミスセンス変異を使用した)。これは88の遺伝子をもたらし(p値<0.01)、そのうちの15個は、文献内の頭部及び頸部のがんに関連付けられ(TP53、PIK3CA、NOTCH1、NFE2L2、HRAS、FBXW7、EP300、MYH9、CDKN2A、CASP8、NSD1、RAC1、MAPK1、FAT1、及びPTPRT)、さらに7個の遺伝子は、他のがんに関連付けられているが、今のところHNSCには関連付けられていない(EPHA3、SMARCA4、DFNA5、PPFIA1、CUL3、DOCK2、及びZNF217)。
【0090】
潜在的な危険。複数仮説検定が懸念される。HNSC遺伝子及び他のがん関連遺伝子のかなりの豊富さにも拘わらず、ベンジャミニ−ホッホバーグの方法(1995年)に基づいてp値を誤り発見率(q値)に変換して、複数の検定を補正する場合、上位5つのみの十分に確立されたHNSC原因遺伝子が有意なまま残る:TP53(q値=7.2×10
-44)、PIK3CA(q値=2.7×10
-4)、NOTCH1(q値=2.8×10
-3)、NFE2L2(q値=3.4×10
-3)、及びHRAS(q値=5.6×10
-2)。10個の既知のHNSC遺伝子及びさらに7つの既知のCA遺伝子の消失は、この複数検定手法が保守的すぎることを示唆する。この問題に対処するために、次に、88個の遺伝子のリスト内の機能的結合の有意性に目を向ける。
【0091】
2.遺伝子クラスタ化統計
2つの手法は、がんドライバー遺伝子候補リスト(L)が、STRING(Franceschiniら、2013年)等のタンパク質間相互作用ネットワークよりも豊富であるか否かをテストすることができる。第1に、所与の次数配列を有するランダムグラフ(RGGDS:Random Graph with Given Degree Sequence)(Franceschiniら、2013年)と呼ばれ、参照(Maslov&Sneppen、2002;Pradinesら、2005年)と同様の、所与のリスト内のタンパク質の次数分布を保存するランダム背景モデルを選ぶことができる。強力なエッジエンリッチメントは、リストL内のタンパク質に接続する、少なくとも観測数xのエッジを有するRGGDSを標本化する低確率に対応する。X
LをLと同様のサイズを有するRGGDS内のタンパク質に接続するエッジの数を示す確率変数とする。そうすると、確率(p値)は、S
L(x)=P(X
L≧x)と書かれる。Lが大きい場合、X
Lは、累積確率関数P(X
L≧x)を明示的に書くことができるポアソン確率変数で近似することができる。
【0092】
第2に、独立した評価として、リストL内のがんドライバー遺伝子候補が、クラスタ化する傾向を有するか否かを判断することができる。グラフ拡散モデルは、特定のクラスに属する遺伝子群、この場合「がん候補遺伝子」の注釈をSTRING等のタンパク質間相互作用ネットワークを介して伝搬させて、関連遺伝子を暗示する。リストLの高度にクラスタ化したメンバは、リストLからのテストされた各候補遺伝子が、「抜か」れ、テストされて、その遺伝子が、リストLからの残りの候補遺伝子を使用してネットワーク拡散により予測されたか否かを調べる一個抜き交差検証から見つけることができる。拡散スコアが、ネットワーク内の全ての遺伝子の拡散スコアの平均の1標準偏差上よりも大きい場合、クラスタの一部であると見なされる。最後に、一個抜き分析が、STRINGネットワークからランダムに選択された等しい数の遺伝子に関して、遺伝子リストLの統計学的に有意なエンリッチメントになるか否かをテストするために、各事例でクラスタ化する遺伝子の割合を比較することができる。STRINGネットワーク内のランダムな遺伝子セットのクラスタ化を推定するために、このプロセスを少なくとも1000回繰り返すことができる。
【0093】
実際に、TCGAからの頭部及び頸部の扁平上皮がん(HNSC)の分析から得られるがん遺伝子候補を10〜100個の遺伝子の範囲のランダム遺伝子セットと比較した(
図10)。HNSC遺伝子50個未満の任意の数の場合、クラスタ化の割合は、同数のランダムに選択された遺伝子の場合のクラスタ化の割合から少なくとも3.26標準偏差、離れていた。これは、一個抜き分析が、がんへの関連が予測された遺伝子を分けるp値のカットオフにある程度の信頼性を提供することを強く示唆する。(上位5つの遺伝子が除去される場合、クラスタ化は有意なままである(1.95標準偏差))。
【0094】
予期される結果及び追加の指示。これらの研究は、EAスコアの分布が、機能関連性から生じる有意性の追加を伴って、突然変異頻度に大方基づく方法が同定できない潜在的ながん原因遺伝子を同定する新規の手法を提供することを示すことができる。そして、これらの遺伝子は、実験テストの候補である。追加の指示として、同方法は、がん以外の複雑な遺伝性疾患への遺伝子の関連性(又は非関連性)に適用することもできる:各多型の対立遺伝子頻度及び異なる人種群間の多様性を考慮に入れて、疾患コホート内で見られる生殖細胞系列突然変異の作用をTGP内で観測される突然変異の作用と比較することができる。
【0095】
他の考慮事項。(i)これは、MutSig及び他の技法のように、他のタイプの突然変異を考慮に入れていない。しかし、他のパラメータ(ナンセンス突然変異、K
A/K
S比検定等)を有するEAスコアを機械学習スキーマに組み込み、がん関連遺伝子を優先することができる。(ii)より気がかりなのは、多くの遺伝子が、多くの他の遺伝子での突然変異によりパスウェイが乱されるため、疾患に散発的に寄与し得ることである。次のセクションでは、希に突然変異する遺伝子及びそれらの基本のパスウェイを同定する更なる指示について概説する。
【0096】
E.疾患原因パスウェイの同定
他の遺伝子と相乗的にがんに影響を及ぼす遺伝子を同定するために、パスウェイスケールで突然変異バイアスを分析することができる。機能関連遺伝子の群は、個々には低頻度であるが、集合的には十分に高頻度で突然変異し得、高作用に向けてバイアスされる。例えば、これは、細胞の特定の機能へのダメージが、がんに利点を与えるが、突然変異時、機能を妨害することが等しく可能な複数の遺伝子がある場合、生じ得る。略1500のパスウェイ及び約7000個の遺伝子で構成される、手作業で精選された、専門化により評価されたパスウェイデータベースであるリアクトームデータベースを使用して、本発明の実施形態は、
図11A〜
図11Dに示されるような高作用突然変異に向かうバイアスを有する機能関連遺伝子群を同定することができる。このパイプラインは、患者コホート内の少なくとも1つの体細胞ミスセンス突然変異を含む2個以上の遺伝子からなる全てのリアクトームパスウェイを考慮する。高頻度ドライバーの再発見を回避するために、全てのパスウェイは、単一遺伝子分析で有意である遺伝子の寄与なしで考慮された。次に、各パスウェイは、がんでの全てのミスセンス突然変異を参照として用いるコルモゴロフ−スミルノフ二標本検定により特定されるように、突然変異が、群として高作用に有意にバイアスされるパスウェイ内の遺伝子のサブセット(「モジュール」)があるか否かを識別するように最適化される。次に、同サイズのランダムにシミュレートされたパスウェイの最適化から得られたモジュールの少なくとも95%よりも有意なモジュールは、対象となる遺伝子モジュールであると見なされる。次に、この候補遺伝子群の正の選択は、非候補遺伝子群と比較した、候補遺伝子群での有意に増大したミスセンス:沈黙突然変異比を通して確認される。この方法により、現在の計算方法が見逃す低頻度ドライバー遺伝子を同定することができるのみならず、これらの突然変異により最も妨げられる生物学的プロセスを同定することもできる。この手法は、単一遺伝子及びパスウェイレベルの両方での新しい薬剤標的を提供するとともに、効率的な患者層別化の新しいマーカーを示す。
【0097】
図11Aは、リアクトームデータベース内の7060個の遺伝子での全てのTCGA HNSCC体細胞突然変異の進化作用分布を示す。
図11Bは、HNSCCでのリアクトームパスウェイ「セマフォリンシグナリングでのSema4D」(REACT_19259.1)の進化作用分布を示す。パスウェイは、27個の遺伝子及び111個のミスセンス体細胞突然変異を含む。この場合でのパスウェイの最適化は、高作用突然変異の大部分を占め、高作用に向けて有意にバイアスされた(p=1.08e−7)、12個の遺伝子及び58の突然変異(
図11D)の「コアモジュール」を同定し、一方、除外遺伝子(
図11C)は、低作用突然変異の大部分を占める。
【0098】
図12A〜
図12Bは、「コアモジュール」へのサポートを示すグラフである。
図12Aは、コアモジュール遺伝子の進化作用分布の積層ヒストグラムである。コアモジュール遺伝子のうちの2つ:SEMA4D(Basileら、2006年;PMID:16754882)及びMYH9(Schramekら、2014年;PMID:24436421)は、文献において、このがんのドライバー遺伝子として実験的に検証されたが、今まで計算的に決して予測されてこなかったと考えられる。このパスウェイ方法は、単一の突然変異のみを用いて、SEMA4Dを正確にがん遺伝子として同定する(作用=53.24)とともに、MYH9も正確に腫瘍サプレッサーとして同定する(メジアン作用=81.07)。
図12Bでは、12個の候補遺伝子が、STRING作用図、高信頼モードで示される。12個全ての遺伝子は、セット内の少なくとも1つの他の遺伝子と相互作用することが実験的に確認されている。
【0099】
実施例3:KELCH突然変異
進化作用手法は、マラリアに関連するタンパク質の突然変異の研究に利用されてきた。
【0100】
図13は、熱帯熱マラリア原虫のKelchタンパク質(PF3D7_1343700)での突然変異を示す。文献では、63個のKelch突然変異が、4つの論文で報告された:i)Ashleyら、2014年、ii)Arieyら、2014年、iii)Straimerら、2014年、iv)Taylorら、2014年、及びv)Takala−Harrison、2014年。突然変異は、以下のタイプの突然変異を含む:1)ナンセンス突然変異1、沈黙突然変異8、及びミスセンス突然変異54。54のミスセンス突然変異のうち、17は耐性、19は感受性、及び18は未知である。ここで、「耐性」とは、アルテミシニンに関して寄生虫クリアランス半減期>5を示すものとして定義され、「感受性」とは、アルテミシニンに関して寄生虫クリアランス半減期<5を示すものとして定義され、「未知」は、アルテミシニンに関して寄生虫クリアランス半減期の乗法が利用可能ではないことを示す。
【0101】
図14は、突然変異の機能的影響を示す。ここで、遺伝子型と表現型との正式な摂動式が、適応性へのタンパク質コード変異の進化作用を特定する。進化重要性は、あらゆる配列位置で別個に、本明細書に記載の進化トレース(ET)手順を用いて計算される(
図14、左上パネル、「部位の進化重要性」)。ET手順は、所与のアミノ酸配列位置での突然変異が、大きな進化ジャンプ(脊椎動物から無脊椎動物)にリンクされるか、それとも小さな進化ジャンプ(狼から犬)にリンクされるかを教える数字を生成する。大きなジャンプは、全体的な生物の「適応性」が、そのタンパク質でのその部位での突然変異の影響をかなり受けやすいことを示唆する。小さなジャンプは、逆、すなわち、適応性が、そのタンパク質のその部位での突然変異の影響を受けにくいことを示唆する。
【0102】
置換大きさは、コード突然変異により導入される摂動のサイズを測定する(
図14、左下パネル、「部位での置換大きさ」)。アランからバリンへは小さく、アラニンからリジンへは大きい。したがって、置換尺度を使用して、この値を計算する。微妙なことは、プロテオームの大部分にわたり計算されるこれらの置換尺度が、考慮下の部位の進化重要性に依存することである。
【0103】
図14に概略的に示されるように、進化作用は、進化重要性と置換大きさとの積である。この積は、数量yの、別の数量xが変化し、これら2つがy=f(x)であるような関数fにより関連する場合の変化を近似する一次摂動式を反映する。解は、dy=f’(x)・dxである。xが遺伝子型であり、yが適応性である場合、fはETにより計算される進化重要性であり、dxは置換大きさである。それらの積は、第一近似へは、dyであり、これは、突然変異dxの作用から生じる適応変化である。関数f自体は、解かれないままであり、遺伝子型xを表現型/適応性yに結び付ける「進化関数」である。驚くべきことは、進化勾配f’が容易に計算されることである。結果は、適応へのコード突然変異の進化作用の基本摂動式である(
図14、右パネル、「進化作用又は適応影響」)。
【0104】
図15A〜
図15Dは、Kelch突然変異の進化作用分布及びそれらの解釈を示す。図中、KSスコアは、i)ランダムヌクレオチド変化(「KSランタ゛ム」)及びii)1000ゲノムプロジェクトで見つけられた多型(「KS
1000G」)の作用分布と各作用分布を比較した場合のコルモゴロフ−スミルノフp値である。耐性突然変異は、有意な正の選択(非ランダム及び非多型)を示す。
【0105】
Kelch機能に影響を及ぼす突然変異が中−高作用を有し、Kelch機能に影響を及ぼさない突然変異が、低−中作用を有すると仮定した。
図15A〜
図15Dに示される分布の解釈の結果は、以下を示唆する。
i)54のミスセンスKelch突然変異は、低又は高作用へのバイアスを有さない(
図15A)。
ii)17の耐性Kelch突然変異は、中−高作用を有し、Kelch機能の有意摂動に一致する(
図15B)。
iii)19の感受性Kelch突然変異は、低−中作用を有し、略中立に一致する(
図15C)。
iv)未知の表現型を有する18のKelch突然変異は、低作用、中作用、及び高作用に分けることができる(
図15D)。
【0106】
図15Dに示されるように、EA手順は、例えば、4つの未知の突然変異が高作用スコア(100十分位数で)有することを明らかにした:G449D、G554R、G5445E、及びG638R。これは、EA手順の有用性の一実証である。4つの未知の突然変異は、例えば、Kelch機能での各役割を解明するために、更なるテストの候補である。
【0107】
図16A〜
図16Cを参照すると、これらの図は、進化作用スコアと寄生虫クリアランス半減期との相関を示す。
図16Aは、熱帯熱マラリア原虫のKelch突然変異の場合のEAスコア(バープロット)が重ねられた寄生虫クリアランス半減期測定値(ドット)を示す。
図16B及び
図16Cは、
図16Aの寄生虫クリアランス半減期と作用スコアとの関係を示す。作用スコアが十位数でビニングされる場合(
図16C)、寄生虫クリアランス半減期と突然変異の作用スコアとの線形関係が現れる。
【0108】
図17A〜
図17Dは、熱帯熱マラリア原虫のKelch突然変異での地理的地域による進化作用分布を示す。図は、異なる地理的地域に見られる突然変異において、異なる作用分布が見られうることを示す。例えば、
図17Bは、カンボジア及びガンビアでの突然変異(Arieyら、2014年)が、典型的な機能獲得分布を形成するように見えることを示す。さらに、
図17Cに示されるように、サハラ以南の突然変異(Taylorら、2014年)は、ガンビアよりも影響性の高い突然変異及び影響性の低い突然変異の両方を含むように見える。
図17Dに示されるように、東南(SE)アジアの突然変異(Ashleyら、2014年)は、中−高作用突然変異と低作用突然変異との混合であるように見える。
【0109】
実施例4:適応性のタンパク質コード変異の進化作用
Katsonis,P.及びLichtarge,O.著、「A formal perturbation equation between genotype and phenotype determines the evolutionary action of protein coding variations on fitness」Genome Res.は、印刷されたジャーナルよりも先に、2014年9月12にオンラインで公開された。
【0110】
序論
遺伝子型突然変異と表現型変異との関係は、短期では健康、長期では進化を決定し、適応への突然変異の作用によって決まる。しかし、この作用の特定での基本的な難しさは、複雑で、多くの場合には不可解な各突然変異の独自の状況に依存することである。その結果、分子機能及び適応全体への大半のゲノム変異の影響は、未知のままであり、適応効果を多型頻度にリンクする集団遺伝学理論から距離を置いている。ここで、本発明者らは、進化が連続であり、遺伝子型を表現型に結合する区別可能な物理プロセスであると仮定する。これは、適応へのコード突然変異の作用の公式へと繋がり、突然変異した部位の進化重要性と、アミノ酸類似性の差(difference in amino acid similarity)との積として解釈することができる。これらの項の近似は、系統発生配列分析から容易に計算可能であり、本発明者らは、この作用方程式が、多種多様なタンパク質での生体内及び生体外での点突然変異の影響を予測し、疾患原因遺伝子突然変異を発病率に相関付け、ヒトのコード多型の頻度を特定することの突然変異的、臨床的、及び集団遺伝学的エビデンスをそれぞれ示す。したがって、初歩的な微積分及び系統発生学を統合して、点突然変異を機能及び適応に定量的にリンクし、生物学の方程式に新しい分析の枠組みを開く、遺伝子型と表現型との進化関係の摂動分析にすることができる。実際に、この研究は、分子進化を、タンパク質再設計からヒトの遺伝変異の臨床評価までの用途を有する集団遺伝学に明示的に橋渡しする。
【0111】
各出生は、数世代にわたり、ランダムに選ばれた個人間で現在、400万のDNA差に繋がった約70の新しいヒト遺伝突然変異をもたらす。挿入、欠失、コピー数変異、及び染色体再編の他に、遺伝子変化は、ヒトのエクソーム当たり略10,000個のアミノ酸置換に翻訳される単一ヌクレオチド置換を含む。これらのタンパク質コード変異体は、適応に影響を及ぼし得、既知の疾患突然変異の85%を占め、2500を超える病気に関連する。それにも関わらず、関連研究は、疾患感受性のごく僅かな部分しか説明せず、個人的突然変異及び一般的突然変異の両方の役割は曖昧なままである。したがって、計算手法は、タンパク質機能の生物物理的、統計学的、及び機械学習的モデルの制限内で、どのコード変異が疾患の原因であるかを識別することを目的とする。これと並列して、大規模な理論が、突然変異の拡散及び固定、様々な集団サイズ及び適応効果でのそれらの分布、並びに選択又は浮動がそれらの運命を支配するか否かをモデリングする。しかし、適応への突然変異の作用の実用的な測定なしでは、理論を遺伝情報の大量流入に適用することはできない。
【0112】
ここで、進化が無限小突然変異ステップで進むという視点に従い、適応への突然変異の進化作用の方程式を提案する。この作用方程式は、現在のモデルよりも単純であり、略中立の進化理論と、物理系がいかに進化して、最小作用のパスを辿るのかを記述する物理学の基本変分原理と両立する遺伝子型−表現型関係のモデルから導出される。計算された進化作用は一貫して、後向き評価及び前向き評価の両方で突然変異の影響を予測する最も洗練されたホモロジーベース又は機械学習の方法で首位を占めた。後向き検証は、(1)分子機能の実験アッセイ、(2)ヒトの疾患関連性、及び(3)集団規模の多型の大きなデータセットを取り込んだ。前向き検証は、シスタチオニンβ−シンターゼの酵素活性への84突然変異の影響を推定する予測子に挑戦するCAGI(Critical Assessment of Genome Interpretation)コミュニティコンテストを取り込んだ。進化作用サーバには、http://mammoth.bcm.tmc.edu/においてアクセス可能である。
【0113】
結果
遺伝子型−表現型摂動方程式
突然変異を評価するために、表現型を妨げ得る小さな遺伝子型摂動として各突然変異を扱う。タンパク質Pの場合、遺伝子型γはn子の残基(r
1,r
2,・・・,r
n)
Pの配列であり、グローバル適応表現型は、環境内の有機体の生き残り及び繁殖に影響を及ぼすPの全ての構造的属性、動態属性、及び他の機能属性を統合するスカラー数量φである。種は時間の経過に伴って浮動又は適合するため、γ及びφは変化し、f(γ)=φであるような多変量進化適応関数fにより互いに結合され、ここで、時間及び自然淘汰制約は暗黙的である。本発明での中心仮説は、fが存在し、区別可能であるというものである。fが存在し、区別可能である場合、小さな遺伝子型摂動dγは、
dφ=∇f・dγ (5)
により与えられるグローバル適応表現型変異dφをトリガーし、式中、∇fはfの勾配であり、・はスカラー積を示す[上記式(2)も参照のこと]。
【0114】
実際に、配列位置iでのアミノ酸Xから任意の他のアミノ酸Yへの単一ミスセンス突然変異の表現型変異を考慮する。そうすると、遺伝子型摂動は、Δr
i,X→
Yと示されるその置換大きさに低減され、勾配は、∂f/∂r
iと示されるi番目の成分の進化適応関数の偏導関数に低減する。この最後の項は、位置iでの変異へのグローバル適応表現型の感度であり、暗黙的に、iでの状況依存性の一部、すなわち、その位置の構造的役割及び機能的役割を説明する。状況依存性の残りは、他の突然変異との上位相互作用を明示的に表すより高次の他の項に存在するはずである。簡易化するために、これらの項を無視し、それにより、種の参照遺伝子型への単一置換の進化作用(EA又は単に作用)は一次になる[上記式(3)も参照のこと]。
【数3】
【0115】
この低減された形態において、進化作用方程式は、点突然変異が、適応を現在位置から突然変異の大きさ及びその部位での進化適応勾配に比例して変位させることを述べる(
図18A)。この差示的発現は、項を進化データから評価することができるため、有用である。
【0116】
図18A〜
図18Dは、本発明の実施形態において利用される進化作用方程式の計算を示す。
図18Aは、残基R175の進化重要性及びその位置でのアルギニン−ヒスチジン置換大きさからの、TP53遺伝子でのR175H等の突然変異の進化作用の計算の図である。
図18Bでは、配列アラインメント及び関連する進化ツリーは、基本的遺伝子型変化に起因する表現型的変化として定義されるタンパク質残基の進化適応勾配が、その位置で異なる進化分岐間の系統発生距離に応じて、大きくなる(太線)か、又は小さくなる(細線)ことを示す。進化トレースは、残基変異を系統発生分岐に相関付けることにより、配列位置の機能重要性をランク付ける(Lichtargeら、1996年;Mihalekら、2004年)ため、ETを用いて進化適応勾配を推定することができる。
【0117】
図18Cでは、略67,000のタンパク質配列アラインメントから計算された行列が、突然変異部位での進化勾配十位数(最も可能性の高い置換は明るいグレーであり、最も可能性の低い置換は濃いグレーである)に依存し、標準BLOSUM62(直線)と比較された、アラニンから他のアミノ酸(単一文字コードでの)への相対置換オッズを表示する。単一文字コードは、A:アラニン、W:トリプトファン、F:フェニルアラニン、Y:チロシン、L:ロイシン、I:イソロイシン、V:バリン、M:メチオニン、C:システイン、H:ヒスチジン、T:トレオニン、G;グリシン、P:プロリン、Q:グルタミン、N:アスパラギン、S:セリン、D:アスパラギン酸、E:グルタミン酸、K:リジン、R:アルギニン。
図18Dでは、勾配固有(棒)、非固有(破線)、及びBLOSUM62(直線)の置換オッズが、バリン(V)、トレオニン(T)、及びアスパラギン酸塩(D)へのアラニン置換の場合について示される。
【0118】
進化適応勾配∂f/∂r
iを測定するために、進化ツリー(ET)法を用いて、あらゆる配列位置の重要性をランク付ける(Lichtargeら、1996年;Mihalekら、2004年;Wilkinsら、2013年)。定義により、勾配は、座標に関する機能の感度の比率である。ここで、∂f/∂r
iは、突然変異ステップに関するグローバル適応表現型の感度であり、又は単に変異で観測された適応差である。この定義はETを指し、ETは、タンパク質ファミリの配列アラインメント内のあらゆる位置を、大半が優性(又は劣性)進化分岐間で変化する場合に重要性が高い(又は低い)とランク付ける。そのような進化分岐距離は適応性を反映するため、実際には、ET及び進化勾配は等しい概念であり、∂f/∂r
iの近似にETランクを選び得る(
図18B)。進化重要性の頻繁でより単純な尺度は、残基保存性であるが、保存性は、導関数というよりはむしろ平均であり、実際にETよりも精度が低い。その点から見れば、従来のET研究は既に、進化勾配の幅広い用途を示してきた:ETは、機能部位及びアロステリックパスウェイ残基を同定し、機能を阻害又は再プログラムする突然変異を誘導し、基質特異性等のラージスケールで機能を予測する構造的モチーフを定義する。
【0119】
置換大きさΔr
i,X→
Yを測定するために、これらの置換の相対進化オッズを使用する。例えば、アミノ酸アラニンは、セリンへの生物物理学的及び化学的類似性がより大きいことを踏まえて、アスパラギン酸塩よりもセリンにより頻繁に置換される。概念上は独立しているが、本発明者らは、位置の勾配が置換オッズを強くバイアスすることを見出す。例えば、標準の均一な置換値と比較して、大きな勾配を有するアラニン位置は大方、小さな中立アミノ酸への置換に耐えるが、小さな勾配を有するアラニン位置は、大きな極性又は荷電したアミノ酸への置換を強く優先する(
図18C)。これらの傾向は、あらゆるアミノ酸対に固有である:アラニンからバリンへの置換オッズは、突然変異した位置での進化勾配が最小から最大に変化するにつれて、ベル形分布を形成し、アラニンからトレオニンへの置換オッズは、はじめは平らであり、それから次第に小さくなり、一方、アラニンからアスパラギン酸塩への置換オッズは、常に減衰する(
図18D)。これらの発見は、構造特徴への置換の依存性とは異なり、構造特徴への置換の依存に対して相補的でもある。各配列位置での進化勾配が置換バイアスにおいて重要な因子であることを示す。したがって、本発明では、Δr
i,X→
Yを進化勾配感度−置換オッズで近似する。
【0120】
タンパク質機能の実験的喪失との進化作用の相関
図19A〜
図19Eは、実験的影響との突然変異作用の相関を示す。各図は、EA方程式である式(6)から予測された作用をx軸に沿って示し、(19A)E.coli RecAタンパク質の13個の点突然変異での組換え活性の平均喪失、(19B)β−ガラクトシダーゼ抑制アッセイでのE.coli lacリプレッサーでの4,041個の点突然変異の非機能割合(Markiewiczら、1994年)、(19C)プラーク形成アッセイでのバクテリオファージT4リゾチームでの2.015個の点突然変異の非機能割合(Rennellら、1991年)、(19D)基質分解での336個のHIV−1プロテアーゼ点突然変異の非機能割合(Loebら、1989年)、及び(19E)8個の応答要素にわたる酵母で調査された2,314個のヒトTP53点突然変異の平均トランス活性化活性(Petitjeanら、2007年)として実験的に測定された活性又は適応の割合をy軸に沿って示す。データは活性十位数にビニングされ、R
2値は、線形フィッティング後のピアソン積−モーメント相関係数を示し、平均の標準誤差は、誤差バーを用いて示される。
【0121】
十分に大きな進化ツリー、通常、様々な種からの20を超える配列を有するタンパク質での任意の突然変異では、ここで、∂f/∂r
i及びΔr
i,X→
Yの近似を適用して、中立値0から最大影響値100まで正規化された進化作用を評価し、次に、この作用を実験的に観測された機能及び機能の相対変化と比較することができる。まず、進化作用は、ピアソンR
2相関係数0.87で、野生種に相対して31個のE.coli RecA点突然変異でのP1ファージ媒体形質導入により、生体内で測定されたDNA組換えの平均喪失と線形相関する(
図19A)。さらに広く見れば、より大きな独立したデータセットでは、進化作用と、生体内での機能不全突然変異体又は生体外での活性の平均喪失との相関は、β−ガラクトシダーゼ抑制への影響について調査されたE.coliでの4041個のlacリプレッサー突然変異、リゾチームによる宿主細胞壁の分解に起因したプラーク形成について調査されたバクテリオファージT4での2015個のリゾチーム突然変異、分解産物により調査された336個のHIV−1プロテアーゼ突然変異、及びトランス活性について調査された2314個のTP53突然変異(方法のセクション参照)では、0.73〜0.96(
図19B〜
図19E)の範囲である。スピアマンの順位相関係数は、少なくとも0.98である。リゾチームでは、2つのレジームが明らかであった:低作用突然変異の表現型(又はアッセイ)への影響は最小であり、そして、ある作用閾値を超えてから急な線形応答がある(
図19C)。この遅れは、lacリプレッサー、HIVプロテアーゼ、及びTP53アッセイでの62%、53%、及び30%とそれぞれ比較して、有害として突然変異全体の16%しか分類されない、リゾチームアッセイの相対的な感受性のなさに起因し得る。TP53にも遅れがあるが、遅れは小さく、トランス活性化の小さな差の平均を取る際の実験誤差を反映したものであり得る。
【0122】
参照として、突然変異影響の一般的な代替の尺度の感度及び特異性は、同じデータセットでより低い(
図20参照:後述)。さらに、独立した判断により評価されたブラインド予測も、作用方程式が、現況技術の突然変異影響の予測よりも良好に有害突然変異を同定することを示した(
図3A参照、「CAGI2011」)。これらと一緒に、データは、真核性、原核性、ウィルスタンパク質での8500個の突然変異にわたり、進化作用方程式が、機能及び適応のアッセイへの突然変異の影響を定量化する。
【0123】
図20は、現況技術の方法と比較した進化作用方法の性能を示す。進化作用、ポリフェン2、SIFT、及びMAPPでの無害突然変異から有害突然変異を分けるための相対感度及び特性の受信者動作特性曲線下面積(AUC)が、各データセットで計算された:宿主細胞壁を破るための2,015個のバクテリオファージT4リゾチーム突然変異体、20倍を超えるβ−ガラクトシダーゼを抑制するための4,041個のE.coli lacリプレッサー突然変異体、Gag及びGag−Pol前駆タンパク質を分解するための336個のHIV−1プロテアーゼ突然変異体(ポリフェン2は、HIV−1プロテアーゼ突然変異の予測をリターンなかった)、及び酵母で8個のTP53応答要素をトランス活性化するための2,314個のヒトTP53突然変異体。
【0124】
上述したように、
図3Aは、進化作用方法の追加の性能データを示す。シスタチオニンβ−シンターゼ(CBS)突然変異体の活性を予測する、異なる群(文字)からの本方法(バー)の平均ランクが、2011年のCAGI(Critical Assessment of Genome Interpretation)により評価された。CBS活性は、2つの異なる成長条件(高濃度及び低濃度のピリドキシン補助因子)下で、正常なCYS4オルソログを欠く酵母細胞での成長を回復する各突然変異の能力について調査した(Mayfieldら、2012年)。9つのグループからの20の方法が、各補助因子濃度で9つの基準(正確性、再現率、精度、調和平均f1、スピアマンの順位相関係数、スチューデントのt検定p値、平方平均二乗偏差(RMSD)、zスコアにわたるRMSD、及び受信者動作特性曲線下面積(AUC))にわたり評価され、次に、それらのランクの平均をとった。進化作用は黒色で示され、高いバーほど、良好なランクである。生データ及び評価詳細は、CAGIウェブサイト(https://genomeinterpretation.org/)及びCAGI主催者であるSusanna Repo,John Moult,及びSteven E.Brennerから入手可能である。進化作用分析ファイルは、http://mammoth.bcm.tmc.edu/KatsonisLichtargeGRにおいて入手可能である。
【0125】
遺伝性疾患での重症度との進化作用の相関
未知の有意性のタンパク質変異(VUS)は、エクソーム解釈での反復問題であるため、次に、進化作用が、人間の疾患へのタンパク質突然変異の影響についてのバイオマーカであることができるか否かを問うた。まず、UniProtデータベースから、良性及び有害コード多型の両方がそれぞれ注釈付けられた(方法のセクション参照)218個の遺伝子のセットを集めた。進化作用分布は、良性であった突然変異と、有害であった突然変異とで劇的に異なり、良性の突然変異は低作用に強くバイアスされ、有害な突然変異は大きな作用に強くバイアスされた(ウィルコクソン順位和p値<10
-16、
図6E参照)。その結果、作用は、他の方法よりも良好な特異性及び感度で2つのタイプの突然変異を分け、受信者動作特性曲線下面積は、全体で85%であり、最大作用又は最小作用を有する突然変異のみが考慮された場合、AUCは90%超に上昇した。第2のテストは、単一のタンパク質ファミリ内の有害突然変異を区別することを目的とした。26,597個のヒト腫瘍の集まり(Petitjeanら、2007年)からはじまり、10以上の異なる事例で見られ、したがって、発病で役割を果たす可能性がより高いTP53突然変異を、より少数の事例で見られたTP53突然変異と比較した。頻繁な突然変異の進化作用は、有意に大きく(カイ二乗p値=9×10
-34)、これらの突然変異は通常、体外で非機能的でもあった(
図6A参照)。これとは対照的に、頻度のより低い突然変異は、作用バイアスを有さなかった(
図6B参照)。しかし、体外で機能を損なった、頻度のより低い突然変異のサブグループは、大きな作用にバイアスされた(カイ二乗p値=2×10
-47)。これらのデータは、臨床的に有害な多型の作用値及び臨床的に良性の多型の作用値がランダムではないことを示す。多くの疾患関連タンパク質において、低作用多型は通常、良性であり、高作用を有する多型は通常、有害である。
【0126】
これらの分布バイアスは、作用が、直接、遺伝子結果に依存する疾患での発病率の予測であり得ることを示唆する。したがって、2つの常染色体劣性単一遺伝子病に目を向けた。第1に、CFTR遺伝子の103個の突然変異のキュレートされ、十分に特徴づけられた研究が、それらを嚢胞性線維症(44事例)、CFTR関連疾患(53事例)、又は良性プレゼンテーション(6事例)にリンクした(Dorfmanら、2010年)。これらの群のメジアン作用は、高作用値、中作用値、及び低作用値が群を分けるように、有意に異なった(ウィルコクソン順位和p値=1.6×10
-3、
図21A)。第2に、ポンペ病は、GAA遺伝子によりエンコードされる酵素である酸性α−グルコシダーゼの欠陥により生じる、臨床的に異種疾患である。GAAの既知のミスセンス突然変異は、重症度が下がる順序により、タイプB、タイプC、タイプD、タイプE、そして最後に非病原Fタイプに分類された(Kroosら、2008年)。GAA突然変異のメジアン作用は、臨床的重症度に伴って有意に上昇し(ウィルコクソン順位和p値=5×10
-6)、病原タイプB〜Eでは上位半分にあるが、非病原タイプFでは下位半分にある(
図21B)。これらのデータは、2つの異なる疾患において、原因遺伝子の突然変異の進化作用が発病率に関連することを示す。
【0127】
図21A及び
図21Bは、
図6A、
図6B、及び
図6Eと同様に、突然変異作用が発病率に相関することを示す。
図6Eが、良性である794事例(グレー)と比較した、疾患関連の8,553事例(黒色)での218個の遺伝子からのコード多型の作用分布を示すことを想起する。UniProtデータベースから得られたこれらの各遺伝子は、少なくとも1つの疾患にリンクされる。さらに、
図6Aは、残りの1.026個の散発性TP53突然変異を示す
図6Bと比較して、腫瘍標本で頻繁に(IARCデータベースに集計された26,597事例での少なくとも10倍)見られる343個のTP53突然変異の作用分布を示す。酵母アッセイでの野生種トランス活性化活性の50%未満(超)の割合は、黒色(白色)であり、これらのデータが未知の割合はグレーである。
【0128】
図21A及び
図21Bに戻ると、
図21Aは、臨床的プレゼンテーションの重症度によりビニングされたCFTR遺伝子での103個の突然変異の作用分布を示す:本格的な嚢胞性線維症(上)、CFTR関連疾患(中)、及び症状なし(下)(Dorfmanら、2010年)。図中、垂直バーはメジアン作用を示し、数字は各群内の合計突然変異を指し、ボックスサイズは分布の四分位数に一致し、誤差バーは変異の拡散を示す。
図21Bは、最も重症なクラスBから、無症状患者を含むクラスFまで重症度が下がるクラスにビニングされたGAA遺伝子内の135個のポンペ病突然変異の作用分布を示す。
【0129】
作用は、集団毎の多型の適応効果を反映
作用が発病率又は適応効果の一般的なバイオマーカである場合、集団が、より大きな作用を有するより少数のコード多型を有することが予期される。実際に、長期にわたる集団遺伝モデルは、多型が集団内に残る確率が、それらの適応効果に伴って略指数関数的に低減することを示唆するが、表現型効果のサイズの実用的な尺度ない状態で、ゲノムデータでの検証はなされていなかった。したがって、作用方程式の一般性をテストするために、作用の関数として、1000ゲノムプロジェクト(1000ゲノムプロジェクトコンソーシアム2012)からコード多型の頻度を集計した。261,899の特有のコード変異を一般的突然変異(1%を超える対立遺伝子頻度を有する36,379のSNP)及び希少突然変異(1%未満の対立遺伝子を有する225,520のSNV)に分割した。特に接合性、優性、遺伝的背景、又は形質関連性に関せずに、有害性の影響の他の尺度とは対照的に、本発明者らは、作用分布が、両群で略指数関数的(それぞれR
2=0.98及び0.95)(
図22A)であるが、λで示される減衰率又は喪失率が、希少突然変異の場合よりも一般的突然変異の場合で大きいことを発見した。これらの異なる喪失率を調べるために、変異は、vで示される変異の対立遺伝子頻度によってより細かく群化された(
図22B参照)。これは、v単位で対数線形である喪失率を有する指数関数的文法のファミリを明らかにし、
λ=α+β・1n(v) (7)
式中、α=4.5×10
-2及びβ=3.2×10
-3は、相関係数R
2=0.92でこれらの分布をフィッティングする(
図22C参照)。これらのデータは、適応効果の一般的尺度としての進化作用をサポートし、1000ゲノムプロジェクトからのヒトコード変異が、対立遺伝子頻度の冪乗関数により変調される作用の略指数関数的な関数として分布することを示し、
N=N
0・e
-λ・作用=N
0・e
-α・作用・v
-β・作用 (8)
式中、Nは、所与の対立遺伝子頻度の突然変異の割合であり、N
0=0.2であり、喪失率λは、異なる作用を有する突然変異での選択制約のスケーリング係数である。
【0130】
単細胞、個人、及び集団で見つかるコード変異は、広範囲の異なる対立遺伝子頻度にわたる変異体のアンサンブルである。しかし、これらの異なるアンサンブルの全体的な作用分布も、互いに特有の喪失率λに伴って略指数関数的である。例えば、λは、個人のエクソームで最大であるが、1000ゲノムプロジェクト内に配列される1092の個人からの変異の全セット等の個人群にわたり40%低減し、がんゲノムアトラス(TCGA)に記載される全ての体細胞がん突然変異のセットにわたり73%低減する(The Cancer Genome Atlas Research Network他.2013年)。これらのデータは、アンサンブル固有の喪失率が、個人のエクソームでは一般的な多型により、1000ゲノムプロジェクトエクソームの群等の集団にわたっては希少変異体により、TCGAからの体細胞がん組織ではランダムヌクレオチド変化により、支配されることを示す(
図22C参照)。
【0131】
考察
進化の基本的な問題は、遺伝子型変異が表現型変異をいかに駆動するかを定量化することである。したがって、この研究は、微分分析からの初歩的数学概念に適用されて、進化の方程式を公式化した。結果は、適応への遺伝子型摂動の効果についての計算可能な一次進化作用方程式である。分子レベルにおいて、作用は、ウィルス、バクテリア、及び真核生物からのタンパク質内の摂動の有害影響を推定する。個人では、進化作用により測定されるこの有害影響は、疾患原因遺伝子での突然変異の病原的及び臨床的過程に相関し、異なる作用分布により、有害突然変異を有する遺伝子と、中立突然変異を有する遺伝子を分ける。臨床的結果の作用閾値は、不可欠性、対立遺伝子優性、及び各タンパク質に固有の外部因子に応じて異なり得る。最後に、特に、1930年にFisherにより予測した適応効果の分布を回復して、集合遺伝モデルに一致して(Fisher、1930年;Orr、2005年)、集団にわたり、より大きな進化作用に関連するより大きな臨床的有害性は、コード多型の純化淘汰を支配する。したがって、進化作用方程式は、分子遺伝学的データ、臨床遺伝学的データ、及び集団遺伝学的データにわたり、突然変異の表現型適応効果を定量的に橋渡しする。
【0132】
この進化作用方程式は、任意の微分可能関数f(x)=γに対して、∇f(x)・dx=dγであることに基づくとともに、遺伝子型γ及び適応表現型φがx及びγをそれぞれ表すことができ、微分可能な進化関数fにより関連することができるという前提に基づく。ミスセンス突然変異の場合、遺伝子型変異dγは、置換オッズにより推定されるアミノ酸類似性の差であり、勾配∇fの偏導関数成分は、各配列残基の進化重要性により推定される、突然変異への適応の感度である。進化重要性は多くの場合、保存性と融合されるが、微分分析の状況では、保存性等の平均は、導関数が定義により、変動の比率であるため、導関数がそうであるように、系統発生分析を直接使用して、配列内の変異を適応での変異に結合するETよりも精度が低い。ETが基本的な進化数量∇fを測定することは、特異性のアミノ酸決定因子をピンポイントすることにより、タンパク質関数を予測、選択的にブロック、再設計、又は模倣する精度及び多様性と調和する。置換オッズを改善するためにも同様に、置換部位の進化勾配を考慮することにより、系統発生分析を使用した。∇f及びdγは両項とも、それぞれ1つが、他方が略一定に保持される場合、中立突然変異から有害突然変異を分けるため、突然変異の影響に寄与する。
【0133】
遺伝子型と表現型との間の進化適応関数fが決して解かれないことは、注目に値する。摂動手法は、種の現在の適応状態からの無限小変異として突然変異を扱うため、∇fを評価することで十分である。これにより、適応風景(fitness landscape)においてグローバル進化パスを見つけること(これはfを解き、タンパク質構造及び機能を配列から予測することに等しい)から、適応風景での配列突然変異及び「ジャンプ」としてパス多様性dφを評価することへと、焦点をシフトさせる。これらのジャンプを計算するには、式(6)を解く必要があり、式(6)は、系統発生的多様性ツリーが、これらの特徴の詳細が未知のままである場合であっても、過去の関連分子相互作用、細胞相互作用、系統的相互作用、及び環境的相互作用の全てにわたる突然変異の影響の統合サマリを提供するため、より単純である。将来、上位影響を説明する追加のより高次の摂動項を用いて、精度の改善が可能であり得る。改善の別のソースは、∇f及びdγが過去の進化レコードにわたり計算されるが、それらの積が、今日を含め、任意の時点での突然変異の進化作用dφについての情報を与えることである。換言すれば、突然変異の適応尺度及び作用は、時間不変であると仮定される。これは近似であり、その理由は、多様なタンパク質が、分岐固有の進化勾配変異に繋がり、例えば、リガンド固有部位を同定するために、微分ETにより説明される(Lichtargeら、1997年)現象である、新しい機能部位を発達させることができるためである。
【0134】
簡易性及びこれらの制限にも拘わらず、進化作用方程式は、大半の洗練された現在の機械学習及び統計学的方法と同様に、又はそれらよりも良好に、実験データに一致し、1000ゲノムプロジェクトデータに適用される場合、多型の分布についての細かい詳細及び新しいパラメータを明るみに出す。第1に、大きな適応効果を有する突然変異への選択制約の強度は、進化作用分布の指数関数的喪失率定数であるλにより指定される。この喪失率は、少数の有害突然変異を有する選択圧と一貫して、個人で最大である。より良好な全体適合潜在性のために、希少変異が血縁関係のない個人に蓄積し得る集団では、より小さい。そして、λは最小であり、多様ながん細胞内でコドンバイアスそれ自体により設定される下限に達し、下限では、ランダムパッセンジャー突然変異の大きな背景が、希少がんドライブ突然変異を曖昧にする。第2に、多型は集団内で拡散するため、喪失率λは、v=1の場合、λ最大=αである固定でのピークまで、βのレートで線形に成長する。したがって、α及びβは、進化浮動及び適合の基本パラメータである。αが同じ値の場合、大きなβを有する種ほど、中立対立遺伝子からの新しくより大きなずれに対して受ける淘汰力は小さく、これは、遺伝浮動及び起こり得る適合の土台をなす変異のプールを増大させ得る。それと相互に、βが同じ値の場合、大きなαを有する種ほど、中立対立遺伝子からのより大きなずれに対して受ける淘汰力を比較的大きく、浮動及び適合の可能性を下げる。突然変異率は分子因子及び選択因子の影響を受けるため、類似性因子がα及びβを変調し、進化の静止とバーストとの間のシフトの根底にあり得る。
【0135】
より確実なのは、分子進化の略中立の理論と調和して、大きい作用を有する突然変異ほど、選択においてますます不利であり、固定が大半、最小作用を有する多型を優先するはずである(
図22A及び
図22B)ということである。これは、更に離れて分岐する際、ホモログタンパク質対間の進化作用差を比較する場合にも該当する。実際に、配列同一性に基づいて進化的により近いホモログは一貫して、全体的及び平均して、より低い作用差を示す。したがって、遺伝子型−表現型軌道は、略最小進化作用のパスを辿るはずであり、最小作用からより大きくずれる頻度は、喪失率λにより示されるように、指数関数的に減衰する。基本進化制約としての最小作用の出現は、興味深く、生物系での進化と物理学でのよく知られた変分原理との間の収束を示唆する。
【0136】
今のところ、初歩的な微積分及びφ=f(γ)である生物学の縮小ビューから開始して、生物学的スケール及びクレードにわたるデータにロバストに一致する、機能適応表現型への遺伝子型変異の進化作用の第1原理摂動方程式を示す。これは、進化の形式的分析への新しい方向を開き、実際に、コード変異の分析に光を投じ、生物工学、ゲノム解釈、並びに個人及び比較突然変異作用プロファイルに基づいた疾患の監視及び個人化への用途を有する。
【0137】
方法
作用の計算
作用Δφは、進化勾配∂f/∂r
iと置換の摂動大きさΔr
i,X→
Yとの積により計算された。これらの2つの項∂f/∂r
i及びΔr
i,X→
Yは、後述するように、進化トレース方法の重要性ランク及びアミノ酸置換オッズによりそれぞれ測定された。両項及び積を正規化して、各タンパク質のパーセンタイルスコアにする。したがって、高作用又は低作用は、有害又は中立評価をそれぞれを示し、それにより、例えば、68という作用は、影響が、タンパク質内の全ての可能なアミノ酸置換の68%よりも高いことを暗示する。
【0138】
タンパク質Pの位置iでの進化勾配を計算するために、blastall2.2.15を用いて、3つのデータベース(NCBI nr、Unirefl00、及びUniRef90)内のホモログを検索した。各都度、e値カットオフを10
-5に設定し、最小配列同定を30%に設定し、全ての他のパラメータをデフォルト値に設定して、5000までのホモログ配列を選択した。配列はMUSCLE(Edgar、2004年)とアラインされ(http://drive5.com/muscle/)、クエリ配列にギャップを有するカラムを削除した。次に、rvET法を実行し、この方法は、トップランクの残基の中での空間クラスタ化及びランク情報を最大化することにより、配列選択を最適化させ、これらの3つのアルゴリズムのそれぞれで生成されるETスコアの平均をとる。オッズが置換位置の進化勾配に応じて別個に計算されたという違いの下、BLOSUM方法論に従って置換対数オッズを計算した。このために、上記のように、PDBデータベース内で利用可能なタンパク質の67,000を超える複数の配列アラインメントを集め(http://www.rcsb.org/pdb/)、各アラインメントの各位置の進化勾配を計算した。後述するように、これらの位置は10の群(勾配十位数)に分割され、各群の置換オッズを計算した。置換行列の追加の構造依存セットが、各勾配十位数を9つの群に更に分割し:低(<10Å
2)、中(10−50Å
2)、及び高溶媒露出度(>50Å
2)、並びに螺旋状二次構造要素、鎖状二次構造要素、及びコイル状二次構造要素。置換オッズのビンが細かいほど、膜貫通パッチの場合等のタンパク質進化での一般性が低い選択制約をよりよく区別し得る。
【0139】
置換対数オッズの計算
f
ijcを、iがクラスc(1≦c≦10又は1≦c≦90)のカラム内の最も頻繁なアミノ酸である場合、任意のアミノ酸j(1≦j≦20)へのアミノ酸i(1≦i≦20)間の一致総数であるものとする。そうすると、クラスc内のjによりアミノ酸iを置換する観測頻度q
ijcは、
【数4】
である。
【0140】
データセット内のアミノ酸jの発生確率は、
【数5】
である。
【0141】
次に、iの置換の対数オッズは、エントリ
【数6】
を用いて計算される。
【0142】
BLOSUM方法論とは異なり、対数オッズは、最近傍整数に丸められない。
【0143】
突然変異影響の現在の予測子
SIFT予測は、「SIFT BLink」(http://sift.jcvi.org/)を使用して得られた。MAPP予測は、ソフトウェア(http://mendel.stanford.edu/SidowLab/downloads/MAPP/)をインストールした後、入力としてUniRef90データベースからの配列アラインメントを使用して得られた。「MAPPスコアのp値解釈」を影響として使用した。ポリフェン2予測は、http://genetics.bwh.harvard.edu/pph2/において、バッチクエリタブのデフォルトパラメータを使用して得られた。
【0144】
統計
カイ二乗検定を使用して、作用と臨床的関連又はTP53突然変異の酵母アッセイ活性との重複のp値を計算した。ウィルコクソン順位和検定を使用して、UniProt突然変異のデータセットでの疾患多型及び良性多型の分布と、TP53、CFTR、及びGAA遺伝子の疾患型及び良性多型の分布とを比較した。
【0145】
実験データセット
組換え活性について、31個のE.coli RecA突然変異のセットを野生種活性の割合としてAdikesavanらにおいて調査した(2011年)。突然変異は10の作用群にビニングされ、平均組換えを計算した。宿主細胞壁のリゾチーム破壊に起因して形成されたプラーク量により、2015のバクテリオファージT4リゾチーム突然変異のセットをRennellらにおいて調査した(1991年)。プラーク形成がない(−)突然変異及びプラーク形成の識別が難しい突然変異(−/+)は、有害と見なされ、一方、プラーク形成が正常な突然変異(+)及びプラーク形成が小さい突然変異(+/−)は、中立と見なされた。タンパク質抑制活性により、4041のE.coli lacリプレッサー突然変異のセットをMarkiewiczらにおいて調査した(1994年)。20倍未満の抑制活性を有する突然変異(−及び−/+)は、有害と見なされ、一方、20倍を超える抑制活性を有する突然変異(+及び+/−)は、中立と見なされた。Gag及びGag−Pol前駆タンパク質の分解産物量により、336のHIV−1プロテアーゼ突然変異のセットをLoebらにおいて調査した(1989年)。産物がない突然変異(−)及びいくらかの産物を有する突然変異(−/+)は、有害と見なされ、一方、正常機能を有する突然変異(+)は、中立と見なされた。2314のTP53突然変異のセットを8つのTP53応答要素でのトランス活性化について酵母で調査した(Katoら、2003年)。任意のアッセイでの100%を超える値は、100%に等しいものとして扱った。次に、平均トランス活性化を計算し、野生種活性の50%未満の突然変異を有害として群化し、残りを中立として群化した。
【0146】
26,597のTP53腫瘍突然変異をIARC TP53データベース(バージョンR14)から取得し、342の反復突然変異(少なくとも10回)及び1023の非反復突然変異(9回以下)に分割した。疾患関連遺伝子での9347のヒト突然変異をUniProtデータベース(http://www.uniprot.org)から取得し、その後、それぞれを大まかに、キーワード「dbSNP」、「多型」、及び「VAR_」により注釈されていた場合、中立と分類し、その他の場合は疾患関連として分類した。20,343のヒト遺伝子から、70%(11,995)は少なくとも1つのSNPエントリを有し、15%(3023)のみが、少なくとも1つの疾患関連エントリを有した。「病原性不確定」とマークされた多くとも10の突然変異を有した、同じ疾患に関連する少なくとも10の突然変異を有する遺伝子を選択した。その結果としての218の遺伝子について、大まかな分類を調べて補正し、病原性不確定及び散発性がんに関連付けられた突然変異を除去した。GAAミスセンス突然変異及びそれらのポンペ病重症度分類をhttp://cluster15.erasmusmc.nl/klgn/pompe/mutations.htmlから取得した。278,179のヒト多型をhttp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase1/analysis_results/input_call_sets/において1000ゲノムプロジェクトのフェーズ1分析から取得した。体細胞がん突然変異をhttp://cancergenome.nih.gov/においてがんゲノムアトラス(TCGA)から取得した。
【0147】
上記タンパク質の進化作用分析の出力ファイルは、http://mammoth.bcm.tmc.edu/KatsonisLichtargeGRにおいて見出し得る。
【0148】
引用文献
The 1000 Genomes Project Consortium. 2012. An integrated map of genetic variation from 1,092 human genomes. Nature 491: 56-65.
Adikesavan, A.K., P. Katsonis, D.C. Marciano, R. Lua, C. Herman, and O. Lichtarge. 2011. Separation of Recombination and SOS Response in Escherichia coli RecA Suggests LexA Interaction Sites. PLoS Genet 7: e1002244.
Ariey F, et al., A molecular marker of artemisinin-resistant Plasmodium falciparum malaria, Nature 505, 50-55 (02 January 2014) doi:10.1038/nature12876.
Ashley, EA et al., Spread of artemisinin resistance in Plasmodium falciparum malaria, N Engl J Med. 2014 Jul 31;371(5):411-23. doi: 10.1056/NEJMoa1314981.
Benjamini, Y. & Hochberg, Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B (Methodological), 289-300 (1995).
Conrad MD, et al., Polymorphisms in K13 and Falcipain-2 Associated with Artemisinin Resistance Are Not Prevalent in Plasmodium falciparum Isolated from Ugandan Children, PLOS, Published: August 21, 2014,DOI: 10.1371/journal.pone.0105690.
Dorfman, R., T. Nalpathamkalam, C. Taylor, T. Gonska, K. Keenan, X. Yuan, M. Corey, L. Tsui, J. Zielenski, and P. Durie. 2010. Do common in silico tools predict the clinical consequences of amino-acid substitutions in the CFTR gene? Clin Genet 77: 464-473.
Edgar, R.C. 2004. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res 32: 1792-1797.
Fisher, R.A. 1930. The genetical theory of natural selection. Oxford University Press, Oxford.
Franceschini, A. et al. STRING v9. 1: protein-protein interaction networks, with increased coverage and integration. Nucleic acids research 41, D808-D815 (2013).
Kato, S., S. Han, W. Liu, K. Otsuka, H. Shibata, R. Kanamaru, and C. Ishioka. 2003. Understanding the function-structure and function-mutation relationships of p53 tumor suppressor protein by high-resolution missense mutation analysis. Proc Natl Acad Sci USA 100: 8424.
Kroos, M., R.J. Pomponio, L. van Vliet, R.E. Palmer, M. Phipps, R. Van der Helm, D. Halley, and A. Reuser. 2008. Update of the Pompe disease mutation database with 107 sequence variants and a format for severity rating. Hum Mutat 29: E13-E26.
Lichtarge, O., H. Bourne, and F. Cohen. 1996. An evolutionary trace method defines binding surfaces common to protein families. J Mol Biol 257: 342 - 358.
Lichtarge, O., K.R. Yamamoto, and F.E. Cohen. 1997. Identification of functional surfaces of the zinc binding domains of intracellular receptors. J Mol Biol 274: 325-337.
Loeb, D., R. Swanstrom, L. Everitt, M. Manchester, S. Stamper, and C. Hutchison. 1989. Complete mutagenesis of the HIV-1 protease. Nature 340: 397-400.
Markiewicz, P., L. Kleina, C. Cruz, S. Ehret, and J. Miller. 1994. Genetic studies of the lacrepressor. XIV. Analysis of 4000 altered Escherichia coli lac repressors reveals essential and non-essential residues, as well as "spacers" which do not require a specific sequence. J Mol Biol 240: 421.
Maslov, S. & Sneppen, K. Specificity and stability in topology of protein networks. Science 296, 910-913 (2002).
Mayfield, J.A., M.W. Davies, D. Dimster-Denk, N. Pleskac, S. McCarthy, E.A. Boydston, L. Fink, X.X. Lin, A.S. Narain, M. Meighan, and J. Rine. 2012. Surrogate genetics and metabolic profiling for characterization of human disease alleles. Genetics: 1309-1323.
Mihalek, I., I. Res, and O. Lichtarge. 2004. A family of evolution-entropy hybrid methods for ranking protein residues by importance. J Mol Biol 336: 1265 - 1282.
Orr, H.A. 2005. The genetic theory of adaptation: a brief history. Nat Rev Genet 6: 119-127.
Pepe, M.S. The statistical evaluation of medical tests for classification and prediction. (Oxford University Press, 2003).
Petitjean, A., E. Mathe, S. Kato, C. Ishioka, S. Tavtigian, P. Hainaut, and M. Olivier. 2007. Impact of mutant p53 functional properties on TP53 mutation patterns and tumor phenotype: lessons from recent developments in the IARC TP53 database. Hum Mutat 28: 622-629.
Pradines, J.R., Farutin, V., Rowley, S. & Dancik, V. Analyzing protein lists with large networks: edge-count probabilities in random graphs with given expected degrees. Journal of Computational Biology 12, 113-128 (2005).
Rennell, D., S. Bouvier, L. Hardy, and A. Poteete. 1991. Systematic mutation of bacteriophage T4 lysozyme. J Mol Biol 222: 67-86.
Takala-Harrison S, et al., Independent emergence of artemisinin resistance mutations among Plasmodium falciparum in Southeast Asia. J Infect Dis. 2015 Mar 1;211(5):670-9. doi: 10.1093/infdis/jiu491. Epub 2014 Sep 1.
Taylor SM, et al., Absence of putative artemisinin resistance mutations among Plasmodium falciparum in Sub-Saharan Africa: a molecular epidemiologic study. J Infect Dis. 2015 Mar 1;211(5):680-8. doi: 10.1093/infdis/jiu467. Epub 2014 Sep 1.
Straimer J, et al., K13-propeller mutations confer artemisinin resistance in Plasmodium falciparum clinical isolates, Published Online December 11 2014, Science 23 January 2015:Vol. 347 no. 6220 pp. 428-431, DOI: 10.1126/science.1260867.
The Camcer Genome Atlas Research Network,Weinstein J.N.,et al.,2013.The cancer genome atlas pan-cancer analysis project.Nature genetics 45:1113-1120.
Wilkins,A.D.,E.Venner,D.C.Marciano,S.Erdin,B.Atri,R.C.Lua,and O.Lichtarge.2013.Accounting for epistaticinteractions improves the funcutional analysis of protein structures.Bioinformatics 29:2714-2721.
【0149】
本明細書において引用した全ての特許、公開出願、及び参照の教示は、全体的に参照により援用される。
【0150】
本発明は、本発明の実施形態例を参照して特に示され説明されたが、添付の特許請求の範囲により包含される本発明の範囲から逸脱せずに、形態及び詳細に様々な変更を行い得ることが当業者には理解される。