【課題を解決するための手段】
【0004】
発明の要旨
本開示は、コピー数多型を検出するための方法を提供し、その方法は、a)被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、必要に応じて、ユニークなバーコードに付着される、工程;b)指定の閾値を満たさないリードを除外する工程;c)工程(a)から得られた配列リードを参照配列に対してマッピングする工程;d)参照配列の予め定義された2つ以上の領域におけるマッピングされたリードを定量/カウントする工程;e)(i)予め定義された領域におけるリードの数を互いに対しておよび/または予め定義された領域におけるユニークなバーコードの数を互いに対して正規化する工程;および(ii)工程(i)において得られた正規化された数を、コントロールサンプルから得られた正規化された数と比較する工程によって、予め定義された領域の1つ以上におけるコピー数多型を決定する工程を含む。
【0005】
本開示は、被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法も提供し、その方法は、a)被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;b)被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;c)指定の閾値を満たさないリードを除外する工程;d)配列決定工程に由来する配列リードを参照配列上にマッピングする工程;e)マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;f)マッピング可能な各塩基位置に対して、(a)参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;g)マッピング可能な各塩基位置に対して上記比または分散の頻度を正規化し、潜在的な稀なバリアントまたは変異を決定する工程;h)潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程
を含む。
【0006】
さらに、本開示は、被験体における異常な状態の不均一性を特徴付ける方法も提供し、その方法は、その被験体における細胞外ポリヌクレオチドの遺伝的プロファイルを生成する工程を含み、その遺伝的プロファイルは、コピー数多型および/または他の稀な変異(例えば、遺伝子変化)の解析からもたらされる複数のデータを含む。
【0007】
いくつかの実施形態において、被験体において同定された稀な各バリアントの保有率(prevalence)/濃度は、同時に報告および定量される。他の実施形態では、被験体における稀なバリアントの保有率/濃度に関する信頼スコアが、報告される。
【0008】
いくつかの実施形態において、細胞外ポリヌクレオチドは、DNAを含む。他の実施形態において、細胞外ポリヌクレオチドは、RNAを含む。ポリヌクレオチドは、フラグメントであり得るか、または単離後に断片化され得る。さらに、本開示は、循環核酸の単離および抽出のための方法を提供する。
【0009】
いくつかの実施形態において、細胞外ポリヌクレオチドは、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択され得る身体サンプルから単離される。
【0010】
いくつかの実施形態において、本開示の方法は、前記身体サンプル中にコピー数多型または他の稀な遺伝子変化(例えば、配列バリアント)を有する配列のパーセントを決定する工程も含む。
【0011】
いくつかの実施形態において、前記身体サンプル中にコピー数多型を有する配列のパーセントは、所定の閾値より多いまたは少ないポリヌクレオチドの量を有する予め定義された領域のパーセンテージを計算することによって決定される。
【0012】
いくつかの実施形態において、変異、稀な変異、単一ヌクレオチドバリアント、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択され得る異常な状態を有すると疑われる被験体から体液を採取する。
【0013】
いくつかの実施形態において、被験体は、妊婦であり得、その妊婦における異常な状態は、単一ヌクレオチドバリアント、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される胎児の異常であり得る。
【0014】
いくつかの実施形態において、上記方法は、配列決定前に、1つ以上のバーコードを細胞外ポリヌクレオチドまたはそのフラグメントに付着する工程を含み得、それらのバーコードは、ユニークである。他の実施形態において、配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着されるバーコードは、ユニークでない。
【0015】
いくつかの実施形態において、本開示の方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を選択的に富化する工程を含み得る。他の実施形態において、本開示の方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を選択的に富化する工程を含む。他の実施形態において、本開示の方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を非選択的に富化する工程を含む。
【0016】
また、本開示の方法は、任意の増幅する工程または富化工程の前に、細胞外ポリヌクレオチドまたはそのフラグメントに1つ以上のバーコードを付着させる工程を含む。
【0017】
いくつかの実施形態において、バーコードは、選ばれた領域から配列決定された分子の多様性と組み合わせて、ユニークな分子の同定を可能にする、ランダムな配列または固定されたもしくはセミランダムなセットのオリゴヌクレオチドをさらに含み得、少なくとも3、5、10、15、20、25、30、35、40、45または50merの塩基対の長さであり得る、ポリヌクレオチドである。
【0018】
いくつかの実施形態において、細胞外ポリヌクレオチドまたはそのフラグメントは、増幅され得る。いくつかの実施形態において、増幅は、グローバル増幅または全ゲノム増幅を含む。
【0019】
いくつかの実施形態において、ユニークな同一性(unique identity)の配列リードは、その配列リードの始めの(開始)領域および終わりの(終止)領域における配列情報、ならびに配列リードの長さに基づいて検出され得る。他の実施形態において、ユニークな同一性の配列分子は、その配列リードの始めの(開始)領域および終わりの(終止)領域における配列情報、その配列リードの長さ、ならびにバーコードの付着に基づいて検出される。
【0020】
いくつかの実施形態において、増幅は、選択的増幅、非選択的増幅、抑制増幅(suppression amplification)またはサブトラクションによる富化(subtractive enrichment)を含む。
【0021】
いくつかの実施形態において、本開示の方法は、リードを定量する、または列挙する前に、さらなる解析からリードのサブセットを除去する工程を含む。
【0022】
いくつかの実施形態において、上記方法は、閾値未満、例えば、90%、99%、99.9%もしくは99.99%未満の精度スコアもしくは品質スコア、および/または閾値未満、例えば、90%、99%、99.9%もしくは99.99%未満のマッピングスコアを有するリードを除外する工程を含み得る。他の実施形態において、本開示の方法は、指定の閾値より低い品質スコアを有するリードを選別する工程を含む。
【0023】
いくつかの実施形態において、予め定義された領域は、均一なまたは実質的に均一なサイズであり、約10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kbまたは100kbのサイズである。いくつかの実施形態において、少なくとも50、100、200、500、1000、2000、5000、10,000、20,000または50,000個の領域が、解析される。
【0024】
いくつかの実施形態において、遺伝的バリアント、稀な変異またはコピー数多型は、遺伝子融合、遺伝子重複、遺伝子欠失、遺伝子転座、マイクロサテライト領域、遺伝子フラグメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に存在する。他の実施形態において、遺伝的バリアント、稀な変異またはコピー数多型は、遺伝子、癌遺伝子、腫瘍抑制遺伝子、プロモーター、制御配列エレメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に存在する。いくつかの実施形態において、バリアントは、ヌクレオチドバリアント、一塩基置換もしくは小インデル、トランスバージョン、転座、逆位、欠失、切断または遺伝子切断であり、約1、2、3、4、5、6、7、8、9、10、15または20ヌクレオチド長である。
【0025】
いくつかの実施形態において、上記方法は、個々のリードのバーコードまたはユニークな特性を用いて、マッピングされたリードの数量を訂正する/正規化する/調整する工程を含む。
【0026】
いくつかの実施形態において、リードを列挙する工程は、予め定義された領域の各々におけるユニークなバーコードを列挙し、配列決定された予め定義された領域の少なくとも1つのサブセットにわたってそれらの数を正規化することによって行われる。いくつかの実施形態において、同じ被験体由来の、次の時間間隔におけるサンプルが、解析され、前のサンプルの結果と比較される。本開示の方法は、バーコードが付着された細胞外ポリヌクレオチドを増幅した後に、部分的なコピー数多型の頻度、ヘテロ接合性の喪失、遺伝子発現の解析、エピジェネティックな解析および/または過剰メチル化の解析を測定する工程をさらに含み得る。
【0027】
いくつかの実施形態において、コピー数多型および稀な変異の解析は、10,000を超える配列決定反応を行うこと;少なくとも10,000個の異なるリードを同時に配列決定すること;または少なくとも10,000個の異なるリードに対するデータ解析をゲノムにわたって行うことを含む、多重配列決定を用いて、被験体から得られた無細胞のまたは実質的に無細胞のサンプルにおいて測定される。上記方法は、少なくとも10,000個の異なるリードに対するデータ解析をゲノムにわたって行うことを含む多重配列決定を含み得る。上記方法は、ユニークに同定可能な配列決定されたリードを列挙する工程をさらに含み得る。
【0028】
いくつかの実施形態において、本開示の方法は、隠れマルコフ、動的計画法、サポートベクターマシン、ベイジアンネットワーク、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリングまたはニューラルネットワーク法のうちの1つ以上を使用して行われる正規化および検出を含む。
【0029】
いくつかの実施形態において、本開示の方法は、疾患の進行をモニターする工程、残存する疾患をモニターする工程、治療をモニターする工程、状態を診断する工程、状態を予後診断する工程、または発見されたバリアントに基づいて治療を選択する工程を含む。
【0030】
いくつかの実施形態において、治療は、最新のサンプル解析に基づいて改変される。また、本開示の方法は、腫瘍、感染または他の組織異常の遺伝的プロファイルを推論する工程を含む。いくつかの実施形態において、腫瘍の成長、寛解もしくは進展、感染または他の組織異常が、モニターされる。いくつかの実施形態において、被験体の免疫系が、単一の場合においてまたは経時的に解析およびモニターされる。
【0031】
いくつかの実施形態において、本開示の方法は、同定されたバリアントを引き起こすと疑われる組織異常の位置を特定するためのイメージング検査(例えば、CT、PET−CT、MRI、X線、超音波)を通じて追跡されるバリアントの同定を含む。
【0032】
いくつかの実施形態において、本開示の方法は、同じ患者由来の組織または腫瘍のバイオプシーから得られる遺伝子データの使用を含む。いくつかの実施形態において、腫瘍、感染または他の組織異常の系統発生が、推論される。
【0033】
いくつかの実施形態において、本開示の方法は、信頼度の低い領域を、集団に基づいてコールしないこと(population−based no−calling)および同定することを行う工程を含む。いくつかの実施形態において、配列カバー率(sequence coverage)についての測定データを得る工程は、ゲノムのすべての位置において配列カバー率の深さ(sequence coverage depth)を計測する工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、ウィンドウ平均カバー率を計算する工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、ライブラリー構築および配列決定プロセスにおけるGCバイアスを説明するための調整を行う工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、バイアスを相殺するために、個々のマッピングに関連するさらなる重み付け因子(weighting factor)に基づいて調整を行う工程を含む。
【0034】
いくつかの実施形態において、本開示の方法は、病的な細胞起源に由来する細胞外ポリヌクレオチドを含む。いくつかの実施形態において、細胞外ポリヌクレオチドは、健常な細胞起源に由来する。
【0035】
本開示は、以下の工程:ゲノム内の予め定義された領域を選択する工程;その予め定義された領域内の配列リードの数を列挙する工程;その予め定義された領域にわたる配列リードの数を正規化する工程;およびその予め定義された領域内のコピー数多型のパーセントを決定する工程を行うためのコンピュータ可読媒体を備えるシステムも提供する。いくつかの実施形態において、ゲノムの全体またはゲノムの少なくとも10%、20%、30%、40%、50%、60%、70%、80%もしくは90%が、解析される。いくつかの実施形態において、コンピュータ可読媒体は、血漿または血清中のがんDNAまたはがんRNAのパーセントに関するデータをエンドユーザーに提供する。
【0036】
いくつかの実施形態において、多型(polymorphisms)または原因バリアント(causal variants)などの遺伝的変異の量が、解析される。いくつかの実施形態において、遺伝子変化の有無が、検出される。
【0037】
本開示は、被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法も提供し、その方法は、a)被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;b)指定の閾値を満たさないリードを除外する工程;c)配列決定工程に由来する配列リードを参照配列上にマッピングする工程;d)マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;e)マッピング可能な各塩基位置に対して、(a)参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;f)マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは他の遺伝子変化を決定する工程;およびg)各領域に対して得られた数を比較する工程を含む。
【0038】
本開示は、a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;b.そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;c.そのセットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;およびd.そのセットの配列決定リードを折りたたむ(collapsing)ことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む方法も提供する。ある特定の実施形態において、その方法は、e.タグ化された親分子の各セットについて、コンセンサス配列のセットを解析する工程をさらに含む。
【0039】
いくつかの実施形態において、セット内の各ポリヌクレオチドは、参照配列にマッピング可能である。
【0040】
いくつかの実施形態において、上記方法は、タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、異なる参照配列にマッピング可能である。
【0041】
いくつかの実施形態において、上記方法は、開始の最初の遺伝物質をタグ化された親ポリヌクレオチドに変換する工程をさらに含む。
【0042】
いくつかの実施形態において、開始の最初の遺伝物質は、100ng以下のポリヌクレオチドを含む。
【0043】
いくつかの実施形態において、上記方法は、変換前に、開始の最初の遺伝物質を制限する(bottlenecking)工程を含む。
【0044】
いくつかの実施形態において、上記方法は、開始の最初の遺伝物質を、少なくとも10%、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも80%または少なくとも90%の変換効率で、タグ化された親ポリヌクレオチドに変換する工程を含む。
【0045】
いくつかの実施形態において、変換工程は、平滑末端ライゲーション、粘着末端ライゲーション、分子反転プローブ(molecular inversion probes)、PCR、ライゲーションベースのPCR、一本鎖ライゲーションおよび一本鎖環状化のうちのいずれかを含む。
【0046】
いくつかの実施形態において、開始の最初の遺伝物質は、無細胞核酸である。
【0047】
いくつかの実施形態において、複数の参照配列は、同じゲノムに由来する。
【0048】
いくつかの実施形態において、セット内のタグ化された親ポリヌクレオチドの各々は、ユニークにタグ化される。
【0049】
いくつかの実施形態において、タグは、ユニークではない。
【0050】
いくつかの実施形態において、コンセンサス配列の生成は、タグからの情報ならびに/または配列リードの始めの(開始)領域の配列情報、配列リードの終わりの(終止)領域の配列情報および配列リードの長さのうちの少なくとも1つに基づく。
【0051】
いくつかの実施形態において、上記方法は、上記セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドの少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも98%、少なくとも99%、少なくとも99.9%または少なくとも99.99%の各々の少なくとも1つの子孫に対する配列リードを生成するのに十分な、上記セットの増幅された子孫ポリヌクレオチドのサブセットを配列決定する工程を含む。
【0052】
いくつかの実施形態において、少なくとも1つの子孫は、複数の子孫、例えば、少なくとも2つ、少なくとも5つまたは少なくとも10個の子孫である。
【0053】
いくつかの実施形態において、配列リードのセット内の配列リードの数は、タグ化された親ポリヌクレオチドのセット内のタグ化されたユニークな親ポリヌクレオチドの数より多い。
【0054】
いくつかの実施形態において、上記セットの配列決定された増幅された子孫ポリヌクレオチドのサブセットは、使用される配列決定プラットフォームの1塩基あたりの配列決定エラー率のパーセンテージと同じパーセンテージで、タグ化された親ポリヌクレオチドのセット内に表示される任意のヌクレオチド配列が、コンセンサス配列のセットの中に表示される少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも98%、少なくとも99%、少なくとも99.9%または少なくとも99.99%の確率を有するのに十分なサイズである。
【0055】
いくつかの実施形態において、上記方法は、(i)タグ化された親ポリヌクレオチドに変換される開始の最初の遺伝物質からの配列の選択的増幅;(ii)タグ化された親ポリヌクレオチドの選択的増幅;(iii)増幅された子孫ポリヌクレオチドの選択的配列捕捉;または(iv)開始の最初の遺伝物質の選択的配列捕捉によって、1つ以上の選択された参照配列に位置するポリヌクレオチドについて、上記セットの増幅された子孫ポリヌクレオチドを富化する工程を含む。
【0056】
いくつかの実施形態において、解析する工程は、コンセンサス配列のセットからもたらされた尺度(例えば、数)を、コントロールサンプル由来のコンセンサス配列のセットからもたらされた尺度に対して正規化する工程を含む。
【0057】
いくつかの実施形態において、解析する工程は、変異、稀な変異、単一ヌクレオチドバリアント、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染またはがんを検出する工程を含む。
【0058】
いくつかの実施形態において、ポリヌクレオチドは、DNA、RNA、それら2つの組み合わせまたはDNA+RNA由来cDNAを含む。
【0059】
いくつかの実施形態において、ポリヌクレオチドのある特定のサブセットは、最初のセットのポリヌクレオチドまたは増幅されたポリヌクレオチドから、塩基対を単位とするポリヌクレオチド長について選択されるかまたはそれに基づいて富化される。
【0060】
いくつかの実施形態において、解析は、感染および/またはがんなどの個体内の異常または疾患の検出およびモニタリングをさらに含む。
【0061】
いくつかの実施形態において、上記方法は、免疫レパートリーのプロファイリングと組み合わせて行われる。
【0062】
いくつかの実施形態において、ポリヌクレオチドは、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群から抽出される(are extract)。
【0063】
いくつかの実施形態において、折りたたむ工程は、タグ化された親ポリヌクレオチドまたは増幅された子孫ポリヌクレオチドのセンス鎖もしくはアンチセンス鎖に存在するエラー、ニックまたは損傷を検出することおよび/または訂正することを含む。
【0064】
本開示は、開始の最初の遺伝物質中の遺伝的変異を、少なくとも5%、少なくとも1%、少なくとも0.5%、少なくとも0.1%または少なくとも0.05%の感度で検出する工程を含む方法も提供する。いくつかの実施形態において、開始の最初の遺伝物質は、100ng未満の量の核酸で提供され、その遺伝的変異は、コピー数多型/ヘテロ接合性変異であり、検出する工程は、染色体より小さい解像度(sub−chromosomal resolution);例えば、少なくとも100メガベースの解像度、少なくとも10メガベースの解像度、少なくとも1メガベースの解像度、少なくとも100キロベースの解像度、少なくとも10キロベースの解像度または少なくとも1キロベースの解像度で行われる。別の実施形態において、上記方法は、タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、異なる参照配列にマッピング可能である。別の実施形態において、参照配列は、腫瘍マーカーの遺伝子座であり、解析する工程は、コンセンサス配列のセット内に腫瘍マーカーを検出する工程を含む。別の実施形態において、腫瘍マーカーは、増幅する工程において導入されるエラー率より低い頻度で、コンセンサス配列のセットに存在する。別の実施形態において、少なくとも1つのセットは、複数のセットであり、参照配列は、複数の参照配列を含み、その各々は、腫瘍マーカーの遺伝子座である。別の実施形態において、解析する工程は、親ポリヌクレオチドの少なくとも2つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む。別の実施形態において、解析する工程は、参照配列と比べて配列変異の存在を検出する工程を含む。別の実施形態において、解析する工程は、参照配列と比べて配列変異の存在を検出する工程および親ポリヌクレオチドの少なくとも2つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む。別の実施形態において、折りたたむ工程は、i.増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程;およびii.ファミリー内の配列リードに基づいてコンセンサス配列を決定する工程を含む。
【0065】
本開示は、以下の工程:a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;b.そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;c.そのセットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;およびd.そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程、および必要に応じてe.コンセンサス配列のセットを、タグ化された親分子の各セットについて解析する工程を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0066】
本開示は、a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;b.そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;c.そのセットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;d.そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;およびe.そのコンセンサス配列の中から、品質閾値を満たさないものを除外する工程を含む方法も提供する。1つの実施形態において、品質閾値は、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する。別の実施形態において、品質閾値は、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0067】
本開示は、a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程であって、各セットは、1つ以上のゲノムにおける異なる参照配列に位置する、工程、およびタグ化された親ポリヌクレオチドの各セットに対して;i.第1ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成する工程;ii.そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成する工程;iii.1.増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化することによって配列リードを折りたたむ工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程を含む方法も提供する。1つの実施形態において、折りたたむ工程は、2.各ファミリー内の配列リードの定量的尺度を決定する工程をさらに含む。別の実施形態において、上記方法は、b.ユニークなファミリーの定量的尺度を決定する工程;ならびにc.(1)ユニークなファミリーの定量的尺度および(2)各グループ内の配列リードの定量的尺度に基づいて、そのセット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに含む(aを含むa)を含む)。別の実施形態において、推論する工程は、統計的モデルまたは確率的モデルを使用して行われる。別の実施形態において、少なくとも1つのセットは、複数のセットである。別の実施形態において、上記方法は、2つのセットの間の増幅バイアスまたは表示バイアス(representational bias)について訂正する工程をさらに含む。別の実施形態において、上記方法は、コントロールまたはコントロールサンプルのセットを使用することにより、2つのセットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む。別の実施形態において、上記方法は、セット間のコピー数多型を決定する工程をさらに含む。別の実施形態において、上記方法は、d.ファミリーの間の多型の形態の定量的尺度を決定する工程;およびe.多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに含む(a、b、cを含む)。別の実施形態において、多型の形態には、置換、挿入、欠失、逆位、マイクロサテライトの変化、トランスバージョン、転座、融合、メチル化、過剰メチル化、ヒドロキシメチル化(hyrdroxymethylation)、アセチル化、エピジェネティックなバリアント、制御関連(regulatory−associated)バリアントまたはタンパク質結合部位が含まれるがこれらに限定されない。上記セットが共通のサンプルに由来する別の実施形態において、上記方法は、a.複数の参照配列の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数のセットに対してコピー数多型を推論する工程をさらに含む。別の実施形態において、各セット内のポリヌクレオチドの元の数が、さらに推論される。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0068】
本開示は、ポリヌクレオチドを含むサンプル中のコピー数多型を決定する方法も提供し、その方法は、a.少なくとも2つのセットの第1ポリヌクレオチドを提供する工程であって、各セットは、ゲノム内の異なる参照配列に位置し、第1ポリヌクレオチドの各セットに対して;i.ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し;ii.そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し;iii.増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第1ポリヌクレオチドから増幅され;iv.そのセット内のファミリーの定量的尺度を推論する、工程;b.各セット内のファミリーの定量的尺度を比較することによって、コピー数多型を決定する工程を含む。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0069】
本開示は、ポリヌクレオチドのサンプル中の配列コールの頻度を推論する方法も提供し、その方法は、a.少なくとも1つのセットの第1ポリヌクレオチドを提供する工程であって、各セットは、1つ以上のゲノムにおける異なる参照配列に位置し、第1ポリヌクレオチドの各セットに対して;i.第1ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し;ii.そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し;iii.その配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程;b.第1ポリヌクレオチドの各セットに対して、第1ポリヌクレオチドのセットにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、i.各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、ファミリーのメンバーの間のコールの頻度を考慮に入れている、工程;およびii.各ファミリーに割り当てられた1つ以上のコールの信頼スコアを考慮に入れて、1つ以上のコールの頻度を推定する工程を含む工程を含む。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0070】
本開示は、少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を通信する方法も提供し、その方法は、a.少なくとも1つの個々のポリヌクレオチド分子を提供する工程;b.その少なくとも1つの個々のポリヌクレオチド分子における配列情報を符号化することにより、信号を生成する工程;c.その信号の少なくとも一部をチャネルに通すことにより、少なくとも1つの個々のポリヌクレオチド分子に関するヌクレオチド配列情報を含む受信信号を生成する工程(その受信信号は、ノイズおよび/または歪みを含む);d.受信信号を復号することにより、少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程(復号は、メッセージ内のノイズおよび/または歪みを減少させる);およびe.そのメッセージをレシピエントに提供する工程を含む。1つの実施形態において、ノイズは、誤ったヌクレオチドコールを含む。別の実施形態において、歪みは、他の個々のポリヌクレオチド分子と比べて、個々のポリヌクレオチド分子の不均一な増幅を含む。別の実施形態において、歪みは、増幅バイアスまたは配列決定バイアスに起因する。別の実施形態において、少なくとも1つの個々のポリヌクレオチド分子は、複数の個々のポリヌクレオチド分子であり、復号する工程は、その複数の中の各分子に関するメッセージを生成する。別の実施形態において、符号化する工程は、必要に応じてタグ化された少なくとも個々のポリヌクレオチド分子を増幅する工程を含み、その信号は、増幅された分子のコレクションを含む。別の実施形態において、チャネルは、ポリヌクレオチド配列分析装置を構成し、受信信号は、少なくとも1つの個々のポリヌクレオチド分子から増幅された複数のポリヌクレオチドの配列リードを含む。別の実施形態において、復号する工程は、少なくとも1つの個々のポリヌクレオチド分子の各々から増幅された増幅分子の配列リードをグループ化する工程を含む。別の実施形態において、復号する工程は、生成された配列信号を選別する確率的方法または統計学的方法からなる。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0071】
別の実施形態において、ポリヌクレオチドは、腫瘍ゲノムDNAまたはRNAに由来する。別の実施形態において、ポリヌクレオチドは、無細胞ポリヌクレオチド、エキソソームポリヌクレオチド、細菌ポリヌクレオチドまたはウイルスポリヌクレオチドに由来する。別の実施形態では、影響される分子経路の検出および/または関連付けをさらに含む。別の実施形態では、個体の健康状態または疾患状態の連続モニタリングをさらに含む。別の実施形態では、個体内の疾患に関連するゲノムの系統発生が、推論される。別の実施形態では、疾患の診断、モニタリングまたは処置をさらに含む。別の実施形態では、処置レジメンは、検出された多型の形態またはCNVまたは関連する経路に基づいて選択されるかまたは改変される。別の実施形態において、処置は、併用療法を含む。
【0072】
本開示は、以下の工程:ゲノム内の予め定義された領域を選択する工程;配列リードにアクセスし、予め定義された領域における配列リードの数を列挙する工程;予め定義された領域にわたって配列リードの数を正規化する工程;および予め定義された領域におけるコピー数多型のパーセントを決定する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0073】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程;b.指定の閾値を満たさないリードを除外する工程;c.配列決定工程に由来する配列リードを参照配列上にマッピングする工程;d.マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;e.マッピング可能な各塩基位置に対して、(a)参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;f.マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは他の遺伝子変化を決定する工程;およびg.潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0074】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;b.そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0075】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;b.そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;c.そのコンセンサス配列の中から、品質閾値を満たさないものを除外する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0076】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;ならびにi.1.増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化すること(各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される)および必要に応じて、2.各ファミリー内の配列リードの定量的尺度を決定することによって配列リードを折りたたむ工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。ある特定の実施形態において、実行可能なコードは、b.ユニークなファミリーの定量的尺度を決定する工程;c.(1)ユニークなファミリーの定量的尺度および(2)各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに行う。ある特定の実施形態において、実行可能なコードは、d.ファミリーの間の多型の形態の定量的尺度を決定する工程;およびe.多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに行う。
【0077】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第1ポリヌクレオチドから増幅される、工程;b.そのセット内のファミリーの定量的尺度を推論する工程;c.各セット内のファミリーの定量的尺度を比較することによってコピー数多型を決定する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0078】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、その配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程;b.第1ポリヌクレオチドの各セットに対して、第1ポリヌクレオチドのセットにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、c.各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、そのファミリーのメンバーの間のコールの頻度を考慮に入れている、工程;およびd.各ファミリーに割り当てられた1つ以上のコールの信頼スコアを考慮に入れて、1つ以上のコールの頻度を推定する工程を含む、工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0079】
本開示は、以下の工程:a.少なくとも1つの個々のポリヌクレオチド分子由来の符号化された配列情報を含む受信信号を含むデータファイルにアクセスするデータにアクセスする工程(その受信信号は、ノイズおよび/または歪みを含む);b.受信信号を復号することにより、少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程(復号は、そのメッセージ内の個々の各ポリヌクレオチドに関するノイズおよび/または歪みを減少させる);およびc.その少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージをコンピュータファイルに書き込む工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0080】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;b.そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;c.そのコンセンサス配列の中から、品質閾値を満たさないものを除外する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0081】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;ならびにb.i.増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化すること(各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される)およびii.必要に応じて、各ファミリー内の配列リードの定量的尺度を決定することによって配列リードを折りたたむ工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。ある特定の実施形態において、実行可能なコードは、c.ユニークなファミリーの定量的尺度を決定する工程;d.(1)ユニークなファミリーの定量的尺度および(2)各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに行う。ある特定の実施形態において、実行可能なコードは、e.ファミリーの間の多型の形態の定量的尺度を決定する工程;およびf.多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに行う。ある特定の実施形態において、実行可能なコードは、e.複数の参照配列の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数のセットに対してコピー数多型を推論する工程をさらに行う。
【0082】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;b.増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第1ポリヌクレオチドから増幅される、工程;c.そのセット内のファミリーの定量的尺度を推論する工程;d.各セット内のファミリーの定量的尺度を比較することによってコピー数多型を決定する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0083】
本開示は、以下の工程:a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、その配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程;およびb.第1ポリヌクレオチドの各セットに対して、そのセットの第1ポリヌクレオチドにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、i.各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、信頼スコアは、ファミリーのメンバーの間のコールの頻度を考慮に入れている、工程;およびii.各ファミリーに割り当てられた1つ以上のコールの信頼スコアを考慮に入れて、1つ以上のコールの頻度を推定する工程を含む、工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。
【0084】
本開示は、a.100〜100,000個の半数体ヒトゲノム等価物の無細胞DNA(cfDNA)ポリヌクレオチドを含むサンプルを提供する工程;およびb.そのポリヌクレオチドを2〜1,000,000個のユニークな識別子でタグ化する工程を含む方法も提供する。ある特定の実施形態において、ユニークな識別子の数は、少なくとも3、少なくとも5、少なくとも10、少なくとも15または少なくとも25および多くとも100、多くとも1000または多くとも10,000である。ある特定の実施形態において、ユニークな識別子の数は、多くとも100、多くとも1000、多くとも10,000、多くとも100,000である。
【0085】
本開示は、a.複数のヒト半数体ゲノム等価物の断片化されたポリヌクレオチドを含むサンプルを提供する工程;b.zを決定する工程(zは、ゲノム内の任意の位置から開始する2つ組のポリヌクレオチドの期待数の中心傾向の尺度(例えば、平均値、中央値または最頻値)であり、2つ組のポリヌクレオチドは、同じ開始位置および終止位置を有する);およびc.サンプル中のポリヌクレオチドをn個のユニークな識別子でタグ化する工程(nは、2〜100,000
*z、2〜10,000
*z、2〜1,000
*zまたは2〜100
*zである)を含む方法も提供する。
【0086】
本開示は、a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;b.そのセット内のタグ化された親ポリヌクレオチドの各々に対して複数の配列リードを生成することにより、配列決定リードのセットを生成する工程;およびc.そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む方法も提供する。
【0087】
本開示は、コピー数多型を検出するための方法を提供し、その方法は、a)被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;b)指定の閾値を満たさないリードを除外する工程;c)工程(a)から得られた配列リードを、リードを除外した後に、参照配列に対してマッピングする工程;d)参照配列の予め定義された2つ以上の領域におけるマッピングされたリードを定量するかまたは列挙する工程;ならびにe)(ii)予め定義された領域におけるリードの数を互いに対しておよび/または予め定義された領域におけるユニークな配列リードの数を互いに対して正規化し;(ii)工程(i)において得られた正規化された数を、コントロールサンプルから得られた正規化された数と比較することによって、予め定義された領域の1つ以上におけるコピー数多型を決定する工程を含む。
【0088】
本開示は、被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法も提供し、その方法は、a)被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;b)領域において多重配列決定を行うか、または富化が行われない場合、全ゲノム配列決定を行う、工程;c)指定の閾値を満たさないリードを除外する工程;d)配列決定工程に由来する配列リードを参照配列上にマッピングする工程;e)マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;f)マッピング可能な各塩基位置に対して、(a)参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;g)マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは変異を決定する工程;およびh)潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程を含む。
【0089】
本開示は、被験体における異常な状態の不均一性を特徴付ける方法も提供し、その方法は、その被験体における細胞外ポリヌクレオチドの遺伝的プロファイルを生成する工程を含み、その遺伝的プロファイルは、コピー数多型および稀な変異の解析からもたらされる複数のデータを含む。
【0090】
いくつかの実施形態において、被験体において同定された稀な各バリアントの保有率/濃度は、同時に報告および定量される。いくつかの実施形態において、被験体における稀なバリアントの保有率/濃度に関する信頼スコアが、報告される。
【0091】
いくつかの実施形態において、細胞外ポリヌクレオチドは、DNAを含む。いくつかの実施形態において、細胞外ポリヌクレオチドは、RNAを含む。
【0092】
いくつかの実施形態において、上記方法は、身体サンプルから細胞外ポリヌクレオチドを単離する工程をさらに含む。いくつかの実施形態において、その単離工程は、循環核酸の単離および抽出のための方法を含む。いくつかの実施形態において、上記方法は、前記単離された細胞外ポリヌクレオチドを断片化する工程をさらに含む。いくつかの実施形態において、身体サンプルは、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択される。
【0093】
いくつかの実施形態において、上記方法は、前記身体サンプル中にコピー数多型または稀な変異もしくはバリアントを有する配列のパーセントを決定する工程をさらに含む。いくつかの実施形態において、その決定工程は、所定の閾値より多いまたは少ないポリヌクレオチドの量を有する予め定義された領域のパーセンテージを計算する工程を含む。
【0094】
いくつかの実施形態において、被験体は、異常な状態を有すると疑われる。いくつかの実施形態において、その異常な状態は、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される。
【0095】
いくつかの実施形態において、被験体は、妊婦である。いくつかの実施形態において、コピー数多型または稀な変異または遺伝的バリアントは、胎児の異常を示す。いくつかの実施形態において、その胎児の異常は、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される。
【0096】
いくつかの実施形態において、上記方法は、配列決定前に、細胞外ポリヌクレオチドまたはそのフラグメントに1つ以上のバーコードを付着させる工程をさらに含む。いくつかの実施形態において、配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着される各バーコードは、ユニークである。いくつかの実施形態において、配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着される各バーコードは、ユニークでない。
【0097】
いくつかの実施形態において、上記方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を選択的に富化する工程をさらに含む。いくつかの実施形態において、上記方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を非選択的に富化する工程をさらに含む。
【0098】
いくつかの実施形態において、上記方法は、任意の増幅する工程または富化工程の前に、細胞外ポリヌクレオチドまたはそのフラグメントに1つ以上のバーコードを付着させる工程をさらに含む。いくつかの実施形態において、バーコードは、ポリヌクレオチドである。いくつかの実施形態において、バーコードは、ランダムな配列を含む。いくつかの実施形態において、バーコードは、選ばれた領域から配列決定された分子の多様性と組み合わせて、ユニークな分子の同定を可能にする、固定されたまたはセミランダムなセットのオリゴヌクレオチドを含む。いくつかの実施形態において、バーコードは、少なくとも3、5、10、15、20、25、30、35、40、45または50mer塩基対長であるオリゴヌクレオチドを含む。
【0099】
いくつかの実施形態において、上記方法は、細胞外ポリヌクレオチドまたはそのフラグメントを増幅する工程をさらに含む。いくつかの実施形態において、増幅は、グローバル増幅または全ゲノム増幅を含む。いくつかの実施形態において、増幅は、選択的増幅を含む。いくつかの実施形態において、増幅は、非選択的増幅を含む。いくつかの実施形態において、抑制増幅またはサブトラクションによる富化が、行われる。
【0100】
いくつかの実施形態において、ユニークな同一性の配列リードは、配列リードの始めの(開始)領域および終わりの(終止)領域における配列情報ならびに配列リードの長さに基づいて検出される。いくつかの実施形態において、ユニークな同一性の配列分子は、配列リードの始めの(開始)領域および終わりの(終止)領域における配列情報、配列リードの長さならびにバーコードの付着に基づいて検出される。
【0101】
いくつかの実施形態において、上記方法は、リードを定量する、または列挙する前に、さらなる解析からリードのサブセットを除去する工程をさらに含む。いくつかの実施形態において、除去工程は、閾値未満、例えば、90%、99%、99.9%もしくは99.99%未満の精度スコアもしくは品質スコア、および/または閾値未満、例えば、90%、99%、99.9%もしくは99.99%未満のマッピングスコアを有するリードを除外する工程を含む。いくつかの実施形態において、上記方法は、指定の閾値より低い品質スコアを有するリードを選別する工程をさらに含む。
【0102】
いくつかの実施形態において、予め定義された領域は、均一なまたは実質的に均一なサイズである。いくつかの実施形態において、予め定義された領域は、少なくとも約10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kbまたは100kbのサイズである。
【0103】
いくつかの実施形態において、少なくとも50、100、200、500、1000、2000、5000、10,000、20,000または50,000個の領域が、解析される。
【0104】
いくつかの実施形態において、上記バリアントは、遺伝子融合、遺伝子重複、遺伝子欠失、遺伝子転座、マイクロサテライト領域、遺伝子フラグメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に現れる。いくつかの実施形態において、上記バリアントは、遺伝子、癌遺伝子、腫瘍抑制遺伝子、プロモーター、制御配列エレメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に現れる。いくつかの実施形態において、上記バリアントは、1、2、3、4、5、6、7、8、9、10、15または20ヌクレオチド長のヌクレオチドバリアント、一塩基置換、小インデル、トランスバージョン、転座、逆位、欠失、切断または遺伝子切断である。
【0105】
いくつかの実施形態において、上記方法は、個々のリードのバーコードまたはユニークな特性を用いて、マッピングされたリードの数量を訂正する/正規化する/調整する工程をさらに含む。いくつかの実施形態において、リードを列挙する工程は、予め定義された領域の各々におけるユニークなバーコードを列挙し、配列決定された予め定義された領域の少なくとも1つのサブセットにわたってそれらの数を正規化することによって行われる。
【0106】
いくつかの実施形態において、同じ被験体由来の次の時間間隔におけるサンプルが、解析され、前のサンプルの結果と比較される。いくつかの実施形態において、上記方法は、バーコードが付着された細胞外ポリヌクレオチドを増幅する工程をさらに含む。いくつかの実施形態において、上記方法は、部分的なコピー数多型の頻度を決定する工程、ヘテロ接合性の喪失を測定する工程、遺伝子発現の解析を行う工程、エピジェネティックな解析を行う工程、および/または過剰メチル化の解析を行う工程をさらに含む。
【0107】
本開示は、多重配列決定を用いて、被験体から得られた無細胞のまたは実質的に無細胞のサンプルにおいて、コピー数多型を決定するかまたは稀な変異の解析を行う工程を含む方法も提供する。
【0108】
いくつかの実施形態において、多重配列決定は、10,000を超える配列決定反応を行うことを含む。いくつかの実施形態において、多重配列決定は、少なくとも10,000個の異なるリードを同時に配列決定することを含む。いくつかの実施形態において、多重配列決定は、少なくとも10,000個の異なるリードに対するデータ解析をゲノムにわたって行うことを含む。いくつかの実施形態において、正規化および検出は、隠れマルコフ、動的計画法、サポートベクターマシン、ベイジアンモデリングもしくは確率モデリング、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリングまたはニューラルネットワーク法のうちの1つ以上を使用して行われる。いくつかの実施形態において、上記方法は、疾患の進行をモニターする工程、残存する疾患をモニターする工程、治療をモニターする工程、状態を診断する工程、状態を予後診断する工程、または被験体に対して発見されたバリアントに基づいて治療を選択する工程をさらに含む。いくつかの実施形態において、治療は、最新のサンプル解析に基づいて改変される。いくつかの実施形態において、腫瘍、感染または他の組織異常の遺伝的プロファイルが、推論される。
【0109】
いくつかの実施形態において、腫瘍の成長、寛解もしくは進展、感染または他の組織異常が、モニターされる。いくつかの実施形態において、被験体の免疫系に関係する配列が、単一の場合においてまたは経時的に解析およびモニターされる。いくつかの実施形態において、バリアントの同定は、同定されたバリアントを引き起こすと疑われる組織異常の位置を特定するためのイメージング検査(例えば、CT、PET−CT、MRI、X線、超音波)を通じて追跡される。いくつかの実施形態において、上記解析は、同じ患者由来の組織または腫瘍のバイオプシーから得られる遺伝子データの使用をさらに含む。いくつかの実施形態において、腫瘍、感染または他の組織異常の系統発生が、推論される。いくつかの実施形態において、上記方法は、信頼度の低い領域を、集団に基づいてコールしないことおよび同定することを行う工程をさらに含む。いくつかの実施形態において、配列カバー率についての測定データを得る工程は、ゲノムのすべての位置において配列カバー率の深さを計測する工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、ウィンドウ平均カバー率を計算する工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスを訂正する工程は、ライブラリー構築および配列決定プロセスにおけるGCバイアスを説明するための調整を行う工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、バイアスを相殺するために、個々のマッピングに関連するさらなる重み付け因子に基づいて調整を行う工程を含む。
【0110】
いくつかの実施形態において、細胞外ポリヌクレオチドは、病的な細胞起源に由来する。いくつかの実施形態において、細胞外ポリヌクレオチドは、健常な細胞起源に由来する。
【0111】
本開示は、以下の工程:ゲノム内の予め定義された領域を選択する工程;その予め定義された領域内の配列リードの数を列挙する工程;その予め定義された領域にわたる配列リードの数を正規化する工程;およびその予め定義された領域内のコピー数多型のパーセントを決定する工程を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0112】
いくつかの実施形態において、ゲノムの全体またはゲノムの少なくとも85%が、解析される。いくつかの実施形態において、コンピュータ可読媒体は、血漿または血清中のがんDNAまたはがんRNAのパーセントに関するデータをエンドユーザーに提供する。いくつかの実施形態において、同定されたコピー数バリアントは、サンプル中の不均一性に起因して、分数(すなわち、非整数レベル)である。いくつかの実施形態において、選択された領域の富化が、行われる。いくつかの実施形態において、コピー数多型の情報は、本明細書中に記載される方法に基づいて同時に抽出される。いくつかの実施形態において、上記方法は、ポリヌクレオチドを妨げて(bottlenecking)、サンプル中のポリヌクレオチドの、開始の最初のコピー数または多様性を制限する、最初の工程を含む。
【0113】
本開示は、被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法も提供し、その方法は、a)被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;b)指定の品質閾値を満たさないリードを除外する工程;c)配列決定工程に由来する配列リードを参照配列上にマッピングする工程;d)マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;e)マッピング可能な各塩基位置に対して、(a)参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;f)マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは他の遺伝子変化を決定する工程;およびg)潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程を含む。
【0114】
本開示は、a)少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;b)そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;c)そのセットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;およびd)そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む方法も提供する。
【0115】
いくつかの実施形態において、あるセット内の各ポリヌクレオチドは、参照配列にマッピング可能である。いくつかの実施形態において、上記方法は、タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、参照配列中の異なるマッピング可能な位置にマッピング可能である。いくつかの実施形態において、上記方法は、e)タグ化された親分子の各セットについて、そのセットのコンセンサス配列を別々にまたは組み合わせて解析する工程をさらに含む。いくつかの実施形態において、上記方法は、開始の最初の遺伝物質を、タグ化された親ポリヌクレオチドに変換する工程をさらに含む。いくつかの実施形態において、開始の最初の遺伝物質は、100ng以下のポリヌクレオチドを含む。いくつかの実施形態において、上記方法は、変換前に、開始の最初の遺伝物質を制限する工程を含む。いくつかの実施形態において、上記方法は、開始の最初の遺伝物質を、タグ化された親ポリヌクレオチドに、少なくとも10%、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも80%または少なくとも90%の変換効率で変換する工程を含む。いくつかの実施形態において、変換工程は、平滑末端ライゲーション、粘着末端ライゲーション、分子反転プローブ、PCR、ライゲーションベースのPCR、一本鎖ライゲーションおよび一本鎖環状化のいずれかを含む。いくつかの実施形態において、開始の最初の遺伝物質は、無細胞核酸である。いくつかの実施形態において、複数のセットは、同じゲノム由来の参照配列内の異なるマッピング可能な位置に位置する。
【0116】
いくつかの実施形態において、セット内のタグ化された親ポリヌクレオチドの各々は、ユニークにタグ化される。いくつかの実施形態において、親ポリヌクレオチドの各セットは、参照配列内の位置にマッピング可能であり、各セット内のポリヌクレオチドは、ユニークにタグ化されない。いくつかの実施形態において、コンセンサス配列の生成は、タグからの情報ならびに/または(i)配列リードの始めの(開始)領域における配列情報、(ii)配列リードの終わりの(終止)領域および(iii)配列リードの長さのうちの少なくとも1つに基づく。
【0117】
いくつかの実施形態において、上記方法は、上記セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドの少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも98%、少なくとも99%、少なくとも99.9%または少なくとも99.99%の各々の少なくとも1つの子孫に対する配列リードを生成するのに十分な、上記セットの増幅された子孫ポリヌクレオチドのサブセットを配列決定する工程を含む。いくつかの実施形態において、少なくとも1つの子孫は、複数の子孫、例えば、少なくとも2つ、少なくとも5つまたは少なくとも10個の子孫である。いくつかの実施形態において、配列リードのセット内の配列リードの数は、タグ化された親ポリヌクレオチドのセット内のタグ化されたユニークな親ポリヌクレオチドの数よりも多い。いくつかの実施形態において、上記セットの配列決定された増幅された子孫ポリヌクレオチドのサブセットは、使用される配列決定プラットフォームの1塩基あたりの配列決定エラー率のパーセンテージと同じパーセンテージで、タグ化された親ポリヌクレオチドのセット内に表示される任意のヌクレオチド配列が、コンセンサス配列のセットの中に表示される少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも98%、少なくとも99%、少なくとも99.9%または少なくとも99.99%の確率を有するのに十分なサイズである。
【0118】
いくつかの実施形態において、上記方法は、(i)タグ化された親ポリヌクレオチドに変換される開始の最初の遺伝物質からの配列の選択的増幅;(ii)タグ化された親ポリヌクレオチドの選択的増幅;(iii)増幅された子孫ポリヌクレオチドの選択的配列捕捉;または(iv)開始の最初の遺伝物質の選択的配列捕捉によって、参照配列中の1つ以上の選択されたマッピング可能な位置に位置するポリヌクレオチドについて、増幅された子孫ポリヌクレオチドのセットを富化する工程を含む。
【0119】
いくつかの実施形態において、解析する工程は、コンセンサス配列のセットからもたらされた尺度(例えば、数)を、コントロールサンプル由来のコンセンサス配列のセットからもたらされた尺度に対して正規化する工程を含む。いくつかの実施形態において、解析する工程は、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染またはがんを検出する工程を含む。
【0120】
いくつかの実施形態において、ポリヌクレオチドは、DNA、RNA、それら2つの組み合わせまたはDNA+RNA由来cDNAを含む。いくつかの実施形態において、ポリヌクレオチドのある特定のサブセットは、最初のセットのポリヌクレオチドまたは増幅されたポリヌクレオチドから、塩基対を単位とするポリヌクレオチド長について選択されるかまたはそれに基づいて富化される。いくつかの実施形態において、解析は、感染および/またはがんなどの個体内の異常または疾患の検出およびモニタリングをさらに含む。いくつかの実施形態において、上記方法は、免疫レパートリーのプロファイリングと組み合わせて行われる。いくつかの実施形態において、ポリヌクレオチドは、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択されるサンプルから抽出される。いくつかの実施形態において、折りたたむ工程は、タグ化された親ポリヌクレオチドまたは増幅された子孫ポリヌクレオチドのセンス鎖もしくはアンチセンス鎖に存在するエラー、ニックまたは損傷を検出することおよび/または訂正することを含む。
【0121】
本開示は、ユニークにタグ化されない開始の最初の遺伝物質中の遺伝的変異を、少なくとも5%、少なくとも1%、少なくとも0.5%、少なくとも0.1%または少なくとも0.05%の感度で検出する工程を含む方法も提供する。
【0122】
いくつかの実施形態において、開始の最初の遺伝物質は、100ng未満の量の核酸で提供され、遺伝的変異は、コピー数多型/ヘテロ接合性変異であり、検出する工程は、染色体より小さい解像度;例えば、少なくとも100メガベースの解像度、少なくとも10メガベースの解像度、少なくとも1メガベースの解像度、少なくとも100キロベースの解像度、少なくとも10キロベースの解像度または少なくとも1キロベースの解像度で行われる。いくつかの実施形態において、上記方法は、タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、参照配列中の異なるマッピング可能な位置にマッピング可能である。いくつかの実施形態において、参照配列中のマッピング可能な位置は、腫瘍マーカーの遺伝子座であり、解析する工程は、上記セットのコンセンサス配列内に腫瘍マーカーを検出する工程を含む。
【0123】
いくつかの実施形態において、腫瘍マーカーは、増幅する工程において導入されるエラー率より低い頻度で、コンセンサス配列のセットに存在する。いくつかの実施形態において、少なくとも1つのセットは、複数のセットであり、参照配列のマッピング可能な位置は、参照配列中の複数のマッピング可能な位置を含み、そのマッピング可能な位置の各々は、腫瘍マーカーの遺伝子座である。いくつかの実施形態において、解析する工程は、親ポリヌクレオチドの少なくとも2つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む。いくつかの実施形態において、解析する工程は、参照配列と比べて配列変異の存在を検出する工程を含む。
【0124】
いくつかの実施形態において、解析する工程は、参照配列と比べて配列変異の存在を検出する工程および親ポリヌクレオチドの少なくとも2つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む。いくつかの実施形態において、折りたたむ工程は、(i)増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程;および(ii)ファミリー内の配列リードに基づいてコンセンサス配列を決定する工程を含む。
【0125】
本開示は、以下の工程:a)少なくとも1つのセットのタグ化された親ポリヌクレオチドを受け取る工程、およびタグ化された親ポリヌクレオチドの各セットに対して;b)そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;c)そのセットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;d)そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程、および必要に応じて、e)コンセンサス配列のセットを、タグ化された親分子の各セットについて解析する工程を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0126】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも10%が、配列決定される。
【0127】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも20%が、配列決定される。
【0128】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも30%が、配列決定される。
【0129】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも40%が、配列決定される。
【0130】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも50%が、配列決定される。
【0131】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも60%が、配列決定される。
【0132】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも70%が、配列決定される。
【0133】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも80%が、配列決定される。
【0134】
本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも90%が、配列決定される。
【0135】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも10%が、配列決定される。
【0136】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも20%が、配列決定される。
【0137】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも30%が、配列決定される。
【0138】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも40%が、配列決定される。
【0139】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも50%が、配列決定される。
【0140】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも60%が、配列決定される。
【0141】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも70%が、配列決定される。
【0142】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも80%が、配列決定される。
【0143】
本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも90%が、配列決定される。
【0144】
いくつかの実施形態において、遺伝子変化は、コピー数多型または1つ以上の稀な変異である。いくつかの実施形態において、遺伝的変異は、1つ以上の原因バリアントおよび1つ以上の多型を含む。いくつかの実施形態において、個体における遺伝子変化および/または遺伝的変異の量は、公知の疾患を有する1つ以上の個体における遺伝子変化および/または遺伝的変異の量と比較され得る。いくつかの実施形態において、個体における遺伝子変化および/または遺伝的変異の量は、疾患を有しない1つ以上の個体における遺伝子変化および/または遺伝的変異の量と比較され得る。いくつかの実施形態において、無細胞核酸は、DNAである。いくつかの実施形態において、無細胞核酸は、RNAである。いくつかの実施形態において、無細胞核酸は、DNAおよびRNAである。いくつかの実施形態において、疾患は、がんまたは前がん状態である。いくつかの実施形態において、上記方法は、疾患の診断または処置をさらに含む。
【0145】
本開示は、a)少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;b)そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;c)そのセットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;d)そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;およびe)コンセンサス配列の中から、品質閾値を満たさないものを除外する工程を含む方法も提供する。
【0146】
いくつかの実施形態において、品質閾値は、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する。いくつかの実施形態において、品質閾値は、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する。
【0147】
本開示は、本明細書中に記載される方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。
【0148】
本開示は、a)少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程であって、各セットは、1つ以上のゲノム内の参照配列中の異なるマッピング可能な位置に位置し、タグ化された親ポリヌクレオチドの各セットに対して;i)第1ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し;ii)そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し;iii)(1)増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化することによって、配列リードを折りたたむ工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程を含む方法も提供する。
【0149】
いくつかの実施形態において、折りたたむ工程は、各ファミリー内の配列リードの定量的尺度を決定する工程をさらに含む。いくつかの実施形態において、上記方法は、a)ユニークなファミリーの定量的尺度を決定する工程;およびb)(1)ユニークなファミリーの定量的尺度および(2)各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに含む。いくつかの実施形態において、推論する工程は、統計的モデルまたは確率的モデルを使用して行われる。いくつかの実施形態において、少なくとも1つのセットは、複数のセットである。いくつかの実施形態において、上記方法は、2つのセットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む。いくつかの実施形態において、上記方法は、コントロールまたはコントロールサンプルのセットを使用することにより、2つのセットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む。いくつかの実施形態において、上記方法は、セット間のコピー数多型を決定する工程をさらに含む。
【0150】
いくつかの実施形態において、上記方法は、d)ファミリーの間の多型の形態の定量的尺度を決定する工程;およびe)多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに含む。いくつかの実施形態において、多型の形態には、置換、挿入、欠失、逆位、マイクロサテライトの変化、トランスバージョン、転座、融合、メチル化、過剰メチル化、ヒドロキシメチル化、アセチル化、エピジェネティックなバリアント、制御関連バリアントまたはタンパク質結合部位が含まれるがこれらに限定されない。
【0151】
いくつかの実施形態において、上記セットは、共通のサンプルに由来し、上記方法は、d)参照配列中の複数のマッピング可能な位置の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数のセットに対してコピー数多型を推論する工程をさらに含む。いくつかの実施形態において、各セット内のポリヌクレオチドの元の数が、さらに推論される。いくつかの実施形態において、各セット内のタグ化された親ポリヌクレオチドの少なくとも1つのサブセットは、ユニークにタグ化されない。
【0152】
本開示は、ポリヌクレオチドを含むサンプル中のコピー数多型を決定する方法も提供し、その方法は、a)少なくとも2つのセットの第1ポリヌクレオチドを提供する工程であって、各セットは、ゲノム内の参照配列中の異なるマッピング可能な位置に位置し、第1ポリヌクレオチドの各セットに対して;(i)ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し;(ii)そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し;(iii)増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第1ポリヌクレオチドから増幅され;(iv)そのセット内のファミリーの定量的尺度を推論する、工程;およびb)各セット内のファミリーの定量的尺度を比較することによって、コピー数多型を決定する工程を含む。
【0153】
本開示は、ポリヌクレオチドのサンプル中の配列コールの頻度を推論する方法も提供し、その方法は、a)少なくとも1つのセットの第1ポリヌクレオチドを提供する工程であって、各セットは、1つ以上のゲノム内の参照配列中の異なるマッピング可能な位置に位置し、第1ポリヌクレオチドの各セットに対して;(i)第1ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し;(ii)そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し;(iii)その配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程;b)第1ポリヌクレオチドの各セットに対して、そのセットの第1ポリヌクレオチドにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、(i)各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、ファミリーのメンバーの間のコールの頻度を考慮に入れている、工程;および(ii)各ファミリーに割り当てられた1つ以上のコールの信頼スコアを考慮に入れて、1つ以上のコールの頻度を推定する工程を含む、工程を含む。
【0154】
本開示は、少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を通信する方法も提供し、その方法は、a)少なくとも1つの個々のポリヌクレオチド分子を提供する工程;b)その少なくとも1つの個々のポリヌクレオチド分子における配列情報を符号化することにより、信号を生成する工程;c)その信号の少なくとも一部をチャネルに通すことにより、少なくとも1つの個々のポリヌクレオチド分子に関するヌクレオチド配列情報を含む受信信号を生成する工程(その受信信号は、ノイズおよび/または歪みを含む);d)受信信号を復号することにより、少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程(復号は、メッセージ内の個々の各ポリヌクレオチドに関するノイズおよび/または歪みを減少させる);およびe)その少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージをレシピエントに提供する工程を含む。
【0155】
いくつかの実施形態において、ノイズは、誤ったヌクレオチドコールを含む。いくつかの実施形態において、歪みは、他の個々のポリヌクレオチド分子と比べて、個々のポリヌクレオチド分子の不均一な増幅を含む。いくつかの実施形態において、歪みは、増幅バイアスまたは配列決定バイアスに起因する。いくつかの実施形態において、少なくとも1つの個々のポリヌクレオチド分子は、複数の個々のポリヌクレオチド分子であり、復号する工程は、その複数の中の各分子に関するメッセージを生成する。いくつかの実施形態において、符号化する工程は、必要に応じてタグ化された少なくとも1つの個々のポリヌクレオチド分子を増幅する工程を含み、信号は、増幅された分子のコレクションを含む。いくつかの実施形態において、チャネルは、ポリヌクレオチド配列分析装置を構成し、受信信号は、少なくとも1つの個々のポリヌクレオチド分子から増幅された複数のポリヌクレオチドの配列リードを含む。いくつかの実施形態において、復号する工程は、少なくとも1つの個々のポリヌクレオチド分子の各々から増幅された増幅分子の配列リードをグループ化する工程を含む。いくつかの実施形態において、復号する工程は、生成された配列信号を選別する確率的方法または統計学的方法からなる。
【0156】
いくつかの実施形態において、ポリヌクレオチドは、腫瘍ゲノムDNAまたはRNAに由来する。いくつかの実施形態において、ポリヌクレオチドは、無細胞ポリヌクレオチド、エキソソームポリヌクレオチド、細菌ポリヌクレオチドまたはウイルスポリヌクレオチドに由来する。本明細書中の任意の方法のいくつかの実施形態において、その方法は、影響される分子経路の検出および/または関連付けをさらに含む。本明細書中の任意の方法のいくつかの実施形態において、その方法は、個体の健康状態または疾患状態の連続モニタリングをさらに含む。いくつかの実施形態において、個体内の疾患に関連するゲノムの系統発生が、推論される。いくつかの実施形態において、本明細書中に記載される方法のいずれかは、疾患の診断、モニタリングまたは処置をさらに含む。いくつかの実施形態において、処置レジメンは、検出された多型の形態またはCNVまたは関連する経路に基づいて選択されるかまたは改変される。いくつかの実施形態において、処置は、併用療法を含む。いくつかの実施形態において、診断は、放射線撮影法、例えば、CT−Scan、PET−CT、MRI、超音波、マイクロバブルを用いる超音波などを使用して、疾患の位置を特定する工程をさらに含む。
【0157】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ゲノム内の予め定義された領域を選択する工程;配列リードにアクセスし、予め定義された領域における配列リードの数を列挙する工程;予め定義された領域にわたって配列リードの数を正規化する工程;および予め定義された領域におけるコピー数多型のパーセントを決定する工程を含む。
【0158】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、複数の配列決定リードを含むデータファイルにアクセスする工程;指定の閾値を満たさないリードを除外する工程;配列決定工程に由来する配列リードを参照配列上にマッピングする工程;マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;マッピング可能な各塩基位置に対して、(a)参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは他の遺伝子変化を決定する工程;および潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程を含む。
【0159】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、a)複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;およびb)そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む。
【0160】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、a)複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;b)そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;およびc)コンセンサス配列の中から、品質閾値を満たさないものを除外する工程を含む。
【0161】
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、その方法は、a)複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;ならびにi)(1)増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化すること(各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される)および必要に応じて(2)各ファミリー内の配列リードの定量的尺度を決定することによって配列リードを折りたたむ工程を含む。
【0162】
いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、b)ユニークなファミリーの定量的尺度を決定する工程;ならびにc)(1)ユニークなファミリーの定量的尺度および(2)各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに行う。
【0163】
いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、d)ファミリーの間の多型の形態の定量的尺度を決定する工程;およびe)多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに行う。
【0164】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、a)複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第1ポリヌクレオチドから増幅される、工程;b)そのセット内のファミリーの定量的尺度を推論する工程;およびc)各セット内のファミリーの定量的尺度を比較することによって、コピー数多型を決定する工程を含む。
【0165】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、a)複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、その配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程;b)第1ポリヌクレオチドの各セットに対して、第1ポリヌクレオチドのセットにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、c)各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、ファミリーのメンバーの間のコールの頻度を考慮に入れている、工程;およびd)各ファミリーに割り当てられた1つ以上のコールの信頼スコアを考慮に入れて、1つ以上のコールの頻度を推定する、工程を含む、工程を含む。
【0166】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、a)少なくとも1つの個々のポリヌクレオチド分子由来の符号化された配列情報を含む受信信号を含むデータファイルにアクセスする工程(その受信信号は、ノイズおよび/または歪みを含む);b)受信信号を復号することにより、少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程(復号は、メッセージ内の個々の各ポリヌクレオチドに関するノイズおよび/または歪みを減少させる);およびc)少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージをコンピュータファイルに書き込む工程を含む。
【0167】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、a)複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;b)そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;およびc)コンセンサス配列の中から、品質閾値を満たさないものを除外する工程を含む。
【0168】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、a)複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;ならびにb)(i)増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化すること(各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される);および(ii)必要に応じて、各ファミリー内の配列リードの定量的尺度を決定することによって配列リードを折りたたむ工程を含む。
【0169】
いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、d)ユニークなファミリーの定量的尺度を決定する工程;e)(1)ユニークなファミリーの定量的尺度および(2)各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに行う。
【0170】
いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、e)ファミリーの間の多型の形態の定量的尺度を決定する工程;およびf)多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに行う。
【0171】
いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、e)複数の参照配列の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数のセットに対してコピー数多型を推論する工程をさらに行う。
【0172】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、a)複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;b)増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、そのセット内の同じ第1ポリヌクレオチドから増幅される、工程;c)そのセット内のファミリーの定量的尺度を推論する工程;d)各セット内のファミリーの定量的尺度を比較することによって、コピー数多型を決定する工程を含む。
【0173】
本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、その配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程;および第1ポリヌクレオチドの各セットに対して、そのセットの第1ポリヌクレオチドにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、(i)各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、そのファミリーのメンバーの間のコールの頻度を考慮に入れている、工程;および(ii)各ファミリーに割り当てられた1つ以上のコールの信頼スコアを考慮に入れて、1つ以上のコールの頻度を推定する工程を含む工程を含む。
【0174】
本開示は、100〜100,000個のヒト半数体ゲノム等価物のcfDNAポリヌクレオチドを含む組成物も提供し、そのポリヌクレオチドは、2〜1,000,000個のユニークな識別子でタグ化される。
【0175】
いくつかの実施形態において、組成物は、1000〜50,000個の半数体ヒトゲノム等価物のcfDNAポリヌクレオチドを含み、そのポリヌクレオチドは、2〜1,000個のユニークな識別子でタグ化される。いくつかの実施形態において、ユニークな識別子は、ヌクレオチドバーコードを含む。本開示は、a)100〜100,000個の半数体ヒトゲノム等価物のcfDNAポリヌクレオチドを含むサンプルを提供する工程;およびb)そのポリヌクレオチドを2〜1,000,000個のユニークな識別子でタグ化する工程を含む方法も提供する。
【0176】
本開示は、a)複数のヒト半数体ゲノム等価物の断片化されたポリヌクレオチドを含むサンプルを提供する工程;b)zを決定する工程(zは、そのゲノム内の任意の位置から開始する2つ組のポリヌクレオチドの期待数の中心傾向の尺度(例えば、平均値、中央値または最頻値)であり、2つ組のポリヌクレオチドは、同じ開始位置および終止位置を有する);およびc)サンプル中のポリヌクレオチドをn個のユニークな識別子でタグ化する工程(nは、2〜100,000
*z、2〜10,000
*z、2〜1,000
*zまたは2〜100
*zである)を含む方法も提供する。本開示は、a)少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;b)そのセット内のタグ化された親ポリヌクレオチドの各々に対して複数の配列リードを生成することにより、配列決定リードのセットを生成する工程;およびc)そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む方法も提供する。
【0177】
本開示は、本明細書中に記載されるような機械実行可能コードを含むコンピュータ可読媒体を備えるシステムも提供する。本開示は、コンピュータプロセッサによって実行されるとき、本明細書中に記載されるような方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステムも提供する。
【0178】
本開示のさらなる態様および利点は、以下の詳細な説明(ここで、本開示の単なる例証的な実施形態が示され、記載される)から、当業者に容易に明らかになるだろう。理解されるように、本開示は、他の実施形態および異なる実施形態が可能であり、そのいくつかの詳細は、すべてが本開示から逸脱せずに、様々な明らかな点において改変が可能である。したがって、図面および明細書は、例証的な性質であると見なされるべきであって、限定的と見なされるべきでない。
特定の実施形態において、例えば、以下が提供される。
(項目1)
コピー数多型を検出するための方法であって、該方法は、
a.被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、該細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;
b.指定の閾値を満たさないリードを除外する工程;
c.工程(a)から得られた配列リードを、リードを除外した後に、参照配列に対してマッピングする工程;
d.該参照配列の予め定義された2つ以上の領域におけるマッピングされたリードを定量するかまたは列挙する工程;および
e.
i.該予め定義された領域におけるリードの数を互いに対しておよび/または該予め定義された領域におけるユニークな配列リードの数を互いに対して正規化する工程;
ii.工程(i)において得られた正規化された数を、コントロールサンプルから得られた正規化された数と比較する工程
によって、該予め定義された領域の1つ以上におけるコピー数多型を決定する工程
を含む、方法。
(項目2)
被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法であって、該方法は、
a.被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、該細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;
b.領域において多重配列決定を行うか、または富化が行われない場合、全ゲノム配列決定を行う、工程;
c.指定の閾値を満たさないリードを除外する工程;
d.該配列決定工程に由来する配列リードを参照配列上にマッピングする工程;
e.マッピング可能な各塩基位置において該参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;
f.マッピング可能な各塩基位置に対して、(a)該参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;
g.マッピング可能な各塩基位置に対して該比または分散の頻度を正規化し、潜在的な稀なバリアント(複数可)または変異(複数可)を決定する工程;および
h.潜在的な稀なバリアント(複数可)または変異(複数可)を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程
を含む、方法。
(項目3)
被験体における異常な状態の不均一性を特徴付ける方法であって、該方法は、該被験体における細胞外ポリヌクレオチドの遺伝的プロファイルを生成する工程を含み、該遺伝的プロファイルは、コピー数多型および稀な変異の解析からもたらされる複数のデータを含む、方法。
(項目4)
前記被験体において同定された稀な各バリアントの保有率/濃度が、同時に報告および定量される、項目1、2または3に記載の方法。
(項目5)
前記被験体における稀なバリアントの保有率/濃度に関する信頼スコアが、報告される、項目1、2または3に記載の方法。
(項目6)
前記細胞外ポリヌクレオチドが、DNAを含む、項目1、2または3に記載の方法。
(項目7)
前記細胞外ポリヌクレオチドが、RNAを含む、項目1、2または3に記載の方法。
(項目8)
前記身体サンプルから細胞外ポリヌクレオチドを単離する工程をさらに含む、項目1、2または3に記載の方法。
(項目9)
前記単離する工程が、循環核酸の単離および抽出のための方法を含む、項目1、2または3に記載の方法。
(項目10)
単離された前記細胞外ポリヌクレオチドを断片化する工程をさらに含む、項目1、2または3に記載の方法。
(項目11)
前記身体サンプルが、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択される、項目8に記載の方法。
(項目12)
前記身体サンプル中にコピー数多型または稀な変異もしくはバリアントを有する配列のパーセントを決定する工程をさらに含む、項目1、2または3に記載の方法。
(項目13)
前記決定する工程が、所定の閾値より多いまたは少ないポリヌクレオチドの量を有する予め定義された領域のパーセンテージを計算する工程を含む、項目12に記載の方法。
(項目14)
前記被験体が、異常な状態を有すると疑われる、項目1、2または3に記載の方法。
(項目15)
前記異常な状態が、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される、項目14に記載の方法。
(項目16)
前記被験体が、妊婦である、項目1、2または3に記載の方法。
(項目17)
前記コピー数多型または稀な変異または遺伝的バリアントが、胎児の異常を示す、項目1または2に記載の方法。
(項目18)
前記胎児の異常が、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される、項目17に記載の方法。
(項目19)
配列決定前に、前記細胞外ポリヌクレオチドまたはそのフラグメントに1つ以上のバーコードを付着させる工程をさらに含む、項目1、2または3に記載の方法。
(項目20)
配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着される各バーコードが、ユニークである、項目19に記載の方法。
(項目21)
配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着される各バーコードが、ユニークでない、項目19に記載の方法。
(項目22)
配列決定前に前記被験体のゲノムまたはトランスクリプトームから領域を選択的に富化する工程をさらに含む、項目1、2または3に記載の方法。
(項目23)
配列決定前に前記被験体のゲノムまたはトランスクリプトームから領域を非選択的に富化する工程をさらに含む、項目1、2または3に記載の方法。
(項目24)
任意の増幅工程または富化工程の前に、前記細胞外ポリヌクレオチドまたはそのフラグメントに1つ以上のバーコードを付着させる工程をさらに含む、項目1、2または3に記載の方法。
(項目25)
前記バーコードが、ポリヌクレオチドである、項目19に記載の方法。
(項目26)
前記バーコードが、ランダムな配列を含む、項目19に記載の方法。
(項目27)
前記バーコードが、選ばれた領域から配列決定された分子の多様性と組み合わせて、ユニークな分子の同定を可能にする、固定されたまたはセミランダムなセットのオリゴヌクレオチドを含む、項目19に記載の方法。
(項目28)
前記バーコードが、少なくとも3、5、10、15、20、25、30、35、40、45または50merの塩基対の長さであるオリゴヌクレオチドを含む、項目19に記載の方法。
(項目29)
前記細胞外ポリヌクレオチドまたはそのフラグメントを増幅する工程をさらに含む、項目1、2または3に記載の方法。
(項目30)
前記増幅が、グローバル増幅または全ゲノム増幅を含む、項目29に記載の方法。
(項目31)
ユニークな同一性の配列リードが、該配列リードの始めの(開始)領域および終わりの(終止)領域における配列情報ならびに該配列リードの長さに基づいて検出される、項目1、2または3に記載の方法。
(項目32)
ユニークな同一性の配列分子が、前記配列リードの始めの(開始)領域および終わりの(終止)領域における配列情報、該配列リードの長さならびにバーコードの付着に基づいて検出される、項目31に記載の方法。
(項目33)
前記増幅が、選択的増幅を含む、項目30に記載の方法。
(項目34)
前記増幅が、非選択的増幅を含む、項目33に記載の方法。
(項目35)
抑制増幅またはサブトラクションによる富化が、行われる、項目1、2または3に記載の方法。
(項目36)
前記リードのサブセットを、リードを定量するかまたは列挙する前に、さらなる解析から除去する工程をさらに含む、項目1、2または3に記載の方法。
(項目37)
除去する工程が、閾値未満、例えば、90%、99%、99.9%もしくは99.99%未満の精度スコアもしくは品質スコア、および/または閾値未満、例えば、90%、99%、99.9%もしくは99.99%未満のマッピングスコアを有するリードを除外する工程を含む、項目36に記載の方法。
(項目38)
指定の閾値より低い品質スコアを有するリードを選別する工程をさらに含む、項目1、2または3に記載の方法。
(項目39)
前記予め定義された領域が、均一なまたは実質的に均一なサイズである、項目1に記載の方法。
(項目40)
前記予め定義された領域が、少なくとも約10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kbまたは100kbのサイズである、項目39に記載の方法。
(項目41)
少なくとも50、100、200、500、1000、2000、5000、10,000、20,000または50,000個の領域が、解析される、項目1、2または3に記載の方法。
(項目42)
前記バリアントが、遺伝子融合、遺伝子重複、遺伝子欠失、遺伝子転座、マイクロサテライト領域、遺伝子フラグメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に存在する、項目1、2または3に記載の方法。
(項目43)
前記バリアントが、遺伝子、癌遺伝子、腫瘍抑制遺伝子、プロモーター、制御配列エレメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に存在する、項目1、2または3に記載の方法。
(項目44)
前記バリアントが、1、2、3、4、5、6、7、8、9、10、15または20ヌクレオチド長のヌクレオチドバリアント、一塩基置換、小インデル、トランスバージョン、転座、逆位、欠失、切断または遺伝子切断である、項目2に記載の方法。
(項目45)
個々のリードの前記バーコードまたはユニークな特性を用いて、マッピングされたリードの数量を訂正する/正規化する/調整する工程をさらに含む、項目1、2または3に記載の方法。
(項目46)
前記リードを列挙する工程が、前記予め定義された領域の各々におけるユニークなバーコードを列挙し、配列決定された予め定義された領域の少なくとも1つのサブセットにわたってそれらの数を正規化することによって行われる、項目1または2に記載の方法。
(項目47)
同じ前記被験体由来の、次の時間間隔におけるサンプルが、解析され、前のサンプルの結果と比較される、項目1、2または3に記載の方法。
(項目48)
前記方法が、前記バーコードが付着された細胞外ポリヌクレオチドを増幅する工程をさらに含む、項目45に記載の方法。
(項目49)
部分的なコピー数多型の頻度を決定する工程、ヘテロ接合性の喪失を測定する工程、遺伝子発現の解析を行う工程、エピジェネティックな解析を行う工程、および/または過剰メチル化の解析を行う工程をさらに含む、項目1、2または3に記載の方法。
(項目50)
多重配列決定を用いて、被験体から得られた無細胞のまたは実質的に無細胞のサンプルにおいて、コピー数多型を決定するかまたは稀な変異の解析を行う工程を含む、方法。
(項目51)
前記多重配列決定が、10,000を超える配列決定反応を行うことを含む、項目50に記載の方法。
(項目52)
前記多重配列決定が、少なくとも10,000個の異なるリードを同時に配列決定することを含む、項目50に記載の方法。
(項目53)
前記多重配列決定が、少なくとも10,000個の異なるリードに対するデータ解析を前記ゲノムにわたって行うことを含む、項目50に記載の方法。
(項目54)
前記正規化することおよび検出が、隠れマルコフ、動的計画法、サポートベクターマシン、ベイジアンモデリングもしくは確率モデリング、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリングまたはニューラルネットワーク法のうちの1つ以上を使用して行われる、項目1または2に記載の方法。
(項目55)
疾患の進行をモニターする工程、残存する疾患をモニターする工程、治療をモニターする工程、状態を診断する工程、状態を予後診断する工程、または前記被験体に対して発見されたバリアントに基づいて治療を選択する工程をさらに含む、項目1、2または3に記載の方法。
(項目56)
治療が、最新のサンプル解析に基づいて改変される、項目55に記載の方法。
(項目57)
腫瘍、感染または他の組織異常の遺伝的プロファイルが、推論される、項目1、2または3に記載の方法。
(項目58)
腫瘍の成長、寛解もしくは進展、感染または他の組織異常が、モニターされる、項目1、2または3に記載の方法。
(項目59)
前記被験体の免疫系に関係する配列が、単一の場合においてまたは経時的に解析およびモニターされる、項目1、2または3に記載の方法。
(項目60)
バリアントの同定が、該同定されたバリアントを引き起こすと疑われる組織異常の位置を特定するためのイメージング検査(例えば、CT、PET−CT、MRI、X線、超音波)を通じて追跡される、項目1、2または3に記載の方法。
(項目61)
前記解析が、同じ患者由来の組織または腫瘍のバイオプシーから得られる遺伝子データの使用をさらに含む、項目1、2または3に記載の方法。
(項目62)
腫瘍、感染または他の組織異常の系統発生が、推論される、項目1、2または3に記載の方法。
(項目63)
前記方法が、信頼度の低い領域を、集団に基づいてコールしないことおよび同定することを行う工程をさらに含む、項目1または2に記載の方法。
(項目64)
配列カバー率についての測定データを得る工程が、前記ゲノムのすべての位置において配列カバー率の深さを計測する工程を含む、項目1または2に記載の方法。
(項目65)
前記配列カバー率についての前記測定データのバイアスについて訂正する工程が、ウィンドウ平均カバー率を計算する工程を含む、項目64に記載の方法。
(項目66)
前記配列カバー率についての前記測定データのバイアスについて訂正する工程が、ライブラリー構築および配列決定プロセスにおけるGCバイアスを説明する調整を行う工程を含む、項目64に記載の方法。
(項目67)
前記配列カバー率についての前記測定データのバイアスについて訂正する工程が、バイアスを相殺するために、個々のマッピングに関連するさらなる重み付け因子に基づいて調整を行う工程を含む、項目64に記載の方法。
(項目68)
細胞外ポリヌクレオチドが、病的な細胞起源に由来する、項目1、2または3に記載の方法。
(項目69)
細胞外ポリヌクレオチドが、健常な細胞起源に由来する、項目1、2または3に記載の方法。
(項目70)
以下の工程:ゲノム内の予め定義された領域を選択する工程;該予め定義された領域内の配列リードの数を列挙する工程;該予め定義された領域にわたる配列リードの該数を正規化する工程;および該予め定義された領域内のコピー数多型のパーセントを決定する工程を行うためのコンピュータ可読媒体を備えるシステム。
(項目71)
前記ゲノムの全体または該ゲノムの少なくとも85%が、解析される、項目70に記載のシステム。
(項目72)
前記コンピュータ可読媒体が、血漿または血清中のがんDNAまたはがんRNAのパーセントに関するデータをエンドユーザーに提供する、項目70に記載のシステム。
(項目73)
同定された前記コピー数多型が、前記サンプル中の不均一性に起因して、分数(すなわち、非整数レベル)である、項目1に記載の方法。
(項目74)
選択された領域の富化が、行われる、項目1に記載の方法。
(項目75)
コピー数多型の情報が、項目1、64、65、66および67に記載された方法に基づいて同時に抽出される、項目1に記載の方法。
(項目76)
ポリヌクレオチドを妨げて、前記サンプル中のポリヌクレオチドの開始の最初のコピー数または多様性を制限する最初の工程とともに使用される、項目1または2に記載の方法。
(項目77)
被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法であって、該方法は、
a.被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、該細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程;
b.指定の品質閾値を満たさないリードを除外する工程;
c.該配列決定する工程に由来する配列リードを参照配列上にマッピングする工程;
d.マッピング可能な各塩基位置において該参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;
e.マッピング可能な各塩基位置に対して、(a)該参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;
f.マッピング可能な各塩基位置に対して該比または分散の頻度を正規化し、潜在的な稀なバリアント(複数可)または他の遺伝子変化(複数可)を決定する工程;および
g.潜在的な稀なバリアント(複数可)または変異(複数可)を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程
を含む、方法。
(項目78)
a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;
b.該セット内の該タグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;
c.該セットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;および
d.該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程
を含む、方法。
(項目79)
あるセット内の各ポリヌクレオチドが、参照配列にマッピング可能である、項目78に記載の方法。
(項目80)
タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、前記参照配列中の異なるマッピング可能な位置にマッピング可能である、項目78に記載の方法。
(項目81)
e.前記セットのコンセンサス配列を、タグ化された親分子の各セットについて、別々にまたは組み合わせて解析する工程をさらに含む、項目78に記載の方法。
(項目82)
開始の最初の遺伝物質を、前記タグ化された親ポリヌクレオチドに変換する工程をさらに含む、項目78に記載の方法。
(項目83)
前記開始の最初の遺伝物質が、100ng以下のポリヌクレオチドを含む、項目82に記載の方法。
(項目84)
変換前に、前記開始の最初の遺伝物質を妨害する工程を含む、項目82に記載の方法。
(項目85)
前記開始の最初の遺伝物質を、タグ化された親ポリヌクレオチドに、少なくとも10%、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも80%または少なくとも90%の変換効率で変換する工程を含む、項目82に記載の方法。
(項目86)
変換する工程が、平滑末端ライゲーション、粘着末端ライゲーション、分子反転プローブ、PCR、ライゲーションベースのPCR、一本鎖ライゲーションおよび一本鎖環状化のいずれかを含む、項目82に記載の方法。
(項目87)
前記開始の最初の遺伝物質が、無細胞核酸である、項目82に記載の方法。
(項目88)
複数の前記セットが、同じ前記ゲノム由来の参照配列内の異なるマッピング可能な位置にマッピングする、項目79に記載の方法。
(項目89)
前記セット内のタグ化された親ポリヌクレオチドの各々が、ユニークにタグ化される、項目78に記載の方法。
(項目90)
親ポリヌクレオチドの各セットが、参照配列内の位置にマッピング可能であり、各セット内の該ポリヌクレオチドが、ユニークにタグ化されない、項目78に記載の方法。
(項目91)
コンセンサス配列の生成が、前記タグからの情報ならびに/または(i)前記配列リードの始めの(開始)領域における配列情報、(ii)該配列リードの終わりの(終止)領域および(iii)該配列リードの長さのうちの少なくとも1つに基づく、項目78に記載の方法。
(項目92)
前記セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドの少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも98%、少なくとも99%、少なくとも99.9%または少なくとも99.99%の各々の少なくとも1つの子孫に対する配列リードを生成するのに十分な、前記セットの増幅された子孫ポリヌクレオチドのサブセットを配列決定する工程を含む、項目78に記載の方法。
(項目93)
前記少なくとも1つの子孫が、複数の子孫、例えば、少なくとも2つ、少なくとも5つまたは少なくとも10個の子孫である、項目92に記載の方法。
(項目94)
配列リードの前記セット内の配列リードの数が、タグ化された親ポリヌクレオチドの前記セット内のタグ化されたユニークな親ポリヌクレオチドの数よりも多い、項目78に記載の方法。
(項目95)
配列決定された前記セットの増幅された子孫ポリヌクレオチドの前記サブセットが、使用される配列決定プラットフォームの1塩基あたりの配列決定エラー率のパーセンテージと同じパーセンテージで、タグ化された親ポリヌクレオチドの前記セット内に表示される任意のヌクレオチド配列が、コンセンサス配列の前記セットの中に表示される少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも98%、少なくとも99%、少なくとも99.9%または少なくとも99.99%の確率を有するのに十分なサイズである、項目78に記載の方法。
(項目96)
(i)タグ化された親ポリヌクレオチドに変換される開始の最初の遺伝物質からの配列の選択的増幅;(ii)タグ化された親ポリヌクレオチドの選択的増幅;(iii)増幅された子孫ポリヌクレオチドの選択的配列捕捉;または(iv)開始の最初の遺伝物質の選択的配列捕捉によって、参照配列中の1つ以上の選択されたマッピング可能な位置に位置するポリヌクレオチドについて、前記セットの増幅された子孫ポリヌクレオチドを富化する工程を含む、項目78に記載の方法。
(項目97)
解析する工程が、コンセンサス配列のセットからもたらされた尺度(例えば、数)を、コントロールサンプル由来のコンセンサス配列のセットからもたらされた尺度に対して正規化する工程を含む、項目81に記載の方法。
(項目98)
解析する工程が、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染またはがんを検出する工程を含む、項目81に記載の方法。
(項目99)
前記ポリヌクレオチドが、DNA、RNA、それら2つの組み合わせまたはDNA+RNA由来cDNAを含む、項目78に記載の方法。
(項目100)
ポリヌクレオチドのある特定のサブセットが、前記最初のセットのポリヌクレオチドまたは前記増幅されたポリヌクレオチドから、塩基対を単位とするポリヌクレオチド長について選択されるかまたはそれに基づいて富化される、項目82に記載の方法。
(項目101)
解析が、感染および/またはがんなどの個体内の異常または疾患の検出およびモニタリングをさらに含む、項目82に記載の方法。
(項目102)
免疫レパートリーのプロファイリングと組み合わせて行われる、項目101に記載の方法。
(項目103)
前記ポリヌクレオチドが、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択されるサンプルから抽出される、項目78に記載の方法。
(項目104)
折りたたむ工程が、前記タグ化された親ポリヌクレオチドまたは増幅された子孫ポリヌクレオチドのセンス鎖もしくはアンチセンス鎖に存在するエラー、ニックまたは損傷を検出することおよび/または訂正することを含む、項目78に記載の方法。
(項目105)
ユニークにタグ化されない開始の最初の遺伝物質中の遺伝的変異を、少なくとも5%、少なくとも1%、少なくとも0.5%、少なくとも0.1%または少なくとも0.05%の感度で検出する工程を含む、方法。
(項目106)
前記開始の最初の遺伝物質が、100ng未満の量の核酸で提供され、前記遺伝的変異が、コピー数多型/ヘテロ接合性変異であり、検出する工程が、染色体より小さい解像度;例えば、少なくとも100メガベースの解像度、少なくとも10メガベースの解像度、少なくとも1メガベースの解像度、少なくとも100キロベースの解像度、少なくとも10キロベースの解像度または少なくとも1キロベースの解像度で行われる、項目105に記載の方法。
(項目107)
タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、参照配列中の異なるマッピング可能な位置にマッピング可能である、項目81に記載の方法。
(項目108)
前記参照配列中の前記マッピング可能な位置が、腫瘍マーカーの遺伝子座であり、解析する工程が、前記セットのコンセンサス配列内に該腫瘍マーカーを検出する工程を含む、項目107に記載の方法。
(項目109)
前記腫瘍マーカーが、前記増幅する工程において導入されるエラー率より低い頻度で、前記セットのコンセンサス配列に存在する、項目108に記載の方法。
(項目110)
前記少なくとも1つのセットが、複数のセットであり、前記参照配列の前記マッピング可能な位置が、該参照配列中の複数のマッピング可能な位置を含み、そのマッピング可能な位置の各々は、腫瘍マーカーの遺伝子座である、項目107に記載の方法。
(項目111)
解析する工程が、親ポリヌクレオチドの少なくとも2つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む、項目107に記載の方法。
(項目112)
解析する工程が、前記参照配列と比べて配列変異の存在を検出する工程を含む、項目107に記載の方法。
(項目113)
解析する工程が、前記参照配列と比べて配列変異の存在を検出する工程および親ポリヌクレオチドの少なくとも2つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む、項目107に記載の方法。
(項目114)
折りたたむ工程が、
i.増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程;および
ii.ファミリー内の配列リードに基づいてコンセンサス配列を決定する工程
を含む、項目78に記載の方法。
(項目115)
以下の工程:
a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを受け取る工程、およびタグ化された親ポリヌクレオチドの各セットに対して;
b.該セット内の該タグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;
c.該セットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;
d.該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程、および必要に応じて
e.コンセンサス配列の該セットを、タグ化された親分子の各セットについて解析する工程
を行うためのコンピュータ可読媒体を備えるシステム。
(項目116)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも10%が、配列決定される、方法。
(項目117)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも20%が、配列決定される、方法。
(項目118)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも30%が、配列決定される、方法。
(項目119)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも40%が、配列決定される、方法。
(項目120)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも50%が、配列決定される、方法。
(項目121)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも60%が、配列決定される、方法。
(項目122)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも70%が、配列決定される、方法。
(項目123)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも80%が、配列決定される、方法。
(項目124)
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも90%が、配列決定される、方法。
(項目125)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも10%が、配列決定される、方法。
(項目126)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも20%が、配列決定される、方法。
(項目127)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも30%が、配列決定される、方法。
(項目128)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも40%が、配列決定される、方法。
(項目129)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも50%が、配列決定される、方法。
(項目130)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも60%が、配列決定される、方法。
(項目131)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも70%が、配列決定される、方法。
(項目132)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも80%が、配列決定される、方法。
(項目133)
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも90%が、配列決定される、方法。
(項目134)
前記遺伝子変化が、コピー数多型または1つ以上の稀な変異である、項目116〜133に記載の方法。
(項目135)
前記遺伝的変異が、1つ以上の原因バリアントおよび1つ以上の多型を含む、項目116〜133に記載の方法。
(項目136)
前記個体における前記遺伝子変化および/または遺伝的変異の量が、公知の疾患を有する1つ以上の個体における遺伝子変化および/または遺伝的変異の量と比較され得る、項目116〜133に記載の方法。
(項目137)
前記個体における前記遺伝子変化および/または遺伝的変異の量が、疾患を有しない1つ以上の個体における遺伝子変化および/または遺伝的変異の量と比較され得る、項目116〜133に記載の方法。
(項目138)
前記無細胞核酸が、DNAである、項目116〜133に記載の方法。
(項目139)
前記無細胞核酸が、RNAである、項目116〜133に記載の方法。
(項目140)
前記無細胞核酸が、DNAおよびRNAである、項目116〜133に記載の方法。
(項目141)
前記疾患が、がんまたは前がん状態である、項目136に記載の方法。
(項目142)
前記方法が、疾患の診断または処置をさらに含む、項目116〜133に記載の方法。
(項目143)
a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;
b.該セット内の該タグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程;
c.該セットの増幅された子孫ポリヌクレオチドのサブセット(適切なサブセットを含む)を配列決定することにより、配列決定リードのセットを生成する工程;
d.該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;および
e.該コンセンサス配列の中から、品質閾値を満たさないものを除外する工程
を含む、方法。
(項目144)
前記品質閾値が、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する、項目143に記載の方法。
(項目145)
前記品質閾値が、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する、項目143に記載の方法。
(項目146)
項目143〜145のいずれかに記載の方法を行うためのコンピュータ可読媒体を備える、システム。
(項目147)
a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程
を含む方法であって、各セットは、1つ以上のゲノム内の参照配列中の異なるマッピング可能な位置に位置し、タグ化された親ポリヌクレオチドの各セットに対して;
i.第1ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し;
ii.該セットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し;
iii.
1.増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化することによって、該配列リードを折りたたみ、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、
方法。
(項目148)
折りたたむ工程が、
2.各ファミリー内の配列リードの定量的尺度を決定すること
をさらに含む、項目147に記載の方法。
(項目149)
b.ユニークなファミリーの定量的尺度を決定する工程;ならびに
c.(1)ユニークなファミリーの該定量的尺度および(2)各グループ内の配列リードの該定量的尺度に基づいて、前記セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程
をさらに含む、項目148に記載の方法。
(項目150)
推論する工程が、統計的モデルまたは確率的モデルを使用して行われる、項目149に記載の方法。
(項目151)
少なくとも1つの前記セットが、複数のセットである、項目149に記載の方法。
(項目152)
2つの前記セットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む、項目151に記載の方法。
(項目153)
コントロールまたはコントロールサンプルのセットを使用することにより、2つの前記セットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む、項目152に記載の方法。
(項目154)
前記セット間のコピー数多型を決定する工程をさらに含む、項目151に記載の方法。
(項目155)
d.前記ファミリーの間の多型の形態の定量的尺度を決定する工程;および
e.多型の形態の該決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程
をさらに含む、項目149に記載の方法。
(項目156)
多型の形態には、置換、挿入、欠失、逆位、マイクロサテライトの変化、トランスバージョン、転座、融合、メチル化、過剰メチル化、ヒドロキシメチル化、アセチル化、エピジェネティックなバリアント、制御関連バリアントまたはタンパク質結合部位が含まれるがこれらに限定されない、項目155に記載の方法。
(項目157)
前記セットが、共通のサンプルに由来し、前記方法が、
d.参照配列中の複数のマッピング可能な位置の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数の該セットに対してコピー数多型を推論する工程
をさらに含む、項目149に記載の方法。
(項目158)
各セット内のポリヌクレオチドの元の数が、さらに推論される、項目157に記載の方法。
(項目159)
各セット内の前記タグ化された親ポリヌクレオチドの少なくとも1つのサブセットが、ユニークにタグ化されない、項目147に記載の方法。
(項目160)
コンピュータプロセッサによって実行されるとき、項目147〜158のいずれか1項に記載の方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステム。
(項目161)
ポリヌクレオチドを含むサンプル中のコピー数多型を決定する方法であって、該方法は、a.少なくとも2つのセットの第1ポリヌクレオチドを提供する工程であって、各セットは、ゲノム内の参照配列中の異なるマッピング可能な位置に位置し、第1ポリヌクレオチドの各セットに対して;
i.該ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し;
ii.該セットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し;
iii.増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、該セット内の同じ第1ポリヌクレオチドから増幅され;
iv.該セット内のファミリーの定量的尺度を推論する、
工程;および
b.各セット内のファミリーの該定量的尺度を比較することによって、コピー数多型を決定する工程
を含む、方法。
(項目162)
コンピュータプロセッサによって実行されるとき、項目161に記載の方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステム。
(項目163)
ポリヌクレオチドのサンプル中の配列コールの頻度を推論する方法であって、該方法は、a.少なくとも1つのセットの第1ポリヌクレオチドを提供する工程であって、各セットは、1つ以上のゲノム内の参照配列中の異なるマッピング可能な位置に位置し、第1ポリヌクレオチドの各セットに対して;
i.該第1ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し;
ii.該セットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し;
iii.該配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、
工程;
b.第1ポリヌクレオチドの各セットに対して、該セットの第1ポリヌクレオチドにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、
i.各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、該信頼スコアは、該ファミリーのメンバーの間の該コールの頻度を考慮に入れている、工程;および
ii.各ファミリーに割り当てられた1つ以上の該コールの該信頼スコアを考慮に入れて、1つ以上の該コールの頻度を推定する工程
を含む、工程
を含む、方法。
(項目164)
コンピュータプロセッサによって実行されるとき、項目163に記載の方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステム。
(項目165)
少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を通信する方法であって、該方法は、
a.少なくとも1つの個々のポリヌクレオチド分子を提供する工程;
b.該少なくとも1つの個々のポリヌクレオチド分子における配列情報を符号化することにより、信号を生成する工程;
c.該信号の少なくとも一部をチャネルに通すことにより、該少なくとも1つの個々のポリヌクレオチド分子に関するヌクレオチド配列情報を含む受信信号を生成する工程であって、該受信信号は、ノイズおよび/または歪みを含む、工程;
d.該受信信号を復号することにより、該少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程であって、復号する工程は、該メッセージ内の個々の各ポリヌクレオチドに関するノイズおよび/または歪みを減少させる、工程;および
e.該少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含む該メッセージをレシピエントに提供する工程
を含む、方法。
(項目166)
前記ノイズが、誤ったヌクレオチドコールを含む、項目165に記載の方法。
(項目167)
歪みが、他の個々のポリヌクレオチド分子と比べて、前記個々のポリヌクレオチド分子の不均一な増幅を含む、項目165に記載の方法。
(項目168)
歪みが、増幅バイアスまたは配列決定バイアスに起因する、項目167に記載の方法。
(項目169)
前記少なくとも1つの個々のポリヌクレオチド分子が、複数の個々のポリヌクレオチド分子であり、復号する工程が、該複数の中の各分子に関するメッセージを生成する、項目165に記載の方法。
(項目170)
符号化する工程が、必要に応じてタグ化された前記少なくとも1つの個々のポリヌクレオチド分子を増幅する工程を含み、前記信号は、増幅された分子のコレクションを含む、項目165に記載の方法。
(項目171)
前記チャネルが、ポリヌクレオチド配列分析装置を構成し、前記受信信号が、前記少なくとも1つの個々のポリヌクレオチド分子から増幅された複数のポリヌクレオチドの配列リードを含む、項目165に記載の方法。
(項目172)
復号する工程が、前記少なくとも1つの個々のポリヌクレオチド分子の各々から増幅された増幅分子の配列リードをグループ化する工程を含む、項目165に記載の方法。
(項目173)
前記復号する工程が、生成された配列信号を選別する確率的方法または統計学的方法からなる、項目169に記載の方法。
(項目174)
コンピュータプロセッサによって実行されるとき、項目165〜173のいずれかに記載の方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステム。
(項目175)
前記ポリヌクレオチドが、腫瘍ゲノムDNAまたはRNAに由来する、項目143〜145、147〜159および161のいずれかに記載の方法。
(項目176)
前記ポリヌクレオチドが、無細胞ポリヌクレオチド、エキソソームポリヌクレオチド、細菌ポリヌクレオチドまたはウイルスポリヌクレオチドに由来する、項目143〜175のいずれかに記載の方法。
(項目177)
影響される分子経路の検出および/または関連付けをさらに含む、項目1〜3または143〜175のいずれかに記載の方法。
(項目178)
個体の健康状態または疾患状態の連続モニタリングをさらに含む、項目1〜3または143〜175のいずれかに記載の方法。
(項目179)
個体内の疾患に関連するゲノムの系統発生が、推論される、項目1〜3または143〜175のいずれかに記載の方法。
(項目180)
疾患の診断、モニタリングまたは処置をさらに含む、項目1〜3または143〜175のいずれかに記載の方法。
(項目181)
処置レジメンが、検出された多型の形態またはCNVまたは関連する経路に基づいて選択されるかまたは改変される、項目180。
(項目182)
前記処置が、併用療法を含む、項目180または181。
(項目183)
前記診断が、放射線撮影法、例えば、CT−Scan、PET−CT、MRI、超音波、マイクロバブルを用いる超音波などを使用して、前記疾患の位置を特定する工程をさらに含む、項目179。
(項目184)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ゲノム内の予め定義された領域を選択する工程;
配列リードにアクセスし、該予め定義された領域における配列リードの数を列挙する工程;
該予め定義された領域にわたって配列リードの該数を正規化する工程;および
該予め定義された領域におけるコピー数多型のパーセントを決定する工程
を含む、コンピュータ可読媒体。
(項目185)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程;
b.指定の閾値を満たさないリードを除外する工程;
c.配列決定することに由来する配列リードを参照配列上にマッピングする工程;
d.マッピング可能な各塩基位置において該参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程;
e.マッピング可能な各塩基位置に対して、(a)該参照配列と比べてバリアントを含むマッピングされた配列リードの数と(b)マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程;
f.マッピング可能な各塩基位置に対して該比または分散の頻度を正規化し、潜在的な稀なバリアント(複数可)または他の遺伝子変化(複数可)を決定する工程;および
g.潜在的な稀なバリアント(複数可)または変異(複数可)を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程
を含む、コンピュータ可読媒体。
(項目186)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;および
b.該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程
を含む、コンピュータ可読媒体。
(項目187)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;
b.該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;および
c.該コンセンサス配列の中から、品質閾値を満たさないものを除外する工程
を含む、コンピュータ可読媒体。
(項目188)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能なコードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;ならびに
i.
1.増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化することであって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、こと、および必要に応じて、
2.各ファミリー内の配列リードの定量的尺度を決定すること
によって該配列リードを折りたたむ工程
を含む、コンピュータ可読媒体。
(項目189)
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
b.ユニークなファミリーの定量的尺度を決定する工程;
c.(1)ユニークなファミリーの該定量的尺度および(2)各グループ内の配列リードの該定量的尺度に基づいて、前記セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程
をさらに行う、項目188に記載のコンピュータ可読媒体。
(項目190)
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
d.前記ファミリーの間の多型の形態の定量的尺度を決定する工程;および
e.多型の形態の該決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程
をさらに行う、項目189に記載のコンピュータ可読媒体。
(項目191)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、該セット内の同じ第1ポリヌクレオチドから増幅される、工程;
b.該セット内のファミリーの定量的尺度を推論する工程;
c.各セット内のファミリーの該定量的尺度を比較することによって、コピー数多型を決定する工程
を含む、コンピュータ可読媒体。
(項目192)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、該配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程;
b.第1ポリヌクレオチドの各セットに対して、該セットの第1ポリヌクレオチドにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、
c.各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、該信頼スコアは、該ファミリーのメンバーの間の該コールの頻度を考慮に入れている、工程;および
d.各ファミリーに割り当てられた1つ以上の該コールの該信頼スコアを考慮に入れて、1つ以上の該コールの頻度を推定する工程
を含む、工程
を含む、コンピュータ可読媒体。
(項目193)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.少なくとも1つの個々のポリヌクレオチド分子由来の符号化された配列情報を含む受信信号を含むデータファイルにアクセスする工程であって、該受信信号は、ノイズおよび/または歪みを含む、工程;
b.該受信信号を復号することにより、該少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程であって、復号する工程は、該メッセージ内の個々の各ポリヌクレオチドに関するノイズおよび/または歪みを減少させる、工程;および
c.該少なくとも1つの個々のポリヌクレオチド分子に関する配列情報を含む該メッセージをコンピュータファイルに書き込む工程
を含む、コンピュータ可読媒体。
(項目194)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;
b.該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程;および
c.該コンセンサス配列の中から、品質閾値を満たさないものを除外する工程
を含む、コンピュータ可読媒体。
(項目195)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;および
b.
i.増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程、および
ii.必要に応じて、各ファミリー内の配列リードの定量的尺度を決定する工程
によって該配列リードを折りたたむ工程
を含む、コンピュータ可読媒体。
(項目196)
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
c.ユニークなファミリーの定量的尺度を決定する工程;
d.(1)ユニークなファミリーの該定量的尺度および(2)各グループ内の配列リードの該定量的尺度に基づいて、前記セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程
をさらに行う、項目195に記載のコンピュータ可読媒体。
(項目197)
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
e.前記ファミリーの間の多型の形態の定量的尺度を決定する工程;および
f.多型の形態の該決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程
をさらに行う、項目196に記載のコンピュータ可読媒体。
(項目198)
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
e.複数の参照配列の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数の該セットに対してコピー数多型を推論する工程
をさらに行う、項目196に記載のコンピュータ可読媒体。
(項目199)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程;
b.増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、該セット内の同じ第1ポリヌクレオチドから増幅される、工程;
c.該セット内のファミリーの定量的尺度を推論する工程;および
d.各セット内のファミリーの該定量的尺度を比較することによって、コピー数多型を決定する工程
を含む、コンピュータ可読媒体。
(項目200)
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
a.複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも1つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、該配列リードをファミリーにグループ化し、各ファミリーは、同じ第1ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程;および
b.第1ポリヌクレオチドの各セットに対して、該セットの第1ポリヌクレオチドにおける1つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、
i.各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、該信頼スコアは、該ファミリーのメンバーの間の該コールの頻度を考慮に入れている、工程;および
ii.各ファミリーに割り当てられた1つ以上の該コールの該信頼スコアを考慮に入れて、1つ以上の該コールの頻度を推定する工程
を含む、工程
を含む、コンピュータ可読媒体。
(項目201)
100〜100,000個のヒト半数体ゲノム等価物のcfDNAポリヌクレオチドを含む組成物であって、該ポリヌクレオチドは、2〜1,000,000個のユニークな識別子でタグ化される、組成物。
(項目202)
1000〜50,000個の半数体ヒトゲノム等価物のcfDNAポリヌクレオチドを含み、該ポリヌクレオチドは、2〜1,000個のユニークな識別子でタグ化される、項目201に記載の組成物。
(項目203)
前記ユニークな識別子が、ヌクレオチドバーコードを含む、項目201に記載の組成物。
(項目204)
a.100〜100,000個の半数体ヒトゲノム等価物のcfDNAポリヌクレオチドを含むサンプルを提供する工程;および
b.該ポリヌクレオチドを2〜1,000,000個のユニークな識別子でタグ化する工程
を含む、方法。
(項目205)
a.複数のヒト半数体ゲノム等価物の断片化されたポリヌクレオチドを含むサンプルを提供する工程;
b.zを決定する工程であって、zは、該ゲノム内の任意の位置から開始する2つ組のポリヌクレオチドの期待数の中心傾向の尺度(例えば、平均値、中央値または最頻値)であり、2つ組のポリヌクレオチドは、同じ開始位置および終止位置を有する、工程;およびc.サンプル中のポリヌクレオチドをn個のユニークな識別子でタグ化する工程であって、nは、2〜100,000*z、2〜10,000*z、2〜1,000*zまたは2〜100*zである、工程
を含む、方法。
(項目206)
a.少なくとも1つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して;
b.該セット内のタグ化された親ポリヌクレオチドの各々に対して複数の配列リードを生成することにより、配列決定リードのセットを生成する工程;および
c.該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程
を含む、方法。
参照による援用
【0179】
本明細書で言及されるすべての刊行物、特許および特許出願は、各個別の刊行物、特許または特許出願が、具体的かつ個別に参照により援用されると示されているかのように同程度に、参照により本明細書中に援用される。