(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-14
(45)【発行日】2022-10-24
(54)【発明の名称】遺伝子の変異の非侵襲的な評価のための方法および処理
(51)【国際特許分類】
G16B 20/10 20190101AFI20221017BHJP
C12Q 1/68 20180101ALI20221017BHJP
C12N 15/09 20060101ALI20221017BHJP
【FI】
G16B20/10
C12Q1/68
C12N15/09 Z
【外国語出願】
(21)【出願番号】P 2020207311
(22)【出願日】2020-12-15
(62)【分割の表示】P 2018226432の分割
【原出願日】2014-10-02
【審査請求日】2020-12-15
(32)【優先日】2013-10-04
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504159534
【氏名又は名称】セクエノム, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】グレゴリー ハンナム
【審査官】藤澤 美穂
(56)【参考文献】
【文献】国際公開第2013/109981(WO,A1)
【文献】国際公開第2013/052913(WO,A2)
【文献】米国特許出願公開第2013/0096011(US,A1)
【文献】国際公開第2013/015793(WO,A1)
【文献】国際公開第2012/141712(WO,A1)
【文献】米国特許出願公開第2013/0150253(US,A1)
【文献】米国特許出願公開第2013/0261983(US,A1)
【文献】Fromer, M., et al.,Discovery and Statistical Genotyping of Copy-Number Variation from Whole-Exome Sequencing Depth,American journal of human genetics,2012年10月04日,p.597-607,URL : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3484655/,DOI : 10.1016/j.ajhg.2012.08.005
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
C12Q 1/68
C12N 15/09
(57)【特許請求の範囲】
【請求項1】
試料についての染色体異数性の存在または非存在を決定するための方法であって、
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
前記リード密度は、対象に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
前記リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)(i)主成分分析により一連の既知の正倍数体試料から得られ、かつ、(ii)リード密度プロファイル中の1つまたは複数の偏りを表す、1つまたは複数の主成分を、前記プロファイル中の1つまたは複数のリード密度から減算することによって前記試験試料についての前記リード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップであって、ここで、前記リード密度プロファイルから複数の偏りが除外される、ステップと、
(c)前記試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
(d)前記比較に従って前記試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。
【請求項2】
前記リード密度プロファイルが、2~10の主成分により(b)において調整される、請求項1に記載の方法。
【請求項3】
前記リード密度プロファイルが、5つの主成分により(b)において調整される、請求項1に記載の方法。
【請求項4】
前記1つまたは複数の主成分が、リード密度プロファイル中の複数の偏りを表し、前記偏りが、性別、配列の偏り、DNアーゼI感度に相関した偏り、エントロピー、反復配列の偏り、クロマチン構造の偏り、ポリメラーゼエラー率の偏り、回文配列の偏り、逆位リピートの偏り、PCR増幅の偏り、および隠れたコピー数の変異から選択される、請求項1、2または3に記載の方法。
【請求項5】
配列の偏りが、グアニンおよびシトシン(GC)の偏りを含む、請求項4に記載の方法。
【請求項6】
前記比較が、有意性のレベルを決定することを含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記有意性のレベルの決定が、p値を決定することを含む、請求項6に記載の方法。
【請求項8】
前記参照プロファイルが、
(i)一連の既知の正倍数体試料から得られるリード密度プロファイル;
(ii)フィルタリングされた部分のリード密度;および/または
(iii)前記1つまたは複数の主成分に従って調整されたリード密度
を含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記有意性のレベルが、前記試験試料プロファイルと前記参照プロファイルとの間の統計的に有意な差異を示し、染色体異数性の前記存在が決定される、請求項6もしくは7、または請求項6もしくは7を引用する場合の請求項8に記載の方法。
【請求項10】
前記複数の試料が、一連の既知の正倍数体試料を含む、請求項1から9のいずれか一項に記載の方法。
【請求項11】
(i)前記複数の試料についての部分の前記リード密度が、リード密度中央値である;
(ii)前記試験試料についてのフィルタリングされた部分の前記リード密度が、リード密度中央値である;および/または
(iii)前記参照プロファイルについての前記リード密度プロファイルが、リード密度中央値を含む、
請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記試験試料プロファイル、前記複数の試料、および前記参照プロファイルについての前記リード密度が、カーネル密度推定の使用を含む処理に従って決定される、請求項8から11のいずれか一項に記載の方法。
【請求項13】
前記試験試料プロファイルが、前記試験試料についての前記リード密度中央値に従って決定され、前記参照プロファイルが、前記参照についての前記リード密度中央値分布に従って決定される、請求項11または請求項11を引用する場合の請求項12に記載の方法。
【請求項14】
前記リード密度分布についての不確定性の尺度に従って参照ゲノムの部分をフィルタリングすることを含む、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記不確定性の尺度が、MADである、請求項14に記載の方法。
【請求項16】
前記試験試料プロファイルが、前記試験試料についての染色体量の表示である、請求項1から15のいずれか一項に記載の方法。
【請求項17】
試験試料プロファイルについての染色体量を参照プロファイルについての染色体量と比較し、それにより染色体量の比較を生成するステップを含む、請求項16に記載の方法。
【請求項18】
前記試験試料についての染色体異数性の前記存在または非存在の決定が、前記染色体量の比較に従う、請求項17に記載の方法。
【請求項19】
前記試験試料についての染色体異数性の前記存在または非存在の決定が、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つまたは複数のセグメントの欠失、または染色体の1つまたは複数のセグメントの挿入の存在または非存在を同定することを含む、請求項1から18のいずれか一項に記載の方法。
【請求項20】
(a)に先立って、前記配列のリードを得ることを含む、請求項1から19のいずれか一項に記載の方法。
【請求項21】
試料についての染色体異数性の存在または非存在を決定するための方法であって、
(a)参照ゲノムに対してマッピングされた配列のリードのカウント数を正規化するステップであって、前記配列のリードは、対象に由来する試験試料に由来する循環型無細胞核酸のリードであり、前記正規化は、
(1)前記試験試料の前記配列のリードについての(i)グアニンおよびシトシン(GC)密度および(ii)GC密度頻度との適合させた関係を生成し、それにより試料GC密度関係を生成することであって、前記配列のリードは、前記参照ゲノムに対してマッピングされる、ことと、
(2)前記試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成することであって、
前記参照GC密度関係は、参照についての(i)GC密度と(ii)前記GC密度頻度との間のものである、ことと、
(3)(2)で決定された前記比較に従って前記試料に関する前記配列のリードのカウント数を正規化し、それにより前記試料に関する前記配列のリードの偏りが低減されることと、を含むステップと、
(b)リード密度分布に従って、前記参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む前記試験試料についてのリード密度プロファイルを提供するステップであって、
前記リード密度は、前記試験試料に由来する配列のリードを含み、
前記リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(c)(i)主成分分析により一連の既知の正倍数体試料から得られ、かつ、(ii)リード密度プロファイル中の1つまたは複数の偏りを表す、1つまたは複数の主成分を、前記プロファイル中の1つまたは複数のリード密度から減算することによって前記試験試料についての前記リード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップであって、ここで、前記リード密度プロファイルから複数の偏りが除外される、ステップと、
(d)前記試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
(e)前記比較に従って前記試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。
【請求項22】
試料についての染色体異数性の存在または非存在を決定するための方法であって、
(a)リード密度分布に従って、参照ゲノム中の染色体の部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
前記リード密度は、対象に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
前記リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)(i)主成分分析により一連の既知の正倍数体試料から得られ、かつ、(ii)リード密度プロファイル中の1つまたは複数の偏りを表す、1つまたは複数の主成分を、前記プロファイル中の1つまたは複数のリード密度から減算することによって前記試験試料についての染色体の前記リード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料染色体プロファイルを提供するステップであって、ここで、前記リード密度プロファイルから複数の偏りが除外される、ステップと、
(c)前記試験試料染色体プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
(d)前記比較に従って前記試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連特許出願
当該特許出願は、2013年10月4日に出願され、「METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONS」との表題であり、発明者としてGregory Hannumが記載され、整理番号としてSEQ-6073-PVによって指定される、米国仮特許出願第61/887,081号の利益を主張する。上記出願の内容全体は、全てのテキスト、表および図面を含めて、本明細書に参考として援用される。
【0002】
本明細書において提供する技術は一つには、遺伝子の変異の非侵襲的な評価のための方法、処理および機械に関する。
【背景技術】
【0003】
生きている生物(例えば、動物、植物および微生物)ならびに遺伝情報を複製するその他の形態(例えば、ウイルス)の遺伝情報は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)中にコードされる。遺伝情報は連続的なヌクレオチドまたは改変ヌクレオチドであり、これらは化学的なまたは仮定上の核酸の一次構造を示す。ヒトの場合、完全なゲノムは、24本の染色体上に位置する約30,000個の遺伝子を含有する(非特許文献1を参照されたい)。各遺伝子が特定のタンパク質をコードし、タンパク質は、生きている細胞内で転写および翻訳を経て発現した後、特定の生化学的機能を果たす。
【0004】
多くの医学的状態が、1つまたは複数の遺伝子の変異により引き起こされる。ある特定の遺伝子の変異が医学的状態を引き起こし、これらとして、例えば、血友病、サラセミア、デュシェンヌ型筋ジストロフィー(DMD)、ハンチントン病(HD)、アルツハイマー病および嚢胞性線維症(CF)が挙げられる(非特許文献2)。そのような遺伝性疾患は、特定の遺伝子のDNA中の単一ヌクレオチドの付加、置換または欠失の結果生じ得る。例えば、ある特定の先天性欠損が、異数性とも呼ばれる染色体異常、例として、21トリソミー(ダウン症候群)、13トリソミー(パトー症候群)、18トリソミー(エドワーズ症候群)、16トリソミーおよび22トリソミー、Xモノソミー(ターナー症候群)、およびある特定の性染色体異数性、例として、クラインフェルター症候群(XXY)により引き起こされる。別の遺伝子の変異が胎仔の性別であり、これはしばしば、性染色体のXおよびYに基づいて決定され得る。いくつかの遺伝子の変異により、例えば、糖尿病、動脈硬化、肥満、種々の自己免疫疾患およびがん(例えば、結腸直腸がん、乳がん、卵巣がん、肺がん)等のいくつかの疾患のうちのいずれかに、個体が、罹患しやすくなる恐れ、またはそうした疾患を発症する恐れがある。
【先行技術文献】
【非特許文献】
【0005】
【文献】The Human Genome、T.Strachan、BIOS Scientific Publishers、1992年
【文献】Human Genome Mutations、D.N.CooperおよびM.Krawczak、BIOS Publishers、1993年
【発明の概要】
【発明が解決しようとする課題】
【0006】
1つまたは複数の遺伝子の変異または分散の同定が、特定の医学的状態の診断またはそうした状態に対する素因の決定につながり得る。遺伝子の分散の同定は、医学的決定の促進および/または有用な医学的手順の利用をもたらすことができる。ある特定の実施形態では、1つまたは複数の遺伝子の変異または分散の同定が、無細胞DNAの分析を含む。無細胞DNA(CF-DNA)は、細胞死から生じ、抹消血中を循環するDNA断片から構成される。高い濃度のCF-DNAは、ある特定の臨床状態、例として、がん、外傷、熱傷、心筋梗塞、脳卒中、敗血症、感染およびその他の疾病の指標となり得る。さらに、無細胞胎性DNA(CFF-DNA)を、母体の血流中で検出し、種々の非侵襲性の出生前診断法のために使用することもできる。
【課題を解決するための手段】
【0007】
本明細書において、ある特定の態様では、メモリおよび1つまたは複数のマイクロプロセッサを含むシステムであって、1つまたは複数のマイクロプロセッサは、メモリ中のインストラクションに従って、試料の配列についてのリードの偏りを低減するための処理を行うように構成されており、処理は、(a)試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)の偏り頻度との関係を生成し、それにより試料偏り関係を生成するステップであって、配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、参照ゲノムに対してマッピングされるステップと、(b)試料偏り関係と参照偏り関係を比較し、それにより比較を生成するステップであって、
参照偏り関係は、参照についての(i)局所的なゲノム偏りの推定値と(ii)偏り頻度との間のものである、ステップと、(c)(b)で決定された比較に従って試料の配列のリードのカウント数を正規化するステップであって、試料に関する配列のリードの偏りが低減されるステップとを含む、システムを提供する。
【0008】
本明細書において、ある特定の態様では、メモリおよび1つまたは複数のマイクロプロセッサを含むシステムであって、1つまたは複数のマイクロプロセッサは、メモリ中のインストラクションに従って、試料に関する配列のリード中の偏りを低減するための処理を行うように構成されており、処理は、(a)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との関係を生成し、それにより試料GC密度関係を生成するステップであって、配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、配列のリードは、参照ゲノムに対してマッピングされている、ステップと、(b)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成するステップであって、参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである、ステップと、(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されるステップとを含む、システムを提供する。
【0009】
本明細書において、ある特定の態様では、メモリおよび1つまたは複数のマイクロプロセッサを含むシステムであって、1つまたは複数のマイクロプロセッサが、メモリ中のインストラクションに従って、試料についての異数性の存在または非存在を決定するための処理を行うように構成されており、処理は、(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するステップとを含む、システムも提供する。
【0010】
この技術のある特定の態様を、以下の説明、実施例、特許請求の範囲および図面においてさらに記載する。
【0011】
図面は、本技術の実施形態を説明し、制限するものではない。説明を明確にし、また分かりやすくするために、図面は一定の縮尺で作成されておらず、一部の事例では、様々な態様が、特定の実施形態を理解しやすくするために、誇張または拡大して示される場合もある。
【図面の簡単な説明】
【0012】
【
図1】
図1は、Epanechnikovカーネルにより得たGC密度の実施形態を示す(バンド幅=200bp)。
【0013】
【
図2】
図2は、HTRA1遺伝子に関するGC密度(y軸)のプロットを示し、この場合、GC密度がゲノム全体にわたり正規化されている。ゲノム位置をx軸に示す。
【0014】
【
図3】
図3は、参照ゲノム(実線)、および試料から得た配列のリード(破線)について、局所的なゲノムの偏り(例えば、GC密度、x軸)の推定値の分布を示す。偏り頻度(例えば、密度頻度)をy軸に示す。GC密度の推定値は、ゲノム全体にわたり正規化されている。この例では、試料は、参照から予想されるよりも高いGC含有量のリードをより多く有する。
【0015】
【
図4】
図4は、重み付けした3次多項式で適合した関係を使用して、参照ゲノムに関するGC密度の推定値、および試料についての配列のリードのGC密度の推定値の分布の比較を示す。GC密度の推定値(x軸)を、ゲノム全体にわたり正規化した。GC密度頻度を、参照の密度頻度を試料の密度頻度で割った比の対数(log
2)として、y軸に表す。
【0016】
【
図5】
図5Aは、ゲノムの全部分に関するGC密度中央値(x軸)の分布を示す。
図5Bは、複数の試料に関するGC密度分布により決定した中央絶対偏差(MAD)(x軸)を示す。GC密度頻度をy軸に示す。各部分は、複数の参照試料(例えば、訓練セット)に関するGC密度中央値の分布によりフィルタリングし、またMAD値は、複数の試料のGC密度分布により決定した。確定された閾値(例えば、MADの四分位数間範囲の4倍)から外れたGC密度を含む部分は、フィルタリング処理により、検討から除去した。
【0017】
【
図6】
図6Aは、リード密度中央値を含むゲノムに関する試料のリード密度プロファイル(y軸、例えばリード密度/部分)、およびゲノム内の各ゲノム部分の相対的な位置(x軸、部分インデックス)を示す。
図6Bは、第1の主成分(PC1)を示し、
図6Cは、500個の正倍数体の訓練セットから得たリード密度プロファイルの主成分分析から得られた第2の主成分(PC2)を示す。
【0018】
【
図7】
図7A~Cは、第21染色体のトリソミーを含むゲノムに関する試料のリード密度プロファイルの例を示す(例えば、2本の縦線で挟まれた部分)。各ゲノム部分の相対的な位置をx軸に示す。リード密度をy軸に提示する。
図7Aは、未処理の(例えば、未調整の)リード密度プロファイルを示す。
図7Bは、中央値プロファイルの減算を含む第1の調整を含む7Aのプロファイルを示す。
図7Cは、第2の調整を含む7Bのプロファイルを示す。第2の調整は、8倍の主成分プロファイルの減算を含み、この試料中に見出される表示に基づき重み付けされている(例えば、モデルが構築される)。例えば、SampleProfile=A*PC1+B*PC2+C*PC3…および、例えば7Cに示すような補正後のプロファイル=SampleProfile-A*PC1+B*PC2+C*PC3…
【0019】
【
図8】
図8は、T21試験に関するブートストラップされた訓練試料に由来する検定p値のQQ-プロットを示す。QQプロットは、一般的に2つの分布を比較する。
図8は、試験試料に由来するChAIスコア(y軸)と均一分布(すなわち、予想されるp値の分布、x軸)との比較を示す。各ポイントは、単一試験試料のlog-p値スコアを表す。試料を振り分け、そして均一分布に基づき「予想される」値(x軸)を割り当てる。下側の破線は、対角線を表し、また上側の線は、ボンフェローニ閾値を表す。均一分布に従う試料は、下側の対角線(下側の破線)上に乗るものと予想される。部分内の相関に起因してデータ値が対角線からかなり離れており(例えば、偏り)、予想よりも高スコアリング(低p値)の試料が示される。本明細書に記載する方法(例えばChAI、例えば実施例1を参照)は、この観察された偏りを補正することができる。
【0020】
【
図9】
図9Aは訓練セット内の男性および女性に関するPC2係数の差異を表すリード密度プロットを示す。
図9Bは、PC2係数を用いた性別判定に関する受信者動作特性(ROC)プロットを示す。配列決定により行われた性別判定を、真否参照用として使用した。
【0021】
【0022】
【0023】
【
図12】
図12は、本明細書において提供される方法の一実施形態を示す。
【発明を実施するための形態】
【0024】
次世代配列決定は、配列決定の伝統的な方法より速く、安価である方法によってゲノム全体に及ぶスケールで核酸を配列決定することを可能にする。本明細書において提供される方法、システム、および製品は、先進的な配列決定技術を活用して遺伝子の変異ならびに/または関連した疾患および障害を位置付け、同定することができる。本明細書において提供される方法、システム、および製品はしばしば、血液試料またはその一部を使用して対象ゲノム(例えば、胎仔のゲノム)の非侵襲性評価をもたらすことができ、しばしば、より侵襲性の技法(例えば、羊水穿刺、生検)より安全、速く、かつ/または安価である。一部の実施形態では、本明細書において、一部では、試料中に存在する核酸の配列のリードを得るステップであって、配列のリードはしばしば、参照配列に対してマッピングされる、ステップと、配列のリードのカウント数を処理するステップと、遺伝子の変異の存在または非存在を決定するステップとを含む方法を提供する。本明細書において提供されるシステム、方法、および製品は、遺伝子の変異を位置付け、かつ/または同定するのに有用であり、ある特定の遺伝子の変異に関連した疾患、障害、および能力障害を診断および処置するのに有用である。
【0025】
また、本明細書において、一部の実施形態では、配列決定技術の様々な側面によって導入される配列決定の偏りを低減および/または除去するためのデータ操作方法を提供する。配列決定の偏りはしばしば、ゲノムまたはそのセグメントにわたるリードの不均一な分布、および/またはリードの品質の変異の一因となる。配列決定の偏りは、ゲノム配列決定データを破損し、有効なデータ分析を損ない、結果を汚染し、正確なデータ解釈を妨げ得る。時には、配列決定の偏りは、配列決定カバレッジを増大させることによって低減することができるが、この手法は、配列決定コストを膨らませることが多く、非常に限られた有効性を有する。本明細書に記載するデータ操作法は、配列決定の偏りを低減および/または除去し、それによって配列決定コストを増大させることなく配列のリードデータの品質を改善することができる。また、本明細書において、一部の実施形態では、本明細書に記載する方法を実施するシステム、機械、装置、製品、およびモジュールを提供する。
【0026】
試料
本明細書では、核酸を分析するための方法および組成を提供する。一部の実施形態では、核酸断片の混合物中の核酸断片を分析する。核酸の混合物は、異なるヌクレオチド配列、異なる断片長、異なる起源(例えば、ゲノム起源、胎仔起源対母体起源、細胞起源もしくは組織起源、試料起源、対象起源等)、またはそれらの組合せを有する2つまたはそれ超の核酸断片種を含むことができる。
【0027】
本明細書に記載する方法、システム、機械、および/または装置で活用される核酸または核酸混合物はしばしば、対象(例えば、試験対象)から得られる試料から単離される。検体または試料が得られる対象は、時には試験対象と本明細書で呼ばれる。対象は、これらに限定されないが、ヒト、非ヒト動物、植物、細菌、真菌、ウイルスまたは原生生物を含めた、任意の生きているまたは生きていない生物であり得る。これらに限定されないが、哺乳動物、爬虫類、トリ、両生類、魚、有蹄動物、反芻動物、ウシ科(例えば、ウシ)、ウマ科(例えば、ウマ)、ヤギ(caprine)およびヒツジ(ovine)(例えば、ヒツジ、ヤギ)、ブタ(swine)(例えば、ブタ)、ラクダ科(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(例えば、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラおよびサメを含めて、任意のヒトまたは非ヒト動物を選択することができる。対象は、雄または雌(例えば、女性、妊婦、妊娠中の雌)であり得る。対象は、任意の年齢(例えば、胚、胎仔、乳仔、小児、成体)であり得る。
【0028】
核酸を、任意のタイプの適切な生物学的検体または試料(例えば、試験試料)から単離することができる。試料または試験試料は、対象またはその一部(例えば、ヒト対象、妊娠中の雌、胎仔)から単離されるまたは得られる任意の検体であり得る。試験試料はしばしば、試験対象から得られる。試験試料はしばしば、妊娠中の雌(例えば、妊娠中のヒト雌)から得られる。検体の非限定的な例として、対象から得られた体液または組織が挙げられ、これらには、非限定的に、血液または血液生成物(例えば、血清、血漿等)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄した液(例えば、気管支肺胞、胃、腹腔、管、耳、関節鏡検査に由来するもの)、生検試料(例えば、着床前胚から得られた試料)、腹腔穿刺試料、細胞(血液細胞、胎盤細胞、胚もしくは胎性細胞、胎性有核細胞もしくは胎性細胞残余物)またはそれらの一部(例えば、ミトコンドリア、核、抽出物等)、雌の生殖器系の洗浄物、尿、糞便、痰、唾液、鼻粘液、前立腺液、洗浄液、精液、リンパ液、胆汁、涙、汗、乳汁、乳房液等、あるいはそれらの組合せが含まれる。試験試料は、血液または血液生成物(例えば、血漿、血清、リンパ球、血小板、バフィーコート)を含み得る。試験試料は時には、妊娠中の雌から得られる血清を含む。試験試料は時には、妊娠中の雌から得られる血漿を含む。一部の実施形態では、生物学的試料は、対象から得られた子宮頚部スワブである。一部の実施形態では、生物学的試料は、血液であり得、時には、血漿または血清であり得る。用語「血液」は、本明細書で使用する場合、対象(例えば、試験対象、例えば、妊婦中の女性または妊娠の可能性について試験されている女性)からの血液試料または調製物を指す。この用語は、全血、血液生成物または血液の任意の画分、例として、従来の定義に従う血清、血漿、バフィーコート等を包含する。血液またはその画分はしばしば、ヌクレオソーム(例えば、母体および/または胎仔のヌクレオソーム)を含む。ヌクレオソームは、核酸を含み、時には、無細胞または細胞内ヌクレオソームである。血液はまた、バフィーコートも含む。バフィーコートを時には、フィコール勾配を利用することによって単離する。バフィーコートは、白血球細胞(例えば、白血球、T細胞、B細胞、血小板等)を含むことができる。ある特定の実施形態では、バフィーコートは、母体核酸および/または胎仔核酸を含む。血漿は、抗凝固剤で処理した血液の遠心分離の結果得られた、全血の画分を指す。血清は、血液試料が凝固した後に残存する水性の液体部分を指す。体液または組織試料をしばしば、病院または外来が一般に従う標準的なプロトコールに従って収集する。血液の場合、抹消血の適切な量(例えば、3~40ミリリットル)をしばしば収集し、調製する前または調製した後に標準的な手順に従って保存することができる。核酸を抽出する体液または組織試料は、細胞を伴わない場合がある(例えば、無細胞)。一部の実施形態では、体液または組織試料は、細胞要素または細胞残余物を含有する場合がある。一部の実施形態では、胎性細胞またはがん性細胞を、試料中に含む場合がある。
【0029】
しばしば、試料は不均一であり、これは、1つ超のタイプの核酸種が試料中に存在することを意味する。例えば、不均一核酸として、これらに限定されないが、(i)胎仔由来の核酸および母体由来の核酸、(ii)がん性の核酸および非がん性の核酸、(iii)病原体の核酸および宿主の核酸、より一般的には、(iv)突然変異した核酸および野生型の核酸を挙げることができる。試料は、不均一であり得、これは、1つ超の細胞型、例として、胎性細胞および母体細胞、がん性細胞および非がん性細胞、または病原体細胞および宿主細胞が存在するからである。一部の実施形態では、少量の核酸種および多量の核酸種が存在する。
【0030】
本明細書に記載する技術を出生前に適用する場合、体液または組織試料を、試験するのに適切な在胎週数において雌から、または妊娠の可能性について試験されている雌から収集することができる。適切な在胎週数は、実施されている出生前試験に応じて変化し得る。ある特定の実施形態では、妊娠中の雌の対象は、時には妊娠第一期にあり、時には妊娠第二期にあり、または時には妊娠第三期にある。ある特定の実施形態では、体液または組織を、妊娠中の雌から、在胎約1~約45週(例えば、在胎1~4、4~8、8~12、12~16、16~20、20~24、24~28、28~32、32~36、36~40または40~44週)において、時には、在胎約5~約28週(例えば、在胎6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26または27週)において収集する。ある特定の実施形態では、体液または組織試料を、妊娠中の雌から、出産(例えば、経膣分娩または非経膣分娩(例えば、外科的分娩))の間または直後(例えば、0~72時間後)に収集する。
【0031】
血液試料の入手およびDNAの抽出
本明細書の方法はしばしば、妊娠中および時には妊娠後に、母体および/もしくは胎仔の遺伝子の変異の存在または非存在を検出するため、ならびに/または胎仔および/もしくは妊娠中の雌の健康状態をモニターするための非侵襲性手段として、母体の血液中に見出される胎仔のDNAの分離、濃縮および分析を含む。したがって、本明細書のある特定の方法を実行する最初のステップはしばしば、妊婦から血液試料を得ること、および試料からDNAを抽出することを含む。
【0032】
血液試料の入手
血液試料を、本技術による方法を使用して、妊婦から試験するのに適切な在胎週数において得ることができる。適切な在胎週数は、下記に論じるように、試験する障害に応じて変化させることができる。女性からの血液の収集はしばしば、病院または外来が一般に従う標準的なプロトコールに従って実施される。抹消血の適切な量、例えば、典型的には5~50mlをしばしば収集し、さらに調製する前に、標準的な手順に従って保存することができる。血液試料は、試料中に存在する核酸の品質の劣化を最小限に留める様式で、収集し、保存し、または輸送することができる。
【0033】
血液試料の調製
母体の血液中に見出される胎仔のDNAの分析を、例えば、全血、血清または血漿を使用して行うことができる。母体の血液から血清または血漿を調製する方法が公知である。例えば、妊婦の血液を、Vacutainer SST(Becton Dickinson、Franklin Lakes、N.J.)等の、EDTAまたは特殊な市販製品を含有するチューブ中に入れて、血液凝固を阻止することができ、次いで、血漿を、全血から遠心分離により得ることができる。血清は、血液凝固後の遠心分離の有無にかかわらず得ることができる。遠心分離を使用する場合には、典型的には、適切なスピード、例えば、1,500~3,000回gで実施するが、必ずしもそうではない。血漿または血清を、DNA抽出のための新しいチューブに移す前に、追加の遠心分離のステップに付してもよい。
【0034】
全血の、細胞を伴わない部分に加えて、また、DNAも、細胞画分から回収し、バフィーコート部分中で濃縮することができ、このバフィーコート部分は、女性から得られた全血試料を遠心分離し、血漿を除去して得ることができる。
【0035】
DNAの抽出
血液を含めた、生物学的試料からDNAを抽出するための多数の公知の方法がある。DNAの調製の一般な方法(例えば、SambrookおよびRussell、Molecular Cloning:A Laboratory Manual 3d ed.2001年による記載)に従うことができ、また、種々の市販されている試薬またはキット、例として、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini Kit、またはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、ドイツ)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)を使用して、妊婦から得られた血液試料からDNAを得ることもできる。また、これらの方法のうちの1つ超の組合せを使用することもできる。
【0036】
一部の実施形態では、最初に、1つまたは複数の方法により、試料を、胎仔核酸について濃縮またはある程度まで濃縮することもできる。例えば、本技術の組成および処理を、単独で、またはその他の識別因子と組み合わせて使用して、胎仔のDNAと母体のDNAとの識別を行うことができる。これらの因子の例として、X染色体とY染色体との間の単一ヌクレオチドの差、Y染色体に特異的な配列、ゲノム中の他の箇所に位置する多型、胎仔のDNAと母体のDNAとの間のサイズの差、および母体組織と胎仔組織との間のメチル化パターンの差が挙げられるが、これらに限定されない。
【0037】
試料を核酸の特定の種について濃縮するためのその他の方法が、2007年5月30日出願のPCT特許出願第PCT/US07/69991号、2007年6月15日出願のPCT特許出願第PCT/US2007/071232号、米国仮出願第60/968,876号および第60/968,878号(本出願人に譲渡)(2005年11月28日出願のPCT特許出願第PCT/EP05/012707号)に記載されており、これらは全て、参照により本明細書に組み込まれている。ある特定の実施形態では、母体核酸を、試料から、選択的に(部分的、実質的、ほとんど完全、または完全に)除去する。
【0038】
用語「核酸」および「核酸分子」を、本開示全体を通して交換可能に使用することができる。これらの用語は、DNA(例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)等)、RNA(例えば、メッセンジャーRNA(mRNA)、低分子干渉RNA(siRNA)、リボゾームRNA(rRNA)、tRNA、マイクロRNA、胎仔または胎盤が高度に発現するRNA等)、ならびに/またはDNAもしくはRNAのアナログ(例えば、塩基のアナログ、糖のアナログおよび/もしくは外から加えた骨格等を含有するもの等)、RNA/DNAのハイブリッドおよびポリアミド核酸(PNA)等に由来する任意の組成の核酸を指し、これらは全て、一本鎖または二本鎖の形態であり得、別段の限定的がない限り、天然に存在するヌクレオチドに類似する様式で機能することができる天然ヌクレオチドの公知のアナログを包含することができる。ある特定の実施形態では、核酸は、プラスミド、ファージ、自律複製性配列(ARS)、セントロメア、人工染色体、染色体、あるいはin vitroで、または宿主細胞、細胞、細胞核もしくは細胞の細胞質中で、複製し得るまたは複製され得るその他の核酸であってもよく、あるいはそれらに由来してもよい。鋳型核酸は、一部の実施形態では、単一の染色体に由来し得る(例えば、核酸試料は、二倍体生物から得られた試料の1つの染色体に由来し得る)。特段の限定がない限り、この用語は、参照核酸に類似する結合特性を有し、天然に存在するヌクレオチドに類似する様式で代謝される天然ヌクレオチドの公知のアナログを含有する核酸を包含する。別段の記載がない限り、特定の核酸配列は、明確に示す配列のみならず、また、その保存的改変バリアント(例えば、縮重コドン置換体)、対立遺伝子、オルソログ、一塩基多型(SNP)および相補配列も暗に包含する。具体的には、1つまたは複数の選択された(または全ての)コドンの第3の位置が、混合性塩基の残基および/またはデオキシイノシン残基で置換されている配列を生成することによって、縮重コドン置換体を得ることができる。核酸という用語は、座位、遺伝子、cDNA、および遺伝子がコードするmRNAと交換可能に使用する。この用語はまた、均等物として、ヌクレオチドのアナログから合成されたRNAまたはDNAの誘導体、バリアントおよびアナログ、一本鎖(「センス」鎖または「アンチセンス」鎖、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)、および二本鎖ポリヌクレオチドも含むことができる。用語「遺伝子」は、ポリペプチド鎖の生成に関わるDNAのセグメントを意味し、これは、遺伝子産物の転写/翻訳および転写/翻訳の調節に関わる、コード領域に先行する領域およびコード領域に続く領域(リーダーおよびトレーラー)、ならびに個々のコードセグメント(エクソン)間の介在配列(イントロン)を含む。
【0039】
デオキシリボヌクレオチドは、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンを含む。RNAの場合、塩基シトシンが、ウラシルで置き換えられる。対象から得られた核酸を鋳型として使用して、鋳型核酸を調製することができる。
【0040】
核酸の単離および処理
核酸を、1つまたは複数の供給源(例えば、細胞、血清、血漿、バフィーコート、リンパ液、皮膚、土壌等)から、当技術分野で公知の方法により得ることができる。試験試料から核酸がしばしば単離される。任意の適切な方法を使用して、生物学的試料(例えば、血液または血液生成物)からのDNAの単離、抽出および/または精製を行うことができ、それらの非限定的な例として、DNAの調製の方法(例えば、SambrookおよびRussell、Molecular Cloning:A Laboratory Manual 3d ed.2001年による記載)、種々の市販されている試薬またはキット、例として、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini Kit、またはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、ドイツ)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)等、またはそれらの組合せが挙げられる。
【0041】
細胞溶解の手順および試薬は、当技術分野で公知であり、一般に、化学的方法(例えば、洗剤、低張溶液、酵素による手順等、もしくはそれらの組合せ)、物理的方法(例えば、フレンチプレス、超音波処理等)、または電解質による溶解方法により行うことができる。任意の適切な溶解手順を利用することができる。例えば、化学的方法は一般に、溶解剤を利用して、細胞を破壊し、細胞から核酸を抽出し、続いて、カオトロピック塩を用いて処理する。物理的方法、例として、凍結/解凍、それに続く、粉砕;細胞プレスの使用等もまた有用である。高い塩濃度による溶解の手順もまた、一般に使用される。例えば、アルカリによる溶解の手順を利用することができる。後者の手順には従来、フェノール-クロロホルム溶液の使用が組み込まれており、3つの溶液が関与する、代替のフェノール-クロロホルムを用いない手順も利用することができる。後者の手順の場合、1つの溶液が、15mMトリス、pH8.0;10mM EDTA、および100μg/mlリボヌクレアーゼAを含有することができ;第2の溶液が、0.2N NaOHおよび1%SDSを含有することができ;第3の溶液が、3M KOAc、pH5.5を含有することができる。これらの手順は、Current Protocols in Molecular Biology,John Wiley & Sons、N.Y.、6.3.1~6.3.6(1989年)に見出すことができ、その全体が本明細書に組み込まれている。
【0042】
核酸を、別の核酸と比較する場合、異なる時点で単離することができ、試料のそれぞれが、同じ供給源または異なる供給源に由来する。例えば、核酸は、核酸ライブラリー、例として、cDNAライブラリーまたはRNAライブラリーに由来し得る。核酸は、核酸の精製もしくは単離、および/または試料から得られた核酸分子の増幅の結果であり得る。本明細書に記載する処理に提供される核酸は、1つの試料に由来する核酸、あるいは2つまたはそれ超の試料(例えば、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、10個もしくはそれ超、11個もしくはそれ超、12個もしくはそれ超、13個もしくはそれ超、14個もしくはそれ超、15個もしくはそれ超、16個もしくはそれ超、17個もしくはそれ超、18個もしくはそれ超、19個もしくはそれ超、または20個もしくはそれ超の試料)に由来する核酸を含有することができる。
【0043】
ある特定の実施形態では、核酸は、細胞外核酸を含むことができる。用語「細胞外核酸」は、本明細書で使用する場合、実質的に細胞を有さない供給源から単離された核酸を指すことができ、また、「無細胞」核酸および/または「無細胞循環型」核酸とも呼ぶ。細胞外核酸は、血液(例えば、妊娠中の雌の血液)中に存在し、そこから得ることができる。細胞外核酸はしばしば、検出可能な細胞を含まず、細胞要素または細胞残余物を含有する場合がある。細胞外核酸を得るための、細胞を伴わない供給源の非限定的な例が、血液、血漿、血清および尿である。本明細書で使用する場合、用語「無細胞循環型試料核酸を得る」は、試料を直接得ること(例えば、試料、例えば、試験試料を収集すること)、または試料を収集した他者から試料を得ることを含む。理論により制限されることなく、細胞外核酸は、細胞アポトーシスおよび細胞分解の産物であり得、これらは、スペクトル(例えば、「ラダー」)にわたる一連の長さをしばしば有する細胞外核酸の基になる。
【0044】
ある特定の実施形態では、細胞外核酸は、異なる核酸種を含むことができ、したがって、本明細書では、「不均一である」と呼ばれる。例えば、がんを有する人から得られた血清または血漿は、がん性細胞に由来する核酸および非がん性細胞に由来する核酸を含む場合がある。別の例では、妊娠中の雌から得られた血清または血漿は、母体核酸および胎仔核酸を含む場合がある。一部の事例では、胎仔核酸は時には、核酸全体の約5%~約50%である(例えば、全ての核酸の約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48または49%が、胎仔核酸である)。一部の実施形態では、核酸中の胎仔核酸の大半の長さが、約500塩基対もしくはそれ未満、約250塩基対もしくはそれ未満、約200塩基対もしくはそれ未満、約150塩基対もしくはそれ未満、約100塩基対もしくはそれ未満、約50塩基対もしくはそれ未満、または約25塩基対もしくはそれ未満である。
【0045】
ある特定の実施形態では、核酸を含有する試料を処理せずに、核酸を提供して、本明細書に記載する方法を実施することができる。一部の実施形態では、核酸を含有する試料を処理してから、核酸を提供して、本明細書に記載する方法を実施する。例えば、核酸を、試料から、抽出し、単離し、精製し、部分的に精製し、または増幅することができる。用語「単離」は、本明細書で使用する場合、核酸をその元々の環境(例えば、天然に存在する場合の天然の環境、または外因性に発現させる場合の宿主細胞)から取り出すことを指し、したがって、ヒトの介入により(例えば、「人の手により」)その元々の環境から離されている点で、核酸は変化している。用語「単離核酸」は、本明細書で使用する場合、対象(例えば、ヒト対象)から取り出された核酸を指すことができる。単離核酸は、供給源の試料中に存在する成分の量よりも少ない非核酸成分(例えば、タンパク質、脂質)を伴って提供され得る。単離核酸を含む組成は、その約50%~99%超が非核酸成分を含有しない場合がある。単離核酸を含む組成は、その約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超が非核酸成分を含有しない場合がある。用語「精製」は、本明細書で使用する場合、核酸を精製手順に付す前に存在した非核酸成分(例えば、タンパク質、脂質、炭水化物)の量よりも少ない非核酸成分を含有する核酸を提供することを指すことができる。精製核酸を含む組成は、その約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超がその他の非核酸成分を含有しない場合がある。用語「精製」は、本明細書で使用する場合、核酸が由来する試料供給源中よりも少ない核酸種を含有する核酸を提供することを指すことができる。精製核酸を含む組成は、その約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超がその他の核酸種を含有しない場合がある。例えば、胎仔核酸を、母体核酸および胎仔核酸を含む混合物から精製することができる。ある特定の例では、胎仔核酸の小さな断片を含むヌクレオソームを、母体核酸のより大きな断片を含むより大きなヌクレオソーム複合体の混合物から精製することができる。
【0046】
一部の実施形態では、本明細書に記載する方法の前、間または後に、核酸を断片化または切断する。断片化または切断した核酸は、約5~約10,000塩基対、約100~約1,000塩基対、約100~約500塩基対、または約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000もしくは9000塩基対の名目上、平均値(average)または平均(mean)の長さを有することができる。断片を、当技術分野で公知の適切な方法により生成することができ、核酸断片の平均値、平均または名目上の長さを、適切な断片生成手順を選択することによって制御することができる。
【0047】
核酸断片は、オーバーラップするヌクレオチド配列を含有することができ、そのようなオーバーラップする配列は、断片化されていない、対応する核酸のヌクレオチド配列、またはそのセグメントの構築を促進することができる。例えば、1つの断片が、サブ配列xおよびyを有する場合があり、別の断片が、サブ配列yおよびzを有する場合があり、x、yおよびzは、5ヌクレオチド長またはそれ超であり得るヌクレオチド配列である。ある特定の実施形態では、オーバーラップ配列yを利用して、試料に由来する核酸中のx-y-zのヌクレオチド配列の構築を促進することができる。ある特定の実施形態では、核酸は、部分的に(例えば、不完全なもしくは打ち切られた特定の切断反応から)断片化させてもよく、または完全に断片化させてもよい。
【0048】
一部の実施形態では、核酸を、適切な方法により断片化または切断し、それらの非限定的な例として、物理的方法(例えば、せん断、例えば、超音波処理、フレンチプレス、加熱、UV照射等)、酵素処理(例えば、酵素切断剤(例えば、適切なヌクレアーゼ、適切な制限酵素、適切なメチル化感受性制限酵素))、化学的方法(例えば、アルキル化、DMS、ピペリジン、酸加水分解、塩基加水分解、加熱等、もしくはそれらの組合せ)、米国特許出願公開第20050112590号に記載されている処理等、またはそれらの組合せが挙げられる。
【0049】
本明細書で使用する場合、「断片化」または「切断」は、核酸分子、例として、核酸鋳型遺伝子分子またはその増幅産物を、2つまたはそれ超のより小さな核酸分子に分断することができる手順または条件を指す。そのような断片化または切断は、配列特異的、塩基特異的、または非特異的であり得、例えば、化学的、酵素的、物理的断片化を含めた、多様な方法、試薬または条件のうちのいずれかにより達成することができる。
【0050】
本明細書で使用する場合、「断片」、「切断産物」、「切断された産物」、またはそれらの文法上の変型は、核酸鋳型遺伝子分子の断片化もしくは切断の結果として得られた核酸分子、またはそれらの増幅産物を指す。そのような断片または切断された産物は、切断反応の結果として得られた全ての核酸分子を指す場合があるが、典型的には、そのような断片または切断された産物は、核酸鋳型遺伝子分子のうちの対応するヌクレオチド配列を含有する、核酸鋳型遺伝子分子の断片化もしくは切断の結果として得られた核酸分子またはそれらの増幅産物セグメントのみを指す。用語「増幅」は、本明細書で使用する場合、試料中の標的核酸を、標的核酸またはそのセグメントと同じまたは実質的に同じヌクレオチド配列を有するアンプリコン核酸を線形にまたは指数関数的に生成する処理に付すことを指す。ある特定の実施形態では、用語「増幅」は、ポリメラーゼ連鎖反応(PCR)を含む方法を指す。例えば、増幅産物は、核酸鋳型配列の増幅されるヌクレオチド領域よりもヌクレオチドを1つまたは複数多く含有することができる(例えば、プライマーは、核酸鋳型遺伝子分子に相補的なヌクレオチドに加えて、「余分な」ヌクレオチド、例として、転写開始配列を含有することができ、その結果、「余分な」ヌクレオチド、または核酸鋳型遺伝子分子のうちの増幅されるヌクレオチド領域に対応しないヌクレオチドを含有する増幅産物が生じる)。したがって、断片は、表示される核酸鋳型分子から得られたまたはそれに基づくヌクレオチド配列情報を、少なくとも一部において含有する、増幅された核酸分子のセグメントまたは一部から生じる断片を含むことができる。
【0051】
本明細書で使用する場合、用語「補完的切断反応」は、異なる切断試薬を使用して、または同じ切断試薬の切断特異性を変化させることによって、同じ核酸に対して行われる切断反応を指し、したがって、同じ標的または参照の核酸またはタンパク質の代替の切断パターンを生成させる。ある特定の実施形態では、核酸を、1つまたは複数の反応槽中で、1つまたは複数の特異的切断剤(例えば、1、2、3、4、5、6、7、8、9、10個またはそれ超の特異的切断剤)を用いて処理することができる(例えば、核酸を、別個の槽中でそれぞれの特異的切断剤を用いて処理する)。用語「特異的切断剤」は、本明細書で使用する場合、核酸を1つまたは複数の特異的な部位において切断することができる作用剤、時には、化学物質または酵素を指す。
【0052】
また、本明細書に記載する方法に核酸を提供する前に、核酸中のある特定のヌクレオチドを改変する処理に、核酸を曝露させることができる。例えば、核酸をその中のヌクレオチドのメチル化状況に基づいて選択的に改変する処理を、核酸に適用することができる。加えて、高温、紫外放射線、X放射線等の条件が、核酸分子の配列中に変化を引き起こすことができる。核酸を、適切な配列分析を行うのに有用な任意の適切な形態で提供することができる。
【0053】
核酸は、一本鎖であっても、または二本鎖であってもよい。例えば、二本鎖DNAを、例えば、加熱またはアルカリを用いる処理により変性させることによって、一本鎖DNAを生成することができる。ある特定の実施形態では、核酸は、二重鎖DNA分子の鎖へオリゴヌクレオチドを侵入させることによって形成されるD-ループ構造をとるか、またはDNA様分子、例として、ペプチド核酸(PNA)である。Dループの形成は、E.Coli RecAタンパク質を添加すること、および/または塩濃度を、例えば、当技術分野で公知の方法を使用して変化させることによって促進することができる。
【0054】
胎仔核酸の含有量の決定
一部の実施形態では、核酸中の胎仔核酸の量(例えば、濃度、相対量、絶対量、コピー数等)を決定する。ある特定の実施形態では、試料中の胎仔核酸の量を、「胎仔フラクション」と呼ぶ。一部の実施形態では、「胎仔フラクション」は、妊娠中の雌から得られた試料(例えば、血液試料、血清試料、血漿試料)中の循環型無細胞核酸中の胎仔核酸のフラクションを指す。ある特定の実施形態では、雄の胎仔に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS19、DYS385、DYS392マーカー);RhD陰性の雌中のRhDマーカー)、多型配列の対立遺伝子の比に従って、または胎仔核酸に特異的であり、母体核酸にはそうでない1つもしくは複数のマーカー(例えば、母親と胎仔との間のエピジェネティックなバイオマーカーの差(例えば、メチル化;下記にさらに詳細に記載する)、もしくは母体の血漿中の胎仔のRNAマーカー(例えば、Lo、2005年、Journal of Histochemistry and Cytochemistry、53巻(3号):293~296頁を参照されたい))に従って、胎仔核酸の量を決定する。
【0055】
胎仔核酸の含有量(例えば、胎仔フラクション)の決定は時には、例えば、参照により本明細書に組み込まれている米国特許出願公開第2010/0105049号の記載に従って、胎仔定量化アッセイ(fetal quantifier assay)(FQA)を使用して行う。このタイプのアッセイにより、母体試料中の胎仔核酸を、試料中の核酸のメチル化状況に基づいて検出および定量化することが可能になる。ある特定の実施形態では、母体試料に由来する胎仔核酸の量を、存在する核酸の総量に比して決定することができ、それにより、試料中の胎仔核酸のパーセントが得られる。ある特定の実施形態では、母体試料中の胎仔核酸のコピー数を決定することができる。ある特定の実施形態では、配列特異的(または部分特異的)な様式で、時には、正確な染色体量分析を可能にする(例えば、胎仔の異数性の存在または非存在を検出する)のに十分な感受性を伴って、胎仔核酸の量を決定することができる。
【0056】
胎仔定量化アッセイ(FQA)を、本明細書に記載する方法のうちのいずれかと併せて行うことができる。任意の当技術分野で公知の方法、および/または米国特許出願公開第2010/0105049号の記載により、例えば、メチル化状況の差に基づいて母体のDNAと胎仔のDNAとを区別し、胎仔のDNAを定量化する(例えば、その量を決定する)ことができる方法等により、そのようなアッセイを行うことができる。メチル化状況に基づいて核酸を差別化するための方法として、これらに限定されないが、メチル化感受性による、例えば、MBD2-Fc断片(MBD2のメチル結合性ドメインが、抗体のFc断片に融合している(MBD-FC))を使用する捕捉(Gebhardら(2006年)Cancer Res.66巻(12号):6118~28頁);メチル化特異的抗体;亜硫酸水素塩により変換する方法、例えば、MSP(メチル化感受性PCR)、COBRA、メチル化感受性単一ヌクレオチドによるプライマーの伸長(Ms-SNuPE)、またはSequenom MassCLEAVE(商標)技術;およびメチル化感受性制限酵素の使用(例えば、母体試料中の母体のDNAを、1つまたは複数のメチル化感受性制限酵素を使用して消化し、それにより、胎仔のDNAを濃縮する)が挙げられる。また、メチル感受性酵素を使用して、メチル化状況に基づいて核酸を差別化することもでき、これらの酵素は、例えば、後者がメチル化されていない場合には、それらのDNA認識配列において優先的または実質的に切断または消化を行うことができる。したがって、非メチル化DNA試料は、メチル化DNA試料よりも小さな断片に切られ、高度メチル化DNA試料は切断されない。明確な記述がない場合には、メチル化状況に基づいて核酸を差別化するための任意の方法を、本明細書の技術の組成および方法と共に使用することができる。胎仔のDNAの量を、増幅反応の間に、例えば、1つまたは複数の競合物質を既知の濃度で導入することによって決定することができる。胎仔のDNAの量の決定はまた、例えば、RT-PCR、プライマーの伸長、配列決定および/または計数により行うこともできる。ある特定の事例では、核酸の量は、米国特許出願公開第2007/0065823号の記載に従ってBEAMing技術を使用して決定することができる。ある特定の実施形態では、制限効率を決定することができ、効率の比率を使用して、胎仔のDNAの量をさらに決定する。
【0057】
ある特定の実施形態では、胎仔定量化アッセイ(FQA)を使用して、母体試料中の胎仔のDNAの濃度を、例えば、以下の方法により決定することができる:a)母体試料中に存在するDNAの総量を決定し;b)母体試料中の母体のDNAを、1つまたは複数のメチル化感受性制限酵素を使用して選択的に消化し、それにより、胎仔のDNAを濃縮し;c)ステップb)から得られた胎仔のDNAの量を決定し;d)ステップc)から得られた胎仔のDNAの量を、ステップa)から得られたDNAの総量と比較し、それにより、母体試料中の胎仔のDNAの濃度を決定する。ある特定の実施形態では、母体試料中の胎仔核酸の絶対コピー数を、例えば、質量分析および/または絶対コピー数を測定するために競合PCRのアプローチを使用するシステムを使用して決定することができる。例えば、いずれも参照により本明細書に組み込まれているDingおよびCantor(2003年)PNAS、USA、100巻:3059~3064頁、ならびに米国特許出願公開第2004/0081993号を参照されたい。
【0058】
ある特定の実施形態では、多型配列(例えば、一塩基多型(SNP))の対立遺伝子の比に基づいて、例えば、参照により本明細書に組み込まれている米国特許出願公開第2011/0224087号に記載の方法等を使用して、胎仔フラクションを決定することができる。そのような方法では、ヌクレオチド配列のリードを、母体試料について得、参照ゲノム中の情報を与える多型の部位(例えば、SNP)において、第1の対立遺伝子に対してマッピングされるヌクレオチド配列のリードの総数と、第2の対立遺伝子に対してマッピングされるヌクレオチド配列のリードの総数とを比較することによって、胎仔フラクションを決定する。ある特定の実施形態では、例えば、試料中の胎仔核酸と母体核酸との混合物に対して、母体核酸はそうした混合物に大きく寄与し、これと比較して、胎仔の対立遺伝子の寄与は相対的に小さいことにより、胎仔の対立遺伝子を同定する。したがって、母体試料中の胎仔核酸の相対的な存在量を、多型の部位のそれら2つの対立遺伝子のそれぞれについての参照ゲノム上の標的核酸配列に対してマッピングしたユニークな配列のリードの総数のパラメータとして決定することができる。
【0059】
ある特定の実施形態では、胎仔フラクションは、1つまたは複数のレベルに基づいて決定することができる。レベルに従う胎仔フラクションの決定結果は、例えば、その内容全体が全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている国際出願公開第WO2014/055774号に記載されている。一部の実施形態では、胎仔フラクションを、母体および/または胎仔コピー数の変異を表示するものとして類別されるレベルに従って決定する。例えば、胎仔フラクションの決定は、胎仔フラクションの決定に活用される母体および/または胎仔のコピー数の変異についての期待レベルの評価を含み得る。一部の実施形態では、胎仔フラクションを、同じタイプのコピー数の変異について決定された期待レベルの範囲に従ってコピー数の変異を表示するものとして類別されたレベル(例えば、第1のレベル)について決定する。胎仔フラクションは、期待レベルの範囲内にある観察レベルに従って決定することができ、それにより母体および/または胎仔のコピー数の変異として類別される。一部の実施形態では、胎仔フラクションを、母体および/または胎仔のコピー数の変異として類別される観察レベル(例えば、第1のレベル)が、同じ母体および/または胎仔のコピー数の変異について決定された期待レベルと異なる場合に決定する。胎仔フラクションは、パーセントとして提供することができる。例えば、胎仔フラクションを、100で除算することができ、これにより、パーセント値を求める。例えば、母体のホモ接合性の重複を表示し、155のレベルである第1のレベルと、母体のホモ接合性の重複についての期待レベルであって、150のレベルである期待レベルとでは、胎仔フラクションは、10%(例えば、(胎仔フラクション=2×(155-150))として決定することができる。
【0060】
本明細書に提供する方法と併せて、細胞外核酸中の胎仔核酸の量を、定量化し、使用することができる。したがって、ある特定の実施形態では、本明細書に記載する技術の方法は、胎仔核酸の量を決定する追加のステップを含む。対象から得られた核酸試料中の胎仔核酸の量を、試料核酸を調製するための処理の前または後で決定することができる。ある特定の実施形態では、試料核酸を処理し、調製した後で、試料中の胎仔核酸の量を決定し、この量を利用して、さらなる評価を行う。一部の実施形態では、アウトカムは、試料核酸中の胎仔核酸のフラクションを因子分解する(例えば、カウント数を調整する、試料を除去する、判定を行う、または判定を行わない)ことを含む。ある特定の実施形態では、本明細書に提供する方法は、胎仔フラクションを決定するための方法と併せて使用することができる。例えば、正規化処理を含む胎仔フラクションを決定するための方法は、本明細書に提供する1つまたは複数の正規化法(例えば、主成分正規化)を含み得る。
【0061】
決定のステップを、本明細書に記載する方法の前、間、その中の任意の一点、または本明細書に記載するある特定(例えば、異数性の検出、胎仔の性別の決定)の方法の後に行うことができる。例えば、胎仔の性別または異数性の決定方法を所与の感受性または特異性で行うために、胎仔核酸を定量化する方法を、胎仔の性別または異数性の決定の前、間または後に実行して、約2%超、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%またはそれ超の胎仔核酸を有する試料を同定することができる。一部の実施形態では、例えば、ある特定の閾値量の胎仔核酸(例えば、約15%またはそれ超の胎仔核酸;約4%またはそれ超の胎仔核酸)を有すると決定された試料を、胎仔の性別または異数性の決定のために、あるいは異数性または遺伝子の変異の存在または非存在について、さらに分析する。ある特定の実施形態では、試料が、ある特定の閾値量の胎仔核酸(例えば、約15%またはそれ超の胎仔核酸;約4%またはそれ超の胎仔核酸)を有する場合のみに、例えば、胎仔の性別または異数性の存在または非存在の決定結果を選択する(例えば、選択し、患者に伝える)。
【0062】
一部の実施形態では、染色体の異数性の存在または非存在を同定するために、胎仔フラクションの決定または胎仔核酸の量の決定が、要求されることも、必要になることもない。一部の実施形態では、染色体の異数性の存在または非存在の同定が、胎仔のDNAと母体のDNAとの配列の差別化を必要としない。ある特定の実施形態では、この理由は、特定の染色体、染色体部分またはそのセグメントにおける母体配列および胎仔配列の両方の合計された寄与を分析するからである。一部の実施形態では、染色体の異数性の存在または非存在の同定は、胎仔のDNAと母体のDNAとを区別するであろう先験的な配列情報に依存しない。
【0063】
核酸の濃縮
一部の実施形態では、核酸(例えば、細胞外核酸)を、濃縮し、または相対的に濃縮して、核酸の亜集団または種を得る。核酸の亜集団は、例えば、胎仔核酸、母体核酸、特定の長さもしくは範囲の長さの断片を含む核酸、または特定のゲノム領域(例えば、単一の染色体、一連の染色体および/もしくはある特定の染色体領域)に由来する核酸を含むことができる。そのような濃縮試料は、本明細書に提供する方法と併せて使用することができる。したがって、ある特定の実施形態では、本技術の方法は、試料中の核酸の亜集団、例えば、胎仔核酸等について濃縮する追加のステップを含む。ある特定の実施形態では、濃縮して、胎仔核酸を得るために、上記に記載した、胎仔フラクションを決定するための方法もまた使用することができる。ある特定の実施形態では、母体核酸を、試料から、選択的に(部分的、実質的、ほとんど完全または完全に)除去する。ある特定の実施形態では、濃縮して、特定の低いコピー数の種の核酸(例えば、胎仔核酸)を得ることによって、定量的感受性を改善することができる。試料を核酸の特定の種について濃縮するための方法が、例えば、米国特許第6,927,028号、国際特許出願公開第WO2007/140417号、国際特許出願公開第WO2007/147063号、国際特許出願公開第WO2009/032779号、国際特許出願公開第WO2009/032781号、国際特許出願公開第WO2010/033639号、国際特許出願公開第WO2011/034631号、国際特許出願公開第WO2006/056480号および国際特許出願公開第WO2011/143659号に記載されており、それぞれの内容全体は、全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている。
【0064】
一部の実施形態では、核酸を濃縮して、ある特定の標的断片種および/または参照断片種を得る。ある特定の実施形態では、下記に記載する1つまたは複数の、長さに基づく分離の方法を使用して、核酸を濃縮して、特定の核酸の断片長または範囲の断片長を得る。ある特定の実施形態では、本明細書に記載するおよび/または当技術分野で公知である1つまたは複数の、配列に基づく分離方法を使用して、核酸を濃縮して、選択されたゲノム領域(例えば、染色体)に由来する断片を得る。下記に、試料中の核酸の亜集団(例えば、胎仔核酸)について濃縮するためのある特定の方法を詳細に記載する。
【0065】
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎仔核酸)について濃縮するためのいくつかの方法は、母体核酸と胎仔核酸との間のエピジェネティックな差を活用する方法を含む。例えば、メチル化の差に基づいて、胎仔核酸を、母体核酸と差別化し、それから分離することができる。メチル化に基づく胎仔核酸の濃縮方法が、参照により本明細書に組み込まれている米国特許出願公開第2010/0105049号に記載されている。そのような方法は時には、試料核酸を、メチル化特異的結合剤(メチル-CpG結合性タンパク質(MBD)、メチル化特異的抗体等)に結合させるステップと、メチル化状況の差に基づいて、未結合の核酸から、結合した核酸を分離するステップとを含む。そのような方法はまた、メチル化感受性制限酵素(上記に記載;例えば、HhaIおよびHpaII)の使用を含むこともでき、この方法により、母体核酸を選択的かつ完全または実質的に消化して、試料を少なくとも1つの胎仔核酸の領域について濃縮する酵素を用いて、母体試料に由来する核酸を選択的に消化することによって、母体試料中の胎仔核酸の領域の濃縮が可能になる。
【0066】
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎仔核酸)について濃縮するための別の方法が、参照により本明細書に組み込まれている米国特許出願公開第2009/0317818号に記載の方法等の制限エンドヌクレアーゼにより多型配列を増強するアプローチである。そのような方法は、非標的対立遺伝子を含む核酸を、非標的対立遺伝子を含むが、標的対立遺伝子は含まない核酸を認識する制限エンドヌクレアーゼを用いて切断するステップと、切断された核酸は増幅せずに、未切断の核酸を増幅するステップとを含み、未切断の、増幅された核酸は、非標的核酸(例えば、母体核酸)と比べて濃縮された標的核酸(例えば、胎仔核酸)である。ある特定の実施形態では、例えば、切断剤による選択的消化を受けやすい多型の部位を有する対立遺伝子を含むように、核酸を選択することができる。
【0067】
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎仔核酸)について濃縮するためのいくつかの方法は、選択的酵素分解のアプローチを含む。そのような方法は、エキソヌクレアーゼ消化から標的配列を保護し、それにより、試料中の望まれない配列(例えば、母体のDNA)の排除を促進するステップを含む。例えば、1つのアプローチでは、試料核酸を変性させて、一本鎖核酸を生成し、一本鎖核酸を、適切なアニーリング条件下で、少なくとも1つの、標的特異的プライマーの対と接触させ、アニールさせたプライマーを、ヌクレオチドの重合により伸長して、二本鎖標的配列を生成し、一本鎖(例えば、非標的)の核酸を消化するヌクレアーゼを使用して、一本鎖核酸を消化する。ある特定の実施形態では、少なくとも1回の追加のサイクルにおいて、この方法を繰り返すことができる。ある特定の実施形態では、同じ、標的特異的プライマーの対を使用して、第1サイクルおよび第2サイクルのそれぞれにおいてプライマーの伸長を行い、ある特定の実施形態では、第1サイクルおよび第2サイクルのために、異なる、標的特異的プライマーの対を使用する。
【0068】
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎仔核酸)について濃縮するためのいくつかの方法は、大規模並行シグネチャーシークエンシング(MPSS)のアプローチを含む。MPSSは典型的には、アダプター(例えば、タグ)のライゲーションを使用し、続いて、アダプターのデコーディングを行い、核酸配列を小分けして読み取る固相法である。典型的には、タグを付けたPCR産物が増幅され、結果として、それぞれの核酸から、ユニークなタグを有するPCR産物が生成する。しばしば、PCR産物をマイクロビーズにつなぐために、タグを使用する。ライゲーションに基づく配列決定を数回行った後に、例えば、配列のシグネチャーを、それぞれのビーズから同定することができる。MPSSデータセット中のそれぞれのシグネチャー配列(MPSSタグ)を、分析し、全てのその他のシグネチャーと比較し、全ての同一のシグネチャーを計数する。
【0069】
ある特定の実施形態では、ある特定の濃縮方法(例えば、ある特定の、MPSおよび/またはMPSSに基づく濃縮方法)は、増幅(例えば、PCR)に基づくアプローチを含むことができる。ある特定の実施形態では、座位に特異的な増幅方法を使用することができる(例えば、座位に特異的な増幅プライマーを使用する)。ある特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを使用することができる。ある特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、ユニプレックス配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、マルチプレックスPCR(例えば、MASSARRAYシステム)の使用、および捕捉プローブ配列のアンプリコン中への組込み、続いて、例えば、Illumina MPSSシステムを使用する配列決定を含むことができる。ある特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、3つのプライマーからなるシステムおよびインデックス配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、例えば、Illumina MPSSシステムを使用する配列決定のために、ある特定の座位に特異的なフォワードPCRプライマー中に組み込まれた第1の捕捉プローブ、および座位に特異的なリバースPCRプライマー中に組み込まれたアダプター配列を有するプライマーを用いる、マルチプレックスPCR(例えば、MASSARRAYシステム)を使用し、それにより、アンプリコンを生成し、続いて、リバース捕捉配列および分子インデックスバーコードを組み込むための第2のPCRを行うことを含むことができる。ある特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、4つのプライマーからなるシステムおよびインデックス配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、例えば、Illumina MPSSシステムを使用する配列決定のために、座位に特異的なフォワードPCRプライマーおよび座位に特異的なリバースPCRプライマーの両方中に組み込まれたアダプター配列を有するプライマーを用いる、マルチプレックスPCR(例えば、MASSARRAYシステム)を使用し、続いて、フォワード捕捉配列およびリバース捕捉配列の両方ならびに分子インデックスバーコードを組み込むための第2のPCRを行うことを含むことができる。ある特定の実施形態では、マイクロ流体技術のアプローチを使用することができる。特定の実施形態では、アレイに基づくマイクロ流体技術のアプローチを使用することができる。例えば、そのようなアプローチは、マイクロ流体技術によるアレイ(例えば、Fluidigm)を使用して、低いプレックスでの増幅ならびにインデックスおよび捕捉プローブの組込みを行い、続いて、配列決定を行うことを含むことができる。ある特定の実施形態では、例えば、デジタル小滴PCR等のエマルジョンマイクロ流体技術のアプローチを使用することができる。
【0070】
ある特定の実施形態では、(例えば、ユニバーサルプライマーまたは座位に特異的でない増幅プライマーを使用して)ユニバーサル増幅法を使用することができる。ある特定の実施形態では、ユニバーサル増幅法を、プルダウンのアプローチと組み合わせて使用することができる。ある特定の実施形態では、方法は、ユニバーサルに増幅された配列決定ライブラリーからのビオチン化ウルトラマーによるプルダウン(例えば、AgilentまたはIDT製のビオチン化プルダウンアッセイ)を含むことができる。例えば、そのようなアプローチは、標準ライブラリーの調製、プルダウンアッセイによる選択された領域についての濃縮、および第2のユニバーサル増幅のステップを含むことができる。ある特定の実施形態では、プルダウンのアプローチは、ライゲーションに基づく方法と組み合わせて使用することができる。ある特定の実施形態では、方法は、配列特異的アダプターのライゲーションを用いるビオチン化ウルトラマーによるプルダウン(例えば、HALOPLEX PCR、Halo Genomics)を含むことができる。例えば、そのようなアプローチは、制限酵素消化断片を捕捉するためのセレクタープローブの使用、続いて、捕捉された産物のアダプターへのライゲーション、およびユニバーサル増幅、続いて、配列決定を含むことができる。ある特定の実施形態では、プルダウンのアプローチを、伸長およびライゲーションに基づく方法と組み合わせて使用することができる。ある特定の実施形態では、方法は、分子反転プローブ(MIP)による伸長およびライゲーションを含むことができる。例えば、そのようなアプローチは、配列アダプターと組み合わせた分子反転プローブの使用、続いて、ユニバーサル増幅および配列決定を含むことができる。ある特定の実施形態では、相補的DNAを、合成し、増幅せずに配列決定することができる。
【0071】
ある特定の実施形態では、伸長およびライゲーションのアプローチを、プルダウンのコンポーネントなしで行うことができる。ある特定の実施形態では、方法は、座位に特異的なフォワードプライマーおよびリバースプライマーによるハイブリダイゼーション、伸長、ならびにライゲーションを含むことができる。そのような方法は、ユニバーサル増幅、または増幅なしの相補的DNA合成、続いて、配列決定をさらに含むことができる。ある特定の実施形態では、そのような方法は、分析の間のバックグラウンドの配列を低下させるまたは排除することができる。
【0072】
ある特定の実施形態では、プルダウンのアプローチを、任意選択の増幅コンポーネントを伴わせて、または増幅コンポーネントなしで使用することができる。ある特定の実施形態では、方法は、改変されたプルダウンアッセイおよびライゲーションを含むことができ、捕捉プローブを十分に組み込み、ユニバーサル増幅は行わない。例えば、そのようなアプローチは、制限酵素消化断片を捕捉するための、改変されたセレクタープローブの使用、続いて、捕捉された産物のアダプターへのライゲーション、任意選択の増幅、および配列決定を含むことができる。ある特定の実施形態では、方法は、環状一本鎖ライゲーションと組み合わせた、アダプター配列の伸長およびライゲーションを伴う、ビオチン化プルダウンアッセイを含むことができる。例えば、そのようなアプローチは、目的の捕捉領域(例えば、標的配列)に対するセレクタープローブの使用、プローブの伸長、アダプターのライゲーション、一本鎖環状ライゲーション、任意選択の増幅、および配列決定を含むことができる。ある特定の実施形態では、配列決定結果の分析により、バックグラウンドから標的配列を分離することができる。
【0073】
一部の実施形態では、本明細書に記載する1つまたは複数の、配列に基づく分離方法を使用して、核酸を濃縮して、選択されたゲノム領域(例えば、染色体)に由来する断片を得る。配列に基づく分離は一般に、ヌクレオチド配列が、目的の断片(例えば、標的および/または参照の断片)中には存在し、試料のその他の断片中に実質的に存在しない、またはその他の断片はごくわずかな量でしか存在しない(例えば、5%もしくはそれ未満)ことに基づく。一部の実施形態では、配列に基づく分離は、標的断片の分離および/または参照断片の分離を行うことができる。分離された標的断片および/または分離された参照断片をしばしば、核酸試料中の残存する断片から単離し、取り出す。ある特定の実施形態では、また、分離された標的断片と分離された参照断片とを、相互に単離し、取り出す(例えば、分離アッセイのコンパートメントとして単離する)。ある特定の実施形態では、分離された標的断片と分離された参照断片とを、一緒に単離する(例えば、同じアッセイコンパートメントとして単離する)。一部の実施形態では、未結合断片を、示差的に除去または分解または消化することができる。
【0074】
一部の実施形態では、選択的に核酸を捕捉する処理を使用して、核酸試料から、標的断片および/または参照断片を分離し、取り出す。市販されている、核酸を捕捉するシステムとして、例えば、Nimblegen配列捕捉システム(Roche NimbleGen、Madison、WI);Illumina BEADARRAYプラットフォーム(Illumina、San Diego、CA);Affymetrix GENECHIPプラットフォーム(Affymetrix、Santa Clara、CA);Agilent SureSelect Target Enrichment System(Agilent Technologies、Santa Clara、CA);および関連のプラットフォームが挙げられる。そのような方法は典型的には、標的断片または参照断片のヌクレオチド配列のセグメントまたは全てに対する捕捉オリゴヌクレオチドのハイブリダイゼーションを含み、固相(例えば、固相アレイ)および/または溶液に基づくプラットフォームの使用を含むことができる。選択されたゲノム領域または座位(例えば、第21、18、13、XもしくはY染色体のうちの1つ、または参照の染色体)に由来する核酸断片に優先的にハイブリダイズするように、捕捉オリゴヌクレオチド(時には、「おとり」と呼ぶ)を、選択するまたは設計する。ある特定の実施形態では、(例えば、オリゴヌクレオチドアレイを使用する)ハイブリダイゼーションに基づく方法を使用し、濃縮して、ある特定の染色体(例えば、異数体の可能性がある染色体、参照の染色体、もしくは目的のその他の染色体)、またはそれらの目的のセグメントに由来する核酸配列を得ることができる。
【0075】
一部の実施形態では、1つまたは複数の、長さに基づく分離の方法を使用して、核酸を、特定の核酸断片の長さ、範囲の長さ、または特定の閾値もしくはカットオフを下回るもしくは上回る長さについて濃縮する。核酸断片の長さは典型的には、断片中のヌクレオチドの数を指す。また、核酸断片の長さは時には、核酸断片のサイズとも呼ぶ。一部の実施形態では、長さに基づく分離の方法を、個々の断片の長さを測定することなく実施する。一部の実施形態では、長さに基づく分離の方法を、個々の断片の長さを決定するための方法と併せて実施する。一部の実施形態では、長さに基づく分離は、サイズ分画の手順を指し、分画されたプールの全部または一部を、単離(例えば、留保)および/または分析することができる。サイズ分画の手順は、当技術分野で公知である(例えば、アレイ上での分離、分子ふるいによる分離、ゲル電気泳動による分離、カラムクロマトグラフィー(例えば、分子ふるいカラム)による分離、およびマイクロ流体技術に基づくアプローチ)。ある特定の実施形態では、長さに基づく分離のアプローチとして、例えば、断片の環状化、化学物質による処理(例えば、ホルムアルデヒド、ポリエチレングリコール(PEG))、質量分析、および/またはサイズに特異的な核酸増幅を挙げることができる。
【0076】
本明細書に記載する方法と共に使用することができる、ある特定の長さに基づく分離の方法は、例えば、選択的な配列によるタグ付けのアプローチを利用する。用語「配列によるタグ付け」は、認識可能であり、かつ明確に異なる配列を、核酸または核酸の集団中に組み込むことを指す。用語「配列によるタグ付け」は、本明細書で使用する場合、本明細書で後に記載する用語「配列タグ」とは異なる意味を有する。そのような配列によるタグ付けの方法では、ある断片サイズの種(例えば、短い断片)の核酸を、長い核酸および短い核酸を含む試料中で、選択的な配列によるタグ付けに付す。そのような方法は典型的には、核酸増幅反応を、内側プライマーおよび外側プライマーを含むセットのネステッドプライマーを使用して実施するステップを含む。ある特定の実施形態では、内側プライマーの一方または両方にタグを付け、それにより、タグを標的の増幅産物上に導入することができる。外側プライマーは一般に、(内側の)標的配列を担持する短い断片にはアニールしない。内側プライマーは、短い断片にアニールし、タグおよび標的配列を担持する増幅産物を生成することができる。典型的には、長い断片のタグ付けは、例えば、外側プライマーの以前のアニーリングおよび伸長による、内側プライマーの伸長の遮断を含む、機構の組合せを通して阻害される。例えば、一本鎖核酸のエキソヌクレアーゼ消化、および少なくとも1つのタグに特異的な増幅プライマーを使用する、タグを付けた断片の増幅を含めた、多様な方法のうちのいずれかにより、タグを付けた断片についての濃縮を行うことができる。
【0077】
本明細書に記載する方法と共に使用することができる、別の、長さに基づく分離の方法は、核酸試料を、ポリエチレングリコール(PEG)沈殿に付すステップを含む。方法の例として、国際特許出願公開第WO2007/140417号および第WO2010/115016号に記載されているものが挙げられ、それぞれの内容全体は、全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている。この方法は一般に、小さな(例えば、300ヌクレオチド未満の)核酸を実質的に沈澱させることなく、大きな核酸を実質的に沈殿させるのに十分な条件下において、1つまたは複数の一価の塩の存在下で、核酸試料をPEGと接触させることを必要とする。
【0078】
本明細書に記載する方法と共に使用することができる、別の、サイズに基づく濃縮方法は、ライゲーション、例えば、circligaseを使用するライゲーションによる環状化を含む。短い核酸断片は典型的には、長い断片よりも高い効率で環状化させることができる。環状化しなかった配列を、環状化した配列から分離することができ、濃縮した短い断片を使用して、さらなる分析を行うことができる。
【0079】
核酸ライブラリー
一部の実施形態では、核酸ライブラリーは、特定の処理(それらの非限定的な例として、固相(例えば、固体の支持体、例えば、フローセル、ビーズ)上への固定化、濃縮、増幅、クローニング、検出が挙げられる)のために、および/または核酸の配列決定のために、調製され、集められ、かつ/または改変される複数のポリヌクレオチド分子(例えば、核酸の試料)である。ある特定の実施形態では、核酸ライブラリーを、配列決定の処理の前または間に調製する。核酸ライブラリー(例えば、配列決定ライブラリー)を、当技術分野で公知の適切な方法により調製することができる。核酸ライブラリーを、標的化する調製処理または標的化しない調製処理により調製することができる。
【0080】
一部の実施形態では、核酸のライブラリーを改変して、固体の支持体への核酸の固定化のために構成される化学的部分(例えば、官能基)を含める。一部の実施形態では、核酸のライブラリーを改変して、固体の支持体へのライブラリーの固定化のために構成される、生物学的分子(例えば、官能基)および/または結合対のメンバーを含め、それらの非限定的な例として、チロキシン結合性グロブリン、ステロイド結合性タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、リプレッサー、プロテインA、プロテインG、アビジン、ストレプトアビジン、ビオチン、補体成分C1q、核酸結合性タンパク質、受容体、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補的核酸配列等、およびそれらの組合せが挙げられる。特異的な結合対のいくつかの例として、非限定的に、アビジン部分とビオチン部分;抗原性エピトープと、抗体もしくはその免疫学的反応性断片;抗体とハプテン;ジゴキシゲニン(digoxigen)部分と抗ジゴキシゲニン(anti-digoxigen)抗体;フルオレセイン部分と抗フルオレセイン抗体;オペレーターとリプレッサー;ヌクレアーゼとヌクレオチド;レクチンと多糖;ステロイドとステロイド結合性タンパク質;活性化合物と活性化合物の受容体;ホルモンとホルモン受容体;酵素と基質;免疫グロブリンとプロテインA;オリゴヌクレオチドもしくはポリヌクレオチドと、それに対応する相補体等、またはそれらの組合せが挙げられる。
【0081】
一部の実施形態では、核酸のライブラリーを改変して、既知の組成の1つまたは複数のポリヌクレオチドを含め、それらの非限定的な例として、識別子(例えば、タグ、インデックスタグ)、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製開始点、ステムループ、相補配列(例えば、プライマー結合部位、アニーリング部位)、適切な組入れ部位(例えば、トランスポゾン、ウイルス組入れ部位)、改変ヌクレオチド等、またはそれらの組合せが挙げられる。既知の配列のポリヌクレオチドを、適切な位置、例えば、核酸配列の5’末端、3’末端または内部に付加することができる。既知の配列のポリヌクレオチドは、同じ配列であっても、または異なる配列であってもよい。一部の実施形態では、既知の配列のポリヌクレオチドを、表面(例えば、フローセル中の表面)上に固定化された1つまたは複数のオリゴヌクレオチドにハイブリダイズするように構成する。例えば、5’既知配列を含む核酸分子を、第1の、複数のオリゴヌクレオチドにハイブリダイズさせることができ、一方、その分子の3’既知配列を、第2の、複数のオリゴヌクレオチドにハイブリダイズさせることができる。一部の実施形態では、核酸のライブラリーは、染色体に特異的なタグ、捕捉配列、標識および/またはアダプターを含むことができる。一部の実施形態では、核酸のライブラリーは、1つまたは複数の検出可能な標識を含む。一部の実施形態では、1つまたは複数の検出可能な標識を、核酸ライブラリー中に、5’末端において、3’末端において、かつ/またはライブラリー中の核酸の内部の任意のヌクレオチドの位置において組み込むことができる。一部の実施形態では、核酸のライブラリーは、ハイブリダイズさせたオリゴヌクレオチドを含む。ある特定の実施形態では、ハイブリダイズさせたオリゴヌクレオチドは、標識されたプローブである。一部の実施形態では、核酸のライブラリーは、固相上への固定化の前にハイブリダイズさせたオリゴヌクレオチドプローブを含む。
【0082】
一部の実施形態では、既知の配列のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列は、2つもしくはそれ超の核酸分子、または核酸分子の2つもしくはそれ超のサブセット中に組み入れる特異的なヌクレオチド配列であり、ユニバーサル配列は、それが組み入られている分子またはサブセットの分子全てについて同じである。ユニバーサル配列はしばしば、ユニバーサル配列に対して相補性を示す単一のユニバーサルプライマーを使用して、複数の異なる配列にハイブリダイズし、かつ/またはそれらを増幅するように設計される。一部の実施形態では、2つ(例えば、対)またはそれ超のユニバーサル配列および/またはユニバーサルプライマーを使用する。ユニバーサルプライマーはしばしば、ユニバーサル配列を含む。一部の実施形態では、アダプター(例えば、ユニバーサルアダプター)は、ユニバーサル配列を含む。一部の実施形態では、1つまたは複数のユニバーサル配列を使用して、核酸の複数の種またはサブセットを、捕捉、同定および/または検出する。
【0083】
核酸ライブラリーの調製のある特定の実施形態では(例えば、合成の手順によるある特定の配列決定の場合には)、核酸を、サイズにより、選択および/または断片化して、数百塩基対またはそれ未満の長さを得る(例えば、ライブラリーの生成のための調製の場合)。一部の実施形態では、ライブラリーの調製を、断片化せずに行う(例えば、ccfDNAを使用する場合)。
【0084】
ある特定の実施形態では、ライゲーションに基づくライブラリーの調製方法を使用する(例えば、ILLUMINA TRUSEQ、Illumina、San Diego CA)。ライゲーションに基づくライブラリーの調製方法はしばしば、アダプター(例えば、メチル化アダプター)の設計を活用し、この設計は、最初のライゲーションのステップにおいて、インデックス配列を組み込むことができ、しばしば、単一末端から読む配列決定、両末端配列決定、およびマルチプレックス配列決定のための試料を調製するために使用することができる。例えば、fill-in反応、エキソヌクレアーゼ反応、またはそれらの組合せにより、時には、核酸(例えば、断片化核酸またはccfDNA)の末端の修復を行う。一部の実施形態では、次いで、得られた平滑末端修復核酸を、アダプター/プライマーの3’末端上の単一ヌクレオチドのオーバーハングに対して相補性を示す単一ヌクレオチドにより伸長することができる。任意のヌクレオチドを、伸長/オーバーハングヌクレオチドのために使用することができる。一部の実施形態では、核酸ライブラリーの調製は、アダプターオリゴヌクレオチドのライゲーションを含む。アダプターオリゴヌクレオチドはしばしば、フローセルアンカーに対して相補性を示し、時には、例えば、核酸ライブラリーを、固体の支持体、例として、フローセルの内側表面に固定化するために利用される。一部の実施形態では、アダプターオリゴヌクレオチドは、識別子、1つもしくは複数の配列決定プライマーハイブリダイゼーション部位(例えば、ユニバーサル配列決定プライマーに対して相補性を示す配列、単一末端配列決定プライマー、両末端配列決定プライマー、マルチプレックス配列決定プライマー等)、またはそれらの組合せ(例えば、アダプター/配列決定、アダプター/識別子、アダプター/識別子/配列決定)を含む。
【0085】
識別子は、核酸(例えば、ポリヌクレオチド)中に組み込むまたはそれにつなぐ、適切な検出可能な標識であり、識別子により、それを含む核酸の検出および/または同定が可能になる。一部の実施形態では、識別子を、配列決定法の間に、(例えば、ポリメラーゼにより)核酸中に組み込むまたはそれにつなぐ。識別子の非限定的な例として、核酸タグ、核酸のインデックスもしくはバーコード、放射標識(例えば、同位体)、金属標識、蛍光標識、化学発光標識、リン光標識、フルオロフォアクエンチャー、染料、タンパク質(例えば、酵素、抗体もしくはその一部、リンカー、結合対のメンバー)等、またはそれらの組合せが挙げられる。一部の実施形態では、識別子(例えば、核酸のインデックスまたはバーコード)は、ユニークな、既知のおよび/または同定可能な配列のヌクレオチドまたはヌクレオチド類似体である。一部の実施形態では、識別子は、6つまたはそれ超の近接ヌクレオチドである。多様な異なる励起スペクトルおよび発光スペクトルを有する多数のフルオロフォアが入手可能である。任意の適切なタイプおよび/または数のフルオロフォアを、識別子として使用することができる。一部の実施形態では、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、10個もしくはそれ超、20個もしくはそれ超、30個もしくはそれ超、または50個もしくはそれ超の異なる識別子が、本明細書に記載する方法(例えば、核酸の検出および/または配列決定法)において利用される。一部の実施形態では、1つまたは2つのタイプの識別子(例えば、蛍光標識)を、ライブラリー中のそれぞれの核酸に連結する。識別子の検出および/または定量化を、適切な方法、機械または装置により行うことができ、それらの非限定的な例として、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、ルミノメーター、蛍光光度計、分光光度計、適切な遺伝子チップもしくはマイクロアレイによる分析、ウエスタンブロット、質量分析、クロマトグラフィー、細胞蛍光測定法による分析、蛍光顕微鏡法、適切な蛍光法もしくはデジタル撮像法、共焦点レーザー走査顕微鏡法、レーザー走査細胞数測定、親和性クロマトグラフィー、手作業バッチモードによる分離、電場懸濁、適切な核酸配列決定法および/または核酸配列決定装置等、ならびにそれらの組合せが挙げられる。
【0086】
一部の実施形態では、トランスポゾンに基づくライブラリーの調製方法を使用する(例えば、EPICENTRE NEXTERA、Epicentre、Madison WI)。トランスポゾンに基づく方法は典型的には、in vitroでの転位を使用して、単一チューブ中での反応においてDNAの断片化およびタグ付けを同時に行い(しばしば、プラットフォームに特異的なタグおよび任意選択のバーコードの組込みが可能である)、配列決定装置で使用できるライブラリーを調製する。
【0087】
一部の実施形態では、核酸ライブラリーまたはその一部を増幅する(例えば、PCRに基づく方法により増幅する)。一部の実施形態では、配列決定法は、核酸ライブラリーの増幅を含む。核酸ライブラリーを、固体の支持体(例えば、フローセル中の固体の支持体)上への固定化の前または後に増幅することができる。核酸増幅は、(例えば、核酸ライブラリー中に)存在する核酸鋳型および/またはその相補体の数を、鋳型および/またはその相補体の1つまたは複数のコピーを生成することによって増幅するまたは増加させる処理を含む。増幅は、適切な方法により行うことができる。核酸ライブラリーを、サーモサイクリング法または等温増幅法により増幅することができる。一部の実施形態では、ローリングサークル増幅法を使用する。一部の実施形態では、増幅は、核酸ライブラリーまたはその部分が固定化されている、固体の支持体(例えば、フローセルの内部)上で起きる。ある特定の配列決定法では、核酸ライブラリーを、フローセルに添加し、適切な条件下でのアンカーへのハイブリダイゼーションによりに固定化する。このタイプの核酸増幅をしばしば、固相増幅と呼ぶ。固相増幅の一部の実施形態では、全部または一部の増幅産物を、固定化されたプライマーから開始する伸長により合成する。固相増幅反応は、増幅オリゴヌクレオチド(例えば、プライマー)のうちの少なくとも1つを固体の支持体上に固定化する点を除き、標準的な溶液相の増幅に類似する。
【0088】
一部の実施形態では、固相増幅は、表面に固定化された、1つの種のオリゴヌクレオチドプライマーのみを含む核酸増幅反応を含む。ある特定の実施形態では、固相増幅は、複数の異なる固定化されたオリゴヌクレオチドプライマー種を含む。一部の実施形態では、固相増幅は、固体表面上に固定化された1つの種のオリゴヌクレオチドプライマー、および溶液中の第2の異なるオリゴヌクレオチドプライマー種を含む核酸増幅反応を含むことができる。固定化されたプライマーまたは溶液に基づくプライマーの複数の異なる種を使用することができる。固相核酸増幅反応の非限定的な例として、界面増幅、ブリッジ増幅、エマルジョンPCR、WildFire増幅(例えば、米国特許公報第US20130012399号)等、またはそれらの組合せが挙げられる。
【0089】
配列決定
一部の実施形態では、核酸(例えば、核酸断片、試料核酸、無細胞核酸)の配列決定を行う。ある特定の実施形態では、完全または実質的に完全な配列を得、時には、部分的な配列を得る。
【0090】
一部の実施形態では、試料中の一部または全部の核酸を、配列決定の前または間に(例えば、非特異的に、例えば、PCRに基づく方法により)濃縮および/または増幅する。ある特定の実施形態では、試料中の特異的な、核酸の部分またはサブセットを、配列決定の前または間に濃縮および/または増幅する。一部の実施形態では、核酸のあらかじめ選択されたプールの部分またはサブセットの配列決定をランダムに行う。一部の実施形態では、配列決定の前または間に、試料中の核酸の濃縮および/または増幅を行わない。
【0091】
本明細書で使用する場合、「リード」(reads)(例えば、「リード」(a read)、「配列のリード」(a sequence read))は、本明細書に記載するまたは当技術分野で公知である、任意の配列決定の処理により生成された短いヌクレオチド配列である。リードは、核酸断片の一方の末端から生成させることができ(「単一末端からのリード」)、時には、核酸の両方の末端から生成させる(例えば、両末端からのリード、2つの末端からのリード)。
【0092】
配列のリードの長さはしばしば、特定の配列決定技術と関連する。例えば、高スループット法は、塩基対(bp)のサイズが数十から数百まで変化し得る配列のリードを提供する。例えば、ナノポアシークエンシングは、塩基対のサイズが数十から数百または数千まで変化し得る配列のリードを提供することができる。一部の実施形態では、配列のリードの平均、中央値、平均値の長さまたは絶対長が、約15bp~約900bp長である。ある特定の実施形態では、配列のリードの平均、中央値、平均値の長さまたは絶対長が、約1000bpまたはそれ超である。
【0093】
一部の実施形態では、単一末端からのリードの名目上、平均値、平均の長さまたは絶対長が、時には、約15個の近接ヌクレオチド~約50個もしくはそれ超の近接ヌクレオチド、約15個の近接ヌクレオチド~約40個もしくはそれ超の近接ヌクレオチドであり、時には、約15個の近接ヌクレオチド、または約36個もしくはそれ超の近接ヌクレオチドである。ある特定の実施形態では、単一末端からのリードの名目上、平均値、平均の長さまたは絶対長が、約20~約30塩基長、または約24~約28塩基長である。ある特定の実施形態では、単一末端からのリードの名目上、平均値、平均の長さまたは絶対長が、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約21、約22、約23、約24、約25、約26、約27、約28、もしくは約29塩基長またはそれ超である。
【0094】
ある特定の実施形態では、両末端からのリードの名目上、平均値、平均の長さまたは絶対長が、時には、約10個の近接ヌクレオチド~約25個の近接ヌクレオチドもしくはそれ超(例えば、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24もしくは約25ヌクレオチド長もしくはそれ超)、約15個の近接ヌクレオチド~約20個の近接ヌクレオチドもしくはそれ超であり、時には、約17個の近接ヌクレオチド、または約18個の近接ヌクレオチドである。
【0095】
リードは一般に、ヌクレオチド配列の、物理的な核酸で示す表示である。例えば、ATGCと描写される配列を含有するリードでは、物理的な核酸として、「A」はアデニンヌクレオチドを表示し、「T」はチミンヌクレオチドを表示し、「G」はグアニンヌクレオチドを表示し、「C」はシトシンヌクレオチドを表示する。妊娠中の雌の血液から得られた配列のリードは、胎仔核酸と母体核酸との混合物に由来するリードであり得る。比較的短いリードの混合物を、本明細書に記載する処理により、妊娠中の雌および/または胎仔中に存在するゲノム核酸の表示に転換することができる。比較的短いリードの混合物を、例えば、コピー数の変異(例えば、母体および/もしくは胎仔のコピー数の変異)、遺伝子の変異、または異数性の表示に転換することができる。母体核酸と胎仔核酸との混合物のリードを、母体の染色体および胎仔の染色体の一方または両方の特徴を含む複合染色体またはそのセグメントの表示に転換することができる。ある特定の実施形態では、対象から得られた試料の核酸配列のリードを「得」、かつ/または1人もしくは複数の参照の人から得られた生物学的検体の核酸配列のリードを「得る」には、核酸の配列決定を直接行って、配列情報を得ることを含むことができる。一部の実施形態では、「得る」は、他者が核酸から直接得た配列情報を受け取ることを含むことができる。
【0096】
一部の実施形態では、ゲノムの表示される割合が、配列決定され、時には、「カバレッジ」または「カバレッジ倍率」と呼ばれる。例えば、1倍のカバレッジは、ゲノムのヌクレオチド配列のおおよそ100%が、リードにより表示されることを示す。一部の実施形態では、「カバレッジ倍率」は、参照としての以前の配列決定のランを参照して比較する用語である。例えば、第2の配列決定のランが、第1の配列決定のランのカバレッジの1/2である場合がある。一部の実施形態では、冗長性をもたせて、ゲノムの配列決定を行い、この場合、ゲノムの所与の領域を、2つもしくはそれ超のリード、またはオーバーラップするリードがカバーすることができる(例えば、1超の「カバレッジ倍率」、例えば、2倍のカバレッジ)。
【0097】
一部の実施形態では、1つの個体から得られた1つの核酸試料の配列決定を行う。ある特定の実施形態では、2つまたはそれ超の試料のそれぞれから得られた核酸の配列決定を行い、この場合、試料は、1つの個体から得られるか、または異なる個体から得られる。ある特定の実施形態では、2つまたはそれ超の生物学的試料から得られた核酸試料をプールし、この場合、それぞれの生物学的試料が、1つの個体、または2つもしくはそれ超の個体から得られ、プールした試料の配列決定を行う。後者の実施形態では、それぞれの生物学的試料から得られた核酸試料をしばしば、1つまたは複数のユニークな識別子により同定する。
【0098】
一部の実施形態では、配列決定法は、配列決定の処理における配列決定反応のマルチプレックス化を可能にする識別子を利用する。ユニークな識別子の数が多くなるほど、例えば、配列決定の処理においてマルチプレックス化することができる、検出される試料および/または染色体の数が増える。任意の適切な数(例えば、4、8、12、24、48、96個またはそれ超)のユニークな識別子を使用して、配列決定の処理を行うことができる。
【0099】
配列決定の処理は、時には固相を使用し、固相は、時にはフローセルを含み、その上に、ライブラリーに由来する核酸をつなぐことができ、試薬を、流し、つなげた核酸と接触させることができる。フローセルは時には、フローセルのレーンを含み、識別子の使用により、それぞれのレーン中のいくつかの試料の分析を促進することができる。フローセルはしばしば、結合させた分析対象を保持し、かつ/または結合させた分析対象上を試薬溶液が整然と通過するのを可能にするように構成することができる固体の支持体である。フローセルは、多くの場合、平面形状をとり、光学的に透明であり、一般に、ミリメートルのまたはミリメートルを下回るスケールであり、しばしば、チャネルまたはレーンを有し、それらの中で、分析対象と試薬との相互作用が発生する。一部の実施形態では、フローセルの所与のレーン中の分析される試料の数は、ライブラリーの調製および/またはプローブの設計の間に利用されるユニークな識別子の数に依存する。単一のフローセルのレーン。例えば、12個の識別子を使用するマルチプレックス化により、8レーンのフローセル中の(例えば、96ウェルのマイクロウェルプレート中のウェルの数に等しい)96個の試料を同時に分析するのが可能になる。同様に、例えば、48個の識別子を使用するマルチプレックス化により、8レーンのフローセル中の(例えば、384ウェルのマイクロウェルプレート中のウェルの数に等しい)384個の試料を同時に分析するのも可能になる。市販されているマルチプレックス配列決定キットの非限定的な例として、Illuminaのマルチプレックス化試料調製オリゴヌクレオチドキット、ならびにマルチプレックス化配列決定プライマーおよびPhiX制御キット(例えば、それぞれ、Illuminaのカタログ番号PE-400~1001およびPE-400~1002)が挙げられる。
【0100】
核酸の配列決定を行う任意の適切な方法を使用することができ、それらの非限定的な例として、Maxim & Gilbert、鎖停止法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡法に基づく技法等、またはそれらの組合せが挙げられる。一部の実施形態では、本明細書に提供する方法では、第1世代の技術、例えば、サンガー配列決定法等(これらとして、マイクロ流体サンガー配列決定を含めた、自動化サンガー配列決定法が挙げられる)を使用することができる。一部の実施形態では、核酸の撮像技術(例えば、透過型電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の使用を含む配列決定技術を使用することができる。一部の実施形態では、高スループット配列決定法を使用する。高スループット配列決定法は一般に、DNA鋳型または単一のDNA分子をクローン的に増幅することを含み、これらの鋳型または分子の配列決定を、大規模に並行して、時にはフローセルの内部で行う。大規模に並行してDNAの配列決定を行うことが可能な次世代(例えば、第2世代および第3世代)の配列決定の技法を、本明細書に記載する方法のために使用することができ、本明細書では、これらをまとめて「大規模並行シークエンシング」(MPS)と呼ぶ。一部の実施形態では、MPSシークエンシングは、標的化のアプローチを利用し、この場合、特定の染色体、遺伝子、または目的の領域の配列決定を行う。ある特定の実施形態では、標的化しないアプローチを使用し、この場合、ランダムに、試料中のほとんどまたは全ての核酸の配列決定を行い、それらを増幅し、かつ/または捕捉する。
【0101】
一部の実施形態では、濃縮、増幅および/または配列決定の標的化アプローチを使用する。標的化のアプローチはしばしば、試料中の核酸のサブセットを単離、選択および/または濃縮して、配列特異的なオリゴヌクレオチドの使用によりさらなる処理を行う。一部の実施形態では、配列特異的なオリゴヌクレオチドのライブラリーを利用して、試料中の核酸の1つまたは複数のセットを標的にする(例えば、それらにハイブリダイズさせる)。しばしば、配列特異的なオリゴヌクレオチドおよび/またはプライマーに、目的の染色体、遺伝子、エクソン、イントロンおよび/または調節領域の1つまたは複数中に存在する特定の配列(例えば、ユニークな核酸配列)を選択させる。任意の適切な方法または方法の組合せを使用して、標的とされる核酸の1つまたは複数のサブセットの濃縮、増幅および/または配列決定を行うことができる。一部の実施形態では、標的とされる配列を、1つまたは複数の配列特異的アンカーを使用して固相(例えば、フローセル、ビーズ)に捕捉することにより単離および/または濃縮する。一部の実施形態では、配列特異的なプライマーおよび/またはプライマーセットを使用する、ポリメラーゼに基づく方法(例えば、ポリメラーゼに基づく任意の適切な伸長によるPCRに基づく方法)により、標的とされる配列を濃縮および/または増幅する。配列特異的アンカーはしばしば、配列特異的プライマーとして使用することができる。
【0102】
MPSシークエンシングは時には、合成による配列決定およびある特定の可視化処理を使用する。本明細書に記載する方法において使用することができる核酸の配列決定技術は、合成による配列決定および可逆的鎖停止ヌクレオチドに基づく配列決定(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ2000;HISEQ2500(Illumina、San Diego CA))である。この技術を用いれば、数百万個の核酸(例えば、DNA)断片に対して、並行して配列決定を行うことができる。このタイプの配列決定技術の1つの例では、8つの個々のレーンを有する光学的に透明なスライドを含有するフローセルを使用し、それらの表面上に、オリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合している。フローセルはしばしば、結合させた分析対象を保持し、かつ/または結合させた分析対象上を試薬溶液が整然と通過するのを可能にするように構成することができる固体の支持体である。フローセルは、多くの場合、平面形状をとり、光学的に透明であり、一般に、ミリメートルのまたはミリメートルを下回るスケールであり、しばしば、チャネルまたはレーンを有し、それらの中で、分析対象と試薬との相互作用が発生する。
【0103】
一部の実施形態では、合成による配列決定は、鋳型に導かれて、プライマーまたは既存の核酸鎖に、ヌクレオチドを反復して(例えば、共有結合性の付加により)付加することを含む。ヌクレオチドが反復付加される度に、検出を行い、核酸鎖の配列が得られるまで、この処理を複数回繰り返す。得られる配列の長さは一つには、実施される付加および検出のステップの数に依存する。合成による配列決定の一部の実施形態では、1回のヌクレオチド付加で、同じタイプ(例えば、A、G、CまたはT)の1、2、3つまたはそれ超のヌクレオチドを、付加し、検出する。ヌクレオチドは、任意の適切な(例えば、酵素または化学的)方法によりにより付加することができる。例えば、一部の実施形態では、ポリメラーゼまたはリガーゼが、鋳型に導かれて、プライマーまたは既存の核酸鎖にヌクレオチドを付加する。合成による配列決定の一部の実施形態では、異なるタイプのヌクレオチド、ヌクレオチド類似体および/または識別子を使用する。一部の実施形態では、可逆的鎖停止ヌクレオチドおよび/または除去可能(例えば、切断可能)な識別子を使用する。一部の実施形態では、蛍光標識されたヌクレオチドおよび/またはヌクレオチド類似体を使用する。ある特定の実施形態では、合成による配列決定は、切断(例えば、識別子の切断および除去)ならびに/または洗浄ステップを含む。一部の実施形態では、1つまたは複数のヌクレオチドの付加を、本明細書に記載するまたは当技術分野で公知である適切な方法により検出し、それらの非限定的な例として、任意の適切な撮像装置、適切なカメラ、デジタルカメラ、CCD(チャージカップリングデバイス)に基づく撮像装置(例えば、CCDカメラ)、CMOS(相補型金属酸化膜半導体(Complementary Metal Oxide Silicon))に基づく撮像装置(例えば、CMOSカメラ)、光ダイオード(例えば、光電子増倍管)、電子顕微鏡法、電界効果トランジスタ(例えば、DNA電界効果トランジスタ)、ISFETイオンセンサー(例えば、CHEMFETセンサー)等、またはそれらの組合せが挙げられる。本明細書の方法を実施するために使用することができるその他の配列決定法には、デジタルPCRおよびハイブリダイゼーションによる配列決定が含まれる。
【0104】
本明細書の方法を実施するために使用することができるその他の配列決定法には、デジタルPCRおよびハイブリダイゼーションによる配列決定が含まれる。デジタルポリメラーゼ連鎖反応(デジタルPCRまたはdPCR)を使用して、試料中の核酸の同定および定量化を直接行うことができる。一部の実施形態では、デジタルPCRを、エマルジョン中で行うことができる。例えば、個々の核酸を、例えば、マイクロ流体チャンバーデバイス中で分離し、それぞれの核酸を、PCRにより個々に増幅する。1個のウェル当たり1つの核酸のみが存在するように核酸を分離することができる。一部の実施形態では、異なるプローブを使用して、種々の対立遺伝子(例えば、胎仔の対立遺伝子と母体の対立遺伝子と)を区別することができる。対立遺伝子を数え上げて、コピー数を決定することができる。
【0105】
ある特定の実施形態では、ハイブリダイゼーションによる配列決定を使用することができる。この方法は、複数のポリヌクレオチド配列を、複数のポリヌクレオチドプローブと接触させるステップを含み、複数のポリヌクレオチドプローブのそれぞれを、基材に任意選択でつなぎ止めることができる。一部の実施形態では、基材は、既知のヌクレオチド配列のアレイを有する平らな表面であり得る。アレイへのハイブリダイゼーションのパターンを使用して、試料中に存在するポリヌクレオチド配列を決定することができる。一部の実施形態では、それぞれのプローブを、ビーズ、例えば、電磁ビーズ等につなぎ止める。ビーズへのハイブリダイゼーションを同定し、試料内の複数のポリヌクレオチド配列を同定するために使用することができる。
【0106】
一部の実施形態では、本明細書に記載する方法において、ナノポアシークエンシングを使用することができる。ナノポアシークエンシングは、単一分子の配列決定技術であり、それにより、単一の核酸分子(例えば、DNA)がナノポアを通過する度に、その配列を直接決定する。
【0107】
本明細書に記載する実施方法に適切なMPSの方法、システムまたは技術プラットフォームを使用して、核酸配列のリードを得ることができる。MPSプラットフォームの非限定的な例として、Illumina/Solex/HiSeq(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ2000;HISEQ)、SOLiD、Roche/454、PACBIOおよび/またはSMRT、Helicos True Single Molecule Sequencing、Ion Torrentおよびイオン半導体に基づく配列決定(例えば、Life Technologiesが開発したもの)、WildFire、5500、5500xl Wおよび/または5500xl W Genetic Analyzerに基づく技術(例えば、Life Technologiesが開発し、販売するもの、米国特許公報第US20130012399号);ポロニーシークエンシング、パイロシークエンシング、大規模並行シグネチャーシークエンシング(MPSS)、RNAポリメラーゼ(RNAP)シークエンシング、LaserGenのシステムおよび方法、ナノポアに基づくプラットフォーム、化学感応性電界効果トランジスタ(CHEMFET)アレイ、電子顕微鏡法に基づくシークエンシング(例えば、ZS Genetics、Halcyon Molecularが開発したもの)、ナノボールシークエンシング等、あるいはそれらの組合せが挙げられる。
【0108】
一部の実施形態では、染色体に特異的な配列決定を行う。一部の実施形態では、DANSR(選択された領域のデジタル分析)を利用して、染色体に特異的な配列決定を行う。PCR鋳型を形成するための、介在「ブリッジ」オリゴヌクレオチドを介する、2つの座位特異的オリゴヌクレオチドのcfDNAに依存するカテネーションにより、選択された領域のデジタル分析を行うことによって、数百個の座位を同時に定量化することが可能になる。一部の実施形態では、染色体に特異的な配列が濃縮されたライブラリーを生成することによって、染色体に特異的な配列決定を行う。一部の実施形態では、配列のリードを、選択された一連の染色体のみについて得る。一部の実施形態では、配列のリードを、第21、18および13染色体のみについて得る。一部の実施形態では、配列のリードを、参照ゲノムの全部またはゲノムのセグメントについて得、かつ/またはそれに対してマッピングする。
【0109】
一部の実施形態では、配列のリードを、配列モジュールにより生成、取得、収集、集積、操作、変換、処理、および/または提供する。配列モジュールを含む機械は、当技術分野で公知の配列決定技術を活用して核酸の配列を決定する適切な機械および/または装置であり得る。一部の実施形態では、配列決定モジュールは、整列、集積、断片化、補完、逆補完、および/またはエラーチェック(配列の読取をエラー修正)することができる。
【0110】
一部の実施形態では、試料から得られるヌクレオチド配列のリードは、部分的なヌクレオチド配列のリードである。本明細書において、「部分的なヌクレオチド配列のリード」は、配列の曖昧さとも呼ばれる不完全な配列情報を伴った任意の長さの配列のリードを指す。部分的なヌクレオチド配列のリードは、核酸塩基の同一性および/または核酸塩基の位置もしくは順序に関する情報を欠く場合がある。部分的なヌクレオチド配列のリードは一般に、不完全な配列情報のみ(または塩基の全て未満が配列決定もしくは決定されている)が不慮のまたは意図していない配列決定エラーに由来する配列のリードを含まない。このような配列決定エラーは、ある特定の配列決定処理に固有であり得、例えば、核酸塩基の同一性、および欠損したまたは余分の核酸塩基についての不正確な判定を含み得る。したがって、本明細書の部分的なヌクレオチド配列のリードについて、配列についてのある特定の情報はしばしば、慎重に除外される。すなわち、核酸塩基の全て未満に関する、または配列決定エラーとして別段に特徴付けられ得る、もしくはそれであり得る配列情報が慎重に得られる。一部の実施形態では、部分的なヌクレオチド配列のリードは、核酸断片の部分に広がり得る。一部の実施形態では、部分的なヌクレオチド配列のリードは、核酸断片の全長に広がり得る。部分的なヌクレオチド配列のリードは、例えば、その内容全体が全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている国際特許出願公開第WO2013/052907号に記載されている。
【0111】
リードのマッピング
配列のリードをマッピングすることができる。任意の適切なマッピングの方法(例えば、処理、アルゴリズム、プログラム、ソフトウェア、モジュール等、またはそれらの組合せ)を使用することができ、下記に、マッピング処理のある特定の態様を記載する。
【0112】
ヌクレオチド配列のリード(例えば、ゲノムの物理的な位置が不明である断片から得られた配列情報)のマッピングを、いくつかの方法で実施することができ、これはしばしば、得られた配列のリードの、参照ゲノム中の一致する配列とのアラインメントを含む。そのようなアラインメントでは、配列のリードを一般に、参照配列に対して整列させ、整列させたリードを、「マッピング」されている、「マッピングされた配列のリード」または「マッピングされたリード」と呼ぶ。
【0113】
本明細書で使用する場合、用語「整列させた(aligned)」、「アラインメント(alignment)」または「整列する(aligning)」により、一致(例えば、100%同一)または部分一致と同定され得る2つまたはそれ超の核酸配列について言及する。アラインメントは、手作業でまたはコンピュータ(例えば、ソフトウェア、プログラム、モジュールもしくはアルゴリズム)により行うことができ、それらの非限定的な例として、Illumina Genomics Analysisパイプラインの一部として流通されているEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムが挙げられる。配列のリードのアラインメントは、100%配列一致であり得る。場合によっては、アラインメントは、100%配列一致よりも低い(例えば、不完全一致、部分一致、部分アラインメント)。一部の実施形態では、アラインメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%または75%一致である。一部の実施形態では、アラインメントは、不一致を含む。一部の実施形態では、アラインメントは、1、2、3、4または5つの不一致を含む。2つまたはそれ超の配列は、いずれかの鎖を使用して整列させることができる。ある特定の実施形態では、核酸配列を、別の核酸配列の逆相補体と整列させる。
【0114】
種々の計算方法を使用して、配列のリードを参照ゲノムに対してマッピングおよび/または整列することができる。配列を整列させるために使用することができるコンピュータアルゴリズムの非限定的な例として、BLAST、BLITZ、FASTA、BOWTIE1、BOWTIE2、ELAND、MAQ、PROBEMATCH、SOAPもしくはSEQMAP、またはそれらの変更形態もしくはそれらの組合せが挙げられるが、これらに限定されない。一部の実施形態では、配列のリードを参照配列および/または参照ゲノム中の配列と整列することができる。一部の実施形態では、配列のリードを、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)およびDDBJ(DNA Databank of Japan)を含めた、当技術分野で公知の核酸のデータベース中に見出し、かつ/またはそれらの中の配列と整列させることができる。BLASTまたは類似のツールを使用して、同定された配列を配列データベースに照らして検索することができる。
【0115】
一部の実施形態では、マッピングされた配列のリードおよび/またはマッピングされた配列のリードと関連する情報は、適切なコンピュータ可読フォーマットの非一時的なコンピュータ可読ストレージメディア上に記憶させ、かつ/またはそこからアクセスされる。本明細書では、「コンピュータ可読フォーマット」は時には、大まかにフォーマットと呼ぶ。一部の実施形態では、マッピングされた配列のリードは、適切なバイナリフォーマット、テキストフォーマット等またはそれらの組合せで記憶させ、かつ/またはアクセスされる。バイナリフォーマットは時には、BAMフォーマットである。テキストフォーマットは時には、配列アラインメント/マップ(SAM)フォーマットである。バイナリフォーマットおよび/またはテキストフォーマットの非限定的な例として、BAM、SAM、SRF、FASTQ、Gzip等、またはそれらの組合せが挙げられる。一部の実施形態では、マッピングされた配列のリードは、従来のフォーマット(例えば、SAMフォーマットまたはBAMフォーマット)よりも少ない記憶空間(例えば、より少ないバイト)を必要とするフォーマットで記憶させ、かつ/またはそれに変換される。一部の実施形態では、第1のフォーマットのマッピングされた配列のリードは、第1のフォーマットよりも少ない記憶空間を必要とする第2のフォーマットに圧縮される。用語「圧縮される」は、本明細書で使用する場合、コンピュータ可読データファイルのサイズを低下させる、データ圧縮、情報源符号化および/またはビットレート削減の処理を指す。一部の実施形態では、マッピングされた配列のリードは、バイナリフォーマットのSAMフォーマットから圧縮される。ファイルを圧縮すると、いくつかのデータが時には失われる。時には、圧縮処理でデータは失われない。ファイル圧縮の一部の実施形態では、いくつかのデータは、マッピングされた配列のリードに関する情報を含む別のデータファイルへのインデックスおよび/またはリファレンスで置き換えられる。一部の実施形態では、マッピングされた配列のリードを、リードのカウント数、(例えば、リードがマッピングされる染色体を識別する)染色体の識別子、および(例えば、リードがマッピングされる染色体上の位置を識別する)染色体位置の識別子を含むまたはそれらからなるバイナリフォーマットで記憶させる。一部の実施形態では、バイナリフォーマットは、20バイト配列、16バイト配列、8バイト配列、4バイト配列または2バイト配列を含む。一部の実施形態では、マッピングされたリード情報を、10バイトフォーマット、9バイトフォーマット、8バイトフォーマット、7バイトフォーマット、6バイトフォーマット、5バイトフォーマット、4バイトフォーマット、3バイトフォーマットまたは2バイトフォーマットの配列で記憶させる。時には、マッピングされたリードデータを、5バイトフォーマットを含む4バイト配列で記憶させる。一部の実施形態では、バイナリフォーマットは、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットを含む。一部の実施形態では、マッピングされたリードを、配列アラインメント/マップ(SAM)フォーマットの約1/100、約1/90、約1/80、約1/70、約1/60、約1/55、約1/50、約1/45、約1/40または約1/30である圧縮されたバイナリフォーマットで記憶させる。一部の実施形態では、マッピングされたリードを、GZipフォーマットの約1/2~約1/50(例えば、約1/30、1/25、1/20、1/19、1/18、1/17、1/16、1/15、1/14、1/13、1/12、1/11、1/10、1/9、1/8、1/7、1/6または約1/5)である圧縮バイナリフォーマットで記憶させる。
【0116】
一部の実施形態では、システムは、圧縮モジュールを含む(例えば、
図10Aの4)。一部の実施形態では、コンピュータ可読フォーマットの非一時的なコンピュータ可読ストレージメディア上に記憶させたマッピングされた配列のリード情報を、圧縮モジュールにより圧縮する。圧縮モジュールは時には、マッピングされた配列のリードを、適切なフォーマットに変換したり、適切なフォーマットから変換したりする。一部の実施形態では、圧縮モジュールは、第1のフォーマットのマッピングされた配列のリードを受け取り(例えば、1)、これらを圧縮されたフォーマット(例えば、バイナリフォーマット、5)に変換し、圧縮されたリードを別のモジュール(例えば、偏り密度モジュール、6)に移すことができる。圧縮モジュールはしばしば、配列のリードをバイナリフォーマット、5(例えば、BReadsフォーマット)で提供する。圧縮モジュールの非限定的な例として、GZIP、BGZFおよびBAM等、またはそれらの改変形態が挙げられる。
以下に、javaを使用する、整数の4バイト配列への変換の例を示す。
【数1】
【0117】
一部の実施形態では、リードを、参照ゲノムに対してユニークまたは非ユニークにマッピングすることができる。参照ゲノム中の単一配列との整列の場合であれば、リードは、「ユニークにマッピングされる」とみなされる。参照ゲノム中の2つまたはそれ超の配列との整列の場合であれば、リードは、「非ユニークにマッピングされる」とみなされる。一部の実施形態では、非ユニークにマッピングされたリードは、さらなる分析(例えば、定量化)から排除される。ある特定の実施形態では、特定の、低い程度の不一致(0~1つ)は、参照ゲノムと、マッピングされている、個々の試料から得られたリードとの間に存在し得る一塩基多型であると説明することができる場合がある。一部の実施形態では、参照配列に対してマッピングされるリードには、いかなる程度の不一致も許されない。
【0118】
本明細書で使用する場合、用語「参照ゲノム」は、部分配列であれ、完全配列であれ、任意の生物またはウイルスの任意の特定の公知の配列決定されたまたは特徴付けられたゲノムであって、対象由来の同定された配列を参照するために使用することができるゲノムを指すことができる。参照ゲノムは時には、参照ゲノムのセグメント(例えば、染色体またはその一部、例えば、参照ゲノムの1つまたは複数の部分)を指す。ヒトゲノム、ヒトゲノムアセンブリー、および/または任意の他の生物に由来するゲノムを、参照ゲノムとして使用することができる。1つまたは複数のヒトゲノム、ヒトゲノムアセンブリー、および他の生物のゲノムを、www.ncbi.nlm.nih.govにおけるNational Center for Biotechnology Informationにおいて見出すことができる。「ゲノム」は、核酸配列として表される、生物またはウイルスの完全な遺伝情報を指す。本明細書で使用する場合、参照配列または参照ゲノムはしばしば、1つの個体または複数の個体から得られた、集められたまたは部分的に集められたゲノム配列である。一部の実施形態では、参照ゲノムは、1つまたは複数のヒト個体から得られた、集められたまたは部分的に集められたゲノム配列である。一部の実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。用語「参照配列」は、本明細書で使用する場合、1つまたは複数の参照試料の1つまたは複数のポリヌクレオチド配列を指す。一部の実施形態では、参照配列は、参照試料から得られる配列のリードを含む。一部の実施形態では、参照配列は、1つまたは複数の参照試料から得られる配列のリード、リードのアセンブリー、コンセンサスDNA配列(例えば、配列コンティグ)、リード密度、および/またはリード密度プロファイルを含む。参照試料から得られるリード密度プロファイルは時には、参照プロファイルと本明細書で呼ばれる。試験試料および/または試験対象から得られるリード密度プロファイルは、時には、試験プロファイルと本明細書で呼ばれる。一部の実施形態では、参照試料は、遺伝子の変異(例えば、問題の遺伝子の変異)を実質的に含まない参照対象から得られる。一部の実施形態では、参照試料は、既知の遺伝子の変異を含む参照対象から得られる。用語「参照」は、本明細書で使用する場合、参照ゲノム、参照配列、参照試料、および/または参照対象を指すことができる。
【0119】
ある特定の実施形態では、試料核酸が妊娠中の雌に由来する場合、参照配列が時には、胎仔にも、胎仔の母親にも、胎仔の父親にも由来せず、これを本明細書では「外部参照」と呼ぶ。一部の実施形態では、母体の参照を準備し、使用することができる。外部参照に基づいて、妊娠中の雌からの参照(「母体の参照配列」)を準備する場合、胎仔のDNAを実質的に含有しない、妊娠中の雌のDNAから得られたリードをしばしば、外部参照配列に対してマッピングし、集める。ある特定の実施形態では、外部参照は、妊娠中の雌と実質的に同じ民族性を有する個体のDNAに由来する。母体の参照配列は、母体のゲノムDNAを完全にはカバーしない場合があり(例えば、母体のゲノムDNAの約50%、60%、70%、80%、90%またはそれ超をカバーする場合がある)、母体の参照は、母体のゲノムDNA配列と完全には一致しない場合がある(例えば、母体の参照配列は、複数の不一致を含む場合がある)。
【0120】
ある特定の実施形態では、マッピング可能性を、ゲノム領域(例えば、部分、ゲノム部分)について評価する。マッピング可能性は、ヌクレオチド配列のリードを、参照ゲノムのある部分に対して、典型的には、例えば、0、1、2つまたはそれ超の不一致を含めた、特定の数の不一致が存在するだけで、明確に整列させることができることである。一部の実施形態では、マッピング可能性は、適切なマッピングアルゴリズムまたはコンピュータマッピングソフトウェアによって生成されるスコアまたは値として提供される。所与のゲノム領域について、事前にセットされた、リードの長さのスライディングウィンドウのアプローチを使用し、得られた、リードレベルのマッピング可能性の値を平均化して、予想されるマッピング可能性を推定することができる。ユニークなヌクレオチド配列のストレッチを含むゲノム領域が時には、高いマッピング可能性の値を有する。
【0121】
配列のリードは、マッピングモジュール、またはマッピングモジュールを含む機械によってマッピングすることができ、マッピングモジュールは一般に、参照ゲノムまたはそのセグメントに対するリードをマッピングする。マッピングモジュールは、当技術分野で公知の適切な方法によって配列のリードをマッピングすることができる。一部の実施形態では、マッピングモジュールまたはマッピングモジュールを含む機械は、マッピングされた配列のリードを提供することが要求される。
【0122】
カウント数
マッピングされた配列のリードを定量化して、参照ゲノムの領域または部分に対してマッピングされたリードの数を決定することができる。ある特定の実施形態では、参照ゲノム、またはその領域、部分、もしくはセグメントに対してマッピングするリードをカウント数と呼ぶ。一部の実施形態では、カウント数は、値を含む。ある特定の実施形態では、カウント数の値は、数学的処理により決定される。カウント数は、適切な方法、操作、または数学的処理によって決定することができる。ある特定の実施形態では、カウント数は、重み付け、除去、フィルターをかけること、正規化、調整、平均化、加算もしくは減算、またはそれらの組合せによる処理が行われる。ある特定の実施形態では、カウント数を、本明細書に記載または当技術分野で公知の適切な方法、演算、または数学的処理により処理または操作される配列のリードから誘導する。例えば、カウント数はしばしば、配列のリードに関連した1つまたは複数の偏りによって正規化および/または重み付けされる。一部の実施形態では、カウント数は、配列のリードに関連したGC偏りに従って正規化および/または重み付けされる。一部の実施形態では、カウント数を、配列の未処理のリードおよび/または配列の、フィルターをかけたリードから誘導する。一部の実施形態では、1つまたは複数のカウント数を数学的に操作しない。用語「未処理のカウント数(raw count)」および「未処理のカウント数(raw counts)」は、本明細書で使用する場合、数学的に操作されていない1つまたは複数のカウント数を指す。
【0123】
一部の実施形態では、カウント数を、参照ゲノム、またはその領域、部分、もしくはセグメントに対してマッピングされた配列のリードの一部または全部について決定する。ある特定の実施形態では、カウント数を、マッピングされた配列のリードのあらかじめ規定されたサブセットから決定する。マッピングされた配列のリードのあらかじめ規定されたサブセット(例えば、選択されたサブセット)は、任意の適切な特徴または変数を活用して定義または選択することができる。一部の実施形態では、マッピングされる配列のリードのあらかじめ定義されたサブセットは、1~n個の配列のリードを含むことができ、ここで、nは、試験対象または参照対象の試料から生成された全ての配列のリードの合計に等しい数を意味する。
【0124】
カウント数はしばしば、対象(例えば、試験対象)から得られた配列のリードから導出される。カウント数は、時には、胎仔を出産する妊娠中の雌に由来する核酸試料から得られる配列のリードから導出される。核酸配列のリードのカウント数はしばしば、胎仔および胎仔の母親の両方を表示する(例えば、妊娠中の雌の対象の)カウント数である。ある特定の実施形態では、対象が妊娠中の雌である場合、一部のカウント数は胎仔のゲノムに由来し、一部のカウント数は、母体のゲノムに由来する。
【0125】
リード密度
配列のリードのカウント数(例えば、重み付けされたカウント数)は、リード密度として表示される。リード密度はしばしば、ゲノムの1つまたは複数の部分について決定および/または生成される。ある特定の実施形態では、リード密度は、1つまたは複数の染色体について決定および/または生成される。一部の実施形態では、リード密度は、参照ゲノムの部分に対してマッピングされた配列のリードのカウント数の定量的な尺度を含む。リード密度は、適切な処理により決定することができる。一部の実施形態では、リード密度を、適切な分布および/または適切な分布関数によって決定する。分布関数の非限定的な例には、確率関数、確率分布関数、確率密度関数(PDF)、カーネル密度関数(カーネル密度推定)、累積分布関数、確率質量関数、離散確率分布、絶対連続一変量分布など、任意の適切な分布、またはそれらの組合せが含まれる。ある特定の実施形態では、PDFは、カーネル密度関数(カーネル密度推定)を含む。局所的なゲノムの偏りの推定値を生成するのに使用することができるカーネル密度関数の非限定的な例には、均一カーネル密度関数(均一カーネル)、ガウシアンカーネル密度関数(ガウシアンカーネル)、三角形カーネル密度関数(三角形カーネル)、バイウェイトカーネル密度関数(バイウェイトカーネル)、トリキューブカーネル密度関数(トリキューブカーネル)、トリウェイトカーネル密度関数(トリウェイトカーネル)、コサインカーネル関数(コサインカーネル)、Epanechnikovカーネル密度関数(Epanechnikovカーネル)、通常のカーネル密度関数(通常のカーネル)など、またはこれらの組合せが含まれる。リード密度はしばしば、適切な確率密度関数から導出される密度推定である。密度推定は、基礎確率密度関数の、観察データに基づく推定の構築である。一部の実施形態では、リード密度は、密度推定(例えば、確率密度推定、カーネル密度推定)を含む。密度推定はしばしば、カーネル密度推定を含む。一部の実施形態では、リード密度は、カーネル密度関数に従って決定されるカーネル密度推定値である。リード密度はしばしば、ゲノムの1つまたは複数の部分のそれぞれについて密度推定を生成するステップであって、各部分は、配列のリードのカウント数を含む、ステップを含む処理により生成される。リード密度はしばしば、部分に対してマッピングされた正規化および/または重み付けされたカウント数について生成される。一部の実施形態では、部分に対してマッピングされた各リードはしばしば、リード密度、本明細書に記載する正規化処理から得られるその重み付けに等しい値(例えば、カウント数)に寄与する。一部の実施形態では、1つまたは複数の部分についてのリード密度を調整する。リード密度は、適切な方法により調整することができる。例えば、1つまたは複数の部分についてのリード密度を重み付けおよび/または正規化することができる。
【0126】
一部の実施形態では、システムは、分布モジュール12を含む。分布モジュールはしばしば、ゲノムの部分(例えば、フィルタリングされた部分)についてのリード密度(例えば、22、24)を生成および/または提供する。分布モジュールは、1つまたは複数の参照試料、訓練セット(例えば、3)、および/または試験試料についてのリード密度、リード密度分布14、および/または不確定性の関連した尺度(例えば、MAD、クォンタイル)を提供することができる。分布モジュールは、配列のリード(例えば、1、3、5)および/またはカウント数(例えば、正規化されたカウント数11、重み付けされたカウント数)を受容、回収、および/または保管し得る。分布モジュールはしばしば、部分(例えば、フィルタリングされていないまたはフィルタリングされた部分)を受容(例えば、部分についてのユーザー入力およびユーザーパラメータ)、回収、生成、および/または保管する。時には、分布モジュールは、フィルタリングモジュール18から部分(例えば、フィルタリングされた部分および/または選択された部分20)を受容および/または回収する。一部の実施形態では、分布モジュールは、分布モジュールの関数を実施するコードおよび/もしくはソースコード(例えば、標準スクリプトもしくはカスタムスクリプトのコレクション)、ならびに/または1つもしくは複数のソフトウェアパッケージ(例えば、統計ソフトウェアパッケージ)の形態でのマイクロプロセッサのためのインストラクション(例えば、アルゴリズム、スクリプト)を含む。一部の実施形態では、分布モジュールは、適切なパッケージ(例えば、Sパッケージ、Rパッケージ)を活用するjava、S、またはRで書かれたコード(例えば、スクリプト)を含む。分布モジュールの非限定的な例を実施例2に提供する。
【0127】
一部の実施形態では、リード密度プロファイルを決定する。一部の実施形態では、リード密度プロファイルは、少なくとも1つのリード密度を含み、しばしば、2つまたはそれ超のリード密度を含む(例えば、リード密度プロファイルはしばしば、複数のリード密度を含む)。一部の実施形態では、リード密度プロファイルは、適切な定量的値(例えば、平均、中央値、Zスコアなど)を含む。リード密度プロファイルはしばしば、1つまたは複数のリード密度の結果として得られる値を含む。リード密度プロファイルは、1つまたは複数の調整(例えば、正規化)に基づくリード密度の1つまたは複数の操作の結果として得られる値を含む。一部の実施形態では、リード密度プロファイルは、操作されていないリード密度を含む。一部の実施形態では、1つまたは複数のリード密度プロファイルは、リード密度を含むデータセットまたはその派生形の多様な側面(例えば、当技術分野で公知であり、かつ/または本明細書に記載する、1つまたは複数の数学的データ処理ステップおよび/または統計学的データ処理ステップの成果)から生成される。ある特定の実施形態では、リード密度プロファイルは、正規化されたリード密度を含む。一部の実施形態では、リード密度プロファイルは、調整されたリード密度を含む。ある特定の実施形態では、リード密度プロファイルは、未処理のリード密度(例えば、操作されていない、調整もしくは正規化されていない)、正規化されたリード密度、重み付けされたリード密度、フィルタリングされた部分のリード密度、リード密度のZスコア、リード密度のp値、リード密度の整数値(例えば、曲線下面積)、リード密度の平均値、平均もしくは中央値、主成分など、またはそれらの組合せを含む。リード密度プロファイルのリード密度および/またはリード密度プロファイルは、不確定性の尺度(例えば、MAD)と関連することが多い。ある特定の実施形態では、リード密度プロファイルは、リード密度中央値の分布を含む。一部の実施形態では、リード密度プロファイルは、複数のリード密度の関係(例えば、適合させた関係、回帰など)を含む。例えば、時には、リード密度プロファイルは、リード密度(例えば、リード密度値)とゲノムの場所(例えば、部分、部分の場所)との関係を含む。一部の実施形態では、リード密度プロファイルは、静止したウィンドウ処理を使用して生成され、ある特定の実施形態では、リード密度プロファイルは、スライディングウィンドウ処理を使用して生成される。用語「密度リードプロファイル」は、本明細書で使用する場合、大量の配列のリードデータ中のパターンおよび/または相関の識別を促進することができる、リード密度の数学的操作および/または統計的操作の成果を指す。
【0128】
一部の実施形態では、リード密度プロファイルは、印刷および/またはディスプレイされる(例えば、視覚表示、例えば、プロットまたはグラフとしてディスプレイされる)。
【0129】
リード密度プロファイルはしばしば、複数のデータ点を含み、各データ点は、1つまたは複数のリード密度の定量的値を表示する。任意の適切な数のデータ点を、データセットの性格および/または複雑性に応じてリード密度プロファイルに組み入れることができる。ある特定の実施形態では、リード密度プロファイルは、2もしくはそれ超のデータ点、3もしくはそれ超のデータ点、5もしくはそれ超のデータ点、10もしくはそれ超のデータ点、24もしくはそれ超のデータ点、25もしくはそれ超のデータ点、50もしくはそれ超のデータ点、100もしくはそれ超のデータ点、500もしくはそれ超のデータ点、1000もしくはそれ超のデータ点、5000もしくはそれ超のデータ点、10,000もしくはそれ超のデータ点、100,000もしくはそれ超のデータ点、または1,000,000もしくはそれ超のデータ点を含み得る。一部の実施形態では、データ点は、1つまたは複数の部分に対してマッピングされた、またはそれに関連した配列のリードのカウント数の定量的値および/または推定値である。一部の実施形態では、リード密度プロファイル中のデータ点は、1つまたは複数の部分に対してマッピングされたカウント数のデータ操作の結果を含む。ある特定の実施形態では、データ点はしばしば、1つまたは複数のリード密度(例えば、平均リード密度)の定量的値および/または推定値である。リード密度プロファイルはしばしば、参照ゲノムの複数の部分に関連した、かつ/またはこれらに対してマッピングされた複数のリード密度を含む。一部の実施形態では、リード密度プロファイルは、2~約1,000,000の部分に由来するリード密度を含む。一部の実施形態では、2~約500,000、2~約100,000、2~約50,000、2~約40,000、2~約30,000、2~約20,000、2~約10,000、2~約5000、2~約2500、2~約1250、2~約1000、2~約500、2~約250、2~約100、または2~約60の部分に由来するリード密度が、リード密度プロファイルを決定する。一部の実施形態では、約10~約50の部分に由来するリード密度がリード密度プロファイルを決定する。
【0130】
一部の実施形態では、リード密度プロファイルは、一連の部分(例えば、参照ゲノムの一連の部分、染色体の一連の部分、または染色体のセグメントの部分のサブセット)に対応する。一部の実施形態では、リード密度プロファイルは、部分のコレクション(例えば、セット、サブセット)に関連したリード密度および/またはカウント数を含む。一部の実施形態では、リード密度プロファイルを、連続している部分のリード密度について決定する。一部の実施形態では、連続的な部分は、密度プロファイルに含まれない参照配列および/または配列のリードのセグメント(例えば、フィルタリングによって除去された部分)を含むギャップを含む。時には、連続した部分(例えば、一連の部分)は、ゲノムの隣接セグメントまたは染色体もしくは遺伝子の隣接セグメントを表示する。例えば、2つまたはそれ超の連続的な部分は、部分を末端から末端へと統合することにより整列させる場合、各部分より長いDNA配列の配列アセンブリーを表示する可能性がある。例えば、2つまたはそれ超の連続的な部分は、無傷ゲノム、染色体、遺伝子、イントロン、エクソン、またはそのセグメントを表示し得る。時には、リード密度プロファイルを、連続的な部分および/または非連続的な部分のコレクション(例えば、セット、サブセット)から決定する。一部の場合では、リード密度プロファイルは、1つまたは複数の部分であって、重み付けするか、除外するか、フィルタリングするか、正規化するか、調整するか、平均するか、平均として導出するか、加算するか、減算するか、処理するか、またはこれらの任意の組合せにより変換しうる部分を含む。
【0131】
一部の実施形態では、リード密度プロファイルは、遺伝子の変異を含むゲノムの部分についてのリード密度を含む。一部の実施形態では、リード密度プロファイルは、遺伝子の変異を含まないゲノムの部分(例えば、遺伝子の変異を実質的に含まないゲノムの部分)についてのリード密度を含む。ある特定の実施形態では、リード密度プロファイルは、遺伝子の変異を含むゲノムの部分についてのリード密度および遺伝子の変異を実質的に含まないゲノムの部分についてのリード密度を含む。
【0132】
リード密度プロファイルはしばしば、試料および/または参照(例えば、参照試料)について決定される。リード密度プロファイルは、時には、ゲノム全体、1つもしくは複数の染色体について、またはゲノムもしくは染色体の一部もしくはセグメントについて生成される。一部の実施形態では、1つまたは複数のリード密度プロファイルを、ゲノムまたはそのセグメントについて決定する。一部の実施形態では、リード密度プロファイルは、試料の一連のリード密度の全体の表示であり、ある特定の実施形態では、リード密度プロファイルは、試料のリード密度の一部またはサブセットの表示である。すなわち、リード密度プロファイルは、ある場合には、いかなるデータも除外するようにフィルタリングされていないデータを表示するリード密度を含むかまたはこれらから生成されており、リード密度プロファイルは、ある場合には、望ましくないデータを除外するようにフィルタリングされたデータを表示するデータ点を含むかまたはこれらから生成されている。
【0133】
一部の実施形態では、リード密度プロファイルを、参照(例えば、参照試料、訓練セット)について決定する。参照についてのリード密度プロファイルは、時には、参照プロファイルと本明細書で呼ばれる。一部の実施形態では、参照プロファイルは、1つまたは複数の参照(例えば、参照配列、参照試料)から得られるリード密度を含む。一部の実施形態では、参照プロファイルは、1つまたは複数の(例えば、一連の)公知の正倍数体試料について決定されたリード密度を含む。一部の実施形態では、参照プロファイルは、フィルタリングされた部分のリード密度を含む。一部の実施形態では、参照プロファイルは、1つまたは複数の主成分により調整されたリード密度を含む。
【0134】
一部の実施形態では、システムは、プロファイル生成モジュール(例えば、26)を含む。プロファイル生成モジュールはしばしば、リード密度(例えば、22、24)を受容、回収、および/または保管する。プロファイル生成モジュールは、別の適切なモジュール(例えば、分布モジュール)からリード密度(例えば、調整された、重み付けされた、正規化された、平均、平均化された、中央値、および/または積分されたリード密度)を受容および/または回収することができる。プロファイル生成モジュールは、適切な源(例えば、1つまたは複数の参照対象、訓練セット、1つまたは複数の試験対象など)からリード密度を受容および/または回収することができる。プロファイル生成モジュールはしばしば、別の適切なモジュール(例えば、PCA統計モジュール33、部分重み付けモジュール42、スコアリングモジュール46)、ならびに/またはユーザー(例えば、プロット、グラフ化および/もしくは印刷することによって)に対してリード密度プロファイル(例えば、32、30、28)を生成ならびに/または提供する。プロファイル生成モジュールの一例、またはその一部を実施例2に提供する。
【0135】
部分
一部の実施形態では、マッピングされた配列のリードおよび/またはカウント数を、種々のパラメータに従って、一緒にしてグループ化し、「部分(portions)」または「部分(a portion)」と本明細書で呼ばれる参照ゲノムの特定のセグメントおよび/または領域に割り当てる。一部の実施形態では、部分は、染色体全体、染色体のセグメント、参照ゲノムのセグメント、複数の染色体に広がるセグメント、複数の、染色体のセグメント、および/またはそれらの組合せである。一部の実施形態では、部分は、特定のパラメータ(例えば、所定の長さ、所定の間隔、所定のGC含有量、または任意の他の適切なパラメータ)に基づいてあらかじめ定義される。一部の実施形態では、部分は、ゲノムのパーティショニング(例えば、サイズ、GC含有量、近接領域、恣意的に定義されたサイズの近接領域等によるパーティショニング等)に基づいて恣意的に定義される。一部の実施形態では、部分は、例えば、配列の長さまたは1つもしくは複数の特定の特徴を含む、1つまたは複数のパラメータに基づいて描写される。一部の実施形態では、部分は、ゲノム配列の特定の長さに基づく。部分はおよそ同じ長さであってもよく、または部分は異なる長さであってもよい。一部の実施形態では、部分は、ほぼ等しい長さである。一部の実施形態では、異なる長さの部分を調整する、またはそれらに重み付けする。部分は、任意の適切な長さであり得る。一部の実施形態では、部分は、約10キロベース(kb)~約100kb、約20kb~約80kb、約30kb~約70kb、約40kb~約60kb、時には、約50kbである。一部の実施形態では、部分は、約10kb~約20kbである。部分は、配列の近接するランに限定されない。したがって、部分は、近接するおよび/または近接しない配列から構成され得る。
【0136】
一部の実施形態では、部分は、あらかじめ選択された数の塩基を含むウィンドウを含む。ウィンドウは、部分の長さによって決定される任意の適切な数の塩基を含み得る。一部の実施形態では、ゲノムまたはそのセグメントを、複数のウィンドウへとパーティショニングする。ゲノムの領域を包摂するウィンドウは、重複する場合もあり、重複しない場合もある。一部の実施形態では、互いから等距離にウィンドウを配置する。一部の実施形態では、互いから異なる距離にウィンドウを配置する。ある特定の実施形態では、ゲノムまたはそのセグメントを、ウィンドウを、ゲノムまたはそのセグメントにわたり徐々にスライドさせる、複数のスライディングウィンドウへとパーティショニングする。ウィンドウは、ゲノムにわたり、任意の適切なインクリメントで、または任意の数値パターンもしくは任意の無主題の規定配列に従ってスライドさせることもできる。一部の実施形態では、ウィンドウを、ゲノムまたはそのセグメントにわたり、約100,000bpもしくはそれ未満、約50,000bpもしくはそれ未満、約25,000bpもしくはそれ未満、約10,000bpもしくはそれ未満、約5,000bpもしくはそれ未満、約1,000bpもしくはそれ未満、約500bpもしくはそれ未満、または約100bpもしくはそれ未満のインクリメントでスライドさせる。例えば、ウィンドウは、約100,000bpを含む場合があり、50,000bpのインクリメント内でゲノムにわたりスライドさせてもよい。
【0137】
一部の実施形態では、部分は、目的の染色体、例えば、遺伝子の変異(例えば、第13、18および/もしくは21染色体、または性染色体の異数性)を評価する染色体等中の特定の染色体セグメントであり得る。部分は、単一の染色体に限定されない。一部の実施形態では、1つまたは複数の部分は、1つの染色体の全部もしくは一部、または2つもしくはそれ超の染色体の全部もしくは一部を含む。一部の実施形態では、1つまたは複数の部分は、1、2つまたはそれ超の染色体全体に広がり得る。さらに、部分は、複数の染色体のつながっているまたは散在する領域にも広がり得る。部分は、遺伝子、遺伝子の断片、調節配列、イントロン、エクソン等であり得る。
【0138】
一部の実施形態では、ゲノムのある特定の領域は、ゲノムまたはそのセグメントを部分へとパーティショニングする前にフィルタリングされる。ゲノムの領域は、任意の適切な方法を使用してパーティショニング処理から除外するために選択され得る。同様の領域(例えば、同一または相同領域または配列、例えば、反復領域)を含む領域は、除去および/またはフィルタリングされることが多い。時には、マッピングできない領域は、除外される。一部の実施形態では、ユニークな領域のみが保持される。パーティショニングする間に除去される領域は、単一の染色体に属する場合または複数の染色体に広がる場合がある。一部の実施形態では、パーティショニングされたゲノムを、より迅速なアラインメントのために、切り詰め、最適化して、しばしば、ユニークに同定することが可能な配列に焦点を当てるのを可能にする。一部の実施形態では、領域(例えば、染色体の限界を超える領域)へのゲノムのパーティショニングは、分類の文脈で生成される情報のゲインに基づき得る。例えば、正常と確認された対象群と異常と確認された対象群と(例えば、それぞれ、正倍数体の対象とトリソミーの対象と)を区別するための特定のゲノムの場所の有意性を測定するp値プロファイルを使用して、情報内容を定量化することができる。一部の実施形態では、領域(例えば、染色体の限界を超える領域)へのゲノムのパーティショニングは、任意のその他の判断基準、例えば、リードを整列させる際のスピード/利便性、GC含有量(例えば、高いもしくは低いGC含有量)、GC含有量の一様性、配列の含有量のその他の尺度(例えば、個々のヌクレオチドの割合、ピリミジンもしくはプリンの割合、天然核酸対非天然核酸の割合、メチル化ヌクレオチドの割合、およびCpG含有量)、メチル化状況、二重鎖の融解温度、配列決定もしくはPCRに対する従順性、参照ゲノムの個々の部分に割り当てられた不確実性の尺度、ならびに/または特定の特徴を標的とする検索などに基づき得る。
【0139】
ゲノムの「セグメント」は、時には、1つもしくは複数の染色体、または染色体の一部を含む領域である。「セグメント」は、典型的には、部分とは異なるゲノムの一部である。ゲノムおよび/または染色体の「セグメント」は、時には部分とは異なるゲノムまたは染色体の領域中にあり、時には部分とはポリヌクレオチドを共有せず、時には部分中にあるポリヌクレオチドを含む。ゲノムまたは染色体のセグメントは、しばしば部分よりも大きな数のヌクレオチドを含有し(例えば、セグメントは、時には1つまたは複数の部分を含む)、染色体のセグメントは、時には部分よりも小さな数のヌクレオチドを含有する(例えば、セグメントは、時には部分の内部にある)。
【0140】
部分のフィルタリング
ある特定の実施形態では、1つまたは複数の部分(例えば、ゲノム部分)を、フィルタリング処理により検討から除外する。ある特定の実施形態では、1つまたは複数の部分をフィルタリングし(例えば、フィルタリング処理にかけ)、これにより、フィルタリングされた部分を提示する。一部の実施形態では、フィルタリング処理により、ある特定の部分を除外し、部分(例えば、部分のサブセット)を保持する。本明細書では、フィルタリング処理の後で保持された部分を、フィルタリングされた部分と称することが多い。一部の実施形態では、参照ゲノム部分をフィルタリングする。一部の実施形態では、フィルタリング処理により除外された参照ゲノム部分は、遺伝子の変異(例えば、染色体の異数性)の存在または非存在の決定に含まれない。一部の実施形態では、参照ゲノム中の染色体の部分をフィルタリングする。一部の実施形態では、リード密度と関連する部分(例えば、リード密度が部分についてのリード密度である場合)は、フィルタリング処理により除外され、除外された部分と関連するリード密度は、遺伝子の変異(例えば、染色体の異数性)の存在または非存在の決定に含まれない。一部の実施形態では、リード密度プロファイルは、フィルタリングされた部分のリード密度を含み、かつ/またはこれからなる。部分は、任意の適切な基準および/または当技術分野で公知の方法もしくは本明細書で記載される方法を使用して、選択し、フィルタリングし、かつ/または検討から除外することができる。部分のフィルタリングに使用される基準の非限定的な例は、冗長データ(例えば、マッピングしたリードの冗長または重複)、情報のないデータ(例えば、マッピングしたカウント数がゼロである参照ゲノム部分)、過大表示されている配列または過小表示されている配列を有する参照ゲノム部分、GC含有量、ノイズデータ、マッピング可能性、カウント数、カウント数の可変性、リード密度、リード密度の可変性、不確定性の尺度、再現性の尺度など、または前出の組合せを含む。部分は、場合によって、カウント数の分布および/またはリード密度の分布に従ってフィルタリングされる。一部の実施形態では、部分を、カウント数および/またはリード密度が、1つまたは複数の参照試料から得られる場合の、カウント数の分布および/またはリード密度に従ってフィルタリングする。本明細書では、場合によって、1つまたは複数の参照試料を、訓練セットと称する。一部の実施形態では、部分を、カウント数および/またはリード密度が、1つまたは複数の試験試料から得られる場合の、カウント数の分布および/またはリード密度に従ってフィルタリングする。一部の実施形態では、部分を、リード密度分布についての不確定性の尺度に従ってフィルタリングする。ある特定の実施形態では、リード密度の大きな偏差を裏付ける部分を、フィルタリング処理により除外する。例えば、分布中の各リード密度が、同じ部分へとマッピングされる場合は、リード密度の分布(例えば、リード密度の平均値、リード密度の平均、またはリード密度の中央値の分布;例えば、
図5Aの分布)を決定することができる。ゲノムの各部分が、不確定性の尺度と関連する場合は、リード密度の分布を複数の試料について比較することにより、不確定性の尺度(例えば、MAD)を決定することができる。前出の例によれば、部分は、各部分と関連する不確定性の尺度(例えば、標準偏差(SD)、MAD)および所定の閾値に従ってフィルタリングすることができる。
図5Bは、部分についてのMAD値の分布であって、複数の試料についてのリード密度分布に従って決定される分布を示す。所定の閾値を、許容可能なMAD値の範囲を取り囲む垂直方向の破線で指し示す。
図5Bの例では、許容可能な範囲中のMAD値を含む部分を保持し、許容可能な範囲外のMAD値を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、前出の例に従って、所定の不確定性の尺度外のリード密度値(例えば、リード密度の中央値、平均値、または平均)を含む部分を、フィルタリング処理により検討から除外することが多い。一部の実施形態では、分布の四分位範囲外のリード密度値(例えば、リード密度の中央値、平均値、または平均)を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、分布の四分位範囲を2倍、3倍、4倍、または5倍を超えて外れるリード密度値を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、2シグマ、3シグマ、4シグマ、5シグマ、6シグマ、7シグマ、または8シグマ(例えば、シグマが、標準偏差により規定される範囲である場合)を超えて外れるリード密度値を含む部分を、フィルタリング処理により検討から除外する。
【0141】
一部の実施形態では、システムは、フィルタリングモジュール18を含む。フィルタリングモジュールは、部分(例えば、所定のサイズおよび/または重複の部分、参照ゲノム中の部分の位置)および部分と関連するリード密度であって、別の適切なモジュール(例えば、分布モジュール12)に由来することが多いリード密度を、受容、回収、および/または保存することが多い。一部の実施形態では、選択部分(例えば、20、例えば、フィルタリングされた部分)は、フィルタリングモジュールにより提示される。一部の実施形態では、フィルタリングモジュールは、フィルタリングされた部分を提示し、かつ/または部分を検討から除外するように要請される。ある特定の実施形態では、リード密度が除外された部分と関連する場合は、フィルタリングモジュールにより、リード密度を検討から除外する。フィルタリングモジュールは、選択部分(例えば、フィルタリングされた部分)を、別の適切なモジュール(例えば、分布モジュール21)へと提示することが多い。フィルタリングモジュールの非限定的な例を、実施例3に提示する。
【0142】
偏りの推定値
配列決定技術は、複数の偏り発生源に対して脆弱でありうる。場合によって、配列決定の偏りは、局所的な偏り(例えば、局所的なゲノムの偏り)である。局所的な偏りは、配列のリードのレベルで顕在化することが多い。局所的なゲノムの偏りは、任意の適切な局所的な偏りでありうる。局所的な偏りの非限定的な例は、配列の偏り(例えば、GCの偏り、ATの偏りなど)、DNアーゼI感度、エントロピー、反復配列の偏り、クロマチン構造の偏り、ポリメラーゼエラー率の偏り、回分配列の偏り、逆位リピートの偏り、PCR関連の偏りなど、またはこれらの組合せと相関する偏りを含む。一部の実施形態では、局所的な偏りの発生源は、決定されていないか、または公知ではない。
【0143】
一部の実施形態では、局所的なゲノムの偏りの推定値を決定する。本明細書では、場合によって、局所的なゲノムの偏りの推定値を、局所的なゲノムの偏りの推定と称する。局所的なゲノムの偏りの推定値は、参照ゲノム、そのセグメントまたは部分について決定することができる。ある特定の実施形態では、局所的なゲノムの偏りの推定値を、参照ゲノム中の1つまたは複数の染色体について決定する。一部の実施形態では、局所的なゲノムの偏りの推定値を、1つまたは複数の配列のリード(例えば、試料の一部または全部の配列のリード)について決定する。局所的なゲノムの偏りの推定値は、参照(例えば、参照ゲノム、参照ゲノム中の染色体)の対応する位置および/または地点についての局所的なゲノムの偏りの推定に従って、配列のリードについて決定することが多い。一部の実施形態では、局所的なゲノムの偏りの推定値は、配列(例えば、参照ゲノムの配列のリード、配列)の偏りの定量的尺度を含む。局所的なゲノムの偏りの推定は、適切な方法または数学的処理により決定することができる。一部の実施形態では、局所的なゲノムの偏りの推定値を、適切な分布および/または適切な分布関数(例えば、PDF)により決定する。一部の実施形態では、局所的なゲノムの偏りの推定値は、PDFの定量的表示を含む。一部の実施形態では、局所的なゲノムの偏りの推定値(例えば、確率密度推定(PDE:probability density estimation)、カーネル密度推定)を、局所的な偏りの含有量の確率密度関数(例えば、PDF:probability density function、例えば、カーネル密度関数)により決定する。一部の実施形態では、密度推定は、カーネル密度推定を含む。局所的なゲノムの偏りの推定値は、場合によって、分布の平均値、平均、または中央値として表す。場合によって、局所的なゲノムの偏りの推定値は、適切な分布の合計または積分(例えば、曲線下面積(AUC:area under a curve)として表す。
【0144】
PDF(例えば、カーネル密度関数、例えば、Epanechnikovカーネル密度関数)は、バンド幅変数(例えば、バンド幅)を含むことが多い。バンド幅変数は、PDFを使用する場合の確率密度推定値(PDE)を導出するウィンドウのサイズおよび/または長さを規定することが多い。PDEを導出するウィンドウは、規定された長さのポリヌクレオチドを含むことが多い。一部の実施形態では、PDEを導出するウィンドウは、部分である。部分(例えば、部分のサイズ、部分の長さ)は、バンド幅変数に従って決定することが多い。バンド幅変数により、局所的なゲノムの偏りの推定値を決定するのに使用されるウィンドウの長さまたはサイズであって、そこから局所的なゲノムの偏りの推定値を決定する、ポリヌクレオチドセグメントの長さ(例えば、ヌクレオチド塩基の連続的なセグメント)である、ウィンドウの長さまたはサイズを決定する。その非限定的な例が、約5塩基~約100,000塩基、約5塩基~約50,000塩基、約5塩基~約25,000塩基、約5塩基~約10,000塩基、約5塩基~約5,000塩基、約5塩基~約2,500塩基、約5塩基~約1000塩基、約5塩基~約500塩基、約5塩基~約250塩基、約20塩基~約250塩基などのバンド幅を含む、任意の適切なバンド幅を使用して、PDE(例えば、リード密度、局所的なゲノムの偏りの推定値(例えば、GC密度))を決定することができる。一部の実施形態では、局所的なゲノムの偏りの推定値(例えば、GC密度)は、約400塩基もしくはそれ未満、約350塩基もしくはそれ未満、約300塩基もしくはそれ未満、約250塩基もしくはそれ未満、約225塩基もしくはそれ未満、約200塩基もしくはそれ未満、約175塩基もしくはそれ未満、約150塩基もしくはそれ未満、約125塩基もしくはそれ未満、約100塩基もしくはそれ未満、約75塩基もしくはそれ未満、約50塩基もしくはそれ未満、または約25塩基もしくはそれ未満のバンド幅を使用して決定する。ある特定の実施形態では、局所的なゲノムの偏りの推定値(例えば、GC密度)は、所与の対象および/または試料について得られた配列のリードの平均値リード長さ、平均リード長さ、中央値リード長さ、または最大リード長さに従って決定されたバンド幅を使用して決定する。場合によって、局所的なゲノムの偏りの推定値(例えば、GC密度)は、所与の対象および/または試料について得られた配列のリードの平均値リード長さ、平均リード長さ、中央値リード長さ、または最大リード長さとほぼ等しいバンド幅を使用して決定する。一部の実施形態では、局所的なゲノムの偏りの推定値(例えば、GC密度)は、約250、240、230、220、210、200、190、180、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20、または約10塩基のバンド幅を使用して決定する。
【0145】
局所的なゲノムの偏りの推定値は、単一塩基分解で決定しうるが、局所的なゲノムの偏りの推定値(例えば、局所的なGC含有量)は、低分解度でも決定することができる。一部の実施形態では、局所的なゲノムの偏りの推定値を、局所的な偏りの含有量について決定する。局所的なゲノムの偏りの推定値(例えば、PDFを使用して決定される)は、ウィンドウを使用して決定することが多い。一部の実施形態では、局所的なゲノムの偏りの推定値は、あらかじめ選択された数の塩基を含むウィンドウの使用を含む。場合によって、ウィンドウは、連続的な塩基のセグメントを含む。場合によって、ウィンドウは、1つまたは複数の非連続的な塩基の部分を含む。場合によって、ウィンドウは、1つまたは複数の部分(例えば、ゲノム部分)を含む。ウィンドウのサイズまたは長さは、バンド幅により、かつ、PDFに従って決定することが多い。一部の実施形態では、ウィンドウは、バンド幅の長さの約10倍もしくはそれ超、8倍もしくはそれ超、7倍もしくはそれ超、6倍もしくはそれ超、5倍もしくはそれ超、4倍もしくはそれ超、3倍もしくはそれ超、または約2倍もしくはそれ超である。PDF(例えば、カーネル密度関数)を使用して、密度推定値を決定する場合、ウィンドウは、場合によって、選択されたバンド幅の長さの2倍である。ウィンドウは、任意の適切な数の塩基を含みうる。一部の実施形態では、ウィンドウは、約5塩基~約100,000塩基、約5塩基~約50,000塩基、約5塩基~約25,000塩基、約5塩基~約10,000塩基、約5塩基~約5,000塩基、約5塩基~約2,500塩基、約5塩基~約1000塩基、約5塩基~約500塩基、約5塩基~約250塩基、または約20塩基~約250塩基を含む。一部の実施形態では、ゲノムまたはそのセグメントを、複数のウィンドウへとパーティショニングする。ゲノムの領域を包摂するウィンドウは、重複する場合もあり、重複しない場合もある。一部の実施形態では、互いから等距離にウィンドウを配置する。一部の実施形態では、互いから異なる距離にウィンドウを配置する。ある特定の実施形態では、ゲノムまたはそのセグメントを、ウィンドウを、ゲノムまたはそのセグメントにわたり徐々にスライドさせる、複数のスライディングウィンドウへとパーティショニングする。各インクリメントの各ウィンドウは、局所的なゲノムの偏りの推定値(例えば、局所GC密度)を含む。ウィンドウは、ゲノムにわたり、任意の適切なインクリメントでスライドさせることもでき、任意の数値パターンに従ってスライドさせることもでき、任意の無主題の規定配列に従ってスライドさせることもできる。一部の実施形態では、局所的なゲノムの偏りの推定値を決定するために、ゲノムまたはそのセグメントにわたり、約10,000bpまたはそれ超、約5,000bpまたはそれ超、約2,500bpまたはそれ超、約1,000bpまたはそれ超、約750bpまたはそれ超、約500bpまたはそれ超、約400塩基またはそれ超、約250bpまたはそれ超、約100bpまたはそれ超、約50bpまたはそれ超、または約25bpまたはそれ超のインクリメントでウィンドウをスライドさせる。一部の実施形態では、局所的なゲノムの偏りの推定値を決定するために、ゲノムまたはそのセグメントにわたり、約25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2、または約1bpのインクリメントでウィンドウをスライドさせる。例えば、局所的なゲノムの偏りの推定値を決定するために、ウィンドウは、約400bp(例えば、200bpのバンド幅)を含むことが可能であり、1bpのインクリメントでゲノムにわたりスライドさせることができる。一部の実施形態では、カーネル密度関数および約200bpのバンド幅を使用して、局所的なゲノムの偏りの推定値を、ゲノム内またはそのセグメント中の各塩基について決定する。
【0146】
一部の実施形態では、局所的なゲノムの偏りの推定値は、局所的なGC含有量および/または局所的なGC含有量の表示である。本明細書で使用される「局所」という用語(例えば、局所的な偏り、局所的な偏りの推定値、局所的な偏りの含有量、局所的なゲノムの偏り、局所的なGC含有量などについて記載するのに使用される)は、10,000bpまたはそれ未満のポリヌクレオチドセグメントを指す。一部の実施形態では、「局所」という用語は、5000bpまたはそれ未満、4000bpまたはそれ未満、3000bpまたはそれ未満、2000bpまたはそれ未満、1000bpまたはそれ未満、500bpまたはそれ未満、250bpまたはそれ未満、200bpまたはそれ未満、175bpまたはそれ未満、150bpまたはそれ未満、100bpまたはそれ未満、75bpまたはそれ未満、または50bpまたはそれ未満のポリヌクレオチドセグメントを指す。局所的なGC含有量は、ゲノム、配列のリード、配列のリードアセンブリー(例えば、コンティグ、プロファイルなど)の局所セグメントについてのGC含有量の表示(例えば、数学的表示、定量的表示)であることが多い。例えば、局所的なGC含有量は、局所的なGCの偏りの推定値の場合もあり、局所的なGC密度の場合もある。
【0147】
1つまたは複数のGC密度は、参照または試料(例えば、試験試料)のポリヌクレオチドについて決定することが多い。一部の実施形態では、GC密度は、局所的なGC含有量(例えば、5000bpまたはそれ未満のポリヌクレオチドセグメントについての)の表示(例えば、数学的表示、定量的表示)である。一部の実施形態では、GC密度は、局所的なゲノムの偏りの推定値である。GC密度は、本明細書で記載される適切な処理および/または当技術分野で公知の適切な処理を使用して決定することができる。GC密度は、適切なPDF(例えば、カーネル密度関数(例えば、Epanechnikovカーネル密度関数、例えば、
図1を参照されたい))を使用して決定することができる。一部の実施形態では、GC密度は、PDE(例えば、カーネル密度推定)である。ある特定の実施形態では、GC密度は、1つまたは複数のグアニン(G)ヌクレオチドおよび/またはシトシン(C)ヌクレオチドの存在または非存在により規定する。逆に、一部の実施形態では、GC密度は、1つまたは複数のアデニン(A)ヌクレオチドおよび/またはチミジン(T)ヌクレオチドの存在または非存在により規定することもできる。一部の実施形態では、局所的なGC含有量についてのGC密度を、全ゲノムまたはそのセグメント(例えば、常染色体、染色体のセット、単一の染色体、遺伝子;例えば、
図2を参照されたい)について決定されたGC密度に従って正規化する。1つまたは複数のGC密度は、試料(例えば、試験試料)または参照試料のポリヌクレオチドについて決定することができる。GC密度は、参照ゲノムについて決定することが多い。一部の実施形態では、GC密度を、参照ゲノムに従って、配列のリードについて決定する。リードのGC密度は、リードがマッピングされる参照ゲノムの対応する位置および/または地点について決定されたGC密度に従って決定することが多い。一部の実施形態では、参照ゲノム上の位置について決定されたGC密度を、リードについて割り当て、かつ/または提示するが、ここで、リードまたはそのセグメントは、同じ参照ゲノム上の位置へとマッピングされる。任意の適切な方法を使用して、リードについてのGC密度を生成する目的で、参照ゲノム上にマッピングしたリードの位置を決定することができる。一部の実施形態では、マッピングしたリードの中央値地点により、参照ゲノム上の位置であって、それに由来するリードについてのGC密度を決定する位置が決定される。例えば、リードの中央値地点が、参照ゲノムの塩基番号xにおける第12染色体へとマッピングされる場合、リードのGC密度は、参照ゲノムの塩基番号xまたはその近傍における第12染色体上に位置する地点についてのカーネル密度推定により決定されるGC密度として提示されることが多い。一部の実施形態では、GC密度を、参照ゲノムに従った、リードの一部または全部の塩基地点について決定する。場合によって、リードのGC密度は、参照ゲノム上の複数の塩基地点について決定された、2つまたはそれ超のGC密度の平均値、合計、中央値、または積分を含む。
【0148】
一部の実施形態では、局所的なゲノムの偏りの推定(例えば、GC密度)は、値として定量化および/または提示される。局所的なゲノムの偏りの推定(例えば、GC密度)は、場合によって、平均値、平均、および/または中央値として表される。局所的なゲノムの偏りの推定(例えば、GC密度)は、場合によって、PDEの最大ピーク高さとして表される。場合によって、局所的なゲノムの偏りの推定(例えば、GC密度)は、適切なPDEの合計または積分(例えば、曲線下面積(AUC))として表される。一部の実施形態では、GC密度は、カーネル重みを含む。ある特定の実施形態では、リードのGC密度は、カーネル重みの平均値、平均、合計、中央値、最大ピーク高さ、または積分とほぼ等しい値を含む。
【0149】
偏り頻度
偏り頻度は、場合によって、1つまたは複数の局所的なゲノムの偏りの推定値(例えば、GC密度)に従って決定される。偏り頻度は、場合によって、試料、参照(例えば、参照ゲノム、参照配列、参照ゲノム中の染色体)、またはこれらの一部についての局所的なゲノムの偏りの推定値の発生数のカウント数または合計である。偏り頻度は、場合によって、試料、参照、またはこれらの一部についての、局所的なゲノムの偏りの推定値(例えば、各局所的なゲノムの偏りの推定値)の発生数のカウント数または合計である。一部の実施形態では、偏り頻度は、GC密度頻度である。GC密度頻度は、1つまたは複数のGC密度に従って決定することが多い。例えば、GC密度頻度は、値xのGC密度が全ゲノムまたはそのセグメントにわたり表示される回数を表示しうる。偏り頻度は、局所的なゲノムの偏りの推定値の分布であることが多く、ここで、各局所的なゲノムの偏りの推定値の発生数は、偏り頻度として表示される(例えば、
図3を参照されたい)。偏り頻度は、場合によって、数学的に操作および/または正規化される。偏り頻度は、適切な方法により数学的に操作および/または正規化することができる。一部の実施形態では、偏り頻度を、試料、参照、またはこれらの一部についての、各局所的なゲノムの偏りの推定値(例えば、常染色体、染色体のサブセット、単一の染色体、またはこれらのリード)の表示(例えば、フラクション、百分率)に従って正規化する。偏り頻度は、試料または参照の、一部または全部の局所的なゲノムの偏りの推定値について決定することができる。一部の実施形態では、偏り頻度は、試験試料の、一部または全部の配列のリードについての、局所的なゲノムの偏りの推定値について決定することができる。
【0150】
一部の実施形態では、システムは、偏り密度モジュール6を含む。偏り密度モジュールは、マッピングした配列のリード5および参照配列2を、任意の適切なフォーマットで受容、回収、および/または保存し、局所的なゲノムの偏りの推定値、局所的なゲノムの偏り分布、偏り頻度、GC密度、GC密度分布、および/またはGC密度頻度(併せて、ボックス7により表示された)を生成することが可能である。一部の実施形態では、偏り密度モジュールにより、データおよび/または情報(例えば、7)を、別の適切なモジュール(例えば、関係モジュール8)へと転送する。
【0151】
関係
一部の実施形態では、1つまたは複数の関係を、局所的なゲノムの偏りの推定値と、偏り頻度との間で生成する。本明細書で使用される「関係」という用語は、2つまたはそれ超の変数または値の間の数学的関係および/またはグラフ的関係を指す。関係は、適切な数学的処理および/またはグラフ的処理により生成することができる。関係の非限定的な例は、関数、相関、分布、線形式または非線形式、直線、回帰、適合させた回帰など、またはこれらの組合せの数学的表示および/またはグラフ表示を含む。場合によって、関係は、適合させた関係を含む。一部の実施形態では、適合させた関係は、適合させた回帰を含む。場合によって、関係は、2つまたはそれ超の変数または値であって、重み付き変数または重み付き値を含む。一部の実施形態では、関係は、適合させた回帰を含み、ここで、関係の1つまたは複数の変数または値が重み付けされている。場合によって、回帰は、重み付き様式で適合させる。場合によって、回帰は、重み付けされずに適合させる。ある特定の実施形態では、関係の生成は、プロッティングまたはグラフ作成を含む。
【0152】
一部の実施形態では、適切な関係を、局所的なゲノムの偏りの推定値と、偏り頻度との間で決定する。一部の実施形態では、試料についての(i)局所的なゲノムの偏りの推定値と、(ii)偏り頻度との関係を生成することにより、試料偏り関係を提示する。一部の実施形態では、参照についての(i)局所的なゲノムの偏りの推定値と、(ii)偏り頻度との関係を生成することにより、参照偏り関係を提示する。ある特定の実施形態では、関係を、GC密度とGC密度頻度との間で生成する。一部の実施形態では、試料についての(i)GC密度と、(ii)GC密度頻度との関係を生成することにより、試料GC密度関係を提示する。一部の実施形態では、参照についての(i)GC密度と、(ii)GC密度頻度との関係を生成することにより、参照GC密度関係を提示する。一部の実施形態では、局所的なゲノムの偏りの推定値がGC密度である場合、試料偏り関係は、試料GC密度関係であり、参照偏り関係は、参照GC密度関係である。参照GC密度関係および/または試料GC密度関係のGC密度は、局所的なGC含有量についての表示(例えば、数学的表示または定量的表示)であることが多い。一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、分布を含む。一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、適合させた関係(例えば、適合させた回帰)を含む。一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、線形適合回帰または非線形適合回帰(例えば、多項式回帰)を含む。ある特定の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、重み付き関係を含み、ここで、局所的なゲノムの偏りの推定値および/または偏り頻度は、適切な処理により重み付けされる。一部の実施形態では、重み付き適合させた関係(例えば、重み付き適合)は、四分位回帰、パラメータ付きの確率分布、または補間を有する経験的分布を含む処理により得ることができる。ある特定の実施形態では、試験試料、参照、またはこれらの一部についての、局所的なゲノムの偏りの推定値と偏り頻度との関係は、多項式回帰を含み、局所的なゲノムの偏りの推定値は、重み付けされている。一部の実施形態では、重み付き適合モデルは、分布値を重み付けすることを含む。分布値は、適切な処理により重み付けすることができる。一部の実施形態では、分布のテールの近傍に位置する値には、分布の中央値に近い値より小さな重みを施す。例えば、局所的なゲノムの偏りの推定値(例えば、GC密度)と、偏り頻度(例えば、GC密度頻度)との分布については、重みを、所与の局所的なゲノムの偏りの推定値についての偏り頻度に従って決定し、ここで、分布の平均に近接した偏り頻度を含む局所的なゲノムの偏りの推定値には、平均から遠い偏り頻度を含む局所的なゲノムの偏りの推定値より大きな重みを施す。
【0153】
一部の実施形態では、システムは、関係モジュール8を含む。関係モジュールにより、関係のほか、関係を規定する関数、係数、定数、および変数を生成することができる。関係モジュールにより、データおよび/または情報(例えば、7)を、適切なモジュール(例えば、偏り密度モジュール6)から受容、保存、および/または回収し、関係を生成することができる。関係モジュールにより、局所的なゲノムの偏りの推定値の分布を生成および比較することが多い。関係モジュールにより、データセットを比較し、場合によって、回帰および/または適合させた関係を生成することができる。一部の実施形態では、関係モジュールにより、1つまたは複数の分布(例えば、試料および/または参照の局所的なゲノムの偏りの推定値の分布)を比較し、配列のリードのカウント数についての重み付け係数および/または重み割当て9を、別の適切なモジュール(例えば、偏り補正モジュール)へと提示する。場合によって、関係モジュールにより、正規化された配列のリードのカウント数を、分布モジュール21へと直接提示し、ここで、カウント数を、関係および/または比較に従って正規化する。
【0154】
比較の生成およびその使用
一部の実施形態では、配列のリード中の局所的な偏りを低減するための処理は、配列のリードのカウント数を正規化することを含む。配列のリードのカウント数は、試験試料の参照との比較に従って正規化されることが多い。例えば、場合によって、配列のリードのカウント数は、試験試料の配列のリードの局所的なゲノムの偏りの推定値を、参照(例えば、参照ゲノムまたはその一部)の局所的なゲノムの偏りの推定値と比較することにより正規化する。一部の実施形態では、配列のリードのカウント数は、試験試料の局所的なゲノムの偏りの推定値の偏り頻度を、参照の局所的なゲノムの偏りの推定値の偏り頻度と比較することにより正規化する。一部の実施形態では、配列のリードのカウント数は、試料偏り関係と参照偏り関係とを比較することにより正規化し、これにより、比較を生成する。
【0155】
配列のリードのカウント数は、2つまたはそれ超の関係の比較に従って正規化されることが多い。ある特定の実施形態では、2つまたはそれ超の関係について比較し、これにより、配列のリード中の局所的な偏りを低減する(例えば、カウント数を正規化する)ために使用される比較を提示する。適切な方法により、2つまたはそれ超の関係について比較することができる。一部の実施形態では、比較は、第1の関係に第2の関係を加算すること、第1の関係から第2の関係を減算すること、第1の関係に第2の関係を乗算すること、および/または第1の関係を第2の関係で除算することを含む。ある特定の実施形態では、2つまたはそれ超の関係の比較は、適切な線形回帰および/または非線形回帰の使用を含む。ある特定の実施形態では、2つまたはそれ超の関係の比較は、適切な多項式回帰(例えば、三次多項式回帰)を含む。一部の実施形態では、比較は、第1の回帰に第2の回帰を加算すること、第1の回帰から第2の回帰を減算すること、第1の回帰に第2の回帰を乗算すること、および/または第1の回帰を第2の回帰で除算することを含む。一部の実施形態では、2つまたはそれ超の関係について、多重回帰の推論フレームワークを含む処理により比較する。一部の実施形態では、2つまたはそれ超の関係について、適切な多変量分析を含む処理により比較する。一部の実施形態では、2つまたはそれ超の関係について、基底関数(例えば、ブレンディング関数、例えば、多項式基底、フーリエ基底など)、スプライン、放射基底関数、および/またはウェーブレットを含む処理により比較する。
【0156】
ある特定の実施形態では、試験試料および参照についての偏り頻度を含む、局所的なゲノムの偏りの推定値の分布を、多項式回帰を含む処理により比較するが、ここで、局所的なゲノムの偏りの推定値は、重み付けされている。一部の実施形態では、多項式回帰を、(i)比の各々が、参照の局所的なゲノムの偏りの推定値の偏り頻度および試料の局所的なゲノムの偏りの推定値の偏り頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との間で生成する。一部の実施形態では、多項式回帰を、(i)参照の局所的なゲノムの偏りの推定値の偏り頻度の、試料の局所的なゲノムの偏りの推定値の偏り頻度に対する比と、(ii)局所的なゲノムの偏りの推定値との間で生成する。一部の実施形態では、試験試料および参照のリードについての局所的なゲノムの偏りの推定値の分布の比較は、参照および試料についての、局所的なゲノムの偏りの推定値の偏り頻度の対数比(例えば、log
2比)を決定することを含む。一部の実施形態では、局所的なゲノムの偏りの推定値の分布の比較は、参照についての、局所的なゲノムの偏りの推定値の偏り頻度の対数比(例えば、log
2比)を、試料についての局所的なゲノムの偏りの推定値の偏り頻度の対数比(例えば、log
2比)で除算することを含む(例えば、実施例1および
図4を参照されたい)。
【0157】
比較に従ったカウント数を正規化することでは、あるカウント数は調整されるが、他のカウント数は調整されないことが典型的である。カウント数を正規化することでは、ある場合には、全カウント数が調整され、ある場合には、いかなる配列のリードのカウント数も調整されない。配列のリードについてのカウント数は、ある場合には、重み付け係数を決定することを含む処理により正規化し、ある場合には、処理は、重み付け係数の直接的な生成および活用を含まない。比較に従ったカウント数を正規化することは、場合によって、各配列のリードのカウント数についての重み付け係数を決定することを含む。重み付け係数は、配列のリードに特異的であり、特異的配列のリードのカウント数へと適用されることが多い。重み付け係数は、2つまたはそれ超の偏り関係の比較(例えば、参照偏り関係と比較した試料偏り関係)に従って決定することが多い。正規化されたカウント数は、カウント数値を、重み付け係数に従って調整することにより決定することが多い。重み付け係数に従ったカウント数の調整は、場合によって、配列のリードについてのカウント数に重み付け係数を加算すること、配列のリードについてのカウント数から重み付け係数を減算すること、配列のリードについてのカウント数に重み付け係数を乗算すること、および/または配列のリードについてのカウント数を重み付け係数で除算することを含む。重み付け係数および/または正規化されたカウント数は、場合によって、回帰(例えば、回帰直線)から決定する。正規化されたカウント数は、場合によって、参照の局所的なゲノムの偏りの推定値の偏り頻度(例えば、参照ゲノム、参照ゲノム中の染色体)と、試験試料の局所的なゲノムの偏りの推定値の偏り頻度との比較の結果として得られる、回帰直線(例えば、適合させた回帰直線)から直接得る。一部の実施形態では、試料のリードの各カウント数を、(i)リードの局所的なゲノムの偏りの推定値の偏り頻度の、(ii)参照の局所的なゲノムの偏りの推定値の偏り頻度と比較した比較に従って、正規化されたカウント数値として提示する。ある特定の実施形態では、試料について得られる配列のリードのカウント数を正規化し、配列のリード中の偏りを低減する。
【0158】
場合によって、システムは、偏り補正モジュール10を含む。一部の実施形態では、偏り補正モジュールの機能は、関係モデル化モジュール8により果たされる。偏り補正モジュールにより、マッピングした配列のリードおよび重み付け係数(例えば、9)を、適切なモジュール(例えば、関係モジュール8、圧縮モジュール4)から受容、回収、および/または保存することができる。一部の実施形態では、偏り補正モジュールにより、マッピングしたリードへとカウント数を提示する。一部の実施形態では、偏り補正モジュールにより、重み割当ておよび/または偏り補正因子を、配列のリードのカウント数へと適用し、これにより、正規化および/または調整されたカウント数を提示する。偏り補正モジュールにより、正規化されたカウント数を、別の適切なモジュール(例えば、分布モジュール21)へと提示することが多い。
【0159】
ある特定の実施形態では、カウント数を正規化することは、GC密度に加えた、1つまたは複数の特徴を因子分解することと、配列のリードのカウント数を正規化することとを含む。ある特定の実施形態では、カウント数を正規化することは、1つまたは複数の異なる局所的なゲノムの偏りの推定値を因子分解することと、配列のリードのカウント数を正規化することとを含む。ある特定の実施形態では、配列のリードのカウント数を、1つまたは複数の特徴(例えば、1つまたは複数の偏り)に従って決定された重み付けに従って重み付けする。一部の実施形態では、カウント数を、1つまたは複数の組み合わされた重みに従って正規化する。場合によって、1つまたは複数の組み合わされた重みに従って、1つまたは複数の特徴を因子分解することおよび/またはカウント数を正規化することは、多変量モデルの使用を含む処理を介する。任意の適切な多変量モデルを使用して、カウント数を正規化することができる。多変量モデルの非限定的な例は、多変量線形回帰、多変量四分位回帰、経験データの多変量補間、非線形多変量モデルなど、またはこれらの組合せを含む。
【0160】
一部の実施形態では、システムは、多変量補正モジュール13を含む。多変量補正モジュールは、偏り密度モジュール6、関係モジュール8、および/または偏り補正モジュール10の機能を、複数回にわたり果たし、これにより、複数の偏りについてのカウント数を調整することができる。一部の実施形態では、多変量補正モジュールは、1つまたは複数の偏り密度モジュール6、関係モジュール8、および/または偏り補正モジュール10を含む。場合によって、多変量補正モジュールにより、正規化されたカウント数11を、別の適切なモジュールへと提示する(例えば、分布モジュール21)。
【0161】
重み付き部分
一部の実施形態では、部分を、重み付けする。一部の実施形態では、1つまたは複数の部分を、重み付けし、これにより、重み付き部分を提示する。重み付き部分は、場合によって、部分依存性を除去する。部分は、適切な処理により重み付けすることができる。一部の実施形態では、1つまたは複数の部分を、固有関数(eigen function(またはeigenfunction))により重み付けする。一部の実施形態では、固有関数は、部分を直交固有部分により置き換えることを含む。一部の実施形態では、システムは、部分重み付けモジュール42を含む。一部の実施形態では、重み付けモジュールにより、リード密度、リード密度プロファイル、および/または調整されたリード密度プロファイルを受容、回収、および/または保存する。一部の実施形態では、重み付き部分を、部分重み付けモジュールにより提示する。一部の実施形態では、重み付けモジュールは、部分を重み付けするように要請される。重み付けモジュールでは、当技術分野で公知であるかまたは本明細書で記載される1つまたは複数の重み付け法により、部分を重み付けすることができる。重み付けモジュールにより、重み付き部分を、別の適切なモジュール(例えば、スコアリングモジュール46、PCA統計モジュール33、プロファイル生成モジュール26など)へと提示することが多い。
【0162】
主成分分析
一部の実施形態では、リード密度プロファイル(例えば、試験試料(例えば、
図7A)のリード密度プロファイル)を、主成分分析(PCA:principal component analysis)に従って調整する。1もしくは複数の参照試料のリード密度プロファイルおよび/または試験対象のリード密度プロファイルは、PCAに従って調整することができる。ゲノム、ゲノムの一部、染色体、または染色体のセグメントについてのリード密度プロファイルは、PCAにより調整することができる。本明細書では、場合によって、PCA関連処理を介する、リード密度プロファイルからの偏りの除去を、プロファイルの調整と称する。PCAは、適切なPCA法またはその変化形により実施することができる。PCA法の非限定的な例は、カノニカル相関分析(CCA)、KL(Karhunen-Loeve)変換(KLT)、ホテリング変換、固有直交分解(POD)、Xの特異値分解(SVD)、XTXの固有値分解(EVD)、因子分析、エッカートヤングの定理、シュミットミルスキーの定理、経験的直交関数(EOF)、経験的固有関数分解、経験的成分分析、準調和モード、スペクトル分解、経験的モード分析など、これらの変化形または組合せを含む。PCAにより、リード密度プロファイル中の1つまたは複数の偏りを同定することが多い。本明細書では、場合によって、PCAにより同定された偏りを、主成分と称する。一部の実施形態では、適切な方法を使用して、1つまたは複数の主成分に従ってリード密度プロファイルを調整することにより、1つまたは複数の偏りを除外することができる。リード密度プロファイルは、リード密度プロファイルに1つまたは複数の主成分を加算すること、リード密度プロファイルから1つまたは複数の主成分を減算すること、リード密度プロファイルに1つまたは複数の主成分を乗算すること、および/またはリード密度プロファイルを1つまたは複数の主成分で除算することにより調整することができる。一部の実施形態では、1つまたは複数の主成分を、リード密度プロファイルから減算することにより、1つまたは複数の偏りを、リード密度プロファイルから除外することができる。リード密度プロファイル中の偏りは、プロファイルのPCAにより同定および/または定量化されることが多いが、主成分は、リード密度のレベルでプロファイルから減算されることが多い。プロファイルのPCAにより同定および/または定量化されるリード密度プロファイルの偏りまたは特徴には、これらに限定されないが、胎仔の性別、配列の偏り(例えば、グアニンおよびシトシン(GC)の偏り)、胎仔フラクション、DNアーゼI感度に相関した偏り、エントロピー、反復配列の偏り、クロマチン構造の偏り、ポリメラーゼエラー率の偏り、回分配列の偏り、逆位リピートの偏り、PCR増幅の偏り、ならびに隠れたコピー数の変異が含まれる。
【0163】
PCAにより、1つまたは複数の主成分を同定することが多い。一部の実施形態では、PCAにより、第1、第2、第3、第4、第5、第6、第7、第8、第9、および第10、またはそれ超の順位の主成分を同定する。ある特定の実施形態では、1、2、3、4、5、6、7、8、9、10またはそれ超の主成分を使用して、プロファイルを調整する。ある特定の実施形態では、プロファイルを調整するのに5つの主成分を使用する。主成分は、PCA中のそれらの出現の順序でプロファイルを調整するのに使用することが多い。例えば、3つの主成分を、リード密度プロファイルから減算する場合、第1、第2、および第3の主成分を使用する。場合によって、主成分により同定される偏りは、プロファイルの特徴であって、プロファイルを調整するのに使用されない特徴を含む。例えば、PCAにより、主成分としての遺伝子の変異(例えば、異数性、欠失、転位、挿入)および/または性差(例えば、
図6Cで見られる)を同定し得る。したがって、一部の実施形態では、1つまたは複数の主成分は、プロファイルを調整するのに使用されない。例えば、場合によって、第1、第2、および第4の主成分を使用して、プロファイルを調整するが、ここで、第3の主成分は、プロファイルを調整するのに使用されない。主成分は、任意の適切な試料または参照を使用して、PCAから得ることができる。一部の実施形態では、主成分を、試験試料(例えば、試験対象)から得る。一部の実施形態では、主成分を、1つまたは複数の参照(例えば、参照試料、参照配列、参照セット)から得る。例えば、
図6に示される通り、PCAは、第1の主成分(
図6B)および第2の主成分(
図6C)の同定を結果としてもたらす複数の試料を含む訓練セット(
図6A)から得られるリード密度中央値プロファイルに対して実施される。一部の実施形態では、主成分を、問題の遺伝子の変異を欠くことが既知である対象のセットから得る。一部の実施形態では、主成分を、公知の正倍数体のセットから得る。主成分は、参照の1つまたは複数のリード密度プロファイル(例えば、訓練セット)を使用して実施されるPCAに従って同定することが多い。参照から得られる1つまたは複数の主成分を、試験対象のリード密度プロファイル(例えば、
図7B)から減じ、これにより、調整プロファイル(例えば、
図7C)を提示することが多い。
【0164】
一部の実施形態では、システムは、PCA統計モジュール33を含む。PCA統計モジュールにより、リード密度プロファイルを、別の適切なモジュール(例えば、プロファイル生成モジュール26)から受容するおよび/または回収することができる。PCAは、PCA統計モジュールにより実施することが多い。PCA統計モジュールにより、リード密度プロファイルを受容、回収、および/または保存し、リード密度プロファイルを、参照セット32、訓練セット30、および/または1もしくは複数の試験対象28から処理することが多い。PCA統計モジュールにより、主成分を生成および/もしくは提示し、かつ/または1つまたは複数の主成分に従って、リード密度プロファイルを調整することができる。調整されたリード密度プロファイル(例えば、40、38)は、PCA統計モジュールによりもたらされることが多い。PCA統計モジュールにより、調整されたリード密度プロファイル(例えば、38、40)を、別の適切なモジュール(例えば、部分重み付けモジュール42、スコアリングモジュール46)へと提示および/または転送することができる。一部の実施形態では、PCA統計モジュールにより、性別判定36を提示することができる。性別判定は、場合によって、PCAに従って、かつ/または1もしくは複数の主成分に従って決定された、胎仔の性別の決定である。一部の実施形態では、PCA統計モジュールは、下記に示されるRコードの一部、全部、または1つの修飾を含む。主成分を計算するためのRコードは一般に、データのクリーニング(例えば、中央値を減算すること、部分をフィルタリングすること、および極値をトリミングすること)で始まる。
【数2-1】
次いで、主成分は以下のように計算される:
【数2-2】
最終的に、各試料のPCA調整プロファイルは、以下のように計算され得る:
【数3】
【0165】
プロファイルの比較
一部の実施形態では、アウトカムの決定は、比較を含む。ある特定の実施形態では、リード密度プロファイルまたはその部分を活用して、アウトカムを提示する。ある特定の実施形態では、ゲノム、ゲノムの一部、染色体、または染色体のセグメントについてのリード密度プロファイルをアウトカムの提供に活用する。一部の実施形態では、アウトカムの決定(例えば、遺伝子の変異の存在または非存在の決定)は、2つまたはそれ超のリード密度プロファイルの比較を含む。リード密度プロファイルの比較は、選択されたゲノムのセグメントについてなされたリード密度プロファイルの比較を含むことが多い。例えば、試験プロファイルは、参照プロファイルと比較することが多く、試験プロファイルおよび参照プロファイルを、実質的に同じセグメントであるゲノムのセグメント(例えば、参照ゲノム)について決定した。リード密度プロファイルの比較は、場合によって、リード密度プロファイルの部分の2つまたはそれ超のサブセットの比較を含む。リード密度プロファイルの部分のサブセットは、ゲノムのセグメント(例えば、染色体またはそのセグメント)を表しうる。リード密度プロファイルは、部分の任意の量のサブセットを含みうる。場合によって、リード密度プロファイルは、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、または5つもしくはそれ超のサブセットを含む。ある特定の実施形態では、リード密度プロファイルは、部分の2つのサブセットを含み、ここで、各部分は、隣接する参照ゲノムのセグメントを表示する。一部の実施形態では、試験プロファイルを、参照プロファイルと比較することができ、ここで、試験プロファイルおよび参照プロファイルはいずれも、部分の第1のサブセットおよび部分の第2のサブセットを含み、ここで、第1のサブセットおよび第2のサブセットは、ゲノムの異なるセグメントを表示する。リード密度プロファイルの部分のあるサブセットは、遺伝子の変異を含むことが可能であり、他の部分のサブセットは、場合によって、遺伝子の変異を実質的に含まない。場合によって、プロファイル(例えば、試験プロファイル)の部分の全てのサブセットは、遺伝子の変異を実質的に含まない。場合によって、プロファイル(例えば、試験プロファイル)の部分の全てのサブセットは、遺伝子の変異を含む。一部の実施形態では、試験プロファイルは、遺伝子の変異を含む部分の第1のサブセット、および遺伝子の変異を実質的に含まない部分の第2のサブセットを含みうる。
【0166】
一部の実施形態では、本明細書で記載される方法は、比較(例えば、試験プロファイルを参照プロファイルと比較すること)をあらかじめ形成することを含む。適切な方法により、2つもしくはそれ超のデータセット、2つもしくはそれ超の関係、および/または2つもしくはそれ超のプロファイルについて比較することができる。データセット、関係、および/またはプロファイルの比較に適切な統計学的方法の非限定的な例は、ベーレンス・フィッシャー法、ブートストラップ法、独立の有意性検定を組み合わせるためのフィッシャー法、ネイマンピアソン検定、確認的データ分析、探索的データ分析、正確検定、F検定、Z検定、T検定、不確定性の尺度、帰無仮説、対立仮説(counternull)などの計算および/もしくは比較、カイ二乗検定、オムニバス検定、有意性(例えば、統計学的有意性)のレベルの計算および/もしくは比較、メタ分析、多変量分析、回帰、単純線形回帰、ロバスト線形回帰など、または前出の組合せを含む。ある特定の実施形態では、2つまたはそれ超のデータセット、関係、および/またはプロファイルの比較は、不確定性の尺度の決定および/または比較を含む。本明細書で使用される「不確定性の尺度」とは、有意性(例えば、統計学的有意性)の尺度、誤差の尺度、分散の尺度、信頼性の尺度など、またはこれらの組合せを指す。不確定性の尺度は、値(例えば、閾値)の場合もあり、値の範囲(例えば、区間、信頼区間、ベイズ信頼区間、閾値範囲)の場合もある。不確定性の尺度の非限定的な例は、p値、偏差の適切な尺度(例えば、標準偏差、シグマ、絶対偏差、平均絶対偏差など)、適切な誤差の尺度(例えば、標準誤差、二乗平均誤差、二乗平均平方根誤差など)、分散の適切な尺度、適切な標準スコア(例えば、標準偏差、累積百分率、百分位数同等物、Zスコア、Tスコア、Rスコア、標準的9段階法(スタナイン)、スタナインパーセントなど)など、またはこれらの組合せを含む。一部の実施形態では、有意性のレベルの決定は、不確定性の尺度(例えば、p値)を決定することを含む。ある特定の実施形態では、2つまたはそれ超のデータセット、関係、および/またはプロファイルは、複数の(例えば、2つまたはそれ超の)統計学的方法(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バッギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K近傍法、ロジスティック回帰および/またはLOESSスムージング)、ならびに/または任意の適切な数学的操作および/もしくは統計学的操作(例えば、本明細書では操作と称する)を活用することにより分析および/または比較することができる。
【0167】
ある特定の実施形態では、2つまたはそれ超のリード密度プロファイルの比較は、2つまたはそれ超のリード密度プロファイルについての、不確定性の尺度の決定および/または比較を含む。場合によって、リード密度プロファイルおよび/または関連する不確定性の尺度を比較して、データセットの数学的操作および/もしくは統計学的操作の解釈を容易とし、かつ/またはアウトカムを提示する。場合によって、試験対象について生成されたリード密度プロファイルは、1つまたは複数の参照(例えば、参照試料、参照対象など)について生成されたリード密度プロファイルと比較する。一部の実施形態では、アウトカムを、試験対象に由来するリード密度プロファイルの、染色体、部分、またはこれらのセグメントについての参照に由来するリード密度プロファイルとの比較により提示し、ここで、参照のリード密度プロファイルは、遺伝子の変異を保有しないことが既知である、参照対象のセット(例えば、参照)から得る。一部の実施形態では、アウトカムを、試験対象に由来するリード密度プロファイルの、染色体、部分、またはこれらのセグメントについての参照に由来するリード密度プロファイルとの比較により提示し、ここで、参照のリード密度プロファイルは、特異的遺伝子の変異(例えば、染色体の異数性、トリソミー)を保有することが既知である、参照対象のセットから得られる。
【0168】
ある特定の実施形態では、試験対象のリード密度プロファイルは、遺伝子の変異の非存在を表示する所定の値と比較され、場合によって、遺伝子の変異が位置するゲノム位置に対応する1つまたは複数のゲノム位置(例えば、部分)において、所定の値から逸脱する。例えば、試験対象(例えば、遺伝子の変異と関連する医学的状態の危険性があるか、またはこれを患っている対象)では、リード密度プロファイルは、試験対象が、問題の遺伝子の変異を含む場合の選択部分について、参照のリード密度プロファイル(例えば、参照配列、参照対象、参照セット)から有意に異なることが期待される。試験対象のリード密度プロファイルは、試験対象が、問題の遺伝子の変異を含まない場合の選択部分について、参照のリード密度プロファイル(例えば、参照配列、参照対象、参照セット)と実質的に同じであることが多い。リード密度プロファイルは、所定の閾値および/または閾値範囲と比較されることが多い(例えば、
図8を参照されたい)。本明細書で使用される「閾値」という用語は、定性的データセットを使用して計算され、遺伝子の変異(例えば、コピー数の変異、異数性、染色体の異常など)についての診断の限界として用いられる、任意の数を指す。ある特定の実施形態では、閾値は、本明細書で記載される方法により得られる結果により超えられ、対象は、遺伝子の変異(例えば、トリソミー)を有すると診断される。一部の実施形態では、閾値の値または閾値の値の範囲は、配列のリードデータ(例えば、参照および/または対象に由来する)を、数学的および/または統計学的に操作することを介して計算されることが多い。遺伝子の変異の存在または非存在を指し示す所定の閾値または閾値の範囲は、遺伝子の変異の存在または非存在を決定するために有用なアウトカムをやはり提示しながらも、変化しうる。ある特定の実施形態では、正規化されたリード密度および/または正規化されたカウント数を含むリード密度プロファイルを生成して、アウトカムの分類および/または提示を容易とする。アウトカムは、正規化されたカウント数を含むリード密度プロファイルのプロットに基づき(例えば、このようなリード密度プロファイルのプロットを使用して)提示することができる。
【0169】
一部の実施形態では、システムは、スコアリングモジュール46を含む。スコアリングモジュールは、リード密度プロファイル(例えば、調整された、正規化されたリード密度プロファイル)を、別の適切なモジュール(例えば、プロファイル生成モジュール26、PCA統計モジュール33、部分重み付けモジュール42など)から受容、回収、および/または保存しうる。スコアリングモジュールは、2つまたはそれ超のリード密度プロファイル(例えば、試験プロファイル、参照プロファイル、訓練セット、試験対象)を受容、回収、保存、および/または比較しうる。スコアリングモジュールにより、スコア(例えば、プロット、プロファイル統計、比較(例えば、2つまたはそれ超のプロファイルの間の差違)、Zスコア、不確定性の尺度、判定域、試料判定50(例えば、遺伝子の変異の存在または非存在の決定)、および/またはアウトカム)を提示しうることが多い。スコアリングモジュールにより、スコアを、末端使用者および/または別の適切なモジュール(例えば、ディスプレイ、プリンターなど)へと提示することができる。一部の実施形態では、スコアリングモジュールは、下記に示されるRコードであって、具体的な検定(例えば、第21染色体カウント数が大きいこと)のためのカイ二乗統計を計算するためのR関数を含むRコードの一部、全部、または1つの修飾を含む。
3つのパラメータは、
x=試料のリードデータ(部分xの試料)
m=部分についての中央値
y=検定ベクター(例えば、第21染色体について真であることを除き、全ての部分について偽)
である。
【数4】
【0170】
実験条件
ある特定の実施形態では、主成分正規化処理を、実験条件に関連した偏りについて調整することができる。実験条件を考慮したデータ処理は、例えば、その内容全体が全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている、国際特許出願公開第WO2013/109981号に記載されている。
【0171】
ある特定の場合では、試料は、共通の実験条件により影響を受け得る。実質的に同じ時間に、または実質的に同じ条件および/もしくは試薬を使用して処理された試料は、時には、異なる条件および/または試薬を使用して異なる時間および/または同じ時間に処理された他の試料と比較した場合、同様の実験条件(例えば、共通の実験条件)で誘発されるデータ可変性(例えば、偏り)を呈する。実験手順中の任意の所与の時間で調製、処理、および/または分析することができる試料の数を限定する実用上の考慮事項が存在することが多い。ある特定の実施形態では、原料から試料を処理してアウトカムを生成するための時間枠は、時には、数日、数週間、またはさらには数カ月である。単離と最終的な分析との間の時間に起因して、多数の試料を分析するハイスループット実験は、バッチ効果または実験条件誘発性データ可変性を生成する。実験条件誘発性データ可変性はしばしば、試料単離、保管、調製、および/または分析の結果である任意のデータ可変性を含む。実験条件誘発性可変性の非限定的な例には、配列の過剰表示または過少表示;ノイズの多いデータ;偽のデータ点または異常値データ点、試薬効果、人員効果、実験室条件効果などを含むフローセルベース可変性および/またはプレートベース可変性が含まれる。実験条件誘発性可変性は、時には、データセット中の試料の亜集団に起こる(例えば、バッチ効果)。バッチはしばしば、実質的に同じ試薬を使用して処理された試料、同じ試料調製プレート(例えば、試料調製;例えば、核酸単離のために使用されるマイクロウェルプレート)で処理された試料、同じ展開プレート(例えば、フローセル上にロードする前に試料を整理するのに使用されるマイクロウェルプレート)で分析のために展開された試料、実質的に同じ時間に処理された試料、同じ人員によって処理された試料、および/または実質的に同じ実験条件下(例えば、温度、CO2レベル、オゾンレベルなど、もしくはそれらの組合せ)で処理された試料である。実験条件バッチ効果は、時には、同じフローセルで分析され、同じ試薬プレートもしくはマイクロウェルプレートで調製され、かつ/または同じ試薬プレートもしくはマイクロウェルプレートで分析のために展開された(例えば、配列決定のために核酸ライブラリーを調製して)試料に影響する。可変性の追加の源として、単離される核酸の品質、単離される核酸の量、核酸単離後の保管までの時間、保管中の時間、保管温度など、およびそれらの組合せを挙げることができる。バッチ(例えば、同じ時間に、かつ/または同じ試薬および/もしくは実験条件を使用して処理されるデータセット中の試料の亜集団)中のデータ点の可変性は、時には、バッチ間で見られるデータ点の可変性より大きい。このデータ可変性は、時には、その規模がデータセット中の一部または全部の他のデータの解釈を行い得る偽のデータまたは異常値データを含む。データセットの部分または全部は、本明細書に記載する、および当技術分野で公知のデータ処理ステップ;例えば、フローセルで分析され、またはマイクロウェルプレートで処理された全ての試料について計算された中央絶対偏差に対する正規化を使用して実験条件について調整することができる。実験条件を考慮したデータ処理は、例えば、その内容全体が全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている、国際特許出願公開第WO2013/109981号に記載されている。
【0172】
比較を使用する異数性の検出
一部の実施形態では、主成分正規化処理を、比較に従って異数性の存在または非存在を決定するための方法と併せて使用する。比較を使用する異数性の検出は、例えば、その内容全体が全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている、国際特許出願公開第WO2014/116598号に記載されている。
【0173】
このセクションでは、比の比較、または比、または比の値、倍数性評価、および倍数性評価値をまとめて、「比較」と呼ぶ。一部の実施形態では、対象における染色体異数性の存在または非存在を、1つまたは複数の比較に従って決定する。一部の実施形態では、対象における染色体異数性の存在または非存在を、3つの選択された常染色体についての1つまたは複数の比較(例えば、3つの選択された常染色体の1つまたは複数が試験染色体である場合)に従って決定する。一部の実施形態では、染色体異数性の存在または非存在を、一連の異なる染色体、正倍数体の領域、異数体の領域、または正倍数体の領域と異数体の領域について生成される1つまたは複数の比較に従って決定する。一部の実施形態では、染色体異数性(例えば、胎仔中の染色体異数性)の存在または非存在を、対象について得られた比較ならびに正倍数体の領域および/または異数体の領域(例えば、参照セットについて決定された正倍数体の領域および異数体の領域)に従って決定する。ある特定の実施形態では、染色体異数性の存在または非存在を、対象について得られた比較と、正倍数体の領域および/または異数体の領域との関係に従って決定する。例えば、染色体異数性の存在または非存在を、一部の実施形態では、比較が正倍数体の領域もしくは異数体の領域中にあるか否か、または倍数性評価値が正倍数体の領域もしくは異数体の領域からどのぐらい遠く離れているかに従って決定する。一部の実施形態では、関係は、近接または距離(例えば、数学的な違いおよび/またはグラフ距離、例えば、点と領域との距離)である。関係は、当技術分野で公知の、または本明細書に記載する適切な方法により決定することができ、その非限定的な例には、確率分布、確率密度関数、累積分布関数、尤度関数、ベイズモデル比較、ベイズ因子、逸脱度の情報量基準、カイ二乗検定、ユークリッド距離、空間分析、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離、ブレグマン発散、バタチャリヤ距離、ヘリンガー距離、メトリック空間、キャンベラ距離、凸包(例えば、偶奇屈曲規則)など、またはそれらの組合せが含まれる。
【0174】
一部の実施形態では、染色体異数性の非存在を、比較および正倍数体の領域に従って決定する。一部の実施形態では、染色体異数性の非存在を、比較と正倍数体の領域との関係に従って決定する。一部の実施形態では、正倍数体の領域の範囲内、その領域中、またはその領域付近にある比較は、正倍数性染色体の決定(例えば、異数性染色体の非存在)である。一部の実施形態では、正倍数体の領域中またはその領域付近にある比較は、比較が決定された各染色体が正倍数体であることを指し示す。例えば、時には、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って生成された比較は、正倍数体の領域(例えば、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って決定された正倍数体の領域)の範囲内にあり、染色体異数性の非存在が決定される。一部の実施形態では、染色体異数性の非存在は、比較に従って決定される場合、各染色体(例えば、倍数性評価値が導出された各染色体)が正倍数体(例えば、母親および/または胎仔において正倍数体)であることを指し示す。
【0175】
一部の実施形態では、異数体の領域外にある比較は、1つまたは複数の正倍数体染色体の決定である。一部の実施形態では、正倍数体の領域外にある比較は、比較が決定された1つまたは複数の染色体が正倍数体であることを指し示す。例えば、時には、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って生成された比較は、正倍数体の領域(例えば、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って決定された正倍数体の領域)の外にあり、染色体異数性の非存在が決定される。一部の実施形態では、正倍数体の領域外にある比較は、比較または評価のために使用され、比較が決定された3つの染色体のうちの2つが正倍数性であることを指し示す。
【0176】
一部の実施形態では、比較は、異数体の領域の範囲内にあり、比較が決定された1つまたは複数の染色体は、正倍数体である。例えば、時には、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って生成された比較は、異数体の領域(例えば、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って決定された異数体の領域)の範囲内にあり、染色体異数性の非存在が、3つの染色体のうちの2つについて決定される。
【0177】
一部の実施形態では、染色体異数性の存在を比較および正倍数体の領域に従って決定する。ある特定の実施形態では、染色体異数性の存在を、比較と正倍数体の領域との関係に従って決定する。一部の実施形態では、正倍数体の領域外にある比較は、異数体染色体の決定(例えば、異数性体色体の存在)である。一部の実施形態では、正倍数体の領域外にある比較は、比較が決定された1つまたは複数の染色体は、異数体であることを指し示す。例えば、時には、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って生成された比較は、正倍数体の領域(例えば、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って決定された正倍数体の領域)の外にあり、染色体異数性の存在が決定される。
【0178】
一部の実施形態では、異数体の領域の範囲内、その領域中、またはその領域付近にある比較は、異数体染色体の決定(例えば、異数体染色体の存在)である。一部の実施形態では、異数体の領域中またはその領域付近にある比較は、倍数性評価値が決定された1つまたは複数の染色体が異数体であることを指し示す。一部の実施形態では、異数体の領域中またはその領域付近にある比較は、比較が決定された1、2、3、4、および/または5つの染色体が異数体であることを指し示す。一部の実施形態では、異数体の領域中またはその領域付近にある比較は、比較が決定された3つの染色体のうちの1つが異数体であることを指し示す。例えば、時には、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って生成された比較は、異数体の領域(例えば、ChrA、ChrB、およびChrCに対してマッピングされたカウント数に従って決定された異数体の領域)の範囲内にあり、染色体の1つが異数体染色体である。
【0179】
一部の実施形態では、異数体の領域付近にある比較は、異数体染色体の決定(例えば、異数性染色体の存在)である。一部の実施形態では、異数体の領域付近にある比較は、比較が決定された1つまたは複数の染色体が異数体であることを指し示す。一部の実施形態では、参照プロットは、規定された正倍数体の領域および3つの規定された異数体の領域(例えば、Chr13、Chr18、またはChr21について異数体)を含み、異数性の存在の決定が、異数体の領域の1つに最も近くにある比較に従って行われる。例えば、別の領域(例えば、Chr13もしくはChr18についての異数体の領域、または正倍数体の領域)よりChr21についての異数体の領域の近くにある比較は、Chr21についての異数性の存在を指し示し得る。
【0180】
一部の実施形態では、Chr13、Chr18、およびChr21に対してマッピングされたカウント数に従って生成された比較は、異数体の領域(例えば、Chr13、Chr18、およびChr21に対してマッピングされたカウント数に従って決定された異数体の領域)の範囲内にあり、染色体の1つは、異数体染色体である。一部の実施形態では、Chr13、Chr18、およびChr21に対してマッピングされたカウント数に従って生成された比較は、異数体の領域(例えば、Chr13、Chr18、およびChr21に対してマッピングされたカウント数に従って決定された異数体の領域)の範囲内にあり、Chr18およびChr21は、正倍数体であると決定され、Chr13は、異数体であると決定される。一部の実施形態では、Chr13、Chr18、およびChr21に対してマッピングされたカウント数に従って生成された比較は、異数体の領域(例えば、Chr13、Chr18、およびChr21に対してマッピングされたカウント数に従って決定された異数体の領域)の範囲内にあり、Chr13およびChr21は、正倍数体であると決定され、Chr18は、異数体であると決定される。一部の実施形態では、Chr13、Chr18、およびChr21に対してマッピングされたカウント数に従って生成された比較は、異数体の領域(例えば、Chr13、Chr18、およびChr21に対してマッピングされたカウント数に従って決定された異数体の領域)の範囲内にあり、Chr18およびChr13は、正倍数体であると決定され、Chr21は、異数体であると決定される。
【0181】
一部の実施形態では、染色体異数性の存在または非存在を、第1の比較および第2の比較に従って決定する。ここで両比較は、2つまたはそれ超の染色体の同じセットに対してマッピングされた配列のリードから生成された。一部の実施形態では、対象における染色体異数性の存在または非存在を、対象について生成された第1の比較と第2の対象について生成された第2の比較との関係(例えば、距離)に従って決定する。一部の実施形態では、第2の比較は、1つまたは複数の対象について生成された一連の比較(例えば、領域)である。一部の実施形態では、対象における染色体異数性の存在または非存在を、対象について生成された第1の比較と、1つまたは複数の対象について生成された比較の参照セットとの関係(例えば、距離)に従って決定する。一部の実施形態では、第1の比較は、対象についての比較であり、第2の比較は、1つまたは複数の正倍数体の胎仔を表示する比較または一連の比較である。一部の実施形態では、第2の比較は、正倍数体の胎仔について予想される値または一連の値(例えば、領域)である。一部の実施形態では、第2の比較は、胎仔が、比較が生成された染色体の1つまたは複数について正倍数体であることが既知の対象(例えば、妊娠中の雌の対象)について生成された値または一連の値である。一部の実施形態では、距離を、不確定値(例えば、標準偏差またはMAD)に従って決定する。一部の実施形態では、第1の比較と第2の比較(例えば、1つまたは複数の正倍数体の対象を表示する第2の比較)との距離は、関連した不確定性の1、2、3、4、5、6倍、またはそれ超であり、第1の比較は、異数体であると決定される。一部の実施形態では、第1の比較と第2の比較(例えば、1つまたは複数の正倍数体の対象を表示する第2の比較)との距離は、関連した不確定性の3倍、またはそれ超であり、第1の比較は、異数体染色体を表示するように決定される。
【0182】
一部の実施形態では、染色体異数体の存在または非存在を、1つまたは複数の特定の染色体に対してマッピングされたカウント数に従って生成された比較、および正倍数体の領域、異数体の領域、または正倍数体の領域と異数体の領域に従って決定する。一部の実施形態では、染色体異数体の存在または非存在を、1つまたは複数の特定の染色体に対してマッピングされた配列のリードに従って生成された比較に従って決定し、他の染色体に対してマッピングされた配列のリードは、決定のために要求されない。一部の実施形態では、染色体異数体の存在または非存在を、2、3、4、5、または6つの異なる染色体に対してマッピングされた配列のリードに従って生成された比較に従って決定し、他の染色体に対してマッピングされたカウント数は、決定のために取得または要求されない。一部の実施形態では、染色体異数体の存在または非存在を、3つの異なる染色体またはこれらのセグメントに従って生成された比較に従って決定し、決定は、3つの異なる染色体のうちの1つ以外の染色体に基づかない。例えば、ChrA、ChrB、およびChrCが3つの異なる染色体またはこれらのセグメントを表示する場合、染色体異数体の存在または非存在は、時には、ChrA、ChrB、およびChrCに従って生成された比較に従って決定され、決定は、ChrA、ChrB、またはChrC以外の染色体に基づかない。一部の実施形態では、ChrA、ChrB、およびChrCは、それぞれChr13、Chr21、およびChr18を表示する。
【0183】
性染色体核型
一部の実施形態では、主成分正規化処理を、性染色体核型を決定するための方法と併せて使用する。性染色体核型を決定するための方法は、例えば、その内容全体が全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている、国際特許出願公開第WO2013/192562号に記載されている。
【0184】
一部の実施形態では、1つまたは複数の性染色体(すなわち、染色体X、染色体Y)に対してマッピングする配列のリードのカウント数を正規化する。一部の実施形態では、正規化は、主成分正規化を含む。一部の実施形態では、正規化は、参照ゲノムの部分についての実験上の偏りを決定する。一部の実施形態では、実験上の偏りは、参照ゲノムの部分のそれぞれについてマッピングされた配列のリードのカウント数と、部分のそれぞれについてのマッピング特徴(例えば、GC含有量)との、各試料についての第1の適合させた関係(例えば、適合させた線形関係、適合させた非線形関係)から複数の試料について決定することができる。適合させた関係(例えば、線形関係)の傾きは一般に、線形回帰によって決定される。一部の実施形態では、各実験上の偏りは、実験上の偏り係数によって表示される。実験上の偏り係数は、例えば、(i)参照ゲノムの部分のそれぞれに対してマッピングされた配列のリードのカウント数と、(ii)部分のそれぞれについてのマッピング特徴との線形関係の傾きである。一部の実施形態では、実験上の偏りは、実験上の偏りの曲率の推定を含み得る。
【0185】
一部の実施形態では、方法は、実験上の偏りと、部分のそれぞれに対してマッピングされた配列のリードのカウント数との第2の適合させた関係(例えば、適合させた線形関係、適合させた非線形関係)からゲノム部分のそれぞれについてゲノム区分のレベル(例えば、上昇、レベル)を計算するステップをさらに含み、関係の傾きは、線形回帰により決定することができる。例えば、第1の適合させた関係が線形であり、第2の適合させた関係が線形である場合、ゲノム区分のレベルLiを、式αに従って参照ゲノムの部分のそれぞれについて決定することができ:
Li=(mi-GiS)I-1 式α
【0186】
式中、Giは、実験上の偏りであり、Iは、第2の適合させた関係の切片であり、Sは、第2の関係の傾きであり、miは、参照ゲノムの各部分に対してマッピングされた測定カウント数であり、iは、試料である。
【0187】
一部の実施形態では、二次的正規化処理を、1つまたは複数の計算されたゲノム区分のレベルに適用する。一部の実施形態では、二次的正規化は、GC正規化を含み、時には、PERUN法の使用を含む。一部の実施形態では、二次的正規化は、主成分正規化を含む。
【0188】
胎仔の倍数性の決定
一部の実施形態では、主成分正規化処理は、胎仔の倍数性を決定するための方法と併せて使用する。胎仔の倍数性を決定するための方法は、例えば、その内容全体が全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている、米国特許出願公開第2013/0288244号に記載されている。
【0189】
胎仔の倍数性は、胎仔フラクションの尺度から部分的に決定することができ、胎仔の倍数性の決定は、遺伝子の変異(例えば、染色体異数性、トリソミー)の存在または非存在の決定を行うのに使用される。胎仔の倍数性は、本明細書に記載する方法を含む胎仔フラクションの決定の任意の適切な方法により決定される胎仔フラクションの尺度から部分的に決定することができる。一部の実施形態では、この方法は、複数の試料について、ゲノムの部分(すなわち、ビンi)について決定された計算参照カウント数Fi(場合によって、fiとしても表示される)を要請し、ここで、ゲノムの部分iについての胎仔の倍数性は、正倍数体であることが既知である。一部の実施形態では、不確定値(例えば、標準偏差、σ)を、参照カウント数fiについて決定する。一部の実施形態では、参照カウント数fi、不確定値、試験試料カウント数および/または測定された胎仔フラクション(F)を、胎仔の倍数性を決定するのに使用する。一部の実施形態では、参照カウント数(例えば、平均値、平均、または中央値による参照カウント数)を、主成分正規化および/または他の正規化、例えば、ビンワイズ正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM、ならびに/またはそれらの組合せにより正規化する。一部の実施形態では、参照カウント数を、主成分正規化により正規化する場合、正倍数体であることが既知のゲノムのセグメントの参照カウント数は、1に等しい。一部の実施形態では、ゲノムの部分またはセグメントについての参照カウント数(例えば、正倍数体であることが既知の胎仔についての)および試験試料のカウント数の両方を、主成分正規化により正規化し、参照カウント数は、1に等しい。一部の実施形態では、参照カウント数を、PERUNにより正規化する場合、正倍数性であることが既知のゲノムのセグメントの参照カウント数は、1に等しい。一部の実施形態では、ゲノムの部分またはセグメントについての参照カウント数(例えば、正倍数体であることが既知の胎仔についての)および試験試料のカウント数の両方を、PERUNにより正規化し、参照カウント数は、1に等しい。同様に、一部の実施形態では、カウント数を、参照カウント数の中央値により正規化する(すなわち、参照カウント数の中央値で除算する)場合も、正倍数体であることが既知のゲノムの部分またはセグメントの参照カウント数は、1に等しい。例えば、一部の実施形態では、ゲノムの部分またはセグメントについての、参照カウント数(例えば、正倍数体であることが既知の胎仔についての)および試験試料のカウント数の両方を、参照カウント数中央値により正規化し、正規化された参照カウント数は、1に等しく、試験試料カウント数は、参照カウント数中央値により正規化する(例えば、参照カウント数中央値で除算する)。一部の実施形態では、ゲノムの部分またはセグメントについての、参照カウント数(例えば、正倍数体であることが既知の胎仔についての)および試験試料のカウント数の両方を、主成分正規化、GCRM、GC、RM、または適切な方法により正規化する。一部の実施形態では、参照カウント数は、平均値、平均、または中央値による参照カウント数である。参照カウント数は、ビンについての正規化されたカウント数(例えば、正規化されたゲノム区分のレベル)であることが多い。一部の実施形態では、参照カウント数および試験試料についてのカウント数は、未処理のカウント数である。一部の実施形態では、参照カウント数を、平均値、平均、または中央値によるカウント数プロファイルから決定する。一部の実施形態では、参照カウント数は、計算されたゲノム区分のレベルである。一部の実施形態では、参照試料の参照カウント数および試験試料のカウント数(例えば、患者試料、例えば、yi)を、同じ方法または処理により正規化する。
【0190】
追加のデータ処理および正規化
本明細書では、計数されるに至った、マッピングされた配列のリードを、未処理データと呼び、その理由は、これらのデータが、操作されていないカウント数(例えば、未処理カウント数)を表示するからである。一部の実施形態では、データセット中の配列のリードのデータを、さらに処理し(例えば、数学的および/もしくは統計学的に操作し)、かつ/または示して、アウトカムを得るのを促進することができる。ある特定の実施形態では、より大きなデータセットを含めて、データセットは、さらなる分析を促進するために、前処理が役立つ場合がある。データセットの前処理は時には、重複し、かつ/または情報を与えない部分または参照ゲノムの部分(例えば、情報を与えないデータを有する参照ゲノムの部分、重複する、マッピングされたリード、カウント数の中央値がゼロである部分、過大表示されているまたは過小表示されている配列)の除去を含む。理論により制限されることなく、データの処理および/または前処理は、(i)ノイズの多いデータを除去し、(ii)情報を与えないデータを除去し、(iii)重複するデータを除去し、(iv)より大きなデータセットの複雑性を低下させ、かつ/または(v)データの1つの形態から1つもしくは複数のその他の形態への転換を促進することができる。本明細書では、用語「前処理」および「処理」は、データまたはデータセットに関して用いる場合には、まとめて「処理」と呼ぶ。処理は、データをさらなる分析に、より適した状態になすことができ、一部の実施形態では、アウトカムをもたらすことができる。一部の実施形態では、1つまたは複数または全ての処理方法(例えば、正規化の方法、部分フィルタリング、マッピング、妥当性確認等、またはそれらの組合せ)が、メモリと併せたプロセッサ、マイクロプロセッサ、コンピュータにより、かつ/またはマイクロプロセッサが制御する装置により行われる。
【0191】
用語「ノイズの多いデータ」は、本明細書で使用する場合、(a)分析またはプロットした場合にデータ点間に顕著な分散を示すデータ、(b)顕著な標準偏差を有する(例えば、3標準偏差よりも大きい)データ、(c)平均の顕著な標準誤差を有するデータ等、および上記の組合せを指す。ノイズの多いデータは、時には出発物質(例えば、核酸試料)の分量および/または品質に起因して発生し、時には配列のリードを得るために使用するDNAを調製または複製するための処理の一部から発生する。ある特定の実施形態では、ノイズは、PCRに基づく方法を使用して調製する場合の、過大表示されているある特定の配列から生じる。本明細書に記載する方法は、ノイズの多いデータの寄与を低減するまたは排除することができ、したがって、ノイズの多いデータの、得られたアウトカムに対する作用を低下させる。
【0192】
用語「情報を与えないデータ」、「情報を与えない、参照ゲノムの部分」、および「情報を与えない部分」は、本明細書で使用する場合、所定の閾値の値とは顕著に異なる数値、または値の所定の限界範囲の外側に存在する数値を有する部分、またはそこから誘導されたデータを指す。用語「閾値」および「閾値の値」は、本明細書では、適格なデータセットを使用して計算される任意の数を指し、遺伝子の変異(例えば、コピー数の変異、異数性、微小重複、微小欠失、染色体異常等)の診断の限界として役立つ。ある特定の実施形態では、本明細書に記載する方法により得られた結果が閾値を上回り、対象が、遺伝子の変異(例えば、21トリソミー)を有すると診断される。一部の実施形態では、閾値の値または値の範囲はしばしば、(例えば、参照および/または対象から得られた)配列のリードのデータを数学的および/または統計学的に操作することによって計算され、ある特定の実施形態では、閾値の値または値の範囲を得るために操作される配列のリードのデータは、(例えば、参照および/または対象から得られた)配列のリードのデータである。一部の実施形態では、不確実性の値を決定する。不確実性の値は、一般に分散または誤差の尺度であり、分散または誤差の任意の適切な尺度であってよい。一部の実施形態では、不確実性の値は、標準偏差、標準誤差、計算した分散、p値または平均絶対偏差(MAD)である。一部の実施形態では、不確実性の値を、本明細書で記載される方式に従って計算することができる。
【0193】
本明細書に記載するデータセットを処理するために、任意の適切な手順を利用することができる。データセットを処理するために使用するのに適切な手順の非限定的な例として、フィルタリングすること、正規化すること、重み付けすること、ピークの高さをモニタリングすること、ピークの面積をモニタリングすること、ピークのエッジをモニタリングすること、面積比を決定すること、データを数学的に処理すること、データを統計学的に処理すること、統計学的アルゴリズムを適用すること、一定の変数を用いて分析すること、最適化された変数を用いて分析すること、データをプロットし、パターンまたは傾向を同定して、さらなる処理を行うこと等、および上記の組合せが挙げられる。一部の実施形態では、種々の特徴(例えば、GC含有量、重複する、マッピングされたリード、セントロメア領域、テロメア領域等、およびそれらの組合せ)、ならびに/または変数(例えば、胎仔の性別、母体の年齢、母体の倍数性、胎仔核酸のパーセント寄与等、またはそれらの組合せ)に基づいて、データセットは処理される。ある特定の実施形態では、本明細書の記載に従ってデータセットを処理することによって、大きいおよび/または複雑なデータセットの複雑性および/または次元性を低下させることができる。複雑なデータセットの非限定的な例として、異なる年齢および民族性の背景の1つまたは複数の試験対象および複数の参照対象から生成された配列のリードのデータが挙げられる。一部の実施形態では、データセットは、それぞれの試験対象および/または参照対象について、数千~数百万個の配列のリードを含むことができる。
【0194】
ある特定の実施形態では、データ処理を、任意の数のステップで行うことができる。例えば、一部の実施形態では、単一の処理手順のみを使用して、データを処理することができ、ある特定の実施形態では、1つもしくは複数、5つもしくはそれ超、10個もしくはそれ超、または20個もしくはそれ超の処理ステップ(例えば、1つもしくは複数の処理ステップ、2つもしくはそれ超の処理ステップ、3つもしくはそれ超の処理ステップ、4つもしくはそれ超の処理ステップ、5つもしくはそれ超の処理ステップ、6つもしくはそれ超の処理ステップ、7つもしくはそれ超の処理ステップ、8つもしくはそれ超の処理ステップ、9つもしくはそれ超の処理ステップ、10個もしくはそれ超の処理ステップ、11個もしくはそれ超の処理ステップ、12個もしくはそれ超の処理ステップ、13個もしくはそれ超の処理ステップ、14個もしくはそれ超の処理ステップ、15個もしくはそれ超の処理ステップ、16個もしくはそれ超の処理ステップ、17個もしくはそれ超の処理ステップ、18個もしくはそれ超の処理ステップ、19個もしくはそれ超の処理ステップ、または20個もしくはそれ超の処理ステップ)を使用して、データを処理することができる。一部の実施形態では、処理ステップは、2回またはそれ超回繰り返される同じステップであり得(例えば、2回またはそれ超回フィルタリングする、2回またはそれ超回正規化する)、ある特定の実施形態では、処理ステップは、同時または順次に行われる2つまたはそれ超の異なる処理ステップであり得る(例えば、フィルタリングし、正規化する;正規化し、ピークの高さおよびエッジをモニタリングする;フィルタリングし、正規化し、参照に対して正規化し、統計学的に操作して、p値を決定する等)。一部の実施形態では、同じまたは異なる処理ステップの任意の適切な数および/または組合せを利用し、配列のリードのデータを処理して、アウトカムを得るのを促進することができる。ある特定の実施形態では、本明細書に記載する判断基準によりデータセットを処理することによって、データセットの複雑性および/または次元性を低下させることができる。
【0195】
一部の実施形態では、1つまたは複数の処理ステップは、1つまたは複数のフィルタリングステップを含むことができる。用語「フィルタリング」は、本明細書で使用する場合、部分または参照ゲノムの部分を検討から除去することを指す。これらに限定されないが、重複するデータ(例えば、重複またはオーバーラップする、マッピングされたリード)、情報のないデータ(例えば、カウント数の中央値がゼロである参照ゲノムの部分)、過大表示されているもしくは過小表示されている配列を有する参照ゲノムの部分、ノイズの多いデータ等、または上記の組合せを含めた、任意の適切な判断基準に基づいて、参照ゲノムの部分を選択して、除去することができる。フィルタリング処理はしばしば、参照ゲノムの1つまたは複数の部分を検討から除去し、除去するために選択された参照ゲノムの1つまたは複数の部分におけるカウント数を、検討中の参照ゲノム、1つもしくは複数の染色体、またはゲノムの部分について計数または合計されたカウント数から減算することを含む。一部の実施形態では、参照ゲノムの部分を、逐次的に除去する(例えば、1つずつ除去して、それぞれの個々の部分の除去の作用の評価を可能にする)ことができ、ある特定の実施形態では、除去するためにマークされた、参照ゲノムの部分全てを、同時に除去することができる。一部の実施形態では、ある特定のレベルを上回るまたは下回る分散により特徴付けられた参照ゲノムの部分を除去し、本明細書では、これを時には、参照ゲノムの「ノイズの多い」部分をフィルタリングすると呼ぶ。ある特定の実施形態では、フィルタリング処理は、部分、染色体または染色体セグメントの平均プロファイルレベルから、プロファイルの分散の所定の倍数だけ逸脱するデータ点を、データセットから得ることを含み、ある特定の実施形態では、フィルタリング処理は、部分、染色体または染色体セグメントの平均プロファイルレベルから、プロファイルの分散の所定の倍数だけ逸脱しないデータ点を、データセットから除去することを含む。一部の実施形態では、フィルタリング処理を利用して、遺伝子の変異の存在または非存在について分析する、参照ゲノムの候補となる部分の数を低下させる。遺伝子の変異(例えば、微小欠失、微小重複)の存在または非存在について分析する、参照ゲノムの候補となる部分の数を低下させることによって、しばしばデータセットの複雑性および/または次元性を低下させ、時には遺伝子の変異および/または遺伝子異常の検索および/または同定のスピードを2桁またはそれ超だけ増加させる。
【0196】
一部の実施形態では、1つまたは複数の処理ステップは、1つまたは複数の正規化ステップを含むことができる。正規化は、本明細書に記載するまたは当技術分野で公知である適切な方法により行うことができる。ある特定の実施形態では、正規化は、異なるスケールで測定された値を、概念的に共通のスケールに調整することを含む。ある特定の実施形態では、正規化は、調整された値の確率分布をアラインメントにもち込むための高度な数学的調整を含む。一部の実施形態では、正規化は、分布を正規分布に合わせることを含む。ある特定の実施形態では、正規化は、ある特定の全体的な影響(例えば、誤差および異常)の作用を排除する方法で、異なるデータセットについて正規化された対応する値を比較するのを可能にする数学的調整を含む。ある特定の実施形態では、正規化は、スケーリングを含む。正規化は時には、所定の変数または式による1つまたは複数のデータセットの除算を含む。正規化は、時には、所定の変数または式による1つまたは複数のデータセットの減算を含む。正規化の方法の非限定的な例として、部分に関する正規化、GC含有量による正規化、カウント数中央値(ビンカウント数中央値、部分カウント数中央値)の正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所的な重み付け散布図平坦化)、PERUN、ChAI、主成分正規化、リピートマスクキング(RM)、GC正規化リピートマスクキング(GCRM)、cQn、ならびに/またはそれらの組合せが挙げられる。一部の実施形態では、遺伝子の変異の存在または非存在(例えば、異数性、微小重複、微小欠失)の決定は、正規化の方法(例えば、部分に関する正規化、GC含有量による正規化、カウント数中央値(ビンカウント数中央値、部分カウント数中央値)の正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所的な重み付け散布図平坦化)、PERUN、ChAI、主成分正規化、リピートマスクキング(RM)、GC正規化リピートマスクキング(GCRM)、cQn、当技術分野で公知の正規化の方法、ならびに/またはそれらの組合せ)を利用する。一部の実施形態では、遺伝子の変異(例えば、異数性、微小重複、微小欠失)の存在または非存在の決定は、LOESS、カウント数中央値(ビンカウント数中央値、部分カウント数中央値)の正規化、および主成分正規化の1つまたは複数を活用する。一部の実施形態では、遺伝子の変異の存在または非存在の決定は、LOESSを活用し、その後、カウント数中央値(ビンカウント数中央値、部分カウント数中央値)の正規化を活用する。一部の実施形態では、遺伝子の変異の存在または非存在の決定は、LOESSを活用し、その後、カウント数中央値(ビンカウント数中央値、部分カウント数中央値)の正規化を活用し、その後、主成分正規化を活用する。
【0197】
任意の適切な数の正規化を使用することができる。一部の実施形態では、データセットを、1回もしくは複数回、5回もしくはそれ超回、10回もしくはそれ超回、または20回またはそれ超回さえ正規化することができる。データセットを、任意の適切な特徴または変数(例えば、試料データ、参照データ、または両方)を表示する値(例えば、正規化値)に対して正規化することができる。使用することができるデータの正規化のタイプの非限定的な例として、1つまたは複数の選択された試験部分または参照部分についての未処理カウント数データを、その上で、選択された部分または区分がマッピングされる染色体またはゲノム全体に対してマッピングされるカウント数の総数に対して正規化すること;1つまたは複数の選択された部分についての未処理カウント数データを、その上で、選択された部分またはセグメントがマッピングされる1つもしくは複数の部分または染色体についての参照のカウント数の中央値に対して正規化すること;未処理カウント数データを、あらかじめ正規化されたデータまたはそれらの誘導値に対して正規化すること;およびあらかじめ正規化されたデータを、1つまたは複数のその他の所定の正規化変数に対して正規化することが挙げられる。データセットの正規化は時には、所定の正規化変数として選択された特徴または特性に応じて、統計学的誤差を単離する作用を有する。また、データセットの正規化は時には、異なるスケールを有するデータのデータとしての特徴の比較を、データに共通のスケール(例えば、所定の正規化変数)を与えることによって可能にする。一部の実施形態では、統計学的に誘導された値に対する1回または複数回の正規化を利用して、データの差を最小化し、異常値データの重要性を減少させることができる。部分または参照ゲノムの部分を正規化値に関して正規化することを時には、「部分に関する正規化」と呼ぶ。
【0198】
ある特定の実施形態では、正規化を含む処理ステップは、静止したウィンドウに対して正規化することを含み、一部の実施形態では、正規化を含む処理ステップは、移動するウィンドウまたはスライディングウィンドウに対して正規化することを含む。用語「ウィンドウ」は、本明細書で使用する場合、分析のために選ばれた1つまたは複数の部分を指し、時には、比較のための参照として使用される(例えば、正規化および/またはその他の数学的もしくは統計学的な操作のために使用される)。用語「静止したウィンドウに対して正規化する」は、本明細書で使用する場合、試験対象のデータセットと参照対象のデータセットとを比較するために選択された1つまたは複数の部分を使用する正規化の処理を指す。一部の実施形態では、選択された部分を利用して、プロファイルを生成する。静止したウィンドウは一般に、操作および/または分析の間に変化しない所定の一連の部分を含む。用語「移動するウィンドウに対して正規化する」および「スライディングウィンドウに対して正規化する」は、本明細書で使用する場合、選択された試験部分のゲノム領域に限局される部分(例えば、遺伝子の直近の周囲の、隣接する部分または区分等)に対して行われる正規化を指し、この場合、1つまたは複数の選択された試験部分は、選択された試験部分の直近の周囲の部分に対して正規化される。ある特定の実施形態では、選択された部分を利用して、プロファイルを生成する。スライディングウィンドウまたは移動するウィンドウの正規化はしばしば、隣接する試験部分に向けて繰り返し移動またはスライディングさせ、新たに選択された試験部分を、新たに選択された試験部分の直近の周囲のまたは新たに選択された試験部分に隣接する部分に対して正規化することを含み、この場合、隣接するウィンドウは、共通する1つまたは複数の部分を有する。ある特定の実施形態では、複数の選択された試験部分および/または染色体を、スライディングウィンドウ処理により分析することができる。
【0199】
一部の実施形態では、スライディングウィンドウまたは移動するウィンドウに対して正規化することによって、1つまたは複数の値を生成することができ、この場合、それぞれの値は、ゲノムの異なる領域(例えば、染色体)から選択された異なる一連の参照部分に対する正規化の結果を表示する。ある特定の実施形態では、生成された1つまたは複数の値は、累積合計(例えば、選択された部分、ドメイン(例えば、染色体の一部)または染色体にわたり正規化されたカウント数プロファイルの積分の数的な推定値)である。スライディングウィンドウまたは移動するウィンドウの処理により生成された値を使用して、プロファイルを生成し、アウトカムに到達するのを促進することができる。一部の実施形態では、1つまたは複数の部分の累積合計を、ゲノムの位置の関数として示すことができる。時には、移動するウィンドウまたはスライディングウィンドウの分析を使用して、ゲノムを微小欠失および/または微小挿入の存在または非存在について分析する。ある特定の実施形態では、1つまたは複数の部分の累積合計を示すことを使用して、遺伝子の変異(例えば、微小欠失、微小重複)の領域の存在または非存在を同定する。一部の実施形態では、移動するウィンドウまたはスライディングウィンドウの分析を使用して、微小欠失を含有するゲノム領域を同定し、ある特定の実施形態では、移動するウィンドウまたはスライディングウィンドウの分析を使用して、微小重複を含有するゲノム領域を同定する。
【0200】
下記に、利用することができる正規化の処理のある特定の例、例えば、LOESS、PERUN、ChAIおよび主成分正規化の方法等をより詳細に記載する。
【0201】
一部の実施形態では、処理ステップは、重み付けを含む。用語「重み付けされる」、「重み付けする」もしくは「重み付け関数」、またはそれらの文法上の派生語もしくは相当語句は、本明細書で使用する場合、ある特定のデータセットの特徴または変数の影響を、その他のデータセットの特徴または変数に比して変化させる(例えば、1つもしくは複数の部分または参照ゲノムの部分中に含有されるデータの有意性および/または寄与を、参照ゲノムの選択された1つまたは複数の部分中のデータの品質または有用性に基づいて増加または減少させる)ために利用することがあるデータセットの一部または全部の数学的操作を指す。一部の実施形態では、重み付け関数を使用して、比較的小さな測定値の分散を有するデータの影響を増加させること、および/または比較的大きな測定値の分散を有するデータの影響を減少させることができる。例えば、過小表示されているまたは低い品質の配列データを有する参照ゲノムの部分の「重み付けを減らし」て、データセットに対する影響を最小化することができ、一方、参照ゲノムの選択された部分の「重み付けを増やし」て、データセットに対する影響を増加させることもできる。重み付け関数の非限定的な例が、[1/(標準偏差)2]である。重み付けステップは時には、正規化ステップに実質的に類似する様式で行われる。一部の実施形態では、データセットは、所定の変数(例えば、重み付け変数)により除算される。しばしば、所定の変数(例えば、最小化目的関数、Phi)を選択して、データセットの異なる一部に異なる重み付けを加える(例えば、ある特定のデータのタイプの影響を増加させ、一方、その他のデータのタイプの影響を減少させる)。
【0202】
ある特定の実施形態では、処理ステップは、1つまたは複数の数学的および/または統計学的な操作を含むことができる。任意の適切な数学的および/または統計学的な操作を、単独でまたは組み合わせて使用して、本明細書に記載するデータセットを分析および/操作することができる。任意の適切な数の数学的および/または統計学的な操作を使用することができる。一部の実施形態では、データセットを、数学的および/または統計学的に、1回もしくは複数回、5回もしくはそれ超回、10回もしくはそれ超回、または20回もしくはそれ超回操作することができる。使用することができる数学的および統計学的な操作の非限定的な例として、加算、減算、乗算、除算、代数関数、最小二乗推定量、曲線近似、微分方程式、有理多項式、二重多項式、直交多項式、zスコア、p値、カイ値、phi値、ピークレベルの分析、ピークのエッジの場所の決定、ピーク面積比の計算、染色体レベルの中央値の分析、平均絶対偏差の計算、残余の二乗の合計、平均、標準偏差、標準誤差等、またはそれらの組合せが挙げられる。数学的および/または統計学的な操作を、配列のリードのデータまたはそれらの処理された生成物の全部または一部に対して行うことができる。統計学的に操作することができるデータセットの変数または特徴の非限定的な例として、未処理カウント数、フィルタリングしたカウント数、正規化されたカウント数、ピークの高さ、ピークの幅、ピークの面積、ピークのエッジ、ラテラルトレランス(lateral tolerance)、P値、レベルの中央値、平均レベル、ゲノム領域内のカウント数の分布、核酸種の相対的な表示等、またはそれらの組合せが挙げられる。
【0203】
一部の実施形態では、処理ステップは、1つまたは複数の統計学的アルゴリズムの使用を含むことができる。任意の適切な統計学的アルゴリズムを、単独でまたは組み合わせて使用して、本明細書に記載するデータセットを分析および/操作することができる。任意の適切な数の統計学的アルゴリズムを使用することができる。一部の実施形態では、1つもしくは複数、5つもしくはそれ超、10個もしくはそれ超、または20個もしくはそれ超の統計学的アルゴリズムを使用して、データセットを分析することができる。本明細書に記載する方法と共に使用するのに適切な統計学的アルゴリズムの非限定的な例として、決定木、対立仮説、多重比較、オムニバス検定、ベーレンス・フィッシャー検定、ブートストラップ法、独立の有意性検定を組み合わせるためのフィッシャー法、帰無仮説、第一種過誤、第二種過誤、正確検定、1標本Z検定、2標本Z検定、1標本t検定、対応のあるt検定、等分散を有する2標本併合型t検定、不等分散を有する2標本非併合型t検定、1比率z検定、2比率z検定併合型、2比率z検定非併合型、1標本カイ二乗検定、分散の一様性についての2標本F検定、信頼区間、信頼区間(credible interval)、有意性、メタ分析、単純線形回帰、ロバスト線形回帰等、または上記の組合せが挙げられる。統計学的アルゴリズムを使用して分析することができるデータセットの変数または特徴の非限定的な例として、未処理カウント数、フィルタリングしたカウント数、正規化されたカウント数、ピークの高さ、ピークの幅、ピークのエッジ、ラテラルトレランス、P値、レベルの中央値、平均レベル、ゲノム領域内のカウント数の分布、核酸種の相対的な表示等、またはそれらの組合せが挙げられる。
【0204】
ある特定の実施形態では、複数(例えば、2つもしくはそれ超)の統計学的アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バッギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K近傍法、ロジスティック回帰および/もしくはlossスムージング)、ならびに/または(例えば、本明細書では操作と呼ぶ)数学的および/もしくは統計学的な操作を利用することによって、データセットを分析することができる。一部の実施形態では、複数の操作の使用により、アウトカムをもたらすために使用することができるN次元空間を生成することができる。ある特定の実施形態では、複数の操作を利用することによりデータセットを分析することによって、データセットの複雑性および/または次元性を低下させることができる。例えば、複数の操作を参照データセットに対して使用することによって、参照試料の遺伝子の状況(例えば、選択された遺伝子の変異について陽性または陰性)に応じて、遺伝子の変異の存在または非存在を表示するために使用することができるN次元空間(例えば、確率プロット)を生成することができる。実質的に類似する一連の操作を使用する試験試料の分析を使用して、試験試料のそれぞれについてN次元の点を生成することができる。試験対象のデータセットの複雑性および/または次元性は時には、参照データから生成されたN次元空間と容易に比較することができる単一の値またはN次元の点に単純化される。参照対象のデータが存在するN次元空間に属する試験試料データは、参照対象の遺伝子の状況に実質的に類似する遺伝子の状況を示す。参照対象のデータが存在するN次元空間の外側に存在する試験試料データは、参照対象の遺伝子の状況に実質的に類似しない遺伝子の状況を示す。一部の実施形態では、参照は、正倍数体であり、別段に、遺伝子の変異も医学的状態も有しない。
【0205】
一部の実施形態では、データセットが、計数され、任意選択でフィルタリングされ正規化された後で、フィルタリングし、かつ/または正規化する1つまたは複数の手順により、これらの処理されたデータセットをさらに操作することができる。ある特定の実施形態では、フィルタリングし、かつ/または正規化する1つまたは複数の手順によりさらに操作されているデータセットを使用して、プロファイルを生成することができる。一部の実施形態では、時には、フィルタリングし、かつ/または正規化する1つまたは複数の手順により、データセットの複雑性および/または次元性を低下させることができる。低下させた複雑性および/または次元性のデータセットに基づいて、アウトカムをもたらすことができる。
【0206】
一部の実施形態では、誤差の尺度(例えば、標準偏差、標準誤差、計算した分散、p値、平均絶対誤差(mean absolute error)(MAE)、平均値絶対偏差および/または平均絶対偏差(MAD))に従って、部分をフィルタリングすることができる。ある特定の実施形態では、誤差の尺度は、カウント数の可変性を指す。一部の実施形態では、カウント数の可変性に従って、部分をフィルタリングする。ある特定の実施形態では、カウント数の可変性は、複数の試料(例えば、複数の対象、例えば、50人/匹もしくはそれ超、100人/匹もしくはそれ超、500人/匹もしくはそれ超、1000人/匹もしくはそれ超、5000人/匹もしくはそれ超、または10,000人/匹もしくはそれ超の対象から得られた複数の試料)について、参照ゲノムのある部分(すなわち、部分)に対してマッピングされたカウント数について決定した誤差の尺度である。一部の実施形態では、所定の上範囲を上回るカウント数の可変性を有する部分をフィルタリングする(例えば、検討から排除する)。一部の実施形態では、所定の上範囲は、約50に等しいもしくはそれ超、約52に等しいもしくはそれ超、約54に等しいもしくはそれ超、約56に等しいもしくはそれ超、約58に等しいもしくはそれ超、約60に等しいもしくはそれ超、約62に等しいもしくはそれ超、約64に等しいもしくはそれ超、約66に等しいもしくはそれ超、約68に等しいもしくはそれ超、約70に等しいもしくはそれ超、約72に等しいもしくはそれ超、約74に等しいもしくはそれ超、または約76に等しいもしくはそれ超のMAD値である。一部の実施形態では、所定の下範囲を下回るカウント数の可変性を有する部分をフィルタリングする(例えば、検討から排除する)。一部の実施形態では、所定の下範囲は、約40に等しいもしくはそれ未満、約35に等しいもしくはそれ未満、約30に等しいもしくはそれ未満、約25に等しいもしくはそれ未満、約20に等しいもしくはそれ未満、約15に等しいもしくはそれ未満、約10に等しいもしくはそれ未満、約5に等しいもしくはそれ未満、約1に等しいもしくはそれ未満、または約0に等しいもしくはそれ未満のMAD値である。一部の実施形態では、所定の範囲の外側にあるカウント数の可変性を有する部分をフィルタリングする(例えば、検討から排除する)。一部の実施形態では、所定の範囲は、ゼロ超から、約76未満、約74未満、約73未満、約72未満、約71未満、約70未満、約69未満、約68未満、約67未満、約66未満、約65未満、約64未満、約62未満、約60未満、約58未満、約56未満、約54未満、約52未満または約50未満までのMAD値である。一部の実施形態では、所定の範囲は、ゼロ超から約67.7未満までのMAD値である。一部の実施形態では、所定の範囲内のカウント数の可変性を有する部分を選択する(例えば、遺伝子の変異の存在または非存在を決定するために使用する)。
【0207】
一部の実施形態では、部分のカウント数の可変性が、分布(例えば、正規分布)を示す。一部の実施形態では、部分は、分布のクォンタイル内で選択される。一部の実施形態では、分布の約99.9%に等しいもしくはそれ未満、約99.8%に等しいもしくはそれ未満、約99.7%に等しいもしくはそれ未満、約99.6%に等しいもしくはそれ未満、約99.5%に等しいもしくはそれ未満、約99.4%に等しいもしくはそれ未満、約99.3%に等しいもしくはそれ未満、約99.2%に等しいもしくはそれ未満、約99.1%に等しいもしくはそれ未満、約99.0%に等しいもしくはそれ未満、約98.9%に等しいもしくはそれ未満、約98.8%に等しいもしくはそれ未満、約98.7%に等しいもしくはそれ未満、約98.6%に等しいもしくはそれ未満、約98.5%に等しいもしくはそれ未満、約98.4%に等しいもしくはそれ未満、約98.3%に等しいもしくはそれ未満、約98.2%に等しいもしくはそれ未満、約98.1%に等しいもしくはそれ未満、約98.0%に等しいもしくはそれ未満、約97%に等しいもしくはそれ未満、約96%に等しいもしくはそれ未満、約95%に等しいもしくはそれ未満、約94%に等しいもしくはそれ未満、約93%に等しいもしくはそれ未満、約92%に等しいもしくはそれ未満、約91%に等しいもしくはそれ未満、約90%に等しいもしくはそれ未満、約85%に等しいもしくはそれ未満、約80%に等しいもしくはそれ未満、または約75%に等しいもしくはそれ未満のクォンタイル内の部分が選択される。一部の実施形態では、カウント数の可変性の分布の99%クォンタイル内の部分が選択される。一部の実施形態では、99%クォンタイル内で、MAD>0の部分およびMAD<67.725の部分が選択され、その結果、参照ゲノムの一連の安定な部分が同定される。
【0208】
PERUNに関する、部分をフィルタリングすることの非限定的な例が、例えば、本明細書および国際特許出願第PCT/US12/59123(WO2013/052913)号に示されており、後者は、全ての文書、表、式および図面を含めた、その内容全体が、参照により本明細書に組み込まれている。誤差の尺度に基づいて、または誤差の尺度の一部に基づいて、部分をフィルタリングすることができる。ある特定の実施形態では、R因子等の偏差の絶対値を含む誤差の尺度を使用して、部分の除去または部分への重み付けを行うことができる。R因子は、一部の実施形態では、実際の測定値から予測されるカウント数の値の絶対偏差の合計を、実際の測定値から予測されるカウント数の値で除算した結果と定義する。偏差の絶対値を含む誤差の尺度を使用することができるが、誤差の適切な尺度もそれに代わって利用することができる。ある特定の実施形態では、偏差の絶対値を含まない誤差の尺度、例として、二乗に基づくばらつきを利用することができる。一部の実施形態では、マッピング可能性の尺度(例えば、マッピング可能性スコア)に従って、部分をフィルタリングするまたは重み付けする。時には、部分に対してマッピングされた、比較的低い数の配列のリード(例えば、部分に対してマッピングされた、0、1、2、3、4、5つのリード)に従って、その部分をフィルタリングするまたは重み付けする。実施している分析のタイプに従って、部分をフィルタリングするまたは重み付けすることができる。例えば、第13、18および/または21染色体の異数性の分析の場合、性染色体をフィルタリングすることができ、常染色体のみまたは常染色体のサブセットを分析することができる。
【0209】
特定の実施形態では、以下のフィルタリング処理を利用することができる。所与の染色体(例えば、第21染色体)内の同じ一連の部分(例えば、参照ゲノムの部分)を選択し、リードの数を、罹患試料と非罹患試料とで比較する。ギャップにより、21トリソミー試料と正倍数体試料とを関係付け、これには、ほとんどの第21染色体をカバーする一連の部分を含める。これらの一連の部分は、正倍数体試料とT21試料との間で同じである。部分を定義することができるので、一連の部分と単一区分との区別はあまり重要でない。同じゲノム領域を、異なる患者において比較する。この処理を、トリソミーの分析、例として、T21に加えてまたはその代わりに、T13またはT18のために利用することができる。
【0210】
一部の実施形態では、データセットが、計数され、任意選択でフィルタリングされ正規化された後で、重み付けすることによって、これらの処理されたデータセットを操作することができる。ある特定の実施形態では、1つまたは複数の部分を選択し、それらに重み付けして、選択された部分中に含有されるデータ(例えば、ノイズの多いデータ、情報を与えないデータ)の影響を低下させることができ、一部の実施形態では、1つまたは複数の部分を選択し、それらに重み付けして、選択された部分中に含有されるデータ(例えば、小さな分散が測定されたデータ)の影響を増強または増大させることができる。一部の実施形態では、大きな分散を有するデータの影響を減少させ、小さな分散を有するデータの影響を増加させる単一の重み付け関数を利用して、データセットに重み付けする。時には、重み付け関数を使用して、大きな分散を有するデータの影響を低下させ、小さな分散を有するデータの影響を増大させる(例えば、[1/(標準偏差)2])。一部の実施形態では、重み付けによりさらに操作して処理したデータのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。重み付けされたデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
【0211】
部分をフィルタリングすることまたは重み付けすることは、分析における1つまたは複数の適切な点で行うことができる。例えば、配列のリードを、参照ゲノムの部分に対してマッピングする前または後に、部分をフィルタリングするまたは重み付けすることができる。一部の実施形態では、個々のゲノム部分についての実験の偏りを決定する前または後に、部分をフィルタリングするまたは重み付けすることができる。ある特定の実施形態では、ゲノム区分のレベルを計算する前または後に、部分をフィルタリングするまたは重み付けすることができる。
【0212】
一部の実施形態では、データセットが、計数され、任意選択でフィルタリングされ、正規化され、任意選択で重み付けされた後に、これらの処理されたデータセットを、1つまたは複数の数学的および/または統計学的な(例えば、統計学的関数または統計学的アルゴリズムによる)操作により操作することができる。ある特定の実施形態では、1つまたは複数の選択された部分、染色体、または染色体の部分についてZスコアを計算することによって、処理されたデータセットをさらに操作することができる。一部の実施形態では、P値を計算することによって、処理されたデータセットをさらに操作することができる。ある特定の実施形態では、数学的および/または統計学的な操作は、倍数性および/または胎仔フラクションに関する1つまたは複数の仮定を含む。一部の実施形態では、1つまたは複数の統計学的および/または数学的な操作によりさらに操作して処理したデータのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。統計学的および/または数学的に操作したデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。統計学的および/または数学的に操作したデータのプロファイルのプロットに基づいてもたらされたアウトカムはしばしば、倍数性および/または胎仔フラクションに関する1つまたは複数の仮定を含む。
【0213】
ある特定の実施形態では、データセットが、計数され、任意選択でフィルタリングされ正規化された後で、複数の操作を、処理されたデータセットに対して行って、N次元空間および/またはN次元の点を生成する。N次元で分析したデータセットのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
【0214】
一部の実施形態では、データセットの処理および/または操作の一部としてまたはその後に、1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して、データセットを処理する。一部の実施形態では、1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して処理したデータのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して処理してあるデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
【0215】
一部の実施形態では、問題の遺伝子の変異を実質的に含有しない1つまたは複数の参照試料を使用して、参照カウント数中央値プロファイルを得ることができ、このプロファイルは、遺伝子の変異の不在を表示する所定の値になり得、しばしば、もし試験対象が遺伝子の変異を保有するならば、その遺伝子の変異が試験対象において位置するゲノムの場所に対応する領域における所定の値から、当該プロファイルは逸脱する。遺伝子の変異と関連する医学的状態のリスクがある、またはそうした医学的状態に罹患している試験対象において、選択された部分または区分についての数値は、罹患していない場合のゲノムの場所についての所定の値とは顕著に異なるものになることが予想される。ある特定の実施形態では、問題の遺伝子の変異を担持することが分かっている1つまたは複数の参照試料を使用して、参照カウント数中央値プロファイルを得ることができ、このプロファイルは、遺伝子の変異の存在を表示する所定の値になり得、しばしば、試験対象がその遺伝子の変異を担持しないゲノムの場所に対応する領域における所定の値から、当該プロファイルは逸脱する。遺伝子の変異と関連する医学的状態のリスクがない、またはそうした医学的状態に罹患していない試験対象においては、選択された部分または区分についての数値は、罹患している場合のゲノムの場所についての所定の値とは顕著に異なるものになることが予想される。
【0216】
一部の実施形態では、データの分析および処理は、1つまたは複数の仮定の使用を含むことができる。適切な数またはタイプの仮定を利用して、データセットを分析または処理することができる。データの処理および/または分析のために使用することができる仮定の非限定的な例として、母体の倍数性、胎仔の寄与、参照集団中のある特定の配列の存在率、民族性背景、血縁の家族における選択された医学的状態の存在率、異なる患者から得られた未処理カウント数のプロファイル間の平行度および/またはGC正規化リピートマスクキング(例えば、GCRM)後のラン、PCRの不自然な結果を意味する同一の一致(例えば、同一塩基の位置)、胎仔定量化アッセイ(例えば、FQA)に固有の仮定、双子に関する仮定(例えば、双子の両方のうち、一方のみが罹患している場合、有効な胎仔フラクションは、測定された全胎仔フラクションの50%のみである(三つ子、四つ子等についても同様))、ゲノム全体を一様にカバーする胎性の無細胞DNA(例えば、cfDNA)等、ならびにそれらの組合せが挙げられる。
【0217】
正規化されたカウント数プロファイルに基づいて、遺伝子の変異の存在または非存在のアウトカムを信頼性の所望のレベル(例えば、95%またはそれ超の信頼性のレベル)で予測することが、マッピングされた配列のリードの品質および/または深さでは可能でない事例では、1つまたは複数の追加の数学的操作のアルゴリズムおよび/または統計学的予測アルゴリズムを利用して、データ分析および/またはアウトカムの提供に有用な追加の数値を生成することができる。用語「正規化されたカウント数プロファイル」は、本明細書で使用する場合、正規化されたカウント数を使用して生成されたプロファイルを指す。正規化されたカウント数および正規化されたカウント数プロファイルを生成するために使用することができる方法の例を、本明細書に記載する。上記で述べたように、計数されるに至った、マッピングされた配列のリードを、試験試料のカウント数または参照試料のカウント数に関して正規化することができる。一部の実施形態では、正規化されたカウント数プロファイルは、プロットして示すことができる。
【0218】
LOESS正規化
LOESSとは、当技術分野で公知の回帰モデル化法であって、多重回帰モデルを、k最近傍法ベースのメタモデル内で組み合わせる回帰モデル化法である。LOESSは、場合によって、局所重み付け多項式回帰と称する。一部の実施形態では、GC LOESSでは、LOESSモデルを、断片のカウント数(例えば、配列のリード、配列のカウント数)と、参照ゲノム部分についてのGC組成との関係へと適用する。データ点のセットを通る滑らかな曲線のプロッティングであって、LOESSを使用するプロッティングは、場合によって、LOESS曲線と呼ばれ、特に、各平滑値が、y軸の散布図基準変数の値の区間にわたる、重み付き二次最小二乗回帰により与えられる場合、そう呼ばれる。データセット中の各点について、LOESS法は、低次多項式を、説明変数値がその応答が推定される点の近傍にあるデータのサブセットへと適合させる。多項式は、その応答が推定される点の近傍の点には大きな重みを与え、遠く離れた点には小さな重みを与える、重み付き最小二乗法を使用して適合させる。次いで、点についての回帰関数値を、そのデータ点についての説明変数値を使用して、局所多項式の値を求めることにより得る。LOESS適合は、場合によって、回帰関数値を、データ点の各々について計算した後において、完全であると考えられる。多項式モデルの次数および重みなど、この方法の詳細の多くは、適応性がある。
【0219】
PERUN正規化
本明細書では、核酸指標と関連する誤差を低減するための正規化法を、PERUN(parameterized error removal and unbiased normalization)と称するが、これは、本明細書ならびに本文、表、式、および図面の全てを含むその全内容が参照により本明細書に組み込まれる、国際特許出願公開第WO2013/052913において記載されている。PERUN法は、このような指標に基づく予測を交絡させる誤差の影響を低減する目的で、様々な核酸指標(例えば、核酸配列のリード)へと適用することができる。
【0220】
ある特定の実施形態では、PERUN法は、参照ゲノム部分についてのゲノム区分のレベルを、(a)試験試料についての、参照ゲノム部分へとマッピングした配列のリードのカウント数、(b)試験試料についての、実験上の偏り(例えば、GCの偏り)、および(c)(i)配列のリードがマッピングされる参照ゲノム部分についての実験上の偏りと、(ii)部分へとマッピングした配列のリードのカウント数との適合させた関係についての、1つまたは複数の適合させたパラメータ(例えば、適合の推定値)から計算するステップを含む。参照ゲノム部分の各々についての実験上の偏りは、複数の試料にわたり、各試料についての適合させた関係であって、(i)参照ゲノム部分の各々へとマッピングした配列のリードのカウント数と、(ii)参照ゲノム部分の各々についてのマッピング特徴との関係に従って決定することができる。この各試料についての適合させた関係は、複数の試料について、三次元でアセンブルすることができる。ある特定の実施形態では、アセンブリーを、実験上の偏りに従って整序することもできるが、PERUN法は、実験上の偏りに従ってアセンブリーを整序することなく実施することもできる。各試料についての適合させた関係と、参照ゲノムの各部分についての適合させた関係とは、当技術分野で公知の適切な適合させた処理により、線形関数または非線形関数へと独立に適合させることができる。
【0221】
回帰のハイブリッド正規化
一部の実施形態では、ハイブリッド正規化法を使用する。一部の実施形態では、ハイブリッド正規化法により、偏り(例えば、GCの偏り)を低減する。一部の実施形態では、ハイブリッド正規化は、(i)2つの変数(例えば、カウント数およびGC含有量)の関係についての分析と、(ii)分析に従った正規化法の選択および適用とを含む。ある特定の実施形態では、ハイブリッド正規化は、(i)回帰(例えば、回帰分析)と、(ii)回帰に従った正規化法の選択および適用とを含む。一部の実施形態では、第1の試料について得られたカウント数(例えば、第1の試料セット)を、別の試料(例えば、第2の試料セット)から得られるカウント数とは異なる方法により正規化する。一部の実施形態では、第1の試料について得られたカウント数(例えば、第1の試料セット)を、第1の正規化法により正規化し、第2の試料(例えば、第2の試料セット)から得られるカウント数を、第2の正規化法により正規化する。例えば、ある特定の実施形態では、第1の正規化法は、線形回帰の使用を含み、第2の正規化法は、非線形回帰(例えば、LOESS、GC-LOESS、LOWESS回帰、LOESSスムージング)の使用を含む。
【0222】
一部の実施形態では、ハイブリッド正規化法を使用して、ゲノムまたは染色体の部分へとマッピングした配列のリード(例えば、カウント数、マッピングしたカウント数、マッピングしたリード)を正規化する。ある特定の実施形態では、未処理のカウント数を正規化し、一部の実施形態では、調整されるか、重み付けされるか、フィルタリングされるか、または既に正規化されたカウント数を、ハイブリッド正規化法により正規化する。ある特定の実施形態では、ゲノム区分のレベルまたはZスコアを、正規化する。一部の実施形態では、選択されたゲノム部分または染色体へとマッピングしたカウント数を、ハイブリッド正規化法により正規化する。カウント数は、ゲノムの部分へとマッピングした配列のリードの適切な尺度であって、その非限定的な例が、未処理のカウント数(例えば、処理されていないカウント数)、正規化されたカウント数(例えば、PERUN、ChAI、主成分正規化、または適切な方法により正規化された)、部分レベル(例えば、平均値レベル、平均レベル、中央値レベルなど)、Zスコアなど、またはこれらの組合せを含む尺度を指す場合がある。カウント数は、1つまたは複数の試料(例えば、試験試料、妊娠中の雌による試料)に由来する未処理のカウント数の場合もあり、処理されたカウント数の場合もある。一部の実施形態では、カウント数を、1つまたは複数の対象から得られる1つまたは複数の試料から得る。
【0223】
一部の実施形態では、正規化法(例えば、正規化法の種類)を、回帰(例えば、回帰分析)および/または相関係数に従って選択する。回帰分析とは、変数(例えば、カウント数およびGC含有量)間の関係を推定するための統計学的技法を指す。一部の実施形態では、回帰を、参照ゲノムの複数の部分のうちの各部分についてのGC含有量のカウント数および尺度に従って生成する。GC含有量の適切な尺度であって、その非限定的な例が、グアニン含有量、シトシン含有量、アデニン含有量、チミン含有量、プリン(GC)含有量、またはピリミジン(ATまたはATU)含有量の尺度、融解温度(Tm)(例えば、変性温度、アニーリング温度、ハイブリダイゼーション温度)、自由エネルギーの尺度など、またはこれらの組合せを含む尺度を使用することができる。グアニン(G)含有量、シトシン(C)含有量、アデニン(A)含有量、チミン(T)含有量、プリン(GC)含有量、またはピリミジン(ATまたはATU)含有量の尺度は、比または百分率として表すことができる。一部の実施形態では、任意の適する比または百分率であって、その非限定的な例が、GC/AT、GC/全ヌクレオチド、GC/A、GC/T、AT/全ヌクレオチド、AT/GC、AT/G、AT/C、G/A、C/A、G/T、G/A、G/AT、C/Tなど、またはこれらの組合せを含む比または百分率を使用する。一部の実施形態では、GC含有量の尺度は、GC含有量の、全ヌクレオチド含有量に対する比または百分率である。一部の実施形態では、GC含有量の尺度は、参照ゲノムの部分へとマッピングした配列のリードについての、GC含有量の、全ヌクレオチド含有量に対する比または百分率である。ある特定の実施形態では、GC含有量は、各参照ゲノム部分へとマッピングした配列のリードに従って、かつ/または各参照ゲノム部分へとマッピングした配列のリードから決定し、配列のリードは、試料(例えば、妊娠中の雌から得られた試料)から得る。一部の実施形態では、GC含有量の尺度は、配列のリードに従って、かつ/または配列のリードから決定されない。ある特定の実施形態では、GC含有量の尺度を、1つまたは複数の対象から得られる1つまたは複数の試料について決定する。
【0224】
一部の実施形態では、回帰を生成することは、回帰分析または相関分析を生成することを含む。その非限定的な例が、回帰分析、(例えば、線形回帰分析)、適合の良さについての分析、ピアソン相関分析、ランク相関、説明されていない分散の割合、NS(Nash-Sutcliffe)モデルによる効率解析、回帰モデルの妥当性の確認、PRL(proportional reduction in loss)、二乗平均平方根偏差など、またはこれらの組合せを含む、適切な回帰を使用することができる。一部の実施形態では、回帰直線を生成する。ある特定の実施形態では、回帰を生成することは、線形回帰を生成することを含む。ある特定の実施形態では、回帰を生成することは、非線形回帰(例えば、LOESS回帰、LOWESS回帰)を生成することを含む。
【0225】
一部の実施形態では、回帰により、例えば、GC含有量のカウント数および尺度の間の相関(例えば、線形相関)の存在または非存在を決定する。一部の実施形態では、回帰(例えば、線形回帰)を生成し、相関係数を決定する。一部の実施形態では、その非限定的な例が、決定係数、R2値、ピアソン相関係数などを含む、適切な相関係数を決定する。
【0226】
一部の実施形態では、適合の良さを、回帰(例えば、回帰分析、線形回帰)について決定する。適合の良さは、場合によって、目視分析または数学的分析により決定する。評価は、場合によって、適合の良さが、非線形回帰で大きいのか、線形回帰で大きいのかについて決定することを含む。一部の実施形態では、相関係数は、適合の良さの尺度である。一部の実施形態では、回帰についての適合の良さの評価を、相関係数および/または相関係数のカットオフ値に従って決定する。一部の実施形態では、適合の良さの評価は、相関係数と相関係数のカットオフ値との比較を含む。一部の実施形態では、回帰についての適合の良さの評価は、線形回帰を指し示す。例えば、ある特定の実施形態では、適合の良さは、非線形回帰についてより、線形回帰について大きく、適合の良さの評価は、線形回帰を指し示す。一部の実施形態では、評価は、線形回帰を指し示し、線形回帰を使用して、カウント数を正規化する。一部の実施形態では、回帰についての適合の良さの評価は、非線形回帰を指し示す。例えば、ある特定の実施形態では、適合の良さは、線形回帰についてより、非線形回帰について大きく、適合の良さの評価は、非線形回帰を指し示す。一部の実施形態では、評価は、非線形回帰を指し示し、非線形回帰を使用して、カウント数を正規化する。
【0227】
一部の実施形態では、適合の良さの評価は、相関係数が、相関係数カットオフに等しいかまたはそれ超の場合に線形回帰を指し示す。一部の実施形態では、適合の良さの評価は、相関係数が相関係数カットオフ未満である場合に非線形回帰を指し示す。一部の実施形態では、相関係数カットオフは、所定のカットオフである。一部の実施形態では、相関係数カットオフは、約0.5もしくはそれ超、約0.55もしくはそれ超、約0.6もしくはそれ超、約0.65もしくはそれ超、約0.7もしくはそれ超、約0.75もしくはそれ超、約0.8もしくはそれ超、または約0.85もしくはそれ超である。
【0228】
例えば、ある特定の実施形態では、相関係数が、約0.6に等しいかまたはそれ超の場合に、線形回帰を含む正規化法を使用する。ある特定の実施形態では、相関係数が、0.6の相関係数カットオフに等しいかまたはそれ超の場合は、試料(例えば、参照ゲノム部分1つ当たりのカウント数、部分1つ当たりのカウント数)のカウント数を、線形回帰に従って正規化し、そうでない場合は、カウント数を、非線形回帰に従って正規化する(例えば、係数が、0.6の相関係数カットオフ未満である場合)。一部の実施形態では、正規化処理は、(i)カウント数および(ii)GC含有量、参照ゲノムの複数の部分のうちの各部分についての、線形回帰または非線形回帰を生成することを含む。ある特定の実施形態では、相関係数が、0.6の相関係数カットオフ未満である場合に、非線形回帰(例えば、LOWESS、LOESS)を含む正規化法を使用する。一部の実施形態では、相関係数(例えば、相関係数)が約0.7、約0.65未満、約0.6未満、約0.55未満、または約0.5未満の相関係数カットオフ未満である場合に、非線形回帰(例えば、LOWESS)を含む正規化法を使用する。例えば、一部の実施形態では、相関係数が約0.6の相関係数カットオフ未満である場合に、非線形回帰(例えば、LOWESS、LOESS)を含む正規化法を使用する。
【0229】
一部の実施形態では、回帰の具体的な種類(例えば、線形または非線形回帰)を選択し、回帰を生成した後で、回帰をカウント数から減算することにより、カウント数を正規化する。一部の実施形態では、回帰をカウント数から減算することにより、偏り(例えば、GCの偏り)の低減された、正規化されたカウント数を提示する。一部の実施形態では、線形回帰をカウント数から減算する。一部の実施形態では、非線形回帰(例えば、LOESS、GC-LOESS、LOWESS回帰)をカウント数から減算する。任意の適切な方法を使用して、回帰直線をカウント数から減算することができる。例えば、カウント数xを、0.5のGC含有量を含む部分iから導出し、回帰直線により、GC含有量を0.5とするときのカウント数yを決定し、よって、x-y=部分iについての正規化されたカウント数である。一部の実施形態では、回帰を減算する前に、かつ/または回帰を減算した後で、カウント数を正規化する。一部の実施形態では、ハイブリッド正規化法により正規化されたカウント数を使用して、ゲノム区分のレベル、Zコア、ゲノムまたはそのセグメントのレベルおよび/またはプロファイルを生成する。ある特定の実施形態では、ハイブリッド正規化法により正規化されたカウント数を、本明細書で記載される方法により分析して、遺伝子の変異(例えば、胎仔における)の存在または非存在を決定する。
【0230】
一部の実施形態では、ハイブリッド正規化法は、正規化の前または後における、1つまたは複数の部分をフィルタリングすることまたは重み付けすることを含む。本明細書で記載される部分(例えば、参照ゲノム部分)のフィルタリング法を含む、適切な部分のフィルタリング法を使用することができる。一部の実施形態では、部分(例えば、参照ゲノム部分)は、ハイブリッド正規化法を適用する前にフィルタリングする。一部の実施形態では、選択部分(例えば、カウント数の可変性に従って選択された部分)へとマッピングした配列決定リードのカウント数だけを、ハイブリッド正規化により正規化する。一部の実施形態では、ハイブリッド正規化法を活用する前に、フィルタリングされた参照ゲノム部分(例えば、カウント数の可変性に従ってフィルタリングされた部分)へとマッピングした配列決定リードのカウント数を除外する。一部の実施形態では、ハイブリッド正規化法は、適切な方法(例えば、本明細書で記載される方法)に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、複数の試験試料について部分の各々へとマッピングしたカウント数についての不確定値に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、カウント数の可変性に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、GC含有量、反復エレメント、反復配列、イントロン、エクソンなど、またはこれらの組合せに従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。
【0231】
例えば、一部の実施形態では、複数の妊娠中の雌対象に由来する複数の試料を分析し、部分(例えば、参照ゲノム部分)のサブセットを、カウント数の可変性に従って選択する。ある特定の実施形態では、線形回帰を使用して、(i)カウント数および(ii)GC含有量についての相関係数を、妊娠中の雌対象から得られた試料についての選択部分の各々について決定する。一部の実施形態では、所定の相関カットオフ値(例えば、約0.6の相関カットオフ値)を超える相関係数を決定し、適合の良さの評価により、線形回帰を指し示し、線形回帰をカウント数から減算することによりカウント数を正規化する。ある特定の実施形態では、所定の相関カットオフ値(例えば、約0.6の相関カットオフ値)未満の相関係数を決定し、適合の良さの評価により、非線形回帰を指し示し、LOESS回帰を生成し、LOESS回帰をカウント数から減算することによりカウント数を正規化する。
【0232】
プロファイル
一部の実施形態では、処理するステップは、データセットまたはその派生形の多様な側面(例えば、当技術分野で公知であり、かつ/または本明細書で記載される、1つまたは複数の数学的データ処理ステップおよび/または統計学的データ処理ステップの成果)からの、1つまたは複数のプロファイルの生成(例えば、プロファイルのプロット)を含みうる。
【0233】
本明細書で使用される「プロファイル」という用語は、大量のデータ中のパターンおよび/または相関の同定を容易としうるデータに対する数学的操作および/または統計学的操作の成果を指す。「プロファイル」は、データまたはデータセットに対する、1つまたは複数の参照基準に基づく、1つまたは複数の操作から結果として得られる値を含むことが多い。プロファイルは、複数のデータ点を含むことが多い。データセットの性格および/または複雑性に応じて、任意の適切な数のデータ点を、プロファイルに組み入れることができる。ある特定の実施形態では、プロファイルには、2つまたはそれ超のデータ点、3つもしくはそれ超のデータ点、5つもしくはそれ超のデータ点、10もしくはそれ超のデータ点、24もしくはそれ超のデータ点、25もしくはそれ超のデータ点、50もしくはそれ超のデータ点、100もしくはそれ超のデータ点、500もしくはそれ超のデータ点、1000もしくはそれ超のデータ点、5000もしくはそれ超のデータ点、10,000もしくはそれ超のデータ点、または100,000もしくはそれ超のデータ点を組み入れることができる。
【0234】
一部の実施形態では、プロファイルは、データセットの全体を表示し、ある特定の実施形態では、プロファイルは、データセットの一部またはサブセットを表示する。すなわち、プロファイルは、ある場合には、いかなるデータも除外するようにフィルタリングされていないデータを表示するデータ点を含むかまたはこれらから生成されており、プロファイルは、ある場合には、望ましくないデータを除外するようにフィルタリングされたデータを表示するデータ点を含むかまたはこれらから生成されている。一部の実施形態では、プロファイル中のデータ点は、部分についてのデータ操作の結果を表示する。ある特定の実施形態では、プロファイル中のデータ点は、部分の群についてのデータ操作の結果を含む。一部の実施形態では、部分の群は、互いと隣接することが可能であり、ある特定の実施形態では、部分の群は、染色体またはゲノムの異なる部分に由来しうる。
【0235】
データセットから導出されたプロファイル中のデータ点は、任意の適切なデータの類別を表示しうる。プロファイルデータ点を生成するようにデータを群分けしうる部類の非限定的な例は、サイズに基づく部分、配列特徴(例えば、GC含有量、AT含有量、染色体上の地点(例えば、短腕部、長腕部、セントロメア、テロメア)など)に基づく部分、発現のレベル、染色体など、またはこれらの組合せを含む。一部の実施形態では、プロファイルは、別のプロファイルから得られるデータ点から生成することができる(例えば、再正規化データプロファイルを生成するように、異なる正規化値に従って再正規化された正規化データプロファイル)。ある特定の実施形態では、別のプロファイルから得られるデータ点から生成されたプロファイルにより、データ点の数および/またはデータセットの複雑性を低減する。データ点の数および/またはデータセットの複雑性の低減により、データの解釈が容易となり、かつ/またはアウトカムの提示が容易となることが多い。
【0236】
プロファイル(例えば、ゲノムプロファイル、染色体プロファイル、染色体のセグメントのプロファイル)は、2つまたはそれ超の部分の正規化されたカウント数または正規化されていないカウント数のコレクションであることが多い。プロファイルは、少なくとも1つのレベル(例えば、ゲノム区分のレベル)を含むことが多く、2つまたはそれ超のレベルを含むことが多い(例えば、プロファイルは、複数のレベルを有することが多い)。レベルは一般に、ほぼ同じカウント数または正規化されたカウント数を有する部分のセットについてのレベルである。レベルについては、本明細書でより詳細に記載される。ある特定の実施形態では、プロファイルは、1つまたは複数の部分であって、重み付けするか、除外するか、フィルタリングするか、正規化するか、調整するか、平均するか、平均として導出するか、加算するか、減算するか、処理するか、またはこれらの任意の組合せにより変換しうる部分を含む。プロファイルは、2つまたはそれ超のレベルを規定する部分へとマッピングした正規化されたカウント数を含むことが多く、ここで、カウント数は、適切な方法により、レベルのうちの1つに従ってさらに正規化される。プロファイル(例えば、プロファイルレベル)のカウント数は、不確定値と関連することが多い。
【0237】
1つまたは複数のレベルを含むプロファイルは、場合によって、穴埋め(例えば、ホールの穴埋め)される。穴埋め(例えば、ホールの穴埋め)とは、母体の微小欠失または母体の重複(例えば、コピー数の変異)に起因するプロファイル中のレベルを同定および調整する処理を指す。一部の実施形態では、胎仔の微小重複または胎仔の微小欠失に起因するレベルを穴埋めする。一部の実施形態では、プロファイル中の微小重複または微小欠失により、プロファイル(例えば、染色体プロファイル)の全体的なレベルを人工的に上昇または低下させ、染色体の異数性(例えば、トリソミー)についての、偽陽性または偽陰性の決定をもたらすことができる。一部の実施形態では、微小重複および/または欠失に起因するプロファイル中のレベルを同定し、場合によって、穴埋めまたはホールの穴埋めと称する処理により調整する(例えば、穴埋めおよび/または除外する)。ある特定の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、1つまたは複数の第1のレベルの各々は、母体のコピー数の変異、胎仔のコピー数の変異、または母体のコピー数の変異および胎仔のコピー数の変異を含み、第1のレベルのうちの1または複数を調整する。
【0238】
1つまたは複数のレベルを含むプロファイルは、第1のレベルおよび第2のレベルを含みうる。一部の実施形態では、第1のレベルは、第2のレベルと異なる(例えば、有意に異なる)。一部の実施形態では、第1のレベルは、第1の部分のセットを含み、第2のレベルは、第2の部分のセットを含み、第1の部分のセットは、第2の部分のセットのサブセットではない。ある特定の実施形態では、第1の部分のセットは、第2の部分のセットと異なり、これらから第1のレベルおよび第2のレベルが決定される。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと異なる(例えば、有意に異なる、例えば、有意に異なる値を有する)複数の第1のレベルを有しうる。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、第1のレベルのうちの1または複数を調整する。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、1つまたは複数の第1のレベルの各々は、母体のコピー数の変異、胎仔のコピー数の変異、または母体のコピー数の変異および胎仔のコピー数の変異を含み、第1のレベルのうちの1または複数を調整する。一部の実施形態では、プロファイル中の第1のレベルを、プロファイルから除外するかまたは調整する(例えば、穴埋めする)。プロファイルは、1つまたは複数の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含む複数のレベルを含むことが可能であり、プロファイル中のレベルの大半は、互いとほぼ等しい第2のレベルであることが多い。一部の実施形態では、プロファイル中のレベルのうちの50%超、60%超、70%超、80%超、90%超または95%超は、第2のレベルである。
【0239】
プロファイルは、場合によって、プロットとして示される。例えば、部分のカウント数(例えば、正規化されたカウント数)を表示する1つまたは複数のレベルは、プロットし、視覚化することができる。生成されうるプロファイルのプロットの非限定的な例は、未処理のカウント数(例えば、未処理のカウント数プロファイルまたは未処理のプロファイル)、正規化されたカウント数、部分重み、zスコア、p値、適合させた倍数性と対比した面積比、適合させた胎仔フラクションと測定胎仔フラクションとの比と対比した中央値レベル、主成分など、またはこれらの組合せを含む。一部の実施形態では、プロファイルのプロットにより、操作データの視覚化が可能となる。ある特定の実施形態では、プロファイルのプロットを活用して、アウトカム(例えば、適合させた倍数性と対比した面積比、適合させた胎仔フラクションと測定胎仔フラクションとの比と対比した中央値レベル、主成分)を提示することができる。本明細書で使用される「未処理のカウント数プロファイルのプロット」または「未処理のプロファイルのプロット」という用語は、領域中の全カウント数に従って正規化された、領域中の各部分(例えば、ゲノム、部分、染色体、参照ゲノムの染色体部分、または染色体のセグメント)中のカウント数のプロットを指す。一部の実施形態では、プロファイルは、スタティックウィンドウ処理を使用して生成することができ、ある特定の実施形態では、プロファイルは、スライディングウィンドウ処理を使用して生成することができる。
【0240】
試験対象について生成されたプロファイルは、場合によって、1つまたは複数の参照対象について生成されたプロファイルと比較して、データセットの数学的操作および/もしくは統計学的操作の解釈を容易とし、かつ/またはアウトカムを提示する。一部の実施形態では、プロファイルは、1つまたは複数の出発仮定(例えば、母体の核酸寄与(例えば、母体のフラクション)、胎仔の核酸寄与(例えば、胎仔フラクション)、参照試料の倍数性など、またはこれらの組合せ)に基づき生成する。ある特定の実施形態では、試験プロファイルは、遺伝子の変異の非存在を表示する所定の値を中心とすることが多く、試験対象が遺伝子の変異を保有したとする場合に、試験対象において遺伝子の変異が位置するゲノム位置に対応するエリア中の所定の値からは逸脱することが多い。遺伝子の変異と関連する医学的状態の危険性があるか、またはこれを患っている試験対象では、選択部分についての数値が、罹患していないゲノム位置についての所定の値から有意に変化することが期待される。出発仮定(例えば、一定の倍数性もしくは最適化された倍数性、一定の胎仔フラクションもしくは最適化された胎仔フラクション、またはこれらの組合せ)に応じて、遺伝子の変異の存在または非存在を指し示す所定の閾値もしくはカットオフ値または閾値の範囲は、遺伝子の変異の存在または非存在を決定するために有用なアウトカムをやはり提示しながらも、変化しうる。一部の実施形態では、プロファイルは、表現型を指し示し、かつ/またはこれを表示する。
【0241】
非限定的な例として述べると、正規化された試料および/または参照カウント数プロファイルは、(a)遺伝子の変異を保有しないことが既知である参照のセットから選択された染色体、部分、またはこれらのセグメントについての、参照カウント数中央値を計算すること、(b)情報をもたらさない部分の、参照試料の未処理のカウント数からの除外(例えば、フィルタリング)、(c)残りの全ての参照ゲノム部分についての参照カウント数を、参照試料、選択された染色体、または選択されたゲノム位置についての、残りカウント数の総数(例えば、情報を与えない参照ゲノム部分を除外した後の残りのカウント数の合計)に従って正規化し、これにより、正規化された参照対象プロファイルを生成すること、(d)対応する部分を試験対象試料から除外すること、および(e)1つまたは複数の選択されたゲノム位置についての、残りの試験対象カウント数を、選択されたゲノム位置を含有する1つまたは複数の染色体についての、残りの参照カウント数中央値の合計に従って正規化し、これにより、正規化された試験対象プロファイルを生成することにより、未処理の配列のリードデータから得ることができる。ある特定の実施形態では、(b)における部分のフィルタリングにより縮減された全ゲノムに関する、さらなる正規化ステップを、(c)と(d)との間に組み入れることができる。
【0242】
データセットプロファイルは、カウントされたマッピングした配列のリードデータに対する1つまたは複数の操作により生成することができる。一部の実施形態は、以下を含む:配列のリードをマッピングし、各ゲノム部分へとマッピングされる配列タグの数を決定する(例えば、カウントする)。未処理のカウント数プロファイルを、カウントされたマッピングした配列のリードから生成する。ある特定の実施形態では、試験対象に由来する未処理のカウント数プロファイルを、遺伝子の変異を保有しないことが既知である、参照対象のセットに由来する、染色体、部分、またはこれらのセグメントについての、参照カウント数中央値プロファイルと比較することにより、アウトカムを提示する。
【0243】
一部の実施形態では、配列のリードデータは、ノイズデータまたは情報をもたらさない部分を除外するように、任意選択でフィルタリングする。フィルタリングの後、残りのカウント数を足し合わせて、フィルタリングされたデータセットを生成することが典型的である。ある特定の実施形態では、フィルタリングされたカウント数プロファイルを、フィルタリングされたデータセットから生成する。
【0244】
配列のリードデータをカウントし、任意選択でフィルタリングした後で、データセットを正規化して、レベルまたはプロファイルを生成することができる。1つまたは複数の選択部分を、適切な正規化された参照値に従って正規化することにより、データセットを正規化することができる。一部の実施形態では、正規化された参照値は、部分が選択される1つまたは複数の染色体についての全カウント数を表示する。ある特定の実施形態では、正規化された参照値は、遺伝子の変異を保有しないことが既知である、参照対象のセットから調製された、参照データセットに由来する1つまたは複数の染色体の部分である、1つまたは複数の対応する部分を表示する。一部の実施形態では、正規化された参照値は、遺伝子の変異の存在または非存在について分析される試験対象から調製された、試験対象データセットに由来する、1つまたは複数の染色体の部分である、1つまたは複数の対応する部分を表示する。ある特定の実施形態では、正規化処理は、スタティックウィンドウ法を活用して実施し、一部の実施形態では、正規化処理は、ムービングウィンドウ法またはスライディングウィンドウ法を活用して実施する。ある特定の実施形態では、正規化されたカウント数を含むプロファイルを生成して、アウトカムの分類および/または提示を容易とする。アウトカムは、正規化されたカウント数を含むプロファイルのプロットに基づき(例えば、このようなプロファイルのプロットを使用して)提示することができる。
【0245】
レベル
一部の実施形態では、値(例えば、数、定量的値)を、レベルに帰する。レベルは、適切な方法、演算、または数学的処理(例えば、処理されたレベル)により決定することができる。レベルは、部分のセットについてのカウント数(例えば、正規化されたカウント数)であるか、またはこれから導出されることが多い。一部の実施形態では、部分のレベルは、部分へとマッピングしたカウント数(例えば、カウント数、正規化されたカウント数)の総数と実質的に等しい。レベルは、当技術分野で公知の適切な方法、演算、または数学的処理により処理、変換、または操作されたカウント数から決定することが多い。一部の実施形態では、レベルは、処理されたカウント数から導出し、処理されたカウント数の非限定的な例は、重み付けされるか、除外されるか、フィルタリングされるか、正規化されるか、調整されるか、平均されるか、平均として導出される(例えば、平均レベル)か、加算されるか、減算されるか、変換されたカウント数、またはこれらの組合せを含む。一部の実施形態では、レベルは、正規化されたカウント数(例えば、部分の正規化されたカウント数)を含む。レベルは、その非限定的な例が、部分に関する正規化、GC含有量による正規化、カウント数中央値正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS(例えば、GC LOESS)、LOWESS、PERUN、ChAI、主成分正規化、RM、GCRM、cQnなど、および/またはこれらの組合せを含む、適切な処理により正規化されたカウント数についてのレベルでありうる。レベルは、正規化されたカウント数またはカウント数の相対量を含みうる。一部の実施形態では、レベルは、平均された、2つもしくはそれ超の部分のカウント数または正規化されたカウント数についてのレベルであり、レベルを、平均値レベルと称する。一部の実施形態では、レベルは、平均カウント数または正規化されたカウント数の平均を有する部分のセットについてのレベルであり、これを、平均レベルと称する。一部の実施形態では、レベルを、未処理のカウント数および/またはフィルタリングされたカウント数を含む部分について導出する。一部の実施形態では、レベルは、未処理のカウント数であるカウント数に基づく。一部の実施形態では、レベルは、不確定値(例えば、標準偏差、MAD)と関連する。一部の実施形態では、レベルを、Zスコアまたはp値により表示する。本明細書では、1つまたは複数の部分についてのレベルは、「ゲノム区分のレベル」と同義である。
【0246】
1つまたは複数の部分についてのレベルは、本明細書の「ゲノム区分のレベル」と同義である。用語「レベル」は、本明細書で使用する場合、時には、用語「上昇」と同義である。用語「レベル」の意味の決定は、それが使用されている文脈から決定することができる。例えば、用語「レベル」は、ゲノム区分、プロファイル、リード、および/またはカウント数という文脈で使用される場合、上昇を意味することが多い。用語「レベル」は、物質または組成物(例えば、RNAのレベル、プレックス化レベル)という文脈で使用される場合、量を指すことが多い。用語「レベル」は、不確定性(例えば、エラーのレベル、信頼度、偏差のレベル、不確定性のレベル)という文脈で使用される場合、量を指すことが多い。
【0247】
2つまたはそれ超のレベル(例えば、2つまたはそれ超のプロファイル中のレベル)についての正規化されたカウント数または正規化されていないカウント数は、場合によって、レベルに従って、数学的に操作する(例えば、これに加算する、これに乗算する、これを平均する、これを正規化するなど、またはこれらの組合せ)ことができる。例えば、2つまたはそれ超のレベルについての正規化されたカウント数または正規化されていないカウント数は、プロファイル中のレベルの1つ、一部、または全部に従って正規化することができる。一部の実施形態では、プロファイル中の全てのレベルについての正規化されたカウント数または正規化されていないカウント数を、プロファイル中の1つのレベルに従って正規化する。一部の実施形態では、プロファイル中の第1のレベルについての正規化されたカウント数または正規化されていないカウント数を、プロファイル中の第2のレベルについての正規化されたカウント数または正規化されていないカウント数に従って正規化する。
【0248】
レベル(例えば、第1のレベル、第2のレベル)の非限定的な例は、処理されたカウント数を含む部分のセットについてのレベル、カウント数の平均、中央値、もしくは平均値を含む部分のセットについてのレベル、正規化されたカウント数を含む部分のセットについてのレベルなど、またはこれらの任意の組合せである。一部の実施形態では、プロファイル中の第1のレベルおよび第2のレベルは、同じ染色体へとマッピングした部分のカウント数から導出する。一部の実施形態では、プロファイル中の第1のレベルおよび第2のレベルは、異なる染色体へとマッピングした部分のカウント数から導出する。
【0249】
一部の実施形態では、レベルを、1つまたは複数の部分へとマッピングした正規化されたカウント数または正規化されていないカウント数から決定する。一部の実施形態では、レベルを、2つまたはそれ超の部分へとマッピングした正規化されたカウント数または正規化されていないカウント数から決定するが、ここで、各部分の正規化されたカウント数は、ほぼ同じであることが多い。レベルについての部分のセット中のカウント数(例えば、正規化されたカウント数)には、ばらつきが見られる場合がある。レベルについての部分のセット内には、セットの他の部分(例えば、ピークおよび/またはディップ)内とは、カウント数が有意に異なる1つまたは複数の部分が見られる場合がある。任意の適切な数の部分と関連する、任意の適切な数の正規化されたカウント数または正規化されていないカウント数は、レベルを規定しうる。
【0250】
一部の実施形態では、1つまたは複数のレベルは、ゲノムの部分の全部または一部の正規化されたカウント数または正規化されていないカウント数から決定することができる。レベルは、染色体またはそのセグメントの正規化されたカウント数または正規化されていないカウント数の全部または一部から決定しうることが多い。一部の実施形態では、2つまたはそれ超の部分(例えば、部分のセット)から導出された、2つまたはそれ超のカウント数により、レベルを決定する。一部の実施形態では、2つまたはそれ超のカウント数(例えば、2つまたはそれ超の部分に由来するカウント数)により、レベルを決定する。一部の実施形態では、2~約100,000の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、2~約50,000、2~約40,000、2~約30,000、2~約20,000、2~約10,000、2~約5000、2~約2500、2~約1250、2~約1000、2~約500、2~約250、2~約100、または2~約60の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、約10~約50の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、約20~約40またはそれ超の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、レベルは、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60またはそれ超の部分に由来するカウント数を含む。一部の実施形態では、レベルは、部分のセット(例えば、参照ゲノムの部分のセット、染色体の部分のセット、または染色体のセグメントの部分のセット)に対応する。
【0251】
一部の実施形態では、レベルを、連続的な部分の正規化されたカウント数または正規化されていないカウント数について決定する。一部の実施形態では、連続的な部分(例えば、部分のセット)は、ゲノムの隣接セグメントまたは染色体もしくは遺伝子の隣接セグメントを表示する。例えば、2つまたはそれ超の連続的な部分は、部分を末端から末端へと統合することにより整列させる場合、各部分より長いDNA配列の配列アセンブリーを表示する可能性がある。例えば、2つまたはそれ超の連続的な部分は、無傷ゲノム、染色体、遺伝子、イントロン、エクソン、またはそのセグメントを表示しうる。一部の実施形態では、レベルを、連続的な部分および/または非連続的な部分のコレクション(例えば、セット)から決定する。
【0252】
アウトカム
本明細書で記載される方法により、試料についての、遺伝子の変異の存在または非存在の決定(例えば、胎仔の異数性)をもたらすことができ、これにより、アウトカムを提示する(例えば、これにより、遺伝子の変異(例えば、胎仔の異数性)の存在または非存在を決定するアウトカムを提示する)ことができる。遺伝子の変異は、遺伝子情報(例えば、染色体、染色体のセグメント、多型領域、転座領域、ヌクレオチド配列の変化など、または前出の組合せ)の獲得、喪失、および/または変化(例えば、重複、欠失、統合、挿入、突然変異、再構成、置換、またはメチル化の異常)であって、参照に対する、試験対象のゲノム情報または遺伝子情報の検出可能な変化を結果としてもたらす、遺伝子情報の獲得、喪失、および/または変化を含むことが多い。遺伝子の変異の存在または非存在は、部分へとマッピングした配列のリード(例えば、カウント数、参照ゲノムのゲノムの部分のカウント数)を変換、分析、および/または操作することにより決定することができる。一部の実施形態では、アウトカムを決定することは、妊娠中の雌に由来する核酸を分析することを含む。ある特定の実施形態では、アウトカムを、妊娠中の雌から得られたカウント数(例えば、正規化されたカウント数、リード密度、リード密度プロファイル)であって、妊娠中の雌から得られた核酸によるカウント数に従って決定する。
【0253】
本明細書で記載される方法は、場合によって、胎仔を出産する妊娠中の雌による試験試料について、胎仔の異数性の存在または非存在(例えば、完全な染色体異数性、部分的な染色体異数性、またはセグメント的な染色体異常(例えば、モザイク、欠失、および/または挿入))を決定する。ある特定の実施形態では、本明細書で記載される方法により、胎仔を出産する妊娠中の雌による試料について、正倍数性または正倍数性の欠如(非正倍数性)を検出する。本明細書で記載される方法では、場合によって、1つもしくは複数の染色体(例えば、第13染色体、第18染色体、第21染色体またはこれらの組合せ)またはそのセグメントについて、トリソミーを検出する。
【0254】
一部の実施形態では、遺伝子の変異(例えば、胎仔の異数性)の存在または非存在を、本明細書で記載される方法、当技術分野で公知の方法、またはこれらの組合せにより決定する。遺伝子の変異の存在または非存在は一般に、参照ゲノム部分へとマッピングした配列のリードのカウント数から決定する。
【0255】
参照からのリード密度は、時には、試験試料が得られる同じ妊娠中の雌に由来する核酸試料についてのものである。ある特定の実施形態では、参照からのリード密度は、試験試料が得られた雌と異なる1つまたは複数の妊娠中の雌に由来する核酸試料についてのものである。一部の実施形態では、試験対象に由来する部分の第1のセットからのリード密度および/またはリード密度プロファイルを、部分の第2のセットからのリード密度および/またはリード密度プロファイルと比較し、ここで部分の第2のセットは、部分の第1のセットと異なる。一部の実施形態では、試験対象に由来する部分の第1のセットからのリード密度および/またはリード密度プロファイルを、部分の第2のセットからのリード密度および/またはリード密度プロファイルと比較し、ここで部分の第2のセットは、試験対象に由来し、または試験対象ではない参照対象に由来する。第1の部分のセットが、第21染色体中またはそのセグメント中にある、非限定的な例では、第2の部分のセットは、別の染色体(例えば、第1染色体、第13染色体、第14染色体、第18染色体、第19染色体、そのセグメント、または前出の組合せ)中にあることが多い。参照は、正倍数体であることが典型的な染色体中またはそのセグメント中に位置することが多い。例えば、第1染色体および第19染色体は、胎仔では、第1染色体異数性および第19染色体異数性と関連する、早期の胎仔の死亡率が高率であることに起因して、正倍数体であることが多い。試験対象に由来するリード密度および/またはリード密度プロファイルと参照との間の不確定性の尺度は、生成および/または比較することができる。遺伝子の変異(例えば、胎仔の異数性)の存在または非存在は、時には、試験対象に由来するリード密度および/またはリード密度プロファイルを参照と比較することなく決定される。
【0256】
ある特定の実施形態では、参照は、試験対象についてと同じ部分のセットについてのリード密度および/またはリードプロファイルを含み、この場合、参照についてのリード密度は、1つまたは複数の参照試料(例えば、しばしば、複数の参照対象に由来する複数の参照試料)に由来する。参照試料は、試験試料を得る雌と異なる、1例または複数例の妊娠中の雌に由来することが多い。
【0257】
試験対象および/または参照のリード密度および/またはリードプロファイルについての不確定性の尺度は、生成することができる。一部の実施形態では、不確定性の尺度を、試験対象のリード密度および/またはリードプロファイルについて決定する。一部の実施形態では、不確定性の尺度を、参照対象のリード密度および/またはリードプロファイルについて決定する。一部の実施形態では、不確定性の尺度を、リード密度プロファイル全体、またはリード密度プロファイルの範囲内の部分のサブセットから決定する。
【0258】
一部の実施形態では、参照試料は、ゲノムの選択されたセグメントについて正倍数体であり、試験プロファイルと参照プロファイルとの間の不確定性の尺度を、選択されたセグメントについて評価する。一部の実施形態では、遺伝子の変異の存在または非存在の決定は、ゲノムの選択されたセグメント(例えば、染色体またはそのセグメント)についての試験プロファイルと参照プロファイルとの偏差(例えば、偏差の尺度、MAD)の数に従う。一部の実施形態では、試験プロファイルと参照プロファイルとの偏差の数が、約1超、約1.5超、約2超、約2.5超、約2.6超、約2.7超、約2.8超、約2.9超、約3超、約3.1超、約3.2超、約3.3超、約3.4超、約3.5超、約4超、約5超、または約6超である場合に、遺伝子の変異の存在を決定する。例えば、場合によって、試験プロファイルと参照プロファイルが、偏差の尺度(例えば、3シグマ、3MAD)で3超異なれば、遺伝子の変異の存在を決定する。一部の実施形態では、妊娠中の雌から得られる試験プロファイルが、参照プロファイルより、偏差の尺度(例えば、3シグマ、3MAD)で3超大きければ、胎仔の染色体異数性(例えば、胎仔のトリソミー)の存在が決定される。試験プロファイルと参照プロファイルとの3超の偏差は、ゲノムの選択されたセグメントについて非正倍数体の試験対象(例えば、遺伝子の変異の存在)を指し示すことが多い。場合によって、参照が選択されたセグメントについて正倍数体である、ゲノムの選択されたセグメントについての参照プロファイルを有意に上回る試験プロファイルにより、トリソミーが決定される。一部の実施形態では、妊娠中の雌から得られるリード密度プロファイルが、選択されたセグメントについての参照プロファイルより偏差の尺度(例えば、3シグマ、3MAD)で3超小さければ、胎仔の染色体異数性(例えば、胎仔のモノソミー)の存在が決定される。場合によって、正倍数性を指し示す参照プロファイルを有意に下回る試験プロファイルにより、モノソミーが決定される。
【0259】
一部の実施形態では、ゲノムの選択されたセグメントについての試験プロファイルと参照プロファイルとの偏差の数が、約3.5未満、約3.4未満、約3.3未満、約3.2未満、約3.1未満、約3.0未満、約2.9未満、約2.8未満、約2.7未満、約2.6未満、約2.5未満、約2.0未満、約1.5未満、または約1.0未満である場合に、遺伝子の変異の非存在を決定する。例えば、場合によって、試験プロファイルが参照プロファイルと、偏差の尺度(例えば、3シグマ、3MAD)で3未満異なれば、遺伝子の変異の非存在が決定される。一部の実施形態では、妊娠中の雌から得られる試験プロファイルが、参照プロファイルと、偏差の尺度(例えば、3シグマ、3MAD)で3未満異なれば、胎仔の染色体異数性の非存在(例えば、胎仔の正倍数体)が決定される。一部の実施形態では、(例えば、試験プロファイルと参照プロファイルとの3未満の偏差(例えば、標準偏差では、3シグマ)は、正倍数体であるゲノムのセグメント(例えば、遺伝子の変異の非存在)を指し示すことが多い。試験試料についての試験プロファイルと、1つまたは複数の参照対象についての参照プロファイルとの偏差の尺度は、プロットし、視覚化する(例えば、zスコアプロット)ことができる。
【0260】
他の任意の適切な参照は、試験試料の試験領域(例えば、試験されるゲノムのセグメント)について、遺伝子の変異の存在または非存在を決定する(または正倍数体もしくは非正倍数体の決定の)ための試験プロファイルで因子分解することができる。一部の実施形態では、胎仔フラクションの決定は、配列のリードのカウント数(例えば、リード密度)で因子分解して、遺伝子の変異の存在または非存在を決定することができる。例えば、リード密度および/またはリード密度プロファイルを、アウトカムを比較および/または決定する前に、胎仔フラクションに従って正規化することができる。胎仔フラクションを定量化するための適切な処理であって、その非限定的な例が、質量分析処理、配列決定処理、またはこれらの組合せを含む処理を活用することができる。
【0261】
一部の実施形態では、遺伝子の変異の存在または非存在の決定(例えば、胎仔の異数性)を、判定域に従って決定する。ある特定の実施形態では、値(例えば、リード密度プロファイルおよび/もしくは不確定性の尺度)または値のコレクションが、あらかじめ規定された範囲(例えば、帯域、判定域)内にある場合に、判定(例えば、遺伝子の変異の存在または非存在を決定する判定、例えば、アウトカム)を下す。一部の実施形態では、判定域を、同じ患者試料から得られる値のコレクション(例えば、リード密度プロファイルおよび/もしくは不確定性の尺度)に従って規定する。ある特定の実施形態では、判定域を、同じ染色体またはそのセグメントから導出される値のコレクションに従って規定する。一部の実施形態では、遺伝子の変異の決定に基づく判定域を、不確定性の尺度(例えば、高い信頼性レベル、例えば、低い不確定性の尺度)および/または胎仔フラクションに従って規定する。
【0262】
一部の実施形態では、判定域を、遺伝子の変異の決定および約2.0%もしくはそれ超、約2.5%もしくはそれ超、約3%もしくはそれ超、約3.25%もしくはそれ超、約3.5%もしくはそれ超、約3.75%もしくはそれ超、または約4.0%もしくはそれ超の胎仔フラクションに従って規定する。例えば、一部の実施形態では、試験プロファイルが導出された試験試料が、胎仔を出産する妊娠中の雌から得られた試験試料についての、2%もしくはそれ超または4%もしくはそれ超の胎仔フラクションの決定を含む場合、試験プロファイルと参照プロファイルとの比較に基づき、胎仔は、21トリソミーを含むという判定を下す。例えば、一部の実施形態では、試験プロファイルが導出された試験試料が、胎仔を出産する妊娠中の雌から得られた試験試料についての、2%もしくはそれ超または4%もしくはそれ超の胎仔フラクションの決定を含む場合、試験プロファイルと参照プロファイルとの比較に基づき、胎仔は、正倍数体であるという判定を下す。一部の実施形態では、判定域は、約99%もしくはそれ超、約99.1%もしくはそれ超、約99.2%もしくはそれ超、約99.3%もしくはそれ超、約99.4%もしくはそれ超、約99.5%もしくはそれ超、約99.6%もしくはそれ超、約99.7%もしくはそれ超、約99.8%もしくはそれ超、または約99.9%もしくはそれ超の信頼性レベルにより規定する。一部の実施形態では、判定域を使用せずに判定を下す。一部の実施形態では、判定域およびさらなるデータまたは情報を使用して判定を下す。一部の実施形態では、判定域の使用を伴わずに、比較に基づき判定を下す。一部の実施形態では、プロファイルの目視(例えば、リード密度の目視)に基づき判定を下す。
【0263】
一部の実施形態では、判定を下さない場合、判定域は存在しない。一部の実施形態では、無判定域は、低い精度、高い危険性、大きな誤差、低い信頼性レベル、高い不確定性の尺度など、またはこれらの組合せを指し示す値または値のコレクションにより規定される。一部の実施形態では、無判定域は、約5%もしくはそれ未満、約4%もしくはそれ未満、約3%もしくはそれ未満、約2.5%もしくはそれ未満、約2.0%もしくはそれ未満、約1.5%もしくはそれ未満、または約1.0%もしくはそれ未満の胎仔フラクションにより部分的に規定される。
【0264】
遺伝子の変異は、場合によって、医学的状態と関連する。遺伝子の変異を決定するアウトカムは、場合によって、状態(例えば、医学的状態)、疾患、症候群、もしくは異常の存在または非存在を決定するアウトカムであるか、または状態、疾患、症候群、もしくは異常(例えば、表1に列挙された非限定的な例)の検出を含む。ある特定の実施形態では、診断は、アウトカムについての評価を含む。本明細書で記載される方法により状態(例えば、医学的状態)、疾患、症候群、または異常の存在または非存在を決定するアウトカムは、場合によって、さらに調べることにより(例えば、核型分析および/または羊水穿刺により)、独立に検証することができる。データの分析および処理は、1つまたは複数のアウトカムを提示しうる。本明細書で使用される「アウトカム」という用語は、遺伝子の変異(例えば、異数性、コピー数の変異)の存在または非存在を決定することを容易とする、データ処理の結果を指す場合がある。ある特定の実施形態では、本明細書で使用される「アウトカム」という用語は、遺伝子の変異(例えば、異数性、コピー数の変異)の存在または非存在を予測および/または決定する結論を指す。ある特定の実施形態では、本明細書で使用される「アウトカム」という用語は、対象(例えば、胎仔)における遺伝子の変異の存在または非存在(例えば、異数性、コピー数の変異)の危険性または確率を予測および/または決定する結論を指す。診断は、場合によって、アウトカムの使用を含む。例えば、医療関係者は、アウトカムを分析し、アウトカムに基づくか、またはアウトカムに部分的に基づき、診断を提示することができる。一部の実施形態では、状態、症候群、または異常(例えば、表1に列挙された)についての決定、検出、または診断は、遺伝子の変異の存在または非存在を決定するアウトカムの使用を含む。一部の実施形態では、カウントされた、マッピングした配列のリードまたはその変換に基づくアウトカムは、遺伝子の変異の存在または非存在を決定する。ある特定の実施形態では、本明細書で記載される1つまたは複数の方法(例えば、データ処理法)を活用して生成されたアウトカムは、表1に列挙された1つまたは複数の状態、症候群、または異常の存在または非存在を決定する。ある特定の実施形態では、診断は、状態、症候群、または異常の存在または非存在の決定を含む。診断は、状態、症候群、または異常の性質および/または原因としての遺伝子の変異の決定を含むことが多い。ある特定の実施形態では、アウトカムは、診断ではない。1つまたは複数の確率の検討の文脈では、アウトカムは、本明細書で記載される処理法を使用して生成される1つまたは複数の数値を含むことが多い。危険性または確率の検討は、不確定性の尺度、信頼性レベル、感度、特異度、標準偏差、変異係数(CV)および/または信頼性レベル、Zスコア、カイ値、phi値、倍数性値、適合させた胎仔フラクション、面積比、中央値レベルなど、またはこれらの組合せを含みうるがこれらに限定されない。確率の検討は、対象に遺伝子の変異を有する危険性があるかまたは対象が遺伝子の変異を有するのかどうかを決定することを容易とすることが可能であり、遺伝子障害の存在または非存在を決定するアウトカムは、このような検討を含むことが多い。
【0265】
アウトカムは、場合によって、表現型である。アウトカムは、場合によって、関連する信頼性レベル(例えば、不確定の尺度、例えば、胎仔は、99%の信頼性レベルで21トリソミーについて陽性であり、試験対象は、95%の信頼性レベルで、遺伝子の変異と関連するがんについて陰性である)を有する表現型である。アウトカム値を生成する異なる方法は、場合によって、異なる種類の結果をもたらしうる。一般に、本明細書で記載される方法を使用して生成されるアウトカム値に基づき下されうる4種類の可能なスコアまたは判定:真陽性、偽陽性、真陰性、および偽陰性が存在する。本明細書で使用される「スコア(score)」、「スコア(scores)」、「判定(call)」、および「判定(calls)」という用語は、特定の遺伝子の変異が、対象/試料に存在するかまたは非存在である確率を計算することを指す。スコアの値を使用して、例えば、遺伝子の変異に対応しうる、マッピングした配列のリードの変異、差違、または比を決定することができる。例えば、データセットに由来する、選択された遺伝子の変異または部分について、参照ゲノムに対して正のスコアを計算することにより、場合によって、医学的状態と関連する、遺伝子の変異(例えば、がん、子癇前症、トリソミー、モノソミーなど)の存在または非存在の同定をもたらすことができる。一部の実施形態では、アウトカムは、リード密度、リード密度プロファイル、および/またはプロット(例えば、プロファイルのプロット)を含む。アウトカムが、プロファイルを含む実施形態では、適切なプロファイルまたはプロファイルの組合せを、アウトカムのために使用することができる。アウトカムのために使用されうる、プロファイルの非限定的な例は、zスコアプロファイル、p値プロファイル、カイ値プロファイル、phi値プロファイルなど、およびこれらの組合せを含む。
【0266】
遺伝子の変異の存在または非存在を決定するために生成されたアウトカムは、場合によって、ヌルの結果(例えば、2つのクラスター間のデータ点、遺伝子の変異の存在および非存在の両方についての値を包摂する標準偏差を有する数値、探索される遺伝子の変異を有するかまたは含まない対象についてのプロファイルのプロットと同様ではないプロファイルのプロットを有するデータセット)を含む。一部の実施形態では、ヌルの結果を指し示すアウトカムもやはり決定をもたらす結果であり、決定は、遺伝子の変異の存在または非存在を決定するためのさらなる情報および/またはデータ生成の反復および/または分析に対する必要を含みうる。
【0267】
一部の実施形態では、アウトカムは、本明細書で記載される、1つまたは複数の処理ステップを実施した後で生成することができる。ある特定の実施形態では、アウトカムは、本明細書で記載される処理ステップのうちの1つの結果として生成し、一部の実施形態では、アウトカムは、データセットの各統計学的操作および/または各数学的操作を実施した後で生成することができる。遺伝子の変異の存在または非存在の決定に関するアウトカムは、限定せずに述べると、確率(例えば、オッズ比、p値)、尤度、クラスター中またはクラスター外の値、閾値を上回る値または閾値を下回る値、範囲(例えば、閾値範囲)内の値、分散の尺度または信頼性を有する値、または対象もしくは試料についての遺伝子の変異の存在もしくは非存在と関連する危険性因子を含む、適切な形態で表すことができる。ある特定の実施形態では、試料間の比較は、試料の識別の確認を可能とする(例えば、反復された試料および/または混合された試料(例えば、誤表示された試料、組み合わされた試料など)の同定を可能とする)。
【0268】
一部の実施形態では、アウトカムは、所定の閾値またはカットオフ値を上回るかまたは下回る値、および/または値と関連する不確定性のレベルもしくは信頼性レベルを含む。ある特定の実施形態では、所定の閾値またはカットオフ値は、期待レベルまたは期待レベルの範囲である。アウトカムはまた、データ処理において使用される仮定についても記載しうる。ある特定の実施形態では、アウトカムは、所定の値の範囲(例えば、閾値範囲)内または範囲外にある値、および範囲内または範囲外にあるその値についての、関連する不確定性のレベルまたは信頼性レベルを含む。一部の実施形態では、アウトカムは、所定の値に等しい(例えば、1に等しい、ゼロに等しい)か、または所定の値の範囲内の値に等しい値、および等しいかまたは範囲内にあるかもしくは範囲外にあるその値についての、その関連する不確定性のレベルまたは信頼性レベルを含む。アウトカムは、場合によって、プロット(例えば、プロファイルのプロット)としてグラフ的に表される。
【0269】
上記で注目した通り、アウトカムは、真陽性、真陰性、偽陽性、または偽陰性として特徴づけることができる。本明細書で使用される「真陽性」という用語は、遺伝子の変異を有する対象と正しく診断された対象を指す。本明細書で使用される「偽陽性」という用語は、遺伝子の変異を有する対象として誤って同定された対象を指す。本明細書で使用される「真陰性」という用語は、遺伝子の変異を有さない対象として正しく同定された対象を指す。本明細書で使用される「偽陰性」という用語は、遺伝子の変異を有さない対象として誤って同定された対象を指す。任意の所与の方法についての効能の2つの尺度は、(i)一般に、予測された陽性の割合であって、陽性として正しく同定された割合である感度値;および(ii)一般に、予測された陰性の割合であって、陰性として正しく同定された割合である特異度値の発生比に基づき計算することができる。
【0270】
ある特定の実施形態では、感度、特異度、および/または信頼性レベルのうちの1または複数は、百分率として表される。一部の実施形態では、百分率は、各変数について独立に、約90%超(例えば、約90、91、92、93、94、95、96、97、98、もしくは99%、または99%超(例えば、約99.5%またはそれ超、約99.9%またはそれ超、約99.95%またはそれ超、約99.99%またはそれ超))である。一部の実施形態では、変異係数(CV)は、百分率として表され、場合によって、百分率は、約10%またはそれ未満(例えば、約10、9、8、7、6、5、4、3、2、もしくは1%、または1%未満(例えば、約0.5%またはそれ未満、約0.1%またはそれ未満、約0.05%またはそれ未満、約0.01%またはそれ未満))である。ある特定の実施形態では、確率(例えば、特定のアウトカムが、偶然に起因しない確率)は、Zスコア、p値、またはt検定の結果として表される。一部の実施形態では、アウトカムについての、測定された分散、信頼区間、感度、特異度など(例えば、併せて、信頼性パラメータと称する)は、本明細書で記載される、1つまたは複数のデータ処理操作を使用して生成することができる。アウトカムおよび関連する信頼性レベルを生成することの具体例は、実施例節ならびに本文、表、式、および図面の全てを含むその全内容が参照により本明細書に組み込まれる、国際特許出願第PCT/US12/59123号(WO2013/052913)において記載されている。
【0271】
本明細書で使用される「感度」という用語は、真陽性の数を、真陽性の数に偽陰性の数を加算して得た数で除算して得た数を指し、ここで感度(sens)は、0≦sens≦1の範囲内でありうる。本明細書で使用される「特異度」という用語は、真陰性の数を、真陰性の数に偽陽性の数を加算して得た数で除算して得た数を指し、ここで感度(spec)は、0≦spec≦1の範囲内でありうる。一部の実施形態では、場合によって、感度および特異度が1もしくは100%に等しいか、または1の近傍にある(例えば、約90%~約99%間にある)方法を選択する。一部の実施形態では、感度が1または100%に等しい方法を選択し、ある特定の実施形態では、感度が1の近傍にある(例えば、約90%の感度、約91%の感度、約92%の感度、約93%の感度、約94%の感度、約95%の感度、約96%の感度、約97%の感度、約98%の感度、または約99%の感度である)方法を選択する。一部の実施形態では、特異度が1または100%に等しい方法を選択し、ある特定の実施形態では、特異度が1の近傍にある(例えば、約90%の特異度、約91%の特異度、約92%の特異度、約93%の特異度、約94%の特異度、約95%の特異度、約96%の特異度、約97%の特異度、約98%の特異度、または約99%の特異度である)方法を選択する。
【0272】
一部の実施形態では、遺伝子の変異の存在または非存在(例えば、染色体異数性)を、胎仔について決定する。このような実施形態では、胎仔の遺伝子の変異(例えば、胎仔の染色体異数性)の存在または非存在を決定する。
【0273】
ある特定の実施形態では、試料についての、遺伝子の変異の存在または非存在(例えば、染色体異数性)を決定する。このような実施形態では、試料核酸(例えば、染色体異数性)中の、遺伝子の変異の存在または非存在を決定する。一部の実施形態では、検出される変異または検出されない変異は、1つの供給源に由来する試料核酸中には存在するが、別の供給源に由来する試料核酸中には存在しない。供給源の非限定的な例は、胎盤の核酸、胎仔核酸、母体核酸、がん細胞の核酸、がん細胞以外の核酸など、およびこれらの組合せを含む。非限定的な例では、特定の遺伝子の検出される変異または検出されない変異は、(i)胎盤の核酸中には存在するが、胎仔核酸中には存在せず、母体核酸中にも存在しないか、(ii)胎仔核酸中には存在するが、母体核酸中には存在しないか、または(iii)母体核酸中には存在するが、胎仔核酸中には存在しない。
【0274】
遺伝子の変異の存在もしくは非存在および/または関連した医学的状態(例えば、アウトカム)は、アウトカムモジュールにより提供されることが多い。遺伝子の変異(例えば、異数性、胎仔の異数性、コピー数の変異)の存在または非存在は、一部の実施形態では、アウトカムモジュールまたはアウトカムモジュールを含む機械により同定する。アウトカムモジュールは、特異的な遺伝子の変異(例えば、トリソミー、21トリソミー、18トリソミー)の決定に特化し得る。例えば、21トリソミーを同定するアウトカムモジュールは、18トリソミーを同定するアウトカムモジュールとは異なり得、かつ/または相違し得る。一部の実施形態では、アウトカムモジュールまたはアウトカムモジュールを含む機械は、遺伝子の変異または遺伝子の変異の決定的なアウトカム(例えば、異数性、コピー数の変異)を同定するように要求される。ある特定の実施形態では、アウトカムをアウトカムモジュールからディスプレイモジュールに移送し、そこで、アウトカムがディスプレイモジュールにより提供される。
【0275】
本明細書に記載する方法により同定される遺伝子の変異または遺伝子の変異の決定的なアウトカムは、さらなる試験により(例えば、母体核酸および/または胎仔核酸の標的化配列決定により)独立して検証され得る。アウトカムは、医療従事者(例えば、検査室技師または管理者;医師または助手)へと提供することが典型的である。ある特定の実施形態では、アウトカムを、適切な可視的メディア(例えば、機械の周辺機器またはコンポーネント、例えば、プリンターまたはディスプレイ)で提供する。一部の実施形態では、遺伝子の変異の存在または非存在を決定するアウトカムは、医療従事者へと、報告書の形態で提示され、ある特定の実施形態では、報告書は、アウトカム値および関連する信頼性パラメータの提示を含む。一般に、アウトカムは、遺伝子の変異の存在もしくは非存在および/または医学的状態の決定を容易とする、適切なフォーマットで示すことができる。データセットを報告および/もしくは提示するか、またはアウトカムを報告するための使用に適するフォーマットの非限定的な例は、デジタルデータ、グラフ、2Dグラフ、3Dグラフ、および4Dグラフ、写真(例えば、jpg、bitmap(例えば、bmp)、pdf、tiff、gif、raw、pngなど、または適切なフォーマット)、統計図表、図表、表、棒グラフ、円グラフ、概略図、フローチャート、散布図、マップ、ヒストグラム、密度図、関数グラフ、回路図、ブロック図、バブルマップ、信号空間ダイアグラム、コンターダイアグラム、カルトグラム、レーダーチャート、ベン図、ノモグラムなど、および前出の組合せを含む。アウトカム表示の多様な例については、図面で示し、実施例で記載する。
【0276】
ある特定の実施形態では、アウトカムの生成は、核酸配列のリードデータなどの、対象の細胞内核酸の表示への変換と考えることができる。例えば、対象に由来する核酸の配列のリードを分析し、染色体のプロファイルおよび/またはアウトカムを生成することは、比較的小さな配列のリード断片の、比較的大きな染色体構造の表示への変換と考えることができる。一部の実施形態では、アウトカムは、対象(例えば、妊娠中の雌)に由来する配列のリードの、対象(例えば、母体核酸および/または胎仔核酸)内に存在する既存の構造(例えば、ゲノム、染色体またはそのセグメント)の表示への変換の結果として得られる。一部の実施形態では、アウトカムは、第1の対象(例えば、妊娠中の雌)に由来する配列のリードの、構造(例えば、ゲノム、染色体またはそのセグメント)の複合表示への変換、ならびに第1の対象(例えば、妊娠中の雌)内および/または第2の対象(例えば、胎仔)内に存在する構造の表示をもたらす複合表示の第2の変換を含む。
【0277】
性染色体に関するアウトカム
一部の実施形態では、アウトカムは、性染色体の遺伝子の変異に関する。性染色体の遺伝子の変異は、例えば、その内容全体が全ての文書、表、式、および図面を含めて参照により本明細書に組み込まれている、国際特許出願公開第WO2013/192562号に記載されている。一部の実施形態では、アウトカムは、性染色体核型の決定、性染色体異数性の検出、および/または胎仔性別の決定である。いくつかの性染色体異数性(SCA)状態には、ターナー症候群[45,X]、トリソミーX[47,XXX]、クラインフェルター症候群[47,XXY]、および[47,XYY]症候群(時にはジェイコブス症候群と呼ばれる)が含まれるが、これらに限定されない。
【0278】
性染色体の変異の評価は、一部の実施形態では、染色体Xおよび染色体Yについての配列のリードのカウント数の変換の分離に基づく。配列のリードのカウント数の変換は、例えば、染色体Xの表示、および染色体Yの表示、ならびに/またはこのような表示に基づくZスコアを含み得る。種々の核型(例えば、XX、XY、XXX、X、XXY、XYY)を有する試料の群についての染色体X対染色体Yについてのヌクレオチド配列のリードのカウント数の変換(例えば、PERUN正規化されたリードのカウント数または主成分正規化されたリードのカウント数に基づくZスコア)の2次元プロットは、それぞれ特定の核型に特異的な領域に刻むことができるプロット点の平面場を生成する。例えば、所与の試料についての性染色体核型の決定は、平面場のどの領域中にその試料についてのプロット点があるかを決定することによって実現され得る。
【0279】
本明細書に記載するある特定の方法は、特定の核型の変異について明確に規定された領域(例えば、鋭い境界、高分解能を伴った)を有するプロットを生成するのに有用であり得る。高分解能プロットを生成するのに役立ち得る方法には、配列のリードのカウント数の正規化、染色体Xおよび染色体Yについての情報を与える部分(すなわち、ビン)の選択、報告義務のないもの(すなわち、「無判定」域)の確立、ならびに染色体Xおよび染色体Yレベルの追加の正規化が含まれる。配列のリードの正規化およびレベルのさらなる正規化は、本明細書に記載されており、例えば、染色体Xおよび/もしくは染色体Yに対してマッピングされた配列のリード、ならびに/または染色体Xおよび/もしくはYについてのレベル(例えば、染色体表示)のPERUN正規化ならびに/または主成分正規化を含み得る。染色体Xおよび染色体Yについての情報を与える部分の選択は、例えば、国際特許出願公開第WO2013/192562号に記載されており、例えば、フィルタリングパラメータ、例えば、交差検証パラメータ、マッピング可能性、再現性、および/または雄対雌の分別などの評価を含み得る。
【0280】
アウトカムの使用
1つまたは複数の遺伝子の変異の存在または非存在を決定するアウトカムを含む報告書を受け取る医療従事者または他の有資格者は、報告書内に示されたデータを使用して、試験対象または患者の状態についての判定を下すことができる。一部の実施形態では、医療従事者は、提示されたアウトカムに基づき、推奨を行うことができる。一部の実施形態では、医療従事者または有資格者は、報告書で提示された、1つまたは複数のアウトカム値および関連する信頼性パラメータに基づき、試験対象または患者に、遺伝子の変異の存在または非存在に関する判定またはスコアを提示することができる。ある特定の実施形態では、提示された報告書の目視観察を使用して、医療従事者または有資格者が、手作業でスコアを作成するかまたは判定を下す。ある特定の実施形態では、場合によって、ソフトウェア内に埋め込まれた自動式のルーチンにより、スコアを作成するかまたは判定を下し、試験対象または患者へと情報を提供する前に、医療従事者または有資格者が、精度について再検討する。本明細書で使用される「報告書を受け取ること」という用語は、再検討されると、医療従事者または他の有資格者が、試験対象または患者における遺伝子の変異の存在または非存在について決定することを可能とする、アウトカムを含む通信手段、文章表示、および/またはグラフ表示を介して得ることを指す。報告書は、コンピュータにより作成することもでき、手作業によるデータ入力により作成することもでき、電子的手段(例えば、インターネットを介する、コンピュータを介する、ファックスを介する、同じ物理的施設または異なる物理的施設における1つのネットワーク拠点から別の拠点への)を使用して通信することもでき、データを送付または受領する別の方法(例えば、郵便、宅配便など)により通信することもできる。一部の実施形態では、アウトカムは、限定せずに述べると、音声言語形態、文書形態、またはファイル形態を含む適切な媒体により、医療従事者へと伝送する。ファイルは、例えば、音声ファイル、コンピュータ可読ファイル、書類ファイル、検査室ファイル、または医療記録ファイルでありうるがこれらに限定されない。
【0281】
本明細書で使用される、「アウトカムを提示すること」という用語およびその文法的な同等物はまた、このような情報を得るための方法であって、限定せずに述べると、情報を検査室から得る(例えば、検査室ファイル)ステップを含む方法も指す場合がある。検査室ファイルは、1つまたは複数のアッセイを実行した検査室により作成することもでき、医学的状態の存在または非存在を決定する、1つまたは複数のデータ処理ステップにより作成することもできる。検査室は、医学的状態の存在または非存在を検査室ファイルから同定する医療関係者と同じ場所にある場合もあり、異なる場所(例えば、別の国内)にある場合もある。例えば、検査室ファイルは、1つの場所で作成し、その中の情報が妊娠中の雌対象へと伝送される別の場所へと伝送することができる。ある特定の実施形態では、検査室ファイルは、実体的形態の場合もあり、電子的形態(例えば、コンピュータ可読形態)の場合もある。
【0282】
一部の実施形態では、アウトカムは、検査室から、医療従事者、医師、または有資格者へと提示することができ、医療従事者、医師、または有資格者は、アウトカムに基づき、診断を下すことができる。一部の実施形態では、アウトカムは、検査室から、医療従事者、医師、または有資格者へと提示することができ、医療従事者、医師、または有資格者は、さらなるデータおよび/または情報、ならびに他のアウトカムと共に、アウトカムに部分的に基づき、診断を下すことができる。
【0283】
医療従事者または有資格者は、報告書で提示された1つまたは複数のアウトカムに基づき、適切な推奨を提示することができる。提示されたアウトカム報告書に基づき提示されうる、推奨の非限定的な例は、手術、放射線療法、化学療法、遺伝子カウンセリング、生後処置ソリューション(例えば、人生設計、長期にわたる介護ケア、医薬、対症的処置)、妊娠中絶、臓器移植、輸血など、または前出の組合せを含む。一部の実施形態では、推奨は、提示されたアウトカムベースの分類(例えば、ダウン症候群、ターナー症候群、T13における遺伝子の変異と関連する医学的状態、T18における遺伝子の変異と関連する医学的状態)に依存する。
【0284】
検査室関係者(例えば、検査室管理者)は、遺伝子の変異の存在または非存在の決定(または試験領域についての正倍数体もしくは非正倍数体の決定)の根底をなす値(例えば、試験プロファイル、参照プロファイル、偏差のレベル)を分析することができる。遺伝子の変異の存在または非存在に関する判定であって、微妙であるかまたは問題含みである判定のために、検査室関係者は、同じ試験を再発注することもでき、かつ/または試験対象に由来する同じ試料核酸または異なる試料核酸を使用する、異なる試験(例えば、胎仔の異数性の決定の場合における核型分析および/または羊水穿刺)を発注することもできる。
【0285】
遺伝子の変異および医学的状態
遺伝子の差異の存在または非存在は、本明細書に記載する方法、機械または装置を使用して決定することができる。ある特定の実施形態では、1つまたは複数の遺伝子の変異の存在または非存在は、本明細書に記載する方法、機械および装置により提供される結果により判定される。遺伝子の変異は、一般的に、ある特定の個体中に存在する特定の遺伝的表現型であり、多くの場合、遺伝子の変異は、個体の統計的に有意な部分母集団の中に存在する。一部の実施形態では、遺伝子の変異は、染色体異常(例えば、異数性、1つまたは複数の染色体の重複、1つまたは複数の染色体の喪失)、部分的染色体異常またはモザイク症(例えば、染色体の1つまたは複数のセグメントの喪失または増加)、転座、反転であり、そのそれぞれを、本明細書でより詳細に記載する。遺伝子の変異の非限定的な例として、1つまたは複数の欠失(例えば、微小欠失)、重複(例えば、微小重複)、挿入、突然変異、多型(例えば、一塩基多型)、融合、リピート(例えば、短いタンデムリピート)、異なるメチル化部位、異なるメチル化パターン等、およびその組合せが挙げられる。挿入、リピート、欠失、重複、突然変異、または多型は、任意の長さのものであり得、一部の実施形態では、長さ約1塩基または塩基対(bp)~約250メガ塩基(Mb)である。一部の実施形態では、挿入、リピート、欠失、重複、突然変異、または多型は、長さ約1塩基または塩基対(bp)~約50,000キロ塩基(kb)である(例えば、長さ約10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb、1000kb、5000kb、または10,000kb)。
【0286】
遺伝子の変異は、欠失の場合もある。ある特定の実施形態では、欠失は染色体またはDNA配列の一部が欠損している突然変異である(例えば、遺伝子異常)。欠失は、多くの場合、遺伝物質の喪失である。任意の数のヌクレオチドが欠失し得る。欠失は、1つもしくは複数の染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメント、またはその組合せの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。
【0287】
遺伝子の変異は、遺伝子の重複の場合もある。ある特定の実施形態では、重複は染色体またはDNA配列の一部がコピーされ、ゲノムに再挿入される突然変異(例えば、遺伝子異常)である。ある特定の実施形態では、遺伝子の重複(例えば、重複)は、DNA領域の任意の重複である。一部の実施形態では、重複は、ゲノムまたは染色体内の、多くの場合タンデムに反復した核酸配列である。一部の実施形態では、重複は、1つもしくは複数の染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメント、またはその組み合わせのコピーを含み得る。重複は、微小重複を含み得る。重複は、1つまたは複数の重複した核酸のコピーを含む場合もある。重複は、1回または複数回反復した(例えば、1、2、3、4、5、6、7、8、9、または10回反復した)遺伝子領域として特徴付けられる場合もある。重複は、小領域(数千塩基対)から一部の事例では染色体全体の範囲であり得る。重複は、相同的組換えにおける誤差の結果として、またはレトロトランスポゾンイベントに起因して高頻度で生ずる。重複は、ある特定の種の増殖性疾患と関連していた。重複は、ゲノムマイクロアレイまたは比較遺伝子交雑法(CGH)を使用して特徴付けできる。
【0288】
遺伝子の変異は、挿入の場合もある。挿入は、1つまたは複数のヌクレオチド塩基対の核酸配列への付加の場合もある。挿入は、微小挿入の場合もある。ある特定の実施形態では、挿入は、染色体のセグメントのゲノム、染色体、またはそのセグメントへの付加を含む。ある特定の実施形態では、挿入は、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメントまたはその組合せの、ゲノムまたはそのセグメントへの付加を含む。ある特定の実施形態では、挿入は、起源が不明の核酸の、ゲノム、染色体、またはそのセグメントへの付加(例えば、挿入)を含む。ある特定の実施形態では、挿入は、単一塩基の付加(例えば、挿入)を含む。
【0289】
本明細書で使用する場合、「コピー数の変異」は、一般的に遺伝子の変異または染色体異常のクラスまたは種類である。コピー数の変異は、欠失(例えば、微小欠失)、重複(例えば、微小重複)、または挿入(例えば、微小挿入)であり得る。多くの場合、本明細書で時に使用される接頭辞「微小」は、長さ5Mb未満の核酸のセグメントである。コピー数の変異は、染色体のセグメントの1つまたは複数の欠失(例えば、微小欠失)、重複、および/または挿入(例えば、微小重複、微小挿入)を含み得る。ある特定の実施形態では、重複は挿入を含む。ある特定の実施形態では、挿入は重複である。ある特定の実施形態では、挿入は重複ではない。
【0290】
一部の実施形態では、コピー数の変異は、胎仔のコピー数の変異である。多くの場合、胎仔のコピー数の変異は、胎仔のゲノム内のコピー数の変異である。一部の実施形態では、コピー数の変異は、母体および/または胎仔のコピー数の変異である。ある特定の実施形態では、母体および/または胎仔のコピー数の変異は、妊娠中の雌(例えば、胎仔を有する雌の対象)、分娩経験のある雌の対象、または胎仔を有する能力を有する雌のゲノム内のコピー数の変異である。コピー数の変異は、ヘテロ接合性のコピー数の変異であり得、この場合、変異(例えば、重複または欠失)は、ゲノムの1方の対立遺伝子上に存在する。コピー数の変異は、ホモ接合性のコピー数の変異であり得、この場合、変異は、ゲノムの両方の対立遺伝子に存在する。一部の実施形態では、コピー数の変異はヘテロ接合性またはホモ接合性の胎仔のコピー数の変異である。一部の実施形態では、コピー数の変異は、ヘテロ接合性またはホモ接合性の母体および/または胎仔のコピー数の変異である。コピー数の変異は、母体ゲノムおよび胎仔ゲノムに存在する、母体ゲノムに存在するが胎仔ゲノムに存在しない、または胎仔ゲノムに存在するが母体ゲノムに存在しない場合がある。
【0291】
「倍数性」とは、胎仔または母親中に存在する染色体の数を指す。ある特定の実施形態では、「倍数性」は、「染色体倍数性」と同じである。ヒトでは、例えば常染色体は、多くの場合、対で存在する。例えば、遺伝子の変異が存在しない場合、ほとんどのヒトは各常染色体(例えば、第1~22染色体)を2つ有する。ヒトでは2つの常染色体について正常な補体が存在し、これは多くの場合、正倍数体または二倍体と呼ばれる。「微小倍数性」は、意味上では、倍数性に類似する。「微小倍数性」は、多くの場合、染色体のセグメントの倍数性を指す。用語「微小倍数性」とは、染色体内のコピー数の変異(例えば、欠失、重複、および/または挿入)の存在または非存在(例えば、ホモ接合性またはヘテロ接合性の欠失、重複、または挿入等またはその不存在)を指す場合もある。
【0292】
ある特定の実施形態では、胎仔の微小倍数性は、胎仔の母親(例えば、妊娠中の雌の対象)の微小倍数性と一致する。ある特定の実施形態では、胎仔の微小倍数性は、胎仔の母親の微小倍数性と一致し、母親および胎仔いずれも、同一のヘテロ接合性のコピー数の変異、ホモ接合性のコピー数の変異を担持する、または両方とも正倍数体である。ある特定の実施形態では、胎仔の微小倍数性は、胎仔の母親の微小倍数性と異なる。例えば、胎仔の微小倍数性は、コピー数の変異についてヘテロ接合性であり、母親は、コピー数の変異についてホモ接合性であり、胎仔の微小倍数性は、特定のコピー数の変異に関して母親の微小倍数性と一致しない(例えば、等しくない)場合もある。
【0293】
対象について存在または非存在が同定された遺伝子の変異は、ある特定の実施形態では医学的状態と関連する。したがって、本明細書に記載する技術は、医学的状態または病状と関連する1つまたは複数の遺伝子の変異の存在または非存在を同定するのに使用することができる。医学的状態の非限定的な例として、知的障害(例えば、ダウン症候群)、細胞増殖異常(例えば、がん)、微生物核酸(例えば、ウイルス、細菌、真菌、酵母)の存在、および子癇前症と関連した状態が挙げられる。
【0294】
遺伝子の変異、医学的状態および病状の非限定的な例は、以下に記載されている。
【0295】
胎仔の性別
一部の実施形態では、胎仔の性別または性別関連の障害(例えば、性染色体異数性)の予測は、本明細書に記載する方法、機械および/または装置により決定することができる。性別の決定は、性染色体に一般的に基づく。ヒトでは、2つの性染色体、XおよびY染色体が存在する。Y染色体は、雄として胚が発生する契機となる遺伝子、SRYを含有する。ヒトおよび他の哺乳動物のY染色体は、正常な精子産生に必要とされる他の遺伝子も含有する。XXを有する個体は雌であり、XYは雄であり、多くの場合、性染色体異数性と呼ばれる非限定的な変異として、X0、XYY、XXX、およびXXYが挙げられる。ある特定の実施形態では、雄は、2つのX染色体および1つのY染色体(XXY;クラインフェルター症候群)、または1つのX染色体および2つのY染色体(XYY症候群;ジェイコブス症候群)を有し、ならびに一部の雌は、3つのX染色体(XXX;トリプルX症候群)または2つではなく単一のX染色体(X0;ターナー症候群)を有する。ある特定の実施形態では、個体内の一部の細胞のみが、性染色体異数性により影響を受け、モザイク症(例えば、ターナーモザイク症)と呼ばれる場合もある。他の症例として、SRYが損傷を受けている症例(XYの雌となる)、またはXにコピーされた症例(XXの雄となる)が挙げられる。
【0296】
ある特定の症例では、子宮内の胎仔の性別を決定することが有益な場合もある。例えば、1つまたは複数の性関連障害の家族歴を有する患者(例えば、妊娠中の雌)は、かかる障害を受け継ぐ胎仔のリスクを評価するのに役立つように、身ごもっている胎仔の性別を決定したいと欲する場合がある。性関連障害として、非限定的に、X連鎖およびY連鎖障害が挙げられる。X連鎖障害として、X連鎖劣性障害およびX連鎖優性障害が挙げられる。X連鎖劣性障害の例として、非限定的に、免疫障害(例えば、慢性肉芽腫性疾患(CYBB)、ヴィスコット・アルドリッチ症候群、X連鎖重症複合型免疫欠損、X連鎖無ガンマグロブリン血症、1型高IgM症候群、IPEX、X連鎖リンパ増殖性疾患、プロパージン欠損症)、血液障害(例えば、血友病A、血友病B、X連鎖担鉄赤芽球性貧血)、内分泌障害(例えば、アンドロゲン不感性症候群/ケネディ病、KAL1カルマン症候群、X連鎖先天性副腎低形成)、代謝障害(例えば、オルニチントランスカルバミラーゼ欠損症、眼脳腎症候群、副腎白質ジストロトフィー、グルコース-6-リン酸デヒドロゲナーゼ欠損症、ピルビン酸デヒドロゲナーゼ欠損症、ダノン病/IIb型グリコーゲン蓄積症、ファブリー病、ハンター症候群、レッシュ-ナイハン症候群、メンケス病/オクシピタル・ホーン症候群)、神経系障害(例えば、コフィン-ローリー症候群、MASA症候群、X連鎖アルファサラセミア精神遅滞症候群、シデリウスX連鎖精神遅滞症候群、色盲、眼球白子症、ノリエ病、コロイデレミア、シャルコー-マリー-トゥース病(CMTX2-3)、ペリツェウス-メルツバッハー病、SMAX2)、皮膚および関連の組織障害(例えば、先天性角化異常症、無汗性外胚葉形成不全(EDA)、X連鎖魚鱗癬、X連鎖角膜内皮変性症)、神経筋障害(例えば、ベッカー型筋ジストロフィー/デュシェンヌ型筋ジストロフィー、中心核ミオパシー(MTM1)、コンラーディ-ヒューネルマン症候群、エメリー-ドレフュス型筋ジストロフィー1)、泌尿器系障害(例えば、アルポート症候群、デント病、X連鎖腎性尿崩症)、骨/歯の障害(例えば、AMELXエナメル質形成不全症)、および他の障害(例えば、バース症候群、マクロード症候群、スミス-ファインマン-マイヤーズ症候群、シンプソン-ゴラビ-ベーメル症候群、Mohr-Tranebjaerg症候群、鼻指聴覚症候群)。X連鎖優性障害の例として、非限定的に、X連鎖低リン酸血症、巣状皮膚低形成、脆弱X症候群、アイカルディ症候群、色素失調症、Rett症候群、CHILD症候群、Lujan-Fryns症候群、および口腔・顔面・指趾症候群1が挙げられる。Y連鎖障害の例として、非限定的に、雄不妊症、網膜色素変性、および無精子症が挙げられる。
【0297】
染色体異常
一部の実施形態では、胎仔染色体異常の存在または非存在は、本明細書に記載する方法、機械および/または装置を使用して決定することができる。染色体異常として、非限定的に、染色体全体または1つもしくは複数の遺伝子を含む染色体の領域の取得または喪失が挙げられる。染色体異常には、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の喪失、転座、不均衡な転座により引き起こされた欠失および重複を含む、1つまたは複数のヌクレオチド配列(例えば、1つまたは複数の遺伝子)の欠失および/または重複が含まれる。用語「染色体異常」または「染色体異数性」は、本明細書で使用する場合、対象の染色体構造と正常な相同染色体構造の間の乖離を指す。用語「正常」とは、特定の種の健康な個体に見出される優勢な核型またはバンディングパターン、例えば正倍数体ゲノム(例えば、ヒトでは二倍体、例えば、46、XXまたは46、XY)を指す。生物が異なれば染色体の補体も幅広く変化し、用語「染色体異数性」は特定の染色体の数を指すものではなく、生物の所与の細胞の1つまたは複数内の染色体含有量が異常である状況を指す。一部の実施形態では、用語「染色体異数性」は、本明細書では、染色体の全部または染色体の一部の喪失または取得により引き起こされた遺伝物質の不均衡を指す。「染色体異数性」は、染色体のセグメントの1つまたは複数の欠失および/または挿入を指し得る。用語「正倍数体」は、一部の実施形態では、染色体の正常な補体を指す。
【0298】
用語「モノソミー」は、本明細書で使用する場合、正常な補体の1つの染色体が欠如していることを指す。単一のコピー内に染色体のセグメントのみが存在する、不均衡な転座または欠失においては、部分的モノソミーが生じ得る。性染色体のモノソミー(45、X)は、例えばターナー症候群を引き起こす。用語「ダイソミー」は、染色体のコピーが2つ存在することを指す。各染色体の2つのコピーを有するヒト等の生物(二倍体または「正倍数体」の生物)の場合、ダイソミーは正常な状態である。各染色体の3つまたはそれ超のコピーを通常有する生物(三倍体またはそれ超の生物)の場合、ダイソミーは異数体染色体の状態である。片親性のダイソミーでは、染色体の両方のコピーは同一の親に由来する(他方の親の寄与はない)。
【0299】
用語「トリソミー」は、本明細書で使用する場合、特定の染色体の2つのコピーではなく3つのコピーが存在することを指す。ヒトのダウン症候群に見出される余分な第21染色体の存在は、「21トリソミー」と呼ばれる。18トリソミーおよび13トリソミーは、他の2つのヒト常染色体トリソミーである。性染色体のトリソミーは、雌(例えば、トリプルX症候群の47、XXX)または雄(例えば、クラインフェルター症候群の47、XXY;またはジェイコブス症候群の47、XYY)に認められる場合がある。一部の実施形態では、トリソミーは、ほとんどまたは全ての常染色体の重複である。ある特定の実施形態では、トリソミーは全染色体異数性であり、特定の種類の染色体について3つのインスタンス(例えば、3つのコピー)をもたらす(例えば、正倍数体についての特定の種類の染色体の2つのインスタンス(例えば対)ではなく)。
【0300】
用語「テトラソミー」および「ペンタソミー」は、本明細書で使用する場合、4つまたは5つの染色体のコピーがそれぞれ存在することを指す。常染色体ではほとんど認められないが、性染色体のテトラソミーおよびペンタソミーが、XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYY、およびXYYYYを含め、ヒトで報告されている。
【0301】
染色体異常は、様々な機構により引き起こされ得る。機構には、(i)有糸分裂チェックポイントが脆弱化した結果として生ずる染色体不分離、(ii)複数の染色体において染色体不分離を引き起こす不活性な有糸分裂チェックポイント、(iii)1つの動原体が両方の有糸分裂紡錘体極に結合したときに生ずるメロテリック結合、(iv)2つ超の紡錘体極が形成されたときの多極紡錘体形成、(v)単一の紡錘体極しか形成されなかったときの単極紡錘体形成、および(vi)単極紡錘体機構の最終結果として生ずる四倍体中間体が含まれるが、これらに限定されない。
【0302】
用語「部分的モノソミー」および「部分的トリソミー」は、本明細書で使用する場合、染色体の一部の喪失または取得により引き起こされた遺伝物質の不均衡を指す。部分的モノソミーまたは部分的トリソミーは、不均衡な転座に起因し得るが、この場合、個体は2つの異なる染色体の破断および融合により形成された誘導染色体を担持する。この状況では、個体は1つの染色体の一部の3つのコピー(2つの正常なコピー、および誘導染色体上に存在するセグメント)、および誘導染色体に含まれる他の染色体の一部の1つのコピーのみを有することになる。
【0303】
用語「モザイク症」は、本明細書で使用する場合、生物の全ての細胞ではなく、一部の細胞内の染色体異数性を指す。ある特定の染色体異常は、モザイク性および非モザイク性の染色体異常として存在し得る。例えば、ある特定の21トリソミー個体はモザイクダウン症候群を有し、一部は非モザイクダウン症候群を有する。異なる機構が、モザイク症を引き起こしている可能性がある。例えば、(i)最初の接合体は、3つの第21染色体を有すると考えられ、これは単純な21トリソミーを通常もたらすが、細胞分裂の過程で、1つまたは複数の細胞系統が、第21染色体の1つを喪失する;および(ii)最初の接合体は、2つの第21染色体を有すると考えられるが、細胞分裂の過程で、第21染色体の1つが重複した。体細胞モザイク症は、完全なまたはモザイク性の染色体異数性を伴う遺伝的症候群と一般的に関連する機構とは異なる機構を通じて生ずる可能性がある。体細胞モザイク症は、例えばある特定の種類のがんやニューロンにおいて同定された。ある特定の事例では、12トリソミーは、慢性リンパ球性白血病(CLL)において同定され、8トリソミーは、急性骨髄性白血病(AML)において同定された。また、個体が染色体の破断しやすい傾向を有するような遺伝的症候群(染色体不安定症候群)では、様々な種類のがんに対するリスクの増大と高頻度で関連し、したがって発癌性における体細胞染色体異数性の役割が注目される。本明細書に記載する方法およびプロトコールは、非モザイク性およびモザイク性の染色体異常の存在または非存在を同定することができる。
【0304】
表1Aおよび1Bは、本明細書に記載する方法、機械および/または装置により同定される可能性があり得る染色体の状態、症候群、および/または異常の非限定的なリストを提示する。表1Bは、2011年10月6日時点のDECIPHERデータベースに由来する(例えば、バージョン5.1、GRCh37に対してマッピングされた位置に基づく;ユニフォームリソースロケーター(URL)dechipher.sanger.ac.ukにて入手可能)。
【表1A-1】
【表1A-2】
【表1A-3】
【表1A-4】
【0305】
【表1B-1】
【表1B-2】
【表1B-3】
【表1B-4】
【0306】
グレード1の状態は、多くの場合、1つまたは複数の以下の特徴を有する;病原的異常;遺伝学者の間で強く合意されている;高い浸透性;なおも多様な表示型を有し得るが、いくつかの一般的な特性も有する;文献中の全ての症例は臨床表示型を有する;異常を有する健康な個体の症例を認めない;DVGデータベースに報告されていない、または健常母集団では見出されない;単一遺伝子または多重遺伝子の量的効果を確認する機能的データ;確認済みまたは強固な候補遺伝子;臨床マネジメント案が規定済み;がんのリスクが公知でサーベイの案を有する;複数の情報源(OMIM、Gene reviews、Orphanet、Unique、Wikipedia);および/または診断用途で利用可能(妊娠カウンセリング)。
【0307】
グレード2の状態は、多くの場合、1つまたは複数の下記の特徴を有する;病原的異常の可能性;高い浸透性;DDを除き一貫した特性を有さない多様な表示型;文献では症例/報告の数が少ない;報告された全ての症例は臨床表示型を有する;機能的データまたは確認済みの病原性遺伝子を認めない;複数の情報源(OMIM、Gene reviews、Orphanet、Unique、Wikipedia);および/または診断目的および妊娠カウンセリングのために使用できる。
【0308】
グレード3の状態は、多くの場合、1つまたは複数の下記の特徴を有する;感受性遺伝子座;健常な個体または発端者の未罹患の両親が記載されている;対照母集団中に存在する;非浸透性;表示型が軽度で特異的ではない;特性はあまり一貫していない;機能的データまたは確認済みの病原性遺伝子を認めない;データの原典がより限定的;大部分から乖離している症例に関して、または新規臨床所見が存在する場合、第2の診断の可能性は、可能性の状態のままである;および/または診断目的で使用する際には要注意、および妊娠カウンセリングの場合、助言には慎重を期す。
【0309】
子癇前症
一部の実施形態では、子癇前症の存在または非存在は、本明細書に記載する方法、機械または装置を使用して決定される。子癇前症は、妊娠中に高血圧症が発生する状態(例えば、妊娠誘発性高血圧症)であり、尿中の相当量のタンパク質と関連する。ある特定の実施形態では、子癇前症は、細胞外核酸のレベル上昇および/またはメチル化パターン変化とも関連する。例えば、細胞外の胎仔由来過剰メチル化RASSF1Aレベルと子癇前症の重症度の間に正の相関が認められた。ある特定の例では、子癇前症の胎盤内のH19遺伝子について、正常な対照と比較してDNAのメチル化の増加が認められる。
【0310】
子癇前症は、世界的に、母体および胎仔/新生児の死亡率および疾病率の主因の1つである。血漿および血清中の循環型無細胞核酸は新規バイオマーカーであり、出生前診断を含む異なる医学分野における臨床用途として有望である。母体血漿中の無細胞胎仔(cff)DNAについて、例えば雄特異的SRYまたはDYS14遺伝子座に関するリアルタイム定量的PCRを使用して定量したとき、その変化が急迫した子癇前症に関する指標となることが、異なる試験で報告されている。早期発症型の子癇前症の症例では、妊娠初期にレベルの上昇が認められる場合がある。症状発現前のcffDNAのレベルの上昇は、組織の酸化ストレスおよび胎盤アポトーシスの増加および壊死を引き起こす絨毛間腔内の低酸素状態/再酸素負荷に起因する場合もある。cffDNAの母体循環への流出増加に関する証拠に加えて、子癇前症では、cffDNAの腎臓排出の低下に関する証拠も存在する。胎仔DNAの量は、現在のところ、Y-染色体特異的配列の定量により決定されるので、代替的アプローチ、例えば無細胞総DNAの測定または性別に依存しない胎仔エピジェネティックマーカー、例えばDNAメチル化の使用により、代替法が提供される。胎盤由来の無細胞RNAは、臨床診療において子癇前症をスクリーニングおよび診断するのに使用できる別の代替的バイオマーカーである。胎仔RNAは、これを分解から保護する細胞内胎盤粒子と関連する。胎仔のRNAレベルは、対照と比較して子癇前症の妊娠中の雌では10倍高い場合があり、したがって、臨床診療において子癇前症をスクリーニングおよび診断するのに使用できる代替的バイオマーカーである。
【0311】
病原体
一部の実施形態では、病態の存在または非存在は、本明細書に記載する方法、機械または装置により決定される。病態は、細菌、ウイルス、または真菌を含むが、これらに限定されない病原体に宿主が感染することにより引き起こされ得る。病原体は宿主の核酸と区別可能な核酸(例えば、ゲノムDNA、ゲノムRNA、mRNA)を一般的に有するので、本明細書において提供される方法、機械および装置が、病原体の存在または非存在を決定するのに使用できる。多くの場合、病原体は、例えばエピジェネティックな状態および/または1つもしくは複数の配列の変異、重複、および/または欠失等の、特定の病原体に固有の特徴を持つ核酸を有する。したがって、本明細書において提供される方法は、特定の病原体または病原体の変異体(例えば、株)を同定するのに使用できる。
【0312】
がん
一部の実施形態では、細胞増殖障害(例えば、がん)の存在または非存在が、本明細書に記載する方法、機械または装置を使用して決定される。例えば、血清中の無細胞核酸のレベルは、健康な患者と比較して様々な種類のがんを有する患者で上昇し得る。例えば、転移性の疾患を有する患者は、非転移性の患者の約2倍高い血清DNAレベルを有する場合があり得る。転移性の疾患を有する患者は、がん特異的マーカー、および/または、例えばある特定の一塩基多型または短いタンデムリピートによっても同定される可能性がある。循環型DNAのレベル上昇と正に相関し得るがんの種類の非限定的な例として、乳がん、結腸直腸がん、胃腸がん、肝細胞がん、肺がん、メラノーマ、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱がん、ヘパトーマ、子宮頚がん、食道がん、膵臓がん、および前立腺がんが挙げられる。様々ながんは、非がん性の健康な細胞に由来する核酸から区別可能な特徴、例えばエピジェネティックな状態、ならびに/または配列の変異、重複、および/もしくは欠失等を伴う核酸を有し得、時にはこれを血流中に放出し得る。かかる特徴は、例えば特定の種類のがんに固有であり得る。したがって、本明細書において提供される方法は、特定の種類のがんを同定するのに使用できることがさらに考えられる。
【0313】
本明細書において以後より詳細に記載するように、ソフトウェアが、本明細書に記載するプロセスにおいて、下記を含むが、これに限定されない1つまたは複数のステップを行うために使用できる;カウント数計測、データ処理、結果の生成、および/または生成された結果に基づく1つもしくは複数の勧告案の提供。
【0314】
機械、ソフトウェア、およびインターフェース
本明細書に記載するある特定のプロセスおよび方法は、多くの場合、コンピュータ、プロセッサ、ソフトウェア、モジュールまたは他の装置なしで行うことができない。本明細書に記載する方法は、一般的にコンピュータが実施する方法であり、方法の1つまたは複数の部分が、1つまたは複数のプロセッサ(例えば、マイクロプロセッサ)、コンピュータ、またはマイクロプロセッサ制御式装置により行われる場合がある。一部の実施形態では、公知または本明細書に記載する1つもしくは複数または全ての処理方法(例えば、マッピング、データ圧縮、局所的なゲノムの偏りの推定値の決定、関係の決定、関係の比較、カウント数の正規化、リード密度および/もしくはリード密度プロファイルの生成、PCA、プロファイル調整、部分のフィルタリング、部分の重み付け、プロファイルの比較、プロファイルのスコアリング、アウトカムの決定など、またはそれらの組合せ)が、メモリと併せたプロセッサ、マイクロプロセッサ、コンピュータにより、かつ/またはマイクロプロセッサが制御する装置により行われる。本文書に記載されている方法に関連する実施形態は、一般的に、本明細書に記載するシステム、装置、およびコンピュータプログラム製品でインストラクションにより実施される同一のまたは関連するプロセスに適用可能である。一部の実施形態では、本明細書に記載するプロセスおよび方法(例えば、定量、カウント数計測、ならびに/または配列のリード、カウント数、レベル、および/もしくはプロファイルの決定)は、自動化された方法により行われる。一部の実施形態では、本明細書に記載する1つまたは複数のステップおよび方法は、プロセッサおよび/もしくはコンピュータにより行われる、および/またはメモリと併せて行われる。一部の実施形態では、自動化された方法は、配列のリード、カウント数、マッピング、マッピングされた配列タグ、レベル、プロファイル、正規化、比較、範囲の設定、分類、調整、プロッティング、結果、変換、および同定を決定するソフトウェア、モジュール、プロセッサ、周辺機器、および/またはそのようなものを含む機械に組み込まれる。本明細書で使用する場合、ソフトウェアとは、本明細書に記載するように、プロセッサにより実行されたときにコンピュータの操作を行う、コンピュータ可読プログラムインストラクションを指す。
【0315】
試験対象(例えば、患者、妊娠中の雌)に由来する、および/または参照対象に由来する配列のリード、カウント数、リード密度、およびリード密度プロファイルは、遺伝子の変異の存在または非存在を決定するためにさらに分析および処理することができる。配列のリード、カウント数、レベル、および/またはプロファイルは、「データ」または「データセット」と呼ばれる場合もある。一部の実施形態では、データまたはデータセットは、1つまたは複数の特性または変数(例えば、配列に基づく[例えば、GC含有量、特異的ヌクレオチド配列等]、機能特異的[例えば、発現した遺伝子、がん遺伝子等]、場所に基づく[ゲノム特異的、染色体特異的、部分または部分特異的]特性または変数等およびその組合せ)により特徴付けることができる。ある特定の実施形態では、データまたはデータセットは、1つまたは複数の特性または変数に基づく2次元またはそれ超の次元を有するマトリックスに組織化され得る。マトリックスに組織化されたデータは、任意の適する特性または変数を使用して組織化され得る。マトリックス中のデータの非限定的な例として、母体の年齢、母体の倍数性、および胎仔の寄与により組織化されるデータが挙げられる。ある特定の実施形態では、1つまたは複数の特性または変数により特徴付けられるデータセットは、カウント数計測後に処理される場合もある。
【0316】
装置(装置(apparatus)として複数形でも本明細書で呼ばれる複数の装置(multiple apparatuses))、ソフトウェア、およびインターフェースが、本明細書に記載する方法を実施するのに使用できる。装置、ソフトウェア、およびインターフェースを使用して、ユーザーは、特定の情報、プログラム、またはプロセス(例えば、配列のリードのマッピング、マッピングされたデータの処理、および/または結果の提供)を使用するためのオプションを入力、要求、照会、または決定することができ、例えば統計分析アルゴリズム、統計的有意性アルゴリズム、統計的分散アルゴリズム、比較、反復ステップ、妥当性の確認アルゴリズム、および図形表示の実施が含まれ得る。一部の実施形態では、データセットは、インプット情報としてユーザーが入力可能であり、ユーザーは、適するハードウェアメディア(例えば、フラッシュドライブ)により1つもしくは複数のデータセットをダウンロードすることができ、ならびに/またはユーザーは、後続する処理のために、および/もしくは結果を得るために、1つのシステムから別のシステムにデータセットを送信することができる(例えば、シーケンサーからコンピュータシステムに、配列のリードのマッピング用として配列のリードデータを送信する;マッピングされた配列データを、処理用として、ならびに結果および/またはレポートの取得用としてコンピュータシステムに送信する)。
【0317】
システムは、典型的には、1つまたは複数の装置を含む。一部の実施形態では、装置は、機械である。一部の実施形態では、装置は、機械を含む。装置は、メモリ、1つまたは複数のプロセッサ、および/またはインストラクションのうちの1つまたは複数を含み得る。システムが2つまたはそれ超の装置を含む場合、装置の一部または全部は同一の場所に位置し得る、装置の一部または全部は異なる場所に位置し得る、全ての装置は1つの場所に位置し得る、および/または全ての装置は異なる場所に位置し得る。システムが2つまたはそれ超の装置を含む場合、装置の一部もしくは全部はユーザーと同じ場所に位置し得る、装置の一部もしくは全部はユーザーと異なる場所に位置し得る、全ての装置はユーザーと同じ場所に位置し得る、および/または全ての装置はユーザーとは異なる1つもしくは複数の場所に位置し得る。本明細書に記載するシステムの装置は、適切な方法により1つまたは複数のリモートコンピューティングサーバーおよび/またはコンピュータ(例えば、クラウド、クラウドコンピューティングサービス)とインターフェースをとることができる。用語「クラウド」は、本明細書で使用する場合、機能の部分がネットワーク内の複数のコンピュータにより共有されている集中型の機能(例えば、本明細書に記載の方法)を行うことができるリアルタイム通信ネットワーク(例えば、インターネット)によって接続されている2つまたはそれ超のコンピュータ(例えば、しばしば、複数のコンピュータ)を部分的に指す。「クラウド」はしばしば、同時に複数の接続されたコンピュータ上で1つまたは複数のプログラム(例えば、ソフトウェアプログラム、モジュール)をランさせることができる。一部の実施形態では、本明細書に記載するシステムおよび/または装置は、クラウド(例えば、クラウドサーバー、クラウドコンピュータ、クラウドコンピューティングサービス)を含む。本明細書に記載するシステムおよび/または装置の1つまたは複数の機能を、クラウドにより行うことができる。データおよび/または情報を、適切な方法を使用して装置およびクラウドに、かつ/またはこれらから移送することができる。用語「コンピュータ」は、本明細書で使用する場合、算術的演算および論理的演算を行うことができるマイクロプロセッサを含む電気的な人工デバイスを指す。コンピュータは、時には、インストラクション、ソフトウェア(例えば、モジュール)、メモリ、ディスプレイ、1つまたは複数の周辺機器および/またはストレージメディアを含む。一部の実施形態では、機械は、コンピュータを含む。一部の実施形態では、機械は、コンピュータである。コンピュータはしばしば、他のコンピュータ(例えば、インターネット、ネットワーク、クラウド)とインターフェースをとり、かつ/またはそれに接続されている。
【0318】
システムは、時には、演算装置もしくは配列決定装置、または演算装置および配列決定装置(すなわち、配列決定機および/または計算機)を含む。配列決定装置は一般に、物理的な核酸を受け取り、核酸のヌクレオチド塩基に対応するシグナルを生成するように構成されている。配列決定装置はしばしば、核酸を含む試料を「ロードされ」、配列決定装置にロードされた試料の核酸は一般に、核酸配列決定処理に付される。用語「配列装置にロードすること」は、本明細書で使用する場合、配列決定装置の部分(例えば、フローセル)を核酸試料と接触させることを指し、配列決定装置の部分は、核酸配列決定処理を実施するために試料を受け取るように構成されている。一部の実施形態では、配列決定装置に試料核酸の変異体をロードする。変異体は、時には、試料核酸を修飾して核酸を配列決定するのに適した形態にする処理により(例えば、ライゲーション(例えば、ライゲーションにより試料核酸の末端にアダプターを付加して)、増幅、制限消化など、またはそれらの組合せにより)生成される。配列決定装置はしばしば、ロードされた核酸のヌクレオチド塩基に対応するシグナル(例えば、電子シグナル、検出器シグナル、画像など、またはそれらの組合せ)を生成する適切なDNA配列決定法を行うように部分的に構成されている。
【0319】
DNA配列の各塩基に対応する1つまたは複数のシグナルはしばしば、適切な処理により処理および/または変換されて塩基判定(例えば、特異的なヌクレオチド塩基、例えば、グアニン、シトシン、チミン、ウラシル、アデニンなど)にされる。ロードされた核酸に由来する塩基判定のコレクションはしばしば、処理および/または集積されて1つまたは複数の配列のリードにされる。複数の試料核酸が同時に配列決定される(すなわち、マルチプレックス化)実施形態では、適切なデマルチプレックス化処理を活用して、特定のリードをこれらが起源とした試料核酸と関連付けることができる。本明細書に記載するように、配列のリードを適切な処理により参照ゲノムに対して整列させることができ、参照ゲノムの部分に対して整列されたリードをカウントすることができる。
【0320】
配列決定装置は、時には、システム内の1つまたは複数の演算装置と関連し、かつ/またはこれらを含む。1つまたは複数の演算装置は、時には、以下の処理の1つまたは複数を行うように構成されている:配列決定装置シグナルからの塩基判定の生成、リードの集積(例えば、リードの生成)、リードのデマルチプレックス化、参照ゲノムに対するリードの整列、参照ゲノム中のゲノム部分に対して整列されたリードのカウントなど。1つまたは複数の演算装置は、時には、以下の追加の処理の1つまたは複数を行うように構成されている:リードのカウント数の正規化(例えば、偏りの低減または除去)、1つまたは複数の決定(例えば、胎仔フラクション、胎仔の倍数性、胎仔の性別、胎仔染色体のカウント数、アウトカム、遺伝子の変異の存在または非存在(例えば、胎仔の染色体異数性(例えば、染色体13、18、および/または21トリソミー)の存在または非存在の決定)の生成など。
【0321】
一部の実施形態では、1つの演算装置は、配列決定装置と関連しており、ある特定の実施形態では、1つの演算装置は、以下の処理の大部分または全てを行う:配列決定装置シグナルからの塩基判定の生成、リードの集積、リードのデマルチプレックス化、参照ゲノムのゲノム部分に対するリードの整列およびこのゲノム部分に対して整列されたリードのカウント、リードのカウント数の正規化、ならびに1つまたは複数のアウトカム(例えば、胎仔フラクション、特定の遺伝子の変異の存在または非存在)の生成など。1つの演算装置が配列決定装置と関連している後者の実施形態では、演算装置はしばしば、1つまたは複数のプロセッサ(例えば、マイクロプロセッサ)、および処理を行うのに1つまたは複数のプロセッサにより実施されるインストラクションを有するメモリを含む。一部の実施形態では、1つの演算装置は、配列決定装置にローカルな(例えば、同じ場所(例えば、同じ住所、同じ建築物、同じフロア、同じ部屋など)に位置した)シングルコア演算デバイスまたはマルチコア演算デバイスであり得る。一部の実施形態では、1つの演算装置は、配列決定装置に組み入れられている。
【0322】
一部の実施形態では、システム内の複数の演算装置は、配列決定装置と関連しており、システムにより行われる全処理のサブセットは、システムの特定の演算装置に配分され、またはその中で分割されている場合がある。処理の総数のサブセットは、2つもしくはそれ超の演算装置またはその群の中で、任意の適切な組合せで分割され得る。ある特定の実施形態では、配列決定装置シグナルからの塩基判定の生成、リードの集積、およびリードのデマルチプレックス化は、第1の演算装置またはその群により行われ、参照ゲノムの部分に対してマッピングされたリードの整列およびカウントは、第2の演算装置またはその群により行われ、リードのカウント数の正規化および1つまたは複数のアウトカムの提供は、第3の演算装置またはその群により行われる。2つもしくはそれ超の演算装置またはその群を含むシステムでは、それぞれの特定の演算装置は、メモリ、1つまたは複数のプロセッサ、またはそれらの組合せを含み得る。マルチ演算装置システムは、時には、配列決定装置にローカルな1つまたは複数の適切なサーバーを含み、時には、配列決定装置にローカルでない1つまたは複数の適切なサーバー(例えば、ウェブサーバー、オンラインサーバー、アプリケーションサーバー、リモートファイルサーバー、クラウドクラウドサーバー(例えば、クラウド環境、クラウドコンピューティング))を含む。
【0323】
異なるシステム構成中の装置は、異なるタイプの出力データを生成し得る。例えば、配列決定装置は、塩基シグナルを出力することができ、塩基シグナル出力データは、塩基シグナルデータを塩基判定に変換する演算装置に移送することができる。一部の実施形態では、塩基判定は、1つの演算装置からの出力データであり、配列のリードを生成するために別の演算装置に移送される。ある特定の実施形態では、塩基判定は、特定の装置からの出力データではなく、代わりに、配列決定装置の塩基シグナルを受信して配列のリードを生成した同じ装置内で活用される。一部の実施形態では、1つの装置は、配列決定装置の塩基シグナルを受信し、塩基判定、配列のリードを生成し、配列のリードをデマルチプレックス化し、配列のリードを参照ゲノムに対して整列させる別の装置またはその群に移送することができる、試料についてのデマルチプレックス化された配列のリードを出力する。一部の実施形態では、1つの装置またはその群は、参照ゲノムの部分に対してマッピングされた整列された配列のリードを出力することができ(例えば、SAMファイルまたはBAMファイル)、このような出力データは、配列のリードを正規化し(例えば、配列のリードのカウント数を正規化し)、アウトカム(例えば、胎仔フラクションおよび/または胎仔のトリソミーの存在もしくは非存在)を生成する第2の演算装置またはその群に移送することができる。1つの装置からの出力データは、任意の適切な様式で第2の装置に移送することができる。例えば、1つの装置からの出力データは、時には、物理的なストレージデバイス上に配置され、ストレージデバイスは、出力データが移送される第2の装置に輸送および接続される。出力データは、時には、データベース中に1つの装置により保管され、第2の装置は、同じデータベースから出力データにアクセスする。
【0324】
システムは、時には、偏り低減機を含む。偏り低減機は、時には、1つまたは複数のコンピュータを含む。一部の実施形態では、偏り低減機は、配列のリードをマッピングし、かつ/またはリード(例えば、マッピングされた配列のリード)を圧縮する。偏り低減機は、時には、配列のリードを圧縮して適切な圧縮フォーマット(例えば、BReadsフォーマット)にする。一部の実施形態では、偏り低減機は、リード密度、密度プロファイル、調整されたリード密度プロファイル、および/またはアウトカムを生成する。偏り低減機の1つまたは複数の機能は、ネットワークおよび/またはクラウド(例えば、クラウドコンピューティングネットワーク)により行われ得る。偏り低減機は、マイクロプロセッサ、メモリおよびストレージメディア、モジュール、データおよび/もしくは情報(例えば、参照、参照配列のリード、参照リード密度、参照密度プロファイルなど)、ならびに/またはソフトウェアを含む複数のサーバー(例えば、クラウドサーバー)とインターフェースをとることができる。偏り低減機は、データおよび/または情報をクラウドに移送することができ、そこで偏り低減機の1つまたは複数の機能が行われる。処理されたデータおよび/または情報は、クラウドから偏り低減機に移送することができる。
【0325】
システムは、時には、配列決定機および偏り低減機を含み、配列決定機は、試料核酸から配列のリードを生成し、時には配列のリードをマッピングし、マッピングされていない配列またはマッピングされた配列のリードを偏り低減機に提供および/または移送する。配列決定機は、任意の適切な方法により偏り低減機にリードを提供または移送することができる。配列決定機および偏り低減機は、時には、適切なハードウェアインターフェースにより一緒に接続されている。一部の実施形態では、配列決定機および偏り低減機は、ネットワークおよび/またはクラウドに接続されている。一部の実施形態では、配列決定機および偏り低減機は、ネットワークおよび/またはクラウドにより一緒に接続されている。配列決定機および/または偏り低減機の一部または全部の方法および/または機能は、クラウドにより行われ得る。配列決定機は、一時的および/または非一時的なコンピュータ可読メディアを使用することにより、リードを偏り低減機に移送することができる。例えば、配列のリードは、有線ケーブルおよび/または無線シグナルにより移転されたデジタルシグナルまたはアナログシグナルにより移送することができる。一部の実施形態では、配列のリードを、非一時的なコンピュータ可読ストレージメディアを使用して配列決定機から偏り低減機に移送する。
【0326】
偏り低減機は、偏り低減機の機能の一部または全部を実施することができる本明細書に記載する1つまたは複数のモジュールを含み得る。一部の実施形態では、偏り低減機は、圧縮モジュールを含み、圧縮モジュールの機能を実施する。一部の実施形態では、偏り低減機は、偏り密度モジュール、関係モジュール、偏り補正モジュール、および/または多変量補正モジュールのうちの1つまたは複数を含む。偏り補正機は、リードから偏り(例えば、GC偏り)を除去し、かつ/または試料のリードの正規化されたカウント数を提供するのに1つまたは複数のモジュールを使用することができる。一部の実施形態では、偏り補正機は、分布モジュール、フィルタリングモジュール、および/またはプロファイル生成モジュールのうちの1つまたは複数を含む。偏り補正機はしばしば、訓練セットまたは参照からの配列のリード、および試験試料からの配列のリードを処理することができる。一部の実施形態では、偏り補正機は、PCA統計モジュールおよび/または部分重み付けモジュールのうちの1つまたは複数を含む。偏り補正機はしばしば、マッピングされたリードおよび複数のモジュールを活用し、リード密度、密度プロファイル、および/または調整されたリード密度プロファイルを、スコアリングモジュール、エンドユーザー、コンピュータ周辺機器(例えば、ディスプレイ、プリンター)、またはアウトカム生成機に提供する。一部の実施形態では、偏り低減機は、アウトカムを提供する。時には、偏り低減機は、アウトカムを提供しない。一部の実施形態では、偏り低減機は、アウトカム生成機を含む。時には、偏り低減機は、正規化されたリード、リード密度、密度プロファイル、および/または調整されたリード密度プロファイルをアウトカム生成機に移送する。偏り低減機は、データおよび/または情報(例えば、リード密度プロファイル)を、任意の適切な方法によりアウトカム生成機に移送することができる。一部の実施形態では、システムは、配列決定機、偏り低減機、および/またはアウトカム生成機のうちの1つまたは複数を含む。アウトカム生成機は、リードの正規化されたカウント数、リード密度、密度プロファイル、および/または調整されたリード密度プロファイルを、偏り補正機から受信することができる。アウトカム生成機はしばしば、判定またはアウトカム(例えば、遺伝子の変異の存在または非存在の決定)を提供する。アウトカム生成機はしばしば、判定またはアウトカムをエンドユーザーおよび/またはコンピュータ周辺機器(例えば、ディスプレイ、プリンター)に提供する。アウトカム生成機は、時には、フィルタリングモジュール、分布モジュール、プロファイル生成モジュール、PCA統計モジュール、部分重み付けモジュール、スコアリングモジュール、および/または1つもしくは複数の他の適切なモジュールのうちの1つまたは複数を含む。
【0327】
一部の実施形態では、ユーザーは、装置(例えば、演算装置、配列決定装置)と交流する。一部の実施形態では、ユーザーは、システム、コンピュータ、またはモジュールに照会を行うことができ、これは、次にインターネットアクセス(例えば、クラウド)を介してデータセットを取得することができ、ある特定の実施形態では、プログラム可能なプロセッサは、与えられたパラメータに基づいて、適切なデータセットを取得するように催促され得る。また、プログラム可能なプロセッサは、与えられたパラメータに基づいてプロセッサにより選択された1つまたは複数のデータセットオプションを選択するようにユーザーを催促する場合もある。プログラム可能なプロセッサは、インターネット、他の内部または外部の情報等を経由して見出される情報に基づき、プロセッサにより選択された1つまたは複数のデータセットオプションを選択するようにユーザーを催促し得る。オプションは、1つまたは複数のデータ特性セレクション、1つまたは複数の統計的アルゴリズム、1つまたは複数の統計分析アルゴリズム、1つまたは複数の統計的有意性アルゴリズム、反復ステップ、1つまたは複数の妥当性確認アルゴリズム、ならびに方法、装置、またはコンピュータプログラムの1つまたは複数の図形表示を選択するために選ばれ得る。
【0328】
本明細書が取り上げるシステムは、コンピュータシステムの一般的なコンポーネント、例えばネットワークサーバー、ラップトップシステム、デスクトップシステム、ハンドヘルドシステム、パーソナルデジタルアシスタント、公衆コンピュータ(computing kiosk)等を含み得る。コンピュータシステムは、ユーザーがデータをシステムに入力できるようにする1つまたは複数のインプット手段、例えばキーボード、タッチスクリーン、マウス、音声認識手段、または他の手段等を含み得る。システムは、ディスプレイスクリーン(例えば、CRTまたはLCD)、スピーカー、ファックス機、プリンター(例えば、レーザー式、インクジェット式、インパクト式、白黒またはカラープリンター)、または情報の視覚的、聴覚的および/もしくはハードコピーアウトプットを提供するのに有用な他のアウトプット(例えば、アウトカムおよび/またはレポート)を含むが、これらに限定されない、1つまたは複数のアウトプットをさらに含み得る。一部の実施形態では、ディスプレイモジュールは、適切なディスプレイ(例えば、モニター、LED、LCD、CRTなど、もしくはそれらの組合せ)、プリンター、適切な周辺機器またはデバイス上に提示するために適切な可視的メディア中にデータおよび/または情報を処理、変換、および/または移送する。ある特定の実施形態では、ディスプレイモジュールは、関係、プロファイル、またはアウトカムの可視的表示を提供する。適切な可視的メディアおよび/またはディスプレイの非限定的な例には、チャート、プロット、グラフなど、またはそれらの組合せが含まれる。一部の実施形態では、ディスプレイモジュールは、データおよび/または情報を処理、変換して、胎仔および/または母体のゲノムまたはそのセグメント(例えば、染色体またはその一部)の視覚表示にする。一部の実施形態では、ディスプレイモジュールまたはディスプレイモジュールを含む機械に、適切な可視的表示を提供することを要求する。
【0329】
システムでは、インプットおよびアウトプット手段は、コンポーネントの中でもとりわけ、プログラムインストラクションを実行するマイクロプロセッサ、ならびにプログラムコードおよびデータを保管するメモリを含み得る中央処理ユニットと接続され得る。一部の実施形態では、プロセスは、単一の地理的箇所に所在する単一のユーザーシステムとして実施され得る。ある特定の実施形態では、プロセスは、マルチユーザーシステムとして実施され得る。マルチユーザーで実施される場合、複数の中央処理ユニットが、ネットワークによって接続され得る。ネットワークは、建物の一部内の一部門、建物全体に波及するようにローカルであり、複数の建物にまたがり、1つの領域にまたがり、国全体にまたがり、または世界規模であり得る。ネットワークは個人的であり、プロバイダーにより所有、および管理され得る、またはユーザーが情報を入力および取り出すためにウェブページにアクセスするような、インターネットに基づくサービスとして実施され得る。したがって、ある特定の実施形態では、システムは、ユーザーにとってローカルまたはリモートであり得る1つまたは複数の機械を含む。1つの場所または複数の場所にある1つ超の機械に、ユーザーはアクセスでき、データは、連続しておよび/または並行してマッピングおよび/または処理され得る。したがって、適する構成および制御法が、ローカルネットワーク、リモートネットワーク、および/または「クラウド」コンピューティングプラットフォーム等において、複数の機械を使用してデータをマッピングおよび/または処理するのに利用できる。
【0330】
システムは、一部の実施形態では、コミュニケーションインターフェースを含み得る。コミュニケーションインターフェースは、コンピュータシステムと1つまたは複数の外部デバイスの間で、ソフトウェアおよびデータを移送できるようにする。コミュニケーションインターフェースの非限定的な例として、モデム、ネットワークインターフェース(イーサーネットカード等)、コミュニケーションポート、PCMCIAスロットとカード等が挙げられる。コミュニケーションインターフェース経由で移送したソフトウェアおよびデータは、一般的にシグナルの形態を取り、これは、電子シグナル、電磁気シグナル、光学シグナル、および/またはコミュニケーションインターフェースにより受信される他のシグナルであり得る。シグナルは、多くの場合、チャネルを介してコミュニケーションインターフェースに提供される。チャネルは、多くの場合、シグナルを担持し、ワイヤーまたはケーブル、ファイバーオプティックス、電話線、携帯電話リンク、RFリンク、および/または他のコミュニケーションチャネルを使用して実施され得る。したがって、1つの例では、コミュニケーションインターフェースは、シグナル検出モジュールにより検出できるシグナル情報を受信するのに使用できる。
【0331】
データは、マニュアルインプットデバイスまたはダイレクトデータ入力デバイス(DDE)を含むが、これらに限定されない、適するデバイスおよび/または方法によりインプットできる。マニュアルデバイスの非限定的な例として、キーボード、コンセプトキーボード、タッチ感応式スクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナー、デジタルカメラ、ビデオデジタイザー、および音声認識デバイスが挙げられる。DDEの非限定的な例として、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学式文字認識、光学式マーク認識、およびターンアラウンドドキュメントが挙げられる。
【0332】
一部の実施形態では、配列決定装置からのアウトプットは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、マッピングされた配列のリードは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、シミュレーションデータは、インシリコプロセスにより生成され、またシミュレーション後のデータは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。用語「インシリコ」とは、コンピュータを使用して行う研究および実験を指す。インシリコプロセスは、本明細書に記載するプロセスにより、配列のリードをマッピングすること、およびマッピングされた配列のリードを処理することを含むが、これらに限定されない。
【0333】
システムには、本明細書に記載するプロセスを行うために有用なソフトウェアを含むことができ、ソフトウェアは、かかるプロセスを行う1つまたは複数のモジュールを含み得る(例えば、配列決定モジュール、偏り補正モジュール、ディスプレイモジュール)。用語「ソフトウェア」は、コンピュータにより実行されると、コンピュータ操作を行う、コンピュータ可読プログラムのインストラクションを指す。1つまたは複数のプロセッサにより実行可能なインストラクションは、実行されると、1つまたは複数のプロセッサに本明細書に記載する方法を実施させることができる実行可能なコードとして提供される場合もある。本明細書に記載するモジュールは、ソフトウェアとして存在し得、ソフトウェアに組み込まれたインストラクション(例えば、プロセス、ルーチン、サブルーチン)が、プロセッサにより実施または行われ得る。例えば、モジュール(例えば、ソフトウェアモジュール)は、特定のプロセスまたはタスクを行うプログラムの一部であり得る。用語「モジュール」は、より大型の装置またはソフトウェアシステムで使用できる自己完結型の機能ユニットを指す。モジュールは、1つまたは複数のマイクロプロセッサによりモジュールの機能を実施するための一連のインストラクションを含み得る。モジュールのインストラクションは、その非限定的な例が、UNIX(登録商標)、Linux(登録商標)、oracle、windows、Ubuntu、ActionScript、C、C++、C#、Haskell、Java(登録商標)、JavaScript(登録商標)、Objective-C、Perl、Python、Ruby、Smalltalk、SQL、Visual Basic、COBOL、Fortran、UML、HTML(例えば、PHPによる)、PGP、G、R、S、など、またはそれらの組合せを含む、適切な言語(例えば、当技術分野で公知のコンピュータプログラミング言語)および/またはオペレーティングシステムで書かれた適切なプログラミング言語、適切なソフトウェア、および/またはコードを使用することにより演算環境内で実施することができる。一部の実施形態では、本明細書に記載するモジュールは、適切なパッケージ(例えば、Sパッケージ、Rパッケージ)を活用するSまたはRで書かれたコード(例えば、スクリプト)を含む。CRANまたはCRANミラーサイト(インターネット<URL:*>http://cran.us.r-project.org/<>から検索されるThe Comprehensive R Archive Network(CRAN)[online]、[2013-04-24に検索した])からのダウンロードのためには、R、Rソースコード、Rプログラム、Rパッケージ、およびRドキュメンテーションが利用可能である。CRANは、Rのためのコードおよびドキュメンテーションの、同一の最新バージョンを保管する、世界中のftpサーバーおよびウェブサーバーのネットワークである。
【0334】
モジュールは、データおよび/または情報を変換することができる。データおよび/または情報は、適する形態であり得る。例えば、データおよび/または情報は、デジタルまたはアナログであり得る。ある特定の実施形態では、データおよび/または情報は、パケット、バイト、符号、またはビットであり得る。一部の実施形態では、データおよび/または情報は、任意の収集、集積された、または使用可能なデータまたは情報であり得る。データおよび/または情報の非限定的な例として、適切なメディア、ファイル、写真、ビデオ、音声(例えば、周波数、可聴または非可聴)、番号、定数、値、物体、時間、文書、機能、インストラクション、コンピュータコード、マップ、参照、配列、リード、マッピングされたリード、リード密度、リード密度プロファイル、範囲、閾値、ディスプレイ、表示、アウトカム、変換など、またはそれらの組合せが挙げられる。モジュールは、データおよび/または情報を受容または受信し、データおよび/または情報を第2の形態に変換し、第2の形態を機械、周辺機器、コンポーネント、または別のモジュールに提供または移送することができる。モジュールは、1つまたは複数の下記の非限定的な機能を行うことができる:例えば、配列のリードをマッピングする、ファイル(例えば、マッピングされたリードデータ)を圧縮する、部分をフィルタリングする、部分を選択する、PCAを行う、主成分を提供する、リード密度および/もしくはリード密度プロファイルを調整する、部分を重み付ける、スコアを付ける、カウント数を提供する、部分を集積する、カウント数を正規化する、局所的なゲノムの偏りの推定値 局所的なゲノムの偏りの推定値を提供する、偏り頻度を提供する、リード密度を提供する、リード密度プロファイルを提供する、判定域および/もしくは判定域無しを提供する、不確実性の尺度を提供する、予想される範囲(例えば、閾値範囲および閾値レベル)を提供するもしくは決定する、かつ/またはアウトカムを決定する。プロセッサは、ある特定の実施形態では、モジュール内でインストラクションを実施することができる。一部の実施形態では、1つまたは複数のプロセッサは、モジュールまたはモジュール群内でインストラクションを実施するように要求される。モジュールは、データおよび/または情報を別のモジュール、装置、またはソースに提供することができ、ならびにデータおよび/または情報を別のモジュール、装置、またはソースから受信することができる。
【0335】
非一時的なコンピュータ可読ストレージメディアは、時には、自己に保管された実行可能プログラムを含み、時には、プログラムは、マイクロプロセッサに機能(例えば、本明細書に記載の方法)を行うように指示する。コンピュータプログラム製品は、実体的なコンピュータ可読メディアに組み込まれる場合もあれば、また非一時的なコンピュータ可読メディアに実体的に組み込まれる場合もある。モジュールは、コンピュータ可読メディア(例えば、ディスク、ドライブ)上またはメモリ(例えば、ランダムアクセスメモリ)内に保管される場合もある。モジュールからのインストラクションを実施する能力を有するモジュールおよびプロセッサは、機械または異なる装置内に所在し得る。モジュールに関するインストラクションを実施する能力を有するモジュールおよび/またはプロセッサは、ユーザーと同じ場所(例えば、ローカルネットワーク)、またはユーザーとは異なる場所(例えば、リモートネットワーク、クラウドシステム)に所在し得る。方法が、2つまたはそれ超のモジュールと併せて実施される複数の実施形態では、モジュールは、同一装置内に所在してもよく、1つまたは複数のモジュールは、物理的な場所が同一である異なる装置内に所在してもよく、1つまたは複数のモジュールは、物理的な場所が異なる、異なる装置内に所在してもよい。
【0336】
機械は、一部の実施形態では、モジュール内のインストラクションを実施する少なくとも1つのプロセッサを含む。参照ゲノムの部分に対してマッピングされた配列のリードのカウント数には、本明細書に記載する方法を実施するように構成されたインストラクションを実行するプロセッサからアクセスする場合がある。プロセッサがアクセスするカウント数は、システムのメモリ内にあってもよく、カウント数は、その取得後にアクセス可能およびシステムのメモリ内に配置可能である。一部の実施形態では、機械はプロセッサ(例えば、1つまたは複数のプロセッサ)を含み、同プロセッサは、モジュールからの1つまたは複数のインストラクション(例えば、プロセス、ルーチン、および/またはサブルーチン)を行うおよび/また実施することができる。一部の実施形態では、機械は、並行同調化作動型のプロセッサ等の複数のプロセッサを含む。一部の実施形態では、機械は、1つまたは複数の外部プロセッサ(例えば、内部または外部のネットワーク、サーバー、保管デバイス、および/または保管ネットワーク(例えば、クラウド))と共に稼働する。一部の実施形態では、機械はモジュールを含む。ある特定の実施形態では、機械は、1つまたは複数のモジュールを含む。モジュールを含む機械は、多くの場合、1つまたは複数のデータおよび/または情報を、他のモジュールから受信し、またそれに対して移送することができる。ある特定の実施形態では、機械は周辺機器および/またはコンポーネントを含む。ある特定の実施形態では、機械は、データおよび/または情報を、他のモジュール、周辺機器、および/またはコンポーネントに対して、およびこれらから移送することができる1つまたは複数の周辺機器またはコンポーネントを含み得る。ある特定の実施形態では、機械は、データおよび/または情報を提供する周辺機器および/またはコンポーネントと相互作動する。ある特定の実施形態では、周辺機器およびコンポーネントは、機械がある機能を実施するのを支援する、またはモジュールと直接相互作動する。周辺機器および/またはコンポーネントの非限定的な例として、適したコンピュータ周辺機器、I/Oもしくは保管方法、またはデバイス挙げられ、これにはスキャナー、プリンター、ディスプレイ(例えば、モニター、LED、LCT、またはCRT)、カメラ、マイクロフォン、パッド(例えば、ipad、タブレット)、タッチスクリーン、スマートフォン、携帯電話、USB I/Oデバイス、USB大容量ストレージデバイス、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、プロセッサ、サーバー、CD、DVD、グラフィックカード、特殊I/Oデバイス(例えば、シーケンサー、フォトセル、光電子増倍管、光学リード装置、センサー等)、1つまたは複数のフローセル、流体ハンドリングコンポーネント、ネットワークインターフェースコントローラー、ROM、RAM、無線転送方法およびデバイス(ブルートゥース(登録商標)、WiFi等)、ワールドワイドウェブ(www)、インターネット、コンピュータおよび/または別のモジュールが含まれるが、これらに限定されない。
【0337】
ソフトウェアは、多くの場合、コンピュータ可読メディア(例えば、非一時的なコンピュータ可読メディア)に記録されているプログラムインストラクションを含有するプログラム製品上に提供され、そのようなメディアとして、フロッピー(登録商標)ディスク、ハードディスク、および磁気テープを含む磁気メディア;ならびにCD-ROMディスク、DVDディスク、光磁気ディスクを含む光学式メディア、ソリッドステートドライブ、フラッシュドライブ、RAM、ROM、BUS、フロッピー(登録商標)ディスク等、およびプログラムインストラクションが記録可能である他のそのようなメディアが挙げられるが、これらに限定されない。オンラインで実施する際には、組織により維持されるサーバーおよびウェブサイトは、ソフトウェアダウンロードをリモートユーザーに提供するように構成され得る、またはリモートユーザーは、組織により維持されるリモートシステムにアクセスして、遠隔的にソフトウェアにアクセスすることができる。ソフトウェアはインプット情報を取得または受信することができる。ソフトウェアは、データを具体的に取得または受信するモジュール(例えば、配列のリードデータおよび/またはマッピングされたリードデータを受信するデータ受信モジュール)を含み得、データを具体的に処理するモジュール(例えば、受信したデータを処理する処理モジュール(例えば、結果および/またはレポートをフィルタリングする、正規化する、提供する))を含み得る。用語、インプット情報を「取得する」および「受信する」とは、ローカルもしくはリモートサイトからコンピュータコミュニケーション手段により、ヒトがデータ入力することにより、または任意の他のデータ受信方法により、データ(例えば、配列のリード、マッピングされたリード)を受信することを指す。インプット情報は、受信した場所と同一の場所で生成される場合もあれば、異なる場所で生成され、受信場所に移転される場合もある。一部の実施形態では、インプット情報は、処理される前に修正される(例えば、処理しやすいフォーマット(例えば、表形式)に配置される)。
【0338】
ある特定の実施形態では、ソフトウェアは1つまたは複数のアルゴリズムを含み得る。アルゴリズムは、データを処理するのに、および/または有限列のインストラクションにより、結果またはレポートを得るのに使用できる。アルゴリズムは、多くの場合、タスクを完了するための規定されたインストラクションのリストである。初期状態から開始し、インストラクションは、規定された一連の連続した状態を経由して進行し、最終的に最終エンディング状態で終了する演算について記載し得る。1つの状態から次の状態への移行は必ずしも確定的ではない(例えば、一部のアルゴリズムには、偶然性が取り込まれる)。例として、アルゴリズムは、非限定的にサーチアルゴリズム、ソーティングアルゴリズム、統合アルゴリズム、数値アルゴリズム、グラフアルゴリズム、ストリングアルゴリズム、モデリングアルゴリズム、計算型幾何アルゴリズム、コンビナトリアルアルゴリズム、機械学習アルゴリズム、クリプトグラフィーアルゴリズム、データ圧縮アルゴリズム、パージングアルゴリズム等であり得る。アルゴリズムは、1つのアルゴリズムまたは組み合わせて作動する2つもしくはそれ超のアルゴリズムを含み得る。アルゴリズムは、任意の適する複雑性クラス、および/またはパラメータ化された複雑性のものであってもよい。アルゴリズムは計算および/またはデータ処理するのに使用することができ、一部の実施形態では、確定的または確率的/予測的なアプローチで使用することができる。アルゴリズムは、適するプログラミング言語を使用することにより、演算環境内で実施可能であり、そのような言語の非限定的な例として、C、C++、Java(登録商標)、Perl、R、S、Python、Fortran等がある。一部の実施形態では、アルゴリズムは、許容誤差、統計分析、統計的有意性、不確定性の尺度、および/または他の情報もしくはデータセットとの比較(例えば、ニューラルネットまたはクラスタリングアルゴリズムを使用する際に適用可能)を含むように構成または修正され得る。
【0339】
ある特定の実施形態では、いくつかのアルゴリズムが、ソフトウェア内で使用するために実施され得る。これらのアルゴリズムは、一部の実施形態では、生データを用いて訓練可能である。新しい生データ試料毎に、訓練されたアルゴリズムは、代表的な処理済みデータセットまたは結果を生成し得る。処理済みのデータセットは、処理された親データセットと比較して複雑性が低減されたものの場合もある。処理済みのセットに基づき、一部の実施形態では、感度および特異性に基づき訓練されたアルゴリズムの性能を評価することができる。最高の感度および/または特異性を有するアルゴリズムが、ある特定の実施形態では、同定および利用され得る。
【0340】
ある特定の実施形態では、シミュレーションされた(またはシミュレーション)データが、例えばアルゴリズムを訓練するまたはアルゴリズムを試験することによりデータ処理を補助することができる。一部の実施形態では、シミュレーションされたデータには、配列のリードの異なるグルーピングの、仮想的な様々なサンプリングが含まれる。シミュレーションされたデータでは、何が真の母集団から予想され得るか、またはアルゴリズムを試験する、および/または正しい分類を割り当てる際に何に歪みが生じ得るか、が基準となり得る。また、シミュレーションされたデータは、本明細書では、「仮想」データとも呼ばれる。シミュレーションは、ある特定の実施形態では、コンピュータプログラムにより行われ得る。シミュレーションされたデータセットを使用する際の1つの考え得るステップは、同定された結果の信頼度を評価すること、例えばランダムサンプリングが、どのくらい良好にオリジナルデータと一致するか、またはオリジナルデータを最も良好に表すか、評価することである。1つのアプローチは、確率値(p値)を計算することであり、この値は、ランダム試料が選択された試料より良好なスコアを有する確率を推定する。一部の実施形態では、経験的モデルが評価される場合があり、この場合、少なくとも1つの試料が参照試料と一致することを前提とする(分解変異の存在または非存在を問わない)。一部の実施形態では、例えばポアソン分布等の別の分布が、確率分布を規定するのに使用することができる。
【0341】
システムは、ある特定の実施形態では、1つまたは複数のプロセッサを含み得る。プロセッサは、コミュニケーションバスと接続され得る。コンピュータシステムは、メインメモリ、多くの場合ランダムアクセスメモリ(RAM)を含み得、二次メモリも含むことができる。一部の実施形態では、メモリは、非一時的なコンピュータ可読ストレージメディアを含む。二次メモリは、例えばハードディスクドライブおよび/またはリムーバブルストレージドライブを含み、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学式ディスクドライブ、メモリカード等がこれに該当し得る。リムーバブルストレージドライブは、多くの場合、リムーバブルストレージユニットから読み取る、および/またはこれに書き込む。リムーバブルストレージユニットの非限定的な例として、フロッピー(登録商標)ディスク、磁気テープ、光学式ディスク等が挙げられ、例えばリムーバブルストレージドライブにより、リードおよび書き込み可能である。リムーバブルストレージユニットは、コンピュータソフトウェアおよび/またはデータを内蔵するコンピュータ使用可能ストレージメディアを含み得る。
【0342】
プロセッサは、システム内でソフトウェアを実施可能である。一部の実施形態では、プロセッサは、ユーザーが行うことができる、本明細書に記載するタスクを自動的に行うようにプログラムされ得る。したがって、プロセッサまたはかかるプロセッサにより実施されるアルゴリズムは、ユーザーによる監視またはインプットを、ほとんどまたはまったく必要としないと考えられる(例えば、ソフトウェアは、機能を自動的に実施するようにプログラムされ得る)。一部の実施形態では、プロセスはあまりにも複雑であり、一人の個人であっても、また個人の群であっても、遺伝子の変異の存在または非存在を決定するのに十分短いタイムフレーム内でプロセスを行うことは不可能である。
【0343】
一部の実施形態では、二次メモリは、コンピュータプログラムまたは他のインストラクションをコンピュータシステムにロードできるようにするために、他の類似した手段を含み得る。例えば、システムは、リムーバブルストレージユニットおよびインターフェースデバイスを含み得る。かかるシステムの非限定的な例として、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲームデバイスに見出されるもの等)、リムーバブルメモリチップ(EPROMまたはPROM等)、および関連するソケット、ならびにソフトウェアおよびデータをリムーバブルストレージユニットからコンピュータシステムに移動できるようにする、他のリムーバブルストレージユニットおよびインターフェースが挙げられる。
【0344】
一部の実施形態では、1つの実体は、配列のリードのカウント数を生成すること、配列のリードを部分に対してマッピングすること、マッピングされたリードをカウント数計測すること、およびカウント数計測後のマッピングされたリードを、本明細書に記載する方法、システム、機械、またはコンピュータプログラム製品において利用することができる。ある特定の実施形態では、部分に対してマッピングされた配列のリードのカウント数は、本明細書に記載する方法、システム、機械、またはコンピュータプログラム製品において、第2の実体が使用するために、1つの実体により、第2の実体に移動される場合もある。
【0345】
一部の実施形態では、1つの実体は配列のリードを生成し、一部の実施形態では、第2の実体はその配列のリードを参照ゲノム内の部分に対してマッピングする。第2の実体は、マッピングされたリードをカウント数計測し、カウント数計測後のマッピングされたリードを、本明細書に記載する方法、システム、機械、またはコンピュータプログラム製品において利用する場合がある。ある特定の実施形態では、第2の実体は、マッピングされたリードを第3の実体に移送し、第3の実体は、マッピングされたリードをカウント数計測し、マッピングされたリードを、本明細書に記載する方法、システム、機械、またはコンピュータプログラム製品において利用する。ある特定の実施形態では、第2の実体は、マッピングされたリードをカウント数計測し、カウント数計測後のマッピングされたリードを第3の実体に移送し、第3の実体は、カウント数計測後のマッピングされたリードを、本明細書に記載する方法、システム、機械、またはコンピュータプログラム製品において利用する。第3の実体が関与する実施形態では、第3の実体は、第1の実体と同一である場合もある。すなわち、第1の実体は、配列のリードを第2の実体に移送する場合があり、この第2の実体は、参照ゲノム内の部分に対して配列のリードをマッピングする、および/またはマッピングされたリードをカウント数計測することができ、第2の実体は、マッピング後および/またはカウント数計測後のリードを第3の実体に移送することができる。第3の実体は、マッピング後および/またはカウント数計測後のリードを本明細書に記載する方法、システム、機械、またはコンピュータプログラム製品において利用することができる場合もあり、この場合、第3の実体は第1の実体と同一である場合もあれば、第3の実体は第1または第2の実体とは異なる場合もある。
【0346】
一部の実施形態では、1つの実体は、妊娠中の雌から血液を取得し、任意選択で血液から(例えば、血漿または血清から)核酸を単離し、核酸から配列のリードを生成する第2の実体に血液または核酸を移送する。
【0347】
図11は、本明細書に記載する様々なシステム、方法、アルゴリズム、およびデータ構造の実施が可能である演算環境510の非限定的な例を示す。演算環境510は、適する演算環境の1つの例に過ぎず、本明細書に記載するシステム、方法、およびデータ構造の使用の範囲または機能性について何らかの制限を示唆するようには意図されない。また、演算環境510は、演算環境510に示すコンポーネントの任意の1つまたはその組合せと関連する何らかの依存性または要件を有するものと解釈してはならない。
図11に示すシステム、方法、およびデータ構造のサブセットは、ある特定の実施形態で利用可能である。本明細書に記載するシステム、方法、およびデータ構造は、非常に多くの他の汎用または専用の演算システム環境またはコンフィギュレーションと共に運用可能である。適すると考えられる公知の演算システム、環境、および/またはコンフィギュレーションの例として、パーソナルコンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、携帯式またはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサに基づくシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを含む分散型演算環境等が挙げられるが、これらに限定されない。
【0348】
図11のオペレーティング環境510はコンピュータ520の形態の汎用演算デバイスを含み、これには、処理ユニット521、システムメモリ522、およびシステムメモリ522を含む様々なシステムコンポーネントを処理ユニット521に作動可能に連結させるシステムバス523が含まれる。コンピュータ520のプロセッサが、単一の中央処理ユニット(CPU)または並列処理環境と一般的に呼ばれる複数の処理ユニットを含むように、処理ユニット521は1つのみ存在し得る、または1つ超存在し得る。コンピュータ520は、従来型コンピュータ、分散型コンピュータ、またはあらゆる他の種類のコンピュータであり得る。
【0349】
システムバス523は、メモリバスまたはメモリコントローラー、周辺バス、および様々なバスアーキテクチャーのいずれかを使用するローカルバスを含む、任意の数種類のバス構造であり得る。また、システムメモリは、単にメモリと呼ばれる場合もあり、リードオンリメモリ(ROM)524およびランダムアクセスメモリ(RAM)を含む。立ち上げ時等に、コンピュータ520内のエレメント間の情報移送に役立つ基本ルーチンを含む基本入出力システム(BIOS)526は、ROM524に保管される。コンピュータ520は、図示しないがハードディスクから読み出し、これに書き込むハードディスクドライブインターフェース527、リムーバブル磁気ディスク529から読み出し、これに書き込む磁気ディスクドライブ528、およびリムーバブル光学式ディスク531、例えばCD ROMまたは他の光学式メディアから読み出し、これに書き込む光学式ディスクドライブ530をさらに含み得る。
【0350】
ハードディスクドライブ527、磁気ディスクドライブ528、および光学式ディスクドライブ530は、ハードディスクドライブインターフェース532、磁気ディスクドライブインターフェース533、および光学式ディスクドライブインターフェース534により、システムバス523とそれぞれ接続される。ドライブおよびその関連するコンピュータ可読メディアは、コンピュータ可読インストラクション、データ構造、プログラムモジュール、およびコンピュータ520用の他のデータの不揮発性の保管を提供する。コンピュータがアクセス可能なデータを保管することができる、あらゆる種類のコンピュータ可読メディア、例えば磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)等が、オペレーティング環境内で使用することができる。
【0351】
いくつかのプログラムモジュールが、オペレーティングシステム535、1つまたは複数のアプリケーションプログラム536、他のプログラムモジュール537、およびプログラムデータ538を含む、ハードディスク、磁気ディスク529、光学式ディスク531、ROM524、またはRAM上に保管され得る。ユーザーは、コマンドおよび情報を、インプットデバイス、キーボード540およびポインティングデバイス542等を通じてパーソナルコンピュータ520に入力することができる。他のインプットデバイス(図示せず)として、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディシュ、スキャナー等を挙げることができる。これらおよび他のインプットデバイスが、多くの場合、システムバスに連結したシリアルポートインターフェース546を経由して処理ユニット521と接続されるが、他のインターフェース、例えばパラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)により接続される場合もある。モニター547または他の種類のディスプレイデバイスも、インターフェース、例えばビデオアダプター548を介してシステムバス523と接続される。モニターに加えて、コンピュータは、他の周辺アウトプットデバイス(図示せず)、例えばスピーカーおよびプリンターを一般的に含む。
【0352】
コンピュータ520は、1つまたは複数のリモートコンピュータ、例えばリモートコンピュータ549との論理接続を使用して、ネットワーク化した環境内で作動可能である。これらの論理接続は、コンピュータ520もしくはその一部と連結しているコミュニケーションデバイスにより、または他の方式で達成され得る。
図11ではメモリストレージデバイス550しか示さなかったが、リモートコンピュータ549は、別のコンピュータ、サーバー、ルーター、ネットワークPC、クライアント、ピアデバイス、もしくは他の一般的なネットワークノードであり得、コンピュータ520と関連して上記エレメントの多くまたは全てを一般的に含む。
図11に示す論理接続として、ローカルエリアネットワーク(LAN)551およびワイドエリアネットワーク(WAN)552が挙げられる。かかるネットワーク環境は、オフィスネットワーク、全社的コンピュータネットワーク、イントラネット、およびインターネットでは普通であり、そのいずれも典型的なネットワークである。
【0353】
LAN-ネットワーク環境で使用する場合、コンピュータ520は、コミュニケーションデバイスの一種であるローカルネットワーク551と、ネットワークインターフェースまたはアダプター553を介して接続される。WAN-ネットワーク環境で使用する場合、コンピュータ520は、多くの場合、コミュニケーションデバイスの一種であるモデム554、またはワイドエリアネットワーク552全体にわたりコミュニケーションを確立するために他の任意の種類のコミュニケーションデバイスを含む。モデム554は、内部または外部であってもよいが、シリアルポートインターフェース546を介してシステムバス523と接続される。ネットワーク化された環境では、パーソナルコンピュータ520またはその一部と関連して示されるプログラムモジュールは、リモートメモリストレージデバイス内に保管され得る。示すようなネットワーク接続は非限定的な例であり、またコンピュータ間のコミュニケーションリンクを確立するための他のコミュニケーションデバイスも使用することができると認識される。
【0354】
一部の実施形態では、システムは、1つまたは複数のマイクロプロセッサおよびメモリを含み、メモリは、1つまたは複数のマイクロプロセッサにより実行可能なインストラクションを含み、1つまたは複数のマイクロプロセッサにより実行可能なインストラクションは、(a)試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と、(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成し(配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、参照ゲノムに対してマッピングされている)、(b)試料偏り関係と参照偏り関係とを比較し、それにより比較を生成し(参照偏り関係は、参照についての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との間のものである)、(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されるように構成されている。
【0355】
一部の実施形態では、システムは、1つまたは複数のマイクロプロセッサおよびメモリを含み、メモリは、1つまたは複数のマイクロプロセッサにより実行可能なインストラクションを含み、1つまたは複数のマイクロプロセッサにより実行可能なインストラクションは、(a)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との関係を生成し、それにより試料GC密度関係を生成し(配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、参照ゲノムに対してマッピングされている)、(b)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成し(参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである)、(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されるように構成されている。
【0356】
一部の実施形態では、システムは、1つまたは複数のマイクロプロセッサおよびメモリを含み、メモリは、1つまたは複数のマイクロプロセッサにより実行可能なインストラクションを含み、1つまたは複数のマイクロプロセッサにより実行可能なインストラクションは、(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供し(リード密度は、参照ゲノムに対してマッピングされた妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを使用して決定され、リード密度分布は、複数の試料についての部分のリード密度について決定される)、(b)マイクロプロセッサを使用して、主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供し、(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供し、(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するように構成されている。
【0357】
一部の実施形態では、自己に保管された実行可能プログラムを含む非一時的なコンピュータ可読ストレージメディアを本明細書に提示する。一部の実施形態では、自己に保管された実行可能プログラムを含む非一時的なコンピュータ可読ストレージメディアは、コンピュータプログラム製品を含む。一部の実施形態では、自己に保管された実行可能プログラムを含む非一時的なコンピュータ可読ストレージメディアは、ソフトウェアを指す。コンピュータプログラム製品はしばしば、ソフトウェアである。一部の実施形態では、自己に保管された実行可能プログラムを含む非一時的なコンピュータ可読ストレージメディアであって、プログラムは、マイクロプロセッサに、(a)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との関係を生成し、それにより試料GC密度関係を生成し(配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、参照ゲノムに対してマッピングされている)、(b)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成し(参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである)、(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されることを行うように指示する、非一時的なコンピュータ可読ストレージメディアを本明細書に提示する。
【0358】
一部の実施形態では、自己に保管された実行可能プログラムを含む非一時的なコンピュータ可読ストレージメディアであって、プログラムは、マイクロプロセッサに、(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それにより、フィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供し(リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、リード密度分布は、複数の試料についての部分のリード密度について決定される)、(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供し、(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供し、(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定することを行うように指示する、非一時的なコンピュータ可読ストレージメディアも本明細書に提示する。
【0359】
モジュール
1つまたは複数のモジュールを、本明細書に記載する方法で活用することができ、モジュールの非限定的な例には、圧縮モジュール、配列決定モジュール、マッピングモジュール、フィルタリングモジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、多変量補正モジュール、分布モジュール、プロファイル生成モジュール、PCA統計モジュール、部分重み付けモジュール、スコアリングモジュール、アウトカムモジュール、ディスプレイモジュールなど、またはそれらの組合せが含まれる。一部の実施形態では、モジュールは、一連のインストラクションを含む非一時的なコンピュータ可読メディア(例えば、コンピュータプログラム製品、例えば、ソフトウェア、プログラム)であり、一連のインストラクションは、1つまたは複数のマイクロプロセッサに機能を行うように指示する。一部の実施形態では、モジュールは、適切なコンピュータコード(例えば、ソースコード)の形態でインストラクションを含む。ソースコードは、時には、プログラムを含む。コンピュータコードは、時には、1つまたは複数のファイル(例えば、テキストファイル)を含む。コンピュータコードは、適切な非一時的なストレージメディア(例えば、コンピュータのハードディスク上の、例えば、メモリ)に保管することができる。コンピュータコードファイルはしばしば、並べられてディレクトリツリー(例えば、ソースツリー)にされる。モジュールのコンピュータコードは、適切なプログラミング言語で書くことができ、これらの非限定的な例には、Cプログラミング言語、ベーシック、R、R++、S、java、HTMLなど、またはそれらの組合せが含まれる。一部の実施形態では、適切な主プログラムは、コンピュータコードのインタープリタとして作用する。一部の実施形態では、モジュールは、メモリを含み、かつ/またはメモリへのアクセスを有する。モジュールは、マイクロプロセッサにより管理される場合もある。ある特定の実施形態では、モジュールまたは1つもしくは複数のモジュールを含む機械は、別のモジュール、機械、コンポーネント、周辺機器、または機械のオペレーターに、またはそれらから、データおよび/または情報を収集、集積、受信、取得、アクセス、回収、提供、および/または移送する。一部の実施形態では、データおよび/または情報(例えば、配列のリード、カウント数等)は、下記の1つまたは複数を含む機械によりモジュールに提供される:1つまたは複数のフローセル、カメラ、検出器(例えば、光検出器、フォトセル、電気的検出器(例えば、振幅変調検出器、周波数および位相変調検出器、位相ロックループ検出器)、カウンター、センサー(例えば、圧力、温度、容積、フロー、重量のセンサー)、流体ハンドリングデバイス、プリンター、ディスプレイ(例えば、LED、LCT、またはCRT)等またはその組合せ。機械のオペレーターは、定数、閾値、式、または事前に決定された値をモジュールに提供する場合もある。モジュールは、多くの場合、データおよび/または情報を、別のモジュールもしくは機械に、またはそれから移送するように構成される。モジュールは、別のモジュールからデータおよび/または情報を受信することができ、別のモジュールの非限定的な例には、圧縮モジュール、配列決定モジュール、マッピングモジュール、フィルタリングモジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、多変量補正モジュール、分布モジュール、プロファイル生成モジュール、PCA統計モジュール、部分重み付けモジュール、スコアリングモジュール、アウトカムモジュール、ディスプレイモジュールなど、またはそれらの組合せが含まれる。モジュールは、データおよび/または情報を操作および/または変換することができる。モジュールにより導出または変換されたデータおよび/または情報は、別の適切な機械および/またはモジュールに移送することができ、別の適切な機械および/またはモジュールの非限定的な例には、圧縮モジュール、配列決定モジュール、マッピングモジュール、フィルタリングモジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、多変量補正モジュール、分布モジュール、プロファイル生成モジュール、PCA統計モジュール、部分重み付けモジュール、スコアリングモジュール、アウトカムモジュール、ディスプレイモジュールなど、またはそれらの組合せが含まれる。モジュールを含む機械は、少なくとも1つのプロセッサを含み得る。一部の実施形態では、データおよび/または情報は、モジュールを含む機械により受信および/または提供される。モジュールを含む機械は、プロセッサを含むことができ(例えば、1つまたは複数のプロセッサ)、そのようなプロセッサは、モジュールの1つまたは複数のインストラクション(例えば、プロセス、ルーチン、および/またはサブルーチン)を行うおよび/または実施することができる。一部の実施形態では、モジュールは、1つまたは複数の外部プロセッサ(例えば、内部または外部のネットワーク、サーバー、ストレージデバイス、および/またはストレージネットワーク(例えば、クラウド))と共に作動する。一部の実施形態では、システム(例えば、
図10に示したシステムの実施形態)は、圧縮モジュール、配列決定モジュール、マッピングモジュール、フィルタリングモジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、多変量補正モジュール、分布モジュール、プロファイル生成モジュール、PCA統計モジュール、部分重み付けモジュール、スコアリングモジュール、アウトカムモジュール、ディスプレイモジュールなど、またはそれらの組合せのうちの1つまたは複数を含む。
【0360】
変換
上記のように、データは1つの形態から別の形態に変換される場合もある。用語「変換された」、「変換」、およびその文法的な派生物または同等物は、本明細書で使用する場合、物理的な出発物質(例えば、試験対象および/または参照対象試料の核酸)から物理的な出発物質のデジタル表示(例えば、配列のリードデータ)へのデータの変更を指し、一部の実施形態では、結果を提供するのに利用できる1つもしくは複数の数値への、またはデジタル表示の図形表示へのさらなる変換を含む。ある特定の実施形態では、1つまたは複数の数値および/またはデジタル的に表示されたデータの図形表示は、試験対象の物理的なゲノムの状況を表すのに利用できる(例えば、ゲノムの挿入、重複、または欠失の存在または非存在を仮想的に表すおよび/または可視的に表す;医学的状態と関連した配列の物理量の変異の存在または非存在を表す)。仮想表示は、1つもしくは複数の数値、または出発物質のデジタル表示の図形表示にさらに変換される場合もある。これらの方法は、物理的な出発物質を、数値もしくは図形表示に、または試験対象ゲノムの物理的状況表示に変換することができる。
【0361】
一部の実施形態では、本明細書の方法およびシステムは、妊娠中の雌の血液中に見出される多数のポリヌクレオチド断片の混合物を、胎仔、母体、または胎盤の細胞内に存在する特定の微視的構造および/または特定の超微視的構造(例えば、染色体またはそのセグメント)の1つまたは複数の表示に変換する。これらのポリヌクレオチド断片は一般に、異なる細胞および組織(例えば、母体の、胎盤の、胎仔の、例えば、筋肉、心臓、肝臓、リンパ球、腫瘍)、異なる染色体、ならびに異なる遺伝子エレメントおよび/または場所(例えば、動原体領域、反復エレメント、GCリッチ領域、超可変領域、異なる遺伝子、異なる制御エレメント、イントロン、エクソンなど)から生じる。一部の実施形態では、本明細書に記載するシステムは、配列決定機を使用することにより、ポリヌクレオチド断片を配列のリードに変換する。一部の実施形態では、本明細書に記載するシステムは、偏りを含む配列のリードを、正規化された配列のカウント数、リード密度、および/またはプロファイルに変換する。配列のリードはしばしば、正規化された配列のカウント数、リード密度、および/またはプロファイルに変換され、ここで偏りはしばしば、偏り低減機、ならびに/または1つもしくは複数の適切な処理および/もしくはモジュール(例えば、マッピングモジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、および/または多変量補正モジュール)を使用することにより有意に低減される。正規化された配列のリード、ならびに偏りが低減された正規化された配列のリードから生成されるリード密度および/またはリード密度プロファイルは、より確信的なアウトカムを生成するのに有用である。配列のリードはしばしば、特定の配列のリードパラメータを変化させ、偏りを低減する変換によって変更され、それにより時には、プロファイルおよびアウトカムに変換される正規化された配列のリードを提供する。
【0362】
一部の実施形態では、データセットを変換すると、データの複雑性および/またはデータの次元数が低減し、これにより結果の提供がし易くなる。データセットの複雑性は、物理的な出発物質を出発物質の仮想表示に変換するプロセスの際に低減する場合もある(例えば、物理的な出発物質を表す配列のリード)。適する特性または変数が、データセットの複雑性および/または次元数を低減するのに利用できる。データ処理するための標的特性として使用するのに選択できる特性の非限定的な例として、GC含有量、胎仔の性別予測、染色体異数性の同定、特定の遺伝子またはタンパク質の同定、がん、疾患、遺伝性の遺伝子/特性、染色体異常の同定、生物学的カテゴリー、化学的カテゴリー、生化学的カテゴリー、遺伝子またはタンパク質のカテゴリー、遺伝子オントロジー、タンパク質オントロジー、同時制御された遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、上記遺伝子に関連するタンパク質、遺伝子変異体、タンパク質変異体、同時制御された遺伝子、同時制御されたタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データ等、および上記組合せが挙げられる。データセットの複雑性および/または次元数の低減に関する非限定的な例として;複数の配列リードをプロファイルプロットに低減化すること、複数の配列リードを数値に低減化すること(例えば、値、Zスコア、p値の正規化);複数の分析方法を確率プロットまたは単一ポイントに低減化すること;導き出された数量の主成分分析等、またはその組合せが挙げられる。
【実施例】
【0363】
下記の実施例は、もっぱら実例として提示されていて、制限するものではない。したがって、下記の実施例はある特定の実施形態について説明し、本技術に制限を設けるものではない。当業者は、本質的に同一または類似の結果を得るために変更または修正可能な様々な非クリティカルパラメータを容易に認識する。
【0364】
(実施例1)
ChAI
ChAIは、試験対象(例えば、妊娠中の雌)から得られた配列のリードから胎仔における染色体異数性の存在または非存在を決定するための例示的なシステムである。ChAIに関するシステムのフロー図の例を、
図10Aおよび10Bに示す。妊娠中の雌の試験対象、および本明細書で訓練セットと呼ぶときもある、1例または複数例の参照対象から、配列のリードを取得した。訓練セットの妊娠中の雌対象は、他の試験法により正倍数体であることが確認された胎仔を有した。
【0365】
配列のリードを、ChAIが一層迅速に稼働できるように、まずSAMまたはBAMフォーマットからバイナリリードフォーマット(BReadフォーマット)に圧縮した。BReadフォーマットは、染色体および参照ゲノムにより決定された塩基対の位置を含め、リード毎にゲノムの場所を保管し、他の情報を廃棄する。BReadファイルは、含有されるリードのカウント数から開始する。これにより、メモリのリロケーションが不要となり、ローディング時間が改善する。値をディスク上に4バイトアレイとして保管した。リードを、次に5バイトフォーマットを使用して保管し、1つは染色体序数(1~22、X、Y、Mのゼロ-インデックス)、4つは染色体位置に関する。最初の4バイトから配列のリードカウント数を最初に読み取って、BReadファイルをロードした。各配列のリードを、次に一度に5バイトずつロードし、最初のバイトは染色体序数を示し、次の4バイトは整数位置に変換する。リードのランダムサンプリングは、特定のリードインデックスに対するディスク-スキップコマンドを使用することにより、迅速に行うことができる。
【0366】
例として、マッピングされたリード、17,673,732について、異なるフォーマットのディスク使用状況を、BReadフォーマットのディスク使用状況と表Iで比較する。
【0367】
【0368】
BReadフォーマットは、オリジナルのSAMファイルよりも約1/50ほど小さく、その使用スペースは、GZipフォーマットよりも約12%小さい。BReadは、ワンタイムメモリアロケーションの冒頭部で、リード数を保管するという長所も有し、またリードは順番に読み取られる必要はないので、迅速にサンプリング可能である。これらの特性は他のフォーマットでは不可能であった。
【0369】
GCの偏りのモデリング
各試料についてGCの偏りモデルを次に習得した。部分フィルターを作成するために、およびGCの偏り単独では十分に説明されない他のゲノムの偏りを習得するために、訓練用に指定された試料を、部分的に使用した。最終的に、訓練統計量を、試験試料をフィルタリングおよびスコア化するのに使用した。
【0370】
ChAIにより、局所的なGC含有量の密度推定値を使用して、GCの偏りをモデル化した。Epanechnikovカーネル等のカーネル機能を使用して、参照ゲノムからGC密度を見積もった(
図1)。ガウシアンまたはトリウェイトカーネル(triweight kernel)を含む、他のカーネルも適する。バンド幅を200bpとして選択したが、バンド幅パラメータはフレキシブルである。
【0371】
カーネルを使用して、参照ゲノムについてGC密度を塩基対分解能で見積もった(例えば、
図2に示す通り)。参照のGC密度推定値を使用して、試料に由来する各リードの局所的なGC含有量を決定した。試料に関するGC密度推定値の分布を、次に参照ゲノム全体にわたる分布と比較して、GCの偏りを決定した(
図3)。AT-リッチ領域(GC密度=0)に対してマッピングするリードおよび参照値を廃棄した。
【0372】
試料のGC密度分布と参照の同分布との間の差異を、試料の分布密度で除算した参照の分布密度の対数比に適合した多項式を使用してモデル化した(
図4)。重み付けの方式でモデルを適合させ、各重みには、所与ののGC密度値に対する試料の分布密度値が採用された。こうすることにより、分布のテールによって、適合が過剰になりすぎないことを保証した。他の適合モデル、例えば分位点回帰分析モデルまたはパラメータ付きの確率分布が、偏りの分布に適するのと同様に使用することができる。
【0373】
参照と比較して試料が過剰にまたは過少に表示される場合、これを調整するために、GC適合モデルを使用して、試料に関する配列のリードの各カウント数を重み付けした。これらの重みをリード密度の推定値に組み込むことにより、ChAIアルゴリズムは、GCの偏りを補正することができた。
【0374】
多次元偏り補正
GCの偏りは、ゲノム内のリードパターンに影響を及ぼすいくつかの偏りの1つに過ぎなかった。一般化された多変量モデルを使用してリードの重みを見積もるために、さらなる偏りをモデル化および補正する場合もあった。この補正は以下のように行った:
【0375】
1.ゲノム位置のサブセットのそれぞれについて、試験試料および参照ゲノムについて、N偏り値を見積もった。
【0376】
2.N次元平滑化カーネルまたは適するパラメトリック機能を使用して、偏り値の密度をモデル化した。
【0377】
3.参照および試験密度から得た一連の密度値について、対数比を計算した。
【0378】
4.選択したポイントを使用して、多変量モデルにより、密度の対数比をモデル化した(例えば、各次元について重み付きの3次多項式)。
【0379】
5.参照と比較して所与のリードに関する頻度の比を見積もるのに当該モデルを使用し、そしてしかるべき重みを割り当てた。
【0380】
部分のフィルタリング
ゲノム上の配列のリード(例えば、カウント数)の表示に基づき、試料を染色体異常についてスコア化した。この表示は、局所的なGCの推定で使用したものと類似した密度関数を使用して決定した。リード密度カーネルは、一般的にはるかに大きなバンド幅を有し、デフォルトは50,000bpである。リードの各カウント数は、GCの偏りモデルに由来するその重みに等しい値である密度に寄与する。リード密度は、任意または全部の塩基対において評価され得るが、演算性能上の理由から、ある特定の場所のみを使用した。この位置を「部分」と呼んだ。部分は、リード密度を見積もるのに最も重要であればどこにも位置し得る。染色体異数性を分類する場合、部分には、最初に(例えば、フィルタリング前に)、ゲノム全体にわたり均等な間隔が設けられる。各部分は、50,000bpウィンドウから構成され、これを、フィルタリング前に、隣接する次の部分と25,000bp分重複させた。
【0381】
一部の部分は、十分にマッピングされないゲノム領域を含み、試料から試料へとリード密度に極度の乱れを引き起こした。ChAIは、訓練セットを使用したフィルタリングプロセスにより、この部分を同定および除去した。中央値(例えば、
図5A)および/またはMAD値(例えば、
図5B)において大きな偏差を示した部分は、検討から除去した。この偏差の閾値は、訓練母集団の四分位値の外側に、四分位数範囲の4倍を超えて存在するあらゆる値として設定した(
図5)。この閾値は、ChAIパラメータの特定のセットについて試験成績が最大化するように微調整可能である。
【0382】
訓練およびスコアリング
フィルタリングされた部分に対してマッピングするリードのみを使用して、各試料のゲノムリード密度プロファイルを計算した。訓練セットの一部であった試料を、次に訓練統計量を見積もるのに使用したが、同統計量は試験セットをスコア化するのに使用された。この統計量は、部分中央値、主成分、およびスコアリング検定統計量に関するヌル分布からなった。部分中央値および主成分を、任意の数の生物学的および技術的アーチファクトに由来して存在し得る、ゲノム全体に及ぶリードの偏りをモデリングするのに使用した(
図6A~C)。極端な部分値が他の試料に与える影響を最低限に抑えるために、試料中の他の部分にまたがり、4×IQRの外部にある各値は、4×IQRまで切り捨てた。
【0383】
最初に訓練された中央値を試験部分の値から減じることにより、試験試料を隠れた偏りについて補正した。トップ訓練された主成分と相関性を有する試料値のコンポーネントも除去した。これは、主成分の項に基づき、多変量直線回帰を使用して、部分の値をモデリングすることにより実施した(
図7)。モデルにより予測された値を試料の値から差し引き、偏りのない残差のみを残した。使用される主成分の数は任意選択であり、デフォルトは8である。
【0384】
補正後、試料を、フィッシャー直接検定法を使用してスコア化した。この検定では、目的の染色体領域内の訓練された中央値よりも大きいまたは小さい値を有する部分の数を比較した。このカウント数を、ゲノム内の残りの部分に対して評価した。スコアリング統計量を、-log10(p値)として設定した。他のスコアリング統計量、例えばウィルコクソン符号順位検定またはF検定も、このステップで使用することができる。
【0385】
部分間の残差相関に起因して、検定統計量が、訓練および試験試料の両方において増大した。この増大を、訓練セットのブートストラップから見積もった(
図8)。
【0386】
試験試料に関するスコアを、実験的バックグラウンドとしてこのヌル分布を使用して補正した。実験的分布内のスコアよりはるかに大きなスコアを、ヌル分布のテール部についてパレート外挿を使用して補正した。
【0387】
性別の判定
性別を、試料の主成分プロファイルから決定した。訓練データセットでは、第2の主成分(例えば、PC2)が性別と高度に相関した。このコンポーネントの回帰係数を検定統計量として使用すると、それは非常に正確な性別検定となった(
図9A~9B)。
【0388】
部分依存性の除去
本アプローチの予知力を向上させるために、ChAI作動期間中にさらなるステップを実施した。これは、部分-試料マトリックス内の相関構造の量を低減することを含み、可変独立性の検定仮説をより適切に裏付け、ヌル順列内の有意スコア頻度を抑制した。本アプローチは、部分を、ほぼ全ての同一情報を含有するが相関構造を有さない直交した固有部分と置き換えることを含んだ。
第1のステップは、一連の訓練部分Mについて、変換マトリックスMeigを習得することであった:
1.SVD分解:M=U*D*VT
2.独立した固有部分Nの数を選択する:(例えば、DのN対角エレメントの積算分画が95%を上回るように)
3.一般逆行列を計算する:Meig=pinv(U[…,1:N]*D[1:N,1:N])
【0389】
部分マトリックスMの任意のサブセットについて、その対応するMeigにより左乗法を行うと、その結果、当該サブセットにつき、次元が低下した相関を有さない表示が得られた。このように、Meigは、訓練データセットに基づき導出され、さらに修正を加えずに試験試料に適用した。
【0390】
Meigは、試験変数を変換する際にも使用した。試験変数を全てのゼロからなるベクトルとして表し、ゼロを予想される偏差の場所に配置した(例えば、Chr21部分)。変換された部分データが適正に一致するように、このベクトルを、左乗法によるMeigを用いて変換した。
【0391】
このアプローチが構築し得る独立した固有部分の多さは、せいぜい訓練セット内に存在する試料と同じほどに過ぎない。例えば、50,000個の部分および1,000個の試料からなる訓練セットでは、変換されたデータは、最大でも1,000個の部分しか含有しない。これは過剰補正の可能性があり、部分の数が大幅に低下する。本アプローチは、部分データのより小さなサブセットについて、個別のMeig変換を計算し、これを個別に適用することにより、より緩やかに行うことができる。これは、隣接した部分から局所的な相関構造を除去するのに特に有用であった。
【0392】
他のアプローチも、部分の相関構造を低減するのに使用することができる。例えば、多くのクラスタリング法が、部分をグループ化し、そしてこれを集合した部分のより小さなセットに置き換えるのに使用することができる(例えば、群の平均値またはセントロイドに基づき)。
【0393】
(実施例2)
分布/プロファイル生成モジュール
配列のリードデータ(例えば、BRead)からリード密度プロファイルを生成するために、スクリプトをjava形式で書いた。下記のコードは、各配列のリードについてリードデータを収集し、また適するリード密度ウィンドウ(例えば、部分に関する個々のリード密度)で密度プロファイルを更新するように設計されており、部分中央値または中間点からのリードの距離によって重み付けがなされ、試料のGCの偏り補正に基づいた(実施例4を参照)。下記のスクリプトは、関連性モジュールまたは偏り補正モジュールから生成された重み付きのカウント数および/または正規化されたカウント数を判定または利用することができる(実施例4)。一部の実施形態では、分布モジュールは、以下に示すjavaスクリプトの一部もしくは全部、またその変形形態を含み得る。一部の実施形態では、プロファイル生成モジュールは、以下に示すjavaスクリプトの一部もしくは全部、またその変形形態を含み得る:
【数5-1】
【数5-2】
【数5-3】
【数5-4】
【0394】
(実施例3)
フィルタリングモジュール
リード密度プロファイルの部分をフィルタリングするために、スクリプトをR形式で書いた。このコードは、試料全体にわたりリード密度プロファイルを検査し、そして保持される部分および/または廃棄される(例えば、分析から除去される)部分を四分位数間範囲に基づき同定する。一部の実施形態では、フィルタリングモジュールは、以下に示すRスクリプトの一部もしくは全部、またその変形形態を含む:
【数6】
【0395】
(実施例4)
偏り密度モジュール、関連性モジュール、偏り補正モジュールおよびプロッティングモジュール
偏り密度を生成し、関連性を生成および比較し、配列のリード内の偏りを補正するために、スクリプトをR形式で書いた。このコードは、各試料および参照について、局所的なゲノムの偏りの推定値(例えば、GC密度)に基づき、1つまたは複数の試料を分析するように、ならびに偏りモデル(例えば、関連性および/または関連性の比較)を構築するように、一般的にマイクロプロセッサに指示する。下記のスクリプトは、全てではないが、下記事項を目的として、1つまたは複数のプロセッサに指示する:試験試料の配列のリードに関して、(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との間の関連性を生成し、それにより、試料のGC密度関連性を生成する、(b)試料のGC密度関連性と参照のGC密度関連性を比較し、それにより、比較を生成するが、この場合、参照のGC密度関連性は、参照に関する(i)GC密度と(ii)GC密度頻度との間の関連性であり、スクリプトのしかるべき修正を含む、(c)(b)で決定した比較により、試料に関する配列のリードのカウント数を正規化するが、この場合、試料に関する配列のリードの偏りは低下している。一部の実施形態では、偏り密度モジュール、関連性モジュール、偏り補正モジュール、および/またはプロッティングモジュールは、以下に示す一部または全部のスクリプトについて、その一部もしくは全部、またその変形形態を含む:
【数7-1】
【数7-2】
【数7-3】
【0396】
(実施例5)
実施形態の例
下記の例は、ある特定の実施形態について説明し、本技術に制限を設けるものではない。
【0397】
A1.メモリおよび1つまたは複数のマイクロプロセッサを含むシステムであって、1つまたは複数のマイクロプロセッサは、メモリ中のインストラクションに従って、試料に関する配列のリード中の偏りを低減するための処理を行うように構成されており、処理は、
【0398】
(a)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との関係を生成し、それにより試料GC密度関係を生成するステップであって、
配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードは、参照ゲノムに対してマッピングされている、ステップと、
(b)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成するステップであって、
参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである、ステップと、
【0399】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されるステップと
を含む、システム。
【0400】
A1.1.配列決定装置および1つまたは複数の演算装置を含むシステムであって、
配列決定装置は、配列決定装置にロードされる核酸のヌクレオチド塩基に対応するシグナルを生成するように構成されており、核酸は、胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸であり、または配列決定装置にロードされる核酸は、循環型無細胞核酸の修飾変異体であり、
1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、メモリは、1つまたは複数のプロセッサにより実行可能なインストラクションを含み、1つまたは複数のプロセッサにより実行可能なインストラクションは、
シグナルから配列のリードを生成し、参照ゲノムに対して配列のリードをマッピングし、
(a)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との関係を生成し、それにより試料GC密度関係を生成し、
(b)試料GC密度関係と、参照GC密度関係とを比較し、それにより比較を生成し
(参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである)、
【0401】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されるように構成されている、システム。
【0402】
A1.2.(c)における正規化が、正規化されたカウント数を提供することを含む、実施形態A1またはA1.1に記載のシステム。
【0403】
A2.GC密度のそれぞれが、カーネル密度推定の使用を含む処理により決定される、実施形態A1からA1.2のいずれか1つに記載のシステム。
【0404】
A2.1.参照GC密度関係および試料GC密度関係についてのGC密度のそれぞれが、局所的なGC含有量の表示である、実施形態A1からA2のいずれか1つに記載のシステム。
【0405】
A2.2.局所的なGC含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、実施形態A2.1に記載のシステム。
【0406】
A3.GC密度のそれぞれが、スライディングウィンドウ分析の使用を含む処理によって決定される、実施形態A1からA2.2のいずれか1つに記載のシステム。
【0407】
A4.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態A3に記載のシステム。
【0408】
A5.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態A3に記載のシステム。
【0409】
A6.(b)が、(i)それぞれがGC密度のそれぞれについての試料GC密度関係頻度および参照GC密度関係頻度を含む比と、(ii)GC密度との適合させた関係を生成することを含む、実施形態A1からA5のいずれか1つに記載のシステム。
【0410】
A7.(a)における適合させた関係が、重み付き適合から得られる、実施形態A6に記載のシステム。
【0411】
A8.試料に関する配列のリードのそれぞれが、バイナリフォーマットおよび/またはテキストフォーマットで表示される、実施形態A1からA7のいずれか1つに記載のシステム。
【0412】
A9.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態A8に記載のシステム。
【0413】
A10.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態A9に記載のシステム。
【0414】
A11.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態A8からA10のいずれか1つに記載のシステム。
【0415】
A12.(c)における正規化が、GC密度以外の1つまたは複数の特徴を因子分解することと、配列のリードを正規化することとを含む、実施形態A1からA11のいずれか1つに記載のシステム。
【0416】
A13.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態A12に記載のシステム。
【0417】
A14.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、A13に記載のシステム。
【0418】
A14.1.配列のリードのカウント数が、(c)における正規化、および1つまたは複数の特徴の因子分解に従って正規化される、実施形態A12からA14のいずれか1つに記載のシステム。
【0419】
A15.(c)の後に、(c)において正規化された配列のリードのカウント数を含む1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成することを含む、実施形態A1からA14.1のいずれか1つに記載のシステム。
【0420】
A16.確率密度推定が、カーネル密度推定である、実施形態A15に記載のシステム。
【0421】
A17.ゲノムまたはそのセグメントについてのリード密度プロファイルを生成するステップを含む、実施形態A15またはA16に記載のシステム。
【0422】
A18.リード密度プロファイルが、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を含む、実施形態A17に記載のシステム。
【0423】
A19.1つまたは複数の部分についてのリード密度のそれぞれを調整するステップを含む、実施形態A15からA18のいずれか1つに記載のシステム。
【0424】
A20.1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、実施形態A15からA19のいずれか1つに記載のシステム。
【0425】
A21.1つまたは複数の部分が重み付けされ、それにより重み付き部分が提供される、実施形態A15からA20のいずれか1つに記載のシステム。
【0426】
A22.1つまたは複数の部分が、固有関数により重み付けられる、実施形態A21に記載のシステム。
【0427】
A23.(a)に先立って、配列のリードを得ることを含む、実施形態A1からA22のいずれか1つに記載のシステム。
【0428】
A24.配列のリードが、超並列シークエンシング(MPS)によって生成される、実施形態A23に記載のシステム。
【0429】
A25.参照ゲノムの全部またはゲノムのセグメントに対してマッピングされた配列のリードを得るステップを含む、実施形態A1からA24のいずれか1つに記載のシステム。
【0430】
A26.ゲノムのセグメントが、染色体またはそのセグメントを含む、実施形態A25に記載のシステム。
【0431】
A27.参照ゲノムに対してマッピングされた配列のリードのカウント数が、(a)に先立って正規化される、実施形態A25またはA26に記載のシステム。
【0432】
A28.参照ゲノムに対してマッピングされた配列のリードのカウント数が、GC含有量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはこれらの組合せにより正規化される、実施形態A27に記載のシステム。
【0433】
A29.参照ゲノムに対してマッピングされた配列のリードのカウント数が、未処理のカウント数である、実施形態A27またはA28のいずれか1つに記載のシステム。
【0434】
A30.参照ゲノムの各部分が、およそ等しい長さの連続したヌクレオチドを含む、実施形態A15からA29のいずれか1つに記載のシステム。
【0435】
A31.参照ゲノムの各部分が、約50kbを構成する、実施形態A15またはA30のいずれか1つに記載のシステム。
【0436】
A32.参照ゲノムの各部分が、約100kbを構成する、実施形態A15からA31のいずれか1つに記載のシステム。
【0437】
A33.参照ゲノムの各部分が、参照ゲノムの隣接する部分と共通した連続したヌクレオチドのセグメントを含む、実施形態A15からA32のいずれか1つに記載のシステム。
【0438】
A34.試験試料が、妊娠中の雌から得られる、実施形態A1からA33のいずれか1つに記載のシステム。
【0439】
A35.試験試料が、妊娠中の雌に由来する血液を含む、実施形態A1からA34のいずれか1つに記載のシステム。
【0440】
A36.試験試料が、妊娠中の雌に由来する血漿を含む、実施形態A1からA35のいずれか1つに記載のシステム。
【0441】
A37.試験試料が、妊娠中の雌に由来する血清を含む、A1からA36のいずれか1つに記載のシステム。
【0442】
A38.試験試料から核酸が単離される、実施形態A1からA37のいずれか1つに記載のシステム。
【0443】
A39.(a)における参照ゲノムに対してマッピングされた配列のリードを、配列アラインメントフォーマットからバイナリフォーマットに圧縮するステップを含む、実施形態A8からA38のいずれか1つに記載のシステム。
【0444】
A40.圧縮が、圧縮モジュールにより行われる、実施形態A39に記載のシステム。
【0445】
A41.試験試料の配列のリードについて、および参照についてのGC密度およびGC密度頻度が、偏り密度モジュールにより提供される、実施形態A1からA40のいずれか1つに記載のシステム。
【0446】
A42.(b)における比較が、関係モジュールにより生成される、実施形態A1からA41のいずれか1つに記載のシステム。
【0447】
A43.(c)における正規化が、偏り補正モジュールにより行われる、実施形態A1からA42のいずれか1つに記載のシステム。
【0448】
A44.リード密度が、分布モジュールにより提供される、実施形態A15からA43のいずれか1つに記載のシステム。
【0449】
A45.フィルタリングされた部分が、フィルタリングモジュールにより提供される、実施形態A20からA44のいずれか1つに記載のシステム。
【0450】
A46.調整されたリード密度が、リード密度調整モジュールにより提供される、実施形態A21からA45のいずれか1つに記載のシステム。
【0451】
A46.1.重み付き部分が、部分重み付けモジュールにより提供される、実施形態A21からA46のいずれか1つに記載のシステム。
【0452】
A47.圧縮モジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、分布モジュール、フィルタリングモジュール、リード密度調整モジュール、および部分重み付けモジュールのうちの1つまたは複数を含む、実施形態A46.1に記載のシステム。
【0453】
A48.システムのメモリが、参照ゲノムに対してマッピングされる試験試料に由来する循環型無細胞核酸の配列のリードを含む、実施形態A1からA47のいずれか1つに記載のシステム。
【0454】
B1.メモリおよび1つまたは複数のマイクロプロセッサを含むシステムであって、1つまたは複数のマイクロプロセッサが、メモリ中のインストラクションに従って、試料についての異数性の存在または非存在を決定するための処理を行うように構成されており、処理は、
【0455】
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
【0456】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、システム。
【0457】
B1.1.配列決定装置および1つまたは複数の演算装置を含むシステムであって、
配列決定装置は、配列決定装置にロードされた核酸のヌクレオチド塩基に対応するシグナルを生成するように構成されており、核酸は、胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸であり、または配列決定装置にロードされた核酸は、循環型無細胞核酸の修飾変異体であり、
1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、メモリは、1つまたは複数のプロセッサにより実行可能なインストラクションを含み、1つまたは複数のプロセッサにより実行可能なインストラクションは、
シグナルから配列のリードを生成し、参照ゲノムに対して配列のリードをマッピングし、
a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供し
(リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される)、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供し、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供し、
【0458】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するように構成されている、システム。
【0459】
B2.比較が、有意性のレベルを決定することを含む、実施形態B1またはB1.1に記載のシステム。
【0460】
B3.有意性のレベルの決定が、p値を決定することを含む、実施形態B1からB2のいずれか1つに記載のシステム。
【0461】
B4.参照プロファイルが、一連の既知の正倍数体試料から得られるリード密度プロファイルを含む、実施形態B1からB3のいずれか1つに記載のシステム。
【0462】
B5.参照プロファイルが、フィルタリングされた部分のリード密度を含む、実施形態B1からB4のいずれか1つに記載のシステム。
【0463】
B6.参照プロファイルが、1つまたは複数の主成分に従って調整されたリード密度を含む、実施形態B1からB5のいずれか1つに記載のシステム。
【0464】
B7.有意性のレベルが、試験試料プロファイルと参照プロファイルとの間の統計的に有意な差異を指し示し、染色体異数性の存在が決定される、実施形態B2からB6のいずれか1つに記載のシステム。
【0465】
B8.複数の試料が、一連の既知の正倍数体試料を含む、実施形態B1からB7のいずれか1つに記載のシステム。
【0466】
B9.複数の試料についての部分のリード密度が、リード密度中央値である、実施形態B1からB8のいずれか1つに記載のシステム。
【0467】
B10.試験試料についてのフィルタリングされた部分のリード密度が、リード密度中央値である、実施形態B1からB9のいずれか1つに記載のシステム。
【0468】
B11.参照プロファイルについてのリード密度プロファイルが、リード密度中央値を含む、実施形態B4からB10のいずれか1つに記載のシステム。
【0469】
B12.試験試料プロファイル、複数の試料、および参照プロファイルについてのリード密度が、カーネル密度推定の使用を含む処理に従って決定される、実施形態B4からB11のいずれか1つに記載のシステム。
【0470】
B13.試験試料プロファイルが、試験試料についてのリード密度中央値に従って決定される、実施形態B10からB12のいずれか1つに記載のシステム。
【0471】
B14.参照プロファイルが、参照についてのリード密度中央値分布に従って決定される、実施形態B11からB13のいずれか1つに記載のシステム。
【0472】
B15.リード密度分布についての不確定性の尺度に従って参照ゲノムの部分をフィルタリングすることを含む、実施形態B1からB14のいずれか1つに記載のシステム。
【0473】
B16.不確定性の尺度が、MADである、実施形態B15に記載のシステム。
【0474】
B17.試験試料についてのフィルタリングされた部分に対してマッピングされた配列のリードのカウント数が、
(I)試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成することであって、
配列のリードが、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードが、参照ゲノムに対してマッピングされる、ことと、
(II)試料偏り関係と参照偏り関係とを比較し、それにより比較を生成することであって、
参照偏り関係が、参照についての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との間のものである、ことと、
【0475】
(III)(II)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより、試料に関する配列のリードの偏りが低減される、ことと
を含む(a)に先立って行われる処理により正規化される、実施形態B1からB16のいずれか1つに記載のシステム。
【0476】
B18.(III)における正規化が、正規化されたカウント数を提供することを含む、実施形態B17に記載のシステム。
【0477】
B19.局所的なゲノムの偏りの推定値のそれぞれが、カーネル密度推定の使用を含む処理によって決定される、実施形態B17またはB18に記載のシステム。
【0478】
B20.局所的なゲノムの偏りの推定値のそれぞれが、スライディングウィンドウ分析の使用を含む処理により決定される、実施形態B17からB19のいずれか1つに記載のシステム。
【0479】
B21.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態B20に記載のシステム。
【0480】
B22.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態B20に記載のシステム。
【0481】
B23.(II)が、(i)それぞれが局所的なゲノムの偏りの推定値のそれぞれについての試料偏り関係頻度および参照偏り関係頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との適合させた関係を生成することを含む、実施形態B17からB22のいずれか1つに記載のシステム。
【0482】
B24.(I)における適合させた関係が、重み付き適合から得られる、実施形態B23に記載のシステム。
【0483】
B25.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態B17からB24のいずれか1つに記載のシステム。
【0484】
B26.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態B25に記載のシステム。
【0485】
B27.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態B26に記載のシステム。
【0486】
B28.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態B25からB27のいずれか1つに記載のシステム。
【0487】
B29.(III)における正規化が、偏り以外の1つまたは複数の特徴を因子分解することと、配列のリードのカウント数を正規化することとを含む、実施形態B17からB28のいずれか1つに記載のシステム。
【0488】
B30.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態B29に記載のシステム。
【0489】
B31.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、実施形態B30に記載のシステム。
【0490】
B32.配列のリードのカウント数が、(III)における正規化、および1つまたは複数の特徴の因子分解に従って正規化される、実施形態B29からB31のいずれか1つに記載のシステム。
【0491】
B33.(III)の後に、(III)において正規化された配列のリードのカウント数を含む1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成することを含む、実施形態B17からB32のいずれか1つに記載のシステム。
【0492】
B34.確率密度推定が、カーネル密度推定である、実施形態B33に記載のシステム。
【0493】
B35.ゲノムまたはそのセグメントについてのリード密度プロファイルを生成するステップを含む、実施形態B33またはB34に記載のシステム。
【0494】
B36.リード密度プロファイルが、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を含む、実施形態B35に記載のシステム。
【0495】
B37.1つまたは複数の部分についてのリード密度のそれぞれを調整するステップを含む、実施形態B33からB36のいずれか1つに記載のシステム。
【0496】
B38.1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、実施形態B33からB37のいずれか1つに記載のシステム。
【0497】
B39.1つまたは複数の部分が重み付けされ、それにより重み付き部分が提供される、実施形態B33からB38のいずれか1つに記載のシステム。
【0498】
B40.1つまたは複数の部分が、固有関数により重み付けられる、実施形態B39に記載のシステム。
【0499】
B41.局所的なゲノムの偏りの推定値が局所的なGC密度であり、偏り頻度がGC偏り頻度である、実施形態B17からB40のいずれか1つに記載のシステム。
【0500】
B42.試験試料についてのフィルタリングされた部分に対してマッピングされた配列のリードのカウント数が、
【0501】
(1)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との適合させた関係を生成し、それにより試料GC密度関係を生成することであって、配列のリードは、参照ゲノムに対してマッピングされる、ことと、
(2)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成することであって、
参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである、ことと
【0502】
(3)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されることと
を含む、(a)に先立って行われる処理によって正規化される、実施形態B1からB16のいずれか1つに記載のシステム。
【0503】
B43.(3)における正規化が、正規化されたカウント数を提供することを含む、実施形態B42に記載のシステム。
【0504】
B44.GC密度のそれぞれが、カーネル密度推定の使用を含む処理により決定される、実施形態B42またはB43に記載のシステム。
【0505】
B44.1.参照GC密度関係および試料GC密度関係についてのGC密度のそれぞれが、局所的なGC含有量の表示である、実施形態B42からB44のいずれか1つに記載のシステム。
【0506】
B44.2.局所的なGC含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、実施形態B44.1に記載のシステム。
【0507】
B45.GC密度のそれぞれが、スライディングウィンドウ分析の使用を含む処理によって決定される、実施形態B42からB44.2のいずれか1つに記載のシステム。
【0508】
B46.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態B45に記載のシステム。
【0509】
B47.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態B46に記載のシステム。
【0510】
B48.(2)が、(i)それぞれがGC密度のそれぞれについての試料GC密度関係頻度および参照GC密度関係頻度を含む比と、(ii)GC密度との適合させた関係を生成することを含む、実施形態B42からB47のいずれか1つに記載のシステム。
【0511】
B49.(1)における適合させた関係が、重み付き適合から得られる、実施形態B48に記載のシステム。
【0512】
B50.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態B42からB49のいずれか1つに記載のシステム。
【0513】
B51.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態B50に記載のシステム。
【0514】
B52.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態B51に記載のシステム。
【0515】
B53.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態B50からB52のいずれか1つに記載のシステム。
【0516】
B54.(c)における正規化が、GC密度以外の1つまたは複数の特徴を因子分解することと、配列のリードを正規化することとを含む、実施形態B42からB53のいずれか1つに記載のシステム。
【0517】
B55.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態B54に記載のシステム。
【0518】
B56.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、実施形態B55に記載のシステム。
【0519】
B57.試験試料についてのフィルタリングされた部分が重み付けられる、実施形態B42からB56のいずれか1つに記載のシステム。
【0520】
B58.試験試料についてのフィルタリングされた部分が、固有関数を含む処理によって重み付けられる、実施形態B57に記載のシステム。
【0521】
B59.(a)に先立って、配列のリードを得ることを含む、実施形態B1からB58のいずれか1つに記載のシステム。
【0522】
B60.配列のリードが、超並列シークエンシング(MPS)によって生成される、実施形態B59に記載のシステム。
【0523】
B61.参照ゲノムの全部またはゲノムのセグメントに対してマッピングされた配列のリードを得るステップを含む、実施形態B1からB60のいずれか1つに記載のシステム。
【0524】
B62.ゲノムのセグメントが、染色体またはそのセグメントを含む、実施形態B61に記載のシステム。
【0525】
B63.参照ゲノムに対してマッピングされた配列のリードのカウント数が、(1)に先立って正規化される、実施形態B61またはB62に記載のシステム。
【0526】
B64.参照ゲノムに対してマッピングされた配列のリードのカウント数が、GC含有量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはこれらの組合せにより正規化される、実施形態B63に記載のシステム。
【0527】
B65.参照ゲノムに対してマッピングされた配列のリードのカウント数が、未処理のカウント数である、実施形態B61またはB62に記載のシステム。
【0528】
B66.参照ゲノムの各部分が、およそ等しい長さの連続したヌクレオチドを含む、実施形態B1からB65のいずれか1つに記載のシステム。
【0529】
B67.参照ゲノムの各部分が、約50kbを構成する、実施形態B1からB66のいずれか1つに記載のシステム。
【0530】
B68.参照ゲノムの各部分が、約100kbを構成する、実施形態B1からB67のいずれか1つに記載のシステム。
【0531】
B69.参照ゲノムの各部分が、参照ゲノムの隣接する部分と共通した連続したヌクレオチドのセグメントを含む、実施形態B1からB68のいずれか1つに記載のシステム。
【0532】
B70.試験試料が、妊娠中の雌に由来する血液を含む、実施形態B1からB69のいずれか1つに記載のシステム。
【0533】
B71.試験試料が、妊娠中の雌に由来する血漿を含む、実施形態B1からB70のいずれか1つに記載のシステム。
【0534】
B72.試験試料が、妊娠中の雌に由来する血清を含む、実施形態B1からB71のいずれか1つに記載のシステム。
【0535】
B73.試験試料から核酸が単離される、実施形態B1からB72のいずれか1つに記載のシステム。
【0536】
B74.(1)における参照ゲノムに対してマッピングされた配列のリードを、配列アラインメントフォーマットからバイナリフォーマットに圧縮するステップを含む、実施形態B50からB73のいずれか1つに記載のシステム。
【0537】
B75.圧縮が、圧縮モジュールにより行われる、実施形態B74に記載のシステム。
【0538】
B76.試験試料の配列のリードについて、および参照についてのGC密度およびGC密度頻度が、偏り密度モジュールにより提供される、実施形態B42からB75のいずれか1つに記載のシステム。
【0539】
B77.(2)における比較が、関係モジュールにより生成される、実施形態B42からB76のいずれか1つに記載のシステム。
【0540】
B78.(3)における正規化が、偏り補正モジュールにより行われる、実施形態B44からB77のいずれか1つに記載のシステム。
【0541】
B79.リード密度が、分布モジュールにより提供される、実施形態B1からB78のいずれか1つに記載のシステム。
【0542】
B80.フィルタリングされた部分が、フィルタリングモジュールにより提供される、実施形態B1からB79のいずれか1つに記載のシステム。
【0543】
B81.試験試料についてのフィルタリングされた部分が、部分重み付けモジュールにより重み付けられる、実施形態B57からB80のいずれか1つに記載のシステム。
【0544】
B81.1.リード密度が、リード密度調整モジュールにより調整される、実施形態B57からB81のいずれか1つに記載のシステム。
【0545】
B82.装置が、圧縮モジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、分布モジュール、フィルタリングモジュール、リード密度調整モジュール、および部分重み付けモジュールのうちの1つまたは複数を含む、実施形態B81.1に記載のシステム。
【0546】
B83.試験試料プロファイルが、染色体またはそのセグメントのプロファイルを含む、実施形態B1からB82のいずれか1つに記載のシステム。
【0547】
B84.参照プロファイルが、染色体またはそのセグメントのプロファイルを含む、実施形態B1からB83のいずれか1つに記載のシステム。
【0548】
B85.(d)における決定が、90%に等しいかまたはそれ超の特異性および90%に等しいかまたはそれ超の感度で提供される、実施形態B1からB84のいずれか1つに記載のシステム。
【0549】
B86.異数性がトリソミーである、実施形態B1からB85のいずれか1つに記載のシステム。
【0550】
B87.トリソミーが、21トリソミー、18トリソミー、または13トリソミーである、実施形態B86に記載のシステム。
【0551】
B88.システムのメモリが、参照ゲノムに対してマッピングされる試験試料に由来する循環型無細胞核酸の配列のリードを含む、実施形態B17からB87のいずれか1つに記載のシステム。
【0552】
C1.1つまたは複数の機械に組み込まれる、実施形態A1からA48およびB1からB88のいずれか1つに記載のシステム。
【0553】
C2.1つの機械に組み込まれる、実施形態C1に記載のシステム。
【0554】
C3.核酸を配列決定し、配列のリードを生成するように構成された機械を含む、実施形態C1またはC2に記載のシステム。
【0555】
D1.試料に関する配列のリードの偏りを低減するための方法であって、
(a)マイクロプロセッサを使用して、試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との関係を生成し、それにより試料GC密度関係を生成するステップであって、
配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードは、参照ゲノムに対してマッピングされる、ステップと、
(b)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成するステップであって、
参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである、ステップと、
【0556】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されるステップと
を含む、方法。
【0557】
D1.1.試料に関する配列のリードの偏りを低減するための方法であって、
胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸を配列決定装置にロードし、または核酸の修飾変異体を配列決定装置にロードするステップであって、配列決定装置は、核酸のヌクレオチド塩基に対応するシグナルを生成する、ステップと、
1つまたは複数の演算装置を含むシステムにより、任意選択でシグナルをシステムに移送した後、核酸のシグナルから配列のリードを生成するステップであって、システム中の1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、
システム中の1つの演算装置または演算装置の組合せは、
参照ゲノムに対して配列のリードをマッピングし、
(a)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との関係を生成し、それにより試料GC密度関係を生成し
(配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードは、参照ゲノムに対してマッピングされる)、
(b)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成し
(参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである)、
【0558】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減される
ように構成されている、ステップと
を含む、方法。
【0559】
D1.2.(c)における正規化が、正規化されたカウント数を提供することを含む、実施形態D1またはD1.1に記載の方法。
【0560】
D2.GC密度のそれぞれが、カーネル密度推定の使用を含む処理により決定される、実施形態D1からD1.2のいずれか1つに記載の方法。
【0561】
D2.1.参照GC密度関係および試料GC密度関係についてのGC密度のそれぞれが、局所的なGC含有量の表示である、実施形態D1からD2のいずれか1つに記載の方法。
【0562】
D2.2.局所的なGC含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、実施形態D2.1に記載の方法。
【0563】
D3.GC密度のそれぞれが、スライディングウィンドウ分析の使用を含む処理によって決定される、実施形態D1からD2.2のいずれか1つに記載の方法。
【0564】
D4.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態D3に記載の方法。
【0565】
D5.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態D3に記載の方法。
【0566】
D6.(b)が、(i)それぞれがGC密度のそれぞれについての試料GC密度関係頻度および参照GC密度関係頻度を含む比と、(ii)GC密度との適合させた関係を生成することを含む、実施形態D1からD5のいずれか1つに記載の方法。
【0567】
D7.(a)における適合させた関係が、重み付き適合から得られる、実施形態D6に記載の方法。
【0568】
D8.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態D1からD7のいずれか1つに記載の方法。
【0569】
D9.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態D8に記載の方法。
【0570】
D10.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態D9に記載の方法。
【0571】
D11.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態D8からD10のいずれか1つに記載の方法。
【0572】
D12.(c)における正規化が、GC密度以外の1つまたは複数の特徴を因子分解することと、配列のリードのカウント数を正規化することとを含む、実施形態D1からD11のいずれか1つに記載の方法。
【0573】
D13.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態D12に記載の方法。
【0574】
D14.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、D13に記載の方法。
【0575】
D14.1.配列のリードのカウント数が、(c)における正規化、および1つまたは複数の特徴の因子分解に従って正規化される、実施形態D12からD14のいずれか1つに記載の方法。
【0576】
D15.(c)の後に、(c)において正規化された配列のリードのカウント数を含む1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成することを含む、実施形態D1からD14.1のいずれか1つに記載の方法。
【0577】
D16.確率密度推定が、カーネル密度推定である、実施形態D15に記載の方法。
【0578】
D17.ゲノムまたはそのセグメントについてのリード密度プロファイルを生成するステップを含む、実施形態D15またはD16に記載の方法。
【0579】
D18.リード密度プロファイルが、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を含む、実施形態D17に記載の方法。
【0580】
D19.1つまたは複数の部分についてのリード密度のそれぞれを調整するステップを含む、実施形態D15からD18のいずれか1つに記載の方法。
【0581】
D20.1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、実施形態D15からD19のいずれか1つに記載の方法。
【0582】
D21.1つまたは複数の部分が重み付けされ、それにより重み付き部分が提供される、実施形態D15からD20のいずれか1つに記載の方法。
【0583】
D22.1つまたは複数の部分が、固有関数により重み付けられる、実施形態D21に記載の方法。
【0584】
D23.(a)に先立って、配列のリードを得ることを含む、実施形態D1からD22のいずれか1つに記載の方法。
【0585】
D24.配列のリードが、超並列シークエンシング(MPS)によって生成される、実施形態D23に記載の方法。
【0586】
D25.参照ゲノムの全部またはゲノムのセグメントに対してマッピングされた配列のリードを得るステップを含む、実施形態D1からD24のいずれか1つに記載の方法。
【0587】
D26.ゲノムのセグメントが、染色体またはそのセグメントを含む、実施形態D25に記載の方法。
【0588】
D27.参照ゲノムに対してマッピングされた配列のリードのカウント数が、(a)に先立って正規化される、実施形態D25またはD26に記載の方法。
【0589】
D28.参照ゲノムに対してマッピングされた配列のリードのカウント数が、GC含有量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはこれらの組合せにより正規化される、実施形態D27に記載の方法。
【0590】
D29.参照ゲノムに対してマッピングされた配列のリードのカウント数が、未処理のカウント数である、実施形態D27またはD28のいずれか1つに記載の方法。
【0591】
D30.参照ゲノムの各部分が、およそ等しい長さの連続したヌクレオチドを含む、実施形態D15からD29のいずれか1つに記載の方法。
【0592】
D31.参照ゲノムの各部分が、約50kbを構成する、実施形態D15またはD30のいずれか1つに記載の方法。
【0593】
D32.参照ゲノムの各部分が、約100kbを構成する、実施形態D15からD31のいずれか1つに記載の方法。
【0594】
D33.参照ゲノムの各部分が、参照ゲノムの隣接する部分と共通した連続したヌクレオチドのセグメントを含む、実施形態D15からD32のいずれか1つに記載の方法。
【0595】
D34.試験試料が、妊娠中の雌から得られる、実施形態D1からD33のいずれか1つに記載の方法。
【0596】
D35.試験試料が、妊娠中の雌に由来する血液を含む、実施形態D1からD34のいずれか1つに記載の方法。
【0597】
D36.試験試料が、妊娠中の雌に由来する血漿を含む、実施形態D1からD35のいずれか1つに記載の方法。
【0598】
D37.試験試料が、妊娠中の雌に由来する血清を含む、実施形態D1からD36のいずれか1つに記載の方法。
【0599】
D38.試験試料から核酸が単離される、実施形態D1からD37のいずれか1つに記載の方法。
【0600】
D39.(a)における参照ゲノムに対してマッピングされた配列のリードを、配列アラインメントフォーマットからバイナリフォーマットに圧縮するステップを含む、実施形態D8からD38のいずれか1つに記載の方法。
【0601】
D40.圧縮が、圧縮モジュールにより行われる、実施形態D39に記載の方法。
【0602】
D41.試験試料の配列のリードについて、および参照についてのGC密度およびGC密度頻度が、偏り密度モジュールにより提供される、実施形態D1からD40のいずれか1つに記載の方法。
【0603】
D42.(b)における比較が、関係モジュールにより生成される、実施形態D1からD41のいずれか1つに記載の方法。
【0604】
D43.(c)における正規化が、偏り補正モジュールにより行われる、実施形態D1からD42のいずれか1つに記載の方法。
【0605】
D44.リード密度が、分布モジュールにより提供される、実施形態D15からD43のいずれか1つに記載の方法。
【0606】
D45.フィルタリングされた部分が、フィルタリングモジュールにより提供される、実施形態D20からD44のいずれか1つに記載の方法。
【0607】
D46.重み付き部分が、部分重み付けモジュールにより提供される、実施形態D21からD45のいずれか1つに記載の方法。
【0608】
D46.1.リード密度が、リード密度調整モジュールにより調整される、実施形態D21からD46のいずれか1つに記載の方法。
【0609】
D47.圧縮モジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、分布モジュール、フィルタリングモジュール、リード密度調整モジュール、および部分重み付けモジュールのうちの1つまたは複数を含む、実施形態D46.1に記載の方法。
【0610】
E0.試料についての異数性の存在または非存在を決定するための方法であって、
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
【0611】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。
【0612】
E0.1.試料についての異数性の存在または非存在を決定するための方法であって、
(a)リード密度分布に従って、参照ゲノム中の染色体の部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についての染色体のリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料染色体プロファイルを提供するステップと、
(c)試験試料染色体プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
【0613】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。
【0614】
E1.試料についての異数性の存在または非存在を決定するための方法であって、
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)マイクロプロセッサを使用して、主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
【0615】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。
【0616】
E1.1.試料についての異数性の存在または非存在を決定するための方法であって、
胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸を配列決定装置にロードし、または核酸の修飾変異体を配列決定装置にロードするステップであって、配列決定装置は、核酸のヌクレオチド塩基に対応するシグナルを生成する、ステップと、
1つまたは複数の演算装置を含むシステムにより、任意選択でシグナルをシステムに移送した後、核酸のシグナルから配列のリードを生成するステップであって、システム中の1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、
システム中の1つの演算装置または演算装置の組合せは、参照ゲノムに対して配列のリードをマッピングし、
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供し
(リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される)、
(b)マイクロプロセッサを使用して、主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供し、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供し、
【0617】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定する
ように構成されている、ステップを含む、方法。
【0618】
E1.2.試料に関する配列のリードの偏りを低減するための方法であって、
胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸を配列決定装置にロードし、または核酸の修飾変異体を配列決定装置にロードするステップであって、配列決定装置は、核酸のヌクレオチド塩基に対応するシグナルを生成する、ステップと、
1つまたは複数の演算装置を含むシステムにより、任意選択でシグナルをシステムに移送した後、核酸のシグナルから配列のリードを生成するステップであって、システム中の1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、
システム中の1つの演算装置または演算装置の組合せは、参照ゲノムに対して配列のリードをマッピングし、
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供し
(リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される)、
(b)マイクロプロセッサを使用して、主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供し、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供し、
【0619】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定する
ように構成されている、ステップを含む、方法。
【0620】
E1.3.リード密度プロファイルが、1~10の主成分により(b)において調整される、実施形態E0からE1.2のいずれか1つに記載の方法。
【0621】
E1.4.リード密度プロファイルが、5つの主成分により(b)において調整される、実施形態E0からE1.3のいずれか1つに記載の方法。
【0622】
E1.5.1つまたは複数の主成分が、リード密度プロファイル中の1つまたは複数の特徴について調整し、特徴が、胎仔の性別、配列の偏り、胎仔フラクション、DNアーゼI感度に相関した偏り、エントロピー、反復配列の偏り、クロマチン構造の偏り、ポリメラーゼエラー率の偏り、回分配列の偏り、逆位リピートの偏り、PCR増幅の偏り、および隠れたコピー数の変異から選択される、実施形態E0からE1.4のいずれか1つに記載の方法。
【0623】
E1.6.配列の偏りが、グアニンおよびシトシン(GC)の偏りを含む、実施形態E1.5に記載の方法。
【0624】
E2.比較が、有意性のレベルを決定することを含む、実施形態E0からE1.6のいずれか1つに記載の方法。
【0625】
E3.有意性のレベルの決定が、p値を決定することを含む、実施形態E0からE2のいずれか1つに記載の方法。
【0626】
E4.参照プロファイルが、一連の既知の正倍数体試料から得られるリード密度プロファイルを含む、実施形態E0からE3のいずれか1つに記載の方法。
【0627】
E5.参照プロファイルが、フィルタリングされた部分のリード密度を含む、実施形態E0からE4のいずれか1つに記載の方法。
【0628】
E6.参照プロファイルが、1つまたは複数の主成分に従って調整されたリード密度を含む、実施形態E0からE5のいずれか1つに記載の方法。
【0629】
E7.有意性のレベルが、試験試料プロファイルと参照プロファイルとの間の統計的に有意な差異を指し示し、染色体異数性の存在が決定される、実施形態E2からE6のいずれか1つに記載の方法。
【0630】
E8.複数の試料が、一連の既知の正倍数体試料を含む、実施形態E1からE7のいずれか1つに記載の方法。
【0631】
E9.複数の試料についての部分のリード密度が、リード密度中央値である、実施形態E0からE8のいずれか1つに記載の方法。
【0632】
E10.試験試料についてのフィルタリングされた部分のリード密度が、リード密度中央値である、実施形態E0からE9のいずれか1つに記載の方法。
【0633】
E11.参照プロファイルについてのリード密度プロファイルが、リード密度中央値を含む、実施形態E4からE10のいずれか1つに記載の方法。
【0634】
E12.試験試料プロファイル、複数の試料、および参照プロファイルについてのリード密度が、カーネル密度推定の使用を含む処理に従って決定される、実施形態E4からE11のいずれか1つに記載の方法。
【0635】
E13.試験試料プロファイルが、試験試料についてのリード密度中央値に従って決定される、実施形態E10からE12のいずれか1つに記載の方法。
【0636】
E14.参照プロファイルが、参照についてのリード密度中央値分布に従って決定される、実施形態E11からE13のいずれか1つに記載の方法。
【0637】
E15.リード密度分布についての不確定性の尺度に従って参照ゲノムの部分をフィルタリングすることを含む、実施形態E0からE14のいずれか1つに記載の方法。
【0638】
E16.不確定性の尺度が、MADである、実施形態E15に記載の方法。
【0639】
E16.1.試験試料プロファイルが、試験試料についての染色体量の表示である、実施形態E0からE16のいずれか1つに記載の方法。
【0640】
E16.2.試験試料プロファイルについての染色体量を参照プロファイルについての染色体量と比較し、それにより染色体量の比較を生成するステップを含む、実施形態E16.1に記載の方法。
【0641】
E16.3.試験試料についての染色体異数性の存在または非存在の決定が、染色体量の比較に従う、実施形態E16.2に記載の方法。
【0642】
E16.4.試験試料についての染色体異数性の存在または非存在の決定が、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つまたは複数のセグメントの欠失、または染色体の1つまたは複数のセグメントの挿入の存在または非存在を同定することを含む、実施形態E0からE16.3のいずれか1つに記載の方法。
【0643】
E17.試験試料についてのフィルタリングされた部分に対してマッピングされた配列のリードのカウント数が、
(I)試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成することであって、
配列のリードが、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードが、参照ゲノムに対してマッピングされる、ことと、
(II)試料偏り関係と参照偏り関係とを比較し、それにより比較を生成することであって、
参照偏り関係が、参照についての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との間のものである、ことと、
【0644】
(III)(II)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより、試料に関する配列のリードの偏りが低減される、ことと
を含む(a)に先立って行われる処理により正規化される、実施形態E0からE16.4のいずれか1つに記載の方法。
【0645】
E18.(III)における正規化が、正規化されたカウント数を提供することを含む、実施形態E17に記載の方法。
【0646】
E19.局所的なゲノムの偏りの推定値のそれぞれが、カーネル密度推定の使用を含む処理によって決定される、実施形態E17またはE18に記載の方法。
【0647】
E19.1.参照偏り関係および試料偏り関係についての局所的なゲノムの偏りの推定値のそれぞれが、局所的な偏りの含有量の表示である、実施形態E17からE19のいずれか1つに記載の方法。
【0648】
E19.2.局所的な偏りの含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、実施形態E19.1に記載の方法。
【0649】
E20.局所的なゲノムの偏りの推定値のそれぞれが、スライディングウィンドウ分析の使用を含む処理により決定される、実施形態E17からE19.2のいずれか1つに記載の方法。
【0650】
E21.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態E20に記載の方法。
【0651】
E22.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態E20に記載の方法。
【0652】
E23.(II)が、(i)それぞれが局所的なゲノムの偏りの推定値のそれぞれについての試料偏り関係頻度および参照偏り関係頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との適合させた関係を生成することを含む、実施形態E17からE22のいずれか1つに記載の方法。
【0653】
E24.(I)における適合させた関係が、重み付き適合から得られる、実施形態E23に記載の方法。
【0654】
E25.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態E17からE24のいずれか1つに記載の方法。
【0655】
E26.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態E25に記載の方法。
【0656】
E27.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態E26に記載の方法。
【0657】
E28.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態E25からE27のいずれか1つに記載の方法。
【0658】
E29.(III)における正規化が、偏り以外の1つまたは複数の特徴を因子分解することと、配列のリードのカウント数を正規化することとを含む、実施形態E17からE28のいずれか1つに記載の方法。
【0659】
E30.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態E29に記載の方法。
【0660】
E31.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、E30に記載の方法。
【0661】
E32.配列のリードのカウント数が、(III)における正規化、および1つまたは複数の特徴の因子分解に従って正規化される、実施形態E29からE31のいずれか1つに記載の方法。
【0662】
E33.(III)の後に、(III)で正規化された配列のリードのカウント数の1つまたは複数を含む1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成することを含む、実施形態E17からE32のいずれか1つに記載の方法。
【0663】
E34.確率密度推定が、カーネル密度推定である、実施形態E33に記載の方法。
【0664】
E35.ゲノムまたはそのセグメントについてのリード密度プロファイルを生成するステップを含む、実施形態E33またはE34に記載の方法。
【0665】
E36.リード密度プロファイルが、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を含む、実施形態E35に記載の方法。
【0666】
E37.1つまたは複数の部分についてのリード密度のそれぞれを調整するステップを含む、実施形態E33からE36のいずれか1つに記載の方法。
【0667】
E38.1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、実施形態E33からE37のいずれか1つに記載の方法。
【0668】
E39.1つまたは複数の部分が重み付けされ、それにより重み付き部分が提供される、実施形態E33からE38のいずれか1つに記載の方法。
【0669】
E40.1つまたは複数の部分が、固有関数により重み付けられる、実施形態E39に記載の方法。
【0670】
E41.局所的なゲノムの偏りの推定値が局所的なGC密度であり、偏り頻度がGC偏り頻度である、実施形態E17からE40のいずれか1つに記載の方法。
【0671】
E42.試験試料についてのフィルタリングされた部分に対してマッピングされた配列のリードのカウント数が、
【0672】
(1)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との適合させた関係を生成し、それにより試料GC密度関係を生成することであって、配列のリードは、参照ゲノムに対してマッピングされる、ことと、
(2)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成することであって、
参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである、ことと、
【0673】
(3)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されることと
を含む、(a)に先立って行われる処理によって正規化される、実施形態E0からE16のいずれか1つに記載の方法。
【0674】
E43.(3)における正規化が、正規化されたカウント数を提供することを含む、実施形態E42に記載の方法。
【0675】
E44.GC密度のそれぞれが、カーネル密度推定の使用を含む処理によって決定される、実施形態E42またはE43に記載の方法。
【0676】
E45.GC密度のそれぞれが、スライディングウィンドウ分析の使用を含む処理によって決定される、実施形態E42からE44のいずれか1つに記載の方法。
【0677】
E46.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態E45に記載の方法。
【0678】
E47.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態E46に記載の方法。
【0679】
E48.(2)が、(i)それぞれがGC密度のそれぞれについての試料GC密度関係頻度および参照GC密度関係頻度を含む比と、(ii)GC密度との適合させた関係を生成することを含む、実施形態E42からE47のいずれか1つに記載の方法。
【0680】
E49.(1)における適合させた関係が、重み付き適合から得られる、実施形態E48に記載の方法。
【0681】
E50.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態E42からE49のいずれか1つに記載の方法。
【0682】
E51.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態E50に記載の方法。
【0683】
E52.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態E51に記載の方法。
【0684】
E53.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態E50からE52のいずれか1つに記載の方法。
【0685】
E54.(c)における正規化が、GC密度以外の1つまたは複数の特徴を因子分解することと、配列のリードを正規化することとを含む、実施形態E42からE53のいずれか1つに記載の方法。
【0686】
E55.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態E54に記載の方法。
【0687】
E56.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、実施形態E55に記載の方法。
【0688】
E57.試験試料についてのフィルタリングされた部分が重み付けられる、実施形態E42からE56のいずれか1つに記載の方法。
【0689】
E58.試験試料についてのフィルタリングされた部分が、固有関数を含む処理によって重み付けられる、実施形態E57に記載の方法。
【0690】
E59.(a)に先立って、配列のリードを得ることを含む、実施形態E0からE58のいずれか1つに記載の方法。
【0691】
E60.配列のリードが、超並列シークエンシング(MPS)によって生成される、実施形態E59に記載の方法。
【0692】
E61.参照ゲノムの全部またはゲノムのセグメントに対してマッピングされた配列のリードを得るステップを含む、実施形態E0からE60のいずれか1つに記載の方法。
【0693】
E62.ゲノムのセグメントが、染色体またはそのセグメントを含む、実施形態E61に記載の方法。
【0694】
E63.参照ゲノムに対してマッピングされた配列のリードのカウント数が、(1)に先立って正規化される、実施形態E61またはE62に記載の方法。
【0695】
E64.参照ゲノムに対してマッピングされた配列のリードのカウント数が、GC含有量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはこれらの組合せにより正規化される、実施形態E63に記載の方法。
【0696】
E65.参照ゲノムに対してマッピングされた配列のリードのカウント数が、未処理のカウント数である、実施形態E61またはE62に記載の方法。
【0697】
E66.参照ゲノムの各部分が、およそ等しい長さの連続したヌクレオチドを含む、実施形態E0からE65のいずれか1つに記載の方法。
【0698】
E67.参照ゲノムの各部分が、約50kbを構成する、実施形態E0からE66のいずれか1つに記載の方法。
【0699】
E68.参照ゲノムの各部分が、約100kbを構成する、実施形態E0からE67のいずれか1つに記載の方法。
【0700】
E69.参照ゲノムの各部分が、参照ゲノムの隣接する部分と共通した連続したヌクレオチドのセグメントを含む、実施形態E0からE68のいずれか1つに記載の方法。
【0701】
E70.試験試料が、妊娠中の雌に由来する血液を含む、実施形態E0からE69のいずれか1つに記載の方法。
【0702】
E71.試験試料が、妊娠中の雌に由来する血漿を含む、実施形態E0からE70のいずれか1つに記載の方法。
【0703】
E72.試験試料が、妊娠中の雌に由来する血清を含む、実施形態E0からE71のいずれか1つに記載の方法。
【0704】
E73.試験試料から核酸が単離される、実施形態E0からE72のいずれか1つに記載の方法。
【0705】
E74.(1)における参照ゲノムに対してマッピングされた配列のリードを、配列アラインメントフォーマットからバイナリフォーマットに圧縮するステップを含む、実施形態E50からE73のいずれか1つに記載の方法。
【0706】
E75.圧縮が、圧縮モジュールにより行われる、実施形態E74に記載の方法。
【0707】
E76.試験試料の配列のリードについて、および参照についてのGC密度およびGC密度頻度が、偏り密度モジュールにより提供される、実施形態E42からE75のいずれか1つに記載の方法。
【0708】
E77.(2)における比較が、関係モジュールにより生成される、実施形態E42からE76のいずれか1つに記載の方法。
【0709】
E78.(3)における正規化が、偏り補正モジュールにより行われる、実施形態E44からE77のいずれか1つに記載の方法。
【0710】
E79.リード密度が、分布モジュールにより提供される、実施形態E0からE78のいずれか1つに記載の方法。
【0711】
E80.フィルタリングされた部分が、フィルタリングモジュールにより提供される、実施形態E0からE79のいずれか1つに記載の方法。
【0712】
E81.試験試料についてのフィルタリングされた部分が、部分重み付けモジュールにより重み付けられる、実施形態E57からE80のいずれか1つに記載の方法。
【0713】
E81.1.リード密度が、リード密度調整モジュールにより調整される、実施形態E57からE81のいずれか1つに記載の方法。
【0714】
E82.装置が、圧縮モジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、分布モジュール、フィルタリングモジュール、リード密度調整モジュール、および部分重み付けモジュールのうちの1つまたは複数を含む、実施形態E81.1に記載の方法。
【0715】
E83.試験試料プロファイルが、染色体またはそのセグメントのプロファイルを含む、実施形態E0からE82のいずれか1つに記載の方法。
【0716】
E84.参照プロファイルが、染色体またはそのセグメントのプロファイルを含む、実施形態E0からE83のいずれか1つに記載の方法。
【0717】
E85.(d)における決定が、90%に等しいかまたはそれ超の特異性および90%に等しいかまたはそれ超の感度で提供される、実施形態E0からE84のいずれか1つに記載の方法。
【0718】
E86.異数性がトリソミーである、実施形態E0からE85のいずれか1つに記載の方法。
【0719】
E87.トリソミーが、21トリソミー、18トリソミー、または13トリソミーである、実施形態E86に記載の方法。
【0720】
F1.自己に保管された実行可能プログラムを含む非一時的なコンピュータ可読ストレージメディアであって、プログラムはマイクロプロセッサに、
(a)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との関係を生成し、それにより試料GC密度関係を生成することであって、
配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードは、参照ゲノムに対してマッピングされる、ことと、
(b)試料GC密度関係と、参照GC密度関係とを比較し、それにより比較を生成することであって、参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである、ことと、
【0721】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されることと
を行うように指示する、非一時的なコンピュータ可読ストレージメディア。
【0722】
F1.1.(c)における正規化が、リードの正規化されたカウント数を提供することを含む、実施形態F1に記載のストレージメディア。
【0723】
F2.GC密度のそれぞれが、カーネル密度推定の使用を含む処理により決定される、実施形態F1またはF1.1に記載のストレージメディア。
【0724】
F2.1.参照GC密度関係および試料GC密度関係についてのGC密度のそれぞれが、局所的なGC含有量の表示である、実施形態F1からF2のいずれか1つに記載のストレージメディア。
【0725】
F2.2.局所的なGC含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、実施形態F2.1に記載のストレージメディア。
【0726】
F3.GC密度のそれぞれが、スライディングウィンドウ分析の使用を含む処理によって決定される、実施形態F1からF2.2のいずれか1つに記載のストレージメディア。
【0727】
F4.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態F3に記載のストレージメディア。
【0728】
F5.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態F3に記載のストレージメディア。
【0729】
F6.(b)が、(i)それぞれがGC密度のそれぞれについての試料GC密度関係頻度および参照GC密度関係頻度を含む比と、(ii)GC密度との適合させた関係を生成することを含む、実施形態F1からF5のいずれか1つに記載のストレージメディア。
【0730】
F7.(a)における適合させた関係が、重み付き適合から得られる、実施形態F6に記載のストレージメディア。
【0731】
F8.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態F1からF7のいずれか1つに記載のストレージメディア。
【0732】
F9.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態F8に記載のストレージメディア。
【0733】
F10.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態F9に記載のストレージメディア。
【0734】
F11.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態F8からF10のいずれか1つに記載のストレージメディア。
【0735】
F12.(c)における正規化が、GC密度以外の1つまたは複数の特徴を因子分解することと、配列のリードを正規化することとを含む、実施形態F1からF11のいずれか1つに記載のストレージメディア。
【0736】
F13.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態F12に記載のストレージメディア。
【0737】
F14.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、F13に記載のストレージメディア。
【0738】
F14.1.配列のリードのカウント数が、(c)における正規化、および1つまたは複数の特徴の因子分解に従って正規化される、実施形態F12からF14のいずれか1つに記載のストレージメディア。
【0739】
F15.プログラムがマイクロプロセッサに、(c)の後に、(c)において正規化された配列のリードのカウント数を含む1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成するように指示する、実施形態F1からF14.1のいずれか1つに記載のストレージメディア。
【0740】
F16.確率密度推定が、カーネル密度推定である、実施形態F15に記載のストレージメディア。
【0741】
F17.プログラムがマイクロプロセッサに、ゲノムまたはそのセグメントについてのリード密度プロファイルを生成するように指示する、実施形態F15またはF16に記載のストレージメディア。
【0742】
F18.リード密度プロファイルが、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を含む、実施形態F17に記載のストレージメディア。
【0743】
F19.プログラムがマイクロプロセッサに、1つまたは複数の部分についてのリード密度のそれぞれを調整するように指示する、実施形態F15からF18のいずれか1つに記載のストレージメディア。
【0744】
F20.1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、実施形態F15からF19のいずれか1つに記載のストレージメディア。
【0745】
F21.プログラムがマイクロプロセッサに、1つまたは複数の部分を重み付け、それにより重み付き部分を提供するように指示する、実施形態F15からF20のいずれか1つに記載のストレージメディア。
【0746】
F22.1つまたは複数の部分が、固有関数により重み付けられる、実施形態F21に記載のストレージメディア。
【0747】
F23.プログラムがマイクロプロセッサに、(a)に先立って、配列のリードを得るように指示する、実施形態F1からF22のいずれか1つに記載のストレージメディア。
【0748】
F24.配列のリードが、超並列シークエンシング(MPS)によって生成される、実施形態F23に記載のストレージメディア。
【0749】
F25.得られる配列のリードが、参照ゲノムの全部またはゲノムのセグメントに対してマッピングされた配列のリードである、実施形態F23またはF24に記載のストレージメディア。
【0750】
F26.ゲノムのセグメントが、染色体またはそのセグメントを含む、実施形態F25に記載のストレージメディア。
【0751】
F27.参照ゲノムに対してマッピングされた配列のリードのカウント数が、配列のリードの正規化されたカウント数である、実施形態F25またはF26に記載のストレージメディア。
【0752】
F28.参照ゲノムに対してマッピングされた配列のリードのカウント数が、GC含有量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはこれらの組合せにより正規化される、実施形態F27に記載のストレージメディア。
【0753】
F29.参照ゲノムに対してマッピングされた配列のリードのカウント数が、未処理のカウント数である、実施形態F25またはF26に記載のストレージメディア。
【0754】
F30.参照ゲノムの各部分が、およそ等しい長さの連続したヌクレオチドを含む、実施形態F15からF29のいずれか1つに記載のストレージメディア。
【0755】
F31.参照ゲノムの各部分が、約50kbを構成する、実施形態F15またはF30のいずれか1つに記載のストレージメディア。
【0756】
F32.参照ゲノムの各部分が、約100kbを構成する、実施形態F15からF31のいずれか1つに記載のストレージメディア。
【0757】
F33.参照ゲノムの各部分が、参照ゲノムの隣接する部分と共通した連続したヌクレオチドのセグメントを含む、実施形態F15からF32のいずれか1つに記載のストレージメディア。
【0758】
F34.試験試料が、妊娠中の雌から得られる、実施形態F1からF33のいずれか1つに記載のストレージメディア。
【0759】
F35.試験試料が、妊娠中の雌に由来する血液を含む、実施形態F1からF34のいずれか1つに記載のストレージメディア。
【0760】
F36.試験試料が、妊娠中の雌に由来する血漿を含む、実施形態F1からF35のいずれか1つに記載のストレージメディア。
【0761】
F37.試験試料が、妊娠中の雌に由来する血清を含む、実施形態F1からF36のいずれか1つに記載のストレージメディア。
【0762】
F38.試験試料が単離核酸を含む、実施形態F1からF37のいずれか1つに記載のストレージメディア。
【0763】
F39.プログラムがマイクロプロセッサに、(a)において参照ゲノムに対してマッピングされた配列のリードを、配列アラインメントフォーマットからバイナリフォーマットに圧縮するように指示する、実施形態F8からF38のいずれか1つに記載のストレージメディア。
【0764】
F40.圧縮が、圧縮モジュールにより行われる、実施形態F39に記載のストレージメディア。
【0765】
F41.試験試料の配列のリードについて、および参照についてのGC密度およびGC密度頻度が、偏り密度モジュールにより提供される、実施形態F1からF40のいずれか1つに記載のストレージメディア。
【0766】
F42.(b)における比較が、関係モジュールにより生成される、実施形態F1からF41のいずれか1つに記載のストレージメディア。
【0767】
F43.(c)における正規化が、偏り補正モジュールにより行われる、実施形態F1からF42のいずれか1つに記載のストレージメディア。
【0768】
F44.リード密度が、分布モジュールにより提供される、実施形態F15からF43のいずれか1つに記載のストレージメディア。
【0769】
F45.フィルタリングされた部分が、フィルタリングモジュールにより提供される、実施形態F20からF44のいずれか1つに記載のストレージメディア。
【0770】
F46.重み付き部分が、部分重み付けモジュールにより提供される、実施形態F21からF45のいずれか1つに記載のストレージメディア。
【0771】
F46.1.調整されたリード密度が、リード密度調整モジュールによって提供される、実施形態F21からF45のいずれか1つに記載のストレージメディア。
【0772】
F47.圧縮モジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、分布モジュール、フィルタリングモジュール、リード密度調整モジュール、および部分重み付けモジュールのうちの1つまたは複数を含む、実施形態F46に記載のストレージメディア。
【0773】
G1.自己に保管された実行可能プログラムを含む非一時的なコンピュータ可読ストレージメディアであって、プログラムはマイクロプロセッサに、
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供することであり、
リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ことと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供することと、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供することと、
【0774】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定することと
を行うように指示する、非一時的なコンピュータ可読ストレージメディア。
【0775】
G2.比較が、有意性のレベルを決定することを含む、実施形態G1に記載のストレージメディア。
【0776】
G3.有意性のレベルの決定が、p値を決定することを含む、実施形態G2に記載のストレージメディア。
【0777】
G4.参照プロファイルが、一連の既知の正倍数体試料から得られるリード密度プロファイルを含む、実施形態G1からG3のいずれか1つに記載のストレージメディア。
【0778】
G5.参照プロファイルが、フィルタリングされた部分のリード密度を含む、実施形態G1からG4のいずれか1つに記載のストレージメディア。
【0779】
G6.参照プロファイルが、1つまたは複数の主成分に従って調整されたリード密度を含む、実施形態G1からG5のいずれか1つに記載のストレージメディア。
【0780】
G7.有意性のレベルが、試験試料プロファイルと参照プロファイルとの間の統計的に有意な差異を指し示し、染色体異数性の存在が決定される、実施形態G2からG6のいずれか1つに記載のストレージメディア。
【0781】
G8.複数の試料が、一連の既知の正倍数体試料を含む、実施形態G1からG7のいずれか1つに記載のストレージメディア。
【0782】
G9.複数の試料についての部分のリード密度が、リード密度中央値である、実施形態G1からG8のいずれか1つに記載のストレージメディア。
【0783】
G10.試験試料についてのフィルタリングされた部分のリード密度が、リード密度中央値である、実施形態G1からG9のいずれか1つに記載のストレージメディア。
【0784】
G11.参照プロファイルについてのリード密度プロファイルが、リード密度中央値を含む、実施形態G4からG10のいずれか1つに記載のストレージメディア。
【0785】
G12.試験試料プロファイル、複数の試料、および参照プロファイルについてのリード密度が、カーネル密度推定の使用を含む処理に従って決定される、実施形態G4からG11のいずれか1つに記載のストレージメディア。
【0786】
G13.試験試料プロファイルが、試験試料についてのリード密度中央値に従って決定される、実施形態G10からG12のいずれか1つに記載のストレージメディア。
【0787】
G14.参照プロファイルが、参照についてのリード密度中央値分布に従って決定される、実施形態G11からG13のいずれか1つに記載のストレージメディア。
【0788】
G15.プログラムがマイクロプロセッサに、リード密度分布についての不確定性の尺度に従って参照ゲノムの部分をフィルタリングするように指示する、実施形態G1からG14のいずれか1つに記載のストレージメディア。
【0789】
G15.1.不確定性の尺度がMADである、実施形態G14.1に記載のストレージメディア。
【0790】
G16.プログラムがマイクロプロセッサに、
【0791】
(1)試験試料の配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との適合させた関係を生成し、それにより試料GC密度関係を生成することであって、配列のリードは、参照ゲノムに対してマッピングされる、ことと、
(2)試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成することであって、
参照GC密度関係は、参照についての(i)GC密度と(ii)GC密度頻度との間のものである、ことと、
【0792】
(3)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されること
を含む、(a)に先立って行われる処理によって試験試料についてのフィルタリングされた部分に対してマッピングされた配列のリードのカウント数を重み付けるように指示する、実施形態G1からG15.1のいずれか1つに記載のストレージメディア。
【0793】
G16.1.(3)における正規化が、正規化されたカウント数を提供することを含む、実施形態G16に記載のストレージメディア。
【0794】
G17.GC密度のそれぞれが、カーネル密度推定の使用を含む処理により決定される、実施形態G16またはG16.1に記載のストレージメディア。
【0795】
G17.1.参照GC密度関係および試料GC密度関係についてのGC密度のそれぞれが、局所的なGC含有量の表示である、実施形態G16からG17のいずれか1つに記載のストレージメディア。
【0796】
G17.2.局所的なGC含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、実施形態G17.1に記載のストレージメディア。
【0797】
G18.GC密度のそれぞれが、スライディングウィンドウ分析の使用を含む処理によって決定される、実施形態G16からG17.2のいずれか1つに記載のストレージメディア。
【0798】
G19.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態G18に記載のストレージメディア。
【0799】
G20.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態G19に記載のストレージメディア。
【0800】
G21.(2)が、(i)それぞれがGC密度のそれぞれについての試料GC密度関係頻度および参照GC密度関係頻度を含む比と、(ii)GC密度との適合させた関係を生成することを含む、実施形態G16からG20のいずれか1つに記載のストレージメディア。
【0801】
G22.(1)における適合させた関係が、重み付き適合から得られる、実施形態G21に記載のストレージメディア。
【0802】
G23.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態G16からG22のいずれか1つに記載のストレージメディア。
【0803】
G24.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態G23に記載のストレージメディア。
【0804】
G25.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態G24に記載のストレージメディア。
【0805】
G26.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態G23からG25のいずれか1つに記載のストレージメディア。
【0806】
G27.(c)における正規化が、GC密度以外の1つまたは複数の特徴を因子分解することと、配列のリードのカウント数を正規化することとを含む、実施形態G16からG26のいずれか1つに記載のストレージメディア。
【0807】
G28.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態G27に記載のストレージメディア。
【0808】
G29.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、実施形態G28に記載のストレージメディア。
【0809】
G29.1.プログラムがマイクロプロセッサに、試験試料についてのフィルタリングされた部分を重み付けするように指示する、実施形態G16からG29のいずれか1つに記載のストレージメディア。
【0810】
G29.2.試験試料についてのフィルタリングされた部分が、固有関数を含む処理によって重み付けられる、実施形態G29.1に記載のストレージメディア。
【0811】
G30.プログラムがマイクロプロセッサに、(a)に先立って、配列のリードを得るように指示する、実施形態G1からG29.2のいずれか1つに記載のストレージメディア。
【0812】
G31.配列のリードが、超並列シークエンシング(MPS)によって生成される、実施形態G30に記載のストレージメディア。
【0813】
G32.参照ゲノムの全部またはゲノムのセグメントに対してマッピングされた配列のリードを得るステップを含む、実施形態G1からG31のいずれか1つに記載のストレージメディア。
【0814】
G33.ゲノムのセグメントが、染色体またはそのセグメントを含む、実施形態G32に記載のストレージメディア。
【0815】
G34.参照ゲノムに対してマッピングされた配列のリードのカウント数が、(1)に先立って正規化される、実施形態G32またはG33に記載のストレージメディア。
【0816】
G35.参照ゲノムに対してマッピングされた配列のリードのカウント数が、GC含有量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはこれらの組合せにより正規化される、実施形態G34に記載のストレージメディア。
【0817】
G36.参照ゲノムに対してマッピングされた配列のリードのカウント数が、未処理のカウント数である、実施形態G32またはG33に記載のストレージメディア。
【0818】
G37.参照ゲノムの各部分が、およそ等しい長さの連続したヌクレオチドを含む、実施形態G1からG36のいずれか1つに記載のストレージメディア。
【0819】
G38.参照ゲノムの各部分が、約50kbを構成する、実施形態G1からG37のいずれか1つに記載のストレージメディア。
【0820】
G39.参照ゲノムの各部分が、約100kbを構成する、実施形態G1からG38のいずれか1つに記載のストレージメディア。
【0821】
G40.参照ゲノムの各部分が、参照ゲノムの隣接する部分と共通した連続したヌクレオチドのセグメントを含む、実施形態G1からG39のいずれか1つに記載のストレージメディア。
【0822】
G41.試験試料が、妊娠中の雌に由来する血液を含む、実施形態G1からG40のいずれか1つに記載のストレージメディア。
【0823】
G42.試験試料が、妊娠中の雌に由来する血漿を含む、実施形態G1からG41のいずれか1つに記載のストレージメディア。
【0824】
G43.試験試料が、妊娠中の雌に由来する血清を含む、実施形態G1からG42のいずれか1つに記載のストレージメディア。
【0825】
G44 試験試料から核酸が単離される、実施形態G1からG43のいずれか1つに記載のストレージメディア。
【0826】
G45.プログラムがマイクロプロセッサに、(1)において参照ゲノムに対してマッピングされた配列のリードを、配列アラインメントフォーマットからバイナリフォーマットに圧縮するように指示する、実施形態G23からG44のいずれか1つに記載のストレージメディア。
【0827】
G46.圧縮が、圧縮モジュールにより行われる、実施形態G45に記載のストレージメディア。
【0828】
G47.試験試料の配列のリードについて、および参照についてのGC密度およびGC密度頻度が、偏り密度モジュールにより提供される、実施形態G16からG46のいずれか1つに記載のストレージメディア。
【0829】
G48.(2)における比較が、関係モジュールにより生成される、実施形態G16からG47のいずれか1つに記載のストレージメディア。
【0830】
G49.(3)における正規化が、偏り補正モジュールにより行われる、実施形態G17からG48のいずれか1つに記載のストレージメディア。
【0831】
G50.リード密度が、分布モジュールにより提供される、実施形態G1からG49のいずれか1つに記載のストレージメディア。
【0832】
G51.フィルタリングされた部分が、フィルタリングモジュールにより提供される、実施形態G1からG50のいずれか1つに記載のストレージメディア。
【0833】
G51.1.試験試料についてのフィルタリングされた部分が、部分重み付けモジュールにより重み付けられる、実施形態G29.1からG51のいずれか1つに記載のストレージメディア。
【0834】
G51.1.調整されたリード密度が、リード密度調整モジュールによって提供される、実施形態G29.1からG51のいずれか1つに記載のストレージメディア。
【0835】
G52.装置が、圧縮モジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、分布モジュール、フィルタリングモジュール、リード密度調整モジュール、および部分重み付けモジュールのうちの1つまたは複数を含む、実施形態G51.1に記載のストレージメディア。
【0836】
G53.試験試料プロファイルが、染色体またはそのセグメントのプロファイルを含む、実施形態G1からG52のいずれか1つに記載のストレージメディア。
【0837】
G54.参照プロファイルが、染色体またはそのセグメントのプロファイルを含む、実施形態G1からG53のいずれか1つに記載のストレージメディア。
【0838】
G55.(d)における決定が、90%に等しいかまたはそれ超の特異性および90%に等しいかまたはそれ超の感度で提供される、実施形態G1からG54のいずれか1つに記載のストレージメディア。
【0839】
G56.異数性がトリソミーである、実施形態G1からG55のいずれか1つに記載のストレージメディア。
【0840】
G57.トリソミーが、21トリソミー、18トリソミー、または13トリソミーである、実施形態G56に記載のストレージメディア。
【0841】
H1.メモリおよび1つまたは複数のマイクロプロセッサを含むシステムであって、1つまたは複数のマイクロプロセッサは、メモリ中のインストラクションに従って、試料に関する配列のリード中の偏りを低減するための処理を行うように構成されており、処理は、
(a)試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成するステップであって、
配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードは、参照ゲノムに対してマッピングされる、ステップと、
(b)試料偏り関係と参照偏り関係とを比較し、それにより比較を生成するステップであって、
参照偏り関係は、参照についての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との間のものである、ステップと、
【0842】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減されるステップと
を含む、システム。
【0843】
H1.1.配列決定装置および1つまたは複数の演算装置を含むシステムであって、
配列決定装置は、配列決定装置にロードされた核酸のヌクレオチド塩基に対応するシグナルを生成するように構成されており、核酸は、胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸であり、または配列決定装置にロードされた核酸は、循環型無細胞核酸の修飾変異体であり、
1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、メモリは、1つまたは複数のプロセッサにより実行可能なインストラクションを含み、1つまたは複数のプロセッサにより実行可能なインストラクションは、
シグナルから配列のリードを生成し、配列のリードをマッピングし、
(a)試験試料の配列のリードについての(i)局所的なゲノム偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成し、
(b)試料偏り関係と参照偏り関係とを比較し、それにより比較を生成し (参照偏り関係は、参照についての(i)局所的なゲノム偏りの推定値と(ii)偏り頻度との間のものである)、
【0844】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより試料に関する配列のリードの偏りが低減される
ように構成されている、システム。
【0845】
H1.2.(c)における正規化が、正規化されたカウント数を提供することを含む、実施形態H1またはH1.1に記載のシステム。
【0846】
H2.局所的なゲノムの偏りの推定値のそれぞれが、カーネル密度推定の使用を含む処理によって決定される、実施形態H1またはH1.2に記載のシステム。
【0847】
H2.1.参照偏り関係および試料偏り関係についての局所的なゲノムの偏りの推定値のそれぞれが、局所的な偏りの含有量の表示である、実施形態H1からH2のいずれか1つに記載のシステム。
【0848】
H2.2.局所的な偏りの含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、実施形態H2.1に記載のシステム。
【0849】
H3.局所的なゲノムの偏りの推定値のそれぞれが、スライディングウィンドウ分析の使用を含む処理により決定される、実施形態H1からH2.2のいずれか1つに記載のシステム。
【0850】
H4.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態H3に記載のシステム。
【0851】
H5.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態H3に記載のシステム。
【0852】
H6.(b)が、(i)それぞれが局所的なゲノムの偏りの推定値のそれぞれについての試料偏り関係頻度および参照偏り関係頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との適合させた関係を生成することを含む、実施形態H1からH5のいずれか1つに記載のシステム。
【0853】
H7.(a)における適合させた関係が、重み付き適合から得られる、実施形態H6に記載のシステム。
【0854】
H8.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態H1からH7のいずれか1つに記載のシステム。
【0855】
H9.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態H8に記載のシステム。
【0856】
H10.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態H9に記載のシステム。
【0857】
H11.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態H8からH10のいずれか1つに記載のシステム。
【0858】
H12.(c)における正規化が、偏り以外の1つまたは複数の特徴を因子分解することと、配列のリードのカウント数を正規化することとを含む、実施形態H1からH11のいずれか1つに記載のシステム。
【0859】
H13.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態H12に記載のシステム。
【0860】
H14.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、H13に記載のシステム。
【0861】
H14.1.配列のリードのカウント数が、(c)における正規化、および1つまたは複数の特徴の因子分解に従って正規化される、実施形態H12からH14のいずれか1つに記載のシステム。
【0862】
H15.(c)の後に、(c)において正規化された配列のリードのカウント数を含む1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成することを含む、実施形態H1からH14.1のいずれか1つに記載のシステム。
【0863】
H16.確率密度推定が、カーネル密度推定である、実施形態H15に記載のシステム。
【0864】
H17.ゲノムまたはそのセグメントについてのリード密度プロファイルを生成するステップを含む、実施形態H15またはH16に記載のシステム。
【0865】
H18.リード密度プロファイルが、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を含む、実施形態H17に記載のシステム。
【0866】
H19.1つまたは複数の部分についてのリード密度のそれぞれを調整するステップを含む、実施形態H15からH18のいずれか1つに記載のシステム。
【0867】
H20.1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、実施形態H15からH19のいずれか1つに記載のシステム。
【0868】
H21.1つまたは複数の部分が重み付けされ、それにより重み付き部分が提供される、実施形態H15からH20のいずれか1つに記載のシステム。
【0869】
H22.1つまたは複数の部分が、固有関数により重み付けられる、実施形態H21に記載のシステム。
【0870】
H23.局所的なゲノムの偏りの推定値が、局所的なGC密度を含み、偏り頻度が、GC偏り頻度を含む、実施形態H1からH22のいずれか1つに記載のシステム。
【0871】
H24.(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
リード密度が、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布が、複数の試料についての部分のリード密度について決定される、ステップと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
【0872】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、実施形態H1からH23のいずれか1つに記載のシステム。
【0873】
H25.比較が、有意性のレベルを決定することを含む、実施形態H24に記載のシステム。
【0874】
H26.有意性のレベルの決定が、p値を決定することを含む、実施形態H25に記載のシステム。
【0875】
H27.参照プロファイルが、一連の既知の正倍数体試料から得られるリード密度プロファイルを含む、実施形態H24からH26のいずれか1つに記載のシステム。
【0876】
H28.参照プロファイルが、フィルタリングされた部分のリード密度を含む、実施形態H24からH27のいずれか1つに記載のシステム。
【0877】
H29.参照プロファイルが、1つまたは複数の主成分に従って調整されたリード密度を含む、実施形態H24からH28のいずれか1つに記載のシステム。
【0878】
H30.有意性のレベルが、試験試料プロファイルと参照プロファイルとの間の統計的に有意な差異を指し示し、染色体異数性の存在が決定される、実施形態H25からH29のいずれか1つに記載のシステム。
【0879】
H31.複数の試料が、一連の既知の正倍数体試料を含む、実施形態H24からH30のいずれか1つに記載のシステム。
【0880】
H32.複数の試料についての部分のリード密度が、リード密度中央値である、実施形態H24からH31のいずれか1つに記載のシステム。
【0881】
H33.試験試料についてのフィルタリングされた部分のリード密度が、リード密度中央値である、実施形態H24からH32のいずれか1つに記載のシステム。
【0882】
H34.参照プロファイルについてのリード密度プロファイルが、リード密度中央値を含む、実施形態H27からH33のいずれか1つに記載のシステム。
【0883】
H35.試験試料プロファイル、複数の試料、および参照プロファイルについてのリード密度が、カーネル密度推定の使用を含む処理に従って決定される、実施形態H27からH34のいずれか1つに記載のシステム。
【0884】
H36.試験試料プロファイルが、試験試料についてのリード密度中央値に従って決定される、実施形態H33からH35のいずれか1つに記載のシステム。
【0885】
H37.参照プロファイルが、参照についてのリード密度中央値分布に従って決定される、実施形態H34からH36のいずれか1つに記載のシステム。
【0886】
H38.リード密度分布についての不確定性の尺度に従って参照ゲノムの部分をフィルタリングすることを含む、実施形態H24からH37のいずれか1つに記載のシステム。
【0887】
H39.不確定性の尺度が、MADである、実施形態H38に記載のシステム。
【0888】
H40.システムのメモリが、参照ゲノムに対してマッピングされる試験試料に由来する循環型無細胞核酸の配列のリードを含む、実施形態H1からH39のいずれか1つに記載のシステム。
【0889】
I1.試料に関する配列のリードの偏りを低減するための方法であって、
(a)マイクロプロセッサを使用して試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成するステップであって、
配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードは、参照ゲノムに対してマッピングされる、ステップと、
(b)試料偏り関係と参照偏り関係とを比較し、それにより比較を生成するステップであって、
参照偏り関係は、参照についての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との間のものである、ステップと、
【0890】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより、試料に関する配列のリードの偏りが低減される、ステップと
を含む、方法。
【0891】
I1.1.試料に関する配列のリードの偏りを低減するための方法であって、
胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸を配列決定装置にロードし、または核酸の修飾変異体を配列決定装置にロードするステップであって、配列決定装置は、核酸のヌクレオチド塩基に対応するシグナルを生成する、ステップと、
1つまたは複数の演算装置を含むシステムにより、任意選択でシグナルをシステムに移送した後、核酸のシグナルから配列のリードを生成するステップであって、システム中の1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、
システム中の1つの演算装置または演算装置の組合せは、参照ゲノムに対して配列のリードをマッピングし、
(a)マイクロプロセッサを使用して、試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成し
(配列のリードは、試験試料に由来する循環型無細胞核酸のものであり、
配列のリードは、参照ゲノムに対してマッピングされる)、
(b)試料偏り関係と参照偏り関係とを比較し、それにより比較を生成し
(参照偏り関係は、参照についての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度の間のものである)、
【0892】
(c)(b)で決定された比較に従って試料に関する配列のリードのカウント数を正規化し、それにより、試料に関する配列のリードの偏りが低減される
ように構成されている、ステップと
を含む、方法。
【0893】
I1.2.(c)における正規化が、正規化されたカウント数を提供することを含む、実施形態I1またはI1.1に記載の方法。
【0894】
I2.局所的なゲノムの偏りの推定値が、カーネル密度推定の使用を含む処理によって決定される、実施形態I1、I1.1またはI1.2に記載の方法。
【0895】
I2.1.参照偏り関係および試料偏り関係についての局所的なゲノムの偏りの推定値のそれぞれが、局所的な偏りの含有量の表示である、実施形態I1からI2のいずれか1つに記載の方法。
【0896】
I2.2.局所的な偏りの含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、実施形態I2.1に記載の方法。
【0897】
I3.局所的なゲノムの偏りの推定値のそれぞれが、スライディングウィンドウ分析の使用を含む処理により決定される、実施形態I1からI2.2のいずれか1つに記載の方法。
【0898】
I4.ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、実施形態I3に記載の方法。
【0899】
I5.ウィンドウが、約200の連続したヌクレオチドであり、スライディングウィンドウ分析において約1塩基を同時にスライドされる、実施形態I3に記載の方法。
【0900】
I6.(b)が、(i)それぞれが局所的なゲノムの偏りの推定値のそれぞれについての試料偏り関係頻度および参照偏り関係頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との適合させた関係を生成することを含む、実施形態I1からI5のいずれか1つに記載の方法。
【0901】
I7.(a)における適合させた関係が、重み付き適合から得られる、実施形態I6に記載の方法。
【0902】
I8.試料に関する配列のリードのそれぞれが、バイナリフォーマットで表示される、実施形態I1からI7のいずれか1つに記載の方法。
【0903】
I9.配列のリードのそれぞれについてのバイナリフォーマットが、リードがマッピングされている染色体およびリードがマッピングされている染色体位置を含む、実施形態I8に記載の方法。
【0904】
I10.バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、実施形態I9に記載の方法。
【0905】
I11.バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、実施形態I8からI10のいずれか1つに記載の方法。
【0906】
I12.(c)における正規化が、偏り以外の1つまたは複数の特徴を因子分解することと、配列のリードのカウント数を正規化することとを含む、実施形態I1からI11のいずれか1つに記載の方法。
【0907】
I13.1つまたは複数の特徴の因子分解が、多変量モデルの使用を含む処理によるものである、実施形態I12に記載の方法。
【0908】
I14.多変量モデルの使用を含む処理が、多変量モジュールによって行われる、実施形態I13に記載の方法。
【0909】
I14.1.配列のリードのカウント数が、(c)における正規化、および1つまたは複数の特徴の因子分解に従って正規化される、実施形態I12からI14のいずれか1つに記載の方法。
【0910】
I15.(c)の後に、(c)において正規化された配列のリードのカウント数を含む1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成することを含む、実施形態I1からI14.1のいずれか1つに記載の方法。
【0911】
I16.確率密度推定が、カーネル密度推定である、実施形態I15に記載の方法。
【0912】
I17.ゲノムまたはそのセグメントについてのリード密度プロファイルを生成するステップを含む、実施形態I15またはI16に記載の方法。
【0913】
I18.リード密度プロファイルが、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を含む、実施形態I17に記載の方法。
【0914】
I19.1つまたは複数の部分についてのリード密度のそれぞれを調整するステップを含む、実施形態I15からI18のいずれか1つに記載の方法。
【0915】
I20.1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、実施形態I15からI19のいずれか1つに記載の方法。
【0916】
I21.1つまたは複数の部分が重み付けされ、それにより重み付き部分が提供される、実施形態I15からI20のいずれか1つに記載の方法。
【0917】
I22.1つまたは複数の部分が、固有関数により重み付けられる、実施形態I21に記載の方法。
【0918】
I23.局所的なゲノムの偏りの推定値が、局所的なGC密度を含み、偏り頻度が、GC偏り頻度を含む、実施形態I1からI22のいずれか1つに記載の方法。
【0919】
I23.1.
(a)リード密度分布に従って、参照ゲノム中の染色体の部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についての染色体のリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料染色体プロファイルを提供するステップと、
(c)試験試料染色体プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
【0920】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、実施形態I1からI23のいずれか1つに記載の方法。
【0921】
I24.
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
リード密度が、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
リード密度分布が、複数の試料についての部分のリード密度について決定される、ステップと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(c)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
【0922】
(d)比較に従って試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、実施形態I1からI23のいずれか1つに記載の方法。
【0923】
I24.1.リード密度プロファイルが、1~10の主成分により(b)において調整される、実施形態I23.1またはI24に記載の方法。
【0924】
I24.2.リード密度プロファイルが、5つの主成分により(b)において調整される、実施形態I23.1、I24またはI24.1に記載の方法。
【0925】
I24.3.1つまたは複数の主成分が、リード密度プロファイル中の1つまたは複数の特徴について調整し、特徴が、胎仔の性別、配列の偏り、胎仔フラクション、DNアーゼI感度に相関した偏り、エントロピー、反復配列の偏り、クロマチン構造の偏り、ポリメラーゼエラー率の偏り、回分配列の偏り、逆位リピートの偏り、PCR増幅の偏り、および隠れたコピー数の変異から選択される、実施形態I23.1からI24.2のいずれか1つに記載の方法。
【0926】
I24.4.配列の偏りが、グアニンおよびシトシン(GC)の偏りを含む、実施形態I24.3に記載の方法。
【0927】
I25.比較が、有意性のレベルを決定することを含む、実施形態I23.1からI24.4のいずれか1つに記載の方法。
【0928】
I26.有意性のレベルの決定が、p値を決定することを含む、実施形態I25に記載の方法。
【0929】
I27.参照プロファイルが、一連の既知の正倍数体試料から得られるリード密度プロファイルを含む、実施形態I23.1からI26のいずれか1つに記載の方法。
【0930】
I28.参照プロファイルが、フィルタリングされた部分のリード密度を含む、実施形態I23.1からI27のいずれか1つに記載の方法。
【0931】
I29.参照プロファイルが、1つまたは複数の主成分に従って調整されたリード密度を含む、実施形態I23.1からI28のいずれか1つに記載の方法。
【0932】
I30.有意性のレベルが、試験試料プロファイルと参照プロファイルとの間の統計的に有意な差異を指し示し、染色体異数性の存在が決定される、実施形態I25からI29のいずれか1つに記載の方法。
【0933】
I31.複数の試料が、一連の既知の正倍数体試料を含む、実施形態I23.1からI30のいずれか1つに記載の方法。
【0934】
I32.複数の試料についての部分のリード密度が、リード密度中央値である、実施形態I23.1からI31のいずれか1つに記載の方法。
【0935】
I33.試験試料についてのフィルタリングされた部分のリード密度が、リード密度中央値である、実施形態I23.1からI32のいずれか1つに記載の方法。
【0936】
I34.参照プロファイルについてのリード密度プロファイルが、リード密度中央値を含む、実施形態I27からI33のいずれか1つに記載の方法。
【0937】
I35.試験試料プロファイル、複数の試料、および参照プロファイルについてのリード密度が、カーネル密度推定の使用を含む処理に従って決定される、実施形態I27からI34のいずれか1つに記載の方法。
【0938】
I36.試験試料プロファイルが、試験試料についてのリード密度中央値に従って決定される、実施形態I33からI35のいずれか1つに記載の方法。
【0939】
I37.参照プロファイルが、参照についてのリード密度中央値分布に従って決定される、実施形態I34からI36のいずれか1つに記載の方法。
【0940】
I38.リード密度分布についての不確定性の尺度に従って参照ゲノムの部分をフィルタリングすることを含む、実施形態I23.1からI37のいずれか1つに記載の方法。
【0941】
I39.不確定性の尺度が、MADである、実施形態I38に記載の方法。
【0942】
I40.試験試料プロファイルが、試験試料についての染色体量の表示である、実施形態I23.1からI39のいずれか1つに記載の方法。
【0943】
I41.試験試料プロファイルについての染色体量を参照プロファイルについての染色体量と比較し、それにより染色体量の比較を生成するステップを含む、実施形態I40に記載の方法。
【0944】
I42.試験試料についての染色体異数性の存在または非存在の決定が、染色体量の比較に従う、実施形態I41に記載の方法。
【0945】
I43.試験試料についての染色体異数性の存在または非存在の決定が、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つまたは複数のセグメントの欠失、または染色体の1つまたは複数のセグメントの挿入の存在または非存在を同定することを含む、実施形態I42に記載の方法。
【0946】
J1.異数性の存在または非存在を決定するための方法であって、
(a)参照ゲノムのゲノム部分に対してマッピングされた部分的なヌクレオチド配列のリードのカウント数を得るステップであって、部分的なヌクレオチド配列のリードは、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸のリードであり、部分的なヌクレオチド配列のリードの少なくとも一部は、
i)同定された核酸塩基間の複数の核酸塩基ギャップ、もしくは
ii)それぞれが、試料核酸中に存在する核酸塩基のサブセットを含む、1つまたは複数の核酸塩基クラス、または
(i)と(ii)との組合せ
を含む、ステップと、
(b)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
リード密度は、試験試料に由来する部分的なヌクレオチド配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(c)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(d)試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
【0947】
(e)比較に従って試験試料についての異数性の存在または非存在を決定するステップと
を含む、方法。
【0948】
J2.コピー数の変異に基づいて胎仔フラクションを決定するための方法であって、
(a)参照ゲノムのゲノム部分に対してマッピングされた核酸配列のリードのカウント数を得るステップであって、配列のリードは、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸のリードである、ステップと、
(b)参照ゲノムのゲノム部分に対してマッピングされたカウント数を正規化し、それによりゲノム部分についての正規化されたカウント数を提供するステップであって、
【0949】
(i)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供することであり、
リード密度は、試験試料に由来するヌクレオチド配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ことと、
【0950】
(ii)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供することと
を含む、ステップと、
【0951】
(c)正規化されたカウント数の第2のレベルと有意に異なる正規化されたカウント数の第1のレベルを同定するステップであって、第1のレベルは、ゲノム部分の第1のセットについてのものであり、第2のレベルは、ゲノム部分の第2のセットについてのものである、ステップと、
(d)コピー数の変異を第1のレベルに割り当て、それにより分類を提供するステップと、
【0952】
(e)分類に従って循環型無細胞核酸の胎仔フラクションを決定し、それにより胎仔フラクションが核酸配列のリードから生成されるステップと
を含む、方法。
【0953】
J3.妊娠中の雌の血液に由来する循環型無細胞核酸中の胎仔核酸のフラクションを決定するための方法であって、
(a)参照ゲノムのゲノム部分に対してマッピングされた核酸配列のリードのカウント数を得るステップであって、配列のリードは、雄の胎仔を出産する妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸のリードである、ステップと、
(b)実験的なX染色体表示を生成するステップであって、実験的なX染色体表示は、(i)X染色体中の参照ゲノムのゲノム部分に対してマッピングされた配列のリードのカウント数と、(ii)ゲノム中の参照ゲノムのゲノム部分またはそのセグメントに対してマッピングされた配列のリードのカウント数との比である、ステップと、
【0954】
(c)実験的なX染色体表示から、実験的なX染色体表示および予想されるX染色体表示に従って妊娠中の雌の血液中の胎仔核酸のフラクションを決定するステップであって、予想されるX染色体表示は、(i)X染色体中の参照ゲノムのゲノム部分の数と、(ii)ゲノム中の参照ゲノムのゲノム部分またはそのセグメントの数との比であり、(b)におけるカウント数は、
【0955】
(1)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供することであり、
リード密度は、試験試料に由来するヌクレオチド配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ことと、
【0956】
(2)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供することと
を含む処理によって正規化される、ステップと
を含む、方法。
【0957】
J4.核酸配列のリードに従って胎仔の倍数性を決定するための方法であって、
(a)試験試料中の胎仔核酸のフラクションを決定するステップであって、試験試料は、妊娠中の雌に由来する循環型無細胞核酸を含む、ステップと、
(b)参照ゲノムの部分に対してマッピングされた配列のリードのカウント数を得るステップであって、配列のリードは、試料中の核酸に由来する、ステップと、
(c)参照ゲノムの部分のそれぞれについてゲノム区分のレベルを計算し、それにより計算されたゲノム区分のレベルを提供するステップと、
(d)(i)参照ゲノムの部分のサブセットについて計算されたゲノム区分のレベルと、(ii)(a)で決定された胎仔核酸のフラクションとの関係に従って胎仔の倍数性を決定するステップであって、(b)におけるカウント数は、
【0958】
(1)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供することであり、
リード密度は、試験試料に由来するヌクレオチド配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ことと、
【0959】
(2)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供することと
を含む処理によって正規化される、ステップと
を含む、方法。
【0960】
J5.胎仔異数性の存在または非存在を決定するための方法であって、
(a)参照ゲノム部分に対してマッピングされたヌクレオチド配列のリードのカウント数を得るステップであって、ヌクレオチド配列のリードは、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸のリードである、ステップと、
(b)第1のゲノム部分についてのカウント数から予想されるカウント数を減算し、それにより減算値を生成することと、減算値をカウント数の可変性の推定値で除算することを含む処理により第1のゲノム部分についてのカウント数を正規化し、またはマイクロプロセッサを使用して、第1のゲノム部分についてのカウント数の導関数を正規化し、それにより正規化された試料カウント数を得るステップであって、
予想されるカウント数、または予想されるカウント数の導関数は、1つまたは複数の共通の実験条件に曝露された試料、参照、または試料と参照を含む群について得られる、ステップと、
(c)正規化された試料カウント数に基づいて胎仔異数性の存在または非存在を決定するステップとを含み、(b)におけるカウント数の正規化は、
【0961】
(1)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供することであり、
リード密度は、試験試料に由来するヌクレオチド配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ことと、
【0962】
(2)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供することと
をさらに含む、方法。
【0963】
J6.胎仔中の性染色体核型を決定するための方法であって、
(a)参照ゲノムの部分に対してマッピングされたヌクレオチド配列のリードのカウント数を得るステップであって、配列のリードは、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸のリードである、ステップと、
(b)(i)参照ゲノムの部分のそれぞれに対してマッピングされた配列のリードのカウント数と、(ii)部分のそれぞれについてのマッピング特徴との各試料についての適合させた関係から複数の試料について参照ゲノムの部分のそれぞれについての実験上の偏りを決定するステップと、
(c)実験上の偏りと、参照ゲノムの部分のそれぞれに対してマッピングされた配列のリードのカウント数との適合させた関係から参照ゲノムの部分のそれぞれについてゲノム区分のレベルを計算し、それにより計算されたゲノム区分のレベルを提供するステップと、
(d)計算されたゲノム区分のレベルに従って胎仔についての性染色体核型を決定するステップを含み、(b)における実験上の偏りの決定は、
【0964】
(1)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供することであり、
リード密度は、試験試料に由来するヌクレオチド配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ことと、
【0965】
(2)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供することと
をさらに含む、方法。
【0966】
J7.異数性の存在または非存在を決定するための方法であって、
(a)参照ゲノム中の染色体13、18、および21、またはそのセグメントに対してマッピングされた配列のリードのカウント数を得るステップであって、配列のリードは、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸のリードである、ステップと、
(b)3つの比または比の値を決定するステップであって、3つの比のそれぞれは、(i)染色体13、18、および21、またはそのセグメントのそれぞれに対してマッピングされたカウント数と(ii)他の染色体13、18、および21、またはそのセグメントのそれぞれに対してマッピングされたカウント数との比である、ステップと、
(c)3つの比または比の値を比較し、それにより比較を生成するステップと、
【0967】
(d)(c)で生成された比較および(d)での決定は、染色体13、18、および21中のもの以外のゲノムのセグメントに基づかないという条件で、(c)で生成された比較に基づいて染色体異数性の存在または非存在を決定し、それにより染色体異数性の存在または非存在の決定が配列のリードから生成されるステップであって、染色体13、18、および21、またはそのセグメントに対してマッピングされた配列のリードのカウント数は、
【0968】
(1)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供することであり、
リード密度は、試験試料に由来するヌクレオチド配列のリードを含み、
リード密度分布は、複数の試料についての部分のリード密度について決定される、ことと、
【0969】
(2)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って試験試料についてのリード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供することと
を含む処理により正規化される、ステップと
を含む、方法。
【0970】
本明細書において参照される特許、特許出願、出版物、および文書それぞれについて、その全体を、本明細書により参照によって援用する。上記特許、特許出願、出版物、および文書の引用は、上記資料のいずれかが、関連する先行技術であることを承認するものではなく、またこれらの出版物または文書の内容または日付に関して何らかの承認となるものでもない。
【0971】
本技術の基本的な態様から逸脱せずに、上記について修正を行うことができる。本技術は、1つまたは複数の特定の実施形態を参照しながら、かなり詳細に記載されており、当業者は、本出願で具体的に開示されている実施形態に変更を行うことが可能であると認識するであろうが、これらの修正および改良は、依然として本技術の範囲および精神内である。
【0972】
本明細書に実例として記載する本技術は、本明細書に特に開示されないエレメント(複数可)のいずれかが存在しなくても好適に実践可能である。したがって、例えば、本明細書の各事例において、用語「を含む(comprising)」、「本質的に~からなる(consisting essentially of)」、および「からなる(consisting of)」のいずれも、他方の2つの用語と置き換え可能である。採用された用語および語句は、制限ではなく説明の用語として使用され、またかかる用語および語句の使用が、示され記載された特性、またはそのセグメントと等価なものをいずれも除外するものではなく、様々な修正が、特許請求された技術の範囲内で可能である。用語「1つの(a)」または「1つの(an)」は、エレメントのうちの1つ、またはエレメントのうちの1つ超が記載されていることが文脈上明白でない限り、それが修飾する1つまたは複数のエレメントを指し得る(例えば、「試薬(a reagent)」は、1つまたは複数の試薬を意味し得る)。用語「約(about)」は、本明細書で使用する場合、基礎となるパラメータの10%以内の値を指す(例えば、プラスまたはマイナス10%)、および連なった値の最初で用語「約」を使用する場合、その用語は値のそれぞれを修飾する(例えば、「約1、2、および3」は、約1、約2、および約3を指す)。例えば、「約100グラム」の重量は、90グラム~110グラムの間の重量を含み得る。さらに、値の列挙が本明細書に記載される場合(例えば、約50%、60%、70%、80%、85%、または86%)、列挙には、全ての中間の値およびその分数の値(例えば、54%、85.4%)が含まれる。したがって、本技術は、代表的な実施形態および任意選択的な特性により具体的に開示されているものの、本明細書で開示する概念の修正および変更は当業者により実施可能であると理解すべきであり、かかる修正および変更は本技術の範囲内とみなされる。
【0973】
本技術のある特定の実施形態を、後続する特許請求の範囲(複数可)に記載する。
例えば、本発明は以下の項目を提供する。
(項目1)
試料についての異数性の存在または非存在を決定するための方法であって、
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
前記リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
前記リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って前記試験試料についての前記リード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(c)前記試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
(d)前記比較に従って前記試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。
(項目2)
(b)における前記調整が、マイクロプロセッサを使用して行われる、項目1に記載の方法。
(項目3)
試料についての異数性の存在または非存在を決定するための方法であって、
胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸を配列決定装置にロードし、または前記核酸の修飾変異体を前記配列決定装置にロードするステップであって、前記配列決定装置は、前記核酸のヌクレオチド塩基に対応するシグナルを生成する、ステップと、
1つまたは複数の演算装置を含むシステムにより、任意選択で前記シグナルをシステムに移送した後、前記核酸の前記シグナルから配列のリードを生成するステップであって、前記システム中の前記1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、
前記システム中の1つの演算装置または演算装置の組合せは、参照ゲノムに対して前記配列のリードをマッピングし、
(a)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供し
(前記リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
前記リード密度分布は、複数の試料についての部分のリード密度について決定される)、
(b)マイクロプロセッサを使用して、主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って前記試験試料についての前記リード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供し、
(c)前記試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供し、
(d)前記比較に従って前記試験試料についての染色体異数性の存在または非存在を決定する
ように構成されている、ステップを含む、方法。
(項目4)
前記リード密度プロファイルが、1~10の主成分により(b)において調整される、項目1、2、または3に記載の方法。
(項目5)
前記リード密度プロファイルが、5つの主成分により(b)において調整される、項目1、2、または3に記載の方法。
(項目6)
前記1つまたは複数の主成分が、リード密度プロファイル中の1つまたは複数の特徴について調整し、前記特徴が、胎仔の性別、配列の偏り、胎仔フラクション、DNアーゼI感度に相関した偏り、エントロピー、反復配列の偏り、クロマチン構造の偏り、ポリメラーゼエラー率の偏り、回分配列の偏り、逆位リピートの偏り、PCR増幅の偏り、および隠れたコピー数の変異から選択される、項目1から5のいずれか一項に記載の方法。
(項目7)
配列の偏りが、グアニンおよびシトシン(GC)の偏りを含む、項目6に記載の方法。
(項目8)
前記比較が、有意性のレベルを決定することを含む、項目1から7のいずれか一項に記載の方法。
(項目9)
前記有意性のレベルの決定が、p値を決定することを含む、項目1から8のいずれか一項に記載の方法。
(項目10)
前記参照プロファイルが、一連の既知の正倍数体試料から得られるリード密度プロファイルを含む、項目1から9のいずれか一項に記載の方法。
(項目11)
前記参照プロファイルが、フィルタリングされた部分のリード密度を含む、項目1から10のいずれか一項に記載の方法。
(項目12)
前記参照プロファイルが、前記1つまたは複数の主成分に従って調整されたリード密度を含む、項目1から11のいずれか一項に記載の方法。
(項目13)
前記有意性のレベルが、前記試験試料プロファイルと前記参照プロファイルとの間の統計的に有意な差異を指し示し、染色体異数性の前記存在が決定される、項目8から12のいずれか一項に記載の方法。
(項目14)
前記複数の試料が、一連の既知の正倍数体試料を含む、項目1から13のいずれか一項に記載の方法。
(項目15)
前記複数の試料についての部分の前記リード密度が、リード密度中央値である、項目1から14のいずれか一項に記載の方法。
(項目16)
前記試験試料についてのフィルタリングされた部分の前記リード密度が、リード密度中央値である、項目1から15のいずれか一項に記載の方法。
(項目17)
前記参照プロファイルについての前記リード密度プロファイルが、リード密度中央値を含む、項目10から16のいずれか一項に記載の方法。
(項目18)
前記試験試料プロファイル、前記複数の試料、および前記参照プロファイルについての前記リード密度が、カーネル密度推定の使用を含む処理に従って決定される、項目10から17のいずれか一項に記載の方法。
(項目19)
前記試験試料プロファイルが、前記試験試料についての前記リード密度中央値に従って決定される、項目16から18のいずれか一項に記載の方法。
(項目20)
前記参照プロファイルが、前記参照についての前記リード密度中央値分布に従って決定される、項目17から19のいずれか一項に記載の方法。
(項目21)
前記リード密度分布についての不確定性の尺度に従って参照ゲノムの部分をフィルタリングすることを含む、項目1から20のいずれか一項に記載の方法。
(項目22)
前記不確定性の尺度が、MADである、項目21に記載の方法。
(項目23)
前記試験試料プロファイルが、前記試験試料についての染色体量の表示である、項目1から22のいずれか一項に記載の方法。
(項目24)
試験試料プロファイルについての染色体量を参照プロファイルについての染色体量と比較し、それにより染色体量の比較を生成するステップを含む、項目23に記載の方法。
(項目25)
前記試験試料についての染色体異数性の前記存在または非存在の決定が、前記染色体量の比較に従う、項目24に記載の方法。
(項目26)
前記試験試料についての染色体異数性の前記存在または非存在の決定が、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つまたは複数のセグメントの欠失、または染色体の1つまたは複数のセグメントの挿入の存在または非存在を同定することを含む、項目1から25のいずれか一項に記載の方法。
(項目27)
前記試験試料についてのフィルタリングされた部分に対してマッピングされた前記配列のリードのカウント数が、
(I)試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成することであって、
前記配列のリードが、前記試験試料に由来する循環型無細胞核酸のものであり、
前記配列のリードが、参照ゲノムに対してマッピングされる、ことと、
(II)前記試料偏り関係と参照偏り関係とを比較し、それにより比較を生成することであって、
前記参照偏り関係が、参照についての(i)局所的なゲノムの偏りの推定値と(ii)前記偏り頻度との間のものである、ことと、
(III)(II)で決定された前記比較に従って前記試料に関する前記配列のリードのカウント数を正規化し、それにより、前記試料に関する前記配列のリードの偏りが低減される、ことと
を含む(a)に先立って行われる処理により正規化される、項目1から26のいずれか一項に記載の方法。
(項目28)
(III)における前記正規化が、正規化されたカウント数を提供することを含む、項目27に記載の方法。
(項目29)
前記局所的なゲノムの偏りの推定値のそれぞれが、カーネル密度推定の使用を含む処理によって決定される、項目27または28に記載の方法。
(項目30)
前記参照偏り関係および前記試料偏り関係についての前記局所的なゲノムの偏りの推定値のそれぞれが、局所的な偏りの含有量の表示である、項目27から29のいずれか一項に記載の方法。
(項目31)
前記局所的な偏りの含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、項目30に記載の方法。
(項目32)
前記局所的なゲノムの偏りの推定値のそれぞれが、スライディングウィンドウ分析の使用を含む処理により決定される、項目27から31のいずれか一項に記載の方法。
(項目33)
前記ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、前記スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、項目32に記載の方法。
(項目34)
前記ウィンドウが、約200の連続したヌクレオチドであり、前記スライディングウィンドウ分析において約1塩基を同時にスライドされる、項目32に記載の方法。
(項目35)
(II)が、(i)それぞれが前記局所的なゲノムの偏りの推定値のそれぞれについての試料偏り関係頻度および参照偏り関係頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との適合させた関係を生成することを含む、項目27から34のいずれか一項に記載の方法。
(項目36)
(I)における前記適合させた関係が、重み付き適合から得られる、項目35に記載の方法。
(項目37)
前記試料に関する前記配列のリードのそれぞれが、バイナリフォーマットで表示される、項目27から36のいずれか一項に記載の方法。
(項目38)
前記配列のリードのそれぞれについての前記バイナリフォーマットが、前記リードがマッピングされている染色体および前記リードがマッピングされている染色体位置を含む、項目37に記載の方法。
(項目39)
前記バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、項目38に記載の方法。
(項目40)
前記バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、項目37から39のいずれか一項に記載の方法。
(項目41)
(III)における前記正規化が、偏り以外の1つまたは複数の特徴を因子分解することと、前記配列のリードのカウント数を正規化することとを含む、項目27から40のいずれか一項に記載の方法。
(項目42)
1つまたは複数の特徴の前記因子分解が、多変量モデルの使用を含む処理によるものである、項目41に記載の方法。
(項目43)
前記多変量モデルの使用を含む前記処理が、多変量モジュールによって行われる、42に記載の方法。
(項目44)
前記配列のリードのカウント数が、(III)における前記正規化、および前記1つまたは複数の特徴の前記因子分解に従って正規化される、項目41から43のいずれか一項に記載の方法。
(項目45)
(III)の後に、(III)で正規化された配列のリードのカウント数の1つまたは複数を含む1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成することを含む、項目27から44のいずれか一項に記載の方法。
(項目46)
前記確率密度推定が、カーネル密度推定である、項目45に記載の方法。
(項目47)
前記ゲノムまたはその前記セグメントについてのリード密度プロファイルを生成するステップを含む、項目45または46に記載の方法。
(項目48)
前記リード密度プロファイルが、前記ゲノムの前記1つもしくは複数の部分またはその前記セグメントについての前記リード密度を含む、項目47に記載の方法。
(項目49)
前記1つまたは複数の部分についての前記リード密度のそれぞれを調整するステップを含む、項目45から48のいずれか一項に記載の方法。
(項目50)
前記1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、項目45から49のいずれか一項に記載の方法。
(項目51)
前記1つまたは複数の部分が重み付けされ、それにより重み付き部分が提供される、項目45から50のいずれか一項に記載の方法。
(項目52)
前記1つまたは複数の部分が、固有関数により重み付けられる、項目51に記載の方法。
(項目53)
前記局所的なゲノムの偏りの推定値が局所的なGC密度であり、前記偏り頻度がGC偏り頻度である、項目27から52のいずれか一項に記載の方法。
(項目54)
前記試験試料についてのフィルタリングされた部分に対してマッピングされた前記配列のリードのカウント数が、
(1)前記試験試料の前記配列のリードについての(i)グアニンおよびシトシン(GC)密度と(ii)GC密度頻度との適合させた関係を生成し、それにより試料GC密度関係を生成することであって、前記配列のリードは、前記参照ゲノムに対してマッピングされる、ことと、
(2)前記試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成することであって、
前記参照GC密度関係は、参照についての(i)GC密度と(ii)前記GC密度頻度との間のものである、ことと、
(3)(2)で決定された前記比較に従って前記試料に関する前記配列のリードのカウント数を正規化し、それにより前記試料に関する前記配列のリードの偏りが低減されることと
を含む、(a)に先立って行われる処理によって正規化される、項目1から26のいずれか一項に記載の方法。
(項目55)
(3)における前記正規化が、正規化されたカウント数を提供することを含む、項目54に記載の方法。
(項目56)
前記GC密度のそれぞれが、カーネル密度推定の使用を含む処理によって決定される、項目54または55に記載の方法。
(項目57)
前記GC密度のそれぞれが、スライディングウィンドウ分析の使用を含む処理によって決定される、項目54から56のいずれか一項に記載の方法。
(項目58)
前記ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、前記スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、項目57に記載の方法。
(項目59)
前記ウィンドウが、約200の連続したヌクレオチドであり、前記スライディングウィンドウ分析において約1塩基を同時にスライドされる、項目58に記載の方法。
(項目60)
(2)が、(i)それぞれが前記GC密度のそれぞれについての試料GC密度関係頻度および参照GC密度関係頻度を含む比と、(ii)GC密度との適合させた関係を生成することを含む、項目54から59のいずれか一項に記載の方法。
(項目61)
(1)における前記適合させた関係が、重み付き適合から得られる、項目60に記載の方法。
(項目62)
前記試料に関する前記配列のリードのそれぞれが、バイナリフォーマットで表示される、項目54から61のいずれか一項に記載の方法。
(項目63)
前記配列のリードのそれぞれについての前記バイナリフォーマットが、前記リードがマッピングされている染色体および前記リードがマッピングされている染色体位置を含む、項目62に記載の方法。
(項目64)
前記バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、項目63に記載の方法。
(項目65)
前記バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、項目62から64のいずれか一項に記載の方法。
(項目66)
(c)における前記正規化が、GC密度以外の1つまたは複数の特徴を因子分解することと、前記配列のリードを正規化することとを含む、項目54から65のいずれか一項に記載の方法。
(項目67)
1つまたは複数の特徴の前記因子分解が、多変量モデルの使用を含む処理によるものである、項目66に記載の方法。
(項目68)
前記多変量モデルの使用を含む前記処理が、多変量モジュールによって行われる、項目67に記載の方法。
(項目69)
前記試験試料についての前記フィルタリングされた部分が重み付けられる、項目54から68のいずれか一項に記載の方法。
(項目70)
前記試験試料についての前記フィルタリングされた部分が、固有関数を含む処理によって重み付けられる、項目69に記載の方法。
(項目71)
(a)に先立って、前記配列のリードを得ることを含む、項目1から70のいずれか一項に記載の方法。
(項目72)
前記配列のリードが、超並列シークエンシング(MPS)によって生成される、項目71に記載の方法。
(項目73)
参照ゲノムの全部またはゲノムのセグメントに対してマッピングされた配列のリードを得るステップを含む、項目1から72のいずれか一項に記載の方法。
(項目74)
前記ゲノムの前記セグメントが、染色体またはそのセグメントを含む、項目73に記載の方法。
(項目75)
前記参照ゲノムに対してマッピングされた前記配列のリードの前記カウント数が、(1)に先立って正規化される、項目73または74に記載の方法。
(項目76)
前記参照ゲノムに対してマッピングされた前記配列のリードの前記カウント数が、GC含有量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはこれらの組合せにより正規化される、項目75に記載の方法。
(項目77)
前記参照ゲノムに対してマッピングされた前記配列のリードの前記カウント数が、未処理のカウント数である、項目73または74に記載の方法。
(項目78)
前記参照ゲノムの各部分が、およそ等しい長さの連続したヌクレオチドを含む、項目1から77のいずれか一項に記載の方法。
(項目79)
前記参照ゲノムの各部分が、約50kbを構成する、項目1から78のいずれか一項に記載の方法。
(項目80)
前記参照ゲノムの各部分が、約100kbを構成する、項目1から78のいずれか一項に記載の方法。
(項目81)
前記参照ゲノムの各部分が、前記参照ゲノムの隣接する部分と共通した連続したヌクレオチドのセグメントを含む、項目1から80のいずれか一項に記載の方法。
(項目82)
前記試験試料が、妊娠中の雌に由来する血液を含む、項目1から81のいずれか一項に記載の方法。
(項目83)
前記試験試料が、妊娠中の雌に由来する血漿を含む、項目1から81のいずれか一項に記載の方法。
(項目84)
前記試験試料が、妊娠中の雌に由来する血清を含む、項目1から81のいずれか一項に記載の方法。
(項目85)
前記試験試料から核酸が単離される、項目1から84のいずれか一項に記載の方法。
(項目86)
(1)における前記参照ゲノムに対してマッピングされた前記配列のリードを、配列アラインメントフォーマットからバイナリフォーマットに圧縮するステップを含む、項目62から85のいずれか一項に記載の方法。
(項目87)
前記圧縮が、圧縮モジュールにより行われる、項目86に記載の方法。
(項目88)
前記試験試料の前記配列のリードについて、および前記参照についての前記GC密度および前記GC密度頻度が、偏り密度モジュールにより提供される、項目54から87のいずれか一項に記載の方法。
(項目89)
(2)における前記比較が、関係モジュールにより生成される、項目54から87のいずれか一項に記載の方法。
(項目90)
(3)における前記正規化が、偏り補正モジュールにより行われる、項目54から89のいずれか一項に記載の方法。
(項目91)
前記リード密度が、分布モジュールにより提供される、項目1から90のいずれか一項に記載の方法。
(項目92)
フィルタリングされた部分が、フィルタリングモジュールにより提供される、項目1から91のいずれか一項に記載の方法。
(項目93)
前記試験試料についての前記フィルタリングされた部分が、部分重み付けモジュールにより重み付けられる、項目69から92のいずれか一項に記載の方法。
(項目94)
前記リード密度が、リード密度調整モジュールにより調整される、項目69から93のいずれか一項に記載の方法。
(項目95)
圧縮モジュール、偏り密度モジュール、関係モジュール、偏り補正モジュール、分布モジュール、フィルタリングモジュール、リード密度調整モジュール、および部分重み付けモジュールのうちの1つまたは複数を含む装置を使用して行われる、項目1から94のいずれか一項に記載の方法。
(項目96)
前記試験試料プロファイルが、染色体またはそのセグメントのプロファイルを含む、項目1から95のいずれか一項に記載の方法。
(項目97)
前記参照プロファイルが、染色体またはそのセグメントのプロファイルを含む、項目1から96のいずれか一項に記載の方法。
(項目98)
(d)における前記決定が、90%に等しいかまたはそれ超の特異性および90%に等しいかまたはそれ超の感度で提供される、項目1から97のいずれか一項に記載の方法。
(項目99)
前記異数性がトリソミーである、項目1から98のいずれか一項に記載の方法。
(項目100)
前記トリソミーが、21トリソミー、18トリソミー、または13トリソミーである、項目99に記載の方法。
(項目101)
試料についての異数性の存在または非存在を決定するための方法であって、
(a)参照ゲノムに対してマッピングされた配列のリードのカウント数を正規化するステップであって、前記配列のリードは、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸のリードであり、前記正規化は、
(1)前記試験試料の前記配列のリードについての(i)グアニンおよびシトシン(GC)密度および(ii)GC密度頻度との適合させた関係を生成し、それにより試料GC密度関係を生成することであって、前記配列のリードは、前記参照ゲノムに対してマッピングされる、ことと、
(2)前記試料GC密度関係と参照GC密度関係とを比較し、それにより比較を生成することであって、
前記参照GC密度関係は、参照についての(i)GC密度と(ii)前記GC密度頻度との間のものである、ことと、
(3)(2)で決定された前記比較に従って前記試料に関する前記配列のリードのカウント数を正規化し、それにより前記試料に関する前記配列のリードの偏りが低減されることと、を含むステップと、
(b)リード密度分布に従って、前記参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む前記試験試料についてのリード密度プロファイルを提供するステップであって、
前記リード密度は、前記試験試料に由来する配列のリードを含み、
前記リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(c)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って前記試験試料についての前記リード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(d)前記試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
(e)前記比較に従って前記試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。
(項目102)
試料に関する配列のリードの偏りを低減するための方法であって、
(a)試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成するステップであって、
前記配列のリードは、前記試験試料に由来する循環型無細胞核酸のものであり、
前記配列のリードは、参照ゲノムに対してマッピングされる、ステップと、
(b)前記試料偏り関係と参照偏り関係とを比較し、それにより比較を生成するステップであって、
前記参照偏り関係は、参照についての(i)局所的なゲノムの偏りの推定値と(ii)前記偏り頻度との間のものである、ステップと、
(c)(b)で決定された前記比較に従って前記試料に関する前記配列のリードのカウント数を正規化し、それにより、前記試料に関する前記配列のリードの偏りが低減される、ステップと
を含む、方法。
(項目103)
前記試料偏り関係が、マイクロプロセッサを使用して生成される、項目102に記載の方法。
(項目104)
試料に関する配列のリードの偏りを低減するための方法であって、
胎仔を出産する妊娠中の雌の血液に由来する循環型無細胞核酸を配列決定装置にロードし、または前記核酸の修飾変異体を前記配列決定装置にロードするステップであって、前記配列決定装置は、前記核酸のヌクレオチド塩基に対応するシグナルを生成する、ステップと、
1つまたは複数の演算装置を含むシステムにより、任意選択で前記シグナルをシステムに移送した後、前記核酸の前記シグナルから配列のリードを生成するステップであって、前記システム中の前記1つまたは複数の演算装置は、メモリおよび1つまたは複数のプロセッサを含み、
前記システム中の1つの演算装置または演算装置の組合せは、参照ゲノムに対して前記配列のリードをマッピングし、
(a)マイクロプロセッサを使用して、試験試料の配列のリードについての(i)局所的なゲノムの偏りの推定値と(ii)偏り頻度との関係を生成し、それにより試料偏り関係を生成し
(前記配列のリードは、前記試験試料に由来する循環型無細胞核酸のものであり、
前記配列のリードは、参照ゲノムに対してマッピングされる)、
(b)前記試料偏り関係と参照偏り関係とを比較し、それにより比較を生成し
(前記参照偏り関係は、参照についての(i)局所的なゲノムの偏りの推定値と(ii)前記偏り頻度の間のものである)、
(c)(b)で決定された前記比較に従って前記試料に関する前記配列のリードのカウント数を正規化し、それにより、前記試料に関する前記配列のリードの偏りが低減される
ように構成されている、ステップと
を含む、方法。
(項目105)
(c)における前記正規化が、正規化されたカウント数を提供することを含む、項目102、103または104に記載の方法。
(項目106)
前記局所的なゲノムの偏りの推定値のそれぞれが、カーネル密度推定の使用を含む処理によって決定される、項目102から105のいずれか一項に記載の方法。
(項目107)
前記参照偏り関係および前記試料偏り関係についての前記局所的なゲノムの偏りの推定値のそれぞれが、局所的な偏りの含有量の表示である、項目102から106のいずれか一項に記載の方法。
(項目108)
前記局所的な偏りの含有量が、5000bpまたはそれ未満のポリヌクレオチドセグメントについてのものである、項目107に記載の方法。
(項目109)
前記局所的なゲノムの偏りの推定値のそれぞれが、スライディングウィンドウ分析の使用を含む処理により決定される、項目102から108のいずれか一項に記載の方法。
(項目110)
前記ウィンドウが、約5の連続したヌクレオチド~約5000の連続したヌクレオチドであり、前記スライディングウィンドウ分析において約1塩基~約10塩基を同時にスライドされる、項目109に記載の方法。
(項目111)
前記ウィンドウが、約200の連続したヌクレオチドであり、前記スライディングウィンドウ分析において約1塩基を同時にスライドされる、項目109に記載の方法。
(項目112)
(b)が、(i)それぞれが前記局所的なゲノムの偏りの推定値のそれぞれについての試料偏り関係頻度および参照偏り関係頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との適合させた関係を生成することを含む、項目102から111のいずれか一項に記載の方法。
(項目113)
(a)における前記適合させた関係が、重み付き適合から得られる、項目112に記載の方法。
(項目114)
前記試料に関する前記配列のリードのそれぞれが、バイナリフォーマットで表示される、項目102から113のいずれか一項に記載の方法。
(項目115)
前記配列のリードのそれぞれについての前記バイナリフォーマットが、前記リードがマッピングされている染色体および前記リードがマッピングされている染色体位置を含む、項目114に記載の方法。
(項目116)
前記バイナリフォーマットが、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットにおけるものである、項目115に記載の方法。
(項目117)
前記バイナリフォーマットが、配列アラインメント/マップ(SAM)フォーマットより50分の1小さく、かつ/またはGZipフォーマットより約13%小さい、項目114から116のいずれか一項に記載の方法。
(項目118)
(c)における前記正規化が、偏り以外の1つまたは複数の特徴を因子分解することと、前記配列のリードのカウント数を正規化することとを含む、項目102から117のいずれか一項に記載の方法。
(項目119)
1つまたは複数の特徴の前記因子分解が、多変量モデルの使用を含む処理によるものである、項目118に記載の方法。
(項目120)
前記多変量モデルの使用を含む前記処理が、多変量モジュールによって行われる、項目119に記載の方法。
(項目121)
前記配列のリードのカウント数が、(c)における前記正規化、および前記1つまたは複数の特徴の前記因子分解に従って正規化される、項目118から120のいずれか一項に記載の方法。
(項目122)
(c)の後に、(c)において正規化された前記配列のリードの前記カウント数を含む前記1つまたは複数の部分のそれぞれについて確率密度推定を生成することを含む処理に従って、ゲノムの1つもしくは複数の部分またはそのセグメントについてのリード密度を生成することを含む、項目102から121のいずれか一項に記載の方法。
(項目123)
前記確率密度推定が、カーネル密度推定である、項目122に記載の方法。
(項目124)
前記ゲノムまたはその前記セグメントについてのリード密度プロファイルを生成するステップを含む、項目122または123に記載の方法。
(項目125)
前記リード密度プロファイルが、前記ゲノムの前記1つもしくは複数の部分またはその前記セグメントについての前記リード密度を含む、項目124に記載の方法。
(項目126)
前記1つまたは複数の部分についての前記リード密度のそれぞれを調整するステップを含む、項目122から125のいずれか一項に記載の方法。
(項目127)
前記1つまたは複数の部分がフィルタリングされ、それによりフィルタリングされた部分が提供される、項目122から126のいずれか一項に記載の方法。
(項目128)
前記1つまたは複数の部分が重み付けされ、それにより重み付き部分が提供される、項目122から127のいずれか一項に記載の方法。
(項目129)
前記1つまたは複数の部分が、固有関数により重み付けられる、項目128に記載の方法。
(項目130)
前記局所的なゲノムの偏りの推定値が、局所的なGC密度を含み、前記偏り頻度が、GC偏り頻度を含む、項目102から129のいずれか一項に記載の方法。
(項目131)
(d)リード密度分布に従って、参照ゲノムの部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
前記リード密度が、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
前記リード密度分布が、複数の試料についての部分のリード密度について決定される、ステップと、
(e)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って前記試験試料についての前記リード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料プロファイルを提供するステップと、
(f)前記試験試料プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
(g)前記比較に従って前記試験試料についての染色体異数性の存在または非存在を決定するステップと
をさらに含む、項目102から130のいずれか一項に記載の方法。
(項目132)
前記リード密度プロファイルが、1~10の主成分により(b)において調整される、項目131に記載の方法。
(項目133)
前記リード密度プロファイルが、5つの主成分により(b)において調整される、項目131に記載の方法。
(項目134)
前記1つまたは複数の主成分が、リード密度プロファイル中の1つまたは複数の特徴について調整し、前記特徴が、胎仔の性別、配列の偏り、胎仔フラクション、DNアーゼI感度に相関した偏り、エントロピー、反復配列の偏り、クロマチン構造の偏り、ポリメラーゼエラー率の偏り、回分配列の偏り、逆位リピートの偏り、PCR増幅の偏り、および隠れたコピー数の変異から選択される、項目131から133のいずれか一項に記載の方法。
(項目135)
配列の偏りが、グアニンおよびシトシン(GC)の偏りを含む、項目134に記載の方法。
(項目136)
前記比較が、有意性のレベルを決定することを含む、項目131から135のいずれか一項に記載の方法。
(項目137)
前記有意性のレベルの決定が、p値を決定することを含む、項目136に記載の方法。
(項目138)
前記参照プロファイルが、一連の既知の正倍数体試料から得られるリード密度プロファイルを含む、項目131から137のいずれか一項に記載の方法。
(項目139)
前記参照プロファイルが、フィルタリングされた部分のリード密度を含む、項目131から138のいずれか一項に記載の方法。
(項目140)
前記参照プロファイルが、前記1つまたは複数の主成分に従って調整されたリード密度を含む、項目131から139のいずれか一項に記載の方法。
(項目141)
前記有意性のレベルが、前記試験試料プロファイルと前記参照プロファイルとの間の統計的に有意な差異を指し示し、染色体異数性の前記存在が決定される、項目136から140のいずれか一項に記載の方法。
(項目142)
前記複数の試料が、一連の既知の正倍数体試料を含む、項目131から141のいずれか一項に記載の方法。
(項目143)
前記複数の試料についての部分の前記リード密度が、リード密度中央値である、項目131から142のいずれか一項に記載の方法。
(項目144)
前記試験試料についてのフィルタリングされた部分の前記リード密度が、リード密度中央値である、項目131から143のいずれか一項に記載の方法。
(項目145)
前記参照プロファイルについての前記リード密度プロファイルが、リード密度中央値を含む、項目138から144のいずれか一項に記載の方法。
(項目146)
前記試験試料プロファイル、前記複数の試料、および前記参照プロファイルについての前記リード密度が、カーネル密度推定の使用を含む処理に従って決定される、項目138から145のいずれか一項に記載の方法。
(項目147)
前記試験試料プロファイルが、前記試験試料についての前記リード密度中央値に従って決定される、項目144から146のいずれか一項に記載の方法。
(項目148)
前記参照プロファイルが、前記参照についての前記リード密度中央値分布に従って決定される、項目145から147のいずれか一項に記載の方法。
(項目149)
前記リード密度分布についての不確定性の尺度に従って参照ゲノムの部分をフィルタリングすることを含む、項目131から148のいずれか一項に記載の方法。
(項目150)
前記不確定性の尺度が、MADである、項目149に記載の方法。
(項目151)
前記試験試料プロファイルが、前記試験試料についての染色体量の表示である、項目131から150のいずれか一項に記載の方法。
(項目152)
試験試料プロファイルについての染色体量を参照プロファイルについての染色体量と比較し、それにより染色体量の比較を生成するステップを含む、項目151に記載の方法。
(項目153)
前記試験試料についての染色体異数性の前記存在または非存在の決定が、前記染色体量の比較に従う、項目152に記載の方法。
(項目154)
前記試験試料についての染色体異数性の前記存在または非存在の決定が、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つまたは複数のセグメントの欠失、または染色体の1つまたは複数のセグメントの挿入の存在または非存在を同定することを含む、項目131から153のいずれか一項に記載の方法。
(項目155)
試料についての異数性の存在または非存在を決定するための方法であって、
(a)リード密度分布に従って、参照ゲノム中の染色体の部分をフィルタリングし、それによりフィルタリングされた部分のリード密度を含む試験試料についてのリード密度プロファイルを提供するステップであって、
前記リード密度は、妊娠中の雌に由来する試験試料に由来する循環型無細胞核酸の配列のリードを含み、
前記リード密度分布は、複数の試料についての部分のリード密度について決定される、ステップと、
(b)主成分分析により一連の既知の正倍数体試料から得られる1つまたは複数の主成分に従って前記試験試料についての染色体の前記リード密度プロファイルを調整し、それにより調整されたリード密度を含む試験試料染色体プロファイルを提供するステップと、
(c)前記試験試料染色体プロファイルを参照プロファイルと比較し、それにより比較を提供するステップと、
(d)前記比較に従って前記試験試料についての染色体異数性の存在または非存在を決定するステップと
を含む、方法。