(58)【調査した分野】(Int.Cl.,DB名)
胎児核酸の前記フラクションを、前記試験試料について推定するステップが、前記部分特異的胎児フラクションの推定値を平均または合計することを含む、請求項1から5のいずれか一項に記載の方法。
各部分についての前記重み付け係数が、前記複数の試料についての、前記部分へとマッピングした、CCF胎児核酸断片に由来する読取りの平均値量と比例する、請求項1から7のいずれか一項に記載の方法。
前記部分が、離散ゲノムビン、所定の長さの連続配列を有するゲノムビン、可変サイズビン、スムージングされたカバレッジマップの地点ベースの図示、およびこれらの組合せから選択される、請求項1から8のいずれか一項に記載の方法。
前記トリソミーの存在または非存在が、95%もしくはそれ超の感度または95%もしくはそれ超の特異性、あるいは95%またはそれ超の感度および95%またはそれ超の特異性で決定される、請求項18に記載の方法。
【発明を実施するための形態】
【0048】
本明細書では、核酸混合物中のポリヌクレオチドを分析するための方法であって、例えば、遺伝子の変動の存在または非存在を決定するための方法を含む方法が提供される。母体試料に由来する、例えば、胎児異数性など、遺伝子の変動の評価は、試料中に存在する核酸の配列決定と、配列の読取りを、ゲノム中のある特定の領域へとマッピングすることと、試料について配列の読取りを定量することと、定量を分析することとを伴うことが典型的である。このような方法は、試料中の核酸を直接分析し、試料中の核酸のうちの全てまたは実質的に全てについて、ヌクレオチド配列の読取りを得ることが多く、これは、費用がかかり、余分なデータおよび/または無関係のデータを生成する可能性がある。しかし、ある特定の配列ベースの分析および/または長さベースの分析と組み合わせた、ある特定の配列ベースの分離法および/または長さベースの分離法により、例えば、特異的な染色体など、標的とされたゲノム領域についての具体的な情報を生成することができ、場合によって、胎児起源と対比した母体起源など、核酸断片の起源を差別化することができる。ある特定の方法は、配列決定法、富化法、および長さベースの分析の使用を含みうる。一部の実施形態では、本明細書で記載されるある特定の方法は、核酸断片のヌクレオチド配列を決定せずに実施することができる。本明細書では、配列ベースの分離法および分析法、ならびに/または長さベースの分離法および分析法の組合せを使用して、核酸混合物中のポリヌクレオチドを分析する(例えば、胎児異数性の存在または非存在を決定する)ための方法が提供される。
【0049】
また、遺伝子の変動を同定するのに有用な方法、処理、およびマシンも提供される。遺伝子の変動を同定することは、場合によって、コピー数の変動を検出することを含み、かつ/または、場合によって、コピー数の変動を含むレベルを調整することを含む。一部の実施形態では、レベルを調整することから、偽陽性診断または偽陰性診断の尤度を低減した、1つまたは複数の遺伝子の変動または遺伝子の分散の同定がなされる。一部の実施形態では、本明細書で記載される方法により遺伝子の変動を同定することから、特定の医学的状態の診断、または特定の医学的状態への素因の決定をもたらすことができる。遺伝子の分散を同定する結果として、医学的決定を容易とし、かつ/または有益な医学的手順を援用することができる。
【0050】
本明細書ではまた、一部の実施形態で、本明細書で記載される方法を実行する、システム、マシン、およびモジュールも提供される。
試料
【0051】
本明細書では、核酸を分析するための方法および組成を提供する。一部の実施形態では、核酸断片の混合物中の核酸断片を分析する。核酸の混合物は、異なるヌクレオチド配列、異なる断片長、異なる起源(例えば、ゲノム起源、胎児起源対母体起源、細胞起源もしくは組織起源、試料起源、被験体起源等)、またはそれらの組合せを有する2つまたはそれ超の核酸断片種を含むことができる。
【0052】
しばしば、本明細書に記載する方法および装置において利用する核酸または核酸混合物を、被験体から得られた試料から単離する。被験体は、これらに限定されないが、ヒト、非ヒト動物、植物、細菌、真菌または原生生物を含めた、任意の生きているまたは生きていない生物であり得る。これらに限定されないが、哺乳動物、爬虫類、トリ、両生類、魚、有蹄動物、反芻動物、ウシ科(例えば、ウシ)、ウマ科(例えば、ウマ)、ヤギ(caprine)およびヒツジ(ovine)(例えば、ヒツジ、ヤギ)、ブタ(swine)(例えば、ブタ)、ラクダ科(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(例えば、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラおよびサメを含めて、任意のヒトまたは非ヒト動物を選択することができる。被験体は、雄または雌(例えば、女性、妊婦)であり得る。被験体は、任意の年齢(例えば、胚、胎児、乳児、小児、成人)であり得る。
【0053】
核酸を、任意のタイプの適切な生物学的検体または試料(例えば、試験試料)から単離することができる。試料または試験試料は、被験体またはその一部分(part)(例えば、ヒト被験体、妊娠中の雌、胎児)から単離されるまたは得られる任意の検体であり得る。検体の非限定的な例として、被験体から得られた体液または組織が挙げられ、これらには、非限定的に、血液または血液生成物(例えば、血清、血漿等)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄した液(例えば、気管支肺胞洗浄液、胃洗浄液、腹膜洗浄液、管洗浄液、耳洗浄液、関節鏡検査洗浄液)、生検試料(例えば、着床前胚生検試料から得られた試料)、腹腔穿刺試料(celocentesis sample)、細胞(血液細胞、胎盤細胞、胚もしくは胎児細胞、胎児有核細胞もしくは胎児細胞残余物)またはそれらの一部分(例えば、ミトコンドリア、核、抽出物等)、雌の生殖器系の洗浄物、尿、糞便、痰、唾液、鼻粘液、前立腺液、洗浄液(lavage)、精液、リンパ液、胆汁、涙、汗、乳汁、乳房液等、あるいはそれらの組合せが含まれる。一部の実施形態では、生物学的試料は、被験体から得られた子宮頚部スワブである。一部の実施形態では、生物学的試料は、血液であり得、時には、血漿または血清であり得る。用語「血液」は、本明細書で使用する場合、妊婦または妊娠の可能性について試験されている女性から得られた血液の試料または調製物を指す。この用語は、全血、血液生成物または血液の任意の画分、例として、従来の定義どおりの血清、血漿、バフィーコート等を包含する。血液またはその画分はしばしば、ヌクレオソーム(例えば、母体および/または胎児のヌクレオソーム)を含む。ヌクレオソームは、核酸を含み、時には、無細胞または細胞内ヌクレオソームである。血液はまた、バフィーコートも含む。バフィーコートを時には、フィコール勾配を利用することによって単離する。バフィーコートは、白血球細胞(例えば、白血球、T細胞、B細胞、血小板等)を含むことができる。特定の実施形態では、バフィーコートは、母体核酸および/または胎児核酸を含む。血漿は、抗凝固剤で処理した血液の遠心分離の結果得られた、全血の画分を指す。血清は、血液試料が凝固した後に残存する水性の液体部分を指す。体液試料または組織試料をしばしば、病院またはクリニックが一般に従う標準的なプロトコールに従って収集する。血液の場合、末梢血の適切な量(例えば、3〜40ミリリットル)をしばしば収集し、調製する前または調製した後に標準的な手順に従って保存することができる。核酸を抽出する体液試料または組織試料は、無細胞の場合がある(例えば、無細胞)。一部の実施形態では、体液試料または組織試料は、細胞要素または細胞残余物を含有する場合がある。一部の実施形態では、胎児細胞またはがん細胞を、試料中に含む場合がある。
【0054】
しばしば、試料は不均一であり、これは、1つ超のタイプの核酸種が試料中に存在することを意味する。例えば、不均一核酸として、これらに限定されないが、(i)胎児由来の核酸および母体由来の核酸、(ii)がんの核酸および非がんの核酸、(iii)病原体の核酸および宿主の核酸、より一般的には、(iv)変異した核酸および野生型の核酸を挙げることができる。試料は、不均一であり得、これは、1つ超の細胞型、例として、胎児細胞および母体細胞、がん細胞および非がん細胞、または病原体細胞および宿主細胞が存在するからである。一部の実施形態では、少量の核酸種および多量の核酸種が存在する。
【0055】
本明細書に記載する技術を出生前に適用する場合、体液試料または組織試料を、試験するのに適切な在胎齢において雌から、または妊娠の可能性について試験されている雌から収集することができる。適切な在胎齢は、実施されている出生前試験に応じて様々であり得る。特定の実施形態では、妊娠中の雌の被験体は、時には妊娠第一期にあり、時には妊娠第二期にあり、または時には妊娠第三期にある。特定の実施形態では、体液または組織を、妊娠中の雌から、在胎約1〜約45週(例えば、在胎1〜4、4〜8、8〜12、12〜16、16〜20、20〜24、24〜28、28〜32、32〜36、36〜40または40〜44週)において、時には、在胎約5〜約28週(例えば、在胎6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26または27週)において収集する。特定の実施形態では、体液試料または組織試料を、妊娠中の雌から、出産(例えば、経膣分娩または非経膣分娩(例えば、外科的分娩))の間または直後(例えば、0〜72時間後)に収集する。
血液試料の入手およびDNAの抽出
【0056】
本明細書の方法はしばしば、妊娠中および時には妊娠後に、母体および/もしくは胎児の遺伝子の変動の存在または非存在を検出するため、ならびに/または胎児および/もしくは妊娠中の雌の健康状態をモニターするための非侵襲性手段として、母体の血液中に見出される胎児のDNAを分離すること、富化することおよび分析することを含む。したがって、本明細書の特定の方法を実行する最初のステップはしばしば、妊婦から血液試料を得ること、および試料からDNAを抽出することを含む。
血液試料の入手
【0057】
血液試料を、本技術による方法を使用して、妊婦から試験するのに適切な在胎齢において得ることができる。適切な在胎齢は、下記に論じるように、試験する障害に応じて変化させることができる。女性からの血液の収集はしばしば、病院またはクリニックが一般に従う標準的なプロトコールに従って実施される。末梢血の適切な量、例えば、典型的には5〜50mlをしばしば収集し、さらに調製する前に、標準的な手順に従って保存することができる。血液試料は、試料中に存在する核酸の品質の劣化を最小限に留める様式で、収集し、保存し、または輸送することができる。
血液試料の調製
【0058】
母体の血液中に見出される胎児のDNAの分析を、例えば、全血、血清または血漿を使用して行うことができる。母体の血液から血清または血漿を調製する方法が公知である。例えば、妊婦の血液を、EDTAまたはVacutainer SST(Becton Dickinson、Franklin Lakes、N.J.)等の特殊な市販製品を含有するチューブ中に入れて、血液凝固を阻止することができ、次いで、血漿を、全血から遠心分離により得ることができる。血清は、血液凝固後の遠心分離有りまたは無しで得ることができる。遠心分離を使用する場合には、典型的には、適切なスピード、例えば、1,500〜3,000回転gで実施するが、必ずしもそうではない。血漿または血清を、DNA抽出のための新しいチューブに移す前に、追加の遠心分離のステップに付してもよい。
【0059】
全血の、無細胞の部分に加えて、また、DNAも、細胞画分から回収し、バフィーコート部分中で富化することができ、このバフィーコート部分は、女性から得られた全血試料を遠心分離し、血漿を除去して得ることができる。
DNAの抽出
【0060】
血液を含めた、生物学的試料からDNAを抽出するための多数の公知の方法がある。DNAの調製の一般な方法(例えば、SambrookおよびRussell、Molecular Cloning:A Laboratory Manual 3d ed.2001年による記載)に従うことができ、また、種々の市販されている試薬またはキット、例として、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini Kit、またはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、ドイツ)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)を使用して、妊婦から得られた血液試料からDNAを得ることもできる。また、これらの方法のうちの1つ超の組合せを使用することもできる。
【0061】
一部の実施形態では、最初に、1つまたは複数の方法により、試料を、胎児核酸について富化またはある程度まで富化することもできる。例えば、本技術の組成および処理を、単独で、またはその他の識別因子と組み合わせて使用して、胎児のDNAと母体のDNAとの識別を行うことができる。これらの因子の例として、X染色体とY染色体との間の単一ヌクレオチドの差、Y染色体に特異的な配列、ゲノム中の他の箇所に位置する多型、胎児のDNAと母体のDNAとの間のサイズの差、および母体組織と胎児組織との間のメチル化パターンの差が挙げられるが、これらに限定されない。
【0062】
試料を核酸の特定の種について富化するためのその他の方法が、2007年5月30日出願のPCT特許出願第PCT/US07/69991号、2007年6月15日出願のPCT特許出願第PCT/US2007/071232号、米国仮出願第60/968,876号および同第60/968,878号(本出願人に譲渡)(2005年11月28日出願のPCT特許出願第PCT/EP05/012707号)に記載されており、これらは全て、参照により本明細書に援用されている。特定の実施形態では、母体核酸を、試料から、選択的に(部分的に、実質的に、ほとんど完全に、または完全に)除去する。
【0063】
用語「核酸」および「核酸分子」を、本開示全体を通して交換可能に使用することができる。これらの用語は、DNA(例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)等)、RNA(例えば、メッセンジャー(message)RNA(mRNA)、低分子阻害RNA(siRNA)、リボゾームRNA(rRNA)、tRNA、マイクロRNA、胎児または胎盤が高度に発現するRNA等)、ならびに/またはDNAもしくはRNAのアナログ(例えば、塩基のアナログ、糖のアナログおよび/もしくは外来の骨格等を含有するもの)、RNA/DNAのハイブリッドおよびポリアミド核酸(PNA)等に由来する任意の組成の核酸を指し、これらは全て、一本鎖または二本鎖の形態であり得、別段の限定がない限り、天然に存在するヌクレオチドに類似する様式で機能することができる天然ヌクレオチドの公知のアナログを包含することができる。特定の実施形態では、核酸は、プラスミド、ファージ、自律複製性配列(ARS)、セントロメア、人工染色体、染色体、あるいはin vitroで、または宿主細胞、細胞、細胞核もしくは細胞の細胞質中で、複製し得るまたは複製され得るその他の核酸であってもよく、あるいはそれらに由来してもよい。鋳型核酸は、一部の実施形態では、単一の染色体に由来し得る(例えば、核酸試料は、二倍体生物から得られた試料の1つの染色体に由来し得る)。特段の限定がない限り、この用語は、参照核酸に類似する結合特性を有し、天然に存在するヌクレオチドに類似する様式で代謝される天然ヌクレオチドの公知のアナログを含有する核酸を包含する。別段の記載がない限り、特定の核酸配列は、明確に示す配列のみならず、また、その保存的に改変されたバリアント(例えば、縮重コドン置換)、対立遺伝子、オルソログ、一塩基多型(SNP)および相補配列も暗に包含する。具体的には、1つまたは複数の選択された(または全ての)コドンの第3の位置が、混合性塩基の残基および/またはデオキシイノシン残基で置換されている配列を生成することによって、縮重コドン置換を得ることができる。核酸という用語は、座位、遺伝子、cDNA、および遺伝子がコードするmRNAと交換可能に使用する。この用語はまた、均等物として、ヌクレオチドのアナログから合成されたRNAまたはDNAの誘導体、バリアントおよびアナログ、一本鎖(「センス」鎖または「アンチセンス」鎖、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)、および二本鎖ポリヌクレオチドも含むことができる。用語「遺伝子」は、ポリペプチド鎖の生成に関わるDNAのセグメントを意味し、これは、遺伝子産物の転写/翻訳および転写/翻訳の調節に関わる、コード領域に先行する領域およびコード領域に続く領域(リーダーおよびトレーラー)、ならびに個々のコードセグメント(エクソン)間の介在配列(イントロン)を含む。
【0064】
デオキシリボヌクレオチドは、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンを含む。RNAの場合、塩基シトシンが、ウラシルで置き換えられる。被験体から得られた核酸を鋳型として使用して、鋳型核酸を調製することができる。
核酸の単離および処理
【0065】
核酸を、1つまたは複数の供給源(例えば、細胞、血清、血漿、バフィーコート、リンパ液、皮膚、土壌等)から、当技術分野で公知の方法により得ることができる。任意の適切な方法を使用して、生物学的試料(例えば、血液または血液生成物から)からのDNAを単離する、抽出するおよび/または精製することができ、それらの非限定的な例として、DNAの調製の方法(例えば、SambrookおよびRussell、Molecular Cloning:A Laboratory Manual 3d ed.2001年による記載)、種々の市販されている試薬またはキット、例として、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini Kit、またはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、ドイツ)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)等、またはそれらの組合せが挙げられる。
【0066】
細胞溶解の手順および試薬は、当技術分野で公知であり、一般に、化学的方法(例えば、洗剤、低張溶液、酵素による手順等、もしくはそれらの組合せ)、物理的方法(例えば、フレンチプレス、超音波処理等)、または電解質による溶解方法により行うことができる。任意の適切な溶解手順を利用することができる。例えば、化学的方法は一般に、溶解剤を利用して、細胞を破壊し、細胞から核酸を抽出し、続いて、カオトロピック塩を用いて処理する。物理的方法、例として、凍結/解凍、それに続く、粉砕;細胞プレスの使用等もまた有用である。高い塩濃度による溶解の手順もまた、一般に使用される。例えば、アルカリによる溶解の手順を利用することができる。後者の手順には従来、フェノール−クロロホルム溶液の使用を組み入れており、3つの溶液が関与する、代替のフェノール−クロロホルムを用いない手順も利用することができる。後者の手順の場合、1つの溶液が、15mMトリス、pH8.0;10mM EDTA、および100μg/mlリボヌクレアーゼAを含有することができ;第2の溶液が、0.2N NaOHおよび1%SDSを含有することができ;第3の溶液が、3M KOAc、pH5.5を含有することができる。これらの手順は、Current Protocols in Molecular Biology、John Wiley & Sons、N.Y.、6.3.1〜6.3.6(1989年)に見出すことができ、その全体が本明細書に援用されている。
【0067】
核酸を、別の核酸と比較する場合、異なる時点で単離することができ、試料のそれぞれが、同じ供給源または異なる供給源に由来する。例えば、核酸は、核酸ライブラリー、例として、cDNAライブラリーまたはRNAライブラリーに由来し得る。核酸は、核酸の精製もしくは単離、および/または試料から得られた核酸分子の増幅の結果であり得る。本明細書に記載する処理に提供される核酸は、1つの試料に由来する核酸、あるいは2つまたはそれ超の試料(例えば、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、10個もしくはそれ超、11個もしくはそれ超、12個もしくはそれ超、13個もしくはそれ超、14個もしくはそれ超、15個もしくはそれ超、16個もしくはそれ超、17個もしくはそれ超、18個もしくはそれ超、19個もしくはそれ超、または20個もしくはそれ超の試料)に由来する核酸を含有することができる。
【0068】
特定の実施形態では、核酸は、細胞外核酸を含むことができる。用語「細胞外核酸」は、本明細書で使用する場合、実質的に細胞を有さない供給源から単離された核酸を指すことができ、また、「無細胞」核酸、「循環無細胞核酸」(例えば、CCF断片)および/または「無細胞循環」核酸とも呼ぶ。細胞外核酸は、血液(例えば、妊娠中の雌の血液)中に存在し、そこから得ることができる。細胞外核酸はしばしば、検出可能な細胞を含まず、細胞要素または細胞残余物を含有する場合がある。細胞外核酸のための、無細胞の供給源の非限定的な例が、血液、血漿、血清および尿である。本明細書で使用する場合、用語「無細胞循環試料核酸を得る」は、試料を直接得ること(例えば、試料、例えば、試験試料を収集すること)、または試料を収集した他者から試料を得ることを含む。理論により制限されることなく、細胞外核酸は、細胞アポトーシスおよび細胞分解の産物であり得、これらは、スペクトル(例えば、「ラダー」)にわたる一連の長さをしばしば有する細胞外核酸の基を提供する。
【0069】
特定の実施形態では、細胞外核酸は、異なる核酸種を含むことができ、したがって、本明細書では、「不均一である」と呼ばれる。例えば、がんを有する人から得られた血清または血漿は、がん細胞に由来する核酸および非がん細胞に由来する核酸を含む場合がある。別の例では、妊娠中の雌から得られた血清または血漿は、母体核酸および胎児核酸を含む場合がある。一部の事例では、胎児核酸は時には、核酸全体の約5%〜約50%である(例えば、全ての核酸の約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48または49%が、胎児核酸である)。一部の実施形態では、核酸中の胎児核酸のうちの大半は、約500塩基対またはそれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約500塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸のうちの大半は、約250塩基対またはそれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約250塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸のうちの大半は、約200塩基対またはそれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約200塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸のうちの大半は、約150塩基対またはそれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約150塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸のうちの大半は、約100塩基対またはそれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約100塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸のうちの大半は、約50塩基対またはそれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約50塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸のうちの大半は、約25塩基対またはそれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約25塩基対またはそれ未満の長さである)。
【0070】
特定の実施形態では、核酸を含有する試料(複数可)を処理せずに、核酸を提供して、本明細書に記載する方法を実施することができる。一部の実施形態では、核酸を含有する試料(複数可)を処理してから、核酸を提供して、本明細書に記載する方法を実施する。例えば、核酸を、試料(複数可)から、抽出し、単離し、精製し、部分的に精製し、または増幅することができる。用語「単離(isolated)」は、本明細書で使用する場合、核酸をその元々の環境(例えば、核酸が天然に存在する場合の天然の環境、または外因性に発現させる場合の宿主細胞)から取り出すことを指し、したがって、ヒトの介入により(例えば、「人の手により」)、核酸は、その元々の環境から変化している。用語「単離核酸」は、本明細書で使用する場合、被験体(例えば、ヒト被験体)から取り出された核酸を指すことができる。単離核酸は、供給源の試料中に存在する成分の量よりも少ない非核酸成分(例えば、タンパク質、脂質)を伴って提供され得る。単離核酸を含む組成は、その約50%〜99%超が非核酸成分を含有しない場合がある。単離核酸を含む組成は、その約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超が非核酸成分を含有しない場合がある。用語「精製(purified)」は、本明細書で使用する場合、核酸を精製手順に付す前に存在する非核酸成分(例えば、タンパク質、脂質、炭水化物)の量よりも少ない非核酸成分を含有する核酸を提供することを指すことができる。精製核酸を含む組成は、その約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超がその他の非核酸成分を含有しない場合がある。用語「精製」は、本明細書で使用する場合、核酸が由来する試料供給源中よりも少ない核酸種を含有する核酸を提供することを指すことができる。精製核酸を含む組成は、その約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超がその他の核酸種を含有しない場合がある。例えば、胎児核酸を、母体核酸および胎児核酸を含む混合物から精製することができる。特定の例では、胎児核酸の小さな断片を含むヌクレオソームを、母体核酸のより大きな断片を含むより大きなヌクレオソーム複合体の混合物から精製することができる。
【0071】
一部の実施形態では、本明細書に記載する方法の前、間または後に、核酸を断片化または切断する。断片化または切断した核酸は、約5〜約10,000塩基対、約100〜約1,000塩基対、約100〜約500塩基対、または約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000もしくは9000塩基対の基準の(nominal)、平均(average)または平均値(mean)の長さを有することができる。断片を、当技術分野で公知の適切な方法により生成することができ、核酸断片の平均、平均値または基準の長さを、適切な断片生成手順を選択することによって制御することができる。
【0072】
核酸断片は、オーバーラップするヌクレオチド配列を含有することができ、そのようなオーバーラップする配列は、断片化されていない、対応する核酸のヌクレオチド配列、またはそのセグメントの構築を促進することができる。例えば、1つの断片が、サブ配列xおよびyを有する場合があり、別の断片が、サブ配列yおよびzを有する場合があり、x、yおよびzは、5ヌクレオチド長またはそれ超であり得るヌクレオチド配列である。特定の実施形態では、オーバーラップ配列yを利用して、試料に由来する核酸中のx−y−zのヌクレオチド配列の構築を促進することができる。特定の実施形態では、核酸は、部分的に(例えば、不完全なもしくは終結した特定の切断反応から)断片化させてもよく、または完全に断片化させてもよい。
【0073】
一部の実施形態では、核酸を、適切な方法により断片化または切断し、それらの非限定的な例として、物理的方法(例えば、せん断、例えば、超音波処理、フレンチプレス、加熱、UV照射等)、酵素処理(例えば、酵素切断剤(例えば、適切なヌクレアーゼ、適切な制限酵素、適切なメチル化感受性制限酵素))、化学的方法(例えば、アルキル化、DMS、ピペリジン、酸加水分解、塩基加水分解、加熱等、もしくはそれらの組合せ)、米国特許出願公開第20050112590号に記載されている処理等、またはそれらの組合せが挙げられる。
【0074】
本明細書で使用する場合、「断片化」または「切断」は、核酸分子、例として、核酸鋳型遺伝子分子またはその増幅産物を、2つまたはそれ超のより小さな核酸分子に分断することができる手順または条件を指す。そのような断片化または切断は、配列特異的、塩基特異的、または非特異的であり得、例えば、化学的、酵素的、物理的断片化を含めた、多様な方法、試薬または条件のうちのいずれかにより達成することができる。
【0075】
本明細書で使用する場合、「断片」、「切断産物」、「切断された産物」、またはそれらの文法上の変型は、核酸鋳型遺伝子分子の断片化もしくは切断の結果として得られた核酸分子、またはそれらの増幅産物を指す。そのような断片または切断された産物は、切断反応の結果として得られた全ての核酸分子を指す場合があるが、典型的には、そのような断片または切断された産物は、核酸鋳型遺伝子分子のうちの対応するヌクレオチド配列を含有する、核酸鋳型遺伝子分子の断片化もしくは切断の結果として得られた核酸分子またはそれらの増幅産物セグメントのみを指す。用語「増幅(amplified)」は、本明細書で使用する場合、試料中の標的核酸を、標的核酸またはそのセグメントと同じまたは実質的に同じヌクレオチド配列を有するアンプリコン核酸を線形にまたは指数関数的に生成する処理に付すことを指す。特定の実施形態では、用語「増幅」は、ポリメラーゼ連鎖反応(PCR)を含む方法を指す。例えば、増幅産物は、核酸鋳型配列の増幅されるヌクレオチド領域よりもヌクレオチドを1つまたは複数多く含有することができる(例えば、プライマーは、核酸鋳型遺伝子分子に相補的なヌクレオチドに加えて、「余分な」ヌクレオチド、例として、転写開始配列を含有することができ、その結果、「余分な」ヌクレオチド、または核酸鋳型遺伝子分子のうちの増幅されるヌクレオチド領域に対応しないヌクレオチドを含有する増幅産物が生じる)。したがって、断片は、表示される核酸鋳型分子から得られたまたはそれに基づくヌクレオチド配列情報を、少なくとも一部において含有する、増幅された核酸分子のセグメントまたは一部分から生じる断片を含むことができる。
【0076】
本明細書で使用する場合、用語「補完的切断反応」は、異なる切断試薬を使用して、または同じ切断試薬の切断特異性を変化させることによって、同じ核酸に対して行われる切断反応を指し、したがって、同じ標的または参照の核酸またはタンパク質の代替の切断パターンを生成させる。特定の実施形態では、核酸を、1つまたは複数の反応槽中で、1つまたは複数の特異的切断剤(例えば、1、2、3、4、5、6、7、8、9、10個またはそれ超の特異的切断剤)を用いて処理することができる(例えば、核酸を、別個の槽中でそれぞれの特異的切断剤を用いて処理する)。用語「特異的切断剤」は、本明細書で使用する場合、核酸を1つまたは複数の特異的な部位において切断することができる作用剤、時には、化学物質または酵素を指す。
【0077】
また、本明細書に記載する方法に核酸を提供する前に、核酸中の特定のヌクレオチドを改変する処理に、核酸を曝露させることができる。例えば、核酸を、その中のヌクレオチドのメチル化状況に基づいて選択的に改変する処理を、核酸に適用することができる。加えて、高温、紫外線照射、X線照射等の条件が、核酸分子の配列中に変化を引き起こすことができる。核酸を、適切な配列分析を行うのに有用な任意の適切な形態で提供することができる。
【0078】
核酸は、一本鎖であっても、または二本鎖であってもよい。例えば、二本鎖DNAを、例えば、加熱またはアルカリを用いる処理により変性させることによって、一本鎖DNAを生成することができる。特定の実施形態では、核酸は、二重鎖DNA分子の鎖へオリゴヌクレオチドを侵入させることによって形成されるD−ループ構造で存在するか、またはDNA様分子、例として、ペプチド核酸(PNA)で存在する。Dループの形成は、E.Coli RecAタンパク質を添加すること、および/または塩濃度を、例えば、当技術分野で公知の方法を使用して変化させることによって促進することができる。
【0079】
ゲノム標的
一部の実施形態では、本明細書ではまた、標的断片とも称する、標的核酸は、特定のゲノム領域または複数のゲノム領域(例えば、単一の染色体、染色体のセット、および/またはある特定の染色体領域)に由来するポリヌクレオチド断片を含む。一部の実施形態では、このようなゲノム領域は、胎児の遺伝子異常(例えば、異数性)のほか、変異(例えば、点変異)、挿入、付加、欠失、転座、トリヌクレオチドリピート障害、および/または一塩基多型(SNP)を含むがこれらに限定されない、他の遺伝子の変動と関連しうる。一部の実施形態では、本明細書ではまた、参照断片とも称する、参照核酸は、特定のゲノム領域または複数のゲノム領域に由来するポリヌクレオチド断片であって、胎児の遺伝子異常と関連しないポリヌクレオチド断片を含む。一部の実施形態では、標的核酸および/または参照核酸(すなわち、標的断片および/または参照断片)は、目的の染色体または参照染色体に実質的にユニークな(例えば、同一なヌクレオチド配列または実質的に同様なヌクレオチド配列が、ゲノム中の別の場所に見出されない)ヌクレオチド配列を含む。
【0080】
一部の実施形態では、複数のゲノム領域に由来する断片をアッセイする。一部の実施形態では、複数のゲノム領域に由来する、標的断片および参照断片をアッセイする。一部の実施形態では、複数のゲノム領域に由来する断片をアッセイして、例えば、目的の染色体の存在、非存在、量(例えば、相対量)または比を決定する。一部の実施形態では、目的の染色体は、異数体であることが疑われる染色体であり、本明細書では、「試験染色体」と称する場合がある。一部の実施形態では、複数のゲノム領域に由来する断片を、正倍数体と推定される染色体についてアッセイする。本明細書では、このような染色体を、「参照染色体」と称する場合がある。一部の実施形態では、複数の試験染色体についてアッセイする。一部の実施形態では、試験染色体を、第13染色体(Chr13:chromosome 13)、第18染色体(Chr18)、および第21染色体(Chr21)の中から選択する。一部の実施形態では、参照染色体を、第1、第2、第3、第4、第5、第6、第7、第8、第9、第10、第11、第12、第13、第14、第15、第16、第17、第18、第19、第20、第21、第22、XおよびY染色体の中から選択し、場合によって、参照染色体を、常染色体(すなわち、X染色体およびY染色体以外の染色体)から選択する。一部の実施形態では、第20染色体(Chr20)を、参照染色体として選択する。一部の実施形態では、第14染色体を、参照染色体として選択する。一部の実施形態では、第9染色体を、参照染色体として選択する。一部の実施形態では、試験染色体および参照染色体は、同じ個体に由来する。一部の実施形態では、試験染色体および参照染色体は、異なる個体に由来する。
【0081】
一部の実施形態では、少なくとも1つのゲノム領域に由来する断片を、試験染色体および/または参照染色体についてアッセイする。一部の実施形態では、少なくとも10のゲノム領域(例えば、約20、30、40、50、60、70、80、または90のゲノム領域)に由来する断片を、試験染色体および/または参照染色体についてアッセイする。一部の実施形態では、少なくとも100のゲノム領域(例えば、約200、300、400、500、600、700、800、または900のゲノム領域)に由来する断片を、試験染色体および/または参照染色体についてアッセイする。一部の実施形態では、少なくとも1,000のゲノム領域(例えば、約2000、3000、4000、5000、6000、7000、8000、または9000のゲノム領域)に由来する断片を、試験染色体および/または参照染色体についてアッセイする。一部の実施形態では、少なくとも10,000のゲノム領域(例えば、約20,000、30,000、40,000、50,000、60,000、70,000、80,000、または90,000のゲノム領域)に由来する断片を、試験染色体および/または参照染色体についてアッセイする。一部の実施形態では、少なくとも100,000のゲノム領域(例えば、約200,000、300,000、400,000、500,000、600,000、700,000、800,000、または900,000のゲノム領域)に由来する断片を、試験染色体および/または参照染色体についてアッセイする。
核酸の亜集団の富化および分離
【0082】
一部の実施形態では、核酸(例えば、細胞外核酸)を、富化し、または相対的に富化して、核酸の亜集団または種を得る。核酸の亜集団は、例えば、胎児核酸、母体核酸、特定の長さもしくは特定の範囲の長さの断片を含む核酸、または特定のゲノム領域(例えば、単一の染色体、一連の染色体および/もしくは特定の染色体領域)に由来する核酸を含むことができる。そのような富化試料は、本明細書に提供する方法と併せて使用することができる。したがって、特定の実施形態では、本技術の方法は、試料中の核酸の亜集団、例えば、胎児核酸等について富化する追加のステップを含む。特定の実施形態では、富化して、胎児核酸を得るために、本明細書において記載された、胎児フラクションを決定するための方法もまた使用することができる。特定の実施形態では、母体核酸を、試料から、選択的に(部分的に、実質的に、ほとんど完全に、または完全に)除去する。特定の実施形態では、富化して、特定の低いコピー数の種の核酸(例えば、胎児核酸)を得ることによって、定量的感度を改善することができる。試料を核酸の特定の種について富化するための方法が、例えば、米国特許第6,927,028号、国際特許出願公開第WO2007/140417号、国際特許出願公開第WO2007/147063号、国際特許出願公開第WO2009/032779号、国際特許出願公開第WO2009/032781号、国際特許出願公開第WO2010/033639号、国際特許出願公開第WO2011/034631号、国際特許出願公開第WO2006/056480号および国際特許出願公開第WO2011/143659号に記載されており、これらは全て、参照により本明細書に援用されている。
【0083】
一部の実施形態では、核酸を富化して、特定の標的断片種および/または参照断片種を得る。特定の実施形態では、下記に記載する1つまたは複数の、長さに基づく分離の方法を使用して、核酸を富化して、特定の核酸の断片長または特定の範囲の断片長を得る。特定の実施形態では、本明細書に記載するおよび/または当技術分野で公知である1つまたは複数の、配列に基づく分離方法を使用して、核酸を富化して、選択ゲノム領域(例えば、染色体)に由来する断片を得る。下記に、試料中の核酸の亜集団(例えば、胎児核酸)について富化するための特定の方法を詳細に記載する。
【0084】
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎児核酸)について富化するためのいくつかの方法は、母体核酸と胎児核酸との間のエピジェネティックな差を活用する方法を含む。例えば、メチル化の差に基づいて、胎児核酸を、母体核酸と差別化し、それから分離することができる。メチル化に基づく胎児核酸の富化方法が、参照により本明細書に援用されている米国特許出願公開第2010/0105049号に記載されている。そのような方法は時には、試料核酸を、メチル化特異的結合剤(メチル−CpG結合タンパク質(MBD)、メチル化特異的抗体等)に結合させるステップと、差次的メチル化状況に基づいて、未結合の核酸から、結合した核酸を分離するステップとを含む。そのような方法はまた、メチル化感受性制限酵素(上記に記載のとおり;例えば、HhaIおよびHpaII)の使用を含むこともでき、この方法により、母体核酸を選択的かつ完全または実質的に消化して、試料を少なくとも1つの胎児核酸の領域について富化する酵素を用いて、母体試料に由来する核酸を選択的に消化することによって、母体試料中の胎児核酸の領域の富化が可能になる。
【0085】
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎児核酸)について富化するための別の方法が、参照により本明細書に援用されている米国特許出願公開第2009/0317818号に記載の方法等の制限エンドヌクレアーゼにより多型配列を増強するアプローチである。そのような方法は、非標的対立遺伝子を含む核酸を、非標的対立遺伝子を含むが、標的対立遺伝子は含まない核酸を認識する制限エンドヌクレアーゼを用いて切断するステップと、切断された核酸は増幅せずに、未切断の核酸を増幅するステップとを含み、ここで、未切断の、増幅された核酸は、非標的核酸(例えば、母体核酸)と比べて富化された標的核酸(例えば、胎児核酸)を表す。特定の実施形態では、例えば、切断剤による選択的消化を受けやすい多型の部位を有する対立遺伝子を含むように、核酸を選択することができる。
【0086】
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎児核酸)について富化するためのいくつかの方法は、選択的酵素分解のアプローチを含む。そのような方法は、エキソヌクレアーゼ消化から標的配列を保護し、それにより、試料中の望まれない配列(例えば、母体のDNA)の排除を促進するステップを含む。例えば、1つのアプローチでは、試料核酸を変性させて、一本鎖核酸を生成し、一本鎖核酸を、適切なアニーリング条件下で、少なくとも1つの、標的特異的プライマーの対と接触させ、アニールさせたプライマーを、ヌクレオチドの重合により伸長して、二本鎖標的配列を生成し、一本鎖(すなわち、非標的)の核酸を消化するヌクレアーゼを使用して、一本鎖核酸を消化する。特定の実施形態では、少なくとも1回の追加のサイクルにおいて、この方法を繰り返すことができる。特定の実施形態では、同じ、標的特異的プライマーの対を使用して、第1サイクルおよび第2サイクルのそれぞれにおいてプライマーの伸長を行い、特定の実施形態では、第1サイクルおよび第2サイクルのために、異なる、標的特異的プライマーの対を使用する。
【0087】
一部の実施形態では、本明細書で記載される、1つまたは複数の配列ベースの分離法を使用して、核酸を、選択ゲノム領域(例えば、染色体)に由来する断片について富化する。一部の実施形態では、長さベースの分離法と、配列ベースの分離法との組合せを使用して、核酸を、特異的なポリヌクレオチド断片の長さまたは断片の長さの範囲と、選択ゲノム領域(例えば、染色体)に由来する断片とについて富化する。このような長さベースの分離法および配列ベースの分離法については、下記でさらに詳細に記載する。
【0088】
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎児核酸)について富化するためのいくつかの方法は、大規模並行シグネチャー配列決定(MPSS)のアプローチを含む。MPSSは典型的には、アダプター(すなわち、タグ)のライゲーションを使用し、続いて、アダプターのデコーディングを行い、核酸配列をこきざみに読み取る固相法である。典型的には、タグを付けたPCR産物が増幅され、結果として、それぞれの核酸から、ユニークなタグを有するPCR産物が生成する。しばしば、PCR産物をマイクロビーズにつなぐために、タグを使用する。ライゲーションに基づく配列決定を数ラウンド行った後に、例えば、配列のシグネチャーを、それぞれのビーズから同定することができる。MPSSデータセット中のそれぞれのシグネチャー配列(MPSSタグ)を、分析し、全てのその他のシグネチャーと比較し、全ての同一のシグネチャーを計数する。
【0089】
特定の実施形態では、特定の富化方法(例えば、特定の、MPSおよび/またはMPSSに基づく富化方法)は、増幅(例えば、PCR)に基づくアプローチを含むことができる。特定の実施形態では、座位に特異的な増幅方法を使用することができる(例えば、座位に特異的な増幅プライマーを使用する)。特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを使用することができる。特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、ユニプレックス配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、マルチプレックスPCR(例えば、MASSARRAYシステム)の使用、および捕捉プローブ配列のアンプリコン中への組み入れ、続いて、例えば、Illumina MPSSシステムを使用する配列決定を含むことができる。特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、3つのプライマーからなるシステムおよびインデックス化配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、例えば、Illumina MPSSシステムを使用する配列決定のために、特定の座位に特異的なフォワードPCRプライマー中に組み入れた第1の捕捉プローブ、および座位に特異的なリバースPCRプライマー中に組み入れたアダプター配列を有するプライマーを用いる、マルチプレックスPCR(例えば、MASSARRAYシステム)を使用し、それにより、アンプリコンを生成し、続いて、リバース捕捉配列および分子インデックスバーコードを組み入れるための第2のPCRを行うことを含むことができる。特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、4つのプライマーからなるシステムおよびインデックス化配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、例えば、Illumina MPSSシステムを使用する配列決定のために、座位に特異的なフォワードPCRプライマーおよび座位に特異的なリバースPCRプライマーの両方中に組み入れたアダプター配列を有するプライマーを用いる、マルチプレックスPCR(例えば、MASSARRAYシステム)を使用し、続いて、フォワード捕捉配列およびリバース捕捉配列の両方ならびに分子インデックスバーコードを組み入れるための第2のPCRを行うことを含むことができる。特定の実施形態では、マイクロ流体技術のアプローチを使用することができる。特定の実施形態では、アレイに基づくマイクロ流体技術のアプローチを使用することができる。例えば、そのようなアプローチは、マイクロ流体技術によるアレイ(例えば、Fluidigm)を使用して、低いプレックスでの増幅ならびにインデックスおよび捕捉プローブの組み入れを行い、続いて、配列決定を行うことを含むことができる。特定の実施形態では、例えば、デジタル小滴PCR等のエマルジョンマイクロ流体技術のアプローチを使用することができる。
【0090】
特定の実施形態では、(例えば、ユニバーサルプライマーまたは座位に特異的でない増幅プライマーを使用して)ユニバーサル増幅法を使用することができる。特定の実施形態では、ユニバーサル増幅法を、プルダウンのアプローチと組み合わせて使用することができる。特定の実施形態では、方法は、ユニバーサルに増幅された配列決定ライブラリーからのビオチン化ウルトラマーによるプルダウン(例えば、AgilentまたはIDT製のビオチン化プルダウンアッセイ)を含むことができる。例えば、そのようなアプローチは、標準ライブラリーの調製、プルダウンアッセイによる選択された領域についての富化、および第2のユニバーサル増幅のステップを含むことができる。特定の実施形態では、プルダウンのアプローチは、ライゲーションに基づく方法と組み合わせて使用することができる。特定の実施形態では、方法は、配列特異的アダプターのライゲーションを用いるビオチン化ウルトラマーによるプルダウン(例えば、HALOPLEX PCR、Halo Genomics)を含むことができる。例えば、そのようなアプローチは、制限酵素消化断片を捕捉するためのセレクタープローブの使用、続いて、捕捉された産物のアダプターへのライゲーション、およびユニバーサル増幅、続いて、配列決定を含むことができる。特定の実施形態では、プルダウンのアプローチを、伸長およびライゲーションに基づく方法と組み合わせて使用することができる。特定の実施形態では、方法は、分子反転プローブ(MIP)による伸長およびライゲーションを含むことができる。例えば、そのようなアプローチは、配列アダプターと組み合わせた分子反転プローブの使用、続いて、ユニバーサル増幅および配列決定を含むことができる。特定の実施形態では、相補的DNAを、合成し、増幅せずに配列決定することができる。
【0091】
特定の実施形態では、伸長およびライゲーションのアプローチを、プルダウンのコンポーネントなしで行うことができる。特定の実施形態では、方法は、座位に特異的なフォワードプライマーおよびリバースプライマーによるハイブリダイゼーション、伸長、ならびにライゲーションを含むことができる。そのような方法は、ユニバーサル増幅、または増幅なしの相補的DNA合成、続いて、配列決定をさらに含むことができる。特定の実施形態では、そのような方法は、分析の間のバックグラウンドの配列を低下させるまたは排除することができる。
【0092】
特定の実施形態では、プルダウンのアプローチを、任意選択の増幅コンポーネントを伴わせて、または増幅コンポーネントなしで使用することができる。特定の実施形態では、方法は、改変されたプルダウンアッセイおよびライゲーションを含むことができ、捕捉プローブを十分に組み入れ、ユニバーサル増幅は行わない。例えば、そのようなアプローチは、制限酵素消化断片を捕捉するための、改変されたセレクタープローブの使用、続いて、捕捉された産物のアダプターへのライゲーション、任意選択の増幅、および配列決定を含むことができる。特定の実施形態では、方法は、環状一本鎖ライゲーションと組み合わせた、アダプター配列の伸長およびライゲーションを伴う、ビオチン化プルダウンアッセイを含むことができる。例えば、そのようなアプローチは、目的の捕捉領域(すなわち、標的配列)に対するセレクタープローブの使用、プローブの伸長、アダプターのライゲーション、一本鎖環状ライゲーション、任意選択の増幅、および配列決定を含むことができる。特定の実施形態では、配列決定の結果の分析により、バックグラウンドから標的配列を分離することができる。
【0093】
一部の実施形態では、本明細書に記載する1つまたは複数の、配列に基づく分離方法を使用して、核酸を富化して、選択ゲノム領域(例えば、染色体)に由来する断片を得る。配列に基づく分離は一般に、ヌクレオチド配列が、目的の断片(例えば、標的断片および/または参照断片)中には存在し、試料のその他の断片中に実質的に存在しない、またはその他の断片はごくわずかな量でしか存在しない(例えば、5%もしくはそれ未満)ことに基づく。一部の実施形態では、配列に基づく分離は、標的断片の分離および/または参照断片の分離をもたらすことができる。分離された標的断片および/または分離された参照断片をしばしば、核酸試料中の残存する断片から単離し、取り出す。特定の実施形態では、また、分離された標的断片と分離された参照断片とを、相互に単離し、取り出す(例えば、分離アッセイのコンパートメントとして単離する)。特定の実施形態では、分離された標的断片と分離された参照断片とを、一緒に単離する(例えば、同じアッセイコンパートメントとして単離する)。一部の実施形態では、未結合断片を、分別的に除去または分解または消化することができる。
【0094】
一部の実施形態では、選択的に核酸を捕捉する処理を使用して、核酸試料から、標的断片および/または参照断片を分離し、取り出す。市販されている、核酸を捕捉するシステムとして、例えば、Nimblegen配列捕捉システム(Roche NimbleGen、Madison、WI);Illumina BEADARRAYプラットフォーム(Illumina、San Diego、CA);Affymetrix GENECHIPプラットフォーム(Affymetrix、Santa Clara、CA);Agilent SureSelect Target Enrichment System(Agilent Technologies、Santa Clara、CA);および関連のプラットフォームが挙げられる。そのような方法は典型的には、標的断片または参照断片のヌクレオチド配列のセグメントまたは全てに対する捕捉オリゴヌクレオチドのハイブリダイゼーションを含み、固相(例えば、固相アレイ)および/または溶液に基づくプラットフォームの使用を含むことができる。選択されたゲノム領域または座位(例えば、第21、18、13、XもしくはY染色体のうちの1つ、または参照の染色体)に由来する核酸断片に優先的にハイブリダイズするように、捕捉オリゴヌクレオチド(時には、「おとり」と呼ぶ)を、選択するまたは設計することができる。特定の実施形態では、(例えば、オリゴヌクレオチドアレイを使用する)ハイブリダイゼーションに基づく方法を使用し、富化して、特定の染色体(例えば、潜在的に異数体の染色体、参照の染色体、もしくは目的のその他の染色体)、またはそれらの目的のセグメントに由来する核酸配列を得ることができる。
【0095】
捕捉オリゴヌクレオチドは、目的の核酸断片(例えば、標的断片、参照断片)またはその部分とハイブリダイズまたはアニールすることが可能なヌクレオチド配列を含むことが典型的である。捕捉オリゴヌクレオチドは、天然に存在するオリゴヌクレオチドの場合もあり、合成のオリゴヌクレオチドの場合もあり、DNAベースの場合もあり、RNAベースの場合もある。捕捉オリゴヌクレオチドは、例えば、標的断片および/または参照断片の、核酸試料中の他の断片からの特異的な分離を可能としうる。本明細書で使用される「特異的」または「特異性」という用語は、標的ポリヌクレオチドに対するオリゴヌクレオチドなど、1つの分子の別の分子への結合またはハイブリダイゼーションを指す。「特異的」または「特異性」とは、2つの分子の間の、これらの2つの分子の一方の、他の分子との、実質的に弱い認識、弱い接触、または弱い複合体の形成と比較した、認識、接触、および安定的な複合体の形成を指す。本明細書で使用される「アニールする」という用語は、2つの分子の間の、安定的な複合体の形成を指す。「捕捉オリゴヌクレオチド」、「捕捉オリゴ」、「オリゴ」、または「オリゴヌクレオチド」という用語は、捕捉オリゴヌクレオチドを指す場合、本明細書を通して互換的に使用されうる。オリゴヌクレオチドについての以下の特徴は、本明細書で提供されるプローブなど、プライマーおよび他のオリゴヌクレオチドへと適用することができる。
【0096】
捕捉オリゴヌクレオチドは、適切な処理を使用して、デザインおよび合成することができ、目的のヌクレオチド配列とハイブリダイズさせ、本明細書で記載される分離処理および/または分析処理を行うのに適する任意の長さでありうる。オリゴヌクレオチドは、目的のヌクレオチド配列(例えば、標的断片配列、参照断片配列)に基づきデザインすることができる。一部の実施形態では、オリゴヌクレオチドは、約10〜約300ヌクレオチド、約10〜約100ヌクレオチド、約10〜約70ヌクレオチド、約10〜約50ヌクレオチド、約15〜約30ヌクレオチド、または約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、もしくは100ヌクレオチドの長さでありうる。オリゴヌクレオチドは、天然に存在するヌクレオチドおよび/もしくは天然に存在しないヌクレオチド(例えば、標識されたヌクレオチド)、またはこれらの混合物からなりうる。本明細書で記載される実施形態での使用に適するオリゴヌクレオチドは、公知の技法を使用して合成および標識することができる。オリゴヌクレオチドは、BeaucageおよびCaruthers(1981年)、Tetrahedron Letts.、22巻:1859〜1862頁により最初に記載された、固相ホスホルアミダイトトリエステル法に従って、自動式合成器を使用することにより化学合成することもでき、かつ/またはNeedham-VanDevanterら(1984年)、Nucleic Acids Res.、12巻:6159〜6168頁において記載されている通りに化学合成することもできる。オリゴヌクレオチドの精製は、例えば、PearsonおよびRegnier(1983年)、J. Chrom.、255巻:137〜149頁において記載されている通り、ネイティブアクリルアミドゲル電気泳動またはアニオン交換高速液体クロマトグラフィー(HPLC)により実行することができる。
【0097】
一部の実施形態では、オリゴヌクレオチド配列(天然に存在するまたは合成の)の全部または部分は、標的断片配列および/もしくは参照断片配列、またはこれらの部分と実質的に相補的でありうる。本明細書で配列に関して言及される場合の「実質的に相補的」とは、互いとハイブリダイズするヌクレオチド配列を指す。ハイブリダイゼーション条件の厳密性は、種々の量の配列ミスマッチを許容するように変化させることができる。55%もしくはそれ超、56%もしくはそれ超、57%もしくはそれ超、58%もしくはそれ超、59%もしくはそれ超、60%もしくはそれ超、61%もしくはそれ超、62%もしくはそれ超、63%もしくはそれ超、64%もしくはそれ超、65%もしくはそれ超、66%もしくはそれ超、67%もしくはそれ超、68%もしくはそれ超、69%もしくはそれ超、70%もしくはそれ超、71%もしくはそれ超、72%もしくはそれ超、73%もしくはそれ超、74%もしくはそれ超、75%もしくはそれ超、76%もしくはそれ超、77%もしくはそれ超、78%もしくはそれ超、79%もしくはそれ超、80%もしくはそれ超、81%もしくはそれ超、82%もしくはそれ超、83%もしくはそれ超、84%もしくはそれ超、85%もしくはそれ超、86%もしくはそれ超、87%もしくはそれ超、88%もしくはそれ超、89%もしくはそれ超、90%もしくはそれ超、91%もしくはそれ超、92%もしくはそれ超、93%もしくはそれ超、94%もしくはそれ超、95%もしくはそれ超、96%もしくはそれ超、97%もしくはそれ超、98%もしくはそれ超、または99%もしくはそれ超が互いと相補的な標的配列/参照配列およびオリゴヌクレオチド配列が含まれる。
【0098】
目的の核酸配列(例えば、標的断片配列、参照断片配列)またはその部分と実質的に相補的なオリゴヌクレオチドはまた、標的核酸配列またはその関与性の部分の相補体とも実質的に同様(例えば、核酸のアンチセンス鎖と実質的に同様)である。2つのヌクレオチド配列が実質的に同様であるのかどうかを決定するための1つの試験は、共有された同一なヌクレオチド配列のパーセントを決定することである。配列に関して本明細書で言及される場合の「実質的に同様」とは、55%もしくはそれ超、56%もしくはそれ超、57%もしくはそれ超、58%もしくはそれ超、59%もしくはそれ超、60%もしくはそれ超、61%もしくはそれ超、62%もしくはそれ超、63%もしくはそれ超、64%もしくはそれ超、65%もしくはそれ超、66%もしくはそれ超、67%もしくはそれ超、68%もしくはそれ超、69%もしくはそれ超、70%もしくはそれ超、71%もしくはそれ超、72%もしくはそれ超、73%もしくはそれ超、74%もしくはそれ超、75%もしくはそれ超、76%もしくはそれ超、77%もしくはそれ超、78%もしくはそれ超、79%もしくはそれ超、80%もしくはそれ超、81%もしくはそれ超、82%もしくはそれ超、83%もしくはそれ超、84%もしくはそれ超、85%もしくはそれ超、86%もしくはそれ超、87%もしくはそれ超、88%もしくはそれ超、89%もしくはそれ超、90%もしくはそれ超、91%もしくはそれ超、92%もしくはそれ超、93%もしくはそれ超、94%もしくはそれ超、95%もしくはそれ超、96%もしくはそれ超、97%もしくはそれ超、98%もしくはそれ超、または99%もしくはそれ超が互いと同一なヌクレオチド配列を指す。
【0099】
アニーリング条件(例えば、ハイブリダイゼーション条件)は、アッセイで使用されるオリゴヌクレオチドの特徴に応じて決定および/または調整することができる。オリゴヌクレオチドの配列および/または長さは、場合によって、目的の核酸配列とのハイブリダイゼーションに影響を及ぼしうる。オリゴヌクレオチドと目的の核酸とのミスマッチの程度に応じて、低度、中程度、または高度な厳密性条件を使用して、アニーリングを実行することができる。本明細書で使用される「厳密な条件」という用語は、ハイブリダイゼーションおよび洗浄のための条件を指す。当技術分野では、ハイブリダイゼーション反応の温度条件を最適化するための方法が公知であり、Current Protocols in Molecular Biology、JohnWiley & Sons、N.Y.、6.3.1〜6.3.6(1989年)において見出すことができる。この参考文献では、水性法および非水性法について記載されており、いずれも使用することができる。厳密なハイブリダイゼーション条件の非限定的な例は、約45℃で6Xの塩化ナトリウム/クエン酸ナトリウム(SSC)中のハイブリダイゼーションに続く、50℃で0.2XのSSC、0.1%のSDS中の、1回または複数回の洗浄である。厳密なハイブリダイゼーション条件の別の例は、約45℃で6Xの塩化ナトリウム/クエン酸ナトリウム(SSC)中のハイブリダイゼーションに続く、55℃で0.2XのSSC、0.1%のSDS中の、1回または複数回の洗浄である。厳密なハイブリダイゼーション条件のさらなる例は、約45℃で6Xの塩化ナトリウム/クエン酸ナトリウム(SSC)中のハイブリダイゼーションに続く、60℃で0.2XのSSC、0.1%のSDS中の、1回または複数回の洗浄である。厳密なハイブリダイゼーション条件は、約45℃で6Xの塩化ナトリウム/クエン酸ナトリウム(SSC)中のハイブリダイゼーションに続く、65℃で0.2XのSSC、0.1%のSDS中の、1回または複数回の洗浄であることが多い。厳密性条件は、65℃で0.5Mのリン酸ナトリウム、7%のSDSに続く、65℃で0.2XのSSC、1%のSDS中の1回または複数回の洗浄であることがさらに多い。厳密なハイブリダイゼーション温度はまた、ある特定の有機溶媒、例えば、ホルムアミドを添加することにより変化させる(すなわち、低下させる)こともできる。厳密な条件をやはり維持し、熱に不安定性でありうる核酸の有用な寿命を延長しながら、ハイブリダイゼーションを低温で行いうるように、ホルムアミドなどの有機溶媒により、二本鎖ポリヌクレオチドの熱安定性を低減する。
【0100】
本明細書で使用される、「ハイブリダイズすること」という語句またはその文法的変化形は、第1の核酸分子が、第2の核酸分子と、低度、中程度、もしくは高度な厳密性条件下で、または核酸合成条件下でアニールすることを指す。ハイブリダイズすることは、第1の核酸分子が、第2の核酸分子とアニールする場合、第1の核酸分子と第2の核酸分子とが相補的である場合を含みうる。本明細書で使用される「特異的にハイブリダイズする」とは、オリゴヌクレオチドの、核酸合成条件下における、オリゴヌクレオチドと相補的な配列を有する核酸分子との、相補的な配列を有さない核酸分子とのハイブリダイゼーションと比較して優先的なハイブリダイゼーションを指す。例えば、特異的なハイブリダイゼーションは、捕捉オリゴヌクレオチドの、該オリゴヌクレオチドと相補的な標的断片配列とのハイブリダイゼーションを含む。
【0101】
一部の実施形態では、1つまたは複数の捕捉オリゴヌクレオチドは、結合対のメンバー(例えば、ビオチン)または抗原などのアフィニティーリガンドであって、アビジン、ストレプトアビジン、抗体、または受容体などの捕捉剤に結合しうるアフィニティーリガンドと関連する。例えば、捕捉オリゴヌクレオチドは、ストレプトアビジンでコーティングされたビーズへと捕捉しうるように、ビオチニル化することができる。
【0102】
一部の実施形態では、1つまたは複数の捕捉オリゴヌクレオチドおよび/または捕捉剤を、固体支持体または固体基材へと効果的に連結する。固体支持体または固体基材は、捕捉オリゴヌクレオチドを直接的または間接的に接合させうる、任意の物理的に分離可能な固体であって、マイクロアレイおよびウェル、ならびに、ビーズ(例えば、常磁性ビーズ、磁性ビーズ、マイクロビーズ、ナノビーズ)、マイクロ粒子、およびナノ粒子などの粒子により提供される表面を含むがこれらに限定されない固体でありうる。固体支持体はまた、例えば、チップ、カラム、光ファイバー、ワイプ、フィルター(例えば、平面フィルター)、1つまたは複数のキャピラリー、ガラスおよび修飾ガラスまたは機能化ガラス(例えば、CPG(controlled−pore glass))、水晶、雲母、ジアゾ化膜(紙またはナイロン)、ポリホルムアルデヒド、セルロース、酢酸セルロース、紙、セラミックス、金属、半金属、半導体材料、量子ドット、コーティングビーズまたはコーティング粒子、他のクロマトグラフィー材料、磁性粒子;プラスチック(アクリル、ポリスチレン、スチレンまたは他の材料のコポリマー、ポリブチレン、ポリウレタン、TEFLON(登録商標)、ポリエチレン、ポリプロピレン、ポリアミド、ポリエステル、ポリビニリデンジフルオリド(PVDF)などを含む)、多糖、ナイロンまたはニトロセルロース、樹脂、シリカまたはケイ素、シリカゲル、および修飾ケイ素を含むシリカベースの材料、Sephadex(登録商標)、Sepharose(登録商標)、炭素、金属(例えば、鉄鋼、金、銀、アルミニウム、ケイ素、および銅)、無機ガラス、導電性ポリマー(ポリピロールおよびポリインドールなどのポリマーを含む);核酸タイリングアレイ、ナノチューブ、ナノワイヤー、またはナノ微粒子装飾表面など、マイクロ構造化表面またはナノ構造化表面;またはメタクリレート、アクリルアミド、糖ポリマー、セルロース、シリケートなどの多孔性表面もしくは多孔性ゲル、あるいは他の繊維状ポリマーもしくは直鎖状ポリマーも含みうる。一部の実施形態では、固体支持体または固体基材は、デキストラン、アクリルアミド、ゼラチン、またはアガロースなどのポリマーを含む任意の数の材料を伴う、受動的コーティングまたは化学的に誘導体化されたコーティングを使用して、コーティングすることができる。ビーズおよび/または粒子は、遊離の場合もあり、互いと連結する(例えば、焼結する)場合もある。一部の実施形態では、固相は、粒子のコレクションでありうる。一部の実施形態では、粒子は、シリカを含む場合があり、シリカは、二酸化ケイ素を含みうる。一部の実施形態では、シリカは、多孔性の場合があり、ある特定の実施形態では、シリカは、非多孔性の場合がある。一部の実施形態では、粒子は、常磁性特性を粒子に付与する剤をさらに含む。ある特定の実施形態では、剤は、金属を含み、ある特定の実施形態では、剤は、金属酸化物(例えば、鉄または酸化鉄であり、ここで、酸化鉄は、Fe2+とFe3+との混合物を含有する)である。オリゴヌクレオチドは、固体支持体へと、共有結合により連結することもでき、非共有結合的相互作用により連結することもでき、固体支持体へと、直接的に連結することもでき、間接的に連結する(例えば、スペーサー分子またはビオチンなどの仲介剤を介して)こともできる。プローブは、核酸捕捉の前に、間に、または後に固体支持体へと連結することができる。
【0103】
一部の実施形態では、1つまたは複数の、長さに基づく分離の方法を使用して、核酸を、特定の核酸断片の長さ、特定の範囲の長さ、または特定の閾もしくはカットオフを下回るもしくは上回る長さについて富化する。核酸断片の長さは典型的には、断片中のヌクレオチドの数を指す。また、核酸断片の長さは時には、核酸断片のサイズとも呼ぶ。一部の実施形態では、長さに基づく分離の方法を、個々の断片の長さを測定することなく実施する。一部の実施形態では、長さに基づく分離の方法を、個々の断片の長さを決定するための方法と併せて実施する。一部の実施形態では、長さに基づく分離は、サイズ分画の手順を指し、分画されたプールの全部または一部を、単離(例えば、保持)および/または分析することができる。サイズ分画の手順は、当技術分野で公知である(例えば、アレイ上での分離、分子ふるいによる分離、ゲル電気泳動による分離、カラムクロマトグラフィー(例えば、分子ふるいカラム)による分離、およびマイクロ流体技術に基づくアプローチ)。特定の実施形態では、長さに基づく分離のアプローチとして、例えば、断片の環状化、化学物質による処理(例えば、ホルムアルデヒド、ポリエチレングリコール(PEG))、質量分析、および/またはサイズに特異的な核酸増幅を挙げることができる。
【0104】
一部の実施形態では、ある特定の長さ、長さの範囲、または特定の閾もしくはカットオフを下回るかもしくは上回る長さの核酸断片を、試料から分離する。一部の実施形態では、特定の閾またはカットオフ(例えば、500bp、400bp、300bp、200bp、150bp、100bp)を下回る長さを有する断片を、「短い」断片と称し、特定の閾またはカットオフ(例えば、500bp、400bp、300bp、200bp、150bp、100bp)を上回る長さを有する断片を、「長い」断片と称する。一部の実施形態では、ある特定の長さ、長さの範囲、または特定の閾もしくはカットオフを下回るかもしくは上回る長さの断片は、分析のために保持するが、異なる長さもしくは長さの範囲、または閾もしくはカットオフを上回るかもしくは下回る長さの断片は、分析のために保持しない。一部の実施形態では、約500bp未満の断片を保持する。一部の実施形態では、約400bp未満の断片を保持する。一部の実施形態では、約300bp未満の断片を保持する。一部の実施形態では、約200bp未満の断片を保持する。一部の実施形態では、約150bp未満の断片を保持する。例えば、約190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp、110bp、または100bp未満の断片を保持する。一部の実施形態では、約100bp〜約200bpの断片を保持する。例えば、約190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp、または110bpの断片を保持する。一部の実施形態では、約100bp〜約200bpの範囲の断片を保持する。例えば、約110bp〜約190bp、130bp〜約180bp、140bp〜約170bp、140bp〜約150bp、150bp〜約160bp、または145bp〜約155bpの範囲の断片を保持する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より約10bp〜約30bp短い断片を保持する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より約10bp〜約20bp短い断片を保持する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より約10bp〜約15bp短い断片を保持する。
【0105】
一部の実施形態では、核酸を、1つまたは複数のバイオインフォマティクスベースの(例えば、インシリコによる)方法を使用して、特定の核酸断片の長さ、長さの範囲、または特定の閾もしくはカットオフを下回るかもしくは上回る長さについて富化する。例えば、適切なヌクレオチド配列決定処理を使用して、ヌクレオチド配列の読取りを、核酸断片について得ることができる。ペアエンドシーケンシング法を使用する場合など、場合によって、特定の断片の長さは、断片の各末端から得られた、マッピングした配列の読取りの位置に基づき決定することができる。特定の分析(例えば、遺伝子の変動の存在または非存在を決定すること)のために使用された配列の読取りは、本明細書でさらに詳細に記載されている通り、対応する断片の1つまたは複数の選択された断片の長さまたは断片の長さの閾値に従って、富化またはフィルタリングすることができる。
【0106】
本明細書に記載する方法と共に使用することができる、特定の長さに基づく分離の方法は、例えば、選択的な配列によるタグ付けのアプローチを時には利用する。用語「配列によるタグ付け」は、認識可能であり、かつ明確に異なる配列を、核酸または核酸の集団中に組み入れることを指す。用語「配列によるタグ付け」は、本明細書で使用する場合、本明細書で後に記載する用語「配列タグ」とは異なる意味を有する。そのような配列によるタグ付けの方法では、ある断片サイズの種(例えば、短い断片)の核酸を、長い核酸および短い核酸を含む試料中で、選択的な配列によるタグ付けに付す。そのような方法は典型的には、核酸増幅反応を、内側プライマーおよび外側プライマーを含むセットのネステッドプライマーを使用して実施するステップを含む。特定の実施形態では、内側プライマーの一方または両方にタグを付け、それにより、タグを標的の増幅産物上に導入することができる。外側プライマーは一般に、(内側の)標的配列を担持する短い断片にはアニールしない。内側プライマーは、短い断片にアニールし、タグおよび標的配列を担持する増幅産物を生成することができる。典型的には、長い断片のタグ付けは、例えば、外側プライマーの以前のアニーリングおよび伸長による、内側プライマーの伸長の遮断を含む、機構の組合せを通して阻害される。例えば、一本鎖核酸のエキソヌクレアーゼ消化、および少なくとも1つのタグに特異的な増幅プライマーを使用する、タグを付けた断片の増幅を含めた、多様な方法のうちのいずれかにより、タグを付けた断片についての富化を行うことができる。
【0107】
本明細書に記載する方法と共に使用することができる、別の、長さに基づく分離の方法は、核酸試料を、ポリエチレングリコール(PEG)沈殿に付すステップを含む。方法の例として、国際特許出願公開第WO2007/140417号および同第WO2010/115016号に記載されているものが挙げられる。この方法は一般に、小さな(例えば、300ヌクレオチド未満の)核酸を実質的に沈澱させることなく、大きな核酸を実質的に沈殿させるのに十分な条件下において、1つまたは複数の一価の塩の存在下で、核酸試料をPEGと接触させることを必要とする。
【0108】
本明細書に記載する方法と共に使用することができる、別のサイズに基づく富化方法は、ライゲーション、例えば、circligaseを使用するライゲーションによる環状化を含む。短い核酸断片は典型的には、長い断片よりも高い効率で環状化させることができる。環状化しなかった配列を、環状化した配列から分離することができ、富化した短い断片を使用して、さらなる分析を行うことができる。
【0109】
断片の長さの決定
一部の実施形態では、長さを、1つまたは複数の核酸断片について決定する。一部の実施形態では、長さを、1つまたは複数の標的断片について決定し、これにより、1つまたは複数の標的断片サイズの種を同定する。一部の実施形態では、長さを、1つまたは複数の標的断片および1つまたは複数の参照断片について決定し、これにより、1つまたは複数の標的断片長の種および1つまたは複数の参照断片長の種を同定する。一部の実施形態では、断片の長さは、断片とハイブリダイズするプローブの長さを測定することにより決定し、これについては、下記でさらに詳細に論じる。核酸断片または核酸プローブの長さは、例えば、質量についての高感度処理(例えば、質量分析(例えば、マトリックス支援レーザー脱着イオン化(MALDI:matrix−assisted laser desorption ionization)質量分析、およびエレクトロスプレー(ES:electrospray)質量分析)、電気泳動(例えば、キャピラリー電気泳動)、顕微鏡法(走査型トンネル顕微鏡法、原子間力顕微鏡法)、ナノポアを使用する長さの測定、および配列ベースの長さの決定(例えば、ペアエンドシーケンシング)など、当技術分野における、核酸断片の長さを決定するのに適する任意の方法を使用して決定することができる。一部の実施形態では、断片またはプローブの長さは、断片の電荷に基づく分離法を使用せずに決定することができる。一部の実施形態では、断片またはプローブの長さは、電気泳動処理を使用せずに決定することができる。一部の実施形態では、断片またはプローブの長さは、ヌクレオチド配列決定処理を使用せずに決定することができる。
【0110】
質量分析
一部の実施形態では、質量分析を使用して、核酸断片の長さを決定する。質量分析法は、核酸断片など、分子の質量を決定するのに使用することが典型的である。一部の実施形態では、核酸断片の長さは、断片の質量から外挿することができる。一部の実施形態では、核酸断片の長さの予測された範囲は、断片の質量から外挿することができる。一部の実施形態では、核酸断片の長さは、断片とハイブリダイズするプローブの質量から外挿することができ、これについては、下記でさらに詳細に記載する。一部の実施形態では、所与の長さの標的核酸および/または参照核酸の存在は、検出されたシグナルの質量を、標的断片および/または参照断片の期待質量と比較することにより確かめることができる。特定の核酸断片および/または断片の長さについての相対シグナル強度、例えば、スペクトル上の質量ピークは、場合によって、試料中の他の核酸中の断片種の相対集団を指し示し得る(例えば、Jurinkeら(2004年)、Mol. Biotechnol.、26巻、147〜164頁を参照されたい)。
【0111】
質量分析は一般に、化合物をイオン化して、帯電分子または帯電分子断片を生成し、それらの質量対電荷比を測定することにより働く。典型的な質量分析手順は、(1)試料を質量分析装置上にロードした後で気化させるステップと、(2)帯電粒子(イオン)を結果としてもたらす、様々な方法(例えば、電子ビームにより衝撃を与える方法)のうちの任意の1つによる試料成分のイオン化ステップと、(3)電磁界による分析計内のそれらの質量対電荷比に従うイオンの分離ステップと、(4)イオンの検出ステップ(例えば、定量的方法による)と、(5)イオンシグナルの質量スペクトルへの処理ステップとを含む、いくつかのステップを伴う。
【0112】
当技術分野では、質量分析法が周知であり(例えば、Burlingameら、Anal. Chem.、70巻:647R〜716R頁(1998年)を参照されたい)、例えば、四重極質量分析、イオントラップ質量分析、飛行時間質量分析、ガスクロマトグラフィー質量分析、およびタンデム質量分析を含み、本明細書で記載される方法と共に使用することができる。質量分析法と関連する基本的なプロセスは、試料から導出される気相イオンの生成、およびそれらの質量の測定である。気相イオンの運動は、質量分析計内で生成された電磁界を使用して、正確に制御することができる。これらの電磁界内のイオンの運動は、イオンのm/z(質量対電荷比)に比例し、これにより、m/zを測定する基盤が形成され、したがって、試料の質量を測定する基盤が形成される。これらの電磁界内のイオンの運動は、質量分析の高感度の一因となる、イオンの封じ込めおよび集束を可能とする。m/z測定の経過中において、イオンは、これらのイオンの到来を記録する粒子検出器へと、高効率で伝送される。各m/zにおけるイオンの量は、グラフ上のピークにより明示され、ここで、x軸は、m/zであり、y軸は、相対存在度である。異なる質量分析計は、異なるレベルの分解能、すなわち、質量において近接するイオン間のピークを分解する能力を有する。分解能は、R=m/デルタm[式中、mは、イオン質量であり、デルタmは、質量スペクトル中の2つのピークの間の質量の差違である]として規定される。例えば、分解能が1000である質量分析計は、m/zが100.0であるイオンを、m/zが100.1であるイオンから分離しうる。
【0113】
ある特定の質量分析法では、イオン源と質量分析器との多様な組合せを活用することができ、これにより、カスタマイズされた検出プロトコールのデザインにおける柔軟性が可能となる。一部の実施形態では、質量分析計をプログラムして、全てのイオンを、イオン源から質量分析計へと、逐次的に伝送することもでき、同時に伝送することもできる。一部の実施形態では、質量分析計をプログラムして、他のイオンを遮断しながら、特定の質量のイオンを、質量分析計への伝送のために選択することができる。
【0114】
いくつかの種類の質量分析計が利用可能であり、多様な構成を伴う質量分析計を作製することができる。一般に、質量分析計は、以下の主要な構成要素:試料注入口、イオン源、質量分析器、検出器、真空システム、および装置制御システム、およびデータシステムを有する。試料注入口、イオン源、および質量分析器の差違は一般に、装置の種類およびその能力を規定する。例えば、注入口は、キャピラリーカラム液体クロマトグラフィー供給源の場合もあり、マトリックス支援レーザー脱離で使用されるなどの、ダイレクトプローブまたはステージの場合もある。一般的なイオン源は、例えば、ナノスプレーおよびマイクロスプレーを含むエレクトロスプレー、またはマトリックス支援レーザー脱離である。質量分析器は、例えば、四重極マスフィルター、イオントラップ質量分析器、および飛行時間質量分析器を含む。
【0115】
イオン形成プロセスは、質量スペクトル分析の出発点である。いくつかのイオン化法が利用可能であり、イオン化法の選択は、分析のために使用される試料に依存する。例えば、ポリペプチドを分析するためには、エレクトロスプレーイオン化(ESI:electrospray ionization)など、比較的穏和なイオン化手順が望ましい場合がある。ESIのためには、試料を含有する溶液を、強く帯電させた液滴であって、質量分析計へと方向づけられた液滴の微細噴霧を結果としてもたらす、強力な電界を作り出す高電位にある細針内を通過させる。他のイオン化手順は、例えば、中性原子の高エネルギービームを使用して、固体試料に衝突させ、脱離およびイオン化を引き起こす高速原子衝撃法(FAB)を含む。マトリックス支援レーザー脱離イオン化(MALDI)とは、レーザーパルスを使用して、UV吸収化合物のマトリクス(例えば、2,5−ジヒドロキシ安息香酸、アルファ−シアノ−4−ヒドロキシケイ皮酸、3−ヒドロキシピコリン酸(3−HPA)、クエン酸二アンモニウム(DAC)、およびこれらの組合せ)中で結晶化させた試料に衝突させる方法である。当技術分野で公知の他のイオン化手順は、例えば、プラズマおよびグロー放電、プラズマ脱離イオン化、共鳴イオン化、および二次イオン化を含む。
【0116】
異なるイオン源と対をなしうる、様々な質量分析器が利用可能である。異なる質量分析器は、当技術分野で公知であり、本明細書で記載される、異なる利点を有する。質量分析計および検出のために選択される方法は、特定のアッセイに依存し、例えば、検出のために少量のイオンを生成する場合は、より高感度の質量分析器を使用することができる。質量分析器および質量分析法のいくつかの種類については、下記で記載する。
【0117】
イオンモビリティー(IM:ion mobility)質量分析とは、気相分離法である。IMは、それらの衝突断面に基づき気相イオンを分離し、飛行時間(TOF)質量分析とカップリングすることができる。IM−MSは、Verbeckらにより、Journal of BiomolecularTechniques(13巻、2号、56〜61頁)において、より詳細に論じられている。
【0118】
四重極質量分析では、四重極マスフィルターまたは四重極質量分析器を活用する。この種類の質量分析器は、電気的に接続された2本のロッドの2つのセットとして配置された4本のロッドからなる。rf電圧とdc電圧との組合せを各ロッド対へと印加すると、イオンがマスフィルターの始端から終端へと運動するときに、イオンの振動運動を引き起こす電界がもたらされる。これらの電界の結果が、ロッドの一方の対におけるハイパスマスフィルター、およびロッドの他方の対におけるローパスフィルターの生成である。ハイパスフィルターとローパスフィルターとの間をオーバーラップさせることにより、両方のフィルターを通過し、四重極の全長を縦断しうる、規定されたm/zが残される。このm/zは、選択され、四重極マスフィルター内で安定性を維持するが、他の全てのm/zは、不安定な軌道をとり、マスフィルター内にとどまらない。印加電界を上げ、それにより増えているm/zを選択して、マスフィルターを通過させ、検出器に到達させることによる質量スペクトルを得る。加えて、四重極はまた、rfのみの電界を印加することにより、全てのm/zのイオンを封じ込め、伝送するように設定することもできる。これにより、四重極は、イオン伝送がマスフィルタリングを伴わずに必要とされる質量分析計の領域で、レンズまたは集束システムとして機能することが可能となる。
【0119】
四重極質量分析器のほか、本明細書で記載される他の質量分析器も、規定されたm/zまたは質量範囲を分析するようにプログラムすることができる。核酸断片の所望の質量範囲は既知であるので、場合によって、高質量範囲または低質量範囲のイオンを排除しながら、推定される正確な質量範囲のイオンを伝送するように、質量分析計をプログラムすることができる。質量範囲を選択する能力は、アッセイ中のバックグラウンドノイズを減少させ、これにより、シグナル対ノイズ比を増加させうる。したがって、場合によって、質量分析計は、分離ステップのほか、ある特定の質量を識別可能な核酸断片の検出および同定を達成しうる。
【0120】
イオントラップ質量分析では、イオントラップ質量分析器を活用する。全てのm/zのイオンがまず、質量分析器内にトラップされ、振動するような電界を印加することが典型的である。イオンは、イオン源から、八重極レンズシステムなどの集束デバイスを介して、イオントラップに入る。イオントラッピングは、電極を介する励起および検出器への駆出の前に、トラッピング領域内でおこる。質量分析は、振動の振幅を増加させる電圧を逐次的に印加することにより、m/zが増加するイオンを、トラップから検出器へと駆出する様式で達成することができる。四重極質量分析と異なり、選択されたm/zを有するイオンを除く全てのイオンは、質量分析器の電界内に保持される。イオン数の制御は、イオンがトラップ内に注入されている時間を変化させることにより達成することができる。
【0121】
飛行時間質量分析では、飛行時間質量分析器を活用する。イオンにはまず、電界(高電圧により生成される)内の加速化により、一定量の運動エネルギーを与えることが典型的である。加速化の後、イオンは、電界のかからない領域または「ドリフト」領域に入り、ここで、そのm/zに反比例する速度で移動する。したがって、低m/zを有するイオンは、高m/zを有するイオンより高速で移動する。イオンが、電界のかからない領域の全長を移動するのに要求される時間を測定し、イオンのm/zを計算するのに使用する。
【0122】
ガスクロマトグラフィー質量分析では、標的を、リアルタイムでしうることが多い。システムのガスクロマトグラフィー(GC)部分では、化学的混合物を、分析物のパルスへと分離し、質量分析計(MS)により、分析物を同定および定量する。
【0123】
タンデム質量分析では、上記で記載した質量分析器の組合せを活用することができる。タンデム質量分析計では、さらなる分析のための目的のイオンを単離するために、それらのm/zに従って、イオンを分離するのに第1の質量分析器を使用することができる。次いで、単離された目的のイオンを、フラグメントイオンへと分解し(衝突活性化解離または衝突誘起解離と呼ばれる)、フラグメントイオンを、第2の質量分析器により分析する。これらの種類のタンデム質量分析計システムは、2つの質量分析器が、空間内で、通例衝突セルにより隔てられているため、空間内タンデムシステム(tandem in space system)と呼ばれる。タンデム質量分析計システムはまた、1つの質量分析器を使用するが、質量分析器を逐次的に使用して、イオンを単離し、フラグメント化を誘導し、次いで、質量分析を行う、時間内タンデムシステム(tandem in time system)も含む。
【0124】
空間内タンデム部類の質量分析計は、複数の質量分析器を有する。例えば、タンデム四重極質量分析計システムは、第1の四重極マスフィルターに続く、衝突セルに続く、第2の四重極マスフィルター、次いで、検出器を有しうる。別の配置は、第1の質量分析器に、四重極マスフィルターを使用し、第2の質量分析器に、2つの質量分析器を隔てる衝突セルを有する飛行時間質量分析器を使用することである。当技術分野では、リフレクトロン−飛行時間質量分析、タンデムセクター質量分析、およびセクター−四重極質量分析を含む、他のタンデムシステムが公知である。
【0125】
時間内タンデム部類の質量分析計は、異なる時間に異なる機能を果たす1つの質量分析器を有する。例えば、イオントラップ質量分析計を使用して、全てのm/zのイオンをトラップすることができる。目的のイオンのm/zを除く全てのm/zのイオンをトラップから駆出する、一連のrf走査機能を適用する。目的のm/zを単離した後で、rfパルスを印加して、トラップ内の気体分子との衝突をもたらして、イオンのフラグメント化を誘導する。次いで、フラグメント化されたイオンのm/z値を、質量分析器により測定する。フーリエ変換質量分析計としてもまた公知のイオンサイクロトロン共鳴装置は、時間内タンデムシステムの例である。
【0126】
実験の各段階で選択されたイオンを制御することにより、いくつかの種類のタンデム質量分析実験を行うことができる。異なる種類の実験では、場合によって、質量分析器の「走査」と呼ばれる、異なる作動方式を活用する。質量スペクトル走査と呼ばれる第1の例では、第1の質量分析器および衝突セルは、質量分析のための全てのイオンを、第2の質量分析器へと伝送する。生成物イオン走査と呼ばれる第2の例では、目的のイオンを、第1の質量分析器で質量選択し、次いで、衝突セル内でフラグメント化する。次いで、第2の質量分析器を走査することにより、形成されたイオンを質量分析する。前駆体イオン走査と呼ばれる第3の例では、第1の質量分析器を走査して、質量分析されたイオンを、フラグメント化のために、衝突セルへと逐次的に伝送する。第2の質量分析器では、検出器へと伝送するために、目的の生成物イオンを質量選択する。したがって、検出器シグナルは、共通の生成物イオンへとフラグメント化されうる全ての前駆体イオンの結果である。他の実験フォーマットは、質量走査における一定の質量差の一因となるニュートラルロス走査を含む。
【0127】
定量のために、例えば、存在するかまたは導入された核酸断片の量と関連するシグナルをもたらしうる対照を使用することができる。相対質量シグナルの、絶対量への変換を可能とする対照は、核酸断片を検出する前に、既知量の質量タグまたは質量標識を各試料に添加することにより達成することができる。例えば、DingおよびCantor(2003年)、PNAS U S A.、3月18日、100巻(6号):3059〜64頁を参照されたい。断片の検出に干渉しない任意の質量タグを、質量シグナルを正規化するために使用することができる。このような標準物質は、試料中の分子タグのうちのいずれかの分離特性と異なる分離特性を有することが典型的であり、同じ質量シグネチャーを有する場合もあり、異なる質量シグネチャーを有する場合もある。
【0128】
場合によって、分離ステップを使用して、塩、酵素、または他のバッファ成分を、核酸試料から除去することができる。クロマトグラフィー、ゲル電気泳動、または沈殿など、当技術分野で周知の複数の方法を使用して、試料を清浄化することができる。例えば、サイズ除外クロマトグラフィーまたはアフィニティークロマトグラフィーを使用して、塩を試料から除去することができる。分離法の選択は、試料の量に依存しうる。例えば、利用可能な試料が少量であるか、または小型機器を使用する場合、マイクロアフィニティークロマトグラフィー分離ステップを使用することができる。加えて、分離ステップが所望されるのかどうか、および分離法の選択は、使用される検出法に依存しうる。場合によって、マトリックス支援レーザー脱離/イオン化では、塩が、レーザーからエネルギーを吸収し、イオン化効率の低下を結果としてもたらす可能性がある。したがって、場合によって、塩を試料から除去することにより、マトリックス支援レーザー脱離/イオン化およびエレクトロスプレーイオン化の効率を向上させることができる。
【0129】
電気泳動
一部の実施形態では、電気泳動を使用して、核酸断片の長さを決定する。一部の実施形態では、電気泳動を使用せずに、核酸断片の長さを決定する。一部の実施形態では、電気泳動を使用して、対応するプローブの長さ(例えば、本明細書で記載される、対応するトリミングされたプローブ)を決定する。一部の実施形態ではまた、電気泳動を、本明細書で記載される、長さベースの分離法としても使用することができる。当技術分野で公知の、任意の電気泳動法であって、核酸を長さで分離する電気泳動法を、本明細書で提供される方法であって、標準的な電気泳動法および、例えば、キャピラリー電気泳動など、特化した電気泳動法を含むがこれらに限定されない方法と共に使用することができる。標準的な電気泳動法を使用して、核酸を分離し、核酸断片の長さを測定するための方法の例は、当技術分野で見出すことができる。本明細書では、非限定的な例を提示する。アガロースゲル中またはポリアクリルアミドゲル中で核酸試料を泳動させた後で、ゲルを、臭化エチジウムで標識する(例えば、染色する)ことができる(SambrookおよびRussell、MolecularCloning: A Laboratory Manual、第3版、2001年を参照されたい)。標準物質対照と同じサイズのバンドの存在は、特定の核酸配列の長さの存在の指標であり、次いで、その量を、バンドの強度に基づき、対照と比較することができ、これにより、目的の核酸配列の長さを検出し、定量することができる。
【0130】
一部の実施形態では、キャピラリー電気泳動を使用して、核酸断片を分離し、同定し、場合によって、定量する。キャピラリー電気泳動(CE:capillary electrophoresis)は、例えば、長さが様々な核酸など、大きな分子と小さな分子の一連の複合体を分離するのに、小口径融合シリカキャピラリー(narrow-borefused-silica capillary)を使用する類縁の分離法のファミリーを包含する。高電界強度を使用して、電荷、サイズ、および疎水性の差違に基づき、核酸分子を分離することができる。試料の導入は、キャピラリーの末端を、試料バイアル内に浸漬し、圧力、真空、または電圧を適用することにより達成する。使用されるキャピラリーおよび電解質の種類に応じて、CE技術をいくつかの分離法に分けることができ、それらのうちのいずれかを、本明細書で提供される方法へと適応させることができる。これらのうちの非限定的な例は、溶液非含有CE(FSCE)としてもまた公知の、キャピラリーゾーン電気泳動(CZE)、キャピラリー等電点電気泳動(CIEF)、等速電気泳動(ITP)、界面動電クロマトグラフィー(EKC)、ミセル動電キャピラリークロマトグラフィー(MECCまたはMEKC)、マイクロエマルジョン界面動電クロマトグラフィー(MEEKC)、非水性キャピラリー電気泳動(NACE)、およびキャピラリー電気クロマトグラフィー(CEC)を含む。
【0131】
キャピラリー電気泳動を行うことが可能な、任意のデバイス、装置、またはマシンを、本明細書で提供される方法と共に使用することができる。一般に、キャピラリー電気泳動システムの主要構成要素は、試料バイアル、供給源バイアルおよび泳動先バイアル(destination vial)、キャピラリー、電極、高電圧電源、検出器、ならびにデータ出力および操作デバイスである。供給源バイアル、泳動先バイアル、およびキャピラリーに、水性緩衝液などの電解質を充填する。試料を導入するために、キャピラリー注入口を、試料を含有するバイアルに入れ、次いで、供給源バイアルへと戻す(試料を、毛管作用、圧力、またはサイフォン作用を介して、キャピラリーへと導入する)。次いで、供給源バイアルと泳動先バイアルとの間で印加され、高電圧電源により電極へと供給される電界により、分析物(すなわち、核酸)の泳動を開始する。電気浸透流により、キャピラリーを介して、陽イオンまたは陰イオンを、同じ方向に引き寄せる。分析物(すなわち、核酸)は、それらが、それらの電気泳動移動度に起因して泳動するときに分離され、キャピラリーの流出口末端近傍で検出される。検出器の出力は、積分器またはコンピュータなど、データ出力および操作デバイスへと送信する。次いで、データを、検出器の応答を時間の関数として報告しうる、電気泳動図として表示する。分離された核酸は、電気泳動図内の異なる泳動時間と共にピークとして現れうる。
【0132】
キャピラリー電気泳動による分離は、複数の検出デバイスにより検出することができる。市販のシステムの大半では、UVまたはUV−Visにおける吸光度を、それらの検出の一次モードとして使用する。これらのシステムでは、キャピラリー自体のセクションを、検出セルとして使用する。管上検出の使用により、分離された分析物の検出が、分解能を低下させずに可能となる。一般に、キャピラリー電気泳動で使用されるキャピラリーは、安定性を増加させるために、ポリマーでコーティングすることができる。UVによる検出のために使用されるキャピラリーの部分は、光学的に透明であることが多い。キャピラリー電気泳動における検出セルの経路の長さ(約50マイクロメーター)は、従来のUVセルの経路の長さ(約1cm)よりはるかに短い。ベールランベルトの法則によると、検出器の感度は、セルの経路の長さに比例する。これにより、分解能の低下が結果としてもたらされうるが、感度を向上させるために、経路の長さを増加させることができる。検出点において、キャピラリー管(tube)自体を伸長させ、経路の長さが長い「バブルセル」を作り出す場合もあり、検出点において、さらなる管(tubing)を追加する場合もある。しかし、これらの方法のいずれも、分離の分解能を低下させる可能性がある。
【0133】
天然で蛍光発光するか、または、例えば、本明細書で記載される、標識された核酸断片またはプローブなどの蛍光タグを含有するように化学的に修飾された試料についてのキャピラリー電気泳動ではまた、蛍光の検出も使用することができる。この検出方式では、これらの試料についての高感度および選択性の向上がもたらされる。方法では、光ビームを、キャピラリー上に集束することが要求される。CEシステムでは、レーザーにより誘導される蛍光は、10
−18〜10
−21モルという低値の検出限界で使用することができる。技法の感度は、入射光の大きな強度および光をキャピラリー上に正確に集束させる能力に帰せられる。
【0134】
当技術分野では、いくつかのキャピラリー電気泳動機が公知であり、本明細書で提供される方法と共に使用することができる。これらは、CALIPER LAB CHIP GX(Caliper Life Sciences、Mountain View、CA)、P/ACE 2000 Series(Beckman Coulter、Brea、CA)、HP G1600A CE(Hewlett−Packard、Palo Alto、CA)、AGILENT 7100 CE(Agilent Technologies、Santa Clara、CA)、およびABI PRISM Genetic Analyzer(Applied Biosystems、Carlsbad、CA)を含むがこれらに限定されない。
【0135】
顕微鏡法
一部の実施形態では、核酸断片の長さを、顕微鏡法など、イメージングベースの方法を使用して決定する。一部の実施形態では、イメージングベースの方法を使用して、対応するプローブの長さ(例えば、本明細書で記載される、対応するトリミングされたプローブ)を決定する。一部の実施形態では、断片の長さは、単一の核酸断片の顕微鏡法による視覚化によって決定することができる(例えば、米国特許第5,720,928号を参照されたい)。一部の実施形態では、核酸断片を、伸長させた状態で表面(例えば、修飾ガラス表面)へと固定し、染色し、顕微鏡法により視覚化する。断片の画像は、収集および処理する(例えば、長さについて測定する)ことができる。一部の実施形態では、イメージングステップおよび画像分析ステップを自動化することができる。当技術分野では、顕微鏡法を使用して、核酸断片を直接視覚化するための方法が公知である(例えば、Laiら(1999年)、Nat Genet.、23巻(3号):309〜13頁;Astonら(1999年)、Trends Biotechnol.、17巻(7号):297〜302頁;Astonら(1999年)、Methods Enzymol.、303巻:55〜73頁;Jingら(1998年)、Proc Natl Acad Sci USA.、95巻(14号):8046〜51頁;および米国特許第5,720,928号を参照されたい)。本明細書で記載される方法と共に使用されうる、他の顕微鏡法は、限定せずに述べると、走査型トンネル顕微鏡法(STM:scanning tunneling microscopy)、原子間力顕微鏡法(ATM)、走査フォース顕微鏡法(SFM:scanning force microscopy)、フォトン走査型トンネル顕微鏡法(PSTM)、走査型トンネル電位差測定法(STP)、磁気力顕微鏡法(MFM)、走査型プローブ顕微鏡法、走査型電圧顕微鏡法(scanning voltagemicroscopy)、光伝導原子間力顕微鏡法(photoconductive atomic forcemicroscopy)、電気化学走査型トンネル顕微鏡法(electrochemical scanningtunneling microscopy)、電子顕微鏡法、スピン偏極走査型トンネル顕微鏡法(SPSTM:spin polarized scanning tunneling microscopy)、走査型熱顕微鏡法、走査型ジュール膨張顕微鏡法(scanning jouleexpansion microscopy)、光熱顕微分光法(photothermal microspectroscopy)などを含む。
【0136】
一部の実施形態では、走査型トンネル顕微鏡法(STM)を使用して、核酸断片の長さを決定することができる。STM法は、核酸断片などの分子についての、原子レベルの画像を生成しうることが多い。STMは、例えば、空気、水、超高真空、他の多様な液体、または気体の環境中で実施することができ、例えば、絶対ゼロ度近傍〜摂氏数百度の範囲の温度で実施することができる。STMシステムの構成要素は、走査チップ、圧電制御型高さおよびx、yスキャナー、粗試料−チップ間制御、振動単離システム、およびコンピュータを含むことが典型的である。STM法は一般に、量子トンネルの概念に基づく。例えば、導電性チップを、分子(例えば、核酸断片)の表面へと近づけるとき、両者の間に印加されるバイアス(すなわち、電圧差)により、電子が、それらの間の真空中をトンネルすることが可能となりうる。結果として生じるトンネル電流は、チップの位置、印加された電圧、および試料の局所的状態密度(LDOS)の関数である。情報は、チップの位置が、表面にわたり走査するときの電流をモニタリングすることにより収集し、画像形態で表示することができる。xy平面内の試料にわたりチップを動かす場合、表面の高さおよび状態密度の変化により、電流の変化が引き起こされる。これらの変化は、画像中にマッピングすることができる。場合によって、位置に対する電流の変化自体を測定することもでき、一定の電流に対応するチップの高さであるzを測定することもできる。これらの2つの方式は、それぞれ、高さ一定方式および電流一定方式と称することが多い。
【0137】
一部の実施形態では、原子間力顕微鏡法(AFM:atomic force microscopy)を使用して、核酸断片の長さを決定することができる。AFMは一般に、高分解能型のナノスケールの顕微鏡法である。対象(例えば、核酸断片)についての情報は、力学的プローブで表面を「感知すること」により集めることが典型的である。電子的コマンドにより、微細であるが正確で精密な動きを容易とする圧電素子により、極めて精密な走査を容易とすることができる。一部の変化形では、導電性カンチレバーを使用して、電位を走査することができる。AFMシステムの構成要素は、その末端において、検体(例えば、核酸断片)の表面を走査するのに使用される、鋭利なチップ(すなわち、プローブ)を有するカンチレバーを含むことが典型的である。カンチレバーは、曲率がナノメートルのオーダーのチップ半径を有するケイ素または窒化ケイ素であることが典型的である。チップを、試料表面に近接させると、チップと試料との間の力により、フックの法則に従って、カンチレバーの振れがもたらされる。状況に応じて、AFMにより測定される力は、例えば、機械的接触力、ファンデルワールス力、毛細管力、化学結合、静電力、磁力、カシミール力、溶媒和力などを含む。振れは、カンチレバーの上面から反射して、一連の光ダイオードに入るレーザースポットを使用して測定することが典型的である。使用される他の方法は、光干渉法、容量センシング、または圧電抵抗型AFMカンチレバーを含む。
【0138】
ナノポア
一部の実施形態では、核酸断片の長さは、ナノポアを使用して決定する。一部の実施形態では、対応するプローブの長さ(例えば、本明細書で記載される、対応するトリミングされたプローブ)は、ナノポアを使用して決定する。ナノポアとは、直径が典型的に1ナノメートルのオーダーの、小型の穴またはチャネルである。ある特定の膜貫通細胞タンパク質は、ナノポアとして作用しうる(例えば、アルファ−ヘモリシン)。一部の実施形態では、ナノポアは、合成する(例えば、ケイ素プラットフォームを使用して)ことができる。ナノポアを導電性流体中に浸漬し、それを隔てて電位を印加すると、ナノポアを介したイオンの伝導に起因して、微弱な電流が結果としてもたらされる。流れる電流の量は、ナノポアのサイズに感受性である。核酸断片がナノポアを通過するとき、核酸分子は、ある程度ナノポアを塞ぎ、電流の変化を発生させる。核酸断片がナノポアを通過するときの電流変化の持続時間は、測定することができる。一部の実施形態では、核酸断片の長さは、この測定に基づき決定することができる。
【0139】
一部の実施形態では、核酸断片の長さは、時間の関数として決定することができる。長い核酸断片は、場合によって、ナノポアを通過するのにかかる時間が比較的長く、短い核酸断片は、場合によって、ナノポアを通過するのにかかる時間が比較的短いことがある。したがって、一部の実施形態では、断片の相対的な長さは、ナノポアの通過時間に基づき決定することができる。一部の実施形態では、断片の近似的な長さまたは絶対的な長さは、標的断片および/または参照断片によるナノポアの通過時間を、標準物質のセット(すなわち、公知の長さを有する)の通過時間と比較することにより決定することができる。
【0140】
プローブ
一部の実施形態では、断片の長さは、1つまたは複数のプローブを使用して決定する。一部の実施形態では、プローブは、それらの各々が、試料中の目的の核酸とハイブリダイズするようにデザインする。例えば、プローブは、目的の核酸と相補的であるか、または目的の核酸に結合しうる一連の単量体を含みうる、ポリヌクレオチド配列を含みうる。プローブは、1つまたは複数の目的の核酸断片とハイブリダイズする(例えば、完全にハイブリダイズする)のに適する任意の長さでありうる。例えば、プローブは、それがハイブリダイズする核酸断片の長さにわたるかまたはこれを超える任意の長さでありうる。プローブは、約100bpまたはそれ超の長さでありうる。例えば、プローブは、少なくとも約200、300、400、500、600、700、800、900、または1000bpの長さでありうる。
【0141】
一部の実施形態では、プローブは、目的の核酸と相補的なポリヌクレオチド配列と、目的の核酸と相補的ではない、1つまたは複数のポリヌクレオチド配列(すなわち、非相補的な配列)とを含みうる。非相補的な配列は、例えば、プローブの5’末端および/または3’末端に存在(reside)しうる。一部の実施形態では、非相補的な配列は、目的の生物中に存在(exist)しないヌクレオチド配列および/またはヒトゲノム中の任意の配列とハイブリダイズすることが可能ではない配列を含みうる。例えば、非相補的な配列は、例えば、非哺乳動物ゲノム、植物ゲノム、真菌ゲノム、細菌ゲノム、またはウイルスゲノムなど、当技術分野で公知の任意の非ヒトゲノムに由来しうる。一部の実施形態では、非相補的な配列は、PhiX174ゲノムに由来する。一部の実施形態では、非相補的な配列は、相補的なヌクレオチドとハイブリダイズすることが可能ではない、修飾ヌクレオチドまたは合成ヌクレオチドを含みうる。
【0142】
プローブは、オリゴヌクレオチド(例えば、捕捉オリゴヌクレオチド)について当技術分野で公知であり、本明細書で記載される方法に従って、デザインおよび合成することができる。プローブはまた、オリゴヌクレオチドについて当技術分野で公知であり、本明細書で記載される特性のうちのいずれかも含みうる。本明細書におけるプローブは、それらが、ヌクレオチド(例えば、アデニン(A)、チミン(T)、シトシン(C)、グアニン(G)、およびウラシル(U))、修飾ヌクレオチド(例えば、シュードウリジン、ジヒドロウリジン、イノシン(I)、および7−メチルグアノシン)、合成ヌクレオチド、縮重塩基(例えば、6H,8H−3,4−ジヒドロピリミド[4,5−c][1,2]オキサジン−7−オン(P)、2−アミノ−6−メトキシアミノプリン(K)、N6−メトキシアデニン(Z)、およびヒポキサンチン(I))、ヌクレオチド、修飾ヌクレオチド、もしくは合成ヌクレオチド、またはこれらの組合せ以外のユニバーサル塩基および/または単量体を含むようにデザインすることができ、一般にはまず、それらがハイブリダイズする断片より長い長さを有するようにデザインする。
【0143】
一部の実施形態では、プローブは、アデニン(A)、チミン(T)、シトシン(C)、グアニン(G)、およびウラシル(U)など、ヌクレオチドの天然に存在する変化形または修飾変化形のうちの任意の1つとハイブリダイズすることが可能な、複数の単量体を含む。一部の実施形態では、プローブは、アデニン、チミン、シトシン、およびグアニンのうちの少なくとも3つとハイブリダイズすることが可能な、複数の単量体を含む。例えば、プローブは、A、T、およびC;A、T、およびG;G、C、およびT;またはG、C、およびAとハイブリダイズすることが可能な単量体の種を含みうる。一部の実施形態では、プローブは、アデニン、チミン、シトシン、およびグアニンの全てとハイブリダイズすることが可能な、複数の単量体を含む。例えば、プローブは、A、T、C、およびGの全てとハイブリダイズすることが可能な、単量体の種を含みうる。一部の実施形態では、ハイブリダイゼーション条件(例えば、厳密性)は、例えば、本明細書で記載される方法に従って、ある特定の単量体種の、多様なヌクレオチド種とのハイブリダイゼーションを容易とするように調整することができる。一部の実施形態では、単量体は、ヌクレオチドを含む。一部の実施形態では、単量体は、天然に存在するヌクレオチドを含む。一部の実施形態では、単量体は、修飾ヌクレオチドを含む。
【0144】
一部の実施形態では、プローブの単量体は、イノシンを含む。イノシンとは、一般にtRNA中に見出され、場合によって、A、T、およびCとハイブリダイズすることが可能なヌクレオチドである。本明細書の実施例9では、核酸断片のサイズを決定するために、ポリイノシンプローブを活用する方法について記載する。一部の実施形態では、ポリイノシンプローブは、厳密性の低度なハイブリダイゼーション条件下または厳密でないハイブリダイゼーション条件(例えば、本明細書で記載される厳密なハイブリダイゼーション条件と比較して低温および/または高塩濃度などの)下で、核酸断片とハイブリダイズする。一部の実施形態では、核酸断片を、亜硫酸水素ナトリウムで処理し、これにより、断片中の非メチル化シトシン残基の脱アミノ化を引き起こして、ウラシル残基を形成する。一部の実施形態では、亜硫酸水素ナトリウム処理される核酸断片を、亜硫酸水素ナトリウム処理の前に増幅する(例えば、PCR増幅する)。一部の実施形態では、核酸断片を、シトシン残基を有さないユニバーサル増幅プライマー部位を含む配列へとライゲーションする。次いで、例えば、ユニバーサル増幅プライマーおよび伸長反応を使用して、相補的な第2の鎖を生成することができる。第1の鎖中のウラシル残基は、第2の鎖中の相補的なアデニン残基を生成することが典型的である。したがって、グアニン残基を有さない第2の鎖を生成することができる。このようなグアニン非含有の相補的な第2の鎖は、場合によって、厳密なハイブリダイゼーション条件下で、ポリイノシンプローブとハイブリダイズしうる。
【0145】
一部の実施形態では、プローブの単量体は、ユニバーサル塩基の単量体を含む。ユニバーサル塩基の単量体は、天然塩基(例えば、A、G、C、T)の各々と非選択的にハイブリダイズしうる、ヌクレオ塩基の類似体または合成の単量体であることが典型的である。したがって、ユニバーサル塩基の単量体を含むプローブは、場合によって、ヌクレオチド配列に関わらず、核酸断片とハイブリダイズしうる。ユニバーサル塩基は、限定なしに述べると、3−ニトロピロール、4−ニトロインドール、5−ニトロインドール、6−ニトロインドール、3−メチル7−プロピニルイソカルボスチリル(PIM)、3−メチルイソカルボスチリル(MICS)、および5−メチルイソカルボスチリル(5MICS)を含みうる(例えば、Nicholsら(1994年)、Nature、369巻、492〜493頁;Bergstromら(1995年)、J. Am. Chem. Soc.、117巻、1201〜1209頁;LoakesおよびBrown(1994年)、Nucleic Acids Res.、22巻、4039〜4043頁;LinおよびBrown(1992年)、Nucleic Acids Res.、20巻、5149〜5152頁;LinおよびBrown(1989年)、NucleicAcids Res.、17巻、10383頁;BrownおよびLin(1991年)、Carbohydrate Research、216巻、129〜139頁;Bergerら(2000年)、Nucleic Acids Res.、28巻(15号):2911〜2914頁を参照されたい)。
【0146】
一部の実施形態では、プローブの単量体は、ヌクレオチド以外の単量体を含む。一部の実施形態では、単量体は、合成ポリマーのサブユニットを含む。一部の実施形態では、単量体は、ピロリドンを含む。ピロリドンは、合成ポリマーであるポリピロリドンの単量体であり、場合によって、A、T、G、およびCの全てとハイブリダイズすることが可能である。
【0147】
一部の実施形態では、断片の長さを決定するための方法は、核酸断片(例えば、標的断片および/または参照断片)を、アニーリング条件下で、断片にアニールしうる複数のプローブと接触させ、これにより、例えば、標的−プローブ種および参照基準−プローブ種などの、断片−プローブ種を生成するステップを含む。プローブおよび/またはハイブリダイゼーション条件(例えば、厳密性)は、完全な断片または実質的に完全な断片の結合(例えば、高度な厳密性)に好適となるように最適化することができる。下記でさらに詳細に記載する通り、完全な断片−プローブ間ハイブリダイゼーションまたは実質的に完全な断片−プローブ間ハイブリダイゼーションは一般に、二重鎖を含み、ここで、断片は、ハイブリダイズしなかった部分を含まないが、プローブは、ハイブリダイズしなかった部分を含みうる。
【0148】
プローブの長さが、断片の長さより長い場合など、一部の実施形態では、標的−プローブ種および/または参照基準−プローブ種の各々は、ハイブリダイズしなかったプローブ部分を含みうる(すなわち、一本鎖プローブ部分;例えば、
図12を参照されたい)。ハイブリダイズしなかったプローブ部分は、プローブの片方の末端(例えば、プローブの3’末端または5’末端)にある場合もあり、プローブの両方の末端(すなわち、プローブの3’末端および5’末端)にある場合もあり、任意の数の単量体を含みうる。一部の実施形態では、ハイブリダイズしなかったプローブ部分は、約1〜約500の単量体を含みうる。例えば、ハイブリダイズしなかったプローブ部分は、約5、10、20、30、40、50、100、200、300、または400の単量体を含みうる。
【0149】
一部の実施形態では、ハイブリダイズしなかったプローブ部分は、標的−プローブ種および/または参照基準−プローブ種から除去し、これにより、トリミングされたプローブを生成することができる。ハイブリダイズしなかったプローブ部分の除去は、ポリマーを切断および/または消化するための、当技術分野で公知の任意の方法であって、例えば、一本鎖核酸を切断または消化するための方法などの方法により達成することができる。ハイブリダイズしなかったプローブ部分は、プローブの5’末端および/またはプローブの3’末端から除去することができる。このような方法は、化学的切断および/もしくは酵素的切断または化学的消化および/もしくは酵素的消化の使用を含みうる。一部の実施形態では、核酸のヌクレオチドサブユニット間のホスホジエステル結合を切断することが可能な酵素を、ハイブリダイズしなかったプローブ部分を除去するために使用する。このような酵素は、限定なしに述べると、ヌクレアーゼ(例えば、DNアーゼI、RNアーゼI)、エンドヌクレアーゼ(例えば、ヤエナリヌクレアーゼ、S1ヌクレアーゼなど)、制限ヌクレアーゼ、エクソヌクレアーゼ(例えば、エクソヌクレアーゼI、エクソヌクレアーゼIII、エクソヌクレアーゼT、T7エクソヌクレアーゼ、ラムダエクソヌクレアーゼなど)、ホスホジエステラーゼ(例えば、ホスホジエステラーゼII、ウシ脾臓ホスホジエステラーゼ、ヘビ毒ホスホジエステラーゼなど)、デオキシリボヌクレアーゼ(DNアーゼ)、リボヌクレアーゼ(RNアーゼ)、flapエンドヌクレアーゼ、5’ヌクレアーゼ、3’ヌクレアーゼ、3’−5’エクソヌクレアーゼ、5’−3’エクソヌクレアーゼなど、またはこれらの組合せを含みうる。トリミングされたプローブは一般に、それらがハイブリダイズする断片と同じ長さまたは実質的に同じ長さである。したがって、本明細書におけるトリミングされたプローブの長さを決定することにより、対応する核酸断片の長さの測定値をもたらすことができる。トリミングされたプローブの長さは、核酸断片の長さを決定するための方法であって、当技術分野で公知であるかまたは本明細書で記載される方法のうちのいずれかを使用して測定することができる。一部の実施形態では、プローブは、検出および/または長さの決定を容易とする、検出可能な分子または実体(例えば、フルオロフォア、放射性同位元素、比色剤、粒子、酵素など)を含有しうる。トリミングされたプローブの長さは、それらを除去した後における、ハイブリダイズしなかった部分の生成物を分離して評価する場合もあり、分離せずに評価する場合もある。
【0150】
一部の実施形態では、トリミングされたプローブを、それらの対応する核酸断片から解離する(すなわち、分離する)。プローブは、熱変性を含むがこれに限定されない、当技術分野で公知の任意の方法を使用して、それらの対応する核酸断片から分離することができる。トリミングされたプローブは、混合物中の分子種に標識付けし、かつ/またはこれらを単離するための、当技術分野で公知であるかまたは本明細書で記載される方法により、対応する核酸断片から識別することができる。例えば、プローブおよび/または核酸断片は、プローブが、それがハイブリダイズする核酸から識別可能となるように、検出可能な特性を含みうる。検出可能な特性の非限定的な例は、光学的特性、電気的特性、磁気的特性、化学的特性、ならびに既知のサイズの開口部を通る時間および/または速度を含む。一部の実施形態では、プローブおよび試料核酸断片を、互いから物理的に分離する。分離は、例えば、ビオチンなどの捕捉リガンドまたは他のアフィニティーリガンド、ならびにアビジン、ストレプトアビジン、抗体、または受容体などの捕捉剤を使用して達成することができる。プローブまたは核酸断片は、捕捉剤に対する特異的結合活性を有する捕捉リガンドを含有しうる。例えば、核酸試料に由来する断片は、当技術分野で周知の方法を使用して、ビオチニル化するか、またはアフィニティーリガンドへと結合させ、例えば、ストレプトアビジンでコーティングされたビーズをによるプルダウンアッセイを使用してプローブから分離することができる。一部の実施形態では、それらを、質量分析計内で検出されるプローブの質量範囲から除外しうるように、捕捉リガンドおよび捕捉剤または他の任意の成分(moiety)(例えば、質量タグ)を使用して、質量を核酸断片へと付加することができる。一部の実施形態では、単量体自体および/または質量タグの付加を介して、質量をプローブへと付加して、質量範囲を、核酸断片の質量範囲からシフトさせる。
核酸ライブラリー
【0151】
一部の実施形態では、核酸ライブラリーは、特定の処理(それらの非限定的な例として、固相(例えば、固体の支持体、例えば、フローセル、ビーズ)上への固定化、富化、増幅、クローニング、検出が挙げられる)のために、および/または核酸の配列決定のために、調製され、アセンブルされ、かつ/または改変される複数のポリヌクレオチド分子(例えば、核酸の試料)である。特定の実施形態では、核酸ライブラリーを、配列決定の処理の前または間に調製する。核酸ライブラリー(例えば、配列決定ライブラリー)を、当技術分野で公知の適切な方法により調製することができる。核酸ライブラリーを、標的化する調製処理または標的化しない調製処理により調製することができる。
【0152】
一部の実施形態では、核酸のライブラリーを改変して、固体の支持体への核酸の固定化のために構成される化学的部分(例えば、官能基)を含める。一部の実施形態では、核酸のライブラリーを改変して、固体の支持体へのライブラリーの固定化のために構成される、生体分子(例えば、官能基)および/または結合対のメンバーを含め、それらの非限定的な例として、チロキシン結合グロブリン、ステロイド結合タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、リプレッサー、プロテインA、プロテインG、アビジン、ストレプトアビジン、ビオチン、補体成分C1q、核酸結合タンパク質、受容体、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補的核酸配列等、およびそれらの組合せが挙げられる。特異的な結合対のいくつかの例として、非限定的に、アビジン部分とビオチン部分;抗原性エピトープと、抗体もしくはその免疫学的反応性断片;抗体とハプテン;ジゴキシゲニン(digoxigen)部分と抗ジゴキシゲニン(anti-digoxigen)抗体;フルオレセイン部分と抗フルオレセイン抗体;オペレーターとリプレッサー;ヌクレアーゼとヌクレオチド;レクチンと多糖;ステロイドとステロイド結合タンパク質;活性化合物と活性化合物の受容体;ホルモンとホルモン受容体;酵素と基質;免疫グロブリンとプロテインA;オリゴヌクレオチドもしくはポリヌクレオチドと、それに対応する相補体等、またはそれらの組合せが挙げられる。
【0153】
一部の実施形態では、核酸のライブラリーを改変して、既知の組成の1つまたは複数のポリヌクレオチドを含め、それらの非限定的な例として、識別子(例えば、タグ、インデックス化タグ)、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製開始点、ステムループ、相補配列(例えば、プライマー結合部位、アニーリング部位)、適切な組込み部位(例えば、トランスポゾン、ウイルス組込み部位)、改変ヌクレオチド等、またはそれらの組合せが挙げられる。既知の配列のポリヌクレオチドを、適切な位置、例えば、核酸配列の5’末端、3’末端または内部に付加することができる。既知の配列のポリヌクレオチドは、同じ配列であっても、または異なる配列であってもよい。一部の実施形態では、既知の配列のポリヌクレオチドを、表面(例えば、フローセル中の表面)上に固定化された1つまたは複数のオリゴヌクレオチドにハイブリダイズするように構成する。例えば、5’既知配列を含む核酸分子を、第1の、複数のオリゴヌクレオチドにハイブリダイズさせることができ、一方、その分子の3’既知配列を、第2の、複数のオリゴヌクレオチドにハイブリダイズさせることができる。一部の実施形態では、核酸のライブラリーは、染色体に特異的なタグ、捕捉配列、標識および/またはアダプターを含むことができる。一部の実施形態では、核酸のライブラリーは、1つまたは複数の検出可能な標識を含む。一部の実施形態では、1つまたは複数の検出可能な標識を、核酸ライブラリー中に、5’末端において、3’末端において、かつ/または該ライブラリー中の核酸の内部の任意のヌクレオチドの位置において組み入れることができる。一部の実施形態では、核酸のライブラリーは、ハイブリダイズさせたオリゴヌクレオチドを含む。特定の実施形態では、ハイブリダイズさせたオリゴヌクレオチドは、標識されたプローブである。一部の実施形態では、核酸のライブラリーは、固相上への固定化する前のハイブリダイズさせたオリゴヌクレオチドプローブを含む。
【0154】
一部の実施形態では、既知の配列のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列は、2つもしくはそれ超の核酸分子、または核酸分子の2つもしくはそれ超のサブセット中に組み込む特異的なヌクレオチド配列であり、ユニバーサル配列は、それが組み込まれている分子またはサブセットの分子全てについて同じである。ユニバーサル配列はしばしば、ユニバーサル配列に対して相補性である単一のユニバーサルプライマーを使用して、複数の異なる配列にハイブリダイズし、かつ/またはそれらを増幅するように設計される。一部の実施形態では、2つ(例えば、対)またはそれ超のユニバーサル配列および/またはユニバーサルプライマーを使用する。ユニバーサルプライマーはしばしば、ユニバーサル配列を含む。一部の実施形態では、アダプター(例えば、ユニバーサルアダプター)は、ユニバーサル配列を含む。一部の実施形態では、1つまたは複数のユニバーサル配列を使用して、核酸の複数の種またはサブセットを、捕捉、同定および/または検出する。
【0155】
核酸ライブラリーの調製の特定の実施形態では(例えば、合成の手順による特定の配列決定の場合には)、核酸を、サイズにより選択および/または断片化して、数百塩基対またはそれ未満の長さにする(例えば、ライブラリーの生成のための調製の場合)。一部の実施形態では、ライブラリーの調製を、断片化せずに行う(例えば、ccfDNAを使用する場合)。
【0156】
特定の実施形態では、ライゲーションに基づくライブラリーの調製方法を使用する(例えば、ILLUMINA TRUSEQ、Illumina、San Diego CA)。ライゲーションに基づくライブラリーの調製方法はしばしば、アダプター(例えば、メチル化アダプター)の設計を活用し、この設計は、最初のライゲーションのステップにおいて、インデックス配列を組み入れることができ、しばしば、シングルリードシーケンシング、ペアエンドシーケンシング、およびマルチプレックスシーケンシングのための試料を調製するために使用することができる。例えば、fill−in反応、エキソヌクレアーゼ反応、またはそれらの組合せにより、時には、核酸(例えば、断片化核酸またはccfDNA)の末端の修復をもたらす。一部の実施形態では、次いで、得られた平滑末端修復核酸を、アダプター/プライマーの3’末端上の単一ヌクレオチドのオーバーハングに対して相補性である単一ヌクレオチドにより伸長することができる。任意のヌクレオチドを、伸長/オーバーハングヌクレオチドのために使用することができる。一部の実施形態では、核酸ライブラリーの調製は、アダプターオリゴヌクレオチドのライゲーションを含む。アダプターオリゴヌクレオチドはしばしば、フローセルアンカーに対して相補性であり、時には、例えば、核酸ライブラリーを、固体の支持体、例として、フローセルの内側表面に固定化するために利用される。一部の実施形態では、アダプターオリゴヌクレオチドは、識別子、1つもしくは複数の配列決定プライマーハイブリダイゼーション部位(例えば、ユニバーサル配列決定プライマーに対して相補性である配列、シングルエンド配列決定プライマー、ペアエンド配列決定プライマー、マルチプレックス配列決定プライマー等)、またはそれらの組合せ(例えば、アダプター/配列決定、アダプター/識別子、アダプター/識別子/配列決定)を含む。
【0157】
識別子は、核酸(例えば、ポリヌクレオチド)中に組み入れるまたはそれにつなぐ、適切な検出可能な標識であり、識別子により、識別子を含む核酸の検出および/または同定が可能になる。一部の実施形態では、識別子を、配列決定法の間に、(例えば、ポリメラーゼにより)核酸中に組み入れるまたはそれにつなぐ。識別子の非限定的な例として、核酸タグ、核酸のインデックスもしくはバーコード、放射標識(例えば、同位体)、金属標識、蛍光標識、化学発光標識、リン光標識、フルオロフォアクエンチャー、色素、タンパク質(例えば、酵素、抗体もしくはその一部分、リンカー、結合対のメンバー)等、またはそれらの組合せが挙げられる。一部の実施形態では、識別子(例えば、核酸のインデックスまたはバーコード)は、ユニークな、既知のおよび/または同定可能な配列のヌクレオチドまたはヌクレオチド類似体である。一部の実施形態では、識別子は、6つまたはそれ超の連続ヌクレオチドである。多様な異なる励起スペクトルおよび発光スペクトルを有する多数のフルオロフォアが入手可能である。任意の適切なタイプおよび/または数のフルオロフォアを、識別子として使用することができる。一部の実施形態では、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、10個もしくはそれ超、20個もしくはそれ超、30個もしくはそれ超、または50個もしくはそれ超の異なる識別子が、本明細書に記載する方法(例えば、核酸の検出および/または配列決定法)において利用される。一部の実施形態では、1つまたは2つのタイプの識別子(例えば、蛍光標識)を、ライブラリー中のそれぞれの核酸に連結する。識別子の検出および/または定量を、適切な方法、装置またはマシンにより行うことができ、それらの非限定的な例として、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、ルミノメーター、蛍光光度計、分光光度計、適切な遺伝子チップもしくはマイクロアレイによる分析、ウエスタンブロット、質量分析、クロマトグラフィー、細胞蛍光測定法による分析、蛍光顕微鏡法、適切な蛍光法もしくはデジタル撮像法、共焦点レーザー走査顕微鏡法、レーザー走査細胞数測定、親和性クロマトグラフィー、手作業バッチモードによる分離、電場懸濁、適切な核酸配列決定法および/または核酸シーケンサー等、ならびにそれらの組合せが挙げられる。
【0158】
一部の実施形態では、トランスポゾンに基づくライブラリーの調製方法を使用する(例えば、EPICENTRE NEXTERA、Epicentre、Madison WI)。トランスポゾンに基づく方法は典型的には、in vitroでの転位を使用して、単一チューブ中での反応においてDNAの断片化およびタグ付けを同時に行い(しばしば、プラットフォームに特異的なタグおよび任意選択のバーコードの組み入れが可能である)、シーケンサーで使用できるライブラリーを調製する。
【0159】
一部の実施形態では、核酸ライブラリーまたはその一部分を増幅する(例えば、PCRに基づく方法により増幅する)。一部の実施形態では、配列決定法は、核酸ライブラリーの増幅を含む。核酸ライブラリーを、固体の支持体(例えば、フローセル中の固体の支持体)上への固定化の前または後に増幅することができる。核酸増幅は、(例えば、核酸ライブラリー中に)存在する核酸鋳型および/またはその相補体の数を、鋳型および/またはその相補体の1つまたは複数のコピーを生成することによって増幅するまたは増加させる処理を含む。増幅は、適切な方法により行うことができる。核酸ライブラリーを、サーモサイクリング法または等温増幅法により増幅することができる。一部の実施形態では、ローリングサークル増幅法を使用する。一部の実施形態では、増幅は、核酸ライブラリーまたはその部分が固定化されている、固体の支持体(例えば、フローセルの内部)上で起きる。特定の配列決定法では、核酸ライブラリーを、フローセルに添加し、適切な条件下でのハイブリダイゼーションによりアンカーに固定化する。このタイプの核酸増幅をしばしば、固相増幅と呼ぶ。固相増幅の一部の実施形態では、全部または一部の増幅産物を、固定化されたプライマーから開始する伸長により合成する。固相増幅反応は、増幅オリゴヌクレオチド(例えば、プライマー)のうちの少なくとも1つを固体の支持体上に固定化する点を除き、標準的な溶液相の増幅に類似する。
【0160】
一部の実施形態では、固相増幅は、表面へと固定化された、オリゴヌクレオチドプライマーの1つの種のみを含む、核酸増幅反応を含む。ある特定の実施形態では、固相増幅は、複数の異なる、固定化されたオリゴヌクレオチドプライマー種を含む。一部の実施形態では、固相増幅は、固体表面上に固定化された、オリゴヌクレオチドプライマーの1つの種と、溶液中の第2の異なるオリゴヌクレオチドプライマー種とを含む、核酸増幅反応を含みうる。固定化されたプライマーまたは溶液ベースのプライマーの複数の異なる種を使用することができる。固相核酸増幅反応の非限定的な例は、界面増幅、架橋増幅、エマルジョンPCR、WildFire増幅(例えば、米国特許公開第US20130012399号)など、またはこれらの組合せを含む。
【0161】
配列決定
一部の実施形態では、核酸(例えば、核酸断片、試料核酸、無細胞核酸)を配列決定することができる。一部の実施形態では、全長配列または実質的な全長配列を得るが、場合によって、部分配列を得る。一部の実施形態では、本明細書で記載される方法を実施する場合、核酸を配列決定せず、核酸の配列を配列決定法により決定しない。一部の実施形態では、配列決定法を使用して、断片の長さを決定する。一部の実施形態では、配列決定法を使用せずに、断片の長さを決定する。本明細書では、配列決定、マッピング、および関連する分析的方法が記載されており、当技術分野で公知である(例えば、参照により組み込まれる、米国特許出願公開第US2009/0029377号)。このような処理のある特定の態様については、本明細書の下記で記載する。
【0162】
一部の実施形態では、配列決定法を使用して、断片の長さを決定する。一部の実施形態では、ペアエンドシーケンシングプラットフォームを使用して、断片の長さを決定する。このようなプラットフォームは、核酸断片の両方の末端の配列決定を伴う。一般に、断片の両方の末端に対応する配列は、参照ゲノム(例えば、参照ヒトゲノム)へとマッピングすることができる。ある特定の実施形態では、両方の末端を、各断片末端について個別に、参照ゲノムへとマッピングするのに十分な読取りの長さで配列決定する。ペアエンド配列の読取りの長さの例を、下記に記載する。ある特定の実施形態では、配列の読取りの全部または部分を、ミスマッチを伴わずに参照ゲノムへとマッピングすることができる。一部の実施形態では、各読取りを、独立にマッピングする。一部の実施形態では、マッピング処理において、両方の配列の読取り(すなわち、各末端に由来する)に由来する情報の寄与の程度を加減する。例えば、各々のマッピングしたペアエンド読取り(paired-endread)へと割り当てられたゲノム座標の間の差違を計算することにより、断片の長さを決定することができる。
【0163】
一部の実施形態では、断片の長さは、断片について、完全なヌクレオチド配列または実質的に完全なヌクレオチド配列を得る、配列決定処理を使用して決定することができる。このような配列決定処理は、比較的長い読取りの長さを生成するプラットフォーム(例えば、Roche 454技術、Ion Torrent技術、単一分子技術(Pacific Biosciences)、リアルタイムSMRT技術など)を含む。
【0164】
一部の実施形態では、試料中の一部または全部の核酸を、配列決定の前または間に(例えば、非特異的に、例えば、PCRに基づく方法により)富化および/または増幅する。特定の実施形態では、試料中の特異的な、核酸の部分またはサブセットを、配列決定の前または間に富化および/または増幅する。一部の実施形態では、核酸のあらかじめ選択されたプールの部分またはサブセットの配列決定をランダムに行う。一部の実施形態では、配列決定の前または間に、試料中の核酸の富化および/または増幅を行わない。
【0165】
本明細書で使用する場合、「読取り」(reads)(すなわち、「読取り」(a read)、「配列の読取り」(a sequence read))は、本明細書に記載するまたは当技術分野で公知である、任意の配列決定の処理により生成された短いヌクレオチド配列である。読取りは、核酸断片の一方の末端から生成させることができ(「シングルエンドリード」)、時には、核酸の両方の末端から生成させる(例えば、ペアードエンドリード、ダブルエンドリード(double−end read))。
【0166】
配列の読取りの長さはしばしば、特定の配列決定の技術と関連する。例えば、高スループット法は、塩基対(bp)のサイズが数十から数百まで様々であり得る配列の読取りを提供する。例えば、ナノポア配列決定は、塩基対のサイズが数十から数百または数千まで様々であり得る配列の読取りを提供することができる。一部の実施形態では、配列の読取りの平均値、中央値、平均の長さまたは絶対長が、約15bp〜約900bp長である。特定の実施形態では、配列の読取りの平均値、中央値、平均の長さまたは絶対長が、約1000bpまたはそれ超である。
【0167】
一部の実施形態では、シングルエンドリードの名目の長さ、平均の長さ、平均値の長さ、または絶対の長さは、場合によって、約1ヌクレオチド〜約500連続ヌクレオチド、約15連続ヌクレオチド〜約50連続ヌクレオチド、約30連続ヌクレオチド〜約40連続ヌクレオチドであり、場合によって、約35連続ヌクレオチドまたは約36連続ヌクレオチドである。ある特定の実施形態では、シングルエンドリードの名目の長さ、平均の長さ、平均値の長さ、または絶対の長さは、約20〜約30塩基、または約24〜約28塩基の長さである。ある特定の実施形態では、シングルエンドリードの名目の長さ、平均の長さ、平均値の長さ、または絶対の長さは、約1、2、3、4、5、6、7、8、9、10、11、12、13,14、15、16、17、18、19、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、または49塩基の長さである。
【0168】
ある特定の実施形態では、ペアエンド読取りの名目の長さ、平均の長さ、平均値の長さ、または絶対の長さは、場合によって、約10連続ヌクレオチド〜約25連続ヌクレオチド(例えば、約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、または25ヌクレオチドの長さ)、約15連続ヌクレオチド〜約20連続ヌクレオチドであり、場合によって、約17連続ヌクレオチド、約18連続ヌクレオチド、約20連続ヌクレオチド、約25連続ヌクレオチド、約36連続ヌクレオチドまたは約45連続ヌクレオチドである。
【0169】
読取りとは、一般に、物理的核酸中のヌクレオチド配列の表示である。例えば、配列のATGC描示を含有する読取り中では、「A」は、物理的核酸中のアデニンヌクレオチドを表示し、「T」は、物理的核酸中のチミンヌクレオチドを表示し、「G」は、物理的核酸中のグアニンヌクレオチドを表示し、「C」は、物理的核酸中のシトシンヌクレオチドを表示する。妊娠中の雌の血液から得られた配列の読取りは、胎児の核酸と母体核酸との混合物からの読取りでありうる。比較的短い読取りの混合物は、本明細書で記載される処理により、妊娠中の雌中および/または胎児中に存在するゲノム核酸の表示へと変換することができる。比較的短い読取りの混合物は、例えば、コピー数の変動(例えば、母体および/または胎児のコピー数の変動)、遺伝子の変動、または異数性の表示へと変換することができる。母体核酸と胎児の核酸との混合物の読取りは、母体の染色体および胎児の染色体のうちの一方または両方の特徴を含む複合染色体またはそのセグメントの表示へと変換することができる。ある特定の実施形態では、試料の核酸配列の読取りを被験体から「得ること」および/または生物学的検体の核酸配列の読取りを1人または複数の参照の人から「得ること」は、核酸を直接配列決定して、配列情報を得ることを伴いうる。一部の実施形態では、「得ること」は、他者が核酸から直接得た配列情報を受けることを含みうる。
【0170】
一部の実施形態では、ゲノムのフラクションを配列決定するが、これは、場合によって、決定されたヌクレオチド配列によりカバーされるゲノムの量で表される(例えば、1「倍」未満のカバレッジ)。ゲノムを、約1倍のカバレッジで配列決定する場合、ゲノムのヌクレオチド配列のおよそ100%が、読取りにより表示される。ゲノムはまた、冗長性を伴って配列決定することもでき、ここで、ゲノムの所与の領域は、2つもしくはそれ超の読取りまたはオーバーラップする読取りによりカバーされうる(例えば、1「倍」超のカバレッジ)。一部の実施形態では、ゲノムを、約0.01倍〜約100倍のカバレッジ、約0.2倍〜20倍のカバレッジ、または約0.2倍〜約1倍のカバレッジ(例えば、約0.02倍、0.03倍、0.04倍、0.05倍、0.06倍、0.07倍、0.08、0.09倍、0.1倍、0.2倍、0.3倍、0.4倍、0.5倍、0.6倍、0.7倍、0.8倍、0.9倍、1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍のカバレッジ)で配列決定する。
【0171】
一部の実施形態では、ゲノムカバレッジまたは配列カバレッジは、全体的な配列の読取りのカウントに比例する。例えば、高量の配列の読取りのカウントを生成および/または分析するアッセイは、高レベルの配列カバレッジと関連することが典型的である。少数の配列の読取りのカウントを生成および/または分析するアッセイは、低レベルの配列カバレッジと関連することが典型的である。一部の実施形態では、配列カバレッジおよび/または配列の読取りのカウントは、本明細書で記載される方法の精度(例えば、感度および/または特異性)を有意に減少させずに低減することができる。精度の有意な減少は、配列の読取りのカウントの低減を使用しない方法と比較して、約1%〜約20%の精度の減少でありうる。例えば、精度の有意な減少は、約2%、3%、4%、5%、6%、7%、8%、9%、10%、15%またはそれ超の減少でありうる。一部の実施形態では、配列カバレッジおよび/または配列の読取りのカウントを、約50%またはそれ超低減する。例えば、配列カバレッジおよび/または配列の読取りのカウントは、約55%、60%、65%、70%、75%、80%、85%、90%、95%またはそれ超低減することができる。一部の実施形態では、配列カバレッジおよび/または配列の読取りのカウントを、約60%〜約85%低減する。例えば、配列カバレッジおよび/または配列の読取りのカウントは、約61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、または84%低減することができる。一部の実施形態では、配列カバレッジおよび/または配列の読取りのカウントは、ある特定の配列の読取りを除去することにより低減することができる。場合によって、特定の長さより長い断片(例えば、約160塩基より長い断片)に由来する配列の読取りを除去する。
【0172】
一部の実施形態では、読取りのサブセットを、分析について選択し、場合によって、読取りのある特定の部分を、分析から除去する。ある特定の場合は、読取りのサブセットの選択により、核酸の種(例えば、胎児核酸)について富化することができる。胎児核酸に由来する読取りの富化は、例えば、本明細書で記載される方法(例えば、胎児異数性の検出)の精度を増加させることが多い。しかし、分析からの読取りの選択および除去は、本明細書で記載される方法の精度を減少させる(例えば、分散の増加に起因する)ことが多い。したがって、理論に制約されずに述べると、一般に、読取りの選択および/または除去(例えば、特定のサイズ範囲内の断片からの)を含む方法では、胎児読取りの富化と関連する精度の増加と、読取りの量の低減と関連する精度の減少との間にトレードオフが存在する。一部の実施形態では、方法は、方法の精度を有意に減少させずに、胎児核酸に由来する読取りについて富化された読取りのサブセットを選択するステップを含む。本明細書で記載される通り、この見かけのトレードオフにも拘らず、ヌクレオチド配列の読取り(例えば、比較的短い断片に由来する読取り)のサブセットを活用することにより、胎児遺伝子分析の精度を向上させうるかまたは維持しうることが決定されている。例えば、ある特定の実施形態では、このようなヌクレオチド配列の読取りを廃棄しない同等な方法の場合の値と同様な感度値および特異性値を維持しながら、ヌクレオチド配列の読取りのうちの約80%またはそれ超を廃棄することができる。
【0173】
ある特定の実施形態では、核酸断片のサブセットを、配列決定する前に選択する。ある特定の実施形態では、ハイブリダイゼーションベースの技法(例えば、オリゴヌクレオチドアレイを使用する)を使用して、ある特定の染色体(例えば、性染色体および/または潜在的に異数性の染色体、ならびに被験異数性に関与しない他の染色体(複数可))に由来する核酸配列についてまず選択することができる。一部の実施形態では、核酸を、サイズにより(例えば、ゲル電気泳動、サイズ除外クロマトグラフィー、またはマイクロ流体技術ベースの手法により)分画することができ、ある特定の場合、胎児核酸は、低分子量(例えば、300塩基対未満、200塩基対未満、150塩基対未満、100塩基対未満)を有する核酸について選択することにより富化することができる。一部の実施形態では、胎児核酸は、ホルムアルデヒドを添加することなどにより、母体のバックグラウンド核酸を抑制することにより富化することができる。一部の実施形態では、核酸断片のあらかじめ選択されたセットの部分またはサブセットを、ランダムに配列決定する。一部の実施形態では、配列決定する前に、核酸を増幅する。一部の実施形態では、配列決定する前に、核酸の部分またはサブセットを増幅する。
【0174】
一部の実施形態では、1つの個体から得られた1つの核酸試料の配列決定を行う。特定の実施形態では、2つまたはそれ超の試料のそれぞれから得られた核酸の配列決定を行い、この場合、試料は、1つの個体から得られるか、または異なる個体から得られる。特定の実施形態では、2つまたはそれ超の生物学的試料から得られた核酸試料をプールし、この場合、それぞれの生物学的試料が、1つの個体、または2つもしくはそれ超の個体から得られ、プールした試料の配列決定を行う。後者の実施形態では、それぞれの生物学的試料から得られた核酸試料をしばしば、1つまたは複数のユニークな識別子または識別タグにより同定する。
【0175】
一部の実施形態では、配列決定法は、配列決定の処理における配列決定反応(sequence reaction)のマルチプレックス化を可能にする識別子を利用する。ユニークな識別子の数が多くなるほど、例えば、配列決定の処理においてマルチプレックス化することができる、検出される試料および/または染色体の数が増える。任意の適切な数(例えば、4、8、12、24、48、96個またはそれ超)のユニークな識別子を使用して、配列決定の処理を行うことができる。
【0176】
配列決定の処理は、時には固相を使用し、固相は、時にはフローセルを含み、フローセルの上に、ライブラリーに由来する核酸をつなぐことができ、試薬を、流し、つなげた核酸と接触させることができる。フローセルは時には、フローセルのレーンを含み、識別子の使用により、それぞれのレーン中のいくつかの試料の分析を促進することができる。フローセルはしばしば、結合させた被検体を保持し、かつ/または結合させた被検体上を試薬溶液が順序正しく通過するのを可能にするように構成することができる固体の支持体である。フローセルは、多くの場合、平面形状であり、光学的に透明であり、一般に、ミリメートルのまたはミリメートルを下回るスケールであり、しばしば、チャネルまたはレーンを有し、それらの中で、被検体と試薬との相互作用が発生する。一部の実施形態では、フローセルの所与のレーン中の分析される試料の数は、ライブラリーの調製および/またはプローブの設計の間に利用されるユニークな識別子の数に依存する。単一のフローセルのレーン。例えば、12個の識別子を使用するマルチプレックス化により、8レーンのフローセル中の(例えば、96ウエルのマイクロウエルプレート中のウエルの数に等しい)96個の試料を同時に分析するのが可能になる。同様に、例えば、48個の識別子を使用するマルチプレックス化により、8レーンのフローセル中の(例えば、384ウエルのマイクロウエルプレート中のウエルの数に等しい)384個の試料を同時に分析するのも可能になる。市販されているマルチプレックス配列決定キットの非限定的な例として、Illuminaのマルチプレックス化試料調製オリゴヌクレオチドキット、ならびにマルチプレックス化配列決定プライマーおよびPhiXコントロールキット(例えば、それぞれ、Illuminaのカタログ番号PE−400−1001およびPE−400−1002)が挙げられる。
【0177】
核酸の配列決定を行う任意の適切な方法を使用することができ、それらの非限定的な例として、Maxim & Gilbert、鎖停止法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡法に基づく技法等、またはそれらの組合せが挙げられる。一部の実施形態では、本明細書に提供する方法では、第一世代の技術、例えば、サンガー配列決定法等(これらとして、マイクロ流体サンガー配列決定を含めた、自動化サンガー配列決定法が挙げられる)を使用することができる。一部の実施形態では、核酸の撮像技術(例えば、透過型電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の使用を含む配列決定の技術を使用することができる。一部の実施形態では、高スループット配列決定法を使用する。高スループット配列決定法は一般に、DNA鋳型または単一のDNA分子をクローン的に増幅させることを含み、これらのクローン増幅させた鋳型または分子の配列決定を、大規模に並行して、時にはフローセルの内部で行う。大規模に並行してDNAの配列決定を行うことが可能な次世代(例えば、第2世代および第3世代)の配列決定の技法を、本明細書に記載する方法のために使用することができ、本明細書では、これらをまとめて「大規模並行配列決定」(MPS)と呼ぶ。一部の実施形態では、MPS配列決定法は、標的化のアプローチを利用し、この場合、特定の染色体、遺伝子、または目的の領域の配列決定を行う。特定の実施形態では、標的化しないアプローチを使用し、この場合、ランダムに、試料中のほとんどまたは全ての核酸の配列決定を行い、それらを増幅し、かつ/または捕捉する。
【0178】
一部の実施形態では、富化、増幅および/または配列決定の標的化アプローチを使用する。標的化のアプローチはしばしば、試料中の核酸のサブセットを単離、選択および/または富化して、配列に特異的なオリゴヌクレオチドの使用によりさらなる処理を行う。一部の実施形態では、配列に特異的なオリゴヌクレオチドのライブラリーを利用して、試料中の核酸の1つまたは複数のセットを標的にする(例えば、それらにハイブリダイズさせる)。しばしば、配列に特異的なオリゴヌクレオチドおよび/またはプライマーは、目的の染色体、遺伝子、エクソン、イントロンおよび/または調節領域の1つまたは複数中に存在する特定の配列(例えば、ユニークな核酸配列)に選択的である。任意の適切な方法または方法の組合せを使用して、標的とされる核酸の1つまたは複数のサブセットの富化、増幅および/または配列決定を行うことができる。一部の実施形態では、標的とされる配列を、1つまたは複数の配列特異的アンカーを使用して固相(例えば、フローセル、ビーズ)に捕捉することにより単離および/または富化する。一部の実施形態では、配列に特異的なプライマーおよび/またはプライマーセットを使用する、ポリメラーゼに基づく方法(例えば、任意の適切なポリメラーゼに基づく伸長による、PCRに基づく方法)により、標的とされる配列を富化および/または増幅する。配列特異的アンカーはしばしば、配列特異的プライマーとして使用することができる。
【0179】
MPS配列決定は時には、合成による配列決定および特定の可視化処理を使用する。本明細書に記載する方法において使用することができる核酸の配列決定の技術は、合成による配列決定および可逆的ターミネーターに基づく配列決定(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ2000;HISEQ2500(Illumina、San Diego CA))である。この技術を用いれば、数百万個の核酸(例えば、DNA)断片に対して、並行して配列決定を行うことができる。このタイプの配列決定の技術の1つの例では、8つの個々のレーンを有する光学的に透明なスライドを含有するフローセルを使用し、それらの表面上に、オリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合している。フローセルはしばしば、結合させた被検体を保持し、かつ/または結合させた被検体上を試薬溶液が順序正しく通過するのを可能にするように構成することができる固体の支持体である。フローセルは、多くの場合、平面形状であり、光学的に透明であり、一般に、ミリメートルのまたはミリメートルを下回るスケールであり、しばしば、チャネルまたはレーンを有し、それらの中で、被検体と試薬との相互作用が発生する。
【0180】
一部の実施形態では、合成による配列決定は、鋳型指向性の様式で、プライマーまたは既存の核酸鎖に、ヌクレオチドを反復して付加すること(例えば、共有結合による付加により)を含む。ヌクレオチドが反復付加される度に、検出を行い、核酸鎖の配列が得られるまで、この処理を複数回繰り返す。得られる配列の長さは一部分、実施される付加および検出のステップの数に依存する。合成による配列決定の一部の実施形態では、1ラウンドのヌクレオチド付加で、同じタイプ(例えば、A、G、CまたはT)の1、2、3つまたはそれ超のヌクレオチドを、付加し、検出する。ヌクレオチドは、任意の適切な方法により(例えば、酵素にまたは化学的に)付加することができる。例えば、一部の実施形態では、ポリメラーゼまたはリガーゼが、鋳型指向性の様式で、プライマーまたは既存の核酸鎖にヌクレオチドを付加する。合成による配列決定の一部の実施形態では、異なるタイプのヌクレオチド、ヌクレオチド類似体および/または識別子を使用する。一部の実施形態では、可逆的ターミネーターおよび/または除去可能(例えば、切断可能)な識別子を使用する。一部の実施形態では、蛍光標識されたヌクレオチドおよび/またはヌクレオチド類似体を使用する。特定の実施形態では、合成による配列決定は、切断(例えば、識別子の切断および除去)ならびに/または洗浄ステップを含む。一部の実施形態では、1つまたは複数のヌクレオチドの付加を、本明細書に記載するまたは当技術分野で公知である適切な方法により検出し、それらの非限定的な例として、任意の適切な撮像装置またはマシン、適切なカメラ、デジタルカメラ、CCD(チャージカップルデバイス)に基づく撮像装置(例えば、CCDカメラ)、CMOS(相補型金属酸化物シリコン(Complementary Metal Oxide Silicon))に基づく撮像装置(例えば、CMOSカメラ)、光ダイオード(例えば、光電子増倍管)、電子顕微鏡法、電界効果トランジスタ(例えば、DNA電界効果トランジスタ)、ISFETイオンセンサー(例えば、CHEMFETセンサー)等、またはそれらの組合せが挙げられる。本明細書の方法を実施するために使用することができるその他の配列決定法には、デジタルPCRおよびハイブリダイゼーションによる配列決定が含まれる。
【0181】
本明細書の方法を実施するために使用することができるその他の配列決定法には、デジタルPCRおよびハイブリダイゼーションによる配列決定が含まれる。デジタルポリメラーゼ連鎖反応(デジタルPCRまたはdPCR)を使用して、試料中の核酸の同定および定量を直接行うことができる。一部の実施形態では、デジタルPCRを、エマルジョン中で行うことができる。例えば、個々の核酸を、例えば、マイクロ流体チャンバーデバイス中で分離し、それぞれの核酸を、PCRにより個々に増幅する。1個のウエル当たり1つ以下の核酸が存在するように核酸を分離することができる。一部の実施形態では、異なるプローブを使用して、種々の対立遺伝子(例えば、胎児の対立遺伝子と母体の対立遺伝子と)を区別することができる。対立遺伝子を数え上げて、コピー数を決定することができる。
【0182】
特定の実施形態では、ハイブリダイゼーションによる配列決定を使用することができる。この方法は、複数のポリヌクレオチド配列を、複数のポリヌクレオチドプローブと接触させるステップを含み、複数のポリヌクレオチドプローブのそれぞれを、基材に任意選択でつなぎ止めることができる。一部の実施形態では、基材は、一群のの既知のヌクレオチド配列を有する平らな表面であり得る。アレイへのハイブリダイゼーションのパターンを使用して、試料中に存在するポリヌクレオチド配列を決定することができる。一部の実施形態では、それぞれのプローブを、ビーズ、例えば、磁性ビーズ等につなぎ止める。ビーズへのハイブリダイゼーションを同定し、試料内の複数のポリヌクレオチド配列を同定するために使用することができる。
【0183】
一部の実施形態では、本明細書に記載する方法において、ナノポア配列決定を使用することができる。ナノポア配列決定は、単一分子の配列決定の技術であり、それにより、単一の核酸分子(例えば、DNA)がナノポアを通過する度に、その配列を直接決定する。本明細書に記載する実施方法に適切なMPSの方法、システムまたは技術プラットフォームを使用して、核酸を配列決定した読取りを得ることができる。MPSプラットフォームの非限定的な例として、Illumina/Solex/HiSeq(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ2000;HISEQ)、SOLiD、Roche/454、PACBIOおよび/またはSMRT、Helicos True Single Molecule Sequencing、Ion Torrentおよびイオン半導体に基づく配列決定(例えば、Life Technologiesが開発したもの)、WildFire、5500、5500xl Wおよび/または5500xl W Genetic Analyzerに基づく技術(例えば、Life Technologiesが開発し、販売するもの、米国特許公開第US20130012399号);ポロニー配列決定、パイロシーケンシング、大規模並行シグネチャー配列決定(MPSS)、RNAポリメラーゼ(RNAP)配列決定、LaserGenのシステムおよび方法、ナノポアに基づくプラットフォーム、化学感応性電界効果トランジスタ(CHEMFET)アレイ、電子顕微鏡法に基づく配列決定(例えば、ZS Genetics、Halcyon Molecularが開発したもの)、ナノボール配列決定が挙げられる。
【0184】
一部の実施形態では、染色体に特異的な配列決定を行う。一部の実施形態では、DANSR(選択された領域のデジタル分析)を利用して、染色体に特異的な配列決定を行う。選択された領域のデジタル分析を行うことによって、PCR鋳型を形成するための、介在「ブリッジ」オリゴヌクレオチドを介する、2つの座位特異的オリゴヌクレオチドのcfDNAに依存するカテネーションにより、数百個の座位を同時に定量することが可能になる。一部の実施形態では、染色体に特異的な配列が富化されたライブラリーを生成することによって、染色体に特異的な配列決定を行う。一部の実施形態では、配列の読取りを、選択された一連の染色体についてのみ得る。一部の実施形態では、配列の読取りを、第21、18および13染色体についてのみ得る。
マッピングの読取り
【0185】
配列の読取りをマッピングすることができ、特定の核酸領域(例えば、染色体、その部分またはセグメント)に対してマッピングする読取りの数を、カウントと呼ぶ。任意の適切なマッピングの方法(例えば、処理、アルゴリズム、プログラム、ソフトウエア、モジュール等、またはそれらの組合せ)を使用することができる。下記に、マッピング処理の特定の態様を記載する。
【0186】
ヌクレオチド配列の読取り(すなわち、ゲノムの物理的な位置が不明である断片から得られた配列情報)のマッピングを、いくつかの方法で実施することができ、これはしばしば、得られた配列の読取りの、参照ゲノム中の一致する配列とのアラインメントを含む。そのようなアラインメントでは、配列の読取りを一般に、参照配列に対して整列させ、整列させた読取りを、「マッピング」されている、「マッピングされた配列の読取り」または「マッピングされた読取り」と呼ぶ。特定の実施形態では、マッピングされた配列の読取りを、「ヒット」または「カウント」と呼ぶ。一部の実施形態では、マッピングされた配列の読取りを、種々のパラメータに従って、一緒にしてグループ化し、特定の部分に割り当てるが、これに関しては、下記にさらに詳細に論じる。
【0187】
本明細書で使用する場合、用語「整列させた(aligned)」、「アラインメント(alignment)」または「整列する(aligning)」により、一致(例えば、100%同一)または部分一致と同定され得る2つまたはそれ超の核酸配列について言及する。アラインメントは、手作業でまたはコンピュータ(例えば、ソフトウェア、プログラム、モジュールもしくはアルゴリズム)により行うことができ、それらの非限定的な例として、Illumina Genomics Analysisパイプラインの一部として流通されているEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムが挙げられる。配列の読取りのアラインメントは、100%配列一致であり得る。場合によっては、アラインメントは、100%配列一致よりも低い(すなわち、不完全一致、部分一致、部分アラインメント)。一部の実施形態では、アラインメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%または75%一致である。一部の実施形態では、アラインメントは、不一致を含む。一部の実施形態では、アラインメントは、1、2、3、4または5つの不一致を含む。2つまたはそれ超の配列は、いずれかの鎖を使用して整列させることができる。特定の実施形態では、核酸配列を、別の核酸配列の逆相補体と整列させる。
【0188】
種々の計算方法を使用して、それぞれの配列の読取りをある部分に対してマッピングすることができる。配列を整列させるために使用することができるコンピュータアルゴリズムの非限定的な例として、BLAST、BLITZ、FASTA、BOWTIE1、BOWTIE2、ELAND、MAQ、PROBEMATCH、SOAPもしくはSEQMAP、またはそれらの変更形態もしくはそれらの組合せが挙げられるが、これらに限定されない。一部の実施形態では、配列の読取りを、参照ゲノム中の配列と整列させることができる。一部の実施形態では、配列の読取りを、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)およびDDBJ(DNA Databank of Japan)を含めた、当技術分野で公知の核酸のデータベース中に見出し、かつ/またはそれらの中の配列と整列させることができる。BLASTまたは類似のツールを使用して、同定された配列を配列データベースに照らして検索することができる。次いで、例えば、(下記に記載するように)検索ヒットを使用して、同定された配列を適切な部分へと選別することができる。
【0189】
一部の実施形態では、読取りを、参照ゲノム中の部分に対してユニークまたは非ユニークにマッピングすることができる。参照ゲノム中の単一配列との整列の場合であれば、読取りは、「ユニークにマッピングされる」とみなされる。参照ゲノム中の2つまたはそれ超の配列との整列の場合であれば、読取りは、「非ユニークにマッピングされる」とみなされる。一部の実施形態では、非ユニークにマッピングされた読取りは、さらなる分析(例えば、定量)から排除される。特定の実施形態では、特定の、低い程度の不一致(0〜1つ)は、参照ゲノムと、マッピングされている、個々の試料から得られた読取りとの間に存在し得る一塩基多型であると説明することができる場合がある。一部の実施形態では、参照配列に対してマッピングされる読取りには、いかなる程度の不一致も許されない。
【0190】
本明細書で使用する場合、用語「参照ゲノム」は、部分であれ、完全であれ、任意の生物またはウイルスの任意の特定の公知の配列決定されたまたは特徴付けられたゲノムであって、被験体由来の同定された配列を照会するために使用することができるゲノムを指すことができる。例えば、ヒト被験体および多くのその他の生物のために使用する参照ゲノムを、www.ncbi.nlm.nih.govにおけるNational Center for Biotechnology Informationにおいて見出すことができる。「ゲノム」は、核酸配列として表される、生物またはウイルスの完全な遺伝情報を指す。本明細書で使用する場合、参照配列または参照ゲノムはしばしば、1つの個体または複数の個体から得られた、アセンブルしたまたは部分的にアセンブルしたゲノム配列である。一部の実施形態では、参照ゲノムは、1つまたは複数のヒト個体から得られた、アセンブルしたまたは部分的にアセンブルしたゲノム配列である。一部の実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。
【0191】
特定の実施形態では、試料核酸が妊娠中の雌に由来する場合、参照配列が時には、胎児にも、胎児の母親にも、胎児の父親にも由来せず、これを本明細書では「外部参照」と呼ぶ。一部の実施形態では、母体の参照を調製し、使用することができる。外部参照に基づいて、妊娠中の雌からの参照(「母体の参照配列」)を調製する場合、胎児のDNAを実質的に含有しない、妊娠中の雌のDNAから得られた読取りをしばしば、外部参照配列に対してマッピングし、アセンブルする。特定の実施形態では、外部参照は、妊娠中の雌と実質的に同じ民族性を有する個体のDNAに由来する。母体の参照配列は、母体のゲノムDNAを完全にはカバーしない場合があり(例えば、母体のゲノムDNAの約50%、60%、70%、80%、90%またはそれ超をカバーする場合がある)、母体の参照は、母体のゲノムDNA配列と完全には一致しない場合がある(例えば、母体の参照配列は、複数の不一致を含む場合がある)。
【0192】
特定の実施形態では、マッピング可能性を、ゲノム領域(例えば、部分、ゲノム部分、部分)について評価する。マッピング可能性は、ヌクレオチド配列の読取りを、参照ゲノムのある部分に対して、典型的には、例えば、0、1、2つまたはそれ超の不一致を含めた、特定の数の不一致が存在するだけで、明確に整列させることができることである。所与のゲノム領域について、事前にセットされた、読取りの長さのスライディングウィンドウのアプローチを使用し、得られた、読取りレベルのマッピング可能性の値を平均化して、予想されるマッピング可能性を推定することができる。ユニークなヌクレオチド配列のストレッチを含むゲノム領域が時には、高いマッピング可能性の値を有する。
部分
【0193】
一部の実施形態では、マッピングされる配列の読取り(すなわち、配列タグ)を、種々のパラメータに従って、一緒にしてグループ化し、特定の部分(例えば、参照ゲノムの部分)に割り当てる。しばしば、個々のマッピングされる配列の読取りを使用して、試料中に存在する、ある部分(例えば、ある部分の存在、不在または量)を同定することができる。一部の実施形態では、部分の量は、試料中のより大きな配列(例えば、染色体)の量を示す。用語「部分」はまた、本明細書では、「ゲノム区分」、「ビン」、「領域」、「区画」、「参照ゲノムの部分」、「染色体の部分」または「ゲノム部分」と呼ぶこともできる。一部の実施形態では、部分は、染色体全体、染色体のセグメント、参照ゲノムのセグメント、複数の染色体に広がるセグメント、複数の、染色体のセグメント、および/またはそれらの組合せである。一部の実施形態では、部分は、特定のパラメータ(例えば、指標)に基づいてあらかじめ定義される。一部の実施形態では、部分は、ゲノムの区分化(例えば、サイズ、GC含有量、連続した領域、恣意的に定義されたサイズの連続した領域等による区分化)に基づいて恣意的にまたは非恣意的に定義される。一部の実施形態では、部分は、個別ゲノムビン、所定の長さの連続配列を有するゲノムビン、可変サイズビン、スムージングされたカバレッジマップの地点ベースの図示、および/またはこれらの組み合わせから選択される。
【0194】
一部の実施形態では、部分は、例えば、配列の長さまたは1つもしくは複数の特定の特徴を含む、1つまたは複数のパラメータに基づいて描写される。当技術分野で公知であるまたは本明細書に記載する任意の適切な判定基準を使用して、部分は、選択し、フィルタリングし、かつ/または検討事項から除去することができる。一部の実施形態では、部分は、ゲノム配列の特定の長さに基づく。一部の実施形態では、方法は、複数の部分に対してマッピングされた、複数の配列の読取りの分析を含むことができる。部分はおよそ同じ長さであってもよく、または部分は異なる長さであってもよい。一部の実施形態では、部分は、ほぼ等しい長さのものである。一部の実施形態では、異なる長さの部分を調整する、またはそれらに重み付けする。一部の実施形態では、部分は、約10キロベース(kb)〜約20kb、約10kb〜約100kb、約20kb〜約80kb、約30kb〜約70kb、約40kb〜約60kbである。一部の実施形態では、部分は、約10kb、約20kb、約30kb、約40kb、約50kbまたは約60kbの長さである。部分は、配列の連続するランに限定されない。したがって、部分は、連続するおよび/または連続しない配列から構成され得る。部分は、単一の染色体に限定されない。一部の実施形態では、部分は、1つの染色体の全部もしくは一部、または2つもしくはそれ超の染色体の全部もしくは一部を含む。一部の実施形態では、部分は、1、2つまたはそれ超の染色体全体に広がり得る。さらに、部分は、複数の染色体のつながっているまたは離れた領域にも広がり得る。
【0195】
一部の実施形態では、部分は、目的の染色体、例えば、遺伝子の変動(例えば、第13、18および/もしくは21染色体、または性染色体の異数性)を評価する染色体等における特定の染色体のセグメントであり得る。部分はまた、病原体のゲノム(例えば、細菌の、真菌の、もしくはウイルスの)、またはその断片であり得る。部分は、遺伝子、遺伝子の断片、調節配列、イントロン、エクソン等であり得る。
【0196】
一部の実施形態では、ゲノム(例えば、ヒトゲノム)を、特定の領域の情報内容に基づいて、部分に区分化する。一部の実施形態では、ゲノムの区分化は、ゲノムにわたって類似の領域(例えば、同一または相同な領域または配列)を排除し、ユニークな領域のみを保持することができる。区分化する間に除去される領域は、単一の染色体内にある場合または複数の染色体に広がる場合がある。一部の実施形態では、区分化されたゲノムを、より迅速なアラインメントのために、切り詰め、最適化して、しばしば、ユニークに同定することが可能な配列に焦点を当てるのを可能にする。
【0197】
一部の実施形態では、区分化して、類似の領域の重み付けを減らすことができる。下記に、部分の重み付けを減らすための処理について、さらに詳細に論じる。
【0198】
一部の実施形態では、染色体の範囲を超える領域へのゲノムの区分化は、分類の状況で生成した情報のゲインに基づいて行うことができる。例えば、正常と確認された被験体群と異常と確認された被験体群と(例えば、それぞれ、正倍数体の被験体とトリソミーの被験体と)を区別するための特定のゲノムの場所の有意性を測定するp値プロファイルを使用して、情報内容を定量することができる。一部の実施形態では、例えば、タグを整列させる間のスピード/利便性、GC含有量(例えば、高いもしくは低いGC含有量)、GC含有量の一様性、配列の含有量のその他の尺度(例えば、個々のヌクレオチドの割合、ピリミジンもしくはプリンの割合、天然核酸対非天然核酸の割合、メチル化ヌクレオチドの割合、およびCpG含有量)、メチル化状況、二重鎖の融解温度、配列決定もしくはPCRへの適用可能性、参照ゲノムの個々の部分に割り当てられた不確実性の値、ならびに/または特定の特徴を標的とする検索等の任意のその他の判定基準に基づいて、染色体の範囲を超える領域へのゲノムの区分化を行うことができる。
【0199】
染色体の「セグメント」は、一般に染色体の一部分であり、典型的には部分とは異なる染色体の一部分である。染色体のセグメントは、時には部分とは異なる染色体の領域中にあり、時には部分とはポリヌクレオチドを共有せず、時には部分中にあるポリヌクレオチドを含む。染色体のセグメントは、しばしば部分よりも大きな数のヌクレオチドを含有し(例えば、セグメントは、時には部分を含む)、染色体のセグメントは、時には部分よりも小さな数のヌクレオチドを含有する(例えば、セグメントは、時には部分内にある)。
【0200】
部分のフィルタリングおよび/または選択
場合によって、本明細書で記載されるか、または当技術分野で公知の、1つもしくは複数の特徴、パラメータ、判定基準、および/または方法に従って、部分を処理する(例えば、正規化、フィルタリング、選択など、またはこれらの組合せを施す)。部分は、任意の適切な方法により、かつ、任意の適切なパラメータに従って処理することができる。部分をフィルタリングおよび/または選択するのに使用しうる特徴および/またはパラメータの非限定的な例は、カウント、カバレッジ、マッピング可能性、可変性、不確定性のレベル、グアニン−シトシン(GC:guanine−cytosine)含有量、CCF断片の長さおよび/または読取りの長さ(例えば、断片長比(FLR:fragment length ratio)、胎児比統計値(FRS:fetal ratio statistic))、DNアーゼI感受性、メチル化状況、アセチル化、ヒストン分布、クロマチン構造など、またはこれらの組合せを含む。部分は、本明細書で列挙または記載される特徴またはパラメータと相関する、任意の適切な特徴またはパラメータに従って、フィルタリングおよび/または選択することができる。部分は、部分に特異的な(例えば、複数の試料に従って、単一の部分について決定された)特徴もしくはパラメータおよび/または試料に特異的な(例えば、試料中の複数の部分について決定された)特徴もしくはパラメータに従って、フィルタリングおよび/または選択することができる。一部の実施形態では、部分を、比較的小さなマッピング可能性、比較的大きな可変性、高い不確定性のレベル、比較的長いCCF断片の長さ(例えば、低FRS、低FLR)、反復配列の比較的大きなフラクション、高GC含有量、低GC含有量、低カウント、ゼロカウント、高カウントなど、またはこれらの組合せに従って、フィルタリングおよび/または除去する。一部の実施形態では、部分(例えば、部分のサブセット)を、適切なマッピング可能性のレベル、可変性、不確定性のレベル、反復配列のフラクション、カウント、GC含有量など、またはこれらの組合せに従って選択する。一部の実施形態では、部分(例えば、部分のサブセット)を、比較的短いCCF断片の長さ(例えば、高FRS、高FLR)に従って選択する。場合によって、部分(例えば、部分のサブセット)をフィルタリングもしくは選択する前に、かつ/またはフィルタリングもしくは選択した後で、部分へとマッピングしたカウントおよび/または読取りを処理する(例えば、正規化する)。一部の実施形態では、部分(例えば、部分のサブセット)をフィルタリングもしくは選択する前に、かつ/またはフィルタリングもしくは選択した後で、部分へとマッピングしたカウントおよび/または読取りを処理しない。
【0201】
任意の適切な数の試料に由来する配列の読取りを活用して、本明細書で記載される、1つまたは複数の判定基準、パラメータ、および/または特徴を満たす部分のサブセットを同定することができる。場合によって、複数の妊娠中の雌に由来する試料の群に由来する配列の読取りを活用する。複数の妊娠中の雌の各々に由来する1または複数の試料(例えば、各妊娠中の雌に由来する1〜約20の試料(例えば、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、または19の試料))に対処することができ、適切な数の妊娠中の雌(例えば、約2〜約10,000例の妊娠中の雌(例えば、約10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000例の妊娠中の雌))に対処することができる。一部の実施形態では、同じ妊娠中の雌に由来する同じ試験試料(複数可)に由来する配列の読取りを、参照ゲノム中の部分へとマッピングし、部分のサブセットを生成するのに使用する。
【0202】
妊娠中の雌から得られた循環無細胞核酸断片(CCF断片)は一般に、胎児細胞に由来する核酸断片(すなわち、胎児断片)と、母体細胞に由来する核酸断片(すなわち、母体断片)とを含むことが観察されている。本明細書では、胎児に由来するCCF断片から導出された配列の読取りを、「胎児読取り」と称する。本明細書では、胎児を出産する妊娠中の雌(例えば、母親)のゲノムに由来するCCF断片から導出された配列の読取りを、「母体読取り」と称する。本明細書では、胎児読取りが得られるCCF断片を、胎児鋳型と称し、本明細書では、母体読取りが得られるCCF断片を、母体鋳型と称する。
【0203】
また、CCF断片中では、胎児断片は一般に、比較的短く(例えば、約200塩基対またはそれ未満の長さであり)、母体断片は、このような比較的短い断片と、比較的長い断片とを含むことも観察されている。比較的短い断片に由来する有意な量の読取りをマッピングした部分のサブセットを、選択および/または同定することができる。理論に制約されずに述べると、このような部分へとマッピングした読取りは、胎児読取りについて富化されており、これは、胎児遺伝子分析(例えば、胎児の遺伝子の変動(例えば、胎児の染色体異数性(例えば、T21、T18および/またはT13))の存在または非存在の検出)の精度を向上させうることが期待される。
【0204】
しかし、胎児遺伝子分析が、読取りのサブセットに基づく場合、有意な数の読取りを検討しないことが多い。胎児遺伝子分析のための、選択された部分のサブセットへとマッピングした読取りのサブセットの選択と、選択されなかった部分中の読取りの除去とは、例えば、分散の増加に起因して、遺伝子分析の精度を減少させうる。一部の実施形態では、被験体または試料のマップから得られた配列決定の読取りのうちの約30%〜約70%(例えば、約35%、40%、45%、50%、55%、60%、または65%)は、胎児遺伝子分析のための部分のサブセットを選択するときに検討から除去する。ある特定の実施形態では、被験体または試料から得られた配列決定の読取りのうちの約30%〜約70%(例えば、約35%、40%、45%、50%、55%、60%、または65%)を、胎児遺伝子分析のために活用される部分のサブセットへとマッピングする。
【0205】
したがって、理論に制約されずに述べると、胎児読取りの富化と関連する精度の増加と、胎児遺伝子分析のための読取りデータ量の低減(例えば、部分および/または読取りの除去)と関連する精度の減少との間では一般に、トレードオフが存在する。一部の実施形態では、方法は、胎児核酸に由来する読取り(例えば、胎児読取り)について富化された部分のサブセットであって、胎児遺伝子分析の精度を向上させるかまたは有意には減少させない部分のサブセットを選択するステップを含む。本明細書で記載される通り、この見かけのトレードオフにも拘らず、比較的短い断片に由来する有意な量の読取りをマッピングした部分のサブセットを活用することにより、胎児遺伝子分析の精度を向上させうることが決定されている。
【0206】
一部の実施形態では、部分のサブセットを、CCF断片に由来する読取りに従って選択するが、ここで、部分へとマッピングした読取りは、選択された断片の長さ未満の長さを有する。場合によって、部分のサブセットは、この判定基準を満たさない部分をフィルタリングすることにより選択する。ある特定の実施形態では、部分のサブセットを、部分へとマッピングされる比較的短いCCF断片(例えば、約200塩基対またはそれ未満)から導出された読取りの量に従って選択する。任意の適切な方法を活用して、選択された断片の長さ未満の長さ(例えば、第1の選択された断片の長さ)を有するCCF断片に由来する有意な量の読取りをマッピングした部分を同定および/または選択することができる。選択された断片の長さ未満の長さを有するCCF断片は、比較的短いCCF断片であることが多く、場合によって、選択された断片の長さは、約200塩基対またはそれ未満である(例えば、約190、180、170、160、150、140、130、120、110、100、90、または80塩基の長さであるCCF断片である)。CCF断片の長さは、断片から導出された2つまたはそれ超の読取り(例えば、ペアエンド読取り)を、参照ゲノムへとマッピングすることにより決定(例えば、指定または推測)することができる。CCF断片から導出されたペアエンド読取りでは、例えば、読取りを、参照ゲノムへとマッピングすることができ、マッピングした読取りの間のゲノム配列の長さを決定することができ、2つの読取りの長さおよび読取りの間のゲノム配列の長さのすべては、CCF断片の長さに等しい。場合によって、CCF断片鋳型の長さは、断片から導出された読取り(例えば、シングルエンドリード)の長さから直接決定する。
【0207】
一部の実施形態では、CCF断片に由来する有意量の読取りであって、選択された断片の長さ未満の長さを有する読取りについての部分のサブセットは、CCF断片に由来する、マッピングした読取りであり、第1の選択された断片の長さ未満の長さを有する読取りの量が、CCF断片に由来する、マッピングした読取りであり、第2の選択された断片の長さ未満の長さを有する読取りの量超であるのかどうかに従って選択および/または同定する。ある特定の実施形態では、CCF断片に由来する有意な量の読取りであって、選択された断片の長さ未満の長さを有する読取りについての部分のサブセットは、部分についての、CCF断片に由来する、マッピングした読取りであり、第1の選択された断片の長さ未満の長さを有する読取りの量が、分析される部分についての、CCF断片に由来する、マッピングした読取りであり、第2の選択された断片の長さ未満の長さを有する読取りの量の平均超、平均値超、または中央値超であるのかどうかに従って選択および/または同定する。一部の実施形態では、CCF断片に由来する有意な量の読取りであって、選択された断片の長さ未満の長さを有する読取りについての部分のサブセットは、各部分について決定された断片長比(FLR)に基づき、選択および/または同定する。本明細書ではまた、「断片長比」を、胎児比統計値(FRS)とも称する。
【0208】
ある特定の実施形態では、FLRは一部分、部分へとマッピングした、CCF断片に由来する読取りであって、選択された断片の長さ未満の長さを有する読取りの量に従って決定する。一部の実施形態では、FLR値は、XのYに対する比であることが多く、ここで、Xは、第1の選択された断片の長さ未満の長さを有する、CCF断片に由来する読取りの量であり、Yは、第2の選択された断片の長さ未満の長さを有する、CCF断片に由来する読取りの量である。第1の選択された断片の長さは、第2の選択された断片の長さから独立に選択することが多く、この逆も成り立ち、第2の選択された断片の長さは、第1の選択された断片の長さより長いことが典型的である。第1の選択された断片の長さは、約200塩基またはそれ未満〜約30塩基またはそれ未満でありうる。一部の実施形態では、第1の選択された断片の長さは、約200、190、180、170、160、155、150、145、140、135、130、125、120、115、110、105、100、95、90、85、80、75、70、65、60、55、または50塩基である。一部の実施形態では、第1の選択された断片の長さは、約170〜約130塩基であり、場合によって、約160〜約140塩基である。一部の実施形態では、第2の選択された断片の長さは、約2000塩基〜約200塩基である。ある特定の実施形態では、第2の選択された断片の長さは、約1000、950、800、850、800、750、700、650、600、550、500、450、400、350、300、250塩基である。一部の実施形態では、第1の選択された断片の長さは、約140〜約160塩基(例えば、約150塩基)であり、第2の選択された断片の長さは、約500〜約700塩基(例えば、約600塩基)である。一部の実施形態では、第1の選択された断片の長さは、約150塩基であり、第2の選択された断片の長さは、約600塩基である。
【0209】
一部の実施形態では、FLRは、複数のFLR値の平均、平均値、または中央値である。例えば、場合によって、所与の部分についてのFLRは、(i)2つまたはそれ超の試験試料、(ii)2体またはそれ超の被験体、または(iii)2つまたはそれ超の試験試料および2体またはそれ超の被験体についてのFLR値の平均、平均値、または中央値である。ある特定の実施形態では、平均、平均値、または中央値のFLRは、ゲノム、染色体、またはこれらのセグメントの2つまたはそれ超の部分についてのFLR値から導出する。一部の実施形態では、平均、平均値、または中央値のFLRは、不確定性(例えば、標準偏差、中央値の絶対偏差)と関連する。
【0210】
一部の実施形態では、部分のサブセットは、1つまたは複数のFLR値(例えば、1つまたは複数のFLR値の比較)に従って選択および/または同定する。ある特定の実施形態では、部分のサブセットは、FLRおよび閾(例えば、FLRと閾との比較)に従って選択および/または同定する。ある特定の実施形態では、所与の部分から導出された、平均、平均値、または中央値のFLRを、ゲノム、染色体、またはこれらのセグメントの2つまたはそれ超の部分から導出された平均、平均値、または中央値のFLRと比較する。例えば、場合によって、所与の部分についての平均FLRを、所与の部分についての中央値FLRと比較する。ある特定の実施形態では、部分は、部分について決定された、平均、平均値、または中央値のFLRと、部分のコレクション(例えば、ゲノム、染色体、またはこれらのセグメントに由来する部分)について決定された、平均、平均値、または中央値のFLRとに従って選択および/または同定する。一部の実施形態では、部分についての平均FLRは、中央値FLRに従って決定された、ある特定の閾を下回り、部分を、検討(例えば、胎児遺伝子分析における)から除去する。一部の実施形態では、部分についての平均、平均値、または中央値のFLRは、ゲノム、染色体、またはこれらのセグメントについての平均、平均値、または中央値のFLRに従って決定された、ある特定の閾を上回り、部分を、検討(例えば、遺伝子の変動の存在または非存在を決定する場合の)のために選択し、かつ/またはこのための部分のサブセットへと付加する。一部の実施形態では、部分についてのFLRは、約0.15〜約0.30(例えば、約0.16、0.17、0.18、0.19、0.20、0.21、0.21、0.22、0.23、0.24、0.25、0.26、0.27、0.28、0.29)に等しいかまたはそれ超であり、部分を、検討のために選択する(例えば、胎児遺伝子分析のための部分のサブセットへと付加するかまたは組み込む)。一部の実施形態では、部分についてのFLRは、約0.20〜約0.10(例えば、約0.19、0.18、0.17、0.16、0.15、0.14、0.13、0.12、0.11)に等しいかまたはそれ未満であり、部分を、検討から除去する(例えば、フィルタリングする)。
【0211】
サブセット中の部分は、場合によって、CCF断片に由来する有意な量の読取りであって、選択された断片の長さ未満の長さを有する読取りを、部分へとマッピングしたのかどうかに一部分従って(例えば、FLRに従って)、選択および/または同定する。一部の実施形態では、サブセット中の部分は、マッピングした配列の読取りであって、選択された断片の長さ未満の長さの断片に由来する読取りの量に加えて、1つまたは複数の特徴または判定基準に従って、選択および/または同定することができる。一部の実施形態では、部分のサブセットは、CCF断片に由来する有意な量の読取りであって、選択された断片の長さ未満の長さを有する読取りを、部分へとマッピングしたのかどうか(例えば、FLRに従って)、および1つまたは複数の他の特徴に従って、選択および/または同定する。他の特徴の非限定的な例は、ゲノム中、染色体中、もしくはこれらのセグメント中、および/または部分のうちの1または複数中のエクソンの数および/またはこれらのGC含有量を含む。したがって、場合によって、CCF断片に由来する有意な量の読取りであって、選択された断片の長さ未満の長さを有する読取りを、部分へとマッピングしたのかどうかに従って(例えば、FLRに従って)、サブセットについて選択および/または同定された部分を、部分のGC含有量および/または部分中のエクソンの数に従って、さらに選択または除去する。一部の実施形態では、部分中のGC含有量および/またはエクソンの数が、部分について、FLRと相関しない場合は、部分を、選択せず、検討から除去しない(例えば、フィルタリングしない)。
【0212】
一部の実施形態では、部分のサブセットは、本明細書で記載される1つまたは複数の特定の判定基準を満たす部分からなるか、これらから本質的になるか、またはこれらを含む(例えば、部分は、ある特定の値に等しいかまたはそれ超であるFLRを特徴とする)。ある特定の実施形態では、判定基準を満たさない部分を、判定基準を満たす部分のサブセット内に含めて、例えば、胎児遺伝子分析の精度を増加させる。ある特定の実施形態では、判定基準(例えば、ある特定の値に等しいかまたはそれ超であるFLR)に従って選択された部分「から本質的になる」部分のサブセット内の、部分のうちの約90%またはそれ超(例えば、約91%、91%、93%、94%、95%、96%、97%、98%、99%またはそれ超)は、判定基準を満たし、部分のうちの約10%またはそれ未満(例えば、約9%、8%、7%、6%、5%、4%、3%、2%、約1%またはそれ未満)は、判定基準を満たさない。
【0213】
部分は、任意の適切な方法により選択および/またはフィルタリングすることができる。一部の実施形態では、部分を、データ、グラフ、プロット、および/または図表の目視に従って選択する。ある特定の実施形態では、部分を、1つまたは複数のマイクロプロセッサおよびメモリを含むシステムまたはマシンにより、選択および/またはフィルタリングする(例えば、一部分)。一部の実施形態では、部分を、実行可能なプログラムをその上に内蔵した非一時的なコンピュータ可読記憶媒体であって、プログラムが、マイクロプロセッサに、選択および/またはフィルタリングを行うように命令する非一時的なコンピュータ可読記憶媒体により、選択および/またはフィルタリングする(例えば、一部分)。
【0214】
本明細書で記載される方法により選択された部分のサブセットは、胎児遺伝子分析のために、異なる様式で活用することができる。ある特定の実施形態では、試料から導出された読取りを、本明細書で記載される、あらかじめ選択された部分のサブセットを使用し、参照ゲノム中の部分の全てまたは大半を使用しない、マッピング処理において活用する。あらかじめ選択された部分のサブセットへとマッピングされる読取りは、胎児遺伝子分析のさらなるステップで活用することが多く、あらかじめ選択された部分のサブセットへとマッピングされない読取りは、胎児遺伝子分析のさらなるステップで活用しない(例えば、マッピングされない読取りは、除去またはフィルタリングする)ことが多い。
【0215】
一部の実施形態では、試料から導出された配列の読取りを、参照ゲノムの部分の全てまたは大半へとマッピングし、本明細書で記載される、あらかじめ選択された部分のサブセットを、その後に選択する。選択された部分のサブセットに由来する読取りは、胎児遺伝子分析のさらなるステップで活用することが多い。後者の実施形態では、選択されなかった部分に由来する読取りを、胎児遺伝子分析のさらなるステップで活用しない(例えば、選択されなかった部分中の読取りを除去またはフィルタリングする)ことが多い。
カウント
【0216】
一部の実施形態では、選択された特徴または変数に基づいてマッピングまたは区分化される配列の読取りを定量して、1つまたは複数の部分(例えば、参照ゲノムの部分)に対してマッピングされる読取りの数を決定することができる。特定の実施形態では、部分に対してマッピングされる配列の読取りの分量をカウントと呼ぶ(例えば、1カウント)。しばしば、カウントを、部分と関連付ける。特定の実施形態では、2つまたはそれ超の部分(例えば、一連の部分)についてのカウントは、数学的に操作される(例えば、平均化、加算、正規化等、またはそれらの組合せ)。一部の実施形態では、カウントは、部分に対してマッピングされる(すなわち、部分と関連付けられる)配列の読取りの一部または全部から決定される。特定の実施形態では、カウントは、マッピングされた配列の読取りのあらかじめ定義されたサブセットから決定される。任意の適切な特徴または変数を利用して、マッピングされる配列の読取りのあらかじめ定義されるサブセットを定義または選択することができる。一部の実施形態では、マッピングされる配列の読取りのあらかじめ定義されたサブセットは、1〜n個の配列の読取りを含むことができ、ここで、nは、試験被験体または参照被験体の試料から生成された全ての配列の読取りの合計に等しい数を表わす。
【0217】
特定の実施形態では、カウントは、当技術分野で公知の適切な方法、演算または数学的処理により処理または操作される配列の読取りから誘導される。カウント(a count)(例えば、カウント(counts))は、適切な方法、演算または数学的処理により決定することができる。特定の実施形態では、カウントを、ある部分と関連付けた配列の読取りから誘導し、この場合、配列の読取りの一部または全部に対して、重み付け、除去、フィルタリングすること、正規化、調整、平均化、平均値として誘導すること、加算もしくは減算、またはそれらの組合せによる処理が行われる。一部の実施形態では、カウントを、未加工の配列の読取りおよび/またはフィルタリングした配列の読取りから誘導する。特定の実施形態では、カウントの値を、数学的処理により決定する。特定の実施形態では、カウントの値は、ある部分に対してマッピングされた配列の読取りの平均、平均値または合計である。しばしば、カウントは、カウントの平均の数である。一部の実施形態では、カウントは、不確実性の値と関連付けられる。
【0218】
一部の実施形態では、カウントを操作または転換することができる(例えば、正規化する、組み合わせる、加算する、フィルタリングする、選択する、平均化する、平均値として誘導する等、またはそれらの組合せ)。一部の実施形態では、カウントを転換して、正規化したカウントを生成することができる。当技術分野で公知の方法により、かつ/または本明細書の記載のとおり(例えば、部分に関する(portion−wise)正規化、GC含有量による正規化、線形および非線形最小二乗回帰、GC LOESS、LOWESS、PERUN、RM、GCRM、cQn、および/またはそれらの組合せにより)、カウントを処理する(例えば、正規化する)ことができる。
【0219】
カウント(例えば、未加工の、フィルタリングした、および/または正規化したカウント)を、1つまたは複数のレベルに対して処理し、正規化することができる。下記に、レベルおよびプロファイルについてより詳細に記載する。特定の実施形態では、カウントを、参照レベルに対して処理し、かつ/または正規化することができる。本明細書では後に、参照レベルについて扱う。レベルに従って処理したカウント(例えば、処理したカウント)を、不確実性の値(例えば、計算した分散、誤差、標準偏差、Zスコア、p値、平均絶対偏差(mean absolute deviation)等)と関連付けることができる。一部の実施形態では、不確実性の値が、あるレベルを上回る範囲および下回る範囲を定義する。偏差についての値を、不確実性の値の代わりに使用することができ、偏差の尺度の非限定的な例として、標準偏差、平均絶対偏差(average absolute deviation)、絶対偏差の中央値、標準スコア(例えば、Zスコア、Zスコア、正常スコア、標準化した変数)等が挙げられる。
【0220】
カウントはしばしば、胎児を出産する妊娠中の雌に由来する核酸試料から得られる。1つまたは複数の部分に対してマッピングされた核酸配列の読取りのカウントはしばしば、胎児および胎児の母親(例えば、妊娠中の雌の被験体)の両方を表示するカウントである。特定の実施形態では、ある部分に対してマッピングされたカウントの一部は、胎児のゲノムに由来し、同じ部分に対してマッピングされたカウントの一部は、母体のゲノムに由来する。
データの処理および正規化
【0221】
本明細書では、計数されるに至った、マッピングされた配列の読取りを、未加工データと呼び、その理由は、これらのデータが、操作されていないカウント(例えば、未加工カウント)を表示するからである。一部の実施形態では、データセット中の配列の読取りのデータを、さらに処理し(例えば、数学的および/もしくは統計学的に操作し)、かつ/または示して、アウトカムの提供を促進することができる。特定の実施形態では、より大きなデータセットを含めて、データセットは、さらなる分析を促進するために、前処理が役立つ場合がある。データセットの前処理は時には、余分の、かつ/または有益でない部分または参照ゲノムの部分(例えば、有益でないデータを有する参照ゲノムの部分、余分の、マッピングされた読取り、カウントの中央値がゼロである部分、大きな比率を占めるまたは少ない比率を占める配列)の除去を含む。理論により制限されることなく、データの処理および/または前処理は、(i)ノイズの多いデータ(noisy data)を除去し、(ii)有益でないデータを除去し、(iii)余分のデータを除去し、(iv)より大きなデータセットの複雑性を低下させ、かつ/または(v)1つの形態から1つもしくは複数のその他の形態へのデータの転換を促進することができる。本明細書では、用語「前処理」および「処理」は、データまたはデータセットに関して用いる場合には、まとめて「処理」と呼ぶ。処理は、データをさらなる分析に、より適用可能にすることができ、一部の実施形態では、アウトカムをもたらすことができる。一部の実施形態では、1つまたは複数または全ての処理方法(例えば、正規化の方法、部分をフィルタリングすること、マッピング、検証等、またはそれらの組合せ)が、メモリと併せたプロセッサ、マイクロプロセッサ、コンピュータにより、かつ/またはマイクロプロセッサが制御するマシンにより行われる。
【0222】
用語「ノイズの多いデータ」は、本明細書で使用する場合、(a)分析またはプロットした場合にデータ点間に有意な分散を示すデータ、(b)有意な標準偏差を有する(例えば、3標準偏差よりも大きい)データ、(c)平均値の有意な標準誤差を有するデータ等、および上記の組合せを指す。ノイズの多いデータは、時には出発材料(例えば、核酸試料)の分量および/または品質に起因して発生し、時には配列の読取りを生成するために使用するDNAを調製または複製するための処理の一部から発生する。特定の実施形態では、ノイズは、PCRに基づく方法を使用して調製する場合の、大きな比率を占める特定の配列から生じる。本明細書に記載する方法は、ノイズの多いデータの寄与を低下させるまたは排除することができ、したがって、ノイズの多いデータの、提供されるアウトカムに対する作用を低下させる。
【0223】
用語「有益でないデータ」、「有益でない、参照ゲノムの部分」、および「有益でない部分」は、本明細書で使用する場合、所定の閾値とは有意に異なる数値、または値のあらかじめ定義された値の限界範囲の外側に存在する数値を有する部分、またはそこから誘導されたデータを指す。用語「閾」および「閾値」は、本明細書では、適格なデータセットを使用して計算される任意の数を指し、遺伝子の変動(例えば、コピー数の変動、異数性、染色体異常等)の診断の限界として役立つ。特定の実施形態では、本明細書に記載する方法により得られた結果が閾を上回り、被験体が、遺伝子の変動(例えば、21トリソミー)を有すると診断される。一部の実施形態では、閾値または値の範囲はしばしば、(例えば、参照および/または被験体から得られた)配列の読取りのデータを数学的および/または統計学的に操作することによって計算され、特定の実施形態では、閾値または値の範囲を生成するために操作される配列の読取りのデータは、(例えば、参照および/または被験体から得られた)配列の読取りのデータである。一部の実施形態では、不確実性の値を決定する。不確実性の値は、一般に分散または誤差の尺度であり、分散または誤差の任意の適切な尺度であり得る。一部の実施形態では、不確実性の値は、標準偏差、標準誤差、計算した分散、p値または平均絶対偏差(MAD)である。一部の実施形態では、不確実性の値を、実施例4の方式に従って計算することができる。
【0224】
本明細書に記載するデータセットを処理するために、任意の適切な手順を利用することができる。データセットを処理するために使用するのに適切な手順の非限定的な例として、フィルタリングすること、正規化すること、重み付けすること、ピークの高さをモニタリングすること、ピークの面積をモニタリングすること、ピークのエッジをモニタリングすること、面積比を決定すること、データを数学的に処理すること、データを統計学的に処理すること、統計学的アルゴリズムを適用すること、固定変数を用いて分析すること、最適化された変数を用いて分析すること、データをプロットし、パターンまたは傾向を確認して、さらなる処理を行うこと等、および上記の組合せが挙げられる。一部の実施形態では、種々の特徴(例えば、GC含有量、余分の、マッピングされた読取り、セントロメア領域、テロメア領域等、およびそれらの組合せ)、ならびに/または変数(例えば、胎児の性別、母体の年齢、母体の倍数性、胎児核酸のパーセント寄与等、またはそれらの組合せ)に基づいて、データセットは処理される。特定の実施形態では、本明細書の記載のとおりデータセットを処理することによって、大きいおよび/または複雑なデータセットの複雑性および/または次元性を低下させることができる。複雑なデータセットの非限定的な例として、年齢および民族性の背景が異なる1つまたは複数の試験被験体および複数の参照被験体から生成された配列の読取りのデータが挙げられる。一部の実施形態では、データセットは、それぞれの試験被験体および/または参照被験体について、数千〜数百万個の配列の読取りを含むことができる。
【0225】
特定の実施形態では、データ処理を、任意の数のステップで行うことができる。例えば、一部の実施形態では、単一の処理手順のみを使用して、データを処理することができ、特定の実施形態では、1つもしくは複数、5つもしくはそれ超、10個もしくはそれ超、または20個もしくはそれ超の処理ステップ(例えば、1つもしくは複数の処理ステップ、2つもしくはそれ超の処理ステップ、3つもしくはそれ超の処理ステップ、4つもしくはそれ超の処理ステップ、5つもしくはそれ超の処理ステップ、6つもしくはそれ超の処理ステップ、7つもしくはそれ超の処理ステップ、8つもしくはそれ超の処理ステップ、9つもしくはそれ超の処理ステップ、10個もしくはそれ超の処理ステップ、11個もしくはそれ超の処理ステップ、12個もしくはそれ超の処理ステップ、13個もしくはそれ超の処理ステップ、14個もしくはそれ超の処理ステップ、15個もしくはそれ超の処理ステップ、16個もしくはそれ超の処理ステップ、17個もしくはそれ超の処理ステップ、18個もしくはそれ超の処理ステップ、19個もしくはそれ超の処理ステップ、または20個もしくはそれ超の処理ステップ)を使用して、データを処理することができる。一部の実施形態では、処理ステップは、2回またはそれ超の回数繰り返される同じステップであり得(例えば、2回またはそれ超の回数フィルタリングする、2回またはそれ超の回数正規化する)、特定の実施形態では、処理ステップは、同時または順次に行われる2つまたはそれ超の異なる処理ステップであり得る(例えば、フィルタリングし、正規化する;正規化し、ピークの高さおよびエッジをモニタリングする;フィルタリングし、正規化し、参照に対して正規化し、統計学的に操作して、p値を決定する等)。一部の実施形態では、同じまたは異なる処理ステップの任意の適切な数および/または組合せを利用し、配列の読取りのデータを処理して、アウトカムの提供を促進することができる。特定の実施形態では、本明細書に記載する判定基準によりデータセットを処理することによって、データセットの複雑性および/または次元性を低下させることができる。
【0226】
一部の実施形態では、1つまたは複数の処理ステップは、1つまたは複数のフィルタリングステップを含むことができる。用語「フィルタリングする」は、本明細書で使用する場合、部分または参照ゲノムの部分を検討事項から除去することを指す。これらに限定されないが、余分のデータ(例えば、余分なまたはオーバーラップする、マッピングされた読取り)、有益でないデータ(例えば、カウントの中央値がゼロである参照ゲノムの部分)、大きな比率を占めるもしくは少ない比率を占める配列を有する参照ゲノムの部分、ノイズの多いデータ等、または上記の組合せを含めた、任意の適切な判定基準に基づいて、参照ゲノムの部分を選択して、除去することができる。フィルタリング処理はしばしば、参照ゲノムの1つまたは複数の部分を検討事項から除去すること、および、除去するために選択された参照ゲノムの1つまたは複数の部分におけるカウントを、参照ゲノム、1つもしくは複数の染色体、または検討下のゲノムの部分について計数したかまたは合計したカウントから減算することを含む。一部の実施形態では、参照ゲノムの部分を、逐次的に除去する(例えば、1つずつ除去して、それぞれの個々の部分の除去の作用の評価を可能にする)ことができ、特定の実施形態では、除去するためにマークされた、参照ゲノムの部分全てを、同時に除去することができる。一部の実施形態では、特定のレベルを上回るまたは下回る分散により特徴付けられた参照ゲノムの部分を除去し、本明細書では、これを時には、参照ゲノムの「ノイズの多い」部分をフィルタリングすると呼ぶ。特定の実施形態では、フィルタリング処理は、部分、染色体または染色体のセグメントの平均プロファイルレベルから、プロファイルの分散の所定の倍数だけ逸脱するデータ点を、データセットから得ることを含み、特定の実施形態では、フィルタリング処理は、部分、染色体または染色体のセグメントの平均プロファイルレベルから、プロファイルの分散の所定の倍数だけ逸脱しないデータ点を、データセットから除去することを含む。一部の実施形態では、フィルタリング処理を利用して、遺伝子の変動の存在または非存在について分析する、参照ゲノムの候補となる部分の数を低下させる。遺伝子の変動(例えば、微小欠失、微小重複)の存在または非存在について分析する、参照ゲノムの候補となる部分の数を低下させることによって、しばしばデータセットの複雑性および/または次元性を低下させ、時には遺伝子変動および/または遺伝子異常の検索および/または同定のスピードを2桁またはそれ超だけ増加させる。
【0227】
一部の実施形態では、1つまたは複数の処理ステップは、1つまたは複数の正規化ステップを含むことができる。正規化は、本明細書に記載するまたは当技術分野で公知である適切な方法により行うことができる。特定の実施形態では、正規化は、異なるスケールで測定された値を、概念的に(notionally)共通のスケールに調整することを含む。特定の実施形態では、正規化は、調整された値の確率分布をアラインメントに至らせるための高度な数学的調整を含む。一部の実施形態では、正規化は、分布を正規分布にそろえることを含む。特定の実施形態では、正規化は、特定の全体的な影響(例えば、誤差および異常)の作用を排除する方法で、異なるデータセットについて正規化した対応する値を比較するのを可能にする数学的調整を含む。特定の実施形態では、正規化は、スケーリングを含む。正規化は時には、所定の変数または式による1つまたは複数のデータセットの除算を含む。正規化の方法の非限定的な例として、部分に関する正規化、GC含有量による正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所重み付け散布図平坦化)、PERUN、リピートマスクキング(RM)、GC正規化およびリピートマスクキング(GCRM)、条件付分位数正規化(cQn)、ならびに/またはそれらの組合せが挙げられる。一部の実施形態では、遺伝子の変動の存在または非存在(例えば、異数性、)の決定は、正規化の方法(例えば、部分に関する正規化、GC含有量による正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所重み付け散布図平坦化)、PERUN、リピートマスクキング(RM)、GC正規化およびリピートマスクキング(GCRM)、cQn、当技術分野で公知の正規化の方法、ならびに/またはそれらの組合せ)を利用する。一部の実施形態において、カウントは正規化される。
【0228】
例えば、LOESSとは、当技術分野で公知の回帰モデル化法であって、多重回帰モデルを、最近傍法ベースのメタモデル内で組み合わせる回帰モデル化法である。LOESSは、場合によって、局所重み付け多項式回帰と称する。一部の実施形態では、GC LOESSでは、LOESSモデルを、断片のカウント(例えば、配列の読取り、カウント)と、参照ゲノムの部分についてのGC組成との間の関係へと適用する。データ点のセットを通る滑らかな曲線のプロッティングであって、LOESSを使用するプロッティングは、場合によって、LOESS曲線と呼ばれ、特に、各平滑値が、y軸の散布図基準変数の値の区間にわたる、重み付き二次最小二乗回帰により与えられる場合、そう呼ばれる。データセット中の各点について、LOESS法は、低次多項式を、説明変数値がその応答が推定される点の近傍にあるデータのサブセットへと適合させる。多項式は、その応答が推定される点の近傍の点には大きな重みを与え、遠く離れた点には小さな重みを与える、重み付き最小二乗法を使用して適合させる。次いで、点についての回帰関数値を、そのデータ点についての説明変数値を使用して、局所多項式の値を評価することにより得る。LOESS適合は、場合によって、回帰関数値を、データ点の各々について計算した後において、完全であると考えられる。多項式モデルの次数および重みなど、この方法の詳細の多くは、適応性がある。
【0229】
任意の適切な数の正規化を使用することができる。一部の実施形態では、データセットを、1回もしくは複数回、5回もしくはそれ超の回数、10回もしくはそれ超の回数、または20回またはそれ超の回数さえ正規化することができる。データセットを、任意の適切な特徴または変数(例えば、試料データ、参照データ、または両方)を表示する値(例えば、正規化する値)に対して正規化することができる。使用することができるデータの正規化のタイプの非限定的な例として、1つまたは複数の選択された試験部分または参照部分についての未加工カウントデータを、その上で、選択された部分または区分がマッピングされる染色体またはゲノム全体に対してマッピングされるカウントの総数に対して正規化すること;1つまたは複数の選択された部分についての未加工カウントデータを、その上で、選択された部分またはセグメントがマッピングされる1つもしくは複数の部分または染色体についての参照のカウントの中央値に対して正規化すること;未加工カウントデータを、あらかじめ正規化されたデータまたはそれらの誘導値に対して正規化すること;および先に正規化されたデータを、1つまたは複数のその他の所定の正規化変数に対して正規化することが挙げられる。データセットの正規化は時には、所定の正規化変数として選択された特徴または特性に応じて、統計学的誤差を単離する作用を有する。また、データセットの正規化は時には、異なるスケールを有するデータのデータとしての特徴の比較を、データに共通のスケール(例えば、所定の正規化変数)を与えることによって可能にする。一部の実施形態では、統計学的に誘導された値に対する1回または複数回の正規化を利用して、データの差を最小化し、外れたデータの重要性を減少させることができる。部分または参照ゲノムの部分を正規化する値に関して正規化することを時には、「部分に関する正規化」と呼ぶ。
【0230】
特定の実施形態では、正規化を含む処理ステップは、静止したウィンドウに対して正規化することを含み、一部の実施形態では、正規化を含む処理ステップは、移動するウィンドウまたはスライディングウィンドウに対して正規化することを含む。用語「ウィンドウ」は、本明細書で使用する場合、分析のために選ばれた1つまたは複数の部分を指し、時には、比較のための参照として使用される(例えば、正規化および/またはその他の数学的もしくは統計学的な操作ために使用される)。用語「静止したウィンドウに対して正規化する」は、本明細書で使用する場合、試験被験体のデータセットと参照被験体のデータセットとを比較するために選択された1つまたは複数の部分を使用する正規化の処理を指す。一部の実施形態では、選択された部分を利用して、プロファイルを生成する。静止したウィンドウは一般に、操作および/または分析の間に変化しない所定の一連の部分を含む。用語「移動するウィンドウに対して正規化する」および「スライディングウィンドウに対して正規化する」は、本明細書で使用する場合、選択された試験部分のゲノム領域に限局される部分(例えば、遺伝子の直近の周囲の、隣接する部分または区分等)に対して行われる正規化を指し、この場合、1つまたは複数の選択された試験部分は、選択された試験部分の直近の周囲の部分に対して正規化される。特定の実施形態では、選択された部分を利用して、プロファイルを生成する。スライディングウィンドウまたは移動するウィンドウの正規化はしばしば、隣接する試験部分に向けて繰り返し移動またはスライディングさせ、新たに選択された試験部分を、新たに選択された試験部分の直近の周囲の部分または新たに選択された試験部分に隣接する部分に対して正規化することを含み、この場合、隣接するウィンドウは、共通する1つまたは複数の部分を有する。特定の実施形態では、複数の選択された試験部分および/または染色体を、スライディングウィンドウ処理により分析することができる。
【0231】
一部の実施形態では、スライディングウィンドウまたは移動するウィンドウに対して正規化することによって、1つまたは複数の値を生成することができ、この場合、それぞれ値は、ゲノムの異なる領域(例えば、染色体)から選択された異なる一連の参照部分に対する正規化を表示する。特定の実施形態では、生成された1つまたは複数の値は、累積合計(例えば、選択された部分、ドメイン(例えば、染色体の一部分)または染色体にわたり正規化されたカウントプロファイルの積分の数的な推定値)である。スライディングウィンドウまたは移動するウィンドウの処理により生成された値を使用して、プロファイルを生成し、アウトカムに到達するのを促進することができる。一部の実施形態では、1つまたは複数の部分の累積合計を、ゲノムの位置の関数として示すことができる。時には、移動するウィンドウまたはスライディングウィンドウの分析を使用して、ゲノムを微小欠失および/または微小挿入の存在または非存在について分析する。特定の実施形態では、1つまたは複数の部分の累積合計を示すことを使用して、遺伝子の変動(例えば、微小欠失、微小重複)の領域の存在または非存在を同定する。一部の実施形態では、移動するウィンドウまたはスライディングウィンドウの分析を使用して、微小欠失を含有するゲノム領域を同定し、特定の実施形態では、移動するウィンドウまたはスライディングウィンドウの分析を使用して、微小重複を含有するゲノム領域を同定する。
【0232】
本明細書では、核酸指標と関連する誤差を低減するための特定の有用な正規化法を、パラメータ化誤差除去および不偏正規化(PERUN:parameterized error removal and unbiased normalization)と称するが、これは、本明細書ならびに本文、表、等式、および図面の全てを含むその全内容が参照により本明細書に援用される、例えば、米国特許出願第13/669,136号および国際特許出願第PCT/US12/59123号(WO2013/052913)において記載されている。PERUN法は、このような指標に基づく予測を交絡させる誤差の影響を低減する目的で、様々な核酸指標(例えば、核酸配列の読取り)へと適用することができる。
【0233】
例えば、PERUN法を、試料に由来する核酸配列の読取りへと適用し、ゲノム区分のレベルの決定を損ないうる誤差の影響を低減することができる。このような適用は、核酸配列の読取りを使用して、被験体における遺伝子の変動の存在または非存在であって、ヌクレオチド配列の様々なレベル(例えば、部分レベル、ゲノム区分のレベル)として顕在化される存在または非存在を決定するのに有用である。部分中の変動の非限定的な例は、染色体の異数性(例えば、トリソミー21、トリソミー18、トリソミー13)および性染色体の存在または非存在(例えば、女性におけるXX対男性におけるXY)である。常染色体(例えば、性染色体以外の染色体)のトリソミーは、罹患した常染色体と称することができる。ゲノム区分のレベルにおける変動の他の非限定的な例は、微小欠失、微小挿入、重複、およびモザイク現象を含む。
【0234】
ある特定の適用では、PERUN法では、部分と称する特定のゲノム群についての核酸指標を正規化することにより、実験上の偏りを低減することができる。部分は、その非限定的な例が、本明細書では、ゲノム区分または参照ゲノムの部分と称する、連続的なヌクレオチドの長さを含む、核酸指標の適切なコレクションを含む。ビンは、本明細書で記載される、他の核酸指標を含みうる。このような適用では、PERUN法は一般に、いくつかの試料にわたる、特定のビンにおいて核酸指標を三次元で正規化する。
【0235】
ある特定の適用では、PERUN法では、参照ゲノムの特定のセグメント(例えば、部分)へとマッピングした核酸指標(例えば、カウント、読取り)を正規化することにより、実験上および/またはシステム上の偏りを低減することができる。このような適用では、PERUN法は一般に、いくつかの試料にわたり、参照ゲノムの特定の部分における核酸の読取りのカウントを、三次元で正規化する。PERUNについての詳細な記載およびその適用については、本明細書の実施例節、本文、表、等式、および図面の全てを含むその全内容が参照により本明細書に組み込まれる、国際特許出願第PCT/US12/59123号(WO2013/052913)および米国特許出願公開第US20130085681号において提示されている。
【0236】
ある特定の実施形態では、PERUN法は、参照ゲノム部分についてのゲノム区分のレベルを、(a)試験試料についての、参照ゲノム部分へとマッピングした配列の読取りのカウント、(b)試験試料についての、実験上の偏り(例えば、GCの偏り)、および(c)(i)配列の読取りがマッピングされる参照ゲノム部分についての実験上の偏りと、(ii)部分へとマッピングした配列の読取りのカウントとの適合させた関係についての、1つまたは複数の適合パラメータ(例えば、適合の推定値)から計算するステップを含む。参照ゲノム部分の各々についての実験上の偏りは、複数の試料にわたり、各試料についての適合させた関係であって、(i)参照ゲノム部分の各々へとマッピングした配列の読取りのカウントと、(ii)参照ゲノム部分の各々についてのマッピング特徴との関係に従って決定することができる。各試料についてのこの適合させた関係は、複数の試料について、三次元でアセンブルすることができる。ある特定の実施形態では、アセンブリーを、実験上の偏りに従って整序することができるが、PERUN法は、実験上の偏りに従ってアセンブリーを整序することなく実施することができる。各試料についての適合させた関係と、参照ゲノムの各部分についての適合させた関係とは、当技術分野で公知の適切な適合法(例えば、適合モデル)により、線形関数または非線形関数へと独立に適合させることができる。関係を適合させるのに使用しうる適切なモデルの非限定的な例は、線形回帰モデル、単純回帰モデル、通常の最小二乗回帰モデル、重回帰モデル、一般的な重回帰モデル、多項式回帰モデル、一般線形モデル、一般化線形モデル、離散選択回帰モデル、ロジスティック回帰モデル、多項ロジットモデル、混合ロジットモデル、プロビットモデル、多項プロビットモデル、順序ロジットモデル、順序プロビットモデル、ポアソンモデル、多変量応答回帰モデル、マルチレベルモデル、固定効果モデル、ランダム効果モデル、混合モデル、非線形回帰モデル、ノンパラメトリックモデル、セミパラメトリックモデル、ロバストモデル、クォンタイルモデル、アイソトニックモデル、主成分モデル、最小角モデル、ローカルモデル、セグメント化モデル、および変数誤差モデルを含む。
【0237】
一部の実施形態では、関係は、幾何学的関係および/またはグラフ的関係である。本明細書で使用される「関係(relationship)」および「関係(relation)」という用語は、同義である。一部の実施形態では、関係は、数学的関係である。一部の実施形態では、関係は、プロットされる。一部の実施形態では、関係は、線形関係である。ある特定の実施形態では、関係は、非線形関係である。ある特定の実施形態では、関係は、回帰(例えば、回帰直線)である。回帰は、線形回帰の場合もあり、非線形回帰の場合もある。関係は、数式により表すことができる。関係は一部分、1つもしくは複数の定数および/または1つもしくは複数の変数により規定されることが多い。関係は、当技術分野で公知の方法により生成することができる。ある特定の実施形態では、1つまたは複数の試料について、二次元の関係を生成することができ、誤差の証明となる変数、または誤差の証明となる可能性が高い変数を、次元のうちの1または複数について選択することができる。関係は、例えば、当技術分野で公知のグラフ作成ソフトウェアであって、使用者により用意される2つまたはそれ超の変数の値を使用してグラフをプロットするソフトウェアを使用して、生成することができる。関係は、当技術分野で公知の方法を使用して(例えば、回帰、回帰分析を行うことにより、例えば、適切な回帰プログラム、例えば、ソフトウェアにより)適合させることができる。ある特定の関係には、線形回帰を適合させることができ、線形回帰により、傾き値および切片値を生成することができる。ある特定の関係は、場合によって、線形ではなく、例えば、放物線関数、双曲線関数、または指数関数(例えば、二次関数)などの非線形関数を適合させることができる。
【0238】
PERUN法では、適合させた関係のうちの1または複数は、線形でありうる。妊娠中の雌に由来する無細胞循環核酸ついての分析であって、実験上の偏りをGCの偏りとし、マッピング特徴をGC含有量とする分析では、試料についての適合させた関係であって、(i)各部分へとマッピングした配列の読取りのカウントと、(ii)参照ゲノムの部分の各々についてのGC含有量との間の関係は、線形でありうる。この適合させた関係では、傾きは、GCの偏りに関連し、適合させた関係を、複数の試料にわたりアセンブルする場合、GCの偏り係数は、各試料について決定することができる。このような実施形態では、複数の試料および部分についての適合させた関係であって、(i)部分についてのGCの偏り係数と、(ii)部分へとマッピングした配列の読取りのカウントとの間の関係もまた、線形でありうる。切片および傾きは、この適合させた関係から得ることができる。このような適用では、傾きは、GC含有量に基づく試料特異的な偏りに対処し、切片は、全ての試料に共通する、部分特異的な減衰パターンに対処する。PERUN法により、このような試料特異的な偏りおよび部分特異的な減衰であって、アウトカム(例えば、遺伝子の変動の存在または非存在;胎児の性別の決定)をもたらすためにゲノム区分のレベルを計算する場合の偏りおよび減衰を有意に低減することができる。
【0239】
一部の実施形態では、PERUN正規化に、線形関数への適合を使用し、これを、等式A、等式B、またはその派生形により記載する。
等式A:
M=LI+GS (A)
等式B:
L=(M−GS)/I (B)
【0240】
一部の実施形態では、Lは、PERUNにより正規化されたレベルまたはPERUNにより正規化されたプロファイルである。一部の実施形態では、Lは、PERUN正規化手順からの所望の出力である。ある特定の実施形態では、Lは、部分特異的である。一部の実施形態では、Lは、参照ゲノムの複数の部分に従って決定され、ゲノム、染色体、その部分またはセグメントの、PERUNにより正規化されたレベルを表示する。レベルLは、さらなる分析(例えば、Z値、母体の欠失/重複、胎児の微小欠失/微小重複、胎児の性別、性異数性などを決定する分析)に使用されることが多い。等式Bに従う正規化法を、PERUN(Parameterized Error Removal and Unbiased Normalization)と名付ける。
【0241】
一部の実施形態では、Gは、線形モデル、LOESS、または任意の同等の手法を使用して測定されたGCの偏り係数である。一部の実施形態では、Gは、傾きである。一部の実施形態では、GCの偏り係数であるGは、部分iについてのカウントM(例えば、未加工のカウント)および参照ゲノムから決定された部分iのGC含有量についての回帰の傾きとして評価する。一部の実施形態では、Gは、Mから抽出された副次情報を表し、関係に従って決定される。一部の実施形態では、Gは、試料(例えば、試験試料)についての、部分特異的なカウントのセットと、部分特異的なGC含有量値のセットとの関係を表わす。一部の実施形態では、部分特異的なGC含有量は、参照ゲノムから導出される。一部の実施形態では、部分特異的なGC含有量は、観察または測定されたGC含有量(例えば、試料から測定されたGC含有量)から導出される。GCの偏り係数は、試料群中の各試料について決定されることが多く、一般に、試験試料について決定される。GCの偏り係数は、試料特異的であることが多い。一部の実施形態では、GCの偏り係数は、定数である。ある特定の実施形態では、GCの偏り係数は、試料について導出されたら変化しない。
【0242】
一部の実施形態では、Iは、線形関係から導出される切片であり、Sは、線形関係から導出される傾きである。一部の実施形態では、IおよびSが導出される関係は、Gが導出される関係と異なる。一部の実施形態では、IおよびSが導出される関係は、所与の実験設定について一定である。一部の実施形態では、IおよびSは、複数の試料に従って、カウント(例えば、未加工のカウント)と、GCの偏り係数とに従う線形関係から導出される。一部の実施形態では、IおよびSは、試験試料とは独立に導出される。一部の実施形態では、IおよびSは、複数の試料から導出される。IおよびSは、部分特異的であることが多い。一部の実施形態では、IおよびSを、正倍数体試料中の参照ゲノムの全ての部分についてL=1であるという仮定により決定する。一部の実施形態では、線形関係を、正倍数体試料について決定し、選択部分に特異的なI値およびS値を決定する(L=1と仮定する)。ある特定の実施形態では、同じ手順を、ヒトゲノム中の参照ゲノムの全ての部分へと適用し、切片Iおよび傾きSのセットを、あらゆる部分について決定する。
【0243】
一部の実施形態では、交差検証法を適用する。交差検証は、場合によって、回転推定とも称する。一部の実施形態では、交差検証法を適用して、試験試料を使用する実践において、予測モデル(例えば、PERUNなど)が、どのくらい正確に機能するのかについて評価する。一部の実施形態では、1ラウンドの交差検証は、データの試料を、相補サブセットへとパーティショニングするステップと、1つのサブセット(例えば、場合によって、訓練セットと称する)に対して交差検証分析を実施するステップと、別のサブセット(例えば、場合によって、検証セットまたは試験セットと呼ばれる)を使用して、分析の検証するステップとを含む。ある特定の実施形態では、異なるパーティションおよび/または異なるサブセットを使用して、複数ラウンドの交差検証を実施する。交差検証法の非限定的な例は、リーブワンアウト、スライディングエッジ、K分割、二分割、反復ランダムサブサンプリングなど、またはこれらの組合せを含む。一部の実施形態では、交差検証では、既知の正倍数性胎児を含む試料のセットのうちの90%を含有する作業セットをランダムに選択し、このサブセットを使用して、モデルを訓練する。ある特定の実施形態では、ランダムな選択を100回にわたり反復し、あらゆる部分について、100の傾きおよび100の切片のセットを得る。
【0244】
一部の実施形態では、Mの値は、試験試料に由来する実測値である。一部の実施形態では、Mは、部分についての測定された未加工のカウントである。値IおよびSが部分について利用可能である一部の実施形態では、測定値Mを試験試料から決定し、それを使用して、等式Bに従って、ゲノム、染色体、そのセグメントまたは部分についてのPERUNにより正規化されたレベルであるLを決定する。
【0245】
したがって、PERUN法の、複数の試料にわたり平行した、配列の読取りへの適用により、(i)試料特異的な実験上の偏り(例えば、GCの偏り)および(ii)試料に共通する部分特異的な減衰により引き起こされる誤差を有意に低減することができる。これらの2つの誤差の発生源の各々に、個別にまたは逐次的に対処する他の方法は、PERUN法ほど有効にはこれらを低減することが可能でないことが多い。理論に制約されずに述べると、一部分、その一般に加法的な処理が、他の正規化法(例えば、GC−LOESS)で活用される、一般に乗算的な処理ほど広がりを拡大しないため、PERUN法は、誤差をより有効に低減することが期待される。
【0246】
さらなる正規化技法および統計学的技法も、PERUN法と組み合わせて活用することができる。さらなる処理は、PERUN法の使用の前、使用の後、および/または使用の間に適用することができる。PERUN法と組み合わせて使用されうる処理の非限定的な例については、本明細書の下記で記載される。
【0247】
一部の実施形態では、ゲノム区分のレベルの、GC含有量についての二次的正規化または調整は、PERUN法と共に活用することができる。適切なGC含有量の調整手順またはGC含有量の正規化手順を活用することができる(例えば、GC−LOESS、GCRM)。ある特定の実施形態では、さらなるGCの正規化処理を適用するための特定の試料を選択および/または同定することができる。例えば、PERUN法を適用することにより、各試料についてのGCの偏りを決定することができ、ある特定の閾を上回るGCの偏りと関連する試料を、さらなるGCの正規化処理のために選択することができる。このような実施形態では、所定の閾レベルを使用して、このような試料をさらなるGCの正規化のために選択することができる。
【0248】
ある特定の実施形態では、部分のフィルタリング処理または重み付き処理を、PERUN法と共に活用することができる。適する部分のフィルタリング処理または重み付き処理を活用することができ、非限定的な例は、本明細書、本文、表、等式、および図面の全てを含むその全内容が参照により本明細書に援用される、国際特許出願第PCT/US12/59123号(WO2013/052913)および米国特許出願公開第US20130085681号において記載されている。一部の実施形態では、母体の挿入、重複、および/または欠失(例えば、母体および/または胎児のコピー数の変動)と関連する誤差を低減する正規化技法を、PERUN法と共に活用する。
【0249】
PERUN法により計算されたゲノム区分のレベルは、アウトカムを提示するために直接活用することができる。一部の実施形態では、ゲノム区分のレベルは、胎児フラクションが約2%〜約6%またはそれ超の(例えば、胎児フラクションが約4%またはそれ超の)試料についてのアウトカムを提示するのに直接活用することができる。PERUN法により計算されたゲノム区分のレベルは、場合によって、アウトカムを提示するためにさらに処理される。一部の実施形態では、計算されたゲノム区分のレベルを標準化する。ある特定の実施形態では、試験部分(例えば、第21染色体)について計算されたゲノム区分のレベルの合計、平均値、または中央値を、試験部分以外の部分(例えば、第21染色体以外の常染色体)について計算されたゲノム区分のレベルの合計、平均値、または中央値で除して、試験ゲノム区分のレベルを生成することができる。試験ゲノム区分のレベルまたは未加工のゲノム区分のレベルは、ZスコアまたはZスコアの計算などの標準化分析の一部として使用することができる。Zスコアは、期待されたゲノム区分のレベルを、試験ゲノム区分のレベルまたは未加工のゲノム区分のレベルから減算することにより、試料について生成することができ、結果として得られる値を、試料についての標準偏差で除算することができる。ある特定の実施形態では、結果として得られるZスコアを、異なる試料について分布させ、分析することもできるか、または胎児フラクションおよび他の変数など、他の変数と関係づけ、分析して、アウトカムを提示することもできる。
【0250】
本明細書で注目される通り、PERUN法は、GCの偏りおよびGC含有量に従う正規化自体に限定されず、他の誤差の発生源と関連する誤差を低減するのにも使用することができる。GC含有量以外の偏りの発生源の非限定的な例は、マッピング可能性である。GCの偏りおよびGC含有量以外の正規化されたパラメータに対処する場合、適合させた関係のうちの1または複数は、非線形(例えば、双曲線、指数)でありうる。一部の実施形態では、実験上の偏りを、非線形関係から決定する場合、例えば、実験上の偏りの曲率の推定について分析することができる。
【0251】
PERUN法は、様々な核酸指標へと適用することができる。核酸指標の非限定的な例は、マイクロアレイ上の特定の位置における核酸配列の読取りおよび核酸レベルである。配列の読取りの非限定的な例は、無細胞循環DNA、無細胞循環RNA、細胞DNAおよび細胞RNAから得られる読取りを含む。PERUN法は、参照ゲノムDNA、参照細胞RNA(例えば、トランスクリプトーム)、およびこれらの部分(例えば、ゲノムDNAの相補体またはRNAトランスクリプトームの一部分(複数可)、染色体の一部分(複数可))など、適切な参照配列へとマッピングした配列の読取りへと適用することができる。
【0252】
したがって、ある特定の実施形態では、細胞核酸(例えば、DNAまたはRNA)は、核酸指標として役立ちうる。参照ゲノムの部分へとマッピングした細胞核酸の読取りは、PERUN法を使用して正規化することができる。細胞核酸の、特定のタンパク質への結合は、場合によって、クロマチン免疫沈降(ChIP:chromatin immunoprecipitation)過程と称する。ChIPに富む核酸は、例えば、DNAまたはRNAなど、細胞タンパク質と会合する核酸である。ChIPに富む核酸の読取りは、当技術分野で公知の技術を使用して得ることができる。ChIPに富む核酸の読取りは、1つまたは複数の参照ゲノムの部分へとマッピングすることができ、結果は、アウトカムを提示するためのPERUN法を使用して正規化することができる。
【0253】
ある特定の実施形態では、細胞RNAは、核酸指標として用いられうる。細胞RNA読取りは、参照RNA部分へとマッピングし、アウトカムを提示するためのPERUN法を使用して正規化することができる。トランスクリプトームと称する細胞RNAまたはそのセグメントについての公知の配列を、試料に由来するRNA読取りをマッピングしうる参照として使用することができる。試料RNAの読取りは、当技術分野で公知の技術を使用して得ることができる。参照へとマッピングしたRNA読取りの結果は、アウトカムを提示するためのPERUN法を使用して正規化することができる。
【0254】
一部の実施形態では、マイクロアレイによる核酸レベルは、核酸指標として役立ちうる。試料にわたり、アレイ上の特定のアドレスの核酸レベルまたはアレイ上でハイブリダイズしている核酸を、PERUN法を使用して分析し、これにより、マイクロアレイ分析によりもたらされる核酸指標を正規化することができる。このようにして、マイクロアレイ上の特定のアドレスまたはマイクロアレイ上でハイブリダイズしている核酸は、マッピングした核酸配列の読取りの部分と類義であり、PERUN法を使用して、マイクロアレイデータを正規化して、アウトカムの改善をもたらすことができる。
【0255】
一部の実施形態では、処理ステップは、重み付けを含む。用語「重み付けされる」、「重み付けする」もしくは「重み付け関数」、またはそれらの文法上の派生語もしくは相当語句は、本明細書で使用する場合、特定のデータセットの特徴または変数の影響を、その他のデータセットの特徴または変数に関して変化させる(例えば、1つもしくは複数の部分または参照ゲノムの部分中に含有されるデータの有意性および/または寄与を、参照ゲノムの選択された1つまたは複数の部分中のデータの品質または有用性に基づいて増加または減少させる)ために利用するデータセットの一部または全部の数学的操作を指す。一部の実施形態では、重み付け関数を使用して、比較的小さな測定値の分散を有するデータの影響を増加させること、および/または比較的大きな測定値の分散を有するデータの影響を減少させることができる。例えば、少ない比率を占めるまたは低い品質の配列データを有する参照ゲノムの部分の「重み付けを減らし」て、データセットに対する影響を最小化することができ、一方、参照ゲノムの選択された部分の「重み付けを増やし」て、データセットに対する影響を増加させることもできる。重み付け関数の非限定的な例が、[1/(標準偏差)
2]である。重み付けステップは時には、正規化ステップに実質的に類似する様式で行われる。一部の実施形態では、データセットは、所定の変数(例えば、重み付け変数)により除算される。しばしば、所定の変数(例えば、最小化標的関数、Phi)を選択して、データセットの異なる一部分に異なる重み付けを加える(例えば、特定のデータのタイプの影響を増加させ、一方、その他のデータのタイプの影響を減少させる)。
【0256】
特定の実施形態では、処理ステップは、1つまたは複数の数学的および/または統計学的な操作を含むことができる。任意の適切な数学的および/または統計学的な操作を、単独でまたは組み合わせて使用して、本明細書に記載するデータセットを分析および/操作することができる。任意の適切な数の数学的および/または統計学的な操作を使用することができる。一部の実施形態では、データセットを、数学的および/または統計学的に、1回もしくは複数回、5回もしくはそれ超の回数、10回もしくはそれ超の回数、または20回もしくはそれ超の回数操作することができる。使用することができる数学的および統計学的な操作の非限定的な例として、加算、減算、乗算、除算、代数関数、最小二乗推定量、曲線近似、微分方程式、有理多項式、二重多項式、直交多項式、zスコア、p値、カイ値、phi値、ピークレベルの分析、ピークのエッジの場所の決定、ピーク面積比の計算、染色体レベルの中央値の分析、平均絶対偏差の計算、残余の二乗の合計、平均値、標準偏差、標準誤差等、またはそれらの組合せが挙げられる。数学的および/または統計学的な操作を、配列の読取りのデータまたはそれらの処理された生成物の全部または一部に対して行うことができる。統計学的に操作することができるデータセットの変数または特徴の非限定的な例として、未加工カウント、フィルタリングしたカウント、正規化したカウント、ピークの高さ、ピークの幅、ピークの面積、ピークのエッジ、ラテラルトレランス(lateral tolerance)、P値、レベルの中央値、平均レベル、ゲノム領域内のカウントの分布、核酸種の相対的な表示等、またはそれらの組合せが挙げられる。
【0257】
一部の実施形態では、処理ステップは、1つまたは複数の統計学的アルゴリズムの使用を含むことができる。任意の適切な統計学的アルゴリズムを、単独でまたは組み合わせて使用して、本明細書に記載するデータセットを分析および/操作することができる。任意の適切な数の統計学的アルゴリズムを使用することができる。一部の実施形態では、1つもしくは複数、5つもしくはそれ超、10個もしくはそれ超、または20個もしくはそれ超の統計学的アルゴリズムを使用して、データセットを分析することができる。本明細書に記載する方法と共に使用するのに適切な統計学的アルゴリズムの非限定的な例として、決定木、対立帰無、多重比較、オムニバス検定、ベーレンス−フィッシャー問題、ブートストラッピング、有意性の独立性検定を組み合わせるためのフィッシャー法、帰無仮説、第一種の過誤、第二種の過誤、正確検定、1標本Z検定、2標本Z検定、1標本t検定、対応のあるt検定、等分散を有する2標本プールt検定、不等分散を有する2標本非プールt検定、1比率z検定、2比率z検定プール、2比率z検定非プール、1標本カイ二乗検定、分散の一様性についての2標本F検定、信頼区間、信頼区間(credible interval)、有意性、メタ分析、単一線形回帰、ロバスト線形回帰等、または上記のものの組合せが挙げられる。統計学的アルゴリズムを使用して分析することができるデータセットの変数または特徴の非限定的な例として、未加工カウント、フィルタリングしたカウント、正規化したカウント、ピークの高さ、ピークの幅、ピークのエッジ、ラテラルトレランス、P値、レベルの中央値、平均レベル、ゲノム領域内のカウントの分布、核酸種の相対的な表示等、またはそれらの組合せが挙げられる。
【0258】
特定の実施形態では、複数(例えば、2つもしくはそれ超)の統計学的アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K最近傍、ロジスティック回帰および/もしくは損失平滑化)、ならびに/または(例えば、本明細書では操作と呼ぶ)数学的および/もしくは統計学的な操作を利用することによって、データセットを分析することができる。一部の実施形態では、複数の操作の使用により、アウトカムをもたらすために使用することができるN次元空間を生成することができる。特定の実施形態では、複数の操作を利用することによりデータセットを分析することによって、データセットの複雑性および/または次元性を低下させることができる。例えば、複数の操作を参照データセットに対して使用することによって、参照試料の遺伝子の状況(例えば、選択された遺伝子の変動について陽性または陰性)に応じて、遺伝子の変動の存在または非存在を表示するために使用することができるN次元空間(例えば、確率プロット)を生成することができる。実質的に類似する一連の操作を使用する試験試料の分析を使用して、試験試料のそれぞれについてN次元の点を生成することができる。試験被験体のデータセットの複雑性および/または次元性は時には、参照データから生成されたN次元空間と容易に比較することができる単一の値またはN次元の点に低減される。参照被験体のデータが存在するN次元空間に存在する試験試料データは、参照被験体の遺伝子の状況に実質的に類似する遺伝子の状況を示す。参照被験体のデータが存在するN次元空間の外側に存在する試験試料データは、参照被験体の遺伝子の状況に実質的に類似しない遺伝子の状況を示す。一部の実施形態では、参照は、正倍数体であるかまたは、別段に、遺伝子の変動も医学的状態も有しない。
【0259】
一部の実施形態では、データセットを、計数し、任意選択でフィルタリングして正規化した後で、フィルタリングし、かつ/または正規化する1つまたは複数の手順により、これらの処理されたデータセットをさらに操作することができる。特定の実施形態では、フィルタリングし、かつ/または正規化する1つまたは複数の手順によりさらに操作されているデータセットを使用して、プロファイルを生成することができる。一部の実施形態では、時には、フィルタリングし、かつ/または正規化する1つまたは複数の手順により、データセットの複雑性および/または次元性を低下させることができる。低下させた複雑性および/または次元性のデータセットに基づいて、アウトカムをもたらすことができる。
【0260】
一部の実施形態では、誤差の尺度(例えば、標準偏差、標準誤差、計算した分散、p値、平均絶対誤差(mean absolute error)(MAE)、平均絶対偏差および/または平均絶対偏差(MAD))に従って、部分をフィルタリングすることができる。特定の実施形態では、誤差の尺度は、カウントの可変性を指す。一部の実施形態では、カウントの可変性に従って、部分をフィルタリングする。特定の実施形態では、カウントの可変性は、複数の試料(例えば、複数の被験体、例えば、50人/匹もしくはそれ超、100人/匹もしくはそれ超、500人/匹もしくはそれ超、1000人/匹もしくはそれ超、5000人/匹もしくはそれ超、または10,000人/匹もしくはそれ超の被験体から得られた複数の試料)について、参照ゲノムのある部分(すなわち、部分)に対してマッピングされたカウントについて決定した誤差の尺度である。一部の実施形態では、所定の上方範囲を上回るカウントの可変性を有する部分をフィルタリングする(例えば、検討事項から排除する)。一部の実施形態では、所定の上方範囲は、約50に等しいもしくはそれ超、約52に等しいもしくはそれ超、約54に等しいもしくはそれ超、約56に等しいもしくはそれ超、約58に等しいもしくはそれ超、約60に等しいもしくはそれ超、約62に等しいもしくはそれ超、約64に等しいもしくはそれ超、約66に等しいもしくはそれ超、約68に等しいもしくはそれ超、約70に等しいもしくはそれ超、約72に等しいもしくはそれ超、約74に等しいもしくはそれ超、または約76に等しいもしくはそれ超のMAD値である。一部の実施形態では、所定の下方範囲を下回るカウントの可変性を有する部分をフィルタリングする(例えば、検討事項から排除する)。一部の実施形態では、所定の下方範囲は、約40に等しいもしくはそれ未満、約35に等しいもしくはそれ未満、約30に等しいもしくはそれ未満、約25に等しいもしくはそれ未満、約20に等しいもしくはそれ未満、約15に等しいもしくはそれ未満、約10に等しいもしくはそれ未満、約5に等しいもしくはそれ未満、約1に等しいもしくはそれ未満、または約0に等しいもしくはそれ未満のMAD値である。一部の実施形態では、所定の範囲の外側にあるカウントの可変性を有する部分をフィルタリングする(例えば、検討事項から排除する)。一部の実施形態では、所定の範囲は、ゼロ超から、約76未満、約74未満、約73未満、約72未満、約71未満、約70未満、約69未満、約68未満、約67未満、約66未満、約65未満、約64未満、約62未満、約60未満、約58未満、約56未満、約54未満、約52未満または約50未満までのMAD値である。一部の実施形態では、所定の範囲は、ゼロ超から約67.7未満までのMAD値である。一部の実施形態では、所定の範囲内のカウントの可変性を有する部分を選択する(例えば、遺伝子の変動の存在または非存在を決定するために使用する)。
【0261】
一部の実施形態では、部分のカウントの可変性が、分布(例えば、正規分布)を示す。一部の実施形態では、部分は、分布のクォンタイル内で選択される。一部の実施形態では、分布の約99.9%に等しいもしくはそれ未満、約99.8%に等しいもしくはそれ未満、約99.7%に等しいもしくはそれ未満、約99.6%に等しいもしくはそれ未満、約99.5%に等しいもしくはそれ未満、約99.4%に等しいもしくはそれ未満、約99.3%に等しいもしくはそれ未満、約99.2%に等しいもしくはそれ未満、約99.1%に等しいもしくはそれ未満、約99.0%に等しいもしくはそれ未満、約98.9%に等しいもしくはそれ未満、約98.8%に等しいもしくはそれ未満、約98.7%に等しいもしくはそれ未満、約98.6%に等しいもしくはそれ未満、約98.5%に等しいもしくはそれ未満、約98.4%に等しいもしくはそれ未満、約98.3%に等しいもしくはそれ未満、約98.2%に等しいもしくはそれ未満、約98.1%に等しいもしくはそれ未満、約98.0%に等しいもしくはそれ未満、約97%に等しいもしくはそれ未満、約96%に等しいもしくはそれ未満、約95%に等しいもしくはそれ未満、約94%に等しいもしくはそれ未満、約93%に等しいもしくはそれ未満、約92%に等しいもしくはそれ未満、約91%に等しいもしくはそれ未満、約90%に等しいもしくはそれ未満、約85%に等しいもしくはそれ未満、約80%に等しいもしくはそれ未満、または約75%に等しいもしくはそれ未満のクォンタイル内の部分が選択される。一部の実施形態では、カウントの可変性の分布の99%クォンタイル内の部分が選択される。一部の実施形態では、99%クォンタイル内で、MAD>0およびMAD<67.725を有する部分が選択され、その結果、参照ゲノムの一連の安定な部分が同定される。
【0262】
PERUNに関する、部分をフィルタリングすることの非限定的な例が、本明細書および国際特許出願第PCT/US12/59123(WO2013/052913)号に示されており、後者は、全ての文書、表、等式および図面を含めた、その内容全体が、参照により本明細書に援用されている。誤差の尺度に基づいて、または誤差の尺度の一部に基づいて、部分をフィルタリングすることができる。特定の実施形態では、R因子等の偏差の絶対値を含む誤差の尺度を使用して、部分の除去または部分への重み付けを行うことができる。R因子は、一部の実施形態では、実際の測定値から予測されるカウントの値の絶対偏差の合計を、実際の測定値から予測されるカウントの値で除算した結果と定義する(例えば、本明細書の等式B)。偏差の絶対値を含む誤差の尺度を使用することができるが、誤差の適切な尺度もそれに代わって利用することができる。特定の実施形態では、偏差の絶対値を含まない誤差の尺度、例として、二乗に基づくばらつきを利用することができる。一部の実施形態では、マッピング可能性の尺度(例えば、マッピング可能性スコア)に従って、部分をフィルタリングするまたは重み付けする。時には、部分に対してマッピングされた、比較的低い数の配列の読取り(例えば、部分に対してマッピングされた、0、1、2、3、4、5つの読取り)に従って、その部分をフィルタリングするまたは重み付けする。実施している分析のタイプに従って、部分をフィルタリングするまたは重み付けすることができる。例えば、第13、18および/または21染色体の異数性の分析の場合、性染色体をフィルタリングすることができ、常染色体のみまたは常染色体のサブセットを分析することができる。胎児の性別の決定の場合、常染色体はフィルターされ得、性染色体(XおよびY)のみ、または性染色体(XまたはY)のうちの一方が分析され得る。
【0263】
特定の実施形態では、以下のフィルタリングする処理を利用することができる。所与の染色体(例えば、第21染色体)内の同じ一連の部分(例えば、参照ゲノムの部分)を選択し、読取りの数を、罹患試料と非罹患試料とで比較する。ギャップにより、21トリソミー試料と正倍数体試料とを関係付け、これには、ほとんどの第21染色体をカバーする一連の部分を含める。これらの一連の部分は、正倍数体試料とT21試料との間で同じである。部分を定義することができるので、一連の部分と単一区分との区別はあまり重要でない。同じゲノム領域を、異なる患者において比較する。この処理を、トリソミーの分析、例として、T21に加えてまたはその代わりに、T13またはT18について利用することができる。一部の実施形態では、データセットを、計数し、任意選択でフィルタリングし正規化した後で、重み付けすることによって、これらの処理されたデータセットを操作することができる。
【0264】
特定の実施形態では、1つまたは複数の部分を選択し、それらに重み付けして、選択された部分中に含有されるデータ(例えば、ノイズの多いデータ、有益でないデータ)の影響を低下させることができ、一部の実施形態では、1つまたは複数の部分を選択し、それらに重み付けして、選択された部分中に含有されるデータ(例えば、小さな分散が測定されたデータ)の影響を増強または増大させることができる。一部の実施形態では、大きな分散を有するデータの影響を減少させ、小さな分散を有するデータの影響を増加させる単一の重み付け関数を利用して、データセットに重み付けする。時には、重み付け関数を使用して、大きな分散を有するデータの影響を低下させ、小さな分散を有するデータの影響を増大させる(例えば、[1/(標準偏差)
2])。一部の実施形態では、重み付けによりさらに操作した処理済データのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。重み付けされたデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
【0265】
部分をフィルタリングすることまたは重み付けすることは、分析における1つまたは複数の適切な点で行うことができる。例えば、配列の読取りを、参照ゲノムの部分に対してマッピングする前または後に、部分をフィルタリングするまたは重み付けすることができる。一部の実施形態では、個々のゲノム部分についての実験の偏りを決定する前または後に、部分をフィルタリングするまたは重み付けすることができる。特定の実施形態では、ゲノム区分のレベルを計算する前または後に、部分をフィルタリングするまたは重み付けすることができる。
【0266】
一部の実施形態では、データセットを、計数し、任意選択でフィルタリングし、正規化し、任意選択で重み付けした後に、これらの処理されたデータセットを、1つまたは複数の数学的および/または統計学的な(例えば、統計学的関数または統計学的アルゴリズムによる)操作により操作することができる。特定の実施形態では、1つまたは複数の選択された部分、染色体、または染色体の部分についてZスコアを計算することによって、処理されたデータセットをさらに操作することができる。一部の実施形態では、P値を計算することによって、処理されたデータセットをさらに操作することができる。Zスコアおよびp値を計算するための等式の一実施形態を、等式1(実施例2)に示す。特定の実施形態では、数学的および/または統計学的な操作は、倍数性および/または胎児フラクションに関する1つまたは複数の仮定を含む。一部の実施形態では、1つまたは複数の統計学的および/または数学的な操作によりさらに操作した処理済データのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。統計学的および/または数学的に操作したデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。統計学的および/または数学的に操作したデータのプロファイルのプロットに基づいてもたらされたアウトカムはしばしば、倍数性および/または胎児フラクションに関する1つまたは複数の仮定を含む。
【0267】
特定の実施形態では、データセットを、計数し、任意選択でフィルタリングし正規化した後で、複数の操作を、処理されたデータセットに対して行って、N次元空間および/またはN次元の点を生成する。N次元で分析したデータセットのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
【0268】
一部の実施形態では、データセットの処理および/または操作の一部としてまたはその後に、1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して、データセットを処理する。一部の実施形態では、1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して処理したデータのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して処理してあるデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
【0269】
一部の実施形態では、問題の遺伝子変動を実質的に含有しない1つまたは複数の参照試料を使用して、参照のカウントプロファイルの中央値を得ることができ、この中央値は、遺伝子の変動の不在を表示する所定の値をもたらし得、しばしば、もし試験被験体が遺伝子の変動を保有するならば、その遺伝子の変動が試験被験体において位置するゲノムの場所に対応する領域における所定の値から、当該中央値は逸脱する。遺伝子の変動と関連する医学的状態のリスクがある、またはそうした医学的状態に罹患している試験被験体において、選択された部分または区分についての数値は、罹患していない場合のゲノムの場所についての所定の値とは有意に異なるものになることが予想される。特定の実施形態では、問題の遺伝子変動を担持することが分かっている1つまたは複数の参照試料を使用して、参照のカウントプロファイルの中央値を生成することができ、この中央値は、遺伝子の変動の存在を表示する所定の値をもたらし得、しばしば、試験被験体がその遺伝子の変動を担持しないゲノムの場所に対応する領域における所定の値から、当該中央値は逸脱する。遺伝子の変動と関連する医学的状態のリスクがない、またはそうした医学的状態に罹患していない試験被験体においては、選択された部分または区分についての数値は、罹患している場合のゲノムの場所についての所定の値とは有意に異なることが予想される。
【0270】
一部の実施形態では、データの分析および処理は、1つまたは複数の仮定の使用を含むことができる。適切な数またはタイプの仮定を利用して、データセットを分析または処理することができる。データの処理および/または分析のために使用することができる仮定の非限定的な例として、母体の倍数性、胎児の寄与、参照集団中の特定の配列の存在率、民族性背景、血縁の家族における選択された医学的状態の存在率、異なる患者から得られた未加工カウントのプロファイル間の平行度および/またはGC正規化およびリピートマスクキング(GC−normalization and repeat masking)(例えば、GCRM)後のラン、PCRの人工産物を表わす同一の一致(例えば、同一塩基の位置)、胎児数量アッセイ(例えば、FQA)に固有の仮定、双子に関する仮定(例えば、双子の両方のうち、一方のみが罹患している場合、有効な胎児フラクションは、測定された全胎児フラクションの50%のみである(三つ子、四つ子等についても同様))、ゲノム全体を一様にカバーする胎児の無細胞DNA(例えば、cfDNA)等、ならびにそれらの組合せが挙げられる。
【0271】
正規化されたカウントプロファイルに基づいて、遺伝子の変動の存在または非存在のアウトカムを所望の信頼性のレベル(例えば、95%またはそれ超の信頼性のレベル)で予測することが、マッピングされた配列の読取りの品質および/または深さでは可能でない事例では、1つまたは複数の追加の数学的操作のアルゴリズムおよび/または統計学的予測アルゴリズムを利用して、データ分析および/またはアウトカムの提供に有用な追加の数値を生成することができる。用語「正規化されたカウントプロファイル」は、本明細書で使用する場合、正規化されたカウントを使用して生成されたプロファイルを指す。正規化されたカウントおよび正規化されたカウントプロファイルを生成するために使用することができる方法の例を、本明細書に記載する。上記で述べたように、計数されるに至った、マッピングされた配列の読取りを、試験試料のカウントまたは参照試料のカウントに関して正規化することができる。一部の実施形態では、正規化されたカウントプロファイルは、プロットして示すことができる。
【0272】
プロファイル
一部の実施形態では、処理するステップは、データセットまたはその派生形の多様な側面(例えば、当技術分野で公知であり、かつ/または本明細書で記載される、1つまたは複数の数学的データ処理ステップおよび/または統計学的データ処理ステップの産物)からの、1つまたは複数のプロファイルの生成(例えば、プロファイルのプロット)を含みうる。
【0273】
本明細書で使用される「プロファイル」という用語は、大量のデータ中のパターンおよび/または相関の同定を容易としうるデータに対する数学的操作および/または統計学的操作の産物を指す。「プロファイル」は、データまたはデータセットに対する、1つまたは複数の判定基準に基づく、1つまたは複数の操作から結果として得られる値を含むことが多い。プロファイルは、複数のデータ点を含むことが多い。データセットの性格および/または複雑性に応じて、任意の適切な数のデータ点を、プロファイルに含めることができる。ある特定の実施形態では、プロファイルには、2つまたはそれ超のデータ点、3つもしくはそれ超のデータ点、5つもしくはそれ超のデータ点、10もしくはそれ超のデータ点、24もしくはそれ超のデータ点、25もしくはそれ超のデータ点、50もしくはそれ超のデータ点、100もしくはそれ超のデータ点、500もしくはそれ超のデータ点、1000もしくはそれ超のデータ点、5000もしくはそれ超のデータ点、10,000もしくはそれ超のデータ点、または100,000もしくはそれ超のデータ点を含むことができる。
【0274】
一部の実施形態では、プロファイルは、データセットの全体を表し、ある特定の実施形態では、プロファイルは、データセットの一部分またはサブセットを表わす。すなわち、プロファイルは、ある場合には、いかなるデータも除外するようにフィルタリングされていないデータを表示するデータ点を含むかまたはこれらから生成されており、プロファイルは、ある場合には、望ましくないデータを除外するようにフィルタリングされたデータを表示するデータ点を含むかまたはこれらから生成されている。一部の実施形態では、プロファイル中のデータ点は、部分についてのデータ操作の結果を表示する。ある特定の実施形態では、プロファイル中のデータ点は、部分の群についてのデータ操作の結果を含む。一部の実施形態では、部分の群は、互いと隣接することが可能であり、ある特定の実施形態では、部分の群は、染色体またはゲノムの異なる一部分に由来しうる。
【0275】
データセットから導出されたプロファイル中のデータ点は、任意の適切なデータの類別を表示しうる。プロファイルデータ点を生成するようにデータを群分けしうるカテゴリーの非限定的な例は、サイズに基づく部分、配列特徴(例えば、GC含有量、AT含有量、染色体上の場所(例えば、短腕部、長腕部、セントロメア、テロメア)など)に基づく部分、発現のレベル、染色体など、またはこれらの組合せを含む。一部の実施形態では、プロファイルは、別のプロファイルから得られるデータ点から生成することができる(例えば、再正規化データプロファイルを生成するように、異なる正規化する値に対して再正規化された正規化データプロファイル)。ある特定の実施形態では、別のプロファイルから得られるデータ点から生成されたプロファイルにより、データ点の数および/またはデータセットの複雑性を低減する。データ点の数および/またはデータセットの複雑性の低減により、データの解釈が容易となり、かつ/またはアウトカムの提示が容易となることが多い。
【0276】
プロファイル(例えば、ゲノムプロファイル、染色体プロファイル、染色体のセグメントのプロファイル)は、2つまたはそれ超の部分のための正規化されたカウントまたは正規化されていないカウントのコレクションであることが多い。プロファイルは、少なくとも1つのレベル(例えば、ゲノム区分のレベル)を含むことが多く、2つまたはそれ超のレベルを含むことが多い(例えば、プロファイルは、複数のレベルを有することが多い)。レベルは一般に、ほぼ同じカウントまたは正規化されたカウントを有する部分のセットについてのレベルである。レベルについては、本明細書でより詳細に記載される。ある特定の実施形態では、プロファイルは、1つまたは複数の部分であって、重み付けするか、除外するか、フィルタリングするか、正規化するか、調整するか、平均するか、平均値として導出するか、加算するか、減算するか、処理するか、またはこれらの任意の組合せにより変換しうる部分を含む。プロファイルは、2つまたはそれ超のレベルを規定する部分へとマッピングした正規化されたカウントを含むことが多く、ここで、カウントは、適切な方法により、レベルのうちの1つに従ってさらに正規化される。プロファイル(例えば、プロファイルレベル)のカウントは、不確定値と関連することが多い。
【0277】
1つまたは複数のレベルを含むプロファイルは、場合によって、穴埋め(例えば、ホールの穴埋め)される。穴埋め(padding)(例えば、ホールの穴埋め)とは、母体の微小欠失または母体の重複(例えば、コピー数の変動)に起因するプロファイル中のレベルを同定および調整する処理を指す。一部の実施形態では、胎児の微小重複または胎児の微小欠失に起因するレベルを穴埋めする。一部の実施形態では、プロファイル中の微小重複または微小欠失により、プロファイル(例えば、染色体プロファイル)の全体的なレベルを人工的に上昇または低下させ、染色体の異数性(例えば、トリソミー)についての、偽陽性または偽陰性の決定をもたらすことができる。一部の実施形態では、微小重複および/または欠失に起因するプロファイル中のレベルを同定し、場合によって、穴埋めまたはホールの穴埋めと称する処理により調整する(例えば、穴埋めおよび/または除外する)。ある特定の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、1つまたは複数の第1のレベルの各々は、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動を含み、第1のレベルのうちの1または複数を調整する。
【0278】
1つまたは複数のレベルを含むプロファイルは、第1のレベルおよび第2のレベルを含みうる。一部の実施形態では、第1のレベルは、第2のレベルと異なる(例えば、有意に異なる)。一部の実施形態では、第1のレベルは、第1の部分のセットを含み、第2のレベルは、第2の部分のセットを含み、第1の部分のセットは、第2の部分のセットのサブセットではない。ある特定の実施形態では、第1の部分のセットは、第2の部分のセットと異なり、これらから第1のレベルおよび第2のレベルが決定される。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと異なる(例えば、有意に異なる、例えば、有意に異なる値を有する)複数の第1のレベルを有しうる。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、第1のレベルのうちの1または複数を調整する。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、1つまたは複数の第1のレベルの各々は、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動を含み、第1のレベルのうちの1または複数を調整する。一部の実施形態では、プロファイル中の第1のレベルを、プロファイルから除外するかまたは調整する(例えば、穴埋めする)。プロファイルは、1つまたは複数の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含む複数のレベルを含むことが可能であり、プロファイル中のレベルの大半は、互いとほぼ等しい第2のレベルであることが多い。一部の実施形態では、プロファイル中のレベルのうちの50%超、60%超、70%超、80%超、90%超または95%超は、第2のレベルである。
【0279】
プロファイルは、場合によって、プロットとして示される。例えば、部分のカウント(例えば、正規化されたカウント)を表示する1つまたは複数のレベルは、プロットし、視覚化することができる。生成されうるプロファイルのプロットの非限定的な例は、未加工のカウント(例えば、未加工のカウントプロファイルまたは未加工のプロファイル)、正規化されたカウント、部分重み付け、zスコア、p値、適合させた倍数性と対比した面積比、適合させた胎児フラクションと測定した胎児フラクションとの間の比と対比した中央値レベル、主成分など、またはこれらの組合せを含む。一部の実施形態では、プロファイルのプロットにより、操作データの視覚化が可能となる。ある特定の実施形態では、プロファイルのプロットを活用して、アウトカム(例えば、適合させた倍数性と対比した面積比、適合させた胎児フラクションと測定した胎児フラクションとの間の比と対比した中央値レベル、主成分)を提示することができる。本明細書で使用される「未加工のカウントプロファイルのプロット」または「未加工のプロファイルのプロット」という用語は、領域中の全カウントに対して正規化された、領域中の各部分(例えば、ゲノム、部分、染色体、参照ゲノムの染色体部分、または染色体のセグメント)中のカウントのプロットを指す。一部の実施形態では、プロファイルは、スタティックウィンドウ処理を使用して生成することができ、ある特定の実施形態では、プロファイルは、スライディングウィンドウ処理を使用して生成することができる。
【0280】
試験被験体について生成されたプロファイルは、場合によって、1つまたは複数の参照被験体について生成されたプロファイルと比較して、データセットの数学的操作および/もしくは統計学的操作の解釈を容易とし、かつ/またはアウトカムを提示する。一部の実施形態では、プロファイルは、1つまたは複数の出発仮定(例えば、母体の核酸寄与(例えば、母体のフラクション)、胎児の核酸寄与(例えば、胎児フラクション)、参照試料の倍数性など、またはこれらの組合せ)に基づき生成する。ある特定の実施形態では、試験プロファイルは、遺伝子の変動の非存在を表示する所定の値を中心とすることが多く、試験被験体が遺伝子の変動を保有したとする場合に、試験被験体において遺伝子の変動が位置するゲノム位置に対応するエリア中の所定の値からは逸脱することが多い。遺伝子の変動と関連する医学的状態の危険性があるか、またはこれを患っている試験被験体では、選択部分についての数値が、罹患していないゲノム位置についての所定の値から有意に変化することが期待される。出発仮定(例えば、一定の倍数性もしくは最適化された倍数性、一定の胎児フラクションもしくは最適化された胎児フラクション、またはこれらの組合せ)に応じて、遺伝子の変動の存在または非存在を指し示す所定の閾もしくはカットオフ値またはの閾範囲は、遺伝子の変動の存在または非存在を決定するために有用なアウトカムをやはり提示しながらも、変化しうる。一部の実施形態では、プロファイルは、表現型を指し示し、かつ/またはこれを表示する。
【0281】
非限定的な例として述べると、正規化された試料および/または参照カウントプロファイルは、(a)遺伝子の変動を保有しないことが既知である参照基準のセットから選択された、染色体、部分、またはこれらのセグメントについての、参照中央値カウントを計算すること、(b)有益でない部分の、参照試料の未加工のカウントからの除外(例えば、フィルタリング)、(c)残りの参照ゲノムの全ての部分についての参照カウントを、参照試料、選択された染色体、または選択されたゲノム位置についての、残りカウントの総数(例えば、有益でない参照ゲノムの部分を除外した後の残りのカウントの合計)に対して正規化し、これにより、正規化された参照被験体プロファイルを生成すること、(d)対応する部分を試験被験体試料から除外すること、および(e)1つまたは複数の選択されたゲノム位置についての、残りの試験被験体カウントを、選択されたゲノム位置を含有する1つまたは複数の染色体についての、残りの参照中央値カウントの合計に対して正規化し、これにより、正規化された試験被験体プロファイルを生成することにより、未加工の配列の読取りデータから得ることができる。ある特定の実施形態では、(b)における、フィルタリングした部分により低減された全ゲノムに関する、さらなる正規化ステップを、(c)と(d)との間に含めることができる。
【0282】
データセットプロファイルは、カウントされたマッピングした配列の読取りデータに対する1つまたは複数の操作により生成することができる。一部の実施形態は、以下を含む:配列の読取りをマッピングし、各ゲノム部分へとマッピングされるカウント(すなわち、配列タグ)の数を決定する(例えば、カウントする)。未加工のカウントプロファイルを、カウントされたマッピングした配列の読取りから生成する。ある特定の実施形態では、試験被験体に由来する未加工のカウントプロファイルを、遺伝子の変動を保有しないことが既知である、参照被験体のセットに由来する、染色体、部分、またはこれらのセグメントについての、参照中央値カウントプロファイルと比較することにより、アウトカムを提示する。
【0283】
一部の実施形態では、配列の読取りデータは、ノイズの多いデータまたは有益でない部分を除外するように、任意選択でフィルタリングする。フィルタリングの後、残りのカウントを足し合わせて、フィルタリングされたデータセットを生成することが典型的である。ある特定の実施形態では、フィルタリングされたカウントプロファイルを、フィルタリングされたデータセットから生成する。
【0284】
配列の読取りデータをカウントし、任意選択でフィルタリングした後で、データセットを正規化して、レベルまたはプロファイルを生成することができる。1つまたは複数の選択部分を、適切な正規化された参照値に対して正規化することにより、データセットを正規化することができる。一部の実施形態では、正規化された参照値は、部分が選択される1つまたは複数の染色体についての全カウントを表示する。ある特定の実施形態では、正規化された参照値は、遺伝子の変動を保有しないことが既知である、参照被験体のセットから調製された、参照データセットに由来する染色体の部分または染色体である、1つまたは複数の対応する部分を表示する。一部の実施形態では、正規化された参照値は、遺伝子の変動の存在または非存在について分析される試験被験体から調製された、試験被験体データセットに由来する、染色体の部分または染色体である、1つまたは複数の対応する部分を表示する。ある特定の実施形態では、正規化処理は、スタティックウィンドウ法を活用して実施し、一部の実施形態では、正規化処理は、ムービングウィンドウ法またはスライディングウィンドウ法を活用して実施する。ある特定の実施形態では、正規化されたカウントを含むプロファイルを生成して、アウトカムの分類および/または提示を容易とする。アウトカムは、正規化されたカウントを含むプロファイルのプロットに基づき(例えば、このようなプロファイルのプロットを使用して)提示することができる。
【0285】
レベル
一部の実施形態では、値(例えば、数、定量的値)を、レベルに帰する。レベルは、適切な方法、演算、または数学的処理(例えば、処理されたレベル)により決定することができる。レベルは、部分のセットについてのカウント(例えば、正規化されたカウント)であるか、またはこれから導出されることが多い。一部の実施形態では、部分のレベルは、部分へとマッピングしたカウント(例えば、カウント、正規化されたカウント)の総数と実質的に等しい。レベルは、当技術分野で公知の適切な方法、演算、または数学的処理により処理、変換、または操作されたカウントから決定することが多い。一部の実施形態では、レベルは、処理されたカウントから導出し、処理されたカウントの非限定的な例は、重み付けされるか、除外されるか、フィルタリングされるか、正規化されるか、調整されるか、平均されるか、平均値として導出される(例えば、平均レベル)か、加算されるか、減算されるか、変換されたカウント、またはこれらの組合せを含む。一部の実施形態では、レベルは、正規化されたカウント(例えば、部分の正規化されたカウント)を含む。レベルは、その非限定的な例が、部分に関する正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、GC LOESS、LOWESS、PERUN、RM、GCRM、cQnなど、および/またはこれらの組合せを含む、適切な処理により正規化されたカウントについてのレベルでありうる。レベルは、正規化されたカウントまたはカウントの相対量を含みうる。一部の実施形態では、レベルは、平均された、2つもしくはそれ超の部分のカウントまたは正規化されたカウントについてのレベルであり、レベルを、平均レベルと称する。一部の実施形態では、レベルは、平均カウントまたは正規化されたカウントの平均値を有する部分のセットについてのレベルであり、これを、平均レベルと称する。一部の実施形態では、レベルを、未加工のカウントおよび/またはフィルタリングされたカウントを含む部分について導出する。一部の実施形態では、レベルは、未加工のカウントであるカウントに基づく。一部の実施形態では、レベルは、不確定値(例えば、標準偏差、MAD)と関連する。一部の実施形態では、レベルを、Zスコアまたはp値により表示する。
【0286】
本明細書では、1つまたは複数の部分についてのレベルは、「ゲノム区分のレベル」と同義である。本明細書で使用される「レベル」という用語は、場合によって、「水準(elevation)」という用語と同義である。「レベル」という用語の意味の決定は、それを使用する文脈から決定することができる。例えば、ゲノム区分、プロファイル、読取り、および/またはカウントの文脈で使用される場合の「レベル」という用語は、水準を意味することが多い。物質または組成物の文脈で使用される場合の「レベル」という用語(例えば、RNAのレベル、網状(plexing)レベル)は、量を指すことが多い。不確定性の文脈で使用される場合の「レベル」という用語(例えば、誤差のレベル、信頼性のレベル、偏差のレベル、不確定性のレベル)は、量を指すことが多い。
【0287】
2つまたはそれ超のレベル(例えば、2つまたはそれ超のプロファイル中のレベル)についての正規化されたカウントまたは正規化されていないカウントは、場合によって、レベルに従って、数学的に操作する(例えば、これに加算する、これに乗算する、これを平均する、これを正規化するなど、またはこれらの組合せ)ことができる。例えば、2つまたはそれ超のレベルについての正規化されたカウントまたは正規化されていないカウントは、プロファイル中のレベルの1つ、一部、または全部に従って正規化することができる。一部の実施形態では、プロファイル中の全てのレベルについての正規化されたカウントまたは正規化されていないカウントを、プロファイル中の1つのレベルに従って正規化する。一部の実施形態では、プロファイル中の第1のレベルについての正規化されたカウントまたは正規化されていないカウントを、プロファイル中の第2のレベルについての正規化されたカウントまたは正規化されていないカウントに従って正規化する。
【0288】
レベル(例えば、第1のレベル、第2のレベル)の非限定的な例は、処理されたカウントを含む部分のセットについてのレベル、カウントの平均値、中央値、もしくは平均を含む部分のセットについてのレベル、正規化されたカウントを含む部分のセットについてのレベルなど、またはこれらの任意の組合せである。一部の実施形態では、プロファイル中の第1のレベルおよび第2のレベルは、同じ染色体へとマッピングした部分のカウントから導出する。一部の実施形態では、プロファイル中の第1のレベルおよび第2のレベルは、異なる染色体へとマッピングした部分のカウントから導出する。
【0289】
一部の実施形態では、レベルを、1つまたは複数の部分へとマッピングした正規化されたカウントまたは正規化されていないカウントから決定する。一部の実施形態では、レベルを、2つまたはそれ超の部分へとマッピングした正規化されたカウントまたは正規化されていないカウントから決定するが、ここで、各部分の正規化されたカウントは、ほぼ同じであることが多い。レベルについての部分のセット中のカウント(例えば、正規化されたカウント)には、変動があり得る。レベルについての部分のセット内には、セットの他の部分(例えば、ピークおよび/またはディップ)内とは、カウントが有意に異なる1つまたは複数の部分が存在し得る。任意の適切な数の部分と関連する、任意の適切な数の正規化されたカウントまたは正規化されていないカウントは、レベルを規定しうる。
【0290】
一部の実施形態では、1つまたは複数のレベルは、ゲノムの部分の全部または一部の正規化されたカウントまたは正規化されていないカウントから決定することができる。レベルは、染色体またはそのセグメントの正規化されたカウントまたは正規化されていないカウントの全部または一部から決定しうることが多い。一部の実施形態では、2つまたはそれ超の部分(例えば、部分のセット)から導出された、2つまたはそれ超のカウントにより、レベルを決定する。一部の実施形態では、2つまたはそれ超のカウント(例えば、2つまたはそれ超の部分に由来するカウント)により、レベルを決定する。一部の実施形態では、2〜約100,000の部分に由来するカウントにより、レベルを決定する。一部の実施形態では、2〜約50,000、2〜約40,000、2〜約30,000、2〜約20,000、2〜約10,000、2〜約5000、2〜約2500、2〜約1250、2〜約1000、2〜約500、2〜約250、2〜約100、または2〜約60の部分に由来するカウントにより、レベルを決定する。一部の実施形態では、約10〜約50の部分に由来するカウントにより、レベルを決定する。一部の実施形態では、約20〜約40またはそれ超の部分に由来するカウントにより、レベルを決定する。一部の実施形態では、レベルは、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60またはそれ超の部分に由来するカウントを含む。一部の実施形態では、レベルは、部分のセット(例えば、参照ゲノムの部分のセット、染色体の部分のセット、または染色体のセグメントの部分のセット)に対応する。
【0291】
一部の実施形態では、レベルを、連続的な部分の正規化されたカウントまたは正規化されていないカウントについて決定する。一部の実施形態では、連続的な部分(例えば、部分のセット)は、ゲノムの隣接セグメントまたは染色体もしくは遺伝子の隣接セグメントを表示する。例えば、2つまたはそれ超の連続的な部分は、部分を末端から末端へとマージすることにより整列させる場合、各部分より長いDNA配列の配列アセンブリーを表示し得る。例えば、2つまたはそれ超の連続的な部分は、無傷ゲノム、染色体、遺伝子、イントロン、エクソン、またはそのセグメントを表示しうる。一部の実施形態では、レベルを、連続的な部分および/または非連続的な部分のコレクション(例えば、セット)から決定する。
【0292】
異なるレベル
一部の実施形態では、正規化されたカウントのプロファイルは、プロファイル中の別のレベル(例えば、第2のレベル)と有意に異なるレベル(例えば、第1のレベル)を含む。第1のレベルは、第2のレベルより高レベルの場合もあり、低レベルの場合もある。一部の実施形態では、第1のレベルは、コピー数の変動(例えば、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動)を含む1つまたは複数の読取りを含む部分のセットについてのレベルであり、第2のレベルは、コピー数の変動を実質的に有さない読取りを含む部分のセットについてのレベルである。一部の実施形態では、「有意に異なる」とは、観察可能な差違を指す。一部の実施形態では、「有意に異なる」とは、「統計学的に異なる」または「統計学的な有意差」を指す。統計学的な有意差は、場合によって、観察された差違についての統計学的評価である。統計学的な有意差は、当技術分野で適切な方法により評価することができる。任意の適切な閾または範囲を使用して、2つのレベルが有意に異なることを決定することができる。ある特定の実施形態では、約0.01パーセント(例えば、レベル値のうちの1つまたは一方の0.01パーセント)またはそれ超異なる2つのレベル(例えば、平均レベル)は、有意に異なる。一部の実施形態では、約0.1パーセントまたはそれ超異なる2つのレベル(例えば、平均レベル)は、有意に異なる。ある特定の実施形態では、約0.5パーセントまたはそれ超異なる2つのレベル(例えば、平均レベル)は、有意に異なる。一部の実施形態では、約0.5、0.75、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5%、または約10%超異なる2つのレベル(例えば、平均レベル)は、有意に異なる。一部の実施形態では、2つのレベル(例えば、平均レベル)は、有意に異なり、いずれのレベルにも重複はなく、かつ/または一方もしくは両方のレベルについて計算された不確定値により規定される範囲に重複はない。ある特定の実施形態では、不確定値は、シグマとして表される標準偏差である。一部の実施形態では、2つのレベル(例えば、平均レベル)は、有意に異なり、不確定値の約1倍(例えば、1シグマ)またはそれ超異なる。一部の実施形態では、2つのレベル(例えば、平均レベル)は、有意に異なり、不確定値の約2倍(例えば、2シグマ)もしくはそれ超、不確定値の約3倍もしくはそれ超、約4倍もしくはそれ超、約5倍もしくはそれ超、約6倍もしくはそれ超、約7倍もしくはそれ超、約8倍もしくはそれ超、約9倍もしくはそれ超、または約10倍もしくはそれ超異なる。一部の実施形態では、2つのレベル(例えば、平均レベル)は、不確定値の約1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、もしくは4.0倍、またはそれ超異なる場合に有意に異なる。一部の実施形態では、信頼性レベルは、2つのレベルの間の差違が増加するとともに増加する。ある特定の実施形態では、信頼性レベルは、2つのレベルの間の差違が減少するとともに、かつ/または不確定値が増加するとともに減少する。例えば、場合によって、信頼性レベルは、レベル間の差違と標準偏差(例えば、MAD)との比に応じて増加する。
【0293】
1つまたは複数の予測アルゴリズムを使用して、互いに対して非依存的に重み付けされる場合もあり、依存的に重み付けされる場合もある可変条件下で収集された検出データの有意性を決定するか、またはこれに意味を与えることができる。本明細書で使用される「変数」という用語は、値または値のセットを有するアルゴリズムの因子、量、または関数を指す。
【0294】
一部の実施形態では、第1の部分のセットは、第2の部分のセットと異なる(例えば、第2の部分のセットと重複しない)部分を含むことが多い。例えば、場合によって、正規化されたカウントの第1のレベルは、プロファイル中の正規化されたカウントの第2のレベルと有意に異なり、第1のレベルは、第1の部分のセットについてのレベルであり、第2のレベルは、第2の部分のセットについてのレベルであり、部分は、第1の部分のセットおよび、第2の部分のセットにおいて重複しない。ある特定の実施形態では、第1の部分のセットは、第2の部分のセットのサブセットではなく、これらから、それぞれ、第1のレベルおよび第2のレベルが決定される。一部の実施形態では、第1の部分のセットは、第2の部分のセットと異なり、かつ/または別個であり、これらから、それぞれ、第1のレベルおよび第2のレベルが決定される。
【0295】
一部の実施形態では、第1の部分のセットは、プロファイル中の第2の部分のセットのサブセットである。例えば、場合によって、プロファイル中の第2の部分のセットについての正規化されたカウントの第2のレベルは、プロファイル中の第1のレベルについての、第1の部分のセットの正規化されたカウントを含み、第1の部分のセットは、プロファイル中の第2の部分のセットのサブセットである。一部の実施形態では、平均レベル、平均値レベル、または中央値レベルは、第2のレベルから導出され、ここで、第2のレベルは、第1のレベルを含む。一部の実施形態では、第2のレベルは、全染色体を表示する第2の部分のセットを含み、第1のレベルは、第1の部分のセットを含み、ここで、第1のセットは、第2の部分のセットのサブセットであり、第1のレベルは、染色体内に存在する、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動を表示する。
【0296】
一部の実施形態では、第2のレベルの値は、第1のレベルより、染色体またはそのセグメントについてのカウントプロファイルの、平均値、平均、または中央値の値に近い。一部の実施形態では、第2のレベルは、染色体、染色体の部分またはそのセグメントの平均レベルである。一部の実施形態では、第1のレベルは、染色体またはそのセグメントを表示する主要レベル(例えば、第2のレベル)と有意に異なる。プロファイルには、第2のレベルと有意に異なる、複数の第1のレベルを含むことができ、各第1のレベルは独立に、第2のレベルより高レベルの場合もあり、低レベルの場合もある。一部の実施形態では、第1のレベルおよび第2のレベルは、同じ染色体から導出し、第1のレベルは、第2のレベルより高レベルであるか、低レベルであり、第2のレベルは、染色体の主要レベルである。一部の実施形態では、第1のレベルおよび第2のレベルは、同じ染色体から導出し、第1のレベルは、コピー数の変動(例えば、母体および/または胎児のコピー数の変動、欠失、挿入、重複)を指し示し、第2のレベルは、染色体またはそのセグメントについての部分の平均レベルまたは主要レベルである。
【0297】
ある特定の実施形態では、第2のレベルについての第2の部分のセット中の読取りは、遺伝子の変動(例えば、コピー数の変動、母体および/または胎児のコピー数の変動)を実質的に含まない。第2のレベルについての第2の部分のセットは、何らかの可変性(例えば、部分についてのレベルの可変性、カウントの可変性)を含むことが多い。一部の実施形態では、実質的にコピー数の変動がないことと関連するレベルについての部分のセット中の1つまたは複数の部分は、母体および/または胎児のゲノム内に存在するコピー数の変動を有する1つまたは複数の読取りを含む。例えば、場合によって、部分のセットは、小さな染色体のセグメント(例えば、10未満の部分)内に存在するコピー数の変動を含み、部分のセットは、実質的にコピー数の変動がないことと関連するレベルについての部分のセットである。したがって、実質的にコピー数の変動を含まない部分のセットはやはり、レベルの約10、9つ、8つ、7つ、6つ、5つ、4つ、3つ、2つ、または1つ未満の部分に存在するコピー数の変動を含みうる。
【0298】
一部の実施形態では、第1のレベルは、第1の部分のセットについてのレベルであり、第2のレベルは、第2の部分のセットについてのレベルであり、第1の部分のセットおよび第2の部分のセットは、連続している(例えば、染色体またはそのセグメントの核酸配列に関して隣接する)。一部の実施形態では、第1の部分のセットおよび第2の部分のセットは、連続していない。
【0299】
胎児核酸と母体核酸との混合物に由来する比較的短い配列の読取りを活用して、レベルおよび/またはプロファイルへと変換されうるカウントを提示することができる。カウント、レベル、およびプロファイルは、電子的形態で描示することもでき、実体的形態で描示することもでき、視覚化することができる。部分へとマッピングした(例えば、レベルおよび/またはプロファイルとして表された)カウントは、胎児および/または妊娠中の雌において存在する胎児および/または母体のゲノム、染色体、または染色体の部分もしくはセグメントについての視覚的表示をもたらしうる。
【0300】
参照レベルおよび正規化された参照値
一部の実施形態では、プロファイルは、参照レベル(例えば、参照として使用されるレベル)を含む。正規化されたカウントのプロファイルにより、期待レベルおよび期待範囲(期待レベルおよび期待範囲についての下記の議論を参照されたい)が決定される参照レベルを提示することが多い。参照レベルは、母親および胎児の両方に由来するマッピングした読取りを含む部分の正規化されたカウントについての参照レベルであることが多い。参照レベルは、胎児および母親(例えば、妊娠中の雌)に由来するマッピングした読取りの正規化されたカウントの合計であることが多い。一部の実施形態では、参照レベルは、正倍数性の母親および/または正倍数性の胎児に由来するマッピングした読取りを含む部分についての参照レベルである。一部の実施形態では、参照レベルは、胎児および/または母体の遺伝子の変動(例えば、異数性(例えば、トリソミー)、コピー数の変動、微小重複、微小欠失、挿入)を有するマッピングした読取りを含む部分についての参照レベルである。一部の実施形態では、参照レベルは、母体および/または胎児の遺伝子の変動(例えば、異数性(例えば、トリソミー)、コピー数の変動、微小重複、微小欠失、挿入)を実質的に含まない部分についての参照レベルである。一部の実施形態では、第2のレベルは、参照レベルとして使用されるレベルである。ある特定の実施形態では、プロファイルは、正規化されたカウントの第1のレベルおよび正規化されたカウントの第2のレベルを含み、第1のレベルは、第2のレベルと有意に異なり、第2のレベルは、参照レベルである。ある特定の実施形態では、プロファイルは、第1の部分のセットについての正規化されたカウントの第1のレベル、第2の部分のセットについての正規化されたカウントの第2のレベルを含み、第1の部分のセットは、母体および/または胎児のコピー数の変動を有するマッピングした読取りを含み、第2の部分のセットは、母体および/または胎児のコピー数の変動を実質的に有さないマッピングした読取りを含み、第2のレベルは、参照レベルである。
【0301】
一部の実施形態では、プロファイルについての1つまたは複数のレベルについての部分へとマッピングしたカウントを、参照レベルのカウントに従って正規化する。一部の実施形態では、参照レベルのカウントに従った、レベルのカウントを正規化することは、レベルのカウントを、参照レベルのカウントまたはその倍数もしくは分数で除算することを含む。参照レベルのカウントに従って正規化されたカウントは、別の処理(例えば、PERUN)に従って正規化されていることが多く、参照レベルのカウントもまた正規化されている(例えば、PERUNにより)ことが多い。一部の実施形態では、レベルのカウントを、参照レベルのカウントに従って正規化し、参照レベルのカウントは、正規化する前に、または正規化した後で、適切な値へとスケーリング可能である。参照レベルのカウントのスケーリング処理は、任意の適切な定数(すなわち、数)を含むことが可能であり、任意の適切な数学的操作を、参照レベルのカウントへと適用することができる。
【0302】
正規化された参照値(NRV:normalized reference value)は、参照レベルの正規化されたカウントに従って決定することが多い。NRVの決定は、参照レベルのカウントへと適用された任意の適切な正規化処理(例えば、数学的操作)を含むことが可能であり、ここでは、同じプロファイル内の他のレベルのカウントを正規化するのに、同じ正規化処理を使用する。NRVの決定は、参照レベルを、参照レベル自体で除算することを含むことが多い。NRVの決定は、参照レベルを、参照レベル自体の倍数で除算することを含むことが多い。NRVの決定は、参照レベルを、参照レベルと定数(例えば、任意の数)との和または差で除算することを含むことが多い。
【0303】
NRVは、場合によって、ヌル値と称する。NRVは、任意の適切な値でありうる。一部の実施形態では、NRVは、ゼロ以外の任意の値である。一部の実施形態では、NRVは、整数(whole number)である。一部の実施形態では、NRVは、正の整数(integer)である。一部の実施形態では、NRVは、1、10、100、または1000である。NRVは、1に等しいことが多い。一部の実施形態では、NRVは、ゼロに等しい。参照レベルのカウントを、任意の適切なNRVに対して正規化することができる。一部の実施形態では、参照レベルのカウントを、ゼロであるNRVに対して正規化する。参照レベルのカウントは、1であるNRVに対して正規化することが多い。
【0304】
期待レベル
期待レベルは、場合によって、あらかじめ規定されたレベル(例えば、理論レベル、予測レベル)である。本明細書では、場合によって、「期待レベル」を、「所定のレベル値」と称する。一部の実施形態では、期待レベルは、コピー数の変動を含む部分のセットについての正規化されたカウントのレベルについての予測値である。ある特定の実施形態では、期待レベルを、実質的にコピー数の変動を含まない部分のセットについて決定する。期待レベルは、染色体の倍数性(例えば、0、1つ、2つ(すなわち、二倍体)、3つ、または4つの染色体)または微小倍数性(ホモ接合性またはヘテロ接合性の欠失、重複、挿入、またはこれらの非存在)について決定することができる。期待レベルは、母体の微小倍数性(例えば、母体および/または胎児のコピー数の変動)について決定することが多い。
【0305】
遺伝子の変動またはコピー数の変動についての期待レベルは、任意の適切な様式で決定することができる。期待レベルは、レベルの適切な数学的操作(例えば、レベルについての部分のセットへとマッピングしたカウント)により決定することが多い。一部の実施形態では、期待レベルを、場合によって、期待レベル定数と称する定数を活用することにより決定する。コピー数の変動についての期待レベルは、場合によって、参照レベル、参照レベルの正規化されたカウント、もしくはNRVに、期待レベル定数を乗算すること、参照レベル、参照レベルの正規化されたカウント、もしくはNRVに期待レベル定数を加算すること、参照レベル、参照レベルの正規化されたカウント、もしくはNRVから期待レベル定数を減算すること、参照レベル、参照レベルの正規化されたカウント、もしくはNRVを期待レベル定数で除算すること、またはこれらの組合せにより計算する。同じ被験体、試料、または試験群について決定された期待レベル(例えば、母体および/または胎児のコピー数の変動の期待レベル)は、同じ参照レベルまたはNRVに従って決定することが多い。
【0306】
期待レベルは、参照レベル、参照レベルの正規化されたカウント、またはNRVに、期待レベル定数を乗算することにより決定することが多く、ここで、参照レベル、参照レベルの正規化されたカウント、またはNRVは、ゼロに等しくない。一部の実施形態では、期待レベル定数を、参照レベル、参照レベルの正規化されたカウント、またはゼロに等しいNRVへと加算することにより、期待レベルを決定する。一部の実施形態では、期待レベル、参照レベルの正規化されたカウント、NRVおよび期待レベル定数は、スケーリング可能である。スケーリングの処理は、任意の適切な定数(すなわち、数)および任意の適切な数学的操作を含むことが可能であり、同じスケーリング処理を、検討される全ての値へと適用する。
【0307】
期待レベル定数
期待レベル定数は、適切な方法により決定することができる。一部の実施形態では、期待レベル定数を任意に決定する。期待レベル定数は、経験的に決定することが多い。一部の実施形態では、期待レベル定数を、数学的操作に従って決定する。一部の実施形態では、期待レベル定数を、参照(例えば、参照ゲノム、参照試料、参照試験データ)に従って決定する。一部の実施形態では、期待レベル定数は、遺伝子の変動またはコピー数の変動(例えば、重複、挿入、または欠失)の存在または非存在を表示するレベルについての、所定の期待レベル定数である。一部の実施形態では、期待レベル定数は、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動の存在または非存在を表示するレベルについての、所定の期待レベル定数である。コピー数の変動についての期待レベル定数は、任意の適切な定数または定数のセットでありうる。
【0308】
一部の実施形態では、ホモ接合性の重複(例えば、ホモ接合性の重複)についての期待レベル定数は、約1.6〜約2.4、約1.7〜約2.3、約1.8〜約2.2、または約1.9〜約2.1でありうる。一部の実施形態では、ホモ接合性の重複についての期待レベル定数は、約1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、または約2.4である。ホモ接合性の重複についての期待レベル定数は、約1.90、1.92、1.94、1.96、1.98、2.0、2.02、2.04、2.06、2.08、または約2.10であることが多い。ホモ接合性の重複についての期待レベル定数は、約2であることが多い。
【0309】
一部の実施形態では、ヘテロ接合性の重複(例えば、ホモ接合性の重複)についての期待レベル定数は、約1.2〜約1.8、約1.3〜約1.7、または約1.4〜約1.6である。一部の実施形態では、ヘテロ接合性の重複についての期待レベル定数は、約1.2、1.3、1.4、1.5、1.6、1.7、または約1.8である。ヘテロ接合性の重複についての期待レベル定数は、約1.40、1.42、1.44、1.46、1.48、1.5、1.52、1.54、1.56、1.58、または約1.60であることが多い。一部の実施形態では、ヘテロ接合性の重複についての期待レベル定数は、約1.5である。
【0310】
一部の実施形態では、コピー数の変動の非存在(例えば、母体および/または胎児のコピー数の変動の非存在)についての期待レベル定数は、約1.3〜約0.7、約1.2〜約0.8、または約1.1〜約0.9である。一部の実施形態では、コピー数の変動の非存在についての期待レベル定数は、約1.3、1.2、1.1、1.0、0.9、0.8、または約0.7である。コピー数の変動の非存在についての期待レベル定数は、約1.09、1.08、1.06、1.04、1.02、1.0、0.98、0.96、0.94、または約0.92であることが多い。一部の実施形態では、コピー数の変動の非存在についての期待レベル定数は、約1である。
【0311】
一部の実施形態では、ヘテロ接合性の欠失(例えば、母体の、胎児の、または母体および胎児のヘテロ接合性の欠失)についての期待レベル定数は、約0.2〜約0.8、約0.3〜約0.7、または約0.4〜約0.6である。一部の実施形態では、ヘテロ接合性の欠失についての期待レベル定数は、約0.2、0.3、0.4、0.5、0.6、0.7、または約0.8である。ヘテロ接合性の欠失についての期待レベル定数は、約0.40、0.42、0.44、0.46、0.48、0.5、0.52、0.54、0.56、0.58、または約0.60であることが多い。一部の実施形態では、ヘテロ接合性の欠失についての期待レベル定数は、約0.5である。
【0312】
一部の実施形態では、ホモ接合性の欠失(例えば、ホモ接合性の欠失)についての期待レベル定数は、約−0.4〜約0.4、約−0.3〜約0.3、約−0.2〜約0.2、または約−0.1〜約0.1でありうる。一部の実施形態では、ホモ接合性の欠失についての期待レベル定数は、約−0.4、−0.3、−0.2、−0.1、0.0、0.1、0.2、0.3、または約0.4である。ホモ接合性の欠失についての期待レベル定数は、約−0.1、−0.08、−0.06、−0.04、−0.02、0.0、0.02、0.04、0.06、0.08、または約0.10であることが多い。ホモ接合性の欠失についての期待レベル定数は、約0であることが多い。
【0313】
期待レベルの範囲
一部の実施形態では、遺伝子の変動またはコピー数の変動の存在または非存在(例えば、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動)を、期待レベルの範囲内または範囲外にあるレベルにより決定する。期待レベルの範囲は、期待レベルに従って決定することが多い。一部の実施形態では、期待レベルの範囲を、遺伝子の変動を実質的に含まないかまたはコピー数の変動を実質的に含まないレベルについて決定する。適切な方法を使用して、期待レベルの範囲を決定することができる。
【0314】
一部の実施形態では、期待レベルの範囲を、レベルについて計算された適切な不確定値に従って規定する。不確定値の非限定的な例は、標準偏差、標準誤差、計算された分散、p値、および平均絶対偏差(MAD:mean absolute deviation)である。一部の実施形態では、遺伝子の変動またはコピー数の変動についての期待レベルの範囲は、一部分、レベル(例えば、第1のレベル、第2のレベル、第1のレベルおよび第2のレベル)についての不確定値を計算することにより決定する。一部の実施形態では、期待レベルの範囲を、プロファイル(例えば、染色体またはそのセグメントについての正規化されたカウントのプロファイル)について計算された不確定値に従って規定する。一部の実施形態では、不確定値を、遺伝子の変動を実質的に含まないかまたはコピー数の変動を実質的に含まないレベルについて計算する。一部の実施形態では、不確定値を、第1のレベル、第2のレベルまたは第1のレベルおよび第2のレベルについて計算する。一部の実施形態では、不確定値を、第1のレベル、第2のレベル、または第1のレベルを含む第2のレベルについて決定する。
【0315】
期待レベルの範囲は、場合によって、一部分、不確定値に定数(例えば、所定の定数)nを乗算すること、不確定値に定数(例えば、所定の定数)nを加算すること、不確定値から定数(例えば、所定の定数)nを減算すること、または不確定値を定数(例えば、所定の定数)nで除算することにより計算する。適切な数学的手順または手順の組合せを使用することができる。定数n(例えば、所定の定数n)は、場合によって、信頼区間と称する。選択された信頼区間は、選択された定数nに従って決定する。定数n(例えば、所定の定数n、信頼区間)は、適切な様式で決定することができる。定数nは、数またはゼロ超の数の分数でありうる。定数nは、整数でありうる。定数nは、10未満の数であることが多い。一部の実施形態では、定数nは、約10未満、約9未満、約8未満、約7未満、約6未満、約5未満、約4未満、約3未満、または約2未満の数である。一部の実施形態では、定数nは、約10、9.5、9、8.5、8、7.5、7、6.5、6、5.5、5、4.5、4、3.5、3、2.5、2、または1である。定数nは、遺伝的素質が既知である被験体(妊娠中の雌および/または胎児)に由来するデータから経験的に決定することができる。
【0316】
不確定値および定数nにより、範囲(例えば、不確定カットオフ)を規定することが多い。例えば、場合によって、不確定値は、標準偏差(例えば、±5)であり、これに、定数n(例えば、信頼区間)を乗じ、これにより、範囲または不確定カットオフ(uncertainty cutoff)(例えば、5n〜−5n)を規定する。
【0317】
一部の実施形態では、遺伝子の変動(例えば、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動)についての期待レベルの範囲は、期待レベルに、不確定値を乗算した定数n(例えば、n×シグマ(例えば、6シグマ))を加えた和である。一部の実施形態では、kと命名される遺伝子の変動またはコピー数の変動についての期待レベルの範囲は、式:
式R:(期待レベルの範囲)
k=(期待レベル)
k+nσ
[式中、σは、不確定値であり、nは、定数(例えば、所定の定数)であり、期待レベルの範囲および期待レベルは、遺伝子の変動k(例えば、k=ヘテロ接合性の欠失、例えば、k=遺伝子の変動の非存在)についての期待レベルの範囲および期待レベルである。例えば、1に等しい期待レベル(例えば、コピー数の変動の非存在)、±0.05に等しい不確定値(すなわち、σ)、およびn=3について、期待レベルの範囲を、1.15〜0.85と規定する]により規定することができる。一部の実施形態では、ヘテロ接合性の重複についての期待レベルを1.5とし、n=3とし、不確定値σを±0.05とする場合、ヘテロ接合性の重複についての期待レベルの範囲を、1.65〜1.35と決定する。一部の実施形態では、ヘテロ接合性の重複についての期待レベルを0.5とし、n=3とし、不確定値σを±0.05とする場合、ヘテロ接合性の欠失についての期待レベルの範囲を、0.65〜0.35と決定する。一部の実施形態では、ヘテロ接合性の重複についての期待レベルを2.0とし、n=3とし、不確定値σを±0.05とする場合、ホモ接合性の重複についての期待レベルの範囲を、2.15〜1.85と決定する。一部の実施形態では、ヘテロ接合性の重複についての期待レベルを0.0とし、n=3とし、不確定値σを±0.05とする場合、ホモ接合性の欠失についての期待レベルの範囲を、0.15〜−0.15と決定する。
【0318】
一部の実施形態では、ホモ接合性のコピー数の変動についての期待レベルの範囲(例えば、母体の、胎児のまたは母体および胎児のホモ接合性のコピー数の変動)は一部分、対応するヘテロ接合性のコピー数の変動についての期待レベルの範囲に従って決定する。例えば、場合によって、ホモ接合性の重複についての期待レベルの範囲は、ヘテロ接合性の重複についての期待レベルの範囲の上限を超える全ての値を含む。一部の実施形態では、ホモ接合性の重複についての期待レベルの範囲は、ヘテロ接合性の重複についての期待レベルの範囲の上限を超えるかまたはこれに等しい全ての値を含む。一部の実施形態では、ホモ接合性の重複についての期待レベルの範囲は、ヘテロ接合性の重複についての期待レベルの範囲の上限を超え、かつ、式R[式中、σは、不確定値であり、正の値であり、nは、定数であり、kは、ホモ接合性の重複である]により規定される上限未満である全ての値を含む。一部の実施形態では、ホモ接合性の重複についての期待レベルの範囲は、ヘテロ接合性の重複についての期待レベルの範囲の上限を超えるかまたはこれに等しく、かつ、式R[式中、σは、不確定値であり、σは、正の値であり、nは、定数であり、kは、ホモ接合性の重複である]により規定される上限未満であるかまたはこれに等しい全ての値を含む。
【0319】
一部の実施形態では、ホモ接合性の欠失についての期待レベルの範囲は、ヘテロ接合性の欠失についての期待レベルの範囲の下限未満の全ての値を含む。一部の実施形態では、ホモ接合性の欠失についての期待レベルの範囲は、ヘテロ接合性の欠失についての期待レベルの範囲の下限未満であるかまたはこれに等しい全ての値を含む。一部の実施形態では、ホモ接合性の欠失についての期待レベルの範囲は、ヘテロ接合性の欠失についての期待レベルの範囲の下限未満であり、かつ、式R[式中、σは、不確定値であり、σは、負の値であり、nは、定数であり、kは、ホモ接合性の欠失である]により規定される下限を超える全ての値を含む。一部の実施形態では、ホモ接合性の欠失についての期待レベルの範囲は、ヘテロ接合性の欠失についての期待レベルの範囲の下限未満であるかまたはこれに等しく、かつ、式R[式中、σは、不確定値であり、σは、負の値であり、nは、定数であり、kは、ホモ接合性の欠失である]により規定される下限を超えるかまたはこれに等しい全ての値を含む。
【0320】
不確定値を活用して、閾値を決定することができる。一部の実施形態では、範囲(例えば、閾範囲)は、未加工のカウント、フィルタリングされたカウント、および/または正規化されたカウントから決定された不確定値を計算することにより得られる。一部の実施形態では、範囲は、範囲を生成するレベルについての不確定値(例えば、レベルの正規化されたカウント)に、カットオフ閾(例えば、3標準偏差では、3を乗算する)として選択された、不確定値の倍数(例えば、ある数だけの標準偏差)を表わす所定の定数(例えば、1、2、3、4、5、6など)を乗算することにより決定することができる。一部の実施形態では、範囲は、値(例えば、所定の値、不確定値、所定の定数を乗じられた不確定値)を、範囲を生成するレベルに加算することおよび/または範囲を生成するレベルから減算することにより決定することができる。例えば、レベルを1に等しいとし、標準偏差を±0.2とし、ここで、所定の定数を3とすると、範囲は、(1+3(0.2))〜(1+3(−0.2))、または1.6〜0.4と計算することができる。範囲は、場合によって、コピー数の変動についての期待範囲または期待レベルの範囲を規定しうる。ある特定の実施形態では、値の範囲外であれ、値の範囲内であれ、閾値を超える部分の一部または全部を、正規化処理の一部として、正規化処理の前に、または正規化処理の後で除外する。一部の実施形態では、範囲外であれ、範囲内であれ、計算された閾値を超える部分の一部または全部を、正規化処理もしくは分類処理の一部として、正規化処理もしくは分類処理の前に、重み付けするかまたは調整する。重み付けの例については、本明細書で記載される。本明細書で使用される「冗長データ」および「冗長なマッピングした読取り」という用語は、試料に由来する配列の読取りであって、既にゲノム位置(例えば、塩基の場所)へと割り当てられ、かつ/または部分についてカウントされたものとして同定される配列の読取りを指す。
【0321】
一部の実施形態では、不確定値を、下記の式:
【化1】
【0322】
[式中、Zは、2つのレベルの間の標準化した偏差を表示し、Lは、平均値(または中央値)レベルであり、シグマは、標準偏差(またはMAD)である。添え字Oは、プロファイルのセグメント(例えば、第2のレベル、染色体、NRV、「正倍数性レベル」、コピー数の変動が存在しないレベル)について描示し、Aは、別のプロファイルのセグメント(例えば、第1のレベル、コピー数の変動を表示するレベル、異数性(例えば、トリソミー)を表示するレベル)について描示する。変数N
oは、添え字Oにより描示されるプロファイルのセグメント中の部分の総数を表示する。N
Aは、添え字Aにより描示されるプロファイルのセグメント中の部分の総数を表示する]に従って決定する。
【0323】
コピー数の変動の類別
別のレベル(例えば、第2のレベル)と有意に異なるレベル(例えば、第1のレベル)は、期待レベルの範囲に従って、コピー数の変動(例えば、母体および/または胎児のコピー数の変動、胎児のコピー数の変動、欠失、重複、挿入)として類別しうることが多い。一部の実施形態では、第1のレベルが、第2のレベルと有意に異なり、第1のレベルが、コピー数の変動についての期待レベルの範囲内にある場合に、コピー数の変動の存在を類別する。例えば、コピー数の変動(例えば、母体および/または胎児のコピー数の変動、胎児のコピー数の変動)は、第1のレベルが、第2のレベルと有意に異なり、第1のレベルが、コピー数の変動についての期待レベルの範囲内にある場合に類別することができる。一部の実施形態では、ヘテロ接合性の重複(例えば、母体もしくは胎児の、または母体および胎児の、ヘテロ接合性の重複)またはヘテロ接合性の欠失(例えば、母体または胎児の、または母体および胎児の、ヘテロ接合性の欠失)は、第1のレベルが、第2のレベルと有意に異なり、第1のレベルが、ヘテロ接合性の重複またはヘテロ接合性の欠失のそれぞれについての期待レベルの範囲内にある場合に類別される。一部の実施形態では、ホモ接合性の重複またはホモ接合性の欠失は、第1のレベルが、第2のレベルと有意に異なり、第1のレベルが、ホモ接合性の重複またはホモ接合性の欠失のそれぞれについての期待レベルの範囲内にある場合に類別される。
【0324】
レベルの調整
一部の実施形態では、1つまたは複数のレベルを調整する。レベルを調整するための処理は、穴埋めと称することが多い。一部の実施形態では、プロファイル中の複数のレベル(例えば、ゲノムのプロファイル、染色体のプロファイル、染色体の部分またはセグメントのプロファイル)を調整する。一部の実施形態では、プロファイル中の約1つ〜約10,000またはそれ超のレベルを調整する。一部の実施形態では、プロファイル中の約1つ〜約1000、1つ〜約900、1つ〜約800、1つ〜約700、1つ〜約600、1つ〜約500、1つ〜約400、1つ〜約300、1つ〜約200、1つ〜約100、1つ〜約50、1つ〜約25、1つ〜約20、1つ〜約15、1つ〜約10、または1つ〜約5つのレベルを調整する。一部の実施形態では、1つのレベルを調整する。一部の実施形態では、第2のレベルと有意に異なるレベル(例えば、正規化されたカウントプロファイルの第1のレベル)を調整する。一部の実施形態では、コピー数の変動として類別されたレベルを調整する。一部の実施形態では、第2のレベルと有意に異なるレベル(例えば、正規化されたカウントプロファイルの第1のレベル)を、コピー数の変動(例えば、コピー数の変動、例えば、母体のコピー数の変動)として類別し、調整する。一部の実施形態では、レベル(例えば、第1のレベル)は、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動についての期待レベルの範囲内にあり、そのレベルを調整する。一部の実施形態では、1つまたは複数のレベル(例えば、プロファイル中のレベル)を調整しない。一部の実施形態では、レベル(例えば、第1のレベル)は、コピー数の変動についての期待レベルの範囲外にあり、そのレベルを調整しない。コピー数の変動の非存在についての期待レベルの範囲中のレベルは、調整しないことが多い。任意の適切な数の調整を、プロファイル中の1つまたは複数のレベルに対して施すことができる。一部の実施形態では、1つまたは複数のレベルを調整する。一部の実施形態では、2またはそれ超、3またはそれ超、5またはそれ超、6またはそれ超、7またはそれ超、8またはそれ超、9またはそれ超、場合によって、10またはそれ超のレベルを調整する。
【0325】
一部の実施形態では、第1のレベルの値を、第2のレベルの値に従って調整する。一部の実施形態では、コピー数の変動を表示するものとして同定される第1のレベルを、第2のレベルの値に対して調整し、ここで、第2のレベルは、コピー数の変動が存在しないことと関連することが多い。ある特定の実施形態では、コピー数の変動を表示するものとして同定される第1のレベルの値を、第1のレベルの値が、第2のレベルの値とほぼ等しくなるように調整する。
【0326】
調整は、適切な数学的演算を含みうる。一部の実施形態では、調整は、1つまたは複数の数学的演算を含む。一部の実施形態では、レベルは、それを正規化すること、それをフィルタリングすること、それを平均すること、それに乗算すること、それを除算すること、それに加算すること、もしくはそれから減算すること、またはこれらの組合せにより調整される。一部の実施形態では、所定の値または定数によりレベルを調整する。一部の実施形態では、レベルの値を、別のレベルの値へと改変することによりレベルを調整する。例えば、第1のレベルは、その値を第2のレベルの値へと改変することにより調整することができる。このような場合の値は、処理値(例えば、平均値、正規化した値など)でありうる。
【0327】
一部の実施形態では、レベルを、コピー数の変動(例えば、母体のコピー数の変動)として類別し、本明細書では所定の調整値(PAV:predetermined adjustment value)と称する、所定の値に従って調整する。PAVは、特異的コピー数の変動について決定することが多い。特異的コピー数の変動(例えば、ホモ接合性の重複、ホモ接合性の欠失、ヘテロ接合性の重複、ヘテロ接合性の欠失)について決定されたPAVは、特異的コピー数の変動(例えば、ホモ接合性の重複、ホモ接合性の欠失、ヘテロ接合性の重複、ヘテロ接合性の欠失)として類別されたレベルを調整するのに使用することが多い。ある特定の実施形態では、レベルを、コピー数の変動として類別し、次いで、類別されたコピー数の変動の種類に特異的なPAVに従って調整する。一部の実施形態では、レベル(例えば、第1のレベル)を、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動として類別し、PAVを、レベルへと加算すること、またはレベルから減算することにより調整する。レベル(例えば、第1のレベル)を、母体のコピー数の変動として類別し、PAVを、レベルへと加算することにより調整することが多い。例えば、重複(例えば、母体の、胎児の、または母体および胎児のホモ接合性の重複)として類別されたレベルは、特異的重複(例えば、ホモ接合性の重複)について決定されたPAVを加算することにより調整し、これにより、調整されたレベルを提示することができる。コピー数の重複について決定されるPAVは、負の値であることが多い。一部の実施形態では、重複について決定されたPAVを活用することにより、重複を表示するレベルに調整を施す結果として、レベルの値が低減される。一部の実施形態では、第2のレベルと有意に異なるレベル(例えば、第1のレベル)を、コピー数の欠失(例えば、ホモ接合性の欠失、ヘテロ接合性の欠失、ホモ接合性の重複、ホモ接合性の重複)として類別し、コピー数の欠失について決定されたPAVを加算することにより、第1のレベルを調整する。コピー数の欠失について決定されたPAVは、正の値であることが多い。一部の実施形態では、欠失について決定されたPAVを活用することにより、欠失を表示するレベルに調整を施す結果として、レベルの値が増加する。
【0328】
PAVは、任意の適切な値でありうる。PAVは、コピー数の変動(例えば、類別されたコピー数の変動)に従って決定され、これに特異的であることが多い。ある特定の実施形態では、PAVを、コピー数の変動(例えば、類別されたコピー数の変動)についての期待レベルおよび/またはPAV係数に従って決定する。PAVは、場合によって、期待レベルにPAV係数を乗算することにより決定する。例えば、コピー数の変動についてのPAVは、コピー数の変動(例えば、ヘテロ接合性の欠失)について決定された期待レベルに、同じコピー数の変動(例えば、ヘテロ接合性の欠失)について決定されたPAV係数を乗算することにより決定することができる。例えば、PAVは、コピー数の変動k(例えば、k=ヘテロ接合性の欠失)についての下記の式:
PAV
k=(期待レベル)
k×(PAV係数)
k
により決定することができる。
【0329】
PAV係数は、任意の適切な値でありうる。一部の実施形態では、ホモ接合性の重複についてのPAV係数は、約−0.6〜約−0.4の間である。一部の実施形態では、ホモ接合性の重複についてのPAV係数は、約−0.60、−0.59、−0.58、−0.57、−0.56、−0.55、−0.54、−0.53、−0.52、−0.51、−0.50、−0.49、−0.48、−0.47、−0.46、−0.45、−0.44、−0.43、−0.42、−0.41、および−0.40である。ホモ接合性の重複についてのPAV係数は、約−0.5であることが多い。
【0330】
例えば、NRVを約1とし、ホモ接合性の重複の期待レベルを約2に等しいとすると、ホモ接合性の重複についてのPAVは、上記の式に従って、約−1と決定される。この場合、例えば、約−1を、第1のレベルの値へと加算することにより、ホモ接合性の重複として類別された第1のレベルを調整する。
【0331】
一部の実施形態では、ヘテロ接合性の重複についてのPAV係数は、約−0.4〜約−0.2の間である。一部の実施形態では、ヘテロ接合性の重複についてのPAV係数は、約−0.40、−0.39、−0.38、−0.37、−0.36、−0.35、−0.34、−0.33、−0.32、−0.31、−0.30、−0.29、−0.28、−0.27、−0.26、−0.25、−0.24、−0.23、−0.22、−0.21、および−0.20である。ヘテロ接合性の重複についてのPAV係数は、約−0.33であることが多い。
【0332】
例えば、NRVを約1とし、ヘテロ接合性の重複の期待レベルを約1.5に等しいとすると、ホモ接合性の重複についてのPAVは、上記の式に従って、約−0.495と決定される。この場合、例えば、約−0.495を、第1のレベルの値へと加算することにより、ヘテロ接合性の重複として類別された第1のレベルを調整する。
【0333】
一部の実施形態では、ヘテロ接合性の欠失についてのPAV係数は、約0.4〜約0.2の間である。一部の実施形態では、ヘテロ接合性の欠失についてのPAV係数は、約0.40、0.39、0.38、0.37、0.36、0.35、0.34、0.33、0.32、0.31、0.30、0.29、0.28、0.27、0.26、0.25、0.24、0.23、0.22、0.21、および0.20である。ヘテロ接合性の欠失についてのPAV係数は、約0.33であることが多い。
【0334】
例えば、NRVを約1とし、ヘテロ接合性の欠失の期待レベルを約0.5に等しいとすると、ヘテロ接合性の欠失についてのPAVは、上記の式に従って、約0.495と決定される。この場合、例えば、約0.495を、第1のレベルの値へと加算することにより、ヘテロ接合性の欠失として類別された第1のレベルを調整する。
【0335】
一部の実施形態では、ホモ接合性の欠失についてのPAV係数は、約0.6〜約0.4の間である。一部の実施形態では、ホモ接合性の欠失についてのPAV係数は、約0.60、0.59、0.58、0.57、0.56、0.55、0.54、0.53、0.52、0.51、0.50、0.49、0.48、0.47、0.46、0.45、0.44、0.43、0.42、0.41、および0.40である。ホモ接合性の欠失についてのPAV係数は、約0.5であることが多い。
【0336】
例えば、NRVを約1とし、ホモ接合性の欠失の期待レベルを約0に等しいとすると、ホモ接合性の欠失についてのPAVは、上記の式に従って、約1と決定される。この場合、例えば、約1を、第1のレベルの値へと加算することにより、ホモ接合性の欠失として類別された第1のレベルを調整する。
【0337】
ある特定の実施形態では、PAVは、コピー数の変動についての期待レベル(例えば、コピー数の変動の期待レベル)にほぼ等しいかまたは等しい。
【0338】
一部の実施形態では、調整を施す前にレベルのカウントを正規化する。ある特定の実施形態では、調整を施す前に、プロファイル中の一部または全部のレベルのカウントを正規化する。例えば、参照レベルのカウントまたはNRVに従って、レベルのカウントを正規化することができる。ある特定の実施形態では、調整を施す前に、レベルのカウント(例えば、第2のレベル)を、参照レベルのカウントまたはNRVに従って正規化し、プロファイル中の他の全てのレベル(例えば、第1のレベル)のカウントを、同じ参照レベルのカウントまたはNRVと比べて正規化する。
【0339】
一部の実施形態では、プロファイルのレベルは、1つまたは複数の調整の結果として得られる。ある特定の実施形態では、プロファイルのレベルを、プロファイル中の1つまたは複数のレベルを調整した後で決定する。一部の実施形態では、1つまたは複数の調整を施した後で、プロファイルのレベルを再計算する。
【0340】
一部の実施形態では、コピー数の変動(例えば、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動)を、調整により決定する(例えば、直接的または間接的に決定する)。例えば、プロファイル中の調整されたレベル(例えば、調整された第1のレベル)は、母体のコピー数の変動として同定することができる。一部の実施形態では、調整の大きさは、コピー数の変動の種類(例えば、ヘテロ接合性の欠失、ホモ接合性の重複など)を指し示す。ある特定の実施形態では、プロファイル中の調整されたレベルを、コピー数の変動を表示するものとして、コピー数の変動についてのPAVの値に従って同定することができる。例えば、所与のプロファイルについて、PAVは、ホモ接合性の重複では約−1であり、ヘテロ接合性の重複では約−0.5であり、ヘテロ接合性の欠失では約0.5であり、ホモ接合性の欠失では約1である。前出の例では、約−1で調整されるレベルは、例えば、ホモ接合性の重複として同定することができる。一部の実施形態では、1つまたは複数のコピー数の変動は、1つまたは複数の調整を含むプロファイルまたはレベルから決定することができる。
【0341】
ある特定の実施形態では、プロファイル内の調整されたレベルを比較する。一部の実施形態では、異常および誤差は、調整されたレベルを比較することにより確認する。例えば、プロファイル中の1つまたは複数の調整されたレベルについて比較し、特定のレベルを、異常または誤差として確認することができることが多い。一部の実施形態では、異常または誤差を、レベルを構成する1つまたは複数の部分内で確認する。異常または誤差は、同じレベル内で(例えば、プロファイル内で)確認することもでき、隣接する(adjacent、contiguous、adjoining、またはabutting)部分を表示する1つまたは複数のレベルにおいて確認することもできる。一部の実施形態では、1つまたは複数の調整されたレベルは、隣接する(adjacent、contiguous、adjoining、またはabutting)部分のレベルであり、ここで、1つまたは複数の調整されたレベルについて比較し、異常または誤差を確認する。異常または誤差は、プロファイル内またはレベル中のピークまたはディップである可能性があり、ここで、ピークまたはディップの原因は、既知または未知である。ある特定の実施形態では、調整されたレベルについて比較し、異常または誤差を確認し、ここで、異常または誤差は、確率誤差、系統誤差、偶然誤差、または使用者誤差に起因する。一部の実施形態では、調整されたレベルについて比較し、異常または誤差を、プロファイルから除外する。ある特定の実施形態では、調整されたレベルについて比較し、異常または誤差を調整する。
【0342】
胎児核酸の含有量の決定
一部の実施形態では、核酸中の胎児核酸の量(例えば、濃度、相対量、絶対量、コピー数など)を決定する。ある特定の実施形態では、試料中の胎児核酸の量を、「胎児フラクション」と称する。一部の実施形態では、「胎児フラクション」は、妊娠中の雌から得られた試料(例えば、血液試料、血清試料、血漿試料)中の循環無細胞核酸中の胎児核酸のフラクションを指す。一部の実施形態では、遺伝子の変動を決定する方法はまた、胎児フラクションを決定するステップも含む場合がある。一部の実施形態では、遺伝子の変動の存在または非存在を、胎児フラクション(例えば、試料についての胎児フラクションの決定)に従って決定する。胎児フラクションを決定するステップは、その非限定的な例が、下記に記載される方法を含む、適切な様式で実施することができる。
【0343】
一部の実施形態では、本明細書で記載される、断片の長さを決定するための方法を使用して、胎児フラクションを決定することができる。無細胞胎児核酸の断片は一般に、母体に由来する核酸の断片よりも短い(例えば、Chanら、(2004年)Clin. Chem. 50巻:88〜92頁;Loら(2010年)Sci. Transl. Med. 2巻:61〜91頁を参照されたい)。したがって、一部の実施形態では、特定の長さの閾を下回る断片をカウントし、それらのカウントを試料中の全ての核酸の量と比較することにより、胎児フラクションを決定することができる。特定の長さの核酸断片をカウントするための方法については、下記でさらに詳細に記載する。
【0344】
ある特定の実施形態では、胎児核酸の量を、雄の胎児に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS19、DYS385、DYS392マーカー);RhD陰性の雌中のRhDマーカー)、多型配列の対立遺伝子比に従って、または胎児核酸に特異的であり、母体核酸には特異的でない1つもしくは複数のマーカー(例えば、母親と胎児との間で差次的な、エピジェネティックなバイオマーカー(例えば、メチル化;下記でさらに詳細に記載する)、もしくは母体の血漿中の胎児RNAマーカー(例えば、Lo、2005年、Journal of Histochemistry andCytochemistry、53巻(3号):293〜296頁を参照されたい))に従って決定する。
【0345】
胎児核酸の含有量(例えば、胎児フラクション)の決定は、場合によって、例えば、参照により本明細書に組み込まれる、米国特許出願公開第2010/0105049号において記載される通りに、胎児数量アッセイ(FQA:fetal quantifier assay)を使用して行う。この種類のアッセイにより、母体試料中の胎児核酸を、該試料中の核酸のメチル化状況に基づいて検出および定量することが可能となる。ある特定の実施形態では、母体試料に由来する胎児核酸の量を、存在する核酸の総量と比べて決定することができ、これにより、試料中の胎児核酸の百分率がもたらされる。ある特定の実施形態では、母体試料中の胎児核酸のコピー数を決定することができる。ある特定の実施形態では、胎児核酸の量を、配列に特異的(または部分に特異的)な様式で、場合によって、正確な染色体量分析(chromosomal dosage analysis)を可能にする(例えば、胎児異数性の存在または非存在を検出する)のに十分な感度を伴って決定することができる。
【0346】
胎児数量アッセイ(FQA)は、本明細書で記載される方法のうちのいずれかと共に行うことができる。このようなアッセイは、任意の当技術分野で公知の方法、および/または米国特許出願公開第2010/0105049号において記載される方法により、例えば、差次的なメチル化状況に基づいて母体のDNAと胎児DNAとを区別し、胎児DNAを定量しうる(すなわち、その量を決定しうる)方法などにより、行うことができる。メチル化状況に基づいて核酸を差別化するための方法は、メチル化感受性による捕捉であって、例えば、MBD2のメチル結合性ドメインを、抗体のFc断片に融合させた、MBD2−Fc断片(MBD−FC)を使用する捕捉(Gebhardら(2006年)、Cancer Res.、66巻(12号):6118〜28頁);メチル化特異的抗体;亜硫酸水素塩により変換する方法、例えば、MSP(メチル化感受性PCR)、COBRA、メチル化感受性単一ヌクレオチドによるプライマー伸長(Ms−SNuPE)、またはSequenom MassCLEAVE(商標)技術;およびメチル化感受性制限酵素の使用(例えば、母体試料中の母体のDNAを、1つまたは複数のメチル化感受性制限酵素を使用して消化し、これにより、胎児DNAを富化する)を含むがこれらに限定されない。また、メチル感受性酵素を使用して、メチル化状況に基づいて核酸を差別化することもでき、これらの酵素は、例えば、後者がメチル化されていない場合には、それらのDNA認識配列において優先的または実質的に切断または消化することができる。したがって、非メチル化DNA試料は、メチル化DNA試料よりも小さな断片に切られ、超メチル化DNA試料は切断されない。明示的に言明される場合を除き、メチル化状況に基づいて核酸を差別化するための任意の方法を、本明細書の技術による組成物および方法と共に使用することができる。胎児DNAの量は、例えば、1つまたは複数の競合物質を、既知の濃度で、増幅反応中に導入することにより決定することができる。胎児DNAの量の決定はまた、例えば、RT−PCR、プライマー伸長、配列決定、および/またはカウント計測により行うこともできる。ある特定の場合には、核酸の量は、米国特許出願公開第2007/0065823号において記載される通り、BEAMing技術を使用して決定することができる。ある特定の実施形態では、制限の効率を決定することができ、効率の比率を使用して、胎児DNAの量をさらに決定する。
【0347】
ある特定の実施形態では、胎児数量アッセイ(FQA)を使用して、母体試料中の胎児DNAの濃度を、例えば、以下の方法:a)母体試料中に存在するDNAの総量を決定し;b)母体試料中の母体のDNAを、1つまたは複数のメチル化感受性制限酵素を使用して選択的に消化し、これにより、胎児DNAを富化し;c)ステップb)から得られた胎児DNAの量を決定し;d)ステップc)から得られた胎児DNAの量を、ステップa)から得られたDNAの総量と比較し、これにより、母体試料中の胎児DNAの濃度を決定する方法により決定することができる。ある特定の実施形態では、母体試料中の胎児核酸の絶対コピー数を、例えば、質量分析および/または絶対コピー数を測定するために競合的PCR法を使用するシステムを使用して決定することができる。例えば、それらのいずれもが参照により本明細書に組み込まれる、DingおよびCantor(2003年)PNASUSA、100巻:3059〜3064頁、ならびに米国特許出願公開第2004/0081993号を参照されたい。
【0348】
ある特定の実施形態では、胎児フラクションは、例えば、参照により本明細書に組み込まれている米国特許出願公開第2011/0224087号において記載されている方法などを使用して、多型配列(例えば、一塩基多型(SNP))の対立遺伝子比に基づいて決定することができる。このような方法では、ヌクレオチド配列の読取りを、母体試料について得、参照ゲノム中の参考となる多型部位(例えば、SNP)において、第1の対立遺伝子へとマッピングされるヌクレオチド配列の読取りの総数と、第2の対立遺伝子へとマッピングされるヌクレオチド配列の読取りの総数とを比較することにより、胎児フラクションを決定する。ある特定の実施形態では、胎児の対立遺伝子を、例えば、それらの、試料中の胎児核酸と母体核酸との混合物への、母体核酸による混合物への大きな寄与と比較した、相対的に小さい寄与により同定する。したがって、母体試料中の胎児核酸の相対存在度は、多型部位の2つの対立遺伝子の各々についての、参照ゲノム上の標的核酸配列へとマッピングしたユニークな配列の読取りの総数のパラメータとして決定することができる。
【0349】
本明細書で提供される方法と共に、細胞外核酸中の胎児核酸の量を、定量し、使用することができる。したがって、ある特定の実施形態では、本明細書で記載される技術の方法は、胎児核酸の量を決定する、さらなるステップを含む。被験体に由来する核酸試料中の胎児核酸の量は、試料核酸を調製するための処理の前に決定することもでき、この後で決定することもできる。ある特定の実施形態では、試料核酸を処理し、調製した後で、試料中の胎児核酸の量を決定し、さらなる評価のためにこの量を活用する。一部の実施形態では、アウトカムは、試料核酸中の胎児核酸のフラクションの寄与の程度を加減すること(例えば、カウントを調整すること、試料を除去すること、判定を行うこと、または判定を行わないこと)を含む。
【0350】
決定ステップは、本明細書で記載される方法の前、方法の間、方法中の任意の一時点において実施することもでき、本明細書で記載されるある特定の方法(例えば、異数性の検出法、胎児の性別の決定法)の後で行うこともできる。例えば、胎児の性別または異数性の決定法を、所与の感度または特異性で達成するために、胎児核酸の定量法を、胎児の性別または異数性の決定の前に、決定の間に、または決定の後で実施して、約2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%またはそれ超の胎児核酸を有する試料を同定することができる。一部の実施形態では、ある特定の閾量(threshold amount)の胎児核酸(例えば、約15%またはそれ超の胎児核酸;約4%またはそれ超の胎児核酸)を有すると決定された試料を、例えば、胎児の性別もしくは異数性の決定のために、または異数性もしくは遺伝子の変動の存在もしくは非存在について、さらに分析する。ある特定の実施形態では、例えば、胎児の性別または異数性の存在もしくは非存在の決定を、ある特定の閾量の胎児核酸(例えば、約15%またはそれ超の胎児核酸;約4%またはそれ超の胎児核酸)を有する試料のみについて選択する(例えば、選択し、患者に伝える)。
【0351】
一部の実施形態では、染色体異数性の存在または非存在を同定するために、胎児フラクションの決定または胎児核酸の量の決定が、要求されることも、必要になることもない。一部の実施形態では、染色体異数性の存在または非存在の同定は、母体のDNAと対比した、胎児のDNAの配列の差別化を要求しない。ある特定の実施形態では、これは、特定の染色体、染色体部分、またはこれらのセグメントにおける母体配列および胎児配列の両方の寄与の合計を分析するためである。一部の実施形態では、染色体異数性の存在または非存在の同定は、胎児のDNAを母体のDNAから識別する、先験的な配列情報に依拠しない。
【0352】
レベルに基づく胎児フラクションの決定
一部の実施形態では、胎児フラクションを、母体および/または胎児のコピー数の変動を表示するものとして類別されたレベルに従って決定する。例えば、胎児フラクションの決定は、胎児フラクションを決定するために活用される、母体および/または胎児のコピー数の変動についての期待レベルの評価を含むことが多い。一部の実施形態では、胎児フラクションを、コピー数の変動を表示するものとして類別されたレベル(例えば、第1のレベル)について、同じ種類のコピー数の変動について決定された期待レベルの範囲に従って決定する。胎児フラクションは、期待レベルの範囲内にある観察レベルに従って決定し、これにより、母体および/または胎児のコピー数の変動として類別することが多い。一部の実施形態では、胎児フラクションを、母体および/または胎児のコピー数の変動として類別された観察レベル(例えば、第1のレベル)が、同じ母体および/または胎児のコピー数の変動について決定された期待レベルと異なる場合に決定する。
【0353】
一部の実施形態では、レベル(例えば、第1のレベル、観察レベル)は、第2のレベルと有意に異なり、第1のレベルを、母体および/または胎児のコピー数の変動として類別し、胎児フラクションを、第1のレベルに従って決定する。一部の実施形態では、第1のレベルは、プロファイル中の第2のレベルと有意に異なる観察レベルおよび/または実験的に得られたレベルであり、胎児フラクションを、第1のレベルに従って決定する。一部の実施形態では、第1のレベルは、平均レベル、平均値レベル、または合計レベルであり、胎児フラクションを、第1のレベルに従って決定する。ある特定の実施形態では、第1のレベルおよび第2のレベルは、観察レベルおよび/または実験的に得られたレベルであり、胎児フラクションを、第1のレベルに従って決定する。場合によって、第1のレベルは、第1の部分のセットについての正規化されたカウントを含み、第2のレベルは、第2の部分のセットについての正規化されたカウントを含み、胎児フラクションを、第1のレベルに従って決定する。一部の実施形態では、第1のレベルの第1の部分のセットは、コピー数の変動(例えば、第1のレベルは、コピー数の変動を表示する)を含み、胎児フラクションを、第1のレベルに従って決定する。一部の実施形態では、第1のレベルの第1の部分のセットは、ホモ接合性またはヘテロ接合性の母体のコピー数の変動を含み、胎児フラクションを、第1のレベルに従って決定する。一部の実施形態では、プロファイルは、第1の部分のセットについての第1のレベルおよび第2の部分のセットについての第2のレベルを含み、第2の部分のセットは、実質的にコピー数の変動(例えば、母体のコピー数の変動、胎児のコピー数の変動、または母体のコピー数の変動および胎児のコピー数の変動)を含まず、胎児フラクションを、第1のレベルに従って決定する。
【0354】
一部の実施形態では、レベル(例えば、第1のレベル、観察レベル)は、第2のレベルと有意に異なり、第1のレベルを、母体および/または胎児のコピー数の変動に関して類別し、胎児フラクションを、第1のレベルおよび/またはコピー数の変動の期待レベルに従って決定する。一部の実施形態では、第1のレベルを、コピー数の変動についての期待レベルに従って、コピー数の変動に関して類別し、胎児フラクションを、第1のレベルと期待レベルとの差に従って決定する。ある特定の実施形態では、レベル(例えば、第1のレベル、観察レベル)を、母体および/または胎児のコピー数の変動として類別し、胎児フラクションを、第1のレベルとコピー数の変動の期待レベルとの差の2倍として決定する。一部の実施形態では、レベル(例えば、第1のレベル、観察レベル)を、母体および/または胎児のコピー数の変動として類別し、第1のレベルを、期待レベルから減じ、これにより、差を提供し、胎児フラクションを、差の2倍として決定する。一部の実施形態では、レベル(例えば、第1のレベル、観察レベル)を、母体および/または胎児のコピー数の変動として類別し、期待レベルを、第1のレベルから減じ、これにより、差を提供し、胎児フラクションを、差の2倍として決定する。
【0355】
胎児フラクションは、パーセントとして提示することが多い。例えば、胎児フラクションを、100で除算することができ、これにより、パーセント値を提供する。例えば、母体のホモ接合性の重複を表示し、155のレベルである第1のレベルと、母体のホモ接合性の重複についての期待レベルであって、150のレベルである期待レベルとでは、胎児フラクションは、10%(例えば、(胎児フラクション=2×(155−150))として決定することができる。
【0356】
一部の実施形態では、胎児フラクションを、プロファイル中の2つまたはそれ超のレベルであって、コピー数の変動として類別されたレベルから決定する。例えば、場合によって、プロファイル中の2つまたはそれ超のレベル(例えば、2つまたはそれ超の第1のレベル)を、参照レベル(例えば、実質的にコピー数の変動を含まないレベルである、第2のレベル)と有意に異なるものとして同定し、2つまたはそれ超のレベルを、母体および/または胎児のコピー数の変動を表示するものとして類別し、胎児フラクションを、2つまたはそれ超のレベルの各々から決定する。一部の実施形態では、胎児フラクションを、プロファイル中の約3つもしくはそれ超、約4つもしくはそれ超、約5つもしくはそれ超、約6つもしくはそれ超、約7つもしくはそれ超、約8つもしくはそれ超、または約9つもしくはそれ超の胎児フラクションの決定から決定する。一部の実施形態では、胎児フラクションを、プロファイル中の約10もしくはそれ超、約20もしくはそれ超、約30もしくはそれ超、約40もしくはそれ超、約50もしくはそれ超、約60もしくはそれ超、約70もしくはそれ超、約80もしくはそれ超、または約90もしくはそれ超の胎児フラクションの決定から決定する。一部の実施形態では、胎児フラクションを、プロファイル中の約100もしくはそれ超、約200もしくはそれ超、約300もしくはそれ超、約400もしくはそれ超、約500もしくはそれ超、約600もしくはそれ超、約700もしくはそれ超、約800もしくはそれ超、約900もしくはそれ超、または約1000もしくはそれ超の胎児フラクションの決定から決定する。一部の実施形態では、胎児フラクションを、プロファイル中の約10〜約1000、約20〜約900、約30〜約700、約40〜約600、約50〜約500、約50〜約400、約50〜約300、約50〜約200、または約50〜約100の胎児フラクションの決定から決定する。
【0357】
一部の実施形態では、胎児フラクションを、プロファイル中の複数の胎児フラクションの決定の平均または平均値として決定する。ある特定の実施形態では、複数の胎児フラクションの決定から決定された胎児フラクションは、複数の胎児フラクションの決定の平均(例えば、平均、平均値、標準平均、中央値など)である。複数の胎児フラクションの決定から決定された胎児フラクションは、当技術分野で公知であるか、または本明細書で記載される適切な方法により決定される平均値であることが多い。一部の実施形態では、胎児フラクションの決定の平均値は、重み付き平均値である。一部の実施形態では、胎児フラクションの決定の平均値は、非重み付き平均値である。複数の胎児フラクションの決定から生成された平均値、中央値、または平均胎児フラクションの決定(すなわち、平均値、中央値、または平均胎児フラクションの決定値)は、場合によって、不確定値(例えば、分散、標準偏差、MADなど)と関連する。一部の実施形態では、複数の決定に由来する、平均値、中央値、または平均胎児フラクション値を決定する前に、1つまたは複数の逸脱した決定を除外する(本明細書でより詳細に記載される)。
【0358】
プロファイル中の一部の胎児フラクションの決定は、場合によって、全体的な胎児フラクションの決定(例えば、平均値または平均胎児フラクションの決定)に含まれない。一部の実施形態では、胎児フラクションの決定を、プロファイル中の第1のレベル(例えば、第2のレベルと有意に異なる第1のレベル)から導出し、第1のレベルは、遺伝子の変動を指し示さない。例えば、プロファイル中のいくつかの第1のレベル(例えば、スパイクまたはディップ)は、異常または未知の原因から生成される。このような値からは、真のコピー数の変動から得られる他の胎児フラクションの決定から有意に異なる胎児フラクションの決定を生じることが多い。一部の実施形態では、プロファイル中の他の胎児フラクションの決定から有意に異なる胎児フラクションの決定を確認し、胎児フラクションの決定から除外する。例えば、異常なスパイクおよびディップから得られる一部の胎児フラクションの決定は、それらをプロファイル中の他の胎児フラクションの決定と比較することにより確認し、全体的な胎児フラクションの決定から排除する。
【0359】
一部の実施形態では、平均値、中央値、または平均胎児フラクションの決定と有意に異なる、独立の胎児フラクションの決定は、確認され、認識され、かつ/または観察可能な差違である。ある特定の実施形態では、「有意に異なる」という用語は、「統計学的に異なる」および/または「統計学的な有意差」を意味し得る。「独立の」胎児フラクションの決定は、コピー数の変動として類別された特異的レベルから決定(例えば、一部の実施形態では、単一の決定)された胎児フラクションでありうる。任意の適切な閾または範囲を使用して、胎児フラクションの決定が、平均値、中央値、または平均胎児フラクションの決定と有意に異なることを決定することができる。ある特定の実施形態では、胎児フラクションの決定は、平均値、中央値、または平均胎児フラクションの決定と有意に異なり、決定は平均または平均値からの逸脱パーセントとして表すことができる。ある特定の実施形態では、胎児フラクションの決定は、平均値、中央値、または平均胎児フラクションの決定と有意に異なり、約10パーセントまたはそれ超異なる。一部の実施形態では、胎児フラクションの決定は、平均値、中央値、または平均胎児フラクションの決定と有意に異なり、約15パーセントまたはそれ超異なる。一部の実施形態では、胎児フラクションの決定は、平均値、中央値、または平均胎児フラクションの決定と有意に異なり、約15%〜約100%またはそれ超異なる。
【0360】
ある特定の実施形態では、胎児フラクションの決定は、平均値または平均胎児フラクションの決定と関連する複数の不確定値に従った、平均値、中央値、または平均胎児フラクションの決定と有意に異なる。不確定値および定数n(例えば、信頼区間)により、範囲(例えば、不確定カットオフ)を規定することが多い。例えば、場合によって、不確定値は、胎児フラクションの決定についての標準偏差(例えば、±5)であり、これに、定数n(例えば、信頼区間)を乗じ、これにより、範囲または不確定カットオフ(例えば、5n〜−5n、場合によって、5シグマと称する)を規定する。一部の実施形態では、独立の胎児フラクションの決定は、不確定カットオフにより規定される範囲外にあり、平均値、中央値、または平均胎児フラクションの決定と有意に異なると考えられる。例えば、平均を10とし、不確定カットオフを3とすると、13超かまたは7未満である独立の胎児フラクションは、有意に異なる。一部の実施形態では、胎児フラクションの決定は、平均値、中央値、または平均胎児フラクションの決定と有意に異なり、不確定値のn倍(例えば、n×シグマ)を超えて異なり、ここで、nは、1、2、3、4、5、6、7、8、9、または10にほぼ等しいか、またはそれ超である。一部の実施形態では、胎児フラクションの決定は、平均値、中央値、または平均胎児フラクションの決定と有意に異なり、不確定値のn倍(例えば、n×シグマ)を超えて異なり、ここで、nは、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、または4.0にほぼ等しいか、またはそれ超である。
【0361】
一部の実施形態では、レベルは、胎児および/または母体の微小倍数性を表示する。一部の実施形態では、レベル(例えば、第1のレベル、観察レベル)は、第2のレベルと有意に異なり、第1のレベルは、母体および/または胎児のコピー数の変動として類別され、第1のレベルおよび/または第2のレベルは、胎児の微小倍数性および/または母体の微小倍数性を表示する。ある特定の実施形態では、第1のレベルは、胎児の微小倍数性を表示し、一部の実施形態では、第1のレベルは、母体の微小倍数性を表示する。第1のレベルは、胎児の微小倍数性および母体の微小倍数性を表示することが多い。一部の実施形態では、レベル(例えば、第1のレベル、観察レベル)は、第2のレベルと有意に異なり、第1のレベルは、母体および/または胎児のコピー数の変動として類別され、第1のレベルは、胎児および/または母体の微小倍数性を表示し、胎児フラクションは、胎児および/または母体の微小倍数性に従って決定される。場合によって、第1のレベルは、母体および/または胎児のコピー数の変動として類別され、第1のレベルは、胎児の微小倍数性を表示し、胎児フラクションは、胎児の微小倍数性に従って決定される。一部の実施形態では、第1のレベルは、母体および/または胎児のコピー数の変動として類別され、第1のレベルは、母体の微小倍数性を表示し、胎児フラクションは、母体の微小倍数性に従って決定される。一部の実施形態では、第1のレベルは、母体および/または胎児のコピー数の変動として類別され、第1のレベルは、母体および胎児の微小倍数性を表示し、胎児フラクションは、母体および胎児の微小倍数性に従って決定される。
【0362】
一部の実施形態では、胎児フラクションの決定は、胎児および/または母体の微小倍数性を決定することを含む。一部の実施形態では、レベル(例えば、第1のレベル、観察レベル)は、第2のレベルと有意に異なり、第1のレベルを、母体および/または胎児のコピー数の変動として類別し、胎児および/または母体の微小倍数性を、第1のレベルおよび/または第2のレベルに従って決定し、胎児フラクションを決定する。一部の実施形態では、第1のレベルを、母体および/または胎児のコピー数の変動として類別し、胎児の微小倍数性を、第1のレベルおよび/または第2のレベルに従って決定し、胎児フラクションを、胎児の微小倍数性に従って決定する。ある特定の実施形態では、第1のレベルを、母体および/または胎児のコピー数の変動として類別し、母体の微小倍数性を、第1のレベルおよび/または第2のレベルに従って決定し、胎児フラクションを、母体の微小倍数性に従って決定する。一部の実施形態では、第1のレベルを、母体および/または胎児のコピー数の変動として類別し、母体および胎児の微小倍数性を、第1のレベルおよび/または第2のレベルに従って決定し、胎児フラクションを、母体および胎児の微小倍数性に従って決定する。
【0363】
胎児フラクションは、所与のレベルについて、またはコピー数の変動として類別されたレベルについて、母親の微小倍数性が、胎児の微小倍数性と異なる(例えば、胎児の微小倍数性と同じではない)場合に決定することが多い。一部の実施形態では、胎児フラクションは、母親が、重複についてホモ接合性(例えば、2の微小倍数性)であり、胎児が、同じ重複についてヘテロ接合性(例えば、1.5の微小倍数性)である場合に決定する。一部の実施形態では、胎児フラクションは、母親が、重複についてヘテロ接合性(例えば、1.5の微小倍数性)であり、胎児が、同じ重複についてホモ接合性(例えば、2の微小倍数性)であるか、または胎児において重複が存在しない(例えば、1の微小倍数性)場合に決定する。一部の実施形態では、胎児フラクションは、母親が、欠失についてホモ接合性(例えば、0の微小倍数性)であり、胎児が、同じ欠失についてヘテロ接合性(例えば、0.5の微小倍数性)である場合に決定する。一部の実施形態では、胎児フラクションは、母親が、欠失についてヘテロ接合性(例えば、0.5の微小倍数性)であり、胎児が、同じ欠失についてホモ接合性(例えば、0の微小倍数性)であるか、または胎児において欠失が存在しない(例えば、1の微小倍数性)場合に決定する。
【0364】
ある特定の実施形態では、母親の微小倍数性が、コピー数の変動として確認された所与のレベルについて、胎児の微小倍数性と同じである(例えば、同じとして確認された)場合は、胎児フラクションを決定することができない。一部の実施形態では、例えば、母親および胎児の両方が、同じコピー数のコピー数の変動を保有する場合の所与のレベルについて、胎児フラクションは決定されない。例えば、母親および胎児の両方が、同じ欠失についてホモ接合性であるか、または同じ重複についてホモ接合性である場合は、胎児フラクションを、コピー数の変動として類別されたレベルについて決定することができない。ある特定の実施形態では、母親および胎児の両方が、同じ欠失についてヘテロ接合性であるか、または同じ重複についてヘテロ接合性である場合は、胎児フラクションを、コピー数の変動として類別されたレベルについて決定することができない。複数の胎児フラクションの決定を試料について行う実施形態では、平均値、中央値、または平均の値から有意に逸脱する決定は、母体の倍数性が、胎児の倍数性に等しいコピー数の変動の結果として得られる場合があり、このような決定は、検討事項から除外することができる。
【0365】
一部の実施形態では、母体のコピー数の変動および胎児のコピー数の変動の微小倍数性は未知である。一部の実施形態では、コピー数の変動についての、胎児の微小倍数性および/または母体の微小倍数性の決定がなされない場合は、胎児フラクションを生成し、平均値、中央値、または平均胎児フラクションの決定と比較する。コピー数の変動についての胎児フラクションの決定であって、平均値、中央値、または平均胎児フラクションの決定と有意に異なる決定は、場合によって、母親および胎児の微小倍数性が、コピー数の変動について同じであるためである。胎児フラクションの決定であって、平均値、中央値、または平均胎児フラクションの決定と有意に異なる決定は、差違の発生源または原因に関わらず、全体的な胎児フラクションの決定から排除することが多い。一部の実施形態では、母親および/または胎児の微小倍数性を、当技術分野で公知の方法(例えば、標的化配列決定法)により決定および/または確かめる。
【0366】
胎児フラクション決定のさらなる方法
一部の実施形態では、部分特異的胎児フラクションの推定値に従って、胎児フラクション(例えば、試料についての)を決定することができる。理論に制約されずに述べると、本明細書では、胎児のCCF断片(例えば、特定の長さまたは長さの範囲の断片)に由来する読取りの量は、広範な頻度で、部分(例えば、同じ試料内、例えば、同じ配列決定のラン内の)へとマッピングされることが決定されている。また、理論に制約されずに述べると、本明細書では、ある特定の部分は、複数の試料間で比較する場合、胎児のCCF断片(例えば、特定の長さまたは長さの範囲の断片)に由来する、読取りの類似の表示を有する傾向があり、表示は、部分特異的胎児フラクション(例えば、胎児に由来するCCF断片の相対量、百分率、または比)と相関することも決定されている。
【0367】
一部の実施形態では、部分特異的胎児フラクションの推定値は、部分特異的パラメータ、および胎児フラクションとのそれらの関係に一部分基づいて決定する。部分特異的パラメータは、部分中の特定のサイズ(例えば、サイズ範囲)のCCF断片の長さに由来する読取りの量または比率を反映する(例えば、これらと相関する)、任意の適切なパラメータでありうる。部分特異的パラメータは、複数の試料について決定された部分特異的パラメータの平均、平均値、または中央値でありうる。任意の適切な部分特異的パラメータを使用することができる。部分特異的パラメータの非限定的な例は、FLR(例えば、FRS)、選択された断片の長さ未満の長さを有する読取りの量、ゲノムカバレッジ(すなわち、カバレッジ)、マッピング可能性、カウント(例えば、部分へとマッピングした配列の読取りのカウント、例えば、正規化されたカウント、PERUNにより正規化されたカウント)、DNアーゼI感受性、メチル化状況、アセチル化、ヒストン分布、グアニン−シトシン(GC)含有量、クロマチン構造など、またはそれらの組合せを含む。部分特異的パラメータは、FLRおよび/またはFRSと部分特異的な様式で相関する、任意の適切なパラメータでありうる。一部の実施形態では、一部または全部の部分特異的パラメータが、部分についての、FLRの直接的または間接的な表示である。一部の実施形態では、部分特異的パラメータは、グアニン−シトシン(GC)含有量ではない。
【0368】
一部の実施形態では、部分特異的パラメータは、CCF断片から得られた読取りの量を表示する、それと相関する、またはそれに比例する任意の適切な値であり、この場合、部分に対してマッピングされる読取りは、選択された断片長未満の長さを有する。特定の実施形態では、部分特異的パラメータは、部分に対してマッピングされる比較的短いCCF断片(例えば、約200塩基対もしくはそれ未満)から得られた読取りの量の表示である。選択された断片長未満の長さを有するCCF断片はしばしば、比較的短いCCF断片であり、時には、選択された断片長は、約200塩基対またはそれ未満(例えば、約190、180、170、160、150、140、130、120、110、100、90または80塩基長であるCCF断片)である。任意の適切な方法(例えば、配列決定法、ハイブリダイゼーションのアプローチ)により、CCF断片の長さ、またはCCF断片から得られる読取りを決定(例えば、推定または推測)することができる。一部の実施形態では、CCF断片の長さを、ペアエンドシーケンシング法から得られた読取りにより決定(例えば、推定または推測)する。特定の実施形態では、CCF断片の鋳型の長さを、CCF断片から得られた読取り(例えば、シングルエンドリード)の長さから直接決定する。
【0369】
1つまたは複数の重み付け係数により、部分特異的パラメータに重み付けする、または部分特異的パラメータを調整することができる。一部の実施形態では、重み付けしたまたは調整した部分特異的パラメータは、試料(例えば、試験試料)についての、部分特異的胎児フラクションの推定値を提供することができる。一部の実施形態では、重み付けまたは調整は一般に、部分のカウント(例えば、部分に対してマッピングされた読取り)、または別の部分特異的パラメータを、部分特異的胎児フラクションの推定値へと変換し、そのような変換は時には、転換とみなされる。
【0370】
一部の実施形態では、重み付け係数は一部分、胎児フラクション(例えば、複数の試料から決定した胎児フラクション)と、複数の試料(例えば、トレーニングセット)についての部分特異的パラメータとの間の関係式を記載および/または定義する係数または定数である。一部の実施形態では、重み付け係数を、複数の、胎児フラクションの確定と、複数の部分特異的パラメータとについての関係式に従って決定する。1つの関係式を、1つまたは複数の重み付け係数により定義することができ、1つまたは複数の重み付け係数を、1つの関係式から決定することができる。一部の実施形態では、重み付け係数(例えば、1つまたは複数の重み付け係数)を、(i)複数の試料のそれぞれについて決定した胎児核酸のフラクションと(ii)複数の試料についての部分特異的パラメータとに従って適合させた、部分についての関係式から決定する。
【0371】
重み付け係数は、適切な関係式(例えば、適切な数学的関係式、代数関係式、適合させた関係式(fitted relation)、回帰、回帰分析、回帰モデル)から得られる、任意の適切な係数、推定係数または定数であり得る。適切な関係式に従って、そこから誘導して、またはそれから推定して、重み付け係数を決定することができる。一部の実施形態では、重み付け係数は、適合させた関係式から推定された係数である。本明細書において、複数の試料について、関係式を適合させることを時には、モデルをトレーニングすると呼ぶ。関係(relationship)を適合させる(例えば、モデルをトレーニングして、トレーニングセットを得る)任意の適切なモデルおよび/または方法を使用することができる。使用することができる適切なモデルの非限定的な例として、回帰モデル、線形回帰モデル、単純回帰モデル、通常の最小二乗回帰モデル、重回帰モデル、一般的な重回帰モデル、多項式回帰モデル、一般線形モデル、一般化線形モデル、離散選択回帰モデル、ロジスティック回帰モデル、多項ロジットモデル、混合ロジットモデル、プロビットモデル、多項プロビットモデル、順序ロジットモデル、順序プロビットモデル、ポアソンモデル、多変量応答回帰モデル、マルチレベルモデル、固定効果モデル、ランダム効果モデル、混合モデル、非線形回帰モデル、ノンパラメトリックモデル、セミパラメトリックモデル、ロバストモデル、クォンタイルモデル、アイソトニックモデル、主成分モデル、最小角モデル、ローカルモデル、セグメント化モデル、および変数誤差モデルが挙げられる。一部の実施形態では、適合させた関係式は、回帰モデルではない。一部の実施形態では、適合させた関係式は、決定木モデル、サポート−ベクターマシンモデル、およびニューラルネットワークモデルから選択される。モデルをトレーニングした結果(例えば、回帰モデル、関係式)はしばしば、数学的に記載することができる関係式となり、この関係式は、1つまたは複数の係数(例えば、重み付け係数)を含む。例えば、線形最小二乗モデルのために、胎児フラクション値および部分特異的パラメータ(例えば、カバレッジ、例えば、実施例7を参照されたい)を使用して、一般的な重回帰モデルをトレーニングする結果として、等式(30)[式中、重み付け係数βは、等式(31)、(32)、および(33)においてさらに規定される]により記載される関係をもたらすことができる。より複雑な多変量モデルは、1、2、3つまたはそれ超の重み付け係数を決定することができる。一部の実施形態では、複数の試料から得られた胎児フラクションおよび2つまたはそれ超の部分特異的パラメータ(例えば、係数)に従って、モデルをトレーニングする(例えば、複数の試料に、例えば、行列により適合させた関係)。
【0372】
重み付け係数は、適切な方法により、適切な関係式(例えば、適切な数学的関係式、代数関係式、適合させた関係式、回帰、回帰分析、回帰モデル)から得ることができる。一部の実施形態では、適合させた関係式に、推定により適合させ、この非限定的な例として、最小二乗法、通常の最小二乗法、線形回帰、部分回帰、全回帰、一般化回帰、加重回帰、非線形回帰、反復再加重回帰、リッジ回帰、最小絶対偏差、ベイズ、ベイズ多変量、縮小ランク、LASSO、Weighted Rank Selection Criteria(WRSC)、Rank Selection Criteria(RSC)、エラスティックネット推定法(例えば、エラスティックネット回帰)、およびそれらの組合せが挙げられる。
【0373】
重み付け係数は、任意の適切な値をとりうる。一部の実施形態では、重み付け係数は、約−1×10
−2〜約1×10
−2の間、約−1×10
−3〜約1×10
−3の間、約−5×10
−4〜約5×10
−4の間、または約−1×10
−4〜約1×10
−4の間である。一部の実施形態では、複数の試料についての重み付け係数の分布は、実質的に対称分布である。複数の試料についての重み付け係数の分布は、場合によって、正規分布である。複数の試料についての重み付け係数の分布は、場合によって、正規分布ではない。一部の実施形態では、重み付け係数の分布の幅は、CCF胎児核酸断片に由来する読取りの量に依存する。一部の実施形態では、高胎児核酸含有量を含む部分は、大きな係数(例えば、正または負、例えば、
図31を参照されたい)を生成する。重み付け係数は、ゼロの場合もあり、重み付け係数は、ゼロ超の場合もある。一部の実施形態では、部分についての重み付け係数のうちの約70%もしくはそれ超、約75%もしくはそれ超、約80%もしくはそれ超、約85%もしくはそれ超、約90%もしくはそれ超、約95%もしくはそれ超、または約98%もしくはそれ超は、ゼロ超である。
【0374】
重み付け係数を、ゲノムの任意の適切な部分について決定する、またはそれと関連付けることができる。重み付け係数を、任意の適切な染色体の任意の適切な部分について決定する、またはそれと関連付けることができる。一部の実施形態では、重み付け係数を、ゲノム中の一部または全部の部分について決定する、またはそれらと関連付ける。一部の実施形態では、重み付け係数を、ゲノム中の一部または全部の染色体の部分について決定する、またはそれらと関連付ける。重み付け係数を時には、選択された染色体の部分について決定する、またはそれらと関連付ける。重み付け係数を、1つまたは複数の常染色体の部分について決定する、またはそれらと関連付けることができる。重み付け係数を、常染色体またはそれらのサブセットの中の部分を含む複数の部分中の部分について決定する、またはそれらと関連付けることができる。一部の実施形態では、重み付け係数を、性染色体(例えば、ChrXおよび/またはChrY)の部分について決定する、またはそれらと関連付ける。重み付け係数を、1つまたは複数の常染色体および1つまたは複数の性染色体の部分について決定する、またはそれらと関連付けることができる。特定の実施形態では、重み付け係数を、全ての常染色体ならびにX染色体およびY染色体中の複数の部分中の部分について決定する、またはそれらと関連付ける。重み付け係数を、X染色体および/またはY染色体中の部分を含まない複数の部分中の部分について決定する、またはそれらと関連付けることができる。特定の実施形態では、重み付け係数を、ある染色体の部分について決定する、またはそれらと関連付け、この染色体は、異数性(例えば、全染色体異数性)を含む。特定の実施形態では、重み付け係数を、ある染色体の部分について決定する、またはそれらのみと関連付け、この染色体は、異数体ではない(例えば、正倍数体染色体である)。重み付け係数を、第13、18および/または21染色体中の部分を含まない複数の部分中の部分について決定する、またはそれらと関連付けることができる。
【0375】
一部の実施形態では、重み付け係数を、1つまたは複数の試料(例えば、トレーニングセットの試料)に従って、部分について決定する。重み付け係数はしばしば、部分に特異的である。一部の実施形態では、1つまたは複数の重み付け係数を、部分に独立に割り当てる。一部の実施形態では、重み付け係数を、複数の試料についての胎児フラクションの確定(例えば、試料に特異的な胎児フラクションの確定)のための関係式および複数の試料に従って決定した部分特異的パラメータに従って決定する。重み付け係数はしばしば、複数の試料、例えば、約20個〜約100,000個もしくはそれ超、約100個〜約100,000個もしくはそれ超、約500個〜約100,000個もしくはそれ超、約1000個〜約100,000個もしくはそれ超、または約10,000個〜約100,000個もしくはそれ超の試料から決定する。重み付け係数を、正倍数体である試料(例えば、正倍数体の胎児を含む被験体から得られた試料、例えば、異数体染色体が存在しない試料)から決定することができる。一部の実施形態では、重み付け係数を、異数体染色体を含む試料(例えば、正倍数体の胎児を含む被験体から得られた試料)から得る。一部の実施形態では、重み付け係数を、正倍数体の胎児を有する被験体およびトリソミーの胎児を有する被験体から得られた複数の試料から決定する。重み付け係数を、複数の試料から得ることができ、これらの試料は、雄の胎児および/または雌の胎児を有する被験体から得られる。
【0376】
胎児フラクションをしばしば、トレーニングセットの1つまたは複数の試料について決定し、そこから、重み付け係数を誘導する。重み付け係数を決定する胎児フラクションは時には、試料に特異的な胎児フラクションの確定である。重み付け係数を決定する胎児フラクションは、本明細書に記載するまたは当技術分野で公知である任意の適切な方法により決定することができる。一部の実施形態では、胎児核酸の含有量(例えば、胎児フラクション)の決定を、本明細書に記載するまたは当技術分野で公知である適切な胎児数量アッセイ(FQA)を使用して行い、それらの胎児フラクションの確定の非限定的な例として、雄の胎児に特異的なマーカーに従う確定、多型配列の対立遺伝子の比に基づく確定、胎児核酸に特異的であり、母体核酸にはそうでない1つもしくは複数のマーカーに従う確定、メチル化に基づくDNAの識別の使用による確定(例えば、A. Nygrenら(2010年)Clinical Chemistry、56巻(10号):1627〜1635頁)、競合PCRのアプローチを使用する質量分析の方法および/もしくはシステムによる確定、参照により本明細書に援用されている米国特許出願公開第2010/0105049号に記載の方法による確定等、またはそれらの組合せが挙げられる。しばしば胎児フラクションを、一部分、Y染色体のレベル(例えば、1つまたは複数のゲノム区分のレベル;プロファイルのレベル)に従って決定する。一部の実施形態では、Y染色体の適切なアッセイに従って、胎児フラクションを決定する(例えば、定量的リアルタイムPCRを使用することによって、胎児特異的座位(例として、雄を妊娠している場合のY染色体上のSRY座位)の量を、母親および胎児の両方に共通する任意の常染色体上の座位の量と比較する(例えば、Lo YMら(1998年)Am J Hum Genet、62巻:768〜775頁))。
【0377】
(例えば、試験試料についての)部分特異的パラメータに、1つまたは複数の重み付け係数(例えば、トレーニングセットから誘導した重み付け係数)により重み付けまたは調整を行うことができる。例えば、重み付け係数を、部分について、トレーニングセットの複数の試料についての、部分特異的パラメータと胎児フラクションの確定との関係式に従って誘導することができる。次いで、試験試料の部分特異的パラメータの調整および/または重み付けを、トレーニングセットから誘導した重み付け係数に従って行うことができる。一部の実施形態では、重み付け係数を誘導する部分特異的パラメータが、調整または重み付けを行う(例えば、試験試料の)部分特異的パラメータと同じである(例えば、両方のパラメータがFLRである)。特定の実施形態では、重み付け係数を誘導する部分特異的パラメータが、調整または重み付けを行う(例えば、試験試料の)部分特異的パラメータと異なる。例えば、重み付け係数を、トレーニングセットの試料についての、カバレッジ(すなわち、部分特異的パラメータ)と胎児フラクションとの間の関係式から決定することができ、試験試料の部分についてのFLR(すなわち、別の部分特異的パラメータ)を、カバレッジから誘導した重み付け係数に従って調整することができる。理論により制限されることなく、(例えば、試験試料についての)部分特異的パラメータに時には、それぞれの部分特異的パラメータと共通の部分特異的FLRとの間の関係および/または相関関係に起因して、(例えば、トレーニングセットの)異なる部分特異的パラメータから誘導された重み付け係数により調整および/または重み付けを行うことができる。
【0378】
部分特異的胎児フラクションの推定値を、試料(例えば、試験試料)について、部分特異的パラメータに対して、その部分について決定した重み付け係数により重み付けすることによって決定することができる。重み付けは、任意の適切な数学的操作を適用することによって、部分特異的パラメータを、重み付け係数により調整、変換および/または転換することを含むことができ、それらの非限定的な例として、乗算、除算、加算、減算、積分、記号計算、代数的計算、アルゴリズム、三角関数もしくは幾何関数、転換(例えば、フーリエ変換)等、またはそれらの組合せが挙げられる。重み付けは、適切な数学的モデル(例えば、実施例7において提示されるモデル)によって、部分特異的パラメータを、重み付け係数により調整、変換および/または転換することを含むことができる。
【0379】
一部の実施形態では、胎児フラクションを、試料について、1つまたは複数の部分特異的胎児フラクションの推定値に従って決定する。一部の実施形態では、胎児フラクションを、試料(例えば、試験試料)について、1つまたは複数の部分についての部分特異的パラメータの重み付けまたは調整に従って決定(例えば、推定)する。特定の実施形態では、試験試料についての胎児核酸のフラクションを、調整したカウントまたは調整したサブセットのカウントに基づいて推定する。特定の実施形態では、試験試料についての胎児核酸のフラクションを、部分についての、調整したFLR、調整したFRS、調整したカバレッジおよび/または調整したマッピング可能性に基づいて推定する。一部の実施形態では、約1〜約500,000個、約100〜約300,000個、約500〜約200,000個、約1000〜約200,000個、約1500〜約200,000個、または約1500〜約50,000個の部分特異的パラメータの重み付けまたは調整を行う。
【0380】
(例えば、試験試料についての)胎児フラクションを、任意の適切な方法により、(例えば、同じ試験試料についての)複数の部分特異的胎児フラクションの推定値に従って決定することができる。一部の実施形態では、妊娠中の雌から得られたある試験試料中の胎児核酸のフラクションの推定の精度を向上させるための方法は、1つまたは複数の部分特異的胎児フラクションの推定値を決定するステップを含み、この試料についての胎児フラクションの推定値は、これら1つまたは複数の部分特異的胎児フラクションの推定値に従って決定される。一部の実施形態では、胎児核酸のフラクションを、試料(例えば、試験試料)について推定または決定するステップは、1つまたは複数の部分特異的胎児フラクションの推定値を合計するステップを含む。合計するステップは、複数の部分特異的胎児フラクションの推定値に従って、平均、平均値、中央値、AUCまたは積分値を決定することを含むことができる。
【0381】
一部の実施形態では、妊娠中の雌から得られた試験試料中の胎児核酸のフラクションの推定の精度を向上させるための方法は、参照ゲノムの部分に対してマッピングした配列の読取りのカウントを得るステップを含み、これらの配列の読取りは、妊娠中の雌に由来する試験試料から得られた循環無細胞核酸の読取りであり、得られたカウントの少なくとも1つのサブセットは、ゲノムのある領域から得られ、この領域が提供する、この領域に由来する全カウントと比べた胎児核酸から得られたカウントは、ゲノムの別の領域の全カウントと比べた胎児核酸のカウントよりも多い。一部の実施形態では、胎児核酸のフラクションの推定値を、部分のあるサブセットに従って決定し、部分のこのサブセットは、別の部分の胎児核酸のカウントよりも多い数の、胎児核酸から得られたカウントがマッピングされる部分に従って選択される。一部の実施形態では、部分のこのサブセットは、別の部分の非胎児核酸と比べた胎児核酸のカウントよりも多い数の、非胎児核酸と比べた胎児核酸から得られたカウントがマッピングされる部分に従って選択される。部分の全てまたはサブセットへとマッピングしたカウントを重み付けすることができ、これにより、重み付けされたカウントがもたらされる。胎児核酸のフラクションを推定するのに、重み付けされたカウントを活用することができ、胎児核酸に由来するカウントであって、別の部分の胎児核酸のカウントよりも多い数のカウントがマッピングされる部分に従って、カウントを重み付けすることができる。一部の実施形態では、非胎児核酸と比べた胎児核酸に由来するカウントであって、別の部分の非胎児核酸と比べた胎児核酸のカウントよりも多い数のカウントがマッピングされる部分に従って、カウントを重み付けする。
【0382】
胎児フラクションを、試料(例えば、試験試料)について、該試料についての複数の部分特異的胎児フラクションの推定値に従って決定することができ、部分に特異的な推定値は、ゲノムの任意の適切な領域またはセグメントの部分から得られる。部分特異的胎児フラクションの推定値を、適切な染色体(例えば、1つもしくは複数の選択された染色体、1つもしくは複数の常染色体、性染色体(例えば、ChrXおよび/もしくはChrY)、異数体染色体、正倍数体染色体等、またはそれらの組合せ)の1つまたは複数の部分について決定することができる。
【0383】
部分特異的パラメータ、重み付け係数、部分特異的胎児フラクションの推定値(例えば、重み付け)、および/または胎児フラクションの決定は、適切なシステム、マシン、装置、非一時的なコンピュータ可読記憶媒体(例えば、実行可能なプログラムをその上に内蔵した)など、またはこれらの組合せにより決定することができる。ある特定の実施形態では、部分特異的パラメータ、重み付け係数、部分特異的胎児フラクションの推定値(例えば、重み付け)、および/または胎児フラクションの決定は、1つまたは複数のマイクロプロセッサおよびメモリを含むシステムまたはマシンにより決定する(例えば、一部分)。一部の実施形態では、部分特異的パラメータ、重み付け係数、部分特異的胎児フラクションの推定値(例えば、重み付け)、および/または胎児フラクションの決定は、実行可能なプログラムをその上に内蔵した非一時的なコンピュータ可読記憶媒体であって、プログラムが、マイクロプロセッサに、決定を行うように命令する、非一時的なコンピュータ可読記憶媒体により決定する(例えば、一部分)。
【0384】
胎児の倍数性
一部の実施形態では、胎児の倍数性の決定を使用して、一部分、遺伝子の変動(例えば、染色体異数性、トリソミー)の存在または非存在の決定を行う。胎児の倍数性は、一部分、本明細書で記載される方法を含む、胎児フラクションの決定の適切な方法により決定された胎児フラクションの尺度から決定することができる。胎児の倍数性および/または遺伝子の変動(異数性)の存在を、胎児フラクションに従って決定することができる。一部の実施形態では、胎児の倍数性を、胎児フラクションの決定および等式(8)、(20)、(21)、またはこれらの変化形もしくは派生形に従って決定する(実施例2)。一部の実施形態では、胎児の倍数性を、下記に記載される方法により決定する。一部の実施形態では、下記に記載される各方法は、複数の試料について、ゲノムの部分(すなわち、部分i)について決定された計算参照カウントF
i(場合によって、f
iとしても表示される)を必要とし、ここで、ゲノムの部分iについての胎児の倍数性は、正倍数性である。一部の実施形態では、不確定値(例えば、標準偏差、σ)を、参照カウントf
iについて決定する。一部の実施形態では、参照カウントf
i、不確定値、試験試料カウントおよび/または測定された胎児フラクション(F)を、下記に記載される方法に従って、胎児の倍数性を決定するのに使用する。一部の実施形態では、参照カウント(例えば、平均、平均値、または中央値による参照カウント)を、本明細書で記載される方法(例えば、部分に関する正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRMおよび/またはこれらの組合せ)により正規化する。一部の実施形態では、参照カウントを、PERUNにより正規化する場合、正倍数体であるゲノムのセグメントの参照カウントは、1に等しい。一部の実施形態では、ゲノムの部分またはセグメントについての参照カウント(例えば、正倍数体であることが既知の胎児についての)および試験試料のカウントの両方を、PERUNにより正規化し、参照カウントは、1に等しい。同様に、一部の実施形態では、カウントを、参照カウントの中央値により正規化する(すなわち、参照カウントの中央値で除算する)場合も、正倍数体であるゲノムの部分またはセグメントの参照カウントは、1に等しい。例えば、一部の実施形態では、ゲノムの部分またはセグメントについての、参照カウント(例えば、正倍数体である胎児についての)および試験試料のカウントの両方を、中央値参照カウントにより正規化し、正規化された参照カウントは、1に等しく、試験試料カウントは、中央値参照カウントにより正規化する(例えば、中央値参照カウントで除算する)。一部の実施形態では、ゲノムの部分またはセグメントについての、参照カウント(例えば、正倍数体である胎児についての)および試験試料のカウントの両方を、GCRM、GC、RM、または適切な方法により正規化する。一部の実施形態では、参照カウントは、平均、平均値、または中央値による参照カウントである。参照カウントは、部分についての正規化されたカウント(例えば、正規化されたゲノム区分のレベル)であることが多い。一部の実施形態では、参照カウントおよび試験試料についてのカウントは、未加工のカウントである。一部の実施形態では、参照カウントを、平均、平均値、または中央値によるカウントプロファイルから決定する。一部の実施形態では、参照カウントは、計算されたゲノム区分のレベルである。一部の実施形態では、参照試料の参照カウントおよび試験試料のカウント(例えば、患者試料、例えば、y
i)を、同じ方法または処理により正規化する。
【0385】
一部の実施形態では、胎児フラクション(F)の測定値を決定する。次いで、この胎児フラクション値を、等式(8)、これらの派生形、または変化形に従って胎児の倍数性を決定するのに使用することができる。一部の実施形態では、胎児が正倍数体であれば負の値となり、胎児が正倍数体でなければ正の値となる。一部の実施形態では、負の値は、胎児が、検討されるゲノムのセグメントについて正倍数体であることを指し示す。ある特定の実施形態では、負ではない値は、胎児が、異数性(例えば、重複)を含むことを指し示す。ある特定の実施形態では、負ではない値は、胎児が、トリソミーを含むことを指し示す。ある特定の実施形態では、任意の正の値は、胎児が、異数性(例えば、トリソミー、重複)を含むことを指し示す。
【0386】
一部の実施形態では、残差平方和を決定する。例えば、残差平方和を表示する等式であって、等式(8)から導出された等式を、等式(18)に例示する。一部の実施形態では、残差平方和を、等式(8)から、1の値へと設定した倍数性値X(等式(9)を参照されたい)および3/2の値へと設定した倍数性値(等式(13)を参照されたい)について決定する。一部の実施形態では、残差平方和(等式(9)および(13))を、ゲノムまたは染色体のセグメントについて(例えば、ゲノムのセグメント中の参照ゲノムの部分i全てについて)決定する。例えば、残差平方和(例えば、等式(9)および(13))を、第21染色体、第13染色体、第18染色体、またはこれらの部分について決定することができる。一部の実施形態では、胎児の倍数性状態を決定するために、等式(13)の結果を、等式(9)から減じて、値ファイ(例えば、等式(14)を参照されたい)に到達する。ある特定の実施形態では、値ファイの符号(すなわち、正または負)により、胎児の異数性の存在または非存在を決定する。ある特定の実施形態では、負であるファイの値(例えば、等式(14)に由来する)は、異数性の非存在を指し示し(例えば、胎児は、参照ゲノムの部分iについて正倍数体であり)、負ではないファイの値は、異数性の存在(例えば、トリソミー)を指し示す。
【0387】
一部の実施形態では、参照カウントf
i、参照カウントについての不確定値σ、および/または測定された胎児フラクション(F)を、等式(9)および(13)において使用して、参照ゲノムの部分iの全ての合計についての残差平方和を決定する。一部の実施形態では、参照カウントf
i、参照カウントについての不確定値σ、および/または測定された胎児フラクション(F)を、等式(9)および(13)において使用して、胎児の倍数性を決定する。一部の実施形態では、試験試料についての、部分iについてのy
iにより表示されるカウント(例えば、正規化されたカウント、例えば、計算されたゲノム区分のレベル)を使用して、部分iについての胎児の倍数性状態を決定する。例えば、ある特定の実施形態では、ゲノムのセグメントについての倍数性状態を、試験試料について決定された参照カウントf
i、不確定値(例えば、参照カウントに由来する)、胎児フラクション(F)、および試験試料について決定されたカウントy
iに従って決定し、ここで、倍数性状態は、等式(14)、またはこれらの派生形もしくは変化形に従って決定する。一部の実施形態では、カウントy
iおよび/または参照カウントを、本明細書で記載される方法(例えば、部分に関する正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM、およびこれらの組合せ)により正規化する。一部の実施形態では、ゲノムまたは染色体の部分またはセグメントについての胎児の倍数性状態(例えば、正倍数体、異数体、トリソミー)を、上記および実施例の節で記載される非限定的な例により決定する。
【0388】
一部の実施形態では、胎児フラクションを、試験試料から決定し、カウントyを、試験試料について決定し、これらの両方を使用して、胎児についての倍数性を、試験試料から決定する。本明細書で記載される方法についてのある特定の実施形態では、Xにより表示された胎児の倍数性値は、一定値または仮定値ではない。本明細書で記載される方法についてのある特定の実施形態では、胎児フラクションFは、一定である。一部の実施形態では、倍数性(例えば、倍数性値)を、ゲノムの部分またはセグメントについて、等式(20)または(21)に従って決定する(実施例2)。この方法についての一部の実施形態では、倍数性値を決定し、ここで、値は、1、3/2、または5/4に近い。一部の実施形態では、約1の倍数性値は、正倍数体の胎児を指し示し、約3/2の値は、胎児のトリソミーを指し示し、双子の場合は、約5/4の値は、検討されるゲノムの部分またはセグメントについて、一方の胎児が、トリソミーを含み、他方の胎児が正倍数体であることを指し示す。胎児の倍数性の決定から、胎児の異数性の存在または非存在を決定することに関するさらなる情報については、下記の別の節で論じる。
【0389】
一部の実施形態では、その決定値で一定の胎児フラクションを決定し、胎児の倍数性を、回帰から決定する。任意の適切な回帰であって、その非限定的な例が、線形回帰、非線形回帰(例えば、多項式回帰)などを含む、任意の適切な回帰を活用することができる。一部の実施形態では、線形回帰を、等式(8)、(20)、(21)、および/またはこれらの派生形もしくは変化形に従って使用する。一部の実施形態では、線形回帰は、等式(8)、(20)、(21)、および/またはこれらの派生形もしくは変化形から導出される残差平方和に従って使用する。一部の実施形態では、胎児の倍数性を、等式(8)、(20)、(21)、および/またはこれらの派生形もしくは変化形に従って決定し、回帰は使用しない。一部の実施形態では、胎児の倍数性を、等式(8)、(20)、(21)、および/またはこれらの派生形もしくは変化形から導出される残差平方和に従って、参照ゲノムの複数の部分iについて決定し、回帰は使用しない。等式の派生形とは、等式の数学的証明から得られる、等式の任意の変化形である。
【0390】
一部の実施形態では、参照カウントf
i(本明細書で既に記載した)、不確定値σ、および/または測定された胎児フラクション(F)を、等式(20)および(21)で使用して、胎児の倍数性を決定する。一部の実施形態では、参照カウントf
i、不確定値σ、および/または測定された胎児フラクション(F)を、等式(20)または(21)で使用して、胎児の倍数性Xを、部分iについて、または参照ゲノムの複数の部分iの合計について(例えば、染色体またはそのセグメントについての、参照ゲノムの部分iの全ての合計について)決定する。一部の実施形態では、試験試料の部分iについて、y
iにより表示されるカウント(例えば、正規化されたカウント、計算されたゲノム区分のレベル)を、参照ゲノムの複数の部分iにより表示されるゲノムのセグメントについての、胎児の倍数性を決定するのに使用する。例えば、ある特定の実施形態では、ゲノムのセグメントについての倍数性Xを、試験試料について決定された参照カウントf
i、不確定値、胎児フラクション(F)、および試験試料について決定されたカウントy
iに従って決定し、ここで、倍数性を、等式(20)、(21)、またはこれらの派生形もしくは変化形に従って決定する。一部の実施形態では、カウントy
iおよび/または参照カウントを、本明細書で記載される方法(例えば、部分に関する正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM、およびこれらの組合せ)により正規化する。一部の実施形態では、カウントy
iおよび/または参照カウントを、同じ方法(例えば、部分に関する正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM、本明細書で記載される方法またはこれらの組合せ)により正規化および/または処理する。一部の実施形態では、カウントy
iおよびf
iは、ゲノムまたは染色体の同じ部分またはセグメントへとマッピングしたカウントである。
【0391】
不確定値σは、その非限定的な例が、標準偏差、標準誤差、計算された分散、p値、および/または平均絶対偏差(MAD)を含む、適切な誤差の尺度でありうる。不確定値σは、その非限定的な例が、Zスコア、Z値、t値、p値、交差検証誤差、ゲノム区分のレベル、計算されたゲノム区分のレベル、レベル、カウントなど、またはこれらの組合せを含む、任意の適切な測定値について決定することができる。一部の実施形態では、σを、1の値に設定する。一部の実施形態では、σを、1の値に設定しない。一部の実施形態では、σの値を推定し、場合によって、測定および/または計算する。
【0392】
一部の実施形態では、M
iとは、ゲノムの部分iについての母親の倍数性(すなわち、母体の倍数性)である。一部の実施形態では、M
iを、y
iを決定する同じ患者(例えば、同じ試験試料)について決定する。一部の実施形態では、母体の倍数性M
iは、既知であるか、または本明細書で記載される方法に従って決定する。一部の実施形態では、穴埋めの前に、または穴埋めの後で(例えば、レベルの調整を施した後で)、母体の倍数性を決定する。ある特定の実施形態では、M
iを、プロファイルの視覚化から推定または決定する。一部の実施形態では、母体の倍数性M
iは、既知ではない。一部の実施形態では、母体の倍数性M
iを、仮定する。例えば、一部の実施形態では、母親が、評価されるゲノムのセグメントに欠失および/または重複を有さないことが仮定されるかまたは既知である。一部の実施形態では、母体の倍数性が1であることが仮定されるかまたは既知である。一部の実施形態では、穴埋めの後で(例えば、レベルの調整を施した後で)、母体の倍数性を1の値に設定する。一部の実施形態では、母体の倍数性を無視し、1の値に設定する。一部の実施形態では、母親が、評価されるゲノムのセグメントに欠失および/または重複を有さないと仮定して、等式(21)を、等式(20)から導出する。
【0393】
一部の実施形態では、胎児の倍数性を決定するための方法は、妊娠中の雌から得られた試験試料についての核酸配列の読取りに従った方法である。一部の実施形態では、配列の読取りは、試料(例えば、試験試料)に由来する循環無細胞核酸についての読取りである。一部の実施形態では、胎児の倍数性を決定するための方法は、参照ゲノムの部分へとマッピングした配列の読取りのカウントを得るステップを含む。一部の実施形態では、配列の読取りを、参照ゲノムの部分のサブセットへとマッピングする。ある特定の実施形態では、胎児の倍数性の決定は、胎児フラクションを決定することを含む。一部の実施形態では、胎児の倍数性の決定は、ゲノム区分のレベルの計算または決定を含む。ある特定の実施形態では、胎児の倍数性の決定は、胎児フラクションの決定およびゲノム区分のレベルの計算または決定を含む。胎児フラクションおよび計算されたゲノム区分のレベルは、同じ試験試料(例えば、試験試料の同じ部分)から決定することができる。一部の実施形態では、胎児フラクションおよび計算されたゲノム区分のレベルは、同じ試験試料(例えば、試験試料の同じ部分)から得られる同じ読取りから決定する。ある特定の実施形態では、胎児フラクションおよび計算されたゲノム区分のレベルは、同じ配列決定の実行および/または同じフローセルから得られる同じ読取りから決定する。一部の実施形態では、胎児フラクションおよび計算されたゲノム区分のレベルは、同じ器具および/または機器(例えば、配列決定装置、フローセルなど)により決定する。
【0394】
一部の実施形態では、胎児の倍数性を決定するための方法を、胎児フラクションの決定および正規化されたカウント(例えば、計算されたゲノム区分のレベル)に従って決定し、ここで、胎児フラクションの決定および正規化されたカウント(例えば、計算されたゲノム区分のレベル)は、試験試料の異なる一部分(例えば、異なるアリコート、または、例えば、同じ被験体もしくは患者からほぼ同時に採取された異なる試験試料)から決定する。例えば、場合によって、胎児フラクションを、試験試料の第1の一部分から決定し、正規化されたカウントおよび/またはゲノム区分のレベルは、試験試料の第2の部分から決定する。一部の実施形態では、胎児フラクションおよび計算されたゲノム区分のレベルは、同じ被験体(例えば、患者)から採取される、異なる試験試料(例えば、試験試料の異なる一部分)から決定する。一部の実施形態では、胎児フラクションおよび計算されたゲノム区分のレベルは、異なる時点において得られた読取りから決定する。一部の実施形態では、胎児フラクションの決定および正規化されたカウント(例えば、計算されたゲノム区分のレベル)は、異なる器具および/または異なる機器(例えば、配列決定装置、フローセルなど)により決定する。
【0395】
アウトカム
本明細書で記載される方法により、試料についての、遺伝子の変動の存在または非存在の決定(例えば、胎児の異数性)をもたらすことができ、これにより、アウトカムを提示する(例えば、これにより、遺伝子の変動(例えば、胎児の異数性)の存在または非存在の決定因であるアウトカムを提示する)ことができる。遺伝子の変動は、遺伝子情報(例えば、染色体、染色体のセグメント、多型領域、転座領域、ヌクレオチド配列の変化など、または前出の組合せ)の獲得、喪失、および/または変化(例えば、重複、欠失、融合、挿入、変異、再構成、置換、または異常なメチル化)であって、参照に対する、試験被験体のゲノム情報または遺伝子情報の検出可能な変化を結果としてもたらす、遺伝子情報の獲得、喪失、および/または変化を含むことが多い。遺伝子の変動の存在または非存在は、部分へとマッピングした配列の読取り(例えば、カウント、参照ゲノムの、ゲノムの部分のカウント)を変換、分析、および/または操作することにより決定することができる。一部の実施形態では、アウトカムを決定することは、妊娠中の雌に由来する核酸を分析することを含む。ある特定の実施形態では、アウトカムを、妊娠中の雌から得られたカウント(例えば、正規化されたカウント)であって、妊娠中の雌から得られた核酸にからのカウントに従って決定する。
【0396】
本明細書で記載される方法は、場合によって、胎児を出産する妊娠中の雌からの試験試料について、胎児の異数性の存在または非存在(例えば、完全な染色体異数性、部分的な染色体異数性、または部分的染色体異常(例えば、モザイク現象、欠失、および/または挿入))を決定する。ある特定の実施形態では、本明細書で記載される方法により、胎児を出産する妊娠中の雌からの試料について、正倍数性または正倍数性の欠如(非正倍数性)を検出する。本明細書で記載される方法では、場合によって、1つもしくは複数の染色体(例えば、第13染色体、第18染色体、第21染色体またはこれらの組合せ)またはそのセグメントについて、トリソミーを検出する。
【0397】
一部の実施形態では、遺伝子の変動(例えば、胎児の異数性)の存在または非存在を、本明細書で記載される方法、当技術分野で公知の方法、またはこれらの組合せにより決定する。遺伝子の変動の存在または非存在は一般に、参照ゲノムの部分へとマッピングした配列の読取りのカウントから決定する。遺伝子の変動の存在または非存在を決定するのに活用される配列の読取りのカウントは、場合によって、未加工のカウントおよび/またはフィルタリングされたカウントであり、正規化されたカウントであることが多い。1つまたは複数の適切な正規化処理を使用して、その非限定的な例が、部分に関する正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM、およびこれらの組合せを含む、正規化されたカウントを生成することができる。正規化されたカウントは、場合によって、特定のセットまたは部分のセットについての1つまたは複数のレベルまたはプロファイル中のレベルとして表される。正規化されたカウントは、場合によって、遺伝子の変動の存在または非存在を決定する前に、調整または穴埋めされる。
【0398】
一部の実施形態では、アウトカムを、1つまたは複数のレベルに従って決定する。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、1つまたは複数の調整されたレベルに従って決定する。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、1つ〜約10,000の調整されたレベルを含むプロファイルに従って決定する。遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定は、約1つ〜約1000、1つ〜約900、1つ〜約800、1つ〜約700、1つ〜約600、1つ〜約500、1つ〜約400、1つ〜約300、1つ〜約200、1つ〜約100、1つ〜約50、1つ〜約25、1つ〜約20、1つ〜約15、1つ〜約10、または1つ〜約5つの調整を含むプロファイルに従って決定することが多い。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、約1つの調整(例えば、1つの調整されたレベル)を含むプロファイルに従って決定する。一部の実施形態では、アウトカムを、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、または、場合によって、10もしくはそれ超の調整を含む、1つまたは複数のプロファイル(例えば、染色体またはそのセグメントのプロファイル)に従って決定する。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、プロファイルに従って決定するが、ここで、プロファイル中の一部のレベルは調整しない。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、プロファイルに従って決定するが、ここで、調整は施さない。
【0399】
一部の実施形態では、プロファイル中のレベル(例えば、第1のレベル)の調整により、偽決定または偽アウトカムを低減する。一部の実施形態では、プロファイル中のレベル(例えば、第1のレベル)の調整により、偽決定または偽アウトカムの頻度および/または確率(例えば、統計学的確率、尤度)を低減する。偽決定または偽アウトカムは、正確ではない決定またはアウトカムでありうる。偽決定または偽アウトカムは、被験体(例えば、妊娠中の雌、胎児、および/またはこれらの組合せ)の、実際の遺伝子構成もしくは真の遺伝子構成または実際の遺伝的素質もしくは真の遺伝的素質(例えば、遺伝子の変動の存在または非存在)を反映しない決定またはアウトカムでありうる。一部の実施形態では、偽決定または偽アウトカムは、偽陰性決定である。一部の実施形態では、陰性決定または陰性アウトカムとは、遺伝子の変動(例えば、異数性、コピー数の変動)の非存在である。一部の実施形態では、偽決定または偽アウトカムは、偽陽性決定または偽陽性アウトカムである。一部の実施形態では、陽性決定または陽性アウトカムとは、遺伝子の変動(例えば、異数性、コピー数の変動)の存在である。一部の実施形態では、決定またはアウトカムを診断で活用する。一部の実施形態では、決定またはアウトカムは、胎児についての決定またはアウトカムである。
【0400】
遺伝子の変動(例えば、胎児の異数性)の存在または非存在は、場合によって、部分のセットについてのカウントを参照と比較せずに決定する。本明細書では、試験試料について測定されたカウントであり、試験領域(例えば、目的の部分のセット)中のカウントを、「試験カウント」と称する。試験カウントは、場合によって、本明細書で記載される、処理されたカウント、平均されたカウントもしくは合計されたカウント、表示、正規化されたカウント、あるいは1つもしくは複数のレベルまたは複数のレベルである。ある特定の実施形態では、部分のセットについて、試験カウントを平均または合計し(例えば、平均、平均値、中央値、モード、または合計を計算し)、平均されたカウントまたは合計されたカウントを、閾または範囲と比較する。試験カウントは、場合によって、第1の部分のセットについてのカウントの、第2の部分のセットについてのカウントに対する比または百分率として表されうる、表示として表される。ある特定の実施形態では、第1の部分のセットは、1つまたは複数の試験染色体(例えば、第13染色体、第18染色体、第21染色体、またはこれらの組合せ)についてのセットであり、場合によって、第2の部分のセットは、ゲノムまたはゲノムの部分(例えば、常染色体または常染色体および性染色体)についてのセットである。一部の実施形態では、部分の第1のセットは、1つまたは複数の性染色体(例えば、X染色体、Y染色体、またはこれらの組合せ)についてのセットであり、場合によって、部分の第2のセットは、1つまたは複数の常染色体についてのセットである。一部の実施形態では、部分の第1のセットは、試験染色体(例えば、X染色体、Y染色体、またはこれらの組合せ)の1つまたは複数の第1の領域についてのセットであり、場合によって、部分の第2のセットは、試験染色体(例えば、X染色体、Y染色体、またはこれらの組合せ)の1つもしくは複数の第2の領域または全試験染色体についてのセットである。ある特定の実施形態では、表示を、閾または範囲と比較する。ある特定の実施形態では、試験カウントを、部分のセットにわたり正規化されたカウントについての1つもしくは複数のレベルまたは複数のレベルとして表し、1つもしくは複数のレベルまたは複数のレベルを、閾または範囲と比較する。特定の閾を上回るかまたは下回り、場合によって、特定の範囲内または特定の範囲外にある、試験カウント(例えば、平均されたカウントまたは合計されたカウント、表示、正規化されたカウント、1つもしくは複数のレベルまたは複数のレベル)は、遺伝子の変動の存在または正倍数性の欠如(例えば、非正倍数性)の決定因である。特定の閾を上回るかまたは下回り、場合によって、特定の範囲内または特定の範囲外にある、試験カウント(例えば、平均されたカウントまたは合計されたカウント、表示、正規化されたカウント、1つもしくは複数のレベルまたは複数のレベル)は、遺伝子の変動または正倍数性の非存在の決定因である。
【0401】
遺伝子の変動(例えば、胎児の異数性)の存在または非存在は、場合によって、その非限定的な例が、試験カウント、参照カウント、未加工のカウント、フィルタリングされたカウント、平均されたカウントまたは合計されたカウント、表示(例えば、染色体表示)、正規化されたカウント、1つもしくは複数のレベルまたは複数のレベル(例えば、部分のセットについて、例えば、ゲノム区分のレベル、プロファイル)、Zスコアなど、またはこれらの組合せを含む、カウントを比較することにより決定する。一部の実施形態では、試験カウントを、参照(例えば、参照カウント)と比較する。参照(例えば、参照カウント)は、その非限定的な例が、未加工のカウント、フィルタリングされたカウント、平均されたカウントまたは合計されたカウント、表示(例えば、染色体表示)、正規化されたカウント、1つもしくは複数のレベルまたは複数のレベル(例えば、部分のセットについて、例えば、ゲノム区分のレベル、プロファイル)、Zスコアなど、またはこれらの組合せを含む、カウントの適切な決定でありうる。参照カウントは、正倍数体の試験領域についてのカウントまたは正倍数性であるゲノムもしくは染色体のセグメントからのカウントであることが多い。一部の実施形態では、参照カウントおよび試験カウントを、同じ試料および/または同じ被験体から得る。一部の実施形態では、参照カウントは、異なる試料および/または異なる被験体からのものである。一部の実施形態では、参照カウントは、試験カウントを導出および/または決定する、対応するゲノムのセグメントから決定し、かつ/またはそれと比較する。対応するセグメントとは、参照ゲノムの同じ位置へとマッピングされる、セグメント、部分、または部分のセットを指す。一部の実施形態では、参照カウントは、試験カウントを導出および/または決定する、異なるゲノムのセグメントから決定し、かつ/またはそれと比較する。
【0402】
ある特定の実施形態では、試験カウントは、場合によって、第1の部分のセットについてのカウントであり、参照は、第1の部分のセットと異なる、第2の部分のセットについてのカウントを含む。参照カウントは、場合によって、試験試料を得る同じ妊娠中の雌に由来する核酸試料についてのカウントである。ある特定の実施形態では、参照カウントは、試験試料を得た雌と異なる、1例または複数例の妊娠中の雌に由来する核酸試料についてのカウントである。一部の実施形態では、第1の部分のセットは、第13染色体中、第18染色体中、第21染色体中、これらのセグメント中、または前出の組合せ中にあり、第2の部分のセットは、別の1つまたは複数の染色体中またはそのセグメント中にある。第1の部分のセットが、第21染色体中またはそのセグメント中にある、非限定的な例では、第2の部分のセットは、別の染色体(例えば、第1染色体、第13染色体、第14染色体、第18染色体、第19染色体、そのセグメント、または前出の組合せ)中にあることが多い。参照は、正倍数体であることが典型的な染色体中またはそのセグメント中に位置することが多い。例えば、第1染色体および第19染色体は、胎児では、第1染色体異数性および第19染色体異数性と関連する、早期の胎児の死亡率が高率であることに起因して、正倍数体であることが多い。試験カウントと参照カウントとの偏差の尺度を、生成することができる。
【0403】
ある特定の実施形態では、参照は、試験カウントの場合と同じ部分のセットについてのカウントを含み、参照についてのカウントは、1つまたは複数の参照試料(例えば、複数の参照被験体に由来する複数の参照試料であることが多い)からのカウントである。参照試料は、試験試料を得る雌と異なる、1例または複数例の妊娠中の雌に由来することが多い。試験カウントと参照カウントとの偏差の尺度(例えば、不確定性の尺度、不確定値)を、生成することができる。一部の実施形態では、偏差の尺度を、試験カウントから決定する。一部の実施形態では、偏差の尺度を、参照カウントから決定する。一部の実施形態では、偏差の尺度を、全プロファイルまたはプロファイル中の部分のサブセットから決定する。
【0404】
偏差の適切な尺度であって、その非限定的な例が、標準偏差、平均絶対偏差、中央値絶対偏差、最大絶対偏差、標準スコア(例えば、z値、zスコア、正規スコア、標準化された変数)などを含む尺度を選択することができる。一部の実施形態では、参照試料は、試験領域について正倍数体であり、試験カウントと参照カウントとの偏差を評価する。一部の実施形態では、遺伝子の変動の存在または非存在の決定は、ゲノムまたは染色体のセグメントまたは部分についての、試験カウントと参照カウントとの偏差(例えば、偏差の尺度、MAD)の数に従う。一部の実施形態では、試験カウントと参照カウントとの偏差の数が、約1超、約1.5超、約2超、約2.5超、約2.6超、約2.7超、約2.8超、約2.9超、約3超、約3.1超、約3.2超、約3.3超、約3.4超、約3.5超、約4超、約5超、または約6超である場合に、遺伝子の変動の存在を決定する。例えば、場合によって、試験カウントが、参照カウントと、偏差の尺度(例えば、3シグマ、3MAD)で3超異なれば、遺伝子の変動の存在を決定する。一部の実施形態では、妊娠中の雌から得られる試験カウントが、参照カウントより、偏差の尺度(例えば、3シグマ、3MAD)で3超大きければ、胎児の染色体異数性(例えば、胎児のトリソミー)の存在が決定される。試験カウントと参照カウントとの3超の偏差は、非正倍数体の試験領域(例えば、遺伝子の変動の存在)を指し示すことが多い。場合によって、正倍数性を指し示す参照カウントを有意に上回る試験カウントは、トリソミーの決定因である。一部の実施形態では、妊娠中の雌から得られる試験カウントが、参照カウントより偏差の尺度(例えば、3シグマ、3MAD)で3超小さければ、胎児の染色体異数性(例えば、胎児のモノソミー)の存在が決定される。場合によって、正倍数性を指し示す参照カウントを有意に下回る試験カウントは、モノソミーの決定因である。
【0405】
一部の実施形態では、試験カウントと参照カウントとの偏差の数が、約3.5未満、約3.4未満、約3.3未満、約3.2未満、約3.1未満、約3.0未満、約2.9未満、約2.8未満、約2.7未満、約2.6未満、約2.5未満、約2.0未満、約1.5未満、または約1.0未満である場合に、遺伝子の変動の非存在を決定する。例えば、場合によって、試験カウントが、参照カウントと、偏差の尺度(例えば、3シグマ、3MAD)で3未満異なれば、遺伝子の変動の非存在が決定される。一部の実施形態では、妊娠中の雌から得られる試験カウントが、参照カウントと、偏差の尺度(例えば、3シグマ、3MAD)で3未満異なれば、胎児の染色体異数性の非存在(例えば、胎児の正倍数体)が決定される。一部の実施形態では、(例えば、試験カウントと参照カウントとの3未満の偏差(例えば、標準偏差では、3シグマ)は、正倍数体の試験領域(例えば、遺伝子の変動の非存在)を指し示すことが多い。試験試料についての試験カウントと、1つまたは複数の参照被験体についての参照カウントとの偏差の尺度は、プロットし、視覚化する(例えば、zスコアプロット)ことができる。
【0406】
他の任意の適切な参照は、試験試料の試験領域について、遺伝子の変動の存在または非存在を決定する(または正倍数体もしくは非正倍数体の決定の)ための試験カウントで因子分解することができる。例えば、胎児フラクションの決定は、試験カウントで因子分解して、遺伝子の変動の存在または非存在を決定することができる。胎児フラクションを定量するための適切な処理であって、その非限定的な例が、質量分析処理、配列決定処理、またはこれらの組合せを含む処理を活用することができる。
【0407】
一部の実施形態では、胎児の染色体異数性(例えば、トリソミー)の存在または非存在は、一部分、胎児の倍数性の決定から決定される。一部の実施形態では、胎児の倍数性を、本明細書で記載される適切な方法により決定する。一部のある特定の実施形態では、約1.20もしくはそれ超、1.25もしくはそれ超、1.30もしくはそれ超、約1.35もしくはそれ超、約1.4もしくはそれ超、または約1.45もしくはそれ超の胎児の倍数性の決定は、胎児の染色体異数性の存在(例えば、胎児のトリソミーの存在)を指し示す。一部の実施形態では、約1.20〜約2.0、約1.20〜約1.9、約1.20〜約1.85、約1.20〜約1.8、約1.25〜約2.0、約1.25〜約1.9、約1.25〜約1.85、約1.25〜約1.8、約1.3〜約2.0、約1.3〜約1.9、約1.3〜約1.85、約1.3〜約1.8、約1.35〜約2.0、約1.35〜約1.9、約1.35〜約1.8、約1.4〜約2.0、約1.4〜約1.85、または約1.4〜約1.8の胎児の倍数性の決定は、胎児の染色体異数性の存在(例えば、胎児のトリソミーの存在)を指し示す。一部の実施形態では、胎児の異数性は、トリソミーである。一部の実施形態では、胎児の異数性は、第13染色体、第18染色体、および/または第21染色体のトリソミーである。
【0408】
一部の実施形態では、約1.35未満、約1.30未満、約1.25未満、約1.20未満、または約1.15未満の胎児の倍数性は、胎児の異数性の非存在(例えば、胎児のトリソミーの非存在、例えば、正倍数体)を指し示す。一部の実施形態では、約0.7〜約1.35、約0.7〜約1.30、約0.7〜約1.25、約0.7〜約1.20、約0.7〜約1.15、約0.75〜約1.35、約0.75〜約1.30、約0.75〜約1.25、約0.75〜約1.20、約0.75〜約1.15、約0.8〜約1.35、約0.8〜約1.30、約0.8〜約1.25、約0.8〜約1.20、または約0.8〜約1.15の胎児の倍数性の決定は、胎児の染色体異数性の非存在(例えば、胎児のトリソミーの非存在、例えば、正倍数体)を指し示す。
【0409】
一部の実施形態では、約0.8未満、約0.75未満、約0.70未満、または約0.6未満の胎児の倍数性は、胎児の異数性の存在(例えば、染色体欠失の存在)を指し示す。一部の実施形態では、約0〜約0.8、約0〜約0.75、約0〜約0.70、約0〜約0.65、約0〜約0.60、約0.1〜約0.8、約0.1〜約0.75、約0.1〜約0.70、約0.1〜約0.65、約0.1〜約0.60、約0.2〜約0.8、約0.2〜約0.75、約0.2〜約0.70、約0.2〜約0.65、約0.2〜約0.60、約0.25〜約0.8、約0.25〜約0.75、約0.25〜約0.70、約0.25〜約0.65、約0.25〜約0.60、約0.3〜約0.8、約0.3〜約0.75、約0.3〜約0.70、約0.3〜約0.65、約0.3〜約0.60の胎児の倍数性の決定は、胎児の染色体異数性の存在(例えば、染色体欠失の存在)を指し示す。一部の実施形態では、決定される胎児の異数性は、全染色体欠失である。
【0410】
一部の実施形態では、胎児の異数性の存在または非存在の決定(例えば、上記の倍数性の決定の範囲のうちの1または複数に従う)を、判定域(call zone)に従って決定する。ある特定の実施形態では、値(例えば、倍数性値、胎児フラクション値、不確定性のレベル)または値のコレクションが、あらかじめ規定された範囲(例えば、帯域、判定域)内にある場合に、判定(例えば、遺伝子の変動の存在または非存在を決定する判定、例えば、アウトカム)を下す。一部の実施形態では、判定域を、同じ患者試料から得られる値のコレクションに従って規定する。ある特定の実施形態では、判定域を、同じ染色体またはそのセグメントから導出される値のコレクションに従って規定する。一部の実施形態では、倍数性の決定に基づく判定域を、信頼性レベル(例えば、高い信頼性レベル、例えば、低い不確定性のレベル)および/または胎児フラクションに従って規定する。一部の実施形態では、判定域を、倍数性の決定および約2.0%もしくはそれ超、約2.5%もしくはそれ超、約3%もしくはそれ超、約3.25%もしくはそれ超、約3.5%もしくはそれ超、約3.75%もしくはそれ超、または約4.0%もしくはそれ超の胎児フラクションに従って規定する。例えば、一部の実施形態では、胎児を出産する妊娠中の雌から得られた試料についての、2%もしくはそれ超または4%もしくはそれ超の胎児フラクションの決定を伴う、1.25超の倍数性の決定に基づき、胎児は、トリソミー21を含むという判定を下す。ある特定の実施形態では、例えば、胎児を出産する妊娠中の雌から得られた試料についての、2%もしくはそれ超または4%もしくはそれ超の胎児フラクションの決定を伴う、1.25未満の倍数性の決定に基づき、胎児は、正倍数体であるという判定を下す。一部の実施形態では、判定域は、約99%もしくはそれ超、約99.1%もしくはそれ超、約99.2%もしくはそれ超、約99.3%もしくはそれ超、約99.4%もしくはそれ超、約99.5%もしくはそれ超、約99.6%もしくはそれ超、約99.7%もしくはそれ超、約99.8%もしくはそれ超、または約99.9%もしくはそれ超の信頼性レベルにより規定する。一部の実施形態では、判定域を使用せずに判定を下す。一部の実施形態では、判定域およびさらなるデータまたは情報を使用して判定を下す。一部の実施形態では、判定域の使用を伴わずに、倍数性値に基づき判定を下す。一部の実施形態では、倍数性値を計算せずに判定を下す。一部の実施形態では、プロファイルの目視(例えば、ゲノム区分のレベルの目視)に基づき判定を下す。判定は、その非限定的な例が、胎児の倍数性の決定、胎児フラクションの決定、母体の倍数性、不確定性および/または信頼性決定、部分レベル、レベル、プロファイル、zスコア、期待された染色体表示、測定された染色体表示、カウント(例えば、正規化されたカウント、未加工のカウント)、胎児のまたは母体のコピー数の変動(例えば、類別されたコピー数の変動)、有意に異なるレベル、調整されたレベル(例えば、穴埋め)など、またはこれらの組合せを含む、本明細書で記載される方法により得られた決定、値、および/またはデータに完全に、または一部分基づく任意の適切な方法により下すことができる。
【0411】
一部の実施形態では、判定を下さない場合、判定域は存在しない。一部の実施形態では、判定域が存在しないことは、低い精度、高い危険性、大きな誤差、低い信頼性レベル、高い不確定性のレベルなど、またはこれらの組合せを指し示す値または値のコレクションにより規定される。一部の実施形態では、判定域が存在しないことは、約5%もしくはそれ未満、約4%もしくはそれ未満、約3%もしくはそれ未満、約2.5%もしくはそれ未満、約2.0%もしくはそれ未満、約1.5%もしくはそれ未満、または約1.0%もしくはそれ未満の胎児フラクションにより一部分規定される。
【0412】
一部の実施形態では、遺伝子の変動(例えば、胎児異数性)の存在または非存在を決定するための方法を、少なくとも約90%〜約100%の精度で実施する。例えば、遺伝子の変動の存在または非存在は、少なくとも約91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%の精度で決定することができる。一部の実施形態では、遺伝子の変動の存在または非存在は、遺伝子変動決定の他の方法(例えば、核型分析)を使用するときの精度とほぼ同じであるかまたはこれより高い精度で決定する。一部の実施形態では、遺伝子の変動の存在または非存在は、約80%〜約100%の信頼区間(CI)を有する精度で決定する。例えば、信頼区間(CI)は、約81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%でありうる。
【0413】
アウトカムは、場合によっては、配列タグ密度に関して決定することができる。「配列タグ密度」とは、規定されたゲノム区分についての配列タグまたは読取りの正規化された値を指し、ここで、配列タグ密度は、異なる試料を比較するために使用され、その後の分析のために使用される。配列タグ密度の値は、試料中で正規化することが多い。一部の実施形態では、各ゲノム区分中に収まるタグの数をカウントし;各染色体についての全配列タグカウントの中央値を得;常染色体値全体の中央値を得;この値を正規化定数とし使用して、異なる試料について得られる配列タグの総数の差違を説明することにより、正規化を行うことができる。配列タグ密度は、場合によって、ジソミー(disomic)染色体について約1である。配列タグ密度は、配列決定アーチファクト、最も顕著には、外部標準または内部参照基準(例えば、配列タグ(ゲノム配列)の実質的に全てから導出される内部参照基準であって、例えば、単一の染色体の場合もあり、一部の実施形態では、全ての常染色体に由来する計算値の場合もある内部参照基準)の使用により補正されうる、G/Cの偏りに従って変化しうる。したがって、染色体または染色体領域の量の不均衡(dosageimbalance)は、検体の、配列決定された、他のマッピング可能なタグの間の、遺伝子座の百分率表示から推定することができる。したがって、特定の染色体または染色体領域の量の不均衡は、定量的に決定することができ、正規化することができる。配列タグ密度を正規化および定量するための方法については、下記でさらに詳細に論じる。
【0414】
一部の実施形態では、配列の読取りの全てのうちのある比率は、性染色体(例えば、X染色体、Y染色体)または異数性に関与する染色体(例えば、第13染色体、第18染色体、第21染色体)に由来し、他の配列の読取りは、他の染色体に由来する。一部の実施形態では、性染色体または異数性に関与する染色体(例えば、「標的染色体」:第21染色体)の、他の染色体と比較した相対サイズを考慮することにより、参照範囲内で、標的染色体に特異的な配列の、正規化された頻度を得ることができる。胎児が、例えば、標的染色体中に異数性を有する場合は、標的染色体由来の配列の、正規化された頻度は、標的染色体以外に由来する配列の正規化された頻度を統計学的に超え、したがって、異数性の検出が可能となる。一部の実施形態では、正規化された頻度の変化の程度は、分析される試料中の胎児核酸の分別濃度に依存する。
【0415】
遺伝子の変動は、場合によって、医学的状態と関連する。遺伝子の変動の決定因であるアウトカムは、場合によって、状態(例えば、医学的状態)、疾患、症候群、もしくは異常の存在または非存在の決定因であるアウトカムであるか、または状態、疾患、症候群、もしくは異常(例えば、表1に列挙された非限定的な例)の検出を含む。ある特定の実施形態では、診断は、アウトカムについての評価を含む。本明細書で記載される方法による状態(例えば、医学的状態)、疾患、症候群、または異常の存在または非存在の決定因であるアウトカムは、場合によって、さらに調べることにより(例えば、核型分析および/または羊水穿刺により)、独立に確かめることができる。データの分析および処理は、1つまたは複数のアウトカムを提示しうる。本明細書で使用される「アウトカム」という用語は、遺伝子の変動(例えば、異数性、コピー数の変動)の存在または非存在を決定することを容易とする、データ処理の結果を指すことができる。ある特定の実施形態では、本明細書で使用される「アウトカム」という用語は、遺伝子の変動(例えば、異数性、コピー数の変動)の存在または非存在を予測および/または決定する結論を指す。ある特定の実施形態では、本明細書で使用される「アウトカム」という用語は、被験体(例えば、胎児)における遺伝子の変動の存在または非存在(例えば、異数性、コピー数の変動)の危険性または確率を予測および/または決定する結論を指す。診断は、場合によって、アウトカムの使用を含む。例えば、医療従事者は、アウトカムを分析し、アウトカムに基づくか、またはアウトカムに一部分基づき、診断を提示することができる。一部の実施形態では、状態、症候群、または異常(例えば、表1に列挙された)についての決定、検出、または診断は、遺伝子の変動の存在または非存在の決定因であるアウトカムの使用を含む。一部の実施形態では、カウントされた、マッピングした配列の読取りまたはその変換に基づくアウトカムは、遺伝子の変動の存在または非存在の決定因である。ある特定の実施形態では、本明細書で記載される1つまたは複数の方法(例えば、データ処理法)を活用して生成されたアウトカムは、表1に列挙された1つまたは複数の状態、症候群、または異常の存在または非存在の決定因である。ある特定の実施形態では、診断は、状態、症候群、または異常の存在または非存在の決定を含む。診断は、状態、症候群、または異常の性質および/または原因としての遺伝子の変動の決定を含むことが多い。ある特定の実施形態では、アウトカムは、診断ではない。1つまたは複数の確率の検討事項の文脈では、アウトカムは、本明細書で記載される処理法を使用して生成される1つまたは複数の数値を含むことが多い。危険性または確率の検討事項は、不確定値、可変性の尺度、信頼性レベル、感度、特異性、標準偏差、変動係数(CV)および/または信頼性レベル、Zスコア、カイ値、phi値、倍数性値、適合させた胎児フラクション、面積比、中央値レベルなど、またはこれらの組合せを含みうるがこれらに限定されない。確率の検討事項により、被験体に遺伝子の変動を有する危険性があるかまたは被験体が遺伝子の変動を有するのかどうかを決定することを容易とすることが可能になり、遺伝子障害の存在または非存在の決定因であるアウトカムは、このような検討事項を含むことが多い。
【0416】
アウトカムは、場合によって、表現型である。アウトカムは、場合によって、関連する信頼性レベル(例えば、不確定値、例えば、胎児は、99%の信頼性レベルでトリソミー21について陽性であり、妊娠中の雌は、95%の信頼性レベルで雄の胎児を身ごもっており、試験被験体は、95%の信頼性レベルで、遺伝子の変動と関連するがんについて陰性である)を有する表現型である。アウトカム値を生成する異なる方法は、場合によって、異なる種類の結果をもたらしうる。一般に、本明細書で記載される方法を使用して生成されるアウトカム値に基づき下されうる4種類の可能なスコアまたは判定:真陽性、偽陽性、真陰性、および偽陰性が存在する。本明細書で使用される「スコア(score)」、「スコア(scores)」、「判定(call)」、および「判定(calls)」という用語は、特定の遺伝子の変動が、被験体/試料に存在するかまたは非存在である確率を計算することを指す。スコアの値を使用して、例えば、遺伝子の変動に対応しうる、マッピングした配列の読取りの変動、差違、または比を決定することができる。例えば、データセットに由来する、選択された遺伝子の変動または部分について、参照ゲノムに対して正のスコアを計算することにより、場合によって、医学的状態(例えば、がん、子癇前症、トリソミー、モノソミーなど)と関連する、遺伝子の変動の存在または非存在の同定をもたらすことができる。一部の実施形態では、アウトカムは、レベル、プロファイル、および/またはプロット(例えば、プロファイルのプロット)を含む。アウトカムが、プロファイルを含む実施形態では、適切なプロファイルまたはプロファイルの組合せを、アウトカムのために使用することができる。アウトカムのために使用されうる、プロファイルの非限定的な例は、zスコアプロファイル、p値プロファイル、カイ値プロファイル、phi値プロファイルなど、およびこれらの組合せを含む。
【0417】
遺伝子の変動の存在または非存在を決定するために生成されたアウトカムは、場合によって、ヌルの結果(例えば、2つのクラスター間のデータ点、遺伝子の変動の存在および非存在の両方についての値を包含する標準偏差を有する数値、調査される遺伝子の変動を有するかまたは含まない被験体についてのプロファイルのプロットと同様ではないプロファイルのプロットを有するデータセット)を含む。一部の実施形態では、ヌルの結果を指し示すアウトカムもやはり決定因の結果であり、決定は、遺伝子の変動の存在または非存在を決定するためのさらなる情報および/またはデータ生成の反復および/または分析に対する必要を含みうる。
【0418】
一部の実施形態では、アウトカムは、本明細書で記載される、1つまたは複数の処理ステップを実施した後で生成することができる。ある特定の実施形態では、アウトカムは、本明細書で記載される処理ステップのうちの1つの結果として生成し、一部の実施形態では、アウトカムは、データセットの各統計学的操作および/または各数学的操作を実施した後で生成することができる。遺伝子の変動の存在または非存在の決定に関するアウトカムは、限定せずに述べると、確率(例えば、オッズ比、p値)、尤度、クラスター中またはクラスター外の値、閾を上回る値または閾を下回る値、範囲(例えば、閾範囲)内の値、分散または信頼性の尺度を有する値、または被験体もしくは試料についての遺伝子の変動の存在もしくは非存在と関連する危険性因子を含む、適切な形態で表すことができる。ある特定の実施形態では、試料間の比較は、試料の識別の確認を可能とする(例えば、反復された試料および/または混合された試料(例えば、誤表示された試料、組み合わされた試料など)の同定を可能とする)。
【0419】
一部の実施形態では、アウトカムは、所定の閾またはカットオフ値を上回るかまたは下回る値(例えば、1超の値、1未満の値)、およびその値と関連する不確定性のレベルまたは信頼性レベルを含む。ある特定の実施形態では、所定の閾値またはカットオフ値は、期待レベルまたは期待レベルの範囲である。アウトカムはまた、データ処理において使用される仮定についても記載しうる。ある特定の実施形態では、アウトカムは、所定の値の範囲(例えば、閾範囲)内または範囲外にある値、および範囲内または範囲外にあるその値についての、関連する不確定性のレベルまたは信頼性レベルを含む。一部の実施形態では、アウトカムは、所定の値に等しい(例えば、1に等しい、ゼロに等しい)か、または所定の値の範囲内の値に等しい値、および等しいかまたは範囲内にあるかもしくは範囲外にあるその値についての、その関連する不確定性のレベルまたは信頼性レベルを含む。アウトカムは、場合によって、プロット(例えば、プロファイルのプロット)としてグラフ的に表される。
【0420】
上記で注目した通り、アウトカムは、真陽性、真陰性、偽陽性、または偽陰性として特徴づけることができる。本明細書で使用される「真陽性」という用語は、遺伝子の変動を有するとして被験体が正しく診断されたことを指す。本明細書で使用される「偽陽性」という用語は、遺伝子の変動を有するとして被験体が誤って同定されたことを指す。本明細書で使用される「真陰性」という用語は、遺伝子の変動を有さないとして被験体が正しく同定されたことを指す。本明細書で使用される「偽陰性」という用語は、遺伝子の変動を有さないとして被験体が誤って同定されたことを指す。任意の所与の方法についての性能の2つの尺度は、(i)一般に、予測された陽性の割合であって、陽性として正しく同定された割合である感度値;および(ii)一般に、予測された陰性の割合であって、陰性として正しく同定された割合である特異性値の発生比に基づき計算することができる。
【0421】
ある特定の実施形態では、感度、特異性、および/または信頼性レベルのうちの1または複数は、百分率として表される。一部の実施形態では、百分率は、各変数について独立に、約90%超(例えば、約90、91、92、93、94、95、96、97、98、もしくは99%、または99%超(例えば、約99.5%またはそれ超、約99.9%またはそれ超、約99.95%またはそれ超、約99.99%またはそれ超))である。一部の実施形態では、変動係数(CV)は、百分率として表され、場合によって、百分率は、約10%またはそれ未満(例えば、約10、9、8、7、6、5、4、3、2、もしくは1%、または1%未満(例えば、約0.5%またはそれ未満、約0.1%またはそれ未満、約0.05%またはそれ未満、約0.01%またはそれ未満))である。ある特定の実施形態では、確率(例えば、特定のアウトカムが、偶然に起因しない確率)は、Zスコア、p値、またはt検定の結果として表される。一部の実施形態では、アウトカムについての、測定された分散、信頼区間、感度、特異性など(例えば、併せて、信頼性パラメータと称する)は、本明細書で記載される、1つまたは複数のデータ処理操作を使用して生成することができる。アウトカムおよび関連する信頼性レベルを生成することの具体例は、実施例の節ならびに本文、表、等式、および図面の全てを含むその全内容が参照により本明細書に援用される、国際特許出願第PCT/US12/59123号(WO2013/052913)において記載されている。
【0422】
本明細書で使用される「感度」という用語は、真陽性の数を、真陽性の数に偽陰性の数を加算して得た数で除算して得たものを指し、ここで感度(sens)は、0≦sens≦1の範囲内でありうる。本明細書で使用される「特異性」という用語は、真陰性の数を、真陰性の数に偽陽性の数を加算して得た数で除算して得たものを指し、ここで感度(spec)は、0≦spec≦1の範囲内でありうる。一部の実施形態では、場合によって、感度および特異性が1もしくは100%に等しいか、または1の近傍にある(例えば、約90%〜約99%間にある)方法を選択する。一部の実施形態では、感度が1または100%に等しい方法を選択し、ある特定の実施形態では、感度が1の近傍にある(例えば、約90%の感度、約91%の感度、約92%の感度、約93%の感度、約94%の感度、約95%の感度、約96%の感度、約97%の感度、約98%の感度、または約99%の感度である)方法を選択する。一部の実施形態では、特異性が1または100%に等しい方法を選択し、ある特定の実施形態では、特異性が1の近傍にある(例えば、約90%の特異性、約91%の特異性、約92%の特異性、約93%の特異性、約94%の特異性、約95%の特異性、約96%の特異性、約97%の特異性、約98%の特異性、または約99%の特異性である)方法を選択する。
【0423】
被験体が、少なくとも1つの遺伝子の変動を実際に有する場合に、被験体が、少なくとも1つの遺伝子の変動を有さないものとして誤って同定されないように、偽陰性の数は、ゼロに等しいかまたはゼロに近いことが理想的である。逆に、陰性を正確に分類する予測アルゴリズムの能力についても評価を行うことが多く、これは、感度と補完的な測定である。被験体が、評価される遺伝子の変動を有さない場合に、被験体が、少なくとも1つの遺伝子の変動を有するものとして誤って同定されないように、偽陽性の数は、ゼロに等しいかまたはゼロに近いことが理想的である。
【0424】
一部の実施形態では、遺伝子の変動の存在または非存在(例えば、染色体異数性)を、胎児について決定する。このような実施形態では、胎児の遺伝子の変動(例えば、胎児の染色体異数性)の存在または非存在を決定する。
【0425】
ある特定の実施形態では、試料についての、遺伝子の変動(例えば、染色体異数性)の存在または非存在を決定する。このような実施形態では、試料核酸中の、遺伝子の変動(例えば、染色体異数性)の存在または非存在を決定する。一部の実施形態では、検出される変動または検出されない変動は、1つの供給源に由来する試料核酸中には存在するが、別の供給源に由来する試料核酸中には存在しない。供給源の非限定的な例は、胎盤の核酸、胎児核酸、母体核酸、がん細胞の核酸、非がん細胞の核酸など、およびこれらの組合せを含む。非限定的な例では、検出されるまたは検出されない、特定の遺伝子の変動は、(i)胎盤の核酸中には存在するが、胎児核酸中には存在せず、母体核酸中にも存在しないか、(ii)胎児核酸中には存在するが、母体核酸中には存在しないか、または(iii)母体核酸中には存在するが、胎児核酸中には存在しない。
【0426】
1つまたは複数のアウトカムを生成した後で、アウトカムを使用して、遺伝子の変動の存在もしくは非存在および/または関連する医学的状態の決定をもたらすことが多い。アウトカムは、医療従事者(例えば、検査室技師または管理者;医師または助手)へと提示することが典型的である。アウトカムは、アウトカムモジュールにより提示することが多い。ある特定の実施形態では、アウトカムを、プロッティングモジュールにより提示する。ある特定の実施形態では、アウトカムは、マシンの周辺機器上またはコンポーネント上に提示される。例えば、場合によって、アウトカムを、プリンターまたはディスプレイにより提示する。一部の実施形態では、遺伝子の変動の存在または非存在の決定因であるアウトカムは、医療従事者へと、レポートの形態で提示され、ある特定の実施形態では、レポートは、アウトカム値および関連する信頼性パラメータの提示を含む。一般に、アウトカムは、遺伝子の変動の存在もしくは非存在および/または医学的状態の決定を容易とする、適切なフォーマットで示すことができる。データセットを報告および/もしくは提示するか、またはアウトカムを報告するための使用に適するフォーマットの非限定的な例は、ディジタルデータ、グラフ、2Dグラフ、3Dグラフ、および4Dグラフ、写真、ピクトグラフ、チャート、棒グラフ、円グラフ、概略図、フローチャート、散布図、マップ、ヒストグラム、密度図、関数グラフ、回路図、ブロック図、バブルマップ、信号空間ダイヤグラム、コンターダイアグラム、カルトグラム、レーダーチャート、ベン図、ノモグラムなど、および前出の組合せを含む。アウトカム表示の多様な例については、図面で示し、実施例で記載する。
【0427】
ある特定の実施形態では、アウトカムの生成は、核酸配列の読取りの、被験体の細胞核酸の表示への転換とみなすことができる。被験体の細胞核酸の表示は、特定の染色体またはその部分についての量(dosage)またはコピー数を反映することが多く、これにより、表示は、被験体の核酸の特性であることが多い。例えば、多数の比較的小さな配列の読取りを、比較的大きな染色体の表示へと変換することは、転換とみなすことができる。例示として述べると、約36塩基対の長さの読取りを使用して、約4700万塩基の長さである第21染色体の表示を生成するための処理では、染色体の少なくとも100,000分の1である、何千もの読取りを、有意に大きな染色体の表示へと転換する。染色体のこのような表示の生成は、本明細書で記載される、比較的大きな染色体の表示に到達するように、読取りの複数の操作(例えば、マッピング、フィルタリング、および/または正規化)を伴うことが典型的である。1つまたは複数のコンピュータの使用を要求しうる、複数の操作を活用することが多く、複数のコンピュータは、平行して協調することが多い。
【0428】
妊娠中の雌に由来する試料を使用して、胎児染色体についての染色体の表示をもたらす場合、読取りのうちの大半は、母体核酸に由来することが多く、読取りのうちの少数は、胎児核酸に由来することが多いことを踏まえると、このような転換はさらに明らかである。母体核酸の読取りは、胎児核酸の読取りに優越することが多く、母体核酸の読取りのうちの大半は、胎児染色体の表示を遮蔽することが多い。母体読取りの大きなバックグラウンドは、胎児の染色体核酸と、母体の染色体核酸との差違を不鮮明にしうることが典型的であり、このようなバックグラウンドに抗して胎児染色体の表示を得ることは、本明細書で記載される通り、母体読取りの寄与をデコンボリュートする処理を伴う。
【0429】
一部の実施形態では、アウトカムは、被験体(例えば、妊娠中の雌)に由来する配列の読取りの、被験体(例えば、母親および/または胎児)中に存在する既存の構造(例えば、ゲノム、染色体、またはこれらのセグメント)の表示への転換から得られる。一部の実施形態では、アウトカムは、第1の被験体(例えば、妊娠中の雌)に由来する配列の読取りの、構造(例えば、ゲノム、染色体、またはこれらのセグメント)の複合表示への転換と、複合表示の第2の転換であって、第1の被験体(例えば、妊娠中の雌)中および/または第2の被験体(例えば、胎児)中に存在する構造の表示をもたらす転換とを含む。一部の実施形態では、アウトカムは、第1の被験体(例えば、雌被験体、妊娠中の雌)に由来する配列の読取りの、第2の被験体(例えば、胎児)中に存在する、構造の表示(例えば、ゲノム、染色体、またはこれらのセグメント)への転換を含む。
【0430】
本明細書の転換法は、場合によって、胎児を保有する妊娠中の雌被験体から得られた試料中の核酸の読取りから、胎児(例えば、T21、T18および/またはT13)中のトリソミー染色体(すなわち、染色体のトリソミー)の存在または非存在を決定するステップを含む。一部の実施形態では、本明細書の転換法は、胎児を保有する妊娠中の雌被験体から得られた試料中の核酸の読取りから、胎児についての染色体の表示(例えば、染色体のコピー数、染色体の量)を調製するステップ(例えば、決定するステップ、視覚化するステップ、表示するステップ、提示するステップ)を含みうる。後者の実施形態では、胎児についての染色体の表示は、第13染色体、第18染色体、および/または第21染色体についての表示であることが多い。
【0431】
アウトカムの使用
遺伝子の変動の存在または非存在の決定因の1つまたは複数のアウトカムを含むレポートを受け取る医療従事者または他の有資格者は、レポート内に示されたデータを使用して、試験被験体または患者の状態についての判定を下すことができる。一部の実施形態では、医療従事者は、提示されたアウトカムに基づき、推奨を行うことができる。一部の実施形態では、医療従事者または有資格者は、レポートで提示された、1つまたは複数のアウトカム値および関連する信頼性パラメータに基づき、試験被験体または患者に、遺伝子の変動の存在または非存在に関する判定またはスコアを提示することができる。ある特定の実施形態では、提示されたレポートの目視観察を使用して、医療従事者または有資格者が、手作業でスコアを作成するかまたは判定を下す。ある特定の実施形態では、場合によって、ソフトウェア内に埋め込まれた自動式のルーチンにより、スコアを作成するかまたは判定を下し、試験被験体または患者へと情報を提供する前に、医療従事者または有資格者が、精度について精査する。本明細書で使用される「レポートを受け取ること」という用語は、精査されると、医療従事者または他の有資格者が、試験被験体または患者における遺伝子の変動の存在または非存在について決定することを可能とする、アウトカムを含む通信手段、書面表示、および/またはグラフ表示により得ることを指す。レポートは、コンピュータにより作成することもでき、手作業によるデータ入力により作成することもでき、電子的手段(例えば、インターネットを介する、コンピュータを介する、ファックスを介する、同じ物理的施設または異なる物理的施設における1つのネットワーク拠点から別の拠点への)を使用して通信することもでき、データを送付または受領する別の方法(例えば、郵便、宅急便(登録商標)など)により通信することもできる。一部の実施形態では、アウトカムは、限定せずに述べると、言語形態、文書形態、またはファイル形態を含む適切な媒体により、医療従事者へと伝送する。ファイルは、例えば、音声ファイル、コンピュータ可読ファイル、書類ファイル、検査室ファイル、または医療記録ファイルでありうるがこれらに限定されない。
【0432】
本明細書で使用される、「アウトカムを提示すること」という用語およびその文法的な同等物はまた、このような情報を得るための方法であって、限定せずに述べると、情報を検査室から得る(例えば、検査室ファイル)ステップを含む方法も指す場合がある。検査室ファイルは、医学的状態の存在または非存在を決定するための、1つまたは複数のアッセイまたは1つまたは複数のデータ処理ステップを実行した検査室により作成することができる。検査室は、医学的状態の存在または非存在を検査室ファイルから確認する職員と同じ場所にある場合もあり、異なる場所(例えば、別の国)にある場合もある。例えば、検査室ファイルは、1つの場所で作成し、その中の情報が妊娠中の雌被験体へと伝送される別の場所へと伝送することができる。ある特定の実施形態では、検査室ファイルは、実体的形態(tangible form)の場合もあり、電子的形態(例えば、コンピュータ可読形態)の場合もある。
【0433】
一部の実施形態では、アウトカムは、検査室から、医療従事者、医師、または有資格者へと提示することができ、医療従事者、医師、または有資格者は、アウトカムに基づき、診断を下すことができる。一部の実施形態では、アウトカムは、検査室から、医療従事者、医師、または有資格者へと提示することができ、医療従事者、医師、または有資格者は、さらなるデータおよび/または情報、ならびに他のアウトカムと共に、アウトカムに一部分基づき、診断を下すことができる。
【0434】
医療従事者または有資格者は、レポートで提示された1つまたは複数のアウトカムに基づき、適切な推奨を提示することができる。提示されたアウトカムレポートに基づき提示されうる、推奨の非限定的な例は、手術、放射線療法、化学療法、遺伝子カウンセリング、生後処置解決手段(after birth treatment solutions)(例えば、人生設計、長期にわたる介護ケア、医薬、対症的処置)、妊娠中絶、臓器移植、輸血など、または前出の組合せを含む。一部の実施形態では、推奨は、提示されたアウトカムベースの分類(例えば、ダウン症候群、ターナー症候群、T13における遺伝子の変動と関連する医学的状態、T18における遺伝子の変動と関連する医学的状態)に依存する。
【0435】
検査室関係者(例えば、検査室管理者)は、遺伝子の変動の存在または非存在の決定(または試験領域についての正倍数体もしくは非正倍数体の決定)の根底をなす値(例えば、試験カウント、参照カウント、偏差のレベル)を分析することができる。遺伝子の変動の存在または非存在に関する判定であって、微妙であるかまたは疑わしい判定について、検査室関係者は、同じ試験を再発注することもでき、かつ/または試験被験体に由来する同じ試料核酸または異なる試料核酸を使用する、異なる試験(例えば、胎児の異数性の決定の場合における核型分析および/または羊水穿刺)を発注することもできる。
遺伝子の変動および医学的状態
【0436】
遺伝子の変動(genetic variance)の存在または非存在は、本明細書に記載する方法、装置またはマシンを使用して決定することができる。ある特定の実施形態では、1つまたは複数の遺伝子の変動(genetic variation)の存在または非存在は、本明細書に記載する方法、マシンおよび装置により提供されるアウトカムにより決定される。遺伝子の変動は、一般的に、ある特定の個体中に存在する特定の遺伝的表現型であり、多くの場合、遺伝子の変動は、個体の統計的に有意な部分母集団の中に存在する。一部の実施形態では、遺伝子の変動は、染色体異常(例えば、異数性)、部分的染色体異常、またはモザイク現象であり、そのそれぞれについて、本明細書でより詳細に記載する。遺伝子の変動の非限定的な例として、1つまたは複数の欠失(例えば、微小欠失)、重複(例えば、微小重複)、挿入、変異、多型(例えば、一塩基多型)、融合、リピート(例えば、短いタンデムリピート)、異なるメチル化部位、異なるメチル化パターン等、およびその組合せが挙げられる。挿入、リピート、欠失、重複、変異、または多型は、任意の長さのものであり得、一部の実施形態では、長さ約1塩基または塩基対(bp)〜約250メガ塩基(Mb)である。一部の実施形態では、挿入、リピート、欠失、重複、変異、または多型は、長さ約1塩基または塩基対(bp)〜約1,000キロ塩基(kb)である(例えば、長さ約10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb、または1000kb)。
【0437】
遺伝子の変動は、欠失の場合もある。ある特定の実施形態では、欠失は染色体またはDNA配列の一部分が欠損している変異である(例えば、遺伝子異常)。欠失は、多くの場合、遺伝物質の喪失である。任意の数のヌクレオチドが欠失し得る。欠失は、1つもしくは複数の染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメント、またはその組合せの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。
【0438】
遺伝子の変動は、遺伝子の重複の場合もある。ある特定の実施形態では、重複は染色体またはDNA配列の一部分がコピーされ、ゲノムへと挿入される変異(例えば、遺伝子異常)である。ある特定の実施形態では、遺伝子の重複(すなわち、重複)は、DNA領域の任意の重複である。一部の実施形態では、重複は、ゲノムまたは染色体内の、多くの場合タンデムに反復した核酸配列である。一部の実施形態では、重複は、1つもしくは複数の染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメント、またはその組み合わせのコピーを含み得る。重複は、微小重複を含み得る。重複は、1つまたは複数の重複した核酸のコピーを含む場合もある。重複は、1回または複数回反復した(例えば、1、2、3、4、5、6、7、8、9、または10回反復した)遺伝子領域として特徴付けられる場合もある。重複は、小領域(数千塩基対)から一部の事例では染色体全体の範囲であり得る。重複は、相同組換えにおける誤差の結果として、またはレトロトランスポゾンイベントに起因して高頻度で生ずる。重複は、ある特定の種類の増殖性疾患と関連していた。重複は、ゲノムマイクロアレイまたは比較遺伝子交雑法(CGH)を使用して特徴付けできる。
【0439】
遺伝子の変動は、挿入の場合もある。挿入は、1つまたは複数のヌクレオチド塩基対の核酸配列への付加の場合もある。挿入は、微小挿入の場合もある。ある特定の実施形態では、挿入は、染色体のセグメントのゲノム、染色体、またはそのセグメントへの付加を含む。ある特定の実施形態では、挿入は、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメントまたはその組合せの、ゲノムまたはそのセグメントへの付加を含む。ある特定の実施形態では、挿入は、起源が不明の核酸の、ゲノム、染色体、またはそのセグメントへの付加(すなわち、挿入)を含む。ある特定の実施形態では、挿入は、単一塩基の付加(すなわち、挿入)を含む。
【0440】
本明細書で使用する場合、「コピー数の変動」は、一般的に遺伝子の変動または染色体異常のクラスまたは種類である。コピー数の変動は、欠失(例えば、微小欠失)、重複(例えば、微小重複)、または挿入(例えば、微小挿入)であり得る。多くの場合、本明細書で時に使用される接頭辞「微小」は、長さ5Mb未満の核酸のセグメントである。コピー数の変動は、染色体のセグメントの1つまたは複数の欠失(例えば、微小欠失)、重複、および/または挿入(例えば、微小重複、微小挿入)を含み得る。ある特定の実施形態では、重複は挿入を含む。ある特定の実施形態では、挿入は重複である。ある特定の実施形態では、挿入は重複ではない。例えば、多くの場合、ある部分で配列が重複すると、重複が見出される部分に関するカウントが増加する。多くの場合、ある部分で配列が重複するとレベルが高まる。特定の実施形態では、第1のレベルを構成する部分に重複が存在すると、重複が存在しない第2のレベルと比較してレベルが高まる。ある特定の実施形態では、挿入は、部分のカウントを増加させ、挿入を表す配列が同一部分内の別の位置に存在する(すなわち、重複される)。ある特定の実施形態では、挿入は、部分のカウント、またはレベルを有意に増加させず、挿入された配列は、同一部分内の配列の重複ではない。ある特定の実施形態では、挿入は重複として検出または表示されず、挿入を表す重複配列は、同一部分に存在しない。
【0441】
一部の実施形態では、コピー数の変動は、胎児のコピー数の変動である。多くの場合、胎児のコピー数の変動は、胎児のゲノム内のコピー数の変動である。一部の実施形態では、コピー数の変動は、母体および/または胎児のコピー数の変動である。ある特定の実施形態では、母体および/または胎児のコピー数の変動は、妊娠中の雌(例えば、胎児を出産する雌の被験体)、分娩経験のある雌の被験体、または胎児を出産する能力を有する雌のゲノム内のコピー数の変動である。コピー数の変動は、ヘテロ接合性のコピー数の変動であり得、この場合、変動(例えば、重複または欠失)は、ゲノムの1方の対立遺伝子上に存在する。コピー数の変動は、ホモ接合性のコピー数の変動であり得、この場合、変動は、ゲノムの両方の対立遺伝子に存在する。一部の実施形態では、コピー数の変動はヘテロ接合性またはホモ接合性の胎児のコピー数の変動である。一部の実施形態では、コピー数の変動は、ヘテロ接合性またはホモ接合性の母体および/または胎児のコピー数の変動ある。コピー数の変動は、母体ゲノムおよび胎児ゲノムに存在する、母体ゲノムに存在するが胎児ゲノムに存在しない、または胎児ゲノムに存在するが母体ゲノムに存在しない場合がある。
【0442】
「倍数性」とは、胎児または母親中に存在する染色体の数への言及である。ある特定の実施形態では、「倍数性」は、「染色体倍数性」と同じである。ヒトでは、例えば常染色体は、多くの場合、対で存在する。例えば、遺伝子の変動が存在しない場合、ほとんどのヒトは各常染色体(例えば、第1〜22染色体)を2つ有する。ヒトにおける2つの常染色体の正常な相補の存在は、これは多くの場合、正倍数体と呼ばれる。「微小倍数性」は、意味上では、倍数性に類似する。「微小倍数性」は、多くの場合、染色体のセグメントの倍数性を指す。用語「微小倍数性」とは、染色体内のコピー数の変動(例えば、欠失、重複、および/または挿入)の存在または非存在(例えば、ホモ接合性またはヘテロ接合性の欠失、重複、または挿入等またはその非存在)への言及の場合もある。「倍数性」および「微小倍数性」は、プロファイル内のレベルのカウントを正規化した後に決定される場合もある。したがって、常染染色体の対を表すレベル(例えば、正倍数体)は、多くの場合、倍数性1に正規化される。同様に、重複、欠失、または挿入が存在しないことを表す染色体のセグメント内のレベルは、多くの場合、微小倍数性1に正規化される。倍数性および微小倍数性は、多くの場合、部分−特異的(例えば、部分特異的)および試料−特異的である。倍数性は、多くの場合、1/2の整数倍として規定され、正倍数体(例えば、2つの染色体)、染色体1つ存在(例えば、染色体欠失)、染色体非存在、染色体3つ(例えば、トリソミー)、および染色体4つをそれぞれ表す、1、1/2、0、3/2、および2の値を有する。同様に、微小倍数性は、多くの場合、1/2の整数倍として規定され、正倍数体(例えば、コピー数の変動無し)、ヘテロ接合性の欠失、ホモ接合性の欠失、ヘテロ接合性の重複、およびホモ接合性の重複をそれぞれ表す、1、1/2、0、3/2、および2の値を有する。胎児に関する倍数性値についての一部の例を表2に提示する。
【0443】
ある特定の実施形態では、胎児の微小倍数性は、胎児の母親(すなわち、妊娠中の雌の被験体)の微小倍数性と一致する。ある特定の実施形態では、胎児の微小倍数性は、胎児の母親の微小倍数性と一致し、母親および胎児いずれも、同一のヘテロ接合性のコピー数の変動、ホモ接合性のコピー数の変動を担持する、または両方とも正倍数体である。ある特定の実施形態では、胎児の微小倍数性は、胎児の母親の微小倍数性と異なる。例えば、胎児の微小倍数性は、コピー数の変動についてヘテロ接合性であり、母親は、コピー数の変動についてホモ接合性であり、胎児の微小倍数性は、特定のコピー数の変動に関して母親の微小倍数性と一致しない(例えば、等しくない)場合もある。
【0444】
微小倍数性は、多くの場合、期待されるレベルと関連する。例えば、レベル(例えば、プロファイル内のレベル、時にコピー数の変動を実質的に含まないレベル)は、値1に正規化される場合もあり(例えば、倍数性1、微小倍数性1)、ホモ接合性の重複の微小倍数性は2、ヘテロ接合性の重複は1.5、ヘテロ接合性の欠失は0.5、およびホモ接合性の欠失は0である。
【0445】
被験体について存在または非存在が同定された遺伝子の変動は、ある特定の実施形態では医学的状態と関連する。したがって、本明細書に記載する技術は、医学的状態または病状と関連する1つまたは複数の遺伝子の変動の存在または非存在を同定するのに使用することができる。医学的状態の非限定的な例として、知的障害(例えば、ダウン症候群)、異常な細胞増殖(例えば、がん)、微生物核酸(例えば、ウイルス、細菌、真菌、酵母)の存在、および子癇前症と関連した状態が挙げられる。
【0446】
遺伝子の変動、医学的状態および病状の非限定的な例は、以下に記載されている。
胎児の性別
【0447】
一部の実施形態では、胎児の性別または性別関連の障害(例えば、性染色体異数性)の予測は、本明細書に記載する方法、マシンまたは装置により決定することができる。性別の決定は、性染色体に一般的に基づく。ヒトでは、2つの性染色体、X染色体およびY染色体が存在する。Y染色体は、雄としての胚発生を引き起こす遺伝子、SRYを含有する。ヒトおよび他の哺乳動物のY染色体は、正常な精子産生に必要とされる他の遺伝子も含有する。XXを有する個体は雌であり、XYは雄であり、多くの場合、性染色体異数性と呼ばれる非限定的な変動として、X0、XYY、XXX、およびXXYが挙げられる。ある特定の実施形態では、雄は、2つのX染色体および1つのY染色体(XXY;クラインフェルター症候群)、または1つのX染色体および2つのY染色体(XYY症候群;ジェイコブス症候群)を有し、ならびに一部の雌は、3つのX染色体(XXX;トリプルX症候群)または2つではなく単一のX染色体(X0;ターナー症候群)を有する。ある特定の実施形態では、個体内の一部の細胞のみが、性染色体異数性により影響を受け、モザイク現象(例えば、ターナーモザイク現象)と呼ばれる場合もある。他の症例として、SRYが損傷を受けている症例(XYの雌となる)、またはXにコピーされた症例(XXの雄となる)が挙げられる。
【0448】
一部の実施形態では、胎児の性別を決定する方法はまた、胎児フラクションおよび/または胎児の遺伝子の変動(例えば、胎児の染色体異数性)の存在もしくは非存在を決定するステップも含みうる。胎児の遺伝子の変動の存在または非存在を決定するステップは、その非限定的な例が、核型分析、羊水穿刺、循環無細胞核酸分析、無細胞胎児DNA分析、ヌクレオチド配列分析、配列読取りの定量、標的化法、増幅ベースの手法、質量分析ベースの手法、差次的メチル化ベースの手法、差次的消化ベースの手法、多型ベースの手法、ハイブリダイゼーションベースの手法(例えば、プローブを使用する)などを含む、適切な様式で実施することができる。
【0449】
ある特定の症例では、子宮内の胎児の性別を決定することが有益な場合もある。例えば、1つまたは複数の伴性障害の家族歴を有する患者(例えば、妊娠中の雌)は、かかる障害を受け継ぐ胎児のリスクを評価するのに役立つように、身ごもっている胎児の性別を決定したいと欲する場合がある。伴性障害として、非限定的に、X連鎖およびY連鎖障害が挙げられる。X連鎖障害として、X連鎖劣性障害およびX連鎖優性障害が挙げられる。X関連劣性障害の例として、非限定的に、免疫障害(例えば、慢性肉芽腫性疾患(CYBB)、ヴィスコット・アルドリッチ症候群、X連鎖重症複合型免疫不全症、X連鎖無ガンマグロブリン血症、1型高IgM症候群、IPEX、X連鎖リンパ増殖性疾患、プロパージン欠損症)、血液学的障害(例えば、血友病A、血友病B、X連鎖鉄芽球性貧血)、内分泌障害(例えば、アンドロゲン不感性症候群/ケネディ病、KAL1カルマン症候群、X連鎖先天性副腎低形成)、代謝障害(例えば、オルニチントランスカルバミラーゼ欠損症、眼脳腎症候群、副腎白質ジストロトフィー、グルコース−6−リン酸デヒドロゲナーゼ欠損症、ピルビン酸デヒドロゲナーゼ欠損症、ダノン病/IIb型グリコーゲン蓄積症、ファブリー病、ハンター症候群、レッシュ−ナイハン症候群、メンケス病/オクシピタル・ホーン症候群)、神経系障害(例えば、コフィン−ローリー症候群、MASA症候群、X連鎖アルファサラセミア精神遅滞症候群、シデリウスX連鎖精神遅滞症候群、色盲、眼球白皮症、ノリエ病、コロイデレミア、シャルコー−マリー−トゥース病(CMTX2−3)、ペリツェウス−メルツバッハー病、SMAX2)、皮膚および関連組織の障害(例えば、先天性角化不全症、低汗性外胚葉形成不全(EDA)、X連鎖魚鱗癬、X連鎖角膜内皮ジストロフィ)、神経筋障害(例えば、ベッカー型筋ジストロフィー/デュシェンヌ型筋ジストロフィー、中心核ミオパシー(MTM1)、コンラーディ−ヒューネルマン症候群、エメリー−ドレフュス型筋ジストロフィー1)、泌尿器系障害(例えば、アルポート症候群、デント病、X連鎖腎原性尿崩症)、骨/歯の障害(例えば、AMELXエナメル質形成不全症)、および他の障害(例えば、バース症候群、マクロード症候群、スミス−ファインマン−マイヤーズ症候群、シンプソン−ゴラビ−ベーメル症候群、Mohr−Tranebjaerg症候群、鼻指聴覚症候群)。X連鎖優性障害の例として、非限定的に、X連鎖低リン酸血症、巣状皮膚低形成、脆弱X症候群、アイカルディ症候群、色素失調症、Rett症候群、CHILD症候群、Lujan−Fryns症候群、および口腔・顔面・指趾症候群1が挙げられる。Y連鎖障害の例として、非限定的に、雄不妊症、網膜色素変性、および無精子症が挙げられる。
染色体異常
【0450】
一部の実施形態では、胎児染色体異常の存在または非存在は、本明細書に記載する方法、マシンまたは装置を使用して決定することができる。染色体異常として、非限定的に、染色体全体または1つもしくは複数の遺伝子を含む染色体の領域の取得または喪失が挙げられる。染色体異常には、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の喪失、転座、不均衡な転座により引き起こされた欠失および重複を含む、1つまたは複数のヌクレオチド配列(例えば、1つまたは複数の遺伝子)の欠失および/または重複が含まれる。用語「染色体異常」、「異数性」および/または「異数体」は、本明細書で使用する場合、被験体の染色体構造と正常な相同染色体構造の間の乖離を指す。用語「正常」とは、特定の種の健康な個体に見出される優勢な核型またはバンディングパターン、例えば正倍数体ゲノム(ヒトでは、46、XXまたは46、XY)を指す。生物が異なれば染色体の相補性も幅広く異なるので、用語「異数性」および「異数体」は特定の染色体の数を指すものではなく、生物の所与の細胞の1つまたは複数内の染色体含有量が異常である状況を指す。一部の実施形態では、用語「異数性」および「異数体」は、本明細書では、染色体の全部または染色体の一部の喪失または取得により引き起こされた遺伝物質の不均衡を指す。「異数性」は、染色体のセグメントの1つまたは複数の欠失および/または挿入を指し得る。用語「正倍数体」は、一部の実施形態では、染色体の正常な相補を指す。
【0451】
用語「モノソミー」は、本明細書で使用する場合、正常な相補の1つの染色体が欠如していることを指す。単一のコピー内に染色体のセグメントのみが存在する、不均衡な転座または欠失においては、部分的モノソミーが生じ得る。性染色体のモノソミー(45、X)は、例えばターナー症候群を引き起こす。用語「ダイソミー」は、染色体のコピーが2つ存在することを指す。各染色体の2つのコピーを有するヒト等の生物(二倍体または「正倍数体」の生物)の場合、ダイソミーは正常な状態である。各染色体の3つまたはそれ超のコピーを通常有する生物(三倍体またはそれ超の生物)の場合、ダイソミーは異数体の染色体の状態である。片親性のダイソミーでは、染色体の両方のコピーは同一の親に由来する(他方の親の寄与はない)。
【0452】
用語「トリソミー」は、本明細書で使用する場合、特定の染色体の2つのコピーではなく3つのコピーが存在することを指す。ヒトのダウン症候群に見出される余分な第21染色体の存在は、「トリソミー21」と呼ばれる。トリソミー18およびトリソミー13は、他の2つのヒト常染色体トリソミーである。性染色体のトリソミーは、雌(例えば、トリプルX症候群の47、XXX)または雄(例えば、クラインフェルター症候群の47、XXY;またはジェイコブス症候群の47、XYY)に認められる場合がある。一部の実施形態では、トリソミーは、ほとんどまたは全ての常染色体の重複である。ある特定の実施形態では、トリソミーは全染色体異数性であり、特定の種類の染色体について3つのインスタンス(例えば、3つのコピー)をもたらす(例えば、正倍数体についての特定の種類の染色体の2つのインスタンス(すなわち対)ではなく)。
【0453】
用語「テトラソミー」および「ペンタソミー」は、本明細書で使用する場合、4つまたは5つの染色体のコピーがそれぞれ存在することを指す。常染色体ではほとんど認められないが、性染色体のテトラソミーおよびペンタソミーが、XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYY、およびXYYYYを含め、ヒトで報告されている。
【0454】
染色体異常は、様々な機構により引き起こされ得る。機構には、(i)有糸分裂チェックポイントが脆弱化した結果として生ずる不分離、(ii)複数の染色体において不分離を引き起こす不活性な有糸分裂チェックポイント、(iii)1つの動原体が両方の有糸分裂紡錘体極に結合したときに生ずるメロテリック結合、(iv)2つ超の紡錘体極が形成されたときの多極紡錘体形成、(v)単一の紡錘体極しか形成されなかったときの単極紡錘体形成、および(vi)単極紡錘体機構の最終結果として四倍体中間体が生ずることが含まれるが、これらに限定されない。
【0455】
用語「部分的モノソミー」および「部分的トリソミー」は、本明細書で使用する場合、染色体の一部分の喪失または取得により引き起こされた遺伝物質の不均衡を指す。部分的モノソミーまたは部分的トリソミーは、不均衡な転座に起因し得るが、この場合、個体は2つの異なる染色体の破断および融合により形成された誘導染色体を担持する。この状況では、個体は1つの染色体の一部分の3つのコピー(2つの正常なコピー、および誘導染色体上に存在するセグメント)、および誘導染色体に関与する他の染色体の一部分の1つのコピーのみを有する。
【0456】
用語「モザイク現象」は、本明細書で使用する場合、生物の全ての細胞ではなく、一部の細胞内の染色体異数性を指す。ある特定の染色体異常は、モザイク性および非モザイク性の染色体異常として存在し得る。例えば、ある特定のトリソミー21個体はモザイクダウン症候群を有し、一部は非モザイクダウン症候群を有する。異なる機構が、モザイク現象をもたらし得る。例えば、(i)最初の接合体は、3つの第21染色体を有すると考えられ、これは単純なトリソミー21を通常もたらすが、細胞分裂の過程で、1つまたは複数の細胞系が、第21染色体の1つを喪失する;および(ii)最初の接合体は、2つの第21染色体を有すると考えられるが、細胞分裂の過程で、第21染色体の1つが重複した。体細胞モザイク現象は、完全なまたはモザイク性の異数性を伴う遺伝的症候群と一般的に関連する機構とは異なる機構を通じて生ずる可能性がある。体細胞モザイク現象は、例えばある特定の種類のがんやニューロンにおいて同定された。ある特定の事例では、トリソミー12は、慢性リンパ球性白血病(CLL)において同定され、トリソミー8は、急性骨髄性白血病(AML)において同定された。また、個体が染色体の破断しやすい傾向を有するような遺伝的症候群(染色体不安定症候群)では、様々な種類のがんに対するリスクの増大と高頻度で関連し、したがって発癌性における体細胞異数性の役割が注目される。本明細書に記載する方法およびプロトコールは、非モザイク性およびモザイク性の染色体異常の存在または非存在を同定することができる。
【0457】
表1Aおよび1Bは、本明細書に記載する方法、マシンおよび装置により同定される可能性があり得る染色体の状態、症候群、および/または異常の非限定的なリストを提示する。表1Bは、2011年10月6日時点のDECIPHERデータベースに由来する(例えば、バージョン5.1、GRCh37に対してマッピングされた場所に基づく;ユニフォームリソースロケーター(URL)dechipher.sanger.ac.ukにて入手可能)。
【表1A-1】
【表1A-2】
【表1A-3】
【表1B-1】
【表1B-2】
【表1B-3】
【表1B-4】
【0458】
グレード1の状態は、多くの場合、1つまたは複数の以下の特徴を有する;病原的異常;遺伝学者の間で強く合意されている;高い浸透性;なおも多様な表示型を有し得るが、いくつかの一般的な特性も有する;文献中の全ての症例は臨床表示型を有する;異常を有する健康な個体の症例を認めない;DVGデータベースに報告されていない、または健常母集団では見出されない;単一遺伝子または多重遺伝子の量的効果を確認する機能的データ;確認済みまたは強固な候補遺伝子;臨床マネジメント案が規定済み;がんのリスクが公知でサーベイの案を有する;複数の情報源(OMIM、GeneReviews、Orphanet、Unique、Wikipedia);および/または診断用途で利用可能(妊娠カウンセリング)。
【0459】
グレード2の状態は、多くの場合、1つまたは複数の下記の特徴を有する;病原的異常の可能性;高い浸透性;DDを除き一貫した特性を有さない多様な表示型;文献では症例/報告の数が少ない;報告された全ての症例は臨床表示型を有する;機能的データまたは確認済みの病原性遺伝子を認めない;複数の情報源(OMIM、GeneReviews、Orphanet、Unique、Wikipedia);および/または診断目的および妊娠カウンセリングのために使用できる。
【0460】
グレード3の状態は、多くの場合、1つまたは複数の下記の特徴を有する;感受性遺伝子座;健常な個体または発端者の未罹患の両親が記載されている;対照母集団中に存在する;非浸透性;表示型が軽度で特異的ではない;特性はあまり一貫していない;機能的データまたは確認済みの病原性遺伝子を認めない;データの供給源がより限定的;大部分から乖離している症例に関して、または新規臨床所見が存在する場合、第2の診断の可能性は、可能性の状態のままである;および/または診断目的で使用する際には要注意、および妊娠カウンセリングの場合、助言には慎重を期す。
子癇前症
【0461】
一部の実施形態では、子癇前症の存在または非存在は、本明細書に記載する方法、マシンまたは装置を使用して決定される。子癇前症は、妊娠中に高血圧症が発生する状態(すなわち、妊娠誘発性高血圧症)であり、尿中の相当量のタンパク質と関連する。ある特定の実施形態では、子癇前症は、細胞外核酸のレベル上昇および/またはメチル化パターン変化とも関連する。例えば、細胞外の胎児由来過剰メチル化RASSF1Aレベルと子癇前症の重症度の間に正の相関が認められた。ある特定の例では、子癇前症の胎盤内のH19遺伝子について、正常な対照と比較してDNAのメチル化の増加が認められる。
【0462】
子癇前症は、世界的に、母体および胎児/新生児の死亡率および疾病率の主因の1つである。血漿および血清中の循環無細胞核酸は新規バイオマーカーであり、出生前診断を含む異なる医学分野における臨床用途として有望である。母体血漿中の無細胞胎児(cff)DNAの定量的変化は、例えば雄特異的SRYまたはDYS14遺伝子座に関するリアルタイム定量的PCRを使用して、その変化が切迫した子癇前症に関する指標となることが、異なる試験で報告されている。早期発症型の子癇前症の症例では、最初の三半期にレベルの上昇が認められる場合がある。症状発現前のcffDNAのレベルの上昇は、組織の酸化ストレスおよび胎盤のアポトーシスおよび壊死の増加をもたらす絨毛間腔内の低酸素/再酸素化に起因する場合もある。cffDNAの母体循環への排出増加に関する証拠に加えて、子癇前症では、cffDNAの腎臓クリアランスの低下に関する証拠も存在する。胎児DNAの量は、現在のところ、Y−染色体特異的配列の定量により決定されるので、代替的アプローチ、例えば無細胞総DNAの測定または性別に依存しない胎児エピジェネティックマーカー、例えばDNAメチル化の使用により、代替法が提供される。胎盤起源の無細胞RNAは、臨床診療において子癇前症をスクリーニングおよび診断するのに使用できる別の代替的バイオマーカーである。胎児RNAは、これを分解から保護する細胞内胎盤粒子と関連する。胎児のRNAレベルは、対照と比較して子癇前症の妊娠中の雌では10倍高い場合があり、したがって、臨床診療において子癇前症をスクリーニングおよび診断するのに使用できる代替的バイオマーカーである。
病原体
【0463】
一部の実施形態では、病態の存在または非存在は、本明細書に記載する方法または装置により決定される。病態は、細菌、ウイルス、または真菌を含むが、これらに限定されない病原体に宿主が感染することにより引き起こされ得る。病原体は宿主の核酸と区別可能な核酸(例えば、ゲノムDNA、ゲノムRNA、mRNA)を一般的に有するので、本明細書において提供される方法、マシンおよび装置が、病原体の存在または非存在を決定するのに使用できる。多くの場合、病原体は、例えばエピジェネティックな状態および/または1つもしくは複数の配列の変動、重複、および/または欠失等の、特定の病原体に固有の特徴を持つ核酸を有する。したがって、本明細書において提供される方法は、特定の病原体または病原体の変異体(例えば、株)を同定するのに使用できる。
がん
【0464】
一部の実施形態では、細胞増殖障害(例えば、がん)の存在または非存在が、本明細書に記載する方法、マシンまたは装置を使用して決定される。例えば、血清中の無細胞核酸のレベルは、健康な患者と比較して様々な種類のがんを有する患者で上昇し得る。例えば、転移性の疾患を有する患者は、非転移性の患者の約2倍高い血清DNAレベルを有する場合があり得る。転移性の疾患を有する患者は、がん特異的マーカー、および/または、例えばある特定の一塩基多型または短いタンデムリピートによっても同定され得る。循環DNAのレベル上昇と正に相関し得るがんの種類の非限定的な例として、乳がん、結腸直腸がん、消化器がん、肝細胞がん、肺がん、メラノーマ、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱がん、ヘパトーマ、子宮頚がん、食道がん、膵臓がん、および前立腺がんが挙げられる。様々ながんは、非がん性の健康な細胞に由来する核酸から区別可能な特徴、例えばエピジェネティックな状態、ならびに/または配列の変動、重複、および/もしくは欠失等を伴う核酸を有し得る、および、時には、これを血流中に放出し得る。かかる特徴は、例えば特定の種類のがんに特異的であり得る。したがって、本明細書において提供される方法は、特定の種類のがんを同定するのに使用できることがさらに想定される。
【0465】
本明細書において以後より詳細に記載するように、ソフトウェアが、本明細書に記載する処理において、下記を含むが、これに限定されない1つまたは複数のステップを行うために使用できる;カウント計測、データ処理、アウトカムの生成、および/または生成されたアウトカムに基づく1つもしくは複数の推奨の提供。
【0466】
マシン、ソフトウェア、およびインターフェース
本明細書で記載されるある特定の処理および方法(例えば、配列読取り、カウント、レベル(例えば、レベル)、および/もしくはプロファイルの定量、マッピング、正規化、範囲の設定、調整、分類、カウント計測、ならびに/または決定)は、コンピュータ、マイクロプロセッサ、ソフトウェア、モジュール、または他のマシンを伴わずには実施できないことが多い。本明細書で記載される方法は、コンピュータにより実施される方法であることが典型的であり、方法の1つまたは複数の部分は、場合によって、1つまたは複数の、プロセッサ(例えば、マイクロプロセッサ)、コンピュータ、またはマイクロプロセッサにより制御されるマシンにより実施する。本明細書で記載される方法に関連する実施形態は一般に、本明細書で記載されるシステム中、マシン中、およびコンピュータプログラム産物中の命令により実施される、同じ処理または関連する処理へと適用可能である。本明細書で記載される方法に関連する実施形態は一般に、実行可能なプログラムをその上に内蔵した非一時的なコンピュータ可読記憶媒体であって、プログラムが、マイクロプロセッサに、方法またはその一部分を実行するように命令する非一時的なコンピュータ可読記憶媒体により実施される、同じ処理または関連する処理へと適用可能でありうる。一部の実施形態では、本明細書で記載される処理および方法(例えば、配列の読取り、カウント、レベル、および/またはプロファイルの定量、カウント計測、および/または決定)を、自動化法により行う。一部の実施形態では、本明細書で記載される1つまたは複数のステップおよび方法は、マイクロプロセッサおよび/もしくはコンピュータにより実行し、かつ/またはメモリを伴って実行する。一部の実施形態では、自動化法を、配列の読取り、カウント、マッピング、マッピングした配列タグ、レベル、プロファイル、正規化、比較、範囲の設定、分類、調整、プロッティング、アウトカム、変換、および同定を決定する、ソフトウェア、モジュール、マイクロプロセッサ、周辺機器、および/またはマシンなどにより実現する。本明細書で使用されるソフトウェアとは、本明細書で記載するように、マイクロプロセッサにより実行されると、コンピュータによる演算を行うコンピュータで読取り可能なプログラムによる命令を指す。
【0467】
試験被験体(例えば、患者、妊娠中の雌)に由来する、および/または参照被験体に由来する配列の読取り、カウント、レベル、およびプロファイルは、遺伝子の変動の存在または非存在を決定するためにさらに分析および処理することができる。配列の読取り、カウント、レベル、および/またはプロファイルは、「データ」または「データセット」と呼ばれる場合もある。一部の実施形態では、データまたはデータセットは、1つまたは複数の特性または変数(例えば、配列に基づく[例えば、GC含有量、特異的ヌクレオチド配列等]、機能特異的[例えば、発現した遺伝子、がん遺伝子等]、位置に基づく[ゲノム特異的、染色体特異的、部分または部分特異的]特性または変数等およびその組合せ)により特徴付けることができる。ある特定の実施形態では、データまたはデータセットは、1つまたは複数の特性または変数に基づく2次元またはそれ超の次元を有するマトリックスに組織化され得る。マトリックスに組織化されたデータは、任意の適する特性または変数を使用して組織化され得る。マトリックス中のデータの非限定的な例として、母体の年齢、母体の倍数性、および胎児の寄与により組織化されるデータが挙げられる。ある特定の実施形態では、1つまたは複数の特性または変数により特徴付けられるデータセットは、カウント計測後に処理される場合もある。
【0468】
マシン、ソフトウェア、およびインターフェースが、本明細書に記載する方法を実施するのに使用できる。マシン、ソフトウェア、およびインターフェースを使用して、ユーザーは、特定の情報、プログラム、または処理(例えば、配列の読取りのマッピング、マッピングされたデータの処理、および/またはアウトカムの提供)を使用するためのオプションを入力、要求、照会、または決定することができ、例えば統計分析アルゴリズム、統計的有意性アルゴリズム、統計的アルゴリズム、反復ステップ、検証アルゴリズム、および図形表示の実施が含まれ得る。一部の実施形態では、データセットは、インプット情報としてユーザーが入力可能であり、ユーザーは、適するハードウェア媒体(例えば、フラッシュドライブ)により1つもしくは複数のデータセットをダウンロードすることができ、ならびに/またはユーザーは、後続する処理のために、および/もしくはアウトカムを提供するために、1つのシステムから別のシステムにデータセットを送信することができる(例えば、シーケンサーからコンピュータシステムに、配列の読取りのマッピング用として配列の読取りデータを送信する;マッピングされた配列データを、処理して、ならびにアウトカムおよび/またはレポートの取得用としてコンピュータシステムに送信する)。
【0469】
システムは、1つまたは複数のマシンを一般的に含む。各マシンは、1つまたは複数のメモリ、1つまたは複数のマイクロプロセッサ、およびインストラクションを含む。システムが2つまたはそれ超のマシンを含む場合、マシンの一部または全部は同一の場所に位置し得る、マシンの一部または全部は異なる場所に位置し得る、全てのマシンは1つの場所に位置し得る、および/または全てのマシンは異なる場所に位置し得る。システムが2つまたはそれ超のマシンを含む場合、マシンの一部もしくは全部はユーザーと同じ場所に位置し得る、マシンの一部もしくは全部はユーザーと異なる場所に位置し得る、全てのマシンはユーザーと同じ場所に位置し得る、および/または全てのマシンはユーザーとは異なる1つもしく複数の場所に位置し得る。
【0470】
システムは、演算マシンおよびシーケンサーまたは配列決定マシンを含む場合があり、この場合、シーケンサーまたは配列決定マシンは、身体由来の核酸を入手し、配列の読取りを生成するように構成され、演算装置は、シーケンサーまたは配列決定マシンから得られた読取りを処理するように構成される。演算マシンは、配列の読取りから遺伝子の変動(例えば、コピー数の変動;胎児染色体異数性)の存在または非存在を決定するように構成される場合がある。
【0471】
ユーザーは、例えばソフトウェアに照会を行うことができ、ソフトウェアは、次にインターネットにアクセスしてデータセットを取得することができ、ある特定の実施形態では、プログラム可能なマイクロプロセッサは、与えられたパラメータに基づいて、適するデータセットを取得するように催促され得る。また、プログラム可能なマイクロプロセッサは、与えられたパラメータに基づいてマイクロプロセッサにより選択された1つまたは複数のデータセットオプションを選択するようにユーザーに促す場合もある。プログラム可能なマイクロプロセッサは、インターネット、他の内部または外部の情報等を経由して見出される情報に基づき、マイクロプロセッサにより選択された1つまたは複数のデータセットオプションを選択するようにユーザーに促し得る。オプションは、1つまたは複数のデータ特性セレクション、1つまたは複数の統計的アルゴリズム、1つまたは複数の統計分析アルゴリズム、1つまたは複数の統計的有意性アルゴリズム、反復ステップ、1つまたは複数の検証アルゴリズム、ならびに方法、マシン、装置、コンピュータプログラム、または実行可能なプログラムが保存される非一時的コンピュータ可読ストレージ媒体の1つまたは複数の図形表示を選択するために選ばれ得る。
【0472】
本明細書が取り上げるシステムは、コンピュータシステムの一般的なコンポーネント、例えばネットワークサーバー、ラップトップシステム、デスクトップシステム、ハンドヘルドシステム、パーソナルデジタルアシスタント、コンピュータキオスク(computing kiosk)等を含み得る。コンピュータシステムは、ユーザーがデータをシステムに入力できるようにする1つまたは複数のインプット手段、例えばキーボード、タッチスクリーン、マウス、音声認識手段、または他の手段を含み得る。システムは、ディスプレイスクリーン(例えば、CRTまたはLCD)、スピーカー、ファックス機、プリンター(例えば、レーザー式、インクジェット式、インパクト式、白黒またはカラープリンター)、または情報(例えば、アウトカムおよび/またはレポート)の視覚的、聴覚的および/もしくはハードコピーアウトプットを提供するのに有用な他のアウトプットを含むが、これらに限定されない、1つまたは複数のアウトプットをさらに含み得る。
【0473】
システムでは、インプットおよびアウトプット手段は、コンポーネントの中でもとりわけ、プログラムインストラクションを実行するマイクロプロセッサ、ならびにプログラムコードおよびデータを保管するメモリを含み得る中央処理装置と接続され得る。一部の実施形態では、処理は、単一の地理的箇所に所在する単一のユーザーシステムとして実施され得る。ある特定の実施形態では、処理は、マルチユーザーシステムとして実施され得る。マルチユーザーで実施される場合、複数の中央処理装置が、ネットワークによって接続され得る。ネットワークは、建物の一部内の一部門、建物全体を範囲に含むようにローカルであり得、複数の建物にまたがり得、1つの領域にまたがり得、国全体にまたがり得、または世界規模であり得る。ネットワークは個人的であり得、プロバイダーにより所有、および管理され得る、またはユーザーが情報を入力および引き出すためにウェブページにアクセスするような、インターネットに基づくサービスとして実施され得る。したがって、ある特定の実施形態では、システムは、ユーザーにとってローカルまたはリモートであり得る1つまたは複数のマシンを含む。1つの場所または複数の場所にある1つ超のマシンに、ユーザーはアクセスでき、データは、連続しておよび/または並行してマッピングおよび/または処理され得る。したがって、適するコンフィグレーションおよび制御を利用して、ローカルネットワーク、リモートネットワーク、および/または「クラウド」コンピューティングプラットフォーム等において、複数のマシンを使用してデータをマッピングおよび/または処理することができる。
【0474】
システムは、一部の実施形態では、コミュニケーションインターフェースを含み得る。コミュニケーションインターフェースは、コンピュータシステムと1つまたは複数の外部デバイスの間で、ソフトウェアおよびデータを伝送できるようにする。コミュニケーションインターフェースの非限定的な例として、モデム、ネットワークインターフェース(イーサーネットカード等)、コミュニケーションポート、PCMCIAスロットおよびカード等が挙げられる。コミュニケーションインターフェース経由で伝送したソフトウェアおよびデータは、一般的にシグナルの形態を取り、これは、電子シグナル、電磁気シグナル、光学シグナル、および/またはコミュニケーションインターフェースにより受信され得る他のシグナルであり得る。シグナルは、多くの場合、チャネルを介してコミュニケーションインターフェースに提供される。チャネルは、多くの場合、シグナルを担持し、ワイヤーまたはケーブル、光ファイバー、電話線、携帯電話リンク、RFリンク、および/または他のコミュニケーションチャネルを使用して実施され得る。したがって、1つの例では、コミュニケーションインターフェースは、シグナル検出モジュールにより検出できるシグナル情報を受信するのに使用できる。
【0475】
データは、マニュアルインプットデバイスまたはダイレクトデータ入力デバイス(DDE)を含むが、これらに限定されない、適するデバイスおよび/または方法によりインプットできる。マニュアルデバイスの非限定的な例として、キーボード、コンセプトキーボード、タッチ感応式スクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナー、デジタルカメラ、ビデオデジタイザー、および音声認識デバイスが挙げられる。DDEの非限定的な例として、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学式文字認識、光学式マーク認識、およびターンアラウンドドキュメントが挙げられる。
【0476】
一部の実施形態では、シーケンサーまたは配列決定マシンからのアウトプットは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、マッピングされた配列の読取りは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、核酸断片のサイズ(例えば、長さ)は、入力デバイスを介して入力されうるデータとして働きうる。ある特定の実施形態では、核酸捕捉処理からの出力(例えば、ゲノム領域の起源データ)は、入力デバイスを介して入力されうるデータとして働きうる。ある特定の実施形態では、核酸断片のサイズ(例えば、長さ)と、核酸捕捉処理からの出力(例えば、ゲノム領域の起源データ)との組合せは、入力デバイスを介して入力されうるデータとして働きうる。ある特定の実施形態では、シミュレートしたデータは、インシリコ処理により生成され、またシミュレートしたデータは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たす。用語「インシリコ」とは、コンピュータを使用して行う研究および実験を指す。インシリコ処理は、本明細書に記載する処理により、配列の読取りをマッピングすること、およびマッピングされた配列の読取りを処理することを含むが、これらに限定されない。
【0477】
システムには、本明細書に記載する処理を行うために有用なソフトウェアを含むことができ、ソフトウェアは、かかる処理を行う1つまたは複数のモジュールを含み得る(例えば、配列決定モジュール、論理処理モジュール、データディスプレイ組織化モジュール)。用語「ソフトウェア」は、コンピュータにより実行されると、コンピュータ操作を行う、コンピュータ可読プログラムのインストラクションを指す。1つまたは複数のマイクロプロセッサにより実行可能なインストラクションは、実行されると、1つまたは複数のマイクロプロセッサに本明細書に記載する方法を実施させることができる実行可能なコードとして提供される場合もある。本明細書に記載するモジュールは、ソフトウェアとして存在し得、ソフトウェアに組み入れたインストラクション(例えば、プロセス、ルーチン、サブルーチン)が、マイクロプロセッサにより実施または行われ得る。例えば、モジュール(例えば、ソフトウェアモジュール)は、特定の処理またはタスクを行うプログラムの一部分であり得る。用語「モジュール」は、より大型のマシンまたはソフトウェアシステムで使用できる自己内蔵機能ユニットを指す。モジュールは、モジュールの機能を実施する一連のインストラクションを含み得る。モジュールは、データおよび/または情報を変換することができる。データおよび/または情報は、適する形態であり得る。例えば、データおよび/または情報は、デジタルまたはアナログであり得る。ある特定の実施形態では、データおよび/または情報は、時には、パケット、バイト、符号、またはビットであり得る。一部の実施形態では、データおよび/または情報は、任意の収集された、集積された、または使用可能なデータまたは情報であり得る。データおよび/または情報の非限定的な例として、適する媒体、画像、ビデオ、音声(例えば、周波数、可聴または非可聴)、番号、定数、値、物体、時間、機能、インストラクション、マップ、参照、配列、読取り、マッピングされた読取り、レベル、範囲、閾、シグナル、ディスプレイ、表示、またはそれらの変換物が挙げられる。モジュールは、データおよび/または情報を受け入れまたは受信し、データおよび/または情報を第2の形態に変換し、第2の形態をマシン、周辺機器、コンポーネント、または別のモジュールに提供または伝送することができる。モジュールは、1つまたは複数の下記の非限定的な機能を行うことができる:例えば、配列の読取りをマッピングする、カウントを提供する、部分を集積する、レベルを提供するまたは決定する、カウントプロファイルを提供する、正規化する(例えば、読取りを正規化する、カウントを正規化する等)、正規化されたカウントプロファイルまたは正規化されたカウントのレベルを提供する、2つまたはそれ超のレベルを比較する、不確実性値を得る、期待されるレベルおよび期待される範囲(例えば、期待されるレベル範囲、閾範囲、および閾レベル)を提供するまたは決定する、レベルに調整を施す(例えば、第1のレベルの調整、第2のレベルの調整、染色体もしくはそのセグメントのプロファイルの調整、および/またはパディング)、識別情報を提供する(例えば、コピー数の変動、遺伝子の変動、または異数性を同定する)、分類する、プロットする、および/またはアウトカムを決定する。マイクロプロセッサは、ある特定の実施形態では、モジュール内でインストラクションを実施することができる。一部の実施形態では、1つまたは複数のマイクロプロセッサは、モジュールまたはモジュール群内でインストラクションを実施するように要求される。モジュールは、データおよび/または情報を別のモジュール、マシン、またはソースに提供することができ、ならびにデータおよび/または情報を別のモジュール、マシン、またはソースから受信することができる。
【0478】
コンピュータプログラム産物は、実体的なコンピュータ可読媒体に組み入れる場合もあれば、また非一時的コンピュータ可読媒体に実体的に組み入れる場合もある。モジュールは、コンピュータ可読媒体(例えば、ディスク、ドライブ)上またはメモリ(例えば、ランダムアクセスメモリ)内に保管される場合もある。モジュールからのインストラクションを実施することができるモジュールおよびマイクロプロセッサは、あるマシン内または異なるマシン内に所在し得る。モジュールに関するインストラクションを実施することができるモジュールおよび/またはマイクロプロセッサは、ユーザーと同じ場所(例えば、ローカルネットワーク)、またはユーザーとは異なる場所(例えば、リモートネットワーク、クラウドシステム)に所在し得る。方法が、2つまたはそれ超のモジュールと併せて実施される複数の実施形態では、モジュールは、同一マシン内に所在してもよく、1つまたは複数のモジュールは、物理的な場所が同一である異なるマシン内に所在してもよく、1つまたは複数のモジュールは、物理的な場所が異なる、異なるマシン内に所在してもよい。
【0479】
マシンは、一部の実施形態では、モジュール内のインストラクションを実施する少なくとも1つのマイクロプロセッサを含む。参照ゲノムの部分に対してマッピングされた配列の読取りのカウントには、本明細書に記載する方法を実施するように構成されたインストラクションを実行するマイクロプロセッサからアクセスする場合がある。マイクロプロセッサがアクセスするカウントは、システムのメモリ内にあってもよく、カウントは、その取得後にアクセス可能およびシステムのメモリ内に配置可能である。一部の実施形態では、マシンはマイクロプロセッサ(例えば、1つまたは複数のマイクロプロセッサ)を含み、マイクロプロセッサは、モジュールからの1つまたは複数のインストラクション(例えば、プロセス、ルーチン、および/またはサブルーチン)を行うおよび/また実施することができる。一部の実施形態では、マシンは、並行同調作業型のマイクロプロセッサ(microprocessors coordinated and working in parallel)等の複数のマイクロプロセッサを含む。一部の実施形態では、装置は、1つまたは複数の外部マイクロプロセッサ(例えば、内部または外部のネットワーク、サーバー、保管デバイス、および/または保管ネットワーク(例えば、クラウド))と共に稼働する。一部の実施形態では、マシンはモジュールを含む。ある特定の実施形態では、マシンは、1つまたは複数のモジュールを含む。モジュールを含むマシンは、多くの場合、1つまたは複数のデータおよび/または情報を、他のモジュールから受信し、またそれに対して伝送することができる。ある特定の実施形態では、マシンは周辺機器および/またはコンポーネントを含む。ある特定の実施形態では、マシンは、データおよび/または情報を、他のモジュール、周辺機器、および/またはコンポーネントに対して、およびこれらから伝送することができる1つまたは複数の周辺機器またはコンポーネントを含み得る。ある特定の実施形態では、マシンは、データおよび/または情報を提供する周辺機器および/またはコンポーネントと相互作動する。ある特定の実施形態では、周辺機器およびコンポーネントは、マシンがある機能を実施するのを支援する、またはモジュールと直接相互作動する。周辺機器および/またはコンポーネントの非限定的な例として、適したコンピュータ周辺機器、I/Oもしくは保管方法、またはデバイス挙げられ、これにはスキャナー、プリンター、ディスプレイ(例えば、モニター、LED、LCT、またはCRT)、カメラ、マイクロフォン、パッド(例えば、ipad、タブレット)、タッチスクリーン、スマートフォン、携帯電話、USB I/Oデバイス、USB大容量記憶デバイス、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサ、サーバー、CD、DVD、グラフィックカード、特殊I/Oデバイス(例えば、シーケンサー、フォトセル、光電子増倍管、光学読取りマシン、センサー等)、1つまたは複数のフローセル、流体ハンドリングコンポーネント、ネットワークインターフェースコントローラー、ROM、RAM、無線転送方法およびデバイス(ブルートゥース、WiFi等)、ワールドワイドウェブ(www)、インターネット、コンピュータおよび/または別のモジュールが含まれるが、これらに限定されない。
【0480】
ソフトウェアは、多くの場合、コンピュータ可読媒体に記録されているプログラムインストラクションを含有するプログラム産物上に提供され、そのような媒体として、フロッピー(登録商標)ディスク、ハードディスク、および磁気テープを含む磁気媒体;ならびにCD−ROMディスク、DVDディスク、光磁気ディスクを含む光学式媒体、フラッシュドライブ、RAM、フロッピー(登録商標)ディスク等、およびプログラムインストラクションが記録可能である他のそのような媒体が挙げられるが、これらに限定されない。オンラインで実施する際には、組織により維持されるサーバーおよびウェブサイトは、ソフトウェアダウンロードをリモートユーザーに提供するように構成され得る、またはリモートユーザーは、組織により維持されるリモートシステムにアクセスして、遠隔的にソフトウェアにアクセスすることができる。ソフトウェアはインプット情報を取得または受信することができる。ソフトウェアは、データを具体的に取得または受信するモジュール(例えば、配列の読取りデータおよび/またはマッピングされた読取りデータを受信するデータ受信モジュール)を含み得、データを具体的に処理するモジュール(例えば、受信したデータを処理する処理モジュール(例えば、アウトカムおよび/またはレポートをフィルタリングする、正規化する、提供する))を含み得る。用語、インプット情報を「取得する」および「受信する」とは、ローカルもしくはリモートサイトからコンピュータコミュニケーション手段により、ヒトがデータ入力することにより、または任意の他のデータ受信方法により、データ(例えば、配列の読取り、マッピングされた読取り)を受信することを指す。インプット情報は、受信した場所と同一の場所で生成される場合もあれば、異なる場所で生成され、受信場所に送られる場合もある。一部の実施形態では、インプット情報は、処理される前に修正される(例えば、処理しやすいフォーマット(例えば、表形式)に配置される)。
【0481】
一部かの実施形態では、コンピュータプログラム産物、例えばコンピュータ可読プログラムコードを組み入れたコンピュータ使用可能媒体を含むコンピュータプログラム産物等が提供され、コンピュータ可読プログラムコードは、実行されたときに、下記ステップを含む方法を実施するように適合されている:(a)試験被験体から得た試料核酸の配列の読取りを取得するステップ;(b)(a)で得られた配列の読取りを公知のゲノムに対してマッピングするステップであって、公知のゲノムが部分に分割されているステップ;(c)部分内のマッピングされた配列の読取りをカウント計測するステップ;(d)(c)で得られた部分についてのカウントを正規化することにより、試料正規化カウントプロファイルを生成するステップ;および(e)(d)の試料正規化カウントプロファイルから遺伝子の変動の存在または非存在を決定するステップ。
【0482】
ある特定の実施形態では、ソフトウェアは1つまたは複数のアルゴリズムを含み得る。アルゴリズムは、データを処理するのに、および/または有限列のインストラクションにより、アウトカムまたはレポートを提供するのに使用できる。アルゴリズムは、多くの場合、タスクを完了するための規定されたインストラクションのリストである。初期状態から開始し、インストラクションは、規定された一連の連続した状態を経由して進行し、最終的に最終エンディング状態で終了する演算について記載し得る。1つの状態から次の状態への移行は必ずしも確定的ではない(例えば、一部のアルゴリズムには、偶然性を取り入れている)。例として、アルゴリズムは、非限定的にサーチアルゴリズム、ソーティングアルゴリズム、マージアルゴリズム、数値アルゴリズム、グラフアルゴリズム、ストリングアルゴリズム、モデリングアルゴリズム、計算幾何学アルゴリズム、コンビナトリアルアルゴリズム、機械学習アルゴリズム、クリプトグラフィーアルゴリズム、データ圧縮アルゴリズム、パージングアルゴリズム等であり得る。アルゴリズムは、1つのアルゴリズムまたは組み合わせて作業する2つもしくはそれ超のアルゴリズムを含み得る。アルゴリズムは、任意の適する複雑性クラス、および/またはパラメータ化された複雑性のものであってもよい。アルゴリズムは計算および/またはデータ処理するのに使用することができ、一部の実施形態では、確定的または確率的/予測的なアプローチで使用することができる。アルゴリズムは、適するプログラミング言語を使用することにより、演算環境内で実施可能であり、そのような言語の非限定的な例として、C、C++、Java(登録商標)、Perl、Python、Fortran等がある。一部の実施形態では、アルゴリズムは、許容誤差、統計分析、統計的有意性、および/または他の情報もしくはデータセットとの比較(例えば、ニューラルネットまたはクラスタリングアルゴリズムを使用する際に適用可能)を含むように構成または修正され得る。
【0483】
ある特定の実施形態では、いくつかのアルゴリズムが、ソフトウェア内で使用するために実施され得る。これらのアルゴリズムは、一部の実施形態では、未加工データを用いてトレーニング可能である。新しい未加工データ試料毎に、トレーニングされたアルゴリズムは、代表的な処理済みデータセットまたはアウトカムを生成し得る。処理済みのデータセットは、処理された親データセットと比較して複雑性が低減されたものの場合もある。処理済みのセットに基づき、一部の実施形態では、感度および特異性に基づきトレーニングされたアルゴリズムの性能を評価することができる。最高の感度および/または特異性を有するアルゴリズムが、ある特定の実施形態では、同定および利用され得る。
【0484】
ある特定の実施形態では、シミュレートした(またはシミュレーション)データが、例えばアルゴリズムをトレーニングするまたはアルゴリズムを試験することによりデータ処理を補助することができる。一部の実施形態では、シミュレートしたデータには、配列の読取りの異なるグルーピングの、仮想的な様々なサンプリングが含まれる。シミュレートしたデータでは、何が真の母集団から期待されか、またはアルゴリズムを試験する、および/または正しい分類を割り当てる際に何に歪みが生じ得るか、が基準となり得る。また、シミュレートしたデータは、本明細書では、「仮想」データとも呼ばれる。シミュレーションは、ある特定の実施形態では、コンピュータプログラムにより行われ得る。シミュレートしたデータセットを使用する際の1つの可能なステップは、確認された結果の信頼度を評価すること、例えばランダムサンプリングが、どのくらい良好にオリジナルデータと一致するか、またはオリジナルデータを最好に代表するか、評価することである。1つのアプローチは、確率値(p値)を計算することであり、この値は、ランダム試料が選択された試料より良好なスコアを有する確率を推定する。一部の実施形態では、経験的モデルが評価される場合があり、この場合、少なくとも1つの試料が参照試料と一致することを前提とする(分解変動(resolved variation)の有りまたは無しを問わない)。一部の実施形態では、例えばポアソン分布等の別の分布が、確率分布を規定するのに使用することができる。
【0485】
システムは、ある特定の実施形態では、1つまたは複数のマイクロプロセッサを含み得る。マイクロプロセッサは、コミュニケーションバスと接続され得る。コンピュータシステムは、メインメモリ、多くの場合ランダムアクセスメモリ(RAM)を含み得、二次メモリも含むことができる。一部の実施形態では、メモリは、非一時的コンピュータ可読記憶媒体を含む。二次メモリは、例えばハードディスクドライブおよび/またはリムーバブル記憶ドライブを含み得、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学式ディスクドライブ、メモリカード等がこれに該当し得る。リムーバブル記憶ドライブは、多くの場合、リムーバブルストレージユニットから読み取る、および/またはこれに書き込む。リムーバブルストレージユニットの非限定的な例として、フロッピー(登録商標)ディスク、磁気テープ、光学式ディスク等が挙げられ、例えばリムーバブル記憶ドライブにより、読取りおよび書き込み可能である。リムーバブルストレージユニットは、コンピュータソフトウェアおよび/またはデータを内蔵するコンピュータ使用可能記憶媒体を含み得る。
【0486】
マイクロプロセッサは、システム内でソフトウェアを実施可能である。一部の実施形態では、プロセッサは、ユーザーが行うことができる、本明細書に記載するタスクを自動的に行うようにプログラムされ得る。したがって、マイクロプロセッサまたはかかるマイクロプロセッサにより実施されるアルゴリズムは、ユーザーによる監視またはインプットを、ほとんどまたはまったく必要としないと考えられる(例えば、ソフトウェアは、機能を自動的に実施するようにプログラムされ得る)。一部の実施形態では、処理はあまりにも複雑であり、一人の個人であっても、また個人の群であっても、遺伝子の変動の存在または非存在を決定するのに十分短いタイムフレーム内で処理を行うことは不可能である。
【0487】
一部の実施形態では、二次メモリは、コンピュータプログラムまたは他のインストラクションをコンピュータシステムにロードできるようにするために、他の類似した手段を含み得る。例えば、システムは、リムーバブルストレージユニットおよびインターフェースデバイスを含み得る。かかるシステムの非限定的な例として、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲームデバイスに見出されるもの等)、リムーバブルメモリチップ(EPROMまたはPROM等)、および関連するソケット、ならびにソフトウェアおよびデータをリムーバブルストレージユニットからコンピュータシステムに伝送できるようにする、他のリムーバブルストレージユニットおよびインターフェースが挙げられる。
【0488】
一部の実施形態では、1つの実体は、配列の読取りのカウントを生成すること、配列の読取りを部分に対してマッピングすること、マッピングされた読取りをカウント計測すること、およびカウントが計測されマッピングされた読取りを、本明細書に記載する方法、システム、マシン、装置、またはコンピュータプログラム産物において利用することができる。ある特定の実施形態では、部分に対してマッピングされた配列の読取りのカウントは、本明細書に記載する方法、システム、マシン、装置、またはコンピュータプログラム産物において、第2の実体が使用するために、1つの実体により、第2の実体に伝送される場合もある。
【0489】
一部の実施形態では、1つの実体は配列の読取りを生成し、一部の実施形態では、第2の実体はその配列の読取りを参照ゲノム内の部分に対してマッピングする。第2の実体は、マッピングされた読取りをカウント計測し、カウントが計測されマッピングされた読取りを、本明細書に記載する方法、システム、マシン、またはコンピュータプログラム産物において利用する場合がある。ある特定の実施形態では、第2の実体は、マッピングされた読取りを第3の実体に伝送し、第3の実体は、マッピングされた読取りをカウント計測し、マッピングされた読取りを、本明細書に記載する方法、システム、マシン、またはコンピュータプログラム産物において利用する。ある特定の実施形態では、第2の実体は、マッピングされた読取りをカウント計測し、カウントが計測されマッピングされた読取りを第3の実体に伝送し、第3の実体は、カウントが計測されマッピングされた読取りを、本明細書に記載する方法、システム、マシン、またはコンピュータプログラム産物において利用する。第3の実体が関与する実施形態では、第3の実体は、第1の実体と同一である場合もある。すなわち、第1の実体は、配列の読取りを第2の実体に伝送する場合があり、この第2の実体は、参照ゲノム内の部分に対して配列の読取りをマッピングする、および/またはマッピングされた読取りをカウント計測することができ、第2の実体は、マッピングされおよび/またはカウントが計測された読取りを第3の実体に伝送することができる。第3の実体は、マッピングされおよび/またはカウントが計測された読取りを本明細書に記載する方法、システム、マシン、またはコンピュータプログラム産物において利用することができる場合もあり、この場合、第3の実体は第1の実体と同一である場合もあれば、第3の実体は第1または第2の実体とは異なる場合もある。
【0490】
一部の実施形態では、1つの実体は、妊娠中の雌から血液を取得し、任意選択で血液から(例えば、血漿または血清から)核酸を単離し、核酸から配列の読取りを生成する第2の実体に血液または核酸を移送する。
【0491】
図24は、本明細書に記載する様々なシステム、方法、アルゴリズム、およびデータ構造の実施が可能である演算環境510の非限定的な例を示す。演算環境510は、適する演算環境の1つの例に過ぎず、本明細書に記載するシステム、方法、およびデータ構造の使用の範囲または機能性について何らかの制限を示唆するようには意図されない。また、演算環境510は、演算環境510に示すコンポーネントの任意の1つまたはその組合せと関連する何らかの依存性または要件を有するものと解釈してはならない。
図24に示すシステム、方法、およびデータ構造のサブセットは、ある特定の実施形態で利用可能である。本明細書に記載するシステム、方法、およびデータ構造は、非常に多くの他の汎用または専用の演算システム環境またはコンフィギュレーションと共に運用可能である。適すると考えられる公知の演算システム、環境、および/またはコンフィギュレーションの例として、パーソナルコンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、携帯式またはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサに基づくシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを含む分散型演算環境等が挙げられるが、これらに限定されない。
【0492】
図24のオペレーティング環境510はコンピュータ520の形態の汎用演算デバイスを含み、これには、処理ユニット521、システムメモリ522、およびシステムメモリ522を含む様々なシステムコンポーネントを処理ユニット521に作動可能に連結させるシステムバス523が含まれる。コンピュータ520のマイクロプロセッサが、単一の中央処理装置(CPU)または並列処理環境と一般的に呼ばれる複数の処理ユニットを含むように、処理ユニット521は1つのみ存在し得る、または1つ超存在し得る。コンピュータ520は、従来型コンピュータ、分散型コンピュータ、またはあらゆる他の種類のコンピュータであり得る。
【0493】
システムバス523は、メモリバスまたはメモリコントローラー、周辺バス、および様々なバスアーキテクチャーのいずれかを使用するローカルバスを含む、任意の数種類のバス構造であり得る。また、システムメモリは、単にメモリと呼ばれる場合もあり、リードオンリメモリ(ROM)524およびランダムアクセスメモリ(RAM)を含む。立ち上げの間等に、コンピュータ520内のエレメント間の情報伝送に役立つ基本ルーチンを含む基本入出力システム(BIOS)526は、ROM524に保管される。コンピュータ520は、図示しないがハードディスクから読み出し、これに書き込むハードディスクドライブインターフェース527、リムーバブル磁気ディスク529から読み出し、これに書き込む磁気ディスクドライブ528、およびリムーバブル光学式ディスク531、例えばCD ROMまたは他の光学式媒体から読み出し、これに書き込む光学式ディスクドライブ530をさらに含み得る。
【0494】
ハードディスクドライブ527、磁気ディスクドライブ528、および光学式ディスクドライブ530は、ハードディスクドライブインターフェース532、磁気ディスクドライブインターフェース533、および光学式ディスクドライブインターフェース534により、システムバス523とそれぞれ接続される。ドライブおよびその関連するコンピュータ可読媒体は、コンピュータ可読インストラクション、データ構造、プログラムモジュール、およびコンピュータ520用の他のデータの不揮発性の保管を提供する。コンピュータがアクセス可能なデータを保管することができる、あらゆる種類のコンピュータ可読媒体、例えば磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)等が、オペレーティング環境内で使用することができる。
【0495】
いくつかのプログラムモジュールが、オペレーティングシステム535、1つまたは複数のアプリケーションプログラム536、他のプログラムモジュール537、およびプログラムデータ538を含む、ハードディスク、磁気ディスク529、光学式ディスク531、ROM524、またはRAM上に保管され得る。ユーザーは、コマンドおよび情報を、インプットデバイス、例えばキーボード540およびポインティングデバイス542を通じてパーソナルコンピュータ520に入力することができる。他のインプットデバイス(図示せず)として、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディシュ、スキャナー等を挙げることができる。これらおよび他のインプットデバイスが、多くの場合、システムバスに連結したシリアルポートインターフェース546を経由して処理ユニット521と接続されるが、他のインターフェース、例えばパラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)により接続される場合もある。モニター547または他の種類のディスプレイデバイスも、インターフェース、例えばビデオアダプター548を介してシステムバス523と接続される。モニターに加えて、コンピュータは、他の周辺アウトプットデバイス(図示せず)、例えばスピーカーおよびプリンターを一般的に含む。
【0496】
コンピュータ520は、1つまたは複数のリモートコンピュータ、例えばリモートコンピュータ549との論理接続を使用して、ネットワーク化した環境内で作動可能である。これらの論理接続は、コンピュータ520もしくはその一部と連結しているコミュニケーションデバイスにより、または他の方式で達成され得る。
図24ではメモリストレージデバイス550しか示さなかったが、リモートコンピュータ549は、別のコンピュータ、サーバー、ルーター、ネットワークPC、クライアント、ピアデバイス、もしくは他の一般的なネットワークノードであり得、コンピュータ520と関連して上記エレメントの多くまたは全てを一般的に含む。
図24に示す論理接続として、ローカルエリアネットワーク(LAN)551およびワイドエリアネットワーク(WAN)552が挙げられる。かかるネットワーク環境は、オフィスネットワーク、企業全体のコンピュータネットワーク、イントラネット、およびインターネットでは普通であり、そのいずれも典型的なネットワークである。
【0497】
LAN−ネットワーク環境で使用する場合、コンピュータ520は、コミュニケーションデバイスの一種であるネットワークインターフェースまたはアダプター553を介してローカルネットワーク551と接続される。WAN−ネットワーク環境で使用する場合、コンピュータ520は、多くの場合、コミュニケーションデバイスの一種であるモデム554、またはワイドエリアネットワーク552全体にわたりコミュニケーションを確立するために他の任意の種類のコミュニケーションデバイスを含む。モデム554は、内部または外部であってもよいが、シリアルポートインターフェース546を介してシステムバス523と接続される。ネットワーク化された環境では、パーソナルコンピュータ520またはその一部と関連して示されるプログラムモジュールは、リモートメモリストレージデバイス内に保管され得る。示すようなネットワーク接続は非限定的な例であり、またコンピュータ間のコミュニケーションリンクを確立するための他のコミュニケーションデバイスも使用することができると認識される。
モジュール
【0498】
1つまたは複数のモジュールが本明細書に記載する方法で利用可能であり、その非限定的な例として、論理処理モジュール、データディスプレイ組織化モジュール、配列決定モジュール、マッピングモジュール、カウント計測モジュール、フィルタリングモジュール、重み付けモジュール、正規化モジュール、GC偏りモジュール、レベルモジュール、比較モジュール、範囲設定モジュール、分類モジュール、調整モジュール、プロッティングモジュール、表示モジュール、関係モジュール、アウトカムモジュール、および/またはデータディスプレイ組織化モジュール等、またはその組み合わせが挙げられる。モジュールは、マイクロプロセッサにより管理される場合もある。ある特定の実施形態では、モジュールまたは1つもしくは複数のモジュールを含むマシンは、別のモジュール、マシン、コンポーネント、周辺機器、またはマシンのオペレーターに、またはそれらから、データおよび/または情報を収集、集積、受信、取得、アクセス、回収、提供、および/または伝送する。一部の実施形態では、データおよび/または情報(例えば、配列決定の読取り)は、下記の1つまたは複数を含むマシンによりモジュールに提供される:1つまたは複数のフローセル、カメラ、検出器(例えば、光検出器、フォトセル、電気的検出器(例えば、振幅変調検出器、周波数および位相変調検出器、位相ロックループ検出器)、カウンター、センサー(例えば、圧力、温度、容積、フロー、重量のセンサー)、流体ハンドリングデバイス、プリンター、ディスプレイ(例えば、LED、LCT、またはCRT)等またはその組合せ。例えば、マシンのオペレーターは、定数、閾値、式、または所定の値をモジュールに提供する場合もある。モジュールは、多くの場合、データおよび/または情報を、別のモジュールもしくはマシンに、またはそれから伝送するように構成される。モジュールは、別のモジュールからデータおよび/または情報を受信することができ、その非限定的な例として、論理処理モジュール、データディスプレイ組織化モジュール、配列決定モジュール、マッピングモジュール、カウント計測モジュール、フィルタリングモジュール、重み付けモジュール、正規化モジュール、GC偏りモジュール、レベルモジュール、比較モジュール、範囲設定モジュール、分類モジュール、調整モジュール、プロッティングモジュール、表示モジュール、関係モジュール、アウトカムモジュール、および/またはデータディスプレイ組織化モジュール等またはその組合せが挙げられる。モジュールは、データおよび/または情報を操作および/または変換することができる。モジュールに由来する、またはモジュールにより変換されたデータおよび/または情報は、別の適するマシンおよび/またはモジュールに伝送することができ、その非限定的な例として、論理処理モジュール、配列決定モジュール、マッピングモジュール、カウント計測モジュール、フィルタリングモジュール、重み付けモジュール、正規化モジュール、GC偏りモジュール、レベルモジュール、比較モジュール、範囲設定モジュール、分類モジュール、プロッティングモジュール、表示モジュール、関係モジュール、アウトカムモジュール、および/またはデータディスプレイ組織化モジュール等またはその組合せが挙げられる。モジュールを含むマシンは、少なくとも1つのマイクロプロセッサを含み得る。一部の実施形態では、データおよび/または情報は、モジュールを含むマシンにより受信および/または提供される。モジュールを含むマシンは、マイクロプロセッサを含むことができ(例えば、1つまたは複数のマイクロプロセッサ)、そのようなマイクロプロセッサは、モジュールの1つまたは複数のインストラクション(例えば、プロセス、ルーチン、および/またはサブルーチン)を行うおよび/または実施することができる。一部の実施形態では、モジュールは、1つまたは複数の外部マイクロプロセッサ(例えば、内部または外部のネットワーク、サーバー、ストレージデバイス、および/またはストレージネットワーク(例えば、クラウド))と共に作動する。
論理処理モジュール
【0499】
ある特定の実施形態では、論理処理モジュールは、データおよび/もしくは情報を、またはデータおよび/もしくは情報の、1つもしくは複数のその他のモジュール、周辺機器、もしくはデバイスへの、およびそれからの伝送を、統合、管理、制限、組織化、命令、分配、分割、変換、および/もしくは制御する。
データディスプレイ組織化モジュール
【0500】
ある特定の実施形態では、データディスプレイ組織化モジュールは、データおよび/または情報を適する可視的媒体へと処理および/または変換するが、その媒体の非限定的な例として、画像、ビデオおよび/またはテキスト(例えば、数字、文字、およびシンボル)が挙げられる。一部の実施形態では、データディスプレイ組織化モジュールは、適するディスプレイ(例えば、モニター、LED、LCD、CRT等、またはその組合せ)、プリンター、適する周辺機器、またはデバイス上に表示するために、データおよび/または情報を、処理、変換、および/または伝送する。一部の実施形態では、データディスプレイ組織化モジュールは、胎児または母体のゲノム、染色体、またはその一部分のデータおよび/または情報を可視的表示に処理、変換する。
配列決定モジュール
【0501】
一部の実施形態では、配列モジュールは、配列の読取りを取得、生成、収集、集積、操作、変換、処理、変換、および/または伝送する。「配列受信モジュール」は、本明細書で使用する場合、「配列決定モジュール」と同じである。配列決定モジュールを含むマシンは、当技術分野において公知の配列決定技術を利用して核酸の配列を決定するあらゆるマシンであり得る。一部の実施形態では、配列決定モジュールは、配列の読取りを整列、集積、断片化、相補、逆相補、エラーチェック、またはエラー修正することができる。
マッピングモジュール
【0502】
配列の読取りは、マッピングモジュールにより、またはマッピングモジュールを含むマシンによりマッピング可能であり、このマッピングモジュールは、一般的に、参照ゲノムまたはそのセグメントに対して読取りをマッピングする。マッピングモジュールは、配列決定の読取りを、当技術分野において公知の適する方法によりマッピング可能である。一部の実施形態では、マッピングモジュールまたはマッピングモジュールを含むマシンは、マッピングされた配列の読取りを提供するように要求される。
カウント計測モジュール
【0503】
カウントは、カウント計測モジュールまたはカウント計測モジュールを含むマシンにより提供され得る。一部の実施形態では、カウント計測モジュールは、参照ゲノムに対してマッピングされた配列の読取りをカウント計測する。一部の実施形態では、カウント計測モジュールは、当技術分野において公知のカウント計測法により、カウントを生成、集積、および/または提供する。一部の実施形態では、カウント計測モジュールまたはカウント計測モジュールを含むマシンは、カウントを提供するように要求される。
フィルタリングモジュール
【0504】
フィルタリング部分(例えば、参照ゲノムの部分)は、フィルタリングモジュールにより(例えば、フィルタリングモジュールを含むマシンにより)提供され得る。一部の実施形態では、フィルタリングモジュールは、フィルタリングされた部分のデータ(例えば、フィルタリングされた部分)を提供する、および/または検討事項から部分を除去するように要求される。ある特定の実施形態では、フィルタリングモジュールは、部分に対してマッピングされたカウントを検討事項から除去する。ある特定の実施形態では、フィルタリングモジュールは、部分に対してマッピングされたカウントを、レベルまたはプロファイルの決定から除去する。フィルタリングモジュールは、当技術分野において公知の、または本明細書に記載する1つまたは複数のフィルタリング法により、データ(例えば、カウント、部分に対してマッピングされたカウント、部分、部分のレベル、正規化されたカウント、未加工のカウント等)をフィルタリングすることができる。
重み付けモジュール
【0505】
重み付け部分(例えば、参照ゲノムの部分)は、重み付けモジュールにより(例えば、重み付けモジュールを含むマシンにより)提供され得る。一部の実施形態では、重み付けモジュールは、ゲノム区分を重み付けする、および/または重み付けされた部分の値を提供するように要求される。重み付けモジュールは、当技術分野において公知の、または本明細書に記載する1つまたは複数の重み付け法により、部分を重み付けすることができる。
正規化モジュール
【0506】
正規化されたデータ(例えば、正規化されたカウント)は、正規化モジュールにより(例えば、正規化モジュールを含むマシンにより)提供され得る。一部の実施形態では、正規化モジュールは、配列決定の読取りから得られた正規化されたデータ(例えば、正規化されたカウント)を提供するように要求される。正規化モジュールは、本明細書に記載する、または当技術分野において公知の1つまたは複数の正規化法(例えば、PERUN、ハイブリッド式の正規化等またはその組合せ)により、データ(例えば、カウント、フィルタリングされたカウント、未加工のカウント)を正規化することができる。
GC偏りモジュール
【0507】
GCの偏りを決定すること(例えば、参照ゲノムの部分(例えば、部分、参照ゲノムの部分)のそれぞれについてGCの偏りを決定すること)は、GC偏りモジュールにより(例えば、GC偏りモジュールを含むマシンにより)提供され得る。一部の実施形態では、GC偏りモジュールは、GCの偏りの決定を提供するように要求される。一部の実施形態では、GC偏りモジュールは、参照ゲノムの部分のそれぞれに対してマッピングした配列の読取りのカウントと各部分のGC含有量との間で適合させた関係(例えば、線形適合関係)からGCの偏りの決定を提供する。GC偏りモジュールは、正規化モジュール(例えば、PERUN正規化モジュール)の一部分である場合もある。
レベルモジュール
【0508】
参照ゲノムの部分についてレベル(例えば、レベル)を決定すること、および/またはゲノム区分のレベルを計算することプは、レベルモジュールにより(例えば、レベルモジュールを含むマシンにより)提供され得る。一部の実施形態では、レベルモジュールは、レベルまたは計算されたゲノム区分のレベル(例えば、等式A、B、L、M、N、O、および/またはQによる)を提供するように要求される。一部の実施形態では、レベルモジュールは、GCの偏りと参照ゲノムの部分のそれぞれに対してマッピングした配列の読取りのカウントとの間で適合させた関係(例えば、線形適合関係)からレベルを提供する。一部の実施形態では、レベルモジュールは、PERUNの一部分としてゲノム区分のレベルを計算する。一部の実施形態では、レベルモジュールは、等式L
i=(m
i−G
iS)I
−1により、ゲノム区分のレベル(すなわち、L
i)を提供し、式中G
iはGCの偏り、m
iは参照ゲノムの各部分に対してマッピングした測定カウントであり、iは試料であり、Iは、GCの偏りと参照ゲノムの部分のそれぞれに対してマッピングした配列の読取りのカウントとの間で適合させた関係(例えば、線形適合関係)の切片、Sは、それの勾配である。
比較モジュール
【0509】
第1のレベルは、比較モジュールまたは比較モジュールを含むマシンにより、第2のレベルとは有意に異なるものとして同定され得る。一部の実施形態では、比較モジュールまたは比較モジュールを含むマシンは、2つレベル間の比較を提供するように要求される。
範囲設定モジュール
【0510】
様々なコピー数の変動(例えば、重複、挿入、および/または欠失)に関する期待される範囲(例えば、期待されるレベル範囲)、またはコピー数の変動が存在しない範囲は、範囲設定モジュールまたは範囲設定モジュールを含むマシンにより提供され得る。ある特定の実施形態では、期待されるレベルは、範囲設定モジュールまたは範囲設定モジュールを含むマシンにより提供される。一部の実施形態では、範囲設定モジュールまたは範囲設定モジュールを含むマシンは、期待されるレベルおよび/または範囲を提供するように要求される。
分類モジュール
【0511】
コピー数の変動(例えば、母体および/または胎児のコピー数の変動、胎児のコピー数の変動、重複、挿入、欠失)は、分類モジュールまたは分類モジュールを含むマシンにより分類され得る。ある特定の実施形態では、コピー数の変動(例えば、母体および/または胎児のコピー数の変動)は、分類モジュールにより分類される。ある特定の実施形態では、別のレベル(例えば、第2のレベル)とは有意に異なると決定されたレベル(例えば、第1のレベル)は、分類モジュールによりコピー数の変動を表わすものとして同定される。ある特定の実施形態では、コピー数の変動の非存在が分類モジュールにより決定される。一部の実施形態では、コピー数の変動の決定は、分類モジュールを含むマシンにより決定され得る。分類モジュールは、母体および/または胎児のコピー数の変動、胎児のコピー数の変動、重複、欠失、または挿入もしくはその欠如、または上記のものの組合せを分類することに特化し得る。例えば、母体の欠失を同定する分類モジュールは、胎児の重複を同定する分類モジュールとは異なるおよび/または相違し得る。一部の実施形態では、分類モジュールまたは分類モジュールを含むマシンは、コピー数の変動を同定すること、またはコピー数の変動を決定するアウトカムが要求される。
【0512】
調整モジュール
一部の実施形態では、レベルの調整(例えば、ゲノム区分のレベル、プロファイルのレベル、コピー数の変動のレベル、1つもしくは複数の部分のレベルなど、またはこれらの組合せに対する調整)は、調整モジュールまたは調整モジュールを含むマシンにより行う。一部の実施形態では、調整モジュールまたは調整モジュールを含むマシンは、レベルを調整するように要求される。本明細書で記載される方法により調整されたレベルは、さらなる試験により(例えば、母体核酸および/または胎児核酸の標的化配列決定により)、独立に確認および/または調整することができる。
プロッティングモジュール
【0513】
一部の実施形態では、プロッティングモジュールは、データおよび/または情報を適する可視的媒体へと処理および/または変換するが、その非限定的な例として、チャート、プロット、グラフ等またはその組合せが挙げられる。一部の実施形態では、プロッティングモジュールは、適するディスプレイ(例えば、モニター、LED、LCD、CRT等またはその組合せ)、プリンター、適する周辺機器、またはデバイス上に表示するために、データおよび/または情報を処理、変換、および/または伝送する。ある特定の実施形態では、プロッティングモジュールは、カウント、レベル、および/またはプロファイルのビジュアルディスプレイを提供する。一部の実施形態では、データディスプレイ組織化モジュールが、データおよび/または情報を、胎児または母体のゲノム、染色体、またはその一部分について、可視的表示へと処理、変換する。
【0514】
一部の実施形態では、プロッティングモジュールまたはプロッティングモジュールを含むマシンは、カウント、レベル、またはプロファイルをプロットするように要求される。
関係モジュール
【0515】
ある特定の実施形態では、関係モジュールが、データおよび/または情報を、関係へと処理および/または変換する。ある特定の実施形態では、関係は、関係モジュールにより生成されるおよび/またはこれから伝送される。
アウトカムモジュール
【0516】
遺伝子の変動の存在または非存在(異数性、胎児の異数性、コピー数の変動)は、一部の実施形態では、アウトカムモジュールまたはアウトカムモジュールを含むマシンにより同定される。ある特定の実施形態では、遺伝子の変動は、アウトカムモジュールにより同定される。多くの場合、異数性の存在または非存在の決定は、アウトカムモジュールにより同定される。一部の実施形態では、遺伝子の変動(異数性、コピー数の変動)の決定因のアウトカムは、アウトカムモジュールまたはアウトカムモジュールを含むマシンにより同定され得る。アウトカムモジュールは、特異的な遺伝子の変動(例えば、トリソミー、トリソミー21、トリソミー18)の決定に特化し得る。例えば、トリソミー21を同定するアウトカムモジュールは、トリソミー18を同定するアウトカムモジュールとは異なるおよび/または相違し得る。一部の実施形態では、アウトカムモジュールまたはアウトカムモジュールを含むマシンは、遺伝子の変動または遺伝子の変動の決定因のアウトカム(例えば、異数性、コピー数の変動)を同定するように要求される。本明細書に記載する方法により同定される遺伝子の変動または遺伝子の変動の決定因のアウトカムは、さらなる試験により(例えば、母体および/または胎児の核酸の標的化配列決定法により)独立して確かめ得る。
変換
【0517】
上記のように、データは1つの形態から別の形態に変換される場合もある。用語「変換された」、「変換」、およびその文法的な派生物または同等物は、本明細書で使用する場合、身体の出発材料(例えば、試験被験体および/または参照被験体試料の核酸)から身体の出発材料のデジタル表示(例えば、配列の読取りデータ)へのデータの変更を指し、一部の実施形態では、アウトカム(例えば、胎児フラクションの決定または試験試料の推定)を提供するのに利用できる1つもしくは複数の数値への、またはデジタル表示の図形表示へのさらなる変換を含む。ある特定の実施形態では、1つまたは複数の数値および/またはデジタル的に表示されたデータの図形表示は、試験被験体の身体のゲノムの状況を表すのに利用できる(例えば、ゲノムの挿入、重複、または欠失の存在または非存在を仮想的に表すまたは可視的に表す;医学的状態と関連した配列の物理量の変動の存在または非存在を表す)。仮想表示は、1つもしくは複数の数値、または出発材料のデジタル表示の図形表示にさらに変換される場合もある。これらの方法は、身体の出発材料を、数値もしくは図形表示に、または試験被験体ゲノムの物理的状況表示に変換することができる。
【0518】
一部の実施形態では、データセットを変換すると、データの複雑性および/またはデータの次元数が低減し、これによりアウトカムの提供が容易になる。データセットの複雑性は、身体の出発材料を出発材料の仮想表示に変換する処理の間に低減する場合もある(例えば、身体の出発材料を表わす配列の読取り)。適する特性または変数が、データセットの複雑性および/または次元数を低減するのに利用できる。データ処理するための標的特性として使用するのに選択できる特性の非限定的な例として、GC含有量、胎児の性別予測、断片サイズ(CCF断片の長さ、読取りまたはその適切な表示)染色体異数性の同定、特定の遺伝子またはタンパク質の同定、がん、疾患、遺伝性の遺伝子/特性、染色体異常の同定、生物学的カテゴリー、化学的カテゴリー、生化学的カテゴリー、遺伝子またはタンパク質のカテゴリー、遺伝子オントロジー、タンパク質オントロジー、共制御された遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、上記遺伝子に関連するタンパク質、遺伝子変異体、タンパク質変異体、共制御された遺伝子、共制御されたタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データ等、および上記のものの組合せが挙げられる。データセットの複雑性および/または次元数の低減に関する非限定的な例として;複数の配列読取りをプロファイルプロットに低減化すること、複数の配列読取りを数値に低減化すること(例えば、値、Zスコア、p値の正規化);複数の分析方法を確率プロットまたは単一ポイントに低減化すること;導き出された数量の主成分分析等、またはその組合せが挙げられる。
【0519】
ある特定のシステム、マシン、およびコンピュータプログラム産物の実施形態
ある特定の態様では、遺伝子の変動の存在または非存在を決定するための、コンピュータにより実施される方法であって、(a)参照ゲノムのゲノム区分へとマッピングしたヌクレオチド配列の読取りのカウントを得るステップであって、配列の読取りが、(i)妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取り、および(ii)選択された断片の長さ未満の長さを有する核酸断片に由来する読取りである、ステップと、(b)カウントを正規化し、これにより、ゲノム区分へとマッピングした配列の読取りの正規化されたカウントを生成するステップと、(c)遺伝子の変動の存在または非存在を、正規化されたカウントに従って決定するステップとを含む方法が提供される。
【0520】
ある特定の態様ではまた、1つまたは複数のマイクロプロセッサおよびメモリを含むシステムであって、メモリが、1つまたは複数のマイクロプロセッサにより実行可能な命令を含み、メモリが、参照ゲノムのゲノム区分へとマッピングしたヌクレオチド配列の読取りのカウントを含み、配列の読取りが、(i)妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取り、および(ii)選択された断片の長さ未満の長さを有する核酸断片に由来する読取りであり、1つまたは複数のマイクロプロセッサにより実行可能な命令が、(a)カウントを正規化し、これにより、ゲノム区分へとマッピングした配列の読取りの正規化されたカウントを生成し、(b)遺伝子の変動の存在または非存在を、正規化されたカウントに従って決定するように構成されている、システムも提供される。
【0521】
ある特定の態様ではまた、1つまたは複数のマイクロプロセッサおよびメモリを含むマシンであって、メモリが、1つまたは複数のマイクロプロセッサにより実行可能な命令を含み、メモリが、参照ゲノムのゲノム区分へとマッピングしたヌクレオチド配列の読取りのカウントを含み、配列の読取りが、(i)妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取り、および(ii)選択された断片の長さ未満の長さを有する核酸断片に由来する読取りであり、1つまたは複数のマイクロプロセッサにより実行可能な命令が、(a)カウントを正規化し、これにより、ゲノム区分へとマッピングした配列の読取りの正規化されたカウントを生成し、(b)遺伝子の変動の存在または非存在を、正規化されたカウントに従って決定するように構成されている、マシンも提供される。
【0522】
ある特定の実施形態ではまた、コンピュータ可読媒体上で実体的に組み入れたコンピュータプログラム産物であって、1つまたは複数のマイクロプロセッサにより実行されると、(a)参照ゲノムのゲノム区分へとマッピングしたヌクレオチド配列の読取りのカウントにアクセスし、配列の読取りが、(i)妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取り、および(ii)選択された断片の長さ未満の長さを有する核酸断片に由来する読取りであり、(b)カウントを正規化し、これにより、ゲノム区分へとマッピングした配列の読取りの正規化されたカウントを生成し、(c)遺伝子の変動の存在または非存在を、正規化されたカウントに従って決定するように構成されている命令を含む、コンピュータプログラム産物も提供される。
【0523】
本明細書ではまた、1つまたは複数のマイクロプロセッサおよびメモリを含むシステムであって、メモリが、1つまたは複数のマイクロプロセッサにより実行可能な命令を含み、メモリが、参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りを含み、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、1つまたは複数のマイクロプロセッサにより実行可能な命令が、(a)マイクロプロセッサを使用して、(i)各部分へとマッピングした配列の読取りのカウント、または(ii)他の部分特異的パラメータを、部分特異的な胎児核酸のフラクションへと、各部分と独立に関連する重み付け係数に従って重み付けし、これにより、部分特異的胎児フラクションの推定値を、重み付け係数に従って提示し、ここで、重み付け係数の各々が、(i)複数の試料の各々についての胎児核酸のフラクションと、(ii)複数の試料についての、各部分へとマッピングした配列の読取りのカウント、または他の部分特異的パラメータとの、各部分について適合させた関係から決定されており、(b)胎児核酸のフラクションを、試験試料について、部分特異的胎児フラクションの推定値に基づき推定するように構成されている、システムも提供される。
【0524】
本明細書ではまた、1つまたは複数のマイクロプロセッサおよびメモリを含むマシンであって、メモリが、1つまたは複数のマイクロプロセッサにより実行可能な命令を含み、メモリが、参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りを含み、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、1つまたは複数のマイクロプロセッサにより実行可能な命令が、(a)マイクロプロセッサを使用して、(i)各部分へとマッピングした配列の読取りのカウント、または(ii)他の部分特異的パラメータを、部分特異的な胎児核酸のフラクションへと、各部分と独立に関連する重み付け係数に従って重み付けし、これにより、部分特異的胎児フラクションの推定値を、重み付け係数に従って提示し、ここで、重み付け係数の各々が、(i)複数の試料の各々についての胎児核酸のフラクションと、(ii)複数の試料についての、各部分へとマッピングした配列の読取りのカウント、または他の部分特異的パラメータとの、各部分について適合させた関係から決定されており、(b)胎児核酸のフラクションを、試験試料について、部分特異的胎児フラクションの推定値に基づき推定するように構成されている、マシンも提供される。
【0525】
本明細書ではまた、実行可能なプログラムをその上に内蔵した非一時的なコンピュータ可読記憶媒体であって、プログラムが、マイクロプロセッサに、以下を行う:(a)参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りにアクセスし、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、(b)マイクロプロセッサを使用して、(i)各部分へとマッピングした配列の読取りのカウント、または(ii)他の部分特異的パラメータを、部分特異的な胎児核酸のフラクションへと、各部分と独立に関連する重み付け係数に従って重み付けし、これにより、部分特異的胎児フラクションの推定値を、重み付け係数に従って提示し、ここで、重み付け係数の各々が、(i)複数の試料の各々についての胎児核酸のフラクションと、(ii)複数の試料についての、各部分へとマッピングした配列の読取りのカウント、または他の部分特異的パラメータとの、各部分について適合させた関係から決定されており、(c)胎児核酸のフラクションを、試験試料について、部分特異的胎児フラクションの推定値に基づき推定するように命令する、非一時的なコンピュータ可読記憶媒体も提供される。
【0526】
ある特定の実施形態では、システム、マシン、および/または、コンピュータプログラム産物は、参照ゲノムのゲノム区分またはその部分(例えば、ゲノム区分のサブセット、ゲノム区分の選択されたセット)へとマッピングした読取りをカウントするように構成されているカウント計測モジュールを含む。カウント計測モジュールは、選択された断片の長さ未満の長さを有する核酸断片に由来する読取りをカウントするように構成されていることが多い。カウントは、場合によって、未加工のカウント、フィルタリングされたカウント、正規化されたカウント、または前出の組合せである。一部の実施形態では、カウント計測モジュールにより、例えば、本明細書で記載されるまたは当技術分野で公知の、任意の適切な正規化処理を使用して、カウントを正規化することができる。
【0527】
一部の実施形態では、システム、マシン、および/または、コンピュータプログラム産物は、カウント比較モジュールを含む。カウント比較モジュールは、カウント計測モジュールによりカウントされた読取りのカウント数を比較し、これにより、カウントの比較を行うように構成されていることが多い。カウント比較モジュールは、読取りのカウント(例えば、カウント計測モジュールまたは正規化モジュールに由来する)にアクセスし、これを受信し、これを活用し、これを保存し、これを検索し、かつ/またはこれを整列させるように構成されていることが多い。カウント比較モジュールは、その比較の非限定的な例が、単純な比較(例えば、第2のゲノム区分のセットと比較した、第1のゲノム区分のセットへとマッピングした読取りのカウントの間の一致または不一致)、数学的比較(例えば、比、百分率)、統計学的比較(例えば、複数の比較、複数の検定、標準化(例えば、zスコア分析))など、およびこれらの組合せを含む、カウントの間の適切な比較をもたらすように構成されていることが多い。適切なカウントの比較値は、その非限定的な例が、カウント、比、百分率、zスコア、分散または不確定性(例えば、標準偏差、中央値の絶対偏差、信頼区間)の尺度を加味した値など、およびこれらの組合せの間の一致の存在または非存在を含む、カウント比較モジュールによりもたらすことができる。カウント比較モジュールは、場合によって、比較値を、例えば、遺伝子変動モジュール、ディスプレイマシン、またはプリンターマシンなど、別のモジュールまたはマシンへと伝送するように構成されている。
【0528】
ある特定の実施形態では、システム、マシン、および/または、コンピュータプログラム産物は、遺伝子変動モジュールを含む。遺伝子変動モジュールは、場合によって、参照ゲノムのゲノム区分へとマッピングした読取りのカウントに従って、遺伝子の変動の存在または非存在の決定をもたらすように構成されている。遺伝子変動モジュールは、場合によって、カウントの比較に従って、遺伝子の変動の存在または非存在の決定をもたらすように構成されている。遺伝子変動モジュールは、カウント比較モジュールに由来する1つまたは複数の比較および/またはカウント計測モジュールに由来するカウントにアクセスし、これを受信し、これを活用し、これを保存し、これを検索し、かつ/またはこれを整列させるように構成されていることが多い。遺伝子変動モジュールにより、適切な様式で、遺伝子の変動の存在または非存在を、1つまたは複数の比較から決定することもでき、カウントから決定することもできる。遺伝子変動モジュールでは、場合によって、参照ゲノム中のゲノム区分の異なるセットについてのカウントの間に有意差が存在するのかどうかを決定する。差の有意性は、遺伝子変動モジュールにより、適切な様式(例えば、パーセントの差、zスコア分析)で決定することができる。遺伝子変動モジュールでは、場合によって、カウントの決定またはカウントの比較が、特定の部類内にあるのかどうかを決定する。例えば、遺伝子変動モジュールにより、特定の比較を、正倍数体の決定と関連する特定の比の閾もしくは比の範囲に、または異数体の決定と関連する特定の比の閾もしくは比の範囲に分類することができる。別の非限定的な例では、遺伝子変動モジュールにより、特定のカウントの決定を、正倍数体の決定と関連する特定のカウントの閾もしくはカウントの範囲に、または異数体の決定と関連する特定のカウントの閾もしくはカウントの範囲に分類することができる。遺伝子変動モジュールにより、適切なフォーマットで、アウトカムをもたらすことができ、これは、場合によって、遺伝子の変動に関連する判定であって、任意選択で、分散または不確定性の尺度(例えば、標準偏差、中央値の絶対偏差)、精度(例えば、特定の信頼区間内の)と関連する判定である。遺伝子変動モジュールは、場合によって、遺伝子の変動の存在または非存在の決定を、別のモジュール、または、ディスプレイマシンもしくはプリンターなど、別のマシンへと伝送するように構成されている。
【0529】
本明細書で記載されるモジュール(例えば、参照比較モジュール)を含むマシンまたはシステムは、1つまたは複数のマイクロプロセッサを含みうる。一部の実施形態では、マシンまたはシステムは、平行して協調し、働く、マイクロプロセッサなど、複数のマイクロプロセッサを含みうる。システム中またはマシン中のマイクロプロセッサ(例えば、1つまたは複数のマイクロプロセッサ)により、本明細書で記載されるモジュール中の1つまたは複数の命令(例えば、処理、ルーチン、および/またはサブルーチン)を行うおよび/または実施することができる。本明細書で記載されるモジュールは、場合によって、メモリ中に配置されるか、またはマシンもしくはシステムと関連する。一部の実施形態では、本明細書で記載されるモジュールは、1つまたは複数の外部マイクロプロセッサ(例えば、内部または外部ネットワーク、サーバー、ストレージデバイスおよび/またはストレージネットワーク(例えば、クラウド))を伴って作動する。一部の実施形態では、本明細書で記載されるモジュールは、別のモジュール、マシン、またはシステム(例えば、コンポーネント、周辺機器)に由来するデータおよび/または情報にアクセスし、これを集め、これをアセンブルし、かつ/またはこれを受信するように構成されている。一部の実施形態では、本明細書で記載されるモジュールは、データおよび/または情報を、別のモジュール、マシン、またはシステム(例えば、コンポーネント、周辺機器)へと提示および/または伝送するように構成されている。一部の実施形態では、本明細書で記載されるモジュールは、マシンまたはシステムの操作者(すなわち、使用者)により入力されたデータおよび/または情報にアクセスし、これを受容し、これを受信し、かつ/またはこれを集めるように構成されている。例えば、場合によって、使用者は、定数、閾値、式、および/または所定の値を、モジュールへと提示する。本明細書で記載されるモジュールは、場合によって、それがアクセスし、受信し、集め、かつ/またはアセンブルする、データおよび/または情報を変換するように構成されている。
【0530】
ある特定の実施形態では、システム、マシン、および/または、コンピュータプログラム産物は、(i)核酸配列の読取りおよび/または部分的なヌクレオチド配列の読取りを得、かつ/またはこれらにアクセスするように構成されている配列決定モジュール;(ii)核酸配列の読取りを、参照ゲノムの部分へとマッピングするように構成されているマッピングモジュール;(iii)参照ゲノムの部分へとマッピングした核酸配列の読取りのカウントを提示するように構成されているカウント計測モジュール;(iv)正規化されたカウントを提示するように構成されている正規化モジュール;(v)第2の水準と有意に異なる第1の水準の同定をもたらすように構成されている比較モジュール;(vi)1つまたは複数の期待されるレベル範囲を提示するように構成されている範囲設定モジュール;(vii)コピー数の変動を表示する水準を同定するように構成されている分類モジュール;(viii)コピー数の変動として同定されたレベルを調整するように構成されている調整モジュール;(ix)レベルおよび/またはプロファイルをグラフ表示および提示するように構成されているプロッティングモジュール;(x)遺伝子の変動の存在もしくは非存在を決定するか、またはアウトカム(例えば、胎児異数性の存在または非存在の決定因のアウトカム)を決定するように構成されているアウトカムモジュール;(xi)遺伝子変動決定を表示するように構成されているデータディスプレイ組織化モジュール;(xii)配列読取りのマッピング、マッピングした配列読取りのカウント数計測、カウントの正規化、およびアウトカムの生成のうちの1または複数を行うように構成されている論理処理モジュール;(xiii)カウント比較モジュール;(xiv)胎児フラクションの決定をもたらすように構成されている胎児フラクションモジュール;(xv)遺伝子の変動の存在または非存在の決定をもたらすように構成されている遺伝子変動モジュール;あるいは(xvi)前出のうちの2つまたはそれ超の組合せを含む。
【0531】
一部の実施形態では、配列決定モジュールおよびマッピングモジュールは、配列決定モジュールから配列の読取りを、マッピングモジュールへと伝送するように構成されている。マッピングモジュールおよびカウント計測モジュールは、場合によって、マッピングモジュールから、マッピングした配列の読取りを、カウント計測モジュールへと伝送するように構成されている。一部の実施形態では、正規化モジュールおよび/または比較モジュールは、正規化されたカウントを、比較モジュールおよび/または範囲設定モジュールへと伝送するように構成されている。一部の実施形態では、比較モジュール、範囲設定モジュール、および/または分類モジュールは独立に、(i)第2の水準と有意に異なる第1の水準の同定、および/または(ii)期待されるレベル範囲を、比較モジュールおよび/または範囲設定モジュールから、分類モジュールへと伝送するように構成されている。ある特定の実施形態では、分類モジュールおよび調整モジュールは、コピー数の変動として分類された水準を、分類モジュールから、調整モジュールへと伝送するように構成されている。一部の実施形態では、調整モジュール、プロッティングモジュール、およびアウトカムモジュールは、1つまたは複数の調整されたレベルを、調整モジュールから、プロッティングモジュールまたはアウトカムモジュールへと伝送するように構成されている。正規化モジュールは、場合によって、マッピングした、配列の読取りの正規化されたカウントを、比較モジュール、範囲設定モジュール、分類モジュール、調整モジュール、アウトカムモジュール、またはプロッティングモジュールのうちの1または複数へと伝送するように構成されている。
【実施例】
【0532】
下記の実施例は、もっぱら例示として提示されていて、制限するものではない。したがって、下記の実施例はある特定の実施形態について説明し、本技術に制限を設けるものではない。当業者は、本質的に同一または類似のアウトカムを得るために変更または修正可能な様々な非クリティカルパラメータを容易に認識する。
【0533】
(実施例1)
PERUNおよび遺伝子の変動と関連した状態を検出するための一般的方法。
【0534】
本明細書に記載する方法および基礎理論は、遺伝子の変動と関連した様々な状態を検出するのに利用可能であり、遺伝子の変動の存在または非存在の決定的なアウトカムを提供する、またはその存在または非存在を決定する。
参照ゲノムの有益でない部分の除去
【0535】
参照ゲノムの有益でない部分を除去するための複数の試みにより、部分を選択することが分類を改善し得ると判明した。
等式A:
M=LI+GS (A)
【0536】
等式Aの各項は下記の意味を有する:
M:測定されたカウント、不必要な変動により影響を受けた一次情報を表す。
L:染色体レベル−これは、データ処理手順に由来する所望のアウトプットである。Lは、胎児および/または母体の正倍数体からの逸脱を示す。これは、確率誤差および系統的偏りの両方によりマスクされる数量である。染色体レベルLは、試料特異的かつ部分特異的である。
G:線形モデルのLOESS、または任意の同等のアプローチを使用して測定されたGCの偏り係数。Gは、Mおよび一連の部分特異的GC含有量の値から抽出される二次情報を表し、通常参照ゲノムに由来する(ただし、実際に観察されたGC含有量に由来する場合もある)。Gは、試料特異的であり、またゲノム位置によらず不変である。Gは不必要な変動のある部分を包含する。
I:線形モデルの切片。このモデルパラメータは所与の実験設定について一定であり、試料から独立しており、部分特異的である。
S:線形モデルの勾配。このモデルパラメータは所与の実験設定について一定であり、試料から独立しており、部分特異的である。
【0537】
MおよびGの数量を測定する。最初に、部分特異的値IおよびSが未知である。未知のIおよびSを評価するために、正倍数体試料中の参照ゲノムの全ての部分についてL=1と仮定しなければならない。仮定は必ずしも真ではないが、欠失/重複を有する試料は、いずれも正常な染色体レベルを有する試料に劣後するものと、合理的に予想することができる。正倍数体試料に適用される線形モデルにより、選択された部分に対して特異的なIおよびSパラメータ値が抽出される(L=1と仮定)。同一の手順が、ヒトゲノム中の参照ゲノムの全ての部分に適用されて、ゲノムの位置毎に切片Iおよび勾配Sがセットで得られる。交差検証では、全LDTv2CE正倍数体の90%を含有するワークセットがランダムに選択され、モデルをトレーニングするのにそのサブセットを使用する。ランダム選択は100回繰り返され、部分毎に100個の勾配および100個の切片がセットで得られる。
測定されたカウントからの染色体レベルの抽出
【0538】
部分毎にモデルパラメータ値IおよびSが入手可能であると仮定し、新しい試験試料について収集された測定値Mが、下記の等式Bに従って、染色体レベルを評価するのに使用される:
L=(M−GS)/I (B)
【0539】
等式Aと同様に、GCの偏り係数Gを、部分毎に測定された未加工のカウントMと参照ゲノムのGC含有量との間の回帰式の勾配として評価する。次に、染色体レベルLをさらなる分析で使用する(Z値、母体の欠失/重複、胎児の微小欠失/微小重複、胎児の性別、性染色体異数性等)。等式Bに包含される手順は、PERUN(parameterized error removal and unbiased normalization)と命名されている。
(実施例2)
式の例
【0540】
以下の記載は、本明細書に記載する方法で使用することができる数学的および/または統計的な式の非限定的な例である。
【0541】
Zスコア、およびZスコアから計算され、予想レベルの1からの偏差と関連するp値は、次に、平均レベルにおける不確実性に関する推定値に照らし評価可能である。p値はt分布に基づき、t分布の次数はピークにおける参照ゲノムの部分の数によって決定する。所望の信頼度レベルに応じて、カットオフはノイズを抑えることができ、実際のシグナルを確実に検出できるようにする。
等式1:
【化2】
【0542】
等式1は、2つの異なる試料に由来するピークレベルを直接比較するのに使用することができ、この場合、Nおよびnは、染色体全体中および異常部分内の参照ゲノムの部分の数をそれぞれ指す。2つの試料間の類似性を測定するp値をもたらすt−検定の次数は、2つの異常なストレッチのうち短い方における参照ゲノムの部分の数によって決定する。
【0543】
等式8は、胎児の異数性について遺伝子の変動の存在または非存在を決定するために、胎児フラクション(fetal fraction)、母体の倍数性、および参照カウント中央値を、分類スキームに組み入れるのに利用可能である。
等式8:
y
i=(1−F)M
if
i+FXf
i (8)
式中、Y
iは試験試料内の部分に関する測定されたカウントを表し、カウントプロファイル中央値内の部分に対応し、Fは胎児フラクションを表し、Xは胎児の倍数性を表し、M
iは各部分に割り当てられた母体の倍数性を表す。等式(8)のXに使用される可能な値は:胎児が正倍数体の場合1;胎児が三倍体の場合3/2;および双胎胎児が存在し、一方が罹患し、他方はそうではない場合5/4である。双胎の症例では、一方の胎児が罹患しており、他方はそうではない場合、5/4が使用されるが、その理由は、等式(8)の項Fは総胎児DNAを表し、したがって全ての胎児DNAが考慮されなければならないためである。一部の実施形態では、母体ゲノムにおける大規模な欠失および/または重複は、各部分または部分に母体の倍数性、M
iを割り当てることにより説明され得る。母体の倍数性は、多くの場合、1/2の倍数として割りあてられ、一部の実施形態では、部分に関する正規化を使用して推定可能である。母体の倍数性は、多くの場合、1/2の倍数なので、母体の倍数性は容易に説明をつけることがつき、したがって導関数を単純化するためのさらなる等式に含まれることはない。
【0544】
X=1で等式(8)を評価すると、(例えば、正倍数体を仮定)、胎児フラクションは相殺され、下記の等式は残差平方和をもたらす。
等式9:
【化3】
【0545】
等式(9)および後続する計算を単純化するために、下記の等式が利用される。
等式10:
【化4】
等式11:
【化5】
等式12:
【化6】
【0546】
X=3/2で等式(8)を評価する場合(例えば、三倍体を仮定)、下記の等式は残差平方和をもたらす。
等式13:
【化7】
【0547】
等式(9)と(13)の間の差異は、機能的アウトカム(例えば、phi)をなすが、この機能的アウトカムは、代替仮説(例えば、トリソミー単生児、X=3/2)に対して帰無仮説(例えば、正倍数体、X=1)を検定するのに使用することができる:
等式14:
【化8】
等式18:
【化9】
【0548】
最適な倍数性値は、等式20から得られる場合もある:
【化10】
【0549】
母体の倍数性に関する項M
iは、一部の数学的導関数から省略され得る。Xに関する得られた表示は、母親が評価の目的となる染色体または複数の染色体に欠失または重複を有さないような、比較的単純で、そして多くの場合最も頻繁に生ずる特殊なケースに対応する。
等式21:
【化11】
【0550】
Xi
ffおよびXi
fyは、等式(11)および(12)より、それぞれ与えられる。全ての実験誤差が無視し得る実施形態では、等式(21)を解くことにより、Xi
ff=Xi
fyの場合、正倍数体について1の値が得られる。全ての実験誤差が無視し得るある特定の実施形態では、等式(21)を解くことにより、三倍体について3/2の値が得られる(Xi
ffとXi
fyの間の三倍体の関係については等式(15)を参照)。
【表2】
【0551】
(実施例3)
FRSを使用する部分の選択
【0552】
可変性が大きく、マッピング可能性が小さな部分を除去し、大きな百分率の反復エレメントを結びつける、PERUNベースの方法を使用して、HG19と命名されたヒト参照ゲノムの部分を、まずあらかじめフィルタリングした。可変性が大きく、マッピング可能性が小さく、反復配列のフラクションが大きな部分(LDTv2について選択された部分)を除外した。50kbずつの各部分(例えば、部分)について、150塩基未満のCCF断片と、600塩基未満のCCF断片とに由来する、ペアエンド配列の読取りについての胎児比統計値を計算した。次いで、FRSを、TruSeq Biochemistryライブラリー調製物を、自動式ビーズクリーンアップと共に使用して処理された、264のプールされていない試料にわたり平均した。FRS>中央値(FRS)である部分を選択したが、これらを、染色体特異的な開始位置および終結位置に関して表4に示す。表4中の染色体特異的な開始位置および終結位置では、ヒト参照ゲノムであるHG19中のヌクレオチド塩基位置が参照される。
【0553】
FRS>中央値(FRS)である全ての部分を、各部分それぞれのユニークなエクソン開始位置の数と共にプロットした。有意な相関が、小さい断片の過剰表示を含有する遺伝子の領域について示された(
図1〜9)。有意に強い相関が、GC含有量(50kbの部分中のGC塩基の百分率)と、FRSとについて示された(表3)。
【0554】
染色体のトリソミー検出のために、部分の選択を、FRS>中央値(FRS)であるゲノムの部分(すなわち、部分)へとさらに制限した。この手法を、264の試料による予備的なデータセットに適用することにより、データのうちの50%を廃棄するにも拘らず、一貫した分類マージンがもたらされた。逆に、部分を、FRS<中央値(FRS)である部分に制限したところ、分類マージンが劇的に低減されたことから、分析のための胎児DNAの希釈が示唆された(
図10〜11)。
【0555】
図10および
図11では、一方は、T21でない試料のみについての回帰直線(点破線)であり、他方は、T21の試料についての回帰直線(点線)である、2本の回帰直線がある。高FRS部分に基づく、T21の試料についての回帰直線は、高FRSに基づく、T21でない試料についての回帰直線の上方にあった(
図10)。逆に、この類似する回帰は、低FRS部分について計算されたZスコアを比較したところ、T21でない試料より下方にあった(
図11)。Zスコアは、T21の試料について、大きくなる傾向があるので、これは、高FRS部分の使用により、アウトカム決定の精度を向上させうることを示唆する。
【表3】
【0556】
(実施例4)
配列ベースの分離と、長さベースの分析との組合せを使用する、トリソミー21の検出
【0557】
以下の方法を使用して、妊娠中の雌から得られた循環無細胞DNAを含有する血漿試料を、トリソミー21について調べる。
【0558】
配列ベースの分離
特注でデザインされた、ビオチニル化捕捉RNAのセットを含む、SURESELECT特注捕捉ライブラリーは、Agilentから得る。捕捉RNAは、第21染色体(試験染色体)に特異的なヌクレオチド配列および第14染色体(参照染色体)に特異的なヌクレオチド配列に従ってデザインし、ウェブベースデザインツールである、Agilent製のEARRAYにより同定する。100の独立の捕捉RNAを、第14染色体および第21染色体の各々についてデザインする。40〜60塩基対の範囲内の単一コピーのヌクレオチド配列であって、第14または第21染色体にユニークであり、ATに富むヌクレオチド配列を、特注の捕捉RNAデザインのために選択する。
【0559】
妊娠第一期の妊娠女性に由来する無細胞循環血漿中の核酸である試料核酸を、2本の試験管へと分け、製造業者の指示に従って、第21染色体捕捉RNAまたは第14染色体捕捉RNAと共に、65℃で24時間にわたりインキュベートする。ハイブリダイゼーションの後、捕捉された標的断片および捕捉された参照断片(併せて、捕捉断片と称する)を、ストレプトアビジンでコーティングされた磁気ビーズ(DYNAL DYNAMAG−2、Invitrogen、Carlsbad、CA)を使用して、ビオチニル化RNA/断片ハイブリッド体をブルダウンすることにより選択し、MINELUTE PCR Purification Kit(Qiagen、Germantown、MD)で精製する。製造業者の指示に従って、捕捉RNAを消化し、残りのDNA断片を増幅する。
【0560】
長さベースの分析
上記による、分離された核酸断片を含有する試料を、厳密でないハイブリダイゼーション条件下で、ビオチニル化イノシンを含むポリイノシンプローブであって、それらがハイブリダイズするDNA断片より長く、500塩基対の長さであるプローブとハイブリダイズさせる。一部の実施形態では、ハイブリダイゼーションは、6XのSSCおよび1%のSDS中、65℃で一晩にわたり行う。一部の実施形態では、ハイブリダイゼーションは、1.0MのNaCl、50mMのリン酸ナトリウム緩衝液(pH7.4)、1.0mMのEDTA、2%(w/v)のドデシル硫酸ナトリウム、0.1%(w/v)のゼラチン、50μg/mlのtRNA、および30%(v/v)のホルムアミド中、43℃で一晩にわたり行う。30分間ずつ4回にわたる洗浄を、1.2XのSSC(1XのSSCとは、0.15MのNaClに、0.015Mのクエン酸ナトリウムを加えたものである)、10mMのリン酸ナトリウム(pH7.4)、1.0mMのEDTA、および0.5%(w/v)ドデシル硫酸ナトリウム中、55℃で行う。ハイブリダイゼーションの後、エクソヌクレアーゼI(New England Biolabs、Ipswich、MA)およびホスホジエステラーゼII(Worthington Biochemical Corp.、Lakewood、NJ)を使用して、ハイブリダイズしなかったプローブ部分を消化する。プローブ−断片二重鎖を、95℃で2分間にわたり変性させ、ストレプトアビジンでコーティングされた磁性ビーズ(DYNAL DYNAMAG−2、Invitrogen、Carlsbad、CA)を使用して、プローブを、断片から分離し(すなわち、プルダウンし)、MINELUTE PCR Purification Kit(Qiagen、Germantown、MD)で精製する。MALDI質量分析を使用して、トリミングされた、単離および精製されたポリイノシンプローブを、質量について測定する。既知の長さのビオチニル化ポリイノシン標準物質についての質量ピークと比較することにより、プローブの長さ、したがって対応する断片の長さを各プローブ長の種について質量ピークから外挿する。
【0561】
トリソミー21の決定
各断片長の種の相対量は、各プローブ長の種についての質量ピークの振幅に基づき決定する。150塩基対またはそれ未満の断片を、第14染色体および第21染色体について定量する。第14染色体に由来する断片の量と、第21染色体に由来する断片の量とが実質的に等しい試料を、第21染色体についての正倍数体として決定する。第21染色体に由来する断片が、第14染色体に由来する断片と対比して統計学的に有意に高量(例えば、第21染色体に由来する断片において、第14染色体に由来する断片と対比して2%の上昇)である試料を、第21染色体について三倍体として決定する。
【0562】
(実施例5)
断片長のフィルタリングおよび染色体表示を使用するトリソミー検出
本実施例では、無細胞核酸を含有する母体試料を、ある特定の長さのパラメータを有する断片のサブセットに由来するヌクレオチド配列の読取りのカウントに基づき、正倍数体胎児または異数性(すなわち、トリソミー13、トリソミー18、トリソミー21)を有する胎児を保有するものとして分類した。試料は、Women and Infants Hospital(WI研究;Palomakiら(2011年)、Genet. Med.、13巻(11号):913〜20頁)から得た。Illuminaペアエンドシーケンシングプラットフォーム(Illumina,Inc.、San Diego、CA)を使用して、各試料について、ヌクレオチド配列の読取り(36塩基の読取り)を得た。ペアエンドヌクレオチド配列の読取りは、BOWTIE 2 ベータ 3アライナプログラム(aligner program)を使用して、参照ゲノムへと整列させ(build 37(hg19))、断片の長さは、ペアエンド読取りのアラインメントに基づき決定した。
【0563】
ある特定のヌクレオチド配列の読取りを、以下の核酸断片長パラメータ:1)120塩基超またはこれに等しい長さを有する断片;2)130塩基超またはこれに等しい長さを有する断片;3)140塩基超またはこれに等しい長さを有する断片;4)150塩基超またはこれに等しい長さを有する断片;5)160塩基超またはこれに等しい長さを有する断片;または6)170塩基超またはこれに等しい長さを有する断片に従って、フィルタリングアウトした。したがって、所与の長さの閾(例えば、120塩基、130塩基、140塩基、150塩基、160塩基、170塩基)に等しいかまたはこれより長い断片に対応するペアエンド読取りは、フィルタリングアウトし、所与の長さの閾より短い断片に対応するペアエンド読取りを、分析のために保持した。
【0564】
1)フィルタリングされなかった配列の読取り、および2)150塩基の断片という閾において、長さでフィルタリングされた配列の読取りを使用して、第13染色体、第18染色体、および第21染色体についての染色体表示を、
図23に提示されるデータセットについて計算した。第13、第18、および第21染色体の各々についての染色体表示を、以下:
第13染色体(Chr13)の表示=ΣChr13の配列の読取りのカウント(フィルタリングされなかった)/Σ全ての常染色体の配列の読取りのカウント(フィルタリングされなかった)
第13染色体(Chr13)の表示=ΣChr13の配列の読取りのカウント(フィルタリングされた)/Σ全ての常染色体の配列の読取りのカウント(フィルタリングされた)
第18染色体(Chr18)の表示=ΣChr18の配列の読取りのカウント(フィルタリングされなかった)/Σ全ての常染色体の配列の読取りのカウント(フィルタリングされなかった)
第18染色体(Chr18)の表示=ΣChr18の配列の読取りのカウント(フィルタリングされた)/Σ全ての常染色体の配列の読取りのカウント(フィルタリングされた)
第21染色体(Chr21)の表示=ΣChr21の配列の読取りのカウント(フィルタリングされなかった)/Σ全ての常染色体の配列の読取りのカウント(フィルタリングされなかった)
第21染色体(Chr21)の表示=ΣChr21の配列の読取りのカウント(フィルタリングされた)/Σ全ての常染色体の配列の読取りのカウント(フィルタリングされた)
に従って、計算した。
【0565】
図14、16、および18は、それぞれ、フィルタリングされなかった配列の読取りを使用する、第13、第18、および第21染色体についての染色体表示を示す。
図15、17、および19は、それぞれ、長さでフィルタリングされた配列の読取りを使用する、第13、第18、および第21染色体についての染色体表示を示す。フィルタリングされたデータセットでは、染色体表示は、胎児が寄与する配列データの増加に一部分起因して、トリソミー試料について増加した。染色体表示のこの増加は、染色体異常の検出力を増加させうるが、トリソミーでない試料についての染色体表示の分散は、読取りのカウントのほぼ63〜82%の低減に起因して増加した。多様な断片の長さの閾値における読取りのカウントの例示的分布を、
図13に例示し、下記の表5に提示する。
【表5】
【0566】
ある特定の長さ未満の断片に由来する読取りについての平均曲線下面積(AUC:area under the curve)値を決定して、平均で認められる読取り(すなわち、配列カバレッジ)の全体的な低減を例示した。約1500万の配列の読取り(またはヒトゲノムの0.2Xのカバレッジ)を生成する所与のアッセイでは、150塩基超の読取りの除外は、例えば、約0.035Xのカバレッジと同等である。
【0567】
染色体表示に最適の断片サイズ閾を決定するために、断片サイズ閾を、120〜170塩基にわたり、10塩基の増分で変化させた。染色体表示(すなわち、第13、第18、および第21染色体についての)を、配列の読取りのカウントの正規化(すなわち、LOESSによるPERUN PADDED)の後で、長さでフィルタリングされた各データセット(ペアエンド読取り)およびフィルタリングされなかったデータセット(シングルエンドリード;また、「全て」の読取りとも称する)について計算した。第13、第18、および第21染色体表示を、それぞれ、
図20、21、および22に提示する。150、160、および170塩基の閾における、フィルタリングされたデータセットについての染色体表示は、フィルタリングされなかったデータセットと十分に一致した。以下の表は、第13、第18、および第21染色体のトリソミー検出について観察された特異性および感度を、それぞれのZスコアのカットオフ値(すなわち、第13染色体について3.95、第18染色体について3.95、および第21染色体について3)において提示する。Zスコア値は、フローセル特異的中央値ならびにデータセット特異的な歴史的MAD値および集団MAD値に基づいた。加えて、受信者動作特性(ROC:receiver operating characteristic)分析による10分割の交差検証を実行し(すなわち、10分割の層別化交差検証を100回にわたり反復した)、各分析(全ての感度×(1−特異性)値を合計することにより計算され、RパッケージによるROCRを使用して実施される)についての平均曲線下面積(AUC;すなわち、精度の尺度)を、下記の表6、7、および8に提示する。
【表6】
【表7】
【表8】
【0568】
データは、長さでフィルタリングされた試料についての配列カバレッジの有意な低減にも拘らず、ある特定の断片の長さの閾(例えば、150塩基、160塩基)でフィルタリングされた試料を使用して、フィルタリングされなかった試料と比較して、同様の精度、感度、および特異性で、トリソミーを同定しうることを示す。
【0569】
(実施例6)
本実施例では、一部分、胎児フラクションと、胎児比統計値(FRS)との関係を例示する。
【0570】
図25Aおよび25Bに示す通り、試料ごとのZスコア対中央値FRSのプロットは、胎児フラクションについてのZスコア対FQAベースの推定値のプロットとの顕著な類似性を示した。さらに、高FRS部分へと制限された、トリソミー21試料ごとの中央値FRS(
図25A、破線より上)は、0.188であり、全ての部分についての、トリソミー21試料ごとの中央値FRS(
図25B、破線より上)は、0.172であった。トリソミーでないChr21試料では、高FRS部分についての中央値FRSは、0.181であり(
図25A、破線より下)、全ての部分についての中央値FRSは、0.166であった(
図25B、破線より下)。これは、トリソミー21試料が、特に、胎児による寄与の傾向が大きな部分にまで、非トリソミー21試料よりわずかに高値の部分表示を実際に有することを示唆した。
【0571】
図26に示す通り、断片の長さが異なる読取りは、異なるGC含有量を含むことが決定された。より一層胎児起源であることが公知の小さな断片は、大きな断片と比較して、高GC含有量を示した。高FRSを有するビンは、ビン当たりのGC含有量と正相関するので、GC含有量の差違はまた、FRSが、どの程度、GC含有量および遺伝子密度と相関するのかとも関係した。これらの、断片の長さによる、微細なGCの差違を利用して、胎児フラクション情報をもたらすことができる。例えば、ヒト参照ゲノムにわたる、GCの差違、断片の長さ、および/または断片の長さの分散を使用して、断片の胎児起源または母体起源を予測することができる。このデータは、読取り当たりのGC含有量を使用して、胎児の寄与を推定しうることを裏付けた。
【0572】
PERUNとは、カバレッジの読取り深度中のGCの偏りを除去する、領域特異的な付加的補正である。この正規化手順は、傾き、すなわち、GCの偏りの影響、および切片、すなわち、GCの偏りの非存在下における塩基レベルのカバレッジという、2つの領域特異的なパラメータについての、トレーニングされた推定値を伴った。FRSの四分位数へと区分化されたPERUN切片の分布は、FRSを増加させると、PERUN切片が増加することを示唆した(
図27)。全体的に、FRSが最も小さなゲノム領域は、おそらく、全体的なカバレッジ表示と比べた、胎児の寄与の低減に起因して、切片が最も小さい傾向があった。加えて、領域の選択のための初期的な取り組みでは、最大の交差検証誤差が組み込まれたが、ここで、大きな値は、カバレッジの可変性の増加を指し示した。
図28は、四分位数へと区分化された、最大の交差検証誤差の分布を示す。極大および極小の(extreme)四分位数(高値および低値)は、領域安定性の最も大きな可変性を示した。FRSが極大および極小であるゲノム領域(extreme FRSgenomic regions)は、胎児の寄与に対して潜在的により感受性であるので、最大の交差検証誤差の可変性の増加は、実際、胎児シグナルの可変性に起因しうる。
【0573】
(実施例7)
ビンベースの胎児フラクション
本実施例は、シーケンシングカバレッジデータ(sequencing coveragedata)を使用して、母体の血液試料中の循環無細胞胎児DNAの量を定量するための方法を明らかに示す。技術は、本明細書でビンベースの胎児フラクション(BFF:bin−based fetal fraction)として公知の方法であって、シーケンシングカバレッジマップ(sequencing coveragemap)を使用して、母体の血液試料中の胎児DNAのフラクションを定量する方法を包含する。方法では、マシンラーニング法を利用して、シーケンシングカバレッジを、胎児フラクションと関係づけるモデルを構築する。
【0574】
BFF法の第1のステップは、ゲノムカバレッジデータを得ることであった。ゲノムカバレッジデータは、シーケンシングランおよびアラインメントから得た。次いで、このカバレッジデータを、胎児フラクションについての予測因子として用いた。離散ゲノムビン、可変サイズビン、またはスムージングされたカバレッジマップの地点ベースの図示を含むがこれらに限定されない、任意の適切な方法により、カバレッジ予測変数を生成することができる。
【0575】
BFF法の第2のステップは、胎児フラクションを、カバレッジデータの予測因子(例えば、パラメータ)から推定するためのモデルをトレーニングすることであった。本実施例では、一般的な重回帰モデルを、単純最小二乗法を使用して、胎児フラクションを、特定のビンの、既知の、比例する配列決定レベルから直接推定するようにトレーニングした。この手法を、多変量重回帰モデルへと拡張して、胎児フラクションに比例することが既知であるビン(このビンから、次には胎児フラクションを導出することができる)を予測することができる。同様に、ビンが相関する場合は、多変量応答モデルをトレーニングして、相関する応答を明らかにすることができる。以下は、その最も単純な形態における例である。
【0576】
重回帰モデルは、下記の等式30:
y
ff=X
binβ+ε 等式(30)
[式中、X
binは、ビンのカウントについてのm×p行列であり、y
ffは、m個のトレーニング試料およびp個の予測ビンについてのm×1ベクトルであり、εは、期待値E(ε)=0[式中、共分散Cov(ε)=σ
2I[式中、Iは、恒等行列である(すなわち、誤差は、等分散的である)]]とするノイズベクトルであり、rank(X
bin)<pである]として選択した。ベクトルy
ffは、胎児フラクションに比例することが既知であるレベルを有するビンに対応した。
【0577】
一般性を損なわずに述べると、本発明者らは、X
binが、その平均値を中心とすると仮定した。したがって、回帰係数のp×1ベクトルであるβは、
【化12】
についての正規方程式である、
【化13】
を解くことから推定することができる。
【0578】
多変量多重応答モデルへの拡張により、前出のモデルを、多重応答変数を有するように、またはサイズm×n[式中、nは、胎児フラクションに比例するレベルを有する、いくつかの異なるビンである]の行列Y
ffとして、単純に拡張した。よって、モデルは、
Y
ff=X
binB+E 等式(32)
[式中、Eは、複数のモデルに対する並列仮説を伴うノイズ行列である]である。係数の行列Bは、
【化14】
について、
【化15】
[式中、
【化16】
は、p×n行列である]を解くことにより推定することができる。
【0579】
ランクがrank(X
bin)<pである場合は、問題を、任意の数の適切な回帰モデルへと分解して、多重共線性を説明することができる。これに加えてまた、
【化17】
であることから、多変量応答内の潜在的な相関が説明されるように、ランクを低減した、
【化18】
の推定量も見出すことができる。次いで、結果として得られる推定量を、適切な方法により、併せて、平均するかまたは重み付けすることができる。
【0580】
BFF法は、この回帰法に限定されない。他の重回帰法、多変量応答回帰、決定木、サポートベクターマシン、およびニューラルネットワークを含むがこれらに限定されない、多くの適切なマシンラーニング法を使用して、推定を向上させることができる。また、全ての関与性のビンを、モデルへと組み入れ得るように、仮説を緩和し、高次元の推定をもたらしうる方法も存在する。このような推定量の非限定的な例は、予測力を向上させることが示されている、ランク低減推定量、LASSO推定量、重み付けランク選択判定基準(WRSC:weighted rank selection criteria)推定量、RSC(rank selection criteria)推定量、およびエラスティックネット推定量など、拘束ベースの推定量である。
【0581】
胎児フラクションの予測はまた、ゲノムカバレッジの偏りの測定およびパイプラインへの組み入れを介しても向上させた。これらの偏りは、GC含有量、DNアーゼ1過敏性、マッピング可能性、およびクロマチン構造を含むがこれらに限定されない、いくつかの供給源に由来しうる。このようなプロファイルは、試料ごとのベースで定量し、ゲノムカバレッジデータを調整するのに使用することもでき、胎児フラクションモデルに対する予測因子または拘束として付加することもできる。
【0582】
例えば、全てのビンにわたるY染色体カバレッジの相対レベルを、胎児フラクション(ChrFF)の真の値として使用して、多重回帰法を、6000例の雄正倍数体試料についてトレーニングした。共通のトリソミーの検出についての循環性を防止するため、モデルを、常染色体のカバレッジビンのみについてトレーニングし、第13、第18、または第21染色体を含めなかった。モデルは、19,312例の独立の試料からなる試験データに対する強力な性能を裏付けた(
図29)。
【0583】
BFFの強力な性能は、胎児DNAを引き寄せる傾向があるビンおよび領域により駆動される。これらの領域は、カバレッジ分散が大きい傾向があり、モデルでは、この変動を使用する。ブーストラップ法を使用して、胎児フラクション表示(FRSに基づく)が高値または低値であるビンについてもっぱらトレーニングしたモデルを比較した。胎児含有量が大きなビンは、胎児フラクションの良好な予測因子であることが見出された(
図30)。これは、胎児表示が高値であるビンについて構築されたモデルは、回帰係数が大きくなる傾向があるという知見と対応した(
図31)。
【0584】
例示的なトレーニングセットには、雄試料のみを含めたが、予測は、トリソミー染色体表示を使用して、胎児フラクションを独立に推定しうる、雌試料および雄トリソミー試料の両方に対して行った。雄試料および雌試料についての胎児フラクションの推定は、全体的な分布の差違を示さなかった(
図32)。これにより、BFFは、胎児フラクションを推定するために、他の性別と比較して、一方の性別に対して、全体的に偏っているわけではないことが裏付けられる。
【0585】
(実施例8)
実施形態の例
下記に示す例は、ある特定の実施形態を例示するものであり、技術を限定するものではない。
【0586】
A1.妊娠中の雌に由来する試験試料中の胎児核酸のフラクションを推定するための方法であって、
(a)参照ゲノムの部分へとマッピングした配列の読取りのカウントを得るステップであって、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りである、ステップと、
(b)マイクロプロセッサを使用して、(i)各部分へとマッピングした配列の読取りのカウント、または(ii)他の部分特異的パラメータを、部分特異的な胎児核酸のフラクションへと、各部分と独立に関連する重み付け係数に従って重み付けし、これにより、部分特異的胎児フラクションの推定値を、重み付け係数に従って提示するステップであって、
重み付け係数の各々が、(i)複数の試料の各々についての胎児核酸のフラクションと、(ii)複数の試料についての、各部分へとマッピングした配列の読取りのカウント、または他の部分特異的パラメータとの、各部分について適合させた関係から決定されている、ステップと、
(c)胎児核酸のフラクションを、試験試料について、部分特異的胎児フラクションの推定値に基づき推定するステップと
を含む方法。
【0587】
A2.重み付け係数が、全ての常染色体中ならびにX染色体中およびY染色体中の、複数の部分中の部分と関連する、実施形態A1に記載の方法。
【0588】
A2.1.重み付け係数が、Y染色体中の部分を含まない、複数の部分中の部分と関連する、実施形態A1に記載の方法。
【0589】
A3.重み付け係数が、X染色体中およびY染色体中の部分を含まない、複数の部分中の部分と関連する、実施形態A2.1に記載の方法。
【0590】
A4.重み付け係数が、常染色体中またはそのサブセット中の部分を含む、複数の部分中の部分と関連する、実施形態A2に記載の方法。
【0591】
A5.重み付け係数が、第13、第18、および第21染色体中の部分を含まない、複数の部分中の部分と関連する、実施形態A3またはA4に記載の方法。
【0592】
A6.(b)(i)または(b)(ii)におけるカウントが、正規化されたカウントである、実施形態A1からA5のいずれか1つに記載の方法。
【0593】
A7.正規化されたカウントの、グアニン−シトシン(GC)の偏りが、未加工のカウントに関して低減されている、実施形態A6に記載の方法。
【0594】
A8.正規化されたカウントが、ビン方式の正規化、GC含有量による正規化、線形最小二乗回帰、非線形最小二乗回帰、LOESS、GC LOESS、LOWESS、PERUN、リピートマスキング(repeat masking)(RM)、GC正規化リピートマスキング(GCRM)、条件付分位数正規化(cQn:conditional quantile normalization)、またはこれらの組合せの産物である、実施形態A6またはA7に記載の方法。
【0595】
A9.胎児核酸のフラクションを、試験試料について推定するステップが、部分特異的胎児フラクションの推定値を平均または合計することを含む、実施形態A1からA8のいずれか1つに記載の方法。
【0596】
A10.部分特異的パラメータが、1つの部分特異的パラメータであるか、または2つもしくはそれ超の部分特異的パラメータのうちの1つである、実施形態A1からA9のいずれか1つに記載の方法。
【0597】
A11.部分特異的パラメータが、ゲノムカバレッジ、選択された断片の長さ未満の長さを有する読取りの量、マッピング可能性、DNアーゼI感受性、メチル化状況、アセチル化、ヒストン分布、およびクロマチン構造から選択される、実施形態A1からA10のいずれか1つに記載の方法。
【0598】
A12.部分特異的パラメータが、グアニン−シトシン(GC)含有量である、実施形態A1からA10のいずれか1つに記載の方法。
【0599】
A13.部分特異的パラメータが、グアニン−シトシン(GC)含有量ではない、実施形態A1からA10のいずれか1つに記載の方法。
【0600】
A14.選択された断片の長さ未満の長さを有する読取りの量が、XのYに対する比に従って決定され、Xが、第1の選択された断片の長さ未満の長さを有する、循環無細胞(CCF)断片に由来する読取りの量であり、Yが、第2の選択された断片の長さ未満の長さを有する、CCF断片に由来する読取りの量である、実施形態A11に記載の方法。
【0601】
A15.第1の選択された断片の長さが、約140〜約160塩基であり、第2の選択された断片の長さが、約500〜約700塩基である、実施形態A14に記載の方法。
【0602】
A16.第1の選択された断片の長さが、約150塩基であり、第2の選択された断片の長さが、約600塩基である、実施形態A15に記載の方法。
【0603】
A17.各部分についての重み付け係数が、複数の試料についての、部分についての平均値比と関係する、実施形態A14からA16のいずれか1つに記載の方法。
【0604】
A18.各部分についての重み付け係数が、複数の試料についての、部分へとマッピングした、CCF胎児核酸断片に由来する読取りの平均値量と比例する、実施形態A1からA16のいずれか1つに記載の方法。
【0605】
A19.部分が、離散ゲノムビン、所定の長さの連続配列を有するゲノムビン、可変サイズビン、スムージングされたカバレッジマップの地点ベースの図示、およびこれらの組合せから選択される、実施形態A1からA18のいずれか1つに記載の方法。
【0606】
A20.複数の試料が、正倍数体胎児を有する被験体に由来する、実施形態A1からA19のいずれか1つに記載の方法。
【0607】
A21.複数の試料が、トリソミー胎児を有する被験体に由来する、実施形態A1からA19のいずれか1つに記載の方法。
【0608】
A22.複数の試料が、正倍数体胎児を有する被験体およびトリソミー胎児を有する被験体に由来する、実施形態A1からA19のいずれか1つに記載の方法。
【0609】
A23.複数の試料が、雄胎児を有する被験体に由来する、実施形態A1からA22のいずれか1つに記載の方法。
【0610】
A24.胎児核酸のフラクションが、Y染色体についてのアッセイに従って決定される、実施形態A23に記載の方法。
【0611】
A25.約1,500の部分〜約200,000の部分中のカウントが調整される、実施形態A1からA24のいずれか1つに記載の方法。
【0612】
A25.1.部分の各々が、参照ゲノムに由来する、連続的な約10キロベース〜連続的な約75キロベースである、実施形態A25に記載の方法。
【0613】
A26.重み付け係数のうちの約75%またはそれ超が、ゼロ超である、実施形態A1からA25.1のいずれか1つに記載の方法。
【0614】
A26.1.重み付け係数のうちの約85%またはそれ超が、ゼロ超である、実施形態A26に記載の方法。
【0615】
A26.2.重み付け係数のうちの約95%またはそれ超が、ゼロ超である、実施形態A26.1に記載の方法。
【0616】
A27.重み付け係数の分布の幅が、CCF胎児核酸断片に由来する読取りの量に依存する、実施形態A1からA26.2のいずれか1つに記載の方法。
【0617】
A28.重み付け係数の分布が、実質的に対称分布である、実施形態A1からA27のいずれか1つに記載の方法。
【0618】
A28.1.重み付け係数の分布が、実質的に正規分布である、実施形態A1からA27のいずれか1つに記載の方法。
【0619】
A29.重み付け係数が、適合させた関係から推定される係数である、実施形態A1からA28.1のいずれか1つに記載の方法。
【0620】
A30.係数を、(i)複数の試料の各々についての胎児核酸のフラクションと、(ii)複数の試料についての、各部分へとマッピングした配列の読取りのカウント、または他の部分特異的パラメータとの、各部分についての関係から推定するステップを含む、実施形態A1からA29のいずれか1つに記載の方法。
【0621】
A31.適合させた関係の各々が、回帰モデルであり、重み付け係数が、適合させた関係に由来する回帰係数であるかまたはこれに基づく、実施形態A29またはA30に記載の方法。
【0622】
A32.回帰モデルが、線形回帰モデル、単純回帰モデル、通常の最小二乗回帰モデル、重回帰モデル、一般的な重回帰モデル、多項式回帰モデル、一般線形モデル、一般化線形モデル、離散選択回帰モデル、ロジスティック回帰モデル、多項ロジットモデル、混合ロジットモデル、プロビットモデル、多項プロビットモデル、順序ロジットモデル、順序プロビットモデル、ポアソンモデル、多変量応答回帰モデル、マルチレベルモデル、固定効果モデル、ランダム効果モデル、混合モデル、非線形回帰モデル、ノンパラメトリックモデル、セミパラメトリックモデル、ロバストモデル、クォンタイルモデル、アイソトニックモデル、主成分モデル、最小角モデル、ローカルモデル、セグメント化モデル、および変数誤差モデルから選択される、実施形態A31に記載の方法。
【0623】
A33.適合させた関係の各々が、回帰モデルではない、実施形態A29またはA30に記載の方法。
【0624】
A34.適合させた関係の各々が、決定木モデル、サポート−ベクターマシンモデル、およびニューラルネットワークモデルから選択される、実施形態A33に記載の方法。
【0625】
A35.適合させた関係を、最小二乗法、通常の最小二乗法、線形回帰、部分回帰、全回帰、一般化回帰、加重回帰、非線形回帰、繰返し加重回帰、リッジ回帰、最小絶対偏差、ベイズ、ベイズ多変量、縮小ランク、LASSO、エラスティックネット推定法、およびこれらの組合せから選択される推定により適合させている、実施形態A1からA34のいずれか1つに記載の方法。
【0626】
A36.(a)の前に、試験被験体に由来する循環無細胞核酸を配列決定することにより、配列の読取りを決定するステップを含む、実施形態A1からA35のいずれか1つに記載の方法。
【0627】
A37.(a)の前に、配列の読取りを、参照ゲノムの部分へとマッピングするステップを含む、実施形態A36に記載の方法。
【0628】
A38.(a)の前に、循環無細胞核酸を、試験試料から単離するステップを含む、実施形態A36またはA37に記載の方法。
【0629】
A39.(a)の前に、試験試料を、試験被験体から単離するステップを含む、実施形態A38に記載の方法。
【0630】
A40.胎児の染色体異数性の存在または非存在を、試験試料について、推定された胎児核酸のフラクションに基づき決定するステップを含む、実施形態A1からA39のいずれか1つに記載の方法。
【0631】
A41.胎児の染色体異数性が、トリソミーである、実施形態A40に記載の方法。
【0632】
A42.トリソミーが、第21染色体のトリソミー、第18染色体のトリソミー、第13染色体のトリソミー、またはこれらの組合せから選択される、実施形態A41に記載の方法。
【0633】
A43.トリソミーの存在または非存在が、95%もしくはそれ超の感度または95%もしくはそれ超の特異性、あるいは95%またはそれ超の感度および95%またはそれ超の特異性で決定される、実施形態A41またはA42に記載の方法。
【0634】
A44.1つまたは複数のマイクロプロセッサおよびメモリを含むシステムであって、
メモリが、1つまたは複数のマイクロプロセッサにより実行可能な命令を含み、メモリが、参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りを含み、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、1つまたは複数のマイクロプロセッサにより実行可能な命令が、
(a)マイクロプロセッサを使用して、(i)各部分へとマッピングした配列の読取りのカウント、または(ii)他の部分特異的パラメータを、部分特異的な胎児核酸のフラクションへと、各部分と独立に関連する重み付け係数に従って重み付けし、これにより、部分特異的胎児フラクションの推定値を、重み付け係数に従って提示し、
重み付け係数の各々が、(i)複数の試料の各々についての胎児核酸のフラクションと、(ii)複数の試料についての、各部分へとマッピングした配列の読取りのカウント、または他の部分特異的パラメータとの、各部分について適合させた関係から決定されており、
(b)胎児核酸のフラクションを、試験試料について、部分特異的胎児フラクションの推定値に基づき推定する
ように構成されている、システム。
【0635】
A45.1つまたは複数のマイクロプロセッサおよびメモリを含むマシンであって、
メモリが、1つまたは複数のマイクロプロセッサにより実行可能な命令を含み、メモリが、参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りを含み、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、1つまたは複数のマイクロプロセッサにより実行可能な命令が、
(a)マイクロプロセッサを使用して、(i)各部分へとマッピングした配列の読取りのカウント、または(ii)他の部分特異的パラメータを、部分特異的な胎児核酸のフラクションへと、各部分と独立に関連する重み付け係数に従って重み付けし、これにより、部分特異的胎児フラクションの推定値を、重み付け係数に従って提示し、
重み付け係数の各々が、(i)複数の試料の各々についての胎児核酸のフラクションと、(ii)複数の試料についての、各部分へとマッピングした配列の読取りのカウント、または他の部分特異的パラメータとの、各部分について適合させた関係から決定されており、
(b)胎児核酸のフラクションを、試験試料について、部分特異的胎児フラクションの推定値に基づき推定する
ように構成されている、マシン。
【0636】
A46.実行可能なプログラムをその上に内蔵した非一時的なコンピュータ可読記憶媒体であって、プログラムが、マイクロプロセッサに、以下を行う:
(a)参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りにアクセスし、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、
(b)マイクロプロセッサを使用して、(i)各部分へとマッピングした配列の読取りのカウント、または(ii)他の部分特異的パラメータを、部分特異的な胎児核酸のフラクションへと、各部分と独立に関連する重み付け係数に従って重み付けし、これにより、部分特異的胎児フラクションの推定値を、重み付け係数に従って提示し、
重み付け係数の各々が、(i)複数の試料の各々についての胎児核酸のフラクションと、(ii)複数の試料についての、各部分へとマッピングした配列の読取りのカウント、または他の部分特異的パラメータとの、各部分について適合させた関係から決定されており、
(c)胎児核酸のフラクションを、試験試料について、部分特異的胎児フラクションの推定値に基づき推定する
ように命令する、非一時的なコンピュータ可読記憶媒体。
【0637】
B1.妊娠中の雌に由来する試験試料中の胎児核酸のフラクションを推定するための方法であって、
(a)参照ゲノムの部分へとマッピングした配列の読取りのカウントを得るステップであって、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りである、ステップと、
(b)(i)マイクロプロセッサを使用して、各部分へとマッピングした配列の読取りのカウントを、各部分へと独立に割り当てられた重み付け係数に従って調整し、これにより、調整されたカウントを、部分について提示するか、または
(b)(ii)マイクロプロセッサを使用して、部分のサブセットを選択し、これにより、カウントのサブセットを提示するステップであって、
(b)(i)における調整するステップ、または(b)(ii)における選択するステップが、マッピングした、胎児核酸に由来する読取りの量が多い部分に従う、ステップと、
(c)胎児核酸のフラクションを、試験試料について、調整されたカウントまたはカウントのサブセットに基づき推定するステップと
を含む方法。
【0638】
B2.マッピングした、胎児核酸に由来する読取りの量が多い部分が、XのYに対する比に従って決定され、Xが、第1の選択された断片の長さ未満の長さを有する、循環無細胞(CCF)断片に由来する読取りの量であり、Yが、第2の選択された断片の長さ未満の長さを有する、CCF断片に由来する読取りの量である、実施形態B1に記載の方法。
【0639】
B3.比が、複数の試料についての平均値比である、実施形態B2に記載の方法。
【0640】
B4.重み付け係数が、複数の部分について平均された平均値比超の平均値比を有する部分に従って決定されるか、または該複数の部分が、これに従って選択される、実施形態B3に記載の方法。
【0641】
B5.第1の選択された断片の長さが、約140〜約160塩基であり、第2の選択された断片の長さが、約500〜約700塩基である、実施形態B2からB4のいずれか1つに記載の方法。
【0642】
B6.第1の選択された断片の長さが、約150塩基であり、第2の選択された断片の長さが、約600塩基である、実施形態B5に記載の方法。
【0643】
B7.1つまたは複数のマイクロプロセッサおよびメモリを含むシステムであって、
メモリが、1つまたは複数のマイクロプロセッサにより実行可能な命令を含み、メモリが、参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りを含み、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、1つまたは複数のマイクロプロセッサにより実行可能な命令が、
(a)(i)マイクロプロセッサを使用して、各部分へとマッピングした配列の読取りのカウントを、各部分へと独立に割り当てられた重み付け係数に従って調整し、これにより、調整されたカウントを、部分について提示するか、または
(a)(ii)マイクロプロセッサを使用して、部分のサブセットを選択し、これにより、カウントのサブセットを提示し、
(b)(i)における調整すること、または(b)(ii)における選択することが、マッピングした、胎児核酸に由来する読取りの量が多い部分に従い、
(b)胎児核酸のフラクションを、試験試料について、調整されたカウントまたはカウントのサブセットに基づき推定する
ように構成されている、システム。
【0644】
B8.1つまたは複数のマイクロプロセッサおよびメモリを含むマシンであって、
メモリが、1つまたは複数のマイクロプロセッサにより実行可能な命令を含み、メモリが、参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りを含み、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、1つまたは複数のマイクロプロセッサにより実行可能な命令が、
(a)(i)マイクロプロセッサを使用して、各部分へとマッピングした配列の読取りのカウントを、各部分へと独立に割り当てられた重み付け係数に従って調整し、これにより、調整されたカウントを、部分について提示するか、または
(a)(ii)マイクロプロセッサを使用して、部分のサブセットを選択し、これにより、カウントのサブセットを提示し、
(b)(i)における調整すること、または(b)(ii)における選択することが、マッピングした、胎児核酸に由来する読取りの量が多い部分に従い、
(b)胎児核酸のフラクションを、試験試料について、調整されたカウントまたはカウントのサブセットに基づき推定する
ように構成されている、マシン。
【0645】
B9.実行可能なプログラムをその上に内蔵した非一時的なコンピュータ可読記憶媒体であって、プログラムが、マイクロプロセッサに、以下を行う:
(a)参照ゲノムの部分へとマッピングしたヌクレオチド配列の読取りにアクセスし、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、
(b)(i)マイクロプロセッサを使用して、各部分へとマッピングした配列の読取りのカウントを、各部分へと独立に割り当てられた重み付け係数に従って調整し、これにより、調整されたカウントを、部分について提示するか、または
(b)(ii)マイクロプロセッサを使用して、部分のサブセットを選択し、これにより、カウントのサブセットを提示し、
(b)(i)における調整すること、または(b)(ii)における選択することが、マッピングした、胎児核酸に由来する読取りの量が多い部分に従い、
(c)胎児核酸のフラクションを、試験試料について、調整されたカウントまたはカウントのサブセットに基づき推定する
ように命令する、非一時的なコンピュータ可読記憶媒体。
【0646】
C1.妊娠中の雌に由来する試験試料中の胎児核酸のフラクションの推定の精度を増加させるための方法であって、参照ゲノムの部分へとマッピングした配列の読取りのカウントを得るステップを含み、配列の読取りが、妊娠中の雌に由来する試験試料に由来する循環無細胞核酸の読取りであり、得られたカウントの少なくともサブセットが、ゲノムの領域であって、ゲノムの別の領域の、全カウントと比べた胎児核酸のカウントより、その領域に由来する、全カウントと比べた胎児核酸に由来するカウント数が大きいことに寄与する領域に由来する方法。
【0647】
C2.マイクロプロセッサを使用して、各部分へとマッピングした配列の読取りのカウントを、各部分へと独立に割り当てられた重み付け係数に従って調整し、これにより、調整されたカウントを、部分について提示するか、またはマイクロプロセッサを使用して、部分のサブセットを選択し、これにより、カウントのサブセットを提示するステップと、
胎児核酸のフラクションを、試験試料について、調整されたカウントまたはカウントのサブセットに基づき推定するステップとを含む、実施形態C1に記載の方法。
【0648】
C3.胎児核酸に由来するカウント数が大きいことに寄与するゲノムの領域が、XのYに対する比に従って決定され、Xが、第1の選択された断片の長さ未満の長さを有する、循環無細胞(CCF)断片に由来する読取りの量であり、Yが、第2の選択された断片の長さ未満の長さを有する、CCF断片に由来する読取りの量である、実施形態C1またはC2に記載の方法。
【0649】
C4.比が、複数の試料についての平均値比である、実施形態C3に記載の方法。
【0650】
C5.重み付け係数が、複数の部分について平均された平均値比超の該平均値比を有する部分に従って決定されるか、または該複数の部分が、これに従って選択される、実施形態C4に記載の方法。
【0651】
C6.第1の選択された断片の長さが、約140〜約160塩基であり、第2の選択された断片の長さが、約500〜約700塩基である、実施形態C3からC5のいずれか1つに記載の方法。
【0652】
C7.第1の選択された断片の長さが、約150塩基であり、第2の選択された断片の長さが、約600塩基である、実施形態C6に記載の方法。
【0653】
本明細書において参照される特許、特許出願、出版物、および文書それぞれについて、その全体を、本明細書により参照によって援用する。上記特許、特許出願、出版物、および文書の引用は、上記資料のいずれかが、関連する先行技術であることを承認するものではなく、またこれらの出版物または文書の内容または日付に関していかなる承認となるものでもない。
【0654】
本技術の基本的な態様から逸脱せずに、上記について修正を行うことができる。本技術は、1つまたは複数の特定の実施形態を参照しながら、かなり詳細に記載されており、当業者は、本出願で具体的に開示されている実施形態に変更を行うことが可能であることを認識するであろうが、これらの修正および改良は、依然として本技術の範囲および精神内である。
【0655】
本明細書に例示として記載する本技術は、本明細書に特に開示されないエレメント(複数可)のいずれかが存在しなくても好適に実践可能である。したがって、例えば、本明細書の各事例において、用語「を含む(comprising)」、「本質的に〜からなる(consisting essentially of)」、および「からなる(consisting of)」のいずれも、他方の2つの用語と置き換え可能である。採用された用語および語句は、制限ではなく説明の用語として使用され、またかかる用語および語句の使用が、示され記載された特性、またはそのセグメントと等価なものをいずれも除外するものではなく、様々な修正が、特許請求された技術の範囲内で可能である。用語「1つの(a)」または「1つの(an)」は、エレメントのうちの1つ、またはエレメントのうちの1つ超が記載されていることが文脈上明白でない限り、それが修飾する1つまたは複数のエレメントを指し得る(例えば、「試薬(a reagent)」は、1つまたは複数の試薬を意味し得る)。用語「約(about)」は、本明細書で使用する場合、基礎となるパラメータの10%以内の値を指す(すなわち、プラスまたはマイナス10%)、および連なった値の最初で用語「約」を使用する場合、その用語は値のそれぞれを修飾する(すなわち、「約1、2、および3」は、約1、約2、および約3を指す)。例えば、「約100グラム」の重量は、90グラム〜110グラムの間の重量を含み得る。さらに、値の列挙が本明細書に記載される場合(例えば、約50%、60%、70%、80%、85%、または86%)、列挙には、全ての中間の値およびその分数の値(例えば、54%、85.4%)が含まれる。したがって、本技術は、代表的な実施形態および任意選択的な特性により具体的に開示されているものの、本明細書で開示する概念の修正および変更は当業者により実施可能であると理解すべきであり、かかる修正および変更は本技術の範囲内とみなされる。
【0656】
本技術のある特定の実施形態を、後続する特許請求の範囲に記載する。