特開2023-18120 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セクエノム，　インコーポレイテッドの特許一覧

特開2023-18120遺伝子片の評価のための方法およびプロセス

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

<図1>

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023018120

(43)【公開日】2023-02-07

(54)【発明の名称】遺伝子片の評価のための方法およびプロセス

(51)【国際特許分類】

C12Q 1/6883 20180101AFI20230131BHJP

C12M 1/34 20060101ALI20230131BHJP

G01N 33/50 20060101ALI20230131BHJP

G01N 33/48 20060101ALI20230131BHJP

C12N 15/12 20060101ALN20230131BHJP

C12Q 1/6869 20180101ALN20230131BHJP

【ＦＩ】

C12Q1/6883 Z

C12M1/34 Z

G01N33/50 P

G01N33/48 Z

C12N15/12

C12Q1/6869 Z

【審査請求】有

【請求項の数】1

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022190024

(22)【出願日】2022-11-29

(62)【分割の表示】P 2019539893の分割

【原出願日】2018-01-24

(31)【優先権主張番号】62/449,766

(32)【優先日】2017-01-24

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ｉＰａｄ

(71)【出願人】

【識別番号】504159534

【氏名又は名称】セクエノム，インコーポレイテッド

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】ジョンエー．タイナン

(72)【発明者】

【氏名】アミンマズルーム

(72)【発明者】

【氏名】イージンウー

(72)【発明者】

【氏名】マークウィッデン

(72)【発明者】

【氏名】マシアスエーリック

(57)【要約】

【課題】テストサンプルに対する遺伝子コピー数変異（ＣＮＶ）の非侵襲的分類のための方法を提供する。
【解決手段】テストサンプルに対するサブ染色体領域におけるＣＮＶの存在または非存在を分類するための方法が提供され、その方法は、a)セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程；b)第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、第２のセットは、所定のゲノム部分セットであり、(a)および(b)におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程を含み、(a)、または(b)、または(a)および(b)に従ってテストサンプルに対するサブ染色体領域におけるＣＮＶの存在または非存在の分類が提供される。
【選択図】図４

【特許請求の範囲】

【請求項1】

明細書に記載の発明。

【発明の詳細な説明】

【技術分野】

【0001】

関連特許出願
本出願は、２０１７年１月２４日に出願された米国仮特許出願６２／４４９，７６６号の利益を主張する。前記仮特許出願の全体の内容は、全ての目的のため、その全体が本明細書に援用される。

【0002】

分野
本明細書中に提供される技術は、テストサンプルに対する遺伝子コピー数変異（ＣＮＶ）の非侵襲的分類のための方法、システム、機器およびコンピュータプログラム製品に部分的に関する。本明細書中に提供される技術は、例えば、非侵襲的出生前（ＮＩＰＴ）検査および腫瘍学検査の一部としての、サンプルに対する遺伝子ＣＮＶの分類に有用である。

【背景技術】

【0003】

背景
生命体（例えば、動物、植物および微生物）および遺伝情報を複製する他の形態（例えば、ウイルス）の遺伝情報は、デオキシリボ核酸（ＤＮＡ）またはリボ核酸（ＲＮＡ）にコードされている。遺伝情報は、化学的核酸または仮説的核酸の１次構造に相当するひと続きのヌクレオチドまたは修飾ヌクレオチドである。ヒトの全ゲノムは、２４本の染色体上に位置づけられた約３０，０００種の遺伝子を含んでいる（すなわち、２２本の常染色体、Ｘ染色体およびＹ染色体；ＴｈｅＨｕｍａｎＧｅｎｏｍｅ，Ｔ．Ｓｔｒａｃｈａｎ，ＢＩＯＳＳｃｉｅｎｔｉｆｉｃＰｕｂｌｉｓｈｅｒｓ，１９９２を参照のこと）。各遺伝子は、特定のタンパク質をコードしており、そのタンパク質は、転写および翻訳を介した発現の後、生細胞内で特定の生化学的機能を果たす。

【0004】

多くの医学的症状が、１つまたはそれを超える遺伝子変異および／または遺伝子変化によって引き起こされる。ある特定の遺伝子変異および／または遺伝子変化は、例えば、血友病、サラセミア、デュシェンヌ型筋ジストロフィー（ＤＭＤ）、ハンチントン病（ＨＤ）、アルツハイマー病および嚢胞性線維症（ＣＦ）をはじめとした医学的症状を引き起こす（ＨｕｍａｎＧｅｎｏｍｅＭｕｔａｔｉｏｎｓ，Ｄ．Ｎ．ＣｏｏｐｅｒａｎｄＭ．Ｋｒａｗｃｚａｋ，ＢＩＯＳＰｕｂｌｉｓｈｅｒｓ，１９９３）。そのような遺伝性疾患は、特定の遺伝子のＤＮＡにおける単一ヌクレオチドの付加、置換または欠失によって生じ得る。ある特定の出生時欠損は、異数性とも称される染色体異常、例えば、トリソミー２１（ダウン症候群）、トリソミー１３（パトー症候群）、トリソミー１８（エドワーズ症候群）、モノソミーＸ（ターナー症候群）、およびある特定の性染色体異数性、例えば、クラインフェルター症候群（ＸＸＹ）によって引き起こされる。別の遺伝子変異は、性染色体ＸおよびＹに基づいて判定され得ることが多い胎児の性別である。いくつかの遺伝子変異は、個体をいくつかの疾患（例えば、糖尿病、動脈硬化症、肥満症、様々な自己免疫疾患および癌（例えば、直腸結腸癌、乳癌、卵巣癌、肺癌、膀胱癌、胃癌、子宮頸癌、腎臓癌、前立腺癌、脳癌および食道癌））のいずれかにさせ得るか、またはそれらを引き起こし得る。

【0005】

１つまたはそれを超える遺伝子変異および／もしくは遺伝子変化（例えば、コピー数変化、コピー数変異、単一ヌクレオチド変化、単一ヌクレオチド変異、染色体変化、転座、欠失、挿入など）または遺伝分散が特定されると、特定の医学的症状を診断することができるか、または特定の医学的症状に対する素因を判定することができる。遺伝分散が特定されると、医学的決断を促すことができ、かつ／または有益な医学的手技を用いることができる。ある特定の実施形態において、１つまたはそれを超える遺伝子変異および／または遺伝子変化の特定には、循環無細胞核酸の解析が必要である。循環無細胞核酸（ＣＣＦ－ＮＡ）、例えば、無細胞ＤＮＡ（ＣＣＦ－ＤＮＡ）は、細胞死に由来し、末梢血の中を循環しているＤＮＡフラグメントから構成されている。高濃度のＣＦ－ＤＮＡは、ある特定の臨床症状、例えば、癌、外傷、熱傷、心筋梗塞、脳卒中、敗血症、感染症および他の疾病を示唆することができる。さらに、無細胞胎児ＤＮＡ（ＣＦＦ－ＤＮＡ）は、母体の血流中で検出され得、様々な非侵襲的出生前診断に使用され得る。

【発明の概要】

【課題を解決するための手段】

【0006】

要旨
テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法が本明細書中に提供され、その方法は、ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程；ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程を含み、（ａ）、または（ｂ）、または（ａ）および（ｂ）に従ってテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が提供される。

【0007】

ある特定の態様において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法が提供され、その方法は、ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程；ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；およびｃ）参照サンプルセットを基準とした（ａ）の領域内、（ｂ）のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程を含む。ａ）における領域は、サブ染色体領域を包含し得るか、またはサブ染色体領域とオーバーラップし得る。

【0008】

いくつかの実施形態において、第１のゲノム部分セットは、目的の表現型と関連するコピー数変異が存在すると予想される染色体における領域内の部分である。そのようなゲノム部分は、ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄｓｏｆＣｙｔｏｇｅｎｏｍｉｃＡｒｒａｙｓデータベース（ＩＳＣＡ）などの公的な疾患データベースをマイニングすることによって得ることができることが多い。１つの実施形態において、表現型は、微小欠失症候群である。１つの実施形態において、第１のゲノム部分セットは、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択される１つまたはそれを超えるゲノム部分である。

【0009】

ある特定の態様において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法が提供され、その方法は、ａ）ゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、ｉ）そのゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；ｉｉ）そのセットは、所定のゲノム部分セットであり；ｉｉｉ）その所定のゲノム部分セットは、あるプロセスによって特定されており、そのプロセスは、１）サブ染色体領域内に複数の候補サブ領域を提供する工程；２）訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程；および３）（ａ）におけるサブ領域を、所定のしきい値に等しいかまたはそれを超える精度尺度を提供するサブ領域として特定する工程を含む、工程；およびｂ）参照サンプルセットに対する配列リードの定量値を基準とした（ａ）における配列リードの定量値に従ってテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程を含む。

【0010】

１つまたはそれを超えるプロセッサおよびメモリを備えるシステムも本明細書中に提供され、そのメモリは、１つまたはそれを超えるプロセッサによって実行可能な指示を含み、その１つまたはそれを超えるプロセッサによって実行可能な指示は、
ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定するように設定されており；かつ／または

【0011】

ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供するように設定されており、ここで、その第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；ｃ）参照サンプルセットを基準とした（ａ）の領域内、（ｂ）のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供するように設定されている。

【0012】

コンピュータ可読記憶媒体としてのコンピュータプログラム製品も本明細書中に提供され、その製品は、コンピュータに対して、ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定するようにプログラムされた指示；および／またはｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供するようにプログラムされた指示であって、ここで、その第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、プログラムされた指示；およびｃ）参照サンプルセットを基準とした（ａ）の領域内、（ｂ）のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供するようにプログラムされた指示を含む。

【0013】

ある特定の実施形態が、以下の説明、実施例、請求項および図面においてさらに説明される。

【0014】

図面は、本技術のある特定の実施形態を例証するものであって、限定するものではない。例証を明確にするためおよび平易にするために、図面は、一定尺度で拡大縮小して作成されておらず、場合によっては、特定の実施形態の理解を促すために、様々な態様が誇張されてまたは拡大されて示されていることがある。

【図面の簡単な説明】

【0015】

【図1】図１は、本技術のある特定の実施形態を履行し得るシステムの例証的な実施形態を示している。

【0016】

【図2】図２は、２つの検出方法（すなわち、ゲノムワイド配列解析および集中的配列解析（ｆｏｃｕｓｅｄｓｅｑｕｅｎｃｅａｎａｌｙｓｉｓ））の場合の胎児比率に対する微小欠失の範囲を検出するための感度値を示している。

【0017】

【図3】図３は、ディジョージ症候群に関連する染色体２２ｑ１１．２欠失領域を示している。本明細書中で論じられるある特定の２２ｑ１１．２欠失の解析は、縦破線によって示される領域を含む。

【0018】

【図4】図４は、ＩＳＣＡデータベースに報告されていて、混合モデルにおいて使用されたゲノムＤＮＡ（ｇＤＮＡ）に存在する染色体２２ｑ１１．２欠失を示している。黒色の縦破線（すなわち、外側の縦破線のセット）は、本明細書中で論じられるゲノムワイド解析アルゴリズムを用いた２２ｑ１１．２欠失に対する解析ウィンドウを表している。灰色の縦破線（すなわち、内側の縦破線のセット）は、特定の２２ｑ１１．２欠失領域の周辺に最適化された２２ｑ１１．２欠失解析のための集中的解析ウィンドウを表している。

【0019】

【図5】図５Ａ～５Ｄは、全ゲノム配列決定によって解析される２２ｑ１１．２欠失の模式的描写を示している。シミュレートされた信号、ノイズおよび事象サイズを示すことにより、２２ｑ１１．２欠失が表されている。パネルＡ～Ｄは、より低いまたはより高い胎児比率とより小さいまたはより大きい事象サイズとの可能な組み合わせを有するサンプルを表している。図５Ａは、胎児比率が低いサンプルにおける大きな欠失事象の全ゲノム配列決定による解析を表している。シミュレートされた信号、ノイズおよび事象サイズを示すことにより、２２ｑ１１．２欠失が表されている。図５Ｂは、胎児比率が高いサンプルにおける大きな欠失事象の全ゲノム配列決定による解析を表している。シミュレートされた信号、ノイズおよび事象サイズを示すことにより、２２ｑ１１．２欠失が表されている。図５Ｃは、胎児比率が低いサンプルにおける小さな欠失事象の全ゲノム配列決定による解析を表している。シミュレートされた信号、ノイズおよび事象サイズを示すことにより、２２ｑ１１．２欠失が表されている。図５Ｄは、胎児比率が高いサンプルにおける小さな欠失事象の全ゲノム配列決定による解析を表している。シミュレートされた信号、ノイズおよび事象サイズを示すことにより、２２ｑ１１．２欠失が表されている。

【0020】

【図6】図６は、２２ｑ１１．２欠失を検出するための組み合わされた解析の感度を示している。

【発明を実施するための形態】

【0021】

詳細な説明
テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するのに有用な方法が、本明細書中に提供される。いくつかの実施形態において、配列決定プロセスに供されたサンプル核酸および得られた配列リードは、コピー数変異の存在または非存在を判定するためにさらに解析される。いくつかの実施形態において、コピー数変異の存在または非存在は、ゲノムワイド配列決定解析に従って分類される。いくつかの実施形態において、コピー数変異の存在または非存在は、集中的配列決定解析（例えば、所定のゲノムサブ領域に対する配列リードの解析）に従って分類される。集中的配列決定解析は、ある特定のタイプのサンプルにおけるコピー数変異を検出するための精度（例えば、感度）を改善し得る。いくつかの実施形態において、コピー数変異の存在または非存在は、ゲノムワイド配列決定解析および集中的配列決定解析に従って分類される。

【0022】

いくつかの実施形態において、本明細書中に記載される方法または方法の一部を行うシステム、機器およびコンピュータプログラム製品も提供される。
ゲノムワイド配列解析および／または集中的配列解析を用いたコピー数変異の分類

【0023】

サブ染色体領域におけるコピー数変異（例えば、微小欠失、微小重複）の存在または非存在を分類するための方法およびプロセスが、本明細書中に提供される。本明細書中で使用されるとき、微小欠失および微小重複は、共通して、５００万塩基対より小さい欠失または重複のことを指す。微小欠失および微小重複は、通常、小さすぎて、従来の細胞遺伝学的方法または高解像度核型分析では検出できない。本開示の方法およびシステムを用いることにより、微小欠失と微小重複の両方を正確に検出することができる。

【0024】

いくつかの実施形態において、コピー数変異の存在または非存在は、配列リードセットに従って分類される。いくつかの実施形態において、配列リードは、テストサンプル中の核酸に対して得られる。いくつかの実施形態において、配列リードは、参照ゲノムにおけるゲノム部分にマッピングされる。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントの存在または非存在を特定することを含む。本明細書中で使用されるとき、コピー数変異セグメントは、コピー数変異を含む染色体におけるセグメントである。いくつかの実施形態において、コピー数変異セグメントは、セグメント化プロセスを含む方法を用いて特定される。セグメント化プロセスを含む方法は、本明細書中に記載される決定分析などの決定分析を含み得る。セグメント化プロセスを含む方法は、ゲノムワイド配列解析方法の一部であり得る。セグメント化プロセスを含む方法は、プローブオリゴヌクレオチドによって捕捉された核酸の配列解析の一部であり得る。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ染色体領域内のサブ領域に対する配列リードの定量値を提供することを含む。例証的な一例として、サブ領域は、図４における灰色破線によって定義される領域である。

【0025】

いくつかの実施形態において、サブ領域は、所定のゲノム部分セットを含む。サブ領域に対する配列リードの定量値を提供することは、集中的配列解析の一部であり得る。サブ領域に対する配列リードの定量値を提供することは、プローブオリゴヌクレオチドによって捕捉された核酸の集中的配列解析の一部であり得る。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントの存在または非存在に従って提供される。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ染色体領域内のサブ領域に対する配列リードの定量値に従って提供される。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントの存在または非存在に従っておよびサブ染色体領域内のサブ領域に対する配列リードの定量値に従って提供される。

【0026】

いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ染色体領域内のサブ領域に対する配列リードの定量値を提供することを含み、そのサブ領域は、所定のゲノム部分セットを含む。所定のゲノム部分セットは、複数のサンプル（例えば、訓練セットの中の複数のサンプル）に対する１つまたはそれを超える精度尺度に従って特定され得る。一般に、その複数のサンプルのセット（例えば、訓練セット）の中の各サンプルは、目的のサブ染色体領域にコピー数変異を有すると分類される。その複数のサンプルのセットにおけるサンプルは、コピー数変異を有すると判明している１つ、もしくはそれを超える被験体から得られ得、かつ／またはコピー数変異を有するゲノムＤＮＡを参照サンプルに加えることによって生成され得、かつ／またはインシリコモデリングに従って生成され得る。目的のサブ染色体領域にコピー数変異を有することは、目的のサブ染色体領域内のゲノム座標において特定されたコピー数変異、目的のサブ染色体領域とオーバーラップするゲノム座標において特定されたコピー数変異、目的のサブ染色体領域に隣接するゲノム座標（例えば、目的のサブ染色体領域の約１メガベース以内）において特定されたコピー数変異などを含み得る。複数のサンプルのセットにおけるコピー数変異には、重複、微小重複、欠失および微小欠失が含まれ得る。重複および欠失は、任意のサイズであり得るが、微小重複および微小欠失は、通常、一般に小さすぎて従来の細胞遺伝学的方法または高解像度核型分析では検出できない５００万塩基より小さい重複および欠失のことを指す。

【0027】

複数のサンプルに対する精度尺度は、複数のサンプルに対してコピー数変異の存在または非存在（ｐｒｅｓｅｎｃｅｏｆａｂｓｅｎｃｅ）を判定するための任意の好適な精度尺度を含み得る。精度尺度には、感度、特異性、標準偏差、中央絶対偏差（ＭＡＤ）、確定性の尺度、信頼の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという確定性または信頼の尺度、不確定性の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという不確定性の尺度、変動係数（ＣＶ）、信頼水準、信頼区間（例えば、約９５％信頼区間）、標準得点（例えば、ｚ得点）、カイ値、ファイ値、ｔ検定の結果、ｐ値、倍数性値、当てはめられた少数種比率、面積比、中央値レベルなどまたはそれらの組み合わせが含まれ得る。いくつかの実施形態において、精度尺度は、感度を含む。

【0028】

通常、上記複数のサンプル（例えば、訓練セットの中の複数のサンプル）の各々は、既知のコピー数変異を有するので、コピー数変異を検出する精度を評価できる。いくつかの実施形態において、その複数のサンプルに対してコピー数変異を検出する精度は、最適化され得る。いくつかの実施形態において、その複数のサンプルに対してコピー数変異を検出する精度は、その複数のサンプルに対してコピー数変異の存在を分類するために最適な精度尺度を提供するゲノム部分セットを特定することによって最適化され得る。本明細書中に開示されるとき、用語「最適な精度」とは、所定の（ｐｒｅｄｅｔｅｒｍｉｎｅ）しきい値に等しいかまたはそれより高い精度尺度のことを指す。その所定のしきい値は、コピー数変異の存在または非存在を妥当な精度で検出するための最低限の要件と考えられる。当業者は、特定のアッセイに必要な任意の特定の精度尺度について所定のしきい値が何かを容易に決定できる。いくつかの実施形態において、複数のサンプルに対してコピー数変異を検出する精度は、複数のサンプルに対してコピー数変異の存在を分類するための最適な感度を提供するゲノム部分セットを特定することによって最適化され得る。いくつかの実施形態において、最適な精度尺度（例えば、最適な感度）を提供するゲノム部分セットは、所定のゲノム部分セットまたは所定のサブ領域と称される。いくつかの実施形態において、最適な精度尺度（例えば、最適な感度）を提供するゲノム部分セットは、１）目的のサブ染色体領域（例えば、可能性のあるコピー数変異を有するサブ染色体領域）内に複数の候補サブ領域を提供する工程；２）複数のサンプル（例えば、訓練セットの中の）に対する複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度（例えば、感度値）を提供すること；および３）その１つまたはそれを超える精度尺度に従って、最適な精度（例えば、最適な感度）を提供するサブ領域におけるゲノム部分セットを特定する工程を含むプロセスによって特定される。最適な精度尺度を提供するゲノム部分セットを特定するために提供される複数の候補サブ領域は、通常、互いに異なる１つまたはそれを超えるゲノム座標を有するサブ領域を含む。例えば、候補サブ領域は、それぞれユニークなゲノム座標を５’末端に有し得るか、それぞれユニークなゲノム座標を３’末端に有し得るか、またはユニークなゲノム座標を５’末端と３’末端の両方に有し得る。候補サブ領域は、互いに同じ長さであり得るか、または異なる長さであり得るか、またはその両方の組み合わせであり得る。

【0029】

いくつかの実施形態において、１つまたはそれを超える精度尺度は、感度尺度を含む。感度は、コピー数変異を有すると特定されたサンプルの数またはパーセンテージとして決定され得、ここで、そのサンプルは、コピー数変異を有する複数のサンプルセットに由来する。いくつかの実施形態において、複数のサンプル（例えば、訓練セットの中の）の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約７０％である。例えば、複数のサンプル（例えば、訓練セットの中の）の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約７０％、７１％、７２％、７３％、７４％、７５％、７６％、７７％、７８％、７９％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％または１００％であり得る。いくつかの実施形態において、複数のサンプル（例えば、訓練セットの中の）の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約７５％である。いくつかの実施形態において、複数のサンプル（例えば、訓練セットの中の）の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約８０％である。いくつかの実施形態において、複数のサンプル（例えば、訓練セットの中の）の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約８５％である。いくつかの実施形態において、複数のサンプル（例えば、訓練セットの中の）の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約９０％である。いくつかの実施形態において、複数のサンプル（例えば、訓練セットの中の）の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約９５％である。いくつかの実施形態において、複数のサンプル（例えば、訓練セットの中の）の各々を、目的のサブ染色体領域にコピー数変異を有すると分類するための感度は、少なくとも約９７％である。

【0030】

いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ領域（例えば、上に記載されたサブ領域）に対する配列リードの定量値を提供することを含む。サブ領域に対する配列リードの定量値は、配列リードカウント（例えば、リードカウントの直和、生のリードカウント、正規化されたリードカウント、フィルタリングされたリードカウント、リード密度、重み付けされたリードカウント、リードカウント比、平均リードカウント、リードカウント平均値、調整されたリードカウントなどおよびそれらの組み合わせ）であり得る。いくつかの実施形態において、サブ領域に対する配列リードの定量値は、正規化プロセスによって生成された、正規化された配列リードの定量値である。正規化プロセスは、ＧＣバイアスおよび／または他のバイアスを正規化する任意の好適な正規化を含み得る。ある特定の正規化プロセスの例が、本明細書中に記載される。いくつかの実施形態において、正規化プロセスは、ＬＯＥＳＳ正規化を含む。いくつかの実施形態において、正規化プロセスは、主成分正規化を含む。サブ染色体領域におけるコピー数変異の存在または非存在の分類は、参照サンプルセットを基準とした配列リードの定量値の変化に基づき得る。本開示の目的で、参照サンプルセットは、テストサンプル中の検出されるべきコピー数変異を有しないと特定された任意のサンプルであり得る。参照サンプルは、コピー数変異を有しない被験体の、同様の組織タイプおよび／または同様の集団タイプに由来し得る。

【0031】

いくつかの実施形態において、サブ領域に対する配列リードの定量値は、標準得点である。いくつかの実施形態において、サブ領域に対する配列リードの定量値は、ｚ得点である。ｚ得点は、サブ領域に対するものであるときがあり、サブ領域に含まれる各ゲノム部分に割り当てられるときがある。ｚ得点は、以下：
Ｚ_ＳＵＢ＝（ＳＵＢ_ｓｃｑ－ＳＵＢ_ｍｃｑ）／ＭＡＤ
に従ってサブ領域に対して生成され得る（Ｚ_ＳＵＢ）。

【0032】

式中、ＳＵＢ_ｓｃｑは、サブ領域のテストサンプルカウント定量値であり（例えば、ＳＵＢ_ｓｃｑは、テストサンプルに対するサブ領域における正規化された全カウントを常染色体の正規化された全カウントで除算した結果であり得る）；ＳＵＢ_ｍｃｑは、参照サンプルセットに対して生成されたサブ領域に対するカウント定量値の中央値であり；ＭＡＤは、参照サンプルセットに対するサブ領域のカウント定量値に対して決定された中央絶対偏差である。ある特定の場合において、ＳＵＢ_ｍｃｑは、参照サンプルセットに対して生成されたサブ領域に対するカウント定量値の平均値であり；上記方程式の分母は、参照サンプルセットに対するサブ領域のカウント定量値に対して決定された標準偏差である。ある特定の場合において、ＳＵＢ_ｓｃｑは、テストサンプルに対するサブ領域における全カウントを常染色体の全カウントで除算した結果であり得る。常染色体の全カウントは、本明細書中に記載されるように、正規化され得るか（例えば、ＧＣ正規化され得るか）、フィルタリングされ得るか（例えば、リピート領域がフィルタリングされて除外され得、低マッピング性領域がフィルタリングされて除外され得、かつ／または他の領域が本明細書中に記載されるようにフィルタリングされて除外され得るか）、または正規化され、かつフィルタリングされ得る。ある特定の場合において、ＳＵＢ_ｓｃｑは、サブ領域における全カウント（例えば、正規化された全カウント）をテストサンプルのゲノムサブセットに対する全カウント（例えば、正規化された全カウント）で除算した結果であり得る。ゲノムサブセットとしては、例えば、すべての常染色体、すべての常染色体の一部、ある特定の常染色体、ある特定の常染色体の一部などおよびそれらの組み合わせが挙げられ得る。参照サンプルセットは、コピー数変異を有しないと分類されたサンプルを含み得る。いくつかの実施形態において、参照サンプルは、コピー数変異を有しないと分類されたサンプルからなる。したがって、いくつかの実施形態において、参照サンプルは、試験される各染色体および各染色体領域が正倍数性であるサンプルを含むかまたはそのようなサンプルからなる。参照サンプルは、ヒト被験体由来であり得る。いくつかの実施形態において、参照サンプルは、雌性体被験体由来である。いくつかの実施形態において、参照サンプルは、雄性体被験体由来である。いくつかの実施形態において、参照サンプルは、雄性体被験体および雌性体被験体由来である。参照サンプルは、１つの被験体由来のサンプルを含み得るか、または複数の被験体由来のサンプルを含み得る。参照サンプルは、１つの参照サンプルを含み得るが、複数のサンプルを含むことが多い。例えば、参照サンプルは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０、４０、５０、６０、７０、８０、９０、１００またはそれを超えるサンプルを含み得る。ｚ得点の代わりに、他の定量値を利用してもよく、それらの非限定的な例としては、正規スコア、ｚ値、標準化変数およびｔ統計量が挙げられる。

【0033】

いくつかの実施形態において、サブ領域に対するコピー数変異の存在または非存在は、ｚ得点のカットオフに従って分類される。ｚ得点のカットオフは、テストサンプルに対するコピー数変異の存在または非存在を判定するための好ましい感度および／または特異性のレベルに従って決定され得る。いくつかの実施形態において、ｚ得点のカットオフ値は、約２～約４という絶対値に設定される。例えば、ｚ得点のカットオフ値は、約２．０、２．１、２．２、２．３、２．４、２．５、２．６、２．７、２．８、２．９、３．０、３．１、３．２、３．３、３．４、３．５、３．６、３．７、３．８、３．９または４．０という絶対値に設定され得る。いくつかの実施形態において、ｚ得点のカットオフ値は、約３～約５という絶対値に設定される。例えば、ｚ得点のカットオフ値は、約３．０、３．１、３．２、３．３、３．４、３．５、３．６、３．７、３．８、３．９、４．０、４．１、４．２、４．３、４．４、４．５、４．６、４．７、４．８、４．９または５．０という絶対値に設定され得る。いくつかの実施形態において、ｚ得点のカットオフ値は、約３．９～約４．０という絶対値に設定される。例えば、ｚ得点のカットオフ値は、約３．９０、３．９１、３．９２、３．９３、３．９４、３．９５、３．９６、３．９７、３．９８、３．９９または４．０という絶対値に設定され得る。いくつかの実施形態において、ｚ得点のカットオフ値は、約３．９５という絶対値に設定される。あるサブ領域に対する１つまたはそれを超えるｚ得点の絶対値が、選択されたカットオフ値より大きい場合、テストサンプルに対するコピー数変異の存在または非存在が判定され得る。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類は、サブ領域に対する配列リードの定量値（例えば、ｚ得点）に従って提供される。いくつかの実施形態において、本明細書中に記載される方法を用いて生成されたｚ得点が、－３未満、－３．２未満または－３．５未満、例えば、－３．９５未満である場合、サブ染色体領域における欠失の存在の分類が判定される。いくつかの実施形態において、ｚ得点が、３を超える、３．２を超える、３．５を超える、例えば、３．９５を超える場合、サブ染色体領域における重複の存在の分類が行われる。

【0034】

いくつかの実施形態において、サブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントの存在または非存在を特定することを含む。いくつかの実施形態において、コピー数変異セグメントは、セグメント化プロセスを含む方法を用いて特定される。セグメント化プロセスを含む方法は、本明細書中に記載される決定分析などの決定分析を含み得る。例えば、決定分析は、１つまたはそれを超える結果、結果の評価および一連の決定をもたらす１つまたはそれを超える方法を、それらの結果、評価および／またはそれらの決定の起こり得る帰結に基づいて適用すること、ならびに最終的な決定が行われるプロセスのある重大な局面において終了することを含むときがある。いくつかの実施形態において、決定分析は、決定木である。いくつかの実施形態において、コピー数変異セグメントの存在または非存在は、セグメント化プロセス（ｓｅｇｍｅｎｔａｔｉｏｎｐｒｏｃｅｓｓ）またはセグメント化プロセス（ｓｅｇｍｅｎｔｉｎｇｐｒｏｃｅｓｓ）を含む決定分析に従って特定される。

【0035】

いくつかの実施形態において、セグメント（例えば、コピー数変異をまたぐセグメント；コピー数変異セグメント）を特定するために、セグメント化プロセスが適用される。任意の好適なセグメント化プロセスを利用してよく、それらとしては、サーキュラーバイナリーセグメンテーション（ＣＢＳ）プロセスが挙げられるが、これに限定されない。ＣＢＳは一般に、尤度比統計量を用いて、１本の染色体を等しいコピー数の領域に繰り返し分割することによって機能する。ＣＢＳは、例えば、Ｏｌｓｈｅｎら（２００４）Ｂｉｏｓｔａｔｉｓｔｉｃｓ５：５５７－７２；Ｖｅｎｋａｔｒａｍａｎら（２００７）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２３：６５７－６３；Ｌａｉら（２００５）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２１：３７６３－７０；Ｗｉｌｌｅｎｂｒｏｃｋら（２００５）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２１：４０８４－９１に記載されている。ＣＢＳの代わりにまたはＣＢＳに加えて、他のプロセスを利用することができ、その非限定的な例としては、ウェーブレットセグメンテーション（例えば、Ｈａａｒウェーブレットセグメンテーション）、フーリエ変換、スライディングウィンドウｚ得点およびマルコフ鎖モデルが挙げられる。

【0036】

いくつかの実施形態において、コピー数変異の存在または非存在を分類する方法は、ゲノムワイド解析、すなわち、標的領域、例えば、２２ｑ１１．２を包含するゲノムウィンドウ内の事象、例えば、微小欠失または微小重複のエッジを見つけるためのサーキュラーバイナリーセグメンテーション（ＣＢＳ）法に基づく解析を用いる。ＣＢＳは、小さな欠失を検出するために有用である。いくつかの実施形態において、コピー数変異の存在または非存在を分類する方法は、集中的な解析、すなわち、標的領域内の既定の領域を使用した解析を用いる。一般に、テストサンプルが、低い胎児比率、例えば、１０％未満の胎児比率を含むときは、集中的配列決定解析が、より信頼でき、かつ／またはより高感度である一方で、テストサンプルが、高い胎児比率、例えば、１０％超の胎児比率を含むときは、ゲノムワイド配列決定解析が、より高感度であり得るので、好ましい。例証的な実施形態を図２に示す。ある特定の実施形態において、上記方法は、ゲノムワイド解析と集中的配列決定解析の両方を使用し、ＣＢＳのエッジ検出能を使用することによって感度が最大化され、この方法によって、小さな欠失の特定、および集中的配列決定解析による低い胎児比率における感度の改善が可能になる。

【0037】

いくつかの実施形態において、セグメント化プロセスによって特定されたコピー数変異セグメントに対して定量値が生成される。いくつかの実施形態において、セグメント化プロセスは、コピー数変異セグメントに対する定量値を生成する。コピー数変異セグメントに対する定量値は、配列リードの定量値を含み得る。コピー数変異セグメントに対する配列リードの定量値は、配列リードカウント（例えば、リードカウントの直和、生のリードカウント、正規化されたリードカウント、フィルタリングされたリードカウント、リード密度、重み付けされたリードカウント、リードカウント比、平均リードカウント、リードカウント平均値、調整されたリードカウントなどおよびそれらの組み合わせ）であり得る。いくつかの実施形態において、コピー数変異セグメントに対する配列リードの定量値は、正規化プロセスによって生成された、正規化された配列リードの定量値である。正規化プロセスは、ＧＣバイアスおよび／または他のバイアスを正規化する任意の好適な正規化を含み得る。ある特定の正規化プロセスの例が本明細書中に記載される。いくつかの実施形態において、正規化プロセスは、ＬＯＥＳＳ正規化を含む。いくつかの実施形態において、正規化プロセスは、主成分正規化を含む。

【0038】

いくつかの実施形態において、コピー数変異セグメントに対する定量値は、標準得点である。いくつかの実施形態において、コピー数変異セグメントに対する定量値は、ｚ得点である。ｚ得点は、セグメントに対するものであるときがあり、セグメントに含まれる各ゲノム部分に割り当てられるときがある。ｚ得点は、以下：
Ｚ_ＳＥＧ＝（ＳＥＧ_ｓｃｑ－ＳＥＧ_ｍｃｑ）／ＭＡＤ
に従ってコピー数変異セグメントに対して生成され得る（Ｚ_ＳＥＧ）。

【0039】

式中、ＳＥＧ_ｓｃｑは、セグメントのテストサンプルカウント定量値であり（例えば、ＳＥＧ_ｓｃｑは、テストサンプルに対するセグメントにおける正規化された全カウントを常染色体の正規化された全カウントで除算した結果であり得る）；ＳＥＧ_ｍｃｑは、参照サンプルセットに対して生成されたセグメントに対するカウント定量値の中央値であり；ＭＡＤは、参照サンプルセットに対するセグメントのカウント定量値に対して決定された中央絶対偏差である。ある特定の場合において、ＳＥＧ_ｍｃｑは、参照サンプルセットに対して生成されたセグメントに対するカウント定量値の平均値であり；上記方程式の分母は、参照サンプルセットに対するセグメントのカウント定量値に対して決定された標準偏差である。ある特定の場合において、ＳＥＧ_ｓｃｑは、テストサンプルに対するサブ領域における全カウントを常染色体の全カウントで除算した結果であり得る。常染色体の全カウントは、本明細書中に記載されるように、正規化され得るか（例えば、ＧＣ正規化され得るか）、フィルタリングされ得るか（例えば、リピート領域がフィルタリングされて除外され得、低マッピング性領域がフィルタリングされて除外され得、かつ／または他の領域が本明細書中に記載されるようにフィルタリングされて除外され得るか）、または正規化され、かつフィルタリングされ得る。ある特定の場合において、ＳＥＧ_ｓｃｑは、テストサンプルに対するサブ領域における全カウント（例えば、正規化された全カウント）をゲノムサブセットに対する全カウント（例えば、正規化された全カウント）で除算した結果であり得る。ゲノムサブセットとしては、例えば、すべての常染色体、すべての常染色体の一部、ある特定の常染色体、ある特定の常染色体の一部などおよびそれらの組み合わせが挙げられ得る。参照サンプルセットは、任意の好適な参照セットであり得、本明細書中に記載される参照サンプルセットを含み得る。

【0040】

セグメンテーションに基づいてｚ得点コピー数定量値を生成するのに有用な方法論の非限定的な例（例えば、ＣＢＳ）は、Ｚｈａｏら、Ｃｌｉｎ．Ｃｈｅｍ．６１：４：６０８－６１６（２０１５）；Ｌｅｆｋｏｗｉｔｚら、ＡｍｅｒｉｃａｎＪｏｕｒｎａｌｏｆＯｂｓｔｅｔｒｉｃｓ＆Ｇｙｎｅｃｏｌｏｇｙ１．ｅ１（２０１６）；および国際特許出願番号ＰＣＴ／ＵＳ２０１４／０３９３８９（２０１４年５月２３日に出願され、２０１４年１１月２７日にＷＯ２０１４／１９０２８６として公開された）に記載されている。ｚ得点の代わりに、他の正規化されたＣＮＶ定量値を利用してもよく、その非限定的な例としては、正規スコア、ｚ値、標準化変数およびｔ統計量が挙げられる。

【0041】

いくつかの実施形態において、セグメントに対するコピー数変異の存在または非存在は、ｚ得点のカットオフに従って分類される。ｚ得点のカットオフは、テストサンプルに対してコピー数変異の存在または非存在を判定するための好ましい感度および／または特異性のレベルに従って決定され得る。いくつかの実施形態において、ｚ得点のカットオフ値は、約２～約４という絶対値に設定される。例えば、ｚ得点のカットオフ値は、約２．０、２．１、２．２、２．３、２．４、２．５、２．６、２．７、２．８、２．９、３．０、３．１、３．２、３．３、３．４、３．５、３．６、３．７、３．８、３．９または４．０という絶対値に設定され得る。いくつかの実施形態において、ｚ得点のカットオフ値は、約３～約５という絶対値に設定される。例えば、ｚ得点のカットオフ値は、約３．０、３．１、３．２、３．３、３．４、３．５、３．６、３．７、３．８、３．９、４．０、４．１、４．２、４．３、４．４、４．５、４．６、４．７、４．８、４．９または５．０という絶対値に設定され得る。いくつかの実施形態において、ｚ得点のカットオフ値は、約３．９～約４．０という絶対値に設定される。例えば、ｚ得点のカットオフ値は、約３．９０、３．９１、３．９２、３．９３、３．９４、３．９５、３．９６、３．９７、３．９８、３．９９または４．０という絶対値に設定され得る。いくつかの実施形態において、ｚ得点のカットオフ値は、約３．９５という絶対値に設定される。あるセグメントに対する１つまたはそれを超えるｚ得点の絶対値が、選択されたカットオフ値より大きい場合、テストサンプルに対するコピー数変異の存在または非存在が判定され得る。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントに対する定量値（例えば、ｚ得点）に従って提供される。

【0042】

いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントに対する定量値（例えば、ｚ得点）およびサブ領域に対する配列リードの定量値（例えば、ｚ得点）に従って提供される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類は、コピー数変異セグメントに対する定量値（例えば、ｚ得点）またはサブ領域に対する配列リードの定量値（例えば、ｚ得点）に従って提供される。したがって、ある特定の場合では、セグメントとサブ領域の両方に対する定量値（例えば、ｚ得点）に従って分類が提供され、ある特定の場合では、セグメントに対する定量値（例えば、ｚ得点）またはサブ領域に対する定量値（例えば、ｚ得点）のいずれかに従って分類が提供される。

【0043】

いくつかの実施形態において、セグメントは、第１のゲノム部分セットを含み、サブ領域は、第２のゲノム部分セットを含む。いくつかの実施形態において、第１のゲノム部分セットおよび第２のゲノム部分セットは、同じゲノム部分を含む。いくつかの実施形態において、第１のゲノム部分セットおよび第２のゲノム部分セットは、同じゲノム部分からなる。いくつかの実施形態において、第１のゲノム部分セットおよび第２のゲノム部分セットは、異なるゲノム部分を含む。いくつかの実施形態において、第１のゲノム部分セットおよび第２のゲノム部分セットは、同じであるいくつかのゲノム部分および異なるいくつかのゲノム部分を含む。いくつかの実施形態において、第２のゲノム部分セットは、第１のゲノム部分セットのサブセットである。いくつかの実施形態において、第１のゲノム部分セットは、第２のゲノム部分セットのサブセットである。いくつかの実施形態において、第２のゲノム部分セットは、第１のゲノム部分セットとオーバーラップしている。いくつかの実施形態において、第２のゲノム部分セットは、第１のゲノム部分セットと部分的にオーバーラップしている。いくつかの実施形態において、第２のゲノム部分セットは、第１のゲノム部分セットより少ないゲノム部分を含む。いくつかの実施形態において、第２のゲノム部分セットは、第１のゲノム部分セットより多いゲノム部分を含む。

【0044】

いくつかの実施形態において、本明細書中の方法は、サブ染色体領域における微小重複の存在または非存在を分類する工程を含む。微小重複は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２番染色体、Ｘ染色体およびＹ染色体から選択される染色体における重複であり得る。いくつかの実施形態において、本明細書中の方法は、サブ染色体領域における微小欠失の存在または非存在を分類する工程を含む。微小欠失は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２番染色体、Ｘ染色体およびＹ染色体から選択される染色体における欠失であり得る。いくつかの実施形態において、微小欠失は、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択されるゲノム領域またはゲノム領域の一部における欠失である。いくつかの実施形態において、微小欠失または微小重複は、疾患または症候群と関連する。ある特定の微小欠失および／または微小重複に関連し得る症候群の例としては、１ｐ３６症候群、ディジョージ症候群、プラダー・ウィリー症候群、アンジェルマン症候群、ランガー・ギーディオン症候群、ヤコブセン症候群、ウォルフ・ヒルシュホーン症候群、ミラー・ディーカー症候群およびウィリアムズ・ビューレン症候群が挙げられる。ある特定のゲノム領域におけるコピー数変異と症候群との公知の関連および／または可能性のある関連の非限定的なリストを下記の表１に提供する。

【表1】

【0045】

いくつかの実施形態において、サブ染色体領域におけるコピー数変異は、そのサイズ（すなわち、長さ）によって特徴づけられる。サブ染色体領域におけるコピー数変異の長さとは、欠失（例えば、微小欠失の場合）または重複（例えば、微小重複の場合）した連続したヌクレオチド塩基数のことを指す。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約１メガベースまたはそれ未満である。例えば、サブ染色体領域におけるコピー数変異の長さは、約９００キロベース（ｋｂ）、８００ｋｂ、７００ｋｂ、６００ｋｂ、５００ｋｂ、４００ｋｂ、３００ｋｂ、２００ｋｂまたは１００ｋｂであり得る。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約１メガベース～約４０メガベースである。例えば、サブ染色体領域におけるコピー数変異の長さは、約１メガベース～約２メガベース、１メガベース～約３メガベース、１メガベース～約４メガベース、１メガベース～約５メガベース、１メガベース～約６メガベース、１メガベース～約７メガベース、１メガベース～約８メガベース、１メガベース～約９メガベース、１メガベース～約１０メガベース、１メガベース～約１１メガベース、１メガベース～約１２メガベース、１メガベース～約１３メガベース、１メガベース～約１４メガベース、１メガベース～約１５メガベース、１メガベース～約１６メガベース、１メガベース～約１７メガベース、１メガベース～約１８メガベース、１メガベース～約１９メガベース、１メガベース～約２０メガベース、１メガベース～約２５メガベース、１メガベース～約３０メガベース、１メガベース～約３５メガベースまたは１メガベース～約４０メガベースであり得る。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約１メガベース～約２０メガベースである。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約１メガベース～約１０メガベースである。いくつかの実施形態において、サブ染色体領域におけるコピー数変異の長さは、約１メガベース～約７メガベースである。

【0046】

いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約７０％の感度で分類される。例えば、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約７０％、７１％、７２％、７３％、７４％、７５％、７６％、７７％、７８％、７９％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％または１００％の感度で分類され得る。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約７５％の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約８０％の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約８５％の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約９０％の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約９５％の感度で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約９７％の感度で分類される。

【0047】

いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約９０％の特異性で分類される。例えば、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、９９．１％、９９．２％、９９．３％、９９．４％、９９．５％、９９．６％、９９．７％、９９．８％、９９．９％または１００％の特異性で分類され得る。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約９９％の特異性で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、少なくとも約９９．９％の特異性で分類される。いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在は、約１００％の特異性で分類される。

【0048】

いくつかの実施形態において、テストサンプル中の核酸は、試験被験体由来である。いくつかの実施形態において、テストサンプル中の核酸は、循環無細胞核酸を含む。いくつかの実施形態において、循環無細胞核酸は、試験被験体の血漿または血清由来である。いくつかの実施形態において、試験被験体は、雄性体である。いくつかの実施形態において、試験被験体は、ヒト雄性体である。いくつかの実施形態において、試験被験体は、雌性体である。いくつかの実施形態において、試験被験体は、ヒト雌性体である。いくつかの実施形態において、試験被験体は、妊婦である。いくつかの実施形態において、テストサンプル中の核酸は、母体核酸および胎児核酸を含む。いくつかの実施形態において、テストサンプル中の胎児核酸の比率は、約２５％未満である。例えば、テストサンプル中の胎児核酸の比率は、約２４％、２３％、２２％、２１％、２０％、１９％、１８％、１７％、１６％、１５％、１４％、１３％、１２％、１１％、１０％、９％、８％、７％、６％、５％、４％、３％、２％または１％であり得る。いくつかの実施形態において、テストサンプル中の胎児核酸の比率は、約１０％未満である。いくつかの実施形態において、テストサンプル中の胎児核酸の比率は、約５％未満である。いくつかの実施形態において、試験被験体は、癌患者であるか、または癌について検査もしくはスクリーニングされている被験体である。いくつかの実施形態において、テストサンプル中の核酸は、患者／宿主の核酸、および腫瘍の核酸または癌細胞由来の核酸を含む。いくつかの実施形態において、テストサンプル中の腫瘍／癌の核酸の比率は、約２５％未満である。例えば、テストサンプル中の腫瘍／癌の核酸の比率は、約２４％、２３％、２２％、２１％、２０％、１９％、１８％、１７％、１６％、１５％、１４％、１３％、１２％、１１％、１０％、９％、８％、７％、６％、５％、４％、３％、２％または１％であり得る。いくつかの実施形態において、テストサンプル中の腫瘍／癌の核酸の比率は、約１０％未満である。いくつかの実施形態において、テストサンプル中の腫瘍／癌の核酸の比率は、約５％未満である。

【0049】

サンプル
核酸を解析するためのシステム、方法および製品が、本明細書中に提供される。いくつかの実施形態において、核酸フラグメントの混合物中の核酸フラグメントが解析される。核酸フラグメントは、核酸鋳型と称され得、これらの用語は、本明細書中で交換可能に使用され得る。核酸の混合物は、同じまたは異なるヌクレオチド配列、異なるフラグメント長、異なる起源（例えば、ゲノム起源、胎児起源対母体起源、細胞または組織の起源、癌起源対非癌起源、腫瘍起源対非腫瘍起源、サンプル起源、被験体起源など）またはそれらの組み合わせを有する２つまたはそれを超える核酸フラグメント種を含み得る。

【0050】

本明細書中に記載されるシステム、方法および製品において使用される核酸または核酸混合物は、被験体（例えば、試験被験体）から得られたサンプルから単離されることが多い。被験体は、任意の生命体または非生命体であり得、それらとしては、ヒト、非ヒト動物、植物、細菌、真菌、原生生物（ｐｒｏｔｅｓｔ）または病原体が挙げられるが、これらに限定されない。任意のヒトまたは非ヒト動物を選択することができ、それらとしては、例えば、哺乳動物、爬虫類、鳥類、両生類、魚類、有蹄動物、反芻動物、牛（例えば、ウシ）、馬（例えば、ウマ）、山羊および羊（例えば、ヒツジ、ヤギ）、豚（例えば、ブタ）、ラクダ科動物（例えば、ラクダ、ラマ、アルパカ）、サル、類人猿（例えば、ゴリラ、チンパンジー）、クマ科動物（例えば、クマ）、家禽、イヌ、ネコ、マウス、ラット、魚類、イルカ、クジラおよびサメが挙げられ得る。被験体は、雄性体または雌性体（例えば、女性、妊婦）であり得る。被験体は、任意の齢であり得る（例えば、胚、胎児、乳児、小児、成体）。被験体は、癌患者、癌を有すると疑われる患者、緩解中の患者、癌の家族歴を有する患者および／または癌検診を受けている被験体であり得る。いくつかの実施形態において、試験被験体は、雌性体である。いくつかの実施形態において、試験被験体は、ヒト雌性体である。いくつかの実施形態において、試験被験体は、雄性体である。いくつかの実施形態において、試験被験体は、ヒト雄性体である。

【0051】

核酸は、任意のタイプの好適な生物学的検体またはサンプル（例えば、テストサンプル）から単離され得る。サンプルまたはテストサンプルは、被験体またはその一部（例えば、ヒト被験体、妊婦、癌患者、胎児、腫瘍）から単離されたまたは得られた任意の検体であり得る。検体の非限定的な例としては、血液または血液製剤（例えば、血清、血漿など）、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、髄液、洗浄液（例えば、気管支肺胞洗浄液、胃洗浄液、腹膜洗浄液、管洗浄液、耳洗浄液、関節鏡下洗浄液）、生検サンプル（例えば、着床前胚；癌生検材料）、腹腔穿刺（ｃｅｌｏｃｅｎｔｅｓｉｓ）サンプル、細胞（血液細胞、胎盤細胞、胚細胞、または胎児細胞、胎児の有核細胞もしくは胎児の細胞レムナント（ｃｅｌｌｕｌａｒｒｅｍｎａｎｔｓ）、正常細胞、異常細胞（例えば、癌細胞））またはそれらの一部分（例えば、ミトコンドリア、核、抽出物など）、雌性生殖管の洗液、尿、便、痰、唾液、鼻粘膜、前立腺液、洗浄液、精液、リンパ液、胆汁、涙、汗、母乳、乳汁などまたはそれらの組み合わせを含むがこれらに限定されない、被験体由来の流体または組織が挙げられる。いくつかの実施形態において、生物学的サンプルは、被験体由来の子宮頸部スワブである。核酸が抽出される流体または組織サンプルは、細胞を含まない（例えば、無細胞である）場合がある。いくつかの実施形態において、流体または組織サンプルは、細胞エレメントまたは細胞レムナントを含み得る。いくつかの実施形態において、胎児の細胞または癌細胞が、サンプル中に含まれ得る。

【0052】

サンプルは、液体サンプルであり得る。液体サンプルは、細胞外核酸（例えば、循環無細胞ＤＮＡ）を含み得る。液体サンプルの非限定的な例としては、血液または血液製剤（例えば、血清、血漿など）、尿、生検サンプル（例えば、癌を検出するための液体生検材料）、上に記載された液体サンプルなどまたはそれらの組み合わせが挙げられる。ある特定の実施形態において、サンプルは、液体生検材料であり、これは、疾患（例えば、癌）の存在または非存在、進行または緩解についての被験体由来の液体サンプルの評価のことを広く指す。液体生検材料は、固体（ｓｏｌｄ）生検材料（例えば、腫瘍生検材料）とともに、または固体生検材料の代替物として、使用され得る。ある特定の場合において、細胞外核酸が液体生検材料において解析される。

【0053】

いくつかの実施形態において、生物学的サンプルは、血液、血漿または血清であり得る。用語「血液」は、従来定義されてきたような、全血、血液製剤、または血液の任意の画分、例えば、血清、血漿、バフィーコートなどを包含する。血液またはその画分は、ヌクレオソームを含むことが多い。ヌクレオソームは、核酸を含み、無細胞であるか、または細胞内のものであるときがある。血液は、バフィーコートも含む。バフィーコートは、フィコール勾配を使用することによって単離されるときがある。バフィーコートは、白血球細胞（例えば、白血球、Ｔ細胞、Ｂ細胞、血小板など）を含み得る。血漿とは、抗凝固薬で処理された血液の遠心分離から生じる全血の画分のことを指す。血清とは、血液サンプルが凝固した後に残っている流体の水様の部分のことを指す。流体または組織サンプルは、病院またはクリニックが一般に従っている標準的なプロトコルに従って回収されることが多い。血液の場合、適切な量の末梢血（例えば、３～４０ミリリットル、５～５０ミリリットル）を回収することが多く、それは、調製の前または後に、標準的な手順に従って保管され得る。

【0054】

被験体の血液中に見られる核酸の解析は、例えば、全血、血清または血漿を用いて行われ得る。母体の血液中に見られる胎児ＤＮＡの解析は、例えば、全血、血清または血漿を用いて行われ得る。患者の血液中に見られる腫瘍ＤＮＡの解析は、例えば、全血、血清または血漿を用いて行われ得る。被験体（例えば、母体被験体；癌患者）から得られた血液から血清または血漿を調製するための方法は知られている。例えば、被験体の血液（例えば、妊婦の血液；癌患者の血液）は、血液凝固を防ぐために、ＥＤＴＡを含むチューブまたはＶａｃｕｔａｉｎｅｒＳＳＴ（ＢｅｃｔｏｎＤｉｃｋｉｎｓｏｎ，ＦｒａｎｋｌｉｎＬａｋｅｓ，Ｎ．Ｊ．）などの専用の市販品に入れられ得、次いで、遠心分離によって全血から血漿を得ることができる。血清は、遠心分離後の血液凝固ありまたはなしで得られ得る。遠心分離を用いる場合、その遠心分離は、通常、適切な速度、例えば、１，５００～３，０００×ｇで行われるが、これに限らない。血漿または血清は、さらなる遠心分離工程に供され、その後、核酸抽出に向けて新しいチューブに移され得る。全血の細胞を含まない部分に加えて、被験体由来の全血サンプルの遠心分離および血漿の除去後に得ることができるバフィーコート部分に濃縮された細胞画分からも核酸が回収され得る。

【0055】

サンプルは、不均一であり得る。例えば、サンプルは、１つより多い細胞型および／または１つもしくはそれを超える核酸種を含み得る。場合によっては、サンプルは、（ｉ）胎児細胞および母体細胞、（ｉｉ）癌細胞および非癌細胞、ならびに／または（ｉｉｉ）病原性細胞および宿主細胞を含み得る。場合によっては、サンプルは、（ｉ）癌の核酸および癌ではない核酸、（ｉｉ）病原体の核酸および宿主の核酸、（ｉｉｉ）胎児由来の核酸および母体由来の核酸、ならびに／またはより一般的には、（ｉｖ）変異型の核酸および野生型の核酸を含み得る。場合によっては、サンプルは、下記にさらに詳細に記載されるような少数核酸種（ｍｉｎｏｒｉｔｙｎｕｃｌｅｉｃａｃｉｄｓｐｅｃｙ）および多数核酸種（ｍａｊｏｒｉｔｙｎｕｃｌｅｉｃａｃｉｄｓｐｅｃｙ）を含み得る。場合によっては、サンプルは、単一の被験体由来の細胞および／もしくは核酸を含み得るか、または複数の被験体由来の細胞および／もしくは核酸を含み得る。

【0056】

細胞型
本明細書中で使用されるとき、「細胞型」とは、別のタイプの細胞と区別され得る細胞のタイプのことを指す。細胞外核酸は、いくつかの異なる細胞型由来の核酸を含み得る。核酸を循環無細胞核酸に導き得る細胞型の非限定的な例としては、肝臓細胞（例えば、肝細胞）、肺細胞、脾臓細胞、膵臓細胞、結腸細胞、皮膚細胞、膀胱細胞、眼細胞、脳細胞、食道細胞、頭部の細胞、頸部の細胞、卵巣の細胞、精巣の細胞、前立腺細胞、胎盤細胞、上皮細胞、内皮細胞、脂肪細胞、腎臓／腎細胞、心臓細胞、筋細胞、血液細胞（例えば、白血球）、中枢神経系（ＣＮＳ）細胞などおよび前述の細胞の組み合わせが挙げられる。いくつかの実施形態において、解析される循環無細胞核酸に核酸を導く細胞型には、白血球、内皮細胞および肝細胞肝臓細胞（ｈｅｐａｔｏｃｙｔｅｌｉｖｅｒｃｅｌｌｓ）が挙げられる。本明細書中でさらに詳細に記載されるように、マーカーの状態が、医学的症状を有する被験体における細胞型および医学的症状を有しない被験体における細胞型に対して同じまたは実質的に同じである核酸の遺伝子座を同定するおよび選択する一部として、種々の細胞型がスクリーニングされ得る。

【0057】

特定の細胞型は、医学的症状を有する被験体および医学的症状を有しない被験体において、同じまたは実質的に同じままであるときがある。非限定的な例において、特定の細胞型の生細胞または生存細胞の数が、ある細胞変性症状において減少し得、生きている生存細胞が、その医学的症状を有する被験体において、改変されないか、または有意に改変されない。

【0058】

特定の細胞型は、医学的症状の一部として改変されるときがあり、その元の状態とは異なる１つまたはそれを超える特性を有するときがある。非限定的な例において、特定の細胞型は、癌の症状の一部として、正常な速度よりも速い速度で増殖し得、異なる形態を有する細胞に癌化し得、１つもしくはそれを超える異なる細胞表面マーカーを発現する細胞に癌化し得、および／または腫瘍の一部になり得る。特定の細胞型（すなわち、前駆細胞）が医学的症状の一部として改変される実施形態において、アッセイされる１つまたはそれを超えるマーカーの各々に対するマーカーの状態は、その医学的症状を有する被験体におけるその特定の細胞型およびその医学的症状を有しない被験体におけるその特定の細胞型に対して同じまたは実質的に同じであることが多い。したがって、用語「細胞型」は、ある医学的症状を有しない被験体における細胞のタイプ、およびその医学的症状を有する被験体におけるその細胞の改変バージョンに関するときがある。いくつかの実施形態において、「細胞型」は、前駆細胞だけであり、前駆細胞から生じる改変バージョンではない。「細胞型」は、前駆細胞、および前駆細胞から生じる改変された細胞に関するときがある。そのような実施形態において、解析されるマーカーに対するマーカーの状態は、ある医学的症状を有する被験体における細胞型およびその医学的症状を有しない被験体における細胞型に対して同じまたは実質的に同じであることが多い。

【0059】

ある特定の実施形態において、細胞型は、癌細胞である。ある特定の癌細胞のタイプとしては、例えば、白血病細胞（例えば、急性骨髄性白血病、急性リンパ芽球性白血病、慢性骨髄性白血病、慢性リンパ芽球性白血病）；癌性腎臓／腎細胞（例えば、腎細胞癌（明細胞、１型乳頭状、２型乳頭状、嫌色素、膨大細胞、集合管）、腎腺癌、副腎腫、ウィルムス腫瘍、移行上皮癌腫）；脳腫瘍細胞（例えば、聴神経腫、星状細胞腫（グレードＩ：毛様細胞性星状細胞腫、グレードＩＩ：低悪性度星状細胞腫、グレードＩＩＩ：未分化星状細胞腫、グレードＩＶ：神経膠芽腫（ＧＢＭ））、脊索腫、ｃｎｓリンパ腫、頭蓋咽頭腫、神経膠腫（脳幹神経膠腫、上衣腫、混合性神経膠腫、視神経膠腫、上衣下腫）、髄芽腫、髄膜腫、転移性脳腫瘍、乏突起膠腫、下垂体腫瘍、原始神経外胚葉性腫瘍（ＰＮＥＴ）、神経鞘腫、若年性毛様細胞性星状細胞腫（ＪＰＡ）、松果体腫瘍、ラブドイド腫瘍）が挙げられる。

【0060】

異なる細胞型は、任意の好適な特色によって区別され得、その特色としては、１つまたはそれを超える異なる細胞表面マーカー、１つまたはそれを超える異なる形態学的特徴、１つまたはそれを超える異なる機能、１つまたはそれを超える異なるタンパク質（例えば、ヒストン）修飾および１つまたはそれを超える異なる核酸マーカーが挙げられるが、これらに限定されない。核酸マーカーの非限定的な例としては、単一ヌクレオチド多型（ＳＮＰ）、核酸遺伝子座のメチル化状態、短タンデム反復、挿入（例えば、微小挿入）、欠失（微小欠失）などおよびそれらの組み合わせが挙げられる。タンパク質（例えば、ヒストン）修飾の非限定的な例としては、アセチル化、メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化などおよびそれらの組み合わせが挙げられる。

【0061】

本明細書中で使用されるとき、用語「関連する細胞型」とは、別の細胞型と共通の複数の特色を有する細胞型のことを指す。関連する細胞型において、７５％またはそれを超える細胞表面マーカーが、その細胞型と共通しているときがある（例えば、細胞表面マーカーの約８０％、８５％、９０％もしくは９５％またはそれを超えるものが、関連する細胞型と共通している）。

【0062】

核酸
核酸を解析するための方法が、本明細書中に提供される。用語「核酸」、「核酸分子」、「核酸フラグメント」および「核酸鋳型」は、本開示全体を通じて交換可能に使用され得る。これらの用語は、例えば、ＤＮＡ（例えば、相補ＤＮＡ（ｃＤＮＡ）、ゲノムＤＮＡ（ｇＤＮＡ）など）、ＲＮＡ（例えば、メッセージＲＮＡ（ｍＲＮＡ）、低分子阻害ＲＮＡ（ｓｉＲＮＡ）、リボソームＲＮＡ（ｒＲＮＡ）、ｔＲＮＡ、マイクロＲＮＡ、胎児または胎盤によって高度に発現されるＲＮＡなど）、ならびに／またはＤＮＡアナログもしくはＲＮＡアナログ（例えば、塩基アナログ、糖アナログおよび／または非天然の骨格を含むものなど）、ＲＮＡ／ＤＮＡハイブリッドおよびポリアミド核酸（ＰＮＡ）からの任意の組成の核酸のことを指し、これらのすべてが、一本鎖または二本鎖の形態であり得、別段限定されない限り、天然に存在するヌクレオチドと同様の様式で機能し得る、天然のヌクレオチドの公知のアナログを含み得る。核酸は、ある特定の実施形態において、インビトロまたは宿主細胞、細胞、細胞核もしくは細胞の細胞質において複製することができるかまたは複製されることができる、プラスミド、ファージ、ウイルス、細菌、自律複製配列（ＡＲＳ）、ミトコンドリア、セントロメア、人工染色体、染色体または他の核酸であり得るか、またはそれらに由来し得る。いくつかの実施形態において、鋳型核酸は、単一の染色体に由来し得る（例えば、核酸サンプルは、二倍体生物から得られたサンプルの１本の染色体に由来し得る）。具体的に限定されない限り、この用語は、参照核酸と同様の結合特性を有し、および天然に存在するヌクレオチドと同様の様式で代謝される、天然のヌクレオチドの公知のアナログを含む核酸を包含する。別段示されない限り、特定の核酸配列は、その保存的に改変されたバリアント（例えば、縮重コドン置換）、対立遺伝子、オルソログ、単一ヌクレオチド多型（ＳＮＰ）および相補的配列ならびに明示的に示された配列も暗に包含する。具体的には、縮重コドン置換は、１つまたはそれを超える選択された（またはすべての）コドンの３番目の位置が、混合塩基および／またはデオキシイノシン残基で置換された配列を作製することによって達成され得る。核酸という用語は、遺伝子座、遺伝子、ｃＤＮＡ、および遺伝子によってコードされるｍＲＮＡと交換可能に使用される。この用語は、ヌクレオチドアナログから合成されたＲＮＡまたはＤＮＡの等価物、誘導体、バリアントおよびアナログとして、一本鎖ポリヌクレオチド（「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「順方向」読み枠または「逆方向」読み枠）および二本鎖ポリヌクレオチドも含み得る。用語「遺伝子」は、ポリペプチド鎖の生成に関わるＤＮＡの区域のことを指し；この用語は一般に、遺伝子産物の転写／翻訳および転写／翻訳の制御に関わるコード領域の前および後の領域（リーダーおよびトレーラー（ｔｒａｉｌｅｒ））、ならびに個々のコード領域（エキソン）の間の介在配列（イントロン）を含む。ヌクレオチドまたは塩基とは、一般に、核酸のプリンおよびピリミジン分子単位（例えば、アデニン（Ａ）、チミン（Ｔ）、グアニン（Ｇ）およびシトシン（Ｃ））のことを指す。ＲＮＡの場合、塩基チミンが、ウラシルで置き換えられる。核酸の長さまたはサイズは、塩基の数として表現され得る。

【0063】

核酸は、一本鎖または二本鎖であり得る。例えば、一本鎖ＤＮＡは、例えば、加熱またはアルカリによる処理によって、二本鎖ＤＮＡを変性することによって作製され得る。ある特定の実施形態において、核酸は、オリゴヌクレオチドまたはＤＮＡ様分子、例えば、ペプチド核酸（ＰＮＡ）による二重鎖ＤＮＡ分子のストランド侵入によって形成されるＤループ構造である。Ｄループの形成は、当該分野で公知の方法を用いて、例えば、大腸菌ＲｅｃＡタンパク質の添加および／または塩濃度の変更によって促進され得る。

【0064】

本明細書中に記載されるプロセスのために提供される核酸は、１つのサンプルまたは２つもしくそれを超えるサンプル（例えば、１つもしくはそれを超える、２つもしくはそれを超える、３つもしくはそれを超える、４つもしくはそれを超える、５つもしくはそれを超える、６つもしくはそれを超える、７つもしくはそれを超える、８つもしくはそれを超える、９つもしくはそれを超える、１０個もしくはそれを超える、１１個もしくはそれを超える、１２個もしくはそれを超える、１３個もしくはそれを超える、１４個もしくはそれを超える、１５個もしくはそれを超える、１６個もしくはそれを超える、１７個もしくはそれを超える、１８個もしくはそれを超える、１９個もしくはそれを超えるまたは２０個もしくはそれを超えるサンプル）由来の核酸を含み得る。

【0065】

核酸は、当該分野で公知の方法によって、１つまたはそれを超える供給源（例えば、生物学的サンプル、血液、細胞、血清、血漿、バフィーコート、尿、リンパ液、皮膚、土壌など）から得られ得る。生物学的サンプル（例えば、血液または血液製剤）からＤＮＡを単離するため、抽出するためおよび／または精製するために、任意の好適な方法を用いることができ、それらの非限定的な例としては、ＤＮＡ調製の方法（例えば、ＳａｍｂｒｏｏｋａｎｄＲｕｓｓｅｌｌ，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ３ｄｅｄ．，２００１に記載されているもの）、様々な商業的に入手可能な試薬またはキット、例えば、ＱｉａｇｅｎのＱＩＡａｍｐＣｉｒｃｕｌａｔｉｎｇＮｕｃｌｅｉｃＡｃｉｄＫｉｔ、ＱｉａＡｍｐＤＮＡＭｉｎｉＫｉｔもしくはＱｉａＡｍｐＤＮＡＢｌｏｏｄＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ，Ｈｉｌｄｅｎ，Ｇｅｒｍａｎｙ）、ＧｅｎｏｍｉｃＰｒｅｐ^ＴＭＢｌｏｏｄＤＮＡＩｓｏｌａｔｉｏｎＫｉｔ（Ｐｒｏｍｅｇａ，Ｍａｄｉｓｏｎ，Ｗｉｓ．）およびＧＦＸ^ＴＭＧｅｎｏｍｉｃＢｌｏｏｄＤＮＡＰｕｒｉｆｉｃａｔｉｏｎＫｉｔ（Ａｍｅｒｓｈａｍ，Ｐｉｓｃａｔａｗａｙ，Ｎ．Ｊ．）などまたはそれらの組み合わせが挙げられる。

【0066】

いくつかの実施形態において、核酸は、細胞溶解手順を用いて細胞から抽出される。細胞溶解の手順および試薬は、当該分野で公知であり、一般に、化学的溶解方法（例えば、洗浄剤、低張液、酵素的手順などまたはそれらの組み合わせ）、物理的溶解方法（例えば、フレンチプレス、超音波処理など）または電解による溶解方法によって行われ得る。任意の好適な溶解手順を用いることができる。例えば、化学的方法は、一般に、細胞を破壊するために溶解剤を用い、その細胞から核酸を抽出した後、カオトロピック塩で処理する。凍結／融解の後の粉砕、細胞プレスの使用などのような物理的方法も有用である。いくつかの場合において、高塩溶解手順および／またはアルカリ溶解手順が使用され得る。

【0067】

ある特定の実施形態において、核酸には、細胞外核酸が含まれ得る。用語「細胞外核酸」は、本明細書中で使用されるとき、実質的に細胞を有しない供給源から単離された核酸のことを指し得、「無細胞」核酸、「循環無細胞核酸」（例えば、ＣＣＦフラグメント、ｃｃｆＤＮＡ）および／または「無細胞循環核酸」とも称される。細胞外核酸は、血液（例えば、ヒト被験体の血液）に存在し得、その血液から得ることができる。細胞外核酸は、検出可能な細胞を含まないことが多く、細胞エレメントまたは細胞レムナントを含むことがある。細胞外核酸に対する細胞を含まない供給源の非限定的な例は、血液、血漿、血清および尿である。本明細書中で使用されるとき、用語「無細胞循環サンプル核酸を得る」には、サンプルを直接得ること（例えば、サンプル、例えば、テストサンプルを回収すること）またはサンプルを回収した別の者からサンプルを得ることが含まれる。理論に限定されるものではないが、細胞外核酸は、ある範囲にわたる一連の長さを有することが多い細胞外核酸（例えば、「ラダー」）の基礎をもたらす、細胞のアポトーシスおよび細胞の破壊の産物であり得る。いくつかの実施形態において、試験被験体由来のサンプル核酸は、循環無細胞核酸である。いくつかの実施形態において、循環無細胞核酸は、試験被験体の血漿または血清由来である。

【0068】

細胞外核酸は、種々の核酸種を含み得るので、ある特定の実施形態において、「不均一」と本明細書中で称される。例えば、癌を有する人の血清または血漿は、癌細胞（例えば、腫瘍、新形成）由来の核酸および非癌細胞由来の核酸を含み得る。別の例では、妊婦由来の血清または血漿は、母体核酸および胎児核酸を含み得る。場合によっては、癌の核酸または胎児の核酸は、核酸全体の約５％～約５０％であるときがある（例えば、全核酸の約４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８または４９％が癌の核酸または胎児の核酸である）。

【0069】

少なくとも２つの異なる核酸種が、細胞外核酸として、異なる量で存在し得、それらは、少数種および多数種と称されるときがある。ある特定の場合において、少数種の核酸は、罹患細胞型（例えば、癌細胞、喪失性の（ｗａｓｔｉｎｇ）細胞、免疫系に攻撃された細胞）に由来する。ある特定の実施形態において、遺伝子変異または遺伝子変化（例えば、コピー数変化、コピー数変異、単一ヌクレオチド変化、単一ヌクレオチド変異、染色体変化および／または転座）は、少数種の核酸について判定される。ある特定の実施形態において、遺伝子変異または遺伝子変化は、多数種の核酸について判定される。一般に、用語「少数」または「多数」は、任意の点において厳しく定義されると意図されていない。１つの態様において、「少数」と考えられる核酸は、例えば、サンプル中の全核酸の少なくとも約０．１％～サンプル中の全核酸の５０％未満の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約１％～サンプル中の全核酸の約４０％の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約２％～サンプル中の全核酸の約３０％の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約３％～サンプル中の全核酸の約２５％の存在量を有し得る。例えば、少数核酸は、サンプル中の全核酸の約１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１１％、１２％、１３％、１４％、１５％、１６％、１７％、１８％、１９％、２０％、２１％、２２％、２３％、２４％、２５％、２６％、２７％、２８％、２９％または３０％の存在量を有し得る。場合によっては、少数種の細胞外核酸は、核酸全体の約１％～約４０％であるときがある（例えば、その核酸の約１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１１％、１２％、１３％、１４％、１５％、１６％、１７％、１８％、１９％、２０％、２１％、２２％、２３％、２４％、２５％、２６％、２７％、２８％、２９％、３０％、３１％、３２％、３３％、３４％、３５％、３６％、３７％、３８％、３９％または４０％が少数種核酸である）。いくつかの実施形態において、少数核酸は、細胞外ＤＮＡである。いくつかの実施形態において、少数核酸は、アポトーシス組織由来の細胞外ＤＮＡである。いくつかの実施形態において、少数核酸は、細胞増殖性障害によって影響された組織由来の細胞外ＤＮＡである。いくつかの実施形態において、少数核酸は、腫瘍細胞由来の細胞外ＤＮＡである。いくつかの実施形態において、少数核酸は、細胞外の胎児ＤＮＡである。

【0070】

別の態様において、「多数」と考えられる核酸は、例えば、サンプル中の全核酸の５０％超～サンプル中の全核酸の約９９．９％の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約６０％～サンプル中の全核酸の約９９％の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約７０％～サンプル中の全核酸の約９８％の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約７５％～サンプル中の全核酸の約９７％の存在量を有し得る。例えば、多数核酸は、サンプル中の全核酸の少なくとも約７０％、７１％、７２％、７３％、７４％、７５％、７６％、７７％、７８％、７９％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％または９９％の存在量を有し得る。いくつかの実施形態において、多数核酸は、細胞外ＤＮＡである。いくつかの実施形態において、多数核酸は、細胞外の母体ＤＮＡである。いくつかの実施形態において、多数核酸は、健常組織由来のＤＮＡである。いくつかの実施形態において、多数核酸は、非腫瘍細胞由来のＤＮＡである。

【0071】

いくつかの実施形態において、少数種の細胞外核酸は、約５００塩基対またはそれ未満の長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約５００塩基対またはそれ未満の長さである）。いくつかの実施形態において、少数種の細胞外核酸は、約３００塩基対またはそれ未満の長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約３００塩基対またはそれ未満の長さである）。いくつかの実施形態において、少数種の細胞外核酸は、約２５０塩基対またはそれ未満の長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約２５０塩基対またはそれ未満の長さである）。いくつかの実施形態において、少数種の細胞外核酸は、約２００塩基対またはそれ未満の長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約２００塩基対またはそれ未満の長さである）。いくつかの実施形態において、少数種の細胞外核酸は、約１５０塩基対またはそれ未満の長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約１５０塩基対またはそれ未満の長さである）。いくつかの実施形態において、少数種の細胞外核酸は、約１００塩基対またはそれ未満の長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約１００塩基対またはそれ未満の長さである）。いくつかの実施形態において、少数種の細胞外核酸は、約５０塩基対またはそれ未満の長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約５０塩基対またはそれ未満の長さである）。

【0072】

核酸は、その核酸を含むサンプルの処理ありまたはなしで、本明細書中に記載される方法を行うために提供され得る。いくつかの実施形態において、核酸は、その核酸を含むサンプルの処理の後に、本明細書中に記載される方法を行うために提供される。例えば、核酸は、サンプルから抽出され得るか、単離され得るか、精製され得るか、部分的に精製され得るか、または増幅され得る。用語「単離された」は、本明細書中で使用されるとき、その元の環境（例えば、それが天然に存在する場合は天然の環境、または外因的に発現される場合は宿主細胞）から取り出された核酸のことを指し、ゆえに、人間の介入によって（例えば、「人間の手によって」）その元の環境から変更されている。用語「単離された核酸」は、本明細書中で使用されるとき、被験体（例えば、ヒト被験体）から取り出された核酸のことを指し得る。単離された核酸は、供給源サンプル中に存在する構成要素の量よりも少ない非核酸構成要素（例えば、タンパク質、脂質）とともに提供され得る。単離された核酸を含む組成物は、非核酸構成要素を約５０％から９９％超、含まないことがある。単離された核酸を含む組成物は、非核酸構成要素を約９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％または９９％超、含まないことがある。用語「精製された」は、本明細書中で使用されるとき、核酸を精製手順に供する前に存在する非核酸構成要素の量より少ない非核酸構成要素（例えば、タンパク質、脂質、炭水化物）を含む、提供される核酸のことを指し得る。精製された核酸を含む組成物は、他の非核酸構成要素を約８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％または９９％超、含まないことがある。用語「精製された」は、本明細書中で使用されるとき、核酸が由来するサンプル供給源よりも少ない核酸種を含む、提供される核酸のことを指し得る。精製された核酸を含む組成物は、他の核酸種を約９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％または９９％超、含まないことがある。例えば、胎児核酸は、母体核酸および胎児核酸を含む混合物から精製され得る。ある特定の例において、胎児核酸の小さいフラグメント（例えば、３０～５００ｂｐフラグメント）が、胎児核酸フラグメントと母体核酸フラグメントの両方を含む混合物から精製され得るか、または部分的に精製され得る。ある特定の例において、胎児核酸のより小さいフラグメントを含むヌクレオソームが、母体核酸のより大きいフラグメントを含むより大きいヌクレオソーム複合体の混合物から精製され得る。ある特定の例において、癌細胞の核酸は、癌細胞の核酸および非癌細胞の核酸を含む混合物から精製され得る。ある特定の例において、癌細胞の核酸の小さいフラグメントを含むヌクレオソームは、非癌核酸のより大きいフラグメントを含むより大きいヌクレオソーム複合体の混合物から精製され得る。いくつかの実施形態において、核酸は、その核酸を含むサンプルの事前の処理なしに、本明細書中に記載される方法を行うために提供される。例えば、核酸は、事前の抽出、精製、部分的な精製および／または増幅を行わずに、サンプルから直接解析され得る。

【0073】

いくつかの実施形態において、核酸、例えば、細胞の核酸は、本明細書中に記載される方法の前、方法の最中または方法の後に、剪断されるかまたは切断される。用語「剪断」または「切断」とは、核酸分子（例えば、核酸鋳型遺伝子分子またはその増幅産物）が２つの（またはそれを超える）より小さい核酸分子に切り離され得る手順または条件のことを一般に指す。そのような剪断または切断は、配列特異的、塩基特異的または非特異的であり得、例えば、化学的、酵素的、物理的剪断（例えば、物理的断片化）を含む、種々の方法、試薬または条件のいずれかによって達成され得る。剪断されたまたは切断された核酸は、約５～約１０，０００塩基対、約１００～約１，０００塩基対、約１００～約５００塩基対または約１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００もしくは９０００塩基対という名目上の長さ、平均の長さまたは長さの平均値を有し得る。

【0074】

剪断されたまたは切断された核酸は、好適な方法によって作製され得、その非限定的な例としては、物理的方法（例えば、剪断、例えば、超音波処理、フレンチプレス、加熱、ＵＶ照射など）、酵素的プロセス（例えば、酵素的切断剤（例えば、好適なヌクレアーゼ、好適な制限酵素、好適なメチル化感受性制限酵素））、化学的方法（例えば、アルキル化、ＤＭＳ、ピペリジン、酸加水分解、塩基加水分解、加熱などまたはそれらの組み合わせ）、米国特許出願公開番号２００５／０１１２５９０に記載されているプロセスなどまたはそれらの組み合わせが挙げられる。得られる核酸フラグメントの平均の長さ、長さの平均値または名目上の長さは、フラグメントを作製する適切な方法を選択することによって制御され得る。

【0075】

用語「増幅された」は、本明細書中で使用されるとき、サンプル中の標的核酸を、その標的核酸と同じもしくは実質的に同じヌクレオチド配列を有するアンプリコン核酸またはその一部を直線的または指数関数的に生成するプロセスに供することを指す。ある特定の実施形態において、用語「増幅された」とは、ポリメラーゼ連鎖反応（ＰＣＲ）を含む方法のことを指す。ある特定の場合において、増幅産物は、核酸鋳型配列の増幅されるヌクレオチド領域より多い１つまたはそれを超えるヌクレオチドを含み得る（例えば、プライマーは、核酸鋳型遺伝子分子に相補的なヌクレオチドに加えて、「余分の」ヌクレオチド、例えば、転写開始配列を含み得、その結果、「余分の」ヌクレオチドまたはその核酸鋳型遺伝子分子の増幅されるヌクレオチド領域に対応しないヌクレオチドを含む増幅産物をもたらす）。

【0076】

核酸はまた、本明細書中に記載される方法のために核酸を提供する前に、その核酸の中のある特定のヌクレオチドを改変するプロセスに曝露され得る。例えば、核酸の中のヌクレオチドのメチル化状態に基づいてその核酸を選択的に改変するプロセスが、核酸に適用され得る。さらに、高温、紫外線、ｘ線などの条件が、核酸分子の配列の変化を誘導し得る。核酸は、配列解析を行うのに有用な任意の好適な形態で提供され得る。

【0077】

核酸の濃縮
いくつかの実施形態において、核酸（例えば、細胞外核酸）は、核酸の部分集団または種について濃縮されるかまたは相対的に濃縮される。核酸の部分集団としては、例えば、胎児核酸、母体の核酸、癌の核酸、患者の核酸、特定の長さもしくは長さの範囲のフラグメントを含む核酸、または特定のゲノム領域（例えば、単一の染色体、染色体のセットおよび／またはある特定の染色体領域）に由来する核酸が挙げられ得る。そのような濃縮されたサンプルは、本明細書中に提供される方法とともに使用され得る。したがって、ある特定の実施形態において、本技術の方法は、サンプル中の核酸の部分集団、例えば、癌の核酸または胎児の核酸について濃縮するさらなる工程を含む。ある特定の実施形態において、癌細胞核酸の比率または胎児比率を測定するための方法は、癌の核酸または胎児の核酸を濃縮するためにも使用され得る。ある特定の実施形態において、正常組織（例えば、非癌細胞）由来の核酸が、サンプルから選択的に除去される（部分的に、実質的に、ほぼ完全にまたは完全に）。ある特定の実施形態において、母体核酸が、サンプルから選択的に除去される（部分的に、実質的に、ほぼ完全にまたは完全に）。ある特定の実施形態において、特定の低コピー数種の核酸（例えば、癌の核酸または胎児の核酸）について濃縮することにより、定量的感度が改善され得る。サンプルを特定の核酸種について濃縮するための方法は、例えば、米国特許第６，９２７，０２８号、国際特許出願公開番号ＷＯ２００７／１４０４１７、国際特許出願公開番号ＷＯ２００７／１４７０６３、国際特許出願公開番号ＷＯ２００９／０３２７７９、国際特許出願公開番号ＷＯ２００９／０３２７８１、国際特許出願公開番号ＷＯ２０１０／０３３６３９、国際特許出願公開番号ＷＯ２０１１／０３４６３１、国際特許出願公開番号ＷＯ２００６／０５６４８０および国際特許出願公開番号ＷＯ２０１１／１４３６５９に記載されており、本文、表、式および図面のすべてを含むこれらの各々の全内容が、参照により本明細書中に援用される。

【0078】

いくつかの実施形態において、核酸は、ある特定の標的フラグメント種および／または参照フラグメント種について濃縮される。ある特定の実施形態において、核酸は、下記に記載される、長さに基づく１つまたはそれを超える分離法を用いて、特定の核酸フラグメント長またはフラグメント長の範囲について濃縮される。ある特定の実施形態において、核酸は、本明細書中に記載されるおよび／または当該分野で公知の、配列に基づく１つまたはそれを超える分離法を用いて、選択されたゲノム領域（例えば、染色体）由来のフラグメントについて濃縮される。

【0079】

サンプル中の核酸部分集団について濃縮するための方法の非限定的な例としては、核酸種間のエピジェネティックな差異を利用する方法（例えば、米国特許出願公開番号２０１０／０１０５０４９（参照により本明細書中に援用される）に記載されているメチル化に基づく胎児核酸の濃縮方法）；制限エンドヌクレアーゼによって向上される多型配列アプローチ（例えば、米国特許出願公開番号２００９／０３１７８１８（参照により本明細書中に援用される）に記載されている方法）；選択的酵素分解アプローチ；大規模並列処理シグネチャ配列決定（ＭＰＳＳ）アプローチ；増幅（例えば、ＰＣＲ）に基づくアプローチ（例えば、遺伝子座特異的増幅方法、マルチプレックスＳＮＰ対立遺伝子ＰＣＲアプローチ；ユニバーサル増幅方法）；プルダウンアプローチ（例えば、ビオチン化ウルトラマー（ｕｌｔｒａｍｅｒ）プルダウン法）；伸長およびライゲーションに基づく方法（例えば、分子反転プローブ（ｍｏｌｅｃｕｌａｒｉｎｖｅｒｓｉｏｎｐｒｏｂｅ）（ＭＩＰ）の伸長およびライゲーション）；およびそれらの組み合わせが挙げられる。

【0080】

いくつかの実施形態において、核酸は、本明細書中に記載される、配列に基づく１つまたはそれを超える分離方法を用いて、選択されたゲノム領域（例えば、染色体）由来のフラグメントについて濃縮される。配列に基づく分離は、一般に、目的のフラグメント（例えば、標的フラグメントおよび／または参照フラグメント）に存在し、かつサンプルの他のフラグメントには実質的に存在しないかまたはごくわずかな量の他のフラグメント（例えば、５％またはそれ未満）に存在する、ヌクレオチド配列に基づく。いくつかの実施形態において、配列に基づく分離は、分離された標的フラグメントおよび／または分離された参照フラグメントを生成し得る。分離された標的フラグメントおよび／または分離された参照フラグメントは、その核酸サンプル中の残りのフラグメントから単離されることが多い。ある特定の実施形態において、その分離された標的フラグメントおよび分離された参照フラグメントは、互いからも単離される（例えば、別個のアッセイコンパートメントに単離される）。ある特定の実施形態において、その分離された標的フラグメントおよび分離された参照フラグメントは、共に単離される（例えば、同じアッセイコンパートメントに単離される）。いくつかの実施形態において、未結合のフラグメントは、差次的に除去され得るか、または分解され得るか、または消化され得る。

【0081】

いくつかの実施形態において、選択的な核酸捕捉プロセスが、標的フラグメントおよび／または参照フラグメントを核酸サンプルから分離するために使用される。商業的に入手可能な核酸捕捉システムとしては、例えば、Ｎｉｍｂｌｅｇｅｎ配列捕捉システム（ＲｏｃｈｅＮｉｍｂｌｅＧｅｎ，Ｍａｄｉｓｏｎ，ＷＩ）；ＩｌｌｕｍｉｎａＢＥＡＤＡＲＲＡＹプラットフォーム（Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏ，ＣＡ）；ＡｆｆｙｍｅｔｒｉｘＧＥＮＥＣＨＩＰプラットフォーム（Ａｆｆｙｍｅｔｒｉｘ，ＳａｎｔａＣｌａｒａ，ＣＡ）；ＡｇｉｌｅｎｔＳｕｒｅＳｅｌｅｃｔＴａｒｇｅｔＥｎｒｉｃｈｍｅｎｔＳｙｓｔｅｍ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ，ＳａｎｔａＣｌａｒａ，ＣＡ）；および関連するプラットフォームが挙げられる。そのような方法は、通常、捕捉オリゴヌクレオチドと、標的フラグメントまたは参照フラグメントのヌクレオチド配列の一部または全部とのハイブリダイゼーションを含み、固相（例えば、固相アレイ）および／または溶液ベースのプラットフォームの使用を含み得る。捕捉オリゴヌクレオチド（「ベイト」と称されるときがある）は、それらが、選択されたゲノム領域または遺伝子座（例えば、２１番、１８番、１３番、ＸもしくはＹ染色体のうちの１つまたは参照染色体）由来の核酸フラグメントに優先的にハイブリダイズするように、選択され得るかまたはデザインされ得る。ある特定の実施形態において、ハイブリダイゼーションに基づく方法（例えば、オリゴヌクレオチドアレイを用いる方法）は、ある特定の染色体（例えば、潜在的に異数性の染色体、参照染色体または他の目的の染色体）由来の核酸配列、その目的の遺伝子または領域を濃縮するために使用され得る。したがって、いくつかの実施形態において、核酸サンプルは、例えば、サンプル核酸中の選択された遺伝子に相補的な捕捉オリゴヌクレオチドを用いて、フラグメントのサブセットを捕捉することによって必要に応じて濃縮される。ある特定の場合において、捕捉されたフラグメントは、増幅される。例えば、アダプターを含む捕捉されたフラグメントは、アダプターオリゴヌクレオチドに相補的なプライマーを用いて増幅されて、アダプター配列に従ってインデックス化された増幅フラグメントの集合を形成し得る。いくつかの実施形態において、核酸は、目的の領域またはその一部を含むフラグメントにおける配列に相補的なオリゴヌクレオチド（例えば、ＰＣＲプライマー）を用いて１つまたはそれを超える目的の領域を増幅することによって、選択されたゲノム領域（例えば、染色体、遺伝子）からフラグメントについて濃縮される。

【0082】

いくつかの実施形態において、核酸は、１つまたはそれを超える、長さに基づく分離方法を用いて、特定の核酸フラグメントの長さ、長さの範囲、または特定のしきい値もしくはカットオフを下回るもしくは上回る長さについて濃縮される。核酸フラグメントの長さは、通常、そのフラグメントにおけるヌクレオチドの数のことを指す。核酸フラグメントの長さは、核酸フラグメントのサイズと称されるときもある。いくつかの実施形態において、長さに基づく分離方法は、個々のフラグメントの長さを計測せずに行われる。いくつかの実施形態において、長さに基づく分離方法は、個々のフラグメントの長さを測定するための方法とともに行われる。いくつかの実施形態において、長さに基づく分離とは、分画されたプールの全部または一部が単離され得る（例えば、保持され得る）および／または解析され得るサイズ分画手順のことを指す。サイズ分画手順は、当該分野で公知である（例えば、アレイ上での分離、モレキュラーシーブによる分離、ゲル電気泳動による分離、カラムクロマトグラフィーによる分離（例えば、サイズ排除カラム）およびマイクロフルイディクスベースのアプローチ）。ある特定の場合において、長さに基づく分離アプローチは、例えば、選択的配列タギングアプローチ、フラグメントの環状化、化学的処理（例えば、ホルムアルデヒド、ポリエチレングリコール（ＰＥＧ）沈殿）、質量分析および／またはサイズ特異的核酸増幅を含み得る。

【0083】

核酸の定量
サンプル中の核酸の量（例えば、濃度、相対量、絶対量、コピー数など）が、測定され得る。いくつかの実施形態において、核酸における少数核酸の量（例えば、濃度、相対量、絶対量、コピー数など）が、測定される。ある特定の実施形態において、サンプル中の少数核酸種の量は、「少数種比率」と称される。いくつかの実施形態において、「少数種比率」とは、被験体から得られたサンプル（例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル）中の循環無細胞核酸における少数核酸種の比率のことを指す。

【0084】

細胞外核酸における少数核酸の量が、定量され得、本明細書中に提供される方法とともに使用され得る。したがって、ある特定の実施形態において、本明細書中に記載される方法は、少数核酸の量を測定するさらなる工程を含む。サンプル核酸を調製するための処理の前または後に、被験体由来のサンプル中の少数核酸の量が、測定され得る。ある特定の実施形態において、サンプル核酸が処理され、調製された後のサンプル中の少数核酸の量が測定され、その量は、さらなる評価のために使用される。いくつかの実施形態において、アウトカムは、サンプル核酸中の少数種比率を考慮すること（例えば、カウントを調整すること、サンプルを除去すること、コールを生成することまたはコールを生成しないこと）を含む。

【0085】

少数種比率の測定は、本明細書中に記載される方法における任意の１時点の前、その最中、もしくはその１時点において、または本明細書中に記載されるある特定の方法（例えば、遺伝子変異または遺伝子変化の検出）の後に行われ得る。例えば、ある特定の感度または特異性で遺伝子変異／遺伝子変化の測定方法を実施するために、少数核酸定量方法が、遺伝子変異／遺伝子変化の測定前、測定中または測定後に実行されて、約２％、３％、４％、５％、６％、７％、８％、９％、１０％、１１％、１２％、１３％、１４％、１５％、１６％、１７％、１８％、１９％、２０％、２１％、２２％、２３％、２４％、２５％超またはそれを超える少数核酸を含むそれらのサンプルが特定され得る。いくつかの実施形態において、ある特定のしきい値量の少数核酸（例えば、約１５％またはそれを超える少数核酸；約４％またはそれを超える少数核酸）を有すると測定されたサンプルは、例えば、遺伝子変異／遺伝子変化、または遺伝子変異／遺伝子変化の存在または非存在についてさらに解析される。ある特定の実施形態において、例えば、遺伝子変異または遺伝子変化の測定は、ある特定のしきい値量の少数核酸（例えば、約１５％またはそれを超える少数核酸；約４％またはそれを超える少数核酸）を有するサンプルに対してのみ選択される（例えば、選択されて、患者に連絡される）。

【0086】

いくつかの実施形態において、核酸における癌細胞核酸の量（例えば、濃度、相対量、絶対量、コピー数など）が、測定される。ある特定の場合において、サンプル中の癌細胞核酸の量は、「癌細胞核酸の比率」と称され、「癌比率」または「腫瘍比率」と称されるときがある。いくつかの実施形態において、「癌細胞核酸の比率」とは、被験体から得られたサンプル（例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル）中の循環無細胞核酸における癌細胞核酸の比率のことを指す。

【0087】

いくつかの実施形態において、核酸における胎児核酸の量（例えば、濃度、相対量、絶対量、コピー数など）が、測定される。ある特定の実施形態において、サンプル中の胎児核酸の量は、「胎児比率」と称される。いくつかの実施形態において、「胎児比率」とは、妊婦から得られたサンプル（例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル）中の循環無細胞核酸における胎児核酸の比率のことを指す。胎児比率を測定するための本明細書中に記載されるかまたは当該分野で公知のある特定の方法は、癌細胞核酸の比率および／または少数種比率を測定するために使用することができる。

【0088】

ある特定の場合において、胎児比率は、雄性体胎児に特異的なマーカー（例えば、Ｙ染色体ＳＴＲマーカー（例えば、ＤＹＳ１９、ＤＹＳ３８５、ＤＹＳ３９２マーカー）；ＲｈＤ陰性雌性体におけるＲｈＤマーカー）、多型配列の対立遺伝子の比に従って、あるいは胎児核酸に特異的であって母体核酸に特異的でない１つもしくはそれを超えるマーカー（例えば、母体と胎児との間の差次的なエピジェネティックバイオマーカー（例えば、メチル化）または母体血漿中の胎児ＲＮＡマーカー（例えば、Ｌｏ，２００５，ＪｏｕｒｎａｌｏｆＨｉｓｔｏｃｈｅｍｉｓｔｒｙａｎｄＣｙｔｏｃｈｅｍｉｓｔｒｙ５３（３）：２９３－２９６を参照のこと））に従って、測定され得る。胎児比率の測定は、例えば、米国特許出願公開番号２０１０／０１０５０４９（参照により本明細書に援用される）に記載されているような、胎児数量アッセイ（ＦＱＡ）を用いて行われるときがある。このタイプのアッセイは、母体サンプル中の核酸のメチル化状態に基づいて、そのサンプル中の胎児核酸を検出および定量することを可能にする。

【0089】

ある特定の実施形態において、少数種比率は、多型配列（例えば、単一ヌクレオチド多型（ＳＮＰ））の対立遺伝子の比に基づいて、例えば、米国特許出願公開番号２０１１／０２２４０８７（参照により本明細書に援用される）に記載されている方法を用いて、測定され得る。胎児比率を測定するためのそのような方法において、例えば、母体サンプルに対するヌクレオチド配列リードを得て、参照ゲノム中の情報価値のある多型部位（例えば、ＳＮＰ）における、第１の対立遺伝子にマップするヌクレオチド配列リードの総数と第２の対立遺伝子にマップするヌクレオチド配列リードの総数とを比較することによって、胎児比率を測定する。

【0090】

少数種比率は、いくつかの実施形態において、例えば、国際特許出願公開番号ＷＯ２０１４／０５５７７４（参照により本明細書中に援用される）に記載されているような染色体異常から得られる情報を組み込む方法を用いて測定され得る。少数種比率は、いくつかの実施形態において、例えば、米国特許出願公開番号２０１３／０２８８２４４および米国特許出願公開番号２０１３／０３３８９３３（その各々が参照により本明細書中に援用される）に記載されているような性染色体から得られる情報を組み込む方法を用いて測定され得る。

【0091】

少数種比率は、いくつかの実施形態において、フラグメントの長さの情報を組み込む方法（例えば、国際特許出願公開番号２０１３／１７７０８６（参照により本明細書中に援用される）に記載されているような、フラグメント長さ比（ＦＬＲ）の解析、胎児比統計量（ＦＲＳ）の解析）を用いて測定され得る。無細胞胎児核酸フラグメントは、通常、母体由来の核酸フラグメントよりも短い（例えば、Ｃｈａｎら（２００４）Ｃｌｉｎ．Ｃｈｅｍ．５０：８８－９２；Ｌｏら（２０１０）Ｓｃｉ．Ｔｒａｎｓｌ．Ｍｅｄ．２：６１ｒａ９１を参照のこと）。したがって、胎児比率は、いくつかの実施形態において、特定の長さのしきい値を下回るフラグメントをカウントし、その数を、例えば、特定の長さのしきい値を上回るフラグメントの数および／またはサンプル中の全核酸の量と比較することによって測定され得る。特定の長さの核酸フラグメントをカウントするための方法は、国際特許出願公開番号ＷＯ２０１３／１７７０８６にさらに詳細に記載されている。

【0092】

少数種比率は、いくつかの実施形態において、部分特異的な比率推定に従って（例えば、国際特許出願公開番号ＷＯ２０１４／２０５４０１（参照により本明細書中に援用される）に記載されているように）測定され得る。理論に拘束されるものではないが、胎児ＣＣＦフラグメント（例えば、特定の長さまたは長さ範囲のフラグメント）からのリードの量は、変動する頻度で部分に（例えば、同じサンプル内、例えば、同じ配列決定ラン内で）マップすることが多い。また、理論に拘束されるものではないが、ある特定の部分は、複数のサンプル間で比較するとき、胎児ＣＣＦフラグメント（例えば、特定の長さまたは長さ範囲のフラグメント）からのリードの同様の提示を有する傾向があり、その提示は、部分特異的な胎児比率（例えば、胎児を起源とするＣＣＦフラグメントの相対量、パーセンテージまたは比）と相関する。部分特異的胎児比率推定値は、通常、部分特異的パラメータおよびそれらの胎児比率との関係に従って測定される。

【0093】

いくつかの実施形態において、少数種比率（例えば、癌細胞核酸の比率；胎児比率）の測定は、遺伝子変異または遺伝子変化の存在または非存在の特定に必要とされないか、または必要でない。いくつかの実施形態において、遺伝子変異または遺伝子変化の存在または非存在の特定は、多数核酸の配列と少数核酸の配列との識別を必要としない。ある特定の実施形態において、これは、特定の染色体、染色体部分またはその一部における少数配列と多数配列の両方の寄与の合計が解析されるからである。いくつかの実施形態において、遺伝子変異または遺伝子変化の存在または非存在の特定は、少数核酸を多数核酸と区別し得る推測的な配列情報に頼らない。

【0094】

核酸ライブラリー
いくつかの実施形態において、核酸ライブラリーは、特定のプロセスのために調製され、アセンブルされ、および／または改変された、複数のポリヌクレオチド分子（例えば、核酸のサンプル）であり、そのプロセスの非限定的な例としては、固相（例えば、固体支持体、フローセル、ビーズ）への固定化、濃縮、増幅、クローニング、検出および／または核酸配列決定が挙げられる。ある特定の実施形態において、核酸ライブラリーは、配列決定プロセスの前または最中に調製される。核酸ライブラリー（例えば、配列決定ライブラリー）は、当該分野で公知であるような好適な方法によって調製され得る。核酸ライブラリーは、標的化されたまたは標的化されない調製プロセスによって調製され得る。

【0095】

いくつかの実施形態において、核酸のライブラリーは、核酸を固体支持体に固定化するように構成された化学的部分（例えば、官能基）を含むように改変される。いくつかの実施形態において、核酸のライブラリーは、そのライブラリーを固体支持体に固定化するように構成された、生体分子（例えば、官能基）および／または結合対のメンバーを含むように改変され、それらの非限定的な例としては、チロキシン結合グロブリン、ステロイド結合タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、リプレッサー、プロテインＡ、プロテインＧ、アビジン、ストレプトアビジン、ビオチン、補体成分Ｃ１ｑ、核酸結合タンパク質、レセプター、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補的な核酸配列などおよびそれらの組み合わせが挙げられる。特異的結合対のいくつかの例としては、アビジン部分とビオチン部分；抗原性エピトープと抗体またはその免疫学的に反応性のフラグメント；抗体とハプテン；ジゴキシゲニン（ｄｉｇｏｘｉｇｅｎ）部分と抗ジゴキシゲニン抗体；フルオレセイン部分と抗フルオレセイン抗体；オペレーターとリプレッサー；ヌクレアーゼとヌクレオチド；レクチンと多糖；ステロイドとステロイド結合タンパク質；活性な化合物と活性な化合物のレセプター；ホルモンとホルモンレセプター；酵素と基質；免疫グロブリンとプロテインＡ；オリゴヌクレオチドまたはポリヌクレオチドとその対応する相補鎖；などまたはそれらの組み合わせが挙げられるが、これらに限定されない。

【0096】

いくつかの実施形態において、核酸のライブラリーは、既知の組成の１つまたはそれを超えるポリヌクレオチドを含むように改変され、その非限定的な例としては、識別子（例えば、タグ、インデックスタグ）、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製起点、ステムループ、相補的な（ｃｏｍｐｌｉｍｅｎｔａｒｙ）配列（例えば、プライマー結合部位、アニーリング部位）、好適なインテグレーション部位（例えば、トランスポゾン、ウイルスインテグレーション部位）、修飾ヌクレオチドなどまたはそれらの組み合わせが挙げられる。既知の配列のポリヌクレオチドは、好適な位置に、例えば、５’末端、３’末端または核酸配列内に付加され得る。既知の配列のポリヌクレオチドは、同じまたは異なる配列であり得る。いくつかの実施形態において、既知の配列のポリヌクレオチドは、表面（例えば、フローセル内の表面）上に固定化された１つまたはそれを超えるオリゴヌクレオチドにハイブリダイズするように構成される。例えば、既知の５’配列を含む核酸分子は、第１の複数のオリゴヌクレオチドにハイブリダイズし得るのに対して、既知の３’配列は、第２の複数のオリゴヌクレオチドにハイブリダイズし得る。いくつかの実施形態において、核酸のライブラリーは、染色体特異的タグ、捕捉配列、標識および／またはアダプターを含み得る。いくつかの実施形態において、核酸のライブラリーは、１つまたはそれを超える検出可能な標識を含む。いくつかの実施形態において、１つまたはそれを超える検出可能な標識は、５’末端、３’末端および／またはライブラリー中の核酸内の任意のヌクレオチド位置において、核酸ライブラリーに組み込まれ得る。いくつかの実施形態において、核酸のライブラリーは、ハイブリダイズされたオリゴヌクレオチドを含む。ある特定の実施形態において、ハイブリダイズされたオリゴヌクレオチドは、標識されたプローブである。いくつかの実施形態において、核酸のライブラリーは、固相上への固定化の前のハイブリダイズされたオリゴヌクレオチドプローブを含む。

【0097】

いくつかの実施形態において、既知の配列のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列は、２つもしくはそれを超える核酸分子または核酸分子の２つもしくはそれを超えるサブセットにインテグレートされた特定のヌクレオチド酸配列であり、ここで、そのユニバーサル配列は、それがインテグレートされたすべての分子または分子のサブセットに対して同じである。ユニバーサル配列は、複数の異なる配列にハイブリダイズするように、および／またはユニバーサル配列に相補的な単一のユニバーサルプライマーを用いて複数の異なる配列を増幅するようにデザインされることが多い。いくつかの実施形態において、２つ（例えば、１対）またはそれを超えるユニバーサル配列および／またはユニバーサルプライマーが使用される。ユニバーサルプライマーは、ユニバーサル配列を含むことが多い。いくつかの実施形態において、アダプター（例えば、ユニバーサルアダプター）は、ユニバーサル配列を含む。いくつかの実施形態において、１つまたはそれを超えるユニバーサル配列は、複数の核酸種または核酸サブセットを捕捉するため、同定するため、および／または検出するために使用される。

【0098】

核酸ライブラリーを調製するある特定の実施形態において（例えば、合成手順によるある特定の配列決定において）、核酸は、サイズ選択されるおよび／または数百塩基対またはそれ未満の長さに断片化される（例えば、ライブラリー作製のための調製において）。いくつかの実施形態において、ライブラリーの調製は、断片化なしに行われる（例えば、無細胞ＤＮＡを使用するとき）。

【0099】

ある特定の実施形態において、ライゲーションに基づくライブラリー調製方法が使用される（例えば、ＩＬＬＵＭＩＮＡＴＲＵＳＥＱ，Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏＣＡ）。ライゲーションに基づくライブラリー調製方法は、最初のライゲーション工程においてインデックス配列（例えば、核酸配列に対するサンプルの起源を特定するサンプルインデックス配列）を組み込み得るアダプター（例えば、メチル化されたアダプター）デザインを利用することが多く、単一リードの配列決定、ペアエンド配列決定および多重化された配列決定に向けてサンプルを調製するために使用され得ることが多い。例えば、核酸（例えば、断片化された核酸または無細胞ＤＮＡ）は、フィルイン（ｆｉｌｌ－ｉｎ）反応、エキソヌクレアーゼ反応またはそれらの組み合わせによって末端が修復され得る。いくつかの実施形態において、得られた平滑末端修復核酸は、次いで、アダプター／プライマーの３’末端における単一ヌクレオチドのオーバーハングに相補的な単一ヌクレオチドだけ伸長され得る。任意のヌクレオチドが、伸長／オーバーハングヌクレオチドのために使用され得る。

【0100】

いくつかの実施形態において、核酸ライブラリーの調製は、アダプターオリゴヌクレオチドを（例えば、サンプル核酸、サンプル核酸フラグメント、鋳型核酸に）ライゲートすることを含む。アダプターオリゴヌクレオチドは、フローセルアンカーに相補的であることが多く、核酸ライブラリーを固体支持体（例えば、フローセルの内側表面）に固定化するために使用されるときがある。いくつかの実施形態において、アダプターオリゴヌクレオチドは、識別子、１つもしくはそれを超える配列決定プライマーハイブリダイゼーション部位（例えば、ユニバーサル配列決定プライマー、シングルエンド配列決定プライマー、ペアエンド配列決定プライマー、多重化された配列決定プライマーなどに相補的な配列）またはそれらの組み合わせ（例えば、アダプター／配列決定、アダプター／識別子、アダプター／識別子／配列決定）を含む。いくつかの実施形態において、アダプターオリゴヌクレオチドは、プライマーアニーリングポリヌクレオチド（例えば、フローセルに付着したオリゴヌクレオチドおよび／または遊離している増幅プライマーにアニーリングするためのもの）、インデックスポリヌクレオチド（例えば、種々のサンプル由来の核酸を追跡するためのサンプルインデックス配列；サンプルＩＤとも称される）、およびバーコードポリヌクレオチド（例えば、配列決定前に増幅された個々のサンプル核酸分子を追跡するための単一分子バーコード（ＳＭＢ）；分子バーコードとも称される）のうちの１つまたはそれを超えるものを含む。いくつかの実施形態において、アダプターオリゴヌクレオチドのプライマーアニーリング構成要素は、１つまたはそれを超えるユニバーサル配列（例えば、１つまたはそれを超えるユニバーサル増幅プライマーに相補的な配列）を含む。いくつかの実施形態において、インデックスポリヌクレオチド（例えば、サンプルインデックス；サンプルＩＤ）は、アダプターオリゴヌクレオチドの構成要素である。いくつかの実施形態において、インデックスポリヌクレオチド（例えば、サンプルインデックス；サンプルＩＤ）は、ユニバーサル増幅プライマー配列の構成要素である。

【0101】

いくつかの実施形態において、アダプターオリゴヌクレオチドは、増幅プライマー（例えば、ユニバーサル増幅プライマー）と組み合わせて使用されるとき、ユニバーサル配列、分子バーコード、サンプルＩＤ配列、スペーサー配列およびサンプル核酸配列のうちの１つまたはそれを超えるものを含むライブラリー構築物を生成するようにデザインされる。いくつかの実施形態において、アダプターオリゴヌクレオチドは、ユニバーサル増幅プライマーと組み合わせて使用されるとき、ユニバーサル配列、分子バーコード、サンプルＩＤ配列、スペーサー配列およびサンプル核酸配列のうちの１つまたはそれを超えるものの順序づけられた組み合わせを含むライブラリー構築物を生成するようにデザインされる。例えば、ライブラリー構築物は、第１のユニバーサル配列、それに続いて、第２のユニバーサル配列、それに続いて、第１の分子バーコード、それに続いて、スペーサー配列、それに続いて、鋳型配列（例えば、サンプル核酸配列）、それに続いて、スペーサー配列、それに続いて、第２の分子バーコード、それに続いて、第３のユニバーサル配列、それに続いて、サンプルＩＤ、それに続いて、第４のユニバーサル配列を含み得る。いくつかの実施形態において、アダプターオリゴヌクレオチドは、増幅プライマー（例えば、ユニバーサル増幅プライマー）と組み合わせて使用されるとき、鋳型分子（例えば、サンプル核酸分子）の各鎖に対するライブラリー構築物を生成するようにデザインされる。いくつかの実施形態において、アダプターオリゴヌクレオチドは、二重鎖アダプターオリゴヌクレオチドである。

【0102】

識別子は、その識別子を含む核酸の検出および／または識別を可能にする核酸（例えば、ポリヌクレオチド）内に組み込まれるかまたはその核酸に付着される好適な検出可能な標識であり得る。いくつかの実施形態において、識別子は、配列決定方法（例えば、ポリメラーゼによるもの）の間に、核酸内に組み込まれるかまたは核酸に付着される。識別子の非限定的な例としては、核酸タグ、核酸インデックスまたはバーコード、放射標識（例えば、同位体）、金属標識、蛍光標識、化学発光標識、リン光性標識、フルオロフォアクエンチャー、色素、タンパク質（例えば、酵素、抗体またはその一部、リンカー、結合対のメンバー）などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、識別子（例えば、核酸インデックスまたはバーコード）は、ヌクレオチドまたはヌクレオチドアナログのユニークな配列、既知の配列および／または識別可能な配列である。いくつかの実施形態において、識別子は、６つまたはそれを超えて連続したヌクレオチドである。種々の異なる励起スペクトルおよび発光スペクトルを有する多数のフルオロフォアが利用可能である。任意の好適なタイプおよび／または数のフルオロフォアが、識別子として使用され得る。いくつかの実施形態において、１つもしくはそれを超える、２つもしくはそれを超える、３つもしくはそれを超える、４つもしくはそれを超える、５つもしくはそれを超える、６つもしくはそれを超える、７つもしくはそれを超える、８つもしくはそれを超える、９つもしくはそれを超える、１０個もしくはそれを超える、２０個もしくはそれを超える、３０個もしくはそれを超えるまたは５０個もしくはそれを超える異なる識別子が、本明細書中に記載される方法（例えば、核酸検出方法および／または配列決定方法）において使用される。いくつかの実施形態において、１つまたは２つのタイプの識別子（例えば、蛍光標識）が、ライブラリー内の各核酸に連結される。識別子の検出および／または定量は、好適な方法、装置または機器によって行われ得、それらの非限定的な例としては、フローサイトメトリー、定量的ポリメラーゼ連鎖反応（ｑＰＣＲ）、ゲル電気泳動、ルミノメーター、蛍光光度計、分光光度計、好適な遺伝子チップまたはマイクロアレイ解析、ウエスタンブロット、質量分析、クロマトグラフィー、細胞蛍光分析、蛍光顕微鏡法、好適な蛍光またはデジタルイメージング法、共焦点レーザー走査顕微鏡法、レーザー走査型サイトメトリー、アフィニティークロマトグラフィー、手作業のバッチモード分離、電界懸架、好適な核酸配列決定法および／または核酸配列決定装置などおよびそれらの組み合わせが挙げられる。

【0103】

いくつかの実施形態において、トランスポゾンに基づくライブラリー調製方法が使用される（例えば、ＥＰＩＣＥＮＴＲＥＮＥＸＴＥＲＡ，Ｅｐｉｃｅｎｔｒｅ，ＭａｄｉｓｏｎＷＩ）。トランスポゾンに基づく方法は、通常、単一チューブ反応（プラットフォーム特異的タグおよび随意のバーコードの組み込みを可能にすることが多い）においてＤＮＡを同時に断片化し、タグ化するためにインビトロでの転位を使用し、シークエンサー対応型ライブラリーを調製する。

【0104】

いくつかの実施形態において、核酸ライブラリーまたはその一部は、増幅される（例えば、ＰＣＲに基づく方法によって増幅される）。いくつかの実施形態において、配列決定法は、核酸ライブラリーの増幅を含む。核酸ライブラリーは、固体支持体（例えば、フローセル内の固体支持体）上への固定化の前または後に増幅され得る。核酸増幅は、１コピーまたはそれを超えるコピー数の鋳型および／またはその相補鎖を生成することによって、存在する（例えば、核酸ライブラリー中に存在する）核酸鋳型および／またはその相補鎖を増幅するかまたはその数を増加させるプロセスを含む。増幅は、好適な方法によって行われ得る。核酸ライブラリーは、サーモサイクリング法または等温増幅法によって増幅され得る。いくつかの実施形態において、ローリングサークル増幅法が使用される。いくつかの実施形態において、増幅は、核酸ライブラリーまたはその一部が固定化された固体支持体上（例えば、フローセル内）で行われる。ある特定の配列決定法において、核酸ライブラリーが、フローセルに加えられ、好適な条件下におけるアンカーへのハイブリダイゼーションによって固定化される。このタイプの核酸増幅は、固相増幅と称されることが多い。固相増幅のいくつかの実施形態において、増幅産物の全部または一部が、固定化されたプライマーから開始する伸長によって合成される。固相増幅反応は、増幅オリゴヌクレオチド（例えば、プライマー）の少なくとも１つが、固体支持体上に固定化されていることを除いては、標準的な溶相増幅と類似している。いくつかの実施形態において、修飾された核酸（例えば、アダプターの付加によって修飾された核酸）が、増幅される。

【0105】

いくつかの実施形態において、固相増幅は、表面に固定化されたただ１種のオリゴヌクレオチドプライマーを含む核酸増幅反応を含む。ある特定の実施形態において、固相増幅は、複数の異なる固定化されたオリゴヌクレオチドプライマー種を含む。いくつかの実施形態において、固相増幅は、固体表面上に固定化された１つの種のオリゴヌクレオチドプライマーおよび溶液中の第２の異なるオリゴヌクレオチドプライマー種を含む核酸増幅反応を含み得る。複数の異なる種の固定化されたプライマーまたは溶液ベースのプライマーが、使用され得る。固相核酸増幅反応の非限定的な例としては、界面増幅、ブリッジ増幅、エマルジョンＰＣＲ、ＷｉｌｄＦｉｒｅ増幅（例えば、米国特許出願公開番号２０１３／００１２３９９）などまたはそれらの組み合わせが挙げられる。

【0106】

核酸の捕捉
いくつかの実施形態において、サンプル核酸（またはサンプル核酸ライブラリー）は、標的捕捉プロセスに供される。一般に、標的捕捉プロセスは、ハイブリダイゼーション条件下においてサンプル核酸（またはサンプル核酸ライブラリー）をプローブオリゴヌクレオチドのセットと接触させることによって行われる。プローブオリゴヌクレオチド（例えば、捕捉オリゴヌクレオチド）のセットは、一般に、サンプル核酸中の配列に相補的または実質的に相補的な配列を有する複数のプローブオリゴヌクレオチドを含む。複数のプローブオリゴヌクレオチドは、約１０個のプローブオリゴヌクレオチド種、約５０個のプローブオリゴヌクレオチド種、約１００個のプローブオリゴヌクレオチド種、約５００個のプローブオリゴヌクレオチド種、約１，０００個のプローブオリゴヌクレオチド種、２，０００個のプローブオリゴヌクレオチド種、３，０００個のプローブオリゴヌクレオチド種、４，０００個のプローブオリゴヌクレオチド種、５０００個のプローブオリゴヌクレオチド種、１０，０００個のプローブオリゴヌクレオチド種またはそれを超えるプローブオリゴヌクレオチド種を含み得る。通常、第１のプローブオリゴヌクレオチド種は、第２のプローブオリゴヌクレオチド種と異なるヌクレオチド配列を有し、あるセットにおける異なる種のプローブオリゴヌクレオチドはそれぞれ、異なるヌクレオチド配列を有する。

【0107】

プローブオリゴヌクレオチドは、代表的には、目的の核酸フラグメント（例えば、標的フラグメント）またはその一部にハイブリダイズするかまたはアニーリングすることができるヌクレオチド配列を含む。プローブオリゴヌクレオチドは、天然に存在するものまたは合成のものであり得、ＤＮＡまたはＲＮＡに基づくものであり得る。プローブオリゴヌクレオチドは、例えば、核酸サンプル中の他のフラグメントから標的フラグメントを特異的に分離することが可能であり得る。用語「特異的」または「特異性」は、本明細書中で使用されるとき、１つの分子と別の分子（例えば、標的ポリヌクレオチドに対するオリゴヌクレオチド）との結合またはハイブリダイゼーションのことを指す。「特異的」または「特異性」とは、２つの分子のどちらかの他の分子による認識、他の分子との接触または複合体形成が実質的に低いことと比べて、それらの２つの分子間の認識、接触および安定な複合体の形成のことを指す。本明細書中で使用されるとき、用語「アニールする」および「ハイブリダイズする」とは、２つの分子間の安定な複合体の形成のことを指す。用語「プローブ」、「プローブオリゴヌクレオチド」、「捕捉プローブ」、「捕捉オリゴヌクレオチド」、「捕捉オリゴ」、「オリゴ」または「オリゴヌクレオチド」は、プローブオリゴヌクレオチドについて言及するときに、本文書全体にわたって交換可能に使用され得る。

【0108】

プローブオリゴヌクレオチドは、好適なプロセスを用いてデザインすることおよび合成することができ、目的のヌクレオチド配列にハイブリダイズするためならびに本明細書中に記載される分離および／または解析プロセスを行うために適した任意の長さであり得る。オリゴヌクレオチドは、目的のヌクレオチド配列（例えば、標的フラグメント配列、ゲノム配列、遺伝子配列）に基づいてデザインされ得る。いくつかの実施形態において、オリゴヌクレオチド（例えば、プローブオリゴヌクレオチド）は、約１０～約３００ヌクレオチド、約５０～約２００ヌクレオチド、約７５～約１５０ヌクレオチド、約１１０～約１３０ヌクレオチド、または約１１１、１１２、１１３、１１４、１１５、１１６、１１７、１１８、１１９、１２０、１２１、１２２、１２３、１２４、１２５、１２６、１２７、１２８もしくは１２９ヌクレオチド長であり得る。オリゴヌクレオチドは、天然に存在するおよび／もしくは天然に存在しないヌクレオチド（例えば、標識されたヌクレオチド）またはそれらの混合物から構成され得る。本明細書中に記載される実施形態における使用に適したオリゴヌクレオチドは、公知の手法を用いて合成され、標識され得る。オリゴヌクレオチドは、ＢｅａｕｃａｇｅａｎｄＣａｒｕｔｈｅｒｓ（１９８１）ＴｅｔｒａｈｅｄｒｏｎＬｅｔｔｓ．２２：１８５９－１８６２によって初めて報告された固相ホスホルアミダイトトリエステル法に従って、自動合成装置を用いて、および／またはＮｅｅｄｈａｍ－ＶａｎＤｅｖａｎｔｅｒら（１９８４）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．１２：６１５９－６１６８に記載されているように、化学的に合成され得る。オリゴヌクレオチドの精製は、未変性アクリルアミドゲル電気泳動、または例えばＰｅａｒｓｏｎａｎｄＲｅｇｎｉｅｒ（１９８３）Ｊ．Ｃｈｒｏｍ．２５５：１３７－１４９に記載されているような陰イオン交換高速液体クロマトグラフィー（ＨＰＬＣ）によって実施され得る。

【0109】

プローブオリゴヌクレオチド配列（天然に存在するものまたは合成のもの）の全部または一部は、いくつかの実施形態において、標的配列またはその一部に実質的に相補的であり得る。「実質的に相補的」は、配列に関して本明細書中で言及されるとき、互いにハイブリダイズするヌクレオチド配列のことを指す。ハイブリダイゼーション条件のストリンジェンシーは、様々な量の配列ミスマッチを許容するように変更され得る。互いに５５％もしくはそれを超えて、５６％もしくはそれを超えて、５７％もしくはそれを超えて、５８％もしくはそれを超えて、５９％もしくはそれを超えて、６０％もしくはそれを超えて、６１％もしくはそれを超えて、６２％もしくはそれを超えて、６３％もしくはそれを超えて、６４％もしくはそれを超えて、６５％もしくはそれを超えて、６６％もしくはそれを超えて、６７％もしくはそれを超えて、６８％もしくはそれを超えて、６９％もしくはそれを超えて、７０％もしくはそれを超えて、７１％もしくはそれを超えて、７２％もしくはそれを超えて、７３％もしくはそれを超えて、７４％もしくはそれを超えて、７５％もしくはそれを超えて、７６％もしくはそれを超えて、７７％もしくはそれを超えて、７８％もしくはそれを超えて、７９％もしくはそれを超えて、８０％もしくはそれを超えて、８１％もしくはそれを超えて、８２％もしくはそれを超えて、８３％もしくはそれを超えて、８４％もしくはそれを超えて、８５％もしくはそれを超えて、８６％もしくはそれを超えて、８７％もしくはそれを超えて、８８％もしくはそれを超えて、８９％もしくはそれを超えて、９０％もしくはそれを超えて、９１％もしくはそれを超えて、９２％もしくはそれを超えて、９３％もしくはそれを超えて、９４％もしくはそれを超えて、９５％もしくはそれを超えて、９６％もしくはそれを超えて、９７％もしくはそれを超えて、９８％もしくはそれを超えて、または９９％もしくはそれを超えて相補的な標的配列およびオリゴヌクレオチド配列が、含まれる。

【0110】

目的のヌクレオチド配列（例えば、標的配列）またはその一部に実質的に相補的なプローブオリゴヌクレオチドは、標的配列またはその関連部分の相補鎖にも実質的に似ている（例えば、その核酸のアンチセンス鎖に実質的に似ている）。２つのヌクレオチド配列が実質的に似ているか否かを判断するための試験の１つは、共有される同一のヌクレオチド配列のパーセントを測定することである。「実質的に似ている」は、配列に関して本明細書中で言及されるとき、互いと５５％もしくはそれを超えて、５６％もしくはそれを超えて、５７％もしくはそれを超えて、５８％もしくはそれを超えて、５９％もしくはそれを超えて、６０％もしくはそれを超えて、６１％もしくはそれを超えて、６２％もしくはそれを超えて、６３％もしくはそれを超えて、６４％もしくはそれを超えて、６５％もしくはそれを超えて、６６％もしくはそれを超えて、６７％もしくはそれを超えて、６８％もしくはそれを超えて、６９％もしくはそれを超えて、７０％もしくはそれを超えて、７１％もしくはそれを超えて、７２％もしくはそれを超えて、７３％もしくはそれを超えて、７４％もしくはそれを超えて、７５％もしくはそれを超えて、７６％もしくはそれを超えて、７７％もしくはそれを超えて、７８％もしくはそれを超えて、７９％もしくはそれを超えて、８０％もしくはそれを超えて、８１％もしくはそれを超えて、８２％もしくはそれを超えて、８３％もしくはそれを超えて、８４％もしくはそれを超えて、８５％もしくはそれを超えて、８６％もしくはそれを超えて、８７％もしくはそれを超えて、８８％もしくはそれを超えて、８９％もしくはそれを超えて、９０％もしくはそれを超えて、９１％もしくはそれを超えて、９２％もしくはそれを超えて、９３％もしくはそれを超えて、９４％もしくはそれを超えて、９５％もしくはそれを超えて、９６％もしくはそれを超えて、９７％もしくはそれを超えて、９８％またはそれを超えて、または９９％もしくはそれを超えて同一であるヌクレオチド配列のことを指す。

【0111】

ハイブリダイゼーション条件（例えば、アニーリング条件）は、アッセイにおいて使用されるオリゴヌクレオチドの特色に応じて決定および／または調整され得る。オリゴヌクレオチドの配列および／または長さは、目的の核酸配列へのハイブリダイゼーションに影響するときがあり得る。オリゴヌクレオチドと目的の核酸とのミスマッチの程度に応じて、アニーリングを達成するために、低、中または高ストリンジェンシー条件が用いられ得る。本明細書中で使用されるとき、用語「ストリンジェントな条件」とは、ハイブリダイゼーションおよび洗浄に対する条件のことを指す。ハイブリダイゼーション反応の温度条件を最適化するための方法は、当該分野で公知であり、ＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓｉｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｎ．Ｙ．，６．３．１－６．３．６（１９８９）に見られる。水性および非水性の方法が、その参考文献に記載されており、どちらも用いることができる。ストリンジェントなハイブリダイゼーション条件の非限定的な例は、約４５℃の６×塩化ナトリウム／クエン酸ナトリウム（ＳＳＣ）中でのハイブリダイゼーションに続く、５０℃の０．２×ＳＳＣ、０．１％ＳＤＳ中での１回またはそれを超える洗浄である。ストリンジェントなハイブリダイゼーション条件の別の例は、約４５℃の６×塩化ナトリウム／クエン酸ナトリウム（ＳＳＣ）中でのハイブリダイゼーションに続く、５５℃の０．２×ＳＳＣ、０．１％ＳＤＳ中での１回またはそれを超える洗浄である。ストリンジェントなハイブリダイゼーション条件のさらなる例は、約４５℃の６×塩化ナトリウム／クエン酸ナトリウム（ＳＳＣ）中でのハイブリダイゼーションに続く、６０℃の０．２×ＳＳＣ、０．１％ＳＤＳ中での１回またはそれを超える洗浄である。ストリンジェントなハイブリダイゼーション条件は、約４５℃の６×塩化ナトリウム／クエン酸ナトリウム（ＳＳＣ）中でのハイブリダイゼーションに続く、６５℃の０．２×ＳＳＣ、０．１％ＳＤＳ中での１回またはそれを超える洗浄であることが多い。ストリンジェンシー条件は、６５℃の０．５Ｍリン酸ナトリウム、７％ＳＤＳに続く、６５℃の０．２×ＳＳＣ、１％ＳＤＳ中での１回またはそれを超える洗浄であることがより多い。ストリンジェントなハイブリダイゼーション温度は、ある特定の有機溶媒、例えばホルムアミドを加えることで、変更することもできる（すなわち低下させることもできる）。ホルムアミドのような有機溶媒は、二本鎖ポリヌクレオチドの熱安定性を低下させる結果、ストリンジェントな条件を維持しつつ、かつ熱不安定性であり得る有用な核酸の寿命を延長しつつ、より低い温度においてハイブリダイゼーションを行うことができる。

【0112】

いくつかの実施形態において、１つまたはそれを超えるプローブオリゴヌクレオチドは、親和性リガンド（例えば、アビジン、ストレプトアビジン、抗体またはレセプターなどの捕捉剤に結合し得る、結合対のメンバー（例えば、ビオチン）または抗原）と会合する。例えば、プローブオリゴヌクレオチドは、ストレプトアビジンでコーティングされたビーズに捕捉され得るように、ビオチン化され得る。

【0113】

いくつかの実施形態において、１つまたはそれを超えるプローブオリゴヌクレオチドおよび／または捕捉剤は、効果的に固体支持体または基材に連結される。固体支持体または基材は、プローブオリゴヌクレオチドが直接または間接的に付着し得る任意の物理的に分離可能な固体であり得、それらとしては、マイクロアレイおよびウェルによって提供される表面、ならびにビーズ（例えば、常磁性ビーズ、磁気ビーズ、マイクロビーズ、ナノビーズ）などの粒子、微小粒子およびナノ粒子が挙げられるがこれらに限定されない。固体支持体には、例えば、チップ、カラム、光ファイバー、ワイプ（拭き取り紙）、フィルター（例えば、平らな表面フィルター）、１つまたはそれを超えるキャピラリー、ガラスおよび加工ガラスまたは機能化ガラス（例えば、多孔性ガラス（ｃｏｎｔｒｏｌｌｅｄ－ｐｏｒｅｇｌａｓｓ）（ＣＰＧ））、石英、雲母、ジアゾ化メンブレン（紙またはナイロン）、ポリホルムアルデヒド、セルロース、酢酸セルロース、紙、セラミックス、金属、メタロイド、半導体材料、量子ドット、コーティングされたビーズまたは粒子、他のクロマトグラフィー材料、磁性粒子；プラスチック（アクリル樹脂、ポリスチレン、スチレンまたは他の材料の共重合体、ポリブチレン、ポリウレタン、ＴＥＦＬＯＮ（登録商標）、ポリエチレン、ポリプロピレン、ポリアミド、ポリエステル、ポリビニリデンジフルオリド（ＰＶＤＦ）などを含む）、多糖類、ナイロンまたはニトロセルロース、樹脂、シリカまたはシリカ系材料（ケイ素、シリカゲルおよび変性シリコンを含む）、Ｓｅｐｈａｄｅｘ（登録商標）、Ｓｅｐｈａｒｏｓｅ（登録商標）、炭素、金属（例えば、鋼、金、銀、アルミニウム、ケイ素および銅）、無機ガラス、導電性ポリマー（ポリピロールおよびポリインドールなどのポリマーを含む）；微細構造またはナノ構造の表面（例えば、核酸タイリングアレイ、ナノチューブ、ナノワイヤまたはナノ粒子で装飾された表面）；または多孔性の表面もしくはゲル（例えば、メタクリレート、アクリルアミド、糖ポリマー、セルロース、シリケートまたは他の繊維状もしくは鎖状ポリマー）も含まれ得る。いくつかの実施形態において、固体支持体または基材は、デキストラン、アクリルアミド、ゼラチンまたはアガロースなどのポリマーを含む任意の数の材料によって、受動的または化学的に誘導体化されたコーティングを用いてコーティングされ得る。ビーズおよび／または粒子は、遊離していてもよいし、互いに接続して（例えば、焼結されて）いてもよい。いくつかの実施形態において、固相は、粒子の集合体であり得る。いくつかの実施形態において、粒子は、シリカを含み得、そのシリカは、二酸化ケイ素を含み得る。いくつかの実施形態において、シリカは、多孔性であり得、ある特定の実施形態において、シリカは、非多孔性であり得る。いくつかの実施形態において、粒子は、その粒子に常磁性を付与する作用物質をさらに含む。ある特定の実施形態において、その作用物質は、金属を含み、ある特定の実施形態において、その作用物質は、金属酸化物である（例えば、鉄または酸化鉄であり、ここで、その酸化鉄は、Ｆｅ２＋とＦｅ３＋との混合物を含む）。プローブオリゴヌクレオチドは、共有結合または非共有結合性の相互作用によって固体支持体に連結され得、固体支持体に直接または間接的に（例えば、スペーサー分子またはビオチンなどの仲介物質を介して）連結され得る。プローブオリゴヌクレオチドは、核酸捕捉前、核酸捕捉中または核酸捕捉後に固体支持体に連結され得る。

【0114】

本明細書中に記載されるアダプター配列の付加などによって改変された核酸が、捕捉され得る。いくつかの実施形態において、改変されていない核酸が捕捉される。核酸は、捕捉の前および／または後に、いくつかの実施形態ではＰＣＲなどの増幅プロセスによって、増幅され得る。用語「捕捉された核酸」には、通常、捕捉された核酸が含まれ、捕捉されて増幅された核酸が含まれる。いくつかの実施形態において、捕捉された核酸は、さらなる回数の捕捉および増幅に供され得る。捕捉された核酸は、本明細書中に記載される配列決定プロセスなどによって配列決定され得る。

【0115】

捕捉された核酸におけるコピー数変異の検出
コピー数変異（例えば、微小重複、微小欠失）の存在または非存在を分類するための方法およびプロセスが、本明細書中に提供される。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、配列リードのセットに従って判定される。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、本明細書中に記載されるセグメントおよび／またはサブ領域に対する配列リードの定量値に従って判定される。いくつかの実施形態において、配列リードは、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドによって捕捉された試験被験体由来の循環無細胞サンプル核酸から得られる。いくつかの実施形態において、コピー数変異の存在または非存在は、配列リードから生成されたコンセンサス配列のセットに従って判定される。いくつかの実施形態において、コピー数変異の存在または非存在は、プローブカバレッジ（ｃｏｖｅｒａｇｅ）の定量値に従って判定される。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、本明細書中に記載されるセグメントおよび／またはサブ領域に対するプローブカバレッジ定量値に従って判定される。プローブカバレッジ定量値は、各プローブオリゴヌクレオチドに対する配列リードの定量値であり得る。プローブカバレッジ定量値は、各プローブオリゴヌクレオチドに対するコンセンサス配列の定量値であり得る。いくつかの実施形態において、コピー数変異の存在または非存在は、正規化されたプローブカバレッジ定量値（例えば、各プローブオリゴヌクレオチドに対する配列リードの正規化されたプローブカバレッジ定量値；各プローブオリゴヌクレオチドに対するコンセンサス配列の正規化されたプローブカバレッジ定量値）に従って判定される。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、セグメント化プロセスを含む。いくつかの実施形態において、コピー数変異の存在または非存在の判定は、フィルタリングプロセスを含む。

【0116】

いくつかの実施形態において、コピー数変異の存在または非存在の判定は、プローブカバレッジ定量値または正規化されたプローブカバレッジ定量値に基づく。いくつかの実施形態において、「～に基づく」は、他の因子（例えば、セグメント、フィルタリングされたセグメント、コピー数の測定または推定、コピー数の増加または減少の測定または推定、フィルタリングされたコピー数の測定または推定、フィルタリングされたコピー数の増加または減少の測定または推定）を含み得る。コピー数変異の存在または非存在は、いくつかの実施形態では、単一のプローブオリゴヌクレオチドに対するプローブカバレッジ定量値または正規化されたプローブカバレッジ定量値に従って判定され得る。コピー数変異の存在または非存在は、いくつかの実施形態では、複数のプローブオリゴヌクレオチドに対するプローブカバレッジ定量値または正規化されたプローブカバレッジ定量値に従って判定され得る。

【0117】

いくつかの実施形態において、サンプル核酸は、プローブオリゴヌクレオチドによって捕捉される。代表的には、そのような実施形態において、サンプル核酸を、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドと接触させる。サンプル核酸は、サンプルポリヌクレオチドを含み得（またはサンプルポリヌクレオチドからなり得）、プローブオリゴヌクレオチドは、サンプル核酸中のサンプルポリヌクレオチドに相補的なプローブポリヌクレオチドを含み得る。いくつかの実施形態において、プローブポリヌクレオチドは、本明細書中に記載される目的のサブ染色体領域、セグメントおよび／またはサブ領域における配列に相補的である。いくつかの実施形態において、ハイブリダイゼーション条件のストリンジェンシーは、１００％の相補性（すなわち、ミスマッチなし）を有するプローブポリヌクレオチドだけが、サンプル核酸にハイブリダイズすることを可能にする。いくつかの実施形態において、ハイブリダイゼーション条件のストリンジェンシーは、１つまたは２つのミスマッチを有するプローブポリヌクレオチドが、サンプル核酸にハイブリダイズすることを可能にする。

【0118】

いくつかの実施形態において、配列リードは、参照ゲノム部分にマッピングされる。配列リードを参照ゲノム部分にマッピングするためのある特定の方法が、本明細書中に記載される。いくつかの実施形態において、ゲノム部分は、既定の長さである。いくつかの実施形態において、ゲノム部分は、等しい長さである。いくつかの実施形態において、ゲノム部分は、約５０キロベース長である。いくつかの実施形態において、少なくとも２つのゲノム部分が、等しくない長さである。いくつかの実施形態において、ゲノム部分は、オーバーラップしていない。いくつかの実施形態において、ゲノム部分の３’末端は、隣接する下流の各ゲノム部分の５’末端に隣接する。いくつかの実施形態において、少なくとも２つのゲノム部分は、オーバーラップしている。

【0119】

いくつかの実施形態において、参照ゲノムにマッピングされる配列リードは、プローブ配列とマッチし、オンターゲット（ｏｎ－ｔａｒｇｅｔ）リードと特定される。いくつかの実施形態において、本明細書中の方法は、オンターゲットリードを特定する工程を含む。いくつかの実施形態において、リードが、プローブオリゴヌクレオチド配列に対応するゲノム領域とアラインメントするとき、そのリードは、オンターゲットと特定される。本明細書中でさらに詳細に記載されているように、プローブオリゴヌクレオチド配列は、通常、ゲノム（例えば、参照ゲノム）の特定の領域にアラインメントし（すなわち、対応し）、目的のある特定のゲノム配列（例えば、本明細書中に記載される目的のサブ染色体領域、セグメントおよび／またはサブ領域における配列）に対応するヌクレオチド配列を含むことが多い。プローブオリゴヌクレオチドがアラインメントするゲノム領域にアラインメントするリードは、オンターゲットリードと見なされる。いくつかの実施形態において、リード長全体が、プローブオリゴヌクレオチドにアラインメントするゲノム領域にアラインメントするとき、配列リードは、オンターゲットと見なされ得る。いくつかの実施形態において、リードの一部が、プローブオリゴヌクレオチド配列に対応するゲノム領域とアラインメントし、リードの一部が、プローブオリゴヌクレオチド配列に対応するゲノム領域に隣接するゲノム領域内でアラインメントするとき、そのリードは、オンターゲットと特定される。一般に、そのような場合、そのリードは、１）プローブオリゴヌクレオチド配列に対応するゲノム領域の一部、および２）プローブオリゴヌクレオチド配列に対応するゲノム領域に隣接するゲノム領域を含む連続したゲノム配列とアラインメントする。後者のゲノム領域は、プローブオリゴヌクレオチド配列に対応するゲノム領域の上流または下流に位置し得る。例えば、プローブオリゴヌクレオチド配列に対応するゲノム領域を有するリードの一部（例えば、リードの少なくとも約５％、リードの１０％、リードの２０％、リードの３０％、リードの４０％、リードの５０％、リードの６０％、リードの７０％、リードの８０％、リードの９０％）およびリードの残部が、プローブオリゴヌクレオチド配列に対応するゲノム領域のすぐ上流または下流のゲノム配列にアラインメントするとき、その配列リードは、オンターゲットと見なされ得る。いくつかの実施形態において、リードの一部が、プローブ配列にアラインメントせず、リード長全体が、プローブオリゴヌクレオチド配列に対応するゲノム領域のすぐ上流または下流のゲノム配列にアラインメントするとき、配列リードは、オンターゲットと見なされ得る。

【0120】

プローブ配列を含む配列（すなわち、プローブ配列に対応するゲノム配列）ならびにプローブ配列の上流および／または下流のさらなるゲノム配列は、パディングされたプローブ配列と称され得る。パディングされたプローブ配列の集合は、パディングされたパネルと称され得る。いくつかの実施形態において、パディングされたプローブ配列は、プローブ配列に対応するゲノム配列のすぐ上流および／または下流のゲノム配列の少なくとも１ヌクレオチドを含む。例えば、パディングされたプローブ配列は、そのプローブ配列に対応するゲノム配列のすぐ上流および／または下流のゲノム配列の少なくとも約５、１０、２０、３０、４０、５０、１００、１５０、２００、２５０、３００、４００、５００または１０００ヌクレオチドを含み得る。いくつかの実施形態において、パディングされたプローブ配列は、プローブ配列に対応するゲノム配列のすぐ上流の２５０ヌクレオチドのゲノム配列およびすぐ下流の２５０ヌクレオチドのゲノム配列を含む。

【0121】

プローブオリゴヌクレオチド配列は、配列パネルとしてデータベースに保存され得る。いくつかの実施形態において、リードは、プローブオリゴヌクレオチド配列（例えば、上に記載されたような隣接するゲノム領域配列ありまたはなしで、表またはデータベースに保存されたプローブオリゴヌクレオチド配列）と直接アラインメントされ、そのようなリードは、オンターゲットリードと特定される。例えば、配列リードは、最初に参照ゲノムにマッピングされずに、データベース内の配列パネルにアラインメントされ得る。いくつかの実施形態において、リード長全体が、プローブ配列にアラインメントするとき、配列リードは、オンターゲットと見なされ得る。いくつかの実施形態において、配列リードは、上に記載されたように、パディングされたプローブ配列に直接アラインメントされる。例えば、いくつかの実施形態において、リードの一部（例えば、リードの少なくとも約５％、リードの１０％、リードの２０％、リードの３０％、リードの４０％、リードの５０％、リードの６０％、リードの７０％、リードの８０％、リードの９０％）が、プローブ配列にアラインメントし、リードの残部が、プローブ配列のすぐ上流または下流のゲノム配列にアラインメントするとき、その配列リードは、オンターゲットと見なされ得る。いくつかの実施形態において、リードの一部が、プローブ配列にアラインメントせず、リード長全体が、プローブ配列のすぐ上流または下流のゲノム配列にアラインメントするとき、配列リードは、オンターゲットと見なされ得る。

【0122】

いくつかの実施形態において、コンセンサス配列は、配列リードから生成される。いくつかの実施形態において、コンセンサス配列は、「オンターゲット」リードと特定された配列リードから生成される。一般に、コンセンサスは、配列リードのセット（例えば、リード群の中のリード）を崩壊して、配列リードが生成されたサンプル中のユニークな核酸分子に対応する単一のヌクレオチド配列を生成することによって生成される。コンセンサス配列は、任意の好適な方法によってリード群から生成することができ、その方法としては、例えば、デジタル通信理論、情報理論またはバイオインフォマティクスから導かれるコンセンサス作製のための線形または非線形の方法（例えば、平均化、投票、統計的、動的計画法、最大事後確率もしくは最大尤度検出法、ベイズ法、隠れマルコフ法またはサポートベクターマシン法など）が挙げられる。

【0123】

いくつかの実施形態において、コピー数変異の存在または非存在の判定は、プローブカバレッジ定量値（例えば、本明細書中に記載されるセグメントおよび／またはサブ領域に対するプローブカバレッジ定量値；本明細書中に記載されるセグメントにおける配列および／またはサブ領域における配列に対するプローブカバレッジ定量値）に従って判定される。プローブカバレッジとは、一般に、プローブオリゴヌクレオチドにおける各ヌクレオチド位置にマッピングされる配列リードまたはコンセンサス配列の定量値のことを指す。いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブオリゴヌクレオチドにおける各ヌクレオチド位置にマップする配列リードの数を測定することを含む。配列リードは、プローブオリゴヌクレオチドより短い長さであり得、かつ／またはプローブオリゴヌクレオチド配列と部分的にオーバーラップし得る。したがって、プローブにおける各ヌクレオチドにマッピングされる配列リードの定量値は、プローブオリゴヌクレオチドの長さによって変化し得る。したがって、いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブにおける各ヌクレオチド位置にマッピングされる配列リードの集団の分位点推定値の測定を含む。分位点推定値としては、例えば、中央値、平均値、最頻値、範囲などが挙げられ得る。いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブにおける各ヌクレオチド位置にマッピングされる配列リードの数の中央値の測定を含む。いくつかの実施形態において、各プローブオリゴヌクレオチドに対する各ヌクレオチド位置にマッピングされる配列リードの数の中央値は、各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値である。いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブオリゴヌクレオチドにおける各ヌクレオチド位置にマップするコンセンサス配列の数の測定を含む。コンセンサス配列は、プローブオリゴヌクレオチドより短い長さであり得、かつ／またはプローブオリゴヌクレオチド配列と部分的にオーバーラップし得る。したがって、プローブにおける各ヌクレオチドにマッピングされるコンセンサス配列の定量値は、プローブオリゴヌクレオチドの長さによって変化し得る。したがって、いくつかの実施形態において、プローブカバレッジ定量値の測定は、プローブにおける各ヌクレオチド位置にマッピングされるコンセンサス配列の数の中央値の測定を含む。

【0124】

いくつかの実施形態において、コピー数変異の存在または非存在の判定は、正規化されたプローブカバレッジ定量値に従って判定される。プローブカバレッジ定量値は、本明細書中に記載される正規化プロセスなどの好適な正規化プロセスを用いて正規化され得る。いくつかの実施形態において、正規化は、テストサンプルに対する各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値のスケーリングを含む。各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値のスケーリングは、各プローブオリゴヌクレオチドに対して、スケーリングされたプローブカバレッジ定量値を生成する。いくつかの実施形態において、各プローブに対するプローブカバレッジ定量値は、テストサンプルに対するすべてのプローブオリゴヌクレオチドに対するプローブカバレッジ定量値の中央値に従ってスケーリングされる。例えば、各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値は、プローブカバレッジ定量値の中央値で除算され得る。

【0125】

いくつかの実施形態において、正規化は、テストサンプルに対する各プローブオリゴヌクレオチドに対するグアニン－シトシン（ＣＧ）含有量に従ってプローブカバレッジ定量値を正規化することを含む。いくつかの実施形態において、正規化は、テストサンプルに対する各プローブオリゴヌクレオチドに対するグアニン－シトシン（ＣＧ）含有量に従って、スケーリングされたプローブカバレッジ定量値を正規化することを含む。各プローブオリゴヌクレオチドに対するＧＣ含有量に従ってプローブカバレッジ定量値を正規化することは、各プローブオリゴヌクレオチドに対して、ＧＣ正規化されたプローブカバレッジ定量値を生成する。いくつかの実施形態において、プローブカバレッジ定量値は、ＬＯＥＳＳ正規化によって正規化される。ＬＯＥＳＳ正規化（例えば、ＧＣＬＯＥＳＳ）は、本明細書中にさらに詳細に記載される。

【0126】

いくつかの実施形態において、正規化は、参照サンプルから得られたプローブカバレッジ定量値に従って、テストサンプルに対するプローブカバレッジ定量値を正規化することを含む。参照サンプルは、コピー数変異を有しないと分類されるサンプルを含み得る。いくつかの実施形態において、参照サンプルは、コピー数変異を有しないと分類されるサンプルからなる。したがって、いくつかの実施形態において、参照サンプルは、試験される各染色体および各染色体領域について正倍数性であるサンプルを含むかまたはそのようなサンプルからなる。参照サンプルは、ヒト被験体由来であり得る。いくつかの実施形態において、参照サンプルは、雌性体被験体由来である。いくつかの実施形態において、参照サンプルは、雄性体被験体由来である。いくつかの実施形態において、参照サンプルは、雄性体および雌性体被験体由来である。参照サンプルは、１人の被験体由来のサンプルを含み得るか、または複数の被験体由来のサンプルを含み得る。参照サンプルは、１つの参照サンプルを含み得、複数のサンプルを含むことが多い。例えば、参照サンプルは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０、４０、５０、６０、７０、８０、９０、１００個またはそれを超えるサンプルを含み得る。

【0127】

いくつかの実施形態において、テストサンプルに対するプローブカバレッジ定量値は、参照サンプルから得られたプローブカバレッジ定量値に従って正規化される。いくつかの実施形態において、テストサンプルに対するスケーリングされたプローブカバレッジ定量値は、参照サンプルから得られたプローブカバレッジ定量値に従って正規化される。いくつかの実施形態において、テストサンプルに対するＧＣ正規化されたプローブカバレッジ定量値は、参照サンプルから得られたプローブカバレッジ定量値に従って正規化される。いくつかの実施形態において、テストサンプルに対するプローブカバレッジ定量値は、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値に従って正規化される。いくつかの実施形態において、テストサンプルに対するスケーリングされたプローブカバレッジ定量値は、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値に従って正規化される。いくつかの実施形態において、テストサンプルに対するＧＣ正規化されたプローブカバレッジ定量値は、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値に従って正規化される。プローブカバレッジ中央値は、複数の参照サンプルにわたって同じプローブに対するプローブカバレッジ定量値に従って測定されることが多い。いくつかの実施形態において、プローブカバレッジ中央値は、複数の参照サンプルにわたって同じプローブに対する、正規化された（例えば、ＧＣ正規化された）プローブカバレッジ定量値に従って測定される。参照サンプルから得られたプローブカバレッジ定量値（例えば、プローブカバレッジ中央値）に従った各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値（またはスケーリングされたプローブカバレッジ定量値またはＧＣ正規化されたプローブカバレッジ定量値）の正規化は、テストサンプルに対する各プローブオリゴヌクレオチドに対する、参照サンプルで正規化されたプローブカバレッジ定量値を生成する。

【0128】

いくつかの実施形態において、プローブカバレッジ中央値（例えば、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値）に従って正規化することは、各プローブオリゴヌクレオチドに対する（すなわち、テストサンプルに対する）各プローブカバレッジ定量値を、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値で除算することを含む。いくつかの実施形態において、プローブカバレッジ中央値（例えば、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値）に従って正規化することは、各プローブオリゴヌクレオチドに対する（すなわち、テストサンプルに対する）スケーリングされた各プローブカバレッジ定量値を、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値で除算することを含む。いくつかの実施形態において、プローブカバレッジ中央値（例えば、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値）に従って正規化することは、各プローブオリゴヌクレオチドに対する（すなわち、テストサンプルに対する）各ＧＣ正規化されたプローブカバレッジ定量値を、参照サンプルから得られた各プローブオリゴヌクレオチドに対するプローブカバレッジ中央値で除算することを含む。そのような実施形態において、プローブカバレッジ中央値に従って正規化することにより、各プローブオリゴヌクレオチドに対する比が生成される。

【0129】

いくつかの実施形態において、プローブカバレッジ定量値は、対数変換される。例えば、各プローブオリゴヌクレオチドに対する、参照サンプルで正規化されたプローブカバレッジ定量値は、対数変換され得る。各プローブオリゴヌクレオチドに対する、参照サンプルで正規化されたプローブカバレッジ定量値を対数変換することによって、各プローブオリゴヌクレオチドに対する、対数変換された、参照サンプルで正規化されたプローブカバレッジ定量値が生成される。ある特定の実施形態において、各プローブオリゴヌクレオチドに対する比が、対数変換される。各プローブオリゴヌクレオチドに対する比を対数変換することによって、各プローブオリゴヌクレオチドに対する対数変換された比が生成される。いくつかの実施形態において、対数変換は、ｌｏｇ２変換である。したがって、いくつかの実施形態において、各プローブオリゴヌクレオチドに対する、ｌｏｇ２変換された、参照サンプルで正規化されたプローブカバレッジ定量値が、生成される。いくつかの実施形態において、各プローブオリゴヌクレオチドに対するｌｏｇ２比が、生成される。ある特定の場合において、プローブカバレッジ定量値のｌｏｇ２比は、例えば、方程式Ａ：

【数1】

に従って示されるような、コピー数（ＣＮ）の増加または減少に対するｌｏｇ２比に比例する。

【0130】

式中、「テストカバレッジ」とは、テストサンプルに対するプローブオリゴヌクレオチドに対するプローブカバレッジ定量値（例えば、スケーリングされたプローブカバレッジ定量値、正規化されたプローブカバレッジ定量値）のことを指し；「正常カバレッジ」とは、参照サンプルから得られたプローブオリゴヌクレオチドに対するプローブカバレッジ定量値（例えば、プローブカバレッジ中央値）のことを指し；ＣＮは、プローブオリゴヌクレオチドによって表されるセグメント（すなわち、プローブオリゴヌクレオチド配列と同一または実質的に同一の配列を含むセグメント）に対するコピー数増加またはコピー数減少である。

【0131】

テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、本明細書中に記載される任意の正規化されたプローブカバレッジ定量値またはその任意の好適な変動のことを指し得る。例えば、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対するスケーリングされたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対するＧＣ正規化されたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する、参照サンプルで正規化されたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する比のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する、対数変換された、参照サンプルで正規化されたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する、対数変換された比のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対する、ｌｏｇ２変換された、参照サンプルで正規化されたプローブカバレッジ定量値のことを指し得る。ある特定の場合において、テストサンプルに対するプローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値とは、テストサンプルに対するプローブオリゴヌクレオチドに対するｌｏｇ２比のことを指し得る。

【0132】

いくつかの実施形態において、セグメント化プロセスは、セグメント（例えば、コピー数変異をまたぐセグメント）を特定するために適用される。任意の好適なセグメント化プロセスを利用してよく、それらとしては、サーキュラーバイナリーセグメンテーション（ＣＢＳ）プロセスが挙げられるが、これに限定されない。ＣＢＳの代わりにまたはＣＢＳに加えて、他のプロセスを利用することができ、その非限定的な例としては、ウェーブレットセグメンテーション（例えば、Ｈａａｒウェーブレットセグメンテーション）、フーリエ変換、スライディングウィンドウｚ得点およびマルコフ鎖モデルが挙げられる。

【0133】

いくつかの実施形態において、セグメント化プロセスは、各プローブオリゴヌクレオチドに対するプローブカバレッジ定量値に従ってセグメントを特定するために適用される。いくつかの実施形態において、セグメント化プロセスは、各プローブオリゴヌクレオチドに対する正規化されたプローブカバレッジ定量値に従ってセグメントを特定するために適用される。セグメントは、複数のプローブオリゴヌクレオチド（すなわち、コピー数変異の増加または減少を示唆するプローブカバレッジ定量値を有する複数のプローブオリゴヌクレオチド）を含むときがある。セグメント化プロセスは、各セグメントに対する開始位置および終了位置（例えば、ゲノム座標に従った開始位置および終了位置；プローブインデックスに従った開始位置および終了位置）、セグメントに対するコピー数変異の定量値、および必要に応じてセグメントに対する信頼の尺度を提供するときがある。いくつかの実施形態において、各セグメントの各末端に対する位置（例えば、プローブインデックスに従った位置）およびプローブカバレッジ定量値が、各セグメントに対して提供される。いくつかの実施形態において、各セグメントの各末端に対する位置（例えば、プローブインデックスに従った位置）および正規化されたプローブカバレッジ定量値が、各セグメントに対して提供される。いくつかの実施形態において、各セグメントとオーバーラップする１つまたはそれを超える遺伝子が、特定される。

【0134】

いくつかの実施形態において、各セグメントのコピー数は、各セグメントに関連するプローブカバレッジ定量値に従って決定または推定される。いくつかの実施形態において、各セグメントのコピー数は、各セグメントに関連する正規化されたプローブカバレッジ定量値に従って決定または推定される。各セグメントのコピー数の決定または推定は、各セグメントに対するコピー数（ＣＮ）増加またはコピー数（ＣＮ）減少を提供する。いくつかの実施形態において、各セグメントに対するコピー数（ＣＮ）増加またはコピー数（ＣＮ）減少は、各セグメントに対するセグメント中央値カバレッジの変換に従って決定または推定される。したがって、ある特定の場合において、セグメント中央値カバレッジは、セグメントにおけるプローブオリゴヌクレオチドに対するプローブカバレッジ定量値に従って決定される。いくつかの実施形態において、セグメントに対するコピー数（ＣＮ）増加またはコピー数（ＣＮ）減少は、各セグメントに対するセグメント中央値カバレッジｌｏｇ２比の変換に従って決定または推定される。したがって、ある特定の場合において、ｌｏｇ２比の中央値は、セグメントにおけるプローブオリゴヌクレオチドに対するプローブカバレッジ定量値に従って決定される。換言すれば、セグメントにおけるプローブオリゴヌクレオチドに対するｌｏｇ２比の中央値は、セグメントに対するコピー数（ＣＮ）増加またはコピー数（ＣＮ）減少の判定または推定のために使用される。例えば、セグメントに対するコピー数増加またはコピー数減少は、方程式Ｂ：
ＣＮ＝２^＊（２^{（セグメント．中央値．ｌｏｇ２比）}－１）方程式Ｂ
（式中、ＣＮは、各セグメントに対するコピー数増加またはコピー数減少である）に従って判定または推定され得る。

【0135】

いくつかの実施形態において、セグメントは、フィルタリングされる（例えば、考慮すべきものから除去される）。セグメントは、セグメントに関連するプローブカバレッジ定量値、セグメントに関連する正規化されたプローブカバレッジ定量値、およびセグメントに対するコピー数増加またはコピー数減少のうちの１つまたはそれを超えるものに従ってフィルタリングされ得る。通常、セグメントのフィルタリングによって、フィルタリングされて保持されたセグメントのセットが提供される。セグメントは、対応するコピー数定量値と対にされることが多く、対応するコピー数定量値の絶対値が０～約１（重複候補の場合）または０～約０．９（欠失候補の場合）であるセグメントは、ノイズ低減フィルタリングプロセスの一部としてフィルタリングされて除去されることが多い。いくつかの実施形態において、１またはそれを超えるコピー数増加（重複候補の場合）があるセグメントは、フィルタリングされたセグメントとして保持され得る。例えば、１．１、１．２、１．３、１．４、１．５、１．６、１．７、１．８、１．９、２、３、４、５、６、７、８、９、１０またはそれを超えるコピー数増加があるセグメントは、フィルタリングされたセグメントとして保持され得る。いくつかの実施形態において、０．９またはそれを超えるコピー数減少（欠失候補の場合）があるセグメントは、フィルタリングされたセグメントとして保持され得る。欠失候補に対するコピー数定量値は、通常、ゼロ未満に低下するので、「０．９またはそれを超えるコピー数減少」は、欠失候補に対するコピー数定量値の絶対値に対応する。したがって、例えば、０．９、１．０、１．２、１．３、１．４、１．５、１．６、１．７、１．８、１．９または２というコピー数減少があるセグメントは、フィルタリングされたセグメントとして保持され得る。換言すれば、－０．９、－１．０、－１．２、－１．３、－１．４、－１．５、－１．６、－１．７、－１．８、－１．９または－２というコピー数定量値を有するセグメントは、フィルタリングされたセグメントとして保持され得る。

【0136】

核酸の配列決定および処理
本明細書中に提供される方法は、通常、核酸の配列決定および解析を含む。いくつかの実施形態において、核酸が、配列決定され、配列決定の生成物（例えば、配列リードの集合）は、配列決定された核酸の解析の前にまたはその解析と同時に、処理される。例えば、配列リードは、以下：アラインメントする工程、マッピングする工程、部分をフィルタリングする工程、部分を選択する工程、カウントする工程、正規化する工程、重み付けする工程、プロファイルを生成する工程など、およびそれらの組み合わせのうちの１つまたはそれを超える工程に従って処理され得る。ある特定の処理工程は、任意の順序で行われ得、ある特定の処理工程が、反復され得る。例えば、部分がフィルタリングされた後、配列リードカウントが正規化され得、ある特定の実施形態では、配列リードカウントが、正規化された後、部分がフィルタリングされ得る。いくつかの実施形態において、部分をフィルタリングする工程の後、配列リードカウントの正規化に続いて、部分をさらにフィルタリングする工程が続く。ある特定の配列決定方法および処理工程は、下記でさらに詳細に記載される。

【0137】

配列決定
いくつかの実施形態において、核酸（例えば、核酸フラグメント、サンプル核酸、無細胞核酸）が、配列決定される。ある特定の場合において、完全なまたは実質的に完全な配列が得られ、部分的な配列が得られるときがある。核酸配列決定は、通常、配列リードの集合を生成する。本明細書中で使用されるとき、「リード（ｒｅａｄｓ）」（例えば、「リード（ａｒｅａｄ）」、「配列リード」）は、本明細書中に記載されるまたは当該分野で公知の任意の配列決定プロセスによって生成される短いヌクレオチド配列である。リードは、核酸フラグメントの一方の末端から生成され得（「シングルエンドリード」）、核酸フラグメントの両方の末端から生成されるときもある（例えば、ペアエンドリード、ダブルエンドリード）。

【0138】

配列リードの長さは、特定の配列決定技術に関連することが多い。例えば、ハイスループット法は、サイズが数十から数百塩基対（ｂｐ）まで異なり得る配列リードを提供する。例えば、ナノポア配列決定は、サイズが数十、数百から数千の塩基対まで異なり得る配列リードを提供し得る。いくつかの実施形態において、配列リードは、約１５ｂｐ～約９００ｂｐ長という長さの平均値、中央値、平均の長さまたは長さの絶対値である。ある特定の実施形態において、配列リードは、約１０００ｂｐまたはそれを超える長さの平均値、中央値、平均の長さまたは長さの絶対値である。いくつかの実施形態において、配列リードは、約１５００、２０００、２５００、３０００、３５００、４０００、４５００もしくは５０００ｂｐまたはそれを超える長さの平均値、中央値、平均の長さまたは長さの絶対値である。いくつかの実施形態において、配列リードは、約１００ｂｐ～約２００ｂｐという長さの平均値、中央値、平均の長さまたは長さの絶対値である。いくつかの実施形態において、配列リードは、約１４０ｂｐ～約１６０ｂｐという長さの平均値、中央値、平均の長さまたは長さの絶対値である。例えば、配列リードは、約１４０、１４１、１４２、１４３、１４４、１４５、１４６、１４７、１４８、１４９、１５０、１５１、１５２、１５３、１５４、１５５、１５６、１５７、１５８、１５９または１６０ｂｐというさの平均値、中央値、平均の長さまたは長さの絶対値であり得る。

【0139】

いくつかの実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約１０個連続したヌクレオチド～約２５０個もしくはそれを超えて連続したヌクレオチド、約１５個連続したヌクレオチド～約２００個もしくはそれを超えて連続したヌクレオチド、約１５個連続したヌクレオチド～約１５０個もしくはそれを超えて連続したヌクレオチド、約１５個連続したヌクレオチド～約１２５個もしくはそれを超えて連続したヌクレオチド、約１５個連続したヌクレオチド～約１００個もしくはそれを超えて連続したヌクレオチド、約１５個連続したヌクレオチド～約７５個もしくはそれを超えて連続したヌクレオチド、約１５個連続したヌクレオチド～約６０個もしくはそれを超えて連続したヌクレオチド、１５個連続したヌクレオチド～約５０個もしくはそれを超えて連続したヌクレオチド、約１５個連続したヌクレオチド～約４０個もしくはそれを超えて連続したヌクレオチドであるときがあり、約１５個連続したヌクレオチドまたは約３６個もしくはそれを超えて連続したヌクレオチドであるときがある。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約２０～約３０塩基長または約２４～約２８塩基長である。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２１、２２、２３、２４、２５、２６、２７、２８もしくは約２９塩基長またはそれを超える長さである。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約２０～約２００塩基長、約１００～約２００塩基長または約１４０～約１６０塩基長である。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約３０、４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０、１９０もしくは約２００塩基長またはそれを超える長さである。ある特定の実施形態において、ペアエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約１０個連続したヌクレオチド～約２５個連続したヌクレオチドまたはそれを超えるヌクレオチド（例えば、約１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４または２５ヌクレオチド長またはそれを超えるヌクレオチド長）、約１５個連続したヌクレオチド～約２０個連続したヌクレオチドまたはそれを超えるヌクレオチドであるときがあり、約１７個連続したヌクレオチドまたは約１８個連続したヌクレオチドであるときがある。ある特定の実施形態において、ペアエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約２５個連続したヌクレオチド～約４００個連続したヌクレオチドまたはそれを超えるヌクレオチド（例えば、約２５、３０、４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００、２１０、２２０、２３０、２４０、２５０、２６０、２７０、２８０、２９０、３００、３１０、３２０、３３０、３４０、３５０、３６０、３７０、３８０、３９０もしくは４００ヌクレオチド長またはそれを超えるヌクレオチド長）、約５０個連続したヌクレオチド～約３５０個連続したヌクレオチドまたはそれを超えるヌクレオチド、約１００個連続したヌクレオチド～約３２５個連続したヌクレオチド、約１５０個連続したヌクレオチド～約３２５個連続したヌクレオチド、約２００個連続したヌクレオチド～約３２５個連続したヌクレオチド、約２７５個連続したヌクレオチド～約３１０個連続したヌクレオチド、約１００個連続したヌクレオチド～約２００個連続したヌクレオチド、約１００個連続したヌクレオチド～約１７５個連続したヌクレオチド、約１２５個連続したヌクレオチド～約１７５個連続したヌクレオチドであるときがあり、約１４０個連続したヌクレオチド～約１６０個連続したヌクレオチドであるときがある。ある特定の実施形態において、ペアエンドリードの名目上の長さ、平均の長さ、長さの平均値または長さの絶対値は、約１５０個連続したヌクレオチドであり、１５０個連続したヌクレオチドであるときがある。

【0140】

いくつかの実施形態において、サンプルから得られたヌクレオチド配列リードは、部分的なヌクレオチド配列リードである。本明細書中で使用されるとき、「部分的なヌクレオチド配列リード」とは、配列多義性（ｓｅｑｕｅｎｃｅａｍｂｉｇｕｉｔｙ）とも称される不完全な配列情報を有する任意の長さの配列リードのことを指す。部分的なヌクレオチド配列リードは、核酸塩基の同一性および／または核酸塩基の位置もしくは順序に関する情報を欠き得る。部分的なヌクレオチド配列リードは、一般に、単に不完全な配列情報（またはそれらの塩基のすべてより少ない塩基が配列決定されているかまたは決定されている）が、不注意のまたは故意でない配列決定のエラーに由来する配列リードを含まない。そのような配列決定のエラーは、ある特定の配列決定プロセスに固有であり得、例えば、核酸塩基の同一性に対する不正確なコール、および欠損したまたは余分な核酸塩基を含む。したがって、本明細書中の部分的なヌクレオチド配列リードに対して、その配列に関するある特定の情報は、故意に除外されることが多い。すなわち、すべての核酸塩基より少ない核酸塩基に関する配列情報、または配列決定のエラーとして別途特徴づけられ得るかもしくは配列決定のエラーであり得る配列情報を故意に得る。いくつかの実施形態において、部分的なヌクレオチド配列リードは、核酸フラグメントの一部分に及び得る。いくつかの実施形態において、部分的なヌクレオチド配列リードは、核酸フラグメントの長さ全体に及び得る。部分的なヌクレオチド配列リードは、例えば、国際特許出願公開番号ＷＯ２０１３／０５２９０７に記載されており、本文、表、式および図面のすべてを含むこの全内容が、参照により本明細書中に援用される。

【0141】

リードは、一般に、物理的な核酸におけるヌクレオチド配列の提示である。例えば、ＡＴＧＣ描写の配列を含むリードにおいて、物理的な核酸では、「Ａ」は、アデニンヌクレオチドを表し、「Ｔ」は、チミンヌクレオチドを表し、「Ｇ」は、グアニンヌクレオチドを表し、「Ｃ」は、シトシンヌクレオチドを表す。被験体由来のサンプルから得られる配列リードは、少数核酸と多数核酸との混合物からのリードであり得る。例えば、癌患者の血液から得られる配列リードは、癌核酸と非癌核酸との混合物からのリードであり得る。別の例では、妊婦の血液から得られる配列リードは、胎児核酸と母体核酸との混合物からのリードであり得る。比較的短いリードの混合物は、本明細書中に記載されるプロセスによって、被験体に存在するゲノム核酸の提示および／または腫瘍もしくは胎児に存在するゲノム核酸の提示に変換され得る。ある特定の場合において、比較的短いリードの混合物は、例えば、コピー数変化、遺伝子変異／遺伝子変化または異数性の提示に変換され得る。１つの例では、癌核酸と非癌核酸との混合物のリードは、癌細胞と非癌細胞の一方または両方の染色体の特徴を含む複合染色体またはその一部の提示に変換され得る。別の例では、母体核酸と胎児核酸との混合物のリードは、母体および胎児の一方または両方の染色体の特徴を含む複合染色体またはその一部の提示に変換され得る。

【0142】

場合によっては、癌患者から得られる循環無細胞核酸フラグメント（ＣＣＦフラグメント）は、正常細胞を起源とする核酸フラグメント（すなわち、非癌フラグメント）および癌細胞を起源とする核酸フラグメント（すなわち、癌フラグメント）を含む。正常細胞（すなわち、非癌性細胞）を起源とするＣＣＦフラグメントに由来する配列リードは、「非癌リード」と本明細書中で称される。癌細胞を起源とするＣＣＦフラグメントに由来する配列リードは、「癌リード」と本明細書中で称される。非癌リードが得られるＣＣＦフラグメントは、非癌鋳型と本明細書中で称され得、癌リードが得られるＣＣＦフラグメントは、癌鋳型と本明細書中で称され得る。

【0143】

場合によっては、妊婦から得られる循環無細胞核酸フラグメント（ＣＣＦフラグメント）は、胎児細胞を起源とする核酸フラグメント（すなわち、胎児フラグメント）および母体細胞を起源とする核酸フラグメント（すなわち、母体フラグメント）を含む。胎児を起源とするＣＣＦフラグメントに由来する配列リードは、「胎児リード」と本明細書中で称される。胎児を有する妊婦（例えば、母体）のゲノムを起源とするＣＣＦフラグメントに由来する配列リードは、「母体リード」と本明細書中で称される。胎児リードが得られるＣＣＦフラグメントは、胎児鋳型と本明細書中で称され、母体リードが得られるＣＣＦフラグメントは、母体鋳型と本明細書中で称される。

【0144】

ある特定の実施形態において、被験体からサンプルの核酸配列リードを「得ること」および／または１人もしくはそれを超える参照人から生物学的検体の核酸配列リードを「得ること」は、核酸を直接配列決定して配列情報を得ることを含み得る。いくつかの実施形態において、「得ること」は、別のものによって核酸から直接得られた配列情報を受け取ることを含み得る。

【0145】

いくつかの実施形態において、サンプル中のいくつかまたはすべての核酸が、配列決定の前または配列決定中に、濃縮および／または増幅される（例えば、非特異的に、例えば、ＰＣＲに基づく方法によって）。ある特定の実施形態において、サンプル中の特定の核酸種またはサブセットが、配列決定の前または配列決定中に、濃縮および／または増幅される。いくつかの実施形態において、予め選択された核酸プールの種またはサブセットが、ランダムに配列決定される。いくつかの実施形態において、サンプル中の核酸は、配列決定の前または配列決定中に濃縮および／または増幅されない。

【0146】

いくつかの実施形態において、ゲノムの代表的な一部が配列決定され、それは、「カバレッジ」または「倍カバレッジ」と称されるときがある。例えば、１倍カバレッジは、そのゲノムのおおよそ１００％のヌクレオチド配列が、リードによって表されることを示唆する。場合によっては、倍カバレッジは、「配列決定デプス（ｓｅｑｕｅｎｃｉｎｇｄｅｐｔｈ）」と称される（および「配列決定デプス」に正比例する）。いくつかの実施形態において、「倍カバレッジ」は、事前の配列決定ランを参照として言及している相対的な用語である。例えば、第２の配列決定ランは、第１の配列決定ランよりも２倍少ないカバレッジを有し得る。いくつかの実施形態において、ゲノムは、重複して配列決定され、ここで、所与のゲノム領域が、２つまたはそれを超えるリードまたはオーバーラップリードによってカバーされ得る（例えば、１より大きい「倍カバレッジ」、例えば、２倍カバレッジ）。いくつかの実施形態において、ゲノム（例えば、全ゲノム）は、約０．０１倍～約１００倍カバレッジ、約０．１倍～２０倍カバレッジまたは約０．１倍～約１倍カバレッジ（例えば、約０．０１５、０．０２、０．０３、０．０４、０．０５、０．０６、０．０７、０．０８、０．０９、０．１、０．２、０．３、０．４、０．５、０．６、０．７、０．８、０．９、１、２、３、４、５、６、７、８、９、１０、１５、２０、３０、４０、５０、６０、７０、８０、９０倍またはそれを超えるカバレッジ）で配列決定される。いくつかの実施形態において、ゲノムの特定の部分（例えば、標的化方法および／またはプローブに基づく方法によるゲノム部分）が配列決定され、倍カバレッジ値とは、配列決定されたその特定のゲノム部分の一部のことを通常指す（すなわち、倍カバレッジ値とは、全ゲノムのことを指さない）。場合によっては、特定のゲノム部分は、１０００倍カバレッジまたはそれを超える倍カバレッジで配列決定される。例えば、特定のゲノム部分は、２０００倍、５，０００倍、１０，０００倍、２０，０００倍、３０，０００倍、４０，０００倍または５０，０００倍カバレッジで配列決定され得る。いくつかの実施形態において、配列決定は、約１，０００倍～約１００，０００倍カバレッジで行われる。いくつかの実施形態において、配列決定は、約１０，０００倍～約７０，０００倍カバレッジで行われる。いくつかの実施形態において、配列決定は、約２０，０００倍～約６０，０００倍カバレッジで行われる。いくつかの実施形態において、配列決定は、約３０，０００倍～約５０，０００倍カバレッジで行われる。

【0147】

いくつかの実施形態において、１つの個体由来の１つの核酸サンプルが、配列決定される。ある特定の実施形態において、２つまたはそれを超えるサンプルの各々からの核酸が、配列決定され、ここで、サンプルは、１つの個体由来であるか、または異なる個体由来である。ある特定の実施形態において、２つまたはそれを超える生物学的サンプル由来の核酸サンプルがプールされ、ここで、各生物学的サンプルは、１つの個体由来であるか、または２つもしくはそれを超える個体由来であり、そのプールが配列決定される。後者の実施形態では、各生物学的サンプル由来の核酸サンプルは、１つまたはそれを超えるユニークな識別子によって識別されることが多い。

【0148】

いくつかの実施形態において、配列決定法は、配列決定プロセスにおいて配列決定反応の多重化を可能にする識別子を使用する。ユニークな識別子の数が増えるほど、配列決定プロセスにおいて多重化され得る、例えば、検出のためのサンプルおよび／または染色体の数は増える。配列決定プロセスは、任意の好適な数の（例えば、４、８、１２、２４、４８、９６個またはそれを超える）ユニークな識別子を用いて行われ得る。

【0149】

配列決定プロセスは、固相を利用するときがあり、その固相は、ライブラリー由来の核酸が付着され得、試薬が流され得、付着された核酸と接触し得るフローセルを含むときがある。フローセルは、フローセルレーンを備えるときがあり、識別子の使用により、各レーンにおいていくつかのサンプルを解析することが容易になり得る。フローセルは、結合したアナライトの上に試薬溶液を保持するようにおよび／または結合したアナライトの上に試薬溶液を順序正しく通過させるように構成され得る、固体支持体であることが多い。フローセルは、しばしば、平面の形状であり、光学的に透明であり、一般に、ミリメートルまたはミリメートル未満のスケールであり、アナライト／試薬相互作用が生じるチャネルまたはレーンを有することが多い。いくつかの実施形態において、所与のフローセルレーンにおいて解析されるサンプルの数は、ライブラリー調製中および／またはプローブデザイン中に使用されたユニークな識別子の数に依存する。１２個の識別子を使用した多重化は、例えば、８レーンフローセルにおいて、９６個のサンプル（例えば、９６ウェルのマイクロウェルプレートにおけるウェルの数に等しい）を同時に解析することを可能にする。同様に、４８個の識別子を使用した多重化は、例えば、８レーンフローセルにおいて、３８４個のサンプル（例えば、３８４ウェルのマイクロウェルプレートにおけるウェルの数に等しい）を同時に解析することを可能にする。商業的に入手可能なマルチプレックス配列決定キットの非限定的な例としては、Ｉｌｌｕｍｉｎａのマルチプレックスサンプル調製オリゴヌクレオチドキットおよびマルチプレックス配列決定プライマーおよびＰｈｉＸコントロールキット（例えば、それぞれＩｌｌｕｍｉｎａのカタログ番号ＰＥ－４００－１００１およびＰＥ－４００－１００２）が挙げられる。

【0150】

核酸を配列決定する任意の好適な方法が使用され得、その非限定的な例としては、Ｍａｘｉｍ＆Ｇｉｌｂｅｒｔ、チェーン・ターミネーション法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡法に基づく手法などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、第１世代の技術、例えば、マイクロフルイディクスＳａｎｇｅｒ配列決定を含む自動化されたＳａｎｇｅｒ配列決定法を含むＳａｎｇｅｒ配列決定法が、本明細書中に提供される方法において使用され得る。いくつかの実施形態において、核酸イメージング技術（例えば、透過型電子顕微鏡（ＴＥＭ）および原子間力顕微鏡法（ＡＦＭ））の使用を含む配列決定技術が使用され得る。いくつかの実施形態において、ハイスループット配列決定法が使用される。ハイスループット配列決定法は、一般に、大規模並列処理形式で、時折、フローセル内において、配列決定される、クローン増幅されたＤＮＡ鋳型または単一ＤＮＡ分子を必要とする。大規模並列処理形式でＤＮＡを配列決定することができる次世代（例えば、第２および第３世代）配列決定法は、本明細書中に記載される方法のために使用され得、本明細書中において「大規模並列処理配列決定」（ＭＰＳ）と総称される。いくつかの実施形態において、ＭＰＳ配列決定法は、標的化アプローチを使用し、ここで、特定の染色体、遺伝子または目的の領域が配列決定される。ある特定の実施形態において、サンプル中のほとんどまたはすべての核酸が、ランダムに配列決定され、増幅され、かつ／または捕捉される、非標的化アプローチが使用される。

【0151】

いくつかの実施形態において、標的化された濃縮、増幅および／または配列決定アプローチが使用される。標的化アプローチは、配列特異的オリゴヌクレオチドを使用することによってさらに処理するために、サンプル中の核酸のサブセットを単離する、選択する、および／または濃縮することが多い。いくつかの実施形態において、配列特異的オリゴヌクレオチドのライブラリーが、サンプル中の１つまたはそれを超える核酸セットを標的化する（例えば、ハイブリダイズさせる）ために使用される。配列特異的オリゴヌクレオチドおよび／またはプライマーは、１つまたはそれを超える、目的の染色体、遺伝子、エキソン、イントロンおよび／または制御領域に存在する特定の配列（例えば、ユニークな核酸配列）に対して選択的であることが多い。任意の好適な方法または方法の組み合わせが、１つまたはそれを超える標的化された核酸のサブセットの濃縮、増幅および／または配列決定のために使用され得る。いくつかの実施形態において、標的化された配列は、１つまたはそれを超える配列特異的アンカーを使用した固相（例えば、フローセル、ビーズ）への捕捉によって、単離および／または濃縮される。いくつかの実施形態において、標的化された配列は、配列特異的プライマーおよび／またはプライマーセットを使用した、ポリメラーゼに基づく方法（例えば、ＰＣＲに基づく方法、任意の好適なポリメラーゼに基づく伸長）によって、濃縮および／または増幅される。配列特異的アンカーが、配列特異的プライマーとして使用され得ることが多い。

【0152】

ＭＰＳ配列決定は、合成およびある特定のイメージングプロセスによる配列決定を利用するときがある。本明細書中に記載される方法において使用され得る核酸配列決定技術は、合成による配列決定および可逆的ターミネーターに基づく配列決定（例えば、Ｉｌｌｕｍｉｎａ’ｓＧｅｎｏｍｅＡｎａｌｙｚｅｒ；ＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩ；ＨＩＳＥＱ２０００；ＨＩＳＥＱ２５００（Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏＣＡ））である。この技術を用いれば、数百万の核酸（例えば、ＤＮＡ）フラグメントを並行して配列決定することができる。このタイプの配列決定技術の１つの例では、オリゴヌクレオチドアンカー（例えば、アダプタープライマー）が結合した表面上に８つの個別のレーンを有する光学的に透明なスライドを備えるフローセルが使用される。

【0153】

合成による配列決定は、通常、鋳型特異的な様式で、ヌクレオチドをプライマーまたは既存の核酸鎖に反復して付加すること（例えば、共有結合性の付加）によって行われる。ヌクレオチドの反復付加の各々が検出され、そのプロセスは、核酸鎖の配列が得られるまで複数回繰り返される。得られる配列の長さは、行われる付加工程および検出工程の数に部分的に依存する。合成による配列決定のいくつかの実施形態では、１回のヌクレオチド付加において、同じタイプ（例えば、Ａ、Ｇ、ＣまたはＴ）の１つ、２つ、３つもしくはそれを超えるヌクレオチドが付加され、検出される。ヌクレオチドは、任意の好適な方法によって（例えば、酵素的または化学的に）付加され得る。例えば、いくつかの実施形態において、ポリメラーゼまたはリガーゼが、鋳型特異的様式で、プライマーまたは既存の核酸鎖にヌクレオチドを付加する。合成による配列決定のいくつかの実施形態において、異なるタイプのヌクレオチド、ヌクレオチドアナログおよび／または識別子が使用される。いくつかの実施形態において、可逆的ターミネーターおよび／または除去可能な（例えば、切断可能な）識別子が使用される。いくつかの実施形態において、蛍光標識されたヌクレオチドおよび／またはヌクレオチドアナログが使用される。ある特定の実施形態において、合成による配列決定は、切断（例えば、識別子の切断および除去）および／または洗浄工程を含む。いくつかの実施形態において、１つまたはそれを超えるヌクレオチドの付加は、本明細書中に記載されるまたは当該分野で公知の好適な方法によって検出され、その非限定的な例としては、任意の好適なイメージング装置、好適なカメラ、デジタルカメラ、ＣＣＤ（電荷結合素子）に基づくイメージング装置（例えば、ＣＣＤカメラ）、ＣＭＯＳ（相補型金属酸化物半導体（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｉｌｉｃｏｎ））に基づくイメージング装置（例えば、ＣＭＯＳカメラ）、フォトダイオード（例えば、光電子増倍管）、電子顕微鏡法、電界効果トランジスタ（例えば、ＤＮＡ電界効果トランジスタ）、ＩＳＦＥＴイオンセンサー（例えば、ＣＨＥＭＦＥＴセンサー）などまたはそれらの組み合わせが挙げられる。

【0154】

本明細書中に記載される方法を行うための任意の好適なＭＰＳの方法、システムまたは技術プラットフォームが、核酸配列リードを得るために使用され得る。ＭＰＳプラットフォームの非限定的な例としては、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘ／ＨｉＳｅｑ（例えば、Ｉｌｌｕｍｉｎａ’ｓＧｅｎｏｍｅＡｎａｌｙｚｅｒ；ＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩ；ＨＩＳＥＱ２０００；ＨＩＳＥＱ）、ＳＯＬｉＤ、Ｒｏｃｈｅ／４５４、ＰＡＣＢＩＯおよび／またはＳＭＲＴ、ＨｅｌｉｃｏｓＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ、ＩｏｎＴｏｒｒｅｎｔおよびＩｏｎ半導体ベースの配列決定（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓが開発したもの）、ＷｉｌｄＦｉｒｅ、５５００、５５００ｘｌＷおよび／もしくは５５００ｘｌＷＧｅｎｅｔｉｃＡｎａｌｙｚｅｒに基づく技術（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓが開発し、販売しているもの、米国特許出願公開番号２０１３／００１２３９９）；ポロニーシーケンシング、パイロシーケンシング、大規模並列処理シグネチャ配列決定（ＭＰＳＳ）、ＲＮＡポリメラーゼ（ＲＮＡＰ）配列決定、ＬａｓｅｒＧｅｎシステムおよび方法、ナノポアベースのプラットフォーム、化学感応性電界効果トランジスタ（ＣＨＥＭＦＥＴ）アレイ、電子顕微鏡法ベースの配列決定（例えば、ＺＳＧｅｎｅｔｉｃｓ，ＨａｌｃｙｏｎＭｏｌｅｃｕｌａｒが開発したもの）、ナノボールシーケンシングなどまたはそれらの組み合わせが挙げられる。本明細書中の方法を行うために使用され得る他の配列決定方法としては、デジタルＰＣＲ、ハイブリダイゼーションによる配列決定、ナノポア配列決定、染色体特異的配列決定（例えば、ＤＡＮＳＲ（選択された領域のデジタル解析）技術を用いる）が挙げられる。

【0155】

いくつかの実施形態において、配列リードは、配列モジュールによって、作製される、得られる、集められる、アセンブルされる、操作される、変換される、処理される、および／または提供される。配列モジュールを備える機器は、当該分野で公知の配列決定技術を使用して核酸の配列を決定する好適な機器および／または装置であり得る。いくつかの実施形態において、配列モジュールは、アラインメントし得る、アセンブルし得る、断片化し得る、相補鎖生成（ｃｏｍｐｌｅｍｅｎｔ）し得る、逆相補鎖生成（ｒｅｖｅｒｓｅｃｏｍｐｌｅｍｅｎｔ）し得る、および／またはエラーチェックし得る（例えば、配列リードをエラー訂正し得る）。

【0156】

リードのマッピング
配列リードは、マッピングされ得、特定の核酸領域（例えば、染色体またはその一部）にマップするリードの数は、カウントと称される。任意の好適なマッピング方法（例えば、プロセス、アルゴリズム、プログラム、ソフトウェア、モジュールなどまたはそれらの組み合わせ）が使用され得る。マッピングプロセスのある特定の態様が、本明細書の以後に記載される。

【0157】

ヌクレオチド配列リード（すなわち、物理的なゲノム位置が不明なフラグメントからの配列情報）のマッピングは、いくつかの方法で行われ得、得られた配列リードを参照ゲノム内のマッチする配列とアラインメントすることを含むことが多い。そのようなアラインメントでは、配列リードは、通常、参照配列にアラインメントされ、アラインメントする配列リードは、「マッピングされる」、「マッピングされた配列リード」または「マッピングされたリード」と呼ばれる。ある特定の実施形態において、マッピングされた配列リードは、「ヒット」または「カウント」と称される。いくつかの実施形態において、マッピングされた配列リードは、様々なパラメータに従って共にグループ化され、下記でさらに詳細に論じられる特定のゲノム部分に割り当てられる。

【0158】

用語「アラインメントされる」、「アラインメント」または「アラインメントする」とは、一般に、マッチ（例えば、１００％同一性）または部分的なマッチとして特定され得る２つまたはそれを超える核酸配列のことを指す。アラインメントは、手作業でまたはコンピュータ（例えば、ソフトウェア、プログラム、モジュールまたはアルゴリズム）によって行われ得、その非限定的な例としては、ＩｌｌｕｍｉｎａＧｅｎｏｍｉｃｓＡｎａｌｙｓｉｓパイプラインの一部として配布されているＥｆｆｉｃｉｅｎｔＬｏｃａｌＡｌｉｇｎｍｅｎｔｏｆＮｕｃｌｅｏｔｉｄｅＤａｔａ（ＥＬＡＮＤ）コンピュータプログラムが挙げられる。配列リードのアラインメントは、１００％配列マッチであり得る。場合によっては、アラインメントは、１００％未満の配列マッチである（すなわち、不完全なマッチ、部分的なマッチ、部分的なアラインメント）。いくつかの実施形態において、アラインメントは、約９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８９％、８８％、８７％、８６％、８５％、８４％、８３％、８２％、８１％、８０％、７９％、７８％、７７％、７６％または７５％マッチである。いくつかの実施形態において、アラインメントは、ミスマッチを含む。いくつかの実施形態において、アラインメントは、１、２、３、４または５つのミスマッチを含む。２つまたはそれを超える配列が、いずれかの鎖（例えば、センス鎖またはアンチセンス鎖）を用いてアラインメントされ得る。ある特定の実施形態において、核酸配列は、別の核酸配列の逆相補鎖とアラインメントされる。

【0159】

コンピュータによる様々な方法が、各配列リードをある部分にマッピングするために使用され得る。配列をアラインメントするために使用され得るコンピュータアルゴリズムの非限定的な例としては、ＢＬＡＳＴ、ＢＬＩＴＺ、ＦＡＳＴＡ、ＢＯＷＴＩＥ１、ＢＯＷＴＩＥ２、ＥＬＡＮＤ、ＭＡＱ、ＰＲＯＢＥＭＡＴＣＨ、ＳＯＡＰ、ＢＷＡもしくはＳＥＱＭＡＰまたはそれらの変法またはそれらの組み合わせが挙げられるが、これらに限定されない。いくつかの実施形態において、配列リードは、参照ゲノム内の配列とアラインメントされ得る。いくつかの実施形態において、配列リードは、当該分野で公知の核酸データベース内に見出され得、かつ／または当該分野で公知の核酸データベース内の配列とアラインメントされ得、その核酸データベースとしては、例えば、ＧｅｎＢａｎｋ、ｄｂＥＳＴ、ｄｂＳＴＳ、ＥＭＢＬ（ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＬａｂｏｒａｔｏｒｙ）およびＤＤＢＪ（ＤＮＡＤａｔａｂａｎｋｏｆＪａｐａｎ）が挙げられる。ＢＬＡＳＴまたは同様のツールが、特定された配列を配列データベースに対して検索するために使用され得る。次いで、検索のヒットが、例えば、特定された配列を適切な部分（本明細書の以後に記載される）に選別するために使用され得る。

【0160】

いくつかの実施形態において、リードは、参照ゲノム内の部分にユニークにまたは非ユニークにマップし得る。あるリードが、参照ゲノム内の単一配列とアラインメントする場合、そのリードは、「ユニークにマッピングされる」と見なされる。あるリードが、参照ゲノム内の２つまたはそれを超える配列とアラインメントする場合、そのリードは、「非ユニークにマッピングされる」と見なされる。いくつかの実施形態において、非ユニークにマッピングされたリードは、さらなる解析（例えば、定量）から除外される。ある特定の実施形態では、参照ゲノムと、マッピングされている個々のサンプル由来のリードとの間に存在し得る単一ヌクレオチド多型を説明するために、ある特定のわずかなミスマッチ（０～１個）が許容され得る。いくつかの実施形態において、少しの程度のミスマッチも、参照配列にマッピングされるリードに対して許容されない。

【0161】

本明細書中で使用されるとき、用語「参照ゲノム」とは、部分的であるかまたは完全であるかを問わず、被験体由来の特定された配列の参照にするために使用され得る任意の生物またはウイルスの任意の特定の既知の、配列決定された、または特徴づけられたゲノムのことを指し得る。例えば、ヒト被験体ならびに他の多くの生物のために使用される参照ゲノムは、ＷｏｒｌｄＷｉｄｅＷｅｂＵＲＬｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖにおけるＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎに見られ得る。「ゲノム」とは、核酸配列として表現される、生物またはウイルスの完全な遺伝情報のことを指す。本明細書中で使用されるとき、参照配列または参照ゲノムは、１つの個体または複数の個体からのアセンブルされたゲノム配列または部分的にアセンブルされたゲノム配列であることが多い。いくつかの実施形態において、参照ゲノムは、１人またはそれを超えるヒト個体からのアセンブルされたまたは部分的にアセンブルされたゲノム配列である。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。

【0162】

ある特定の実施形態において、マッピング性（ｍａｐｐａｂｉｌｉｔｙ）は、ゲノム領域（例えば、部分、ゲノム部分）に対して評価される。マッピング性は、ヌクレオチド配列リードを参照ゲノムの一部に、通常、指定の数のミスマッチ（例えば、０個、１つ、２つもしくはそれを超えるミスマッチを含む）まで明確にアラインメントする能力である。所与のゲノム領域の場合、予想されるマッピング性は、前もって設定されたリード長のスライディングウィンドウ（ｓｌｉｄｉｎｇ－ｗｉｎｄｏｗ）アプローチを用い、得られたリードレベルのマッピング性の値を平均して、推定され得る。連続したユニークなヌクレオチド配列を含むゲノム領域は、高いマッピング性の値を有するときがある。

【0163】

ペアエンド配列決定の場合、リードは、好適なマッピングプログラムおよび／またはアラインメントプログラムを使用することによって参照ゲノムにマッピングされ得、そのプログラムの非限定的な例としては、ＢＷＡ（ＬｉＨ．ａｎｄＤｕｒｂｉｎＲ．（２００９）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５，１７５４－６０）、Ｎｏｖｏａｌｉｇｎ［Ｎｏｖｏｃｒａｆｔ（２０１０）］、Ｂｏｗｔｉｅ（ＬａｎｇｍｅａｄＢら（２００９）ＧｅｎｏｍｅＢｉｏｌ．１０：Ｒ２５）、ＳＯＡＰ２（ＬｉＲら（２００９）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５，１９６６－６７）、ＢＦＡＳＴ（ＨｏｍｅｒＮら（２００９）ＰＬｏＳＯＮＥ４，ｅ７７６７）、ＧＡＳＳＳＴ（Ｒｉｚｋ，Ｇ．ａｎｄＬａｖｅｎｉｅｒ，Ｄ．（２０１０）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２６，２５３４－２５４０）およびＭＰｓｃａｎ（ＲｉｖａｌｓＥ．ら（２００９）ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ５７２４，２４６－２６０）などが挙げられる。ペアエンドリードは、好適な短リードアラインメントプログラムを用いてマッピングおよび／またはアラインメントされ得る。短リードアラインメントプログラムの非限定的な例としては、ＢａｒｒａＣＵＤＡ、ＢＦＡＳＴ、ＢＬＡＳＴＮ、ＢＬＡＴ、Ｂｏｗｔｉｅ、ＢＷＡ、ＣＡＳＨＸ、ＣＵＤＡ－ＥＣ、ＣＵＳＨＡＷ、ＣＵＳＨＡＷ２、ｄｒＦＡＳＴ、ＥＬＡＮＤ、ＥＲＮＥ、ＧＮＵＭＡＰ、ＧＥＭ、ＧｅｎｓｅａｒｃｈＮＧＳ、ＧＭＡＰ、ＧｅｎｅｉｏｕｓＡｓｓｅｍｂｌｅｒ、ｉＳＡＡＣ、ＬＡＳＴ、ＭＡＱ、ｍｒＦＡＳＴ、ｍｒｓＦＡＳＴ、ＭＯＳＡＩＫ、ＭＰｓｃａｎ、Ｎｏｖｏａｌｉｇｎ、ＮｏｖｏａｌｉｇｎＣＳ、Ｎｏｖｏｃｒａｆｔ、ＮｅｘｔＧＥＮｅ、Ｏｍｉｘｏｎ、ＰＡＬＭａｐｐｅｒ、Ｐａｒｔｅｋ、ＰＡＳＳ、ＰｅｒＭ、ＱＰａｌｍａ、ＲａｚｅｒＳ、ＲＥＡＬ、ｃＲＥＡＬ、ＲＭＡＰ、ｒＮＡ、ＲＴＧ、Ｓｅｇｅｍｅｈｌ、ＳｅｑＭａｐ、Ｓｈｒｅｃ、ＳＨＲｉＭＰ、ＳＬＩＤＥＲ、ＳＯＡＰ、ＳＯＡＰ２、ＳＯＡＰ３、ＳＯＣＳ、ＳＳＡＨＡ、ＳＳＡＨＡ２、Ｓｔａｍｐｙ、ＳＴｏＲＭ、Ｓｕｂｒｅａｄ、Ｓｕｂｊｕｎｃ、Ｔａｉｐａｎ、ＵＧＥＮＥ、ＶｅｌｏｃｉＭａｐｐｅｒ、ＴｉｍｅＬｏｇｉｃ、ＸｐｒｅｓｓＡｌｉｇｎ、ＺＯＯＭなどまたはそれらの組み合わせが挙げられる。ペアエンドリードは、参照ゲノムに従って、同じポリヌクレオチドフラグメントの反対側の末端にマッピングされることが多い。いくつかの実施形態において、リードメイトは、独立してマッピングされる。いくつかの実施形態において、両方の配列リードからの（すなわち、各末端からの）情報は、マッピングプロセスにおいて考慮される。参照ゲノムは、ペアエンドリードメイト間に位置する核酸の配列を決定および／または推測するために使用されることが多い。用語「不一致のリードペア」は、本明細書中で使用されるとき、一方または両方のリードメイトが、連続したヌクレオチドのセグメントによって部分的に定義される参照ゲノムの同じ領域に明確にマップしない、リードメイトの対を含むペアエンドリードのことを指す。いくつかの実施形態において、不一致のリードペアは、参照ゲノムの予想外の位置にマップするペアエンドリードメイトである。参照ゲノムの予想外の位置の非限定的な例としては、（ｉ）２本の異なる染色体、（ｉｉ）所定のフラグメントサイズを超えて（例えば、３００ｂｐを超えて、５００ｂｐを超えて、１０００ｂｐを超えて、５０００ｂｐを超えて、または１０，０００ｂｐを超えて）離れた位置、（ｉｉｉ）参照配列と一致しない向き（例えば、逆の向き）などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、不一致のリードメイトは、サンプル中の鋳型ポリヌクレオチドフラグメントの長さ（例えば、平均長、所定のフラグメントサイズ）または予想される長さに従って特定される。例えば、サンプル中のポリヌクレオチドフラグメントの平均長または予想される長さを超えて離れた位置にマップするリードメイトは、不一致のリードペアと特定されるときがある。逆の向きでマップするリードペアは、それらのリードの一方の逆相補を取得し、参照配列の同じ鎖を用いて両方のリードのアラインメントを比較することによって決定されるときがある。不一致のリードペアは、当該分野で公知のまたは本明細書中に記載される任意の好適な方法および／またはアルゴリズム（例えば、ＳＶＤｅｔｅｃｔ、Ｌｕｍｐｙ、ＢｒｅａｋＤａｎｃｅｒ、ＢｒｅａｋＤａｎｃｅｒＭａｘ、ＣＲＥＳＴ、ＤＥＬＬＹなどまたはそれらの組み合わせ）によって特定され得る。

【0164】

部分
いくつかの実施形態において、マッピングされた配列リードは、様々なパラメータに従って共にグループ化され、特定のゲノム部分（例えば、参照ゲノムの部分）に割り当てられる。「部分」は、本明細書中で「ゲノム区分（ｇｅｎｏｍｉｃｓｅｃｔｉｏｎ）」、「ビン（ｂｉｎ）」、「区画（ｐａｒｔｉｔｉｏｎ）」、「参照ゲノムの部分」、「染色体の部分」または「ゲノム部分」とも称され得る。

【0165】

部分は、１つまたはそれを超える特徴に従ってゲノムを分割することによって定義されることが多い。分割のある特定の特徴の非限定的な例としては、長さ（例えば、既定の長さ、既定でない長さ）および他の構造的特徴が挙げられる。ゲノム部分は、以下の特徴：既定の長さ、既定でない長さ、ランダムな長さ、ランダムでない長さ、等しい長さ、等しくない長さ（例えば、ゲノム部分の少なくとも２つが等しくない長さである）、オーバーラップしない（例えば、ゲノム部分の３’末端が、隣接するゲノム部分の５’末端に隣接するときがある）、オーバーラップしている（例えば、ゲノム部分の少なくとも２つがオーバーラップしている）、連続している、連続的である、連続していない、および連続的でない、のうちの１つまたはそれを超える特徴を含むときがある。ゲノム部分は、約１～約１，０００キロベース長（例えば、約２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、２００、３００、４００、５００、６００、７００、８００、９００キロベース長）、約５～約５００キロベース長、約１０～約１００キロベース長または約４０～約６０キロベース長であるときがある。

【0166】

分割は、ある特定の情報に関する特徴（例えば、情報量および情報量増加）に基づくときがあるか、または部分的に基づく。ある特定の情報に関する特徴の非限定的な例としては、アラインメントの速度および／または便利さ、シーケンシングカバレッジのばらつき、ＧＣ含有量（例えば、層別化されたＧＣ含有量、特定のＧＣ含量、高いまたは低いＧＣ含有量）、ＧＣ含有量の均一性、配列含有量の他の尺度（例えば、個々のヌクレオチドの比率、ピリミジンまたはプリンの比率、天然の核酸と非天然の核酸との比率、メチル化されたヌクレオチドの比率およびＣｐＧ含有量）、メチル化の状態、二重鎖の融解温度、配列決定もしくはＰＣＲに対する適用可能性（ａｍｅｎａｂｉｌｉｔｙ）、参照ゲノムの個々の部分に割り当てられる不確定値、および／または特定の特徴に対する標的化された検索が挙げられる。いくつかの実施形態において、情報量は、確認された正常な被験体および異常な被験体（例えば、それぞれ正倍数性の被験体およびトリソミーの被験体）の群間を区別するために特定のゲノム位置の有意性を計測するｐ値プロファイルを用いて定量され得る。

【0167】

いくつかの実施形態において、ゲノムを分割することにより、ゲノムにわたる類似の領域（例えば、同一または相同の領域または配列）が排除され得、ユニークな領域だけが維持され得る。分割において除去される領域は、単一の染色体内に存在し得るか、１本もしくはそれを超える染色体であり得るか、または複数の染色体に及び得る。いくつかの実施形態において、分割されたゲノムは、より速いアラインメントのために縮小され、最適化されることにより、ユニークに識別可能な配列に焦点を合わせることが多い。

【0168】

いくつかの実施形態において、ゲノム部分は、オーバーラップしない既定のサイズに基づいて分割することによって生じ、それにより、既定の長さの連続的なオーバーラップしない部分がもたらされる。そのような部分は、染色体より短いことが多く、コピー数変異（またはコピー数変化）の領域（例えば、重複または欠失した領域）より短いことが多く、後者は、セグメントと称され得る。「セグメント」または「ゲノムセグメント」は、２つまたはそれを超える既定の長さのゲノム部分を含むことが多く、２つまたはそれを超える連続的な既定の長さの部分（例えば、約２～約１００個のそのような部分（例えば、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０個のそのような部分））を含むことが多い。

【0169】

複数の部分は、群別で解析されるときがあり、部分にマッピングされたリードは、ゲノム部分の特定の群に従って定量されるときがある。部分が、構造的特徴によって分割され、ゲノムにおける領域に対応する場合、部分は、１つもしくはそれを超えるセグメントおよび／または１つもしくはそれを超える領域にグループ化されるときがある。領域の非限定的な例としては、サブ染色体（すなわち、染色体より短い）、染色体、常染色体、性染色体およびそれらの組み合わせが挙げられる。１つまたはそれを超えるサブ染色体領域は、遺伝子、遺伝子フラグメント、制御配列、イントロン、エキソン、セグメント（例えば、コピー数変化領域をまたぐセグメント；コピー数変異領域をまたぐセグメント）、微小重複、微小欠失などであるときがある。領域は、目的の染色体より小さいかまたは目的の染色体と同じサイズであるときがあり、参照染色体より小さいかまたは参照染色体と同じサイズであるときがある。

【0170】

部分のフィルタリングおよび／または選択
いくつかの実施形態において、１つまたはそれを超える処理工程は、１つまたはそれを超える部分フィルタリング工程および／または部分選択工程を含み得る。用語「フィルタリング」は、本明細書中で使用されるとき、部分または参照ゲノムの部分を考慮すべきものから除去することを指す。ある特定の実施形態において、１つまたはそれを超える部分は、フィルタリングされる（例えば、フィルタリングプロセスに供される）ことによって、フィルタリングされた部分が提供される。いくつかの実施形態において、フィルタリングプロセスは、ある特定の部分を除去し、部分（例えば、部分のサブセット）を保持する。フィルタリングプロセスの後、保持された部分は、本明細書中で、フィルタリングされた部分と称されることが多い。

【0171】

参照ゲノムの部分は、任意の好適な基準に基づく除去のために選択され得、その基準としては、冗長なデータ（例えば、冗長なまたはオーバーラップしているマッピングされたリード）、情報のないデータ（例えば、カウントの中央値がゼロである参照ゲノムの部分）、過剰提示されるかもしくは過小提示される配列を含む参照ゲノムの部分、ノイズの多いデータなどまたは前述のものの組み合わせが挙げられるが、これらに限定されない。フィルタリングプロセスは、参照ゲノムの１つまたはそれを超える部分を考慮すべきものから除去すること、および参照ゲノム、染色体または検討中のゲノムの部分に対するカウントされたまたは合計されたカウントから、除去のために選択された参照ゲノムの１つまたはそれを超える部分におけるカウントを減算することを含むことが多い。いくつかの実施形態において、参照ゲノムの部分は、連続的に（例えば、各個別の部分の除去の影響の評価を可能にするために１つずつ）除去され得、ある特定の実施形態では、除去のためにマークされた参照ゲノムのすべての部分が、同時に除去され得る。いくつかの実施形態において、ある特定のレベルより上または下の分散を特徴とする参照ゲノムの部分が除去され、それは、本明細書中で、参照ゲノムの「ノイズの多い」部分のフィルタリングと称されるときがある。ある特定の実施形態において、フィルタリングプロセスは、所定の複数のプロファイルの分散毎に、ある部分、染色体、または染色体の一部のプロファイルレベルの平均値から逸脱するデータポイントをデータセットから得ることを含み、ある特定の実施形態では、フィルタリングプロセスは、所定の複数のプロファイルの分散毎に、ある部分、染色体または染色体の一部のプロファイルレベルの平均値から逸脱しないデータポイントをデータセットから除去することを含む。いくつかの実施形態において、フィルタリングプロセスは、遺伝子変異／遺伝子変化および／またはコピー数変化（例えば、異数性、微小欠失、微小重複）の存在または非存在について解析される参照ゲノムの候補部分の数を減少させるために用いられる。遺伝子変異／遺伝子変化および／またはコピー数変化の存在または非存在について解析される参照ゲノムの候補部分の数の減少は、データセットの複雑さおよび／または次元を低下させることが多く、遺伝子変異／遺伝子変化および／またはコピー数変化を検索するおよび／または識別する速度を２桁またはそれを超える桁数だけ高めるときがある。

【0172】

部分は、任意の好適な方法によって、および任意の好適なパラメータに従って、処理され得る（例えば、フィルタリングおよび／または選択され得る）。部分をフィルタリングするためおよび／または選択するために使用され得る特徴および／またはパラメータの非限定的な例としては、冗長なデータ（例えば、冗長なまたはオーバーラップしているマッピングされたリード）、情報のないデータ（例えば、マッピングされたカウントが０個である参照ゲノムの部分）、過剰提示もしくは過小提示された配列を含む参照ゲノムの部分、ノイズの多いデータ、カウント、カウントのばらつき、カバレッジ、マッピング性、ばらつき、反復性の尺度、リード密度、リード密度のばらつき、不確定性のレベル、グアニン－シトシン（ＧＣ）含有量、ＣＣＦフラグメントの長さおよび／またはリード長（例えば、フラグメント長さ比（ＦＬＲ）、胎児比統計量（ＦＲＳ））、ＤＮａｓｅＩ感度、メチル化の状態、アセチル化、ヒストン分布、クロマチン構造、反復パーセントなどまたはそれらの組み合わせが挙げられる。部分は、本明細書中に列挙されるまたは記載される特徴またはパラメータと相関する任意の好適な特徴またはパラメータに従ってフィルタリングされ得、かつ／または選択され得る。部分は、部分に特異的な特徴もしくはパラメータ（例えば、複数のサンプルに係る単一の部分に対して測定されるとき）および／またはサンプルに特異的な特徴もしくはパラメータ（例えば、１つのサンプル内の複数の部分に対して測定されるとき）に従ってフィルタリングされ得、かつ／または選択され得る。いくつかの実施形態において、部分は、比較的低いマッピング性、比較的大きなばらつき、高レベルの不確定性、比較的長いＣＣＦフラグメント長（例えば、低ＦＲＳ、低ＦＬＲ）、比較的高い比率の反復配列、高ＧＣ含有量、低ＧＣ含有量、低カウント、ゼロカウント、高カウントなどまたはそれらの組み合わせに従ってフィルタリングされ、かつ／または除去される。いくつかの実施形態において、部分（例えば、部分のサブセット）は、好適なマッピング性のレベル、ばらつき、不確定性のレベル、反復配列の比率、カウント、ＧＣ含有量などまたはそれらの組み合わせに従って選択される。いくつかの実施形態において、部分（例えば、部分のサブセット）は、比較的短いＣＣＦフラグメント長（例えば、高ＦＲＳ、高ＦＬＲ）に従って選択される。部分にマッピングされたカウントおよび／またはリードは、部分（例えば、部分のサブセット）をフィルタリングするかまたは選択する前および／または後に処理される（例えば、正規化される）ときがある。いくつかの実施形態において、部分にマッピングされたカウントおよび／またはリードは、部分（例えば、部分のサブセット）をフィルタリングするかまたは選択する前および／または後に処理されない。

【0173】

いくつかの実施形態において、部分は、誤差の尺度（例えば、標準偏差、標準誤差、算出された分散、ｐ値、平均絶対誤差（ＭＡＥ）、平均絶対偏差および／または絶対偏差の平均値（ＭＡＤ）に従ってフィルタリングされ得る。ある特定の場合において、誤差の尺度とは、カウントのばらつきのことを指し得る。いくつかの実施形態において、部分は、カウントのばらつきに従ってフィルタリングされる。ある特定の実施形態において、カウントのばらつきは、複数のサンプル（例えば、複数の被験体、例えば、５０もしくはそれを超える、１００もしくはそれを超える、５００もしくはそれを超える、１０００もしくはそれを超える、５０００もしくはそれを超えるまたは１０，０００もしくはそれを超える被験体から得られた複数のサンプル）に対する、参照ゲノムの部分（すなわち、部分）にマッピングされたカウントに対して決定される誤差の尺度である。いくつかの実施形態において、所定の上部範囲より上のカウントのばらつきを有する部分が、フィルタリングされる（例えば、考慮すべきものから除外される）。いくつかの実施形態において、所定の下部範囲より下のカウントのばらつきを有する部分が、フィルタリングされる（例えば、考慮すべきものから除外される）。いくつかの実施形態において、所定の範囲外のカウントのばらつきを有する部分が、フィルタリングされる（例えば、考慮すべきものから除外される）。いくつかの実施形態において、所定の範囲内のカウントのばらつきを有する部分が、選択される（例えば、コピー数変化の存在または非存在を判定するために使用される）。いくつかの実施形態において、部分のカウントのばらつきは、分布（例えば、正規分布）を示す。いくつかの実施形態において、その分布のある分位点内の部分が選択される。いくつかの実施形態において、カウントのばらつきの分布の９９％分位点内の部分が、選択される。

【0174】

いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類する方法は、セグメント化プロセスを用いて特定する工程を含む。いくつかの実施形態において、コピー数変異セグメントの存在または非存在は、第１のゲノム部分セットを含む領域におけるものであり得、その領域は、目的のサブ染色体領域の少なくとも一部を含む。例証的な一例として、第１のゲノム部分セットを含む領域は、図４における黒破線によって囲まれた領域である。いくつかの実施形態において、第１のゲノム部分セットは、目的の表現型と関連するコピー数変異が存在すると予想される染色体における領域内の部分である。いくつかの実施形態において、そのようなゲノム部分は、ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄｓｏｆＣｙｔｏｇｅｎｏｍｉｃＡｒｒａｙｓデータベース（ＩＳＣＡ）などの公的な疾患データベースをマイニングすることによって得ることができることが多い。いくつかの実施形態において、本明細書中で使用されるゲノム部分は、目的のサブ染色体領域内において、サーキュラーバイナリーセグメンテーション（ＣＢＳ）アルゴリズムによって特定され得る。１つの実施形態において、表現型は、微小欠失症候群である。１つの実施形態において、第１のゲノム部分セットは、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択される１つまたはそれを超えるゲノム部分である。

【0175】

いくつかの実施形態において、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類する方法は、ゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程を含む。ゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む。いくつかの実施形態において、そのセットは、所定のゲノム部分セットである。例証的な一例として、サブ染色体領域は、図４における黒破線によって囲まれた領域である。

【0176】

いくつかの実施形態において、所定のゲノム部分セットは、訓練セットの中の複数のサンプルに対する１つまたはそれを超える精度尺度に従って特定されており、その訓練セットの中の複数のサンプルの各々は、目的のサブ染色体領域にコピー数変異を有すると分類される。本明細書中に詳細に記載されているように、精度尺度としては、感度、特異性、標準偏差、中央絶対偏差（ＭＡＤ）、確定性の尺度、信頼の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという確定性または信頼の尺度、不確定性の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという不確定性の尺度、変動係数（ＣＶ）、信頼水準、信頼区間（例えば、約９５％信頼区間）、標準得点（例えば、ｚ得点）、カイ値、ファイ値、ｔ検定の結果、ｐ値、倍数性値、当てはめられた少数種比率、面積比、中央値レベルなどまたはそれらの組み合わせが挙げられ得るが、これらに限定されない。いくつかの実施形態において、精度尺度は、感度を含む。ゲノム部分は、そのゲノム部分が、最適であると考えられる精度尺度、すなわち、所定のしきい値に等しいかまたはそれより高い精度尺度（これは、コピー数変異の存在または非存在を妥当な精度で検出するための最低限の要件と考えられる）を提供することに基づいて選択される。例えば、感度を精度尺度として使用するとき、しきい値は、７０％～１００％、例えば、７５％～９９％、８０％～９８％または８５％～９５％の任意の数値であり得る。

【0177】

１つの実施形態において、所定のゲノム部分セットは、１）サブ染色体領域内に複数の候補サブ領域を提供する工程；２）訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程；および３）１つまたはそれを超える精度尺度に従って、（ａ）におけるサブ領域を、最適な精度を提供するサブ領域として特定する工程を含むプロセスによって特定される。

【0178】

任意の好適な数のサンプルに由来する配列リードが、本明細書中に記載される１つまたはそれを超える基準、パラメータおよび／または特徴を満たす部分のサブセットを特定するために使用され得る。複数の被験体由来のサンプル群からの配列リードが、使用されるときがある。いくつかの実施形態において、複数の被験体には、妊婦が含まれる。いくつかの実施形態において、複数の被験体には、健常な被験体が含まれる。いくつかの実施形態において、複数の被験体には、癌患者が含まれる。複数の被験体の各々に由来する１つまたはそれを超えるサンプル（例えば、各被験体由来の１～約２０個のサンプル（例えば、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８または１９個のサンプル））が対処され得、好適な数の被験体（例えば、約２～約１０，０００人の被験体（例えば、約１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、１５０、２００、２５０、３００、３５０、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００人の被験体））が対処され得る。いくつかの実施形態において、同じ被験体由来の同じテストサンプルからの配列リードが、参照ゲノムにおける部分にマッピングされ、部分のサブセットを生成するために使用される。

【0179】

部分は、任意の好適な方法によって選択および／またはフィルタリングされ得る。いくつかの実施形態において、部分は、データ、グラフ、プロットおよび／またはチャートの目視検査に従って選択される。ある特定の実施形態において、部分は、１つまたはそれを超えるマイクロプロセッサおよびメモリを備えるシステムまたは機器によって選択および／またはフィルタリングされる（例えば、部分的に）。いくつかの実施形態において、部分は、実行可能なプログラムが格納されている非一時的なコンピュータ可読記憶媒体によって選択および／またはフィルタリングされ（例えば、部分的に）、ここで、そのプログラムは、マイクロプロセッサにその選択および／またはフィルタリングを行うように指示する。

【0180】

いくつかの実施形態において、サンプルに由来する配列リードは、参照ゲノムのすべてまたはほとんどの部分にマッピングされ、その後、予め選択された部分のサブセットが選択される。例えば、特定の長さのしきい値におけるフラグメントからのリードが優先的にマップする部分のサブセットが、選択され得る。部分のサブセットを予め選択するためのある特定の方法が、米国特許出願公開番号２０１４／０１８０５９４（参照により本明細書中に援用される）に記載されている。選択された部分のサブセットからのリードは、例えば、遺伝子変異または遺伝子変化の存在または非存在を判定するさらなる工程において使用されることが多い。しばしば、選択されない部分からのリードは、遺伝子変異または遺伝子変化の存在または非存在を判定するさらなる工程において使用されない（例えば、選択されない部分におけるリードは、除去またはフィルタリングされる）。

【0181】

いくつかの実施形態において、リード密度に関連する部分（例えば、リード密度が、ある部分に対するものである場合）は、フィルタリングプロセスによって除去され、除去された部分に関連するリード密度は、コピー数変化の存在または非存在（例えば、染色体異数性、微小重複、微小欠失）の判定に含められない。いくつかの実施形態において、リード密度プロファイルは、フィルタリングされた部分のリード密度を含み、かつ／またはフィルタリングされた部分のリード密度からなる。部分は、カウントの分布および／またはリード密度の分布に従ってフィルタリングされるときがある。いくつかの実施形態において、部分は、カウントおよび／またはリード密度の分布に従ってフィルタリングされ、ここで、それらのカウントおよび／またはリード密度は、１つまたはそれを超える参照サンプルから得られる。１つまたはそれを超える参照サンプルは、本明細書中で訓練セットと称され得る。いくつかの実施形態において、部分は、カウントおよび／またはリード密度の分布に従ってフィルタリングされ、ここで、それらのカウントおよび／またはリード密度は、１つまたはそれを超えるテストサンプルから得られる。いくつかの実施形態において、部分は、リード密度分布に対する不確定性の尺度に従ってフィルタリングされる。ある特定の実施形態において、リード密度において大きな偏差を示す部分が、フィルタリングプロセスによって除去される。例えば、リード密度の分布（例えば、リード密度の平均の平均値または中央値の分布）が決定され得、ここで、その分布における各リード密度は、同じ部分にマップする。不確定性の尺度（例えば、ＭＡＤ）は、複数のサンプルに対するリード密度の分布を比較することによって決定され得、ここで、ゲノムの各部分は、不確定性の尺度に関連する。前述の例によると、部分は、各部分に関連する不確定性の尺度（例えば、標準偏差（ＳＤ）、ＭＡＤ）および所定のしきい値に従ってフィルタリングされ得る。ある特定の場合において、許容され得る範囲内のＭＡＤ値を含む部分が保持され、許容され得る範囲外のＭＡＤ値を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、前述の例によると、所定の不確定性の尺度の外側のリード密度値（例えば、リード密度の中央値、平均または平均値）を含む部分は、フィルタリングプロセスによって考慮すべきものから除去されることが多い。いくつかの実施形態において、ある分布の四分位範囲の外側のリード密度値（例えば、リード密度の中央値、平均または平均値）を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、ある分布の四分位範囲の２倍、３倍、４倍または５倍超外側のリード密度値を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、２シグマ、３シグマ、４シグマ、５シグマ、６シグマ、７シグマまたは８シグマ超外側のリード密度値を含む部分（例えば、シグマは標準偏差によって定義される範囲である）が、フィルタリングプロセスによって考慮すべきものから除去される。

【0182】

配列リードの定量値
選択された特徴または変数に基づいてマッピングされたまたは分割された配列リードは、いくつかの実施形態において、１つまたはそれを超える部分（例えば、参照ゲノムの部分）にマッピングされたリードの量または数を測定するために定量化され得る。ある特定の実施形態において、ある部分またはセグメントにマッピングされた配列リードの量は、カウントまたはリード密度と称される。

【0183】

カウントは、ゲノム部分に関連することが多い。いくつかの実施形態において、カウントは、部分にマッピングされた（すなわち、部分に関連する）配列リードのいくつかまたはすべてから測定される。ある特定の実施形態において、カウントは、部分の群（例えば、あるセグメントまたは領域（本明細書中に記載される）の中の部分）にマッピングされた配列リードのいくつかまたはすべてから測定される。

【0184】

カウントは、好適な方法、演算または数学的プロセスによって測定され得る。カウントは、セグメントに対応するゲノム部分またはゲノム部分の群、ゲノムのサブ領域に対応する部分の群（例えば、コピー数変異領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域）にマッピングされたすべての配列リードの直和であるときがあり、かつ／またはゲノムに対応する部分の群であるときがある。リードの定量値は、比であるときがあり、領域ａにおける部分に対する定量値と領域ｂにおける部分に対する定量値との比であるときがある。領域ａは、１つの部分、セグメント領域、コピー数変異領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域および／または性染色体領域であるときがある。領域ｂは、独立して、１つの部分、セグメント領域、コピー数変異領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域、すべての常染色体を含む領域、性染色体を含む領域、および／またはすべての染色体を含む領域であるときがある。

【0185】

いくつかの実施形態において、カウントは、生の配列リードおよび／またはフィルタリングされた配列リードから得られる。ある特定の実施形態において、カウントは、ゲノム部分またはゲノム部分の群（例えば、ある領域の中のゲノム部分）にマッピングされた配列リードの平均、平均値または合計である。いくつかの実施形態において、カウントは、不確定値に関連する。カウントは、調整されるときがある。カウントは、重み付けされたか、除去されたか、フィルタリングされたか、正規化されたか、調整されたか、平均されたか、平均値として導かれたか、中央値として導かれたか、加算されたか、またはそれらの組み合わせが行われたゲノム部分または部分の群に関連する配列リードに従って調整され得る。

【0186】

配列リードの定量値は、リード密度であるときがある。リード密度は、ゲノムの１つまたはそれを超えるセグメントに対して測定および／または生成され得る。ある特定の場合において、リード密度は、１つまたはそれを超える染色体に対して測定および／または生成され得る。いくつかの実施形態において、リード密度は、参照ゲノムのセグメントまたは部分にマッピングされた配列リードのカウントの定量的尺度を含む。リード密度は、好適なプロセスによって測定され得る。いくつかの実施形態において、リード密度は、好適な分布および／または好適な分布関数によって測定される。分布関数の非限定的な例としては、確率関数、確率分布関数、確率密度関数（ＰＤＦ）、カーネル密度関数（カーネル密度推定）、累積分布関数、確率質量関数、離散確率分布、絶対連続単変量分布など、任意の好適な分布またはそれらの組み合わせが挙げられる。リード密度は、好適な確率密度関数から導かれる密度推定値であり得る。密度推定値は、潜在確率密度関数の観察されたデータに基づく推定値の構築である。いくつかの実施形態において、リード密度は、密度推定値（例えば、確率密度推定値、カーネル密度推定値）を含む。リード密度は、ゲノムの１つまたはそれを超える部分（ここで、各部分は配列リードのカウントを含む）の各々に対して密度推定値を生成する工程を含むプロセスに従って生成され得る。リード密度は、部分またはセグメントにマッピングされた、正規化されたおよび／または重み付けされたカウントに対して生成され得る。場合によっては、部分またはセグメントにマッピングされた各リードは、本明細書中に記載される正規化プロセスから得られるその重みと等しい値（例えば、カウント）であるリード密度に寄与し得る。いくつかの実施形態において、１つまたはそれを超える部分またはセグメントに対するリード密度は、調整される。リード密度は、好適な方法によって調整され得る。例えば、１つまたはそれを超える部分に対するリード密度は、重み付けされ得、かつ／または正規化され得る。

【0187】

所与の部分またはセグメントに対して定量されるリードは、１つの起源または異なる起源に由来し得る。１つの例において、リードは、癌を有するかまたは癌を有すると疑われる被験体由来の核酸から得られることがある。そのような状況では、１つまたはそれを超える部分にマッピングされたリードは、健康な細胞（すなわち、非癌細胞）と癌細胞（例えば、腫瘍細胞）の両方を代表するリードであることが多い。ある特定の実施形態において、ある部分にマッピングされたリードのいくつかは、癌細胞核酸に由来し、同じ部分にマッピングされたリードのいくつかは、非癌細胞核酸に由来する。別の例では、リードは、胎児を有する妊婦由来の核酸サンプルから得られることがある。そのような状況では、１つまたはそれを超える部分にマッピングされたリードは、胎児と胎児の母（例えば、妊婦被験体）の両方を代表するリードであることが多い。ある特定の実施形態において、ある部分にマッピングされたリードのいくつかは、胎児のゲノムに由来し、同じ部分マッピングされたリードのいくつかは、母体のゲノムに由来する。

【0188】

レベル
いくつかの実施形態において、値（例えば、数、定量値）は、レベルに帰される。レベルは、好適な方法、演算または数学的プロセスによって決定され得る（例えば、処理されたレベル）。レベルは、部分セットに対するカウント（例えば、正規化されたカウント）であるか、またはそのカウントから導かれることが多い。いくつかの実施形態において、ある部分のレベルは、ある部分にマッピングされたカウント（例えば、カウント、正規化されたカウント）の総数に実質的に等しい。レベルは、当該分野で公知の好適な方法、演算または数学的プロセスによって処理されたか、変換されたか、または操作されたカウントから決定されることが多い。いくつかの実施形態において、あるレベルは、処理されたカウントから導かれ、処理されたカウントの非限定的な例としては、重み付けされたカウント、除去されたカウント、フィルタリングされたカウント、正規化されたカウント、調整されたカウント、平均されたカウント、平均値（例えば、平均値レベル）として導かれたカウント、加算されたカウント、減算されたカウント、変換されたカウントまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、あるレベルは、正規化されたカウント（例えば、部分の正規化されたカウント）を含む。あるレベルは、好適なプロセスによって正規化されたカウントに対するものであり得、そのプロセスの非限定的な例は、本明細書中に記載される。あるレベルは、正規化されたカウントまたはカウントの相対量を含み得る。いくつかの実施形態において、あるレベルは、平均された２つまたはそれを超える部分のカウントまたは正規化されたカウントに対するものであり、そのレベルは、平均レベルと称される。いくつかの実施形態において、あるレベルは、平均値レベルと称される、カウントの平均値または正規化されたカウントの平均値を有する部分セットに対するものである。いくつかの実施形態において、あるレベルは、生のカウントおよび／またはフィルタリングされたカウントを含む部分に対して導かれる。いくつかの実施形態において、あるレベルは、生であるカウントに基づく。いくつかの実施形態において、あるレベルは、不確定値（例えば、標準偏差、ＭＡＤ）に関連する。いくつかの実施形態において、あるレベルは、Ｚ得点またはｐ値によって表される。

【0189】

１つまたはそれを超える部分に対するレベルは、本明細書中において「ゲノム区分レベル」と同義である。用語「レベル」は、本明細書中で使用されるとき、用語「高さ」と同義であるときがある。用語「レベル」の意味の判定は、それが使用されている文脈から判定され得る。例えば、用語「レベル」は、部分、プロファイル、リードおよび／またはカウントの文脈において使用されているとき、高さを意味することが多い。用語「レベル」は、物質または組成物の文脈において使用されているとき（例えば、ＲＮＡのレベル、プレキシングレベル（ｐｌｅｘｉｎｇｌｅｖｅｌ）、量のことを指すことが多い。用語「レベル」は、不確定性の文脈において使用されているとき（例えば、誤差のレベル、信頼のレベル、偏差のレベル、不確定性のレベル）、量のことを指すことが多い。

【0190】

２つまたはそれを超えるレベル（例えば、あるプロファイルにおける２つまたはそれを超えるレベル）に対する正規化されたまたは正規化されていないカウントは、レベルに従って数学的に操作され得る（例えば、加算され得る、乗算され得る、平均され得る、正規化され得るなどまたはそれらの組み合わせ）ときがある。例えば、２つまたはそれを超えるレベルに対する正規化されたまたは正規化されていないカウントは、あるプロファイルにおけるレベルのうちの１つ、いくつかまたはすべてに従って正規化され得る。いくつかの実施形態において、あるプロファイルにおけるすべてのレベルの正規化されたまたは正規化されていないカウントが、そのプロファイルにおける１つのレベルに従って正規化される。いくつかの実施形態において、あるプロファイルにおける第１の（ｆｉｓｔ）レベルの正規化されたまたは正規化されていないカウントは、そのプロファイルにおける第２のレベルの正規化されたまたは正規化されていないカウントに従って正規化される。

【0191】

レベル（例えば、第１のレベル、第２のレベル）の非限定的な例は、処理されたカウントを含む部分セットに対するレベル、カウントの平均値、中央値または平均を含む部分セットに対するレベル、正規化されたカウントを含む部分セットに対するレベルなどまたはそれらの任意の組み合わせである。いくつかの実施形態において、あるプロファイルにおける第１のレベルおよび第２のレベルは、同じ染色体にマッピングされた部分のカウントから導かれる。いくつかの実施形態において、あるプロファイルにおける第１のレベルおよび第２のレベルは、異なる染色体にマッピングされた部分のカウントから導かれる。

【0192】

いくつかの実施形態において、レベルは、１つまたはそれを超える部分にマッピングされた正規化されたまたは正規化されていないカウントから決定される。いくつかの実施形態において、レベルは、２つまたはそれを超える部分にマッピングされた正規化されたまたは正規化されていないカウントから決定され、ここで、各部分に対する正規化されたカウントは、ほぼ同じであることが多い。カウント（例えば、正規化されたカウント）の変動が、あるレベルに対する部分セットに存在し得る。あるレベルに対する部分セットにおいて、そのセットの他の部分（例えば、ピークおよび／またはディップ）と有意に異なるカウントを有する１つまたはそれを超える部分が存在し得る。任意の好適な数の部分に関連する任意の好適な数の正規化されたまたは正規化されていないカウントが、レベルを定義し得る。

【0193】

いくつかの実施形態において、あるゲノムの部分のすべてまたはいくつかの正規化されたまたは正規化されていないカウントから、１つまたはそれを超えるレベルが決定され得る。ある染色体またはその一部の正規化されたまたは正規化されていないカウントのすべてまたはいくつかから、レベルが決定され得ることが多い。いくつかの実施形態において、２つまたはそれを超える部分（例えば、部分セット）から導かれた２つまたはそれを超えるカウントが、レベルを決定する。いくつかの実施形態において、２つまたはそれを超えるカウント（例えば、２つまたはそれを超える部分からのカウント）が、レベルを決定する。いくつかの実施形態において、２～約１００，０００個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、２～約５０，０００個、２～約４０，０００個、２～約３０，０００個、２～約２０，０００個、２～約１０，０００個、２～約５０００個、２～約２５００個、２～約１２５０個、２～約１０００個、２～約５００個、２～約２５０個、２～約１００個または２～約６０個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、約１０～約５０個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、約２０～約４０個もしくはそれを超える部分からのカウントが、レベルを決定する。いくつかの実施形態において、あるレベルは、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４５、５０、５５、６０個もしくはそれを超える部分からのカウントを含む。いくつかの実施形態において、あるレベルは、部分セット（例えば、参照ゲノムの部分セット、染色体の部分セットまたは染色体の一部の部分セット）に対応する。

【0194】

いくつかの実施形態において、あるレベルは、連続した部分の正規化されたまたは正規化されていないカウントに対して決定される。いくつかの実施形態において、連続した部分（例えば、部分セット）は、ゲノムの隣接した領域または染色体もしくは遺伝子の隣接した領域に相当する。例えば、２つまたはそれを超えて連続した部分は、それらの部分を端と端を付けてマージすることによってアラインメントされたとき、各部分よりも長いＤＮＡ配列の配列アセンブリであり得る。例えば、２つまたはそれを超えて連続した部分は、インタクトなゲノム、染色体、遺伝子、イントロン、エキソンまたはそれらの一部であり得る。いくつかの実施形態において、連続した部分および／または連続していない部分の集合（例えば、セット）からレベルが決定される。

【0195】

データ処理および正規化
カウントされたマッピングされた配列リードは、本明細書中で生データと称される。なぜならそのデータは、操作されていないカウント（例えば、生のカウント）に相当するからである。いくつかの実施形態において、データセット内の配列リードのデータは、アウトカムの提供を容易にするために、さらに処理され得（例えば、数学的におよび／または統計的に操作され得）、および／または表示され得る。ある特定の実施形態において、より大きいデータセットを含むデータセットは、さらなる解析を容易にするために、前処理から恩恵を受け得る。データセットの前処理は、冗長なおよび／もしくは情報価値のない部分または参照ゲノムの部分（例えば、情報価値のないデータを有する参照ゲノムの部分、冗長なマッピングされたリード、カウントの中央値がゼロである部分、過剰提示または過小提示された配列）の除去を含むときがある。理論に限定されるものではないが、データ処理および／または前処理は、（ｉ）ノイズの多いデータを除去し得、（ｉｉ）情報価値のないデータを除去し得、（ｉｉｉ）冗長なデータを除去し得、（ｉｖ）より大きいデータセットの複雑さを低下させ得、かつ／または（ｖ）１つの形態から１つもしくはそれを超える他の形態へのデータの変換を容易にし得る。用語「前処理」および「処理」は、データまたはデータセットに関して使用されるとき、本明細書中で「処理」と総称される。処理は、データをさらなる解析により適用できるようにし得、いくつかの実施形態ではアウトカムを生成し得る。いくつかの実施形態において、１つもしくはそれを超える処理方法またはすべての処理方法（例えば、正規化方法、部分のフィルタリング、マッピング、検証などまたはそれらの組み合わせ）が、メモリとつながったプロセッサ、マイクロプロセッサ、コンピュータおよび／またはマイクロプロセッサによって制御される装置によって行われる。

【0196】

用語「ノイズの多いデータ」は、本明細書中で使用されるとき、（ａ）解析またはプロットされたとき、データポイント間に有意な分散を有するデータ、（ｂ）有意な標準偏差（例えば、３を超える標準偏差）を有するデータ、（ｃ）有意な平均値の標準誤差を有するデータなど、および前述のものの組み合わせのことを指す。ノイズの多いデータは、出発物質（例えば、核酸サンプル）の量および／または質に起因して生じるときがあり、配列リードを生成するために使用されるＤＮＡを調製するためまたは複製するためのプロセスの一部として生じるときがある。ある特定の実施形態において、ノイズは、ＰＣＲに基づく方法を用いて調製されたときに過剰提示されるある特定の配列に起因する。本明細書中に記載される方法は、ノイズの多いデータの関与を減少させ得るかまたは排除し得、ゆえに、提供されるアウトカムに対するノイズの多いデータの影響を低減し得る。

【0197】

用語「情報価値のないデータ」、「情報価値のない参照ゲノム部分」および「情報価値のない部分」は、本明細書中で使用されるとき、所定の閾値と有意に異なるかまたは所定の値のカットオフ範囲に入らない数値を有する部分またはそれに由来するデータのことを指す。本明細書中の用語「しきい値」および「閾値」とは、適格なデータセットを用いて算出される任意の数字であって、遺伝子変異または遺伝子変化（例えば、コピー数変化、異数性、微小重複、微小欠失、染色体異常など）の診断の限度として役立つ任意の数字のことを指す。ある特定の実施形態において、しきい値は、本明細書中に記載される方法によって得られる結果によって上回られ、被験体は、コピー数変化と診断される。閾値または値の範囲は、いくつかの実施形態において、配列リードデータ（例えば、参照および／または被験体からの配列リードデータ）を数学的におよび／または統計的に操作することによって算出されることが多く、ある特定の実施形態において、閾値または値の範囲を生成するように操作される配列リードデータは、配列リードデータ（例えば、参照および／または被験体からの配列リードデータ）である。いくつかの実施形態において、不確定値が決定される。不確定値は、一般に、分散または誤差の尺度であり、分散または誤差の任意の好適な尺度であり得る。いくつかの実施形態において、不確定値は、標準偏差、標準誤差、算出された分散、ｐ値または平均絶対偏差（ＭＡＤ）である。いくつかの実施形態において、不確定値は、本明細書中に記載される式に従って算出され得る。

【0198】

任意の好適な手順が、本明細書中に記載されるデータセットを処理するために使用され得る。データセットを処理するために使用するのに適した手順の非限定的な例としては、フィルタリング、正規化、重み付け、ピーク高さのモニタリング、ピーク面積のモニタリング、ピーク端のモニタリング、ピークレベル解析、ピーク幅解析、ピーク端位置解析、ピーク側方許容（ｐｅａｋｌａｔｅｒａｌｔｏｌｅｒａｎｃｅｓ）、面積比の測定、データの数学的処理、データの統計的処理、統計的アルゴリズムの適用、固定変数を用いた解析、最適化された変数を用いた解析、さらなる処理のためにパターンまたは傾向を特定するためのデータのプロットなどおよび前述のものの組み合わせが挙げられる。いくつかの実施形態において、データセットは、様々な特徴（例えば、ＧＣ含有量、マッピングされた冗長なリード、セントロメア領域、テロメア領域などおよびそれらの組み合わせ）および／または変数（例えば、被験体の性別、被験体の齢、被験体の倍数性、癌細胞核酸の寄与パーセント、胎児の性別、母体の齢、母体の倍数性、胎児核酸の寄与パーセントなどまたはそれらの組み合わせ）に基づいて処理される。ある特定の実施形態において、本明細書中に記載されるようなデータセットの処理は、大きなおよび／または複雑なデータセットの複雑さおよび／または次元を低下させ得る。複雑なデータセットの非限定的な例としては、異なる齢および民族的バックグラウンドの、１つまたはそれを超える試験被験体および複数の参照被験体から生成された配列リードデータが挙げられる。いくつかの実施形態において、データセットは、各試験被験体および／または各参照被験体に対する数千個から数百万個の配列リードを含み得る。

【0199】

データ処理は、ある特定の実施形態において、任意の数の工程で行われ得る。例えば、データは、いくつかの実施形態において、ただ１つの処理手順を用いて処理され得、ある特定の実施形態において、データは、１つもしくはそれを超える、５つもしくはそれを超える、１０個もしくはそれを超える、または２０個もしくはそれを超える処理工程（例えば、１つもしくはそれを超える処理工程、２つもしくはそれを超える処理工程、３つもしくはそれを超える処理工程、４つもしくはそれを超える処理工程、５つもしくはそれを超える処理工程、６つもしくはそれを超える処理工程、７つもしくはそれを超える処理工程、８つもしくはそれを超える処理工程、９つもしくはそれを超える処理工程、１０個もしくはそれを超える処理工程、１１個もしくはそれを超える処理工程、１２個もしくはそれを超える処理工程、１３個もしくはそれを超える処理工程、１４個もしくはそれを超える処理工程、１５個もしくはそれを超える処理工程、１６個もしくはそれを超える処理工程、１７個もしくはそれを超える処理工程、１８個もしくはそれを超える処理工程、１９個もしくはそれを超える処理工程または２０個もしくはそれを超える処理工程）を用いて処理され得る。いくつかの実施形態において、処理工程は、２回またはそれを超える回数繰り返される同じ工程（例えば、２回またはそれを超える回数のフィルタリング、２回またはそれを超える回数の正規化）であり得、ある特定の実施形態において、処理工程は、同時にまたは連続して行われる２つまたはそれを超える異なる処理工程（例えば、フィルタリング、正規化；ピーク高さおよびピーク端の正規化、モニタリング；フィルタリング、正規化、参照に対する正規化、ｐ値を決定する統計的操作など）であり得る。いくつかの実施形態において、任意の好適な数および／または組み合わせの同じまたは異なる処理工程が、アウトカムの提供を容易にするために配列リードデータを処理するために使用され得る。ある特定の実施形態において、本明細書中に記載される基準によるデータセットの処理は、データセットの複雑さおよび／または次元を低下させ得る。

【0200】

いくつかの実施形態において、１つまたはそれを超える処理工程は、１つまたはそれを超える正規化工程を含み得る。正規化は、本明細書中に記載されるまたは当該分野で公知の好適な方法によって行われ得る。ある特定の実施形態において、正規化は、異なるスケールで計測された値を概念的に共通のスケールに調整することを含む。ある特定の実施形態において、正規化は、調整された値の確率分布をアラインメントの状態にするための高度な数学的調整を含む。いくつかの実施形態において、正規化は、分布を正規分布に整合させることを含む。ある特定の実施形態において、正規化は、ある特定の全体的な影響（例えば、誤差および例外）の作用を排除するように、異なるデータセットに対する対応する正規化された値の比較を可能にする数学的調整を含む。ある特定の実施形態において、正規化は、スケーリングを含む。正規化は、所定の変数または式による１つまたはそれを超えるデータセットの除算を含むときがある。正規化は、所定の変数または式による１つまたはそれを超えるデータセットの減算を含むときがある。正規化方法の非限定的な例としては、部分ごとの正規化、ＧＣ含有量による正規化、カウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化、線形および非線形最小二乗回帰、ＬＯＥＳＳ、ＧＣＬＯＥＳＳ、ＬＯＷＥＳＳ（局所的に重み付けされた散布図平滑化）、主成分正規化、リピートマスク（ＲＭ）、ＧＣ正規化およびリピートマスク（ＧＣＲＭ）、ｃＱｎならびに／またはそれらの組み合わせが挙げられる。いくつかの実施形態において、コピー数変化（例えば、異数性、微小重複、微小欠失）の存在または非存在の判定は、正規化方法（例えば、部分ごとの正規化、ＧＣ含有量による正規化、カウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化、線形および非線形最小二乗回帰、ＬＯＥＳＳ、ＧＣＬＯＥＳＳ、ＬＯＷＥＳＳ（局所的に重み付けされた散布図平滑化）、主成分正規化、リピートマスク（ＲＭ）、ＧＣ正規化およびリピートマスク（ＧＣＲＭ）、ｃＱｎ、当該分野で公知の正規化方法、ならびに／またはそれらの組み合わせ）を用いる。使用され得る正規化プロセスのある特定の例、例えば、ＬＯＥＳＳ正規化、主成分正規化およびハイブリッド正規化方法が、本明細書の以後に、より詳細に説明される。ある特定の正規化プロセスの態様は、例えば、国際特許出願公開番号ＷＯ２０１３／０５２９１３および国際特許出願公開番号ＷＯ２０１５／０５１１６３（その各々が参照により本明細書中に援用される）にも記載されている。

【0201】

任意の好適な数の正規化を使用することができる。いくつかの実施形態において、データセットは、１回もしくはそれを超える回数、５回もしくはそれを超える回数、１０回もしくはそれを超える回数またはなおも２０回もしくはそれを超える回数だけ、正規化され得る。データセットは、任意の好適な特徴または変数（例えば、サンプルデータ、参照データまたはその両方）を代表する値（例えば、正規化値）に対して正規化され得る。使用され得るデータ正規化のタイプの非限定的な例としては、１つまたはそれを超える選択された試験部分または参照部分に対する生のカウントデータを、その選択された部分または区分がマッピングされた染色体またはゲノム全体にマッピングされたカウントの総数に対して正規化すること；１つまたはそれを超える選択された部分に対する生のカウントデータを、選択された部分がマッピングされた１つもしくはそれを超える部分または染色体に対する参照カウントの中央値に対して正規化すること；生のカウントデータを、事前に正規化されたデータまたはその微分係数に対して正規化すること；および事前に正規化されたデータを、１つまたはそれを超える他の所定の正規化変数に対して正規化することが挙げられる。データセットの正規化は、所定の正規化変数として選択された特徴または特性に応じて、統計的誤差を切り離す効果を有するときがある。データセットの正規化は、データを共通のスケール（例えば、所定の正規化変数）にすることによって、異なるスケールを有するデータのデータ特性の比較も可能にするときがある。いくつかの実施形態において、統計的に導出された値に対する１つまたはそれを超える正規化は、データの差異を最小にするためおよび範囲外のデータの重要性を低下させるために使用され得る。部分または参照ゲノムの部分を正規化値に対して正規化することは、「部分ごとの正規化」と称されるときがある。

【0202】

ある特定の実施形態において、処理工程は、１つまたはそれを超える数学的操作および／または統計的操作を含み得る。任意の好適な数学的操作および／または統計的操作が、本明細書中に記載されるデータセットを解析するためおよび／または操作するために、単独でまたは組み合わせて使用され得る。任意の好適な数の数学的操作および／または統計的操作を使用することができる。いくつかの実施形態において、データセットは、１回もしくはそれを超える回数、５回もしくはそれを超える回数、１０回もしくはそれを超える回数または２０回もしくはそれを超える回数だけ、数学的におよび／または統計的に操作され得る。使用され得る数学的操作および統計的操作の非限定的な例としては、加算、減算、乗算、除算、代数関数、最小二乗推定量、カーブフィッティング、微分方程式、有理多項式、二重多項式（ｄｏｕｂｌｅｐｏｌｙｎｏｍｉａｌ）、直交多項式、ｚ得点、ｐ値、カイ値、ファイ値、ピークレベルの解析、ピーク端位置の決定、ピーク面積比の計算、染色体レベル中央値の解析、平均絶対偏差の算出、平方残差の和、平均値、標準偏差、標準誤差などまたはそれらの組み合わせが挙げられる。数学的操作および／または統計的操作は、配列リードデータの全部もしくは一部またはその処理されたものに対して行われ得る。統計的に操作され得るデータセットの変数または特徴の非限定的な例としては、生のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピーク面積、ピーク端、側方許容（ｌａｔｅｒａｌｔｏｌｅｒａｎｃｅ）、Ｐ値、中央値レベル、平均値レベル、ゲノム領域内のカウントの分布、核酸種の相対的な提示などまたはそれらの組み合わせが挙げられる。

【0203】

いくつかの実施形態において、処理工程は、１つまたはそれを超える統計的アルゴリズムの使用を含み得る。任意の好適な統計的アルゴリズムが、本明細書中に記載されるデータセットを解析するためおよび／または操作するために、単独でまたは組み合わせて使用され得る。任意の好適な数の統計的アルゴリズムを使用することができる。いくつかの実施形態において、データセットは、１つもしくはそれを超える、５つもしくはそれを超える、１０個もしくはそれを超えるまたは２０個もしくはそれを超える統計的アルゴリズムを用いて解析され得る。本明細書中に記載される方法とともに使用するのに適した統計的アルゴリズムの非限定的な例としては、主成分分析、決定木、対立帰無仮説、多重比較、総括的検定、ベーレンス・フィッシャー問題、ブートストラッピング、独立した有意性検定を組み合わせるためのフィッシャーの方法、帰無仮説、第１種の過誤、第２種の過誤、正確検定、１標本Ｚ検定、２標本Ｚ検定、１標本ｔ検定、対応のあるｔ検定、等しい分散を有するプールされた２標本ｔ検定、不等分散を有するプールされない２標本ｔ検定、１比率ｚ検定、プールされた２比率ｚ検定、プールされない２比率ｚ検定、１標本カイ二乗検定、分散を等しくするための２標本Ｆ検定、信頼区間、信用区間、有意性、メタ解析、線形単回帰、ロバスト線形回帰などまたは前述のものの組み合わせが挙げられる。統計的アルゴリズムを用いて解析され得るデータセットの変数または特徴の非限定的な例としては、生のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピーク端、側方許容、Ｐ値、中央値レベル、平均値レベル、ゲノム領域内のカウントの分布、核酸種の相対的な提示などまたはそれらの組み合わせが挙げられる。

【0204】

ある特定の実施形態において、データセットは、複数の（例えば、２つもしくはそれを超える）統計的アルゴリズム（例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、Ｋ最近隣法、ロジスティック回帰および／または平滑化法）ならびに／または数学的操作および／もしくは統計的操作（例えば、本明細書中で操作と称されるもの）を使用することによって解析され得る。いくつかの実施形態において、複数の操作の使用により、アウトカムを提供するために使用され得るＮ次元空間が生成され得る。ある特定の実施形態において、複数の操作を用いることによるデータセットの解析は、そのデータセットの複雑さおよび／または次元を低下させ得る。例えば、参照データセットに対して複数の操作を使用することにより、参照サンプルの状態（例えば、選択されたコピー数変化に対して陽性または陰性）に応じて、遺伝子変異／遺伝子変化および／またはコピー数変化の存在または非存在を表すために使用され得るＮ次元空間（例えば、確率プロット）が生成され得る。実質的に類似の操作セットを用いたテストサンプルの解析は、各テストサンプルに対してＮ次元のポイントを生成するために使用され得る。試験被験体のデータセットの複雑さおよび／または次元は、参照データから生成されたＮ次元空間と容易に比較され得る単一値またはＮ次元のポイントにまで低下するときがある。参照被験体のデータによって占有されたＮ次元空間に入るテストサンプルのデータは、参照被験体の遺伝的状態と実質的に同様の遺伝的状態を示唆する。参照被験体のデータに占有されたＮ次元空間に入らないテストサンプルのデータは、参照被験体の遺伝的状態と実質的に異なる遺伝的状態を示唆する。いくつかの実施形態において、参照は、正倍数性であるか、あるいは遺伝子変異／遺伝子変化および／もしくはコピー数変化ならびに／または医学的症状を別段有しない。

【0205】

データセットがカウントされ、必要に応じてフィルタリングされ、正規化され、必要に応じて重み付けされた後、処理されたデータセットは、いくつかの実施形態において、１つまたはそれを超えるフィルタリング手順および／または正規化手順および／または重み付け手順によってさらに操作され得る。１つまたはそれを超えるフィルタリング手順および／または正規化手順および／または重み付け手順によってさらに操作されたデータセットは、ある特定の実施形態において、プロファイルを生成するために使用され得る。１つまたはそれを超えるフィルタリング手順および／または正規化手順および／または重み付け手順は、いくつかの実施形態において、データセットの複雑さおよび／または次元を低下させ得るときがある。アウトカムは、低下した複雑さおよび／または次元のデータセットに基づいて提供され得る。いくつかの実施形態において、例えば、重み付けによってさらに操作された処理されたデータのプロファイルのプロットは、分類および／またはアウトカムの提供を容易にするために生成される。アウトカムは、例えば、重み付けされたデータのプロファイルのプロットに基づいて提供され得る。

【0206】

部分のフィルタリングまたは重み付けは、解析における１つまたはそれを超える好適な時点において行われ得る。例えば、部分は、配列リードが参照ゲノムの部分に対してマッピングされる前またはマッピングされた後に、フィルタリングされ得るかまたは重み付けされ得る。部分は、いくつかの実施形態において、個々のゲノム部分に対する実験上のバイアスが決定される前または決定された後に、フィルタリングされ得るかまたは重み付けされ得る。ある特定の実施形態において、部分は、レベルが算出される前または算出された後に、フィルタリングされ得るかまたは重み付けされ得る。

【0207】

データセットが、カウントされ、必要に応じてフィルタリングされ、正規化され、必要に応じて重み付けされた後、処理されたデータセットは、いくつかの実施形態において、１つまたはそれを超える数学的操作および／または統計的操作（例えば、統計関数または統計的アルゴリズム）によって操作され得る。ある特定の実施形態において、処理されたデータセットは、１つまたはそれを超える選択された部分、染色体または染色体の部分に対するＺ得点を算出することによってさらに操作され得る。いくつかの実施形態において、処理されたデータセットは、Ｐ値を算出することによってさらに操作され得る。ある特定の実施形態において、数学的操作および／または統計的操作は、倍数性および／または少数種の比率（例えば、癌細胞核酸の比率；胎児比率）に関する１つまたはそれを超える仮定を含む。いくつかの実施形態において、１つまたはそれを超える統計的操作および／または数学的操作によってさらに操作された処理されたデータのプロファイルのプロットは、分類および／またはアウトカムの提供を容易にするために生成される。アウトカムは、統計的におよび／または数学的に操作されたデータのプロファイルのプロットに基づいて提供され得る。統計的におよび／または数学的に操作されたデータのプロファイルのプロットに基づいて提供されるアウトカムは、倍数性および／または少数種の比率（例えば、癌細胞核酸の比率；胎児比率）に関する１つまたはそれを超える仮定を含むことが多い。

【0208】

いくつかの実施形態において、データの解析および処理は、１つまたはそれを超える仮定の使用を含み得る。好適な数またはタイプの仮定が、データセットを解析するためまたは処理するために使用され得る。データの処理および／または解析のために使用され得る仮定の非限定的な例としては、被験体の倍数性、癌細胞の寄与、母体の倍数性、胎児の寄与、参照集団におけるある特定の配列の保有率（ｐｒｅｖａｌｅｎｃｅ）、民族的バックグラウンド、関係する家族における選択された医学的症状の有病率、異なる患者由来の生のカウントプロファイル間ならびに／またはＧＣ正規化およびリピートマスク（例えば、ＧＣＲＭ）の後のラン間の類似、完全一致がＰＣＲアーチファクト（例えば、同一の塩基位置）を表すこと、核酸定量アッセイ（例えば、胎児数量アッセイ（ＦＱＡ））に固有の仮定、双子に関する仮定（例えば、双子の２人ともおよび１人だけが罹患している場合、有効な胎児比率は、計測された胎児比率の合計の５０％だけである（三つ子、四つ子なども同様に））、無細胞ＤＮＡ（例えば、ｃｆＤＮＡ）がゲノム全体を均一にカバーすることなどおよびそれらの組み合わせが挙げられる。

【0209】

マッピングされた配列リードの質および／または深度が、正規化されたカウントプロファイルに基づいて所望の信頼水準（例えば、９５％またはそれより高い信頼水準）において遺伝子変異／遺伝子変化および／またはコピー数変化の存在または非存在のアウトカムの予測を可能にしない場合、データ解析および／またはアウトカムの提供にとって有用なさらなる数値を生成するために、１つまたはそれを超えるさらなる数学的操作アルゴリズムおよび／または統計的予測アルゴリズムが使用され得る。用語「正規化されたカウントプロファイル」は、本明細書中で使用されるとき、正規化されたカウントを用いて生成されるプロファイルのことを指す。正規化されたカウントおよび正規化されたカウントプロファイルを生成するために使用され得る方法の例は、本明細書中に記載される。述べるように、マッピングされてカウントされた配列リードは、テストサンプルのカウントまたは参照サンプルのカウントに関して正規化され得る。いくつかの実施形態において、正規化されたカウントプロファイルは、プロットとして示され得る。

【0210】

使用され得る処理工程および正規化方法の非限定的な例、例えば、ウィンドウ（スタティックまたはスライディング）に対する正規化、重み付け、バイアスの関係の決定、ＬＯＥＳＳ正規化、主成分正規化、ハイブリッド正規化、プロファイルの生成および比較の実施が、本明細書の以後に、より詳細に説明される。

【0211】

ウィンドウ（スタティックまたはスライディング）に対する正規化
ある特定の実施形態において、処理工程は、スタティックウィンドウ（ｓｔａｔｉｃｗｉｎｄｏｗ）に対する正規化を含み、いくつかの実施形態において、処理工程は、ムービング（ｍｏｖｉｎｇ）ウィンドウまたはスライディングウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）に対する正規化を含む。用語「ウィンドウ」は、本明細書中で使用されるとき、解析のために選択され、比較のための参照として使用される（例えば、正規化および／または他の数学的もしくは統計的操作のために使用される）ときがある、１つまたはそれを超える部分のことを指す。用語「スタティックウィンドウに対する正規化」は、本明細書中で使用されるとき、試験被験体のデータセットと参照被験体のデータセットとの比較のために選択された１つまたはそれを超える部分を用いる正規化プロセスのことを指す。いくつかの実施形態において、選択された部分は、プロファイルを生成するために使用される。スタティックウィンドウは、一般に、操作中および／または解析中に変化しない所定の部分セットを含む。用語「ムービングウィンドウに対する正規化」および「スライディングウィンドウに対する正規化」は、本明細書中で使用されるとき、選択された試験部分のゲノム領域に局在する部分（例えば、囲んでいるすぐ近くの部分、隣接する部分または区分など）に対して行われる正規化のことを指し、ここで、１つまたはそれを超える選択された試験部分は、その選択された試験部分をすぐ接して囲んでいる部分に対して正規化される。ある特定の実施形態において、選択された部分は、プロファイルを生成するために使用される。スライディングウィンドウ正規化またはムービングウィンドウ正規化は、隣接する試験部分に繰り返してムービングまたはスライディングすること、および新たに選択された試験部分を、その新たに選択された試験部分をすぐ接して囲んでいるかまたはその新たに選択された試験部分に隣接する部分に対して正規化することを含むことが多く、ここで、隣接するウィンドウは、１つまたはそれを超える部分を共通して有する。ある特定の実施形態において、複数の選択された試験部分および／または染色体が、スライディングウィンドウプロセスによって解析され得る。

【0212】

いくつかの実施形態において、スライディングウィンドウまたはムービングウィンドウに対する正規化は、１つまたはそれを超える値を生成し得、ここで、各値は、異なるゲノム領域（例えば、染色体）から選択される異なる参照部分セットに対する正規化に相当する。ある特定の実施形態において、生成された１つまたはそれを超える値は、累積和（例えば、選択された部分、ドメイン（例えば、染色体の一部）または染色体）に対する正規化されたカウントプロファイルの積分の推定数値）である。スライディングウィンドウまたはムービングウィンドウプロセスによって生成される値は、プロファイルを生成し、アウトカムに到達するのを促進するために使用され得る。いくつかの実施形態において、１つまたはそれを超える部分の累積和は、ゲノム位置の関数として表示され得る。ムービングウィンドウ解析またはスライディングウィンドウ解析は、微小欠失および／または微小重複の存在または非存在についてゲノムを解析するために使用されるときがある。ある特定の実施形態において、１つまたはそれを超える部分の累積和の表示は、コピー数変化（例えば、微小欠失、微小重複）の領域の存在または非存在を識別するために使用される。
重み付け

【0213】

いくつかの実施形態において、処理工程は、重み付けを含む。用語「重み付けされる」、「重み付けする」もしくは「重み関数」またはそれらの文法上の派生物もしく等価物は、本明細書中で使用されるとき、他のデータセットの特徴または変数に対してある特定のデータセットの特徴または変数の影響を変化させる（例えば、選択された部分または参照ゲノムの部分におけるデータの質または有用性に基づいて、１つもしくはそれを超える部分または参照ゲノムの部分に含まれるデータの有意性および／または寄与を増減させる）ために利用されるときがあるデータセットの一部または全部の数学的操作のことを指す。重み付け関数は、いくつかの実施形態において、測定値の分散が比較的小さいデータの影響を増大させるためおよび／または測定値の分散が比較的大きいデータの影響を減少させるために使用され得る。例えば、過小提示または低品質の配列データを有する参照ゲノムの部分は、データセットに対する影響を最小にするために「重み付けを小さく」され得るのに対して、選択された参照ゲノムの部分は、データセットに対する影響を増大させるために「重み付けを大きく」され得る。重み付け関数の非限定的な例は、［１／（標準偏差）^２］である。部分の重み付けによって、部分依存性が排除されるときがある。いくつかの実施形態において、１つまたはそれを超える部分は、固有の関数（例えば、固有関数）によって重み付けされる。いくつかの実施形態において、ある固有の関数は、部分を直交固有部分で置き換えることを含む。重み付け工程は、正規化工程と実質的に同様の様式で行われるときがある。いくつかの実施形態において、データセットを所定の変数（例えば、重み付け変数）で調整する（例えば、除算する、乗算する、加算する、減算する）。いくつかの実施形態において、データセットを所定の変数（例えば、重み付け変数）で除算する。所定の変数（例えば、最小化された目的関数、Ｐｈｉ）は、データセットの異なる一部を異なって重み付けする（例えば、他のデータタイプの影響を減少させつつ、ある特定のデータタイプの影響を増大させる）ために選択されることが多い。

【0214】

バイアスの関係
いくつかの実施形態において、処理工程は、バイアスの関係の判定を含む。例えば、１つまたはそれを超える関係が、局所ゲノムバイアス推定値とバイアス頻度との間に生成される。用語「関係」は、本明細書中で使用されるとき、２つまたはそれを超える変数または値の間の数学的および／またはグラフ的な関係のことを指す。ある関係は、好適な数学的プロセスおよび／またはグラフ的プロセスによって生成され得る。関係の非限定的な例としては、関数、相関、分布、線形方程式または非線形方程式、線、回帰、適合回帰（ｆｉｔｔｅｄｒｅｇｒｅｓｓｉｏｎ）などまたはそれらの組み合わせの数学的表示および／またはグラフ表示が挙げられる。関係は、当てはめ関係を含むときがある。いくつかの実施形態において、当てはめ関係は、適合回帰を含む。関係は、重み付けされた２つまたはそれを超える変数または値を含むときがある。いくつかの実施形態において、ある関係は、その関係の１つまたはそれを超える変数または値が重み付けされた適合回帰を含む。回帰は、重み付けされる形式で当てはめられるときがある。回帰は、重み付けなしで当てはめられるときがある。ある特定の実施形態において、関係を生成することは、プロットすることまたはグラフで示すことを含む。

【0215】

ある特定の実施形態において、ＧＣ密度とＧＣ密度頻度との間に関係が生成される。いくつかの実施形態において、サンプルに対する（ｉ）ＧＣ密度と（ｉｉ）ＧＣ密度頻度との間に関係を生成することにより、サンプルＧＣ密度関係が提供される。いくつかの実施形態において、参照に対する（ｉ）ＧＣ密度と（ｉｉ）ＧＣ密度頻度との間の関係を生成することにより、参照ＧＣ密度関係が提供される。いくつかの実施形態において、局所ゲノムバイアス推定値がＧＣ密度である場合、サンプルバイアス関係は、サンプルＧＣ密度関係であり、参照バイアス関係は、参照ＧＣ密度関係である。参照ＧＣ密度関係および／またはサンプルＧＣ密度関係のＧＣ密度は、局所ＧＣ含有量の提示（例えば、数学的提示または定量的提示）であることが多い。

【0216】

いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、分布を含む。いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、当てはめ関係（例えば、適合回帰）を含む。いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、適合された線形または非線形回帰（例えば、多項式回帰）を含む。ある特定の実施形態において、局所ゲノムバイアス推定値および／またはバイアス頻度が好適なプロセスによって重み付けされる場合、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、重み付けされた関係を含む。いくつかの実施形態において、重み付けされた当てはめ関係（例えば、重み付けされた当てはめ）は、内挿を用いた、分位点回帰、パラメータ化された分布または経験的な分布を含むプロセスによって得ることができる。ある特定の実施形態において、局所ゲノムバイアス推定値が重み付けされる場合、テストサンプル、参照またはその一部に対する局所ゲノムバイアス推定値とバイアス頻度との間の関係は、多項式回帰を含む。いくつかの実施形態において、重み付けされた当てはめモデルは、分布の値の重み付けを含む。分布の値は、好適なプロセスによって重み付けされ得る。いくつかの実施形態において、分布の裾の近くに位置する値には、分布の中央値により近い値よりも小さい重みが提供される。例えば、局所ゲノムバイアス推定値（例えば、ＧＣ密度）とバイアス頻度（例えば、ＧＣ密度頻度）との間の分布の場合、所与の局所ゲノムバイアス推定値に対するバイアス頻度に従って重みが決定され、ここで、分布の平均値により近いバイアス頻度を含む局所ゲノムバイアス推定値には、その平均値からより遠くのバイアス頻度を含む局所ゲノムバイアス推定値よりも大きい重みが提供される。

【0217】

いくつかの実施形態において、処理工程は、テストサンプルの配列リードの局所ゲノムバイアス推定値を参照（例えば、参照ゲノムまたはその一部）の局所ゲノムバイアス推定値と比較することによって配列リードカウントを正規化する工程を含む。いくつかの実施形態において、配列リードのカウントは、テストサンプルの局所ゲノムバイアス推定値のバイアス頻度を、参照の局所ゲノムバイアス推定値のバイアス頻度と比較することによって正規化される。いくつかの実施形態において、配列リードのカウントは、サンプルバイアス関係と参照バイアス関係とを比較することによって正規化され、それによって、比較結果が生成される。

【0218】

配列リードのカウントは、２つまたはそれを超える関係の比較結果に従って正規化され得る。ある特定の実施形態において、２つまたはそれを超える関係が比較され、それによって、配列リードにおける局所バイアスを減少させる（例えば、カウントを正規化する）ために使用される比較結果が提供される。２つまたはそれを超える関係は、好適な方法によって比較され得る。いくつかの実施形態において、比較結果は、第１の関係と第２の関係との加算、減算、乗算および／または除算を含む。ある特定の実施形態において、２つまたはそれを超える関係の比較は、好適な線形回帰および／または非線形回帰の使用を含む。ある特定の実施形態において、２つまたはそれを超える関係の比較は、好適な多項式回帰（例えば、３次多項式回帰）を含む。いくつかの実施形態において、比較結果は、第１の回帰と第２の回帰との加算、減算、乗算および／または除算を含む。いくつかの実施形態において、２つまたはそれを超える関係は、複数の回帰の推論フレームワークを含むプロセスによって比較される。いくつかの実施形態において、２つまたはそれを超える関係は、好適な多変量解析を含むプロセスによって比較される。いくつかの実施形態において、２つまたはそれを超える関係は、基底関数（例えば、ブレンディング関数、例えば、多項式基底、フーリエ基底など）、スプライン、放射基底関数および／またはウェーブレットを含むプロセスによって比較される。

【0219】

ある特定の実施形態において、テストサンプルおよび参照に対するバイアス頻度を含む局所ゲノムバイアス推定値の分布は、局所ゲノムバイアス推定値が重み付けされる多項式回帰を含むプロセスによって比較される。いくつかの実施形態において、多項式回帰は、（ｉ）比（この比の各々は、参照の局所ゲノムバイアス推定値のバイアス頻度およびサンプルの局所ゲノムバイアス推定値のバイアス頻度を含む）と（ｉｉ）局所ゲノムバイアス推定値との間において生成される。いくつかの実施形態において、多項式回帰は、（ｉ）参照の局所ゲノムバイアス推定値のバイアス頻度と、サンプルの局所ゲノムバイアス推定値のバイアス頻度との比と、（ｉｉ）局所ゲノムバイアス推定値との間において生成される。いくつかの実施形態において、テストサンプルおよび参照のリードに対する局所ゲノムバイアス推定値の分布の比較は、参照およびサンプルに対する局所ゲノムバイアス推定値のバイアス頻度のｌｏｇ比（例えば、ｌｏｇ２比）を測定することを含む。いくつかの実施形態において、局所ゲノムバイアス推定値の分布の比較は、参照に対する局所ゲノムバイアス推定値のバイアス頻度のｌｏｇ比（例えば、ｌｏｇ２比）を、サンプルに対する局所ゲノムバイアス推定値のバイアス頻度のｌｏｇ比（例えば、ｌｏｇ２比）で除算することを含む。

【0220】

比較結果に従ってカウントを正規化することは、代表的には、いくつかのカウントを調整し、他のものを調整しない。カウントの正規化は、すべてのカウントを調整するときがあり、配列リードのいかなるカウントも調整しないときがある。配列リードに対するカウントは、重み付け係数を決定する工程を含むプロセスによって正規化されるときがあり、そのプロセスは、重み付け係数を直接生成し、使用する工程を含まないときがある。比較結果に従ってカウントを正規化することは、配列リードの各カウントに対して重み付け係数を決定することを含むときがある。重み付け係数は、配列リードに特異的であることが多く、特異的な配列リードのカウントに適用される。重み付け係数は、２つまたはそれを超えるバイアス関係の比較結果（例えば、参照バイアス関係と比較されるサンプルバイアス関係）に従って決定されることが多い。正規化されたカウントは、重み付け係数に従ってカウント値を調整することによって決定されることが多い。重み付け係数に従ってカウントを調整することは、配列リードに対するカウントに重み付け係数を加算すること、配列リードに対するカウントから重み付け係数を減算すること、配列リードに対するカウントに重み付け係数を乗算すること、および／または配列リードに対するカウントを重み付け係数で除算することを含むときがある。重み付け係数および／または正規化されたカウントは、回帰（例えば、回帰直線）から決定されるときがある。正規化されたカウントは、参照（例えば、参照ゲノム）の局所ゲノムバイアス推定値のバイアス頻度とテストサンプルの局所ゲノムバイアス推定値のバイアス頻度との比較結果から生じる回帰直線（例えば、当てはめられた回帰直線）から直接得られるときがある。いくつかの実施形態において、サンプルのリードの各カウントには、（ｉｉ）参照の局所ゲノムバイアス推定値のバイアス頻度と比較された、（ｉ）リードの局所ゲノムバイアス推定値のバイアス頻度の比較結果に従って、正規化されたカウント値が提供される。ある特定の実施形態において、サンプルに対して得られた配列リードのカウントが正規化され、それらの配列リードにおけるバイアスが減少する。

【0221】

ＬＯＥＳＳ正規化
いくつかの実施形態において、処理工程は、ＬＯＥＳＳ正規化を含む。ＬＯＥＳＳは、ｋ最近隣法に基づくメタモデルにおいて複数の回帰モデルを組み合わせる当該分野で公知の回帰モデリング法である。ＬＯＥＳＳは、局所重み付け多項式回帰と称されるときがある。ＧＣＬＯＥＳＳは、いくつかの実施形態において、ＬＯＥＳＳモデルを、参照ゲノムの部分に対するフラグメントカウント（例えば、配列リード、カウント）とＧＣ組成との関係に適用する。ＬＯＥＳＳを用いてデータポイントセットを通って滑らかな曲線をプロットすることは、特に、各平滑化値が、ｙ軸の散布図の基準変数の値の範囲にわたって、重み付けされた二次最小二乗回帰によって与えられるとき、ＬＯＥＳＳ曲線と呼ばれるときがある。あるデータセットにおける各ポイントに対して、ＬＯＥＳＳ法は、そのデータのサブセットに低次多項式を当てはめ、説明変数値は、応答を推定しているポイントに近い。その多項式は、重み付き最小二乗を用いて当てはめられ、応答が推定されているポイントに近いポイントにより大きい重みが与えられ、さらに離れているポイントにより小さい重みが与えられる。次いで、あるポイントに対する回帰関数の値は、そのデータポイントに対する説明変数値を用いて局所多項式を評価することによって得られる。ＬＯＥＳＳの当てはめは、回帰関数値が各データポイントに対して計算された後、完全であると考えられるときがある。この方法の詳細の多く（例えば、多項式モデルおよび重みの程度）は、フレキシブルである。

【0222】

主成分分析
いくつかの実施形態において、処理工程は、主成分分析（ＰＣＡ）を含む。いくつかの実施形態において、配列リードカウント（例えば、テストサンプルの配列リードカウント）は、主成分分析（ＰＣＡ）に従って調整される。いくつかの実施形態において、リード密度プロファイル（例えば、テストサンプルのリード密度プロファイル）は、主成分分析（ＰＣＡ）に従って調整される。１つまたはそれを超える参照サンプルのリード密度プロファイルおよび／または試験被験体のリード密度プロファイルは、ＰＣＡに従って調整され得る。ＰＣＡ関連プロセスによってリード密度プロファイルからバイアスを除去することは、本明細書中で、プロファイルの調整と称されるときがある。ＰＣＡは、好適なＰＣＡ方法またはその変法によって行われ得る。ＰＣＡ方法の非限定的な例としては、正準相関分析（ＣＣＡ）、Ｋａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換（ＫＬＴ）、Ｈｏｔｅｌｌｉｎｇ変換、固有直交分解（ＰＯＤ）、Ｘの特異値分解（ＳＶＤ）、ＸＴＸの固有値分解（ＥＶＤ）、因子分析、Ｅｃｋａｒｔ－Ｙｏｕｎｇ定理、Ｓｃｈｍｉｄｔ－Ｍｉｒｓｋｙ定理、経験的直交関数（ＥＯＦ）、経験固有関数分解、経験的成分分析、準調和モード、スペクトル分解、経験的モーダル解析など、それらの変法または組み合わせが挙げられる。ＰＣＡは、リード密度プロファイルにおける１つまたはそれを超えるバイアスを特定および／または調整することが多い。ＰＣＡによって特定および／または調整されたバイアスは、本明細書中で主成分と称されるときがある。いくつかの実施形態において、１つまたはそれを超えるバイアスは、好適な方法を用いて１つまたはそれを超える主成分に従ってリード密度プロファイルを調整することによって除去され得る。リード密度プロファイルは、１つもしくはそれを超える主成分とリード密度プロファイルとの加算、減算、乗算および／または除算によって、調整され得る。いくつかの実施形態において、１つまたはそれを超えるバイアスは、１つまたはそれを超える主成分をリード密度プロファイルから減算することによって、リード密度プロファイルから除去され得る。リード密度プロファイルにおけるバイアスは、プロファイルのＰＣＡによって特定および／または定量されることが多いが、主成分は、リード密度のレベルにおいてプロファイルから減算されることが多い。ＰＣＡは、１つまたはそれを超える主成分を特定することが多い。いくつかの実施形態において、ＰＣＡは、第１、第２、第３、第４、第５、第６、第７、第８、第９および第１０またはそれを超える主成分を特定する。ある特定の実施形態において、１、２、３、４、５、６、７、８、９、１０個もしくはそれを超える主成分が、プロファイルを調整するために使用される。ある特定の実施形態において、５個の主成分が、プロファイルを調整するために使用される。主成分は、ＰＣＡにおける出現順にプロファイルを調整するために使用されることが多い。例えば、３つの主成分が、リード密度プロファイルから減算される場合、第１、第２および第３主成分が使用される。主成分によって特定されたバイアスは、プロファイルを調整するために使用されないプロファイルの特徴を含むときがある。例えば、ＰＣＡは、主成分としてコピー数変化（例えば、異数性、微小重複、微小欠失、欠失、転座、挿入）および／または性差を特定し得る。したがって、いくつかの実施形態において、１つまたはそれを超える主成分は、プロファイルを調整するために使用されない。例えば、第３主成分がプロファイルを調整するために使用されない場合、プロファイルを調整するために、第１、第２および第４主成分が使用されるときがある。

【0223】

主成分は、任意の好適なサンプルまたは参照を用いるＰＣＡから得ることができる。いくつかの実施形態において、主成分は、テストサンプル（例えば、試験被験体）から得られる。いくつかの実施形態において、主成分は、１つまたはそれを超える参照（例えば、参照サンプル、参照配列、参照セット）から得られる。ある特定の場合において、ＰＣＡは、複数のサンプルを含む訓練セットから得られるリード密度プロファイルの中央値に対して行われ、第１主成分および第２主成分が特定される。いくつかの実施形態において、主成分は、対象のコピー数変化を欠く被験体のセットから得られる。いくつかの実施形態において、主成分は、既知の正倍数体セットから得られる。主成分は、参照（例えば、訓練セット）の１つまたはそれを超えるリード密度プロファイルを用いて行われるＰＣＡに従って特定されることが多い。参照から得られた１つまたはそれを超える主成分は、試験被験体のリード密度プロファイルから減算され、それにより、調整されたプロファイルが提供されることが多い。

【0224】

ハイブリッド正規化
いくつかの実施形態において、処理工程は、ハイブリッド正規化方法を含む。ハイブリッド正規化方法は、ある特定の場合において、バイアス（例えば、ＧＣバイアス）を減少させ得る。ハイブリッド正規化は、いくつかの実施形態において、（ｉ）２つの変数（例えば、カウントおよびＧＣ含有量）の関係の解析、ならびに（ｉｉ）その解析に従った正規化方法の選択および適用を含む。ハイブリッド正規化は、ある特定の実施形態において、（ｉ）回帰（例えば、回帰分析）ならびに（ｉｉ）その回帰に従った正規化方法の選択および適用を含む。いくつかの実施形態において、第１のサンプル（例えば、第１のサンプルセット）に対して得られたカウントは、別のサンプル（例えば、第２のサンプルセット）から得られたカウントとは異なる方法によって正規化される。いくつかの実施形態において、第１のサンプル（例えば、第１のサンプルセット）に対して得られたカウントは、第１の正規化方法によって正規化され、第２のサンプル（例えば、第２のサンプルセット）から得られたカウントは、第２の正規化方法によって正規化される。例えば、ある特定の実施形態において、第１の正規化方法は、線形回帰の使用を含み、第２の正規化方法は、非線形回帰（例えば、ＬＯＥＳＳ、ＧＣ－ＬＯＥＳＳ、ＬＯＷＥＳＳ回帰、ＬＯＥＳＳ平滑化）の使用を含む。

【0225】

いくつかの実施形態において、ハイブリッド正規化方法は、ゲノムまたは染色体の部分にマッピングされた配列リード（例えば、カウント、マッピングされたカウント、マッピングされたリード）を正規化するために使用される。ある特定の実施形態において、生のカウントが正規化され、いくつかの実施形態において、調整された、重み付けされた、フィルタリングされたまたは予め正規化されたカウントが、ハイブリッド正規化方法によって正規化される。ある特定の実施形態において、レベルまたはＺ得点が、正規化される。いくつかの実施形態において、ゲノムまたは染色体の選択された部分にマッピングされたカウントが、ハイブリッド正規化アプローチによって正規化される。カウントは、ゲノムの部分にマッピングされた配列リードの好適な尺度のことを指し得、その非限定的な例としては、生のカウント（例えば、処理されていないカウント）、正規化されたカウント（例えば、ＬＯＥＳＳ、主成分または好適な方法によって正規化されたもの）、部分レベル（例えば、平均レベル、平均値レベル、中央値レベルなど）、Ｚ得点などまたはそれらの組み合わせが挙げられる。それらのカウントは、１つまたはそれを超えるサンプル（例えば、テストサンプル、妊婦由来のサンプル）からの、生のカウントまたは処理されたカウントであり得る。いくつかの実施形態において、カウントは、１つまたはそれを超える被験体から得られた１つまたはそれを超えるサンプルから得られる。

【0226】

いくつかの実施形態において、正規化方法（例えば、正規化方法のタイプ）は、回帰（例えば、回帰分析）および／または相関係数に従って選択される。回帰分析とは、変数（例えば、カウントおよびＧＣ含有量）の間の関係を推定するための統計的手法のことを指す。いくつかの実施形態において、回帰は、参照ゲノムの複数の部分の各部分に対するカウントおよびＧＣ含有量の尺度に従って生成される。好適なＧＣ含有量の尺度が使用され得、その非限定的な例としては、グアニン、シトシン、アデニン、チミン、プリン（ＧＣ）もしくはピリミジン（ＡＴまたはＡＴＵ）含有量の尺度、融解温度（Ｔ_ｍ）（例えば、変性温度、アニーリング温度、ハイブリダイゼーション温度）、自由エネルギーの尺度などまたはそれらの組み合わせが挙げられる。グアニン（Ｇ）、シトシン（Ｃ）、アデニン（Ａ）、チミン（Ｔ）、プリン（ＧＣ）またはピリミジン（ＡＴまたはＡＴＵ）含有量の尺度は、比またはパーセンテージとして表現され得る。いくつかの実施形態において、任意の好適な比またはパーセンテージが使用され、その非限定的な例としては、ＧＣ／ＡＴ、ＧＣ／全ヌクレオチド、ＧＣ／Ａ、ＧＣ／Ｔ、ＡＴ／全ヌクレオチド、ＡＴ／ＧＣ、ＡＴ／Ｇ、ＡＴ／Ｃ、Ｇ／Ａ、Ｃ／Ａ、Ｇ／Ｔ、Ｇ／Ａ、Ｇ／ＡＴ、Ｃ／Ｔなどまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、ＧＣ含有量の尺度は、全ヌクレオチド含有量に対するＧＣの比またはパーセンテージである。いくつかの実施形態において、ＧＣ含有量の尺度は、参照ゲノムの部分にマッピングされた配列リードに対する、全ヌクレオチド含有量に対するＧＣの比またはパーセンテージである。ある特定の実施形態において、ＧＣ含有量は、参照ゲノムの各部分にマッピングされた配列リードに従っておよび／または参照ゲノムの各部分にマッピングされた配列リードから測定され、それらの配列リードは、サンプルから得られる。いくつかの実施形態において、ＧＣ含有量の尺度は、配列リードに従っておよび／または配列リードから決定されない。ある特定の実施形態において、ＧＣ含有量の尺度は、１つまたはそれを超える被験体から得られた１つまたはそれを超えるサンプルに対して決定される。

【0227】

いくつかの実施形態において、回帰の生成は、回帰分析または相関分析の生成を含む。好適な回帰を使用でき、その非限定的な例としては、回帰分析（例えば、線形回帰分析）、適合度分析、ピアソン相関分析、順位相関、不明な分散の比率（ｆｒａｃｔｉｏｎｏｆｖａｒｉａｎｃｅｕｎｅｘｐｌａｉｎｅｄ）、Ｎａｓｈ－Ｓｕｔｃｌｉｆｆｅモデル効率解析、回帰モデル検証、損失比例減少（ｐｒｏｐｏｒｔｉｏｎａｌｒｅｄｕｃｔｉｏｎｉｎｌｏｓｓ）、根平均二乗偏差（ｒｏｏｔｍｅａｎｓｑｕａｒｅｄｅｖｉａｔｉｏｎ）などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、回帰直線が生成される。ある特定の実施形態において、回帰の生成は、線形回帰の生成を含む。ある特定の実施形態において、回帰の生成は、非線形回帰（例えば、ＬＯＥＳＳ回帰、ＬＯＷＥＳＳ回帰）の生成を含む。

【0228】

いくつかの実施形態において、回帰は、例えば、カウントとＧＣ含有量の尺度との間の、相関（例えば、線形相関）の存在または非存在を判定する。いくつかの実施形態において、回帰（例えば、線形回帰）が生成され、相関係数が決定される。いくつかの実施形態において、好適な相関係数が決定され、その非限定的な例としては、決定係数、Ｒ^２値、ピアソン相関係数などが挙げられる。

【0229】

いくつかの実施形態において、適合度は、回帰（例えば、回帰分析、線形回帰）に対して測定される。適合度は、視覚的解析または数学的解析によって測定されるときがある。評価は、その適合度が非線形回帰に対してより高いかまたは線形回帰に対してより高いかを判定することを含むときがある。いくつかの実施形態において、相関係数は、適合度の尺度である。いくつかの実施形態において、回帰に対する適合度の評価は、相関係数および／または相関係数のカットオフ値に従って明らかにされる。いくつかの実施形態において、適合度の評価は、相関係数と相関係数のカットオフ値とを比較することを含む。いくつかの実施形態において、回帰に対する適合度の評価は、線形回帰を示唆する。例えば、ある特定の実施形態において、適合度は、非線形回帰よりも線形回帰に対してより高く、その適合度の評価は、線形回帰を示唆する。いくつかの実施形態において、評価は、線形回帰を示唆し、カウントを正規化するために線形回帰が使用される。いくつかの実施形態において、回帰に対する適合度の評価は、非線形回帰を示唆する。例えば、ある特定の実施形態において、適合度は、線形回帰よりも非線形回帰に対してより高く、その適合度の評価は、非線形回帰を示唆する。いくつかの実施形態において、評価は、非線形回帰を示唆し、カウントを正規化するために非線形回帰が使用される。

【0230】

いくつかの実施形態において、相関係数が、相関係数のカットオフに等しいかまたはそれを超えるとき、適合度の評価は、線形回帰を示唆する。いくつかの実施形態において、相関係数が、相関係数のカットオフ未満であるとき、適合度の評価は、非線形回帰を示唆する。いくつかの実施形態において、相関係数のカットオフは、予め決定されている。いくつかの実施形態において、相関係数のカットオフは、約０．５もしくはそれを超えるか、約０．５５もしくはそれを超えるか、約０．６もしくはそれを超えるか、約０．６５もしくはそれを超えるか、約０．７もしくはそれを超えるか、約０．７５もしくはそれを超えるか、約０．８もしくはそれを超えるか、または約０．８５もしくはそれを超える。

【0231】

いくつかの実施形態において、特定のタイプの回帰が選択され（例えば、線形または非線形回帰）、その回帰が生成された後、その回帰をカウントから減算することによって、カウントが正規化される。いくつかの実施形態において、カウントからの回帰の減算は、バイアス（例えば、ＧＣバイアス）が減少した正規化されたカウントを提供する。いくつかの実施形態において、線形回帰が、カウントから減算される。いくつかの実施形態において、非線形回帰（例えば、ＬＯＥＳＳ、ＧＣ－ＬＯＥＳＳ、ＬＯＷＥＳＳ回帰）が、カウントから減算される。任意の好適な方法が、カウントから回帰直線を減算するために使用され得る。例えば、カウントｘが、０．５というＧＣ含有量を含む部分ｉ（例えば、部分ｉ）から導かれ、回帰直線が、０．５というＧＣ含有量においてカウントｙを決定する場合、部分ｉに対して、ｘ－ｙ＝正規化されたカウントである。いくつかの実施形態において、カウントは、回帰の減算の前および／または後に正規化される。いくつかの実施形態において、ハイブリッド正規化アプローチによって正規化されたカウントは、ゲノムまたはその一部のレベル、Ｚ得点、レベルおよび／またはプロファイルを生成するために使用される。ある特定の実施形態において、ハイブリッド正規化アプローチによって正規化されたカウントは、遺伝子変異または遺伝子変化（例えば、コピー数変化）の存在または非存在を判定するために本明細書中に記載される方法によって解析される。

【0232】

いくつかの実施形態において、ハイブリッド正規化方法は、正規化の前または後に、１つまたはそれを超える部分のフィルタリングまたは重み付けを含む。本明細書中に記載される部分（例えば、参照ゲノムの部分）をフィルタリングする方法を含む、部分をフィルタリングする好適な方法が、使用され得る。いくつかの実施形態において、部分（例えば、参照ゲノムの部分）が、ハイブリッド正規化方法を適用する前にフィルタリングされる。いくつかの実施形態において、選択された部分（例えば、カウントのばらつきに従って選択された部分）にマッピングされたシーケンシングリードのカウントだけが、ハイブリッド正規化によって正規化される。いくつかの実施形態において、フィルタリングされた参照ゲノム部分（例えば、カウントのばらつきに従ってフィルタリングされた部分）にマッピングされたシーケンシングリードのカウントが、ハイブリッド正規化方法を用いる前に除去される。いくつかの実施形態において、ハイブリッド正規化方法は、好適な方法（例えば、本明細書中に記載される方法）に従って部分（例えば、参照ゲノムの部分）を選択するかまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、複数のテストサンプルに対する各部分にマッピングされたカウントに対する不確定値に従って部分（例えば、参照ゲノムの部分）を選択することまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、カウントのばらつきに従って部分（例えば、参照ゲノムの部分）を選択するかまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、ＧＣ含有量、反復エレメント、反復配列、イントロン、エキソンなどまたはそれらの組み合わせに従って部分（例えば、参照ゲノムの部分）を選択するかまたはフィルタリングすることを含む。
プロファイル

【0233】

いくつかの実施形態において、処理工程は、データセットまたはその微分演算（例えば、当該分野で公知のおよび／または本明細書中に記載される１つまたはそれを超える数学的および／または統計的データ処理工程の結果）の様々な態様から１つまたはそれを超えるプロファイル（例えば、プロファイルプロット）を生成することを含む。

【0234】

用語「プロファイル」は、本明細書中で使用されるとき、大量のデータにおけるパターンおよび／または相関の特定を容易にし得る、データの数学的操作および／または統計的操作の結果のことを指す。「プロファイル」は、１つまたはそれを超える基準に基づくデータまたはデータセットの１つまたはそれを超える操作から生じる値を含むことが多い。プロファイルは、複数のデータポイントを含むことが多い。データセットの性質および／または複雑さに応じて、任意の好適な数のデータポイントが、プロファイルに含められ得る。ある特定の実施形態において、プロファイルは、２つもしくはそれを超えるデータポイント、３つもしくはそれを超えるデータポイント、５つもしくはそれを超えるデータポイント、１０個もしくはそれを超えるデータポイント、２４個もしくはそれを超えるデータポイント、２５個もしくはそれを超えるデータポイント、５０個もしくはそれを超えるデータポイント、１００個もしくはそれを超えるデータポイント、５００個もしくはそれを超えるデータポイント、１０００個もしくはそれを超えるデータポイント、５０００個もしくはそれを超えるデータポイント、１０，０００個もしくはそれを超えるデータポイントまたは１００，０００個もしくはそれを超えるデータポイントを含み得る。

【0235】

いくつかの実施形態において、プロファイルは、データセット全体を代表し、ある特定の実施形態において、プロファイルは、データセットの一部またはサブセットを代表する。つまり、プロファイルは、任意のデータを除去するためにフィルタリングされていないデータを代表するデータポイントを含むかまたはそれらのデータポイントから生成されるときがあり、プロファイルは、望まれないデータを除去するためにフィルタリングされたデータを代表するデータポイントを含むかまたはそれらのデータポイントから生成されるときがある。いくつかの実施形態において、あるプロファイルにおけるデータポイントは、ある部分に対するデータ操作の結果に相当する。ある特定の実施形態において、あるプロファイルにおけるデータポイントは、部分の群に対するデータ操作の結果を含む。いくつかの実施形態において、部分の群は、互いに隣接することもあるし、ある特定の実施形態では、部分の群は、染色体またはゲノムの異なる部分に由来することもある。

【0236】

あるデータセットから導かれるプロファイルにおけるデータポイントは、任意の好適なデータのカテゴリー化を代表し得る。プロファイルデータポイントを生成するためにデータがグループ化され得るカテゴリーの非限定的な例としては、サイズに基づく部分、配列の特徴（例えば、ＧＣ含有量、ＡＴ含有量、染色体上の位置（例えば、短腕、長腕、セントロメア、テロメア）など）に基づく部分、発現レベル、染色体などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、あるプロファイルは、別のプロファイル（例えば、再正規化されたデータプロファイルを生成するために異なる正規化値に対して再正規化された、正規化されたデータプロファイル）から得られたデータポイントから生成され得る。ある特定の実施形態において、別のプロファイルから得られたデータポイントから生成されたプロファイルは、データポイントの数および／またはデータセットの複雑さを減少させる。データポイントの数および／またはデータセットの複雑さの減少は、データの解釈を容易にするおよび／またはアウトカムの提供を容易にすることが多い。

【0237】

プロファイル（例えば、ゲノムのプロファイル、染色体のプロファイル、染色体の部分のプロファイル）は、２つまたはそれを超える部分に対する正規化されたカウントまたは正規化されていないカウントの集合であることが多い。プロファイルは、少なくとも１つのレベルを含むことが多く、２つまたはそれを超えるレベルを含むことが多い（例えば、あるプロファイルは、複数のレベルを有することが多い）。あるレベルは、一般に、ほぼ同じカウントまたは正規化されたカウントを有する部分のセットに対するものである。レベルは、本明細書中にさらに詳細に記載される。ある特定の実施形態において、プロファイルは、１つまたはそれを超える部分を含み、それらの部分は、重み付けされ得るか、除去され得るか、フィルタリングされ得るか、正規化され得るか、調整され得るか、平均され得るか、平均値として導かれ得るか、加算され得るか、減算され得るか、処理され得るか、またはそれらの任意の組み合わせによって変換され得る。プロファイルは、２つまたはそれを超えるレベルを定義している部分にマッピングされた正規化されたカウントを含むことが多く、ここで、それらのカウントは、好適な方法によって、それらのレベルのうちの１つに従ってさらに正規化される。プロファイル（例えば、プロファイルレベル）のカウントは、不確定値に関連することが多い。

【0238】

１つまたはそれを超えるレベルを含むプロファイルは、パディングされる（例えば、ホールパディング（ｈｏｌｅｐａｄｄｉｎｇ））ときがある。パディング（例えば、ホールパディング）とは、コピー数変化（例えば、患者のゲノムにおける微小重複または微小欠失、母体の微小重複または微小欠失）に起因する、プロファイルにおけるレベルを特定し、調整するプロセスのことを指す。いくつかの実施形態において、腫瘍または胎児における微小重複または微小欠失に起因するレベルがパディングされる。プロファイルにおける微小重複または微小欠失は、いくつかの実施形態において、染色体異数性（例えば、トリソミー）の偽陽性または偽陰性の判定をもたらすプロファイル（例えば、染色体のプロファイル）のレベル全体を人工的に上昇させる得かまたは低下させ得る。いくつかの実施形態において、微小重複および／または欠失に起因するプロファイルにおけるレベルは、パディングまたはホールパディングと称されるときがあるプロセスによって特定され、調整される（例えば、パディングされるおよび／または除去される）。

【0239】

１つまたはそれを超えるレベルを含むプロファイルは、第１のレベルおよび第２のレベルを含み得る。いくつかの実施形態において、第１のレベルは、第２のレベルと異なる（例えば、有意に異なる）。いくつかの実施形態において、第１のレベルは、第１の部分セットを含み、第２のレベルは、第２の部分セットを含み、第１の部分セットは、第２の部分セットのサブセットではない。ある特定の実施形態において、第１の部分セットは、第１および第２のレベルが測定される第２の部分セットと異なる。いくつかの実施形態において、あるプロファイルは、そのプロファイル内の第２のレベルと異なる（例えば、有意に異なる、例えば、有意に異なる値を有する）複数の第１のレベルを有し得る。いくつかの実施形態において、あるプロファイルは、そのプロファイル内の第２のレベルと有意に異なる１つまたはそれを超える第１のレベルを含み、その１つまたはそれを超える第１のレベルが、調整される。いくつかの実施形態において、あるプロファイル内の第１のレベルは、そのプロファイルから除去されるか、または調整される（例えば、パディングされる）。あるプロファイルは、１つまたはそれを超える第２のレベルと有意に異なる１つまたはそれを超える第１のレベルを含む複数のレベルを含み得、あるプロファイルにおけるレベルの大部分が、第２のレベルであることが多く、その第２のレベルは、互いにほぼ等しい。いくつかの実施形態において、あるプロファイルにおけるレベルの５０％超、６０％超、７０％超、８０％超、９０％超または９５％超が、第２のレベルである。

【0240】

プロファイルは、プロットとして表示されるときがある。例えば、部分のカウント（例えば、正規化されたカウント）を表している１つまたはそれを超えるレベルが、プロットされ得、可視化され得る。生成され得るプロファイルのプロットの非限定的な例としては、生のカウント（例えば、生のカウントプロファイルまたは生のプロファイル）、正規化されたカウント、部分によって重み付けされた、ｚ得点、ｐ値、当てはめられた倍数性に対する面積比、当てはめられた少数種比率と計測された少数種比率との比に対する中央値レベル、主成分などまたはそれらの組み合わせが挙げられる。プロファイルのプロットは、いくつかの実施形態において、操作されたデータの可視化を可能にする。ある特定の実施形態において、プロファイルのプロットは、アウトカム（例えば、当てはめられた倍数性に対する面積比、当てはめられた少数種比率と計測された少数種比率との比に対する中央値レベル、主成分）を提供するために使用され得る。用語「生のカウントプロファイルプロット」または「生のプロファイルプロット」は、本明細書中で使用されるとき、ある領域（例えば、ゲノム、部分、染色体、参照ゲノムの染色体部分または染色体の一部）における全カウントに対して正規化された、ある領域における各部分におけるカウントのプロットのことを指す。いくつかの実施形態において、プロファイルは、スタティックウィンドウプロセスを用いて生成され得、ある特定の実施形態において、プロファイルは、スライディングウィンドウプロセスを用いて生成され得る。

【0241】

試験被験体に対して生成されたプロファイルは、データセットの数学的操作および／もしくは統計的操作の解釈を容易にするため、ならびに／またはアウトカムを提供するために、１つまたはそれを超える参照被験体に対して生成されたプロファイルと比較されるときがある。いくつかの実施形態において、プロファイルは、１つまたはそれを超える開始時の（ｓｔａｒｔｉｎｇ）仮定、例えば、本明細書中に記載される仮定に基づいて生成される。ある特定の実施形態において、試験プロファイルは、コピー数変化が存在しないことを代表する所定の値の周りに集中することが多く、試験被験体がコピー数変化を有した場合、コピー数変化が試験被験体内に位置するゲノム位置に対応する領域における所定の値から逸脱することが多い。コピー数変化に関連する医学的症状に対するリスクがあるかまたはコピー数変化に関連する医学的症状に罹患している試験被験体では、選択された部分に対する数値は、影響されていないゲノム位置に対する所定の値から有意に変動すると予想される。開始時の仮定（例えば、既定の倍数性もしくは最適化された倍数性、既定の癌細胞核酸の比率もしくは最適化された癌細胞核酸の比率、既定の胎児比率もしくは最適化された胎児比率またはそれらの組み合わせ）に応じて、コピー数変化の存在または非存在を示唆する所定のしきい値もしくはカットオフ値またはしきい値範囲は、変動し得るが、コピー数変化の存在または非存在の判定に有用なアウトカムをなおも提供する。いくつかの実施形態において、プロファイルは、表現型を示唆し、かつ／または表現型を代表する。

【0242】

いくつかの実施形態において、対象のコピー数変化を実質的に含まない１つまたはそれを超える参照サンプルの使用は、参照カウントプロファイル（例えば、参照カウントの中央値プロファイル）を生成するために使用され得、それは、コピー数変化が存在しないことを代表する所定の値をもたらし得、試験被験体がコピー数変化を有した場合、コピー数変化がその試験被験体内に位置するゲノム位置に対応する区域における所定の値から逸脱することが多い。コピー数変化に関連する医学的症状のリスクがあるかまたはその医学的症状に罹患している試験被験体では、選択された部分または区分に対する数値は、罹患していないゲノム位置に対する所定の値から有意に変動すると予想される。ある特定の実施形態において、対象のコピー数変化を有すると判明している１つまたはそれを超える参照サンプルの使用は、参照カウントプロファイル（参照カウントの中央値プロファイル）を生成するために使用され得、そのプロファイルは、コピー数変化が存在することを代表する所定の値をもたらし得、試験被験体がコピー数変化を有しないゲノム位置に対応する区域における所定の値から逸脱することが多い。コピー数変化に関連する医学的症状のリスクがないかまたはその医学的症状に罹患していない試験被験体では、選択された部分または区分に対する数値は、罹患ゲノム位置に対する所定の値から有意に変動すると予想される。

【0243】

非限定的な例として、正規化されたサンプルカウントプロファイルおよび／または正規化された参照カウントプロファイルは、（ａ）選択された染色体、その部分または一部に対する参照カウントの中央値を、コピー数変化を有しないと判明している参照のセットから算出し、（ｂ）参照サンプルの生のカウントから情報価値のない部分を除去し（例えば、フィルタリングし）；（ｃ）参照ゲノムの残りのすべての部分に対する参照カウントを、参照サンプルの選択された染色体または選択されたゲノム位置に対する残りのカウント総数（例えば、参照ゲノムの情報価値のない部分を除去した後に残ったカウントの合計）に対して正規化し、それにより、正規化された参照被験体プロファイルを生成し；（ｄ）試験被験体のサンプルから対応する部分を除去し；（ｅ）１つまたはそれを超える選択されたゲノム位置に対する残りの試験被験体カウントを、選択されたゲノム位置を含む染色体に対する残りの参照カウントの中央値の和に対して正規化し、それにより、正規化された試験被験体プロファイルを生成することによって、生の配列リードデータから得ることができる。ある特定の実施形態において、（ｂ）において、フィルタリングされた部分によって減少される、ゲノム全体に対するさらなる正規化工程は、（ｃ）と（ｄ）との間に含めることができる。

【0244】

いくつかの実施形態において、リード密度プロファイルが測定される。いくつかの実施形態において、リード密度プロファイルは、少なくとも１つのリード密度を含み、２つまたはそれを超えるリード密度を含むことが多い（例えば、リード密度プロファイルは、複数のリード密度を含むことが多い）。いくつかの実施形態において、リード密度プロファイルは、好適な定量的値（例えば、平均値、中央値、Ｚ得点など）を含む。リード密度プロファイルは、１つまたはそれを超えるリード密度から生じる値を含むことが多い。リード密度プロファイルは、１つまたはそれを超える調整（例えば、正規化）に基づくリード密度の１つまたはそれを超える操作から生じる値を含むときがある。いくつかの実施形態において、リード密度プロファイルは、操作されていないリード密度を含む。いくつかの実施形態において、１つまたはそれを超えるリード密度プロファイルは、リード密度またはその微分演算（例えば、当該分野で公知のおよび／または本明細書中に記載される１つまたはそれを超える数学的および／または統計的データ処理工程の結果）を含むデータセットの様々な態様から生成される。ある特定の実施形態において、リード密度プロファイルは、正規化されたリード密度を含む。いくつかの実施形態において、リード密度プロファイルは、調整されたリード密度を含む。ある特定の実施形態において、リード密度プロファイルは、生のリード密度（例えば、操作されていない、調整されていない、または正規化されていないリード密度）、正規化されたリード密度、重み付けされたリード密度、フィルタリングされた部分のリード密度、リード密度のｚ得点、リード密度のｐ値、リード密度の積分値（例えば、曲線下面積）、リード密度の平均、平均値もしくは中央値、主成分などまたはそれらの組み合わせを含む。リード密度プロファイルのリード密度および／またはリード密度プロファイルは、不確定性の尺度（例えば、ＭＡＤ）に関連することが多い。ある特定の実施形態において、リード密度プロファイルは、リード密度の中央値の分布を含む。いくつかの実施形態において、リード密度プロファイルは、複数のリード密度の関係（例えば、当てはめ関係、回帰など）を含む。例えば、リード密度プロファイルは、リード密度（例えば、リード密度の値）とゲノム位置（例えば、部分、部分の位置）との間の関係を含むときがある。いくつかの実施形態において、リード密度プロファイルは、スタティックウィンドウプロセスを用いて生成され、ある特定の実施形態において、リード密度プロファイルは、スライディングウィンドウプロセスを用いて生成される。いくつかの実施形態において、リード密度プロファイルは、印刷および／または表示される（例えば、視覚表示、例えば、プロットまたはグラフとして表示される）ときがある。

【0245】

いくつかの実施形態において、リード密度プロファイルは、部分セット（例えば、参照ゲノムの部分セット、染色体の部分セットまたは染色体の一部の部分サブセット）に対応する。いくつかの実施形態において、リード密度プロファイルは、部分の集合（例えば、セット、サブセット）に関連するリード密度および／またはリードカウントを含む。いくつかの実施形態において、リード密度プロファイルは、連続した部分のリード密度に対して測定される。いくつかの実施形態において、連続した部分は、参照配列の領域および／または密度プロファイルに含まれない配列リード（例えば、フィルタリングによって除去される部分）を含むギャップを含む。連続した部分（例えば、部分セット）は、ゲノムの隣接した領域または染色体もしくは遺伝子の隣接した領域に相当するときがある。例えば、２つまたはそれを超えて連続した部分は、それらの部分を端と端を付けてマージすることによってアラインメントされたとき、各部分より長いＤＮＡ配列の配列アセンブリであり得る。例えば、２つまたはそれを超えて連続した部分は、インタクトなゲノム、染色体、遺伝子、イントロン、エキソンまたはそれらの一部であり得る。連続した部分および／または連続していない部分の集合（例えば、セット、サブセット）からリード密度プロファイルが決定されるときがある。場合によっては、リード密度プロファイルは、１つまたはそれを超える部分を含み、それらの部分は、重み付けされ得るか、除去され得るか、フィルタリングされ得るか、正規化され得るか、調整され得るか、平均され得るか、平均値として導かれ得るか、加算され得るか、減算され得るか、処理され得るか、またはそれらの任意の組み合わせによって変換され得る。

【0246】

リード密度プロファイルは、サンプルおよび／または参照（例えば、参照サンプル）に対して測定されることが多い。リード密度プロファイルは、ゲノム全体、１つもしくはそれを超える染色体、またはゲノムもしくは染色体の一部に対して生成されるときがある。いくつかの実施形態において、１つまたはそれを超えるリード密度プロファイルは、ゲノムまたはその一部に対して測定される。いくつかの実施形態において、リード密度プロファイルは、サンプルのリード密度のセットの全体を代表し、ある特定の実施形態において、リード密度プロファイルは、サンプルのリード密度の一部またはサブセットを代表する。つまり、リード密度プロファイルは、任意のデータを除去するためにフィルタリングされていないデータを代表するリード密度を含むかまたはそれらのリード密度から生成されるときがあり、リード密度プロファイルは、望まれないデータを除去するためにフィルタリングされたデータを代表するデータポイントを含むかまたはそれらのデータポイントから生成されるときがある。

【0247】

いくつかの実施形態において、リード密度プロファイルは、参照（例えば、参照サンプル、訓練セット）に対して測定される。参照に対するリード密度プロファイルは、参照プロファイルと本明細書中で称されるときがある。いくつかの実施形態において、参照プロファイルは、１つまたはそれを超える参照（例えば、参照配列、参照サンプル）から得られたリード密度を含む。いくつかの実施形態において、参照プロファイルは、１つまたはそれを超える既知の正倍数性サンプル（例えば、既知の正倍数性サンプルのセット）に対して測定されたリード密度を含む。いくつかの実施形態において、参照プロファイルは、フィルタリングされた部分のリード密度を含む。いくつかの実施形態において、参照プロファイルは、１つまたはそれを超える主成分に従って調整されたリード密度を含む。

【0248】

比較の実施
いくつかの実施形態において、処理工程は、比較を行う（ｐｒｅｆｏｒｍｉｎｇ）工程（例えば、試験プロファイルを参照プロファイルと比較する工程）を含む。２つまたはそれを超えるデータセット、２つもしくはそれを超える関係および／または２つもしくはそれを超えるプロファイルが、好適な方法によって比較され得る。データセット、関係および／またはプロファイルの比較に適した統計学的方法の非限定的な例としては、Ｂｅｈｒｅｎｓ－Ｆｉｓｈｅｒアプローチ、ブートストラッピング、独立した有意性検定を組み合わせるためのフィッシャーの方法、Ｎｅｙｍａｎ－Ｐｅａｒｓｏｎ検定、検証的データ解析、探索的データ解析、正確検定、Ｆ検定、Ｚ検定、Ｔ検定、不確定性の尺度の算出および／もしくは比較、帰無仮説、対立帰無仮説など、カイ二乗検定、総括的検定、有意水準（例えば、統計的有意水準）の算出および／もしくは比較、メタ解析、多変量解析、回帰、線形単回帰、ロバスト線形回帰など、または前述のものの組み合わせが挙げられる。ある特定の実施形態において、２つまたはそれを超えるデータセット、関係および／またはプロファイルの比較は、不確定性の尺度の測定および／または比較を含む。「不確定性の尺度」は、本明細書中で使用されるとき、有意性（例えば、統計的有意性）の尺度、誤差の尺度、分散の尺度、信頼の尺度などまたはそれらの組み合わせのことを指す。不確定性の尺度は、値（例えば、しきい値）またはある範囲の値（例えば、区間、信頼区間、ベイズ信頼区間、しきい値の範囲）であり得る。不確定性の尺度の非限定的な例としては、ｐ値、好適な偏差の尺度（例えば、標準偏差、シグマ、絶対偏差、平均絶対偏差など）、好適な誤差（例えば、標準誤差、平均平方誤差、平方根平均平方誤差など）の尺度、好適な分散の尺度、好適な標準得点（例えば、標準偏差、累積パーセンテージ、パーセンタイル等価物、Ｚ得点、Ｔ得点、Ｒ得点、スタンダードナイン（スタナイン）、スタナインにおけるパーセントなど）などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、有意水準の決定は、不確定性の尺度（例えば、ｐ値）の決定を含む。ある特定の実施形態において、２つまたはそれを超えるデータセット、関係および／またはプロファイルは、複数の（例えば、２つまたはそれを超える）統計学的方法（例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、Ｋ最近隣法、ロジスティック回帰および／またはｌｏｓｓ平滑化）ならびに／または任意の好適な数学的操作および／もしくは統計的操作（例えば、本明細書中で操作と称されるもの）を使用することによって解析および／または比較され得る。

【0249】

いくつかの実施形態において、処理工程は、２つまたはそれを超えるプロファイル（例えば、２つまたはそれを超えるリード密度プロファイル）の比較を含む。プロファイルの比較は、ゲノムの選択された領域に対して生成されたプロファイルの比較を含み得る。例えば、試験プロファイルおよび参照プロファイルが、実質的に同じ領域であるゲノム（例えば、参照ゲノム）の領域に対して測定される場合、その試験プロファイルは、参照プロファイルと比較され得る。プロファイルの比較は、プロファイル（例えば、リード密度プロファイル）の部分の２つまたはそれを超えるサブセットの比較を含むときがある。プロファイルの部分のサブセットは、ゲノムの領域（例えば、染色体またはその領域）に相当し得る。プロファイル（例えば、リード密度プロファイル）は、任意の量の部分のサブセットを含み得る。プロファイル（例えば、リード密度プロファイル）は、２つもしくはそれを超えるか、３つもしくはそれを超えるか、４つもしくはそれを超えるかまたは５つもしくはそれを超えるサブセットを含むときがある。ある特定の実施形態において、各部分が、隣接する参照ゲノムの領域である場合、プロファイル（例えば、リード密度プロファイル）は、部分の２つのサブセットを含む。いくつかの実施形態において、試験プロファイルと参照プロファイルの両方が、部分の第１のサブセットおよび部分の第２のサブセットを含み、その第１および第２のサブセットが、ゲノムの異なる領域である場合、試験プロファイルは、参照プロファイルと比較され得る。プロファイルの部分のいくつかのサブセットは、コピー数変化を含むこともあるし、部分の他のサブセットは、コピー数変化を実質的に含まないときもある。プロファイル（例えば、試験プロファイル）の部分のすべてのサブセットが、コピー数変化を実質的に含まないときがある。プロファイル（例えば、試験プロファイル）の部分のすべてのサブセットが、コピー数変化を含むときがある。いくつかの実施形態において、試験プロファイルは、コピー数変化を含む部分の第１のサブセットおよびコピー数変化を実質的に含まない部分の第２のサブセットを含み得る。

【0250】

ある特定の実施形態において、２つまたはそれを超えるプロファイルの比較は、２つまたはそれを超えるプロファイルに対する不確定性の尺度の決定および／または比較を含む。プロファイル（例えば、リード密度プロファイル）および／または関連する不確定性の尺度は、データセットの数学的操作および／もしくは統計的操作の解釈を容易にするため、ならびに／またはアウトカムを提供するために、比較されるときがある。試験被験体に対して生成されたプロファイル（例えば、リード密度プロファイル）は、１つまたはそれを超える参照（例えば、参照サンプル、参照被験体など）に対して生成されたプロファイル（例えば、リード密度プロファイル）と比較されるときがある。いくつかの実施形態において、参照プロファイルが、コピー数変化を有しないと判明している参照被験体（例えば、参照）のセットから得られる場合、アウトカムは、染色体、その部分または一部について、試験被験体からのプロファイル（例えば、リード密度プロファイル）を参照からのプロファイル（例えば、リード密度プロファイル）と比較することによって提供される。いくつかの実施形態において、参照プロファイルが、特定のコピー数変化（例えば、染色体異数性、微小重複、微小欠失）を有すると判明している参照被験体のセットから得られる場合、アウトカムは、染色体、その部分または一部について、試験被験体からのプロファイル（例えば、リード密度プロファイル）を参照からのプロファイル（例えば、リード密度プロファイル）と比較することによって提供される。

【0251】

ある特定の実施形態において、試験被験体のプロファイル（例えば、リード密度プロファイル）は、コピー数変化が存在しないことを代表する所定の値と比較され、コピー数変化が位置づけられるゲノム位置に対応する１つまたはそれを超えるゲノム位置（例えば、部分）において所定の値から逸脱するときがある。例えば、試験被験体（例えば、コピー数変化に関連する医学的症状に対するリスクがあるかまたはその医学的症状に罹患している被験体）において、試験被験体が、対象のコピー数変化を含むとき、プロファイルは、選択された部分について、参照（例えば、参照配列、参照被験体、参照セット）のプロファイルと有意に異なると予想される。試験被験体が、対象のコピー数変化を含まないとき、試験被験体のプロファイル（例えば、リード密度プロファイル）は、選択された部分について、参照（例えば、参照配列、参照被験体、参照セット）のプロファイル（例えば、リード密度プロファイル）と実質的に同じであることが多い。プロファイル（例えば、リード密度プロファイル）は、所定のしきい値および／またはしきい値の範囲と比較され得る。用語「しきい値」は、本明細書中で使用されるとき、適格なデータセットを用いて算出され、コピー数変化（例えば、異数性、微小重複、微小欠失など）の診断の限度として役立つ任意の数字のことを指す。ある特定の実施形態において、しきい値は、本明細書中に記載される方法によって得られる結果によって上回られ、被験体は、コピー数変化と診断される。いくつかの実施形態において、閾値または値の範囲は、配列リードデータ（例えば、参照および／または被験体からの配列リードデータ）を数学的におよび／または統計的に操作することによって算出され得る。コピー数変化の存在または非存在を示唆する値の所定のしきい値またはしきい値範囲は、変動し得るが、コピー数変化の存在または非存在の判定に有用なアウトカムをなおも提供する。ある特定の実施形態において、正規化されたリード密度および／または正規化されたカウントを含むプロファイル（例えば、リード密度プロファイル）は、分類および／またはアウトカムの提供を容易にするために生成される。アウトカムは、正規化されたカウントを含むプロファイル（例えば、リード密度プロファイル）のプロットに基づいて（例えば、そのようなリード密度プロファイルのプロットを用いて）提供され得る。

【0252】

決定分析
いくつかの実施形態において、アウトカム（例えば、コールすること）の判定またはコピー数変化（例えば、染色体異数性、微小重複、微小欠失）の存在または非存在の判定は、決定分析に従って行われる。ある特定の決定分析の特徴は、国際特許出願公開番号ＷＯ２０１４／１９０２８６（参照により本明細書中に援用される）に記載されている。例えば、決定分析は、それらの決定の１つまたはそれを超える結果、評価および／または起こり得る帰結に基づいて、それらの結果、それらの結果の評価および一連の決定をもたらす１つまたはそれを超える方法を適用すること、ならびに最終的な決定が行われるプロセスのある重大な局面において終了することを含むときがある。いくつかの実施形態において、決定分析は、決定木である。決定分析は、いくつかの実施形態において、１つまたはそれを超えるプロセス（例えば、処理工程、例えば、アルゴリズム）の協調させた使用を含む。決定分析は、人間、システム、装置、ソフトウェア（例えば、モジュール）、コンピュータ、プロセッサ（例えば、マイクロプロセッサ）などまたはそれらの組み合わせによって行われ得る。いくつかの実施形態において、決定分析は、決定分析を使用しない場合（例えば、正規化されたカウントから直接判定が行われる場合）と比較して、偽陰性が少なくかつ偽陽性が少ない判定で、コピー数変化（例えば、染色体異数性、微小重複または微小欠失）の存在または非存在を判定する方法を含む。いくつかの実施形態において、決定分析は、１つまたはそれを超えるコピー数変化に関連する症状の存在または非存在の判定を含む。

【0253】

いくつかの実施形態において、決定分析は、ゲノムまたはゲノムの領域（例えば、染色体またはその一部）に対するプロファイルの生成を含む。プロファイルは、公知のまたは本明細書中に記載される任意の好適な方法によって生成され得る。いくつかの実施形態において、決定分析は、セグメント化プロセスを含む。セグメント化は、プロファイルを修正および／または変換し、それにより、プロファイルの１つまたはそれを超える分解レンダリング（ｄｅｃｏｍｐｏｓｉｔｉｏｎｒｅｎｄｅｒｉｎｇｓ）を提供し得る。セグメント化プロセスに供されたプロファイルは、参照ゲノムまたはその一部における部分にマッピングされた正規化されたカウントのプロファイルであることが多い。本明細書中で述べられるように、それらの部分にマッピングされた生のカウントは、１つまたはそれを超える好適な正規化プロセス（例えば、ＬＯＥＳＳ、ＧＣ－ＬＯＥＳＳ、主成分正規化またはそれらの組み合わせ）によって正規化されることにより、決定分析の一部としてセグメント化されたプロファイルが生成され得る。プロファイルの分解レンダリングは、プロファイルの変換であることが多い。プロファイルの分解レンダリングは、プロファイルから、ゲノム、染色体またはそれらの一部の提示への変換であるときがある。

【0254】

ある特定の実施形態において、セグメント化のために用いられるセグメント化プロセスは、プロファイル内の１つまたはそれを超える他のレベルとは異なる（例えば、実質的にまたは有意に異なる）、プロファイル内の１つまたはそれを超えるレベルを位置づけ、特定する。あるプロファイルにおける別のレベルと異なり、そのプロファイルにおける別のレベルと異なるエッジを有する、セグメント化プロセスに従ってそのプロファイルにおいて特定されたレベルは、不連続のセグメントに対するレベルと本明細書中で称される。セグメント化プロセスは、１つまたはそれを超える不連続のセグメントが特定され得る分解レンダリングを、正規化されたカウントまたはレベルのプロファイルから生成し得る。不連続のセグメントは、通常、セグメント化されるもの（例えば、染色体、複数の染色体、常染色体）より少ない部分をカバーする。

【0255】

いくつかの実施形態において、セグメント化は、あるプロファイル内の不連続のセグメントのエッジを位置づけ、特定する。ある特定の実施形態において、１つまたはそれを超える不連続のセグメントの一方または両方のエッジが、特定される。例えば、セグメント化プロセスは、あるプロファイルにおける不連続のセグメントの右および／または左のエッジの場所（例えば、ゲノム座標、例えば、部分の場所）を特定し得る。不連続のセグメントは、２つのエッジを含むことが多い。例えば、不連続のセグメントは、左のエッジおよび右のエッジを含み得る。いくつかの実施形態において、提示またはビューに応じて、左のエッジは、あるプロファイルにおいて、核酸セグメントの５’－エッジであり得、右のエッジは、３’－エッジであり得る。いくつかの実施形態において、左のエッジは、あるプロファイルにおいて、核酸セグメントの３’－エッジであり得、右のエッジは、５’－エッジであり得る。プロファイルのエッジは、セグメント化の前に既知であることが多く、ゆえに、いくつかの実施形態において、プロファイルのエッジは、あるレベルのどちらのエッジが５’－エッジであり、どちらのエッジが３’－エッジであるかを明らかにする。いくつかの実施形態において、あるプロファイルおよび／または不連続のセグメントの一方または両方のエッジが、染色体のエッジである。

【0256】

いくつかの実施形態において、不連続のセグメントのエッジは、参照サンプル（例えば、参照プロファイル）に対して生成された分解レンダリングに従って決定される。いくつかの実施形態において、参照プロファイル（例えば、染色体またはその一部のプロファイル）の分解レンダリングに従って、ヌルエッジ高さ分布（ｎｕｌｌｅｄｇｅｈｅｉｇｈｔｄｉｓｔｒｉｂｕｔｉｏｎ）が明らかにされる。ある特定の実施形態において、あるプロファイルにおける不連続のセグメントのレベルが、ヌルエッジ高さ分布の外側であるとき、その不連続のセグメントのエッジは特定される。いくつかの実施形態において、あるプロファイルにおける不連続のセグメントのエッジは、参照プロファイルに対する分解レンダリングに従って算出されたＺ得点に従って特定される。

【0257】

場合によっては、セグメント化は、あるプロファイルにおける２つまたはそれを超える不連続のセグメント（例えば、２つまたはそれを超える断片化されたレベル、２つまたはそれを超える断片化されたセグメント）を生成する。いくつかの実施形態において、セグメント化プロセスから得られる分解レンダリングは、過剰にセグメント化されるかまたは断片化され、複数の不連続のセグメントを含む。セグメント化によって生成される不連続のセグメントは、実質的に異なるときがあり、セグメント化によって生成される不連続のセグメントは、実質的に類似であるときがある。実質的に類似の不連続のセグメント（例えば、実質的に類似のレベル）とは、セグメント化されたプロファイルにおける２つまたはそれを超える隣接した不連続のセグメントのことを指すことが多く、その不連続のセグメントの各々は、所定の不確定性レベル未満だけ異なるレベルを有する。いくつかの実施形態において、実質的に類似の不連続のセグメントは、互いに隣接しており、介在性のセグメントによって分断されていない。いくつかの実施形態において、実質的に類似の不連続のセグメントは、１つまたはそれを超えるより小さいセグメントによって分断されている。いくつかの実施形態において、実質的に類似の不連続のセグメントは、約１～約２０個、約１～約１５個、約１～約１０個または約１～約５個の部分によって分断され、ここで、それらの介在性部分の１つまたはそれを超えるものが、その実質的に類似の不連続のセグメントの各々のレベルと有意に異なるレベルを有する。いくつかの実施形態において、実質的に類似の不連続のセグメントのレベルは、ある不確定性のレベルと約３倍未満、約２倍未満、約１倍未満または約０．５倍未満だけ異なる。実質的に類似の不連続のセグメントは、いくつかの実施形態において、３ＭＡＤ未満（例えば、３シグマ未満）、２ＭＡＤ未満、１ＭＡＤ未満または約０．５ＭＡＤ未満だけ異なる中央値レベルを含み、ここで、ＭＡＤは、それらのセグメントの各々の中央値レベルから算出される。実質的に異なる不連続のセグメントは、いくつかの実施形態において、隣接しないか、あるいは１０個もしくはそれを超える、１５個もしくはそれを超えるまたは２０個もしくはそれを超える部分によって分断されている。実質的に異なる不連続のセグメントは、通常、実質的に異なるレベルを有する。ある特定の実施形態において、実質的に異なる不連続のセグメントは、ある不確定性のレベルの約２．５倍超、約３倍超、約４倍超、約５倍超、約６倍超だけ異なるレベルを含む。実質的に異なる不連続のセグメントは、いくつかの実施形態において、２．５ＭＡＤ超（例えば、２．５シグマ超）、３ＭＡＤ超、４ＭＡＤ超、約５ＭＡＤ超または約６ＭＡＤ超だけ異なる中央値レベルを含み、ここで、ＭＡＤは、不連続のセグメントの各々の中央値レベルから算出される。

【0258】

いくつかの実施形態において、セグメント化プロセスは、あるプロファイルまたはその一部における１つまたはそれを超える不連続のセグメントに対する、レベル（例えば、定量的値、例えば、平均値または中央値レベル）、不確定性のレベル（例えば、不確定値）、Ｚ得点、Ｚ値、ｐ値などまたはそれらの組み合わせの決定（例えば、算出）を含む。いくつかの実施形態において、レベル（例えば、定量的値、例えば、平均値または中央値レベル）、不確定性のレベル（例えば、不確定値）、Ｚ得点、Ｚ値、ｐ値などまたはそれらの組み合わせは、不連続のセグメントに対して決定される（例えば、算出される）。

【0259】

セグメント化は、１つまたはそれを超える分解生成プロセスによって全体的または部分的に行われ得る。分解生成プロセスは、例えば、プロファイルの分解レンダリングを提供し得る。本明細書中に記載されるまたは当該分野で公知の任意の分解生成プロセスを使用してよい。分解生成プロセスの非限定的な例としては、サーキュラーバイナリーセグメンテーション（ＣＢＳ）（例えば、Ｏｌｓｈｅｎら（２００４）Ｂｉｏｓｔａｔｉｓｔｉｃｓ５（４）：５５７－７２；Ｖｅｎｋａｔｒａｍａｎ，ＥＳ，Ｏｌｓｈｅｎ，ＡＢ（２００７）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２３（６）：６５７－６３を参照のこと）；Ｈａａｒウェーブレットセグメンテーション（例えば、Ｈａａｒ，Ａｌｆｒｅｄ（１９１０）ＭａｔｈｅｍａｔｉｓｃｈｅＡｎｎａｌｅｎ６９（３）：３３１－３７１を参照のこと）；最大重複離散ウェーブレット変換（ＭＯＤＷＴ）（例えば、Ｈｓｕら（２００５）Ｂｉｏｓｔａｔｉｓｔｉｃｓ６（２）：２１１－２２６を参照のこと）；定常ウェーブレット（ＳＷＴ）（例えば、Ｙ．ＷａｎｇａｎｄＳ．Ｗａｎｇ（２００７）ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＢｉｏｉｎｆｏｒｍａｔｉｃｓＲｅｓｅａｒｃｈａｎｄＡｐｐｌｉｃａｔｉｏｎｓ３（２）：２０６－２２２を参照のこと）；双対木複素ウェーブレット変換（ＤＴＣＷＴ）（例えば、Ｎｇｕｙｅｎら（２００７）Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，ＢｏｓｔｏｎＭＡ，ｏｎＯｃｔｏｂｅｒ１４－１７，２００７，ｐａｇｅｓ１３７－１４４を参照のこと）；最大エントロピーセグメンテーション、エッジ検出カーネルを用いるコンボルーション、ジェンセン・シャノン・ダイバージェンス、カルバック・ライブラー・ダイバージェンス、バイナリー再帰的セグメンテーション、フーリエ変換などまたはそれらの組み合わせが挙げられる。

【0260】

いくつかの実施形態において、セグメント化は、１つのプロセスまたは複数のサブプロセスを含むプロセスによって達成され、それらの非限定的な例としては、分解生成プロセス、閾値化、平準化、平滑化、洗練化などまたはそれらの組み合わせが挙げられる。閾値化、平準化、平滑化、洗練化などは、例えば、分解生成プロセスとともに行われ得る。

【0261】

いくつかの実施形態において、決定分析は、分解レンダリングにおいて候補セグメントを特定する工程を含む。候補セグメントは、分解レンダリングにおいて最も有意な不連続のセグメントと判定される。候補セグメントは、セグメントによってカバーされる部分の数に関しておよび／またはそのセグメントに対する正規化されたカウントのレベルの絶対値に関して最も有意であり得る。候補セグメントは、分解レンダリングにおいて他の不連続のセグメントよりも大きいときがあり、実質的に大きいときがある。候補セグメントは、好適な方法によって特定され得る。いくつかの実施形態において、候補セグメントは、曲線下面積（ＡＵＣ）解析によって特定される。ある特定の実施形態において、第１の不連続のセグメントが、あるレベルを有し、かつ／または分解レンダリングにおいて別の不連続のセグメントよりも実質的に大きいいくつかの部分をカバーする場合、第１のセグメントは、より大きなＡＵＣを含む。あるレベルがＡＵＣに対して解析される場合、あるレベルの絶対値が使用されることが多い（例えば、正規化されたカウントに対応するレベルは、欠失に対しては負の値を有し得、重複に対しては正の値を有し得る）。ある特定の実施形態において、ＡＵＣは、算出されたＡＵＣの絶対値（例えば、得られる正の値）として決定される。ある特定の実施形態において、候補セグメントは、いったん特定され（例えば、ＡＵＣ解析または好適な方法によって）、必要に応じて検証されると、その後、その候補セグメントが遺伝子変異または遺伝子変化（例えば、異数性、微小欠失または微小重複）に相当するか否かを判定するために、ｚ得点の計算などのために選択される。

【0262】

いくつかの実施形態において、決定分析は、比較を含む。いくつかの実施形態において、比較は、少なくとも２つの分解レンダリングの比較を含む。いくつかの実施形態において、比較は、少なくとも２つの候補セグメントの比較を含む。ある特定の実施形態において、少なくとも２つの候補セグメントの各々は、異なる分解レンダリングに由来する。例えば、第１の候補セグメントは、第１の分解レンダリングに由来し得、第２の候補セグメントは、第２の分解レンダリングに由来し得る。いくつかの実施形態において、比較は、２つの分解レンダリングが実質的に同じであるかまたは異なるかの判定を含む。いくつかの実施形態において、比較は、２つの候補セグメントが実質的に同じであるかまたは異なるかの判定を含む。２つの候補セグメントは、好適な比較方法によって実質的に同じであるかまたは異なると判定され得、その比較方法の非限定的な例としては、目視検査、２つの候補セグメントのレベルもしくはＺ得点の比較、２つの候補セグメントのエッジの比較、２つの候補セグメントもしくはそれらの対応する分解レンダリングのオーバーレイなどまたはそれらの組み合わせが挙げられる。

【0263】

分類およびその使用
本明細書中に記載される方法は、テストサンプルに対するゲノム領域における遺伝子型および／または遺伝子変異／変化の存在または非存在を示唆するアウトカムを提供し得る（例えば、遺伝子変異の存在または非存在を判定するアウトカムを提供する）。本明細書中に記載される方法は、テストサンプルに対する表現型および／または医学的症状の存在または非存在を示唆するアウトカムを提供するときがある（例えば、医学的症状の存在または非存在および／または表現型を判定するアウトカムを提供する）。アウトカムは、分類プロセスの一部であることが多く、分類（例えば、テストサンプルに対する遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在の分類）は、アウトカムに基づくときがあり、かつ／またはアウトカムを含むときがある。アウトカムおよび／または分類は、分類プロセスにおいて遺伝子型、表現型、遺伝子変異、遺伝子変化および／または医学的症状の存在または非存在の判定を容易にする、テストサンプルに対するデータ処理の結果（例えば、統計値（例えば、標準得点（例えば、ｚ得点））に基づくときがあり、かつ／またはそのデータ処理の結果を含むときがある。アウトカムおよび／または分類は、遺伝子型、表現型、遺伝子変異、遺伝子変化および／または医学的症状の存在または非存在を判定するスコアまたはそれらの存在または非存在のコールを含むときがあるか、またはそれに基づくときがある。ある特定の実施形態において、アウトカムおよび／または分類は、分類プロセスにおいて遺伝子型、表現型、遺伝子変異、遺伝子変化および／または医学的症状の存在または非存在を予測および／または判定する結論を含む。

【0264】

遺伝子型および／または遺伝子変異は、テストサンプルに対するゲノムまたは遺伝情報の中に検出可能な変更をもたらす１つまたはそれを超えるヌクレオチドを含む領域の増加、減少および／または変化（例えば、重複、欠失、融合、挿入、短タンデム反復（ＳＴＲ）、変異、単一ヌクレオチド変化、再編成、置換または異常なメチル化）を含むことが多い。遺伝子型および／または遺伝子変異は、特定のゲノム領域（例えば、染色体、染色体の部分（すなわち、サブ染色体領域）、ＳＴＲ、多型領域、転座した領域、変化したヌクレオチド配列などまたは前述のものの組み合わせ）に存在することが多い。遺伝子変異は、特定の領域に対するコピー数変化、例えば、染色体領域に対するトリソミーもしくはモノソミー、または特定の領域に対する微小重複もしくは微小欠失の事象（例えば、約１０メガベースまたはそれ未満（例えば、約９メガベースもしくはそれ未満、８メガベースもしくはそれ未満、７メガベースもしくはそれ未満、６メガベースもしくはそれ未満、５メガベースもしくはそれ未満、４メガベースもしくはそれ未満、３メガベースもしくはそれ未満、２メガベースもしくはそれ未満または１メガベースもしくはそれ未満）の領域の増加または減少）であるときがある。コピー数変化は、コピーを有しないかまたは１、２、３もしくは４コピーまたはそれを超えるコピー数の特定の領域（例えば、染色体、サブ染色体、ＳＴＲ、微小重複または微小欠失領域）を有すると表現されるときがある。

【0265】

遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在は、ゲノム部分にマッピングされた配列リード（例えば、カウント、参照ゲノムのゲノム部分のカウント）を変換、解析および／または操作することによって判定され得る。ある特定の実施形態において、アウトカムおよび／または分類は、正規化されたカウント、リード密度、リード密度プロファイルなどに従って判定され、本明細書中に記載される方法によって判定され得る。アウトカムおよび／または分類は、テストサンプルに対して特定の遺伝子型、表現型、遺伝子変異または医学的症状が存在するかまたは存在しない確率を指す１つまたはそれを超えるスコアおよび／またはコールを含むときがある。あるスコアの値は、例えば、遺伝子型、表現型、遺伝子変異または医学的症状に対応し得る、マッピングされた配列リードの変動、差異または比を決定するために使用され得る。例えば、参照ゲノムに対して、あるデータセットから選択された遺伝子型、表現型、遺伝子変異または医学的症状について陽性のスコアが算出されると、テストサンプルの遺伝子型、表現型、遺伝子変異または医学的症状が分類され得る。

【0266】

アウトカムおよび／または分類の任意の好適な表現が、提供され得る。アウトカムおよび／または分類は、１つまたはそれを超える確率に関する考慮すべきものの文脈において、本明細書中に記載される処理方法を用いて生成された１つまたはそれを超える数値に基づくときがあり、かつ／またはそれらの数値を含むときがある。使用され得る値の非限定的な例としては、感度、特異性、標準偏差、中央絶対偏差（ＭＡＤ）、確定性の尺度、信頼の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという確定性または信頼の尺度、不確定性の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという不確定性の尺度、変動係数（ＣＶ）、信頼水準、信頼区間（例えば、約９５％信頼区間）、標準得点（例えば、ｚ得点）、カイ値、ファイ値、ｔ検定の結果、ｐ値、倍数性値、当てはめられた少数種比率、面積比、中央値レベルなどまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、アウトカムおよび／または分類は、リード密度、リード密度プロファイルおよび／またはプロット（例えば、プロファイルプロット）を含む。ある特定の実施形態において、複数の値が、かかる値に対するプロファイル（例えば、ｚ得点プロファイル、ｐ値プロファイル、カイ値プロファイル、ファイ値プロファイル、ｔ検定の結果、値のプロファイルなどまたはそれらの組み合わせ）において、一緒に解析されるときがある。確率に関する考慮すべきものは、被験体が、遺伝子型、表現型、遺伝子変異および／または医学的症状を有するリスクがあるかまたはそれらを有するかの判定を容易にし得、前述のものを判定するアウトカムおよび／または分類は、そのような考慮すべきものを含むときがある。

【0267】

ある特定の実施形態において、アウトカムおよび／または分類は、テストサンプルの遺伝子型、表現型、遺伝子変異および／または医学的症状のリスクまたはそれらの存在または非存在の確率を予想および／または判定する結論に基づき、かつ／またはその結論を含む。結論は、本明細書中に記載されるデータ解析方法から決定された値（例えば、確率、確定性および／または不確定性を示唆する統計値（例えば、標準偏差、中央絶対偏差（ＭＡＤ）、確定性の尺度、信頼の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという確定性または信頼の尺度、不確定性の尺度、テストサンプルに対して得られる値が特定の値範囲の内側または外側であるという不確定性の尺度、変動係数（ＣＶ）、信頼水準、信頼区間（例えば、約９５％信頼区間）、標準得点（例えば、ｚ得点）、カイ値、ファイ値、ｔ検定の結果、ｐ値、感度、特異性などまたはそれらの組み合わせ）に基づくときがある。アウトカムおよび／または分類は、特定のテストサンプルに対する臨床検査レポート（本明細書の以後に、より詳細に説明される）において、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在に関する確率（例えば、オッズ比、ｐ値）、尤度または危険因子として表現されるときがある。テストサンプルに対するアウトカムおよび／または分類は、特定の遺伝子型、表現型、遺伝子変異および／または医学的症状に関して「陽性」または「陰性」として提供されるときがある。例えば、遺伝子型、表現型、遺伝子変異および／または医学的症状が存在することが判定された場合、アウトカムおよび／または分類は、特定のテストサンプルに対する臨床検査レポートにおいて「陽性」と呼ばれるときがあり、遺伝子型、表現型、遺伝子変異および／または医学的症状が存在しないことが判定された場合、アウトカムおよび／または分類は、特定のテストサンプルに対する臨床検査レポートにおいて「陰性」と呼ばれるときがある。アウトカムおよび／または分類は、判定されるときがあり、データ処理において使用される仮定を含むときがある。

【0268】

アウトカムおよび／または分類は、クラスターの中もしくは外の値、閾値を上回るもしくは下回る値、範囲（例えば、しきい値範囲）内の値、および／または分散もしくは信頼の尺度を伴う値に基づくかまたはそれらの値として表現されるときがある。いくつかの実施形態において、アウトカムおよび／または分類は、所定の閾値もしくはカットオフ値および／またはその値に関連する不確定性の尺度、信頼水準もしくは信頼区間を上回るまたは下回る値に基づくかまたはそれらとして表現される。ある特定の実施形態において、所定の閾値またはカットオフ値は、予想されるレベルまたは予想されるレベル範囲である。いくつかの実施形態において、テストサンプルに対して得られる値は、標準得点（例えば、ｚ得点）であり、ここで、そのスコアの絶対値が、特定のスコアしきい値（例えば、約２～約５；約３～約４のしきい値）より大きいとき、遺伝子型、表現型、遺伝子変異および／または医学的症状が存在すると判定され、そのスコアの絶対値が特定のスコアしきい値未満であるとき、遺伝子型、表現型、遺伝子変異および／または医学的症状が存在しないと判定される。ある特定の実施形態において、アウトカムおよび／または分類は、所定の値範囲（例えば、しきい値範囲）に入るかまたは入らない値、およびその範囲の内側または外側の値に対する関連する不確定性または信頼水準に基づくか、またはそれらとして表現される。いくつかの実施形態において、アウトカムおよび／または分類は、所定の値に等しい（例えば、１に等しい、ゼロに等しい）かまたは所定の値範囲内の値に等しい値、およびその範囲に等しいか、その範囲内または範囲外である値に対するその関連する不確定性または信頼水準を含む。アウトカムおよび／または分類は、プロット（例えば、プロファイルプロット）としてグラフを用いて表されるときがある。アウトカムおよび／または分類は、参照値または参照プロファイルの使用を含むときがあり、参照値または参照プロファイルは、１つまたはそれを超える参照サンプル（例えば、ゲノムの選択された部分（例えば、領域）に対して正倍数性の参照サンプル）から得られるときがある。

【0269】

いくつかの実施形態において、アウトカムおよび／または分類は、選択された領域に対する検査値または検査プロファイルと参照値または参照プロファイルとの間の不確定性の尺度の使用に基づくかまたはそれを含む。いくつかの実施形態において、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在の判定は、選択された領域（例えば、染色体またはその一部）に対する検査値または検査プロファイルと参照値または参照プロファイルとの間の偏差の数値（例えば、シグマ）に従う。偏差の尺度は、偏差の絶対値または偏差の絶対尺度（例えば、平均絶対偏差または中央絶対偏差（ＭＡＤ））であることが多い。いくつかの実施形態において、検査値または検査プロファイルと参照値または参照プロファイルとの間の偏差の数値が、約１またはそれを超える（例えば、約１．５、２、２．５、２．６、２．７、２．８、２．９、３、３．１、３．２、３．３、３．４、３．５、３．６、３．７、３．８、３．９、４、５もしくは６という偏差またはそれを超える）とき、遺伝子型、表現型、遺伝子変異および／または医学的症状が存在すると判定される。ある特定の実施形態において、検査値または検査プロファイルおよび参照値または参照プロファイルが、約２～約５という偏差の尺度（例えば、シグマ、ＭＡＤ）または３を超える偏差の尺度（例えば、３シグマ、３ＭＡＤ）だけ異なるとき、遺伝子型、表現型、遺伝子変異および／または医学的症状が存在すると判定される。検査値または検査プロファイルと参照値または参照プロファイルとの間の３を超える偏差は、選択された領域について試験被験体が非正倍数性であること（例えば、遺伝子変異の存在（例えば、トリソミー、モノソミー、微小重複、微小欠失の存在）を示唆することが多い。正倍数性を示唆する参照プロファイルを有意に上回る検査値または検査プロファイルは、トリソミー、サブ染色体重複または微小重複を判定するときがある。正倍数性を示唆する参照プロファイルを有意に下回る検査値または検査プロファイルは、モノソミー、サブ染色体欠失または微小欠失を判定するときがある。いくつかの実施形態において、ゲノムの選択された領域に対する検査値または検査プロファイルと参照値または参照プロファイルとの間の偏差の数値が、約３．５またはそれ未満（例えば、約３．４、３．３、３．２、３．１、３、２．９、２．８、２．７、２．６、２．５、２．４、２．３、２．２、２．１、２、１．９、１．８、１．７、１．６、１．５、１．４、１．３、１．２、１．１、１またはそれ未満未満）であるとき、遺伝子型、表現型、遺伝子変異および／または医学的症状が存在しないと判定される。ある特定の実施形態において、検査値または検査プロファイルが、３という偏差の尺度（例えば、３シグマ、３ＭＡＤ）未満だけ参照値または参照プロファイルと異なるとき、遺伝子型、表現型、遺伝子変異および／または医学的症状が存在しないと判定される。いくつかの実施形態において、検査値または検査プロファイルと参照値または参照プロファイルとの間の３未満の偏差（例えば、標準偏差の場合、３シグマ）の尺度は、正倍数性である（例えば、遺伝子変異が存在しない）領域を示唆することが多い。テストサンプルに対する検査値または検査プロファイルと、１つまたはそれを超える参照被験体に対する参照値または参照プロファイルとの間の偏差の尺度が、プロットされ、可視化され得る（例えば、ｚ得点プロット）。

【0270】

いくつかの実施形態において、アウトカムおよび／または分類は、コールゾーン（ｃａｌｌｚｏｎｅ）に従って判定される。ある特定の実施形態において、ある値（例えば、プロファイル、リード密度プロファイルおよび／または不確定性の尺度）または値の集合が、予め定義された範囲（例えば、ゾーン、コールゾーン）に入るとき、コールが行われる（例えば、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を判定するコール）。いくつかの実施形態において、コールゾーンは、特定のサンプル群から得られた値の集合（例えば、プロファイル、リード密度プロファイル、確率の尺度もしくは判定および／または不確定性の尺度）に従って定義される。ある特定の実施形態において、コールゾーンは、同じ染色体またはその一部から得られた値の集合に従って定義される。いくつかの実施形態において、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を判定するためのコールゾーンは、不確定性の尺度（例えば、高い信頼水準または低い不確定性の尺度）および／またはテストサンプルに対して測定された少数核酸種の定量値（例えば、約１％またはそれを超える少数種（例えば、約２、３、４、５、６、７、８、９、１０％またはそれを超える少数核酸種））に従って定義される。少数核酸種の定量値は、テストサンプルに対して確かめられた癌細胞核酸または胎児核酸の比率またはパーセント（すなわち、胎児比率）であるときがある。いくつかの実施形態において、コールゾーンは、信頼水準または信頼区間（例えば、９５％信頼水準のための信頼区間）によって定義される。コールゾーンは、信頼水準、または約９０％もしくはそれを超える（例えば、約９１、９２、９３、９４、９５、９６、９７、９８、９９、９９．１、９９．２、９９．３、９９．４、９９．５、９９．６、９９．７、９９．８、９９．９％またはそれを超える）特定の信頼水準に基づく信頼区間によって定義されるときがある。いくつかの実施形態において、コールは、コールゾーンおよびさらなるデータまたは情報を用いて行われる。いくつかの実施形態において、コールは、コールゾーンを用いずに行われる。いくつかの実施形態において、コールは、コールゾーンを使用しない比較に基づいて行われる。いくつかの実施形態において、コールは、プロファイルの目視検査（例えば、リード密度の目視検査）に基づいて行われる。

【0271】

いくつかの実施形態において、検査値または検査プロファイルが、無コールゾーン（ｎｏ－ｃａｌｌｚｏｎｅ）内であるとき、テストサンプルに対する分類またはコールは、提供されない。いくつかの実施形態において、無コールゾーンは、精度が低いこと、リスクが高いこと、誤差が大きいこと、信頼水準が低いこと、不確定性の尺度が大きいことなどまたはそれらの組み合わせを示唆する値（例えば、値の集合）またはプロファイルによって定義される。いくつかの実施形態において、無コールゾーンは、少数核酸種の定量値（例えば、約１０％またはそれ未満の少数核酸種（例えば、約９、８、７、６、５、４、３、２％またはそれ未満の少数核酸種））によって部分的に定義される。遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を判定するために生成されたアウトカムおよび／または分類は、ヌル結果を含むときがある。ヌル結果は、２つのクラスターの間のデータポイント、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在と非存在の両方に対する値を包含する標準偏差を伴う数値、調査されている遺伝子変異を有するかまたは有しない被験体に対するプロファイルプロットに似ていないプロファイルプロットを有するデータセットであるときがある。いくつかの実施形態において、ヌル結果を示唆するアウトカムおよび／または分類は、確定的な結果とみなされ、その判定は、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を判定するためのさらなる情報ならびに／またはデータ生成および／もしくはデータ解析の繰り返しの必要性の結論を含み得る。

【0272】

分類プロセスにおいて生成される分類には、通常、４つのタイプがある：真陽性、偽陽性、真陰性および偽陰性。用語「真陽性」は、本明細書中で使用されるとき、テストサンプルに対して遺伝子型、表現型、遺伝子変異または医学的症状が存在すると正しく判定されたことを指す。用語「偽陽性」は、本明細書中で使用されるとき、テストサンプルに対して遺伝子型、表現型、遺伝子変異または医学的症状が存在すると誤って判定されたことを指す。用語「真陰性」は、本明細書中で使用されるとき、テストサンプルに対して遺伝子型、表現型、遺伝子変異または医学的症状が存在しないと正しく判定されたことを指す。用語「偽陰性」は、本明細書中で使用されるとき、テストサンプルに対して遺伝子型、表現型、遺伝子変異または医学的症状が存在しないと誤って判定されたことを指す。分類プロセスに対する性能の２つの尺度は、これらの発生の比に基づいて算出され得る：（ｉ）一般に、陽性であると正しく識別される、予測される陽性の比率である感度値；および（ｉｉ）一般に、陰性であると正しく識別される、予測される陰性の比率である特異性値。

【0273】

ある特定の実施形態において、分類プロセスに対して生成された臨床検査レポートは、検査の性能の尺度（例えば、感度および／または特異性）および／または信頼の尺度（例えば、信頼水準、信頼区間）を含む。検査の性能および／または信頼の尺度は、テストサンプルに対して臨床検査を行う前に行われる臨床上の検証研究から得られるときがある。ある特定の実施形態において、感度、特異性および／または信頼のうちの１つまたはそれを超えるものが、パーセンテージとして表現される。いくつかの実施形態において、感度、特異性または信頼水準の各々に対して独立して表現されるパーセンテージは、約９０％超（例えば、約９０、９１、９２、９３、９４、９５、９６、９７、９８もしくは９９％、または９９％超である（例えば、約９９．５％またはそれを超える、約９９．９％またはそれを超える、約９９．９５％またはそれを超える、約９９．９９％またはそれを超える））。特定の信頼水準（例えば、約９０％～約９９．９％（例えば、約９５％）の信頼水準）に対して表現される信頼区間は、値の範囲として表現され得、特定の信頼水準に対する感度および／または特異性の範囲として表現されるときがある。変動係数（ＣＶ）は、いくつかの実施形態において、パーセンテージとして表現され、そのパーセンテージは、約１０％またはそれ未満（例えば、約１０、９、８、７、６、５、４、３、２もしくは１％、または１％未満（例えば、約０．５％またはそれ未満、約０．１％またはそれ未満、約０．０５％またはそれ未満、約０．０１％またはそれ未満））であるときがある。確率（例えば、特定のアウトカムおよび／または分類が偶然に起因しない確率）は、ある特定の実施形態において、標準得点（例えば、ｚ得点）、ｐ値またはｔ検定の結果として表現される。いくつかの実施形態において、アウトカムおよび／または分類に対する計測された分散、信頼水準、信頼区間、感度、特異性など（例えば、信頼パラメータと総称される）は、本明細書中に記載される１つまたはそれを超えるデータ処理操作を用いて生成され得る。アウトカムおよび／または分類および関連する信頼水準を生成する具体例は、例えば、国際特許出願公開番号ＷＯ２０１３／０５２９１３、ＷＯ２０１４／１９０２８６およびＷＯ２０１５／０５１１６３（本文、表、式および図面のすべてを含むそれらの内容全体が参照により本明細書中に援用される）に記載されている。

【0274】

テストサンプルに対するアウトカムおよび／または分類は、テストサンプルが得られた被験体にアウトカムおよび／または分類を伝えるヘルスケアの専門家または他の有資格者（例えば、医師または助手）によって順序づけられることが多く、そのヘルスケアの専門家または他の有資格者に提供されることが多い。ある特定の実施形態において、アウトカムおよび／または分類は、好適な視覚媒体（例えば、機器の周辺装置または構成要素、例えば、プリンターまたはディスプレイ）を用いて提供される。分類および／またはアウトカムは、レポートの形態でヘルスケアの専門家または有資格者に提供されることが多い。レポートは、通常、アウトカムおよび／または分類の表示（例えば、値、または遺伝子型、表現型、遺伝子変異および／もしくは医学的症状の存在または非存在の評価または確率）を含み、関連する信頼パラメータを含むときがあり、アウトカムおよび／または分類を生成するために使用された検査に対する性能の尺度を含むときがある。レポートは、追跡手順（例えば、アウトカムまたは分類を確かめる手順）のための勧告を含むときがある。レポートは、染色体またはその部分の視覚表示（例えば、染色体のイデオグラムまたは核型）を含むときがあり、テストサンプルに対して特定された染色体に対する重複領域および／または欠失領域の描出（例えば、染色体欠失または染色体重複に対する染色体全体の描出；欠失領域または重複領域が示されている染色体全体の描出；重複または欠失した染色体の部分の描出；染色体の部分の欠失事象において残存している染色体の部分の描出）を示すときがある。

【0275】

レポートは、医療専門家または他の有資格者による、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在の判定を容易にする好適な形式で表示され得る。レポートを生成するための使用に適した形式の非限定的な例としては、デジタルデータ、グラフ、２Ｄグラフ、３Ｄグラフおよび４Ｄグラフ、写真（例えば、ｊｐｇ、ｂｉｔｍａｐ（例えば、ｂｍｐ）、ｐｄｆ、ｔｉｆｆ、ｇｉｆ、ｒａｗ、ｐｎｇなどまたは好適な形式）、ピクトグラフ、チャート、表、棒グラフ、円グラフ、ダイアグラム、フローチャート、散布図、マップ、ヒストグラム、密度チャート、関数グラフ、回路図、ブロック図、バブルマップ、信号空間ダイアグラム、等高線図、統計地図、スパイダーチャート、ベン図、ノモグラムなど、または前述のものの組み合わせが挙げられる。

【0276】

レポートは、コンピュータによって、および／または人間によるデータ入力によって生成され得、好適な電子媒体を用いて（例えば、インターネットによって、コンピュータを介して、ファクシミリを介して、同じまたは異なる物理的位置における１つのネットワーク場所から別の場所へ）、またはデータを送受信する他の方法（例えば、メールサービス、クーリエサービスなど）によって、伝えられ、伝達され得る。レポートを伝えるための通信媒体の非限定的な例としては、音声ファイル、コンピュータ可読ファイル（例えば、ｐｄｆファイル）、紙のファイル、検査ファイル、医療記録ファイル、または先のパラグラフに記載された他の任意の媒体が挙げられる。検査ファイルまたは医療記録ファイルは、ある特定の実施形態において、有形の形態または電子的形態（例えば、コンピュータ可読形態）であり得る。レポートが生成され、伝えられた後、レポートは、再検討の際にヘルスケアの専門家または他の有資格者がテストサンプルに対する遺伝子型、表現型、遺伝子変異および／またはまたは医学的症状の存在または非存在に関する判定を行うことを可能にする、アウトカムおよび／または分類を含む書面および／またはグラフによる提示を好適な通信媒体によって得ることによって受け取られ得る。

【0277】

アウトカムおよび／または分類は、検査室によって提供され得、その検査室から得られることがある（例えば、検査ファイルから得られることがある）。検査ファイルは、テストサンプルに対する遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を判定するための１つまたはそれを超える検査を行う検査室によって生成され得る。検査室の人員（例えば、検査室の管理者）は、アウトカムおよび／または分類の基礎をなすテストサンプルに関連する情報（例えば、検査プロファイル、参照プロファイル、検査値、参照値、偏差のレベル、患者情報）を解析し得る。近いまたは疑わしい遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在に関するコールの場合、検査室の人員は、試験被験体由来の同じテストサンプル（例えば、同じサンプルのアリコート）もしくは異なるテストサンプルを使用して同じ手順を再実施し得る。検査室は、検査ファイルから遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を評価する人員と同じ場所または異なる場所（例えば、別の国）に存在し得る。例えば、検査ファイルが、１つの場所において生成され、別の場所に伝えられ得、その別の場所において、そのファイルの中のテストサンプルに対する情報が、ヘルスケアの専門家または他の有資格者によって評価され、必要に応じて、テストサンプルが得られた被験体に伝えられる。検査室は、テストサンプルに対するゲノム不安定性、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在の分類を含む検査室レポートを生成し、かつ／または伝えるときがある。臨床検査レポートを生成する検査室は、認定された検査室であるときがあり、臨床検査改善修正法案（ＣｌｉｎｉｃａｌＬａｂｏｒａｔｏｒｙＩｍｐｒｏｖｅｍｅｎｔＡｍｅｎｄｍｅｎｔｓ）（ＣＬＩＡ）の下に認定された検査室であるときがある。

【0278】

アウトカムおよび／または分類は、被験体に対する診断の構成要素であるときがあり、アウトカムおよび／または分類は、テストサンプルに対して診断を提供する一部として利用および／または評価されるときがある。例えば、ヘルスケアの専門家または他の有資格者は、アウトカムおよび／または分類を解析し得、そのアウトカムおよび／または分類に基づいてまたは部分的に基づいて診断を提供し得る。いくつかの実施形態において、医学的症状、疾患、症候群または異常の判定、検出または診断は、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を判定するアウトカムおよび／または分類の使用を含む。いくつかの実施形態において、カウントされてマッピングされた配列リード、正規化されたカウントおよび／またはその変換に基づくアウトカムおよび／または分類は、遺伝子型および／または遺伝子変異の存在または非存在を判定する。ある特定の実施形態において、診断は、症状、症候群または異常の存在または非存在の判定を含む。ある特定の場合において、診断は、遺伝子型または遺伝子変異を医学的症状、疾患、症候群または異常の性質および／または原因として判定することを含む。したがって、本明細書中に記載される方法によって生成されたアウトカムまたは分類に従って、ならびに必要に応じてテストサンプルに対する遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在に対する分類を含む検査室レポートの生成および伝達に従って、テストサンプルに対する遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を診断するための方法が、本明細書中に提供される。

【0279】

アウトカムおよび／または分類は、被験体のヘルスケアおよび／または処置の構成要素であるときがある。アウトカムおよび／または分類は、テストサンプルが得られた被験体に対して処置を提供する一部として利用および／または評価されるときがある。例えば、遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在を示唆するアウトカムおよび／または分類は、テストサンプルが得られた被験体のヘルスケアおよび／または処置の構成要素である。医療的ケア、処置およびまたは診断は、例えば、出生前のケア、細胞増殖性の症状、癌などに対する被験体の医学的処置などの任意の好適な健康状態の領域におけるものであり得る。本明細書中に記載される方法によって、遺伝子型、表現型、遺伝子変異および／もしくは医学的症状、疾患、症候群または異常の存在または非存在を判定するアウトカムおよび／または分類は、さらに検査することによって独立して検証されるときがある。アウトカムおよび／または分類を検証するための任意の好適なタイプのさらなる検査を利用することができ、その非限定的な例としては、例えば、血中濃度検査（例えば、血清検査）、生検、スキャン（例えば、ＣＴスキャン、ＭＲＩスキャン）、侵襲的採取（例えば、羊水穿刺または絨毛採取）、核型分析、マイクロアレイアッセイ、超音波、ソノグラムなどが挙げられる。

【0280】

ヘルスケアの専門家または有資格者は、検査室レポートに提供されたアウトカムおよび／または分類に基づいて好適なヘルスケアの勧告を提供し得る。いくつかの実施形態において、勧告は、提供されるアウトカムおよび／または分類（例えば、癌、癌のステージおよび／またはタイプ、ダウン症候群、ターナー症候群、Ｔ１３における遺伝子変異に関連する医学的症状、Ｔ１８における遺伝子変異に関連する医学的症状）に依存する。検査室レポートにおけるアウトカムまたは分類に基づいて提供され得る勧告の非限定的な例としては、手術、放射線治療、化学療法、遺伝相談、産後の処置の解決策（例えば、生活設計、長期間にわたる補助介護、医薬、対症療法）、妊娠中絶、臓器移植、輸血、先のパラグラフに記載されたさらなる検査など、または前述のものの組み合わせが挙げられるがこれらに限定されない。したがって、被験体を処置するための方法および被験体にヘルスケアを提供するための方法は、本明細書中に記載される方法によってテストサンプルに対する遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在に対する分類を生成する工程、ならびに必要に応じて、テストサンプルに対する遺伝子型、表現型、遺伝子変異および／または医学的症状の存在または非存在の分類を含む検査室レポートを生成し、伝える工程を含むときがある。

【0281】

アウトカムおよび／または分類の生成は、テストサンプルの核酸配列リードから、被験体の細胞性核酸の提示への変換とみなされ得る。例えば、本明細書中に記載される方法による被験体由来の核酸の配列リードの変化、ならびにアウトカムおよび／または分類の生成は、被験体における比較的小さい配列リードフラグメントから比較的大きく複雑な核酸構造の提示への変換とみなされ得る。いくつかの実施形態において、アウトカムおよび／または分類は、被験体由来の配列リードから、その被験体に存在する既存の核酸構造（例えば、被験体におけるゲノム、染色体、染色体セグメント、循環無細胞核酸フラグメントの混合物）の提示への変換から生じる。

【0282】

いくつかの実施形態において、本明細書中の方法は、被験体由来のテストサンプルに対して遺伝子変化または遺伝子変異が存在すると判定されたとき、被験体を処置する工程を含む。いくつかの実施形態において、被験体を処置する工程は、テストサンプルに対して遺伝子変化または遺伝子変異が存在すると判定されたとき、医学的手技を行う工程を含む。いくつかの実施形態において、医学的手技には、侵襲的な診断手順、例えば、羊水穿刺、絨毛採取、生検などが含まれる。例えば、羊水穿刺または絨毛採取を含む医学的手技は、妊婦由来のテストサンプルに対して胎児の異数性が存在すると判定されたとき行われ得る。別の例では、生検を含む医学的手技は、被験体由来のテストサンプルに対して、癌の存在を示唆するかまたは癌の存在に関連する遺伝子変化が存在すると判定されたとき、行われ得る。侵襲的な診断手順は、遺伝子変化もしくは遺伝子変異の存在の判定を確かめるために行われ得、かつ／または例えば、遺伝子変化もしくは遺伝子変異に関連する医学的症状をさらに特徴づけるために行われ得る。いくつかの実施形態において、医学的手技は、遺伝子変化または遺伝子変異に関連する医学的症状の処置として行われ得る。処置には、例えば、手術、放射線治療、化学療法、妊娠中絶、臓器移植、細胞移植、輸血、医薬、対症療法などのうちの１つまたはそれを超えるものが含まれ得る。

【0283】

いくつかの実施形態において、本明細書中の方法は、被験体由来のテストサンプルに対して遺伝子変化または遺伝子変異が存在しないと判定されたとき、被験体を処置する工程を含む。いくつかの実施形態において、被験体を処置する工程は、テストサンプルに対して遺伝子変化または遺伝子変異が存在しないと判定されたとき、医学的手技を行う工程を含む。例えば、テストサンプルに対して遺伝子変化または遺伝子変異が存在しないと判定されたとき、医学的手技には、健康状態のモニタリング、再検査、さらなるスクリーニング、追跡検査などが含まれ得る。いくつかの実施形態において、本明細書中の方法は、妊婦由来のテストサンプルに対して胎児の異数性、遺伝子変異または遺伝子変化が存在しないと判定されたとき、正倍数性の妊娠または正常妊娠と一致した被験体を処置する工程を含む。例えば、妊婦由来のテストサンプルに対して胎児の異数性、遺伝子変異または遺伝子変化が存在しないと判定されたとき、正倍数性の妊娠または正常妊娠と一致した医学的手技が、行われ得る。正倍数性の妊娠または正常妊娠と一致した医学的手技には、胎児および／もしくは母体の健康状態のモニタリングの一部または胎児母体の健康のモニタリングとして行われる１つまたはそれを超える手技が含まれ得る。正倍数性の妊娠または正常妊娠と一致した医学的手技には、妊娠の症候を処置するための１つまたはそれを超える手技が含まれ得、その症候としては、例えば、悪心、疲労、乳房圧痛、頻尿、背痛、腹痛、下肢痙攣、便秘、胸焼け、息切れ、痔、尿失禁、拡張蛇行静脈および不眠症のうちの１つまたはそれを超えるものが挙げられ得る。正倍数性の妊娠または正常妊娠と一致した医学的手技には、例えば、潜在的リスクを評価するため、合併症を処置するため、既存の医学的症状（例えば、高血圧症、糖尿病）に対処するため、ならびに胎児の成長および発達をモニタリングするための出生前ケアの経過全体にわたって行われる１つまたはそれを超える手技が含まれ得る。正倍数性の妊娠または正常妊娠に一致した医学的手技としては、例えば、全血球計算値（ＣＢＣ）モニタリング、Ｒｈ抗体検査、尿検査、尿培養モニタリング、風疹スクリーニング、Ｂ型肝炎およびＣ型肝炎スクリーニング、性行為感染症（ＳＴＩ）スクリーニング（例えば、梅毒、クラミジア、淋病のスクリーニング）、ヒト免疫不全ウイルス（ＨＩＶ）スクリーニング、結核（ＴＢ）スクリーニング、アルファ－フェトプロテインスクリーニング、胎児心拍数モニタリング（例えば、超音波振動子を使用）、子宮活動モニタリング（例えば、トコトランスデューサを使用）、遺伝障害（例えば、嚢胞性線維症、鎌状赤血球貧血、血友病Ａ）に対する遺伝子スクリーニング検査および／または遺伝子診断検査、グルコーススクリーニング、耐糖能検査、妊娠糖尿病の処置、出生前の高血圧症の処置、子癇前症の処置、Ｂ群連鎖球菌（ＧＢＳ）血液型スクリーニング、Ｂ群連鎖球菌培養、Ｂ群連鎖球菌の（例えば、抗生物質による）処置、超音波モニタリング（例えば、日常的な超音波モニタリング、レベルＩＩ超音波モニタリング、標的化超音波モニタリング）、ノンストレス検査モニタリング、生物物理学的プロファイルモニタリング、羊水指数モニタリング、血清検査（例えば、血漿タンパク質－Ａ（ＰＡＰＰ－Ａ）、アルファ－フェトプロテイン（ＡＦＰ）、ヒト絨毛性ゴナドトロピン（ｈＣＧ）、非抱合型エストリオール（ｕＥ３）およびインヒビン－Ａ（ｉｎｈＡ）の検査）、遺伝子検査、羊水穿刺診断検査および絨毛採取（ＣＶＳ）診断検査が挙げられ得る。

【0284】

いくつかの実施形態において、本明細書中の方法は、被験体由来のテストサンプルに対して遺伝子変異または遺伝子変化が存在しないと判定されたとき、癌を有しない状態と一致する被験体を処置する工程を含む。ある特定の実施形態において、癌に関連する遺伝子変化または遺伝子変異が存在しないとテストサンプルに対して判定されるとき、健康な予後に一致する医学的手技が、行われ得る。例えば、健康な予後に一致する医学的手技としては、テストサンプルが検査された被験体の健康状態のモニタリング、二次検査（例えば、二次スクリーニング検査）の実施、確認検査の実施、癌に関連する１つまたはそれを超えるバイオマーカー（例えば、男性における前立腺特異的抗原（ＰＳＡ））のモニタリング、血液細胞（例えば、赤血球、白血球、血小板）のモニタリング、１つまたはそれを超える生命徴候（例えば、心拍数、血圧）のモニタリング、および／または１つもしくはそれを超える血液代謝産物（例えば、総コレステロール、ＨＤＬ（高密度リポタンパク質）、ＬＤＬ（低密度リポタンパク質）、トリグリセリド、総コレステロール／ＨＤＬ比、グルコース、フィブリノゲン、ヘモグロビン、デヒドロエピアンドロステロン（ＤＨＥＡ）、ホモシステイン、Ｃ反応性タンパク質、ホルモン（例えば、甲状腺刺激ホルモン、テストステロン、エストロゲン、エストラジオール）、クレアチン、塩（例えば、カリウム、カルシウム）など）のモニタリングが挙げられるが、これらに限定されない。いくつかの実施形態において、本明細書中の方法は、テストサンプルに対して遺伝子変化または遺伝子変異が存在しないと判定されたとき、医学的手技を行わない工程を含み、侵襲的採取を含む医学的手技を行わない工程を含むときがある。

【0285】

機器、ソフトウェアおよびインターフェース
本明細書中に記載されるある特定のプロセスおよび方法（例えば、配列リード、カウント、レベルおよび／またはプロファイルのマッピング、カウント、正規化、範囲設定、調整、カテゴリー化および／または測定）は、コンピュータ、マイクロプロセッサ、ソフトウェア、モジュールまたは他の機器なしでは行うことができないことが多い。本明細書中に記載される方法は、通常、コンピュータによって履行される方法であり、ある方法の１つまたはそれを超える部分が、１つまたはそれを超えるプロセッサ（例えば、マイクロプロセッサ）、コンピュータ、システム、装置または機器（例えば、マイクロプロセッサによって制御される機器）によって行われるときがある。

【0286】

使用に適したコンピュータ、システム、装置、機器およびコンピュータプログラム製品は、コンピュータ可読記憶媒体を備えることが多いかまたはコンピュータ可読記憶媒体とともに使用されることが多い。コンピュータ可読記憶媒体の非限定的な例としては、メモリ、ハードディスク、ＣＤ－ＲＯＭ、フラッシュメモリデバイスなどが挙げられる。コンピュータ可読記憶媒体は、一般に、コンピュータハードウェアであり、非一時的なコンピュータ可読記憶媒体であることが多い。コンピュータ可読記憶媒体は、コンピュータ可読伝送媒体ではなく、後者は、本質的に伝送信号である。

【0287】

実行可能なプログラムが格納されたコンピュータ可読記憶媒体が本明細書中に提供され、そのプログラムは、本明細書中に記載される方法を行うようにマイクロプロセッサに指示する。実行可能なプログラムモジュールが格納されたコンピュータ可読記憶媒体も提供され、そのプログラムモジュールは、本明細書中に記載される方法の一部を行うようにマイクロプロセッサに指示する。実行可能なプログラムが格納されたコンピュータ可読記憶媒体を備えるシステム、機器、装置およびコンピュータプログラム製品も本明細書中に提供され、そのプログラムは、本明細書中に記載される方法を行うようにマイクロプロセッサに指示する。実行可能なプログラムモジュールが格納されたコンピュータ可読記憶媒体を備えるシステム、機器および装置も提供され、そのプログラムモジュールは、本明細書中に記載される方法の一部を行うようにマイクロプロセッサに指示する。

【0288】

コンピュータプログラム製品も提供される。コンピュータプログラム製品は、コンピュータ可読プログラムコードが組み込まれた、コンピュータが使用可能な媒体を備えることが多く、そのコンピュータ可読プログラムコードは、本明細書中に記載される方法または方法の一部を履行するために実行されるように適合されている。コンピュータが使用可能な媒体およびコンピュータ可読プログラムコードは、伝送媒体（すなわち、本質的に伝送信号）ではない。コンピュータ可読プログラムコードは、プロセッサ、コンピュータ、システム、装置または機器によって実行されるように適合されていることが多い。

【0289】

いくつかの実施形態において、本明細書中に記載される方法（例えば、配列リード、カウント、レベル、プロファイルおよび／またはアウトカムを定量する、カウントする、フィルタリングする、正規化する、変換する、クラスター化する、および／または決定する方法）は、自動化された方法によって行われる。いくつかの実施形態において、本明細書中に記載される方法の１つまたはそれを超える工程は、マイクロプロセッサおよび／もしくはコンピュータによって行われ、かつ／またはメモリとともに行われる。いくつかの実施形態において、自動化された方法は、本明細書中に記載される方法を行うソフトウェア、モジュール、マイクロプロセッサ、周辺装置および／または同様のものを備える機器に組み込まれている。本明細書中で使用されるとき、ソフトウェアとは、マイクロプロセッサによって実行されたとき、本明細書中に記載されるようなコンピュータ操作を行うコンピュータ可読プログラムの指示のことを指す。

【0290】

配列リード、カウント、レベルおよび／またはプロファイルは、「データ」または「データセット」と称されるときがある。いくつかの実施形態において、データまたはデータセットは、１つまたはそれを超える特徴または変数（例えば、配列に基づくもの（例えば、ＧＣ含有量、特定のヌクレオチド配列など）、機能特異的なもの（例えば、発現された遺伝子、癌遺伝子など）、場所に基づくもの（ゲノム特異的、染色体特異的、部分または部分特異的）などおよびそれらの組み合わせ）によって特徴づけられ得る。ある特定の実施形態において、データまたはデータセットは、１つまたはそれを超える特徴または変数に基づいて、２次元またはそれを超える次元を有する行列に配置され得る。行列に配置されるデータは、任意の好適な特徴または変数を用いて配置され得る。ある特定の実施形態において、１つまたはそれを超える特徴または変数によって特徴づけられるデータセットは、カウントした後に処理されるときがある。

【0291】

本明細書中に記載される方法を行うために、機器、ソフトウェアおよびインターフェースが使用され得る。機器、ソフトウェアおよびインターフェースを使用するとき、ユーザーは、例えば、統計解析アルゴリズム、統計的有意性アルゴリズム、統計的アルゴリズム、繰り返し工程、検証アルゴリズムおよびグラフ表示の履行を含み得る、特定の情報、プログラムまたはプロセスを使用するためのオプションを入力し得るか、要求し得るか、照会し得るか、または決定し得る（例えば、配列リードのマッピング、マッピングされたデータの処理および／またはアウトカムの提供）。いくつかの実施形態において、データセットは、入力情報としてユーザーによって入力され得、ユーザーは、好適なハードウェア媒体（例えば、フラッシュドライブ）によって１つまたはそれを超えるデータセットをダウンロードし得、および／またはユーザーは、その後の処理および／またはアウトカムの提供のために１つのシステムから別のシステムにデータセットを送信し得る（例えば、配列リードのマッピングのために、シークエンサーからコンピュータシステムに配列リードデータを送信し得る；アウトカムおよび／またはレポートの処理および生成のために、マッピングされた配列データをコンピュータシステムに送信し得る）。

【0292】

システムは、通常、１つまたはそれを超える機器を備える。各機器は、メモリ、１つまたはそれを超えるマイクロプロセッサおよび指示のうちの１つまたはそれを超えるものを備える。あるシステムが、２つまたはそれを超える機器を備える場合、それらの機器のいくつかまたはすべてが、同じ場所に存在してもよいし、それらの機器のいくつかまたはすべてが、異なる場所に存在してもよいし、それらの機器のすべてが、１つの場所に存在してもよいし、かつ／またはそれらの機器のすべてが、異なる場所に存在してもよい。あるシステムが、２つまたはそれを超える機器を備える場合、それらの機器のいくつかまたはすべてが、ユーザーと同じ場所に存在してもよいし、それらの機器のいくつかまたはすべてが、ユーザーと異なる場所に存在してもよいし、それらの機器のすべてが、ユーザーと同じ場所に存在してもよいし、かつ／またはそれらの機器のすべてが、ユーザーと異なる１つもしくはそれを超える場所に存在してもよい。

【0293】

システムは、計算機および配列決定装置または配列決定機器を備えるときがあり、その配列決定装置または配列決定機器は、物理的な核酸を受け取って配列リードを生成するように構成されており、計算装置は、配列決定装置または配列決定機器からのリードを処理するように構成されている。その計算機は、配列リードから分類のアウトカムを判定するように構成されているときがある。

【0294】

ユーザーは、例えば、ソフトウェアにクエリーを入れ得、次いで、そのソフトウェアは、インターネットアクセスを介してデータセットを取得し得、ある特定の実施形態では、プログラマブルマイクロプロセッサが、所与のパラメータに基づいて好適なデータセットを取得するように促され得る。プログラマブルマイクロプロセッサはまた、所与のパラメータに基づいてそのマイクロプロセッサによって選択された１つまたはそれを超えるデータセットオプションを選択するようにユーザーに促し得る。プログラマブルマイクロプロセッサは、インターネットを介して見つけ出された情報、他の内部情報または外部情報などに基づいてそのマイクロプロセッサによって選択された１つまたはそれを超えるデータセットオプションを選択するようにユーザーに促し得る。オプションは、方法、機器、装置、コンピュータプログラム、または実行可能なプログラムが格納されている非一時的なコンピュータ可読記憶媒体の、１つまたはそれを超えるデータ特徴の選択、１つまたはそれを超える統計的アルゴリズム、１つまたはそれを超える統計解析アルゴリズム、１つまたはそれを超える統計的有意性アルゴリズム、繰り返し工程、１つまたはそれを超える検証アルゴリズム、および１つまたはそれを超えるグラフ表示を選択するために選択され得る。

【0295】

本明細書中で述べられるシステムは、コンピュータシステムの一般的な構成要素（例えば、ネットワークサーバー、ラップトップ型システム、デスクトップ型システム、手持ち式システム、携帯情報端末、コンピューティングキオスクなど）を備え得る。コンピュータシステムは、１つまたはそれを超える入力手段、例えば、キーボード、タッチスクリーン、マウス、音声認識手段、またはユーザーがシステムにデータを入力することを可能にする他の手段を備え得る。システムは、表示画面（例えば、ＣＲＴまたはＬＣＤ）、スピーカー、ＦＡＸ機器、プリンター（例えば、レーザー、インクジェット、インパクト、モノクロまたはカラープリンター）、または情報（例えば、アウトカムおよび／またはレポート）の視覚的、聴覚的および／もしくはハードコピー出力を提供するのに有用な他の出力を含むがこれらに限定されない１つまたはそれを超える出力をさらに備え得る。

【0296】

あるシステムにおいて、他の構成要素の中でもプログラムの指示を実行するためのマイクロプロセッサならびにプログラムコードおよびデータを格納するためのメモリを備え得る中央処理装置に入力および出力の構成要素が接続されていることがある。いくつかの実施形態において、プロセスは、単一の地理的位置に配置されたシングルユーザーシステムとして履行され得る。ある特定の実施形態において、プロセスは、マルチユーザーシステムとして履行され得る。マルチユーザーによる履行の場合、複数の中央処理装置が、ネットワークによって接続され得る。そのネットワークは、ある建物の一部分における単一の部門、建物全体を包含するローカルであり得るか、複数の建物にまたがり得るか、ある領域にまたがり得るか、一国全体にまたがり得るか、または世界中に及び得る。そのネットワークは、プロバイダーに所有され、制御されていてプライベートであり得るか、またはユーザーがウェブページにアクセスして情報を入力して検索する、インターネットに基づくサービスとして履行され得る。したがって、ある特定の実施形態において、システムは、ユーザーに関してローカルまたはリモートであり得る１つまたはそれを超える機器を備える。１つの場所または複数の場所における１つより多い機器は、１人のユーザーによってアクセスされ得、データは、連続しておよび／または並行して、マッピングおよび／または処理され得る。したがって、好適な配置および制御は、複数の機器（例えば、ローカルネットワーク、リモートネットワークおよび／または「クラウド」コンピューティングプラットフォームにおけるもの）を用いてデータをマッピングするためおよび／または処理するために使用され得る。

【0297】

いくつかの実施形態において、システムは、通信用インターフェースを備え得る。通信用インターフェースは、コンピュータシステムと１つまたはそれを超える外部デバイスとの間のソフトウェアおよびデータの移動を可能にする。通信用インターフェースの非限定的な例としては、モデム、ネットワークインターフェース（例えば、イーサネット（登録商標）カード）、通信ポート、ＰＣＭＣＩＡスロットおよびカードなどが挙げられる。通信用インターフェースを介して移動されるソフトウェアおよびデータは、通常、信号の形態であり、その信号は、通信用インターフェースによって受け取られることが可能な電子信号、電磁信号、光学信号および／または他の信号であり得る。信号は、回線を介して通信用インターフェースに提供されることが多い。回線は、信号を運ぶことが多く、ワイヤもしくはケーブル、光ファイバー、電話回線、携帯電話回線、ＲＦ回線および／または他の通信用回線を用いて構築され得る。したがって、一例において、通信用インターフェースは、信号検出モジュールによって検出され得る信号情報を受け取るために使用され得る。

【0298】

データは、好適なデバイスおよび／または方法によって入力され得、それらとしては、手動入力デバイスまたは直接データ入力デバイス（ＤＤＥ）が挙げられるが、これらに限定されない。手動デバイスの非限定的な例としては、キーボード、コンセプトキーボード、タッチセンシティブスクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナー、デジタルカメラ、ビデオデジタイザおよび音声認識デバイスが挙げられる。ＤＤＥの非限定的な例としては、バーコードリーダ、磁気ストリップコード、スマートカード、磁気インキ文字認識、光学式文字認識、光学的マーク認識およびターンアラウンドドキュメントが挙げられる。

【0299】

いくつかの実施形態において、配列決定装置または配列決定機器からの出力は、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、マッピングされた配列リードが、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸のフラグメントサイズ（例えば、長さ）が、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸捕捉プロセスからの出力（例えば、ゲノム領域起源データ）が、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸のフラグメントサイズ（例えば、長さ）と、核酸捕捉プロセスからの出力（例えば、ゲノム領域起源データ）との組み合わせが、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、インシリコプロセスによってシミュレーションデータが生成され、そのシミュレーションデータは、入力デバイスを介して入力され得るデータとして役立つ。用語「インシリコ」とは、コンピュータを用いて行われる研究および実験のことを指す。インシリコプロセスとしては、本明細書中に記載されるプロセスに従って、配列リードをマッピングし、マッピングされた配列リードを処理することが挙げられるが、これらに限定されない。

【0300】

システムは、本明細書中に記載されるプロセスまたはプロセスの一部を行うために有用なソフトウェアを備え得、ソフトウェアは、そのようなプロセスを行うための１つまたはそれを超えるモジュール（例えば、配列決定モジュール、論理処理モジュール、データ表示構築モジュール）を備え得る。用語「ソフトウェア」とは、コンピュータによって実行されたとき、コンピュータ操作を行うコンピュータ可読プログラムの指示のことを指す。１つまたはそれを超えるマイクロプロセッサによって実行可能な指示は、実行されたとき、１つまたはそれを超えるマイクロプロセッサに本明細書中に記載される方法を履行させ得る実行可能なコードとして提供されるときがある。本明細書中に記載されるモジュールは、ソフトウェアとして存在し得、そのソフトウェアに組み入れられた指示（例えば、プロセス、ルーチン、サブルーチン）は、マイクロプロセッサによって履行され得るかまたは行われ得る。例えば、あるモジュール（例えば、ソフトウェアモジュール）は、特定のプロセスまたはタスクを行うプログラムの一部であり得る。用語「モジュール」とは、より大きい機器またはソフトウェアシステムにおいて使用され得る自己完結型の機能単位のことを指す。モジュールは、そのモジュールの機能を行うための指示のセットを備え得る。モジュールは、データおよび／または情報を変換し得る。データおよび／または情報は、好適な形態で存在し得る。例えば、データおよび／または情報は、デジタルまたはアナログであり得る。ある特定の実施形態において、データおよび／または情報は、パケット、バイト、文字またはビットであり得るときがある。いくつかの実施形態において、データおよび／または情報は、集められた、アセンブルされた、または使用可能な、任意のデータまたは情報であり得る。データおよび／または情報の非限定的な例としては、好適な媒体、写真、ビデオ、音（例えば、周波数、可聴または非可聴）、数字、定数、値、オブジェクト、時間、関数、指示、マップ、参照、配列、リード、マッピングされたリード、レベル、範囲、しきい値、シグナル、表示、提示またはそれらの変換が挙げられる。モジュールは、データおよび／または情報を受け入れ得るかまたは受け取り得、データおよび／または情報を第２の形態に変換し得、その第２の形態を機器、周辺装置、構成要素または別のモジュールに提供し得るかまたは移し得る。モジュールは、以下の非限定的な機能のうちの１つまたはそれを超える機能を行い得る：例えば、配列リードをマッピングすること、カウントを提供すること、部分をアセンブルすること、レベルを提供するかもしくは決定すること、カウントプロファイルを提供すること、正規化すること（例えば、リードを正規化すること、カウントを正規化することなど）、正規化されたカウントプロファイルもしくは正規化されたカウントのレベルを提供すること、２つもしくはそれを超えるレベルを比較すること、不確定値を提供すること、予想されるレベルおよび予想される範囲（例えば、予想されるレベル範囲、しきい値範囲およびしきい値レベル）を提供するかもしくは決定すること、レベルを調整すること（例えば、第１のレベルを調整すること、第２のレベルを調整すること、染色体もしくはその一部のプロファイルを調整すること、および／またはパディングすること）、識別を提供すること（例えば、コピー数変化、遺伝子変異／遺伝子変化または異数性を識別すること）、カテゴリー化すること、プロットすること、および／またはアウトカムを決定すること。マイクロプロセッサは、ある特定の実施形態において、モジュールにおいて指示を行い得る。いくつかの実施形態において、１つまたはそれを超えるマイクロプロセッサは、モジュールまたはモジュールの群において指示を行うために必要とされる。モジュールは、データおよび／または情報を別のモジュール、機器または供給源に提供し得、データおよび／または情報を別のモジュール、機器または供給源から受け取り得る。

【0301】

コンピュータプログラム製品は、有形のコンピュータ可読媒体に組み入れられているときがあり、非一時的なコンピュータ可読媒体に有形的に組み入れられているときがある。モジュールは、コンピュータ可読媒体（例えば、ディスク、ドライブ）またはメモリ（例えば、ランダムアクセスメモリ）に格納されているときがある。モジュールからの指示を履行することができるモジュールおよびマイクロプロセッサは、１つの機器または異なる機器に存在し得る。モジュールに対する指示を履行することができるモジュールおよび／またはマイクロプロセッサは、ユーザーと同じ場所（例えば、ローカルネットワーク）またはユーザーと異なる場所（例えば、リモートネットワーク、クラウドシステム）に存在し得る。２つまたはそれを超えるモジュールとともに方法が行われる実施形態において、それらのモジュールは、同じ機器に存在し得、１つまたはそれを超えるモジュールは、同じ物理的場所における異なる機器に存在し得、１つまたはそれを超えるモジュールは、異なる物理的場所における異なる機器に存在し得る。

【0302】

機器は、いくつかの実施形態において、モジュールにおいて指示を行うための少なくとも１つのマイクロプロセッサを備える。配列リードの定量値（例えば、カウント）は、本明細書中に記載される方法を行うように構成された指示を実行するマイクロプロセッサによってアクセスされるときがある。マイクロプロセッサによってアクセスされる配列リードの定量値は、システムのメモリ内に存在し得、それらのカウントは、アクセスされ得、それらのカウントを得た後に、そのシステムのメモリに入れられ得る。いくつかの実施形態において、機器は、マイクロプロセッサ（例えば、１つまたはそれを超えるマイクロプロセッサ）を備え、そのマイクロプロセッサは、モジュールからの１つまたはそれを超える指示（例えば、プロセス、ルーチンおよび／またはサブルーチン）を行うおよび／または履行することができる。いくつかの実施形態において、機器は、複数のマイクロプロセッサ、例えば、協調されていて並行して動くマイクロプロセッサを備える。いくつかの実施形態において、機器は、１つまたはそれを超える外部マイクロプロセッサ（例えば、内部または外部ネットワーク、サーバー、記憶装置および／または記憶ネットワーク（例えば、クラウド））とともに作動する。いくつかの実施形態において、機器は、モジュール（例えば、１つまたはそれを超えるモジュール）を備える。モジュールを備えている機器は、１つまたはそれを超えるデータおよび／または情報を、他のモジュールに移動させることができ、および他のモジュールから受け取ることができることが多い。

【0303】

ある特定の実施形態において、機器は、周辺装置および／または構成要素を備える。ある特定の実施形態において、機器は、データおよび／または情報を他のモジュール、周辺装置および／または構成要素に移動させ得、ならびにデータおよび／または情報を他のモジュール、周辺装置および／または構成要素から移動させ得る、１つまたはそれを超える周辺装置または構成要素を備え得る。ある特定の実施形態において、機器は、データおよび／または情報を提供する周辺装置および／または構成要素とインタラクトする。ある特定の実施形態において、周辺装置および構成要素は、ある機能を行う際に機器を補助するか、またはモジュールと直接インタラクトする。周辺装置および／または構成要素の非限定的な例としては、好適なコンピュータ周辺装置、Ｉ／Ｏまたは記憶方法または記憶装置が挙げられ、それらとしては、スキャナー、プリンター、ディスプレイ（例えば、モニター、ＬＥＤ、ＬＣＴまたはＣＲＴ）、カメラ、マイクロホン、パッド（例えば、ｉｐａｄ、タブレット）、タッチスクリーン、スマートフォン、移動電話、ＵＳＢＩ／Ｏデバイス、ＵＳＢ大容量記憶装置、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサ、サーバー、ＣＤ、ＤＶＤ、グラフィックカード、特殊化されたＩ／Ｏデバイス（例えば、シークエンサー、フォトセル、光電子増倍管、光学式読取装置、センサーなど）、１つまたはそれを超えるフローセル、流体を取り扱う構成要素、ネットワークインターフェースコントローラ、ＲＯＭ、ＲＡＭ、無線伝送方法および無線伝送デバイス（Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉＦｉなど）、ワールドワイドウェブ（ｗｗｗ）、インターネット、コンピュータおよび／または別のモジュールが挙げられるが、これらに限定されない。

【0304】

ソフトウェアは、コンピュータ可読媒体に記録されたプログラム指示を備えるプログラム製品上に提供されていることが多く、そのコンピュータ可読媒体としては、フロッピー（登録商標）ディスク、ハードディスクおよび磁気テープを含む磁気媒体；ならびにＣＤ－ＲＯＭディスク、ＤＶＤディスク、光磁気ディスク、フラッシュメモリデバイス（例えば、フラッシュドライブ）、ＲＡＭ、フロッピー（登録商標）ディスクなどを含む光学媒体およびプログラム指示が記録され得る他のそのような媒体が挙げられるが、これらに限定されない。オンラインでの履行において、ある組織が維持しているサーバーおよびウェブサイトは、遠隔ユーザーにソフトウェアのダウンロードを提供するように構成され得るか、または遠隔ユーザーが、組織によって維持されている遠隔システムにアクセスして、ソフトウェアにリモートでアクセスし得る。ソフトウェアは、入力情報を入手し得るかまたは受け取り得る。ソフトウェアは、特にデータを入手するかまたは受け取るモジュール（例えば、配列リードデータおよび／またはマッピングされたリードデータを受け取るデータ受信モジュール）を備え得、そのデータを特に処理するモジュール（例えば、受け取ったデータを処理する（例えば、アウトカムおよび／またはレポートをフィルタリングする、正規化する、提供する）処理モジュールを備え得る。入力情報を「入手する」および「受け取る」という用語は、ローカルサイトまたはリモートサイトからのコンピュータコミュニケーション手段、人間によるデータ入力またはデータを受信する他の任意の方法によって、データ（例えば、配列リード、マッピングされたリード）を受け取ることを指す。入力情報は、それを受け取った場所と同じ場所において生成されてもよいし、異なる場所において生成され、受信場所に送信されてもよい。いくつかの実施形態において、入力情報は、処理される（例えば、処理に適した形式にされる（例えば、表にされる））前に修正される。

【0305】

ソフトウェアは、ある特定の実施形態において、１つまたはそれを超えるアルゴリズムを備え得る。アルゴリズムは、有限列の指示に従ってデータを処理するためおよび／またはアウトカムもしくはレポートを提供するために使用され得る。アルゴリズムは、タスクを完了するための明確な指示のリストであることが多い。初期状態から始まって、それらの指示は、規定の一連の連続状態を介して進み、最終的には最後の終結状態で終了する、計算を記載し得る。１つの状態から次への移行は、必ずしも決定論的でない（例えば、いくつかのアルゴリズムはランダム性を組み込んでいる）。例としてであって限定ではないが、アルゴリズムは、探索アルゴリズム、ソートアルゴリズム、マージアルゴリズム、数値アルゴリズム、グラフアルゴリズム、文字列アルゴリズム、モデリングアルゴリズム、計算幾何（ｃｏｍｐｕｔａｔｉｏｎａｌｇｅｎｏｍｅｔｒｉｃ）アルゴリズム、組み合わせアルゴリズム、機械学習アルゴリズム、暗号法アルゴリズム、データ圧縮アルゴリズム、構文解析アルゴリズムなどであり得る。アルゴリズムには、１つのアルゴリズムまたは共同して動く２つもしくはそれを超えるアルゴリズムが含まれ得る。アルゴリズムは、任意の好適な複雑さのクラスおよび／またはパラメータ化された複雑さであり得る。アルゴリズムは、算出および／またはデータ処理のために使用され得、いくつかの実施形態では、決定論的アプローチまたは確率的／予測アプローチにおいて使用され得る。アルゴリズムは、コンピュータ環境において、好適なプログラミング言語を使用することによって履行され得、そのプログラミング言語の非限定的な例は、Ｃ、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｐｅｒｌ、Ｐｙｔｈｏｎ、Ｆｏｒｔｒａｎなどである。いくつかの実施形態において、アルゴリズムは、誤差の範囲、統計解析、統計的有意性および／または他の情報もしくはデータセットとの比較を含むように構成され得るかまたは修正され得る（例えば、ニューラルネットまたはクラスタリングアルゴリズムを用いるときに適用可能である）。

【0306】

ある特定の実施形態において、いくつかのアルゴリズムは、ソフトウェアにおいて使用するために履行され得る。これらのアルゴリズムは、いくつかの実施形態において、生データを用いて訓練され得る。新しい各生データサンプルに対して、訓練されたアルゴリズムが、代表的な処理されたデータセットまたはアウトカムをもたらし得る。処理されたデータセットは、処理された親データセットと比較して複雑さが低下しているときがある。いくつかの実施形態において、処理されたセットに基づいて、訓練されたアルゴリズムの性能は、感度および特異性に基づいて評価され得る。ある特定の実施形態では、最も高い感度および／または特異性を有するアルゴリズムが特定され、使用され得る。

【0307】

ある特定の実施形態において、シミュレートされた（またはシミュレーション）データは、例えば、アルゴリズムを訓練するかまたはアルゴリズムをテストすることによって、データ処理を助け得る。いくつかの実施形態において、シミュレーションデータは、配列リードの異なるグルーピングの様々な仮説的サンプリングを含む。シミュレーションデータは、現実の集団から予想され得るものに基づき得るか、またはアルゴリズムをテストするためおよび／もしくは正しい分類を割り当てるために歪められ得る。シミュレーションデータは、本明細書中で「バーチャル」データとも称される。ある特定の実施形態において、シミュレーションは、コンピュータプログラムによって行われ得る。シミュレーションデータセットを使用する際の１つの実行可能な工程は、識別された結果の信頼度、例えば、どれくらい十分にランダムサンプリングがマッチするかまたは最良のものが元のデータに相当するかを評価することである。１つのアプローチは、確率値（ｐ値）を算出することであり、その確率値は、選択されたサンプルよりも良好なスコアを有するランダムなサンプルの確率を推定する。いくつかの実施形態において、少なくとも１つのサンプルが参照サンプルとマッチすると仮定する経験的モデルが評価され得る（変動の分解ありまたはなしで）。いくつかの実施形態において、例えばポアソン分布などの別の分布が、確率分布を定義するために使用され得る。

【0308】

ある特定の実施形態において、システムは、１つまたはそれを超えるマイクロプロセッサを備え得る。マイクロプロセッサは、コミュニケーションバスに接続され得る。コンピュータシステムは、メインメモリを備え得、ランダムアクセスメモリ（ＲＡＭ）を備えることが多く、二次メモリも備え得る。いくつかの実施形態において、メモリは、非一時的なコンピュータ可読記憶媒体を含む。二次メモリには、例えば、バードディスクドライブおよび／または着脱可能な記憶ドライブが含まれ得、それらは、フロッピー（登録商標）ディスクドライブ、磁気テープドライブ、光ディスクドライブ、メモリカードなどに代表される。着脱可能な記憶ドライブは、着脱可能な記憶装置から読み出し、かつ／または着脱可能な記憶装置に書き込むことが多い。着脱可能な記憶装置の非限定的な例としては、フロッピー（登録商標）ディスク、磁気テープ、光ディスクなどが挙げられ、これらは、例えば、着脱可能な記憶ドライブによって読み出され得、着脱可能な記憶ドライブに書き込まれ得る。着脱可能な記憶装置は、コンピュータソフトウェアおよび／またはデータが格納されている、コンピュータが使用可能な記憶媒体を備え得る。

【0309】

マイクロプロセッサは、システムの中にソフトウェアを実装し得る。いくつかの実施形態において、マイクロプロセッサは、ユーザーが行い得る本明細書中に記載されるタスクを自動的に行うようにプログラムされ得る。したがって、マイクロプロセッサ、またはそのようなマイクロプロセッサによって行われるアルゴリズムは、ユーザーの監視または入力を全くかほとんど必要としないことがある（例えば、ソフトウェアは、機能を自動的に履行するようにプログラムされ得る）。いくつかの実施形態において、プロセスの複雑さは、１人の人物または人物の１つの群が、そのプロセスを遺伝子変異または遺伝子変化の存在または非存在の判定にとって十分短い時間枠で行うことができないほど大きい。

【0310】

いくつかの実施形態において、二次メモリは、コンピュータプログラムまたは他の指示がコンピュータシステムに搭載されることを可能にするための他の同様の手段を備え得る。例えば、システムは、着脱可能な記憶装置およびインターフェースデバイスを備え得る。そのようなシステムの非限定的な例としては、プログラムカートリッジおよびカートリッジインターフェース（例えば、ビデオゲームデバイスに見られるもの）、着脱可能なメモリチップ（例えば、ＥＰＲＯＭまたはＰＲＯＭ）および関連ソケット、ならびに他の着脱可能な記憶装置、ならびにソフトウェアおよびデータが、着脱可能な記憶装置からコンピュータシステムに移されることを可能にするインターフェースが挙げられる。

【0311】

図１は、本明細書中に記載される様々なシステム、方法、アルゴリズムおよびデータ構造を履行し得るコンピュータ環境１１０の非限定的な例を例証している。コンピュータ環境１１０は、好適なコンピュータ環境の一例にすぎず、本明細書中に記載されるシステム、方法およびデータ構造の用途または機能の範囲に関していかなる限定も提案すると意図されていない。コンピュータ環境１１０は、コンピュータ環境１１０に例証されている構成要素のいずれか１つまたは組み合わせに関して、いかなる従属物または必要条件も有しないと解釈されるべきである。ある特定の実施形態において、図１に示されているシステム、方法およびデータ構造のサブセットが使用され得る。本明細書中に記載されるシステム、方法およびデータ構造は、数多くの他の多目的または特殊目的のコンピューティングシステム環境または設定で動作可能である。好適であり得る公知のコンピューティングシステム、環境および／または設定の例としては、パーソナルコンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、手持ち式またはラップトップ型デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを備える分散コンピュータ環境などが挙げられるが、これらに限定されない。

【0312】

図１の動作環境１１０は、処理装置１２１、システムメモリ１２２、およびシステムメモリ１２２を含む様々なシステムの構成要素を処理装置１２１に動作可能につなぐシステムバス１２３を含む、コンピュータ１２０の形態の多目的のコンピュータデバイスを含む。ただ１つのまたは１つより多い処理装置１２１が存在し得、コンピュータ１２０のプロセッサは、単一の中央処理装置（ＣＰＵ）、または並列処理環境と一般に称される複数の処理装置を備える。コンピュータ１２０は、従来のコンピュータ、分散コンピュータまたは他の任意のタイプのコンピュータであり得る。

【0313】

システムバス１２３は、種々のバスアーキテクチャーのいずれかを用いる、メモリバスまたはメモリコントローラ、周辺装置用バスおよびローカルバスを含む、いくつかのタイプのバス構造のいずれかであり得る。システムメモリは、単純にメモリとも称され得、それには、読出し専用メモリ（ＲＯＭ）１２４およびランダムアクセスメモリ（ＲＡＭ）が含まれる。スタートアップ中などにコンピュータ１２０内の要素間の情報の移動を助ける基本ルーチンを含む基本入出力システム（ＢＩＯＳ）１２６は、ＲＯＭ１２４に格納されている。コンピュータ１２０は、ハードディスクから読み出すためおよびハードディスクに書き込むためのハードディスクドライブインターフェース１２７（図示せず）、着脱可能な磁気ディスク１２９から読み出すためまたは着脱可能な磁気ディスク１２９に書き込むための磁気ディスクドライブ１２８、ならびに着脱可能な光ディスク１３１（例えば、ＣＤＲＯＭまたは他の光学媒体）から読み出すためまたは着脱可能な光ディスク１３１に書き込むための光ディスクドライブ１３０をさらに備え得る。

【0314】

ハードディスクドライブ１２７、磁気ディスクドライブ１２８および光ディスクドライブ１３０は、それぞれハードディスクドライブインターフェース１３２、磁気ディスクドライブインターフェース１３３および光ディスクドライブインターフェース１３４によって、システムバス１２３に接続される。上記ドライブおよびそれらの関連するコンピュータ可読媒体は、コンピュータ可読指示、データ構造、プログラムモジュールおよび他のデータの不揮発性記憶装置をコンピュータ１２０に提供する。コンピュータによってアクセス可能なデータを格納し得る任意のタイプのコンピュータ可読媒体（例えば、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）など）が、その動作環境において使用され得る。

【0315】

いくつかのプログラムモジュールは、オペレーティングシステム１３５、１つまたはそれを超えるアプリケーションプログラム１３６、他のプログラムモジュール１３７およびプログラムデータ１３８を備える、ハードディスク、磁気ディスク１２９、光ディスク１３１、ＲＯＭ１２４またはＲＡＭに格納され得る。ユーザーは、コマンドおよび情報を、キーボード１４０およびポインティングデバイス１４２などの入力デバイスを介してパーソナルコンピュータ１２０に入力し得る。他の入力デバイス（図示せず）としては、マイクロホン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナーなどが挙げられ得る。これらのおよび他の入力デバイスは、システムバスにつながったシリアルポートインターフェース１４６を介して処理装置１２１に接続されることが多いが、他のインターフェース（例えば、パラレルポート、ゲームポートまたはユニバーサルシリアルバス（ＵＳＢ））によって接続されてもよい。モニター１４７または他のタイプの表示デバイスも、ビデオアダプター１４８などのインターフェースを介してシステムバス１２３に接続される。コンピュータは、通常、モニターに加えて、スピーカーおよびプリンターなどの他の周辺装置出力デバイス（図示せず）を備える。

【0316】

コンピュータ１２０は、ネットワーク化された環境において、１つまたはそれを超えるリモートコンピュータ、例えば、リモートコンピュータ１４９への論理接続を用いて動作し得る。これらの論理接続は、コンピュータ１２０もしくはその一部につながったコミュニケーションデバイスによってまたは他の様式で達成され得る。リモートコンピュータ１４９は、別のコンピュータ、サーバー、ルーター、ネットワークＰＣ、クライアント、ピアデバイスまたは他の共通ネットワークノードであり得、代表的には、コンピュータ１２０に対して上に記載された要素の多くまたはすべてを備えるが、メモリ記憶装置１５０だけが、図１に図示されている。図１に描かれている論理接続は、ローカルエリアネットワーク（ＬＡＮ）１５１および広域ネットワーク（ＷＡＮ）１５２を含む。そのようなネットワーク環境は、オフィスのネットワーク、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいてありふれたものであり、これらのすべてが、ネットワークのタイプである。

【0317】

コンピュータ１２０は、ＬＡＮネットワーク環境において使用されるとき、コミュニケーションデバイスの１タイプであるネットワークインターフェースまたはアダプター１５３を介してローカルネットワーク１５１に接続される。コンピュータ１２０は、ＷＡＮネットワーク環境において使用されるとき、モデム１５４、あるタイプのコミュニケーションデバイス、または広域ネットワーク１５２にわたるコミュニケーションを確立するための他の任意のタイプのコミュニケーションデバイスを備えることが多い。内部または外部のものであり得るモデム１５４は、シリアルポートインターフェース１４６を介してシステムバス１２３に接続される。ネットワーク化された環境において、パーソナルコンピュータ１２０またはその部分に関して描かれたプログラムモジュールは、リモートメモリ記憶装置に格納され得る。示されているネットワークの接続は非限定的な例であり、コンピュータ間のコミュニケーションリンクを確立するために他のコミュニケーションデバイスを使用してもよいことが認識される。

【0318】

変換
上で述べたように、データは、１つの形態から別の形態に変換されるときがある。用語「変換される」、「変換」およびそれらの文法上の派生物または等価物は、本明細書中で使用されるとき、物理的な出発物質（例えば、試験被験体および／または参照被験体のサンプル核酸）からその物理的な出発物質のデジタル提示（例えば、配列リードデータ）へのデータの変更のことを指し、いくつかの実施形態において、アウトカムを提供するために使用され得る、そのデジタル提示の１つまたはそれを超える数値またはグラフ表示へのさらなる変換を含む。ある特定の実施形態において、デジタル表示されたデータの１つまたはそれを超える数値および／またはグラフ表示は、試験被験体の物理的なゲノムの様子を表すため（例えば、ゲノムの挿入、重複または欠失の存在または非存在を仮想的に表すかまたは視覚的に表すため；医学的症状に関連する配列の物理量の変動の存在または非存在を表すため）に使用され得る。仮想提示は、出発物質のデジタル提示の１つまたはそれを超える数値またはグラフ表示にさらに変換されるときがある。これらの方法は、物理的な出発物質を、数値もしくはグラフ表示または試験被験体の核酸の物理的な様子の提示に変換し得る。

【0319】

いくつかの実施形態において、データセットの変換は、データの複雑さおよび／またはデータの次元を低下させることによって、アウトカムの提供を容易にする。データセットの複雑さは、物理的な出発物質をその出発物質の仮想提示（例えば、物理的な出発物質を代表する配列リード）に変換するプロセス中に低下するときがある。好適な特徴または変数が、データセットの複雑さおよび／または次元を低下させるために使用され得る。データ処理に対する標的の特徴として使用するために選択され得る特徴の非限定的な例としては、ＧＣ含有量、胎児の性別予測、フラグメントサイズ（例えば、ＣＣＦフラグメント、リードの長さまたはその好適な提示（例えば、ＦＲＳ））、フラグメントの配列、コピー数変化の特定、染色体異数性の識別、特定の遺伝子またはタンパク質の識別、癌の識別、疾患、遺伝された遺伝子／形質、染色体異常、生物学的カテゴリー、化学的カテゴリー、生化学的カテゴリー、遺伝子またはタンパク質のカテゴリー、遺伝子オントロジー、タンパク質オントロジー、同時制御される遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、前述の遺伝子に関するタンパク質、遺伝子変異体、タンパク質変異体、同時制御される遺伝子、同時制御されるタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データなどおよび前述のものの組み合わせが挙げられる。データセットの複雑さおよび／または次元の低減の非限定的な例としては、複数の配列リードからプロファイルプロットへの低減、複数の配列リードから数値（例えば、正規化された値、Ｚ得点、ｐ値）への低減；複数の解析方法から確率プロットまたは単一ポイントへの低減；導出された量の主成分分析などまたはそれらの組み合わせが挙げられる。

【0320】

遺伝子変異／遺伝子変化および医学的症状
遺伝子変異の存在または非存在は、本明細書中に記載される方法または装置を用いて判定され得る。遺伝子変異は、遺伝子変化と称されることもあり、これらの用語は、本明細書中でおよび当該分野において交換可能に使用されることが多い。ある特定の場合において、「遺伝子変化」は、被験体の細胞のサブセットにおけるゲノムが体細胞性の変化を含む（例えば、腫瘍細胞または癌細胞において）、そのような体細胞性の変化を記載するために使用され得る。ある特定の場合において、「遺伝子変異」は、片親または両親から遺伝した変異（例えば、胎児における遺伝子変異）を記載するために使用され得る。

【0321】

ある特定の実施形態において、１つまたはそれを超える遺伝子変異または遺伝子変化の存在または非存在は、本明細書中に記載される方法および装置によって提供されるアウトカムに従って判定される。遺伝子変異は、通常、ある特定の個体に存在する特定の遺伝的表現型であり、遺伝子変異は、個体の統計学的に有意な部分母集団に存在することが多い。いくつかの実施形態において、遺伝子変異または遺伝子変化は、染色体異常またはコピー数変化（例えば、異数性、１本またはそれを超える染色体の重複、１本またはそれを超える染色体の喪失）、部分的な染色体異常またはモザイク現象（例えば、染色体の１つまたはそれを超える領域の喪失または獲得）、転座、逆位であり、これらの各々が、本明細書中に詳細に記載されている。遺伝子変異／遺伝子変化の非限定的な例としては、１つまたはそれを超えるコピー数変化／変異、欠失（例えば、微小欠失）、重複（例えば、微小重複）、挿入、突然変異（例えば、単一ヌクレオチド変異、単一ヌクレオチド変化）、多型（例えば、単一ヌクレオチド多型）、融合、反復（例えば、短タンデム反復）、異なるメチル化部位、異なるメチル化パターンなどおよびそれらの組み合わせが挙げられる。挿入、反復、欠失、重複、突然変異または多型は、任意の長さであり得、いくつかの実施形態において、約１塩基または塩基対（ｂｐ）から約２５０メガベース（Ｍｂ）長である。いくつかの実施形態において、挿入、反復、欠失、重複、突然変異または多型は、約１塩基または塩基対（ｂｐ）から約５０，０００キロベース（ｋｂ）長（例えば、約１０ｂｐ、５０ｂｐ、１００ｂｐ、５００ｂｐ、１ｋｂ、５ｋｂ、１０ｋｂ、５０ｋｂ、１００ｋｂ、５００ｋｂ、１０００ｋｂ、５０００ｋｂまたは１０，０００ｋｂ長）である。

【0322】

遺伝子変異または遺伝子変化は、欠失であるときがある。ある特定の場合において、欠失は、染色体またはＤＮＡ配列の一部が欠損している突然変異（例えば、遺伝的異常）である。欠失は、遺伝物質の喪失であることが多い。任意の数のヌクレオチドが欠失し得る。欠失は、１本またはそれを超える染色体全体、染色体の領域、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらの一部またはそれらの組み合わせの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。

【0323】

遺伝子変異または遺伝子変化は、重複であるときがある。ある特定の場合において、重複は、染色体またはＤＮＡ配列の一部が複製され、ゲノムの元の場所に挿入された突然変異（例えば、遺伝的異常）である。ある特定の実施形態において、遺伝子重複（例えば、重複）は、ＤＮＡの領域の任意の重複である。いくつかの実施形態において、重複は、ゲノム内または染色体内に、しばしばタンデムで、反復された核酸配列である。いくつかの実施形態において、重複は、１本またはそれを超える染色体全体、染色体の領域、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらの一部またはそれらの組み合わせの複製を含み得る。重複は、微小重複を含み得る。重複は、重複した核酸の１コピーまたはそれを超えるコピーを含むときがある。重複は、１回またはそれを超える回数反復した（例えば、１、２、３、４、５、６、７、８、９または１０回反復した）遺伝的領域として特徴づけられるときがある。場合によっては、重複は、小さい領域（数千の塩基対）から全染色体に及び得る。重複は、相同組換えのエラーの結果として、またはレトロトランスポゾン事象に起因して、頻繁に生じる。重複は、ある特定のタイプの増殖性疾患に関連している。重複は、ゲノムマイクロアレイまたは比較遺伝子ハイブリダイゼーション（ｃｏｍｐａｒａｔｉｖｅｇｅｎｅｔｉｃｈｙｂｒｉｄｉｚａｔｉｏｎ）（ＣＧＨ）を用いて特徴づけられ得る。

【0324】

遺伝子変異または遺伝子変化は、挿入であるときがある。挿入は、核酸配列への１つまたはそれを超えるヌクレオチド塩基対の付加であるときがある。挿入は、微小挿入であるときがある。ある特定の実施形態において、挿入は、ゲノム、染色体またはそれらの一部への染色体の領域の付加を含む。ある特定の実施形態において、挿入は、ゲノムまたはその一部への、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらの一部またはそれらの組み合わせの付加を含む。ある特定の実施形態において、挿入は、ゲノム、染色体またはそれらの一部への、起源が不明の核酸の付加（例えば、挿入）を含む。ある特定の実施形態において、挿入は、単一塩基の付加（例えば、挿入）を含む。

【0325】

本明細書中で使用されるとき、「コピー数変化」は、通常、遺伝子変異、遺伝子変化または染色体異常の１つのクラスまたはタイプである。コピー数変化は、コピー数変異と称されることもあり、これらの用語は、本明細書中でおよび当該分野において交換可能に使用されることが多い。ある特定の場合において、「コピー数変化」は、被験体の細胞のサブセットにおけるゲノムが体細胞性の変化を含む（例えば、腫瘍細胞または癌細胞において）、そのような体細胞性の変化を記載するために使用され得る。ある特定の場合において、「コピー数変異」は、片親または両親から遺伝した変異（例えば、胎児におけるコピー数変異）を記載するために使用され得る。コピー数変化は、欠失（例えば、微小欠失）、重複（例えば、微小重複）または挿入（例えば、微小挿入）であり得る。しばしば、接頭辞「微小」は、本明細書中で使用されるとき、５Ｍｂ長未満の核酸の領域であるときがある。コピー数変化は、染色体の一部の１つまたはそれを超える欠失（例えば、微小欠失）、重複および／または挿入（例えば、微小重複、微小挿入）を含み得る。ある特定の実施形態において、重複は、挿入を含む。ある特定の実施形態において、挿入は、重複である。ある特定の実施形態において、挿入は、重複ではない。

【0326】

いくつかの実施形態において、コピー数変化は、腫瘍細胞または癌細胞からのコピー数変化である。いくつかの実施形態において、コピー数変化は、非癌細胞からのコピー数変化である。ある特定の実施形態において、コピー数変化は、被験体（例えば、癌患者）のゲノム内および／または被験体における癌細胞もしくは腫瘍のゲノム内のコピー数変化である。コピー数変化は、その変化（例えば、重複または欠失）が、ゲノムの１つの対立遺伝子上に存在する場合、ヘテロ接合性のコピー数変化であり得る。コピー数変化は、その変化が、ゲノムの両方の対立遺伝子上に存在する場合、ホモ接合性のコピー数変化であり得る。いくつかの実施形態において、コピー数変化は、ヘテロ接合性またはホモ接合性のコピー数変化である。いくつかの実施形態において、コピー数変化は、癌細胞または非癌細胞からのヘテロ接合性またはホモ接合性のコピー数変化である。コピー数変化は、癌細胞ゲノムおよび非癌細胞ゲノムに存在するときがあるか、癌細胞ゲノムに存在し、非癌細胞ゲノムに存在しないときがあるか、または非癌細胞ゲノムに存在し、癌細胞ゲノムに存在しないときがある。

【0327】

いくつかの実施形態において、コピー数変化は、胎児のコピー数変化である。胎児のコピー数変化は、胎児のゲノムにおけるコピー数変化であることが多い。いくつかの実施形態において、コピー数変化は、母体および／または胎児のコピー数変化である。ある特定の実施形態において、母体および／または胎児のコピー数変化は、妊婦（例えば、胎児を有する雌性体被験体）、出産した雌性体被験体または胎児を有することができる雌性体のゲノム内のコピー数変化である。コピー数変化は、その変化（例えば、重複または欠失）が、ゲノムの一方の対立遺伝子に存在するヘテロ接合性のコピー数変化であり得る。コピー数変化は、その変化がゲノムの両方の対立遺伝子に存在するホモ接合性のコピー数変化であり得る。いくつかの実施形態において、コピー数変化は、ヘテロ接合性またはホモ接合性の胎児のコピー数変化である。いくつかの実施形態において、コピー数変化は、ヘテロ接合性またはホモ接合性の母体および／または胎児のコピー数変化である。コピー数変化は、母体のゲノムおよび胎児のゲノムに存在するときがあるか、母体のゲノムに存在して胎児のゲノムに存在しないときがあるか、または胎児のゲノムに存在して母体のゲノムに存在しないときがある。

【0328】

「倍数性」は、被験体に存在する染色体の数に対する言及である。ある特定の実施形態において、「倍数性」は、「染色体倍数性」と同じである。例えば、ヒトにおいて、常染色体は、２本一組で存在することが多い。例えば、遺伝子変異または遺伝子変化の非存在下では、ほとんどのヒトが、各常染色体（例えば、１～２２番染色体）を２本有する。ヒトにおける、２本の常染色体が正常に全数そろって存在していることは、正倍数体または二倍体と称されることが多い。「微小倍数性」は、倍数性と似た意味である。「微小倍数性」は、染色体の一部の倍数性のことを指すことが多い。用語「微小倍数性」は、染色体内のコピー数変化（例えば、欠失、重複および／または挿入）の存在または非存在（例えば、ホモ接合性またはヘテロ接合性の欠失、重複もしくは挿入など、またはそれらが存在しないこと）に対する言及であるときがある。

【0329】

ある特定の実施形態において、被験体に対して存在または非存在が識別される遺伝子変異または遺伝子変化は、医学的症状に関連する。したがって、本明細書中に記載される技術は、医学的症状または医学的状態に関連する１つまたはそれを超える遺伝子変異または遺伝子変化の存在または非存在を識別するために使用され得る。医学的症状の非限定的な例としては、知的障害（例えば、ダウン症候群）、異常な細胞増殖（例えば、癌）、微生物核酸（例えば、ウイルス、細菌、真菌、酵母）の存在、および子癇前症に関連するものが挙げられる。

【0330】

遺伝子変異／遺伝子変化、医学的症状および医学的状態の非限定的な例は、本明細書の以後に記載される。

【0331】

染色体異常
いくつかの実施形態において、染色体異常の存在または非存在は、本明細書中に記載される方法および／または装置を用いることによって判定され得る。染色体異常としては、コピー数変化、および染色体全体または１つもしくはそれを超える遺伝子を含む染色体の領域の獲得または喪失が挙げられるが、これらに限定されない。染色体異常には、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の消失、不平衡転座によって引き起こされる欠失および重複を含む、１つもしくはそれを超えるヌクレオチド配列（例えば、１つまたはそれを超える遺伝子）の転座、欠失および／または重複が含まれる。用語「染色体異常」または「異数性」は、本明細書中で使用されるとき、主題の染色体の構造と正常な相同染色体の構造との間のずれのことを指す。用語「正常」とは、特定の種の健常個体に見られる優勢である核型または横縞像、例えば、正倍数性のゲノム（例えば、ヒトにおける二倍体、例えば、４６，ＸＸまたは４６，ＸＹ）のことを指す。種々の生物が、広く異なる染色体組を有するので、用語「異数性」とは、特定の数の染色体のことを指さず、生物の所与の細胞内の染色体含有量が異常である状況のことを指す。いくつかの実施形態において、本明細書中の用語「異数性」は、染色体全体または染色体の一部の喪失または獲得によって引き起こされる遺伝物質の不均衡のことを指す。「異数性」とは、染色体の領域の１つまたはそれを超える欠失および／または挿入のことを指し得る。いくつかの実施形態において、用語「正倍数性」とは、正常に染色体が全数そろっていることを指す。

【0332】

用語「モノソミー」は、本明細書中で使用されるとき、正常な全数から１本の染色体が不足していることを指す。部分的モノソミーは、染色体の一部だけが１コピーで存在する、不平衡転座または欠失において生じ得る。性染色体のモノソミー（４５，Ｘ）は、例えば、ターナー症候群を引き起こす。用語「ダイソミー」とは、ある染色体が２コピー存在することを指す。各染色体を２コピー有するヒトなどの生物（二倍体または「正倍数体」である生物）の場合、ダイソミーは、正常な状態である。各染色体を正常に３コピーもしくはそれを超えるコピー数有する生物（三倍体またはそれを超える生物）の場合、ダイソミーは、異数体の染色体状態である。片親性ダイソミーでは、ある染色体の両方のコピーが、同じ親に由来する（他方の親からの寄与がない）。

【0333】

用語「トリソミー」は、本明細書中で使用されるとき、特定の染色体が２コピーの代わりに３コピー存在することを指す。ヒトのダウン症候群に見られる、２１番染色体が余分に存在することは、「トリソミー２１」と称される。トリソミー１８およびトリソミー１３は、他の２つのヒト常染色体トリソミーである。性染色体のトリソミーは、女性（例えば、トリプルＸ症候群における４７，ＸＸＸ）または男性（例えば、クラインフェルター症候群における４７，ＸＸＹ；またはヤコブ症候群における４７，ＸＹＹ）に見られ得る。いくつかの実施形態において、トリソミーは、常染色体の大部分またはすべての重複である。ある特定の実施形態において、トリソミーは、特定のタイプの染色体が３本である場合（例えば、３コピー）をもたらす（例えば、正倍数性に対する特定のタイプの染色体が２本である（例えば、１対）代わりに）染色体全体の異数性である。

【0334】

用語「テトラソミー」および「ペンタソミー」は、本明細書中で使用されるとき、それぞれ、ある染色体が４または５コピー存在することを指す。常染色体ではめったに見られないが、性染色体テトラソミーおよびペンタソミーは、ヒトにおいて報告されており、それには、ＸＸＸＸ、ＸＸＸＹ、ＸＸＹＹ、ＸＹＹＹ、ＸＸＸＸＸ、ＸＸＸＸＹ、ＸＸＸＹＹ、ＸＸＹＹＹおよびＸＹＹＹＹが含まれる。

【0335】

医学的障害および医学的症状
本明細書中に記載される方法は、任意の好適な医学的障害または医学的症状に適用可能であり得る。医学的障害および医学的症状の非限定的な例としては、細胞増殖性障害および症状、消耗性障害および症状、変性障害および症状、自己免疫障害および症状、子癇前症、化学毒性または環境毒性、肝臓の損傷または疾患、腎臓の損傷または疾患、血管性疾患、高血圧ならびに心筋梗塞が挙げられる。

【0336】

いくつかの実施形態において、細胞増殖性障害または症状は、癌、腫瘍、新生物、転移性疾患などまたはそれらの組み合わせであるときがある。細胞増殖性障害または症状は、肝臓、肺、脾臓、膵臓、結腸、皮膚、膀胱、眼、脳、食道、頭部、頸部、卵巣、精巣、前立腺などまたはそれらの組み合わせの障害または症状であるときがある。癌の非限定的な例としては、造血性起源の過形成性／新生物の細胞が関わる疾患である（例えば、骨髄、リンパ系もしくは赤血球の系統またはそれらの前駆細胞から生じる）造血性新生物障害が挙げられ、未分化型急性白血病（例えば、赤芽球性白血病および急性巨核芽球性白血病）から生じ得る。ある特定の骨髄性障害としては、急性前骨髄性白血病（ＡＰＭＬ）、急性骨髄性白血病（ＡＭＬ）および慢性骨髄性白血病（ＣＭＬ）が挙げられるが、これらに限定されない。ある特定のリンパ系悪性腫瘍としては、急性リンパ芽球性白血病（ＡＬＬ）（Ｂ系統ＡＬＬおよびＴ系統ＡＬＬを含む）、慢性リンパ球性白血病（ＣＬＬ）、前リンパ球性白血病（ＰＬＬ）、ヘアリーセル白血病（ＨＬＬ）およびワルデンシュトレームマクログロブリン血症（ＷＭ）が挙げられるが、これらに限定されない。ある特定の形態の悪性リンパ腫としては、非ホジキンリンパ腫およびその異型、末梢Ｔ細胞リンパ腫、成人Ｔ細胞白血病／リンパ腫（ＡＴＬ）、皮膚Ｔ細胞性リンパ腫（ＣＴＣＬ）、大顆粒リンパ球性白血病（ＬＧＦ）、ホジキン病およびリード・シュテルンベルク病が挙げられるが、これらに限定されない。細胞増殖性障害は、非内分泌腫瘍または内分泌腫瘍であるときがある。非内分泌腫瘍の例証的な例としては、腺癌、腺房細胞癌腫、腺扁平上皮癌腫、巨細胞腫、管内乳頭粘液性新生物、粘液性嚢胞腺癌、膵芽腫、漿液性嚢胞腺腫、充実性偽乳頭状腫瘍が挙げられるが、これらに限定されない。内分泌腫瘍は、島細胞腫瘍であるときがある。

【0337】

いくつかの実施形態において、消耗性障害もしくは症状または変性障害もしくは症状は、肝硬変、筋萎縮性側索硬化症（ＡＬＳ）、アルツハイマー病、パーキンソン病、多系統萎縮症、アテローム性動脈硬化症、進行性核上性麻痺、テイ・サックス病、糖尿病、心疾患、円錐角膜、炎症性腸疾患（ＩＢＤ）、前立腺炎、変形性関節症、骨粗鬆症、関節リウマチ、ハンチントン病、慢性外傷性脳障害、慢性閉塞性肺疾患（ＣＯＰＤ）、結核、慢性下痢、後天性免疫不全症候群（ＡＩＤＳ）、上腸間膜動脈症候群などまたはそれらの組み合わせである。

【0338】

いくつかの実施形態において、自己免疫障害または症状は、急性散在性脳脊髄炎（ＡＤＥＭ）、アジソン病、円形脱毛症、強直性脊椎炎、抗リン脂質抗体症候群（ＡＰＳ）、自己免疫性溶血性貧血、自己免疫性肝炎、自己免疫性内耳疾患、水疱性類天疱瘡、セリアック病、シャーガス病、慢性閉塞性肺疾患、クローン病（特発性炎症性腸疾患「ＩＢＤ」の１タイプ）、皮膚筋炎、１型真性糖尿病、子宮内膜症、グッドパスチャー症候群、グレーヴズ病、ギラン・バレー症候群（ＧＢＳ）、橋本病、化膿性汗腺炎、特発性血小板減少性紫斑病、間質性膀胱炎、エリテマトーデス、混合結合組織病、モルヘア、多発性硬化症（ＭＳ）、重症筋無力症、ナルコレプシー、神経性筋強直症（ｅｕｒｏｍｙｏｔｏｎｉａ）、尋常性天疱瘡、悪性貧血、多発性筋炎、原発性胆汁性肝硬変、関節リウマチ、統合失調症、強皮症、シェーグレン症候群、側頭動脈炎（「巨細胞性動脈炎」としても知られる）、潰瘍性大腸炎（特発性炎症性腸疾患「ＩＢＤ」の１タイプ）、脈管炎、白斑、ウェゲナー肉芽腫症などまたはそれらの組み合わせである。

【0339】

子癇前症
いくつかの実施形態において、子癇前症の存在または非存在は、本明細書中に記載される方法または装置を用いることによって判定される。子癇前症は、妊娠中に高血圧症が生じ（例えば、妊娠誘発性高血圧症）、尿中のかなりの量のタンパク質に関連する症状である。ある特定の場合において、子癇前症は、高レベルの細胞外核酸および／またはメチル化パターンの変化にも関連し得る。例えば、細胞外の胎児由来高メチル化ＲＡＳＳＦ１Ａレベルと子癇前症の重症度との間に正の相関が観察された。ある特定の場合において、ＤＮＡメチル化の増加が、正常なコントロールと比較して、子癇前症の胎盤においてＨ１９遺伝子に対して観察される。

【0340】

病原体
いくつかの実施形態において、病原性の症状の存在または非存在は、本明細書中に記載される方法または装置によって判定される。病原性の症状は、細菌、ウイルスまたは真菌を含むがこれらに限定されない病原体による宿主の感染によって引き起こされ得る。病原体は、代表的には、宿主核酸と区別可能であり得る核酸（例えば、ゲノムＤＮＡ、ゲノムＲＮＡ、ｍＲＮＡ）を有するので、本明細書中に提供される方法、機器および装置を用いることにより、病原体の存在または非存在を判定することができる。病原体は、特定の病原体に特有の特色、例えば、エピジェネティックな状態、ならびに／または１つもしくはそれを超える配列のバリエーション、重複および／もしくは欠失を有する核酸を有することが多い。したがって、本明細書中に提供される方法を用いることにより、特定の病原体または病原体バリアント（例えば、系統）が特定され得る。

【0341】

無細胞核酸の使用
ある特定の場合において、特定の症状または障害に関連する異常細胞または罹患細胞由来の核酸は、それらの細胞から循環無細胞核酸（ＣＣＦ－ＮＡ）として放出される。例えば、癌細胞核酸は、ＣＣＦ－ＮＡとして存在し、本明細書中に提供される方法を用いたＣＣＦ－ＮＡの解析は、被験体が癌を有するかまたは癌を有するリスクがあるかを判定するために使用され得る。ＣＣＦ－ＮＡとしての癌細胞核酸の存在または非存在の解析は、例えば、癌スクリーニングのために使用され得る。ある特定の場合において、血清中のＣＣＦ－ＮＡのレベルは、健康な患者と比べて、様々なタイプの癌を有する患者において上昇し得る。例えば、転移性疾患を有する患者は、非転移性患者よりおよそ２倍高い血清ＤＮＡレベルを有し得るときがある。したがって、本明細書中に記載される方法は、被験体（例えば、特定の症状または疾患を有するか、有すると疑われるか、かかりやすいか、またはかかりやすいと疑われる被験体）のサンプルから抽出されたＣＣＦ－ＮＡから得られた配列決定リードカウントを処理することによってアウトカムを提供し得る。

【0342】

マーカー
ある特定の場合において、異常細胞または罹患細胞におけるポリヌクレオチドは、正常細胞または非罹患細胞における核酸と比べて改変されている（例えば、単一ヌクレオチド変化、単一ヌクレオチド変異、コピー数変化、コピー数変異）。場合によっては、あるポリヌクレオチドが、異常細胞または罹患細胞に存在し、正常細胞または非罹患細胞には存在せず、あるポリヌクレオチドが、異常細胞または罹患細胞に存在せず、正常細胞または非罹患細胞に存在するときがある。したがって、マーカーは、単一ヌクレオチド変化／変異および／またはコピー数変化／変異（例えば、差次的に発現されたＤＮＡまたはＲＮＡ（例えば、ｍＲＮＡ））であるときがある。例えば、転移性疾患を有する患者は、例えば、癌特異的マーカーおよび／またはある特定の単一ヌクレオチド多型もしくは短タンデム反復によって特定され得る。高レベルの循環ＤＮＡと正に相関し得る癌のタイプの非限定的な例としては、乳癌、直腸結腸癌、消化器癌、肝細胞癌、肺癌、メラノーマ、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱癌、ヘパトーマ、子宮頸癌、食道癌、膵癌および前立腺癌が挙げられる。様々な癌が、非癌性の健康な細胞由来の核酸と区別可能な特色（例えば、エピジェネティックな状態ならびに／または配列のバリエーション、重複および／もしくは欠失）を有する核酸を有し得、血流中に放出し得るときがある。そのような特色は、例えば、特定のタイプの癌に特異的であり得る。したがって、本明細書中に記載される方法は、特定のマーカーの存在または非存在の判定に基づいてアウトカムを提供するときがあり、アウトカムは、特定のタイプの症状（例えば、特定のタイプの癌）の存在または非存在であるときがある。

【0343】

本明細書中に記載されるある特定の方法は、例えば、国際特許出願公開番号ＷＯ２０１３／０５２９１３、国際特許出願公開番号ＷＯ２０１３／０５２９０７、国際特許出願公開番号ＷＯ２０１３／０５５８１７、国際特許出願公開番号ＷＯ２０１３／１０９９８１、国際特許出願公開番号ＷＯ２０１３／１７７０８６、国際特許出願公開番号ＷＯ２０１３／１９２５６２、国際特許出願公開番号ＷＯ２０１４／１１６５９８、国際特許出願公開番号ＷＯ２０１４／０５５７７４、国際特許出願公開番号ＷＯ２０１４／１９０２８６、国際特許出願公開番号ＷＯ２０１４／２０５４０１、国際特許出願公開番号ＷＯ２０１５／０５１１６３、国際特許出願公開番号ＷＯ２０１５／１３８７７４、国際特許出願公開番号ＷＯ２０１５／０５４０８０、国際特許出願公開番号ＷＯ２０１５／１８３８７２、国際特許出願公開番号ＷＯ２０１６／０１９０４２および国際特許出願公開番号ＷＯ２０１６／０５７９０１（本文、表、式および図面のすべてを含むこれらの各々の全内容が、参照により本明細書中に援用される）に記載されている方法とともに行われ得る。

【実施例0344】

下記に示される実施例は、ある特定の実施形態を例証するものであって、本技術を限定するものではない。

【0345】

実施例１：全ゲノム配列決定を用いた２２ｑ１１．２欠失の最適化された検出
この実施例では、全ゲノム配列決定を用いた小コピー数変異（ＣＮＶ）の最適化された検出を実証する。詳細には、通常約２～３Ｍｂの欠失事象を含む２２ｑ１１．２の喪失を評価した。

【0346】

研究デザイン
分析モデルとインシリコモデルとの組み合わせを用いて、２２ｑ１１．２欠失事象を検出するための感度を測定した。分析モデルは、１．３メガベースから３メガベース超に及ぶ２２ｑ１１．２欠失を有する細胞株または個体から得られた１５個のゲノムＤＮＡ（ｇＤＮＡ）セットを含んだ。これらのｇＤＮＡから調製されたライブラリーを、非妊婦由来の無細胞血漿ＤＮＡライブラリーと混合して、４％～２４％の範囲の胎児比率をモデル化した。インシリコモデルは、７０００個超の母体血漿の配列決定結果をバックグラウンドとして使用して、ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄｓｏｆＣｙｔｏｇｅｎｏｍｉｃＡｒｒａｙｓデータベース（ＩＳＣＡ）に列挙されている２２ｑ１１．２領域内の２０６個の欠失に対するゲノム座標において２２ｑ１１．２欠失事象を作製した。２２ｑ１１．２領域におけるＣＮＶを検出するために、集中的配列決定解析とゲノムワイド配列決定解析との組み合わせとともにサンプル特異的な特徴を用いて、感度を評価した。

【0347】

結果
図２に示されているように、ゲノムワイド配列解析および集中的配列解析を用いて、微小欠失を検出するための感度値を胎児比率範囲にわたって測定した。この結果は、サンプル中の胎児比率が、０．１２（すなわち、１２％）より高いとき、ゲノムワイド解析を用いた検出の感度が、集中的解析を用いたときよりも高く；逆に、胎児比率が、０．１２より低いとき、集中的解析を用いた検出の感度が、ゲノムワイド解析を用いたときよりも高かったことを示している。

【0348】

ディジョージ症候群に関連する染色体２２ｑ１１．２欠失領域を図３に提供する。領域Ａ～Ｄには、２２ｑ１１．２の欠失に関わる主要な組換え部位が含まれる（例えば、Ｓａｉｔｔａら（２００４）ＨｕｍＭｏｌＧｅｎｅｔ１３：４１７－４２８；およびＢｕｒｎｓｉｄｅ（２０１５）ＣｙｔｏｇｅｎｅｔＧｅｎｏｍｅＲｅｓ１４６：８９－９９を参照のこと）。ある特定の２２ｑ１１．２欠失の解析には、縦破線によって示される領域が含まれた。

【0349】

ＩＳＣＡデータベースにおいて報告されており、混合モデルにおいて使用されたゲノムＤＮＡ（ｇＤＮＡ）に存在する染色体２２ｑ１１．２欠失を図４に示す。黒色の縦破線（すなわち、外側の縦破線のセット）は、ゲノムワイド解析アルゴリズムを用いた２２ｑ１１．２欠失に対する解析ウィンドウを表している。灰色の縦破線（すなわち、内側の縦破線のセット）は、特定の２２ｑ１１．２欠失領域の周辺に最適化された２２ｑ１１．２欠失解析のための集中的解析ウィンドウを表している。ＩＳＣＡ２２ｑ１１．２欠失のサイズおよび座標頻度は、文献において報告されているものと一致しており、１メガベース未満から３メガベース超のサイズの範囲であった。２２ｑ１１．２ｇＤＮＡモデルサンプルは、コアの２２ｑ１１．２欠失領域をカバーしたが、ＩＳＣＡ事象と比べて多様でなかった。図４の上部のＡ～Ｈは、２２ｑ１１．２内のサブ染色体部分の欠失に関連すると報告されているゲノム領域を表している。

【0350】

全ゲノム配列決定によって特定された２２ｑ１１．２欠失の模式的描写を図５Ａ～５Ｄに示す。シミュレートされた信号、ノイズおよび事象サイズを示すことにより、２２ｑ１１．２欠失が表されている。図５Ａ～５Ｄの各々における欠失事象は、隣接領域と比べて有意に低い信号を有する曲線の部分と横軸との間の影付きの領域によって示されている。図５Ａおよび図５Ｂでは、欠失事象のエッジは、矢印と一致し；図５Ｃおよび図５Ｄでは、欠失事象のエッジは、矢印で規定された領域内にある。図５Ａ～５Ｄは、より低いまたは高い胎児比率およびより小さいまたは大きい事象サイズを有し得るサンプルに対する解析を示している。図５Ａは、低胎児比率を有するサンプル中の大きな欠失事象を示しており、図５Ｂは、高い胎児比率を有するサンプル中の大きな欠失事象を示しており、図５Ｃは、低い胎児比率を有するサンプル中の小さな欠失事象を示しており、図５Ｄは、高い胎児比率を有するサンプル中の小さな欠失事象を示している。ゲノムワイド解析は、サーキュラーバイナリーセグメンテーション（ＣＢＳ）法を用いることにより、２２ｑ１１．２を包含するゲノムウィンドウ（外側の縦破線のセット）内に事象のエッジを見出す。ＣＢＳによる事象のエッジの検出は、低胎児比率によって悪影響を受け得、二次的なｚ得点解析のための潜在的なコピー数変異セグメントを特定できない。したがって、胎児比率が低いとき（図５Ａおよび５Ｃにおけるように）、２２ｑ１１．２内の規定のサブ領域（矢印によって示される内側の縦破線のセット）を解析する集中的な解析方法を用いることにより、２２ｑ１１．２欠失の検出を最大にすることができる一方で、ＣＢＳセグメント化プロセスを用いるゲノムワイド解析の方法は、セグメントのエッジを検出しない可能性がより高い。胎児比率が高いとき（図５Ｂおよび５Ｄにおけるように）、ゲノムワイド解析は、事象のエッジを検出するがゆえに欠失事象を正確に検出する可能性が高い。

【0351】

既定のサブ領域内のＣＮＶの検出は、その既定のサブ領域内に存在する欠失であって、そのサブ領域より小さいかまたはその既定のサブ領域と部分的にだけオーバーラップする欠失によって悪影響を受け得る。したがって、検出されるサンプルにおける欠失事象が、規定のサブ領域内に存在し、そのサブ領域より小さいか、またはその既定のサブ領域と部分的にだけオーバーラップするとき、集中的な解析方法は、これらの欠失を検出できない可能性がより高く、ゆえにゲノムワイド解析がより好ましい（図５Ｃおよび５Ｄ）。したがって、ゲノムワイド解析と集中的解析とを組み合わせる方法は、サンプル中の胎児比率が低いとき、ＣＢＳのエッジ検出能を用いて小さな欠失を特定すること、および集中的解析ウィンドウ、すなわち、矢印によって示される内側の縦破線のセットを用いて、感度を改善することによって、感度を最大にすることができる。

【0352】

ゲノムワイド解析と集中的解析との組み合わせを用いて２２ｑ１１．２欠失を検出するための感度を図６に示す。ＩＳＣＡ２２ｑ１１．２事象のインシリコモデリングは、通常４％またはそれを超える胎児比率を含む母体血漿ＤＮＡに見られる胎児比率の分布において７４％という感度を示した。約１０％という胎児比率の中央値では９０％超の感度が観察された。ｇＤＮＡモデルシステムは、混合比の不正確さが補正された後、約７５％の感度を有したインシリコモデルの結果を裏付けた。１０％を超える胎児比率を模倣した混合比では、９７％超の感度が観察された。したがって、解析の組み合わせは、有益なことに、広範囲の胎児比率を有するサンプル中の欠失事象を検出できる。

【0353】

要約すれば、ＩＳＣＡにおける２２ｑ１１．２欠失事象は、ディジョージ症候群を有する患者における２２ｑ１１．２欠失のサイズおよびゲノム位置に酷似していた。ｇＤＮＡサンプルにおける欠失事象は、ＩＳＣＡ事象と比べてサイズおよび位置が均等に分布していなかった。集中的配列決定解析とゲノムワイド配列決定解析との組み合わせを用いた２２ｑ１１．２欠失の検出によって、母体血漿サンプル中の胎児比率にわたって７４％という感度が可能であった。９～１１％の胎児比率を模倣した混合比のｇＤＮＡサンプルにおいて２２ｑ１１．２欠失を検出するための感度は、９７％超であった。したがって、集中的配列決定解析とゲノムワイド配列決定解析との組み合わせは、２２ｑ１１．２欠失を検出するための感度を改善できる。

【0354】

実施例２：実施形態の例
本技術の実施形態の非限定的な例のリストをこの後に提供する。
Ａ１．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程；
ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程；および
ｃ）（ａ）または（ｂ）、または（ａ）および（ｂ）に従ってテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、方法。

【0355】

Ａ２．（ｂ）における所定のゲノム部分セットが、訓練セットの中の複数のサンプルに対する１つまたはそれを超える精度尺度に従って特定されており、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、実施形態Ａ１に記載の方法。

【0356】

Ａ３．（ｂ）における所定のゲノム部分セットが、訓練セットに対するサブ染色体領域におけるコピー数変異の存在を分類するための最適な精度尺度を提供するゲノム部分セットと特定される、実施形態Ａ２に記載の方法。

【0357】

Ａ４．（ｂ）における所定のゲノム部分セットが、あるプロセスによって特定されており、そのプロセスは、
サブ染色体領域内に複数の候補サブ領域を提供する工程；
訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程；および
（ｂ）におけるサブ領域を、１つまたはそれを超える精度尺度に従って最適な精度を提供するサブ領域と特定する工程
を含む、実施形態Ａ２またはＡ３に記載の方法。

【0358】

Ａ５．１つまたはそれを超える精度尺度が、感度尺度を含む、実施形態Ａ２～Ａ４のいずれか１つに記載の方法。

【0359】

Ａ６．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約７０％である、実施形態Ａ５に記載の方法。

【0360】

Ａ７．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約７５％である、実施形態Ａ５に記載の方法。

【0361】

Ａ８．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約８０％である、実施形態Ａ５に記載の方法。

【0362】

Ａ９．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約８５％である、実施形態Ａ５に記載の方法。

【0363】

Ａ１０．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約９０％である、実施形態Ａ５に記載の方法。

【0364】

Ａ１１．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約９５％である、実施形態Ａ５に記載の方法。

【0365】

Ａ１２．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約９７％である、実施形態Ａ５に記載の方法。

【0366】

Ａ１３．サブ染色体領域におけるコピー数変異が、微小欠失である、実施形態Ａ１～Ａ１２のいずれか１つに記載の方法。

【0367】

Ａ１３．１微小欠失が、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択されるゲノム領域またはゲノム領域の一部における欠失である、実施形態Ａ１３に記載の方法。

【0368】

Ａ１４．サブ染色体領域におけるコピー数変異が、微小重複である、実施形態Ａ１～Ａ１２のいずれか１つに記載の方法。

【0369】

Ａ１５．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約４０メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0370】

Ａ１６．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約２０メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0371】

Ａ１７．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約１０メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0372】

Ａ１８．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約７メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0373】

Ａ１８．１サブ染色体領域におけるコピー数変異の長さが、約２メガベース～約７メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0374】

Ａ１８．２サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約６メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0375】

Ａ１８．３サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約５メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0376】

Ａ１８．４サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約４メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0377】

Ａ１８．５サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約３メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0378】

Ａ１８．６サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約２メガベースである、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0379】

Ａ１８．７コピー数変異の長さが、約１メガベースまたはそれ未満である、実施形態Ａ１～Ａ１４のいずれか１つに記載の方法。

【0380】

Ａ１９．（ｂ）における配列リードの定量値が、配列リードカウントである、実施形態Ａ１～Ａ１８．７のいずれか１つに記載の方法。

【0381】

Ａ２０．（ｂ）における配列リードの定量値が、ＧＣバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、実施形態Ａ１～Ａ１８．７のいずれか１つに記載の方法。

【0382】

Ａ２１．正規化プロセスが、ＬＯＥＳＳ正規化および／または主成分正規化を含む、実施形態Ａ２０に記載の方法。

【0383】

Ａ２２．（ｂ）における配列リードの定量値が、標準得点である、実施形態Ａ１～Ａ２１のいずれか１つに記載の方法。

【0384】

Ａ２３．標準得点が、Ｚ得点である、実施形態Ａ２２に記載の方法。

【0385】

Ａ２３．１ｚ得点（Ｚ_ＳＵＢ）が、
Ｚ_ＳＵＢ＝（ＳＵＢ_ｓｃｑ－ＳＵＢ_ｍｃｑ）／ＭＡＤ
に従って決定され、
式中、
ＳＵＢ_ｓｃｑは、サブ領域のテストサンプルカウント定量値であり；
ＳＵＢ_ｍｃｑは、参照サンプルセットに対して生成されたサブ領域に対するカウント定量値の中央値であり；
ＭＡＤは、参照サンプルセットに対するサブ領域のカウント定量値に対して決定された中央絶対偏差である、
実施形態Ａ２３に記載の方法。

【0386】

Ａ２３．２ＳＵＢ_ｓｃｑが、テストサンプルに対するサブ領域における正規化された全カウントを常染色体の正規化された全カウントで除算した結果である、実施形態Ａ２３．１に記載の方法。

【0387】

Ａ２４．（ａ）におけるコピー数変異セグメントの存在または非存在が、セグメント化プロセスを含む決定分析に従って特定される、実施形態Ａ１～Ａ２３．２のいずれか１つに記載の方法。

【0388】

Ａ２５．（ａ）におけるセグメント化プロセスが、サーキュラーバイナリーセグメンテーション（ＣＢＳ）プロセスを含む、実施形態Ａ１～Ａ２４のいずれか１つに記載の方法。

【0389】

Ａ２６．（ａ）におけるセグメント化プロセスが、コピー数変異セグメントに対する定量値を生成する、実施形態Ａ１～Ａ２５のいずれか１つに記載の方法。

【0390】

Ａ２７．コピー数変異セグメントに対する定量値が、ｚ得点である、実施形態Ａ２６に記載の方法。

【0391】

Ａ２８．ｚ得点（Ｚ_ＳＥＧ）が、
Ｚ_ＳＥＧ＝（ＳＥＧ_ｓｃｑ－ＳＥＧ_ｍｃｑ）／ＭＡＤ
に従って決定され、
式中、
ＳＥＧ_ｓｃｑは、セグメントのテストサンプルカウント定量値であり；
ＳＥＧ_ｍｃｑは、参照サンプルセットに対して生成されたセグメントに対するカウント定量値の中央値であり
ＭＡＤは、参照サンプルセットに対するセグメントのカウント定量値に対して決定された中央絶対偏差である、
実施形態Ａ２７に記載の方法。

【0392】

Ａ２８．１ＳＥＧ_ｓｃｑが、テストサンプルに対するセグメントにおける正規化された全カウントを常染色体の正規化された全カウントで除算した結果である、実施形態Ａ２８に記載の方法。

【0393】

Ａ２９．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、コピー数変異セグメントに対する定量値に従って提供される、実施形態Ａ２６～Ａ２８．１のいずれか１つに記載の方法。

【0394】

Ａ３０．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、ｉ）（ａ）におけるコピー数変異セグメントに対する定量値、およびｉｉ）（ｂ）におけるサブ領域に対する配列リードの定量値に従って提供される、実施形態Ａ２６～Ａ２８．１のいずれか１つに記載の方法。

【0395】

Ａ３１．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、ｉ）（ａ）におけるコピー数変異セグメントに対する定量値、またはｉｉ）（ｂ）におけるサブ領域に対する配列リードの定量値に従って提供される、実施形態Ａ２６～Ａ２８．１のいずれか１つに記載の方法。

【0396】

Ａ３２．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約７０％の感度で分類される、実施形態Ａ１～Ａ３１のいずれか１つに記載の方法。

【0397】

Ａ３３．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約７５％の感度で分類される、実施形態Ａ１～Ａ３１のいずれか１つに記載の方法。

【0398】

Ａ３４．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約８０％の感度で分類される、実施形態Ａ１～Ａ３１のいずれか１つに記載の方法。

【0399】

Ａ３５．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約８５％の感度で分類される、実施形態Ａ１～Ａ３１のいずれか１つに記載の方法。

【0400】

Ａ３６．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９０％の感度で分類される、実施形態Ａ１～Ａ３１のいずれか１つに記載の方法。

【0401】

Ａ３７．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９５％の感度で分類される、実施形態Ａ１～Ａ３１のいずれか１つに記載の方法。

【0402】

Ａ３８．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９７％の感度で分類される、実施形態Ａ１～Ａ３１のいずれか１つに記載の方法。

【0403】

Ａ３９．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９９％の特異性で分類される、実施形態Ａ１～Ａ３８のいずれか１つに記載の方法。

【0404】

Ａ４０．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９９．９％の特異性で分類される、実施形態Ａ１～Ａ３８のいずれか１つに記載の方法。

【0405】

Ａ４１．（ｂ）における第２のゲノム部分セットが、（ａ）における第１のゲノム部分セットのサブセットである、実施形態Ａ１～Ａ４０のいずれか１つに記載の方法。

【0406】

Ａ４２．（ｂ）における第２のゲノム部分セットが、（ａ）における第１のゲノム部分セットとオーバーラップしているかまたは部分的にオーバーラップしている、実施形態Ａ１～Ａ４０のいずれか１つに記載の方法。

【0407】

Ａ４３．（ｂ）における第２のゲノム部分セットが、（ａ）における第１のゲノム部分セットよりも少ないゲノム部分を含む、実施形態Ａ１～Ａ４２のいずれか１つに記載の方法。

【0408】

Ｂ１．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
ａ）ゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
ｉ）そのゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；
ｉｉ）そのセットは、所定のゲノム部分セットであり；
ｉｉｉ）その所定のゲノム部分セットは、あるプロセスによって特定されており、そのプロセスは、
１）サブ染色体領域内に複数の候補サブ領域を提供する工程；
２）訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程；および
３）（ａ）におけるサブ領域を、１つまたはそれを超える精度尺度に従って最適な精度を提供するサブ領域として特定する工程
を含む、工程；および
ｂ）（ａ）における配列リードの定量値に従って、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、方法。

【0409】

Ｂ２．１つまたはそれを超える精度尺度が、感度尺度を含む、実施形態Ｂ１に記載の方法。

【0410】

Ｂ３．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約７０％である、実施形態Ｂ２に記載の方法。

【0411】

Ｂ４．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約７５％である、実施形態Ｂ２に記載の方法。

【0412】

Ｂ５．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約８０％である、実施形態Ｂ２に記載の方法。

【0413】

Ｂ６．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約８５％である、実施形態Ｂ２に記載の方法。

【0414】

Ｂ７．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約９０％である、実施形態Ｂ２に記載の方法。

【0415】

Ｂ８．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約９５％である、実施形態Ｂ２に記載の方法。

【0416】

Ｂ９．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、少なくとも約９７％である、実施形態Ｂ２に記載の方法。

【0417】

Ｂ１０．サブ染色体領域におけるコピー数変異が、微小欠失である、実施形態Ｂ１～Ｂ９のいずれか１つに記載の方法。

【0418】

Ｂ１１．微小欠失が、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択されるゲノム領域またはゲノム領域の一部における欠失である、実施形態Ｂ１０に記載の方法。

【0419】

Ｂ１２．サブ染色体領域におけるコピー数変異が、微小重複である、実施形態Ｂ１～Ｂ９のいずれか１つに記載の方法。

【0420】

Ｂ１３．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約４０メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0421】

Ｂ１４．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約２０メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0422】

Ｂ１５．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約１０メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0423】

Ｂ１６．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約７メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0424】

Ｂ１６．１サブ染色体領域におけるコピー数変異の長さが、約２メガベース～約７メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0425】

Ｂ１６．２サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約６メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0426】

Ｂ１６．３サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約５メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0427】

Ｂ１６．４サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約４メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0428】

Ｂ１６．５サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約３メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0429】

Ｂ１６．６サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約２メガベースである、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0430】

Ｂ１６．７コピー数変異の長さが、約１メガベースまたはそれ未満である、実施形態Ｂ１～Ｂ１２のいずれか１つに記載の方法。

【0431】

Ｂ１７．配列リードの定量値が、配列リードカウントである、実施形態Ｂ１～Ｂ１６．７のいずれか１つに記載の方法。

【0432】

Ｂ１８．配列リードの定量値が、ＧＣバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、実施形態Ｂ１～Ｂ１７のいずれか１つに記載の方法。

【0433】

Ｂ１９．正規化プロセスが、ＬＯＥＳＳ正規化および／または主成分正規化を含む、実施形態Ｂ１８に記載の方法。

【0434】

Ｂ２０．配列リードの定量値が、標準得点である、実施形態Ｂ１～Ｂ１９のいずれか１つに記載の方法。

【0435】

Ｂ２１．標準得点が、Ｚ得点である、実施形態Ｂ２０に記載の方法。

【0436】

Ｂ２２．ｚ得点（Ｚ_ＳＵＢ）が、
Ｚ_ＳＵＢ＝（ＳＵＢ_ｓｃｑ－ＳＵＢ_ｍｃｑ）／ＭＡＤ
に従って決定され、
式中、
ＳＵＢ_ｓｃｑは、サブ領域のテストサンプルカウント定量値であり；
ＳＵＢ_ｍｃｑは、参照サンプルセットに対して生成されたサブ領域に対するカウント定量値の中央値であり；
ＭＡＤは、参照サンプルセットに対するサブ領域のカウント定量値に対して決定された中央絶対偏差である、
実施形態Ｂ２１に記載の方法。

【0437】

Ｂ２２．１ＳＵＢ_ｓｃｑが、テストサンプルに対するサブ領域における正規化された全カウントを常染色体の正規化された全カウントで除算した結果である、実施形態Ｂ２２に記載の方法。

【0438】

Ｂ２３．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約７０％の感度で分類される、実施形態Ｂ１～Ｂ２２．１のいずれか１つに記載の方法。

【0439】

Ｂ２４．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約７５％の感度で分類される、実施形態Ｂ１～Ｂ２２．１のいずれか１つに記載の方法。

【0440】

Ｂ２５．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約８０％の感度で分類される、実施形態Ｂ１～Ｂ２２．１のいずれか１つに記載の方法。

【0441】

Ｂ２６．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約８５％の感度で分類される、実施形態Ｂ１～Ｂ２２．１のいずれか１つに記載の方法。

【0442】

Ｂ２７．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９０％の感度で分類される、実施形態Ｂ１～Ｂ２２．１のいずれか１つに記載の方法。

【0443】

Ｂ２８．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９５％の感度で分類される、実施形態Ｂ１～Ｂ２２．１のいずれか１つに記載の方法。

【0444】

Ｂ２９．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９７％の感度で分類される、実施形態Ｂ１～Ｂ２２．１のいずれか１つに記載の方法。

【0445】

Ｂ３０．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９９％の特異性で分類される、実施形態Ｂ１～Ｂ２９のいずれか１つに記載の方法。

【0446】

Ｂ３１．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、少なくとも約９９．９％の特異性で分類される、実施形態Ｂ１～Ｂ２９のいずれか１つに記載の方法。

【0447】

Ｃ１．テストサンプル中の核酸が、試験被験体由来である、実施形態Ａ１～Ｂ３１のいずれか１つに記載の方法。

【0448】

Ｃ２．テストサンプル中の核酸が、循環無細胞核酸を含む、実施形態Ａ１～Ｃ１のいずれか１つに記載の方法。

【0449】

Ｃ３．循環無細胞核酸が、試験被験体の血漿または血清由来である、実施形態Ｃ２に記載の方法。

【0450】

Ｃ４．試験被験体が、雌性体である、実施形態Ｃ１～Ｃ３のいずれか１つに記載の方法。

【0451】

Ｃ５．雌性体が、ヒト雌性体である、実施形態Ｃ４に記載の方法。

【0452】

Ｃ６．雌性体が、妊婦である、実施形態Ｃ４またはＣ５に記載の方法。

【0453】

Ｃ６．１テストサンプル中の核酸が、母体核酸および胎児核酸を含む、実施形態Ｃ６に記載の方法。

【0454】

Ｃ６．２テストサンプル中の胎児核酸の比率が、約１５％未満である、実施形態Ｃ６．１に記載の方法。

【0455】

Ｃ６．３テストサンプル中の胎児核酸の比率が、約１０％未満である、実施形態Ｃ６．１に記載の方法。

【0456】

Ｃ６．４テストサンプル中の胎児核酸の比率が、約５％未満である、実施形態Ｃ６．１に記載の方法。

【0457】

Ｃ７．試験被験体が、雄性体である、実施形態Ｃ１～Ｃ３のいずれか１つに記載の方法。

【0458】

Ｃ８．試験被験体が、ヒト雄性体である、実施形態Ｃ７に記載の方法。

【0459】

Ｃ９．ゲノム部分セット内のゲノム部分が、既定の長さである、実施形態Ａ１～Ｃ８のいずれか１つに記載の方法。

【0460】

Ｃ１０．ゲノム部分セット内のゲノム部分が、等しい長さである、実施形態Ｃ９に記載の方法。

【0461】

Ｃ１１．ゲノム部分セット内のゲノム部分が、約５０キロベース長である、実施形態Ｃ１０に記載の方法。

【0462】

Ｃ１２．ゲノム部分セット内のゲノム部分の少なくとも２つが、等しくない長さである、実施形態Ａ１～Ｃ９のいずれか１つに記載の方法。

【0463】

Ｃ１３．ゲノム部分セット内のゲノム部分が、オーバーラップしていない、実施形態Ａ１～Ｃ１２のいずれか１つに記載の方法。

【0464】

Ｃ１４．ゲノム部分の３’末端が、隣接するゲノム部分の５’末端に隣接する、実施形態Ｃ１３に記載の方法。

【0465】

Ｃ１５．ゲノム部分セット内のゲノム部分の少なくとも２つが、オーバーラップしている、実施形態Ａ１～Ｃ１２のいずれか１つに記載の方法。

【0466】

Ｃ１６．配列決定プロセスによってテストサンプル中の核酸から配列リードを生成する工程を含む、実施形態Ａ１～Ｃ１５のいずれか１つに記載の方法。

【0467】

Ｃ１７．配列プロセスが、ゲノムワイド配列決定プロセスである、実施形態Ｃ１６に記載の方法。

【0468】

Ｃ１８．配列決定プロセスが、合成による配列決定を含む、実施形態Ｃ１６またはＣ１７に記載の方法。

【0469】

Ｃ１９．テストサンプル中の核酸が、ハイブリダイゼーション条件下においてプローブオリゴヌクレオチドによって捕捉される、実施形態Ｃ１６に記載の方法。

【0470】

Ｃ２０．配列リードを得る工程、およびその配列リードをゲノム部分にマッピングすることによって、そのゲノム部分にマッピングされた配列リードを提供する工程を含む、実施形態Ａ１～Ｃ１９のいずれか１つに記載の方法。

【0471】

Ｃ２１．ゲノム部分にマッピングされた配列リードを得る工程、および各ゲノム部分にマッピングされた配列リードを定量することによって、そのゲノム部分にマッピングされた配列リードの定量値を生成する工程を含む、実施形態Ａ１～Ｃ２０のいずれか１つに記載の方法。

【0472】

Ｃ２２．各ゲノム部分にマッピングされた配列リードの定量値が、カウントまたはリード密度である、実施形態Ｃ２１に記載の方法。

【0473】

Ｃ２３．ゲノム部分にマッピングされた配列リードの定量値を正規化することによって、ゲノム部分にマッピングされた、正規化された配列リードの定量値を生成する工程を含む、実施形態Ａ１～Ｃ２２のいずれか１つに記載の方法。

【0474】

Ｃ２４．正規化が、グアニン－シトシンＧＣ正規化プロセスを含む、実施形態Ｃ２３に記載の方法。

【0475】

Ｃ２５．正規化プロセスが、ＬＯＥＳＳ、ＧＣＲＭまたはそれらの組み合わせを含む、実施形態Ｃ２４に記載の方法。

【0476】

Ｃ２６．正規化が、ゲノム部分にマッピングされた配列リードの定量値または配列リードの正規化された定量値を、サンプルの訓練セットから導かれた主成分部分の重みによって調整し、それによって、ゲノム部分にマッピングされた、調整された配列リードの定量値を生成する工程を含む、実施形態Ｃ２３～Ｃ２５のいずれか１つに記載の方法。

【0477】

Ｃ２７．ある特定のゲノム部分が、正規化または調整の前または後にフィルタリングされる、実施形態Ｃ２３～Ｃ２６のいずれか１つに記載の方法。

【0478】

Ｃ２８．フィルタリングが、マッピング性、リピートマスクまたはそれらの組み合わせに基づく、実施形態Ｃ２７に記載の方法。

【0479】

Ｃ２９．フィルタリングが、複数の参照サンプルにわたってゲノム部分にマッピングされた配列リードの定量値の変動、複数の参照サンプルにわたって一貫してゲノム部分にマッピングされたリードが無いこと、またはそれらの組み合わせに基づく、実施形態Ｃ２８に記載の方法。

【0480】

Ｃ３０．実施形態Ａ１の（ａ）、（ｂ）および／もしくは（ｃ）、または実施形態Ｂ１の（ａ）および／もしくは（ｂ）が、コンピュータによって行われる、実施形態Ａ１～Ｃ２９のいずれか１つに記載の方法。

【0481】

Ｃ３１．実施形態Ａ１の（ａ）、（ｂ）および／もしくは（ｃ）、または実施形態Ｂ１の（ａ）および／もしくは（ｂ）が、コンピュータにおける１つまたはそれを超えるプロセッサによって行われる、実施形態Ｃ３０に記載の方法。

【0482】

Ｃ３２．実施形態Ａ１の（ａ）、（ｂ）および／もしくは（ｃ）、または実施形態Ｂ１の（ａ）および／もしくは（ｂ）が、メモリに格納された指示に従って行われ、コンピュータによって実行される、実施形態Ｃ３０またはＣ３１に記載の方法。

【0483】

Ｃ３３．妊婦由来のテストサンプルに対するサブ染色体領域における微小欠失の存在または非存在を分類するための方法であって、その方法は、
ａ）サーキュラーバイナリーセグメンテーションプロセスを含む方法を用いて、第１のゲノム部分セットを含む領域における微小欠失セグメントの存在または非存在を特定する工程、および存在する場合、その微小欠失セグメントに対するｚ得点を提供する工程；
ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対するｚ得点を提供する工程であって、ここで、
第２のセットは、
１）サブ染色体領域内に複数の候補サブ領域を提供する工程；
２）訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して感度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域に微小欠失を有すると分類される、工程；および
３）（ａ）におけるサブ領域を、最適な感度を提供するサブ領域として特定する工程
を含むプロセスによって特定された所定のゲノム部分セットであり、
（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程；および
ｃ）（ａ）および（ｂ）に従ってテストサンプルに対するサブ染色体領域における微小欠失の存在または非存在の分類を提供する工程
を含む、方法。

【0484】

Ｄ１．１つまたはそれを超えるプロセッサおよびメモリを備えるシステムであって、そのメモリは、１つまたはそれを超えるプロセッサによって実行可能な指示を含み、その１つまたはそれを超えるプロセッサによって実行可能な指示は、実施形態Ａ１～Ｃ３２のいずれか１つに記載の方法を行うように設定されている、システム。

【0485】

Ｄ２．１つまたはそれを超えるプロセッサおよびメモリを備える機器であって、そのメモリは、１つまたはそれを超えるプロセッサによって実行可能な指示を含み、その１つまたはそれを超えるプロセッサによって実行可能な指示は、実施形態Ａ１～Ｃ３２のいずれか１つに記載の方法を行うように設定されている、機器。

【0486】

Ｄ３．コンピュータ可読記憶媒体としてのコンピュータプログラム製品であって、その製品は、コンピュータが実施形態Ａ１～Ｃ３２のいずれか１つに記載の方法を行うようにプログラミングされた指示を備える、コンピュータプログラム製品。

【0487】

Ｅ１．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
（ａ）第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程；および
その特定に基づいて、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、方法。

【0488】

Ｅ２．特定工程が、セグメント化プロセスを用いて行われる、実施形態Ｅ１に記載の方法。

【0489】

Ｅ３．
ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、
第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程
をさらに含み、（ａ）および（ｂ）に従って、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が提供される、実施形態１に記載の方法。

【0490】

Ｆ１．テストサンプルに対して目的のサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程であって、その領域は、目的のサブ染色体領域の少なくとも一部を含む、工程；
ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程；
を含む、方法であって、参照サンプルセットを基準とした（ａ）の領域内、（ｂ）のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が提供される、方法。

【0491】

Ｆ２．第１のゲノム部分セットが、第２のゲノム部分セットのサブセットであるか、または第２のゲノム部分セットと同じである、実施形態Ｆ１に記載の方法。

【0492】

Ｆ２．１第２のゲノム部分セットが、第１のゲノム部分セットのサブセットである、実施形態Ｆ１に記載の方法。

【0493】

Ｆ３．ａ）における領域が、サブ染色体領域を包含する、実施形態Ｆ１に記載の方法。

【0494】

Ｆ４．ａ）における領域が、サブ染色体領域とオーバーラップしている、実施形態Ｆ１に記載の方法。

【0495】

Ｆ５．（ｂ）における所定のゲノム部分セットが、訓練セットの中の複数のサンプルに対して１つまたはそれを超える精度尺度を用いて特定されており、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、実施形態Ｆ１に記載の方法。

【0496】

Ｆ６．（ｂ）における所定のゲノム部分セットが、訓練セットに対するサブ染色体領域におけるコピー数変異の存在を分類するための精度尺度を提供するゲノム部分セットと特定され、その精度尺度は、所定のしきい値に等しいかまたはそれを超える、実施形態Ｆ５に記載の方法。

【0497】

Ｆ７．（ｂ）における所定のゲノム部分セットが、あるプロセスによって特定されており、そのプロセスは、
サブ染色体領域内に複数の候補サブ領域を提供する工程；
訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程；および
（ｂ）におけるサブ領域を、所定のしきい値に等しいかまたはそれを超える１つまたはそれを超える精度尺度に従って精度を提供するサブ領域と特定する工程
を含む、実施形態Ｆ５またはＦ６に記載の方法。

【0498】

Ｆ８．１つまたはそれを超える精度尺度が、感度尺度を含む、実施形態Ｆ７のいずれか１つに記載の方法。

【0499】

Ｆ９．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度尺度が、７０％～１００％である、実施形態Ｆ８に記載の方法。

【0500】

Ｆ１０．サブ染色体領域におけるコピー数変異が、微小欠失である、実施形態Ｆ１～Ｆ９のいずれか１つに記載の方法。

【0501】

Ｆ１１．微小欠失が、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択されるゲノム領域またはゲノム領域の一部における欠失である、実施形態Ｆ１０に記載の方法。

【0502】

Ｆ１２．サブ染色体領域におけるコピー数変異が、微小重複である、実施形態Ｆ１～Ｆ９のいずれか１つに記載の方法。

【0503】

Ｆ１３．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約４０メガベースである、実施形態Ｆ１～Ｆ１２のいずれか１つに記載の方法。

【0504】

Ｆ１４．コピー数変異の長さが、約１メガベースまたはそれ未満である、実施形態Ｆ１～１２のいずれか１つに記載の方法。

【0505】

Ｆ１５．（ｂ）における配列リードの定量値が、配列リードカウントである、実施形態Ｆ１～Ｆ１４のいずれか１つに記載の方法。

【0506】

Ｆ１６．（ｂ）における配列リードの定量値が、ＧＣバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、実施形態Ｆ１～Ｆ１４のいずれか１つに記載の方法。

【0507】

Ｆ１７．正規化プロセスが、ＬＯＥＳＳ正規化および／または主成分正規化を含む、実施形態Ｆ１６に記載の方法。

【0508】

Ｆ１８．（ｂ）における配列リードの定量値が、標準得点である、実施形態Ｆ１～Ｆ１７のいずれか１つに記載の方法。

【0509】

Ｆ１９．標準得点が、ｚ得点である、実施形態Ｆ１８に記載の方法。

【0510】

Ｆ２０．Ｚ得点が、カットオフ値より高いまたは低いとき、コピー数変異の存在または非存在が分類される、実施形態Ｆ１９に記載の方法。

【0511】

Ｆ２１．（ａ）におけるコピー数変異セグメントの存在または非存在が、セグメント化プロセスを含む決定分析に従って特定される、実施形態Ｆ１～Ｆ１９のいずれか１つに記載の方法。

【0512】

Ｆ２２．（ａ）におけるセグメント化プロセスが、サーキュラーバイナリーセグメンテーション（ＣＢＳ）プロセスを含む、実施形態Ｆ１～Ｆ２１のいずれか１つに記載の方法。

【0513】

Ｆ２３．（ａ）におけるセグメント化プロセスが、コピー数変異セグメントに対する定量値を生成する、実施形態Ｆ１～Ｆ２２のいずれか１つに記載の方法。

【0514】

Ｆ２４．Ｚ得点が、カットオフ値より高いまたは低いとき、コピー数変異の存在または非存在が分類される、実施形態Ｆ２３に記載の方法。

【0515】

Ｆ２５．コピー数変異セグメントに対する定量値が、ｚ得点である、実施形態Ｆ２３に記載の方法。

【0516】

Ｆ２６．Ｚ得点が、カットオフ値より高いまたは低いとき、コピー数変異の存在または非存在が分類される、実施形態Ｆ２５に記載の方法。

【0517】

Ｆ２７．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、コピー数変異セグメントに対する定量値に従って提供される、実施形態Ｆ２３またはＦ２５に記載の方法。

【0518】

Ｆ２８．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、ｉ）（ａ）におけるコピー数変異セグメントに対する定量値、およびｉｉ）（ｂ）におけるサブ領域に対する配列リードの定量値に従って提供される、実施形態Ｆ２３またはＦ２５に記載の方法。

【0519】

Ｆ２９．テストサンプルが、多数核酸種および少数核酸種を含み、方法が、少数種におけるコピー数変異の存在または非存在を分類する、実施形態Ｆ１～Ｆ２７のいずれかに記載の方法。

【0520】

Ｆ３０．方法が、テストサンプル中の少数核酸種の相対量を計測する工程をさらに含む、実施形態Ｆ１～Ｆ２９のいずれかに記載の方法。

【0521】

Ｆ３１．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、ａ）における方法に基づき、そのサンプルは、１２％より高い少数核酸種の比率を含む、実施形態Ｆ１～Ｆ２９のいずれか１つに記載の方法。

【0522】

Ｆ３２．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類が、ｂ）における方法に基づき、そのサンプルは、１２％より低い少数核酸種の比率を含む、実施形態Ｆ１～Ｆ２９のいずれか１つに記載の方法。

【0523】

Ｆ３３．少数核酸種が、胎児核酸であり、多数核酸種が、母体核酸である、実施形態Ｆ２９～Ｆ３２に記載の方法。

【0524】

Ｆ３４．少数核酸種が、テストサンプル中の腫瘍核酸であり、多数核酸種が、非腫瘍核酸である、実施形態Ｆ２９～Ｆ３２に記載の方法。

【0525】

Ｆ３５．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、約７０％～１００％の感度で分類される、実施形態Ｆ１～Ｆ２８のいずれか１つに記載の方法。

【0526】

Ｆ３６．（ｂ）における第２のゲノム部分セットが、（ａ）における第１のゲノム部分セットのサブセットである、実施形態Ｆ１～Ｆ３５のいずれか１つに記載の方法。

【0527】

Ｆ３７．（ｂ）における第２のゲノム部分セットが、（ａ）における第１のゲノム部分セットとオーバーラップしているかまたは部分的にオーバーラップしている、実施形態Ｆ１～Ｆ３５のいずれか１つに記載の方法。

【0528】

Ｆ３８．（ｂ）における第２のゲノム部分セットが、（ａ）における第１のゲノム部分セットよりも少ないゲノム部分を含む、実施形態Ｆ１～Ｆ３５のいずれか１つに記載の方法。

【0529】

Ｆ３９．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、その方法は、
ａ）ゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
ｉ）そのゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；
ｉｉ）そのセットは、所定のゲノム部分セットであり；
ｉｉｉ）その所定のゲノム部分セットは、あるプロセスによって特定されており、そのプロセスは、
１）サブ染色体領域内に複数の候補サブ領域を提供する工程；
２）訓練セットの中の複数のサンプルに対する複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度を提供する工程であって、その複数のサンプルの各々は、サブ染色体領域にコピー数変異を有すると分類される、工程；および
３）（ａ）におけるサブ領域を、１つまたはそれを超える精度尺度に従って最適な精度を提供するサブ領域として特定する工程
を含む、工程；および
ｂ）参照サンプルセットに対する配列リードの定量値を基準とした（ａ）における配列リードの定量値に従って、テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、方法。

【0530】

Ｆ４０．１つまたはそれを超える精度尺度が、感度尺度を含む、実施形態Ｆ３９に記載の方法。

【0531】

Ｆ４１．訓練セットの中の複数のサンプルの各々を、サブ染色体領域にコピー数変異を有すると分類するための感度が、７０％～１００％である、実施形態Ｆ４０に記載の方法。

【0532】

Ｆ４２．サブ染色体領域におけるコピー数変異が、微小欠失である、実施形態Ｆ３９～Ｆ４１のいずれか１つに記載の方法。

【0533】

Ｆ４３．微小欠失が、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択されるゲノム領域またはゲノム領域の一部における欠失である、実施形態Ｆ４２に記載の方法。

【0534】

Ｆ４４．サブ染色体領域におけるコピー数変異が、微小重複である、実施形態Ｆ３９～Ｆ４１のいずれか１つに記載の方法。

【0535】

Ｆ４５．サブ染色体領域におけるコピー数変異の長さが、約１メガベース～約４０メガベースである、実施形態Ｆ３９～Ｆ４４のいずれか１つに記載の方法。

【0536】

Ｆ４６．配列リードの定量値が、配列リードカウントである、実施形態Ｆ３９～Ｆ４４のいずれか１つに記載の方法。

【0537】

Ｆ４７．配列リードの定量値が、ＧＣバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、実施形態Ｆ３９～Ｆ４６のいずれか１つに記載の方法。

【0538】

Ｆ４８．配列リードの定量値が、標準得点である、実施形態Ｆ３９～Ｆ４７のいずれか１つに記載の方法。

【0539】

Ｆ４９．標準得点が、Ｚ得点である、実施形態Ｆ４８に記載の方法。

【0540】

Ｆ５０．テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在が、７０％～１００％の感度で分類される、実施形態Ｆ３９～Ｆ４９のいずれか１つに記載の方法。

【0541】

Ｆ５１．テストサンプル中の核酸が、循環無細胞核酸を含む、実施形態Ｆ１～Ｆ５０のいずれか１つに記載の方法。

【0542】

Ｆ５２．循環無細胞核酸が、試験被験体の血漿または血清に由来する、実施形態Ｆ５１に記載の方法。

【0543】

Ｆ５３．コピー数変異が、腫瘍細胞または癌細胞のコピー数変異である、実施形態Ｆ１～Ｆ５２のいずれか１つに記載の方法。

【0544】

Ｆ５４．コピー数変異が、胎児のゲノムにおけるコピー数変異である、実施形態Ｆ１～Ｆ５２のいずれか１つに記載の方法。

【0545】

Ｆ５５．配列決定プロセスによってテストサンプル中の核酸から配列リードを生成する工程を含む、実施形態Ｆ１～Ｆ５２のいずれか１つに記載の方法。

【0546】

Ｆ５６．配列リードを得る工程、およびその配列リードをゲノム部分にマッピングすることによって、そのゲノム部分にマッピングされた配列リードを提供する工程を含む、実施形態Ｆ１～Ｆ５５のいずれか１つに記載の方法。

【0547】

Ｆ５７．１つまたはそれを超えるプロセッサおよびメモリを備えるシステムであって、そのメモリは、１つまたはそれを超えるプロセッサによって実行可能な指示を含み、その１つまたはそれを超えるプロセッサによって実行可能な指示は、前述の実施形態のいずれかに記載の方法のいずれかを行うように設定されており、１つまたはそれを超えるプロセッサは、
ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定するように設定されており、その領域は、目的のサブ染色体領域の少なくとも一部を含み；
ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供するように設定されており、ここで、
第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；かつ
ｃ）参照サンプルセットを基準とした（ａ）の領域内、（ｂ）のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供するように設定されている、
システム。

【0548】

Ｆ５８．コンピュータ可読記憶媒体としてのコンピュータプログラム製品であって、
その製品は、
ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程であって、その領域は、目的のサブ染色体領域の少なくとも一部を含む、工程；
ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）におけるゲノム部分は、テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、工程；および
ｃ）参照サンプルセットを基準とした（ａ）の領域内、（ｂ）のサブ領域内またはその両方内の変化に基づいてテストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在の分類を提供する工程
を含む、前述の実施形態のいずれかに記載の方法のいずれかをコンピュータが行うようにプログラミングされた指示を備える、コンピュータプログラム製品。

【0549】

本明細書中で参照される各特許、特許出願、刊行物および文書の全体が、参照により本明細書に援用される。上記特許、特許出願、刊行物および文書の引用は、前述のいずれもが適切な従来技術であることを自認するものではないし、その引用が、これらの刊行物または文書の内容または日付に関するいずれの自認も構成しない。それらの引用は、関連する開示の検索を示すものではない。それらの文書の日付または内容に関するすべての記載は、入手可能な情報に基づくものであって、それらの精度または正確さに関して自認するものではない。

【0550】

本技術の基本的な態様から逸脱することなく、前述のものに対して改変が行われ得る。本技術は、１つまたはそれを超える特定の実施形態に照らして実質的に詳細に記載されてきたが、当業者は、本願に具体的に開示された実施形態に対して変更が行われ得るが、これらの改変および改善は、本技術の範囲内および趣旨の範囲内であることを認識するだろう。

【0551】

本明細書中に例証的に記載された技術は、本明細書中に具体的に開示されていない任意のエレメントの非存在下において適切に実施され得る。したがって、例えば、本明細書中の各場合において、用語「～を含む」、「～から本質的になる」および「～からなる」のいずれもが、他の２つの用語のいずれかと置き換えられてもよい。用いられてきた用語および表現は、説明の用語であって限定でない用語として使用され、そのような用語および表現の使用は、示されたおよび記載された特徴またはその一部の等価物を排除せず、特許請求される技術の範囲内で様々な改変が可能である。用語「ａ」または「ａｎ」は、それらのエレメントの１つまたはそれらのエレメントの１つより多いエレメントが記載されていることが文脈上明らかでない限り、それが修飾するエレメントの１つまたは複数のことを指し得る（例えば、「試薬（ａｒｅａｇｅｎｔ）」は、１つまたはそれを超える試薬を意味し得る）。用語「約」は、本明細書中で使用されるとき、基礎をなすパラメータの１０％以内の値（すなわち、プラスまたはマイナス１０％）のことを指し、一連の値の最初における用語「約」の使用は、それらの値の各々を修飾する（すなわち、「約１、２および３」は、約１、約２および約３のことを指す）。例えば、「約１００グラム」という重量は、９０グラム～１１０グラムの重量を含み得る。さらに、値のリストが本明細書中に記載されるとき（例えば、約５０％、６０％、７０％、８０％、８５％または８６％）、そのリストは、それらのすべての中間値および小数値（例えば、５４％、８５．４％）を含む。したがって、本技術は、代表的な実施形態および随意の特徴によって具体的に開示されてきたが、本明細書中に開示される概念の改変およびバリエーションは、当業者によって用いられ得、そのような改変およびバリエーションは、本技術の範囲内であると見なされることが理解されるべきである。

【0552】

本技術のある特定の実施形態が、以下の請求項に示される。
（項目１）
テストサンプルに対する目的のサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、前記方法は、
（ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定する工程であって、前記領域は、前記目的のサブ染色体領域の少なくとも一部を含む、工程；および
（ｂ）第２のゲノム部分セットを含む前記サブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程
を含み、ここで、
前記第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）における前記ゲノム部分は、前記テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；
参照サンプルセットを基準とした（ａ）の領域内、（ｂ）のサブ領域内またはその両方内の変化に基づいて前記テストサンプルに対する前記サブ染色体領域におけるコピー数変異の存在または非存在の分類が提供される、方法。
（項目２）
前記第１のゲノム部分セットが、前記第２のゲノム部分セットのサブセットである、項目１に記載の方法。
（項目３）
（ａ）における前記領域が、前記サブ染色体領域を包含する、項目１に記載の方法。
（項目４）
（ａ）における前記領域が、前記サブ染色体領域とオーバーラップしている、項目１に記載の方法。
（項目５）
（ｂ）における前記所定のゲノム部分セットが、訓練セットの中の複数のサンプルに対して１つまたはそれを超える精度尺度を用いて特定されており、前記複数のサンプルの各々は、前記サブ染色体領域にコピー数変異を有すると分類される、項目１に記載の方法。
（項目６）
（ｂ）における前記所定のゲノム部分セットが、前記訓練セットに対する前記サブ染色体領域におけるコピー数変異の存在を分類するための精度尺度を提供するゲノム部分セットとして特定され、前記精度尺度は、所定のしきい値に等しいかまたはそれを超える、項目５に記載の方法。
（項目７）
（ｂ）における前記所定のゲノム部分セットが、あるプロセスによって特定されており、前記プロセスは、
前記サブ染色体領域内に複数の候補サブ領域を提供する工程；
前記訓練セットの中の複数のサンプルに対する前記複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度を提供する工程であって、前記複数のサンプルの各々は、前記サブ染色体領域にコピー数変異を有すると分類される、工程；および
（ｂ）における前記サブ領域を、所定のしきい値に等しいかまたはそれを超える精度尺度を提供するサブ領域と特定する工程
を含む、項目５または６に記載の方法。
（項目８）
前記１つまたはそれを超える精度尺度が、感度尺度を含む、項目５～７のいずれか１項に記載の方法。
（項目９）
前記訓練セットの中の前記複数のサンプルの各々を、前記サブ染色体領域にコピー数変異を有すると分類するための前記感度尺度が、７０％～１００％である、項目８に記載の方法。
（項目１０）
前記サブ染色体領域における前記コピー数変異が、微小欠失である、項目１～９のいずれか１項に記載の方法。
（項目１１）
前記微小欠失が、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択されるゲノム領域またはゲノム領域の一部における欠失である、項目１０に記載の方法。
（項目１２）
前記サブ染色体領域における前記コピー数変異が、微小重複である、項目１～９のいずれか１項に記載の方法。
（項目１３）
前記サブ染色体領域における前記コピー数変異の長さが、約１メガベース～約４０メガベースである、項目１～１２のいずれか１項に記載の方法。
（項目１４）
前記コピー数変異の長さが、約１メガベースまたは１メガベース未満である、項目１～１２のいずれか１項に記載の方法。
（項目１５）
（ｂ）における前記配列リードの定量値が、配列リードカウントである、項目１～１４のいずれか１項に記載の方法。
（項目１６）
（ｂ）における前記配列リードの定量値が、ＧＣバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、項目１～１４のいずれか１項に記載の方法。
（項目１７）
前記正規化プロセスが、ＬＯＥＳＳ正規化および／または主成分正規化を含む、項目１６に記載の方法。
（項目１８）
（ｂ）における前記配列リードの定量値が、標準得点である、項目１～１７のいずれか１項に記載の方法。
（項目１９）
前記標準得点が、ｚ得点である、項目１８に記載の方法。
（項目２０）
前記Ｚ得点が、カットオフ値より高いまたは低いとき、前記コピー数変異の存在または非存在が分類される、項目１９に記載の方法。
（項目２１）
（ａ）における前記コピー数変異セグメントの存在または非存在が、セグメント化プロセスを含む決定分析に従って特定される、項目１～１９のいずれか１項に記載の方法。
（項目２２）
（ａ）における前記セグメント化プロセスが、サーキュラーバイナリーセグメンテーション（ＣＢＳ）プロセスを含む、項目１～２１のいずれか１項に記載の方法。
（項目２３）
（ａ）における前記セグメント化プロセスが、前記コピー数変異セグメントに対する定量値を生成する、項目１～２２のいずれか１項に記載の方法。
（項目２４）
前記Ｚ得点が、カットオフ値より高いまたは低いとき、前記コピー数変異の存在または非存在が分類される、項目２３に記載の方法。
（項目２５）
前記コピー数変異セグメントに対する定量値が、ｚ得点である、項目２３に記載の方法。
（項目２６）
前記Ｚ得点が、カットオフ値より高いまたは低いとき、前記コピー数変異の存在または非存在が分類される、項目２５に記載の方法。
（項目２７）
前記テストサンプルに対する前記サブ染色体領域における前記コピー数変異の存在または非存在の分類が、前記コピー数変異セグメントに対する定量値に従って提供される、項目２３または２５に記載の方法。
（項目２８）
前記テストサンプルに対する前記サブ染色体領域における前記コピー数変異の存在または非存在の分類が、ｉ）（ａ）における前記コピー数変異セグメントに対する定量値、およびｉｉ）（ｂ）における前記サブ領域に対する前記配列リードの定量値に従って提供される、項目２３または２５に記載の方法。
（項目２９）
前記テストサンプルが、多数核酸種および少数核酸種を含み、前記方法が、前記少数種におけるコピー数変異の存在または非存在を分類する、項目１～２７のいずれかに記載の方法。
（項目３０）
前記少数核酸種が、胎児核酸であり、前記多数核酸種が、母体核酸である、項目２９に記載の方法。
（項目３１）
前記テストサンプルにおいて、前記少数核酸種が、腫瘍核酸であり、前記多数核酸種が、非腫瘍核酸である、項目２９に記載の方法。
（項目３２）
前記テストサンプルに対する前記サブ染色体領域における前記コピー数変異の存在または非存在が、約７０％～１００％の感度で分類される、項目１～２８のいずれか１項に記載の方法。
（項目３３）
（ｂ）における前記第２のゲノム部分セットが、（ａ）における前記第１のゲノム部分セットのサブセットである、項目１～３２のいずれか１項に記載の方法。
（項目３４）
（ｂ）における前記第２のゲノム部分セットが、（ａ）における前記第１のゲノム部分セットとオーバーラップしているかまたは部分的にオーバーラップしている、項目１～３２のいずれか１項に記載の方法。
（項目３５）
（ｂ）における前記第２のゲノム部分セットが、（ａ）における前記第１のゲノム部分セットよりも少ないゲノム部分を含む、項目１～３２のいずれか１項に記載の方法。
（項目３６）
テストサンプルに対するサブ染色体領域におけるコピー数変異の存在または非存在を分類するための方法であって、前記方法は、
（ａ）ゲノム部分セットを含む前記サブ染色体領域内のサブ領域に対する配列リードの定量値を提供する工程であって、ここで、
ｉ）前記ゲノム部分は、前記テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；
ｉｉ）前記セットは、所定のゲノム部分セットであり；
ｉｉｉ）前記所定のゲノム部分セットは、あるプロセスによって特定されており、前記プロセスは、
１）前記サブ染色体領域内に複数の候補サブ領域を提供する工程；
２）前記訓練セットの中の複数のサンプルに対する前記複数の候補サブ領域の各々に対して１つまたはそれを超える精度尺度を提供する工程であって、前記複数のサンプルの各々は、前記サブ染色体領域にコピー数変異を有すると分類される、工程；および
３）（ａ）における前記サブ領域を、所定のしきい値に等しいかまたはそれを超える精度尺度を提供するサブ領域と特定する工程
を含む、工程；および
（ｂ）参照サンプルセットに対する配列リードの定量値を基準とした（ａ）における前記配列リードの定量値に従って前記テストサンプルに対するサブ染色体領域における前記コピー数変異の存在または非存在の分類を提供する工程
を含む、方法。
（項目３７）
１つまたはそれを超える精度尺度が、感度尺度を含む、項目３６に記載の方法。
（項目３８）
前記訓練セットの中の前記複数のサンプルの各々を、前記サブ染色体領域にコピー数変異を有すると分類するための前記感度が、７０％～１００％である、項目３７に記載の方法。
（項目３９）
前記サブ染色体領域における前記コピー数変異が、微小欠失である、項目３６～３８のいずれか１項に記載の方法。
（項目４０）
前記微小欠失が、１ｐ３６、２２ｑ１１．２、１５ｑ１１－１３、８ｑ２３．２－２４．１、１１ｑ２４．１、４ｐ１３．３、１７ｐ１３．３および７ｑ１１．２３から選択されるゲノム領域またはゲノム領域の一部における欠失である、項目３９に記載の方法。
（項目４１）
前記サブ染色体領域における前記コピー数変異が、微小重複である、項目３６～３８のいずれか１項に記載の方法。
（項目４２）
前記サブ染色体領域における前記コピー数変異の長さが、約１メガベース～約４０メガベースである、項目３６～４１のいずれか１項に記載の方法。
（項目４３）
前記配列リードの定量値が、配列リードカウントである、項目３６～４１のいずれか１項に記載の方法。
（項目４４）
前記配列リードの定量値が、ＧＣバイアスまたは他のバイアスを正規化する正規化プロセスによって生成された、正規化された配列リードの定量値である、項目３６～４３のいずれか１項に記載の方法。
（項目４５）
前記配列リードの定量値が、標準得点である、項目３６～４４のいずれか１項に記載の方法。
（項目４６）
前記標準得点が、Ｚ得点である、項目４５に記載の方法。
（項目４７）
前記テストサンプルに対する前記サブ染色体領域における前記コピー数変異の存在または非存在が、７０％～１００％の感度で分類される、項目３６～４６のいずれか１項に記載の方法。
（項目４８）
前記テストサンプル中の前記核酸が、循環無細胞核酸を含む、項目１～４７のいずれか１項に記載の方法。
（項目４９）
前記循環無細胞核酸が、試験被験体からの血漿または血清に由来する、項目４８に記載の方法。
（項目５０）
前記コピー数変異が、腫瘍細胞または癌細胞からのコピー数変異である、項目１～４９のいずれか１項に記載の方法。
（項目５１）
前記コピー数変異が、胎児のゲノムにおけるコピー数変異である、項目１～４９のいずれか１項に記載の方法。
（項目５２）
配列決定プロセスによって前記テストサンプル中の前記核酸から配列リードを生成する工程を含む、項目１～４９のいずれか１項に記載の方法。
（項目５３）
前記配列リードを得る工程、および前記配列リードを前記ゲノム部分にマッピングすることによって、前記ゲノム部分にマッピングされた配列リードを提供する工程を含む、項目１～５２のいずれか１項に記載の方法。
（項目５４）
１つまたはそれを超えるプロセッサおよびメモリを備えるシステムであって、前記メモリは、前記１つまたはそれを超えるプロセッサによって実行可能な指示を含み、前記１つまたはそれを超えるプロセッサによって実行可能な前記指示は、
（ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定するように設定されており、ここで、前記領域は、前記目的のサブ染色体領域の少なくとも一部を含み；
（ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供するように設定されており、ここで、
前記第２のセットは、所定のゲノム部分セットであり、前記（ａ）および（ｂ）におけるゲノム部分は、前記テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含み；
（ｃ）参照サンプルセットを基準とした前記（ａ）の領域内、前記（ｂ）のサブ領域内またはその両方内の変化に基づいて、前記テストサンプルに対する前記サブ染色体領域におけるコピー数変異の存在または非存在の分類を提供するように設定されている、
システム。
（項目５５）
コンピュータ可読記憶媒体中のコンピュータプログラム製品であって、前記製品は、前記コンピュータが、以下
ａ）セグメント化プロセスを含む方法を用いて、第１のゲノム部分セットを含む領域におけるコピー数変異セグメントの存在または非存在を特定することであって、ここで、前記領域は、前記目的のサブ染色体領域の少なくとも一部を含む、こと；
ｂ）第２のゲノム部分セットを含むサブ染色体領域内のサブ領域に対する配列リードの定量値を提供することであって、ここで、
前記第２のセットは、所定のゲノム部分セットであり、（ａ）および（ｂ）における前記ゲノム部分は、前記テストサンプル中の核酸に対して得られた配列リードがマッピングされた参照ゲノムの部分を含む、こと；
ｃ）参照サンプルセットを基準とした（ａ）の前記領域内、（ｂ）の前記サブ領域内またはその両方内の変化に基づいて前記テストサンプルに対する前記サブ染色体領域におけるコピー数変異の存在または非存在の分類を提供すること、
を実行するためのプログラムされた指示を含む、コンピュータプログラム製品。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【外国語明細書】

IP Force 特許公報掲載プロジェクト 2022.1.31 β版