特許7488772 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ カウンシル，インコーポレーテッドの特許一覧

特許7488772コピー数バリアントコーラ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3A
3B
4A
4B
5A
5B
6A
6B
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-14

(45)【発行日】2024-05-22

(54)【発明の名称】コピー数バリアントコーラ

(51)【国際特許分類】

G16B 20/00 20190101AFI20240515BHJP

【ＦＩ】

G16B20/00

【請求項の数】 25

(21)【出願番号】P 2020567795

(86)(22)【出願日】2019-05-31

(65)【公表番号】

(43)【公表日】2021-10-11

(86)【国際出願番号】 US2019034998

(87)【国際公開番号】W WO2019236420

(87)【国際公開日】2019-12-12

【審査請求日】2022-05-30

(31)【優先権主張番号】62/681,517

(32)【優先日】2018-06-06

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/733,842

(32)【優先日】2018-09-20

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】515015023

【氏名又は名称】ミリアド・ウィメンズ・ヘルス・インコーポレーテッド

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100162846

【弁理士】

【氏名又は名称】大牧綾子

(72)【発明者】

【氏名】ハース，ケビン・アール

(72)【発明者】

【氏名】ホーン，スン・ヘ

(72)【発明者】

【氏名】カレタ，ピョートル

(72)【発明者】

【氏名】ホーガン，グレゴリー・ジョン

【審査官】塩田徳彦

(56)【参考文献】

【文献】国際公開第２０１８／０８５７７９（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１４／０２２９１１７（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

(57)【特許請求の範囲】

【請求項1】

コピー数バリアントモデルを含むコピー数バリアントコーラのサンプル特異的な性能を評価する方法であって、
コピー数尤度モデルを、テストサンプルからの、関心領域内の問い合わせされたセグメントにマッピングされた実際の配列リード数にフィッティングするように調整することを含む、前記コピー数バリアントモデルをパラメータ化して、１つ以上のコピー数バリアントモデルパラメータを決定することと、
複数の合成のコピー数バリアントを生成することであって、各合成のコピー数バリアントが、前記問い合わせされたセグメントのうちの１つ以上の合成のコピー数を含み、各合成のコピー数が、
前記テストサンプルからの対応するセグメントの実際の配列リード数に基づく合成の配列リード数によって表される、生成することと、
前記コピー数バリアントモデル、および前記１つ以上の決定されたコピー数バリアントモデルパラメータを使用して、前記合成のコピー数バリアントの前記１つ以上の問い合わせされたセグメントのコピー数をコールすることと、
前記コールされたコピー数と、前記合成のコピー数バリアントの前記合成のコピー数と、の差に基づいて、前記コピー数バリアントコーラについてのサンプル特異的な性能統計を決定することと、
前記コピー数尤度モデルを調整することにより、マッピングされた前記配列リード数のノイズの影響を決定することであって、前記コピー数尤度モデルを調整することは、期待値最大化ステップを含み、前記期待値最大化ステップは、テスト配列ライブラリからの前記マッピングされた前記配列リード数のノイズのレベルを重み付けすることを含み、前記マッピングされた前記配列リード数の前記ノイズが、所定の閾値を上回っている場合、前記問い合わせされたセグメントの最も確率が高いコピー数がコールされず、重複する直接標的配列捕捉プローブからの配列リードが、マージされる、決定することと、
前記サンプル特異的な性能統計に基づいて、前記コピー数バリアントコーラのサンプル特異的な性能を評価することと、を含む、方法。

【請求項2】

前記１つ以上の問い合わせされたセグメントの前記合成の配列リード数が、前記１つ以上の問い合わせされたセグメントの所定のコピー数に比例して、前記テストサンプルからの前記対応するセグメントの前記実際の配列リード数を増加、減少、または維持することによって生成される、請求項１に記載の方法。

【請求項3】

前記合成の配列リード数が、ｍ／ｘに等しい成功確率と、前記テストサンプルからの前記対応するセグメントでの前記実際の配列リード数に等しい試行数と、での二項分布をサンプリングすることによって生成され、ｍが、前記合成のコピー数バリアント内の前記セグメントの前記合成のコピー数であり、ｘが、前記テストサンプルからの前記対応するセグメントの仮定されたコピー数である、請求項１または２に記載の方法。

【請求項4】

前記合成の配列リード数が、
ｍ／ｘに等しい成功確率と、前記テストサンプルからの前記対応するセグメントでの前記実際の配列リード数に等しい成功数と、での負の二項分布としての配列リード数をサンプリングすることであって、ｍが、前記合成のコピー数バリアント内の前記セグメントの前記合成のコピー数であり、ｘが、前記テストサンプルからの前記対応するセグメントの仮定されたコピー数である、サンプリングすることと、
前記サンプリングされた配列リード数を、前記テストサンプルからの前記対応するセグメントの前記実際の配列リード数に加算することと、によって生成される、請求項１～３のいずれか一項に記載の方法。

【請求項5】

請求項１～４のいずれか一項に記載の方法であって、前記コピー数バリアントモデルが、隠れマルコフモデルであり、前記隠れマルコフモデルが、
（ｉ）問い合わせされたセグメント、または前記問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、
（ｉｉ）前記問い合わせされたセグメントの前記実際の配列リード数または前記合成の配列リード数を含む観測状態と、
（ｉｉｉ）前記問い合わせされたセグメントの、期待される実際の配列リード数または合成の配列リード数に基づくコピー数尤度モデルと、を含み、
前記方法は、前記コピー数尤度モデルを決定することをさらに含む、方法。

【請求項6】

前記コピー数尤度モデルを、前記テストサンプルからの、前記問い合わせされたセグメントにマッピングされた前記実際の配列リード数にフィッティングするように調整することを含む、前記隠れマルコフモデルをパラメータ化することをさらに含む、請求項５に記載の方法。

【請求項7】

前記コピー数尤度モデルが、負の二項分布を含み、前記負の二項分布が、ポアソン分布ではない、請求項５または６に記載の方法。

【請求項8】

前記期待される実際の配列リード数または合成の配列リード数が、複数のサンプルにわたる前記問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数と、前記テストサンプル内の前記セグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、前記複数のサンプルにわたる前記問い合わせされたセグメントに対応する前記セグメントでの前記代表値のマッピングされた配列リード数、または前記テストサンプル内の複数の前記セグメントにわたる前記代表値のマッピングされた配列リード数が、正規化された代表値である、請求項５～７のいずれか一項に記載の方法。

【請求項9】

前記コピー数尤度モデルが、ＧＣ含量バイアスの存在に基づいて調整される、請求項５～８のいずれか一項に記載の方法。

【請求項10】

前記隠れマルコフモデルが、前記問い合わせされたセグメントのコピー数から、前記問い合わされたセグメントと空間的に隣接するセグメントのコピー数に遷移する遷移確率を含む、請求項５～９のいずれか一項に記載の方法。

【請求項11】

前記隠れマルコフモデルが、前記問い合わせされたセグメント内の前記複数のサブセグメントのうち１つのサブセグメントのコピー数から、前記１つのサブセグメントと空間的に隣接するサブセグメントのコピー数に遷移する遷移確率を含む、請求項５～９のいずれか一項に記載の方法。

【請求項12】

前記遷移確率が、コピー数バリアントの代表値の長さを考慮し、コピー数バリアントの前記代表値の長さ、または前記問い合わせされたセグメントでの前記コピー数バリアントの前記代表値の長さが、ヒト集団における観測に基づいて決定される、請求項１０または１１に記載の方法。

【請求項13】

前記遷移確率が、前記問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮し、前記コピー数バリアントの代表値の長さが、ヒト集団における観測に基づいて決定される、請求項１２に記載の方法。

【請求項14】

前記コピー数バリアントモデルをパラメータ化することが、前記問い合わせされたセグメントの前記実際の配列リード数または前記合成の配列リード数を含む１つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含む１つ以上のスプリアス捕捉プローブの影響を決定することを含み、前記スプリアス捕捉プローブインジケータは、ベルヌーイ過程と期待値最大化とを使用して決定され、捕捉プローブがスプリアスであると判定される場合、その捕捉プローブに由来する配列リードが、前記コピー数バリアントモデルで破棄される、請求項１～１３のいずれか一項に記載の方法。

【請求項15】

前記コピー数バリアントモデルを前記パラメータ化することが、前記マッピングされた配列リード数のノイズの影響を決定することを含み、前記コピー数バリアントモデルが、１つ以上のコピー数バリアントモデルパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化され、前記コピー数バリアントモデルが、信頼領域ニュートン共役勾配アルゴリズムを解くことによってパラメータ化され、または期待値最大化を使用して反復的にパラメータ化される、請求項１～１４のいずれか一項に記載の方法。

【請求項16】

前記テストサンプルからの前記実際の配列リードを前記関心領域内の前記セグメントにマッピングすることと、前記テストサンプル用に前記１つ以上のセグメントのコピー数をコールすることと、前記セグメントにマッピングされた前記実際の配列リード数を決定することと、をさらに含み、前記テストサンプルが、１つ以上の直接標的配列捕捉プローブを使用して濃縮され、前記セグメントが、空間的に隣接するセグメントを含み、前記サンプル特異的な性能統計が、検出、感度、特異度、適合率、再現率、精度、正の予測値、または負の予測値の限界である、請求項１～１５のいずれか一項に記載の方法。

【請求項17】

前記コピー数バリアントモデルの前記サンプル特異的な性能が、所望の性能閾値を下回っている場合、前記テストサンプルを不合格にすることを含む、請求項１～１６のいずれか一項に記載の方法。

【請求項18】

関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
（ａ）テスト配列ライブラリから生成された複数の配列リードを、前記問い合わせされたセグメントにマッピングすることであって、前記テスト配列ライブラリが、１つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
（ｂ）前記問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
（ｃ）前記問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
（ｄ）隠れマルコフモデルを構築することであって、前記隠れマルコフモデルが、
（ｉ）前記問い合わせされたセグメント、または前記問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、
（ｉｉ）前記問い合わせされたセグメントにマッピングされた前記配列リード数を含む観測状態と、
（ｉｉｉ）前記コピー数尤度モデルと、を含む、構築することと、
（ｅ）前記コピー数尤度モデルを、前記問い合わせされたセグメントにマッピングされた前記決定された配列リード数にフィッティングするように調整することによって前記隠れマルコフモデルをパラメータ化することであって、前記隠れマルコフモデルが、前記コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
（ｆ）前記コピー数尤度モデルを調整することにより、マッピングされた前記配列リード数のノイズの影響を決定することであって、前記コピー数尤度モデルを調整することは、期待値最大化ステップを含み、前記期待値最大化ステップは、前記テスト配列ライブラリからの前記マッピングされた前記配列リード数のノイズのレベルを重み付けすることを含み、前記マッピングされた前記配列リード数の前記ノイズが、所定の閾値を上回っている場合、前記問い合わせされたセグメントの最も確率が高いコピー数がコールされず、重複する直接標的配列捕捉プローブからの配列リードが、マージされる、決定することと、
（ｇ）前記パラメータ化された隠れマルコフモデルに基づいて、前記問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。

【請求項19】

関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
（ａ）テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、前記複数の空間的に隣接するセグメントが、前記問い合わせされたセグメントを含み、前記テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
（ｃ）前記空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
（ｄ）隠れマルコフモデルを構築することであって、前記隠れマルコフモデルが、
（ｉ）前記空間的に隣接するセグメントの各々のコピー数、または前記空間的に隣接するセグメントの各々の内の複数のサブセグメントを含む複数の隠れた状態と、
（ｉｉ）空間的に隣接する各セグメントにマッピングされた前記配列リード数を含む複数の観測状態と、
（ｉｉｉ）空間的に隣接する各セグメントの前記コピー数尤度モデルと、を含む、構築することと、
（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた前記決定された配列リード数にフィッティングするように調整することを含む、前記隠れマルコフモデルをパラメータ化することであって、前記隠れマルコフモデルが、前記コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
（ｆ）前記コピー数尤度モデルを調整することにより、マッピングされた前記配列リード数のノイズの影響を決定することであって、前記コピー数尤度モデルを調整することは、期待値最大化ステップを含み、前記期待値最大化ステップは、前記テスト配列ライブラリからの前記マッピングされた前記配列リード数のノイズのレベルを重み付けすることを含み、前記マッピングされた前記配列リード数のノイズが、所定の閾値を上回っている場合、前記問い合わせされたセグメントの最も確率が高いコピー数がコールされず、重複する直接標的配列捕捉プローブからの配列リードが、マージされる、決定することと、
（ｆ）前記パラメータ化された隠れマルコフモデルに基づいて、前記問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。

【請求項20】

前記コピー数尤度モデルの前記１つ以上のパラメータが、前記問い合わされた前記セグメントのマッピングされた配列リード数の分散（ｄｉ）、前記問い合わされた前記セグメントの代表値のマッピングされた配列リード数（μｉ）、前記テスト配列ライブラリ内のセグメント全体のマッピングされた配列リード数の分散（ｄｊ）、または前記テスト配列ライブラリ内のセグメント全体の代表値のマッピングされた配列リード数（μｊ）を含む、請求項１８または１９に記載の方法。

【請求項21】

前記関心領域内のセクションの最も確率が高いコピー数を決定することをさらに含み、前記セクションが、前記問い合わせされたセグメントを含む複数の空間的に隣接するセグメントを含み、前記コピー数尤度モデルが、２つ以上のコピー数状態の分布を含み、前記コピー数尤度モデルが、負の二項分布を含み、前記負の二項分布が、ポアソン分布ではなく、前記期待される配列リード数が、複数の配列ライブラリにわたる対応するセグメントでの代表値のマッピングされた配列リード数と、前記テスト配列ライブラリ内の複数の関心セグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数の配列ライブラリにわたる対応するセグメントでの前記代表値のマッピングされた配列リード数、または前記テスト配列ライブラリ内の複数の関心セグメントにわたる前記代表値のマッピングされた配列リード数が、正規化された代表値であり、前記コピー数尤度モデルが、ＧＣ含量バイアスの存在に基づいて調整され、前記調整が、前記問い合わせされたセグメントに対応する前記直接標的配列捕捉プローブのＧＣ含量、または前記問い合わせされたセグメントの前記ＧＣ含量に依存する、請求項１８～２０のいずれか一項に記載の方法。

【請求項22】

前記隠れマルコフモデルが、前記問い合わせされたセグメントのコピー数から、前記問い合わされたセグメントと空間的に隣接するセグメントのコピー数に遷移する遷移確率を含み、前記遷移確率が、コピー数バリアントの代表値の長さを考慮し、または前記問い合わせされたセグメント若しくは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮し、コピー数バリアントの前記代表値の長さが、ヒト集団における観測に基づいて決定される、請求項１８～２１のいずれか一項に記載の方法。

【請求項23】

前記隠れマルコフモデルが、前記問い合わせされたセグメント内の前記複数のサブセグメントのうち１つのサブセグメントのコピー数から、前記１つのサブセグメントと空間的に隣接するサブセグメントのコピー数に遷移する遷移確率を含み、前記遷移確率が、コピー数バリアントの代表値の長さを考慮し、または前記問い合わせされたセグメント若しくは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮し、コピー数バリアントの前記代表値の長さが、ヒト集団における観測に基づいて決定される、請求項１８～２１のいずれか一項に記載の方法。

【請求項24】

ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロが、前記問い合わせされたセグメントの前記最も確率が高いコピー数を決定するために、使用される、請求項１８～２３のいずれか一項に記載の方法。

【請求項25】

前記セグメントの前記最も確率が高いコピー数の信頼度を決定することをさらに含む、請求項１８～２４のいずれか一項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０１８年６月６日に出願された米国仮特許出願第６２／６８１，５１７号、および２０１８年９月２０日に出願された米国仮特許出願第６２／７３３，８４２号の優先権を主張し、これらの各々は、すべての表、図面、および特許請求の範囲を含めてその全体が本明細書に組み込まれる。

【0002】

本発明は、関心遺伝子領域のコピー数を決定するための方法に関する。

【背景技術】

【0003】

癌や他の病気に対する遺伝的感受性の理解には多くの重要な進歩があった。遺伝性癌症候群および他の疾患に関連付けられた変異を特定することは、対象を絞ったリスク管理オプションを通じた罹患率および死亡率の低下につながる可能性がある。生殖細胞系列テストのための従来のアプローチは、サンガー配列を使用して単一の遺伝子または限られた遺伝子パネルの変異をテストすることであった。次世代配列技術およびバイオインフォマティクス分析の進歩により、従来のテストに匹敵するコストで多数の遺伝子を同時にテスト（パネルベースのテスト）することが可能である。パネルベースのテストは、従来の方法と比較した精度の向上、ならびに次世代配列（「ＮＧＳ」）の結果と、単一のヌクレオチドバリアント、小さな欠失、および小さな挿入などの小さな変異を検出するための従来のサンガー法との間の分析的一致による診断率の改善を提供することができる。

【0004】

過去数年間のＮＧＳ技術の進歩にもかかわらず、ＮＧＳパネルには、サンプル調製、配列、マッピング、ターゲットのＧＣ含量、標的サイズ、および配列複雑性さから生じる分析上の制限がある。これらの要因は、リード深度と、コピー数バリアントコールの鍵となるコピー数と、の関係に影響を与え、その結果、コピー数バリアントの検出を使用するためのＮＧＳ技術の使用の精度に影響を与える。このような制限は、ＮＧＳ技術を、エクソンレベルのコピー数バリアント、より大きな挿入変異または欠失バリアント、または再配列などのコピー数バリアント（ＣＮＶ）の検出に使用することを困難にする。科学的研究は、統合失調症などの多くの癌および複雑な疾患が、少なくとも部分的にはコピー数バリアントに関連していることを示唆している。したがって、より高い精度、および配列深度をコピー数に関連付ける際のノイズへの影響を考慮することが、特に望ましい。この懸念に対処するために、いくつかの研究所は、ＮＧＳをマイクロアレイで補完し、マイクロアレイは、独自のレベルの複雑性およびバイアスをコールに導入する。コピー数バリアントは、癌および他の疾患に対する遺伝的感受性の理解および特性化の向上に必要な貴重な情報を提供する。そのため、ＣＮＶを高精度で検出する方法が、望ましい。

【0005】

一般に、遺伝子バリアントスクリーニングの性能は、既知の基準サンプルとの一致について評価される。不十分な品質制御（ＱＣ）対策と結合された配列データの本質的な変動は、高いＣＮＶコーリング精度を損なう可能性がある。スクリーンの評価は、既知の遺伝的バリアントを有する多数の陽性対照を使用して実行することができ、スクリーニングの性能統計（感度または特異性など）が、決定され得る。しかしながら、まれな遺伝子バリアントイベントを伴う対照などの多数の陽性対照が利用可能でない場合、遺伝子バリアントコーリングアルゴリズム（すなわち、「コーラ」）またはアッセイの性能は、正確に評価することができない。単一のヌクレオチドバリアント（ＳＮＶ）を有する多数の陽性対照が、一般的に利用可能である一方、コピー数バリアントを有する陽性対照サンプルの頻度はより低い。

【0006】

本明細書で言及されるすべての刊行物、特許、および特許出願の開示は、各々、参照によってそれらの全体が本明細書に組み込まれる。参照によって組み込まれる任意の参考文献が本開示と矛盾する限り、本開示が統制するものとする。

【発明の概要】

【0007】

本明細書には、コピー数バリアントモデルのサンプル特異的な性能を評価する方法、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法、および関心領域内のコピー数バリアント異常を決定するための方法が開示される。

【0008】

いくつかの実施形態では、コピー数バリアントモデルを含むコピー数バリアントコーラのサンプル特異的な性能を評価する方法であって、テストサンプルからの、関心領域内のセグメントにマッピングされた実際の配列リード数に基づいて、コピー数バリアントモデルをパラメータ化して、１つ以上のコピー数バリアントモデルパラメータを決定することと、複数の合成のコピー数バリアントを生成することであって、各合成のコピー数バリアントが、セグメントのうちの１つ以上の合成のコピー数を含み、各合成のコピー数が、テストサンプルからの対応するセグメントの実際の配列リード数に基づく合成の配列リード数によって表される、生成することと、コピー数バリアントモデル、および１つ以上の決定されたコピー数バリアントモデルパラメータを使用して、合成のコピー数バリアントの１つ以上のセグメントのコピー数をコールすることと、コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアントコーラについてのサンプル特異的な性能統計を決定することと、サンプル特異的な性能統計に基づいて、コピー数バリアントコーラのサンプル特異的な性能を評価することと、を含む。

【0009】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、１つ以上のセグメントの合成の配列リード数が、１つ以上のセグメントの所定のコピー数に比例して、テストサンプルからの対応するセグメントの実際の配列リード数を増加、減少、または維持することによって生成される。いくつかの実施形態では、所定のコピー数は、整数のコピー数である。いくつかの実施形態では、所定のコピー数は、非整数のコピー数である。

【0010】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、合成の配列リード数は、ｍ／ｘに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい試行数と、での二項分布をサンプリングすることによって生成され、ｍが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、ｘが、テストサンプルからの対応するセグメントの仮定されたコピー数である。

【0011】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、ｍ／ｘに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい成功数と、での負の二項分布としての配列リード数をサンプリングすることであって、ｍが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、ｘが、テストサンプルからの対応するセグメントの仮定されたコピー数である、サンプリングすることと、サンプリングされた配列リード数を、テストサンプルからの対応するセグメントの実際の配列リード数に加算することと、によって生成される。いくつかの実施形態では、合成の配列リード数は、負の二項分布の期待値として配列リード数をサンプリングすることによって生成される。

【0012】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルが、隠れマルコフモデルである。いくつかの実施形態では、隠れマルコフモデルは、（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、（ｉｉ）問い合わせされたセグメントの実際の配列リード数または合成の配列リード数を含む観測状態と、（ｉｉｉ）問い合わせされたセグメントの、期待される実際の配列リード数または合成の配列リード数に基づくコピー数尤度モデルと、を含む。いくつかの実施形態では、方法は、コピー数尤度モデルを決定することを含む。いくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、コピー数尤度モデルを、テストサンプルからの、問い合わせされたセグメントにマッピングされた実際の配列リード数にフィッティングするように調整することを含む。いくつかの実施形態では、コピー数尤度モデルは、２つ以上のコピー数状態の分布を含む。いくつかの実施形態では、コピー数尤度モデルは、負の二項分布を含み、負の二項分布は、ポアソン分布ではない。いくつかの実施形態では、期待される実際の配列リード数または合成の配列リード数は、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数と、テストサンプル内のセグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数、またはテストサンプル内の複数のセグメントにわたる代表値のマッピングされた配列リード数は、正規化された代表値である。いくつかの実施形態では、コピー数尤度モデルは、ＧＣ含量バイアスの存在を考慮するように調整される。いくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む。いくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む。いくつかの実施形態では、遷移確率は、コピー数バリアントの代表値の長さを考慮する。いくつかの実施形態では、遷移確率は、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する。いくつかの実施形態では、コピー数バリアントの代表値の長さ、または問い合わせされたセグメントでのコピー数バリアントの確率は、ヒト集団における観測に基づいて決定される。

【0013】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルをパラメータ化することは、１つ以上のスプリアス捕捉プローブを考慮することを含む。いくつかの実施形態では、１つ以上のスプリアス捕捉プローブを考慮することは、複数の観測状態の１つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含む。いくつかの実施形態では、スプリアス捕捉プローブインジケータは、ベルヌーイ過程を使用して決定される。いくつかの実施形態では、１つ以上の捕捉プローブが偽物であると考慮することは、期待値最大化を使用することを含む。いくつかの実施形態では、捕捉プローブがスプリアスであると決定される場合、その捕捉プローブに由来する配列リードは、コピー数バリアントモデルで破棄される。

【0014】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルをパラメータ化することは、マッピングされた配列リード数のノイズを考慮することを含む。

【0015】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルは、１つ以上のコピー数バリアントモデルパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される。

【0016】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルは、信頼領域ニュートン共役勾配アルゴリズムを解くことによってパラメータ化される。

【0017】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、コピー数バリアントモデルは、期待値最大化を使用して反復的にパラメータ化される。

【0018】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、方法は、テストサンプルからの実際の配列リードを関心領域内のセグメントにマッピングすることと、セグメントにマッピングされた実際の配列リード数を決定することと、を含む。

【0019】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、テストサンプルは、１つ以上の直接標的配列捕捉プローブを使用して濃縮される。

【0020】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、方法は、テストサンプル用に１つ以上のセグメントのコピー数をコールすることを含む。

【0021】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、セグメントは、空間的に隣接するセグメントを含む。

【0022】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、サンプル特異的な性能統計は、検出、感度、特異度、適合率、再現率、精度、正の予測値、または負の予測値の限界である。
コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、サンプル特異的な性能統計は、感度または精度である。

【0023】

コピー数バリアントコーラのサンプル特異的な性能を評価する方法のいくつかの実施形態では、方法は、コピー数バリアントモデルのサンプル特異的な性能が所望の性能閾値を下回っている場合、テストサンプルを不合格にすることを含む。

【0024】

また、本明細書には、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法が記載されており、（ａ）テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、１つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）問い合わせされたセグメントにマッピングされた配列リード数を決定することと、（ｃ）問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、（ｉｉ）問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、（ｉｉｉ）コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。

【0025】

さらに、本明細書には、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法が記載されており、（ａ）テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、（ｃ）空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、（ｉｉ）空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、（ｉｉｉ）空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。

【0026】

また、本明細書には、関心領域内のコピー数バリアント異常を決定するための方法が記載されており、（ａ）テスト配列ライブラリから生成された複数の配列リードを、関心領域内の問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、１つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）問い合わせされたセグメントにマッピングされた配列リード数を決定することと、（ｃ）問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、（ｉｉ）問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、（ｉｉｉ）コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、（ｇ）問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む。

【0027】

さらに、本明細書には、関心領域内のコピー数バリアント異常を決定するための方法が記載されており、（ａ）テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、（ｃ）空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、（ｉｉ）空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、（ｉｉｉ）空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、（ｇ）問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む。

【0028】

また、本明細書には、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法が記載されており、（ａ）テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、１つ以上の捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）問い合わせされたセグメントにマッピングされた配列リード数を決定することと、（ｃ）問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、（ｉｉ）問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、（ｉｉｉ）コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、１つ以上のスプリアス捕捉プローブを考慮することと、によって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。

【0029】

本明細書には、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法がさらに記載されており、（ａ）テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、（ｃ）空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、（ｉｉ）空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、（ｉｉｉ）空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、１つ以上のスプリアス捕捉プローブを考慮することと、を含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。

【0030】

上述された方法のいくつかの実施形態では、コピー数尤度モデルの１つ以上のパラメータが、セグメントのマッピングされた配列リード数の分散（ｄ_ｉ）、セグメントの代表値のマッピングされた配列リード数（μ_ｉ）、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散（ｄ_ｊ）、またはテスト配列ライブラリ内のセグメントの代表値のマッピングされた配列リード数（μ_ｊ）を含む。

【0031】

上述された方法のいくつかの実施形態では、関心領域内のセクションの最も確率が高いコピー数を決定することをさらに含み、セクションが、問い合わせされたセグメントを含む複数の空間的に隣接するセグメントを含む。

【0032】

上述された方法のいくつかの実施形態では、コピー数尤度モデルが、２つ以上のコピー数状態の分布を含む。

【0033】

上述された方法のいくつかの実施形態では、コピー数尤度モデルが、負の二項分布を含み、負の二項分布が、ポアソン分布ではない。

【0034】

上述された方法のいくつかの実施形態では、期待される配列リード数は、複数の配列ライブラリにわたる対応するセグメントでの代表値のマッピングされた配列リード数と、テスト配列ライブラリ内の複数の関心セグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数の配列ライブラリにわたる対応するセグメントでの代表値のマッピングされた配列リード数、またはテスト配列ライブラリ内の複数の関心セグメントにわたる代表値のマッピングされた配列リード数は、正規化された代表値である。

【0035】

上述された方法のいくつかの実施形態では、コピー数尤度モデルは、ＧＣ含量バイアスの存在を考慮するように調整される。いくつかの実施形態では、調整は、問い合わせされたセグメントに対応する捕捉プローブのＧＣ含量、または問い合わせされたセグメントのＧＣ含量に依存する。

【0036】

上述された方法のいくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む。いくつかの実施形態では、遷移確率は、コピー数バリアントの代表値の長さを考慮する。いくつかの実施形態では、遷移確率は、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する。いくつかの実施形態では、問い合わせされたセグメントでのコピー数バリアントの代表値の長さまたはコピー数バリアントの確率は、ヒト集団における観測に基づいて決定される。

【0037】

上述された方法のいくつかの実施形態では、隠れマルコフモデルは、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む。いくつかの実施形態では、遷移確率は、コピー数バリアントの代表値の長さを考慮する。いくつかの実施形態では、遷移確率は、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する。いくつかの実施形態では、問い合わせされたセグメントでのコピー数バリアントの代表値の長さまたはコピー数バリアントの確率は、ヒト集団における観測に基づいて決定される。

【0038】

上述された方法のいくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、１つ以上のスプリアス捕捉プローブを考慮することを含む。いくつかの実施形態では、１つ以上のスプリアス捕捉プローブを考慮することは、複数の観測状態の１つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含む。いくつかの実施形態では、スプリアス捕捉プローブインジケータは、ベルヌーイ過程を使用して決定される。いくつかの実施形態では、１つ以上の捕捉プローブが偽物であると考慮することは、期待値最大化を使用することを含む。いくつかの実施形態では、捕捉プローブがスプリアスであると決定される場合、その捕捉プローブからの尤度情報は、コピー数尤度モデルで破棄される。

【0039】

上述された方法のいくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、マッピングされた配列リード数のノイズを考慮することを含む。

【0040】

上述された方法のいくつかの実施形態では、マッピングされた配列決リード数のノイズを考慮することは、コピー数尤度モデルを調整することを含む。いくつかの実施形態では、ノイズを考慮するためにコピー数尤度モデルを調整することは、期待値最大化ステップを含む。いくつかの実施形態では、期待値最大化ステップは、テスト配列ライブラリからのマッピングされた配列リード数のノイズのレベルを重み付けすることを含む。いくつかの実施形態では、マッピングされた配列リード数のノイズが所定の閾値を上回っている場合、問い合わせされたセグメントの最も確率が高いコピー数は、コールされない。

【0041】

上述された方法のいくつかの実施形態では、重複する捕捉プローブからの配列リードは、マージされる。

【0042】

上述された方法のいくつかの実施形態では、ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロを使用して、問い合わせされたセグメントの最も確率が高いコピー数を決定する。

【0043】

上述された方法のいくつかの実施形態では、セグメントの最も確率が高いコピー数の信頼度を決定することをさらに含む。

【0044】

上述された方法のいくつかの実施形態では、コピー数尤度モデルの１つ以上のパラメータは、セグメントのマッピングされた配列リード数の分散（ｄ_ｉ）、セグメントの代表値のマッピングされた配列リード数（μ_ｉ）、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散（ｄ_ｊ）、またはテスト配列ライブラリ内のセグメントの代表値のマッピングされた配列リード数（μ_ｊ）を含む。

【0045】

上述された方法のいくつかの実施形態では、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数解析的ヘッシアンは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれる。

【0046】

また、本明細書には、上述の方法のうちのいずれか１つを実行するための命令を含むコンピュータ可読媒体を含むコンピュータシステムが記載される。

【図面の簡単な説明】

【0047】

【図1】セグメントのコピー数を決定するための方法の一実施形態のフローチャートを示す。

【図2A】４８個のテスト配列ライブラリ中のおよそ２５００個のセグメント（およそ２５００個の固有の捕捉プローブ）にわたる配列リードカウントの中央値（すなわち、配列深度）を示す。

【図2B】図２Ａに示された４８個の異なるテスト配列ライブラリの正規化された配列深度の中央値（すなわち、すべてのテスト配列ライブラリにわたる同じセグメントの中央値に正規化された単一セグメントの配列深度）を示す。

【図3A】複数の異なるサンプルの関心領域の配列ライブラリを濃縮するために使用されるおよそ２５００個の捕捉プローブの平均の配列リード数（「平均深度」）に対する配列深度分散のプロットを示す。データは、負の二項分布を使用してフィッティングされたものであり、負の二項分布は、ポアソン分布ではない。比較として、分散と平均深度との間の線形関係を仮定したポアソン分布も例示される。グラフに見られるように、プローブにわたる深度分布に対する分散は、負の二項分布に従い、単なるポアソン分布ではない。

【図3B】負の二項分布を含むコピー数尤度モデルを示し、負の二項分布は、ポアソン分布ではないか、またはセグメントのコピー数が１、２、または３コピーであるポアソン分布である。分布は、セグメントに対応する捕捉プローブからの配列リード数の関数としての確率質量関数（ｐｍｆ）である。「ＣＮ」＝コピー数。

【図4A】ｃ_１、ｃ_２、ｃ_３、およびｃ_４の例示的な隠れマルコフモデルは、隠れた状態（すなわち、４つの異なるセグメントの最も確率が高いコピー数）を表し、ｋ_１、ｋ_２、ｋ_３、およびｋ_４は、観測される状態（すなわち、対応する各セグメントのマッピングされた配列リード数）を表す。対応する各セグメントでの観測される状態と隠れた状態との間の確率は、ｐ（ｃ_１｜ｋ_１）、ｐ（ｃ_２｜ｋ_２）、ｐ（ｃ_２｜ｋ_２）、およびｐ（ｃ_２｜ｋ_２））によって示され、隠れた状態間の遷移確率は、ｐ（ｃ_２｜ｃ_１）、ｐ（ｃ_３｜ｃ_２）、およびｐ（ｃ_４｜ｃ_３）によって示される。コピー数尤度モデルは、観測される状態と隠れた状態との間の確率をパラメータ化するために使用される。確率の両方のセットは、期待値最大化（ＥＭ）を使用して最適化される。

【図4B】サブセグメントに細分化された２つのセグメントの隠れマルコフモデルを例示する。サブセグメントは、隠れた状態を含むが、観測される状態を含まない。隣接するサブセグメントのコピー数の状態に基づくサブセグメントの遷移確率。これは、塩基ごと（またはサブセグメントごと）のセグメンテーションで実行することができる。

【図5A】隠れマルコフモデルを例示し、スプリアス捕捉プローブインジケータが、観測状態に配置されている。

【図5B】所与の捕捉プローブが、観測される状態ｋ_ｉに対する事前のｂ_ｉを決定するために使用されるスプリアスの捕捉プローブであるかどうかを決定するために調整することができる事前分布を例示する。ベルヌーイ過程を使用して、各テスト配列ライブラリのスプリアス捕捉プローブ確率と、この確率がそのテスト配列ライブラリのプローブのスプリアス性にどのように影響し得るかと、を判定することができる。

【図6A】ノイズがより少ないテスト配列ライブラリのために、２２個の遺伝子にわたる複数のセグメントの消費された配列深度によって正規化された配列リード数を示す。

【図6B】ノイズがより多いテスト配列ライブラリのために、２２個の遺伝子にわたる複数のセグメントの消費された配列深度によって正規化された決定された配列リード数を示す。同じ捕捉プローブで濃縮された２つの異なるテスト配列ライブラリは、異なるレベルのノイズを表示する。

【図7】コピー数尤度モデルのみに依拠するいくつかのテスト配列ライブラリ（ｘ軸）の同じ関心領域（ｙ軸）内の多数のセグメントにわたるコピー数コールを示す。濃い色の領域は、２のコピー数状態からの逸脱を示す。四角で囲まれた領域は、真のコピー数バリアントが多数のセグメントにまたがる様子を示すのに対して、セグメント内でのみ観測される２のコピー数状態からの逸脱は、真のコピー数バリアントではなく誤検出である可能性が高い。

【図8】隠れマルコフモデルを使用して最も確率が高いコピー数を決定した後の、いくつかのテスト配列ライブラリ（ｘ軸）の同じ関心領域（ｙ軸）内の多数のセグメントにわたるコピー数コールを示す。濃い色の領域は、２のコピー数状態からの逸脱を示す。ボックス領域は、真のコピー数バリアントが、多数のセグメントにまたがり、誤検出が最小限に抑えられる方法を示す。ＨＭＭは、隣接するセグメントのコピー数状態が後続のセグメントに与える影響を考慮に入れる。これにより、モデルは、単一のセグメント内で観測されるバリエーションとは対照的に、真のコピー数バリアントをコールすることが可能になる。

【図9】テストサンプルからの実際の配列リード数を使用してコピー数バリアントモデルをパラメータ化することと、実際の配列リード数に基づいて合成のコピー数バリアントを生成することと、パラメータ化されたコピー数バリアントモデルに基づく合成のコピー数バリアント内のセグメントのコピー数をコールすることと、によって、コピー数バリアントモデルを評価するための概略図を提供する。

【図10】セグメントの１つのコピーを有する合成のコピー数バリアントを生成するための、セグメントの２つのコピーを有するテストサンプルからの実際の配列リードの二項サンプリングを例示する。

【図11】問い合わせされたセグメントのコピー数をコールするか、またはコピー数バリアントモデルの性能を評価するための様々な例示的な方法を含む、上述のプロセスのいずれか１つを実行するように構成された例示的なコンピューティングシステムを描示する。

【図12】唾液サンプルの割合の増加に対してプロットされた２つの隠れマルコフモデルコピー数バリアントコーラの感度結果を示す。唾液サンプルは、一般に、ノイズが多い配列深度を有する。基準コーラは、配列ライブラリノイズまたはスプリアス捕捉プローブを考慮しない一方、テストコーラは、これらの要因の両方を考慮する。

【発明を実施するための形態】

【0048】

本明細書に記載された方法は、遺伝子または遺伝子セグメントなどのゲノムの問い合わせされたセグメントのコピー数の正確な決定を可能にする。いくつかの態様では、コピー数バリアントコーラの品質は、サンプルごとに品質管理メトリック（感度など）を生成することによって制御される。正確なコピー数コールは、特定の遺伝的異常の向上した診断を可能にし、重要な医学的決定を行うことを支援する。

【0049】

コピー数バリアントコーラを使用して、関心領域内の１つ以上のセグメントでのコピー数バリアントのテスト配列ライブラリをスクリーニングすることができる。これらのコーラは、隠れマルコフモデル（ＨＭＭ）などのコピー数バリアントモデルを構築することによって動作し、ＨＭＭは、テストサンプルを１つ以上のコピー数バリアント（ＣＮＶ）モデルパラメータを生じさせるためにパラメータ化される。ＣＮＶモデルパラメータは、配列深度、サンプルノイズ、捕捉プローブ効率、および／またはテスト配列ライブラリの配列中に生じる他のアーティファクトによって異なり得る。

【0050】

合成のコピー数バリアントを生成して、コピー数バリアントコーラ（またはコーラが使用するコピー数バリアントモデル）の性能を評価することができる。コーラは、合成のコピー数バリアント内の１つ以上のセグメントでコピー数をコールするために使用され、コーラの評価を提供する性能統計を決定することができる。コピー数バリアントモデルのパラメータ化は、計算集約的である。したがって、特にコーラを使用して多数のサンプルをスクリーニングする場合、各合成のコピー数バリアントについてＣＮＶモデルをパラメータ化することによるサンプル特異的な性能評価は、実用的でない。ただし、本明細書に記載されているように、コピー数バリアントモデルは、サンプル特異的なＣＮＶモデルパラメータを決定するために、テストサンプルからの配列リードを使用してパラメータ化することができる。合成のコピー数バリアントは、テストサンプルからの配列リードに基づいて生成することができ、ＣＮＶモデルパラメータは、テストサンプルに特異的であり、かつ合成のコピー数バリアントがテストサンプルに基づいて生成されるため、決定されたサンプル特異的なＣＮＶモデルパラメータをコーラによって使用して、モデルを再パラメータ化せずに、合成のコピー数バリアントのセグメントのコピー数をコールすることができる。したがって、本明細書に記載された方法は、ＣＮＶモデルの評価のための信頼できる性能統計を生成しながら、実質的なコンピューティング能力を節約する。

【0051】

隠れマルコフモデル（ＨＭＭ）などのコピー数バリアントモデルは、コピー数尤度モデルの１つ以上のパラメータの分析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化することができる。いくつかの実施形態では、１次導関数勾配および２次導関数ヘッシアンは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれる。期待値最大化（ＥＭ）ステップを使用して、複数の最適化ループを含むことができるコピー数バリアントモデルパラメータを決定することができる。いくつかの実施形態では、ＥＭは、ＣＮＶモデルをパラメータ化して、期待されるコピー数コールによって重み付けされた対数尤度を最大化する。

【0052】

特定の方法は、隠れマルコフモデル（ＨＭＭ）を使用して、テスト配列ライブラリの問い合わせされたセグメントの最も確率が高いコピー数を決定することを含む。いくつかの実施形態では、テスト配列ライブラリは、直接標的配列（ＤＴＳ）法を使用して濃縮される。ＤＴＳ法は、問い合わせされた配列の高解像度標的化を提供し、本明細書に記載されたＨＭＭコーラは、コピー数コーリングのための収集された大量のデータによって実質的に恩恵を受ける。ＨＭＭコーラの精度をさらに高めるために、直接標的配列法から生じ得る配列深度アーティファクトを考慮することができる。このような配列深度アーティファクトは、例えば、ＧＣバイアス補正とスプリアスプローブの決定とを含み得る。これに加えて、本明細書に記載された方法は、配列リードが、ノイズが多い配列ライブラリから生成される場合に、正確なコピー数コーリングを提供する。

【0053】

患者サンプルに由来する配列ライブラリを配列して、いくつかの配列リードを取得することができる。セグメントのコピー数は、そのセグメントでの配列深度（すなわち、配列リード数または正規化された配列リード数）に関連しる。本開示は、セグメントでの配列深度を使用して、セグメントでのコピー数状態の存在を決定する方法を記載する。配列深度は、そのセグメントにマッピングされた配列リードを決定することによって取得され得る。配列深度は、そのセグメントに対応する捕捉プローブにマッピングされた配列リードを決定することによって取得され得る。この方法は、コールがより正確になるように最適化するために、配列技術に関連付けられたいくつかの要因を考慮に入れる。

【0054】

セグメントのマッピングされた配列リード数の決定は、少なくとも部分的に、セグメントの実際のコピー数状態に依存する。哺乳類の遺伝子領域の大部分は２倍体であり、そのため、一般に、遺伝子セグメントの２つのコピーがあると予想されるが、これが常に当てはまるとは限らない場合がある。例えば、ゲノムのいくつかの領域は、それらの領域の場所（例えば、Ｙ染色体上に位置する）に起因して、２倍体ではない。ゲノムの他の領域は、ゲノム再配列をもたらす免疫細胞などのいくつかの細胞の機能的特殊化の結果としてそれらの領域の２倍体を失う。ただし、これらの標準からの逸脱にかかわらず、ほとんどのゲノム領域のコピー数状態は２であると期待され、２のコピー数状態からの逸脱は、マッピングされた配列リード数に反映されることが期待される。

【0055】

配列リードをセグメントにマッピングする前に、断片化、配列ライブラリの形成（例えば、配列アダプターを配列ライブラリ内の核酸分子にライゲーションすることによる）、および配列ライブラリを配列することを含むサンプル調製などの１つ以上の上流ステップを行うことができる。これらの上流ステップのうちのいずれかでの配列深度のノイズは、配列リード数にノイズを導入する可能性がある。さらに、捕捉プローブライブラリ内の様々な捕捉プローブは、同じように動作しない場合がある。例えば、関心領域内の特定のセグメントは、理想的な捕捉プローブ設計を可能にしない場合があり、これは、スウリアス捕捉プローブにつながる可能性がある。したがって、セグメントのコピー数状態を決定するために、決定された数のマッピングされた配列リードを使用することは、セグメントのコピー数状態と、セグメントでの決定されたマッピングされた配列リード数と、の間の既存の依存性を認識することよりも直接的ではない。本発明の方法は、マッピングされた配列リード数とセグメントのコピー数状態との間の依存性を考慮するためにパラメータ化および最適化される隠れマルコフモデルを使用して、関心領域内の問い合わせされたセグメントのコピー数コールを行うことを可能にする。隠れマルコフモデルはまた、交絡因子の様々なソースとレベルを考慮することができる。この方法は、関心領域内の問い合わせされたセグメントまたはサブセグメントのコピー数を決定するための、および関心領域内のコピー数バリアント異常を決定するための特に効果的かつ効率的なプロセスを可能にする。

【0056】

本発明のいくつかの実施形態では、配列ライブラリは、直接標的配列を使用して、関心領域について濃縮される。直接標的配列は、配列ライブラリ内の核酸分子にハイブリダイズする複数の捕捉プローブを含む捕捉プローブライブラリを使用する。捕捉プローブは、関心領域内のセグメントにハイブリダイズするように設計されており、各捕捉プローブは、対応するセグメントを有する。したがって、関心領域は、配列ライブラリを濃縮するために使用される捕捉プローブによって決定される。捕捉プローブは、捕捉プローブにハイブリダイズした核酸分子をテンプレートとして使用して伸長される。次いで、伸長された捕捉プローブを配列して、核酸分子の一部分（すなわち、関心領域からのセグメントに対応する部分）の配列を取得することができる。捕捉プローブ自体の配列が決定されるため、捕捉プローブに対応するセグメントは、捕捉プローブの終端に続いて開始する。いくつかの実施形態では、伸長された捕捉プローブは、追加のコピーを取得するために増幅される。伸長された捕捉プローブの増幅はまた、本明細書に記載されているように正規化することができる配列深度にアーティファクトを導入する可能性がある。「ＤｉｒｅｃｔＣａｐｔｕｒｅ，ＡｍｐｌｉｆｉｃａｔｉｏｎａｎｄＳｅｑｕｅｎｃｉｎｇｏｆＴａｒｇｅｔＤＮＡｕｓｉｎｇＩｍｍｏｂｉｌｉｚｅｄＰｒｉｍｅｒｓ」と題された米国特許第９，３０９，５５６号、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＤｅｔｅｃｔｉｎｇＧｅｎｅｔｉｃＶａｒｉａｔｉｏｎ」と題された米国特許第９，０９２，４０１号、「ＭｅｔｈｏｄｓａｎｄＣｏｍｐｏｓｉｔｉｏｎｓｆｏｒＨｉｇｈ－ｔｈｒｏｕｇｈｐｕｔＳｃｒｅｅｎｉｎｇ」と題された米国特許出願第２０１４／００２４５４１号、Ｍｙｌｌｙｋａｎｇａｓｅｌａｌ．「Ｅｆｆｉｃｉｅｎｔｔａｒｇｅｔｅｄｒｅｓｅｑｕｅｎｃｉｎｇｏｆｈｕｍａｎｇｅｒｍｌｉｎｅａｎｄｃａｎｃｅｒｇｅｎｏｍｅｓｂｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅ－ｓｅｌｅｃｔｉｖｅｓｅｑｕｅｎｃｉｎｇ．」ＮａｔＢｉｏｔｅｃｈｎｏｌ．２９（１１）：１０２４－７（２０１１）、およびＨｏｐｍａｎｓｅｌａｌ．．「Ａ．ｐｒｏｇｒａｍｍａｂｌｅｍｅｔｈｏｄｆｏｒｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｔａｒｇｅｔｅｄｓｅｑｕｅｎｃｉｎｇ．」ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．４２（１０）：ｅ８８（２０１４）は、直接標的配列の実施形態を記載している。直接標的配列は、表面ベースの方法を使用して実行される必要はないが、溶液中でも実行することができる。

【0057】

いくつかの実施形態では、配列ライブラリは、直接標的配列以外の方法を使用して、関心領域について濃縮される。例えば、配列ライブラリは、配列ライブラリを捕捉プローブライブラリと組み合わせて、捕捉プローブを配列ライブラリ内の核酸分子とハイブリダイズさせることを含む、ハイブリッド捕捉技術を使用して濃縮され得る。次いで、ハイブリダイズされた核酸分子を、残りの配列ライブラリから単離することができる（例えば、ビオチン化捕捉プローブを使用し、かつストレプトアビジンビーズを使用して、ハイブリダイズした分子を分離することによる）。次いで、濃縮された配列ライブラリ内の核酸分子が、配列され得る。配列ライブラリからの核酸分子は（直接ターゲット配列法とは対照的に）直接配列されるため、捕捉プローブは、必ずしも関心領域内の特異的なセグメントに対応するわけではない。代わりに、関心領域内の任意の所与の塩基での配列深度は、その塩基での配列リード数によって決定され得る。

【0058】

本明細書には、当業者が提供された方法の範囲を理解することを可能にし、当業者が本発明を実施することを可能にする定義、説明、例および説明が、提供される。本明細書に記載された様々な実施形態の特性の１つ、いくつか、またはすべてを組み合わせて、本発明の他の実施形態を形成し得ることを理解されたい。本書で使用されるセクション見出しは、編成上の目的のみであり、記載された主題を限定するものとして解釈されないものとする。

【0059】

定義
本明細書で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が明確に別段の指示をしない限り、複数形の言及を含む。

【0060】

本明細書における「約」または「およそ」の値またはパラメータへの言及は、その値またはパラメータ自体を対象とする変動を含む（および記載する）。例えば、「約Ｘ」に言及する説明は、「Ｘ」の説明を含む。

【0061】

本明細書で使用される場合の「代表値」という用語は、文脈が明確に別段の指示をしない限り、平均値または中央値、あるいは平均値または中央値を概算するために使用される任意の値を指す。

【0062】

「捕捉プローブ」は、相補的な配列、または通常のハイブリダイゼーション条件下でのハイブリダイゼーションを可能にするのに十分に相補的な配列を有するセグメントを有する配列ライブラリに存在する核酸分子にハイブリダイズするＤＮＡ分子またはＲＮＡ分子を指す。

【0063】

「コピー数尤度」は、関心セグメントまたは関心サブセグメントにおけるコピー数の尤度を指す。

【0064】

「コピー数尤度モデル」は、そのセグメントでのマッピングされた配列リード数が与えられた場合にコピー数尤度を決定するために使用される統計モデルを指す。コピー数尤度モデルは、モデルがカバーする各コピー数状態の統計分布を含み、各分布は、所与の数のマッピングされた配列リードに対してコピー数状態が正しい確率を反映する。

【0065】

「コピー数バリアント」または「ＣＮＶ」は、野生型からのコピー数状態の逸脱を指す。本明細書で使用される場合の「野生型」は、正常であると見なされる特定のセグメントの所定のコピー数状態を指す。「野生型」であるものの決定は、ヒト、哺乳類、または他の動物の個体数データに基づいて行うことができる。「野生型」が何であるかを決定することはまた、基準実行、内部実験、およびこのような実験から生成されたデータに基づいて行うことができる。

【0066】

「直接標的配列捕捉プローブ」は、直接標的配列を使用して配列ライブラリから配列を濃縮するために使用される捕捉プローブである。

【0067】

「問い合わせされたセグメント」は、コピー数バリアントモデルがコピー数状態を決定するために使用される関心領域内のセグメントを指す。問い合わせされたセグメントは、１つの塩基対と同じくらい小さいが、問い合わせされたセグメントの長さよりも長くない可能性があるサブセグメントに分割することができる。

【0068】

配列ライブラリからの「ノイズが多い配列ライブラリ」または「ノイズ」は、１つ以上の捕捉プローブにわたって粗悪なデータを生成する配列ライブラリを指す。

【0069】

本明細書で使用される場合の「配列リード数」は、配列リードの絶対数または配列リードの正規化された数を指す。

【0070】

「実際のサンプル」は、配列、配列リード、または配列リード数が変更されることなく、遺伝子配列に供された物理的サンプルを発生元とする配列リードを発生元とする核酸配列または配列リードを指す。「実際の基準サンプル」は、遺伝子バリアントコーラによって合成のサンプル（例えば、合成のコピー数バリアント）と比較される実際のサンプルを指す。

【0071】

「実際の配列リード」は、配列の変更なしに実際のサンプルを発生元とする配列リードを指す。「実際の配列リード数」は、実際の配列リードの絶対数または配列リードの正規化された数を指すが、いかなるセグメントまたは関心領域のコピー数の増加を反映するように変更された配列リード数を指さない。

【0072】

「セグメント」は、２つ以上の塩基を含むヌクレオチド鎖を指す。セグメントは、１つ以上の「サブセグメント」に細分化することができる。「サブセグメント」は、１つのヌクレオチドほど小さいが、サブセグメントが位置するセグメントよりも長くないことが可能である。関心領域は、１つ以上のセグメントに分割され得る。セグメントは、連接することが可能であるが、連接する必要はない。したがって、関心領域は、任意で、連接しないサブ領域を含むことができる。セグメントは、同じ長さであるかまたは、異なる長さであり得る。関心領域内の２つ以上のセグメントをグループ化して、関心領域内のセクションを作製することができる。関心領域内のセクションを構成するセグメントは、連接し得るが、連接する必要はない。

【0073】

「スプリアス捕捉プローブ」は、コピー数と関連しない配列リード数にアーティファクトを生成する捕捉プローブを指す。アーティファクトは、標準以下の配列リード、一貫性のない配列リード、所定のレベルを下回る長さの配列リード、所定のレベルを下回る配列リード数、または他の捕捉プローブと比較した場合の表示低品質に起因し得る。

【0074】

「空間的に隣接するセグメント」は、同じ染色体内に位置するが、連接する必要はない一連のセグメントのセットを指す。すなわち、２つの空間的に隣接するセグメントは、いくつかの介在するヌクレオチドによって分離され得るが、空間的に隣接するセグメントのセットの外側の介在するセグメントによっては分離され得ない。２つの空間的に隣接するセグメントが、連接しない場合、介在するヌクレオチドのコピー数は、隠れマルコフモデルにより推測され得る。「空間的に隣接する直接標的配列捕捉プローブ」を含む「空間的に隣接する捕捉プローブ」は、空間的に隣接するセグメントに対応する捕捉プローブを指す。

【0075】

「合成のコピー数バリアント」という用語は、実際のサンプルに対する関心領域内の１つ以上のセグメントのコピー数の増加または減少を伴う、実際の配列リード、または実際のサンプルからの実際の配列リード数を使用して生成された人工サンプルを指す。

【0076】

「合成のコピー数」は、合成のコピー数バリアントの関心領域内のセグメントのコピー数を指し、実際のサンプルに対してコピー数は増加し、減少し、または同じであり得る。合成のコピー数バリアントは、各セグメントのコピー数を変更する必要がなく、１つ以上のセグメントの野生型のコピー数を含み得るため、合成のコピー数バリアントの１つ以上のセグメントの合成のコピー数は、セグメントの実際のコピー数と同じであり得る。

【0077】

「合成の配列リード数」は、関心領域内のセグメントの合成のコピー数を表すために使用される配列リード数を指す。セグメントの合成の配列リード数は、対応するセグメントの実際の配列リード数と比較して、増加、減少、または維持され得る。

【0078】

本明細書に記載された本発明の態様および変形例は、「からなる」および／または「本質的に～からなる」態様および変形例を含むことが理解される。

【0079】

値の範囲が提供される場合、その範囲の上限と下限との間の各介在値、およびその述べられた範囲内の任意の他の述べられた値または介在値は、本開示の範囲内に包含されることを理解されたい。述べられた範囲が上限または下限を含む場合、それらの含まれる限界のいずれかを除く範囲もまた、本開示に含まれる。

【0080】

コピー数を決定する方法
本開示は、セグメントの決定されたマッピングされた配列リード数に基づいて、関心領域の問い合わせされたセグメント（または問い合わせされたセグメントのサブセグメント）のコピー数、または関心領域内のコピー数バリアント異常を決定するための方法を提供する。方法は、１つ以上のコピー数状態の期待されるマッピングされた配列リード数に基づいてコピー数尤度モデルを決定することを含む。コピー数尤度モデルの１つ以上のパラメータの１次導関数勾配および２次導関数ヘッシアンを、期待値最大化（ＥＭ）と共に使用して、モデルの潜在パラメータ推定および最適化を可能にすることができる。１次導関数勾配および２次導関数ヘッシアンは、例えば、信頼領域ニュートン共役勾配アルゴリズムを使用して解くことができる。モデルへのいくつかの追加のステップおよび調整を使用して、コピー数とマッピングされた配列リード数との関係に影響を与える他の要因を考慮することができる。この情報を使用して、隠れマルコフモデルをパラメータ化し、次いで隠れマルコフモデルを使用して、問い合わせされたセグメントでの最も確率が高いコピー数状態を判定することができる。コピー数尤度モデル、期待値最大化実装、多数の要因を考慮したモデルの調整、隠れマルコフモデルのパラメータ化を構築するための方法、ならびに様々なステップおよびモデル全体を解決する方法が、以下に概して提供される。

【0081】

簡単には、セグメントまたはサブセグメントのコピー数を決定するための方法は、（１）問い合わせされたセグメントにマッピングされた配列リード数を決定すること、（２）コピー数尤度モデルを決定することによって、隠れマルコフモデルを構築およびパラメータ化すること、および（３）パラメータ化された隠れマルコフモデルを使用して、問い合わせされたセグメント（または問い合わせされたセグメントのサブセグメント）の最も確率が高いコピー数を決定することを含むことができる。隠れマルコフモデルは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれ得る期待値最大化（ＥＭ）と共に、コピー数尤度モデルの１つ以上のパラメータの１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される。いくつかの実施形態では、本明細書で提供される方法はまた、プロセス中に生じ得る交絡効果を考慮することによってモデルを改良するためのステップを含む。

【0082】

本明細書に記載された方法のいくつかの実施形態では、隠れマルコフモデルを使用して、セグメントの最も確率が高いコピー数状態を決定する。隠れマルコフモデルは、関心セグメントのコピー数状態を含む隠れ層、マッピングされた配列リード数を含む観測層、隠れ層のコピー数状態とマッピングされた配列リード数との間の遷移確率（確率層間）、および先行する隣接するセグメントのコピー数状態が与えられた場合の、セグメントのコピー数状態の遷移確率（確率イントラ隠し層）を含むことができる。図１は、関心領域内の問い合わせされたセグメントのコピー数を決定するための方法の一実施形態を例示する。ステップ１１０で、テスト配列ライブラリのために生成された配列リードが、１つまたは複数の関心領域内の１つまたは複数のセグメントにマッピングされる。ステップ１２０で、関心領域（単数または複数）内のセグメント（単数または複数）でのマッピングされた配列リード数が、決定される。ステップ１３０で、観測されるマッピングされた配列リード数が与えられた場合のコピー数状態の遷移確率を設定するために使用されるコピー数尤度モデルが、決定される。ステップ１４０で、隠れ層、観測層、および遷移確率を含む隠れマルコフモデルが構築される。ステップ１５０で、好ましくは、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれ得る、コピー数尤度モデルの１つ以上のパラメータの１次導関数勾配および２次導関数ヘッシアンを使用して、隠れマルコフモデルが、パラメータ化される。最も単純な形式では、隠れマルコフモデルは、コピー数状態と、コピー数尤度モデルによって決定される、コピー数状態と観測される配列リード数との間の遷移確率と、の少なくとも２つの未知のパラメータを含む。コピー数尤度モデルの１つ以上のパラメータの１次導関数勾配および２次導関数ヘッシアンを、期待値最大化と共に使用して、データの最適なフィッティングに基づいてこれらのパラメータを決定し（すなわち、モデルをパラメータ化し）、最も確率が高いコピー数を決定する。モデルでは、セグメントの最も確率が高いコピー数を決定するために、観測される配列リード数が与えられた場合にコピー数状態の確率を最大化することが望ましい。ステップ１６０で、セグメントの最も確率が高いコピー数状態が、決定される。このプロセスは、ＧＣ含量の偏り、セグメントと関連付けられた捕捉プローブのスプリアス性、遷移確率に影響を与える、ノイズが多いテスト配列ライブラリなどの、観測状態に影響を与える他の変数を考慮し得る。追加の変数は、潜在的なものとして扱われ、利用可能なデータが与えられた場合にＥＭによって決定される。次いで、遷移確率は、これらの他の変数を考慮して調整される。ＥＭプロセスは、累積的（すべての変数を一度に調整する）であり得るか、または最も確率が高いコピー数状態を決定するためにＨＭＭを解く前に、別個のＥＭ反復で変数に順応することができる。

【0083】

マッピングされた配列リード数の決定
いくつかの実施形態では、本明細書に記載された方法は、テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントなどの１つ以上のセグメントにマッピングすることを含む。いくつかの実施形態では、本明細書に記載された方法は、テスト配列ライブラリから生成された複数の配列リードを複数のセグメント（空間的に隣接し得る）にマッピングすることを含み得、複数のセグメントは、問い合わせされたセグメントを含む。配列ライブラリは、直接標的配列などによって、関心領域について濃縮される。マッピングされた配列リードをカウントして、問い合わせされたセグメントまたは空間的に隣接するセグメントにマッピングされた配列リード数を決定することができる。

【0084】

いくつかの実施形態では、セグメントは、同じ染色体内に位置する。いくつかの実施形態では、セグメントは、同じ染色体領域内に位置する。いくつかの実施形態では、セグメントは、同じ遺伝子内に位置する。いくつかの実施形態では、セグメントは、同じ関心領域内に位置する。いくつかの実施形態では、セグメントは、関心領域内の同じ部分内に位置する。

【0085】

配列ライブラリを配列して、関心領域にマッピングすることができる複数の配列リードを生成することができる。配列ライブラリは、血液、血漿、唾液、尿などの体液からか、または組織もしくは培養細胞から分離することができる複数の核酸断片を含む。核酸断片は、動物からのものであり得る。核酸断片は、哺乳動物、例えば、ヒトからのものであり得る。好ましい実施形態では、テスト配列ライブラリは、患者から単離された複数の核酸断片を含む。配列ライブラリ内の核酸分子は、特定の配列方法でのアライメントを支援し得る配列アダプタにライゲーションすることができる。例えば、アダプタは、インデックス付けされ得、インデックス付けを使用して、配列のアライメントを支援し得る。配列ライブラリは、核酸分子を配列アダプタにライゲーションする前または後のいずれかで、関心領域について（直接標的配列によるなど）濃縮され得る。

【0086】

テスト配列ライブラリ内の核酸断片は、ＲＮＡまたはＤＮＡ核酸断片であり得る。核酸断片は、無細胞ＤＮＡであり得る。いくつかの実施形態では、無細胞ＤＮＡは、胎児の無細胞ＤＮＡを含む。いくつかの実施形態では、無細胞ＤＮＡは、循環腫瘍無細胞ＤＮＡを含む。

【0087】

配列ライブラリ内の核酸断片は、関心領域を含む。関心領域は、全ゲノム、またはゲノムの任意の部分であり得る。いくつかの実施形態では、関心領域は、１つ以上の染色体を含む。いくつかの実施形態では、関心領域は、１つ以上の関心遺伝子（例えば、２つ以上、３つ以上、４つ以上、５つ以上、約１０個以上、約１５個以上、約２０個以上、約３０個以上、約４０個以上、約５０個以上、約７５個以上、約１００個以上、約１５０個以上、約２００個以上、約２５０個以上の遺伝子、約３００個以上、約３５０個以上、約４００個以上、約４５０個以上、約５００個以上、約５５０個以上、約６００個以上、約６５０個以上、約７００個以上、約７５０個以上、約８００個以上、約８５０個以上、約９００個以上、約９５０個以上、または約１０００個以上など）を含む。１つ以上の関心遺伝子は、疾患と関連付けられた任意の遺伝子であり得る。１つ以上の関心遺伝子は、遺伝性疾患と関連付けられた任意の遺伝子を含み得る。１つ以上の関心遺伝子は、遺伝性癌などの癌の形態と関連付けられた遺伝子を含み得る。いくつかの実施形態では、関心領域は、１つ以上のエクソン（例えば、２つ以上、３つ以上、４つ以上、５つ以上、１０個以上、１５個以上、２０個以上、３０個以上、４０個以上、５０個以上、７５個以上、１００個以上、１５０個以上、２００個以上、２５０個以上、５００個以上、１０００個以上、または２０００個以上のエクソン）。いくつかの実施形態では、関心領域は、ＡＰＣ、ＡＴＭ、ＢＡＲＤ１、ＢＭＰＲ１Ａ、ＢＲＣＡ１、ＢＲＣＡ２、ＢＲＩＰＩ、ＣＤＨ１、ＣＤＫ４、ＣＤＫＮ２Ａ、ＣＨＥＫ２、ＥＰＣＡＭ、ＧＲＥＭ１、ＭＥＮ１、ＭＬＨ１、ＭＲＥ１１Ａ、ＭＳＨ２、ＭＳＨ６、ＭＵＴＹＨ、ＮＢＮ、ＰＡＬＢ２、ＰＭＳ２、ＰＯＬＤ１、ＰＯＬＥ、ＰＴＥＮ、ＲＡＤ５０、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、ＲＥＴ、ＳＤＨＡ、ＳＤＨＢ、ＳＤＨＣ、ＳＭＡＤ４、ＳＴＫ１１、ＴＰ５３、ＶＨＬ、ＰＥＸ１０、ＭＴＨＦＲ、ＡＬＰＬ、ＨＭＧＣＬ、ＤＨＤＤＳ、ＰＰＴ１、ＭＰＬ、ＭＭＡＣＨＣ、ＰＯＭＧＮＴ１、ＣＰＴ２、ＡＬＧ６、ＲＰＥ６５、ＡＣＡＤＭ、ＤＰＹＤ、ＡＧＬ、ＳＬＣ３５Ａ３、ＤＢＴ、ＰＨＧＤＨ、ＣＴＳＫ、ＮＴＲＫ１、ＮＰＨＳ２、ＬＡＭＣ２、ＬＡＭＢ３、ＵＳＨ２Ａ、ＰＨＹＨ、ＥＲＣＣ６、ＰＣＤＨ１５、ＬＩＰＡ、ＨＯＧＡ１、ＯＡＴ、ＴＨ、ＨＢＢ、ＳＭＰＤ１、ＴＰＰ１、ＫＣＮＪ１１、ＡＢＣＣ８、ＵＳＨ１Ｃ、ＲＡＧ２、ＲＡＰＳＮ、ＴＭＥＭ２１６、ＰＹＧＭ、ＢＢＳ１、ＰＣ、ＴＣＩＲＧ１、ＣＰＴ１Ａ、ＤＨＣＲ７、ＭＹＯ７Ａ、ＭＥＤ１７、ＰＴＳ、ＳＬＣ３７Ａ４、ＨＹＬＳ１、ＰＦＫＭ、ＢＢＳ１０、ＧＮＰＴＡＢ、ＰＡＨ、ＭＭＡＢ、ＡＣＡＤＳ、ＰＵＳ１、ＧＪＢ２、ＧＪＢ６、ＳＧＣＧ、ＳＡＣＳ、ＡＴＰ７Ｂ、ＣＬＮ５、ＰＣＣＡ、ＴＧＭ１、ＺＦＹＶＥ２６、ＶＳＸ２、ＮＰＣ２、ＧＡＬＣ、ＳＥＲＰＩＮＡ１、ＶＲＫ１、ＴＥＣＰＲ２、ＳＬＣ１２Ａ６、ＩＶＤ、ＣＡＰＮ３、ＣＬＮ６、ＮＲ２Ｅ３、ＨＥＸＡ、ＭＰＩ、ＦＡＨ、ＭＥＳＰ２、ＢＬＭ、ＧＮＰＴＧ、ＭＥＦＶ、ＰＭＭ２、ＣＬＮ３、ＢＢＳ２、ＴＡＴ、ＣＹＢＡ、ＦＡＮＣＡ、ＶＰＳ５３、ＡＳＰＡ、ＣＴＮＳ、ＡＣＡＤＶＬ、ＡＬＤＨ３Ａ２、ＰＥＸ１２、ＮＡＧＬＵ、Ｇ６ＰＣ、ＳＧＣＡ、ＭＫＳ１、ＤＮＡＩ２、ＧＡＬＫ１、ＧＡＡ、ＳＧＳＨ、ＮＰＣ１、ＬＡＭＡ３，ＬＯＸＨＤ１、ＭＣＯＬＮ１、ＭＡＮ２Ｂ１、ＧＣＤＨ、ＮＰＨＳ１、ＢＣＫＤＨＡ、ＯＰＡ３、ＦＫＲＰ、ＨＡＤＨＡ、ＬＲＰＰＲＣ、ＦＡＭ１６１Ａ、ＡＴＰ６Ｖ１Ｂ１、ＤＹＳＦ、ＡＬＭＳ１、ＮＥＢ、ＣＥＲＫＬ、ＣＰＳ１、ＢＣＳ１Ｌ、ＣＹＰ２７Ａ１、ＣＯＬ４Ａ４、ＣＯＬ４Ａ３、ＡＧＸＴ、ＮＤＵＦＡＦ５、ＡＤＡ、ＲＴＥＬ１、ＨＬＣＳ、ＣＢＳ、ＡＩＲＥ、ＴＲＭＵ、ＭＬＣ１、ＴＹＭＰ、ＡＲＳＡ、ＳＵＭＦ１、ＸＰＣ、ＢＴＤ、ＧＬＢ１、ＡＭＴ、ＧＢＥ１、ＨＧＤ、ＰＣＣＢ、ＨＰＳ３、ＣＬＲＮ１、ＢＣＨＥ、ＩＤＵＡ、ＥＶＣ２、ＥＶＣ、ＳＥＰＳＥＣＳ、ＳＧＣＢ、ＭＴＴＰ、ＢＢＳ１２、ＭＭＡＡ、ＡＧＡ、Ｆ１１、ＮＤＵＦＳ６、ＤＮＡＨ５、ＮＤＵＦＳ４、ＥＲＣＣ８、ＨＥＸＢ、ＨＳＤ１７Ｂ４、ＳＬＣ２２Ａ５、ＳＬＣ２６Ａ２、ＳＧＣＤ、ＰＲＯＰ１、ＡＤＡＭＴＳ２、ＰＥＸ６、ＭＵＴ、ＰＫＨＤ１、ＥＹＳ、ＳＬＣ１７Ａ５、ＢＣＫＤＨＢ、ＲＡＲＳ２、ＬＡＭＡ２、ＡＲＧ１、ＰＥＸ７、ＡＳＬ，ＰＥＸ１、ＳＡＭＤ９、ＡＳＮＳ、ＳＬＣ２６Ａ４、ＤＬＤ、ＣＦＴＲ、ＣＬＮ８、ＳＴＡＲ、ＨＧＳＮＡＴ、ＴＴＰＡ、ＰＥＸ２、ＣＮＧＢ３、ＶＰＳ１３Ｂ、ＣＹＰ１１Ｂ１、ＣＹＰ１１Ｂ２、ＧＬＤＣ、ＤＮＡＩ１、ＧＡＬＴ、ＲＭＲＰ、ＧＮＥ、ＧＲＨＰＲ、ＶＰＳ１３Ａ、ＦＡＮＣＣ、ＸＰＡ、ＡＬＤＯＢ、ＦＫＴＮ、ＩＫＢＫＡＰ、ＡＳＳ１、ＲＳ１、ＮＲ０Ｂ１、ＤＭＤ、ＯＴＣ、ＩＬ２ＲＧ、ＡＴＰ７Ａ、ＣＨＭ、ＧＬＡ、ＣＯＬ４Ａ５、ＩＤＳ、ＭＴＭ１、ＡＢＣＤ１、またはそれらの組み合わせからなる群から選択される、遺伝子または遺伝子の一部分、エクソンまたはエクソンの一部分を含む。

【0088】

関心領域は、複数のセグメントに分割することができる。各セグメントは、サブセグメントにさらに分割することができる。サブセグメントは、１つ以上のヌクレオチドの長さであり得る。関心領域内のセグメントは、連接し得るが、連接する必要はない。例えば、いくつかの実施形態では、関心領域は、１つ以上の連接しないセグメント、２つ以上の連接しないセグメント、３つ以上の連接しないセグメント、４つ以上の連接しないセグメント、５つ以上の連接しないセグメント、１０個以上の連接しないセグメント、２５個以上の連接しないセグメント、５０個以上の連接しないセグメント、１００個以上の連接しないセグメント、１５０個以上の連接しないセグメント、２００個以上の連接しないセグメント、２５０個以上の連接しないセグメント、３００個以上の連接しないセグメント、３５０個以上の連接しないセグメント、４００個以上の連接しないセグメント、４５０個以上の連接しないセグメント、５００個以上の連接しないセグメント、５５０個以上の連接しないセグメント、６００個以上の連接しないセグメント、６５０個以上の連接しないセグメント、７００個以上の連接しないセグメント、７５０個以上の連接しないセグメント、８００個以上の連接しないセグメント、８５０個以上の連接しないセグメント、９００個以上の連接しないセグメント、９５０個以上の連接しないセグメント、または１０００個の連接しないセグメントを含む。いくつかの実施形態では、連接しないセグメントの各々は、１つ以上の連接する塩基、２つ以上の連接する塩基、３つ以上の連接する塩基、４つ以上の連接する塩基、または５つ以上の連接する塩基を含む。例えば、いくつかの実施形態では、連接しないセグメントの各々は、１つ～約２０個の連接する塩基（例えば、１つ～約１０個の連接する塩基、または約１つ～約５つの連接する塩基）を含む。いくつかの実施形態では、関心領域は、１つ以上の連接するセグメント、２つ以上の連接するセグメント、３つ以上の連接するセグメント、４つ以上の連接するセグメント、５つ以上の連接するセグメント、１０個以上の連接するセグメント、２５個以上の連接するセグメント、５０個以上の連接するセグメント、１００個以上の連接するセグメント、１５０個以上の連接するセグメント、２００個以上の連接するセグメント、２５０個以上の連接するセグメント、３００個以上の連接するセグメント、３５０個以上の連接するセグメント、４００個以上の連接するセグメント、４５０個以上の連接するセグメント、５００個以上の連接するセグメント、５５０個以上の連接するセグメント、６００個以上の連接するセグメント、６５０個以上の連接するセグメント、７００個以上の連接するセグメント、７５０個以上の連接するセグメント、８００個以上の連接するセグメント、８５０個以上の連接するセグメント、９００個以上の連接するセグメント、９５０個以上の連接するセグメント、または１０００個の連接するセグメントを含む。いくつかの実施形態では、連接するセグメントの各々は、１つ以上の連接する塩基、２つ以上の連接する塩基、３つ以上の連接する塩基、４つ以上の連接する塩基、または５つ以上の連接する塩基を含む。例えば、いくつかの実施形態では、連接しないセグメントの各々は、１つ～約２０個の連接する塩基（例えば、１つ～約１０個の連接する塩基、または約１つ～約５つの連接する塩基）を含む。いくつかの実施形態では、関心領域は、連接しないセグメントと連接するセグメントとの組み合わせを含む。いくつかの実施形態では、関心領域は、１つのセグメントのみを含む。いくつかの実施形態では、関心領域は、少なくとも１つのセグメントを含む。いくつかの実施形態では、関心領域は、少なくとも２つのセグメントを含む。いくつかの実施形態では、関心領域は、隣接する少なくとも２つのセグメントを含む。いくつかの実施形態では、第１の関心領域内の１つのセグメントは、第１の関心領域に隣接する第２の関心領域内のセグメントに隣接し得る。

【0089】

関心領域は、１つ以上の捕捉プローブで濃縮され得る。関心領域に関する捕捉プローブの基準場所は、既知である。例えば、捕捉プローブは、所定のプローブ座標に対応する基準配列を含む。いくつかの実施形態では、関心領域は、捕捉プローブの場所に基づいてセグメントに分割される（すなわち、捕捉プローブは、セグメントに対応する）。捕捉プローブは、プローブ座標に対応する基準配列を含む。例えば、セグメントの最初のヌクレオチドは、捕捉プローブの３’末端にハイブリダイズする配列の最初のヌクレオチドと一致し得る。いくつかの実施形態では、セグメントの最初のヌクレオチドは、捕捉プローブの５’末端にハイブリダイズする配列の最初のヌクレオチドと一致する。いくつかの実施形態では、関心領域は、２つの空間的に隣接するセグメントを含む。関心領域内のセグメントは、サブセグメントに分割され得る。サブセグメントは、１つのヌクレオチドがセグメントと同じ長さであり得るのと同じくらい小さくあり得る。サブセグメントは、重複し得る。例えば、第１のサブセグメントは、セグメントの最初のヌクレオチドに１つの下流ヌクレオチドを加えたものであり得る。第２のサブセグメントは、第１のサブセグメントに追加の下流ヌクレオチドを加えたものを含み得る。いくつかの実施形態では、ｎ個のヌクレオチドの長さのセグメントは、ｎ－１個のサブセグメントを含み、後続の各サブセグメントは、前のものよりも１つのヌクレオチドだけ長い。いくつかの実施形態では、ｎ個のヌクレオチドの長さのセグメントは、ｎ個のサブセグメントを含み、各サブセグメントは、長さが１つのヌクレオチドである。

【0090】

関心領域は、少なくとも１つの問い合わせされたセグメントを含む。問い合わせされたセグメントは、コピー数を知ることが望ましいセグメントである。問い合わせされたセグメントのコピー数状態は、未知の状態であり、隠れマルコフモデルを解くことにより、問い合わせされたセグメントの最も確率が高いコピー数が決定される。他のセグメントのように、問い合わせされたセグメントは、サブセグメントに分割され得る。いくつかの実施形態では、問い合わせされたセグメントの最初のヌクレオチドは、捕捉プローブの５’末端にハイブリダイズする配列の最初のヌクレオチドと一致する。いくつかの実施形態では、問い合わせされたセグメントの最初のヌクレオチドは、捕捉プローブの３’末端にハイブリダイズする配列の最初のヌクレオチドと一致する。いくつかの実施形態では、問い合わせされたセグメントは、２つの空間的に隣接する捕捉プローブにまたがる配列を含む。好ましい実施形態では、問い合わせされたセグメントは、２つの隣接する捕捉プローブ間にヌクレオチド配列を含み、配列の最初のヌクレオチドは、捕捉プローブの５’末端または３’末端にハイブリダイズする最初のヌクレオチドであり、セグメントの最後のヌクレオチドは、空間的に隣接するプローブの５’末端または３’末端にハイブリダイズする最初のヌクレオチドに連接する。

【0091】

テスト配列ライブラリを、配列リードを生成するために次世代配列を使用して配列することができる。次世代配列技術は、当技術分野で周知である。テスト配列ライブラリは、ＩｌｌｕｍｉｎａＨｉＳｅｑ２５００、ＩｌｌｕｍｉｎａＨｉＳｅｑ３０００、ＩｌｌｕｍｉｎａＨｉＳｅｑ４０００、ＩｌｌｕｍｉｎａＨｉＳｅｑＸ、Ｒｏｃｈｅ４５４、ＰａｃＢｉｏＳｅｑｕｅｌＳｙｓｔｅｍＰａｃＢｉｏＲＳＩＩ、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＩｏｎＰｒｏｔｏｎ配列システムなどの高スループットシーケンサを使用して配列することができる。配列の他の方法は、当技術分野で知られている。

【0092】

いくつかの実施形態では、配列ライブラリは、直接標的配列によって１つ以上の捕捉プローブで濃縮される。直接標的配列では、捕捉プローブは、配列ライブラリ内から核酸分子の特異的な標的領域をハイブリダイズさせる。この方法により、標的領域の濃縮が可能になり、後続の配列作業が、関心ゲノム領域または関心転写産物に焦点を当てることを可能にする。関心領域について捕捉プローブでターゲット領域を濃縮することにより、関心領域のより効率的な高スループット配列が可能になる。この効率により、診断テストまたは画面の感度および特異性を維持または向上させながら、配列テスト配列ライブラリの全体的なコストが保たれる。捕捉プローブは、関心領域の一部分を内包する配列ライブラリ内のそれらの核酸分子が捕捉プローブにハイブリダイズして濃縮することができるように、関心領域に基づいて選択することができるのに対して、関心領域の一部分を内包しない、配列ライブラリ内のそれらの核酸分子は、捕捉プローブにハイブリダイズせず、濃縮されない。

【0093】

直接標的配列では、関心領域内の対応するセグメントに隣接する標的配列にハイブリダイズする捕捉プローブは、配列ライブラリと組み合わされることにより、捕捉プローブを、標的配列にハイブリダイズさせることを含めて核酸分子にハイブリダイズさせる。直接標的配列法では、捕捉プローブは、核酸分子をテンプレートとして使用して伸長され、伸長された捕捉プローブは、配列される。伸長された捕捉プローブ（または伸長された捕捉プローブの増幅コピー）自体が配列されるため、捕捉プローブの配列は、配列アライメントを支援するために使用され得るが、テスト配列ライブラリから生じる配列として解釈されない。

【0094】

捕捉プローブを使用して配列ライブラリを濃縮するための他の方法は、当技術分野で一般に知られており、ハイブリッド捕捉技術（例えば、ビオチン化捕捉プローブを使用する）、および捕捉プローブをＰＣＲプライマとして使用するＰＣＲ増幅を含むことができる。

【0095】

いくつかの実施形態では、ハイブリッド捕捉技術を使用して、関心領域の一部分に対して実質的に相補的である捕捉プローブを配列ライブラリと組み合わせることによって関心領域を濃縮し、それにより、捕捉プローブを、関心領域のこの部分を含む核酸分子にハイブリダイズさせる。捕捉プローブにハイブリダイズする核酸分子は、ハイブリダイズしていない核酸分子から単離され得る（例えば、プルダウン法による）。ハイブリダイズした複合体は、変性させることができ、配列ライブラリからの濃縮された核酸分子は、配列され得る。いくつかの実施形態では、濃縮された核酸分子は、配列される前に、捕捉プローブへのハイブリダイゼーション、単離および変性の２回目（またはそれよりも多く）のラウンドで再濃縮される。任意で、配列ライブラリ内の核酸分子は、濃縮前または後のいずれかで増幅され得る（例えば、ＰＣＲによる）。

【0096】

いくつかの実施形態では、捕捉プローブのうちの１つ以上が、追加のオリゴヌクレオチド（プライマ結合部位または他の特殊な核酸セグメントなど）に付着する。いくつかの実施形態では、捕捉プローブライブラリ内の捕捉プローブは、ＤＮＡオリゴヌクレオチド、ＲＮＡオリゴヌクレオチド、またはＤＮＡオリゴヌクレオチドとＲＮＡオリゴヌクレオチドとの混合物である。いくつかの実施形態では、捕捉プローブは、長さが約１０～１００塩基である。いくつかの実施形態では、捕捉プローブは、長さが約２０～６０塩基である。いくつかの実施形態では、捕捉プローブは、長さが約３０～５０塩基である。いくつかの実施形態では、捕捉プローブは、長さが４０塩基長である。

【0097】

一般に、関心領域が大きいほど、適切なカバレッジのためにより多くの捕捉プローブが必要になるため、捕捉プローブライブラリ内の捕捉プローブの数は、関心領域のサイズに依存し得る。いくつかの実施形態では、捕捉プローブライブラリは、約１０個以上の固有の捕捉プローブ（約５０個以上、約１００個以上、約２５０個以上、約５００個以上、約１０００個以上、約２５００個以上、約５０００個以上、約１０，０００個以上、約２５，０００個以上、約５０，０００個以上、約１００，０００個以上、または約２００，０００個以上など）固有の捕捉プローブを含む。

【0098】

濃縮された配列ライブラリを配列することは、複数の配列リードを生成する。セグメントまたはサブセグメントの配列深度を決定するために、そのセグメントにマッピングされた配列リード数が、決定される。配列リードは、例えば、配列リード（または配列リードの一部分）を基準配列にアライメントすることによって、または配列リードの一部分に基づくセグメントに配列リードを割り当てることによってマッピングされ得る。

【0099】

いくつかの実施形態では、配列リードは、配列リード（または配列リードの一部分）を基準配列にアライメントすることによってマッピングされる。例えば、直接標的配列から結果として生じる配列リードは、捕捉プローブ部分（すなわち、捕捉プローブ自体に帰属し得る配列リードの部分）およびセグメント部分（すなわち、捕捉プローブにより標的とされ、かつ捕捉プローブと関連付けられたセグメントに帰属し得る配列リードの部分）を含むことができる。いくつかの実施形態では、セグメント部分は、基準配列とアライメントされ、捕捉プローブ部分は、基準配列とアライメントされ、または捕捉プローブ部分およびセグメント部分は、基準配列とアライメントされる。基準配列は、セグメントに事前分割された関心領域を含む。したがって、基準配列にアライメントされた配列リードは、対応するセグメントにアライメントされ得、アライメントされた配列リードは、そのセグメントに割り当てられるか、または「マッピング」される。

【0100】

いくつかの実施形態では、配列リードは、配列リードの一部分に基づくセグメントに配列リードを割り当てることによって、マッピングされる。このような実施形態では、配列のリードを基準配列にアライメントさせる必要がない。捕捉プローブは各々、セグメントに対応し、かつ対応するセグメントは、捕捉プローブの設計によって既知であるため、捕捉プローブ（または捕捉プローブの補体）の配列を内包する配列リードを、対応するセグメントに割り当てる（または「マッピング」する）ことができる。

【0101】

いくつかの実施形態では、配列深度は、そのセグメントにマッピングされた配列リードを決定することによって取得され得る。いくつかの実施形態では、配列深度は、そのセグメントに対応する捕捉プローブにマッピングされた配列リードを決定することによって取得され得る。

【0102】

いくつかの実施形態では、２つ以上の捕捉プローブが重複する（すなわち、捕捉プローブは、関心領域内の重複する配列にハイブリダイズすることができる）。２つ以上の捕捉プローブは、プローブの長さの約０％～１０％、約１０～２０％、約２０％～３０％、約３０％～４０％、約４０％～５０％、約５０％～６０％、約６０％～７０％、約７０％～８０％、約８０％～９０％、または約９０％～９９％だけ重複し得る。いくつかの実施形態では、２つ以上の捕捉プローブは、１００％重複する。いくつかの実施形態では、２つ以上の捕捉プローブに帰属し得る配列の数は、互いに相関する。重複するまたは相関する捕捉プローブは、重複するまたは相関する捕捉プローブに帰属する配列リード数をマージ（つまり、合計）することによって、考慮され得る。

【0103】

複数の配列リードが、問い合わせされたセグメントまたは複数の空間的に隣接するセグメント（問い合わせされたセグメントを含む）にマッピングされると、セグメントに割り当てられた配列リード数をカウントすることによって、問い合わせされたセグメントまたは空間的に隣接するセグメント（問い合わせされたセグメントを含む）にマッピングされた配列リード数を決定することができる。

【0104】

コピー数尤度モデルの構築、初期化、および最大化
コピー数尤度モデルは、セグメントのコピー数状態が与えられた場合に、セグメントでマッピングされた配列リード数を観測する尤度を決定するために使用することができる任意の統計モデルであり得る。初期コピー数尤度モデルは、モデルのパラメータが定義されているが、モデルを最適化する前であるモデルを指す。好ましい実施形態では、コピー数尤度モデルは、コピー数状態が与えられた場合に期待されるマッピングされた配列リード数の１つ以上の尤度分布を含む。すなわち、各尤度分布は、コピー数状態に対応する。例えば、コピー数尤度モデルは、１のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、２のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、３のコピー数状態が与えられた場合の期待される配列リード数の尤度分布、および４のコピー数状態が与えられた場合の期待される配列リード数の尤度分布を含み得る。コピー数尤度モデルは、可能な各コピー数状態の尤度分布を含む必要はないが、少なくとも１つの尤度分布を含む。同様に、コピー数尤度モデルは、５の、６の、７の、または８のコピー数状態などの、４よりも大きいコピー数状態の分布を含み得る。いくつかの実施形態では、コピー数尤度モデルに含まれる分布は、ポアソン分布である。いくつかの実施形態では、コピー数尤度モデルに含まれる分布は、二項分布である。いくつかの実施形態では、コピー数尤度モデルは、負の二項分布を含む。例えば、いくつかの実施形態では、コピー数尤度モデルは、コピー数状態ｃ_ｉ，ｊのテスト配列ライブラリｊ内の問い合わせされたセグメントｉの期待されるマッピングされた配列リードについての１つ以上の負の二項分布（または負の二項分布がポアソン分布ではない１つ以上の負の二項分布）を含む。

【0105】

コピー数尤度モデルの尤度分布は、平均値（μ）および分散（ｄ）によってさらに特性化することができる。尤度分布の平均値および分散は、セグメントｉで（すなわち、同じ捕捉プローブを使用して）、複数のセグメントでテスト配列ライブラリｊを配列することによって（すなわち、捕捉プローブライブラリを使用して）、および配列ライブラリｊのセグメントｉにコピー数状態を設定することによって、決定された期待される配列リード数を使用することによって最適化される。期待される配列リード数は、少なくとも３つの要因、すなわち、複数の配列ライブラリにわたるセグメントの代表値のマッピングされた配列リード数、複数のセグメントにわたるテスト配列ライブラリの代表値のマッピングされた配列リード数、およびセグメントのローカルコピー数状態に基づく。分布の平均値は、μ＝ｃ_ｉ，ｊμ_ｉμ_ｊと設定することができ、
μ_ｉは、Ｎ_ｓ個の配列ライブラリにわたるセグメントｉについての代表値のマッピングされた配列リード数であり、μ_ｊは、Ｎ_ｐ個のセグメントにわたるテスト配列ライブラリｊについての代表値のマッピングされた配列リード数であり、ｃ_ｉ，ｊ・は、テスト配列ライブラリｊのセグメントｉでのコピー数状態であり、ｋ_ｉ，ｊは、テスト配列ライブラリｊのセグメントｉでの決定された配列リード数であり、μ_ｉおよび／またはμ_ｊは、正規化される。

【0106】

形式的に、

【数1】

【0107】

コピー数尤度モデルは、異なるコピー数状態の期待される配列リード数から分布を決定することによって設定され、次いで、セグメントで実際のマッピングされた配列リード数が与えられた場合に、最も確率が高いｃ_ｉ，ｊに対して最大化される。

【0108】

遺伝子の大多数について、期待されるコピー数（すなわち、「野生型」）は２（すなわち、２倍体）であると仮定される。このことは、常に当てはまるとは限らない。例えば、Ｙ染色体上の遺伝子について、期待されるコピー数（すなわち、「野生型」）は１であると仮定するとよい。この関係を考慮すると、いくつかの実施形態では、任意の所与のコピー数状態のコピー数尤度分布は、代表値が中心に位置し、

【数2】

μ_ｉは、Ｎ_ｓ個の配列ライブラリにわたるセグメントｉについての代表値のマッピングされた配列数であり、μ_ｊは、Ｎ_ｐ個のセグメントにわたるテスト配列ライブラリｊについての代表値のマッピングされた配列リード数であり、ｃは、所与のコピー数尤度分布のコピー数であり、μ_ｉおよび／またはμ_ｊは、正規化された代表値のマッピングされた配列リード数である。所与の配列ライブラリ内のセグメントのマッピングされた配列リード数は、配列ライブラリ内のセグメントｉでのマッピングされた配列リード数を、その配列ライブラリ内のＮ_ｐ個のセグメントにわたる代表値のマッピングされた配列リード数で除算することによって、正規化することができる。図２Ａは、およそ２５００個の捕捉プローブの配列リード数の例示的なプロファイルを提示し、配列ライブラリは、直接標的配列によって濃縮された。図２Ｂは、およそ４８個の異なる配列ライブラリのセグメントｉでの正規化されたマッピングされた配列リード数の例示的なプロファイルを提示し、配列ライブラリは、直接標的配列によってセグメントｉについて濃縮された。

【0109】

コピー数尤度分布はまた、セグメントｉについて次のように推定される分散（ｄ）を含み、

【数3】

σ_ｉ ^２は、複数の配列ライブラリについてのマッピングされた配列リード数の分散である。本明細書にさらに記載されるように、コピー数尤度分布の分散は、セグメントｉ（すなわち、セグメントｉでの捕捉プローブに起因するノイズからの分散）と、テスト配列ライブラリｊ内のセグメント全体と、の両方の成分を含むことができる。

【0110】

コピー数尤度分布は、ポアソン分布、二項分布、負の二項分布（一般化されたポアソンの負の二項分布、またはポアソン分布ではない負の二項分布など）、または任意の他の好適な分布であり得る。負の二項分布がポアソン分布ではない負の二項分布は、コピー数尤度分布を決定するために特に有用であることが見出された。図３Ａは、複数の異なるテスト配列ライブラリの関心領域の配列ライブラリを濃縮するために使用されるおよそ２５００個の捕捉プローブの平均の配列リード数（「平均深度」）に対する配列深度分散のプロットを示す。データは、負の二項分布を使用してフィッティングされたものであり、負の二項分布は、ポアソン分布ではない。比較として、分散と平均深度との間の線形関係を仮定したポアソン分布も例示される。図３Ａに見られるように、データをプロットすると分散が平均値よりも大きいことが示されるため、データは、平均の配列深度が配列深度分散に等しいというポアソン仮定に反する。したがって、データは、ポアソン分布よりも負の二項分布に大幅に良好にフィッティングする。

【0111】

図３Ｂは、１（ＣＮ＝１）、２（ＣＮ＝２）、および３（ＣＮ＝３）のコピー数のコピー数尤度分布を含むコピー数尤度モデルを例示する。図３Ｂは、ポアソン分布および負の二項分布を例示し、負の二項分布は、各コピー数のポアソン分布ではない。分布は、セグメントに対応する捕捉プローブからの配列リード数の関数としての確率質量関数（ｐｍｆ）である。

【0112】

隠れマルコフモデルの構築
隠れマルコフモデルは、マッピングされた配列リード数（観測状態）からの最も確率が高いコピー数（隠れた状態）の決定を可能にする。一般に、隠れマルコフモデルには、４つの主要なパラメータ、すなわち、１つ以上の隠れた状態、１つ以上の観測状態、隠れた状態から観測状態への１つ以上の放出確率、および隠れた状態間の遷移確率がある。本明細書では、隠れマルコフモデルを構築し、かつ隠れマルコフモデルをパラメータ化する方法が、提供される。また、本明細書では、不完全なデータセットを使用して隠れマルコフモデルをトレーニングする方法が、提供される。また、本明細書では、隠れマルコフモデルのパラメータを最適化して、隠れた状態と観測状態との間の放出確率に影響を与える変数を考慮することによって、隠れマルコフモデルを最適化する方法が、提供される。具体的には、以下では、隠れマルコフモデルの層に関する方法および説明、マルコフモデルの遷移確率、コピー数尤度モデル、期待値最大化を使用して、隠れマルコフモデルをパラメータ化すること、隠れマルコフモデルを調整して、潜在変数の数を考慮すること、隠れマルコフモデルを解くことが提供される。

【0113】

開示された方法で使用され得る例示的な隠れマルコフモデルが、図４Ａに例示される。図４Ａでは、ｃ_１、ｃ_２、ｃ_３、およびｃ_４は、隠れた状態（すなわち、モデルはｎ個のセグメントを含むことができると理解されるが、４つの異なるセグメントの最も確率が高いコピー数）およびｋ_１、ｋ_２、ｋ_３、およびｋ_４は、観測される状態（すなわち、対応する各セグメントのマッピングされた配列リード数）を表す。遷移確率は、１つのセグメントのコピー数から隣接するセグメントのコピー数に遷移する確率であり、ｐ（ｃ_２｜ｃ_１）、ｐ（ｃ_３｜ｃ_２）、およびｐ（ｃ_４｜ｃ_３）によって表される。最後に、観測される状態（そのセグメントのマッピングされた配列リード数）が与えられた場合の隠れた状態（すなわち、セグメントのコピー数）の確率は、ｐ（ｃ_１｜ｋ_１）、ｐ（ｃ_２｜ｋ_２）、ｐ（ｃ_２｜ｋ_２）、およびｐ（ｃ_２｜ｋ_２）によって表される。後者は、解かれる事後確率である。事後確率を決定するために、ｐ（ｋ_ｎ｜ｃ_ｎ）のコピー数尤度モデルが、使用される。

【0114】

いくつかの実施形態では、隠れマルコフモデルは、１つの隠れた状態および対応する観測状態のみを含む。いくつかの実施形態では、隠れた状態は、セグメントのコピー数状態に対応し、観測状態は、そのセグメントでのマッピングされた配列リード数に対応する。いくつかの実施形態では、隠れマルコフモデルは、複数の隠れた状態および複数の観測状態を含む。いくつかの実施形態では、複数の隠れた状態は、複数のセグメントでのコピー数状態に対応し、複数の観測状態は、複数のセグメントでのマッピングされた配列リード数に対応する。いくつかの実施形態では、関心領域内の各セグメントは、関心領域の捕捉プローブに対応する。いくつかの実施形態では、２つの隣接する隠れた状態は、関心領域内の２つの空間的に隣接するセグメントに対応する。

【0115】

セグメントは、本明細書で前述したように、サブセグメントに分割され得る。いくつかの実施形態では、隠れた状態は、サブセグメントのコピー数に対応する。サブセグメントは、親セグメント（すなわち、サブセグメントがメンバであるセグメント）のマッピングされた配列リード数とは独立したマッピングされた配列リード数を含まない。いくつかの実施形態では、セグメントのマッピングされた配列リード数は、セグメント内の各サブセグメントに帰属する。いくつかの実施形態では、サブセグメントは、隠れた状態（すなわち、コピー数）を含むが、マッピングされた配列リード数は、セグメントの最初のサブセグメントにのみ帰属する。これは、図４Ｂに例示される。図４Ｂは、破線で識別される２つのセグメント、すなわち、セグメントＡおよびセグメントＢを含む。セグメントＡは、サブセグメント１、サブセグメント２、およびサブセグメント３を含む一方、セグメントＢは、サブセグメント４、サブセグメント５、およびサブセグメント６を含む。セグメントＡのマッピングされた配列リード数は、そのセグメントの最初のサブセグメントであるサブセグメント１に帰属する。セグメントＢのマッピングされた配列リード数は、そのセグメントの最初のサブセグメントであるサブセグメント４に帰属する。Ｃ_１、Ｃ_２、Ｃ_３、Ｃ_４、Ｃ_５、およびＣ_６は、サブセグメントの各々の隠れた状態（コピー数）を表し、ｋ_１およびｋ_４は、それぞれサブセグメント１およびサブセグメント４の観測される状態（配列リード数）を表す。サブセグメントの隠れた状態間の遷移確率は、ｐ（ｃ_２｜ｃ_１）、ｐ（ｃ_３｜ｃ_２）、ｐ（ｃ_４｜ｃ_３）、ｐ（ｃ_５｜ｃ_４）、およびｐ（ｃ_６｜ｃ_５）によって識別される。サブセグメント１およびサブセグメント４のみが観測状態を含むため、サブセグメントのコピー数が与えられた場合のマッピングされた配列リード数の２つの確率、すなわち、ｐ（ｋ_１｜ｃ_１）およびｐ（ｋ_４｜ｃ_４）のみが含まれる。

【0116】

セグメントのコピー数状態は、その場所にマッピングされた配列リード数に関連する。テスト配列ライブラリｊ内のセグメント（またはサブセグメント）ｉのマッピングされた配列リード数（ｋ_ｉ，ｊと表記することができる）が与えられた場合に、セグメントまたはサブセグメント（ｃ_ｉ，ｊと表記することができる）のコピー数状態を決定することにより、そのセグメントまたはサブセグメントのコピー数をコールすることが可能になる。所与のコピー数の状態が正しいコピー数である確率は、少なくともマッピングされた配列リード数に依存する。ベイズ統計では、ｋ_ｉ，ｊ（すなわち、ｐ（ｃ_ｉ，ｊ｜ｋ_ｉ，ｊ））が与えられた場合のｃ_ｉ，ｊの事後確率は、コピー数尤度分布を使用して決定され得る。事後確率は、いくつかのデータが与えられた場合のパラメータの確率である一方、尤度モデルは、パラメータが与えられた場合のデータの確率である。この場合、事後確率は、セグメントまたはサブセグメントでマッピングされた配列リード数が与えられた場合の、セグメントまたはサブセグメントのコピー数状態の確率（すなわち、ｐ（ｃ_ｉ，ｊ｜ｋ_ｉ，ｊ））であるのに対して、コピー数尤度モデルは、セグメントのコピー数状態が与えられた場合の、セグメントでマッピングされた配列リード数を観測する尤度（つまり、ｐ（ｋ_ｉ，ｊ｜ｃ_ｉ，ｊ））である。ｐ（ｃ_ｉ，ｊ｜ｋ_ｉ，ｊ）は、直接決定することができないため、コピー数尤度モデルｐ（ｋ_ｉ，ｊ｜ｃ_ｉ，ｊ）を使用して、隠れマルコフモデルをパラメータ化することができ、これを使用して、事後確率ｐ（ｃ_ｉ，ｊ｜ｋ_ｉ，ｊ）を解くことができる。以下で、負の二項分布としてのコピー数尤度モデルを考察するが、同様の態様が他の分布形式にも当てはまることが理解される。いくつかの実施形態では、コピー数尤度モデルは、
ｐ（ｋ_ｉ，ｊ｜ｃ_ｉ，ｊ）＝ＮｅｇＢｉｎｏｍ（ｋ_ｉ，ｊ｜μ_{ｃ，ｉ，ｊ}＝ｃ_ｉ，ｊμ_ｉμ_ｊ；ｄ＝ｄ_ｉ）
のように定義することができ、ｋ_ｉ，ｊは、テスト配列ライブラリｊのセグメントｉでのマッピングされた配列リード数である。

【0117】

負の二項分布は、データに最も良くフィッティングするようにパラメータ化される。最も単純な形式では、コピー数尤度モデルは、負の二項モデルである。ただし、生成されたデータによっては、異なるタイプの分布が、データにより良くフィッティングする場合があり、より適する場合がある。本発明の一般的な態様は、異なる統計的分布を含むモデルに当てはまるであろう。

【0118】

セグメントまたはサブセグメントのコピー数の遷移確率は、部分的に、空間的に隣接するセグメントまたはサブセグメントのコピー数の状態に依存する。コピー数バリアントの長さおよび頻度はまた、遷移確率に影響を与え得る。

【0119】

いくつかの実施形態では、遷移確率は、事前決定され得るか、または固定され得る。好ましい実施形態では、遷移確率は、可変である。例えば、遷移確率は、０、１、２、３、または４個のコピーに制限された隠れたコピー数状態を仮定して（２の野生型コピー数を仮定して）、次の確率的遷移行列で形式的に表すことができ、

【数4】

Ｃ_ｉは、第１のセグメントまたは第１のサブセグメントのコピー数状態であり、ｃ_ｉ＋１は、第１のセグメントまたは第１のサブセグメントに空間的に隣接する第２のセグメントまたは第２のサブセグメントのコピー数状態であり、ｒ_ａｂは、第１のコピー数状態ａから第２のコピー数状態ｂへの遷移確率を表す。例えば、ａは、３のコピー数状態であり、ｂは、２のコピー数状態であり得る。第１のセグメントは、問い合わせされたセグメントであり得る（または、第１のサブセグメントは、問い合わせされたセグメントのサブセグメントであり得る）。上記の確率的遷移行列は、０、１、２、３、または４個のコピーを仮定しているが、確率的遷移行列は、任意の数のコピーに使用され得ることが理解される。

【0120】

コピー数バリアントは、代表値の長さを有し、この長さよりも長いかまたは短いコピー数は、代表値の長さのコピー数よりも少ない傾向がある。いくつかの実施形態では、遷移確率（または複数の遷移確率）は、コピー数バリアントの代表値の長さを考慮する。コピー数バリアントの代表値の長さは、履歴集団（例えば、履歴ヒト集団）からの観測に基づき得る。履歴集団は、コピー数バリアントがコールされた配列ライブラリの履歴集団である。履歴集団が大きいほど、より正確な代表値のコピー数バリアント長さをもたらし得る。いくつかの実施形態では、履歴集団は、約１０００個以上の配列ライブラリ（例えば、約５０００個以上、約１０，０００個以上、約２５，０００個以上、約５０，０００個以上、約１００，０００個以上、約２５０，０００個以上、または約５００，０００個以上の配列ライブラリなど）を含む。コピー数バリアントの代表値の長さは、事前決定される。いくつかの実施形態では、コピー数バリアントの代表値の長さは、約３０００～約１０００塩基（例えば、約４０００～約８０００塩基、約５０００～約７０００塩基、約５５００塩基～約６５００塩基、または約６２００塩基）である。コピー数の代表値の長さを考慮して、塩基ごとの遷移確率を計算するために使用される確率的遷移行列の遷移（またはサブセグメント遷移確率は、

【数5】

として設定することができ、

【数6】

は、コピー数バリアントの代表値の長さである。

【0121】

遷移確率はまた、空間的に隣接するセグメントでのコピー数状態が与えられた場合に、問い合わせされたセグメントでのコピー数バリアントの確率を考慮することができる。ゲノムの特定の部分は、コピー数バリアントを含む遺伝的バリアントの「ホットスポット」を含み得る。ホットスポットは、あらゆる種類の変異について高い傾向を呈するゲノム内の領域を指す。これは、領域の構造的構成、または領域の機能的側面に起因し得、これにより、領域が変異しやすくなる。任意の所与のセグメント（問い合わせされたセグメントまたは空間的に隣接するセグメントなど）でのコピー数バリアントの確率は、履歴集団（例えば、履歴ヒト集団）からの観測に基づき得る。履歴集団は、コピー数バリアントがコールされた配列ライブラリの履歴集団である。履歴集団が大きいほど、より正確なコピー数バリアント確率をもたらし得る。いくつかの実施形態では、履歴集団は、約１０００個以上の配列ライブラリ（例えば、約５０００個以上、約１０，０００個以上、約２５，０００個以上、約５０，０００個以上、約１００，０００個以上、約２５０，０００個以上、または約５００，０００個以上の配列ライブラリなど）を含む。問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの確率を考慮するために、確率的遷移行列の遷移は、

【数7】

として設定され得、ｐ_ＣＮＶは、コピー数バリアントの確率であり、

【数8】

は、代表値のコピー数バリアントの長さである。ｒ_０１＝ｒ_１２＝ｒ_３２＝ｒ_４３であるため、記載された関係は、すべてのコピー数に当てはまる。

【0122】

いくつかの実施形態では、隠れマルコフモデルは、セグメントまたはサブセグメントのコピー数状態の１つの遷移確率を含む。いくつかの実施形態では、隠れマルコフモデルは、セグメントまたはサブセグメントのコピー数状態の複数の遷移確率を含む。いくつかの実施形態では、隣接する先行するセグメントのコピー数状態が与えられた場合のコピー数状態の遷移確率は、コピー数バリアントの長さに依存する。いくつかの実施形態では、コピー数バリアントの長さは、ゲノムのその特定の領域に特異的である。いくつかの実施形態では、コピー数バリアントの長さは、ゲノム全体でのコピー数バリアントの代表値の長さである。

【0123】

いくつかの実施形態では、隣接する先行するセグメントのコピー数状態が与えられた場合のコピー数状態の遷移確率は、コピー数バリアントを観測する確率に依存する。いくつかの実施形態では、コピー数バリアントを観測する確率は、ゲノムのその特定の領域に特異的である。いくつかの実施形態では、コピー数バリアントを観測する確率は、ゲノム全体でのコピー数バリアントを観測する代表値の確率である。

【0124】

隠れマルコフモデルのパラメータ化および最も確率が高いコピー数の決定
上述されたように、隠れマルコフモデルは、（ｉ）１つ以上のセグメントまたはサブセグメント（少なくとも問い合わせされたセグメント、または問い合わせされたセグメントのサブセグメントを含む）に対応するコピー数を含む１つ以上の隠れた状態、（ｉｉ）１つ以上のセグメントにマッピングされた配列リード数を含む１つ以上の観測状態、および（ｉｉｉ）コピー数尤度モデルを含む。コピー数尤度モデルは、所与の隠れた状態についての観測状態を観測する確率（すなわち、ｐ（ｋ_ｉ，ｊ｜ｃ_ｉ，ｊ））を記述するために使用される。隠れマルコフモデルはまた、隠れた状態間の遷移確率を含み、これは、上述されたように固定または可変であり得る。

【0125】

隠れマルコフモデルは、コピー数尤度モデルを使用して開始される。隠れマルコフモデルはまた、コピー数状態（すなわち、隠れた状態）が、遷移確率を決定するために遷移（ｒ）を逆算するために使用することができる野生型コピー数（例えば、２つのコピー）を有すると仮定することによって開始され得る。コピー数尤度モデルは、上記で説明したように、セグメントにマッピングされた期待される配列リード数に基づくが、コピー数尤度モデルは、例えば、コピー数尤度モデルの各コピー数尤度分布の平均値μ_{ｃ，ｉ，ｊ}および分散ｄ_ｉが、隠れマルコフモデルをパラメータ化するときにフロートすることを可能にすることによって、セグメントにマッピングされた決定された配列リード数（すなわち、観測される状態）にフィッティングするように調整され得る。遷移確率はまた、可変の場合、隠れマルコフモデルのパラメータ化中に調整され得る。

【0126】

隠れマルコフモデルのパラメータ化は、セグメント（例えば、問い合わせされたセグメントまたは空間的に隣接するセグメント）にマッピングされた決定された配列リード数にフィッティングするようにコピー数尤度モデルを調整することを含む。いくつかの実施形態では、コピー数尤度モデルは、セグメント（例えば、問い合わせされたセグメントまたは空間的に隣接するセグメント）にマッピングされた決定された数の配列リードにフィッティングするように最適化される。コピー数尤度モデルは、観測される状態に最も良くフィッティングするように複数の調整ラウンドの後に「最適化」される。いくつかの実施形態では、隠れマルコフモデルのパラメータ化は、遷移確率を調整する（または最適化する）ことを含む。隠れマルコフモデルは、例えば、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれ得る、コピー数尤度モデルの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用して、コピー数尤度モデルを最適化することによって、パラメータ化され得る。最適化された尤度モデルのようなコピー数の典型的なパラメータは、セグメントのマッピングされた配列リード数の分散（ｄ_ｉ）、セグメントの代表値のマッピングされた配列リード数（μ_ｉ）、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散（ｄ_ｊ）、またはテスト配列ライブラリ内のセグメントの代表値のマッピングされた配列リード数（μ_ｊ）のうちの１つ以上を含む。次いで、期待値最大化（ＥＭ）アルゴリズムを使用して、隠れマルコフモデルを適用する１回以上の反復でパラメータを最適化して、セグメントの最も確率が高いコピー数（例えば、ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロをバウムウェルチアルゴリズムと共に使用して）および隠れマルコフモデルの再パラメータ化を決定することができる。

【0127】

例えば、期待値最大化（ＥＭ）を使用して、コピー数尤度モデル（配列リードの予想数に基づく）および／または１つ以上の追加のモデルパラメータを調整（または最適化）して、セグメントにマッピングされた最大化された期待される配列リード（すなわち、調整されたμ_ｃ，_ｉ，ｊ）と、そのセグメントの調整された分散（すなわち、調整されたｄ_ｉ）と、を見つけ得る。すなわち、問い合わせされたセグメントでの期待される配列リード数の確率が、そのセグメントでの所与のコピー数状態に対して最大化されるようにする。

【0128】

一般に、期待値最大化（ＥＭ）を使用して、不完全なデータにもかかわらず、潜在的な、または未知のパラメータを推定することができる。ＥＭアルゴリズムは、（最も確率が高いコピー数が決定され得るように）セグメントにマッピングされた決定された配列リード数が与えられた場合のコピー数尤度モデルから最も確からしいコピー数尤度分布を選択する期待値「Ｅ」ステップと、コピー数尤度モデルパラメータ（すなわち、μ_{ｃ，ｉ，ｊ}およびｄ_ｉ）を再推定する最大化「Ｍ」ステップと、繰り返し切り替えることができる。最大化ステップは、固定された確率モデルおよび配列リード数を仮定し、モデルに適用されたときに、他のすべての可能なコピー数からの実際のマッピングされた配列リード数の最も高い確率をもたらすコピー数状態を見つける。ＥＭプロセスは、ＨＭＭの異なるパラメータに適用することができ、例えば、ＥＭプロセスは、「Ｅ」ステップで生成された期待値を使用して、該当する場合は、隠れた状態間の遷移（ｒ）を考慮することができる。簡単に言うと、ＥＭを使用してモデルを最大化して、いずれのｃ_ｉ，ｊについて、観測したマッピングされた配列リード数を最も確からしく確認できるかを見つけるようにする。形式的には、ビタビアルゴリズムは、コピー数尤度モデルの最大尤度を、次のように決定することができる。

【数9】

【0129】

いくつかの実施形態では、バウムウェルチアルゴリズムが、セグメントのコピー数コールの期待される確率を決定する、ＥＭプロセスの期待値ステップに使用される。バウムウェルチアルゴリズムは、セグメントｉでの所与のマッピングされた配列リード数に対するセグメントｉでのコピー数状態の確率である事後確率α（ｃ_ｉ｜ｋ_{［０，ｉ］}）と、セグメントｉでの所与のコピー数状態に対する下流の空間的に隣接するセグメントＩ～Ｉのマッピングされた配列リード数の確率である尤度β（ｋ_{［ｉ，Ｉ］}｜ｃ_ｉ）と、を使用する。バウムウェルチアルゴリズムは、当業者に知られている方法を使用して解くことができる。

【0130】

パラメータ化された隠れマルコフモデルを使用して、最大化ステップ中に、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することができる。問い合わせされたセグメントの最も確率が高いコピー数は、ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロなどの、当技術分野で知られている任意の有用なアルゴリズムを使用して決定することができる。

【0131】

ＧＣ含量バイアス補正
関心領域のセグメントまたはセグメントに対応する捕捉プローブのＧＣ含有量は、例えば捕捉プローブのハイブリダイゼーション効率の違いに起因して、セグメントにマッピングされた配列リード数に影響を与え得る。したがって、ＧＣ含有量によっては、捕捉プローブは、セグメントでのコピー数状態に関係なく、セグメントにマッピングされた配列リード数に強い影響を及ぼし得る。このＧＣ含量バイアスは、周知であり、当技術分野に記載されている。本明細書に記載された方法のいくつかの実施形態では、セグメントのコピー数を決定するときに、ＧＣ含量バイアスが考慮される。ＧＣ含量バイアス補正は、コピー数バリアントを決定するいずれの方法にも有用であり得、直接ターゲット配列でのみ使用される必要はない。例えば、いくつかの実施形態では、ＧＣ含量バイアスは、関心領域内のセグメントのコピー数を決定するときに補正され、配列ライブラリは、ハイブリッド捕捉技術を使用して濃縮される。これに加えて、ＧＣ含量バイアスを補正するための方法は、隠れマルコフモデルを使用してコピー数を決定する方法に限定される必要はないが、ＧＣ含量バイアスは、コピー数尤度モデルの使用を含む任意の方法について補正され得る。

【0132】

いくつかの実施形態では、任意の所与のセグメントの配列リード数（コピー数尤度モデルを決定するために使用される期待される配列リード数など）は、配列リード数にＧＣバイアス補正係数を乗算することによってＧＣ含量について補正される。ＧＣバイアス補正係数は、所与のセグメントに、およびテスト配列ライブラリに特異的である。すなわち、ＧＣバイアス補正係数は、セグメントおよびテスト配列ライブラリに対して一意に決定され、ＧＣバイアス補正係数は、異なるセグメントについて、および異なる各テスト配列ライブラリについて再決定されなければならない。

【0133】

所与のセグメント（問い合わせされたセグメントを含み得る）にマッピングされた配列リード数は、そのセグメントでのマッピングされた配列数を、テスト配列ライブラリから濃縮された複数のセグメントの代表値のマッピングされた配列リード数で除算することによって正規化することができる。複数のセグメント内の各セグメントの正規化された配列リード数は、そのセグメントでのＧＣ含量に対してプロットされ得る。次いで、データポイントは、２次補正、
ｇ_ｉ，ｊ＝ａ＋ｂ（ＧＣ）＋ｃ（ＧＣ）^２
を使用してフィッティングすることができ、ｇ_ｉ，ｊは、複数のセグメントのテスト配列ライブラリｊのセグメントｉに特異的なＧＣバイアス補正係数であり、（ＧＣ）は、ＧＣ含量であり、ａ、ｂ、およびｃは、２次フィッティングによって決定される定数である。

【0134】

したがって、ＧＣバイアス補正係数は、２次関数を複数のデータポイントにフィッティングさせることによって決定され得、データポイントは各々、セグメントにマッピングされた正規化された数の配列リードおよびそのセグメントのＧＣ含有量を含み、複数のデータポイントは、テスト配列ライブラリ内の捕捉プローブによって濃縮された複数のセグメントを表し、ＧＣバイアス補正係数を、セグメントのＧＣ含量の２次関数によって決定された正規化された配列リード数であるように定義する。

【0135】

コピー数尤度モデルは、同様の様式でＧＣ含量バイアスの存在を考慮するように調整され得る。すなわち、コピー数尤度モデルの基礎として使用される期待される配列リード数は、ＧＣ含量の存在を考慮するように調整され得る。例えば、モデル内のコピー数尤度分布の代表値は、次のように調整され得る。
μ_{ｃ，ｉ，ｊ}＝ｃ_ｉ，ｊμ_ｉμ_ｊｇ_ｉ，ｊ
さらに、コピー数尤度モデルは、
ｐ（ｋ_ｉ，ｊ｜ｃ_ｉ，ｊ）＝ＮｅｇＢｉｎｏｍ（ｋ_ｉ、ｊ｜μ_{ｃ，ｉ，ｊ}＝ｃ_ｉ，ｊμ_ｉμ_ｊｇ_ｉ，ｊ，ｄ）
のように定式化することができ、ｋ_ｉ，ｊは、テストライブラリｊ内のセグメントｉでの配列リード数を指し、ｄは、ｄ_ｉ、ｄ_ｊ、またはｄ_ｉ，ｊである。

【0136】

いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、（ａ）テスト配列ライブラリから生成された複数の配列リードを関心領域内のセグメントにマッピングすることであって、テスト配列ライブラリが、捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）セグメントにマッピングされた配列リード数を決定することと、（ｃ）セグメントでの期待されるマッピングされた配列リード数に基づいてセグメントのコピー数尤度モデルを決定することであって、期待されるマッピングされた配列リード数が、セグメントのＧＣ含量について補正される、決定することと、（ｄ）コピー数尤度モデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む。問い合わせされたセグメントの最も確率が高いコピー数は、本明細書に記載された隠れマルコフモデルを使用してコピー数尤度モデルに基づいて決定され得るか、または当技術分野で知られている他の任意の方法によって決定され得る。例えば、最も確率が高いコピー数は、その領域の捕捉プローブに基づく各領域の最大コピー数確率に基づいて決定され得る。別の例では、最も確率が高いコピー数は、ブルートフォースセグメンテーションアプローチを使用して決定され得る。

【0137】

いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、（ａ）テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、１つ以上の捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）問い合わせされたセグメントにマッピングされた配列リード数を決定することと、（ｃ）問い合わせされたセグメントにマッピングされた期待される配列リード数に基づいてコピー数尤度モデルを決定することであって、期待されるマッピングされた配列リード数が、問い合わせされたセグメントのＧＣ含量について補正される、決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、（ｉｉ）問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、（ｉｉｉ）コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。

【0138】

いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、（ａ）テスト配列ライブラリから生成された複数の配列リードを複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、（ｃ）空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することであって、期待されるマッピングされた配列リード数は、空間的に隣接するセグメントのＧＣ含量について補正される、決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）空間的に隣接するセグメントの各々または空間的に隣接するセグメントの各々内の複数のサブセグメントのコピー数を含む複数の隠れた状態と、（ｉｉ）空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、（ｉｉｉ）空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。

【0139】

スプリアス捕捉プローブ
関心領域内のセグメントを濃縮するために使用される特定の捕捉プローブは、スプリアス結果を生成し得る。例えば、スプリアス捕捉プローブによって生成された配列リード数は、セグメントの濃縮が不足しているか、または過剰であるかのいずれかによって、対応するセグメントのコピー数と一致しない場合がある。これらのスプリアス結果は、例えば、捕捉プローブの設計、または捕捉プローブがハイブリダイズするように設計された配列内の配列バリアント（例えば、ＳＮＰ）に起因して発生し得る。スプリアス捕捉プローブは、マッピングされた配列リード数に影響を与え、コピー数尤度モデルおよびパラメータを人為的に交絡させ得る。したがって、スプリアス捕捉プローブを考慮することが望ましい。スプリアス捕捉プローブは、直接標的配列捕捉プローブである必要はなく、同様の方法が、テスト配列ライブラリを濃縮するために使用される捕捉プローブに適用され得る（ハイブリッド捕捉技術など）。捕捉プローブが、スプリアス捕捉プローブであるかどうかの判定は、ＥＭを使用して行うことができる。例えば、捕捉プローブが、スプリアスであるかどうかの判定は、期待値ステップ中に行うことができ、捕捉プローブがスプリアスである確率がＥＭの反復中に変化すると、最大化ステップも変化することとなり、当該最大化ステップは、捕捉プローブのスプリアス性を新たに考慮に入れた、セグメントの最も確からしいコピー数状態を決定する。捕捉プローブが、スプリアス捕捉プローブであると判定される場合、期待値最大化プロセス中に、コピー数状態のセグメントのマッピングされた配列リード数の確率が、１に設定される。確率を定数に設定することによって、スプリアス捕捉プローブは追加の情報を提供せず、したがって、モデルがパラメータ化される際にスプリアス捕捉プローブは考慮されないため、モデルがスプリアス捕捉プローブを効率的に破棄することが可能になる。捕捉プローブのスプリアス性の判定は、例えば、捕捉プローブが何回かのＥＭサイクル後にスプリアスであるかどうかを判定することによって反復され得る。

【0140】

いくつかの実施形態では、ベルヌーイ過程を使用して、所与の捕捉プローブがスプリアスである確率を判定する。ベルヌーイ過程は、捕捉プローブのいくつかまたはすべてに適用され得る。すなわち、各捕捉プローブについて、そのスプリアス性が、独立して判定される。捕捉プローブｉについて、インジケータ変数ｂ_ｉが、導入され、式中、１は、捕捉プローブｔがスプリアスであることを意味し、０は、捕捉プローブがスプリアスではないことを意味する。

【数10】

【0141】

この指標を使用することによって、コピー数尤度モデルを調整することによって、スプリアス捕捉プローブを考慮することが可能である。捕捉プローブが、スプリアスであると判定される場合、任意の所与のコピー数の対応するセグメントのマッピングされた配列リード数の確率が、１に設定される。捕捉プローブが、スプリアスでない場合、コピー数尤度モデルのコピー数尤度分布は、変更されない。形式的に、

【数11】

隠れマルコフモデルの観測される状態に関するインジケータが、図５Ａに例示される。

【0142】

捕捉プローブのスプリアスは、テスト配列ライブラリに依存し得る。すなわち、いくつかのテスト配列ライブラリは、他のテスト配列ライブラリよりもスプリアス捕捉プローブになりやすくなり得る。いくつかの実施形態では、テスト配列ライブラリが、スプリアス捕捉プローブになりやすいかどうかが、テスト配列ライブラリの事前分布に基づいて判定される。いくつかの実施形態では、テスト配列ライブラリが、スプリアスである特定のプローブになりやすいものとなるかどうかを判定することは、一般の事前分布に依存する。

【0143】

図５Ｂは、所与の捕捉プローブが、スプリアス捕捉プローブであるかどうかを判定するために調整され得る事前分布を例示する。インジケータ変数ｂ_ｉ，ｊは、セグメントｉの観測状態（マッピングされた配列リード数）であるｋ_ｉに関する、ベルヌーイ分布の事前分布である。インジケータ変数ｂ_ｉ，ｊは、セグメントｉに、およびテスト配列ライブラリｊに特異的であり得る。テスト配列ライブラリ事前分布π_ｊは、インジケータ変数ｂ_ｔに対して設定され、テスト配列ライブラリの関心領域内のすべてのセグメントにわたって同じである。一般の事前分布πは、テスト配列のライブラリ事前分布π_ｊに対して設定され、同様に濃縮されたすべての配列ライブラリについて同じである。一般の事前分布πは、事前決定され、検証されて、感度を失うことなく誤コールを低減することができる。調整ステップ（ＥＭアルゴリズムの最大化ステップなど）は、捕捉プローブが、スプリアスである確率でベルヌーイ分布に従うと仮定することによって設定され得る。事前分布π_ｊが与えられた場合の、スプリアスであるテスト配列ライブラリｊの捕捉プローブｉの確率は、次のように表現され得る。

【数12】

ベルヌーイ分布は、ｂ_ｉを０または１のいずれかであるように制限するため、上記の確率は、π_ｊ（ｂ_ｉ＝１の場合）または１－π_ｉ（ｂ_ｉ＝０の場合）に設定される。

【0144】

空間的に隣接するセグメント（または空間的に隣接するサブセグメント）０～Ｉにマッピングされた決定された配列リード数が与えられた場合、捕捉プローブｉがスプリアスである確率は、次のように導出され得る。

【数13】

【0145】

インジケータの期待値ｂ_ｉが与えられた場合、テスト配列ライブラリ事前分布π_ｊは、次のように決定され得る。

【数14】

【0146】

いくつかの実施形態では、問い合わせされたセグメント、または問い合わせされたセグメントの１つ以上のサブセグメントの最も確率が高いコピー数は、問い合わせされたセグメントと関連付けられた捕捉プローブがスプリアスであると判定される場合、コールされない。いくつかの実施形態では、問い合わせされたセグメント、または問い合わせされたセグメントの１つ以上のサブセグメントの最も確率が高いコピー数は、捕捉プローブｉがスプリアスである確率（すなわち、ｐ（ｂ_ｉ｜ｋ_{［０，Ｉ］}））が、所定の閾値（約０．１以上、約０．２以上、約０．３以上、約０．４以上、または約０．５以上など）を上回っている場合、コールされない。

【0147】

いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、（ａ）テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、１つ以上のキャプチャプローブを使用して濃縮される、マッピングすることと、（ｂ）問い合わせされたセグメントにマッピングされた配列リード数を決定することと、（ｃ）問い合わせされたセグメントにマッピングされた期待される配列リード数に基づいてコピー数尤度モデルを決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、（ｉｉ）問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、（ｉｉｉ）コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、１つ以上のスプリアス捕捉プローブを考慮することと、によって隠れマルコフモデルをパラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。

【0148】

いくつかの実施形態では、関心領域内の問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントのコピー数を決定するための方法があり、（ａ）テスト配列ライブラリから生成された複数の配列リードを複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、（ｃ）空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、（ｄ）隠れマルコフモデルであって、（ｉ）空間的に隣接するセグメントの各々または空間的に隣接するセグメントの各々内の複数のサブセグメントのコピー数を含む複数の隠れた状態と、（ｉｉ）空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、（ｉｉｉ）空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、１つ以上のスプリアス捕捉プローブを考慮することと、を含む、隠れマルコフモデルをパラメータ化することと、（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントまたは問い合わせされたセグメントのサブセグメントの最も確率が高いコピー数を決定することと、を含む。

【0149】

ノイズが多いテスト配列ライブラリ
テスト配列ライブラリの調製中に、いくつかのステップが、多数の捕捉プローブにわたって「ノイズ」になりやすくなるテスト配列ライブラリの核酸をもたらし得る。このことは、一貫性がないデータおよび多数の誤検出をもたらす。図６Ａは、ノイズが少ないテスト配列ライブラリの例を示し、図６Ｂは、２つの配列ライブラリが、同じ捕捉プローブライブラリを使用して濃縮された場合でも、ノイズがより多いテスト配列ライブラリの例を示す。ノイズは、例えば、テスト配列ライブラリの調製または配列中に導入され得、テストサンプルからの核酸の単離、配列ライブラリの格納、またはテストサンプルから単離された核酸の断片化が、オリゴヌクレオチドの完全性を損なう可能性があり、このことは、ひいてはオリゴヌクレオチドの方法に影響を与える可能性がある。

【0150】

いくつかの実施形態では、隠れマルコフモデルをパラメータ化することは、マッピングされた配列リード数のノイズを考慮することを含む。いくつかの実施形態では、マッピングされた配列決リード数のノイズを考慮することは、コピー数尤度モデルを調整することを含む。例えば、隠れマルコフモデルをパラメータ化することは、期待値最大化ステップを含み得、ノイズを考慮することは、期待値最大化ステップ中に発生し得る。

【0151】

コピー数尤度モデルにおけるコピー数尤度分布の分散ｄは、上で考察された。捕捉プローブ（すなわち、セグメントでの）に起因する分散のみが、考慮される場合、ｄ＝ｄ_ｉ。また、コピー数尤度分布の分散を使用して、テスト配列ライブラリｊ内のセグメント全体のノイズを考慮することができる。テスト配列ライブラリ内のセグメント全体のノイズを考慮することに起因する分散と、捕捉プローブに起因するノイズと、は、算術的な組み合わせによって、例えば、配列ライブラリノイズに起因する分散と、捕捉プローブノイズに起因する分散と、を乗算または加算することによって、決定され得る。例えば、いくつかの実施形態では、コピー数尤度分布の分散は、形式的に次のように見なされ得る。
ｄ＝ｄ_ｉ＊ｄ_ｊ
配列ライブラリノイズに起因する分散と捕捉プローブノイズへの分散とは、いくつかの実施形態では、例えば、次の加算により結合され得る。

【数15】

【0152】

隠れマルコフモデルのパラメータ化は、モデルによるコピー数尤度分布の分散を含む、コピー数尤度モデルを調整する。したがって、分散ｄの両方の成分（すなわち、ｄ_ｉおよびｄ_ｊ）は、例えば、期待値最大化アルゴリズムを使用して、隠れマルコフモデルのパラメータ化中に調整され得る。いくつかの実施形態では、ノイズを考慮するために、テスト配列ライブラリ（ｄ_ｊ）内のセグメントのマッピングされた配列リード数の分散の解析的な１次導関数勾配および２次導関数ヘッシアンが、使用される。いくつかの実施形態では、準ニュートン法を使用して、最大化ステップ中にノイズを考慮することができる。特に、期待値ステップは、次を最大化することを求める。

【数16】

【0153】

式中、

【数17】

は、モデルのすべてのデータおよび現在のパラメータが与えられた場合の、期待される対数尤度を表す。ＴＳＬは、テスト配列ライブラリ（ｔｅｓｔｓｅｑｕｅｎｃｉｎｇｌｉｂｒａｒｙ）の略で、ｃｐｔプローブは、捕捉プローブ（ｃａｐｔｕｒｅｐｒｏｂｅ）を指す。平均の

【数18】

は、二重正規化を使用することによって概算することができ、これは、テスト配列ライブラリ内のセグメント全体の配列深度の中央値と、同じセグメント全体の複数のテスト配列ライブラリの配列深度の中央値と、の両方を考慮する。いくつかの実施形態では、この関数を最大化することができる分散

【数19】

を見つけるために、準ニュートン法が使用される。準ニュートン法は、

【数20】

に関するこの関数の偏導関数を０に設定する。テスト配列ライブラリと捕捉プローブの形状とは、独立しているため、そのことは、各タイプの偏導関数を０に設定するのと等価である。

【数21】

【0154】

分布のパラメータが設定されると、パラメータ化された隠れマルコフモデルを使用して、セグメントの最も確率が高いコピー数状態を決定することができる。

【0155】

コピー数バリアント画面の性能
特定の態様では、本明細書に記載された方法を使用して、コピー数バリアント画面またはコピー数バリアントモデルのサンプル特異的な性能を評価する。合成のコピー数バリアントは、テストサンプルからの実際の配列リードを使用してインシリコで生成される。したがって、合成のコピー数バリアントは、サンプル特異的である。コピー数バリアントモデルは、コピー数バリアントモデルパラメータを決定するために、テストサンプルの関心領域内のセグメントにマッピングされた実際の配列リード数を使用してパラメータ化される。合成のコピー数バリアントは、テストサンプルに基づき、かつ決定されたコピー数バリアントモデルパラメータは、サンプル特異的であるため、決定されたサンプル特異的なコピー数バリアントモデルパラメータは、合成のコピー数バリアント内のセグメントのコピー数をコールするためにコピー数バリアントコーラによって使用される。

【0156】

合成のコピー数バリアントは、関心領域を有する１つ以上のセグメントの合成のコピー数を含み、合成のコピー数は、関心領域内の１つ以上のセグメントからの合成の配列リード数によって表される。いくつかの実施形態では、合成の配列リード数は、テストサンプルからの関心領域内の１つ以上のセグメントの配列リード数を調整することによって取得される。調整は、合成のコピー数に比例して行われる。いくつかの実施形態では、合成の配列リード数は、実際のサンプルからの関心領域内の１つ以上のセグメントの配列リードを含むデータベースの直接操作によって、例えば、データベース内の配列リードのランダムな欠失または複製によって取得される。いくつかの実施形態では、合成の配列リード数は、分布（二項分布または負の二項分布など）をサンプリングすることによって生成される。複数の合成のコピー数バリアントは、例えば、複数のテストサンプルまたは基準サンプルに基づいて生成され得る。

【0157】

合成のコピー数バリアントに存在する関心領域内の１つ以上のセグメントの合成のコピー数は、コピー数バリアントコーラを使用してコールされる。いくつかの実施形態では、コーラは、合成のコピー数バリアント内の１つ以上のセグメントからの合成の配列リード数を、セグメントの既知のコピー数を有する実際の基準サンプル内の１つ以上のセグメントからの配列リード数と比較する。コーラは、例えば、本明細書に記載された隠れマルコフモデル（ＨＭＭ）を使用して、合成のコピー数バリアント内のセグメントのコピー数を決定することができる。実際の基準サンプルは、好ましくは、合成のコピー数バリアントを生成するための基礎として使用される実際のサンプル以外の異なる実際のサンプルである。

【0158】

コピー数バリアントコーラは、図９に示されているように、合成のコピー数バリアントおよび決定されたコピー数バリアントモデルパラメータを使用する。関心領域内のセグメントにマッピングされたテストサンプルからの実際の配列リード数を使用して、隠れマルコフモデルでのコピー数バリアントモデルなどの初期コピー数バリアントモデルパラメータを決定するために、コピー数バリアントモデルを初期化する。コピー数バリアントモデルは、例えば、解析的な１次導関数勾配および２次導関数ヘッシアンを使用して、コピー数バリアントモデルパラメータを決定するためにパラメータ化され得る。初期ＣＮＶモデルパラメータを使用して、例えばビタビアルゴリズムおよびバウムウェルチアルゴリズムを使用して、ＣＮＶモデルが適用される。期待値最大化ステップが反復して実行されて、ＣＮＶモデルパラメータを、実際の配列リード数にフィッティングするように最適化することにより、テストサンプル用に最適化された１つ以上のコピー数バリアントモデルパラメータ（すなわち、サンプル特異的なコピー数バリアントモデルパラメータ）を決定することができる。コピー数バリアントモデルは、サンプル特異的なコピー数バリアントモデルパラメータとセグメントの実際の配列リード数とを使用して、テストサンプル内のコピー数バリアントをコールすることができる。テストサンプルからの実際の配列リード数はまた、合成の配列リード数を生成するために使用され、合成の配列リード数は、合成のコピー数バリアントの関心領域内のセグメントの合成のコピー数を表すために使用される。複数の合成のコピー数バリアント、例えば、約１０～約１０，０００個の合成のコピー数バリアントは、このように生成され得る。コピー数バリアントモデルおよびサンプル特異的なコピー数バリアントモデルパラメータは、合成の配列リード数を使用して、合成のコピー数バリアントの１つ以上のセグメントのコピー数をコールすることができる。

【0159】

コピー数バリアント画面の性能統計を決定して、コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアント画面のサンプル特異的な性能を評価することができる。コーラによって複数の合成のコピー数バリアントが生成およびコールされるため、性能統計は、合成のバリアントのコンテキストでの画面の性能を反映する。したがって、（複数の実際のサンプルに基づくことができる）合成のコピー数バリアントのより大きい多様性は、コピー数バリアントモデルの性能を特性化するより正確な性能統計を提供する。

【0160】

いくつかの実施形態では、コピー数バリアントモデルのサンプル特異的な性能を評価する方法であって、テストサンプルからの、関心領域内のセグメントにマッピングされた実際の配列リード数に基づいて、コピー数バリアントモデルをパラメータ化して、１つ以上のコピー数バリアントモデルパラメータを決定することと、複数の合成のコピー数バリアントを生成することであって、各合成のコピー数バリアントが、セグメントのうちの１つ以上の合成のコピー数を含み、各合成のコピー数が、テストサンプルからの対応するセグメントの実際の配列リード数に基づく合成の配列リード数によって表される、生成することと、コピー数バリアントモデル、および１つ以上の決定されたコピー数バリアントモデルパラメータを使用して、合成のコピー数バリアントの１つ以上のセグメントのコピー数をコールすることと、コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアントモデルについてのサンプル特異的な性能統計を決定することと、サンプル特異的な性能統計に基づいて、コピー数バリアントモデルのサンプル特異的な性能を評価することと、を含む。いくつかの実施形態では、サンプル特異的な性能統計は、検出、感度、特異度、適合率、再現率、精度、正の予測値、または負の予測値の限界である。

【0161】

いくつかの実施形態では、コピー数バリアントコーラは、隠れマルコフモデルを使用して、合成のコピー数バリアントのコピー数をコールする。所与のセグメントのコピー数バリアントは、比較的まれであるため、テストサンプルは、所与のセグメントでのコピー数バリアントを有しないことが仮定され得る。テストサンプルが、コピー数バリアントを有しない場合でも、テストサンプルは、評価方法が信頼できるように、十分な非バリアント（すなわち、野生型）セグメントを含むようになっている。

【0162】

合成のコピー数バリアントを生成する目的で、テストサンプルは、関心領域を有するセグメントのコピー数に対して野生型であると仮定され、配列リード数は、代表値（平均値または中央値）および分散を有する負の二項分布を形成すると仮定することができる。分布の分散は、例えば、セグメントの濃縮または配列中のノイズから生じ得る。合成のコピー数バリアントの集団からの配列リードの分布は、好ましくは、等価に処理され、したがって同じコピー数バリアントモデルパラメータを有する実際のコピー数バリアントの理論的集団からの配列リードの期待される負の二項分布に類似する。

【0163】

いくつかの実施形態では、関心領域内の１つ以上のセグメントからの合成の配列リード数によって表される１つ以上のセグメントの合成のコピー数を含む複数の合成のコピー数バリアントが、生成される。１つ以上のセグメントの各々の合成の配列リード数は、テストサンプルからの関心領域内の１つ以上のセグメントからの実際の配列リード数を増加、減少、または維持することによって生成することができる。例えば、第１の実際の配列リード数が、関心領域内の第１のセグメントに対応し、かつ第２の実際の配列リード数が、関心領域内の第２のセグメントに対応し、かつテストサンプルが、関心領域の２つのコピーを有すると仮定または期待される場合、関心領域の３つのコピーを有する合成のコピー数バリアントが、第１のセグメントの３つのコピーを反映するように第１の実際の配列リード数を増加させることによって第１のセグメントに対応する第１の合成の配列リード数を生成することと、第２のセグメントの３つのコピーを反映するように第２の実際の配列リード数を増加させることによって第２のセグメントに対応する第２の合成の配列リード数を生成することと、によって生成することができる。第１のセグメントおよび第２のセグメントに対応する合成の配列リード数は、３つのコピーを反映するように増加するため、合成のコピー数バリアントは、第１のセグメントおよび第２のセグメントを有する関心領域の３つのコピーを有する。いくつかの実施形態では、合成の配列リード数は、実際の配列リード数に係数（例えば、コピー数を２～３に増加させるための１．５、またはコピー数を２～１に減少させるための０．５）を乗算することによって、生成される。いくつかの実施形態では、合成の配列リード数は、配列リード数（関心領域内のすべてのセグメントに対応する代表値の実際の配列リード数の５０％など）を実際の配列リード数に加算（または減算）することによって、生成される。いくつかの実施形態では、配列リード数は、関心領域の単一のコピーが、正規化された配列リード数（例えば、０．５）によって表され、かつ関心領域の２つのコピーが、正規化された配列リード数（例えば、１）によって表されるように、正規化される（例えば、以下に記載されるように）。したがって、いくつかの実施形態では、正規化された配列リード数（０．５など）が、正規化された配列リード数に追加されて、合成のコピー数バリアントのコピー数を増加させ、正規化された配列リード数（０．５など）が、正規化された配列リード数に減算されて、合成のコピー数バリアントのコピー数を減少させる。好ましくは、実際の配列リード数が、増加または減少されて、合成の配列コピー数を生成して、所定の数（整数または非整数であり得る）のセグメントのコピー（セグメントの１つ以上、２つ以上、３つ以上、４つ以上、または５つ以上のコピーなど）を有する合成のコピー数バリアントを表す。

【0164】

いくつかの実施形態では、合成のコピー数バリアントを生成するために、テストサンプルからの配列リード数からの配列リード数を加算または減算することによって、合成の配列リード数が、生成される。複製を含む合成のコピー数バリアントが、配列リード数を加算することによって生成され、欠失イベントを含む合成のコピー数バリアントが、配列リード数を欠失させることによって生成される。テストサンプルからの配列リード数から加算または減算される配列リード数は、合成のコピー数バリアントでシミュレートされる重複または欠失イベントの数に、部分的に基づく。いくつかの実施形態では、テストサンプル内の仮定された（例えば、野生型）コピー数ｘよりも多い（または少ない）関心領域（または関心領域のセグメント）のｎ個のコピーを含む合成のコピー数バリアントの合成の配列リード数が、テストサンプルからのその関心領域（または関心領域のセグメント）の配列リード数に（またはから）、その関心領域（または関心領域のセグメント）の複数のテストサンプルからの代表値（例えば、平均値または中央値）の配列リード数を、

【数22】

回加算（または減算）することによって、決定される。例えば、欠失を含む合成のコピー数バリアント（すなわち、テストサンプル中の仮定されたコピー数ｘよりも少ない、関心領域または関心領域のセグメントのｎ個のコピーを有する）について、合成のコピー数バリアントの合成の配列リード数ｋ^ｘ－ｎは、

【数23】

として決定され、ｋ_ｉ，ｊは、テストサンプルｉの関心領域（またはセグメント）ｊでの配列リード数を指し、μは、代表値（平均値または中央値）の配列リード数を指し、これは、例えば、テストサンプル内のすべてのセグメント（からの代表値の配列リード数（すなわち、μ_ｉ、複数のテストサンプルにわたる関心領域（またはセグメント）ｊでの代表値の配列リード数（すなわち、μ_ｊ）、または複数のテストサンプルの関心領域（またはセグメント）ｊの代表値の配列リード数である正規化された（または二重正規化された）代表値の配列リード数であり得、各テストサンプルの配列リード数は、テストサンプル全体で正規化される（すなわち、μ_ｉμ_ｊ）。例として、セグメントｊの１つのコピーを有する合成のコピー数バリアントは、セグメントの２つのコピーを有すると仮定されたテストサンプルｉからの配列リード数に基づいて決定することができ、

【数24】

として決定することができる。いくつかの実施形態では、合成のコピー数バリアントが、複製を含み（すなわち、テストサンプル中の仮定されたコピー数ｘよりも、関心領域または関心領域のセグメントのｎ個の追加のコピーを有する）、合成のコピー数バリアントの合成の配列リード数ｋ^ｘ＋ｎは、

【数25】

として決定される。例として、セグメントｊの３つのコピーを有する合成のコピー数バリアントが、セグメントの２つのコピーを有すると仮定されるテストサンプルｉからの配列リード数に基づいて決定され得、

【数26】

として決定され得る。

【0165】

いくつかの実施形態では、関心領域（または関心領域のセグメント）のｍ個のコピーを含む合成のコピー数バリアントの合成の配列リード数は、

【数27】

に従って関心領域（または関心領域のセグメント）のｘ個のコピーを含むその関心領域（または関心領域のセグメント）の配列リード数に基づいて生成することができる。例えば、関心領域（または関心領域のセグメント）の３つのコピーを有する合成のコピー数バリアントの合成の配列リード数は、

【数28】

に従って関心領域または関心領域のセグメント）の２つのコピーを有するテストサンプルからの配列リード数に基づいて生成することができる。いくつかの実施形態では、関心領域（または関心領域のセグメント）の１つのコピーを有する合成のコピー数バリアントは、

【数29】

に従って関心領域（または関心領域のセグメント）の２つのコピーを有するテストサンプルからの配列リード数に基づいて生成することができる。

【0166】

いくつかの実施形態では、セグメントのｍ個のコピーを含む合成のコピー数バリアントの合成の配列リード数は、テストサンプルからの配列リード数に

【数30】

を乗算することによる仮定された（例えば、野生型）コピー数ｘを有するテストサンプルからの配列リード数から生成される。すなわち、合成のコピー数バリアントの合成の配列リード数

【数31】

は、

【数32】

に従う配列リード数

【数33】

に基づいて決定され得る。例えば、関心領域（または関心領域のセグメント）の３つのコピーを有する合成のコピー数バリアントの合成の配列リード数は、

【数34】

に従って関心領域（または関心領域のセグメント）の２つのコピーを有すると仮定されたテストサンプルからの配列リード数に基づいて生成することができる。関心領域（または関心領域のセグメント）の１つのコピー有する合成のコピー数バリアントの合成の配列リード数は、

【数35】

に従って関心領域（または関心領域のセグメント）の２つのコピーを有すると仮定されたテストサンプルからの配列リード数に基づいて生成することができる。いくつかの実施形態では、合成の配列リード数を決定するときにファッジ係数が含まれ、ファッジ係数を使用して、複数の合成の配列リード数（すなわち、複数の合成のコピー数バリアント）の分散を、複数の合成のコピー数バリアントの基礎として使用される複数のテストサンプルの分散に対してより近くモデル化することができる。ファッジ係数は、代表値の配列リード数を変更するときにポアソン分布に期待される分散の増加または減少から導出され得る。

【0167】

いくつかの実施形態では、合成のコピー数バリアントの合成の配列リード数は、テストサンプルからの実際の配列リードの二項分布または負の二項分布をサンプリングすることによって決定される。例えば、関心領域（または関心領域のセグメント）のｍ個のコピーを有する合成のコピー数欠失バリアントについて、合成の配列リード数は、

【数36】

に等しい成功確率と実際の配列数に等しい試行数とを有する、関心領域（または関心領域のセグメント）のｘ個のコピーを有するテストサンプルからの実際の配列リードの二項分布からサンプリングすることによって生成することができる。すなわち、合成のコピー数欠失バリアントについて、

【数37】

。
例えば、関心領域（または関心領域のセグメント）の１つのコピーを有する合成のコピー数バリアントについて、合成の配列リード数は、１／２に等しい成功確率と実際の配列数に等しい試行数とを有する、関心領域（または関心領域のセグメント）の２つのコピーを有するテストサンプルからの実際の配列リードの二項分布からサンプリングすることによって生成することができる。すなわち、

【数38】

。図１０は、セグメントの１つのコピーを有する合成のコピzー数バリアントを生成するための、セグメントの２つのコピーを有するテストサンプルからの実際の配列リードの二項サンプリングを例示する。例示された例では、５つのテストサンプルを使用して５つの合成のコピー数バリアントを生成するが、複数は、任意のテストサンプル数および合成のコピー数バリアントを含むことができる。例示された例では、各テストサンプルは、１００の実際の配列リード数を含むが、配列リードの分布が確からしいことが理解される。二項分布は、１／２に等しい成功確率で各テストサンプルに対してサンプリングされる。成功は、セグメントの第１のコピーを表し、失敗は、第２のコピーを表す。成功した配列リード（つまり、第１のコピーを表すもの）数は、合成のコピー数バリアントの合成の配列リード数に等しい。

【0168】

いくつかの実施形態では、関心領域（または関心領域のセグメント）のｍ個のコピーを有する合成のコピー数複製バリアントの合成の配列リード数が、負の二項分布からサンプリングすることによって生成され、成功数が、関心領域（または関心領域のセグメント）の仮定されたｘ個のコピー数を有するテストサンプルからの実際の配列リード数に等しく、成功の確率は、

【数39】

に等しく、サンプリングされた負の二項分布の期待値を実際の配列リード数に加算する。すなわち、合成のコピー数複製バリアントについて、

【数40】

。例えば、関心領域（または関心領域のセグメント）の３つのコピーを有する合成のコピー数複製バリアントの合成の配列リード数は、負の二項分布からサンプリングすることによって生成することができ、成功数は、関心領域（または関心領域のセグメント）の仮定された２つのコピー数を有するテストサンプルからの実際の配列リード数に等しく、成功の確率は、2/3に等しく、サンプリングされた負の二項分布の期待値を実際の配列リード数に加算する。すなわち、

【数41】

。いくつかの実施形態では、合成の配列リード数を決定するときにファッジ係数が含まれ、ファッジ係数を使用して、複数の合成の配列リード数（すなわち、複数の合成のコピー数バリアント）の分散を、複数の合成のコピー数バリアントの基礎として使用される複数のテストサンプルの分散に対してより近くモデル化することができる。ファッジ係数は、経験的に決定され得る。例えば、ファッジ係数は、男性のＸ染色体からの配列リードの分布（Ｘ染色体の単一のコピーを有する）を、単一のＸ染色体のシミュレートされた欠失を有する（したがって、Ｘ染色体のシミュレートされた１つのコピーを有する）女性のＸ染色体からの配列リードの分布（Ｘ染色体の２つのコピーを有する）と比較することによって決定され得る。ファッジ係数は、観測される１コピー男性が、シミュレートされた１コピー女性と比較されるように調整され得る。例えば、合成の配列リード数は、

【数42】

に従って決定され得、

【数43】

、βは、ファッジ係数である。一例では、

【数44】

であり、

【数45】

。

【0169】

コピー数バリアントコーラは、複数の合成のコピー数バリアントの各合成のコピー数バリアントの関心領域内の１つ以上のセグメントのコピー数をコールすることができる。合成のコピー数バリアント内のセグメントのコピー数は、テストサンプルからの実際の配列リード数を１つ以上のセグメントのコピーの望ましい数に調整することによって生成された合成の配列リード数によって表されるため、各合成のコピー数バリアントの１つ以上のセグメントのコピー数は、既知である。コールされたコピー数を、複数の合成のコピー数バリアントの各合成のコピー数バリアントのコピー数と比較して、コピー数バリアントモデルの性能統計を決定することができる。性能統計は、例えば、感度、特異度、適合率、再現率、精度、正の予測値、負の予測値、または任意の他の一致のメトリックであり得る。

【0170】

性能統計は、コピー数バリアント画面またはモデルの性能を示す。例えば、コピー数バリアントモデルでは、真陽性の数が多く、偽陰性の数が少ないことが望ましい。したがって、性能統計を使用して、コピー数バリアントモデルの性能を評価することができる。いくつかの実施形態では、性能統計のための所定の閾値を選択することができる。いくつかの実施形態では、性能統計が、所定の閾値を下回っている場合、テストサンプルを再分析することができ、および／またはテストサンプルについて新たな配列リードのセットを生成することができる。

【0171】

コンピュータシステム
いくつかの実施形態では、本明細書に記載された方法は、コンピュータシステム上で実行されるプログラムによって実装される。図１１は、問い合わせされたセグメントのコピー数をコールするか、またはコピー数バリアントモデルの性能を評価するための様々な例示的な方法を含む、上述のプロセスのいずれか１つを実行するように構成された例示的なコンピューティングシステム１１００を描示する。コンピューティングシステム１１００は、例えば、プロセッサ、メモリ、ストレージ、および入力／出力デバイス（例えば、モニタ、キーボード、ディスクドライブ、インターネット接続など）を含み得る。コンピューティングシステム１１００は、プロセスのいくつかまたはすべての態様を実施するための回路機構または他の専用のハードウェアを含み得る。例えば、いくつかの実施形態では、コンピューティングシステムは、シーケンサ（超並列シーケンサなど）を含む。いくつかの動作設定では、コンピューティングシステム１１００は、１つ以上のユニットを含むシステムとして構成され得、各ユニットは、ソフトウェア、ハードウェア、またはそれらの何らかの組み合わせのいずれかでプロセスのいくつかの態様を実施するように構成される。

【0172】

図１１は、上述のプロセスを実行するために使用され得るいくつかの構成要素を有するコンピューティングシステム１１００を描示する。メインシステム１１０２は、入力／出力（「Ｉ／Ｏ」）セクション１１０６、１つ以上の中央処理装置（「ＣＰＵ」）１１０８（例えば、プロセッサ）、および関連するフラッシュメモリカード１１１２を有し得るメモリセクション１１１０を有するマザーボード１１０４を含む。Ｉ／Ｏセクション１１０６は、ディスプレイ１１１４、キーボード１１１６、ディスク記憶ユニット１１１８、および媒体ドライブユニット１１２０に接続される。媒体ドライブユニット１１２０は、プログラム１１２４および／またはデータを内包することができるコンピュータ可読媒体１１２２を読み取り／書き込みすることができる。

【0173】

上述のプロセスの結果に基づく少なくともいくつかの値は、後続の使用のために保存することができる。これに加えて、非一過性コンピュータ可読媒体を使用して、コンピュータによって上述のプロセスのいずれか１つを実行するための１つ以上のコンピュータプログラムを記憶することができる（例えば、１つ以上の中央処理装置（「ＣＰＵ」）１１０８は、記憶された１つ以上のコンピュータプログラム（または命令）を実行して、上述のプロセスを実行することができる）。コンピュータプログラムは、例えば、汎用プログラミング言語（例えば、Ｐａｓｃａｌ、Ｃ、Ｃ＋＋、Ｊａｖａ、Ｐｙｔｈｏｎ、ＪＳＯＮ、Ｒなど）またはいくつかの専用のアプリケーション特有の言語で記述され得る。

【0174】

いくつかの実施形態では、概要統計量が、報告される（例えば、患者、医師、介護者、または規制当局に）。いくつかの実施形態では、概要統計量は、例えば、モニタ上に表示される。

【0175】

様々な例示的な実施形態が、本明細書に記載される。これらの例には、非限定的な意味で参照がなされる。それらは、開示された技術のより広く適用可能な態様を例示するために提供される。様々な実施形態の実際の趣旨および範囲から逸脱することなく、様々な変更を行うことができ、均等物が置き換えられ得る。加えて、特定の状況、材料、物質の組成、プロセス、プロセス行為（単数または複数）またはステップ（単数または複数）を、様々な実施形態の目的（単数または複数）、趣旨、または範囲に適合させるために、多くの修正を行うことができる。さらに、当業者によって理解されるように、本明細書に記載および例示された個々の変形例の各々は、様々な実施形態の範囲または趣旨から逸脱することなく他のいくつかの実施形態のいずれかの特徴から容易に分離または組み合わせることができる個別の構成要素および特徴を有する。このようなすべての修正は、本開示と関連付けられた特許請求の範囲の範囲内にあることが意図される。

【0176】

例示的な実施形態
以下の実施形態は、例示的なものであり、本発明を限定することを意図するものではない。

【0177】

実施形態１．コピー数バリアントモデルを含むコピー数バリアントコーラのサンプル特異的な性能を評価する方法であって、
テストサンプルからの、関心領域内のセグメントにマッピングされた実際の配列リード数に基づいて、コピー数バリアントモデルをパラメータ化して、１つ以上のコピー数バリアントモデルパラメータを決定することと、
複数の合成のコピー数バリアントを生成することであって、各合成のコピー数バリアントが、セグメントのうちの１つ以上の合成のコピー数を含み、各合成のコピー数が、テストサンプルからの対応するセグメントの実際の配列リード数に基づく合成の配列リード数によって表される、生成することと、
コピー数バリアントモデル、および１つ以上の決定されたコピー数バリアントモデルパラメータを使用して、合成のコピー数バリアントの１つ以上のセグメントのコピー数をコールすることと、
コールされたコピー数と、合成のコピー数バリアントの合成のコピー数と、の差に基づいて、コピー数バリアントコーラについてのサンプル特異的な性能統計を決定することと、
サンプル特異的な性能統計に基づいて、コピー数バリアントコーラのサンプル特異的な性能を評価することと、を含む、方法。

【0178】

実施形態２．１つ以上のセグメントの合成の配列リード数が、１つ以上のセグメントの所定のコピー数に比例して、テストサンプルからの対応するセグメントの実際の配列リード数を増加、減少、または維持することによって生成される、実施形態１に記載の方法。

【0179】

実施形態３．所定のコピー数が、整数のコピー数である、実施形態２に記載の方法。

【0180】

実施形態４．所定のコピー数が、非整数のコピー数である、実施形態２に記載の方法。

【0181】

実施形態５．合成の配列リード数が、ｍ／ｘに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい試行数と、での二項分布をサンプリングすることによって生成され、ｍが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、ｘが、テストサンプルからの対応するセグメントの仮定されたコピー数である、実施形態１～４のいずれか１つに記載の方法。

【0182】

実施形態６．合成の配列リード数が、
ｍ／ｘに等しい成功確率と、テストサンプルからの対応するセグメントでの実際の配列リード数に等しい成功数と、での負の二項分布としての配列リード数をサンプリングすることであって、ｍが、合成のコピー数バリアント内のセグメントの合成のコピー数であり、ｘが、テストサンプルからの対応するセグメントの仮定されたコピー数である、サンプリングすることと、
サンプリングされた配列リード数を、テストサンプルからの対応するセグメントの実際の配列リード数に加算することと、によって生成される、実施形態１～５のいずれか１つに記載の方法。

【0183】

実施形態７．合成の配列リード数が、負の二項分布の期待値として配列リード数をサンプリングすることによって生成される、実施形態６に記載の方法。＝

【0184】

実施形態８．コピー数バリアントモデルが、隠れマルコフモデルである、実施形態１～７のいずれか１つに記載の方法。

【0185】

実施形態９．隠れマルコフモデルが、
（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、
（ｉｉ）問い合わせされたセグメントの実際の配列リード数または合成の配列リード数を含む観測状態と、
（ｉｉｉ）問い合わせされたセグメントの、期待される実際の配列リード数または合成の配列リード数に基づくコピー数尤度モデルと、を含む、実施形態８に記載の方法。

【0186】

実施形態１０．コピー数尤度モデルを決定することを含む、実施形態９に記載の方法。

【0187】

実施形態１１．隠れマルコフモデルをパラメータ化することが、コピー数尤度モデルを、テストサンプルからの、問い合わせされたセグメントにマッピングされた実際の配列リード数にフィッティングするように調整することを含む、実施形態９または１０に記載の方法。

【0188】

実施形態１２．コピー数尤度モデルが、２つ以上のコピー数状態の分布を含む、実施形態９～１１のいずれか１つに記載の方法。

【0189】

実施形態１３．コピー数尤度モデルが、負の二項分布を含み、負の二項分布が、ポアソン分布ではない、実施形態９～１２のいずれか１つに記載の方法。

【0190】

実施形態１４．期待される実際の配列リード数または合成の配列リード数が、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数と、テストサンプル内のセグメントにわたる代表値のマッピングされた配列リード数と、に基づいており、複数のサンプルにわたる問い合わせされたセグメントに対応するセグメントでの代表値のマッピングされた配列リード数、またはテストサンプル内の複数のセグメントにわたる代表値のマッピングされた配列リード数が、正規化された代表値である、実施形態９～１３のいずれか１つに記載の方法。

【0191】

実施形態１５．コピー数尤度モデルが、ＧＣ含量バイアスの存在を考慮するように調整される、実施形態９～１４のいずれか１つに記載の方法。

【0192】

実施形態１６．隠れマルコフモデルが、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む、実施形態９～１５のいずれか１つに記載の方法。

【0193】

実施形態１７．隠れマルコフモデルが、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む、実施形態９～１５のいずれか１つに記載の方法。

【0194】

実施形態１８．遷移確率が、コピー数バリアントの代表値の長さを考慮する、実施形態１６または１７に記載の方法。

【0195】

実施形態１９．遷移確率が、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する、実施形態１６～１８のいずれか１つに記載の方法。

【0196】

実施形態２０．コピー数バリアントの代表値の長さ、または問い合わせされたセグメントでのコピー数バリアントの確率が、ヒト集団における観測に基づいて決定される、実施形態１８または１９に記載の方法。

【0197】

実施形態２１．コピー数バリアントモデルをパラメータ化することが、１つ以上のスプリアス捕捉プローブを考慮することを含む、実施形態１～２０のいずれか１つに記載の方法。

【0198】

実施形態２２．１つ以上のスプリアス捕捉プローブを考慮することが、複数の観測状態の１つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含む、実施形態２１に記載の方法。

【0199】

実施形態２３．スプリアス捕捉プローブインジケータが、ベルヌーイ過程を使用して決定される、実施形態２２に記載の方法。

【0200】

実施形態２４．捕捉プローブのうちの１つ以上がスプリアスであることを考慮することが、期待値最大化を使用することを含む、実施形態２２または２３に記載の方法。

【0201】

実施形態２５．捕捉プローブがスプリアスであると決定される場合、その捕捉プローブに由来する配列リードが、コピー数バリアントモデルで破棄される、実施形態２１～２４のいずれか１つに記載の方法。

【0202】

実施形態２６．コピー数バリアントモデルをパラメータ化することが、マッピングされた配列リード数のノイズを考慮することを含む、実施形態１～２５のいずれか１つに記載の方法。

【0203】

実施形態２７．コピー数バリアントモデルが、１つ以上のコピー数バリアントモデルパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、実施形態１～２６のいずれか１つに記載の方法。

【0204】

実施形態２８．コピー数バリアントモデルが、信頼領域ニュートン共役勾配アルゴリズムを解くことによってパラメータ化される、実施形態１～２７のいずれか１つに記載の方法。

【0205】

実施形態２９．コピー数バリアントモデルが、期待値最大化を使用して反復的にパラメータ化される、実施形態１～２８のいずれか１つに記載の方法。

【0206】

実施形態３０．テストサンプルからの実際の配列リードを関心領域内のセグメントにマッピングすることと、セグメントにマッピングされた実際の配列リード数を決定することと、を含む、実施形態１～２９のいずれか１つに記載の方法。

【0207】

実施形態３１．テストサンプルが、１つ以上の直接標的配列捕捉プローブを使用して濃縮される、実施形態１～３０のいずれか１つに記載の方法。

【0208】

実施形態３２．テストサンプル用に１つ以上のセグメントのコピー数をコールすることを含む、実施形態１～３１のいずれか１つに記載の方法。

【0209】

実施形態３３．セグメントが、空間的に隣接するセグメントを含む、実施形態１～３２のいずれか１つに記載の方法。

【0210】

実施形態３４．サンプル特異的な性能統計が、検出、感度、特異度、適合率、再現率、精度、正の予測値、または負の予測値の限界である、実施形態１～３３のいずれか１つに記載の方法。

【0211】

実施形態３５．サンプル特異的な性能統計が、感度または精度である、実施形態１～３４のいずれか１つに記載の方法。

【0212】

実施形態３６．コピー数バリアントモデルのサンプル特異的な性能が、所望の性能閾値を下回っている場合、テストサンプルを不合格にすることを含む、実施形態１～３５のいずれか１つに記載の方法。

【0213】

実施形態３７．関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
（ａ）テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、１つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
（ｂ）問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
（ｃ）問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
（ｄ）隠れマルコフモデルであって、
（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、
（ｉｉ）問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
（ｉｉｉ）コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
（ｅ）コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。

【0214】

実施形態３８．関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
（ａ）テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
（ｃ）空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
（ｄ）隠れマルコフモデルであって、
（ｉ）空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
（ｉｉ）空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
（ｉｉｉ）空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。

【0215】

実施形態３９．コピー数尤度モデルの１つ以上のパラメータが、セグメントのマッピングされた配列リード数の分散（ｄ_ｉ）、セグメントの平均のマッピングされた配列リード数（μ_ｉ）、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散（ｄ_ｊ）、またはテスト配列ライブラリ内のセグメントの平均のマッピングされた配列リード数（μ_ｊ）を含む、実施形態３７または３８に記載の方法。

【0216】

実施形態４０．関心領域内のセクションの最も確率が高いコピー数を決定することをさらに含み、セクションが、問い合わせされたセグメントを含む複数の空間的に隣接するセグメントを含む、実施形態３７～３９のいずれか１つに記載の方法。

【0217】

実施形態４１．コピー数尤度モデルが、２つ以上のコピー数状態の分布を含む、実施形態３７～４０のいずれか１つに記載の方法。

【0218】

実施形態４２．コピー数尤度モデルが、負の二項分布を含み、負の二項分布が、ポアソン分布ではない、実施形態３７～４１のいずれか１つに記載の方法。

【0219】

実施形態４３．期待される配列リード数が、複数の配列ライブラリにわたる対応するセグメントでの平均のマッピングされた配列リード数と、テスト配列ライブラリ内の複数の関心セグメントにわたる平均のマッピングされた配列リード数と、に基づいており、複数の配列ライブラリにわたる対応するセグメントでの平均のマッピングされた配列リード数、またはテスト配列ライブラリ内の複数の関心セグメントにわたる平均のマッピングされた配列リード数が、正規化された代表値である、実施形態３７～４２のいずれか１つに記載の方法。

【0220】

実施形態４４．コピー数尤度モデルが、ＧＣ含量バイアスの存在を考慮するように調整される、実施形態３７～４３のいずれか１つに記載の方法。

【0221】

実施形態４５．調整が、問い合わせされたセグメントに対応する捕捉プローブのＧＣ含量、または問い合わせされたセグメントのＧＣ含量に依存する、実施形態４４に記載の方法。

【0222】

実施形態４６．隠れマルコフモデルが、空間的に隣接するセグメントの所与のコピー数の問い合わせされたセグメントのコピー数の遷移確率を含む、実施形態３７～４５のいずれか１つに記載の方法。

【0223】

実施形態４７．隠れマルコフモデルが、空間的に隣接するサブセグメントの所与のコピー数の問い合わせされたセグメント内の複数のサブセグメントでのサブセグメントのコピー数の複数の遷移確率を含む、実施形態３７～４５のいずれか１つに記載の方法。

【0224】

実施形態４８．遷移確率が、コピー数バリアントの代表値の長さを考慮する、実施形態４６または４７に記載の方法。

【0225】

実施形態４９．遷移確率が、問い合わせされたセグメントまたは空間的に隣接するセグメントでのコピー数バリアントの事前確率を考慮する、実施形態４６～４８のいずれか１つに記載の方法。

【0226】

実施形態５０．コピー数バリアントの代表値の長さ、または問い合わせされたセグメントでのコピー数バリアントの確率が、ヒト集団における観測に基づいて決定される、実施形態４８または４９に記載の方法。

【0227】

実施形態５１．隠れマルコフモデルをパラメータ化することが、１つ以上のスプリアス捕捉プローブを考慮することを含む、実施形態３７～５０のいずれか１つに記載の方法。

【0228】

実施形態５２．１つ以上のスプリアス捕捉プローブを考慮することが、複数の観測状態の１つ以上の観測状態を、スプリアス捕捉プローブインジケータで重み付けすることを含む、実施形態５１に記載の方法。

【0229】

実施形態５３．スプリアス捕捉プローブインジケータが、ベルヌーイ過程を使用して決定される、実施形態５２に記載の方法。

【0230】

実施形態５４．捕捉プローブのうちの１つ以上がスプリアスであることを考慮することが、期待値最大化を使用することを含む、実施形態５２または５３に記載の方法。

【0231】

実施形態５５．捕捉プローブがスプリアスであると決定される場合、その捕捉プローブからの尤度情報が、コピー数尤度モデルで破棄される、実施形態５２～５４のいずれか１つに記載の方法。

【0232】

実施形態５６．隠れマルコフモデルをパラメータ化することが、マッピングされた配列リード数のノイズを考慮することを含む、実施形態３７～５５のいずれか１つに記載の方法。

【0233】

実施形態５７．マッピングされた配列決リード数のノイズを考慮することが、コピー数尤度モデルを調整することを含む、実施形態３７～５６のいずれか１つに記載の方法。

【0234】

実施形態５８．ノイズを考慮するためにコピー数尤度モデルを調整することは、期待値最大化ステップを含む、実施形態５７に記載の方法。

【0235】

実施形態５９．期待値最大化ステップが、テスト配列ライブラリからのマッピングされた配列リード数のノイズのレベルを重み付けすることを含む、実施形態５８に記載の方法。

【0236】

実施形態６０．マッピングされた配列リード数のノイズが、所定の閾値を上回っている場合、問い合わせされたセグメントの最も確率が高いコピー数が、コールされない、実施形態５６～５９のいずれか１つに記載の方法。

【0237】

実施形態６１．重複する捕捉プローブからの配列リードが、マージされる、実施形態３７～６０のいずれか１つに記載の方法。

【0238】

実施形態６２．ビタビアルゴリズム、準ニュートンソルバ、またはマルコフ連鎖モンテカルロを使用して、問い合わせされたセグメントの最も確率が高いコピー数を決定する、実施形態３７～６１のいずれか１つに記載の方法。

【0239】

実施形態６３．セグメントの最も確率が高いコピー数の信頼度を決定することをさらに含む、実施形態３７～６２のいずれか１つに記載の方法。

【0240】

実施形態６４．関心領域内のコピー数バリアント異常を決定するための方法であって、
（ａ）テスト配列ライブラリから生成された複数の配列リードを、関心領域内の問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、１つ以上の直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
（ｂ）問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
（ｃ）問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
（ｄ）隠れマルコフモデルであって、
（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、
（ｉｉ）問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
（ｉｉｉ）コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
（ｅ）コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することによって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、
（ｇ）問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む、方法。

【0241】

実施形態６５．関心領域内のコピー数バリアント異常を決定するための方法であって、
（ａ）テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
（ｃ）空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
（ｄ）隠れマルコフモデルであって、
（ｉ）空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
（ｉｉ）空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
（ｉｉｉ）空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することを含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、
（ｇ）問い合わせされたセグメントの最も確率が高いコピー数に基づいてコピー数バリアント異常を決定することと、を含む、方法。

【0242】

実施形態６６．関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
（ａ）テスト配列ライブラリから生成された複数の配列リードを、問い合わせされたセグメントにマッピングすることであって、テスト配列ライブラリが、１つ以上の捕捉プローブを使用して濃縮される、マッピングすることと、
（ｂ）問い合わせされたセグメントにマッピングされた配列リード数を決定することと、
（ｃ）問い合わせされたセグメントにマッピングされた、期待される配列リード数に基づいてコピー数尤度モデルを決定することと、
（ｄ）隠れマルコフモデルであって、
（ｉ）問い合わせされたセグメント、または問い合わせされたセグメント内の複数のサブセグメントに対応するコピー数を含む１つ以上の隠れた状態と、
（ｉｉ）問い合わせされたセグメントにマッピングされた配列リード数を含む観測状態と、
（ｉｉｉ）コピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
（ｅ）コピー数尤度モデルを、問い合わせされたセグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、１つ以上のスプリアス捕捉プローブを考慮することと、によって隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。

【0243】

実施形態６７．関心領域内の問い合わせされたセグメントのコピー数を決定するための方法であって、
（ａ）テスト配列ライブラリから生成された複数の配列リードを、複数の空間的に隣接するセグメントにマッピングすることであって、複数の空間的に隣接するセグメントが、問い合わせされたセグメントを含み、テスト配列ライブラリが、複数の空間的に隣接する直接標的配列捕捉プローブを使用して濃縮される、マッピングすることと、
（ｂ）空間的に隣接する各セグメントにマッピングされた配列リード数を決定することと、
（ｃ）空間的に隣接するセグメントでの期待されるマッピングされた配列リード数に基づいて、空間的に隣接する各セグメントのコピー数尤度モデルを決定することと、
（ｄ）隠れマルコフモデルであって、
（ｉ）空間的に隣接するセグメントの各々のコピー数、または空間的に隣接するセグメントの各々内の複数のサブセグメントを含む複数の隠れた状態と、
（ｉｉ）空間的に隣接する各セグメントにマッピングされた配列リード数を含む複数の観測状態と、
（ｉｉｉ）空間的に隣接する各セグメントのコピー数尤度モデルと、を含む隠れマルコフモデルを構築することと、
（ｅ）各コピー数尤度モデルを、空間的に隣接する各セグメントにマッピングされた決定された配列リード数にフィッティングするように調整することと、１つ以上のスプリアス捕捉プローブを考慮することと、を含む、隠れマルコフモデルをパラメータ化することであって、隠れマルコフモデルが、コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数ヘッシアンを使用してパラメータ化される、パラメータ化することと、
（ｆ）パラメータ化された隠れマルコフモデルに基づいて、問い合わせされたセグメントの最も確率が高いコピー数を決定することと、を含む、方法。

【0244】

実施形態６８．コピー数尤度モデルの１つ以上のパラメータが、セグメントのマッピングされた配列リード数の分散（ｄ_ｉ）、セグメントの平均のマッピングされた配列リード数（μ_ｉ）、テスト配列ライブラリ内のセグメントのマッピングされた配列リード数の分散（ｄ_ｊ）、またはテスト配列ライブラリ内のセグメントの平均のマッピングされた配列リード数（μ_ｊ）を含む、実施形態６４～６７のいずれか１つに記載の方法。

【0245】

実施形態６９．コピー数尤度モデルでの１つ以上のパラメータの解析的な１次導関数勾配および２次導関数解析的ヘッシアンが、信頼領域ニュートン共役勾配アルゴリズムを使用して解かれる、実施形態３７～６８のいずれか１つに記載の方法。

【0246】

実施形態７０．実施形態１～６８のいずれか１つに記載の方法を実行するための命令を含むコンピュータ可読媒体を含むコンピュータシステム。

【実施例】

【0247】

血液または唾液からの生物学的サンプルは、１７８個の遺伝子のパネル全体で直接標的配列を濃縮した後、イルミナプラットフォームＨｉＳｅｑ２５００を使用して配列された。４６個のサンプルのバッチが分析され、バッチは、唾液および血液のサンプルの比率が異なっていた。唾液サンプルは、一般に、ノイズがより多い配列結果を生成し、同じフローセルバッチ内の他のサンプルの感度に影響を与え得る。各サンプル内のセグメントからの配列リード数を使用して、セグメントの隠れマルコフモデルをパラメータ化し、４００個の合成のコピー数バリアントを生成し、隠れマルコフモデルコーラを使用して各サンプルの合成のコピー数バリアント内のセグメントのコピー数をコールした。隠れマルコフモデルは、（ｉ）所与のセグメントのコピー数の隠れた状態と、（ｉｉ）所与のセグメントの合成の配列リード数を有する観測状態と、（ｉｉｉ）所与のセグメントの合成のリード数に基づくコピー数尤度モデルと、を含んでいた。各テストサンプルの感度は、合成のバリアント内のセグメントのコールされたコピー数と、合成のバリアント内の実際のコピー数と、を使用して決定された。

【0248】

コピー数バリアントコール分析は、２つの異なる隠れマルコフモデルコーラを使用して行われた。基準隠れマルコフモデルコーラでは、サンプルノイズ（すなわち、テスト配列ライブラリ内のノイズに起因する分散）およびスプリアス捕捉プローブノイズは、無視された。テスト隠れマルコフモデルでは、テスト配列ライブラリ内のノイズは、

【数46】

に従って分散パラメータに配列ライブラリ内のセグメント全体のノイズに起因する分散（ｄ_ｉ）のパラメータを含めることによって、コピー数尤度モデルで考慮された。これに加えて、テスト隠れマルコフモデルは、ベルヌーイ過程を使用してスプリアス捕捉プローブを考慮した。

【0249】

各サンプルの決定された感度は、図１２に示されており、唾液サンプル数に対してプロットされる（４６個のうち、残りは血液サンプルである）。基準隠れマルコフコーラを使用する感度は、一般に、バッチに唾液サンプルが多く存在すると悪化する。ただし、バッチに４４個の唾液サンプルが含まれている場合でも、テスト隠れマルコフコーラの感度は、一般に、９０％を上回ったままである。

【図1】