特表2023-550242 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ リジェネロン・ファーマシューティカルズ・インコーポレイテッドの特許一覧

特表2023-550242シーケンシングによるジェノタイピング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-12-01

(54)【発明の名称】シーケンシングによるジェノタイピング

(51)【国際特許分類】

G16B 20/20 20190101AFI20231124BHJP

C12Q 1/6869 20180101ALI20231124BHJP

C12Q 1/6876 20180101ALI20231124BHJP

C12Q 1/6827 20180101ALI20231124BHJP

【ＦＩ】

G16B20/20

C12Q1/6869 Z

C12Q1/6876 Z

C12Q1/6827 Z

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023520266

(86)(22)【出願日】2021-11-19

(85)【翻訳文提出日】2023-03-31

(86)【国際出願番号】 US2021060085

(87)【国際公開番号】W WO2022109267

(87)【国際公開日】2022-05-27

(31)【優先権主張番号】63/116,085

(32)【優先日】2020-11-19

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】597160510

【氏名又は名称】リジェネロン・ファーマシューティカルズ・インコーポレイテッド

【氏名又は名称原語表記】ＲＥＧＥＮＥＲＯＮＰＨＡＲＭＡＣＥＵＴＩＣＡＬＳ，ＩＮＣ．

(74)【代理人】

【識別番号】100105957

【弁理士】

【氏名又は名称】恩田誠

(74)【代理人】

【識別番号】100068755

【弁理士】

【氏名又は名称】恩田博宣

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(74)【代理人】

【識別番号】100152489

【弁理士】

【氏名又は名称】中村美樹

(72)【発明者】

【氏名】アベカシス、ゴンサロ

(72)【発明者】

【氏名】バーバー、マシュー

(72)【発明者】

【氏名】サレルノ、ウィリアム

【テーマコード（参考）】

4B063

【Ｆターム（参考）】

4B063QA13

4B063QQ42

4B063QR08

4B063QR42

4B063QR55

4B063QS34

(57)【要約】

本開示は、シーケンシングによるジェノタイピングのための核酸プローブを製造する方法、核酸プローブのセットを使用したシーケンシングによりＤＮＡサンプルのジェノタイピングを行う方法、及びそのような方法を行うためのシステムを提供する。

【特許請求の範囲】

【請求項1】

シーケンシングによるジェノタイピングのための核酸プローブを製造する方法であって、
ａ）前記核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントを選択すること、
ｂ）前記複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成すること、
ｃ）前記フィルタリングされた複数の直接観察される遺伝的バリアントをフェージングすること、
ｄ）前記フィルタリングされた複数の直接観察される遺伝的バリアントのうちの各バリアントについて、１つまたは複数のプロキシバリアントの存在または非存在を識別すること、
ｅ）前記フィルタリングされた複数の直接観察される遺伝的バリアントを含むゲノムＤＮＡの複数の候補領域を選択することであって、ゲノムＤＮＡの各候補領域が、約２５～約１５０の塩基を含み、前記フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む、前記選択すること、
ｆ）ゲノムＤＮＡの各候補領域について、プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、
ｇ）ゲノムＤＮＡの各候補領域について、前記ゲノムＤＮＡの候補領域によって捕捉されるバリアントの数を前記クオリティスコアに乗算することにより、プローブスコアを算出することであって、前記ゲノムＤＮＡの候補領域によって捕捉される前記バリアントの数が、前記ゲノムＤＮＡの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和である、前記算出すること、
ｈ）ゲノムＤＮＡの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムＤＮＡの１つまたは複数の候補領域を選択すること、
ｉ）前記ゲノムＤＮＡの領域の最終セットに含めるために、選択されていないゲノムＤＮＡの候補領域に対してステップｇ）及びｈ）を繰り返すことであって、前記選択されていないゲノムＤＮＡの候補領域におけるバリアントの数が、１）選択済みのゲノムＤＮＡの領域内のすべての直接観察されるバリアントを除外した、前記選択されていないゲノムＤＮＡの候補領域における直接観察されるバリアントの数と、２）選択済みのゲノムＤＮＡの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和であり、最大数のゲノムＤＮＡの領域が選択されるまでステップｇ）及びｈ）が繰り返される、前記繰り返すこと、及び
ｊ）前記ゲノムＤＮＡの領域の最終セットの中の各前記ゲノム領域の前記核酸配列に相補的な核酸プローブのセットを生成すること
を含む前記方法。

【請求項2】

前記複数の直接観察される遺伝的バリアントが、遺伝的バリアントのゲノムワイド関連性のデータベース、遺伝的バリアントの遺伝薬理学的関連性のデータベース、全ミトコンドリア染色体内の遺伝的バリアントを含むデータベース、及び／またはマイクロアレイ内の遺伝的バリアントのデータベース、あるいはそれらのいずれかの組み合わせから選択される、請求項１に記載の方法。

【請求項3】

形質との関連性の二乗がｐ値≦１０^－９を有する場合、前記遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントが、前記複数の直接観察される遺伝的バリアントに保持され、形質との関連性の二乗がｐ値＞１０^－９を有する場合、前記遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントが、前記複数の直接観察される遺伝的バリアントから除外される、請求項２に記載の方法。

【請求項4】

前記マイクロアレイ内の遺伝的バリアントのデータベースが、６番染色体のＨＬＡ領域、Ｙ染色体、１９番染色体上の２つのＫＩＲ領域、ならびにＸ染色体上の偽常染色体領域１及び２（Ｐａｒ１及びＰａｒ２）における遺伝的バリアントを含む、請求項２に記載の方法。

【請求項5】

マルチアレルバリアントが、バイアレルバリアントの１つまたは複数のセットに変換される、請求項１～４のいずれか１項に記載の方法。

【請求項6】

前記複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することが、所望の閾値未満のマイナーアレル頻度（ＭＡＦ）を有するすべてのバリアントを排除することを含む、請求項１～５のいずれか１項に記載の方法。

【請求項7】

前記所望の閾値が１％である、請求項６に記載の方法。

【請求項8】

前記複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することが、所望の閾値を超える欠測があるすべてのバリアントを排除することを含む、請求項１～７のいずれか１項に記載の方法。

【請求項9】

前記所望の閾値が２％である、請求項８に記載の方法。

【請求項10】

前記直接観察される遺伝的バリアント及びプロキシバリアントが互いから１ＭＢ以内にあるとき、また、前記２つのバリアントの間の連鎖不均衡が、前記連鎖不均衡のｒ２尺度を使用して少なくとも０．２、少なくとも０．５、少なくとも０．８、少なくとも０．９、または少なくとも１．０の相関の二乗を有する場合に、前記フィルタリングされた複数の直接観察される遺伝的バリアントのうちのバリアントが、ゲノムＤＮＡの別の候補領域内に対応するプロキシバリアントを有する、請求項１～９のいずれか１項に記載の方法。

【請求項11】

前記ゲノムＤＮＡの複数の候補領域が別個の解析群に分割され、これにより、各染色体が別個の解析群である、請求項１～１０のいずれか１項に記載の方法。

【請求項12】

ゲノムＤＮＡの各候補領域が、約１２０～約１２５の塩基を含む、請求項１～１１のいずれか１項に記載の方法。

【請求項13】

前記ゲノムＤＮＡの複数の候補領域が、約５００万～約５０００万のバリアントを含む、請求項１～１２のいずれか１項に記載の方法。

【請求項14】

前記ゲノムＤＮＡの複数の候補領域の全体が、約１００万～約１億の塩基対、約５００万～約７５００万の塩基対、約１０００万～約５０００万の塩基対、または約２０００万～約４０００万の塩基対を含む、請求項１～１３のいずれか１項に記載の方法。

【請求項15】

ゲノムＤＮＡの複数の候補領域が、前記フィルタリングされた複数の直接観察される遺伝的バリアントの中の２つ以上のバリアントを含む、請求項１～１４のいずれか１項に記載の方法。

【請求項16】

前記クオリティスコアを算出することが、前記ゲノムＤＮＡの候補領域のマッピング可能性メトリック、挿入－欠失変異メトリック、及び分類メトリックの各々についての成分スコアを決定することを含み、前記クオリティスコアが、前記成分スコアの各々の乗算の積である、請求項１～１５のいずれか１項に記載の方法。

【請求項17】

前記マッピング可能性メトリックの前記成分スコアが、ｅｘｐ（１０×ＵｍａｐＭＲＭ_ｉ－９）であり、ここで、ＵｍａｐＭＲＭ_ｉは、前記ゲノムＤＮＡの候補領域内のバリアント位置ｉのマルチリードマッピング可能性メトリックである、請求項１６に記載の方法。

【請求項18】

前記挿入－欠失変異メトリックが、前記ゲノムＤＮＡの候補領域内の塩基の挿入または欠失の存在または非存在の尺度であり、前記挿入－欠失変異の成分スコアが、ｅｘｐ（ＳＶｓｃｏｒｅ_ｉ）であり、ここで、前記バリアント位置ｉが挿入－欠失変異に連結していない場合、または５塩基未満の挿入－欠失変異に連結している場合、前記ＳＶｓｃｏｒｅ_ｉは２であり、前記バリアント位置ｉが５塩基以上１０塩基以下の挿入－欠失変異に連結している場合、前記ＳＶｓｃｏｒｅ_ｉは１であり、前記バリアント位置ｉが１０塩基を超える挿入－欠失変異に連結している場合、前記ＳＶｓｃｏｒｅ_ｉは０である、請求項１６に記載の方法。

【請求項19】

前記ゲノムＤＮＡの候補領域の前記分類メトリックが、第１のカテゴリ、第２のカテゴリ、第３のカテゴリ、及び第４のカテゴリを含み、前記分類メトリックの第１の成分スコアは、ｅｘｐ（Ｒｅｇｉｏｎ＿ｓｃｏｒｅ_ｉ）であり、これにより、前記第１のカテゴリのバリアント位置ｉは０としてスコア付けされ、前記第２のカテゴリのバリアント位置ｉは１としてスコア付けされ、前記第３のカテゴリのバリアント位置ｉは１．６としてスコア付けされ、前記第４のカテゴリのバリアント位置ｉは２としてスコア付けされ、前記分類メトリックの第２の成分スコアは、（１＋１．２（ｍｉｎ（ｄｉｓｔ２ｃａｔｅｇｏｒｙ１_ｉ，６０）／６０））であり、ここで、ｄｉｓｔ２ｃａｔｅｇｏｒｙ１_ｉは、前記第１のカテゴリの前記バリアント位置ｉから領域までの最小絶対距離であり、前記分類メトリックの第３の成分スコアは、（１＋１．２（ｍｉｎ（ｄｉｓｔ２ｃａｔｅｇｏｒｙ２_ｉ，６０）／６０））であり、ここで、ｄｉｓｔ２ｃａｔｅｇｏｒｙ２_ｉは、前記第２のカテゴリの前記バリアント位置ｉから領域までの最小絶対距離である、請求項１６に記載の方法。

【請求項20】

ゲノムＤＮＡの各候補領域の前記クオリティスコアが、最大スコアで除算することによって０～１にスケーリングされ、それにより、ゲノムＤＮＡの各候補領域の前記クオリティスコアが作成される、請求項１６～１９のいずれか１項に記載の方法。

【請求項21】

最も高いプローブスコアを持つゲノムＤＮＡの候補領域が複数存在する場合、ゲノム全体でより均等な間隔をおいた前記ゲノムＤＮＡの候補領域が選択される、請求項１～２０のいずれか１項に記載の方法。

【請求項22】

最も高いプローブスコアを持つ前記ゲノムＤＮＡの１つまたは複数の候補領域の選択が、
３つ以上のバリアントを有し、最も高いプローブスコアを有する前記候補領域を識別すること、
最も高いプローブスコアを有し、３つ以上のバリアントを持つ前記領域のサブセットのみを含む前記候補領域を識別すること、
をさらに含み、前記３つ以上のバリアントを有する前記候補領域の最も高いプローブスコアよりも低いプローブスコアを有する３つ以上のバリアントを持つ前記領域のサブセットのみを含むすべての候補領域が、前記ゲノムＤＮＡの複数の候補領域から除外される、請求項１～２０のいずれか１項に記載の方法。

【請求項23】

ゲノムＤＮＡの候補領域が、所望の閾値よりも多くのバリアントを含む場合、前記ゲノムＤＮＡの候補領域が、前記ゲノムＤＮＡの領域の最終セットから削除される、請求項１～２０のいずれか１項に記載の方法。

【請求項24】

前記所望の閾値がバリアント５つである、請求項２３に記載の方法。

【請求項25】

ステップｇ）及びｈ）が繰り返された後、前記残りの選択されていないゲノムＤＮＡの候補領域についての前記プローブスコアが更新される、請求項１～２４のいずれか１項に記載の方法。

【請求項26】

前記更新が、
前記ゲノムＤＮＡの領域の最終セットに含めるゲノムＤＮＡの候補領域を選択した後、選択済みのゲノムＤＮＡの候補領域に存在したバリアントのプロキシを含む残りの選択されていないゲノムＤＮＡの候補領域の前記すべてのプローブスコアを再算出すること、及び／または
前記ゲノムＤＮＡの領域の最終セットに含めるために選択されたバリアントのみを含む選択されていないゲノムＤＮＡの候補領域のすべてを排除すること
を含む、請求項２５に記載の方法。

【請求項27】

すべての直接観察されるバリアント及びプロキシバリアントが前記ゲノムＤＮＡの領域の最終セット内に含まれるまでステップｇ）及びｈ）が繰り返される、請求項１～２６のいずれか１項に記載の方法。

【請求項28】

前記核酸プローブのセットが、約５００，０００～約７００，０００のプローブを含む、請求項１～２７のいずれか１項に記載の方法。

【請求項29】

前記核酸プローブのセットが、約６００，０００～約６５０，０００のプローブを含む、請求項１～２７のいずれか１項に記載の方法。

【請求項30】

シーケンシングによりＤＮＡサンプルのジェノタイピングを行う方法であって、
ａ）請求項１～２９のいずれか１項に従って製造された核酸プローブのセットを前記ＤＮＡサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムＤＮＡを生成すること、
ｂ）前記プローブにハイブリダイズしたゲノムＤＮＡをシーケンシングして、複数のシーケンシングリードを作成すること、
ｃ）前記複数のシーケンシングリードを参照ゲノムにマッピングすること、
ｄ）前記マッピングされたシーケンシングリードに存在する前記直接観察されるバリアントをコールすること、及び
ｅ）ゲノムＤＮＡのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、前記サンプルＤＮＡの遺伝子型を確立すること
を含む前記方法。

【請求項31】

前記ＤＮＡサンプルが、疾患または状態を有する対象から取得される、請求項３０に記載の方法。

【請求項32】

前記ＤＮＡサンプルが、対象の腫瘍から取得される、請求項３０に記載の方法。

【請求項33】

前記複数のシーケンシングリードのうちの前記直接観察されるバリアントの８Ｘ未満のカバー率をもたらすプローブが、前記核酸プローブのセットから除去される、請求項３０～３２のいずれか１項に記載の方法。

【請求項34】

前記サンプルＤＮＡの非効率的な捕捉をもたらすプローブが、前記核酸プローブのセットから除去される、請求項３０～３３のいずれか１項に記載の方法。

【請求項35】

前記複数のシーケンシングリードが、約３０００万のシーケンシングリードを含む、請求項３０～３４のいずれか１項に記載の方法。

【請求項36】

前記複数のシーケンシングリードが、約２５００万のシーケンシングリードを含む、請求項３０～３４のいずれか１項に記載の方法。

【請求項37】

前記複数のシーケンシングリードが、約２０００万のシーケンシングリードを含む、請求項３０～３４のいずれか１項に記載の方法。

【請求項38】

前記複数のシーケンシングリードが、約１５００万のシーケンシングリードを含む、請求項３０～３４のいずれか１項に記載の方法。

【請求項39】

前記複数のシーケンシングリードが、約１０００万のシーケンシングリードを含む、請求項３０～３４のいずれか１項に記載の方法。

【請求項40】

前記複数のシーケンシングリードが、約５００万のシーケンシングリードを含む、請求項３０～３４のいずれか１項に記載の方法。

【請求項41】

カバー率の低いリードに起因する低信頼度のコールされたバリアントが排除されて、コールされた直接観察されるバリアントの最終セットが作成される、請求項３０～４０のいずれか１項に記載の方法。

【請求項42】

低信頼度のコールされたバリアントを排除することが、前記同じコールされた直接観察されるバリアントをバリアントの参照パネルから補完することを含む、請求項４１に記載の方法。

【請求項43】

前記コールされた直接観察されるバリアントを既知のハプロタイプのセットへとフェージングすることをさらに含む、請求項４１または請求項４２に記載の方法。

【請求項44】

１０Ｘを超えるカバー率を有するコールされたバリアントのパーセンテージが決定され、１０Ｘを超えるカバー率を有するコールされたバリアントの前記パーセンテージが約９５％未満である場合、前記核酸プローブのセットを前記ＤＮＡサンプルに再ハイブリダイズする、請求項４１～４３のいずれか１項に記載の方法。

【請求項45】

前記核酸プローブのセットから排除されたプローブに近いまたはその中にある、コールされた直接観察されるバリアントが、前記コールされた直接観察されるバリアントの最終セットから削除される、請求項４１～４４のいずれか１項に記載の方法。

【請求項46】

前記観察されていないバリアントが、前記ＤＮＡサンプル中のコールされた直接観察されるバリアントの存在に基づいて、バリアントの参照パネルから補完される、請求項３０～４５のいずれか１項に記載の方法。

【請求項47】

核酸プローブのセットを使用したシーケンシングによりＤＮＡサンプルのジェノタイピングを行う方法であって、
ａ）複数の直接観察される遺伝的バリアントを含む前記ＤＮＡサンプルからゲノムＤＮＡの複数の領域を選択すること、
ｂ）前記選択されたゲノムＤＮＡの複数の領域へのハイブリダイゼーションのための前記核酸プローブのセットを識別すること、
ｃ）前記核酸プローブのセットを前記ＤＮＡサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムＤＮＡを生成すること、
ｄ）前記プローブにハイブリダイズしたゲノムＤＮＡをシーケンシングして、複数のシーケンシングリードを作成すること、
ｅ）前記複数のシーケンシングリードを参照ゲノムにマッピングすること、
ｆ）前記マッピングされたシーケンシングリードに存在する前記直接観察されるバリアントをコールすること、及び
ｇ）ゲノムＤＮＡのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、前記サンプルＤＮＡの遺伝子型を確立すること
を含む前記方法。

【請求項48】

前記ＤＮＡサンプルが、疾患または状態を有する対象から取得される、請求項４７に記載の方法。

【請求項49】

前記ＤＮＡサンプルが、対象の腫瘍から取得される、請求項４７に記載の方法。

【請求項50】

前記選択されたゲノムＤＮＡの複数の領域内の前記複数の直接観察される遺伝的バリアントが、低信頼度の直接観察される遺伝的バリアントを欠いており、フェージングされた直接観察される遺伝的バリアントを含む、請求項４７～４９のいずれか１項に記載の方法。

【請求項51】

前記複数の直接観察される遺伝的バリアントが、少なくとも１つの直接観察されるバリアントに関する１つまたは複数のプロキシバリアントを含む、請求項４７～５０のいずれか１項に記載の方法。

【請求項52】

【請求項53】

【請求項54】

前記マイクロアレイ内の遺伝的バリアントのデータベースが、前記６番染色体のＨＬＡ領域、前記Ｙ染色体、前記１９番染色体上の２つのＫＩＲ領域、ならびに前記Ｘ染色体上の偽常染色体領域１及び２（Ｐａｒ１及びＰａｒ２）における遺伝的バリアントを含む、請求項５２に記載の方法。

【請求項55】

マルチアレルバリアントが、バイアレルバリアントの１つまたは複数のセットに変換される、請求項４７～５４のいずれか１項に記載の方法。

【請求項56】

低信頼度バリアントが、所望の閾値未満のマイナーアレル頻度（ＭＡＦ）を有するすべてのバリアントを排除することにより、前記複数の直接観察される遺伝的バリアントから排除される、請求項４７～５５のいずれか１項に記載の方法。

【請求項57】

前記所望の閾値が１％である、請求項５６に記載の方法。

【請求項58】

低信頼度バリアントが、所望の閾値を超える欠測があるすべてのバリアントを排除することにより、前記複数の直接観察される遺伝的バリアントから排除される、請求項４７～５７のいずれか１項に記載の方法。

【請求項59】

前記所望の閾値が２％である、請求項５８に記載の方法。

【請求項60】

前記直接観察される遺伝的バリアント及びプロキシバリアントが互いから１ＭＢ以内にあるとき、また、前記２つのバリアントの間の前記連鎖不均衡が、前記連鎖不均衡のｒ２尺度を使用して少なくとも０．２、少なくとも０．５、少なくとも０．８、少なくとも０．９、または少なくとも１．０の相関の二乗を有する場合に、前記複数の直接観察される遺伝的バリアントのうちのバリアントが、ゲノムＤＮＡの別の候補領域内に対応するプロキシバリアントを有する、請求項４７～５９のいずれか１項に記載の方法。

【請求項61】

前記ゲノムＤＮＡの複数の候補領域が別個の解析群に分割され、これにより、各染色体が別個の解析群である、請求項４７～６０のいずれか１項に記載の方法。

【請求項62】

前記核酸プローブのセットが、前記直接観察される遺伝的バリアントを含むゲノムＤＮＡの複数の候補領域を選択することによって識別され、ゲノムＤＮＡの各候補領域が、約２５～約１５０の塩基を含み、前記複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む、請求項４７～６１のいずれか１項に記載の方法。

【請求項63】

ゲノムＤＮＡの複数の候補領域を選択することが、
ｉ）ゲノムＤＮＡの各候補領域について、前記プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、
ｉｉ）ゲノムＤＮＡの各候補領域について、前記ゲノムＤＮＡの候補領域によって捕捉されるバリアントの数を前記クオリティスコアに乗算することにより、プローブスコアを算出することであって、前記ゲノムＤＮＡの候補領域によって捕捉される前記バリアントの数が、前記ゲノムＤＮＡの候補領域によって捕捉される直接観察されるバリアントの数と、前記ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和である、前記算出すること、及び
ｉｉｉ）ゲノムＤＮＡの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムＤＮＡの１つまたは複数の候補領域を選択すること
を含む、請求項６２に記載の方法。

【請求項64】

前記ゲノムＤＮＡの領域の最終セットに含めるために、選択されていないゲノムＤＮＡの候補領域に対してステップｉｉ）及びｉｉｉ）を繰り返すことであって、前記選択されていないゲノムＤＮＡの候補領域におけるバリアントの数が、１）選択済みのゲノムＤＮＡの領域内のすべての直接観察されるバリアントを除外した、前記選択されていないゲノムＤＮＡの候補領域における直接観察されるバリアントの数と、２）選択済みのゲノムＤＮＡの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムＤＮＡの異なる候補領域における対応する前記プロキシバリアントの数との和であり、最大数のゲノムＤＮＡの領域が選択されるまでステップｉｉ）及びｉｉｉ）が繰り返される、前記繰り返すことをさらに含む、請求項６３に記載の方法。

【請求項65】

前記ゲノムＤＮＡの領域の最終セットの中の各ゲノム領域の前記核酸配列に相補的な前記核酸プローブのセットを生成することをさらに含む、請求項６４に記載の方法。

【請求項66】

ゲノムＤＮＡの各候補領域が、約１２０～約１２５の塩基を含む、請求項４７～６５のいずれか１項に記載の方法。

【請求項67】

前記ゲノムＤＮＡの複数の候補領域が、約５００万～約５０００万のバリアントを含む、請求項４７～６６のいずれか１項に記載の方法。

【請求項68】

前記ゲノムＤＮＡの複数の候補領域の全体が、約１００万～約１億の塩基対、約５００万～約７５００万の塩基対、約１０００万～約５０００万の塩基対、または約２０００万～約４０００万の塩基対を含む、請求項４７～６７のいずれか１項に記載の方法。

【請求項69】

ゲノムＤＮＡの複数の候補領域が、前記フィルタリングされた複数の直接観察される遺伝的バリアントの中の２つ以上のバリアントを含む、請求項４７～６８のいずれか１項に記載の方法。

【請求項70】

前記クオリティスコアを算出することが、前記ゲノムＤＮＡの候補領域のマッピング可能性メトリック、挿入－欠失変異メトリック、及び分類メトリックの各々についての成分スコアを決定することを含み、前記クオリティスコアが、前記成分スコアの各々の乗算の積である、請求項６３～６９のいずれか１項に記載の方法。

【請求項71】

前記マッピング可能性メトリックの前記成分スコアが、ｅｘｐ（１０×ＵｍａｐＭＲＭ_ｉ－９）であり、ここで、ＵｍａｐＭＲＭ_ｉは、前記ゲノムＤＮＡの候補領域内の前記バリアント位置ｉの前記マルチリードマッピング可能性メトリックである、請求項７０に記載の方法。

【請求項72】

前記挿入－欠失変異メトリックが、前記ゲノムＤＮＡの候補領域内の塩基の挿入または欠失の存在または非存在の尺度であり、前記挿入－欠失変異の成分スコアが、ｅｘｐ（ＳＶｓｃｏｒｅ_ｉ）であり、ここで、前記バリアント位置ｉが挿入－欠失変異に連結していない場合、または５塩基未満の挿入－欠失変異に連結している場合、または５塩基未満の挿入－欠失変異に連結している場合、前記ＳＶｓｃｏｒｅ_ｉは１であり、前記バリアント位置ｉが５塩基以上１０塩基以下の挿入－欠失変異に連結している場合、前記ＳＶｓｃｏｒｅ_ｉは１であり、前記バリアント位置ｉが１０塩基を超える挿入－欠失変異に連結している場合、前記ＳＶｓｃｏｒｅ_ｉは０である、請求項７０に記載の方法。

【請求項73】

【請求項74】

ゲノムＤＮＡの各候補領域の前記クオリティスコアが、最大スコアで除算することによって０～１にスケーリングされ、それにより、ゲノムＤＮＡの各候補領域の前記クオリティスコアが作成される、請求項７０～７３のいずれか１項に記載の方法。

【請求項75】

最も高いプローブスコアを持つゲノムＤＮＡの候補領域が複数存在する場合、ゲノム全体でより均等な間隔をおいた前記ゲノムＤＮＡの候補領域が選択される、請求項６３～７４のいずれか１項に記載の方法。

【請求項76】

最も高いプローブスコアを持つ前記ゲノムＤＮＡの１つまたは複数の候補領域の選択が、
３つ以上のバリアントを有し、最も高いプローブスコアを有する前記候補領域を識別すること、
最も高いプローブスコアを有し、３つ以上のバリアントを持つ前記領域のサブセットのみを含む前記候補領域を識別すること
をさらに含み、前記３つ以上のバリアントを有する前記候補領域の最も高いプローブスコアよりも低いプローブスコアを有する３つ以上のバリアントを持つ領域のサブセットのみを含むすべての候補領域が、前記ゲノムＤＮＡの複数の候補領域から除外される、請求項６３～７５のいずれか１項に記載の方法。

【請求項77】

ゲノムＤＮＡの候補領域が、所望の閾値よりも多くのバリアントを含む場合、前記ゲノムＤＮＡの候補領域が、前記ゲノムＤＮＡの領域の最終セットから削除される、請求項６３～７６のいずれか１項に記載の方法。

【請求項78】

前記所望の閾値がバリアント５つである、請求項７７に記載の方法。

【請求項79】

ステップｉｉ）及びｉｉｉ）が繰り返された後、残りの選択されていないゲノムＤＮＡの候補領域についての前記プローブスコアが更新される、請求項６３～７８のいずれか１項に記載の方法。

【請求項80】

【請求項81】

すべての直接観察されるバリアント及びプロキシバリアントが前記ゲノムＤＮＡの領域の最終セット内に含まれるまでステップｉｉ）及びｉｉｉ）が繰り返される、請求項６３～８０のいずれか１項に記載の方法。

【請求項82】

前記核酸プローブのセットが、約５００，０００～約７００，０００のプローブを含む、請求項４７～８１のいずれか１項に記載の方法。

【請求項83】

前記核酸プローブのセットが、約６００，０００～約６５０，０００のプローブを含む、請求項４７～８２のいずれか１項に記載の方法。

【請求項84】

前記複数のシーケンシングリードのうちの前記直接観察されるバリアントの８Ｘ未満のカバー率をもたらすプローブが、前記核酸プローブのセットから除去される、請求項４７～８３のいずれか１項に記載の方法。

【請求項85】

前記サンプルＤＮＡの非効率的な捕捉をもたらすプローブが、前記核酸プローブのセットから除去される、請求項４７～８４のいずれか１項に記載の方法。

【請求項86】

前記複数のシーケンシングリードが、約３０００万のシーケンシングリードを含む、請求項４７～８５のいずれか１項に記載の方法。

【請求項87】

前記複数のシーケンシングリードが、約２５００万のシーケンシングリードを含む、請求項４７～８５のいずれか１項に記載の方法。

【請求項88】

前記複数のシーケンシングリードが、約２０００万のシーケンシングリードを含む、請求項４７～８５のいずれか１項に記載の方法。

【請求項89】

前記複数のシーケンシングリードが、約１５００万のシーケンシングリードを含む、請求項４７～８５のいずれか１項に記載の方法。

【請求項90】

前記複数のシーケンシングリードが、約１０００万のシーケンシングリードを含む、請求項４７～８５のいずれか１項に記載の方法。

【請求項91】

前記複数のシーケンシングリードが、約５００万のシーケンシングリードを含む、請求項４７～８５のいずれか１項に記載の方法。

【請求項92】

カバー率の低いリードに起因する低信頼度のコールされたバリアントが排除されて、コールされた直接観察されるバリアントの最終セットが作成される、請求項４７～９１のいずれか１項に記載の方法。

【請求項93】

低信頼度のコールされたバリアントを排除することが、前記同じコールされた直接観察されるバリアントをバリアントの参照パネルから補完することを含む、請求項９２に記載の方法。

【請求項94】

前記コールされた直接観察されるバリアントを既知のハプロタイプのセットへとフェージングすることをさらに含む、請求項９２または請求項９３に記載の方法。

【請求項95】

１０Ｘを超えるカバー率を有するコールされたバリアントの前記パーセンテージが決定され、１０Ｘを超えるカバー率を有するコールされたバリアントの前記パーセンテージが約９５％未満である場合、前記核酸プローブのセットを前記ＤＮＡサンプルに再ハイブリダイズする、請求項９２～９４のいずれか１項に記載の方法。

【請求項96】

前記核酸プローブのセットから排除されたプローブに近いまたはその中にある、コールされた直接観察されるバリアントが、前記コールされた直接観察されるバリアントの最終セットから削除される、請求項９２～９５のいずれか１項に記載の方法。

【請求項97】

前記観察されていないバリアントが、前記ＤＮＡサンプル中のコールされた直接観察されるバリアントの存在に基づいて、バリアントの参照パネルから補完される、請求項４７～９６のいずれか１項に記載の方法。

【請求項98】

メモリが接続されているデータプロセッサを備えるシステムであって、前記メモリが、
複数の直接観察される遺伝的バリアントを含むＤＮＡサンプルからゲノムＤＮＡの複数の領域を選択すること、
前記選択されたゲノムＤＮＡの複数の領域へのハイブリダイゼーションのための核酸プローブのセットを識別し、前記核酸プローブの前記セットの合成のためにオリゴヌクレオチドシンセサイザに命令を送信すること、
ＤＮＡサンプルへの前記核酸プローブの前記セットのハイブリダイゼーションの際に、前記プローブにハイブリダイズしたゲノムＤＮＡの生成物をシーケンシングすることから作成されたＤＮＡシーケンシング装置からの複数のシーケンシングリードを受信すること、
前記複数のシーケンシングリードを参照ゲノムにマッピングすること、
前記マッピングされたシーケンシングリードに存在する前記直接観察されるバリアントをコールすること、及び
ゲノムＤＮＡのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、前記サンプルＤＮＡの遺伝子型を確立すること
の命令を含むプログラムを含む、前記システム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、部分的には、シーケンシングによるジェノタイピングのための核酸プローブを製造する方法、核酸プローブのセットを使用したシーケンシングによりＤＮＡサンプルのジェノタイピングを行う方法、及びそのような方法を行うためのシステムを対象とする。

【背景技術】

【0002】

全ゲノムシーケンシングでは、個体のゲノム全体のシーケンシングを行う。全ゲノムシーケンシングのコストは減少しているが、依然として相当のコストである。シーケンシングの深度が高くなるほど、コストが高くなる。ゲノムの部分が異なれば注目または関心のレベルが異なるため、ディープシーケンシングの要件は様々である。

【0003】

全ゲノムにわたって予想される一定の深度でシーケンシングを行うのではなく、シーケンシングのためのゲノムの領域を事前に選択する（したがって、これらの領域でシーケンシングのほとんどを実施する）ことが可能である。エクソームシーケンシングは、遺伝子のエクソンと重複するＤＮＡの短鎖を捕捉し、次いでＤＮＡの短鎖をシーケンシングすることによる、遺伝子のエクソンのシーケンシングをターゲットとする。エクソンは、機能性及び臨床的意義の点から大きく注目されている。エクソンを直接シーケンシングすることで、他のサンプルを参照することなく、特定の個々のサンプルの遺伝的変異を観察することができる。エクソームシーケンシングは、ゲノムの約１％のみをターゲットとするが、全ゲノムシーケンシングと比較して大幅に低いコストで、偏りのない機能的かつアクショナブルな遺伝的変異を返す。

【0004】

シーケンシングストラテジーに代わる手段は、シーケンシングよりも早く大規模に開発されたＤＮＡマイクロアレイ技術を使用して遺伝的変異を観察することである。ＤＮＡマイクロアレイ技術は、ＤＮＡチップにより、例えば、数十万の特異的バリアントを一度にアッセイすることを可能にする。これらの遺伝的バリアントは、通常、全ゲノムにわたる遺伝的変異を表す。ＤＮＡにおける数十万から数百万の可変部位で遺伝的変異を測定するジェノタイピングアレイは、現代のヒト遺伝学を牽引している。各アレイによって測定される可変部位は、典型的に、１つまたは複数の関心集団における一般的な遺伝的変異を表すように選択される。このストラテジーは、直接的な全ゲノムシーケンシングに代わる安価かつ効果的な手段を提供し、現在、毎年数百万のＤＮＡサンプルのジェノタイピングのために使用されている。得られるデータにより、一般利用者向け遺伝学企業は、個人の祖先を推定し、個人をそのＤＮＡ血縁者と照合することができる。これはまた、ゲノムワイド関連研究（ＧＷＡＳ）、ゲノムリスクスコア、及びメンデルランダム化解析を促進し、これらは、循環器疾患及び代謝疾患から精神障害へ、そしてヒトの挙動から老化関連障害及びがんへと多岐にわたる、ヒトの健康及び挙動に関する多様な複合形質の生態に関する多くの知見をもたらしている。

【0005】

アレイ設計のための従来のストラテジーは、既知の一般的な遺伝的バリアントのセットに焦点を当て、これらのバリアントのうち、マルチプレックスジェノタイピング実験において良好に機能することが予想され、かつ他の既知の一般的なバリアントを十分に表すサブセットの識別を試みる。典型的に、各バリアントには、アレイプラットフォームでの期待性能を測定するプローブスコアが割り当てられる。このスコアは、近傍にある他のバリアントの存在、反復性、プローブＤＮＡ配列におけるグアニン－シトシン（ＧＣ）塩基の割合、及び以前のジェノタイピングアレイにおける同様のプローブの性能などの因子を要約するものである。これらの因子の各々が、バリアントをターゲティングするジェノタイピングプローブの性能に影響し得る。プローブの期待性能を要約するこのプローブスコアに加えて、バリアントはまた、それらが表し得る他の一般的なバリアントのリストにマッピングされるのが一般的である。近傍にある他の一般的なバリアントにおける変異を表すバリアントは、これらの追加のバリアントの「プロキシ」または「サロゲート」である。これらのプロキシ関係は、連鎖不均衡として知られるプロセスにより、ヒトゲノムにおける近傍のバリアントの間によく見られる。連鎖不均衡は、遺伝的バリアントが突然変異または移入によって集団に入り、その後、遺伝ならびに組換え及び遺伝子変換によって徐々に広がる結果である。突然変異、移入、遺伝、組換え、及び遺伝子変換は、共に、近傍の遺伝的バリアントを予測可能な組み合わせで生じさせることが多く、この組み合わせは通常、各バリアントが最初に集団に入った祖先染色体を反映する。

【0006】

ＤＮＡマイクロアレイなどのジェノタイピングアレイは、個々のサンプルにおけるバリアントの小さなサブセットのみを観察する。バリアントが直接観察されるジェノタイピングアレイに含めるバリアントのセットを選択することは、最終的には、すべての既知の遺伝的バリアントの大部分の「プロキシ」として機能し得る高い「プローブスコア」を持つ直接観察されるバリアントのセットを選択することを伴う。直接観察されるバリアントからバリアントを間接的に観察する（補完する）ことが可能である。このプロセスは補完と呼ばれる。補完が成功する理由は、同じ染色体上で複数のバリアントが互いに近ければ近いほど、それらが同じ祖先から遺伝した確率が高くなるように、我々の遺伝的変異が遺伝するからである。補完法は、ＤＮＡのセグメントが遺伝する様式の推量を考慮し、直接観察されないバリアントを補完するためにクオリティの高い結果をもたらすことが示されている。このストラテジーは、ヒトにおける一般的な遺伝的変異を良く表すバリアントのリストをもたらすが、複数の遺伝的バリアントを単一のプローブで測定する技術では非効率的でもある。ＤＮＡマイクロアレイアッセイに関するもう１つの問題は、これらが実験室では全く別のプロセスであり、多くのプロセスの複製を必要とするため、実験が非効率になることである。必要とされているのは、全ゲノムにわたってバリアントを補完する能力を保持しながら所望のターゲット領域の直接的なシーケンシングを可能にする、費用対効果の良い実験ストラテジーである。

【発明の概要】

【発明が解決しようとする課題】

【0007】

ジェノタイピング技術は、ほぼ２０年間にわたってほとんど変化していない。アレイは、クオリティの高いデータ及び一貫した結果を低コストで生成するが、労働集約的である。アレイには、全エクソームシーケンシングに使用されるものとは異なる、追加の処理及び機器が必要である。アレイの拡張可能性及びカスタマイズ可能性は限られている。数百万のサンプルの効率的な処理が必要とされている。

【課題を解決するための手段】

【0008】

本開示は、シーケンシングによるジェノタイピングのための核酸プローブを製造する方法であって、ａ）核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントを選択すること、ｂ）複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成すること、ｃ）フィルタリングされた複数の直接観察される遺伝的バリアントをフェージングすること、ｄ）フィルタリングされた複数の直接観察される遺伝的バリアントのうちの各バリアントについて、１つまたは複数のプロキシバリアントの存在または非存在を識別すること、ｅ）フィルタリングされた複数の直接観察される遺伝的バリアントを含むゲノムＤＮＡの複数の候補領域を選択することであって、ゲノムＤＮＡの各候補領域が、約２５～約１５０の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む、選択すること、ｆ）ゲノムＤＮＡの各候補領域について、プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、ｇ）ゲノムＤＮＡの各候補領域について、ゲノムＤＮＡの候補領域によって捕捉されるバリアントの数をクオリティスコアに乗算することにより、プローブスコアを算出することであって、ゲノムＤＮＡの候補領域によって捕捉されるバリアントの数が、ゲノムＤＮＡの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和である、算出すること、ｈ）ゲノムＤＮＡの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムＤＮＡの１つまたは複数の候補領域を選択すること、ｉ）ゲノムＤＮＡの領域の最終セットに含めるために、選択されていないゲノムＤＮＡの候補領域に対してステップｇ）及びｈ）を繰り返すことであって、選択されていないゲノムＤＮＡの候補領域におけるバリアントの数が、１）選択済みのゲノムＤＮＡの領域内のすべての直接観察されるバリアントを除外した、選択されていないゲノムＤＮＡの候補領域における直接観察されるバリアントの数と、２）選択済みのゲノムＤＮＡの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和であり、最大数のゲノムＤＮＡの領域が選択されるまでステップｇ）及びｈ）が繰り返される、繰り返すこと、及びｊ）ゲノムＤＮＡの領域の最終セットの中の各ゲノム領域の核酸配列に相補的な核酸プローブのセットを生成することを含む方法を提供する。

【0009】

本開示は、シーケンシングによりＤＮＡサンプルのジェノタイピングを行う方法であって、ａ）上述のように製造された核酸プローブのセットをＤＮＡサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムＤＮＡを生成すること、ｂ）プローブにハイブリダイズしたゲノムＤＮＡをシーケンシングして、複数のシーケンシングリードを作成すること、ｃ）複数のシーケンシングリードを参照ゲノムにマッピングすること、ｄ）マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすること、及びｅ）ゲノムＤＮＡのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルＤＮＡの遺伝子型を確立することを含む方法も提供する。

【0010】

本開示は、核酸プローブのセットを使用したシーケンシングによりＤＮＡサンプルのジェノタイピングを行う方法であって、ａ）複数の直接観察される遺伝的バリアントを含むＤＮＡサンプルからゲノムＤＮＡの複数の領域を選択すること、ｂ）選択されたゲノムＤＮＡの複数の領域へのハイブリダイゼーションのための核酸プローブのセットを識別すること、ｃ）核酸プローブのセットをＤＮＡサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムＤＮＡを生成すること、ｄ）プローブにハイブリダイズしたゲノムＤＮＡをシーケンシングして、複数のシーケンシングリードを作成すること、ｅ）複数のシーケンシングリードを参照ゲノムにマッピングすること、ｆ）マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすること、及びｇ）ゲノムＤＮＡのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルＤＮＡの遺伝子型を確立することを含む方法も提供する。

【0011】

本特許または出願書類は、カラーで作成された少なくとも１つの図面を含む。カラー図面（複数可）を含む本特許または特許出願公報の複写は、要請及び必要な料金の支払いに応じて特許庁より提供される。

【図面の簡単な説明】

【0012】

【図1】２つの異なる観察［一方は、グローバルスクリーニングアレイ（ＧＳＡ）であり、他方は、本明細書に記載されるシーケンシングによるジェノタイピング手法（ＧｘＳ）である］及び比較のための２つのｉｎｓｉｌｉｃｏバージョン［一方は、観察されたプローブ領域からのプローブにおけるすべてのバリアントを有する「模擬ＧｘＳ」と表記されたものであり、他方は、ＭＥＧＡマイクロアレイ（１．８Ｍのバリアントを含む）によってアッセイされた領域におけるすべてのバリアントを有する「模擬ＭＥＧＡ」と表記されたものである］のバリアントビンによる補完Ｒｓｑを示す。

【図2】各々が設計サイトでカバー率について評価された２２３，２６６のサンプルに対して実行されたシーケンシングによるジェノタイピングアッセイでの９８．９％の平均コール率、及び９５％以上のコール率を有する９９．３％のサンプルを示し、コール率はアクショナブル遺伝子型を有する部位のパーセンテージである。

【発明を実施するための形態】

【0013】

本明細書で提供されるのは、各プローブが、例えば捕捉に基づく「シーケンシングによるジェノタイピング」方法に使用するための複数の遺伝的バリアントをターゲティングすることができる、核酸プローブのセットを効率的に設計するために使用され得る、概略的なストラテジーである。こうした捕捉に基づく「シーケンシングによるジェノタイピング」方法は、ゲノムのうち、複数の既知の遺伝的バリアントを各々が含み得る、複数の短いセグメント（「ターゲット領域」、各々は通常１０から数百の塩基対の長さである）をターゲティングする。個別にターゲティングするバリアントを選択することは、これらの実験では非効率的である。例えば、最悪のシナリオにおいて、各々が独立して選択された１００，０００のバリアントをターゲティングするには、１００，０００の短いターゲット領域が必要であり得る。より望ましいシナリオでは、これら１００，０００のバリアントは一緒にクラスター化され、大幅に少ない数のプローブで捕捉され得る。例えば、より望ましい方法は、２５，０００の短いターゲット領域（各ターゲット領域が平均４つのバリアントを含む場合）または５０，０００の短いターゲット領域（各ターゲット領域が平均２つのバリアントを含む場合）のみを捕捉するとともに、ジェノタイピングされ得る１００，０００のバリアントのセットを識別する。あるいは、プローブのセットは、２００，０００～４００，０００のバリアントを捕捉する、１００，０００の短いターゲット領域を識別し得る（したがって、１００，０００のバリアントを独立して選択した後に選択される１００，０００のターゲット領域よりも大幅に性能が優れている可能性が高い）。

【0014】

本明細書に記載される方法は、大幅に削減されたコスト及び労力で全ゲノムシーケンシングの網羅性に近づくことを目的とする、シーケンシングのためのゲノム領域の小さなセットを識別する。これらの領域は、ターゲットを絞った捕捉実験で良好に機能することが予想されるように選択される。さらに、これらの領域は、合わせて考慮すると、ＧＷＡＳ、祖先の推定、遺伝的血縁者の識別、多遺伝子リスクスコアの推定、及び現在ジェノタイピングアレイに依拠している他の用途のために、ゲノム内の変異を正確に要約する一般的な遺伝的バリアントのセットを含む。

【0015】

本明細書に記載される方法は、ジェノタイピングアレイに代わるシーケンシングに基づく手段を提供する。本明細書に記載される方法は、複数の祖先にわたる、標準的なアレイよりも良好なゲノムのカバー率を提供する。約１．４Ｍなどの多数の一般的なバリアントを選択することで、複数の祖先間での精度の高い補完を可能にすることができる。本明細書に記載される方法は、１以上のシーケンシングリードでサンプル当たり約４．５Ｍ～５．０Ｍの一般的なバリアントをカバーすることもできる。本明細書に記載される試薬は、多様な祖先のサンプルに適用することにより、反復的に洗練されている。本明細書に記載される方法の特徴は、各サンプルの全エクソームシーケンシングと並行してデータを生成すること、１．４Ｍの一般的なバリアントの大部分を選択してゲノム全体の変異の補完を可能にすること、ならびに追加のバリアントが既知のゲノムワイド関連性研究のピーク、ミトコンドリアＤＮＡ、Ｙ染色体、及びＭＨＣをターゲティングすることを含むが、これらに限定されない。本明細書に記載される方法は、サンプル当たり約１．４Ｍのバリアントについて高忠実度の遺伝子型を作成する。これら１．４Ｍのバリアントは、高深度全ゲノムシーケンシングデータと比較して約９８．９％のコール率及び約９９．７％の精度を有する。これら１．４Ｍのバリアントは、ほとんどの用途でアレイ遺伝子型に代わる代替として使用できる。本明細書に記載される方法は、生物情報学的に効率的であり、典型的なエクソーム処理手続きに追加されるＣＰＵ時間は約１０時間未満である。各サンプルを独立して処理し、取り扱うことができる。

【0016】

本明細書に記載されるジェノタイピングのためのシーケンシングに基づく手法は、本明細書に記載されるハイスループットＤＮＡ捕捉技術に基づいて成り立っている。本明細書に記載されるＤＮＡ捕捉方法論は、高度に自動化されており、年間数百万のサンプルを処理するようにスケーリングされている。クオリティの高いエクソームデータ及びジェノタイピングを同時に実行することができるため、結果の統合が容易になる。本明細書に記載される方法には、時間と共に進化し、関心の高い領域またはバリアントのカバー率を改善させることができるという利点もある。本明細書に記載される方法は、価値の高いバリアントにおいて異なる配列カバー率及び精度を実現する。本明細書に記載される方法は、タギングを最大にし、かつ捕捉ターゲットの数を最小にする。本明細書に記載されるプローブセットは、種々のサンプルに対して使用して不良なターゲットを除去／置換することによって検証及び改善されている。プローブは、複数の祖先にわたる遺伝的変異を表すように選択され、実験的に検証されている。プローブセットは、サンプル当たり約１．５Ｍのバリアント部位をターゲティングし、ターゲティングされる部位はゲノムの約２．６％をカバーする。

【0017】

本明細書で使用される用語は、特定の実施形態のみを説明することを目的としており、限定を意図するものではない。
本明細書に記載される方法は、各プローブが、プローブと重複するＤＮＡの短鎖を効率的に捕捉し、同様にアラインされ得るシーケンシングリードを作成し得るような、核酸プローブのセットの選択及び製造を提供する。さらに、本明細書に記載される方法は、近傍の観察されていない遺伝的変異（すなわち、補完されるバリアント）の良好な補完及び／または重要な変異の直接的観察を可能にする遺伝的変異を有するゲノムＤＮＡの領域に焦点を当てる。

【0018】

【0019】

本開示は、シーケンシングによるジェノタイピングのための核酸プローブを設計する方法であって、ａ）核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントを選択すること、ｂ）複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成すること、ｃ）フィルタリングされた複数の直接観察される遺伝的バリアントをフェージングすること、ｄ）フィルタリングされた複数の直接観察される遺伝的バリアントのうちの各バリアントについて、１つまたは複数のプロキシバリアントの存在または非存在を識別すること、ｅ）フィルタリングされた複数の直接観察される遺伝的バリアントを含むゲノムＤＮＡの複数の候補領域を選択することであって、ゲノムＤＮＡの各候補領域が、約２５～約１５０の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む、選択すること、ｆ）ゲノムＤＮＡの各候補領域について、プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、ｇ）ゲノムＤＮＡの各候補領域について、ゲノムＤＮＡの候補領域によって捕捉されるバリアントの数をクオリティスコアに乗算することにより、プローブスコアを算出することであって、ゲノムＤＮＡの候補領域によって捕捉されるバリアントの数が、ゲノムＤＮＡの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和である、算出すること、ｈ）ゲノムＤＮＡの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムＤＮＡの１つまたは複数の候補領域を選択すること、及びｉ）ゲノムＤＮＡの領域の最終セットに含めるために、選択されていないゲノムＤＮＡの候補領域に対してステップｇ）及びｈ）を繰り返すことであって、選択されていないゲノムＤＮＡの候補領域におけるバリアントの数が、１）選択済みのゲノムＤＮＡの領域内のすべての直接観察されるバリアントを除外した、選択されていないゲノムＤＮＡの候補領域における直接観察されるバリアントの数と、２）選択済みのゲノムＤＮＡの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和であり、最大数のゲノムＤＮＡの領域が選択されるまでステップｇ）及びｈ）が繰り返される、繰り返すことを含む方法も提供する。

【0020】

本件の方法は、核酸プローブによって捕捉するための複数の遺伝的バリアントを選択することを含む。これらの選択されたバリアントは、所望の「直接観察される遺伝的バリアント」のセットを構成する。「直接観察される遺伝的バリアント」または「直接観察されるバリアント」は、少なくとも１つのプローブのハイブリダイゼーションによって捕捉され、後にシーケンシングされる、ゲノムＤＮＡに存在するバリアントである。直接観察されるバリアントは、補完されるバリアントを含む残りの遺伝的バリアントとは異なる。補完されるバリアントはいずれも、同じゲノムＤＮＡに存在する可能性が高いが、少なくとも１つのプローブのハイブリダイゼーションによって捕捉されず、したがって、補完されるバリアントは、後にシーケンシングされない。ゲノムＤＮＡ及びその後のシーケンシングにおける直接観察されるバリアントの存在が、補完されるバリアントの補完を可能にする。

【0021】

核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントは、任意の所望の数の既知の一般的なバリアントを含み得る。例えば、Ｍ個の既知の遺伝的バリアントのセットは、Ｖ_１、Ｖ_２、Ｖ_３…Ｖ_Ｍと考えることができる。指数ｍ及びｎは、１からＭの間で変化し、個々のバリアントを指定するために使用される。各バリアントＶ_ｍは、既知の染色体位置Ｐ_ｍ及びアレルＡ_ｍのセットを有し、各バリアントＶ_ｎは、既知の染色体位置Ｐ_ｎ及びアレルＡ_ｎのセットを有する。いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、ありとあらゆる既知の一般的なバリアントを含む。いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、遺伝的バリアントのゲノムワイド関連性のデータベース、遺伝的バリアントの遺伝薬理学的関連性のデータベース、全ミトコンドリア染色体内の遺伝的バリアントを含むデータベース、及び／またはマイクロアレイ内の遺伝的バリアントのデータベース、あるいはそれらのいずれかの組み合わせから選択される。

【0022】

いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、遺伝的バリアントのゲノムワイド関連性の１つまたは複数のデータベースから選択される。遺伝的バリアントのゲノムワイド関連性のデータベースのいずれも、含めるための１つまたは複数の直接観察される遺伝的バリアントの識別のために使用され得る。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベースは、既知のゲノムワイド関連性ヒットのカタログである（例えば、「ｅｂｉ．ａｃ．ｕｋ／ｇｗａｓ／」のワールドワイドウェブを参照のこと）。いくつかの実施形態では、ソースファイルは「ｇｗａｓ＿ｃａｔａｌｏｇ＿ｖ１．０．２－ａｓｓｏｃｉａｔｉｏｎｓ＿ｅ９６＿ｒ２０１９－０７－３０．ｔｓｖ．」であった。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース内のすべてのバリアントが選択されるわけではない。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントは、形質とのバリアントの関連性がｐ値≦１０^－９を有する場合、複数の直接観察される遺伝的バリアントに入るように選択される。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントは、形質との関連性がｐ値＞１０^－９を有する場合、複数の直接観察される遺伝的バリアントから除外される。いくつかの実施形態では、このＰ値解析は、Ｙ染色体及びミトコンドリア染色体に存在するバリアントを除外する。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース（複数可）から選択されるバリアントの数は、約３０，０００～約４５，０００である。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース（複数可）から選択されるバリアントの数は、約３５，０００～約４０，０００である。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連のデータベースから選択されるバリアントの数は、約３８，０００である。遺伝的バリアントのゲノムワイド関連性のデータベース（複数可）から選択されるバリアントの数は、時間と共に変化すると予想される。

【0023】

いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、遺伝的バリアントの遺伝薬理学的関連性の１つまたは複数のデータベースから選択される。遺伝的バリアントの遺伝薬理学的関連性のデータベースのいずれも、含めるための１つまたは複数の直接観察される遺伝的バリアントの識別のために使用され得る。いくつかの実施形態では、遺伝的バリアントの遺伝薬理学的関連性のデータベースは、ＰｈａｒｍＧＫＢによって遺伝薬理学的関連性について発表されたデータである。いくつかの実施形態では、ｄｂＳＮＰ内にあり、薬理遺伝学的に関心のある遺伝子と重複する一塩基多型（ＳＮＰ）として観察されるすべての部位が含まれる。いくつかの実施形態では、遺伝的バリアントの遺伝薬理学的関連性のデータベース（複数可）から選択されるバリアントの数は、約２，０００～約１０，０００である。いくつかの実施形態では、遺伝的バリアントの遺伝薬理学的関連性のデータベース（複数可）から選択されるバリアントの数は、約４，０００～約６，０００である。いくつかの実施形態では、遺伝的バリアントの遺伝薬理学的関連性のデータベース（複数可）から選択されるバリアントの数は、約５，０００である。

【0024】

いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、全ミトコンドリア染色体内の遺伝的バリアントを含む１つまたは複数のデータベースから選択される。全ミトコンドリア染色体内の遺伝的バリアントを含むデータベースのいずれも、含めるための１つまたは複数の直接観察される遺伝的バリアントの識別のために使用され得る。いくつかの実施形態では、全ミトコンドリア染色体は、端から端までタイル状に並べられる。

【0025】

いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、１つまたは複数のマイクロアレイ内の遺伝的バリアントの１つまたは複数のデータベースから選択される。マイクロアレイ内の遺伝的バリアントのデータベースのいずれも、含めるための１つまたは複数の直接観察される遺伝的バリアントの識別のために使用され得る。例示的なデータベースは、ＵＫＢｉｏｂａｎｋによって使用されているマイクロアレイ上のバリアントである。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、６番染色体のＨＬＡ領域、Ｙ染色体、１９番染色体上の２つのキラー細胞免疫グロブリン様受容体（ＫＩＲ）領域、ならびにＸ染色体上の偽常染色体領域１及び２（Ｐａｒ１及びＰａｒ２）における遺伝的バリアントを含む。

【0026】

いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、６番染色体のＨＬＡ領域における遺伝的バリアントを含む。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、Ｃｈｒ６：２８０１１４１０－３３９７８１１９として定義される、６番染色体のＨＬＡ領域における遺伝的バリアントを含む。当然ながら、代替のヒトゲノムアセンブリにおける均等な座標も本明細書に含まれる。

【0027】

いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、Ｙ染色体における遺伝的バリアントを含む。
いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、１９番染色体上の２つのＫＩＲ領域における遺伝的バリアントを含む。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、Ｃｈｒ１９：５３９６１１４４－５５３６７１５３及びＣｈｒ１９：１１０７８３－７６０８０９として定義される、１９番染色体上の２つのＫＩＲ領域における遺伝的バリアントを含む。当然ながら、代替のヒトゲノムアセンブリにおける均等な座標も本明細書に含まれる。

【0028】

いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、Ｘ染色体上のＰａｒ１及びＰａｒ２における遺伝的バリアントを含む。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、ＣｈｒＸ：１０４２５－２７７４６６９及びＣｈｒＸ：１５５７０４０３０－１５６００３４５０として定義される、Ｘ染色体上のＰａｒ１及びＰａｒ２における遺伝的バリアントを含む。当然ながら、代替のヒトゲノムアセンブリにおける均等な座標も本明細書に含まれる。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベース（複数可）から選択されるバリアントの数は、約７００，０００～約９００，０００である。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベース（複数可）から選択されるバリアントの数は、約８００，０００～約８５０，０００である。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベース（複数可）から選択されるバリアントの数は、約８３０，０００である。

【0029】

いくつかの実施形態では、マルチアレルバリアントが、バイアレルバリアントの１つまたは複数のセットに変換される。変換には２つのステップがあり、１つのステップでは抄録のバリアントの変換が行われ、別のステップでは個々の遺伝子型の変換が行われる。いくつかの実施形態では、元のマルチアレルバリアントのマルチアレル遺伝子型が、分解された遺伝的バリアントの各々のバイアレル遺伝子型に変換されて、遺伝的バリアント間の連鎖不平衡係数及びプロキシ関係の推定が可能になる。本明細書に記載される方法は、マルチアレルバリアントの各々を、すべてに同じ染色体位置が割り当てられているが異なるアレルが割り当てられている一連のバイアレルバリアントに分解することにより、マルチアレルバリアントに対応することができる。例えば、特定のマルチアレルバリアントが１つの参照アレル及び３つの代替アレルを有する場合、マルチアレルバリアントは、３セットのバイアレルバリアント（すなわち、参照アレル及び第１の代替アレル、参照アレル及び第２の代替アレル、ならびに参照アレル及び第３の代替アレル）に変換される。

【0030】

いくつかの実施形態では、起こり得る補完の成功についてのメトリックを算出するために、１０００人ゲノムプロジェクト（１ＫＧと表記される）の全ゲノムシーケンシングデータセットを調達した。２６の異なる集団からの２，５０４サンプルの高カバー率（３０ｘ）シーケンシングは、ＮｅｗＹｏｒｋＧｅｎｏｍｅＣｅｎｔｅｒによって２０１９年５月に商用利用のために発表された（「ｉｎｔｅｒｎａｔｉｏｎａｌｇｅｎｏｍｅ．ｏｒｇ／ｄａｔａ－ｐｏｒｔａｌ／ｄａｔａ－ｃｏｌｌｅｃｔｉｏｎ／３０ｘ－ｇｒｃｈ３８」のワールドワイドウェブを参照のこと）。

【0031】

本件の方法は、複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成することも含む。複数の直接観察される遺伝的バリアントからの低信頼度バリアントの排除は、選択されるバリアントを信頼度の高いバリアントに限定するためのクオリティ管理として役立つ。いくつかの実施形態では、複数の潜在的な直接観察される遺伝的バリアントから低信頼度バリアントを排除すると、約１５００万のバリアントが保持される。複数の直接観察される遺伝的バリアントからの低信頼度バリアントの排除には、以下のいずれか１つまたは複数が含まれ得る。

【0032】

いくつかの実施形態では、複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することは、所望の閾値未満のマイナーアレル頻度（ＭＡＦ）を有するすべてのバリアントを排除することを含む。例えば、アレル頻度範囲は、ｆ_ｍｉｎからｆ_ｍａｘと考えることができる。Ｖにおけるバリアントは、ｆ_ｍｉｎ以上ｆ_ｍａｘ以下のマイナーアレル頻度を有するバリアントに制限され得る。例えば、ｆ_ｍａｘは、０．５０とすることができる。さらに、ｆ_ｍｉｎは、１％（０．０１）または５％（０．０５）とすることができる。いくつかの実施形態では、所望の閾値は１％（０．０１）である。いくつかの実施形態では、このＭＡＦ閾値を０．１％（０．００１）まで下げることができる。

【0033】

いくつかの実施形態では、複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することは、所望の閾値を超える欠測があるすべてのバリアントを排除することを含む。いくつかの実施形態では、所望の閾値は２％である。

【0034】

いくつかの実施形態では、複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することは、サンプル集団のいずれかにおいてＨａｒｄｙ－Ｗｅｉｎｂｅｒｇ検定でＰ値＜１０^－８の関連性を有するバリアントを除外することを含む。

【0035】

本件の方法は、フィルタリングされた複数の潜在的な直接観察される遺伝的バリアントをフェージングすることも含む。いくつかの実施形態では、本件の方法は、１０００ゲノムサンプルまたは別の参照パネルで観察されるすべてのバリアントをフェージングすることを含む。これらのバリアントのフェージングは、方法及びアルゴリズムが、より良好に機能する「直接観察されるバリアント」及び「プローブ」を選択するために役立つ。フェージングは、サンプルごとに２つの染色体の各々におけるバリアントの配列の最良の推定値を作成する。１０００ゲノム参照パネル（または参照個体の別のパネル）におけるバリアントをフェージングすると、欠測データの取り扱いならびにバリアント間の連鎖不均衡及びプロキシ関係の推定値が改善される。これに対し、ジェノタイピングには、両染色体の組み合わせにおける特定のアレルのカウントに関する情報しかない。例えば、アレルカウント０，１，２，２，１，１の配列は、各染色体上の２つの配列を表す２つのバイナリ配列０，１，１，１，１，１及び０，０，１，１，０，０としてフェージングされ得る。遺伝子型コールのフェージングは、ＳＨＡＰＥＩＴ４（「ｏｄｅｌａｎｅａｕ．ｇｉｔｈｕｂ．ｉｏ／ｓｈａｐｅｉｔ４／」のワールドワイドウェブを参照のこと）などの市販のソフトウェアにより、すべての通常のデフォルトを使用して実施することができる。

【0036】

本件の方法は、フィルタリングされた複数の直接観察される遺伝的バリアントのうちの直接観察されるバリアントの各々について、１つまたは複数のプロキシバリアントの存在または非存在を識別することも含む。フィルタリングされた複数の直接観察される遺伝的バリアントのうちのバリアントの各々は、潜在的に、プローブされもシーケンシングされもしない他のバリアントのプロキシ（すなわち、プロキシバリアント）である可能性がある（すなわち、プロキシバリアントは、直接観察されるバリアントの存在に基づいて、サンプルＤＮＡゲノムへと補完される）。これらのプロキシ関係は、連鎖不均衡により、ヒトゲノムにおける近傍のバリアントの間によく見られる。例えば、２つのバリアント間のプロキシ関係を記述するために、バリアントＶ_ｍとＶ_ｎとの間の連鎖不均衡関係を記述するエントリＲ_ｍｎを含む行列Ｒを使用することができる。バリアント間の連鎖不均衡の好適な尺度はいくつも存在し、本明細書に記載される方法において使用することができる。いくつかの実施形態では、直接観察される遺伝的バリアント及びプロキシバリアントが互いから１ＭＢ以内にあるとき、また、２つのバリアント間の連鎖不均衡が、連鎖不均衡のｒ^２尺度を使用して所望の閾値（ｔ）を超える相関の二乗を有する場合に、フィルタリングされた複数の直接観察される遺伝的バリアントにおけるバリアントは、ゲノムＤＮＡの別の領域内に対応するプロキシバリアントを有する。調整可能なパラメータｔは、２つのバリアントが互いのプロキシとみなされ得る前に必要とされる連鎖不均衡の最小量を表す。いくつかの実施形態では、２つのバリアント間の連鎖不均衡は、連鎖不均衡のｒ^２尺度を使用して少なくとも０．２の相関の二乗（ｔ）を有する。いくつかの実施形態では、２つのバリアント間の連鎖不均衡は、連鎖不均衡のｒ^２尺度を使用して少なくとも０．５の相関の二乗（ｔ）を有する。いくつかの実施形態では、２つのバリアント間の連鎖不均衡は、連鎖不均衡のｒ^２尺度を使用して少なくとも０．８の相関の二乗（ｔ）を有する。いくつかの実施形態では、２つのバリアント間の連鎖不均衡は、連鎖不均衡のｒ^２尺度を使用して少なくとも０．９の相関の二乗（ｔ）を有する。いくつかの実施形態では、２つのバリアント間の連鎖不均衡は、連鎖不均衡のｒ^２尺度を使用して少なくとも１．０の相関の二乗（ｔ）を有する。いくつかの実施形態では、プロキシバリアントは、それに対応する直接観察されるバリアントと比較して、ゲノムＤＮＡの別の候補領域に存在する。したがって、Ｒ_ｍｎの値がｔより大きいとき、２つのバリアントＶ_ｍ及びＶ_ｎは互いのプロキシである。

【0037】

典型的に、既知の遺伝的バリアントのセットＶ及びそれらの連鎖不均衡関係Ｒは、個体の小さなセットのシーケンシングまたはジェノタイピングによって推定することができる。シーケンシングのために選択される領域のクオリティは、このセット内の個体の数が増加するにつれて改善する。さらに、このセットの個体は多様な祖先をもつべきであるか、または、少なくとも、選択されるターゲット領域を使用して研究される個体の祖先構成と一致することが望ましい。

【0038】

いくつかの実施形態では、直接観察されるバリアントの各々について、１つまたは複数のプロキシバリアントの存在または非存在を識別することは、連鎖不均衡に関するソフトウェアによって行うことができる。そのような例の１つは、通常のデフォルトを使用するｅｍｅｒａＬＤである（「ｇｉｔｈｕｂ．ｃｏｍ／ｓｔａｔｇｅｎ／ｅｍｅｒａＬＤ」のワールドワイドウェブを参照のこと）。このようなソフトウェアを使用することで、互いの１Ｍｂ以内にあり、所望の閾値ｔを超える相関の二乗を有するバリアントのペアのリストを生成することができる。

【0039】

本件の方法は、核酸プローブによって捕捉するためのゲノムＤＮＡの複数の候補領域（すなわち、ターゲット領域）を選択することも含む。１つの目標は、ゲノムＤＮＡのＫ個の候補領域のセット、Ｔ＝Ｔ_１、Ｔ_２、Ｔ_３、…Ｔ_Ｋを識別することである。指数ｋは、１からＫの間で変化し、ゲノムＤＮＡの個々の候補領域を指定するために使用することができる。ゲノムＤＮＡの各候補領域Ｔ_ｋは、開始位置のＳｔａｒｔ（Ｔ_ｋ）と、終了位置のＥｎｄ（Ｔ_ｋ）と、対応するプローブスコアのＳｃｏｒｅ（Ｔ_ｋ）とを有し、プローブスコアは、ターゲットを絞った実験におけるゲノムＤＮＡの候補領域の期待性能を表す。ゲノムＤＮＡの候補領域は、フィルタリングされた複数の直接観察される遺伝的バリアントを含む。

【0040】

調整可能なパラメータＬは、ゲノムＤＮＡの各候補領域の最大許容長を定義し、これは、ゲノムＤＮＡの候補領域の開始位置Ｓｔａｒｔ（Ｔ_ｋ）と終了位置Ｅｎｄ（Ｔ_ｋ）との間の塩基の距離である。Ｌ＝１に設定すると、標準的なアレイを設計するために使用されることの多いペアワイズタギングアルゴリズムに類似したストラテジーがもたらされる。これに対し、本明細書に記載される本件の方法では、２５～１５０の範囲のＬを使用することができる。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約２５～約１５０の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約３５～約１４０の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約４５～約１３０の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約５５～約１２５の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約６５～約１２５の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約７５～約１２５の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約８５～約１２５の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約９５～約１２５の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約１０５～約１２５の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも１つのバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの各候補領域は、約１２０～約１２５の塩基を含む。

【0041】

いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域は、約５００万～約５０００万のバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域は、約１０００万～約４０００万のバリアントを含む。いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域は、約２０００万～約３０００万のバリアントを含む。

【0042】

いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域の全体は、約１００万～約１億の塩基対を含む。いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域の全体は、約５００万～約７５００万の塩基対を含む。いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域の全体は、約１０００万～約５０００万の塩基対を含む。いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域の全体は、約２０００万～約４０００万の塩基対を含む。

【0043】

いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域は、別個の解析群に分割される。いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域は、別個の染色体解析群に分割される。

【0044】

いくつかの実施形態では、ゲノムＤＮＡの複数の候補領域は、フィルタリングされた複数の直接観察される遺伝的バリアントの中の２つ以上の直接観察されるバリアントを含む。例えば、１２０塩基を含むゲノムＤＮＡの候補領域は、４つの直接観察されるバリアント（すなわち、Ｖ_１、Ｖ_２、Ｖ_３、及びＶ_４）を含むことがある。このシナリオでは、４つの直接観察されるバリアントの各々が、核酸プローブセットでプローブされるＤＮＡの領域に存在する。ゲノムＤＮＡの１２０塩基の候補領域は、最初のバリアントの位置で開始し得る（すなわち、Ｖ_１…Ｖ_２…Ｖ_３…Ｖ_４…）。ゲノムＤＮＡの１２０塩基の候補領域は、最後のバリアントの位置で終了し得る（すなわち、…Ｖ_１…Ｖ_２…Ｖ_３…Ｖ_４）。あるいは、ゲノムＤＮＡの１２０塩基の候補領域は、これらのバリアント位置以外の位置で開始及び終了してもよい（すなわち、…Ｖ_１…Ｖ_２…Ｖ_３…Ｖ_４…）。１２０塩基を含み、直接観察されるバリアントを含むゲノムＤＮＡの候補領域は、多数の異なるものが存在し得る（すなわち、候補領域の開始位置をシフトすることによる）。したがって、１２０塩基を含む、ゲノムＤＮＡの複数の異なる候補領域が、同じ直接観察されるバリアント（複数可）を含むことができる。

【0045】

本件の方法は、ゲノムＤＮＡの各候補領域について、それにハイブリダイズするプローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出することも含む。クオリティスコアは、どのプローブ（及びゲノムＤＮＡの対応する候補領域）を避けるべきかを決定するために使用することができる。上述のように、１２０塩基を含むゲノムＤＮＡの複数の異なる候補領域が、同じ直接観察されるバリアント（複数可）を含むことができ、したがって、クオリティスコアは、同じ直接観察されるバリアント（複数可）を含むゲノムＤＮＡのこれらの候補領域の各々について算出される。さらに、異なる直接観察されるバリアント（複数可）を含むゲノムＤＮＡの他の候補領域の各々について、クオリティスコアが算出される。いくつかの実施形態では、クオリティスコアを算出することは、ゲノムＤＮＡの候補領域のマッピング可能性メトリック、挿入－欠失メトリック、及び分類メトリックの各々についての成分スコアを決定することを含む。クオリティスコアは、これら３種の情報を組み合わせることで、ＤＮＡの適切な鎖の捕捉において良好に機能するプローブ及び後のシーケンシングリードの逆マッピングを可能にし、挿入－欠失多型または変異を含む領域を避け、また、配列組成及び一意性の関数として推定することができるＤＮＡへのプローブハイブリダイゼーションの期待性能に従って良好に機能する領域を優先的に選択することを目標とする。ゲノムＤＮＡの各候補領域のクオリティスコアは、ゲノムＤＮＡのその候補領域についての成分スコアの各々の乗算の積である。最終結果は、プローブ成功の確率と相関する０～１のクオリティスコアである。成分スコアのいずれかがゼロであれば、総合的クオリティスコアもゼロになる。

【0046】

いくつかの実施形態では、マッピング可能性メトリック（またはマルチリードマッピング可能性メトリック）は、所与の領域における長さｋのランダムに選択されたリードが一意にマッピング可能である確率である。いくつかの実施形態では、マッピング可能性メトリックは、ＵＭＡＰメトリックである。いくつかの実施形態では、マッピング可能性メトリックの成分スコアは、マルチリードマッピング可能性メトリック（位置ｉについてＵｍａｐＭＲＭ_ｉと表記される）の１０倍の指数関数である。いくつかの実施形態では、マッピング可能性メトリックの成分スコアは、ｅｘｐ（１０×ＵｍａｐＭＲＭ_ｉ－９）であり、ここで、ＵｍａｐＭＲＭ_ｉは、ゲノムＤＮＡの候補領域内のバリアント位置ｉのマルチリードマッピング可能性メトリックである。いくつかの実施形態では、ＵＭＡＰマッピングメトリック、特に１００ｂｐマルチリードマッピング可能性メトリックは、ゲノム全体で事前に算出され、ダウンロード可能な表にまとめられている（「ｂｉｓｍａｐ．ｈｏｆｆｍａｎｌａｂ．ｏｒｇ／」のワールドワイドウェブを参照のこと）。

【0047】

いくつかの実施形態では、挿入－欠失メトリックは、ゲノムＤＮＡの候補領域内の塩基の挿入または欠失（例えば、挿入－欠失多型または変異）の存在または非存在の尺度である。挿入－欠失は、位置ｉが挿入－欠失変異に連結されているかのように含まれ、次いでこの位置がダウンウェイトされる。いくつかの実施形態では、挿入－欠失変異の成分スコアは、ｅｘｐ（ＳＶｓｃｏｒｅ_ｉ）である。いくつかの実施形態では、バリアント位置ｉが挿入－欠失変異に連結していない場合、または５塩基未満の挿入－欠失変異に連結している場合、ＳＶｓｃｏｒｅ_ｉは２である。いくつかの実施形態では、バリアント位置ｉが５塩基以上１０塩基以下の挿入－欠失変異（例えば、中サイズの挿入－欠失バリアント）に連結している場合、ＳＶｓｃｏｒｅ_ｉは１である。いくつかの実施形態では、バリアント位置ｉが１０塩基を超える挿入－欠失変異（例えば、大サイズの挿入－欠失）に連結している場合、ＳＶｓｃｏｒｅ_ｉは０である。いくつかの実施形態では、バリアント位置が挿入－欠失バリアントの近くにない場合、ＳＶｓｃｏｒｅ_ｉは２であり、バリアント位置が≧５かつ＜１０塩基の挿入－欠失バリアントの近くにある場合、ＳＶｓｃｏｒｅ_ｉは１であり、バリアント位置が≧１０塩基の挿入－欠失バリアントの近くにある場合、ＳＶｓｃｏｒｅ_ｉは０である。調整可能なパラメータは、ゲノムＤＮＡの候補領域に含まれる挿入－欠失多型の最大長を定義することができる。この調整可能なパラメータは、ターゲティングに使用されるプローブと、調査される各サンプルに存在する配列との間のミスマッチに対する許容度に依存し得る。

【0048】

いくつかの実施形態では、ゲノムＤＮＡの候補領域の分類メトリックは、第１のカテゴリ（例えば、性能が最も不良なカテゴリ）、第２のカテゴリ（例えば、性能が不良なカテゴリ）、第３のカテゴリ（例えば、性能が不十分なカテゴリ）、及び第４のカテゴリ（例えば、性能が良好なカテゴリ）を含む。最も良好な性能から最も不良な性能への順序は、第４のカテゴリ、第３のカテゴリ、第２のカテゴリ、及び第１のカテゴリである。いくつかの実施形態では、分類メトリックの第１の成分スコアは、ｅｘｐ（Ｒｅｇｉｏｎ＿ｓｃｏｒｅ_ｉ）である位置によるスコアであり、これにより、第１のカテゴリのバリアント位置ｉは０としてスコア付けされ、第２のカテゴリのバリアント位置ｉは１としてスコア付けされ、第３のカテゴリのバリアント位置ｉは１．６としてスコア付けされ、第４のカテゴリのバリアント位置ｉは２としてスコア付けされる。いくつかの実施形態では、分類メトリックの最小絶対距離スコアである第２の成分スコアは、

【0049】

【数1】

【0050】

であり、ここで、ｄｉｓｔ２ｃａｔｅｇｏｒｙ１_ｉは、第１のカテゴリのバリアント位置ｉから領域までの最小絶対距離である。いくつかの実施形態では、分類メトリックの第３の成分スコアは、

【0051】

【数2】

【0052】

であり、ここで、ｄｉｓｔ２ｃａｔｅｇｏｒｙ２_ｉは、第２のカテゴリのバリアント位置ｉから領域までの最小絶対距離である。これら２つの成分スコアは、プローブから作成されるリードが不良なアラインメントを有し得るように、カテゴリ１またはカテゴリ２（すなわち、不良な領域または最も不良な領域）ではないが非常に近いプローブをダウンウェイトする。

【0053】

いくつかの実施形態では、ゲノムＤＮＡの特定の候補領域を特定のカテゴリに入れるために使用される形質は、対応する相補的プローブ／プライマーの％ＧＣ含量であり得る。例えば、プローブ／プライマーの％ＧＣ含量は、約４０％～約５５％であることが望ましい。したがって、いくつかの実施形態では、第１のカテゴリは、％ＧＣ含量が約４０％未満の対応するプローブ／プライマーを有し得、第２のカテゴリは、％ＧＣ含量が５５％超の対応するプローブ／プライマーを有し得、第３のカテゴリは、％ＧＣ含量が約５０％～約５５％の対応するプローブ／プライマーを有し得、第４のカテゴリは、％ＧＣ含量が約４０％～約５５％の対応するプローブ／プライマーを有し得る。ゲノムＤＮＡの特定の候補領域をカテゴリ分けするために使用できる追加の形質は、プライマー／プローブの融解温度、プライマー／プローブのアニーリング温度、ＧＣクランプの存在または非存在、３’末端の安定性などを含むが、これらに限定されない。これらの形質の各々は、ユーザの所望の優先傾向に基づいて４つのカテゴリに分割され得る。

【0054】

総合的クオリティスコアは、５つの成分スコアの乗算の積である。いくつかの実施形態では、ゲノムＤＮＡの各候補領域のクオリティスコアは、最大スコア（ｅｘｐ（５）×１．２^２；またはおよそ２１３．７１４９である）で除算することによって０～１にスケーリングされ、それにより、ゲノムＤＮＡの各候補領域のクオリティスコアが作成される。

【0055】

総合的クオリティスコアに関して、ゲノムＤＮＡの特定の候補領域に対してどのプローブを選択するかについて下される決断は相対的であり得る。したがって、多くの近傍のプローブのスコアを下げる領域的特性（ＧＣ含量など）は、必ずしもその領域を考慮から除外するとは限らない。むしろ、我々の方法は、そのような領域で利用可能な最適なプローブの選択を試みる。さらに、クオリティスコアは、ゲノム全体で均等に分布しているプローブを優先するメトリックを含むこともできる。

【0056】

本件の方法は、ゲノムＤＮＡの各候補領域についてプローブスコアを算出することも含む。いくつかの実施形態では、プローブスコアは、ゲノムＤＮＡの候補領域によって捕捉されるバリアントの数をクオリティスコアに乗算することによって算出される。例えば、ゲノムＤＮＡの各候補領域Ｔ_ｋは、遺伝的バリアントのセットと重複する可能性があり、これはＯｖｅｒｌａｐＳｅｔ（Ｔ_ｋ）と呼ぶことができ、Ｓｔａｒｔ（Ｔ_ｋ）とＥｎｄ（Ｔ_ｋ）との間に位置するすべての遺伝的バリアントを含む。ゲノムＤＮＡの各候補領域Ｔ_ｋは、それが直接重複するバリアントに加えて、ＯｖｅｒｌａｐＳｅｔ（Ｔ_ｋ）にプロキシを有するバリアントも捕捉する。このセットを領域Ｔ_ｋのプロキシセットと呼ぶことができ、これはＰｒｏｘｙＳｅｔ（Ｔ_ｋ）と呼ぶことができ、ＯｖｅｒｌａｐＳｅｔ（Ｔ_ｋ）におけるすべてのバリアントだけでなく、Ｒ_ｍｎ＞ｔとなるようにＯｖｅｒｌａｐＳｅｔ（Ｔ_ｋ）内に対応するバリアントｎが存在する他のバリアントｍのすべてを含む。したがって、いくつかの実施形態では、ゲノムＤＮＡの候補領域によって捕捉されるバリアントの数は、ゲノムＤＮＡの候補領域によって捕捉される直接観察される（すなわち、プローブにハイブリダイズされる候補領域内の）バリアントの数と、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和である。

【0057】

例えば、ゲノムＤＮＡの特定の候補領域が、３つの直接観察されるバリアント（すなわち、Ｖ_１、Ｖ_２、及びＶ_３）を含み、Ｖ_１が、２つの対応するプロキシバリアントＰＶ_ａ及びＰＶ_ｂをゲノムＤＮＡの異なる候補領域内に有し、Ｖ_２が、４つの対応するプロキシバリアントＰＶ_ｃ、ＰＶ_ｄ、ＰＶ_ｅ、及びＰＶ_ｆをゲノムＤＮＡの異なる候補領域内に有し、Ｖ_３が、５つの対応するプロキシバリアントＰＶ_ｇ、ＰＶ_ｈ、ＰＶ_ｉ、ＰＶ_ｊ、及びＰＶ_ｋをゲノムＤＮＡの異なる候補領域に有すると仮定すると、ゲノムＤＮＡの候補領域によって捕捉される直接観察されるバリアントの数は３（すなわち、Ｖ_１、Ｖ_２、及びＶ_３）であり、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数は１１（すなわち、ＰＶ_ａ、ＰＶ_ｂ、ＰＶ_ｃ、ＰＶ_ｄ、ＰＶ_ｅ、ＰＶ_ｆ、ＰＶ_ｇ、ＰＶ_ｈ、ＰＶ_ｉ、ＰＶ_ｊ、及びＰＶ_ｋ）である。したがって、ゲノムＤＮＡの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和は、１４である。したがって、ゲノムＤＮＡのこの特定の候補領域のプローブスコアは、クオリティスコアと１４との乗算の積である。

【0058】

本件の方法は、ゲノムＤＮＡの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムＤＮＡの１つまたは複数の候補領域を選択することも含む。いくつかの実施形態では、最も高いプローブスコアを有するゲノムＤＮＡの単一の候補領域が、ゲノムＤＮＡの領域の最終セットに含めるために選択される。いくつかの実施形態では、最も高いプローブスコアを有するゲノムＤＮＡの２つ以上の候補領域が、ゲノムＤＮＡの領域の最終セットに含めるために選択される。いくつかの実施形態では、最も高いプローブスコアを持つゲノムＤＮＡの候補領域が複数存在する場合、ゲノム全体でより均等な間隔をおいたゲノムＤＮＡの候補領域（複数可）が選択される。

【0059】

実験的に測定するゲノムＤＮＡの候補領域のセットを選択する際、１つの目標は、Ｔ内の領域の数を最小にして、総合的プローブスコアＳｃｏｒｅ（Ｔ_ｋ）によって要約されるこれらの領域の総合的クオリティを最大にし、ゲノムＤＮＡの候補領域のＰｒｏｘｙＳｅｔ（Ｔ_ｋ）の和集合で捕捉されるバリアントの数を最大にすることである。同様に機能するゲノムＤＮＡの候補領域のセットが複数存在する場合、ゲノム全体で均等な間隔をおいたゲノムＤＮＡの候補領域のセットは、実際には代替よりも性能が優れていると思われるため、これらの均等な間隔をおいたゲノムＤＮＡの候補領域のセットを優先することができる。

【0060】

本明細書に記載されるように、本明細書に記載される方法における一ステップは、評価されるゲノムＤＮＡの候補領域のセットの識別である。ヒトゲノムはおよそ３０億塩基対の長さであるため、長さＬのゲノムＤＮＡの潜在的な候補領域が３×１０^９個ほど存在する可能性がある（Ｌがゲノムサイズに比して小さい場合）。潜在的に選択される候補バリアントの数は大幅に小さく、典型的にはバリアント５～５０００万個ほどである（バリアントのアレル頻度範囲に依存する）。ゲノムＤＮＡの候補領域のリストには、各バリアントについてのゲノムＤＮＡの推奨候補領域がシードされる。このゲノムＤＮＡの推奨候補領域には、このバリアントと、その右側の塩基対Ｌ個以内にあるすべてのバリアントとが含まれる。この基準を満たすゲノムＤＮＡのすべての可能な候補領域の中で、最も高いプローブスコアＳｃｏｒｅ（Ｔ_ｋ）を有するゲノムＤＮＡの推奨候補領域に焦点が当てられる。塩基対Ｌ個分右側にあるが、より高い領域プローブスコアを有するバリアントのサブセットのみを含む領域も考慮することにより、性能の改善が可能である。例えば、バリアントＶ_ｍならびに３つの追加のバリアントＶ_ｍ＋１、Ｖ_ｍ＋２、及びＶ_ｍ＋３がすべて、その右側の塩基対Ｌ個分以内にある場合。普遍性を失うことなく、３つのバリアントを座標に従って左から右にソートすることができる。Ｖ_ｍ、Ｖ_ｍ＋１、Ｖ_ｍ＋２、及びＶ_ｍ＋３を含み、最も高い可能なスコアを有する候補領域を識別することができる。Ｖ_ｍ、Ｖ_ｍ＋１、及びＶ_ｍ＋２のみ、またはＶ_ｍ及びＶ_ｍ＋１のみを含む最高スコアの候補領域を識別することもできる。これらの追加の領域は、それらのプローブスコアが、Ｖ_ｍ、Ｖ_ｍ＋１、Ｖ_ｍ＋２、及びＶ_ｍ＋３を含む最高スコアの領域のプローブスコアよりも高い場合にのみ、ゲノムＤＮＡの潜在的な候補領域のリストに追加される。これらの追加の領域が低い領域プローブスコアを有する場合、それらがプロキシとして機能するバリアントのリストは常に、よりスコアの高い領域がプロキシできる領域のリストよりも小さいかそれと等しくなるため、それらは決して選択されず、安全に無視することができる。この任意選択のステップにより、各反復で考慮する必要があるゲノムＤＮＡの候補領域の数が数十億から数百万に低減し、計算時間が大幅に節約される。

【0061】

いくつかの実施形態では、追加の調整可能なパラメータを使用して、ゲノムＤＮＡの候補領域ごとに許容されるバリアントの最大数を定義することができる。いくつかの実施形態では、ゲノムＤＮＡの候補領域が、所望の閾値よりも多くの直接観察されるバリアントを含む場合、ゲノムＤＮＡの候補領域は、ゲノムＤＮＡの領域の最終セットから削除される。いくつかの実施形態では、所望の閾値は、直接観察されるバリアント５つである。

【0062】

本件の方法は、ゲノムＤＮＡの領域の最終セットに含めるために、選択されていないゲノムＤＮＡの候補領域に対してステップｇ）（すなわち、ゲノムＤＮＡの各候補領域についてプローブスコアを算出すること）及びｈ）（すなわち、ゲノムＤＮＡの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムＤＮＡの１つまたは複数の候補領域を選択すること）を繰り返すことも含む。したがって、ゲノムＤＮＡの候補領域のセットを識別するために、本明細書に記載される方法は、一連のステップを反復して進行する。各反復において、ゲノムＤＮＡの１つまたは複数の候補領域が、ゲノムＤＮＡの候補領域の最終セット内に含めるために選択され、ゲノムＤＮＡの他の候補領域のスコアが更新される。ゲノムＤＮＡの候補領域の最終セットに含めるためのゲノムＤＮＡの候補領域の選択は、最大数のゲノムＤＮＡの候補領域が選択されるまで、または関心対象の全バリアントが、選択されたゲノムＤＮＡの候補領域内にある、もしくは選択されたゲノムＤＮＡの候補領域内にプロキシを有するまで継続する。

【0063】

例えば、前のステップで説明したゲノムＤＮＡの単一または複数の候補領域の第１の選択の後、未だ選択されていない残りのゲノムＤＮＡの候補領域が、プローブスコアの再算出、及びゲノムＤＮＡの領域の最終セットに含めるための選択のために利用可能になる。このようなステップの繰り返しにおいて、特定の選択されていないゲノムＤＮＡの候補領域におけるバリアントの数は、１）選択済みのゲノムＤＮＡの候補領域内のすべての直接観察されるバリアントを除外した、選択されていないゲノムＤＮＡの候補領域における直接観察されるバリアントの数と、２）選択済みのゲノムＤＮＡの候補領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数との和である。

【0064】

例えば、選択済みのゲノムＤＮＡの候補領域（すなわち、ステップｈ）からの候補領域１）が、２つの直接観察されるバリアント（すなわち、Ｖ_１及びＶ_２）を含むと仮定する。また、Ｖ_１が、２つの対応するプロキシバリアントＰＶ_ａ及びＰＶ_ｂをゲノムＤＮＡの異なる候補領域に有し、Ｖ_２が、２つの対応するプロキシバリアントＰＶ_ｃ及びＰＶ_ｄをゲノムＤＮＡの異なる候補領域に有すると仮定する。また、選択のために考慮されている候補領域２が、２つの直接観察されるバリアント（すなわち、Ｖ_２及びＶ_３）を有し、ここで、Ｖ_２が、２つの対応するプロキシバリアントＰＶ_ｃ及びＰＶ_ｄをゲノムＤＮＡの異なる候補領域に有し、Ｖ_３が、２つの対応するプロキシバリアントＰＶ_ｅ及びＰＶ_ｆをゲノムＤＮＡの異なる候補領域に有すると仮定する。候補領域２が選択のために考慮される場合、選択されていない候補領域２における直接観察されるバリアントの数は、選択済みのゲノムＤＮＡの候補領域内のすべての直接観察されるバリアント（すなわち、候補領域１からのＶ_２）を除外し、ゲノムＤＮＡの異なる候補領域における対応するプロキシバリアントの数は、選択済みのゲノムＤＮＡの候補領域内の直接観察されるバリアントに対応するすべてのプロキシバリアント（すなわち、候補領域１からのＶ_２に関連するプロキシバリアントＰＶ_ｃ及びＰＶ_ｄ）を除外する。したがって、本明細書に記載されるシナリオでは、候補領域２は２つの直接観察されるバリアント（すなわち、Ｖ_２及びＶ_３）を含むが、それらのうちの１つだけ（すなわち、Ｖ_３）が、プローブスコアを決定するための直接観察されるバリアントの数の数に対してカウントされる。さらに、候補領域２は４つのプロキシバリアント（すなわち、ＰＶ_ｃ、ＰＶ_ｄ、ＰＶ_ｅ、及びＰＶ_ｆ）を含むが、それらのうちの２つだけ（すなわち、ＰＶ_ｅ及びＰＶ_ｆ）が、プローブスコアを決定するための対応するプロキシバリアントの数の数に対してカウントされる。したがって、現在のシナリオでは、候補領域２のプローブスコアを、候補領域２及び６のクオリティスコアの乗算の積（すなわち、２つの直接観察されるバリアント及び４つの対応するプロキシバリアントの和）とするのではなく、候補領域２のプローブスコアは、候補領域２及び３のクオリティスコアの乗算の積（すなわち、単一の直接観察されるバリアントと、選択済みのＤＮＡの候補領域のいずれにも未だ存在しない２つの対応するプロキシバリアントとの和）である。

【0065】

いくつかの実施形態では、ステップｇ）すなわち、ゲノムＤＮＡの各候補領域についてプローブスコアを算出すること）及びｈ）（すなわち、ゲノムＤＮＡの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムＤＮＡの１つまたは複数の候補領域を選択すること）が繰り返された後、残りの選択されていないゲノムＤＮＡの候補領域のプローブスコアが更新される。

【0066】

いくつかの実施形態では、更新は、ゲノムＤＮＡの領域の最終セットに含めるゲノムＤＮＡの候補領域を選択した後、選択済みのゲノムＤＮＡの候補領域に存在した直接観察されるバリアントのプロキシを含む残りの選択されていないゲノムＤＮＡの候補領域のすべてのプローブスコアを再算出することを含む。いくつかの実施形態では、更新は、以前のラウンドの選択でゲノムＤＮＡの領域の最終セットに含めるために既に選択された、直接観察されるバリアント及び／または対応するプロキシバリアントのみを含む選択されていないゲノムＤＮＡの候補領域のすべてを排除することを含む。いくつかの実施形態では、更新は、上述の更新の両方を含む。

【0067】

いくつかの実施形態では、最大数のゲノムＤＮＡの領域が選択されるまでステップｇ）及びｈ）が繰り返される。いくつかの実施形態では、すべての直接観察されるバリアント及びプロキシバリアントがゲノムＤＮＡの領域の最終セット内に含まれるまでステップｇ）及びｈ）が繰り返される。

【0068】

ゲノムＤＮＡの潜在的な候補領域のすべてが、各反復で繰り返される。各領域Ｔ_ｋのプローブスコアＳｃｏｒｅ（Ｔ_ｋ）の積としての増分値と、選択済みの領域のプロキシセット内にないプロキシセットＰｒｏｘｙＳｅｔ（Ｔ_ｋ）内のバリアントの数とが測定される。１つの目標は、最も高い増分値を持つゲノムＤＮＡの候補領域を識別し、それを選択することである。同点がある場合、最大の積をもつ同点のゲノムＤＮＡの候補領域と、選択済みのゲノムＤＮＡの候補領域のすべてと同点との間の距離が、選択済みのゲノムＤＮＡの候補領域から最も離れているゲノムＤＮＡの候補領域を選択することによって解消される。この同点解消ストラテジーは、ゲノム全体にわたる選択されたゲノムＤＮＡの候補領域の均等な間隔を促進し、得られるゲノムＤＮＡの候補領域及びデータの解析を現代のハプロタイピング及び補完方法論と組み合わせると方法論の性能を改善する。

【0069】

最も高い増分値を持つゲノムＤＮＡの候補領域を選択し、必要に応じて同点を解消した後、残りのゲノムＤＮＡの候補領域に関する情報が更新され得る。例えば、２つの任意選択の更新が考慮され得る。第１に、選択済みのゲノムＤＮＡの候補領域のプロキシセット内にはない、ゲノムＤＮＡの各候補領域のプロキシセット内のバリアントの数をキャッシュすることができる。このキャッシングは必須ではないが、計算効率を大幅に改善する。キャッシングが有効化されている場合、ゲノムＤＮＡの特定の候補領域Ｔ_ｋを選択した後、プロキシセットがＰｒｏｘｙＳｅｔ（Ｔ_ｋ）と重複するすべての領域にアクセスすることができ、選択済みのゲノムＤＮＡの候補領域内にないプロキシセット内のバリアントの数のキャッシュされたカウントが更新されて、プロキシセット内にあるバリアントのうちのいくつかが、選択されたゲノムＤＮＡの候補領域Ｔ_ｋによって捕捉されるようになっていることが反映される。第２に、ゲノムＤＮＡの各候補領域のプローブスコアが、ゲノムＤＮＡの他の選択された候補領域のプローブスコアに依存する場合（例えば、使用されているターゲティング技術が領域の重複を許容しないため、またはターゲティングされているゲノムＤＮＡの候補領域間の配列相補性を考慮しなければならないため）、ゲノムＤＮＡの他の候補領域のプローブスコアは、ゲノムＤＮＡの候補領域Ｔ_ｋが選択されたことを反映するように更新され得る。

【0070】

次の反復を開始する前に、プロキシセットが空であるか、または現在選択されているゲノムＤＮＡの候補領域のプロキシセットの和集合に完全に含まれている、ゲノムＤＮＡの候補領域のすべてが、評価されるゲノムＤＮＡの候補領域のリストから除去され得る。キャッシングが実装される場合、これらの領域はゼロのキャッシュスコアを有する。これらの領域は、設計を改善しないため決して選択され得ず、計算効率を改善し、将来の反復の速度を上げるために、評価されるゲノムＤＮＡの候補領域のリストから安全に除去することができる。さらに、キャッシュスコアが１である（すなわち、単一の増分バリアントのみを捕捉する）ゲノムＤＮＡの候補領域は、捕捉されるバリアントがゲノムＤＮＡの他のいずれの候補領域によっても捕捉されない場合、最終的なカスタム反復における評価のために安全に確保しておくことができる。この方法論は、ターゲティングのために選択されたゲノムＤＮＡの１つの候補領域のプロキシセットにすべてのバリアントが含まれるまで、または最大数のゲノムＤＮＡの候補領域がターゲティングされるまで、一度に１つのゲノムＤＮＡの候補領域を選択しながら、反復的に進行し得る。

【0071】

本明細書に記載される方法は、アルゴリズムに組み込むことができる。追加の情報を使用して、アルゴリズムの計算効率を高めることもできる。例えば、そのようなアルゴリズムの難しい態様は、行列Ｒの格納であり得る。考慮されるバリアントの数Ｍが大きい場合、Ｍ×Ｍに比例するこの行列のエントリの数は非常に大きくなり、ほとんどの現代のコンピュータのランダムアクセスメモリ（ＲＡＭ）の容量を超える可能性がある。このような状況では、ＲＡＭにロードされるプロキシ関係を確立するユーザ定義の閾値ｔを超える値をもつエントリのみを用いて、行列のスパース表現を使用することができる。典型的なヒトのデータでは、大きな連鎖不平衡係数は少数のバリアントペアに制限されており、行列のこのスパース表現はメモリに容易に格納でき、必要な計算に使用できる。

【0072】

さらに、アルゴリズムはゲノム全体に直接適用するのに十分に効率的であり得るが、ターゲティングのためにゲノムＤＮＡの候補領域を選択することが、考慮されているゲノムＤＮＡの他の遠い候補領域のプローブスコアに影響を与えない状況では特に、いくつかの効率が向上する可能性があり、また考慮され得る。これらの効率のうちの１つは、ゲノムＤＮＡの候補領域が独立して選択され得る一連の領域にゲノムを分割することである。最も単純なケースでは、これらの領域は個々の染色体であり得る。より洗練されたケースでは、ｍ及びｎが異なる領域内のバリアントをインデックスする場合にＲ_ｍｎが＜ｔであることが保証されるように、ゲノム全体を一連の重複しない領域へとパーティションすることができる。このパーティショニングは、グラフ内の連結成分を識別するように、標準的なアルゴリズムを使用して行うことができる。パーティショニングにより、計算効率が改善され、アルゴリズムが、反復ごとに１つのゲノムＤＮＡの候補領域ではなく、反復ごとにゲノムＤＮＡの候補領域のペア、トリプル、または他の小さなタプルを考慮することが可能になる。

【0073】

反復アルゴリズムは、既知の連鎖不均衡関係を考慮し、塩基対Ｌ個以下の連続したウィンドウに収まるため一緒にターゲティング可能なクラスター化されたバリアントの群を優先し、ゲノムＤＮＡの候補領域のプローブスコアを許容し、プローブをゲノム全体に均等に分布させる、非常にクオリティの高い解を提供することができ、これは、これらすべてを計算効率の高い様式で達成することができる。ゲノムＤＮＡの候補領域の数が適度である場合（または独立して考慮され得るブロックにゲノムを分割するアルゴリズムが使用される場合）、ゲノムＤＮＡの候補領域の可能な組み合わせをすべて網羅的に列挙して評価することが可能である。この場合、グローバルスコアリングスキームを使用して、列挙されたすべての可能性の中からゲノムＤＮＡの候補領域の最適な組み合わせを選択することができる。これを行うために、グローバルスコアリングスキームは、ゲノムＤＮＡの候補領域内のプロキシがあるバリアントの数、ゲノムＤＮＡの候補領域の総合的プローブスコア、及びゲノムＤＮＡの候補領域の均等な間隔を要約することができる。ゲノムＤＮＡの候補領域のセットＴを所与として、多くの好適なスコアリングスキームを考案することができる。関心対象の各バリアントには、プロキシセット内のバリアントを含む選択されたゲノムＤＮＡの候補領域の中でスコアが最も高いゲノムＤＮＡの候補領域のプローブスコアが割り当てられ得る。いずれのプロキシセットにも含まれていないバリアントには、ゼロのスコアが割り当てられ得る。すると、各構成についての総合的グローバルスコアは、これらのバリアントごとに割り当てられたスコア（全バリアントでの和）と、連続する選択されたプローブ間の距離の分布の尖度のようなゲノムＤＮＡの候補領域の間隔の均等性の尺度と、ターゲットの数が小さい構成を優先するためのペナルティとの加重和であり得る。このグローバルスコアリングスキームを疑似アニーリングまたは別のモンテカルロアルゴリズムと一緒に使用して、アルゴリズムによって推奨される反復解を洗練することもできる。この洗練は、ゲノムＤＮＡの候補領域のすべての可能な組み合わせのセットが大きすぎて列挙できない状況においても可能であり得る。他のモンテカルロスキームと同様に、疑似アニーリングは、現在の解の近傍にある解を探索し、現在の解の近傍にある新しい解を（例えば、現在選択されているセットにおいてゲノムＤＮＡの候補領域を追加する、除去する、または置換することによって）推奨するための提案スキームと、提案された更新を確率論的に（例えば、グローバルスコアを改善する解を常に受け入れ、グローバルスコアを減少させる解を場合により受け入れて、極小値に縛られることを避けることによって）受け入れるまたは拒否するためのスキームと、プロセスが徐々によりストリンジェントになるようにプロセスの確率論的成分を管理し、いつ収束が達成されたかを判断するためのスキームとを必要とする。

【0074】

本件の方法は、任意選択で、核酸プローブのセットを生成することも含む。核酸プローブのセット内の個々のプローブの各々は、選択されたゲノムＤＮＡの領域の最終セットの中のゲノム領域の核酸配列に相補的である。したがって、核酸プローブのセットの全体は、選択されたゲノムＤＮＡの領域の最終セットのヌクレオチド配列の全体に相補的である。いくつかの実施形態では、核酸プローブのセットは、約２００，０００～約７００，０００のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約２００，０００～約６００，０００のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約２００，０００～約５００，０００のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約２００，０００～約４００，０００のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約５００，０００～約７００，０００のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約６００，０００～約６５０，０００のプローブを含む。いくつかの実施形態では、核酸プローブのセット内の個々のプローブの各々は、約２５～約１５０の塩基を含み、少なくとも１つの直接観察されるバリアントを含むゲノムＤＮＡの特定の候補領域にハイブリダイズ可能である。いくつかの実施形態では、核酸プローブのセット内の個々のプローブの各々は、約１２０～約１２５の塩基を含む。いくつかの実施形態では、核酸プローブのセット内の１つまたは複数の個々のプローブは、それがハイブリダイズするように設計されているゲノムＤＮＡの対応する候補領域と同じ数の塩基を含む。いくつかの実施形態では、核酸プローブのセット内の１つまたは複数の個々のプローブは、それがハイブリダイズするように設計されているゲノムＤＮＡの対応する候補領域よりも大きい数の塩基を含む。

【0075】

本開示は、シーケンシングによりＤＮＡサンプルのジェノタイピングを行う方法であって、ａ）本明細書に記載のように製造された核酸プローブのセットをＤＮＡサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムＤＮＡを生成すること、ｂ）プローブにハイブリダイズしたゲノムＤＮＡをシーケンシングして、複数のシーケンシングリードを作成すること、ｃ）複数のシーケンシングリードを参照ゲノムにマッピングすること、ｄ）マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすること、及びｅ）ゲノムＤＮＡのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルＤＮＡの遺伝子型を確立することを含む方法も提供する。

【0076】

ＤＮＡサンプルは、ジェノタイピングのためのＤＮＡ源である任意のＤＮＡサンプルであり得る。いくつかの実施形態では、ＤＮＡサンプルは、疾患または状態を有する対象から取得される。いくつかの実施形態では、ＤＮＡサンプルは、対象の腫瘍から取得される。

【0077】

本件の方法は、本明細書に記載されるように製造された核酸プローブのセットをＤＮＡサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムＤＮＡを生成することを含む。核酸プローブのセットは、ハイブリダイゼーションが起こる典型的な条件下でＤＮＡサンプルに接触させる。いくつかの実施形態では、平均プローブがＸのカバー率をもたらす場合、カバー率＜０．３３Ｘのプローブは除去され得る。したがって、例えば、複数のシーケンシングリードのうちの直接観察されるバリアントの８Ｘ未満のカバー率をもたらすプローブはすべて（平均プローブが２４Ｘのカバー率を有する場合）、核酸プローブのセットから除去される。いくつかの実施形態では、サンプルＤＮＡの非効率的な捕捉をもたらすプローブはすべて、核酸プローブのセットから除去される。いくつかの実施形態では、低い平均カバー率をもたらすが、価値の高いバリアント（ゲノムのうちの既知の機能的領域にマッピングするため、または多くの他のバリアントのプロキシとして機能するため）をターゲティングするプローブは、切り捨てられるのではなく、捕捉試薬中に追加のコピーが補充され得る。この補充は、それらが提供するカバー率を改善し、正確なジェノタイピングを促進するのに役立ち得る。

【0078】

本件の方法は、プローブにハイブリダイズしたゲノムＤＮＡをシーケンシングして、複数のシーケンシングリードを作成することも含む。いくつかの実施形態では、複数のシーケンシングリードは、約３０００万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約２５００万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約２０００万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約１５００万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約１０００万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約５００万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約１００万のシーケンシングリードを含む。

【0079】

本件の方法は、複数のシーケンシングリードを参照ゲノムにマッピングすることも含む。
本件の方法は、マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすることも含む。いくつかの実施形態では、カバー率の低いリードに起因する低信頼度のコールされたバリアントが排除されて、コールされた直接観察されるバリアントの最終セットが作成される。いくつかの実施形態では、８Ｘ未満のカバー率のリードに起因する低信頼度のコールされたバリアントが排除される。いくつかの実施形態では、低信頼度のコールされたバリアントを排除することは、同じコールされた直接観察されるバリアントをバリアントの参照パネルから補完することを含む。

【0080】

いくつかの実施形態では、本件の方法は、コールされた直接観察されるバリアントを既知のハプロタイプのセットへとフェージングすることをさらに含む。フェージングの例は、例えば、米国特許出願公開第２０１９／０２０５５０２号に見出すことができる。

【0081】

いくつかの実施形態では、ソフトウェアＧＬＩＭＰＳＥ（「ｏｄｅｌａｎｅａｕ．ｇｉｔｈｕｂ．ｉｏ／ＧＬＩＭＰＳＥ／」のワールドワイドウェブを参照のこと）、または同じ機能性を提供するソフトウェアを使用して、近傍のバリアントからの情報を含めた後に洗練されたバリアントコールを返すことができる。ＧＬＩＭＰＳＥは、各サンプルについての近傍のバリアントコールを所与として、カバー率の低いリードからのバリアントコールの不確実性を大幅に減らすことができる。ＧＬＩＭＰＳＥの第２のステップは、これらの洗練されたバリアントコールを取得し、遺伝子型コールを染色体ごとのバリアントコールへとフェージングすることである。ＧＬＩＭＰＳＥは、デフォルトのパラメータを使用して実行することができる。

【0082】

いくつかの実施形態では、１０Ｘを超えるカバー率を有するコールされたバリアントのパーセンテージが決定される。そのような実施形態では、１０Ｘを超えるカバー率を有するコールされたバリアントのパーセンテージが約９５％未満である場合、核酸プローブのセットがＤＮＡサンプルに再ハイブリダイズされる。この実施形態は、本明細書に記載されるハイブリダイゼーション及びシーケンシングステップの内部対照として機能する。

【0083】

いくつかの実施形態では、コールされた直接観察されるバリアントが、核酸プローブのセットから排除されたプローブにハイブリダイズ可能なゲノムＤＮＡの領域に近いまたはその中にあるとき、このような直接観察されるバリアントは、コールされた直接観察されるバリアントの最終セットから削除される。

【0084】

本件の方法は、ゲノムＤＮＡのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルＤＮＡの遺伝子型を確立することも含む。いくつかの実施形態では、観察されていないバリアントは、ＤＮＡサンプル中のコールされた直接観察されるバリアントの存在に基づいて、バリアントの参照パネルから補完される。

【0085】

いくつかの実施形態では、ソフトウェアＭｉｎｉｍａｃ３（「ｇｅｎｏｍｅ．ｓｐｈ．ｕｍｉｃｈ．ｅｄｕ／ｗｉｋｉ／Ｍｉｎｉｍａｃ３」のワールドワイドウェブを参照のこと）が、各ハプロタイプのバリアントコールからのバリアント補完（観察されておらずシーケンシングされていないバリアントについて）のために使用され得る。Ｍｉｎｉｍａｃ３は、デフォルトのパラメータを使用して実施することができる。

【0086】

【0087】

本開示は、本明細書に記載される方法を行うためのシステム及びコンピュータ可読媒体も提供する。
いくつかの実施形態では、本明細書に記載される方法のいずれかを行うためのエンコードされた命令を含むコンピュータ可読媒体を備える、コンピュータプログラム製品が提供される。いくつかの実施形態では、コンピュータプログラム製品は、プロセッサを有するコンピュータに、本明細書に記載される方法のいずれかを行わせることができる。いくつかの実施形態では、コンピュータプログラム製品は、プログラムが、好適なコンピュータまたはシステムによって実装されたとき、本明細書に記載される方法のいずれかを行うために必要なすべてのパラメータを受信し得るようにエンコードされている。いくつかの実施形態では、本明細書に記載される方法のいずれかを行うためのコンピュータシステムが提供され、このシステムは、プロセッサと、プロセッサに接続されたメモリとを備え、メモリは、プロセッサに本明細書に記載される方法のいずれかを行わせる１つまたは複数のコンピュータプログラムをエンコードする。

【0088】

コンピュータソフトウェア製品は、当技術分野で公知である任意の好適なプログラミング言語を使用して作成することができる。システムコンポーネントは、当技術分野で公知である任意の好適なハードウェアを含み得る。好適なプログラミング言語及び好適なハードウェアシステムコンポーネントは、米国特許第７，１９７，４００号明細書（例えば、第８～９欄参照）、米国特許第６，６９１，０４２号明細書（例えば、第１２～２５欄参照）；米国特許第８，２４５，５１７号明細書（例えば、第１６～１７欄参照）；米国特許第７，２７２，５８４号明細書（例えば、第４欄、２６行～第５欄、１８行参照）；米国特許第８，２０３，９８７号明細書（例えば、第１９～２０欄参照）；米国特許第７，３８６，５２３号明細書（例えば、第２欄、２６行～第３欄、３行参照；また、第８欄、２１行～第９欄、５２行参照）；米国特許第７，３５３，１１６号明細書（例えば、第５欄、５０行～第８欄、５行参照）、米国特許第５，９８５，３５２号明細書（例えば、第３１欄、３７行～第３２欄、２１行参照）に記載されているものを含む。

【0089】

いくつかの実施形態では、本明細書におけるコンピュータ実装方法を実行することができるコンピュータシステムは、プロセッサと、固定記憶媒体（すなわち、ハードドライブ）と、システムメモリ（例えば、ＲＡＭ及び／またはＲＯＭ）と、キーボードと、ディスプレイ（例えば、モニタ）と、データ入力デバイス（例えば、生または変換後のマイクロアレイデータをシステムに提供することができるデバイス）と、任意選択で、コンピュータ可読媒体（すなわち、リムーバブル記憶装置、例えば、ＣＤまたはＤＶＤドライブ）の読み取り及び／または書き込みが可能なドライブと、を備える。このシステムは、任意選択で、ネットワーク入力／出力デバイスと、インターネットへの接続を可能にするデバイスとも備える。

【0090】

いくつかの実施形態では、システムが本明細書に記載される方法のいずれかを行うことを可能にするコンピュータ可読命令（例えば、コンピュータソフトウェア製品）（すなわち、本明細書に記載される方法ステップのいずれかを行うためのソフトウェア）は、固定記憶媒体にエンコードされており、システムがユーザに結果を表示すること、または結果をコンピュータ可読命令の第２のセット（すなわち、第２のプログラム）に提供すること、または、固定記憶媒体に存在するデータ構造に、もしくは別のネットワークコンピュータに、もしくはインターネットを介して遠隔地に、結果を送信することを可能にする。

【0091】

本明細書で開示される主題がより効率的に理解され得るように、以下に実施例を提供する。これらの実施例は例示のみを目的としており、いかなるかたちでも特許請求される主題を限定するものと解釈されてはならないことを理解されたい。

【実施例】

【0092】

実施例１：パイロット研究
直接観察されるバリアントを選択し、選択された直接観察されるバリアントを含むゲノムＤＮＡの候補領域を選択し、本明細書に記載されるようにプローブセットを選択した後、パイロット研究を実施した。

【0093】

１ＫＧサンプルセットから４８のサンプルを選択し、ＣｏｒｉｅｌｌからのこれらのＤＮＡのサンプルにアクセスした（「ｃｏｒｉｅｌｌ．ｏｒｇ／１／ＮＨＧＲＩ／Ｃｏｌｌｅｃｔｉｏｎｓ／１０００－Ｇｅｎｏｍｅｓ－Ｃｏｌｌｅｃｔｉｏｎｓ／１０００－Ｇｅｎｏｍｅｓ－Ｐｒｏｊｅｃｔ」のワールドワイドウェブを参照のこと）。この実施例では、４８のサンプルを完全に新しいものであるかのようにみなし、本明細書に記載されるシーケンシングによるジェノタイピングプローブセットによって処理した。４８のサンプルのシーケンシングによるジェノタイピングの結果を、３０Ｘのカバー率（フィルタリング後）で全ゲノムシーケンシングから取得された対照結果と比較した。参照パネルは、４８のサンプルを除いた１ＫＧＷＧＳデータとみなした。

【0094】

サンプルのパイロットセットは、多様であるように選択した。１つのサンプルはシーケンシングするために十分なＤＮＡを有しなかったため排除され、したがって４７のサンプルが試験用に残った。サンプルについて表１にまとめる。

【0095】

【表1】

【0096】

第１の目的は、プローブが実際にどの程度良好に機能するか（すなわち、プローブセットがゲノム内の目的の位置に特異的な配列を捕捉するかどうか）を決定することであった。最初のプローブセットから特定のプローブを排除する理由として、次の２つを考慮した。１）いくつかのＤＮＡサンプルがシグナルを発生しないようにバリアントのカバー率が低すぎたこと、及び２）多くのリードがそのプローブによって捕捉された箇所でゲノムに容易にマッピングしないことが示されたこと。全体的な目標は、非効率的な捕捉をもたらすプローブを排除し、所望のバリアントについて十分なシグナルを提供しないプローブを排除することであった。多くのプローブが両方のカテゴリに分類された。その結果、達成されるカバー率が低すぎる約１４，０００のプローブが識別された。

【0097】

計算実験を実施したところ、排除されたプローブが全体的な補完の性能に大きな違いをもたらさないことが示され、このデータは、観察され得るものを表すためにＷＧＳ実験をフィルタリングすることによって観察された。

【0098】

別の目的は、シーケンシングリードから取り出された情報が、直接観察されるバリアントを補助し、他のバリアントの補完を可能にすることができるかどうかを決定することであった。補完の精度を評価するために、次の２つのプロセスを実施した。１）コールされたバリアントから、排除されたプローブに近いまたはその中にあるバリアントを排除した。そして、２）残りのコールされたバリアントを処理して、補完されたバリアントを（推定１５００万のバリアントすべてについて）返した。

【0099】

データ準備方法－補完のためのバリアントコール
パイロットサンプルに対する補完を実施するために、ハプロタイプの新しい参照セットを使用した。参照は、パイロットサンプルを除去した１ＫＧＷＧＳデータセットであった。この新しい参照データを、１）バリアントのコーリング及びフェージングを改善するためにプログラムＧＬＩＭＰＳＥにより、そして２）バリアント補完のためにプログラムＭｉｎｉｍａｃ３により、２回使用した。次に、補完されたバリアントコールを、全ゲノムシーケンシングから直接観察されたバリアントコールと比較した。

【0100】

補完クオリティの評価
補完クオリティを評価するために、直接観察された遺伝子型と補完された遺伝子型との間の相関の二乗を評価した。このメトリックは、一般に「補完Ｒｓｑ」または「ｒ^２尺度」または「ｒ二乗」と呼ばれ、補完から推定される、真の遺伝子型と実験的に導出された対応物との間の相関係数の二乗である。ｒ２が１．０であるとき、これら２つは同一である。これが０．０に近いとき、実験的に導出された対応物は、ブラインド推定値と同然である。具体的には、全ゲノムシーケンシングデータから、遺伝子型が２つの参照アレルに対するものであれば０としてエンコードされ、遺伝子型が１つの参照及び１つの代替アレルに対するものであれば１としてエンコードされ、遺伝子型が２つの参照アレルに対するものであれば２としてエンコードされる、直接観察される遺伝子型の遺伝子型ベクトルを作成した。補完された遺伝子型のベクトルについては、３つの状態の各々が確率を有するため、これは異なっていた。例えば、０である確率が８０％、１である確率が２０％、２である確率が０％であり得る。補完された遺伝子型のベクトルについては、０．８^＊０＋０．２^＊１＋０^＊２から、０．２である遺伝子型の予想が返された。

【0101】

ピアソンの相関係数を２つのベクトルで用いた。遺伝子型ごとに４７のサンプルしかないということに留意した。バリアント全体での測定を向上させるため、バリアントをアレル頻度によって一緒にプールし（すべてが同じ予想される遺伝子型を有するようにするため）、サンプル及びバリアント間のベクトルの相関付けを実施した。この補完Ｒｓｑプロセスは、標準的手法に従った。

【0102】

図１は、異なる観測データからの補完による差周波数ビンの補完Ｒｓｑを示す。最も高い相関（及び最も良好な補完）は、選択されたプローブ領域内のバリアントだけを観察するように全ゲノムシーケンシングをフィルタリングしたときに起こった。このようにして形成された線が、求められる最良の性能を表していた。青い線は、これらのサンプルで直接アッセイされたグローバルスクリーニングアレイを表す（通常のプロトコール下でインハウスで実行した）。パイロット研究からの補完は、少なくともグローバルスクリーニングアレイと同程度に良好であることが所望された。緑の線は、本明細書に記載される処理の後の、直接観察されるシーケンシングによるジェノタイピング設計の補完クオリティを表す。シーケンシングによるジェノタイピング設計は、グローバルスクリーニングアレイよりも大幅に優れた性能を示し、選択したプローブを所与とすると、求められる最良の性能に近かった。このパイロット研究は、シーケンシングによるジェノタイピング設計が、合理的なコストで、グローバルスクリーニングアレイよりも優れた性能を示し得ることを示している。パイロット研究は、単なるシミュレーション研究ではなく、ＤＮＡサンプルから補完比較までの２つのアッセイの性能を直接比較するものであった。最後に、シーケンシングによるジェノタイピング設計を、グローバルスクリーニングアレイの３倍のバリアントを有する、ＭＥＧＡアレイ（Ｍｕｌｔｉ－ＥｔｈｎｉｃＧｅｎｏｔｙｐｉｎｇＡｒｒａｙ）と呼ばれる非常に大きなアレイと比較した。アレイがパイロットデータの全ゲノムシーケンシングバージョンからアッセイするすべてのバリアントを完全に観察することによってアレイをシミュレートしたとき、シーケンシングによるジェノタイピング設計は、ＭＥＧＡアレイで考えられる最良の性能と同様の性能を示した。実際には、ＭＥＧＡアレイはより低い性能を有する。シーケンシングによるジェノタイピング設計は、グローバルスクリーニングアレイに匹敵する（ＭＥＧＡアレイの３分の１である）コストで、ＭＥＧＡアレイと同様の性能を有していた。したがって、シーケンシングによるジェノタイピング設計は、遺伝情報をアッセイする非常に費用対効果の良いストラテジーを提供し、クオリティの高い補完を行うように良好に機能した。

【0103】

実施例２：シーケンシングによるジェノタイピング
各々が設計サイトでカバー率について評価された２２３，２６６のサンプルについて、シーケンシングによるジェノタイピングアッセイの実行に成功した。コール率は、アクショナブル遺伝子型を有する部位のパーセンテージである。図２は、９８．９％の平均コール率、及び９５％以上のコール率を有する９９．３％のサンプルを示す。

【0104】

本明細書に記載されるものに加えて、記載されている主題の様々な改変形態が、前述の説明から当業者には明らかとなろう。かかる改変形態も、添付の特許請求の範囲に含まれることが意図されている。本願で引用される各参考文献（学術誌記事、米国及び米国以外の特許、特許出願公報、国際特許出願公報、遺伝子バンク受入番号などを含むが、これらに限定されない）は、その全体が参照により本明細書に組み込まれている。

【図1】

【図2】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版