IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

特表2024-522702ジェノタイピング可変数タンデムリピート
<>
  • 特表-ジェノタイピング可変数タンデムリピート 図1
  • 特表-ジェノタイピング可変数タンデムリピート 図2
  • 特表-ジェノタイピング可変数タンデムリピート 図3A
  • 特表-ジェノタイピング可変数タンデムリピート 図3B
  • 特表-ジェノタイピング可変数タンデムリピート 図4
  • 特表-ジェノタイピング可変数タンデムリピート 図5
  • 特表-ジェノタイピング可変数タンデムリピート 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-21
(54)【発明の名称】ジェノタイピング可変数タンデムリピート
(51)【国際特許分類】
   C12Q 1/68 20180101AFI20240614BHJP
   C12N 15/11 20060101ALN20240614BHJP
【FI】
C12Q1/68 ZNA
C12N15/11 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023577216
(86)(22)【出願日】2022-06-13
(85)【翻訳文提出日】2023-12-13
(86)【国際出願番号】 US2022033260
(87)【国際公開番号】W WO2022265995
(87)【国際公開日】2022-12-22
(31)【優先権主張番号】63/210,294
(32)【優先日】2021-06-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】サイ・チェン
(72)【発明者】
【氏名】エゴール・ドルチェンコ
(72)【発明者】
【氏名】マイケル・エー・エバレー
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QA17
4B063QA19
4B063QQ02
4B063QQ42
4B063QS39
(57)【要約】
本明細書では、可変数タンデムリピート(VNTR)状態を判定するためのシステム、装置、及び方法が開示される。VNTRのハプロタイプは、参照中のVNTRにアラインされた参照サンプルの長い配列リードを用いて決定することができる。ハプロタイプの確率指標に基づいて試験対象のVNTR状態(例えば、試験対象の1つ以上のハプロタイプ又は遺伝子型)を決定するために、長い配列リードを使用して決定されたハプロタイプに試験対象の試験サンプルの短いリードを整列させることができる。
【特許請求の範囲】
【請求項1】
可変数タンデムリピート(VNTR)状態を判定するための方法であって、
ハードウェアプロセッサの制御下で、
複数の第1の対象から得られた複数の第1のサンプルから生成された複数の長い配列リードを受け取ることと、
参照においてVNTRにアラインメントされた複数の長い配列リードのうちの長い配列リードを使用してVNTRの複数のハプロタイプを決定することと、
第2の対象から得られた第2のサンプルから生成された複数の短い配列リードを受け取ることと、
前記VNTRの前記複数のハプロタイプの各々について、前記VNTRにアラインメントされた前記複数の短い配列リードのうちの短い配列リードを前記ハプロタイプに再アラインメントして、再アラインメントを生成することと、
ハプロタイプに再アラインメントされた短い配列リードの再アラインメントを使用して、第2の対象に対するVNTRの複数のハプロタイプの各々の確率指標を決定することと、
複数のハプロタイプの各々の確率指標に基づいて、前記第2の対象のVNTRの状態を決定することと、
を含む、可変数タンデムリピート(VNTR)状態を判定するための方法。
【請求項2】
前記VNTRの前記複数のハプロタイプを決定することが、前記VNTRの前記複数のハプロタイプを含むデータベースを構築することを含む、請求項1に記載の方法。
【請求項3】
前記VNTRの前記複数のハプロタイプを決定することが、
前記複数の第1のサンプルのそれぞれについて、
参照においてVNTRにアラインメントされた前記第1のサンプルの複数の長い配列リードのうちの長い配列リードを抽出することと、
アラインメントされた長い配列リードを決定するために、VNTRの左フランキング領域及び右フランキング領域に抽出された長い配列リードを再アラインメントすることと、
それぞれがアラインメント閾値を超えるアラインメントスコアを有する前記アラインメントされた長い配列リードに基づいて、前記複数のハプロタイプのハプロタイプを決定することとを含む、請求項1~2のいずれか一項に記載の方法。
【請求項4】
前記第1のサンプルの前記複数の長い配列リードのうちの前記長い配列リードの少なくとも1つが、前記VNTRにアラインメントされ、及び/又は前記VNTRに及ぶ前記左フランキング領域及び前記右フランキング領域に再アラインメントされる、請求項3に記載の方法。
【請求項5】
前記VNTRの前記複数のハプロタイプの前記ハプロタイプを決定することが、
前記アラインメント閾値を上回る前記アラインメントスコアをそれぞれ有する前記アラインメントされた長い配列リードの配列を、前記左フランキング領域及び前記右フランキング領域に対してアラインメントしてトリミングして、トリミングされた長い配列リードを生成することと、
前記トリミングされた長い配列リードに基づいて複数のハプロタイプのハプロタイプを決定することと、
を含む、請求項3~4のいずれか一項に記載の方法。
【請求項6】
前記第1のサンプルが前記VNTRについてホモ接合性であり、前記複数のハプロタイプの前記ハプロタイプを決定することが、前記トリミングされた長い配列リードに基づいて前記複数のハプロタイプのうちの1つのハプロタイプのみを決定することを含む、請求項3~5のいずれか一項に記載の方法。
【請求項7】
前記ただ1つのハプロタイプを決定することが、
前記トリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることであって、場合により、前記トリミングされた長い配列リードを前記ただ1つのクラスターにクラスタリングすることが、前記トリミングされた長い配列リードの長さに基づいて前記トリミングされた長い配列リードを前記ただ1つのクラスターにクラスタリングすることを含み、場合により、前記クラスタリングが、k平均クラスタリングを含む、ことと、
前記トリミングされた長い配列リードに基づいてただ1つのハプロタイプを決定することと、
を含む、請求項6に記載の方法。
【請求項8】
前記第1のサンプルが前記VNTRについてヘテロ接合性であり、前記複数のハプロタイプの前記ハプロタイプを決定することが、前記トリミングされた長い配列リードに基づいて前記VNTRの前記複数のハプロタイプのうちの2つのハプロタイプを決定することを含む、請求項3~5のいずれか一項に記載の方法。
【請求項9】
前記2つのハプロタイプを決定することが、
前記トリミングされた長い配列リードを2つのクラスターにクラスタリングすることであって、場合により、前記トリミングされた長い配列リードを前記2つのクラスターにクラスタリングすることが、前記トリミングされた長い配列リードの長さに基づいて前記トリミングされた長い配列リードを前記2つのクラスターにクラスタリングすることを含み、場合により、前記クラスタリングすることが、k平均クラスタリングすることを含む、ことと、
前記2つのハプロタイプの第1のハプロタイプを、前記2つのクラスターの第1のクラスターにおけるトリミングされた長い配列リードに基づいて決定することと、
前記2つのハプロタイプの第2のハプロタイプを、前記2つのクラスターの第2のクラスターにおけるトリミングされた長い配列リードに基づいて決定することと、
を含む、請求項8に記載の方法。
【請求項10】
前記トリミングされた長い配列リードが、異なる長さを有する第1の複数のトリミングされた長い配列リード及び第2の複数のトリミングされた長い配列リードを含み、場合により、前記異なる長さが少なくとも5,000塩基対異なり、前記第1のクラスターが、前記第1の複数のトリミングされた長い配列リードの全て、実質的に全て、又は大部分を含み、前記第2のクラスターが、前記第2の複数のトリミングされた長い配列リードの全て又は大部分を含む、請求項9に記載の方法。
【請求項11】
前記VNTRの前記複数のハプロタイプの前記ハプロタイプを決定することが、前記トリミングされた長い配列リードのコンセンサス配列を決定することを含む、請求項3~10のいずれか一項に記載の方法。
【請求項12】
前記トリミングされた長い配列リードのコンセンサス配列を決定することが、
前記トリミングされた長い配列リードの中で最も頻度の高い塩基ではない塩基をその位置に有する前記トリミングされた長い配列リードの各々の各位置について、
削除操作、挿入操作及び置換操作の各々を独立して使用して、前記位置における前記トリミングされた長い配列リードを修正し、(i)前記塩基における前記トリミングされた長い配列リードに対する操作の結果生じる修正されたトリミングされた長い配列リードと、(ii)修正されている前記トリミングされた長い配列リード以外の前記トリミングされた長い配列リードとの間の編集距離の和を決定することと、
前記操作の中で編集距離の最小和をもたらす前記操作を用いて前記塩基において前記トリミングされた長いシーケンスを修正すること、又は前記トリミングされた長い配列リードを編集距離の最小和に対応する前記修正されたトリミングされた長い配列リードと置き換えることと、
を含む、請求項11に記載の方法。
【請求項13】
前記トリミングされた長い配列リードのコンセンサス配列を決定することが、
前記トリミングされた長い配列リードの各対応する位置について、
前記位置における前記トリミングされた長い配列リードの塩基の中で最も頻度の高い塩基を決定することと、
前記位置における最も頻度の高い塩基ではない前記位置における塩基を有する前記トリミングされた長い配列リードの各々について、
(i)前記トリミングされた長い配列リードに対して独立して、削除操作、挿入操作、及び置換操作の各々から生じる、修正されたトリミングされた長い配列リードと、(ii)修正されている前記トリミングされた長い配列リード以外の前記トリミングされた長い配列リードと、の間の編集距離の合計を決定することと、
前記編集距離の和の中で最小の編集距離の和を決定することと、
編集距離の最小和をもたらす操作によって前記塩基における前記トリミングされた長い配列リードを修正すること、又は前記トリミングされた長い配列リードを編集距離の最小和に対応する前記修正されたトリミングされた長い配列リードで置き換えることと、
を含む、請求項11に記載の方法。
【請求項14】
前記削除操作は、前記位置において前記トリミングされた長い配列の塩基を削除することを含み、
前記挿入操作は、前記位置における前記最も頻度の高い塩基を、前記位置における前記トリミングされた長い配列に挿入することを含み、
前記置換操作は、前記位置における前記トリミングされた長い配列の前記塩基を、前記位置における前記最も頻度の高い塩基で置換することを含む、
請求項12~13のいずれか一項に記載の方法。
【請求項15】
前記参照中の前記VNTRにアラインメントされた前記複数の長い配列リードの前記長い配列リードの品質及び/又は前記複数のハプロタイプの品質が、品質基準を満たす、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記VNTRの前記状態が、前記VNTRのハプロタイプ状態及び/又は前記VNTRの遺伝子型状態を含み、場合により、前記ハプロタイプ状態が、ハプロタイプ、前記ハプロタイプの長さ、及び前記ハプロタイプの長さの信頼区間を含み、場合により、前記遺伝子型状態が、遺伝子型、前記遺伝子型の前記ハプロタイプの長さ、及び前記遺伝子型の前記ハプロタイプの各々の前記長さの信頼区間を含む、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記信頼区間が、前記ハプロタイプの最短長及び前記ハプロタイプの最長長を含む、請求項16に記載の方法。
【請求項18】
前記第2の対象の前記VNTRの前記状態を決定することが、
確率基準を満たす前記確率指標を有する前記複数のハプロタイプのうちの2つ以上のハプロタイプを決定することと、
決定された前記2つ以上のハプロタイプの長さを決定することであって、前記ハプロタイプの最短の長さが、決定された前記2つ以上のハプロタイプの長さの最短の長さであり、前記ハプロタイプの最長の長さが、決定された前記2つ以上のハプロタイプの長さの最長の長さである、ことと、
を含む、請求項17に記載の方法。
【請求項19】
前記VNTRの前記複数のハプロタイプの各々の前記確率指標が、前記VNTRの前記複数のハプロタイプの各々の確率を含み、前記確率基準が確率閾値を含む、請求項1~18のいずれか一項に記載の方法。
【請求項20】
前記VNTRの前記状態の精度が少なくとも60%である、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記複数の長い配列リードが、それぞれが約10,000塩基対~約20,000塩基対の長さである配列リードを含む、請求項1~20のいずれか一項に記載の方法。
【請求項22】
前記複数の短い配列リードが、それぞれが約100塩基対~約1000塩基対の長さである配列リードを含む、請求項1~21のいずれか一項に記載の方法。
【請求項23】
前記複数の短い配列リードがペアエンド配列リードを含む、請求項1~22のいずれか一項に記載の方法。
【請求項24】
前記複数の短い配列リードが、シングルエンド配列リードを含む、請求項1~22のいずれか一項に記載の方法。
【請求項25】
前記複数の短い配列リードが、標的化配列決定、全ゲノム配列決定(WGS)によって生成され、場合により、前記WGSが臨床用WGS(cWGS)である、請求項1~24のいずれか一項に記載の方法。
【請求項26】
前記参照が参照ヒトゲノム配列を含み、前記複数の第1の対象がヒト対象を含み、前記第2の対象がヒト対象を含む、請求項1~25のいずれか一項に記載の方法。
【請求項27】
前記複数の第1の対象が前記第2の対象を含み、及び/又は前記複数の第1のサンプルが前記第2のサンプルを含む、請求項1~26のいずれか一項に記載の方法。
【請求項28】
前記複数の第1のサンプル及び/又は前記第2のサンプルが、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液サンプル、生検サンプル、又はそれらの組み合わせを含む、請求項1~27のいずれか一項に記載の方法。
【請求項29】
前記複数の第1のサンプルが少なくとも50個のサンプルを含む、請求項1~28のいずれか一項に記載の方法。
【請求項30】
前記VNTRの前記複数のハプロタイプの各ハプロタイプが、反復単位の複数のコピーを含む、請求項1~29のいずれか一項に記載の方法。
【請求項31】
前記反復単位が、6塩基対を超える長さである、請求項30に記載の方法。
【請求項32】
前記複数のコピーの数が少なくとも3つである、請求項30~31のいずれか一項に記載の方法。
【請求項33】
前記複数のハプロタイプのハプロタイプの前記反復単位の前記複数のコピーの2つのコピーの配列が、1つ又は複数の分化位置において異なる、請求項30~32のいずれか一項に記載の方法。
【請求項34】
前記配列が少なくとも80%の配列同一性を有する、請求項33に記載の方法。
【請求項35】
前記複数のハプロタイプのハプロタイプの前記反復単位の前記複数のコピーの2つのコピーの配列が同一である、請求項30~34のいずれか一項に記載の方法。
【請求項36】
前記VNTRの前記複数のハプロタイプのうちの2つのハプロタイプが、前記反復単位の異なる数のコピーを含む、請求項30~35のいずれか一項に記載の方法。
【請求項37】
前記VNTRの前記複数のハプロタイプのうちの2つのハプロタイプが、前記反復単位の同一の数のコピーを含む、請求項30~35のいずれか一項に記載の方法。
【請求項38】
前記2つのハプロタイプの一方の前記反復単位のコピー及び前記2つのハプロタイプの他方の前記反復単位のコピーの配列が、1つ又は複数の分化位置において異なり、任意選択で、前記配列が少なくとも80%の配列同一性を有する、請求項36~37のいずれか一項に記載の方法。
【請求項39】
前記2つのハプロタイプの一方の前記反復単位のコピー及び前記2つのハプロタイプの他方の前記反復単位のコピーの配列が同一である、請求項36~37のいずれか一項に記載の方法。
【請求項40】
前記VNTRの前記複数のハプロタイプのハプロタイプが疾患に関連する、請求項1~39のいずれか一項に記載の方法。
【請求項41】
前記VNTRの前記状態を表すUI要素を含むユーザインターフェース(UI)を生成することを含む、請求項1~40のいずれか一項に記載の方法。
【請求項42】
可変数タンデムリピート(VNTR)状態を判定するためのシステムであって、
実行可能命令及びVNTRの複数のハプロタイプを記憶するように構成された非一時的メモリ及び
前記非一時的メモリと通信するハードウェアプロセッサであって、前記実行可能な命令によってプログラムされた前記ハードウェアプロセッサは、
試験対象から得られた試験サンプルから生成された複数の短い配列リードを受け取ることと、
前記VNTRの前記複数のハプロタイプの各々について、前記VNTRにアラインメントされた前記複数の短い配列リードのうちの短い配列リードを前記ハプロタイプに再アラインメントして、再アラインメントを生成することと、
ハプロタイプに再アラインメントされた短い配列リードの再アラインメントを使用して、前記試験対象に対する前記複数のハプロタイプの各々の確率を決定することと、
前記試験対象の前記VNTRの状態を決定することと、
を実行する、ハードウェアプロセッサ
を含む、可変数タンデムリピート(VNTR)状態を判定するためのシステム。
【請求項43】
前記VNTRの前記複数のハプロタイプが、参照において前記VNTRにアラインメントされた複数の長い配列リードの長い配列リードを使用して決定され、前記複数の長い配列リードが、複数の参照対象から得られた複数の参照サンプルから生成される、請求項42に記載のシステム。
【請求項44】
前記VNTRの前記複数のハプロタイプは、
前記複数のサンプルの各々について、
参照においてVNTRにアラインメントされた前記試験サンプルの複数の長い配列リードのうちの長い配列リードを抽出することと、
アラインメントされた長い配列リードを決定するために、VNTRの左フランキング領域及び右フランキング領域に抽出された長い配列リードを再アラインメントすることと、
それぞれがアラインメント閾値を超えるアラインメントスコアを有する前記アラインメントされた長い配列リードに基づいて、前記複数のハプロタイプのハプロタイプを決定することと、
によって決定される、請求項43に記載のシステム。
【請求項45】
前記試験サンプルの前記複数の長い配列リードのうちの前記長い配列リードの少なくとも1つが、前記VNTRにアラインメントされ、及び/又は前記VNTRに及ぶ前記左フランキング領域及び前記右フランキング領域に再アラインメントされる、請求項44に記載のシステム。
【請求項46】
前記VNTRの前記複数のハプロタイプの前記ハプロタイプが、
前記アラインメント閾値を上回る前記アラインメントスコアをそれぞれ有する前記アラインメントされた長い配列リードの配列を、前記左フランキング領域及び前記右フランキング領域に対してアラインメントしてトリミングして、トリミングされた長い配列リードを生成することと、
前記トリミングされた長い配列リードに基づいて複数のハプロタイプのハプロタイプを決定することと、
によって決定される、請求項44~45のいずれか一項に記載の方法。
【請求項47】
前記参照サンプルが前記VNTRについてホモ接合性であり、前記VNTRの前記複数のハプロタイプの前記ハプロタイプが、前記トリミングされた長い配列リードに基づいて、前記複数のハプロタイプのうちのただ1つのハプロタイプを含むと決定される、請求項44~46のいずれか一項に記載のシステム。
【請求項48】
前記ただ1つのハプロタイプが、
前記トリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることであって、場合により、前記トリミングされた長い配列リードを前記ただ1つのクラスターにクラスタリングすることが、前記トリミングされた長い配列リードの長さに基づいて前記トリミングされた長い配列リードを前記ただ1つのクラスターにクラスタリングすることを含み、場合により、前記クラスタリングが、k平均クラスタリングを含む、ことと、
前記トリミングされた長い配列リードに基づいてただ1つのハプロタイプを決定することと、
によって決定される、請求項47に記載のシステム。
【請求項49】
前記参照サンプルが前記VNTRについてヘテロ接合性であり、前記VNTRの前記複数のハプロタイプの前記ハプロタイプが、前記トリミングされた長い配列リードに基づいて、前記複数のハプロタイプのうちの2つのハプロタイプを含むと決定される、請求項44~46のいずれか一項に記載のシステム。
【請求項50】
前記2つのハプロタイプが、
前記トリミングされた長い配列リードを2つのクラスターにクラスタリングすることであって、場合により、前記トリミングされた長い配列リードを前記2つのクラスターにクラスタリングすることが、前記トリミングされた長い配列リードの長さに基づいて前記トリミングされた長い配列リードを前記2つのクラスターにクラスタリングすることを含み、場合により、前記クラスタリングすることが、k平均クラスタリングすることを含む、ことと、
前記2つのハプロタイプの第1のハプロタイプを、前記2つのクラスターの第1のクラスターにおけるトリミングされた長い配列リードに基づいて決定することと、
前記2つのハプロタイプの第2のハプロタイプを、前記2つのクラスターの第2のクラスターにおけるトリミングされた長い配列リードに基づいて決定することと、
によって決定される、請求項49に記載のシステム。
【請求項51】
前記トリミングされた長い配列リードが、異なる長さを有する第1の複数のトリミングされた長い配列リード及び第2の複数のトリミングされた長い配列リードを含み、場合により、前記異なる長さが少なくとも5,000塩基対異なり、前記第1のクラスターが、前記第1の複数のトリミングされた長い配列リードの全て、実質的に全て、又は大部分を含み、前記第2のクラスターが、前記第2の複数のトリミングされた長い配列リードの全て、実質的に全て、又は大部分を含む、請求項50に記載のシステム。
【請求項52】
前記VNTRの前記複数のハプロタイプの前記ハプロタイプが、前記トリミングされた長い配列リードのコンセンサス配列を決定することによって決定される、請求項44~51のいずれか一項に記載のシステム。
【請求項53】
前記トリミングされた長い配列リードのコンセンサス配列が、
前記トリミングされた長い配列リードの中で最も頻度の高い塩基ではない塩基をその位置に有する前記トリミングされた長い配列リードの各々の各位置について、
削除操作、挿入操作及び置換操作の各々を使用して、前記位置における前記トリミングされた長い配列リードを修正し、(i)前記塩基における前記トリミングされた長い配列リードに対する操作の結果生じる修正されたトリミングされた長い配列リードと、(ii)修正されている前記トリミングされた長い配列リード以外の前記トリミングされた長い配列リードとの間の編集距離の和を決定することと、
前記操作の中で編集距離の最小和をもたらす前記操作を用いて前記塩基において前記トリミングされた長いシーケンスを修正すること、又は前記トリミングされた長い配列リードを編集距離の最小和に対応する前記修正されたトリミングされた長い配列リードと置き換えることと、
によって決定される、請求項52記載のシステム。
【請求項54】
前記トリミングされた長い配列リードのコンセンサス配列が、
前記トリミングされた長い配列リードの各対応する位置について、
前記位置における前記トリミングされた長い配列リードの塩基の中で最も頻度の高い塩基を決定することと、
前記位置における最も頻度の高い塩基ではない前記位置における塩基を有する前記トリミングされた長い配列リードの各々について、
削除操作、挿入操作及び置換操作の各々について、(i)トリミングされた長い配列リードに対する操作の結果として生じる修正されたトリミングされた長い配列リードと、(ii)修正されているトリミングされた長い配列リード以外のトリミングされた長い配列リードとの間の編集距離の和を決定することと、
前記編集距離の和の中で最小の編集距離の和を決定することと、
編集距離の最小和をもたらす操作によって前記塩基における前記トリミングされた長い配列リードを修正すること、又は前記トリミングされた長い配列リードを編集距離の最小和に対応する前記修正されたトリミングされた長い配列リードで置き換えることと、
によって決定される、請求項52に記載のシステム。
【請求項55】
前記削除操作は、前記位置において前記トリミングされた長い配列の塩基を削除することを含み、
前記挿入操作は、前記位置における前記最も頻度の高い塩基を、前記位置における前記トリミングされた長い配列に挿入することを含み、
前記置換操作は、前記位置における前記トリミングされた長い配列の前記塩基を、前記位置における前記最も頻度の高い塩基で置換することを含む、
請求項53~54のいずれか一項に記載のシステム。
【請求項56】
前記参照中の前記VNTRにアラインメントされた前記複数の長い配列リードの前記長い配列リードの品質及び/又は前記複数のハプロタイプの品質が、品質基準を満たす、請求項43~55のいずれか一項に記載のシステム。
【請求項57】
前記VNTRの前記状態が、前記VNTRのハプロタイプ状態及び/又は前記VNTRの遺伝子型状態を含み、場合により、前記ハプロタイプ状態が、ハプロタイプ、前記ハプロタイプの長さ、及び前記ハプロタイプの長さの信頼区間を含み、場合により、前記遺伝子型状態が、遺伝子型、前記遺伝子型の前記ハプロタイプの長さ、及び前記遺伝子型の前記ハプロタイプの各々の前記長さの信頼区間を含む、請求項42~56のいずれか一項に記載のシステム。
【請求項58】
前記信頼区間が、前記ハプロタイプの最短長及び前記ハプロタイプの最長長を含む、請求項57に記載のシステム。
【請求項59】
前記試験対象の前記VNTRの前記ハプロタイプ状態を決定することが、
確率基準を満たす前記確率指標を有する前記複数のハプロタイプのうちの2つ以上のハプロタイプを決定することと、
決定された前記2つ以上のハプロタイプの長さを決定することであって、前記ハプロタイプの最短の長さが、決定された前記2つ以上のハプロタイプの長さの最短の長さであり、前記ハプロタイプの最長の長さが、決定された前記2つ以上のハプロタイプの長さの最長の長さである、ことと、
を含む、請求項58に記載のシステム。
【請求項60】
前記VNTRの前記複数のハプロタイプの各々の前記確率指標が、前記VNTRの前記複数のハプロタイプの各々の確率を含み、前記確率基準が確率閾値を含む、請求項42~59のいずれか一項に記載のシステム。
【請求項61】
前記ハプロタイプ状態の精度が少なくとも60%である、請求項42~60のいずれか一項に記載のシステム。
【請求項62】
前記複数の長い配列リードが、それぞれが約10,000塩基対~約20,000塩基対の長さである配列リードを含む、請求項42~61のいずれか一項に記載のシステム。
【請求項63】
前記複数の短い配列リードが、それぞれが約100塩基対~約1000塩基対の長さである配列リードを含む、請求項42~62のいずれか一項に記載のシステム。
【請求項64】
前記複数の短い配列リードがペアエンド配列リードを含む、請求項42~63のいずれか一項に記載のシステム。
【請求項65】
前記複数の短い配列リードが、シングルエンド配列リードを含む、請求項42~63のいずれか一項に記載のシステム。
【請求項66】
前記複数の短い配列リードが、標的化配列決定、全ゲノム配列(WGS)によって生成され、場合により、前記WGSが臨床用WGS(cWGS)である、請求項42~65のいずれか一項に記載のシステム。
【請求項67】
前記参照が参照ヒトゲノム配列を含み、前記複数の参照対象がヒト対象を含み、前記試験対象がヒト対象を含む、請求項42~66のいずれか一項に記載のシステム。
【請求項68】
前記複数の参照対象が前記試験対象を含み、及び/又は前記複数の参照サンプルが前記試験サンプルを含む、請求項43~67のいずれか一項に記載のシステム。
【請求項69】
前記複数の参照サンプル及び/又は前記試験サンプルが、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液サンプル、生検サンプル、又はそれらの組み合わせを含む、請求項43~68のいずれか一項に記載のシステム。
【請求項70】
前記複数の参照サンプルが、少なくとも50個のサンプルを含む、請求項43~69のいずれか一項に記載のシステム。
【請求項71】
前記VNTRの前記複数のハプロタイプの各ハプロタイプが、反復単位の複数のコピーを含む、請求項42~70のいずれか一項に記載のシステム。
【請求項72】
前記反復単位が、6塩基対を超える長さである、請求項71に記載のシステム。
【請求項73】
前記複数のコピーの数が少なくとも3つである、請求項71~72のいずれか一項に記載のシステム。
【請求項74】
前記複数のハプロタイプのハプロタイプの前記反復単位の前記複数のコピーの2つのコピーの配列が、1つ又は複数の分化位置において異なる、請求項71~73のいずれか一項に記載のシステム。
【請求項75】
前記配列が少なくとも80%の配列同一性を有する、請求項74に記載のシステム。
【請求項76】
前記複数のハプロタイプのハプロタイプの前記反復単位の前記複数のコピーの2つのコピーの配列が同一である、請求項71~75のいずれか一項に記載のシステム。
【請求項77】
前記VNTRの前記複数のハプロタイプのうちの2つのハプロタイプが、前記反復単位の異なる数のコピーを含む、請求項71~76のいずれか一項に記載のシステム。
【請求項78】
前記VNTRの前記複数のハプロタイプのうちの2つのハプロタイプが、前記反復単位の同一の数のコピーを含む、請求項71~76のいずれか一項に記載のシステム。
【請求項79】
前記2つのハプロタイプの一方の前記反復単位のコピー及び前記2つのハプロタイプの他方の前記反復単位のコピーの配列が、1つ又は複数の分化位置において異なり、任意選択で、前記配列が少なくとも80%の配列同一性を有する、請求項36~78のいずれか一項に記載のシステム。
【請求項80】
前記2つのハプロタイプの一方の前記反復単位のコピー及び前記2つのハプロタイプの他方の前記反復単位のコピーの配列が同一である、請求項36~78のいずれか一項に記載のシステム。
【請求項81】
前記VNTRの前記複数のハプロタイプのハプロタイプが疾患に関連する、請求項42~80のいずれか一項に記載のシステム。
【請求項82】
前記ハードウェアプロセッサは、前記VNTRの前記状態を表すUI要素を備えるユーザインターフェース(UI)を生成することを実行するように前記実行可能命令によってプログラムされる、請求項42~81のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、2021年6月14日に出願された米国仮出願第63/210,294号に対する35 U.S.C.§119(e)に基づく優先権を主張する。関連出願の内容は、その全体が参照により本明細書に組み込まれる。
【0002】
配列表の参照
本出願は、電子フォーマットでの配列表とともに出願されている。配列表は、サイズが1キロバイトである2022年5月29日に作成されたSequence_Listing_47 CX-311979-WOという名称のファイルとして提供される。配列表の電子フォーマット中の情報は、参照によりその全体が本明細書に組み込まれる。
【0003】
本開示は、一般に、配列決定データを処理する分野に関し、より具体的には、可変数タンデムリピートをジェノタイピングすることに関する。
【背景技術】
【0004】
可変ヌクレオチドタンデムリピート(VNTR)は、ゲノム間変異の有意な割合を説明する。VNTRの正確な検出は、領域の複雑性が低いという性質及び反復配列の長さによって、長い間複雑化されてきた。既存の短いリードパイプラインにおけるVNTRの検出電力は改善を必要とする。
【発明の概要】
【0005】
本明細書に開示されるのは、VNTRのジェノタイピングなど、可変数タンデムリピート(VNTR)状態を決定する方法である。いくつかの実施形態において、VNTR状態を決定する方法は、プロセッサ(例えば、ハードウェアプロセッサ又は仮想プロセッサ)の制御下にあり、複数の第1の対象から得られた複数の第1のサンプルから生成された複数の長い配列リードを受け取る工程を含む。本方法は、参照(例えば、参照ヒトゲノム配列、例えば、hg19又はhg38)においてVNTRにアラインメントされた複数の長い配列リードのうちの長い配列リードを使用して、VNTRの複数のハプロタイプを決定する工程を含み得る。この方法は、第2の対象から得られた第2のサンプルから生成された複数の短い配列リードを受け取る工程を含み得る。本方法は、VNTRの複数のハプロタイプの各々について、再編成を生成するために、VNTRにアラインメントされた複数の短い配列リードのうちの短い配列リードをハプロタイプに再編成することを含み得る。本方法は、ハプロタイプに再アラインメントされた短い配列リードの再アラインメントを使用して、第2の対象に対するVNTRの複数のハプロタイプの各々の確率指標を決定する工程を含み得る。本方法は、複数のハプロタイプの各々の確率指標に基づいて第2の対象のVNTRの状態を決定する工程を含み得る。いくつかの実施形態では、本方法は、VNTRの状態を表す又は含むUI要素を含むユーザインターフェース(UI)を生成する工程を含む。
【0006】
いくつかの実施形態では、VNTRの複数のハプロタイプのハプロタイプは、疾患(例えば、双極性障害又は一遺伝子性糖尿病)に関連する。いくつかの実施形態では、VNTRの複数のハプロタイプを決定することは、VNTRの複数のハプロタイプを含むデータベースを構築又は作成することを含む。いくつかの実施形態において、VNTRの複数のハプロタイプを決定することは、複数の第1のサンプルのそれぞれについて、参照においてVNTRにアラインメントされた第1のサンプルの複数の長い配列リードのうちの長い配列リードを抽出することを含む。VNTRの複数のハプロタイプを決定することは、アラインメントされた長い配列リードを決定するために、抽出された長い配列リードをVNTRの左フランキング領域及び右フランキング領域に再編成することを含み得る。VNTRの複数のハプロタイプを決定することは、アラインメント閾値を超えるアラインメントスコアをそれぞれ有するアラインメントされた長い配列リードに基づいて、複数のハプロタイプのハプロタイプを決定することを含み得る。第1のサンプルの複数の長い配列リードのうちの長い配列リードの少なくとも1つは、VNTRにアラインメントされ、及び/又はVNTRに及ぶ左フランキング領域及び右フランキング領域に再アラインメントされる。いくつかの実施形態では、VNTRの複数のハプロタイプのハプロタイプを決定することは、アラインメント閾値を超えるアラインメントスコアをそれぞれ有するアラインメントされた長い配列リードの配列をトリミングし、トリミングされた長い配列リードを生成するために左フランキング領域及び右フランキング領域にアラインメントすることを含む。VNTRの複数のハプロタイプのハプロタイプを決定することは、トリミングされた長い配列リードに基づいて複数のハプロタイプのハプロタイプを決定することを含み得る。
【0007】
いくつかの実施形態において、第1のサンプルは、VNTRについてホモ接合性である。複数のハプロタイプのハプロタイプを決定することは、トリミングされた長い配列リードに基づいて複数のハプロタイプのうちの1つのハプロタイプのみを決定することを含み得る。ただ1つのハプロタイプを決定することは、ただ1つのハプロタイプを決定することは、トリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることを含むことができる。トリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることは、トリミングされた長い配列リードの長さに基づいてトリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることを含み得る。クラスタリングは、k平均クラスタリングを含むことができる。ただ1つのハプロタイプを決定することは、トリミングされた長い配列リードに基づいてただ1つのハプロタイプを決定することを含み得る。
【0008】
いくつかの実施形態において、第1のサンプルは、VNTRについてヘテロ接合性である。複数のハプロタイプのハプロタイプを決定することは、トリミングされた長い配列リードに基づいてVNTRの複数のハプロタイプのうちの2つのハプロタイプを決定することを含み得る。2つのハプロタイプを決定することは、トリミングされた長い配列リードを2つのクラスターにクラスタリングすることを含み得る。トリミングされた長い配列リードを2つのクラスターにクラスタリングすることは、トリミングされた長い配列リードの長さに基づいてトリミングされた長い配列リードを2つのクラスターにクラスタリングすることを含み得る。クラスタリングは、k平均クラスタリングを含むことができる。2つのハプロタイプを決定することは、2つのクラスターの第1のクラスター内のトリミングされた長い配列リードに基づいて、2つのハプロタイプの第1のハプロタイプを決定することを含み得る。2つのハプロタイプを決定することは、2つのクラスターの第2のクラスター内のトリミングされた長い配列リードに基づいて、2つのハプロタイプの第2のハプロタイプを決定することを含み得る。いくつかの実施形態において、トリミングされた長い配列リードは、異なる長さを有する第1の複数のトリミングされた長い配列リード及び第2の複数のトリミングされた長い配列リードを含む。異なる長さは、少なくとも5,000塩基対異なる。第1のクラスターは、第1の複数のトリミングされた長い配列リードの全て、実質的に全て、又は大部分を含み得る。第2のクラスターは、第2の複数のトリミングされた長い配列リードの全て、実質的に全て、又は大部分を含み得る。
【0009】
いくつかの実施形態では、VNTRの複数のハプロタイプのハプロタイプを決定することは、トリミングされた長い配列リードのコンセンサス配列を決定することを含む。いくつかの実施形態において、トリミングされた長い配列リードのコンセンサス配列を決定することは、トリミングされた長い配列リードのそれぞれの位置について、その位置のトリミングされた長い配列リードの中で最も頻度の高い塩基ではない塩基を有する工程:複数の操作(削除操作、挿入操作、及び置換操作)のそれぞれを独立して使用して、その位置のトリミングされた長い配列リードを修正する工程、及び(i)その塩基でのトリミングされた長い配列リードに対する操作の結果生じる修正されたトリミングされた長い配列リードと(ii)修正されているトリミングされた長い配列リード以外のトリミングされた長い配列リードとの間の距離の和(例えば、編集距離)を決定することを含む。トリミングされた長い配列リードのコンセンサス配列を決定することは、複数の操作のうちの距離の最小和(例えば、編集距離)をもたらす複数の操作を使用して、塩基においてトリミングされた長い配列を修正すること、又はトリミングされた長い配列リードを、距離の最小和(例えば、編集距離)に対応する修正されたトリミングされた長い配列リードと置き換えることを含み得る。
【0010】
いくつかの実施形態において、トリミングされた長い配列リードのコンセンサス配列を決定することは、トリミングされた長い配列リードの対応する各位置について、その位置におけるトリミングされた長い配列リードの塩基の中で最も頻度の高い塩基を決定することを含む。トリミングされた長い配列リードのコンセンサス配列を決定することは、その位置の最も頻度の高い塩基ではない位置の塩基を有するトリミングされた長い配列リードのそれぞれについて、(i)トリミングされた長い配列リードに対して独立した複数の操作(例えば、削除操作、挿入操作、及び置換操作)のそれぞれから生じる修飾されたトリミングされた長い配列リードと、(ii)修飾されているトリミングされた長い配列リード以外のトリミングされた長い配列リードとの間の距離の和(例えば、編集距離)を決定することを含み得る。トリミングされた長い配列リードのコンセンサス配列を決定することは、距離の和(例えば、編集距離)の中で最小の距離の和(例えば、編集距離)を決定することを含み得る。トリミングされた長い配列リードのコンセンサス配列を決定することは、最小の距離和(例えば、編集距離)をもたらす操作で塩基においてトリミングされた長い配列リードを修正すること、又はトリミングされた長い配列リードを、最小の距離和(例えば、編集距離に対応する修正されたトリミングされた長い配列リードで置き換えること)を含み得る。いくつかの実施形態において、複数の操作は、トリミングされた長い配列の塩基をその位置において欠失させることを含む。複数の操作は、その位置の最も頻度の高い塩基をその位置のトリミングされた長い配列に挿入することを含み得る。複数の操作は、その位置におけるトリミングされた長い配列の塩基を、その位置における最も頻度の高い塩基と置き換えることを含み得る。
【0011】
いくつかの実施形態において、参照においてVNTRにアラインメントされた複数の長い配列リードのうちの長い配列リードの品質は、品質基準を満たす。複数のハプロタイプの品質は、品質基準を満たすことができる。
【0012】
いくつかの実施形態では、VNTRの状態は、VNTRのハプロタイプ状態を含む。ハプロタイプ状態は、ハプロタイプ、ハプロタイプの長さ、及び/又はハプロタイプの長さの信頼区間を含み得る。VNTRの状態は、VNTRの遺伝子型状態を含み得る。遺伝子型の状態は、遺伝子型、遺伝子型のハプロタイプの長さ、及び/又は遺伝子型の各ハプロタイプの長さの信頼区間を含み得る。信頼区間は、ハプロタイプの最短長及びハプロタイプの最長長を含み得る。
【0013】
いくつかの実施形態では、第2の対象のVNTRの状態を決定することは、確率指標が確率基準を満たす複数のハプロタイプのうちの2つ以上のハプロタイプを決定することを含む。第2の対象のVNTRの状態を決定することは、決定された2つ以上のハプロタイプの長さを決定することを含み得る。ハプロタイプの最短の長さは、決定された2つ以上のハプロタイプの長さの最短の長さであり得る。ハプロタイプの最長の長さは、決定された2つ以上のハプロタイプの長さの最長の長さであり得る。いくつかの実施形態では、VNTRの状態の精度は少なくとも60%である。
【0014】
いくつかの実施形態では、VNTRの複数のハプロタイプの各々の確率指標は、VNTRの複数のハプロタイプの各々の確率を含む。確率基準は、確率閾値を含むことができる。
【0015】
いくつかの実施形態では、複数の長い配列リードは、それぞれが約10,000塩基対~約20,000塩基対の長さである配列リードを含む。複数の長い配列リードは、標的配列決定又は全ゲノム配列決定(WGS)によって生成することができる。WGSは臨床用WGS(cWGS)であり得る。複数の第1の対象は、ヒト対象を含むことができる。
【0016】
いくつかの実施形態では複数の短い配列リードは、それぞれが約100塩基対~約1000塩基対の長さである配列リードを含み得る。複数の短い配列リードは、ペアエンド配列リードを含み得る。複数の短い配列リードは、シングルエンド配列リードを含み得る。複数の短い配列リードは、標的配列決定又は全ゲノム配列決定(WGS)によって生成することができる。WGSは臨床用WGS(cWGS)であり得る。第2の対象は、ヒト対象を含むことができる。
【0017】
いくつかの実施形態では、複数の第1の対象は、第2の対象を含む。複数の第1のサンプルは、第2のサンプルを含むことができる。いくつかの実施形態では、複数の第1のサンプル及び/又は第2のサンプルは、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液サンプル、生検サンプル、又はそれらの組み合わせを含む。複数の第1のサンプルは、少なくとも50個のサンプルを含むことができる。
【0018】
いくつかの実施形態では、VNTRの複数のハプロタイプの各ハプロタイプは、反復単位の複数のコピーを含む。反復単位は、6塩基対を超える長さであり得る。複数のコピーの数は、少なくとも3つであり得る。いくつかの実施形態では、複数のハプロタイプのハプロタイプの反復単位の複数のコピーの2つのコピーの配列は、1つ又は複数の分化位置において異なる。ハプロタイプの反復単位の複数のコピーのうちの2つのコピーの配列は、少なくとも80%の配列同一性を有する。複数のハプロタイプのハプロタイプの反復単位の複数のコピーの2つのコピーの配列は同一であり得る。いくつかの実施形態では、VNTRの複数のハプロタイプのうちの2つのハプロタイプは、反復単位の異なる数のコピーを含む。いくつかの実施形態では、VNTRの複数のハプロタイプのうちの2つのハプロタイプは、反復単位の同一の数のコピーを含む。いくつかの実施形態では、2つのハプロタイプの一方の反復単位のコピーの配列及び2つのハプロタイプの他方の反復単位のコピーの配列は、1つ又は複数の分化位置において異なる。配列は、少なくとも80%の配列同一性を有することができる。2つのハプロタイプの一方の反復単位のコピーの配列及び2つのハプロタイプの他方の反復単位のコピーの配列は同一であり得る。
【0019】
本明細書に開示されるのは、VNTRのジェノタイピングなど、可変数タンデムリピート(VNTR)状態を決定するシステムである。いくつかの実施形態では、VNTRステータスを判定するためのシステムは、実行可能命令及びVNTRの複数のハプロタイプを記憶するように構成された非一時的メモリを含む。システムは、非一時的メモリと通信するプロセッサ(例えば、ハードウェアプロセッサ又は仮想プロセッサ)を含むことができ、プロセッサは、試験対象から得られた試験サンプルから生成された複数の短い配列リードを受信することを実行するように実行可能命令によってプログラムされている。プロセッサは、実行可能命令によって、VNTRの複数のハプロタイプの各々について、VNTRにアラインメントされた複数の短い配列リードのうちの短い配列リードをハプロタイプに再アラインメントして再アラインメントを生成することを行うようにプログラムされ得る。プロセッサは、実行可能命令によって、ハプロタイプに再アラインメントされた短い配列リードの再アラインメントを使用して、試験対象に対する複数のハプロタイプの各々の確率を決定することを実行するようにプログラムされ得る。プロセッサは、実行可能命令によって、試験対象のVNTRの状態を判定することを実行するようにプログラムすることができる。いくつかの実施形態では、プロセッサは、実行可能命令によって、VNTRの状態を表す又は含むUI要素を含むユーザインターフェース(UI)を決定することを実行するようにプログラムされる。
【0020】
いくつかの実施形態では、VNTRの複数のハプロタイプのハプロタイプは、疾患(例えば、双極性障害又は一遺伝子性糖尿病)に関連する。いくつかの実施形態において、VNTRの複数のハプロタイプは、参照(例えば、参照ヒトゲノム配列、例えば、hg19又はhg38)においてVNTRにアラインメントされた複数の長い配列リードの長い配列リードを使用して決定される。いくつかの実施形態において、複数の長い配列リードは、複数の参照対象から得られた複数の参照サンプルから作成され得る。VNTRの複数のハプロタイプは、複数のサンプルのそれぞれについて、参照においてVNTRにアラインメントされた試験サンプルの複数の長い配列リードのうちの長い配列リードを抽出することによって決定することができる。VNTRの複数のハプロタイプは、アラインメントされた長い配列リードを決定するために、抽出された長い配列リードをVNTRの左フランキング領域及び右フランキング領域に再編成することによって決定することができる。VNTRの複数のハプロタイプは、アラインメント閾値を超えるアラインメントスコアをそれぞれ有するアラインメントされた長い配列リードに基づいて複数のハプロタイプのハプロタイプを決定することによって決定することができる。試験サンプルの複数の長い配列リードのうちの少なくとも1つの長い配列リードをVNTRにアラインメントすることができる。試験サンプルの複数の長い配列リードのうちの少なくとも1つの長い配列リードは、左フランキング領域に再編成することができ、右フランキング領域はVNTRに及ぶ。いくつかの実施形態では、VNTRの複数のハプロタイプのハプロタイプは、アラインメント閾値を超えるアラインメントスコアをそれぞれ有するアラインメントされた長い配列リードの配列をトリミングし、トリミングされた長い配列リードを生成するために左フランキング領域及び右フランキング領域にアラインメントすることによって決定される。VNTRの複数のハプロタイプのハプロタイプは、トリミングされた長い配列リードに基づいて複数のハプロタイプのハプロタイプを決定することによって決定することができる。
【0021】
いくつかの実施形態において、参照サンプルは、VNTRについてホモ接合性である。VNTRの複数のハプロタイプのハプロタイプは、トリミングされた長い配列リードに基づいて、複数のハプロタイプのうちの1つのハプロタイプを含むと決定され得る。ただ1つのハプロタイプは、トリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることによって決定することができる。トリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることは、トリミングされた長い配列リードの長さに基づいてトリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることを含み得る。クラスタリングは、k平均クラスタリングを含むことができる。ただ1つのハプロタイプは、トリミングされた長い配列リードに基づいてただ1つのハプロタイプを決定することによって決定することができる。
【0022】
いくつかの実施形態において、参照サンプルは、VNTRについてヘテロ接合性である。VNTRの複数のハプロタイプのハプロタイプは、トリミングされた長い配列リードに基づいて、複数のハプロタイプのうちの2つのハプロタイプを含むと決定され得る。2つのハプロタイプは、トリミングされた長い配列リードを2つのクラスターにクラスタリングすることによって決定することができる。トリミングされた長い配列リードを2つのクラスターにクラスタリングすることは、トリミングされた長い配列リードの長さに基づいてトリミングされた長い配列リードを2つのクラスターにクラスタリングすることを含み得る。クラスタリングは、k平均クラスタリングを含むことができる。2つのハプロタイプは、2つのクラスターの第1のクラスター内のトリミングされた長い配列リードに基づいて2つのハプロタイプの第1のハプロタイプを決定することによって決定することができる。2つのハプロタイプは、2つのクラスターの第2のクラスター内のトリミングされた長い配列リードに基づいて2つのハプロタイプの第2のハプロタイプを決定することによって決定することができる。いくつかの実施形態において、トリミングされた長い配列リードは、異なる長さを有する第1の複数のトリミングされた長い配列リード及び第2の複数のトリミングされた長い配列リードを含む。異なる長さは、少なくとも5,000塩基対異なる。第1のクラスターは、第1の複数のトリミングされた長い配列リードの全て、実質的に全て、又は大部分を含み得る。第2のクラスターは、第2の複数のトリミングされた長い配列リードの全て、実質的に全て、又は大部分を含み得る。
【0023】
いくつかの実施形態において、VNTRの複数のハプロタイプのハプロタイプを決定するために、トリミングされた長い配列リードのコンセンサス配列が決定される。いくつかの実施形態において、トリミングされた長い配列リードのコンセンサス配列は、トリミングされた長い配列リードのそれぞれの位置について、その位置のトリミングされた長い配列リードの中で最も頻度の高い塩基ではない塩基を有し、複数の操作(例えば、削除操作、挿入操作、及び置換操作)のそれぞれを使用して、その位置のトリミングされた長い配列リードを修正し、(i)その塩基でのトリミングされた長い配列リードに対する操作の結果生じる修正されたトリミングされた長い配列リードと、(ii)修正されているトリミングされた長い配列リード以外のトリミングされた長い配列リードとの間の編集距離の和を決定することによって決定され、複数の操作のうちの編集距離の最小和をもたらす複数の操作の操作を用いて、又はトリミングされた長い配列リードを、編集距離の最小和に対応する修正されたトリミングされた長い配列リードと置き換えることによって、塩基においてトリミングされた長いシーケンスを修正することを含む。
【0024】
いくつかの実施形態において、トリミングされた長い配列リードのコンセンサス配列は、トリミングされた長い配列リードの対応する各位置について、その位置におけるトリミングされた長い配列リードの塩基の中で最も頻度の高い塩基を決定することと、その位置の最も頻度の高い塩基ではない塩基を有するトリミングされた長い配列リードの各々について、複数の操作(例えば、削除操作、挿入操作、及び置換操作)の各々について、(i)トリミングされた長い配列リードに対する操作の結果として生じる修正されたトリミングされた長い配列リードと、(ii)修正されているトリミングされた長い配列リード以外のトリミングされた長い配列リードとの間の編集距離の和を決定することと、編集距離の合計の中で編集距離の最小の合計を決定することと、編集距離の最小和をもたらす演算によって塩基においてトリミングされた長い配列リードを修正するか、又は編集距離の最小和に対応する修正されたトリミングされた長い配列リードによってトリミングされた長い配列リードを置き換えることと、によって決定される。いくつかの実施形態において、複数の操作は、その位置におけるトリミングされた長い配列の塩基を欠失させること、その位置における最も頻度の高い塩基をその位置におけるトリミングされた長い配列に挿入すること、及びその位置におけるトリミングされた長い配列の塩基をその位置における最も頻度の高い塩基と置き換えることを含む。
【0025】
いくつかの実施形態において、参照においてVNTRにアラインメントされた複数の長い配列リードのうちの長い配列リードの品質は、品質基準を満たす。複数のハプロタイプの品質は、品質基準を満たすことができる。
【0026】
いくつかの実施形態では、VNTRの状態は、VNTRのハプロタイプ状態を含む。ハプロタイプ状態は、ハプロタイプ、ハプロタイプの長さ、及び/又はハプロタイプの長さの信頼区間を含み得る。VNTRの状態は、VNTRの遺伝子型状態を含むことができ、遺伝子型状態は、遺伝子型、遺伝子型のハプロタイプの長さ、及び/又は遺伝子型の各ハプロタイプの長さの信頼区間を含むことができる。信頼区間は、ハプロタイプの最短長及びハプロタイプの最長長を含み得る。
【0027】
いくつかの実施形態では、対象のVNTRのハプロタイプ状態を決定することは、確率指標が確率基準を満たす複数のハプロタイプのうちの2つ以上のハプロタイプを決定することを含む。試験対象のVNTRのハプロタイプ状態を決定することは、決定された2つ以上のハプロタイプの長さを決定することを含み得る。ハプロタイプの最短の長さは、決定された2つ以上のハプロタイプの長さの最短の長さであり得る。ハプロタイプの最長の長さは、決定された2つ以上のハプロタイプの長さの最長の長さであり得る。いくつかの実施形態では、ハプロタイプ状態の精度は少なくとも60%である。
【0028】
いくつかの実施形態では、VNTRの複数のハプロタイプの各々の確率指標は、VNTRの複数のハプロタイプの各々の確率を含む。確率基準は、確率閾値を含むことができる。
【0029】
いくつかの実施形態では、複数の長い配列リードは、それぞれが約10,000塩基対~約20,000塩基対の長さである配列リードを含む。複数の長い配列リードは、標的配列決定又は全ゲノム配列決定(WGS)によって生成することができる。WGSは臨床用WGS(cWGS)であり得る。複数の参照対象は、ヒト対象を含み得る。
【0030】
いくつかの実施形態では複数の短い配列リードは、それぞれが約100塩基対~約1000塩基対の長さである配列リードを含む。複数の短い配列リードは、ペアエンド配列リードを含み得る。複数の短い配列リードは、シングルエンド配列リードを含み得る。複数の短い配列リードは、標的配列決定又は全ゲノム配列決定(WGS)によって生成することができる。WGSは臨床用WGS(cWGS)であり得る。対象は、ヒト対象を含むことができる。第1のサンプルは、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液サンプル、生検サンプル、又はそれらの組み合わせを含み得る。第1の対象は、ヒト対象であり得る。
【0031】
いくつかの実施形態において、複数の参照対象は、試験対象を含む。複数の参照サンプルは、試験サンプルを含むことができる。いくつかの実施形態では、複数の参照サンプル及び/又は試験サンプルは、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液サンプル、生検サンプル、又はそれらの組み合わせを含む。複数の参照サンプルは、少なくとも50個のサンプルを含むことができる。
【0032】
いくつかの実施形態では、VNTRの複数のハプロタイプの各ハプロタイプは、反復単位の複数のコピーを含む。反復単位は、6塩基対を超える長さであり得る。複数のコピーの数は、少なくとも3つであり得る。いくつかの実施形態では、複数のハプロタイプのハプロタイプの反復単位の複数のコピーの2つのコピーの配列は、1つ又は複数の分化位置において異なる。ハプロタイプの反復単位の複数のコピーのうちの2つのコピーの配列は、少なくとも80%の配列同一性を有する。複数のハプロタイプのハプロタイプの反復単位の複数のコピーの2つのコピーの配列は同一であり得る。いくつかの実施形態では、VNTRの複数のハプロタイプのうちの2つのハプロタイプは、反復単位の異なる数のコピーを含む。いくつかの実施形態では、VNTRの複数のハプロタイプのうちの2つのハプロタイプは、反復単位の同一の数のコピーを含む。いくつかの実施形態では、2つのハプロタイプの一方の反復単位のコピーの配列及び2つのハプロタイプの他方の反復単位のコピーの配列は、1つ又は複数の分化位置において異なる。配列は、少なくとも80%の配列同一性を有することができる。2つのハプロタイプの一方の反復単位のコピーの配列及び2つのハプロタイプの他方の反復単位のコピーの配列は同一であり得る。
【0033】
本明細書に記載されている主題の1以上の実装形態の詳細が、添付の図面及び以下の説明に記述されている。その他の特徴、態様、及び利点は、本明細書、図面、及び特許請求の範囲から明らかになるであろう。本概要も以下の発明を実施するための形態も、本発明の主題の範囲を定義又は制限するものと言っているわけではない。
【図面の簡単な説明】
【0034】
図1】参照配列及び5つのサンプルにおけるVNTRの非限定的な例示的説明を示す図である。
図2】長いリードからのVNTRデータベースの構築の非限定的な例示的な概略図を示す図である。
図3A】複数の長いリードからハプロタイプを生成することの非限定的な例示的概略図である。
図3B】複数の長いリードからハプロタイプを生成することの非限定的な例示的概略図である。
図4】短いリード上の遺伝子型VNTRの非限定的な例示的概略図である。
図5】VNTRステータス(例えば、VNTRハプロタイプ又は遺伝子型)を判定する例示的な方法を示すフロー図である。
図6】VNTR状態(例えば、VNTRハプロタイプ又は遺伝子型)の判定を実施するように構成された例示的なコンピューティングシステムのブロック図である。
【0035】
図面全体を通して、参照番号は、参照要素間の対応を示すために再使用されてもよい。図面は、本明細書に記載される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図するものではない。
【発明を実施するための形態】
【0036】
以下の詳細な説明では、添付の図面を参照し、添付の図面は本明細書の一部をなす。図面において、同様の記号は、文脈上特に指示されない限り、典型的には同様の構成要素を特定する。詳細な説明、図面、及び特許請求の範囲に記載される例示的な実施形態は、限定することを意図するものではない。本明細書に提示される主題の趣旨又は範囲から逸脱することなく、その他の実施形態を利用することができ、その他の変更を加えることができる。本開示の態様は、本明細書に全般的に記載され、図面に例示されるように、多種多様な異なる構成で配置され、置換され、組み合わされ、分離され、及び設計され得ることが容易に理解され、それらの全てが本明細書で明示的に企図されており、本明細書の開示の一部をなす。
【0037】
本明細書で参照される全ての特許、公開された特許出願、その他の刊行物、及びGenBankからの配列、及び本明細書で参照されるその他のデータベースは、関連技術に関してそれら全体が本明細書に参照により組み込まれる。
【0038】
本明細書に開示されるのは、VNTRのジェノタイピングなど、可変数タンデムリピート(VNTR)状態を決定する方法である。いくつかの実施形態において、VNTR状態を決定する方法は、プロセッサ(例えば、ハードウェアプロセッサ又は仮想プロセッサ)の制御下にあり、複数の第1の対象から得られた複数の第1のサンプルから生成された複数の長い配列リードを受け取る工程を含む。本方法は、参照(例えば、参照ヒトゲノム配列、例えば、hg19又はhg38)においてVNTRにアラインメントされた複数の長い配列リードのうちの長い配列リードを使用して、VNTRの複数のハプロタイプを決定する工程を含み得る。この方法は、第2の対象から得られた第2のサンプルから生成された複数の短い配列リードを受け取る工程を含み得る。本方法は、VNTRの複数のハプロタイプの各々について、再編成を生成するために、VNTRにアラインメントされた複数の短い配列リードのうちの短い配列リードをハプロタイプに再編成することを含み得る。本方法は、ハプロタイプに再アラインメントされた短い配列リードの再アラインメントを使用して、第2の対象に対するVNTRの複数のハプロタイプの各々の確率指標を決定する工程を含み得る。本方法は、複数のハプロタイプの各々の確率指標に基づいて第2の対象のVNTRの状態を決定する工程を含み得る。いくつかの実施形態では、本方法は、VNTRの状態を表す又は含むUI要素を含むユーザインターフェース(UI)を生成する工程を含む。
【0039】
本明細書に開示されるのは、VNTRのジェノタイピングなど、可変数タンデムリピート(VNTR)状態を決定するシステムである。いくつかの実施形態では、VNTRステータスを判定するためのシステムは、実行可能命令及びVNTRの複数のハプロタイプを記憶するように構成された非一時的メモリを含む。システムは、非一時的メモリと通信するプロセッサ(例えば、ハードウェアプロセッサ又は仮想プロセッサ)を含むことができ、プロセッサは、試験対象から得られた試験サンプルから生成された複数の短い配列リードを受信することを実行するように実行可能命令によってプログラムされている。プロセッサは、実行可能命令によって、VNTRの複数のハプロタイプの各々について、VNTRにアラインメントされた複数の短い配列リードのうちの短い配列リードをハプロタイプに再アラインメントして再アラインメントを生成することを行うようにプログラムされ得る。プロセッサは、実行可能命令によって、ハプロタイプに再アラインメントされた短い配列リードの再アラインメントを使用して、試験対象に対する複数のハプロタイプの各々の確率を決定することを実行するようにプログラムされ得る。プロセッサは、実行可能命令によって、試験対象のVNTRの状態を判定することを実行するようにプログラムすることができる。いくつかの実施形態では、プロセッサは、実行可能命令によって、VNTRの状態を表す又は含むUI要素を含むユーザインターフェース(UI)を決定することを実行するようにプログラムされる。
【0040】
ジェノタイピング変数タンデム反復
本明細書に開示されるのは、短いリード配列決定データ(例えば、合成による配列決定などの配列決定方法によって生成された配列決定データ)での可変数タンデムリピート(VNTR)遺伝子タイピング性能を有意に改善するジェノタイピング因子である。例えば、改良は、予め構築されたVNTRデータベースを利用することによって行われた。別の例として、低複雑度領域に対する現在のジェノタイピング法を最適化することによって改善を行った。本開示はまた、例えばPacific Biosciences of California,Inc.(PacBio,Menlo Park,CA)HiFiデータから集団VNTRデータベースを構築することができるワークフローを提供する。
【0041】
VNTRは、リピートが6塩基対(bps)を超え、リピート領域が80%を超える純粋な(正確なリピートについて20%未満のミスマッチ)リピート配列であり得る。VNTRの構造変異(SV)には、反復配列の挿入/欠失が含まれる。変異は、高度に集団特異的であり得る。いくつかのVNTRは、双極性障害及び単遺伝子糖尿病などの遺伝病を引き起こすことが知られている。VNTRは、サンプル毎の変動のかなりの割合を占める。個体あたり全SVの約半分(10k超)がVNTRとして分類され得る。平均して、一人の人は、VNTRにおいて約2.2メガ塩基対(Mbps)の欠失配列及び約5.7Mbpsの挿入配列を有する。
【0042】
図1は、参照配列及び5つのサンプルにおけるVNTRの非限定的な例示的説明を示す。参照ヒトゲノムGRCh38中のVNTRは、chr1:3428147-3428340にある(図1、左上パネル)。反復単位は48bpsの長さを有する。反復単位の参照配列は、GRCh38の
【0043】
【表1】
である。VNTR中の反復単位の異なるコピー(ハプロタイプ内又はハプロタイプ間)は、特に太字及び下線の3つの塩基で異なり得る。3つの塩基は、反復単位の第1のタイプ又は配列において、それぞれG、G及びAであり得、反復単位の第2のタイプ又は配列におけるG、G及びGであり得、反復単位の第3のタイプ又は配列におけるA、G及びAであり得、並びに反復単位の第4のタイプ又は配列におけるG、A及びGであり得る(図1、右上パネル)。VNTRは、GRCh38中の反復単位の4つのコピーを含む(図1、底部パネル)。4つのコピーは、第1のタイプの2つのコピーと、それに続く第2のタイプの2つのコピーとを含む(図1、底部パネル)。5つのサンプルは、それぞれ反復単位の3、5、7、7、及び10コピーを含んでいた。アフリカ人である対象のサンプルNA19240の場合、VNTRは、第1のタイプの1つのコピーに続いて第2のタイプの2つのコピーを含んでいた。欧州人の対象のサンプルNA12878について)、VNTRは、第1のタイプの1つのコピー、第2のタイプの3つのコピー及び第1のタイプの1つのコピーを含んでいた。欧州人である対象のサンプルNA24385について、VNTRは、第1のタイプの1つのコピー、第2のタイプの1つのコピー、第1のタイプの2つのコピー、第2のタイプの2つのコピー及び第3のタイプの1つのコピーを含んでいた。東アジア人である対象のサンプルHG00597の場合、VNTRは、第2のタイプの3つのコピー、第1のタイプの1つのコピー、及び第2のタイプの3つのコピーを含んでいた。アフリカ人である対象のサンプルHG03453の場合、VNTRは、第1のタイプの1つのコピー、第2のタイプの2つのコピー、第4のタイプの1つのコピー、第1のタイプの1つのコピー、第2のタイプの1つのコピー、第4のタイプの1つのコピー、及び第2のタイプの3つのコピーを含んでいた。
【0044】
VNTRジェノタイピングは、短読みパイプラインでは欠落している。短いリードは、ほとんどのVNTRの全長をカバーできないことが多い。短いリードは、本明細書では短い配列リードとも呼ばれる。VNTRの約29%は、一個体において150bps以上の全長を有する追加のリピートを有する。VNTRの反復性のために、短いリードからVNTRのハプロタイプを正しく再構築することは極めて困難である。VNTR検出力は、短いリードパイプラインにおいて非常に低い。例えば、VNTRについてのDRAGEN v3.4検出力は20%未満である。
【0045】
本明細書では、以下の1つ又は複数を含むVNTRジェノタイピング方法を実施するVNTR遺伝子型が開示される。第1に、この方法は、集団における共通のVNTRハプロタイプのデータベースを構築することを含み得る(又はVNTR遺伝子型解析者が行い得る)。高精度であり得る長いリード(例えば、PacBio HiFiリード)を使用して、一般的なVNTRハプロタイプのデータベースを構築することができる。本明細書では、長いリードはまた、長い配列リードとも呼ばれる。第2に、本方法は、Illumina,Inc.(San Diego,CA)からの配列決定機器を使用して生成される短いリード等の、合成による配列決定を含む配列決定方法によって生成される標的VNTR領域から短いリードを抽出することを含み得る。これらの抽出された短いリードは、データベース内の各ハプロタイプ配列に再編成することができる。第3に、本方法は、再アラインメントから最も可能性の高いVNTRハプロタイプ(したがって遺伝子型)を導出することを含み得る。VNTRは通常、異なるハプロタイプの反復単位間に差異を有する。反復単位間の差は、本明細書では分化塩基と呼ぶことができる。最も可能性の高いハプロタイプ(したがって遺伝子型)は、これらの分化位置から決定することができる(例えば、ハプロタイプ内及びVNTRのハプロタイプ間で塩基を区別することについては、図1の右上のパネルを参照のこと)。
【0046】
方法は、高精度であり得る長いリード(例えば、PacBio HiFiリード)からVNTRデータベースを構築することを含み得る。PacBio HiFiリードは、大部分のVNTRの全長に及ぶのに十分な長さ(平均15kb)である。長いリード配列決定は、DNAインプット及びコストによって制限され、大規模に行うことができない。しかしながら、本明細書中に記載されるように、データベースを構築するためにいくつかのサンプル(例えば、数百のサンプル)を配列決定することが可能である。
【0047】
図2は、長いリードからVNTRデータベースを構築する例を示す。各サンプルについて、標的VNTR領域から長いリード(例えば、PacBio HiFiリード)を抽出することができる。リードは、両側のフランキング領域に対する良好なアラインメントを有するVNTRリードの左右のフランキング領域にアラインメントすることができる。フランキング領域は、リードからトリミングすることができる。トリミングされたリードが1つのハプロタイプに由来するか2つのハプロタイプに由来するかを区別することができる。例えば、リードが2つのクラスターにクラスタリングされ得る(例えば、クラスタリングされたk平均)場合、サンプルはヘテロ接合性である。そうでなければ、サンプルはホモ接合性である。ハプロタイプ(複数可)は、分化したリードから組み立てることができる。例えば、リードを2つのクラスターにクラスタリングすることができる場合、各クラスター内のリードをハプロタイプに組み立てることができる。2つのクラスター内のリードは、2つのハプロタイプに組み立てることができる。リードを2つのクラスターにクラスタリングすることができない場合、リードをハプロタイプに組み立てることができる。得られた反復ハプロタイプのデータベースは、「星型対立遺伝子」を含み得る。例えば、データベース内のハプロタイプは、ハプロタイプを区別するために使用することができる区別塩基を含むことができる。ハプロタイプ中の反復単位は、ハプロタイプを区別するために使用することができる区別塩基を含み得る。図2に示される3つのハプロタイプは、それぞれ4、5及び6コピーの反復単位を有する。
【0048】
低い配列決定エラー率(例えば、1%未満)では、各位置で異なる塩基が観察されることは稀であるはずである。したがって、図3A図3Bを参照して示される方法は、配列決定エラーを訂正し、ハプロタイプを組み立てるために使用され得る。各位置について、これらのリード(例えば、トリミングされたリード)の中で最も高い割合(最も一般的)を有する塩基を「コンセンサス塩基」(本明細書では「真の塩基」とも呼ばれる)として標識する。「コンセンサス塩基」とは異なる塩基を有する各リード(例えば、トリミングされたリード)について、以下の3つのアクション(又は操作)を独立して実行する:塩基を削除する、「コンセンサス塩基」を追加する、又は塩基を「コンセンサス塩基」に変更する。各アクション(又は演算)によって生成された修正リード(例えば、トリミングされたリードから修正されたリード)と他の各リード(例えば、トリミングされたリード)との間の距離(例えば、編集距離)を計算することができ、これらの距離を合計することができる。読み出しは、距離の合計が最も小さいアクション(又は演算)で修正することができる。動作の距離の合計と別の動作の距離の合計は、可能性は低いが、同じであり得る(同点)。アクションに対する距離の和と他のアクションに対する距離の和とが同じであれば、2つのアクションのうちの一方を例えばランダムに選択することができる。このプロセスは、全てのリードが同じ配列を有するまで、各リード、次いで各位置(又は各位置、次いで各リード)について繰り返すことができる。低い配列決定エラー率(例えば、1%未満)では、各位置の「コンセンサス塩基」とは異なる塩基は、各位置の塩基のごく一部でなければならない。
【0049】
図3A~3Bは、複数の長いリードからハプロタイプを生成する例を示す。各長いリードの先頭からスキャンする。ある位置で、塩基が全てのリードの間で同じ100%でない場合、全てのリードの中で最も多く現れる塩基を「コンセンサス塩基」又は「真の塩基」と仮定する。次いで、異なる塩基を有するリードを「コンセンサス塩基」として固定しようと試みる。各読み取りの終わりに達するまで塩基の走査及び固定を継続する。図3A図3Bに示す例では、3つのリードは、配列ATCG、ATCT、及びATTCGを有する。第3の位置に多い塩基はシトシン(C)である。リード3における3番目の塩基(太字及び下線)は、チミン(T)であり、「コンセンサス塩基」とは異なる。以下の3つのアクション(又は操作)は、リード3における第3の塩基に対して独立して行うことができる:塩基の削除、「コンセンサス塩基」の追加、又は塩基の「コンセンサス塩基」への変更。第3の塩基が欠失している場合、ATCGの配列による修正リード3と、リード1及びリード2との間の距離(例えば、編集距離)は、それぞれ0及び0である。したがって、塩基を削除する作用のための距離の合計は0である。第3の塩基が「コンセンサス塩基」に変更される場合、修正リード3はATCCGの配列を有する。修正リード3とリード1及びリード2との間の距離は、それぞれ1及び1である。従って、塩基を「コンセンサス塩基」に変化させる作用についての距離の合計は2である。「コンセンサス塩基」がリード3の3番目の位置に付加又は挿入される場合、修正されたリード3は、ATCTCGの配列を有する。修正リード3とリード1及びリード2との間の距離は、それぞれ2及び2である。したがって、「コンセンサス」塩基を追加する動作の距離の合計は4である。結果として得られる距離の合計は、3つのアクションの中で塩基を削除するアクションにとって最小であるため、そのアクションが選択される。動作の距離の合計と別の動作の距離の合計は、可能性は低いが、同じであり得る(同点)。アクションに対する距離の和と他のアクションに対する距離の和とが同じであれば、2つのアクションのうちの一方を例えばランダムに選択することができる。修正リード3は、第3位置に固定される。このプロセスは、全てのリードの終わりに達するまで繰り返される。
【0050】
図4は、短いリード上の遺伝子型VNTRの一例を示す。短いリード(例えば、Illuminaリードペア)は、VNTRの位置にあるBAMファイルから抽出することができる。各リードは、VNTRハプロタイプデータベース中のハプロタイプの各々に再整列され得る。いくつかの実施形態では、再アラインメントにおいてギャップは許容されない。各ハプロタイプ/リード対の組み合わせをスコア付けすることができる。スコアリングのためにいくつかの実施形態で使用されるVNTRジェノタイピングモデルは以下の通りである。
L塩基を有するリードRについて、所与のハプロタイプHに対するその確率は、以下の通りである。
【0051】
【数1】
式中、Aは、kth塩基についてのハプロタイプH上のアラインメントであり、
P(A)は、マッチ/ミスマッチ状態及び塩基品質スコアに従って予め定義される。
フラグメント長Fを有するリード対に関して、上記の確率は以下のように拡張される。
P(Ri1,Ri2│H)=P(Ri1│H)P(Ri2│H)P(F),
式中、P(F)は、所与のサンプルにおける全体的なフラグメント長分布から推定される。
次いで、特定の二倍体遺伝子型G=H/Hについてのリードの確率Rは、以下の通りである。
P(R│G=H/H)=0.5*(P(R│H)+P(R│H))
各リードについて、あらゆる可能な遺伝子型についてP(R)を計算する。
最終的な遺伝子型は、同じベイズのアプローチを用いて、全てのMの可能な遺伝子型上の全てのNリードのP(R)から導出される。
【0052】
【数2】
事前P(G)は、Gの母集団頻度から推定される。
【0053】
「星型対立遺伝子」を有さないいくつかの純粋な反復では、2つ以上の最良の遺伝子型が観察され得る。断片長情報は、可能性のある遺伝子型を絞り込むのに役立ち得るが、この曖昧性を完全に排除することはできない。いくつかの実施形態では、信頼区間(CI)は、VNTR長の推定値として報告される。これら全ての等しく最良の遺伝子型をカバーすることができる最小セットを最初に導出することができる。この最小セットを使用して、CIを各ハプロタイプについて[最短対立遺伝子、最長対立遺伝子]として報告することができる。例えば、VNTRは、長さが50/60、50/80である2つの可能な遺伝子型を有するとして遺伝子型決定され、[50,50]及び[60,80]のCIを有すると報告することができる。
【0054】
VNTRジェノタイピング精度。改善されたVNTRジェノタイピング精度が、本明細書に記載されるジェノタイピング方法を用いて得られた(表1)。60個のサンプルをPacBio HiFiで配列決定した。Illumina NovaSeq 6000を使用して、VNTRのジェノタイピング精度を試験した。総数1,000個のVNTRをこの分析で試験した。本明細書に記載されるジェノタイピング法は、正確な遺伝子型、反復長、及び反復長CIによって測定される62%、71%、及び78%の精度を有した。反復長によって測定されるDragen v3.4大変異体検出精度は16%であった。パラグラフ(Chen,S.,et al.Paragraph:a graph-based structural variant genotyper for short-read sequence data.Genome Biol 20,291(2019);その内容は参照によりその全体が本明細書に組み込まれる)において、反復存在が正しくジェノタイピングされたかどうかによって測定された大きな変異体のジェノタイピング精度は38%であった。
【0055】
【表2】
【0056】
「星型対立遺伝子」は、いくつかの純粋なリピートについては存在しない。PacBio HiFiデータは、大きなホモポリマーを有する領域では低い品質を有し得る。VNTRジェノタイピング精度は、高品質のアセンブルされたハプロタイプを含むホワイトリストに分析を限定することによって改善された(表2)。ホワイトリストを生成するために使用されたフィルタリング基準は、ホモポリマー長さ、反復単位の純度、ハプロタイプアセンブリ品質、及び集団における反復変動性を含んだ。表2に示される性能は、最初に試験されたVNTRの60%をカバーするホワイトリストに基づいていた。示される改善は、表1に示される最初に試験されたVNTRの性能に対するものである。ホワイトリストでは、VNTRジェノタイピング性能が改善された。
【0057】
【表3】
【0058】
VNTR状態の決定
図5は、VNTRのジェノタイピングなど、VNTR状態(例えば、VNTRハプロタイプ又は遺伝子型)を決定する例示的な方法500を示すフロー図である。方法500は、コンピューティングシステムの1つ以上のディスクドライブなどのコンピュータ可読媒体上に記憶された実行可能プログラム命令のセット内で具現化されてもよい。例えば、図6に示され、以下でより詳細に説明されるコンピューティングシステム600は、方法500を実施するための実行可能プログラム命令のセットを実行することができる。方法500が開始された場合、実行可能プログラム命令は、RAMなどのメモリにロードされ、コンピューティングシステム600の1つ以上のプロセッサによって実行することができる。方法500は、図6に示されるコンピューティングシステム600について説明されているが、説明は単なる例示であり、限定することを意図するものではない。いくつかの実施形態では、方法500又はその部分は、複数のコンピューティングシステムによって連続的に又は並列に実行されてもよい。
【0059】
方法500がブロック504で開始した後、方法500はブロック508に進み、コンピューティングシステム(例えば、図6を参照して説明したコンピューティングシステム600)が、複数の第1の対象(又は参照対象)から得られた複数の第1のサンプル(又は参照サンプル)から生成された複数の長い配列リードを受け取る。長い配列リードは、本明細書では長いリードとも呼ばれる。長い配列リードは、例えば、PacBio HiFiリードであり得る。長い配列リードは、例えば、5キロ塩基対(kbps)、6kbps、7kbps、8kbps、9kbps、10kbps、11kbps、12kbps、13kbps、14kbps、15kbps、20kbps、25kbps、30kbps、又はそれ以上であり得る。例えば、複数の長い配列リードは、約10kbps~約20kbpsである配列リードを含む。複数の長い配列リード(又はブロック512でVNTRの左フランキング領域及び右フランキング領域に整列される長い配列リード)の各々の1つ、1つ又は複数は、95%、96%、97%、98%、99%、又はそれ以上などの高い精度を有し得る。複数の第1のサンプルは、少なくとも40、50、60、70、80、90、100、200、300、400、500、1000個、又はそれ以上のサンプルを含むことができる。複数の長い配列リードは、標的配列決定又は全ゲノム配列決定(WGS)によって生成することができる。WGSは臨床用WGS(cWGS)であり得る。複数の第1の対象は、ヒト対象を含むことができる。
【0060】
方法500はブロック508からブロック512に進み、ここで、コンピューティングシステムは、複数の長い配列リードのうち、参照においてVNTRにアラインメントされた長い配列リードを使用して、VNTRの複数のハプロタイプ(又はVNTRのハプロタイプのデータベース)を決定する(図2及び添付の説明を参照されたい)。参照は、例えば、hg19又はhg38などの参照ヒトゲノム配列であり得る。VNTRの複数のハプロタイプのうちの1つのハプロタイプは、疾患に関連する。この病気の非限定的な例には、双極性疾患、MCKD1、卒中、CAD、FSHD、ADHD、パーキンソン病、びまん性汎細気管支炎(DPB)、一遺伝子糖尿病、T1D、T2D、肥満、OCD、ADHD、離断性骨軟骨炎、川崎病、卒中におけるATF、BPSD、アルツハイマー病、OCD、不安、統合失調症、転移性結腸直腸癌、川崎病、又は進行性ミオクローヌスてんかん1Aが含まれる。VNTRは、コード領域又は非コード領域に存在し得る。VNTRは、5’非翻訳領域(UTR)、プロモーター、イントロン、又は3’UTRに存在し得る。VNTRを含む又はVNTRに影響される遺伝子は、例えば、PER3、MUC1、IL1RN、DUX4、DAT1、MUC21、CEL、INS、DRD4、ACAN、ZFHX3、GP1BA、SERT、SERT、HIC1、MMP9、CSTB又はMAOAであり得る。
【0061】
VNTRの複数のハプロタイプの各ハプロタイプは、反復単位の複数のコピーを含み得る。反復単位は、6bps、7bps、8bps、9bps、10bps、11bps、12bps、13bps、14bps、15bps、16bps、17bps、18bps、19bps、20bps、30bps、40bps、50bps、60bps、70bps、80bps、90bps、100bps、150bps、200bps、又はそれ以上の長さであり得る(又は少なくとも又はそれ以上であり得る)。複数のコピーの数は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100、150、200、300、400、500以上であり得る(又は少なくとも若しくはそれ以上であり得る)。病原性コピー数は、参照におけるコピー数と等しいか、それより多いか、又はそれより少ないものであり得る。
【0062】
ハプロタイプの反復単位の2つのコピーは、特定の位置(本明細書では分化位置と呼ばれる)における塩基の分化を含み得る。例えば、複数のハプロタイプのハプロタイプの反復単位の複数のコピーのうちの2つのコピーの配列は、1つ又は複数の分化位置(例えば、2、3、4、5、10、20、又はそれ以上の位置)において異なる。ハプロタイプの星型対立遺伝子は、これらの位置における塩基の分化を含み得る。星型対立遺伝子は、2つ以上のハプロタイプを互いに区別するのに役立ち得る位置を含み得る。ハプロタイプの反復単位の複数のコピーのうちの2つのコピーの配列は、70%、75%、80%、85%、90%、95%、99%又はそれを超える配列同一性を有する(又は少なくとも有する)。複数のハプロタイプのハプロタイプの反復単位の複数のコピーの2つのコピーの配列は同一であり得る。いくつかの実施形態では、VNTRの複数のハプロタイプのうちの2つのハプロタイプは、反復単位の異なる数のコピーを含む。
【0063】
2つのハプロタイプの各々における反復単位のコピーは、ある特定の位置(本明細書では分化位置と呼ばれる)における塩基の分化を含み得る。例えば、VNTRの複数のハプロタイプのうちの2つのハプロタイプは、反復単位の同一の数のコピーを含む。2つのハプロタイプの一方の反復単位のコピーの配列及び2つのハプロタイプの他方の反復単位のコピーの配列は、1つ又は複数の分化位置において異なり得る。ハプロタイプの星型対立遺伝子は、これらの位置における塩基の分化を含み得る。2つのコピーの配列は、70%、75%、80%、85%、90%、95%、99%又はそれ以上の配列同一性を有する(又は少なくとも有する)ことができる。2つのハプロタイプの一方の反復単位のコピーの配列及び2つのハプロタイプの他方の反復単位のコピーの配列は同一であり得る。
【0064】
VNTRの複数のハプロタイプを決定するために、コンピューティングシステムは、VNTRの複数のハプロタイプを含むデータベースを構築又は作成することができる。VNTRの複数のハプロタイプを決定するために、コンピューティングシステムは、複数の第1のサンプルのそれぞれについて、参照においてVNTRにアラインメントされた第1のサンプルの複数の長い配列リードのうちの長い配列リードを抽出することができる。コンピューティングシステムは、VNTRの左フランキング領域及び右フランキング領域に抽出された長い配列リードを再アラインメントして、アラインメントされた長い配列リードを決定することができる。アラインメントされた長い配列リードは、左フランキング領域及び右フランキング領域とアラインメントされた長い配列リードであり得る。アラインメントされた長い配列リードは、例えば、左フランキング領域及び右フランキング領域に対して関連するアラインメントを有する長い配列リードであり得る。コンピューティングシステムは、アラインメント閾値(例えば、80%、85%、90%、95%、99%又は100%の配列同一性)を超えるアラインメントスコアをそれぞれ有するアラインメントされた長い配列リードに基づいて、複数のハプロタイプのハプロタイプを決定することができる。アラインメント閾値は、予め決定することができる。いくつかの実施形態では、アラインメント閾値は、100、200、300、400、500、1000、2000、3000、4000、5000、又はそれ以上若しくはそれ以下のサンプルなど、多数のサンプルを使用して決定される。第1のサンプルの複数の長い配列リードのうちの少なくとも1つの長い配列リードをVNTRにアラインメントすることができる。第1のサンプルの複数の長い配列リードのうちの少なくとも1つの長い配列リードは、左フランキング領域に再編成することができ、右フランキング領域はVNTRに及ぶ。いくつかの実施形態では、VNTRの複数のハプロタイプのハプロタイプを決定するために、コンピューティングシステムは、アラインメント閾値を超えるアラインメントスコアをそれぞれ有するアラインメントされた長い配列リードのうち、左フランキング領域及び右フランキング領域にアラインメントされた配列をトリミングして、トリミングされた長い配列リードを生成することができる。コンピューティングシステムは、トリミングされた長い配列リードに基づいて複数のハプロタイプのハプロタイプを決定することができる。
【0065】
第1のサンプルは、VNTRについてヘテロ接合性であり得る。複数のトリミングされた長い配列リードは、2つのクラスターにクラスタリングされ得る。複数のハプロタイプのハプロタイプを決定するために、コンピューティングシステムは、トリミングされた長い配列リードに基づいてVNTRの複数のハプロタイプの2つのハプロタイプを決定することができる。2つのハプロタイプを決定するために、コンピューティングシステムは、トリミングされた長い配列リードを2つのクラスターにクラスタリングすることができる。コンピューティングシステムは、トリミングされた長い配列リードを、トリミングされた長い配列リードの長さに基づいて2つのクラスターにクラスタリングすることができる。コンピューティングシステムは、クラスタリング法を使用して、トリミングされた長い配列リードを2つのクラスターにクラスタリングすることができる。クラスタリング方法は、k平均クラスタリング(例えば、kは2に等しい)を含むことができる。クラスタリング方法は、階層的クラスタリングを含むことができる。クラスタリング方法は、例えば、連結性モデル、重心モデル、分布モデル、又は密度モデルを使用して実行することができる。コンピューティングシステムは、2つのクラスターの第1のクラスター内のトリミングされた長い配列リードに基づいて、2つのハプロタイプの第1のハプロタイプを決定することができる。コンピューティングシステムは、2つのクラスターの第2のクラスター内のトリミングされた長い配列リードに基づいて、2つのハプロタイプの第2のハプロタイプを決定することができる。いくつかの実施形態において、トリミングされた長い配列リードは、異なる長さを有する第1の複数のトリミングされた長い配列リード及び第2の複数のトリミングされた長い配列リードを含む。クラスターは、約1キロ塩基対(kbps)、2kbps、3kbps、4kbps、5kbps、10kbps、15kbps、20kbps、30kbps、40kbps、50kbps、100kbps、又はそれ以上の長さ(例えば、クラスター内のトリミングされた長い配列リードの平均長さ)を有し得る。2つのクラスターの長さ(例えば、各クラスターにおけるトリミングされた長い配列リードの平均長)は、約、又は少なくとも、1kbps、2kbps、3kbps、4kbps、5kbps、10kbps、15kbps、20kbps、30kbps、40kbps、50kbps、100kbps以上だけ異なり得る。例えば、一方のクラスターの長さは約5kbpsであり、他方のクラスターの長さは約30であり、2つのクラスターの長さは約25kbpsだけ異なり得る。第1のクラスターは、第1の複数のトリミングされた長い配列リードの全て、実質的に全て(例えば、90%、95%、99%、若しくはそれ以上)、又は大部分(例えば、51%、60%、70%、80%、若しくはそれ以上)を含み得る。第2のクラスターは、第2の複数のトリミングされた長い配列リードの全て、実質的に全て、又は大部分を含み得る。
【0066】
第1のサンプルは、VNTRについてホモ接合性であり得る。第1のサンプルは、VNTRについてヘテロ接合性であり得る。複数のトリミングされた長い配列リードは、2つのクラスターにクラスタリングされ得ない。複数のハプロタイプのうちのハプロタイプを決定するために、コンピューティングシステムは、トリミングされた長い配列リードに基づいて、複数のハプロタイプのうちの1つのハプロタイプのみを決定することができる。ただ1つのハプロタイプを決定するために、コンピューティングシステムは、トリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることができる。例えば、トリミングされた長い配列リード間の分離は、トリミングされた長い配列リードが2つのクラスターにクラスタリングされない、及び/又はただ1つのクラスターにクラスタリングされるように十分に小さくすることができる。コンピューティングシステムは、トリミングされた長い配列リードの長さに基づいて、トリミングされた長い配列リードをただ1つのクラスターにクラスタリングすることができる。コンピューティングシステムは、クラスタリング法を使用して、トリミングされた長い配列リードをただ1つのクラスターのみにクラスタリングすることができる。クラスタリング方法は、k平均クラスタリング(例えば、kは2に等しい)を含むことができる。例えば、トリミングされた長い配列リードの長さの差は、トリミングされた長い配列リードが2つのクラスターにクラスタリングされない、及び/又はkが2であるk平均クラスタリングを使用してただ1つのクラスターにクラスタリングされるように十分に小さくすることができる。クラスタリング方法は、階層的クラスタリングを含むことができる。クラスタリング方法は、例えば、連結性モデル、重心モデル、分布モデル、又は密度モデルを使用して実行することができる。コンピューティングシステムは、トリミングされた長い配列リードに基づいてただ1つのハプロタイプを決定することができる。
【0067】
VNTRの複数のハプロタイプのハプロタイプを決定するために、コンピューティングシステムは、トリミングされた長い配列リードのコンセンサス配列を決定することができる(図2及び添付の説明を参照されたい)。いくつかの実施形態において、トリミングされた長い配列リードのコンセンサス配列を決定するために、コンピューティングシステムは、トリミングされた長い配列リードのそれぞれの各位置について、その位置におけるトリミングされた長い配列リードの中で最も頻度の高い塩基ではない塩基を用いて以下を行うことができる(トリミングされた全ての長い配列リードの次の位置に進む前に、トリミングされた全ての長い配列リードの(対応する)位置をトラバースすること、又は別のトリミングされた長い配列リードの各位置をトラバースする前に、トリミングされた長い配列リードの各位置をトラバースすること)。コンピューティングシステムは、複数の操作(例えば、削除操作、挿入操作、及び置換操作)の各々を独立して使用して、その位置でトリミングされた長い配列リードを修正し、(i)塩基におけるトリミングされた長い配列リードに対する操作の結果として生じる修正されたトリミングされた長い配列リードと、(ii)修正されているトリミングされた長い配列リード以外のトリミングされた長い配列リードとの間の距離の和(例えば、編集距離)を決定することができる。コンピューティングシステムは、複数の演算のうちの距離の最小和(例えば、編集距離)をもたらす複数の演算の演算を使用して、塩基におけるトリミングされた長いシーケンスを修正することができる。あるいは、コンピューティングシステムは、トリミングされた長い配列リードを、最小の距離の和(例えば、編集距離)に対応する修正されたトリミングされた長い配列リードと置き換えることができる。いくつかの実施形態において、複数の操作は、トリミングされた長い配列の塩基をその位置において欠失させることを含む。複数の操作は、その位置の最も頻度の高い塩基をその位置のトリミングされた長い配列に挿入することを含み得る。複数の操作は、その位置におけるトリミングされた長い配列の塩基を、その位置における最も頻度の高い塩基と置き換えることを含み得る。
【0068】
いくつかの実施形態において、トリミングされた長い配列リードのコンセンサス配列を決定するために、コンピューティングシステムは、トリミングされた長い配列リードの各位置について以下を実行することができる(トリミングされた全ての長い配列リードの次の位置に進む前に、トリミングされた全ての長い配列リードの(対応する)位置をトラバースすること、又は別のトリミングされた長い配列リードの各位置をトラバースする前に、トリミングされた長い配列リードの各位置をトラバースすること)。コンピューティングシステムは、その位置におけるトリミングされた長い配列リードの塩基の中で最も頻度の高い塩基を決定することができる。その位置の最も頻度の高い塩基ではない位置の塩基を有するトリミングされた長い配列リードの各々について、コンピューティングシステムは、(i)トリミングされた長い配列リードに対する複数の操作の各々から生じる修正されたトリミングされた長い配列リードと、(ii)修正されているトリミングされた長い配列リード以外のトリミングされた長い配列リードとの間の距離の和(例えば、編集距離)を決定することができる。コンピューティングシステムは、距離の和(例えば、編集距離)の中で最小の距離の和(例えば、編集距離)を決定することができる。コンピューティングシステムは、距離の最小和(例えば、編集距離)をもたらす演算によって、塩基において読み出されたトリミングされた長い配列リードを修正することができる。あるいは、コンピューティングシステムは、トリミングされた長い配列リードを、最小の距離の和(例えば、編集距離)に対応する修正されたトリミングされた長い配列リードと置き換えることができる。
【0069】
いくつかの実施形態において、長い配列リード及び/又はハプロタイプは、配列決定の質、ホモポリマーの長さ、反復単位の純度、ハプロタイプ集合体の質、及び集団における繰り返しの可変性などの質の基準に基づいて除外又は破棄され得る。(長い配列リードが参照においてVNTRにアラインメントされる前又は後の)複数の長い配列リードの質は、1つ又はそれを超える品質基準を満たすことができる。1つ又は複数の品質基準(又はフィルタリング基準)を満たさない長い配列リードは、複数のハプロタイプのハプロタイプを決定するために使用から除外又は破棄することができる。品質基準は、配列決定品質(例えば、Phred quality scoreなどの塩基コール精度)及びホモポリマー長を含み得る。例えば、長い配列リードは、大きいホモポリマーを有する領域において低い品質を有し得る。そのような低品質の長い配列リードは、複数のハプロタイプのハプロタイプを決定することから破棄することができる。一部の実施形態では、複数のハプロタイプの品質は、1つ又は複数の品質基準(又はフィルタリング基準)を満たす。1つ又は複数の品質基準を満たさないハプロタイプは、除外又は廃棄することができる。品質基準は、例えば、ホモポリマーの長さ、反復単位の純度、ハプロタイプ集合体の品質、及び/又は集団内の反復変動性を含み得る。残りのハプロタイプは、ハプロタイプのホワイトリストであり得る。ハプロタイプのホワイトリストは、方法500の1つ又は複数の後続ブロックで使用することができる。ハプロタイプのホワイトリストは、例えば、最初に決定された全てのハプロタイプの約50%、60%、70%、又は80%を含み得る(ハプロタイプのホワイトリスト及び除外又は破棄されたハプロタイプの両方を含む)。複数のハプロタイプは、除外されたハプロタイプではなく、ハプロタイプのホワイトリストを含み得る。
【0070】
いくつかの実施形態では、ブロック508で複数の長い配列リードを受信し、ブロック512で複数の長い配列リードを使用してVNTRの複数のハプロタイプを決定する代わりに、コンピューティングシステムは、VNTRの複数のハプロタイプ(又はVNTRのハプロタイプのデータベース)を受信する。代替的又は追加的に、VNTRの複数のハプロタイプ(又はVNTRのハプロタイプのデータベース)がコンピューティングシステムのメモリに記憶される。複数のハプロタイプは、ブロック512を参照して記載されるように、参照においてVNTRにアラインメントされた複数の長い配列リードのうちの長い配列リードを使用して決定され得る。
【0071】
方法500はブロック512からブロック516に進み、コンピューティングシステムが、第2の対象から得られた第2のサンプル(又は試験サンプル)から生成された複数の短い配列リードを受信する。短い配列リードは、本明細書では短いリードとも呼ばれる。短い配列リードは、例えば、それぞれ50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、1000、1250、1500、1750、2000又はそれ以上の塩基対(bps)の長さであり得る。例えば、短い配列リードは、それぞれ約100bp~約1000bpの長さである。短い配列リードは、ペアエンド配列リードを含み得る。配列リードは、シングルエンド配列リードを含み得る。短い配列リードは、標的配列決定によって生成することができる。短い配列リードは、全ゲノム配列決定(WGS)によって生成することができる。短い配列リードは、全ゲノム配列決定(WGS)によって生成することができる。WGSは臨床用WGS(cWGS)であり得る。第2のサンプルは、細胞、無細胞DNA、無細胞胎児DNA、羊水、血液サンプル、生検サンプル、又はそれらの組み合わせを含み得る。第2の対象は、ヒト対象であり得る。いくつかの実施形態では、複数の第1の対象は、第2の対象を含む。いくつかの実施形態において、複数の第1のサンプルは、第2のサンプルを含む。
【0072】
コンピューティングシステムは、配列リードをメモリに記憶することができる。コンピューティングシステムは、配列リードをメモリにロードすることができる。配列リードは、合成による配列決定、結合による配列決定、又はライゲーションによる配列決定などの技術によって生成することができる。配列リードは、Illumina,Inc.(San Diego,CA)からのMINISEQ、MISEQ、NEXTSEQ、HISEQ、及びNOVASEQ配列決定機器などの機器を使用して生成することができる。
【0073】
方法500はブロック516からブロック520に進み、コンピューティングシステムが、VNTRの複数のハプロタイプの各々について、VNTRに(再)アラインメントされた複数の短い配列リードのうちの短い配列リードをハプロタイプにアラインメントして、再アラインメントを生成する。いくつかの実施形態では、再アラインメントにおいてギャップは許容されない。いくつかの実施形態では、再アラインメントにおいてギャップが許容される。コンピューティングシステムは、Burrows-Wheeler Aligner(BWA)、iSAAC、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP及びGSNAP、Geneious Assembler、LAST、MAQ、mrFAST及びmrsFAST、MOM、MOSAIK、MPscan、Novoaligh & NovoalignCS、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RT Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3及びSOAP3-dp、SOCS、SSAHA及びSSAHA2、Stampy、SToRM、Subread及びSubjunc、Taipan、UGENE、VelociMapper、XpressAlign、及びZOOMなどのアライナ-又はアラインメント方法使用して、短い配列リードをハプロタイプに(再)アラインすることができる。
【0074】
方法500はブロック520からブロック524に進み、ここでコンピューティングシステムは、ハプロタイプに(再)整列された短い配列リードの再整列を使用して、第2の対象についてのVNTRの複数のハプロタイプの各々の確率指標を決定する。コンピューティングシステムは、複数のハプロタイプのうちの2つ以上のハプロタイプを決定することができ、各ハプロタイプは、確率基準を満たす確率指標を有する。VNTRの複数のハプロタイプの各々の確率指標は、VNTRの複数のハプロタイプの各々の確率を含む。確率基準は、確率閾値(例えば、50%、55%、60%、65%、70%、75%、80%、85%、90%、又は95%)を含むことができる。確率閾値は予め決定することができる。いくつかの実施形態では、確率閾値は、100、200、300、400、500、1000、2000、3000、4000、5000、又はそれ以上若しくはそれ以下のサンプルなど、多数のサンプルを使用して決定される。確率基準は、複数のハプロタイプのそれぞれの中で最も高い確率(又は最も高い2、3、4、5、又はそれ以上の確率などの最も高いいくつかの確率)を含むことができる。
【0075】
代替的又は追加的に、コンピューティングシステムは、ハプロタイプに(再)整列された短い配列リードの再アラインメントを使用して、第2の対象についてのVNTRの複数のハプロタイプのハプロタイプの各ペアの確率指標を決定する。コンピューティングシステムは、複数のハプロタイプのうちの1つ以上のハプロタイプ対を決定することができ、各対は、確率基準を満たす確率指標を有する。VNTRの複数のハプロタイプのハプロタイプの各対の確率指標は、VNTRのハプロタイプの各対の確率を含み得る。確率基準は、確率閾値(例えば、50%、55%、60%、65%、70%、75%、80%、85%、90%、又は95%)を含むことができる。確率基準は、複数のハプロタイプの各ハプロタイプ対の中で最も高い確率(又は最も高い2、3、4、5、又はそれ以上の確率などの最も高い数個の確率)を含むことができる。
【0076】
例えば、各ハプロタイプ/配列リードの組み合わせのスコア(例えば、確率指標)を決定することができる。スコアリングのためにいくつかの実施形態で使用されるVNTRジェノタイピングモデルは以下の通りである。
L塩基を有するリードRについて、所与のハプロタイプHに対するその確率は、以下の通りである。
【0077】
【数3】
式中、Aは、kth塩基についてのハプロタイプH上のアラインメントであり、
P(A)は、マッチ/ミスマッチ状態及び塩基品質スコアに従って予め定義され得る。
フラグメント長Fを有するリード対に関して、上記の確率は以下のように拡張され得る。
P(Ri1,Ri2│H)=P(Ri1│H)P(Ri2│H)P(F),
式中、P(F)は、所与のサンプルにおける全体的なフラグメント長分布から推定される。
次いで、特定の二倍体遺伝子型G=H/Hについてのリードの確率Rは、以下の通りである。
P(R│G=H/H)=0.5(P(R│H)+P(R│H)).
各リードについて、あらゆる可能な遺伝子型についてP(R)を計算する。
最終的な遺伝子型は、同じベイズのアプローチを用いて、全てのMの可能な遺伝子型上の全てのNリードのP(R)から導出され得る。
【0078】
【数4】
事前P(G)は、Gの母集団頻度から推定され得る。
【0079】
方法500は、ブロック524からブロック528に進み、ここでコンピューティングシステムは、複数のハプロタイプの各々の確率指標に基づいて第2の対象のVNTRの状態を決定する。VNTRの状態の精度は、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、又は95%であり得る。VNTRの状態は、VNTRのハプロタイプ状態を含み得る。ハプロタイプ状態は、ハプロタイプ、ハプロタイプの長さ、及び/又はハプロタイプの長さの信頼区間(CI)を含み得る。信頼区間は、ハプロタイプの最短長及びハプロタイプの最長長を含み得る。
【0080】
VNTRの状態は、VNTRの遺伝子型状態を含み得る。遺伝子型の状態は、遺伝子型、遺伝子型のハプロタイプの長さ、及び/又は遺伝子型の各ハプロタイプの長さの信頼区間を含み得る。信頼区間は、各ハプロタイプの最短長及び各ハプロタイプの最長長を含むことができる。コンピューティングシステムは、決定された2つ以上のハプロタイプの長さを決定することができる。ハプロタイプの最短の長さは、決定された2つ以上のハプロタイプの長さの最短の長さであり得る。ハプロタイプの最長の長さは、決定された2つ以上のハプロタイプの長さの最長の長さであり得る。
【0081】
いくつかの実施形態では、コンピューティングシステムは、VNTRの状態を含むか又は表すグラフィカルユーザインターフェースなどのユーザインターフェース(UI)を生成する。UIは、例えば、ダッシュボードを含むことができる。UIは、1つ以上のUI要素を含むことができる。UI要素は、VNTRの状態を含むか又は表すことができる。UI要素は、ウィンドウ(例えば、コンテナウィンドウ、ブラウザウィンドウ、テキスト端末、子ウィンドウ、又はメッセージウィンドウ)、メニュー(例えば、メニューバー、コンテキストメニュー、又はメニューエキストラ)、アイコン、又はタブであり得る。UI要素は、入力制御(例えば、チェックボックス、ラジオボタン、ドロップダウンリスト、リストボックス、ボタン、トグル、テキストフィールド、又は日付フィールド)のためのものであり得る。UI要素は、ナビゲーション(例えば、ブレッドクラム、スライダ、検索フィールド、ページ付け、スライダ、タグ、アイコン)であり得る。UI要素は、情報を提供することができる(例えば、ツールチップ、アイコン、プログレスバー、通知、メッセージボックス、又はモーダルウィンドウ)。UI要素は、コンテナ(例えば、アコーディオン)であってもよい。
【0082】
方法500は、ブロック532で終了する。
【0083】
実行環境
図6は、VNTRのジェノタイピングなど、VNTR状態を判定するように構成された例示的なコンピューティングデバイス600の一般的なアーキテクチャを示す。図6に示されるコンピューティングデバイス600の全般的な構築は、コンピュータハードウェア及びソフトウェア構成要素の構成を含む。コンピューティングデバイス600は、図6に示されるものより多くの(又はより少ない)要素を含んでもよい。しかしながら、これらの全般的な従来の要素の全てが、有効な開示を提供するために示される必要はない。図示されるように、コンピューティングデバイス600は、処理ユニット610、ネットワークインターフェース620、コンピュータ可読媒体ドライブ630、入力/出力デバイスインターフェース640、ディスプレイ650、及び入力デバイス660を含み、これらの全ては、通信バスを介して互いに通信することができる。ネットワークインターフェース620は、1つ以上のネットワーク又はコンピューティングシステムに接続性を提供してもよい。処理ユニット610は、したがって、ネットワークを介してその他のコンピューティングシステム又はサービスから情報及び命令を受信してもよい。処理ユニット610はまた、メモリ670と通信し、入力/出力デバイスインターフェース640を介して任意選択のディスプレイ650の出力情報を更に提供してもよい。入力/出力デバイスインターフェース640はまた、キーボード、マウス、デジタルペン、マイクロフォン、タッチスクリーン、ジェスチャ認識システム、音声認識システム、ゲームパッド、加速度計、ジャイロスコープ、又はその他の入力デバイスなどの、任意の入力デバイス660からの入力を受け付けてもよい。
【0084】
メモリ670は、1つ以上の実施形態を実施するために処理ユニット610が実行するコンピュータプログラム命令(いくつかの実施形態ではモジュール又は構成要素としてグループ化される)を含んでもよい。メモリ670は、全般的に、RAM、ROM、及び/又はその他の永続的、補助的若しくは非一過性コンピュータ可読媒体を含む。メモリ670は、コンピューティングデバイス600の全般的な管理及び動作において、処理ユニット610によって使用するためのコンピュータプログラム命令を提供する動作システム672を記憶してもよい。メモリ670は、本開示の態様を実施するためのコンピュータプログラム命令及びその他の情報を更に含んでもよい。
【0085】
例えば、一実施形態では、メモリ670は、図5を参照して説明した方法500などの、VNTR状態を判定するためのVNTR状態判定モジュール674を含む。更に、メモリ670は、データストア690及び/又は本開示のVNTR状態を決定する1つ若しくは複数の入力、1つ若しくは複数の出力、及び/又は1つ若しくは複数の結果(中間結果を含む)を記憶する1つ若しくは複数の他のデータストア、例えば決定された長いリード、決定された複数のハプロタイプ、短いリード、及び決定されたVNTR状態(例えば、サンプルのハプロタイプ又は遺伝子型)を含むか又はそれらと通信することができる。
【0086】
追加の考慮
前述の実施形態のうちの少なくともいくつかにおいて、一実施形態で使用される1以上の要素は、このような交換が技術的に実行可能でない場合を除いて、別の実施形態で互換的に使用することができる。当業者であれば、特許請求される主題の範囲から逸脱することなく、上記の方法及び構造に、種々のその他の省略、追加、及び修正がなされてもよいことを理解するであろう。このような修正及び変更は全て、添付の特許請求の範囲によって定義されるように、主題の範囲内に含まれることが意図される。
【0087】
当業者であれば、本明細書に開示される本プロセス及びその他のプロセス並びに方法について、プロセス及び方法において実行される機能が、異なる順序で実施され得ることを理解するであろう。更に、概説された工程及び動作は、例としてのみ提供され、工程及び動作の一部は任意選択であることができ、より少ない工程及び動作に組み合わされることができる、又は、開示される実施形態の本質を損なうことなく、追加の工程及び動作に拡大することができる。
【0088】
本明細書における実質的に任意の複数形及び/又は単数形の用語の使用について、当業者は、文脈及び/又は用途に適切なように、複数形から単数形に、及び/又は単数形から複数形に置き換えることができる。明確性のために、種々の単数形/複数形の順列が本明細書に明示的に記載されてもよい。本明細書及び添付の特許請求の範囲で使用される場合、単数形「a」、「an」、及び「the」は、文脈がそうでない旨を明確に指示しない限り、複数の指示対象を含む。したがって、「~するように構成されたデバイス(device configured to)」などの語句は、1つ以上の列挙されたデバイスを含むことが意図されている。このような1つ以上の列挙されたデバイスはまた、記載された詳細説明を実行するように集合的に構成され得る。例えば、「詳細説明A、B、及びCを実行するように構成されたプロセッサ」は、詳細説明Aを実行し、かつ詳細説明B及びCを実行するように構成された第2のプロセッサと関連して動作を行うように構成された、第1のプロセッサを含むことができる。本明細書における「又は」への任意の言及は、特に指示しない限り、「及び/又は」を包含することを意図する。
【0089】
全般的に、本明細書で使用される用語、特に添付の特許請求の範囲(例えば、添付の特許請求の範囲の本体)使用される用語は、全般的に「オープン」ターム(open terms)として意図される(例えば、用語「含む(including)」は「~を含むがこれらに限定されない(including but not limited to)」と解釈されるべきであり、用語「有する(having)」は「少なくとも有する(having at least)」と解釈されるべきであり、用語「含む(includes)」は「~を含むがこれらに限定するものではない(includes but is not limited to)」と解釈されるべきであるなど)。導入された請求項記載の具体的な数が意図されている場合、このような意図が請求項に明示的に列挙され、このような記載がない場合、このような意図は存在しないことも、当業者には更に理解されるであろう。例えば、理解を助けるために、以下の添付の特許請求の範囲は、請求項の記載を導入するための導入句「少なくとも1つの(at least one)」及び「1つ以上の(one or more)」の使用を含んでもよい。しかしながら、このような語句の使用は、同じ請求項が、「1以上の」又は「少なくとも1つの」、及び「a」若しくは「an」などの不定冠詞を含む(例えば、「a」及び/又は「an」が、「少なくとも1つの」又は「1以上の」の意味に解釈されるべきである)場合であっても、不定冠詞「a」又は「an」による請求項記載の導入が、このような導入された請求項記載を含む任意の特定の請求項を、このような記載のうちの1つのみを含む実施形態に限定するものと解釈すべきではなく、請求項記載を導入するために使用される不定冠詞の使用についても同じく当てはまる。更に、導入された請求項記載の具体的な数が明示的に列挙されている場合であっても、このような記載が、少なくとも列挙された数の意味(例えば、「2つの記載」の無修飾の記載は、その他の修飾がないと、少なくとも2つの記載又は2つ以上の記載を意味する)で解釈されるべきであることを、当業者は認識するであろう。更に、「A、B、及びCなどのうちの少なくとも1つ」と類似した常套句が使用される場合には、全般的に、このような構造は、当業者がこの常套句を理解するであろう意味において意図される(例えば、「A、B、及びCのうちの少なくとも1つを有するシステム」としては、Aのみ、Bのみ、Cのみ、A及びBともに、A及びCともに、B及びCともに、並びに/又はA、B、及びCともに、などを有するシステムが挙げられるが、これらに限定されない)。「A、B、又はCなどのうちの少なくとも1つ」と類似した常套句が使用される場合には、全般的に、このような構造は、当業者がこの常套句を理解するであろう意味において意図される(例えば、「A、B、又はCのうちの少なくとも1つを有するシステム」としては、Aのみ、Bのみ、Cのみ、A及びBともに、A及びCともに、B及びCともに、並びに/又はA、B、及びCともに、などを有するシステムが挙げられるが、これらに限定されない)。本明細書、特許請求の範囲、又は図面にかかわらず、2つ以上の代替用語を提示する実質上任意の離接語及び/又は語句は、用語のうちの1つ、用語のいずれか、又は両方の用語を含む可能性を企図することが理解されるべきであると、当業者には更に理解されるであろう。例えば、語句「A又はB」は、「A」又は「B」又は「A及びB」の可能性を含むと理解されるであろう。
【0090】
加えて、本開示の特徴又は態様がマーカッシュ群の観点で記載されている場合、それによって、当業者は、本開示がまた、マーカッシュ群の構成要素の任意の個々の構成要素又はサブグループの観点でも記載されていることを認識するであろう。
【0091】
当業者には理解されるように、書面による説明を提供するという観点からなどの任意の及び全ての目的において、本明細書に開示される全ての範囲はまた、任意の及び全ての可能なサブ範囲並びにそれらのサブ範囲の組み合わせも包含する。任意の列挙された範囲は、同じ範囲が、少なくとも2等分、3分の1、4分の1、5分の1、10分の1などに分解されることを十分に記載し可能にするものとして容易に認識することができる。非限定的実施例として、本明細書で説明される各範囲は、下部3分の1、中部3分の1、及び上部3分の1などに容易に分解することができる。また、当業者には理解されるように、「最大で(up to)」、「少なくとも(at least)」、「より大きい(greater than)」、「より小さい(less than)」などの全ての言語は、列挙された数を含み、続いて上述のように下位範囲に分解され得る範囲を指す。最後に、当業者には理解されるように、範囲は、各個々の構成要素を含む。したがって、例えば、1~3個の物品を有する群は、1個、2個、又は3個の物品を有する群を意味する。同様に、1~5個の物品を有する群は、1個、2個、3個、4個、又は5個の物品を有する群などを意味する。
【0092】
本開示の種々の実施形態が例示目的で本明細書に記載されており、本開示の範囲及び趣旨から逸脱することなく種々の修正がなされ得ることが理解されるであろう。したがって、本明細書に開示される種々の実施形態は、以下の特許請求の範囲によって示される真の範囲及び趣旨を限定することを意図するものではない。
【0093】
全ての目的又は利点が、本明細書に記載される任意の特定の実施形態に従って必ずしも達成され得る必要性がないことを理解されたい。したがって、例えば、当業者であれば、特定の実施形態が、本明細書で教示又は示唆され得るその他の目的若しくは利点を必ずしも達成することなく、本明細書で教示されるような利点若しくは利点の群を達成又は最適化する方法で動作するように構成され得ることを、認識するであろう。
【0094】
本明細書に記載されるプロセスの全ては、1つ以上のコンピュータ又はプロセッサを含むコンピューティングシステムによって実行されるソフトウェアコードモジュール内に具現化され得、またそれを介して完全に自動化され得る。コードモジュールは、任意の種類の非一過性コンピュータ可読媒体又はその他のコンピュータ記憶デバイスに記憶されてもよい。いくつかの又は全ての方法は、専用のコンピュータハードウェアで具現化されてもよい。
【0095】
本明細書に記載されるもの以外の多くのその他の変形形態が、本開示から明らかとなるであろう。例えば、実施形態に応じて、本明細書に記載されるアルゴリズムのうちのいずれかの特定の行為、事象、又は機能を、異なる順序で実行することができ、追加し、統合し、又は全体を省略することができる(例えば、アルゴリズムの実施には全ての記載された行為又は事象が必要ではない)。更に、特定の実施形態では、行為又は事象は、逐次的ではなく、例えば、マルチスレッド処理、割り込み処理、又は複数のプロセッサ若しくはプロセッサコアを介して、又はその他の平行体系上で、同時に実行することができる。加えて、異なるタスク又はプロセスは、互いに機能することができる異なる機械装置及び/又はコンピューティングシステムによって実行することができる。
【0096】
本明細書に開示される実施形態に関連して説明される種々の例示的な論理ブロック及びモジュールは、処理ユニット若しくはプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はその他のプログラム可能な論理デバイス、別個のゲート若しくはトランジスタ論理、別個のハードウェア構成要素、又は本明細書に記載される機能を実行するように設計されたそれらの任意の組み合わせなどの機械装置によって、実装又は実行され得る。プロセッサはマイクロプロセッサであってもよいが、代替的に、プロセッサは、コントローラ、マイクロコントローラ、又はステートマシン、それらの組み合わせなどであってもよい。プロセッサは、コンピュータ実行可能命令を処理するように構成された電気回路を含むことができる。別の実施形態では、プロセッサは、コンピュータ実行可能命令を処理することなく論理動作を実行する、FPGA又はその他のプログラマブルデバイスを含む。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、DSPとマイクロプロセッサ、複数のマイクロプロセッサ、DSPコアに関連した1つ以上のマイクロプロセッサ、又は任意のその他のこのような構成の組み合わせとして実装することもできる。本明細書では主としてデジタル技術について記載されているが、プロセッサはまた、主にアナログ構成要素を含んでもよい。例えば、本明細書に記載の信号処理アルゴリズムの一部又は全ては、アナログ回路又は混合アナログ回路及びデジタル回路に実装されてもよい。コンピューティング環境は、少数例を挙げると、マイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、ポータブルコンピューティングデバイス、デバイスコントローラ、又は機器内のコンピューティングエンジンに基づくコンピュータシステムを含むが、これらに限定されない、任意の種類のコンピュータシステムを含むことができる。
【0097】
本明細書に記載され、かつ/又は添付の図面に示されるフロー図における任意のプロセス説明、要素又はブロックは、プロセスにおいて特定の論理関数又は要素を実施するための1つ以上の実行可能な命令を含むモジュール、セグメント、又はコードの部分を潜在的に表すものとして、理解されるべきである。交互実施形態は本明細書に記載される実施形態の範囲内に含まれ、当業者には理解されるように、関与する機能に応じて、要素又は機能を削除し、実質的に同時に又は逆の順序を含む図示された又は考察されたものからの順序から除外してもよい。
【0098】
上述の実施形態に多くの変形及び修正がなされてもよく、その要素は、その他の許容可能な例の中にあるものとして理解されるべきであることを強調するべきである。このような修正及び変形は全て、本明細書で本開示の範囲内に含まれ、以下の特許請求の範囲によって保護されることが意図される。
図1
図2
図3A
図3B
図4
図5
図6
【配列表】
2024522702000001.app
【国際調査報告】