IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ガーダント ヘルス, インコーポレイテッドの特許一覧

<>
  • 特許-診断方法 図1A
  • 特許-診断方法 図1B
  • 特許-診断方法 図1C
  • 特許-診断方法 図1D
  • 特許-診断方法 図2
  • 特許-診断方法 図3
  • 特許-診断方法 図4
  • 特許-診断方法 図5A
  • 特許-診断方法 図5B
  • 特許-診断方法 図6
  • 特許-診断方法 図7
  • 特許-診断方法 図8
  • 特許-診断方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-17
(45)【発行日】2022-01-14
(54)【発明の名称】診断方法
(51)【国際特許分類】
   C12Q 1/6883 20180101AFI20220106BHJP
   G16B 25/00 20190101ALI20220106BHJP
【FI】
C12Q1/6883 Z
G16B25/00
【請求項の数】 23
(21)【出願番号】P 2017556842
(86)(22)【出願日】2016-04-29
(65)【公表番号】
(43)【公表日】2018-08-16
(86)【国際出願番号】 US2016030301
(87)【国際公開番号】W WO2016179049
(87)【国際公開日】2016-11-10
【審査請求日】2019-05-03
(31)【優先権主張番号】62/155,755
(32)【優先日】2015-05-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】515059083
【氏名又は名称】ガーダント ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】エルトーキー, ヘルミー
(72)【発明者】
【氏名】タラサズ, アミルアリ
【審査官】佐久 敬
(56)【参考文献】
【文献】国際公開第2013/190441(WO,A2)
【文献】米国特許出願公開第2014/0200147(US,A1)
【文献】米国特許出願公開第2015/0065352(US,A1)
【文献】米国特許出願公開第2011/0257896(US,A1)
【文献】国際公開第2013/067001(WO,A1)
【文献】米国特許出願公開第2002/0034760(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
C12Q
G16B
G16H
G06F
(57)【特許請求の範囲】
【請求項1】
対象の疾患状態を分析するための方法をコンピュータシステムに実装するように構成されたプログラムであって、前記方法は、
(a)遺伝子アナライザーを使用して(i)2つもしくはそれを超える時点または(ii)実質的に同じ時点で得られた前記対象の生物学的試料中の無細胞核酸分子から遺伝子データを生成するステップであって、前記遺伝子データは前記無細胞核酸分子に対応する配列情報を含み、前記遺伝子データは、遺伝子バリエーションと、前記対象の異なる生物学的試料からの配列読み取りデータの第1セットおよび配列読み取りデータの第2セットとを含むステップと;
(b)前記遺伝子アナライザーから前記遺伝子データを受け取るステップと;
(c)1つまたは複数のプログラムされたコンピュータプロセッサにより、前記配列情報を処理して、前記疾患状態と関連する1つまたは複数の遺伝子バリエーションを同定することによって、前記遺伝子データを使用して調整された試験結果を生成するステップであって、前記処理が、
(i)配列読み取りデータの前記第1セットを配列読み取りデータの前記第2セットと比較すること、および
(ii)前記対象の前記処理された配列情報に関して診断信頼度指標を更新することを含み、前記診断信頼度指標が、1つまたは複数の遺伝子バリエーションを同定する確率を表し、
前記更新が、前記遺伝子バリエーションの存在に相関する共変量バリエーションが検出される場合は、前記遺伝子バリエーションの検出に続いて、前記対象の前記疾患状態の特徴付けでの前記診断信頼度指標を増加させることを含む、ステップと;
(d)調整された前記試験結果をコンピュータメモリに出力するステップと
を含む、
プログラム。
【請求項2】
前記方法が、配列読み取りデータの前記第1セットまたは配列読み取りデータの前記第2セットの信頼区間を生成するステップをさらに含む、請求項1に記載のプログラム。
【請求項3】
前記方法が、前記信頼区間を1つまたは複数の事前の信頼区間と比較して、重複する信頼区間に基づいて疾患進行度を決定するステップをさらに含む、請求項2に記載のプログラム。
【請求項4】
前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、前記第1の時点からの情報が前記第2の時点からの情報を補強する場合は、ステップ(c)が以降のまたは以前の特徴付けでの診断信頼度指標を増加させることを含む、請求項1に記載のプログラム。
【請求項5】
前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、前記第1の時点からの情報が前記第2の時点からの情報を補強する場合は、ステップ(c)が以降の特徴付けでの診断信頼度指標を増加させることを含む、請求項1に記載のプログラム。
【請求項6】
前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、第1の時点からの情報が前記第2の時点からの情報と矛盾する場合は、ステップ(c)が以降の特徴付けでの診断信頼度指標を低下させることを含む、請求項1に記載のプログラム。
【請求項7】
前記方法が、以降の特徴付けを得るステップ、およびde novo情報の以降の特徴付けでの診断信頼度指標をそのままにするステップをさらに含む、請求項1に記載のプログラム。
【請求項8】
前記方法が、前記遺伝子データに含まれる配列読み取りデータの集合で検出される1つまたは複数の遺伝子バリアントの頻度を決定するステップ、および少なくとも一部、2つまたはそれを超える前記時点での前記1つまたは複数の遺伝子バリアントの前記頻度を比較することによって、調整された前記試験結果を生成するステップをさらに含む、請求項1に記載のプログラム。
【請求項9】
前記方法が、前記遺伝子データに含まれる配列読み取りデータの集合で検出される1つまたは複数の遺伝子座でのコピー数バリエーションの量を決定するステップ、および少なくとも一部、2つまたはそれを超える前記時点でのコピー数バリエーションの前記量を比較することによって、調整された前記試験結果を生成するステップをさらに含む、請求項1に記載のプログラム。
【請求項10】
前記方法が、調整された前記試験結果を使用して前記対象に(i)治療的介入または(ii)健康状態もしくは疾患の診断を提供するステップをさらに含む、請求項1に記載のプログラム。
【請求項11】
前記遺伝子データが疾患関連またはがん関連の遺伝子バリアントを含むゲノムの部分からの配列データを含む、請求項1に記載のプログラム。
【請求項12】
前記方法が、調整された前記試験結果を使用して、前記対象の生物学的試料中のポリヌクレオチドの読み取り深度を増加させることによって遺伝子バリアントを検出する感度を増加させるステップをさらに含む、請求項1に記載のプログラム。
【請求項13】
前記遺伝子データが遺伝子データの第1セットおよび遺伝子データの第2セットを含み、遺伝子データの前記第1のセットは検出閾値またはそれ未満であり、遺伝子データの前記第2のセットは前記検出閾値より上である、請求項1に記載のプログラム。
【請求項14】
前記検出閾値がノイズ閾値である、請求項13に記載のプログラム。
【請求項15】
複数の試料採取事例または時点において遺伝子データの前記第1のセットおよび遺伝子データの前記第2のセットで同じ遺伝子バリアントが検出されるときは、前記方法が、ステップ(c)で前記対象の診断を陰性または不確定から陽性に調整することをさらに含む、請求項13に記載のプログラム。
【請求項16】
初期の時点での遺伝子データの前記第1のセットおよび後の時点での遺伝子データの前記第2のセットで同じ遺伝子バリアントが検出されるときは、前記方法が、ステップ(c)で初期の時点からの特徴付けにおいて前記対象の診断を陰性または不確定から陽性に調整することをさらに含む、請求項13に記載のプログラム。
【請求項17】
前記疾患状態ががんであり、前記遺伝子アナライザーが核酸シーケンサーである、請求項1に記載のプログラム。
【請求項18】
前記生物学的試料が少なくとも2つの異なるタイプの生物学的試料を含む、請求項1に記載のプログラム。
【請求項19】
前記生物学的試料が同じタイプの生物学的試料を含む、請求項1に記載のプログラム。
【請求項20】
前記生物学的試料が血液試料である、請求項19に記載のプログラム。
【請求項21】
前記無細胞核酸分子が無細胞デオキシリボ核酸(DNA)である、請求項20に記載のプログラム。
【請求項22】
対象の疾患状態を分析するためのコンピュータシステムであって、
(a)前記システムは、(i)2つもしくはそれを超える時点または(ii)実質的に同じ時点で得られた前記対象の生物学的試料中の無細胞核酸分子から遺伝子データを生成するように構成された遺伝子アナライザーを含み、ここで、前記遺伝子データは前記無細胞核酸分子に対応する配列情報を含み、前記遺伝子データは、遺伝子バリエーションと、前記対象の異なる生物学的試料からの配列読み取りデータの第1セットおよび配列読み取りデータの第2セットとを含み;
(b)前記システムは、前記遺伝子アナライザーから前記遺伝子データを受け取るように構成されており;
(c)前記システムは、前記配列情報を処理して、前記疾患状態と関連する1つまたは複数の遺伝子バリエーションを同定することによって、前記遺伝子データを使用して調整された試験結果を生成するように構成された1つまたは複数のプログラムされたコンピュータプロセッサを含み、前記処理が、
(i)配列読み取りデータの前記第1セットを配列読み取りデータの前記第2セットと比較すること、および
(ii)前記処理された配列情報に関し診断信頼度指標を更新すること
を含み、前記診断信頼度指標が、1つまたは複数の遺伝子バリエーションを同定する確率を表し、
前記更新が、前記遺伝子バリエーションの存在に相関する共変量バリエーションが検出される場合は、前記遺伝子バリエーションの検出に続いて、前記対象の前記疾患状態の特徴付けでの前記診断信頼度指標を増加させることを含み;
(d)前記システムは、調整された前記試験結果をコンピュータメモリに出力するように構成されている、
システム。
【請求項23】
調整された前記試験結果が、1つの前記生物学的試料のみから生成された遺伝子データから生成された試験結果と比較してノイズの低減を含む、請求項1に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本発明は、2015年5月1日に出願された米国仮出願第62/155,755号の利益を主張しており、この仮出願は参考として本明細書中に援用される。
【背景技術】
【0002】
背景
がんは、世界中で主要な病因である。毎年、世界中で何千万人ががんと診断され、患者の半数超はそれによって最終的に死亡する。多くの国では、がんは、心血管疾患に次いで2番目に一般的な死因にランクされている。
【0003】
がんを検出するために、いくつかのスクリーニング検査が利用可能である。検診および病歴は、疾患の徴候、例えばしこりまたは他の異常な身体症状のチェックを含めて、健康状態の一般的な徴候を調査する。患者の健康習慣ならびに過去の病気および処置の歴史もとられる。臨床検査は別のタイプのスクリーニング検査であり、臨床検査を実行する前に体の組織、血液、尿または他の物質の試料を手に入れるために、医療処置を必要とすることがある。画像化法は、体内の領域の視覚的描写を生成することによって、がんについてスクリーニングする。遺伝子検査は、一部のタイプのがんと関連付けられたある特定の遺伝子有害突然変異を検出する。遺伝子検査は、いくつもの診断方法のために特に有用である。
【0004】
がんスクリーニングのための1つのアプローチは、異なるタイプの体液で見出すことができるポリヌクレオチドの集団である無細胞核酸に由来する試料をモニタリングすることを含むことができる。一部の場合には、疾患は、1つもしくは複数の核酸配列のコピー数バリエーションおよび/もしくは配列バリエーションの変化または他のある特定の稀な遺伝的変更の発生などの遺伝子バリエーションの検出に基づいて特徴付けるかまたは検出することができる。無細胞DNA(「cfDNA」)は、特定の疾患に関連した遺伝子バリエーションを含有することができる。核酸の配列決定および操作技法の改善により、疾患を検出およびモニタリングするために無細胞DNAを使用するための改善された方法およびシステムの必要性が当技術分野にある。
【発明の概要】
【課題を解決するための手段】
【0005】
ある態様では、本開示は、対象の疾患状態を分析するための方法であって、(a)遺伝子アナライザーを使用して(i)2つもしくはそれを超える時点または(ii)実質的に同じ時点で得られた前記対象の生物学的試料中の核酸分子から遺伝子データを生成するステップであって、前記遺伝子データは前記対象の遺伝子情報に関し、前記生物学的試料は無細胞生物学的試料を含むステップと;(b)前記遺伝子アナライザーから前記遺伝子データを受け取るステップと;(c)1つまたは複数のプログラムされたコンピュータプロセッサにより、前記対象の前記遺伝子情報の特徴付けにおいて前記遺伝子データを使用して調整された試験結果を生成するステップと;(d)調整された前記試験結果をコンピュータメモリに出力するステップとを含む方法を提供する。
【0006】
一部の実施形態では、前記遺伝子データが現在の配列読み取りデータおよび事前の配列読み取りデータを含み、(c)が現在の前記配列読み取りデータを事前の前記配列読み取りデータと比較し、それに応じて前記対象の前記遺伝子情報の前記特徴付けに関して診断信頼度指標を更新することを含み、前記診断信頼度指標は、前記対象の生物学的試料で1つまたは複数の遺伝子バリエーションを同定する確率を表す。
【0007】
一部の実施形態では、方法は、現在の前記配列読み取りデータの信頼区間を生成するステップをさらに含む。一部の実施形態では、方法は、前記信頼区間を1つまたは複数の事前の信頼区間と比較して、重複する信頼区間に基づいて疾患進行度を決定するステップをさらに含む。
【0008】
一部の実施形態では、前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、前記第1の時点からの情報が前記第2の時点からの情報を補強する場合は、(c)が以降のまたは以前の特徴付けでの診断信頼度指標を増加させることを含む。一部の実施形態では、前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、前記第1の時点からの情報が前記第2の時点からの情報を補強する場合は、(c)が以降の特徴付けでの診断信頼度指標を増加させることを含む。
【0009】
一部の実施形態では、第1の共変量バリエーションが前記遺伝子データで検出され、第2の共変量バリエーションが検出される場合は、(c)が以降の特徴付けでの診断信頼度指標を増加させることを含む。
【0010】
一部の実施形態では、前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、第1の時点からの情報が前記第2の時点からの情報と矛盾する場合は、(c)が以降の特徴付けでの診断信頼度指標を低下させることを含む。
【0011】
一部の実施形態では、方法は、以降の特徴付けを得るステップ、およびde novo情報の以降の特徴付けでの診断信頼度指標をそのままにするステップをさらに含む。一部の実施形態では、方法は、前記遺伝子データに含まれる配列読み取りデータの集合で検出される1つまたは複数の遺伝子バリアントの頻度を決定するステップ、および少なくとも一部、2つまたはそれを超える前記時点での前記1つまたは複数の遺伝子バリアントの前記頻度を比較することによって、調整された前記試験結果を生成するステップをさらに含む。一部の実施形態では、方法は、前記遺伝子データに含まれる配列読み取りデータの集合で検出される1つまたは複数の遺伝子座でのコピー数バリエーションコピー数バリエーションの量を決定するステップ、および少なくとも一部、2つまたはそれを超える前記時点での前記量を比較することによって、調整された前記試験結果を生成するステップをさらに含む。一部の実施形態では、方法は、調整された前記試験結果を使用して前記対象に(i)治療的介入または(ii)健康状態もしくは疾患の診断を提供するステップをさらに含む。
【0012】
一部の実施形態では、前記遺伝子データが疾患関連またはがん関連の遺伝子バリアントを含むゲノムの位置からの配列データを含む。
【0013】
一部の実施形態では、方法は、調整された前記試験結果を使用して、前記対象からの試料中のポリヌクレオチドの読み取り深度を増加させることによって遺伝子バリアントを検出する感度を増加させるステップをさらに含む。
【0014】
一部の実施形態では、前記遺伝子データが遺伝子データの第1セットおよび遺伝子データの第2セットを含み、遺伝子データの前記第1のセットは検出閾値またはそれ未満であり、遺伝子データの前記第2のセットは前記検出閾値より上である。一部の実施形態では、前記検出閾値がノイズ閾値である。一部の実施形態では、方法は、複数の試料採取事例または時点において遺伝子データの前記第1のセットおよび遺伝子データの前記第2のセットで同じ遺伝子バリアントが検出されるときは、(c)で前記対象の診断を陰性または不確定から陽性に調整することをさらに含む。一部の実施形態では、方法は、初期の時点での遺伝子データの前記第1のセットおよび後の時点での遺伝子データの前記第2のセットで同じ遺伝子バリアントが検出されるときは、(c)で初期の時点からの特徴付けにおいて前記対象の診断を陰性または不確定から陽性に調整することをさらに含む。
【0015】
一部の実施形態では、前記疾患状態ががんであり、前記遺伝子アナライザーが核酸シーケンサーである。
【0016】
一部の実施形態では、前記生物学的試料が少なくとも2つの異なるタイプの生物学的試料を含む。一部の実施形態では、前記生物学的試料が同じタイプの生物学的試料を含む。一部の実施形態では、前記生物学的試料が血液試料である。一部の実施形態では、前記核酸分子が無細胞デオキシリボ核酸(DNA)である。
【0017】
別の態様では、本開示は、対象からの生物学的試料でがんポリヌクレオチドの量の傾向を経時的に検出する方法であって、1つまたは複数のプログラムされたコンピュータプロセッサを使用して、複数の時点の各々で前記がんポリヌクレオチドの頻度を決定するステップと;前記複数の時点の各々で前記頻度の誤差範囲を決定して、少なくとも第1の時点での第1の誤差範囲および前記第1の時点の後の第2の時点での第2の誤差範囲を提供するステップと;(1)前記第1の誤差範囲が前記第2の誤差範囲と重なるかどうか決定するステップであって、前記重なりは複数の時点での前記がんポリヌクレオチドの頻度の安定性を示すステップ、(2)前記第2の誤差範囲が前記第1の誤差範囲より大きく、したがって、複数の時点で前記がんポリヌクレオチドの頻度の増加が表されるか決定するステップ、または、(3)前記第2の誤差範囲が前記第1の誤差範囲より小さく、したがって、複数の時点で前記がんポリヌクレオチドの頻度の減少が表されるか決定するステップとを含む方法を提供する。
【0018】
一部の実施形態では、がんポリヌクレオチドは、デオキシリボ核酸(DNA)分子である。一部の実施形態では、DNAは無細胞DNAである。
【0019】
一部の実施形態では、複数の時点の各々での頻度は、対象の生物学的試料中の核酸分子の配列決定によって決定される。一部の実施態様では、生物学的試料は血液試料である。一部の実施形態では、核酸分子は無細胞デオキシリボ核酸(DNA)である。
【0020】
別の態様では、本開示は、対象における1つもしくは複数の遺伝子バリエーションおよび/または遺伝子バリエーションの量を検出する方法であって、遺伝子アナライザーによって前記対象の無細胞核酸試料で核酸分子を配列決定して、第1の時点で配列読み取りデータの第1のセットを生成するステップと;配列読み取りデータの前記第1のセットを前記第1の時点の前の少なくとも第2の時点で得られる配列読み取りデータの少なくとも第2のセットと比較して、配列読み取りデータの第1のセットおよび配列読み取りデータの前記少なくとも第2のセットの比較を与えるステップと;前記比較を使用し、それに応じて診断信頼度指標を更新するステップであって、前記診断信頼度指標は、前記対象の無細胞核酸試料で1つまたは複数の遺伝子バリエーションを同定する確率を表すステップと;前記診断信頼度指標に基づいて前記対象の無細胞核酸試料で核酸分子中の前記1つもしくは複数の遺伝子バリエーションの存在もしくは不在および/または遺伝子バリエーションの量を検出するステップとを含む方法を提供する。
【0021】
一部の実施形態では、方法は、前記対象から無細胞核酸分子を得るステップをさらに含む。
【0022】
一部の実施形態では、本方法は、第1の時点の後の第3の時点で第3のセットの配列読み取りデータを生成するために、対象の追加の無細胞核酸分子を配列決定するステップ、ならびに診断信頼度指標に基づいて対象の追加の無細胞核酸分子での1つまたは複数の遺伝子バリエーションの存在もしくは不在および/または遺伝子バリエーションの量を検出するステップをさらに含む。
【0023】
一部の実施形態では、方法は、前記第1の時点で配列読み取りデータの前記第1のセットから得られる情報が前記第2の時点で配列読み取りデータの前記少なくとも第2のセットから得られる情報を補強する場合は、前記診断信頼度指標を増加させるステップをさらに含む。
【0024】
一部の実施形態では、方法は、前記第1の時点で配列読み取りデータの前記第1のセットから得られる情報が前記第2の時点で配列読み取りデータの前記少なくとも第2のセットから得られる情報を補強しないかもしくは矛盾する場合は、前記診断信頼度指標を減少させるステップをさらに含む。一部の実施形態では、方法は、de novo情報の以降の特徴付けで前記診断信頼度指標をそのままにするステップをさらに含む。
【0025】
別の態様では、本開示は、対象の無細胞核酸試料で突然変異を検出するための方法であって、(a)比較を与えるために、遺伝子アナライザーから得られる現在の配列読み取りデータを事前の時期からの事前の配列読み取りデータと比較することによってコンセンサス配列を決定し、前記比較に基づいて診断信頼度指標を更新するステップであって、各コンセンサス配列は、前記無細胞核酸試料に由来するタグ付けされた親ポリヌクレオチドのセットの中の特有のポリヌクレオチドに対応するステップと、(b)診断信頼度に基づいて、前記対象における細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップであって、前記遺伝子プロファイルは、コピー数バリエーションまたは突然変異分析からもたらされるデータを含むステップとを含む方法を提供する。
【0026】
一部の実施形態では、本方法は、(a)の前に、無細胞核酸試料に由来するタグ付けされた親ポリヌクレオチドの複数のセットを提供するステップをさらに含み、各セットは異なる参照配列にマッピング可能である。
【0027】
一部の実施形態では、本方法は、前記コンセンサス配列を使用して各マッピング可能な塩基位置について分散の比または頻度を正規化し、実際のまたは潜在的な稀なバリアント(単数または複数)または突然変異(単数または複数)を決定するステップ;および潜在的な稀なバリアント(単数または複数)または突然変異(単数または複数)を有する各領域について結果として生じる数を、参照試料から同様に誘導される数と比較するステップをさらに含む。
【0028】
別の態様では、本開示は、異常な細胞活性を検出する方法であって、対象の生物学的試料に由来するタグ付けされた親ポリヌクレオチドの少なくとも1つのセットを提供するステップと;前記セットの中の前記タグ付けされた親ポリヌクレオチドを増幅して、増幅された後代ポリヌクレオチドの対応するセットを生成するステップと;遺伝子アナライザーを使用して増幅された後代ポリヌクレオチドの前記セットのサブセットを配列決定して、配列決定読み取りデータのセットを生成するステップと;現在の配列読み取りデータを少なくとも1つの事前の時期からの事前の配列読み取りデータと比較し、それに応じて診断信頼度指標を更新することによって、配列決定読み取りデータの前記セットを崩壊させてコンセンサス配列のセットを生成するステップであって、前記診断信頼度指標は、前記対象の生物学的試料で1つまたは複数の遺伝子バリエーションを同定する確率を表し、各コンセンサス配列は、タグ付けされた親ポリヌクレオチドの前記セットの中の特有のポリヌクレオチドに対応するステップとを含む方法を提供する。
【0029】
一部の実施形態では、本方法は、配列決定読み取りデータの前記セットが少なくとも1つの前記事前の時期に同定される場合は、前記診断信頼度指標を増加させるステップをさらに含む。一部の実施形態では、本方法は、配列決定読み取りデータの前記セットが少なくとも1つの前記事前の時期に同定されない場合は、前記診断信頼度指標を減少させるステップをさらに含む。一部の実施形態では、本方法は、配列決定読み取りデータの前記セットが少なくとも1つの前記事前の時期に同定されるが決定的でない場合は、前記診断信頼度指標を変えないままにするステップをさらに含む。
【0030】
一部の実施形態では、配列決定読み取りデータのセットは、少なくとも1つの配列決定読み取りデータを含む。
【0031】
一部の実施形態では、生物学的試料は血液試料である。一部の実施形態では、生物学的試料は無細胞核酸分子を含み、少なくとも1セットのタグ付けされた親ポリヌクレオチドは無細胞核酸分子から生成される。
【0032】
一部の実施形態では、本方法は、対象のポリヌクレオチドの遺伝子プロファイルを生成するステップをさらに含み、その遺伝子プロファイルは、対象の1つまたは複数の遺伝子バリアントの分析を含む。一部の実施形態では、ポリヌクレオチドは細胞外ポリヌクレオチドを含む。
【0033】
別の態様では、本開示は、対象の無細胞または実質的に無細胞の試料で突然変異を検出するための方法であって、(a)遺伝子アナライザーにより前記対象の体試料からの細胞外ポリヌクレオチドを配列決定するステップと;(b)前記細胞外ポリヌクレオチドの各々について、複数の配列決定読み取りデータを生成するステップと;(c)設定された閾値を満たさない読み取りデータをフィルタリング除去するステップと;(d)前記配列決定に由来する配列読み取りデータを参照配列にマッピングするステップと;(e)各マッピング可能な塩基位置で前記参照配列のバリアントと整列するマッピングされた配列読み取りデータのサブセットを同定するステップと;(f)各マッピング可能な塩基位置について、(i)前記参照配列と比較してバリアントを含むマッピングされた配列読み取りデータの数、対、(ii)各マッピング可能な塩基位置の配列読み取りデータの総数の比を計算するステップと;(g)1つまたは複数のプログラムされたコンピュータプロセッサを使用して前記配列読み取りデータを少なくとも1つの以前の時点からの他の配列読み取りデータと比較し、それに応じて診断信頼度指標を更新するステップであって、前記診断信頼度指標は前記バリアントを同定する確率を表すステップとを含む方法を提供する。
【0034】
一部の実施形態では、体試料は血液試料である。一部の実施形態では、前記細胞外ポリヌクレオチドが無細胞デオキシリボ核酸(DNA)分子を含む。
【0035】
別の態様では、本開示は、遺伝子検査装置を操作するための方法であって、対象から得られる体試料から得られる初期出発遺伝子材料を提供するステップ;前記初期出発遺伝子材料からの二本鎖ポリヌクレオチド分子を非特異的タグ付けされた親ポリヌクレオチドの少なくとも1つのセットに変換するステップであって、セットの中の各ポリヌクレオチドは参照配列にマッピング可能であるステップ;ならびにタグ付けされた親ポリヌクレオチドの各セットについて:(i)前記セットの中の前記タグ付けされた親ポリヌクレオチドを増幅して、増幅された後代ポリヌクレオチドの対応するセットを生成するステップ;(ii)増幅された後代ポリヌクレオチドの前記セットを配列決定して、配列決定読み取りデータのセットを生成するステップ;(iii)配列決定読み取りデータの前記セットを崩壊させて、コンセンサス配列のセットを生成するステップであって、崩壊させることはタグからの配列情報、ならびに(1)配列読み取りデータの初めの領域の配列情報、(2)配列読み取りデータの終わりの領域および(3)前記配列読み取りデータの長さの少なくとも1つを使用し、コンセンサス配列の前記セットの各コンセンサス配列は、タグ付けされた親ポリヌクレオチドの前記セットの中のポリヌクレオチド分子に対応するステップ、ならびに(iv)タグ付けされた親分子の各セットについてコンセンサス配列の前記セットを分析するステップ;(v)現在の配列読み取りデータを少なくとも1つの他の時点からの事前の配列読み取りデータと比較するステップ;ならびに(vi)それに応じて診断信頼度指標を更新するステップであって、前記診断信頼度指標は、前記対象の体試料で1つまたは複数の遺伝子バリエーションを同定する確率を表すステップを含む方法を提供する。
【0036】
一部の実施形態では、体試料は血液試料である。一部の実施形態では、前記初期出発遺伝子材料が無細胞デオキシリボ核酸(DNA)を含む。
【0037】
一部の実施形態では、タグ付けされた親分子の各セットについてのコンセンサス配列の前記セットが別々に分析される。
【0038】
一部の実施形態では、分析することは、突然変異、インデル、コピー数バリエーション、塩基転換、転位、反転、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、遺伝子融合、染色体融合、遺伝子トランケーション、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学的修飾での異常な変化、後成的パターンでの異常な変化、核酸メチル化での異常な変化、感染症またはがんを検出することを含む。
【0039】
一部の実施形態では、(vi)が、事前の前記配列読み取りデータからの情報が現在の前記配列読み取りデータからの情報を補強する場合は、現在の前記配列読み取りデータの診断信頼度指標を増加させることを含む。一部の実施形態では、(vi)が、事前の前記配列読み取りデータからの情報が現在の前記配列読み取りデータからの情報に矛盾する場合は、現在の前記配列読み取りデータの診断信頼度指標を減少させることを含む。一部の実施形態では、(vi)が、事前の前記配列読み取りデータからの情報が現在の前記配列読み取りデータからの情報に関して決定的でない場合は、現在の前記配列読み取りデータの診断信頼度指標を同じままにすることを含む。
【0040】
一部の実施形態では、(v)が、1つまたは複数の現在の配列読み取りデータのバリエーションを1つまたは複数の事前の配列読み取りデータのバリエーションと比較することを含む。
【0041】
別の態様では、本開示は、対象における1つまたは複数の遺伝子バリアントを検出するための方法であって、(a)前記対象の1つまたは複数の無細胞生物学的試料から核酸分子を得るステップと;(b)前記核酸分子をアッセイして遺伝子データの第1のセットおよび遺伝子データの第2のセットを生成するステップであって、遺伝子データの前記第1のセットおよび/または遺伝子データの前記第2のセットは検出閾値の範囲内にあるステップと;(c)遺伝子データの前記第1のセットを遺伝子データの前記第2のセットと比較して、遺伝子データの前記第1のセットまたは遺伝子データの前記第2のセットで前記1つまたは複数の遺伝子バリアントを同定するステップと;(d)(c)で同定される前記1つまたは複数の遺伝子バリアントに基づいて、1つまたは複数のプログラムされたコンピュータプロセッサを使用して、前記対象の無細胞生物学的試料で前記1つまたは複数の遺伝子バリアントを同定することに関する診断信頼度指標を更新するステップとを含む方法を提供する。
【0042】
一部の実施形態では、遺伝子データの前記第1のセットおよび遺伝子データの前記第2セットが前記検出閾値の範囲内にある。一部の実施形態では、遺伝子データの前記第1のセットが前記検出閾値の範囲内にあり、遺伝子データの前記第2セットが前記検出閾値の上にある。一部の実施形態では、前記検出閾値は、ノイズ閾値である。
【0043】
一部の実施形態では、方法は、遺伝子データの前記第1のセットで前記1つまたは複数の遺伝子バリアントを同定し、前記診断信頼度指標を増加させるステップをさらに含む。
【0044】
一部の実施形態では、前記核酸分子のサブセットが異なる時点でアッセイされる。一部の実施形態では、前記核酸分子が同じ時点または異なる時点で複数の無細胞生物学的試料から得られる。
【0045】
一部の実施形態では、前記核酸分子が無細胞デオキシリボ核酸(DNA)である。
一部の実施形態では、前記DNAは、無細胞DNA(cfDNA)である。
【0046】
一部の実施形態では、本方法は、前記対象の遺伝子プロファイルを生成するステップをさらに含み、前記遺伝子プロファイルは、前記1つまたは複数の遺伝子バリアントを同定することに関する前記診断信頼度指標を含む。
【0047】
一部の実施形態では、共変量バリアントが(c)の遺伝子データの前記第1のセットで同定され、前記対象の無細胞生物学的試料で第2の共変量バリアントを同定することに関する前記診断信頼度指標を更新するステップをさらに含む。一部の実施形態では、方法は、遺伝子データの前記第1のセットが遺伝子データの前記第2のセットで観察される場合は、(c)で前記診断信頼度指標を増加させることをさらに含む。一部の実施形態では、方法は、遺伝子データの前記第1のセットが遺伝子データの前記第2のセットと異なる場合は、(c)で前記診断信頼度指標を減少させることをさらに含む。
【0048】
一部の実施形態では、前記検出閾値が配列決定または増幅によって導入される誤りを含む。
【0049】
一部の実施形態では、前記検出閾値が0.5%から5%の塩基あたりの誤り率を含む。一部の実施形態では、前記検出閾値が0.5%から1%の塩基あたりの誤り率を含む。
【0050】
一部の実施形態では、前記核酸分子は、前記対象の第2の無細胞生物学的試料から得られる。一部の実施形態では、前記第2の無細胞生物学的試料は、(a)の前記無細胞生物学的試料を得た後に得られる。一部の実施形態では、前記第2の無細胞生物学的試料は、(a)の前記無細胞生物学的試料を得る前に得られる。一部の実施形態では、前記第2の無細胞生物学的試料は、(a)の前記無細胞生物学的試料を得るのと同時に得られる。一部の実施形態では、遺伝子データの前記第1のセットは(a)の前記無細胞生物学的試料に対応し、遺伝子データの前記第2のセットは前記第2の無細胞生物学的試料に対応する。
【0051】
一部の実施形態では、本方法は、前記核酸分子にタグを付着させて、タグ付けされた親ポリヌクレオチドを生成するステップ;前記タグ付けされた親ポリヌクレオチドを増幅して、タグ付けされた後代ポリヌクレオチドを生成するステップ;および前記タグ付けされた後代ポリヌクレオチドを配列決定して、配列決定読み取りデータを生成するステップをさらに含む。
【0052】
一部の実施形態では、付着させるステップは、核酸分子にタグを特有なものとして付けることを含む。一部の実施形態では、付着させるステップは、前記核酸分子の5%以下がタグを特有なものとして付けられるように、前記核酸分子にタグを非特有なものとして付けることを含む。
【0053】
一部の実施形態では、本方法は、配列決定の前に目的の配列を選択的に濃縮するステップをさらに含む。
【0054】
一部の実施形態では、本方法は、少なくとも配列タグに基づいて、前記配列読み取りデータをファミリーにグループ分けするステップをさらに含む。一部の実施形態では、配列読み取りデータをグループ分けするステップは、以下の1つまたは複数にさらに基づく:核酸分子に由来する配列読み取りデータの初めの配列情報、核酸分子に由来する前記配列の終わりの配列情報、および前記配列読み取りデータの長さ。
【0055】
一部の実施形態では、本方法は、各ファミリーの中でグループ分けされた配列読み取りデータを比較して、各ファミリーでコンセンサス配列を決定するステップをさらに含み、ここで、コンセンサス配列の各々は、タグ付けされた親ポリヌクレオチドの中の特有のポリヌクレオチドに対応する。
【0056】
一部の実施形態では、本方法は、100ng未満の核酸分子を得るステップをさらに含む。
【0057】
別の態様では、本開示は、対象からの無細胞デオキシリボース核酸(cfDNA)で遺伝子バリアントをコールするための方法であって、(a)DNA配列決定システムを使用して対象から第1の時点でとられる試料からのcfDNAを配列決定するステップと;(b)前記第1の時点からの配列決定されたcfDNAで遺伝子バリアントを検出するステップであって、前記遺伝子バリアントが診断限界未満のレベルで検出されるステップと;(c)前記DNA配列決定システムを使用して1つまたは複数の以降の時点で前記対象からとられる試料からのcfDNAを配列決定するステップと;(d)前記1つまたは複数の以降の時点からの配列決定されたcfDNAで前記遺伝子バリアントを検出するステップであって、前記遺伝子バリアントが前記診断限界未満のレベルで検出されるステップと;(e)複数の時点でとられる試料において前記診断限界未満で前記遺伝子バリアントを検出することに基づいて、前記試料を前記遺伝子バリアントについて陽性であるとコールするステップとを含む方法を提供する。
【0058】
一部の実施形態では、本方法は、(f)傾向を検出するステップをさらに含み、ここで、第1の時点で遺伝子バリアントが診断限界未満で検出され、陽性とコールされ、1つまたは複数の以降の時点で遺伝子バリアントが診断限界より上で検出され、それによって遺伝子バリアントは増加する。
【0059】
一部の実施形態では、診断限界は約1.0%またはそれ未満である。
【0060】
別の態様では、本開示は、対象からの無細胞デオキシリボース核酸(cfDNA)で遺伝子バリアントをコールするための方法であって、(a)デオキシリボ核酸(DNA)配列決定システムを使用して対象からの試料からのcfDNAを配列決定するステップと;(b)配列決定されたcfDNAで遺伝子バリアントを検出するステップであって、前記遺伝子バリアントが診断限界未満のレベルで検出されるステップと;(c)前記DNA配列決定システムを使用して前記対象からとられる前記試料からのcfDNAを配列決定するステップであって、前記試料が1回または複数回再配列決定されるステップと;(d)1つまたは複数の再配列決定された試料からの配列決定されたcfDNAで前記遺伝子バリアントを検出するステップであって、前記遺伝子バリアントが前記診断限界未満のレベルで検出されるステップと;(e)再配列決定された試料において前記診断限界未満で前記遺伝子バリアントを検出することに基づいて、前記試料を前記遺伝子バリアントについて陽性であるとコールするステップと含む方法を提供する。
【0061】
別の態様では、本開示は、1つまたは複数のコンピュータプロセッサでの実行の結果、本明細書の上または他の場所の方法のいずれかを実行するマシン実行可能コードを含む非一過性コンピュータ可読媒体を提供する。
【0062】
別の態様では、本開示は、1つまたは複数のコンピュータプロセッサおよびそれに連結したメモリを含むコンピュータシステムを提供する。メモリは、1つまたは複数のコンピュータプロセッサでの実行の結果、本明細書の上または他の場所の方法のいずれかを実行するマシン実行可能コードを含む、非一過性コンピュータ可読媒体を含む。
【0063】
本開示の例示的な実施形態だけが示され、記載される、以下の詳細な記載から、本開示の追加の態様および利点が当業者に容易に明らかになる。理解されるように、本開示は他のおよび異なる実施形態が可能であり、そのいくつかの詳細は全て本開示を逸脱しない範囲で、様々な明らかな点で変更が可能である。したがって、図および記載は、本来例示的であるとみなすべきであり、限定的とみなすべきでない。
参照による組込み
【0064】
この明細書で指摘される全ての刊行物、特許および特許出願は、各個々の刊行物、特許または特許出願が参照により組み込まれることが具体的および個々に示されるのと同じ程度に、参照により本明細書に組み込まれる。
【0065】
本開示の新規特長は、添付の請求項に詳細に示される。本開示の特長および利点のより深い理解は、本開示の原理が利用される例示的な実施形態を示す以下の詳細な説明および付随図への参照によって得られる。
本発明の実施形態において、例えば以下の項目が提供される。
(項目1)
対象の疾患状態を分析するための方法であって、
(a)遺伝子アナライザーを使用して(i)2つもしくはそれを超える時点または(ii)実質的に同じ時点で得られた前記対象の生物学的試料中の核酸分子から遺伝子データを生成するステップであって、前記遺伝子データは前記対象の遺伝子情報に関し、前記生物学的試料は無細胞生物学的試料を含むステップと;
(b)前記遺伝子アナライザーから前記遺伝子データを受け取るステップと;
(c)1つまたは複数のプログラムされたコンピュータプロセッサにより、前記対象の前記遺伝子情報の特徴付けにおいて前記遺伝子データを使用して調整された試験結果を生成するステップと;
(d)調整された前記試験結果をコンピュータメモリに出力するステップと
を含む方法。
(項目2)
前記遺伝子データが現在の配列読み取りデータおよび事前の配列読み取りデータを含み、(c)が現在の前記配列読み取りデータを事前の前記配列読み取りデータと比較し、それに応じて前記対象の前記遺伝子情報の前記特徴付けに関して診断信頼度指標を更新することを含み、前記診断信頼度指標は、前記対象の生物学的試料で1つまたは複数の遺伝子バリエーションを同定する確率を表す、項目1に記載の方法。
(項目3)
現在の前記配列読み取りデータの信頼区間を生成するステップをさらに含む、項目2に記載の方法。
(項目4)
前記信頼区間を1つまたは複数の事前の信頼区間と比較して、重複する信頼区間に基づいて疾患進行度を決定するステップをさらに含む、項目3に記載の方法。
(項目5)
前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、前記第1の時点からの情報が前記第2の時点からの情報を補強する場合は、(c)が以降のまたは以前の特徴付けでの診断信頼度指標を増加させることを含む、項目1に記載の方法。
(項目6)
前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、前記第1の時点からの情報が前記第2の時点からの情報を補強する場合は、(c)が以降の特徴付けでの診断信頼度指標を増加させることを含む、項目1に記載の方法。
(項目7)
第1の共変量バリエーションが前記遺伝子データで検出され、第2の共変量バリエーションが検出される場合は、(c)が以降の特徴付けでの診断信頼度指標を増加させることを含む、項目1に記載の方法。
(項目8)
前記生物学的試料が第1の時点および第2の時点を含む2つまたはそれを超える時点で得られ、第1の時点からの情報が前記第2の時点からの情報と矛盾する場合は、(c)が以降の特徴付けでの診断信頼度指標を低下させることを含む、項目1に記載の方法。
(項目9)
以降の特徴付けを得るステップ、およびde novo情報の以降の特徴付けでの診断信頼度指標をそのままにするステップをさらに含む、項目1に記載の方法。
(項目10)
前記遺伝子データに含まれる配列読み取りデータの集合で検出される1つまたは複数の遺伝子バリアントの頻度を決定するステップ、および少なくとも一部、2つまたはそれを超える前記時点での前記1つまたは複数の遺伝子バリアントの前記頻度を比較することによって、調整された前記試験結果を生成するステップをさらに含む、項目1に記載の方法。
(項目11)
前記遺伝子データに含まれる配列読み取りデータの集合で検出される1つまたは複数の遺伝子座でのコピー数バリエーションコピー数バリエーションの量を決定するステップ、および少なくとも一部、2つまたはそれを超える前記時点での前記量を比較することによって、調整された前記試験結果を生成するステップをさらに含む、項目1に記載の方法。
(項目12)
調整された前記試験結果を使用して前記対象に(i)治療的介入または(ii)健康状態もしくは疾患の診断を提供するステップをさらに含む、項目1に記載の方法。
(項目13)
前記遺伝子データが疾患関連またはがん関連の遺伝子バリアントを含むゲノムの位置からの配列データを含む、項目1に記載の方法。
(項目14)
調整された前記試験結果を使用して、前記対象からの試料中のポリヌクレオチドの読み取り深度を増加させることによって遺伝子バリアントを検出する感度を増加させるステップをさらに含む、項目1に記載の方法。
(項目15)
前記遺伝子データが遺伝子データの第1セットおよび遺伝子データの第2セットを含み、遺伝子データの前記第1のセットは検出閾値またはそれ未満であり、遺伝子データの前記第2のセットは前記検出閾値より上である、項目1に記載の方法。
(項目16)
前記検出閾値がノイズ閾値である、項目15に記載の方法。
(項目17)
複数の試料採取事例または時点において遺伝子データの前記第1のセットおよび遺伝子データの前記第2のセットで同じ遺伝子バリアントが検出されるときは、(c)で前記対象の診断を陰性または不確定から陽性に調整することをさらに含む、項目15に記載の方法。
(項目18)
初期の時点での遺伝子データの前記第1のセットおよび後の時点での遺伝子データの前記第2のセットで同じ遺伝子バリアントが検出されるときは、(c)で初期の時点からの特徴付けにおいて前記対象の診断を陰性または不確定から陽性に調整することをさらに含む、項目15に記載の方法。
(項目19)
前記疾患状態ががんであり、前記遺伝子アナライザーが核酸シーケンサーである、項目1に記載の方法。
(項目20)
前記生物学的試料が少なくとも2つの異なるタイプの生物学的試料を含む、項目1に記載の方法。
(項目21)
前記生物学的試料が同じタイプの生物学的試料を含む、項目1に記載の方法。
(項目22)
前記生物学的試料が血液試料である、項目21に記載の方法。
(項目23)
前記核酸分子が無細胞デオキシリボ核酸(DNA)である、項目22に記載の方法。
(項目24)
対象からの生物学的試料でがんポリヌクレオチドの量の傾向を経時的に検出する方法であって、
1つまたは複数のプログラムされたコンピュータプロセッサを使用して、複数の時点の各々で前記がんポリヌクレオチドの頻度を決定するステップと;
前記複数の時点の各々で前記頻度の誤差範囲を決定して、少なくとも第1の時点での第1の誤差範囲および前記第1の時点の後の第2の時点での第2の誤差範囲を提供するステップと;
(1)前記第1の誤差範囲が前記第2の誤差範囲と重なるかどうか決定するステップであって、前記重なりは複数の時点での前記がんポリヌクレオチドの頻度の安定性を示すステップ、(2)前記第2の誤差範囲が前記第1の誤差範囲より大きく、したがって、複数の時点で前記がんポリヌクレオチドの頻度の増加が表されるか決定するステップ、または、(3)前記第2の誤差範囲が前記第1の誤差範囲より小さく、したがって、複数の時点で前記がんポリヌクレオチドの頻度の減少が表されるか決定するステップと
を含む方法。
(項目25)
DNAが無細胞DNAである、項目24に記載の方法。
(項目26)
対象における1つもしくは複数の遺伝子バリエーションおよび/または遺伝子バリエーションの量を検出する方法であって、
遺伝子アナライザーによって前記対象の無細胞核酸試料で核酸分子を配列決定して、第1の時点で配列読み取りデータの第1のセットを生成するステップと;
配列読み取りデータの前記第1のセットを前記第1の時点の前の少なくとも第2の時点で得られる配列読み取りデータの少なくとも第2のセットと比較して、配列読み取りデータの第1のセットおよび配列読み取りデータの前記少なくとも第2のセットの比較を与えるステップと;
前記比較を使用し、それに応じて診断信頼度指標を更新するステップであって、前記診断信頼度指標は、前記対象の無細胞核酸試料で1つまたは複数の遺伝子バリエーションを同定する確率を表すステップと;
前記診断信頼度指標に基づいて前記対象の無細胞核酸試料で核酸分子中の前記1つもしくは複数の遺伝子バリエーションの存在もしくは不在および/または遺伝子バリエーションの量を検出するステップと
を含む方法。
(項目27)
前記対象から無細胞核酸分子を得るステップをさらに含む、項目26に記載の方法。
(項目28)
(i)前記第1の時点で配列読み取りデータの前記第1のセットから得られる情報が前記第2の時点で配列読み取りデータの前記少なくとも第2のセットから得られる情報を補強する場合は、前記診断信頼度指標を増加させるステップ、(ii)前記第1の時点で配列読み取りデータの前記第1のセットから得られる情報が前記第2の時点で配列読み取りデータの前記少なくとも第2のセットから得られる情報を補強しないかもしくは矛盾する場合は、前記診断信頼度指標を減少させるステップ、または(iii)de novo情報の以降の特徴付けで前記診断信頼度指標をそのままにするステップをさらに含む、項目26に記載の方法。
(項目29)
対象の無細胞核酸試料で突然変異を検出するための方法であって、
(a)比較を与えるために、遺伝子アナライザーから得られる現在の配列読み取りデータを事前の時期からの事前の配列読み取りデータと比較することによってコンセンサス配列を決定し、前記比較に基づいて診断信頼度指標を更新するステップであって、各コンセンサス配列は、前記無細胞核酸試料に由来するタグ付けされた親ポリヌクレオチドのセットの中の特有のポリヌクレオチドに対応するステップと、
(b)診断信頼度に基づいて、前記対象における細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップであって、前記遺伝子プロファイルは、コピー数バリエーションまたは突然変異分析からもたらされるデータを含むステップと
を含む方法。
(項目30)
前記コンセンサス配列を使用して各マッピング可能な塩基位置について分散の比または頻度を正規化し、実際のまたは潜在的な稀なバリアント(単数または複数)または突然変異(単数または複数)を決定するステップ;および
潜在的な稀なバリアント(単数または複数)または突然変異(単数または複数)を有する各領域について結果として生じる数を、参照試料から同様に誘導される数と比較するステップ
をさらに含む、項目29に記載の方法。
(項目31)
異常な細胞活性を検出する方法であって、
対象の生物学的試料に由来するタグ付けされた親ポリヌクレオチドの少なくとも1つのセットを提供するステップと;
前記セットの中の前記タグ付けされた親ポリヌクレオチドを増幅して、増幅された後代ポリヌクレオチドの対応するセットを生成するステップと;
遺伝子アナライザーを使用して増幅された後代ポリヌクレオチドの前記セットのサブセットを配列決定して、配列決定読み取りデータのセットを生成するステップと;
現在の配列読み取りデータを少なくとも1つの事前の時期からの事前の配列読み取りデータと比較し、それに応じて診断信頼度指標を更新することによって、配列決定読み取りデータの前記セットを崩壊させてコンセンサス配列のセットを生成するステップであって、前記診断信頼度指標は、前記対象の生物学的試料で1つまたは複数の遺伝子バリエーションを同定する確率を表し、各コンセンサス配列は、タグ付けされた親ポリヌクレオチドの前記セットの中の特有のポリヌクレオチドに対応するステップと
を含む方法。
(項目32)
(i)配列決定読み取りデータの前記セットが少なくとも1つの前記事前の時期に同定される場合は、前記診断信頼度指標を増加させるステップ、(ii)配列決定読み取りデータの前記セットが少なくとも1つの前記事前の時期に同定されない場合は、前記診断信頼度指標を減少させるステップ、または(iii)配列決定読み取りデータの前記セットが少なくとも1つの前記事前の時期に同定されるが決定的でない場合は、前記診断信頼度指標を変えないままにするステップをさらに含む、項目31に記載の方法。
(項目33)
対象の無細胞または実質的に無細胞の試料で突然変異を検出するための方法であって、
(a)遺伝子アナライザーにより前記対象の体試料からの細胞外ポリヌクレオチドを配列決定するステップと;
(b)前記細胞外ポリヌクレオチドの各々について、複数の配列決定読み取りデータを生成するステップと;
(c)設定された閾値を満たさない読み取りデータをフィルタリング除去するステップと;
(d)前記配列決定に由来する配列読み取りデータを参照配列にマッピングするステップと;
(e)各マッピング可能な塩基位置で前記参照配列のバリアントと整列するマッピングされた配列読み取りデータのサブセットを同定するステップと;
(f)各マッピング可能な塩基位置について、(i)前記参照配列と比較してバリアントを含むマッピングされた配列読み取りデータの数、対、(ii)各マッピング可能な塩基位置の配列読み取りデータの総数の比を計算するステップと;
(g)1つまたは複数のプログラムされたコンピュータプロセッサを使用して前記配列読み取りデータを少なくとも1つの以前の時点からの他の配列読み取りデータと比較し、それに応じて診断信頼度指標を更新するステップであって、前記診断信頼度指標は前記バリアントを同定する確率を表すステップと
を含む方法。
(項目34)
前記細胞外ポリヌクレオチドが無細胞デオキシリボ核酸(DNA)分子を含む、項目33に記載の方法。
(項目35)
遺伝子検査装置を操作するための方法であって、
対象から得られる体試料から得られる初期出発遺伝子材料を提供するステップ;
前記初期出発遺伝子材料からの二本鎖ポリヌクレオチド分子を非特異的タグ付けされた親ポリヌクレオチドの少なくとも1つのセットに変換するステップであって、セットの中の各ポリヌクレオチドは参照配列にマッピング可能であるステップ;ならびに
タグ付けされた親ポリヌクレオチドの各セットについて:
(i)前記セットの中の前記タグ付けされた親ポリヌクレオチドを増幅して、増幅された後代ポリヌクレオチドの対応するセットを生成するステップ;
(ii)増幅された後代ポリヌクレオチドの前記セットを配列決定して、配列決定読み取りデータのセットを生成するステップ;
(iii)配列決定読み取りデータの前記セットを崩壊させて、コンセンサス配列のセットを生成するステップであって、崩壊させることはタグからの配列情報、ならびに(1)配列読み取りデータの初めの領域の配列情報、(2)配列読み取りデータの終わりの領域および(3)前記配列読み取りデータの長さの少なくとも1つを使用し、コンセンサス配列の前記セットの各コンセンサス配列は、タグ付けされた親ポリヌクレオチドの前記セットの中のポリヌクレオチド分子に対応するステップ、ならびに
(iv)タグ付けされた親分子の各セットについてコンセンサス配列の前記セットを分析するステップ;
(v)現在の配列読み取りデータを少なくとも1つの他の時点からの事前の配列読み取りデータと比較するステップ;ならびに
(vi)それに応じて診断信頼度指標を更新するステップであって、前記診断信頼度指標は、前記対象の体試料で1つまたは複数の遺伝子バリエーションを同定する確率を表すステップ
を含む方法。
(項目36)
前記初期出発遺伝子材料が無細胞デオキシリボ核酸(DNA)を含む、項目35に記載の方法。
(項目37)
タグ付けされた親分子の各セットについてのコンセンサス配列の前記セットが別々に分析される、項目35に記載の方法。
(項目38)
(vi)が、(1)事前の前記配列読み取りデータからの情報が現在の前記配列読み取りデータからの情報を補強する場合は、現在の前記配列読み取りデータの診断信頼度指標を増加させること、(2)事前の前記配列読み取りデータからの情報が現在の前記配列読み取りデータからの情報に矛盾する場合は、現在の前記配列読み取りデータの診断信頼度指標を減少させること、または(3)事前の前記配列読み取りデータからの情報が現在の前記配列読み取りデータからの情報に関して決定的でない場合は、現在の前記配列読み取りデータの診断信頼度指標を同じままにすることを含む、項目35に記載の方法。
(項目39)
(v)が、1つまたは複数の現在の配列読み取りデータのバリエーションを1つまたは複数の事前の配列読み取りデータのバリエーションと比較することを含む、項目35に記載の方法。
(項目40)
対象における1つまたは複数の遺伝子バリアントを検出するための方法であって、
(a)前記対象の1つまたは複数の無細胞生物学的試料から核酸分子を得るステップと;
(b)前記核酸分子をアッセイして遺伝子データの第1のセットおよび遺伝子データの第2のセットを生成するステップであって、遺伝子データの前記第1のセットおよび/または遺伝子データの前記第2のセットは検出閾値の範囲内にあるステップと;
(c)遺伝子データの前記第1のセットを遺伝子データの前記第2のセットと比較して、遺伝子データの前記第1のセットまたは遺伝子データの前記第2のセットで前記1つまたは複数の遺伝子バリアントを同定するステップと;
(d)(c)で同定される前記1つまたは複数の遺伝子バリアントに基づいて、1つまたは複数のプログラムされたコンピュータプロセッサを使用して、前記対象の無細胞生物学的試料で前記1つまたは複数の遺伝子バリアントを同定することに関する診断信頼度指標を更新するステップと
を含む方法。
(項目41)
遺伝子データの前記第1のセットおよび遺伝子データの前記第2セットが前記検出閾値の範囲内にある、項目40に記載の方法。
(項目42)
遺伝子データの前記第1のセットが前記検出閾値の範囲内にあり、遺伝子データの前記第2セットが前記検出閾値の上にある、項目40に記載の方法。
(項目43)
前記検出閾値がノイズ閾値である、項目40に記載の方法。
(項目44)
遺伝子データの前記第1のセットで前記1つまたは複数の遺伝子バリアントを同定し、前記診断信頼度指標を増加させるステップをさらに含む、項目43に記載の方法。
(項目45)
前記核酸分子のサブセットが異なる時点でアッセイされる、項目40に記載の方法。
(項目46)
前記核酸分子が同じ時点または異なる時点で複数の無細胞生物学的試料から得られる、項目40に記載の方法。
(項目47)
前記核酸分子が無細胞デオキシリボ核酸である、項目40に記載の方法。
(項目48)
共変量バリアントが(c)の遺伝子データの前記第1のセットで同定され、前記対象の無細胞生物学的試料で第2の共変量バリアントを同定することに関する前記診断信頼度指標を更新するステップをさらに含む、項目40に記載の方法。
(項目49)
(1)遺伝子データの前記第1のセットが遺伝子データの前記第2のセットで観察される場合は、(c)で前記診断信頼度指標を増加させること、または、(2)遺伝子データの前記第1のセットが遺伝子データの前記第2のセットと異なる場合は、(c)で前記診断信頼度指標を減少させることをさらに含む、項目40に記載の方法。
(項目50)
前記検出閾値が0.5%から5%の塩基あたりの誤り率を含む、項目40に記載の方法。
(項目51)
遺伝子データの前記第1のセットが(a)の前記無細胞生物学的試料に対応し、遺伝子データの前記第2のセットが第2の無細胞生物学的試料に対応する、項目40に記載の方法。
(項目52)
対象からの無細胞デオキシリボース核酸(cfDNA)で遺伝子バリアントをコールするための方法であって、
(a)DNA配列決定システムを使用して対象から第1の時点でとられる試料からのcfDNAを配列決定するステップと;
(b)前記第1の時点からの配列決定されたcfDNAで遺伝子バリアントを検出するステップであって、前記遺伝子バリアントが診断限界未満のレベルで検出されるステップと;
(c)前記DNA配列決定システムを使用して1つまたは複数の以降の時点で前記対象からとられる試料からのcfDNAを配列決定するステップと;
(d)前記1つまたは複数の以降の時点からの配列決定されたcfDNAで前記遺伝子バリアントを検出するステップであって、前記遺伝子バリアントが前記診断限界未満のレベルで検出されるステップと;
(e)複数の時点でとられる試料において前記診断限界未満で前記遺伝子バリアントを検出することに基づいて、前記試料を前記遺伝子バリアントについて陽性であるとコールするステップと
を含む方法。
(項目53)
対象からの無細胞デオキシリボース核酸(cfDNA)で遺伝子バリアントをコールするための方法であって、
(a)デオキシリボ核酸(DNA)配列決定システムを使用して対象からの試料からのcfDNAを配列決定するステップと;
(b)配列決定されたcfDNAで遺伝子バリアントを検出するステップであって、前記遺伝子バリアントが診断限界未満のレベルで検出されるステップと;
(c)前記DNA配列決定システムを使用して前記対象からとられる前記試料からのcfDNAを配列決定するステップであって、前記試料が1回または複数回再配列決定されるステップと;
(d)1つまたは複数の再配列決定された試料からの配列決定されたcfDNAで前記遺伝子バリアントを検出するステップであって、前記遺伝子バリアントが前記診断限界未満のレベルで検出されるステップと;
(e)再配列決定された試料において前記診断限界未満で前記遺伝子バリアントを検出することに基づいて、前記試料を前記遺伝子バリアントについて陽性であるとコールするステップと
含む方法。
(項目54)
対象における1つまたは複数の遺伝子バリアントを検出するための方法であって、
(a)前記対象の1つまたは複数の無細胞生物学的試料から核酸分子を得るステップと;
(b)前記核酸分子をアッセイして遺伝子データのセットを生成するステップであって、遺伝子バリアントが検出閾値の範囲内で遺伝子データの前記セットの中にあるステップと;
(c)前記遺伝子バリエーションに関連した1つまたは複数の共変量遺伝子バリエーションを、前記遺伝子バリエーションに関連した1つまたは複数の共変量遺伝子バリエーションについて、検出閾値の範囲内で、遺伝子データの前記セットに問い合わせることによって同定するステップと;
(d)(c)で同定される前記1つまたは複数の遺伝子バリアントに基づいて、1つまたは複数のプログラムされたコンピュータプロセッサを使用して、前記対象の無細胞生物学的試料で前記1つまたは複数の遺伝子バリアントを同定することに関する診断信頼度指標を更新するステップと
を含む方法。
(項目55)
遺伝子データを処理するための方法であって、
(a)対象の無細胞核酸試料から生成される遺伝子データを遺伝子アナライザーから受け取るステップと;
(b)プログラムされたコンピュータプロセッサを使用して前記遺伝子データを分析し、前記遺伝子データの中の1つまたは複数の遺伝子バリアントを同定するステップと;
(c)(b)で同定される前記1つまたは複数の遺伝子バリアントに対応する出力を電子ポータルに提供するステップと
を含む方法。
(項目56)
1つまたは複数の結果がウェブポータルまたはグラフィカルユーザーインターフェイスで出力される、項目55に記載の方法。
(項目57)
(a)遺伝子配列決定システムを使用して対象からのcfDNAを配列決定し、配列決定データを生成するステップと;
(b)配列データをコンピュータメモリに受け取るステップと;
(c)プロセッサを使用してロジックを実行し:
(i)1つまたは複数の遺伝子座で遺伝子バリアント頻度を決定し;
(ii)遺伝子バリアントの頻度が所定の診断限界より上かまたはそれ未満であるか決定し;
(iii)前記頻度が前記診断限界より上である場合は、前記遺伝子バリアントが試料中に存在するとコールし;
(iv)または、前記頻度が前記診断限界より下である場合は、別の時間にとられた前記対象からの配列日にアクセスし、前記バリアントが他の時点で検出される場合は、遺伝子バリアントを存在するとコールし;
(v)存在するとコールされた遺伝子バリアントを同定する報告書を作成する
ステップと;
(d)前記報告書がグラフィカルユーザーインターフェイスで見られるウェブサイトに前記報告書を送るステップと
を含む方法。
【図面の簡単な説明】
【0066】
図1A図1A~1Dは、DNA配列読み取り値の誤り率および偏りを低減する例示的なシステムを例示する。
図1B図1A~1Dは、DNA配列読み取り値の誤り率および偏りを低減する例示的なシステムを例示する。
図1C図1A~1Dは、DNA配列読み取り値の誤り率および偏りを低減する例示的なシステムを例示する。
図1D図1A~1Dは、DNA配列読み取り値の誤り率および偏りを低減する例示的なシステムを例示する。
【0067】
図2図2は、初期の遺伝子材料の試料でポリヌクレオチドを分析するための例示的な過程を例示する。
【0068】
図3図3は、初期の遺伝子材料の試料でポリヌクレオチドを分析するための別の例示的な過程を例示する。
【0069】
図4図4は、初期の遺伝子材料の試料でポリヌクレオチドを分析するための別の例示的な過程を例示する。
【0070】
図5A図5Aおよび5Bは、がんを有する対象のコピー数バリエーション分析から作成された報告のインターネット接続可能なアクセスの概略図を示す。
図5B図5Aおよび5Bは、がんを有する対象のコピー数バリエーション分析から作成された報告のインターネット接続可能なアクセスの概略図を示す。
【0071】
図6図6は、がんを有する対象の報告のインターネット接続可能なアクセスの概略図を示す。
【0072】
図7図7は、遺伝子データを分析するようにプログラムされた、さもなければ構成されたコンピュータシステムを例示する。
【0073】
図8図8は、がん突然変異体を有する核酸が混入している試料中の配列の検出を示す。
【0074】
図9図9は、本開示の方法およびシステムと使用することができる遺伝子パネルを示す。
【発明を実施するための形態】
【0075】
詳細な説明
本発明の様々な実施形態が本明細書で示され、記載されたが、そのような実施形態は例としてだけ提供されることは当業者に明らかになる。本発明を逸脱しない範囲で、当業者は多くの改変形、変更および置換を思いつくことができる。本明細書に記載される本発明の実施形態への様々な代替物を用いることができることを理解すべきである。
【0076】
本明細書において使用される用語は特定の実施形態を記載することだけが目的であり、本発明を限定するものではない。本明細書において使用される場合、文脈が明らかに他を指示しない限り、単数形「a」、「an」および「the」は複数形も含むものとする。さらにまた、用語「含んでいる(including)」、「含む」、「有している」、「有する(has)」、「有する(with)」またはそのバリアントが詳細な説明および/または請求項で使用される限り、そのような用語は「含んでいる(comprising)」という用語と同様に包括的であるものとする。
【0077】
用語「約」または「およそ」は、当業者が決定する特定の値の許容される誤差範囲内であることを意味し、それは一部、その値がどのように測定または決定されるか、すなわち測定システムの限界に依存する。例えば、「約」は、当技術分野での慣行により、1または1を超える標準偏差内であることを意味することができる。あるいは、「約」は、所与の値の20%まで、10%まで、5%まで、または1%までの範囲を意味することができる。あるいは、特に生物学的システムまたはプロセスに関して、この用語は、値の1桁以内、例えば5倍以内または2倍以内を意味することができる。本出願および請求項で特定の値が記載される場合は、特記しない限り、特定の値の許容される誤差範囲内を意味する用語「約」を仮定するべきである。
【0078】
ある特定の実施形態では、診断は、バイオマーカーなどの疾患を表すシグナルを検出(例えば、測定)して、検出または測定を疾患状態と関連付けることを含む。しかし、低い試料濃度のためにシグナルが弱いことがあり、またはそれはノイズによって覆い隠されることがある。シグナルが弱いため、それがノイズ閾値もしくは検出限界またはそれ未満である場合は、検出システムによって生成されるシグナルをノイズから区別すること、またはシグナルを検出すること自体が困難かもしれない。そのような場合、診断を確信的に下すことができないかもしれない。複数の時点、確証的シグナルとしての複数の試験または複数の一般的に検出される共変量遺伝子バリアントから遺伝子データまたは検出されるバリエーションを見ることによって、診断信頼度を増強することができる。
【0079】
本明細書において使用される場合、用語検出限界および診断限界は、所定の信頼度レベルで所与の遺伝子またはバリアントの存在もしくは不在または量を検出する能力を一般的に指す。本明細書において一般的に使用される場合、検出閾値は、ある特定の遺伝子バリアントが検出不能であるかまたはノイズから区別することができない、検出限界またはそれ未満の範囲を指す。一部の場合には、「検出限界」は、バリアント陽性試料でバリアントが95%の時間的割合で検出される、最も低い頻度または濃度であってよい。診断限界は、陽性とコールすることができる最も低い頻度であってよい。診断限界は、約0.01%から約1%であってよい。診断限界は、約5%またはそれ未満、約1.0%、約0.8%、約0.5%、約0.25%、約0.1%、約0.08%、約0.05%、約0.03%、約0.01%またはそれ未満であってよい。一部の場合には、検出限界は、診断限界と同じであってよい。検出限界または診断限界は、ノイズ限界またはノイズ閾値であってよい。そのようなシナリオでは、検出限界または診断限界は、シグナルをノイズから区別することができない限界である。
【0080】
一部の場合には、診断限界は、検出限界より低くてもよい。本明細書に記載される方法およびシステムを使用して、遺伝子バリアント(単数または複数)が検出限界またはそれ未満で存在するときでさえ、検出限界またはそれ未満の量で存在する遺伝子バリアント(単数または複数)を、所定の信頼度レベル(例えば、少なくとも80%、90%または95%の信頼度)で陽性とコールすることができる。
【0081】
したがって、例えば、試料の配列分析は、試料でいくつかの異なる遺伝子バリアントおよび様々な頻度または濃度を明らかにすることができる。診断限界は、例えば1%に、すなわち、バリアントが少なくとも1%の濃度で存在しない限り、試料中に「存在する」と報告される、または報告で「コールされる」バリアントがないと、臨床医が設定することができる。第1のバリアントが5%で検出されるならば、そのバリアントは試料中に存在すると「コールされ」、および報告される。別のバリアントは、0.5%で検出される。これは診断限界未満であり、配列決定システムの検出限界未満であってもよい。この場合には、臨床医はいくつかのオプションを有する。第1に、同じ試料を再試験することができる。検出限界未満またはそれより上でバリアントが再び検出されるならば、それは今では試料中に存在すると「コールされる」。第2に、共変量バリエーションの存在について配列データを調べることができる。例えば、バリアントは公知の耐性突然変異であるかもしれない。配列データから同じ遺伝子でドライバー突然変異が検出される場合は、これは、耐性突然変異体がおそらく「ノイズ」検出ではなく、再び陽性とコールすることができることを表す。第3に、対象は後の時点で再び試験することができる。後の試料でバリアントが検出される場合は、第1の試料はバリアントに関して「存在する」とコールすることができる。あるいは、以降の試験が第1の試験と重ならない信頼度スコアのバリアントの量を示す場合は、バリアントは、対象において場合によって増加または減少するとコールすることができる。
【0082】
いくつかの因子が、検出もしくは診断限界でまたはその近くで遺伝子またはバリアントを検出する能力に影響する可能性がある。検出される遺伝子またはバリアントは低い量または濃度で存在することがあり、そのため、配列アナライザーで遺伝子またはバリアントを検出することができない。例えば、分析される100万の無細胞核酸分子の中から、遺伝子突然変異は分析される1つの無細胞核酸分子に存在することがあり、したがって、バリアント塩基コールは100万分の1の頻度で存在する。遺伝子突然変異は同じ部位の他の全ての塩基コールに対して低い頻度で起こるので、配列決定アナライザーは遺伝子突然変異を非バリアント塩基コールとして誤って特徴付けることがある。このような場合には、検出限界は、非常に低い頻度で存在する遺伝子バリエーションを検出する遺伝子アナライザーまたはシーケンサーの能力を一般的に指すことができる。さらに、配列決定または増幅から導入される配列の誤りまたはアーチファクトは、誤りおよび/またはアーチファクトと検出される遺伝子または遺伝子バリエーションを区別するのを困難または不可能にする可能性がある。このような場合には、検出限界は、バリアント塩基コールと誤りコールを確信的に識別する能力を指すことができる。本開示は、検出限界もしくはそれ未満でおよび/または検出閾値の範囲内で遺伝子バリエーションを検出するための技法(単数または複数)を提供する。
【0083】
本明細書において使用される場合、用語「診断信頼度指標」は、1つまたは複数の遺伝子バリアントの存在およびその存在がどのくらい信頼されているかを表すために割り当てられる表象、数、ランク、スコア、程度または値を一般的に指す。診断信頼度指標は、対象の生物学的試料で1つまたは複数の遺伝子バリエーションを同定する確率を表すことができる。例えば、表象は、中でも、二元値またはA~Zの英数字ランクであってよい。さらに別の例では、診断信頼度指標は、中でも0から100までの任意の値を有することができる。さらに別の例では、診断信頼度指標は、範囲または程度、例えば、「低い」または「高い」、「より多い」または「より少ない」、「増加する」または「減少する」によって表すことができる。低い診断信頼度指標は、検出される遺伝子バリアントがノイズである可能性(例えば、遺伝子バリアントの検出される存在をあまり信頼することができないこと)を表す。高い診断信頼度指標は、検出される遺伝子バリアントに関して、遺伝子バリアントがおそらく存在することを意味する。一部の場合には、その診断信頼度指標が100のうち25~30未満であるならば、結果は信頼できないことがある。
【0084】
各バリアントの診断信頼度指標は、遺伝子バリエーションを予測する信頼度を表すように調整することができる。複数の時点での、または同じ時点もしくは異なる時点での複数の試料からの測定を使用することにより、信頼度を増加または減少することができる。診断信頼度は、共変量バリエーションの検出に基づいてさらに調整することができる。診断信頼度指標はいくつかの統計的方法のいずれかによって割り当てることができ、少なくとも一部、測定が経時的に観察される頻度に基づくことができる。
【0085】
本明細書において使用される場合、用語「共変量バリエーション」または「共変量バリアント」は、一緒に変化する傾向がある遺伝子バリエーションを一般的に指し、例えば、1つのバリエーションの存在は共変量バリエーションの存在と相関する。したがって、バリアントが診断限界または検出限界未満で見られ、検出限界の上またはそれ未満で共変量バリアントも検出されるならば、その試料は両方のバリアントに関して陽性である可能性がより高く、それらは試料中に存在すると「コール」することができる。共変量バリエーションの1つの例は、ドライバー突然変異および耐性突然変異または重要性が未知の突然変異である。すなわち、ドライブ突然変異が存在した後、特にがんの処置および再発の後、同じ遺伝子に耐性突然変異などの他の突然変異が出現することがある。非限定例として、検出限界より上でドライバー突然変異を高い診断信頼度で検出することができる。しかし、不十分な試料採取またはノイズのために、別の遺伝子バリエーションが存在するかどうかについて確信して評価するのが困難かもしれない。遺伝子バリエーションが一般的にドライバー突然変異と一緒に存在し、そのためバリアントが共変量バリアント(パッセンジャー突然変異または耐性突然変異など)である場合は、遺伝子バリアントの診断信頼度指標は増加する。一緒に検出されるある特定のバリアントの間の関係の強度は、検出限界未満で検出される遺伝子データが遺伝子バリエーションである確率、可能性および/または信頼度を増加させることができる。
【0086】
本明細書において使用される場合、用語「DNA配列決定システム」は、配列決定装置と共に使用されるDNA試料調製プロトコールを一般的に指す。DNA試料調製プロトコールは、他の分子生物学的方法もある中で、ライブラリー調製、増幅、アダプターライゲーション、一本鎖伸長を対象とすることができる。配列決定装置は、様々な配列決定方法または過程を自動化することが可能な任意の装置であってよい。種々の配列決定方法またはプロセスの非限定的な例として、サンガー配列決定、ハイスループット配列決定、ピロシーケンス、合成による配列決定、単一分子配列決定、ナノポア配列決定、半導体配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、RNA-Seq(Illumina)、デジタル遺伝子発現(Helicos)、次世代配列決定、合成による単一分子配列決定(SMSS)(Helicos)、大規模並列配列決定、クローナル単一分子アレイ(Solexa)、ショットガン配列決定、マクサム・ギルバート配列決定、プライマーウォーキング、および他のいずれかの本技術分野で認識される配列決定方法が挙げられる。DNA配列決定システムは、特定の配列決定装置で配列決定するために試料を調製するための全てのプロトコールを含むことができる。
【0087】
本明細書において使用される場合、用語「対象」は、本開示の方法で使用される任意の生物体を一般的に指す。一部の例では、対象は、ヒト、哺乳動物、脊椎動物、無脊椎動物、真核生物、古細菌、真菌または原核生物である。一部の場合には、対象はヒトであってよい。対象は生きているか、または死んでいてもよい。対象は、患者であってもよい。例えば、対象は、疾患を患っている(または、疾患を患っていることが疑われる)、および/または医師の保護下にあってもよい。対象は、健康状態または医学的状態のための処置および/または診断を受けている個体であってよい。対象および/またはファミリーメンバーは、本開示の方法で使用される別の対象に関係していることができる(例えば、姉妹、兄弟、母、父、甥、姪、おば、おじ、祖父母、曾祖父母、いとこ)。
【0088】
本明細書において使用される場合、用語「核酸」は、1つまたは複数の核酸サブユニットを含む分子を一般的に指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)およびウラシル(U)、またはそのバリアントから選択される1つまたは複数のサブユニットを含むことができる。ヌクレオチドは、A、C、G、TもしくはU、またはそのバリアントを含むことができる。ヌクレオチドは、成長する核酸鎖に組み込むことができる任意のサブユニットを含むことができる。そのようなサブユニットは、A、C、G、TまたはU、あるいは1つもしくは複数の相補的なA、C、G、TもしくはUに特異的である、またはプリン(すなわち、AもしくはGまたはそのバリアント)もしくはピリミジン(すなわち、C、TもしくはUまたはそのバリアント)に相補的である、任意の他のサブユニットであってもよい。サブユニットは、個々の核酸塩基または塩基群(例えば、AA、TA、AT、GC、CG、CT、TC、GT、TG、AC、CA、またはそのウラシル対応物)の分解を可能にし得る。一部の例では、核酸は、デオキシリボ核酸(DNA)もしくはリボ核酸(RNA)、またはその誘導体である。核酸は、一本鎖または二本鎖であってよい。
【0089】
用語「ゲノム」は、生物体の遺伝子情報の全体を一般的に指す。ゲノムは、DNAまたはRNAでコードすることができる。ゲノムは、タンパク質をコードするコード領域ならびに非コード領域を含むことができる。ゲノムは、生物体の全ての染色体の配列を一緒に含むことができる。例えば、ヒトゲノムは合計46個の染色体を有する。これらの全ての配列は、ヒトゲノムを一緒に構成する。
【0090】
本明細書において使用される場合、用語「試料」は、生物学的試料を一般的に指す。試料は、血液、血清、血漿、硝子体、喀痰、尿、涙、汗、唾液、精液、粘膜排泄物、粘液、脊髄液、羊水、リンパ液などであってよいか、またはそれらを含むことができる。試料は、無細胞試料であってよい。試料は、ポリヌクレオチドなどの核酸分子を含むことができる。ポリヌクレオチドは、デオキシリボ核酸(DNA)またはリボ核酸(RNA)であってよい。無細胞ポリヌクレオチドは起源が胎児であってよく(妊娠対象からとられる流体を通して)、または対象自体の組織に由来することができる。
検出限界/ノイズ範囲
【0091】
ポリヌクレオチド配列決定は、通信理論での問題にたとえることができる。初期の個々のポリヌクレオチドまたはポリヌクレオチドのアンサンブルは、元の伝令として概念化することができる。タグ付けおよび/または増幅は、元の伝令をシグナルにコードすることと考えることができる。配列決定は、通信チャネルと考えることができる。シーケンサーの出力、例えば配列読み取りデータは、受信シグナルと考えることができる。バイオインフォマティクスの処理は、受信シグナルを解読して送られた伝令、例えばヌクレオチド配列(単数または複数)を生成する受信機と考えることができる。受信シグナルは、アーチファクト、例えばノイズおよび歪みを含むことがある。ノイズは、シグナルへの望ましくないランダムな付加物と考えることができる。歪みは、シグナルまたはシグナルの一部の振幅の変更と考えることができる。
【0092】
ノイズは、ポリヌクレオチドの複製および/または読み取りでの誤りを通して導入されることがある。例えば、配列決定過程では、単一のポリヌクレオチドを先ず増幅にかけることができる。増幅は誤りを導入することがあり、そのため、増幅されたポリヌクレオチドのサブセットは、その遺伝子座の元の塩基と同じでない塩基を特定の遺伝子座で含有することがある。さらに、読み取り過程で、任意の特定の遺伝子座の塩基が誤って読み取られることがある。結果として、配列読み取りデータの集合は、元の塩基と同じでない、ある特定の百分率の塩基コールを遺伝子座に含むことがある。一般的な配列決定技術では、この誤り率は、1桁、例えば2%~3%であってよい。一部の場合には、誤り率は、最高約10%、最高約9%、最高約8%、最高約7%、最高約6%、最高約5%、最高約4%、最高約3%、最高約2%または最高約1%であってよい。全て同じ配列を有すると推定される分子の集合が配列決定されるとき、このノイズは十分に小さく、元の塩基を高い信頼性で同定することができる。
【0093】
しかし、それを有するポリヌクレオチドのサブセットを含む親ポリヌクレオチドの集合が特定の遺伝子座で異なる場合は、ノイズはかなりの問題になる可能性がある。例えば、無細胞DNAが生殖系列DNAだけでなく、別の供与源からのDNA、例えば胎児のDNAまたはがん細胞からのDNAを含む場合がこれであるかもしれない。この場合には、配列バリアントを有する分子の頻度が配列決定過程によって導入される誤りの頻度と同じ範囲内にあり得るならば、真の配列バリアントはノイズから識別可能でないかもしれない。これは、例えば、試料で配列バリアントを検出することに干渉するかもしれない。例えば、配列は0.5~1%の塩基あたりの誤り率を有することができる。増幅偏りおよび配列決定誤りは、ノイズを最終配列決定生成物に導入する。このノイズは、検出感度を低くすることができる。非限定例として、その頻度が配列決定誤り率未満である配列バリアントは、ノイズと間違えられることがある。
【0094】
ノイズ範囲または検出限界は、配列バリアントを有する分子の頻度が配列決定過程によって導入される誤りの頻度と同じ範囲内にある場合を指す。「検出限界」は、検出されるバリアントについてあまりに少ないバリアント含有分子が配列決定される場合を指すこともできる。配列バリアントを有する分子の頻度は、少量の核酸分子の結果として誤りの頻度と同じ範囲内にあってよい。非限定例として、核酸の試料採取量、例えば100ngは、比較的少数の無細胞核酸分子、例えば循環腫瘍DNA分子を含有する可能性があり、そのため、バリアントが循環腫瘍DNA分子の大半に存在し得るとしても、配列バリアントの頻度は低い可能性がある。代わりに、配列バリアントは稀であるか、または試料採取した核酸の非常に少ない量だけに見られ、そのため、検出されるバリアントはノイズおよび/または配列決定誤りから区別できない。非限定例として、特定の遺伝子座では、遺伝子バリアントはその遺伝子座の全ての読み取りデータの0.1%から5%で検出することができるだけである。
【0095】
歪みは、同じ頻度で親集団の分子によって生成されるシグナル強度、例えば配列読み取りデータの総数での差として、配列決定過程で明らかにすることができる。歪みは、例えば、増幅偏り、GC偏りまたは配列決定偏りを通して導入されることがある。これは、試料中のコピー数バリエーションの検出に干渉するかもしれない。GC偏りは、配列読み取り値におけるGC含有量が富むまたは乏しい領域の一様でない表象をもたらす。さらに、集団でのそれらの実数値より多いかまたは少ない量で配列の読み取りデータを提供することによって、増幅偏りは、コピー数バリエーションの測定を歪めることができる。
【0096】
配列決定および/または増幅のアーチファクトまたは誤り、例えばノイズおよび/または歪みは、ポリヌクレオチド配列決定過程で低減することができる。配列決定および/または増幅のアーチファクトまたは誤りは、配列決定および配列分析のための多種多様な技法を使用して低減することができる。様々な技法には、配列決定方法論および/または統計的方法を含めることができる。
【0097】
ノイズおよび/または歪みを低減する1つの方法は、配列読み取りデータをフィルタリングすることである。非限定例として、配列読み取りデータに品質閾値を満たすように要求することによって、またはGC偏りを低減することによって、配列読み取りデータをフィルタリングすることができる。そのような方法は、シーケンサーの出力である配列読み取りデータの集合で一般的に実行され、ファミリー構造(単一の元の親分子に由来する配列の亜集合)に関係なく、配列読み取りデータ毎に実行することができる。
【0098】
単一の個々の分子から、または分子のアンサンブルからノイズおよび/または歪みを低減する別の方法は、配列読み取りデータを元の個々の分子に由来するファミリーにグループ分けし、単一の個々の分子から、または分子のアンサンブルからノイズおよび/または歪みを低減することである。初期の遺伝子材料の試料中の個々のポリヌクレオチドの配列レディタグ付き親ポリヌクレオチドへの効率的な変換は、初期の遺伝子材料の試料中の個々のポリヌクレオチドが配列レディ試料で表示される確率を増加させることができる。これは、初期試料中のより多くのポリヌクレオチドに関する配列情報を生成することができる。さらに、タグ付けされた親ポリヌクレオチドから増幅される後代ポリヌクレオチドのハイレートサンプリングによる、タグ付き親ポリヌクレオチドのコンセンサス配列の高収率生成、および生成された配列読み取りデータを親タグ付きポリヌクレオチドの配列を表すコンセンサス配列に崩壊させることは、増幅偏りおよび/または配列決定誤りによって導入されるノイズを低減することができ、検出感度を増加させることができる。コンセンサス配列に配列読み取りデータを崩壊させることは、1つの分子から受信した伝令でノイズを低減する1つの方法である。受信した頻度を変換する確率関数を使用することは、ノイズおよび/または歪みを低減する別の方法である。分子のアンサンブルに関して、読み取りデータをファミリーにグループ分けすること、およびファミリーの定量的尺度を決定することは、複数の異なる遺伝子座の各々での分子の量の、例えば歪みを低減する。再び、コンセンサス配列に異なるファミリーの配列読み取りデータを崩壊させることは、増幅および/または配列決定誤りによって導入される誤りを排除する。さらに、ファミリー情報に由来する確率に基づいて塩基コールの頻度を決定することも、分子のアンサンブルからの受信した伝令でノイズを低減する。
【0099】
配列読み取りデータ中の遺伝子バリエーションを他の配列読み取りデータ中の遺伝子バリエーションと比較することによって、ノイズおよび/または歪みをさらに低減することができる。1つの配列読み取りデータおよび再び他の配列読み取りデータで観察される遺伝子バリエーションは、検出されるバリアントが実際遺伝子バリアントであって、単に配列決定誤りでもノイズでもないことの確率を増加させる。非限定例として、遺伝子バリエーションが第1の配列読み取りデータで観察され、第2の配列読み取りデータでも観察されるならば、そのバリエーションが実際遺伝子バリエーションであって配列決定誤りでないかどうかに関して、ベイジアン推論を適用することができる。
【0100】
本開示は、核酸分子、特にノイズ範囲内の頻度の、または検出限界未満のそれらでバリエーションを検出するための方法を提供する。核酸分子で最初に検出されるバリアントは他のバリアント、例えば同じ遺伝子座のバリアントまたは共変量遺伝子バリアントと比較して、バリアントを多かれ少なかれ正確に検出することができるかどうか決定することができる。配列読み取りデータまたは崩壊した配列読み取りデータで検出される増幅された核酸分子で、バリアントを検出することができる。
【0101】
バリアントの反復検出は、バリアントが正確に検出される確率、可能性および/または信頼度を増加させることができる。2つまたはそれを超えるセットの遺伝子データまたは遺伝子バリエーションを比較することによって、バリアントを繰り返し検出することができる。2つまたはそれを超えるセットの遺伝子バリエーションは、複数の時点の試料および同じ時点の異なる試料(例えば、再分析される血液試料)の両方であってよい。ノイズ範囲内のまたはノイズ閾値未満のバリアントの検出において、低頻度バリアントの再サンプリングまたは反復検出は、バリアントが実際バリアントであって、配列決定誤りでない可能性を高める。再サンプリングは、同じ試料から、例えば、再分析もしくは再実行される試料からであってよいか、または異なる時点の試料からであってよい。
【0102】
非限定例として、低信頼度スコアを有する遺伝子バリアントは、検出限界またはノイズ範囲未満の頻度または量で検出することができる。しかし、遺伝子バリアントが、例えば後の時点で前の試料で、または試料を再分析した後に、再び観察されるならば、信頼度スコアは増加する可能性がある。したがって、検出限界またはノイズ範囲未満の頻度または量で存在するにもかかわらず、バリアントはより大きな信頼度で検出することができる。遺伝子バリアントが例えば再サンプリングの後に再び観察されない他の場合には、信頼度スコアは一定のままであるか、または減少することがある。代わりに、特定の遺伝子座で観察される遺伝子バリアントが再サンプリング結果と矛盾するならば、信頼度スコアは減少することがある。
【0103】
共変量検出は、バリアントが正確に検出される確率、可能性および/または信頼度を増加させることができる。共変量遺伝子バリアントでは、1つの遺伝子バリアントの存在は、1つまたは複数の他の遺伝子バリアントの存在に関連している。共変量遺伝子バリエーションの検出に基づいて、関連する遺伝子バリエーションが検出限界未満で存在する場合でさえ、関連する共変量遺伝子バリエーションの存在を推測することが可能であるかもしれない。代わりに、共変量遺伝子バリエーションの検出に基づいて、関連する遺伝子バリエーションの診断信頼度指標を増加させることができる。さらに、共変量バリアントが検出される一部の場合には、検出限界未満で検出される共変量バリアントの検出閾値は低下することがある。共変量バリエーションまたは遺伝子の非限定例には、以下が含まれる:ドライバー突然変異および耐性突然変異、ドライバー突然変異およびパッセンジャー突然変異。共バリアントまたは遺伝子の具体例は、肺がんで見出されるEGFR L858R活性化突然変異およびEGFR T790M耐性突然変異である。多数の他の共変量バリアントおよび遺伝子が様々な耐性突然変異と関連し、当業者によって認知される。
【0104】
本開示は、少なくとも一部のバリアントがノイズ範囲または閾値の中にある遺伝子バリアントを検出するための方法を提供する。ノイズ閾値または範囲では、遺伝子バリエーションを確信的に検出することが困難または不可能または困難であるかもしれない。一部の場合には、ノイズ閾値は、統計的信頼度で遺伝子バリエーションを検出するための限界を提供する。ノイズ閾値または範囲は、配列決定誤り率と重なることがある。ノイズ閾値は、配列決定誤り率と同じであってもよい。ノイズ閾値は、配列決定誤り率より低いことがある。ノイズ閾値は、最大約10%、最大約9%、最大約8%、最大約7%、最大約6%、最大約5%、最大約4%、最大約3%、最大約2%、または最大約1%であり得る。一部の場合には、ノイズ範囲は、塩基ごとに約0.5%~10%である。一部の場合には、ノイズ閾値は、塩基ごとに約0.5%~5%である。一部の場合には、ノイズ閾値は、塩基ごとに約0.5%~1%である。用語ノイズおよび閾値は、互換的に使用することができる。
【0105】
数種類の遺伝子バリアントが核酸分子で検出されることがある。遺伝子バリエーションは、遺伝子バリアントまたは遺伝的異常として互換的に指すことができる。遺伝子バリエーションは、一塩基置換、コピー数バリエーション、インデルおよび遺伝子融合を含むことができる。これらの遺伝子バリアントの組合せを、検出することができる。追加の遺伝子バリアントの非限定例は、以下を含むこともできる:塩基転換、転位、反転、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、染色体融合、遺伝子トランケーション、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸の化学的修飾での異常な変化、後成的パターンでの異常な変化、および核酸メチル化での異常な変化。
【0106】
1つの実行例では、実質的に同時にまたは複数の時点にわたって採取した複数の試料からの測定を使用して、各バリアントの診断信頼度指標は、コピー数バリエーション(CNV)または突然変異の観察結果を予測する信頼度を表すように調整することができる。がんが進行しているか、寛解期にあるか、または安定しているか決定するために、複数の時点での測定を使用して信頼度を高めることができる。診断信頼度指標はいくつかの統計的方法のいずれかによって割り当てることができ、少なくとも一部、測定が経時的に観察される頻度に基づくことができる。例えば、現在と事前の結果の統計的関連付けを実行することができる。あるいは、各診断について、複数の測定または時点からの特定の試験事象の出現の頻度に基づいて、最大の可能性または最大の帰納的決定を下すことができるように、隠れマルコフモデルを構築することができる。このモデルの一部として、特定の決定の誤りの確率およびその結果としての診断信頼度指標も、出力することができる。この方法では、それらがノイズ範囲内にあるか否かを問わず、パラメータの測定を信頼区間で提供することができる。経時的に試験すると、信頼区間を経時的に比較することによって、がんが進行しているか、安定しているか、または寛解期にあるかどうかの予測信頼度を増加させることができる。2つの試料採取時点は、少なくとも約1マイクロ秒、1ミリ秒、1秒、10秒、30秒、1分、10分、30分、1時間、12時間、1日、1週、2週、3週、1カ月または1年離れていてもよい。2つの時点は、約1カ月から約1年、約1年から約5年、または約3カ月以下、2カ月、1カ月、3週、2週、1週、1日もしくは12時間離れていてもよい。
【0107】
図1は、がんに関連するde novoゲノム変更の確実な検出に要求されるものよりも数桁高くなり得る、誤り率およびバイアスを低減する第1の例示的システムを示す。プロセスは、遺伝子材料の供給源として体液試料(とりわけ、血液、唾液、汗)を収集することにより、先ず遺伝子情報を捕捉し、次に、プロセスは、材料を配列決定する(1)。例えば、試料におけるポリヌクレオチドを配列決定し、複数の配列読み取り値を生成することができる。ポリヌクレオチドを含む試料における腫瘍負荷は、試料から生成される配列読み取り値の総数に対する、バリアントを有する配列読み取り値の相対数の比として推定することができる。また、コピー数バリアントの場合には、腫瘍負荷は、被験および対照遺伝子座における配列読み取り値の総数の相対過剰(遺伝子重複の場合)または相対欠損(遺伝子排除の場合)として推定することができる。そのため、例えば、1ランは、がん遺伝子遺伝子座にマッピングされる1000個の読み取り値を生成することができ、そのうちの900個は野生型に対応し、100個はがん変異体に対応し、10%の腫瘍負荷を示す。例示的な収集および遺伝子材料の配列決定に関するさらなる詳細については、図2~4において後述する。
【0108】
次に、遺伝子情報が処理される(2)。遺伝子バリアントが、次に同定される。バリアントは、それが一般的な遺伝子バリアントである場合には一塩基多型(SNP)であってよく、それが稀な遺伝子バリアントである場合には突然変異であってよく、または、例えばコピー数バリエーションであってよい。この過程は、遺伝子材料を含有する試料で遺伝子バリアントの頻度を次に決定する。この過程はノイズが多いので、この過程は情報をノイズから分離する(3)。
【0109】
配列決定方法は、誤り率を有する。例えば、IlluminaのmySeqシステムは、1桁台前半のパーセント誤り率を生成することができる。そのため、遺伝子座にマッピングされる1000個の配列読み取り値に対して、約50個の読み取り値(約5%)が、誤りを含むと予想され得る。その全体が本明細書に参考として援用されるWO2014/149134(TalasazおよびEltoukhy)に記載されている方法論等、ある特定の方法論は、誤り率を有意に低減することができる。誤りは、試料中に低レベルで存在するがんからの曖昧なシグナルを発し得るノイズを生じる。したがって、試料が、配列決定システム誤り率前後の、例えば、0.1%~5%前後のレベルの腫瘍負荷を有する場合、がんによる遺伝子バリアントに対応するシグナルを、ノイズによるものから区別することは困難となり得る。
【0110】
がんの診断は、ノイズの存在下でさえ、遺伝子バリアントを分析することによってなされ得る。分析は、配列バリアントの頻度またはCNVのレベルに基づくことができ(4)、ノイズ範囲内で遺伝子バリアントを検出するための診断信頼性適応症またはレベルを確立することができる(5)。
【0111】
次に、プロセスは、診断信頼性を増加させる。これは、複数の測定値を使用して行って、診断の信頼性を増加させることができる(6)、あるいは複数の時点における測定値を使用して、がんが進行しているか、寛解しているか、安定化されたか決定することができる(7)。
【0112】
診断信頼性を使用して、疾患状態を識別することができる。例えば、対象から採取された無細胞ポリヌクレオチドは、正常細胞に由来するポリヌクレオチドと共に、がん細胞等の罹患細胞に由来するポリヌクレオチドを含むことができる。がん細胞由来のポリヌクレオチドは、体細胞変異およびコピー数バリアント等、遺伝子バリアントを有することができる。対象由来の試料からの無細胞ポリヌクレオチドが配列決定される際に、これらのがんポリヌクレオチドは、配列バリアントまたはコピー数バリアントとして検出される。
無細胞ポリヌクレオチドの試料中の腫瘍ポリヌクレオチドの相対量は、「腫瘍負荷」と呼ばれる。
【0113】
パラメータの測定値はノイズ範囲内であるか否かにかかわらず、それらは信頼区間を備えることができる。経時的に検査すると、信頼区間を経時的に比較することにより、がんが進行しているか、安定化されたか、または寛解しているか決定することができる。信頼区間が重複しない場合、これは、疾患の方向性を示す。
【0114】
図1Bは、がんに伴うde novoゲノム変更を確実に検出するために必要とされるものより高い桁である可能性がある、誤り率および偏りを低減する第2の例示的なシステムを示す。これは、検体から遺伝子アナライザー、例えばDNAシーケンサーによって配列読み取りデータを生成することによって実行される(10)。システムは、2つまたはそれを超える試料または時点にわたる対象の遺伝子情報を次に特徴付ける(12)。次に、システムは2つまたはそれを超える試料採取点または時点からの情報を使用して、対象の遺伝子情報を特徴付けにおいて調整された試験結果を生成する(14)。
【0115】
信頼度指標を増強または打ち消すことによって、試験結果を調整することができる。例えば、第1の時点からの情報が第2の時点からの情報を補強するならば、この過程は、以降のまたは以前の特徴付けでの診断信頼度指標を増加させることを含む。あるいは、第1の時点からの情報が第2の時点からの情報を補強するならば、この過程は、以降の特徴付けでの診断信頼度指標を増加させることができる。第1の時点からの情報が第2の時点からの情報と矛盾するならば、以降の特徴付けでの診断信頼度指標を低下させることがある。あるいは、この過程は、de novo情報の以降の特徴付けでの診断信頼度指標をそのままにすることができる。
【0116】
図1Bの一実施形態では、システムは遺伝子アナライザー、例えばDNAシーケンサーによって現在の配列読み取りデータを事前の配列読み取りデータと比較し、それに応じて診断信頼度指標を更新する。増強された信頼度シグナルに基づいて、システムは対象の細胞外ポリヌクレオチドの遺伝子プロファイルを正確に生成し、ここで、遺伝子プロファイルは、コピー数バリエーションおよび/または突然変異分析からもたらされる複数のデータを含む。
【0117】
図1Cは、がんに伴うde novoゲノム変更を確実に検出するために必要とされるものより高い桁である可能性がある、誤り率および偏りを低減する第3の例示的なシステムを示す。非限定例として、システムは、無細胞核酸を配列決定することであって、ここで、少なくとも10、25、50または100個の遺伝子のいずれかの群の各遺伝子の少なくとも一部が配列決定され(20);現在の配列読み取りデータを事前の配列読み取りデータと比較し、それに応じて診断信頼度指標を更新すること(22)によってがん検出を実行する。システムは、現在の配列読み取りデータの診断信頼度指標に基づいて個体で遺伝子変更の存在もしくは不在および/または遺伝子バリエーションの量を次に検出する(24)。
【0118】
図1Dは、がんに伴うde novoゲノム変更を確実に検出するために必要とされるものより高い桁である可能性がある、誤り率および偏りを低減するさらに別の例示的なシステムを示す。システムは、例えば無細胞核酸を配列決定すること(30);DNAシーケンサーによって現在の配列読み取りデータを事前の配列読み取りデータと比較し、それに応じて診断信頼度を更新することであって、各コンセンサス配列は、タグ付けされた親ポリヌクレオチドのセットの中の特有のポリヌクレオチドに対応し(32);および、対象における細胞外ポリヌクレオチドの遺伝子プロファイルであって、コピー数バリエーションまたは稀な突然変異の分析からもたらされる複数のデータを含む遺伝子プロファイルを生成すること(34)によってがん検出を実行する。
【0119】
図1A~1Dのシステムは、初期の遺伝子材料の試料中の遺伝子バリエーションを高い感度で検出する。この方法は、以下のツールの1から3つを使用することを含む:第1に、初期の遺伝子材料の試料中の個々のポリヌクレオチドが、配列レディ試料で表示される確率を増加させるための、配列レディタグ付き親ポリヌクレオチドへの初期の遺伝子材料の試料中の個々のポリヌクレオチドの効率的な変換。これは、初期試料中のより多くのポリヌクレオチドに関する配列情報を生成することができる。第2に、タグ付けされた親ポリヌクレオチドから増幅される後代ポリヌクレオチドのハイレートサンプリングによる、タグ付き親ポリヌクレオチドのコンセンサス配列の高収率生成、および生成された配列読み取りデータを親タグ付きポリヌクレオチドの配列を表すコンセンサス配列に崩壊させること。これは、増幅偏りおよび/または配列決定誤りによって導入されるノイズを低減することができ、検出感度を増加させることができる。第3に、突然変異およびコピー数バリエーションの検出におけるノイズは、事前の試料分析を現在の試料と比較し、同じ突然変異およびコピー数バリエーションが事前の分析で出現していたならば診断信頼度指標を増加させ、さもなければ、配列が観察されるのはこれが初めてであるならば、診断信頼度指標を減少させることによって低減される。
【0120】
このシステムは、初期の遺伝子材料の試料中の遺伝子バリエーションを高い感度で検出する。1つの具体的実行例では、システムの操作は、試料調製、または体液からの無細胞ポリヌクレオチド配列の抽出および単離;当技術分野で利用される技法による無細胞ポリヌクレオチドの以降の配列決定;ならびに、参照と比較して突然変異およびコピー数バリエーションを検出するバイオインフォマティクスツールの適用を含む。突然変異およびコピー数バリエーションの検出は、事前の試料分析を現在の試料と比較し、同じ突然変異およびコピー数バリエーションが事前の分析で出現していたならば診断信頼度指標を増加させ、さもなければ、配列が観察されるのはこれが初めてであるならば、診断信頼度指標を減少させるか、または変えないままにすることによって強化される。システムおよび方法は、疾患の突然変異、コピー数バリエーションプロファイリングまたは一般的な遺伝子プロファイリングの検出を助ける際の追加の参照として使用される、異なる疾患の異なる突然変異またはコピー数バリエーションプロファイルのデータベースまたは集合を含有することもできる。
【0121】
無細胞ポリヌクレオチド配列の配列決定データを収集した後、1つまたは複数のバイオインフォマティクス処理を配列データに適用して、コピー数バリエーション、突然変異またはメチル化プロファイルを限定されずに含む後成的マーカーでの変化などの、遺伝的特徴またはバリエーションを検出することができる。コピー数バリエーション分析が所望される一部の場合には、配列データは以下の通りであってよい:1)参照ゲノムと整列させる;2)フィルタリングし、マッピングする;3)配列のウィンドウまたはビンに分割する;4)各ウィンドウについて計数されるカバレージ読み取りデータ;5)カバレージ読み取りデータは、確率的または統計的モデル化アルゴリズムを使用して次に正規化することができる;および6)ゲノムの様々な位置での個別のコピー数状態を反映する出力ファイルを生成することができる。突然変異分析が所望される他の場合には、配列データは、1)参照ゲノムと整列させる;2)フィルタリングし、マッピングする;3)その特定の塩基のカバレージ読み取りデータに基づいて計算されるバリアント塩基の頻度;4)確率的、統計的、または確率論的モデル化アルゴリズムを使用して正規化されるバリアント塩基頻度;および5)ゲノムの様々な位置での突然変異状態を反映する出力ファイルを生成することができる。患者または対象の現在および事前の分析からの一時的情報は、分析および決定を増強するために使用される。
【0122】
本明細書に開示されるシステムおよび方法の中で様々な異なる反応および/操作が存在することができ、例としては、限定されずに以下のものがある:核酸配列決定、核酸数量化、配列決定最適化、遺伝子発現の検出、遺伝子発現の数量化、ゲノムプロファイリング、がんプロファイリング、または発現されたマーカーの分析。さらに、システムおよび方法は、多数の医学的適用を有する。例えば、がんを含む様々な遺伝的および非遺伝的疾患および障害の同定、検出、診断、処置、モニタリング、ステージングまたはリスクの予測のためにそれを使用することができる。遺伝的および非遺伝的疾患の異なる処置に対する対象の応答を評価するために、または疾患の進行および予後に関する情報を提供するために、それを使用することができる。
ポリヌクレオチドの単離および抽出
【0123】
この開示のシステムおよび方法は、無細胞ポリヌクレオチドを含む核酸の操作、調製、同定および/または数量化で多種多様な用途を有することができる。核酸またはポリヌクレオチドの例には、限定されずに以下のものが含まれる:DNA、RNA、アンプリコン、cDNA、dsDNA、ssDNA、プラスミドDNA、コスミドDNA、高分子量(MW)DNA、染色体DNA、ゲノムDNA、ウイルスDNA、細菌DNA、mtDNA(ミトコンドリアDNA)、mRNA、rRNA、tRNA、nRNA、siRNA、snRNA、snoRNA、scaRNA、マイクロRNA、dsRNA、リボザイム、リボスイッチおよびウイルスRNA(例えば、レトロウイルスRNA)。
【0124】
無細胞ポリヌクレオチドは、ヒト、哺乳動物、非ヒト哺乳動物、類人猿、サル、チンパンジー、爬虫類、両生類または鳥の供与源を含む様々な供与源に由来することができる。さらに、試料は、血液、血清、血漿、硝子体、喀痰、尿、涙、汗、唾液、精液、粘膜排泄物、粘液、脊髄液、羊水、リンパ液などを限定されずに含む、無細胞配列を含有する様々な動物体液から抽出することができる。無細胞ポリヌクレオチドは起源が胎児であってよく(妊娠対象からとられる流体を通して)、または対象自体の組織に由来することができる。
【0125】
無細胞ポリヌクレオチドの単離および抽出は、様々な技法を使用して体液の収集を通して実行することができる。一部の場合には、収集は、シリンジを使用して対象から体液を吸引することを含むことができる。他の場合には、収集は、流体のピペット操作または直接収集により収集容器に入れることを含むことができる。
【0126】
体液の収集の後、無細胞ポリヌクレオチドは、当技術分野で利用される様々な技法を使用して単離および抽出することができる。一部の場合には、無細胞DNAは、Qiagen Qiamp(登録商標)循環核酸キットプロトコールなどの市販キットを使用して単離、抽出および調製することができる。他の例では、Qiagen Qubit(商標)dsDNA HSアッセイキットプロトコール、Agilent(商標)DNA1000キットまたはTruSeq(商標)配列決定ライブラリー調製;低スループット(LT)プロトコールを使用することができる。
【0127】
一般的に、無細胞ポリヌクレオチドは、溶液で見出されるような無細胞DNAが体液の細胞および他の非可溶性構成成分から分離される分割ステップを通して、体液から抽出、単離される。分割は、遠心分離または濾過などの技法を限定されずに含むことができる。他の場合には、細胞は無細胞DNAから最初に分割されず、むしろ溶解される。この例では、インタクトな細胞のゲノムDNAは、選択的沈殿を通して分割される。DNAを含む無細胞ポリヌクレオチドは可溶性のままであることができ、不溶性ゲノムDNAから分離し、抽出することができる。一般的に、緩衝液の添加および異なるキットに特異的な他の洗浄ステップの後、イソプロパノール沈殿を使用してDNAを沈殿させることができる。混在物質または塩を取り除くために、シリカベースのカラムなどのさらなるクリーンアップステップを使用することができる。一般ステップは、特定の適用のために最適化することができる。収率などの手順のある特定の態様を最適化するために、反応全体で、例えば非特異的バルク担体ポリヌクレオチドを加えることができる。
【0128】
無細胞DNAの単離および精製は、Sigma Aldrich、Life Technologies、Promega、Affymetrix、IBIなどの会社によって提供される市販のキットおよびプロトコールの使用を限定されずに含む、任意の方法論を使用して達成することができる。キットおよびプロトコールは、市販のものでなくてもよい。
【0129】
単離の後、一部の場合には、配列決定より前に無細胞ポリヌクレオチドは1つまたは複数の追加の材料、例えば1つまたは複数の試薬(例えば、リガーゼ、プロテアーゼ、ポリメラーゼ)とプレミックスされる。
【0130】
変換効率を増加させる1つの方法は、一本鎖DNAでの最適な反応性のために工学的に操作されたリガーゼ、例えばThermoPhage ssDNAリガーゼ誘導体の使用を含む。そのようなリガーゼは、中間クリーンアップステップのために劣る効率および/または蓄積した損失を有することがある、末端修復およびAテーリングのライブラリー調製での伝統的なステップをバイパスし、センスまたはアンチセンスのいずれかの出発ポリヌクレオチドが適切にタグ付けされたポリヌクレオチドに変換される確率の倍増を可能にする。それは、一般的な末端修復反応によって十分に平滑末端にすることができないオーバーハングを保有する可能性がある二本鎖ポリヌクレオチドも変換する。このssDNA反応の最適な反応条件は、以下の通りである:1×反応緩衝液(50mM MOPS(pH7.5)、1mM DTT、5mM MgCl2、10mM KCl)。50mM ATP、25mg/mlのBSA、2.5mM MnCl2、200pmol 85nt ssDNAオリゴマーおよび5U ssDNAリガーゼと、65℃で1時間インキュベートした。PCRを使用した以降の増幅は、タグ付けされた一本鎖ライブラリーを二本鎖のライブラリーにさらに変換することができ、20%をゆうに上回る全体的変換効率を与えることができる。変換率を、例えば10%の上まで増加させる他の方法は、例えば、以下のいずれかを単独または組み合わせて含む:アニーリング最適化分子反転プローブ、良く制御されたポリヌクレオチドサイズ範囲による平滑末端ライゲーション、粘着末端ライゲーションまたは融合プライマーの使用のありなしによるアップフロント多重増幅ステップ。
無細胞ポリヌクレオチドの分子的バーコード化
【0131】
この開示のシステムおよび方法は、特定のポリヌクレオチドの以降の同定および起源を可能にするために、無細胞ポリヌクレオチドのタグ付けおよび追跡を可能にすることもできる。この特長は、プールされた、または多重の反応を使用し、測定または分析を複数の試料の平均として提供するだけである他の方法と対照的である。ここで、個々のポリヌクレオチドまたはポリヌクレオチドのサブグループへの識別子の割り当ては、特有の同一性が、個々の配列または配列の断片へと割り当てられることを可能にする。これは、個々の試料からのデータの獲得を可能にすることができ、試料の平均に限定されない。
【0132】
一部の例において、単一の鎖に由来する核酸または他の分子は、共通タグまたは識別子を共有することができ、したがって、この鎖に由来すると後に識別することができる。同様に、核酸の単一の鎖由来の断片は全て、同じ識別子またはタグをタグ付けし、これにより、親鎖からの断片のその後の識別を可能にすることができる。他の事例において、遺伝子発現産物(例えば、mRNA)は、発現を定量化するためにタグ付けすることができ、そうすることによって、バーコードまたはこれが取り付けられた配列と組み合わせたバーコードを計数することができる。さらに他の事例において、システムおよび方法は、PCR増幅対照として使用することができる。斯かる事例において、PCR反応由来の複数の増幅産物は、同じタグまたは識別子をタグ付けすることができる。産物が後に配列決定され、配列の差を実証する場合、同じ識別子を有する産物の間の差は、PCRの誤りに起因し得る。
【0133】
その上、個々の配列は、読み取り値それ自体の配列データの特徴に基づき識別することができる。例えば、個々の配列決定読み取り値の初め(開始)および終わり(終止)部分における特有の配列データの検出は、単独で、または各配列読み取りの特有の配列の塩基対の長さもしくは数と組み合わせて使用して、特有の同一性を個々の分子に割り当てることができる。これにより、特有の同一性を割り当てられた核酸の単一の鎖由来の断片は、親鎖由来の断片のその後の識別を可能にすることができる。これは、ボトルネックとなる初期出発遺伝子材料と併せて使用して、多様性を限定することができる。
【0134】
さらに、個々の配列決定読み取り値の初め(開始)および終わり(終止)部分における特有の配列データを使用して、単独で、またはバーコードの使用と組み合わせて、配列決定読み取り値の長さを使用することができる。場合によっては、本明細書に記載されている通り、バーコードは特有のものであってよい。他の事例において、バーコードそれ自体は、特有のものでなくてよい。この場合、個々の配列決定読み取り値の初め(開始)および終わり(終止)部分における配列データと組み合わせた非特有のバーコードの使用および配列決定読み取り値の長さは、個々の配列への特有の同一性の割り当てを可能にすることができる。同様に、これにより、特有の同一性を割り当てられた核酸の単一の鎖由来の断片は、親鎖由来の断片のその後の識別を可能にすることができる。
【0135】
一般に、本明細書に提供される方法およびシステムは、下流適用配列決定反応のための無細胞ポリヌクレオチド配列の調製に有用である。配列決定方法は、古典的なサンガー配列決定であり得る。配列決定方法として、ハイスループット配列決定、ピロシーケンス、合成による配列決定、単一分子配列決定、ナノポア配列決定、半導体配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、RNA-Seq(Illumina)、デジタル遺伝子発現(Helicos)、次世代配列決定、合成による単一分子配列決定(SMSS)(Helicos)、大規模並列配列決定、クローナル単一分子アレイ(Solexa)、ショットガン配列決定、マクサム・ギルバート配列決定、プライマーウォーキングおよび本技術分野で認識される他のいずれかの配列決定方法を挙げることができるが、これらに限定されない。
無細胞ポリヌクレオチド配列へのバーコードの割当て
【0136】
本明細書に開示されるシステムおよび方法は、無細胞ポリヌクレオチドへの、特有のもしくは非特有の識別子または分子バーコードの割当てを含む適用で使用することができる。識別子は、ポリヌクレオチドをタグ付けするために使用されるバーコードオリゴヌクレオチドであってよい;しかし、一部の場合には、異なる特有識別子が使用される。例えば、一部の場合には、特有識別子はハイブリダイゼーションプローブである。他の場合には、特有識別子は色素であり、その場合には、付着は分析物分子への色素の挿入(DNAまたはRNAへの挿入など)、または色素で標識したプローブへの結合を含むことができる。なお他の場合には、特有識別子は核酸オリゴヌクレオチドであってよく、その場合には、ポリヌクレオチド配列への付着は、オリゴヌクレオチドと配列の間のライゲーション反応またはPCRを通した組込みを含むことができる。他の場合には、反応は、分析物に直接的な、または同位体で標識したプローブによる金属同位体の添加を含むことができる。一般的に、この開示の反応での特有のもしくは比特有の識別子または分子バーコードの割当ては、例えば、米国特許公開第2001/0053519号、第2003/0152490号、第2011/0160078号および米国特許第6,582,908号によって記載される方法およびシステムに従うことができ、そのそれぞれは参照により本明細書に完全に組み込まれる。
【0137】
本方法は、ライゲーション反応を限定されずに含む酵素反応を通して、オリゴヌクレオチドバーコードを核酸分析物に付着するステップを含むことができる。例えば、リガーゼ酵素は、DNAバーコードを断片化したDNA(例えば、高分子量DNA)に共有結合させることができる。バーコードの付着の後、分子を配列決定反応にかけることができる。
【0138】
しかし、他の反応も使用することができる。例えば、バーコード配列を含有するオリゴヌクレオチドプライマーを、DNA鋳型分析物の増幅反応(例えば、PCR、qPCR、逆転写酵素PCR、デジタルPCRなど)で使用し、それによってタグ付けされた分析物を生成することができる。個々の無細胞ポリヌクレオチド配列へのバーコードの割当ての後、分子のプールを配列決定することができる。
【0139】
一部の場合には、無細胞ポリヌクレオチド配列の全体的増幅のために、PCRを使用することができる。これは、異なる分子に先ずライゲーションし、続いて汎用性プライマーを使用してPCR増幅することができる、アダプター配列を使用することを含むことができる。配列決定のためのPCRは、Nugen(WGAキット)、Life Technologies、Affymetrix、Promega、Qiagenなどによって提供される市販キットの使用を限定されずに含む、任意の方法論を使用して実行することができる。他の場合には、無細胞ポリヌクレオチド分子の集団内のある特定の標的分子だけを、増幅することができる。特異的プライマーは、アダプターライゲーションと共に、下流配列決定のためのある特定の標的を選択的に増幅するために使用することができる。
【0140】
特有識別子(例えば、オリゴヌクレオチドバーコード、抗体、プローブなど)は、無細胞ポリヌクレオチド配列にランダムにまたは非ランダムに導入することができる。一部の場合には、それらは特有識別子の予想される比でマイクロウェルに導入される例えば、特有識別子は、約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000または1,000,000,000より多くの特有識別子がゲノム試料ごとにローディングされるようにローディングされ得る。一部の例では、特有識別子は、約2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000または1,000,000,000未満の特有識別子がゲノム試料ごとにローディングされるようにローディングされ得る。一部の例では、試料ゲノムごとにローディングされる特有識別子の平均数は、ゲノム試料ごとに約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000または1,000,000,000未満またはより多くの特有識別子である。
【0141】
一部の場合には、特有識別子は、各バーコードが少なくとも約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000塩基対であるような種々の長さであり得る。別の例では、バーコードは、1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000未満の塩基対を含み得る。
【0142】
一部の場合には、特有識別子は、所定の、またはランダムもしくはセミランダムな配列のオリゴヌクレオチドであってよい。他の場合には、複数のバーコードを使用することができ、したがって、バーコードがその複数の中でお互いに必ずしも特有であるとは限らない。この例では、バーコードおよび配列の組合せがライゲーションされて個々に追跡することができるユニーク配列を生成することができるように、バーコードを個々の分子にライゲーションすることができる。本明細書に記載されるように、配列読み取りデータの初め(開始)および終わり(終止)部分の配列データと組み合わせた非特有バーコードの検出は、特定の分子への特有のアイデンティティの割当てを可能にすることができる。個々の配列読み取りデータの長さまたは塩基対の数は、そのような分子に特有のアイデンティティを割り当てるために使用することもできる。本明細書に記載されるように、特有のアイデンティティを割り当てられた核酸の一本鎖からの断片は、親鎖からの断片の以降の同定をそれによって可能にすることができる。この方法では、試料中のポリヌクレオチドは、特有なものとしてまたは実質的に特有なものとしてタグ付けすることができる。
【0143】
特有識別子は、RNAまたはDNA分子を限定されずに含む広範囲の分析物をタグ付けするために使用することができる。例えば、特有識別子(例えば、バーコードオリゴヌクレオチド)は核酸の完全な鎖に、または核酸の断片(例えば、断片化したゲノムDNA、断片化したRNA)に付着することができる。特有識別子(例えば、オリゴヌクレオチド)は、遺伝子発現生成物、ゲノムDNA、ミトコンドリアDNA、RNA、mRNAなどに結合することもできる。
【0144】
多くの適用では、個々の無細胞ポリヌクレオチド配列が異なる特有識別子(例えば、オリゴヌクレオチドバーコード)を各々受けるかどうか決定することが重要であろう。システムおよび方法に導入される特有識別子の集団が有意に多様でないならば、異なる分析物を同一の識別子でタグ付けすることがおそらくできる。本明細書に開示されるシステムおよび方法は、同じ識別子でタグ付けされた無細胞ポリヌクレオチド配列の検出を可能にすることができる。一部の場合には、参照配列が、分析する無細胞ポリヌクレオチド配列の集団と一緒に含まれてもよい。参照配列は、例えば、既知の配列および既知の量を有する核酸であってよい。特有識別子がオリゴヌクレオチドバーコードであり、分析物が核酸である場合は、タグ付けされた分析物をその後配列決定し、数量化することができる。これらの方法は、1つまたは複数の断片および/または分析物が同一のバーコードを割り当てられたかどうか表すことができる。
【0145】
本明細書に開示される方法は、分析物へのバーコードの割当てのために必要な試薬を利用するステップを含むことができる。ライゲーション反応の場合、リガーゼ酵素、緩衝液、アダプターオリゴヌクレオチド、複数の特有識別子DNAバーコードなどを限定されずに含む試薬を、システムおよび方法にローディングすることができる。濃縮の場合、複数のPCRプライマー、特有の識別配列を含有するオリゴヌクレオチドまたはバーコード配列、DNAポリメラーゼ、DNTPおよび緩衝液などを限定されずに含む試薬を、配列決定のための調製で使用することができる。
【0146】
一般的に、この開示の方法およびシステムは、分子または分析物を計数するために分子バーコードを使用することにおいて、参照により本明細書に完全に組み込まれる、米国特許第US7,537,897号の方法を利用することができる。
【0147】
複数のゲノムからの断片化したゲノムDNA、例えば無細胞DNA(cfDNA)を含む試料では、異なるゲノムからの1つを超えるポリヌクレオチドが同じ開始および終止位置(「複製」または「同族」)を有する可能性が多少ある。任意の位置で始まる複製の予想される数は、試料中のハプロイドゲノム等価物の数および断片サイズの分布の関数である。例えば、cfDNAは約160ヌクレオチドの断片のピークを有し、このピークの大部分の断片は約140ヌクレオチドから180ヌクレオチドの範囲内である。したがって、約3,000,000,000塩基のゲノム(例えば、ヒトゲノム)からのcfDNAは、ほぼ20,000,000個(2×10)のポリヌクレオチド断片で構成されることができる。約30ngのDNA試料は、約10,000個のハプロイドヒトゲノム等価物を含有することができる。(同様に、約100ngのDNA試料は、約30,000個のハプロイドヒトゲノム等価物を含有することができる。)そのようなDNAの約10,000(10)個のハプロイドゲノム等価物を含有する試料は、約200,000,000,000(2×1011)個の個々のポリヌクレオチド分子を有することができる。ヒトDNAの約10,000個のハプロイドゲノム等価物の試料には、任意の所与の位置から始まる約3つの複製ポリヌクレオチドがあることが、実験により決定された。したがって、そのような集合は、約6×1010~8×1010(約60,000,000,000~80,000,000,000、例えば、約70,000,000,000(7×1010))個の違って配列決定されたポリヌクレオチド分子の多様性を含有することができる。
【0148】
分子を正しく同定する確率は、ゲノム等価物の初期の数、配列決定された分子の長さの分布、配列均一性およびタグの数に依存する。タグ数が1と等しいとき、それは、特有タグを有しないかまたはタグ付きでないことである。下の表は、上記の一般的な無細胞サイズ分布を仮定して特有であると分子を正しく同定する確率を掲載する。
【表1】
【0149】
この場合には、ゲノムDNAを配列決定した後、どの配列読み取りデータがどの親分子に由来するかを決定することは可能でないかもしれない。この問題は、配列読み取りデータを特定の親分子に逆追跡できるように、2つの複製分子、すなわち、同じ開始および終止位置を有する分子が異なる特有識別子を有する可能性があるように、親分子に十分な数の特有識別子(例えば、タグ数)でタグ付けすることによって減ずることができる。この問題への1つのアプローチは、試料中の全てのまたはほとんど全ての異なる親分子に、タグを特有なものとして付けることである。しかし、試料中のハプロイド遺伝子等価物の数および断片サイズの分布によって、これは何十億もの異なる特有識別子を必要とするかもしれない。
【0150】
上記の方法は厄介で、高価になる可能性がある。ゲノム核酸試料(例えば、ゲノムDNA試料)中の個々のポリヌクレオチド断片は、非特有識別子でタグ付けすることによって、例えば個々のポリヌクレオチド断片を非特有なものとしてタグ付けすることによって、特有なものとして同定することができる。本明細書において使用される場合、集合中の分子の少なくとも95%の各々が集合中の任意の他の分子によって共有されない識別タグ(「識別子」)(「特有タグ」または「特有識別子」)を有する場合は、分子の集合は、「特有なものとしてタグ付けされた」と考えることができる。特有タグについては、タグの数は、試料中の特有分子の数より少なくてもよい。特有タグについては、タグの数は、試料中の分子の数の10%より少なくてもよい。特有タグについては、タグの数は、試料中の分子の数の1%より少なくてもよい。分子の集合は、集合中の分子の少なくとも1%、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、または少なくとも、もしくは約50%の各々が集合中の少なくとも1つの他の分子によって共有される識別タグを有する場合は、「非特有なものとしてタグ付けされた」と考えることができる(「非特有タグ」または「非特有識別子」)。一部の実施形態では、非特有なものとしてタグ付けされる集団の場合、分子の1%以下、5%、10%、15%、20%、25%、30%、35%、40%、45%または50%は、特有なものとしてタグ付けされる。一部の実施形態では、特有タグ付けの場合、試料中の推定される分子数の少なくとも2倍多くの異なるタグが使用される。集合中の分子をタグ付けするために使用される異なる識別タグの数は、例えば、範囲の下端では2、4、8、16または32のいずれかと、範囲の上端では50、100、500、1000、5000および10,000のいずれかの間の範囲内であってよい。したがって、例えば、100,000,000,000から1,000,000,000,000の分子の集合を、4から100個の異なる識別タグでタグ付けすることができる。
【0151】
本開示は、断片化したゲノムDNAの試料中のポリヌクレオチドの集団がn個の異なる特有識別子でタグ付けされる方法および組成物を提供する。一部の実施形態では、nは少なくとも2および100,000z以下であり、式中、zは同じ開始および終止位置を有する複製分子の予想される数の中心傾向の尺度(例えば、平均、中央、最頻値)である。一部の実施形態では、zは、1、2、3、4、5、6、7、8、9、10であるか、または10より大きい。一部の実施形態では、zは、10未満、9未満、8未満、7未満、6未満、5未満、4未満、3未満.ある特定の実施形態では、nは、2*z、3*z、4*z、5*z、6*z、7*z、8*z、9*z、10*z、11*z、12*z、13*z、14*z、15*z、16*z、17*z、18*z、19*z、または20*z(例えば、下限)のすくなくともいずれかである。別の実施形態では、nは、100,000*z、10,000*z、1000*zまたは100*z(例えば、上限)以下である。したがって、nは、これらの下限および上限の任意の組合せの間の範囲内であってよい。ある特定の実施形態では、nは5zから15zの間、8zから12zの間、または約10zである。例えば、ハプロイドヒトゲノム等価物は、約3ピコグラムのDNAを有する。約1マイクログラムのDNA試料は、約300,000個のハプロイドヒトゲノム等価物を含有する。一部の実施形態では、数nは、5~95、6~80、8~75、10~70、15~45、24~36または約30であり得る。一部の実施形態では、数nは、96未満である。例えば、数nは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、または95より大きいか、または等しくあり得る。一部の状況では、数nは、0より大きいが、100、99、98、97、96、95、94、93、92、91、または90未満であり得る。一部の例では、数nは、64である。数nは、75未満、50未満、40未満、30未満、20未満、10未満または5未満であり得る。複製または同族ポリヌクレオチドの少なくとも一部が特有識別子を有する、すなわち、異なるタグを有する限り、配列決定の改善を達成することができる。しかし、ある特定の実施形態では、使用されるタグの数は、同じ開始および終止配列を含む全ての複製分子が特有識別子を有する少なくとも95%の可能性があるように選択される。
【0152】
一部の実施形態は、試料中の親ポリヌクレオチドがy個の異なるバーコードオリゴヌクレオチドを含む反応混合物と混合されるライゲーション反応を実行するための方法を提供し、ここで、yはnの平方根である。ライゲーションは、試料中の親ポリヌクレオチドへのバーコードオリゴヌクレオチドのランダムな付着をもたらすことができる。反応混合物は、試料中の親ポリヌクレオチドへのバーコードオリゴヌクレオチドのライゲーションを実行するのに十分なライゲーション条件の下で、次にインキュベートすることができる。一部の実施形態では、y個の異なるバーコードオリゴヌクレオチドから選択されるランダムなバーコードは、親ポリヌクレオチドの両末端にライゲーションされる。親ポリヌクレオチドの片方または両方の末端へのy個のバーコードのランダムなライゲーションは、y個の特有識別子の生成をもたらすことができる。例えば、cfDNAの約10,000個のハプロイドヒトゲノム等価物を含む試料は、約36個の特有識別子でタグ付けすることができる。特有識別子は、6つの特有のDNAバーコードを含むことができる。ポリヌクレオチドの両末端への6つの特有バーコードのライゲーションは、36個の可能な特有識別子の生成をもたらすことができる。
【0153】
一部の実施形態では、DNAの約10,000個のハプロイドヒトゲノム等価物を含む試料は、64個の特有識別子でタグ付けされ、ここで、64個の特有識別子は、親ポリヌクレオチドの両末端への8つの特有バーコードのライゲーションによって生成される。反応のライゲーション効率は、10%超、20%超、30%超、40%超、50%超、60%超、70%超、80%超または90%超であってよい。ライゲーション条件は、断片のいずれの末端にも結合でき、なお増幅可能である二指向性アダプターの使用を含むことができる。フォーク状のアダプターによるテーリングとは対照的に、ライゲーション条件は平滑末端ライゲーションを含むことができる。ライゲーション条件は、アダプターおよび/またはバーコードオリゴヌクレオチドの量の慎重な滴定を含むことができる。ライゲーション条件は、反応混合物中の、親ポリヌクレオチド断片の量と比較して2×超、5×超、10×超、20×超、40×超、60×超、80×超、(例えば、約100×)のモル過剰のアダプターおよび/またはバーコードオリゴヌクレオチドの使用を含むことができる。ライゲーション条件は、T4 DNAリガーゼ(例えば、NEBNExtウルトラライゲーションモジュール)の使用を含むことができる。例では、18マイクロリットルのリガーゼマスター混合物は、90マイクロリットルのライゲーション(90の18の一部)およびライゲーションエンハンサーで使用される。したがって、n個の特有識別子で親ポリヌクレオチドをタグ付けすることは、数yの異なるバーコードの使用を含むことができ、ここで、yはnの平方根である。そのような方法でタグ付けした試料は、約10ngから約100ng、約1μg、約10μgのいずれかまでの範囲の断片化したポリヌクレオチド、例えばゲノムDNA、例えばcfDNAを有するそれらであってよい。試料中の親ポリヌクレオチドを同定するために使用されるバーコードの数yは、試料中の核酸の量に依存する可能性がある。
【0154】
本開示は、タグ付けされたポリヌクレオチドの組成物も提供する。ポリヌクレオチドは、断片化したDNA、例えばcfDNAを含むことができる。ゲノムのマッピング可能な塩基位置にマッピングされる組成物中のポリヌクレオチドのセットは、非特有なものとしてタグ付けすることができ、すなわち、異なる識別子の数は少なくとも2で、およびマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数より少なくてもよい。約10ngから約10μgの間(例えば、約10ng~1μg、約10ng~100ng、約100ng~10μg、約100ng~1μg、約1μg~10μgのいずれか)の組成物は、2、5、10、50または100のいずれかから100、1000、10,000または100,000のいずれかの間の異なる識別子を有することができる。例えば、そのような組成物でポリヌクレオチドをタグ付けするために、5から100の間の異なる識別子を使用することができる。
【0155】
図2は、初期の遺伝子材料の試料でポリヌクレオチドを分析するための例示的な過程を示す。第1に、初期の遺伝子材料を含有する試料を提供し、無細胞DNAを抽出することができる(50)。試料は、標的核酸を低い存在度で含むことができる。例えば、正常または野生型ゲノム(例えば、生殖系列ゲノム)からの核酸が、遺伝子バリエーションを含有する少なくとも1つの他のゲノム、例えばがんゲノムもしくは胎児のゲノム、または別の個体もしくは種からのゲノムからの、20%以下、10%以下、5%以下、1%以下、0.5%以下または0.1%以下の核酸も含む試料中で優位を占めてもよい。試料は、例えば、無細胞核酸、または配列決定もしくは遺伝分析過程によって元のポリヌクレオチドの適切なオーバーサンプリングを有する核酸を含む細胞を含むことができる。
【0156】
次に、初期の遺伝子材料はタグ付けされた親ポリヌクレオチドのセットに変換され、配列決定されて配列読み取りデータを生成する(52)。このステップは、複数のゲノム断片配列読み取りデータを生成する。一部の場合には、これらの配列読み取りデータは、バーコード情報を含有することができる。他の例では、バーコードは利用されない。タグ付けは、配列決定されたタグを、初期の遺伝子材料中の分子に付着させることを含むことができる。配列決定されたタグは、同じ参照配列にマッピングされる全ての特有ポリヌクレオチドが特有の識別タグを有するように選択することができる。変換は高効率で、例えば少なくとも50%で実行することができる。タグ付けされた親ポリヌクレオチドのセットを増幅して、増幅された後代ポリヌクレオチドのセットを生成することができる。増幅は、例えば、1,000倍であってよい。増幅された後代ポリヌクレオチドのセットは、生成される配列読み取りデータが(1)タグ付けされた親ポリヌクレオチドのセットで特有分子の目標数をカバーし、および(2)タグ付けされた親ポリヌクレオチドのセットで特有分子を目標カバレージ倍率(例えば、親ポリヌクレオチドの5倍から10倍のカバレージ)でカバーするような試料採取率で、配列決定のために試料採取される。配列読み取りデータのセットは、特有のタグ付けされた親ポリヌクレオチドに対応するコンセンサス配列のセットを生成するために崩壊させられる。配列読み取りデータは、分析への組入れのための資格を得ることができる。例えば、品質管理スコアを満たすことができない配列読み取りデータは、プールから取り除くことができる。配列読み取りデータは、特定の特有の親分子に由来する後代分子の読み取りデータを表すファミリーに仕分けすることができる。例えば、増幅された後代ポリヌクレオチドのファミリーは、単一の親ポリヌクレオチドに由来する増幅された分子を構成することができる。ファミリー中の後代の配列を比較することによって、元の親ポリヌクレオチドのコンセンサス配列を推測することができる。これは、タグ付けされたプールで特有の親ポリヌクレオチドを表すコンセンサス配列のセットを生成する。
【0157】
次に、この過程は配列の信頼度スコアを割り当てる(54)。配列決定後に、読み取り値は、品質スコアを割り当てる。品質スコアは、これらの読み取り値が、閾値に基づきその後の分析において有用となり得るか示す読み取り値の表示であってよい。場合によっては、一部の読み取り値は、その後のマッピングステップを行うのに十分な品質または長さではない。所定の品質スコア(例えば、90%より上)を有する配列決定読み取りデータは、データからフィルタリング除去することができる。指定された品質スコア閾値を満たすゲノム断片読み取りデータは、参照ゲノムに、またはコピー数バリエーションを含有しないことが公知の鋳型配列にマッピングされる。マッピング整列後に、配列読み取りデータにマッピングスコアを割り当てる。マッピングスコアは、各位置が特有なものとしてマッピング可能であるかまたはないかを示す参照配列に戻しマッピングされる表象または読み取りデータであってよい。場合によって、読み取りデータはコピー数バリエーション分析とは無関係な配列であってもよい。例えば、一部の配列読み取りデータは、混在物質ポリヌクレオチドを起源とすることができる。少なくとも90%、95%、99%、99.9%、99.99%または99.999%のマッピングスコアを有する配列決定読み取りデータは、データセットからフィルタリング除去することができる。他の場合には、所定の百分率より小さいマッピングスコアを割り当てられた配列決定読み取りデータは、データセットからフィルタリング除去することができる。
【0158】
指定の品質スコア閾値を満たすゲノム断片読み取り値は、参照ゲノム、またはコピー数バリエーションを含有しないことが公知のテンプレート配列にマッピングされる。マッピング整列後に、配列読み取り値は、マッピングスコアを割り当てられる。事例によっては、読み取り値は、コピー数バリエーション分析とは無関係の配列であってよい。データのフィルタリングおよびマッピングの後、複数の配列読み取りデータは、カバレージの染色体領域を生成する。これらの染色体領域は、様々な長さのウィンドウまたはビンに分けることができる。ウィンドウまたはビンは、少なくとも5kb、10、kb、25kb、30kb、35、kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、または1000kbであり得る。ウィンドウまたはビンは、また、最大5kb、10、kb、25kb、30kb、35、kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、または1000kbの塩基を有し得る。ウィンドウまたはビンは、また、約5kb、10、kb、25kb、30kb、35、kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、または1000kbであり得る。
【0159】
カバレージ標準化のために、各ウィンドウまたはビンは、ほぼ同じ数のマッピング可能な塩基を含有するように選択される。一部の場合には、染色体領域内の各ウィンドウまたはビンは、正確な数のマッピング可能な塩基を含有することができる。他の場合には、各ウィンドウまたはビンは、異なる数のマッピング可能な塩基を含有することができる。さらに、各ウィンドウまたはビンは、隣接するウィンドウまたはビンと重ならなくてよい。他の場合には、ウィンドウまたはビンは、別の隣接したウィンドウまたはビンと重なってよい。一部の例では、ウィンドウまたはビンは、少なくとも1bp、2bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp、または1000bpだけ重なり得る。
【0160】
一部の場合には、ウィンドウ領域の各々は、それらがほぼ同じ数の特有なものとしてマッピング可能な塩基を含有するように、大きさを設定することができる。ウィンドウ領域を構成する各塩基のマッピング可能性を決定し、各ファイルの戻しマッピングされる参照から参照までの読み取りデータの表象を含有するマッピング可能性ファイルを生成するために使用する。マッピング可能性ファイルは、各位置が特有なものとしてマッピング可能であるかまたはないかを示す、位置毎に1つの列を含有する。
【0161】
さらに、ゲノム全体にわたって配列決定するのが困難であること、またはかなり高いGC偏りを含有することが公知の所定のウィンドウは、データセットからフィルタリングすることができる。例えば、染色体の動原体の近くにあることが公知の領域(すなわち、動原体性DNA)は、偽陽性の結果を生成することができる高度に反復性の配列を含有することが公知である。これらの領域は、フィルタリング除去することができる。マイクロサテライトDNAなどの他の高度に反復性の配列を異常に高い濃度で含有する領域などの、ゲノムの他の領域は、データセットからフィルタリングすることができる。
【0162】
分析するウィンドウの数も、異なることができる。一部の例では、少なくとも10、20、30、40、50、100、200、500、1000、2000、5,000、10,000、20,000、50,000または100,000のウィンドウが分析される。別の例では、解析されるウィンドウの数は、最大10、20、30、40、50、100、200、500、1000、2000、5,000、10,000、20,000、50,000または100,000のウィンドウが解析される。
【0163】
無細胞ポリヌクレオチド配列に由来する例示的なゲノムの場合、次のステップは、各ウィンドウ領域の読み取りデータカバレージを決定することを含む。これは、バーコードのある、またはバーコードなしの読み取りデータを使用して実行することができる。バーコードのない場合には、以前のマッピングステップは、異なる塩基位置のカバレージを提供する。十分なマッピングおよび品質スコアを有し、フィルタリングされない染色体ウィンドウに入る配列読み取りデータを、数えることができる。カバレージ読み取りデータの数は、各マッピング可能な位置毎にスコアを割り当てることができる。バーコードを含む場合には、同じバーコード、物理的特性またはこの2つの組合せを有する全ての配列は、試料親分子に全て由来するので、1つの読み取りデータに崩壊させることができる。このステップは、増幅を含むステップなどの、前のステップのいずれかの間に導入されたかもしれない偏りを低減する。例えば、1つの分子は10倍増幅されるが、もう1つは1000倍増幅される場合は、各分子は崩壊後に一度表示されるだけであり、それによって一様でない増幅の影響を打ち消す。特有のバーコードを有する読み取りデータだけを、マッピング可能な位置毎に数えることができ、割り当てられるスコアに影響することができる。この理由から、最少量の偏りを生成するために最適化される方法で、バーコードライゲーションステップを実行することが重要である。各塩基の配列は、その特異的位置の最も優占するヌクレオチド読み取りデータとして整列される。さらに、各位置で同時数量化を導くために、各位置で特有分子の数を数えることができる。このステップは、増幅を含むステップなどの、前のステップのいずれかの間に導入されたかもしれない偏りを低減する。
【0164】
染色体領域でコピー数バリエーションを同定するために、各ウィンドウ領域の個別のコピー数状態を利用することができる。一部の場合には、コピー数バリエーション状態の存在または不在を報告するために、同じコピー数を有する全ての隣接したウィンドウ領域をセグメントに併合することができる。一部の場合には、それらを他のセグメントと併合する前に、様々なウィンドウをフィルタリングすることができる。
【0165】
各ウィンドウのために核酸読み取りデータカバレージを決定する際に、各ウィンドウのカバレージを、その試料の平均カバレージによって正規化することができる。そのようなアプローチを使用して、類似の条件下で試験対象および対照の両方を配列決定することが望ましいかもしれない。各ウィンドウの読み取りデータカバレージは、類似のウィンドウにわたる比として次に表すことができる。
【0166】
試験対象の各ウィンドウの核酸読み取りデータカバレージ比は、試験試料の各ウィンドウ領域の読み取りデータカバレージを、対照試料の対応するウィンドウ領域の読み取りデータカバレージで割ることによって決定することができる。
【0167】
次に、この過程は、患者の各読み取りデータファミリーの事前の信頼度スコアを調べる(58)。この情報は、データベースに保存される。図2で詳述されるように、患者の試験結果の事前の分析は、信頼度スコアを洗練するために使用することができる。この情報は、配列読み取りデータファミリーの間の信頼度スコアに基づいて、タグ付けされた親ポリヌクレオチドのセットで遺伝子座での各配列読み取りデータの頻度を推測するために使用される(60)。将来の使用のために、現在の信頼度スコアで歴史データベースを次に更新する(62)。この方法で、ノイズ除去を向上させるために、配列読み取りデータのファミリーからコンセンサス配列を生成することができる。
【0168】
次に、図3に移ると、プロセスは、血液試料または他の身体試料由来の遺伝子材料を受け取る(102)。プロセスは、遺伝子材料由来のポリヌクレオチドをタグ付けされた親ヌクレオチドへと変換する(104)。タグ付けされた親ヌクレオチドが増幅されて、増幅された後代ポリヌクレオチドを産生する(106)。増幅されたポリヌクレオチドのサブセットが配列決定されて、配列読み取り値を生成し(108)、これは、特有のタグ付けされた親ヌクレオチドからそれぞれ生成されたファミリーへとグループ分けされる(110)。選択された遺伝子座において、プロセスは、各ファミリーにファミリー毎の信頼スコアを割り当てる(112)。次に、以前の読み取りを使用して、コンセンサスが決定される。これは、ファミリー毎に以前の信頼スコアを審査することにより行われ、一致する以前の信頼スコアが存在する場合、現在の信頼スコアが増加される(114)。以前の信頼スコアが存在するが、不一致である場合、現在の信頼スコアは、一実施形態では修飾されない(116)。他の実施形態では、信頼スコアは、一致していない以前の信頼スコアに対して既定の様式で調整される。ファミリーが初めて検出される場合、現在の信頼スコアは、偽の読み取りの可能性があるため低減され得る(118)。プロセスは、信頼スコアに基づくタグ付けされた親ポリヌクレオチドのセットにおける遺伝子座におけるファミリーの頻度を推定することができる(120)。
【0169】
時間的情報を図1図2において使用して、変異またはコピー数バリエーション検出の情報を増強したが、他のコンセンサス方法を適用してもよい。他の実施形態では、歴史的比較は、特定の参照配列にマッピングされる他のコンセンサス配列と併せて使用して、遺伝子変異の事例を検出することができる。特定の参照配列にマッピングされるコンセンサス配列を測定し、対照試料に対して正規化することができる。参照配列にマッピングされる分子の測定値をゲノムにわたって比較して、コピー数が変動するまたはヘテロ接合性が失われたゲノムにおける区域を識別することができる。コンセンサス方法は、例えば、デジタル通信理論、情報理論またはバイオインフォマティクスに由来する、コンセンサス配列を構築する線形または非線形方法(例えば、投票、平均化、統計的、最大事後もしくは最大尤度検出、動的プログラミング、ベイジアン、隠れマルコフまたはサポートベクターマシン方法等)を含む。配列読み取り値カバレージが決定された後に、ストカスティックモデリングアルゴリズムが適用されて、ウィンドウ領域毎の正規化された核酸配列読み取り値カバレージを別々のコピー数状態へと変換する。場合によっては、このアルゴリズムは、次のうちの1種または複数を含むことができる:隠れマルコフモデル、動的プログラミング、サポートベクターマシン、ベイジアンネットワーク、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリング方法論およびニューラルネットワーク。
【0170】
この後に、報告が作成され得る。例えば、コピー数バリエーションは、ゲノムにおける様々なポジションと、それぞれのポジションにおけるコピー数バリエーションの対応する増加または減少または維持を示すグラフとして報告することができる。その上、コピー数バリエーションを使用して、どれほどの疾患材料(またはコピー数バリエーションを有する核酸)が、無細胞ポリヌクレオチド試料に存在するか示すパーセンテージスコアを報告することができる。
【0171】
一実施形態では、報告は、医者に役立つ注釈を含む。注釈付けは、NCCN腫瘍学臨床診療ガイドライン(NCCN Clinical Practice Guidelines in Oncology)(商標)またはアメリカ臨床腫瘍学会(American Society of Clinical Oncology)(ASCO)臨床診療ガイドラインにおける状態に関する報告の注釈付けを含むことができる。注釈付けは、適応外使用のための1種もしくは複数のFDA承認薬物、メディケア・メディケイド・サービス・センター(Centers for Medicare and Medicaid Services)(CMS)抗がん処置コンペンディアに収載されている1種もしくは複数の薬物、および/または科学文献に見出される1種もしくは複数の実験薬物の、報告における収載を含むことができる。注釈付けは、収載された薬物処置選択肢を、薬物処置選択肢に関する科学情報を含有する参考文献に繋げるステップを含むことができる。科学情報は、医学雑誌の査読論文に由来することができる。注釈付けは、Ingenuity(登録商標)Systemsによって提供される情報の使用を含むことができる。注釈付けは、報告における薬物処置選択肢の臨床治験に関する情報へのリンクの提供を含むことができる。注釈付けは、電子に基づく報告において、提供された薬物処置選択肢の近くにポップアップボックスまたはフライオーバー(fly-over)ボックスにおける情報の提示を含むことができる。注釈付けは、1種または複数の薬物処置選択肢、1種または複数の薬物処置選択肢に関連する科学情報、1種または複数の薬物処置選択肢に関する科学情報への1種または複数のリンク、1種または複数の薬物処置選択肢に関する科学情報の引用への1種または複数のリンク、および1種または複数の薬物処置選択肢に関する臨床治験情報からなる群から選択される、報告への情報の付加を含むことができる。
【0172】
図4に描写されている通り、対照試料または参照配列に対する配列カバレージの比較は、ウィンドウにわたる正規化を助けることができる。本実施形態では、無細胞DNAは、血液等、容易に入手可能な体液から抽出および単離される。例えば、無細胞DNAは、イソプロパノール沈殿および/またはシリカに基づく精製が挙げられるが、これらに限定されない、本技術分野で認識される種々の方法を使用して抽出することができる。無細胞DNAは、がんがない対象、がんのリスクがある対象、またはがんを有することが公知の対象等、いずれかの数の対象から抽出することができる。
【0173】
単離/抽出ステップ後に、無細胞ポリヌクレオチド試料において、多数の異なる配列決定操作のいずれかを行うことができる。試料は、配列決定前に、1種または複数の試薬(例えば、酵素、特有の識別子(例えば、バーコード)、プローブ等)により加工することができる。場合によっては、試料が、バーコード等の特有の識別子により加工される場合、試料または試料の断片は、個々にまたはサブグループにおいて、特有の識別子をタグ付けすることができる。次に、配列決定反応等、下流適用において、タグ付けされた試料を使用することができ、それにより個々の分子を親分子へと追跡することができる。
【0174】
一般に、図4に示されるように、変異検出は、ゲノムの選択的に濃縮された領域または精製および単離されたトランスクリプトームに対して行うことができる(302)。本明細書に記載されている通り、遺伝子、がん遺伝子、腫瘍サプレッサー遺伝子、プロモーター、調節配列エレメント、非コード領域、miRNA、snRNAその他を挙げることができるが、これらに限定されない特異的領域は、無細胞ポリヌクレオチドの総集団から選択的に増幅することができる。これは、本明細書の記載通りに行うことができる。一例において、個々のポリヌクレオチド配列に対するバーコード標識ありまたはなしで、マルチプレックス配列決定を使用することができる。他の例において、本技術分野で認識されるいずれかの核酸配列決定プラットフォームを使用して、配列決定を行うことができる。このステップは、複数のゲノム断片配列読み取り値を生成する(304)。その上、別の対象から採取された対照試料から参照配列が得られる。場合によっては、対照対象は、公知の遺伝子バリエーションまたは疾患がないことが公知の対象とすることができる。場合によっては、このような配列読み取り値は、バーコード情報を含有することができる。他の例において、バーコードは利用されない。さらに別の例では、特有配列タグは使用されない。
【0175】
配列決定後に、読み取り値に、品質スコアを割り当てる。品質スコアは、これらの読み取り値が、閾値に基づきその後の分析において有用となり得るか示す読み取り値の表示であってよい。場合によっては、一部の読み取り値は、その後のマッピングステップを行うのに十分な品質または長さではない。ステップ306において、指定の品質スコア閾値を満たすゲノム断片読み取り値は、参照ゲノム、または変異を含有しないことが公知の参照配列にマッピングされる。マッピング整列後に、配列読み取り値は、マッピングスコアを割り当てられる。マッピングスコアは、各ポジションが、特有にマッピング可能であるか否か示す、参照配列に戻しマッピングされる表示または読み取り値であってよい。一部の事例では、読み取り値は、変異分析とは無関係の配列であってよい。例えば、一部の配列読み取り値は、混入物ポリヌクレオチドに起源をもつことができる。少なくとも90%、95%、99%、99.9%、99.99%または99.999%のマッピングスコアを有する配列決定読み取り値は、データセットからフィルタリング除去することができる。他の事例において、90%、95%、99%、99.9%、99.99%または99.999%未満のマッピングスコアを割り当てられた配列決定読み取り値は、データセットからフィルタリング除去することができる。
【0176】
マッピング可能塩基毎に、マッピング可能性の最小閾値を満たさない塩基または低品質塩基は、参照配列に見出される対応する塩基によって置き換えることができる。
【0177】
読み取りデータカバレージを確認することができ、各読み取りデータの対照配列に対するバリアント塩基が同定されると、読み取りデータの総数で割ったバリアントを含有する読み取りデータの数として、バリアント塩基の頻度を計算することができる(308)。これは、ゲノム中のマッピング可能な各位置の比として表すことができる。
【0178】
塩基ポジション毎に、参照配列と比較して、全4種のヌクレオチドであるシトシン、グアニン、チミン、アデニンの頻度を分析する(310)。ストカスティックまたは統計的モデリングアルゴリズムを適用して、塩基バリアント毎の頻度状態を反映するように、マッピング可能ポジション毎の正規化された比を変換する。場合によっては、このアルゴリズムは、次のうちの1種または複数を含むことができる:隠れマルコフモデル、動的プログラミング、サポートベクターマシン、ベイジアンまたは確率的モデリング、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリング方法論およびニューラルネットワーク。
【0179】
各塩基ポジションの別々の変異状態を利用して、参照配列のベースラインと比較して高頻度の分散を有する塩基バリアントを識別することができる。場合によっては、ベースラインは、少なくとも0.0001%、0.001%、0.01%、0.1%、1.0%、2.0%、3.0%、4.0%、5.0%、10%または25%の頻度を表すことができる。他の事例において、ベースラインは、少なくとも0.0001%、0.001%、0.01%、0.1%、1.0%、2.0%、3.0%、4.0%、5.0%、10%または25%の頻度を表すことができる。場合によっては、塩基バリアントまたは変異を有する全ての隣接する塩基ポジションをセグメントへと統合して、変異の存在または非存在を報告することができる。場合によっては、他のセグメントと統合する前に様々なポジションをフィルタリングすることができる。
【0180】
塩基ポジション毎の分散の頻度の計算後に、参照配列と比較して、対象に由来する配列における特異的ポジションに対し最大偏差を有するバリアントは、変異として識別する。場合によっては、変異は、がん変異であってよい。他の事例において、変異は、疾患状態と相関し得る。
【0181】
突然変異またはバリアントは、一塩基置換、塩基転換、転位、反転、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、染色体融合、遺伝子トランケーション、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸の化学的修飾での異常な変化、後成的パターンでの異常な変化、および核酸メチル化での異常な変化を限定されずに含む、遺伝子の異常を含むことができる。場合によっては、変異は、多くても1、2、3、4、5、6、7、8、9、10、15または20ヌクレオチドの長さであってよい。他の場合では、変異は、少なくとも1、2、3、4、5、6、7、8、9、10、15または20ヌクレオチドの長さであってよい。
【0182】
次に、以前の読み取りを使用して、コンセンサスが決定される。これは、対応する塩基の以前の信頼スコアを審査することによって為され、一致する以前の信頼スコアが存在する場合、現在の信頼スコアが増加される(314)。以前の信頼スコアが存在するが不一致である場合、一実施形態では、現在の信頼スコアは修飾されない(316)。他の実施形態では、信頼スコアは、一致していない以前の信頼スコアに関して既定の様式で調整される。ファミリーが初めて検出される場合、現在の信頼スコアは、偽の読み取りの可能性があるため低減され得る(318)。プロセスは、その後に、塩基ポジション毎に各塩基の分散の頻度を別々のバリアント状態へと変換する(320)。
【0183】
一実施形態は、x軸反映的とならないように、ストリームグラフをレンダリングする。修飾されたグラフは、比例的な性状を表示するために特有のスケーリングを適用する。グラフは、新たな性状の付加を経時的に示すことができる。変異の存在または非存在は、ゲノムにおける様々なポジションおよびそれぞれのポジションにおける変異の頻度の対応する増加または減少または維持を示す、グラフ形態で反映することができる。その上、変異を使用して、どれほどの疾患材料が、無細胞ポリヌクレオチド試料に存在するかを示すパーセンテージスコアを報告することができる。非疾患参照配列における報告されるポジションにおける典型的な分散の公知の統計を考慮すると、信頼スコアは、検出された変異のそれぞれを伴うことができる。変異は、対象における存在量の順にランク付けしても、または臨床的に使用可能な重要性によってランク付けしてもよい。
【0184】
次に、技術の適用が詳述される。1つの適用は、がんの検出である。本明細書に記載されている方法およびシステムを使用して、多数のがんを検出することができる。がん細胞は、大部分の細胞と同様に、古い細胞が死亡し、より新しい細胞によって置き換えられるターンオーバーの速度によって特徴付けることができる。一般に、所定の対象における脈管構造と接触した死細胞は、血流中にDNAまたはDNAの断片を放出することができる。これは、疾患の様々なステージにおけるがん細胞にも当てはまる。がん細胞は、疾患のステージに依存して、コピー数バリエーションや変異等の様々な遺伝子バリエーションによって特徴付けることもできる。この現象を使用して、本明細書に記載されている方法およびシステムを使用して、個体におけるがんの存在または非存在を検出することができる。
【0185】
例えば、がんのリスクがある対象由来の血液を採取し、本明細書に記載されている通りに調製して、無細胞ポリヌクレオチドの集団を生成することができる。一例において、これは、無細胞DNAであってよい。本開示のシステムおよび方法を用いて、存在するある特定のがんに存在し得る変異またはコピー数バリエーションを検出することができる。本方法は、疾患の症状または他の特質の非存在にもかかわらず、身体におけるがん性細胞の存在の検出に役立つことができる。
【0186】
検出され得るがんの型および数として、血液がん、脳がん、肺がん、皮膚がん、鼻がん、咽喉がん、肝臓がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口内がん、胃がん、固形状態の腫瘍、不均一な腫瘍、均一な腫瘍その他を挙げることができるが、これらに限定されない。
【0187】
がんの早期検出では、がんを検出するために、突然変異検出またはコピー数バリエーション検出を含む、本明細書に記載されるシステムまたは方法のいずれかを利用することができる。これらのシステムおよび方法を使用して、がんを引き起こすまたはこれから引き起こされ得るいずれかの数の遺伝子バリエーションを検出することができる。そのようなものとして、感染およびがんに関連する、変異、変異、インデル、コピー数バリエーション、トランスバージョン、転位置、逆位、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変化、遺伝子融合、染色体融合、遺伝子トランケーション、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化を挙げることができるが、これらに限定されない。
【0188】
その上、本明細書に記載されているシステムおよび方法は、ある特定のがんの特徴付けに役立つように使用することもできる。本開示のシステムおよび方法から生成される遺伝子データは、開業医が、がんの特異的形態のより十分な特徴付けに役立たせることを可能にすることができる。がんは、組成およびステージ分類の両方において不均一であってもよい。遺伝子プロファイルデータは、がんの特異的サブタイプの特徴付けを可能にすることができ、これは、該特異的サブタイプの診断または処置において重要となり得る。この情報は、対象または開業医に、特異的な型のがんの予後に関する手がかりを提供することもできる。
【0189】
本明細書に提供されるシステムおよび方法を使用して、特定の対象におけるがんまたは他の疾患をモニタリングすることができる。これは、対象または開業医のいずれかが、疾患の進行と合致するよう処置選択肢を適応させることを可能にすることができる。この例において、本明細書に記載されているシステムおよび方法を使用して、疾患の経過の特定の対象の遺伝子プロファイルを構築することができる。一部の事例では、がんは進行し、より高悪性度かつ遺伝子に不安定になる可能性がある。他の例において、がんは、良性、不活性または休止状態を維持する可能性がある。本開示のシステムおよび方法は、疾患進行の決定において有用であり得る。
【0190】
さらに、本明細書に記載されているシステムおよび方法は、特定の処置選択肢の有効性の決定において有用であり得る。一例において、処置が、より多くのがんが死亡し、DNAを脱落させることができるものとして成功した場合、成功した処置選択肢は、対象の血液において検出されるコピー数バリエーションまたは変異の量を実際に増加させることができる。他の例において、これは生じない可能性がある。別の例において、おそらくある特定の処置選択肢は、経時的ながんの遺伝子プロファイルと相関することができる。この相関は、治療法の選択において有用となり得る。その上、がんが、処置後に寛解にあると観察される場合、本明細書に記載されているシステムおよび方法は、残存する疾患または疾患再発のモニタリングにおいて有用となり得る。
【0191】
本明細書に記載されている方法およびシステムは、がんのみに関連する変異およびコピー数バリエーションの検出に限定されなくてよい。様々な他の疾患および感染は、初期検出およびモニタリングに適することができる他の種類の状態をもたらすことができる。例えば、ある特定の事例において、遺伝子障害または感染性疾患は、対象内のある特定の遺伝子モザイク現象を引き起こすことができる。この遺伝子モザイク現象は、観察され得るコピー数バリエーションおよび変異を引き起こすことができる。別の例において、本開示のシステムおよび方法を使用して、身体内の免疫細胞のゲノムをモニタリングすることもできる。B細胞等の免疫細胞は、ある特定の疾患の存在により急速なクローン性増大を行うことができる。クローン性増大は、コピー数バリエーション検出を使用してモニタリングすることができ、ある特定の免疫状態をモニタリングすることができる。この例において、コピー数バリエーション分析を経時的に行って、特定の疾患がどの程度進行しているかについてのプロファイルを生成することができる。
【0192】
さらに、本開示のシステムおよび方法を使用して、細菌またはウイルス等の病原体によって引き起こされ得る全身性感染それ自体をモニタリングすることもできる。コピー数バリエーションまたはさらには変異検出を使用して、感染の経過において、病原体の集団がどの程度変化しているかについて決定することができる。これは、HIV/AIDsまたは肝炎感染等、慢性感染において特に重要となることができ、それによって、ウイルスは、感染の経過においてより病原性のある形態へとライフサイクル状態を変化させるおよび/または変異させることができる。
【0193】
本開示のシステムおよび方法を使用することができるさらに別の例は、移植対象のモニタリングである。一般に、移植された組織は、移植後に身体によってある程度の拒絶を行う。免疫細胞は、移植された組織の破壊を試みるため、本開示の方法を使用して、宿主身体の拒絶活性を決定またはプロファイルすることができる。これは、移植された組織の状態のモニタリングと共に拒絶の処置または防止の経過の改変において有用となり得る。
【0194】
さらに、本開示の方法を使用して、対象における異常状態の不均一性を特徴付けることができ、本方法は、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップであって、遺伝子プロファイルが、コピー数バリエーションおよび変異分析に起因する複数のデータを含むステップを含む。場合によっては、がんが挙げられるが、これらに限定されない疾患は不均一となり得る。疾患細胞は、同一でなくてもよい。がんの例において、一部の腫瘍は、異なる型の腫瘍細胞、がんの異なるステージの一部の細胞を含む。他の例において、不均一性は、疾患の複数の病巣を含むことができる。重ねて、がんの例において、複数の腫瘍病巣が存在する場合があり、その場合おそらく、1個または複数の病巣は、原発部位から伝播した転移の結果である。
【0195】
本開示の方法を使用して、不均一疾患における異なる細胞に由来する遺伝子情報の総和であるデータのフィンガープリントまたはセットを生成またはプロファイルすることができる。このデータセットは、単独のまたは組み合わせたコピー数バリエーションおよび変異分析を含むことができる。
【0196】
その上、本開示のシステムおよび方法を使用して、胎児起源のがんまたは他の疾患を診断、予後予測、モニタリングまたは観察することができる。すなわち、妊娠中の対象においてこのような方法論を用いて、そのDNAおよび他のポリヌクレオチドが母体分子と共に循環し得る、生まれる前の対象におけるがんまたは他の疾患を診断、予後予測、モニタリングまたは観察することができる。
【0197】
さらに、これらの報告は、インターネット経由で電子的に提出およびアクセスされる。配列データの分析は、対象の位置以外の場所で生じる。報告は、生成され、対象の位置に伝達される。インターネット接続可能なコンピュータ経由で、対象は、自身の腫瘍負荷を反映する報告にアクセスする。
【0198】
医療提供者は、注釈付けされた情報を使用して、他の薬物処置選択肢を選択する、および/または薬物処置選択肢に関する情報を保険会社に提供することができる。本方法は、例えば、NCCN腫瘍学臨床診療ガイドライン(商標)またはアメリカ臨床腫瘍学会(ASCO)臨床診療ガイドラインにおける状態に関して薬物処置選択肢を注釈付けするステップを含むことができる。
【0199】
報告において層別化される薬物処置選択肢は、追加的な薬物処置選択肢を収載することにより、報告において注釈付けすることができる。追加的な薬物処置は、適応外使用のためのFDA承認薬物であってよい。1993年包括的予算調整法(Omnibus Budget Reconciliation Act)(OBRA)における条項は、メディケアが、標準医学コンペンディアに含まれる抗がん薬の適応外使用をカバーすることを要求する。リストの注釈付けに使用される薬物は、全米総合がん情報ネットワーク(National Comprehensive Cancer Network)(NCCN)Drugs and Biologics Compendium(商標)、Thomson Micromedex DrugDex(登録商標)、Elsevier Gold Standard’s Clinical Pharmacology compendiumおよびAmerican Hospital Formulary Service-Drug Information Compendium(登録商標)を含むCMS承認されたコンペンディアに見出すことができる。
【0200】
薬物処置選択肢は、特定の状態の1種または複数の分子マーカーを有するがんの処置において有用となり得る実験薬物を収載することにより、注釈付けすることができる。実験薬物は、in vitroデータ、in vivoデータ、動物モデルデータ、前臨床治験データまたは臨床治験データが利用できる薬物であってよい。データは、例えば、American Journal of Medicine、Annals of Internal Medicine、Annals of Oncology、Annals of Surgical Oncology、Biology of Blood and Marrow Transplantation、Blood、Bone Marrow Transplantation、British Journal of Cancer、British Journal of Hematology、British Medical Journal、Cancer、Clinical Cancer Research、Drugs、European Journal of Cancer(以前は、the European Journal of Cancer and Clinical Oncology)、Gynecologic Oncology、International Journal of Radiation, Oncology, Biology, and Physics、The Journal of the American Medical Association、Journal of Clinical Oncology、Journal of the National Cancer Institute、Journal of the National Comprehensive Cancer Network(NCCN)、Journal of Urology、Lancet、Lancet Oncology、Leukemia、The New England Journal of MedicineおよびRadiation Oncologyを含む、CMS Medicare Benefit Policy Manualに収載されている雑誌に見出される査読された医学文献において公表されていてよい。
【0201】
薬物処置選択肢は、収載された薬物を該薬物に関する科学情報へと繋げる電子ベースの報告にリンクを提供することにより注釈付けすることができる。例えば、薬物の臨床治験に関する情報(clinicaltrials.gov)へのリンクを提供することができる。報告が、コンピュータまたはコンピュータウェブサイトを経由して提供される場合、リンクは、脚注、ウェブサイトへのハイパーリンク、ポップアップボックスまたは情報を有するフライオーバーボックス等であってよい。報告および注釈付けされた情報は、印刷形態に提供することができ、注釈は、例えば、参考文献への脚注であってよい。
【0202】
報告における1種または複数の薬物処置選択肢に注釈付けするための情報は、科学情報を記憶する商業的実体、例えば、Ingenuity(登録商標)Systemsによって提供され得る。医療提供者は、注釈付けされた情報に収載されている実験薬物により、がん患者等の対象を処置することができ、医療提供者は、注釈付けされた薬物処置選択肢にアクセスし、科学情報(例えば、医学雑誌論文の印刷物)を検索し、薬物処置を提供するための償還の要求と共にこれ(例えば、印刷された雑誌論文)を保険会社に提出することができる。医者は、償還を可能にするために種々の診断関連群(DRG)コードのいずれかを使用することができる。
【0203】
報告における薬物処置選択肢は、薬物が影響を与える経路における他の分子成分に関する情報(例えば、薬物標的である細胞表面受容体の下流のキナーゼを標的とする薬物に関する情報)により注釈付けすることもできる。薬物処置選択肢は、1種または複数の他の分子経路成分を標的とする薬物に関する情報により注釈付けすることができる。経路に関する情報の識別および/または注釈は、別の会社に外部委託または下請けに出すことができる。
【0204】
注釈付けされた情報は、例えば、薬物名(例えば、適応外使用のためのFDA承認薬物;CMS承認コンペンディアに見出される薬物、および/または科学(医学)雑誌論文に記載されている薬物)、1種または複数の薬物処置選択肢に関連する科学情報、1種または複数の薬物に関する科学情報への1つまたは複数のリンク、1種または複数の薬物に関する臨床治験情報(例えば、clinicaltrials.gov/由来の情報)、薬物に関する科学情報
の引用への1つまたは複数のリンク等であってよい。
【0205】
注釈付けされた情報は、報告におけるいずれかの位置に挿入することができる。注釈付けされた情報は、報告における複数の位置に挿入することができる。注釈付けされた情報は、報告の、層別化された薬物処置選択肢に関するセクション近くに挿入することができる。注釈付けされた情報は、報告の、層別化された薬物処置選択肢とは別々の頁に挿入することができる。層別化された薬物処置選択肢を含有しない報告は、情報により注釈付けすることができる。
【0206】
提供される方法は、対象(例えば、がん患者)から単離された試料(例えば、腫瘍細胞)における薬物の効果を調査するために利用することもできる。がん患者由来の腫瘍を使用したin vitro培養は、当業者に認識される技法を使用して確立することができる。
【0207】
提供される方法は、in vitro培養および/または異種移植モデルを使用した、FDA承認適応外薬物または実験薬物のハイスループットスクリーニングを含むこともできる。
【0208】
提供される方法は、再発検出のために腫瘍抗原をモニタリングするステップを含むこともできる。
【0209】
報告は、図5Aおよび5Bに示されるように、がんを有する対象に対するゲノムポジションおよびコピー数バリエーションをマッピングして作成され得る。これらの報告は、転帰が既知の対象の他のプロファイルと比較して、特定のがんが、高悪性度かつ処置に対し抵抗性であることを示すことができる。対象を、ある期間モニタリングし、再検査する。この期間の終わりにコピー数バリエーションプロファイルが、劇的に増加し始める場合、これは、現在の処置が機能していないことを示すことができる。比較は、他の前立腺対象の遺伝子プロファイルにより行う。例えば、このコピー数バリエーション増加が、がんが進行していることを示すことが決定される場合、処方された当初の処置レジメンは、もはやがんを処置することなく、新たな処置が処方される。
【0210】
一実施形態では、システムは、図9に示す遺伝子パネルをサポートする。図9の遺伝子パネルは、本開示の方法およびシステムで使用することができる。
【0211】
これらの報告は、インターネット経由で電子的に提出およびアクセスされ得る。配列データの分析は、対象の位置以外の場所で生じる。報告は、生成され、対象の位置に伝達される。インターネット接続可能なコンピュータ経由で、対象は、自身の腫瘍負荷を反映する報告にアクセスする(図5Aおよび5B)。
【0212】
図6は、がんを有する対象の報告のインターネット接続可能なアクセスの概略表示である。図6のシステムは、手持ち式DNAシーケンサーまたは卓上型DNAシーケンサーを使用することができる。DNAシーケンサーは、DNA配列決定プロセスの自動化に使用される科学機器である。DNAの試料が与えられると、DNAシーケンサーは、4種の塩基:アデニン、グアニン、シトシンおよびチミンの順序の決定に使用される。DNA塩基の順序は、読み取り値と呼ばれるテキスト文字列として報告される。一部のDNAシーケンサーは、ヌクレオチドに取り付けられた蛍光色素に起源をもつ光シグナルを分析するため、光学機器と考慮することもできる。
【0213】
DNAシーケンサーは、DNAの化学修飾と、続く特異的塩基の切断に基づくギルバートの配列決定方法を適用することができるか、またはジデオキシヌクレオチド鎖終結に基づくサンガーの技法を適用することができる。サンガー法は、その効率増加および低い放射能のため一般的になった。DNAシーケンサーは、DNA増幅(ポリメラーゼ連鎖反応-PCR)を必要としない技法を使用することができ、これにより、配列決定前の試料調製を迅速化し、誤りを低減する。加えて、配列決定データは、リアルタイムでの相補鎖におけるヌクレオチドの付加によって引き起こされる反応から収集される。例えば、DNAシーケンサーは、単一分子リアルタイム(SMRT)と呼ばれる方法を利用することができ、これによると、配列決定データは、蛍光色素を含有する、酵素によって相補鎖にヌクレオチドが付加される際に放射される光(カメラによって捕捉される)によって生成される。あるいは、DNAシーケンサーは、ナノポア感知テクノロジーに基づく電子システムを使用することができる。
【0214】
データは、DNAシーケンサーによって、直接接続またはインターネットを通して、処理のためのコンピュータに送られる。システムのデータ処理態様は、デジタル電子回路において、またはコンピュータハードウェア、ファームウェア、ソフトウェアにおいて、またはこれらの組合せにおいて実装することができる。本発明のデータ処理装置は、プログラム可能プロセッサによる実装のための機械可読記憶デバイスにおいて有形具体化されたコンピュータプログラム製品において実装することができ;本発明のデータ処理方法ステップは、入力データにおいて操作し、出力を生成することにより本発明の機能を果たすための命令のプログラムを実行する、プログラム可能プロセッサによって行うことができる。本発明のデータ処理態様は、データ記憶システムからデータおよび命令を受け取り、それにデータおよび命令を伝達するようカップリングされた少なくとも1個のプログラム可能プロセッサと、少なくとも1個の入力デバイスと、少なくとも1個の出力デバイスとを含むプログラム可能システムにおいて実行可能な、1種または複数のコンピュータプログラムにおいて有利に実行することができる。各コンピュータプログラムは、所望であれば、高レベル手続き型またはオブジェクト指向型プログラミング言語またはアセンブリもしくは機械語において実装することができ;いずれの場合でも、言語は、コンパイルまたは解釈された言語となり得る。適したプロセッサは、例として、一般および特殊な目的のマイクロプロセッサの両方を含む。一般に、プロセッサは、リードオンリーメモリおよび/またはランダムアクセスメモリから命令およびデータを受け取るであろう。コンピュータプログラム命令およびデータの有形具体化に適した記憶デバイスは、例として、EPROM、EEPROMおよびフラッシュメモリデバイス等、半導体メモリデバイス;内蔵ハードディスクおよびリムーバブルディスク等、磁気ディスク;光磁気ディスク;ならびにCD-ROMディスクを含む、全ての形態の不揮発性メモリを含む。前述のいずれかは、ASIC(特定用途向け集積回路)によって補足するまたはこれに取り込むことができる。
【0215】
ユーザーとの相互作用を提供するために、本発明は、ユーザーに情報を表示するためのモニタまたはLCD(液晶ディスプレイ)スクリーン等の表示デバイスと、キーボード、マウスもしくはトラックボール等の二次元ポインティングデバイス、またはデータグローブもしくはジャイロスコープマウス等の三次元ポインティングデバイス等、ユーザーがコンピュータシステムに入力を提供することができる入力デバイスとを有するコンピュータシステムを使用して実装することができる。コンピュータシステムは、コンピュータプログラムがユーザーと相互作用するグラフィカル・ユーザー・インターフェースを提供するようにプログラムすることができる。コンピュータシステムは、バーチャル・リアリティ、三次元ディスプレイインターフェースを提供するようにプログラムすることができる。
コンピュータ制御システム
【0216】
本開示は、本開示の方法を実行するようにプログラムされるコンピュータ制御システムを提供する。図7は、遺伝子データを分析するようにプログラムされた、さもなければ構成されたコンピュータシステム701を示す。検出限界未満の遺伝子バリエーションを検出するための本明細書に記載される方法は、遺伝子データのより効率的な処理を提供し、それによってコンピュータシステムの機能を改善することができる。例えば、コンピュータシステムは、遺伝子データをより速やかに、または効率的に処理し、遺伝子バリアントを同定することができる(例えば、コンピュータシステムが検出限界未満で遺伝子バリアントを同定することができるならば、遺伝子データの再処理または追加の遺伝子データの処理は不要かもしれない)。
【0217】
コンピュータシステム701は、本開示のノイズ範囲または検出限界未満の遺伝子バリエーションを検出すること、例えば核酸分子で遺伝子バリエーションを検出すること、遺伝子バリエーションのセットを比較すること、診断信頼度指標を決定すること、信頼区間を決定すること、大規模並行配列決定を含む、核酸を配列決定すること、配列読み取りデータをファミリーにグループ分けすること、グループ分けした配列読み取りデータを崩壊させること、コンセンサス配列を決定することなどの、様々な態様を調節することができる。コンピュータシステム801は、ユーザーの電子装置またはその電子装置に関して遠隔に位置するコンピュータシステムであってよい。電子装置は、モバイル電子装置であってよい。
【0218】
コンピュータシステム701は、中央処理ユニット(CPU、本明細書において「プロセッサ」および「コンピュータプロセッサ」とも称される)705を含み、これはシングルコアプロセッサであってもよいし、マルチコアプロセッサであってもよいし、並列処理のための複数のプロセッサであってもよい。コンピュータシステム701は、メモリまたはメモリ位置710(例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ)と、電子記憶ユニット715(例えば、ハードディスク)と、1種または複数の他のシステムと連絡するための連絡インターフェース720(例えば、ネットワークアダプタ)と、キャッシュ、他のメモリ、データ記憶および/または電子ディスプレイアダプタ等の周辺デバイス725も含む。メモリ710、記憶ユニット715、インターフェース720および周辺デバイス725は、マザーボードなどの連絡バス(実線)を介してCPU705と連絡している。記憶ユニット715は、データを記憶するためのデータ記憶ユニット(またはデータリポジトリ)であってよい。コンピュータシステム701は、連絡インターフェース720の助けを借りて、コンピュータネットワーク(「ネットワーク」)730に作動可能にカップリングすることができる。ネットワーク730は、インターネット、インターネットおよび/またはエクストラネット、あるいはインターネットと連絡したイントラネットおよび/またはエクストラネットであってよい。ネットワーク730は、場合によっては、遠隔通信および/またはデータネットワークである。ネットワーク730は、クラウドコンピューティング等、分散コンピューティングを可能にし得る1個または複数のコンピュータサーバを含むことができる。ネットワーク730は、クラウドコンピューティングなどの分散コンピューティングを可能にし得る、1つまたは複数のコンピュータサーバーを含むことができる。ネットワーク730は、一部の場合にはコンピュータシステム701の助けにより、ピア-ツー-ピアネットワークを実行することができ、それはコンピュータシステム701に連結された装置がクライアントまたはサーバーとしてふるまうことを可能にすることができる。
【0219】
CPU705は、プログラムまたはソフトウェアにおいて具体化することができる一連の機械可読命令を実行することができる。命令は、メモリ710等、メモリ位置において記憶することができる。命令はCPU705に向けることができ、それは本開示の方法を実行するようにCPU705をその後プログラムする、さもなければ構成することができる。CPU705で実行される作業の例には、フェッチ、解読、実行およびライトバックを含めることができる。
【0220】
CPU705は、集積回路などの回路の一部であってよい。システム701の1つまたは複数の他の構成要素が回路に含まれてもよい。一部の場合には、回路は特定用途向け集積回路(ASIC)である。
【0221】
記憶装置715は、ドライバー、ライブラリーおよび保存されたプログラムなどのファイルを保存することができる。記憶装置715は、ユーザープレファレンスおよびユーザープログラムなどのユーザーデータを保存することができる。コンピュータシステム701は、一部の場合には、コンピュータシステム701の外部にある、例えば、イントラネットまたはインターネットでコンピュータシステム701と連結されているリモートサーバーに置かれる、1つまたは複数の追加のデータ記憶装置を含むことができる。
【0222】
コンピュータシステム701は、ネットワーク730を通して1つまたは複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム701は、ユーザー(例えば、とりわけ、医師、研究者、遺伝相談員、科学者)のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピューター(例えば、携帯型PC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、多機能電話(例えば、Apple(登録商標)iPhone(登録商標)、アンドロイド用装置、Blackberry(登録商標))またはパーソナルデジタルアシスタントが含まれる。ユーザーは、ネットワーク730を通してコンピュータシステム701にアクセスすることができる。
【0223】
本明細書に記載されている方法は、例えば、メモリ710または電子記憶ユニット715等、コンピュータシステム701の電子記憶位置に記憶された、機械(例えば、コンピュータプロセッサ)実行可能コードによって実装することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供することができる。使用中に、プロセッサ705はコードを実行することができる。一部の場合には、プロセッサ705による即座のアクセスのために、記憶装置715からコードを読み出し、メモリ710に保存することができる。一部の状況では、電子記憶装置715を排除でき、マシン実行可能な命令がメモリ710に保存される。
【0224】
コードを実行するのに適しているプロセッサを有するマシン用に、コードをプレコンパイルおよび構成することができるか、または実行時にコンパイルされてもよい。コードは、コードがプレコンパイルまたはコンパイル方式で実行することを可能にするように選択することができる、プログラム言語で供給することができる。
【0225】
コンピュータシステム801等、本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化することができる。本技術の様々な態様は、典型的には、ある種の機械可読媒体において行われるまたは具体化される機械(またはプロセッサ)実行可能コードおよび/または関連するデータの形態の、「製品」または「製造品」であると考えることができる。機械実行可能コードは、メモリ(例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスク等、電子記憶ユニットにおいて記憶され得る。「記憶」型の媒体は、ソフトウェアプログラミングのためにいずれかの時点で非一過性記憶を提供することができる、様々な半導体メモリ、テープドライブ、ディスクドライブその他等、コンピュータ、プロセッサもしくは類似物のありと全ての有形メモリまたはその関連するモジュールを含むことができる。ソフトウェアの全体または部分は、ある時点で、インターネットまたは様々な他の遠隔通信ネットワークを介して連絡することができる。そのような通信は、例えば、1つのコンピュータまたはプロセッサから別のものへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットホームへのソフトウェアのローディングを可能にすることができる。したがって、ソフトウェア要素を運ぶことができる別のタイプの媒体は、光学、電気および電磁気の波、例えば有線および光学式固定電話ネットワークを通して、ならびに様々なエアリンクの上でローカル装置の間の物理的インターフェイスを越えて使用されるものを含む。有線または無線リンク、光学式リンクなどの、そのような波を運ぶ物理的要素も、ソフトウェアを運ぶ媒体と考えることができる。本明細書において使用される場合、固定、有形の「記憶」媒体に限定されない限り、コンピュータまたはマシン「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
【0226】
したがって、コンピュータ実行コードなどのマシン可読媒体は、有形の記憶媒体、キャリヤ波媒体または物理的伝送媒体を限定されずに含む、多くの形をとることができる。不揮発性記憶媒体には、例えば、光学または磁気ディスク、例えば任意のコンピュータ(単数または複数)などの中の記憶装置のいずれか、例えば、図に示すデータベースなどを実行するために使用できるものが含まれる。揮発性記憶媒体には、そのようなコンピュータプラットホームのメインメモリなどのダイナミックメモリが含まれる。有形の伝送媒体には、同軸ケーブル;コンピュータシステム内のバスを構成するワイヤを含む銅線および光ファイバが含まれる。キャリヤ波伝送媒体は、電気もしくは電磁気シグナル、または音波もしくは光波、例えば、高周波(RF)および赤外線(IR)データ通信の間に生成されるものの形をとることができる。したがって、コンピュータ可読媒体の一般的な形は、例えば、以下を含む:フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学式媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、フラッシュEPROM、任意の他のメモリチップもしくはカートリッジ、キャリヤ波運搬データもしくは命令、そのようなキャリヤ波を運搬するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読み出すことができる任意の他の媒体。コンピュータ可読媒体のこれらの形の多くは、実行のために1つまたは複数の命令の1つまたは複数のシーケンスをプロセッサに運ぶことに関与することができる。
【0227】
コンピュータシステム701は、例えば、腫瘍特異的なゲノム変更および関連する処置オプションを含むことができる、ゲノムバリエーションまたは変更を識別するパーソナルまたは個別的な患者報告書を提供するためのユーザーインターフェイス(UI)740を含む電子ディスプレイ735を含む、またはそれと連結することができる。UIの例には、グラフィカルユーザーインターフェイス(GUI)およびウェブベースのユーザーインターフェイスが限定することなく含まれる。ユーザーインターフェイス(740)を使用して生成され、表示されるデータは、ネットワークの上で健康管理専門家、研究者、遺伝相談員または科学者などのユーザーがアクセスすることができる。
【0228】
本開示の方法およびシステムは、1つまたは複数のアルゴリズムとして実行することができる。アルゴリズムは、中央処理装置705による実行によりソフトウェアとして実行することができる。アルゴリズムは、例えば、核酸を配列決定すること(例えば、大規模並行配列決定)、核酸配列をグループ分けすること、グループ分けした核酸配列を崩壊させること、コンセンサス配列を生成すること、遺伝子バリエーションを検出すること、診断信頼区間を更新すること、配列に注釈をつけること、報告書を作成すること、および以下の1つまたは複数を含むことができる他の処理を実行することができる:隠れマルコフモデル、ダイナミックプログラミング、ベイジアンネットワーク、トレリス解読、ビタビ復号、予想最大化、カルマンフィルタリング方法論およびニューラルネットワーク。
【0229】
以下の実施例は、例示として提供され、限定するものではない。
【実施例
【0230】
図8は、増幅し、Illumine配列決定に適当なプロトコールを使用して配列決定した複数のオンコジーンの配列の70kbに沿った、DNA試料で検出された塩基の変化(参照ゲノムと比較した)の頻度のグラフを示す。既知の位置に配列バリアントを有する対照DNAを、低い百分率で試料に混入(spike)した。これらのバリアントは、暗色の円によって表される。log0(100%)またはlog -0.3(0.5または50%)で生じるバリアントは、ホモ接合またはヘテロ接合の遺伝子座を表す。log -2未満(1%未満)でのバリアントは、このシステムのノイズ範囲で生じ、配列決定誤り(ノイズ)または実際のバリアント(情報)を表し得る。ノイズ範囲で検出される任意のバリアントでは、バリアントがノイズまたは情報を表すかどうかを決定することが可能でないかもしれない。「ノイズ」の中で、突然変異体位置の塩基コールがノイズではなく情報(実際の突然変異体)を表す信頼度が下がる。しかし、対照DNAが第2の試料に混入される場合は、それは類似の頻度で再び出現するはずである。対照的に、誤りが同じ遺伝子座で再び検出される確率は、誤り率の関数であり、見られる可能性は低い。同じバリアントの独立した検出は、ノイズではなく情報が検出される確率を増加させ、がんの診断が正しいものである増加した信頼度を提供する。
【0231】
配列決定誤りが偶然の結果である限り、同じ配列決定誤りを複数回検出する確率は、それを1回検出することより指数関数的に小さい可能性がある。したがって、特定のシグナルが複数回検出される場合は、それはおそらくノイズではなく情報である。この特徴は、低いレベルで検出される遺伝子バリアントが、配列決定アーチファクトではなく実際のポリヌクレオチドまたはポリヌクレオチドのセットを表す確率を増加させるために使用することができる。
【0232】
一例では、病状を表すシグナルが、複数の事例で検出される。ある特定の実施形態では、シグナルは、がんに関連した体細胞性突然変異またはがんに関連したコピー数バリエーションを有するポリヌクレオチドである。シグナルの反復検出は、シグナルがノイズではなく情報を表す確率を増加させる。反復の事例には、限定することなく、(1)同じ試料の反復試験、(2)対象から同時にとられる2つの試料の試験、または、(3)対象から異なる時間にとられる2つの試料の試験が含まれる。増加した確率を決定することは、第1の検出されるシグナルが、ノイズから確実に区別することができないレベルであるときに特に有用である。この開示の方法は、中でも、病状の早期検出のために経時的に対象をモニタリングする際に、例えば、単一の試験では病状の診断を確実に下すには低すぎるレベルで反復試験が病状を検出するときに有用である。
【0233】
肺がんに関連した共変量バリアントを記載する別の例では、検出される高い信頼度バリエーションに関連したシグナルが検出限界未満で検出される。EGFR L858R活性化突然変異が検出される場合は、共変量耐性突然変異、EGFR T790M耐性突然変異の検出閾値が緩和される。活性化またはドライバー突然変異の独立した検出は、検出閾値内の共変量変量も検出される信頼度を増加させる。
【0234】
本開示の方法およびシステムは、他の方法およびシステム、例えば、各々が参照により本明細書に完全に組み込まれる、特許協力条約(PCT)特許公開番号WO/2014/039556、WO/2014/149134、WO/2015/100427およびWO/2015/175705に記載されるそれらなどと組み合わせることができる。
【0235】
本発明の好ましい実施形態が本明細書で示され、記載されたが、そのような実施形態は例としてだけ提供されていることは当業者に明らかになる。本発明が明細書の中で提供される具体例によって制限されることは、意図されていない。本発明は前記の明細書を参照して記載されたが、本明細書の実施形態の記載および図示は限定する意味で解釈されるためのものではない。本発明を逸脱しない範囲で、当業者は今では多くの変異形、変更および代替を思いつく。さらに、本発明の全ての態様が、様々な条件および変数に依存する、本明細書に示される具体的な描写、構成または相対的な割合に限定されるとは限らないことを理解すべきである。本明細書に記載される本発明の実施形態への様々な代替物を本発明の実施で用いることができることを理解すべきである。したがって、本発明は、そのようないかなる代替物、改変、変更形または均等物もカバーするものとすることが企図される。以下の請求項が本発明の範囲を規定し、これらの請求項の範囲内の方法および構造ならびにそれらの同等物はそれに含まれることを意図する。
図1A
図1B
図1C
図1D
図2
図3
図4
図5A
図5B
図6
図7
図8
図9