(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022185149
(43)【公開日】2022-12-13
(54)【発明の名称】癌スクリーニング及び胎児分析のための変異検出
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20221206BHJP
C12M 1/00 20060101ALI20221206BHJP
C12M 1/34 20060101ALI20221206BHJP
C12Q 1/6883 20180101ALI20221206BHJP
C12Q 1/6886 20180101ALI20221206BHJP
【FI】
C12Q1/6869 Z
C12M1/00 A
C12M1/34 B
C12Q1/6883 Z
C12Q1/6886 Z
【審査請求】有
【請求項の数】22
【出願形態】OL
(21)【出願番号】P 2022166050
(22)【出願日】2022-10-17
(62)【分割の表示】P 2021007944の分割
【原出願日】2016-02-14
(31)【優先権主張番号】62/114,471
(32)【優先日】2015-02-10
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/271,196
(32)【優先日】2015-12-22
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.SWIFT
(71)【出願人】
【識別番号】512037244
【氏名又は名称】ザ チャイニーズ ユニバーシティ オブ ホンコン
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100150810
【弁理士】
【氏名又は名称】武居 良太郎
(74)【代理人】
【識別番号】100134784
【弁理士】
【氏名又は名称】中村 和美
(72)【発明者】
【氏名】ロ ユイク-ミーン デニス
(72)【発明者】
【氏名】チーウ ロッサ ワイ クーン
(72)【発明者】
【氏名】チャン クワン チー
(72)【発明者】
【氏名】ジアーン ペイヨーン
(57)【要約】
【課題】癌のための広範なスクリーニング、検出、または評価を、とりわけ非侵襲的に実施するための新規の技術を提供すること。
【解決手段】癌患者及び癌についてスクリーニングされている対象の血漿(または無細胞DNAを含有する他の試料)における体細胞変異の正確な検出を提供する。これらの分子マーカーの検出は、癌患者のスクリーニング、検出、監視、管理、及び予後診断に有用となる。
【選択図】なし
【特許請求の範囲】
【請求項1】
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つDNA断片を含み、前記生体試料が、無細胞DNA断片を含み、前記方法が、
分析される前記生体試料から鋳型DNA断片を得ることであって、前記鋳型DNA断片が、無細胞DNA断片を含む、得ることと、
前記鋳型DNA断片を使用して分析可能なDNA分子の配列決定用ライブラリを調製することであって、分析可能なDNA分子の前記配列決定用ライブラリの前記調製が、前記鋳型DNA断片のDNA増幅のステップを含まない、調製することと、
分析可能なDNA分子の前記配列決定用ライブラリを配列決定して、複数の配列リードを得ることと、
コンピュータシステムで前記複数の配列リードを受信することと、
前記コンピュータシステムによって前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記コンピュータシステムによって前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記コンピュータシステムによって前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きい、方法。
【請求項2】
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つDNA断片を含み、前記生体試料が、無細胞DNA断片を含み、前記方法が、
分析される前記生体試料から鋳型DNA断片を得ることであって、前記鋳型DNA断片が、無細胞DNA断片を含む、得ることと、
前記鋳型DNA断片を使用して分析可能なDNA分子の配列決定用ライブラリを調製することであって、前記鋳型DNA断片からの前記配列決定用ライブラリの重複率が、5%未満である、調製することと、
分析可能なDNA分子の前記配列決定用ライブラリを配列決定して、複数の配列リードを得ることと、
コンピュータシステムで前記複数の配列リードを受信することと、
前記コンピュータシステムによって前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記コンピュータシステムによって前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記コンピュータシステムによって前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きい、方法。
【請求項3】
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第1のセットのそれぞれについて、
第1のアライメント手順を使用して前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記第1のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第2のアライメント手順を使用して、前記配列リードが前記候補座位とアラインするかどうかを判定することと、
前記第2のアライメント手順を使用して前記配列リードが前記候補座位と再アラインする場合、前記第2のアライメント手順での再アライメントのマッピングクオリティを判定することと、
前記マッピングクオリティをクオリティ閾値と比較することと、
前記マッピングクオリティの前記クオリティ閾値との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記マッピングクオリティが前記クオリティ閾値よりも低い場合に、前記マッピングクオリティが前記クオリティ閾値より高い場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項1または請求項2に記載の方法。
【請求項4】
前記重複率が、2%未満である、請求項2に記載の方法。
【請求項5】
前記配列決定用ライブラリ中の分析可能なDNA分子の数が、ライブラリ調製前に前記生体試料中に元来存在していた鋳型DNA断片の数よりも少ない、請求項4に記載の方法。
【請求項6】
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つDNA断片を含み、前記生体試料が、無細胞DNA断片を含み、前記方法が、コンピュータシステムによって、
前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記生体試料中の複数のDNA断片のそれぞれについて、1つ以上の配列リードを受信することと、
第1のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を実施することを含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きく、
潜在的に体細胞変異を有するものとして特定された候補座位の第1のセットのそれぞれについて、
前記第1のアライメント手順を使用して前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記第1のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第2のアライメント手順を使用して、前記配列リードが前記候補座位にアラインするかどうかを判定することと、
前記マッピングクオリティをクオリティ閾値と比較することと、
前記マッピングクオリティの前記クオリティ閾値との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記マッピングクオリティが前記クオリティ閾値よりも低い場合に、前記マッピングクオリティが前記クオリティ閾値より高い場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
【請求項7】
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記配列変異体を有するDNA断片の第1の群と野生型アレルを有するDNA断片の第2の群との間のサイズ差を判定することと、
前記サイズ差をサイズ閾値と比較することと、
前記比較に基づいて、潜在的変異としての前記候補座位を廃棄するかどうかを判定することであって、前記サイズ差が前記サイズ閾値よりも低い場合に、前記サイズ差が前記サイズ閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、前記ヒト対象において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項1、2、または6のいずれかに記載の方法。
【請求項8】
前記サイズ差が、前記DNA断片の第1の群及び前記DNA断片の第2の群のサイズ中央値の差である、請求項7に記載の方法。
【請求項9】
前記サイズ差が、前記第1の群と前記第2の群との間のサイズの累積度数における最大値である、請求項7に記載の方法。
【請求項10】
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つDNA断片を含み、前記生体試料が、無細胞DNA断片を含み、前記方法が、コンピュータシステムによって、
前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記生体試料中の複数のDNA断片のそれぞれについて、1つ以上の配列リードを受信することと、
第1のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を実施することを含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きく、
潜在的に体細胞変異を有するものとして特定された候補座位の第1のセットのそれぞれについて、
前記配列変異体を有するDNA断片の第1の群と野生型アレルを有するDNA断片の第2の群との間のサイズ差を判定することと、
前記サイズ差をサイズ閾値と比較することと、
前記サイズ差が前記サイズ閾値よりも小さい場合に、潜在的変異としての前記候補座位を廃棄することと、
前記残った候補座位を使用して、前記ヒト対象において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
【請求項11】
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
癌に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することと、
潜在的に体細胞変異を有するものとして特定された候補座位の第2の第1のセットのそれぞれについて、
前記候補座位が、前記領域の群のうちの1つにあるかどうかを判定することと、
前記候補座位が前記領域の群のうちの1つにあるかどうかに基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記候補座位が前記領域の群のうちの1つにない場合に、前記候補座位が前記領域の群のうちの1つにある場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項1、2、6、または10のいずれか1項に記載の方法。
【請求項12】
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つDNA断片を含み、前記生体試料が、無細胞DNA断片を含み、前記方法が、コンピュータシステムによって、
前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記生体試料中の複数のDNA断片のそれぞれについて、1つ以上の配列リードを受信することと、
第1のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を実施することを含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きく、
癌に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することと、
潜在的に体細胞変異を有するものとして特定された候補座位の第1のセットのそれぞれについて、
前記候補座位が、前記領域の群のうちの1つにあるかどうかを判定することと、
前記候補座位が前記領域の群のうちの1つにあるかどうかに基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記候補座位が前記領域の群のうちの1つにない場合に、前記候補座位が前記領域の群のうちの1つにある場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
【請求項13】
前記フィルタリングされた座位のセットにおけるある量の座位を使用して前記ヒト対象における変異負荷を判定することをさらに含む、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項14】
前記変異負荷が、体細胞変異の未処理数、塩基の数当たりの体細胞変異の密度、体細胞変異を有するものとして特定されたゲノム領域の座位の割合、特定量の試料において認められた体細胞変異の数、または参照負荷と比較した増加として判定される、請求項13に記載の方法。
【請求項15】
前記変異負荷を癌閾値と比較して、癌のレベルを判定することをさらに含む、請求項13に記載の方法。
【請求項16】
前記癌のレベルが腫瘍を示し、
前記参照ヒトゲノムの第1の複数のセグメントのそれぞれについてヒストン修飾の第1の量を判定することと、
前記参照ヒトゲノムの第2の複数のセグメントのそれぞれについて前記フィルタリングされた座位のセットの第2の量を判定することと、
ヒストン修飾の前記第1の量が第1の閾値を上回り、かつ前記フィルタリングされた座位のセットの前記第2の量が第2の閾値を上回る、セグメントの第1のセットを判定することと、
セグメントの前記第1のセットに基づいて、前記腫瘍の起源の組織を特定することと、をさらに含む、請求項15に記載の方法。
【請求項17】
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記配列変異体を有する配列リードの分率を判定することと、
前記分率を分率閾値と比較することと、
前記比較に基づいて、潜在的変異としての前記候補座位を廃棄するかどうかを判定することであって、前記分率が前記分率閾値よりも低い場合に、前記分率が前記分率閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、前記ヒト対象において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項18】
前記分率閾値が、20%である、請求項17に記載の方法。
【請求項19】
前記分率閾値が、30%である、請求項17に記載の方法。
【請求項20】
前記生体試料中の腫瘍DNAの分率濃度を測定することをさらに含み、前記分率閾値が、前記分率濃度に基づいて判定される、請求項17に記載の方法。
【請求項21】
前記生体試料中の腫瘍DNAの分率濃度が、複数の領域のそれぞれについて測定され、候補座位に使用される前記分率閾値が、前記候補座位が存在する前記領域について測定された前記分率濃度に依存する、請求項20に記載の方法。
【請求項22】
コピー数異常を有する1つ以上の異常領域を特定することをさらに含み、異常領域における候補座位に使用される前記分率閾値が、前記異常領域がコピー数増加またはコピー数減少のいずれを呈するかに依存する、請求項17に記載の方法。
【請求項23】
コピー数異常を有する1つ以上の異常領域を特定することと、
前記フィルタリングされた座位のセットのそれぞれについて生得的ゲノムと比較した、配列変異体を有する配列リードの数を判定するために、配列リードを廃棄するかどうかを判定することの一部として、コピー数増加を呈する第1の異常領域からの第1の配列リードが、コピー数減少を呈する第2の異常領域からの第2の配列リードよりも体細胞変異を有する可能性が高いことを特定することと、をさらに含む、請求項17に記載の方法。
【請求項24】
前記1つ以上の異常領域が、
潜在的に体細胞変異を有するものとして特定された候補座位の前記第2のセットのそれぞれについて、
前記生得的ゲノムと比較した、配列変異体の明白な変異分率を計算することと、
複数の領域のそれぞれについて、
前記異常領域中の前記候補座位の明白な変異分率における分散を判定することと、
前記分散を分散閾値と比較することと、によって特定され、コピー数増加を呈する異常領域が、前記閾値より大きい分散を有する、請求項23に記載の方法。
【請求項25】
前記配列決定が、メチル化を意識した配列決定であり、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
1つ以上の部位における対応する分析可能なDNA分子のメチル化状態を判定することと、
前記メチル化状態に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記メチル化状態がメチル化されていない場合に、前記メチル化状態がメチル化されている場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項26】
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記配列リードの端部がアライメントする位置に対応する終結位置を判定することと、
前記終結位置を複数の癌特異的または癌関連末端位置と比較することと、
前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記終結位置が癌特異的または癌関連末端位置でない場合に、前記終結位置が癌特異的または癌関連末端位置である場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項27】
前記配列決定が、各鋳型DNA分子について2つのストランドリードをもたらす後続の配列ステップを提供する一本鎖配列決定用ライブラリ調製プロセスを使用して実施され、前記ヒト対象の何らかの組織において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位にアライメントする各ストランドリード対について、
両方のストランドが前記配列変異体を有するかどうかを判定することと、
両方のストランドが前記配列変異体を有するかどうかに基づいて、前記配列リードを廃棄するかどうかを判定することであって、両方のストランドが前記配列変異体を有しない場合に、単一のストランドリードが前記配列変異体を有する場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項28】
前記ヒト対象に対応する前記生得的ゲノムが、ヒト対象の指定の集団における参照ゲノムである、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項29】
腫瘍細胞または癌に関連付けられる細胞に由来する無細胞DNA断片が、前記生体試料中の前記無細胞DNA断片のうちの50%未満を構成する、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項30】
前記生体試料が、血漿または血清を含む、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項31】
前記アライメントされた配列リードが、前記参照ヒトゲノムのうちの少なくとも5%を構成する、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項32】
前記アライメントされた配列リードが、前記参照ヒトゲノムのうちの少なくとも10%を構成する、請求項31に記載の方法。
【請求項33】
少なくとも25xのシーケンシング深度が使用される、請求項1、2、6、10、または12のいずれか1項に記載の方法。
【請求項34】
前記シーケンシング深度が、少なくとも50xである、請求項33に記載の方法。
【請求項35】
前記シーケンシング深度が、少なくとも100xである、請求項34に記載の方法。
【請求項36】
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞DNA断片を含み、前記方法が、
分析される前記生体試料から鋳型DNA断片を得ることであって、前記鋳型DNA断片が、無細胞DNA断片を含む、得ることと、
前記鋳型DNA断片を使用して分析可能なDNA分子の配列決定用ライブラリを調製することであって、分析可能なDNA分子の前記配列決定用ライブラリの前記調製が、前記鋳型DNA断片のDNA増幅のステップを含まない、調製することと、
分析可能なDNA分子の前記配列決定用ライブラリを配列決定して、複数の配列リードを得ることと、
コンピュータシステムで前記複数の配列リードを受信することと、
前記コンピュータシステムによって前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記コンピュータシステムによって前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記コンピュータシステムによって前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きい、方法。
【請求項37】
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞DNA断片を含み、前記方法が、
分析される前記生体試料から鋳型DNA断片を得ることであって、前記鋳型DNA断片が、無細胞DNA断片を含む、得ることと、
前記鋳型DNA断片を使用して分析可能なDNA分子の配列決定用ライブラリを調製することであって、前記鋳型DNA断片からの前記配列決定用ライブラリの重複率が、5%未満である、調製することと、
分析可能なDNA分子の前記配列決定用ライブラリを配列決定して、複数の配列リードを得ることと、
コンピュータシステムで前記複数の配列リードを受信することと、
前記コンピュータシステムによって前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
コンピュータシステムによって、前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記コンピュータシステムによって前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きい、方法。
【請求項38】
前記胎児においてデノボ変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第1のセットのそれぞれについて、
第1のアライメント手順を使用して前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記第1のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第2のアライメント手順を使用して、前記配列リードが前記候補座位にアラインするかどうかを判定することと、
前記第2のアライメント手順を使用して前記配列リードが前記候補座位と再アラインする場合、前記第2のアライメント手順での再アライメントのマッピングクオリティを判定することと、
前記マッピングクオリティをクオリティ閾値と比較することと、
前記マッピングクオリティの前記クオリティ閾値との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記マッピングクオリティが前記クオリティ閾値よりも低い場合に、前記マッピングクオリティが前記クオリティ閾値より高い場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項36または37に記載の方法。
【請求項39】
前記重複率が、2%未満である、請求項37に記載の方法。
【請求項40】
前記配列決定用ライブラリ中の分析可能なDNA分子の数が、鋳型DNA断片の数よりも少ない、請求項39に記載の方法。
【請求項41】
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞DNA断片を含み、前記方法が、コンピュータシステムによって、
前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記生体試料中の複数のDNA断片のそれぞれについて、1つ以上の配列リードを受信することと、
第1のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きく、
潜在的にデノボ変異を有するものとして特定された候補座位の第1のセットのそれぞれについて、
前記第1のアライメント手順を使用して前記候補座位にアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記第1のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第2のアライメント手順を使用して、前記配列リードが前記候補座位にアラインするかどうかを判定することと、
前記マッピングクオリティをクオリティ閾値と比較することと、
前記マッピングクオリティの前記クオリティ閾値との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記マッピングクオリティが前記クオリティ閾値よりも低い場合に、前記マッピングクオリティが前記クオリティ閾値より高い場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
【請求項42】
前記胎児においてデノボ変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記配列変異体を有するDNA断片の第1の群と野生型アレルを有するDNA断片の第2の群との間のサイズ差を判定することと、
前記サイズ差をサイズ閾値と比較することと、
前記比較に基づいて、潜在的変異としての前記候補座位を廃棄するかどうかを判定することであって、前記サイズ差が前記サイズ閾値よりも低い場合に、前記サイズ差が前記サイズ閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項36、37、または41のいずれか1項に記載の方法。
【請求項43】
前記サイズ差が、前記DNA断片の第1の群及び前記DNA断片の第2の群のサイズ中央値の差である、請求項42に記載の方法。
【請求項44】
前記サイズ差が、前記第1の群と前記第2の群との間のサイズの累積度数における最大値である、請求項42に記載の方法。
【請求項45】
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞DNA断片を含み、前記方法が、コンピュータシステムによって、
前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記生体試料中の複数のDNA断片のそれぞれについて、1つ以上の配列リードを受信することと、
第1のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きく、
潜在的にデノボ変異を有するものとして特定された候補座位の第1のセットのそれぞれについて、
前記配列変異体を有するDNA断片の第1の群と野生型アレルを有するDNA断片の第2の群との間のサイズ差を判定することと、
前記サイズ差をサイズ閾値と比較することと、
前記サイズ差が前記サイズ閾値よりも小さい場合に、潜在的変異としての前記候補座位を廃棄することと、
前記残った候補座位を使用して、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
【請求項46】
前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
癌に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することと、
潜在的にデノボ変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位が、前記領域の群のうちの1つにあるかどうかを判定することと、
前記候補座位が前記領域の群のうちの1つにあるかどうかに基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記候補座位が前記領域の群のうちの1つにない場合に、前記候補座位が前記領域の群のうちの1つにある場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項36、37、41、または45のいずれか1項に記載の方法。
【請求項47】
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞DNA断片を含み、前記方法が、コンピュータシステムによって、
前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記生体試料中の複数のDNA断片のそれぞれについて、1つ以上の配列リードを受信することと、
第1のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が1より大きく、
胎児組織に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することと、
潜在的にデノボ変異を有するものとして特定された候補座位の第1のセットのそれぞれについて、
前記候補座位が、前記領域の群のうちの1つにあるかどうかを判定することと、
前記候補座位が前記領域の群のうちの1つにあるかどうかに基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記候補座位が前記領域の群のうちの1つにない場合に、前記候補座位が前記領域の群のうちの1つにある場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
【請求項48】
前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記配列変異体を有する配列リードの分率を判定することと、
前記分率を分率閾値と比較することと、
前記比較に基づいて、潜在的変異としての前記候補座位を廃棄するかどうかを判定することであって、前記分率が前記分率閾値よりも低い場合に、前記分率が前記分率閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項36、37、41、45、または47のいずれか1項に記載の方法。
【請求項49】
前記分率閾値が、20%である、請求項48に記載の方法。
【請求項50】
前記分率閾値が、30%である、請求項48に記載の方法。
【請求項51】
前記生体試料中の胎児DNAの分率濃度を測定することをさらに含み、前記分率閾値が、前記分率濃度に基づいて判定される、請求項48に記載の方法。
【請求項52】
前記生体試料中の胎児DNAの前記分率濃度が、複数の領域のそれぞれについて測定され、候補座位に使用される前記分率閾値が、前記候補座位が存在する前記領域について測定された前記分率濃度に依存する、請求項51に記載の方法。
【請求項53】
コピー数異常を有する1つ以上の異常領域を特定することをさらに含み、異常領域における候補座位に使用される前記分率閾値が、前記異常領域がコピー数増加またはコピー数減少のいずれを呈するかに依存する、請求項48に記載の方法。
【請求項54】
前記胎児においてコピー数異常を有する1つ以上の異常領域を特定することと、
前記フィルタリングされた座位のセットのそれぞれについて生得的ゲノムと比較した、配列変異体を有する配列リードの数を判定するために、配列リードを廃棄するかどうかを判定することの一部として、コピー数増加を呈する第1の異常領域からの第1の配列リードが、コピー数減少を呈する第2の異常領域からの第2の配列リードよりもデノボ変異を有する可能性が高いことを特定することと、をさらに含む、請求項48に記載の方法。
【請求項55】
前記1つ以上の異常領域が、
潜在的にデノボ変異を有するものとして特定された候補座位の前記第2のセットのそれぞれについて、
前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体の明白な変異分率を計算することと、
複数の領域のそれぞれについて、
前記異常領域中の前記候補座位の前記明白な変異分率における分散を判定することと、
前記分散を分散閾値と比較することと、によって特定され、コピー数増加を呈する異常領域が、前記閾値より大きい分散を有する、請求項54に記載の方法。
【請求項56】
前記配列決定が、メチル化を意識した配列決定であり、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位にアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
1つ以上の部位における対応する分析可能なDNA分子のメチル化状態を判定することと、
前記メチル化状態に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記メチル化状態がメチル化されていない場合に、前記メチル化状態がメチル化されている場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項36、37、41、45、または47のいずれか1項に記載の方法。
【請求項57】
前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位にアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記配列リードの端部がアライメントする位置に対応する終結位置を判定することと、
前記終結位置を複数の癌特異的または癌関連末端位置と比較することと、
前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記終結位置が癌特異的または癌関連末端位置でない場合に、前記終結位置が癌特異的または癌関連末端位置である場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項36、37、41、45、または47のいずれか1項に記載の方法。
【請求項58】
前記配列決定が、各鋳型DNA分子について2つのストランドリードをもたらす後続の配列ステップを提供する一本鎖配列決定用ライブラリ調製プロセスを使用して実施され、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位にアライメントする各ストランドリード対について、
両方のストランドが前記配列変異体を有するかどうかを判定することと、
両方のストランドが前記配列変異体を有するかどうかに基づいて、前記配列リードを廃棄するかどうかを判定することであって、両方のストランドが前記配列変異体を有しない場合に、単一のストランドリードが前記配列変異体を有する場合よりも、前記ストランドリードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項36、37、41、45、または47のいずれか1項に記載の方法。
【請求項59】
前記胎児に由来する無細胞DNA断片が、前記生体試料中の無細胞DNA断片の50%未満を構成する、請求項36、37、41、45、または47のいずれか1項に記載の方法。
【請求項60】
前記生体試料が、血漿または血清を含む、請求項36、37、41、45、または47のいずれか1項に記載の方法。
【請求項61】
前記アライメントされた配列リードが、前記参照ゲノムのうちの少なくとも5%を構成する、請求項36、37、41、45、または47のいずれか1項に記載の方法。
【請求項62】
前記アライメントされた配列リードが、前記参照ゲノムのうちの少なくとも10%を構成する、請求項61に記載の方法。
【請求項63】
少なくとも25xのシーケンシング深度が使用される、請求項36、37、41、45、または47のいずれか1項に記載の方法。
【請求項64】
前記シーケンシング深度が、少なくとも50xである、請求項63に記載の方法。
【請求項65】
前記シーケンシング深度が、少なくとも100xである、請求項64に記載の方法。
【請求項66】
請求項1、2、6、10、12、36、37、41、45、または47のいずれかに記載の動作を実施するコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を含むコンピュータ製品。
【請求項67】
請求項66に記載のコンピュータ製品と、
前記コンピュータ可読媒体上に格納された命令を実行するための1つ以上のプロセッサと、を備える、システム。
【請求項68】
請求項1、2、6、10、12、36、37、41、45、または47のいずれかに記載の方法を実施するための手段を備える、システム。
【請求項69】
請求項1、2、6、10、12、36、37、41、45、または47のいずれかに記載の方法を実施するように構成された、システム。
【請求項70】
請求項1、2、6、10、12、36、37、41、45、または47のいずれかに記載の方法のいずれかのステップをそれぞれ実施するモジュールを備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2015年2月10日に出願された「Detecting Cancer」と題される米国仮特許出願第62/114,471号、及び2015年12月22日に出願された「Detecting De Novo Mutations」と題される米国仮特許出願第62/271,196号の利益を主張し、かつこれらのPCT出願であり、これらの内容全体は、あらゆる目的において参照により本明細書に組み込まれている。
【0002】
本出願はまた、2013年3月13日に出願されたLo等の「Mutational Analysis Of Plasma DNA For Cancer Detection」と題される、自己の米国特許出願公開第2014/0100121号(代理人整理番号80015-012010US)、及び2013年9月20日に出願されたLo等の「Non-Invasive Determination Of Methylome Of Fetus Or Tumor From Plasma」と題されるPCT出願公開第WO2014/043763号(代理人整理番号80015-013010PC)に関し、これらの開示は、あらゆる目的において参照により本明細書に組み込まれている。
【背景技術】
【0003】
腫瘍由来DNAが、癌患者の無細胞血漿/血清中に存在することが示されてきた(Chen et al.Nat Med 1996;2:1033-1035)。ほとんどの現行方法は、癌に関連付けられることが既知である変異の直接分析に基づいている(Diehl et al.Proc Natl Acad Sci USA 2005;102:16368-16373、Forshew et al.Sci Transl Med 2012;4:136ra68)。しかしながら、分析する所定の変異のパネルのそのような直接分析は、例えば、血漿DNAの分析による癌のためのスクリーニングにおいて低い精度を有してきた。
【0004】
さらに、所定の変異のパネルを使用するそのような直接分析は、腫瘍の体質への限定された見方を提供する。したがって、腫瘍上の配列決定を実施するために、通常、外科生検を行って、腫瘍についての遺伝情報を得る。外科手術の要件は、リスク及びコストを増加させる。加えて、腫瘍の位置を探すために、外科生検を実施する前に高価なスキャニング技術が必要とされる。
【0005】
したがって、癌のための広範なスクリーニング、検出、または評価を、とりわけ非侵襲的に実施するための新規の技術を提供することが望ましい。
【発明の概要】
【0006】
実施形態は、癌患者、及び癌についてスクリーニングされている対象の血漿(または無細胞DNAを含有する他の試料)における体細胞変異の正確な検出に関する。これらの分子マーカーの検出は、癌患者のスクリーニング、検出、監視、管理、及び予後診断において有用となるであろう。例えば、特定された体細胞変異から変異負荷を判定することができ、変異負荷を使用して、任意のまたは様々なタイプの癌をスクリーニングすることができ、対象の腫瘍または癌の可能性についての先行知識は必要とされないことが可能である。実施形態は、癌のための療法(例えば、標的療法、免疫療法、ゲノム編集、外科手術、化学療法、栓塞治療法、抗血管新生療法)の使用を導くために有用であり得る。実施形態はまた、胎児に由来する無細胞DNAを有する母体試料を分析することによって、胎児におけるデノボ変異を特定することを対象とする。
【0007】
他の実施形態は、本明細書に記載される方法に関連付けられるシステム及びコンピュータ可読媒体を対象とする。
【0008】
以下の発明を実施するための形態及び添付の図面を参照することで、本発明の実施形態の性質及び利点についてのより良好な理解を得ることができる。
【図面の簡単な説明】
【0009】
【
図1】上位28個の、癌において最も一般的に特定される変異の表100を示す。
【
図2】異なる腫瘍DNA分率、シーケンシング深度、ゲノム当たりの変異の数、及び探索されるゲノムの分率について、検出される変異の予期される数を示す表200である。
【
図3】PCR複製からの配列リードの割合とシーケンシング深度との間の関係を示すプロット300である。
【
図4A】本発明の実施形態に従い、様々な腫瘍DNA分率での癌対象の血漿中における癌関連変異を検出する、PCR及びPCRフリープロトコルで必要とされるシーケンシング深度の間の比較を示す。
【
図4B】本発明の実施形態に従い、様々な腫瘍DNA分率での癌対象の血漿中における癌関連変異を検出する、PCR及びPCRフリープロトコルで必要とされるシーケンシング深度の間の比較を示す。
【
図5】本発明の実施形態に従い、HCC症例において特異的であるか、妊娠女性において特異的であるか、または両方の症例において共有される高頻度の終結位置の数を示すベン図である。
【
図6】HCC患者における1-Mbセグメントの増加、減少、または無変化を示すプロット600である。
【
図7】本発明の実施形態に従い、ダイナミックカットオフ、再アライメント、及び変異分率を使用するフィルタリングプロセス700、ならびに腫瘍生検から特定された変異について得られたデータを示す。
【
図8】野生型アレルを有するものとして特定された血漿DNA断片と比較した、HCC患者において変異アレルを有するものとして特定された血漿DNA断片のサイズのプロット800を示す。
【
図9】本発明の実施形態に従い、ダイナミックカットオフ、再アライメント、及び変異分率を使用するフィルタリングプロセス900、ならびに隣接する正常肝生検から特定された変異について得られたデータを示す。
【
図10A】隣接正常肝生検から特定された203個の推定変異を担持する血漿DNA断片の評価されたサイズプロファイルと、他の情報価値のない血漿DNA分子のサイズとの比較を示す。
【
図10B】隣接正常肝生検から特定された203個の推定変異を担持する血漿DNA断片の評価されたサイズプロファイルと、他の情報価値のない血漿DNA分子のサイズとの比較を示す。
【
図11】本発明の実施形態に従い、フィルタリングプロセス1100(ダイナミックカットオフ、再アライメント、変異分率、及びサイズを使用する)、ならびに血漿から特定された変異について得られたデータを示す。
【
図12】本発明の実施形態に従い、フィルタリングプロセス1200、及びより低い変異分率カットオフを使用して血漿から特定された変異について得られたデータを示す。
【
図13】本発明の実施形態に従い、フィルタリングプロセス1300(ダイナミックカットオフ、再アライメント、及びサイズを使用する)、ならびに血漿から特定された変異について得られたデータを示す。
【
図14】血漿を使用して野生型アレルを有するものとして特定された血漿DNA断片と比較した、変異アレルを有するものとして特定された血漿DNA断片のサイズのプロット1400を示す。
【
図15】本発明の実施形態に従い、フィルタリングプロセス1500、及び増加したシーケンシング深度を使用して血漿から特定された変異について得られたデータを示す。
【
図16】変異分率の様々な値を有する座位の数(密度)を示すプロット1600である。
【
図17A】染色体アーム1p及び1qに及び分布のためのzスコアを示す。
【
図17B】染色体アーム1p及び1qに及び明白な変異分率を示す。
【
図18】本発明の実施形態に従い、特定のアレルのカウントカットオフについて、様々な変異分率及びシーケンシング深度における変異検出の予期される感度を示す表である。
【
図19】本発明の実施形態に従い、0.1%の偽陽性検出率での特定のアレルのカウントカットオフについて、様々な変異分率及びシーケンシング深度における変異検出の予期される感度を示す表1900である。
【
図20】本発明の実施形態に従い、フィルタリングプロセス2000、及びより緩やかなダイナミックカットオフを使用して血漿から特定された変異について得られたデータを示す。
【
図21】胎児及び癌シナリオにおける推定変異の数の分布を示すプロット2100である。
【
図22】再アライメントを使用した場合の胎児及び癌シナリオにおける推定変異の数の分布を示すプロット2200である。
【
図23】本発明の実施形態に従う再アライメントを伴わない場合のPPV及び回収率を示す表2300である。
【
図24】本発明の実施形態に従う再アライメントを伴う場合のPPV及び回収率を示す表2400である。
【
図25】本発明の実施形態に従い、フィルタリングプロセス2500(ダイナミックカットオフ、再アライメント、変異分率、及びサイズを使用する)、ならびに臍帯血の血漿から特定された変異について得られたデータを示す。
【
図26】本発明の実施形態に従う、プロセス2500から判定される変異DNA断片及び野生型アレルのサイズ分布のプロット2600である。
【
図27】本発明の実施形態に従い、フィルタリングプロセス2700(ダイナミックカットオフ、再アライメント、及びサイズを使用する)、ならびにHCC試料の血漿から特定された変異について得られたデータを示す。
【
図28】本発明の実施形態に従う、プロセス2700から判定される変異DNA断片及び野生型アレルのサイズ分布のプロット2800である。
【
図29】本発明の実施形態に従い、臍帯血の血漿から特定された変異について、SNPベースのフィルタリングを使用するフィルタリングプロセス2900である。
【
図30】本発明の実施形態に従い、HCC血漿から特定された変異について、SNPベースのフィルタリングを使用するフィルタリングプロセス3000である。
【
図31】ヒストン修飾を有する組織の相関を示す表3100である。
【
図32】個々のSNP部位で測定された胎児分率の頻度分布を示す。
【
図33A】胎児特異的DNA及び母体血漿中の共有DNAのサイズ分布を示す。
【
図33B】胎児特異的DNA断片及び共有DNA断片の血漿DNAサイズにおける累積度数のプロットを示す。
【
図33C】ΔFとして示される累積度数の差異を示す。
【
図34A】変異アレルを有する血漿DNA断片のサイズ分布を示す。
【
図34B】変異アレル及び野生型アレルの血漿DNAサイズにおける累積度数のプロットを示す。
【
図34C】ΔFとして示される累積度数の差異を示す。
【
図35】本発明の実施形態に従い、フィルタリングプロセス3300(ダイナミックカットオフ、再アライメント、及び変異分率、及びサイズカットオフを使用する)、ならびに血漿から特定されたデノボ変異について得られたデータを示す。
【
図36A】野生型アレルと比較した、段階Aのフィルタリング基準を使用して血漿中で特定された推定変異を有するDNA断片のサイズプロファイルを示す。
【
図36B】段階Bのフィルタリング基準を使用して血漿中で特定された推定変異を有するDNA断片のサイズプロファイルを示す。
【
図36C】段階Cのフィルタリング基準を使用して血漿中で特定された推定変異を有するDNA断片のサイズプロファイルを示す。
【
図36D】段階Dのフィルタリング基準を使用して血漿中で特定された推定変異を有するDNA断片のサイズプロファイルを示す。
【
図37】フィルタリング基準の異なる段階、すなわちA、B、C、及びDを使用して特定された推定変異に対応するΔF値のプロファイルを示す。
【
図38】母体血漿試料及び臍帯血中の様々な変異タイプの頻度カウントを示す。
【
図39A】本発明の実施形態に従う、異なるサイズフィルターにおけるPPV%及び回収率のグラフを示す。
【
図39B】は、異なる変異分率カットオフにおけるPPV%及び回収率のグラフを示す。
【
図40A】異なる変異分率カットオフでの様々なサイズフィルターにおけるPPV%及び回収率のグラフを示す。
【
図40B】異なる変異分率カットオフでの様々なサイズフィルターにおけるPPV%及び回収率のグラフを示す。
【
図40C】異なる変異分率カットオフでの様々なサイズフィルターにおけるPPV%及び回収率のグラフを示す。
【
図40D】異なる変異分率カットオフでの様々なサイズフィルターにおけるPPV%及び回収率のグラフを示す。
【
図41】サイズカットオフの関数として異なる変異分率カットオフでの回収率及びPPV%の曲線を示すプロットである。
【
図44】47個のデノボ変異及び3,000個の推定体細胞変異の検出における回収率及びPPVを示す。
【
図45A】可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。
【
図45B】可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。
【
図45C】可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。
【
図46A】可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。
【
図46B】可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。
【
図46C】可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。
【
図47】本発明の実施形態に従う、ヒト対象の生体試料を分析することによってヒト対象における体細胞変異を特定するための方法4700を示すフローチャートである。
【
図48】本発明の実施形態に従う、特定された体細胞変異を使用して、対象の生体試料を分析する方法4800を示すフローチャートである。
【
図49】本発明の実施形態に従う、胎児を懐胎する女性対象の生体試料を分析することによって胎児のデノボ変異を特定するための方法4900を示すフローチャートである。
【
図50】本発明の実施形態に従うシステム及び方法と共に使用可能な、例示的なコンピュータシステム10のブロック図である。用語
【0010】
「生体試料」という用語は、ある対象(例えば、ヒト、癌を有する人物、癌を有する疑いがある人物、癌のためにスクリーニングされる人物、妊娠女性、または他の有機体)から取得される任意の試料を指す。生体試料には、無細胞DNAが含まれ得、そのいくつかは健常細胞に起源を持ち、いくつかは腫瘍細胞に起源を持ち得る。無細胞DNAは、血液もしくはその構成成分(例えば、血漿もしくは血小板)、もしくはその誘導体(例えば、血清)、または他の体液、例えば、尿、尿生殖路からの他の体液、汗、胸水、腹水、腹膜液、唾液、涙、乳頭分泌、脳脊髄液、眼内液、羊水、及び子宮灌流液中に見出すことができる。非体液の例は、下痢性の体液と混合され得る大便試料である。かかる試料のいくつかについて、生体試料は、非侵襲的に得ることができる。いくつかの実施形態では、生体試料は、生得的試料として使用することができる。
【0011】
本明細書で使用される場合、「座位(locus)」またはその複数形「座位(loci)」は、異なる個体のゲノムにわたる変動、またはある個体中の異なる細胞(例えば、腫瘍細胞と健常細胞との間)にわたる変動を有し得る任意の長さのヌクレオチド(または塩基対)の位置またはアドレスである。
【0012】
本明細書で使用される場合、「ランダム配列決定」という用語は、配列決定手順の前に、配列決定される核酸断片が具体的に特定または既定されていない配列決定を指す。特定の遺伝子座位を標的とするための配列特異的プライマーは必要とされない。一実施形態では、断片の端部にアダプターを付加し、配列決定のためのプライマーをアダプターに結合させる。よって、任意の断片を同じプライマーで配列決定することができ、よって、配列決定はランダムであり得る。ランダム配列決定を使用して大規模並列配列決定(massively parallel sequencing)を実施してもよい。
【0013】
本明細書で使用される場合、「配列タグ」(配列リードとも称される)という用語は、核酸分子の任意の部分またはその全てから配列決定されたヌクレオチドの列を指す。例えば、配列決定されたタグは、核酸断片から配列決定されたヌクレオチドの短い列(例えば、約30個)、核酸断片の両端のヌクレオチドの短い列、または生体試料中に存在する核酸断片の全体の配列決定であってもよい。核酸断片は、より大きい核酸分子の任意の一部である。断片(例えば、遺伝子)は、より大きい核酸分子の他の部分と別個に(すなわち、接続していない)存在し得る。
【0014】
「配列変異体」(変異体とも称される)は、有機体の生得的ゲノムまたは親ゲノムであり得る参照ゲノムとの差異に対応する。配列変異体は、一塩基変異体(SNV)及び2つ以上のヌクレオチドが関与する変異体を含む。SNVの例としては、一塩基多型(SNP)及び点変異が挙げられる。例として、変異は、「デノボ変異」(例えば、胎児の生得的ゲノムにおける新規の変異)または「体細胞変異」(例えば、腫瘍中の変異)であり得る。野生型アレルは、生得的ゲノム中の有れるに対応吸する野生型アレルに対応する。生得的ゲノムは、対象がその座位において異型接合である場合、2つの野生型アレルを含有し得る。野生型配列変異体は、生得的ゲノム中の特定の位置における配列に対応する。生得的ゲノムは、対象がその座位において異型接合である場合、2つの野生型配列変異体を含有し得る。
【0015】
「体細胞変異」は、出生後に発生する、組織または細胞における変異を指す。有機体は、DNA複製におけるエラーに起因して、または発癌物質もしくは他の環境要因への曝露の結果として、経時的により多くの変異を蓄積する。典型的に、ヒトは、細胞分裂ごとに、細胞当たり1つの変異を獲得する。しかし、個別的には、これらは非クローン性であるため、かかる変異は組織中で非常に低い濃度で存在する。しかしながら、腫瘍関連変異は、クローン性に増幅し、腫瘍組織中でより高い分率濃度で存在する。癌における異なる変異の分率濃度は、腫瘍異質性に起因して異なり得る。これは、腫瘍が、典型的には、多くの異なるクローンからなり、各クローンが、それらの独自の変異プロファイルを有することを意味する。
【0016】
「癌関連変化」または「癌特異的変化」は、癌由来変異(一塩基変異、ヌクレオチドの欠失または挿入、遺伝子または染色体セグメントの欠失、転座、反転を含む)、遺伝子、遺伝子セグメント、または染色体セグメントの増幅、ウイルス関連配列(例えば、ウイルスエピソーム及びウイルス挿入)、異常メチル化プロファイルまたは腫瘍特異的メチル化シグネチャ、異常無細胞DNAサイズプロファイル、異常ヒストン修飾マーク及び他のエピジェネティックな修飾、ならびに癌関連または癌特異的である無細胞DNA断片の端部の位置を含むが、これらに限定されない。
【0017】
「情報価値のある癌DNA断片」は、癌関連または癌特異的な変化または変異のうちの任意の1つ以上を保持または担持するDNA断片に対応する。「情報価値のある胎児DNA断片」は、両親のゲノムのいずれにも見出されない変異を担持する胎児DNA断片に対応する。「情報価値のあるDNA断片」は、DNA断片の上記のタイプのいずれかを指し得る。
【0018】
「シーケンシング深度」という用語は、座位が、座位にアラインされた配列リードによってカバーされる回数を指す。座位は、ヌクレオチドの小ささ、または染色体アームの大きさ、またはゲノム全体の大きさであってもよい。シーケンシング深度は、50x、100x等と表され、「x」は、座位が配列リードでカバーされる回数を指す。配列リードはまた、複数の座位またはゲノム全体に適用され得、その場合、xは、座位またはゲノム全体がそれぞれ配列決定される平均回数を指す。ウルトラディープ配列決定は、少なくとも100xのシーケンシング深度を指し得る。
【0019】
「シーケンシング幅」という用語は、特定の参照ゲノム(例えば、ヒト)またはゲノムの部分のどの分率が分析されたかを指す。分率の分母はリピートマスクされたゲノムであってもよく、よって、100%は、全ての参照ゲノムからマスクされた部分を減算したものに相当する。ゲノムの任意の部分をマスクすることができ、よって、分析において、参照ゲノムの任意の特定の部分に焦点を当てることができる。広範な配列決定は、例えば、参照ゲノムのその部分にアラインする配列リードを特定することによって、少なくとも0.1%のゲノム分析することを指し得る。
【0020】
「網羅的配列決定」は、試料、例えば血漿中のほぼ全ての実質的に分析可能な臨床関連または生物学的関連核酸断片から分子情報を得ることを指す。試料調製ステップ、配列決定用ライブラリ調製ステップ、配列決定、塩基割当、及びアライメントにおける制限によって、試料中の血漿核分子(例えば、DNAまたはRNA)の全てが分析可能または配列決定可能ではない。
【0021】
「分析可能なDNA分子」は、全ての分析ステップを順調に通過し、配列決定を含む任意の好適な手段によって分析及び検出される任意のDNA分子を指す。「配列決定可能なDNA分子」は、全ての分析ステップを順調に通過し、生物情報学的に配列決定及び検出される任意のDNA分子を指す。よって、網羅的配列決定は、有限血漿試料中のできるだけ多くの臨床関連または生物学的関連DNA分子(例えば、情報価値のあるDNA断片)を配列決定可能な分子に形質転換する能力を最大化するために行われる手順を指し得る。かかる手順を使用して配列決定可能なDNA分子の配列決定用ライブラリを作製した後に、ライブラリの全てまたは一部を配列決定することができる。有限試料から配列決定可能なDNA分子を実際に完全に消費して配列情報を得た場合、これを「全鋳型配列決定」と称することができ、これは網羅的配列決定の範囲の1つに相当する。
【0022】
試料の「変異負荷」は、測定された変異の数に基づく測定値である。変異負荷は、変異の未処理数、塩基の数当たりの変異の密度、変異を有するものとして特定されたゲノム領域の座位の割合、特定量(例えば、体積)の試料において認められた変異の数、及び参照データまたは前回の評価と比較した比例増加または倍数増加等の様々な手法で判定することができる。「変異負荷評価」は、試料の変異負荷の測定を指す。
【0023】
スクリーニング試験の「陽性的中率(PPV)」は、試験によって特定された真陽性(TP)の数を指し、これは、試験によって分類された真陽性及び偽陽性(FP)の和に対する割合、例えば、TP/(TP+FP)として表される。「陰性的中率(NPV)」は、試験によって特定された真陰性(TN)の数を指し、これは、試験によって分類された真陰性及び偽陰性(FN)の和に対する割合、例えば、TN/(TN+FN)として表される。
【0024】
「生得的ゲノム」(CGとも称される)は、ゲノム内の座位にあるコンセンサスヌクレオチドで構成され、よって、コンセンサス配列と考えられ得る。CGは、対象(例えば、ヒトゲノム)の全ゲノムをカバーしてもよく、またはゲノムの一部のみをカバーしてもよい。生得的ゲノム(CG)は、細胞のDNAならびに無細胞DNA(例えば、血漿中で見出されるように)から得ることができる。理想的には、コンセンサスヌクレオチドは、座位が1つのアレルについて同型接合であるか、または2つのアレルについて異型接合であることを示すべきである。異型接合座位は、典型的には、遺伝的多型のメンバーである2つのアレルを含有する。例として、座位が異型接合であるかどうかを判定する基準は、それぞれが座位にアラインされたリードに少なくとも所定の割合(例えば、30%または40%)で出現する、2つのアレルの閾値であり得る。1つのヌクレオチドが十分な割合(例えば、70%以上)で出現する場合、座位はCGにおいて同型接合であると判定することができる。細胞分裂中に自然発生するランダム変異に起因して、1つの健常細胞のゲノムは、別の健常細胞のゲノムと異なり得るが、かかるコンセンサスが使用される場合、CGは変化し得ない。いくつかの細胞、例えば、B及びTリンパ球はそれぞれ、抗体及びT細胞受容体遺伝子を巻き込むこと等のゲノム再編成を伴うゲノムを有し得る。かかる大規模な差異は、血液中の全有核細胞集団のうちの比較的小さい集団であり、よって、かかる再編成は、血液細胞の十分な試料採取(例えば)、シーケンシング深度)による生得的ゲノムの判定に影響を及ぼすことはないであろう。口腔細胞、皮膚細胞、毛包、または様々な正常体組織の生検を含む他の細胞タイプもまた、CGの供給源として機能し得る。
【0025】
「生得的DNA」という用語は、対象が持って生まれた遺伝的体質を反映するDNAの任意の供給源を指す。ランダム変異は、細胞分裂中に発生し得る。癌関連変異とは異なり、ランダム変異のクローン性増幅は存在しない。よって、生得的DNAのコンセンサス配列から得られたCGは、対象が持って生まれた遺伝的体質を反映する。対象において、生得的DNAが得られる「生得的試料」の例としては、健常血液細胞DNA、口腔細胞DNA、毛根DNA、唾液DNA、及び皮膚擦過からのDNAが挙げられる。これらの健常細胞からのDNAは、対象のCGを規定する。細胞は、例えば、ある人物が癌を有しないことが既知である場合、または試料が癌性もしくは前悪性細胞(例えば、肝癌が疑われる場合の毛根DNA)を含有する可能性が低い組織から得られる場合等、多様な手法で健常であると特定することができる。別の例として、血漿試料は、患者が癌を有しない場合に得ることができ、判定された生得的DNAは、後続の血漿試料(例えば、1年後またはそれ以上)からの結果と比較される。別の実施形態では、腫瘍DNAの<50%を含有する単一の生体試料を使用して、生得的ゲノム及び腫瘍関連遺伝的改変を推測することができる。かかる例において、腫瘍関連一塩基変異の濃度は、CG中の異型接合SNPの各アレルのものよりも低くなる。かかる試料は、以下に記載する試料ゲノムを判定するために使用される生体試料と同じであってもよい。
【0026】
「試料ゲノム」(SGとも称される)は、ゲノム(例えば、ヒトゲノム)の位置にアラインされた配列リードのコレクションである。試料ゲノム(SG)は、コンセンサス配列ではないが、十分な数のリード(例えば、少なくとも2つもしくは3つ、またはより高いカットオフ値)にのみ出現するヌクレオチドを含む。アレルが十分な回数で出現し、CGの一部ではない(すなわち、コンセンサス配列の一部でない)場合、そのアレルは、「一塩基変異」(SNMとも称される)を示し得る。他のタイプの変異、例えば、2つ以上のヌクレオチドが関与する変異(マイクロサテライト中のタンデムリピートユニットまたはシンプルタンデムリピート多型の数に影響を及ぼすもの等)、染色体転座(染色体内または染色体間であってもよい)、及び配列反転もまた検出することができる。
【0027】
「参照ゲノム」(RGとも称される)は、生体試料及び生得的試料からの配列リードがアライン及び比較され得る、半数または倍数ゲノムを指す。半数ゲノムについて、各座位において1つのヌクレオチドのみが存在する。倍数ゲノムについて、異型接合座位が特定され得、かかる座位は2つのアレルを有し、いずれかのアレルが、座位へのアライメントへのマッチングを可能にする。
【0028】
「癌のレベル」という用語は、癌が存在するかどうか、癌の段階、腫瘍のサイズ、治療への癌の応答性、及び/または癌の重症度もしくは進行性についての他の尺度を指し得る。変異負荷を使用して、癌のレベルを判定することができる。癌がより進行している程、変異負荷はより高くなる。癌のレベルは、数または他の特徴、例えば文字もしくは他のシンボルであってもよい。レベルは、ゼロであってもよい。癌のレベルはまた、変異または変異の数に関連付けられる前悪性または前癌性の病態(状態)を含む。癌のレベルは、様々な手法で使用することができる。例えば、スクリーニングにより、癌を有することが今まで既知ではなかったある人物において癌が存在するかどうかを確認することができる。評価により、癌と診断されたある人物を調べることができる。検出とは、「スクリーニング」を意味し得、あるいは癌を示唆する特徴(例えば、症状または他の陽性試験)を有するか、もしくは癌の危険因子(例えば、喫煙もしくはアルコール摂取等の習慣、またはウイルス感染、例えば肝炎ウイルス感染の既往歴)を有するある人物が、癌を有するかどうかを確認することを意味し得る。
【0029】
本明細書で使用される場合、「分類」という用語は、ある試料のある特定の特性に関連付けられる任意の数(複数可)または他の特徴(複数可)を指す。例えば、「+」記号(または「陽性」という単語)は、試料が特定のレベルの癌を有するものとして分類されることを示し得る。分類は、二元性(例えば、陽性または陰性)であってもよく、またはより多くのレベルの分類(例えば、1~10もしくは0~1のスケール)を有してもよい。「カットオフ」及び「閾値」という用語は、ある捜査において使用される所定の数を指す。閾値は、それを超えるか、またはそれ未満であると特定の分類が適用される値であり得る。カットオフは、試料またはその人物の特徴に関連して、または関連せずに既定され得る。例えば、カットオフは、試験される個体の年齢または性別に基づいて選択され得る。カットオフは、試験データの出力後に、それに基づいて選択され得る。例えば、試料の配列決定が特定の深度に達したときに、特定のカットオフを使用する場合がある。
【発明を実施するための形態】
【0030】
(例えば、癌に起因する、または胎児における)有機体の生体試料における変異の特定は、配列決定エラー及び他の障害の蔓延によって妨害される。実施形態は、有機体の無細胞DNA分子(断片)を分析することによって有機体における変異を正確に特定するための技巧を提供する。非侵襲的に得られた試料の胎児分析において、胎児の無細胞DNA分子は、妊娠女性の無細胞DNA分子も含有する母体試料(例えば、母体血漿)におけるものである。特定の配列決定技巧(例えば、PCRフリー配列決定用ライブラリの調製)及び特定のフィルタリング基準を使用することで、有意な数の真性の変異(偽陽性に対して)を特定することができるか、または検出される真性の変異の割合が実質的に向上する。
【0031】
十分なシーケンシング深度及びシーケンシング幅が使用される場合、対象の変異負荷の正確な測定を判定することができ、それにより、対象における癌のレベルの評価が可能になる。以下に、癌の検出、監視、及び予後診断のためのDNAに基づく腫瘍マーカー(例えば、血漿中)の要件について、理論基礎及び実践的実施が記載される。
【0032】
I. 癌のための変異マーカー
個体において癌が存在するか、または存在する可能性が高いことを特定するための明確な変異マーカーまたは他のマーカーを有する癌は多くない。かかるマーカーが存在する場合であっても、特定の癌に固有である既知のマーカーは概して少ない。よって、かかる変異マーカーが高濃度では存在しない血漿または無細胞DNAを有する他のかかる試料において癌を検出することは困難であり得る。1つの例外は、上咽頭癌(NPC)患者におけるエプスタインバーウイルス(EBV)DNAである。故に、中国でのほとんどのNPC症例において、EBV DNAは、NPC腫瘍細胞の核中に発見され得る(Tsang et al.Chin J Cancer 2014;33:549-555)。さらに、EBV DNAは、NPC患者の血漿中に発見され得る(Lo et al.Cancer Res 1999;59:1188-1191)。
【0033】
この例は、特定のタイプの癌のスクリーニングをするためのパネルの点変異を使用して癌のためのスクリーニングをするのに十分なデータを得ることの困難性を示すために使用される。この例はさらに、癌スクリーニングの感度に達するために血漿中で多くの変異を検出する必要性を示す。
【0034】
A.NPC患者におけるEBV DNA
NPCは、EBV感染に密接に関連付けられる。中国南部において、EBVゲノムは、ほとんど全てのNPC患者においてその腫瘍組織中で発見され得る。NPC組織に由来する血漿EBV DNAは、NPCのための腫瘍マーカーとして開発されてきた(Lo et al.Cancer Res 1999;59:1188-1191)。この腫瘍マーカーは、NPCの監視(Lo et al.Cancer Res 1999; 59: 5452-5455)及び予後診断(Lo et al.Cancer Res 2000;60:6878-6881)に有用であることが示されてきた。リアルタイムPCRを使用した血漿EBV DNA分析は、無症候性の対象における早期NPCの検出に有用であり、潜在的にNPCのスクリーニングに有用であり得ることが示されてきた(Chan et al.Cancer 2013;119:1838-1844)。この先行研究において、血漿EBV DNA分析に使用されたリアルタイムPCRアッセイは、EBVゲノムのBamHI-W断片を標的とした。各EBVゲノム中には、約6~12個のBamHI-W断片が存在し、各NPC腫瘍細胞中には、およそ50個のEBVゲノムが存在する(Longnecker et al.Fields Virology,5th Edition,Chapter 61「Epstein-Barr virus」、Tierney et al.J Virol.2011;85:12362-12375)。言い換えると、各NPC腫瘍中に、PCR標的の約300~600個(例えば、約500個)のコピーが存在することになる。腫瘍細胞ごとの標的の多さは、血漿EBV DNAが早期NPCの検出においてそれほど敏感である理由を説明し得る。
【0035】
B.EBV DNAのための標的配列決定
上記の例に示されるように、血漿EBV DNAのリアルタイムPCR分析の高感度は、各NPC腫瘍ゲノム中のPCR標的の複数のコピーの存在に関連している。したがって、癌患者の血漿中での検出を図る腫瘍関連標的の数のさらなる増加は、血漿DNA分析の感度及び臨床有用性をさらに増加させるであろうと推論する。NPC患者の血漿中のEBV DNA分子は、主に、180bp未満の短い断片である(Chan et al.Cancer Res 2003;63:2028-2032)。EBVゲノムのサイズがおよそ172kbであるため、各EBVゲノムは、およそ1,000個の血漿DNA断片に断片化されることになる。よって、NPC腫瘍細胞中の50個のEBVゲノムは、約50,000個の血漿DNA断片に断片化され、NPC患者の循環中に放出されることになる。
【0036】
これらの50,000個の腫瘍由来EBV DNA断片のうちのより多くを標的とすればするほど、達成可能なEBV関連癌の検出の感度がより高くなると推論する。分析における使用のためのEBVゲノムのうちの5%、10%、20%、25%、30%、40%、50%、75%、90%、または99%を検出することができる。ヒトゲノムから生物情報学的に識別可能なEBVゲノムの一部を標的とすることを目指すことができる。
【0037】
血漿中のEBVゲノム標的の高い重複性の検出によってもたらされる検出の高感度は、治癒目的の放射線療法を受ける患者における疾患再発の検出において、特に重要である。治癒目的の放射線療法を受ける患者における再発性NPCの検出率は、治療未経験のNPCの検出率に劣る(Leung et al.Clin Cancer Res 2003;9:3431-3134)。BamHI-W断片を標的とするリアルタイムEBV DNA PCRを使用した、癌の2つの群における全検出率は、それぞれ、62.5%及び96.4%であった。かかる高検出率は、あらゆるスクリーニング技巧における高い重複性の必要性を示す。高度に相関する標的におけるかかる高い重複性は、典型的には、他の癌では利用可能ではない。
【0038】
血漿中のEBVゲノム標的の高い重複性(または後に記載される推測される変異)の検出は、前者の群における検出率を増加させることが予期される。このアプローチの別の有用性は、NPCのスクリーニングにある。スクリーニングにおいて、早期癌を検出可能であることが特に重要である。高感度の血漿EBV DNA検出システムは、この目的を可能にすることができる。後に説明されるように、実施形態は、所定の変異マーカーまたは他の分子マーカーの使用を必要とせずに高感度検出を提供し得る。
【0039】
II.癌のためのスクリーニング
癌のためのスクリーニングにおける問題は、患者がどのような種類の癌を有するか、または罹らせるかについて既知でない場合があることである。別の問題は、個体が、1つ以上のタイプの癌の影響を受けやすい場合があることである。したがって、実施形態は、対象の生体試料から変異を特定し、そのため、所定の変異パネルのみについてスクリーニングする必要性がない。試料中の無細胞DNAからどのようにして変異を正確に特定するかについての詳細は、後の項に記載する。癌スクリーニングのプロセス及び困難性についてここに記載する。
【0040】
生体試料(例えば、血漿)中で変異が特定されると、その変異を癌スクリーニングに使用することができる。スクリーニングという用語は、一般に、何らかの形態での評価を行う主体的な動作を通した疾患の特定を指す。評価ツールには、その人物の人口学的プロファイルの評価、血液検査、他の生体液の検査(例えば、尿、腹水、胸水、脳脊髄液)、組織生検の検査、内視鏡検査(例えば、大腸内視鏡検査)、及び画像検査(例えば、磁気共鳴画像法、コンピュータ断層撮影法、超音波診断法、またはポジトロン断層撮影法を介して)の実施が含まれる。評価様式の組み合わせを使用してもよく、例えば、複数の試料を使用してもよく、最終評価を提供するために結果を組み合わせてもよい。
【0041】
A.スクリーニングの異なるステージ及び確率論的評価
疾患スクリーニングは、一般に、疾患の異なるステージ(すなわち1次、2次、及び3次スクリーニングが挙げられるがこれらに限定されない)で適用され得る。1次スクリーニングは、症状の発症前の疾患の特定を指し、時に、無症候性スクリーニングと称される。1次スクリーニングは、一般集団、またはスクリーニングされる疾患への高いリスクを与える特徴を有する選択的な集団において実施されてもよい。例えば、喫煙者は、肺の小細胞癌への高いリスクを有する。慢性HBVキャリアは、HCCへの高いリスクを有する。2次スクリーニングは、対象が症状を呈した際の疾患の特定を指し、予測診断群との間の識別を図る必要がある。3次スクリーニングは、疾患の進行、疾患ステージもしくは重症度の増加(例えば、転移の発生)、または疾患の再発の早期特定を指す。疾患スクリーニングまたは癌スクリーニングの全てのステージにおいて、後の時点では治療選択が損なわれるかまたは効果が低減し得るため、通常、疾患の自然経過として症状を呈する前に、疾患の存在または疾患進行を特定または遮断することが目的である。
【0042】
スクリーニングの行為は、確率論的評価である。一般に、スクリーニングの目的は、予測診断を除外する(すなわち、遮断する)こと、または含む(すなわち、確認する)ことである。評価は、ある人物が、疾患を発症するか、疾患を有するか、または疾患進行を有する可能性(あるいは、リスクと称される)が高いかまたは低いかを判定するためである。言い換えると、各評価の後に、対象が高いリスクを有するか、低いリスクを有するかどうかの分類が行われる。後続の評価のステージが必要とされる場合があり、繰り返し試験が実施され得る。
【0043】
B.EBV例
EBVは、スクリーニングを示す例として使用される。中年の中国南部出身の男性は、異なる人口学的プロファイルを有する人物よりもNPCを発症するリスクがより高い。次いで、血漿EBV DNA試験は、この個体の1次スクリーニングツールとして適用され得る。血漿EBV DNAが、NPCを有する個体を識別するために使用されるカットオフ未満である場合、この人物は、現時点でNPCを有する可能性は低いと見なされる(Chan et al.Cancer 2013;119:1838-1844)。この人物は、後に(例えば、1または2年後)、再び血漿EBV DNA試験を受けることを選択し得るか、またはそれが推奨される。
【0044】
血漿EBV DNA負荷が、NPCを有するものを識別するために使用されるカットオフよりも高いか、またはその人物自身の前値から進行的増加を示す場合、この人物は、NPCを有するリスクが高いと見なされ得る。この人物には、例えば、疾患を確認するための他の試験を使用して疾患をさらに含むか除外するために、次のステージの試験が推奨され得る。例えば、2~6週間後に、別の血漿EBV DNA試験を実施し、血漿EBV DNAの上昇に持続性があるかどうかを評価することができる。疑いの度合いによって、この人物には、上咽頭の目視検査のための内視鏡検査を受けることが推奨され得、これには、NPCの存在を確認するためのさらなる組織生検及び組織学的評価が伴うか、または伴わない。あるいは、画像法(例えば、磁気共鳴画像法)を実施して、腫瘍の存在または不在を視覚化してもよい。かかる例は、どのような追加の試験を実施するべきかを既定することができるスクリーニングの利益を示す。
【0045】
同じ試験を、2次及び3次スクリーニングのためのツールとして適用することができる。例証として、血漿EBV DNA試験を使用して、NPCの一般的な主症状である、反復性鼻出血(すなわち、鼻からの出血)または嗄れ声を呈する対象におけるNPCの可能性を評価することができる。試験結果が、EBV DNA負荷が、疾患を有する集団及び有しない集団を識別するために使用されるカットオフよりも高い場合、この人物は、NPCを有する可能性が高いと見なされ、それにより、より高い癌のレベルを判定することになる(Lo et al.Cancer Res 1999;59:1188-1191)。次いで、この人物は、さらなる検証的試験に差し向けられ得る。他方で、血漿EBV DNA試験が、疾患を有する集団及び有しない集団を識別するために使用されるカットオフよりも低いEBV DNA負荷を示す場合、NPCの可能性は低いと見なされ、他の予測診断が考慮され得る。
【0046】
3次スクリーニングに関して、放射線療法による治癒療法を受けるNPC対象は、NPC再発(recurrence)、換言すれば、再発(relapse)の可能性の早期特定のための血漿EBV DNA試験によって試験され得る(Lo et al.Cancer Res 1999;59:5452-5455、Lo et al.Cancer Res 2000;60:6878-6881)。血漿EBV DNAレベルが、対象自身の値の安定した治療後ベースラインを超えて、またはNPC再発を有する集団を識別するために使用されるカットオフを超えて増加した場合に、NPC再発の可能性が高いと見なされる。
【0047】
C.他のスクリーニング試験及び好ましい特徴
NPCの管理のための血漿EBV DNA試験の例は、癌または疾患スクリーニングがどのように実施されるかについての1つの例証としてのみ提供される。他の有効なスクリーニング試験または様式が他の癌のために開発されることが理想的である。現在のところ、他の癌のためのスクリーニング試験は、存在しないか、または乏しい性能プロファイルを有するかのいずれかである。例えば、血清アルファフェトプロテイン(AFP)は、HCCの評価に使用されるマーカーである。しかしながら、血清AFPは、乏しい感度及び特異性を示す。感度に関して、HCCのうちの50%未満が、AFPについて陽性である。特異性に関して、他の肝臓炎症状態が、血清AFPの上昇に関連付けられ得る。
【0048】
したがって、血清AFPは、無症候性の低リスクの個体のための1次スクリーニングツールとして一般的に使用されない。使用される場合、HCCの偽陰性及び偽陽性の特定が多く生じることになる。代わりに、これは、HCCを発症している疑いの度合いが高い、高リスクの個体に適用され得る。例えば、肝臓超音波で低エコーの影が示された慢性HBVキャリアは、血清について試験され得る。陽性の場合、HCCの予測診断をサポートする追加の証拠として機能する。加えて、HCCの確認された症例が、陽性または血清AFPの上昇を示す場合、血清AFPは、HCC再発のスクリーニングのための治療後ツールとして使用され得る。
【0049】
様々な公衆衛生構想の一部として実施されてきた癌スクリーニングツールの他の例としては、乳癌のためのマンモグラフィー、結腸直腸癌のための便潜血反応検査、前立腺癌スクリーニングのための血清前立腺特異的抗原検査、及び子宮頸癌のための子宮頸部スメア検査が挙げられる。疾患または疾患進行の早期特定が、無病生存期間の延長、高い生活の質の年数、及び疾患の管理における経済的節約等の健康上の利益に変換されることになるものと一般に理解されるため、多数のスクリーニングプログラムが実施されてきた。例えば、癌を早期段階または無症候段階で特定することができた場合、より単純な治療様式または副作用がより少ないものを適用することができる。例えば、腫瘍は、まだ外科的除去を考慮することができる段階にある場合がある。
【0050】
一般に、スクリーニングにおいて、非侵襲的であり、かつ副作用がほとんどないツールを用いることが好ましい。侵襲的様式、または合併症の高い潜在性を有するものは、検査前の疾患の可能性が、評価に際してそのようなリスクに面することを正当化するのに十分に高い個体のために確保されている。例えば、肝生検は、肝臓超音波で低エコーの影が示された慢性HBVキャリアまたは肝硬変患者等の、HCCの非常に高い度合いの疑いを有する個体に実施される。
【0051】
スクリーニング試験の性能プロファイルに関して、高い陽性的中率(PPV)または高い陰性的中率(NPV)のいずれかを有する試験を行うことが好ましい。任意の1つのスクリーニング指標についての実際の好ましい性能プロファイルは、スクリーニングの目的に依存する。高PPVの試験は、疾患分類を確認するか、「含む」ために一般的に使用される。高NPVの試験は、試験分類を遮断するか、「除外する」ために一般的に使用される。いくつかの試験は、高PPV及び高NPVの両方を有する。これらは、通常、確定分類を提供することができる試験であり、例えば、組織学的検討に続く組織生検である。
【0052】
D.スクリーニングのための腫瘍組織における癌特異的標的の特定
癌の検出のために、血漿DNA中の癌細胞のゲノムに起源を持つ任意の癌関連変異の存在を検出することを目指すことができる。上記のNPCにおけるEBV DNAの例で示されるように、血漿EBV DNA試験を使用したNPCの高い臨床感度または検出率は、NPC細胞当たり約500個、例えば300~600個の癌由来血漿DNA断片を検出する能力に関連している。試験の感度をさらに向上させるため、または1つ以上の他のスクリーニング試験を実施するためには、癌細胞当たり300個以上(例えば、400、500、600、800、または1,000個以上)の癌関連断片を検出する能力が必要であり得る。
【0053】
500個超のNPCのための癌特異的標的を有するため、ならびにこれを他の癌及び悪性腫瘍に一般化させるための1つの可能な手法は、対象に特異的な一塩基変異のセット、または1つ以上のヌクレオチドが関与する変異の分析であり得る。かかる対象に特異的な情報を特定するために、癌対象の腫瘍組織の大規模並列配列決定を実施することができる。対象の生得的DNAを、腫瘍組織における変異の特定のための参照として配列決定することができる。生得的DNAは、対象の任意の非悪性細胞、例えば、血液細胞及び口腔細胞(これらに限定されない)から得ることができる。一塩基変異に加えて、他の癌特異的または癌関連遺伝的及びエピジェネティックな変化(例えば、コピー数異常及び異常メチル化)もまた、癌検出のための標的として使用することができる。
【0054】
かかる変化は次いで、腫瘍DNA(例えば、どちらも無細胞DNAを含有する血漿または血清)を含有し得る対象の生体試料において検出され得る。一実施形態では、血漿DNA分析を通して体の変異負荷を評価することが目的である。この特定の実施形態について、対象に特異的な癌関連変化の特定のために腫瘍組織を得る必要があるため、癌特異的変異の検出を使用して治療後の対象の進行を監視することができる。癌特異的変化の検出は、アレル特異的PCR、大規模並列配列決定を使用するアンプリコン配列決定(例えば、タグ付けされたアンプリコンによるディープ配列決定(Forshew et al.Sci Transl Med 2012;4:136ra68)を使用する)、質量分析法及びマイクロアレイ分析、または本出願のいくつかの実施形態に記載されるウルトラディープ配列決定、網羅的配列決定、及び全鋳型配列決定を使用して実施することができる。
【0055】
一実施形態では、各癌特異的変化を担持する血漿DNAの量の和(変異負荷の例)を判定することができ、これは、体内の癌細胞の数を反映するために使用される。後者の情報は、予後診断、監視、及び治療への応答性の評価に有用であり得る。他の実施形態では、変異負荷は、癌特異的標的の生成物、またはその量の重量平均として判定することができる。
【0056】
いくつかの実施形態では、変異負荷は、以下に記載されるように、例えば、初期スクリーニング中に、試料中にどの変異が存在し得るかについての情報をほとんど伴わず、または伴わずに判定することができる。さらに、ある位置における変異及び野生型アレルの相対的な割合を使用して、血漿試料中の腫瘍由来DNAの分率濃度を推測することができる。
【0057】
III.癌スクリーニングのための循環無細胞DNA変異負荷評価
癌変異を特定し、個体の変異負荷を判定するために、実施形態は、循環無細胞DNAを有する試料を分析することができる。腫瘍、癌、及び悪性腫瘍は、そのDNA量を循環中に放出することが既知である(Bettegowda et al.Sci Transl Med 2014;6:224ra24)。よって、腫瘍、癌、及び悪性腫瘍に関連付けられる変異は、血漿及び血清中で検出することができる。かかる変異はまた、尿、他の尿生殖路の体液、乳頭分泌、唾液、胸水、腹水、及び脳脊髄液等(これらに限定されない)の他の生体液中で検出することができる(Togneri et al.Eur J Hum Genet 2016、doi:10.1038/ejhg.2015.281、De Mattos-Arruda et al.Nat Commun 2015、doi:10.1038/ncomms9839、Liu et al.J Clin Pathol 2013;66:1065-1069.)。
【0058】
体液と直接接触するこれらの器官から体液へ、例えば分泌器から(例えば、腎臓もしくは膀胱から)もしく生殖器から(例えば、前立腺から)尿へ、腎臓を通して血漿から尿へ、脳から脳脊髄液へ、膵臓から膵液へ、胆嚢から胆汁へ、中咽頭から唾液へ、乳細胞から乳頭分泌液へ、腹部器官から腹水へ、または肺から胸水への細胞または無細胞DNAの直接排出によって、変異はこれらの生体液中で検出することができる。加えて、これらの生体液が血漿の濾過に部分的に由来するため、変異を生体液中で検出することができる。故に、体液の部位から離れた他の器官からの腫瘍由来変異を含む、血漿中の含有量は、生体液中で検出され得る。
【0059】
血漿、血清、及び他の生体液中の無細胞核酸における変異の検出は、比較的非侵襲的に、かつ腫瘍性菌の直接的評価の代わりとして腫瘍関連の遺伝的及びゲノム的変化へのアクセスを提供するため、癌スクリーニング試験の開発のために魅力的である。加えて、腫瘍、癌、または悪性腫瘍に関連付けられる遺伝的及びゲノム的変化のほとんど全ての形態は、無細胞核酸集団において検出されてきた。癌関連変化または癌特異的変化の例は、本明細書で提供される。癌特異的とは、一般に、癌細胞に由来する変化を指し、癌関連とは、癌細胞、または前悪性病変、または解剖学的近接性、生理学的関連、発達関連、またはがんの存在への反応に起因して他の組織から由来し得ることを意味する。
【0060】
腫瘍関連遺伝的及びゲノム的プロファイル(特に、血漿及び血清無細胞核酸から判定される)への非侵襲的アクセスに起因して、スクリーニング試験として使用される場合、腫瘍関連プロファイルは、癌を「含む」または「除外する」ためにより短い間隔(例えば、数日または数週間)で、またはより長い間隔、例えば2年に1回、1年に1回、もしくは半年に1回にわたって、繰り返し測定され得る。
【0061】
血漿DNA分子は、短いDNA断片の形態で自然に存在する(Yu et al.Proc Natl Acad Sci USA 2014;111:8583-8588)。これらは、典型的には、<200bpの長さを有し、以下により詳細に議論されるように、特定の癌関連位置において断片化することができる。ヒト血漿中のDNA分子の大部分は、造血細胞に起源を持つ。ある人物が、非造血器の悪性腫瘍を発症した場合、特に早期段階において、腫瘍由来DNAは、非腫瘍由来造血DNAのバックグラウンドと混合された血漿中で、少数の分率を表す。血漿試料中の腫瘍由来DNAの量は、全DNAの割合、または癌細胞のゲノム当量または細胞当量の数として表すことができる。造血器悪性腫瘍の症例において、血漿中の悪性腫瘍関連DNAの割合は、非造血器の悪性腫瘍における場合よりも高くなることが予期され、本出願に記載される同じ実施形態を使用して検出することができる。
【0062】
本出願において、腫瘍がDNAを生体液に与える限り、生体液に任意の癌の検出に一般的に適用され得るプロトコルを記載する(Bettegowda et al.Sci Transl Med 2014;6:224ra24)。その理由は、記載される実施形態が、ある特定の癌タイプにのみ典型的であるバイオマーカーの検出に依存しないからである。癌を有する個体及び有しない個体を識別するために使用される分類スキームは、任意の癌の検出の目的のために一般的に適用され得る変異負荷評価に基づく。
【0063】
高い臨床的感度及び特異性を有する他の癌のスクリーニングのための試験を開発するためには、広範囲かつ多数の変異を検出する能力が必要とされることになるこの試験要件を正当化するいくつかの理由がある。EBVのNPCとの関連とは異なり、ほとんどの他の癌は、比較的簡単に非癌ヒトDNAと区別され得る非ヒト遺伝マーカーと関連付けられていない。したがって、非EBV関連癌のためのスクリーニング試験を開発するためには、この試験は、癌関連変化の他の多様性を検出する必要がある。
【0064】
A.試験感度要件(例えば、幅及び深度)
上記の計算に基づき、NPC検出のための血漿EBV DNA試験と同じ感度を達成するために(Chan et al.Cancer 2013;119:1838-1844)、試験は、好ましくは、循環における1つの腫瘍細胞の等量のDNA含有量の検出を達成するために、癌関連変化を保持する血漿DNAの少なくとも約500個のコピーを検出可能である必要がある。NPCデータは、臨床的感度及び特異的癌スクリーニング試験を達成するための理論を推論するためのモデルシステムとして使用される。これは、血漿EBV DNA試験の場合におけるように、1つの腫瘍関連変化の500個のコピー、もしくは500個の異なる腫瘍関連変化のそれぞれ1つのコピーのいずれか、またはその組み合わせ、すなわち<500個の変異のセットの複数のコピーを検出することによって、達成され得る。血漿DNA断片は一般的に<200bpの長さを有するため、任意の1つの癌関連変化は、情報価値のある癌DNA断片と呼ばれるかかる変化を保持する1つの血漿DNA断片の検出を要することが推測される。
【0065】
したがって、いくつかの当業者の研究者は、癌を検出するための手段として、血漿中で特定の変異を検出する試験を開発してきた。例えば、デジタルポリメラーゼ鎖反応(PCR)による上皮成長因子受容体変異の血漿検出は、非小細胞肺癌の検出のために使用されてきた(Yung et al.Clin Cancer Res 2009;15:2076-2084)。発癌遺伝子及び腫瘍抑制遺伝子等における数百個の他の癌関連変異を含むパネルが、血漿DNA評価のために開発されてきた。理論的には、これらの試験は、NPCのための血漿EBV DNA試験のものと同様に、これらの他の癌の近接性の検出のための臨床的感度を達成することができたはずである。しかしながら、実際には、そうではない。
【0066】
1.幅
現在、癌は高度に不均質であることが理解されている。変異プロファイルは、異なる器官の癌の間で大きく異なり、同じ器官のがんを有する異なる対象間で大きく異なり、または同じ対象の同じ器官のことなる腫瘍病巣間でも大きく異なる(Gerlinger et al N Engl J Med 2012;366:883-892)。したがって、任意の1つの腫瘍関連変異は、任意の癌対象の小さなサブセットにおいてのみ陽性である。例えば、Catalogue of Somatic Mutations in Cancer(COSMIC)データベースは、腫瘍組織において検出されてきた遺伝変異の範囲を記録している(cancer.sanger.ac.uk/cosmic)。
【0067】
図1は、上位28個の、癌において最も一般的に特定される変異の表100を示す。データは、任意の所与の器官の癌の最も発生率の高い変異の上位28個の和が、100%から程遠いことを示す。異なる変異が、
図1に列挙される遺伝子のそれぞれについて発生し得ることもまた、注目すべきである。したがって、腫瘍間における任意の1つの特定の変異の発生率を評価した場合、その数はとても低いものとなる。癌変異の位置が非常に変化しやすく、予測できないため、任意の1つの癌対象において500個の異なる変異を特定するには、腫瘍生検を分析することが考慮され得る。次いで、特定された変異は、後続の監視においてどのような血漿DNAアッセイが使用されるかを知らせるために使用される。しかしながら、腫瘍生検の前の評価の必要性は、1次または無症候性スクリーニングについて血漿DNA試験を適用することを妨げる。
【0068】
図1に示されるように、各腫瘍タイプの一部のみが、上位の変異のうちのいずれか1つを呈し得る。データは、腫瘍の大部分が、COSMICデータベースに列挙される上位の変異のうちのいずれか1つの特色をなさないことを示す。換言すれば、上位の変異の排他的な検出に基づいて癌スクリーニング試験を設計した場合、かかる変異の不在に起因して、多くの腫瘍が検出されないことになる。これらのデータは、本出願の実施形態によって示される多数の体細胞変異を検出する必要性が、異なる腫瘍に適用されるが、癌集団の大部分において陽性所見をもたらすことができるスクリーニング試験を実現するために重要であることを示唆する。
【0069】
よって、癌検出または1次スクリーニングのための血漿DNA試験を開発するためには、十分な変異(例えば、生得的ゲノムまたは親ゲノム等の参照ゲノムと比較した、コピー数異常及び配列変異体)、または他の癌特異的もしくは癌関連変化(例えば、メチル化変化)を収集して、癌細胞当たり500個の癌特異的血漿DNA断片の和を得るために、ゲノム内のより幅広い探索空間にわたって探索する必要がある。
図1に示されるデータに言及すると、任意の1つの腫瘍において任意の1つの明確に記録された癌関連変異が発生する可能性が1%であると仮定した場合、腫瘍当たり少なくとも500個の変異が検出されるためには、試験は、50,000個の推定変異部位の検出を標的とする必要がある(ボアソン確率分布に基づく)。任意の1つの腫瘍について少なくとも5,000個の変異または癌関連変化が表されるためには、500,000個の推定変異または癌関連変化が試験される必要がある。他方で、任意の1つの腫瘍において任意の1つの明確に記録された癌関連変異または変化が発生する可能性が0.1%である場合には、任意の1つの腫瘍について少なくとも50個の変異または変化が表されるためには、50,000個の変異または変化が試験される必要がある。
【0070】
したがって、癌スクリーニング試験の癌検出率、または臨床的感度を最大化させるために、試験は、試料中の血漿DNA断片の幅広い調査を達成することにより、任意の1つのタイプの癌関連変化または変異を保持する十分な断片を特定する必要がある。調査の幅は、全ゲノムでのアプローチ、またはゲノムの大部分をカバーする、例えば少なくとも50,000個の標的をカバーするのに十分な標的化アプローチのいずれかの使用によって達成することができる。
【0071】
2.深度
調査の深度もまた重要である。規定閾値(例えば、癌細胞の各ゲノム当量について500個の情報価値のある癌DNA断片)を達成するために、腫瘍ごとに検出された変異の数によって、その変異を保持していた複数の血漿DNA断片を検出する必要がある。例えば、1つの変異のみが特定の腫瘍において特定された場合、その変異をカバーする500個の血漿DNA断片が必要となる。他方で、腫瘍中に平均して50個の異なる変異が存在する場合、これらの50個の変異のそれぞれをカバーする少なくとも10個の情報価値のある癌DNA断片を検出することが必要となる。
【0072】
腫瘍DNAは、典型的には、血漿中の小DNA集団を表す。さらに、いくつかの癌関連変化は、本質的に異型接合である(すなわち、倍数ゲノムごとに1つの変化を有する)。よって、座位ごとに、情報価値のある癌DNA断片(すなわち、少なくとも1つの癌関連変化を担持する血漿DNA断片)の10個のコピーを検出するために、20%の腫瘍DNA分率を有する血漿試料中の座位からの少なくとも100個の分子を分析することが必要となる。故に、任意の単一変異部位をカバーする複数の血漿DNA断片を検出する能力は、血漿試料が調査される深度に依存する。しかし、血漿試料中には有限数の癌細胞ゲノムしかなく、これは、血漿DNA分析の必要とされる深度及び幅に影響を与える。
【0073】
早期癌の検出の例証について、試料における1%の腫瘍分率を検出可能な試験またはプロトコルを開発することを目的とすると仮定する。典型的に、1ミリリットルの血漿中にDNAの1,000ゲノム当量が存在することを考えると、1%の腫瘍DNA分率を有する1ミリリットルの試料中には、DNAの10細胞当量が存在することになる。これは、試料中のありとあらゆる癌特異的DNA断片を検出したとしても、検出可能な任意の1つの癌関連変異の最大10ゲノム当量しか存在しないことを意味する。したがって、特定の変異が腫瘍中に存在するという予備知識を有していたとしても、その標的検出は、最良の場合でも、10ゲノム当量のシグナルを提供するだけとなり、これは、1%分率濃度での癌のロバスト検出のための分析的感度を欠き得る。検出される変異が異型接合である場合、この変異を示す血漿DNA断片は5個のみとなる。
【0074】
1%腫瘍DNA分率での最良の場合において、変異を有する血漿DNAの10ゲノム当量を検出するためには、この変異部位での分析の深度は、少なくとも1,000回カバーされることが必要となる。この状況において、分析の幅は、変異部位ごとに検出される比較的少ない数のコピーを補うことが必要となる。少量または数百のみの変異部位の選択的検出は、早期癌を検出するためのスクリーニング試験に必要とされる感度を達成することができる見込みはない。
【0075】
3.他の問題
加えて、日常分析において、任意の1つのアッセイの検出性能は、最善の場合からは程遠い。例えば、試料処理ステップ、DNA配列決定用ライブラリ調製ステップ、及びプローブに基づく標的捕捉ハイブリダイゼーションプロセス中に、血漿DNA鋳型及び情報価値のある癌DNA断片の消失または減少があり得る。いくつかのステップは、異なる変異間、及び癌由来DNAと非癌由来DNAとの間の相対的割合におけるバイアスを持ち込み得る。例えば、標的配列決定用ライブラリ、ゲノムDNA配列決定用ライブラリ、及びアンプリコン配列決定のPCR増幅は、GCバイアスを持ち込み得、かつPCR重複を作製し得る。大規模並列DNA配列決定について、配列決定された断片の特定におけるエラーは、PCR増幅中、もしくは配列決定中、塩基割当中に生じた配列決定エラーによってもたらされるか、またはアライメントエラーに起因し得る。最後に、分析プラットフォームのシグナル検出機構は、変異の検出について確信的な陽性の読み出し(例えば、検出可能なシグナルのために5個の変異断片が必要とされ得る)が提供される前に、検出限界を有し得る。これらの全てに要因は、実践において、血漿DNA分析の幅及び深度要件が、論じられる理論的に理想的な場合よりもさらに高い必要がある場合があることを意味する。
【0076】
本質的に、ここまでの議論は、癌スクリーニング試験の感度要件が、分子分析プラットフォームが実践において達成し得るものの限界に達していることを示す。生物学的には、悪性腫瘍を宿す体細胞変異の数は、約1,000~数10,000の間であると報告されてきた(Lawrence et al.Nature 2013;499:214-218)。我々のデータに基づき、血漿試料中の腫瘍DNAの分率濃度のよって、有限血漿試料(典型的に、採血ごとに<10ミリリットルの血漿が得られる)中に、早期非侵襲的癌検出を達成するのにちょうど十分な量の情報価値のある癌DNA断片を有し得る。
【0077】
したがって、実践的に癌スクリーニング試験の感度要件に到達するためには、各血漿試料中で得られる癌情報量を最大化させることが必要となる。本出願において、癌スクリーニング試験の感度要件に達するのに必要とされる有効な幅及び深度を達成することができるプロセスを記載する。様々な実施形態において、ウルトラディープ及びブロード配列決定、網羅的、または全鋳型配列決定が実施される。PCRフリー大規模並列配列決定は、ウルトラディープ及びブロード配列決定、網羅的、または全鋳型配列決定の対費用効果を増加させるために実施され得る。ウルトラディープ及びブロード配列決定、網羅的、または全鋳型配列決定は、単分子配列決定を通して達成することができる。
【0078】
いくつかの実施形態は、多様な癌特異的または癌関連変化、例えば、癌特異的または癌関連DNAメチル化シグネチャ(例えば、5-メチシトシン(methycytosine)及びヒドロキシメチル化の位置)、癌特異的または癌関連短血漿分子、癌特異的または癌関連ヒストン修飾マーク、及び癌特異的または癌関連血漿DNA終結位置と組み合わせた一塩基変異の組み合わせ検出によって、アクセス可能な情報価値のある癌DNA断片を増加させることができる。特定の癌特異的または癌関連変化は、変異の特定におけるフィルタリング基準として使用され得る。
【0079】
B.特異性要件(例えば、フィルタリング基準)
上記のように、できるだけ多くの情報価値のある癌DNA断片を検出することが望ましい。しかし、現在の配列決定用技巧において存在するノイズ(例えば、様々な供給源からのエラー)のレベルを考慮すると、かかる情報価値のあるDNA断片を正確に検出することは難しい場合がある。
【0080】
1.特定された変異の特異性
高PPVまたは高NPVを達成するために、癌スクリーニング試験は、高特異性プロファイルを示すことが必要となる。高特異性は、数々のレベルで達成することができる。検出される変異及び任意の癌関連変化の特異性は、できるだけ癌について特異的であることが必要となる。これは、それが癌関連であるという高い確信がある場合にのみ、遺伝的またはゲノム的シグネチャを陽性としてスコアリングすることによって達成することができるが、これに限定されない。これは、他の癌ですでに報告されてきたシグネチャを含むことによって達成することができる。例えば、彼または彼女の人口学的プロファイルに基づき、個体が罹っている癌タイプにおいて発病率が高いシグネチャに特に焦点を当てることができる。あるいは、対象が曝された変異原性曝露に関連付けられる変異シグネチャに注目することができる(Alexandrov et al.Nature 2013;500:415-421)。これは、変異として誤って特定される配列決定及びアライメントエラーの数を最小化することによっても達成することができる。これは、健常な対照の群のゲノムプロファイルと比較することによって達成され得、かつ/またはその人物自身の生得的DNAと比較することによって達成され得る。
【0081】
これらの基準は、血漿DNA断片が腫瘍に由来し、したがって情報価値のある癌DNA断片と見なされる可能性を評価するためのフィルタリング基準として適用することができる。各フィルタリング基準は、個別に、独立して、均等な重み付けもしくは異なる重み付けを用いて集合的に、または指定された順序で連続的に、または前のフィルタリングステップの結果によって条件付きで使用することができる。条件付きの使用について、ベイズ理論に基づくアプローチ、ならびに分類または決定木に基づくアプローチを使用することができる。個別の使用とは、任意の1つのみの基準を意味する。独立した使用は、1つ以上のフィルタリング基準を伴い得るが、指定された順序での連続的適用とは対照的に、各フィルタリング基準は、別のフィルタリング基準の適用に依存しない(例えば、並行適用を実施することができる)。重み付けを使用する集合的使用の例として、機械学習技巧を使用することができる。例えば、教師あり学習は、既知の分類を有する試料の測定された変異負荷を使用して、任意のモデルを訓練することができる。多数の個体(例えば、数百、数千、または数百万)からの配列決定データを使用して、モデルを訓練することができる。より単純な形態においては、かかる既知の試料を使用して、フィルタリング基準から判定された1つ以上のスコアのための閾値を判定し、変異が妥当であるかどうかを判定することができる。
【0082】
一実施形態では、血漿断片が基準のうちのいくつかまたは全てを満たした場合、それが情報価値のある癌DNA断片であると見なし得、一方で、いくつかまたは全てを満たさない他のものは、情報価値のない血漿DNA断片であると見なすことができる別の実施形態では、各血漿DNA断片は、基準のリストをどれほど強く満たしているかによって、情報価値のある癌DNA断片であることの情報価値性の重み付けを付与することができる。断片が腫瘍由来であるという確信が高ければ高いほど、重み付けは高くなる。一実施形態では、重み付けは、試験対象の臨床プロファイル(例えば、性別、エスニシティ、癌についての危険因子、例えば喫煙または肝炎状態等)に基づいて調節され得る。
【0083】
DNA断片は、それが1つ以上の癌特異的変化を示す場合、情報価値性または癌特異性のより高い重みを付与され得る。例えば、多くの癌は、全体的に低メチル化されており、特に非プロモーター領域においてそうである。血漿において、癌DNAは非癌DNAよりも短いことが示されてきた。腫瘍由来血漿DNA断片は、何らかの特定の位置で断片化しやすい。したがって、癌関連終結位置に重なる一方または両方の端部を有し、一塩基変異を示し、非プロモーター領域に局在化し、低メチル化CpG部位を有する、サイズが短い(例えば、<150bp)血漿DNA断片(Jiang et al.Proc Natl Acad Sci USA 2015;112:E1317-1325)は、癌関連である可能性がより高いと見なされる。低メチル化DNAの検出は、メチル-シトシンを非メチル-シトシンから識別可能な重亜硫酸DNA変換または直接単分子配列決定の使用によって達成することができる。本出願において、情報価値のある癌断片の特定における特異性を増加させるためのプロセス、プロトコル、及びステップを記載する。例えば、1つ以上のフィルタリング基準を使用して、特異性を増加させることができる。
【0084】
2.変異負荷の特異性
別のレベルでは、癌スクリーニング試験の特異性は、癌を有する患者の血漿中で検出可能な癌関連変化の量(例えば、数)が、癌について予期されるものと同等に変異負荷を反映しているかどうかを評価することによって達成することができる。一実施形態では、例えば、変異負荷が参照ゲノムに関連して判定されるとき、血漿中の変異負荷を生得的DNA中で測定された変異負荷と比較することができる。他の実施形態では、血漿中の変異負荷を、異なる時間に対象、または既知の予後(良性もしくは悪性)もしくは癌のステージを有する癌患者、または健常な癌を有しない集団の血漿中で認められたものと比較することができる。体内または組織内の変異負荷は、癌を有すると示されていない人物であっても年齢と共に増加することが報告されてきているため、参照集団は、年齢、または性別、またはエスニシティが一致するものであってもよい(Slebos et al.Br J Cancer 2008;98:619-626)。本出願において、適切な変異負荷を捕捉して癌対象と健常集団との間の識別を向上させるために、血漿DNA分析がどれほどの幅及び深度で実施される必要があるかを記載する。よって、例えば、試料が十分な変異情報を有する場合、癌検出を達成するために、血漿試料中のDNA断片にうちの全てが検出される必要はない。
【0085】
認められた変異負荷が癌を示唆するものであるかどうかは、一実施形態では、癌特異的参照範囲に基づく。異なる器官のがんは、予期される範囲の変異負荷を宿す傾向にあることが報告されてきた。その数は、1,000~数10,000の範囲であり得る(Lawrence et al.Nature 2013;499:214-218)。よって、血漿DNA癌スクリーニング試験が、ある人物の変異負荷が任意の癌群の範囲内の数に近づいている証拠を示す場合、癌の高リスクに分類することができる(VIII項の
図44、45A~45C、及び46A~46C)。別の実施形態では、ある人物の血漿中の変異負荷が、癌を有しない健常集団から確立された参照範囲よりも著しく高い場合に、癌の分類をすることができる。
【0086】
著しく高い変異負荷の証拠は、統計分布、例えば、対照参照データの平均値から3以上の標準偏差、または対照参照データの中央値の倍数の数、または対照参照データの特定のパーセンタイル値(例えば、99パーセンタイル)、または対照参照データの平均値、中央値、もしくは99パーセンタイル超の少なくとも1もしくは2もしくは3倍に基づいてもよい。当業者であれば、統計学的に著しく増加した変異負荷を特定するための様々な統計学的手段を特定することができるであろう。別の実施形態では、分類には、測定された、または推定された、または推測された試料の腫瘍DNA分率、シーケンシング深度、シーケンシング幅、及び配列決定エラー率等の癌スクリーニング試験の感度及び特異性プロファイルに影響を与えることが示されてきた可変要素を考慮に入れることができる(VIII項の
図44、45A~45C、及び46A~46C)。
【0087】
変異負荷は、様々な手法で判定することができる。変異負荷は、検出された変異の数として表現することができる。変異の数は、例えば、配列決定されたヌクレオチドの割合または実施された配列決定の量に対して検出された変異の密度として表現される、得られた配列決定データの量に対して正規化することができる。変異の数はまた、例えば、ゲノムの割合またはゲノム内での領域ごとの密度として表現される、ヒトゲノムの大きさに対して正規化することができる。変異の数は、変異負荷評価が実施された各機会について報告するか、または経時的に統合する(例えば、前回の評価と比較した絶対変化、増減率、または比率)ことができる。変異負荷は、分析される試料の量(例えば、血漿の体積)、試料から得られたDNAの量、または分析可能もしくは配列決定可能なDNAの量に対して正規化することができる。一実施形態では、変異負荷は、試験される対象のバイオメトリックパラメータ、例えば、体重、伸長、または肥満度指数に対して正規化することができる。
【0088】
本出願において、適切な変異負荷を捕捉して癌を有する対象と癌を有しない集団との間の識別を向上させ、それにより有効な変異負荷評価を達成するために、血漿DNA分析がどれほどの幅及び深度を有する必要があるかを記載する。
【0089】
IV.ウルトラディープ及びブロード配列決定
上に詳細に説明されるように、癌スクリーニング試験または胎児性デノボ変異の有効な特定に必要とされる性能プロファイルを達成するために、ウルトラディープ及びブロード配列決定の必要性がある。本出願において、ウルトラディープ及びブロード配列決定を達成するための数々の実施形態を示す。かかる実施形態には、網羅的配列決定、全鋳型配列決定、PCRフリー配列決定、単分子配列決定(PCRフリー配列決定の1つのタイプ)、及び標的配列決定が含まれるが、これらに限定されない。必要とされる深度及び幅を達成するために、アプローチの組み合わせを使用してもよい。かかる組み合わせを、スクリーニングプログラム全体に、または特定の個体もしくは個体群をスクリーニングするために使用することができる。
【0090】
血漿DNA配列決定から癌関連変異を検出するための癌スクリーニングの目的において、配列決定エラーに起因して、シーケンシング深度は真の癌変異と偽陽性とを識別する能力に影響を与えることになる。血漿中の腫瘍DNA分率がより低い場合には、より高いシーケンシング深度が必要とされることになる(
図4B)。ダイナミックカットオフ分析(後述の項に記載される)を使用して、腫瘍DNA分率が2%である場合、200倍のシーケンシング深度は、癌関連変異の5.3%を検出することができることになる。ランダム配列決定エラーが、0.3%の頻度で生じると仮定すると、検出される変異の数は、偽陽性の予期される数よりも高くなるであろう。探索されるゲノムの部分は、腫瘍組織中の変異の予期される数に依存することになる。
【0091】
探索されるゲノムの部分は、検出される変異の十分な数が得られるのに十分な大きさでなければならない。この幅パラメータは、腫瘍DNA分率の所望の下限及びスクリーニングされる癌のタイプに依存することになる。例えば、黒色腫において、変異の出現頻度の中央値は、1Mb当たり約10である。換言すれば、ゲノム中には、およそ30,000個の変異があることになる。腫瘍DNA分率が2%であり、ゲノムの1/10が探索されると仮定すると、200xでの血漿DNA配列決定によって、およそ159個の変異が検出されることが予期される。他方で、ラブドイド腫瘍がスクリーニングされる標的である場合、変異の出現頻度の中央値は、1Mb当たり0.2のみである。よって、腫瘍DNA分率が2%であるとき、ゲノムの1/10の探索は、およそ3個の癌変異をもたらすことになる。この数は、配列決定エラーから識別するのに不十分である。
【0092】
図[
図2]異なる腫瘍DNA分率、シーケンシング深度、ゲノム当たりの変異の数、及び探索されるゲノムの分率について、検出される変異の予期される数を示す表200である。ダイナミックカットオフ分析(または他の好適なフィルタリング分析)及び0.3%の配列決定エラー率に基づく各症例について、偽陽性の予期される数は全ゲノムで<10である。したがって、検出可能な変異(例えば、深度及び幅に基づく)の数が10より大きい場合、実施形態は、真の癌変異を偽陽性から識別するために有用となるであろう。
【0093】
表200のデータ中に示されるように、分析されるゲノムの部分は、予期される腫瘍分率及び腫瘍中の体細胞変異の出現率に依存することになる。ゲノムの5%の分析では、腫瘍分率が10%、変異の出現頻度がMb当たり10、かつシーケンシング深度が200倍であるとき、変異の数は、偽陽性の数よりも遥かに高くなることになる。シミュレーション分析を使用して、ゲノムの0.1%のみが探索される場合であっても、検出される変異の数は、ランダム配列決定エラーから識別するのに十分であろうと推測した。変異の他の出現頻度及びシーケンシング深度について、より多いゲノムの部分を分析する必要があり得、例えば、配列リードを参照ゲノムにアライメントすることで、ゲノムの1%、5%、10%、及び20%を分析することができる。
【0094】
癌スクリーニングの目的において、癌関連変異の100%を特定することは必要ではない。一実施形態では、特定の個体が、血漿(または他の生体試料)中に、癌を有しない参照対照集団におけるものよりも多い、検出された変異の数を有することを示すのみでよい。しかしながら、この戦略が高度に正確であるためには、評価によって検出された変異体の大きい数が癌の存在を反映するように、変異負荷評価プロトコルによって検出される真の変異の割合ができるだけ高い必要がある(または偽陽性の割合ができるだけ低い必要がある)。これが達成できない場合、試料中で検出される推定変異の大きい数が、単に、偽陽性変異体の大きい数を反映しているだけの場合があり、故に、癌を有する対象と癌を有しないものとの識別を不可能にする。したがって、本出願の実施形態は、有効な変異負荷評価を達成するために、どのように偽陽性の検出を低減させるか、及びどのように真の変異の検出を増加させるかを記載する。
【0095】
ウルトラディープ及びブロード配列決定は、網羅的配列決定または他の手段、例えば、多重標識配列決定パネルのライト(非網羅的)配列決定によって達成することができる。ライト配列決定を使用して、必要な深度を得るためにPCR重複を最小化することができる。多重標識配列決定パネルを使用して、ゲノムにわたって幅広いカバレッジを提供することができる。
【0096】
A.網羅的配列決定及び全鋳型配列決定
癌の早期特定及び早期癌の特定のための有効な癌スクリーニング試験を開発するために、血漿試料から癌関連情報をできるだけ多く得ることが理想的である。血漿試料から癌関連情報を得る能力を妨げるいくつかの問題が存在する:(1)分析される試料が、有限体積を有すること、(2)特定の生体試料中の腫瘍分率が、早期癌においては低い場合があること、(3)検出に利用可能な腫瘍ごとの体細胞変異の総量が、およそ1,000~10,000であること、及び(4)分析ステップ及び技術的プロセスが、情報量の損失をもたらし得ること。したがって、検出に利用することができる血漿試料中のあらゆる癌関連情報量の損失を最小化するよう努力するべきである。
【0097】
試料調製ステップ、配列決定用ライブラリ調製ステップ、配列決定、塩基割当、及びアライメントにおける制限によって、試料中の血漿DNA分子の全てが分析可能または配列決定可能ではない。網羅的配列決定は、有限試料中のできるだけ多くの情報価値のあるDNA分子(例えば、変異を有するもの)を分析可能または配列決定可能な分子に形質転換する能力を最大化するために行われる手順を指す。網羅的配列決定を達成するために、いくつかのプロセスを採用することができる。
【0098】
情報価値のあるDNA集団を構成するものは、試験されるものが何かによって異なる。癌試験においては、それは、情報価値のある癌血漿DNA断片であることになる。出生前試験においては、それは、母体血漿中の胎児由来DNA分子であることになる。移植監視においては、それは、移植レシピエントの血漿中のドナー由来分子であることになる。他の疾患の検出において、それは、その病理を有する器官または組織または細胞に由来するそれらの血漿DNA分子であることになる。変異を伴う異常な生物学的プロセスの検出において、それは、そのプロセスに関与する器官または組織または細胞、例えば、老化における脳に由来するそれらの血漿DNA分子であることになる。かかる生物学的プロセスの例としては、老化、変異の遺伝的素因(例えば、色素性乾皮症)、環境からの変異原性の影響(例えば、放射能またはUV曝露)、または毒素及び薬物による影響(例えば、細胞傷害性薬物)が挙げられる。試料のタイプについては、尿試料中でのDNAの試験において、それは、腎臓を通して循環系から(例えば、血漿から)尿試料中に通過したものであり得る(Botezatu et al.Clin Chem 2000;46:1078-1084)。他の癌において、それは、尿生殖路の癌から(例えば、膀胱または腎臓から)尿試料中に通過したものであり得る。
【0099】
できるだけ網羅的であるために、以下のプロセスのうちの任意の1つ、全て、またはその組み合わせを採用することができる:(1)DNA損失を低減させるか、または高いDNAライブラリ変換効率もしくは配列決定効率を有する、DNA調製プロトコルを使用する、(2)PCRフリーDNA調製プロトコルを使用することでPCR重複の問題を回避する、(3)PCRフリーDNA調製プロトコルを使用することで配列決定エラーを低減させる、(4)有効なアライメントアルゴリズム、例えば再アライメント戦略を採用することでアライメントエラーを低減させる。これらの手段のうちのいくつかまたは全てを採用することで、血漿DNA情報量の損失の低度、ならびに配列決定用資源の浪費を低減することができ、ウルトラディープ及びブロード配列決定をより良い対費用効果で達成することができる。
【0100】
網羅的配列決定を意図するかかる手段を適用した後、癌関連シグナルまたは情報価値のある癌DNA断片の量は、非常に有効になり得、それにより試料のほんの一部からの情報が、癌を「含む」または「除外する」ための分類に達するのに既に十分であり得る。例えば、後述の例においてHCC患者からの血漿試料と臍帯血血漿試料との間の変異負荷比較に示されるように、75xの深度でのデータは、HCC症例を臍帯血血漿から明確に識別するのに既に十分であった。HCC血漿試料について220xのデータが生成された。しかし、網羅的配列決定を意図する手順を使用して検出された情報価値のある癌DNA断片の数が既に十分であり、かつ癌の陽性分類のために十分な質を有したため、75xのデータで既に十分であった。
【0101】
有限試料からの配列決定可能な血漿DNA分子を完全に消費した場合、これを「全鋳型配列決定」と称することができる。これは、網羅的配列決定の1つの範囲を指す。例えば、220xの深度に達するために、HCC症例からの全ての血漿DNAライブラリが配列決定された。
【0102】
単分子シーケンサーを使用して網羅的配列決定を実施することもできる(Cheng et al.Clin Chem 2015;61:1305-1306)。かかる単分子DNAシーケンサーの例としては、単分子リアルタイムDNA配列決定技術を使用してPacific Biosciencesによって製造されるシーケンサー(www.pacificbiosciences.com/)及びナノポアシーケンサー(例えば、Oxford Nanoporeによって製造されるもの(www.nanoporetech.com/))が挙げられるが、これらに限定されない。数々のかかる単分子配列決定用プラットフォームが、配列決定された分子から直接エピジェネティックな情報を得る(例えば、DNAメチル化パターン)ことを可能にするであろう(Ahmed et al.J Phys Chem Lett 2014;5:2601-2607)。癌についてエピジェネティックな異常が記載されてきたように、かかるエピジェネティックな情報を有することは、癌のスクリーニング、検出、及び予後診断をさらに向上させることになる。例えば、メチル化に基づくフィルタリング技巧が以下に記載される。
【0103】
エピジェネティックな情報が配列決定データから得られる別の実施形態は、鋳型DNAの重亜硫酸変換、続いてDNA配列決定を実施することである。重亜硫酸変換は、メチル化シトシンが不変のままである一方、非メチル化シトリンがウラシルに変換されるプロセスである。後者は、DNA配列決定においてT残基として示される。次いで、メチル化を意識した配列決定の一形態である重亜硫酸配列決定は、重亜硫酸変換された鋳型DNAについて配列決定用ライブラリ上で実施することができる。次いで、当業者に既知であるアプローチ、例えば、Jiang et al.(PLoS One 2014;9:e100360)による方法を使用してアライメントを実施することができる。
【0104】
無細胞DNAの配列決定が癌のために使用される場合、配列決定結果からの多くのタイプの分子情報、すなわち、血漿中のウイルスゲノム配列(ウイルス感染に関連付けられる癌の場合、例えば、NPCにおけるEBV)、腫瘍関連一塩基変異、コピー数異常、及びエピジェネティックな情報(例えば、DNAメチル化(5-メチルシトシンプロファイル及びヒドロキシメチル化を含む)、ヒストンアセチル化/メチル化変化等)を組み合わせることができる。かかる情報の組み合わせは、分析の感度、特異性、及び臨床関連性をより良くすることができる。
【0105】
B.PCRフリープロトコル
試験される対象の血漿(または、無細胞DNAを含有する他の試料タイプ)中の任意の癌関連変化の検出について、かかる変化を検出する可能性は、理論的には、分析されるDNA分子の数の増加に伴って増加するはずである。ここでは、この原理を例証するために仮想例を使用する。癌対象における血漿DNAのうちの20%が腫瘍に由来し、腫瘍が特定のヌクレオチド位置で点変異を有するものと仮定する。変異は、2つの相同染色体のうちの1つのみにおいて生じる。結果として、この特定のヌクレオチド位置をカバーする血漿DNAのうちの10%が、この変異を担持することになる。このヌクレオチド位置をカバーする1つのDNA分子を分析した場合、変異を検出する可能性は、10%となる。このヌクレオチド変化をカバーする10個の血漿DNA分子を分析した場合、変異を検出する可能性は、65.1%に増加する(可能性=1-0.910)。分析される分子の数を100個に増加させた場合、変異を検出する可能性は、99.99%まで増加することになる。
【0106】
癌患者からの血漿DNAの分析に大規模並列配列決定が使用される場合、癌関連変異の可能性を予測するためにこの数学的原理を適用することができる。しかしながら、血漿の配列決定に使用される典型的な大規模並列配列決定用プラットフォーム(例えば、TruSeqライブラリ調製キットを伴うIllumina HiSeq2000配列決定用システム)、PCR増幅は、配列決定前の鋳型DNA上で実施されることになる。
【0107】
増幅は、元の入力核酸と比較した鋳型DNAの量の増加(1倍より大きい)をもたらすプロセスを指す。本出願において、増幅プロセスは、DNA鋳型分析ステップ、例えば配列決定の前にライブラリ調製中に実施されるステップである。増幅に伴い、分析に利用可能な鋳型DNAの量は増加することになる。一実施形態では、増幅は、温度の周期的変動を伴うPCRを使用して実施することができる。別の実施形態では、増幅は、等温プロセスを使用して実施することができる。いくつかの実施形態では、増幅された鋳型DNAが、変異負荷評価を達成する効率が低下することを示す。分析ステップ中に生じるクローン増殖ステップ、例えばシーケンシング反応(sequencing-by-synthesis)中のブリッジ増幅は、余分な配列リードまたは配列出力をもたらさないため、増幅とは見なされない。
【0108】
PCRを使用する場合、シーケンシング深度(すなわち、特定のヌクレオチドをカバーする配列リードの数)は、その特定のヌクレオチドをカバーする血漿DNA分子がどれほど分析されるかを直接反映しない。これは、1つの血漿DNA分子が、PCRプロセス中に複数の複製を生成することができ、複数の配列リードは、単一の血漿DNA分子に起源を持ち得るからである。この重複問題は、i)配列決定用ライブラリを増殖させるためのより多い回数のPCRサイクル、ii)増加したシーケンシング深度、及びiii)元の血漿試料(例えば、より少ない体積の血漿)中のより小さい数のDNA分子においてより重要となる。
【0109】
加えて、DNAポリメラーゼの忠実度が100%ではないため、かつ、時に、誤ったヌクレオチドがPCR娘鎖内に組み込まれるため、PCRステップはさらなるエラーをもたらす(Kinde et al.Proc Natl Acad Sci USA 2011;108:9530-9535)。このPCRエラーが早期PCRサイクル中に発生した場合、同じエラーを示す娘分子のクローンが生成される。誤った塩基の分率濃度は、エラーが胎児由来または腫瘍由来変異であると誤解されるほど、同じ座位からの他のDNA分子間で高い割合に達し得る。
【0110】
ここで、大規模並列配列決定のためのPCRフリープロトコルの使用が、配列決定用資源のより効率的な使用を可能にし、生体試料からの情報の取得をさらに向上させることができると推論する。一実施形態では、血漿試料中の全てのDNA分子は、大規模並列配列決定分析中でPCRフリープロトコルを使用した配列決定分析において配列決定される。使用することができる1つのPCRフリープロトコルは、Berry Genomicsによって開発されたものである(investor.illumina.com/mobile.view?c=121127&v=203&d=1&id=1949110)。Illuminaによって販売されるものなどの他のPCRフリープロトコルを使用することもできる(www.illumina.com/products/truseq-dna-pcr-free-sample-prep-kits.html)。ここで、原理を例証するために例を使用する。
【0111】
例証のため、まず、全ての血漿断片が、上記のように一般的に200bp未満である血漿DNA断片と一致する、150bpのサイズであると想定する。したがって、各倍数ヒトゲノムは、4000万個の血漿DNA断片に断片化されることになる。1ミリリットルの血漿中には約1,000個の倍数ヒトゲノムがあるため、1mLの血漿中には400億個の血漿DNA断片があることになる。1mLの血漿からの400億個のDNA断片を配列決定した場合、全てのDNA分子が配列決定されることが予期される。例証のため、一回の運転につき20億個のリードを生成することができるIllumina HiSeq 2000システムを使用した場合、この量の配列決定を達成するためには20回の運転が必要となり、これはより高いスループットのプラットフォームを用いることで低減され得る。
【0112】
血漿試料中の全DNA濃度は、配列決定分析前に、例えば、デジタルPCRまたはリアルタイムPCR(これらに限定されない)を使用して判定することができる。全DNA濃度を使用して、試料中の全ての分析可能または配列決定可能なDNA分子を配列決定するために必要とされる配列決定の量を判定することができる。他の程度の網羅的配列決定を伴う他の実施形態では、血漿試料中のDNA分子のうちの20%、25%、30%、40%、50%、60%、75%、90%、95%、または99%超を配列決定することができ、これらは全て網羅的配列決定の例である。
【0113】
配列決定されるDNA分子の割合の重要な決定要因には、変異の量、試料中の腫瘍分率、及びDNAライブラリ収率が含まれる。配列決定用ライブラリ中の潜在的に配列決定可能な分子の数は、ライブラリの体積、濃度、及び変換効率に基づいて判定することができる。配列決定する必要があるDNA断片の数は、腫瘍分率の所望される検出可能限界及び腫瘍中の変異の予期される数に基づいて判定することができる。これらの2つの数字に基づいて、配列決定されるライブラリの割合を判定することができる。
【0114】
網羅的配列決定のためのPCRフリープロトコルを使用する利点は、同じ反応で配列決定される他の参照標的に対する相対量を判定するのではなく、試料中の任意の標的分子の絶対量を直接推測することができることである。これは、各配列リードが、1つの下の血漿DNA分子からの情報を表すからである。実際に、ウルトラディープ及びブロード配列決定と共にPCR増幅を使用した場合、互いに対する標的分子の量は、真の提示からさらに離れてしまうことになる。その理由は、PCR増幅によってもたらされるPCR重複の生成、ならびにいくつかのゲノム領域が他のものよりもより高度に増幅される増幅バイアスに起因する。
【0115】
配列決定用ライブラリのPCR増幅は、このステップが、配列決定ステップがより容易に実施されるように配列決定用ライブラリ中の分子の数を増加させることができるため、一般に、大規模並列配列決定のための既存のプロトコルのほとんどにおいて行われる。PCR重複(複製)は、元の鋳型DNA分子のクローン産物である。PCR重複の存在は、ウルトラディープ及びブロード配列決定の達成を妨げる。PCR複製に由来する配列リードの割合は、実施された配列決定の量(シーケンシング深度)と共に増加することになる。換言すれば、配列決定をより深く実施すると、固有の情報量の減少した結果が得られることになる。故に、多くの場合において、PCR複製の配列決定は、配列決定用資源の浪費につながる。これは、究極的には、PCRフリープロトコルと比較して同じ幅及び深度のゲノムカバレッジに達するためにはさらに多くの配列決定が必要とされることを意味する。よって、コストがさらに高くなる。実際に、いくつかの例において、PCR重複の割合は、カバレッジの好ましい幅及び深度が実践的に決して達成されないほど高い場合がある。
【0116】
これは、当業者にとって反直感的である。伝統的には、全ゲノム増幅を含むPCR増幅は、より多くの分子分析が実施されるように、有限試料からより多くの遺伝子材料を提供するために実施される。データは、かかる増幅ステップが、逆効果である可能性を示す。これは特に、血漿DNA分析において逆効果である。
【0117】
血漿DNAは、低含量のDNAを低濃度で含有することが既知であり、これはまた、無細胞DNAからなる他の試料についても同様である。よって、僅かな量のDNAの増幅を伴わずに、さらなる情報が得られるとは誰も思わないであろう。実際に、増幅に基づくライブラリ調製プロトコルでは、典型的に、4mLの血漿当たり150~200nMのアダプター結合DNAライブラリを得る。しかし、本出願の例に示されるように、アダプター結合DNAライブラリのうちの2ナノモルのみが、血漿体積の当量から得られる。そのような少量は、より多くのゲノム情報を得るための障害となるであろうことが想像でき、故に、分析の前に増幅ステップを実施するように誘惑されるであろう。かかる増幅されたライブラリは、かかるライブラリの大部分がPCR重複からなるため、顕著な問題を生み出すことになる。
【0118】
さらに、かかる増幅されたライブラリを用いると、(一定量のライブラリが、配列決定運転ごとに適用され、極端な数の運転がライブラリを消費するために必要とされるため)4mLの血漿試料からできるだけ多くの情報を得るための全鋳型配列決定を実践的に実施することができない。我々のデータに示されるように、研究したHCC及び妊娠症例のPCRフリーライブラリを完全に消費するために、約20回のIllumina配列決定運転が必要とされる。PCRまたは増幅に基づくライブラリ構築プロトコルが変わりに使用された場合、100倍の配列決定の量(約2000回の運転を意味する)が実施されることが必要となる。換言すれば、増幅されたライブラリを用いると、重複した分子が作製され、これは、配列決定用能力のかなりの部分を消費することになる。対照的に、PCRフリープロトコルからの2ナノモルのライブラリは容易に消費することができ、これは、4mL血漿試料から分析可能な情報をカバーすることと同等である。
【0119】
4mL血漿試料の妥当な割合を消費することができることは、重要である。上に提示されたいくつかの計算に例証されるように、血漿試料中の癌DNAのゲノム当量の数は、早期癌の間は低く、血漿試料中のこれらの癌ゲノム当量のできるだけ多い検出を確保する必要がある。PCRフリーライブラリ調製プロトコルを使用して血漿DNA試料のIllumina配列決定の10回の運転を実施することで、癌分類を達成することができると仮定する。これらの10回の運転は、配列決定用ライブラリの半分を消費したことになる。これは、血漿試料の半分、すなわち2mLからの分析可能な含有量を使用して癌分類を達成することと相関する。他方で、同じ試料のPCR増幅されたライブラリ上で実施された10回の運転は、(PCR増幅されたプロトコルのライブラリ収率において、一般に、100倍の増幅があるため)ライブラリの0.5%のみを消費したことと同等となる。これは、4mLの元の血漿試料のうちの0.02mLのみからの分析可能な含有量を使用することと相関し、得られたデータの量は、癌分類を達成するには不十分となる。よって、PCR増幅を用いずに生成されたより少ないDNAライブラリの使用によって、一定量の配列決定ごとにより多くの癌関連情報が得られることは反直感的である。
【0120】
当業者は、PCR複製としても既知であるPCR重複が、同一の開始及び終結ヌクレオチド座標を示す任意の配列リードを特定する生物情報学的手順を用いて除去することができることを示してきた。しかしながら、後の項で示されるように、血漿DNA断片終結位置がランダムではないことを特定し、よって、誤ったフィルタリングが生じることになる。同じ開始及び終結ヌクレオチド表を有する配列リードをフィルタリングするための生物情報学的ステップを適用せずにPCRフリープロトコルを使用して、同一の開始もしくは終結座標、またはその両方を有する配列リードを少ない割合(典型的には<5%)で特定した。この観察は、血漿DNA切断の非ランダムな性質の結果である。実施形態は、癌特異的終結位置の特定を、情報価値のある癌DNA断片を特定するためのフィルタリング基準として組み込むことができる。PCRフリープロトコルの採用は、かかる分析及びこの基準の使用を促進することになる。さらに、これは、同一の開始及び終結ヌクレオチド座標を有する配列リードを除去する既存の実践が、実際に、血漿DNA試料からの癌関連情報量の損失をもたらす利用可能な情報価値のある癌DNA断片を除去したことも意味する。
【0121】
Illumina配列決定用プラットフォームの配列決定エラー率は、配列決定されたヌクレオチドのうちの約0.1%~0.3%である(Loman et al.Nat Biotechnol 2012;30:434-439;Kitzman et al.Sci Transl Med 2012;4:137ra76)。いくつかの他の配列決定用プラットフォームについて報告されたエラー率はさらに高い。示されてきたように、0.3%の配列決定エラー率は自明ではなく、胎児性デノボ変異(Kitzman et al.Sci Transl Med 2012;4:137ra76)または血漿中の癌特異的体細胞変異の非常に高い精度での特定において研究者にとっての障害を作ってきた。このエラー率は、ウルトラディープ及びブロード配列決定において、より一層関連性を有する。200xの深度での配列決定データセットにおける0.3%のエラーは、2億個のエラーに換算される。
【0122】
かかる配列決定エラーの一部は、前配列決定DNAライブラリ調製ステップ中のPCR増幅ステップによって生成される。ライブラリ調製のためにPCRフリープロトコルを使用することにより、このタイプのエラーを低減することができる。これは、より少ない試薬がこれらの人工産物の配列決定に使用され、これらのエラーを処理するためにより少ない生物情報学的時間が費やされるため、配列決定の対費用効果をより高めることになる。加えて、真の陽性胎児性デノボ変異及び癌由来体細胞変異は、より少ない偽陽性の中で、別様にPCR増幅が関与した場合よりも少ないシーケンシング深度で、より特異的に特定することができる。実際に、これらの利点は、他の研究者には明白ではなかった(次の項を参照されたい)。
【0123】
C.配列決定用ライブラリの前置増幅を伴う、及び伴わない配列決定の結果
PCRでの配列決定用ライブラリの前置増幅を伴う、及び伴わないプロトコルにおいて血漿中の癌関連変異を検出するために必要とされる配列決定の量を比較するために、シミュレーション分析を実施した。PCR複製(すなわち、分子を1回より多く配列決定する)からの配列リードの割合を判定するために、以下の仮定を使用した:(1)1mLの血漿中には、DNA500ゲノム当量が含まれる、(2)DNAは、2mLの血漿から50%収率で抽出される、(3)抽出されたDNAのうちの40%を、配列決定用ライブラリに首尾よく変換することができる、(4)前置増幅のために10回のPCRのサイクルが実施され、PCR効率は100%である、(5)前置増幅されたライブラリ及び前置増幅されていないライブラリの断片化パターンは同一である、(6)血漿DNAの長さは、166bpである。
【0124】
図3は、PCR複製からの配列リードの割合とシーケンシング深度との間の関係を示すプロット300である。PCR複製からの配列リードの割合は、シーケンシング深度と共に増加する。200xのシーケンシング深度で、配列リードのうちの44%が、PCR複製からのものであることになる。PCR複製からのかかる配列リードは、追加の情報を提供しない。
【0125】
図4A及び4Bは、本発明の実施形態に従い、様々な腫瘍DNA分率での癌対象の血漿中における癌関連変異を検出する、PCR及びPCRフリープロトコルで必要とされるシーケンシング深度の間の比較を示す。癌対象の血漿中の癌関連変異を検出するのに必要とされる配列決定の量を判定するために、PCR複製からの予期される割合に基づいて、シミュレーション分析を実施した。シミュレーションは、1%~10%の血漿中の腫瘍DNA分率をカバーするように実施された。この対象における癌細胞のゲノム中に、30,000個の変異が存在すると仮定した。
【0126】
PCR前置増幅を伴うプロトコルは、血漿中の任意の腫瘍DNA分率での癌関連変異を検出するために、より高いシーケンシング深度を必要とする。シーケンシング深度の差異は、腫瘍DNA分率の低減に伴って指数関数的に増加することになる。10%の血漿中腫瘍DNA分率では、PCR前置増幅を伴うプロトコル及び伴わないプロトコルは、それぞれ、37x及び25xのシーケンシング深度を必要とする。しかしながら、2%の血漿中腫瘍DNA分率では、それぞれの必要とされるシーケンシング深度は、368x及び200xとなった。
【0127】
したがって、PCRフリープロトコルは、特に、血漿中腫瘍DNA分率が低い場合に、血漿中の癌関連変化の検出のために高度に有利である。血漿の腫瘍ゲノム内に存在する変異の数がより少ない場合、より高いシーケンシング深度が必要とされる。増幅を伴うプロトコルまたは伴わないプロトコルで必要とされる深度の差異は、特に血漿中腫瘍DNA分率が低い場合に、さらに大きくなる。
【0128】
D.従来の「ディープ配列決定」との違い
ウルトラディープ及びブロード配列決定を達成するための網羅的配列決定の使用を、従来の配列決定法から識別するためのいくつかの特徴がある。一態様において、「ディープ配列決定」と称される従来の配列決定アプローチのいくつかは、典型的に、例えばPCRによる目的の標的配列の増幅を伴ってきた。次いで、アンプリコンとも称される増幅されたDNAは、配列決定により複数回にわたって配列決定される。そのようなアプローチの一例は、タグ付けされたアンプリコンによるディープ配列決定(Forshew et al.Sci Transl Med 2012;4:136ra68)である。他方で、網羅的配列決定は、任意の増幅ステップを伴わないときに最も有効に実施され、これは、検出された断片の全てが、複製されたデータではなく元の断片であり、それにより広い幅及び真の深度(見かけの深度と対比して)を可能にするためである。見かけの深度とは、配列決定能力の一部が、PCR重複の配列決定によって消費され、故に、配列決定の情報収率がその深度を反映していない、増幅された配列決定用ライブラリの配列決定を指す。
【0129】
ディーブ配列決定は、典型的に、増幅ステップを使用するため、配列決定能力の一部が、PCR重複の配列決定に費される。かかるPCR重複の存在は、試料内の各鋳型DNA分子を増幅された配列決定用ライブラリのディープ配列決定によって網羅的に分析することを非常に困難にすることになる。いくつかの団体は、例えば、配列決定用ライブラリにバーコードを付けることによって(Kinde et al.Proc Natl Acad Sci USA 2011;108:9530-9535)、重複率についての情報を提供するための方法を記載してきた。例えば、Kindeらによって記載される方法において、3つのステップを実施しなければならない:(i)各鋳型分子への固有の識別(UID)の割り当て、(ii)UIDファミリーを作製するための固有にタグ付けされた各鋳型分子の増幅、及び(iii)増幅産物の重複配列決定。対照的に、網羅的配列決定のためのPCRフリーライブラリの使用は、PCR重複によってもたらされる問題を回避することになり、Kindeらによって記載される方法は必要ではなくなる。
【0130】
実際に、従来、実践されてきたディープ配列決定アプローチは、網羅的配列決定の使用によって達成することができる幅を達成することができない。例えば、アンプリコン配列決定は、典型的には、狭いゲノム領域について高い深度を達成する。多重化の使用を伴っても、カバーされるゲノムの全幅は限定され、全ゲノムからは程遠い。本出願において説明されるように、癌スクリーニング試験について、できるだけ多くの推定変異部位をカバーするために、できるだけ全ゲノムカバレッジに近いことが好ましい。例えば、極端な多重アンプリコン配列決定、例えば、それぞれが1,000個の塩基をカバーする300万個のアンプリコンを適用したとしても、PCR重複は、前述のように問題となることになる。
【0131】
同様に、研究者らは、標的配列決定と称される、選択的ゲノム領域のディープ配列決定を達成するために、ハイブリダイゼーション捕捉を適用してきた。しかしながら、この捕捉プロトコルは、典型的に、増幅ステップを伴う。標的領域のサイズが比較的小さい場合、標的配列決定が血漿DNA中で実施されると、PCR重複の大部分(約50%からさらには90%まで)(New et al.J Clin Endocrinol Metab 2014;99:E1022-1030)が達成されることになる。PCR重複のそのような高いレベルでは、配列決定の有効な深度は低減される。配列決定の幅は、標的領域のサイズによって限定される。
【0132】
これらの観察は、研究者らが、幅広さと深度を同時に有する配列決定を達成する動機を持ってこなかったことを示す。しかしながら、本出願に記載される網羅的配列決定の原理を採用することで、標的配列決定プロトコルを修正して、ヒトゲノムの大部分を捕捉する必要がありながら、PCR重複率が最小限に抑えられることを確実にし得る。例えば、PCR重複を最小限に抑えるために、光増幅を使用して、標的配列決定用ライブラリを調製してもよい。次いで、分析の幅は、複数の標的パネルからのプールデータによって達成することが必要となる。しかしながら、これらの検討事項を考慮すると、標的アプローチは、非標的網羅的配列決定アプローチよりも対費用効果が高くはない場合がある。しかし、ゲノムの大部分の標的富化が好ましい他の理由があり得る。例えば、一部分がデノボまたは体細胞変異の発生のクラスタリングを示す場合に、網羅的配列決定の試みの焦点を、ゲノムの反復または非反復領域に当てる必要性を正当化し得る。例として、試みの焦点を、ゲノムのユークロマチン領域ではなくヘテロクロマチンに当てることが好ましい場合がある。
【0133】
E.胎児分析について
血漿DNAの網羅的配列決定は、非侵襲的出生前試験において有用であり得る。胎児DNAは、妊娠女性の血漿中に存在し(Lo et al.Lancet 1997;350:485-487)、胎児の非侵襲的出生前試験(例えば、染色体異数性及び単一遺伝子疾患について)に使用することできる。
【0134】
これまで、母体血漿DNA配列決定によるデノボ胎児変異の検出は、現世代の大規模並列シーケンサーの配列決定エラー率によって妨害されてきた(Kitzman et al.Sci Transl Med 2012;4:137ra76及び米国特許出願公開第US2015/0105261A1号)。故に、従来報告されてきたアプローチを使用して、何百万個もの候補胎児デノボ変異が、母体血漿中で特定されることになるが、潜在的な偽陽性をフィルタリングするための生物情報学的ステップの組み込みにもかかわらず、これらのうちの数十個のみが真の変異である。
【0135】
しかしながら、母体血漿DNAの網羅的配列決定を使用することで、この問題を克服することができる。PCRフリーライブラリ調製プロセスを使用して、1つより多い母体血漿DNA分子中で特定された候補胎児デノボ変異は、真の変異である可能性が高くなる。他の実施形態では、母体血漿試料中で2、3、4、5回よりも多く特定された同じ変異等の、より厳しい分類基準を設定することができる。
【0136】
多くの研究者は、胎児染色体異数性を検出するための母体血漿の非侵襲的出生前試験のために、例えば、Helicosプラットフォームを使用して、単分子配列決定を使用してきた(van den Oever et al.Clin Chem 2012;58:699-706及びvan den Oever et al.Clin Chem 2013;59:705-709)。しかしながら、そのような研究は、血漿中の分子の小さい分率の配列決定を通して実施され、よって、ディープ及びブロード配列決定を達成しなかった。
【0137】
F.網羅的配列決定のさらなる適用
別の実施形態では、網羅的血漿メチローム配列決定を使用して、体内の異なる器官に由来する血漿DNA分子を特定することができる。これは、体内の異なる組織が、異なるメチル化プロファイルを有するため、可能である。逆重畳のプロセスを通して、異なる組織の血漿への相対的寄与を特定することができる(Sun et al.Proc Natl Acad Sci USA 2015;112:E5503-5512)。
【0138】
血漿DNAの網羅的配列決定の別の実施形態では、複数の生理学的または病理学的プロセスに関連付けられる血漿DNA中の変異を特定することができる。一実施形態では、かかるプロセスには、老化に関連付けられるものが含まれる。別の実施形態では、かかるプロセスには、環境要因、例えば、汚染、放射能、感染因子、有害化学物質等に関連付けられるものが含まれる。この後者の実施形態では、異なるプロセスが、それぞれの独自の変異シグネチャを有し得る(Alexandrov et al.Nature 2013;500:415-421)。
【0139】
血漿核酸の網羅的配列決定はまた、血漿中のmRNA及び非コードRNA(例えば、マイクロRNA及び長い非コードRNA)の配列決定に適用することもできる。先行データは、血漿トランスクリプトームプロファイリングが、血漿試料から逆重畳される様々な組織からの寄与を可能にすることを示してきた(Koh et al.Proc Natl Acad Sci USA 2014;111:7361-7366)。血漿の網羅的トランスクリプトーム配列決定は、かかるアプローチの強度及び有用性をさらに向上させることになる。
【0140】
V.変異を特定するためのフィルタリング基準
上のIII.B項に記載されるように、変異の特定における特異性及びかかる変異を使用する任意の試験(例えば、癌のレベルを判定するための変異負荷の使用)は、変異を有する1つ以上の配列リードがアライメントされた座位にフィルタリング基準を適用することで向上させることができる。癌についての例として、高度な特異性は、それが癌に関連付けられるという確信が高い場合にのみ、遺伝的またはゲノム的シグネチャを陽性としてスコアリングすることによって達成することができる。これは、例えば、健常対照の群のゲノムプロファイルと比較することで変異として誤って特定され得る配列決定及びアライメントエラーの数を最小化することによって達成することができ、かつ/またはその人物自身の生得的DNAと比較することによって達成することができ、かつ/またはその人物自身の以前のゲノムプロファイルと比較することによって達成することができる。
【0141】
変異を担持するDNA断片の可能性を評価するために、様々な基準をフィルタリング基準として適用することができる。上記のように、各フィルタリング基準は、個別に、独立して、均等な重み付けもしくは異なる重み付けを用いて集合的に、または指定された順序で連続的に、または前のフィルタリングステップの結果によって条件付きで使用することができる。フィルタリング基準の例は、以下に提供される。
【0142】
A.ダイナミックカットオフ
1つ以上のダイナミックカットオフフィルタリング基準を使用して、配列決定エラーに起因するヌクレオチド変化から、一塩基変異体、すなわち変異及び多型を識別することができる。文脈によって、変異は、「デノボ変異」(例えば、胎児の生得的ゲノムにおける新規変異)または「体細胞変異」(例えば、腫瘍における変異)であり得る。複数の座位のそれぞれについて、様々なパラメータ値を判定することができ、各パラメータ値は、各カットオフ値と比較される。パラメータ値がカットオフを満たさない場合、座位は、潜在的な変異を有するものとして廃棄することができる。
【0143】
癌における体細胞変異の特定について、ある人物の生得的DNA(例えば、バフィーコート)及び血漿DNAからの高深度配列決定データを比較して、血漿DNA中で異型接合である部位(AB)及び生得的DNA中で同型接合である部位(AA)を特定することができる。「A」及び「B」は、それぞれ、野生型及び変異アレルを表す。ここで、二項式及びポアソン分布モデルを使用して3つのパラメータを計算した、変異検出のためのダイナミックカットオフ戦略を行う一実施形態を示す。
【0144】
第1のパラメータに関して、生得的DNA中の同型接合部位(AA)を判定する精度は、配列決定エラーの影響を受ける。配列決定エラーは、当業者に既知の多くの方法によって推定することができる。例えば、Illumina HiSeqプラットフォームの配列決定エラー(「ε」で表される)は、0.003であると推定される。配列決定数が、二項式分布に従うものと仮定して、第1のパラメータであるスコア1を、スコア1=1-pbinom(c,D,ε)として計算した。Dは、シーケンシング深度を表し、これは、「c」及び「a」の和と等しい。「c」は、変異アレルBをカバーする配列リードの数を指す。「a」は、野生型Aアレルをカバーする配列リードの数を指す。「pbinom」は、二項式累積分布関数であり
【数1】
として表すことができ、式中、
【化1】
は、数学的組み合わせ関数、すなわち、シーケンシング深度Dから変異アレルをi回、選択する組み合わせの数を表し、これはさらに、階乗を使用して、
【数2】
として表すこともできる。スコア1の値が高ければ高いほど、実際の遺伝子型がAAであることがより確信的になる。0.01より大きいカットオフを使用することができる。このパラメータを使用して、配列決定エラーの影響を制御することができる。
【0145】
第2のパラメータに関して、SNP座位の不十分なシーケンシング深度に起因して、生得的ゲノム中で認められた野生型AA(同型接合)が、実際のAB(異型接合)遺伝子型から呼び違えられている可能性がある。このタイプのエラーの影響を最小化するために、第2のパラメータであるスコア2を、スコア2=ppois(b,D/2)として計算し、式中、「b」は、Bアレルをカバーする配列決定されたカウントの数であり、「ppois」は、ポワゾン累積分布関数であり、これは、
【数3】
として表すことができ、式中、λは、ストランドごとの平均シーケンシング深度(すなわち、D/2)であり、eは、自然対数の底(約2.717828)である。スコア2の値が低ければ低いほど、実際の遺伝子型AAであることがより確信的になる。例えば、<0.001、0,0001、10
-10等を使用することができる。このパラメータを使用して、アレルまたは変異体のドロップアウト(1つのアレルまたは変異体が増幅されなかったために同型接合部位のように見える異型接合部位を指し、よって、この欠損したアレルまたは変異体はドロップアウトした)を制御することができる。以下の特定のデータは、スコア>0.01及びスコア2<0.001のカットオフを使用し、スコア1及びスコア2を使用して、バフィーコートが同型接合であることを保証することができる。
【0146】
第3のパラメータに関して、配列決定エラーに起因して、生得的ゲノム中で認められた変異ABが、実際のAA遺伝子型から呼び違えられている可能性がある。このタイプのエラーの影響を最小化するために、第3のパラメータであるスコア3を、
【数4】
として計算し、式中、
【化2】
は、数学的組み合わせ関数、すなわち、シーケンシング深度Dから変異アレルをi回、選択する組み合わせの数を表し、これはさらに、階乗を使用して、
【数5】
として表すこともでき、「ε」は、この例においては0.003であると推定された配列決定エラー率を表す。スコア3が低ければ低いほど、実際の遺伝子型がABであることが確信的になる。例えば、<0.001、0.0001、10
-10等を使用することができる。
【0147】
スコア1及びスコア2は、生得的組織に適用することができ、スコア3は、混合物(腫瘍または血漿)に適用することができる。したがって、スコア1、スコア2、及びスコア3を調節することにより生得的組織と混合試料との共同解析を行って潜在的な変異を判定することができる。
【0148】
意図される目的によって、ダイナミックカットオフにおいて各スコアの計算のための異なる閾値を使用することができる。例えば、体細胞変異の特定において高い特異性が好ましい場合、より低い値のスコア3を使用することができる。同様に、体細胞変異のより多い総和を検出することが好ましい場合、より高い値のスコア3を使用することができる。特定された体細胞変異の特異性は、例えば、以下に記載されるような他のフィルタリングパラメータを使用することで向上させることができる。他の数学的または統計学的モデル、例えばカイ二乗分布、ガンマ分布、正規分布、及び他のタイプの混合モデルも使用することができる。同様に、プロセスは、胎児デノボ変異に適用することができる。
【0149】
B.再アライメント
1つ以上の再アライメントフィルタリング基準は、配列決定データからの配列変異体の検出における配列決定及びアライメントエラーの効果を低減することができ、したがって、変異の特定における偽陽性も低減することができる。再アライメントを使用する様々な実施形態をこれから記載する。
【0150】
初めの(第1の)アライメント手順において、例えば、当業者に利用可能な任意のアライメント技巧、例えばSOAP2によって、配列リードを、参照ゲノム(例えば、参照ヒトゲノム)にアライメント(マッピング)することができる(Li et al.Bioinformatics 2009;25:1966-7)。座位へのアライメントの後、ゲノム(例えば、参照ゲノム、対象の、もしくは対象に関連付けられる生得的ゲノム、または対象の親のゲノム)との比較を行って、リード内に配列変異体が存在するかどうか特定することができる。
【0151】
推定変異を担持する配列リードは、独立した(第2の)アライナー、例えば、Bowtie2の使用を通して参照ヒトゲノムと再アライメントする(再びマッピングする)ことができる(Langmead et al.Nat Methods 2012;9:357-9)。独立したアライナーは、それらのマッチングアルゴリズムの使用の点で、初めのアライナーとは異なるものとなる。初めのアライナー及び再アライナーによって使用されるマッチングアルゴリズムの例としては、例えば、Smith-Watermanアルゴリズム、Needleman-Wunschアルゴリズム、Hashingアルゴリズム、及びBurrows-Wheeler変換が挙げられるが、これらに限定されない。再アライメントによって、特定された変異の質または確実性を特定及び定量化することができる。独立したアライナーは、有効なアライメントを報告する閾値、挿入/欠失及びミスマッチへのペナルティ、許容されるミスマッチの数、アライメントのシードとして使用されるヌクレオチドの数等の他の方式でも初めのアライナーと異なり得る。
【0152】
いくつかの実施形態では、マッピングされたリードを精度の低い配列リードとして特定するために、以下の再アライメント基準を、単独で、または組み合わせで使用することができる:(1)変異を担持する配列リードが、独立したアライナーによって回復されず、配列リードにアライメント(マッピング)しない、(2)変異を担持する配列リードが、初めのアライメントを検証するために独立したアライナーを使用したときに、矛盾したマッピング結果を示す(例えば、マッピングされたリードが、初めのアライメント結果と比較して異なる染色体に置かれている)、(3)同じゲノム座標にアライメントされた変異を担持する配列リードが、独立したアライナーを使用した規定閾値よりも低いマッピングクオリティを呈する(例えば、マッピングクオリティ≦Q20(すなわち、誤ったアライメントの可能性<1%)、閾値の他の例は、0.5%、2%、及び5%の誤ったアライメントの可能性であり得る)、(4)配列リードが、いずれかのリード末端(すなわち、5’または3’末端)から5bp以内に位置付けられた変異を有する。配列決定エラーは、配列リードの両端で最も発生率が高かったため、この最後のフィルタリングルールが重要であり得る。マッピングクオリティは、アライナー内で定義された計量法であり、配列リードが誤ってアライメントされている可能性を明示する。異なるアライナーは、異なる計量法を使用し得る。
【0153】
変異を担持する配列リード内での精度の低い配列リードの割合がある特定の閾値(例えば、30%、35%、40%、45%、または50%)より大きい場合、候補変異部位を廃棄することができる。よって、残った配列リードが閾値よりも低い場合、座位は、少なくとも何らかの組織(例えば、腫瘍の組織または胎児の組織)において変異を有するものとして座位のセットから廃棄することができる。
【0154】
GATC(www.gatc-biotech.com)による試み及びMutectアルゴリズム(Cibulskis et al.Nat Biotechnol 2013;31:213-219)を含む先行研究において、潜在的な挿入または欠失部位のみが再アライメントされた。これらの他のスキームは、異なるアライナーからのデータを使用して配列リードのクオリティスコアを再計算しない。さらに、再計算されたクオリティスコアが、推定変異体または変異をフィルタリングする目的で使用することができることは示されてこなかった。再アライメント手順を使用する有効性を示すために、データが以下に示される。
【0155】
C.変異分率
当業者であれば、母体血漿中の胎児DNAの分率濃度または癌対象の血漿中の腫瘍DNAの分率濃度を測定するために利用可能な方法があることを理解するであろう。よって、一実施形態では、真の情報価値のあるDNA断片を特定する可能性を高めるために、別の方法で測定された分率濃度と等しいか、またはそれよりも高い分率カウントを有するアレルまたは変異体のみが、真の変異体または変異と見なされる。分率濃度カットオフは、変異分率閾値(M%)、または単に分率閾値と称される。他の実装例は、測定された分率濃度より低い閾値を使用することができるが、選択された閾値は、測定された値に依存し得る(例えば、測定された分率濃度の所定の割合)。
【0156】
別の実施形態では、測定された胎児DNA分率または腫瘍DNA分率にかかわらず、他の値を変異分率閾値として採用することができる。変異特定におけるより高い特異性が好ましい場合には、より高いM%が使用され得る。変異特定におけるより高い感度が好まれる場合には、より低いM%が使用され得る。分率閾値の例としては、5%、10%、15%、20%、25%、及び30%が挙げられる。
【0157】
さらに別の実施形態では、隣接する染色体領域内の推定変異のアレル分率における分散は、その領域からのDNA断片が情報価値のある癌DNA断片である可能性に関する情報を提供することができる。例えば、目的の隣接する染色体領域は、コピー数異常を有するものであり得る。コピー数増加を有する領域では、腫瘍由来DNAの富化が起こることになる。故に、真の体細胞変異のアレル分率は、増加を有するかかる領域において、コピー数減少を有する領域よりも高くなることが予期される(これらの後者の領域での腫瘍由来DNAの枯渇のため)。
【0158】
真の推定変異のアレル比における範囲または分散は、コピー数増加領域において、コピー数減少領域よりも大きくなる。よって、真の体細胞変異を特定する可能性を増加させるために、コピー数増加または減少を有する領域について異なるM%をフィルタリングカットオフとして設定することができる。認められた血漿変異分率における分散を明示するカットオフはまた、腫瘍由来DNAが富化されているか(コピー数増加を有する領域について)、または枯渇している(コピー数減少を有する領域について)染色体領域に起源を持つDNA分子を特定するために使用することもできる。その後に、DNA断片が情報価値のある癌DNA断片である可能性に関する判断を下すことができる。
【0159】
D.サイズフィルター
血漿DNAは一般に、<200bpの長さである断片として循環する一方、胎児由来及び腫瘍由来血漿DNA分子はそれぞれ、基礎環境の非胎児及び非腫瘍DNA分子よりも短い(Chan et al.Clin Chem 2004;50:88-92、及びJiang et al.Proc Natl Acad Sci USA 2015;112:E1317-1325)。したがって、血漿DNA断片が胎児または腫瘍由来である可能性を増加させる別の特徴として短いサイズを使用することができる。よって、いくつかの実施形態では、DNAサイズフィルタリング基準を適用することができる。
【0160】
様々なサイズ基準を使用することができる。例えば、変異アレル及び野生型アレルを担持するDNA断片のサイズ中央値の閾値差が、少なくとも塩基の特定の数であることが必要とされ、これは、ΔSと表され得る。よって、ΔS≧10bpを、サイズフィルター基準として使用することができる。他のサイズ閾値の例としては、0bp、1bp、2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、11bp、12bp、13bp、14bp、15bp、16bp、17bp、18bp、19bp、及び20bpが挙げられる。他の統計学的検定、例えばt検定、Mann-Whitney U検定、Kolmogorov-Smirnov検定等を使用することもできる。p値を、これらの統計学的検定を使用して判定し、閾値と比較して、配列変異体を担持するDNA断片が、野生型アレルを担持するものよりも著しく低いかどうかを判定することができる。p値の閾値の例としては、0.05、0.01、0.005、0.001、0.0005、及び0.0001が挙げられるが、これらに限定されない。
【0161】
したがって、一実施形態では、配列決定された血漿DNA分子のサイズ情報を得ることができる。いずれかのペアエンド配列決定を使用して行うことができ、これには全DNA分子を配列決定することが含まれる。後者について、血漿DNA分子は概して166bp未満であるため、全DNA分子の配列決定は、多くの短リード大規模並列配列決定プラットフォームを使用して容易に実施することができる。癌細胞に由来する血漿DNAは、概して短いのに対し、腫瘍周囲または非腫瘍組織に由来するものは、概して長いため(Jiang et al.Proc Natl Acad Sci 2015;112:E1317-1325)、血漿DNAのサイズ情報を有することは、癌または非癌細胞に由来する可能性があるものとして配列決定された断片の分類をさらに促進することになる。この情報は、癌のスクリーニング、検出、予後診断、及び監視をさらに促進することになる。
【0162】
さらに、母体血漿中の胎児DNAは母体DNAよりも短いため(Chan et al.Clin Chem 2004;50:88-92及びYu et al.Proc Natl Acad Sci USA 2014;111:8583-8588)、網羅的血漿DNA配列決定からの結果を解釈する際に、血漿DNAの情報を利用することもできる。故に、母体血漿中のより短い断片は、胎児由来である可能性がより高い。
【0163】
E.メチル化状態
DNAメチル化プロファイルは、異なる組織間で異なる。いくつかのメチル化シグネチャは、比較的、組織特異的である。例えば、SERPINB5のプロモーターは、胎盤において低メチル化され(Chim et al.Proc Natl Acad Sci USA 2005;102:14753-14758)、RASSF1Aのプロモーターは、胎盤において過剰メチル化されている(Chiu et al.Am J Pathol 2007;170:941-950)。RASSF1Aを含む、特定の腫瘍抑制遺伝子のプロモーターは、癌において過剰メチル化されている。しかしながら、胎盤(Lun et al.Clin Chem 2013;59:1583-1594)及び癌組織(Chan et al.Proc Natl Acad Sci 2013;110:18761-18768)は、全体的に低メチル化されていることが示され、特に非プロモーター領域においてそうである。
【0164】
母体血漿中の胎児DNAは、母体由来DNAとは異なるDNAメチル化パターンを有することが示されてきたため、DNAメチル化情報は、配列決定された分子が母体または胎児由来である可能性を予測する助けになり得る。一実施形態では、胎盤は、母体血漿中の胎児DNAの主要な供給源であり、胎盤DNAは、母体血液細胞DNAよりも低メチル化されているため(Lun et al.Clin Chem 2013;59:1583-1594)、母体血漿から配列決定された低メチル化DNA断片は、胎児由来のものである可能性が高い。同様に、一実施形態では、腫瘍DNAが、血液細胞DNAよりも低メチル化されているため(Chan et al.Proc Natl Acad Sci 2013;110:18761-18768)、癌について試験された個体の血漿から配列決定された推定(候補)変異を含有する低メチル化DNA断片は、低メチル化を有しないものよりも癌関連または癌特異的なものである可能性が高い。
【0165】
座位が変異を呈するかどうかを判定するために様々な方式でメチル化状態を使用することができる。例えば、座位が変異と見なされる前に、変異を有する座位にアライメントしたDNA断片メチル化密度の閾値量が必要とされ得る。別の例として、例えば、DNA断片ごとに1つのみのCpG部位がある場合、CpG部位の二元性スコアリングを使用することができる。CpG部位は、1つのDNA断片が、予期されるメチル化状態を有しない場合に、廃棄することができる。DNA断片を廃棄するかどうかは、他のフィルタリング基準に依存し得る。例えば、DNA断片が、十分に短い場合、DNA断片を保持してもよい。これは、様々なフィルタリング基準を、異なる重みと組み合わせて、または決定木の一部として組み合わせて使用する例である。
【0166】
血漿DNAのメチル化分析は、重亜硫酸変換、メチル化感受性制限酵素消化、またはメチル結合タンパク質処理を含むメチル化を意識したアプローチによって達成することができる。これらのメチル化を意識したプロセスの全てに、大規模並列配列決定、単分子配列決定、マイクロアレイ、デジタルPCR、またはPCR分析が続くことができる。加えて、いくつかの単分子配列決定プロトコルは、他のメチル化を意識したプロセスによる事前の処理を伴わずに、DNA分子のメチル化状態を直接読み取ることができる(Ahmed et al.J Phys Chem Lett 2014;5:2601-2607)。
【0167】
シトシンメチル化以外に、ヒドロキシメチシトシン(hydroxymethycytosine)(これに限定されない)等のDNAメチル化の他の形態がある(Udali et al.Hepatology 2015;62:496-504)。脳組織(Sherwani and Khan.Gene 2015;570:17-24)及び黒色腫(Lee et al.Lab Invest 2014;94:822-838)は、より高い割合のヒドロキシメチルシトシンを示す。
【0168】
F.血漿DNA終結位置
末端ヌクレオチドの座標または終結位置に基づく、潜在的な癌特異的または癌関連または胎児変異のフィルタリングを実施することもできる。ランダムではなく、起源となる組織に基づいて異なるDNA断片の末端位置を特定した。よって、末端位置を使用して、推定変異を有する配列リードが、実際に胎児組織または腫瘍組織に由来する可能性を判定することができる。
【0169】
近年、DNAの断片化パターンは、非ランダムであることが示されてきた(Snyder et al.Cell 2016;164:57-68及びPCT WO 2016/015058 A2)。血漿DNA断片化パターンは、血漿DNA分子の一因となる細胞のゲノムにおけるヌクレオゾームの位置付け、転写因子結合部位、DNase切断または交換受精部位、発現プロファイル(Snyder et al.Cell 2016;164:57-68及びPCT WO 2016/015058、Ivanov et al.BMC Genomics 2015;16 Suppl 13:S1)、及びDNAメチル化プロファイル(Lun et al.Clin Chem 2013;59:1583-1594)に影響される。よって、断片化パターンは、異なる組織起源の細胞について異なる。より頻度の高い断片を示すゲノム領域がある一方で、領域内の実際の血漿DNA切断部位は、なおランダムであり得る。
【0170】
異なる組織が、異なる切断部位または終結位置を有する血漿DNA断片の放出に関連付けられるという仮説を設けた。換言すれば、特定の切断部位さえも、非ランダムである。実際に、癌患者における血漿DNA分子が、癌を有しない患者とは異なる終結位置を示すことを示す。いくつかの実施形態は、かかる癌関連終結位置を有する血漿DNA分子を情報価値のある癌DNA断片として使用するか、またはかかる終結位置情報をフィルタリング基準として、例えば、1つ以上の他のフィルタリング基準と共に使用することができる。よって、かかる癌関連血漿DNA終結位置の特定によって、血漿DNA断片を情報価値のある癌DNA断片としてスコアリングするか、またはかかる断片の終結位置の性質に基づく差次的重み付けに帰することができる。かかる基準を使用して、断片が、癌、特定の器官、または特定の器官の癌に起源を持つ可能性を評価することができる。
【0171】
したがって、血漿DNA断片が情報価値のある癌DNA断片である可能性は、それが、推定変異、ならびに癌関連である終結位置を示す場合に、さらに高くなる。様々な実施形態は、かかる断片及びその長さ、またはそれら及び他のパラメータの任意の組み合わせを考慮に入れることもできる。血漿DNA断片は2つの端部を有するため、その端部の一方または両方が、癌に関連付けられるか、またはがんに関連付けられる組織タイプに由来するかを考慮して、それを癌由来断片として特定するための重み付けをさらに修正することできる。次項に記載されるように、一本鎖DNA断片が配列決定用ライブラリに変換される可能性を増加させるライブラリ調製プロセスの使用は、この後者の実施形態の効率を向上させることになる(かかるライブラリ調製プロセスの例について、Snyder et al.Cell 2016;164:57-68を参照されたい)。一実施形態では、終結位置に基づく同様のアプローチは、他の病理または生物学的プロセス(例えば、老化プロセスに起因する変異または環境変異原性要因に起因する変異)に関連付けられる検出変異のために使用することもできる。
【0172】
同様のアプローチは、胎児を抱える妊娠女性の血漿中のDNAを配列決定することで胎児のデノボ変異を特定するために使用することもできる。故に、母体血漿中のかかるDNA断片も胎盤特異的または胎盤富化終結位置を担持する場合、胎盤に特異的または比較的特異的である終結位置の特定に続いて、真のものである推定胎児デノボ変異により高い重み付けを帰することができる。血漿DNA断片は2つの端部を有するため、その端部の一方または両方が、胎盤に関連付けられるかどうかを考慮して、それを胎児由来断片として特定するための重み付けをさらに修正することできる。
【0173】
このアプローチの実行可能性を例証するために、HCC患者及び妊娠女性について血漿DNAの配列決定データを分析した。例証目的において、染色体8に分析の焦点を当てた。同じアプローチは、全ゲノムまたは任意の他の染色体または任意のゲノム領域またはそれらの組み合わせに適用することができる。
【0174】
各配列決定された血漿DNA断片の両端での末端ヌクレオチドの座標を判定した。次いで、染色体8上の各ヌクレオチドで終結する断片の数をカウントした。それらの上で終結するDNA断片を最も多い数を有する上位100万個のヌクレオチドが、HCC症例及び妊娠女性からの血漿試料のそれぞれについて判定された。
【0175】
図5は、本発明の実施形態に従い、HCC症例において特異的であるか、妊娠女性において特異的であるか、または両方の症例において共有される高頻度の終結位置の数を示すベン図である。2つの症例で共有された頻度の高い終結位置である463,228個のヌクレオチドの座標が次いで特定された。HCC症例について、共有された463,228個のヌクレオチドを上位100万個から減算して、HCC症例に特異的な頻度の高い終結位置である536,772個のヌクレオチドの座標を得て特定した。同様に、共有された463,228個のヌクレオチドを、上位100万個の妊娠症例について最も一般的な終結位置から減算して、妊娠女性に特異的な頻度の高い終結位置である536,772個のヌクレオチドの座標も得て特定した。
【0176】
536,772個のHCC特異的終結位置でちょうど終結する末端ヌクレオチドを有する血漿DNA断片は、腫瘍に由来する可能性が高くなる。対称的に、妊娠特異的終結位置または2つの症例で共有される位置でちょうど終結する末端ヌクレオチドを有する血漿DNA断片は、腫瘍に由来する可能性が低く、妊娠特異的終結位置は、潜在的に可能性がより低く、重み付けを使用する任意の実施形態で、より低い重み付けが付与される。
【0177】
したがって、HCC症例に特異的な上位の終結位置のリストを使用して、癌関連変異を選択することができ、妊娠症例に特異的であるか、両方の症例で共有される上位の終結位置を使用して、偽陽性変異をフィルタリングして除去することができる。胎児変異を特定し、非侵襲的生前試験での偽陽性変異をフィルタリングして除去するために、同様の手順を使用することができる。
【0178】
一般的に、かかる生物学的関連血漿DNA終結位置を特定するために、異なる疾患または疫学的背景または生理学的プロファイルを有する個体の群からの血漿DNA試料を、かかる疾患または背景またはプロファイルを有しない個体の別の群からの試料と比較することができる。一実施形態では、これらの試料のそれぞれは、血漿DNA断片の共通の終結位置が各試料内で特定されるように、深く配列決定することができる。別の実施形態では、相補的プロファイルを有する人物の群からの配列データは、疾患または生理学的プロファイルを表す共通の終結位置の特定のために一緒にプールすることができる。
【0179】
この分析の目的は、疾患または生物学的関連プロファイルを有する個体に共通するが、疾患または生物学的関連プロファイルを有しない個体にはない血漿DNA終結位置を特定することである。例えば、この比較は、癌を有する及び有しない個体、特定の器官または組織の癌を有する及び有しない個体、妊娠及び非妊娠個体、特定の妊娠関連または胎児疾患を有する及び有しない妊娠個体、ならびに異なる年齢の個体を伴い得る。参照試料の群において特定された後、組織特異的または疾患関連血漿DNA終結位置は、試験試料の解釈のための参照セットとなる。
【0180】
試料中の各血漿DNA断片は、個別に調べられ、終結位置に基づいて可能性スコアが割り当てられる。特定の終結位置についての可能性スコアは、対照群のための終結する配列リードの量に対する、標的個体(例えば、癌)のための終結位置で終結するある量の配列リード(例えば、配列リードの割合、または試料にわたってシーケンシング深度によって正規化された他の値)の間隔に依存し得る。より大きい間隔は、より高い特異性をもたらし、よって、より高い可能性スコアを適用することができる。したがって、特定の終結位置を有する血漿DNA断片が、疾患関連である可能性があるか否か、胎児または母体である可能性等の分類を実施することができる。
【0181】
あるいは、同じ領域に起源を持つ血漿DNA断片を集合的に解釈することができ、すなわち、特定のヌクレオチドで終結する頻度を、シーケンシング深度に対して正規化することで計算することができる。この様式で、例えば、より多くの試料を使用することもできるが、特定のタイプの1つの試料の分析のみに基づいて、特定のヌクレオチドは、ゲノム内の他の位置に対して共通の終結位置であることを特定することができる。したがって、特定の終結位置を有する血漿DNA断片が、疾患関連である可能性があるか否か、胎児または母体である可能性等の分類を実施することができる。かかる生物学的関連血漿DNA終結位置を有する血漿DNA断片の高頻度を示す座位について、かかる座位が生物学的関連DNAで富化されており、これが癌関連または胎児特異的または他の疾患もしくは生物学的プロセスに関連付けられる可能性が高い血漿DNA断片の群として含まれると判定を下すことができる。この可能性のレベルは、上記の異なる群の間での比較と同様の方式で、他のヌクレオチドに対して所与のヌクレオチドについて頻度がどれほど高いかに基づき得る。
【0182】
このアプローチの有効性を例証するために、潜在的癌関連変異をHCC患者の血漿DNA配列決定データから直接特定した。少なくとも2つの血DNA断片の配列リード中に存在した一塩基変化は、潜在的癌関連変異と見なされた。腫瘍組織もまた配列決定され、腫瘍組織中に存在した変異は、真の癌関連変異と見なされた。
【0183】
ダイナミックカットオフ分析を使用せずに、染色体8上で合計20,065個の潜在的変異がHCC患者の血漿DNA配列決定データから特定された。配列変異体が少なくとも2つの配列決定されたDNA断片中に存在した場合、配列変異体は潜在的変異と見なされることになる。884個の真の体細胞変異が腫瘍組織の配列決定結果から特定された。20,065個の推定変異は、884個の真の変異のうちの802個(91%)を含んでいた。よって、推定変異のうちの4%のみが、腫瘍組織中の真の体細胞変異であり、4%のPPVを示した。
【0184】
体細胞変異の検出の精度を向上させるため、推定変異を担持する配列リードの末端ヌクレオチド位置に基づく以下のフィルタリングアルゴリズムを使用した。(1).任意の推定変異について、変異を担持、HCC特異的終結位置で終結する少なくとも1つの配列リードがある場合、変異は、下流変異分析のために認定される。(2).推定変異を担持したが、任意の妊娠特異的終結位置または両方の症例で共有される位置で終結した配列リードは、除去されることになる。このアルゴリズムに基づくリードの除去の後に、同じ変異を示す2つ以上の配列リードがあった場合にのみ、変異は、下流変異分析のために認定される。
【0185】
上に明記される1及び2のフィルタリングアルゴリズムを適用して、表1の結果が得られた。推定変異を担持するDNA断片の末端ヌクレオチドの位置または終結位置に基づく異なるフィルタリングアルゴリズムを適用する効果。
【表1】
【0186】
終結位置がHCC特異的であることを要する3つのアルゴリズムのうちの任意の1つ、または妊娠特異的または共有された位置をフィルタリングして除去するアルゴリズムを採用したことにより、PPVにおける実質的な向上があった。両方のアルゴリズムを適用することで、PPVは71%まで増加した。
【0187】
HCC関連及び妊娠関連終結位置の他の数は、各染色体について、またはさらに別のゲノム領域について、またはさらに全ゲノムについて特定することができ、それは、例えば、50万、200万、300万、400万、500万、600万、700万、800万、900万、または1000万であるが、これらに限定されない。様々な実施形態では、血漿DNA分子中で最も頻繁に見られる終結位置は、癌患者の1つ以上のコホートにおいて判定することができ、各コホートは、1つの癌タイプである。加えて、血漿DNA分子中で最も頻度の高い終結位置は、癌を有しない対象について判定することができる。一実施形態では、癌を有するかかる患者及び癌を有しない対象は、異なる臨床パラメータ、例えば、性別、喫煙経験、これまでの健康状態(例えば、肝炎状態、糖尿病、体重)等を有する群にさらに細分化することができる。
【0188】
かかるフィルタリング基準を使用する一環として、統計学的分析を使用して、異なる生理学的及び病理学的状態について、循環DNAについて末端ヌクレオチドまたは終結位置である可能性がより高い位置を特定することができる。統計学的分析の例としては、スチューデントt検定、カイ二乗検定、及び二項式分布またはポワゾン分布に基づく検定が挙げられるが、これらに限定されない。これらの統計学的分布について、異なるp値カットオフ(例えば0.05、0.01、0.005、0.001、及び0.0001であるが、これらに限定されない)を使用することができる。p値カットオフはまた、複数の比較のために調節することもできる。
【0189】
G.一本鎖配列決定
一実施形態では、配列決定は、各鋳型分子の2つの相補的ストランド上で実施することができ、これは一本鎖配列決定と称される(Snyder et al.Cell 2016;164:57-68)。両方のストランドの配列リード中に存在する変異は、下流分析に使用され、1つのストランドの配列リードにのみ出現する変異は、廃棄されるか、または少なくとも1つのDNA断片についてのデータが廃棄され得る。これにより、血漿DNA分子についての配列決定エラーをさらに指数関数的に低減させることができる。
【0190】
血漿DNA断片の各ストランドは、独立して分析することができるため、血漿DNA断片の終結位置または末端ヌクレオチド座標は、より高い正確さ及び精度で判定することができる。一本鎖配列決定はまた、二本鎖形態に対して一本鎖形態で循環する血漿DNA断片の検出を可能にする。一本鎖血漿DNAを分析に含むことで(例えば、一本鎖DNA分析を促進するライブラリ調製プロトコルの使用を通して)(Snyder et al.Cell 2016;164:57-68))、潜在的に情報価値のある癌DNA断片の追加の集団が、検出を受けることができるようになる。
【0191】
さらに、一本鎖DNAを好むライブラリ調製プロトコル(例えば、Snyder et al.Cell 2016;164:57-68を参照されたい)の使用も、終結位置に基づくフィルタリング基準に使用され得る追加の位置を特定することを可能にする。例えば、2つのストランドについて2つの配列リードのアライメントの後に、その2つのストランドが同じ組織特異的終結位置にアライメントしない場合、その配列リードは、変異を有するものとしてより低い重み付けを付与され得る。
【0192】
VI.癌患者の血漿における体細胞変異検出
癌のために試験される対象における体細胞変異の検出の様々な例をここに記載する。様々なフィルタリング基準についてデータが示される。また、PCRフリーの有効性を例証する。
【0193】
A.臨床材料調製
臨床材料は、HCC患者から得た。血液細胞は、手術前に収集した。HCC腫瘍生検及び隣接する正常肝組織の生検を、腫瘍切除の差異に収集した。PCRフリーライブラリ調製プロトコルを使用して材料からDNAライブラリを調製し、Illumina HiSeqシリーズの大規模並列シーケンサーを使用して配列決定した。バフィーコート、腫瘍生検、隣接する正常肝組織、及び血漿について達成されたシーケンシング深度は、それぞれ、ヒト半数ゲノムの45x、45x、40x、及び220xであった。
【0194】
1.患者情報
HCC患者は、肝硬変を有しないHBVキャリアである58歳の中国人男性であった。腫瘍サイズは18cmであった。彼は、腫瘍切除のためにPrince of Wales病院の外科に収容され、インフォームドコンセントを伴って集められた。この研究は、the Joint University of Hong Kong and New Territories East Cluster Clinical Research Ethics Committeeによって認可された。手術前に、9mLの末梢血をEDTA管に収集した。腫瘍組織及び隣接する正常組織は、腫瘍切除後に収集した。
【0195】
2.試料処理
全ての血液試料を二重遠心分離プロトコルによって処理した(Chiu et al Clin Chem 2001;37:1607-1613)。4℃、1,600gで10分間の遠心分離のすぐ後に、血漿部分を、4℃、16,000gで10分間再遠心分離して、無細胞血漿を得た。血液細胞部分を、2,500gで再遠心分離し、任意の残留血漿を除去した。血液細胞からのDNA及び血漿からのDNAを、それぞれ、QIAamp DNA Blood Mini Kit及びQIAamp DSP DNA Blood Mini Kit(Qiagen)の血液及び生体液プロトコルを用いて抽出した。腫瘍及び隣接する正常組織からのDNAを、製造業者の組織プロトコルに従いQIAamp DNA Mini Kit(Qiagen)を用いて抽出した。
【0196】
3.血漿DNAの定量化
DNAを3.7mLの血漿から抽出し、110マイクロリットルの水に溶出した。DNA濃度は、マイクロリットル当たり0.629ナノグラムであり(Qubit経口高度計、Thermo Fisher Scientific)、69ngのDNAをもたらした。次いで、30ngのDNAをライブラリ構築に使用した。各3Mbゲノムは、166個の塩基対(bp)断片に断片化されているため、ゲノム当たり約1.81×107個の血漿DNA断片があるはずである。30ngのDNAは、[(30×1,000)/3.3]×1.81×107個の断片=1.64×1011個の全断片を含有することになる。
【0197】
4.DNAライブラリ構築
ゲノムDNA試料及び母体血漿のためのDNAライブラリは、指示されたアダプターの5分の1を血漿DNAライブラリ構築に使用したこと以外、製造業者のプロトコルに従ってTruSeq DNA PCR-free Library Preparation kit(Illumina)を用いて構築した。3つのゲノムDNA試料、すなわち、患者のバフィーコートDNA、腫瘍組織DNA、及び隣接する正常組織DNAがあった。各ゲノムDNA試料について、ライブラリ構築のために1マイクログラムのDNAを200bpの断片になるまで超音波処理した(Covaris)。ライブラリ濃度は、20μLのライブラリ中、17~51nMの範囲であった。
【0198】
30ngの血漿DNA試料(1.64×1011個の断片)について、ライブラリ収率は、20μLのライブラリ中、2,242pMであり、これは、44,854アトモル、すなわち、2.70×1010個の166bp血漿DNA断片に等しい。DNAからライブラリへの変換は、16.4%であった。この変換のレベルは、入力DNAのうちの約1%のみがライブラリに変換された他のDNAライブラリ調製キットでの従来の経験よりも遥かに高い。
【0199】
5.DNAライブラリの配列決定
全てのDNAライブラリは、75bp×2(ペアエンド)のためのHiSeq 1500、HiSeq 2000、またはHiSeq 2500配列決定プラットフォーム(Illumina)で配列決定された。各ゲノムDNAライブラリについて、複数のレーンを配列決定した。バフィーコート、腫瘍組織、及び隣接する正常組織のDNAライブラリのシーケンシング深度は、それぞれ、45x、45x、及び40xであった。血漿DNAライブラリについて30.7レーンを配列決定し、およそ44億個の重複せずにマッピングされたペアエンドリードを得た。シーケンシング深度は、220xであった。
【0200】
配列決定後の血漿DNAライブラリの回収を計算するために、レーン当たり10pMを入力として120μlのDNAライブラリを配列決定した。断片入力の総数は、120×10×30.7×6.02×1023/1018=2.22×1010個の断片であった。配列決定後、4.40×109個の断片を得た。配列決定後のDNAライブラリの回復は、19.9%であった。
【0201】
血漿DNA配列決定は、参照ヒトゲノムにアライメントまたはマッピングされた。全配列リードの割合としての各1Mbセグメント(ビン)にマッピングされたリードの数は、ゲノム全体にわたって判定された。1Mbセグメント当たりの割合またはゲノム存在量を、健常対照の群から得た血漿DNA配列決定データと比較して、米国特許出願公開第2009/0029377号に以前に記載されるようなゲノム存在量における統計学的に顕著な増加または統計学的に有意な現象を有するゲノム領域を特定した。
【0202】
図6は、HCC患者における1-Mbセグメントの増加、減少、または無変化を示すプロット600である。ゲノム存在量における統計学的に有意な増加を有する領域は、コピー数増加の存在を示す一方、ゲノム存在量における統計学的に有意な減少を有する領域は、コピー数減少の存在を示す。ゲノム存在量における統計学的に有意な増加、減少を有するか、または顕著な変化を有しないビンは、それぞれ、緑色、赤色、及び灰色の点として示される。かかる減少を示した連続するゲノムセグメントにわたるコピー数減少の程度を定量化することにより(例えば、米国特許出願第14/994,023号に記載されるように)、血漿中の腫瘍由来DNAの分率濃度が、15%であると判定した。
【0203】
B.腫瘍生検及び隣接組織に存在する変異
次に、患者のバフィーコート配列決定データと比較することにより、腫瘍生検中に存在する体細胞変異を特定した。この分析は、いくつの体細胞変異をこの特定の腫瘍が担持し、血漿DNA中で検出することを目指した変異のゴールドスタンダードセットとして機能したか判定するために実施した。腫瘍生検中で検出されたがバフィーコートDNA中では検出されなかった任意のアレルについて、一連のフィルタリング基準を適用して体細胞変異を特定した。10Bは、初期分析を、配列決定データの半分、すなわち110xで実施した。
【0204】
図7は、本発明の実施形態に従い、ダイナミックカットオフ、再アライメント、及び変異分率を使用するフィルタリングプロセス700、ならびに腫瘍生検から特定された変異について得られたデータを示す。
図7に示されるように、ダイナミックカットオフ戦略をまず適用して、そのほとんどが配列決定エラーの結果である偽陽性一塩基変異体の検出を最小化した。各ボックスに示される数は、各ステップで特定された推定変異の数を表す。
【0205】
次いで、ダイナミックカットオフ戦略を使用して特定された16,027個の推定変異に、段階Aのフィルタリング基準として再アライメント戦略を適用して、配列決定エラー及びアライメントエラーに起因する変異体をさらに除去した。次に、2つの異なる分率濃度カットオフを独立して適用した。少なくとも20%の腫瘍DNA分率(M%)をカットオフ(段階Bの基準)として使用して、12,083個の体細胞変異を特定した。少なくとも30%のDNA分率をカットオフ(段階Cの基準)として使用して、11,903個の体細胞変異を特定した。これらの11,903個の変異体を、この腫瘍に存在する真の体細胞変異と見なした。この数は、腫瘍ごとに存在する変異の報告された平均数と一致する。
【0206】
腫瘍由来血漿DNA分子は、非腫瘍由来分子よりも短いことが予期される。これらの変異体が真の腫瘍由来体細胞変異であるかどうか評価する手段として、これらの11,903個の座位をカバーする血漿DNA断片を探索し、それらの断片のサイズプロファイルを評価した。
【0207】
図8は、野生型アレルを有するものとして特定された血漿DNA断片と比較した、HCC患者において変異アレルを有するものとして特定された血漿DNA断片のサイズのプロット800を示す。変異を有するものとして特定されたこれらの血漿DNA断片は、これらの体細胞変異について情報価値のなかった他の血漿DNA断片よりも実際に短い。かかるサイズ分析は、変異の特定の有効性を確証させ、サイズをフィルタリング基準として使用する能力も確証させる。
【0208】
図9は、本発明の実施形態に従い、ダイナミックカットオフ、再アライメント、及び変異分率を使用するフィルタリングプロセス900、ならびに隣接する正常肝生検から特定された変異について得られたデータを示す。腫瘍生検に使用されたものと同じセットの基準を適用して、隣接する正常肝生検の生検における変異についてスクリーニングした。
図9に示されるように、最終フィルターが、少なくとも20%の腫瘍DNA分率(段階Bの基準)を要することに基づく場合、203個の変異のみが特定された。最終フィルターが、少なくとも30%の腫瘍DNA分率(段階Cの基準)を要することに基づく場合、74個の変異のみが特定された。
【0209】
図10A及び10Bは、隣接する正常肝生検から特定された203個の推定変異を担持する血漿DNA断片の評価されたサイズプロファイルの、他の情報価値のない血漿DNA分子のサイズプロファイルとの比較を示す。
図10Aは、推定変異アレル及び野生型アレルの一定範囲のサイズにわたる血漿DNA断片の頻度を示す。
図10Bは、推定変異アレル及び野生型アレルのサイズの関数として血漿DNA断片の累積度数を示す。
図10A及び10Bに示されるように、サイズ頻度分布ならびに累積サイズ差プロットの形態で表されるDNAの2つの群のサイズプロファイルに差異はない。これらの分子のサイズプロファイルは、変異が、偽陽性である可能性が高いことを示唆する。
【0210】
C.血漿の変異分析
次に、様々なフィルタリング基準を適用して、血漿における体細胞変異または情報価値のある癌DNA断片を特定することを目指した。
【0211】
図11は、本発明の実施形態に従い、フィルタリングプロセス1100(ダイナミックカットオフ、再アライメント、変異分率、及びサイズを使用する)、ならびに血漿から特定された変異について得られたデータを示す。
図11において、推定体細胞変異の数は、各フィルタリングステップについて各ボックス内に示される。腫瘍生検から特定された11,903個のうち、各フィルタリングステップで回収される真の体細胞変異の数は、絶対数ならびに割合として示される。各フィルタリングステップについて、PPVが計算され、示されている。85%超のPPVは、段階B、C、またはDの基準を、ダイナミックカットオフ及び段階Aのフィルタリングと組み合わせて使用した場合に達成することができる。
【0212】
図12は、本発明の実施形態に従い、フィルタリングプロセス1200、及びより低い変異分率カットオフを使用して血漿から特定された変異について得られたデータを示す。
図12中のデータは、回収された真の体細胞変異の数が、段階Bまたは段階Cでより低い分率濃度カットオフ適用された場合に遥かに大きくなる一方、PPVが維持され得ることを示す。
【0213】
D.サイズ
次いで、分率濃度カットオフ(段階B及びC)を省略することの効果を探求した。
【0214】
図13は、本発明の実施形態に従い、フィルタリングプロセス1300(ダイナミックカットオフ、再アライメント、及びサイズを使用する)、ならびに血漿から特定された変異について得られたデータを示す。
図13中に示されるデータは、ダイナミックカットオフ、再アライメント、及びサイズ要件(すなわち、短いDNA分子を好む)の使用によって、変異分率フィルタリング基準を使用して達成されたものと同じ回収及びPPVを達成することができることを示す。
【0215】
図14は、血漿を使用して野生型アレルを有するものとして特定された血漿DNA断片と比較した、変異アレルを有するものとして特定された血漿DNA断片のサイズのプロット1400を示す。サイズプロファイルは、フィルタリングステップを使用して特定された変異が、腫瘍由来DNAに予期されるような短いDNAサイズを呈したことを示す。
【0216】
E.シーケンシング深度を増加させた
血漿試料のシーケンシング深度を、110xから220xまでさらに増加させた。
【0217】
図15は、本発明の実施形態に従い、フィルタリングプロセス1500、及び増加したシーケンシング深度を使用して血漿から特定された変異について得られたデータを示す。プロセス1500は、
図12に示されるものと同じフィルタリング基準のセットを使用する。シーケンシング深度の増加(220x)に伴って、回収された真の体細胞変異の割合は遥かに大きくなった。段階Bのフィルタリングステップで検出された10,915個の変異のうち、93個の変異は、エクソン内に位置付けられた。1個の変異、すなわち、CTNNB1(c.C98G, P.S33C)のエクソン3中の非同義変異のみが、COSMICデータベースにおける上位28個の発生率の高い癌変異のうちの1つとして報告された。
【0218】
F.変異分率
図11は、段階B及び段階Cのカットオフが、それぞれ、20%及び30%であった場合の、PPV及び回収率への効果を示した。変異特定におけるより高い感度が好まれる場合には、より低いM%をカットオフとして使用してもよい。
図12は、段階Bのカットオフが5%であり、段階Cのカットオフが10%であった場合のPPV及び回収率への効果を示す。
【0219】
上に記載されるように、変異分率における分散は、フィルタリング基準として使用することもできる。異なる染色体領域に起源を持つ、体細胞変異分率の血漿アレル分率を研究した。
図6に示されるように、HCC患者の腫瘍は、染色体1pにおけるコピー数減少及び染色体1qにおけるコピー数増加を提示した。染色体1p及び染色体1qにわたる変異分率の頻度分布をプロットした。
【0220】
図16は、変異分率の様々な値を有する座位の数(密度)を示すプロット1600である。プロット1600に見られるように、コピー数増加領域(染色体1q)について、変異分率のより高い値が認められ、コピー数減少領域(染色体1p)について、より低い変異分率値が認められた。
【0221】
2つの領域における変異分率値の範囲及び分散についても研究した。
【0222】
図17Aは、染色体アーム1p及び1qに及び分布のためのzスコアを示す。
図17Bは、染色体アーム1p及び1qに及び明白な変異分率を示す。コピー数減少領域(染色体1p)よりもコピー数増加領域(染色体1q)において、値の分散のzスコアは、より高く(
図17A)、実測値は、より可変的であった(
図17B)。
【0223】
これらのデータは、コピー数増加または減少を有する領域について異なるM%を、フィルタリングカットオフとして設定して、真の体細胞変異を特定する可能性を増加させることができることを示す。認められた血漿変異分率における分散を明示するカットオフはまた、腫瘍由来DNAが富化されているか(コピー数増加を有する領域について)、または枯渇している(コピー数減少を有する領域について)染色体領域に起源を持つ血漿DNA分子を特定するために使用することもできる。その後に、DNA断片が情報価値のある癌DNA断片である可能性に関する判断を下すことができる。
【0224】
G.より緩やかな基準
ダイナミックカットオフにおいてより緩やかな基準を使用することができるかどうか探求した。前に示された例において、使用されたダイナミックカットオフ閾値(スコア3)は、体細胞変異の偽陽性特定の変化を最小化するためであった。ダイナミックカットオフ分析について、配列変異体は、配列変異体が一定数(N)の配列決定されたDNA断片に存在する場合、候補変異として適用されることになり、数(N)は、配列決定された座位の数、探索空間中のヌクレオチドの数、及び予測される偽陽性率を有する可能性に依存する。前述の例において、予測される偽陽性率は、<10-10として設定され、探索空間は、全ゲノム(3×109個のヌクレオチド)である。
【0225】
図18は、本発明の実施形態に従い、特定のアレルのカウントカットオフについて、様々な変異分率及びシーケンシング深度における変異検出の予期される感度を示す表1800である。各行は、異なるシーケンシング深度に対応する。血漿におけるカットオフは、血漿における変異を有するDNA断片の数が、変異と見なされるのに十分であるかどうかを判定するために使用される。これらの値を使用することで、残った列は、様々な腫瘍割合について血漿中の変異検出の予測される感度、TP/(TP+FN)を提供する。バフィーコートもまた、バフィーコートにおける配列決定エラーをフィルタリングするためにカットオフに供される。いくつかの実施形態は、バフィーコートが同型接合である位置にある変異体のみを検出するため、かかるフィルタリングを伴わない場合、実施形態は、血漿中の変異体検出のための同型接合部位としての座位を含み損ない得る。表1800中のデータは、より緩やかなダイナミックカットオフが使用された場合に、次のグラフを解釈するためのベースラインデータとして機能する。
【0226】
閾値を緩めて、0.1%の偽陽性検出率を可能にすることの効果を探求した。
【0227】
図19は、本発明の実施形態に従い、0.1%の偽陽性検出率での特定のアレルのカウントカットオフについて、様々な変異分率及びシーケンシング深度における変異検出の予期される感度を示す表1900である。このデータは、より緩やかなダイナミックカットオフについてのデータを示す。
【0228】
図20は、本発明の実施形態に従い、フィルタリングプロセス2000、及びより緩やかなダイナミックカットオフを使用して血漿から特定された変異について得られたデータを示す。220xのシーケンシング深度を使用した。より緩やかなダイナミックカットオフを使用したとき、第1のステップでのPPVは、12%から3.3%まで落ちた。他のフィルタリングステップ、すなわち段階A、B、C、及びDと組み合わせた場合、厳しいダイナミックカットオフに基づくアルゴリズムと同様のPPVと共に、真の体細胞変異のより高い回収を達成することができた。
【0229】
これらのデータは、各フィルタリング基準が異なる役割を果たすことを示す。各基準の有用性は、使用される閾値の厳しさを変更することで変わり得る。この例において、より緩やかなダイナミックカットオフにより、より高感度の体細胞変異の特定を可能にした。偽陽性をフィルタリングして除去する他の基準の効果に起因して、スキーム全体の特異性は、維持された。
【0230】
次に、ダイナミックカットオフステップの完全除去を評価した。代わりに、固定カットオフを適用した。例えば、バフィーコートDNA中に存在しない異型接合アレルが、少なくとも特定の回数(例えば、1、2、3回等)、血漿中で認められた場合、特定された推定変異の数を判定した。この分析を適用して、200x超で配列決定されたHCC患者の血漿DNAデータならびに母体血漿試料を分析した。母体血漿試料を提供した母親は、癌を有することが既知ではなく、したがって、この試料中で特定された推定変異のほとんどが、父親から受け継がれた胎児特異的アレルであるか、偽陽性である可能性が高い。
【0231】
図21は、胎児及び癌シナリオにおける推定変異の数の分布を示すプロット2100である。垂直軸は、推定変異(変異アレル)を有する座位の数のカウントに対応する。水平軸は、座位が変異を有するものとして特定されるために必要なDNA断片の数に対応する。
【0232】
両方の試料は、PCRフリーライブラリ調製プロトコルを使用して同様の深度まで配列決定された。よって、配列決定エラー及びアライメントエラーによってもたらされる偽陽性変異は、両方の試料において同様であるはずである。変異のスコアリングのためのカットオフとして使用された配列リードの数が増加するにつれて、推定変異の数が減少したことに留意されたい。偽陽性変異は、ランダムに発生し、したがって、より低いアレル比であるため、偽陽性が、カットオフとして必要なリードの数の漸進的増加によってフィルタリングされて除去されている可能性がある。
【0233】
他方で、癌患者において特定された想定変異の数が、約18の配列リード以降から限界を示し始め、妊娠女性の血漿中で検出されたものよりも高いことが認められる。これは、HCC患者における変異負荷が、母体血漿試料中の父親から毛継がれた胎児アレルの数よりも多いことを意味する。
【0234】
次いで、同じデータセットに再アライメントフィルタリング基準(段階A)を適用した。
【0235】
図22は、再アライメントを使用した場合の胎児及び癌シナリオにおける推定変異の数の分布を示すプロット2200である。推定変異の総数は、再アライメントが適用されなかった
図21に示されるデータと比較したとき、対応する固定された配列リードのカットオフ数においても実質的に減少した。HCC血漿と母体血漿との間の推定変異の数における境界は、より一層明白であった。これらのデータは、再アライメントステップが、偽陽性を除去するための強力なプロセスであることを示す。
【0236】
サイズフィルタリングの値をさらに評価した。重ねて、この分析においてダイナミックカットオフ戦略は使用しなかった。代わりに、同じマイナーアレルを示す固定の最小数の配列リードを第1のステップとして使用して、推定変異を特定した。
【0237】
図23は、本発明の実施形態に従う再アライメントを伴わない場合のPPV及び回収率を示す表2300である。
図23に示されるように、固定カットオフのみを使用する体細胞変異特定のためのPPVは、最適以下である。各固定カットオフレベルで異なるサイズカットオフが使用されると、PPVが向上した。
【0238】
図24は、本発明の実施形態に従う再アライメントを伴う場合のPPV及び回収率を示す表2400である。
図24に示されるデータについて、固定カットオフによる推定変異の初期特定の後に再アライメントを適用した。PPVは、実質的に向上した。次いで、さらなるフィルタリングのために異なるサイズカットオフを適用し、PPVにおけるいくらかの向上が認められた。
【0239】
H.癌における上昇した変異負荷の検出
HCC患者からの血漿試料及び新生児の臍帯血の血漿について記載されたフィルタリング基準を使用して、変異負荷評価を実施した。臍帯血試料のための生得的ゲノムは、臍帯血バフィーコートであった。ほとんどの乳児は、癌を有せずに生まれ、まだ体細胞変異を獲得しておらず、または発癌物質に曝露されていないため、臍帯血血漿は、参照としてうまく機能する。
【0240】
臍帯血血漿を、PCRフリーライブラリ調製プロトコルを使用して75xまで配列決定した。
【0241】
図25は、本発明の実施形態に従い、フィルタリングプロセス2500(ダイナミックカットオフ、再アライメント、変異分率、及びサイズを使用する)、ならびに臍帯血の血漿から特定された変異について得られたデータを示す。
図25は、図中に示される段階A~Dに続いて厳しいダイナミックカットオフを使用したときに臍帯血血漿中で検出された推定変異の数を示す。少量の推定変異が特定された。
【0242】
図26は、本発明の実施形態に従う、プロセス2500から判定される変異DNA断片及び野生型アレルのサイズ分布のプロット2600である。これらの変異のサイズプロファイルを評価した際、これらは、癌由来DNAとは異なり、特に短くはなかった。
【0243】
次に、比較評価を行うことができるように、HCC試料から75xの血漿DNA配列決定データをランダムに選択した。同じフィルタリング基準のセットを適用した。腫瘍由来変異のうちの約5,000~6,000個が、89%以上のPPVで回収された。
【0244】
図27は、本発明の実施形態に従い、フィルタリングプロセス2700(ダイナミックカットオフ、再アライメント、及びサイズを使用する)、ならびにHCC試料の血漿から特定された変異について得られたデータを示す。75xのシーケンシング深度を使用した。
【0245】
図28は、本発明の実施形態に従う、プロセス2700から判定される変異DNA断片及び野生型アレルのサイズ分布のプロット2800である。これらの変異を有する血漿DNA断片は、情報価値のないDNA断片よりも実際に短かった。
【0246】
しかしながら、臍帯血血漿中で特定された推定変異のうちの84%は、公表された一塩基多型部位で生じており、この割合は、HCC血漿試料においては3%のみであったことに留意されたい。したがって、臍帯血血漿中の公表されたアレルは、胎児循環中に取り込まれ、新生児の血液中で検出可能のままとなっている母体DNA分子であり得るという仮説を設けた(Lo et al.Clin Chem 2000;46:1301-1309)。既知の一塩基多型部位から任意の部位を除去した後、HCC血漿についてのデータは不変のままであった(
図30)のに対し、臍帯血血漿中の推定変異の数は、8個のみに減少した(
図29)。
【0247】
図29は、本発明の実施形態に従い、臍帯血の血漿から特定された変異について、SNPベースのフィルタリングを使用するフィルタリングプロセス2900である。
図30は、本発明の実施形態に従い、HCC血漿から同定された変異について、SNPベースのフィルタリングを使用するフィルタリングプロセス3000である。一塩基多型を除去するためのフィルタリングステップの組み込みは、段階Eのフィルタリングに対応する。結果的に、臍帯血血漿中で検出された推定変異の数(そのほとんどは偽陽性である)は、84%(49個中、8個)低減された。他方で、HCC試料中の推定変異の数は、3%低減されただけであった。
【0248】
これらのデータは、記載されたフィルタリング基準のセットの組み込みを伴う、PCRフリーライブラリ調製プロトコルに続くウルトラディープ及びブロード配列決定の使用により、癌患者の血漿における腫瘍由来変異を、特定された推定変異の数に基づいて高感度及び特異的に特定することができたことを示す。癌患者の血漿中で特定された変異負荷は、対照非癌臍帯血血漿中で認められたものを3倍、上回った。よって、癌と非癌との間の分類を行うことができた。
【0249】
全配列決定データ(220x)の二次試料(75x)が、癌と非癌との識別を達成する目的のために既に十分であったことをさらに示した。以下のシミュレーションデータに示されるように(VIII項の
図44、45A~45C、及び46A~46C)、ウルトラディープ及びブロード配列決定データがこれらの実施形態で必要である一方で、幅及び深度の程度は、血漿試料中の腫瘍DNA分率、及び血漿DNA検出に利用することができる腫瘍を宿す変異の数に依存する。
【0250】
I.起源となる組織
かかる体細胞変異のゲノム位置が、腫瘍の起源となる組織に依存するクラスタリングのパターンを示し得ることを示唆するデータ(Snyder et al.Cell 2016;164:57-68、PCT WO 2016/015058 A2、Ivanov et al.BMC Genomics 2015;16 Suppl 13:S1)がある。文献は、体細胞変異が、特定のヒストン修飾を有するゲノム位置と共存する傾向にあることを示唆した。ヒストン修飾の組織特異的位置は、Epigenomics Roadmapデータベース(www.roadmapepigenomics.org)等の公衆データベースを通して得ることができる。
【0251】
ヒストン修飾の組織特異的位置を、Epigenomics Roadmapデータベース(www.roadmapepigenomics.org)を通して得た。健常組織において、H3K4me1は、活性/平衡エンハンサー領域に関連付けられることが報告されている。H3K27acは、活性エンハンサー領域に関連付けられる。H3K9me3は、構成的ヘテロクロマチンと高度に相関する。換言すれば、健常組織において、H3K4me1及びH3K27acは、組織における活性遺伝子発現を有するゲノム領域に関連付けられる一方、H3K9me3は、ゲノムの抑制領域に関連付けられる。しかしながら、癌においては、体細胞変異の数は、抑制ゲノム領域中でより高度に存在することが報告されてきた。現時点で、血漿DNAにおけるかかる相関の存在を報告するデータは存在しない。
【0252】
1-Mbビンごとの3つのヒストン修飾のうちのそれぞれの数と、同じ10Mbビン中の体細胞変異の数との間のスピアマン相関分析を実施した。
【0253】
図31は、ヒストン修飾を有する組織の相関を示す表3100である。
図31は、SNVを使用して、腫瘍予測の起源となる組織を判定する。肝臓組織のヒストン修飾パターンについて、最も強い相関係数が得られた。これは、血漿DNAデータが、HCC患者から得られた事実と一貫している。よって、別の試験試料を分析した場合、癌に関連付けられることが既知であるヒストン修飾に関連付けられる座位に起源を持つ血漿DNA断片を特定することができる。かかる座位は、癌由来血漿DNA断片で富化されることになる。よって、これらの座位の血漿DNA断片は、情報価値のある癌DNA断片として分類することができる。胎児組織(例えば、胎盤)に関連付けられることが既知であるヒストン修飾を使用して胎児変異を特定するためにも、同様のアプローチを実施することができる。
【0254】
スピアマン相関は、血漿中のメガベースごとのSNV密度と、様々な器官または組織中のメガベースごとのヒストンマーカー密度との間で計算される。最も高い相関は、腫瘍の起源となる組織を示唆することになる。
【0255】
VII.胎児におけるデノボ変異の検出
上記の議論のほとんどは癌に関してきたが、実施形態を使用して胎児におけるデノボ変異を特定することもできる。
【0256】
先天性変異は、出生前期、幼児期、またはその後に発現し得る疾患をもたらす場合がある。先天性変異とは、胎児ゲノム中に存在する変異を指す。いくつかの疾患は、早期治療を利用することができる一方、他のものは、重度の機能障害に関連付けられ得る。よって、これらの疾患のうちのいくつかの出生前診断は、当然のこととされる。遺伝子、ゲノム、または染色体異常に関連付けられる疾患の出生前診断は、出生前に胎児の遺伝子材料を分析することで実施することができる。胎児の遺伝子材料は、羊水穿刺または絨毛検査等の侵襲的手順で得ることができる。これらの手順は、胎児流産のリスクに関連付けられる。よって、母体血漿中に存在する無細胞胎児核酸の分析を通すことを含む、非侵襲的アプローチによる出生前評価を実施することが好ましい。
【0257】
ほとんどの先天性変異は、親から受け継がれ、遺伝病をもたらす。母体血漿中の循環無細胞胎児DNA分析による受け継がれた変異の非侵襲的検出のためのアプローチが、これまでに報告されてきた(米国特許出願公開第2009/0087847号及び同第2011/0105353号)。推定胎児変異は、母性及び/もしくは父性変異を知ることまたは試験することによって確認することができる。
【0258】
しかしながら、疾患は、デノボ変異によって引き起こされることもある。デノボ変異は、父親または母親から受け継がれたものではない、胎児の生得的ゲノム中に存在する変異である。デノボ変異は、特定の疾患、例えば軟骨無形成症、多発性内分泌腫瘍症について、疾病負荷のかなりの部分を占める。各人物は、生得的ゲノム中に約20~30個のデノボ変異を有すると推定されてきた(Kong et al.Nature 2012;488:471-475)。かかる変異は、ゲノムの遺伝的、エピジェネティック、または調節機能を損なうことになるゲノムの領域でそれらが発生した場合、疾患を引き起こし得る。現在のところ、既知の先天的リスクがない限り、デノボ変異の出生前検出のための有効な方法はない。デノボ変異のための先天的な疑いは、例えば、胎児の超音波検査が、軟骨無形成症の疑いがある特徴を明らかにした場合に、展開することができる。両親が軟骨無形成症のための変異を担持していない場合、デノボ変異を、線維芽細胞成長因子受容体3遺伝子において探索することになる。
【0259】
デノボ変異によって引き起こされるほとんどの他の疾患について、典型的には、出生前に検出してどの遺伝子を調べるべきかを示唆することができる構造的または身体的兆候はない。ハプロタイプゲノムの30億個のヌクレオチドのうちの30個のかかる変化の探索は、干し草の中から針を探すようなものであるため、現在のところ、出生前にデノボ変異を検出するための有効な方法はない。循環無細胞胎児DNA分析によるデノボ変異検出を達成することは、胎児デノボ変異を5倍から10倍にさらに希釈する母親の基礎環境血漿DNAのために、より一層の困難に関連付けられる。ここで、母体血漿中の循環無細胞胎児DNAの分析を通してデノボ変異の有効な検出を可能にする実施形態を記載する。
【0260】
A.胎児におけるデノボ変異の検出の例
1.家族情報
男児の単胎妊娠は、妊娠38週目の帝王切開を予定していた。家族は、Prince of Wales Hospitalの産婦人科で、インフォームドコンセントを伴って募られた。この研究は、the Joint University of Hong Kong and New Territories East Cluster Clinical Research Ethics Committeeによって認可された。入院の際に、20mLの母体血液及び10mLの父体血液を収集した。出産後に、胎盤組織試料及び3mLの臍帯血を収集した。
【0261】
2.試料処理
全ての血液試料を、前述のように、二重遠心分離プロトコルによって処理した(Chiu et al Clin Chem 2001;37:1607-1613)。4℃、1,600gで10分間の遠心分離のすぐ後に、血漿部分を、4℃、16,000gで10分間再遠心分離して、無細胞血漿を得た。血液細胞部分を、2,500gで再遠心分離し、任意の残留血漿を除去した。血液細胞からのDNA及び母体血漿からのDNAを、それぞれ、QIAamp DNA Blood Mini Kit及びQIAamp DSP DNA Blood Mini Kit(Qiagen)の血液及び生体液プロトコルを用いて抽出した。胎盤からのDNAを、製造業者の組織プロトコルに従いQIAamp DNA Mini Kit(Qiagen)を用いて抽出した。
【0262】
3.血漿DNAの定量化
5mLの母体血漿からDNAを抽出した。ZFX/YデジタルPCRアッセイを使用して(Lun et al Clin Chem 2008;54:1664-1672)、ZFX及びZFYの濃度は、それぞれ、1,038コピー/mL血漿及び103コピー/mL血漿であった。次いで、血漿DNAの4.5mL当量をライブラリ構築に使用した。各ゲノムが、166個の塩基対(bp)断片に断片化されると仮定し、ゲノム当たり約1.81×107個の血漿DNA断片があるはずである。4.5mLの血漿DNAは、(1038+103)×4.5×1.81×107個の断片=9.28×1010個の全断片を含有することになる。
【0263】
4.DNAライブラリ構築
ゲノムDNA試料及び母体血漿のためのDNAライブラリは、指示されたアダプターの5分の1を血漿DNAライブラリ構築に使用したこと以外、製造業者のプロトコルに従ってTruSeq DNA PCR-free Library Preparation kit(Illumina)を用いて構築した。4つのゲノムDNA試料、すなわち、母親のバフィーコートDNA、父親のバフィーコートDNA、臍帯血バフィーコートDNA、及び胎盤DNAがあった。各ゲノムDNA試料について、ライブラリ構築のために1マイクログラムのDNAを200bpの断片になるまで超音波処理した(Covaris)。ライブラリ濃度は、20□Lのライブラリ中、34~58nMの範囲であった。4.5mLの血漿からの母体血漿DNA試料(9.28×1010個の断片)について、ライブラリ収率は、20□Lのライブラリ中、2995pMであり、これは、59,910アモル(amoles)、すなわち、3.61×1010個の166bp血漿DNA断片に等しい。DNAからライブラリへの変換は、38.9%であった。
【0264】
5.DNAライブラリの配列決定
全てのDNAライブラリは、75bp×2(ペアエンド)のためのHiSeq 1500、HiSeq 2000、またはHiSeq 2500配列決定プラットフォーム(Illumina)で配列決定された。各ゲノムDNAライブラリについて、複数のレーンを配列決定した。母親、父親、臍帯血、及び胎盤のDNAライブラリのシーケンシング深度は、それぞれ、40x、45x、50x、及び30xであった。母体血漿DNAライブラリの全てが、配列決定に使用された。ライブラリを45レーンに使い尽くし、およそ57.4億個の重複せずにマッピングされたペアエンドリードを得た。シーケンシング深度は、約255xであった。
【0265】
血漿DNAライブラリの回収を計算するために、2,995nMを入力として、16μlのDNAライブラリを使用した(20μLのDNAライブラリからの4μLは、ライブラリ検証及び定量化に使用された)。断片入力の総数は、2,995×16×6.02×1023/109=2.89×1010個の断片であった。配列決定後、5.74×109個のリード(断片)を得た。配列決定後のDNAライブラリの回復は、19.9%であった。入力ライブラリのうちの80%は、クラスター生成及び/または配列決定の間に失われた。配列決定フローセル上での高効率のクラスター生成のためには、入力として5倍過剰のライブラリが必要となることを疑った。過剰ライブラリ断片は、次いで、洗い流され、クラスターを形成したもののみが配列決定されることになる。
【0266】
上記の推定に続き、DNAからライブラリへの変換率は38.9%であり、配列決定後のDNAライブラリの回復は、19.9%であった。血漿DNA断片から配列決定出力断片への回収は、7.7%であったと推定された。
【0267】
B.議論
父親及び母親が両方とも同型接合であるが、異なるアレルを有する、298,364個の情報価値のあるSNP部位が特定された。よって、胎児は、これらの部位において絶対異型接合であった。これらのSNP部位のうちの99.8%は、胎盤組織において異型接合であることが確認された。次いで、母体血漿中の胎児DNA分率を判定した。父性アレルのカウントを組み合わせ、これを、これらの298,364個の情報価値のあるSNP部位にわたる母性アレルの組み合わせたカウントの割合として表すことにより、胎児DNA分率は、31.8%であると推定された。次いで、これらの情報価値のあるSNP部位のそれぞれでの胎児分率を判定した。
【0268】
図32は、かかる個々のSNP部位で測定された胎児分率の頻度分布を示す。部位のうちの95%が、20%より高い胎児DNA分率を呈する。
【0269】
図33Aは、胎児特異的DNA及び母性血漿中の共有DNAのサイズ分布を示す。
図33Bは、胎児特異的DNA断片及び共有DNA断片の血漿DNAサイズにおける累積度数のプロットを示す。
図33Cは、ΔFとして示される累積度数の差異を示す。従来報告されてきた観察(Lo et al.Sci Transl Med 2010;2:61ra91)と同様に、母体血漿中の胎児DNA分子は、非胎児特異的血漿DNA分子よりも短いサイズを呈する。
【0270】
この胎児のゲノム中に存在するデノボ変異を判定するために、胎盤DNA及び臍帯血DNAの両方に存在するが、母性ゲノムDNAに存在せず、父性ゲノムDNAに存在しないDNA変異体(ほとんどが点変異または一塩基変異体)を探した。47個のかかるデノボ変異部位が特定された。次いで、母体血漿中でデノボ変異アレルを呈するDNA分子を探索した。次いで、母体血漿中のDNA分子のサイズ分布を研究した。
【0271】
図34Aは、変異アレルを有する血漿DNA断片のサイズ分布を示す。
図34Bは、変異アレル及び野生型アレルの血漿DNAサイズにおける累積度数のプロットを示す。
図34Cは、ΔFとして示される累積度数の差異を示す。変異アレルのサイズプロファイル及びΔF値は、胎児特異的アレルに由来するそれらの値と酷似した(
図33A~33C)。母体血漿中のこれらの比較的短いサイズは、変異アレルを有するこれらのDNA分子が、胎児起源であることの裏付けとなる証拠を提供する。
【0272】
次に、母体血漿DNAデータからデノボ変異を特定するアプローチの有効性を研究した。このアプローチにおいて、母性及び父性ベノム配列情報を得ることが必要となる。次いで、母体血漿DNA分子に存在するが、母性及び父性ゲノムDNA配列中に存在しない変異を探索した。
【0273】
図35は、本発明の実施形態に従い、フィルタリングプロセス3500(ダイナミックカットオフ、再アライメント、及び変異分率、及びサイズカットオフを使用する)、ならびに血漿から同定されたデノボ変異について得られたデータを示す。フィルタリングプロセス3500を使用して、母体血漿無細胞DNAデータからデノボ変異を特定することができる。この研究において、PCRフリーライブラリ調製プロトコルを使用して生成された全ゲノム血漿DNA配列決定データを使用した。
【0274】
まず、ダイナミックカットオフを使用して、血漿中の推定変異をスクリーニングした。ダイナミックカットオフを使用して、特定のレベル未満、例えば、ゲノム当たり1回の、ヒトゲノムにおける偽陽性の理論的発生を制御した。偽陽性に起因する2つのタイプの原因が、このダイナミックカットオフモデルにおいて考慮に入れられる。1つの原因は、いくつかの部位が同じ位置で同じヌクレオチド変化を示すことを偶然に引き起こすことになる配列決定エラーである。このタイプの偽陽性の可能性は、所与の配列決定エラー率の可能性の乗算ルールに従って推定することができる。配列決定エラーは、母親及び父親の両方が同型接合であり、同一のアレル情報を保有する部位から推測することができる。この場合、配列決定エラーは、0.3%であると推定された。別の原因は、代わりのアレルのアンダーサンプリングに起因して同型接合と呼び違えられた母親または父親における異型接合SNPである。
【0275】
第2に、実際の配列決定データにおける配列決定及びアライメントエラーをさらに最小化するために、追加のフィルタリングアルゴリズムを適用した。変異を担持する配列リードは、独立したアライナー、例えば、Bowtie2の使用を通してヒト参照ゲノムに再アライメント(マッピング)されることになる(Langmead et al.Nat Methods 2012;9:357-9)。いくつかの実施形態では、マッピングされたリードを精度の低い配列リードとして特定するために、以下の再アライメント基準を使用することができる:(1)変異を担持する配列リードが、独立したアライナーによって回復されず、配列リードにアライメント(マッピング)することができない、(2)変異を担持する配列リードが、初めのアライメントを検証するために独立したアライナーを使用したときに、矛盾したマッピング結果を示す(例えば、マッピングされたリードが、初めのアライメント結果と比較して異なる染色体に置かれている)。(3)同じゲノム座標にアライメントされた変異を担持する配列リードが、マッピングクオリティを呈する(例えば、マッピングクオリティ≦Q20を呈する(すなわち、誤ったアライメントの可能性<1%)、(4)配列リードが、いずれかのリード末端(すなわち、5’または3’末端)から5bp以内に位置付けられた変異を有する。配列決定エラーは、配列リードの両端で最も発生率が高いため、この最後のフィルタリングルールが重要であり得る。変異を担持する配列リード内での精度の低い配列リードの割合がある特定の閾値、例えば、40%より大きい場合、候補変異部位を廃棄することになる。変異を担持する配列リードの再アライメントのこのステップは、段階Aのフィルタリング基準と称される。
【0276】
第3に、特定の閾値を超える変異分率(M%)のみ、例えば、20%(段階Bのフィルタリング基準)及び30%(段階Cのフィルタリング基準)が、真の変異である可能性が高いと見なされることになる。情報価値のあるSNPから推定される胎児DNA分率を参照として使用して、変異分率の適切な閾値を設定することができる。
【0277】
第4に、胎児由来DNA分子は、母体由来DNA分子よりも短いため、段階Dのフィルタリング基準におけるサイズ関連フィルタリングパラメータをさらに展開した。変異アレル及び野生型アレルを担持するDNA断片の間のサイズ中央値の最小差は、少なくとも塩基対の特定の数であることが必要とされ、これはΔSと表され、例えば、ΔS≧10bpである。他の統計学的検定、例えば、t検定、Mann-Whitney U検定、Kolmogorov-Smirnov検定等を使用することもできる。フィルタリングの各連続する段階を適用する際に、回収率及び陽性的中率(PPV)を判定した。回収率は、フィルタリング後に検出される47個の既知のデノボ変異の割合に基づく。PPVは、母体血漿無細胞DNA配列決定データ中で検出された全非母性及び非父性変異体の割合としての真のデノボ変異の数を指す。偽陽性デノボ変異体が少なければ少ないほど、PPVは高くなる。偽陽性は、配列決定エラー及びアライメントエラーの結果として生じ得るが、これらに限定されない。このアプローチによって達成されるPPVは、Kitzman et alによって従来報告されてきたものより実質的に良い(Sci Transl Med 2012;137:137ra76)。非PCRフリープロトコルを使用して調製された母体血漿DNAライブラリを78xのカバレッジまで配列決定することは、2.5×107個の偽陽性の特定をもたらしたが、真のデノボ変異は44個のみであった。この研究のPPVは、わずか0.000176%のみであった。
【0278】
検出された推定デノボ変異体または変異が胎児起源であることを示すための確定的な証拠として、フィルタリングの異なる段階を使用して特定されたデノボ変異体または変異のサイズプロファイルを比較した。
【0279】
図36Aは、野生型アレルと比較した、段階Aのフィルタリング基準を使用して血漿中で同定された推定変異を有するDNA断片のサイズプロファイルを示す。
図36Bは、段階Bのフィルタリング基準を使用して血漿中で特定された推定変異を有するDNA断片のサイズプロファイルを示す。
図36Cは、段階Cのフィルタリング基準を使用して血漿中で特定された推定変異を有するDNA断片のサイズプロファイルを示す。
図36Dは、段階Dのフィルタリング基準を使用して血漿中で特定された推定変異を有するDNA断片のサイズプロファイルを示す。
図36A~36Dに見られるように、段階Dのアルゴリズムによって特定された変異体は、最も短いサイズ分布を示す。
【0280】
図37は、フィルタリング基準の異なる段階、すなわちA、B、C、及びDを使用して特定された推定変異に対応するΔF値のプロファイルを示す。母親及び父親の両方が同型接合であるが、異なるアレルを有する298,364個の情報価値のあるSNPに由来するΔF値を、胎児由来及び母体由来DNA断片の累積度数の差異を表す参照として使用した。段階Dのフィルタリング基準から推測されたサイズプロファイルは、情報価値のあるSNP部位から推測されたΔF値と最も類似し、これは、基準Dで特定された推定デノボ変異が、胎盤/胎児中で提示されたより多くの真の変異によって富化されてきたことを示唆する。
【0281】
図38は、母体血漿試料及び臍帯血中の様々な変異タイプの頻度カウントを示す。
図38において、血漿中で特定された変異は、臍帯血中で発掘された変異に類似している。これらのデータは、母体血漿中で検出された変異は、臍帯血データに示されるように、胎児ゲノム中に存在することを示唆する。
【0282】
図39Aは、本発明の実施形態に従う、異なるサイズフィルターにおけるPPV%及び回収率のグラフを示す。
図39Aは、余分な変異分率(M%)フィルタリングを適用しない場合に、サイズフィルタリングパラメータを変えることが、PPV%及び回収率にどのように著しく影響を及ぼすかを示す。
図39Bは、異なる変異分率カットオフにおけるPPV%及び回収率のグラフを示す。
図39Bは、余分なΔSフィルタリングが実施されなかった場合に、変異分率パラメータを変えることが、PPV%及び回収率に著しく影響を及ぼすことを示す。
【0283】
図40A~40Dは、異なる変異分率カットオフでの様々なサイズフィルターにおけるPPV%及び回収率のグラフを示す。M%の異なる基準でサイズフィルタリングパラメータを変えることは、PPV%及び回収率に相乗的に影響を及ぼす。
【0284】
図41は、サイズカットオフの関数として異なる変異分率カットオフでの回収率及びPPV%の曲線を示すプロットである。ΔS、M%、及びPPV%、回収率の間の相互作用を明かす体系的なプロット。
【0285】
C.推定デノボ変異の確認
47個のデノボ変異を確認し、検証することを目指した。プライマーは、推定デノボ変異のそれぞれを特異的に増幅するように設計され、父性、母性、胎盤、及び臍帯血ゲノムDNAのSanger配列決定がそれに続いた。結果は
図Iに示され、これは、48個の推定デノボ変異の次世代配列決定(NGS)及びSanger配列決定分析を示す。NGSは、上で称される大規模並列配列決定を指し、「Sanger seq」は、Sanger配列決定を指す。アレルカウントは、説明のために括弧内に示されている。これらの変異の内の1つ(TP5)は、臍帯血中で検出されたが、胎盤では検出されなかった。母体血漿中の胎児DNA分子は、ほとんどが胎盤に起源を持つため、臍帯血特異的変異は、母体血漿中で検出可能でないことになる。よって、残りの47個の胎盤由来変異のみが検証について妥当である。
【0286】
図40及び41は、47個のデノボ変異の表を示す。
図40及び41において、標的変異の染色体位置が、列2に示されている。列3において、母体血漿中で検出された遺伝子型が示されている。主要なアレルが、主要でないアレルより先に置かれている。列4において、変異部位のそれぞれでの主要でないアレルのものに対する主要なアレルを示すリードの比率が示されている。続く列において、大規模並列配列決定または次世代配列決定(NGS)に基づく結果が、Sanger配列決定結果と並んで示されている。47個の変異のうちの43個は、胎盤DNA中でのみ検出され、父性予備母性DNA中では検出されなかった。これは、母体血漿DNA配列決定によって特定された変異のうちの91%が、実際に真のデノボ変異であることを意味し、よって、Sanger配列決定は、血漿、母性DNA、不正DNA、及び胎盤DNAについてのNGSデータを確認した。変異TP45の検出のためのSanger配列決定反応は、失敗した。変異TP21、TP30、及びTP44のためのアッセイは、NGSとSanger配列決定との間での結果の不一致を示した。
【0287】
VIII.ヒト血漿中の無細胞DNAからの癌変異検出のためのシミュレーション分析
妊娠症例から生成された配列決定データを使用して、胎児がその父親から受け継いだ3,000個の一塩基変異体を選択し、それらが癌患者において癌によって発達した体細胞変異であると仮定した。換言すれば、癌患者の血漿試料からの無細胞DNA配列決定であるかのように、母体血漿DNA配列決定データを分析した。次いで、段階Dのフィルタリングアルゴリズムを適用したときに、血漿試料が25x、50x、100xのヒトゲノムカバレッジまでしか配列決定されなかった場合、変異体及び偽陽性のうちのいくつが検出されるかを判定した。配列決定データの25x、50x、及び100xは、それぞれ、血漿DNA配列決定データの255xの中からランダムに選択された。
【0288】
図44は、47個のデノボ変異及び3,000個の推定体細胞変異の検出における回収率及びPPVを示す。表1中の数のための段階Dのフィルタリングアルゴリズムは、ダイナミックカットオフ、再アライメント、変異分率>20%、及びサイズフィルター10bpを含む。
【0289】
次いで、コンピュータシミュレーションによるより広範な分析を実施した。
【0290】
図45A~45C及び46A~46Cは、可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。この分析のセットにおいて、25x~800xの範囲の血漿DNAシーケンシング深度を有し、1%~40%の範囲の腫瘍分率濃度を有し、腫瘍によって発達した体細胞変異の数が、3,000~30,000の範囲である状況をシミュレーションした。全ての分析は、段階Dのフィルタリングアルゴリズムに基づく。
【0291】
これらのシミュレーションのそれぞれについて、検出された体細胞変異の数ならびに偽陽性の数は、
図45A~45C及び46A~46Cに示されている。
図45A~45C及び46A~46Cに示されるように、多くの条件が、偽陽性より多い体細胞変異を検出させることになる。これらの条件は、血漿DNA分子中に存在する変異の負荷を評価するための「変異負荷試験」として臨床的に有用となる。このレベルが、例えば、年齢一致及び/もしくは性別一致対照と比較して、または自身の血液細胞DNAと比較して、参照範囲よりも大きい場合、癌が疑われることになる。このアプローチは、癌の検出のためのスクリーニングツールとして使用されることになる。
【0292】
IX.癌のための方法
上記のように、実施形態は、試験される対象における体細胞変異を正確に特定する方法を提供することができる。様々な実施形態は、増幅を用いない配列決定、最小限の増幅を伴う配列決定(例えば、2%未満の重複)、及び様々なフィルタリング基準を使用することができる。癌のレベルを判定するため、ならびに他の目的のために特定変異を使用することができる。
【0293】
A.変異の特定
図47は、本発明の実施形態に従う、ヒト対象の生体試料を分析することによってヒト対象における体細胞変異を特定するための方法4700を示すフローチャートである。生体試料には、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つDNA断片が含まれ、生体試料には、無細胞DNA断片が含まれる。方法4700は、コンピュータシステムによって少なくとも部分的に実施することができ、本明細書に記載される他の方法も同様である。
【0294】
ブロック4710で、分析される生体試料から鋳型DNA断片を得る。鋳型DNA断片には、無細胞DNA断片が含まれる。様々な実施形態では、腫瘍細胞または癌に関連付けられる細胞に由来する無細胞DNA断片は、生体試料中の無細胞DNA断片のうちの50%、40%、30%、20%、15%、10%、5%、または1%未満を構成する。生体試料は、血漿もしくは血清、または本明細書に言及された他のタイプの試料、または他の様式で無細胞DNAを含むものであってもよい。
【0295】
ブロック4720で、鋳型DNA断片を使用して、分析可能なDNA分子の配列決定用ライブラリを調製する。一実施形態では、分析可能なDNA分子の配列決定用ライブラリの調製は、鋳型DNA断片のDNA増幅のステップを含まない。別の実施形態では、いくらかのレベルの重複が生じるように、いくらかの増幅を実施してもよい。しかし、重複のレベルは、最小限である。様々な実施において、鋳型DNA断片からの配列決定用ライブラリの重複率は、5%未満、2%未満、または1%未満である。配列決定用ライブラリ中の分析可能な分子の数は、ライブラリ調製前に生体試料中に元来存在していた鋳型DNA断片の数よりも少ない場合がある。
【0296】
ブロック4730で、分析可能なDNA分子の配列決定用ライブラリを配列決定して、複数の配列リードを得る。本明細書に記載されるように、様々なタイプの配列決定手順を使用することができる。様々な深度及び幅を使用することができる。別の例として、単分子配列決定を実施してもよい。また、配列決定は、メチル化を意識した配列決定であってもよい。
【0297】
ブロック4740で、複数の配列リードをコンピュータシステムで受信する。配列リードは、任意の好適な方式または様式、例えば、配列決定用マシーンからのネットワーク上で、または記憶デバイス上で受信することができる。配列決定用マシーンから受信されたデータは、塩基割当を判定するために使用される生の強度値であり得る。
【0298】
ブロック4750で、コンピュータは、複数の配列リードを参照ヒトゲノムにアライメントして、複数の配列リードについてゲノム位置を判定することができる。様々な実施形態では、少なくとも30x、35x、40x、50x、75x、100x、150x、または200xのシーケンシング深度を使用することができる。アライメントされた配列リードは、参照ヒトゲノムの少なくとも0.1%、1%、5%、10%、及び15%等、参照ヒトゲノムの様々な割合を含み得る。
【0299】
ブロック4760で、コンピュータシステムは、ヒト対象に対応する生得的ゲノムについての情報を得ることができる。生得的ゲノムは、ヒト対象のものであるか、ヒト対象に対応する参照ゲノムであってもよい。例えば、生得的ゲノムは、ヒト対象の指定の集団についての参照ゲノムであり得る。
【0300】
ブロック4770で、コンピュータシステムは、配列リードを生得的ゲノムと比較して、ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することができる。一態様において、フィルタリングされたセットの各座位において、生得的ゲノムと比べて配列変異体を有する配列リードの数は、カットオフ値を上回り、カットオフ値は、1より大きい。カットオフ値は、本明細書に記載されるように、ダイナミックカットオフ値であり得る。カットオフ値は、1つのフィルタリング基準であり得、他のものを適用することができる。フィルタリングされたセットは、潜在的に様々なフィルタリング基準を使用した、全てのフィルタリングステップの後の最終出力であり得る。
【0301】
ブロック4780で、他のフィルタリング基準を使用して、ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することができる。かかるフィルタリング基準は、他の箇所及び以下に記載される。
【0302】
ブロック4790で、特定された体細胞変異を様々な目的のために使用することができる。目的の様々な例は、以下に提供される。例えば、変異負荷を判定することができ、癌のレベルを判定するためにそれを使用することができる。さらなる試験を設計するため、潜在的に患者のさらなる評価のため、かつ患者の治療を判定するために使用することができる。
【0303】
他のフィルタリング基準を適用する例は以下、ならびに本明細書の他の箇所に記載される。他のフィルタリング基準を使用して、ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することができる。フィルタリング基準のうちのいくつかについて、潜在的に体細胞変異を有するものとして特定された候補座位のセットを分析することができる。任意の好適な基準、例えば、固定カットオフ、ダイナミックカットオフ、または他の従来使用されてきたフィルタリング基準を使用して、候補座位を特定することができる。よって、得られた候補座位のセットは、別のフィルタリング基準の適用の出力であってもよい。
【0304】
1.再アライメント
再アライメントについて、潜在的に体細胞変異を有するものとして特定された候補座位の第1のセットのそれぞれを分析することができる。第1のアライメント手順を使用して候補座位とアラインし、かつ配列変異体を有する配列リードのそれぞれを、再アライメント手順においてさらに分析することができる。例えば、V.B.項に記載されるような第1のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第2のアライメント手順を使用して、配列リードが候補座位にアラインするかどうかを判定することができる。第2のアライメント手順を使用して配列リードが候補座位と再アラインする場合、第2のアライメント手順での再アライメントのマッピングクオリティを判定することができる。
【0305】
第2のアライメントのマッピングクオリティが判定されると、マッピングクオリティをクオリティ閾値と比較して、配列リードが低クオリティであるかどうかを判定することができる。マッピングクオリティのクオリティ閾値との比較に基づいて、配列リードを廃棄するかどうかを判定することができる。閾値未満のリードは廃棄することができるという判定であり得る。他の実施形態では、比較に基づいてスコア(例えば、重み付け)を判定することができ、複数のクオリティ閾値との比較を実施して、スコアを判定し得る。次いで、1つ以上の他のフィルタリング基準からのスコアを集合的に使用して、リードを廃棄するかどうかを判定することができる。特定の様式にかかわらず(かつ、上に提供される例を含め)、マッピングクオリティがクオリティ閾値よりも低い場合に、マッピングクオリティがクオリティ閾値より高い場合よりも、配列リードを廃棄する可能性がより高いことを規定する。
【0306】
このフィルタリングプロセスの一環として、いくつかの残った配列リードが得られる。残った配列リードの数を、候補座位を特定するために元来使用された閾値と同じであり得る候補閾値と比較することができる。配列リードについてのものと同様の可能性分析において、残った配列リードの数の候補閾値との比較に基づいて、候補座位を廃棄するかどうかを判定することができる。分析は、閾値との比較に基づいて厳密であってもよく、または上記のようにスコアリング(重み付け)システムを使用してもよい。いずれにせよ、残った配列リードの数が候補閾値よりも低い場合に、残った配列リードの数が候補閾値より高い場合よりも、候補座位を廃棄する可能性がより高いことを規定する。残った候補座位を使用して、体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。
【0307】
2.サイズ
サイズ分析について、候補座位のセットのそれぞれを分析することができる。配列変異体を有するDNA断片の第1の群と野生型アレルを有するDNA断片の第2の群との間のサイズ差を判定することができる。かかるサイズ分析は、本明細書に記載されてきた。サイズ差は、2つの群のサイズ分布の任意の統計値の間であり得る。例えば、DNA断片の第1の群及びDNAの第2の群のサイズ中央値の差を使用することができる。別の例として、第1の群と第2の群との間のサイズの累積度数における最大値。米国特許出願公開第2011/0276277号及び同第2013/0237431号に記載される任意のサイズ値。
【0308】
サイズ差を、分類される癌または他の状態を有することが既知である試料から判定することができるサイズ閾値と比較することができる。次いで、その比較に基づいて、潜在的変異としての候補座位を廃棄するかどうかを判定することができる。他のフィルタリング基準について、比較を厳密に使用するか、またはスコアとして使用することができる。いずれにせよ、サイズ差がサイズ閾値よりも低い場合に、サイズ差がサイズ閾値より高い場合よりも、候補座位を廃棄する可能性がより高いことを規定する。残った候補座位を使用して、ヒト対象において体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。
【0309】
3.ヒストン修飾
ヒストン修飾について、癌に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することができる。候補座位が領域の群のうちの1つにあるかどうかに基づいて候補座位を廃棄するかどうかを判定することによって、候補座位のセットのそれぞれを分析することができる。他のフィルタリング基準について、比較を厳密に使用するか、またはスコアとして使用することができる。いずれにせよ、候補座位が領域の群のうちの1つにない場合に、候補座位が領域の群のうちの1つにある場合よりも、候補座位を廃棄する可能性がより高いことを規定する。残った候補座位を使用して、ヒト対象において体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。
【0310】
4.変異分率
変異分率について、候補座位のセットのそれぞれを分析することができる。配列変異体を有する配列リードの分率を判定することができ、次いで、それを分率閾値と比較することができる。次いで、例えば、スコアまたは厳密なカットオフを使用した比較に基づいて、潜在的変異としての候補座位を廃棄するかどうかを判定することができる。いずれにせよ、分率が分率閾値(例えば、5%、10%、20%、または30%)よりも低い場合に、分率が分率閾値より高い場合よりも、候補座位を廃棄する可能性がより高いことを規定する残った候補座位を使用して、ヒト対象において体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。
【0311】
いくつかの実施形態では、生体試料中の腫瘍DNAの測定された分率濃度に基づいて分率閾値を判定することができる。生体試料中の腫瘍DNAの分率濃度は、複数の領域のそれぞれについて測定することができる(例えば、同様の技巧を使用するが、領域内の1つ以上の座位に特異的なデータを利用して)。候補座位に使用される分率閾値は、候補座位が存在する領域について測定された分率濃度であってもよい。
【0312】
別の実施形態では、異常領域を使用して分率閾値を判定し得る。コピー数異常を有する1つ以上の異常領域を特定することができる。異常領域における候補座位に使用される分率閾値は、異常領域がコピー数増加またはコピー数減少のいずれを呈するかに依存し得る。増加についてはより高い閾値が使用され得、減少についてはより低い閾値が使用され得る。
【0313】
フィルタリングされた座位のセットのそれぞれについて生得的ゲノムと比較した、配列変異体を有する配列リードの数を判定するために、配列リードを廃棄するかどうかを判定することの一部として、コピー数異常を有する1つ以上の異常領域を使用することもできる。コピー数増加を呈する第1の異常領域からの第1の配列リードが、コピー数減少を呈する第2の異常領域からの第2の配列リードよりも、体細胞変異を有する可能性が高い。
【0314】
候補座位のセットを分析することで、1つ以上の異常領域を特定することができる。生得的ゲノムと比較した、配列変異体の明白な変異分率を計算することができる。複数の領域のそれぞれについて、異常領域中の候補座位の明白な変異分率における分散を判定することができる。分散を分散閾値と比較することができ、コピー数増加を呈する異常領域は、閾値より大きい分散を有する。
【0315】
5.メチル化状態
メチル化状態について、配列決定は、メチル化を意識した配列決定である。候補座位のセットのそれぞれを分析することができ、候補座位にアラインし、かつ配列変異体を有する配列リードのそれぞれが分析される。配列リードについて、1つ以上の部位(例えば、CpG部位)における対応する分析可能なDNA分子のメチル化状態を判定することができる。メチル化状態に基づいて、配列リードを廃棄するかどうかを判定することができる。他のフィルタリング基準について、比較を厳密に使用するか、またはスコアとして使用することができる。いずれにせよ、メチル化状態がメチル化されていない場合に、メチル化状態がメチル化されている場合よりも、配列リードを廃棄する可能性がより高いことを規定する。
【0316】
残った配列リードの数を、候補座位を特定するために元来使用された閾値と同じであり得る候補閾値と比較することができる(他のフィルタリング基準のための候補閾値の他の使用についても同様である)。配列リードについてのものと同様の可能性分析において、残った配列リードの数の候補閾値との比較に基づいて、候補座位を廃棄するかどうかを判定することができる。分析は、閾値との比較に基づいて厳密であってもよく、または上記のようにスコアリング(重み付け)システムを使用してもよい。いずれにせよ、残った配列リードの数が候補閾値よりも低い場合に、残った配列リードの数が候補閾値より高い場合よりも、候補座位を廃棄する可能性がより高いことを規定する。残った候補座位を使用して、体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。
【0317】
6.血漿DNA終結位置
血漿DNA終結位置について、候補座位のセットのそれぞれを分析することができ、候補座位にアラインし、かつ配列変異体を有する配列リードのそれぞれが分析される。配列リードについて、配列リードの端部がアライメントする位置に対応する終結位置を判定することができる。終結位置を複数の癌特異的または癌関連末端位置と比較することができる。この比較に基づいて、配列リードを廃棄するかどうかを判定する。終結位置が癌特異的または癌関連末端位置でない場合に、終結位置が癌特異的または癌関連末端位置である場合よりも、配列リードを廃棄する可能性がより高いことを規定する。残った配列リードの数を使用して、候補座位を廃棄するかどうかを判定することができる。
【0318】
7.一本鎖配列決定
配列決定は、各鋳型DNA分子について2つのストランドリードをもたらす後続の配列ステップを提供する一本鎖配列決定用ライブラリ調製プロセスを使用して実施することができる。一本鎖配列決定ライブラリ調製プロセスの一例は、Snyder et al.Cell 2016;164:57-68.に記載されている。候補座位のセットのそれぞれを分析することができ、候補座位にアラインするストランドリードの各対が分析される。両方のストランドが配列変異体を有するかどうかを判定することができる。次いで、両方のストランドが配列変異体を有するかどうかに基づいて、配列リードを廃棄するかどうかを判定することができる。両方のストランドが配列変異体を有しない場合に、単一のストランドリードが配列変異体を有する場合よりも、配列リードを廃棄する可能性がより高いことを規定する。残った配列リードの数を使用して、候補座位を廃棄するかどうかを判定することができる。
【0319】
B.癌のレベルの判定
図48は、本発明の実施形態に従う、同定された体細胞変異を使用して、対象の生体試料を分析する方法4800を示すフローチャートである。
【0320】
ブロック4810で、体細胞変異が特定される。体細胞変異は、
図47の方法4700について記載されるように特定され得る。
【0321】
ブロック4820で、フィルタリングされた座位のセットにおけるある量の座位を使用して、ヒト対象における変異負荷を判定する。様々な実施形態では、変異負荷を、体細胞変異の未処理数、塩基の数当たりの体細胞変異の密度、体細胞変異を有するものとして特定されたゲノム領域の座位の割合、特定量の試料において認められた体細胞変異の数、または参照負荷と比較した増加として判定することができる。
【0322】
ブロック4830で、変異負荷を癌閾値と比較して、癌のレベルを判定する。癌患者と癌を有しない対象との間の識別に基づいて、癌閾値を判定することができる。当業者であれば、所望される感度及び特異性によって異なる閾値を使用することができることを理解するであろう。本明細書に示されるように、実施形態を使用して、健常対象と癌、例えばHCCを有する対象とを識別することができる変異負荷を判定することができる。
【0323】
ブロック4840で、癌のレベルが腫瘍の存在を示す場合、癌の起源となる組織を判定することができる。例として、メチル化シグネチャ、またはヒストン修飾、または分析されたDNA断片の終結位置の分布を使用して、かかる判定を下すことができる。
【0324】
ヒストン修飾を使用する一実施形態では、参照ヒトゲノムの第1の複数のセグメントのそれぞれについて、ヒストン修飾の第1の量が判定される。この第1の量は、どの座位が関連するヒストン修飾に関連付けられるかについて利用可能な参照情報から判定することができる。参照ヒトゲノムの第2の複数のセグメントのそれぞれについて、フィルタリングされた座位のセットの第2の量を判定することができる。次いで、差異セグメントは、互いに相関され得る。したがって、ヒストン修飾の第1の量が第1の閾値を上回り、かつフィルタリングされた座位のセットの第2の量が第2の閾値を上回る、セグメントの第1のセットを判定することができる。2つの閾値は、同じであってもよい。閾値は、ゲノムのセグメントが、高ヒストン修飾及び多くの体細胞変異を有するものであることを確実にすることができる。量及び閾値は、未処理数または密度(例えば、メガベースごと)であってもよい。
【0325】
ブロック4850で、判定された癌のレベル、特定された変異、及び/または起源となる組織によって、治療を提供することができる。例えば、特定された変異は、特定の薬物または化学療法で標的とすることができる。起源となる組織を使用して、外科手術を導くことができる。また、癌のレベルを使用して、任意のタイプの治療においてどれほど積極的になるべきかを判定することができ、これもまた、癌のレベルに基づいて判定され得る。
【0326】
C.特定された変異の他の使用
上記のように、試験される対象が癌を有することを指標として変異の数を使用することができる。一実施形態では、検出された変異の数が、癌を有しない対象において検出されたものよりも多い場合に、癌を有する可能性が高いものとして個体を分類することができる。
【0327】
一度特定された変異のセットを使用して、将来の癌患者の監視のため、確認目的のため、より精密な測定目的のため、または連続測定目的(これは網羅的配列決定を複数回繰り返すよりも安価となる)のための、より標的化されたアッセイ(変異負荷に表される変異に基づく)の設計を知らせることができる。かかる連続測定は、経過観察目的のため、例えば、血漿中の変異シグネチャの濃度が増加している(潜在的に予後不良の兆候)か、または減少している(潜在的に予後良好の兆候、または癌が選択された治療に応答性であることの兆候)かを確認するために有用となる。
【0328】
変異負荷において検出された特定の変異は、関連する療法または薬物、例えば、標的療法を選択するよう、臨床医に情報を提供することになる。例として、上皮成長因子受容体遺伝子中の特定の変異を有する癌を治療するために、チロシンキナーゼ阻害剤を使用することができる。
【0329】
異なる器官/組織から発達した腫瘍は、異なる変異プロファイルを有することが発見されてきたため、特定された変異の範囲を使用して、腫瘍の部位の特定を援助することができる(Polak et al.Nature 2015;518:360-364)。これはまた、検出された変異のセットの原因として結び付けられる環境曝露及び発癌物質についての情報も提供することができる(Alexandrov et al.Nature 2013;500:415-421)。特定された変異の範囲を使用して、予後診断を援助することができる。例えば、いくつかの変異は、特に侵攻性または緩慢性である癌のマーカーであり得る。
【0330】
出生前試験の文脈において、特定された変異のセットを使用して、母体血漿中におけるかかる変異の特異的検出のための、より標的化されたアッセイ(変異負荷に表される変異に基づく)の設計を知らせることができる。また、出生前試験の文脈において、特定された変異のセットを使用して、その症例の特別の臨床管理の必要性を臨床医に知らせることができる。一例として、男胎児における散発性血友病変異の検出は、妊娠女性が妊娠を満期まで継続することを選択した場合に、出産手順中の注意(例えば、鉗子分娩の回避)の必要性を示し得る。別の例として、先天性副腎過形成(CAH)の家族健康歴を有しない家族における、CAHの変異について同型接合または複合異型接合である女胎児の検出は、胎児の生殖器の男性化のリスクを低減させるために、妊娠女性の早期デキサメタゾン治療の必要性を臨床医に警告することになる。
【0331】
X.胎児分析のための方法
図49は、本発明の実施形態に従う、胎児を懐胎する女性対象の生体試料を分析することによって胎児のデノボ変異を特定するための方法4900を示すフローチャートである。生体試料には、胎児及び女性対象からの無細胞DNA断片が含まれる。
【0332】
ブロック4910で、分析される生体試料から鋳型DNA断片を得る。鋳型DNA断片には、無細胞DNA断片が含まれる。ブロック4910は、
図47の方法4710について記載されるものと同様に実施することができる。
【0333】
ブロック4920で、鋳型DNA断片を使用して、分析可能なDNA分子の配列決定用ライブラリを調製する。ブロック4920は、
図47の方法4720について記載されるものと同様に実施することができる。
【0334】
ブロック4930で、分析可能なDNA分子の配列決定用ライブラリを配列決定して、複数の配列リードを得る。ブロック4930は、
図47の方法4730について記載されるものと同様に実施することができる。
【0335】
ブロック4940で、複数の配列リードをコンピュータシステムで受信する。ブロック4940は、
図47の方法4740について記載されるものと同様に実施することができる。
【0336】
ブロック4950で、コンピュータは、複数の配列リードを参照ヒトゲノムにアライメントして、複数の配列リードのゲノム位置を判定することができる。ブロック4950は、
図47の方法4750について記載されるものと同様に実施することができる。
【0337】
ブロック4960で、コンピュータシステムは、女性対象の母性ゲノム及び胎児の父親の父性ゲノムについての情報を得ることができる。情報には、変異の存在について検証される座位での両親についての遺伝子型情報が含まれ得る。かかる遺伝子型情報は、当業者に既知である任意の好適な技巧を介して得ることができる。
【0338】
ブロック4970で、コンピュータシステムは、配列リードを母性ゲノム及び父性ゲノムと比較して、胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することができる。一態様において、フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する配列リードの数は、カットオフ値を上回り、カットオフ値は1より大きい。
【0339】
ブロック4980で、他のフィルタリング基準を使用して、胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することができる。かかるフィルタリング基準は、他の箇所、例えば、IX項に記載される。
【0340】
ブロック4990で、特定されたデノボ変異を様々な目的のために使用することができる。かかる目的の例は、IX.C.項に見出すことができる。
【0341】
XI.コンピュータシステム
本明細書で言及されるコンピュータシステムはいずれも、任意の好適な数のサブシステムを利用し得る。かかるサブシステムの例は、
図15のコンピュータ装置において示される。いくつかの実施形態では、コンピュータシステムは単一のコンピュータ装置を含み、サブシステムはコンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、それぞれがシステムであり、内部構成要素を有する複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯デバイスを含み得る。
【0342】
図15に示されるサブシステムは、システムバス75を介して相互接続される。プリンタ74、キーボード78、記憶デバイス(複数可)79、ディスプレイアダプタ82に結合されるモニタ76、及び他のもの等の追加のサブシステムが示される。I/Oコントローラ71に結合する周辺機器及び入力/出力(I/O)デバイスは、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))等の当該技術分野において既知である任意の数の手段で、コンピュータシステムに接続され得る。例えば、I/Oポート77または外部インターフェース81(例えば、Ethernet、Wi-Fi等)を使用して、Internet等の広域ネットワーク、マウス入力デバイス、またはスキャンに、コンピュータシステム10を接続してもよい。システムバス75を介した相互接続は、中央処理装置73が各サブシステムと通信し、システムメモリ72または記憶デバイス(複数可)79(例えば、ハードドライブもしくは光学ディスクなどの固定ディスク)からの命令の実行、及びサブシステム間の情報交換を制御することを可能にする。システムメモリ72及び/または記憶デバイス(複数可)79は、コンピュータ可読媒体を具体化してもよい。別のサブシステムは、カメラ、マイクロホン、及び加速度計等のデータ収集デバイス85である。本明細書に言及されるデータのうちのいずれも、1つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。
【0343】
コンピュータシステムは、外部インターフェース81によって、または内部インターフェースによってともに接続された、複数の同一の構成要素またはサブシステムを含んでもよい。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信することができる。そのような例において、1つのコンピュータをクライエントとして、及び別のコンピュータをサーバとして見なすことができ、これらのそれぞれは、同一のコンピュータシステムの一部であってもよい。クライエント及びサーバはそれぞれ、複数のシステム、サブシステム、または構成要素を含み得る。
【0344】
本発明の実施形態のうちのいずれも、ハードウェア(例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ)を使用して、かつ/またはモジュラー様式もしくは統合様式で一般にプログラム可能な処理装置とともにコンピュータソフトウェアを使用して、制御論理の形態で実装され得ることを理解されたい。本明細書で使用される場合、処理装置は、シングルコア処理装置、同一の集積チップ上のマルチコア処理装置、または回路基板上もしくはネットワーク化された複数の処理ユニットを含む。本開示及び本明細書に提供される教示に基づいて、当業者は、ハードウェア及びハードウェアとソフトウェアとの組み合わせを使用して本発明の実施形態を実装するための他の手段及び/または方法を理解し、認識するだろう。
【0345】
本出願に記載されるソフトウェア構成要素または機能のうちのいずれも、例えば、Java、C、C++、C#、Objective-C、Swift等の任意の好適なコンピュータ言語、または例えば、従来の技術もしくはオブジェクト指向の技術を使用するPerlもしくはPython等のスクリプト言語を使用する、処理装置によって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶及び/または伝送のために、コンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得、好適な媒体としては、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、磁気媒体(ハードドライブもしくはフロッピーディスク等)、または光学媒体(コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)等)、及びフラッシュメモリ等が挙げられる。コンピュータ可読媒体は、そのような記憶デバイスまたは伝送デバイスの任意の組み合わせであってもよい。
【0346】
そのようなプログラムはまた、コードされ、インターネットを含む様々なプロトコルに従う有線、光学、及び/または無線ネットワークを介した伝送に適合した搬送波信号を使用して、伝送されてもよい。したがって、本発明の一実施形態に従うコンピュータ可読媒体は、そのようなプログラムでコードされたデータ信号を使用して作製されてもよい。プログラムコードでコードされたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されても、(例えば、インターネットダウンロードを介して)他のデバイスとは別々に提供されてもよい。いかなるそのようなコンピュータ可読媒体も、単一のコンピュータ製品(例えば、ハードドライブ、CD、またはコンピュータシステム全体)上またはその中に存在してもよく、あるシステムまたはネットワーク内の異なるコンピュータ製品上またはその中に存在してもよい。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載される結果のうちのいずれかをユーザに提供するための他の好適なディスプレイを含み得る。
【0347】
本明細書に記載される方法のうちのいずれも、全体的または部分的に、ステップを実施するように構成され得る1つ以上の処理装置を含むコンピュータシステムで実施することができる。したがって、実施形態は、本明細書に記載される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはステップのそれぞれの群を実施する。番号付けされたステップとして提示されるものの、本明細書の方法のステップは、同時にまたは異なる順序で実施することができる。さらに、これらのステップの部分が、他の方法の他のステップの部分とともに使用されてもよい。また、あるステップの全てまたは部分が任意であってもよい。さらに、本方法のうちのいずれかのステップのうちのいずれも、モジュール、回路、またはこれらのステップを実施するための他の手段で実施することができる。
【0348】
特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨及び範囲から逸脱することなく、任意の好適な様式で組み合わせることができる。しかしながら、本発明の他の実施形態は、個々の各態様、またはこれらの個々の態様の特定の組み合わせに関する特定の実施形態に向けられ得る。
【0349】
本発明の例示的な実施形態についての上記の記述は、図示及び説明の目的で提示されている。徹底的であること、または本発明を記載されるものと寸分違わぬ形態に限定することは意図されず、上記の教示に照らして、多くの修正及び変更が可能である。
【0350】
「1つの(a)」、「1つの(an)」または「その(the)」の引用は、それとは反対に具体的に示されない限り、「1つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「を除いてまたは」ではなく「を含んでまたは」を意味することが意図される。
【0351】
本明細書に言及される全ての特許、特許出願、出版物、及び記述の全体が、あらゆる目的で参照により組み込まれる。いかなるものも、先行技術であることは認められていない。
【手続補正書】
【提出日】2022-11-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ヒト対象の生体試料を分析することにより前記ヒト対象における腫瘍由来変異を特定する方法であって、前記生体試料が無細胞DNA断片を含み、前記方法が、
前記生物試料中の複数のDNA断片のそれぞれについて、1以上の配列リードを得ることによって複数の配列リードを得ることと、
前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードをヒト対象のコンセンサス配列と比較して、前記ヒト対象の何らかの組織において潜在的に体細胞変異を有するものとして、候補座位の第1のセットを特定することと、
ここで、前記の候補遺伝子座位の第1のセットの各々の座位において、前記コンセンサス配列と比べた配列変異体を有する配列リードの数がカットオフ値を上回る、
潜在的に体細胞変異を有するものとして特定された前記の候補座位の第1のセットの各々について、
前記配列変異体を有する配列リードの分率を判定することと、
前記分率を分率閾値と比較することと、
前記比較に基づいて、潜在的な変異として前記候補座位を廃棄するかどうかを判定することと、ここで、前記分率閾値よりも低い分率は、前記分率閾値よりも高い分率よりも、前記候補座位を廃棄するより高い可能性を与える、
残った候補座位を用いて、ヒト対象において体細胞変異を有するとしてフィルタリングされた座位のセットを特定することと
を含む、方法。
【請求項2】
前記カットオフ値が1より大きい、請求項1に記載の方法。
【請求項3】
前記分率閾値が、20%である、請求項1又は2に記載の方法。
【請求項4】
前記分率閾値が、30%である、請求項1又は2に記載の方法。
【請求項5】
前記生体試料中の腫瘍DNAの分率濃度を測定することをさらに含み、前記分率閾値が、前記分率濃度に基づいて判定される、請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記生体試料中の腫瘍DNAの分率濃度が、複数の領域のそれぞれについて測定され、候補座位に使用される前記分率閾値が、前記候補座位が存在する前記領域について測定された前記分率濃度に依存する、請求項5に記載の方法。
【請求項7】
コピー数異常を有する1つ以上の異常領域を特定することをさらに含み、前記1つ以上の異常領域における候補座位に使用される前記分率閾値が、前記異常領域がコピー数増加またはコピー数減少のいずれを呈するかに依存する、請求項1~6のいずれか1項に記載の方法。
【請求項8】
コピー数異常を有する1つ以上の異常領域を特定することと、
前記候補座位の第1のセットのそれぞれについてのコンセンサス配列と比較した、配列変異体を有する配列リードの数を判定するために、配列リードを廃棄するかどうかを判定することの一部として、コピー数増加を呈する第1の異常領域からの第1の配列リードが、コピー数減少を呈する第2の異常領域からの第2の配列リードよりも体細胞変異を有する可能性が高いことを特定することと、
をさらに含む、請求項1~6のいずれか1項に記載の方法。
【請求項9】
前記1つ以上の異常領域が、
潜在的に体細胞変異を有するものとして特定された候補座位の前記第1のセットのそれぞれについて、
前記コンセンサス配列と比較した、配列変異体の明白な変異分率を計算することと、
複数の領域のそれぞれについて、
前記異常領域中の前記候補座位の明白な変異分率における分散を判定することと、
前記分散を分散閾値と比較することと、によって特定され、コピー数増加を呈する異常領域が、前記閾値より大きい分散を有する、請求項8に記載の方法。
【請求項10】
前記1以上の配列リードが、メチル化を意識した配列決定を用いて得られ、前記ヒト対象において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記メチル化状態に基づいて、前記配列リードを廃棄するかどうかを判定することと、ここで、前記メチル化状態がメチル化されていない場合に、前記メチル化状態がメチル化されている場合よりも、前記配列リードを廃棄するより高い可能性を与え、それによって残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数と前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することと、ここで、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄するより高い可能性を与える、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、
をさらに含む、請求項1~9のいずれか1項に記載の方法。
【請求項11】
前記ヒト対象において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記配列リードの端部がアライメントする位置に対応する終結位置を判定することと、
前記終結位置を複数の癌特異的または癌関連末端位置と比較することと、
前記終結位置と複数の癌特異的または癌関連末端位置との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することと、ここで、前記終結位置が癌特異的または癌関連末端位置でない場合に、前記終結位置が癌特異的または癌関連末端位置である場合よりも、前記配列リードを廃棄するより高い可能性を与える、それによって残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することと、ここで、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄するより高い可能性を与える、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、
をさらに含む、請求項1~9のいずれか1項に記載の方法。
【請求項12】
前記1以上の配列リードが、前記複数のDNA断片の各DNA断片について2つのストランドリードをもたらす後続の配列ステップを提供する一本鎖配列決定用ライブラリ調製プロセスを使用して得られ、前記ヒト対象において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第2のセットのそれぞれについて、
前記候補座位にアライメントする各ストランドリード対について、
両方のストランドが前記配列変異体を有するかどうかを判定することと、
両方のストランドが前記配列変異体を有するかどうかに基づいて、前記配列リードを廃棄するかどうかを判定することと、ここで、両方のストランドが前記配列変異体を有しない場合に、単一のストランドリードが前記配列変異体を有する場合よりも、前記配列リードを廃棄するより高い可能性を与え、それによって残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することと、ここで、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄するより高い可能性を与える、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、
をさらに含む、請求項1~9のいずれか1項に記載の方法。
【請求項13】
前記ヒト対象に対応する前記コンセンサス配列が、ヒト対象の指定の集団における参照配列である、請求項1~12のいずれか1項に記載の方法。
【請求項14】
前記アライメントされた配列リードが、前記参照ヒトゲノムのうちの少なくとも5%を構成する、請求項1~13のいずれか1項に記載の方法。
【請求項15】
前記アライメントされた配列リードが、前記参照ヒトゲノムのうちの少なくとも10%を構成する、請求項14に記載の方法。
【請求項16】
少なくとも25xのシーケンシング深度が使用される、請求項1~15のいずれか1項に記載の方法。
【請求項17】
前記シーケンシング深度が、少なくとも50xである、請求項16に記載の方法。
【請求項18】
前記シーケンシング深度が、少なくとも100xである、請求項16に記載の方法。
【請求項19】
前記生物試料が血漿または血清を含む、請求項1~18のいずれか1項に記載の方法。
【請求項20】
前記ヒト対象の前記生物試料が、尿、腹水(ascetic fluid)、腹水唾液(peritoneal fluid)、脳脊髄液及び大便試料からなる群から選択される1つ以上を含む、請求項1~18のいずれか1項に記載の方法。
【請求項21】
請求項1~20のいずれかに記載の方法を実施するコンピュータシステムを制御するための、複数の教示を格納するコンピュータ可読媒体。
【請求項22】
少なくともプロセッサ及びメモリを更に含む、請求項1~20のいずれか1項に記載の方法を実施するための手段を含むコンピュータシステム。