IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ チャイニーズ ユニバーシティ オブ ホンコンの特許一覧

特許7546946癌の検出のための血漿DNA中のサイズ及び数異常の使用
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-30
(45)【発行日】2024-09-09
(54)【発明の名称】癌の検出のための血漿DNA中のサイズ及び数異常の使用
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20240902BHJP
   C12M 1/00 20060101ALI20240902BHJP
   C12N 15/11 20060101ALN20240902BHJP
【FI】
C12Q1/6869 Z ZNA
C12M1/00 A
C12N15/11 Z
【請求項の数】 40
(21)【出願番号】P 2022168977
(22)【出願日】2022-10-21
(62)【分割の表示】P 2020213845の分割
【原出願日】2016-01-13
(65)【公開番号】P2022191459
(43)【公開日】2022-12-27
【審査請求日】2022-11-21
(31)【優先権主張番号】62/102,867
(32)【優先日】2015-01-13
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/111,534
(32)【優先日】2015-02-03
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】512037244
【氏名又は名称】ザ チャイニーズ ユニバーシティ オブ ホンコン
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100150810
【弁理士】
【氏名又は名称】武居 良太郎
(74)【代理人】
【識別番号】100134784
【弁理士】
【氏名又は名称】中村 和美
(72)【発明者】
【氏名】ロ ユク-ミーン デニス
(72)【発明者】
【氏名】チウ ロッサ ワイ クン
(72)【発明者】
【氏名】チャン クワン チー
(72)【発明者】
【氏名】ジアーン ペイヨーン
【審査官】松原 寛子
(56)【参考文献】
【文献】米国特許出願公開第2013/0237431(US,A1)
【文献】国際公開第2009/051842(WO,A1)
【文献】PNAS,2015年,doi:10.1073/pnas.1500076112,E1317-E1325
【文献】PNAS,2014年,Vol.111,p.8583-8588
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/68
C12N 15/00-15/90
C12M 1/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
生物の生体試料を分析する方法であって、前記生体試料が核酸分子を含み、前記生体試料中、前記核酸分子のうちの少なくともいくつかが無細胞であり、前記方法が、
前記生物の複数の染色体領域を特定すること、ここで、各染色体領域が複数の座位を含み、前記複数の染色体領域が亜染色体であり、
前記生体試料中の複数の前記核酸分子のそれぞれについて、
前記生物の基準ゲノムにおける前記核酸分子の位置を特定すること、
前記複数の染色体領域のそれぞれについて、
前記特定された位置に基づいて、核酸分子のそれぞれの群を前記染色体領域に由来するものとして特定すること、ここで、前記それぞれの群が、前記染色体領域の前記複数の座位のそれぞれに位置する少なくとも1つの核酸分子を含み、
コンピュータシステムによって、核酸分子の前記それぞれの群のそれぞれの量を算出すること、ここで、それぞれの量はそれぞれの群の前記核酸分子の特性を規定し、
前記それぞれの量をそれぞれの基準値と比較して、前記染色体領域が欠失または増幅を呈するかどうかについての分類を決定すること、ここで、それぞれの基準値は、1つ以上の基準試料の核酸分子の特性に基づいて決定される、
欠失または増幅常を呈する染色体領域の試験パターンを決定すること、ここで、前記試験パターンは、
欠失または増幅を呈する染色体領域の1セット、
増幅を呈する前記セットのうちの第1のサブセット、
欠失を呈する前記セットのうちの第2のサブセット
を含み、
前記試験パターンを癌の種類について欠失または増幅を呈する染色体領域の基準パターンと比較すること、
前記比較に基づいて、前記基準パターンと同一の欠失または増幅を呈する試験パターンの領域の第1の量を決定すること、並びに
前記第1の量を第1の閾値と比較して、前記生体試料が前記癌の種類を呈するかどうかについての分類を決定すること、
を含前記第1の量が前記第1の閾値を超える場合に、前記生体試料が前記癌の種類を呈すると分類する、方法。
【請求項2】
前記第1のサブセットが複数の染色体領域を含む、請求項1に記載の方法。
【請求項3】
前記複数の染色体領域が、オーバーラップしない、請求項1に記載の方法。
【請求項4】
前記それぞれの群のうちの少なくとも1つの前記核酸分子の前記特性が、前記染色体領域の1つのハプロタイプのものであり、前記それぞれの基準値が、前記染色体領域の別のハプロタイプのものである、請求項1に記載の方法。
【請求項5】
前記それぞれの群のうちの少なくとも1つの前記核酸分子の前記特性が、前記染色体領域内の位置を有するいくつかの核酸分子を含む、請求項1に記載の方法。
【請求項6】
前記それぞれの群のうちの少なくとも1つの前記核酸分子の前記特性が、サイズ分布を含む、請求項1に記載の方法。
【請求項7】
前記それぞれの値が、前記サイズ分布の平均値、前記サイズ分布の中央値、前記サイズ分布の前記の最頻値、またはサイズ閾値未満のサイズを有する核酸分子の割合を含む、請求項6に記載の方法。
【請求項8】
前記複数の基準パターンが、無細胞核酸分子の組織及び/または混合物の基準試料から決定される、請求項1に記載の方法。
【請求項9】
前記第1の種類の癌が、HCC、結腸直腸癌、乳癌、肺癌、または鼻咽頭癌腫である、請求項1に記載の方法。
【請求項10】
前記第1の基準パターンが、それぞれが増幅、欠失、または異常なしの定義された状態を有する第1の数の領域を含み、前記領域の第1の量が、前記試験パターンが一致する前記第1の数の領域のパーセンテージである、請求項1に記載の方法。
【請求項11】
前記癌の種類が第1の種類の癌である、請求項1に記載の方法であって、
異なる種類の癌の基準パターンのセットをクラスター化すること、ここで、各クラスターが、異なる種類の癌に対応し、
前記第1の種類の癌に対応する第1のクラスターの重心を定義すること、ここで、前記重心が、前記第1のクラスターの少なくとも所定の数の基準パターンによって共有される、前記第1のクラスターの前記基準パターンの領域に対応し、
前記第1のクラスターと前記重心との境界からの距離を前記第1の閾値として定義すること、
によって、前記第1の閾値を決定すること、
を更に含む、方法。
【請求項12】
前記基準パターンが第1の基準パターンであり、
前記癌の種類が第1の種類の癌である、請求項1に記載の方法であって、
前記方法が、
第2の種類の癌について欠失または増幅を呈する染色体領域の第2の基準パターンと同一の欠失または増幅を呈する前記試験パターンの領域の第2の量を決定すること、
前記第1の量を前記第2の量と比較することによって、前記第1の種類の癌の相対尤度を決定すること、及び
前記相対尤度に基づいて、一致する種類の癌を特定すること、
を更に含む、請求項1に記載の方法。
【請求項13】
前記生体試料が血漿または血清を含む、請求項1に記載の方法。
【請求項14】
生物の生体試料を分析する方法であって、前記生体試料が核酸分子を含み、前記生体試料中、前記核酸分子のうちの少なくともいくつかが無細胞であり、前記方法が、
前記生体の複数の染色体領域を特定すること、ここで、前記複数の染色体領域が亜染色体であり、
前記生体の前記生体試料中の複数の核酸分子のそれぞれについて、
前記生物の基準ゲノムにおける前記核酸分子の位置を特定すること、
前記複数の染色体領域のそれぞれについて、
核酸分子のそれぞれの群を、前記特定された位置に基づいて前記染色体領域に由来するものとして特定すること、ここで、前記それぞれの群は前記染色体領域に位置する少なくとも1つの核酸分子を含み、
コンピュータシステムによって、核酸分子の前記それぞれの群のそれぞれの値を算出すること、ここで、前記それぞれの値は前記それぞれの群の前記核酸分子の特性を定義し、
前記それぞれの値を、それぞれの基準値と比較して、前記染色体領域が欠失または増幅を呈するかどうかについての分類を決定すること、ここで、前記それぞれの基準値は、1つ以上の基準試料の核酸分子の特性に基づいて決定され、
前記複数の染色体領域の分類の試験パターンを決定すること、ここで、前記試験パターンは、増幅を呈する染色体領域の第1のセット、及び欠失を呈する染色体領域の第2のセットのうちの少なくとも1つを含み、
前記試験パターンを、癌の種類について染色体領域の分類の基準パターンと比較すること、並びに
前記比較に基づいて、前記生体試料が前記癌の種類を呈するかどうかの分類を決定すること、
を含む、方法。
【請求項15】
記分類を決定することが、
前記基準パターンと同一の欠失または増幅を呈する試験パターンの領域の第1の量を決定すること、ここで、前記第1の量は、前記基準パターンの既知のセットの異常領域と一致する染色体領域の数またはパーセンテージを含み、及び
前記第1の量を、第1の閾値と比較して、前記生体試料が前記癌の種類を呈するかどうかの分類を決定すること、
を含ここで、前記第1の量が前記第1の閾値を超える場合に、前記生体試料が前記癌の種類を呈すると分類する、請求項14に記載の方法。
【請求項16】
前記第1の閾値が、癌の種類に特異的であるか、または複数の癌の種類について使用され、前記第1の閾値が、特定されるべき癌の種類の既知のセットの異常領域と一致することが必要とされる染色体領域の最小量を含む、請求項15に記載の方法。
【請求項17】
前記第1の閾値の値が、領域の第1の量がカウントされる特定の染色体または染色体の腕に特異的である、請求項15に記載の方法。
【請求項18】
前記生体試料が癌の種類を呈することを決定することが、領域の第1の量が前記第1の閾値の値よりも大きいことを決定することを含む、請求項15に記載の方法。
【請求項19】
前記生体試料が癌の種類を呈することを決定することが、前記基準ゲノムにおける一致する領域の総量が前記第2の閾値の値よりも大きいことを決定することを含む、請求項18に記載の方法。
【請求項20】
前記第1の閾値の値が、各染色体領域中の異常を検出するために使用される特異性及び感度に基づく、請求項15に記載の方法。
【請求項21】
前記第1の閾値が、他の癌の種類の一致領域の数に基づいて検出される、請求項15に記載の方法。
【請求項22】
前記基準パターンと同一の欠失または増幅を呈する試験パターンの領域の第1の量が、加重値を含み、
高い不均衡を有する領域が、低い不均衡を有する領域よりも加重されるか、または、癌の種類を特定するために異常を有することが必要とされる特定の領域が、癌の種類について異常を有することが必要とされない領域よりも高く加重される、請求項15に記載の方法。
【請求項23】
前記基準ゲノム中の前記核酸分子の位置を同定することが、
前記核酸分子を配列決定して、前記分子の1つまたは2つの配列決定されたタグを得ること、
前記配列決定されたタグを前記基準ゲノムにアラインすること、
を含む、請求項14に記載の方法。
【請求項24】
前記染色体領域が欠失または増幅を呈するかどうかについての分類を決定するための前記それぞれの基準値が、健常試料で決定される値、異常を呈しないもう1つの染色体領域で決定された値、または、試験された領域が前記染色体領域の第1のハプロタイプである場合に、前記染色体領域のもう1つのハプロタイプで決定された値に相当する、請求項14に記載の方法。
【請求項25】
記分類を決定することが、
欠失または増幅を呈しない試験パターンの領域の第2の量を決定すること、
癌の種類の前記基準パターンの既知の正常領域に基づいて、領域の第2の量で欠失または増幅を発見しない尤度を決定すること、
前記尤度に基づいて、前記生体試料が癌の種類を呈するかどうかについての分類を決定すること、
を更に含む、請求項14に記載の方法。
【請求項26】
前記それぞれの群の少なくとも1つの前記核酸分子の特性が、前記染色体領域の位置を有する前記核酸分子のカウント、パーセンテージ、またはサイズのうちの少なくとも1つを含む、請求項14に記載の方法。
【請求項27】
前記カウントが、特定のサイズの近接している領域のみを使用することによって決定される、請求項26に記載の方法。
【請求項28】
前記それぞれの群の少なくとも1つの前記核酸分子の特性が、サイズ分布を含む、請求項14に記載の方法。
【請求項29】
前記それぞれの値が、サイズ分布の平均値、前記第1のサイズ分布の中央値、前記第1のサイズ分布の最頻値、またはサイズ閾値未満のサイズを有する核酸分子の割合を含む、請求項28に記載の方法。
【請求項30】
前記複数の染色体領域が、オーバーラップしない、請求項14に記載の方法。
【請求項31】
前記第1の種類の癌が、HCC、結腸直腸癌、乳癌、肺癌、または鼻咽頭癌腫である、請求項14に記載の方法。
【請求項32】
前記基準パターンが領域の数を含み、各々が増幅、欠失または異常なしの定義された状態を有し、領域の第1の量が、前記試験パターンが一致する領域の数のパーセンテージである、請求項15に記載の方法。
【請求項33】
前記基準パターンが第1の基準パターンであり、
前記癌の種類が第1の種類の癌である、請求項14に記載の方法であって、
第1の種類の癌の第1の基準パターンと同一の欠失、増幅または異常なしを呈する試験パターンの領域の第1の量を決定すること、
第2の種類の癌の第2の基準と同一の欠失、増幅または異常なしを呈する試験パターンの領域の第2の量を決定すること、
前記第1の量を前記第2の量と比較することによって、前記第1の種類の癌の相対尤度を決定すること、
前記相対尤度に基づいて、一致する種類の癌を特定することと、
を更に含む、方法。
【請求項34】
前記試験パターンが、増幅も欠失も示さない染色体領域の第3のセットを含む、請求項14に記載の方法。
【請求項35】
前記生体試料が血漿または血清を含む、請求項14に記載の方法。
【請求項36】
コンピュータシステムを制御して、請求項1~35に記載の方法のうちのいずれか1つを実行するための複数の命令を記憶するコンピュータ可読媒体を含む、コンピュータプログラム。
【請求項37】
請求項36の前記コンピュータプログラムと、
前記コンピュータ可読媒体上に記憶された命令を実行するための1つ以上の処理装置と、を含む、生物の生体試料を分析するためのシステム。
【請求項38】
請求項1~35に記載の方法のうちのいずれか1つを実行するための手段を含む、生物の生体試料を分析するためのシステム。
【請求項39】
請求項1~35に記載の方法のうちのいずれか1つを実行するように構成される、生物の生体試料を分析するためのシステム。
【請求項40】
請求項1~35に記載の方法のうちのいずれか1つのステップをそれぞれ実行するモジュールを含む、生物の生体試料を分析するためのシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、Loらによって2015年1月13日に出願された「Using Size And Number Aberrations In Plasma DNA For Detecting Cancer」と題する米国特許出願第62/102,867号(代理人整理番号80015-015800US)、及びLoらによって2015年2月3日に出願された「Using Size and Number Aberrations in Plasma DNA for Detecting Cancer」と題する同第62/111,534号(代理人整理番号80015-015801US)に対する優先権を主張し、これらの開示の全体が、あらゆる目的で参照により本明細書に組み込まれる。
【背景技術】
【0002】
循環無細胞DNAの分析は、癌の検出及び監視のためにますます使用されている(1~3)。コピー数異常(4~7)、メチル化変化(8~11)、単一ヌクレオチド変異(4、12~15)、癌由来ウイルス配列(16、17)、及び染色体再配置(18、19)を含む、異なる癌関連分子特徴が、様々な種類の癌を有する患者の血漿中に検出され得る。臨床用途の急速な拡大にも関わらず、癌患者における循環DNAの多くの基本的な分子特徴は不明なままであり、そのためそのような分析の最も効果的な臨床使用を限定してしまっている。
【0003】
特に、癌患者における循環DNAのサイズについての以前の研究は、一貫しない結果をもたらした。研究は、悪性病態を有さない対象と比較して、循環DNAの全体的完全性(サイズの測定値)が癌患者において増加することを実証している(20~23)。異なる増幅産物サイズを有するPCRを使用して、より長いDNAの割合が癌患者においてより高いことが示された。DNA完全性のこの異常は治療後に可逆的であることが示され、そのような変化の持続は不良な予後に関連付けられた(20、24)。他方、腫瘍組織に由来する循環DNAが非悪性細胞に由来するものよりも短くあり得るという、一見矛盾した証拠もまた存在するようである。例えば、癌関連変異を担持するDNA分子の割合は、それらの変異がより短い増幅産物を有するPCRを使用して検出されるときに、より高いことが示されている(12、25)。
【0004】
更に、腫瘍由来血漿DNAは、血漿中、非腫瘍由来背景DNAとは容易には区別することができないため、肝細胞癌(HCC)患者の血漿中の腫瘍由来DNAのサイズプロファイルの研究は、困難な努力である。癌特異的変異の検出は、腫瘍性血漿DNAから非腫瘍性血漿DNAを区別するための遺伝子型手段をもたらす。しかしながら、ゲノムにわたって存在する癌特異的変異は比較的少ない(29~32)。したがって、特に腫瘍由来DNAのサイズ分布についての広範、詳細、かつ更に対費用効果の高い一覧を生成する目的での、血漿中の腫瘍由来DNAを正確に特定することは困難であり得る。
【0005】
そのような困難は、腫瘍性DNAと非腫瘍性DNAとの混合物を含有する可能性がある試料中で、正確な測定値を得る上での障壁をもたらす。
【発明の概要】
【0006】
実施形態は、領域が癌に関連付けられ得る異常(例えば、増幅または欠失)を呈するかどうかを決定するためのシステム及び方法を提供することができる。例えば、実施形態は、カウントに基づく分析を使用して、ある領域を、異常を有する可能性があるものとして特定し、サイズに基づく分析を使用して、その領域か確かに異常を有するかどうかを確認することができる。
【0007】
他の実施形態において、異常を呈する領域は、既知の種類の癌に対応する基準パターンと比較され得る。ある種類の癌は、十分な数の領域が一致する異常を有するときに特定され得る。そのような一致領域は、腫瘍DNAの分析のため、例えば、サイズ分析のため、癌に関するものとして更に特定され得る。
【0008】
更に他の実施形態において、試料(例えば、腫瘍DNA及び非腫瘍DNAの両方を含有する可能性がある混合物)中のDNA断片のサイズ分析は、試料中の腫瘍DNAの測定された画分に依存し得る。例えば、健常な対照よりも長いDNA断片は、低い腫瘍DNA画分の初期段階の癌を示し得、健常な対照よりも短いDNA断片は、より高い腫瘍DNA画分のより後期の癌を示し得る。
【0009】
他の実施形態は、本明細書に記載される方法に関連付けられるシステム及びコンピュータ可読媒体を対象とする。
【0010】
以下の発明を実施するための形態及び添付の図面を参照することで、本発明の実施形態の性質及び利点についてのより良好な理解を得ることができる。
【図面の簡単な説明】
【0011】
図1】本発明の実施形態に従って、染色体領域を、異常を呈するものとして特定する方法100を図示するフローチャートである。
図2】本発明の実施形態に従って、代表的な肝細胞癌(HCC)患者の血漿及び組織試料中、増幅及び欠失を呈する領域を特定するCircosプロット200を示す。
図3】本発明の実施形態に従う、様々な対象の血漿コピー数異常(CNA)結果を示す。
図4】本発明の実施形態に従う、HCC患者、B型肝炎ウイルス(HBV)保因者、肝硬変症を有する患者、及び健常な対象の血漿中のCNAの検出性を示す表400である。
図5】12人のHCC患者の腫瘍及び対応する血漿中に検出されたCNAの表500を示す。
図6】本発明の実施形態に従って、ある生物の生体試料を分析して、生体試料が第1の種類の癌を呈するかどうかを決定する方法を図示するフローチャートを示す。
図7】実施形態に従う、表700中の異なる種類の癌について異なるパターンを呈する染色体腕を示す。
図8A】異なる種類の癌の染色体領域のパターンの表800を示す。
図8B】異なる種類の癌の染色体領域のパターンの表800を示す。
図8C】異なる種類の癌の染色体領域のパターンの表800を示す。
図9】本発明の実施形態に従って、ある生物の生体試料を分析する方法を図示するフローチャートを示す。
図10】血漿中の腫瘍DNA画分に対して、(A)150塩基対よりも短い、(B)150~180塩基対、及び(C)180塩基対よりも長い、血漿DNA断片の割合のプロットを示す。
図11】癌患者における血漿DNAサイズ分析の原理の模式図である。
図12】代表的な事例H291の増幅した8q及び欠失した8pに起源を持つ血漿DNAのサイズ分布を示す。(A)8p(赤色)及び8q(緑色)の血漿DNAのサイズ分布。(B)8p(赤色)及び8q(緑色)の血漿DNAサイズの累積度数のプロット。(C)HCC事例H291の累積度数の差。
図13】8qと8pとの間のサイズの累積度数の差(ΔS)を示す。(A)血漿中の8p及び8qについて異なるCNAを有する全てのHCC事例のサイズに対する、ΔSのプロット。(B)異なる群におけるΔS166の値。
図14】代表的なHCC患者の、サイズに対する1qと1pとの間のΔSの値のプロットである。
図15】健常な対照対象、HBV保因者、硬変症患者、及びHCC患者の、1qと1pとの間のΔS166の値のプロットである。
図16】本発明の実施形態に従って、染色体腕レベルのzスコア分析(CAZA)及びサイズ分析を実行して、ある生物の生体試料を分析する方法を図示するフローチャートである。
図17】本発明の実施形態に従って、ある生物の生体試料を分析する方法を図示するフローチャートである。
図18】血漿中、異なる画分濃度の腫瘍由来DNAを有するHCC患者における、血漿DNA断片のサイズ分布を示す。
図19】(A)健常な対照、(B)慢性HBV保因者、及び(C)硬変症患者の血漿DNAのサイズプロファイルを示す。
図20】健常な対照対象、血漿中2%未満の腫瘍DNA画分を有するHCC患者、及び6%超の腫瘍DNA画分を有するHCC患者の、短い断片の割合のボックスプロットを示す。
図21】P(<150)を適用して、健常な対照対象から2%未満の腫瘍DNA画分を有するHCC患者を鑑別するための、受信者動作特性(ROC)曲線である。
図22】P(<150)を適用して、6%超の腫瘍DNA画分を有するHCC患者と健常な対象とを鑑別するための、受信者動作特性(ROC)曲線である。
図23】健常な対照対象、及び血漿中2%未満の腫瘍DNA画分を有するHCC患者の、長い断片の割合のボックスプロットを示す。
図24】P(>180)を使用して、健常な対照対象から2%未満の腫瘍DNA画分を有するHCC患者を鑑別するためのROC曲線である。
図25】健常な対照対象、2%未満の腫瘍DNA画分を有するHCC患者、及び6%超の腫瘍DNA画分を有するHCC患者の断片サイズ中央値のボックスプロットを示す。
図26】断片サイズ中央値を使用して、2%未満の腫瘍DNA画分を有するHCC患者と健常な対照対象とを鑑別するためのROC曲線である。
図27】断片サイズ中央値を使用して、6%超の腫瘍DNA画分を有するHCC患者と健常な対照対象とを鑑別するためのROC曲線である。
図28】6%超の腫瘍DNA画分を有するHCC患者の染色体1q、及び健常な対照対象の染色体1qに整列させた、150塩基対未満の短い血漿DNA断片の割合のボックスプロットを示す。
図29】150塩基対未満の短い血漿DNA断片の割合を使用して、6%超の腫瘍DNA画分を有するHCC患者と健常な対照対象とを鑑別するためのROC曲線である。
図30】HCC患者のΔS対腫瘍サイズのプロットである。
図31】腫瘍サイズに対する特定のサイズのDNA断片のパーセンテージのプロットである。
図32】本発明の実施形態に従うシステム及び方法とともに使用することができる、例示的なコンピュータシステム10のブロック図を示す。
【0012】
用語
本明細書で使用される場合、「生体試料」という用語は、ある対象(例えば、妊婦などのヒト)から取得され、対象となる1つ以上の核酸分子(複数可)を含有する任意の試料を指す。例としては、血漿、唾液、胸水、汗、腹水、胆汁、尿、血清、膵液、便、子宮頚部洗浄水、及び子宮頸部スメア試料が挙げられる。
【0013】
「核酸」または「ポリヌクレオチド」という用語は、一本鎖もしくは二本鎖の形態の、デオキシリボ核酸(DNA)またはリボ核酸(RNA)及びそのポリマーを指す。特に限定されない限り、この用語は、基準核酸と類似した結合特性を有し、天然に存在するヌクレオチドと類似した様式で代謝される、天然のヌクレオチドの既知の類似体を含有する核酸を網羅する。別段示されない限り、ある特定の核酸配列はまた、その保存的に修飾された変異形(例えば、縮重コドン置換)、対立遺伝子、オルソログ、一塩基多型(SNP)、ならびに相補的配列及び明示的に示される配列を暗に網羅する。具体的には、縮重コドン置換は、1つ以上の選択される(または全ての)コドンの第3の位置が、混合塩基及び/またはデオキシイノシン残基で置換される配列を生成することによって達成され得る(Batzer MA et al.,Nucleic Acids Res1991;19:5081、Ohtsuka E et al.,J Biol Chem1985;260:2605-2608、及びRossolini GM et al.,Mol Cell Probes1994;8:91-98)。核酸という用語は、遺伝子、cDNA、mRNA、小分子非コードRNA、マイクロRNA(miRNA)、Piwi結合RNA、及び遺伝子または座位によってコードされる低分子ヘアピン型RNA(shRNA)と互換的に使用される。
【0014】
「遺伝子」という用語は、ポリペプチド鎖の産生に関与するDNAのセグメントを意味する。それは、コード領域に先行及び後続する領域(リーダー及びトレーラー)、ならびに個々のコードセグメント(エクソン)間の介在配列(イントロン)を含み得る。
【0015】
本明細書で使用される場合、「座位(locus)」またはその複数形「座位(loci)」は、ゲノムにわたる変動を有する任意の長さのヌクレオチド(または塩基対)の位置またはアドレスである。
【0016】
「配列決定されたタグ」(配列読み取りとも呼ばれる)は、核酸分子、例えば、DNA断片の全てまたは一部から得られた配列を指す。一実施形態において、その断片のうちの一方の終端のみ、例えば、約30塩基対が配列決定される。その後、配列決定されたタグは基準ゲノムに整列され得る。あるいは、その断片の両方の終端を配列決定して、2つの配列決定されたタグを生成してもよく、これは、整列のより大きな正確性を提供し、断片の長さを提供することができる。更に別の実施形態において、直鎖状DNA断片が、例えば、連結によって環状化されてもよく、連結部位に及ぶ部分が、配列決定されてもよい。
【0017】
画分腫瘍DNA濃度は、腫瘍DNA割合及び腫瘍DNA画分という用語と互換的に使用され、ある腫瘍に由来する試料中に存在するDNA分子の割合を指す。
【0018】
「サイズプロファイル」という用語は一般に、生体試料中のDNA断片のサイズに関する。サイズプロファイルは、様々なサイズのDNA断片の量の分布を提供するヒストグラムであってもよい。様々な統計パラメータ(サイズパラメータまたは単にパラメータとも呼ばれる)を使用して、1つのサイズプロファイルと別のサイズプロファイルとを区別することができる。1つのパラメータは、全てのDNA断片に対する、または別のサイズまたは範囲のDNA断片に対する、ある特定のサイズまたはサイズの範囲のDNA断片のパーセンテージである。
【0019】
本明細書で使用される場合、「パラメータ」という用語は、定量的データセットを特徴付ける数値、及び/または定量的データセット間の数的関連性を意味する。例えば、第1の核酸配列の第1の量と第2の核酸配列の第2の量との比率(またはある比率の関数)は、パラメータである。
【0020】
本明細書で使用される場合、「分類」という用語は、ある試料のある特定の特性に関連付けられる任意の数(複数可)または他の特徴(複数可)(単語を含む)を指す。例えば、「+」記号は、試料が欠失または増幅(例えば、重複)を有するものとして分類されることを示し得る。「カットオフ」及び「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指し得る。閾値は、それを超えるか、またはそれ未満であると特定の分類が適用される値であり得る。これらの用語のいずれも、これらの文脈のいずれにおいても使用され得る。
【0021】
「癌のレベル」という用語は、癌が存在するかどうか、癌の段階、腫瘍のサイズ、関与する染色体領域の欠失もしくは増幅の数(例えば、重複もしくは三重複)、及び/または癌の重症度についての他の尺度を指し得る。癌のレベルは、数または他の特徴であってもよい。レベルは、ゼロであってもよい。癌のレベルはまた、欠失または増幅に関連付けられる前悪性または前癌性の病態を含む。
【0022】
「亜染色体領域」は、染色体よりも小さい領域である。亜染色体領域の例は、100kb、200kb、500kb、1Mb、2Mb、5Mb、または10Mbである。亜染色体領域の別の例は、1つ以上のバンドもしくは亜バンドに対応するもの、または染色体の腕のうちの1つである。バンドまたは亜バンドは、細胞遺伝学的分析において観察される特色である。亜染色体領域は、基準ヒトゲノム配列に対するそのゲノム座標によって呼ばれ得る。
【発明を実施するための形態】
【0023】
癌はしばしば、その個人の正常なゲノムと比較してコピー数異常(増幅または欠失)を有する領域を有する。技術は、腫瘍DNA断片及び非腫瘍DNA断片を含む試料(例えば、血漿または血清)中の無細胞DNA断片をカウントすることができる。カウントは、過剰提示される領域(増幅を示す)または過小提示される領域(欠失を示す)を特定することができる。しかし、そのようなカウントに基づく技術は統計的性質があるため、不正確な表示が発生し得る。実施形態は、カウントに基づく分析を使用して、コピー数異常(異常とも呼ばれる)を有する可能性があるものとしてある領域を特定し、サイズに基づく分析を使用して、その領域か確かに異常を有するかどうかを確認することができる。そのような確認は、異常を有する領域を特定する上で追加の正確性を提供する。
【0024】
異常を有する領域を使用して、試料を得た生物における癌の存在を特定することができる。しかし、癌の存在は癌の種類は伝えない。この問題に対処するために、実施形態は、既知の癌を有する試料に由来する領域内の異常の基準パターンを使用することができる。どの領域が異常であるかについての試験パターンを、試験される所与の試料について決定することができ、試験パターンを基準パターンと比較して、癌の種類を決定することができる。特定の種類の癌に対応する基準パターンと同一の欠失または増幅を呈する試験パターンの領域の量を決定することができ、その量を閾値と比較して、特定の種類の癌が存在するかどうかについての分類を決定することができる。ある領域が、異常を有するものとして、及び特定の種類の癌に対応するものの両方として特定されると、その領域を腫瘍DNAについて分析する上でより大きな信頼となり得る。例えば、その領域を使用して、試料中の腫瘍DNA画分を測定することができる。
【0025】
更に、様々な研究が、無細胞腫瘍DNA断片の長さについて一貫しない結果を示しており、腫瘍DNAについてより長い断片を示ものもあれば、腫瘍DNAについてより短い断片を示すものもある。以下の分析は、その両方が正しくあり得るが、これは異なる腫瘍DNA画分についてであることを示す。実施形態は、測定された腫瘍DNA画分に基づくサイズ分析において異なるサイズ閾値を使用することができ、これは、異常を有するものとして特定された領域内のDNA断片のカウントを使用して決定することができる。したがって、いくつかの実装例は、例えば、(a)超並列配列決定によって可能となる血漿DNAの全ゲノム高解像度サイズプロファイル化、及び(b)(例えば、異常を有するものとして特定された領域を使用して)癌患者の血漿中の非腫瘍性背景DNAから腫瘍由来DNAを区別するための効率的アプローチを通して、これらの明らかな非一貫性を一致させることができる。
【0026】
I.導入
試料中の数百万または数十億の個々の血漿DNA分子全ての長さを、超並行配列決定を使用して測定することが可能となっている(26、27)。したがって、血漿DNAサイズを、全ゲノム様式かつ単一塩基解像度で研究することができる。このアプローチを使用して、循環DNAのサイズは一般にモノヌクレオソームDNAのサイズに似ていることが示されており、これはアポトーシスを通して血漿DNAが生成され得ることを示す(26、27)。妊婦において、胎児に由来する血漿DNAは、母親に由来するDNAのそれよりも短いことが示されている(26)。循環胎児DNAと循環母方DNAとの間のサイズ差は、母方血漿中の胎児DNAを定量化し、血漿DNAのサイズ分析を通して染色体異数性を検出するための新しい概念的基盤を提供している(28)。更に、移植器官に由来する循環DNAと患者自身の組織に由来する循環DNAとのサイズ分布の差が、実質臓器または骨髄移植のレシピエントで観察されている(27)。
【0027】
癌患者の血漿は、腫瘍由来DNAと非腫瘍由来DNAとの混合物を含有する。以下の実施例は、肝細胞癌(HCC)を有する癌患者における血漿DNAのサイズ分布を分析する。HCC患者、慢性B型肝炎ウイルス(HBV)感染を有する患者、肝硬変症を有する患者、及び健常な対象における血漿DNAのサイズ分布もまた分析される。実施形態は、特定の異常領域を使用して、HCC患者の血漿中の腫瘍由来DNAのサイズプロファイルを分析することができる。そのような異常領域の使用は、血漿中、腫瘍由来血漿DNAが非腫瘍由来背景DNAとは容易には区別されないという困難を克服することができる。
【0028】
いくつかの実施形態は、コピー数異常(CNA)の影響を受ける染色体腕を使用して、腫瘍由来血漿DNAと非腫瘍由来血漿DNAとのサイズ分布の差を推測する。腫瘍組織中で増幅される染色体腕について、腫瘍由来DNAから血漿DNAへの比例的な寄与は増加する一方で、腫瘍中で欠失される染色体腕について、寄与は低下する。したがって、増幅及び欠損される染色体腕のサイズプロファイルの比較は、血漿中の腫瘍由来DNAと非腫瘍由来DNAとの間のサイズ差を反映するだろう。染色体腕全体または染色体腕の大きな主要部に関与するCNAは、比較的一般的である(33)。染色体1p及び8pの欠失ならびに染色体1q及び8qの増幅は一般に、HCC組織中に観察される(34~36)。したがって、分析は、血漿DNAのCNA分析及びサイズプロファイル化分析のため、染色体1及び8に集中する。
【0029】
II.異常領域を特定するためのカウント分析
異常領域は、増幅または欠失を含む。増幅とは、領域内のある配列が、それが基準配列内で発生するよりも頻繁に発生するため、その配列が増幅されていることを意味する。増幅は、典型的には、1つの染色体コピー(ハプロタイプ)中のみで発生する。欠失とは、領域内のある配列が基準配列と比較して欠失していることを意味し、二倍体生物について、典型的には1つの染色体コピーのみが欠損を有する。領域は、(互いに分離される)少なくとも2つの座位によって定義することができ、これらの座位のDNA断片を使用して、その領域についての集団的価値を得ることができる。
【0030】
A.カウントによる異常領域の検出
ある領域の異常は、その領域に由来するDNA断片(分子)の量をカウントすることによって決定することができる。例として、量は、DNA断片の数、DNA断片がオーバーラップする塩基の数、または領域内のDNA断片の他の測定値であり得る。その領域のDNA断片の量は、DNA断片を配列決定して配列読み取りを得、配列読み取りを基準ゲノムに整列させることによって決定することができる。一実施形態において、その領域の配列読み取りの量を別の領域の配列読み取りの量と比較して、過剰提示(増幅)または過小提示(欠失)を決定することができる。別の実施形態において、1つのハプロタイプについて配列読み取りの量を決定し、別のハプロタイプの配列読み取りの量と比較することができる。
【0031】
したがって、(例えば、その領域に整列される配列決定されたタグをカウントすることによって決定される)1つの染色体領域に由来するDNA断片の量を、(基準染色体領域から、別のハプロタイプ上の領域から、または健常であることが既知である別の試料中の同一の領域から決定され得る)基準値と比較することができる。この比較は、その量が基準値とは統計的に異なる(例えば、基準値超または基準値未満)かどうかを決定することができる。母集団に見られる値の分布に見られるように、例えば、3つの標準偏差(SD)に対応する差の閾値を使用してもよい。
【0032】
比較の一部として、タグカウントは比較前に正規化され得る。ある特定の領域の配列読み取り(タグ)の正規化された値は、その領域に整列する配列決定された読み取りの数を、ゲノム全体に整列可能な配列決定された読み取りの総数で割ることによって算出することができる。この正規化されたタグカウントは、1つの試料からの結果を別の試料の結果と比較することを可能にする。例えば、正規化された値は、特定の領域に由来することが期待される配列読み取りの割合(例えば、パーセンテージまたは画分)であり得る。しかし、当業者に明らかであるように、多くの他の正規化が可能である。例えば、1つの領域のカウントの数を、基準領域のカウントの数(上記の場合、基準領域は単にゲノム全体である)で割ることによって、または同一の数の配列読み取りを常に使用することによって正規化することができる。その後、この正規化されたタグカウントが、癌を呈さない1つ以上の基準試料から決定され得る閾値に対して比較され得る。
【0033】
いくつかの実施形態において、閾値は、基準値であってもよい。他の実施形態において、基準値は正規化に使用される他の値であってもよく、この比較は基準値及び閾値を含んでもよい。例えば、領域の量を基準値で割って、パラメータを得ることができ、これを閾値と比較して、統計的に有意な差が存在するかどうかを確認する。別の例として、領域の量を、基準値プラス閾値と比較してもよい。
【0034】
一実施形態において、この比較は、特定の染色体領域の事例のzスコアを算出することによってなされる。zスコアは、以下の等式、zスコア=(事例の正規化されたタグカウント-平均値)/標準偏差、を使用して算出することができ、式中、「平均値」は、基準試料の特定の染色体領域に整列する平均の正規化されたタグカウントであり、標準偏差は、基準試料の特定の領域に整列する正規化されたタグカウントの数の標準偏差である。したがって、zスコアは、試験される事例の染色体領域の正規化されたタグカウントが、1つ以上の基準対象の同一の染色体領域の平均の正規化されたタグカウントから離れている、標準偏差の数に対応し得る。このzスコアを、閾値(例えば、増幅は3及び欠損は-3)と比較してもよい。増幅される染色体領域は、閾値を超える正の値のzスコアを有するだろう。欠失される染色体領域は、閾値未満である負の値のzスコアを有するだろう。
【0035】
zスコアの規模は、いくつかの要因によって決定することができる。1つの要因は、生体試料(例えば、血漿)中の腫瘍由来DNAの画分濃度である。試料(例えば、血漿)中の腫瘍由来DNAの画分濃度が高いほど、試験される事例及び基準事例の正規化されたタグカウントの差はより大きくなるだろう。したがって、より大きな規模のzスコアが生じるだろう。
【0036】
別の要因は、1つ以上の基準事例における正規化されたタグカウントの変動である。試験される事例の生体試料(例えば、血漿)中に染色体領域の同程度の過剰提示があると、基準群における正規化されたタグカウントのより小さな変動(すなわち、より小さな標準偏差)は、より高いzスコアをもたらすだろう。同様に、試験される事例の生体試料(例えば、血漿)中に染色体領域の同程度の過小提示があると、基準群における正規化されたタグカウントのより小さな標準偏差は、より負のzスコアをもたらすだろう。
【0037】
別の要因は、腫瘍組織中の染色体異常の規模である。染色体異常の規模は、特定の染色体領域のコピー数変化(増加または減少)を指す。腫瘍組織中のコピー数変化が大きいほど、血漿DNA中の特定の染色体領域の過剰提示または過小提示の程度はより高くなるだろう。例えば、染色体の両方のコピーの減少は、染色体の2つのコピーのうちの1つの減少よりも、血漿DNA中の染色体領域の大きな過小提示をもたらし、したがって、より負のzスコアをもたらすだろう。典型的には、癌には複数の染色体異常が存在する。各癌における染色体異常は、その性質(すなわち、増幅または欠失)、その程度(単一または複数コピーの増加または減少)、及びその範囲(染色体長の観点での異常のサイズ)によって更に異なり得る。
【0038】
正規化されたタグカウントの測定の精度は、分析される分子の数の影響を受ける。例えば、画分濃度がそれぞれ、約12.5%、6.3%、及び3.2%であるとき、1つのコピー変化(増加または減少のいずれか)を有する染色体異常を検出するためには、15,000、60,000、及び240,000個の分子が分析される必要があり得る。異なる染色体領域の癌を検出するためのタグカウントの更なる詳細は、Loらによる「Diagnosing Fetal Chromosomal Aneuploidy Using Massively Parallel Genomic Sequencing」と題する米国特許公開第2009/0029377号、及びLoらによる「Detection Of Genetic Or Molecular Aberrations Associated With Cancer」と題する米国特許第8,741,811号に記載され、これらの開示の全体が、あらゆる目的で参照により本明細書に組み込まれる。
【0039】
B.方法
図1は、本発明の実施形態に従って、ある染色体領域を、潜在的に増幅を呈するものとして特定する方法100を図示するフローチャートである。方法100及び本明細書に記載される他の方法は、全体的または部分的にコンピュータシステムを使用して実行することができる。
【0040】
ステップ110では、ある生物の複数の染色体領域が特定され得る。各染色体領域は、複数の座位を含み得る。ある領域はサイズが1Mbであっても、いくらかの他の等しいサイズであってもよい。その時、ゲノム全体は、それぞれが所定のサイズ及び位置である約3,000の領域を含み得る。そのような所定の領域は、ある長さの特定の染色体または使用されるある特定の数の領域、及び本明細書で言及される任意の他の基準を収容するように変動し得る。領域が異なる長さを有する場合、例えば、本明細書に記載されるように、そのような長さを使用して結果を正規化することができる。
【0041】
ステップ120~140は、染色体領域のそれぞれについて実行され得る。ステップ120では、各染色体領域について、核酸分子のそれぞれの群が、染色体領域に由来するものとして特定され得る。特定は、基準ゲノムにおける核酸分子の位置の特定に基づいてもよい。例えば、無細胞DNA断片を配列決定して配列読み取りを得ることができ、配列読み取りを基準ゲノムにマッピング(整列)させることができる。生物がヒトである場合、基準ゲノムは、潜在的に特定の亜集団に由来する基準ヒトゲノムである。別の例として、無細胞DNA断片は(例えば、PCRまたは他の増幅に従う)異なるプローブで分析することができ、各プローブは異なるゲノム位置に対応する。いくつかの実施形態において、無細胞DNA断片の分析は、配列読み取りまたは無細胞DNA断片に対応する他の実験データを受信し、その後、コンピュータシステムを使用して実験データを分析することによって実行することができる。
【0042】
ステップ130では、コンピュータシステムが、核酸分子のそれぞれの群のそれぞれの量を算出し得る。それぞれの値は、それぞれの群の核酸分子の特性を定義する。それぞれの値は、本明細書で言及される値のうちのいずれであってもよい。例えば、値は、その群における断片の数またはその群における断片のサイズ分布の統計値であってもよい。それぞれの値はまた、正規化された値、例えば、領域のタグカウントを、試料のタグカウントの総数または基準領域のタグカウントの数で割ったものであってもよい。それぞれの値はまた、別の値に由来する差または比率であるために、その領域の差の特性を提供してもよい。
【0043】
ステップ140では、それぞれの量を基準値と比較して、染色体領域が異常(すなわち、増幅または欠失)を呈するかどうかについての分類を決定することができる。いくつかの実施形態において、染色体領域は異常を呈さないものとして分類され得る。この比較は、それぞれの量及び基準値に基づいてzスコアを決定することを含み得る。一例として、基準値は、本明細書に記載される任意の閾値または基準値であり得る。例えば、基準値は、正常な試料について決定される閾値であってもよい。別の例として、基準値は別の領域のタグカウントであってもよく、この比較は、差または比率(またはその関数)を取得し、その後、その差または比率が閾値よりも大きいかどうかを決定することを含み得る。
【0044】
基準値は、他の領域の結果に基づいて変動し得る。例えば、隣接する領域もまた(閾値と比較すると小さくあるものの、例えば、3のzスコアなどの)偏差を示す場合、より低い閾値が使用され得る。例えば、3つの連続する領域が全て第1の閾値を超える場合、癌の可能性がより高くあり得る。したがって、この第1の閾値は、非連続領域に由来する癌を特定するのに必要とされる別の閾値よりも低くあり得る。小さな偏差ですらそれを有する3つの領域(または4つ以上)を有することで、感度及び特異性が保存され得るという偶然効果の十分に低い確率を有し得る。
【0045】
C.染色体腕レベルのZスコア分析(CAZA)
いくつかの実施形態において、染色体は多くの亜染色体領域(例えば、1Mb領域)に分割され得る。この高い解像度は、感度及び特異性を最大化しない可能性がある。他の実施形態は、染色体を2つの腕、すなわち、p及びqに分割し得る。2つの腕の分析は、そのような精細な解像度によって引き起こされるノイズを低減することによって、特異性を改善することができる。染色体腕レベルのzスコア分析の一例が、これより提供される。
【0046】
我々は、90人のHCC患者、67人の慢性HBV感染を有する患者、36人のHBV関連肝硬変症を有する患者、及び32人の健常な対象からの、合計225個の血漿DNA試料を分析した。各血漿試料から、3100万個の読み取りの中央値(範囲:1700~7900万)を得た。健常な対照の平均値の、標準偏差3つ下(zスコア<-3)及び標準偏差3つ上(zスコア>3)である染色体腕に起源を持つ配列読み取りの量をそれぞれ、それらの染色体腕に由来する血漿DNAの有意な過小提示及び過剰提示を示すものと見なした。これらの定量的血漿DNA異常は一般に、腫瘍中のコピー数減少及びコピー数増加(CNA)の存在を反映した(4)。
【0047】
図2は、本発明の実施形態に従って、代表的な肝細胞癌(HCC)患者の血漿及び組織試料中、増幅及び欠失を呈する領域を特定するCircosプロット200を示す。内側から外側へ:(1Mb解像度における)腫瘍組織中のCNA、腫瘍組織中の腕レベルのCNA、(1Mb解像度における)血漿CNA、腕レベルの血漿CNA。増加及び減少を有する領域を、それぞれ緑色及び赤色で示す。2つの連続する水平線間の距離は、5のzスコアを表す。染色体の表意文字(プロットの外側)は、p末端からq末端へと時計回りの方向に配向される。
【0048】
図3は、CAZAの一実施形態を使用する、全ての研究された対象の血漿コピー数異常(CNA)結果を示す。HCCにおいて頻繁にCNAの影響を受ける4つの染色体腕(1p、1q、8p、及び8q)を分析した。赤色及び緑色の線はそれぞれ、血漿中の対応する染色体腕の過小提示及び過剰提示を表す。各垂直線は、一事例のデータを表す。
【0049】
図4は、本発明の実施形態に従う、HCC患者、HBV保因者、肝硬変症を有する患者、及び健常な対象の血漿中のCNAの検出性を示す表400である。表400は、最左列に患者のカテゴリを示す。残りの列は、患者の数、及び異なる染色体腕について血漿中にCNAが検出されたパーセンテージを示す。90人のHCC患者のうち76(84.4%)人が、血漿中の染色体1及び8上に、少なくとも1つの染色体腕レベルのCNAを有した。12人のHCC患者の腫瘍組織が、血漿DNAの発見を確証するために利用可能であった。組織試料を配列決定し、CNAパターンを図5に示す。
【0050】
図5は、12人のHCC患者の腫瘍及び対応する血漿中に検出されたCNAの表500を示す。表500において、患者事例数が第1列に列挙される。患者は、第2列に見られるように、血漿中の腫瘍DNA画分について降順に配置される。第3列は、腫瘍サイズを示す。残りの列は、異なる染色体腕について腫瘍及び血漿中に検出されたCNAを示す。「Gain」は、コピー数増加を示す。「Loss」は、コピー数減少を示す。「Nil」は、検出可能なCNAがないことを示す。12人の患者の合計48個の染色体腕を分析した。腫瘍と血漿との間に一致した結果及び不一致の結果を有する染色体腕の数(及びパーセンテージ)を示す。
【0051】
12人の患者で分析された48個の染色体腕のうち、血漿及び腫瘍組織中で一致した変化は、30個(63%)の腕について観察された。CNAは、10個(21%)の腕について腫瘍中でのみ観察されたが、血漿中では観察されなかった。これらの事例は、血漿中でより低い腫瘍DNA画分を有する傾向があった。CNAは、7個(15%)の腕について血漿中で観察されたが、腫瘍では観察されなかった。一事例(HOT428)において、腫瘍中で1qの増加が観察されたが、血漿中では減少が観察された。これらのデータは、血漿DNAを寄与する他の病巣または癌細胞のクローンが存在し得る、腫瘍不均一性の存在を示し得る。
【0052】
肝硬変症を有する及び有さないHBV保因者において、これらのCNAの検出率はそれぞれ22.2%及び4.5%であった。血漿中にCNAは呈したが、採血の時点でHCCを有することが既知ではなかった、肝硬変症を有する1人の患者及び硬変症を有さない1人の慢性HBV保因者が、それぞれ3ヶ月及び4ヶ月後にHCCを有するものと診断された。全てのHBV保因者及び硬変症患者を、少なくとも6ヶ月間経過観察した。血漿中にいかなるCNAも有さない対照対象では、経過観察中、彼らのうちのいずれもHCCを発症することはなかった。32人の健常な対象のうちのいずれも、血漿中に染色体1または8上に、CAZAにより検出可能なCNAは有さなかった。HCC患者において、CNAの存在による血漿中の配列読み取りの不釣合な増加または低下は、血漿試料中の腫瘍DNAの画分濃度を反映する。HCC患者の血漿中の腫瘍由来DNAの画分濃度中央値は、2.1%(範囲:0%~53.1%、四分位範囲:1.2%~3.8%)であった。
【0053】
CAZAは、腫瘍関連CNAを非侵襲的に検出するための方法を提供する。HCCにおいて、染色体1及び8は一般に、CNAの影響を受ける(34~36)。実際、我々のデータは、90人のHCC患者のうち76人(84.4%)が、血漿中、染色体1及び8上のいずれかの腕に関与する少なくとも1つのCNAを有する一方で、32人の健常な対象のいずれも、血漿中、これらの2つの染色体についていかなるCNAも呈さないことを示した。染色体1及び8に関与する血漿CNAはまた、硬変症患者のうちの22.2%、及びHBV保因者のうちの4.5%においても検出された。1人のHBV保因者及び1人の肝硬変症を有する患者において、採血の直後にHCCが診断された。採血の時点で癌が存在しており、血漿中のCNAに関連付けられた可能性があるため、これは実施形態の早期スクリーニング性能を示す。HCC患者における血漿CNAの比較的高い検出率は、このアプローチが、HBV保因者のスクリーニングにおいて将来的価値を有し得ることを示す。更に、CNAはほぼ全ての種類の癌において存在する(33)。したがって、このアプローチは、対象となる癌の特異的なCNAパターンに適合する一般的な腫瘍マーカとして適用することができる。
【0054】
III.異常領域のパターンに基づく癌の種類の検出
いくつかの実施形態は、(増幅または欠失であるかどうかとともに)ある種類の癌の既知の異常領域を使用して、試料中に特定される異常によって関係付けられる潜在的な癌を特定することができる。上記の例において、HCCの既知の異常領域を使用して、HCCの試料をスクリーニングした。このスクリーニングは、(増幅または欠失であるかどうかを含む)特定された異常領域を、既知のセットの異常領域と比較することができる。十分に高い一致が決定されると、その種類の癌が可能性のある試験結果としてフラグ立てされ得る。
【0055】
一致基準は、試料中で同様に特定されるそのセットの領域のパーセンテージであってもよい。一致基準は、特定の領域が異常であることを必要とし得る。例えば、1p、1q、または8qが異常であるとき、またはこれらの染色体腕のうちの2つ以上が異常であるときに、HCCの一致が特定され得る。したがって、同一の一致が必要とされる特定のサブセットが存在し得るが、サブセットはある種類の癌の既知の異常領域の完全なセットよりも小さくてもよい。
【0056】
したがって、ある試験試料の異常領域のパターンを、特定の種類の癌を有することが既知である患者から決定され得る、特定の種類の癌の異常領域のパターンと比較することができる。特に腫瘍が小さくあり得る(例えば、サイズ2cm未満)場合、実施形態を使用して癌をスクリーニングし、関与する癌の種類を特定することができる。撮像技術は、サイズ2cm未満の腫瘍を特定する上で困難を有する。そのような技術はまた、治療後の患者の進展を追跡するためにも使用することができる。
【0057】
A.方法
図6は、本発明の実施形態に従って、ある生物の生体試料を分析して、生体試料が第1の種類の癌を呈するかどうかを決定する方法600を図示するフローチャートである。生体試料は、正常細胞、及び潜在的に癌に関連付けられる細胞に起源を持つ核酸分子(断片とも呼ばれる)を含む。試料中、これらの分子のうちの少なくともいくつかは無細胞であり得る。
【0058】
本方法及び本明細書に記載される任意の他の方法の一実施形態において、生体試料は無細胞DNA断片を含む。血漿DNAの分析を使用して、本出願に記載される異なる方法を説明したものの、これらの方法はまた、正常なDNAと腫瘍由来DNAとの混合物を含有する試料中の腫瘍関連染色体異常を検出するためにも適用することができる。他の試料の種類としては、唾液、涙、胸水、腹水、胆汁、尿、血清、膵液、便、及び子宮頸部スメア試料が挙げられる。
【0059】
ステップ610において、生物の複数の染色体領域が特定される。複数の染色体領域は亜染色体であり、オーバーラップしなくてもよい。カウントされる染色体領域は、制限を有し得る。例えば、少なくとも1つの他の領域と近接している領域のみがカウントされ得る(または、近接している領域は、ある特定のサイズ、例えば、4つ以上の領域であることが必要とされ得る)。領域が等しくない実施形態について、数はまたそれぞれの長さも説明し得る(例えば、数は異常領域の全長であり得る)。いくつかの実施形態において、領域は染色体の腕に対応する。他の実施形態において、領域は腕よりも小さくあり得る(例えば、1Mb領域)。
【0060】
いくつかの実施形態において、染色体領域は、特定のハプロタイプのものであっても(すなわち、特定の染色体コピーに対応しても)よい。相対的ハプロタイプ用量(RHDO)分析を使用する実施形態において、各領域は、少なくとも2つのヘテロ接合性座位を含み得る。RHDOについての更なる詳細は、米国特許第8,741,811号に見出すことができる。
【0061】
ステップ620において、生物の生体試料中の複数の核酸分子のそれぞれについて、生物の基準ゲノムにおける核酸分子の位置が特定され得る。複数の核酸分子は、500,000個以上の分子(断片)を含み得る。この位置付けは、(例えば、ランダム配列決定を介して)分子の配列決定を実行して、分子の1つまたは2つの(ペアエンド)配列決定されたタグを得、その後、配列決定されたタグ(複数可)を基準ゲノムに整列させることを含む、様々な方法で実行することができる。そのような整列は、基本的局所整列検索ツール(BLAST)などのツールを使用して実行することができる。位置は、染色体の腕における数として特定され得る。
【0062】
ステップ630において、核酸分子のそれぞれの群は、複数の染色体領域のそれぞれについて、特定された領域に基づいて、染色体領域に由来するものとして特定され得る。それぞれの群は、染色体領域の複数の座位のそれぞれに位置付けられた少なくとも1つの核酸分子を含み得る。
【0063】
ステップ640において、コンピュータシステムが、複数の染色体領域のそれぞれについて、核酸分子のそれぞれの群のそれぞれの値を算出し得る。それぞれの値は、それぞれの群の核酸分子の特性を定義し得る。特性は、核酸分子のカウント、パーセンテージ、またはサイズであり得る。それぞれの値は、サイズ分布の平均値、サイズ分布の中央値、サイズ分布の最頻値、またはサイズ閾値未満のサイズを有する核酸分子の割合を含み得る。特性としてのサイズの使用は、第IV節において詳細に論じる。
【0064】
ステップ650において、それぞれの値をそれぞれの基準値と比較して、染色体領域が欠失または増幅を呈するかどうかについての分類を決定することができる。この比較は、それぞれの値及びそれぞれの基準値に基づいてzスコアを決定することを含み得る。その後、zスコアを1つ以上の閾値と比較して、欠失または増幅が存在するかどうかを決定することができる。欠失及び増幅には、異なる閾値が使用され得る。他の実施形態において、例えば、zスコア内の他の値が等式の反対側に移動された場合、基準値は閾値を含み得る。基準値は、健常な試料、別の染色体領域(例えば、異常を呈さないもの)、または他方のハプロタイプ(試験される領域が第1のハプロタイプである場合)において決定される値に対応し得る。
【0065】
ステップ660において、欠失または増幅を呈する染色体領域の試験パターンが決定され得る。試験パターンは、試験される試料中の異常領域のパターンを指す。試験パターンは、欠失、増幅を呈するか、または正常である染色体領域のセットを含み得る。試験パターンはまた、増幅を呈するものとして特定されるセットの第1のサブセットも含み得る。試験パターンは、欠失を呈するものとして特定されるセットの第2のサブセットを更に含み得る。試験パターンはまた、増幅または欠失を呈さないものとして特定されるセットの第3のサブセットも更に含み得る。
【0066】
ステップ670において、試験パターンは、異なる種類の癌の複数の基準パターンと比較され得る。ある種類の癌の基準パターンは、既知のセットの異常領域を含み得る。基準パターンは、無細胞核酸分子の組織及び/または混合物の基準試料から決定することができる。基準パターンは、それぞれが増幅、欠失、または異常なしの定義された状態を有するいくつかの領域を含み得る。この比較は、試験パターンの領域のいずれが、基準パターン内の領域と同一の異常を有するかを決定することができる。例えば、試験パターン及び基準パターンの両方において、同一の領域が増幅、欠失を有するものとして、または正常であるものとして示されるかどうかを決定することができる。
【0067】
ステップ680において、比較に基づいて、第1の種類の癌に対応する第1の基準パターンと同一の欠失または増幅を呈する試験パターンの領域の量が決定され得る。様々な実施形態において、この量は、既知のセットの異常領域と一致する染色体領域の数またはパーセンテージであってもよい。
【0068】
ステップ690において、領域の量を第1の閾値と比較して、生体試料が第1の種類の癌を呈するかどうかについての第1の分類を決定する。第1の閾値は、第1の種類の癌に特異的であっても、複数の種類の癌にわたって使用されてもよい。そのような閾値は、特定される第1の種類の癌の既知のセットの異常領域と一致するのに必要とされる、染色体領域の最小量であってもよい。様々な実施形態において、最小量は、3、4、5、6、7、8、9、10、11、12、または13の染色体領域であり得る。いくつかの実施形態において、特定の領域が異常であることが必要とされ得るため、この量と第1の閾値との比較以外の他の基準が使用され得る。そのような特定の領域は、制約であっても、他の領域よりも高く加重されてもよい。特定の異常領域は、ある種類の癌の既知の異常領域の完全なセットのサブセットであってもよい。癌の種類としては、他の癌の中でも、HCC、結腸直腸癌、乳癌、肺癌、または鼻咽頭癌腫が挙げることができる。
【0069】
分類を決定するのに使用される閾値は、カウントされる領域の位置及びサイズに基づいて変動し得る。例えば、ある特定の種類の癌が関連付けられるかどうかを決定するための基準として、ある特定の染色体上またはある染色体の腕上の領域の量を、その特定の染色体(または腕)の閾値と比較してもよい。複数の閾値を使用してもよい。例えば、ある特定の染色体(または腕もしくはより大きな亜染色体領域)上の一致領域(すなわち、試験パターン及び基準パターン内での同一の異常の分類)の量が、第1の閾値よりも大きくあることが必要とされ得、ゲノムにおける一致領域の総量が第2の閾値よりも大きくあることが必要とされ得る。
【0070】
一致領域の量の閾値はまた、領域の分類の不均衡がどれほど強いかに依存し得る。例えば、ある種類の癌の分類を決定するための閾値として使用される一致領域の量は、各領域内の異常を検出するために使用される特異性及び感度(異常閾値)に依存し得る。例えば、異常閾値が低い(例えば、2のzスコア)場合、量閾値は、高くあるように選択され得る(例えば、15の一致領域または80%)。しかし、異常閾値が高い(例えば、3のzスコア)場合、量閾値は、より低くあり得る(例えば、5の一致領域または60%)。異常を示す領域の量はまた加重値であってもよく、例えば、高い不均衡を示す1つの領域は少しの不均衡のみを示す領域よりも高く加重されてもよい(すなわち、異常について、単に正及び負以上の分類が存在する)。そのような加重は、特定される種類の癌の異常を有することが必要とされる特定の領域と類似した様式で作用し得る。
【0071】
いくつかの実施形態において、閾値は、他の種類の癌の一致領域の数に基づいて、動的に決定することができる。例えば、閾値は、特定された癌の一致領域の数が、次の最も可能性の高い癌の種類の一致領域よりも、少なくともある特定の数大きくなるようであり得る。そのような閾値は、最小閾値に加えた追加の基準であり得る。したがって、いくつかの例において、十分な数の一致領域が存在しない場合、癌の種類が特定されない可能性がある。
【0072】
B.結果
方法600を複数の癌の種類について試験して、正確性を決定した。方法600を既知の癌の種類を有する患者で試験した。更に、使用される閾値は、既知の癌の種類の試料を使用して決定することができる。異なる癌の種類には、異なる閾値が使用され得る。
【0073】
17人の癌患者(6人のHCCを有する患者、4人の結腸直腸癌(CRC)を有する患者、3人の肺癌(BrC)を有する患者、2人の肺癌(LC)を有する患者、及び2人の鼻咽頭癌腫(NPC)を有する患者)のそれぞれの血漿DNAを、配列決定した。各患者について、各染色体腕のコピー数異常(CNA)をCAZAアプローチに基づいて分析した。
【0074】
図7は、実施形態に従う、表700中の異なる種類の癌について異なるパターンを呈する染色体腕を示す。事例のうち50%以上において発生するCNAが、色付けで強調される。コピー数減少が赤色で強調され、コピー数増加が緑色で強調される。
【0075】
表700では、最左列に染色体腕が列挙される。他の列のそれぞれは、癌の種類及びその癌の種類の患者数を列挙する。欠失は「-」で特定される。増幅は「+」で特定される。正常領域は「Nil」で特定される。
【0076】
血漿試料中に観察されるCNAのパターンは、異なる種類の癌を患う患者で異なる。血漿中に観察されるCNAの最も一般的なパターンに基づいて、実施形態は、血漿中に観察されるCNAを有する患者における癌の潜在的な組織起源を推定することができるが、CNAの原因は不明である。表700に列挙されるCNAのパターンは説明目的のものであり、CNAのより包括的なリストは、はるかにより大きい数の臨床試料を分析することによって確立され得る。
【0077】
CNAの基準パターンはまた、腫瘍組織の分析からも決定することができる。例として、1q、6p、8q、及び17qの増加ならびに4q、8p、13q、16q、及び17pの減少は一般に、HCC腫瘍組織中に検出される(Moinzadeh P et al.Br J Cancer2005;92:935-941)。5p、8q、9p、13q、及び20qの増加ならびに8p、9p、17p、及び18qの減少は一般に、CRC腫瘍組織中に検出される(Farzana et al.PLoS One2012;2:231968及びLips EH et al.J Pathol2007;212:269-77)。5p、7p、7q、8q、14q、17q、及び20qの増加ならびに3p、8p、9p、13q、及び18qの減少は一般に、非小細胞肺癌組織中に検出される一方で、3q、5p、14q、及び19qの増加ならびに3p、4p、4q、5q、10p、10q、13q、15q、17p、及び22qの減少は一般に、小細胞肺癌組織中に検出される(Zhao X et al.Cancer Res2005;65:5561-70)。1q、8q、17q、及び20qの増加ならびに4p、5q、8p、11q、及び13qの減少は、乳癌組織中において一般的である(Andre F et al.Clin Cancer Res2009;15:441-51)。ここに記載されるCNAのパターンは説明的な例としての役割を果たし、本明細書に記載される方法において使用され得る唯一のパターンであることは意図されない。
【0078】
この実施例のCNAパターンに基づいて、癌スクリーニングの目的で、患者BrC2に対して血漿DNA配列決定を実行したと想定する。1q、3q、8q、及び14qのコピー数増加ならびに2p、2q、3p、4p、7q、8p、9p、11p、12p、12q、16q、及び17pのコピー数減少を含むCNAが観察された。彼女の血漿中のCNAは、13の乳癌の典型的なCNAに一致した。対照的に、彼女のCNAは、それぞれ3、6、4、及び1つの、HCC、CRC、LC、及びNPCの典型的なCNAに一致したにすぎなかった。したがって、彼女の血漿DNAのCNAパターンに基づいて、彼女が有する可能性が最も高い癌は乳癌であると推定される。選択される閾値を使用して、観察されるCNAの数が、特定の癌の種類の典型的なCNAと適合するかどうかを決定することができる。この例において、7、8、9、10、11、12、または13の閾値を使用して、CNAを乳癌と適合するものとして分類することができる。一致領域のパーセンテージもまた使用され得る。例えば、一般的に異常な領域に一致する領域のパーセンテージが使用され得る。一般的に異常な領域は、基準試料の50%超において特定の異常を有する領域として定義され得る。
【0079】
他の実施形態において、他の統計的アプローチ(例えば、階層的クラスター化などであるが、これに限定されない)を使用して、患者が有する可能性が最も高い癌の種類を推定することができる。例えば、各基準試料に、各次元が異なる領域に対応する多次元的なデータ点を割り当ててもよい。一実装例において、各次元を、-1(欠失)、0(正常)、または1(増幅)に割り当ててもよい。異なるレベルの増幅では、より大きな数が可能であり得る。特定の癌の種類の試料はともにクラスター化され、新しい試料はクラスターに割り当てられ得る。閾値は、(存在する場合)新しい試料がどのクラスターに割り当てられるべきかを決定するために使用される測定基準に対応してもよく、割り当てられたクラスターは、その試料の特定された癌の種類に対応する。例えば、クラスターは、そのクラスターの少なくとも所定の数の基準パターンによって共有されるクラスターの基準パターンの領域に対応する重心を有し得る。クラスターは、どの試験パターンがそのクラスター内に位置するかを画定する境界を含み得る。境界は、単なる球状を超えた様々な形状を有し得る。どの基準パターンがどのクラスターに属するかを決定するとき、境界は、クラスター化分析の一部として決定することができ、クラスター内ではあるが重心から最遠の基準パターンが、境界を確定し得る。ある試験パターンがあるクラスターの一部であるかどうかを決定するための閾値は、重心から試験パターンへの方向での、重心から境界までの距離と見なすことができる。
【0080】
更に別の実施形態において、異なる種類の癌を有する相対尤度が決定され得る。患者のCNAパターンが、各種類の癌のCNAの尤度に対して比較され得る。例えば、1qの増加を有する患者は、異なる種類の癌の1qの増加の確率に対して比較されるだろう。説明目的で、我々は、70%のHCC患者、20%のLC患者、及び1%のCRC患者において1qの増加が発生し得ると想定する。これらの尤度により、CNAを有する異なる癌の種類を有する患者の相対的パーセンテージに基づいて、オッズ比を決定することができる。例えば、1qの増加に基づいて、患者は、HCCを有する可能性がLCを有する可能性よりも3.5倍高く、HCCを有する可能性がCRCを有する可能性よりも70倍高いと見なされ得る。HCC対LC対CRCのオッズ比は、70:20:1であり得る。当業者は、このオッズ比が、いくつかの異なりはするが等価である形態で表され得ることを理解するだろう。1q以外の染色体腕の異なるCNAのオッズ比もまた、決定され得る。その後、個々のCNAの尤度またはオッズ比により、全体的オッズ比を算出することができる。換言すると、ある患者に由来するCNAパターン、及び所与のCNAパターンを有する異なる種類の癌の尤度を考慮すれば、異なる種類の癌の尤度を、全体的オッズ比において互いに比較することができる。この例は異なる染色体腕のCNAの尤度を使用したものの、染色体腕以外の異なる亜染色体領域のCNAの尤度を使用してもよい。いくつかの実施形態において、患者において染色体腕または他の亜染色体領域にCNAが見出されない場合、異なる種類の癌について、CNAなしのパターンが染色体腕または亜染色体領域にCNAを発見しない尤度に対して比較され得る。その後、ある患者に由来するCNAを有さない領域のパターンを使用して、異なる種類の癌の尤度を決定することができる。更に、CNAを有する領域及びCNAを有さない領域の分析の組み合わせを使用して、1種類の領域のみが使用される場合よりも潜在的に高い正確性で、ある種類の癌の尤度または相対尤度を決定することができる。
【0081】
別の例において、患者NPC1の血漿DNAを配列決定したと想定する。2q、12q、及び22qのコピー数増加ならびに6q及び18qのコピー数減少を含むCNAが観察された。この患者のCNAパターンは、NPCの典型的なCNAのうちの4つに一致した。比較すると、このCNAパターンは、HCC、CRC、BrC、及びLCのパターンの、0、2、0、及び0の典型的なCNAに一致した。別の実施形態において、ある癌の種類の典型的なCNAの欠如もまたカウントされ得る。例えば、NPCの典型的なCNAのうちのいずれも、この患者には不在ではなかった。対照的に、HCC、CRC、BrC、及びLCの7、16、13、及び8の典型的なCNAは、この患者には不在であった。したがって、この患者のCNAパターンは、HCC、CRC、BrC、及びLCは示さない。
【0082】
図8A、8B、及び8Cは、表800のより高い解像度のCNA分析を使用することによって、どのようにしてこのアプローチの正確性を更に高めることができるかを示す。1Mb領域を冒すCNAが、この癌患者のコホートにおいて特定された。表800では、最左列に1MB領域のゲノム座標が列挙される。他の列のそれぞれは、癌の種類及びその癌の種類の患者数を列挙する。欠失は「-」で特定される。増幅は「+」で特定される。正常領域は「Nil」で特定される。
【0083】
この例において、1Mbに及び、かつ同一の癌の種類を有する全ての患者において存在したCNAが特定された。より高い解像度により、高い割合の同一の種類の癌を有する患者において存在する亜染色体CNAを特定することができる。これらの癌種類特異的CNAは、腕に基づく分析においては特定されない。例えば、30~31Mbの座標及び44~45Mbの座標に及ぶ染色体18のコピー数増加は、肺癌を有する3人の患者全てにおいて特定されたが、他の癌の種類を有する患者においては一般的ではなかった。上記に論じられるように、異なる統計試験を使用して、どの癌特異的CNAパターンが試験される事例に最も類似しているかを決定することができる。異なる統計試験としては、例えば、異なる癌関連CNAパターン内の典型的なCNAの数のカウント、及び階層的クラスター化を挙げることができる。
【0084】
IV.血漿中の腫瘍由来DNA断片のサイズ分析
DNA断片のサイズ分布における統計的に有意な差を使用して、カウントの数と類似した様式で、異常を特定することができる。総(すなわち、腫瘍性プラス非腫瘍性)血漿DNAのサイズ分布が、癌患者において増加することが報告されている(Wang BG,et al.Cancer Res.2003;63:3966-8)。しかしながら、(DNAの総(すなわち、腫瘍プラス非腫瘍)量の代わりに)腫瘍由来DNAを特に研究している場合、腫瘍由来DNA分子のサイズ分布が、非腫瘍細胞に由来する分子のサイズ分布よりも短いことが観察されている(Diehl et al.Proc Natl Acad Sci U S A.2005;102:16368-73)。したがって、循環DNAのサイズ分布を使用して、癌関連染色体異常が存在するかどうかを決定することができる。
【0085】
サイズ分析は、本明細書及び米国特許第8,620,593号に言及される様々なパラメータを使用することができる。例えば、上記からのQ値またはF値を使用してもよい。これらの値は読み取りの数には対応しないため、そのようなサイズ値は他の領域からのカウントによる正規化を必要としない。領域の深さ及び緻密さに関与する技術が使用されてもよい。いくつかの実施形態において、2つの領域を比較するとき、特定の領域のGCバイアスを考慮してもよい。いくつかの実装例において、サイズ分析は、DNA分子のみを使用する。
【0086】
A.方法
図9は、本発明の実施形態に従って、ある生物の生体試料を分析する方法900を図示するフローチャートである。生体試料は、正常細胞、及び潜在的に癌に関連付けられる細胞に起源を持つ核酸分子を含み得る。生体試料中、核酸分子のうちの少なくともいくつかは無細胞であり得る。一態様において、方法900は、第1の染色体の断片のサイズ及び1つ以上の基準染色体の断片のサイズの分離値(例えば、差または比率)に基づいて、配列不均衡の分類を決定することを対象とし得る。
【0087】
ステップ910において、生体試料中の複数の核酸分子のそれぞれについて、核酸分子のサイズが測定され得る。核酸分子のサイズの取得は、Loらによって2013年3月7日に出願された「Size-Based Analysis of Fetal DNA Fraction in Maternal Plasma」と題する米国特許公開第2013/0237431号に記載され、その内容が、あらゆる目的で参照により本明細書に組み込まれる。
【0088】
ステップ920において、生物の基準ゲノムにおける核酸分子の位置が特定され得る。ステップ120及び他に記載されるように、この位置はゲノムのどの部分であってもよい。例えば、複数の核酸分子のそれぞれがどの染色体に由来するのかが特定される。この決定は、基準ゲノムに対するマッピングによってなされ得る。
【0089】
ステップ930において、複数の染色体領域のそれぞれについて、特定された位置に基づいて、核酸分子のそれぞれの群が第1の染色体領域に由来するものとして特定され得る。第1の染色体領域は、複数の第1の座位を含み得る。
【0090】
ステップ940において、コンピュータシステムが、核酸分子の第1の群のサイズ分布の第1の統計値を算出し得る。実施形態において、第1の統計値は、特定のサイズの第1の曲線下面積を算出することによって決定することができる。第1の曲線は、あるサイズの範囲にわたる第1の染色体領域の核酸分子の累積度数のプロットであってもよい。一実施形態において、第1の統計値は、第1の染色体に対応する断片のサイズ分布の代表値、平均値、中央値、または最頻値であってもよい。別の実施形態において、第1の統計値は、ある種類のカットオフであり得る、第1のサイズ未満の断片の長さの合計を含み得る。例えば、200塩基対よりも小さい断片のそれぞれでは、それらの長さが合計され得る。この合計を、第1の染色体に対応する全ての断片の長さの合計、または(第1のサイズと同一であり得る)第2のサイズカットオフよりも大きい断片の長さの合計などの別の数で割ってもよい。例えば、第1の統計値は、断片の全長に対する第1のサイズカットオフ未満の断片の全長の比率であっても、大きい断片の全長に対する、小さい断片の全長の比率であってもよい。
【0091】
ステップ950において、第1の統計値を第1の基準値と比較して、第1の染色体領域が異常を呈するかどうかについての分類を決定することができる。実施形態において、第1の基準値は、第2の染色体領域の核酸分子の第2の群のサイズ分布の統計値であり得る。第2の染色体領域は、基準染色体領域と見なすことができる。第1の基準値は、特定のサイズの第2の曲線下面積を算出することによって決定することができる。第2の曲線は、サイズの範囲にわたる第2の染色体領域の核酸分子の累積度数のプロットであってもよい。一実施形態において、第1の基準値は、複数の基準染色体の統計値であってもよい。一実装例において、統計値を組み合わせることで、統計値を1つ以上の第2の染色体のものとしてもよい。別の実施形態において、複数の基準染色体の統計値が個々に比較されてもよい。この比較は、第1の染色体領域が欠失または増幅を呈するかどうかについての分類を決定することができる。
【0092】
第1の統計値及び第1の基準値を比較して、分離値を得ることができる。一実施形態において、分離値は、第1の統計値と第1の基準値との間の差であってもよいが決定される。別の実施形態において、分離値は、第1の基準値に対する第1の統計値の比率であってもよい。更に別の実施形態において、各基準染色体について算出され得る複数の分離値(例えば、各基準値の分離値)が決定され得る。
【0093】
分離値は、以下の等式を使用する、第1の染色体領域と基準染色体領域との間の、短いDNA断片の割合の差であってもよい。
【数1】
式中、P(≦150bp)試験は、150塩基対以下のサイズを有する第1の染色体領域に起源を持つ、配列決定された断片の割合を表し、P(≦150bp)基準は、150塩基対以下のサイズを有する基準染色体領域に起源を持つ、配列決定された断片の割合を表す。他の実施形態において、他のサイズ閾値(例えば、100塩基対、110塩基対、120塩基対、130塩基対、140塩基対、160塩基対、及び166塩基対などであるが、これらに限定されない)が使用されてもよい。他の実施形態において、サイズ閾値は、塩基、またはヌクレオチド、または他の単位で表すことができる。いくつかの実装例において、基準染色体領域は、第1の染色体領域を除く全ての亜染色体領域として定義することができる。他の実装例において、基準領域は単に、第1の染色体領域を除く亜染色体領域の一部分であってもよい。
【0094】
カウントに基づく分析において使用されたものと同一の対照群が、サイズに基づく分析において使用され得る。試験される領域のサイズに基づくzスコアは、対照のΔFの平均値及び標準偏差値を使用して算出することができる。
【数2】
【0095】
分離値は、1つ以上のカットオフ値と比較され得る。一実施形態において、この比較は、複数の分離値のそれぞれについて実行され得る。例えば、第1の統計値と各基準値との間で、異なる分離値が決定され得る。様々な実装例において、各分離値は、同一または異なるカットオフ値と比較され得る。別の実施形態において、分離値を2つのカットオフ値と比較して、その分離値がある特定の範囲内にあるかどうかを決定する。この範囲は、非正常データ点が発生するかどうか(例えば、異常)を決定するための1つのカットオフを含み得、第2のカットオフは、データ点が測定値または分析の誤差によって引き起こされる可能性があるかどうか(例えば、罹患試料についてすら、分離値がこれまで期待されていたよりも大きいかどうか)を決定するために使用され得る。
【0096】
第1のゲノム位置について、配列不均衡(例えば、異常)が存在するかどうかについての分類は、この比較に基づいて決定される。一実施形態において、単一の分離値について、複数のカットオフ(例えば、Nカットオフ)が使用されてもよい。そのような実施形態において、N+1分類が決定され得る。例えば、2つのカットオフを使用して、染色体領域が正常もしくは健常であるか、未定であるか、または異常(例えば、増幅もしくは欠失)であるかどうかの分類を決定することができる。複数の比較(例えば、各分離値の比較)が実行される別の実施形態において、分類は、比較のそれぞれに基づいてもよい。例えば、規則に基づく方法は、比較のそれぞれから生じる分類に目を向けることができる。一実装例において、決定的分類は、分類のうちの全てが一貫するときにのみもたらされる。別の実装例において、多数決分類が使用される。更に別の実装例において、分離値のそれぞれが、それぞれのカットオフ値にどれほど接近しているかに基づく、より複雑な式が使用されてもよく、これらの接近値を分析して、分類を決定することができる。例えば、接近値は(正規化などの他の要因とともに)合計されてもよく、結果が別のカットオフ値と比較されてもよい。他の実施形態において、方法900の変動はまた、第1の染色体の統計値と、基準試料に由来し得るカットオフ値との直接比較にも適用され得る。
【0097】
B.サイズと癌との相関性
更なる分析のため、我々は、3つの異なるサイズ群、すなわち、150塩基対未満のもの、150~180塩基対のもの、及び180塩基対超のものの、血漿DNA分子を別々に調査した。150塩基対未満のDNA断片の割合と血漿中の腫瘍DNA画分との間には、正の相関性(ピアソンのr=0.6、p値<0.001)が存在する(図10A)。図10A、10B、及び10Cの腫瘍DNA画分は、対数目盛りで示される。150~180塩基対のサイズを有するDNA断片の割合と血漿中の腫瘍DNA画分との間には、相関性(r=-0.07、p値=0.95)は観察されなかった(図10B)。180塩基対超のDNAの割合と血漿中の腫瘍DNA画分との間には、負の相関性(r=-0.41、p値<-0.001)が観察された(図10C)。
【0098】
より低い腫瘍DNA画分は初期段階の癌で発生する可能性がより高く、より高い腫瘍DNA画分はより後期の段階の癌で発生する可能性がより高い。したがって、DNA断片にとって正常であるよりも大きい平均サイズ(または他の統計値)の存在は、初期の癌を示し得、DNA断片にとって正常であるよりも小さい平均サイズの存在は、より後期の段階の癌を示し得る。
【0099】
他の実施形態において、腫瘍DNA画分が測定され得る。腫瘍DNA画分が特定の閾値未満である場合、サイズ分析を実行して、サイズ分布の統計値が閾値よりも大きいかどうかを決定(すなわち、DNA断片が長いかどうかを試験)し得る。腫瘍DNA画分が特定の閾値を超える場合、サイズ分析を実行して、サイズ分布の統計値が閾値未満であるかどうかを決定(すなわち、DNA断片が短いかどうかを試験)し得る。
【0100】
サイズ分析の方法、及びサイズと癌との関連性に関するデータは、Loらによって2011年11月30日に出願された「Detection of Genetic or Molecular Aberrations Associated with Cancer」と題する米国特許公開第2013/0040824号に論じられ、その内容が、あらゆる目的で参照により本明細書に組み込まれる。
【0101】
V.サイズ分析によるCNA異常の確認
我々は、超並行配列決定を使用して、全ゲノム様式での単一塩基解像度での血漿DNA試料のサイズプロファイルを研究した。我々は、CAZAを使用して腫瘍由来血漿DNAを特定して、それらの特異的サイズプロファイルを研究した。
【0102】
この研究において、我々は、CAZAアプローチを使用して、腫瘍関連CNAの存在を示す血漿DNAの定量的異常を示す染色体腕を特定した。増幅または欠失を有する染色体腕を特定した後、我々は、腫瘍由来血漿DNA(増幅した領域に富む)と非腫瘍由来血漿DNA(欠失した領域に富む)とを比較するための戦略として、これらの領域に集中した。我々は、このアプローチが、癌関連変異の検出に基づくよりも、サイズプロファイル化分析のために腫瘍性DNAを特定するための、より頑建な手段を提供し得るものと考える。後者では、癌ゲノムにおいて、平均で約数千の点変異が存在すると報告されている(29~32、39)。他方、CAZAでは、総計約数十メガベースに及ぶ、CNAを呈するゲノム領域に由来する無数の血漿DNA分子のうちのいずれも有用であるだろう。
【0103】
A.複合分析
図11は、癌患者における血漿DNAサイズ分析の原理の模式図を示す。図11は、段階1110~2150を示す。段階1110は、血漿中の組織の細胞を示す。上記のように、腫瘍細胞は、様々な領域において増幅及び/または欠失を含み得る。実施例は、ある特定の染色体上で増幅される1つの領域、及び欠失される別の領域を示す。
【0104】
段階1120では、血漿は、様々な領域からの寄与とともに示される。DNA断片は、血漿試料中に示される。癌患者において、血漿DNAは、腫瘍細胞(赤色の分子)及び非腫瘍細胞(青色の分子)の両方に由来する。腫瘍組織中で増幅されるゲノム領域は、より腫瘍性のDNAを血漿に寄与するだろう。腫瘍組織中で欠失されるゲノム領域は、より少ないDNAを血漿に寄与するだろう。
【0105】
段階1130では、ペアエンド配列決定が実行される。ペアエンド配列決定を使用して、血漿試料中のDNA断片のサイズを決定することができる。
【0106】
段階1140では、カウントに基づく分析を使用して、異常領域を特定し得る。示される実施例において、CAZA分析を使用して、染色体腕が血漿DNA中で過剰提示または過小提示されるかどうか(これは、腫瘍中の染色体腕の増幅または欠失の存在を示す)を決定した。大きな正のzスコアは、染色体腕の増幅の存在を示し得る一方で、大きな負のzスコアは、染色体腕の欠失の存在を示し得る。腕以外の他の領域のサイズが使用されてもよい。
【0107】
段階1150では、試験領域のサイズ分布が分析され得る。上記に説明されるように、腫瘍DNA断片は、健常な細胞のDNA断片よりも短い。異常領域のDNA断片を試験して、サイズ分析もまた同一の異常を示すことを確認することができる。示される実施例において、増幅を呈する領域のサイズ分布が、欠失を呈する領域のサイズ分布と比較される。したがって、いくつかの実施形態において、以下により詳細に記載されるように、過小提示される染色体腕(非腫瘍DNAに富む)及び過剰提示される染色体腕(腫瘍由来DNAに富む)に起源を持つ血漿DNA分子のサイズプロファイルが比較され得る。
【0108】
B.2つの領域間のサイズ差
腫瘍組織及び非腫瘍組織に起源を持つ血漿DNAのサイズプロファイルを比較するために、我々は、CNAを有する染色体腕に由来する血漿DNA断片を分析した。先行研究(34~36)、及びこの研究における我々の発見に基づくと、HCCに関連付けられる典型的なCNAは、1p及び8pの欠失ならびに1q及び8qの増幅を含む。血漿中53%の腫瘍由来DNAを有するHCC事例(H291)を使用して、原理を説明する。この事例は、血漿中8pの欠失及び8qの増幅を示した。したがって、腫瘍は、8pの欠失した領域よりも、8qの増幅した領域から多くの血漿DNAを放出するだろう。結果として、CNAを有さない領域と比較して、8qは腫瘍由来DNAに比較的富み、8pは腫瘍DNAが比較的枯渇する(換言すると、非腫瘍DNAに比較的富む)だろう。8p及び8qの血漿DNAのサイズプロファイルを、図12Aに示す。8qのサイズプロファイルは、8pのサイズプロファイルの左側にあり、8qの血漿DNAのサイズ分布が8pの血漿DNAのサイズ分布よりも短かったことを示した。8qは腫瘍DNAに富むため、このデータは、腫瘍によって放出されるDNAが、腫瘍に起源を持たないDNAよりも短い傾向があることを示す。
【0109】
短縮化の程度を定量化するために、各血漿試料について、8p及び8qのサイズプロファイルの累積度数プロット(図12B)を構築した。これらのプロットは、試料中の全ての血漿DNA分子の割合として、短いサイズから長いサイズまでのDNA分子の進行性蓄積を示す。その後、2つの曲線の差ΔS(図12C)を、
【数3】
として算出し、式中、ΔSは、特定のサイズの8pと8qとの間の累積度数の差を表し、S8p及びS8qはそれぞれ、8p及び8q上の、特定のサイズ未満の血漿DNA断片の割合を表す。特定のサイズでのΔSの正の値は、8pと比較して、8q上の、その特定のサイズよりも小さいDNAのより高い存在量を示す。この方法を使用して、我々は、血漿中8p及び8q上にCNAを呈した全てのHCC事例について、50塩基対~250塩基対のΔS値を探査した。HCC事例H291の8qと8pとの間の累積度数の差ΔSを、図12Cに赤色線としてプロットする。健常な対照(灰色線)と比較すると、これら全てのHCC事例は、8p(非腫瘍DNAに富む)よりも、8q(腫瘍DNAに富む)に起源を持ち、200塩基対よりも短い血漿DNAの、より高い存在量を示した(図13A)。図13Aは、血漿中の8p及び8qについて異なるCNAを有する全てのHCC事例のサイズに対する、ΔSのプロットを示す。血漿中、異なる範囲の画分腫瘍DNA濃度を有する事例を、異なる色で示す。画分腫瘍DNA濃度が増加するにつれて、ΔSが増加し、これは、より短いDNA断片のより高い存在量を示す。これらのデータは、腫瘍由来DNAが非腫瘍由来DNAのそれよりも短かったことを更に支持する。
【0110】
ΔSの値は166塩基対で最大値に達し、これは、腫瘍組織に由来する血漿DNAと非腫瘍組織に由来する血漿DNAとの間の重要な差は、166塩基対未満及び166以上のDNAの相対的存在量であることを示した。我々は、この値をΔS166として表す。HBV保因者及び肝硬変症を有する患者を含むこの研究の全ての対象について、ΔS166をプロットした(図13B)。HCC群について、血漿CAZA分析によって決定される、8p及び8q上で異なるCNAを有する及び有さない患者をそれぞれ、赤色及び黒色の点で表す。非HCC対象のうちのほぼ全てで、ΔS166値は0に接近しており、これは、8p及び8qに由来するDNAのサイズ分布が類似することを示した。ΔS166(またはいくらかの他の特定のサイズの値)は閾値と比較され得、差が閾値を超える場合、領域のうちの少なくとも1つが異常を呈するものとして特定され得る。一方の領域が(例えば、CNA分析から)異常を有さないことが既知である場合、差が閾値を超えるときに、他方の領域が異常を呈するものとして特定されるだろう。そのような実施形態において、差の符号は異常の種類を示し得る。例えば、第1の領域が増幅を有し、第2の領域が増幅を有さない場合、差は正の数であるだろう。第1の領域が欠失を有し、第2の領域が欠失を有さない場合、差は負の数であるだろう。異常が決定される場合、両方の領域が潜在的に異常を有するものとして特定され得、符号は各領域が有し得る異常の種類を示す。差が十分に大きくある場合、それは、一方の領域が増幅を有し、他方の領域が欠失を有する(または増幅の量が異なる)ことを示し得、これは、その時、正常領域と比較して、差が増幅した領域よりも大きいためである。コピー数分析は、好適な閾値が選択され得るように、領域の初期分類を提供することができる。
【0111】
1p及び1qの血漿DNAサイズプロファイルに基づくサイズ分析もまた実行され(図14及び15)、同一の動向を示した。図15において、HCC群について、血漿CAZA分析によって決定される、1p及び1q上で異なるCNAを有する及び有さない患者をそれぞれ、赤色及び黒色の点で表す。このサイズ分析は、正常領域内の増幅した領域、または正常領域及び欠失した領域を使用して実行することができる。
【0112】
別の実施形態において、増幅または欠失した領域のサイズ分布が、癌を有することまたは健常であることが既知である1人以上の基準対象のサイズ分布と比較され得る。サイズ分布は、値、例えば、統計値(平均値またはサイズ中央値など)によって表すことができる。
【0113】
したがって、染色体領域の異常を使用して、サイズ分析のために特定の領域を選択することができる。その後、選択された領域のサイズ分析を使用して、癌のレベルの分類を決定することができる。CNA及びサイズ分析を使用する組み合わせは、より大きな正確性を提供することができる。CNA分析は時折、偽陽性、すなわち、癌を有さないが、コピー数異常を有する領域を有する患者をもたらすことがある。したがって、その時、異常を呈する十分な数の領域のために癌を有すると特定される患者が、サイズ分析を使用して確認され得る。一実施形態において、選択された領域は、増幅を有する領域である。
【0114】
この研究は、高解像度かつ包括的な様式でHCC患者の血漿DNAサイズプロファイルを調査する意図を持って設計され、これは、腫瘍組織による血漿DNAの生成または放出に関する機序に光を当てることができる。この研究の別の目標は、癌関連血漿DNAサイズプロファイルに関する文献に存在した、明らかな非一貫性のうちのいくつかを解決することであった。研究は、癌患者の血漿中のより長いDNAの存在を報告(20~23)している一方で、他の研究は、より短い血漿DNA分子における癌関連DNA変異のより高い有病率を報告(12、25)している。これらの研究目標を達成するために、2ステップアプローチを採用した。第1に、我々は、ペアエンド超並行配列決定を使用することによって、募集した対象の血漿試料中の全てのDNA分子の長さを測定した。このアプローチは、最大で単一塩基解像度まで、個々の血漿DNA分子の長さを決定することを可能にする。更に、ゲノムにわたる血漿DNA分子が分析され得、異なるサイズのDNA間の相対量が高精度で決定され得る。したがって、血漿DNAサイズプロファイルの広範かつ深い調査を得ることができる。第2に、我々は、増幅または欠失に関連付けられるゲノム位置に起源を持つ血漿DNA中の、腫瘍性DNA含有量の相対差、CAZAアプローチを、腫瘍由来血漿DNAを特定して詳細に分析するための手段として利用した。
【0115】
この研究は、血漿DNAの放出に関与し得る生物学的機序へのいくつかの洞察を提供する。HBV保因者、肝硬変症またはHCCを有する患者を含む、全ての募集した対象の血漿DNAは、166塩基対で顕著なピークを呈した(図14及び16)。このパターンは、妊婦及び臓器移植レシピエントの血漿における観察に類似する(26、27)。研究された患者の全ての群の血漿DNAサイズプロファイルにおける166塩基対の特徴の存在は、妊婦、移植レシピエント、HCC、肝硬変症、または慢性HBVを有する患者のものを含む、ヒト血漿中の循環DNA分子のうちのほとんどがモノヌクレオソーム単位に似ており、アポトーシスのプロセスに起源を持つ可能性があることを示す。
【0116】
腫瘍関連CNAを有する血漿DNA分子のサイズプロファイルの研究は、そのような分子がそのような符号を担持しないものよりも短いことを示す(図13)。これは、血漿中の腫瘍DNAの増加する画分濃度とともに、血漿DNAのサイズプロファイルは左に向かって移動するという我々の観察と一貫する。しかしながら、血漿中の腫瘍DNAの低画分濃度を有するHCC患者が健常な対照よりも明らかに長いサイズ分布を有したという事実は、腫瘍関連ゲノム符号を担持しない血漿DNAの追加の構成要素が存在したことを示す。この構成要素は、腫瘍のまわりの非腫瘍性肝臓組織に由来する可能性がある。これらの長いDNA分子は、アポトーシスの代わりに壊死に由来し得る。壊死に関連付けられる細胞死が、典型的なオリゴヌクレオソームDNA断片に加えて、より長いDNA断片を生成し得ることが報告されている(37、38)。将来の研究にとって、これらのより長いDNA分子のDNAメチル化プロファイルを研究して、それらが、肝臓について期待されるものに対する類似点を有するかどうかを確認することが興味深くあるだろう。
【0117】
我々は、異常に短い及び長いDNA分子の母集団が、肝細胞癌を有する患者の血漿中で共存することを示した。短いDNA分子は、腫瘍関連コピー数異常を選択的に担持した。
【0118】
まとめると、我々は、単一ヌクレオチド解像度で、HCCを有する患者における血漿DNAのサイズ分布をプロファイル化した。我々は、腫瘍組織及び非腫瘍組織に由来する血漿DNAのサイズの差を実証した。
【0119】
ΔSと腫瘍サイズとの間の関連性もまた、分析した。血漿中8pの欠失及び8qの増幅を有する10人のHCC患者の血漿DNA試料を、ΔS分析を使用して分析した。8p及び8qに対してマッピングする血漿DNA断片間のサイズ差について、ΔSを決定した。ΔSの正の値は、8pと比較して、8qの、150塩基対未満の短いDNA断片のより多い存在量を示す。図30において、ΔSの値を、HCC患者の腫瘍の最長寸法に対してプロットした。
【0120】
ΔSと腫瘍サイズとの間の正の相関性が、観察された(r=0.876、ピアソン相関性)。この観察は、異なる種類のCNAを呈する領域に由来する血漿DNA断片のサイズ分布を使用して、HCC患者における腫瘍のサイズを反映させることができることを示す。
【0121】
これらの10人のHCC患者について、総血漿DNAの全体的サイズ分布もまた分析した。各事例について、150塩基対未満(P(<150))の血漿DNA断片のパーセンテージを決定し、図31において腫瘍サイズに対してプロットした。短い断片の割合は、最大寸法が3cm超のより大きな癌を有する患者において有意により高かった。一実施形態において、短い断片の割合を使用して、癌のサイズ及び重症度を反映させることができる。他の実装例において、サイズの他のカットオフ(例えば、100塩基対、110塩基対、120塩基対、130塩基対、140塩基対、160塩基対、及び166塩基対などであるが、これらに限定されない)が使用されてもよい。
【0122】
較正関数を使用して、腫瘍のサイズと統計値との間の関連性を提供してもよい。較正関数は、既知のサイズの腫瘍を有する生物に由来する基準試料の較正データ点から決定することができる。較正データ点は、腫瘍のサイズの測定値、及び染色体領域に由来する核酸分子のサイズの対応する統計測定値を含み得る。新しい対象から新しい試料が得られるとき、統計値が決定され得、較正関数を使用して統計値を腫瘍サイズに変換し得る。較正関数の一例は、図30に示される線形フィットに類似した線形フィットである。最小二乗フィットなどの他の種類の回帰分析を使用して、較正関数を生成してもよい。
【0123】
較正関数は、様々な方法で、例えば、特定の関数の複数の係数(線形関数または非線形関数など)として定義される。他の実施形態は、較正関数が生成され得るように、複数の較正データ点(例えば、較正関数のデータ点)を記憶し得る。更に、そのような較正データ点間に内挿を実行して、較正関数を得てもよい。較正関数は、コンピュータメモリ内に記憶され、そこから読み出され得る。
【0124】
C.方法
図16は、本発明の実施形態に従って、CAZA及びサイズ分析を実行して、ある生物の生体試料を分析する方法1600を図示するフローチャートである。
【0125】
ステップ1605において、生物の複数の染色体領域が特定され得る。各染色体領域は、複数の座位を含み得る。複数の染色体領域のうちの1つが、第1の染色体領域として選択され得る。複数の染色体領域の特定は、図6のステップ610に類似し得る。
【0126】
ステップ1610において、複数の核酸分子のそれぞれについて、生物の基準ゲノムにおける核酸分子の位置が特定され得る。核酸分子の位置の特定は、図6のステップ620に類似した様式で実行され得る。
【0127】
ステップ1615において、生体試料中の複数の核酸分子のそれぞれについて、核酸分子のサイズが測定され得る。核酸分子のサイズが、図9のステップ910に類似した様式で測定され得る。
【0128】
ステップ1620において、核酸分子のそれぞれの群は、複数の染色体領域のそれぞれの染色体領域について、特定された位置に基づいて、染色体領域に由来するものとして特定され得る。それぞれの群は、染色体領域の複数の座位のそれぞれに位置付けられた少なくとも1つの核酸分子を含み得る。核酸分子のそれぞれの群の特定は、図1のステップ120に類似し得る。
【0129】
ステップ1625において、コンピュータシステムが、核酸分子のそれぞれの群のそれぞれの量を算出し得る。それぞれの量の算出は、図1のステップ130における算出に類似し得る。
【0130】
ステップ1630において、それぞれの量をカウント基準値と比較して、染色体領域が増幅を呈するかどうかについてのカウント分類を決定することができる。比較に基づいて、第1の染色体領域は、潜在的に異常を呈するものとして特定され得る。ステップ1620~1630は、図1のステップ120~140または図6のステップ630~650に様式した様式で実行され得る。
【0131】
ステップ1640において、核酸分子の第1の群が、第1の染色体領域に由来するものとして特定され得る。
【0132】
ステップ1645において、コンピュータシステムが、核酸分子の第1の群の第1のサイズ分布の第1の統計値を算出し得る。第1の統計値は、特定のサイズの第1の曲線下面積を算出することによって決定することができる。第1の曲線は、あるサイズの範囲にわたる第1の染色体領域の核酸分子の累積度数のプロットであってもよい。ステップ1645における第1の統計値の算出は、図9のステップ940における第1の統計値の算出に類似し得る。
【0133】
ステップ1650において、第1の統計値をサイズ基準値と比較して、第1の染色体領域が異常を呈するかどうかについてのサイズ分類を決定することができる。サイズ基準値は、特定のサイズの第2の曲線下面積を算出することによって決定することができる。第2の曲線は、サイズの範囲にわたる第2の染色体領域の核酸分子の累積度数のプロットであってもよい。この比較は、2つの曲線間の差に基づいてもよい。いくつかの実施形態において、第1の統計値とサイズ基準値との比較は、図9のステップ950に類似し得る。
【0134】
ステップ1655において、第1の染色体領域が異常を呈するかどうかについての最終分類が決定され得る。例えば、サイズ分類及びカウント分類のうちの少なくとも1つを使用して、第1の染色体領域に異常が存在するかどうかを決定することができる。いくつかの実施形態において、最終分類は、カウント分類及びサイズ分類が同一の異常を示すときにのみ、第1の異常が存在することであり得る。したがって、第1の統計値とサイズ基準値との比較は、第1の染色体領域が異常を呈するかどうかを確認することができる。いくつかの実施形態において、対応するカウント分類に基づいて、異常であると特定された染色体領域のセットについて、サイズ分類のセットが決定され得る。サイズ分類のセットに基づいて、染色体領域のそれぞれを、異常であるもとして、または異常ではないものとして確認することができる。
【0135】
いくつかの実施形態において、第1の染色体領域が異常を呈するどうかについての最終分類は、複数のカウント基準値及び複数のサイズ基準値に基づいてもよい。カウント基準値のそれぞれは、異なるカウント分類(例えば、レベル1とレベル2との間、またはレベル2とレベル3との間などの特有のカウント分類ペア間の弁別)に対応し得る。同様に、サイズ基準値のそれぞれは、異なるサイズ分類に対応し得る。サイズ分類とカウント分類との特定の組み合わせから、最終分類が決定され得る。
【0136】
サイズ分類は、サイズ分布の統計値に応じて複数の分類を含み得る。例えば、統計値とサイズ基準値との間の大きな差は、高い異常の尤度に対応するサイズ分類をもたらし得る一方で、統計値とサイズ基準値との間の小さな差は、低い異常の尤度に対応するサイズ分類をもたらし得る。同様に、カウント分類は、核酸分子の群の量に応じて複数の分類を含み得る。例えば、カウント基準値と比較して、核酸分子の群の量間の大きな差は、高い異常の尤度に対応するカウント分類をもたらし得る一方で、小さな差は、低い異常の尤度に対応するカウント分類をもたらし得る。
【0137】
したがって、最終分類は、異なるサイズ分類及びカウント分類について異なる閾値に基づいてもよい。例えば、ある特定の、可能性としては低い、異常の尤度を示すカウント分類を考慮すれば、高い異常の尤度を示すサイズ分類は、異常を示す最終分類をもたらし得る。サイズ分類またはカウント分類のうちの1つによって示される異常の尤度が増加するにつれて、他の分類によって示される尤度の閾値は低下する。場合によっては、一方の分類が高い第1の種類の異常の尤度を示し得、他方の分類が低い第2の種類の異常の尤度を示し得、最終分類が第1の種類の異常が存在することを示し得る。場合によっては、最終分類は、ある異常の尤度または確率に対応し得る。
【0138】
D.例示的事例
癌関連CNAの検出の特異性は、以下の2つの事例に示されるように、血漿DNAサイズ分析によって改善することができる。事例1は、B型肝炎関連硬変症を有する患者であり、事例2はB型肝炎感染の慢性保因者であった。彼らの両方とも、募集時点ではいかなる癌を有することも既知ではなかった。彼らを募集から2年間臨床的に経過観察し、癌は検出されなかった。募集時に2人の対象のそれぞれから静脈血を採取した。血漿DNAを配列決定した。これらの2人の患者のそれぞれにおいて、CNA関与染色体1qが検出された。事例1では、1p及び1qのzスコアはそれぞれ-2.3及び15.5であった。これらの結果は、1qの増幅の解釈と一貫する。血漿DNA断片サイズ分析において、ΔSは-0.019であった。ΔSの負の値は、1pと比較して、1qにおいて短いDNA断片の存在量がより低かったことを示す。カウントに基づく分析が、1qが増幅されたことを示すように、サイズに基づく分析結果は、我々が癌関連CNAについて期待していたものとは逆であった。癌患者において、コピー数増加を有する領域は、増幅を有する領域またはいかなるCNAも有さない領域と比較して、より多くの癌由来の短い断片の存在ために、全体的により短いサイズ分布を示すことが期待される。したがって、この事例におけるサイズ分析は、血漿DNA中に癌関連CNAの存在を示さない。
【0139】
事例2について、1p及び1qのzスコアはそれぞれ0.4及び-4.4であった。これらの結果は、1qの欠失の解釈と適合する。血漿DNA断片サイズ分析において、ΔSは0.044であった。ΔSの正の値は、1pと比較して、1qにおいて短いDNA断片の存在量がより高かったことを示す。カウントに基づく分析が、1qが欠失されたことを示すように、サイズに基づく分析結果は、我々が癌関連CNAについて期待していたものとは逆であった。癌患者において、コピー数減少を有する領域は、増幅を有する領域またはいかなるCNAも有さない領域と比較して、より少ない癌由来の短い断片の存在ために、全体的により長いサイズ分布を示すことが期待される。したがって、この事例におけるサイズ分析は、血漿DNA中に癌関連CNAの存在を示さない。
【0140】
VI.癌の段階の決定
上記に言及されるように、DNA断片のサイズは癌の段階を示し得る。より後期の段階の癌は、増幅を呈する領域についてより小さな断片を呈する。
【0141】
固有の生物学的関心以外に、血漿DNAサイズプロファイル化はまた、血漿中の癌関連変化を検出するための診断アプローチの開発にも有用であり得る。例えば、血漿に由来する腫瘍性DNAの富化は、短いDNA断片の分析に集中することによって達成され得る。更に、我々は、短いDNA分子の割合が、血漿中の腫瘍由来DNAの画分濃度と正の関連性を有することを観察した。サイズプロファイルの変化を使用して、治療過程の患者を監視することができる。更に、HCCを有する及び有さない患者の血漿中の長いDNA分子の母集団の存在は、更なる研究を保証する。これらのDNA分子の放出を支配する組織源または病理学的プロセスがより良く理解されるとき、血漿中の長いDNAの割合の測定が、そのような疾患の評価において有用となり得る。
【0142】
A.HCC患者の血漿DNAサイズ分布
HCC患者、HBV保因者、硬変症患者、及び健常な対照の血漿DNAのサイズ分布を、図18及び19に示す。図19において、各個体が異なる色によって表される。一般に、最も顕著なピークは、各対象のサイズ分布プロットの166塩基対で観察された。この観察は、妊婦及び移植レシピエントについての以前の報告(26~28)と一貫し、これは、循環DNA分子のうちのほとんどがアポトーシスに由来することを示す。興味深いことに、32人の健常な対照のサイズ中央値分布プロファイル(図18の黒色の太線)と比較すると、画分腫瘍DNA濃度を有するHCC患者における血漿DNAのサイズはより長かった。しかしながら、血漿中の腫瘍DNAの増加する画分濃度とともに、血漿DNAのサイズ分布は次第に左に移動した(図18)。
【0143】
先に記載したように、図13Aは、血漿中の8p及び8qについて異なるCNAを有する全てのHCC事例のサイズに対する、ΔSのプロットである。血漿中の画分腫瘍DNA濃度が2%未満から8%超へと増加するにつれて、ΔSが増加し、これは、より短いDNA断片のより高い存在量を示す。血漿中の画分腫瘍DNA濃度は、癌の段階が進行するにつれて増加し得る。結果として、より短いDNA断片の量は、より後期の段階の癌を示し得る。図13Bは、非HCC対象と比較して、HCC患者ではΔS166がより高いことを示し、これは、166塩基対未満及び166塩基対超のDNAの相対的存在量を使用して、癌の存在を示し得ることを示す。したがって、ΔS166はまた、癌の段階も示し得る。
【0144】
図20は、短い断片の割合を使用して、健常な対照対象からHCC患者を鑑別することができる場合についての一例を示す。32人の、健常な対象、血漿中2%未満の腫瘍DNA画分を有するHCC患者、及び血漿中6%超の腫瘍DNA画分を有するHCC患者について、150塩基対未満の血漿DNA断片の割合をプロットした。健常な対照対象(CTRと標識)と比較して、2%未満の腫瘍DNA画分を有するHCC患者は、150塩基対未満の短いDNA断片の有意により低い割合を有し(p=0.0002、t検定)、6%超の腫瘍DNA画分を有するHCC患者は、短いDNA断片の有意により高い割合を有した(p=0.003、t検定)。2%~6%の腫瘍DNA画分を有するHCC患者は、2%未満の腫瘍画分を有するHCC患者と6%超の腫瘍画分を有するHCC患者との間の、DNA断片の割合を有する。この様式において、2%~6%の腫瘍画分を有するHCC患者は、健常な対照対象に類似した分布を有し得る。
【0145】
図21は、P(<150)を適用して、健常な対照対象から2%未満の腫瘍DNA画分を有するHCC患者を鑑別するための、受信者動作特性(ROC)曲線を示す。腫瘍中のコピー数減少と適合する、血漿中で過小提示を呈する染色体領域の過小提示の規模に基づいて、腫瘍画分を決定した。いかなる染色体腕の有意な過小提示も有さない事例について、コピー数増加と適合する領域の過剰提示の規模を使用して、単一コピー増加の想定の下、腫瘍画分を決定した。腫瘍画分は、以下の等式によって決定することができ、
【数4】
式中、P試験は、試験事例の対象となる染色体腕にマッピングされた断片の割合を表し、P正常は、健常な対照の染色体腕にマッピングされた断片の平均の割合を表し、ΔNは、コピー数変化の規模(例えば、1つの重複または1つの欠失のいずれかについて1、及びより高次の増幅についてより大きな数)を表す。曲線下面積(AUC)は、0.670及び0.882の95%の信頼限界で、0.776であった。この結果は、サイズ分析を使用して、血漿中2%未満の腫瘍画分を有するHCC患者を特定することができることを示す。ROC曲線分析は、異なる閾値を選択して、異なる感度及び特異性を達成することができることを示す。
【0146】
図22は、図21と同様に、P(<150)を有するサイズ分析もまた、血漿中6%超の腫瘍画分を有するHCC患者を検出することができることを示す。健常な対象からこれらの患者を鑑別するためのAUCは、0.761及び1.000の95%の信頼限界で、0.893であった。
【0147】
図23は、図20が短い血漿DNA断片の割合について示したように、長い血漿DNA断片の割合を使用して、HCCを検出することができることを示す。この例において、P(>180)と表される180塩基対よりも大きい断片の割合を、血漿中2%未満の腫瘍DNA画分を有するHCC患者及び6%超の腫瘍DNA画分を有するHCC患者、ならびに健常な対照対象についてプロットした。この割合は、2%未満の腫瘍DNA画分を有するHCC患者において有意により高かった(p<0.00001、t検定)。
【0148】
図24は、P(>180)を使用して、健常な対照対象から2%未満の腫瘍DNA画分を有するHCC患者を鑑別するためのROC曲線を示す。AUCは、0.805及び0.961の95%の信頼限界で、0.883であった。
【0149】
図25は、異なる腫瘍DNA画分を有するDNA断片の異なるサイズ分布の別の例を提供する。図25は、健常な対照対象、2%未満の腫瘍DNA画分を有するHCC患者、及び6%超の腫瘍DNA画分を有するHCC患者の断片サイズ中央値のボックスプロットを示す。2%未満の腫瘍DNA画分を有するHCC患者のDNA断片のサイズ中央値は、健常な対照対象よりも有意に長かった(P<0.00001、t検定)。対照的に、6%超の腫瘍DNA画分を有するHCC患者のDNA断片のサイズ中央値は、有意により短かった(p=0.03、t検定)。図25は、癌の段階を決定するための方法としての、DNA断片サイズの使用を支持する。より長いサイズ中央値はより小さな腫瘍DNA画分に関連付けられる一方で、より短いサイズ中央値はより長い腫瘍DNA画分に関連付けられる。ある個体が、第1のカットオフ及びサイズ中央値未満かつ長いサイズ閾値超の、より小さな腫瘍DNA画分を有する場合、初期段階の癌が確認され得る。他方、ある個体が、第2のカットオフ及びサイズ中央値超かつ短いサイズ閾値未満の、より長い腫瘍DNA画分を有する場合、後期の癌が確認され得る。
【0150】
2%~6%の腫瘍DNA画分を有するHCC患者は、2%未満の腫瘍画分を有するHCC患者と6%超の腫瘍画分を有するHCC患者との間の、DNA断片サイズ中央値の割合を有する。この様式において、2%~6%の腫瘍画分を有するHCC患者は、図25の健常な対照対象に類似した分布を有し得る。したがって、ある個体が、低カットオフから高カットオフまでの腫瘍DNA画分、及び短いサイズ閾値から長いサイズ閾値までのサイズ中央値を有する場合、中期段階の癌が確認され得る。
【0151】
図26及び27は、異なるサイズ閾値を使用して、健常な対照対象からHCC患者を鑑別することができることを示すROC曲線である。図26は、断片サイズ中央値を使用して、2%未満の腫瘍DNA画分を有するHCC患者と健常な対照対象とを鑑別するためのROC曲線である。AUCは、0.718及び0.907の95%の信頼限界で、0.812であった。
【0152】
図27は、断片サイズ中央値を使用して、2%超の腫瘍DNA画分を有するHCC患者と健常な対照対象とを鑑別するためのROC曲線である。AUCは、0.627及び0.963の95%の信頼限界で、0.795であった。
【0153】
サイズ分布の他の統計的特徴(例えば、中央値、平均値、パーセンタイル)を、HCC患者と健常な対象とを鑑別するためのパラメータとして使用してもよい。
【0154】
全てのゲノム領域から生じる血漿DNA断片のサイズ分布の分析に加えて、サイズ分析はまた、特定のゲノム領域から生じるDNA断片にも集中することができる。特定のゲノム領域は、染色体腕であってもよい。
【0155】
図28は、6%超の腫瘍DNA画分を有するHCC患者の染色体1q、及び健常な対照対象の染色体1qに整列させた、150塩基対未満の短い血漿DNA断片の割合のボックスプロットを示す。短い断片の割合は、HCC患者において有意により高かった(P<0.00001、t検定)。
【0156】
図29は、150塩基対未満の短い血漿DNA断片の割合を使用して、6%超の腫瘍DNA画分を有するHCC患者と健常な対照対象とを鑑別するためのROC曲線である。AUCは、0.808及び1.000の95%の信頼限界で、0.915であった。
【0157】
B.方法
図17は、本発明の実施形態に従って、ある生物の生体試料を分析する方法1700を図示するフローチャートである。生体試料は、正常細胞、及び癌に関連付けられる細胞に起源を持つ核酸分子を含み得る。生体試料中、核酸分子のうちの少なくともいくつかは無細胞である。
【0158】
ステップ1710において、生体試料中の複数の核酸分子のそれぞれについて、核酸分子のサイズが測定される。核酸分子のサイズが、図9のステップ910に類似した様式で測定され得る。
【0159】
ステップ1720において、生物の基準ゲノムにおける核酸分子の位置が特定される。核酸分子の位置の特定は、図6のステップ620に類似した様式で実行され得る。
【0160】
ステップ1730において、特定された位置に基づいて、核酸分子の第1の群が、第1の染色体領域に由来するものとして特定される。第1の染色体領域は、複数の第1の座位を含み得る。核酸分子のそれぞれの群の特定は、図1のステップ120に類似し得る。
【0161】
ステップ1740において、コンピュータシステムが、核酸分子の第1の群のサイズ分布の第1の統計値を算出し得る。それぞれの量の算出は、図1のステップ130における算出に類似し得る。
【0162】
ステップ1750において、癌に関連付けられる細胞に起源を持つ核酸分子の画分が測定され得る。画分は、Loらによって2011年11月30日に出願された「Detection of Genetic or Molecular Aberrations Associated with Cancer」と題する米国特許公開第2013/0040824号に記載される方法に従って算出され得る。腫瘍核酸分子の画分は、腫瘍(複数可)に由来する試料中の核酸分子の割合に対応する。画分/割合は、任意のパーセンテージまたは小数値として表すことができる。
【0163】
以下の実施例は、腫瘍核酸の画分を測定するための方法であるが、他の方法が使用されてもよい。腫瘍核酸の画分は、腫瘍組織中のコピー数減少(またはコピー数増加)と適合する有意な過小提示を呈する領域の、血漿中の過小提示(または過剰提示)の規模に基づいて決定することができる。別の例は、コピー数異常の影響を受ける領域、例えば、2つの相同染色体のうちの1つのコピーの減少を有する領域の、2つの相同染色体上のアレル不均衡の程度を決定することである。別の例は、一塩基変異、ヌクレオチド(複数可)の欠失、及び転座を含む、癌関連変異の画分濃度を決定することである。腫瘍画分は、上記の図21について記載される方法によって決定することができる。
【0164】
ステップ1760において、測定された画分に基づく第1の基準値が選択され得る。一例において、第1の基準値の選択は、測定された画分がカットオフ未満である場合にサイズ閾値を選択することを含み得る。別の例において、第1の基準値の選択は、測定された画分がカットオフ超である場合にサイズ閾値を選択することを含み得る。これらの例において、カットオフ及びサイズ閾値は異なってもよく、測定された画分の値に依存してもよい。
【0165】
ステップ1770において、第1の統計値を第1の基準値と比較して、生体試料の癌の段階を決定することができる。第1の統計値は、本明細書に記載される任意の統計値であり得る。
【0166】
癌が存在するかどうかは、癌に関連付けられる細胞に起源を持つ核酸分子の測定された画分とともに、サイズ分析に基づいて確認することができる。例えば、測定された画分が低カットオフ未満である場合、サイズ分布が健常な対照でより長いかどうか(例えば、第1の統計値がサイズ閾値を超えるかどうか)を確認することができる。サイズ分布が健常な対照でより長い場合、これは、癌の初期段階を確認することができる。低カットオフの例は、0.01、0.015、0.02、または0.025である。別の例として、測定された画分が高カットオフを超える場合、サイズ分布が健常な対照でより短いかどうか(例えば、第1の統計値がサイズ閾値未満であるかどうか)を確認することができる。サイズ分布が健常な対照でより短い場合、これは、後期の癌を確認することができる。高カットオフの例は、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、または0.07の分数であり得る。
【0167】
我々は、HCC患者の血漿中、より短い及びより長いDNA分子の追加の母集団が存在することを示した。これらのデータは、グループが、癌患者の血漿中のより長いまたはより短いDNA分子における増加のいずれかの存在を報告した文献に存在する、明らかな非一貫性を解決した可能性がある。
【0168】
VII.材料及び方法
図2~5の結果を得る上で使用される技術を、これより論じる。そのような技術は、上記の他の実施例において使用することができる。
【0169】
研究のために募集した対象は、腫瘍切除のためにDepartment of Surgery of the Prince of Wales Hospital,Hong Kongに入院する90人のHCCを有する患者を含んだ。全ての血液試料は、手術前に採取した。67人のHBV保因者及び36人のHBV関連硬変症を有する患者を、Department of Medicine and Therapeutics of the Prince of Wales Hospital,Hong Kongから募集した。全ての患者が書面でのインフォームドコンセントを提出し、研究は機関審査委員会によって承認された。
【0170】
DNAを抽出し、配列ライブラリを準備するために、EDTA含有管に末梢血試料を採取した。末梢血試料を、4℃、1,600gで10分間遠心分離した。血漿部分を、4℃、16,000gで10分間再遠心分離して、無細胞血漿を得た。3~4.8mLの血漿から、QIAamp DSP DNA Blood Mini Kit(Qiagen)を使用してDNAを抽出した。血漿DNAを、SpeedVac Concentrator(Savant DNA120、Thermo Scientific)で、1試料当たり75μLの最終体積へと濃縮した。製造業者の説明書に従ってKapa Library Preparation Kit(Kapa Biosystems)を使用することによって、指標付きDNAライブラリを準備した。KAPA HiFi HotStart ReadyMix PCR Kit(Kapa Biosystems)を使用する14回サイクルのPCRによって、アダプタ連結DNAを富化した。その後、ライブラリを2100Bioanalyzer(Agilent)によって分析し、Kapa Library Quantification Kit(Kapa Biosystems)によって定量化してから、配列決定した。
【0171】
DNAを配列決定し、整列させるために、各DNAライブラリを希釈し、ペアエンド配列決定フローセル(Illumina)にハイブリダイズした。TruSeq PE Cluster Generation Kit v3(Illumina)を有するcBotクラスター生成システム(Illumina)上でDNAクラスターを生成させ、その後、TruSeq SBS Kit v3(Illumina)を有するHiSeq2000システム(Illumina)上で76×2回サイクルの配列決定を行った。配列決定は、4重プロトコルを使用して実行した。我々は、追加の7回サイクルの配列決定を実行して、各配列決定されたDNA分子上の指標配列を解読した。HiSeq Control Software(HCS)v1.4及びReal Time Analysis(RTA)Software v1.13(Illumina)を使用して、実時間画像分析及びベースコーリングを実行し、これにより、自動化マトリクス及びフェージング算出は、ライブラリで配列決定されたスパイクインPhiX対照v3に基づいた。ベースコーリング後、アダプタ配列及び低クオリティ塩基(すなわち、クオリティスコア5未満)を取り除いた。
【0172】
配列決定データ分析のために、6塩基指標配列に基づいて、各レーンの配列を対応する試料に割り当てた。その後、Short Oligonucleotide Alignment Program2(SOAP2)を使用して、配列決定された読み取りを非反復マスクヒト基準ゲノム(NCBI build37/hg19)に整列させた(40)。ペアエンド読み取りの各員について、最大2つのヌクレオチドのミスマッチを許容したが、挿入または欠失は許容しなかった。特有のゲノム位置にマッピングされた読み取りを使用して、下流分析を行った。正しい配向を有し、600塩基対以下の挿入サイズに及ぶ同一の染色体に整列させたペアエンド読み取りを、下流サイズ分析のために保持した。基準ヒトゲノムに整列させた後、配列読み取りの各ペアの最外終端のヌクレオチドの座標から、各血漿DNA断片のサイズを推定することができた。CNA分析のために、第1の単一エンド読み取りを使用した。Bowtie2ソフトウェアを使用して、30超のマッピングクオリティを有する読み取り(すなわち、1,000個の整列当たり1個の誤った整列)を許容した(41)。
【0173】
CNAのCAZA分析を実行するために、ヒトゲノム全体を、100kbのビンに分割した。以前に報告されるように、各100kbのビンについてGC補正読み取りカウントを決定した(42)。染色体腕上の各100kbのビンの全ての値を合計することによって、対象となる各染色体腕のGC補正読み取りカウントの数を決定した。zスコア統計値を使用して、基準群と比較したときに、染色体腕における血漿DNA提示が有意に増加または低下するかどうかを決定した。各染色体腕にマッピングされた配列決定読み取りのパーセンテージを算出し、それぞれの染色体腕について、32人の健常な対照対象の平均値と比較した。腕レベルのzスコアを、
【数5】
として算出し、式中、P試験は、試験事例の対象となる染色体腕にマッピングされた断片の割合を表し、P正常及び標準偏差正常はそれぞれ、健常な対照の染色体腕にマッピングされた断片の割合の平均及び標準偏差を表す。-3未満及び3超のzスコアを有する染色体腕を、血漿中に欠失及び増幅に対応するCNAを有するものとして見なした。
【0174】
血漿中の腫瘍由来DNAの画分濃度(F)は、
【数6】
として算出することができ、P試験は、試験事例の対象となる染色体腕にマッピングされた断片の割合を表し、P正常は、健常な対照の染色体腕にマッピングされた断片の平均の割合を表し、ΔNは、コピー数変化の規模を表し、ΔNは、コピー数変化を表す。少なくとも1つの染色体腕において欠失を示す事例について、我々は、欠失した染色体腕(複数可)に基づいてFを算出した。ほとんどの染色体腕欠失は、2つの相同染色体のうちの1つのみに関与した(33)ため、我々は、我々の分析に単一コピー減少を想定した。染色体腕増幅のみを有し、欠失を有さなかった24の事例について、単一コピー増加の想定の下、増幅した腕に基づいてFを算出した。
【0175】
Perl言語及びR言語で書かれた生物情報学プログラムを使用することによって、配列決定データ分析を実行した。0.05未満のp値を統計的に有意なものと見なし、全ての確率は両側検定であった。
【0176】
VIII.コンピュータシステム
本明細書に言及されるコンピュータシステムのうちのいずれも、いかなる好適な数のサブシステムを利用してもよい。そのようなサブシステムの例を、図32のコンピュータ装置10に示す。いくつかの実施形態において、コンピュータシステムは単一のコンピュータ装置を含み、サブシステムはコンピュータ装置の構成要素であり得る。他の実施形態において、コンピュータシステムは、それぞれがシステムであり、内部構成要素を有する複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯デバイスを含み得る。
【0177】
図32に示されるサブシステムは、システムバス75を介して相互接続される。プリンタ74、キーボード78、記憶デバイス(複数可)79、ディスプレイアダプタ82に結合されるモニタ76、及び他のものなどの追加のサブシステムが示される。I/Oコントローラ71に結合する周辺機器及び入力/出力(I/O)デバイスは、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))などの当該技術分野において既知である任意の数の手段で、コンピュータシステムに接続され得る。例えば、I/Oポート77または外部インターフェース81(例えば、Ethernet、Wi-Fiなど)を使用して、Internetなどの広域ネットワーク、マウス入力デバイス、またはスキャンに、コンピュータ装置10を接続してもよい。システムバス75を介した相互接続は、中央処理装置73が各サブシステムと通信し、システムメモリ72または記憶デバイス(複数可)79(例えば、ハードドライブもしくは光学ディスクなどの固定ディスク)からの命令の実行、及びサブシステム間の情報交換を制御することを可能にする。システムメモリ72及び/または記憶デバイス(複数可)79は、コンピュータ可読媒体を具体化してもよい。別のサブシステムは、カメラ、マイクロホン、及び加速度計などのデータ収集デバイス85である。本明細書に言及されるデータのうちのいずれも、1つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。
【0178】
コンピュータシステムは、外部インターフェース81によって、または内部インターフェースによってともに接続された、複数の同一の構成要素またはサブシステムを含んでもよい。いくつかの実施形態において、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信することができる。そのような例において、1つのコンピュータをクライエントとして、及び別のコンピュータをサーバとして見なすことができ、これらのそれぞれは、同一のコンピュータシステムの一部であってもよい。クライエント及びサーバはそれぞれ、複数のシステム、サブシステム、または構成要素を含み得る。
【0179】
本発明の実施形態のうちのいずれも、ハードウェア(例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ)を使用して、かつ/またはモジュラー様式もしくは統合様式で一般にプログラム可能な処理装置とともにコンピュータソフトウェアを使用して、制御論理の形態で実装され得ることを理解されたい。本明細書で使用される場合、処理装置は、シングルコア処理装置、同一の集積チップ上のマルチコア処理装置、または回路基板上もしくはネットワーク化された複数の処理ユニットを含む。本開示及び本明細書に提供される教示に基づいて、当業者は、ハードウェア及びハードウェアとソフトウェアとの組み合わせを使用して本発明の実施形態を実装するための他の手段及び/または方法を理解し、認識するだろう。
【0180】
本出願に記載されるソフトウェア構成要素または機能のうちのいずれも、例えば、Java、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、または例えば、従来の技術もしくはオブジェクト指向の技術を使用するPerlもしくはPythonなどのスクリプト言語を使用する、処理装置によって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶及び/または伝送のために、コンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得、好適な媒体としては、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、磁気媒体(ハードドライブもしくはフロッピーディスクなど)、または光学媒体(コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)など)、及びフラッシュメモリなどが挙げられる。コンピュータ可読媒体は、そのような記憶デバイスまたは伝送デバイスの任意の組み合わせであってもよい。
【0181】
そのようなプログラムはまた、コードされ、インターネットを含む様々なプロトコルに従う有線、光学、及び/または無線ネットワークを介した伝送に適合した搬送波信号を使用して、伝送されてもよい。したがって、本発明の一実施形態に従うコンピュータ可読媒体は、そのようなプログラムでコードされたデータ信号を使用して作製されてもよい。プログラムコードでコードされたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されても、(例えば、インターネットダウンロードを介して)他のデバイスとは別々に提供されてもよい。いかなるそのようなコンピュータ可読媒体も、単一のコンピュータ製品(例えば、ハードドライブ、CD、またはコンピュータシステム全体)上またはその中に存在してもよく、あるシステムまたはネットワーク内の異なるコンピュータ製品上またはその中に存在してもよい。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載される結果のうちのいずれかをユーザに提供するための他の好適なディスプレイを含み得る。
【0182】
本明細書に記載される方法のうちのいずれも、全体的または部分的に、ステップを実行するように構成され得る1つ以上の処理装置を含むコンピュータシステムで実行することができる。したがって、実施形態は、本明細書に記載される方法のうちのいずれかのステップを実行するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはステップのそれぞれの群を実行する。番号付けされたステップとして提示されるものの、本明細書の方法のステップは、同時にまたは異なる順序で実行することができる。更に、これらのステップの部分が、他の方法の他のステップの部分とともに使用されてもよい。また、あるステップの全てまたは部分が任意であってもよい。更に、本方法のうちのいずれかのステップのうちのいずれも、モジュール、回路、またはこれらのステップを実行するための他の手段で実行することができる。
【0183】
特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨及び範囲から逸脱することなく、任意の好適な様式で組み合わせることができる。しかしながら、本発明の他の実施形態は、個々の各態様、またはこれらの個々の態様の特定の組み合わせに関する特定の実施形態に向けられ得る。
【0184】
本発明の例示的な実施形態についての上記の記述は、図示及び説明の目的で提示されている。徹底的であること、または本発明を記載されるものと寸分違わぬ形態に限定することは意図されず、上記の教示に照らして、多くの修正及び変更が可能である。
【0185】
「1つの(a)」、「1つの(an)」または「その(the)」の引用は、それとは反対に具体的に示されない限り、「1つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「を除いてまたは」ではなく「を含んでまたは」を意味することが意図される。
【0186】
全ての特許、特許出願、出版物、及び本明細書に言及される記述の全体が、あらゆる目的で参照により組み込まれる。いかなるものも、先行技術であることは認められていない。

IX.参考文献
1.Chan KCA (2013) Scanning for cancer genomic changes in plasma:toward an era of personalized blood-based tumor markers.Clin Chem 59(11):1553-1555.
2.Dawson SJ,Rosenfeld N,& Caldas C (2013) Circulating tumor DNA to monitor metastatic breast cancer.N Engl J Med 369(1):93-94.
3.Bidard FC,Weigelt B,& Reis-Filho JS (2013) Going with the flow:from circulating tumor cells to DNA.Sci Transl Med 5(207):207ps214.
4.Chan KCA,et al.(2013) Cancer genome scanning in plasma:detection of tumor-associated copy number aberrations,single-nucleotide variants,and tumoral heterogeneity by massively parallel sequencing.Clin Chem 59(1):211-224.
5.Heitzer E,et al.(2013) Establishment of tumor-specific copy number alterations from plasma DNA of patients with cancer.Int J Cancer 133(2):346-356.
6.Heitzer E,et al.(2013) Tumor-associated copy number changes in the circulation of patients with prostate cancer identified through whole-genome sequencing.Genome Med 5(4):30.
7.Leary RJ,et al.(2012) Detection of chromosomal alterations in the circulation of cancer patients with whole-genome sequencing.Sci Transl Med 4(162):162ra154.
8.Chan KCA,et al.(2013) Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing.Proc Natl Acad Sci U S A 110(47):18761-18768.
9.Chan KCA,et al.(2008) Quantitative analysis of circulating methylated DNA as a biomarker for hepatocellular carcinoma.Clin Chem 54(9):1528-1536.
10.Wong IH,et al.(1999) Detection of aberrant p16 methylation in the plasma and serum of liver cancer patients.Cancer Res 59(1):71-73.
11.Balgkouranidou I,et al.(2014) Breast cancer metastasis suppressor-1 promoter methylation in cell-free DNA provides prognostic information in non-small cell lung cancer.Br J Cancer 110(8):2054-2062.
12.Diehl F,et al.(2005) Detection and quantification of mutations in the plasma of patients with colorectal tumors.Proc Natl Acad Sci U S A 102(45):16368-16373.
13.Yung TKF,et al.(2009) Single-molecule detection of epidermal growth factor receptor mutations in plasma by microfluidics digital PCR in non-small cell lung cancer patients.Clin Cancer Res 15(6):2076-2084.
14.Murtaza M,et al.(2013) Non-invasive analysis of acquired resistance to cancer therapy by sequencing of plasma DNA.Nature 497(7447):108-112.
15.Forshew T,et al.(2012) Noninvasive identification and monitoring of cancer mutations by targeted deep sequencing of plasma DNA.Sci Transl Med 4(136):136ra168.
16.Lo YMD,et al.(1999) Quantitative analysis of cell-free Epstein-Barr virus DNA in plasma of patients with nasopharyngeal carcinoma.Cancer Res 59(6):1188-1191.
17.Chan KCA,et al.(2013) Early detection of nasopharyngeal carcinoma by plasma Epstein-Barr virus DNA analysis in a surveillance program.Cancer 119(10):1838-1844.
18.McBride DJ,et al.(2010) Use of cancer-specific genomic rearrangements to quantify disease burden in plasma from patients with solid tumors.Genes,Chromosomes & Cancer 49(11):1062-1069.
19.Leary RJ,et al.(2010) Development of personalized tumor biomarkers using massively parallel sequencing.Sci Transl Med 2(20):20ra14.
20.Chan KCA,Leung SF,Yeung SW,Chan ATC,& Lo YMD (2008) Persistent aberrations in circulating DNA integrity after radiotherapy are associated with poor prognosis in nasopharyngeal carcinoma patients.Clin Cancer Res 14(13):4141-4145.
21.Gao YJ,et al.(2010) Increased integrity of circulating cell-free DNA in plasma of patients with acute leukemia.Clin Chem Lab Med 48(11):1651-1656.
22.Umetani N,et al.(2006) Increased integrity of free circulating DNA in sera of patients with colorectal or periampullary cancer:direct quantitative PCR for ALU repeats.Clin Chem 52(6):1062-1069.
23.Wang BG,et al.(2003) Increased plasma DNA integrity in cancer patients.Cancer Res 63(14):3966-3968.
24.Umetani N,et al.(2006) Prediction of breast tumor progression by integrity of free circulating DNA in serum.J Clin Oncol 24(26):4270-4276.
25.Schwarzenbach H,et al.(2012) Loss of heterozygosity at tumor suppressor genes detectable on fractionated circulating cell-free tumor DNA as indicator of breast cancer progression.Clin Cancer Res 18(20):5719-5730.
26.Lo YMD,et al.(2010) Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus.Sci Transl Med 2(61):61ra91.
27.Zheng YWL,et al.(2012) Nonhematopoietically derived DNA is shorter than hematopoietically derived DNA in plasma:a transplantation model.Clin Chem 58(3):549-558.
28.Yu SCY,et al.(2014) Size-based molecular diagnostics using plasma DNA for noninvasive prenatal testing.Proc Natl Acad Sci U S A 111(23):8583-8588.
29.Pleasance ED,et al.(2010) A comprehensive catalogue of somatic mutations from a human cancer genome.Nature 463(7278):191-196.
30.Fujimoto A,et al.(2012) Whole-genome sequencing of liver cancers identifies etiological influences on mutation patterns and recurrent mutations in chromatin regulators.Nat Genet 44(7):760-764.
31.Tao Y,et al.(2011) Rapid growth of a hepatocellular carcinoma and the driving mutations revealed by cell-population genetic analysis of whole-genome data.Proc Natl Acad Sci U S A 108(29):12042-12047.
32.Totoki Y,et al.(2011) High-resolution characterization of a hepatocellular carcinoma genome.Nat Genet 43(5):464-469.
33.Beroukhim R,et al.(2010) The landscape of somatic copy-number alteration across human cancers.Nature 463(7283):899-905.
34.Chiang DY,et al.(2008) Focal gains of VEGFA and molecular classification of hepatocellular carcinoma.Cancer Res 68(16):6779-6788.
35.Kan Z,et al.(2013) Whole-genome sequencing identifies recurrent mutations in hepatocellular carcinoma.Genome Res 23(9):1422-1433.
36.Kim TM,et al.(2008) Clinical implication of recurrent copy number alterations in hepatocellular carcinoma and putative oncogenes in recurrent gains on 1q.Int J Cancer 123(12):2808-2815.
37.Nakano H & Shinohara K (1994) X-ray-induced cell death:apoptosis and necrosis.Radiation Research 140(1):1-9.
38.Walker NI,Harmon BV,Gobe GC,& Kerr JF (1988) Patterns of cell death.Methods and Achievements in Experimental Pathology 13:18-54.
39.Alexandrov LB,et al.(2013) Signatures of mutational processes in human cancer.Nature 500(7463):415-421.
40.Li R,et al.(2009) SOAP2:an improved ultrafast tool for short read alignment.Bioinformatics 25(15):1966-1967.
41.Langmead B & Salzberg SL (2012) Fast gapped-read alignment with Bowtie 2.Nature Methods 9(4):357-359.
42.Chen EZ,et al.(2011) Noninvasive prenatal diagnosis of fetal trisomy 18 and trisomy 13 by maternal plasma DNA sequencing.PLoS One 6(7):e21791.
図1
図2
図3
図4
図5
図6
図7
図8A
図8B
図8C
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32