(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-19
(54)【発明の名称】核酸メチル化分析を介して癌を検出するための方法およびシステム
(51)【国際特許分類】
C12N 15/11 20060101AFI20240312BHJP
C12Q 1/686 20180101ALI20240312BHJP
C12Q 1/6869 20180101ALI20240312BHJP
【FI】
C12N15/11 Z ZNA
C12Q1/686 Z
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023559736
(86)(22)【出願日】2022-03-24
(85)【翻訳文提出日】2023-11-27
(86)【国際出願番号】 US2022021662
(87)【国際公開番号】W WO2022204358
(87)【国際公開日】2022-09-29
(32)【優先日】2021-03-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】521040846
【氏名又は名称】フリーノム ホールディングス,インク.
(74)【代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(72)【発明者】
【氏名】マハジャン,シヴァニ
(72)【発明者】
【氏名】グールド,ビリー
(72)【発明者】
【氏名】ウルズ,ピーター
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA19
4B063QA20
4B063QQ08
4B063QQ28
4B063QQ42
4B063QQ52
4B063QQ62
4B063QR08
4B063QR32
4B063QR35
4B063QR42
4B063QR62
4B063QR66
4B063QR77
4B063QS03
4B063QS25
4B063QS34
4B063QS36
4B063QS39
4B063QX02
(57)【要約】
本開示は、非細胞DNAなどの非細胞核酸に適用することができる、腫瘍をスクリーニングまたは検出するための方法およびシステムを提供する。当該方法は、機械学習モデルを訓練して個体集団を層化するのに有用な分類子を生成するために、同定されたゲノム領域において入力特徴と解釈されたシングルシーケンシングリード内のメチル化信号の検出を使用する場合がある。当該方法は、対象から得られた無細胞試料からDNAを抽出する工程と、メチル化シーケンシングのためにDNAを変換する工程と、シーケンシングリードを生成する工程と、シーケンシング情報における細胞増殖性障害に関連する信号を検出する工程と、機械学習モデルを訓練して、健康、癌、あるいは疾患サブタイプまたはステージなどの、対象集団中の群を鑑別することができる識別子を提供する工程と、を含む。当該方法は、例えば、処置への応答、腫瘍負荷、癌の再発、または癌の成長を予測、予後診断、および/またはモニタリングするために使用することができる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
少なくとも2つの細胞増殖性障害に特徴的なメチル化シグネチャーパネルであって、表1のゲノム領域からなる群から選択される1つ以上のゲノム領域を含み、ここで前記1つ以上のゲノム領域は、細胞増殖性障害またはその亜型を有する対象からの生体試料においてより多くメチル化しており、かつ、前記細胞増殖性障害またはその亜型を有していない対象からの生体試料においてより少なくメチル化している、メチル化シグネチャーパネル。
【請求項2】
前記生体試料は、核酸、DNA、RNA、または無細胞核酸である、請求項1に記載のメチル化シグネチャーパネル。
【請求項3】
前記1つ以上のゲノム領域は、非コード領域、コード領域、非転写領域、またはレギュレーター領域である、請求項1に記載のメチル化シグネチャーパネル。
【請求項4】
前記メチル化シグネチャーパネルは、表1のゲノム領域からなる群から選択される6つ以上のゲノム領域を含む、請求項1に記載のメチル化シグネチャーパネル。
【請求項5】
表1のゲノム領域からなる群から選択された1つ以上のゲノム領域は、ある型の癌に関連付けられる、請求項1に記載のメチル化シグネチャーパネル。
【請求項6】
前記細胞増殖性障害またはその亜型を有する前記対象から得られた前記生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される、請求項1に記載のメチル化シグネチャーパネル。
【請求項7】
前記細胞増殖性障害またはその亜型を有していない対象から得られた前記生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される、請求項1に記載のメチル化シグネチャーパネル。
【請求項8】
前記細胞増殖性障害は、大腸細胞増殖、前立腺細胞増殖、肺、乳房細胞増殖、膵臓細胞増殖、卵巣細胞増殖、子宮細胞増殖、肝細胞増殖、食道細胞増殖、胃細胞増殖、および甲状腺細胞増殖からなる群から選択される、請求項1に記載のメチル化シグネチャーパネル。
【請求項9】
前記細胞増殖性障害は、結腸腺癌、肝臓肝細胞癌、肺腺癌、肺扁平上皮癌、卵巣重篤嚢胞腺癌、膵臓腺癌、前立腺癌、および直腸腺癌からなる群から選択される、請求項1に記載のメチル化シグネチャーパネル。
【請求項10】
前記細胞増殖性障害は、ステージ1の癌、ステージ2の癌、ステージ3の癌、およびステージ4の癌からなる群から選択される、請求項1に記載のメチル化シグネチャーパネル。
【請求項11】
前記シグネチャーパネルは、表1のゲノム領域からなる群から選択される2つ以上のゲノム領域、表1のゲノム領域からなる群から選択される3つ以上のゲノム領域、表1のゲノム領域からなる群から選択される4つ以上のゲノム領域、表1のゲノム領域からなる群から選択される5つ以上のゲノム領域、表1のゲノム領域からなる群から選択される6つ以上のゲノム領域、表1のゲノム領域からなる群から選択される7つ以上のゲノム領域、表1のゲノム領域からなる群から選択される8つ以上のメチル化ゲノム領域、表1のゲノム領域からなる群から選択される9つ以上のゲノム領域、表1のゲノム領域からなる群から選択される10以上のゲノム領域、表1のゲノム領域の中の11以上のゲノム領域、表1のゲノム領域からなる群から選択される12以上のゲノム領域、または、表1のゲノム領域からなる群から選択される13以上のゲノム領域を含む、請求項1に記載のメチル化シグネチャーパネル。
【請求項12】
少なくとも2つの細胞増殖性障害について起源組織に特徴的なメチル化シグネチャーパネルであって、表2~17のゲノム領域からなる群から選択される2以上のゲノム領域を含み、ここで前記2つ以上のゲノム領域は、細胞増殖性障害またはその亜型を有する対象からの生体試料においてより多くメチル化され、細胞増殖性障害またはその亜型を有していない対象からの生体試料においてより少なくメチル化される、メチル化シグネチャーパネル。
【請求項13】
前記生体試料は、核酸、DNA、RNAまたは無細胞核酸である、請求項12に記載のメチル化シグネチャーパネル。
【請求項14】
前記2つ以上のゲノム領域は、非コード領域、コード領域、非転写領域、またはレギュレーター領域である、請求項12に記載のメチル化シグネチャーパネル。
【請求項15】
前記メチル化シグネチャーパネルは、表2~17のゲノム領域からなる群から選択される6つ以上のゲノムの領域を含む、請求項12に記載のメチル化シグネチャーパネル。
【請求項16】
表2~17のゲノム領域からなる群から選択される前記1つ以上のゲノム領域は、ある型の癌および腫瘍起源組織に関連付けられる、請求項12に記載のメチル化シグネチャーパネル。
【請求項17】
前記細胞増殖性障害またはその亜型を有する前記対象から得られた前記生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される、請求項12に記載のメチル化シグネチャーパネル。
【請求項18】
前記細胞増殖性障害またはその亜型を有していない前記対象から得られた前記生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される、請求項12に記載のメチル化シグネチャーパネル。
【請求項19】
細胞増殖性障害は、大腸細胞増殖、前立腺細胞増殖、肺細胞増殖、乳房細胞増殖、膵臓細胞増殖、卵巣細胞増殖、子宮細胞増殖、肝細胞増殖、食道細胞増殖、胃細胞増殖、または甲状腺細胞増殖からなる群から選択される、請求項12に記載のメチル化シグネチャーパネル。
【請求項20】
前記細胞増殖性障害は、結腸腺癌、肝臓肝細胞癌、肺腺癌、肺扁平上皮癌、卵巣重篤嚢胞腺癌、膵臓腺癌、前立腺癌、および直腸腺癌からなる群から選択される、請求項12に記載のメチル化シグネチャーパネル。
【請求項21】
前記細胞増殖性障害は、ステージ1の癌、ステージ2の癌、ステージ3の癌、およびステージ4の癌からなる群から選択される、請求項12に記載のメチル化シグネチャーパネル。
【請求項22】
シグネチャーパネルは、表2~17のゲノム領域からなる群から選択される3つ以上のゲノム領域、表2~17のゲノム領域からなる群から選択される4つ以上のゲノム領域、表2~17のゲノム領域からなる群から選択される5つ以上のゲノム領域、表2~17のゲノム領域からなる群から選択される6つ以上のゲノム領域、表2~17のゲノム領域からなる群から選択される7つ以上のゲノム領域、表2~17のゲノム領域からなる群から選択される8つ以上のゲノム領域、表2~17のゲノム領域からなる群から選択される9つ以上のゲノム領域、表2~17のゲノム領域からなる群から選択される10以上のゲノム領域、表2~17のゲノム領域の中の11以上のゲノム領域、表2~17のゲノム領域からなる群から選択される12以上のゲノム領域、または表2~17のゲノム領域からなる群から選択される13以上のゲノム領域を含む、請求項12に記載のメチル化シグネチャーパネル。
【請求項23】
前記少なくとも2つの細胞増殖性障害は、大腸癌と前立腺癌、大腸癌と肺癌、大腸癌と乳癌、大腸癌と肝臓癌、大腸癌と卵巣癌、大腸癌と膵臓癌、前立腺癌と肺癌、前立腺癌と乳癌、前立腺癌と肝臓癌、前立腺癌と卵巣癌、前立腺癌と膵臓癌、肺癌と乳癌、肺癌と肝臓癌、肺癌と卵巣癌、肺癌と膵臓癌、乳癌と肝臓癌、乳癌と卵巣癌、乳癌と膵臓癌、肝臓癌と卵巣癌、肝臓癌と膵臓癌、卵巣癌と膵臓癌、大腸癌と前立腺癌と肺癌、大腸癌と前立腺癌と乳癌、大腸癌と前立腺癌と肝臓癌、大腸癌と前立腺癌と卵巣癌、大腸癌と前立腺癌と膵臓癌、大腸癌と肺癌と乳癌、大腸癌と肺癌と肝臓癌、大腸癌と肺癌と卵巣癌、大腸癌と肺癌と膵臓癌、大腸癌と乳癌と肝臓癌、大腸癌と乳癌と卵巣癌、大腸癌と乳癌と膵臓癌、前立腺癌と肝臓癌と卵巣癌、前立腺癌と肝臓癌と膵臓癌、前立腺癌と卵巣癌と膵臓癌、ならびに、大腸癌と前立腺癌と肺癌と乳癌からなる群から選択される組み合せを含む、請求項12に記載のメチル化シグネチャーパネル。
【請求項24】
前記2つ以上のゲノム領域は、表2、3、および4のゲノム領域からなる群から選択されるとともに、大腸癌起源組織に関連付けられる、請求項12に記載のメチル化シグネチャーパネル。
【請求項25】
前記2つ以上のゲノム領域は、表5、6、および7のゲノム領域からなる群から選択されるとともに、肝臓癌起源組織に関連付けられる、請求項12に記載のメチル化シグネチャーパネル。
【請求項26】
前記2つ以上のゲノム領域は、表8および9のゲノム領域からなる群から選択されるとともに、肺癌起源組織に関連付けられる、請求項12に記載のメチル化シグネチャーパネル。
【請求項27】
前記2つ以上のゲノム領域は、表10、11、および12のゲノム領域からなる群から選択されるとともに、卵巣癌起源組織に関連付けられる、請求項12に記載のメチル化シグネチャーパネル。
【請求項28】
前記2つ以上のゲノム領域のパネルは、表13および14のゲノム領域からなる群から選択されるとともに、膵臓癌起源組織に関連付けられる、請求項12に記載のメチル化シグネチャーパネル。
【請求項29】
前記2つ以上のゲノム領域は、表15、16、および17のゲノム領域からなる群から選択されるとともに、前立腺癌起源組織に関連付けられる、請求項12に記載のメチル化シグネチャーパネル。
【請求項30】
健康な対象の集団と細胞増殖性障害を有する対象とを鑑別可能な機械学習分類子であって、
a)表1~17の差次的にメチル化されたゲノム領域からなる群の差次的にメチル化されたゲノム領域を表す測定値のセットであって、前記差次的にメチル化されたゲノム領域が、少なくとも2つの細胞増殖性障害に関連付けられ、前記測定値が、前記健康な対象および前記細胞増殖性障害を有する対象からのメチル化シーケンシングデータから得られる、測定値のセット
を含み、
b)前記測定値は、前記差次的にメチル化されたゲノム領域の特性に対応する特徴のセットを生成するために使用され、前記特徴は、機械学習または統計モデルを使用して分析され、
c)前記統計モデルが、前記健康な対象の集団と、前記細胞増殖性障害を有する対象とを鑑別可能な分類子として有用である特徴ベクトルを提供する、機械学習分類子。
【請求項31】
前記測定値のセットは、CpG、CHG、CHHについての塩基ごとのメチル化パーセント、ある領域におけるメチル化CpGの異なるカウントまたは割合を伴う断片を観察するカウントまたは割合、変換効率(CHHについての100-平均メチル化パーセント)、低メチル化ブロック、メチル化レベル(CPG、CHH、CHGの全体平均メチル化、断片長、断片中間点、およびchrM、LINE1、またはALUなどの1つ以上のゲノム領域におけるメチル化レベル)、断片あたりのメチル化CpG数、断片あたりの総CpGに対するCpGメチル化の割合、領域あたりの総CpGに対するCpGメチル化の割合、パネル内の総CpGに対するCpGメチル化の割合、ジヌクレオチドのカバレッジ(ジヌクレオチドの正規化されたカバレッジ)、カバレッジの均一性(1xおよび10xの平均ゲノムカバレッジでの固有のCpG部位(S4ランについて)、全体的平均CpGカバレッジ(深度)、ならびに、CpGアイランド、CGIシェルフ、およびCGIショアでの平均カバレッジ、からなる群から選択される、メチル化領域の特徴を説明する、請求項30に記載の機械学習分類子。
【請求項32】
前記機械学習分類子は、対象における腫瘍の起源組織を同定可能である、請求項30に記載の機械学習分類子。
【請求項33】
前記機械学習分類子は、コンピュータシステムのメモリにロードされ、前記統計モデルは、訓練用生体試料から得られた訓練ベクトルを使用して訓練され、前記訓練用生体試料の第1のサブセットは細胞増殖性障害を有すると同定され、前記訓練用生体試料の第2のサブセットは細胞増殖性障害を有していないと同定される、請求項30に記載の機械学習分類子。
【請求項34】
前記統計モデルが、少なくとも2つの細胞増殖性障害に関連付けられる所定のメチル化ゲノム領域のパネルで訓練されるとともに、前記パネルを使用して検出されるべき異なる型の細胞増殖性障害に対する予め選択された感度と特異性を有する、請求項30に記載の機械学習分類子。
【請求項35】
前記少なくとも2つの細胞増殖性障害は、大腸癌、乳癌、卵巣癌、前立腺癌、肺癌、膵臓癌、子宮癌、肝臓癌、食道癌、胃癌、甲状腺癌、および膀胱癌からなる群から選択される、請求項30に記載の機械学習分類子。
【請求項36】
前記機械学習分類子は、前記少なくとも2つの細胞増殖性障害のそれぞれに対する予め選択された感度および予め選択された特異性を提供するように調整され、前記少なくとも2つの細胞増殖性障害は、大腸癌、乳癌、卵巣癌、前立腺癌、肺癌、膵臓癌、子宮癌、肝臓癌、食道癌、胃癌、甲状腺癌、および膀胱癌なる群から選択され、大腸癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、乳癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも70%の特異性であり、卵巣癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも90%の特異性であり、前立腺癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも70%の特異性であり、肺癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも70%の特異性であり、膵臓癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも90%の特異性であり、子宮癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも90%の特異性であり、肝臓癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、食道癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、胃癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、甲状腺癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも70%の特異性であり、膀胱癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、どの癌型が前記分類モデルによって検出されるかに基づいて選択される、請求項30に記載の機械学習分類子。
【請求項37】
対象由来の無細胞デオキシリボ核酸(cfDNA)試料のメチル化プロファイルを判定するための方法であって、
a)cfDNA試料の核酸分子中の非メチル化シトシンをウラシルに変換して複数の変換された核酸を生成するための条件を提供する工程と、
b)前記複数の変換された核酸を、少なくとも2つの差次的メチル化領域の予め同定されたメチル化シグネチャーパネルに特徴的な相補的な核酸プローブに接触させる工程であって、前記メチル化シグネチャーパネルは、表1~17のゲノム領域からなる群から選択される1つ以上のゲノムの領域を含み、予め同定されたメチル化シグネチャーパネルに対応する配列を濃縮する、工程と、
c)前記複数の変換された核酸分子の核酸配列を判定する工程と、
d)前記複数の変換された核酸分子の核酸配列を参照核酸配列に対してアラインメントさせ、それによって対象のメチル化プロファイルを判定する工程と
を含む、方法。
【請求項38】
前記複数の変換された核酸を増幅する工程をさらに含む、請求項37に記載の方法。
【請求項39】
前記増幅する工程は、ポリメラーゼ連鎖反応(PCR)を含む、請求項38に記載の方法。
【請求項40】
核酸シーケンシングライブラリを調製する工程をさらに含む、請求項37に記載の方法。
【請求項41】
前記複数の変換された核酸を増幅する工程をさらに含み、ここで前記核酸シーケンシングライブラリが増幅に先立って調製されている、請求項40に記載の方法。
【請求項42】
前記変換された核酸分子の核酸配列をl000x超、2000x超、3000x超、4000x超、または5000x超の深度で判定する工程をさらに含む、請求項37に記載の方法。
【請求項43】
前記参照核酸配列はヒト参照ゲノムの少なくとも一部である、請求項37に記載の方法。
【請求項44】
前記メチル化シグネチャーパネルは、表1~17のメチル化ゲノム領域からなる群からの3つ以上のメチル化ゲノム領域、表1~17のメチル化ゲノム領域からなる群からの4つ以上のメチル化ゲノム領域、表1~17のメチル化ゲノム領域からなる群からの5つ以上のメチル化ゲノム領域17、表1~17のメチル化ゲノム領域からなる群からの6つ以上のメチル化ゲノム領域、表1~17のメチル化ゲノム領域からなる群からの7つ以上のメチル化ゲノム領域、表1~17のメチル化ゲノム領域からなる群からの8つ以上のメチル化ゲノム領域、表1~17のメチル化ゲノム領域からなる群からの9つ以上のメチル化ゲノム領域、表1~17のメチル化ゲノム領域からなる群からの10以上のメチル化ゲノム領域、表1~17のメチル化ゲノム領域からなる群からの11以上のメチル化ゲノム領域、表1~17のメチル化ゲノム領域からなる群からの12以上のメチル化ゲノム領域、または表1~17のメチル化ゲノム領域からなる群からの13以上のメチル化ゲノム領域を含む、請求項37に記載の方法。
【請求項45】
前記メチル化プロファイルは、細胞増殖性障害に関連付けられるとともに、対象が細胞増殖性障害を有するかどうかを示す、請求項37に記載の方法。
【請求項46】
工程a)の前に、固有の分子識別子を含む核酸アダプターを前記cfDNA試料中の未変換核酸にライゲーションする工程をさらに含む、請求項37に記載の方法。
【請求項47】
前記cfDNA試料の核酸分子の中で非メチル化シトシンをウラシルに変換するための前記条件は、化学的方法、酵素的方法、またはそれらの組合せを含む、請求項37に記載の方法。
【請求項48】
前記cfDNA試料を、重亜硫酸塩、亜硫酸水素塩、二亜硫酸塩、およびこれらの組合せからなる群から選択される試薬で処理する工程をさらに含む、請求項37に記載の方法。
【請求項49】
前記対象から得られた前記cfDNA試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される、請求項37に記載の方法。
【請求項50】
訓練された機械学習分類子を前記対象の前記メチル化プロファイルに適用する工程であって、前記訓練された機械学習分類子が、健康な対象と細胞増殖性障害を有する対象とを鑑別することで、細胞増殖性障害の存在に関連付けられる出力値を提供し、それによって前記対象における前記細胞増殖性障害の存在を検出可能となるように訓練される、工程をさらに含む、請求項37に記載の方法。
【請求項51】
前記出力値は少なくとも15%である、請求項50に記載の方法。
【請求項52】
前記細胞増殖性障害は、ステージ1の癌、ステージ2の癌、ステージ3の癌、およびステージ4の癌からなる群から選択される、請求項37に記載の方法。
【請求項53】
対象における細胞増殖性障害を検出する方法であって、
a)前記対象由来の核酸試料からの、少なくとも2つの異なる細胞増殖性障害組織型の存在に関連付けられるゲノム領域の予め選択されたパネルに関する、メチル化シーケンシング情報を取得する工程と、
b)細胞増殖性障害の存在を同定するために、および細胞増殖性障害が検出される場合に、前記対象からの配列情報を、前記少なくとも2つの細胞増殖性障害型の存在に関連付けられるゲノム領域の予め選択されたパネルで訓練された分類モデルに適用する工程と、
c)前記対象における前記細胞増殖性障害の起源組織を判定するために、前記対象からの配列情報を、異なる組織型における前記細胞増殖性障害の存在に関連付けられるゲノム領域の予め選択されたパネルで訓練された分類モデルに適用する工程と
を含む、方法。
【請求項54】
対象における細胞増殖性障害を検出する方法であって、
a)少なくとも2つの異なる細胞増殖性障害に関連するゲノム領域の予め選択されたパネルに関する前記対象由来の核酸試料からメチル化シーケンシング情報障害を得る工程と、
b)前記細胞増殖性障害の少なくとも2つの細胞型に関連するメチル化ゲノム領域の前記予め選択された所定のパネルに対応する前記試料中のcfDNAのメチル化プロファイルを計算する工程と、
c)前記細胞増殖性障害の2つ以上の型に関連する所定のメチル化ゲノムの領域のパネルで訓練され、かつ前記パネルを使用して検出されるべき異なる型の細胞増殖性障害に対する予め選択された感度と特異性を有する、機械学習分類子を適用する工程と
を含む、方法。
【請求項55】
前記細胞増殖性障害は、大腸癌、乳癌、卵巣癌、前立腺癌、肺癌、膵臓癌、子宮癌、肝臓癌、食道癌、胃癌、甲状腺癌、および膀胱癌からなる群から選択される、請求項53または54に記載の方法。
【請求項56】
機械学習分類子が、大腸癌、乳癌、卵巣癌、前立腺癌、肺癌、膵臓癌、子宮癌、肝臓癌、食道癌、胃癌、甲状腺癌、および膀胱癌からなる群から選択される2つ以上の癌についての癌診断および確認診断の必要性に応じて、検出される異なる型の細胞増殖性障害に対する予め選択された感度および特異性を提供するように調整され、大腸癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、乳癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも70%の特異性であり、卵巣癌に関連付けられた分類パネルに対する前記選択された特異性は、少なくとも90%の特異性であり、前立腺癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも70%の特異性であり、肺癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも70%の特異性であり、膵臓癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも90%の特異性であり、子宮癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも90%の特異性であり、肝臓癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、食道癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、胃癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、甲状腺癌に関連付けられた分類パネルに対する前記予め選択された特異性は、少なくとも70%の特異性であり、および膀胱癌に関連付けられた分類パネルに対する前記予め選択された感度は、少なくとも70%の感度であり、どの癌型が分類モデルによって検出されるかに基づいて選択される、請求項53または54に記載の方法。
【請求項57】
対象における細胞増殖性障害の存在または不在を検出する方法であって、
a)前記対象から得られるか由来する生体試料の核酸分子の中で非メチル化シトシンをウラシルに変換して、複数の変換された核酸分子を生成することができる条件を提供する工程と、
b)前記複数の変換された核酸を、表1~17の差次的メチル化領域からなる群から選択される少なくとも2つの差次的メチル化領域の予め同定されたメチル化シグネチャーパネルに相補的な核酸プローブに接触させて、前記シグネチャーパネルに対応する配列を濃縮する工程と、
c)前記変換された核酸分子の核酸配列を判定する工程と、
d)参照核酸配列に対して前記複数の変換された核酸分子の核酸配列をアラインメントし、それによって前記対象のメチル化プロファイルを判定する工程と、
e)訓練された機械学習分類子を前記メチル化プロファイルに適用する工程であって、前記訓練された機械学習分類子は、健康な対象と細胞増殖性障害を有する対象とを鑑別して、細胞増殖性障害の存在に関連付けられる出力値を提供することができ、それによって前記対象における前記細胞増殖性障害の存在または不在を検出するように訓練される、工程と
を含む、方法。
【請求項58】
対象における細胞増殖性障害を検出する方法であって、
a)cfDNA試料の核酸分子中の非メチル化シトシンをウラシルに変換して複数の変換された核酸を生成するための条件を提供する工程と、
b)ポリメラーゼ連鎖反応を用いて変換された核酸を増幅する工程と、
c)前記変換された核酸を、表1~17からなる群から選択される少なくとも2つの差次的メチル化領域の予め同定されたメチル化シグネチャーパネルに相補的な核酸プローブでプロービングして、前記シグネチャーパネルに対応する配列を濃縮する工程と、
d)変換された核酸分子の前記核酸配列を5000x超の深度で判定する工程と、
e)前記変換された核酸分子の前記核酸配列を前記予め同定されたCpG遺伝子座のパネルの参照核酸配列に対してアラインメントして、前記対象の前記メチル化プロファイルを判定する工程と、
f)健康な対象と細胞増殖性障害を有する対象を鑑別可能なように訓練された機械学習モデルを使用して前記メチル化プロファイルを分析して、細胞増殖性障害の存在に関連付けられる出力値を提供し、それによって前記対象における細胞増殖性障害の存在を示す工程と
を含む、方法。
【請求項59】
前記対象から得られた生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される、請求項57または58に記載の方法。
【請求項60】
前記対象からの測定された前記メチル化シグネチャーパネルを、コンピュータシステム上に記憶されている、正常な対象から測定されたメチル化シグネチャーパネルのデータベースに対して適用する工程と、正常な対象由来のメチル化状態と比較して、メチルシグネチャーパネルの前記メチル化状態の少なくとも15%の変化を測定することによって、前記対象が細胞増殖性障害を有するリスクが増加したと判定する工程とを含む、請求項57または58に記載の方法。
【請求項61】
前記細胞増殖性障害は、ステージ1の癌、ステージ2の癌、ステージ3の癌、およびステージ4の癌からなる群から選択される、請求項57または58に記載の方法。
【請求項62】
前記方法は、膵臓癌を検出し、ならびに生体試料中のCA19-9タンパク質の存在または量を検出することと組合せて実施される、請求項57または58に記載の方法。
【請求項63】
前記方法は、前立腺癌を検出し、ならびに生体試料中のPSAタンパク質の存在または量を検出することと組合せて実施される、請求項57または58に記載の方法。
【請求項64】
細胞増殖性障害を検出するための機械学習モデル分類子を備えたシステムであって、a)表1~17のゲノム領域からなる群から選択される1つ以上のゲノム領域のメチル化シグネチャーパネルに基づいて、前記細胞増殖性障害を有する、または前記細胞増殖性障害を有していないとして対象を分類するように動作可能な分類子を含むコンピュータ可読媒体と、b)前記コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサとを備える、システム。
【請求項65】
前記システムは、コンピュータシステムのメモリにロードされた分類子を含み、機械学習モデルは、訓練用生体試料から得られた訓練ベクトルを使用して訓練され、前記訓練用生体試料の第1のサブセットは細胞増殖性障害を有すると同定されており、および前記訓練用生体試料の第2のサブセットは細胞増殖性障害を有していないと同定されている、請求項64に記載の方法。
【請求項66】
前記分類子は、細胞増殖性障害を検出するためのシステムにおいて提供され、前記システムは、
a)本明細書に記載のメチル化シグネチャーパネルに基づいて前記対象を分類するように動作可能な分類子を含むコンピュータ可読媒体と、
b)前記コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと
を含む、請求項64に記載の方法。
【請求項67】
前記システムは、深層学習分類子、ニューラルネットワーク分類子、線形判別分析(LDA)分類子、二次判別分析(QDA)分類子、サポートベクトルマシン(SVM)分類子、ランダムフォレスト(RF)分類子、線形カーネルサポートベクトルマシン分類子、一次または二次多項式カーネルサポートベクトルマシン分類子、隆線回帰分類子、弾性ネットアルゴリズム分類子、逐次最小最適化アルゴリズム分類子、ナイーブベイズアルゴリズム分類子、および主成分分析分類子からなる群から選択される機械学習分類子として構成される、分類回路を備える、請求項64に記載の方法。
【請求項68】
前記コンピュータ可読媒体は、1つ以上のコンピュータプロセッサによる実行時に、上記または本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む、非一時的コンピュータ可読媒体である、請求項64に記載の方法。
【請求項69】
前記システムは、1つ以上のコンピュータプロセッサと、それに結合されたコンピュータメモリとを備え、前記コンピュータメモリは、前記1つ以上のコンピュータプロセッサによる実行時に、本明細書に記載される方法のいずれかを実施する機械実行可能コードを含む、請求項64に記載の方法。
【請求項70】
疾患について以前に処置された対象において微小残存病変をモニタリングする方法であって、メチル化プロファイルを、本明細書に記載のとおり、ベースラインメチル化状態として判定し、分析を繰り返して、1つ以上の所定の時点で前記メチル化プロファイルを判定する工程であって、ここでベースラインからの変化が、前記対象におけるベースラインでの最小残存疾患の状態の変化を示す、工程を含む、方法。
【請求項71】
前記最小残存疾患は、処置に対する応答、腫瘍負荷、手術後の残存腫瘍、再発、二次スクリーニング、一次スクリーニング、および癌の進行からなる群から選択される、請求項70に記載の方法。
【請求項72】
処置に対する応答を判定するための、請求項70に記載の方法。
【請求項73】
腫瘍負荷をモニタリングするための、請求項70に記載の方法。
【請求項74】
手術後の残存腫瘍を検出するための、請求項70に記載の方法。
【請求項75】
再発を検出するための、請求項70に記載の方法。
【請求項76】
二次スクリーニングとして使用するための、請求項70に記載の方法。
【請求項77】
一次スクリーニングとして使用するための、請求項70に記載の方法。
【請求項78】
癌の進行をモニタリングするための、請求項70に記載の方法。
【請求項79】
データセットが、少なくとも約80%の感度で癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項80】
データセットが、少なくとも約90%の感度で癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項81】
データセットが、少なくとも約95%の感度で癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項82】
データセットが、少なくとも約70%の陽性的中率(PPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項83】
データセットが、少なくとも約80%の陽性的中率(PPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項84】
データセットが、少なくとも約90%の陽性的中率(PPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項85】
データセットが、少なくとも約95%の陽性的中率(PPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項86】
データセットが、少なくとも約99%の陽性的中率(PPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項87】
データセットが、少なくとも約80%の陰性的中率(NPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項88】
データセットが、少なくとも約90%の陰性的中率(NPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項89】
データセットが、少なくとも約95%の陰性的中率(NPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項90】
データセットが、少なくとも約99%の陰性的中率(NPV)で、癌の存在または易罹患性を示す、請求項70に記載の方法。
【請求項91】
訓練されたアルゴリズムが、少なくとも約0.90の曲線下面積(AUC)で前記対象の癌の存在または易罹患性を判定する、請求項70に記載の方法。
【請求項92】
訓練されたアルゴリズムが、少なくとも約0.95の曲線下面積(AUC)で前記対象の癌の存在または易罹患性を判定する、請求項70に記載の方法。
【請求項93】
訓練されたアルゴリズムが、少なくとも約0.99の曲線下面積(AUC)で前記対象の癌の存在または易罹患性を判定する、請求項70に記載の方法。
【請求項94】
前記方法は、レポートをユーザーの電子デバイスのグラフィカルユーザインターフェースに提示する工程をさらに含む、請求項70に記載の方法。
【請求項95】
ユーザーは、対象、個体、または患者である、請求項70に記載の方法。
【請求項96】
前記方法は、対象、個体、または患者における癌の存在または易罹患性の判定の確からしさを判定する工程をさらに含む、請求項70に記載の方法。
【請求項97】
訓練されたアルゴリズムは、教師あり機械学習アルゴリズムを含む、請求項70に記載の方法。
【請求項98】
前記教師あり機械学習アルゴリズムは、深層学習アルゴリズム、サポートベクトルマシン(SVM)、ニューラルネットワーク、またはランダムフォレストを含む、請求項70に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、米国仮特許出願63/166,641(2021年3月26日)の利益を主張し、その内容は参照により本明細書に組み込まれる。
【0002】
参照による組み込み
本明細書で言及される全ての刊行物、特許、および特許出願は、あたかも個々の刊行物、特許、または特許出願が参照により組み込まれるように具体的かつ個々に指示される程度に、参照により本明細書に組み込まれる。参照により組み込まれる出版物および特許または特許出願が、本明細書に含まれる開示に矛盾する程度まで、本明細書は、そのような矛盾のある題材に取って代わること、および/または、上記題材よりも優先することが意図される。
【背景技術】
【0003】
本開示は、全般に、癌の検出および疾患のモニタリングに関する。より具体的には、本分野は、早期癌における癌関連DNAメチル化検出および疾患モニタリングに関する。癌のスクリーニングおよびモニタリングは、早期検出により癌が広がる前に除去され得るため、より良好な転帰をもたらすことから、過去数十年にわたる、転帰の改善の一助であり得る。
【0004】
あらゆるスクリーニングツールの主な問題は、偽陽性結果と偽陰性結果との(または特異性と感度との)間の妥協であり得、これは、前者の場合、不必要な調査をもたらし、後者の場合、無効性をもたらす。理想的な試験は、高い陽性予測値(Positive Predictive Value)(PPV)を有し、不必要な調査を最小限に抑えるが、大多数の癌を検出する試験であり得る。別の重要な因子は「検出感度」である。試験感度とは異なり、検出感度とは、腫瘍のサイズに関する検出の下限である。残念ながら、検出に必要なレベルで循環腫瘍マーカーを放出するほど十分大きく腫瘍が成長するのを待つことは、治療が最も効果的である初期段階で腫瘍を治療するという目標と矛盾する可能性がある。したがって、循環分析物に基づく早期癌の有効な血液ベースのスクリーニングが必要とされている。
【発明の概要】
【0005】
本開示は、細胞増殖性障害および癌の検出、ならびに疾患の進行に関連する遺伝子のメチル化プロファイリングに向けられた方法とシステムを提供する。さらに、肺、結腸(colon)、肝臓、卵巣、膵臓、前立腺、直腸、および乳房の細胞増殖性障害の検出および疾患の進行に関連する遺伝子のメチル化プロファイリングのための方法およびシステムが提供される。
【0006】
一態様では、本開示は、表1からなる群から選択される6つ以上のメチル化ゲノム領域を含む、少なくとも2つの細胞増殖性障害に特徴的なメチル化シグネチャーパネルを提供し、ここで1つ以上の領域は、細胞増殖性障害または細胞増殖性障害の亜型がある対象からの生体試料中でより多くメチル化され、および細胞増殖性障害がない対象における正常な組織と正常な血球においてより少ししかメチル化されない。
【0007】
いくつかの実施形態では、生体試料は、核酸、DNA、RNA、または無細胞核酸(cfDNAまたはcfRNA)を含む。
【0008】
いくつかの実施形態では、ゲノム領域は、非コード領域、コード領域、あるいは非転写または調節領域である。
【0009】
いくつかの実施形態では、シグネチャーパネルは、表1の6以上、または12以上のゲノム領域において増加されたメチル化を含む。
【0010】
いくつかの実施形態では、シグネチャーパネルは、癌の型に関連する表1の6つ以上のメチル化ゲノム領域において増加されたメチル化を含む。
【0011】
いくつかの実施形態では、対象から得られた生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される。
【0012】
いくつかの実施形態では、細胞増殖性障害は、大腸、前立腺、肺、乳房、膵臓、卵巣、子宮、肝臓、食道、胃、または甲状腺の細胞増殖から選択される。
【0013】
いくつかの実施形態では、細胞増殖性障害は、結腸腺癌、肝臓肝細胞癌、肺腺癌、肺扁平上皮癌、卵巣重篤嚢胞腺癌、膵臓腺癌、前立腺癌、および直腸腺癌から選択される。
【0014】
いくつかの実施形態では、細胞増殖性障害は、ステージ1の癌、ステージ2の癌、ステージ3の癌、またはステージ4の癌から選択される。
【0015】
いくつかの実施形態では、シグネチャーパネルは、表1の3つ以上のメチル化ゲノム領域、表1の4つ以上のメチル化ゲノム領域、表1の5つ以上のメチル化ゲノム領域、表1の6つ以上のメチル化ゲノム領域、表1の7つ以上のメチル化ゲノム領域、表1の8つ以上のメチル化ゲノム領域、表1の9つ以上のメチル化ゲノム領域、表1の10以上のメチル化ゲノム領域、表1の11以上のメチル化ゲノム領域、表1の12以上のメチル化ゲノム領域、または表1の13以上のメチル化ゲノム領域を含む。
【0016】
一態様では、本開示は、少なくとも2つの細胞増殖性障害について、表2~17のメチル化ゲノム領域からなる群から選択される2つ以上のメチル化ゲノム領域シグネチャーパネルを含む、起源組織に特徴的なメチル化シグネチャーパネルを提供し、ここで上記ゲノム領域は、細胞増殖性障害または細胞増殖性障害の亜型を有する対象からの生体試料中でより多くメチル化され、および細胞増殖性障害を有していない対象における正常な組織と正常な血球においてより少ししかメチル化されていない。
【0017】
いくつかの実施形態では、生体試料は、核酸、DNA、RNA、または無細胞核酸(cfDNAまたはcfRNA)である。
【0018】
いくつかの実施形態では、ゲノム領域は、非コード領域、コード領域、あるいは非転写または調節領域である。
【0019】
いくつかの実施形態では、シグネチャーパネルは、表2~17の6以上、12以上のゲノム領域において増加されたメチル化を含む。
【0020】
いくつかの実施形態では、シグネチャーパネルは、癌型および腫瘍の起源組織に関連付けられる、表2~17の中の6つ以上のメチル化ゲノム領域に、増加したメチル化を含む。
【0021】
いくつかの実施形態では、対象から得られる生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される。
【0022】
いくつかの実施形態では、細胞増殖性障害は、大腸、前立腺、肺、乳房、膵臓、卵巣、子宮、肝臓、食道、胃、または甲状腺の細胞増殖から選択される。 いくつかの実施形態では、細胞増殖性障害は、結腸腺癌、肝臓肝細胞癌、肺腺癌、肺扁平上皮癌、卵巣重篤嚢胞腺癌、膵臓腺癌、前立腺癌、および直腸腺癌から選択される。
【0023】
いくつかの実施形態では、細胞増殖性障害は、ステージ1の癌、ステージ2の癌、ステージ3の癌、またはステージ4の癌から選択される。
【0024】
いくつかの実施形態では、シグネチャーパネルは、表2~17の3つ以上のメチル化ゲノム領域、表2~17の4つ以上のメチル化ゲノム領域、表2~17の5つ以上のメチル化ゲノム領域、表2~17の6つ以上のメチル化ゲノム領域、表2~17の7つ以上のメチル化ゲノム領域、表2~17の8つ以上のメチル化ゲノム領域、表2~17の9つ以上のメチル化ゲノム領域、表2~17の10以上のメチル化ゲノム領域、表2~17の11以上のメチル化ゲノム領域、表2~17の12以上のメチル化ゲノム領域、または表2~17の13以上のメチル化ゲノム領域を含む。
【0025】
一実施形態では、少なくとも2つの細胞増殖性障害は、以下の組合せ、大腸癌と前立腺癌、大腸癌と肺癌、大腸癌と乳癌、大腸癌と肝臓癌、大腸癌と卵巣癌、大腸癌と膵臓癌、前立腺癌と肺癌、前立腺癌と乳癌、前立腺癌と肝臓癌、前立腺癌と卵巣癌、前立腺癌と膵臓癌、肺癌と乳癌、肺癌と肝臓癌、肺癌と卵巣癌、肺癌と膵臓癌、乳癌と肝臓癌、乳癌と卵巣癌、乳癌と膵臓癌、肝臓癌と卵巣癌、肝臓癌と膵臓癌、卵巣癌と膵臓癌、大腸癌と前立腺癌と肺癌、大腸癌と前立腺癌と乳癌、大腸癌と前立腺癌と肝臓癌、大腸癌と前立腺癌と卵巣癌、大腸癌と前立腺癌と膵臓癌、大腸癌と肺癌と乳癌、大腸癌と肺癌と肝臓癌、大腸癌と肺癌と卵巣癌、大腸癌と肺癌と膵臓癌、大腸癌と乳癌と肝臓癌、大腸癌と乳癌と卵巣癌、大腸癌と乳癌と膵臓癌、前立腺癌と肝臓癌と卵巣癌、前立腺癌と肝臓癌と膵臓癌、前立腺癌と卵巣癌と膵臓癌、ならびに大腸癌と前立腺癌と肺癌と乳癌から選択される組合わせを含む。
【0026】
様々な実施形態において、大腸癌起源組織に関連付けられる所定のメチル化ゲノム領域のパネルは、表2、3、または4から選択される。
【0027】
様々な実施形態において、肝臓癌起源組織に関連付けられる所定のメチル化ゲノム領域のパネルは、表5、6、または7から選択される。
【0028】
様々な実施形態において、肺癌起源組織に関連付けられる所定のメチル化ゲノム領域のパネルは、表8または9から選択される。
【0029】
様々な実施形態において、卵巣癌起源組織に関連付けられる所定のメチル化ゲノム領域のパネルは、表10、11、または12から選択される。
【0030】
様々な実施形態において、膵臓癌起源組織に関連付けられる所定のメチル化ゲノム領域のパネルは、表13または14から選択される。
【0031】
様々な実施形態において、前立腺癌起源組織に関連付けられる所定のメチル化ゲノム領域のパネルは、表15、16、または17から選択される。
【0032】
一態様では、本開示は、2つ以上の癌型に関連付けられる所定のメチル化ゲノム領域のパネルで訓練された機械学習分類子を提供し、上記メチル化ゲノム領域は、a)表1および/またはb)表2~17およびそれらの組合せから選択される。
【0033】
別の態様では、本開示は、健康な対象の集団と、細胞増殖性障害を有する対象とを鑑別可能な機械学習分類子を提供し、該機械学習分類子は、
a)2つ以上の細胞増殖性障害に関連する表1~17の差次的にメチル化されたゲノム領域を表す測定値のセットであって、当該測定値は、健康な対象および細胞増殖性障害を有する対象からのメチル化シーケンシングデータから得られる、測定値のセットを含み、
b)当該測定値は、差次的にメチル化されたゲノム領域の特性に対応する特徴のセットを生成するために使用され、当該特徴は、機械学習モデルまたは統計モデルを使用して分析され、
c)当該モデルは、健康な対象の集団と細胞増殖性障害を有する対象とを鑑別可能な分類子として有用な特徴ベクトルを提供する。
【0034】
一実施形態では、測定値のセットは、CpG、CHG、CHHについての塩基ごと(base wise)のメチル化パーセント、変換効率(CHHについての100-平均メチル化パーセント)、低メチル化ブロック、メチル化レベル(CPG、CHH、CHGの全体平均メチル化、断片長、断片中間点、およびchrM、LINE1、またはALUなどの1つ以上のゲノム領域におけるメチル化レベル)、断片あたりのメチル化CpG数、断片あたりの総CpGに対するCpGメチル化の割合、領域あたりの総CpGに対するCpGメチル化の割合、パネル内の総CpGに対するCpGメチル化の割合、ジヌクレオチドのカバレッジ(ジヌクレオチドの正規化されたカバレッジ)、カバレッジの均一性(lxおよび10xの平均ゲノムカバレッジ(S4ランについて)での固有のCpG部位、全体的な平均CpGカバレッジ(深度)、ならびにCpGアイランド(CGI)、CGIシェルフ、およびCGIショアでの平均カバレッジからなる群から選択されるメチル化領域の特徴を説明する。
【0035】
いくつかの実施形態では、パネルは、対象を、癌を有すると分類し、かつ/または対象における腫瘍の起源組織を局在化するために訓練された、機械学習分類子の一部を含む。
【0036】
いくつかの実施形態では、分類子を含む機械学習モデルがコンピュータシステムのメモリにロードされ、該機械学習モデルは、訓練用生体試料、結腸細胞増殖性障害を有すると同定された訓練用生体試料の第1のサブセット、および結腸細胞増殖性障害を有していないと同定された訓練用生体試料の第2のサブセットから得られた訓練ベクトルを使用して訓練される。
【0037】
一態様では、本開示は、2つ以上の型の細胞増殖性障害に関連付けられる所定のメチル化ゲノム領域のパネルで訓練され、パネルを使用して検出される異なる型の細胞増殖性障害に対して予め選択された感度および特異性を有する、機械学習分類子を提供する。
【0038】
様々な実施形態において、異なる型の細胞増殖性障害は、大腸癌、乳癌、卵巣癌、前立腺癌、肺癌、膵臓癌、子宮癌、肝臓癌、食道癌、胃癌、甲状腺癌、または膀胱癌から選択される。
【0039】
一実施形態では、機械学習分類子は、大腸癌、乳癌、卵巣癌、前立腺癌、肺癌、膵臓癌、子宮癌、肝臓癌、食道癌、胃癌、甲状腺癌、膀胱癌、またはそれらの組合わせから選択される2つ以上の癌についての診断および確認診断の必要性に応じて、癌細胞増殖性障害の異なる型が検出されるように予め選択された感度と特異性を提供するように適合され(tailored)、大腸癌に関する分類パネルのために予め選択された感度は、少なくとも70%の感度であり、乳癌に関する分類パネルのために予め選択された特異性は、少なくとも70%の特異性であり、卵巣癌に関する分類パネルのために予め選択された特異性は、少なくとも90%の特異性であり、前立腺癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも70%の特異性であり、肺癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも70%の特異性であり、膵臓癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも90%の特異性であり、子宮癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも90%の特異性であり、肝臓癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、食道癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、胃癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、甲状腺癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも70%の特異性であり、および膀胱癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、どの癌型が当該分類モデルによって検出されるかに基づいて選択される。
【0040】
一態様では、本開示は、2つ以上の癌型の存在に関連付けられるゲノム領域の予め選択されたパネルを用いて、試料におけるcfDNAを取得、変換、シーケンシングすること、およびゲノム領域の予め選択されたパネルに対応するcfDNAのメチル化プロファイルを計算することにより、cfDNA試料のメチル化プロファイルを判定するための方法を提供する。
【0041】
一態様では、本開示は、対象由来の無細胞デオキシリボ核酸(cfDNA)試料のメチル化プロファイルを判定するための方法を提供し、該方法は、
a)複数の変換された核酸を生成するために、cfDNA試料の核酸分子中の非メチル化シトシンをウラシルに変換可能な条件を提供する工程と、
b)複数の変換された核酸を、表1~17の差次的メチル化領域からなる群から選択される少なくとも2つの差次的メチル化領域の予め同定されたメチル化シグネチャーパネルに相補的な核酸プローブに接触させて、シグネチャーパネルに対応する配列を濃縮する工程と、
c)複数の変換された核酸分子の核酸配列を判定する工程と、
d)複数の変換された核酸分子の核酸配列を参照核酸配列に対してアラインメントさせ、それによって対象のメチル化プロファイルを判定する工程と、を含む。
【0042】
別の態様では、本開示は、対象由来の無細胞cfDNA試料のメチル化プロファイルを判定するための方法を提供し、該方法は、
a)複数の変換された核酸を生成するために、cfDNA試料の核酸分子中の非メチル化シトシンをウラシルに変換可能な条件を提供する工程と、
b)ポリメラーゼ連鎖反応を用いて変換された核酸を増幅する工程と、
c)変換された核酸を、表1~17の差次的メチル化領域からから選択される少なくとも2つの差次的メチル化領域の予め同定されたメチル化シグネチャーパネルに相補的な核酸プローブでプロービングして、シグネチャーパネルに対応する配列を濃縮する工程と、
d)変換された核酸分子の核酸配列を5000x超の深度で決定する工程と、
e)変換された核酸分子の核酸配列をCpG遺伝子座の予め同定されたパネルの参照核酸配列に対してアラインメントさせて、対象のメチル化プロファイルを判定する工程と、を含む。
【0043】
いくつかの実施形態では、増幅の前に、核酸シーケンシングライブラリが調製される。
【0044】
いくつかの実施形態では、メチル化プロファイルは、細胞増殖性障害に関連付けられ、および細胞増殖性障害を有するものとする対象の分類を提供する。
【0045】
いくつかの実施形態では、固有の分子識別子を含む核酸アダプターが、a)の前に、cfDNA試料中の未変換核酸にライゲーションされる。
【0046】
いくつかの実施形態では、核酸分子は、化学的方法、酵素的方法、またはそれらの組合せを使用して、シトシンからウラシルへの変換条件に供される。
【0047】
いくつかの実施形態では、生体試料中のcfDNAは、亜硫酸水素塩、亜硫酸水素塩、二亜硫酸塩、およびこれらの組合せからなる群から選択される試薬で処理される。
【0048】
いくつかの実施形態では、対象から得られた生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される。
【0049】
いくつかの実施形態では、方法は、対象からの測定されたメチル化シグネチャーパネルを、コンピュータシステム上に記憶されている、正常な対象から測定されたメチル化シグネチャーパネルのデータベースに対して適用する工程と、正常な対象由来のメチル化状態と比較して、メチルシグネチャーパネルのメチル化状態の少なくとも15%の変化を測定することによって、対象が細胞増殖性障害を有するリスクが増加したと判定する工程と、を含む。
【0050】
いくつかの実施形態では、細胞増殖性障害は、ステージ1の癌、ステージ2の癌、ステージ3の癌、およびステージ4の癌から選択される。
【0051】
別の態様では、本開示は、生物の対象における細胞増殖性障害を検出するための方法を提供し、該方法は、
a)対象由来の核酸試料からの2つ以上の異なる細胞増殖性障害組織型の存在に関連付けられるゲノム領域の予め選択されたパネルに関する、メチル化シーケンシング情報を取得する工程と、
b)細胞増殖性障害の存在を同定するために、および細胞増殖性障害が検出される場合、対象からの配列情報を、2つ以上の細胞増殖性障害型の存在に関連付けられるゲノム領域の予め選択されたパネルで訓練された分類モデルに適用する工程と、
c)対象における細胞増殖性障害の起源組織を判定するために、対象からの配列情報を、異なる組織型における細胞増殖性障害の存在に関連付けられるゲノム領域の予め選択されたパネルで訓練された分類モデルに適用する工程と
を含む。
【0052】
一態様では、本開示は、対象の細胞増殖性障害を検出するための方法を提供し、該方法は、a)2つ以上の異なる細胞増殖性障害に関連するゲノム領域の予め選択されたパネルに関する、対象由来の核酸試料からメチル化シーケンシング情報障害を得る工程と、
b)細胞増殖性障害の2つ以上の型に関連する所定のメチル化ゲノム領域の予め選択されたパネルに対応する試料中のcfDNAのメチル化プロファイルを計算する工程と、
c)2つ以上の型の細胞増殖性障害に関連付けられる所定のメチル化ゲノム領域のパネルで訓練され、およびパネルを使用して検出されるべき異なる型の細胞増殖性障害に対する予め選択された感度と特異性を有する、機械学習分類子を適用する工程と、を含む。
【0053】
様々な実施形態において、異なる型の細胞増殖性障害は、大腸癌、乳癌、卵巣癌、前立腺癌、肺癌、膵臓癌、子宮癌、肝臓癌、食道癌、胃癌、甲状腺癌、または膀胱癌から選択される。
【0054】
一実施形態では、機械学習分類子は、大腸癌、乳癌、卵巣癌、前立腺癌、肺癌、膵臓癌、子宮癌、肝臓癌、食道癌、胃癌、甲状腺癌、または膀胱癌もしくはその組合せから選択される2つ以上の癌についての癌診断および確認診断の必要性に応じて、検出される異なる型の細胞増殖性障害に対して予め選択された感度および特異性を提供するように適合される。
【0055】
一実施形態では、大腸癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、乳癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも70%の特異性であり、卵巣癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも90%の特異性であり、前立腺癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも70%の特異性であり、肺癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも70%の特異性であり、膵臓癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも90%の特異性であり、子宮癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも90%の特異性であり、肝臓癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、食道癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、胃癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、甲状腺癌に関連付けられた分類パネルのために予め選択された特異性は、少なくとも70%の特異性であり、または、膀胱癌に関連付けられた分類パネルのために予め選択される感度は、少なくとも70%の感度であり、どの癌型が当該分類モデルによって検出されるかに基づいて選択される。
【0056】
一態様では、本開示は、対象における細胞増殖性障害の存在または非存在を検出するための方法を提供し、該方法は、
a)対象から得られるか由来する生体試料の核酸分子の非メチル化シトシンをウラシルに変換して、複数の変換された核酸を生成することができる条件を提供する工程と、
b)複数の変換された核酸を、表1~17の差次的メチル化領域からなる群から選択される少なくとも2つの差次的メチル化領域の予め同定されたメチル化シグネチャーパネルに相補的な核酸プローブに接触させて、シグネチャーパネルに対応する配列を濃縮する工程と、
c)変換された核酸分子の核酸配列を判定する工程と、
d)複数の変換された核酸分子の核酸配列を参照核酸配列に対してアラインメントさせ、それによって対象のメチル化プロファイルを判定する工程と、
e)訓練された機械学習分類子をメチル化プロファイルに適用する工程であって、該訓練された機械学習分類子は、健康な対象と細胞増殖性障害を有する対象とを識別して、細胞増殖性障害の存在に関連付けられる出力値を提供することができるように訓練され、それによって対象における細胞増殖性障害の有無を検出する、工程と
を含む。
【0057】
別の態様では、本開示は、対象における細胞増殖性障害を検出するための方法を提供し、該方法は、
a)cfDNA試料の核酸分子中の非メチル化シトシンをウラシルに変換して、複数の変換された核酸を生成することができる条件を提供する工程と、
b)ポリメラーゼ連鎖反応を用いて変換された核酸を増幅する工程と、
c)変換された核酸を、表1~17の差次的メチル化領域からから選択される少なくとも2つの差次的メチル化領域の予め同定されたメチル化シグネチャーパネルに相補的な核酸プローブでプロービングして、シグネチャーパネルに対応する配列を濃縮する工程と、
d)変換された核酸分子の核酸配列を5000x超の深度で決定する工程と、
e)変換された核酸分子の核酸配列をCpG遺伝子座の予め同定されたパネルの参照核酸配列に対してアラインメントさせて、対象のメチル化プロファイルを判定する工程と、
f)健康な対象と細胞増殖性障害を有する対象を鑑別可能なように訓練された機械学習モデルを使用してメチル化プロファイルを分析して、細胞増殖性障害の存在に関連付けられる出力値を提供し、それによって対象における細胞増殖性障害の存在を示す工程と
を含む。
【0058】
いくつかの実施形態では、対象から得られた生体試料は、体液、糞便、結腸流出物、尿、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組合せからなる群から選択される。
【0059】
いくつかの実施形態では、方法は、対象から測定されたメチル化シグネチャーパネルを、コンピュータシステム上に記憶されている正常な対象から測定されたメチル化シグネチャーパネルのデータベースに対して適用する工程と、正常な対象由来のメチル化状態と比較して、メチルシグネチャーパネルの前記メチル化状態の少なくとも15%の変化を測定することによって、対象が細胞増殖性障害を有するリスクが増加したと判定する工程と、を含む。
【0060】
いくつかの実施形態では、細胞増殖性障害は、ステージ1の癌、ステージ2の癌、ステージ3の癌、およびステージ4の癌から選択される。
【0061】
いくつかの実施形態では、方法は、膵臓癌を検出し、および生体試料中のCA19-9タンパク質の存在または量を検出することと組合せて実施される。
【0062】
いくつかの実施形態では、本方法は、前立腺癌を検出し、生体試料中のPSAタンパク質の存在または量を検出することと組合せて実施される。
【0063】
一態様では、本開示は、細胞増殖性障害を検出するための機械学習モデル分類子を含むシステムを提供し、該システムは、
a)表1~17のメチル化シグネチャーパネルまたはそれらの組合せに基づいて、対象を、細胞増殖性障害を有するかまたは細胞増殖性障害を有していないと分類するように動作可能な分類子を含む、コンピュータ可読媒体と、
b)コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと
を含む。
【0064】
一実施形態では、システムは、コンピュータシステムのメモリにロードされた分類子を含み、機械学習モデルは、訓練用生体試料から得られた訓練ベクトルを使用して訓練され、訓練用生体試料の第1のサブセットは細胞増殖性障害を有すると同定されており、および訓練用生体試料の第2のサブセットは細胞増殖性障害を有していないと同定されている。
【0065】
いくつかの実施形態では、分類子は、
a)本明細書に記載のメチル化シグネチャーパネルに基づいて対象を分類するように動作可能な分類子を含むコンピュータ可読媒体と、
b)コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと
を含む、細胞増殖性障害を検出するためのシステムにおいて提供される。
【0066】
いくつかの実施形態では、システムは、深層学習分類子、ニューラルネットワーク分類子、線形判別分析(LDA)分類子、二次判別分析(QDA)分類子、サポートベクトルマシン(SVM)分類子、ランダムフォレスト(RF)分類子、線形カーネルサポートベクトルマシン分類子、一次または二次多項式カーネルサポートベクトルマシン分類子、隆線回帰分類子、弾性ネットアルゴリズム分類子、逐次最小最適化アルゴリズム分類子、ナイーブベイズアルゴリズム分類子、および主成分分析分類子から選択される機械学習分類子として構成される分類回路を備える。
【0067】
いくつかの実施形態では、コンピュータ可読媒体は、1つ以上のコンピュータプロセッサによる実行時に、上記または本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを備える非一時的コンピュータ可読媒体である。
【0068】
いくつかの実施形態では、システムは、1つ以上のコンピュータプロセッサと、それに結合されたコンピュータメモリとを備える。コンピュータメモリは、1つ以上のコンピュータプロセッサによる実行時に、本明細書に記載される方法のいずれかを実施する機械実行可能コードを備える。
【0069】
別の態様では、本開示は、疾患について以前に処置された対象において微小残存病変をモニタリングするための方法を提供し、該方法は、メチル化プロファイルを、本明細書に記載のとおり、ベースラインメチル化状態として決定し、分析を繰り返して、1つ以上の所定の時点でメチル化プロファイルを判定する工程であって、ここでベースラインからの変化が、対象におけるベースラインでの微小残存病変の状態の変化を示す、工程を含む。
【0070】
いくつかの実施形態では、微小残存病変は、処置に対する応答、腫瘍負荷、手術後の残存腫瘍、再発、二次スクリーニング、一次スクリーニング、および癌の進行から選択される。
【0071】
別の態様では、処置に対する応答を判定するための方法が提供される。
【0072】
別の態様では、腫瘍負荷をモニタリングするための方法が提供される。
【0073】
別の態様では、手術後の残存腫瘍を検出するための方法が提供される。
【0074】
別の態様では、再発を検出するための方法が提供される。
【0075】
別の態様では、二次スクリーニングとして使用するための方法が提供される。
【0076】
別の態様では、一次スクリーニングとして使用するための方法が提供される。
【0077】
別の態様では、癌の進行をモニタリングするための方法が提供される。
【0078】
いくつかの実施形態では、データセットは、少なくとも約80%の感度で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約90%の感度で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約95%の感度で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約70%の陽性的中率(PPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約80%の陽性的中率(PPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約90%の陽性的中率(PPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約95%の陽性的中率(PPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約99%の陽性的中率(PPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約80%の陰性的中率(NPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約90%の陰性的中率(NPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約95%の陰性的中率(NPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、データセットは、少なくとも約99%の陰性的中率(NPV)で大腸癌の存在または易罹患性を示す。いくつかの実施形態では、訓練されたアルゴリズムが、少なくとも約0.90の曲線下面積(AUC)で対象の大腸癌の存在または易罹患性を判定する。いくつかの実施形態では、訓練されたアルゴリズムが、少なくとも約0.95の曲線下面積(AUC)で対象の大腸癌の存在または易罹患性を判定する。いくつかの実施形態では、訓練されたアルゴリズムが、少なくとも約0.99の曲線下面積(AUC)で対象の大腸癌の存在または易罹患性を判定する。
【0079】
いくつかの実施形態では、本方法は、レポートをユーザーの電子デバイスのグラフィカルユーザインターフェースに提示する工程をさらに含む。いくつかの実施形態では、ユーザーは、対象、個体、または患者である。
【0080】
いくつかの実施形態では、方法は、対象、個体、または患者における癌の存在または易罹患性の判定の確からしさを判定する工程をさらに含む。
【0081】
いくつかの実施形態では、訓練されたアルゴリズム(例えば、機械学習モデルまたは分類子)は、教師あり機械学習アルゴリズムを含む。いくつかの実施形態では、教師あり機械学習アルゴリズムは、深層学習アルゴリズム、サポートベクターマシン(SVM)、ニューラルネットワーク、またはランダムフォレストを含む。
【0082】
いくつかの実施形態では、方法は、少なくとも部分的にメチル化プロファイルまたは分析に基づく治療的介入、例えば、癌を有する患者を治療するための治療的介入(例えば、化学療法、放射線療法、免疫療法または外科手術)を上記対象に提供する工程をさらに含む。
【0083】
いくつかの実施形態では、方法は、癌の存在または易罹患性をモニタリングする工程をさらに含み、上記モニタリングする工程は、複数の時点での上記対象の癌の存在または易罹患性を評価することを含み、評価することは、複数の時点のそれぞれで決定された癌の存在または易罹患性に少なくとも基づく。
【0084】
いくつかの実施形態では、対象の癌の存在または易罹患性の複数の時点間での評価の差は、(i)対象の癌の存在または易罹患性の診断、(ii)対象の癌の存在または易罹患性の予後、および(iii)対象の癌の存在または易罹患性を処置するための処置過程の有効性または非有効性からなる群から選択される1つ以上の臨床的指標を示す。
【0085】
いくつかの実施形態では、方法は、訓練されたアルゴリズムを使用して、癌の複数の異なる亜型またはステージの中から対象の癌の亜型を決定することによって、対象の大腸癌を階層化する工程をさらに含む。
【0086】
本開示の別の態様は、1つ以上のコンピュータプロセッサによる実行に際し、上記または本明細書の他の場所に記載の方法のいずれかを実行する、機械実行可能コードを含む非一時的なコンピュータ可読媒体を提供する。
【0087】
本開示の別の態様は、1つ以上のコンピュータプロセッサと、それに繋げられるコンピュータメモリとを備えたシステムを提供する。このコンピュータメモリは、1つ以上のコンピュータプロセッサによる実行に際して、上記または本明細書中の他の場所に記載される方法のいずれかを実行する機械実行可能コードを含む。
【0088】
本開示のさらなる態様および利点は、以下の詳細な説明から当業者に容易に明白となり、ここでは、本開示の例示的な実施形態のみが示され、説明されている。理解されるように、本開示は、他の実施形態および異なる実施形態においても可能であり、その様々な詳細は、そのすべてが本開示から逸脱することなく様々な明白な点で修正することができる。このように、図面と記載は性質として例示的なものであり、かつ限定的ではないと見なされるものとする。
【図面の簡単な説明】
【0089】
本開示の例は、ここで、添付の図面を参照して、例示としてのみ記載される。 本発明の新規な特徴を、具体的に添付の特許請求の範囲とともに説明する。本発明の特徴と利点は、本発明の原理が用いられる例示的な実施形態を説明する以下の詳細な説明と、以下の添付図面(本明細書では「図(“Figure”および“FIG.”)」とも称される)とを参照することにより、より良く理解されるであろう。
【0090】
【
図1】本明細書で提供される方法を実施するために機械学習モデルおよび分類子でプログラムまたは構成された、コンピュータシステムの概略図を提供する。
【
図2】
図2は、これら1681領域のベータ値のヒートマップを提供し、これらの領域も同様に起源の腫瘍を決定するために有用なシグナルを含有し得ることを示す。異なる腫瘍型は、大きく異なる群にクラスター化する。
【
図3】
図3は、マルチ癌パネルに含まれる領域のヒートマップを提供する。ヒートマップは、このより小さいサブセットを用いても、異なる癌型の間に適切な分離があることを示す。
【発明を実施するための形態】
【0091】
本発明の様々な実施形態が本明細書中に示され、記載されてきたが、そのような実施形態が一例として提供されているにすぎないことは当業者に明らかであろう。多くの変更、変化、および置換は、本発明から逸脱することなく当業者に理解され得る。本明細書に記載される本発明の実施形態の様々な代案が利用され得ることを理解されたい。
【0092】
本開示は、全般に、癌の検出および疾患のモニタリングに関する。より具体的には、本分野は、早期癌における癌関連DNAメチル化検出および疾患モニタリングに関する。癌のスクリーニングおよびモニタリングは、早期検出により癌が広がる前に除去され得るため、より良好な転帰をもたらすことから、転帰の改善の助けになっている可能性がある。大腸癌の場合には、例えば、結腸内視鏡検査の使用が早期検診を改善する際に役割を果たす場合がある。不運にも、課題は、特に通常のスクリーニングへの低い患者コンプライアンスのために、結腸内視鏡検査に伴って発生する。
【0093】
あらゆるスクリーニングツールの主な問題は、偽陽性結果と偽陰性結果(または特異性および感度)との間の妥協であり得、前者の場合、不必要な調査をもたらし、後者の場合、無効性をもたらす。理想的な試験は、高い陽性予測値(Positive Predictive Value)(PPV)を有し、不必要な調査を最小限に抑えるが、大多数の癌を検出するものであり得る。別の重要要素は「検出感度」である。試験感度とは異なり、検出感度は、腫瘍のサイズに関する検出の下限である。残念ながら、検出に必要なレベルで循環腫瘍マーカーを放出するほど十分大きく腫瘍が成長するのを待つことは、治療が最も効果的である初期段階で腫瘍を治療するという目標と矛盾する可能性がある。したがって、循環分析物に基づく早期癌の有効な血液ベースのスクリーニングが必要とされている。
【0094】
循環腫瘍DNAは、非侵襲的な腫瘍の検出および情報調査のための実行可能な「液体生検」であり得る。循環腫瘍DNAにおける腫瘍特異的変異の同定は、結腸癌、乳癌、および前立腺癌の診断に適用され得る。しかしながら、循環中に存在する正常な(例えば、非腫瘍由来の)DNAの高いバックグラウンドのために、これらの手法は感度が制限され得る。
【0095】
血液中の腫瘍特異的メチル化の検出は、変異の検出を上回る明確な利点を提供し得る。多数の単一または多重メチル化バイオマーカーが、大腸癌、前立腺癌、肺癌、乳癌、膵臓癌、卵巣癌、子宮癌、肝臓癌、食道癌、胃癌、または甲状腺癌を含む癌において評価され得る。これらのバイオマーカーは、腫瘍において不十分に優勢であり得るため、低い感受性が問題となり得る。リスクのある集団における再発および一次スクリーニングにおいて早期または低腫瘍負荷の癌腫瘍シグナルを検出するためのより高感度で特異的なスクリーニングツールが依然として必要とされている。
【0096】
本開示は、細胞増殖性障害および癌の検出、ならびに疾患の進行に関連する遺伝子のメチル化プロファイリングを対象とする方法およびシステムを提供する。
【0097】
一態様では、本開示は、領域または遺伝子内のメチル化の分析に有用なメチル化領域のパネルを使用する方法を提供する。他の態様は、領域、遺伝子、および遺伝子産物の新規な使用、ならびに細胞増殖性障害の検出、区別、および識別を対象とする方法、アッセイ、およびキットを提供する。本明細書に提供される方法および核酸は、腺癌、腺腫、ポリープ、扁平上皮癌、カルチノイド腫瘍、肉腫、およびリンパ腫などの細胞増殖性障害の分析に使用され得る。
【0098】
いくつかの実施形態では、方法は、細胞増殖性障害の区別、検出、および識別のためのマーカーとしてのメチル化領域の1つ以上の遺伝子の使用を含む。いくつかの実施形態では、方法は、本明細書に記載のメチル化領域およびそれらのプロモーターまたは調節エレメントから選択される1つ以上の遺伝子のメチル化状態の分析を含む。
【0099】
本開示の方法およびシステムは、本明細書に記載のメチル化領域およびそれに相補的な配列による、ゲノム配列の1つ以上内のCpGジヌクレオチドのメチル化状態の分析を含み得る。
【0100】
I.定義
明細書と特許請求の範囲で使用される場合、「a(ある・ひとつの)」、「an(ある・ひとつの)」、および「the(その・当該)」は、文脈上他に明確に指示されない限り、複数の言及を含む。例えば、「核酸」という用語は、それらの混合物を含む複数の核酸を含む。
【0101】
本明細書で使用される場合、「対象」という用語は、一般に、試験可能または検出可能な遺伝情報を有する実体または媒体を指す。対象は、ヒト、個体、または患者であり得る。対象は、例えば哺乳動物などの脊椎動物であり得る。哺乳動物の非限定的な例としては、ヒト、サル、家畜、スポーツ用動物、げっ歯類、およびペットが挙げられる。対象は、癌を有するか、または癌を有することが疑われるヒトであり得る。対象は、対象の健康もしくは生理学的状態または状態、例えば対象の癌または他の疾患、障害もしくは状態を示す症状を示していてもよい。代替として、対象は、そのような健康または生理学的状態または状態に関して無症候性であり得る。
【0102】
本明細書で使用される場合、「試料」という用語は、一般に、1人以上の対象から得られるか、または1人以上の対象から誘導される生体試料を指す。生体試料は、無細胞生体試料または実質的に無細胞生体試料であり得るか、または無細胞生体試料を生成するために処理または分画され得る。例えば、無細胞生体試料は、無細胞リボ核酸(cfRNA)、無細胞デオキシリボ核酸(cfDNA)、無細胞胎児DNA(cffDNA)、血漿、血清、尿、唾液、羊水、およびそれらの誘導体を含み得る。無細胞生体試料は、エチレンジアミンテトラ酢酸(EDTA)採取管、無細胞RNA採取管(例えば、StreckR)、または無細胞DNA採取管(例えば、StreckR)を使用して対象から得るかまたは誘導することができる。無細胞生体試料は、分画によって全血試料から誘導され得る。生体試料またはその誘導体は、細胞を含有し得る。例えば、生体試料は、血液試料またはその誘導体(例えば、採血管によって採取された血液または血液滴である)であり得る。
【0103】
本明細書で使用される場合、「核酸」という用語は、一般に、任意の長さのヌクレオチドの重合体形態、デオキシリボヌクレオチド(dNTP)またはリボヌクレオチド(rNTP)のいずれか、あるいはそれらのアナログを指す。核酸は、任意の三次元構造を有してよく、および既知または未知の任意の機能を果たしてよい。核酸の非限定的な例としては、デオキシリボ核酸(DNA)、リボ核酸(RNA)、遺伝子または遺伝子断片のコード領域または非コード領域、連鎖分析から定義される遺伝子座(遺伝子座)、エクソン、イントロン、メッセンジャーRNA(mRNA)、トランスファーRNA、リボソームRNA、短鎖干渉RNA(siRNA)、短鎖ヘアピンRNA(shRNA)、マイクロRNA(miRNA)、リボザイム、cDNA、組換え核酸、分岐核酸、プラスミド、ベクター、任意の配列の単離DNA、任意の配列の単離RNA、核酸プローブ、およびプライマーが挙げられる。核酸は、メチル化されたヌクレオチドおよびヌクレオチドアナログなど、1つ以上の修飾されたヌクレオチドを含み得る。存在する場合、ヌクレオチド構造に対する修飾は、核酸のアセンブリの前または後に行われ得る。核酸のヌクレオチドの配列は、非ヌクレオチド成分によって中断され得る。核酸は、重合後に、レポーター剤とのコンジュゲーションまたは結合などによって、さらに修飾され得る。
【0104】
本明細書で使用する場合、「標的核酸」という用語は、一般に、ヌクレオチド配列を有する核酸分子の出発集団中の核酸分子を指し、そのヌクレオチド配列の存在、量、および/もしくは配列、またはこれらの1つもしくは複数の変化を判定することが所望される。標的核酸は、DNA、RNA、およびそれらのアナログを含む、任意の種類の核酸であり得る。本明細書で使用される場合、「標的リボ核酸(RNA)」は、一般に、RNAである標的核酸を指す。本明細書で使用される場合、「標的デオキシリボ核酸(DNA)」は、一般に、DNAである標的核酸を指す。
【0105】
本明細書で使用される場合、「増幅する」および「増幅」という用語は、一般に、核酸分子のサイズまたは量を増加させることを指す。核酸分子は、一本鎖または二本鎖であり得る。増幅は、核酸分子の1つ以上のコピーまたは「増幅産物」を生成することを含み得る。増幅は、例えば、伸長(例えば、プライマー伸長)またはライゲーションによって実施され得る。増幅は、プライマー伸長反応を行って、一本鎖核酸分子に相補的な鎖を生成すること、および場合によっては、鎖および/または一本鎖核酸分子の1つ以上のコピーを生成することを含み得る。「DNA増幅」という用語は、一般に、DNA分子または「増幅DNA産物」の1つ以上のコピーを生成することを指す。「逆転写増幅」という用語は、一般に、逆転写酵素の作用によるリボ核酸(RNA)鋳型からのデオキシリボ核酸(DNA)の生成を指す。
【0106】
用語「無細胞核酸(cfNA)」は、本明細書で使用される場合、一般に、生体試料中の細胞に含まれない核酸(無細胞RNA(「cfRNA」)または無細胞DNA(「cfDNA」)など)を指す。
【0107】
本明細書で使用される「無細胞試料」という用語は、一般に、無傷細胞を実質的に欠く生体試料を指す。これは、それ自体が実質的に細胞を欠いている生体試料から誘導されてもよく、または細胞が除去された試料から誘導されてもよい。無細胞試料の例としては、血清または血漿などの血液から得られるもの、尿、あるいは、精液、痰、糞便、管滲出液、リンパ液、または回収洗浄液などの他の供給源から得られる試料が挙げられる。
【0108】
本明細書で使用される「循環腫瘍DNA」という用語は、一般に、腫瘍に由来するcfDNAを指す。
【0109】
本明細書で使用される「ゲノム領域」という用語は、一般に、染色体におけるそれらの位置によって同定される核酸の同定された領域を指す。いくつかの例では、ゲノム領域は、遺伝子名によって参照され、核酸のその物理的領域に関連するコード領域および非コード領域を包含する。本明細書で使用される場合、遺伝子は、コード領域(エクソン)、非コード領域(イントロン)、転写制御領域または他の調節領域、およびプロモーターを含む。別の例では、ゲノム領域は、命名された遺伝子内に、イントロンまたはエクソン、あるいはイントロン/エクソン境界を組み込む場合がある。
【0110】
本明細書で使用される「CpGアイランド」または「CGI」という用語は、一般に、(1)約0.6を超える「観測/期待比」に対応するCpGジヌクレオチドの頻度を有する、および(2)約0.5を超える「GC含量」を有する、という基準を満たす、ゲノムDNAの連続領域を指す。CpGアイランドは、高頻度のCpG部位を有して、約0.2~約3キロベース(kb)の長さであり得る。CpGアイランドは、哺乳動物遺伝子の約40%のプロモーターまたはその付近に見出され得る。CpGアイランドは、哺乳動物遺伝子以外にも見出され得る。いくつかの例において、CpGアイランドは、エクソン、イントロン、プロモーター、エンハンサー、インヒビター、および転写調節エレメントにおいて見出される。CpGアイランドは、いわゆる「ハウスキーピング遺伝子」の上流で生じる傾向があり得る。CpGアイランドは、統計的に期待される含量の少なくとも約60%のCpGジヌクレオチド含量を有し得る。遺伝子の5’末端またはその上流におけるCpGアイランドの発生は、転写の調節における役割を反映し得る。遺伝子のプロモーター内のCpG部位のメチル化は、サイレンシングをもたらし得る。メチル化による腫瘍抑制因子のサイレンシングは、今度は、いくつかのヒト癌の特徴であり得る。
【0111】
用語「CpGショア」または「CGIショア」は、本明細書で使用する場合、一般に、メチル化も起こり得るCpGアイランドから短距離に広がる領域を指す。CpGショアは、CpGアイランドの約0~2kb上流および下流の領域において見出され得る。
【0112】
用語「CpGシェルフ」または「CGIシェルフ」は、本明細書で使用する場合、一般に、メチル化も起こり得る、CpGショアから短距離に広がる領域を指す。CpGシェルフは、一般に、CpGアイランドの約2kb~4kb上流および下流の領域に見出され得る(例えば、CpGショアからさらに2kb広がる)。
【0113】
本明細書で使用される「細胞増殖性障害」という用語は、一般に、細胞の乱れたまたは異常な増殖を含む障害または疾患を指す。いくつかの非限定的な例において、障害は、大腸細胞増殖、前立腺細胞増殖、肺細胞増殖、乳房細胞増殖、膵臓細胞増殖、卵巣細胞増殖、子宮細胞増殖、肝細胞増殖、食道細胞増殖、胃細胞増殖、または甲状腺細胞増殖である。いくつかの実施形態では、細胞増殖性障害は、結腸腺癌、肝臓肝細胞癌、肺腺癌、肺扁平上皮癌、卵巣漿液性嚢胞腺癌、膵臓腺癌、前立腺癌、または直腸腺癌である。
【0114】
本明細書で使用される「正常な」または「健康な」という用語は、一般に、細胞増殖性障害を有していない、細胞、組織、血漿、血液、生体試料、または対象を指す。
【0115】
本明細書で使用される「エピジェネティックパラメータ」という用語は、一般に、シトシンメチル化を指す。さらなるエピジェネティックパラメータは、例えば、DNAメチル化と相関し得る、ヒストンのアセチル化を含み得る。
【0116】
用語「遺伝的パラメータ」は、本明細書で使用する場合、一般に、遺伝子調節にさらに必要とされる、遺伝子および配列の変異および多型を指す。変異の例として、挿入、欠失、点変異、逆位、およびSNP(単一ヌクレオチド多型)などの多型が挙げられる。
【0117】
本明細書で使用される「半メチル化」または「ヘミメチル化」という用語は、一般に、回文CpGメチル化部位のメチル化状態を指し、ここで回文CpGメチル化部位の2つのCpGジヌクレオチド配列の1つの中の単一のシトシンのみがメチル化されている(例えば、5’-CCMGG-3’(上の鎖):3’-GGCC-5’(下の鎖))。
【0118】
本明細書で使用される「高メチル化」という用語は、一般に、正常な対照DNA試料中の対応するCpGジヌクレオチドで見出される5-mCの量と比較して、試験DNA試料のDNA配列中の1つ以上のCpGジヌクレオチドでの5-mCの存在の増加に対応する、平均メチル化状態を指す。いくつかの実施形態では、試験DNA試料は、細胞増殖性障害を有する個体に由来する。
【0119】
本明細書で使用される「低メチル化」という用語は、一般に、正常対照DNA試料中の対応するCpGジヌクレオチドで見出される5-mCの量と比較して、試験DNA試料のDNA配列中の1つ以上のCpGジヌクレオチドでの5-mCの存在の減少に対応する平均メチル化状態を指す。いくつかの実施形態では、試験DNA試料は、細胞増殖性障害を有する個体に由来する。
【0120】
本明細書で使用される「メチル化状態」(“methylation state”または“methylation status”)という用語は、一般に、DNA配列内の1つ以上のCpGジヌクレオチドにおける5-メチルシトシン(「5-mC」)の存在または非存在を指す。DNA配列内の1つ以上の特定の回文CpGメチル化部位(各々が2つのCpGジヌクレオチド配列を有する)におけるメチル化状態には、「非メチル化」、「完全メチル化」、および「半メチル化」が含まれる。
【0121】
本明細書で使用される「メチル化シトシン」という用語は、一般に、5’位にメチル基またはヒドロキシメチル官能基を含有する核酸塩基シトシンの任意のメチル化形態を指す。メチル化シトシンは、ゲノムDNAにおける遺伝子転写の調節因子であり得る。この項は、5-メチルシトシン及び5-ヒドロキシメチルシトシンを含み得る。
【0122】
用語「メチル化アッセイ」は、DNAの配列内の1つ以上のCpGジヌクレオチド配列のメチル化状態を判定するための任意のアッセイを指す。
【0123】
用語「微小残存病変」または「MRD」は、癌治療後の体内の少数の癌細胞を指す。MRD検査を実施して、癌治療が機能しているかどうかを判定し、さらなる治療計画を導くことができる。
【0124】
用語「MSP」(メチル化特異的PCR)は、本明細書中で使用される場合、一般に、メチル化アッセイを指し、例えば、Hermanら、Proc. Natl. Acad. Sci. USA 93:9821- 9826, 1996によって、および米国特許5,786,146号によって、記載され、これらの各々の内容は、その全体が参照により本明細書に組み込まれる。
【0125】
本明細書で使用される「メチル化変換された」または「変換された」核酸という用語は、一般に、メチル化シーケンシング用にDNAを変換するために使用される処理を受けた、例えばDNAなどの核酸を指す。変換処理の例としては、試薬ベース(亜硫酸水素塩など)変換、酵素変換、または組合せ変換(TET支援ピリジンボランシーケンシング(TAPS)変換など)が挙げられ、非メチル化シトシンは、PCR増幅またはシーケンシングの前に、ウラシルに変換される。変換処理は、メチル化シトシン塩基と非メチル化シトシン塩基とを鑑別するために、メチルシーケンシング法において使用され得る。
【0126】
本明細書で使用される「癌においてメチル化された領域」という用語は、一般にメチル化部位(CpGジヌクレオチド)を含むゲノムのセグメントを指し、そのメチル化は悪性の細胞状態に関連する。ある領域のメチル化は、2つ以上の異なる型の癌、または1つの型の癌と特異的に関連し得る。さらに、ある領域のメチル化は、2つ以上の癌亜型、または1つの癌亜型と特異的に関連し得る。
【0127】
癌「型」および「亜型」という用語は、一般に、乳癌などの癌の1つの「型」が、例えば、ステージ、形態、組織学、遺伝子発現、受容体プロファイル、変異プロファイル、侵攻性、予後、悪性特性などに基づく「亜型」であり得るように、本明細書では相対的に使用される。同様に、「型」および「亜型」を、より細かいレベルで適用して、例えば変異プロファイルまたは遺伝子発現に従って定義される、例えば1つの組織学的「型」を「亜型」に分化することができる。癌「ステージ」はまた、疾患進行に関する組織学的および病理学的特徴に基づく癌型の分類に言及するために使用される。
【0128】
II.試料のアッセイ
無細胞生体試料は、ヒトの対象から得られるか由来する場合がある。無細胞生体試料は、異なる温度(例えば、室温で、冷蔵または冷凍条件下で、25℃で、4℃で、-18℃で、-20℃で、または-80℃で)または異なる懸濁液(例えば、EDTA収集チューブ、無細胞RNA収集チューブ、または無細胞DNA収集チューブ)などの、処理前の様々な保存条件で保存することができる。
【0129】
無細胞生体試料は、癌を有する対象から、癌を有することが疑われる対象から、あるいは癌を有していないか若しくは有することが疑われない対象から得ることができる。
【0130】
無細胞生体試料は、癌を有する対象の処置の前および/または後に採取され得る。無細胞生体試料は、処置または処置レジメンの間に対象から得られ得る。複数の無細胞生体試料を対象から得て、治療の効果を経時的にモニターすることができる。無細胞生体試料は、臨床試験では決定的な陽性もしくは陰性診断が得られないと知られている癌を有する、または疑われる、対象から採取され得る。試料は、癌を有することが疑われる対象から採取され得る。無細胞生体試料は、疲労、悪心、体重減少、痛みおよび疼痛、衰弱、または出血などの、原因不明の症状を経験している対象から採取され得る。無細胞生体試料は、説明された症状を有する対象から採取され得る。無細胞生体試料は、家族歴、年齢、高血圧もしくは高血圧前症、糖尿病もしくは糖尿病前症、過体重もしくは肥満、環境曝露、ライフスタイルリスク因子(例えば、喫煙、アルコール消費、または薬物使用)、または他のリスク因子の存在などの因子に起因して癌を発症するリスクがある対象から採取され得る。
【0131】
無細胞生体試料は、トランスクリプトームデータを生成するためのアッセイに適した無細胞リボ核酸(cfRNA)分子、ゲノムデータを生成するためのアッセイに適した無細胞デオキシリボ核酸(cfDNA)分子、またはそれらの混合物もしくは組合せなどの、アッセイすることができる1つ以上の分析物を含有し得る。1つ以上のそのような分析物(例えば、cfRNA分子および/またはcfDNA分子)は、1つ以上の好適なアッセイを使用する下流アッセイのために、対象の1つ以上の無細胞生体試料から単離または抽出され得る。
【0132】
対象から無細胞生体試料を得た後、無細胞生体試料を処理して、対象の癌を示すデータセットを生成することができる。例として、癌関連ゲノム遺伝子座のパネルにおける無細胞生体試料の核酸分子の存在、非存在、または定量的評価(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)。対象から得られた無細胞生体試料を処理することは、(i)無細胞生体試料を、複数の核酸分子を単離、濃縮、または抽出するのに十分な条件に供すること、および(ii)複数の核酸分子をアッセイしてデータセットを生成することを含み得る。
【0133】
いくつかの実施形態では、複数の核酸分子を無細胞生体試料から抽出し、シーケンシングに供して、複数のシーケンシングリードを生成する。核酸分子は、リボ核酸(RNA)またはデオキシリボ核酸(DNA)を含み得る。核酸分子(例えば、RNAまたはDNA)は、MP BiomedicalsからのFastDNA KitRプロトコル、QiagenからのQIAampR DNA無細胞生体ミニキット、またはNorgen Biotekからの無細胞生物学的DNA単離キットプロトコルなどの、様々な方法によって、無細胞生体試料から抽出され得る。抽出方法は、試料から全てのRNAまたはDNA分子を抽出することができる。あるいは、抽出方法は、サンプルからRNAまたはDNA分子の一部を選択的に抽出してもよい。試料から抽出されたRNA分子は、逆転写(RT)によってDNA分子に変換され得る。
【0134】
シーケンシングは、大規模並列シーケンシング(MPS)、ペアエンドシーケンシング、ハイスループットシーケンシング、次世代シーケンシング(NGS)、ショットガンシーケンシング、単分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、パイロシーケンシング、合成によるシーケンシング(SBS)、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、およびRNA-Seq(Illumina)などの、任意の適切なシーケンシング方法によって実施することができる。
【0135】
シーケンシングは、核酸増幅(例えば、RNAまたはDNA分子の)を含み得る。いくつかの実施形態では、核酸増幅はポリメラーゼ連鎖反応(PCR)である。適切な回数のPCR(例えば、PCR、qPCR、逆転写酵素PCR、デジタルPCRなど)を実施して、核酸(例えば、RNAまたはDNA)の初期量を、その後のシーケンシングのための所望の投入量まで十分に増幅することができる。いくつかの場合では、PCRは、標的核酸の全体的な増幅のために使用され得る。このことは、最初に異なる分子にライゲーションされ得るアダプター配列を使用し、続いてユニバーサルプライマーを使用してPCR増幅することを含み得る。PCRは、例えば、Life Technologies、Affymetrix、Promega、Qiagenなどによって提供されるいくつかの市販のキットのいずれかを使用して実施することができる。他の場合において、核酸の集団内の特定の標的核酸のみが増幅され得る。特異的プライマーは、おそらくアダプターライゲーションと併せて、下流のシーケンシングのために特定の標的を選択的に増幅するために使用され得る。PCRは、癌に関連するゲノム遺伝子座などの1つ以上のゲノム遺伝子座の標的化増幅を含み得る。シーケンシングは、同時逆転写(RT)およびポリメラーゼ連鎖反応(PCR)、例えば、Qiagen、NEB、Thermo Fisher Scientific、またはBio-RadによるOneStep RT-PCRキットプロトコルの使用を含み得る。
【0136】
無細胞生体試料から単離または抽出されたRNAまたはDNA分子は、複数の試料の多重化を可能にするために、例えば、同定可能なタグでタグ付けされ得る。任意の数のRNAまたはDNA試料を多重化することができる。例えば、多重化反応は、少なくとも約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、または100を超える初期無細胞生体試料に由来するRNAまたはDNAを含有し得る。例えば、複数の無細胞生体試料は、各DNA分子が、DNA分子が由来する試料(および対象)まで追跡され得るように、試料バーコードでタグ付けされ得る。このようなタグは、ライゲーションによって、またはプライマーを用いたPCR増幅によって、RNA分子またはDNA分子に結合され得る。
【0137】
核酸分子をシーケンシングに供した後、適切なバイオインフォマティクス過程を配列リードに対して実施して、癌の存在、非存在、または相対的評価を示すデータを生成することができる。例えば、配列リードは、1つ以上の参照ゲノム(例えば、ヒトゲノムなどの1つ以上の種のゲノム)にアラインメントされ得る。アラインメントされた配列リードは、癌を示すデータセットを生成するために、1つ以上のゲノム遺伝子座において定量化され得る。例えば、癌に関連する複数のゲノム遺伝子座に対応する配列の定量化は、癌を示すデータセットを生成し得る。
【0138】
無細胞生体試料は、いかなる核酸抽出も伴わずに処理され得る。例えば、癌は、複数の癌関連ゲノム遺伝子座に対応する核酸(例えば、RNAまたはDNA)分子を選択的に濃縮するように構成されるプローブを使用することによって、対象において同定またはモニタリングされ得る。プローブは核酸プライマーであってもよい。プローブは、複数の癌関連ゲノム遺伝子座またはゲノム領域のうちの1つ以上に由来する核酸配列との配列相補性を有し得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも約25、少なくとも約30、少なくとも約35、少なくとも約40、少なくとも約45、少なくとも約50、少なくとも約55、少なくとも約60、少なくとも約65、少なくとも約70、少なくとも約75、少なくとも約80、少なくとも約85、少なくとも約90、少なくとも約95、少なくとも約100、またはそれ以上の別個の癌関連ゲノム遺伝子座またはゲノム領域を含み得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、表1~11に列挙される群から選択される1つ以上のメンバー(例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、約25、約30、約35、約40、約45、約50、約55、約60、約65、約70、約75、約80、またはそれ以上)を含み得る。癌関連ゲノム遺伝子座またはゲノム領域は、癌(例えば、大腸癌)の様々なステージまたは亜型と関連し得る。
【0139】
プローブは、1つ以上のゲノム遺伝子座(例えば、癌関連ゲノム遺伝子座)の核酸配列(例えば、RNAまたはDNA)と配列相補性を有する核酸分子(例えば、RNAまたはDNA)であり得る。これらの核酸分子は、プライマーまたは濃縮配列であり得る。1つ以上のゲノム遺伝子座(例えば、癌関連ゲノム遺伝子座)に対して選択的であるプローブを使用する無細胞生体試料のアッセイは、アレイハイブリダイゼーション(例えば、マイクロアレイベース)、ポリメラーゼ連鎖反応(PCR)、または核酸シーケンシング(例えば、RNAシーケンシングまたはDNAシーケンシング)の使用を含み得る。いくつかの実施形態では、DNAまたはRNAは、以下、等温DNA/RNA増幅法(例えば、ループ媒介等温増幅(LAMP)、ヘリカーゼ依存性増幅(HDA)、ローリングサークル増幅(RCA)、リコンビナーゼポリメラーゼ増幅(RPA))、イムノアッセイ、電気化学アッセイ、表面増強ラマン分光法(SERS)、量子ドット(QD)ベースのアッセイ、分子反転プローブ、液滴デジタルPCR(ddPCR)、CRISPR/Casベースの検出(例えば、CRISPRタイピングPCR(ctPCR)、特異的高感度酵素レポーターアンロッキング(SHERLOCK)、DNAエンドヌクレアーゼ標的化CRISPRトランスレポーター(DETECTR)、およびCRISPR媒介アナログマルチイベント記録装置(CAMERA))、およびレーザー透過分光法(LTS)のうちの1つ以上によってアッセイされ得る。
【0140】
アッセイの読み出し値は、1つ以上のゲノム遺伝子座(例えば、癌関連ゲノム遺伝子座)において定量化され、癌を示すデータを生成し得る。例えば、複数のゲノム遺伝子座(例えば、癌関連ゲノム遺伝子座)に対応するアレイハイブリダイゼーションまたはポリメラーゼ連鎖反応(PCR)の定量化は、癌を示すデータを生成し得る。アッセイ読み出し値は、定量的PCR(qPCR)値、デジタルPCR(dPCR)値、デジタル液滴PCR(ddPCR)値、蛍光値など、またはそれらの正規化値を含み得る。アッセイは、家庭環境で実施されるように構成された家庭用試験であり得る。
【0141】
いくつかの実施形態では、複数のアッセイを使用して、対象の無細胞生体試料を同時に処理することができる。例えば、第1のアッセイは、対象から得られるかまたは誘導される第1の無細胞生体試料を処理して、癌を示す第1のデータセットを生成するために使用されてもよく、また、第1のアッセイとは異なる第2のアッセイは、対象から得られるかまたは誘導される第2の無細胞生体試料を処理して、癌を示す第2のデータセットを生成するために使用されてもよい。次いで、第1のデータセットおよび第2のデータセットのいずれかまたはすべてを分析して、対象の癌を評価することができる。例えば、単一の診断指標または診断スコアは、第1のデータセットと第2のデータセットの組合せに基づいて生成することができる。別の例として、第1のデータセットおよび第2のデータセットに基づいて、別個の診断指標または診断スコアを生成することができる。
【0142】
無細胞生体試料は、メチル化特異的アッセイを用いて処理することができる。例えば、メチル化特異的アッセイを用いて、対象の無細胞生体試料中の複数の癌関連ゲノム遺伝子座の各々のメチル化の定量的尺度(例えば、存在、非存在、または相対量を示す)を同定することができる。メチル化特異的アッセイは、対象の血液試料または尿試料(またはその誘導体)などの無細胞生体試料を処理するように構成され得る。無細胞生体試料における癌関連ゲノム遺伝子座のメチル化の定量的尺度(例えば、存在、非存在、または相対量を示す)は、1つ以上の癌を示し得る。メチル化特異的アッセイは、対象の無細胞生体試料中の複数の癌関連ゲノム遺伝子座の各々のメチル化の定量的尺度(例えば、存在、非存在、または相対量を示す)を示すデータセットを生成するために使用され得る。
【0143】
メチル化特異的アッセイは、例えば、メチル化認識シーケンシング(例えば、亜硫酸水素塩処理を使用する)、パイロシークエンシング、メチル化感受性単鎖コンホメーション分析(MS-SSCA)、高分解能融解分析(FIRM)、メチル化感受性単ヌクレオチドプライマー伸長(MS-SnuPE)、塩基特異的切断/MALDI-TOF、マイクロアレイベースのメチル化アッセイ、メチル化特異的PCR、標的化亜硫酸水素塩シーケンシング、酸化的亜硫酸水素塩シーケンシング、質量分析に基づく亜硫酸水素塩シーケンシング、または還元型亜硫酸水素塩配列(RRBS)のうちの1つ以上を含み得る。
【0144】
III.シグネチャーパネル
本開示は、生体試料を分析して、細胞増殖性障害の発症に関連する試料中のDNA中の高メチル化領域の組合せから測定可能な特徴を取得して、領域のシグネチャーパネルを同定するための方法およびシステムを提供する。シグネチャーパネルからの特徴は、細胞増殖性障害を有する個体の集団を層別化するように構成された分類子を作成するために、訓練されたアルゴリズム(例えば、機械学習モデル)を使用して処理され得る。方法は、シーケンシング前に同定された領域内のメチル化CpGジヌクレオチドと非メチル化CpGジヌクレオチドを鑑別可能な試薬または一連の試薬と接触させられる、シグネチャーパネルに記載されるメチル化領域を有する1つ以上の核酸を使用することを特徴とする。
【0145】
本明細書に記載のシグネチャーパネルは、一般に、無細胞核酸試料中で同定され、細胞増殖性障害に関連する、試料中のシトシン塩基におけるメチル化の増加を示す、ゲノムDNAの標的領域のコレクションを指す。シグネチャーパネルの形成は、細胞増殖性障害に関連付けられる特定のメチル化領域の迅速かつ特異的な分析を可能にし得る。本明細書における方法において記載され、採用されるシグネチャーパネルは、癌などの細胞増殖性障害の改善された診断、予後、処置選択、およびモニタリング(例えば、処置モニタリング)のために使用され得る。
【0146】
シグネチャーパネルおよび方法は、全血、血漿、または血清などの体液試料から初期段階の細胞増殖性障害を検出するための現在のアプローチを上回る有意な改善を提供し得る。
【0147】
いくつかの実施形態では、癌においてメチル化された領域は、CpGアイランドを含む。いくつかの実施形態では、癌においてメチル化された領域は、CpGショアを含む。いくつかの実施形態では、癌においてメチル化された領域は、CpGシェルフを含む。いくつかの実施形態では、癌においてメチル化された領域は、CpGアイランドおよびCpGショアを含む。いくつかの実施形態では、癌においてメチル化された領域は、CpGアイランド、CpGショア、およびCpGシェルフを含む。
【0148】
いくつかの実施形態では、癌においてメチル化された領域は、CpGアイランド、ならびにCpGアイランドの約0~4kb上流および下流の配列を含む。癌においてメチル化された領域はまた、CpGアイランド、ならびにCpGアイランドの約0~3kb上流および下流、約0~2kb上流および下流、約0~1kb上流および下流、約0~500塩基対(bp)上流および下流、約0~400bp上流および下流、約0~300bp上流および下流、約0~200bp上流および下流、あるいは約0~100bp上流および下流の配列を含み得る。
【0149】
いくつかの例によれば、癌において高メチル化された領域の選択において、いくつかの設計パラメータが考慮され得る。ある例では、メチル化領域は、約200bp、約300bp、約400bp、または約500bpの長さである。この選択過程のためのデータは、例えば、The Cancer Genome Atlas(TCGA)などの、様々な供給源から得られ、幅広い癌について、例えば、Illumina Infmium HumanMethylation450 BeadChipの使用によって誘導されてもよく、あるいは、例えば、亜硫酸水素塩全ゲノムシーケンシング、または他の方法論に基づいて、他の供給源から得てもよい。いくつかの実施形態では、領域を選択するために「メチル化値」(TCGAレベル3のメチル化データから誘導されてもよく、代わりにβ値から誘導されてもよく、約-0.5~0.5の範囲である)が使用され得る。いくつかの実施形態では、増幅は、正常なものから約-0.3のメチル化値を有する少なくとも1つのメチル化部位を増幅するように設計されたプライマーセットを用いて行われる。メチル化値は、約4などの複数の正常組織試料において確立され得る。メチル化値は、約-0.1、約-0.2、約-0.3、約-0.4、約-0.5、約-0.6、約-0.7、約-0.8、約-0.9、または約-1.0以下であり得る。
【0150】
いくつかの実施形態では、プライマーセットは、癌と正常組織における平均メチル化値の差が、約0.3などの所定の閾値より大きい、少なくとも1つのメチル化部位を増幅するように設計される。いくつかの実施形態では、差は、約0.1、約0.2、約0.3、約0.4、約0.5、約0.6、約0.7、約0.8、約0.9、または約1.0より大きい場合がある。いくつかの例では、この要件を満たす、近接する他のメチル化部位もまた、領域を選択する際に役割を果たし得る。いくつかの実施形態では、プライマーセットは、少なくとも1つのメチル化部位を増幅するプライマーの対であって、少なくとも1つのメチル化部位が約200bp以内でありかつ正常組織から約-0.3のメチル化値を有し、ならびに癌における平均メチル化値と正常組織における平均メチル化値との差が約0.3である、プライマーの対を含む。
【0151】
いくつかの例において、標的領域は、ある領域におけるメチル化が、1人以上の健康な個体(例えば、癌のない個体)から得られるかまたは誘導される試料における同じ領域におけるメチル化よりも大きい場合に選択され得る。そのような選択は、手動でまたは計算的に実行され得る。ある例では、領域は、健康個体由来の試料中の領域よりも、少なくとも約5%、約10%、約15%、約20%、約30%、約40%、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約95%、約100%、または約100%超、多いメチル化を有する場合に選択され得る。別の例では、所定のメチル化CpGカウント閾値における疾患試料中でマッピングされたリードの数が、健康な個体における同じ所定のメチル化CpGカウント閾値を超える場合、領域が選択され得る。健康な試料におけるベースライン閾値として使用されるメチル化CpGカウントは、所与の領域で変化し得るが、その領域にマッピングするリードの数が、健康な試料におけるその領域についてのメチル化CpGカウントのベースライン閾値を超えることは、CpGカウント閾値の変動に関わらず重要な領域を示し得る。
【0152】
いくつかの例では、標的領域は、その部位においてメチル化を有するバリデーションセットにおける試料数に基づいて、増幅のために選択され得る。例えば、領域は、健康な個体からの試料と比較して、試験された疾患個体からの試料の少なくとも約5%、約10%、約15%、約20%、約25%、約30%、約35%、約40%、約45%、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約95%、約96%、約97%、約98%、または約99%においてメチル化の程度が高い場合に選択され得る。領域は、特定の亜型内のものを含めて、試験された腫瘍の少なくとも約75%においてメチル化されている場合に選択され得る。何らかの確認のために、腫瘍由来細胞株を試験に使用することができる。
【0153】
本開示は、本明細書に記載のシグネチャーパネルならびにそれらのプロモーターおよび調節エレメントからなる群から選択される1つ以上の遺伝子の、遺伝的および/またはエピジェネティックパラメータを確認するためのアッセイを行う方法をさらに提供する。いくつかの実施形態では、以下の方法によるアッセイは、本明細書に記載されるシグネチャーパネルからなる群から選択される1つ以上の遺伝子内のメチル化を検出するために使用され、メチル化された核酸は、過剰なバックグラウンドDNAをさらに含む溶液中に存在し、バックグラウンドDNAは、検出されるDNAの濃度の約100~1,000倍、約100~10,000倍、約100~100,000倍、約1,000~10,000倍、約1,000~100,000倍、または約10,000~100,000倍で存在する。いくつかの実施形態において、検出されるDNAの濃度は、バックグラウンドDNA濃度の約100,000倍より高い。いくつかの実施形態では、方法は、対象から得られた核酸試料を少なくとも1つの試薬または一連の試薬(例えば、標的核酸内のメチル化CpGジヌクレオチドと非メチル化CpGジヌクレオチドとを鑑別するもの)と接触させることを含む。
【0154】
本明細書に記載される腫瘍または結腸細胞増殖性障害は、大腸、前立腺、肺、乳房、膵臓、卵巣、子宮、肝臓、食道、胃、または甲状腺の細胞増殖から選択され得る。いくつかの実施形態では、細胞増殖性障害は、結腸腺癌、肝臓肝細胞癌、肺腺癌、肺扁平上皮癌、卵巣重篤嚢胞腺癌、膵臓腺癌、前立腺癌、および直腸腺癌から選択される。
【0155】
A.多組織型癌マーカー検出パネル
情報をもたらすメチル化領域を含むシグネチャーパネルは、意図されるアッセイの目的に従って選択され得る。標的化された方法のために、意図される標的領域のセットに基づいてプライマー対が設計され得る。表1は、癌を表すゲノムメチル化領域を示す。本明細書に記載されるメチル化領域は、例えば、Genome Reference Consortium Human Build 38(GRCh38)(The Cancer Genome Atlas(TCGA))からのヒト参照ゲノムに注釈付けされる。いくつかの実施形態では、領域のセットは、表1に列挙される領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも55、またはそれ以上を含む。いくつかの実施形態では、領域のセットは、表1に列挙される全ての領域を含む。
【0156】
いくつかの実施形態では、異なる癌型の検出に関連付けられるメチル領域のセットは、表1から選択される。
【0157】
いくつかの実施形態では、癌パネルは、表1に列挙される領域の、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも55、またはそれ以上から選択される、領域を含む。いくつかの実施形態では、癌パネルは、表1に列挙される全ての領域を含む。
【0158】
【0159】
【0160】
いくつかの実施形態では、本方法は、メチル化シグナルを定量することをさらに含み、所定の閾値を超える数は、癌などの細胞増殖性障害を表す。いくつかの実施形態では、定量化および比較は、細胞増殖性障害においてメチル化された部位のそれぞれについて独立して行われる。したがって、陽性腫瘍シグナルのカウントを各部位について確立することができる。いくつかの実施形態では、方法は、腫瘍シグナルを含有するシーケンシングリードの割合を判定することをさらに含み、閾値を超える割合は、細胞増殖性障害を表す。いくつかの実施形態では、決定は、細胞増殖性障害においてメチル化された部位のそれぞれについて独立して行われる。
【0161】
「閾値」という用語は、本明細書で使用する場合、一般に、対象の2つの集団を識別する、分離する、または識別するために選択される値を指す。いくつかの実施形態では、閾値は、疾患(例えば、悪性)状態と非疾患(例えば、健康)状態との間でメチル化状態を識別する。いくつかの実施形態では、閾値は、疾患の段階(例えば、ステージ1、ステージ2、ステージ3、またはステージ4)を識別する。閾値は、問題の疾患に従って設定されてもよく、例えば、訓練セットの以前の分析に基づいてもよく、または既知の特性(例えば、健康、疾患、または疾患の段階)を有する入力のセットに対して計算的に決定されてもよい。また、特定の部位におけるメチル化の予測値に応じて、遺伝子領域に対して閾値を設定してもよい。閾値はメチル化部位ごとに異なっていてもよく、複数の部位からのデータが最終分析において組み合わされてもよい。
【0162】
B.起源組織癌マーカー検出パネル
いくつかの実施形態では、前述の方法で、癌パネルは、ある型の癌の起源組織(TOO)に関連するメチル化ゲノム領域を含む。以下のパネルは、生体試料中の腫瘍関連メチル化シグナルの起源組織を判定するための機械学習分類子、方法、およびシステムに組み込まれ得る。
【0163】
i.大腸癌
表2は、由来の大腸組織TCGA分析メチル化領域を示す。いくつかの実施形態では、癌パネルは、表2に列挙される領域の1つ以上を含む。例えば、癌パネルは、表2に列挙されるゲノム領域の、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表2に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0164】
【0165】
表3は、メチル化領域をシーケンシングする、大腸起源組織のメチル化を示す。いくつかの実施形態では、癌パネルは、表3に列挙される領域の1つ以上を含む。例えば、癌パネルは、表3に列挙されるゲノム領域の、少なくとも1つ、少なくとも3つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表3に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0166】
【0167】
表4は、組織データおよびTCGA分析において重複する大腸メチル化領域を示す。いくつかの実施形態では、癌パネルは、表4に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表4に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表4に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。これらの領域は、癌の存在に関連付けられるとともに、大腸組織に関連付けられ、表2および/または表3の領域と組み合わされたとき、大腸癌の検出を支持する。
【0168】
【0169】
ii.肝臓癌
表5は、肝臓起源組織TCGA分析メチル化領域を示す。いくつかの実施形態では、癌パネルは、表5に挙げられた領域の1つ以上を含む。例えば、癌パネルは、表5に列挙されるゲノム領域の、少なくとも1つ、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表5に挙げられたゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0170】
【0171】
表6は、メチル化領域をシーケンシングする、起源組織が肝臓組織のメチル化示す。いくつかの実施形態では、癌パネルは、表6に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表6に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表6に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0172】
【0173】
表7は、組織データとTCGA分析において重複する肝臓メチル化領域を示す。いくつかの実施形態では、癌パネルは、表7に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表7に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも7つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表7に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。これらの領域は、癌の存在に関連付けられるとともに、肝臓組織に関連付けられ、表5および/または表6の領域と組み合わされたとき、肝臓癌の検出を支持する。
【0174】
【0175】
iii.肺癌
表8は、肺起源組織のTCGA分析のメチル化領域を示す。いくつかの実施形態では、癌パネルは、表8に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表8に列挙されるゲノム領域の、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも8つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表8に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも8つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0176】
【0177】
表9は、組織データおよびTCGA分析において重複する肺メチル化領域を示す。いくつかの実施形態では、癌パネルは、表9に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表9に列挙されるゲノム領域の、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも9つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表9に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも9つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。これらの領域は、癌の存在に関連付けられるとともに、肺組織に関連付けられ、表8の領域と組み合わされたとき、肺癌の検出を支持する。
【0178】
【0179】
iv.卵巣癌
表10は、卵巣起源組織のTCGA分析のメチル化領域を示す。いくつかの実施形態では、癌パネルは、表10に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表10に列挙されるゲノム領域の、少なくとも1つ、少なくとも2、少なくとも3、少なくとも4つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表10に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、またはすべてから選択される配列を対象とする。
【0180】
【0181】
表11は、メチル化領域をシーケンシングする、起源組織が卵巣組織のメチル化示す。いくつかの実施形態では、癌パネルは、表11に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表11に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも11つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表11に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも11つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0182】
【0183】
表12は、組織データおよびTCGA分析において重複する卵巣のメチル化領域を示す。いくつかの実施形態では、癌パネルは、表12に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表12に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも12つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表12に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも12つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。これらの領域は、癌の存在に関連付けられ得るとともに、卵巣組織に関連付けられ得、表10および/または表11の領域と組み合わされたとき、卵巣癌の検出を支持する。
【0184】
【0185】
v.膵臓癌
表13は、メチル化領域をシーケンシングする、起源組織が膵臓組織のメチル化示す。いくつかの実施形態では、癌パネルは、表13に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表13に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも13つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表13に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも13つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0186】
【0187】
表14は、組織データおよびTCGA分析において重複する膵臓メチル化領域を示す。いくつかの実施形態では、癌パネルは、表14に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表14に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも14つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表14に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも14つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。これらの領域は、癌の存在に関連付けられるとともに、膵臓組織に関連付けられ、表13の領域と組み合わされたとき、膵臓癌の検出を支持する。
【0188】
【0189】
vi.前立腺癌
表15は、前立腺組織起源組織のTCGA分析のメチル化領域を列挙する。いくつかの実施形態では、癌パネルは、表15に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表15に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも15つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表15に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも15つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0190】
【0191】
表16は、メチル化領域をシーケンシングする、起源組織が前立腺組織のメチル化を列挙する。いくつかの実施形態では、癌パネルは、表16に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表16に列挙されるゲノム領域の、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも16つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表16に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも16つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。
【0192】
【0193】
表17は、組織データとTCGA分析において重複する前立腺メチル化領域を示す。いくつかの実施形態では、癌パネルは、表17に列挙される領域のうちの1つ以上を含む。例えば、癌パネルは、表17に列挙されるゲノム領域の少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも17つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてを含む。いくつかの実施形態では、プローブのセットは、表17に列挙されるゲノム領域の少なくとも1つ、少なくとも3つ、少なくとも6つ、少なくとも4つ、少なくとも5つ、少なくとも17つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、またはすべてから選択される配列に向けられる。これらの領域は、癌の存在に関連付けられるとともに、前立腺組織に関連付けられ、表15および/または表16の領域と組み合わされたとき、前立腺癌の検出を支持する。
【0194】
【0195】
ある態様では、本開示は、生物学的特徴を示すメチル化シグネチャを同定するための方法を提供し、該方法は、細胞増殖性障害状態に関連する複数のゲノムメチル化データセットを含む集団についてのデータを取得する工程であって、前記ゲノムメチル化データセットの各々が、対応する試料についての生物学的情報に関連付けられる、取得する工程と、メチル化データセットを、生物学的特徴を有する1つの組織または細胞型に対応する第1の群と、生物学的特徴を有していない複数の組織または細胞型に対応する第2の群とに分離する工程と、第1の群からのメチル化データを第2の群からのメチル化データと、ゲノム全体にわたって部位ごとに照合する工程と、第1の群と第2の群との間の差次的メチル化を確立するための所定の閾値を満たすCpG部位のセットを、ゲノム全体にわたって部位ごとに同定する工程と、CpG部位のセットを使用して、所定の先述の基準を満たす、約30~300bp内に少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つを超える差次的にメチル化されたCpGを含む標的ゲノム領域を同定して、細胞増殖性障害の存在に関連付けられる生物学的特徴を示すメチル化シグネチャを提供する差次的にメチル化されたゲノム領域を同定する工程と、を含む。
【0196】
いくつかの例では、標的ゲノム領域は、約30~150bp、約40~150bp、約50~150bp、約75~150bp、約100~150bp、約150~300bp、約150~250bp、約150~200bp、約200~300bp、または約250~300bpの長さを有する領域内に、少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つを超える差次的にメチル化されたCpG部位を含む。
【0197】
いくつかの例では、標的ゲノム領域は、少なくとも4つの差次的にメチル化されたCpG部位、少なくとも5つの差次的にメチル化されたCpG部位、少なくとも6つの差次的にメチル化されたCpG部位、少なくとも7つの差次的にメチル化されたCpG部位、少なくとも8つの差次的にメチル化されたCpG部位、少なくとも9つの差次的にメチル化されたCpG部位、少なくとも10の差次的にメチル化されたCpG部位、少なくとも12の差次的にメチル化されたCpG部位、または少なくとも15個の差次的にメチル化されたCpG部位を含む。
【0198】
いくつかの実施形態では、方法は、生物学的形質を有する少なくとも1つの独立した試料由来のDNAおよび生体試料を有していない少なくとも1つの独立した試料由来のDNAを使用して、伸長された標的ゲノム領域内の差次的メチル化について試験することによって、伸長された標的ゲノム領域を検証する工程をさらに含む。
【0199】
いくつかの実施形態では、同定する工程は、CpG部位のセットを、対照試料由来の末梢血単核細胞との差次的メチル化をさらに示すCpG部位に限定する工程をさらに含む。
【0200】
いくつかの実施形態では、所定の閾値は、第1の群における少なくとも約50%のメチル化である。
【0201】
いくつかの実施形態では、所定の閾値は、第1の群と第2の群との間の平均メチル化の少なくとも約0.3の差である
【0202】
いくつかの実施形態では、生物学的形質は悪性腫瘍を含む。
【0203】
いくつかの実施形態では、生物学的形質は癌型を含む。
【0204】
いくつかの実施形態では、生物学的形質は癌ステージを含む。
【0205】
いくつかの実施形態では、生物学的形質は癌分類を含む。
【0206】
いくつかの実施形態では、癌分類は癌悪性度(grade)を含む。
【0207】
いくつかの実施形態では、癌分類は、組織学的分類を含む。
【0208】
いくつかの実施形態では、生物学的形質は、代謝プロファイルを含む。
【0209】
いくつかの実施形態では、生物学的形質は変異を含む。
【0210】
いくつかの実施形態では、変異は疾患関連変異である。
【0211】
いくつかの実施形態では、生物学的形質は臨床転帰を含む。
【0212】
いくつかの実施形態では、生物学的形質は、薬物応答を含む。
【0213】
いくつかの実施形態では、方法は、伸長された標的ゲノム領域の部分を増幅するように複数のPCRプライマー対を設計する工程をさらに含み、各部分は、少なくとも1つの差次的にメチル化されたCpG部位を含む。
【0214】
いくつかの実施形態では、複数のプライマー対の設計は、シトシンからウラシルへの変換をシミュレートするために非メチル化シトシンウラシルを変換することと、変換された配列を使用してプライマー対を設計することとを含む。
【0215】
いくつかの実施形態では、プライマー対は、メチル化バイアスを有するように設計される。
【0216】
いくつかの実施形態では、プライマー対はメチル化特異的である。
【0217】
いくつかの実施形態では、プライマー対は、その中にメチル化状態への選好性を持たないCpG残基を有していない。
【0218】
ある態様では、本開示は、メチル化シグネチャに特異的なプライマー対を合成するための方法であって、本開示の方法を実施し、設計されたプライマー対を合成する工程を含む、方法を提供する。
【0219】
IV.核酸変換およびメチル化シーケンシング
A.核酸処理
核酸配列中のメチル化シトシンを非メチル化シトシンから判別するための核酸塩基の化学ベースおよび酵素ベースの変換を含む様々な方法が、メチル化シーケンシングのために利用可能である。これらのアッセイは、DNA配列内の1つ以上のCpGジヌクレオチド(例えば、CpGアイランド)のメチル化状態の決定を可能にする。このようなアッセイは、技術の中でとりわけ、亜硫酸水素塩処理DNAまたは酵素処理DNAのDNAシーケンシング、ポリメラーゼ連鎖反応(PCR)(配列特異的増幅用)、定量的PCR(qPCR)、またはデジタル液滴PCR(ddPCR)、サザンブロット分析を含み得る。様々な例において、生体試料中のDNAは、5’位でメチル化されていないシトシン塩基が、ウラシル、チミン、またはハイブリダイゼーション挙動の点でシトシンに類似しない別の塩基に変換されるようなやり方で処理される。この過程は、「変換」と呼ばれ得る。
【0220】
いくつかの実施形態では、試薬が、5’位でメチル化されていないシトシン塩基を、ウラシル、チミン、またはハイブリダイゼーション挙動の点でシトシンに類似しない別の塩基に変換する。
【0221】
DNAの亜硫酸水素塩修飾は、一般に、CpGメチル化状態を評価するために使用されるツールを指す。5-メチルシトシンの存在についてDNAを分析するための方法は、亜硫酸水素塩とシトシンとの反応に基づき得、それにより、その後のアルカリ脱スルホン化時に、シトシンは、塩基対形成挙動に関してチミンに対応するウラシルに変換される。例えば、ゲノムシーケンシングは、亜硫酸水素塩処理を使用することによって、DNAメチル化パターンの分析および5-メチルシトシン分布に適合され得る(例えば、Frommer et al.,Proc. Natl. Acad. Sci. USA 89:1827-1831, 1992によって記載されるとおりであり、その内容は参照により本明細書に組み込まれる)。しかしながら、重要なことに、5-メチルシトシンは、これらの条件下で未修飾のままであり得る。結果として、元のDNAは、もともとハイブリダイゼーション挙動によってシトシンと鑑別することができなかったメチルシトシンが、様々な分子生物学的技術を使用して、例えば、増幅およびハイブリダイゼーションによって、またはシーケンシングによって、唯一の残存シトシンとして検出され得るようなやり方で、変換され得る。様々な例において、他の試薬が、メチル化シーケンシングに有用な亜硫酸水素塩修飾と同じ結果に影響を及ぼし得る。
【0222】
直接シーケンシング法は、全ゲノム亜硫酸水素塩シーケンシング(WGBS)または標的化亜硫酸水素塩シーケンシングで有用なPCRで増幅された亜硫酸水素塩処理DNAを使用し得る。
【0223】
標的化亜硫酸水素塩シーケンシングは、部位特異的DNAメチル化変化を評価するために使用される商業的に利用可能なNGS法である。プローブは、鎖特異的ならびに亜硫酸水素塩特異的であるように設計され得る。メチル化配列および非メチル化配列の両方が増幅され得る。この過程は、パイロシーケンシングと同様であり得るが、全体的にはるかに高いスループットを提供し得る。いくつかの実施形態では、次世代シーケンシングプラットフォームを使用して、大量の有用なDNAメチル化情報(例えば、EPIGENTEK,Farmingdale,NYおよびZYMO RESEARCH,Irvine, CA)を送達する。DNA中の個々のシトシンの一塩基分解能でのメチル化分析は、DNAの亜硫酸水素塩処理、その後の標的領域のPCR増幅、ライブラリ構築、およびアンプリコン領域のシーケンシングによって促進され得る。目的の領域に対して特異的プライマーを設計してもよく、その領域内でシトシンメチル化変化を評価してもよい。目的の各DNAメチル化部位は、正確で、定量的で、単一塩基分解能のデータ出力のために、高シーケンシングカバレッジ深度で評価され得る。
【0224】
酵素的メチルシーケンシング(EM-seq)は、メチローム分析のための核酸の酵素的変換に依存し得る。EM-seqライブラリを生成する過程は、亜硫酸水素塩シーケンシングと同じようにDNAに損傷を与えない可能性がある。EM-seqライブラリは、全DNA投入量に対してより少数のPCRサイクルを使用するにもかかわらず、より高いPCR収量をもたらす場合があり、全ゲノム亜硫酸水素塩シーケンシング(WGBS)と比較して、酵素処理およびライブラリ調製の間に失われるDNAがより少ないことを示す。削減されたPCRサイクルは、その代わり、より複雑なライブラリに翻訳されて、シーケンシングの間のPCR複製がより少ない場合がある。EM-seqライブラリはまた、WGBSよりも大きい平均挿入サイズを有し得、これは、DNAが無傷のままであるという事実をさらに支持する。EM-seqワークフローにおいて、TET2は、5-mCおよび5-hmCを酸化し、次の操作におけるAPOBECによる脱アミノ化からの保護を提供する。対照的に、非修飾シトシンは、脱アミノ化されてウラシルになり得る。いくつかの実施形態では、標的化された方法は、核酸の酵素的変換(TEM-seq)を含む。いくつかの実施形態では、メチル化シーケンシング法は、5-mCおよび5-hmCの同定に有用であり得るNEBNEXTR Enzymatic Methyl-seq(New England Biolabs, Ipswich, MA)を用いて達成され得る。
【0225】
別の例では、5-hmCはまた、TET支援亜硫酸水素塩シーケンシング(TAB-seq)(WiseGene;Illumina)(例えば、Yu, M., et al. (2012). Nat. Protoc. 7, 2159-2170によって記載されるとおりであり、その内容は参照により本明細書に組み込まれる)を使用して検出され得る。断片化されたDNAは、亜硫酸水素ナトリウムを添加する前に、順に、T4ファージβ-グルコシルトランスフェラーゼ(T4-BGT)、次いでTen-11evenトランスロケーション(TET)ジオキシゲナーゼ処理を使用して酵素的に修飾され得る。T4-BGTを用いて5-hmCをグルコシル化してβ-グルコシル-5- ヒドロキシメチルシトシン(5-ghmC)を形成し、次いでTETを用いて5-mCを5-caCに酸化する。5-ghmCのみが亜硫酸水素ナトリウムによるその後の脱アミノ化から保護され、このことは、5-ghmCがシーケンシングによって5-mCと鑑別されることを可能にする。
【0226】
酸化的亜硫酸水素塩シーケンシング(oxBS)は、5-mCと5-hmCとを鑑別する別の方法を提供する(例えば、Booth, M. J., et al., 2012 Science 336: 934-937により記載されるとおりであり、その内容は参照により本明細書に組み込まれる)。酸化試薬である過ルテニウム酸カリウムは、5-hmCを5-ホルミルシトシン(5-fC)に変換し、その後の亜硫酸水素ナトリウム処理は、5-fCをウラシルに脱アミノ化する。5-mCは変化されないままであり、したがってこの方法を用いて同定することができる。
【0227】
APOBEC結合エピジェネティックシークエンシング(ACE-seq)は、亜硫酸水素塩変換を完全に排除し、酵素変換に依存して5-hmCを検出する(例えば、Schutsky, E.K., et al., Nat. Biotechnol., 2018 Oct 8により記載されるとおりであり、その内容は参照により本明細書に組み込まれる)。この方法により、T4-BGTは5-hmCを5-ghmCにグルコシル化し、これは5-hmCをアポリポタンパク質B mRNA編集酵素サブユニット3A(APOBEC3A)による脱アミノ化から保護する。シトシン。5-mCをAPOBEC3Aによって脱アミノ化し、チミンとしてシーケンシングする。5-mCはAPOBEC3Aによる脱アミノされ、チミンとして順番に並べられる。
【0228】
別の例では、亜硫酸水素塩を含まない塩基レベル分解能シーケンシング法、TET支援ピリジンボランシーケンシング(TAPS)が、5-mCおよび5-hmCの検出に使用され得る。TAPSは、5-mCおよび5-hmCの5-カルボキシルシトシン(5-caC)への10-11転位(TET)酸化を、5-caCのジヒドロウラシル(DHU)へのピリジンボラン還元と組合せる。その後のPCRは、DHUをチミンに変換し、5-mCおよび5-hmCのCからTへの移行を可能にする。TAPSは、非修飾シトシンに影響を及ぼすことなく、高い感度および特異性で修飾を直接検出する(例えば、Liu, Y., et al. NatBiotechnol. 2019 Apr; 37(4): 424- 429により記載されるとおりであり、その内容は参照により本明細書に組み込まれる)。
【0229】
TET支援5-メチルシトシンシーケンシング(TAmC-seq)は、5-mC遺伝子座を濃縮し、2つの連続的な酵素反応とそれに続く親和性プルダウンを利用する(Zhang,L.2013,Nat Commun 4:1517)。断片化されたDNAを、グルコシル化によって5-hmCを保護するT4-BGTで処理する。次いで、酵素mTET1を用いて5-mCを5-hmCに酸化し、T4-BGTは、改変グルコース部分(6-N3-グルコース)を用いて新たに形成された5-hmCを標識する。クリックケミストリーを使用して、ビオチンタグを導入することができ、検出およびゲノムワイドプロファイリングのために、5-mC含有DNA断片を濃縮することが可能となる。
【0230】
B.次世代シーケンシング
いくつかの実施形態では、シーケンシングリードの生成は、次世代シーケンシング(NGS)によって行われる。NGSは、所与の領域について高い深度の読み取りを達成することを可能にし得る。このようなハイスループットの方法には、例えば、Illumina(Solexa)シーケンシング、DNB-Sequencer T7またはG400(MGI Tech Co.,Ltd)、GenapS ysシーケンシング(GenapS ys,Inc.)、Roche 454シーケンシング(Roche sequencing Solutions,Inc.)、Ion Torrentシーケンシング(Thermo Fisher Scientific)、およびSOLiDシーケンシング(Thermo Fisher Scientific)が含まれる。シーケンシングリードの数は、DNAインプット量および分析に必要なデータの深度に応じて調整され得る。
【0231】
いくつかの実施形態では、シーケンシングリードの生成は、複数の患者から得られた試料について同時に実施され、無細胞核酸断片は、各患者についてバーコード化される。シーケンシングリードの同時生成は、1回のシーケンシングランにおける複数の患者の並行分析を可能にする。
【0232】
別の態様では、本開示は、前述の方法を実施するための試薬と、腫瘍シグナルを検出するための指示書とを含む、腫瘍を検出するためのキットを提供する。試薬は、例えば、プライマーセット、PCR反応成分、および/またはシーケンシング試薬を含み得る。
【0233】
C.標的シーケンシング(Targeted Sequencing)
標的メチル化シーケンシングアプローチでは、cfDNAなどの生体試料中の標的領域を分析して、標的遺伝子配列のメチル化状態を判定することができる。いくつかの実施形態では、標的領域は、目的の標的領域の連続するヌクレオチド、例えば、目的の標的領域の少なくとも約16個の連続するヌクレオチドを含むか、またはストリンジェントな条件下で約16個の連続するヌクレオチドにハイブリダイズする。異なる例において、標的シーケンシングは、ハイブリダイゼーション捕捉およびアンプリコンシーケンシングアプローチを用いて達成され得る。
【0234】
D.ハイブリダイゼーション捕捉
本明細書で提供されるハイブリダイゼーション方法は、溶液中ハイブリダイゼーションおよび固体支持体上でのハイブリダイゼーション(例えば、ノーザン、サザン、および膜ハイブリダイゼーション、マイクロアレイ、および細胞/組織スライド上でのin situハイブリダイゼーション)などの、核酸ハイブリダイゼーションの様々な形式で使用することができる。特に、本方法は、標的化次世代シーケンシングにおいて用いられる特定の型のゲノムDNA配列(例えば、エクソン)の標的濃縮のための溶液中ハイブリッド捕捉に適している。ハイブリッド捕捉アプローチの場合、無細胞核酸試料をライブラリ調製にかけられる場合がある。本明細書で使用される場合、「ライブラリ調製」は、末端修復、A-テーリング、アダプターライゲーション、またはその後のDNAのシーケンシングを可能にするために無細胞DNAに対して行われる任意の他の調製を含む。ある例では、調製された無細胞核酸ライブラリ配列は、無細胞核酸試料分子上にライゲーションされるアダプター、配列タグ、またはインデックスバーコードを含有する。様々な市販のキットを使用して、次世代シーケンシングアプローチのためのライブラリ調製を容易にすることができる。次世代シーケンシングライブラリ構築は、ハイスループットシーケンシングのための特異的サイズのDNA断片のランダムコレクションを生成するためのコーディネートされた一連の酵素反応を使用して核酸標的を調製することを含み得る。様々なライブラリ調製技術の進歩および開発により、次世代シーケンシングの適用が、トランスクリプトミクスおよびエピジェネティクスなどの分野に拡大している。
【0235】
シーケンシング技術の改善は、ライブラリ調製の変更および改善をもたらした。Agilent、Bioo Scientific、Kapa Biosystems、New England Biolabs、Illumina、Life Technologies、Pacific Biosciences、およびRoche等の企業によって開発された次世代シーケンシングライブラリ調製キットは、最新のNGS機器技術との適合性を確実にする、種々の分子生物学反応への整合性および再現性を提供し得る。
【0236】
標的捕捉遺伝子パネルの様々な例において、様々なライブラリ調製キットを、Nextera Flex(Illumina)、IonAmpliseq(Thermo Fisher Scientific)、Genexus(Thermo Fisher Scientific)、Agilent ClearSeq(Illumina)、Agilent SureSelect Capture(Illumina)、Archer FusionPlex(Illumina)、BiooScientific NEXTflex(Illumina)、IDT xGen(Illumina)、Illumina TruSight(Illumina)、Nimblegene SeqCap(Illumina)、およびQiagen GeneRead(Illumina)から選択することができる。
【0237】
いくつかの実施形態では、ハイブリッド捕捉法は、特異的プローブを使用して調製されたライブラリ配列に対して実施される。いくつかの実施形態では、「特異的プローブ」という用語は、本明細書で使用する場合、一般に、既知のメチル化部位に特異的なプローブを指す。いくつかの実施形態では、特異的プローブは、ヒトゲノムを参照配列として使用することと、メチル化部位を有することが知られている特定のゲノム領域を標的配列として使用することに基づいて、設計される。具体的には、メチル化部位を有することが知られているゲノム領域は、プロモーター領域、CpGアイランド領域、CGIショア領域、およびインプリント遺伝子領域のうちの少なくとも1つを含み得る。したがって、いくつかの実施形態の特異的プローブを用いてハイブリッド捕捉を実施する場合、標的配列に相補的な試料ゲノム内の配列、例えば、メチル化部位を有するが知られている試料ゲノム内の領域(本明細書では「特定ゲノム領域」とも呼ばれる)を効率的に捕捉することができる。
【0238】
いくつかの実施形態では、本明細書に記載されたメチル化領域は、特異的プローブを設計するために使用される。いくつかの実施形態では、特異的プローブは、例えば、eArrayシステムなどの商業的に入手可能な方法を用いて設計される。プローブの長さは、所望のメチル化領域に十分な特異性でハイブリダイズするのに十分な長さであり得る。様々な例では、プローブは、10量体、11量体、12量体、13量体、14量体、15量体、16量体、17量体、18量体、19量体、または20量体である。
【0239】
表1~17に列挙される領域は、データベースリソース(遺伝子オントロジーなど)を使用してスクリーニングすることができる。相補的塩基対の原理によれば、標的領域を首尾よく捕捉するために、一本鎖の捕捉プローブが、一本鎖の標的配列と相補的に組み合わされ得る。いくつかの実施形態では、設計されたプローブは、固体捕捉チップ(プローブが固体支持体上に固定されている)として、または液体捕捉チップ(プローブが液体中で遊離している)として設計され得るが、プローブ長、プローブ密度、高コストなどの、様々な因子に制限され得る。固体捕捉チップはほとんど使用されないが、液体捕捉チップはより頻繁に使用される。
【0240】
いくつかの実施形態では、正常な配列(ここでA、T、CおよびG基礎構造の平均含有量は、各々それぞれ25%である)と比較して、核酸におけるGCに富んだ配列(ここでGCの塩基の含有量は60%以上である)は、CとGの塩基の分子構造のために捕捉効率の還元に結びつく場合がある。重要な研究領域のために、例えば、十分かつ正確なCGIデータを得るためにプローブの使用量を増やす設計のCGI領域(CpGアイランド)が、推奨される。
【0241】
E.アンプリコンに基づくシーケンシング
変換されたDNAの断片が増幅される場合がある。いくつかの実施形態では、増幅は、少なくとも1つのメチル化部位を有するメチル化変換標的配列にアニールするように設計されたプライマーを用いて実施される。メチル化シーケンシング変換により、メチル化されていないシトシンはウラシルに変換され、5-メチルシトシンは影響を受けない。「変換された標的配列」は、したがって、メチル化部位であることが知られているシトシンが「C」(シトシン)として固定されているのに対し、メチル化されていないことが知られているシトシンが「U」(ウラシル;プライマー設計の目的で「T」(チミン)として扱われてもよい)として固定されている配列をこともある配列として、理解されてもよい。
【0242】
様々な例では、DNAの供給源は、全血、血漿、血清から得られた無細胞DNA、または細胞あるいは組織から抽出されたゲノムDNAであり得る。いくつかの実施形態では、増幅された断片のサイズは、約100~200塩基対の長さである。いくつかの実施形態では、DNA源は、細胞源(例えば、組織、生検、または細胞株)から抽出され、増幅された断片の大きさは、長さが約100~350塩基対の長さである。いくつかの実施形態では、増幅された断片は、少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つを超えるCpGジヌクレオチドを含む少なくとも1つの20塩基対配列を含んでいる。増幅は、本開示によるプライマーオリゴヌクレオチドのセットを使用して実施されてもよく、熱安定性ポリメラーゼを使用してもよい。複数のDNAセグメントの増幅は、1つの同じ反応容器で同時に実施されてもよい。方法のいくつかの実施形態では、2つ以上の断片が同時に増幅される。例えば、増幅は、ポリメラーゼ連鎖反応(PCR)を用いて実施されてもよい。
【0243】
そのような配列を標的とするように設計されたプライマーは、変換されたメチル化配列に対してある程度の偏りを示すことがある。いくつかの実施形態では、PCRプライマーは、標的化メチル化シーケンシング用途にメチル化特異的であるように設計され、いくつかの用途において、より高い感度を可能にし得る。例えば、プライマーは、PCR用途において、最適な識別を達成するように配置された特徴的なヌクレオチド(亜硫酸水素塩変換後のメチル化配列に特異的)を含むように設計されてもよい。特徴的なヌクレオチドは、3’最終位置または最後から二番目の位置に配置されてもよい。
【0244】
プライマーは、循環DNAの一般的なサイズ範囲に基づいてDNA断片を増幅するように設計され得る。標的サイズを考慮に入れるようにプライマー設計を最適化することは、この例による方法の感度を増加させ得る。いくつかの実施形態では、プライマーは、75~350bp長のDNA断片を増幅するように設計される。プライマーは、約50~200、約75~150、または約100あるいは125bpである領域を増幅するように設計されてもよい。
【0245】
方法のいくつかの実施形態では、核酸配列内の予め選択されたCpG位置のメチル化状態は、メチル化特異的プライマーオリゴヌクレオチドを使用するアンプリコンベースのアプローチによって検出され得る。亜硫酸水素塩処理されたDNAを増幅するためにメチル化状態特異的なプライマーを使用することは、メチル化された核酸とメチル化されていない核酸との区別を可能にする。MSPプライマー対は、変換されたCpGジヌクレオチドにハイブリダイズする少なくとも1つのプライマーを含む。したがって、前記プライマーの配列は、少なくとも1つのCpG、TpG、またはCpAジヌクレオチドを含む。メチル化されていないDNAに特異的なMSPプライマーは、CpG中のC位置の3’位置に「T」を含む。したがって、プライマーの塩基配列は、あらかじめ処理された核酸配列およびそれに相補的な配列にハイブリダイズする少なくとも18ヌクレオチドの長さを有する配列でもよく、ここで上述のオリゴマーの塩基配列は少なくとも1つのCpG、TpG、またはCpAのジヌクレオチドを含む。本方法のいくつかの実施形態では、MSPプライマーは、2~5個のCpG、TpG、またはCpAのジヌクレオチドを含み得る。いくつかの実施形態では、ジヌクレオチドは、プライマーの3’半分内に位置し、例えば、長さ18塩基のプライマーでは、指定されたジヌクレオチドは、分子の3’末端から最初の9塩基内に位置する。CpG、TpG、またはCpAのジヌクレオチドに加えて、プライマーは、複数のメチル変換された塩基(例えば、シトシンがチミンに変換されたもの、または、ハイブリダイズされる鎖上では、グアニンがアデノシンに変換されたもの)をさらに含んでもよい。いくつかの実施形態では、プライマーは、2つ以下のシトシンまたはグアニン塩基を含むように設計される。
【0246】
いくつかの実施形態では、領域の各々は、複数のプライマー対を用いて区間で増幅される。いくつかの実施形態では、これらの区間は重複しない。区間は隣接していても間隔を空けて配されてもよい(例えば、10、20、30、40、または50bpの間隔を空ける)。標的領域(CpGアイランド、CpGショア、および/またはCpGシェルフを含む)が通常、75~150bpよりも長いため、この例では、所定の標的領域のより多く(またはすべて)にわたる部位のメチル化状態の余地がある。
【0247】
プライマーは、Primer3、Primer3Plus、Primer-BLASTなどの適切なツールを使用して、標的領域のために設計され得る。上述のように、亜硫酸水素塩変換は、シトシンがウラシルに変換し、5’-メチル-シトシンがチミンに変換する。したがって、プライマーの位置決めまたは標的化は、必要とされるメチル化の特異性の程度に応じて、亜硫酸水素塩変換されたメチル化配列を利用することができる。
【0248】
増幅のための標的領域は、少なくとも10のCpGジヌクレオチドメチル化部位を有するように設計され得る。しかしながら、いくつかの例では、10を超えるCpGメチル化部位を有する領域の増幅が有利であり得る。例えば、300bp長の配列リードは、細胞増殖性障害に関連付けられる核酸試料においてメチル化される約10、20、30、40、または50のCpGメチル化部位を有し得る。様々な例において、表1~17において同定されるメチル化領域は、細胞増殖性障害に関連する核酸試料においてメチル化される25、50、100、200、300、400、または500のCpGメチル化部位を有し得る。いくつかの実施形態では、プライマーは、標的領域に3~20個のCpGメチル化部位を含むDNA断片を増幅するように設計される。全体として、このアプローチは、より多数のメチル化部位がシングルシーケンシングリード内で検索されることを可能にし得、複数の一致したメチル化がシングルシーケンシングリード内で検出され得るため、さらなる確実性(偽陽性の排除)を提供し得る。いくつかの実施形態では、腫瘍シグナルは、表1~17から選択される2つを超えるメチル化領域を含む。複数の腫瘍シグナルの検出は、この例では、腫瘍検出における信頼を増加させ得る。そのようなシグナルは、同じ部位にあっても、異なる部位にあってもよい。いくつかの実施形態では、同じ領域における複数の腫瘍シグナルの検出は、腫瘍を示す。
【0249】
いくつかの実施形態では、同定されたメチル化領域中のCpG部位の数を、細胞増殖性障害の異なる特徴を有する2つの集団間でモデル化して、メチル化閾値を特定することができ、ここで、閾値を超える領域中のCpG部位の数は、細胞増殖性障害を示す。
【0250】
様々な例において、癌を示す同定されたメチル化領域中のCpG部位の数は4、5、6、7、8、9、10、11、12、13、14、15、16、17、または18であり、ここで、この同定された数を超えるメチル化CpGの存在は癌を示し、集団を健康な個体および癌を有する個体に層別化するための分類子として使用される機械学習モデルへの入力特徴として使用され得る。
【0251】
ゲノム中の同じ部位におけるメチル化を示す複数の腫瘍シグナルの検出は、この例では、腫瘍検出における信頼を増加させ得る。ゲノム中の隣接部位におけるメチル化の検出はまた、シグナルが異なるシーケンシングリードに由来する場合であっても、腫瘍検出における信頼を増加させ得る。ゲノム中の隣接部位におけるメチル化の検出は、別の型のシグナル一致を反映する。いくつかの実施形態では、少なくとも2つの異なる配列リードにわたる隣接または重複腫瘍シグナルの検出は、腫瘍を示す。いくつかの実施形態では、隣接するまたは重複する腫瘍シグナルは、同じCpGアイランド内にある。いくつかの実施形態では、無細胞DNA断片中の3~34の近位メチル化部位の検出は、腫瘍を示す。いくつかの実施形態では、断片中の3~34のメチル化CpG部位の検出を使用して、特徴(例えば、健康、疾患、または疾患のステージ)を有する個体の集団を識別するための閾値を特定する。いくつかの実施形態では、リード断片中の約4~10、約4~15、約10~20、約15~20、約15~25、約20~25、約20~34、約25~34、または約30~34のメチル化近位CpG部位の検出を使用して、特徴(例えば、健康、疾患、または疾患の段階)を有する個体の集団を識別するための閾値を特定する。本明細書で使用される場合、「近位CpG部位」という用語は、互いに隣接するか、または約2~10のCpG部位内にあるCpG部位を指し、ここでCpG部位は、無細胞核酸試料中の同じ核酸断片上にある。
【0252】
いくつかの実施形態では、増幅は、100を超えるプライマー対を用いて行われる。増幅は、約10、約20、約30、約40、約50、約60、約70、約80、約90、約100、約110、約120、約130、約140、約150、またはそれ以上のプライマー対を用いて実施され得る。いくつかの実施形態では、増幅は多重増幅である。マルチプレックス増幅は、大量のメチル化情報が、ゲノム中の多くの標的領域から、DNAが一般に豊富でないcfDNA試料からでさえ、並行して収集されることを可能にする。マルチプレックス化は、ION AmpliSeqなどのプラットフォームにスケールアップすることができ、例えば、約24,000個までのアンプリコンを同時に検索することができる。いくつかの実施形態において、増幅はネストされた増幅である。ネストされた増幅は感度と特異性を改善する場合がある。
【0253】
さらに、別の、多数のメチル化された配列の並列試験のための迅速でロバストなプロトコルが、同時標的化メチル化シーケンシング(sTM-Seq)と呼ばれる。この技術の重要な特徴として、大量の高分子量DNAの必要性をなくしたこと、および5-メチルシトシン(5-mC)と5-ヒドロキシメチルシトシン(5-hmC)の両方のヌクレオチドを特異的に識別することが挙げられる。さらに、sTM-Seqは、スケーラブルであり得、シングルシーケンシングランの中で複数のサンプルにおける複数の遺伝子座を調査するために使用され得る。多目的バーコード化、ライブラリ調製、およびカスタマイズされたシーケンシングのための自由に入手可能なウェブベースのソフトウェアおよびユニバーサルプライマーは、sTM-Seqを手頃で効率的で広く適用可能なものにする(Asmus, N. et al., Curr Protoc Hum Genet.2019 Apr;101(1)により記載されるとおりであり、その内容は参照により本明細書に組み込まれる))。
【0254】
一般に、本明細書において提供される方法およびシステムは、下流適用シーケンシング反応への無細胞ポリヌクレオチド配列の調製に有用であり得る。いくつかの実施形態では、シーケンシング方法は古典的なサンガーシーケンシングである。シーケンシング方法は、限定されないが、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、デジタル遺伝子発現(Helicos)、次世代シーケンシング、合成による単分子シーケンシング(SMSS)(Helicos)、大規模並列シーケンシング、クローン単分子アレイ(Solexa)。ショットガンシーケンシング、Maxim-Gilbertシーケンシング、プライマーウォーキング、および任意の他のシーケンシング方法を含み得る。
【0255】
パイロシーケンシングは、ヌクレオチド取り込み時のピロリン酸放出のルミノメトリック検出に基づくリアルタイムシーケンシング技術であり、いくつかのCpG位置のメチル化度の同時分析および定量化に適している。ゲノムDNAの変換後、目的の領域は、ビオチン化される2つのプライマーのうちの1つを用いてポリメラーゼ連鎖反応(PCR)によって増幅され得る。PCRで生成された鋳型は一本鎖にされる場合があり、定量的に分析するためにパイロシーケンシング(Pyrosequencing)プライマーがCpG位置にアニールされる。亜硫酸水素塩処理およびPCRの後、配列中の各CpG位置における各メチル化の程度は、元の配列中の各CpG部位における非メチル化シトシンとメチル化シトシンの割合を反映するTシグナルとCシグナルの比から決定され得る。
【0256】
V.分類子、機械学習モデル、およびシステム
様々な例において、メチル化シーケンシング特徴は、配列組成と患者群との間の相関を同定するための訓練されたアルゴリズム(例えば、機械学習モデルまたは分類子)への入力データセットとして使用され得る。このような患者群の例として、疾患または疾病の存在、ステージ、亜型、応答者対非応答者、および進行者対非進行者が挙げられる。様々な例において、個人から得られたサンプルを既知の条件または特徴に比較するために、特徴行列が生成され得る。いくつかの実施形態では、試料は、健康な個体、または既知の兆候のいずれも有していない個体、および癌を有することが知られている患者由来の試料から得ることができる。
【0257】
本明細書で使用するとき、機械学習及びパターン認識に関して、「特徴」という用語は、一般に、観測される現象の個々の測定可能な特性又は特質を指す。「特徴」の概念は、例えば、限定されないが、線形回帰およびロジスティック回帰などの統計技術において使用される説明変数の概念に関連し得る。特徴は数値であってもよいが、文字列やグラフなどの構造的特徴を構文パターン認識に用いてもよい。
【0258】
本明細書で使用される「入力特徴」(または「特徴」)という用語は、一般に、試料の出力分類(ラベル)、例えば、疾病、配列内容(例えば、変異)、提案されるデータ収集操作、または提案される処置を予測するために、訓練されたアルゴリズム(例えば、モデルまたは分類子)によって使用される変数を指す。変数の値は、試料について決定されてもよく、分類を判定するために使用されてもよい。
【0259】
様々な例において、遺伝子データの入力特徴は、ゲノムに対する配列データ(例えば、配列リード)のアラインメントに関連するアラインメント変数と、例えば、配列リードの配列内容に関する変数、タンパク質または自己抗体の測定値、あるいは、ゲノム領域での平均メチル化レベルなどの、非アラインメント変数を含み得る。入力特徴は、クロマチンアクセス可能性(例えば、転写因子結合特徴)、ヌクレオソーム位置決め特徴(例えば、転写開始部位にわたるV-プロット測定およびcfDNA測定)、または細胞型デコンボリューション(例えば、FREE-Cデコンボリューション)などの遺伝的特徴であり得る。メチル化分析において使用され得る測定基準は、CpG、CHG、CHHの塩基ごとのメチル化パーセント、変換効率(CHHについて100平均メチル化パーセント)、低メチル化ブロック、メチル化レベル(CPG、CHH、CHGについてのグローバル平均メチル化率)、断片長、断片中点、断片あたりのメチル化CpGの数、断片あたりの全CpGに対するCpGメチル化の割合、領域あたりの全CpGに対するCpGメチル化の割合、パネルにおける全CpGに対するCpGメチル化の割合、ジヌクレオチドカバレッジ(ジヌクレオチドの正規化されたカバレッジ)、カバレッジの均一性(1xおよび10xにおける固有のCpG部位)、(S4ランの)平均ゲノムカバレッジ、全体的な平均CpGカバレッジ(深度)、およびCpGアイランド、CGIシェルフ、またはCGIショアにおける平均カバレッジが挙げられるが、これらに限定されない。これらのメトリックは、機械学習方法およびモデルのための特徴入力として使用され得る。
【0260】
複数のアッセイについて、システムは、訓練されたアルゴリズム(例えば、機械学習モデルまたは分類子)を使用して分析される特徴セットを特定してもよい。システムは、各分子クラスについてアッセイを実行し、測定値から特徴ベクトルを形成する。システムは、機械学習モデルを使用して特徴ベクトルを分析し、生物試料が指定された特性を有するかどうかの出力分類を得てもよい。
【0261】
いくつかの実施形態では、機械学習モデルは、個体の2以上の群またはクラス、あるいは個体集団における特徴、あるいは当該集団の特徴を鑑別可能な分類子を出力する。いくつかの実施形態では、分類子は、訓練された機械学習分類子である。
【0262】
いくつかの実施形態では、癌組織におけるバイオマーカーの情報量の多い遺伝子座または特徴をアッセイして、プロファイルを形成する。2つの集団(例えば、治療薬に反応する個体と反応しない個体)を識別する際の特定の特徴(例えば、本明細書に記載されたバイオマーカーのいずれか、および/または追加の生物医学的情報のいずれかの項目)のパフォーマンスをプロットすることにより、受信者動作特性(ROC)曲線が生成され得る。いくつかの実施形態では、集団全体にわたる特徴データ(例えば、症例および対照)は、単一の特徴の値に基づいて昇順にソートされる。
【0263】
様々な例において、指定される特性は、健康対癌、疾患亜型、疾患ステージ、進行対非進行、および応答対非応答から選択される。
【0264】
A.データ分析
いくつかの例において、本開示は、ソフトウェアアプリケーション、コンピューティングハードウェア、またはその両方で実現されるデータ分析を有するシステム、方法、またはキットを提供する。様々な例において、分析アプリケーションまたはシステムは、少なくとも、データ受信モジュール、データ前処理モジュール、データ分析モジュール(これは、1以上の型のゲノムデータで動作することができる)、データ解釈モジュール、またはデータ可視化モジュールを備える。いくつかの実施形態では、データ受信モジュールは、実験室のハードウェアまたは器具類を実験室のデータを処理するコンピュータシステムに接続するコンピュータシステムを備え得る。いくつかの実施形態では、データ前処理モジュールは、分析の準備としてデータに対する操作を行うハードウェアシステムまたはコンピュータソフトウェアを含むことができる。前処理モジュールでデータに適用され得る操作の例としては、アフィン変換、ノイズ除去操作、データクリーニング、再フォーマット、またはサブサンプリングが挙げられる。データ分析モジュールは、1以上のゲノム材料からのゲノムデータの分析に特化される場合があり、例えば、集められたゲノム配列について確率的および統計的な分析を行なって、疾患、病理、状態、リスク、条件、または表現型に関連する異常なパターンを同定することができる。データ解釈モジュールは、特定された異常パターンと健康状態、機能状態、予後、またはリスクとの間の関連性の理解を裏付けるために、例えば、統計学、数学、または生物学から得られた分析方法を使用することができる。データ可視化モジュールは、結果についての理解または解釈を促すことができるデータの視覚的な表現を作成するために、数学的モデル化、コンピューターグラフィックス、またはレンダリングの方法を使用する場合がある。
【0265】
様々な例において、機械学習方法は、試料の集団中の試料を識別するために適用され得る。いくつかの実施形態では、機械学習方法は健康な試料と進行した疾患(例えば、腺腫)の試料との間で試料を識別するために適用される。
【0266】
いくつかの実施形態では、予測エンジンを訓練するために使用される、1つ以上の機械学習演算は、一般化線形モデル、一般化加法モデル、ノンパラメトリック回帰演算、ランダムフォレスト分類子、空間回帰演算、ベイジアン回帰モデル、時系列分析、ベイジアンネットワーク、ガウスネットワーク、決定木学習演算、人工ニューラルネットワーク、再帰ニューラルネットワーク、畳み込みニューラルネットワーク、強化学習演算、線形または非線形回帰演算。サポートベクターマシン、クラスタリング演算、および遺伝的アルゴリズム演算からなる群から選択される。
【0267】
様々な例において、コンピュータ処理方法は、ロジスティック回帰、多重線形回帰(MLR)、次元縮小、部分最小二乗(PLS)回帰、主成分回帰、オートエンコーダ、変分オートエンコーダ、特異値分解、フーリエベース、ウェーブレット、判別分析、サポートベクターマシン、決定木、分類及び回帰木(CART)、ツリーベースの方法、ランダムフォレスト、勾配ブーストツリー(gradient boost tree)、ロジスティック回帰(logistic regression)、行列因子分解(matrix factorization)、多次元スケーリング(MDS)、次元低減法(dimensionality reduction methods)、t分布確率的近傍埋め込み(t-SNE)、多層パーセプトロン(MLP)、ネットワーククラスタリング、ニューロファジー、および人工ニューラルネットワークからなる群から選択される。
【0268】
いくつかの例において、本明細書に開示される方法は、個体または複数の個体からの試料の核酸シーケンシングデータに関するコンピュータ分析を含み得る。
【0269】
B.分類子生成
ある態様において、開示されるシステムおよび方法は、cfDNAの生体試料からのメチル化配列分析から得られた特徴情報に基づいて生成された分類子を提供する。分類子は、cfDNAなどの生体試料中で同定された配列特徴に基づいて集団中の群を識別するための予測エンジンの一部を形成し得る。
【0270】
一実施形態では、分類子は、配列情報の類似部分を統一されたフォーマットおよび統一されたスケールにフォーマットすること、正規化された配列情報を列指向データベースに格納すること、上記格納された正規化された配列情報に1以上の機械学習オペレーションを適用することによって予測エンジンを訓練することであって、上記予測エンジンは、特定の集団に対して、1以上の特徴の組合せをマッピングする、こと、ある群に関連する個体を同定するために、上記予測エンジンをアクセスされたフィールド情報に適用すること、および、上記個体を1つの群に分類することによって作成される。
【0271】
一実施形態では、分類子は、配列情報の類似部分を統一されたフォーマットおよび統一されたスケールにフォーマットすること、正規化された配列情報を列指向データベースに格納すること、上記格納された正規化された配列情報に1以上の機械学習オペレーションを適用することによって予測エンジンを訓練することであって、上記予測エンジンは、特定の集団に対して、1以上の特徴の組合せをマッピングする、こと、ある群に関連する個体を同定するために、上記予測エンジンをアクセスされたフィールド情報に適用すること、および、上記個体を1つの群に分類することによって作成される。
【0272】
特異性は、一般的には、本明細書に使用されたとき、「病気がない人々の間の陰性試験の可能性」を指す。特異性は、陰性と判定された疾患にかかっていない人の数を、疾患にかかっていない個体の総数で割ったものによって、計算され得る。
【0273】
様々な実施形態では、モデル、分類子、または予測試験は、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%の特異性を有する。
【0274】
敏感性は、一般的には、本明細書に使用されたとき、「その病気を持っている人々の間の陽性試験の可能性」を指す。感度は、陰性と判定された疾患にかかっている個体数を、疾患にかかっている個体の総数で割ったものに。
【0275】
様々な実施形態では、モデル、分類子、または予測試験は、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%の感度を有する。
【0276】
C.デジタル処理装置
いくつかの実施形態では、本明細書に記載される主題は、デジタル処理装置またはその使用を含み得る。いくつかの実施形態では、デジタル処理装置は、装置の機能を実行する、1以上のハードウェア中央処理装置(CPU)、グラフィック処理ユニット(GPU)、またはテンソル処理ユニット(TPU)を含み得る。いくつかの実施形態では、デジタル処理装置は、実行可能な命令を実行するように構成されたオペレーティングシステムを含み得る。
【0277】
いくつかの実施形態では、デジタル処理装置は、コンピュータネットワークに随意に接続され得る。いくつかの実施形態では、デジタル処理装置はインターネットに随意に接続され得る。いくつかの実施形態では、デジタル処理装置は、クラウドコンピューティングインフラストラクチャに随意に接続され得る。いくつかの実施形態では、デジタル処理装置はイントラネットに随意に接続され得る。いくつかの実施形態では、デジタル処理装置はデータ記憶装置に随意に接続され得る。
【0278】
適切なデジタル処理装置の非限定的な例としては、サーバーコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータコンピューター、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、ハンドヘルドコンピュータ、インターネットアプライアンス、モバイルスマートフォン、およびタブレットコンピュータが挙げられる。適切なタブレットコンピューターは、例えば、ブックレット、スレート、および変換可能な構成を含み得る。
【0279】
いくつかの実施形態では、デジタル処理装置は、実行可能な命令を実行するように構成されたオペレーティングシステムを含み得る。例えば、オペレーティングシステムはプログラムとデータを含むソフトウェアを含む場合があり、そのソフトウェアは、装置のハードウェアを管理し、アプリケーションの実行のためのサービスを提供する。オペレーティングシステムの非限定的な例としては、Ubuntu、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標) Solaris(登録商標)、Windows Server(登録商標)、およびNovell(登録商標) NetWare(登録商標)が挙げられる。適切なパーソナルコンピュータオペレーティングシステムの非限定的な例としては、Microsoft(登録商標) Windows(登録商標)、Apple(登録商標) Mac OS X(登録商標)、UNIX(登録商標)、およびUNIX系オペレーティングシステム、例えば、GNU/Linux(登録商標)が挙げられる。いくつかの実施形態では、オペレーティングシステムは、クラウドコンピューティングによって提供され得、クラウドコンピューティングリソースは、1以上のサービスプロバイダーによって提供され得る。
【0280】
いくつかの実施形態では、上記装置は記憶装置および/またはメモリ装置を含み得る。記憶装置および/またはメモリ装置は、一時的または恒久的に、データあるいはプログラムを記憶するために使用される1以上の物理的な装置であり得る。いくつかの実施形態では、上記装置は揮発性メモリであり得、記憶した情報を維持するための電力を必要とする。いくつかの実施形態では、上記装置は不揮発性メモリであり得、デジタル処理装置に電力が供給されていないときに、記憶した情報を保持することができる。いくつかの実施形態では、不揮発性メモリはフラッシュメモリを含み得る。いくつかの実施形態では、不揮発性メモリは、ダイナミックランダムアクセスメモリ(DRAM)を含み得る。いくつかの実施形態では、不揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM)を含み得る。いくつかの実施形態では、不揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含み得る。
【0281】
いくつかの実施形態では、上記装置は、例えば、円偏光二色性リードオンリーメモリ、DVD、フラッシュメモリ装置、磁気ディスクドライブ、磁気テープドライブ、光ディスク開削、およびクラウドコンピューティングベースの記憶装置を含む、記憶装置であり得る。いくつかの実施形態では、記憶装置および/またはメモリ装置は、本明細書で開示されるものなどの装置の組合せであり得る。いくつかの具体例では、デジタル処理装置は、ユーザーに視覚情報を送るためのディスプレイを含み得る。いくつかの実施形態では、ディスプレイは陰極線管(CRT)であり得る。いくつかの実施形態では、ディスプレイは液晶ディスプレイ(LCD)であり得る。いくつかの実施形態では、ディスプレイは、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)であり得る。いくつかの実施形態では、ディスプレイは、有機発光ダイオード(OLED)ディスプレイであり得る。いくつかの実施形態では、OLEDディスプレイは、パッシブ-OLED(PMOLED)またはアクティブ-マトリックスOLED(AMOLED)のディスプレイであり得る。いくつかの実施形態では、ディスプレイはプラズマディスプレイであり得る。いくつかの実施形態では、ディスプレイはビデオプロジェクタであり得る。いくつかの実施形態では、ディスプレイは、本明細書で開示されるようなものなどの装置の組合せであり得る。
【0282】
いくつかの実施形態では、デジタル処理装置は、ユーザーから情報を受け取るための入力装置を含み得る。いくつかの実施形態では、入力装置はキーボードであり得る。いくつかの実施形態では、入力装置は、例えば、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ、またはスタイラスを含む、ポインティングデバイスであり得る。いくつかの実施形態では、入力装置は、タッチスクリーンまたはマルチタッチスクリーンであり得る。いくつかの実施形態では、入力装置は、声または他の音声入力を捕捉するマイクロホンであり得る。いくつかの実施形態では、入力装置は、動きまたは視覚入力を捕捉するビデオカメラであり得る。いくつかの実施形態では、入力装置は、本明細書で開示されるものなどの装置の組合せであり得る。
【0283】
D.コンピュータで読み取り可能な記録媒体
いくつかの実施形態において、本明細書で開示される主題は、随意にネットワーク接続されたデジタル処理装置のオペレーティングシステムによって実行可能な命令を含むプログラムでコードされた、1つ以上の非一時的なコンピュータ可読記憶媒体を含み得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、デジタル処理装置の有形の構成要素であり得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、デジタル処理装置から随意に取り外し可能であり得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、例えば、CD-ROM、DVD、フラッシュメモリ装置、固体メモリ、磁気ディスク装置、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどを含み得る。いくつかの実施形態では、プログラムおよび命令は、永続的に、ほぼ永続的に、半永続的に、または非一時的に、媒体上でコードされ得る。
【0284】
E.コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。
図1は、患者データ、生物学データ、生物学的配列、または参照配列を保存するか、処理するか、同定するか、あるいは解釈するようにプログラムされるか、またはそうでなければ構成されるコンピュータシステム(101)を示す。コンピュータシステム(101)は、本開示の患者データ、生物学データ、生物学的配列、または参照配列の様々な態様を処理することができる。コンピュータシステム(101)は、電子デバイスに対して遠隔に位置付けられる、ユーザーまたはコンピュータシステムの電子デバイスであり得る。電子デバイスはモバイル電子デバイスであってもよい。
【0285】
コンピュータシステム(101)は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータープロセッサ」とも呼ばれる)(105)を、その中央処理装置は、シングルコアまたはマルチコアのプロセッサ、あるいは並行処理のための複数のプロセッサであり得る。コンピューターシステム(101)は、メモリまたは記憶場所(110)(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶装置(115)(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インターフェース(120)(例えば、ネットワークアダプタ)、および周辺機器(125)、例えば、キャッシュ、他のメモリ、データ記憶装置、ならびに/あるいは電子ディスプレイアダプターも含む。メモリ(110)、記憶装置(115)、インターフェース(120)、および周辺機器(125)は、マザーボードなどの通信バス(実線)を介してCPU(105)と通信する。記憶装置(115)は、データを保存するためのデータ記憶装置(または、データレポジトリ)であり得る。コンピュータシステム(101)は、通信インターフェース(120)の助けによってコンピュータネットワーク(「ネットワーク」)(130)に動作可能に接続され得る。ネットワーク(130)は、インターネットおよび/またはエクストラネット、あるいは、インターネットと通信状態にあるイントラネットおよび/またはエクストラネットであり得る。ネットワーク(130)は、具体例によっては、電気通信および/またはデータネットワークでありうる。ネットワーク(130)は1つ以上のコンピューターサーバーを含み得、このコンピューターサーバーは、クラウドコンピューティングなどの分散コンピューティングを可能にし得る。ネットワーク(130)は、いくつかの実施形態では、コンピュータシステム(101)の助けにより、ピアツーピア・ネットワークを実施することができ、これにより、コンピュータシステム(101)に連結されたデバイスが、クライアントまたはサーバとして動くことを可能にし得る。
【0286】
CPU(105)は一連の機械可読命令を実行することができ、これらの命令は、プログラムまたはソフトウェアで具現化され得る。この命令は、メモリ(110)などの記憶場所に保存され得る。この命令は、CPU(105)に向けることができ、これは後に、本開示の方法を実施するようにCPU(105)をプログラムするか、またはそうでなければ構成することができる。CPU(105)により実行される動作の例としては、フェッチ、デコード、実行、およびライトバックが挙げられる。
【0287】
CPU(105)は、集積回路など回路の一部であり得る。システム(101)の1つ以上の他のコンポーネントが、回路に含まれてもよい。いくつかの実施形態では、回路は特定用途向け集積回路(ASIC)である。
【0288】
記憶装置(115)は、ドライバー、ライブラリ、およびセーブされたプログラムなどのファイルを保存することができる。記憶装置(115)は、ユーザーデータ、例えば、ユーザーの嗜好およびユーザーのプログラムを保存することができる。コンピュータシステム(101)は、いくつかの実施形態では、イントラネットまたはインターネットを介してコンピュータシステム(101)と通信状態にあるリモートサーバー上に位置付けられるなどした、コンピュータシステム(101)の外側にある1つ以上の追加のデータ記憶装置を含み得る。
【0289】
コンピュータシステム(101)は、ネットワーク(130)を介して1つ以上のリモートコンピュータシステムと通信することができる。例えば、コンピュータ(501)は、ユーザーのリモートコンピューターと通信することができる。リモートコンピュータシステムの例は、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標))を含むGalaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標))、または携帯情報端末である。ユーザーは、ネットワーク(130)を介してコンピュータシステム(101)にアクセスすることができる。
【0290】
本明細書に記載される方法は、例えば、メモリ(110)または電子記憶装置(115)上などの、コンピュータシステム(101)の電子記憶場所に保存された機械(例えば、コンピュータープロセッサ)実行可能コードによって実行可能である。器械実行可能コードまたは機械可読は、ソフトウェアの形態で提供され得る。使用中、コードはプロセッサ(105)により実行され得る。いくつかの例において、コードは、ストレージユニット(115)から検索され、プロセッサ(105)による容易なアクセスのためにメモリ(110)上に保存されうる。いくつかの実施形態では、電子記憶装置(115)が排除されてもよく、機械実行可能命令がメモリ(110)に保存される。
【0291】
コードは、コードを実行するのに適したプロセッサを有する機械との使用のためにあらかじめコンパイルおよび構成され得るか、あるいは、実行時間中に解釈またはコンパイルされ得る。コードは、された、解釈された、またはアズコンパイルされた(as-compiled)様式でコードを実行可能にするために選択され得る、プログラミング言語で供給され得る。
【0292】
コンピュータシステム(101)などの本明細書で提供されるシステムおよび方法の態様は、プログラミングの際に具現化され得る。この技術の様々な態様は、典型的に、一種の機械可読媒体上で実行または具現化される機械(または、プロセッサ)実行可能コードおよび/または関連データの形態の、「製品」または「製造用品」として考えられ得る。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子記憶装置に記憶することができる。「記憶」型の媒体は、様々な半導体メモリ、テープドライブ、ディスクドライブなどの、コンピュータやプロセッサの有形メモリ、あるいはその関連するモジュールのいずれかまたは全てを含むことができ、これらは、ソフトウェアのプログラミングのためにいかなる時も非一時的な記録媒体を提供し得る。ソフトウェアの全部または一部は、時には、インターネットまたは様々な他の電気通信ネットワークを介して通信され得る。このような通信は、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへといった、あるコンピュータまたはプロセッサから、別のコンピュータまたはプロセッサへの、ソフトウェアのローディングを可能にする場合がある。ゆえに、ソフトウェア要素を持ち得る別のタイプの媒体は、有線および光地上通信線ネットワークを介した、および様々なエアリンク(air-links)上での、ローカルデバイス間の物理インターフェースにわたって使用されるものなどの、光波、電波、および電磁波を含む。有線または無線リンク、光リンクなどの、このような波を運ぶ物理的要素もまた、ソフトウェアを保持する媒体とみなしてもよい。本明細書で使用される場合、一時的で有形の「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する媒体を指す。
【0293】
従って、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、又は物理送信媒体を含むがこれらに限定されない、多くの形態をとってもよい。不揮発性ストレージ媒体は、例えば、図面に示されるデータベースなどを実装するために使用されることもあるような、任意のコンピュータ(複数可)などにおける、記憶装置のいずれかなどの光学ディスクまたは磁気ディスクを含む。揮発性ストレージ媒体は、そのようなコンピュータプラットフォームのメインメモリのような動的メモリを含む。有形送信媒体は、コンピュータシステム内にバスを備える配線を含め、同軸ケーブル、銅線、およびファイバーオプティクスを含む場合がある。搬送波送信媒体は、電気または電磁信号、または無線周波数(RF)および赤外線(IR)データ通信中に生成されるような音響波または光波の形態をとる場合がある。したがって、コンピュータ可読媒体の共通の形式は、例えば:フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、他の光学媒体、パンチカード、紙テープ(paper tame)、穴のパターンを有する他の物理的な記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、他のメモリチップもしくはカートリッジ、データもしくは命令を輸送する搬送波、そのような搬送波を伝達するケーブルもしくはリンク、またはコンピュータがプログラミングのコードおよび/もしくはデータを読み取りうる他の媒体を含む。コンピュータ可読媒体の多くの形態は、1つ以上の命令の1つ以上のシーケンスを、実行のために、プロセッサ伝送することに関与し得る。
【0294】
コンピュータシステム(101)は、例えば、核酸配列、濃縮された核酸試料、発現プロファイル、および発現プロファイルの分析を提供するためのユーザーインターフェース(UI)(140)を含む電子ディスプレイ(135)を含み得るか、またはそれと通信し状態にあり得る。UIの例としては、限定されないが、グラフィカルユーザインターフェース(GET)およびウェブベースのユーザーインターフェースが挙げられる。
【0295】
本開示の方法とシステムは、1つ以上のアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置(105)による実行時に、ソフトウェアによって実施することができる。アルゴリズムは例えば、患者データ、生物学データ、生物学的配列および基準配列を保存するか、処理するか、識別するか、解釈することができる。
【0296】
方法とシステムのある例が本明細書に示され記載された一方、当業者は、これらが例のみ経由で提供され明細書内に制限するようには意図されないことを理解するだろう。多数の変形、変更、及び置換は、本明細書に記載される範囲から逸脱することなく、当業者によって現在想到されこととなる。さらに、説明される方法およびシステムの全ての態様は、種々の条件および変数に依存する、本明細書に記載される特定の描写、構成、または相対的比率に限定されず、記載は、そのような代替、修正、変形例、または均等物を含むことが意図されることを理解されたい。
【0297】
いくつかの実施形態では、本明細書に開示される主題は、少なくとも1つのコンピュータプログラム、またはそのコンピュータプログラムの使用を含む。コンピュータプログラムは、デジタル処理装置のCPU、GPU、またはTPUで実行可能であり、特定のタスクを実行するように書き込まれた、一連の指示であり得る。コンピュータ読み取り可能な命令は、特定のタスクを行うか、または特定の抽出データタイプを実行する、機能、オブジェクト、アプリケーションプログラミングインターフェース(API)、データ構造などのプログラムモジュールとして実行され得る。本明細書に提供される開示に照らして、コンピュータプログラムは様々な言語の様々なバージョン中で書かれる場合がある。
【0298】
コンピュータ読み取り可能命令の機能性は、様々な環境の必要に応じて、組合せられ得るか、または分配され得る。いくつかの実施形態では、コンピュータプログラムは1つのシーケンスの命令を含み得る。いくつかの実施形態では、コンピュータプログラムは複数のシーケンスの命令を含み得る。いくつかの実施形態では、コンピュータプログラムは1つの位置から提供され得る。いくつかの実施形態では、コンピュータプログラムは複数の位置から提供され得る。いくつかの実施形態では、コンピュータプログラムは1以上のソフトウェアモジュールを含み得る。いくつかの実施形態では、コンピュータプログラムは、一部または全体として、1つ以上のウェブアプリケーション、1つ以上のモバイルアプリケーション、1つ以上のスタンドアロンアプリケーション、1つ以上のウェブブラウザプラグイン、拡張、アドイン、またはアドオン、あるいはそれらの組合せを含み得る。
【0299】
いくつかの実施形態では、コンピュータ処理は、統計学、数学、生物学、またはそれらの任意の組合せの方法であり得る。いくつかの例では、コンピュータ処理方法は、例えば、ロジスティック回帰、次元削減、主成分分析、オートエンコーダ、特異値分解、フーリエベース、特異値分解、ウェーブレット、判別分析、サポートベクターマシン、ツリーベースの方法、ランダムフォレスト、勾配ブーストツリー、ロジスティック回帰、行列因子分解、ネットワーククラスタリング、および畳み込みニューラルネットワークなどのニューラルネットワークを含む次元削減方法を含む。
【0300】
いくつかの実施形態では、コンピュータ処理方法は、例えば、回帰、サポートベクターマシン、ツリーベースの方法、およびネットワークを含む、教師あり機械学習法である。
【0301】
いくつかの実施形態では、コンピュータ処理方法は、例えば、クラスタリング、ネットワーク、主成分分析、および行列因子分解を含む、教師なし機械学習法である。
【0302】
F.データベース
いくつかの実施形態では、本明細書に開示される主題は、患者データ、生物学データ、生物学的配列、あるいは参照配列を保存するための、1つ以上データベース、またはその使用を含む。参照配列はデータベースから得られる場合がある。本明細書で提供される開示に照らして、データベースは、本明細書に別記される分析情報の記憶及び検索に適している。いくつかの実施形態では、適切なデータベースは、例えば、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、実体関連モデル相関標準型データベース、連想データベース、およびXMLデータベースを含み得る。いくつかの実施形態では、データベースはインターネットベースであり得る。いくつかの実施形態では、データベースはウェブベースであり得る。いくつかの実施形態では、データベースは、クラウドコンピューティングベースであり得る。いくつかの実施形態では、データベースは、1つ以上のローカルコンピュータ記憶装置ベースであり得る。
【0303】
ある態様では、本開示は、本明細書で開示される方法を実行するようにプロセッサに指示する命令を備える、非一時的コンピュータ可読媒体を提供する。
【0304】
ある態様では、本開示は、コンピュータ可読媒体を備えるコンピューティングデバイスを提供する。
【0305】
別の態様では、本開示は、生体試料の分類を行うためのシステムであって、
a)複数の訓練サンプルを受け取るレシーバーであって、該複数の訓練サンプルの各々が複数の分子クラスを有し、該複数の訓練サンプルの各々が1つ以上の既知の標識を含む、レシーバーと、
b)複数の訓練サンプルの各々について機械学習モデルを使用して分析されるように動作可能であるアッセイに対応する特徴のセットを同定する特徴モジュールであって、特徴のセットは、複数の訓練サンプル中の分子の特性に対応し、複数の訓練サンプルの各々について、システムは、訓練サンプル中の分子の複数のクラスを複数の異なるアッセイに供して測定値のセットを得るように動作可能であり、測定値の各セットは、訓練サンプル中の分子クラスに適用される1つのアッセイからのものであり、複数の測定値のセットは、複数の訓練サンプルについて得られる、特徴モジュールと、
c)訓練サンプルのための訓練ベクトルを得るために測定値のセットを分析する分析モジュールであって、訓練ベクトルは、対応するアッセイの特徴のNセットの特徴値を含み、各特徴値は、1つの特徴に対応するとともに1つ以上の測定値を含み、上記訓練ベクトルは、複数の異なるアッセイの第1のサブセットに対応する特徴のN個のセットのうちの少なくとも2つからの少なくとも1つの特徴を使用して形成される、分析モジュールと、
d)複数の訓練サンプルの出力ラベルを取得するために機械学習モデルのパラメータを使用して訓練ベクトルについてシステムに通知するラベル付けモジュールと、
e)出力ラベルを訓練サンプルの既知のラベルと比較する比較モジュールと、
f)訓練モジュールであって、出力ラベルを訓練サンプルの既知のラベルと比較することに基づいて、機械学習モデルの訓練の一部としてパラメータの最適値を反復的に探索する、訓練モジュールと、
g)機械学習モデルのパラメータおよび機械学習モデルの特徴のセットを提供する出力モジュールと
を含む、システムを提供する。
【0306】
VI.集団における対象を分類する方法
開示される方法は、対象におけるcfDNAの分析を介して、細胞増殖性障害に関連するゲノムDNAの遺伝的および/またはエピジェネティックなパラメータを確認することに関する。この方法は、細胞増殖性障害の改善された診断、処置、およびモニタリングにおいて使用するためのものであり得、より具体的には、上記障害のステージまたはサブクラスの間の識別、上記障害に対する遺伝的素因の区別を可能にすることによる、方法であり得る。
【0307】
いくつかの実施形態では、本方法は、CpGアイランド、CpGショア、またはCpGシェルフのメチル化状態を分析することを含む。
【0308】
いくつかの実施形態では、本方法は、生体試料中の無細胞核酸のメチル化状態、ヘミメチル化状態、高メチル化状態、または低メチル化状態を分析することを含む。
【0309】
一般に、本開示は、例えば、無細胞循環細胞増殖性障害DNAを検出するために、無細胞試料に適用され得る、細胞増殖性障害を検出するための方法を提供する。この方法は、基本的な「陽性」細胞増殖性障害シグナルとして、シングルシーケンシングリード内のメチル化シグナルの検出を利用し得る。
【0310】
ある態様では、本開示は、における細胞増殖性障害を検出するための方法を提供し、該方法は、対象から得られた無細胞試料からDNAを抽出する工程と、メチルシーケンシングのためにDNAの少なくとも一部を変換する工程と、変換されたDNAから癌においてメチル化された領域を増幅する工程と、増幅された領域からシーケンシングリードを生成する工程と、癌パネル内に少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つを超えるメチル化領域を含む細胞増殖性障害シグナルを検出して、機械学習モデルを使用して分析され得る入力特徴を得て、2つの被験者のグループ(例えば、健康対癌、疾患段階、進行腺腫対癌)の間を鑑別可能な分類子を得る、工程と、を含む。
【0311】
本明細書に記載される訓練された機械学習法、モデル、および識別分類子は、癌の検出、診断、ならびに処置応答性を含む様々な医療用途に適用され得る。モデルが個々のメタデータおよび分析物由来の特徴を用いて訓練されると、その用途は、集団中の個体を階層化し、それに応じて処置の決定を導くように適合され得る。
【0312】
診断
本明細書で提供される方法およびシステムは、対象(患者)から得たデータを分析して癌を抱える対象の診断アウトプットを生成するために、人工知能ベースのアプローチを用いた予測分析を実施することができる。例えば、癌を抱える対象の診断を生成するために、その用途は、得られたデータに予測アルゴリズムを適用することができる。予測アルゴリズムは、癌を抱える対象の診断を生成するために、得られたデータを処理するように構成された、機械学習ベースの予測要素などの人工知能ベースの予測要素を含み得る。
【0313】
機械学習予測因子は、機械学習予測因子に対するインプットとしての癌患者のコホートと、アウトプットとしての対象の既知の診断(例えば、進行度診断および/または腫瘍の割合)の結果との1つ以上のセットから得たデータセット、例えば、個体の生体試料の分析アッセイの実施により生成されたデータセットを使用して、訓練され得る。
【0314】
訓練用データセット(例えば、個体の生体試料の分析アッセイの実施により生成されたデータセット)は、例えば、共通の特性(特徴)および結果(標識)を有する対象の1つ以上のセットから生成され得る。データセットの訓練は、診断に関連する特徴に対応する1組の特徴および標識を含み得る。特徴は、例えば、cfDNAアッセイ測定のある範囲あるいはカテゴリー、例えば、基準ゲノムの1組のビン(ゲノムウィンドウ)の各々に重複するか、またはその範囲に入る健康な試料と病気の試料から得られた生体試料中のcfDNA断片数などの特性を含み得る。例えば、所定の時点に所与の対象から集められた1組の特徴は、診断シグネチャとして集団的に機能し得、所与の時点で上記対象の同定された癌を示し得る。特性は、1つ以上の癌についてなど、対象の診断結果を示す標識も含み得る。
【0315】
標識は、例えば、対象の既知の診断(例えば、進行度診断および/または腫瘍の割合)結果などのアウトカムを含み得る。アウトカムには、対象における癌に関連した特性が含まれ得る。例えば、特性は、対象が1つ以上の癌を患うことを示し得る。
【0316】
訓練セット(例えば、訓練データセット)は、1組以上の被検体(例えば、1つ以上の癌を抱えているか、あるいは抱えていない患者の後向きコホートおよび/または前向きコホート)に対応する1セットのデータの無作為抽出によって選択され得る。あるいは、訓練セット(例えば、訓練データセット)は、1組以上の対象(例えば、1つ以上の癌を抱えているか、あるいは抱えていない、患者の後向きコホートおよび/または前向きコホート)に対応する1セットのデータの比例抽出によって選択され得る。訓練セットは、対象(例えば、様々な臨床施設または治験からの患者)の1つ以上のセットに対応するデータの複数のセットにわたって平衡が保たれ得る。診断精度の測定値に対応する最小目標値を有しているなどの、精度またはパフォーマンスについてあらかじめ定義された所定条件が満たされるまで、機会学習予測因子が訓練される場合がある。例えば、診断精度の測定値は、対象の1つ以上の癌の診断、ステージ分類、または腫瘍の割合の予測に対応し得る。
【0317】
診断精度尺度の例としては、感度、特異性、陽性的中率(PPV)、陰性的中率(NPV)、精度、および、癌を検出または予測する診断的精度に対応するReceiver Operating Characteristic(ROC)曲線(受信者動作特性曲線)の曲線下面積(AUC)が挙げられ得る。
【0318】
ある態様では、本開示は、個体の集団を鑑別可能な分類子を使用する方法を提供し、該方法は、
a)生体試料中の分子の複数のクラスをアッセイする工程であって、アッセイが、分子の複数のクラスを表す測定値の複数のセットを提供する工程と、
b)機械学習または統計モデルを使用して、分析される分子の複数のクラスの各々の特性に対応する特徴のセットを同定する工程と、
c)複数の測定値セットの各々から特徴値の特徴ベクトルを準備する工程であって、各特徴値は、特徴セットの特徴に対応するとともに1つ以上の測定値を含み、ここで上記特徴ベクトルは、複数の測定値セットの各セットを使用して取得された少なくとも1つの特徴値を含む、工程と、
d)コンピュータシステムのメモリに、分類子を含む機械学習モデルをロードする工程であって、該機械学習モデルは、訓練用生体試料から得られた訓練ベクトルを使用して訓練され、訓練用生体試料の第1のサブセットは、指定された特性を有すると同定されており、訓練用生体試料の第2のサブセットは、指定された特性を有していないと同定されている、工程と、
e)機械学習モデルを使用して特徴ベクトルを分析して、生体試料が指定された特性を有するかどうかの出力分類を取得し、それによって、指定された特性を有する個体の集団を識別する工程と
を含む。
【0319】
ある態様では、本開示は、個体の集団を鑑別可能な階層を使用する方法を提供し、該方法は、
a)生体試料中の分子の複数のクラスをアッセイする工程であって、アッセイが、分子の複数のクラスを表す測定値の複数のセットを提供する工程と、
b)機械学習または統計モデルを使用して、分析される分子の複数のクラスの各々の特性に対応する特徴のセットを同定する工程と、
c)複数の測定値セットの各々から特徴値の特徴ベクトルを準備する工程であって、各特徴値は、特徴セットの特徴に対応するとともに1つ以上の測定値を含み、ここで上記特徴ベクトルは、複数の測定値セットの各セットを使用して取得された少なくとも1つの特徴値を含む、工程と、
d)コンピュータシステムのメモリに、分類子を含む訓練された機械学習モデルをロードする工程であって、該訓練された機械学習モデルは、訓練用生体試料から得られた訓練ベクトルを使用して訓練され、訓練用生体試料の第1のサブセットは、指定された特性を有すると同定されており、訓練生体試料の第2のサブセットは、指定された特性を有していないと同定されている、工程と、
e)訓練された機械学習モデルを特徴ベクトルに適用して、生体試料が指定された特性を有するかどうかの出力分類を取得し、それによって、指定された特性を有する個体の集団を識別する工程と
を含む。
【0320】
ある態様では、本開示は、個体の集団を鑑別可能な階層を使用する方法を提供し、該方法は、
a)1つ以上の第1の患者試料において、予め選択されたゲノム領域のシングルシーケンシングリード内のメチル化シグナルを検出する工程と、
b)該メチル化シグナルが、データ出力の階層に作用して機械学習モデルに作用する工程と、
c)第2の患者試料において、影響を受けた階層を使用してメチル化シグナルを検出する工程と
を含む。
【0321】
いくつかの実施形態では、シグネチャーパネルは、表2~17の3つ以上のメチル化ゲノム領域、表2~17の4つ以上のメチル化ゲノム領域、表2~17の5つ以上のメチル化ゲノム領域、表2~17の6つ以上のメチル化ゲノム領域、表2~17の7つ以上のメチル化ゲノム領域、表2~17の8つ以上のメチル化ゲノム領域、表2~17の9つ以上のメチル化ゲノム領域、表2~17の10以上のメチル化ゲノム領域、表2~17の11以上のメチル化ゲノム領域、表2~17の12以上のメチル化ゲノム領域、または表2~17の13以上のメチル化ゲノム領域を含む。
【0322】
他の態様では、本開示は、対象における2つ以上の癌を同定するための方法を提供し、該方法は、
(a)上記対象からの無細胞核酸(cfNA)分子を含む生体試料を提供する工程と、
(b)複数のcfNAシーケンシングリードを生成するために、上記対象からのcfNA分子をメチル変換し、基配列決定する工程と、
(c)上記複数のcfNAシーケンシングリードを基準ゲノムにアライメントする工程と、
(d)第1のcfNA特徴セットを生成するために、上記基準ゲノムの第1の複数のゲノム領域の各々で、上記複数のcfNAシーケンシングリードの定量的尺度を生成する工程であって、ここで、上記参照ゲノムの上記第1の複数のゲノム領域は、少なくとも約10の異なる領域を含み、少なくとも約10の異なる領域の各々は、少なくとも本明細書に記載されるシグネチャーパネルにおけるメチル化された領域からなる群から選択される遺伝子の少なくとも一部を含む、工程と、
(e)上記対象が癌を有する可能性を生成するために、訓練されたアルゴリズムを上記第1のcfNA特徴セットに適用する工程
と
を含む。
【0323】
いくつかの例において、前記少なくとも約10の別個の領域は、少なくとも約20の別個の領域を含み、前記少なくとも約20の別個の領域のそれぞれは、表1~17において同定されるメチル化領域の少なくとも一部を含む。いくつかの例において、前記少なくとも約10の別個の領域は、少なくとも約30の別個の領域を含み、前記少なくとも約30の別個の領域のそれぞれは、表1~17において同定されるメチル化領域の少なくとも一部を含む。
【0324】
別の例として、そのような所定の条件とは、結腸細胞増殖性障害を予測する特異性が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0325】
別の例として、そのような所定の条件とは、結腸細胞増殖性障害を予測する陽性的中率(PPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、あるいは少なくとも約99%の値を含むことであり得る。
【0326】
別の例として、そのような所定の条件とは、結腸細胞増殖性障害を予測する陰性的中率(NPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、あるいは少なくとも約99%の値を含むことであり得る。
【0327】
別の例として、そのような所定の条件は、細胞増殖性障害を予測するReceiver Operating Characteristic(ROC)曲線の曲線下面積(AUC)が、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99の値を含むことであり得る。
【0328】
処置応答性
本明細書に記載される予測的な分類子、システム、および方法は、多くの臨床用途(例えば、個体の生体試料について本明細書に記載のシグネチャーパネルを使用するメチル化アッセイの実施に基づいた)のために、個体の集団を分類することに対して適用され得る。そのような臨床用途の例としては、早期癌を検出すること、癌を診断すること、疾患の特定の段階に癌を分類すること、または、癌を処置するための治療剤に対する応答性あるいは耐性を判定することが挙げられる。
【0329】
本明細書に記載される方法およびシステムは、グレードおよびステージなどの、結腸細胞増殖性障害の特性に適用され得る。したがって、分析とアッセイの組合せは、様々な組織中の様々な癌型にわたって癌治療法の応答性を予測して、処置応答性に基づいて個体を分類するために、本システムおよび方法で使用され得る。いくつかの実施形態では、本明細書に記載される分類子は、個体の群を処置の応答者と非応答者に階層化可能である。
【0330】
本開示は、目的の疾病または疾患の薬物標的(例えば、特定のクラスに関連または重要な遺伝子)を決定するための方法も提供し、該方法は、個体から得られた試料を、少なくとも1つの遺伝子についての遺伝子発現のレベルについて評価する工程と、近接性分析ルーチンを使用して、試料の分類に関連する遺伝子を決定し、それによって分類に関連する1つ以上の薬物標的を確認する工程とを含む。
【0331】
本開示は、疾患クラスを処置するように設計される薬物の有効性を判定するための方法をさらに提供し、該方法は、上記疾患クラスを有する個体から試料を得る工程と、上記試料を上記薬物に曝露させる工程と、少なくとも1つの遺伝子の遺伝子発現レベルについて、上記薬物に曝露された試料を評価する工程と、重み付き投票スキームを用いて構築されたコンピュータモデルを使用して、モデルの相対的な遺伝子発現レベルに対する上記試料の相対的な遺伝子発現レベルに応じて、薬物に露出された試料を上記疾患クラスに分類する工程と、を含む。
【0332】
本開示は、疾患クラスを処置するように設計された薬物の有効性を判定するための方法をさらに提供し、ここで、個体は上記薬物に曝露されており、上記方法は、上記薬物にさらされた個体から試料を得る工程と、少なくとも1つの遺伝子の遺伝子発現レベルについて上記試料を評価する工程と、モデルの遺伝子発現レベルと比較して、上記試料の遺伝子発現レベルを評価することを含む、疾患クラスに上記試料を分類するために、重み付き投票スキームを用いて構築されたモデルを使用する工程と、を含む。
【0333】
本明細書は、また、個体が表現型クラス(例えば、知能、処置に対する応答、長命、ウイルス感染の可能性、または肥満)に属するかどうかを判定する方法を提供し、該方法は、個体から試料を得る工程と、少なくとも1つの遺伝子の遺伝子発現レベルについて上記試料を評価する工程と、モデルの遺伝子発現レベルと比較して、上記試料の遺伝子発現レベルを評価することを含む、疾患クラスに上記試料を分類するために、重み付き投票スキームを用いて構築されたモデルを使用する工程と、を含む。
【0334】
ある態様では、処置応答性に基づいた集団の分類に関する本明細書に記載されるシステムおよび方法は、クラスDNA損傷剤の化学療法剤、DNA修復標的治療、DNA損傷シグナル伝達の阻害剤、DNA損傷誘発性細胞周期停止の阻害剤、およびDNA損傷に間接的につながるプロセスの阻害により処置される癌を指すが、これらのクラスに限定されない。これらの化学療法剤の各々は、本明細書においてその用語が使用される場合、「DNA損傷治療剤」と考えられ得る。
【0335】
患者の分析物データに基づいて、患者は、臨床的再発のリスクが高い患者かリスクが低い患者かなど、高リスクおよび低リスクの患者群に分類され、その結果は治療方針を決定するために使用され得る。例えば、高リスク患者であると決定された患者は、手術後にアジュバント化学療法により治療されることがある。低リスクの患者であるとみなされる患者の場合、アジュバント化学療法は手術後に控えられることがある。したがって、本開示は、ある態様では、再発リスクを示す結腸癌腫瘍の遺伝子発現プロファイルを調製するための方法を提供する。
【0336】
様々な例において、本明細書に記載される分類子は、処置への応答者と非応答者との間で個体の集団を階層化可能である。
【0337】
別の態様では、本明細書に開示される方法は、癌の検出またはモニタリングを含む臨床用途に適用され得る。
【0338】
いくつかの実施形態では、本明細書に開示される方法は、処置に対する応答を決定および/または予測するために適用され得る。
【0339】
いくつかの実施形態では、本明細書に開示される方法は、腫瘍負荷をモニタリングおよび/または予測するために適用され得る。
【0340】
いくつかの実施形態では、本明細書に開示される方法は、手術後の残存腫瘍を検出および/または予測するために適用され得る。
【0341】
いくつかの実施形態では、本明細書に開示される方法は、処置後の微小残存病変を検出および/または予測するために適用され得る。
【0342】
いくつかの実施形態では、本明細書に開示される方法は、再発を検出および/または予測するために適用され得る。
【0343】
ある態様において、本明細書に開示される方法は、二次スクリーニングとして適用され得る。
【0344】
ある態様において、本明細書に開示される方法は、一次スクリーニングとして適用され得る。
【0345】
ある態様において、本明細書に開示される方法は、癌の発症をモニタリングするために適用され得る。
【0346】
ある態様において、本明細書に開示される方法は、癌のリスクをモニタリングおよび/または予測するために適用され得る。
【0347】
VII.癌の同定またはモニタリング
データセットを処理するために訓練されたアルゴリズムを使用した後、少なくとも2つの癌型が、対象において同定またはモニタリングされ得る。同定は、癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)に少なくとも部分的に基づき得る。
【0348】
ある実施形態では、対象において2つ以上の癌型が同定またはモニタリングされ、別の実施形態では、対象において3つ以上の癌型が同定またはモニタリングされ、別の実施形態では、対象において4つ以上の癌型が同定またはモニタリングされ、別の実施形態では、対象において5つ以上の癌型が同定またはモニタリングされ、別の実施形態では、6つ以上の癌型が対象において同定またはモニタリングされ、別の実施形態では、7つ以上の癌型が対象において同定またはモニタリングされ、別の実施形態では、8つ以上の癌型が対象において同定またはモニタリングされ、別の実施形態では、9つ以上の癌型が対象において同定またはモニタリングされ、別の実施形態では、10以上の癌型が対象において同定またはモニタリングされる。
【0349】
癌は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%。少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の精度で、対象において同定され得る。訓練されたアルゴリズムによって癌を同定する精度は、癌を有するかまたは有していないと正確に同定または分類される独立した試験試料(例えば、癌を有することが知られた対象または癌の臨床試験結果が陰性である対象)の割合として計算することができる。
【0350】
癌は、対象において、少なくとも約5%、少なくとも約10%少なくとも約15%少なくとも約20%同一視される場合がある(少なくとも約25%)、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の、陽性予測値(PPV)を有する対象において同定され得る。訓練されたアルゴリズムを用いて癌を同定するPPVは、真に癌を有する対象に対応する、癌を有すると同定または分類された無細胞生体試料のパーセンテージとして計算され得る。
【0351】
癌は、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の、陰性予測値(NPV)を有する対象において同定され得る。訓練されたアルゴリズムを用いて癌を同定するNPVは、真に癌を有していない対象に対応する、癌を有していないと同定または分類された無細胞生体試料のパーセンテージとして計算され得る。
【0352】
癌は、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれ以上の臨床感度を有する対象において同定され得る。訓練されたアルゴリズムを用いて癌を同定する臨床的感度は、癌を有するものとして正確に同定または分類される、癌の存在に関連する独立した試験試料(例えば、癌を有することが知られる対象)の割合として計算され得る。
【0353】
癌は、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれ以上の、臨床特異性を有する対象において同定され得る。訓練されたアルゴリズムを用いて癌を同定する臨床的感度は、癌を有するものとして正確に同定または分類される、癌の不在に関連する独立した試験試料(例えば、癌について陰性の臨床試験結果がある対象)の割合として計算され得る。
【0354】
いくつかの実施形態では、訓練されたアルゴリズムは、対象が、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれ以上の、癌のリスクにあることを決定し得る。
【0355】
訓練されたアルゴリズムは、対象が少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれ以上の精度で、癌のリスクがあることを決定し得る。
【0356】
A.テーラード(Tailored)多癌シグネチャーパネル
いくつかの実施形態では、多癌(multicancer)検出アッセイバイオマーカーパネルは、そのシグネチャーパネルでその後の分析においてアッセイされる異なる癌型について選択される、試験特性を含む。ある実施形態では、試験特性は、スクリーニング目標およびシグネチャーパネルマーカーの選択から確認され得る。例えばファーストラインスクリーニング試験(first line screening test)のために、いくつかの癌は、臨床的に許容可能な特異性でより大きな感度を必要とする場合があり、一方、他の癌は、その後の精密診断の利益とリスクにより、臨床的に許容可能な感度で非常に高い特異性を必要とし得る。さらに、パフォーマンス特性は、無症候性、平均的リスクの個体、または症候性、高リスクの個体のいずれかにおいて、試験がスクリーニングに先行するか、補完するか、または認められたスクリーニング方法に従うかに依存し、またはそうでなければスクリーニングされていない癌についての新しいフロントラインスクリーニングを表す。例えば、「不必要な」大腸内視鏡検査をもたらす大腸癌(CRC)の偽陽性スクリーニングの患者への影響は、診断を確認するための「不必要な」大きな腹部手術をもたらす膵臓癌または卵巣癌の偽陽性スクリーニングのものとは有意に異なる。シグネチャーパネルマーカーの選択と組み合わされたとき、多癌検出バイオマーカーパネルは、スクリーニング目標、確認試験、および利用可能なその後の処置のために適合される(tailored)方法およびシステムを提供する。
【0357】
表18は、複数の癌検出試験のためのスクリーニング試験特性を要約する。一態様において、表18に示される2つ以上の癌型またはそれらの組合せに対する癌診断および確認診断の必要性に基づいて検出される癌の型に対する試験特性感度および特異性を提供するように多癌パネルが適合される方法が提供される。
【0358】
【0359】
一実施形態では、多癌試験は、膵臓癌、子宮癌、または卵巣癌を検出するためのマーカーを含み、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも99%の特異性を有する。
【0360】
一実施形態では、多癌試験は、大腸癌、肝臓癌、食道癌、または膀胱癌を検出するためのマーカーを含み、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%の感度を有する。
【0361】
一実施形態では、多癌試験は、乳癌、前立腺癌、肺癌、または甲状腺癌を検出するためのマーカーを含み、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%の特異性を有する。
【0362】
対象がある癌型を有すると同定されると、対象は、任意選択で、治療的介入(例えば、対象の癌を処置するための適切な処置過程を処方すること)を提供され得る。治療的介入は、薬物の有効用量の処方、癌のさらなる試験または評価、癌のさらなるモニタリング、またはそれらの組合せを含み得る。対象が現在、ある処置過程により癌の処置を受けている場合、治療的介入は、(例えば、現在の治療過程の非有効性により、処置有効性を増加させるための)その後の異なる処置過程を含み得る。
【0363】
治療的介入は、癌の診断を確認するための二次臨床試験を対象に推奨することを含み得る。この二次臨床試験は、イメージング試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴イメージング(MRI)スキャン、超音波スキャン、胸部X線、陽電子放出断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞診、FIT試験、FOBT試験、またはそれらの任意の組合せを含み得る。
【0364】
癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、大腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)は、患者(例えば、癌を有する対象または癌の処置を受けている対象)をモニタリングするためにある期間にわたって評価され得る。このような場合、患者のデータセットの定量的尺度は、治療の過程で変化し得る。例えば、有効な処置に起因して癌のリスクが減少している患者のデータセットの定量的尺度は、健康な対象(例えば、癌を有していない対象)のプロファイルまたは分布に向かってシフトし得る。逆に、例えば、無効な処置に起因して癌のリスクが増加している患者のデータセットの定量的尺度は、その癌またはより進行した癌のリスクがより高い対象のプロファイルまたは分布に向かってシフトし得る。
【0365】
対象の癌は、対象の癌を処置するための処置過程をモニタリングすることによってモニタリングされ得る。モニタリングは、2つ以上の時点で対象の癌を評価することを含み得る。評価は、少なくとも、2つ以上の時点の各々において決定された癌関連ゲノム遺伝子座のパネルの定量的尺度を含む、癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)に基づき得る。
【0366】
いくつかの実施形態では、2つ以上の時点の間で決定された癌関連ゲノム遺伝子座のパネルの定量的尺度を含む、癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)の差は、(i)対象の癌の診断などの1つ以上の臨床的指標、(ii)対象の癌の予後、(iii)対象の癌のリスクの増加、(iv)対象の癌のリスクの減少、(v)対象の癌を治療するための処置過程の有効性、および(vi)対象の癌を処置するための処置過程の非有効性などの、指標となり得る。
【0367】
いくつかの実施形態では、2つ以上の時点間で決定された癌関連ゲノム遺伝子座のパネルの定量的尺度を含む癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定)の差は、対象の癌の診断の指標となり得る。例えば、癌が、より早い時点で対象において検出されなかったが、より遅い時点で対象において検出されたならば、差は、対象の癌の診断の指標となる。臨床的処置または決定は、例えば、対象に対する新しい治療的介入を処方するなど、対象の癌の診断のこの指標に基づいて行われ得る。臨床上の行動または決定は、対象に癌の診断を確認するための二次臨床試験を推奨することを含み得る。この二次臨床試験は、イメージング試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴イメージング(MRI)スキャン、超音波スキャン、胸部X線、陽電子放出断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞診、FIT試験、FOBT試験、またはそれらの任意の組合せを含み得る。
【0368】
いくつかの実施形態では、2つ以上の時点間で決定された癌関連ゲノム遺伝子座のパネルの定量的尺度を含む癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)の差は、対象の癌の予後の指標となり得る。
【0369】
いくつかの実施形態では、2つ以上の時点間で決定された癌関連ゲノム遺伝子座のパネルの定量的尺度を含む、癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度の差(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定)は、対象が癌のリスクの増加を有することの指標となり得る。例えば、対象において、大腸癌がより早い時点およびより遅い時点の両方で検出された場合、および差が正の差である場合(例えば、癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)が、より早い時点からより遅い時点までに増加)、その差は、対象が有する癌のリスクが増加したことの指標となり得る。臨床的処置または決定は、癌の増加したリスクのこの指標に基づいてなされる場合があり、例えば、対象に対して新たな治療的介入を処方すること、または治療的介入を切り替えること(例えば、現在の処置を終了し、新しい処置を処方する)であり得る。臨床上の行動または決定は、対象に癌のリスクの増加を確認するための二次臨床試験を推奨することを含み得る。この二次臨床試験は、イメージング試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴イメージング(MRI)スキャン、超音波スキャン、胸部X線、陽電子放出断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞診、FIT試験、FOBT試験、またはそれらの任意の組合せを含み得る。
【0370】
いくつかの実施形態では、2つ以上の時点の間で決定された大腸癌関連ゲノム遺伝子座のパネルの定量的尺度を含む、癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度の差(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定)は、対象が癌のリスクの減少を有することの指標となり得る。 例えば、癌が、より早い時点とより遅い時点の両方において対象において検出された場合、および差が負の差である場合(例えば、癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、大腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)がより早い時点からより遅い時点までに減少)、その差は、対象が有する大腸癌のリスクが減少したことの指標となり得る。臨床上の処置または決定が、対象の癌のリスクの減少のこの指標に基づいてなされ得る(例えば、現在の治療介入を継続あるいは終了する)。臨床上の行動または決定は、対象に大腸癌のリスクの減少を確認するための二次臨床試験を推奨することを含み得る。この二次臨床試験は、イメージング試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴イメージング(MRI)スキャン、超音波スキャン、胸部X線、陽電子放出断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞診、FIT試験、FOBT試験、またはそれらの任意の組合せを含み得る。
【0371】
いくつかの実施形態では、2つ以上の時点間で決定された癌関連ゲノム遺伝子座のパネルの定量的尺度を含む癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)の差は、対象の癌を処置するための処置過程の有効性の指標となり得る。例えば、癌が、より早い時点で対象において検出されなかったが、より遅い時点で対象において検出されたならば、差は、対象の癌を処置するための処置過程の有効性の指標となり得る。臨床上の処置または決定が、対象の癌を処置するための処置過程の有効性のこの指標に基づいてなされ得、例えば、現在の治療介入を継続するか、あるいは終了する。臨床上の行動または決定は、対象に癌を処置するための処置過程の有効性を確認するための二次臨床試験を推奨することを含み得る。この二次臨床試験は、イメージング試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴イメージング(MRI)スキャン、超音波スキャン、胸部X線、陽電子放出断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞診、FIT試験、FOBT試験、またはそれらの任意の組合せを含み得る。
【0372】
いくつかの実施形態では、2つ以上の時点間で決定された癌関連ゲノム遺伝子座のパネルの定量的尺度を含む癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)の差は、対象の癌を処置するための処置過程の非有効性の指標となり得る。 例えば、癌が、より早い時点とより遅い時点の両方において対象において検出された場合、および差が正または0の差である場合(例えば、癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的尺度(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的尺度)がより早い時点から増加または一定レベルを維持)、ならびに効果的な処置がより早い時点で示された場合、差は、対象の癌を処置するための処置過程の非有効性の指標となり得る。臨床上の処置または決定が、対象の癌を処置するための処置過程の非有効性のこの指標に基づいてなされ得、例えば、対象のために、現在の治療介入を終了および/または異なる新たな治療介入へと変更する。臨床上の行動または決定は、対象に癌を処置するための処置過程の非有効性を確認するための二次臨床試験を推奨することを含み得る。この二次臨床試験は、イメージング試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴イメージング(MRI)スキャン、超音波スキャン、胸部X線、陽電子放出断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞診、FIT試験、FOBT試験、またはそれらの任意の組合せを含み得る。
【0373】
VIII.キット
本開示は、対象における2以上の癌を同定またはモニタリングするためのキットを提供する。キットは、対象の無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的尺度(例えば、存在、非存在、あるいは相対量を示す)を同定するためのプローブを含む。無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的尺度(例えば、存在、非存在、または相対量を示す)は、1つ以上の癌を示し得る。プローブは、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の配列に対して選択的であり得る。キットには、プローブを使用して上記無細胞の生体試料を処理し、対象の無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的尺度を示す(例えば、存在、非存在、または相対量を示す)データセットを生成するための説明書が含まれる。
【0374】
キット中のプローブは、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座における配列に対して選択的であり得る。キット中のプローブは、複数の癌関連ゲノム遺伝子座に対応する核酸(例えば、RNAまたはDNA)分子を選択的に濃縮するように構成され得る。キット中のプローブは、核酸プライマーであってもよい。キット中のプローブは、1つ以上の複数の癌関連ゲノム遺伝子座またはゲノム領域からの核酸配列との配列相補性を有し得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17を含み得る。少なくとも18、少なくとも19、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、またはそれ以上の、異なる癌関連ゲノム遺伝子座またはゲノム領域を含み得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、表1~17に列挙される領域からなる群から選択される1つ以上のメンバーを含み得る。
【0375】
キット中の説明書には、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座における配列に選択的なプローブを使用して、無細胞の生体試料を分析する説明書が含まれる。これらのプローブは、複数の癌関連ゲノム遺伝子座の1つ以上からの核酸配列(例えば、RNAまたはDNA)との配列相補性を有する核酸分子(例えば、RNAまたはDNA)であり得る。これらの核酸分子は、プライマーまたは濃縮配列であり得る。無細胞の生体試料を分析するための説明書には、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的尺度を示す(例えば、存在、非存在、あるいは相対量を示す)データセットを生成するために、無細胞の生体試料を処理するべく、アレイハイブリダイゼーション、ポリメラーゼ連鎖反応(PCR)、または核酸配シーケンシング(例えば、DNAシーケンシング、あるいはRNAシーケンシング)を実施する導入が含まれ得る。無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的尺度(例えば、存在、非存在、または相対量を示す)は、1つ以上の癌を示し得る。
【0376】
キット中の説明書には、測定およびアッセイ読み出し値の解釈のための説明書が含まれ、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的尺度を示す(例えば、存在、非存在、あるいは相対量を示す)データセットを生成するために、複数の癌関連ゲノム遺伝子座の1つ以上で定量化され得る。例えば、複数の癌関連ゲノム遺伝子座に対応するアレイハイブリダイゼーションあるいはポリメラーゼ連鎖反応(PCR)を定量化すると、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的尺度を示す(例えば、存在、非存在、あるいは相対量を示す)データセットを生成することができる。アッセイのリードアウトは、定量的PCR(qPCR)値、デジタルPCR(dPCR)値、デジタル液滴PCR(ddPCR)値、蛍光値など、またはそれらの正規化値を含み得る。
【実施例】
【0377】
実施例1:多癌型の検出のためのメチル化領域の選択
複数の型の癌を検出および鑑別可能なシグネチャーパネルを設計するために、様々な型の癌においてメチル化されていて癌型(腫瘍または癌性細胞)の起源組織を判定するために使用することができるcfDNAの領域を同定した。DNAのメチル化領域の多癌シグネチャーパネルを設計するために2つの原理
(i)「汎癌(pan-cancer)」と考えることができて複数の型の癌においてメチル化され得る領域を含む、異なる癌型のスクリーニングに有用な領域の同定、および
(ii)目的とする1つの癌のみにおいてメチル化または過剰メチル化され、かつ他の癌型またはどんな癌も持たない対象においてはメチル化されない領域を含む、腫瘍の起源組織(tissue of origin of the tumor)(TOO)を判定するために有用な領域の同定
が使用される。
【0378】
TCGAおよびEPICアレイデータ分析
TCGA 450Kアレイデータを分析に使用した。33の癌型(癌および正常組織データを含む)についての450Kメチル化アレイの生idatファイルをTCGAウェブサイトからダウンロードした。各プローブのベータ値を、RパッケージSeSAMeを使用して計算した。CpG濃淡パネル(CpG dense light panel)(CpGdv2)中の各領域に、その領域に重複するすべてのプローブの平均ベータ値を割り当てた。表19は、得られた癌および正常組織データの数を示す。
【0379】
【0380】
分析に使用した公開血液EPICアレイデータは、GEO(Blood、GSE110555、67試料)からダウンロードした。公開血液データをEPICアレイ上で生成したため、TCGA 450Kアレイデータと重複するプローブのみを使用した。CpG濃淡パネルの各領域に、TCGAデータについて上述した手順と同様のベータ値を割り当てた。
【0381】
単変量分析
癌対正常組織について(正常組織データを有する全ての癌について)、および癌対血液について(全ての癌について)、CpG濃淡パネルにおける各領域についての単変量AUCを計算した。癌対血液および癌対正常組織の比較の両方について、単変量AUC≧0.9を有する領域を、下流の分析のために保持した。これにより、合計3840の領域が得られ、6349802bpのサイズに達した。
【0382】
Metilene分析
非癌試料からのデータを除いて、TCGAからの450Kメチル化アレイ組織データに対してMetilene分析を実施した。OpenSesame Rパイプラインを用いて正規化したプローブベータ値を使用した。0.05以下のq値を有する差次的メチル化領域(DMR)が保持された。これらの領域の、CpG密度パネルとの重複を調べた。各組織型において、各CpG密度領域を、Metileneによって検出されものとして、または検出されなかったものとして、注釈した。この情報は、単一の組織において検出された領域を同定するために使用され、複数の組織に対する起源組織を検出するために使用され得る。これは、合計3498の領域をもたらし、4276029bpのサイズに達した。
【0383】
単変量分析とmetilene分析との間の重複
~2.2Mb(1681領域)は、単変量分析とmetilene分析との間で重複した。これらの領域をさらに下流分析に使用し、後述する組織TEM-seqデータのHMFC分析からの領域との重複に基づいてフィルタリングした。
【0384】
図2は、これら1681領域のベータ値のヒートマップを提供し、これらの領域も同様に由来の腫瘍を判定するために有用なシグナルを含有し得ることを示す。異なる腫瘍型は、大きく異なる群にクラスター化する。ヒートマップは、分析から同定された領域からのベータ値のクラスタリングを示す。結腸腺癌(COAD)および直腸腺癌(READ)は共にクラスター化した。肺扁平上皮癌(LUSC)および肺腺癌(LUAD)は、主に2つの独立した群を形成し、少数の試料が重複した。この分析における全領域サイズは~2.2Mbであった。
【0385】
TCGA分析からの起源組織領域の同定
TCGA分析からの単変量分析とメチレン分析が重複する1681の領域について、1つの癌型のみにDMRを有するTOOの推定リストを定義した。1つ対他の全ての癌型について単変量分析を行い、組織型についてmetilene分析と単変量分析との間で合致する領域を保持することによって、これらの領域を検証した。癌について≧0.75の単変量AUCを有する領域をDMRとみなし、一方、他の全ての癌型について<0.65のAUCを、TCGA分析からの最終的な推定TOOリストのために保持した。この分析により、合計サイズが103,554bpの79の領域が得られた。
【0386】
組織メチル-seqデータの分析
FF(フラッシュ凍結)組織遡及的試料を得た。それから単離されたDNAをメチル化-配列法でシーケンシングした。得られた各組織試料の試料数を表20に示す。
【0387】
【0388】
自動セグメント化
オートセグメンテーションパイプラインの修正バージョンを使用して、各癌型に対する妥当な領域境界を定義した。フィルタリングされたbamファイルとフィルタリングされていないbamファイルを各癌型について作成した。ピクルファイルを作成し、改変されたオートセグメンテーションパイプラインに入力して、癌試料ではメチル化を有するが、健康血漿試料ではほとんど或いは全くメチル化されない領域を同定した。
【0389】
特徴選択のための癌対血漿モデルにおける過剰メチル化断片分析
過剰メチル化断片分析を使用し、各癌についてセグメント化領域にわたって要約した。上位の特徴を同定するために、過剰メチル化断片分析を、癌対血漿モデルについて、5回のリシャッフルで5倍のCVを使用して実施し、少なくとも1倍で選択され、90パーセンタイルを超える平均効果サイズを有する領域を保持した。これにより、合計領域サイズが643185bpの845の領域が得られた。
【0390】
癌対他の全ての癌モデルにおける推定TOO特徴選択のための過剰メチル化断片分析
各癌型について、関心対象の癌では過剰メチル化されているが、他の癌ではメチル化されていない領域を同定した。これを達成するために、高メチル化断片分析を使用し、全ての25倍で選択され、平均効果サイズが100または99パーセンタイル値未満であった領域を保持した。これにより、合計サイズが86,129bpの141領域がもたらされた。
【0391】
最終的な多癌パネル設計手順
metilene差次的メチル化領域分析とメチル化断片組織methyl-seq分析との両方に重複するTCGA単変量分析からの領域を、TCGAまたはmethyl-seq組織データ分析のいずれかから同定された推定TOO領域と組み合わせて、多癌シグネチャーパネルを得た。これにより、合計サイズが512,123bpである合計417のメチル化領域が得られた。
【0392】
図3は、多癌パネルに含まれる領域のヒートマップを示す。ヒートマップは、このより小さいサブセットでさえ、異なる癌型の間の明確な分離を示す。ヒートマップは、分析から同定された領域からのベータ値のクラスタリングを示す。結腸腺癌(COAD)および直腸腺癌(READ)は共にクラスター化した。肺扁平上皮癌(LUSC)および肺腺癌(LUAD)は、主に2つの独立した群を形成し、少数の試料が重複した。
【国際調査報告】