(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-06-13
(54)【発明の名称】核酸のメチル化分析による結腸直腸癌を検出するための方法およびシステム
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20230606BHJP
G16B 30/00 20190101ALI20230606BHJP
C12N 15/11 20060101ALI20230606BHJP
G16B 40/20 20190101ALI20230606BHJP
C12N 15/09 20060101ALN20230606BHJP
【FI】
C12Q1/6869 Z
G16B30/00
C12N15/11
G16B40/20
C12N15/09 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022559477
(86)(22)【出願日】2021-03-29
(85)【翻訳文提出日】2022-11-29
(86)【国際出願番号】 US2021024604
(87)【国際公開番号】W WO2021202351
(87)【国際公開日】2021-10-07
(32)【優先日】2020-03-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】521040846
【氏名又は名称】フリーノム ホールディングス,インク.
(74)【復代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(74)【代理人】
【識別番号】100082072
【氏名又は名称】清原 義博
(72)【発明者】
【氏名】エスティー.ジョン,ジョン
(72)【発明者】
【氏名】ケーテン-ヒル,スティーブン
(72)【発明者】
【氏名】ヤン,ルイ
(72)【発明者】
【氏名】ドレイク,アダム
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QA17
4B063QA19
4B063QQ03
4B063QQ42
4B063QQ52
4B063QQ58
4B063QR08
4B063QR32
4B063QR62
4B063QS10
4B063QS14
4B063QS25
4B063QS28
4B063QS39
(57)【要約】
本開示は、結腸直腸癌または以下の結腸直腸疾患の進行をスクリーニングまたは検出するための、無細胞DNAなどの無細胞核酸に適用され得る方法およびシステムを提供する。この方法は、入力特徴として同定されたゲノム領域における単一シーケンシングリード内のメチル化シグナルの検出を使用して、機械学習モデルをトレーニングし、個体の集団を階層化するのに有用な分類子を生成することができる。この方法は、対象から得られた無細胞試料からDNAを抽出すること、DNAをメチル化シーケンシングのために変換すること、シーケンシングリードを生成すること、およびシーケンシング情報中の結腸増殖性細胞障害関連シグナルを検出すること、および機械学習モデルをトレーニングして対象集団において、健康、癌などの群を識別するか、または疾患のサブタイプもしくはステージを識別することができる識別子を提供することを含み得る。この方法は、例えば、治療に対する応答、腫瘍負荷、再発または結腸直腸癌発症について予測、予後判定および/またはモニタリングするために使用され得る。
【選択図】
図1
【特許請求の範囲】
【請求項1】
結腸細胞増殖性障害に特徴的なメチル化シグネチャパネルであって、
表11からなる群から選択される1つまたは複数のメチル化ゲノム領域を含み、前記1つまたは複数の領域が、結腸細胞増殖性障害または結腸細胞増殖性障害サブタイプを有する個体からの生物学的試料においてメチル化の程度が高く、結腸細胞増殖性障害を有しない個体における正常組織および正常血球においてメチル化の程度が低い、メチル化シグネチャパネル。
【請求項2】
前記生物学的試料が、核酸、DNA、RNAまたは無細胞核酸(cfDNAまたはcfRNA)である、請求項1記載のメチル化シグネチャパネル。
【請求項3】
前記シグネチャパネルが、表11からなる群より選択される2つ以上のゲノム領域におけるメチル化の増加を含む、請求項1記載のメチル化シグネチャパネル。
【請求項4】
前記結腸細胞増殖性障害が、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される、請求項1記載のメチル化シグネチャパネル。
【請求項5】
前記結腸細胞増殖性障害が、ステージ1結腸直腸癌、ステージ2結腸直腸癌、ステージ3結腸直腸癌、およびステージ4結腸直腸癌からなる群から選択される、請求項1記載のメチル化シグネチャパネル。
【請求項6】
前記シグネチャパネルが、表1~11の2つ以上のメチル化ゲノム領域、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域を含む、請求項1記載のメチル化シグネチャパネル。
【請求項7】
前記シグネチャパネルが、IKZF1、KCNQ5、ELMO1、CHST2、PRKCBおよびFLI1からなる群から選択される1つまたは複数のゲノム領域中のメチル化領域を含む、結腸直腸癌でメチル化されたゲノム領域を含む、請求項1記載のメチル化シグネチャパネル。
【請求項8】
結腸直腸癌でメチル化された前記領域が、IKZF1、KCNQ5およびELMO1ゲノム領域からなる群から選択されるメチル化領域を含む、請求項1記載のメチル化シグネチャパネル。
【請求項9】
結腸直腸癌でメチル化された前記領域が、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72BおよびST3GAL1からなる群から選択される1つまたは複数のゲノム領域のメチル化領域を含む、請求項1記載のメチル化シグネチャパネル。
【請求項10】
前記シグネチャパネルが、表1、表2、表3、表4、表5、表6、表7、表8、表9、表10および表11からなる群より選択されるメチル化ゲノム領域を含む、請求項1記載のメチル化シグネチャパネル。
【請求項11】
結腸細胞増殖性障害に特徴的なメチル化シグネチャパネルであって、
表1~11からなる群から選択される2つ以上のメチル化ゲノム領域を含み、前記2つ以上の領域が、結腸細胞増殖性障害または結腸細胞増殖性障害サブタイプを有する個体からの生物学的試料においてメチル化の程度が高く、結腸細胞増殖性障害を有しない個体における正常組織および正常血球においてメチル化の程度が低い、メチル化シグネチャパネル。
【請求項12】
前記生物学的試料が、核酸、DNA、RNAまたは無細胞核酸である、請求項11記載のメチル化シグネチャパネル。
【請求項13】
前記シグネチャパネルが、表1~11からなる群より選択される6つ以上のゲノム領域におけるメチル化の増加を含む、請求項11記載のメチル化シグネチャパネル。
【請求項14】
前記結腸細胞増殖性障害が、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される、請求項11記載のメチル化シグネチャパネル。
【請求項15】
前記結腸細胞増殖性障害が、ステージ1結腸直腸癌、ステージ2結腸直腸癌、ステージ3結腸直腸癌、およびステージ4結腸直腸癌からなる群から選択される、請求項11記載のメチル化シグネチャパネル。
【請求項16】
前記シグネチャパネルが、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域を含む、請求項11記載のメチル化シグネチャパネル。
【請求項17】
前記シグネチャパネルが、IKZF1、KCNQ5、ELMO1、CHST2、PRKCBおよびFLI1からなる群から選択される1つまたは複数のゲノム領域中のメチル化領域を含む、結腸直腸癌でメチル化されたゲノム領域を含む、請求項11記載のメチル化シグネチャパネル。
【請求項18】
結腸直腸癌でメチル化された前記領域が、IKZF1、KCNQ5およびELMO1ゲノム領域からなる群から選択されるメチル化領域を含む、請求項11記載のメチル化シグネチャパネル。
【請求項19】
結腸直腸癌でメチル化された前記領域が、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72BおよびST3GAL1からなる群から選択される1つまたは複数のゲノム領域のメチル化領域を含む、請求項11記載のメチル化シグネチャパネル。
【請求項20】
前記シグネチャパネルが、表1、表2、表3、表4、表5、表6、表7、表8、表9、表10および表11からなる群より選択されるメチル化ゲノム領域を含む、請求項11記載のメチル化シグネチャパネル。
【請求項21】
結腸細胞増殖性障害を有する個体から健康な個体の集団を識別することができる機械学習分類子であって、
a)請求項1記載の差次的にメチル化されたゲノム領域を表す測定値のセットを含み、前記測定値が、健康な対象および結腸細胞増殖性障害を有する対象からのメチル化シーケンシングデータから得られ、
b)前記測定値が、前記差次的にメチル化されたゲノム領域の特性に対応する特徴のセットを生成するために使用され、そこで前記特徴が機械学習モデルまたは統計モデルに入力され、
c)前記モデルが、健康な個体の集団を結腸細胞増殖性障害を有する個体から識別することができる分類子として有用な特徴ベクトルを提供する、機械学習分類子。
【請求項22】
前記測定値のセットが、CpG、CHG、CHHについてのベースワイズ(base wise)メチル化率、領域内のメチル化CpGの異なるカウントまたは割合を有する断片を観察するカウントまたは割合、変換効率(100-CHHについての平均メチル化率)、低メチル化ブロック、メチル化レベル(CPG、CHH、CHGの全体平均メチル化、断片長、断片中間点、断片あたりのメチル化CpG数、断片あたりの総CpGに対するCpGメチル化の割合、領域あたりの総CpGに対するCpGメチル化の割合、パネル内の総CpGに対するCpGメチル化の割合、ジヌクレオチドカバレッジ(ジヌクレオチドの正規化されたカバレッジ)、カバレッジの均一性(1xおよび10xの平均ゲノムカバレッジ(S4ランについて)での固有のCpG部位、全体的な平均CpGカバレッジ(深度)、ならびにCpGアイランド、CGIシェルフおよびCGIショアでの平均カバレッジからなる群から選択されるメチル化領域の特徴を説明する、請求項21記載の分類子。
【請求項23】
結腸細胞増殖性障害を検出するための機械学習モデル分類子を含むシステムであって、
a)メチル化シグネチャパネルに基づいて、前記結腸細胞増殖性障害を有するものとして、または前記結腸細胞増殖性障害を有しないものとして対象を分類するように操作可能な分類子を含むコンピュータ可読媒体、および
b)前記コンピュータ可読媒体に記憶された命令を実行するための1つまたは複数のプロセッサを含む、システム。
【請求項24】
コンピュータシステムのメモリにロードされた請求項21に記載の分類子を含み、前記機械学習モデルが、トレーニング生物学的試料、結腸細胞増殖性障害を有すると同定された前記トレーニング生物学的試料の第1のサブセット、および結腸細胞増殖性障害を有さないと同定された前記トレーニング生物学的試料の第2のサブセットから得られたトレーニングベクトルを使用してトレーニングされる、請求項23記載のシステム。
【請求項25】
個体からの無細胞デオキシリボ核酸(cfDNA)試料のメチル化プロファイルを決定する方法であって、
a)前記cfDNA試料の核酸分子において非メチル化シトシンをウラシルに変換することができる条件を提供して、複数の変換された核酸を生成すること、
b)前記複数の変換された核酸を、表1~11からなる群から選択される少なくとも2つの差次的にメチル化された領域の予め同定されたメチル化シグネチャパネルに相補的な核酸プローブと接触させて、前記シグネチャパネルに対応する配列を富化すること、
c)前記複数の変換された核酸分子の核酸配列を決定すること、および
d)前記複数の変換された核酸分子の核酸配列を参照核酸配列にアラインメントし、それにより前記個体のメチル化プロファイルを決定することを含む、方法。
【請求項26】
前記複数の変換された核酸を増幅することをさらに含む、請求項25記載の方法。
【請求項27】
前記増幅がポリメラーゼ連鎖反応(PCR)を含む、請求項26記載の方法。
【請求項28】
前記変換された核酸分子の核酸配列を、1000x超、2000x超、3000x超、4000x超または5000x超の深度で決定することをさらに含む、請求項25記載の方法。
【請求項29】
前記参照核酸配列が、ヒト参照ゲノムの少なくとも一部である、請求項25記載の方法。
【請求項30】
前記ヒト参照ゲノムがhg18である、請求項29記載の方法。
【請求項31】
前記予め同定されたメチル化シグネチャパネルが、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域を含む、請求項25記載の方法。
【請求項32】
前記予め同定されたメチル化シグネチャパネルが、表11における1つ以上のメチル化ゲノム領域、表11における2つ以上のメチル化ゲノム領域、または表11における3つのメチル化ゲノム領域を含む、請求項31記載の方法。
【請求項33】
前記メチル化プロファイルが、前記個体における結腸細胞増殖性障害の存在または非存在を示す、請求項25記載の方法。
【請求項34】
前記結腸細胞増殖性障害が、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される、請求項33記載の方法。
【請求項35】
前記結腸細胞増殖性障害が、ステージ1結腸直腸癌、ステージ2結腸直腸癌、ステージ3結腸直腸癌、またはステージ4結腸直腸癌からなる群から選択される、請求項33記載の方法。
【請求項36】
対象における結腸細胞増殖性障害の存在または非存在を検出する方法であって、
a)前記対象から得られた、または由来する生物学的試料の核酸分子において非メチル化シトシンをウラシルに変換することができる条件を提供して、複数の変換された核酸を生成すること、
b)前記複数の変換された核酸を、表1~11からなる群から選択される少なくとも2つの差次的にメチル化された領域の予め同定されたメチル化シグネチャパネルに相補的な核酸プローブと接触させて、前記シグネチャパネルに対応する配列を富化すること、
c)前記変換された核酸分子の核酸配列を決定すること、
d)前記複数の変換された核酸分子の核酸配列を参照核酸配列にアラインメントし、それにより前記個体のメチル化プロファイルを決定すること、および
e)トレーニングされた機械学習分類子を前記メチル化プロファイルに適用することを含み、前記機械学習分類子が、健康な個体と結腸細胞増殖性障害を有する個体とを識別して、結腸細胞増殖性障害の存在に関連する出力値を提供し、それによって前記対象における前記結腸細胞増殖性障害の存在または非存在を検出することができるようにトレーニングされる、方法。
【請求項37】
前記対象から得られる生物学的試料が、無細胞DNA、無細胞RNA、体液、便、結腸排出物、尿、血漿、血清、全血、単離血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される、請求項36記載の方法。
【請求項38】
前記複数の変換された核酸を増幅することをさらに含む、請求項36記載の方法。
【請求項39】
前記増幅がポリメラーゼ連鎖反応(PCR)を含む、請求項38記載の方法。
【請求項40】
前記変換された核酸分子の核酸配列を、1000x超、2000x超、3000x超、4000x超または5000x超の深度で決定することをさらに含む、請求項36記載の方法。
【請求項41】
前記参照核酸配列が、ヒト参照ゲノムの少なくとも一部である、請求項36記載の方法。
【請求項42】
前記ヒト参照ゲノムがhg18である、請求項41記載の方法。
【請求項43】
前記予め同定されたメチル化シグネチャパネルが、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域を含む、請求項36記載の方法。
【請求項44】
前記予め同定されたメチル化シグネチャパネルが、表11における1つ以上のメチル化ゲノム領域、表11における2つ以上のメチル化ゲノム領域、または表11における3つのメチル化ゲノム領域を含む、請求項43記載の方法。
【請求項45】
前記個体における前記結腸細胞増殖性障害の存在の検出に基づいて、前記結腸細胞増殖性障害の治療を前記個体に投与することをさらに含む、請求項36記載の方法。
【請求項46】
前記結腸細胞増殖性障害が、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される、請求項36記載の方法。
【請求項47】
前記結腸細胞増殖性障害が結腸直腸癌を含む、請求項36記載の方法。
【請求項48】
前記結腸細胞増殖性障害が、ステージ1結腸直腸癌、ステージ2結腸直腸癌、ステージ3結腸直腸癌、およびステージ4結腸直腸癌からなる群から選択される、請求項36記載の方法。
【請求項49】
前記トレーニングされた機械学習分類子が、深層学習分類子、ニューラルネットワーク分類子、線形判別分析(LDA)分類子、二次判別分析(QDA)分類子、サポートベクターマシン(SVM)分類子、ランダムフォレスト(RF)分類子、線形カーネルサポートベクターマシン分類子、一次または二次多項式カーネルサポートベクターマシン分類子、リッジ回帰分類子、弾性ネットアルゴリズム分類子、逐次最小問題最適化アルゴリズム分類子、ナイーブベイズアルゴリズム分類子、および主成分分析分類子からなる群から選択される、請求項36記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年3月31日に出願された米国仮特許出願第63/002,878号の利益を主張し、その内容は参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
本開示は、一般に、癌の検出および疾患のモニタリングに関する。より詳細には、本分野は、早期結腸直腸癌(CRC)における癌関連DNAメチル化検出および疾患モニタリングに関する。癌のスクリーニングおよびモニタリングは、早期検出により癌が広がる前に除去され得るため、より良好な転帰をもたらすことから、過去数十年にわたって転帰の改善の助けになっている可能性がある。例えば、CRCの場合、大腸内視鏡検査の使用は、早期診断を向上させる役割を果たし得る。残念なことに、推奨される規則性において適切ではないスクリーニングを含む患者のコンプライアンスに起因して生じる課題が存在し得る。
【0003】
任意のスクリーニングツールの主な問題は、不必要な調査につながる偽陽性結果と、無効性である偽陰性結果(または特異性と感度)との間の妥協であり得る。理想的な検査は、不必要な調査を最小限に抑えるが、大部分の癌を検出する、高い陽性的中率(PPV)を有する検査であり得る。別の重要な要素は、検査感度と区別するための、いわゆる「検出感度」であり得、それは腫瘍の大きさに関する検出の下限である。残念ながら、腫瘍が検出に必要なレベルで循環腫瘍マーカーを放出するのに十分な大きさに成長するのを待つことは、治療が最も効果的である段階で腫瘍を治療するための早期検出の要件と矛盾する可能性がある。したがって、循環分析物に基づく早期CRCの効果的な血液ベースのスクリーニングが必要とされている。
【0004】
循環腫瘍DNAの検出は、非侵襲的な方法で腫瘍の検出および有益な調査を可能にする、実行可能な「液体生検」としてますます認識されている。場合によっては、腫瘍特異的変異の同定を使用して、これらの技術が結腸癌、乳癌および前立腺癌に適用されている。循環中に存在する正常な(例えば、非腫瘍由来)DNAのバックグラウンドが高いため、これらの技術は感度が制限され得る。
【0005】
血液中の腫瘍特異的メチル化の検出は、突然変異の検出を上回る明確な利点を提供し得る。いくつかの単一または複数のメチル化バイオマーカーが、肺癌、結腸癌および乳癌を含む癌において評価され得る。これらは、腫瘍において十分に行き渡っていない可能性があるため、低感度を欠点とし得る。
【0006】
再発における早期または低腫瘍負荷の結腸直腸癌腫瘍シグナルを検出するための、より高感度かつ特異的なスクリーニングツール、およびリスク集団における一次スクリーニングが依然として必要とされている。
【発明の概要】
【0007】
本開示は、結腸直腸癌の検出および疾患の進行に関連する遺伝子のメチル化プロファイリングに関する方法およびシステムを提供する。
【0008】
一態様では、本開示は、結腸細胞増殖性障害の特徴的なメチル化シグネチャパネルであって、表11からなる群から選択される1つまたは複数のメチル化ゲノム領域を含み、1つまたは複数の領域が、結腸細胞増殖性障害または結腸細胞増殖性障害サブタイプを有する個体からの生物学的試料においてメチル化の程度が高く、結腸細胞増殖性障害を有しない個体における正常組織および正常血球においてメチル化の程度が低い、メチル化シグネチャパネルを提供する。
【0009】
いくつかの実施形態では、生物学的試料は、核酸、DNA、リボ核酸(RNA)、または無細胞核酸(例えば、cfDNAまたはcfRNA)である。
【0010】
いくつかの実施形態では、ゲノム領域は、非コーディング領域、コーディング領域、または非転写もしくは調節領域である。
【0011】
いくつかの実施形態では、シグネチャパネルは、表11からなる群より選択される2つ以上のゲノム領域におけるメチル化の増加を含む。
【0012】
いくつかの実施形態では、対象から得られる生物学的試料は、無細胞DNA、無細胞RNA、体液、便、結腸排出物、尿、血漿、血清、全血、単離血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される。
【0013】
いくつかの実施形態において、結腸細胞増殖性障害は、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。
【0014】
いくつかの実施形態では、結腸細胞増殖性障害は、ステージ1結腸直腸癌、ステージ2結腸直腸癌、ステージ3結腸直腸癌、またはステージ4結腸直腸癌からなる群から選択される。
【0015】
いくつかの実施形態では、シグネチャパネルは、表1~11の2つ以上のメチル化ゲノム領域、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域を含む。
【0016】
いくつかの実施形態では、シグネチャパネルは、ITGA4、EMBP1、TMEM163、SFMBT2、ELMOおよびZNF543からなる群から選択される1つまたは複数のゲノム領域中のメチル化領域を含む、結腸直腸癌でメチル化されたゲノム領域を含む。
【0017】
いくつかの実施形態では、結腸直腸癌でメチル化された領域は、ITGA4およびEMBP1ゲノム領域の両方におけるメチル化領域を含む。
【0018】
いくつかの実施形態では、結腸直腸癌でメチル化された領域は、ITGA4、EMBP1、TMEM163、SFMBT2、ELMO、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1およびPPP1R16Bからなる群から選択される1つまたは複数のゲノム領域中のメチル化領域を含む。
【0019】
いくつかの実施形態において、シグネチャパネルは、表1、表2、表3、表4、表5、表6、表7、表8、表9、表10および表11からなる群より選択されるメチル化ゲノム領域を含む。
【0020】
別の態様では、本開示は、結腸細胞増殖性障害の特徴的なメチル化シグネチャパネルであって、表1~11の2つ以上のメチル化ゲノム領域を含み、2つ以上の領域が、結腸細胞増殖性障害または結腸細胞増殖性障害サブタイプを有する個体からの生物学的試料においてメチル化の程度が高く、結腸細胞増殖性障害を有しない個体における正常組織および正常血球においてメチル化の程度が低い、メチル化シグネチャパネルを提供する。
【0021】
いくつかの実施形態では、生物学的試料は、核酸、DNA、リボ核酸(RNA)または無細胞核酸(cfDNAまたはcfRNA)である。
【0022】
いくつかの実施形態では、ゲノム領域は、非コーディング領域、コーディング領域、または非転写もしくは調節領域である。
【0023】
いくつかの実施形態では、シグネチャパネルは、表1~11の6個以上、または12個以上のゲノム領域におけるメチル化の増加を含む。
【0024】
いくつかの実施形態では、対象から得られる生物学的試料は、無細胞DNA、無細胞RNA、体液、便、結腸排出物、尿、血漿、血清、全血、単離血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される。
【0025】
いくつかの実施形態において、結腸細胞増殖性障害は、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。
【0026】
いくつかの実施形態では、結腸細胞増殖性障害は、ステージ1結腸直腸癌、ステージ2結腸直腸癌、ステージ3結腸直腸癌、またはステージ4結腸直腸癌からなる群から選択される。
【0027】
いくつかの実施形態では、シグネチャパネルは、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域を含む。
【0028】
いくつかの実施形態では、シグネチャパネルは、ITGA4、EMBP1、TMEM163、SFMBT2、ELMOおよびZNF543からなる群から選択される1つまたは複数のゲノム領域中のメチル化領域を含む、結腸直腸癌でメチル化されたゲノム領域を含む。
【0029】
いくつかの実施形態では、結腸直腸癌でメチル化された領域は、ITGA4およびEMBP1ゲノム領域の両方におけるメチル化領域を含む。
【0030】
いくつかの実施形態では、結腸直腸癌でメチル化された領域は、ITGA4、EMBP1、TMEM163、SFMBT2、ELMO、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1およびPPP1R16Bからなる群から選択される1つまたは複数のゲノム領域中のメチル化領域を含む。
【0031】
いくつかの実施形態において、シグネチャパネルは、表1、表2、表3、表4、表5、表6、表7、表8、表9、表10および表11からなる群より選択されるメチル化領域を含む。
【0032】
別の態様では、本開示は、結腸細胞増殖性障害を有する個体から健康な個体の集団を識別することができる分類子(例えば、機械学習分類子)を提供し、分類子は、a)差次的にメチル化されたゲノム領域を表す測定値であって、健康な対象および結腸細胞増殖性障害を有する対象からのメチル化シーケンシングデータから得られる測定値のセットを含み、b)測定値を使用して、差次的にメチル化されたゲノム領域の特性に対応する特徴のセットを生成し、特徴が機械学習モデルまたは統計モデルに入力され、c)モデルが、健康な個体の集団を結腸細胞増殖性障害を有する個体から識別することができる分類子として有用な特徴ベクトルを提供する。
【0033】
いくつかの実施形態では、測定値のセットは、CpG、CHG、CHHについてのベースワイズ(base wise)メチル化率、領域内のメチル化CpGの異なるカウントまたは割合を有する断片を観察するカウントまたは割合、変換効率(100-CHHについての平均メチル化率)、低メチル化ブロック、メチル化レベル(CPG、CHH、CHGの全体平均メチル化、断片長、断片中間点、および1つ以上のゲノム領域、例えばchrM、LINE1、またはALUにおけるメチル化レベル)、断片あたりのメチル化CpG数、断片あたりの総CpGに対するCpGメチル化の割合、領域あたりの総CpGに対するCpGメチル化の割合、パネル内の総CpGに対するCpGメチル化の割合、ジヌクレオチドのカバレッジ(ジヌクレオチドの正規化されたカバレッジ)、カバレッジの均一性(lxおよび10xの平均ゲノムカバレッジ(S4ランについて)での固有のCpG部位、全体的な平均CpGカバレッジ(深度)、ならびにCpGアイランド、CGIシェルフおよびCGIショアでの平均カバレッジからなる群から選択されるメチル化領域の特徴を説明する。
【0034】
いくつかの実施形態では、分類子を含む機械学習モデルは、コンピュータシステムのメモリにロードされ、機械学習モデルは、トレーニング生物学的試料、結腸細胞増殖性障害を有すると同定されたトレーニング生物学的試料の第1のサブセット、および結腸細胞増殖性障害を有さないと同定されたトレーニング生物学的試料の第2のサブセットから得られたトレーニングベクトルを使用してトレーニングされる。
【0035】
いくつかの実施形態では、分類子は、a)メチル化シグネチャパネルに基づいて、結腸細胞増殖性障害を有するものとして、または結腸細胞増殖性障害を有しないものとして対象を分類するように操作可能な分類子を含むコンピュータ可読媒体、およびb)コンピュータ可読媒体に記憶された命令を実行するための1つまたは複数のプロセッサを含む、結腸細胞増殖性障害を検出するためのシステムにおいて提供される。
【0036】
いくつかの実施形態では、システムは、深層学習分類子、ニューラルネットワーク分類子、線形判別分析(LDA)分類子、二次判別分析(QDA)分類子、サポートベクターマシン(SVM)分類子、ランダムフォレスト(RF)分類子、線形カーネルサポートベクターマシン分類子、一次または二次多項式カーネルサポートベクターマシン分類子、リッジ回帰分類子、弾性ネットアルゴリズム分類子、逐次最小問題最適化アルゴリズム分類子、ナイーブベイズアルゴリズム分類子、および主成分分析分類子からなる群から選択される機械学習分類子として構成される分類回路を備える。
【0037】
いくつかの実施形態では、コンピュータ可読媒体は、1つまたは複数のコンピュータプロセッサによって実行されると、上記または本明細書の他の場所の方法のいずれかを実施する機械実行可能コードを含む非一時的なコンピュータ可読媒体である。
【0038】
いくつかの実施形態では、システムは、1つまたは複数のコンピュータプロセッサと、それに接続されたコンピュータメモリとを備える。コンピュータメモリは、1つまたは複数のコンピュータプロセッサによって実行されると、本明細書に記載の方法のいずれかを実施する機械実行可能コードを含む。
【0039】
別の態様では、本開示は、個体からの無細胞デオキシリボ核酸(cfDNA)試料のメチル化プロファイルを決定する方法であって、a)cfDNA試料の核酸分子において非メチル化シトシンをウラシルに変換することができる条件を提供して、複数の変換された核酸を生成すること、b)複数の変換された核酸を、表1~11からなる群から選択される少なくとも2つの差次的にメチル化された領域の予め特定されたメチル化シグネチャパネルに相補的な核酸プローブと接触させて、シグネチャパネルに対応する配列を富化すること、c)複数の変換された核酸分子の核酸配列を決定すること、およびd)複数の変換された核酸分子の核酸配列を参照核酸配列にアラインメントし、それにより個体のメチル化プロファイルを決定することを含む、方法を提供する。
【0040】
いくつかの実施形態において、核酸シーケンシングライブラリーは、増幅の前に調製される。いくつかの実施形態では、方法は、複数の変換された核酸を増幅することをさらに含む。いくつかの実施形態では、増幅はポリメラーゼ連鎖反応(PCR)を含む。いくつかの実施形態では、方法は、1000x超、2000x超、3000x超、4000x超または5000x超の深度で変換された核酸分子の核酸配列を決定することをさらに含む。いくつかの実施形態において、参照核酸配列は、ヒト参照ゲノムの少なくとも一部である。いくつかの実施形態において、ヒト参照ゲノムは、hg18である。
【0041】
いくつかの実施形態では、メチル化プロファイルは、結腸細胞増殖性障害に関連し、結腸細胞増殖性障害を有する対象の分類を提供する。
【0042】
いくつかの実施形態では、固有の分子識別子を含む核酸アダプターは、a)の前にcfDNA試料中の未変換核酸にライゲーションされる。
【0043】
いくつかの実施形態では、核酸分子は、化学的方法、酵素的方法、またはそれらの組み合わせを使用して、シトシンからウラシルへの変換条件に供される。
【0044】
いくつかの実施形態では、生物学的試料中のcfDNAを、重亜硫酸塩、亜硫酸水素塩、二亜硫酸塩、およびそれらの組み合わせからなる群から選択される試薬で処理する。
【0045】
いくつかの実施形態では、対象から得られる生物学的試料は、無細胞DNA、無細胞RNA、体液、便、結腸排出物、尿、血漿、血清、全血、単離血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される。
【0046】
いくつかの実施形態において、方法は、対象由来の測定されたメチル化シグネチャパネルを、正常な対象由来の測定されたメチル化シグネチャパネルの、コンピュータシステムに保存されているデータベースに対して適用すること、メチルシグネチャパネルのメチル化状態において、正常な対象からのメチル化状態と比較して少なくとも1%、少なくとも2%、少なくとも3%、少なくとも4%、少なくとも5%、少なくとも6%、少なくとも7%、少なくとも8%、少なくとも9%、少なくとも10%、少なくとも11%、少なくとも12%、少なくとも13%、少なくとも14%、少なくとも15%、少なくとも16%、少なくとも17%、少なくとも18%、少なくとも19%、または少なくとも20%の変化を測定することによって、対象の結腸細胞増殖性障害を有するリスクの増加を判定すること。
【0047】
いくつかの実施形態では、予め同定されたメチル化シグネチャパネルは、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域を含む。いくつかの実施形態において、予め同定されたメチル化シグネチャパネルは、表11における1つ以上のメチル化ゲノム領域、表11における2つ以上のメチル化ゲノム領域、または表11における3つのメチル化ゲノム領域を含む。いくつかの実施形態では、メチル化プロファイルは、個体における結腸細胞増殖性障害の存在または非存在を示す。
【0048】
いくつかの実施形態において、結腸細胞増殖性障害は、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。
【0049】
いくつかの実施形態では、結腸細胞増殖性障害は、ステージ1結腸直腸癌、ステージ2結腸直腸癌、ステージ3結腸直腸癌、およびステージ4結腸直腸癌からなる群から選択される。
【0050】
別の態様では、本開示は、対象における結腸細胞増殖性障害の存在または非存在を検出する方法であって、a)対象から得られた、または由来する生物学的試料の核酸分子において非メチル化シトシンをウラシルに変換することができる条件を提供して、複数の変換された核酸を生成すること、b)複数の変換された核酸を、表1~11からなる群から選択される少なくとも2つの差次的にメチル化された領域の予め同定されたメチル化シグネチャパネルに相補的な核酸プローブと接触させて、シグネチャパネルに対応する配列を富化すること、c)複数の変換された核酸分子の核酸配列を決定すること、d)複数の変換された核酸分子の核酸配列を参照核酸配列にアラインメントし、それにより個体のメチル化プロファイルを決定すること、およびe)トレーニングされた機械学習モデルをメチル化プロファイルに適用することを含む方法を提供し、機械学習モデルは、健康な個体と結腸細胞増殖性障害を有する個体とを識別して、結腸細胞増殖性障害の存在に関連する出力値を提供し、それによって対象における結腸細胞増殖性障害の存在または非存在を検出することができるようにトレーニングされている。
【0051】
いくつかの実施形態において、核酸シーケンシングライブラリーは、増幅の前に調製される。いくつかの実施形態では、方法は、複数の変換された核酸を増幅することをさらに含む。いくつかの実施形態では、増幅はポリメラーゼ連鎖反応(PCR)を含む。いくつかの実施形態では、方法は、1000x超、2000x超、3000x超、4000x超または5000x超の深度で変換された核酸分子の核酸配列を決定することをさらに含む。いくつかの実施形態において、参照核酸配列は、ヒト参照ゲノムの少なくとも一部である。いくつかの実施形態において、ヒト参照ゲノムは、hg18である。
【0052】
いくつかの実施形態では、対象から得られる生物学的試料は、無細胞DNA、無細胞RNA、体液、便、結腸排出物、尿、血漿、血清、全血、単離血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される。
【0053】
いくつかの実施形態において、方法は、対象由来の測定されたメチル化シグネチャパネルを、正常な対象由来の測定されたメチル化シグネチャパネルの、コンピュータシステムに保存されているデータベースに対して適用すること、メチルシグネチャパネルのメチル化状態において、正常な対象からのメチル化状態と比較して少なくとも1%、少なくとも2%、少なくとも3%、少なくとも4%、少なくとも5%、少なくとも6%、少なくとも7%、少なくとも8%、少なくとも9%、少なくとも10%、少なくとも11%、少なくとも12%、少なくとも13%、少なくとも14%、少なくとも15%、少なくとも16%、少なくとも17%、少なくとも18%、少なくとも19%、または少なくとも20%の変化を測定することによって、対象の結腸細胞増殖性障害を有するリスクの増加を判定すること。
【0054】
いくつかの実施形態では、予め同定されたメチル化シグネチャパネルは、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域を含む。いくつかの実施形態において、予め同定されたメチル化シグネチャパネルは、表11における1つ以上のメチル化ゲノム領域、表11における2つ以上のメチル化ゲノム領域、または表11における3つのメチル化ゲノム領域を含む。いくつかの実施形態では、メチル化プロファイルは、個体における結腸細胞増殖性障害の存在または非存在を示す。いくつかの実施形態では、方法は、個体における結腸細胞増殖性障害の存在の検出に基づいて、結腸細胞増殖性障害の治療を個体に投与することをさらに含む。
【0055】
いくつかの実施形態において、結腸細胞増殖性障害は、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。
【0056】
いくつかの実施形態では、トレーニングされた機械学習分類子は、深層学習分類子、ニューラルネットワーク分類子、線形判別分析(LDA)分類子、二次判別分析(QDA)分類子、サポートベクターマシン(SVM)分類子、ランダムフォレスト(RF)分類子、線形カーネルサポートベクターマシン分類子、一次または二次多項式カーネルサポートベクターマシン分類子、リッジ回帰分類子、弾性ネットアルゴリズム分類子、逐次最小問題最適化アルゴリズム分類子、ナイーブベイズアルゴリズム分類子、および主成分分析分類子からなる群から選択される機械学習分類子として構成される分類回路を備える。
【0057】
いくつかの実施形態では、結腸細胞増殖性障害は、ステージ1結腸直腸癌、ステージ2結腸直腸癌、ステージ3結腸直腸癌、およびステージ4結腸直腸癌からなる群から選択される。
【0058】
別の態様では、本開示は、疾患について過去に治療された対象における微小残存病変をモニタリングする方法であって、ベースラインメチル化状態として本明細書に記載のメチル化プロファイルを決定することと、分析を繰り返して、1つまたは複数の所定の時点でのメチル化プロファイルを決定することとを含む方法を提供し、ここでベースラインからの変化は、対象のベースラインにおける微小残存病変の変化を示す。
【0059】
いくつかの実施形態では、微小残存病変は、治療に対する応答、腫瘍負荷、術後残存腫瘍、再発、二次スクリーニング、一次スクリーニングおよび癌進行からなる群から選択される。
【0060】
別の態様では、治療に対する応答を決定するための方法が提供される。
【0061】
別の態様では、腫瘍負荷をモニタリングするための方法が提供される。
【0062】
別の態様では、術後の残存腫瘍を検出する方法が提供される。
【0063】
別の態様では、再発を検出するための方法が提供される。
【0064】
別の態様では、二次スクリーニングとして使用するための方法が提供される。
【0065】
別の態様では、一次スクリーニングとして使用するための方法が提供される。
【0066】
別の態様では、癌の進行をモニタリングするための方法が提供される。
【0067】
いくつかの実施形態では、データセットは、少なくとも約80%の感度で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約90%の感度で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約95%の感度で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約70%の陽性的中率(PPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約80%の陽性的中率(PPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約90%の陽性的中率(PPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約95%の陽性的中率(PPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約99%の陽性的中率(PPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約80%の陰性的中率(NPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約90%の陰性的中率(NPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約95%の陰性的中率(NPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、データセットは、少なくとも約99%の陰性的中率(NPV)で結腸直腸癌の存在または罹病性を示す。いくつかの実施形態では、トレーニングされたアルゴリズムが、少なくとも約0.90の曲線下面積(AUC)で対象の結腸直腸癌の存在または罹病性を判定する。いくつかの実施形態では、トレーニングされたアルゴリズムが、少なくとも約0.95の曲線下面積(AUC)で対象の結腸直腸癌の存在または罹病性を判定する。いくつかの実施形態では、トレーニングされたアルゴリズムが、少なくとも約0.99の曲線下面積(AUC)で対象の結腸直腸癌の存在または罹病性を判定する。
【0068】
いくつかの実施形態では、方法は、ユーザの電子デバイスのグラフィカルユーザインターフェースにレポートを提示することをさらに含む。いくつかの実施形態では、ユーザは、対象、個体または患者である。
【0069】
いくつかの実施形態では、方法は、対象、個体または患者における結腸直腸癌の存在または罹病性の判定の尤度を測定することをさらに含む。例えば、尤度は、0%~100%の確率値であってもよい。
【0070】
いくつかの実施形態では、トレーニングされたアルゴリズム(例えば、機械学習モデルまたは分類子)は、教師あり機械学習アルゴリズムを含む。いくつかの実施形態では、教師あり機械学習アルゴリズムは、深層学習アルゴリズム、サポートベクターマシン(SVM)、ニューラルネットワーク、またはランダムフォレストを含む。
【0071】
いくつかの実施形態において、方法は、少なくとも部分的にメチル化プロファイルまたは分析に基づく治療的介入、例えば、結腸直腸癌を有する患者を治療するための治療的介入(例えば、化学療法、放射線療法、免疫療法または外科手術)を前記対象に提供することをさらに含む。
【0072】
いくつかの実施形態では、方法は、結腸直腸癌の存在または罹病性をモニタリングすることをさらに含み、前記モニタリングは、複数の時点での前記対象の結腸直腸癌の存在または罹病性を評価することを含み、評価することは、複数の時点のそれぞれで決定された結腸直腸癌の存在または罹病性に少なくとも基づく。
【0073】
いくつかの実施形態では、対象の結腸直腸癌の存在または罹病性の複数の時点間での評価の差は、(i)対象の結腸直腸癌の存在または罹病性の診断、(ii)対象の結腸直腸癌の存在または罹病性の予後、および(iii)対象の結腸直腸癌の存在または罹病性を治療するための治療過程の有効性または非有効性からなる群から選択される1つまたは複数の臨床的指標を示す。
【0074】
いくつかの実施形態では、方法は、トレーニングされたアルゴリズムを使用して、結腸直腸癌の複数の異なるサブタイプまたはステージの中から対象の結腸直腸癌のサブタイプを決定することによって、対象の結腸直腸癌を階層化することをさらに含む。
【0075】
本開示の別の態様は、1つまたは複数のコンピュータプロセッサによって実行されると、上記または本明細書の他の場所の方法のいずれかを実施する機械実行可能コードを含む非一時的なコンピュータ可読媒体を提供する。
【0076】
本開示の別の態様は、1つまたは複数のコンピュータプロセッサと、それに接続されたコンピュータメモリとを備えるシステムを提供する。コンピュータメモリは、1つまたは複数のコンピュータプロセッサによって実行されると、本明細書の上記または他の場所の方法のいずれかを実施する機械実行可能コードを含む。
【0077】
本開示のさらなる態様および利点は、本開示の例示的に過ぎない実施形態が示され説明される以下の詳細な説明から、当業者には容易に明らかになるであろう。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な観点で修正が可能である。したがって、図面および説明は、本質的に例示とみなされるべきであり、限定とみなされるべきではない。
【0078】
参照による組み込み
本明細書で言及されるすべての刊行物、特許、および特許出願は、あたかも各個々の刊行物、特許、または特許出願が参照により組み込まれることが具体的かつ個別に示されているのと同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が本明細書に含まれる開示と矛盾する範囲において、本明細書は、そのような矛盾する資料を更新、および/またはそれに優先することを意図している。
【図面の簡単な説明】
【0079】
ここで、本開示の例を、添付の図面を参照して、単なる例として説明する。本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を示す以下の詳細な説明、および添付の図面(本明細書ではさらに「図(Figure)」および「図(FIG.)」)を参照することによって得られるであろう。
【0080】
【
図1】本明細書で提供される方法を実施するために機械学習モデルおよび分類子でプログラムまたは構成された、コンピュータシステムの概略図を提供する。
【
図2】表1の領域でトレーニングされたモデルの4倍クロスバリデーションのための曲線下面積(AUC)曲線を提供する。
【
図3A】分類モデルでトレーニングされたCRCの様々なステージにおける試料の一連の曲線下面積(AUC)曲線を提供する。
図3Aは、ステージ1を有する患者における、CRCを検出し、早期癌を識別するこれらの示差的メチル化領域(DMR)の能力を示すROC結果を示す。
【
図3B】分類モデルでトレーニングされたCRCの様々なステージにおける試料の一連の曲線下面積(AUC)曲線を提供する。
図3Bは、ステージ2を有する患者における、CRCを検出し、早期癌を識別するこれらの示差的メチル化領域(DMR)の能力を示すROC結果を示す。
【
図3C】分類モデルでトレーニングされたCRCの様々なステージにおける試料の一連の曲線下面積(AUC)曲線を提供する。
図3Cは、ステージ3を有する患者における、CRCを検出し、早期癌を識別するこれらの示差的メチル化領域(DMR)の能力を示すROC結果を示す。
【
図3D】分類モデルでトレーニングされたCRCの様々なステージにおける試料の一連の曲線下面積(AUC)曲線を提供する。
図3Dは、ステージ4を有する患者における、CRCを検出し、早期癌を識別するこれらの示差的メチル化領域(DMR)の能力を示すROC結果を示す。
【
図3E】分類モデルでトレーニングされたCRCの様々なステージにおける試料の一連の曲線下面積(AUC)曲線を提供する。
図3Eは、欠落(missing)ステージを有する患者における、CRCを検出し、早期癌を識別するこれらの示差的メチル化領域(DMR)の能力を示すROC結果を示す。
【
図3F】分類モデルでトレーニングされたCRCの様々なステージにおける試料の一連の曲線下面積(AUC)曲線を提供する。
図3Fは、全試料における、CRCを検出し、早期癌を識別するこれらの示差的メチル化領域(DMR)の能力を示すROC結果を示す。
【発明を実施するための形態】
【0081】
本発明の様々な実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。当業者であれば、本発明から逸脱することなく、多数の変形、変更、および置換を行うことができる。本明細書に記載の本発明の実施形態に対する様々な代替形態が使用され得ることを理解されたい。
【0082】
本開示は、一般に、癌の検出および疾患のモニタリングに関する。より詳細には、本分野は、早期結腸直腸癌における癌関連DNAメチル化検出および疾患モニタリングに関する。癌のスクリーニングおよびモニタリングは、早期検出により癌が広がる前に除去され得るため、より良好な転帰をもたらすことから、過去数十年にわたって転帰の改善の助けになっている可能性がある。例えば、結腸直腸癌の場合、大腸内視鏡検査の使用は、早期診断を向上させる役割を果たし得る。残念なことに、推奨される規則性において適切ではないスクリーニングを含む患者のコンプライアンスに起因して生じる課題が存在し得る。
【0083】
任意のスクリーニングツールの主な問題は、不必要な調査につながる偽陽性結果と、無効性である偽陰性結果(または特異性と感度)との間の妥協であり得る。理想的な検査は、不必要な調査を最小限に抑えるが、大部分の癌を検出する、高い陽性的中率(PPV)を有する検査であり得る。別の重要な要素は、検査感度と区別するための、いわゆる「検出感度」であり得、それは腫瘍の大きさに関する検出の下限である。残念ながら、腫瘍が検出に必要なレベルで循環腫瘍マーカーを放出するのに十分な大きさに成長するのを待つことは、治療が最も効果的である段階で腫瘍を治療するための早期検出の要件と矛盾する可能性がある。したがって、循環分析物に基づく早期結腸直腸癌の効果的な血液ベースのスクリーニングが必要とされている。
【0084】
循環腫瘍DNAの検出は、非侵襲的な方法で腫瘍の検出および有益な調査を可能にする、実行可能な「液体生検」としてますます認識されている。場合によっては、腫瘍特異的変異の同定を使用して、これらの技術が結腸癌、乳癌および前立腺癌に適用されている。循環中に存在する正常な(例えば、非腫瘍由来)DNAのバックグラウンドが高いため、これらの技術は感度が制限され得る。
【0085】
血液中の腫瘍特異的メチル化の検出は、突然変異の検出を上回る明確な利点を提供し得る。いくつかの単一または複数のメチル化バイオマーカーが、肺癌、結腸癌および乳癌を含む癌において評価され得る。これらは、腫瘍において十分に行き渡っていない可能性があるため、低感度を欠点とし得る。
【0086】
再発における早期または低腫瘍負荷の結腸直腸癌腫瘍シグナルを検出するための、より高感度かつ特異的なスクリーニングツール、およびリスク集団における一次スクリーニングが依然として必要とされている。
【0087】
本開示は、結腸直腸癌の検出および疾患の進行に関連する遺伝子のメチル化プロファイリングに関する方法およびシステムを提供する。
【0088】
一態様では、本開示は、領域または遺伝子内のメチル化の分析に有用なメチル化領域のパネルを使用する方法を提供し、他の態様は、領域、遺伝子および遺伝子産物の新規な使用、ならびに結腸細胞増殖性障害の検出、区別および識別に関する方法、アッセイおよびキットを提供する。本明細書で提供される方法および核酸は、腺癌、腺腫、ポリープ、扁平上皮癌、カルチノイド腫瘍、肉腫およびリンパ腫からなる群から選択される結腸細胞増殖性障害の分析に使用され得る。
【0089】
いくつかの実施形態では、方法は、メチル化領域からなる群より選択される1つまたは複数の遺伝子の、結腸細胞増殖性障害の識別、検出および区別のためのマーカーとしての使用を含む。遺伝子の使用は、本明細書に記載のメチル化領域およびそれらのプロモーターまたは調節エレメントから選択される1つまたは複数の遺伝子のメチル化状態の分析によって可能になり得る。
【0090】
本開示の方法およびシステムは、本明細書に記載のメチル化領域による配列およびそれに相補的な配列の1つまたは複数におけるCpGジヌクレオチドのメチル化状態の分析を含み得る。
【0091】
I.定義
本明細書および特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈上他に明確に指示されない限り、複数の言及を含む。例えば、「核酸」という用語は、それらの混合物を含む複数の核酸を含む。
【0092】
本明細書で使用される場合、「対象」という用語は、一般に、試験可能または検出可能な遺伝情報を有する実体または媒体を指す。対象は、人、個体、または患者であり得る。対象は、例えば哺乳動物などの脊椎動物であり得る。哺乳動物の非限定的な例としては、ヒト、サル、家畜、スポーツ動物、げっ歯動物およびペットが挙げられる。対象は、癌を有するかまたは癌を有すると疑われる人物であり得る。対象は、対象の健康または生理学的状態または状況、例えば、対象の癌または他の疾患、障害または状態を示す症候を呈する場合がある。代替として、対象は、そのような健康または生理学的な状態または状況に関して無症候であり得る。
【0093】
本明細書で使用される場合、「試料」という用語は、一般に、1人以上の対象から得られるか、またはそれに由来する生物学的試料を指す。生物学的試料は、無細胞生物学的試料もしくは実質的に無細胞生物学的試料であり得るか、または処理もしくは分画化して無細胞生物学的試料を作製してもよい。例えば、無細胞生物学的試料は、無細胞リボ核酸(cfRNA)、無細胞デオキシリボ核酸(cfDNA)、無細胞胎児DNA(cffDNA)、血漿、血清、尿、唾液、羊水、およびそれらの誘導体を含み得る。無細胞生物学的試料は、エチレンジアミン四酢酸(EDTA)コレクションチューブ、無細胞RNAコレクションチューブ(例えば、Streck(登録商標))、または無細胞DNAコレクションチューブ(例えば、Streck(登録商標))を使用して対象から得るか、または対象に由来してもよい。無細胞生物学的試料は、分画(例えば、細胞成分および無細胞成分への遠心分離)によって全血試料から誘導され得る。生物学的試料またはその誘導体は、細胞を含有し得る。例えば、生物学的試料は、血液試料またはその誘導体(例えば、コレクションチューブによって収集された血液または血液滴)であり得る。
【0094】
本明細書で使用される場合、「核酸」という用語は、一般に、デオキシリボヌクレオチド(dNTP)またはリボヌクレオチド(rNTP)、またはそれらの類似体のいずれかの、任意の長さのヌクレオチドのポリマー形態を指す。核酸は、任意の三次元構造を有することができ、既知または未知の任意の機能を果たすことができる。核酸の非限定的な例としては、デオキシリボ核酸(DNA)、リボ核酸(RNA)、遺伝子または遺伝子断片のコーディング領域または非コーディング領域、連鎖解析から定義される遺伝子座(1つの遺伝子座)、エクソン、イントロン、メッセンジャーRNA(mRNA)、トランスファーRNA、リボソームRNA、短鎖干渉RNA(siRNA)、短鎖ヘアピンRNA(shRNA)、マイクロRNA(miRNA)、リボザイム、cDNA、組換え核酸、分岐核酸、プラスミド、ベクター、任意の配列の単離DNA、任意の配列の単離RNA、核酸プローブおよびプライマーが挙げられる。核酸は、1つまたは複数の修飾ヌクレオチド、例えばメチル化ヌクレオチドおよびヌクレオチド類似体を含み得る。存在する場合、ヌクレオチド構造に対する修飾は、核酸の構築の前または後に行われ得る。核酸のヌクレオチドの配列は、非ヌクレオチド成分によって中断され得る。核酸は、重合後に、例えばレポーター剤とのコンジュゲーションまたは結合によってさらに修飾され得る。
【0095】
本明細書で使用される場合、「標的核酸」という用語は、一般に、その存在、量、および/もしくは配列、またはこれらの1つ以上の変化が決定されることが望ましいヌクレオチド配列を有する核酸分子の出発集団中の核酸分子を指す。標的核酸は、DNA、RNAおよびそれらの類似体を含む任意のタイプの核酸であり得る。本明細書で使用される場合、「標的リボ核酸(RNA)」は、一般に、RNAである標的核酸を指す。本明細書で使用される場合、「標的デオキシリボ核酸(DNA)」は、一般に、DNAである標的核酸を指す。
【0096】
本明細書で使用される場合、「増幅する」および「増幅」という用語は、一般に、核酸分子のサイズまたは量を増加させることを指す。核酸分子は、一本鎖または二本鎖であり得る。増幅は、核酸分子の1つ以上のコピーまたは「増幅産物」を生成することを含み得る。増幅は、例えば、伸長(例えば、プライマー伸長)またはライゲーションによって行われ得る。増幅は、プライマー伸長反応を実施して、一本鎖核酸分子に相補的な鎖を生成すること、および場合によっては、鎖および/または一本鎖核酸分子の1つまたは複数のコピーを生成することを含み得る。「DNA増幅」という用語は、一般に、DNA分子または「増幅DNA産物」の1つまたは複数のコピーを生成することを指す。「逆転写増幅」という用語は、一般に、逆転写酵素の作用によるリボ核酸(RNA)鋳型からのデオキシリボ核酸(DNA)の生成を指す。
【0097】
本明細書で使用される場合「無細胞核酸(cfNA)」という用語は、一般に、細胞に含まれない生物学的試料中の核酸(無細胞RNA(「cfRNA」)または無細胞DNA(「cfDNA」)など)を指す。cfDNAは、体液、例えば血流中で自由に循環することができる。
【0098】
本明細書で使用される「無細胞試料」という用語は、一般に、インタクトな細胞を実質的に含まない生物学的試料を指す。これは、それ自体が細胞を実質的に含まない生物学的試料に由来し得るか、または細胞が除去された試料に由来し得る。無細胞試料の例は、血液由来のもの、例えば血清または血漿、尿、または他のソースに由来する試料、例えば、精液、痰、糞便、管滲出液、リンパ液、または回収された洗浄液を含む。
【0099】
本明細書で使用される「循環腫瘍DNA」という用語は、一般に、腫瘍に由来するcfDNAを指す。
【0100】
本明細書で使用される「ゲノム領域」という用語は、一般に、染色体中の位置によって同定される核酸の同定された領域を指す。いくつかの例において、ゲノム領域は、遺伝子名によって示され、核酸のその物理的領域に関連するコーディング領域および非コーディング領域を包含する。本明細書で使用される場合、遺伝子は、コーディング領域(エクソン)、非コーディング領域(イントロン)、転写制御または他の調節領域、およびプロモーターを含む。別の例では、ゲノム領域は、指定された遺伝子内にイントロンまたはエクソンまたはイントロン/エクソン境界を組み込んでもよい。
【0101】
本明細書で使用される「CpGアイランド」という用語は、一般に、以下の基準を満たすゲノムDNAの連続領域を指す。(1)約0.6を超える「観測/期待比」に対応するCpGジヌクレオチドの頻度を有する、および(2)約0.5を超える「GC含量」を有する。CpGアイランドは、常にではないが、典型的には、約0.2~約3キロベース(kb)の長さであり、高い頻度のCpG部位を有する。CpGアイランドは、哺乳動物遺伝子の約40%のプロモーターにおいて、またはその近傍に見出される。CpGアイランドは、哺乳動物遺伝子の外側にも見出される。いくつかの例では、CpGアイランドは、エクソン、イントロン、プロモーター、エンハンサー、阻害剤、および転写調節エレメントに見られる。CpGアイランドは、いわゆる「ハウスキーピング遺伝子」の上流に発生する傾向があり得る。CpGアイランドは、統計的に予想されるものの少なくとも約60%のCpGジヌクレオチド含量を有すると言われ得る。遺伝子の5’末端またはその上流におけるCpGアイランドの発生は、転写の調節における役割を反映することができ、遺伝子のプロモーター内のCpG部位のメチル化は、サイレンシングをもたらすことができる。同様に、メチル化による腫瘍抑制因子のサイレンシングは、多くのヒト癌の顕著な特徴である。
【0102】
本明細書で使用される「CpGショア」という用語は、一般に、メチル化も起こり得るCpGアイランドから短距離に広がる領域を指す。CpGショアは、CpGアイランドの上流および下流の約0~2kbの領域に見られ得る。
【0103】
本明細書で使用される「CpGシェルフ」という用語は、一般に、メチル化も起こり得るCpGショアから短距離に広がる領域を指す。CpGシェルフは、一般に、CpGアイランドの上流および下流の約2kb~4kbの領域に見られ得る(例えば、CpGショアからさらに2kb延出する)。
【0104】
本明細書で使用される「結腸細胞増殖性障害」という用語は、一般に、結腸または直腸内の細胞の無秩序または異常な増殖を含む障害または疾患を指す。いくつかの例において、結腸細胞増殖性障害は、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。
【0105】
本明細書で使用される「エピジェネティックパラメータ」という用語は、一般にシトシンメチル化を指す。さらなるエピジェネティックパラメータには、例えば、ヒストンのアセチル化が含まれ、これは、記載された方法を使用して直接分析することはできないが、順にDNAメチル化と相関する。
【0106】
本明細書で使用される「遺伝的パラメータ」という用語は、一般に、遺伝子および配列の、それらの調節にさらに必要とされる変異および多型を指す。変異の例としては、挿入、欠失、点変異、逆位、およびSNP(一塩基多型)などの多型が挙げられる。
【0107】
本明細書で使用される「半メチル化」または「ヘミメチル化」という用語は、一般に、回文CpGメチル化部位のメチル化状態を指し、そこでは回文CpGメチル化部位の2つのCpGジヌクレオチド配列の1つの中の単一のシトシンのみがメチル化されている(例えば、5’-CCMGG-3’(上の鎖):3’-GGCC-5’(下の鎖))。
【0108】
本明細書で使用される「高メチル化」という用語は、一般に、正常な対照DNA試料内の対応するCpGジヌクレオチドに見られる5-mCの量と比較して、試験DNA試料のDNA配列内の1つまたは複数のCpGジヌクレオチドにおける5-mCの存在の増加に対応する平均メチル化状態を指す。いくつかの実施形態では、試験DNA試料は、結腸細胞増殖性障害を有する個体に由来する。
【0109】
本明細書で使用される「低メチル化」という用語は、一般に、正常な対照DNA試料内の対応するCpGジヌクレオチドに見られる5-mCの量と比較して、試験DNA試料のDNA配列内の1つまたは複数のCpGジヌクレオチドにおける5-mCの存在の減少に対応する平均メチル化状態を指す。いくつかの実施形態では、試験DNA試料は、結腸細胞増殖性障害を有する個体に由来する。
【0110】
本明細書で使用される「メチル化状態」または「メチル化状況」という用語は、一般に、DNA配列内の1つまたは複数のCpGジヌクレオチドにおける5-メチルシトシン(「5-mC」)の存在または非存在を指す。DNA配列内の1つまたは複数の特定の回文CpGメチル化部位(それぞれ2つのCpGジヌクレオチド配列を有する)におけるメチル化状態には、「非メチル化」、「完全メチル化」および「半メチル化」が含まれる。
【0111】
本明細書で使用される「メチル化シトシン」という用語は、一般に、5’位にメチルまたはヒドロキシメチル官能基を含む核酸塩基シトシンの任意のメチル化形態を指す。メチル化シトシンは、ゲノムDNAにおける遺伝子転写の調節因子であることが知られている。この用語は、5-メチルシトシンおよび5-ヒドロキシメチルシトシンを含み得る。
【0112】
本明細書で使用される「メチル化アッセイ」という用語は、一般に、DNAの配列内の1つ以上のCpGジヌクレオチド配列のメチル化状態を決定するための任意のアッセイを指す。
【0113】
本明細書で使用される「微小残存病変」または「MRD」という用語は、一般に、癌治療後の体内の癌細胞の少ない数を指す。MRD試験を実施して、癌治療が有効であるかどうかを判定し、さらなる治療計画を導くことができる。
【0114】
本明細書で使用される「MSP」(メチル化特異的ポリメラーゼ連鎖反応(PCR))という用語は、一般にメチル化アッセイ、例えば、Herman et al.Proc.Natl.Acad.Sci.USA 93:9821-9826,1996、および米国特許第5,786,146号(各々の内容は、参照により本明細書に組み込まれる)に記載されるものを指す。
【0115】
本明細書で使用される「メチル化変換された」または「変換された」核酸という用語は、一般に、メチル化シーケンシング用にDNAを変換するために使用されるプロセスを受けた、例えばDNAなどの核酸を指す。変換プロセスの例としては、試薬ベース(亜硫酸水素塩など)変換、酵素変換、または組み合わせ変換(TET支援ピリジンボランシーケンシング(TAPS)変換など)が挙げられ、非メチル化シトシンは、PCR増幅またはシーケンシングの前にウラシルに変換される。変換プロセスをメチルシーケンシング法において使用して、メチル化シトシン塩基と非メチル化シトシン塩基とを識別することができる。
【0116】
本明細書で使用される「癌においてメチル化された領域」という用語は、一般にメチル化部位(CpGジヌクレオチド)を含むゲノムのセグメントを指し、そのメチル化は悪性細胞状態に関連する。ある領域のメチル化は、2つ以上の異なるタイプの癌、または1つのタイプの癌と特異的に関連し得る。さらに、ある領域のメチル化は、2つ以上の癌サブタイプ、または1つの癌サブタイプと特異的に関連し得る。
【0117】
癌「タイプ」および「サブタイプ」という用語は、一般に、乳癌などの癌の1つの「タイプ」が、例えば、ステージ、形態、組織学、遺伝子発現、受容体プロファイル、変異プロファイル、侵攻性、予後、悪性特性などに基づく「サブタイプ」であり得るように、本明細書では相対的に使用される。同様に、「タイプ」および「サブタイプ」を、より細かいレベルで適用して、例えば変異プロファイルまたは遺伝子発現に従って定義される、例えば1つの組織学的「タイプ」を「サブタイプ」に分化することができる。癌「ステージ」はまた、疾患進行に関する組織学的および病理学的特徴に基づく癌タイプの分類に言及するために使用される。
【0118】
II.試料のアッセイ
無細胞生物学的試料は、ヒト対象から得ても、またはそれに由来してもよい。無細胞生物学的試料は、処理前に様々な保存条件、例えば、異なる温度(例えば、室温、冷蔵または冷凍条件下、25°C、4°C、-18°C、-20°C、または-80°C)で、または異なる懸濁液(例えば、EDTAコレクションチューブ、無細胞RNAコレクションチューブ、または無細胞DNAコレクションチューブ)で保存することができる。
【0119】
無細胞生物学的試料は、癌を有する対象から、癌を有すると疑われる対象から、または癌を有しないもしくは有すると疑われない対象から得られ得る。
【0120】
無細胞生物学的試料は、癌を有する対象の治療の前および/または後に採取され得る。無細胞生物学的試料は、治療または治療レジメン中の対象から得ることができる。複数の無細胞生物学的試料を対象から入手して、治療の効果を経時的にモニタリングすることができる。無細胞生物学的試料は、臨床試験によって確定的な陽性または陰性診断が利用できない癌を有することが知られているか、または疑われる対象から採取され得る。試料は、癌を有する疑いのある対象から採取され得る。無細胞生物学的試料は、疲労、吐き気、体重減少、疼きおよび疼痛、衰弱、または出血などの説明できない症状を経験している対象から採取され得る。無細胞生物学的試料は、説明された症状を有する対象から採取され得る。無細胞生物学的試料は、因子、例えば家族歴、年齢、高血圧症または前高血圧症、糖尿病または前糖尿病、過体重または肥満、環境曝露、生活習慣リスク因子(例えば、喫煙、アルコール摂取、または薬物使用)、または他のリスク因子の存在に起因して癌を発症するリスクがある対象から採取され得る。
【0121】
無細胞生物学的試料は、アッセイされ得る1つまたは複数の分析物、例えば、アッセイしてトランスクリプトミクスデータを生成するのに適した無細胞リボ核酸(cfRNA)分子、アッセイしてゲノムデータを生成するのに適した無細胞デオキシリボ核酸(cfDNA)分子、またはそれらの混合物または組み合わせを含み得る。1つまたは複数のそのような分析物(例えば、cfRNA分子および/またはcfDNA分子)は、1つまたは複数の適切なアッセイを使用する下流アッセイのために、対象の1つまたは複数の無細胞生物学的試料から単離または抽出され得る。
【0122】
対象から無細胞生物学的試料を得た後、無細胞生物学的試料を処理して、対象の癌を示すデータセットを生成することができる。例えば、癌関連ゲノム遺伝子座のパネルにおける無細胞生物学的試料の核酸分子の存在、非存在または定量的評価(例えば、癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)。いくつかの実施形態では、対象から得られた無細胞生物学的試料を処理することは、(i)無細胞生物学的試料を、複数の核酸分子を単離、富化または抽出するのに十分な条件に供すること、および(ii)複数の核酸分子をアッセイしてデータセットを生成することを含み得る。
【0123】
いくつかの実施形態において、複数の核酸分子は、無細胞生物学的試料から抽出され、シーケンシングに供されて複数のシーケンシングリードが生成される。核酸分子は、リボ核酸(RNA)またはデオキシリボ核酸(DNA)を含み得る。核酸分子(例えば、RNAまたはDNA)は、様々な方法、例えば、MP Biomedicals(登録商標)製のFastDNA(登録商標)Kitプロトコル、Qiagen(登録商標)製のQIAamp(登録商標)DNA無細胞生物学的ミニキット、またはNorgen Biotek(登録商標)製の無細胞生物学的DNA単離キットプロトコルによって無細胞生物学的試料から抽出され得る。抽出方法は、試料からすべてのRNAまたはDNA分子を抽出することができる。あるいは、抽出方法は、試料からRNAまたはDNA分子の一部を選択的に抽出することができる。試料から抽出されたRNA分子は、逆転写(RT)によってDNA分子に変換され得る。
【0124】
シーケンシングは、任意の適切なシーケンシング法、例えば大規模並列シーケンシング(MPS)、ペアエンドシーケンシング、ハイスループットシーケンシング、次世代シーケンシング(NGS)、ショットガンシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、パイロシーケンシング、合成によるシーケンシング(SBS)、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、およびRNA-Seq(登録商標)(Illumina(登録商標))によって実施され得る。
【0125】
シーケンシングは、(例えば、RNAまたはDNA分子の)核酸増幅を含み得る。いくつかの実施形態では、核酸増幅はポリメラーゼ連鎖反応(PCR)である。適切な回数のPCR(例えば、PCR、qPCR、逆転写酵素PCR、デジタルPCRなど)を実施して、初期量の核酸(例えば、RNAまたはDNA)をその後のシーケンシングのための所望の入力量まで十分に増幅することができる。いくつかのケースでは、PCRは、標的核酸の全体的な増幅に使用され得る。これは、最初に異なる分子にライゲーションされ得るアダプター配列を使用すること、続いてユニバーサルプライマーを使用してPCR増幅することを含み得る。PCRは、例えば、Life Technologies(登録商標)、Affymetrix(登録商標)、Promega(登録商標)、Qiagen(登録商標)などによって提供される多くの市販のキットのいずれかを使用して行うことができる。他のケースでは、核酸の集団内の特定の標的核酸のみが増幅され得る。特異的プライマーは、おそらくはアダプターライゲーションと組み合わせて使用して、下流シーケンシングのために特定の標的を選択的に増幅することができる。PCRは、癌に関連するゲノム遺伝子座などの1つまたは複数のゲノム遺伝子座の標的化された増幅を含み得る。シーケンシングは、同時逆転写(RT)およびポリメラーゼ連鎖反応(PCR)、例えばQiagen(登録商標)、NEB(登録商標)、Thermo Fisher Scientific(登録商標)またはBio-Rad(登録商標)によるOneStep RT-PCRキットプロトコルの使用を含み得る。
【0126】
無細胞生物学的試料から単離または抽出されたRNAまたはDNA分子は、例えば識別可能なタグでタグ付けされ、複数の試料の多重化を可能にすることができる。任意の数のRNAまたはDNA試料を多重化することができる。例えば、多重化反応は、少なくとも約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、または100を超える最初の無細胞生物学的試料からのRNAまたはDNAを含有し得る。例えば、複数の無細胞生物学的試料は、各DNA分子が、DNA分子の起源となった試料(および対象)まで遡ることができるように、試料バーコードでタグ付けされ得る。そのようなタグは、ライゲーションまたはプライマーを用いたPCR増幅によってRNAまたはDNA分子に結合され得る。
【0127】
核酸分子をシーケンシングに供した後、適切なバイオインフォマティクスプロセスを配列リードに対して実行して、癌の存在、非存在、または相対評価を示すデータを生成することができる。例えば、配列リードは、1つまたは複数の参照ゲノム(例えば、1つまたは複数の種のゲノム、例えばヒトゲノム、例えばhg19)にアラインメントされ得る。アライメントされた配列リードを1つまたは複数のゲノム遺伝子座で定量して、癌を示すデータセットを生成することができる。例えば、癌に関連する複数のゲノム遺伝子座に対応する配列の定量化は、癌を示すデータセットを生成し得る。
【0128】
無細胞生物学的試料は、核酸抽出を行わずに処理してもよい。例えば、癌は、複数の癌関連ゲノム遺伝子座に対応する核酸(例えば、RNAまたはDNA)分子を選択的に富化するように構成されたプローブを使用することによって、対象において特定またはモニタリングされ得る。プローブは核酸プライマーであり得る。プローブは、複数の癌関連ゲノム遺伝子座またはゲノム領域のうちの1つ以上からの核酸配列との配列相補性を有し得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも約25、少なくとも約30、少なくとも約35、少なくとも約40、少なくとも約45、少なくとも約50、少なくとも約55、少なくとも約60、少なくとも約65、少なくとも約70、少なくとも約75、少なくとも約80、少なくとも約85、少なくとも約90、少なくとも約95、少なくとも約100、またはそれ以上の異なる癌関連ゲノム遺伝子座またはゲノム領域を含み得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、表1~11に列挙される群から選択される1つ以上のメンバー(例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、約25、約30、約35、約40、約45、約50、約55、約60、約65、約70、約75、約80、またはそれ以上)を含み得る。癌関連ゲノム遺伝子座またはゲノム領域は、癌の様々なステージまたはサブタイプ(例えば、結腸直腸癌)に関連し得る。
【0129】
プローブは、1つまたは複数のゲノム遺伝子座(例えば、癌関連ゲノム遺伝子座)の核酸配列(例えば、RNAまたはDNA)と配列相補性を有する核酸分子(例えば、RNAまたはDNA)であり得る。これらの核酸分子は、プライマーまたは富化配列であり得る。1つまたは複数のゲノム遺伝子座(例えば、癌関連ゲノム遺伝子座)に選択的なプローブを使用した無細胞生物学的試料のアッセイは、アレイハイブリダイゼーション(例えば、マイクロアレイベース)、ポリメラーゼ連鎖反応(PCR)または核酸シーケンシング(例えば、RNAシーケンシングまたはDNAシーケンシング)の使用を含み得る。いくつかの実施形態では、DNAまたはRNAは、等温DNA/RNA増幅法(例えば、ループ媒介等温増幅(LAMP)、ヘリカーゼ依存性増幅(HDA)、ローリングサークル増幅(RCA)、リコンビナーゼポリメラーゼ増幅(RPA))、イムノアッセイ、電気化学アッセイ、表面増強ラマン分光法(SERS)、量子ドット(QD)ベースのアッセイ、分子反転プローブ、液滴デジタルPCR(ddPCR)、CRISPR/Casベースの検出(例えば、CRISPRタイピングPCR(ctPCR)、特異的高感度酵素的レポーターアンロッキング(SHERLOCK)、DNAエンドヌクレアーゼ標的化CRISPRトランスレポーター(DETECTR)およびCRISPR媒介性アナログマルチイベント記録装置(CAMERA))、およびレーザー透過分光法(LTS)のうちの1つまたは複数によってアッセイされ得る。
【0130】
アッセイの読み出しを1つまたは複数のゲノム遺伝子座(例えば、癌関連ゲノム遺伝子座)で定量して、癌を示すデータを生成することができる。例えば、複数のゲノム遺伝子座(例えば、癌関連ゲノム遺伝子座)に対応するアレイハイブリダイゼーションまたはポリメラーゼ連鎖反応(PCR)の定量化は、癌を示すデータを生成し得る。アッセイ読み出しは、定量PCR(qPCR)値、デジタルPCR(dPCR)値、デジタル液滴PCR(ddPCR)値、蛍光値、他、またはそれらの正規化された値を含み得る。アッセイは、家庭環境で行われるように構成されたホームユーステストであり得る。
【0131】
いくつかの実施形態では、複数のアッセイを使用して、対象の無細胞生物学的試料を同時に処理することができる。例えば、第1のアッセイを使用して、対象から得られた、または対象に由来する第1の無細胞生物学的試料を処理して、癌を示す第1のデータセットを生成することができる。第1のアッセイとは異なる第2のアッセイを使用して、対象から得られた、または対象に由来する第2の無細胞生物試料を処理して、癌を示す第2のデータセットを生成することができる。次いで、第1のデータセットおよび第2のデータセットのいずれかまたはすべてを分析して、対象の癌を評価することができる。例えば、第1のデータセットと第2のデータセットとの組み合わせに基づいて、単一の診断指標または診断スコアを生成することができる。別の例として、第1のデータセットおよび第2のデータセットに基づいて、別個の診断指標または診断スコアを生成することができる。
【0132】
無細胞生物学的試料は、メチル化特異的アッセイを使用して処理することができる。例えば、メチル化特異的アッセイを使用して、対象の無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれのメチル化の定量的測定値(例えば、存在、非存在、または相対量の表示)を特定することができる。メチル化特異的アッセイは、対象の血液試料または尿試料(またはそれらの誘導体)などの無細胞生物学的試料を処理するように構成され得る。無細胞生物学的試料中の癌関連ゲノム遺伝子座のメチル化の定量的測定値(例えば、存在、非存在、または相対量の表示)は、1つ以上の癌を示し得る。メチル化特異的アッセイを使用して、対象の無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれのメチル化の定量的測定値(例えば、存在、非存在、または相対量の表示)を示すデータセットを生成することができる。
【0133】
メチル化特異的アッセイは、例えば、メチル化認識シーケンシング(例えば、亜硫酸水素塩処理を使用する)、パイロシーケンシング、メチル化感受性一本鎖配座解析(MS-SSCA)、高分解像度融解分析(HRM)、メチル化感受性一本鎖プライマー伸長(MS-SnuPE)、塩基特異的切断/MALDI-TOF、マイクロアレイベースのメチル化アッセイ、メチル化特異的PCR、標的亜硫酸水素塩シーケンシング、酸化亜硫酸水素塩シーケンシング、質量分析に基づく亜硫酸水素塩シーケンシング、または縮小表現(reduced representation)亜硫酸水素塩シーケンシング(RRBS)のうちの1つまたは複数を含み得る。
【0134】
III.シグネチャパネル
本開示は、生物学的試料を分析して、結腸細胞増殖性障害の発症に関連する試料中のDNA中の高メチル化領域の組み合わせから測定可能な特徴を得て、領域のシグネチャパネルを同定する方法およびシステムを提供する。シグネチャパネルからの特徴を、トレーニングされたアルゴリズム(例えば、機械学習モデル)を使用して処理して、結腸細胞増殖性障害を有する個体の集団を階層化するように構成された分類子を作成することができる。方法は、シーケンシングの前に同定された領域内のメチル化CpGジヌクレオチドと非メチル化CpGジヌクレオチドとを識別することができる試薬または一連の試薬と接触させられる、シグネチャパネルに記載されるメチル化領域を有する1つ以上の核酸を使用することを特徴とする。
【0135】
本明細書に記載のシグネチャパネルは、一般に、無細胞核酸試料で特定され、結腸細胞増殖性障害に関連する試料中のシトシン塩基でのメチル化の増加を示すゲノムDNAの標的領域の集合を指す。シグネチャパネルの形成は、結腸細胞増殖性障害に関連する特定のメチル化領域の迅速かつ特異的な分析を可能にする。本明細書の方法において記載され、使用されるシグネチャパネルは、結腸細胞増殖性障害の診断、予後、治療選択およびモニタリング(例えば、治療モニタリング)の改善に使用され得る。
【0136】
本開示のシグネチャパネルおよび方法は、全血、血漿または血清などの体液試料から初期結腸細胞増殖性障害を検出するために使用されるマーカーまたはシグネチャパネルの必要性への対処において、現在のアプローチを超える有意な改善を提供し得る。結腸細胞増殖性障害を検出および診断するために使用される現在の方法には、大腸内視鏡検査、S状結腸鏡検査、および便潜血結腸癌が含まれる。これらの方法と比較して、本明細書で提供される方法は、大腸内視鏡検査よりもはるかに侵襲性が低く、感度はS状結腸鏡検査、便免疫化学検査(FIT)、および便潜血検査(FOBT)よりも少なくとも同等であるか、またはより高い可能性がある。これらのマーカーの現在の使用と比較して、本明細書で提供される方法は、遺伝子パネルおよび高感度アッセイ技術を使用する有利な組み合わせによって、感度および特異性に関して有意な利点を提供し得る。
【0137】
いくつかの実施形態では、癌においてメチル化された領域は、CpGアイランドを含む。いくつかの実施形態では、癌においてメチル化された領域は、CpGショアを含む。いくつかの実施形態では、癌においてメチル化された領域は、CpGシェルフを含む。いくつかの実施形態では、癌においてメチル化された領域は、CpGアイランドおよびCpGショアを含む。いくつかの実施形態では、癌においてメチル化された領域は、CpGアイランド、CpGショアおよびCpGシェルフを含む。
【0138】
いくつかの実施形態では、癌においてメチル化された領域は、CpGアイランド、ならびに約0~4キロベース(kb)上流および下流の配列を含む。癌においてメチル化された領域はまた、CpGアイランドならびに約0~3kb上流および下流、約0~2kb上流および下流、約0~1kb上流および下流、約0~500塩基対(bp)上流および下流、約0~400bp上流および下流、約0~300bp上流および下流、約0~200bp上流および下流、または約0~100bp上流および下流の配列を含み得る。
【0139】
いくつかの例によれば、癌において高メチル化された領域の選択において、いくつかの設計パラメータが考慮され得る。ある特定の例において、メチル化領域は、約200bp、約300bp、約400bpまたは約500bpの長さである。この選択プロセス用のデータは、様々なソース、例えば、広範囲の癌のための、例えばIllumina(登録商標)Infinium HumanMethylation 450 BeadChipの使用によって誘導されるThe Cancer Genome Atlas(TCGA)(cancergenome.nih.gov)から、または例えば亜硫酸水素塩全ゲノムシーケンシングもしくは他の方法論に基づく他のソースから得ることができる。いくつかの実施形態では、(同様に約-0.5~0.5の範囲のベータ値に由来する、TCGAレベル3のメチル化データに由来し得る)「メチル化値」を使用して領域を選択することができる。いくつかの実施形態において、増幅は、正常供給物において約-0.3未満のメチル化値を有する少なくとも1つのメチル化部位を増幅するように設計されたプライマーセットを用いて行われる。これは、複数の、例えば約4個の正常組織試料において確立され得る。メチル化値は、約-0.1、約-0.2、約-0.3、約-0.4、約-0.5、約-0.6、約-0.7、約-0.8、約-0.9または約-1.0であるか、またはそれら未満であり得る。
【0140】
いくつかの実施形態において、プライマーセットは、癌における平均メチル化値と正常組織における平均メチル化値との差が所定の閾値、例えば、約0.3を超える、少なくとも1つのメチル化部位を増幅するように設計される。いくつかの実施形態において、差は、約0.1、約0.2、約0.3、約0.4、約0.5、約0.6、約0.7、約0.8、約0.9または約1.0を超えてもよい。この要件を満たす他のメチル化部位の近接性もまた、いくつかの例では、領域の選択において役割を果たし得る。いくつかの実施形態において、プライマーセットは、約200 bp以内に少なくとも1つのメチル化部位を有する少なくとも1つのメチル化部位を増幅するプライマー対を含み、ここでも、正常供給物において約-0.3未満のメチル化値を有し、癌における平均メチル化値と正常組織における平均メチル化値との差が約0.3を超える。
【0141】
いくつかの例において、ある領域におけるメチル化が、1人以上の健康な個体(例えば、癌を有さない個体)から得られる試料の同じ領域におけるメチル化よりも大きい場合、標的領域が選択される。そのような選択は、手動でまたは計算的に実行されてもよい。特定の例では、領域は、健康な個体からの試料よりも少なくとも約5%、約10%、約15%、約20%、約30%、約40%、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約95%、約100%、または約100%超、多いメチル化を有する場合に選択され得る。別の例では、所定の閾値メチル化CpGカウントで疾患試料中の領域にマッピングされたリードの数が、健康な個体試料中の同じ領域についての同じ所定の閾値メチル化CpGカウントを超える場合、領域が選択され得る。健康な試料においてベースライン閾値として使用されるメチル化CpGカウントは、所与の領域で変化し得るが、その領域にマッピングするリードの数が、健康な試料におけるその領域についてのメチル化CpGカウントのベースライン閾値を超えることは、閾値CpGカウントの変動に関係なく重要な領域を示し得る。
【0142】
いくつかの例において、標的領域は、その部位においてメチル化を有するバリデーションセットにおける試料数に基づいて、増幅のために選択され得る。例えば、領域は、健康な個体からの試料と比較して、疾患個体からの試験された試料の少なくとも約5%、約10%、約15%、約20%、約25%、約30%、約35%、約40%、約45%、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約95%、約96%、約97%、約98%、または約99%においてメチル化の程度が高い場合に選択され得る。例えば、領域は、特定のサブタイプ内を含めて、試験された腫瘍の少なくとも約75%においてメチル化されている場合に選択され得る。いくつかのバリデーションのために、腫瘍由来細胞株を試験に使用することができる。
【0143】
本開示は、本明細書に記載のシグネチャパネルならびにそれらのプロモーターおよび調節エレメントからなる群から選択される1つまたは複数の遺伝子の、遺伝的および/またはエピジェネティックパラメータを確認するためのアッセイを行う方法をさらに提供する。いくつかの実施形態では、以下の方法によるアッセイは、本明細書に記載されるシグネチャパネルからなる群から選択される1つまたは複数の遺伝子内のメチル化を検出するために使用され、前記メチル化核酸は、過剰のバックグラウンドDNAをさらに含む溶液中に存在し、バックグラウンドDNAは、検出されるDNAの濃度の約100~1000倍、約100~10000倍、約100~100000倍、約1000~10000倍、約1000~100000倍、または約10000~100000倍で存在する。いくつかの実施形態において、検出されるDNAの濃度は、バックグラウンドDNA濃度の約100000倍より高い。いくつかの実施形態では、方法は、対象から得られた核酸試料を少なくとも1つの試薬または一連の試薬(例えば、標的核酸内のメチル化CpGジヌクレオチドと非メチル化CpGジヌクレオチドとを識別する)と接触させることを含む。
【0144】
本明細書に記載される場合、腫瘍または直腸細胞増殖性障害は、結腸細胞増殖性障害は、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択され得る。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。
【0145】
情報を提供するメチル化領域を含むシグネチャパネルは、意図されるアッセイの目的に従って選択され得る。標的化された方法のために、プライマー対を意図された標的領域のセットに基づいて設計することができる。いくつかの実施形態では、領域のセットは、表1に列挙された領域のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上を含む。いくつかの実施形態では、領域のセットは、表1に列挙されたすべての領域を含む。
【0146】
いくつかの実施形態では、結腸直腸癌に関連するメチル領域のセットは、表1から選択される。
【0147】
いくつかの実施形態では、癌パネルは、ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、SFMBT2、CHST10、CCNA1、BEND4、KRBA1、S1PR1、PPP1R16B、IKZF1、LONRF2、ZFP82、およびFLT3のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される領域を含む(例えば、腫瘍は結腸直腸癌である)。いくつかの実施形態では、癌パネルは、表1に列挙されたすべての領域を含む。いくつかの実施形態では、プローブは、ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、SFMBT2、CHST10、CCNA1、BEND4、KRBA1、S1PR1、PPP1R16B、IKZF1、LONRF2、ZFP82、およびFLT3のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0148】
【0149】
いくつかの実施形態では、方法は、メチル化シグナルを定量することをさらに含み、所定の閾値を超える数は、結腸細胞増殖性障害を示す。いくつかの実施形態では、定量および比較することは、結腸細胞増殖性障害においてメチル化された部位の各々について独立して行われる。したがって、陽性腫瘍シグナルのカウントを各部位について確立することができる。いくつかの実施形態では、方法は、腫瘍シグナルを含有するシーケンシングリードの割合を決定することをさらに含み、閾値を超える割合は結腸細胞増殖性障害を示す。いくつかの実施形態では、決定することは、結腸細胞増殖性障害においてメチル化された部位の各々について独立して行われる。
【0150】
本明細書で使用される「閾値」という用語は、一般に、2つの対象集団を区別、分離、または識別するために選択される値を指す。いくつかの実施形態において、閾値は、疾患(例えば、悪性)状態と非疾患(例えば、健康)状態との間でメチル化状態を区別する。いくつかの実施形態では、閾値は、疾患のステージ(例えば、ステージ1、ステージ2、ステージ3、またはステージ4)を区別する。閾値は、問題の疾患に従って設定されてもよく、例えばトレーニングセットの以前の分析に基づいてもよく、または既知の特徴(例えば、健康、疾患または疾患のステージ)を有する入力のセットに対して計算的に決定されてもよい。特定部位のメチル化の予測値に応じて、遺伝子領域に閾値を設定してもよい。閾値はメチル化部位ごとに異なっていてもよく、複数の部位からのデータが最終分析において組み合わされてもよい。
【0151】
前述の方法のいくつかの実施形態では、癌パネルは、ITGA4、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1およびPPP1R16Bの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される領域を含む(例えば、腫瘍は結腸直腸癌である)いくつかの実施形態では、癌パネルは、表2に列挙された1つ以上の領域を含む。いくつかの実施形態では、プローブは、ITGA4、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1、およびPPP1R16Bのうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0152】
【0153】
いくつかの実施形態では、癌パネルは、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1およびPPP1R16Bの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される領域を含む(例えば、腫瘍は結腸直腸癌である)。いくつかの実施形態では、癌パネルは、表3に列挙された1つ以上の領域を含む。いくつかの実施形態では、プローブは、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1、およびPPP1R16Bのうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0154】
【0155】
いくつかの実施形態では、癌パネルは、ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、およびS1PR1の少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される領域を含み、腫瘍は結腸直腸癌である。いくつかの実施形態では、癌パネルは、表4に列挙された1つ以上の領域を含む。いくつかの実施形態では、プローブは、ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、およびS1PR1のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0156】
【0157】
いくつかの実施形態では、癌パネルは、ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、およびZNF543の少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される領域を含み、腫瘍は結腸直腸癌である。いくつかの実施形態では、癌パネルは、表5に列挙されたすべての領域を含む。いくつかの実施形態では、プローブは、ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、およびZNF5431のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0158】
【0159】
いくつかの実施形態では、癌パネルは、領域ITGA4およびEMBP1の1つまたは複数を含む(例えば、腫瘍は結腸直腸癌である)。いくつかの実施形態では、癌パネルは、表6に列挙された1つ以上の領域を含む。いくつかの実施形態において、プローブは、ITGA4およびEMBP1を含む配列を対象とする。
【0160】
【0161】
前述の方法のいくつかの実施形態では、癌パネルは、KZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、ST3GAL1、ZEB2 NR3C1、ITGA4、GALNT14、CHST11、PPP1R16B、MGAT3、ZNF264、BEND4、IRF4、LOC100130992、CHST11、CHST15、RASSF2、EMILIN2、TMEM163、CHST10、およびHCKのうちの少なくとも1つ、少なくとも2、少なくとも3つ、または3つ以上から選択される領域を含む(例えば、腫瘍は結腸直腸癌である)。いくつかの実施形態では、癌パネルは、表7に列挙された1つ以上の領域を含む。いくつかの実施形態では、プローブは、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、ST3GAL1、ZEB2 NR3C1、ITGA4、GALNT14、CHST11、PPP1R16B、MGAT3、ZNF264、BEND4、IRF4、LOC100130992、CHST11、CHST15、RASSF2、EMILIN2、TMEM163、CHST10、およびHCKのうちの少なくとも1つ、少なくとも2、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0162】
【0163】
【0164】
前述の方法のいくつかの実施形態では、癌パネルは、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、ST3GAL1、ZEB2 NR3C1、ITGA4、GALNT14、CHST11、PPP1R16B、MGAT3、ZNF264、BEND4、およびIRF4のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される領域を含む(例えば、腫瘍は結腸直腸癌である)。いくつかの実施形態では、癌パネルは、表8に列挙された1つ以上の領域を含む。いくつかの実施形態では、プローブは、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、ST3GAL1、ZEB2 NR3C1、ITGA4、GALNT14、CHST11、PPP1R16B、MGAT3、ZNF264、BEND4、およびIRF4のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0165】
【0166】
前述の方法のいくつかの実施形態では、癌パネルは、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、およびST3GAL1のうちの少なくとも1つ、少なくとも2、少なくとも3つ、または3つ以上から選択される領域を含む(例えば、腫瘍は結腸直腸癌である)。いくつかの実施形態では、癌パネルは、表9に列挙された1つ以上の領域を含む。いくつかの実施形態では、プローブは、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、およびST3GAL1のうちの少なくとも1つ、少なくとも2、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0167】
【0168】
前述の方法のいくつかの実施形態では、癌パネルは、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、およびFLI1のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される領域を含む(例えば、腫瘍は結腸直腸癌である)。いくつかの実施形態では、癌パネルは、表10に列挙された1つ以上の領域を含む。いくつかの実施形態では、プローブは、IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、およびFLI1のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ以上から選択される配列を対象とする。
【0169】
【0170】
前述の方法のいくつかの実施形態では、癌パネルは、IKZF1、KCNQ5、およびELMO1のうちの少なくとも1つ、少なくとも2つ、または少なくとも3つから選択される領域を含む(例えば、腫瘍は結腸直腸癌である)。いくつかの実施形態では、癌パネルは、表11に列挙された1つ以上の領域を含む。いくつかの実施形態では、プローブは、IKZF1、KCNQ5、およびELMO1のうちの少なくとも1つ、少なくとも2つ、または少なくとも3つから選択される配列を対象とする。
【0171】
【0172】
一態様において、本開示は、生物学的特徴を示すメチル化シグネチャを特定するための方法を提供し、方法は、ゲノムメチル化データセットであって、結腸細胞増殖性障害状態に関連し、各々が対応する試料についての生物学的情報に関連する複数のゲノムメチル化データセットを含む集団についてのデータを得ること、メチル化データセットを、生物学的特徴を有する1つの組織または細胞型に対応する第1の群と、生物学的特徴を有しない複数の組織または細胞型に対応する第2の群とに分離すること、第1の群からのメチル化データを第2の群からのメチル化データと部位ごとにマッチングすること、第1の群と第2の群との間で差次的メチル化を確立するための所定の閾値を満たすCpG部位のセットを、ゲノム全体で部位ごとに特定すること、CpG部位のセットを用いて、所定の基準を満たす約30~300bp以内の差次的メチル化CpGを少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つ超含む標的ゲノム領域を特定して、結腸細胞増殖性障害の存在に関連する生物学的特徴を示すメチル化シグネチャを提供する差次的メチル化ゲノム領域を特定すること、を含む。
【0173】
いくつかの例において、標的ゲノム領域は、約30~150bp、約40~150bp、約50~150bp、約75~150bp、約100~150bp、約150~300bp、約150~250bp、約150~200bp、約200~300bpまたは約250~300bpの長さを有する領域内に少なくとも1つ、少なくとも2つ、少なくとも3つまたは3つを超える差次的メチル化CpG部位を含む。
【0174】
いくつかの例において、標的ゲノム領域は、少なくとも4つの差次的にメチル化されたCpG部位、少なくとも4つの差次的にメチル化されたCpG部位、少なくとも5つの差次的にメチル化されたCpG部位、少なくとも6つの差次的にメチル化されたCpG部位、少なくとも7つの差次的にメチル化されたCpG部位、少なくとも8つの差次的にメチル化されたCpG部位、少なくとも9つの差次的にメチル化されたCpG部位、少なくとも10個の差次的にメチル化されたCpG部位、少なくとも12個の差次的にメチル化されたCpG部位、または少なくとも15個の差次的にメチル化されたCpG部位を含む。
【0175】
いくつかの実施形態において、方法は、生物学的形質を有する少なくとも1つの独立した試料由来のDNA、および生物学的試料を有さない少なくとも1つの独立した試料由来のDNAを使用して、伸長された標的ゲノム領域内の差次的メチル化について試験することによって、伸長された標的ゲノム領域をバリデーションすることをさらに含む。
【0176】
いくつかの実施形態では、特定することは、CpG部位のセットを、参照または対照試料からの末梢血単核細胞との差次的メチル化をさらに示すCpG部位に限定することをさらに含む。
【0177】
いくつかの実施形態において、所定の閾値は、第1の群における少なくとも約50%のメチル化である。
【0178】
いくつかの実施形態において、所定の閾値は、少なくとも約0.3の、第1の群と第2の群との間の平均メチル化の差である。
【0179】
いくつかの実施形態では、生物学的形質は悪性腫瘍を含む。
【0180】
いくつかの実施形態では、生物学的形質は癌タイプを含む。
【0181】
いくつかの実施形態では、生物学的形質は癌ステージを含む。
【0182】
いくつかの実施形態では、生物学的形質は癌分類を含む。
【0183】
いくつかの実施形態では、癌分類は癌等級を含む。
【0184】
いくつかの実施形態では、癌分類は組織学的分類を含む。
【0185】
いくつかの実施形態では、生物学的形質は、代謝プロファイルを含む。
【0186】
いくつかの実施形態では、生物学的形質は変異を含む。
【0187】
いくつかの実施形態では、変異は疾患関連変異である。
【0188】
いくつかの実施形態では、生物学的形質は臨床転帰を含む。
【0189】
いくつかの実施形態では、生物学的形質は薬物応答を含む。
【0190】
いくつかの実施形態において、方法は、伸長された標的ゲノム領域の部分を増幅するように複数のPCRプライマー対を設計することをさらに含み、部分の各々は、少なくとも1つの差次的にメチル化されたCpG部位を含む。
【0191】
いくつかの実施形態において、複数のプライマー対を設計することは、非メチル化シトシンをウラシルに変換して、シトシンからウラシルへの変換をシミュレートすること、および変換された配列を使用してプライマー対を設計することを含む。
【0192】
いくつかの実施形態において、プライマー対は、メチル化バイアスを有するように設計される。
【0193】
いくつかの実施形態において、プライマー対は、メチル化特異的である。
【0194】
いくつかの実施形態において、プライマー対は、メチル化状態を優先しないそれらの中にCpG残基を有さない。
【0195】
一態様において、本開示は、メチル化シグネチャに特異的なプライマー対を合成するための方法を提供し、方法は、本開示の方法を実施すること、および設計されたプライマー対を合成することを含む。
【0196】
IV.核酸変換およびメチル化シーケンシング
A.核酸処理
核酸配列中のメチル化シトシンと非メチル化シトシンとを識別するための核酸塩基の化学ベースおよび酵素ベースの変換を含む、メチル化シーケンシングのための様々な方法が利用可能である。これらのアッセイは、DNA配列内の1つまたは複数のCpGジヌクレオチド(例えば、CpGアイランド)のメチル化状態の決定を可能にする。そのようなアッセイは、数ある技術の中でも、亜硫酸水素塩処理DNAまたは酵素処理DNAのDNAシーケンシング、ポリメラーゼ連鎖反応(PCR)(配列特異的増幅用)、定量的PCR(qPCR)またはデジタル液滴PCR(ddPCR)、サザンブロット分析を含み得る。様々な例において、生物学的試料中のDNAは、5’位でメチル化されていないシトシン塩基が、ウラシル、チミン、またはハイブリダイゼーション挙動に関してシトシンとは異なる別の塩基に変換されるように処理される。これは、「変換」と呼ばれ得る。
【0197】
いくつかの実施形態では、試薬は、5’位でメチル化されていないシトシン塩基を、ウラシル、チミン、またはハイブリダイゼーション挙動に関してシトシンとは異なる別の塩基に変換する。
【0198】
DNAの亜硫酸水素塩修飾は、一般に、CpGメチル化状態を評価するために使用されるツールを指す。5-メチルシトシン(5-mC)の存在についてDNAを分析するために頻繁に使用される方法は、亜硫酸水素塩とシトシンとの反応に基づいており、それにより、その後のアルカリ脱スルホン化の際に、シトシンは、その塩基対形成挙動においてチミンに対応するウラシルに変換される。例えば、ゲノムシーケンシングは、亜硫酸水素塩処理を使用することによるDNAメチル化パターンおよび5-メチルシトシン分布の分析に適合されている(例えば、Frommer et al.,Proc.Natl.Acad.Sci.USA 89:1827-1831,1992に記載され、その内容は参照により本明細書に組み込まれる)。しかしながら、重要なことに、5-メチルシトシンは、これらの条件下で修飾されないままである。その結果、元のDNAは、元々そのハイブリダイゼーション挙動によってシトシンと区別することができなかったメチルシトシン(メチル-C)が、様々な分子生物学的技術を使用して、例えば、増幅およびハイブリダイゼーションによって、またはシーケンシングによって、唯一残存するシトシンとして検出され得るように変換される。様々な例において、他の試薬は、メチル化シーケンシングに有用な亜硫酸水素塩修飾と同じ結果に作用し得る。
【0199】
頻繁に使用される直接シーケンシング法の1つは、全ゲノム亜硫酸水素塩シーケンシング(WGBS)または標的亜硫酸水素塩シーケンシングに有用なPCRを用いて増幅された亜硫酸水素塩処理DNAを使用する。
【0200】
標的亜硫酸水素塩シーケンシングは、部位特異的DNAメチル化変化を評価するために使用される市販のNGS法を指すことができる。プローブは、鎖特異的および亜硫酸水素塩特異的であるように設計される。メチル化配列および非メチル化配列の両方が増幅される。このプロセスはパイロシーケンシングに類似しているが、全体的にはるかに高いスループットを提供する。いくつかの実施形態において、次世代シーケンシングプラットフォームを使用して、大量の有用なDNAメチル化情報を送達する(例えば、EPIGENTEK,Farmingdale,NY、およびZYMO RESEARCH,Irvine,CA)。DNA中の個々のシトシンの一塩基解像度でのメチル化分析は、DNAの亜硫酸水素塩処理、その後の標的領域のPCR増幅、ライブラリー構築、およびアンプリコン領域のシーケンシングによって促進され得る。特定のプライマーを目的の領域のために設計することができ、シトシンメチル化変化がその領域内で評価される。目的の各DNAメチル化部位は、正確な、定量的な単一塩基解像度データ出力のために、高いシーケンシングカバレッジ深度で評価され得る。
【0201】
酵素的メチルシーケンシング(EM-seq)は、メチローム解析のための核酸の酵素的変換に依存し得る。データは、EM-seqライブラリーを生成するプロセスが、亜硫酸水素塩シーケンシングと同じ方法でDNAを損傷しないことを示唆し得る。EM-seqライブラリーは、全DNA入力量に対して使用するPCRサイクルを減らしたにもかかわらず、より高いPCR収率をもたらすことができ、全ゲノム亜硫酸水素塩シーケンシング(WGBS)と比較して、酵素処理およびライブラリー調製中に失われるDNAが少ないことを示している。次に、減少したPCRサイクルは、シーケンシング中により複雑なライブラリーおよびより少ないPCR複製物に変換することができる。EM-seqライブラリーはまた、WGBSよりも大きい平均インサートサイズを有し得、DNAがインタクトなままであるという事実をさらに裏付ける。EM-seqワークフローでは、TET2は5-mCおよび5-hmCを酸化し、次の操作でAPOBECによる脱アミノ化から保護する。対照的に、非修飾シトシンは、ウラシルへと脱アミノ化される。いくつかの実施形態では、標的化された方法は、核酸の酵素的変換(TEM-seq)を含む。いくつかの実施形態において、メチル化シーケンシング方法は、5mCおよび5hmCの同定に有用なNEBNEXT(登録商標)Enzymatic Methyl-seq(New England Biolabs、Ipswich、MA)を用いて達成される。
【0202】
別の例では、5hmCはまた、TET支援亜硫酸水素塩シーケンシング(TAB-seq)(WiseGene;Illumina(登録商標))を使用して検出され得る(例えば、Yu,M.,et al.(2012)Nat.Protoc.7,2159-2170に記載されており、その内容は参照により本明細書に組み込まれる)。断片化DNAは、亜硫酸水素ナトリウムを添加する前に、T4ファージβ-グルコシルトランスフェラーゼ(T4-BGT)処理、次いでテン-イレブン転座(TET)ジオキシゲナーゼ処理を順次使用して酵素的に修飾され得る。T4-BGTは5hmCをグルコシル化してβ-グルコシル-5-ヒドロキシメチルシトシン(5ghmC)を形成し、次いでTETを使用して5mCを5caCへと酸化する。5ghmCのみがその後の亜硫酸水素ナトリウムによる脱アミノ化から保護され、これにより、5hmCをシーケンシングによって5mCと識別することが可能になる。
【0203】
酸化亜硫酸水素塩シーケンシング(oxBS)は、5mCと5hmCとを識別するための別の方法を提供する(例えば、Booth,M.J.,et al.,2012 Science 336:934-937に記載されており、その内容は参照により本明細書に組み込まれる)。酸化試薬の過ルテニウム酸カリウムで5hmCを5-ホルミルシトシン(5fC)に変換し、その後の亜硫酸水素ナトリウム処理で5fCをウラシルに脱アミノ化する。5mCは変化しないまま残るので、この方法を使用して同定され得る。
【0204】
APOBEC結合エピジェネティックシーケンシング(ACE-seq)は亜硫酸水素塩変換を完全に排除し、酵素変換に依存して5hmCを検出する(例えば、Schutsky,E.K.,et al.,Nat.Biotechnol.,2018 Oct 8に記載され、その内容は参照により本明細書に組み込まれる)。この方法により、T4-BGTは5hmCを5ghmCへとグルコシル化し、それを、アポリポタンパク質B mRNA編集酵素サブユニット3A(APOBEC3A)による脱アミノ化から保護する。シトシンおよび5mCをAPOBEC3Aによって脱アミノ化し、チミンとしてシーケンシングする。
【0205】
別の例では、亜硫酸水素塩を含まない塩基レベル解像度シーケンシング法、TET支援ピリジンボランシークエンシング(TAPS)を5mCおよび5hmCの検出に使用することができる。TAPSは、5mCおよび5hmCの5-カルボキシルシトシン(5caC)へのテン-イレブン転座(TET)酸化と、5caCのジヒドロウラシル(DHU)へのピリジンボラン還元とを組み合わせる。その後のPCRはDHUをチミンに変換し、5mCおよび5hmCのCからTへの転位を可能にする。TAPSは、未修飾シトシンに影響を及ぼすことなく、高い感度および特異性で修飾を直接検出する(例えば、Liu,Y.,et al.Nat Biotechnol.2019 Apr;37(4):424-429に記載され、その内容は参照により本明細書に組み込まれる)。
【0206】
TET支援5-メチルシトシンシーケンシング(TAmC-seq)は、5mC遺伝子座を富化し、2つの連続酵素反応とそれに続くアフィニティープルダウンを利用する(例えば、Zhang,L.2013,Nat Commun 4:1517に記載され、その内容は参照により本明細書に組み込まれる)。断片化DNAを、グルコシル化によって5hmCを保護するT4-BGTで処理する。次いで、酵素mTET1を使用して5mCを5hmCへと酸化し、T4-BGTは、修飾グルコース部分(6-N3-グルコース)を使用して新たに形成された5hmCを標識する。クリックケミストリーを使用して、検出およびゲノムワイドプロファイリングのための5mC含有DNA断片の富化を可能にするビオチンタグを導入する。
【0207】
B.次世代シーケンシング
いくつかの実施形態では、シーケンシングリードの生成は次世代シーケンシングによって行われる。これにより、所与の領域に対して高深度のリードを達成することが可能になり得る。これらは、例えば、Illumina(登録商標)(Solexa)シーケンシング、DNB-Sequencer T7(DNBSEQ(登録商標))またはG400(MGI Tech Co.,Ltd)、GenapSys(登録商標)シーケンシング(GenapSys,Inc.)、Roche 454シーケンシング(Roche Sequencing Solutions,Inc.)、Ion Torrentシーケンシング(Thermo Fisher Scientific)、およびSOLiDシーケンシング(Thermo Fisher Scientific(登録商標))を含むハイスループット法であり得る。シーケンシングリードの数は、DNA投入量および分析に必要なデータの深度に応じて調整することができる。
【0208】
いくつかの実施形態において、シーケンシングリードの生成は、複数の患者から得られた試料に対して同時に行われ、無細胞核酸断片は、各患者についてバーコード化される。これにより、1回のシーケンシングランで複数の患者の並列分析が可能になる。
【0209】
別の態様では、本開示は、前述の方法を実施するための試薬、および腫瘍シグナルを検出するための説明書を含む、腫瘍を検出するためのキットを提供する。試薬は、例えば、プライマーセット、PCR反応構成要素、および/またはシーケンシング試薬を含み得る。
【0210】
C.標的シーケンシング
標的メチル化シーケンシングアプローチでは、標的遺伝子配列のメチル化状態を決定するために、cfDNAなどの生物学的試料中の標的領域が分析される。いくつかの実施形態では、標的領域は、目的の標的領域の連続するヌクレオチド、例えば目的の標的領域の少なくとも約16個の連続するヌクレオチドを含むか、またはストリンジェントな条件下それらにハイブリダイズする。異なる例では、標的シーケンシングは、ハイブリダイゼーション捕捉およびアンプリコンシーケンシングアプローチを使用して達成され得る。
【0211】
D.ハイブリダイゼーション捕捉
本明細書で提供されるハイブリダイゼーション方法は、核酸ハイブリダイゼーションの様々な形式、例えば、溶液中ハイブリダイゼーションおよび固体支持体上でのハイブリダイゼーション(例えば、膜、マイクロアレイおよび細胞/組織スライド上でのノーザンハイブリダイゼーション、サザンハイブリダイゼーションおよびインサイチュハイブリダイゼーション)で使用され得る。特に、方法は、標的化次世代シーケンシングに使用される特定のタイプのゲノムDNA配列(例えば、エクソン)の標的富化のための溶液中ハイブリッド捕捉に適している。ハイブリッド捕捉アプローチのために、無細胞核酸試料をライブラリー調製に供する。本明細書で使用される場合、「ライブラリー調製」は、その後のDNAシーケンシングを可能にするために無細胞DNAに対して行われる末端修復、Aテーリング、アダプターライゲーション、または任意の他の調製を含む。ある特定の例において、調製された無細胞核酸ライブラリー配列は、無細胞核酸試料分子上にライゲーションされるアダプター、配列タグ、インデックスバーコードを含む。次世代シーケンシングアプローチ用のライブラリー調製を容易にするための、様々な市販のキットが利用可能である。次世代シーケンシングライブラリーの構築は、調整された一連の酵素反応を使用して核酸標的を調製し、ハイスループットシーケンシングのための、特定のサイズのDNA断片のランダムな集合を生成することを含み得る。様々なライブラリー調製技術の進歩および開発により、次世代シーケンシングのトランスクリプトミクスおよびエピジェネティクスなどの分野への応用が拡大している。
【0212】
シーケンシング技術の改善は、ライブラリー調製への変更および改善をもたらした。Agilent(登録商標)、Bioo Scientific(登録商標)、Kapa Biosystems(登録商標)、New England Biolabs(登録商標)、Illumina(登録商標)、Life Technologies(登録商標)、Pacific Biosciences(登録商標)およびRoche(登録商標)などの企業によって開発された次世代シーケンシングライブラリー調製キットは、様々な分子生物学反応に一貫性および再現性を提供し、最新のNGS機器技術との互換性を確保する。
【0213】
標的捕捉遺伝子パネルのための様々な例において、様々なライブラリー調製キットは、Nextera Flex(Illumina(登録商標))、Illumina(登録商標)DNA Prep(Illumina(登録商標))、Ion AmpliSeq(登録商標)(Thermo Fisher Scientific(登録商標))、GeneXus(登録商標)(Thermo Fisher Scientific(登録商標))、Agilent ClearSeq(Illumina(登録商標))、Agilent(登録商標)SureSelect(登録商標)Capture(Illumina(登録商標))、Archer(登録商標)FusionPlex(登録商標)(Illumina(登録商標))、Bioo Scientific(登録商標)NEXTflex(登録商標)(Illumina(登録商標))、IDT(登録商標)xGen(Illumina(登録商標))、Illumina(登録商標)TruSight(登録商標)(Illumina(登録商標))、NimbleGen(登録商標)SeqCap(登録商標)(Illumina(登録商標))、およびQiagen(登録商標)GeneRead(登録商標)(Illumina(登録商標))からなる群から選択され得る。
【0214】
いくつかの実施形態において、ハイブリッド捕捉法は、特異的プローブを使用して、調製されたライブラリー配列に対して行われる。いくつかの実施形態では、本明細書で使用される「特異的プローブ」という用語は、一般に、既知のメチル化部位に特異的なプローブを指す。いくつかの実施形態では、特異的プローブは、ヒトゲノムを参照配列として使用すること、およびメチル化部位を有することが知られた特定のゲノム領域を標的配列として使用することに基づいて設計される。具体的には、メチル化部位を有することが知られているゲノム領域は、プロモーター領域、CpGアイランド領域、CGIショア領域、およびインプリント遺伝子領域のうちの少なくとも1つを含み得る。したがって、いくつかの実施形態の特異的プローブを用いてハイブリッド捕捉を行う場合、標的配列、例えばメチル化部位を有することが知られている試料ゲノム中の領域(本明細書では「特定のゲノム領域」とも呼ばれる)と相補的な試料ゲノム中の配列を効率的に捕捉することができる。
【0215】
一例によれば、本明細書に記載のメチル化領域は、特異的プローブを設計するために使用される。いくつかの実施形態では、特異的プローブは、例えばeArrayシステムなどの市販の方法を使用して設計される。プローブの長さは、目的のメチル化領域に十分な特異性でハイブリダイズするのに十分であり得る。様々な例において、プローブは、10mer、11mer、12mer、13mer、14mer、15mer、16mer、17mer、18mer、19merまたは20merである。
【0216】
上記の表1~11に列挙された領域は、データベースリソース(遺伝子存在論など)を利用することによって選別される。相補的塩基対合の原理によれば、一本鎖捕捉プローブを一本鎖標的配列と相補的に組み合わせて、標的領域をうまく捕捉することができる。いくつかの実施形態では、設計されたプローブは、固体捕捉チップ(プローブが固体支持体上に固定化されている)として設計されてもよく、または液体捕捉チップ(プローブが液体中に遊離している)として設計されてもよいが、様々な要因、例えばプローブ長さ、プローブ密度、および高コスト、その他によって制限され、固体捕捉チップはほとんど使用されず、一方で液体捕捉チップはより頻繁に使用される。
【0217】
いくつかの実施形態では、核酸中のGCに富む配列(GC塩基の含有量が60%超)は、正常な配列(A、T、CおよびG塩基の平均含有量がそれぞれ25%)と比較して、CおよびG塩基の分子構造に起因する捕捉効率の低下をもたらし得る。重要な研究領域、例えばCGI領域(CpGアイランド)については、増量したプローブを設計して、十分かつ正確なCGIデータを得ることが推奨され得る。
【0218】
E.アンプリコンベースのシーケンシング
変換されたDNAの断片は増幅され得る。いくつかの実施形態では、増幅することは、その中に少なくとも1つのメチル化部位を有する、メチル化変換された標的配列にアニーリングするように設計されたプライマーを用いて行われる。メチル化シーケンシング変換により、非メチル化シトシンがウラシルに変換されるが、5-メチルシトシンは影響を受けない。したがって、「変換された標的配列」は、メチル化部位であることが知られているシトシンが「C」(シトシン)として固定されている一方で、メチル化されていないことが知られているシトシンが「U」(ウラシル;プライマー設計目的のために「T」(チミン)として扱ってもよい)として固定されている配列であると理解される。
【0219】
様々な例において、DNAのソースは、全血、血漿、血清からの無細胞DNA、または細胞もしくは組織から抽出されたゲノムDNAである。いくつかの実施形態において、増幅断片のサイズは、約100~200塩基対の長さである。いくつかの実施形態では、DNAソースは、細胞ソース(例えば、組織、生検、細胞株)から抽出され、増幅断片は、約100~350塩基対の長さである。いくつかの実施形態において、増幅断片は、少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つを超えるCpGジヌクレオチドを含む少なくとも1つの20塩基対配列を含む。増幅は、本開示によるプライマーオリゴヌクレオチドのセットを使用して実施することができ、熱安定性ポリメラーゼを使用することができる。いくつかのDNAセグメントの増幅は、1つの同じ反応容器で同時に行うことができる。いくつかの実施形態において、2つ以上の断片が同時に増幅される。例えば、ポリメラーゼ連鎖反応(PCR)を用いて増幅を行ってもよい。
【0220】
そのような配列を標的とするように設計されたプライマーは、変換されたメチル化配列に対してある程度のバイアスを示し得る。いくつかの実施形態では、PCRプライマーは、標的メチル化シーケンシング用途のためにメチル化特異的であるように設計される。これにより、いくつかの用途において向上した感度が可能になり得る。例えば、プライマーは、例えばPCR用途において、最適な識別を達成するように配置された(亜硫酸水素塩変換後のメチル化配列に特異的な)区別的なヌクレオチドを含むように設計され得る。区別は、3’最終位置または最後から2番目の位置に配置され得る。
【0221】
いくつかの実施形態では、プライマーは、長さ75~350bpのDNA断片を増幅するように設計される。これは、循環DNAに知られている一般的なサイズ範囲であり、標的サイズを考慮してプライマー設計を最適化することにより、本例による方法の感度を高めることができる。プライマーは、長さが約50~200、約75~150、または約100または125bpの領域を増幅するように設計され得る。
【0222】
本明細書に記載される方法のいくつかの実施形態では、核酸配列内の予め選択されたCpG位置のメチル化状態は、メチル化特異的プライマーオリゴヌクレオチドを使用するアンプリコンベースのアプローチによって検出され得る。亜硫酸水素塩処理DNAの増幅のためのメチル化状態特異的プライマーの使用は、メチル化核酸と非メチル化核酸との間の識別を可能にする。MSPプライマー対は、変換されたCpGジヌクレオチドにハイブリダイズする少なくとも1つのプライマーを含む。したがって、前記プライマーの配列は、少なくとも1つのCpG、TpGまたはCpAジヌクレオチドを含む。非メチル化DNAに特異的なMSPプライマーは、CpG中のCの3’位に「T」を含有する。したがって、前記プライマーの塩基配列は、前処理された核酸配列にハイブリダイズする少なくとも18ヌクレオチドの長さを有する配列、およびそれに相補的な配列を含む必要があり得、前記オリゴマーの塩基配列は、少なくとも1つのCpG、TpGまたはCpAジヌクレオチドを含む。いくつかの実施形態では、MSPプライマーは、2~5個のCpG、TpGまたはCpAジヌクレオチドを含む。いくつかの実施形態において、ジヌクレオチドは、プライマーの3’半分内に位置し、例えば、18塩基長であるプライマーの場合、特異的ジヌクレオチドは、分子の3’末端から最初の9塩基内に位置する。CpG、TpGまたはCpAジヌクレオチドに加えて、プライマーは、いくつかのメチル変換された塩基(例えば、チミンに変換されたシトシン、またはハイブリダイズ鎖上で、アデノシンに変換されたグアニン)をさらに含み得る。いくつかの実施形態では、プライマーは、2個以下のシトシンまたはグアニン塩基を含むように設計される。
【0223】
いくつかの実施形態では、領域の各々は、複数のプライマー対を使用してセクションで増幅される。いくつかの実施形態では、これらのセクションは重ならない。セクションは、直接隣接していても、離間していてもよい(例えば、10、20、30、40または50bpまで離間している)。標的領域(CpGアイランド、CpGショア、および/またはCpGシェルフを含む)は通常75から150bpよりも長いので、この例は、所与の標的領域のより多くの(またはすべての)部位にわたってメチル化状態を評価することを可能にする。
【0224】
プライマーは、プライマー3、プライマー3Plus、プライマー-BLASTなどの適切なツールを使用して標的領域用に設計することができる。検討されるように、亜硫酸水素塩変換は、シトシンのウラシルへの変換および5’-メチル-シトシンのチミンへの変換をもたらす。したがって、プライマーの配置または標的化は、必要とされるメチル化特異性の程度に応じて、亜硫酸水素塩変換されたメチル化配列を利用し得る。
【0225】
増幅用の標的領域は、少なくとも10個のCpGジヌクレオチドメチル化部位を有するように設計される。しかしながら、いくつかの例では、10個を超えるCpGメチル化部位を有する領域を増幅することが有利であり得る。例えば、300bp長の配列リードは、結腸細胞増殖性障害に関連する核酸試料においてメチル化されている約10、20、30、40または50個のCpGメチル化部位を有し得る。様々な例において、表1~11において特定されるメチル化領域は、結腸細胞増殖性障害に関連する核酸試料においてメチル化されている少なくとも25、50、100、200、300、400または500個のCpGメチル化部位を有し得る。いくつかの実施形態では、プライマーは、標的領域において3~20個のCpGメチル化部位を含むDNA断片を増幅するように設計される。全体として、このアプローチは、単一のシーケンシングリード内でより多くのメチル化部位が照会されることを可能にし、複数の一致するメチル化が単一のシーケンシングリード内で検出され得るので、さらなる確実性(偽陽性の排除)を提供する。いくつかの実施形態では、腫瘍シグナルは、表1~11から選択される3つ以上のメチル化領域を含む。この例における複数の腫瘍シグナルの検出は、腫瘍検出の信頼性を高めることができる。そのようなシグナルは、同じ部位または異なる部位に存在し得る。いくつかの実施形態では、同じ領域における2つ以上の腫瘍シグナルの検出は腫瘍を示す。
【0226】
いくつかの実施形態では、特定されたメチル化領域内のCpG部位の数は、結腸細胞増殖性障害の異なる特性を有する2つの集団間でモデル化されて、メチル化閾値を特定することができ、閾値を超える領域内のCpG部位の数は、結腸細胞増殖性障害を示す。
【0227】
様々な例では、結腸直腸癌を示す特定されたメチル化領域内のCpG部位の数は、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、または18であり、この特定された数を超えるメチル化CpGの存在は、結腸直腸癌を示し、分類子として使用される機械学習モデルへの入力特徴として使用され、集団を健康な個体と結腸直腸癌を有する個体とに階層化することができる。
【0228】
この例では、ゲノムの同じ部位でのメチル化を示す複数の腫瘍シグナルの検出は、腫瘍検出の信頼性を高めることができる。ゲノムの隣接部位におけるメチル化の検出はまた、シグナルが異なるシーケンシングリードに由来する場合であっても、腫瘍検出の信頼性を高めることができる。これは、別のタイプのシグナル一致を反映する。いくつかの実施形態では、少なくとも2つの異なるシーケンシングリードにわたって隣接または重複する腫瘍シグナルの検出は、腫瘍を示す。いくつかの実施形態では、隣接または重複する腫瘍シグナルは、同じCpGアイランド内にある。いくつかの実施形態では、無細胞DNA断片中の3~34個の近位メチル化部位の検出は、腫瘍を示す。いくつかの実施形態では、断片中の3~34個のメチル化CpG部位の検出を使用して、特徴(例えば、健康、疾患または疾患のステージ)を有する個体の集団を区別するための閾値を特定する。いくつかの実施形態において、リード断片中の約4~10、約4~15、約10~20、約15~20、約15~25、約20~25、約20~34、約25~34または約30~34個のメチル化近位CpG部位の検出を使用して、特徴(例えば、健康、疾患または疾患のステージ)を有する個体の集団を区別するための閾値を特定する。本明細書で使用される場合、「近位CpG部位」という用語は、互いに隣接するか、または約2~10個のCpG部位の範囲内にあり、無細胞核酸試料中の同じ核酸断片上にあるCpG部位を指す。
【0229】
いくつかの実施形態において、増幅は、100を超えるプライマー対を用いて行われる。増幅は、約10個、約20個、約30個、約40個、約50個、約60個、約70個、約80個、約90個、約100個、約110個、約120個、約130個、約140個、約150個、またはそれを超えるプライマー対を用いて行われ得る。いくつかの実施形態では、増幅は多重増幅である。多重増幅によって、DNAが一般に豊富ではないcfDNA試料からでさえ、ゲノム内の多くの標的領域から並行して大量のメチル化情報を収集することができる。多重化は、例えば最大約24,000個のアンプリコンが同時に照会され得る、Ion AmpliSeq(登録商標)などのプラットフォームにスケールアップしてもよい。いくつかの実施形態では、増幅は入れ子式増幅である。入れ子式増幅は、感度および特異性を改善し得る。
【0230】
さらに、同時標的メチル化シーケンシング(sTM-Seq)と呼ばれる複数のメチル化配列の並列試験ための別の迅速かつ堅牢なプロトコル。この技術の重要な特徴には、大量の高分子量DNAの必要性の排除、ならびに5-メチルシトシン(5mC)および5-ヒドロキシメチルシトシン(5hmC)両方のヌクレオチド特異的な特質が含まれる。さらに、sTM-Seqはスケーラブルであり、1回のシーケンシングラン内の数十の試料中の複数の遺伝子座を調査するために使用され得る。多目的バーコード化、ライブラリー調製、および特注シーケンシングのための自由に利用できるウェブベースのソフトウェアおよびユニバーサルプライマーにより、sTM-Seqは手頃な価格、効率的、かつ広範囲に適用可能になる(例えば、Asmus,N.et al.,Curr Protoc Hum Genet.2019 Apr;101(1)に記載され、その内容は参照により本明細書に組み込まれる)。
【0231】
一般に、本明細書で提供される方法およびシステムは、下流の適用シーケンシング反応への無細胞ポリヌクレオチド配列の調製に有用である。いくつかの実施形態では、シーケンシング法は古典的サンガーシーケンシングである。シーケンシング法には、限定するものではないが、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina(登録商標))、Digital Gene Expression(Helicos(登録商標))、次世代シーケンシング、Single Molecule Sequencing by Synthesis(SMSS)(Helicos(登録商標))、大規模並列シーケンシング、Clonal Single Molecule Array(Solexa)、ショットガンシーケンシング、マクサム-ギルバートシーケンシング、プライマーウォーキング、および任意の他のシーケンシング法が含まれ得る。
【0232】
パイロシーケンシングは、ヌクレオチド取り込み時のピロホスフェート放出のルミノメトリック検出に基づくリアルタイムシーケンシング技術を指し得、それは、いくつかのCpG位置のメチル化程度の同時分析および定量化に適している。ゲノムDNAの変換後、関心領域は、ビオチン化されている2つのプライマーのうちの1つを用いてポリメラーゼ連鎖反応(PCR)によって増幅される。PCR生成された鋳型を一本鎖にし、パイロシーケンシングプライマーをアニーリングしてCpG位置を定量的に分析する。亜硫酸水素塩処理およびPCRの後、配列中の各CpG位置における各メチル化の程度は、元の配列中の各CpG部位における非メチル化シトシンとメチル化シトシンとの割合を反映するTシグナルとCシグナルとの比から決定される。
【0233】
V.分類子、機械学習モデル、およびシステム
様々な例において、メチル化シーケンシング特徴を、トレーニングされたアルゴリズム(例えば、機械学習モデルまたは分類子)への入力データセットとして使用して、配列組成と患者群との間の相関を見出す。そのような患者群の例としては、疾患または状態の存在、ステージ、サブタイプ、応答者対非応答者、および発症者対非発症者が挙げられる。様々な例では、特徴行列を生成して、既知の状態または特徴を有する個体から得られた試料を比較する。いくつかの実施形態では、試料は、健康な個体、または既知の指標のいずれも有さない個体から、および癌を有することが知られている患者からの試料から得られる。
【0234】
機械学習およびパターン認識に関連して本明細書で使用される場合、「特徴」という用語は、一般に、観察されている現象の個々の測定可能な特性または特徴を指す。「特徴」の概念は、統計的手法、例えば、これらに限定されないが、線形回帰およびロジスティック回帰に用いられる説明変数のものに関連する。特徴は通常数値であるが、構文パターン認識では文字列やグラフなどの構造的特徴が用いられる。
【0235】
本明細書で使用される「入力特徴」(または「特徴」)という用語は、一般に、トレーニングされたアルゴリズム(例えば、モデルまたは分類子)によって使用され、試料の出力分類(標識)、例えば、状態、配列内容(例えば、変異)、提案されたデータ収集操作、または提案された治療などを予測する変数を指す。変数の値は、試料について決定され、分類を決定するために使用され得る。
【0236】
様々な例において、遺伝子データの入力特徴としては、配列データ(例えば、配列リード)のゲノムへのアラインメントに関するアラインメント変数、および例えば配列リードの配列含有量、タンパク質もしくは自己抗体の測定値、またはゲノム領域での平均メチル化レベルに関する非アラインメント変数が挙げられる。入力特徴は、Vプロット測定値、FREE-Cデコンボリューション、クロマチンアクセシビリティ、および転写開始部位にわたるcfDNA測定値などの遺伝子特徴であり得る。メチル化分析に使用され得る測定基準は、これらに限定されないが、CpG、CHG、CHHについてのベースワイズ(base wise)メチル化率、変換効率(100-CHHについての平均メチル化率)、低メチル化ブロック、メチル化レベル(CPG、CHH、CHGの全体平均メチル化、断片長、断片中間点、および1つ以上のゲノム領域、例えばchrM、LINE1、またはALUにおけるメチル化レベル)、断片あたりのメチル化CpG数、断片あたりの総CpGに対するCpGメチル化の割合、領域あたりの総CpGに対するCpGメチル化の割合、パネル内の総CpGに対するCpGメチル化の割合、ジヌクレオチドのカバレッジ(ジヌクレオチドの正規化されたカバレッジ)、カバレッジの均一性(lxおよび10xの平均ゲノムカバレッジ(S4ランについて)での固有のCpG部位、全体的な平均CpGカバレッジ(深度)、ならびにCpGアイランド、CGIシェルフ、CGIショアでの平均カバレッジを含む。これらの測定基準は、機械学習方法およびモデルのための特徴入力として使用することができる。
【0237】
複数のアッセイでは、システムは、特徴セットを識別して、トレーニングされたアルゴリズム(例えば、機械学習モデルまたは分類子)に入力する。システムは、各分子クラスに対してアッセイを実行し、測定値から特徴ベクトルを形成する。システムは、特徴ベクトルを機械学習モデルに入力し、生物学的試料が指定された特性を有するかどうかの出力分類を取得する。
【0238】
いくつかの実施形態では、機械学習モデルは、個体の集団または集団の特徴における、個体または特徴の2つ以上の群またはクラスを区別することができる分類子を出力する。いくつかの実施形態では、分類子はトレーニングされた機械学習分類子である。
【0239】
いくつかの実施形態では、癌組織におけるバイオマーカーの、情報量の多い遺伝子座または特徴がアッセイされて、プロファイルを形成する。受信者操作特性(ROC)曲線は、2つの集団(例えば、治療剤に応答する個体および応答しない個体)を区別する際に特定の特徴(例えば、本明細書に記載のバイオマーカーのいずれか、および/または追加の生物医学情報の任意の項目)の性能をプロットすることによって生成することができる。いくつかの実施形態では、母集団全体にわたる特徴データ(例えば、事例および対照)は、単一の特徴の値に基づいて昇順にソートされる。
【0240】
様々な例において、特定の特性は、健康対癌、疾患サブタイプ、疾患ステージ、発症者対非発症者、および応答者対非応答者から選択される。
【0241】
いくつかの実施形態において、結腸細胞増殖性障害は、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。
【0242】
A.データ解析
いくつかの例では、本開示は、ソフトウェアアプリケーション、コンピューティングハードウェア、またはその両方で実現されるデータ分析を有するシステム、方法、またはキットを提供する。様々な例において、分析アプリケーションまたはシステムは、少なくともデータ受信モジュール、データ前処理モジュール、データ分析モジュール(1つまたは複数のタイプのゲノムデータに対して操作することができる)、データ解釈モジュール、またはデータ視覚化モジュールを含む。いくつかの実施形態では、データ受信モジュールは、実験室ハードウェアまたは計装を、実験室データを処理するコンピュータシステムと接続するコンピュータシステムを含むことができる。いくつかの実施形態では、データ前処理モジュールは、分析の準備中のデータに対して操作を実行するハードウェアシステムまたはコンピュータソフトウェアを備えることができる。前処理モジュール内のデータに適用され得る操作の例は、アフィン変換、ノイズ除去操作、データクリーニング、リフォーマット、またはサブサンプリングを含む。1つ以上のゲノム材料からのゲノムデータを分析するために特殊化され得るデータ分析モジュールは、例えば、集合したゲノム配列を取得し、確率的および統計的分析を実施して、疾患、病態、状態、リスク、状態または表現型に関連する異常パターンを識別することができる。データ解釈モジュールは、例えば統計学、数学、または生物学から引き出された分析方法を使用して、識別された異常パターンと健康状態、機能的状態、予後、またはリスクとの間の関係の理解を裏付けることができる。データ視覚化モジュールは、数学的モデリング、コンピュータグラフィックス、またはレンダリングの方法を使用して、結果の理解または解釈を容易にすることができるデータの視覚的表現を作成することができる。
【0243】
様々な例において、機械学習法を適用して、試料の集団内において試料を識別する。いくつかの実施形態では、機械学習法を適用して、健康な試料と進行した疾患(例えば、腺腫)試料とを識別する。
【0244】
いくつかの実施形態では、予測エンジンをトレーニングするために使用される1つまたは複数の機械学習操作は、一般化線形モデル、一般化加法モデル、ノンパラメトリック回帰操作、ランダムフォレスト分類子、空間回帰操作、ベイズ回帰モデル、時系列分析、ベイジアンネットワーク、ガウスネットワーク、決定木学習操作、人工ニューラルネットワーク、回帰型ニューラルネットワーク、畳み込みニューラルネットワーク、強化学習操作、線形または非線形回帰動作、サポートベクターマシン、クラスタリング操作、および遺伝的アルゴリズム操作のうちの1つまたは複数を含む。
【0245】
様々な例では、コンピュータ処理方法は、ロジスティック回帰、多重線形回帰(MLR)、次元削減、部分最小二乗(PLS)回帰、主成分回帰、オートエンコーダ、変分オートエンコーダ、特異値分解、フーリエ基底、ウェーブレット、判別分析、サポートベクターマシン、決定木、分類および回帰木(CART)、木ベースの方法、ランダムフォレスト、勾配ブースティング木、ロジスティック回帰、行列因数分解、多次元スケーリング(MDS)、次元削減方法、t分布確率的近傍埋め込み(t-SNE)、多層パーセプトロン(MLP)、ネットワーククラスタリング、ニューロファジー、および人工ニューラルネットワークからなる群から選択される。
【0246】
いくつかの例では、本明細書に開示される方法は、個体または複数の個体からの試料の核酸シーケンシングデータに対する計算分析を含み得る。
【0247】
B.分類子生成
一態様では、開示されるシステムおよび方法は、cfDNAの生物学的試料からのメチル化配列分析に由来する特徴情報に基づいて生成された分類子を提供する。分類子は、cfDNAなどの生物学的試料で特定された配列特徴に基づいて集団内の群を区別するための予測エンジンの一部を形成する。
【0248】
いくつかの実施形態では、分類子は、配列情報の類似部分を統一フォーマットおよび統一スケールにフォーマットすることによって配列情報を正規化すること、正規化配列情報を円柱状データベースに保存すること、特定の集団について1つまたは複数の特徴の組み合わせをマッピングする予測エンジンを、保存された正規化された配列情報に1つまたは複数の一機械学習操作を適用することによってトレーニングすること、アクセスされたフィールド情報に予測エンジンを適用して、群に関連付けられる個体を特定すること、および個体を群に分類することによって作成される
【0249】
いくつかの実施形態では、階層は、配列情報の類似部分を統一フォーマットおよび統一スケールにフォーマットすることによって配列情報を正規化すること、正規化配列情報を円柱状データベースに保存すること、特定の集団について1つまたは複数の特徴の組み合わせをマッピングする予測エンジンを、保存された正規化された配列情報に1つまたは複数の一機械学習操作を適用することによってトレーニングすること、アクセスされたフィールド情報に予測エンジンを適用して、群に関連付けられる個体を特定すること、および個体を群に分類することによって作成される
【0250】
本明細書で使用される場合、特異性は、一般に、「疾患を有さない者のうちの陰性の検査結果の確率」を指す。これは、陰性を示した疾患のない者の数を疾患のない者の総数で割ることによって計算することができる。
【0251】
様々な例において、モデル、分類子または予測試験は、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも99%の特異性を有する。
【0252】
本明細書で使用される場合、「感度」は、一般に、「疾患を有する者のうちの陽性の検査結果の確率」を指す。これは、陽性を示した疾患のある個体の数を疾患のある個体の総数で割ることによって計算することができる。
【0253】
様々な例において、モデル、分類子または予測試験は、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも99%の感度を有する。
【0254】
本明細書で使用される場合、陽性的中率は、一般に、「陽性の検査結果が正確である確率」を指す。それは、真の陽性試験結果の数を陽性試験結果の総数で割ることによって計算することができる。
【0255】
様々な例において、モデル、分類子または予測試験は、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも99%の陽性的中率を有する。
【0256】
本明細書で使用される場合、陰性的中率は、一般に、「陰性の検査結果が正確である確率」を指す。それは、真の陰性試験結果の数を陰性試験結果の総数で割ることによって計算することができる。
【0257】
様々な例において、モデル、分類子または予測試験は、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも99%の陰性的中率を有する。
【0258】
C.デジタル処理デバイス
いくつかの例では、本明細書に記載の主題は、デジタル処理デバイスまたはその使用を含むことができる。いくつかの例では、デジタル処理デバイスは、デバイスの機能を実行する1つまたは複数のハードウェアセントラルプロセシングユニット(CPU)、グラフィックスプロセシングユニット(GPU)、またはテンソルプロセシングユニット(TPU)を含むことができる。いくつかの例では、デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを含むことができる。
【0259】
いくつかの例では、デジタル処理デバイスは、任意選択的にコンピュータネットワークに接続することができる。いくつかの例では、デジタル処理デバイスは、任意選択的にインターネットに接続することができる。いくつかの例では、デジタル処理デバイスは、任意選択的にクラウドコンピューティングインフラストラクチャに接続することができる。いくつかの例では、デジタル処理デバイスは、任意選択的にイントラネットに接続することができる。いくつかの例では、デジタル処理デバイスは、任意選択的にデータ記憶デバイスに接続することができる。
【0260】
適切なデジタル処理デバイスの非限定的な例には、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、ハンドヘルドコンピュータ、インターネットアプライアンス、モバイルスマートフォン、およびタブレットコンピュータが含まれる。適切なタブレットコンピュータは、例えば、ブックレット、スレート、およびコンバーチブル構成を有するものを含むことができる。
【0261】
いくつかの例では、デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを含むことができる。例えば、オペレーティングシステムは、デバイスのハードウェアを管理し、アプリケーションの実行のためのサービスを提供する、プログラムおよびデータを含むソフトウェアを含むことができる。オペレーティングシステムの非限定的な例には、Ubuntu、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows Server(登録商標)、およびNovell(登録商標)NetWare(登録商標)が含まれる。適切なパーソナルコンピュータオペレーティングシステムの非限定的な例には、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)などのUNIX系オペレーティングシステムが含まれる。いくつかの例では、オペレーティングシステムはクラウドコンピューティングによって提供されてもよく、クラウドコンピューティングリソースは1つまたは複数のサービスプロバイダによって提供されてもよい。
【0262】
いくつかの例では、デバイスは、記憶および/またはメモリデバイスを含むことができる。記憶および/またはメモリデバイスは、一時的または永続的にデータまたはプログラムを記憶するために使用される1つまたは複数の物理装置であってもよい。いくつかの例では、デバイスは揮発性メモリであり、記憶された情報を維持するために電力を必要とする場合がある。いくつかの例では、デバイスは不揮発性メモリであり、デジタル処理デバイスに電力が供給されない場合に記憶された情報を保持することができる。いくつかの例では、不揮発性メモリはフラッシュメモリを含むことができる。いくつかの例では、不揮発性メモリは、ダイナミックランダムアクセスメモリ(DRAM)を含むことができる。いくつかの例では、不揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM)を含むことができる。いくつかの例では、不揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含むことができる。
【0263】
いくつかの例では、デバイスは、例えば、CD-ROM、DVD、フラッシュメモリデバイス、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、およびクラウドコンピューティングベースのストレージを含む記憶デバイスであってもよい。いくつかの例では、記憶および/またはメモリデバイスは、本明細書に開示されているものなどのデバイスの組み合わせであってもよい。いくつかの例では、デジタル処理デバイスは、視覚情報をユーザに送信するためのディスプレイを含むことができる。いくつかの例では、ディスプレイは、陰極線管(CRT)であってもよい。いくつかの例では、ディスプレイは液晶ディスプレイ(LCD)であってもよい。いくつかの例では、ディスプレイは薄膜トランジスタ液晶ディスプレイ(TFT-LCD)であってもよい。いくつかの例では、ディスプレイは有機発光ダイオード(OLED)ディスプレイであってもよい。いくつかの例では、OLEDディスプレイは、パッシブマトリクスOLED(PMOLED)またはアクティブマトリクスOLED(AMOLED)ディスプレイであってもよい。いくつかの例では、ディスプレイは、プラズマディスプレイであってもよい。いくつかの例では、ディスプレイは、ビデオプロジェクタであってもよい。いくつかの例では、ディスプレイは、本明細書に開示されているものなどのデバイスの組み合わせであってもよい。
【0264】
いくつかの例では、デジタル処理デバイスは、ユーザから情報を受信するための入力デバイスを含むことができる。いくつかの例では、入力デバイスはキーボードであってもよい。いくつかの例では、入力デバイスは、例えば、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ、またはスタイラスを含むポインティングデバイスであってもよい。いくつかの例では、入力デバイスはタッチスクリーンまたはマルチタッチスクリーンであってもよい。いくつかの例では、入力デバイスは、音声または他の音入力を取り込むためのマイクロフォンであってもよい。いくつかの例では、入力デバイスは、動作または視覚入力を取り込むためのビデオカメラであってもよい。いくつかの例では、入力デバイスは、本明細書に開示されているものなどのデバイスの組み合わせであってもよい。
【0265】
D.非一時的コンピュータ可読記憶媒体
いくつかの例では、本明細書に開示される主題は、場合によりネットワーク化されたデジタル処理デバイスのオペレーティングシステムによって実行可能な命令を含むプログラムで符号化された、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。いくつかの例では、コンピュータ可読記憶媒体は、デジタル処理デバイスの有形の構成要素であってもよい。いくつかの例では、コンピュータ可読記憶媒体は、場合によりデジタル処理デバイスから取り外し可能であってもよい。いくつかの例では、コンピュータ可読記憶媒体は、例えば、CD-ROM、DVD、フラッシュメモリデバイス、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどを含むことができる。いくつかの例では、プログラムおよび命令は、媒体上に永続的に、実質的に永続的に、半永続的に、または非一時的に符号化されてもよい。
【0266】
E.コンピュータシステム
本開示は、本明細書に記載の方法を実施するようにプログラムされたコンピュータシステムを提供する。
図1は、患者データ、生物学的データ、生物学的配列、および参照配列を記憶、処理、識別、または解釈するようにプログラムされた、またはそうでなければ構成されたコンピュータシステム(101)を示す。コンピュータシステム(101)は、本開示の患者データ、生物学的データ、生物学的配列、または参照配列の様々な態様を処理することができる。コンピュータシステム(101)は、ユーザの電子デバイス、または電子デバイスに対して遠隔に配置されたコンピュータシステムであってもよい。電子デバイスは、モバイル電子デバイスであってもよい。
【0267】
コンピュータシステム(101)は、セントラルプロセシングユニット(105)(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」)を備え、それは、シングルコアもしくはマルチコアプロセッサ、または並列処理のための複数のプロセッサであってもよい。コンピュータシステム(101)はまた、メモリまたはメモリ位置(110)(例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ)と、電子記憶ユニット(115)(例えば、ハードディスク)と、1つまたは複数の他のシステムと通信するための通信インターフェース(120)(例えば、ネットワークアダプタ)と、キャッシュ、他のメモリ、データ記憶および/または電子ディスプレイアダプタなどの周辺デバイス(125)とを備える。メモリ(110)、記憶ユニット(115)、インターフェース(120)および周辺デバイス(125)は、マザーボードなどの通信バス(実線)を介してCPU(105)と通信する。記憶ユニット(115)は、データを記憶するためのデータ記憶ユニット(またはデータ保管所)であってもよい。コンピュータシステム(101)は、通信インターフェース(120)の援助でコンピュータネットワーク(「ネットワーク」)(130)に操作可能に接続され得る。ネットワーク(130)は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットとすることができる。ネットワーク(130)は、いくつかの例では、電気通信および/またはデータネットワークである。ネットワーク(130)は、1つまたは複数のコンピュータサーバを含むことができ、それにより、クラウドコンピューティングなどの分散コンピューティングが可能になり得る。ネットワーク(130)は、いくつかの例では、コンピュータシステム(101)の助けを借りてピアツーピアネットワークを実装することができ、これにより、コンピュータシステム(101)に接続されたデバイスは、クライアントまたはサーバとして機能することが可能になり得る。
【0268】
CPU(105)は、一連の機械可読命令を実行することができ、プログラムまたはソフトウェアに組み込まれてもよい。命令は、メモリ(110)などのメモリ位置に記憶され得る。命令は、CPU(105)に向けることができ、その後、本開示の方法を実施するようにCPU(105)をプログラムするか、さもなければ構成することができる。CPU(105)によって実行される操作の例は、フェッチ、復号化、実行、およびライトバックを含むことができる。
【0269】
CPU(105)は、集積回路などの回路の一部であってもよい。システム(101)の1つまたは複数の他の構成要素が回路に含まれてもよい。いくつかの例では、回路は特定用途向け集積回路(ASIC)である。
【0270】
記憶ユニット(115)は、ドライバ、ライブラリーおよび保存されたプログラムなどのファイルを記憶することができる。記憶ユニット(115)は、ユーザデータ、例えば、ユーザプレファレンスおよびユーザプログラムを記憶することができる。いくつかの例におけるコンピュータシステム(101)は、コンピュータシステム(101)の外部にある、例えば、イントラネットまたはインターネットを介してコンピュータシステム(101)と通信する遠隔サーバ上に位置する1つまたは複数の追加のデータ記憶ユニットを含むことができる。
【0271】
コンピュータシステム(101)は、ネットワーク(130)を介して1つまたは複数の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム(101)は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標))、またはパーソナル情報端末が含まれる。ユーザは、ネットワーク(130)を介してコンピュータシステム(101)にアクセスすることができる。
【0272】
本明細書に記載の方法は、コンピュータシステム(101)の電子記憶位置、例えばメモリ(110)または電子記憶ユニット(115)に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって実施することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供されてもよい。使用中、コードはプロセッサ(105)によって実行されてもよい。いくつかの例では、コードは、記憶ユニット(115)から取得され、プロセッサ(105)による容易なアクセスのためにメモリ(110)に記憶されてもよい。いくつかの例では、電子記憶ユニット(115)は除外されてもよく、機械実行可能命令はメモリ(110)に記憶される。
【0273】
コードは、コードを実行するように適合されたプロセッサを有する機械で使用するために事前コンパイルおよび構成されてもよく、または実行時に解釈もしくはコンパイルされてもよい。コードは、コードが事前コンパイルされた、解釈された、またはコンパイルされたような様式で実行できるように選択され得るプログラミング言語で供給され得る。
【0274】
コンピュータシステム(101)など、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて具現化され得る。この技術の様々な態様は、典型的には機械(またはプロセッサ)実行可能コード、および/またはある種の機械可読媒体上に載せられるかまたはそこに具現化される関連データの形態の「製品」または「製造品」と考えることができる。機械実行可能コードは、電子記憶ユニット、例えばメモリ(例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクに記憶され得る。「記憶」型媒体は、コンピュータ、プロセッサなどの有形メモリ、またはそれらの関連モジュール、例えば多様な半導体メモリ、テープドライブ、ディスクドライブなどのいずれか、またはすべてを含むことができ、ソフトウェアプログラミングのためにいつでも非一時的記憶を提供することができる。ソフトウェアの全部または一部は、インターネットまたは様々な他の電気通信ネットワークを介して通信されることがある。そのような通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのローディングを可能にすることができる。したがって、ソフトウェア要素を運ぶことができる別のタイプの媒体は、光波、電気波、および電磁波を含み、例えば、有線および光固定電話ネットワークを介して、様々な空中リンク(air-link)を超えて、ローカルデバイス間の物理インターフェースにわたって使用される。そのような波を伝達する物理的要素、例えば有線または無線リンク、光リンクなどもまた、ソフトウェアを運ぶ媒体と考えることができる。本明細書で使用される場合、非一時的な有形「記憶」媒体に限定されない限り、コンピュータまたは機械の「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
【0275】
したがって、コンピュータ実行可能コードなどの機械可読媒体は、これらに限定されないが、有形記憶媒体、搬送波媒体、または物理伝送媒体を含む多くの形態をとることができる。不揮発性記憶媒体は、例えば、光学または磁気ディスク、例えば任意のコンピュータ等における記憶デバイスのいずれかを含み、例えば図面に示されるデータベースなどを実装するために使用され得る。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリを含む。有形伝達媒体は、同軸ケーブル、コンピュータシステム内のバスを含むワイヤを含む、銅ワイヤおよびファイバオプティクスを含む。搬送波伝達媒体は、電気もしくは電磁信号、または無線周波数(RF)および赤外線(IR)データ通信中に生成されるような音波もしくは光波の形態をとることができる。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、そのような搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読み取ることができる任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、1つまたは複数の命令の1つまたは複数のシーケンスを、実行のためにプロセッサに搬送することに関与することができる。
【0276】
コンピュータシステム(101)は、例えば、核酸配列、富化核酸試料、メチル化プロファイル、発現プロファイル、およびメチル化または発現プロファイルの分析を提供するためのユーザインターフェース(UI)(140)を含む電子ディスプレイ(135)を含むか、またはそれと通信することができる。UIの例には、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースが含まれるが、これらに限定されない。
【0277】
本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって実施することができる。アルゴリズムは、セントラルプロセシングユニット(105)による実行時にソフトウェアによって実施されてもよい。アルゴリズムは、例えば、患者データ、生物学的データ、生物学的配列、および参照配列を記憶、処理、特定、または解釈することができる。
【0278】
方法およびシステムの特定の例が本明細書に示され説明されているが、当業者は、これらが例としてのみ提供され、本明細書内で限定することを意図するものではないことを理解するであろう。本明細書に記載の範囲から逸脱することなく、ここで当業者には多数の変形、変更、および置換が思い浮かぶであろう。さらに、記載される方法およびシステムのすべての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されず、説明は、そのような代替形態、修正形態、変形形態または均等物を含むことが意図されることを理解されたい。
【0279】
いくつかの例では、本明細書に開示される主題は、少なくとも1つのコンピュータプログラムまたはその使用を含むことができる。コンピュータプログラムは、指定されたタスクを実行するように書き込まれた、デジタル処理デバイスのCPU、GPU、またはTPUで実行可能な命令のシーケンスであり得る。コンピュータ可読命令は、プログラムモジュール、例えば特定のタスクを実行する、または特定の抽象データ型を実現する、関数、オブジェクト、アプリケーションプログラミングインターフェース(API)、データ構造などとして実装されてもよい。本明細書で提供される開示に照らして、コンピュータプログラムは、様々な言語の様々なバージョンで書かれてもよい。
【0280】
コンピュータ可読命令の機能は、様々な環境における所望に応じて組み合わされ、または分配されてもよい。いくつかの例では、コンピュータプログラムは1つの命令シーケンスを含むことができる。いくつかの例では、コンピュータプログラムは複数の命令シーケンスを含むことができる。いくつかの例では、コンピュータプログラムは1つの場所から提供されてもよい。いくつかの例では、コンピュータプログラムは複数の場所から提供されてもよい。いくつかの例では、コンピュータプログラムは、1つまたは複数のソフトウェアモジュールを含むことができる。いくつかの例では、コンピュータプログラムは、1つまたは複数のウェブアプリケーション、1つまたは複数のモバイルアプリケーション、1つまたは複数のスタンドアロンアプリケーション、1つまたは複数のウェブブラウザプラグイン、拡張機能、アドイン、またはアドオン、またはそれらの組み合わせを部分的または全体的に含むことができる。
【0281】
いくつかの例では、コンピュータ処理は、統計学、数学、生物学、またはそれらの任意の組み合わせの方法であり得る。いくつかの例では、コンピュータ処理方法は、例えば、ロジスティック回帰、次元削減、主成分分析、オートエンコーダ、特異値分解、フーリエ基底、特異値分解、ウェーブレット、判別分析、サポートベクターマシン、木ベースの方法、ランダムフォレスト、勾配ブースティング木、ロジスティック回帰、行列因数分解、ネットワーククラスタリング、およびニューラルネットワークを含む次元削減方法を含む。
【0282】
いくつかの例では、コンピュータ処理方法は、例えば、回帰、サポートベクターマシン、木ベースの方法、およびネットワークを含む教師あり機械学習方法である。
【0283】
いくつかの例では、コンピュータ処理方法は、例えば、クラスタリング、ネットワーク、主成分分析、および行列因数分解を含む教師なし機械学習方法である。
【0284】
F.データベース
いくつかの例では、本明細書に開示される主題は、患者データ、生物学的データ、生物学的配列、または参照配列を記憶するための1つまたは複数のデータベース、またはその使用を含むことができる。参照配列は、データベースから導出され得る。本明細書中に提供される開示を考慮すると、多くのデータベースが配列情報の保存および読み出しに適している場合がある。いくつかの例では、適切なデータベースは、例えば、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、実体関連モデルデータベース、連想データベース、およびXMLデータベースを含むことができる。いくつかの例では、データベースはインターネットベースであってもよい。いくつかの例では、データベースはウェブベースであってもよい。いくつかの例では、データベースはクラウドコンピューティングベースであってもよい。いくつかの例では、データベースは、1つまたは複数のローカルコンピュータ記憶デバイスに基づくことができる。
【0285】
一態様では、本開示は、本明細書に開示された方法を実行するようにプロセッサに指示する命令を含む、非一時的コンピュータ可読媒体を提供する。
【0286】
一態様では、本開示は、コンピュータ可読媒体を備える計算デバイスを提供する。
【0287】
別の態様では、本開示は、生物学的試料の分類を実行するためのシステムであって、a)複数のトレーニング試料を受信する受信器であって、複数のトレーニング試料の各々が複数の分子クラスを有し、複数のトレーニング試料の各々が1つまたは複数の既知の標識を含む、受信器と、b)複数のトレーニング試料の各々について機械学習モデルに入力されるように動作可能な、アッセイに対応する特徴のセットを識別するための特徴モジュールであって、特徴のセットが複数のトレーニング試料中の分子の特性に対応し、複数のトレーニング試料の各々について、システムが、トレーニング試料中の複数の分子クラスを複数の異なるアッセイに供して測定値のセットを取得するように動作可能であり、測定値の各セットが、トレーニング試料中の分子クラスに適用される1つのアッセイからであり、複数の測定値のセットが、複数のトレーニング試料について取得される、特徴モジュールと、c)測定値のセットを分析してトレーニング試料についてのトレーニングベクトルを得るための分析モジュールであって、トレーニングベクトルが、対応するアッセイの特徴のN個のセットの特徴値を含み、各特徴値が、特徴に対応し、1つまたは複数の測定値を含み、トレーニングベクトルが、複数の異なるアッセイの第1のサブセットに対応するN個の特徴のセットのうちの少なくとも2つからの少なくとも1つの特徴を使用して形成される、分析モジュールと、d)機械学習モデルのパラメータを用いてトレーニングベクトルの情報をシステムに提供して、複数のトレーニング試料についての出力標識を得るための、標識モジュールと、e)出力標識をトレーニング試料の既知の標識と比較するための比較器モジュールと、f)出力標識をトレーニング試料の既知の標識と比較することに基づいて、パラメータの最適値を機械学習モデルの一部として反復的に検索するためのトレーニングモジュールと、g)機械学習モデルのパラメータおよび機械学習モデルの特徴のセットを提供するための出力モジュールとを含む、システムを提供する。
【0288】
VI.集団における対象の分類方法
開示される方法は、対象におけるcfDNAの分析を介して、結腸細胞増殖障害に関連するゲノムDNAの遺伝的および/またはエピジェネティックパラメータを確認することに関する。方法は、結腸細胞増殖性障害の、より具体的には、前記障害のステージまたはサブクラスおよび前記障害に対する遺伝的素因の特定、およびそれらの識別の改善を可能にすることによって改善された診断、治療およびモニタリングにおいて使用するためのものである。
【0289】
いくつかの実施形態では、方法は、CpGアイランド、CpGショア、またはCpGシェルフのメチル化状態を分析することを含む。
【0290】
いくつかの実施形態では、方法は、生物学的試料中の無細胞核酸のメチル化状態、半メチル化状態、高メチル化状態または低メチル化状態を分析することを含む。
【0291】
一態様では、本開示は、無細胞試料に適用され得る結腸細胞増殖性障害を検出する方法を提供して、例えば、無細胞循環結腸細胞増殖性障害DNAを検出する。方法は、基本的な「陽性」結腸細胞増殖性障害シグナルとして、単一シーケンシングリード内のメチル化シグナルの検出を利用する。
【0292】
いくつかの実施形態において、結腸細胞増殖性障害は、腺腫(腺腫様ポリープ)、無茎性鋸歯状腺腫(SSA)、進行した腺腫、結腸直腸異形成、結腸直腸腺腫、結腸直腸癌、結腸癌、直腸癌、結腸直腸癌腫、結腸直腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫および肉腫からなる群より選択される。いくつかの実施形態では、結腸細胞増殖性障害は結腸直腸癌を含む。
【0293】
一態様では、本開示は、結腸細胞増殖性障害を検出する方法であって、対象から得られた無細胞試料からDNAを抽出すること、DNAの少なくとも一部をメチルシーケンシング用に変換すること、変換されたDNAから癌においてメチル化された領域を増幅すること、増幅された領域からシーケンシングリードを生成すること、および癌パネル内の少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つを超えるメチル化領域を含む結腸細胞増殖性障害シグナルを検出して、2つの対象群(例えば、健康対癌、疾患ステージ、進行腺腫対癌)を識別することができる分類子を得るために機械学習モデルに入力される入力特徴を得ることを含む方法を提供する。
【0294】
本明細書に記載のトレーニングされた機械学習方法、モデル、および識別分類子は、癌検出、診断、および治療応答性を含む様々な医療用途に適用することができる。モデルが個々のメタデータおよび分析物由来の特徴でトレーニングされ得るので、適用は、集団内の個体を階層化し、それに応じて治療決定を導くように調整することができる。
【0295】
診断
本明細書で提供される方法およびシステムは、人工知能ベースのアプローチを使用する予測分析を実行して、対象(患者)から取得されたデータを分析し、癌(例えば、結腸直腸癌)を有する対象の診断の出力を生成することができる。例えば、アプリケーションは、取得されたデータに予測アルゴリズムを適用して、癌を有する対象の診断を生成することができる。予測アルゴリズムは、人工知能ベースの予測子、例えば取得データを処理して、癌を有する対象の診断を生成するように構成された機械学習ベースの予測子を含み得る。
【0296】
機械学習予測子は、データセット、例えば、入力として癌を有する患者のコホートの1つまたは複数のセットからの個体の生物学的試料に対して、本明細書に記載のシグネチャパネルを使用するメチル化アッセイを実行することによって生成されたデータセット、および機械学習予測子への出力として対象の既知の診断(例えば、ステージングおよび/または腫瘍分画)結果を使用してトレーニングされ得る。
【0297】
トレーニングデータセット(例えば、本明細書中に記載されるシグネチャパネルを使用するメチル化アッセイを個体の生物学的試料に対して行うことによって生成されるデータセット)は、例えば、共通の特徴(特徴)および結果(標識)を有する対象の1つまたは複数のセットから生成することができる。トレーニングデータセットは、特徴および診断に関連する特徴に対応する標識のセットを含むことができる。特徴は、例えば、cfDNAアッセイ測定値の特定の範囲またはカテゴリ、例えば参照ゲノムのビンのセット(ゲノムウィンドウ)のそれぞれに重複するかまたは含まれる、健康な試料および疾患試料から得られた生物学的試料中のcfDNA断片のカウントなどの特徴を含み得る。例えば、所与の時点で所与の対象から収集された特徴のセットは、所与の時点での対象の特定された癌を示すことができる診断シグネチャとして集合的に機能することができる。特徴はまた、1つまたは複数の癌などの、対象の診断結果を示す標識を含み得る。
【0298】
標識は、結果、例えば、対象の既知の診断(例えば、ステージングおよび/または腫瘍分画)結果を含み得る。結果には、対象の癌に関連する特徴が含まれ得る。例えば、特徴は、対象が1つまたは複数の癌を有することを示し得る。
【0299】
トレーニングセット(例えば、トレーニングデータセット)は、1つまたは複数の対象セットに対応するデータセット(例えば、1つまたは複数の癌を有する、または有さない患者の遡及的および/または予定されるコホート)のランダムサンプリングによって選択することができる。あるいは、トレーニングセット(例えば、トレーニングデータセット)は、1つまたは複数の対象セットに対応するデータセット(例えば、1つまたは複数の癌を有する、または有さない患者の遡及的および/または予定されるコホート)の比例サンプリングによって選択することができる。トレーニングセットは、対象の1つまたは複数のセット(例えば、異なる臨床現場または試験の患者)に対応するデータセットにわたってバランスをとることができる。機械学習予測子は、診断精度測定値に対応する最低限所望される値を有するなど、精度または性能について一定の所定の条件が満たされるまでトレーニングすることができる。例えば、診断精度測定値は、対象における1つまたは複数の癌の診断、ステージング、または腫瘍分画の予測に対応し得る。
【0300】
診断精度測定値の例には、感度、特異性、陽性的中率(PPV)、陰性的中率(NPV)、精度、および癌(例えば、結腸直腸癌)を検出または予測する診断精度に対応する受信者操作特性(ROC)曲線の曲線下面積(AUC)が含まれ得る。
【0301】
一態様では、本開示は、個体の集団を識別することができる分類子を使用する方法であって、a)生物学的試料中の複数の分子クラスのアッセイであって、複数の分子クラスを表す複数の測定値セットを提供するアッセイを行う工程、b)機械学習または統計モデルに入力されるべき複数の分子クラスの各々の特性に対応する特徴のセットを同定する工程、c)複数の測定値セットの各々から特徴値の特徴ベクトルを調製する工程であって、各特徴値が特徴セットの特徴に対応し、1つまたは複数の測定値を含み、特徴ベクトルが、複数の測定値セットの各セットを使用して取得された少なくとも1つの特徴値を含む、工程、d)分類子を含むトレーニングされた機械学習モデルをコンピュータシステムのメモリにロードする工程であって、トレーニングされた機械学習モデルが、トレーニング生物学的試料から得られたトレーニングベクトルを使用してトレーニングされ、トレーニングされた生物学的試料の第1のサブセットは、指定された特性を有すると特定され、トレーニングされた生物学的試料の第2のサブセットは、指定された特性を有さないと特定される、工程、e)トレーニングされた機械学習モデルを特徴ベクトルに適用して、生物学的試料が指定された特性を有するかどうかの出力分類を取得し、それによって指定された特性を有する個体の集団を識別する工程、を含む方法を提供する。
【0302】
一態様では、本開示は、個体の集団を識別することができる階層を使用する方法であって、a)生物学的試料中の複数の分子クラスのアッセイであって、複数の分子クラスを表す複数の測定値セットを提供するアッセイを行う工程、b)機械学習または統計モデルに入力されるべき複数の分子クラスの各々の特性に対応する特徴のセットを同定する工程、c)複数の測定値セットの各々から特徴値の特徴ベクトルを調製する工程であって、各特徴値が特徴セットの特徴に対応し、1つまたは複数の測定値を含み、特徴ベクトルが、複数の測定値セットの各セットを使用して取得された少なくとも1つの特徴値を含む、工程、d)分類子を含むトレーニングされた機械学習モデルをコンピュータシステムのメモリにロードする工程であって、トレーニングされた機械学習モデルが、トレーニング生物学的試料から得られたトレーニングベクトルを使用してトレーニングされ、トレーニングされた生物学的試料の第1のサブセットは、指定された特性を有すると特定され、トレーニングされた生物学的試料の第2のサブセットは、指定された特性を有さないと特定される、工程、e)トレーニングされた機械学習モデルを特徴ベクトルに適用して、生物学的試料が指定された特性を有するかどうかの出力分類を取得し、それによって指定された特性を有する個体の集団を識別する工程、を含む方法を提供する。
【0303】
一態様において、本開示は、個体の集団を識別することができる階層を使用する方法であって、a)1つまたは複数の第1の患者試料中の予め選択されたゲノム領域の単一シーケンシングリード内のメチル化シグナルを検出すること、b)データ出力の階層に影響を及ぼして機械学習モデルに影響を及ぼすメチル化シグナル、およびc)影響を受けた階層を使用してメチル化シグナルを検出する第2の患者試料を含む方法を提供する。
【0304】
いくつかの実施形態では、予め選択されたゲノム領域は、表1~11の2つ以上のメチル化ゲノム領域、表1~11の3つ以上のメチル化ゲノム領域、表1~11の4つ以上のメチル化ゲノム領域、表1~11の5つ以上のメチル化ゲノム領域、表1~11の6つ以上のメチル化ゲノム領域、表1~11の7つ以上のメチル化ゲノム領域、表1~11の8つ以上のメチル化ゲノム領域、表1~11の9つ以上のメチル化ゲノム領域、表1~11の10個以上のメチル化ゲノム領域、表1~11の11個以上のメチル化ゲノム領域、表1~11の12個以上のメチル化ゲノム領域、または表1~11の13個以上のメチル化ゲノム領域から選択される。
【0305】
別の態様では、本開示は、対象の癌を同定する方法であって、a)対象からの無細胞核酸(cfNA)分子を含む生物学的試料を提供する工程、b)メチル変換し、前記対象からの前記cfNA分子をシーケンシングして、複数のcfNAシーケンシングリードを生成する工程、c)前記複数のcfNAシーケンシングリードを参照ゲノムにアライメントする工程、d)前記参照ゲノムの第1の複数のゲノム領域の各々において前記複数のcfNAシーケンシングリードの定量的測定値を生成して、第1のcfNA特徴セットを生成する工程であって、前記参照ゲノムの前記第1の複数のゲノム領域が少なくとも約10個の別個の領域を含み、前記少なくとも約10個の別個の領域の各々が、本明細書中に記載されるシグネチャパネルにおけるメチル化領域からなる群から選択される遺伝子の少なくとも一部を含む、工程、およびe)トレーニングされたアルゴリズムを前記第1のcfNA特徴セットに適用して、前記対象が前記癌を有する尤度を生成する工程を含む方法を提供する。
【0306】
いくつかの例では、前記少なくとも約10個の別個の領域は、少なくとも約20個の別個の領域を含み、前記少なくとも約20個の別個の領域の各々は、表1~11に特定されるメチル化領域の少なくとも一部を含む。いくつかの例では、前記少なくとも約10個の別個の領域は、少なくとも約30個の別個の領域を含み、前記少なくとも約30個の別個の領域の各々は、表1~11に特定されるメチル化領域の少なくとも一部を含む。
【0307】
別の例として、そのような所定の条件は、結腸細胞増殖性障害を予測する特異性が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0308】
別の例として、そのような所定の条件は、結腸細胞増殖性障害を予測する陽性的中率(PPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0309】
別の例として、そのような所定の条件は、結腸細胞増殖性障害を予測する陰性的中率(NPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0310】
別の例として、そのような所定の条件は、結腸細胞増殖性障害を予測する受信者操作特性(ROC)曲線の曲線下面積(AUC)が、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99の値を含むことであり得る。
【0311】
治療応答性
本明細書に記載の予測分類子、システム、および方法は、いくつかの臨床用途のための個体の集団の分類に適用することができる(例えば、本明細書中に記載されるシグネチャパネルを使用するメチル化アッセイの、個体の生物学的試料に対する実施に基づく)。そのような臨床用途の例としては、早期癌の検出、癌の診断、癌の特定のステージへの分類、癌治療用の治療剤に対する応答性または耐性の決定が挙げられる。
【0312】
本明細書に記載の方法およびシステムは、結腸細胞増殖性障害の特徴、例えば等級およびステージに適用され得る。したがって、分析物とアッセイとの組み合わせを本システムおよび方法で使用して、様々な組織の様々な癌タイプにわたる癌治療薬の応答性を予測し、治療応答性に基づいて個体を分類することができる。いくつかの実施形態では、本明細書に記載の分類子は、個体の群を治療応答者と非応答者に階層化することができる。
【0313】
本開示はまた、目的の状態または疾患の薬物標的(例えば、特定のクラスに関連するかまたは重要である遺伝子)を決定する方法であって、個体から得られた試料を少なくとも1つの遺伝子の遺伝子発現レベルについて評価すること、および近傍分析ルーチンを使用して、試料の分類に関連する遺伝子を決定し、それによって分類に関連する1つ以上の薬物標的を確認することを含む方法を提供する。
【0314】
本開示はまた、疾患クラスを治療するように設計された薬物の有効性を決定するための方法であって、疾患クラスを有する個体から試料を得ること、試料を薬物に供すること、少なくとも1つの遺伝子の遺伝子発現レベルについて薬物曝露試料を評価すること、および重み付け投票スキームで構築されたコンピュータモデルを使用して、モデルの遺伝子発現レベルに対する試料の相対遺伝子発現レベルの関数として、疾患のクラスに薬物曝露試料を分類することを含む方法を提供する。
【0315】
本開示はまた、疾患クラスを治療するように設計された薬物の有効性を決定するための方法であって、個体が薬物を受けており、薬物を受けた個体から試料を得ること、少なくとも1つの遺伝子の遺伝子発現レベルについて試料を評価すること、重み付け投票スキームで構築されたモデルを使用して、試料の遺伝子発現レベルをモデルの遺伝子発現レベルと比較して評価することを含む、試料を疾患のクラスに分類することを含む方法を提供する。
【0316】
本開示はまた、個体が表現型クラス(例えば、知能、治療への応答、寿命、ウイルス感染の尤度または肥満)に属するかどうかを決定する方法であって、個体から試料を得ること、少なくとも1つの遺伝子の遺伝子発現レベルについて試料を評価すること、重み付け投票スキームで構築されたモデルを使用して、試料の遺伝子発現レベルをモデルの遺伝子発現レベルと比較して評価することを含む、試料を疾患のクラスに分類することを含む方法を提供する。
【0317】
一態様では、治療応答性に基づいて集団を分類することに関する本明細書に記載のシステムおよび方法は、これらのクラスに限定されないが、DNA損傷剤、DNA修復標的療法、DNA損傷シグナル伝達の阻害剤、DNA損傷誘導性細胞周期停止の阻害剤、およびDNA損傷を間接的にもたらすプロセスの阻害のクラスの化学療法剤で治療される癌に言及する。これらの化学療法剤のそれぞれは、その用語が本明細書で使用される場合、「DNA損傷治療剤」とみなされ得る。
【0318】
患者の分析物データに基づいて、患者は、臨床的再発のリスクが高いまたは低い患者などの高リスクおよび低リスクの患者群に分類することができ、結果を使用して治療方針を決定することができる。例えば、高リスク患者であると判定された患者は、手術後に補助的化学療法で治療することができる。低リスク患者とみなされる患者については、手術後の補助的化学療法を控えてもよい。したがって、本開示は、特定の態様では、再発のリスクを示す結腸癌腫瘍の遺伝子発現プロファイルを調製する方法を提供する。
【0319】
様々な例では、本明細書に記載の分類子は、個体の集団を治療に対する応答者と非応答者との間で階層化することができる。
【0320】
別の態様では、本明細書に開示される方法は、癌の検出またはモニタリングを含む臨床用途に適用され得る。
【0321】
いくつかの実施形態では、本明細書に開示される方法を適用して、治療に対する応答を決定および/または予測することができる。
【0322】
いくつかの実施形態では、本明細書に開示される方法を適用して、腫瘍負荷をモニタリングおよび/または予測することができる。
【0323】
いくつかの実施形態では、本明細書に開示される方法を適用して、術後の残存腫瘍を検出および/または予測することができる。
【0324】
いくつかの実施形態では、本明細書に開示される方法を適用して、治療後の微小残存病変を検出および/または予測することができる。
【0325】
いくつかの実施形態では、本明細書に開示される方法を適用して、再発を検出および/または予測することができる。
【0326】
一態様では、本明細書に開示される方法は、二次スクリーニングとして適用され得る。
【0327】
一態様では、本明細書に開示される方法は、一次スクリーニングとして適用され得る。
【0328】
一態様では、本明細書に開示される方法を適用して、癌の発症をモニタリングすることができる。
【0329】
一態様では、本明細書に開示される方法を適用して、癌のリスクをモニタリングおよび/または予測することができる。
【0330】
VII.結腸直腸癌の特定またはモニタリング
トレーニングされたアルゴリズムを使用してデータセットを処理した後、対象において結腸直腸癌を特定またはモニタリングすることができる。特定は、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)に少なくとも部分的に基づき得る。
【0331】
結腸直腸癌は、対象において、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれを超える精度で特定され得る。トレーニングされたアルゴリズムによって結腸直腸癌を特定する精度は、結腸直腸癌を有するかまたは有さないか正しく特定または分類された独立した試験試料(例えば、結腸直腸癌を有することが知られた対象、または結腸直腸癌について陰性の臨床試験結果を有する対象)の割合として計算され得る。
【0332】
結腸直腸癌は、対象において少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれを超える陽性的中率(PPV)で特定され得る。トレーニングされたアルゴリズムを使用する結腸直腸癌特定のPPVは、結腸直腸癌を有すると特定または分類された無細胞生物学的試料の、結腸直腸癌を真に有する対象に対応するパーセンテージとして計算され得る。
【0333】
結腸直腸癌は、対象において少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれを超える陰性的中率(NPV)で特定され得る。トレーニングされたアルゴリズムを使用する結腸直腸癌特定のNPVは、結腸直腸癌を有さないと特定または分類された無細胞生物学的試料の、結腸直腸癌を真に有さない対象に対応するパーセンテージとして計算され得る。
【0334】
結腸直腸癌は、対象において少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれを超える臨床感度で特定され得る。トレーニングされたアルゴリズムを使用して結腸直腸癌を特定する臨床的感度は、結腸直腸癌を有すると正確に特定または分類される、結腸直腸癌の存在に関連する独立した試験試料(例えば、結腸直腸癌を有することが知られた対象)の割合として計算され得る。
【0335】
結腸直腸癌は、対象において少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、またはそれを超える臨床特異性で特定され得る。トレーニングされたアルゴリズムを使用して結腸直腸癌を特定する臨床的特異性は、結腸直腸癌を有さないと正確に特定または分類される、結腸直腸癌の非存在に関連する独立した試験試料(例えば、結腸直腸癌について陰性の臨床試験結果を有する対象)の割合として計算され得る。
【0336】
いくつかの実施形態では、トレーニングされたアルゴリズムは、対象が少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、またはそれを超える結腸直腸癌のリスクにあることを決定し得る。
【0337】
トレーニングされたアルゴリズムは、対象が少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.1%、少なくとも約99.2%、少なくとも約99.3%、少なくとも約99.4%、少なくとも約99.5%、少なくとも約99.6%、少なくとも約99.7%、少なくとも約99.8%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%またはそれを超える精度で結腸直腸癌のリスクにあることを決定し得る。
【0338】
対象が結腸直腸癌を有すると特定されると、対象に治療的介入(例えば、対象の結腸直腸癌を治療するための適切な治療過程を処方または投与すること)を提供することができる。治療的介入は、有効量の薬物の処方、結腸直腸癌のさらなる試験もしくは評価、結腸直腸癌のさらなるモニタリング、またはそれらの組み合わせを含み得る。対象が現在、治療の過程で結腸直腸癌を治療されている場合、治療的介入は、その後の異なる治療の過程(例えば、現行の治療の過程の非有効性によって、治療有効性を増加させるための)を含み得る。治療的介入は、例えば、その内容が参照により本明細書に組み込まれる、「WHO list of priority medical devices for cancer management,WHO Medical device technical series」、世界保健機構、ISBN:978-92-4-156546-2,Geneva,2017に記載され得る。治療的介入は、例えば、その内容が参照により本明細書に組み込まれる、Wolpin et al.,「Systemic Treatment of Colorectal Cancer」、Gastroenterology,Vol.134,Issue 5,2008,pp.1296-1310.e1によって記載され得る。
【0339】
治療的介入は、結腸直腸癌の診断を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴画像化(MRI)スキャン、超音波スキャン、胸部X線、陽電子放射断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞学、便免疫化学試験(FIT)、便潜血試験(FOBT)、またはそれらの任意の組み合わせを含み得る。
【0340】
結腸直腸癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)は、患者(例えば、結腸直腸癌を有するか、または結腸直腸癌について治療されている対象)をモニタリングするために、ある期間にわたって評価され得る。そのような場合、患者のデータセットの定量的測定値は、治療の過程中に変化し得る。例えば、有効な治療によって結腸直腸癌のリスクが低下している患者のデータセットの定量的測定値は、健康な対象(例えば、結腸直腸癌を有しない対象)のプロファイルまたは分布へとシフトし得る。逆に、例えば、無効な治療によって結腸直腸癌のリスクが増加している患者のデータセットの定量的測定値は、結腸直腸癌のより高いリスク、または結腸直腸癌のより進行した等級もしくはステージを有する対象のプロファイルまたは分布へとシフトし得る。
【0341】
対象の結腸直腸癌は、対象の結腸直腸癌を治療するための治療の過程をモニタリングすることによってモニタリングされ得る。モニタリングは、2つ以上の時点で対象の結腸直腸癌を評価することを含み得る。評価は、2つ以上の時点のそれぞれにおいて決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)に少なくとも基づき得る。
【0342】
いくつかの実施形態では、結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)における、2つ以上の時点間で決定された差は、1つまたは複数の臨床的指標、例えば、(i)対象の結腸直腸癌の診断、(ii)対象の結腸直腸癌の予後、(iii)対象の結腸直腸癌のリスクの増加、(iv)対象の結腸直腸癌のリスクの低下、(v)対象の結腸直腸癌を治療するための治療過程の有効性、および(vi)対象の結腸直腸癌を治療するための治療過程の非有効性を示し得る。
【0343】
いくつかの実施形態では、2つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)の差は、対象の結腸直腸癌の診断を示し得る。例えば、結腸直腸癌が先の時点で対象において検出されなかったが、後の時点で対象において検出された場合、その差は、対象の結腸直腸癌の診断を示す。臨床的行為または決定、例えば、対象への新たな治療的介入の処方または投与は、対象の結腸直腸癌の診断のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌の診断を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴画像化(MRI)スキャン、超音波スキャン、胸部X線、陽電子放射断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞学、便免疫化学試験(FIT)、便潜血試験(FOBT)、またはそれらの任意の組み合わせを含み得る。
【0344】
いくつかの実施形態では、2つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)の差は、対象の結腸直腸癌の予後を示し得る。
【0345】
いくつかの実施形態では、2つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)の差は、対象が結腸直腸癌の高いリスクを有することを示し得る。例えば、結腸直腸癌が先の時点および後の時点の両方で対象において検出された場合、および差がプラスの差である(例えば、結腸直腸癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)が、先の時点から後の時点で増加した)場合、差は、対象の結腸直腸癌のリスクが増加したことを示し得る。臨床的行為または決定、例えば、対象への新たな治療的介入の処方もしくは投与、または治療的介入の切り替え(例えば、現行の治療を終了し、新たな治療を処方または投与すること)は、結腸直腸癌のリスク増加のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌のリスクの増加を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴画像化(MRI)スキャン、超音波スキャン、胸部X線、陽電子放射断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞学、便免疫化学試験(FIT)、便潜血試験(FOBT)、またはそれらの任意の組み合わせを含み得る。
【0346】
いくつかの実施形態では、2つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)の差は、対象が結腸直腸癌の低下したリスクを有することを示し得る。例えば、結腸直腸癌が先の時点および後の時点の両方で対象において検出された場合、および差がマイナスの差である(例えば、結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)が、先の時点から後の時点で減少した)場合、差は、対象の結腸直腸癌のリスクが低下したことを示し得る。臨床的行為または決定(例えば、現行の治療的介入の継続または終了)は、対象の結腸直腸癌のリスク低下のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌のリスクの低下を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴画像化(MRI)スキャン、超音波スキャン、胸部X線、陽電子放射断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞学、便免疫化学試験(FIT)、便潜血試験(FOBT)、またはそれらの任意の組み合わせを含み得る。
【0347】
いくつかの実施形態では、2つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)の差は、対象の結腸直腸癌を治療するための治療過程の有効性を示し得る。例えば、結腸直腸癌が先の時点で対象において検出されたが、後の時点で対象において検出されなかった場合、その差は、対象の結腸直腸癌を治療するための治療過程の有効性を示し得る。臨床的行為または決定、例えば、対象への現行の治療的介入の継続または終了は、結腸直腸癌を治療するための治療過程の有効性のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌を治療するための治療過程の有効性を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴画像化(MRI)スキャン、超音波スキャン、胸部X線、陽電子放射断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞学、便免疫化学試験(FIT)、便潜血試験(FOBT)、またはそれらの任意の組み合わせを含み得る。
【0348】
いくつかの実施形態では、2つ以上の時点の間に決定された結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルでのデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)の差は、対象の結腸直腸癌を治療するための治療過程の非有効性を示し得る。例えば、結腸直腸癌が先の時点および後の時点の両方で対象において検出された場合、および差がプラスまたはゼロの異である(例えば、結腸直腸癌関連ゲノム遺伝子座のパネルの定量的測定値を含む、結腸直腸癌関連ゲノム遺伝子座のパネルにおけるデータセットの配列リードの定量的測定値(例えば、結腸直腸癌関連ゲノム遺伝子座におけるRNA転写物またはDNAの定量的測定値)が、先の時点から後の時点で増加したか、または一定レベル維持された)場合、差は、対象の結腸直腸癌を治療するための治療過程の非有効性を示し得る。臨床的行為または決定、例えば、対象における現行の治療的介入の終了および/または他の新たな治療的介入への切り替え(例えば、処方または投与)は、対象の結腸直腸癌を治療するための治療過程の非有効性のこの指標に基づいて行われ得る。臨床的行為または決定は、結腸直腸癌を治療するための治療過程の非有効性を確認するための二次臨床試験に対象を推薦することを含み得る。この二次臨床試験は、画像化試験、血液試験、コンピュータ断層撮影(CT)スキャン、磁気共鳴画像化(MRI)スキャン、超音波スキャン、胸部X線、陽電子放射断層撮影(PET)スキャン、PET-CTスキャン、無細胞生物学的細胞学、便免疫化学試験(FIT)、便潜血試験(FOBT)、またはそれらの任意の組み合わせを含み得る。
【0349】
VIII.キット
本開示は、対象の癌を特定またはモニタリングするためのキットを提供する。キットは、対象の無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値(例えば、存在、非存在、または相対量の表示)を特定するためのプローブを含み得る。無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測定値(例えば、存在、非存在、または相対量の表示)は、1つ以上の癌を示し得る。プローブは、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座における配列に対して選択的であり得る。キットは、プローブを使用して無細胞生物学的試料を処理し、対象の無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値(例えば、存在、非存在、または相対量を示す)を示すデータセットを生成するための説明書を含み得る。
【0350】
キット中のプローブは、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座における配列に対して選択的であり得る。キット中のプローブは、複数の癌関連ゲノム遺伝子座に対応する核酸(例えば、RNAまたはDNA)分子を選択的に富化するように構成され得る。キット中のプローブは核酸プライマーであり得る。キット中のプローブは、複数の癌関連ゲノム遺伝子座またはゲノム領域のうちの1つ以上からの核酸配列との配列相補性を有し得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、またはそれ以上の別個の癌関連ゲノム遺伝子座またはゲノム領域を含み得る。複数の癌関連ゲノム遺伝子座またはゲノム領域は、表1~11に列挙された領域からなる群から選択される1つ以上のメンバーを含み得る。
【0351】
キット中の説明書は、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座における配列に対して選択的であるプローブを使用して無細胞生物学的試料をアッセイするための説明書を含み得る。これらのプローブは、複数のゲノム遺伝子座のうちの1つ以上からの核酸配列(例えば、RNAまたはDNA)と配列相補性を有する核酸分子(例えば、RNAまたはDNA)であり得る。これらの核酸分子は、プライマーまたは富化配列であり得る。無細胞生物学的試料をアッセイするための説明書は、アレイハイブリダイゼーション、ポリメラーゼ連鎖反応(PCR)、または核酸配シーケンシング(例えば、DNAシーケンシングまたはRNAシーケンシング)を実施して無細胞生物学的試料を処理して、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値(例えば、存在、非存在、または相対量を示す)を示すデータセットを生成するための導入を含み得る。無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測定値(例えば、存在、非存在、または相対量の表示)は、1つ以上の癌を示し得る。
【0352】
キット中の説明書は、アッセイ読み出しを測定および解釈するための説明書を含み得、それは複数の癌関連ゲノム遺伝子座の1つ以上において定量化されて、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値(例えば、存在、非存在、または相対量を示す)を示すデータセットを生成することができる。例えば、複数の癌関連ゲノム遺伝子座に対応するアレイハイブリダイゼーションまたはポリメラーゼ連鎖反応(PCR)の定量化は、無細胞生物学的試料中の複数の癌関連ゲノム遺伝子座のそれぞれにおける配列の定量的測定値(例えば、存在、非存在、または相対量を示す)を示すデータセットを生成することができる。アッセイ読み出しは、定量PCR(qPCR)値、デジタルPCR(dPCR)値、デジタル液滴PCR(ddPCR)値、蛍光値、他、またはそれらの正規化された値を含み得る。
【実施例】
【0353】
実施例1:結腸直腸癌検出のためのメチル化領域の選択
結腸直腸癌について、本開示のシステムおよび方法を使用して、腫瘍において高度にメチル化されているが、複数の正常組織がこれらの領域のメチル化を示さないゲノム内の20個の領域を特定した。これらの領域を、バックグラウンドシグナルがほとんどまたは全くない、腫瘍の存在についての高度に特異的なマーカーとして使用した。
【0354】
表12において、「開始位置-終了位置」は、ヒトゲノム参照配列のhg18ビルド中の標的領域の座標を意味する。遺伝子IDおよび染色体フィールドは、番号付けされた領域に関連する遺伝子および染色体番号を指す。近くの遺伝子と比較したこれらの配列の検査は、それらが上流、5’プロモーター、5’エンハンサー、イントロン、エクソン、遠位プロモーター、コーディング領域、または遺伝子間領域に見出されたことを示す。
【0355】
無細胞DNAを、MagMAX(登録商標)Cell-Free DNA Isolation Kit(Applied Biosystems(登録商標))を製造者の説明書に従って使用して、250マイクロリットル(μL)の血漿から抽出した(試料追跡のために固有の合成二本鎖DNA(dsDNA)断片でスパイクした)。ポリメラーゼ連鎖反応(PCR)増幅および固有の分子識別子(UMI)を含むNEBNext(登録商標)Ultra II DNA Library Prep Kit(New England Biolabs(登録商標))を使用してペアエンドシーケンシングライブラリーを調製し、Illumina(登録商標)NovaSeq 6000 Sequencing Systemを使用して、複数のS2またはS4フローセルにわたって2×5 l 塩基対で最低4億個のリードまでシーケンシングした(中央値=6億3600万個のリード)。
【0356】
結腸直腸癌用のプローブ
TOGAデータベースからの複数の結腸直腸癌試料において広範なメチル化を示すが、複数の正常組織および血球(末梢血単核細胞など)においてメチル化がないかまたは最小限であることが示されたゲノム中の様々な領域に対して、PCRプライマー対を開発した。
【0357】
次いで、これらのプライマーを使用して、結腸直腸癌のリスクがある個体の血漿試料から変換DNAを増幅した。シーケンシングアダプターをDNAにライゲーションし、次世代シーケンシングを行った。次いで、シーケンシングリードを領域によって分離し、BiQ Analyzer HTプログラムなどのツールを使用して配列リードを分析した。
【0358】
得られたシーケンシングリードを、逆多重化し、アダプタートリミングし、Burrows Wheelerアライナ(BWA-MEM 0.7.15)を使用して、ヒト参照ゲノム(デコイ、altコンティグおよびHLAコンティグを有するGRCh38)にアライメントした。存在する場合、断片エンドポイントおよび/またはUMIを使用してPCR複製断片を除去した。
【0359】
ゲノムの推定上のタンパク質コーディング領域それぞれにアライメントした断片の数を数えることによって、各試料についてのcfDNA「プロファイル」を作成した。このタイプのデータ表示は、可変ヌクレオソーム保護によるcfDNAのエピジェネティック変化を示し、その結果、カバレッジの変化、および対照と比較してメチル化が増加した断片が観察される。
【0360】
推定的タンパク質コーディング遺伝子領域(イントロンとエクソンの両方を含むゲノム座標範囲を有する)を含むヒトゲノムの機能領域のセットを、シーケンシングデータにおいてアノテーションした。タンパク質コーディング遺伝子領域(「遺伝子」領域)のアノテーションは、Comprehensive Human Expressed SequenceS(CHESS)プロジェクト(v1.0)から得た。
【0361】
結果は以下のようにして得られた。
【0362】
表12は、結腸直腸癌を有する個体からの試料において、高メチル化されているとして無細胞核酸試料において特定されたゲノム領域の集合を提供する。各領域について、その領域内のメチル化CpG部位の例示的な数が閾値として提供され、健康な個体とCRCを有する個体とを識別する。
【0363】
【0364】
【0365】
ここでの議論では、例えばITGA4、TMEM163、およびSFMBT2などの遺伝子への言及は、当該遺伝子自体を示すのではなく、むしろシグネチャパネルに記載されている関連メチル化領域を示すことができる。
【0366】
合計で50個の領域がCRCに関連して高メチル化であることが分かった。健康な個体とCRCを有する個体とを区別するために、すべての領域を分類モデルに含める必要はなかった。したがって、いくつかの領域は、一般に、評価された様々な種類の癌を示すように見える。他の領域は、これらのサブグループにおいてメチル化されているが、他は癌に特異的である。このアッセイおよび検査される癌の種類の文脈では、特定の領域は、「結腸直腸癌で特異的にメチル化」されていると記載され、試料配列が予測モデルでトレーニングされた場合、シグネチャにおいてより高い重みを有する。CRCに関連するこれらのより重み付けされたメチル化領域は、個体の集団を健康とCRCとの間で識別するようにトレーニングされた特定のモデルにおいて使用される。
【0367】
実施例2:結腸直腸癌を有する個体の集団を区別するための分類モデルの構築およびトレーニング
本開示のシステムおよび方法を使用して、機械学習分類モデルを構築し、人工知能ベースのアプローチを使用してトレーニングして、対象から取得されたcfDNAデータを分析した(結腸直腸癌を有する対象の診断の出力を生成した)。
【0368】
CRCと診断された49人の患者から、予定されるヒト血漿試料を取得した。さらに、92個の対照試料のセットを、現在癌の診断を受けていない(ただし、潜在的に他の併存症または未診断の癌を有する)患者から取得した。すべての試料を非特定化した。
【0369】
各患者の年齢、性別、および癌ステージ(利用可能な場合)を各試料について得た。各患者から収集した血漿試料を-80°Cで保存し、使用前に解凍した。研究コホートの説明を表13に提供し、これはCRC実験に使用された健康な試料および癌試料の数を示す(ステージ、性別、および年齢ごとによる)。
【0370】
【0371】
本明細書に記載の方法、特に実施例1に記載の方法に従って試料を処理およびシーケンシングした。表12のメチル化領域を特異的に標的とし、健康な個体と結腸直腸癌を有する個体との間のメチル化CpG状態を決定した。表12の列1に列挙した各領域について、列2に示すCpG部位の閾値数を使用して、分析用のメチル化断片を定義した。残りの断片は、それらが閾値を超える数のCpG部位を有する場合、メチル化されているとして分類され、そうでなければ、断片はメチル化されていないとしてカテゴリ化された。表12に列挙した領域と重複する試料あたりのメチル化断片の数によって与えられる、試料あたりの生スコアを計算するために、これらのカウントを各試料の領域にわたって集約した。各試料の生スコアを正規化して、試料のそれぞれにおけるカバレッジ差を説明した。各試料の生スコアに、試料の合計を予め指定された目標カバレッジレベルで割ることで得られた、試料固有のスケール因子を掛けた。これらの正規化され、スケーリングされたメチル化率を、試料あたりのスコアとして出力した。閾値スコアは、トレーニングセットからの所望の特異性目標に基づいて選択した。試料を、それらのスコアがこの閾値を超えたかどうかに基づいて陽性または陰性として分類した。このスコアを有する試料の順位を考慮するか、または閾値を考慮することによって、ROC曲線を生成した。
【0372】
機械学習分類モデルは上記のようにトレーニングされ、パラメータは試料の独立したホールドアウトセットで選択された。表13に記載の試料に対して、機械学習分類モデルを適用した。最大規模の高メチル化断片カウントを有する健康な試料を、新しい試料を陽性または陰性として分類するためのカットオフとして選択した。正規化された高メチル化断片カウントによって誘導された順位を使用して、ROC曲線下面積(AUC)を上記のトレーニングセットに基づいて計算した。選択したカットオフを用いて感度および特異性を計算した。感度および特異性の信頼区間は、Clopper-Pearson信頼区間を用いて計算し、AUCの信頼区間は、その内容が参照により本明細書に組み込まれる、Fay,M.and Malinovsky,Y.,Statistics in Medicine 37(27):3991-4006(2018)に記載されている方法を用いて計算した。
【0373】
この方法は、0.9488(0.87~0.98)の平均曲線下面積(AUC)を達成し、IU試料の92%%特異性(0.86~0.96)で70%(0.49~0.87)の平均感度を有した(
図2)。
【0374】
実施例3:無細胞試料の試験および個体の分類
本開示のシステムおよび方法を使用して、人工知能ベースのアプローチを使用して予測分析を実行して、対象から取得されたcfDNAデータを分析して結腸直腸癌を有する対象の診断の出力を生成した。
【0375】
無症候性患者のための、癌を有するかまたは発症するリスクの増加を予測する方法が本明細書で提供され、実施例1で提供されるプロセスにおいてシグネチャパネルからトレーニングされたモデルをバイオマーカーの測定パネルに適用し、年齢および性別の臨床因子を使用して、結腸直腸癌を有するかまたは発症するリスクが増加した患者を特定した。実施形態では、この方法および本分類子モデルは、正常な臨床範囲内にある測定されたバイオマーカーの入力変数を使用し、結腸直腸癌分類子モデルは、第1の分類子モデルの出力が領域内のメチル化CpG部位の数に基づく計算閾値を超える場合、年齢および患者からのバイオマーカーのパネルの測定値の入力変数を使用して、患者をリスク増加カテゴリに分類する。
【0376】
強い差次的メチル化(β差、例えばメチル化特異的プローブとメチル化非特異的プローブとの差、およびp値)、予測力(AUC)および遺伝子発現への影響(遺伝子発現からのp値)を有するマーカー遺伝子およびCpG部位を選択することを目的として、実施例1に従って遺伝子を選択した。
【0377】
この選択により、健康な試料とCRC試料とを識別することができるメチル化領域を含む、本明細書に提供されるシグネチャパネルが得られた。領域の第1のサブセットは、18個の遺伝子(多くの遺伝子が多くのCpG部位によって表される)にマッピングされる少なくとも4~18個のCpG部位でメチル化が増加した20個の領域を含んでいた。
【0378】
入力cfDNAのcfDNA CpGカウントプロファイル表示は、血液中の利用可能なメチル化シグナルの不偏表示として役立つことができ、腫瘍からの直接シグナル、ならびに循環免疫系または腫瘍微小環境などの非腫瘍源からのシグナルの両方の捕捉を可能にする。
【0379】
これらの遺伝子に基づく教師なしクラスタリングは、健康またはCRC表現型と相関するメチル化の明確なパターンを示した。
【0380】
CRCの早期検出のためのメチル化領域の精度を評価するために、シグネチャパネルにおける領域の受信者操作特性(ROC)曲線およびROC曲線下面積(AUC)を計算した。
図3A~
図3Fは、ステージ1(
図3A)、ステージ2(
図3B)、ステージ3(
図3C)、ステージ4(
図3D)、欠落(missing)ステージ(
図3E)を有する患者、および全試料(
図3F)を含む、CRCを検出し、早期癌を識別するこれらの示差的メチル化領域(DMR)の能力を示すROC結果を示す。全体として、メチル化の増加に関連する80の遺伝子領域が特定された。平均メチル化レベルを有するメチル化領域は、対照に対して徐々に増加したか、またはCRCの早期を後期から識別するために使用され得る。例えば、表12に関連するメチル化領域は、CRCを検出する高い能力を有する[CRC対対照のAUC=0.924(95%CI:0.752~0.954)]。
【0381】
表14に要約するように、結果は、血液からの早期癌検出(例えば、ステージIおよびIIの13個の試料のセットにおいて)が優れた性能を有することを実証した。
【0382】
【0383】
本発明の好ましい実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。本発明が本明細書内で提供される特定の実施例によって限定されることを意図しない。本発明を前述の明細書を参照して説明してきたが、本明細書の実施形態の説明および例示は、限定的な意味で解釈されることを意味しない。本発明から逸脱することなく、当業者には多数の変形、変更、および置換が思い浮かぶであろう。さらに、本発明のすべての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことを理解されたい。本明細書に記載の本発明の実施形態に対する様々な代替形態が、本発明を実施する際に使用され得ることを理解されたい。したがって、本発明は、そのような代替形態、修正形態、変形形態または均等物のいずれも包含すると考えられる。以下の特許請求の範囲が本発明の範囲を定義し、これらの特許請求の範囲内の方法および構造ならびにそれらの均等物がそれによって包含されることが意図される。
【国際調査報告】