(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-02-22
(54)【発明の名称】パッチ畳み込みニューラルネットワークを用いる癌分類
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20230215BHJP
G16B 20/00 20190101ALI20230215BHJP
C12M 1/00 20060101ALI20230215BHJP
G16B 40/20 20190101ALI20230215BHJP
C12Q 1/6876 20180101ALN20230215BHJP
【FI】
C12Q1/6869 Z
G16B20/00
C12M1/00 A
G16B40/20
C12Q1/6876 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022530331
(86)(22)【出願日】2020-12-11
(85)【翻訳文提出日】2022-07-07
(86)【国際出願番号】 US2020064577
(87)【国際公開番号】W WO2021119471
(87)【国際公開日】2021-06-17
(32)【優先日】2019-12-13
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522105894
【氏名又は名称】グレイル エルエルシー
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100211395
【氏名又は名称】鈴木 裕貴
(72)【発明者】
【氏名】バージル ニクラ
(72)【発明者】
【氏名】オグンジェン ニコリク
(72)【発明者】
【氏名】齊藤 靖
(72)【発明者】
【氏名】マリウス エリクセン
(72)【発明者】
【氏名】ジョシュ ニューマン
(72)【発明者】
【氏名】ダルヤ フィリッポヴァ
(72)【発明者】
【氏名】アレクサンダー イープ
(72)【発明者】
【氏名】オリバー クラウデ ヴェン
(72)【発明者】
【氏名】イョルグ ブレドノ
(72)【発明者】
【氏名】キンウェン リウ
(72)【発明者】
【氏名】アレクサンダー ピー フィールズ
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA27
4B063QA05
4B063QA13
4B063QA19
4B063QQ02
4B063QQ08
4B063QQ42
4B063QR55
4B063QS10
4B063QS25
4B063QS34
4B063QS36
(57)【要約】
被験体の生物学的試料から核酸のメチル化シーケンシングによって決定される断片のメチル化パターンのデータセットを得ることを含む、種の被験体の疾患状態を決定するための方法が提供される。断片のメチル化パターンは、断片中の各CpGサイトのメチル化状態を含む。パッチによって表される参照ゲノム中のCpGサイトのセットにおけるそれぞれのCpGサイトのメチル化状態のパラメータを備えるチャンネルを含むパッチは、CpGサイトのセットに並ぶ複数の断片中のそれぞれの断片について、それぞれの断片のメチル化パターンに基づいて複数のパラメータの全部または一部のインスタンスをポピュレーションすることによって構築される。パッチ回帰ニューラルネットワークへのパッチの適用は、被験者の疾患状態を決定する。
【特許請求の範囲】
【請求項1】
種の被験体の癌状態を決定する方法であって、以下を含む方法:
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサによって実行されるための少なくとも1つのプログラムを記憶するメモリと、を備える、少なくとも1つのプログラム:
A)データセットを得ることは、電子形態であり、ここで、データセットは、複数の断片においてそれぞれの断片の対応するメチル化パターンを含み、ここで、各断片の対応するメチル化パターンは、(i)試験対象から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、そして(ii)それぞれの断片中の対応する複数のCpG部位における各CpG部位のメチル化状態を含む;
B)第1のチャネルを含む第1のパッチを構築し、ここで、第1のパッチは、種の参照ゲノムにおける第1の独立したCpG部位のセット、参照ゲノムにおける所定の位置に対応する第1の独立したCpG部位のセットにおける各CpG部位を表す:
第1の複数のパラメタの第1のチャネルの複数の例を含み、ここで、第1の複数のパラメタの各例は、第1のパッチのCpG部位の第1の独立セットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含み、構築物B)は、CpG部位の第1の独立セットに並ぶ各断片について、CpG部位の第1の独立セットに並ぶ各断片、それぞれの断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部の例を含む;およびC)少なくとも第1のパッチを分類器に適用し、それによって被験体における癌状態を決定することを含む。
【請求項2】
少なくとも1つのプログラムが、A)を得た後および構築物B)を得る前の指示をさらに含む、請求項1記載の方法:
それぞれの断片中の対応する複数のCpG部位を横切る対応するメチル化パターンを有する各断片を複数の断片から除去することにより複数の断片を剪定すると、p値閾値を満たさないp値を有する。ここで、それぞれの断片のp値は、対応する複数のCpG部位のメチル化パターンの対応する分布に基づく各断片の対応するメチル化パターンの比較に基づいて決定され、ここで、対応する複数の参照断片中の各参照断片のメチル化パターンは、健康な被験者のコホートから得られた生体試料からの核酸のメチル化配列決定によって得られる。
【請求項3】
請求項2記載の方法:
第1の複数のパラメータの各インスタンスに対する第1の複数のパラメータを含み、第2の複数のパラメータの各インスタンスが第1のチャネルと第2のチャネルを含む複数のパラメータを含み、ここで、第2の複数のパラメータの各インスタンスは、第1のパッチに対する第1の独立したCpG部位の第1のセットにおけるCpG部位の第1の特徴、CpGメチル化状態以外のパラメータを含み、構築物B)は、CpG部位の第1の独立したセットに並ぶ各断片について、第1の複数のパラメータの全部または一部、およびそれぞれの断片のメチル化パターンに基づく第2の複数のパラメータの全部または一部のインスタンスを含む、各断片のポピュレーションを含む。
【請求項4】
各々の断片のメチル化パターンが、第1のパッチのCpG部位の第1の独立セットにおける各々のCpG部位を含まず、かつ構築物B)、複数の断片における各々の断片について、各々の断片に存在するCpG部位に対応する第1の複数のパラメータのインスタンスへのポピュレーションパラメータを含む、請求項1記載の方法。
【請求項5】
構築物B)が、複数の断片中のそれぞれの断片について、以下を含む、請求項1に記載の方法:
i)第1チャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいてメチル化状態が割り当てられていない、それぞれの断片中のCpG部位に対応するパラメータを同定する;および、ii)同定されたパラメータの中で、それぞれの断片の対応するCpG部位、それぞれの断片の対応するCpG部位のメチル化状態に整列する、各パラメータについて割り当てる。
【請求項6】
構築物B)が、複数の断片中のそれぞれの断片について、以下を含む、請求項3記載の方法:
i)複数の断片中の別の断片に基づいてメチル化状態が以前割り当てられていない、それぞれの断片中のCpG部位に対応するパラメータを、第1チャネルの第1の複数のパラメータのインスタンス内で同定する;
ii)同定されたパラメータの中で、それぞれのフラグメントのCpG部位、それぞれのフラグメントのそれぞれのCpG部位に整列する、同定されたパラメータの中で、各パラメータのメチル化状態を割り当て;およびiii)同定されたパラメータの中で、それぞれのパラメータについて、第1の複数のパラメータのインスタンスの第2の複数のパラメータの中で、それぞれのフラグメントのそれぞれのCpG部位、それぞれのフラグメントのそれぞれのCpG部位の第1の特徴に整列する、第2の複数のパラメータの第2のパラメータを割り当てる。
【請求項7】
それぞれのCpG部位の最初の特徴が、それぞれのCpG部位がオンである、それぞれの断片の多重度である、請求項6記載の方法。
【請求項8】
各々のCpG部位の第一の特徴が、からなる群より選択される、請求項6記載の方法:
健常コホートから導かれたCpGβ値、試験対象から導かれた所定の組織型、5’および3’隣接CpG部位のメチル化状態に対するピアソンの相関スコア、Jaccard距離、Manhattan距離、正規化されたユークリッド距離、被験者のコホートにおけるそれぞれのCpG部位のメチル化状態の最大値、ダイス係数、またはコシン係数、それぞれの断片の断片p値、それぞれのCpG部位の断片マッピング品質スコア、参照ゲノムにおける5’隣接CpG部位までの距離それぞれのCpG部位の多重性、それぞれのCpG部位が生物学的経路内にあるそれぞれのCpG部位は関連しており、それぞれのCpG部位が関連している遺伝子、それぞれのCpG部位に対するCpG遷移インパルス機能の値、それぞれのCpG部位に対するCpGランレングスコード化の値、およびそれぞれのCpG部位がオンである断片のリードストランド配向である。
【請求項9】
複数の断片中の1つ以上の断片が、複数の断片が共通のCpG部位を持たないことを条件に、第1パッチ中の第1のチャネルの第1の複数のパラメータの単一インスタンスに割り当てられる、請求項5または6に記載の方法。
【請求項10】
最初の複数のパラメータの例におけるパラメータがゼロである、請求項4記載の方法。
【請求項11】
CpG部位の第1の独立セットが、参照ゲノムのCpGインデックスにある、請求項1記載の方法。
【請求項12】
参照ゲノムのCpGインデックスが、第2のCpG部位と第1の独立したCpG部位のセットに存在する第1のCpG部位と第3のCpG部位との間の参照ゲノムに位置する、CpG部位の第1の独立したセットに存在しない第1のCpG部位を含む、請求項11記載の方法。
【請求項13】
請求項1記載の方法:
CpG部位の第1の独立セットは、参照ゲノムのCpGインデックスにおいて互いに隣接する第1のCpG部位および第2のCpG部位を含み、複数の断片中の第1の断片は第1のCpG部位を含むが第2のCpG部位は含まず、複数の断片中の第2の断片は第2のCpG部位を含むが、第1のCpG部位は含まない。
【請求項14】
第1の複数のパラメータの例におけるパラメータが、複数の断片中のそれぞれの断片について、以下の通りである、請求項1記載の方法:
メチル化シークエンシングによってそれぞれの断片中の対応するCpG部位がメチル化された場合にメチル化され、それぞれの断片中の対応するCpG部位がメチル化されていないと判定された場合にはメチル化され、メチル化シークエンシングによってそれぞれの断片中の対応するCpG部位がメチル化されていないと判定された場合にはメチル化されず、メチル化されていないかメチル化されていないと判定された場合にはメチル化されない。
【請求項15】
第1チャネルの第1の複数のパラメータの例数が、それぞれのフラグメントを割り当てられておらず、少なくとも1つのプログラムが、フラグメントを割り当てられていない第1チャネルの複数のパラメータの例におけるゼロ充填パラメータの指示をさらに含む、請求項5に記載の方法。
【請求項16】
i)を同定することが、第1チャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定することができず、少なくとも1つのプログラムがさらにそれぞれの断片を廃棄するための指示を含む、請求項5記載の方法。
【請求項17】
i)を同定することが、第1パッチの第1チャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定することができない、少なくとも1つのプログラムが、第1パッチの追加インスタンスを作成し、第1パッチの追加インスタンスにそれぞれの断片を割り当てるための指示をさらに含む、請求項5に記載の方法。
【請求項18】
請求項3記載の方法:
複数のチャネルは、少なくとも3つのチャネルを含む
第1の複数のパラメータの各インスタンスに対する第3の複数のチャネルの対応するインスタンスを第3の複数のチャネルに含み、第3の複数のパラメータの各インスタンスは、CpG部位の第1の独立したセットにおけるそれぞれのCpG部位の第2の特性に対するパラメータを含み、ここで、第2の特性は、以下からなる群から選択される:
健常コホートから導かれたCpGβ値、試験対象から導かれた所定の組織型、5’および3’隣接CpG部位のメチル化状態に対するピアソンの相関スコア、Jaccard距離、Manhattan距離、正規化されたユークリッド距離、被験者のコホートにおけるそれぞれのCpG部位のメチル化状態の最大値、ダイス係数、またはコシン係数、それぞれの断片の断片p値、それぞれのCpG部位の断片マッピング品質スコア、参照ゲノムにおける5’隣接CpG部位までの距離それぞれのCpG部位の多重性、それぞれのCpG部位が生物学的経路内にあるそれぞれのCpG部位は関連しており、それぞれのCpG部位が関連している遺伝子、それぞれのCpG部位に対するCpG遷移インパルス機能の値、それぞれのCpG部位に対するCpGランレングスコード化の値、およびそれぞれのCpG部位がオンである断片のリードストランド配向である。
【請求項19】
CpG部位の第1の独立セットが、参照ゲノム全体から引き出される、請求項1記載の方法。
【請求項20】
請求項1に記載の方法であって、少なくとも1つのプログラムが以下の指示をさらに含む、方法:
第1の対応する第1のチャネルを構成する第2のパッチ、種の参照ゲノム中の第2の独立したCpG部位の第2の独立したセットを表す第2のパッチ、参照ゲノム中の第2のCpG部位の第2の独立したセットに対応する第2のCpG部位の各第1の複数のチャネルを構成し、ここで、第2のチャネルの各パラメータは、第2のパッチの第2の独立したセットのCpG部位のメチル化状態に関するパラメータを含み;そして、CpG部位の第2の独立したセットに並ぶ各断片について、第2のパッチのメチル化パターンに基づく第2のパッチの全てまたは第1の複数のパラメータの一部を構成し、第2のパッチを構築する;そして、Cを適用することは、さらに、第1のパッチおよび第2のパッチを分類器に適用することを含んでおり、それにより、被験体中の癌状態を決定することを含む、第2のパッチの対応する第1および第2のパッチのメチル化状態に関するパラメータを構成する。
【請求項21】
請求項20の方法:
第2のパッチは対応する第1のチャネルを含む対応する複数のチャネルを含む;
第2パッチの第2の複数のチャネルの対応する第2の複数のチャネルにおける対応する第2のチャネルの複数のパラメータを含み、ここで、第2のパッチの第2の複数のパラメータの各インスタンスは、第2のパッチの第2の独立したセットのCpG部位の第1の特徴、CpGメチル化状態以外のパラメータを含み、かつ、第2の独立したセットのCpG部位に並ぶ複数の断片中の各断片について、第2のパッチの第2の複数のパラメータのインスタンスの全部または一部を、それぞれの断片のメチル化パターンに基づいてさらにポピュレーションするための指示を含む。
【請求項22】
CpG部位の第1の独立セットが、第2の独立セットのCpG部位と重複しない、請求項20に記載の方法。
【請求項23】
CpG部位の第1の独立セットが、第2の独立セットのCpG部位と重複する、請求項20に記載の方法。
【請求項24】
第1のパッチが、第2のパッチと同じ大きさであるが異なる参照ゲノムの部分を表す、請求項20に記載の方法。
【請求項25】
第1のパッチが参照ゲノムの第1の部分を表し、第2のパッチが参照ゲノムの第2の部分を表し、第1の部分のサイズが第2の部分のサイズとは異なる、請求項20記載の方法。
【請求項26】
請求項24または25記載の方法:
CpG部位の第1の独立セットは第1の数のCpG部位から成り、第2の独立セットのCpG部位は第2の数のCpG部位から成り、第1の数のCpG部位は第2の数のCpG部位と同じである。
【請求項27】
請求項24または25記載の方法:
CpG部位の第1の独立セットは第1の数のCpG部位から成り、第2の独立セットのCpG部位は第2の数のCpG部位から成り、第1の数のCpG部位は第2の数のCpG部位とは異なる。
【請求項28】
1つ以上の核酸試料のメチル化配列決定が、i)全ゲノムメチル化配列決定、またはii)複数の核酸プローブを用いる標的化DNAメチル化配列決定である、請求項1記載の方法。
【請求項29】
1つ以上の核酸試料のメチル化配列決定が、複数の核酸プローブを使用し、かつ複数の核酸プローブが100以上のプローブを含む、請求項28記載の方法。
【請求項30】
1つ以上の核酸試料のメチル化配列決定が、それぞれの断片中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する、請求項1記載の方法。
【請求項31】
1つ以上の核酸サンプルのメチル化配列決定が、対応する1つ以上のウラシルへの、それぞれの断片における1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換を含む、請求項1記載の方法。
【請求項32】
1つまたは複数のウラシルが、1つまたは複数の対応するチミンとしてメチル化配列決定の間に検出される、請求項31記載の方法。
【請求項33】
1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換が、化学変換、酵素変換、またはそれらの組み合わせを含む、請求項31記載の方法。
【請求項34】
請求項1記載の方法:
少なくとも1つのプログラムはさらに、第1のパッチを含む複数のパッチを構築するための指示を含み、それぞれのパッチは、参照ゲノム中の異なる独立したCpG部位のセットについてである;
構築B)第1パッチを含む複数のパッチを構築する;
分類器は、複数の訓練された第1段階モデルおよび第2段階モデルを含む;
少なくとも最初のパッチを分類器に適用すること:
複数の特徴要素を得る特徴ベクトルを含み、ここで、複数の特徴要素における各特徴要素は、対応する訓練された第一段階モデルへの複数のパッチにおけるそれぞれのパッチの適用時に、複数の訓練された第一段階モデルにおける対応する訓練された第一段階モデルの出力であり;そして、特徴ベクトルを第二段階モデルに適用することにより、被験体におけるがん状態を決定する、特徴ベクトルを有する、特徴ベクトルを有する。
【請求項35】
請求項34記載の方法:
複数のトレーニングされた第一段階モデルにおけるそれぞれのトレーニングされた第一段階モデルは、対応するトレーニングされた回帰ニューラルネットワークであり、第二段階モデルはロジスティック回帰モデルである;そして、第一パッチの第一段階モデルの第一チャネルは、第一次元を形成する第一パッチの第一の複数のパラメータの各複数の例と、第二次元を形成する第一パッチの第一の複数のパラメータのそれぞれの例を有する二次元である。
【請求項36】
複数のパッチが、10パッチから10000パッチの間である、請求項34記載の方法。
【請求項37】
複数のパッチが100のパッチから3000のパッチの間である、請求項34記載の方法。
【請求項38】
請求項1記載の方法:
分類器は、複数の第一段階モデルおよび動的ニューラルネットワークを含む;
少なくとも1つのプログラムはさらに、第1のパッチを含む複数のパッチを構築するための指示を含み、それぞれのパッチは、参照ゲノム中の異なるセットのCpG部位についてである;
B)は、1枚目を含む各パッチを構成する;
少なくとも最初のパッチを分類C)に適用すること:
C1)前記複数のパッチにおける各それぞれのパッチを、前記複数の第1段階モデルにおける対応する第1段階モデルに適用するステップであって、前記対応する第1段階モデルが備える、ステップ:
i)各々のパッチを受け取るための各々の入力層であって、ここで、各々のパッチは、最初の数の寸法を含む;
ii)それぞれの完全に連結された包埋層を含み、それぞれの完全に連結された包埋層が直接または間接的にそれぞれの入力層の出力を受け取り、かつそれぞれの包埋層のそれぞれの出力が第1次元数よりも小さい第2次元数である;およびiii)それぞれの完全に連結された包埋層から出力を直接または間接的に受け取るそれぞれの出力層;およびC2)複数の第1段階モデルにおける各訓練された第1段階モデルのそれぞれの完全に連結された包埋層からのそれぞれの出力の集合を、動的ニューラルネットワークに入力し、それによって被験体における癌状態を決定する。
【請求項39】
前記複数の第1段階モデルにおける各々の第1段階モデルのそれぞれの埋め込み層のそれぞれの出力は、32~1048の値のセットである、請求項38に記載の方法。
【請求項40】
少なくとも1つのプログラムが、被験者のコホートを用いて、複数の第一段階モデルおよび動的ニューラルネットワークを訓練するための指示をさらに含んでおり、ここで、被験者のコホートは、がん状態についての第一のラベルを有する第一のサブセットの被験者、およびがん状態についての第二のラベルを有する第二のサブセットの被験者を含む、請求項39記載の方法。
【請求項41】
訓練のための指示が、以下を含む、請求項40に記載の方法:
a)ランダムにベースで、癌の状態、年齢、喫煙状態、または性別の任意の組合せに基づいて、対象のコホートを複数の群に層別化する;
b)複数のモデルおよび動的ニューラルネットワークをトレーニング群に対してトレーニングするための試験群として、トレーニング群として、複数の群における第一の群、および複数の群の残りを使用する;
c)b)を用いて、b)の反復において、複数の群の中の各群が訓練群として使用されるように、複数の群の中の各群について、b)を用いて、d)a)を繰り返し、b)を用いて、c)を繰り返して、分類器の性能基準が満たされるまで繰り返した。
【請求項42】
癌状態が起源の組織であり、被験者のコホートにおける各被験体が起源の組織で標識される、請求項40または41記載の方法。
【請求項43】
コホートが、肛門直腸癌、膀胱癌、乳癌、子宮頸癌、結腸直腸癌、頭頸部癌、肝胆道癌、子宮内膜癌、腎癌、白血病、肝癌、肺癌、リンパ系新生物、黒色腫、多発性骨髄腫、骨髄性新生物、卵巣癌、非ホジキンリンパ腫、膵癌、前立腺癌、腎癌、甲状腺癌、上部消化管癌、尿路上皮癌、または子宮癌を含む、請求項42記載の方法。
【請求項44】
癌状態が特定癌の病期であり、被験者のコホートにおける各被験者が特定癌の病期で標識される、請求項40記載の方法。
【請求項45】
コホートには、肛門直腸癌の病期、膀胱癌の病期、乳癌の病期、子宮頸癌の病期、大腸癌の病期、頭頸部癌の病期、肝胆道癌の病期、子宮内膜癌の病期、腎癌の病期、白血病の病期、肝癌の病期、肺癌の病期、リンパ系新生物の病期、黒色腫の病期、多発性骨髄腫の病期、骨髄系腫瘍の病期、卵巣癌の病期、非ホジキンリンパ腫の病期、膵癌の病期、前立腺癌の病期、腎癌の病期、甲状腺癌の病期、上部消化管癌の病期、尿路上皮癌の病期、または子宮癌の病期が含まれる、請求項44記載の方法。
【請求項46】
癌の状態が、被験体が癌を有するか否かであり、層別化a)により、複数の群における各群が癌を有し、かつ癌を有さない被験体の数が等しいことを保証する、請求項41記載の方法。
【請求項47】
トレーニングが、トレーニング中に、複数のパッチ中の各パッチのそれぞれの出力層によって提供される値に基づいて、L1またはL2正規化を用いて、複数のパッチ中の1つ以上のパッチを除去する、請求項40~46のいずれか一項記載の方法。
【請求項48】
最初の複数のパラメータの複数の例が24から2048の間である、請求項1記載の方法。
【請求項49】
第1の複数のパラメータの複数の例における多数の例が、複数の断片の予想読み深さに加えて、複数の断片を横切る1つの標準偏差に基づいて決定される、請求項1記載の方法。
【請求項50】
構築物B)が、さらに、参照ゲノムにおけるそれぞれのp値またはそれらの開始位置に基づいて、第1パッチに割り当てられたそれぞれの断片を仕分けることを含む、請求項1記載の方法。
【請求項51】
少なくとも1つのプログラムが、複数の臨床被験体を含む臨床コホートから得られる複数の臨床核酸サンプルから得られる複数の臨床核酸サンプルのメチル化配列決定によって決定される複数のCpGメチル化パターンの評価を通して、第1パッチの第1の独立したセットのCpG部位を選択するための指示をさらに含んでおり、ここで、複数の臨床被験体は、がん状態に対する第1の適応を有する第1のセットの臨床被験体と、がん状態に対する第2の適応を有する第2のセットの臨床被験体を含む、請求項1~50のいずれか一項記載の方法。
【請求項52】
選択するための指示が、含む、請求項51に記載の方法:
臨床被験者の第1セットと第2セットの臨床被験者間の複数のCpG部位における各CpG部位のメチル化状態に関するそれぞれの第1の相互情報スコアに基づいて、参照ゲノム中の複数のCpG部位の第1の順位を決定すること;および順位付けを用いて、第1パッチのCpG部位の対応する独立セットに対する第1の閾値数のCpG部位を選択すること。
【請求項53】
請求項51記載の方法:
複数の臨床被験体は、癌状態に対する第三の適応を有する第三の臨床被験体セット、および癌状態に対する第四の適応を有する第四の臨床被験体セットを含み、選択するための指示は、さらに以下を含む:
第3の臨床被験者セットと第4の臨床被験者セットとの間の複数のCpG部位における各CpG部位のメチル化状態について、それぞれの第2の相互情報スコアに基づいて参照ゲノム中の複数のCpG部位の第2の順位を決定し;第2の順位を用いて、第1のパッチのCpG部位の第1の独立したセットについて、第2の閾値数のCpG部位を選択する。
【請求項54】
構築物B)が、さらに、それぞれの最初の相互情報スコアに基づいて、最初のパッチに割り当てられたそれぞれの断片を仕分けることを含む、請求項52記載の方法。
【請求項55】
癌状態に対する第1の適応症が第1の癌タイプであり、癌状態に対する第2の適応症が第2の癌タイプである、請求項51記載の方法。
【請求項56】
第1パッチのCpG部位の第1の独立セットに対するCpG部位の第1閾値数における各CpG部位が、CpG部位の第1閾値数における全ての他のCpG部位からの参照ゲノム中に、閾値数の残基によりパッドされる、請求項52記載の方法。
【請求項57】
選択するための指示がさらに含まれる、請求項51に記載の方法:
臨床被験者の第1セットと臨床被験者の第2セットとの間の複数の固定長領域における各固定長領域のメチル化状態に関するそれぞれの第1の相互情報スコアに基づいて、参照ゲノム中の複数の固定長領域の第1のランキングを決定すること;および第1ランキングを用いて、複数の固定長領域におけるそれらの固定長領域の中から、第1のパッチの第1の独立したCpG部位の第1の閾値数のCpG部位を選択すること。
【請求項58】
請求項57記載の方法:
複数の臨床被験体は、癌状態に対する第三の適応を有する第三の臨床被験体セット、および癌状態に対する第四の適応を有する第四の臨床被験体セットを含み、選択するための指示は、さらに以下を含む:
臨床被験者の第3セットと臨床被験者の第4セットとの間の複数の固定長領域における各固定長領域のCpG部位メチル化パターンのメチル化状態に関するそれぞれの第2の相互情報スコアに基づいて、参照ゲノム中の複数の固定長領域の第2のランキングを決定し;第2のランキングを用いて、第1パッチのCpG部位の第1の独立セットに対する第2の閾値数のCpG部位を選択する。
【請求項59】
構築物B)が、さらに、それぞれの最初の相互情報スコアに基づいて、最初のパッチに割り当てられたそれぞれの断片を仕分けることを含む、請求項57記載の方法。
【請求項60】
癌状態に対する第1の適応症が第1の癌タイプであり、癌状態に対する第2の適応症が第2の癌タイプである、請求項57記載の方法。
【請求項61】
第1パッチのCpG部位の第1の独立セットに対するCpG部位の第1閾値数における各CpG部位が、CpG部位の第1閾値数における全ての他のCpG部位からの参照ゲノム中に、閾値数の残基によりパッドされる、請求項57記載の方法。
【請求項62】
1つ以上の核酸サンプルが無細胞核酸サンプルである、請求項1~61のいずれか一項記載の方法。
【請求項63】
種の被験体の癌状態を決定するためのコンピュータシステムであって、構成されるコンピュータシステム:
少なくとも1つの処理装置、および
少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを記憶するメモリであって、前記少なくとも1つのプログラムは、命令を含む、メモリ:
A)データセットを得ることは、電子形態であり、ここで、データセットは、複数の断片においてそれぞれの断片の対応するメチル化パターンを含み、ここで、各断片の対応するメチル化パターンは、(i)試験対象から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、そして(ii)それぞれの断片中の対応する複数のCpG部位における各CpG部位のメチル化状態を含む;
B)第1のチャネルを含む第1のパッチを構築し、ここで、第1のパッチは、種の参照ゲノムにおける第1の独立したCpG部位のセット、参照ゲノムにおける所定の位置に対応する第1の独立したCpG部位のセットにおける各CpG部位を表す:
第1の複数のパラメタの第1のチャネルの複数の例を含み、ここで、第1の複数のパラメタの各例は、第1のパッチのCpG部位の第1の独立セットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含み、構築物B)は、CpG部位の第1の独立セットに並ぶ各断片について、CpG部位の第1の独立セットに並ぶ各断片、それぞれの断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部の例を含む;およびC)少なくとも第1のパッチを分類器に適用し、それによって被験体における癌状態を決定することを含む。
【請求項64】
処理装置によって実行される場合、種の被験体の癌状態を決定する方法を処理装置に実行させる、方法を含む、プログラムコード指示に基づいて保存された、一過性でないコンピュータ読取可能な保存媒体:
A)データセットを得ることは、電子形態であり、ここで、データセットは、複数の断片においてそれぞれの断片の対応するメチル化パターンを含み、ここで、各断片の対応するメチル化パターンは、(i)試験対象から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、そして(ii)それぞれの断片中の対応する複数のCpG部位における各CpG部位のメチル化状態を含む;
B)第1のチャネルを含む第1のパッチを構築し、ここで、第1のパッチは、種の参照ゲノムにおける第1の独立したCpG部位のセット、参照ゲノムにおける所定の位置に対応する第1の独立したCpG部位のセットにおける各CpG部位を表す:
第1の複数のパラメタの第1のチャネルの複数の例を含み、ここで、第1の複数のパラメタの各例は、第1のパッチのCpG部位の第1の独立セットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含み、構築物B)は、CpG部位の第1の独立セットに並ぶ各断片について、CpG部位の第1の独立セットに並ぶ各断片、それぞれの断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部の例を含む;およびC)少なくとも第1のパッチを分類器に適用し、それによって被験体における癌状態を決定することを含む。
【請求項65】
種の被験体の癌状態を決定する方法であって、以下を含む方法:
A)1つまたは複数の処理者を介して、1つまたは複数のトレーニング被験体からトレーニングデータセットを取得し、ここで、トレーニングデータセットは、1つまたは複数のトレーニング被験体から得られた1つまたは複数の生体試料中の複数の断片の1つまたは複数のトレーニングメチル化パターン、および1つまたは複数のトレーニングメチル化パターンに関連する1つまたは複数の所定のがん状態を含む;
B)1つ以上のプロセサーを介して、トレーニングデータセットに基づく1つ以上のパッチ、1つ以上のチャネルを含み、種の参照ゲノム中の1つ以上のCpG部位を表す1つ以上のパッチの各パッチ、参照ゲノム中の所定の位置に対応する1つ以上のCpG部位の各CpG部位を構築する;
C)1つまたは複数の処理機を介したトレーニング、1つまたは複数のパッチおよびトレーニングデータセットに基づく計算モデル;
D)試験データセットが、試験被験体から得られた1つ以上の生体試料中の複数の断片の1つ以上の試験メチル化パターンを含む、1つ以上の処理者を介して、試験被験データセットを得ること;および;
E)検査データセットおよび計算モデルに基づいて、1つ以上の処理機を介して、被験体の癌状態を決定する。
【請求項66】
1つ以上のトレーニングメチル化パターン(i)が、1つ以上のトレーニング被験体から得られた1つ以上の生体試料中の複数の断片を含む1つ以上の核酸試料の少なくとも1つのメチル化シークエンシングによって決定される;および(ii)1つ以上のトレーニング被験体から得られた1つ以上の生体試料中の複数の断片中の各CpG部位の少なくとも1つのメチル化状態を含む、請求項65に記載の方法。
【請求項67】
1つ以上の試験メチル化パターン(i)が、被験体から得られる1つ以上の生体試料中の複数の断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)被験体から得られる1以上の生体試料中の複数の断片中の各CpG部位の少なくとも1つのメチル化状態を含む、請求項65に記載の方法。
【請求項68】
計算モデルが、回帰ニューラルネットワークおよび第2段階モデルを含む、請求項65に記載の方法。
【請求項69】
工程Bに先立って、各断片のそれぞれに対応する複数のCpG部位を横切る対応するメチル化パターンがp値閾値を満たさないp値を有する、複数の断片から除去することにより複数の断片を剪定する工程をさらに含む、請求項65記載の方法。
【請求項70】
健康な被験者のコホートから得られた1以上の生物学的試料からの核酸のメチル化配列決定によって得られた複数の参照断片に関連するメチル化パターンに基づいて、それぞれの断片のp値が決定される、請求項69記載の方法。
【請求項71】
前記1つまたは複数のチャネルは、第1のチャネルを含み、前記第1のチャネルは、第1の複数のパラメータの複数のインスタンスを含み、前記第1の複数のパラメータの各インスタンスは、前記1つまたは複数のパッチのパッチについてのCpG部位の第1の独立したセットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含む、請求項65に記載の方法。
【請求項72】
構築物B)が、CpG部位の第1の独立セットに整列する1つ以上のトレーニング被験体から得られる1つ以上の生物学的サンプルにおいて、各断片が複数の断片に集団を形成することを含み、それぞれの断片のトレーニングメチル化パターンに基づく第1の複数のパラメータの全部または一部のインスタンスを含む、請求項71記載の方法。
【請求項73】
構築物B)が、複数の断片中のそれぞれの断片について、以下を含む、請求項71に記載の方法:
i)第1チャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいてメチル化状態が割り当てられていない、それぞれの断片中のCpG部位に対応するパラメータを同定する;および、ii)同定されたパラメータの中で、それぞれの断片の対応するCpG部位、それぞれの断片の対応するCpG部位のメチル化状態に整列する、各パラメータについて割り当てる。
【請求項74】
1つ以上のチャネルが、第1の複数のパラメータの各インスタンスに対する第2の複数のパラメータの対応するインスタンスを含む第2のチャネルであって、第2の複数のパラメータの各インスタンスが、第1のパッチに対するCpG部位の第1の独立したセットにおける、CpGメチル化状態以外の第1の特性に対するパラメータを含む、請求項71に記載の方法。
【請求項75】
前記1つ以上のチャネルは、第3のチャネルを含み、前記第3のチャネルは、前記第1の複数のパラメータの各インスタンスに対する第3の複数のパラメータの対応するインスタンスを含み、前記第3の複数のパラメータの各インスタンスは、CpG部位の前記第1の独立したセット内のそれぞれのCpG部位の第2の特性に対するパラメータを含む、請求項74に記載の方法。
【請求項76】
それぞれのCpG部位の最初の特徴が、それぞれのCpG部位がオンである、それぞれの断片の多重度である、請求項74記載の方法。
【請求項77】
それぞれのCpG部位の第1の特徴が少なくとも1つを含む、請求項74に記載の方法:
健常コホートから導かれたCpGβ値、試験対象から導かれた所定の組織型、5’および3’隣接CpG部位のメチル化状態に対するピアソンの相関スコア、Jaccard距離、Manhattan距離、正規化されたユークリッド距離、被験者のコホートにおけるそれぞれのCpG部位のメチル化状態の最大値、ダイス係数、またはコシン係数、それぞれの断片の断片p値、それぞれのCpG部位の断片マッピング品質スコア、参照ゲノムにおける5’隣接CpG部位までの距離それぞれのCpG部位の多重性、それぞれのCpG部位が生物学的経路内にあるそれぞれのCpG部位は関連しており、それぞれのCpG部位が関連している遺伝子、それぞれのCpG部位に対するCpG遷移インパルス機能の値、それぞれのCpG部位に対するCpGランレングスコード化の値、およびそれぞれのCpG部位がオンである断片のリードストランド配向である。
【請求項78】
請求項65記載の方法であって、さらに、1つまたは複数の処理装置を介して、癌状態を、被験体のユーザ装置に関連する電子記録に送信することを含む方法。
【請求項79】
癌状態が、癌のレベル、起源の組織、および転移性疾患状態を含む、請求項65記載の方法。
【請求項80】
脳回神経回路網が、あらかじめ訓練された脳回神経回路網である、請求項68記載の方法。
【請求項81】
予め訓練された回旋神経回路網が、特注のVGG-11回旋神経回路網を含み、ここで、特注のVGG-11回旋神経回路網が、特注のフィルターサイズおよび活性化機能を含む、請求項80に記載の方法。
【請求項82】
1つ以上の生物学的プリアを用いて計算モデルを更新することをさらに含む、請求項65に記載の方法。
【発明の詳細な説明】
【関連出願への相互参照】
【0001】
本申請は、米国暫定特許出願第に優先順位を主張する。62/948,1292019年12月13日付けで申請された「パッチコンボリューション・ニューラル・ネットワークを用いたがん分類」については、以下を参考にして取り入れている。
【技術分野】
【0002】
このような被験者からの遺伝子型情報を用いて、癌などの疾患状態の被験者を分類するパッチ回帰ニューラルネットワークを提供する。
【背景技術】
【0003】
がんの早期発見は、がんの転帰を改善する最も人間的な方法の1つである。現状の治療-固形腫瘍に対する手術、化学療法と放射線の併用、または液状腫瘍に対する化学療法と骨髄移植-には、生存率が不十分であるなどの欠点がある。治療はしばしば患者を痛みのままにし、一方で生存期間の不十分な量を提供する。新しい免疫療法にも欠点がある。患者は集中治療室で治療されなければならず、しばしば致死的な副作用がある。このような治療法はいずれも、がんが早期に発見されれば、より効果的である。
【0004】
しかし、現行のスクリーニング検査は満足のいくものではない。マンモグラフィー、大腸内視鏡検査、Papスミアおよび前立腺特異抗原(PSA)の検査などのモニタリング法が数十年にわたって使用されてきたが、すべてが一様に成功しているわけではない。一部の病変は進行が非常に遅いため、患者は他の何かで死亡する可能性が高くなるが、危険な腫瘍の中には、治癒するには遅すぎる前に発見できないものもある。そのうえ、現在までのところ、肺癌に関して、とりわけ満足のいくスクリーニング検査は利用できない。
【0005】
本開示は、上記に引用されたこれらの課題の1つまたは複数に対処することを目的とする。ここに示された背景記述は、一般的に開示の状況を提示する目的のためである。本明細書中で特に指示されていない限り、本セクションに記載されている材料は、本出願におけるクレームに対する先行技術ではなく、本セクションに含めることにより、先行技術、または先行技術の提案であることは認められない。
【0006】
本開示は、被験者における癌の早期発見のためのツールを提供することによって、当該技術分野において上記に同定された問題に対処するものである。前述したように、早期がん発見は、より早期の治療を可能にし、そのため生存の可能性を高めることから重要である。その目的に向けて、本開示は、cfDNA断片のCpG部位のメチル化状態を分析するためのシステムおよび方法を提供する。無細胞DNA(cfDNA)断片の配列決定および断片中のシトシンおよびグアニンの種々のジヌクレオチド(CpG部位として知られる)のメチル化状態の分析は、被験体が癌を有するかどうかの洞察を提供することができる。
【0007】
本開示は、深層学習分類技術をメチル化フラグメントデータ、特に視覚分類技術に適用することによって、既存の分類技術よりも改良された特異性および感度を提供することができる。例えば、視覚問題に類似した深い学習問題としての再構成癌/非癌および起源組織メチル化断片分類は、顆粒状メチル化配列特徴および高次、交差領域特徴などのデータにおける非線形性に関する鍵情報を提供することができる。
【0008】
開示されたシステムおよび方法は、データファイルからのフラグメントデータよりも、特注で訓練されたパッチコンボリューショナル・ニューラル・ネットワーク(パッチ-CNN)を、癌/非癌および組織起源分類に適用することができる。細かい断片配列データと領域局所性情報への可視性の両方をネットワークに提供するために、データをコード化し、直交軸に沿った積み上げ断片リードの第1軸と深さに沿ったCpG部位と追加チャンネルとしてコード化された補足データを有する2次元「画像」として表現することができる。CNNアーキテクチャは視覚や画像処理の分野で使用でき、データの広いセクションにわたって共通のパターンや特徴を学習することができる。開示されたシステムおよび方法において、隣接するCpG部位の位置的文脈を符号化し、異常な配列および断片を認識するためのモデル学習のための入力として使用される画像ピクセルに類似して表現することができる。同様に、CpG部位の幅と読みの深さに関してより大きな領域ビューを提供することにより、共局在化した異常フラグメントにわたって高次の特徴を学習する能力をネットワークに提供することができる。
【0009】
主要な懸念領域には、入力された特徴の大きさを含むことができる。そのため、次元低減戦略を採用して、ネットワークトレーニングを実行可能にすることができる。深い学習アプリケーションの間に生じる一般的な障害には、問題を計算的に扱いやすいようにしながら、基礎となるデータ(例えば、フラグメントレベルと領域間の両方で)にできるだけ多くの情報を保存することの困難さが含まれる。例えば、ゲノム中または標的メチル化パネル中の全てのCpG部位を含む予測モデルは、それぞれ約28Mまたは1MのCpG部位を含むことができる。約30~1500の読取深度を用いると、ネットワーク入力は迅速に10億以上のパラメータに上昇できる。入力パラメータと比較したトレーニング例数のネットワークサイズ、深さ、計算の複雑さ、記憶制約および不均衡は、特に、最大28x28画像または30から5万入力の上で動作する従来のディープラーニングデータベースおよび大型画像分類器に対して、単純に難しいことができる。データをあらかじめフィルタリングし、集計し、ビンに入れてより粗い解像度にするという次元の縮小はあるものの、それらは分類に利用できる情報を減らすことができる。
【0010】
次元減少の1つの選択肢には、入力空間を、統合する前に独立に学習できるより扱いやすい、局在化した領域に細分化することが含まれる。これは、結果を統合する前に独立して領域を探索しようとする限局的で鋭い探索を行うことと同等になりうる。したがって、本開示において本明細書に記載されるように、CpG部位のゲノムまたはパネルは、Patch-CNNに使用するために管理可能な領域にセグメント化された大きな画像として表現され得、疾患予測をより扱いやすい問題に変換する。本開示は、さらに、安定かつ再現性のある分類のために、マトリックスなどのデータ構築物へのフラグメントデータのフレーム化および構造化のためのシステムおよび方法を提供することができる。
【0011】
このように、本開示は、メチル化シークエンシングデータ上の深いニューラルネット(例えば、Patch-CNN)を用いて、フラグメント、領域、およびサンプルレベルの分類のためのパフォーマンスゲインを改善するためのシステムおよび方法を提供することができる。さらに、本開示は、微細粒状メチル化配列特徴および粗粒状交差領域パターンを含む、異常なメチル化状態以外の粒状での特徴の評価を改善するためのシステムおよび方法を提供することができる。そのような応用は、予測(例えば、癌/非癌および起源組織)の性能の感度および特異性を改善する一方で、従来の分析ワークフローと比較して最も情報利得を提供する関心のあるCpG領域を同定することができる。
【0012】
したがって、本開示は、種の被験体の疾患状態を決定するための方法を提供することができる。本開示のそのような局面の1つにおいて、方法は、少なくとも1つの処理装置と、少なくとも1つの処理装置による実行のための少なくとも1つのプログラムを保存する記憶装置とを含むコンピュータシステムで実施される。少なくとも1つのプログラムは、データセットを得るための指示を、電子形態で含むことができ、ここで、データセットは、複数の断片中のそれぞれの断片の対応するメチル化パターンを含む。それぞれの断片の対応するメチル化パターンは、試験対象から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定することができ、それぞれの断片中の対応する複数のCpG部位における各CpG部位のメチル化状態を含む。
【0013】
この局面において、少なくとも1つのプログラムは、第1のチャネルを含む第1のパッチを構築するための指示をさらに含む。最初のパッチは、種の参照ゲノムにおける最初の独立したCpG部位のセットを表すことができ、CpG部位の最初の独立したセットにおけるそれぞれのCpG部位は、参照ゲノムにおける所定の位置に対応する。第1のパッチの第1のチャネルは、第1の複数のパラメータの複数の例を含むことができる。最初の複数のパラメータの各インスタンスは、最初のパッチのCpG部位の最初の独立セットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含み得る。第1のパッチの構築は、CpG部位の第1の独立セットに並ぶ複数の断片中の各断片について、それぞれの断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部のインスタンスをポピュレーションすることを含むことができる。
【0014】
この局面において、少なくとも1つのプログラムは、分類器に少なくとも最初のパッチを適用するための指示をさらに含むことができ、それにより、被験体中の癌状態を決定する。
【0015】
いくつかの実施形態において、少なくとも1つのプログラムは、データセットを得た後、および第1のパッチを構築する前に、複数の断片を剪定するための指示をさらに含む。複数の断片をそれぞれの断片から除去することにより、複数の断片を剪定することができ、その断片の対応する複数のCpG部位を横切る対応するメチル化パターンは、p値閾値を満たさないp値を有する。それぞれの断片のp値は、それぞれの断片の対応する複数のCpG部位を有する対応する複数の参照断片における対応する複数のCpG部位のメチル化パターンの対応する分布に対するそれぞれの断片の対応するメチル化パターンの比較に基づいて決定することができる。対応する複数の参照断片における各参照断片のメチル化パターンは、1つ以上の共通の特性を有する被験体のコホート(例えば、健康な被験体のコホート、喫煙する健康な被験体のコホート、喫煙しない被験体のコホート、男性被験体のコホート、女性被験体のコホート、閾値年齢を超える被験体のコホート、特定の年齢範囲にある被験体のコホート、特定の遺伝子突然変異のセットを有する被験体のコホート、特定の人種の被験体のコホートなど)から得られる生物学的試料からの核酸のメチル化配列決定によって得ることができる。
【0016】
いくつかの実施形態において、第1のパッチは、第1のチャネルおよび第2のチャネルを含む複数のチャネルを含む。第二のチャネルは、第一の複数のパラメータの各インスタンスに対する第二の複数のパラメータの対応するインスタンスを含むことができる。第2の複数のパラメータの各インスタンスは、第1パッチのCpG部位の第1の独立セットにおけるそれぞれのCpG部位の第1の特徴、CpGメチル化状態以外のパラメータを含み得る。第1のパッチを構築することは、CpG部位の第1の独立セットに並ぶ複数の断片中の各断片について、第1の複数のパラメータの全部または一部のインスタンス、およびそれぞれの断片のメチル化パターンに基づく第2の複数のパラメータの全部または一部のインスタンスを集団化することを含むことができる。
【0017】
いくつかの実施形態において、それぞれの断片のメチル化パターンは、第1パッチのCpG部位の第1の独立セットにおける各CpG部位を含まない。第1のパッチを構築することは、複数の断片中のそれぞれの断片について、それぞれの断片中に存在するCpG部位に対応する第1の複数のパラメータのインスタンス中のパラメータを集団化することを含むことができる。
【0018】
いくつかの実施形態において、第1のパッチを構築することは、複数の断片中のそれぞれの断片について、第1のチャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいて、以前にメチル化状態が割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定することを含む。最初のパッチを構築することは、さらに、それぞれの断片の対応するCpG部位に整列する同定されたパラメータのうちの各パラメータについて、それぞれの断片の対応するCpG部位のメチル化状態を割り当てることを含むことができる。
【0019】
いくつかの実施形態において、複数の断片中のそれぞれの断片について、第1のパッチを構築することは、第1のチャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいて、以前にメチル化状態が割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定することを含む。最初のパッチを構築することは、さらに、各フラグメントのそれぞれのCpG部位に整列する同定されたパラメータのうちの各パラメータについて、各フラグメントのそれぞれのCpG部位のメチル化状態を割り当てることを含むことができる。第1のパッチを構築することは、さらに、特定されたパラメータの中で、第2の複数のパラメータの第2のパラメータにおいて、それぞれの断片のそれぞれのCpG部位、それぞれの断片のそれぞれのCpG部位の第1の特徴に整列する、第2の複数のパラメータの第2のパラメータを割り当てることを含むことができる。いくつかの実施形態において、それぞれのCpG部位の最初の特徴は、それぞれのCpG部位がオンであるそれぞれの断片の多重度である。いくつかの実施形態において、それぞれのCpG部位の第一の特徴は、本明細書中で記述される1つ以上の一般的な特徴、試験対象から引き出される1つ以上の一般的な特徴、5’および3’隣接CpG部位のメチル化状態に対するピアソンの相関スコア、Jaccard距離、Manhattan距離、正規化されたユークリッド距離、正規化された最大値、Dice係数、または癌コホートにおけるそれぞれのCpG部位のメチル化状態のコホートまたは本明細書中で記述される1つ以上の一般的な特徴を有する対象のコホートから引き出されるCpGβ値を含む、それぞれのCpG部位の断片p値、それぞれの断片の長さは、断片源であるそれぞれのCpG部位の断片マッピングの質スコアが5まで参照ゲノム中の’隣接CpG部位、参照ゲノム中の3’隣接CpG部位までの距離、それぞれのCpG部位が上にあるそれぞれの断片の多重性、それぞれのCpG部位が内にある遺伝的要素、それぞれのCpG部位が関連している生物学的経路、それぞれのCpG部位が関連している遺伝子、それぞれのCpG部位に対するCpG遷移インパルス機能の値、それぞれのCpG部位をコードするCpGランレングスの値、およびそれぞれのCpG部位が上にある断片のリードストランド配向。いくつかの実施形態において、複数の断片中の1つ以上の断片が、複数の断片が共通のCpG部位を持たないことを条件に、第1パッチにおける第1のチャネルの第1の複数のパラメータの単一インスタンスに割り当てられる。
【0020】
いくつかの実施形態において、最初の複数のパラメータのインスタンスにおけるパラメータはゼロで満たされる。いくつかの実施形態において、CpG部位の第1の独立セットは、参照ゲノムのCpGインデックスにある。いくつかのそのような実施形態において、参照ゲノムのCpGインデックスは、第2のCpG部位と第1の独立したCpG部位セットに存在する第1のCpG部位と第3のCpG部位との間の参照ゲノムに位置する、第1の独立したCpG部位セットには存在しない第1のCpG部位を含む。
【0021】
いくつかの実施形態において、CpG部位の第1の独立セットは、参照ゲノムのCpGインデックスにおいて互いに隣接している第1のCpG部位および第2のCpG部位を含む。複数の断片中の第一の断片は、第一のCpG部位を含むことができるが、第二のCpG部位を含まない。複数の断片中の第2の断片は、第2のCpG部位を含むことができるが、第1のCpG部位を含まない。
【0022】
いくつかの実施形態において、第1の複数のパラメータの例におけるパラメータは、複数の断片中のそれぞれの断片について:メチル化配列決定によってそれぞれの断片中の対応するCpG部位がメチル化されていると決定された場合にメチル化される、それぞれの断片中の対応するCpG部位がメチル化されていないとメチル化配列決定によって決定された場合にメチル化されない、および/またはメチル化配列決定によってそれぞれの断片中の対応するCpG部位がメチル化または非メチル化であると決定された場合にメチル化される。
【0023】
いくつかの実施形態において、第1チャネルの第1の複数のパラメータの多数の例は、それぞれのフラグメントを割り当てられておらず、少なくとも1つのプログラムは、フラグメントを割り当てられていない第1チャネルの複数のパラメータの例におけるゼロ充填パラメータの指示をさらに含んでいる。いくつかの実施形態において、少なくとも1つのプログラムが、第1のチャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいて、以前にメチル化状態が割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定することができない場合、少なくとも1つのプログラムは、それぞれの断片を廃棄するための指示をさらに含む。いくつかの実施形態において、少なくとも1つのプログラムが、第1パッチの第1のチャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいて、以前にメチル化状態が割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定することができない場合、少なくとも1つのプログラムは、第1パッチの追加インスタンスを作成し、第1パッチの追加インスタンスにそれぞれの断片を割り当てるための指示をさらに含む。
【0024】
いくつかの実施形態において、複数のチャネルは少なくとも3つのチャネルを含む。第1の複数のチャネルにおける第3のチャネルは、第1の複数のパラメータの各インスタンスに対する第3の複数のパラメータの対応するインスタンスを含むことができる。第3の複数のパラメータの各インスタンスは、第1の独立したCpG部位セットにおけるそれぞれのCpG部位の第2の特徴に関するパラメータを含み得る。第2の特徴は、本明細書中で記述される1つ以上の共通の特徴、試験対象から引き出される1つ以上の共通の特徴、試験対象におけるメチル化状態に対するピアソンの相関スコア、試験対象におけるそれぞれのCpG部位のメチル化状態に対するJaccard類似性、または本明細書中で記述される1つ以上の共通の特徴を有する対象のコホートから引き出されるCpGβ値、それぞれの断片の断片のp値、それぞれのCpG部位の断片マッピング品質スコア、参照ゲノムにおける5’隣接CpG部位までの距離、を含むことができる各CpG部位の多重度それぞれのCpG部位がオンであり、それぞれのCpG部位が生物学的経路内であり、それぞれのCpG部位が関連しており、それぞれのCpG部位が関連している遺伝子、それぞれのCpG部位に対するCpG遷移インパルス機能の値、それぞれのCpG部位をコードするCpGランレングスの値、およびそれぞれのCpG部位がオンである断片のリードストランド配向である。
【0025】
いくつかの実施形態において、CpG部位の第1の独立セットは、参照ゲノム全体から引き出される。いくつかの実施形態において、少なくとも1つのプログラムは、対応する第1のチャネルを含む第2のパッチを構築するための指示をさらに含む。2つ目のパッチは、その種の参照ゲノムにおける2つ目の独立したCpG部位のセットを表すことができる。CpG部位の第2の独立セットにおける各々のCpG部位は、参照ゲノム中の所定の位置に対応することができる。第2のパッチの対応する第1のチャネルは、第1の複数のパラメータの対応する複数のインスタンスを含むことができる。第2のパッチの第1のチャネルの対応する第1の複数のパラメータの各インスタンスは、第2のパッチのCpG部位の第2の独立したセットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含むことができる。少なくとも1つのプログラムは、さらに、CpG部位の第2の独立セットに並ぶ複数の断片中の各断片について、第2の断片のメチル化パターンに基づいて第2のパッチの第1の複数のパラメータのすべてまたは一部のインスタンスを、それぞれの断片のメチル化パターンに基づいて、第2のパッチを構築するための指示を含むことができる。指示は、さらに、第1および第2のパッチを分類器に適用することを含み、それにより、被験体中の癌状態を決定することができる。いくつかの実施形態において、第2パッチは、対応する第1チャネルを含む対応する複数のチャネルを含むことができる。第2パッチの対応する複数のチャネルにおける対応する第2のチャネルは、第1の複数のパラメータの各インスタンスに対する第2の複数のパラメータの対応するインスタンスを含むことができる。第2のパッチの第2の複数のパラメータの各インスタンスは、第2のパッチのCpG部位の第2の独立したセットにおけるそれぞれのCpG部位の第1の特徴、CpGメチル化状態以外のパラメータを含み得る。CpG部位の第2の独立セットに並ぶ複数の断片中のそれぞれの断片について、それをポピュレーションするための指示は、さらに、それぞれの断片のメチル化パターンに基づいて、第2のパッチの第2の複数のパラメータのインスタンスの全部または部分のインスタンスをポピュレーションすることができる。
【0026】
いくつかの実施形態において、第1の独立したCpG部位のセットは、第2の独立したCpG部位のセットと重複しない。いくつかの他のそのような実施形態において、第1の独立したCpG部位のセットは、第2の独立したCpG部位のセットと重複する。いくつかの実施形態において、第1のパッチは、第2のパッチと同じ大きさであるが異なる参照ゲノムの部分を表す。いくつかの他のそのような実施形態において、第1のパッチは参照ゲノムの第1の部分を表し、第2のパッチは参照ゲノムの第2の部分を表し、ここで、第1の部分のサイズは第2の部分のサイズとは異なる。いくつかの実施形態において、第1の独立したCpG部位のセットは第1の数のCpG部位を含み、第2の独立したCpG部位のセットは第2の数のCpG部位を含み、第1の数のCpG部位は第2の数のCpG部位と同じである。いくつかの他のそのような実施形態において、第1の独立したCpG部位のセットは第1の数のCpG部位を含み、第2の独立したCpG部位のセットは第2の数のCpG部位を含み、第1の数のCpG部位は第2の数のCpG部位とは異なる。
【0027】
いくつかの実施形態において、1以上の核酸試料のメチル化配列決定は、全ゲノムメチル化配列決定または複数の核酸プローブを用いる標的化DNAメチル化配列決定である。いくつかのそのような実施形態において、1以上の核酸試料のメチル化配列決定は、複数の核酸プローブを使用する。いくつかの実施形態において、1つ以上の核酸試料のメチル化配列決定は、1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)をそれぞれの断片中で検出する。本明細書に開示されているように、用語「メチル化」分析は、ヒドロキシメチル化を含むがこれに限定されない、メチル基を含む任意のタイプの修飾をカバーすることができる。
【0028】
いくつかの実施形態において、1以上の核酸試料のメチル化配列決定は、1以上の非メチル化シトシンまたは1以上のメチル化シトシンの、それぞれの断片における、対応する1以上のウラシルへの変換を含む。いくつかの実施形態において、1つまたは複数のウラシルは、メチル化配列決定の間に1つまたは複数の対応するチミンとして検出される。いくつかの他のそのような実施形態において、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換は、化学変換、酵素変換、またはそれらの組合せを含む。
【0029】
いくつかの実施形態において、少なくとも1つのプログラムは、第1のパッチを含む複数のパッチを構築するための指示をさらに含んでおり、それぞれのパッチは、参照ゲノムにおける異なる独立したCpG部位のセットについてである。第1パッチを構築することは、さらに、第1パッチを含む複数のパッチを構築することを含むことができる。分類器は、1つ以上の訓練された第1段階モデル(例えば、すべてのパッチのための単一の第1段階モデル、またはそれぞれがパッチに対応する複数の訓練された第1段階モデル)と、第2段階モデルとを含むことができる。少なくとも最初のパッチを分類器に適用することは、複数の特徴要素を含む特徴ベクトルを得ることを含むことができる。複数の特徴要素における各特徴要素は、対応する訓練された第一段階モデルへの複数のパッチにおけるそれぞれのパッチの適用に際して、複数の訓練された第一段階モデルにおける対応する訓練された第一段階モデルの出力であり得る。指示は、さらに、第2段階モデルに特徴ベクトルを適用することを含み、それにより、被験体中の癌状態を決定することができる。いくつかの実施形態において、複数の訓練された第一段階モデルにおけるそれぞれの訓練された第一段階モデルは、対応する訓練された回帰ニューラルネットワークであり、第二段階モデルはロジスティック回帰モデルである。いくつかの実施形態において、第2段階モデルは、2値分類アルゴリズムまたは多項分類アルゴリズム(例えば、起源組織を分類するための)であり得る。いくつかの実施形態において、第2段階分類アルゴリズムは、勾配ブースティングアルゴリズム、決定木アルゴリズム、ランダムフォレストアルゴリズム、K近傍アルゴリズム、ガウスNBアルゴリズム、深部ニューラルネットワークアルゴリズム、またはそれらの任意の組合せに基づくことができる。
【0030】
第1パッチの第1チャネルは、第1次元を形成する第1パッチの第1の複数のパラメータの複数の例のそれぞれを有する2次元であり、第2次元を形成する第1パッチの第1の複数のパラメータの第1次元であることができる。いくつかの実施形態において、複数のパッチは、10のパッチから10000のパッチの間である。いくつかの他のそのような実施形態において、複数のパッチは、100パッチから3000パッチの間である。
【0031】
いくつかの実施形態において、分類器は、複数の第一段階モデルおよび動的ニューラルネットワークを含む。少なくとも1つのプログラムは、参照ゲノム中の異なるCpG部位のセットについてのそれぞれのパッチである、最初のパッチを含む複数のパッチを構築するための指示をさらに含むことができる。複数のパッチを構築すれば、最初のパッチを含むそれぞれのパッチを構築することができる。少なくとも第1のパッチを分類器に適用することは、複数の第1段階モデルにおいて、複数のパッチ中の各パッチを対応する第1段階モデルに適用することを含むことができる。対応する第1段階モデルは、それぞれのパッチを受け取るためのそれぞれの入力層を含むことができ、ここで、それぞれのパッチは最初の数の次元を含む。対応する第一段階モデルは、対応するウェイトのセットを含むそれぞれの完全に連結された包埋層をさらに含むことができる。それぞれの完全に連結された包埋層は、直接または間接的にそれぞれの入力層の出力を受け取ることができる。それぞれの埋め込み層のそれぞれの出力は、第1の寸法数よりも少ない第2の寸法数とすることができる。対応する第一段階モデルは、さらに、それぞれの完全に連結された包埋層から直接または間接的に出力を受け取る、それぞれの出力層を含むことができる。少なくとも第1のパッチを分類器に適用することは、さらに、複数の第1段階モデルにおける各訓練された第1段階モデルのそれぞれの完全に連結された包埋層からのそれぞれの出力の集合を、動的ニューラルネットワークに入力することを含み、それによって、被験体における癌状態を決定することができる。いくつかのそのような実施形態では、複数の第1段階モデルにおける各第1段階モデルのそれぞれの埋め込み層のそれぞれの出力は、32~1048の値のセットを含むことができる。いくつかのさらなる実施形態において、少なくとも1つのプログラムは、被験者のコホートを用いて、複数の第一段階モデルおよび動的ニューラルネットワークを訓練するための指示をさらに含む。いくつかのそのような実施形態において、被験体のコホートは、がん状態についての第一の標識を有する第一の被験体サブセット、およびがん状態についての第二の標識を有する第二の被験体サブセットを含む。いくつかの実施形態において、単一の第一段階モデルは、サンプルのグループを横切ってサンプル当たり複数のパッチ上で訓練される(例えば、サンプルは、既知の癌状態を有する対象を訓練するグループから得られる)。
【0032】
次に、訓練された第一段階モデルを、未知の状態の被験体からの試験サンプルからのデータの配列決定に適用して、各パッチから特徴要素を抽出することができる。例えば、配列決定データは、トレーニングに使用される同じパッチのセットに従って処理することができる(例えば、パッチ530-1、パッチ530-2、全てパッチ530-Kを介する)。次に、単一の第一段階モデルを各パッチに適用することができる(例えば、
図7Aの訓練されたモデル1、訓練されたモデル2、・・・、および訓練されたモデルKは、実際には同じ訓練されたモデルである)。これは、訓練対象のグループからの配列決定データを使用して、それぞれのパッチ(例えば、特徴要素1、特徴要素2、・・・および特徴要素K)から特徴および/または特徴要素を別々に抽出するためである。いくつかの実施形態において、混合アプローチをとることができる。特に、複数の第一段階モデルを訓練し、さらなるサンプルレベルの分類のための特徴および/または特徴要素を得るために使用することができる。例えば、複数のパッチを使用して、サンプルのグループを横切ってサンプル当たりの共通の第一段階モデルを訓練することができる(例えば、サンプルは既知の癌状態を有する被験者の訓練グループから得られる)。同じ共通の第一段階モデルを、被験体からの試料の配列決定データに基づいて対応するパッチに適用して、被験体から特徴および/または特徴要素を抽出することができる。他の実施形態では、単一の第一段階モデルは、サンプルの群を横切ってサンプル当たり単一のパッチで訓練される(例えば、サンプルは、既知の癌状態を有する対象を訓練する群から得られる)。例えば、データセットが10000のサンプルを有する場合、サンプル当たり単一パッチについて訓練されたモデルは10000回訓練され得る。次いで、特定の第1段階モデルを、被験体から特徴および/または特徴要素を抽出するために、被験体からの対応するパッチに適用することができる。次に、この特定の被験体について検査される全てのパッチからの特徴および/または特徴要素を、サンプルレベル分類を行うために使用することができる。例えば、
図7Aに図示されているように、
図7Aの訓練されたモデル1と訓練されたモデル2は同じであり得るが、訓練されたモデルKはパッチ530-Kに特異的であり得る)。共有モデルはパッチ530-1および530-2から特徴要素を抽出するのに使用でき、個別モデルはパッチ530-Kから特徴要素を抽出するのに使用できる。訓練される第一段階モデルの数にかかわらず、分類のために同じ数の特徴要素を標本レベル分類器に提示することができる。
【0033】
いくつかのさらなる実施形態において、トレーニングのための指示は、被験者のコホートを、癌の状態、年齢、喫煙状態、または性別の任意の組み合わせに基づいて、複数のグループに無作為に層別化することを含む。トレーニングのための指示は、さらに、複数のモデルおよび動的ニューラルネットワークをトレーニング群に対してトレーニングするための試験群として、複数の群の中の第一の群をトレーニング群として、および複数の群の残りを使用することを含むことができる。訓練のための指示は、さらに、複数の群の中の各群が反復において訓練群として使用されるように、訓練群および試験群のための群を、複数の群の中の各群について使用することを繰り返すことを含むことができる。訓練のための指示は、さらに、分類器の性能基準が満たされるまで、層別化、グループを使用すること、および反復を繰り返すことを含むことができる。いくつかのさらなる実施形態において、癌状態は組織起源であり、被験者のコホートにおける各被験体は、起源の組織で標識される。いくつかのさらなる実施形態において、コホートは、直腸肛門癌、膀胱癌、乳癌、子宮頸癌、結腸直腸癌、頭頸部癌、肝胆道癌、子宮内膜癌、腎臓癌、白血病、肝臓癌、肺癌、リンパ性新生物、黒色腫、多発性骨髄腫、骨髄性新生物、卵巣癌、非ホジキンリンパ腫、膵臓癌、前立腺癌、腎臓癌、甲状腺癌、上部消化管癌、尿路上皮癌、または子宮癌を有する被験体を含む。
【0034】
いくつかのさらなる実施形態において、癌状態は、肛門直腸癌の段階、膀胱癌の段階、乳癌の段階、子宮頸癌の段階、結腸直腸癌の段階、結腸直腸癌の段階、頭頸部癌の段階、肝胆道癌の段階、子宮内膜癌の段階、腎臓癌の段階、白血病の段階、肝臓癌の段階、肺癌の段階、リンパ系新生物の段階、メラノーマの段階、多発性骨髄腫の段階、骨髄性新生物の段階、卵巣癌の段階、非ホジキンリンパ腫の段階、膵臓癌の段階、前立腺癌の段階、腎臓癌の段階、甲状腺癌の段階、上部消化管癌の段階、尿路上皮癌の段階、または子宮癌の段階である。そのような実施形態のいくつかでは、がんの状態は、被験体ががんを有するか否かであり、被験体のコホートを層別化することにより、複数のグループにおける各グループが、がんを有し、かつがんを有さない被験体の数が等しいことを保証する。
【0035】
いくつかのこのような実施形態において、トレーニングは、トレーニング中に、複数のパッチ中の各パッチのそれぞれの出力層によって提供される値に基づいて、L1またはL2規則化を用いて、複数のパッチ中の1つ以上のパッチを除去する。いくつかの実施形態において、最初の複数のパラメータの複数の例は、24から2048の間である。いくつかの実施形態において、第1の複数のパラメータの複数の例における多数の例は、複数の断片の予想読取り深さに加えて、複数の断片を横切る1つの標準偏差に基づいて決定される。いくつかの実施形態において、構築パッチは、それぞれのp値または参照ゲノムにおけるそれらの開始位置に基づいて、第1パッチに割り当てられたそれぞれの断片をさらに仕分けることを含む。
【0036】
いくつかの実施形態において、少なくとも1つのプログラムは、複数のCpGメチル化パターンの評価を通して、第1パッチの第1の独立したCpG部位の第1のセットを選択するための指示をさらに含む。複数のCpGメチル化パターンは、複数の臨床被験体を含む臨床コホートから得られた複数の臨床生物学的試料の複数の臨床核酸試料から得られた複数の臨床断片のメチル化配列決定によって決定することができる。複数の臨床被験体は、癌状態に対する第1の適応を有する第1のセットの臨床被験体、および癌状態に対する第2の適応を有する第2のセットの臨床被験体を含むことができる。
【0037】
いくつかのそのような実施形態において、CpG部位のセットを選択するための指示は、臨床被験者の第1セットと第2セットの臨床被験者の間の複数のCpG部位における各CpG部位のメチル化状態についてのそれぞれの第1の相互情報スコアに基づいて、参照ゲノム中の複数のCpG部位の第1の順位を決定することを含む。指示書は、ランキングを用いて、最初のパッチについて、対応する独立したCpG部位のセットについて、第1の閾値数のCpG部位を選択することをさらに含むことができる。いくつかのさらなる実施形態において、複数の臨床被験体は、癌状態に対する第3の適応を有する第3の臨床被験体セット、および癌状態に対する第4の適応を有する第4の臨床被験体セットを含む。いくつかのこのような実施形態において、選択するための指示は、さらに、臨床被験者の第3のセットと臨床被験者の第4のセットとの間の、複数のCpG部位における各CpG部位のメチル化状態について、それぞれの第2の相互情報スコアに基づいて、参照ゲノム中の複数のCpG部位の第2の順位を決定することを含む。指示書は、第2ランキングを使用して、第1パッチの第1の独立したCpG部位の第1のセットについて、第2の閾値数のCpG部位を選択することをさらに含むことができる。いくつかのそのような実施形態において、パッチを構築することは、さらに、それぞれの第1または第2の相互情報スコアに基づいて、第1のパッチに割り当てられたそれぞれの断片を仕分けることを含む。いくつかのそのような実施形態において、癌状態に対する第1の適応は第1の癌タイプであり、癌状態に対する第2の適応は第2の癌タイプである。いくつかのそのような実施形態において、第一パッチの第一の独立したCpG部位の第一のセットについてのCpG部位の第一閾値数における各CpG部位は、閾値数の残基によるCpG部位の第一の閾値数における全ての他のCpG部位からの参照ゲノム中にパッドされる。
【0038】
いくつかのそのような実施形態において、CpG部位のセットを選択するための指示は、さらに、臨床被験者の第1セットと臨床被験者の第2セットとの間の複数の固定長領域における各固定長領域のCpG部位メチル化パターンのメチル化状態に関するそれぞれの第1の相互情報スコアに基づいて、参照ゲノム中の複数の固定長領域の第1ランキングを決定することを含む。選択するための指示は、第1のランキングを用いて、複数の固定長領域におけるそれらの固定長領域から、第1のパッチの第1の独立したCpG部位の第1の閾値数のCpG部位を選択することをさらに含むことができる。いくつかのさらなる実施形態において、複数の臨床被験体は、癌状態に対する第3の適応を有する第3の臨床被験体セット、および癌状態に対する第4の適応を有する第4の臨床被験体セットを含む。選択するための指示は、さらに、臨床被験体の第3のセットと臨床被験体の第4のセットとの間の、複数の固定長領域における各固定長領域のCpG部位メチル化パターンのメチル化状態に関するそれぞれの第2の相互情報スコアに基づいて、参照ゲノム中の複数の固定長領域の第2の順位を決定することを含むことができる。選択のための指示は、さらに、第2のランキングを用いて、第1のパッチの第1の独立したCpG部位のセットについて、第2の閾値数のCpG部位を選択することを含むことができる。いくつかのそのような実施形態において、パッチを構築することは、さらに、それぞれの第1または第2の相互情報スコアに基づいて、第1のパッチに割り当てられたそれぞれの断片を仕分けることを含む。いくつかの実施形態において、1以上の核酸試料は無細胞核酸試料である。
【0039】
本開示の別の局面は、種の被験体の癌状態を決定するためのコンピュータシステムを提供する。本明細書に開示されたいずれの方法も、癌状態以外の疾患状態(例えば、遺伝性障害)を決定するために使用することができる。この態様では、コンピュータシステムは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによる実行のための少なくとも1つのプログラムを記憶するメモリとを備える。少なくとも1つのプログラムは、電子形式でデータセットを取得するための指示を含むことができる。データセットは、複数の断片におけるそれぞれの断片の対応するメチル化パターンを含むことができる。それぞれの断片の対応するメチル化パターンは、試験対象から得られた生物学的試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定することができ、それぞれの断片中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。この局面において、少なくとも1つのプログラムは、第1のチャネルを含む第1のパッチを構築するための指示をさらに含む。最初のパッチは、その種の参照ゲノムにおける最初の独立したCpG部位のセットを表すことができる。CpG部位の最初の独立セットにおける各々のCpG部位は、参照ゲノム中の所定の位置に対応することができる。第1のパッチの第1のチャネルは、第1の複数のパラメータの複数のインスタンスを含むことができ、第1の複数のパラメータの各インスタンスは、第1のパッチのCpG部位の第1の独立したセットにおける、それぞれのCpG部位のメチル化状態に関するパラメータを含む。第1のパッチを構築することは、CpG部位の第1の独立セットに並ぶ複数の断片中の各断片について、それぞれの断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部のインスタンスをポピュレーションすることを含むことができる。この局面において、少なくとも1つのプログラムは、少なくとも最初のパッチを分類器に適用するための指示をさらに含み、それにより、被験体中の癌状態を決定する。
【0040】
本開示の別の局面は、コード指示を保存するプログラムを非一過性のコンピュータ読取可能な保存媒体を提供し、それは、処理装置によって実行される場合、種の被験体の癌状態を決定する方法を処理装置に引き起こす。この方法は、電子形式でデータセットを得ることを含むことができる。データセットは、複数の断片におけるそれぞれの断片の対応するメチル化パターンを含むことができる。それぞれの断片の対応するメチル化パターンは、試験対象から得られた生物学的試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定することができ、それぞれの断片中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態を含む。この局面において、この方法は、第一のチャネルを含む第一のパッチをさらに構築することを含む。最初のパッチは、その種の参照ゲノムにおける最初の独立したCpG部位のセットを表すことができる。CpG部位の最初の独立セットにおける各々のCpG部位は、参照ゲノム中の所定の位置に対応することができる。第1のパッチの第1のチャネルは、第1の複数のパラメータの複数のインスタンスを含むことができ、第1の複数のパラメータの各インスタンスは、第1のパッチのCpG部位の第1の独立したセットにおける、それぞれのCpG部位のメチル化状態に関するパラメータを含む。第1のパッチを構築することは、CpG部位の第1の独立セットに並ぶ複数の断片中の各断片について、それぞれの断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部のインスタンスをポピュレーションすることを含むことができる。この局面において、この方法はさらに、分類器に少なくとも第1のパッチを適用することを含み、それにより、被験体における癌状態を決定する。
【0041】
本開示の別の局面は、種の被験体の癌状態を決定する方法を提供する。この態様では、本方法は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサによって実行されるための少なくとも1つのプログラムを記憶するメモリと、を備えるコンピュータシステムが提供される。少なくとも1つのプログラムは、電子形態でデータセットを得るための指示を含むことができ、ここで、データセットは、複数の断片におけるそれぞれの断片の対応するメチル化パターンを含む。それぞれの断片の対応するメチル化パターンは、試験対象から得られた生体試料中のそれぞれの断片の1つ以上の核酸試料のメチル化配列決定によって決定することができ、それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態を含むことができる。
【0042】
この局面において、少なくとも1つのプログラムは、複数のパッチを得るための指示をさらに含み、ここで、複数のパッチにおけるそれぞれのパッチは、第1のチャネルを含み、種の参照ゲノムにおける対応する独立したCpG部位のセットを表す。CpG部位の対応する独立セット中の各CpG部位は、参照ゲノム中の所定の位置に対応することができる。それぞれのパッチの第一のチャネルは、第一の複数のパラメータの複数の例を含むことができ、ここで、第一の複数のパラメータの各例は、それぞれのパッチに対するCpG部位の対応する独立セットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含む。
【0043】
この局面において、少なくとも1つのプログラムは、それぞれの断片のCpG部位と単一のそれぞれのパッチのCpG部位の対応する独立セットとの一致に基づいて、複数の断片中のそれぞれの断片のすべてまたは一部を、複数のパッチ中のそれぞれのパッチに割り当てるための指示をさらに含むことができる。この局面において、少なくとも1つのプログラムは、さらに、複数のモデルにおいて対応する訓練されたモデルに、複数のパッチ中の各パッチを適用するための指示を含み、それにより、被験体中の癌状態を決定する。
【0044】
本開示の別の局面は、少なくとも1つの処理装置および少なくとも1つの処理装置による実行のための少なくとも1つのプログラムを保存する記憶を含む種の被験体の癌状態を決定するためのコンピュータシステムを提供する。少なくとも1つのプログラムは、データセットを得るための指示を含むことができ、ここで、データセットは、複数の断片においてそれぞれの断片の対応するメチル化パターンを含む。それぞれの断片の対応するメチル化パターンは、試験対象から得られた生体試料中のそれぞれの断片の1つ以上の核酸試料のメチル化配列決定によって決定することができ、それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態を含むことができる。この局面において、少なくとも1つのプログラムはさらに、複数のパッチを得るための指示を含むことができ、ここで、複数のパッチ中の各パッチは、第1のチャネルを含み、種の参照ゲノム中の対応する独立したCpG部位のセットを表す。CpG部位の対応する独立セット中の各CpG部位は、参照ゲノム中の所定の位置に対応することができ、そして、それぞれのパッチの第1のチャネルは、第1の複数のパラメータの複数の例を含むことができる。最初の複数のパラメータの各インスタンスは、それぞれのパッチに対するCpG部位の対応する独立セットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含むことができる。
【0045】
この局面において、少なくとも1つのプログラムは、それぞれの断片のCpG部位と単一のそれぞれのパッチのCpG部位の対応する独立セットとの一致に基づいて、複数の断片中のそれぞれの断片のすべてまたは一部を、複数のパッチ中のそれぞれのパッチに割り当てることをさらに含むことができる。この局面において、少なくとも1つのプログラムは、さらに、複数のモデルにおいて対応する訓練されたモデルに、複数のパッチ内の各パッチを適用することを含み、それにより、被験体における癌状態を決定する。
【0046】
本開示の別の局面は、コード指示を保存するプログラムを非一過性のコンピュータ読取可能な保存媒体を提供し、それは、処理装置によって実行される場合、種の被験体の癌状態を決定する方法を処理装置に引き起こす。この方法は、データセットを電子形式で得ることを含むことができ、そこでは、データセットは、複数の断片においてそれぞれの断片の対応するメチル化パターンを含む。それぞれの断片の対応するメチル化パターンは、試験対象から得られた生体試料中のそれぞれの断片の1つ以上の核酸試料のメチル化配列決定によって決定することができ、それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態を含む。
【0047】
この局面において、この方法はさらに、複数のパッチを得ることを含み、ここで、複数のパッチにおけるそれぞれのパッチは、第一のチャネルを含み、そして種の参照ゲノムにおける対応する独立したCpG部位のセットを表す。CpG部位の対応する独立セット中の各CpG部位は、参照ゲノム中の所定の位置に対応することができる。それぞれのパッチの第一のチャネルは、第一の複数のパラメータの複数のインスタンスを含み得、第一の複数のパラメータの各インスタンスは、それぞれのパッチのCpG部位の対応する独立セットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含むことができる。
【0048】
この局面において、この方法は、さらに、それぞれの断片のCpG部位と単一のそれぞれのパッチのCpG部位の対応する独立セットとの一致に基づいて、複数の断片中のそれぞれの断片のすべてまたは一部を、複数のパッチ中のそれぞれのパッチに割り当てることを含む。この局面において、この方法は、さらに、複数のモデルにおいて対応する訓練されたモデルに、複数のパッチ中のそれぞれのパッチを適用することを含み、それにより、被験体におけるがん状態を決定する。
【0049】
別の局面において、種の被験体のがん状態を決定する方法は、1つ以上のトレーニング被験体から1つ以上のトレーニングデータセットを得ること、トレーニングデータセットは、1つ以上のトレーニング被験体から1つ以上のトレーニング被験体中の複数のトレーニングメチル化パターン、および1つ以上のトレーニングメチル化パターンに関連する1つ以上の所定のがん状態から得られる1つ以上のトレーニングメチル化パターン、および1つ以上のトレーニングメチル化パターンに関連する1つ以上の所定のがん状態から得られる1つ以上のトレーニングメチル化パターン、トレーニングデータセットを経て、トレーニングデータセットを構築すること、トレーニングデータセットを構築すること、トレーニングデータセットは、1つ以上のプロセスを経て、トレーニングデータセットに基づく1つ以上のパッチ、トレーニングデータセットを構築すること、1つ以上のプロセスを経て、1つ以上のチャネルを経て、1つ以上のパッチ、およびトレーニングデータセットが1つ以上の被験体からのテストデータセットを含む被験体から得られた1以上の生物学的試料において複数の断片のメチル化パターンを試験すること;および1以上の処理器を介して、試験データセットおよび計算モデルに基づいて、被験体のがん状態を決定すること。
【0050】
他の実施形態は、本明細書に記載される方法に関連するシステム、携帯消費者装置、およびコンピュータ可読媒体に向けられる。本明細書に開示されているように、適用可能な場合に本明細書に開示される任意の実施形態を任意の局面に適用することができる。
【0051】
本開示のさらなる局面および利点は、本開示の例示的な実施形態のみが示され、記載される以下の詳細な記述から、当業者に容易に明らかになるであろう。実現されるであろうが、本開示は、他のおよび異なる実施形態が可能であり、そのいくつかの詳細は、全て開示から逸脱することなく、様々な明白な点で改変することが可能である。よって、図面は実際の説明のためのものであり、限定するものではない。
【参考品混入】
【0052】
ここに記載されているすべての出版物、特許、特許申請は、その全体の中に参考文献によって組み込まれている。ここに記載する用語と組み込まれた参考文献中の用語との間に対立が生じた場合、ここに記載する用語は制御する。
【図面の簡単な説明】
【0053】
ここに開示された実装は、例によって示されており、限定的なものではないが、添付図の図に示されている。同様の参照番号は、図面のいくつかの図の全体を通じて対応する部分を指す。
【
図1】本開示の1以上の実施形態によれば、メチル化状態ベクターを得るために無細胞(cf)DNAの断片を配列決定するプロセスを記述する例示的なフローチャートである。
【
図2】本開示の1以上の実施形態による、メチル化状態ベクターを得るためにcfDNAの断片を配列決定する、
図1のプロセスの例である。
【
図3】本開示の1以上の実施形態による、p値に基づく複数の断片からそれぞれの断片を除去する例示的な方法を例示する。
【
図4】本開示の1以上の実施形態による、分類子を含む例示的なメチル化パターンパイプラインを例示する。
【
図5A】本開示の1以上の実施形態による、種の被験体の疾患状態を決定するための例示的なシステムを例示する。
【
図5B】本開示の1以上の実施形態による、種の被験体の疾患状態を決定するための例示的な処理システムを例示する。
【
図6】
図6A~
図6Nは、本開示の1以上の実施形態による例示的なパッチを例示する。
【
図7】
図7Aおよび
図7Bは、本開示の1以上の実施形態による例示的なパッチ分類子を例示する。
【
図8】
図8Aおよび
図8Bは、本開示の1以上の実施形態による種の被験体の癌状態を決定するための例示的な方法を提供する。
【
図9A】本開示の1以上の実施形態による、パッチCNN分類子に使用される例示的ゲノム領域を例示する。
【
図9B】本開示の1以上の実施形態による、パッチCNN分類子において使用される例示的な癌タイプを例示する。
【
図9C】本開示の1以上の実施形態による、パッチCNN分類器の性能の例を示す。
【
図10A】本開示の1以上の実施形態によれば、癌を検出するための99%の特異性(全ての癌タイプおよびステージにわたって)において53%の感度(正確度)が達成されたデータセットを用いたパッチCNN分類器の性能の例を示す。
【
図10B】全ての癌タイプにわたるバイナリー設定におけるパッチCNN分類器の感度の例を示しており、この場合、分類器はcfDNA試料のCCGA1トレーニングに関して、98%の特異度で88.00%の感度、99%の特異度で74.36%の感度、および99.5%の特異度で44.23%の感度を示す。
【
図11】各パッチから包埋値(アクティベーション)を取得し、Isomapクラスタリングを用いてそれらをクラスタリングする例を例示し、異なる癌標識がIsomapの異なる領域にクラスタリングすることを示し、包埋値が本開示の1つまたは複数の実施形態に従って癌タイプを識別することを示す。
【
図12】本開示の1以上の実施形態による、サンプルの集合にわたる分類器の544パッチの包埋層の活性化の頻度の例を示す。
【
図13】本開示の1以上の実施形態による、サンプルの集合にわたる分類器の上位6つの活性化されたパッチの包埋値(活性化)のt-SNEクラスタリングの例を例示する。図は右端のパッチだけで、いくつかの異なる癌種を識別できることを示している。
【
図14】本開示の1以上の実施形態による、サンプルの集合を横切る分類器の上位3つの活性化されたパッチの包埋値(活性化)のt-SNEクラスタリングの例を例示する。
【
図15】本開示の1以上の実施形態による、パッチ-CNNアーキテクチャを用いた分類性能の例示的な結果を例示する。
【
図16】各ドットがCCGA2からの被験体を表し、分類器が被験体がy軸上で指定された癌のタイプを有する確率を提供する、本開示の1以上の実施形態による高信号癌タイプによるパッチベースの分類器の性能の例を例示する。
【
図17A】図に例示される各癌タイプの被験体を含む被験体のコホートにおける全4段階にわたってTOO精度の80%超を示す、本開示の1以上の実施形態による分類器のための組織のための例示的な混乱マトリックス分析を例示する。不確定状態のサンプルを分析に含める。
【
図17B】図に例示される各癌タイプの被験体を含む被験体のコホートにおける全4段階にわたるTOO正確度のほぼ90%を示す、本開示の1以上の実施形態による分類器のための組織のための別の例示的な混乱マトリックス分析を例示する。不確定状態のサンプルは分析から除外する。
【
図18】本開示の1以上の実施形態によるメチル化パターンに対するp値の例示的な計算を例示する。
【
図19】本開示の1以上の実施形態によれば、被験体の疾患状態を決定するようにプログラムされているかまたは他の方法で構成されている例示的なコンピュータシステム1901を例示する。
【詳細な記述】
【0054】
ここでは、その例を添付の図に図示した実施形態について詳しく言及する。以下の詳細な説明では、本開示に関する十分な理解を提供するために、多数の具体的な詳細が示されている。しかしながら、本開示がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の例では、周知の方法、手順、構成要素、回路、およびネットワークは、実施形態の局面を不必要に不明瞭にしないように詳細に記載されていない。
【0055】
I.概要
【0056】
標的メチル化アッセイは、生物学的試料の分類のためのコンピュータ処理可能なシステムおよび方法の基礎を提供することができる。例えば、メチル化配列決定(例えば、約2800万のCpG部位)を用いて、限定されたサブセットのDNA配列決定塩基読取り(例えば、ヒト細胞において約30億)を得ることができる。このようなCpG部位は、特定の機能を調整する、または生物学的試料中の細胞を特殊化させる(例えば、とりわけ、脳細胞、肺細胞、腎臓細胞、および/または皮膚細胞)バイナリー「スイッチ」として機能し得る。メチル化基の調節は、癌の検出のための分子マーカーとしてさらに特徴づけることができる。さらに、CpG部位は細胞の特殊化に役割を果たしているので、それらのメチル化パターンは特定の細胞サンプルおよび/またはDNA断片の起源(例えば起源の組織)を予測するために用いることができる。したがって、CpG部位の使用は、生物学的試料の分類および特徴付けのためのDNA塩基読取りよりも明確な利点を提供することができる。
【0057】
核酸試料のメチル化配列決定およびパッチ回帰ニューラルネットワークを用いて、被験体の癌状態を検出および分類するためのシステムおよび方法を提供することができる。メチル化配列決定によって決定された断片のメチル化パターンを含むデータセットを得ることができ、ここで、メチル化パターンは、それぞれの断片中の複数のCpG部位における各CpG部位のメチル化状態を含む。最初のパッチは、データセットに基づいて構成できる。第1のパッチは、被験体種の参照ゲノムにおけるCpG部位の第1の独立セットを表すことができ、それぞれのCpG部位のメチル化状態についての第1の複数のパラメータの複数の例を含む第1のチャネルを含む。第1のパッチは、CpG部位の第1の独立セットに並ぶ各々の断片について、断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部のインスタンスをポピュレーションすることによって構築することができる。被験者における癌の状態は、少なくとも最初のパッチを分類器に適用することによって決定することができる。被験体由来のCfDNA断片を処理して、非メチル化シトシンをウラシルに変換し、配列決定し、配列リードを参照ゲノムと比較して、断片内の1以上のCpG部位におけるメチル化状態を同定することができる。異常にメチル化されたcfDNA断片の同定は、健常被験体と比較して、被験体の癌状態に対する洞察を提供することができる。DNAメチル化異常は(健常対照者と比較して)異なる影響を引き起こす可能性があり、これががんの一因となっている可能性がある。異常にメチル化されたcfDNA断片の同定には様々な課題が生じうる。第一に、異常にメチル化される1つ以上のcfDNA断片を決定することは、正常にメチル化されていると想定される断片を有する対照被験体群と比較して、重量を保持することができる。さらに、対照被験体群の中で、メチル化状態は変化し得るので、被験体のcfDNAが異常にメチル化されているかどうかを評価する際には、これを説明することが困難であり得る。また、CpG部位におけるシトシンのメチル化は、後続のCpG部位におけるメチル化に因果的に影響を及ぼしうる。
【0058】
シトシン塩基のピリミジン環の水素原子がメチル基に変換され、5メチルシトシンが生成すると、デオキシリボ核酸(DNA)でメチル化が起こりうる。特に、メチル化は、シトシンおよびグアニンのジヌクレオチドにおいて、本明細書で「CpG部位」と称されることがある。メチル化は、まれではあるが、CpG部位の一部ではないシトシンにおいて、またはシトシンではない別のヌクレオチドにおいて起こり得る。異常なcfDNA断片のメチル化は、さらに、高メチル化または低メチル化として同定されることがあり、その両方が癌の状態を示すことがある。
【0059】
ここに記載の原理は、非シトシンメチル化を含む非CpG文脈におけるメチル化の検出に等しく適用可能である。メチル化を検出するために使用されるウェットラボアッセイは、本明細書に記載されているものとは異なる可能性がある。さらに、メチル化状態ベクターは、(それらの部位がCpG部位でなくても、特異的に)メチル化が起こっているか起こっていない部位のベクターである一般的なエレメントを含み得る。その置換により、本明細書に記載されているプロセスの残りは同じであり得、その結果として、本明細書に記載されている発明の概念は、それらの他の形態のメチル化に適用可能であり得る。
【0060】
II.定義
【0061】
本明細書中で使用される場合、用語「約」または「ほぼ」は、当業者によって決定される特定の値に対する許容可能な誤差範囲内を意味することができ、これは、値がどのように測定または決定されるか、例えば、測定システムの限界に部分的に依存し得る。例えば、「約」は、当該技術分野における実施ごとに、1以上の標準偏差の範囲内であることができる。「約」は、与えられた値の±20%、±10%、±5%、または±1%の範囲を意味することができる。「約」または「ほぼ」という用語は、値の1桁以内、5倍以内、または2倍以内を意味することができる。申請書に特定の値を記載する場合、特に記載のない限り、特定の値に対して許容できる誤差範囲内にある意味を「約」とする用語を想定すべきである。用語「約」は、当業者が一般的に理解するような意味を有することができる。用語「約」は±10%を指すことができる。用語「約」は±5%を指すことができる。
【0062】
本明細書中で使用される「アッセイ」という用語は、物質の特性、例えば核酸、タンパク質、細胞、組織、または器官を決定するための技術を意味する。アッセイ(例えば、第1のアッセイまたは第2のアッセイ)は、試料中の核酸のコピー数変動、試料中の核酸のメチル化状態、試料中の核酸の断片サイズ分布、試料中の核酸の突然変異状態、または試料中の核酸の断片化パターンを決定するための技術を含むことができる。任意のアッセイを用いて、本明細書に言及される核酸の特性のいずれかを検出することができる。核酸の特性は、配列、ゲノム同一性、コピー数、1以上のヌクレオチド位置におけるメチル化状態、核酸のサイズ、1以上のヌクレオチド位置における核酸における突然変異の有無、および核酸の断片化のパターン(例えば、核酸断片が存在するヌクレオチド位置)を含み得る。アッセイまたは方法は、特定の感度および/または特異性を有することができ、診断ツールとしてのそれらの相対的有用性は、ROC-AUC統計を用いて測定することができる。
【0063】
本明細書中で使用される場合、用語「生物学的試料」、「患者試料」および「試料」は互換的に使用され、被験体に関連する生物学的状態を反映しうる被験体から採取された任意の試料を指す。いくつかの実施形態において、このような試料は、無細胞DNAなどの無細胞核酸を含む。いくつかの実施形態において、そのようなサンプルは、無細胞核酸以外の核酸を含むか、またはそれに加えている。生物学的試料の例は、限定されるわけではないが、対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心膜液、または腹膜液を含む。いくつかの実施形態において、生体試料は、被験体の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心膜液、または腹膜液からなる。このような実施形態では、生物学的試料は、対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙液、胸膜液、心膜液、または腹膜液に限定され、対象の他の成分(例えば、固形組織など)を含まない。生体試料は、生きているまたは死んだ被験体に由来する任意の組織または物質を含み得る。生体試料は無細胞試料とすることができる。生物学的試料は、核酸(例えば、DNAまたはRNA)またはその断片を含み得る。用語「核酸」は、デオキシリボ核酸(DNA)、リボ核酸(RNA)またはその任意のハイブリッドもしくは断片を指すことができる。試料中の核酸は、無細胞核酸であり得る。サンプルは、液体サンプルまたは固体サンプル(例えば、細胞または組織サンプル)であり得る。生体試料は、血液、血漿、血清、尿、膣液、陰嚢水腫由来の体液(例えば、精巣の体液)、膣洗浄液、胸水、腹水、脳脊髄液、唾液、汗、涙液、喀痰、気管支肺胞洗浄液、乳頭からの分泌液、身体の異なる部分(例えば、甲状腺、乳房)からの吸引液などの体液であり得る。生体試料は便試料となりうる。様々な実施態様において、無細胞DNA(例えば、遠心プロトコルを介して得られた血漿試料)について濃縮されている生物学的試料中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%超、60%、70%、80%、90%、95%、または99%超は無細胞であり得る)。生物学的試料を処理して、組織または細胞構造を物理的に破壊することができ(例えば、遠心分離および/または細胞溶解)、したがって、分析のための試料の調製に使用できる酵素、緩衝液、塩類、界面活性剤などをさらに含むことができる溶液中に細胞内成分を放出することができる。生物学的試料は、被験体から侵襲的(例えば、外科的手段)または非侵襲的(例えば、採血、スワブ、または排出された試料の収集)に得ることができる。
【0064】
本明細書中で使用される、用語「癌」または「腫瘍」は、腫瘤の成長が正常組織の成長を上回り、かつ協調していない組織の異常な塊を意味する。癌または腫瘍は、形態および機能性を含む細胞分化の程度、成長速度、局所浸潤および転移の特徴に応じて、「良性」または「悪性」と定義することができる。「良性」腫瘍は高分化型であり、悪性腫瘍よりも増殖が遅く、原発部位に限局したままであるのが特徴的である。さらに、良性腫瘍は、遠隔部位への浸潤、浸潤または転移する能力を有していない。「悪性」腫瘍は、低分化(退形成)であり得、特徴的に、周辺組織の進行性浸潤、浸潤、および破壊を伴う急速な成長を有する。さらに、悪性腫瘍は、遠隔部位に転移する能力を有し得る。
【0065】
本明細書中で使用される、CirculatingCell-freeGenomeAtlasまたは「CCGA」は、新たに診断された癌患者由来の血液および組織ならびに癌診断を受けていない被験体由来の血液をプロスペクティブに収集する観察臨床研究として定義される。研究の目的は、癌と非癌を区別し、起源の組織を同定する汎癌分類器を開発することである。実施例1は、CCGA1およびCCGA2データセットのさらなる詳細を提供する。
【0066】
本明細書中で使用される「分類」という用語は、試料の特定の特性に関連する任意の数または他の特性を指すことができる。例えば、「+」記号(または「陽性」という単語)は、サンプルが欠失または増幅を有するものとして分類されることを意味し得る。別の例では、用語「分類」は、被験体および/または試料中の腫瘍組織の量、被験体および/または試料中の腫瘍のサイズ、被験体中の腫瘍の段階、被験体および/または試料中の腫瘍負荷、および被験体中の腫瘍転移の存在を指すことができる。分類は2値(例えば、陽性または陰性)であってもよいし、分類レベルがより高い(例えば、1~10または0~1の尺度)場合もある。「カットオフ」および「閾値」という用語は、手術において使用される所定の数字を意味することができる。例えば、カットオフサイズは、それ以上のサイズで断片が除外されるサイズを指すことができる。閾値とは、特定の分類が適用される値を超える値、またはそれ以下の値とすることができる。これらの用語のどちらも、これらの文脈のどちらにも用いることができる。
【0067】
本明細書中で使用される場合、用語「核酸」および「核酸分子」は互換的に使用される。用語は、デオキシリボ核酸(DNA、例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)など)、および/またはDNA類似体(例えば、塩基類似体、糖類似体および/または非天然骨格などを含む)などの任意の組成形態の核酸を指し、これらは全て一本鎖または二本鎖の形態であり得る。特に限定されない限り、核酸は、天然ヌクレオチドの公知のアナログを含むことができ、そのいくつかは、天然に存在するヌクレオチドと同様の様式で機能することができる。核酸は、本明細書においてプロセスを実施するのに有用な任意の形態であり得る(例えば、線状、環状、超らせん、一本鎖、二本鎖など)。いくつかの実施形態における核酸は、単一の染色体またはその断片由来であり得る(例えば、核酸試料は、二倍体生物から得られた試料の1つの染色体由来であってもよい)。ある実施態様において、核酸は、ヌクレオソーム、ヌクレオソームの断片または部分、またはヌクレオソーム様構造を含む。核酸は、時にタンパク質(例えば、ヒストン、DNA結合タンパク質など)を含む。本明細書に記載されるプロセスによって分析される核酸は、実質的に単離されることがあり、タンパク質または他の分子と実質的に関連しない。核酸はまた、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)および二本鎖ポリヌクレオチドから合成、複製または増幅されたDNAの誘導体、バリアントおよびアナログを含む。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシンおよびデオキシチミジンが含まれる。被験体から得られた核酸を鋳型として、核酸を調製することができる。
【0068】
本明細書中で使用される、用語「無細胞核酸」は、被験体の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、汗、涙液、胸膜液、心膜液、または腹腔液などの体液中の細胞外に見出され得る核酸分子を意味する。無細胞核酸は、1つ以上の健康な細胞に由来し、および/または1つ以上の癌細胞に由来し、無細胞核酸は、循環する核酸として互換的に使用される。無細胞核酸の例としては、RNA、ミトコンドリアDNA、またはゲノムDNAが挙げられるが、これらに限定されない。本明細書中で使用する場合、「無細胞核酸」、「無細胞DNA」、および「cfDNA」という用語は互換的に使用される。本明細書中で使用される、用語「循環腫瘍DNA」または「ctDNA」は、死につつある細胞のアポトーシスまたは壊死などの生物学的プロセスの結果として個体の体(例えば血流)から液体中に放出されるか、または生存腫瘍細胞によって活発に放出されることがある、腫瘍細胞または他のタイプの癌細胞に由来する核酸断片を意味する。
【0069】
本明細書中で使用される場合、用語「断片」は、「核酸断片」(例えば、DNA断片)という用語と互換的に使用され、少なくとも連続する3つのヌクレオチドを含むポリヌクレオチドまたはポリペプチド配列の一部を意味する。生物学的試料中に見出される核酸無細胞核酸断片の配列決定との関連において、用語「断片」および「核酸断片」は、生物学的試料中に見出される無細胞核酸分子またはその表現を互換的に意味する。そのような文脈において、配列決定データ(例えば、全ゲノム配列決定からの配列の読み、標的配列決定など)は、このような核酸断片の全部または一部の1つ以上のコピーを誘導するために使用される。このような配列リードは、実際には、元の核酸断片のPCR重複物の配列決定から得られ得るので、核酸断片を「表す」または「支持する」ことができる。生体試料中の特定の核酸断片(例えば、PCR重複物)をそれぞれ表すか、または支持する複数の配列リードが存在し得る。核酸断片は無細胞核酸と考えることができる。いくつかの実施形態において、核酸断片の1つのコピーが、元の無細胞核酸分子を表すために使用される(例えば、ライブラリー調製過程において、無細胞核酸分子に付着した分子識別子を通して複製物が除去される)。いくつかの実施形態において、メチル化配列決定データを用いて、これらの核酸断片をさらに区別することができる。例えば、同一またはほぼ同一の配列を共有する2つの核酸断片は、それぞれが異なるメチル化パターンを有する場合、依然として異なる元の無細胞核酸分子に対応し得る。
【0070】
本明細書中で使用される「健康」とは、良好な健康を有する被験体を意味する。健常被験者は、悪性または非悪性疾患のいずれの欠如を実証することができる。「健康な個人」は、通常「健康である」とは考えられない、アッセイされる状態とは無関係な、他の疾患または状態を有し得る。
【0071】
本明細書中で使用される、用語「癌のレベル」は、癌が存在するかどうか(例えば、存在の有無)、癌のステージ、腫瘍のサイズ、転移の有無、推定腫瘍分画濃度、総腫瘍変異負荷値、身体の総腫瘍負荷量、および/または癌の重症度の他の尺度(例えば、癌の再発)を意味する。がんのレベルは、記号、アルファベット文字、色などの数字またはその他の指標となる。レベルはゼロにできる。がんのレベルには、突然変異または多数の突然変異に関連する前がん状態または前がん状態(状態)も含まれうる。がんのレベルは様々な方法で使用できる。例えば、スクリーニングでは、以前にがんであることが分かっていない人にがんが存在しているかどうかを調べることができる。評価では、がんと診断された人を調査して、長期にわたってがんの進行を監視したり、治療法の有効性を研究したり、予後を判定したりすることができる。予後は、被験体が癌で死亡する可能性、または特定の期間もしくは時間の後に癌が進行する可能性、または癌が転移する可能性として表現され得る。がんを示唆する特徴(例えば、症状または他の陽性検査)を有する誰かががんにかかっているかどうかを調べることは、検出に「スクリーニング」を含むこともあれば、検査を含むこともある。「病理学のレベル」とは、病原体に関連する病理学のレベルを指すことができ、ここで、そのレベルは、癌について上述したようにすることができる。癌が病原体と関連している場合、癌のレベルは病理のレベルの一種となり得る。
【0072】
本明細書中で使用される「メチローム」は、ゲノム中の複数の部位または遺伝子座におけるメチル基(例えば、メチル化またはヒドロキシメチル化修飾)を含むDNA修飾の量または程度の尺度であり得る。メチロームは、ゲノムのすべてまたは一部、ゲノムのかなりの部分、またはゲノムの比較的小さな部分に対応することができる。ゲノムのかなりの部分のメチル化プロファイルは、メチロームと同等であると考えることができる。興味深いメチロームは、核酸、例えば、DNAを体液(例えば、脳細胞、骨、肺、心臓、筋肉、腎臓などのメチローム)中に寄与し得る器官のメチロームであり得る。臓器は移植された臓器であり得る。
【0073】
本明細書に開示されるように、用語「メチル化」は、ヒドロキシメチル化を含むがこれに限定されない、メチル基を含む任意のタイプの修飾を含む。ある領域の“メチル化密度“は、メチル化を示す領域内の部位の読取り数を、その領域内の部位をカバーする読取りの総数で割った値とすることができる。部位は特異的な特徴を持ちうる(例えば、部位はCpG部位であり得る)。領域の「CpGメチル化密度」は、CpGメチル化を示す読取りの数を、その領域のCpG部位をカバーする読取りの総数(例えば、特定のCpG部位、CpGアイランド内のCpG部位、またはより大きな領域)で割ることができる。例えば、ヒトゲノム中の各100kbのbinに対するメチル化密度は、100-kb領域にマップされた配列リードによってカバーされる全CpG部位の割合として、CpG部位における未変換シトシン(メチル化シトシンに対応できる)の総数から決定することができる。この分析は、他のビンサイズ、例えば50-kbまたは1-Mbなどについても行うことができる。領域は、全ゲノムまたは染色体、または染色体の一部(例えば、染色体腕)であり得る。
【0074】
哺乳類ゲノムにおける「DNAメチル化」とは、CpGジヌクレオチドの中でシトシンの複素環式環の5位にメチル基を付加すること(例えば、5-メチルシトシンを生成すること)を指すことができる。シトシンのメチル化は、他の配列コンテキスト、例えば5’-CHG-3’および5’-CHH-3’においてシトシン中で起こることができ、ここでHはアデニン、シトシンまたはチミンである。シトシンのメチル化は5-ヒドロキシメチルシトシンの形でもよい。DNAのメチル化には、N6-メチルアデニンなどの非シトシンヌクレオチドのメチル化が含まれ得る。例えば、異なるゲノム領域からのメチル化データ(例えば、密度、分布、メチル化のパターンまたはレベル)を1つ以上のベクターセットに変換し、本明細書に開示されている方法およびシステムによって分析することができる。
【0075】
本明細書中で使用される、用語「突然変異」は、1つ以上の細胞の遺伝物質における検出可能な変化を意味する。特定の例では、1つまたは複数の突然変異が癌細胞中に見出され、そしてそれを同定することができる(例えば、ドライバー突然変異およびパッセンジャー突然変異)。突然変異は外見上の細胞から娘細胞に伝えられる。当業者は、親細胞における遺伝子突然変異(例えば、ドライバー突然変異)が、娘細胞においてさらなる異なる突然変異(例えば、パッセンジャー突然変異)を誘導し得ることを認識するであろう。突然変異は一般的に核酸で起こる。特定の例において、突然変異は、1以上のデオキシリボ核酸またはその断片における検出可能な変化であり得る。突然変異とは、一般に、核酸中の新たな位置に付加、欠失、置換、逆位、または転位されるヌクレオチドをいう。突然変異は、自然突然変異であっても、実験的に誘発された突然変異であってもよい。特定の組織の塩基配列の変異は“組織特異的な対立遺伝子“の例である。たとえば、腫瘍は正常細胞では起こらない遺伝子座に対立遺伝子を生じるような変異をもつことがある。「組織特異的対立遺伝子」の別の例は、胎児組織で起こるが、母体組織では起こらない胎児特異的対立遺伝子である。
【0076】
本明細書中で使用される、用語「参照ゲノム」は、被験体から同定された配列を参照するために使用され得る任意の生物またはウイルスの、部分的であるか完全であるかにかかわらず、既知の、配列決定された、または特徴付けられたゲノムのいずれかを意味する。ヒト被験者ならびに他の多くの生物に使用される例示的な参照ゲノムは、国立バイオテクノロジー情報センター(「NCBI」)またはカリフォルニア大学サンタクルツ校(UCSC)が主催するオンラインゲノム・レーザーで提供される。「ゲノム」とは、核酸配列において発現される、生物またはウイルスの完全な遺伝情報を意味する。本明細書中で使用されるように、参照配列または参照ゲノムは、しばしば、個体または複数の個体由来の、組み立てられたまたは部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、1以上のヒト個体由来の、組み立てられたまたは部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子セットの代表的な例と見なすことができる。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムは、NCBIビルド34(UCSC等価物:hg16)、NCBIビルド35(UCSC等価物:hg17)、NCBIビルド36.1(UCSC等価物:hg18)、GRC37(UCSC等価物:hg19)、およびGRC38(UCSC等価物:hg38)を含むが、これらに限定されない。
【0077】
本明細書中で使用される、用語「配列決定」、「配列決定」などは、一般的に、核酸またはタンパク質などの生物学的巨大分子の順序を決定するために使用され得る任意のおよび全ての生化学的プロセスを指す。例えば、配列決定データは、DNA断片のような核酸分子中のヌクレオチド塩基の全部または一部を含むことができる。
【0078】
本明細書中で使用される、用語「配列リード」または「リード」とは、本明細書に記載される、または当該技術分野で知られている任意の配列決定プロセスによって産生されるヌクレオチド配列を意味する。読取りは、核酸断片の一端から生成することができ(「一端読取り」)、時には、核酸の両端から生成することがある(例えば、対末端読取り、二端読取り)。いくつかの実施形態において、配列の読取り(例えば、一端または対端の読取り)は、標的核酸断片の一方または両方の鎖から生成することができる。読まれる塩基配列の長さは、特定の塩基配列決定技術と関連していることが多い。たとえば、ハイスループットな方法では、数十から数百塩基対(bp)の大きさで変化しうる配列の読みを提供する。いくつかの実施形態では、配列読み取りは、約15bp~900bp長の平均、中央値または平均長さ(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bp)である。いくつかの実施形態において、配列リードは、約1000bp、2000bp、5000bp、10,000bp、または50,000bp以上の平均、中央値または平均長のものである。例えば、ナノポアの塩基配列決定法は、数十から数百から数千の塩基対の大きさで変化しうる配列の読みを提供することができる。イラミナ並列シークエンシングは、それほど変化しないシークエンスリードを提供することができる。例えば、シークエンスリードのほとんどは200bpより小さいことができる。読まれる配列(またはシークエンシング・リード)は、核酸分子に対応する配列情報(例えば、ヌクレオチドの列)を指すことができる。例えば、読む配列は、核酸断片の一部からのヌクレオチドの列(例えば、約20~約150)に対応することができ、核酸断片の一端または両端のヌクレオチドの列に対応することができ、または核酸断片全体のヌクレオチドに対応することができる。配列の読取りは、様々な方法で得ることができ、例えば、配列決定技術を用いるか、またはプローブを用いること、例えば、ハイブリダイゼーションアレイまたは捕獲プローブ、またはポリメラーゼ連鎖反応(PCR)または単一のプライマーまたは等温増幅を用いる線形増幅技術などの増幅技術を用いることができる。
【0079】
用語「配列決定の深さ」、「カバー率」および「カバー率」は、遺伝子座に並べられた特有の核酸標的分子(「核酸断片」)に対応して読み取られるコンセンサス配列によって遺伝子座がカバーされる回数を指すために本明細書中で互換的に使用される;例えば、配列決定の深さは、遺伝子座をカバーする特有の核酸標的断片(PCR配列決定の重複を除く)の数に等しい。遺伝子座はヌクレオチドと同じくらい小さいものもあれば、染色体腕と同じくらい大きいものもあり、ゲノム全体と同じくらい大きいものもある。頻度は、「YX」として表すことができる。例えば、50X、100X等である。ここで、「Y」は、核酸標的に対応する順序で軌跡がカバーされる回数、例えば、特定の軌跡をカバーする独立した順序情報が入手される回数をいう。いくつかの実施形態において、配列決定の深さは、配列決定されたゲノムの数に対応する。シークエンシングの深さは、複数の遺伝子座、または全ゲノムにも適用することができ、この場合、Yは、それぞれ、遺伝子座または単数体ゲノム、または全ゲノムがシークエンスされる平均または平均回数を参照することができる。平均深度を引用すると、データセットに含まれる異なる遺伝子座の実際の深さは、ある範囲の値にわたることができる。超深層シークエンシングは、軌跡上のシークエンシング深さの少なくとも100倍に言及することができる。
【0080】
本明細書中で使用される、用語「真の陽性」(TP)は、状態を有する被験体を意味する。「真の陽性」とは、腫瘍、癌、前癌状態(例えば、前癌病変)、限局性または転移性癌、または非悪性疾患を有する被験体を指すことができる。「真の陽性」は、状態を有する被験体を意味することができ、本開示のアッセイまたは方法によってその状態を有するものとして同定される。
【0081】
本明細書中で使用される、用語「真の陰性」(TN)とは、状態を有さないか、または検出可能な状態を有さない被験体を意味する。真陰性とは、腫瘍、癌、前癌状態(例えば、前癌病変)、限局性または転移性癌、非悪性疾患、または他の点では健康な被験体など、疾患または検出可能な疾患を有さない被験体を指すことができる。真陰性とは、状態を有さないか、検出可能な状態を有さないか、または本開示のアッセイまたは方法によってその状態を有さないと同定される被験体を指すことができる。
【0082】
本明細書中で使用される「感度」または「真の陽性率」(TPR)という用語は、真の陽性数を真の陽性数と偽陰性の数の合計で割ったものを意味する。感度は、真に状態を有する集団の割合を正確に同定するアッセイまたは方法の能力を特徴付けることができる。例えば、感度は、癌を有する集団内の被験体の数を正確に同定する方法の能力を特徴付けることができる。別の例では、感度は、癌を示す1つ以上のマーカーを正確に同定する方法の能力を特徴付けることができる。
【0083】
本明細書中で使用される、用語「特異性」または「真の陰性率」(TNR)は、真の陰性の数を真の陰性および偽陽性の数の合計で割ったものを意味する。特異性は、真に病態を有していない集団の割合を正確に同定するアッセイまたは方法の能力を特徴付けることができる。例えば、特異性は、癌を有さない集団内の被験体の数を正確に同定する方法の能力を特徴付けることができる。別の例では、特異性は、癌を示す1つ以上のマーカーを正確に同定する方法の能力を特徴付けることができる。
【0084】
本明細書中で使用される、用語「偽陽性」(FP)は、状態を有さない被験体を意味する。偽陽性とは、腫瘍、癌、前癌状態(例えば、前癌病変)、限局性または転移性癌、非悪性疾患、または他の点では健康な被験体を指すことができる。偽陽性という用語は、状態を有さないが、本開示のアッセイまたは方法によってその状態を有するものとして同定される被験体を指すことができる。本明細書中で使用される「偽陰性」(FN)という用語は、状態を有する被験体を意味する。偽陰性とは、腫瘍、癌、前癌状態(例えば、前癌病変)、限局性または転移性癌、または非悪性疾患を有する被験体を指すことができる。「偽陰性」という用語は、ある状態を有するが、本開示のアッセイまたは方法によってその状態を有さないものとして同定される被験体を指すことができる。
【0085】
本明細書中で使用される、用語「一塩基変異体」または「SNV」は、ヌクレオチド配列の位置(例えば部位)における1つのヌクレオチドの異なるヌクレオチドへの置換、例えば、個体から読み取られる配列を意味する。第1の核酸塩基Xから第2の核酸塩基Yへの置換は“X>Y“と表されることがある。例えば、シトシンからチミンへのSNVは“C>T“と表されることがある。
【0086】
本明細書中で使用される場合、「サイズプロファイル」および「サイズ分布」という用語は、生物学的試料中のDNA断片のサイズに関連し得る。サイズプロフィールは、様々なサイズでの量のDNA断片の分布を提供するヒストグラムとすることができる。様々な統計パラメータ(サイズパラメータまたは単なるパラメータとも呼ばれる)は、あるサイズプロファイルを別のサイズプロファイルと区別することができる。1つのパラメータは、全てのDNA断片に対する特定のサイズまたはサイズの範囲のDNA断片のパーセンテージ、または別のサイズまたは範囲のDNA断片に対するパーセンテージとすることができる。
【0087】
本明細書中で使用される用語「被験体」は、限定されるわけではないが、ヒト(例えば、男性、女性、ヒト、胎児、妊娠女性、子供など)、非ヒト動物、植物、細菌、真菌または原生生物を含む任意の生きているまたは生きていない生物を意味する。哺乳類、爬虫類、鳥類、両生類、魚類、有蹄類、ウシ(例えばウマ)、ウマ(例えばウマ)、ヤギおよびヒツジ(例えばヒツジ、ヤギ)、ブタ(例えばブタ)、ラクダ(例えばラクダ、ラマ、アルパカ)、サル、類人猿(例えばゴリラ、チンパンジー)、ウルシ(例えばクマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラおよびサメを含むがこれらに限定されない任意のヒトまたは非ヒト動物が被験体として働くことができる。いくつかの実施形態において、被験体は、任意の段階(例えば、男性、女性または子供)の男性または女性である。
【0088】
本明細書中で用いられる場合、用語「組織」は、機能単位として一緒にグループ化される細胞のグループに対応することができる。1つの組織に複数の種類の細胞が認められる。異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞または血液細胞)を含み得るが、また、異なる生物由来の組織(母対胎児)または健康な細胞対腫瘍細胞に対応し得る。用語「組織」は、人体に見出される任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔咽頭組織)を指すことができる。用語「組織」または「組織型」は、無細胞核酸が由来する組織を意味するために使用することができる。一例において、ウイルス核酸断片は、血液組織に由来し得る。別の例では、ウイルス核酸断片を腫瘍組織から誘導することができる。
【0089】
本明細書中で使用される場合、用語「ベクター」は、エレメントのアレイのようなエレメントの列挙されたリストであり、ここで、各エレメントは割り当てられた意味を有する。そのように、本開示において使用される用語「ベクター」は、「テンソル」という用語と互換可能であり、一例として、ベクターが10,000ビンのビンカウントを含む場合、10,000のビンの各々について、ベクター内に所定の要素が存在する。提示を容易にするために、いくつかの例において、ベクターは一次元であると記述され得る。しかし、本開示はそれほど限定されていない。ベクター中の各要素が何を表すかの記述が定義される(例えば、要素1が複数のビンのビン1のビンカウントを表すなど)ならば、任意の次元のベクターを本開示において使用することができる。
【0090】
以下に、イラストのための適用例を参照して、いくつかの局面を記載する。本明細書に記載されている特徴の完全な理解を提供するために、多数の具体的な詳細、関係、および方法が示されていることを理解すべきである。しかしながら、関連技術の通常の熟練者を有する者は、本明細書に記載される特徴が、特定の詳細の1つ以上なしに、または他の方法で実施され得ることを容易に認識するであろう。ここに記述される特徴は、作用または事象の図示された順序によって限定されず、いくつかの作用が異なる順序で、および/または他の作用または事象と同時に起こり得るためである。さらに、ここに記述された特徴に従って方法論を実施するためには、図示された行為や事象の全てが必要とされるわけではなく、
【0091】
III.サンプル処理
【0092】
図1は、メチル化状態ベクターを得るために無細胞(cf)DNAの断片を配列決定するプロセス100を記述する例示的なフローチャートである。分析システム(または本明細書の別の箇所に記載されるプロセシングシステム)は、まず、複数のcfDNA断片を含む被験体から110の試料を得ることができる。一般に、試料は、健康な被験体、癌を有するかまたはその疑いがあることが知られている被験体、または以前の情報が知られていない被験体由来であってもよい。試料(例えば、試料またはトレーニング試料のいずれか)は、血液、血漿、血清、尿、糞便、および/または唾液試料から選択することができる。代わりに、試料は、全血、血液分画、組織生検、胸膜液、心膜液、脳脊髄液、または腹膜液から選択することができる。
【0093】
試料から、cfDNA断片を処理して、メチル化されていないシトシンをウラシル120に変換することができる。この方法は、メチル化シトシンを変換することなく、非メチル化シトシンをウラシルに変換するcfDNA断片の亜硫酸水素塩処理を用いることができる。例えば、EZDNAMethylationTM-金、EZDNAMethylationTM-直接またはEZDNAMethylationTM-照明キット(ザイモリサーチコープ(イルビン、カリフォルニア州)から入手可能)のような市販のキットを亜硫酸水素塩転換に使用することができる。メチル化されていないシトシンからウラシルへの変換は、酵素反応を用いて行うことができる。例えば、変換は、APOBEC-Seq(NEBiolabs社、Ipswich社、MA)のような非メチル化シトシンのウラシルへの変換のための市販のキットを使用することができる。
【0094】
変換されたcfDNA断片から、配列決定ライブラリーを130調製することができる。任意に、配列決定ライブラリーは、複数のハイブリダイゼーションプローブを用いて癌状態に有益なcfDNA断片、またはゲノム領域について135濃縮され得る。ハイブリダイゼーションプローブは、標的cfDNA断片、または1つ以上の標的領域に由来するcfDNA断片にハイブリダイズすることができ、その後の配列決定および分析のためにそれらの断片または領域を濃縮することができる短いオリゴヌクレオチドであり得る。ハイブリダイゼーションプローブを用いて、対象とする特定のCpG部位のセットの標的化された高深度分析を行うことができる。一旦調製されると、配列決定ライブラリまたはその一部を配列決定して、複数の配列リード140を得ることができる。シーケンス読取りは、コンピュータソフトウェアによる処理および解釈のために、コンピュータ読取り可能なデジタルフォーマットであってもよい。複数の試料を調製し、同時に配列決定することができる。複数のサンプルは、少なくとも10、20、50、96、100、200、500、1000、10000またはそれ以上のサンプルを含むことができる。
【0095】
シークエンスレッドから、分析システムは、参照ゲノムへのアラインメントに基づいて、1つ以上のCpG部位の各々について150aの位置およびメチル化状態を決定することができる。分析システムは、160のメチル化状態ベクターを、参照ゲノム中の断片の位置(例えば、各断片中の最初のCpG部位の位置、または別の類似の計量値によって指定される)、断片中の多数のCpG部位、および断片中の各CpG部位のメチル化状態、メチル化されているかどうか(例えば、Mと表記される)、メチル化されていないか(例えば、Uと表記される)、または不確定(または、本明細書中の別の記載、例えば、Iと表記される)であるかどうかについて生成することができる。観察された状態にはメチル化された状態とメチル化されていない状態が含まれるが、観察されていない状態は不確定である。メチル化状態ベクターは、後の使用および処理のために一時的または持続的なコンピュータ記憶に保存され得る。さらに、分析システムは、単一被験体から複製リードまたは重複メチル化状態ベクターを除去することができる。分析システムは、汚染検出(例えば、ヒト汚染源、予期せぬ生殖細胞系ハプロタイプ、交差試料汚染、プローブ汚染、生物学的汚染、および/または技術者汚染)を行うことができる。分析システムは、品質管理の計量値(例えば、濃縮、プルダウン、適用範囲、および/またはアラインメントについて)を評価することができる。分析システムは、ある断片が、不確定なメチル化状態を有する1つ以上のCpG部位を有することを決定することができる。不確定なメチル化状態は、DNA断片の相補鎖のメチル化状態間の配列決定ミスおよび/または不一致に由来する可能性がある。分析システムはそのような断片を排除するか、そのような断片を選択的に含むかを決めることができるが、そのような不確定なメチル化状態を説明するモデルを構築することができる。不確定なサンプルをさらに起源の組織分析から除外することで、性能を高めることができる。
【0096】
図2は、メチル化状態ベクターを得るためにcfDNA断片を配列決定する、
図1の例示的なプロセス100の例証である。一例として、分析システムはcfDNA断片112をとることができる。cfDNA断片112は3つのCpG部位を含むことができる。図に示すように、cfDNA断片112の第1および第3のCpG部位を114メチル化することができる。処理段階120の間に、cfDNA断片112を変換して、変換されたcfDNA断片122を生成することができる。治療120の間、メチル化されていない第2のCpG部位はそのシトシンをウラシルに変換することができるが、第1および第3のCpG部位は変換されないことがある。
【0097】
変換後、配列決定ライブラリ130を調製し、140の配列を決定し、142の配列を読むことができる。分析システムは、150の配列142を参照ゲノム144に並べることができる。参照ゲノム144は、ヒトゲノムにおいて、断片cfDNAがどの位置に由来するかについての文脈を提供することができる。分析システムは、3つのCpG部位がCpG部位23、24、および25(説明の便宜のために使用される任意の参照識別子)に相関するように、150の読取配列をアラインメントすることができる。このようにして、分析システムは、cfDNA断片112上の全てのCpG部位のメチル化状態、およびヒトゲノム中のどの位置にCpG部位がマップされるかの両方に関する情報を生成することができる。図に示すように、配列上のCpG部位はメチル化された142を読んでシトシンとして読むことができる。シトシンは、第1および第3のCpG部位において142読取られた配列中に現れることができ、これにより、元のcfDNA断片中の第1および第3のCpG部位がメチル化されていると推測することができる。一方、2番目のCpG部位はチミンとして読まれる(Uは塩基配列決定過程でTに変換される)ので、2番目のCpG部位は元のcfDNA断片ではメチル化されていないと推測できる。これらの2つの情報断片、メチル化状態および位置により、分析システムは、cfDNA断片112に対する160aのメチル化状態ベクター152を生成することができる。得られたメチル化状態ベクター152は<M23、U24、M25>であり得る。ここで、「M」はメチル化CpG部位に対応し、「U」はメチル化されていないCpG部位に対応し、下付き数字は参照ゲノム中の各CpG部位の位置に対応し得る。
【0098】
以下の実施例8でさらに議論されるように、同定されたメチル化状態ベクターは、p値濾過および分類を受けることができ、分類出力を結果報告書にまとめることができる。
【0099】
IV.システム例
【0100】
図5Aは、被験体の疾患/癌状態を決定する方法が実装できる例示的な環境/システムを示す。環境500は、シーケンス装置510と、ネットワーク525を介して接続された1つ以上のユーザ装置520とを含むことができる。
【0101】
配列決定装置510は、試料容器515、フローセル545、グラフィックユーザインタフェイス550、および1つ以上のローディングトレイ555を含むことができる。試料容器515は、1つ以上の試験および/またはトレーニング試料を運搬、保持、および/または保存するように構成することができる。フローセル545は、配列決定装置510のフローセルホルダーに配置することができる。フローセル545は、結合された分析物上で試薬溶液を秩序正しく通過できるように構成することができる固体支持体であってもよい。グラフィックユーザインタフェイス550は、特定の作業(例えば、装填トレイに試料および緩衝液を装填する、または対応するメチル化パターンを有するデータセットを含む配列決定データを得る)とユーザとの相互作用を可能にすることができる。例えば、ユーザ(例えば、被験者、訓練被験者、医療専門家)が、試薬および濃縮されたフラグメントサンプルを、シーケンス装置510のローディングトレイ555に提供したならば、ユーザは、シーケンス装置510のグラフィックユーザインターフェース550と相互作用することによって、シーケンスを開始することができる。配列決定装置510は、本明細書の他の箇所に記載される1つ以上のプロセシングシステムを含むことができる。
【0102】
利用者装置520は、それぞれ、ノートパソコンもしくはテーブルコンピュータのようなコンピュータシステム、またはスマートフォンもしくはタブレットのような携帯型コンピュータ装置であり得る。ユーザ装置520は、ネットワーク525を介して、シーケンス装置510と通信的に結合することができる。各ユーザ装置は、ユーザに癌状態に関する報告書を作成するなどの様々なアプリケーションについて、シーケンス装置510から得られたデータを処理することができる。ユーザは、被験体、訓練被験体、または誰でも報告書(例えば、医療専門家)にアクセスできる。ユーザ装置520は、本明細書の他の箇所に記載されている1つ以上の処理システムを含むことができる。1つ以上のユーザ装置520は、処理システムによって実行されると、処理システムが本明細書に開示されている方法またはプロセスのいずれか1つ以上のステップを実行させる処理システムおよび記憶保存コンピュータ指示を含むことができる。
【0103】
ネットワーク525は、
図5Aに示される様々な構成要素または装置間の通信を提供するように構成することができる。ネットワーク525は、インターネット、無線ネットワーク、有線ネットワーク、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、ブルートゥース、ニア・フィールド通信(NFC)、または1つ以上の構成要素間の通信を提供する他の任意のタイプのネットワークとして実現することができる。ネットワーク525は、セル及び/又はページャーネットワーク、サテライト、ライセンスされたラジオ、又はライセンスされたラジオと免許されていないラジオの組合せを用いて実装することができる。ネットワーク525は、ワイヤレス、ワイヤリング、またはそれらの組合せであり得る。ネットワーク525は、パブリックネットワーク(例えばインターネット)、プライベートネットワーク(例えば、組織内のネットワーク)、またはパブリックネットワークとプライベートネットワークの組み合わせとすることができる。
【0104】
図5Bは、被験体の疾患/癌状態を決定するための処理システム560の例示的なブロック図を描いている。処理システム560は、本明細書に開示される方法またはプロセスのいずれかの1つまたは複数のステップを実行する1つまたは複数の処理装置またはサービスを含むことができる。処理システム560は、複数のモデル、エンジニア、モジュールを含むことができる。
図5Bに示されているように、処理システム560は、データ処理モジュール562、データ構築モジュール564、アルゴリズムモデル566、通信エンジニア568、および1つ以上のデータベース570を含むことができる。
【0105】
データ処理モジュール562は、配列決定装置510から得られたデータを清掃し、処理し、管理し、変換し、及び/又は変換するように構成することができる。一実施形態では、データ処理モジュールは、配列決定装置から得られたデータを、他のモジュール、エンジニア、またはモデルによって使用および/または認識できるデータに変換することができる。例えば、データ構築モジュール564は、データ処理モジュール562から出力データを構築することができる。モジュール564を構築するデータは、シーケンス装置510または処理システムの任意のモジュール、モデル、およびエンジニアから得られるデータを構築および/またはさらに処理するように構成することができる(例えば、ここで記述されている1つまたは複数のパッチを構築する)。一実施形態では、モジュール566を構築するデータは、それぞれの断片を複数の断片から除去することによって、複数の断片を剪定することができる。
【0106】
アルゴリズムモデル568は、一つ以上のアルゴリズム又はモデルを介してデータを解析、翻訳、変換、モデル化、及び/又は変換するように構成することができる。そのようなアルゴリズムまたはモデルは、分類器または本明細書の別の箇所に記載された計算モデルのような任意の計算、数学、統計、または機械学習アルゴリズムを含むことができる。分類器または計算モデルは、少なくとも1つの回帰ニューラルネットワークパッチを含むことができる。分類器または計算モデルは、第1段階モデルおよび第2段階モデルを含むことができる。第1段階モデルは、複数のベクトル集合を逐次的に受け取り、複数の出力スコアを提供することができ、第2段階モデルは、第1段階モデルによって提供されるベクトル集合を受け取り、出力スコアを提供することができる。分類器または計算モデルは、入力値を受信し、フィルター重量のセットを含む少なくとも1つのフィルターに関連する層を含むことができる。この層は、次の関数として中間値を計算することができる:(i)フィルター重量の集合、および(ii)複数の入力値。分類器または計算モデルは、一つ以上のデータベース(例えば、非持続記憶または持続記憶)に保存することができる。
【0107】
通信エンジニア568は、処理システム560が、1つ以上のユーザ機器520又は配列決定装置510からのデータ及び/又は任意の情報を受信することを可能にする、1つ以上のキーボード、マウス装置等の1つ以上のユーザ機器(例えば、ユーザ機器520)へインターフェースを提供するように構成することができる。
【0108】
1つ以上のデータベース570は、データを保存するように構成された1つ以上の記憶装置(例えば、あらかじめ訓練されたモデル、訓練データセットなど)を含むことができる。さらに、1つ以上のデータベース570は、記憶装置を有するコンピュータシステムとして実現することができる。1つまたは複数のデータベース570は、1つまたは複数の操作を行うために、システムまたは装置(例えば、配列決定装置510)の構成要素によって使用することができる。1つ以上のデータベース570は、処理システム560と共位置することができ、かつ/またはネットワーク上で互いに共位置することができる。1つ以上のデータベース570の各々は、他のデータベースと同一であっても、異なっていてもよい。1つ以上のデータベース564の各々は、他のデータベースと同じ場所に配置することができ、又は他のデータベースから遠隔にすることができる。1つ以上のデータベースは、上述または本明細書の他の場所で記述されていない追加モジュールおよびデータ構造を保存することがある。
【0109】
上述の識別された構成要素(例えば、モジュール)は、別個のソフトウェアプログラム、手順、データセット、またはモジュールとして実装されてはならず、したがって、これらのモジュールおよびデータの様々なサブセットは、さまざまな実装において、結合されるか、または別の方法で再配置されてもよい。いくつかの実施形態において、システム500が必要に応じてそのようなデータの全てまたは一部を取得することができるように、システム500によって対処可能であるシステム500以外のコンピュータシステムに、上記の識別された要素の1つまたは複数を保存することができる。
【0110】
V.実施例の方法
【0111】
本開示に従ったシステムが
図5Aおよび5Bを参照して開示されているが、本開示に従った例示的な方法800は、今や
図8Aとともに詳細に記載されている。この方法は、本明細書に開示されている環境500および/または処理システム560によって実施することができる。
【0112】
方法800のステップ802は、データセットを電子形式で取得することを含むことができ、ここで、データセットは、複数の断片中のそれぞれの断片の対応するメチル化パターンを含む。各それぞれの断片の対応するメチル化パターンは、試験対象から得られた生物学的試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定することができる。それぞれの断片の対応するメチル化パターンは、それぞれの断片中の対応する複数のCpG部位における各CpG部位のメチル化状態を含むことができる。
【0113】
複数の断片中の各断片は、その核酸配列が異なるゲノム位置または位置に並ぶ(またはマップする)ユニークな断片を含むことができる。複数の断片中の各断片は、異なるメチル化パターンを含む特有の断片を含むことができる。断片マップを読む位置は、とりわけ、BLAST、BLASR、BWA-MEM、DAMAPPER、NGMLR、GraphMap、ミニマップなどのプログラムを用いて決定することができる。BGREATおよびdeBGAは、いずれも第二世代シークエンシングデータと協働するように設計することができる。BlastGraphはBLASTマッピング結果を用いてクラスターアライメントを作成し、比較ゲノム解析を行うことができる。GramToolsは、短い読みを母集団参照グラフにマップすることができる。
【0114】
1以上の核酸試料のメチル化配列決定には、i)全ゲノムメチル化配列決定、ii)全ゲノム重亜硫酸配列決定(WGBS)、またはiii)複数の核酸プローブを用いた標的化DNAメチル化配列決定を含むことができる。1以上の核酸試料のメチル化配列決定には、表現の減少した重亜硫酸塩基配列決定、メチル化DNA免疫沈降配列決定、次世代配列決定、ピロシークエンシング、メチル化特異的PCR、重亜硫酸変換DNAの直接サンガー配列決定、および/または重亜硫酸アンプリコン配列決定(BSAS)を含むことができる。メチル化配列決定は、ナノポア配列決定またはIllumina配列決定を用いて行うことができる。1つ以上の核酸サンプルのメチル化配列決定は、複数の核酸プローブを使用することができる(例えば、100プローブ未満、100から1000プローブの間、500から10,000プローブの間、1000から50,000プローブの間、または50,000プローブ以上)。
【0115】
標的DNAメチル化配列決定は、様々な方法で行うことができる。メチル化シトシンまたは非メチル化シトシンのいずれかを変換するために、様々な酵素処理および化学処理との組合せを用いることができる。例えば、1つ以上の核酸試料のメチル化配列決定は、それぞれの断片中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出することができる。別の例として、1以上の核酸試料のメチル化配列決定は、1以上の非メチル化シトシンまたは1以上のメチル化シトシンの、それぞれの断片における、対応する1以上のウラシルへの変換を含むことができる。1つまたは複数のウラシルは、メチル化配列決定の間、1つまたは複数の対応するチミンとして検出することができる。1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換は、化学変換、酵素変換、またはそのような組合せを含み得る。
【0116】
方法800のステップ804は、第1のチャネルを含む第1のパッチを構築することを含むことができる。最初のパッチは、その種の参照ゲノムにおける最初の独立したCpG部位のセットを表すことができる。CpG部位の最初の独立セットにおける各々のCpG部位は、参照ゲノム中の所定の位置に対応することができる。
図6Aに最初の貼付剤530-1の例の構造を示す。第1のパッチ530-1は、少なくとも1つのチャネル(例えば、第1のチャネル)を含むことができ、ここで、第1のチャネル532-1-1は、CpG部位1からLを含むCpG部位536-1-1-1の第1の独立したセットを含むことができ、ここで、Lは、正の整数(例えば、2、3、4、5、6、7、8、9、10またはそれ以上、20またはそれ以上、30または50またはそれ以上)であり得る。
【0117】
CpG部位の最初の独立セットは、所定の数のCpG部位を含むことができる。CpG部位の第一の独立セットは、参照ゲノムの選択された領域を含むことができる。CpG部位の最初の独立セットは、少なくとも10、50、100、500、1000またはそれ以上のCpG部位を含むことができる。CpG部位の最初の独立セットは、多くても1000、500、100、50、10またはそれ以下のCpG部位を含むことができる。CpG部位の第一の独立セットは、128のCpGまたは256のCpG部位を含み得る。CpG部位の第一の独立セットは、目的のCpG部位の所定のパネルから選択することができる。例えば、ヒトゲノムに存在する約2800万個のCpG部位のうち、約150万個を標的メチル化配列決定によって検出することができる。標的化メチル化シークエンシングによって同定される150万のCpG部位(例えば、目的のCpG部位)のパネルは、標的化メチル化シークエンシング法によって予め決定することができ、または特定の実験目的に基づいて施術者によって選択することができる。WGBSによるヒトメチロームの特徴付けは、安定にメチル化され、かつ同定可能な調節機能を持たないCpG部位と比較して、動的調節機能を有するか、または疾患に関連する一塩基多型を含むCpG部位を同定することができる。
【0118】
対象となるCpG部位の数は、先験的な知識に基づいて対象となる標的部位のサブパネルを用いて配列読取りをフィルタリングすることにより、さらに減少させることができる。例えば、対象となるCpG部位は、癌対非癌の検出において、または癌のタイプまたはサブタイプの間の鑑別において識別的または情報的であるゲノムのCpG部位または領域を同定する先験的知識によって得ることができる。目的の標的CpG部位の一部は、p値フィルター法を用いてデータセットからさらに削除することができる。興味深いCpG部位のサブパネルに含まれないCpG部位の除去は、データ前処理の間、またはデータ処理モジュール562および/またはデータ構築モジュール564を介してパッチ設計の間に実施することができる。パッチデザインの詳細および対象となるCpG部位の選択については、本稿の別の個所に記載されている。
【0119】
CpG部位の最初の独立セットは、参照ゲノムのCpGインデックスにあり得る。参照ゲノムのCpGインデックスは、第1の独立セットのCpG部位に存在せず、第2のCpG部位と第3のCpG部位との間の参照ゲノムに位置する第1の独立セットのCpG部位を含むことができる。言い換えれば、パッチはCpGインデックスからの非隣接CpG部位を含むことができる。CpG部位の第1の独立セットは、参照ゲノムのCpGインデックスにおいて互いに隣接する第1のCpG部位および第2のCpG部位を含み得、複数の断片中の第1の断片は、第1のCpG部位を含み得るが、第2のCpG部位は含まれず、また、複数の断片中の第2の断片は、第2のCpG部位を含み得るが、第1のCpG部位は含まれない。したがって、隣接するCpG部位は、異なるユニークなメチル化配列決定断片上に存在することができる。逆に、CpG部位の第1の独立セットは、参照ゲノムのCpGインデックスにおいて互いに隣接する第1のCpG部位および第2のCpG部位を含み得、そして、複数の断片中の第1の断片は、第1のCpG部位および第2のCpG部位の両方を含むことができる。したがって、隣接するCpG部位は、同じユニークなメチル化配列決定断片上に存在することができる。CpG部位の最初の独立セットは、参照ゲノム全体から引き出すことができる。メチル化配列決定によって得られた複数の断片中の各断片を参照ゲノムにアラインメントすることができる。参照ゲノムへのアラインメントは、複数の断片中の各断片におけるメチル化部位のアラインメント(例えば、メチル化パターン)を用いて行うことができる。参照ゲノムへのアラインメントは、複数の断片中の各断片における塩基対のアラインメントを用いて行うことができる(例えば、とりわけ、BLAST、BLASR、BWA-MEM、DAMAPPER、NGMLR、GraphMap、ミニマップなどのプログラムを用いる)。
【0120】
第1のパッチの第1のチャネルは、第1の複数のパラメータの複数の例を含むことができ、ここで、第1の複数のパラメータの各インスタンスは、第1のパッチのCpG部位の第1の独立したセットにおける、それぞれのCpG部位のメチル化状態(またはメチル化状態)に関するパラメータを含むことができる。
【0121】
図6Aを参照すると、複数のインスタンスは、CpG部位の第一の独立セットにおける各CpG部位に対応する複数のパラメータを含むことができる。
図6Aに描かれているように、第1のパッチ530-1の第1のチャネル532-1-1は、複数のインスタンス534-1-1-1、534-1-1-2~534-1-1-Mを含み、ここで、Mは正の整数である。さらに、
図6Aにおいて、各インスタンスは、最初のインスタンス534-1-1-1-1-1、538-1-1-2、538-1-1-1-3、538-1-1-1-4・・・・538-1-1-1-1-1-L(ここでLは正の整数である)を含み、各パラメータは、CpG部位536-1-1-1の最初の独立した集合におけるLCpG部位に対応する。同様に、
図6Aは、セカンドインスタンス534-1-1-1-2、538-1-1-2-1-2、538-1-2-1-3、538-1-2-1-4......538-1-1-2-L、およびMthインスタンス534-1-1-1-M-1-M-2におけるLパラメータ538-1-1-M-1-1-2、538-1-1-M-3、538-1-1-M-
【0122】
図6Aの実施例パッチに図示されているように、複数の例および複数のパラメータは、代表的な2次元マトリックス(例えば、画像)を生成することができる。メチル化シークエンシングデータを2次元マトリックスに再編成することにより、回帰ニューラルネットワークに使用するのに適した入力を提供することができる。さらに、回帰ニューラルネットワークを用いたデータセットの分析は、フラグメント、サンプル、または被験者レベルでの複数のパラメータ(例えば、特性または属性)を含むように拡張することができる。例えば、2次元マトリックスは、複数の断片中のそれぞれの断片について局所的な情報を提供することができ、そこでは、断片間のメチル化状態パターンを、水平方向または垂直方向のいずれかで同定することができ、したがって、隣接するメチル化部位間または配列リード間の相関をそれぞれ同定することができる。
【0123】
2次元マトリックスのy軸は、最初のパッチの最初のチャネルの例数を増加させることによって増加させることができる。例えば、最初の複数のパラメータの複数の例は、24から2048の間であり得る。最初の複数のパラメータの複数の例は、128でよい。最初の複数のパラメータの複数の例は、少なくとも1、10、100、1000、10000以上であり得る。いくつかの実施形態において、第1の複数のパラメータの複数の例は、せいぜい10000、1000、100、10またはそれ以下であり得る。最初の複数のパラメータの複数の例における例数は、複数の断片の期待読取深さに加えて、複数の断片を横切る1つの標準偏差に基づいて決定することができる。これはμ(読み深さ)+σ(std)で表すことができる。開発)いくつかのそのような実施形態において、第1の複数のパラメータの複数の例における多数の例は、本明細書の別の個所に記載されている配列決定法から得られる複数の断片の予想読取り深さに基づいて決定することができる。例えば、全ゲノム配列決定によって行われる配列決定は、被験体のゲノムにわたって、少なくとも1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、少なくとも20x、少なくとも30x、または少なくとも40xの平均配列決定深度を有することができる。標的パネルシークエンスのためのシークエンス深度は、1,000x、2,000x、3,000x、5,000x、10,000x、15,000x、20,000x、または約30,000xを含むが、これらに限定されないはるかに深いものとなる可能性がある。配列決定深さは30,000xより深いことがあり、例えば、少なくとも40,000xまたは50,000xである。
【0124】
最初の複数のパラメータのインスタンスにおけるメチル化状態に関するパラメータは、複数の断片中のそれぞれの断片について、メチル化配列決定によってそれぞれの断片中の対応するCpG部位がメチル化されていると決定された場合にメチル化されること、メチル化配列決定によってそれぞれの断片中の対応するCpG部位がメチル化されていないと決定された場合にメチル化されないこと、または、メチル化配列決定によってそれぞれの断片中の対応するCpG部位がメチル化されているかまたはメチル化されていないと決定された場合にメチル化されないことを含むことができる。他のパラメータは、メチル化シークエンシングが、それぞれの断片の全体をまとめて重複することができない場合、基礎となるCpG部位がペアードエンドリードによってカバーされない場合および/またはメチル化シークエンシングリードが断片と重複することが見出されない場合にあいまいであるため、それぞれの断片のメチル化シークエンシングが、それぞれの断片における対応するCpG部位の予想される位置での対応するCpG部位と一致しないヌクレオチドを見つけた場合に、バリアントとしてフラグングされ、それぞれの断片のメチル化シークエンシングがペアエンドシークエンシングであり、対応するCpG部位をカバーするペアードのメチル化状態が、それぞれの断片における対応するCpG部位に対する同一のメチル化状態を報告しない場合、または、それぞれの断片のメチル化シークエンシングが、対応するCpG部位のメチル化状態を解消できない場合に、不明としてフラグングされた場合に、あいまいであるため、他のパラメータを含むことができる。メチル化状態には、以下が含まれるが、これらに限定されない:メチル化されていない、メチル化されている、あいまいである(例えば、基礎となるCpGは、一対の配列読取りにおいて、いかなる読取りによってもカバーされない)、バリアント(例えば、読取りは、参照配列に基づいてその予想される位置で起こるCpGと一致せず、部位における実際の変異体または配列エラーによって引き起こされ得る)、または葛藤(例えば、2つの読取りが両方ともCpGと重複するが、一致しない場合)。あいまい、変種、葛藤などのメチル化状態はあいまいな状態(例えば、他の状態)に崩れる可能性がある。したがって、CpG状態には、メチル化された状態、メチル化されていない状態、あいまいな状態の3つの可能な状態を含むことができる。
【0125】
第1のパッチを構築することは、CpG部位の第1の独立セットに並ぶ複数の断片中の各断片について、それぞれの断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部のインスタンスをポピュレーションすることを含むことができる。複数の断片中のそれぞれの断片をCpG部位の第一の独立セットにアラインメントすることは、断片がCpG部位の第一の独立セット中のすべてのCpG部位を含むことを含まない可能性がある。
【0126】
最初のパッチの構築は、さらに、それぞれのp値または参照ゲノムにおけるそれらの開始位置に基づいて、最初のパッチに割り当てられたそれぞれの断片を選別/選択することを含むことができる。例えば、断片をそのp値によって、またはそれらの出発CpG位置によってランク付けすることによって、最初のパッチにポピュレーションする前に、断片を選別/選択することができる。断片は断片長によって選別/選択できる。フラグメントは、フラグメントセンタリングの優先順位付け(例えば、ミドルアウトまたは中央に配置されたフラグメントの選択)またはインスタンス充填の優先順位付け(例えば、トップダウンまたはトップランクのフラグメントのカップルの選択)により、最初のパッチのインスタンスにポピュレーションすることができる。異なる方法(例えば、p値による断片の選別、またはトップダウンまたはミドルアウトを用いた位置および/またはポピュレーションインスタンス)による最初のパッチの構築は、2次元マトリックス(例えば、パッチ)における差を生じ得る。異なる方法によるファーストパッチの構築は、がん種の一貫した分類をもたらす可能性がある。例えば、上記の実施形態のいずれかまたはそれらの組合せを用いた最初のパッチのポピュレーションは、サンプル間で再現性があり安定している安定したパターンを生成することによって、成功した分類のためのネットワーク入力を提供することができる。
図6Cは、2次元マトリックスとして表される、非癌cfDNAから得られたメチル化シークエンシング断片で集団化されたパッチの例を例示する。インスタンスはy軸で表すことができるが、CpG部位に対応するパラメータ(メチル化されている場合は黒色、メチル化されていない場合は暗灰色、その他の場合は白色、空の場合は明灰色)はx軸で表すことができる。断片情報は、パッチ内の各ピクセルに対するセル遮光によって表記することができる。
【0127】
第1のパッチの構築は、複数の断片中のそれぞれの断片について、i)第1のチャネルの第1の複数のパラメータ内で、複数の断片中の別の断片に基づいてメチル化状態が割り当てられていない、それぞれの断片中のCpG部位に対応するパラメータを同定し、およびii)同定されたパラメータの中で、それぞれの断片の対応するCpG部位、それぞれの断片の対応するCpG部位のメチル化状態に整列する、各パラメータについて割り当てることを含むことができる。例えば、
図6Dでは、同定ステップは、フラグメントがチャネルに割り当てられていないので、任意のインスタンスを使用することができる。したがって、
図6Eに例示されるように、第1の断片602を、第1の複数のパラメータのインスタンス604に割り当てることができる。最初の断片は、最初の断片のCpG部位に対応する最初の複数のパラメータのインスタンス604内のそれらのCpG部位に割り当てることができる。
【0128】
複数の断片中の1つ以上の断片は、複数の断片が共通のCpG部位を持たない場合には、第1パッチ中の第1のチャネルの第1の複数のパラメータの単一インスタンスに割り当てることができる。したがって、
図6Dおよび6Eの例を続けて、第2の断片CpG部位が第1の断片のCpG部位と重複していなければ、第2の断片606を第1の複数のパラメータのインスタンス604に割り当てることができ、これは
図6Fに例示されている。したがって、
図6Fでは、複数の断片が単一のインスタンスに集団化されている場合、それぞれの断片は、インスタンス内の複数の断片中の他のいずれの断片とも重複しない可能性がある。このようにして、複数のパラメータのインスタンスを、断片のCpG部位が互いに重複しないことを条件として、1つ以上、2つ以上、3つ以上、10以上、または20以上の断片を割り当てることができる。第1および第2の断片のCpG部位にオーバーラップがある場合、2つの断片は、複数のパラメータの同一インスタンスには存在できない。したがって、第2の断片606は、
図6Fに示されているようにインスタンス604に割り当てられる代わりに、
図6Gに示されているようにインスタンス608に割り当てることができる。
【0129】
第一のチャネルの第一の複数のパラメータの多数の例が、それぞれのフラグメントを割り当てることができない場合、方法800は、フラグメントを割り当てられていない第一のチャネルの複数のパラメータの例におけるゼロ充填パラメータをさらに含むことができる。例えば、
図6Cでは、多数のインスタンス(Y軸)は、それぞれの断片を割り当てることができず、そしてこれらのインスタンスにおける各パラメータは、ゼロまたは何らかの他の名義値を割り当てることができる。
【0130】
同定が、第1のチャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定することができない可能性がある場合、この方法は、さらに、それぞれの断片を廃棄することを含むことができる。
図6Gを参照すると、図示されたチャネルの列はすべて、CpG部位がチャネルにまだ割り当てられていないそれぞれの断片のCpG部位と重複する少なくとも1つの断片を含むことができる。そのような例では、まだチャネルに割り当てられていないそれぞれの断片を捨てることができる。
【0131】
最初のパッチの複数の例の例数を増やして、より高い読取深度に対応できるようにすることができる。複数の例における例数は、300例まで、500例まで、1000例まで、5000例まで、10,000例まで、または10,000例以上とすることができる。したがって、
図6D~6Nを参照すると、このような実施形態における行の数は、最大300、最大500、最大1000、最大5000、最大10,000または10,000を超えるものとすることができる。p値閾値は、断片の選択の厳密性を増加させ、高シグナルメチル化パターンを有するすべての断片が、複数の例に確実にポピュレーションされるようにするために、減少させることができる(それにより、適格な断片の数を低下させる)。実施例8で議論したように、パッチ構築のためのハイパーパラメータを調整することにより、読取深度を変化させることができる。実施例8に記載されているように、パッチ構築のための超パラメータを調整することによってp値を変化させることができる。ハイパーパラメータ値は、アッセイの特定の要素(例えば、サンプルサイズ、サンプルタイプ、メチル化シークエンシングの方法、フラグメントの質、特にメチル化パターン)に基づいて決定することができる。ハイパーパラメータ値は実験的最適化を用いて決定できる。ハイパーパラメータ値は事前のテンプレート値に基づいて割り当てることができる。
【0132】
同定が、第1のパッチの第1のチャネルの第1の複数のパラメータのインスタンス内で、複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定することができない場合、この方法は、さらに、第1のパッチの追加インスタンスを作成し、第1のパッチの追加インスタンスにそれぞれの断片を割り当てることを含むことができる。したがって、
図6Dを参照すると、
図6Dに示したパッチにそれぞれの断片のスペースがなければ、
図6Dに示したパッチの新たな空のレプリカ、またはパッチの追加インスタンスを作成することができる。この方法はさらに、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または20を超える追加パッチまたは例を作成することを含むことができる。追加貼付剤は、最初の貼付剤(原貼付剤など)と同じ構造をとることができる(
図6Dなど)。したがって、追加のパッチまたは重複したパッチは、例えば、同じ数の例、独立したCpG部位の同じセット、同じ数のチャネル、および/または、とりわけ、元のパッチの同じ特性を含むことができる。追加貼付剤は、最初の貼付剤(例:元の貼付剤)と同一の構造を有していない可能性がある。追加の例は、
図6Dに例示される他の例と同じまたは異なる構造を含むことができる。
【0133】
それぞれの断片のメチル化パターンは、第1パッチの第1の独立したCpG部位セット中の各CpG部位を含んでおらず、第1パッチを構築することができ、複数の断片中のそれぞれの断片について、それぞれの断片中に存在するCpG部位に対応する第1の複数のパラメータのインスタンス中にポピュレーションするパラメータ(例えば、パラメータに数値を割り当てる)を含んでいてもよい。最初の複数のパラメータのインスタンスにおけるパラメータはゼロを埋めることができる。したがって、例えば、
図6Fを参照すると、断片602および606によって占められていないインスタンス604内のこれらのパラメータはゼロであることができる。
【0134】
第1のパッチの構築は、第1のパッチの第1の独立したCpG部位のセットの産物および/または第1の複数のパラメータの複数の例における例数が、事前に決定された制約を満たすために最小化されることを含むことができる。例えば、CpG部位の第1の独立セットが「100」であり、かつ第1の複数のパラメータの複数の例における例数が「50」である場合、第1のパッチの第1の独立セットのCpG部位および第1の複数のパラメータの複数の例における例数の積は、5000とすることができる。所定の制約は、最大でも100万、500,000、100,000、50,000,10,000、1000、100以下であり得る。いくつかの実施形態において、所定の制約は、少なくとも100、1000、10,000、50,000、100,000またはそれ以上であり得る。第一パッチの構築は、第一パッチの第一の独立したCpG部位の第一のセットが、CpG部位を横切る高次の特徴を捕捉するためにあらかじめ決められた最小数のCpG部位(例えば、30以上、50以上、または100以上)を含むことができる。
【0135】
最初のパッチの構築は、最初のパッチのCpG部位の最初の独立セットにおけるCpG部位の数および最初の複数のパラメータの複数の例における例の数が、あらかじめ構築されたマトリックスとして同じ対応する次元(CpG部位の数、例数)を含むことができる。事前に構築されたマトリックスは、事前に訓練されたネットワークが新しい入力(例えば、新しいサンプル)を分類するために使用できるように、事前に訓練されたネットワークであり得る。いくつかの実施形態において、事前に構築されたマトリックスは、事前に訓練されたネットワークへのインプットとして使用することができる。第1のパッチの構築は、第1のパッチの第1の独立したCpG部位の第1のセットが、複数の断片中の個々の断片が第1のパッチのポピュレーションの間に人工的に分割されないように分配されることを含むことができる。最初のパッチの構築には、最初のパッチの第一の独立したCpG部位の第一の独立したセットが、第一のパッチにおける第一の独立したCpG部位のセットがセグメント化せず、CpG部位密度の高い領域を切断または排除しないように分配され得ることを含むことができる。
【0136】
データセットを取得した後、第1パッチを構築する前、または被験体の疾患/癌状態を決定する任意の段階において、方法800は、さらに、それぞれの断片中の複数のCpG部位を横切る対応するメチル化パターンがp値閾値を満たさないp値を有する各断片をそれぞれ複数の断片から除去することによって、複数の断片を剪定することを含むことができる。それぞれの断片のp値は、それぞれの断片の複数のCpG部位を有する複数の参照断片中の複数のCpG部位のメチル化パターンの分布に対するそれぞれの断片のメチル化パターンの比較に基づいて決定することができる。複数の参照断片中の各参照断片のメチル化パターンは、1つ以上の共通の特性を有する被験体のコホート(例えば、健康な被験体のコホート、喫煙する健康な被験体のコホート、喫煙しない被験体のコホート、男性被験体のコホート、女性被験体のコホート、閾値年齢を超える被験体のコホート、特定の年齢範囲にある被験体のコホート、特定の遺伝子突然変異のセットを有する被験体のコホート、特定の人種の被験体のコホートなど)から得られる生物学的試料からの核酸のメチル化配列決定によって得ることができる。この複数の参照フラグメントは、被験者の健康なコホートから得ることができる。被験者の健康なコホートは、少なくとも10、20、50、100、1000またはそれ以上の被験者を含むことができる。
【0137】
がん陽性患者の血液サンプルから得られた断片の大部分は、血流中に排出された健康な細胞に由来する可能性がある。このような場合、メチル化配列決定から得られる複数の断片のサブセットは、癌組織に由来し得る。
図3および
図4の実施例ワークフローに概説されているように、p値フィルターは、健康な(例えば、非癌または「正常な」)組織と比較して、高度に差別的なメチル化状態を有さない読取りを除去するために使用することができる。これは、健康なサンプルのコホート(例えば、約130-150)を用いてフラグメントメチル化パターンの正規分布を決定する生成モデル(例えば、モデル分布)を用いて行うことができる。各モデル分布が各遺伝子座の健康なメチル化状態を表すことができるように、基準分布を各遺伝子座で生成することができる。参照試料の分布に基づき、観察された断片についてp値を求めることができる。ここで、p値は、少なくとも観察された断片の場合と同等に可能性の低いメチル化パターンを観察する確率とすることができる。P値は、各生体試料について、複数の断片中の各断片について計算することができ、したがって、優先度の低いまたは低いシグナルメチル化パターン断片(例えば、健康な細胞から)を除去し、潜在的に興味または識別値のそれらの断片を保持するハイパスフィルターを提供する。p値の閾値は、せいぜい0.1、0.05、0.01、0.001以下とすることができる。p値の閾値は、少なくとも0.0001、0.001、0.01、0.05、0.1以上とすることができる。
【0138】
図6Hを参照し、第1のパッチを例示するために
図6Aの命名法を使用すると、第1のチャネル532-1-1および第2のチャネル532-1-2を含む複数のチャネルを含むことができる。各チャネルは、一つの特性(例えば、最初の特性のパラメタ)に関連する情報またはデータを表現することができる。
図6Aにおいて、第2チャネル532-1-2は、第1チャネル532-1-1の第1の複数のパラメータの各インスタンスに対する第2の複数のパラメータを含むことができ、ここで、第2の複数のパラメータの各インスタンスは、第1のパッチに対するCpG部位の第1の独立したセットにおける、CpGメチル化状態以外の、第1の特性に対するパラメータを含むことができる。第1のパッチの構築は、CpG部位の第1の独立セット、第1の複数のパラメータの全部または一部のインスタンス、およびそれぞれの断片のメチル化パターンに基づく第2の複数のパラメータの全部または一部のインスタンスに並ぶ、複数の断片(例えば、
図6Hの断片602および606)中の各断片について、ポピュレーションを含むことができる。第2のチャネル532-1-2は、それぞれのCpG部位、それぞれの断片、それぞれのサンプル、またはそれぞれの被験体についての追加の特徴および/または属性を表す別の2次元マトリックスを含むことができる。したがって、
図6Aおよび6Hは、第1の特徴(例えば、CpGカバー率)を含む第2のチャネル532-1-2を例示することができる。
図6Aおよび6Hの例示的な実施形態では、第2のチャネルは、複数のMインスタンス(例えば、
図6Aおよび6Hに図示されているようにY軸に沿って)を含むことができ、ここで、各インスタンスは、第1のチャネル532-1-1のLCpG部位536-1-1-1の第1の独立したセットに対応する複数のパラメータ(
図6Aおよび6Hに列として図示されている各複数)を含む。次に、第2チャネル532-1-2内の複数の例におけるインスタンスMについて、
図6Aの538-1-2-M-1、538-1-2-M-2、538-1-2-M-3、538-1-2-M-4、および538-1-2-M-Lによって、複数のパラメータを示すことができる。したがって、断片602および606を、
図6Aおよび6Hに図示されたパッチによって表されるゲノムの領域にアラインメントすることができ、アラインメントされた断片中のCpG部位の状態を用いて、
図6Hに図示されているように、これらのCpG部位に対応するパッチのチャネル532-1-1のパラメータをポピュレーションすることができる。チャネル532-1-1の中にそのようにポピュレーションされた各そのようなパラメータに対して、
図6Hの中で示されるように、第二のチャネル532-1-2の中に対応するパラメータが存在することができる。これらの対応するパラメータは、次に、チャネル532-1-2が表すそれぞれのCpG部位、それぞれの断片、それぞれのサンプル、またはそれぞれの被験体についての追加の特徴および/または属性に関連する値を記入することができる。例えば、チャネル532-1-2がフラグメントマッピングスコアのバイナリ表現である場合、ソースフラグメントがマッピングしきい値を満たすマッピングスコアを有するとき、追加特性は「1」(説明のために
図6Hでは左リーニングハッシュマークによって表される)とすることができ、ソースフラグメントがマッピングしきい値を満たさないマッピングスコアを有するとき、追加特性は「0」(説明のために
図6Hでは右リーニングハッシュマークによって表される)とすることができる。
図6Hに示すように、フラグメント606は、マッピング閾値を満たすマッピングスコアを有することができ、一方、フラグメント602は、マッピング閾値を満たさないマッピングスコアを有することができる。チャネル2(2番目のチャネル)の特徴はフラグメントレベルの特徴であり得るが、チャネル1(1番目のチャネル)の特徴は個々のCpG部位のレベルにあり得ることに注意すること。したがって、チャネル2については、与えられた断片に対応するパラメータのすべてが断片レベルの値をとるのに対し、チャネル1については、断片を表す各パラメータは異なる値をとることができる(CpGメチル化)。これは、任意のチャネルが、異なる解像度(例えば、CpG部位の分解能、フラグメントの分解能など)で、チャネルパラメータを介してどのようにサンプルを採取し、報告できるかを示すことができる。
【0139】
複数の断片における第1のパッチの構築は、i)第1の複数のパラメータの中で、第1のチャネルの第1の複数のパラメータの中で、複数の断片中の別の断片に基づいてメチル化状態が割り当てられていないそれぞれの断片中のCpG部位に対応するパラメータを同定すること(
図6Gで上述)、ii)特定されたパラメータの中で、それぞれの断片のCpG部位に並ぶパラメータ、それぞれの断片のCpG部位のメチル化状態(
図6Gで上述)を割り当てること、及びiii)特定されたパラメータの中で、第1の複数のパラメータの第2のパラメータのうち、それぞれの断片のCpG部位、それぞれの断片のCpG部位の第1の特性(チャネル532-1-1について
図6Hで図示)に対応する第2の複数のパラメータの第2のパラメータの中で、それぞれの断片のCpG部位の第1の特性(チャネル532-1-1について
図6Hで図示)を割り当てること、を含むことができる2)、前述したように。したがって、それぞれの断片のメチル化パターンに基づいて、第1の複数のパラメータの全てまたは一部のインスタンスにポピュレーションされる断片について、メチル化状態およびそれぞれの断片のメチル化状態以外のそれぞれのCpG部位の第1の特徴の両方を、
図6Hに例示されるように、第1および第2のチャネルにおける対応する例にそれぞれポピュレーションすることができる。
【0140】
複数の断片中の1つ以上の断片が、
図6Fに例示されるように、複数の断片が共通のCpG部位をもたないことを条件に、第1のパッチ中の第1のチャネルの第1の複数のパラメータの単一インスタンスに割り当てることができる。複数の断片が共通のCpG部位を持たない場合には、第1のパッチにおける第1のチャネルおよび第2のチャネルの第1の複数のパラメータの単一インスタンスに、1つ以上の断片を割り当てることができる。
【0141】
それぞれのCpG部位の最初の特徴(例えば、
図6Hのチャネル532-1-2の特徴)は、それぞれのCpG部位がオンであるそれぞれの断片の多重性を含むことができる。特に、第1のパッチの第2のチャネルにおける第1の独立セットのCpG部位における各CpG部位について、第1の特徴は、それぞれのCpG部位に並ぶそれぞれの断片によって表される多数の重複断片を表す多重性を含み得る。たとえば、複数の断片が同一の開始位置と終了位置をもち、それぞれの断片に含まれるすべてのCpG部位で同じメチル化状態を示す場合には、同一の倍数とみなすことができる。いくつかの実施形態において、多重度は、互いに少なくとも10%、20%、30%、50%、70%、80%、90%またはそれ以上の重複CpG部位を有する多数の断片を表すことができる。このように断片の多重性は、貴重な情報を保持しながら、入力データセットのサイズを小さくすることができる。複数の同一の断片が複数の細胞に由来することがある。
図6Iでは、チャネル532-1-2の特性がフラグメントマッピングスコアを含む
図6Hの場合ではなく、チャネル532-1-2の特性が多重性を含むことができる。さらに、フラグメント606は4の多重度を有し得るが、フラグメント602は1の多重度を有する。生物学的試料中に、断片606のCpG部位を有する4つの配列読取りと、断片602のCpG部位を有する1つの配列読取りとがあり得る。複数の同一の断片が同一の細胞に由来することもある。複数の同一断片は、PCR増幅からではなく、メチル化配列決定から得られる断片を含むことができ、そこでは、PCR増幅から生じた重複物が、データ前処理の間にデータセット(例えば、de-duped)から除去される。PCR増幅から生じる重複は、ノーマライゼーションおよび/または濃縮段階を用いてさらに減少させることができる。
【0142】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、健康なコホートから引き出されたCpGβ値を含み得る。β値は、(i)メチル化プローブ強度(例えば、メチル化CpG部位強度)と(ii)メチル化プローブ強度と非メチル化プローブ強度の合計の間の比とすることができる。メチル化されたプローブ強度は、CpG部位、領域、全ゲノムのメチル化状態(例えば、メチル化された部位のパーセンテージ)を示すことができる。メチル化プローブ強度は、特定のCpG部位を覆う断片の総数に対する特定のCpG部位でのメチル化断片の数の比を示すことができる。次いで、与えられた試料についての各CpG部位におけるメチル化状態のβ値は、低メチル化または高メチル化されている断片の数を、それぞれのCpG部位における複数の断片のメチル化状態のパーセンテージとして表すことができる。例えば、それぞれのCpG部位についての参照β値は、「健康な」コントロールまたは参照試料中のCpG部位におけるメチル化のパーセンテージを定量することができる。
【0143】
それぞれのCpG部位の最初の特徴は、コホート(例えば、健康な被験者のコホート、喫煙する健康な被験者のコホート、喫煙しない被験者のコホート、男性被験者のコホート、女性被験者のコホート、閾値年齢を上回る被験者のコホート、特定の年齢範囲にある被験者のコホート、特定の遺伝子変異のセットを有する被験者のコホート、特定の人種の被験者のコホートなど)から導かれたCpGM値、健康なコホートにおける所定の組織型から導かれたCpGM値、または被験者から導かれたCpGM値を含み、ここで、M値はメチル化プローブ対非メチル化プローブの強度の対数2比として計算される。See,Duetal.,2010,ComparisonofBeta-valueandM-valuemethodsforquantifyingmethylationlevelsbymicroarrayanalysis,“BMCBioinformatics.11:587,doi:10.1186/1471-2105-11-587であり、ここではその全体を引用してここに組み込む。このような特徴は、CpGの分解能にある可能性があり、
図6Jに図示されている。
図6Jでは、チャネル532-1-2の特性がフラグメントマッピングスコアとなり得る
図6Hの場合ではなく、チャネル532-1-2の特性は、健康なコホートから導かれたCpGβ値またはM値となり得る。さらに、
図6Hおよび6Iとは異なり、チャネル532-1-2の特徴は、断片の供給源ではなく、むしろCpG部位そのものと関連している可能性がある。したがって、
図6Jのチャネル532-1-2の各カラムにおけるチャネル532-1-2値は、各カラムが参照配列(参照ゲノム)中の同じCpG部位を表しているので、同じ値を有することができる。すなわち、
図6Jのチャネル532-1-2の各列は、チャネル532-1-2によって表される参照ゲノム中の対応するCpG部位のβ値またはM値を表す。健康なコホートを用いるのではなく、他の特性の特性又は組み合わせを有する被験者のコホートを用いることができる(例えば、喫煙する健康な被験者のコホート、喫煙しない被験者のコホート、男性被験者のコホート、女性被験者のコホート、閾値年齢を超える被験者のコホート、特定の年齢範囲にある被験者のコホート、特定の遺伝子変異のセットを有する被験者のコホート、特定の人種の被験者のコホートなど)。それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、被験体から引き出されるCpGβ値を含み得る。これは、β値が健康なコホートの断片ではなく、試験対象のすべての断片にわたって存在し得るという例外を除いて、
図6Jのように正確に見える結果を有し得る。
【0144】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、5’および3’隣接CpG部位のメチル化状態についてのピアソンの相関スコアを含み得る(コホートまたは示された与えられた対象からのいずれかからの)。これは、与えられたカラムの値が、(i)与えられたカラムの左へのカラムにおけるCpGのメチル化状態、および(ii)試験対象の全断片にわたる与えられたカラムの右へのカラムにおけるCpGのメチル化状態、または代替的に、本明細書の別の記載のコホートの相関の尺度(例えば、ピアソンの相関)であるという例外を除いて、
図6Jのように見える結果を有し得る。例えば、
図6Kを参照すると、チャネル532-1-2のカラム610の特性は、チャネル532-1-1の所定のCpG部位に対応することができる(
図6Jの)。さらに説明するために、このCpG部位にマップされる10個の断片620-1、。。。620-10があり、与えられたCpG部位の左側に10個のCpG状態(10個の断片のそれぞれに1個ずつ)があり、与えられたCpG部位の右側に10個のCpG状態(10個の断片のそれぞれに1個ずつ)がある。これら10個の断片は、被験体から得ることができる。10個の断片はコホート由来である。CpG部位に置かれる値は、(i)与えられたCpG部位の左側への10個のCpG状態のメチル化状態(X値)と、(ii)与えられたCpG部位の右側への10個のCpG状態のメチル化状態(Y値)との間のピアソンの相関スコアであり得る。すなわち、(1,0)はフラグメント620-1について、(0,0)はフラグメント620-2についてなどである。ピアソンの相関係数計算器を用いてこの例のピアソンの相関スコアを計算すると、この例ではXとYの間にr(8)=0.67、p=0.34のピアソン相関を示すことができる。ここで、(8)は10サンプルを与えた自由度8を示し、これに対するp値は0.34である。したがって、このCpG部位に対応するチャネル532-1-2のパラメータ610の全列を、
図6Kに例示されるように値.67に設定することができる。
【0145】
本明細書中の別の記載のコホートまたは示された与えられた対象からのいずれかの、5’および3’隣接CpG部位のメチル化状態に対するピアソンの相関スコアよりもむしろ、特性は、健康なコホートに対して、被験対象におけるそれぞれのCpG部位のメチル化状態のJaccard類似性(またはJaccardインデックス、Jaccard類似係数、およびUnionを超える相互作用)を含み得る。Jaccard類似性インデックス(またはJaccard類似性係数)は、2組のメンバーを比較して、どのメンバーが共有され、どちらが異なるかを見ることができる。Jaccard類似性指数は、0%から100%の範囲で、2組のデータの類似性の尺度となりうる。Jaccard類似性指標は、交差の大きさを2組のデータの組合せの大きさで割ったものであることができる。したがって、
図6Kの例をJaccardインデックスに適用することができるが、例外は、計算がPersoncorrelationではなくJaccard類似性のものであることである。左手および右CpG部位(5’および3’CpG部位)間のJaccard類似性またはPearson相関よりむしろ、オーバーラップ係数、単純マッチング係数、Sζrensen-Dice係数、重み付けJaccard類似性、重み付けJaccard距離、Tanimoto類似性または距離、距離メトリック、またはTversky指数を、本明細書の他の箇所に記載されるコホートまたは表される所定の対象からのいずれかから、5’および3’隣接CpG部位のメチル化状態を用いて計算することができる。
【0146】
表1に距離測定基準の例を示す
[表1]距離メトリクスの例
【0147】
表1では、2つのメチル化状態ベクターとすることができる。それぞれのエレメントは、n(nは正の整数である)断片のうちの1つの隣接するCpG部位のメチル化状態を表し、中央の主題CpG部位にマッピングする断片を“1“または“0“のどちらかとする。ここで、“1“および“0“の値は、隣接するCpG部位について可能な2つのメチル化状態(メチル化および非メチル化)を表す。X^p=[X_1^p,…,X_n^p]andX^q=[X_1^p,…,X_n^q][X_1^p,…,X_n^p][X_1^p,…,X_n^q]例えば、被験者の中央CpG部位にマッピングされる複数の断片(n断片)中の対応するCpG部位の5’隣接CpG部位のメチル化状態を、各要素が被験者の中央CpG部位にマッピングされる複数の断片中の対応する断片中の3’隣接CpG部位のメチル化状態を表すことができるが、各要素は、被験者の中央CpG部位にマッピングされる複数の断片中の対応する断片中の3’隣接CpG部位のメチル化状態を表すことができる。X^pX^qまた、maxiとminiは、それぞれith要素の最大値(“1“)と最小値(“0“)にすることができる。
【0148】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれの断片のp値を含むことができる。それぞれの断片のメチル化パターンを用いて、それぞれの断片と同じCpG部位をもつコホートの断片と比較して、チャネル内のそれぞれの断片のp値を計算することができる。したがって、
図18を参照すると、それぞれのフラグメント1802が、仮想的なメチル化パターン(1、1、0、1、1、1)を有する6つのCpG部位を有し、ここで、値「1」がメチル化されたことを示し、値「0」がメチル化されていないことを示す場合、式「(1、1、0、1、1、1)」は、それぞれのフラグメント1802のメチル化状態ベクター1803であり得る。この例では、それぞれの断片1802のメチル化パターンに対するp値を、同じ6つのCpG部位、例えば断片1804-1~1804-100を有するコホートにおけるそれらの断片のメチル化パターンと関連させて決定することができる。それぞれの断片1802について、対照群データ1804と比較して、それぞれの断片のメチル化状態ベクター1803が生じる確率のサンプルは、それぞれの断片のメチル化状態ベクター中のCpG部位を包含する可能なメチル化状態ベクター1806-1、1806-2、1806-3、・・・、1806-Mのサブセットをランダムにサンプリングすることによって計算することができる。試験メチル化状態ベクター1803の長さは6であるので、フラグメント1802の6つのCpGを包含するメチル化状態ベクターの2つの6可能性があり得る。一般的な例では、mytilation状態ベクトルの可能性の数は2nである可能性があり、ここでnはテストmethylation状態ベクトルの長さである。サンプリングされた可能なメチル化状態ベクター1806の各々に対応する確率は、断片のメチル化状態ベクター1802およびサンプリングされた可能なメチル化状態ベクター1806について、例えばMarkov鎖モデルまたは何らかの他の形態のモデルを用いて計算することができ、それにより、サンプリングされた可能なメチル化状態ベクター1806の、それぞれの断片のメチル化パターン(メチル化状態ベクター)1803の確率以下に対応する割合を計算する。例えば、米国特許出版番号を参照のこと。US2019-0287652A1、以下を引用して組み込んでいる。隣接するCpG部位の関連性に関しては仮定がなされていない可能性があり、したがって、Markov連鎖モデルを用いてp値を推定することはできない。例えば、米国特許出版番号で開示されているようなマルコフ連鎖モデルを用いるのではなく。US2019-0287652A1、統計的有意性を測定するための任意の技術は、モーメント母関数、組み合わせ法、指数族、漸近近近似、ガウス近似、ポアソン近似および大偏差近似を含むがこれらに限定されない、例として使用することができる。次に、この計算された割合に基づいて、それぞれの断片1802のメチル化パターン1803に対する推定p値スコアを計算することができる。このp値は、本明細書の別の個所に記載されているように、断片1804が1つ以上の共通の特徴を有する被験体のコホートから引き出されるという、コホートにおいて、それぞれの断片1802または他のメチル化状態ベクターのメチル化状態ベクター1803を観察する確率をさらに低く表すことができる。これにより、p値スコアが低くなると、コホートにはまれで、コホートに比べてフラグメントが異常にメチル化された状態で標識されるメチル化ベクターに一般的に対応することができる。断片1804が健康な被験体のコホートから引き出される例では、断片1802の高いp値スコアは、一般的に、健康な被験体において、相対的な意味で存在すると予想されるメチル化状態ベクター1803に関係し得る。断片1804が引き出されるコホートが非癌性グループである場合、例えば、メチル化状態ベクター1803に対する低いp値は、それぞれの断片1802がコホートに対して異常にメチル化されていることを示唆することができ、したがって、断片1802が引き出される被験体における癌の存在を示す可能性がある。
【0149】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれのCpG部位がオンであるそれぞれの断片の長さを含み得る。たとえば、
図6Lでは、断片602は62残基の長さをもつことができ、断片606は98残基の長さをもつことができる。この場合、フラグメント602および606についてのチャネル532-1-2における対応するパラメータを、それぞれの値62および98とともに図示のようにポピュレーションすることができる。
【0150】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、断片配列源を含み得る。例えば、断片シークエンスソースは、被験体のシークエンス読取のために生検された器官を示すことができる。臓器は、「1」=脳、「2」=胃、「3」=乳房、「4」=肺、「5」血液などのルックアップテーブルでコード化することができる。与えられた被験体についての全ての断片が同一の器官または供給源由来である可能性が高いので、
図6Mは、血液に由来する断片602および606が、チャネル532-1-2においてコードされている状況を例示することができる。供給源の器官をコードするよりも、断片配列ソースは、配列を得るために使用される配列決定のタイプを指定することができ、例えば、「1」は標的化された対末端配列決定を示し、「2」は標的化された単一末端配列決定を示し、「3」は対末端全ゲノム配列決定を示し、「4」は単一末端全ゲノム配列決定を示すなどである。チャネル532-1-2の第一の特徴は、配列リードが増幅され、配列決定された特定の方法を示すことができ、そこでは、ルックアップテーブルを用いて、様々な異なる可能性を追跡することができる。例えば、「1」=5’トランスクリプトームキット、「2」=3’トランスクリプトームキットなどである。
【0151】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれのフラグメントのフラグメントマッピング品質スコアを含み得る。断片マッピング品質スコアは、EwingおよびGreen,1998の技術、「フレッドを用いた自動シークエンサートレースのベースコール」を用いて計算することができる。ii.ゲノム研究所のエラー確率8:186-194.
図6Lはこのような帰属を説明することができ、フラグメント606は98のマッピング品質を有し、フラグメント602は62のマッピング品質を有する。断片に寄与した複数のシークエンスリード(例えば、断片の多重度が1を超える)の場合、断片マッピングの質スコアは、複数のシークエンスリードのマッピングの質スコアの平均となりえる。
【0152】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、参照ゲノム中の5’隣接CpG部位(または3’隣接CpG部位までの距離)までの距離(例えば、ヌクレオチド数)を含み得る。
図6Nでは、チャネル532-1-2の特徴は、与えられたCpGがその近傍のCpG部位までの5’距離(または3’隣接CpG部位までの距離)であり得る。さらに、
図6Hや
図6Iとは異なり、
図6Nのチャネル532-1-2の特徴は断片の供給源ではなく、むしろCpG部位そのものと関連づけることができない。したがって、
図6Nのチャネル532-1-2の各カラムにおけるチャネル532-1-2値は、各カラムが参照配列(参照ゲノム)中の同じCpG部位を表すため、同じ値を有することができる。
図6Nのチャネル532-1-2の各列は、与えられたCpGがその近傍のCpG部位までの5’距離(または3’隣接CpG部位までの距離)を表すことができる。距離は、直線ヌクレオチドスケール、対数ヌクレオチドスケール、またはヌクレオチドスケールのいくつかの他の機能であり得る。
【0153】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれのCpG部位が内部にある遺伝的要素を含み得る。このような遺伝的エレメントの例としては、特に、プロモーター/エンハンサー領域、エキソン、イントロン、ヒストン修飾マーク、CpGアイランド/海岸/貝殻、進化的保存部位、転写因子結合部位、制限部位、交差ホットスポット滴下剤部位、およびポリアデニル化シグナルが挙げられるが、これらに限定されない。遺伝因子は、「1」=エキソン、「2」=イントロン、「3」=制限部位などのようなルックアップ表でコード化することができる。
【0154】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれのCpG部位に関連する生物学的経路(例えば、1つ以上の遺伝子によって誘発され得る1つ以上の遺伝子または生物学的機能によって誘発される細胞内の分子間の複数の相互作用)を含み得る。第一の特徴は、主題のCpG部位を含むそれぞれの断片の生物学的経路を含み得る。したがって、ある生物学的経路が10個の遺伝子によって引き起こされる1つ以上の生物学的機能を含み、それぞれの断片がこれらの遺伝子の1つにマップされる場合、最初の特徴は与えられた生物学的経路となり得る。生物学的経路は、ルックアップテーブルでコード化することができる。このように、
図6Iのフラグメント606は、生物学的経路「4」としてのルックアップテーブルにコードされた生物学的経路にマップすることができ、フラグメント602は、生物学的経路「1」としてのルックアップテーブルにコードされた生物学的経路にマップすることができる。生物学的経路の例は、Fabregatらに見出される。2018PMID:29145629、金久・後藤、2000、「KEGG:KyotoEncyclopediaofGenesandGenomes」、核酸研究。28(1),pp.27-30、各項目は以下に引用を含める。
【0155】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれのCpG部位に関連する遺伝子を含み得る。より詳細には、第一の特徴は、主題のCpG部位を含むそれぞれの断片がマッピングする遺伝子であり得る。遺伝子はルックアップテーブルでコード化することができる。このように、
図6Iの断片606は、遺伝子「4」として、また断片602は、遺伝子「1」として、ルックアップテーブルにコードされた生物学的なものにマップすることができる。それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれのCpG部位についてのCpG遷移インパルス関数の値を含み得る。それぞれのCpG部位の最初の特徴は、CpG部位がCpGアイランドの一部であるかどうかの決定を含むことができる。Yuら、2017年、「GaussianCpG:ヒトゲノム配列におけるCpGアイランドの検出のためのガウスモデル」、BMCゲノミクス18(4)、pを参照のこと。392,これは、CpG部位が島の一部であるかどうかの決定方法、およびそのような計算がインパルス関数に近づく場合についての参照によって組み込まれる。それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれのCpG部位についてコードするCpGランレングスの値を含み得る。Chenら、2018、「CpG密度およびDNAメチル化のコンフリクトは、ヒトおよびマウス組織における遺伝子調節に近位および遠位に関与する」、Epgenetics13(7)、pp.721-741を参照のこと。それぞれのCpG部位の最初の特徴は、CpG部位がギャップのコンフリクト(COG)領域にあるか否か、CpG部位がConflictofOverlap(COO)領域にあるか否か、CpG部位がHarmonywithMediumValue(HMV)領域にあるか否か、またはCpG部位がHarmonywithExtremeValue(HEV)領域にあるか否かを含むことができる。Chenら、Idを参照。
【0156】
それぞれのCpG部位の最初の特徴(例えば、チャネル532-1-2の特徴)は、それぞれのCpG部位がオンである断片の読み鎖の向きを含むことができる。供給源断片は、R1(5’から3’へ)、R2(3’から5’へ)、あるいはその両方の読み鎖の向きをもつことができる。R1は“1“、R2は“2“、両方とも“0“で表すことができる。断片の読み鎖の向きは5’方向か3’方向である。断片配列源は、順方向または逆方向であり得る。
【0157】
それぞれのCpG部位の最初の特徴は、それぞれのCpG部位に並ぶそれぞれの断片についての1つの断片エントロピー、またはそれぞれのCpG部位を含む固定された長さの領域の横断領域エントロピーを含むことができ、ここでは、観察されたすべてのメチル化状態にわたって、横断領域エントロピーが、群として固定された長さの領域と重複していることが計算される。それぞれのCpG部位の最初の特徴は、それぞれのCpG部位についてのCpG部位ごとのエントロピーを含むことができ、ここで、部位ごとのエントロピーは、それぞれのCpG部位に対応するパラメータを含む全てのインスタンスにわたって計算される。正規化メチル化エントロピー値を算出する方法は、Jenkinsonら、2017年、「潜在的エネルギー景観は、エピゲノムの情報理論的性質を同定する。」Natに開示されている。ジェネット。49(5),ここに引用して組み込まれているpp.719-729
【0158】
それぞれのCpG部位の最初の特徴は、それぞれの断片のメチル化密度を含むことができる。メチル化密度は式を用いて計算できる:
methylationdensity=((β-value_(expectedhealthymethylation)-β-value_(observedfragmentmethylation)))/(fragmentbasepairdistance),
【0159】
ここで、β値expectedhealthymethylationは正常なコホートのCpGサイトのβ値であり、β値observedfragmentmethylationはそれぞれのCpGサイトの被検者で観測されたβ値である。参照ゲノム中の隣接するCpG部位(例えば、参照ゲノム中の5’隣接または3’隣接するCpG部位)までの距離(断片塩基対距離)は、参照ゲノム中で5~100塩基対離れていてもよい。隣接するCpG部位までの距離は、100~500塩基対離れていてもよいし、500~1000塩基対離れていてもよいし、1000~5000塩基対離れていてもよいし、5000~10,000塩基対離れていてもよいし、参照ゲノム中で10,000塩基対以上離れていてもよい。それぞれのCpG部位の最初の特徴は、固定した長さの領域のメチル化密度(たとえば、100塩基対のメチル化密度)、それぞれのCpG部位での最小の全被覆率、あるいはCpG近傍密度(たとえば、近隣のCpG部位でのCpG密度)である。この場合、固定した長さの領域(たとえば、200塩基対の滑り窓)を含む滑り窓を用いて、滑り窓のCpG部位の数を求めることができる。それぞれのCpG部位の最初の特徴は、メチル化強調密度を含むことができ、そこでは、メチル化されたCpG部位の数が、固定された長さの領域(例えば、断片または滑り窓)について決定される。スライディングウィンドウの詳細は本稿の別の個所に記載されている。CpGメチル化密度を算出するための追加の方法は、Zhangら、2008、「マイクロアレイ上の領域メチル化伸長アッセイにより局所CpGメチル化密度を定量するための新規方法」、BMCGenomics9(59)、doi:10.1186/1471-2164-9-59に開示されており、これは以下に引用により組み込まれる。
【0160】
それぞれのCpG部位の最初の特徴は、ゲノム基準位置、それぞれのCpG部位に並ぶ最初の複数のパラメータのインスタンスにおける断片の開始または終了位置、それぞれのCpG部位がオンであるそれぞれの断片の長さ、それぞれのCpG部位がオンであるそれぞれの断片における反復の数、またはそれぞれのCpG部位がオンであるそれぞれの断片の5’クリップされた状態を含むことができる。
【0161】
それぞれのCpG部位の最初の特徴は、それぞれのCpG部位に対する癌関連パラメータを含み得る。がん関連パラメータには、がんに関連するあらゆる情報を含めることができる。癌関連パラメータは、差次的メチル化情報、遺伝子発現データ(例えば、メチル化マイクロアレイ、遺伝子発現マイクロアレイおよび/またはRNAアレイまたはRNA配列決定)、および/またはゲノムアッセイを用いて決定することができる。がん関連パラメータは、モデル生物の知見(例えば、酵母、マウスなどの研究生物群に基づくヒト生物学を理解するための研究)を用いて決定することができる。それぞれのCpG部位の最初の特徴は、参照データベース(例えば、癌ゲノムアトラスプログラム(TCGA)、UCSCゲノムBrowser、および/またはマウス腫瘍生物学システム(MTB))などの外部データ源から取得または計算することができる。
それぞれのCpG部位の最初の特徴は、限定されるわけではないが、起源組織、起源器官、および/または複製を含む組織または試料レベルの特徴を含み得る(例えば、バッチ効果を同定または調整するため、および/または縦軸パターンを検出するため)。それぞれのCpGサイトの最初の特徴は、喫煙者/非喫煙者、年齢群、および/または性別を含むが、これに限定されない、被験体レベルまたはコホートレベルの生物学的なものを含み得る。第一の特徴は、該フラグメントメチル化パターンに生物学的、構造的、または技術的文脈を提供する、上記で述べられていないCpG部位レベル、フラグメントレベル、試料レベル、組織レベル、被験体レベルまたはコホートレベルにおける任意の属性を含み得る。
【0162】
複数のチャネルは、少なくとも3つのチャネルを含むことができる。第1の複数のチャネルにおける第3のチャネルは、第1の複数のパラメータの各インスタンスに対する第3の複数のパラメータの対応するインスタンスを含むことができ、ここで、第3の複数のパラメータの各インスタンスは、CpG部位の第1の独立したセットにおけるそれぞれのCpG部位の第2の特性に対するパラメータを含む。第2の特徴は、第1の特徴以外のものであり得るが、本開示において記載された第1の特徴のいずれも含み得る。
【0163】
図6Aは、第3のチャネル532-1-3および第4のチャネル532-1-4を含む複数のチャネルの例を示しており、それぞれ第2の特性および第3の特性を含んでいる。
図6Aに描かれるように、第3のチャネルは、複数のMインスタンスを含むことができ、ここで、各インスタンスは、第1のパッチ530-1のLCpG部位536-1-1-1の第1の独立したセットに対応する複数のパラメータを含む。次いで、第1のパッチ530-1の第3のチャネル532-1-3における複数の例におけるインスタンスMについて、538-1-3-M-1、538-1-3-M-2、538-1-3-M-3、538-1-3-M-4、および538-1-3-M-Lによって、複数のパラメータを示すことができる。同様に、第4のチャネルは、複数のMインスタンスを含むことができ、ここで、各インスタンスは、第1のパッチ530-1のLCpG部位536-1-1-1の第1の独立したセットに対応する複数のパラメータを含む。次いで、第1のパッチ530-1の第4のチャネル532-1-4における複数の例におけるインスタンスMについて、538-1-4-M-1、538-1-4-M-2、538-1-4-M-3、538-1-4-M-4、および538-1-4-M-Lによって、複数のパラメータを示すことができる。ここで、第2および第3の特徴は、第1の特徴以外であり得るが、本開示において記載された第1の特徴のいずれをも含み得る。
【0164】
第1のパッチ530内の複数のチャネルは、少なくとも3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上のチャネル532を含むことができる。いくつかの実施形態において、第1パッチにおける複数のチャネルは、多くても20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5またはそれ以下のチャネル532を含むことができる。第1のパッチ530内の複数のチャネル中の各チャネル532は、異なる特性を含むことができる。第1のパッチ530内の複数のチャネルにおける2つ以上のチャネルは、同じ特性を含むことができる。第2の特徴は、第1の特徴について上述した特徴のいずれか1つ以上であり得る。第1のパッチ530内の少なくとも3つのチャネルの1つまたは複数は、第1の特性について上述した特性のいずれか1つまたは複数を含むことができる。
図6Bは、6つのチャネル(例えば、メチル化状態、ベータコントロール(例えば、#-コントロールまたは健康なサンプルの値)、ベータサンプル(例えば、#-トレーニングまたは試験サンプルの値)、p値、多重性、およびプリオール(例えば、プロモーター/エンハンサー領域、エキソン、イントロン、ヒストン修飾マーク、CpGアイランド、進化的保存、転写因子結合部位に関連する生物学的プリオーサー))を含む、最初のパッチ530-1の例を例示する。それぞれのチャネルはランク3のアレイ(たとえば、4つの平面からなるアレイ、それぞれ3列と5列を含む)として表され、最初のパッチ内で深さを縦に積み重ねることができる。
第一の独立したCpG部位セットのそれぞれのCpG部位に共通する特徴は、第一のパッチのそれぞれのチャネルを表す2次元マトリックスを、カラムのすべてまたは一部に適用することができる。例えば、CpG部位に並ぶ試料中の複数の断片を用いて、それぞれの試料中のそれぞれのCpG部位に対するβ値を計算することができ、CpG部位に並ぶ基準中の複数の断片を用いて、それぞれの基準中のそれぞれのCpG部位に対するβ値を計算することができる。その結果、2次元マトリックスは「バーコードされた」ように見える。ここでは、
図6Nに図示されているように、最初のパッチにおけるそれぞれのチャネルのそれぞれのカラムの全部または一部を、同じ値でポピュレーションすることができる。バーコード画像は、近隣のCpG部位への5’距離、近隣のCpG部位への3’距離、癌関連パラメーター、参照M値、および/または試料M値を含むが、これらに限定されない、それぞれのCpG部位に対して一定の値を有する特性について得ることができる。
【0165】
それぞれの断片または第1の独立したCpG部位のセットの領域に共通する特徴は、第1のパッチ530のそれぞれのチャネル532を表す結果としての2次元マトリックスを、
図6Lに例示されるように、インスタンスの全てまたは一部(例えば、列)に適用することができる。例えば、断片配列ソース、断片マッピング品質スコア、断片p値、断片多重度、断片位置、および/または断片長は、とりわけ、同じ値をもつそれぞれのインスタンスの全てまたは一部をポピュレーションすることができる。それぞれの試料、被験体、またはコホートに共通する特性は、複数の断片に特異的な特性にかかわらず、またはCpG部位の第一の独立したセットにおける複数のCpG部位に特異的な特性にかかわらず、第一のパッチの全チャネルに適用される単一の値を含むことができる。例えば、特に喫煙者/非喫煙者、年齢群および/または性別を含むがこれらに限定されないサンプルレベル、被験者レベル、またはコホートレベルの生物学的プライヤーは、最初のパッチのそれぞれのチャネルに同じ値を適用することができる。
【0166】
方法800のステップ806は、分類器に少なくとも第1のパッチを適用することを含み、それによって被験者における癌状態を決定することができる。分類子は、癌対非癌および/または起源組織を予測することができる。分類器は、癌/非癌/情報不足、起源組織、起源臓器、癌タイプ、および/または癌ステージを識別するマルチクラス予測を行うことができる。
【0167】
図3は、いくつかの実施形態に従って、p値によってフィルタリングされた複数の断片が分類器に適用される例ワークフローを例示する。
図3はまた、癌と非癌および/または起源の組織を識別するために分類が実施される例を概説する。このような分類は、2値分類または複数クラスの組織起源分類であり得る。癌/非癌を判別するために二元分類を行うことができる。例えばヘム、非情報性試料、交絡条件、または他の分類されていない試料を含む非癌試料から癌タイプまたはサブタイプを識別するために、マルチクラス分類または任意のタイプの分類器を実施することができる。2値がん/がん分類を実施しない場合、一般集団のサンプルに対する分類子の適用には、0.99または99%特異度以上のカットオフ閾値を用いることができる。カットオフ値の特異度閾値は70%、80%、85%、90%、95%、98%、99%、または99.5%を超えることがある。いくつかの実施形態において、カットオフ特異性閾値は、最大でも99.5%、99%、98%、95%、90%以下であり得る。複数クラスの組織起源分類を実施して、2~5、5~10、10~15、15~20、20~30または30を超える異なる癌タイプおよび/またはサブタイプを識別することができる。分類子は、直腸肛門癌、膀胱癌、乳癌、子宮頸癌、結腸直腸癌、頭頸部癌、肝胆道癌、子宮内膜癌、腎癌、白血病、肝癌、肺癌、リンパ系新生物、メラノーマ、多発性骨髄腫、骨髄性新生物、卵巣癌、非ホジキンリンパ腫、膵癌、前立腺癌、腎癌、甲状腺癌、上部消化管癌、尿路上皮癌、または子宮癌を予測するために適用することができる。1つ以上の癌は、直腸肛門癌、大腸癌、食道癌、頭頸部癌、肝胆道癌、肺癌、卵巣癌、膵癌などの「高信号」癌(50%以上の確率で5年癌特異的死亡率が得られる癌と定義される)のほか、リンパ腫や多発性骨髄腫である可能性がある。高シグナル癌はより侵攻性であり得、患者から得られた試験サンプル中の平均を超える無細胞核酸濃度を有する。「高信号がん」とは、低信号のがん(子宮がん、甲状腺がん、前立腺がん、ホルモン受容体陽性のI/II期乳がんなど)のグループに該当しないがんを指す。
【0168】
複数のパッチアーキテクチャ。
【0169】
この方法は、対応する第一のチャネルを含む第二のパッチをさらに構築することを含むことができる。この2番目のパッチは、その種の参照ゲノムにおける2番目の独立したCpG部位のセットを表すことができる。CpG部位の第2の独立セットにおける各々のCpG部位は、参照ゲノム中の所定の位置に対応することができる。第2のパッチの対応する第1のチャネルは、第1の複数のパラメータの対応する複数のインスタンスを含むことができる。第2のパッチの第1のチャネルの対応する第1の複数のパラメータの各インスタンスは、第2のパッチのCpG部位の第2の独立したセットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含むことができる。開示されたシステムおよび方法は、CpG部位の第2の独立セットに並ぶ複数の断片中のそれぞれの断片について、それぞれの断片のメチル化パターンに基づいて、第2のパッチの第1の複数のパラメータのすべてまたは一部のインスタンスを、第2のパッチを構築することにより、それらの断片をポピュレーションすることができる。分類器への第1のパッチの上述の適用は、第1のパッチおよび第2のパッチの両方を分類器に適用することを含み得、それにより、被験体における癌状態を決定する。本開示のいくつかの実施形態は、3つ以上のパッチ、4つ以上のパッチ、10つ以上のパッチ、100以上のパッチ、または50~1000のパッチを使用することができ、それぞれが独自のCpG部位のセットを有し、それぞれが分類子に適用されている。
【0170】
第2のパッチは、対応する第1のチャネルを含む対応する複数のチャネルを含むことができる。さらに、第2パッチの対応する複数のチャネルにおける対応する第2のチャネルは、第1の複数のパラメータの各インスタンスに対する第2の複数のパラメータを含むことができ、ここで、第2のパッチの第2の複数のパラメータの各インスタンスは、第2のパッチのCpG部位の第2の独立したセットにおけるそれぞれのCpG部位の第1の特性、CpGメチル化状態以外のパラメータを含む。開示されたシステムおよび方法は、CpG部位の第2の独立セットに並ぶ複数の断片中のそれぞれの断片について、それぞれの断片のメチル化パターンに基づいて、第2のパッチの第2の複数のパラメータのインスタンスの全部または一部を、さらにポピュレーションすることができる。
図7Aおよび7Bは、いくつかの実施形態によれば、第1のパッチ530-1および第2のパッチ530-2を含む複数のパッチを有する例アーキテクチャを例示する。CpG部位の第1および第2の独立セットは、それぞれCpG部位1からL1、およびCpG部位1からL2を含むことができる。各パッチは、複数のチャネルを含むことができる。
【0171】
第1の独立セットのCpG部位は、第2の独立セットのCpG部位と重複している場合もあれば、重複していない場合もある。1つ目のパッチは、2つ目のパッチと同じ大きさではあるが、対照ゲノムの異なる部分を表すことができる。1つ目のパッチは参照ゲノムの最初の部分を表し、2つ目のパッチは参照ゲノムの2つ目の部分を表すことができる。この場合、1つ目の部分のサイズは2つ目の部分のサイズとは異なる。たとえば、第1部分と第2部分のヌクレオチドの実際の大きさは異なることがある。第1の独立セットのCpG部位は第1の数のCpG部位を含み得、第2の独立セットのCpG部位は第2の数のCpG部位を含み得、第1の数のCpG部位は第2の数のCpG部位と同じであり得る。いくつかの実施形態において、第1の独立したCpG部位のセットは第1の数のCpG部位を含むことができ、第2の独立したCpG部位のセットは第2の数のCpG部位を含むことができ、第1の数のCpG部位は第2の数のCpG部位と異なることができる。
【0172】
第1のパッチは第1の数のチャネルを含み、第2のパッチは第2の数のチャネルを含むことができ、ここで、第1の数と第2の数のチャネルは同一または異なることができる。第1のパッチは、第1の複数の特性を含む第1の数のチャネルを含むことができ、第2のパッチは、第2の複数の特性を含む第2の数のチャネルを含むことができ、ここで、第1の複数の特性は、第2の複数の特性と重複することができるか、または重複することができない。
【0173】
開示されたシステムおよび方法は、さらに、複数のパッチを構築するための指示を含むことができる。
図7Aは、いくつかの実施形態によれば、第1のパッチ530-1、第2のパッチ530-2、およびKthのパッチ530-Kを含むKパッチの例を例示するが、ここで、Kは正の整数であり(例えば、2から10,000の間)、各パッチは、独立したCpG部位536のセットを含むことができ、パッチ530-Kは、CpG部位1からCpG部位L(K)を含むKthの独立したCpG部位のセットを含む。複数の貼付剤(K)は、1~10枚、10~20枚、20~50枚、50~100枚、100~500枚、500~1000枚、1000~5000枚、5000~10,000枚又は10,000枚以上とすることができる。
【0174】
複数のパッチ中の構築されたパッチの数は、分類子に含めるCpG部位のパネル中のCpG部位の数によって決定することができる。CpG部位のパネルは、ヒトゲノムの全メチロームを含むことができる。したがって、複数のパッチにわたって含まれるCpG部位の数は、約2800万であり得る。複数のパッチにわたって含まれるCpG部位の数は、1~10,000個、10,000~100,000個、100,000~500,000個、500,000~10000000個、100万~150万個、150万~500万個、500万~1000万個、1000万~2000万個、2000万~2000万個、または2000万個を超える。複数のパッチにわたって含まれるCpG部位の数は150万であり得、複数のパッチは5000のパッチを含み得、そして各パッチは、CpG部位の独立セットにおける300のCpG部位を含むことができる。複数のパッチにわたって含まれるCpG部位の数は150万であり得、複数のパッチは2000のパッチを含み得、そしてそれぞれのパッチは、CpG部位の独立セットにおける750のCpG部位を含むことができる。複数のパッチにわたって含まれるCpG部位の数は150万であり得、複数のパッチは1000のパッチを含み得、そして各パッチは、CpG部位の独立セットにおける1500のCpG部位を含む。分類子に含まれるべきCpG部位のパネルは、重複したCpG部位を含むことができる。
【0175】
複数のパッチにおける構築されたパッチの数は、分類器の計算能力によって、それぞれのパッチにおけるCpG部位の独立セットにおけるCpG部位の数、それぞれのパッチに対する複数の例における例数、およびそれぞれのパッチに対する複数のチャネルにおけるチャネルの数と比較して決定することができる。一例として、分類器は、VG11回帰ニューラルネットワークを含むことができ、複数のパッチ中の構築されたパッチの数は、1000から2000の間であり得、それぞれのパッチに対するCpG部位の独立セット中のCpG部位の数は256であり得、それぞれのパッチに対する複数の例の数は128であり得(例えば、128断片の読取深度)、そして、それぞれのパッチに対する複数のチャネル中のチャネルの数は7であり得る。分類子は、残存ネットワーク(例えば、ResNet)画像分類子を含むことができ、そして各々のパッチに対するCpG部位の独立セットにおけるCpG部位の数は、1000であり得る。
【0176】
複数のパッチにおける構築されたパッチの数、CpG部位の独立セットにおけるCpG部位の数、複数の例における例の数、および複数のチャネルにおけるチャネルの数は、実施例8に記載されているように、ハイパーパラメータの改良を通して定義および改良することができる。複数のパッチにわたって含まれるCpG部位の数は、既存の標的化メチル化配列決定法を用いて決定するか、または実験目標に基づいて施術者によって選択することができる。したがって、複数のパッチにわたって含めるべきCpG部位のパネルは、非常に有益でありかつ/または高い識別価値を有するパネルのサブ領域を同定することにより、さらに治癒させることができる。
【0177】
パッチデザイン。
【0178】
方法は、さらに、複数の臨床被験体を含む臨床コホートから得られた複数の臨床生物学的試料の複数の臨床核酸試料から得られた複数の臨床断片のメチル化配列決定によって決定された複数のCpGメチル化パターンの評価を通して、第一パッチの第一の独立したCpG部位の第一のセットを選択することを含むことができる。複数の臨床被験体は、癌状態に対する第1の適応を有する第1のセットの臨床被験体、および癌状態に対する第2の適応を有する第2のセットの臨床被験体を含むことができる。臨床コホートから得られた複数の臨床生物学的試料の複数の臨床核酸試料は、研究デザイン(例えば、TCGA、CCGA)から得ることができる。癌状態の適応には、「癌か癌でないか」を含めることができる。癌状態の適応には、起源となる腫瘍(例えば、「脳対肺」)を含めることができる。癌状態の適応には、癌の病期、癌の確率などを含むが、これらに限定されない癌に関連するあらゆる情報を含むことができる。
【0179】
CpG部位の第1の独立したセットを選択することは、臨床被験者の第1のセットと臨床被験者の第2のセットとの間の、複数のCpG部位における各CpG部位のメチル化状態について、それぞれの第1の相互情報スコア(例えば、2つの病態を区別する際の特徴の情報内容の尺度を表す数学値)に基づいて、参照ゲノム中の複数のCpG部位の第1の順位を決定することを含むことができる。最初のパッチに対するCpG部位の対応する独立セットに対する最初の閾値数のCpG部位をランキングを用いて選択することができる。このように、相互情報はサイトごとに評価することができ、ここで、相互情報は、与えられたCpG部位での対比較のための第1クラス対第2クラスの確率質量を同定する単一の値メトリックであり得る。例えば、相互情報スコアは、複数の臨床生体試料中の各臨床被験体のペア間の対比較ごとに、各CpG部位ごとに計算することができる。高い相互情報スコアは、それぞれのCpG部位での対被験者間の高いレベルの識別を示すことができる。例えば、上位100、上位1000または上位2000の相互情報スコアに対応するCpG部位を選択することができ、残りのCpG部位を選択することはできない。0.25、0.30、0.35、0.40、0.45、0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95、または0.99を超える相互情報スコアを有する任意のCpG部位を選択することができる。
【0180】
複数の臨床被験体は、癌状態に対する第三の適応を有する第三の臨床被験体セット、および癌状態に対する第四の適応を有する第四の臨床被験体セットを含むことができ、さらに選択することは、臨床被験体の第三のセットと臨床被験体の第四のセットとの間の複数のCpG部位における各CpG部位のメチル化状態に対するそれぞれの第二の相互情報スコアに基づいて、参照ゲノム中の複数のCpG部位の第二の順位を決定することを含むことができる。第1のパッチの第1の独立したCpG部位の第2の閾値数のCpG部位を、第2のランキングを用いて選択することができる。それぞれの相互情報スコアは、臨床被験者の第1セットと臨床被験者の第3セットの間、臨床被験者の第1セットと臨床被験者の第4セットの間、臨床被験者の第2セットと臨床被験者の第3セットの間、および/または臨床被験者の第2セットと臨床被験者の第4セットの間で計算できる。複数の臨床被験体は、5以上、10以上、50以上、100以上、500以上、1000以上、2000以上、5000以上、10,000以上、または20,000以上の臨床被験体セットを含み得、ここで、各臨床被験体セットは、癌状態に対する対応する適応を有する。
【0181】
1番目または2番目の相互情報スコアに基づく参照ゲノム中の複数のCpG部位のランキングは、CpG部位を最高から最低の相互情報スコアにランク付けすることにより行うことができる。第1パッチのCpG部位の第1の独立セットに対するCpG部位の第1および/または第2の閾値数は、複数のCpG部位(例えば、比較に用いた癌条件に関係なく、最も高い相互情報スコアを有するCpG部位)についての上位ランクの相互情報スコアを用いて選択することができる。最初のパッチのCpG部位の第1の独立セットに対するCpG部位の第1および/または第2の閾値数は、相互情報スコアが計算される各臨床被験者ペアの上位ランクの相互情報スコアから選択することができる(例えば、CpG部位の選択されたセットにおいて全ての対比較が表されるように、最も高い相互情報スコアを有するCpG部位)。相互情報得点の順位付けに基づく複数の対比較において、各臨床対象者のペアごとに、上位1000の高相互情報CpGサイトを選択することができる。各CpG部位の相互情報スコアは、臨床被験者の多重対比較のために識別可能であると考えることができる。
【0182】
最も順位の高い相互情報スコアを有する複数のCpGサイトを、最初のパッチのCpGサイトの最初の独立セットとして選択することができ、CpGサイトの最初の独立セットを、最も高い~最も低い相互情報スコアの順に、最初のパッチに配置することができる。CpG部位の最初の独立セットは、相互の情報スコアが最も低い順から最も高い順に、最初のパッチに配置することができる。パッチは、相互情報スコアの上位に位置する256のCpGサイトを含むことができる。最初のパッチの構築は、さらに、それぞれの最初の相互情報スコアに基づいて、最初のパッチに割り当てられたそれぞれの断片を仕分けることを含むことができる。例えば、最初のパッチを構築する前に、フラグメントをそれぞれの相互情報スコアに基づいてランク付けし、それぞれの相互情報スコアの順番(例えば、最高~最低、または最低~最高)で最初のパッチの例にポピュレーションすることができる。
【0183】
癌状態の最初の適応症は、最初の癌タイプとすることができ、癌状態の2番目の適応症は、2番目の癌タイプとすることができる。第1の癌タイプまたは第2の癌タイプは、本明細書の別の箇所に記載される任意の癌であり得る。次いで、臨床被験体間の複数の対比較は、任意の2つの癌タイプ(例えば、乳癌対肺癌)間の任意の可能な対比較を含むことができる。
【0184】
最初のパッチの第一の独立したCpG部位の第一閾値数のCpG部位における各々のCpG部位は、閾値数の残基により、第一閾値数のCpG部位における全ての他のCpG部位から参照ゲノム中にパッディングすることができる。例えば、各CpG部位を少なくとも10、20、30、40、50、60、70、80、90、100、200、または300残基ずつパッチに含めることができる。CpG部位の第1の独立セットの選択は、パッチデザインのためにあらかじめ設定された複数の臨床生体試料(例えば、参照データベースまたはパイロット研究)からの複数の臨床核酸サンプルを用いて実施することができる。例えば、パッチ設計のための関心対象のCpG部位を選択するために第1のサンプルセットを使用することができ、分類のためのそれぞれのパッチのそれぞれの例をポピュレーションするために第2のサンプルセットを使用することができる。
【0185】
方法のCpG選択ステップは、さらに、臨床被験者の第1セットと臨床被験者の第2セットとの間の、複数の固定長領域における各固定長領域のCpG部位メチル化パターンのメチル化状態に関するそれぞれの第1の相互情報スコアに基づいて、参照ゲノム中の複数の固定長領域の第1ランキングを決定することを含むことができる。次いで、第1のランキングを用いて、複数の固定長領域におけるそれらの固定長領域から、第1のパッチのCpG部位の第1の独立セットについて、第1の閾値数のCpG部位を選択することができる。このように、高い相互情報スコアは、一定の長さ領域での対被験者間の高いレベルの識別を示すことができる。混合モデルを用いて、一定の長さ領域に対する相互情報スコアを計算することができる。例えば、米国特許出版番号を参照のこと。US2020-0365229A1、“Model-BasedFeaturizationandClassification“と題されており、ここに引用を組み込んでいる。混合モデルは、全体集団内の部分集団の存在を表すための確率論的モデルとなり得る。固定された長さの領域は、外部データベースまたはプローブの参照パネルを用いて得ることができる(例えば、目的のCpG部位を得るための関心領域を同定するために、標的配列決定アッセイにおいて複数のプローブを用いて得られた領域を選択する)。固定された長さの領域は、全ゲノムを横切って、または参照パネルを横切って滑る固定された長さの「滑り窓」を用いて得ることができる。
【0186】
例えば、2つの臨床被験体から得られた2つの臨床生物学的試料間の対比較において、ゲノム領域(例えば、標的配列決定アッセイにおけるプローブに対応するゲノム領域)を横切るスライディングウインドウ(100、200、300、400、500、600、700、800、900、1000、または2000塩基対(bp)のウインドウ)によって、第1の独立したCpG部位のセットを選択することができる。スライディングウインドウの各フレームについて、スライディングウインドウの各フレーム内のCpG部位の統計モデル(例えば、混合モデル)を用いて、相互情報スコアを算出することができる。相互情報スコアは、スライディングウインドウのそれぞれのフレームにおける第一の癌状態に対する第二の癌状態に対するメチル化パターンの確率を示すことができ、したがって、それぞれの領域の識別力を示す。選択されたゲノム領域を横切って進むにつれて、滑りウインドウの各フレームの各領域について、相互情報スコアを同様に計算することができる。
【0187】
スライディング窓の長さは、10未満、10~50、50~100、100~200、200~500、500~1000、1000~2000、2000~5000、または5000bpを超えることができる。滑り窓の長さは256bpである。スライディングウインドウの固定長領域は、5個未満のCpG部位、5~10個のCpG部位、10~20個のCpG部位、20~50個のCpG部位、50~100個のCpG部位、100~200個のCpG部位、200~500個のCpG部位、または500個以上のCpG部位を含むことができる。
【0188】
複数の固定長領域(窓)の最初の順位付けは、固定長領域を最高から最低、または最低から最高の相互情報スコアの順に順位付けすることによって行うことができる。固定長領域は1つ以上のCpG部位を含むことができ、CpG部位の最初の独立セットは、上位順位の相互情報固定長領域から得られるCpG部位を含むことができる。CpGサイトの最初の独立セットは、上位順位の相互情報固定長領域を含むことができる。
【0189】
複数の臨床被験体は、癌状態に対する第3の適応を有する第3の臨床被験体セットおよび癌状態に対する第4の適応を有する第4の臨床被験体セットを含むことができ、さらに選択することは、臨床被験体の第3のセットと第4のセットの臨床被験体の第4のセットとの間の複数の固定長領域における各固定長領域のメチル化状態に対するそれぞれの第2の相互情報スコアに基づいて、参照ゲノム中の複数の固定長領域の第2のランキングを決定すること;および第2のランキングを用いて第1のパッチの第1の独立したセットのCpG部位に対する第2の閾値数のCpG部位を選択することを含むことができる。
【0190】
一定の長さ領域に対するそれぞれの相互情報スコアは、臨床被験者の第1セットと臨床被験者の第3セットの間、臨床被験者の第1セットと臨床被験者の第4セットの間、臨床被験者の第2セットと臨床被験者の第3セットの間、および/または臨床被験者の第2セットと臨床被験者の第4セットの間で計算することができる。複数の臨床被験体は、5以上、10以上、50以上、100以上、500以上、1000以上、2000以上、5000以上、10,000以上、または20,000以上の臨床被験体セットを含み得、ここで、各臨床被験体セットは、癌状態に対する対応する適応を有する。
【0191】
第1パッチのCpG部位の第1の独立セットに対するCpG部位の第1および/または第2の閾値数は、複数の固定長領域(例えば、比較に用いた癌条件に関係なく、最も高い相互情報スコアを有する固定長領域から得られたCpG部位)において、上位ランクの相互情報固定長領域を用いて選択することができる。1枚目のパッチのCpG部位の第1の独立セットに対するCpG部位の第1および/または第2の閾値数は、相互情報スコアが計算される各臨床被験者の各ペアの上位ランク相互情報固定長領域を用いて選択することができる(例えば、すべてのペアワイズ比較が選択されたCpG部位のセットで表されるように、最も高い相互情報スコアを有する固定長領域)。上位100、200、300、400、500、600、700、800、900、1000、または2000個の相互情報固定長領域を、相互情報スコアの順位付けに基づく複数の対比較において、それぞれの臨床被験者のペアごとに選択することができる。各固定長領域の相互情報スコアは、臨床被験者の多重対比較に対して識別可能と考えることができる。
【0192】
最初のパッチの構築は、さらに、それぞれの最初の相互情報スコアに基づいて、最初のパッチに割り当てられたそれぞれの断片を仕分けることを含むことができる(例えば、固定された長さの領域は、最低から最高の相互情報スコアによって、または最高から最低の相互情報スコアによって仕分けられる)。最初のパッチにおける最初の独立したCpG部位のセットは、固定された長さの領域および/または固定された長さの領域から得られたCpG部位を含み、相互の情報スコアの順に配置することができる(例えば、最低、最高、または最高、最低)。癌状態の最初の適応症は、最初の癌タイプとすることができ、癌状態の2番目の適応症は、2番目の癌タイプとすることができる。次いで、臨床被験体間の複数の対比較は、任意の2つの癌タイプ(例えば、乳癌対肺癌)間の任意の可能な対比較であり得る。
【0193】
第一パッチの第一の独立したCpG部位の第一閾値数のCpG部位における各々のCpG部位は、閾値数のCpG部位の第一閾値数の他の全てのCpG部位から参照ゲノム中にパッディングすることができる(例えば、一定の長さの領域から得られた各々のCpG部位は、パッチに含まれるように少なくとも10、20、30、40、50、60、70、80、90、100または200残基ずつパッチすることができる)。アレイベースのメチル化シークエンシングを用いて複数の断片を得ることができ、臨床被験者の第1セットと第2セットの臨床被験者の間の複数のCpG部位における各CpG部位のメチル化状態について、参照ゲノム中の複数のCpG部位の第1ランキングは、β値またはM値に基づくことができる。
【0194】
複数のCpGメチル化パターンの評価を通して第1のパッチのための第1の独立したCpG部位セットの選択は、さらに、第1のパッチのための第1の独立したCpG部位セットを選択すること、および第2のパッチのための第2の独立したCpG部位セットを選択することを含むことができる。複数のCpGメチル化パターンの評価による第1のパッチのための第1の独立したCpG部位のセットの選択は、さらに、複数のパッチにおけるそれぞれのパッチのためのCpG部位のそれぞれ独立したセットを選択することを含むことができる。
【0195】
分類子予測とトレーニング
【0196】
方法は、さらに、第1のパッチを含む複数のパッチを構築するための指示を含むことができ、それぞれのパッチは、参照ゲノム中の異なる独立したCpG部位のセットについてである。最初のパッチを構築することにより、最初のパッチを含む複数のパッチを構築することができる。上述の分類器は、1つまたは複数の第1段階モデルおよび第2段階モデルを含むことができる。第1段階モデルはあらかじめ訓練された(または訓練された)モデルとすることができる。さらに、分類器への少なくとも第1のパッチの上記開示された適用は、複数の特徴要素を含む特徴ベクトルを得ることを含むことができ、ここで、複数の特徴要素における各特徴要素は、対応する第1段階モデルへの複数のパッチにおけるそれぞれのパッチの適用時に、1つまたは複数の第1段階モデルにおける対応する第1段階モデルの出力である(ここで、パッチの各々は、例えば、被験体からのメチル化核酸断片から取得したデータから形成することができる)。分類器への少なくとも第1のパッチの適用は、さらに、第2段階モデルに特徴ベクターを適用することを含み、それにより、被験体における癌状態を決定することができる。
【0197】
複数のパッチは、10パッチから10000パッチの間、または100パッチから3000パッチの間であり得る。
図7Aは、Kパッチのセットを例示し、ここで、複数の訓練された第一段階モデルは、訓練されたモデル1、訓練されたモデル2を含み、ここで、Kは、いくつかの実施形態に従って、正の整数(例えば、2から3000の間)である。第1段階モデルにはパッチレベルの分類子を含むことができ、第2段階モデルにはサンプルレベルの分類子を含むことができる。第2段階モデルへの特徴ベクターの適用は、被験体が癌であるか非癌であるかを決定することができ、または起源組織、起源臓器、癌タイプ、および/または癌の病期を同定することができる。第2段階モデルへの特徴ベクトルの適用は、第1段階モデルで正に分類されるパッチ(例えば、癌陽性)が第2レベル分類器に適用されるように、応答的な方法で行うことができる。
図7AはKトレーニングされたモデルを例示しているが、いくつかの他の実施形態において、Kパッチの集合は、Kトレーニングされたモデルの代わりに1つのモデルについてのデータを入力することができる。1つのモデルは、トレーニングを受けているか、トレーニングを受けていないかのいずれかである。この状況では、Kパッチがトレーニングサンプルから得られれば、1つのモデルをKパッチでさらに連続的または平行的にトレーニングすることができる。別の状況では、Kパッチが試験サンプルから得られた場合、1つの訓練されたモデルを用いて、Kパッチに基づく第2段階モデル(例、サンプルレベル分類器)により、癌の状態を決定するか、またはさらなる分析のためのデータを生成することができる。
【0198】
1つまたは複数の第1段階モデルにおけるそれぞれの第1段階モデルは、対応する回帰ニューラルネットワークを含むことができ、第1パッチの第1チャネルは、第1次元を形成する第1パッチの第1の複数のパラメータの複数のインスタンスのそれぞれの二次元を含むことができる(例えば、
図7Aのパッチ530-1について図示されているように)。第2段階モデルにはロジスティック回帰モデルを含めることができる。例えば、米国特許出版番号を参照のこと。US2019-0287652A1、表題「異常な断片の検出と分類」であり、これを参考に取り入れている。第2段階モデルはサポートベクトルマシンを含むことができる。分類に用いる場合、SVMは、標識されたデータから最大に離れた超平面を有する所定の2値標識データトレーニングセットのセットを分離することができる。線形分離が不可能な場合には、SVMは機能空間への非線形マッピングを自動的に実現する「穀粒」の技術と組み合わせて働くことができる。特徴空間においてSVMにより発見された超平面は、入力空間における非線形決定境界に対応することができる。第2段階モデルは、ここに開示された任意のデータまたは情報に基づいて分類を行うことができる任意の機械学習モデルまたは統計モデル(例えば、決定樹モデル、ランダム森林モデル、ナイーブベイ、K-NearestNeighbors、確率勾配降下)を含むことができる。
【0199】
分類器は、複数の第一段階モデル(例えば、
図7Aの訓練された/訓練されていないモデル)および動的ニューラルネットワーク(例えば、
図7Aのサンプルレベル分類器)を含むことができる。方法はさらに、第1のパッチを含む複数のパッチを構築することを含み、それぞれのパッチは、参照ゲノム中の異なるセットのCpG部位についてである。最初のパッチを構築することは、最初のパッチを含むそれぞれのパッチを構築することを含むことができる。分類器への少なくとも第一のパッチの適用は、複数の第一段階モデルにおける対応する第一段階モデルに、複数のパッチ中の各パッチを適用することを含むことができる。対応する第1段階モデルは、i)それぞれのパッチを受容するためのそれぞれの入力層を含み、ここで、それぞれのパッチは第1の寸法数を含む;ii)対応するウェイトのセットを含むそれぞれの完全に連結された包埋層を含み、ここで、それぞれの完全に連結された包埋層は、直接または間接的にそれぞれの入力層の出力を受け取り、そして、それぞれの包埋層のそれぞれの出力は、第1の寸法数より少ない第2の寸法数である;およびiii)それぞれの完全に連結された包埋層から出力を直接または間接的に受け取るそれぞれの出力層を含むことができる。対応する第1段階モデルは、1つまたは複数の畳込み層をさらに含むことができる。1つ以上の畳込みレイヤは、それぞれの入力レイヤとそれぞれの完全に接続された埋込みレイヤとの間に配置することができる。1つ以上の回旋層は、少なくとも1、2、3、4、5、またはそれ以上の層を含むことができる。いくつかの実施形態において、1以上の回旋層は、せいぜい5、4、3、2またはそれ以下の層を含むことができる。第1段階モデルにおける複数回帰層については、それぞれの入力層に接続された第1回目の回帰層のニューロンは、それぞれの入力層によって受信されたそれぞれのパッチ内の全ての単一ピクセル(例えば、入力された2次元画像)に接続されていない可能性がある。同様に、第2回旋層のニューロンは、第1回旋層のすべての単一ニューロンに接続されていない可能性がある。この状況において、第1の畳み込み層のサイズは、それぞれの入力層のサイズよりも小さくすることができ、および/または第2の畳み込み層のサイズは、第1の畳み込み層のサイズよりも小さくすることができる。分類器への少なくとも第一のパッチの適用は、さらに、複数の第一段階モデルにおける各訓練された第一段階モデルのそれぞれの完全に連結された包埋層からのそれぞれの出力の集合体を、動的ニューラルネットワーク(例えば、サンプルレベル分類器)に入力することを含み、それによって、被験体における癌状態を決定することができる。それぞれの完全に連結した包埋層は、それぞれのパッチ(領域など)ごとの値のセット(スコアなど)を表すことができ、領域ごとのスコアのセットは包埋サイズを示すことができる。
【0200】
複数の第1段階モデルにおける各第1段階モデルのそれぞれの埋め込み層のそれぞれの出力は、32~1048の値のセットとすることができる。複数の第1段モデルにおける各第1段モデルのそれぞれの埋込層のそれぞれの出力は、128とすることができる。
【0201】
複数の第一段階モデルにおける各訓練された第一段階モデルのそれぞれの完全に連結された包埋層からのそれぞれの出力の集合体は、それぞれのパッチについてのそれぞれのスコアの連結であり得る。例えば、
図7Bは、分類器の例を示しており、ここでは、分類器は、メチル化配列決定からの断片を用いて実施される2段階分類を伴うパッチ回帰ニューラルネット(PatchCNN)である。それぞれの第一段階モデルは、それぞれのパッチごとにそれぞれのパッチ特徴を含む特徴ベクトルに対応する要素を出力するパッチレベル特徴抽出器を含むことができ、サンプルレベル分類器はロジスティック回帰モデルまたはサポートベクトルマシンを含むことができる。分類器への少なくとも第一のパッチの適用は、分類器に複数のチャネルを含む複数のパッチを適用することを含み、対応する第一段階モデル(例えば、
図7Bの対応するCNN)に入力される複数のパッチにおけるそれぞれのパッチを適用することができる。
【0202】
分類器は、一つの第一段階モデルおよび機械学習/統計モデル(例えば、動的ニューラルネットワークまたは
図7Aのサンプルレベル分類器)を含むことができる。方法はさらに、第1のパッチを含む複数のパッチを構築することを含み、それぞれのパッチは、参照ゲノム中の異なるセットのCpG部位についてである。最初のパッチを構築することは、最初のパッチを含むそれぞれのパッチを構築することを含むことができる。複数のパッチの分類器への適用は、複数のパッチを第1段階モデル(例えば、回帰ニューラルネットワーク)に適用することを含むことができる。この状況において、第1段階モデルは、i)複数のパッチを受取るための入力層を含み、連続的または平行的に、ここで、複数のパッチの第1のパッチが第1の数次元を含む、ii)1組の重みを含む完全に連結された包埋層を含み、完全に連結された包埋層が直接または間接的に入力層の出力を受け取り、そして包埋層の出力が第1の次元数よりも少ない第2の数の次元を含む、iii)完全に連結された包埋層から出力を直接または間接的に受け取る出力層を含むことができる。第1段階モデルは、1つまたは複数の畳込み層をさらに含むことができる。1つまたは複数の畳み込みレイヤーは、入力レイヤーと完全に接続された埋め込みレイヤーの間に配置できる。1つ以上の回旋層は、少なくとも1、2、3、4、5、またはそれ以上の層を含むことができる。いくつかの実施形態において、1以上の回旋層は、せいぜい5、4、3、2またはそれ以下の層を含むことができる。第1段階モデルにおける複数回帰層に対して、入力層に接続された第1回旋層のニューロンは、入力層によって受信されたパッチ内の全ての単一ピクセル(例えば、入力2次元画像)に接続されていない可能性がある。同様に、第2回旋層のニューロンは、第1回旋層のすべての単一ニューロンに接続されていない可能性がある。この状況において、第1の畳み込み層のサイズは、入力層のサイズよりも小さくすることができ、および/または第2の畳み込み層のサイズは、第1の畳み込み層のサイズよりも小さくすることができる。分類器への複数のパッチの適用は、さらに、完全に連結された包埋層からの出力を機械学習/統計モデルに入力することを含み、それにより、被験体における癌状態を決定することができる。完全に連結された包埋層は、各パッチ(例えば領域)に対する値のセット(例えば、スコア)を表すことができ、領域ごとのスコアのセットは包埋サイズを示すことができる。
【0203】
分類器は、複数の第一段階モデルおよび機械学習/統計モデル(例えば、動的ニューラルネットワークまたは
図7Aのサンプルレベル分類器)を含むことができ、ここで、複数の第一段階モデルの数は、1つ以上のパッチの数よりも少ない。例えば、分類器は、二つの第一段階モデル(例えば、二つの回帰ニューラルネットワーク)を含むことができ、そしてパッチの数は1000であることができる。この状況では、1000枚のパッチの一部(例えば、400枚)は、2つの第1段階モデルのうちの1つにデータを入力することができ、1000枚の残りのパッチ(例えば、600枚は、2つの第1段階モデルのうちの他の1つにデータを入力することができる。
【0204】
方法は、さらに、被験者のコホートを用いて、1つ以上の第一段階モデル(例えば、
図7BのCNNモデル)および動的ニューラルネットワーク(例えば、
図7Bのサンプルレベル分類子)を訓練することを含み、ここで、被験者のコホートは、がん状態について第一のラベルを有する第一のサブセットの被験者、およびがん状態について第二のラベルを有する第二のサブセットの被験者を含む。トレーニングは、a)ランダムベースで、癌の状態、年齢、喫煙状態、または性別の任意の組み合わせに基づいて、被験者のコホートを複数の群に層別化すること;b)複数の群の第1の群をトレーニング群として使用し、残りの複数の群の残りを試験/検証群として使用して、1つ以上の第1段階モデル(例えば、
図7BのCNNモデル)および動的ニューラルネットワーク(例えば、
図7Bのサンプルレベル分類器)をトレーニング群に対してトレーニングすること;c)複数の群の中の各群を、複数の群の中の各群を、bを使用する反復トレーニング群として使用するように反復すること;およびd)b)を使用して、層別化a)を繰り返し、分類器性能基準を満たすまでc)を反復すること、を含むことができる。トレーニング群は、被験者のコホートから得られる情報またはデータの少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%またはそれ以上を含むことができる。この状況において、試験群は、被験者のコホートから得られる情報またはデータの多くても90%、80%、70%、60%、50%、40%、30%、20%、10%以下を含むことができる。いくつかの実施形態において、トレーニング群は、被験者のコホートから得られる情報またはデータの多くても90%、80%、70%、60%、50%、40%、30%、20%、10%以下を含むことができる。この状況において、試験群は、被験者のコホートから得られる情報またはデータの少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%またはそれ以上を含むことができる。分類器の性能は、約40、41、45、44、50、56、65、66、65、66、65、70、67、65、66、70、66、67、75、78、78、81、86、85、88、89、90、91、93、95、98、98.5、99、99.5、99.6、99.7、99.8、99.8%の感度(精度)であり、約80、80、82、83、85、88、89、90、92、98、98.5、99.1、99、2.99、2、99.3、4.5、99被験者コホート全体で99.6、99.8、99.9%の特異度
【0205】
例えば、分類器は、患者サンプル(例えば、被験者のコホートについて)を入手することにより、そのような患者ごとにそのがんの状態でラベル付けされ、そのような被験者についてのメチル化データを用いて、複数のパッチを集団化することにより訓練することができる(例えば、とりわけ、相互情報、事前の知識、超パラメータ、および/または既存のモデルのようなパッチ設計のための方法を用いる)。それぞれのパッチを充填するそれぞれのサンプルに対して、癌状態インジケータは、患者ラベルに対するパッチレベルの分類器トレーニングのためにパッチに割り当てることができる(例えば、複数の第一段階モデルをトレーニングする)。
【0206】
複数の第一段階モデルを含む分類器について、各第一段階モデル(例えば、パッチレベル回帰ネットワーク)を二値分類器として訓練し、特徴抽出器として用いることができ、各第一段階モデル(例えば、パッチレベル回帰ネットワーク)の出力は、複数の第一段階モデルに対応する複数の領域を横切って連結された中間特徴ベクトルとすることができる。このような中間ベクターはそれぞれ、コホート内の異なる患者に相当する。それぞれの第1段階モデルの出力は、それぞれの第1段階モデル内の中間の完全に接続された分類層からの複数の活性化(例えば、整流された線形ユニット(ReLU)、tanh、シグモイドなどの出力)を含むことができる。それぞれの第一段階モデル(対応するパッチの入力に応答する)からの活性化を用いて、それぞれの全体スコアまたは各被験体に対する包埋のベクトルを生成することができる。サンプルレベル分類器は、例えば、深く広い深いニューラルネット(DNN)分類器の形で、それぞれの全体スコアまたは包埋のベクトルと各被験者のそれぞれのラベル上で訓練することができる。
【0207】
複数の第一段階モデル(例えば、CNN)およびサンプルレベル分類器(例えば、動的ニューラルネットワーク)の上記トレーニングは、3x6倍交差検証を含むことができる。クロスバリデーションは、トレーニングデータセットをより小さなトレーニングデータセットとバリデーションデータセットに分割し、次に最初のステージモデルをより小さなトレーニングセットに対してトレーニングし、最初のステージモデルをバリデーションデータセットに対して評価することで構成することができる。例えば、トレーニングデータセットは、各トレーニングビンが可能な限り均一にできるように、関心のある全ての分類および/または生物学的プリア(例えば、とりわけ、癌/非癌、癌タイプ、癌病期、年齢、および/または喫煙状態)により等しく層別化される6ビンに細分することができる。トレーニングは、6つのビンのうちの5つを使用して実行でき、検証は6つのthビンで実行される(クロス検証)。このプロセスは、6つのビンの各々が検証のために1回使用されるように、6回繰り返すことができる。トレーニングデータセットは無作為化してシャフリングを3回行うことができ、層別化、トレーニング、バリデーションを繰り返し、合計18回のトレーニングランを実施することができる。分類器の性能基準は、データセットの3倍のランダム化とすることができる。第1段階モデルも第2段階モデルも、3x6倍交差検証のそれぞれの倍数の間に訓練することができる。3x6倍のクロスバリデーションを用いるのではなく、PとQが正の整数であり、同一の場合も異なる場合もあるPxQ倍のクロスバリデーションを用いることができる。トレーニングデータセットは、各トレーニングビンができるだけ均一にできるように、関心のあるすべての分類および/または生物学的プリア(特に、癌/非癌、癌タイプ、癌病期、年齢、および/または喫煙状態)によって等しく層別化されたPビンに細分することができる。トレーニングは、PビンのP-1を使用して(例えば、上述したように)、Pthビンと共に実施される妥当性確認と共に実施することができる。このプロセスは、各Pビンがバリデーションに1回使用できるようにQ回繰り返すことができる。トレーニングデータセットは無作為化し、P時間を短縮でき、PxQトレーニングを合計して実行するように、層別化、トレーニング、バリデーションを繰り返すことができる。Pは少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上とすることができる。Qは少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上とすることができる。
【0208】
癌の状態は、起源の組織(または起源の組織、TOO)を含み得、被験者のコホートの各被験体は、起源の組織で標識される。コホートには、任意のタイプの癌を有する被験者、または本明細書の別の箇所に記載されている癌の組合せを含むことができる。がんの状態には、特定のがんの病期を含めることができ、被験者コホートの各被験者には、特定のがんの病期でラベルを貼る。コホートには、任意のタイプの癌の病期、または本明細書の別の個所に記載される癌の組合せを有する被験体を含めることができる。癌の状態は、被験体が癌を有するか否かを含み、層別化a)は、複数の群における各群が癌を有し、かつ癌を有さない被験体の数が等しいことを保証し得る。
【0209】
本開示の分類子の訓練可能なパラメータの数は、訓練中にそれぞれのデータセットにスケーリングすることができる(例えば、VGGNet:1億4000万の訓練可能なパラメータ対Patch-CNN16:345,000の訓練可能なパラメータ)。脱落は、学習加重集合を作成し、ネットワークの複雑性を減少させることにより、制御過剰適合に適用し、小さなトレーニング集合の分類を改善することができる。最大50%の脱落が適用できる。トレーニングは、トレーニング中に、複数のパッチ中の各パッチのそれぞれの出力層によって提供される値に基づいて、L1正規化(例えば、Lasso回帰)またはL2正規化(Ridge回帰)を用いて、複数のパッチ中の1つ以上のパッチを排除することができる。L2正規化は、係数10%まで、ハイパーユニッドバッチサイズで使用することができる。トレーニングは、限られたエポック数での早期停止および/または計量ベースの早期停止を用いて、複数のパッチ中の1つ以上のパッチを除去することができる。トレーニングは、0.5、L1規則化、減衰学習率、Adam最適化器および256での大きなバッチサイズでの積極的な脱落を用いて行うことができる。トレーニングは、減衰学習率ではなく斜め三角形学習率を用いて行うことができる。
【0210】
癌/非癌について訓練されたバイナリー分類器から得られた特徴ベクトルは、組織起源、器官起源、癌タイプおよび/または癌ステージについてのマルチクラス分類器を訓練するために使用することができる。癌/非癌分類器から複数クラス(例えば、起源組織)分類器への転送学習は、起源分類器の組織における精度の増加をもたらし得る。米国暫定特許出願第を参照のこと。62/851,486,2019年5月22日に申請した「移乗学習を利用したがんの病態の有無のシステムと判定方法」は、このような移乗学習に関する開示を参考にして取り入れられている。マルチクラス分類器における精度の増加は、1%を超える、5%を超える、10%を超える、15%を超える、20%を超える、または50%を超えることができる。
【0211】
分類器は、一つ以上のCNN分類器を含むパッチCNN分類器(例えば、
図7Bに示されるように各パッチに対して一つ)と、それに続いて、平均-プーリング、最大-プーリング、3規範プーリングによるパッチの凝集、ガウス平滑化を伴うまたは伴わないロジスティック回帰、または複数のCNN分類器から抽出された特徴に関する-平均モデリングを行うサンプルレベル分類器を含むことができる。分類器は、一つ以上のCNN分類器を含むパッチCNN分類器を含むことができる(例えば、
図7Bに示されるように各パッチに対して一つ)。このようなCNNはそれぞれ、あらかじめ訓練されたCNNモデルを使用することができる。事前に訓練されたCNNモデルは、ピキセレートされた画像データ(例えば、RGBピキセレートされた画像)上で訓練された1つ以上の層の回旋ニューラルネットを使用することができる。このようなあらかじめ訓練されたCNNモデルの例としては、LeNet、AlexNet、VG11、VGGNet16、GoogLeNet、またはResNetが挙げられるが、これらに限定されない。事前に訓練されたCNNモデルは、多層ニューラルネット、深部回旋ニューラルネット、視覚幾何学回旋ニューラルネット、又はそれらの組合せを含むことができる。あらかじめ訓練されたCNNモデルは、脳回ニューラルネットワークの分類層以外に、非生物学的データ上で訓練された脳回ニューラルネットワークの全層を含むことができる。事前訓練されたCNNモデルは、a16層の事前訓練されたCNNモデルとすることができる。サンプルレベル分類器は、あらかじめ訓練された16層CNNモデルを含むことができる。
【0212】
第一レベル分類器のためのネットワークアーキテクチャの例は、2つの完全に連結された層および柔らかい最大出力層を有する特注のVGG-11回帰ニューラルネットワークアーキテクチャのために、表2の下に詳述される。従来のVGG-11は、3x3の回帰フィルターサイズを含み、ReLU活性化関数を使用することができる。この特注のVGG-11CNNについては、マトリックスの2次元回旋(Conv2d)を伴う断片ピリュープ上の断片内配列を捕捉するために回旋フィルター(例えば、回旋粒)形状を1x3に調整することができ、ReLUの代わりに漏洩整流線形ユニット活性化(ReLU)活性化機能を使用することができる。
【0213】
[表2]特注のVGG-11曲がりくねった神経回路網のためのネットワークアーキテ
【0214】
本開示の別の局面は、種の被験体の癌状態を決定する方法を提供し、少なくとも1つの処理装置と少なくとも1つの処理装置による実行のための少なくとも1つのプログラムを保存する記憶を含むコンピュータシステムを少なくとも含む方法を提供する。少なくとも1つのプログラムは、データセットを得るための指示を含むことができ、電子形態では、データセットは、複数の断片におけるそれぞれの断片の対応するメチル化パターンを含むことができる。それぞれの断片(i)の対応するメチル化パターンは、試験対象から得られた生体試料中のそれぞれの断片の1つ以上の核酸試料のメチル化配列決定によって決定することができ、そして(ii)それぞれの断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態を含むことができる。
【0215】
少なくとも1つのプログラムは、さらに、複数のパッチを得るための指示を含むことができ、ここで、複数のパッチ中の各パッチは、第1のチャネルを含み得、そして種の参照ゲノム中の対応する独立したCpG部位のセットを表すことができる。CpG部位の対応する独立セット中の各CpG部位は、参照ゲノム中の所定の位置に対応することができる。それぞれのパッチの第一のチャネルは、第一の複数のパラメータの複数の例を含むことができ、ここで、第一の複数のパラメータの各例は、それぞれのパッチに対するCpG部位の対応する独立セットにおけるそれぞれのCpG部位のメチル化状態に関するパラメータを含む。少なくとも1つのプログラムは、さらに、それぞれの断片のCpG部位と単一のそれぞれのパッチのCpG部位の対応する独立セットとの一致に基づいて、複数の断片中のそれぞれの断片のすべてまたは一部を、複数のパッチ中のそれぞれのパッチに割り当てるための指示を含むことができる。少なくとも1つのプログラムは、さらに、複数のモデルにおいて対応する訓練されたモデルに、複数のパッチ中の各パッチを適用するための指示を含むことができ、それにより、被験体中の癌状態を決定する。
【0216】
複数の断片中の個々の断片は、異なるゲノム位置に並ぶユニークな分子断片であり得るか、または異なるメチル化パターンを含み得る。具体的には、断片は、それぞれの断片のメチル化パターンに基づくのではなく、それぞれの断片のCpG部位と、それぞれの断片のCpG部位の対応する独立セットとの一致に基づくことができるように、それぞれの断片のすべてまたは一部をそれぞれの断片に割り当てることができるように、ゲノム位置に整列するユニークな分子断片であり得る。
【0217】
本方法は、複数のパッチを使用することができる。少なくとも1つのプログラムは、CpG部位の第1の独立セットに並ぶ各断片について、それぞれの断片のメチル化パターンに基づく第1の複数のパラメータの全部または一部のインスタンスをポピュレーションすることによってパッチを構築するための指示を含んでいないことがある。対照的に、得られた複数のパッチをあらかじめ構築することができる。
【0218】
各断片のCpG部位とそれぞれのパッチのCpG部位の対応する独立セットとの一致に基づいて、複数のパッチ中の各断片のすべてまたは一部を、複数のパッチ中の各断片に割り当てることは、以下を含むことができる:i)単一の各パッチの第1の複数のパラメータの内で、複数の断片中の別の断片によってメチル化状態が割り当てられていない、それぞれの断片中のCpG部位に対応するパラメータを、単一のパッチ中の第1の複数のパラメータの内で、第1の単一断片のCpG部位、それぞれの断片のそれぞれのCpG部位のメチル化状態を同定すること;ii)同定されたパラメータの間で、各パラメータの内で、それぞれの断片のCpG部位に並ぶ、単一のパッチの第1の複数のパラメータの内で、各断片のそれぞれのCpG部位のメチル化状態。
【0219】
核酸サンプルは、無細胞核酸サンプルを含むことができる。生物学的試料は、配列決定分析のための準備において、無細胞核酸を抽出するために処理することができる。生物学的試料の詳細は、本明細書の別の個所に記載されている。例えば、無細胞核酸は、K2EDTAチューブにおいて被験体から採取された血液試料から抽出することができる。検体は、採血後2時間以内に、まず10分で2倍に紡績し、1000gで処理し、2000gでプラズマ10分に処理することができる。次いで、血漿を-80℃で1mlアリコートで保存することができる。このようにして、適切な量の血漿(例えば、1~5ml)を、無細胞核酸抽出の目的のために生物学的試料から調製することができる。無細胞核酸はQIAampCirculatingNucleicAcidkit(Qiagen)を用いて抽出し、DNASuspensionBuffer(Sigma)に溶出することができる。精製した無細胞核酸は、使用するまで-20℃で保存することができる。配列決定を目的とする生物学的方法を用いて、無細胞核酸を調製するために1つ以上の方法を用いることができる。
【0220】
生物学的試料を得ることと、配列アッセイのようなアッセイを実施することとの間の時間を、アッセイまたは方法の感度および/または特異性を改善するために最適化することができる。生体試料は、アッセイを実施する直前に得ることができる。生物学的試料を入手し、アッセイを実施する前に一定時間(例えば、数時間、数日または数週間)保存することができる。検体は、1日以内、2日、3日、4日、5日、6日、1週間、2週間、3週間、4週間、5週間、6週間、7週間、8週間、3ヵ月、4ヵ月、5ヵ月、6ヵ月、1年、またはトレーニング対象者から検体を入手してから1年以上経過した後に、検体について分析を行うことができる。
【0221】
個々の標的の核酸は、標的とする遺伝子群の少なくとも50,000x個の遺伝子の配列深さ、この標的とする遺伝子群の少なくとも55,000x個の配列深さ、この標的とする遺伝子群の少なくとも60,000x個の遺伝子のシークエンス深さ、またはこの標的とする遺伝子群の少なくとも70,000x個のシークエンス深さからなるデータセットを形成するために、標的とするパネル・シークエンスによって得られる。標的とする遺伝子パネルは、450から500の遺伝子の間にあり得る。いくつかの実施形態において、遺伝子の標的パネルは、500±5遺伝子の範囲内、500±10遺伝子の範囲内、または500±25遺伝子の範囲内である。
【0222】
配列決定法は、全ゲノムバイサルファイト配列決定を含むことができる。全ゲノム重亜硫酸塩基配列決定法は、例えば米国特許出願第に記載されているように、1つ以上のメチル化状態ベクターを同定することができる。16/352,602,2019年3月13日に提出された「異常なフラグメントの検出および分類」と題する、または米国暫定特許出願第に開示された技術のいずれかに従った。62/847,223,2019年5月13日に提出された「モデルに基づく特徴付けと分類」と題したもので、それぞれ参考までに組み込まれている。以下の実施例1に記載するように、CCGA1データセットから複数の核酸を生成することができる。複数の核酸を処理して、分類器(例えば、パッチCNN分類器)を訓練するために使用されるコピー数値を得ることができる。次いで、対象からの生物学的サンプルから得られた検査データセットを、対象が疾患状態を有するかどうか、およびいくつかの実施形態において、疾患状態のタイプ、病期および/または他の特徴を決定するために訓練された分類器に入力することができる。可変性が高いか地図作成可能性が低いゲノム領域は除外できる。
【0223】
標的化配列決定には、標的化DNAメチル化配列決定を含むことができる。標的DNAメチル化配列決定は、様々な方法で行うことができる。異なる酵素処理および化学処理との組み合わせは、メチル化シトシンまたは非メチル化シトシンのどちらかを変換することができる。例えば、標的化DNAメチル化配列決定は、複数の核酸(ブロック410)中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出することができる。別の例として、標的DNAメチル化配列決定は、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの、複数の核酸における、対応する1つ以上のウラシルへの変換を含み得る。別の例として、標的DNAメチル化配列決定は、複数の核酸において、1つ以上の非メチル化シトシンの対応する1つ以上のウラシルへの変換を含み得、DNAメチル化配列は、1つ以上のウラシルを1つ以上の対応するチミンとして読み取る。標的DNAメチル化配列決定は、複数の核酸において、1つ以上のメチル化シトシンの対応する1つ以上のウラシルへの変換を含むことができ、DNAメチル化配列は、1つ以上の5mCまたは5hmCを1つ以上の対応するチミンとして読み取る。
【0224】
図8Bは、被験体の癌状態を決定する方法850を記述する別の例示的なフローチャートを示す。この方法は、本明細書に開示されている環境500および/または処理システム560によって実施することができる。
【0225】
方法850のステップ852は、1人以上の処理者を介して、1人以上のトレーニング被験体からトレーニングデータセットを取得することを含むことができる。トレーニングデータセットは、1つ以上のトレーニング被験体から得られた1つ以上の生物学的サンプル中の複数の断片に関連する1つ以上のトレーニングメチル化パターン、および1つ以上のトレーニングメチル化パターンに関連する1つ以上の所定のがん状態を含むことができる。トレーニングデータセットは、ゲノムの全部または一部の一次核酸配列に関する情報(例えば、ヌクレオチド多型の有無、インデル配列の再編成、突然変異頻度など)、ゲノム内の1つまたは複数の特定のヌクレオチド配列のコピー数(例えば、コピー数、対立遺伝子頻度分画、単一染色体または全ゲノム倍数性など)、ゲノムの全部または一部のエピジェネティック状態(例えば、メチル化、ヒストン修飾、ヌクレオソーム位置決めなどの共有結合核酸修飾)、および生物のゲノムの発現プロファイル(例えば、遺伝子発現レベル、アイソタイプ発現レベル、遺伝子発現比など)を含むが、これらに限定されるものではない。
【0226】
1つまたは複数のトレーニングメチル化パターンは、1つまたは複数のトレーニング被験体から得られた1つまたは複数の生体試料中の複数の断片を含む1つまたは複数の核酸試料の少なくとも1つのメチル化シークエンシングによって決定することができる。1つまたは複数のトレーニングメチル化パターンは、1つまたは複数のトレーニング被験体から得られる1つまたは複数の生体試料中の複数の断片中の各CpG部位の少なくとも1つのメチル化状態を含むことができる。トレーニングメチル化パターンは、トレーニング対象者のメチル化パターンとすることができる。トレーニング被験体は、その情報がコンピュータモデルをトレーニングするために使用される任意の被験体であり得る。訓練科目は、被験者と異なることができる。主題、計算モデル、メチル化パターン、およびメチル化パターンを決定する方法の詳細は、ここでは別個に記載する。1つ以上の所定の癌状態は、本明細書の別の箇所に記載される任意の癌状態であり得る。
【0227】
方法850のステップ854は、1つ以上の処理器を介して、トレーニングデータセットに基づいて1つ以上のパッチを構築することを含むことができる。1つまたは複数のパッチの各パッチは、1つまたは複数のチャネルを含むことができる。1つ以上のパッチの各パッチは、その種の参照ゲノム中の1つ以上のCpG部位を表すことができる。CpG部位の各CpG部位は、参照ゲノム中の所定の位置に対応することができる。1つ以上のパッチの各々のパッチまたは最初のパッチは、その種の参照ゲノムにおける最初の独立したCpG部位のセットを表すことができる。CpG部位の最初の独立セットにおける各々のCpG部位は、参照ゲノム中の所定の位置に対応することができる。構築物は、CpG部位の第一の独立したセット、それぞれの断片のトレーニングメチル化パターンに基づく第一の複数のパラメータの全部または一部に整列する、1つまたは複数のトレーニング被験体から得られる1つまたは複数の生物学的試料中の各断片を、複数の断片中にポピュレーションまたは充填することを含むことができる。CpG部位の最初の独立セット、インスタンス、パラメータ、1つ以上のパッチ、および1つ以上のパッチを構築する方法の詳細は、本明細書の別の個所でさらに記述される。
【0228】
1つまたは複数のチャネルが第1のチャネルを構成することができる。第一のチャネルは、第一の複数のパラメータの複数のインスタンスを含むことができる。最初の複数のパラメータの各インスタンスは、1つ以上のパッチのパッチに対する第1の独立したCpG部位のセットにおける、それぞれのCpG部位のメチル化状態に関するパラメータを含むことができる。この状況において、構築物は、1以上のトレーニング被験体から得られた1以上の生物学的試料中の複数の断片について、i)複数の断片中の別の断片に基づいてメチル化状態が割り当てられていない、それぞれの断片中のCpG部位に対応するパラメータを、第1チャネルの第1の複数のパラメータのインスタンス内で同定すること;およびii)各パラメータの中で、それぞれの断片の対応するCpG部位、それぞれの断片の対応するCpG部位のメチル化状態に整列するものを割り当てること、を含むことができる。パラメータを同定する方法およびメチル化状態を割り当てる方法のさらなる詳細は、本明細書の別の個所に記載されている。
【0229】
1つまたは複数のチャネルが第2のチャネルを構成することができる。第2のチャネルは、第1のチャネルとは異なる情報を含むことができる。第二のチャネルは、第一の複数のパラメータの各インスタンスに対する第二の複数のパラメータの対応するインスタンスを含むことができる。第2の複数のパラメータの各インスタンスは、第1パッチのCpG部位の第1の独立セットにおけるそれぞれのCpG部位の第1の特徴、CpGメチル化状態以外のパラメータを含み得る。1つまたは複数のチャネルは、さらに、第3のチャネルを含むことができる。第三のチャネルは、第一/第二のチャネルとは異なる情報を含むことができる。第3のチャネルは、第1の複数のパラメータの各インスタンスに対する第3の複数のパラメータの対応するインスタンスを含むことができる。第3の複数のパラメータの各インスタンスは、第1の独立したCpG部位セットにおけるそれぞれのCpG部位の第2の特徴に関するパラメータを含み得る。1つ以上のチャネルの数は、少なくとも1、2、3、4、5、6、7、8、9、10以上とすることができる。いくつかの実施形態において、1つ以上のチャネルの数は、多くても10、9、8、7、6、5以下であり得る。1つ以上のチャネルの数が1より多い場合、1つ以上のチャネルの各チャネルには、1種類の特性(例えば、第1の特性)に関連する固有の情報を含むことができる。例えば、
図6Bの6つのチャネルの各々は、メチル化状態、ベータコントロール、ベータサンプル、p値、多重性、またはプリオに関連する情報を含み得る。この例では、6つのチャネルの各チャネルに、他のチャネルとは異なる情報を含めることができる。1つ以上のチャネルの詳細およびその特徴(例えば、第1の特徴、第2の特徴)については、ここでは別の箇所に記載する。
【0230】
ステップ854の前、または癌状態を決定する任意の段階において、方法850は、各断片のそれぞれに対応する複数のCpG部位を横切る対応するメチル化パターンがp値閾値を満たさないp値を有する、複数の断片から除去することにより、1つ以上のトレーニング対象から得られた1つ以上の生体試料中の複数の断片を剪定することを含むことができる。p値、p値閾値、および複数の断片の剪定の詳細は、ここでは別個に記載する。
【0231】
方法850のステップ856は、1つ以上の処理機を介して、1つ以上のパッチ及びトレーニングデータセットに基づく計算モデルをトレーニングすることができる。計算モデルは、第1段階モデル及び第2段階モデルを含むことができる。第1段階モデルは、1つ以上の回旋ニューラルネットワーク(CNN)を含むことができる。脳回ニューラルネットワークは、事前に訓練された脳回ニューラルネットワークを含むことができる。事前に訓練されたCNNは、ピキセル化された画像データ(例えば、RGBピキセル化画像)上で訓練された1つ以上の層の回旋ニューラルネットを使用することができる。このような事前訓練されたCNNモデルの例は、限定されるものではないが、LeNet、AlexNet、VGG-11、VGGNet16、GoogLeNet、またはResNetを含むことができる。あらかじめ訓練された回旋神経回路網は、特注のあらかじめ訓練されたCNNを含むことができる。特注のあらかじめ訓練されたCNNは、特注のVGG-11回旋神経回路網を含むことができる。特注のVGG-11回旋神経回路網は、特注のフィルターサイズおよび活性化機能を含むことができる。第1段階モデル、CNN、第2段階モデル、あらかじめ訓練されたCNN、および特注のVGG-11の詳細については、本稿の別の箇所でさらに記述する。
【0232】
方法850のステップ858は、1つ以上の処理器を介して、試験被験体から試験データセットを得ることを含むことができる。試験データセットは、試験被験体から得られる1つ以上の生物学的試料中の複数の断片の1つ以上の試験メチル化パターンを含むことができる。検査データセットには、被検者のあらゆる生物学的またはゲノム情報を含めることができる。このような生物学的およびゲノム情報の詳細は、本明細書中の別の個所に記載されている。1つ以上の試験メチル化パターンは、試験被験体から得られる生体試料中の複数の断片を含む1つ以上の核酸試料のメチル化配列決定によって決定することができる。1つ以上の試験メチル化パターンは、試験被験体から得られる生体試料中の複数の断片中の各CpG部位の少なくとも1つのメチル化状態を含むことができる。試験メチル化パターンは、被験体のメチル化パターンとすることができる。
【0233】
方法850のステップ860は、検査データセットおよび計算モデルに基づいて、1つ以上の処理装置を介して、検査対象の癌状態を決定することを含むことができる。決定は、少なくとも第1のパッチを分類器に適用することを含み、それにより、被験体中の癌状態を決定することができる。コンピュータモデルは、試験データセットに基づいて、癌対非癌および/または起源組織を予測することができる。計算モデルは、癌/非癌/情報不足、起源組織、起源臓器、癌タイプ、および/または癌ステージを識別するマルチクラス予測を行うことができる。
【0234】
本明細書に記載される任意の方法は、さらに、1つ以上の生物学的プリアを用いて計算モデル/分類器を更新することを含むことができる。生物学的プライヤーは、地理的情報、喫煙者/非喫煙者、疾患状態ステージ、年齢群、疾患状態の検出可能性、および/または性別(生物学的性別)を含むことができるが、これらに限定されない。更新された計算モデルは、分類器(例えば、マルチクラス分類器)と、一般集団での適用のための数学的計算(例えば、行列計算)とを含むことができる。この状況では、分類器の前または後に数学的計算を適用することができる。いくつかの実施形態では、更新された計算モデルは、一般集団における適用のための数学的計算を含む分類器とすることができる。この状況では、数学的計算を分類器に組み込み、分類器で訓練できる。分類器は、ここに開示された任意のデータまたは情報に基づいて分類を行うことができる、本明細書の他の場所に開示された任意の機械学習または統計モデルを含むことができる。分類器が回帰ニューラルネットワークのための一つ以上のパッチを含む場合には、一つ以上の生物学的プリオルに関連する情報は、一つ以上のパッチの一つ以上のチャネルに組み込まれることがあり、組み込まれないことがある。数学的計算にはナイーブベイズ統計計算を含むことができ、ここでは1つ以上の生物学的プリアを用いて事後確率を計算することができる。数学的計算は、異なる標的集団(例えば、異なる大陸の患者)における適用のために、本明細書の別の箇所に記載されているように、計算モデルを修正する機構とすることができる。更新された計算モデルは、異なる標的集団における癌の頻度および癌タイプの相対頻度を表す情報を含むことができる。がんの頻度には、訓練データセットの頻度分布を含めることができる。更新された計算モデルは、異質な研究(例えば、ここで記述するSTRIKE)にわたって一般化可能な性能を可能にすることができる。
【0235】
いくつかの実施形態において、計算モデルを更新するために、1つまたは複数の生物学的プリエーターは、疾患状態段階(例えば、癌の病期)、疾患状態の検出可能性(例えば、癌の検出可能性)、および/または性別(生物学的性別)を含み得る。この状況において、数学的計算は、i)一般集団における性別特異的な発生率およびがんの病期特異的発生率、およびii)異なる病期にわたるがんの検出可能性(例えば、CCGA1における腫瘍分画結果から)を組み合わせることができる。数学的計算には、i)一般集団におけるがんの性別特異的発生率および病期特異的発生率、ii)様々な病期にわたるがんの検出可能性の間で乗算、追加、分割、および/または差し引くことが含まれる。いくつかの実施形態において、性別特異的発生率および癌の病期特異的発生率は、異なる病期にわたる癌の検出可能性に基づいてスケーリングすることができる。性別特異的な発生率には、訓練または被験者の性別/生物学的性別に関連するあらゆる情報(例、確率)を含めることができる。いくつかの種類のがん(例えば、乳がん)は性別特異的であるため、性別特異的な発生率を用いることができる。がんの病期特異的発生率には、訓練または被験者のがんの病期に関連するあらゆる情報(例、確率)を含めることができる。癌の検出能は、腫瘍分画に基づいて決定することができる。例えば、あるタイプの癌が低排泄(例えば、血液試料中の癌タイプの腫瘍分画が低い)である場合、癌の検出能の値は低くなり得る。
【0236】
更新された計算モデルが分類器と数学計算を含む場合、分類器は訓練データセットで訓練することができ、数学計算は訓練データセットで訓練しないことがある。更新された計算モデルが数学計算を含む分類器である場合、分類器と数学計算は訓練データセットで訓練できる。この状況において、1つ以上の生物学的プリオルは、分類器に入力するためのトレーニングデータセットと組み合わせることができる1次元または多次元マトリックスとして構築することができる。
【0237】
方法は、さらに、1つ以上の処理機を介して、疾患状態(例えば、癌の状態)を、被験体のユーザ装置に関連する電子記録に送信することを含むことができる。疾患状態は、記憶共有、メッセージの通過、トークンパス、またはネットワーク送信を含む任意の適切な方法を用いて、通過、転送、または送信することができる。疾患状態は、テキスト表示、写真表示、ハイパーリンク、ビデオ/音声表示、SMS、メッセージアプリケーションまたはサービス、電子メール、または被験体、医療専門家、または他の関係者への任意の他の適切な機構を介して送信することができる。疾患状態は、グラフィカルユーザインターフェース(例えば、グラフィカルユーザインターフェース550)上に示すことができる。グラフィックユーザインターフェースは、ユーザ(例えば、医療専門家)に、例えば、疾病状態及び疾病状態に基づく治療提案もしくは予防ステップの勧告のグラフィックショウイングを提供するように構成することができる。グラフィックユーザインターフェースは、特定の作業(例えば、疾患状態のレビュー及び治療計画の調整)とユーザの相互作用を可能にすることができる。疾患の状態(例えば、癌の状態)は、癌のレベル、起源の組織、および転移性疾患の状態を含み得る。癌および起源組織のレベルの詳細は、ここでは別の個所に記載されている。
【0238】
転移病変の状態は、リンパ系、血流、またはその他の経路を介して体の新たな領域にがん細胞を拡げる転移過程を表している可能性がある。癌状態は、原発組織(TOO)に加えて、TOOから広がる癌に関連する転移性疾患状態の追加情報を提供することができる。このような転移性疾患の状態は、TOOを示すか、または体内の他の臓器(例えば、腫瘍隣接組織)への癌細胞の広がりを示すかのいずれかであり得る。CfDNA断片は、細胞死に由来することができ、cfDNA断片の存在は、TOO以外の他の領域(例えば、腫瘍隣接組織または浸潤転移性疾患に罹患した体内の他の器官)における組織損傷および細胞死を示すことができる。
【0239】
転移プロセスに影響される細胞からの癌およびcfDNA断片の検出は、分類器または本明細書の別の個所に記載された計算モデルを使用することによって実装することができる。臨床知識は、転移部位におけるcfDNA断片と隣接組織からの断片とを区別するために、多段階分析で実装することができる。臨床的知見は、起源が既知の組織のがんが他の臓器または組織にどの程度頻繁に転移するかを捉えることができる。このような情報は癌登録から得ることができる。例えば、SEERResearchData1975-2017では、骨、脳、肝への遠隔転移の存在が収集されている。診断時の肺、リンパ節または他の部位。参照:Budcziesetal.,2014,“Thelandscapeofmetastaticprogressionpatternofmesionhumancancers“,Oncotarget,2014Nov4;6(1):570-83も参照。転移疾患状態を決定するために、本明細書に記載される任意の方法は、断片レベルの配列決定データを用いてTOOおよび転移プロセスを別々に同定するための2段階をさらに含むことができる。第一段階は、試験被験体から得られた1以上の生体試料中の複数の断片(例えば、cfDNA断片)を用いた分類器/計算モデルを介して、試験被験体のTOOを決定するために本明細書に記載される任意の方法(例えば、方法800または方法850)を含むことができる。第二段階は、決定されたTOOに関連する転移過程によってより影響を受けやすい起源の組織に遠い他の組織の転移病態を検出するために、第一段階において、分類器/計算モデルを介して複数の断片を分析することを含むことができる。他の組織は臨床的知見に基づいて決定することができる。
【0240】
例えば、第一段階が、被験体の起源の組織が、被験体から得られた1以上の生物学的試料中の複数の断片を用いた分類器を介して乳房である(または被験体が乳癌である)場合、第二段階は、臨床的に公知の乳癌転移により影響を受ける一般的な臓器である肝臓、脳、骨、または肺などの他の組織への転移過程により影響を受ける非癌性細胞の存在を検出するために、分類器で複数の断片を分析することを含むことができる。同様に、一例において、第一段階が、被験体の起源の組織が、被験体から得られた1以上の生物学的試料中の複数の断片を用いた分類器を介して肺である(または被験体が肺癌である)場合、第二段階は、肺癌転移によって影響を受ける臨床的に公知の一般的な器官である肝臓、骨、脳、または副腎などの他の組織への転移プロセスによって影響を受ける非癌性細胞の存在を検出するために、分類器で複数の断片を分析することを含むことができる。別の例では、第一段階が、被験体の起源の組織が、被験体から得られた1以上の生物学的試料中の複数の断片を用いて分類器を介して結腸または直腸である(または被験体が結腸直腸癌である)場合、第二段階は、結腸直腸癌転移によって影響を受ける臨床的に公知の一般的な器官である肝臓、肺、脳、および腹膜などの他の組織への転移プロセスによって影響を受ける非癌性細胞の存在を検出するために、分類器で複数の断片を分析することを含むことができる。さらなる例において、第一段階が、被験体の起源の組織が、被験体から得られた1以上の生物学的試料中の複数の断片を用いた分類器を介して前立腺である(または被験体が前立腺癌である)場合、第二段階は、前立腺癌転移によって影響を受ける臨床的に公知の一般的な器官である骨、肝臓、および肺への広がりなどの他の組織への転移プロセスによって影響を受ける非癌性細胞の存在を検出するために、分類器で複数の断片を分析することを含むことができる。
【0241】
第1段階で使用する分類子は、第2段階で使用する分類子と同じにすることができる。例えば、分類器は、複数の組織について、癌の正規化確率(例えば、0から1の間の値)を提供することができる。正規化された確率に基づく。複数の組織のランクを作成することができる。この状況では、最も高位にランク付けされた組織は原発組織となりうるし、0を超える正規化確率(例えば、>0.1)で2位にランク付けされた組織は、転移過程の影響を受けやすい原発組織から離れた他の組織となりうる。実施例10はさらに詳細を提供する。分類器は腫瘍細胞由来のcfDNA試料上で訓練されるが、腫瘍隣接正常組織のメチル化シグナルは、時に、目に見えるスコアをもたらすのに十分に類似し得る。
【0242】
いくつかの実施形態において、第2段階で使用される分類子は、第1段階で使用される分類子とは異なることができる。この状況では、第2段階で使用した分類子は疾患特異的分類子となり得る。非癌性細胞および/または既知の癌および転移部位を有する患者から収集したトレーニングデータセットを用いて、転移部位に対する疾患特異的な分類器をトレーニングすることができる。第1段階でTOOを決定するための分類器と第2段階での疾患特異的分類器の組み合わせは、第1段階と第2段階の両方の分類器を使用する場合と比較して、より高い精度とロバスト性の増加を提供することができる。
[0266]本開示の方法、システム、コンピュータモデル、および/または分類子は、癌の存在(または不在)、起源の組織の検出、癌の進行または再発のモニタリング、治療反応または有効性のモニタリング、最小残存疾患(MRD)の存在またはモニタリング、またはそれらの任意の組み合わせの決定に使用することができる。一例では、コンピュータモデルおよび/または分類器を用いて、特徴ベクトルが癌を有する被験体由来である可能性または確率スコア(例えば、0から1まで)を生成することができる。可能性スコアまたは確率スコアは、疾患状態の1つのタイプとすることができる。確率スコアを閾値確率と比較して、被験体が癌を有するか否かを決定することができる。他の実施形態では、可能性または確率スコアを異なる時点(例えば、治療の前または後)で評価して、疾患の進行を監視するか、または治療の有効性(例えば、治療的有効性)を監視することができる。さらに他の実施形態では、可能性または確率スコアを用いて、臨床的決定(例えば、癌の診断、治療選択、治療有効性の評価など)を行うか、またはそれに影響することができる。例えば、可能性または確率スコアが閾値を超える場合、医療専門家は適切な治療を処方できる。
【0243】
可能性または確率スコアが異なる時点で評価される場合、最初の時点はがん治療の前(例えば、切除手術または治療的介入の前)とすることができ、2番目の時点はがん治療の後(例えば、切除手術または治療的介入の後)とすることができる。この状況において、この方法は、治療の有効性をモニタリングすることをさらに含むことができる。例えば、第2の可能性または確率スコアが第1の可能性または確率スコアと比較して減少した場合、治療が成功したとみなすことができる。しかしながら、2番目の可能性または確率スコアが最初の可能性または確率スコアと比較して増加した場合、治療は成功しなかったと考えることができる。他の実施形態では、第1および第2時点の両方は、癌治療の前(例えば、切除手術または治療的介入の前)であり得る。さらに他の実施形態では、第1および第2の時点の両方が、癌治療後(例えば、切除手術または治療的介入の前)に可能であり、この方法は、治療の有効性または治療の有効性の喪失をさらにモニタリングすることを含むことができる。さらに他の実施形態では、cfDNA試料は、第1および第2の時点で癌患者から得られ、分析され得る。例えば、癌の進行を監視する、癌が寛解状態にあるかどうかを決定する(例えば、治療後)、残存疾患または疾患の再発を監視または検出する、または治療(例えば、治療)効果を監視する。
【0244】
検査試料は、任意のセットの時点にわたって癌患者から得ることができ、患者の癌状態をモニターするための開示の方法に従って分析することができる。約1、2、3、4、5、10、7、8、10、11、または12ヵ月、または約1、2、5、5、3、4、3、5、4、3.5、4、5、4、5.6、7、5.8、8、9.10、10.5、11、12.5、14、14.5、15、16、15.5、17、5、17、18.5、19、など、約30分、約15分、約15、5、7、10、15、6、5、6、7.5、7、8.8、9、9、10、5、18、19、など、約30分までの時間量によって、第1および第2時点と第2時点を分けることができる19.5、20.5、21.5、22.5、23、23.5、245,25,25.5,26,26.5,27,27.5,28,28.5,29,29.5年または約30年。他の実施形態では、試験試料は、少なくとも3ヵ月に1回、少なくとも6ヵ月に1回、少なくとも年に1回、少なくとも2年に1回、少なくとも3年に1回、少なくとも4年に1回、または少なくとも5年に1回、患者から得ることができる。
【0245】
本明細書に記載されている任意の方法(例えば、可能性または確率スコア、疾患状態)から得られる情報は、臨床的決定(例えば、癌の診断、治療選択、治療有効性の評価など)を行うかまたは影響するために使用することができる。例えば、可能性または確率スコアが閾値を超える場合、医療専門家は、医療専門家の使用者装置(例えば、使用者装置520)または任意の他の通信媒体(例えば、電話または郵送)上のグラフィカルユーザインターフェースを介して適切な治療(例えば、切除手術、放射線療法、化学療法、および/または免疫療法)を処方することができる。可能性または確率スコアのような情報は、グラフィックユーザインターフェースを介して、医師または被験体への読影として提供することができる。1つの例では、可能性または確率スコアが0.6以上であれば、1つ以上の適切な治療を処方することができる。別の実施形態では、可能性または確率スコアが0.65以上、0.7以上、0.75以上、0.8以上、0.85以上、0.9以上、0.95以上である場合、1つまたは複数の適切な治療を処方することができる。
【0246】
治療は、化学療法剤、標的癌治療剤、分化治療剤、ホルモン療法剤、および免疫療法剤を含む1つ以上の癌治療剤を含み得る。例えば、治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン、抗腫瘍抗生物質、細胞骨格破壊剤(タキサン)、トポイソメラーゼ阻害剤、有糸分裂阻害剤、コルチコステロイド、キナーゼ阻害剤、ヌクレオチド類似体、白金系薬剤およびこれらの任意の組合せを含む1以上の化学療法剤であり得る。治療は、シグナル伝達阻害剤(例えば、チロシンキナーゼおよび成長因子受容体阻害剤)、ヒストンデアセチラーゼ(HDAC)阻害剤、レチノイン受容体アゴニスト、プロテオソーム阻害剤、血管新生阻害剤、およびモノクローナル抗体結合体を含む1つ以上の標的癌治療剤を含み得る。治療には、トレチノイン、アリトレチノインおよびベキサロテンなどのレチノイドを含む1つ以上の分化誘導療法剤を含むことができる。治療は、抗エストロゲン、アロマターゼ阻害剤、プロゲスチン、エストロゲン、抗アンドロゲン、およびGnRHアゴニストまたは類似体を含む1以上のホルモン療法剤を含み得る。治療には、リツキシマブ(RITUXAN)およびアレムツズマブ(CAMPATH)などのモノクローナル抗体療法、BCG、インターロイキン-2(IL-2)、およびインターフェロン-アルファなどの非特異的免疫療法およびアジュバント、例えばサリドマイドおよびレナリドマイド(REVLIMID)などの免疫調節薬を含む1つ以上の免疫療法剤が含まれ得る。適切な癌治療薬は、腫瘍のタイプ、癌のステージ、癌治療または治療薬への以前の曝露、および癌の他の特性などの特性に基づいて選択できる。
【0247】
図19は、種の被験体の疾患状態を決定するためにプログラムされているかまたは他の方法で構成されている例示的なコンピュータシステム1901を示す。コンピュータシステム1901は、本開示で提供される方法の様々な局面を実装および/または調節することができ、例えば、本明細書に記載されるように、訓練データセットおよび検査データセットのバイオインフォマティクス解析を行い、データ収集、解析および結果報告、ならびにデータ管理を統合する、被験体の癌状態を決定する方法を実行することなどが挙げられる。コンピュータシステム1901は、使用者の電子装置または電子装置に対して遠隔位置にあるコンピュータシステムであり得る。電子機器は、可動式の電子機器であることができる。
【0248】
コンピュータ・システム1901は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータ・プロセッサ」)1905を含むことができ、これらは、単一コアまたはマルチコア・プロセッサであってもよく、または並列処理のための複数のプロセッサであってもよい。コンピュータ・システム1901はまた、メモリまたはメモリ位置1910(例えば、ランダム・アクセス・メモリ、リード・オンリー・メモリ、フラッシュ・メモリ)、電子記憶ユニット1915(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インタフェース1920(例えば、ネットワーク・アダプタ)、およびキャッシュ、他のメモリ、データ記憶および/または電子表示アダプタなどの周辺装置1925を含むことができる。メモリ1910、記憶ユニット1915、インターフェース1920および周辺装置1925は、マザーボードなどの通信バス(実線)を介してCPU1905と通信可能である。記憶部1915は、データを記憶するためのデータ記憶部(又はデータリポジトリ)とすることができる。コンピュータ・システム1901は、通信インターフェース1920の助けを借りて、コンピュータ・ネットワーク(「ネットワーク」)1930に動作可能に結合することができる。ネットワーク1930は、インターネット、インターネット及び/又はエクストラネット、又はインターネットと通信しているイントラネット及び/又はエクストラネットであり得る。ネットワーク1930は、場合によっては、電気通信および/またはデータネットワークであり得る。ネットワーク1930は、クラウドコンピューティングのような分散コンピューティングを可能にすることができる1つ以上のコンピュータサーバを含むことができる。ネットワーク1930は、場合によっては、コンピュータ・システム1901の補助を得て、ピア・ツー・ピア・ネットワークを実現することができ、これにより、コンピュータ・システム1901に結合された装置は、クライアントまたはサーバとして振る舞うことができる。
【0249】
CPU1905は、一連の機械可読命令を実行することができ、これは、プログラムまたはソフトウェアで具体化することができる。命令は、メモリ1910のようなメモリ位置に記憶することができる。指示は、CPU1905に向けることができ、その後プログラムするか、または、本開示の方法を実施するためにCPU1905を構成することができる。CPU1905によって実行される動作の例は、フェッチ、デコード、実行、およびライトバックを含むことができる。
【0250】
なお、マウス1905は、統合回路のような回路の一部とすることができる。システム1901の1つ以上の他の構成要素を回路に含めることができる。場合によっては、回路は特定用途向け集積回路(ASIC)である。
【0251】
記憶ユニット1915は、ドライバ、ライブラリ、保存されたプログラムなどのファイルを記憶することができる。記憶ユニット1915は、ユーザ・データ、例えば、ユーザ・プリファレンスおよびユーザ・プログラムを記憶することができる。場合によっては、コンピュータ・システム1901は、イントラネットまたはインターネットを介してコンピュータ・システム1901と通信している遠隔サーバ上に配置されるような、コンピュータ・システム1901の外部にある1つ以上の追加のデータ記憶ユニットを含むことができる。
【0252】
コンピュータ・システム1901は、ネットワーク1930を介して1つ以上の遠隔コンピュータ・システムと通信することができる。例えば、コンピュータ・システム1901は、ユーザの遠隔コンピュータ・システム(例えば、コンピュータ・システム1901から送信されたサンプル分析の結果を受信し、表示するアプリケーションと共にインストールされたスマートフォン)と通信することができる。遠隔コンピュータシステムの例には、パソコン(例えば、携帯PC)、スラートまたはタブレットPC(例えば、アップル(R)iPad、サムスン(R)ガラキシタブ)、電話、Smart電話(例えば、アップル(R)iPhone、アンドロイド対応装置、ブラックベリー(R))、または個人用デジタルアシスタントが含まれる。ユーザは、ネットワーク1930を介してコンピュータシステム1901にアクセスすることができる。
【0253】
本明細書に記載される方法は、例えば、記憶1910または電子保存ユニット1915上などのコンピュータシステム1901の電子保存場所に保存された機械(例えば、コンピュータ処理装置)実行可能コードによって実装することができる。機械実行可能または機械可読コードは、ソフトウェアの形式で提供することができる。使用中、コードはプロセッサ1905によって実行可能である。場合によっては、コードは、記憶ユニット1915から取り出され、プロセッサ805による準備完了アクセスのためにメモリ1910に記憶されることができる。場合によっては、電子保存ユニット1915を排除することができ、機械実行可能な指示が記憶1910上に保存される。
【0254】
コードは、コードを実行するように構成されたプロセッサを有するマシンと共に使用するために、事前にコンパイルおよび構成することができ、または実行時にコンパイルすることができる。コードは、コンパイル済みまたはコンパイル済みの方法でコードを実行できるように選択できるプログラミング言語で提供できる。
【0255】
ここに提供するシステムおよび方法の側面はプログラミングにおいて具体化することができる。技術の様々な局面は、典型的には機械(または処理装置)実行可能コードおよび/または機械可読媒体のタイプ上に担持され、または具体化された関連データの形態で「製品」または「製造物品」と考えることができる。機械実行可能コードは、メモリ(例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクのような電子記憶ユニット上に記憶することができる。「保存」タイプの媒体は、コンピュータ、処理器などの有形記憶、またはその関連モジュール、例えば、様々な半導体記憶、テープ駆動装置、ディスク駆動装置などの任意または全てを含み、これらはソフトウェアプログラミングのためにいつでも一過性ではない保存を提供し得る。ソフトウェアの全部または一部は、インターネットまたは様々な他の電気通信ネットワークを介して時々通信することができる。このような通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータへの、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にしてもよい。したがって、ソフトウェア要素を担い得る別のタイプの媒体は、例えば、局所装置間の物理的界面を横切って、ワイヤードおよび光学ランドラインネットワークを通して、および様々な空気-リンクにわたって使用されるような、光、電気および電磁波を含む。ワイヤードまたはワイヤレスリンク、光学リンクなどのような波を運ぶ物理的要素も、ソフトウェアを担う媒体として考えることができる。本明細書中で使用される場合、非一過性で有形の「保存」媒体に限定されない限り、コンピュータまたは機械「読取可能媒体」などの用語は、実行のためにマイクロコントローラに指示を与えることに参加する任意の媒体を意味する。
【0256】
したがって、コンピュータ実行可能コードのような機械可読媒体は、有形保存媒体、キャリア波媒体または物理的伝送媒体を含むが、これらに限定されない多くの形態をとることができる。不揮発性保存媒体は、例えば、データベース等を実装するために使用されることがある任意のコンピュータ等における保存機器のいずれかのような光学又は磁気ディスクを含む。図面に示す。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリのようなダイナミックメモリを含む。タンジブル伝送媒体には、同軸ケーブル、銅線および光ファイバが含まれ、これらには、コンピュータシステム内のバスを含むワイヤが含まれる。キャリア波伝送媒体は、電波または電磁信号、または電波(RF)および赤外線(IR)データ通信中に発生するような音響または光波の形態をとることがある。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、その他の光学媒体、穴のパターンを有するパンチカード紙テープ、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、その他のメモリチップまたはカートリッジ、搬送波データまたは命令、搬送波を運ぶケーブルまたはリンク、またはコンピュータがプログラミングコードおよび/またはデータを読み取ることができるその他の媒体を含む。これらの形式のコンピュータ可読媒体の多くは、実行のために1つ以上の命令の1つ以上のシーケンスをプロセッサに運ぶことに関与してもよい。
【0257】
コンピュータシステム1901は、例えば、入力された配列決定データを処理する段階のグラフィックショイング、出力された配列決定データ、および病理学のさらなる分類(例えば、疾患のタイプまたは癌のタイプおよび癌のレベル)などの、限定されるわけではないが、サンプル分析の結果を提供するためのユーザ・インタフェイス(UI)1940を含む電子表示1935を含むか、またはそれと通信中であることができる。UIの例には、グラフィカル・ユーザ・インタフェース(GUI)およびWebベースのユーザ・インタフェースが含まれるが、これらに限定されません。
【0258】
本開示の方法およびシステムは、1つ以上のアルゴリズムの方法によって実装することができる。アルゴリズムは、中央処理ユニット1905による実行に際して、ソフトウェアによって実装することができる。アルゴリズムは、ここで述べた方法の任意のステップを実行することができる。
【0259】
実施例1-循環無細胞ゲノムアトラス研究(CCGA)
【0260】
CirculatingCell-FreeGenomeAtlasStudy(CCGA;NCT02889978)は、プロスペクティブな多施設観察的cfDNAに基づく早期がん検出研究であり、141の施設で15,254人の人口統計学的に均衡のとれた参加者が登録されている。登録した参加者15,254例(癌56%、非癌44%)から血液検体を採取した。
【0261】
第1コホート(事前に規定したサブスタディ)(CCGA1)において、血漿cfDNA抽出を3583名のCCGAおよびSTRIVE参加者(CCGA:1,530、非癌884;STRIVE1169名の非癌参加者)から得た。STRIVE試験は、スクリーニングマンモグラフィーを受ける女性(参加者99,259例)を登録した多施設プロスペクティブコホート研究である。各参加者から引き出された血液に対して、ペアとなったcfDNAと白血球(WBC)を標的とした配列決定(507遺伝子、60,000X)を単一核酸塩相変性/インデックス(ART配列決定アッセイ)、ペアとなったcfDNAとWBC全ゲノム配列決定(WGS、30X)をコピーナンバーバリエーションに、また、cfDNA全ゲノムアンダーゲノムサルファイト配列決定(WGBS、30X)をリステイニングに用いた3つの配列決定アッセイを行った。
【0262】
あらかじめ規定された第2のサブスタディ(CCGA-2)では、全ゲノムではなく標的化された重亜硫酸塩基配列決定法を用いて、標的化メチル化配列決定法に基づいて、がん対非がんおよび起源組織の分類子を開発した。CCGA2については、研修参加者3133人と検証用サンプル1354人(癌患者775人;登録時に癌であると判定されていない579人、癌であるか非癌であるかの確認前)を用いた。独自のメチル化データベースおよび以前のプロトタイプ全ゲノムおよび標的配列決定アッセイから同定されたように、血漿cfDNAを、メチロームの最も有益な領域を標的とする重亜硫酸塩配列決定アッセイに供し、癌および組織を規定するメチル化シグナルを同定した。訓練用に残された当初の3133点のサンプルのうち、1308点のサンプルが臨床的に評価可能であり、分析可能であるとみなされた。解析対象は、主要解析対象集団n=927(癌654例、非癌273例)、副次解析対象集団n=1027(癌659例、非癌373例)とした。
【0263】
核酸断片のメチル化状態を用いて、バリデーションサンプルの分類を行った。2値分類のために、観察された核酸断片は、癌に由来する相対確率が割り当てられた。同様に、起源組織分類のために、観察された核酸断片は、特定の組織に由来する相対確率が割り当てられた。癌および起源組織に特徴的な核酸断片を標的領域にわたって組み合わせて、癌対非癌を分類し、起源組織を同定した。2値がん分類については、臨床的感度は99%の特異度で推定された。組織起源については、メチル化データベースがある場合とない場合の2つの独立したモデルを適合させた。報告された組織起源の結果は、99%の特異度で癌と分類された症例間の予測された組織起源と真の組織起源の一致率を反映している。
【0264】
例2:分類器のトレーニングと性能
【0265】
2079サンプルからトレーニングデータセットを作成した。使用したpatch-CNN分類器は543枚であった。このように、合計約100万のテンソルフロー(Google)トレーニングサンプルについて、サンプルあたり543パッチを計算した。このデータセットを用いて、Patch‐CNNの分類器を訓練した。トレーニングデータセットで使用した2079検体は、CCGA1(1529検体)、CCGA2(328検体)およびConversant(221検体)を含む複数の研究、ならびに無細胞DNA(cfDNA)(1343検体)、ホルマリン固定パラフィン包埋(FFPE)(561検体)、播種性腫瘍細胞(DTC)(87検体)、および凍結保存(59検体)を含む複数の生体試料から構成された。
【0266】
パッチ選択は相互情報法を用いて行い、癌種ペアごとに上位5つの高相互情報ゲノム領域を選択した。相互情報は、2つの分類タイプ間の関係を記述し、例えば、1対の癌タイプに対する高相互情報領域は、第1の癌タイプの試料と第2の癌タイプの試料との間で高度に識別可能なCpG部位を含む。いくつかの実施形態においてパッチ選択のために使用される染色体当たりの領域表示は、
図9Aに例示される。選択した各領域について、隣接するCpG部位を合併させ、関心のあるCpGを中心にして、その領域を100部位でパッド化した。次いで、CCGA1からの若い健康なサンプルを用いて、対照群のカバーがない領域を除いて、すべてのCpG部位がカバーされるように領域を選択した。複数の対比較が可能であったいくつかの例(例えば、複数クラスの分類子について)では、高い相互情報領域が選択され、その結果、すべての可能性のあるがん型対についての高度に識別可能な部位がモデルに表された。
【0267】
トレーニングは、がんの種類および病期により層別化した8倍のクロスバリデーションを用いて実施した(例えば、すべてのサンプルを、がんサンプル、がん以外のサンプル、がんのI~IV期、および/または起源組織のすべてのビンに均等な分布があるように、同じサイズの8ビンにビン化することにより実施した)。交差検証の間、モデルは7つのビンで訓練され、8つ目のビンで評価され、検証は8つのビンの各々が別々に評価されるように8回繰り返された。いくつかの実施形態において層別化のために使用される癌タイプは、例えば、卵巣、子宮、胃、白血病、結腸直腸、前立腺、乳房、肺、他の癌タイプおよび非癌タイプを含む
図9Bにおいて例示される。
【0268】
癌対非癌(“DETECT“)および組織起源(“TOO“)を検出するための分類器の性能を、TOOの場合について
図9Cに示すように癌タイプのパネルについて評価した。詳細については、Oxnardetal.,“Multi-cancerDetectionandTissueofOrigin(TOO)LocalizationUsingTargetedBisulfiteSequencingofPlasmaCell-freeDNA(cfDNA),“AmericanSocietyofClinicalOncology(ASCO)Breakthrough,2019,October11-13,Bangko真の陽性は三角で表され、真の陰性は丸で表され、偽陽性と判定不能のサンプルはそれぞれダイアモンドと四角で表される。検体には癌または非癌のラベルを貼り、癌検体にはさらに癌種のラベルを貼った。全サンプルが99%の特異性で検出された。
図9Cは、診断未確定の血液がんの存在による可能性が高いがんサンプル中の偽陽性(ダイアモンド)の存在を示している。この結果は、モデルの更なる最適化を用いて、偽陽性の検出を回避し、ひいてはバックグラウンドを減少させることができることを示唆している。このような最適化により、高いバックグラウンドによって不明瞭にされていないさらなる真の陽性癌サンプルを同定することができるより大きな感度を有するモデルが可能になる。
【0269】
Patch-CNN分類器の性能は、
図10Aに示すように、がんの病期ごとに分類したがんサンプルのパネルについて評価した。全癌試料の検出を99%の特異度で行った。1つの例では、全がん検体に対する検出感度(がん対非がん)は42.1%、全がん検体に対する組織起源分類の感度は89.7%、早期がん検体の検出は後期がん検体と比較して比較的低かった(I期:10.1%、II期:29%、III期:58.3%、IV期:79.8%)が、各がん病期別では起源組織予測の精度は高かった(感度約90%)。
図10Bは、Patch-CNN分類器の性能を2値設定(例えば、サンプルが原発組織または病期のような3つ以上の標識に分類されていない場合)で示している。この例では、サンプルを癌または非癌に分類した。2値設定において、Patch-CNN分類器は非癌検体を割り当て、平均確率が10%未満で、癌検体を割り当てたところ、平均確率が約80%であったことから、2値分類器の性能が高いことが示された。Patch-CNN分類子について98%、99%、99.5%の特異度でパラメータを調整すると、感度はそれぞれ88%、感度は74.36%、感度は44.23%となる。
【0270】
実施例3:Isomapクラスタリングによる性能試験
【0271】
図11を参照して、次元縮小技術を用いて、本開示のパッチ-CNN分類器のトレーニング後に生成される包埋値(活性化)の性能を評価した。ここで、活性化は、試料に対する分類を予測する包埋値の能力を意味する。分類には、0~20のラベルで示された一連のがん検体を用いた。各サンプルについて、訓練された特徴抽出器を用いて各パッチごとに特徴を抽出した。各パッチについて、包埋値の規範を計算し、与えられたサンプル内の各パッチの規範を連結してサンプル特徴を与えた。次に、各試料の連結規準を多元空間上に投影してプロットした。具体的には、非線形次元減少法Isomapを用いて、N次元空間内に異なる癌標識をクラスタ化した。
図11に示す2次元座標空間のx軸およびy軸は、クラスタリング後のサンプル間の相対的距離を示す。投影図から、異なる癌標識がIsomapの異なる領域にクラスターを形成することが明らかになり、包埋値が異なる標識を有する試料間を識別できることが示された。これらの結果は、包埋値または包埋値の規範のどちらかが性能に関する情報を提供するために使用できることも示唆する。
【0272】
実施例4:最大活性化のパッチ周波数による性能試験
【0273】
図12を参照して、544のパッチから成る本開示のパッチ-CNNモデルを用いて、一組の試料を評価した。ここで、544のパッチの各々は、ヒトゲノムの異なる部分を表した。544パッチの各々について、活性化の頻度を、試料のセットにわたって測定した。したがって、たとえば、544枚のパッチのうち10枚のパッチが、サンプルのセットの中でサンプル2と10に対して活性化したとすると、
図12のパッチ10(
図12のX=10)のy値は2になるだろう。具体的には、サンプルについての分類を予測するために最も高いシグナルを被る544のパッチのセットにおけるパッチは、最大活性化されたパッチであると考えられた(例えば、埋め込み値が最も識別可能である)。544枚セットの各パッチについて、他のすべてのパッチと比較して、それぞれのパッチが最大に活性化された回数を求めることにより、活性化の頻度を算出した。
図12は、成績の大部分が544枚のうち約20枚に由来し、特に2枚のパッチが非常に指標になることを示している。したがって、544パッチのセットの中には、他のパッチよりも頻繁に活性化するパッチもあり、そのようなパッチは分類器の性能を駆動する可能性が高い。例えば、あるパッチは、異なる分類タイプ(例えば、癌および/または非癌)に特化することができる。さらに、非常に指標となるパッチIDは、高度に差別的であるCpG部位を含む可能性が高く、パッチ選択を評価し、最適化する方法を提供する(例えば、パッチのセットを最小限にするため、計算効率を改善し、かつ/またはコストを低減するため)。具体的には、
図12に例示されているような性能指標は、新しい領域選択アルゴリズムをブートストラップする際に、訓練された特徴抽出器モデルを案内することができる。
【0274】
実施例5:t-SNEクラスタリングによる性能試験
【0275】
図13および14を参照して、t-SNEクラスタリングを、上位6つ(
図13)または上位3つ(
図14)の最大活性化パッチの包埋値を用いて、一組のサンプルに対して実施した。実施例4で上述したように、最大活性化されたパッチは、活性化の頻度が最も高いものである(例えば、他のすべてのパッチにわたって、所定のサンプルに対する分類を予測する、所定のパッチの能力)。次に、T‐SNEクラスタリングは次元縮小を行い、データを2次元空間上に投影する。20個のサンプルのセットは、サンプルラベルが0~20で示されている右側の説明文によって示されており、グラフ上の各離散点はサンプルの断片に対応している。
図13では、点の各クラスターは上位6つの最大活性化パッチの1つに相当する。
図13の右側のクラスターは主に癌サンプルから成り、それぞれのクラスターに代表されるパッチがいくつかの異なる癌タイプを識別できることを示している。この結果は、分類中にパッチの重みが等しくない(たとえば、いくつかのパッチが他のパッチよりも分類を駆動する)という
図12からの観察と平行している。
図14では、上位3つの最大活性化されたパッチのt-SNEクラスター化は不連続なクラスターをもたらさないが、グラフの右手側に沿ってがんの種類が目に見えるほど集中している。
【0276】
実施例6:がんの病期ごとの性能試験。
【0277】
図15を参照して、本開示のパッチ-CNNアーキテクチャを用いた分類性能を、癌試料のステージI、II、IIIおよびIVについて比較した。CirculatingCell-freeGenomeAtlasStudy(CCGA2)のサブセットからデータを入手し、98%の特異性で濾過した。データセットの結果としての感度は、モデルに対して45%であった。分類スコアはy軸に沿って示しており、0は非癌、1は癌を示す。それぞれの離散点は標本(例えば、個々の被験者)を表す。グラフの右側の参考資料として、情報が得られない検体が含まれている。
図15は、分類性能が進行性の癌ステージで改善することを示しており、ステージIの癌試料は、対象が癌である平均確率が0.4未満であることが割り当てられ、一方、ステージIVの癌試料は対象が癌である平均確率が1であることが割り当てられている。
【0278】
実施例7:起源組織別性能試験
【0279】
図16、17Aおよび17Bを参照して、本開示のパッチ-CNNアーキテクチャを用いた分類性能を、様々な組織起源に由来する試料について評価した。データはCCGA2から得た。
図16では、分類スコアをy軸に沿って示している。ここで、0は非癌、1は癌を示す。それぞれの離散点は標本(例えば、個々の被験者)を表す。興味深いことに、個々の癌タイプに対する分類結果はCCGA1とCCGA2データセットの間で一致していた。肛門直腸、膀胱および尿路上皮、結腸直腸、頭頸部、肝胆道、肺、リンパ系新生物、多発性骨髄腫、卵巣、膵臓、上部消化管など、他の癌種と比較して、11種類の高信号癌種が容易に検出可能(例えば、0.6を超える確率)であると同定された。
【0280】
図17Aおよび17Bは、不確定分析なしで予測のための80パーセント以上の正確さが達成され(
図17A)、不確定分析で予測のための約90パーセントの正確さが達成された(
図17B)、起源の組織のために「ひとつひとつ」方法を用いて行われた混同マトリックス分析の結果を示している。
【0281】
具体的には、
図17Aでは、リンパ系新生物癌サンプルを正確に84%の精度で分類し(84/99)、肺癌サンプルを正確に86%の精度で分類した(155/181)。他の高シグナルがんの種類は、乳がん(89%で70例中62例)、大腸がん(91%で90例中82例)、頭頸部がん(85%で53例中45例)、肝胆道がん(72%で29例中21例)、多発性骨髄腫(88%で25例中22例)、卵巣がん(81%で27例中22例)、膵臓がん(76%で66例中50例)、上部消化管がん(78%で51例中40例)など、様々な精度で予測された。
【0282】
図17Bでは、不確定な試料の除去は、さらに起源の組織分類を増強した。リンパ系新生物癌試料は正確度96%(76/79)で正しく分類され、肺癌試料は正確度98.4%(126/140)で正しく分類された。他の高シグナルがんの種類は、乳がん(95%で43例中41例)、大腸がん(97%で76例中74例)、頭頸部がん(90%で39例中35例)、肝胆道がん(77%で26例中20例)、多発性骨髄腫(95%で22例中21例)、卵巣がん(86%で22例中19例)、膵臓がん(88%で48例中42例)、上部消化管がん(90%で39例中35例)など、様々な精度で予測された。
【0283】
実施例8:ハイパーパラメータを符号化する。
【0284】
開示されたパッチCNN分類子の超パラメータを符号化し、定義した。このようなハイパーパラメータの使用により、本開示のパッチCNN分類子は、特に、異なるタイプの実験デザイン、応用、配列決定方法、厳密性、正確性、および/または計算属性に適応および/または最適化するために迅速に調整および調整されることが可能となった。調整可能な超パラメータの例には、パッチの数(例えば、10枚から1000枚の間)、パッチごとに評価されるCpG部位の数(例えば、10個から1000個のCpG部位の間、または64個から512個のCpG部位の間などの画像幅、128個のCpG部位または256個のCpG部位などの画像幅)、パッチごとの断片の深さ(例えば、2個から1000個の断片の間などの画像高さ、または32個、50個、64個、または128個の断片などの画像高さ)、パッチ内の断片パッキングの密度が含まれ、とりわけパッチ内の核酸断片の位置決めにはパッチ内での核酸断片のパッキングアルゴリズムが。追加の例ハイパーパラメーターには、p値(p=0.05またはp=0.001のようなp値超パラメーターによって設定されたp値閾値を満たさないコホートにおいて対応する核酸断片に対して評価された場合に、それぞれの核酸断片を対応するメチル化パターンを有する各核酸断片を複数の核酸断片から除去することによって、入力された複数の核酸断片を剪定するために使用される値)、使用される交差検証のタイプ(例えば、PおよびQが正の整数であり、ここで記述されるように同一または異なる、PxQ倍交差検証)、L2正規化脱落率(例えば、0.250000)、L2正規化初期学習率(例えば、0.000200)、およびL2正規化因子(例えば、0.010000)が含まれるが、これらに限定されない。このような規則化のためのロス関数を、数サイクルにわたって実施し、各過剰パラメータセットに対する分類器の性能を、感度、特異性、および正確性のための計量値を用いて評価した。
【0285】
実施例9:品質管理のための管理データ構造を作成し、バリデーションを行う。
【0286】
上記のように、
図3および4は、メチル化配列決定データからの癌状態の分類に使用されるワークフローを例示する。品質管理および/または品質モニタリングを、最初の前処理後およびメチル化コールおよびp値ベースの剪定の前に、データに対して実施した。対照群を用いて、被験試料(例えば、癌)を、正常または健康な試料データを含むデータ構造と比較した。ここでは、健常対照群のためのデータ構造を生成するためのワークフローの例を述べる。健康な対照群データ構造を作成するために、分析システム(または本明細書の別の箇所に記載される処理システム)は、複数の被験体から複数の核酸断片(例えば、cfDNA)を受け取った。各核酸断片についてメチル化状態ベクターを同定することにより、対照群についてメチル化状態ベクターのセットを作成した。
【0287】
各核酸断片のメチル化状態ベクターを用いて、分析システムはメチル化状態ベクターをメチル化部位(例えば、CpG部位)のストリングに細分した。解析システムはメチル化状態ベクターを細分化し、得られたストリングがすべて所定の長さより小さいようにした。例えば、長さが3以下のストリングに細分化された長さ11のメチル化状態ベクターは、長さ3の9のストリング、長さ2の10のストリング、および長さ1の11のストリングをもたらした。別の例では、長さ7を4以下の長さの文字列に細分化した場合、長さ4の4つの文字列、長さ3の5つの文字列、長さ2の6つの文字列、長さ1の7つの文字列になりました。メチル化状態ベクターが、指定されたストリング長よりも短いか、または同じ長さであれば、メチル化状態ベクターは、ベクターのCpG部位のすべてを含む単一のストリングに変換された。
【0288】
解析システムは、可能性のあるCpG部位とベクター中のメチル化状態の可能性について、ひも中の最初のCpG部位として特定のCpG部位を持ち、メチル化状態の可能性を持つ対照群に存在するひもの数を数えてひもを集めた。例えば、与えられたCpG部位において、3のストリング長を考慮すると、2つの3または8のストリング構成が考えられた。そのCpG部位では、8つの可能なストリング配置のそれぞれについて、分析システムは、対照群において、各々のメチル化状態ベクター可能性の何回の発生が起きたかを集計した。この例題を続けると、これはレファレンスゲノム中のそれぞれの開始CpGsitexに対する<Mx,Mx+l,Mx+2>,<Mx,Mx+l,Ux+2>,...,<Ux,Ux+l,Ux+2>の数量を集計することを伴いました。分析システムは、開始CpGサイトとストリングの可能性ごとに集計されたカウントを格納するデータ構造を作成した。
【0289】
文字列の長さに上限を設定することには、いくつかの利点がある。まず、文字列の最大長によっては、分析システムによって作成されるデータ構造のサイズが大幅に増加する可能性がある。例えば、最大文字列長4は、すべてのCpG部位が長さ4の文字列を集計するために少なくとも2つの4番号を持つことを意味する。最大文字列長を5に増やすと、すべてのCpGサイトに24または16個の追加の数字が追加され、前の文字列長と比較してタリー(およびコンピュータメモリ)する数字が2倍になる。ストリングサイズを小さくすることは、コンピュータおよび保存の観点から、データ構造の作成および性能(以下に述べるように後でアクセスするための使用など)を合理的に保つのに役立つ。第二に、最大ひも長を制限する統計的考察は、ひも数を用いる下流モデルの過剰適合を避けることである。CpG部位の長いひもが生物学的には、結果に強い影響(例えば、がんの存在を予測する異常性の予測)を及ぼさない場合、CpG部位の大きなひもに基づいて確率を計算することは、入手できないかもしれないかなりの量のデータを使用するため問題となる可能性があり、したがって、モデルを適切に実施するにはまばらすぎる可能性がある。例えば、以前の100のCpG部位に条件付けられた異常性/癌の確率を計算することは、理想的には、いくつかが以前の100のメチル化状態と正確に一致する、長さ100のデータ構造におけるひものカウントを利用することができる。長さ100のストリングのまばらな計数が利用可能であれば、試験試料中の長さ100の与えられたストリングが異常であるか否かを決定するにはデータが不十分であり得る。
【0290】
データ構造が作成されると、解析システムはデータ構造および/またはデータ構造を利用するあらゆる下流モデルの妥当性確認を試みた。1種類のバリデーションでは、対照群のデータ構造内の一貫性を確認した。例えば、コントロール群内に何らかの外れ値の対象、サンプル、および/または断片がある場合、分析システムはそれらのカテゴリーの一つから任意の断片を除外するかどうかを決定するために様々な計算を行った。代表的な例では、健康な対照群は、診断されていないが、サンプルが異常にメチル化された断片を含むように癌性であるサンプルを含んでいた。この最初のタイプのバリデーションでは、対照群の純度に影響を与えないように、健康な対照群から潜在的な癌性サンプルを除去することを保証した。
【0291】
第2のタイプの検証では、データ構造そのもの(すなわち、健常対照群由来)からのカウントでp値を計算するために用いた確率モデルをチェックした。分析システムがバリデーショングループにおいてメチル化状態ベクトルのp値を生成したら、分析システムはp値による累積密度関数(CDF)を構築した。CDFとともに、分析システムは、対照群のデータ構造を検証するために、CDFについて様々な計算を行った。1つの試験では、CDFが理想的には同一性関数かそれ以下であり、CDF(x)≦xであるという事実を用いた。逆に、アイデンティティ関数の上にあることから、対照群のデータ構造に用いた確率モデル内に何らかの欠陥があることが明らかになった。例えば、断片の1/100がCDF(l/1000)=1/100>1/1000を意味するp値スコアが1/1000であった場合、2番目のタイプの検証では確率モデルによる問題を示すことができなかった。
【0292】
第3のタイプのバリデーションでは、データ構造の構築に用いたものとは別の健全な一連のバリデーションサンプルを用い、データ構造が適切に構築され、モデルが作動したかどうかを検証した。第3のタイプの検証では、健常対照群が健常検体の分布をどの程度一般化したかを定量化した。第3のタイプの検証が失敗した場合、健康な対照群は健康な分布に十分に一般化しなかった。第4のタイプのバリデーションで、非健康的なバリデーショングループのサンプルを用いて試験した。
【0293】
分析システムはp値を計算し、健常でない検証群のCDFを構築した。非健康な検証群では、分析システムは少なくともいくつかのサンプルについてCDF(x)>xを見たか、異なって述べたが、これは第2のタイプの検証および第3のタイプの検証で予想されたものの逆であり、健康な対照群および健康な検証群とは異なっていた。第4のタイプの検証が失敗した場合、このことは、モデルが特定するために設計された異常性を適切に特定していなかったことを示していた。
【0294】
制御グループデータ構造の一貫性を検証するために、追加のワークフローが実行されました。分析システムでは、被験者、サンプル、および/またはフラグメントの組成が対照群とほぼ同じと推測されるバリデーショングループを利用した。例えば、分析系が対照群にがんのない健常者を選択した場合、分析系も検証群にがんのない健常者を使用した。
【0295】
バリデーションのワークフローは、対照群について記載されているように、バリデーショングループのためのメチル化状態ベクターのセットを生成することを含んでいた。各メチル化状態ベクターについて、その位置にある可能性のあるすべてのメチル化状態ベクターを列挙し、対照群データ構造から可能性のあるすべてのメチル化状態ベクターの確率を計算した。次に、算出された確率に基づいて各メチル化状態ベクトルについてp値スコアを算出し、検証群からのすべてのp値の累積密度関数(CDF)を作成した。p値スコアは、特定のメチル化状態ベクターおよび他の可能性のあるメチル化状態ベクターが、対照群においてさらに低い確率を有することを見出す期待値を表した。したがって、低p値スコアは、対照群内の他のメチル化状態ベクターと比較して比較的予想外のメチル化状態ベクターに相当し、高p値スコアは、対照群で見出された他のメチル化状態ベクターと比較して比較的期待されるメチル化状態ベクターに相当した。CDFを用いて、対照群のデータ構造内のp値の一貫性を検証した。
【0296】
実施例10:転移疾患状態を決定する。
【0297】
表3は、転移に苦しむ癌患者由来の血漿試料中のcfDNA断片を用いて、転移疾患状態を決定するいくつかの例を示す。転移過程の決定は、癌および起源組織(TOO)の存在を検出するために用いたのと同じ分類器を用いて行った。
【0298】
例えば、TOO参照データセットには、膵臓癌で既知の肝臓への転移がある被験者18例から採取した血漿サンプルが含まれていた。これら18人の被験者のうち、9人の被験者の血漿試料で肝臓からのシグナルが見られた。しかし、残りの膵癌被験者の血漿サンプルでも肝臓からのシグナルが見られたが、そのシグナルはあまり一般的ではなかった。同様に、別の例として、TOO参照データセットは、乳癌を有し、肺、脳、骨、および肝臓への既知の転移を有する4人の被験者からの血漿サンプルを含んだ。脳および骨への転移を有する試料は、訓練された分類器のための脳組織を表したクラスがなくても、乳房以外の起源組織について強い交差スコア(例えば、癌の正規化確率)を有した。また、骨転移のある標本のクロススコアには、骨髄中の一部の細胞と同様のメチル化シグナルを有する多発性骨髄腫および肉腫のスコアが含まれていた。
【0299】
別の例では、TOO参照データセットには、肺癌があり、骨、脳、心膜、肝への既知の転移がある被験者13例の血漿サンプルが含まれていた。骨および脳への転移が認められたサンプルは、肺以外の組織に対して強い交差スコア(例えば、がんの正規化確率)を示した。別の例では、TOO参照データセットには、結腸直腸癌および既知の肝転移を有する被験者10例から採取した血漿サンプルが含まれていた。結腸直腸癌および肝臓への転移を有する被験体由来の試料において、肝細胞からの明白に可視的なメチル化シグナルはなかった。
【0300】
[表3]原発癌の異なる被験者に対するTOO結果(癌の正規化確率など)。
【0301】
結論
【0302】
複数のインスタンスは、単一インスタンスとして本明細書に記述される構成要素、操作または構造に対して提供されることがある。様々な構成要素、操作、およびデータ保存の間の境界はいくぶん任意であり、特定の操作は特定の図解構成との関連で図示される。機能性の他の割当が想定され、実装の範囲内に入る可能性がある。一般に、例の構成において別々の構成要素として提示される構造および機能性は、複合構造または構成要素として実装され得る。同様に、単一の構成要素として提示される構造及び機能性は、別個の構成要素として実装され得る。これら及びその他の変更、修正、追加、改善は、実施の範囲内に収まる。
【0303】
また、第一、第二等の用語ではあるが、理解されるであろう。ここでは、種々の要素を記述するために使用することができるが、これらの要素はこれらの用語によって制限されるべきではない。これらの用語は、ある要素と他の要素を区別するためにのみ使用される。例えば、第1の被験体を第2の被験体と呼ぶことができ、同様に、第2の被験体を、本開示の範囲から逸脱することなく、第1の被験体と呼ぶことができる。1番目の被験者と2番目の被験者は両方の被験者であるが、同一の被験者ではない。
【0304】
本開示で使用される用語は、特定の実施形態のみを記述する目的であり、本発明の限定を意図するものではない。本発明の記載及び添付のクレームにおいて使用されるように、単独の形態「a」、「an」及び「the」は、文脈が別であることを明確に示しない限り、同様に複数の形態を含むことを意図している。本明細書中で使用される「および/または」という用語は、関連する列挙された項目の1つ以上の任意の可能な組合せおよび全ての可能な組合せを意味し、包含することも理解されるであろう。用語が「含む」および/または「含む」ことは、この仕様で使用される場合、記載された特徴、整数、ステップ、操作、要素、および/または構成要素の存在を明記するが、1つまたは複数の他の特徴、整数、ステップ、操作、要素、構成要素、および/またはそれらの群の存在または追加を妨げないことはさらに理解されるであろう。
【0305】
本明細書中で使用される場合、用語「もしあれば」は、状況に応じて、「いつ」または「時」または「決定することに応答して」または「検出することに応答して」を意味するように解釈され得る。同様に、「決定された場合」または「[規定された状態または事象]が検出された場合」の表現は、状況に応じて、「決定した場合」または「検出した場合(規定された状態または事象)に(規定された状態または事象を検出した場合)」または「決定した場合」(規定された状態または事象)に(または「検出した場合(
【0306】
上記の説明には、例示的な実装を例示する、例示的なシステム、方法、技術、指示シーケンス、およびコンピュータ機械プログラム製品が含まれた。説明のために、本発明の主題の様々な実施の理解を提供するために、多くの具体的な詳細が示された。しかしながら、発明の主題の実施がこれらの具体的な詳細なしに実施され得ることは、当業者には明白であろう。一般に、周知の指示例、プロトコル、構造および技術は詳細に示されていない。
【0307】
上記の説明は、説明の目的のために、特定の実装を参照して記述されている。しかしながら、上記の例示的な議論は、網羅的であること、または開示された正確な形態に実装を限定することを意図するものではない。上記の教示を考慮すると、多くの修正および変更が可能である。実装は、原理及びその実用的な適用を最もよく説明するために選択され、記述され、それにより、当業者が意図する特定の使用に適合するように種々の改変を伴う実装及び種々の実装を最良に利用することを可能にした。
【誤訳訂正書】
【提出日】2022-10-24
【誤訳訂正1】
【訂正対象書類名】明細書
【訂正対象項目名】全文
【訂正方法】変更
【訂正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願)
本願は、「パッチ畳み込みニューラルネットワークを用いる癌分類」と題されており、2019年12月13日に出願された米国仮特許出願第62/948,129号の優先権を主張するのであり、参照により該出願は取り込まれる。
【0002】
対象からの遺伝子型情報を用いて癌等の疾患状態について対象を分類するパッチ畳み込みニューラルネットワークを開示する。
【背景技術】
【0003】
癌の早期発見は、癌の予後を改善するための最も人道的な手法の1つである。既存の治療(固形腫瘍については手術と化学療法と放射線療法との組合せ又は液性腫瘍については化学療法と骨髄移植との組合せ)は、不十分な生存率を含む種々の欠点を有している。多くの場合、治療は患者を苦痛状態にさらし、不十分な生存期間しか与えない。新たな免疫療法にも欠点はある。患者はICUで治療されることを要し、また、致死的な副作用が多くの場合あり得る。これらの治療のいずれもが、癌の早期発見によって有効性が増す。
【0004】
もっとも、現行のスクリーニング検査は不十分である。マンモグラフィーや結腸内視鏡検査法や子宮頸部細胞診やPSA検査等のモニタリング方法は何十年も用いられているが、いずれもが等しく宜しいわけではない。一部の病変部はとても遅く進行するのであり、患者はそれ以外によって死亡することのほうが起こりやすいこととなる一方で、一部の危険な腫瘍に関しては治癒するには手遅れとなるまでは検知不可能となることもある。また、他の種別もあるも、肺癌に関しては満足できるスクリーニング検査が用意されていない。
【0005】
本開示は上述の1つ以上の問題点を克服することに向けられている。本開示での背景技術の記載は、本開示の文脈を概して提示する目的のものである。別段の定めなき限り、このセクションにて説明されている事柄は、本願の特許請求の範囲に対しては先行技術となるのではなく、また、このセクションに含まれることによって先行技術として認容されるわけではなく或いは先行技術の示唆として認容されるわけでもない。
【発明の概要】
【0006】
本開示は上述にて技術分野における特定された課題に取り組むのであり、対象者における癌の早期発見のためのツールを提供することによってこれをなす。上述のように、癌の早期発見は重要である。なぜならば、これによって早期治療が可能となり、よって生存率が向上し得るからである。この目的に関しては、本開示は、cfDNA断片のCpGサイトのメチル化状態を分析するためのシステム及び方法を提供する。無細胞DNA(cfDNA)断片のシーケンシング及び断片中のシトシン及びグアニンの様々なジヌクレオチドのメチル化状態の分析によって、対象者が癌を有しているか否かについて識見がもたらされ得る。
【0007】
本開示は既存の分類手法に比して改善された特異度及び感度を提供し得るのであって、メチル化断片データに深層学習分類手法を適用することによってこれをなし得るのであり、特に視覚分類手法を挙げ得る。例えば、癌/非癌(C/NC、cancer/non-cancer)分類及びメチル化断片原発組織(TOO、tissue-of-origin)分類を、視覚課題に類似する深層学習課題として再構築することによって、粒度の細かいメチル化シーケンス特徴や高次クロス領域特徴等のデータ中の非線形性に関する主要な情報がもたらされ得る。
【0008】
開示のシステム及び方法は、カスタム訓練されたパッチ畳み込みニューラルネットワーク(パッチCNN)を、データファイルからの断片データについて、癌/非癌(C/NC)分類及び原発組織(TOO)分類に関して適用できる。細かい粒度の断片シーケンスデータと共に局所的領域情報についての可視性をもたらすために、データは2次元的な「イメージ」としてエンコード及び表されることができ、CpGサイトを第1の軸に沿わせて、堆積させた断片リード(read)の深度を直交する軸に沿わせて、補足データは追加チャンネルとしてエンコードされる。CNNアーキテクチャはビジョン及び画像処理の分野にて用いられることができるのであり、広範なデータに関して共通するパターン及び特徴を学習することができる。開示のシステム及び方法では、近隣CpGサイトの位置的コンテキストは、画素と似た態様でエンコード及び表現することができ、モデル学習の入力として用いられるのであって、異常なシーケンス及び断片を認識するために用いられる。似たようにして、CpGサイトの幅方向及びリードの深度方向の観点でより大きな領域ビューをもたらすことによって、共局在化した異常断片にわたっての高次特徴を学習することができる能力をネットワークにもたらし得る。
【0009】
主たる関心事の1つとしては入力特徴のサイズが含まれ得る。この点、次元縮小的な戦略を用いて、ネットワーク訓練を実現可能とし得る。深層学習の応用時において生じるありふれた問題の1つとしては、問題を計算量的に取り扱い可能としつつ基礎となるデータの情報量を(例えば、断片レベル並びに領域間レベルの両方で)可能な限り保全することの困難性が挙げられる。例えば、ゲノム又は標的メチル化パネル中の全CpGサイトを含む予測モデルは、それぞれ約28M乃至は1M程のCpGサイトを有し得る。約30から1500のリード深度を用いると、ネットワーク入力は10億を超えるパラメータを伴うものに直ぐなってしまう。ネットワーク規模、深度、計算上の複雑度、メモリ制約、及び入力パラメータと比較した際の訓練例の個数の不均衡は、単純に解決困難なものとなり得るのであり、特に、伝統的な深層学習データベース及び最大で28×28のイメージ又は3万から5万の入力に関して作用する大型画像分類器に関してなおさらである。データに対してプレフィルタリングを行ったりアグレゲーションを行ったりビン入れを行ってより粗い解像度に落とすといった次元縮小方法もあるが、分類のために利用可能な情報を減らしてしまうことがある。
【0010】
次元縮小の1つの選択肢としては、入力空間をより解決容易な局所化した領域に細分化してマージ前に独立に学習可能とすることが挙げられる。該手法は、結果のマージ前に領域を独立的に探索しようとする局所化且つ共有化されたサーチを遂行することと等価たり得る。したがって、本開示にて説明されるように、ゲノム又はCpGサイトのパネルは、パッチCNNにて用いるための処理可能な領域に区分された大型イメージとして表現でき、疾患予測をより解決容易な問題に変換することができる。本開示は、さらに、断片データを行列等のデータ構造に落とし込む乃至はそれを組み上げるためのシステム及び方法を提供するのであり、これは安定的且つ再現可能な分類のためになされる。
【0011】
したがって、本開示は、断片、領域、及び試料レベルでの分類に関して性能向上をもたらすシステム及び方法を提供できるのであり、これは深層ニューラルネット(例えば、パッチCNN)をメチル化シーケンシングデータに対して用いるものとされる。さらに、本開示は、異常メチル化状態以外の粒度で特徴を評価することに関しての向上をもたらすシステム及び方法を提供できるのであり、細やかな粒度でのメチル化シーケンス特徴及び粗い粒度でのクロス領域パターンが含まれる。このような応用例は、(例えば、癌/非癌(C/NC、Cancer/Non-Cancer)及び原発組織(TOO、Tissue-of-Origin))予測の性能の感度及び特異度を向上させ得るのであり、それと共に、従来的分析ワークフローとの比較で最も大きい情報ゲインをもたらすCpG関心領域を識別する。
【0012】
したがって、本開示は、種に属する検査対象の疾患状態(disease condition)を決定する方法を提供し得る。本開示のそのような態様の1つでは、方法は、少なくとも1つのプロセッサと前記少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを格納するメモリとを備えたコンピュータシステムにてなされる。前記少なくとも1つのプログラムは次のステップのための命令を含み得る:電子的態様にてデータセットを取得するステップであって、該データセットは複数の断片中のそれぞれの各々の断片の対応するメチル化パターンを備える、ステップ。それぞれの各々の断片の前記対応するメチル化パターンは、前記検査対象から取得された生物試料中の前記各々の断片を備える1つ以上の核酸試料についてのメチル化シーケンシングによって決定され得るのであり、また、前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含む。
【0013】
この態様では、前記少なくとも1つのプログラムは次のステップのための命令をさらに含む:第1のチャンネルを含む第1のパッチを構築するステップ。前記第1のパッチは前記種の参照ゲノム中の、CpGサイトの第1の独立セットを表し得るのであり、また、CpGサイトの前記第1の独立セット中のそれぞれの各CpGサイトは前記参照ゲノム中の所定の位置に対応する。前記第1のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み得る。前記第1の複数パラメータの各インスタンスは前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み得る。第1のパッチの構築は、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれの各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入することを含み得る。
【0014】
この態様では、前記少なくとも1つのプログラムは次のステップのための命令をさらに含み得る:少なくとも前記第1のパッチを分類器に適用してそれによって前記検査対象にての癌状態を決定するステップ。
【0015】
一部の実施形態では、前記少なくとも1つのプログラムは次のステップのための命令をさらに含む:前記データセットの取得後且つ前記第1のパッチの構築前に、前記複数の断片に対してプルーニングを行うステップ。前記複数の断片からそれぞれの各々の断片であって前記各々の断片中の対応する複数のCpGサイトにわたっての対応するメチル化パターンがp値閾値を充足しないp値を有する断片を除去することによって前記複数の断片に対してプルーニングを行い得る。前記各々の断片の前記p値の決定は、前記各々の断片の前記対応するメチル化パターンを、前記各々の断片の前記対応する複数のCpGサイトを有する対応する複数の参照断片中の前記対応する複数のCpGサイトのメチル化パターンの対応する分布と比較することによってなされ得る。前記対応する複数の参照断片中の各参照断片の前記メチル化パターンは、1つ以上の共通特徴を有する対象のコホート(例えば、健常な対象のコホート、喫煙する健常な対象のコホート、喫煙しない対象のコホート、男性の対象のコホート、女性の対象のコホート、閾値となる年齢を超える対象のコホート、指定された年齢レンジ内の対象のコホート、遺伝子変異の特定のセットを有する対象のコホート、特定の人種の対象のコホート等。)から取得された生物試料からの核酸についてのメチル化シーケンシングによって取得され得る。
【0016】
一部の実施形態では、前記第1のパッチは、前記第1のチャンネル及び第2のチャンネルを含む複数のチャンネルを含む。前記第2のチャンネルは、前記第1の複数のパラメータの各インスタンスについての第2の複数のパラメータについての対応するインスタンスを含み得る。前記第2の複数のパラメータの各インスタンスは、前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのCpGメチル化状態以外の第1の特徴についてのパラメータを含み得る。前記第1のパッチを構築するステップは、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれの各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンス並びに前記第2の複数のパラメータの全部又は一部のインスタンスに投入することを含み得る。
【0017】
一部の実施形態では、各々の断片の前記メチル化パターンは、前記第1のパッチのCpGサイトの前記第1の独立セット中の各CpGサイトを含まない。前記複数の断片中の各々の断片についての第1のパッチを構築するステップは、前記各々の断片内に存するCpGサイトに対応する第1の複数のパラメータの前記インスタンス中のパラメータに投入することを含み得る。
【0018】
一部の実施形態では、前記複数の断片中の各々の断片についての第1のパッチを構築するステップは、前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別することを含む。前記第1のパッチを構築するステップは、前記識別されたパラメータのうちの前記各々の断片の対応するCpGサイトに整列する各パラメータについて、前記各々の断片の前記対応するCpGサイトの前記メチル化状態を割り当てることをさらに含み得る。
【0019】
一部の実施形態では、前記複数の断片中の各々の断片について、第1のパッチを構築するステップは、前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別することを含む。前記第1のパッチを構築するステップは、前記識別されたパラメータのうちの前記各々の断片の各々のCpGサイトに整列する各パラメータについて、前記各々の断片の前記各々のCpGサイトの前記メチル化状態を割り当てることをさらに含み得る。前記第1のパッチを構築するステップは、前記第1の複数のパラメータの前記インスタンスに対応する前記第2のチャンネルの前記第2の複数のパラメータの前記インスタンスの前記第2の複数のパラメータ中の、前記各々の断片の各々のCpGサイトに整列する、前記識別されたパラメータのうちの各パラメータについて、前記各々の断片の前記各々のCpGサイトの前記第1の特徴を割り当てることをさらに含み得る。一部の実施形態では、前記各々のCpGサイトの前記第1の特徴は前記各々のCpGサイトが所在する前記各々の断片の多重度である。一部の実施形態では、前記各々のCpGサイトの前記第1の特徴は、次のものを含む:本願の他の箇所で説明された1つ以上の共通特徴を有する対象のコホートから得られたCpGβ値と、本願の他の箇所で説明された1つ以上の共通特徴を有する対象のコホート中の所定の組織タイプから得られたCpGβ値と、検査対象から得られたCpGβ値と、5’及び3’近隣CpGサイトのメチル化状態についてのPearson相関スコアと、癌コホート又は本願の他の箇所で説明された1つ以上の共通特徴を有する対象のコホートに対しての前記検査対象中の前記各々のCpGサイトのメチル化状態についての,Jaccard類似度,ユークリッド距離,マンハッタン距離,最大値,正規化ユークリッド距離,正規化最大値,dice係数,又は余弦類似度と、前記各々の断片の断片p値と、前記各々のCpGサイトが所在する前記各々の断片の長さと、断片シーケンス源と、前記各々のCpGサイトが所在する前記各々の断片の断片マッピング品質スコアと、前記参照ゲノム中の5’隣接CpGサイトへの距離と、前記参照ゲノム中の3’隣接CpGサイトへの距離と、前記各々のCpGサイトが所在する前記各々の断片の多重度と、前記各々のCpGサイトが所在する遺伝的要素と、前記各々のCpGサイトが関連付けられている生物学的経路と、前記各々のCpGサイトが関連付けられている遺伝子と、前記各々のCpGサイトについてのCpG遷移インパルス関数の値と、前記各々のCpGサイトについてのCpGラン長符号化(run-length encoding)の値と、前記各々のCpGサイトが所在する前記断片のリード(read)ストランド配向。一部の実施形態では、前記複数の断片中の1つより多い断片は、1つより多い断片が共通CpGサイトを有さないことを条件として、前記第1のパッチ中の前記第1のチャンネルの前記第1の複数のパラメータの単一のインスタンスに割り当てられる。
【0020】
一部の実施形態では、前記第1の複数のパラメータの前記インスタンス中のパラメータはゼロで埋められている。一部の実施形態では、CpGサイトの前記第1の独立セットは前記参照ゲノムのCpGインデックス中にある。一部のそのような実施形態では、前記参照ゲノムの前記CpGインデックスは、CpGサイトの前記第1の独立セットに中には所在しないもCpGサイトの前記第1の独立セット内に所在する第2のCpGサイトと第3のCpGサイトとの間の前記参照ゲノム中に位置する第1のCpGサイトを含む。
【0021】
一部の実施形態では、CpGサイトの前記第1の独立セットは、前記参照ゲノムのCpGインデックス中において互いに隣り合う第1のCpGサイトと第2のCpGサイトとを含む。前記複数の断片中の第1の断片は、前記第1のCpGサイトを含み得るも前記第2のCpGサイトを含まないことがあり。前記複数の断片中の第2の断片は、前記第2のCpGサイトを含み得るも前記第1のCpGサイトを含まないものとされることができる。
【0022】
一部の実施形態では、前記複数の断片中の各々の断片についての前記第1の複数のパラメータのインスタンス中のパラメータは:前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化していると決定された場合には、メチル化しているとされ;前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化していないと決定された場合には、メチル化していないとされ;及び/又は前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化している又はメチル化していない以外のものと決定された場合には、それ以外とされる。
【0023】
一部の実施形態では、前記第1のチャンネルの前記第1の複数のパラメータの幾つかのインスタンスには各々の断片が割り当てられず、また、前記少なくとも1つのプログラムは、断片が割り当てられていない前記第1のチャンネルの前記複数のパラメータのインスタンス中にてパラメータについてゼロで埋めるための命令を含む。一部の実施形態では、前記少なくとも1つのプログラムは、前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別できず、また、前記少なくとも1つのプログラムは、前記各々の断片を破棄するための命令をさらに含む。一部の実施形態では、前記少なくとも1つのプログラムは、前記第1のパッチの前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別できず、また、前記少なくとも1つのプログラムは、前記第1のパッチの追加のインスタンスを作成するための命令及び前記各々の断片を前記第1のパッチの前記追加のインスタンスに割り当てるための命令をさらに含む。
【0024】
一部の実施形態では、前記複数のチャンネルは少なくとも3つのチャンネルを含む。前記第1の複数のチャンネルのうちの第3のチャンネルは、前記第1の複数のパラメータの各インスタンスについての第3の複数のパラメータについての対応するインスタンスを含み得る。前記第3の複数パラメータの各インスタンスは、CpGサイトの前記第1の独立セット中の各々のCpGサイトの第2の特徴についてのパラメータを含み得る。前記第2の特徴は、次のものを含み得る:本願の他の箇所で説明された1つ以上の共通特徴を有する対象のコホートから得られたCpGβ値と、本願の他の箇所で説明された1つ以上の共通特徴を有する対象のコホート中の所定の組織タイプから得られたCpGβ値と、検査対象から得られたCpGβ値と、5’及び3’近隣CpGサイトのメチル化状態についてのPearson相関スコアと、癌コホート又は本願の他の箇所で説明された1つ以上の共通特徴を有する対象のコホートに対しての検査対象中の前記各々のCpGサイトのメチル化状態についてのJaccard類似度と、前記各々の断片の断片p値と、前記各々のCpGサイトが所在する前記各々の断片の長さと、断片シーケンス源と、前記各々のCpGサイトが所在する前記各々の断片の断片マッピング品質スコアと、前記参照ゲノム中の5’隣接CpGサイトへの距離と、前記参照ゲノム中の3’隣接CpGサイトへの距離と、前記各々のCpGサイトが所在する前記各々の断片の多重度と、前記各々のCpGサイトが所在する遺伝的要素と、前記各々のCpGサイトが関連付けられている生物学的経路と、前記各々のCpGサイトが関連付けられている遺伝子と、前記各々のCpGサイトについてのCpG遷移インパルス関数の値と、前記各々のCpGサイトについてのCpGラン長符号化の値と、前記各々のCpGサイトが所在する前記断片のリードストランド配向。
【0025】
一部の実施形態では、CpGサイトの前記第1の独立セットは前記参照ゲノム全体から抽出される。一部の実施形態では、前記少なくとも1つのプログラムは、対応する第1のチャンネルを含む第2のパッチを構築するための命令をさらに含む。前記第2のパッチは、前記種の前記参照ゲノム中の、CpGサイトの第2の独立セットを表し得る。CpGサイトの前記第2の独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。前記第2のパッチの前記対応する第1のチャンネルは、第1の複数のパラメータについての対応する複数のインスタンスを含み得る。前記第2のパッチの前記第1のチャンネルの前記対応する第1の複数パラメータの各インスタンスは、前記第2のパッチについてのCpGサイトの前記第2の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み得る。前記少なくとも1つのプログラムは次のステップのための命令をさらに含む:CpGサイトの前記第2の独立セットに整列した前記複数の断片中のそれぞれの各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第2のパッチの前記第1の複数のパラメータの全部又は一部のインスタンスに投入して、それによって前記第2のパッチを構築するステップ。前記命令は、前記第1及び第2のパッチを前記分類器に適用して、それによって前記検査対象にての癌状態を決定することをさらに含み得る。一部の実施形態では、前記第2のパッチは、前記対応する第1のチャンネルを含む対応する複数のチャンネルを含み得る。前記第2のパッチの前記対応する複数のチャンネルのうちの対応する第2のチャンネルは、前記第1の複数のパラメータの各インスタンスについての第2の複数のパラメータについての対応するインスタンスを含み得る。前記第2のパッチの前記第2の複数のパラメータの各インスタンスは、前記第2のパッチについてのCpGサイトの前記第2の独立セット中の各々のCpGサイトのCpGメチル化状態以外の第1の特徴についてのパラメータを含み得る。CpGサイトの前記第2の独立セットに整列した前記複数の断片中のそれぞれの各々の断片について投入するための命令は、前記各々の断片の前記メチル化パターンに基づいて、前記第2のパッチの前記第2の複数のパラメータの前記インスタンスの全部又は一部のインスタンスにさらに投入することができる。
【0026】
一部の実施形態では、CpGサイトの前記第1の独立セットは、CpGサイトの前記第2の独立セットとは重複していない。一部の他のそのような実施形態では、CpGサイトの前記第1の独立セットは、CpGサイトの前記第2の独立セットとは重複する。一部の実施形態では、前記第1のパッチは、前記第2のパッチとは同等のサイズではあるが前記参照ゲノムの異なる部分を表す、方法。一部の他のそのような実施形態では、前記第1のパッチは前記参照ゲノムの第1の部分を表し、また、前記第2のパッチは前記参照ゲノムの第2の部分を表し、前記第1の部分のサイズは前記第2の部分のサイズと異なる。一部の実施形態では、CpGサイトの前記第1の独立セットは第1の個数のCpGサイトを備え、CpGサイトの前記第2の独立セットは第2の個数のCpGサイトを備え、CpGサイトについての前記第1の個数はCpGサイトについての前記第2の個数と同一である。そのような実施形態以外の一部では、CpGサイトの前記第1の独立セットは第1の個数のCpGサイトを備え、CpGサイトの前記第2の独立セットは第2の個数のCpGサイトを備え、CpGサイトについての前記第1の個数はCpGサイトについての前記第2の個数と異なる。
【0027】
一部の実施形態では、1つ以上の核酸試料についての前記メチル化シーケンシングは、全ゲノムメチル化シーケンシング又は標的DNAメチル化シーケンシングであって複数の核酸プローブが用いられるものである。一部のそのような実施形態では、一部の実施形態では、1つ以上の核酸試料についての前記メチル化シーケンシングは、複数の核酸プローブを用いる。一部の実施形態では、1つ以上の核酸試料についての前記メチル化シーケンシングは、1つ以上の5-メチルシトシン(5mc)及び/又は5-ヒドロキシメチルシトシン(5hmc)を前記各々の断片にて検出する。本明細書で使用する場合、「メチル化」分析という用語は、ヒドロキシメチル化を含むがこれには限定されないメチル基が関与する任意の種類の改質を包括し得る。
【0028】
一部の実施形態では、1つ以上の核酸試料についての前記メチル化シーケンシングは、前記各々の断片中の1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンを対応する1つ以上のウラシルに転換することを伴う。一部の実施形態では、前記1つ以上のウラシルは、前記メチル化シーケンシングに際して、1つ以上の対応するチミンとして検出される。一部の他のそのような実施形態では、1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンについての前記転換は、化学転換、酵素転換、又はそれらの組合せを含む。
【0029】
一部の実施形態では、前記少なくとも1つのプログラムは前記第1のパッチを含む複数のパッチを構築するための命令をさらに含み、それぞれの各々のパッチは前記参照ゲノム中のCpGサイトについての異なる独立セットのためのものである。前記第1のパッチを構築するステップは、前記第1のパッチを含む複数のパッチを構築することをさらに含み得る。前記分類器は1つ以上の訓練済み第1段階モデル(例えば、全パッチについて単一の第1段階モデルや各々がパッチに対応する複数の訓練済み第1段階モデル)及び第2段階モデルを含むことができる。少なくとも前記第1のパッチを分類器に適用するステップは、複数の特徴要素を含む特徴ベクトルを取得するステップを含み得る。前記複数の特徴要素中の各特徴要素は、前記複数のパッチ中の各々のパッチを前記対応する訓練済み第1段階モデルに適用した際の、前記複数の訓練済み第1段階モデル中の対応する訓練済み第1段階モデルの出力とされ得る。前記命令は、前記特徴ベクトルを前記第2段階モデルに適用してそれによって前記検査対象にての前記癌状態を決定するステップをさらに含み得る。一部の実施形態では、前記複数の訓練済み第1段階モデル中のそれぞれの各々の訓練済み第1段階モデルは対応する訓練済み畳み込みニューラルネットワークであり、また、前記第2段階モデルはロジスティック回帰モデルである。一部の実施形態では、前記第2段階モデルは、2値分類アルゴリズム又は多項分類アルゴリズム(例えば、原発組織を分類するため)とされ得る。一部の実施形態では、前記第2段階分類アルゴリズムは次のものに基づいていることができる:勾配ブーストアルゴリズム、決断ツリーアルゴリズム、ランダムフォレストアルゴリズム、K最近ネイバー(K nearest neighbors)アルゴリズム、ガウシアンNBアルゴリズム、又はそれらの任意の組合せ。
【0030】
前記第1のパッチの前記第1のチャンネルは2次元的であり、前記第1のパッチの前記第1の複数のパラメータの前記複数のインスタンスのそれぞれの各々のインスタンスは第1の次元を構成しており、また、前記第1のパッチの前記第1の複数のパラメータは前記第2の次元を構成している。一部の実施形態では、前記複数のパッチは10個のパッチから10000個のパッチとされる。一部の実施形態では、前記複数のパッチは100個のパッチから3000個のパッチとされる。
【0031】
一部の実施形態では、前記分類器は複数の第1段階モデル及び動的ニューラルネットワークを含む。前記少なくとも1つのプログラムは、前記第1のパッチを含む複数のパッチを構築するための命令をさらに含み得るのであり、それぞれの各々のパッチは前記参照ゲノム中のCpGサイトについての異なるセットのためのものとされる。前記複数のパッチを構築するステップは、前記第1のパッチを含む各々のパッチを構築することを伴い得る。少なくとも前記第1のパッチを分類器に適用するステップは、前記複数のパッチ中のそれぞれの各々のパッチを前記複数の第1段階モデル中の対応する第1段階モデルに適用することを含み得る。前記対応する第1段階モデルは、前記各々のパッチを受けるための各々の入力層を伴い得るのであり、前記各々のパッチは第1の次元数を含んでいる。前記対応する第1段階モデルは、対応する重みセットを含む各々の完全接続埋め込み層をさらに含み得る。前記各々の完全接続埋め込み層は、前記各々の入力層の出力を直接的又は間接的に受けることができる。前記各々の埋め込み層の各々の出力は、前記第1の次元数より少ない第2の次元数とされ得る。前記対応する第1段階モデルは、前記各々の完全接続埋め込み層からの出力を直接的又は間接的に受ける各々の出力層とをさらに含み得る。少なくとも前記第1のパッチを分類器に適用するステップは、前記複数の第1段階モデル中の各訓練済み第1段階モデルのそれぞれの各々の完全接続埋め込み層からの前記各々の出力の集約したものを、前記動的ニューラルネットワーク内へと入力して、それによって前記検査対象にての癌状態を決定することをさらに含み得る。一部のそのような実施形態では、前記複数の第1段階モデル中のそれぞれの各々の第1段階モデルの前記各々の埋め込み層の前記各々の出力は、32個から1048個の値を有するセットを含み得る。一部の更なるそのような実施形態では、前記少なくとも1つのプログラムは、対象についてのコホートを用いて前記複数の第1段階モデル及び前記動的ニューラルネットワークを訓練するための命令をさらに含む。一部のそのような実施形態では、前記対象についてのコホートは、前記癌状態に関する第1のラベルを有する対象についての第1のサブセットと、前記癌状態に関する第2のラベルを有する対象についての第2のサブセットとを含む。一部の実施形態では、単一の第1段階モデルは試料群にわたって試料毎に複数のパッチに対して訓練される(例えば、試料は既知の癌状態を有している訓練用対象の群から取得される)。
【0032】
そして、訓練された第1段階モデルは状態が未知の対象からの検査試料からのシーケンシングデータに適用して、各パッチから特徴要素を抽出できる。例えば、シーケンシングデータは訓練に用いられるのと同じパッチのセットに従って処理され得る(例えば、パッチ530-1,パッチ530-2,...,パッチ530-K)。そして、訓練された第1段階モデルを、訓練対象の群からのシーケンシングデータを用いて各パッチに適用して(例えば、実は
図7Aの訓練済みモデル1,訓練済みモデル2,...,訓練済みモデルKは同じ訓練済みモデルである。)、それぞれの各々のパッチから特徴及び/又は特徴要素を別個に抽出することができる(例えば、特徴要素1,特徴要素2,...,特徴要素K)。一部の実施形態では、混合型の手法を用い得る。特に、複数の第1段階モデルを訓練することができ、また、これらを用いて更なる試料レベル分類のために特徴及び/又は特徴要素を取得することができる。例えば、複数のパッチを用いて試料群にわたって試料毎に共通の第1段階モデルを訓練することができる(例えば、試料は、既知の癌状態を有する訓練対象の群から取得される)。対象からの試料のシーケンシングデータに基づいて同じ共通の第1段階モデルを対応するパッチに適用して、対象から特徴及び/又は特徴要素を抽出できる。他の実施形態では、単一の第1段階モデルは試料群にわたって試料毎に単一のパッチを伴って訓練される(例えば、試料は既知の癌状態を有している訓練用対象の群から取得される)。例えば、データセットが10,000個の試料を有している場合、試料毎に1つのパッチについて訓練されたモデルは、10,000回訓練されることができる。そして、特定の第1段階モデルは対象からの対応するパッチに適用されて、対象から特徴及び/又は特徴要素を抽出できる。この特定の対象について分析される、全パッチからの特徴及び/又は特徴要素は、試料レベル分類をなすために用いられ得る。例えば、
図7Aに示すように、
図7Aの訓練済みモデル1及び訓練されたモデル2は同じとされ得るのであり、他方で訓練済みモデルKはパッチ530-Kに固有のものとされ得る)。パッチ530-Kから特徴要素を抽出するために個別化モデルが用いられる一方で、共通のモデルは、パッチ530-1及びパッチ530-2から特徴要素を抽出するために共通のモデルが用いられ得る。訓練された第1段階モデルの個数には関わらず、同じ個数の特徴要素を分類のために試料レベル分類器に提供できる。
【0033】
一部の更なるそのような実施形態では、訓練に関する命令は、ランダムな態様で対象についての前記コホートを癌状態、年齢、喫煙状態、又は性別の任意の組合せに基づいて複数の群に階層化するステップを含む。訓練に関する命令は、前記複数の群中の第1の群を訓練群として及び前記複数の群の残部を検査群として用いて、前記複数のモデル及び前記動的ニューラルネットワークを前記訓練群に対して訓練するステップをさらに含み得る。訓練に関する命令は、訓練用の群及び検査群を用いることを複数の群の各群について用いることを反復するステップであって、複数の群中の各群が訓練群として反復回にて用いられるようにするステップをさらに含み得る。訓練に関する命令は、分類器性能基準が充足されるまで、階層化ステップと、グループを用いるステップと、反復回を反復するステップとを、反復するステップをさらに含み得る。一部の更なるそのような実施形態では、癌状態は原発組織であり、また、対象のコホート内の各対象は原発組織をもってラベル付けされている。一部の更なるそのような実施形態では、コホートは次の事項を有する対象を含む:肛門直腸癌、膀胱癌、乳癌、子宮頸癌、結腸直腸癌、頭部及び頸部癌、肝胆癌、子宮内膜癌、腎臓癌(kidney cancer)、白血病、肝臓癌、肺癌、リンパ系腫瘍、メラノーマ、多発性骨髄腫、骨髄腫瘍、卵巣癌、非ホジキンリンパ腫、膵臓癌、前立腺癌、腎癌(renal cancer)、甲状腺癌、上部胃腸癌、尿路上皮癌、又は子宮癌。
【0034】
一部の更なるそのような実施形態では、癌状態は次の事項とされる:肛門直腸癌のステージ、膀胱癌のステージ、乳癌のステージ、子宮頸癌のステージ、結腸直腸癌のステージ、頭部及び頸部癌のステージ、肝胆癌のステージ、子宮内膜癌のステージ、腎臓癌のステージ、白血病のステージ、肝臓癌のステージ、肺癌のステージ、リンパ系腫瘍のステージ、メラノーマのステージ、多発性骨髄腫のステージ、骨髄腫瘍のステージ、卵巣癌のステージ、非ホジキンリンパ腫のステージ、膵臓癌のステージ、前立腺癌のステージ、腎癌のステージ、甲状腺癌のステージ、上部胃腸癌のステージ、尿路上皮癌のステージ、又は子宮癌のステージ。一部のそのような実施形態では、癌状態は対象が癌を有するか否かについてであり、また、対象のコホートに対しての階層化ステップによって複数の群中の各群の癌を有する対象数と癌を有さない対象数とが等しくなることを担保する。
【0035】
一部のそのような実施形態では、前記訓練によって、前記訓練中に前記複数のパッチ中のそれぞれの各々のパッチの各々の出力層から提供された値に基づいたL1又はL2正規化を用いて前記複数のパッチ中の1つ以上のパッチが除去される。一部の実施形態では、前記第1の複数のパラメータの前記複数のインスタンスは24個から2048個とされる。一部の実施形態では、前記第1の複数のパラメータの前記複数のインスタンス中のインスタンス数は、前記複数の断片の期待リード深度に前記複数の断片にわたっての1標準偏差加わったものに基づいて決定される。一部の実施形態では、パッチを構築するステップは、前記第1のパッチに割り当てられた各々の断片を、それらの各々のp値又は前記参照ゲノムにおけるそれらの開始位置に基づいて、ソートすることをさらに含む。
【0036】
一部の実施形態では、前記少なくとも1つのプログラムは次のステップのための命令をさらに含む:前記第1のパッチのCpGサイトの前記第1の独立セットを選択するステップであって、複数のCpGメチル化パターンの評価を介してなされるステップ。前記複数のCpGメチル化パターンは、複数の臨床的対象を備える臨床的コホートから取得された複数の臨床的生物試料の複数の臨床的核酸試料から取得された複数の臨床的断片のメチル化シーケンシングによって決定され得る。前記複数の臨床的対象は、前記癌状態に関する第1の兆候を有する臨床的対象についての第1のセットと前記癌状態に関する第2の兆候を有する臨床的対象についての第2のセットとを含み得る。
【0037】
一部のそのような実施形態では、CpGサイトのセットを選択するための命令は、臨床的対象についての前記第1のセットと臨床的対象についての前記第2のセットとの間での前記複数のCpGサイト中の各CpGサイトのメチル化状態についての各々の第1の相互情報スコアに基づいて、複数のCpGサイトの前記参照ゲノム内での第1の順位を決定するステップを含む。前記命令は、前記順位を用いて前記第1のパッチについてのCpGサイトの前記対応する独立セットについてのCpGサイトの第1の閾値個数を選択するステップをさらに含み得る。一部の更なるそのような実施形態では、前記複数の臨床的対象は、前記癌状態に関する第3の兆候を有する臨床的対象についての第3のセットと前記癌状態に関する第4の兆候を有する臨床的対象についての第4のセットとを含む。一部のそのような実施形態では、選択をなすための命令は、臨床的対象についての前記第3のセットと臨床的対象についての前記第4のセットとの間での前記複数のCpGサイト中の各CpGサイトのメチル化状態についての各々の第2の相互情報スコアに基づいて、前記複数のCpGサイトの前記参照ゲノム内での第2の順位を決定するステップをさらに含む。前記命令は、前記第2の順位を用いて、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの第2の閾値個数を選択するステップをさらに含み得る。一部のそのような実施形態では、パッチを構築するステップは、前記第1のパッチに割り当てられた各々の断片を、それらの第1又は第2の相互情報スコアに基づいて、ソートすることをさらに含む。一部のそのような実施形態では、前記癌状態についての第1の兆候は第1の癌タイプであり、また、前記癌状態についての第2の兆候は第2の癌タイプである。一部のそのような実施形態では、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの前記第1の閾値個数中のそれぞれの各々のCpGサイトに関しては、CpGサイトの前記第1の閾値個の中のあらゆる他のCpGサイトから前記参照ゲノム内において閾値個の剰余部をもってパディングがなされる。
【0038】
一部のそのような実施形態では、CpGサイトのセットを選択するための命令は、臨床的対象についての前記第1のセットと臨床的対象についての前記第2のセットとの間での前記複数の固定長領域中の各固定長領域のCpGサイトメチル化パターンのメチル化状態についての各々の第1の相互情報スコアに基づいて、前記参照ゲノム内での複数の固定長領域の第1の順位を決定するステップをさらに含む。選択をなすための命令は、前記第1の順位を用いて、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの第1の閾値個数を、前記複数の固定長領域中のそれらの固定長領域から、選択するステップをさらに含み得る。一部の更なるそのような実施形態では、前記複数の臨床的対象は、前記癌状態に関する第3の兆候を有する臨床的対象についての第3のセットと前記癌状態に関する第4の兆候を有する臨床的対象についての第4のセットとを含む。選択をなすための命令は、臨床的対象についての前記第3のセットと臨床的対象についての前記第4のセットとの間での前記複数の固定長領域中の各固定長領域のCpGサイトメチル化パターンのメチル化状態についての各々の第2の相互情報スコアに基づいて、前記参照ゲノム内での前記複数の固定長領域の第2の順位を決定するステップをさらに含み得る。選択をなすための命令は、前記第2の順位を用いて、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの第2の閾値個数を選択するステップをさらに含み得る。一部のそのような実施形態では、パッチを構築するステップは、前記第1のパッチに割り当てられた各々の断片を、それらの第1又は第2の相互情報スコアに基づいて、ソートすることをさらに含む。一部の実施形態では、前記1つ以上の核酸試料は無細胞核酸試料である。
【0039】
本開示の別の態様では、種に属する検査対象の癌状態を決定するためのコンピュータシステムを提供する。開示されるいずれの方法も、癌状態以外の疾患状態(例えば、遺伝性疾患)を決定するためにも用いられ得る。この態様では、コンピュータシステムは、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを格納するメモリとを備える。前記少なくとも1つのプログラムは、電子的態様にてデータセットを取得するステップをなすための命令を含み得る。前記データセットは、複数の断片中のそれぞれの各々の断片の対応するメチル化パターンを備えることができる。それぞれの各々の断片の前記対応するメチル化パターンは、前記検査対象から取得された生物試料中の前記各々の断片を備える1つ以上の核酸試料についてのメチル化シーケンシングによって決定され得るのであり、また、前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含む。この態様では、前記少なくとも1つのプログラムは次のステップのための命令をさらに含む:第1のチャンネルを含む第1のパッチを構築するステップ。前記第1のパッチは、前記種の参照ゲノム中の、CpGサイトの第1の独立セットを表し得る。CpGサイトの前記第1の独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。前記第1のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み得るのであり、また、前記第1の複数パラメータの各インスタンスは前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含む。前記第1のパッチを構築するステップは、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれの各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入することを含み得る。この態様では、前記少なくとも1つのプログラムは次のステップのための命令をさらに含む:少なくとも前記第1のパッチを分類器に適用してそれによって前記検査対象にての癌状態(cancer condition)を決定するステップ。
【0040】
本開示の別の態様では、プロセッサによって実行されると該プロセッサに種に属する検査対象の癌状態を決定する方法を行わせるプログラムコード命令が格納された非一時的コンピュータ可読記憶媒体を提供する。該方法は、電子的態様にてデータセットを取得するステップを含み得る。前記データセットは、複数の断片中のそれぞれの各々の断片の対応するメチル化パターンを備えることができる。それぞれの各々の断片の前記対応するメチル化パターンは、前記検査対象から取得された生物試料中の前記各々の断片を備える1つ以上の核酸試料についてのメチル化シーケンシングによって決定され得るのであり、また、前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含む。この態様では、前記方法は次のステップをさらに含む:第1のチャンネルを含む第1のパッチを構築するステップ。前記第1のパッチは、前記種の参照ゲノム中の、CpGサイトの第1の独立セットを表し得る。CpGサイトの前記第1の独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。前記第1のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み得るのであり、また、前記第1の複数パラメータの各インスタンスは前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含む。前記第1のパッチを構築するステップは、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれの各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入することを含み得る。この態様では、前記方法は、少なくとも前記第1のパッチを分類器に適用してそれによって前記検査対象にての癌状態を決定するステップをさらに含む。
【0041】
本開示の別の態様では、種に属する検査対象の癌状態を決定するための方法を提供する。この態様では、方法は、少なくとも1つのプロセッサと前記少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを格納するメモリとを備えるコンピュータシステムにて、提供される。前記少なくとも1つのプログラムは次のステップのための命令を含み得る:電子的態様にてデータセットを取得するステップであって、該データセットは複数の断片中のそれぞれの各々の断片の対応するメチル化パターンを備える、ステップ。それぞれの各々の断片の前記対応するメチル化パターンは、前記検査対象から取得された生物試料中の前記各々の断片の1つ以上の核酸試料についてのメチル化シーケンシングによって決定され得るのであり、また、前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含み得る。
【0042】
この態様では、前記少なくとも1つのプログラムは、複数のパッチを取得するための命令をさらに含むのであり、前記複数のパッチ中のそれぞれの各々のパッチは、第1のチャンネルを含み、且つ、前記種の参照ゲノム中のCpGサイトの対応する独立セットを表す。CpGサイトの前記対応する独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。各々のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み得るのであり、前記第1の複数パラメータの各インスタンスは前記各々のパッチについてのCpGサイトの前記対応する独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含む。
【0043】
この態様では、前記少なくとも1つのプログラムは、前記各々の断片(the respective fragment)のCpGサイトと前記単一の各々のパッチ(the single respective patch)のCpGサイトの前記対応する独立セットとの間の合致に基づいて、前記複数の断片中のそれぞれの各々の断片の全部又は一部を、前記複数のパッチ中の各々のパッチに、割り当てるための命令をさらに含み得る。この態様では、前記少なくとも1つのプログラムは次のステップのための命令をさらに含む:前記複数のパッチ中のそれぞれの各々のパッチを前記複数のモデル中の対応する訓練済みモデルに適用してそれによって前記検査対象にての癌状態を決定するステップ。
【0044】
本開示の別の態様では、種に属する検査対象の癌状態を決定するためのコンピュータシステムであって、少なくとも1つのプロセッサと前記少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを格納するメモリとを備えたコンピュータシステムを、提供する。前記少なくとも1つのプログラムは次のステップのための命令を含み得る:電子的態様にてデータセットを取得するステップであって、該データセットは複数の断片中のそれぞれの各々の断片の対応するメチル化パターンを備える、ステップ。それぞれの各々の断片の前記対応するメチル化パターンは、前記検査対象から取得された生物試料中の前記各々の断片の1つ以上の核酸試料についてのメチル化シーケンシングによって決定され得るのであり、また、前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含み得る。この態様では、前記少なくとも1つのプログラムは、複数のパッチを取得するための命令をさらに含み得るのであり、前記複数のパッチ中のそれぞれの各々のパッチは、第1のチャンネルを含み、且つ、前記種の参照ゲノム中のCpGサイトの対応する独立セットを表す。CpGサイトの前記対応する独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得るのであり、また、各々のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み得る。前記第1の複数パラメータの各インスタンスは、前記各々のパッチについてのCpGサイトの前記対応する独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み得る。
【0045】
この態様では、前記少なくとも1つのプログラムは、前記各々の断片(the respective fragment)のCpGサイトと前記単一の各々のパッチ(the single respective patch)のCpGサイトの前記対応する独立セットとの間の合致に基づいて、前記複数の断片中のそれぞれの各々の断片の全部又は一部を、前記複数のパッチ中の各々のパッチに、割り当てるステップをさらに含み得る。この態様では、前記少なくとも1つのプログラムは次のステップをさらに含む:前記複数のパッチ中のそれぞれの各々のパッチを前記複数のモデル中の対応する訓練済みモデルに適用してそれによって前記検査対象にての癌状態を決定するステップ。
【0046】
本開示の別の態様では、プロセッサによって実行されると該プロセッサに種に属する検査対象の癌状態を決定する方法を行わせるプログラムコード命令が格納された非一時的コンピュータ可読記憶媒体を提供する。該方法は、電子的態様にてデータセットを取得するステップであって、該データセットは複数の断片中のそれぞれの各々の断片の対応するメチル化パターンを備える、ステップを含み得る。それぞれの各々の断片の前記対応するメチル化パターンは、前記検査対象から取得された生物試料中の前記各々の断片の1つ以上の核酸試料についてのメチル化シーケンシングによって決定され得るのであり、また、前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含む。
【0047】
この態様では、前記方法は、複数のパッチを取得するステップをさらに含むのであり、前記複数のパッチ中のそれぞれの各々のパッチは、第1のチャンネルを含み、且つ、前記種の参照ゲノム中のCpGサイトの対応する独立セットを表す。CpGサイトの前記対応する独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。各々のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み得るのであり、また、前記第1の複数パラメータの各インスタンスは前記各々のパッチについてのCpGサイトの前記対応する独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み得る。
【0048】
この態様では、前記方法は、前記各々の断片(the respective fragment)のCpGサイトと前記単一の各々のパッチ(the single respective patch)のCpGサイトの前記対応する独立セットとの間の合致に基づいて、前記複数の断片中のそれぞれの各々の断片の全部又は一部を、前記複数のパッチ中の各々のパッチに、割り当てるステップをさらに含む。この態様では、前記方法は次のステップをさらに含む:前記複数のパッチ中のそれぞれの各々のパッチを前記複数のモデル中の対応する訓練済みモデルに適用してそれによって前記検査対象にての癌状態を決定するステップ。
【0049】
別の態様では、種に属する検査対象の癌状態を決定する方法は、次のステップを含む:1つ以上のプロセッサを介して、訓練データセットを1つ以上の訓練対象から取得するステップであって、前記訓練データセットは、前記1つ以上の訓練対象から取得された1つ以上の生物試料中の複数の断片の1つ以上の訓練メチル化パターンと、前記1つ以上の訓練メチル化パターンに関連付けられている1つ以上の所定の癌状態とを含む、ステップと;前記1つ以上のプロセッサを介して、前記訓練データセットに基づいて1つ以上のパッチを構築するステップであって、前記1つ以上のパッチの各パッチは、1つ以上のチャンネルを含み、また、前記種の参照ゲノム中の1つ以上のCpGサイトを表すのであり、前記1つ以上のCpGサイトの各CpGサイトは、前記参照ゲノム中の所定の位置に対応する、ステップと;前記1つ以上のプロセッサを介して、前記1つ以上のパッチ及び前記訓練データセットに基づいて計算モデルを訓練するステップと;1つ以上のプロセッサを介して、前記検査対象から検査データセットを取得するステップであって、前記検査データセットは、前記検査対象から取得された1つ以上の生物試料中の複数の断片の1つ以上の検査メチル化パターンを含む、ステップと;1つ以上のプロセッサを介して、前記検査データセット及び前記計算モデルに基づいて前記検査対象の前記癌状態を決定するステップ。
【0050】
他の実施形態は、上述した方法に関連するシステム、可搬型の消費者向け装置、及びコンピュータ可読媒体に関する。本願にて開示するように、本願にて開示される任意の実施形態は、可能な場合は任意の態様に適用できることに留意されたい。
【0051】
当業者ならば後述の詳細な説明から本開示の追加的な態様及び利点に気付くことができるのであり、本開示の例示的な実施形態のみが開示及び説明されている。諸兄が気付いているように本開示は他の異なる実施形態にも適用可能であり、それらの幾つかの詳細事項には様々な自明な観点での変更が加えられ得るのであり、本開示の範疇から逸脱せずにそのようになせることに留意されたい。したがって、図面及び明細書の性質は例示的であり、限定的なものとして解されてはならない。
【0052】
参照による取り込み言及される全ての刊行物、特許、及び特許出願は、その全体が参照によって取り込まれる。本開示の用語と取り込まれた参照物の用語との間での抵触がある場合、本開示の用語が優勢とされる。
【図面の簡単な説明】
【0053】
開示される実装例は添付の図面の図表で限定的にではなく例示的に示されている。同様の参照符号は図面の幾つかの観点において対応する部分を指す。
【0054】
【
図1】本開示の1つ以上の実施形態による、無細胞DNA(cfDNA)断片をシーケンシングしてメチル化状態ベクトルを取得する処理についての例示的なフローチャートである。
【
図2】本開示の1つ以上の実施形態による、cfDNA断片をシーケンシングしてメチル化状態ベクトルを取得する
図1の処理について示す図である。
【
図3】本開示の1つ以上の実施形態による、p値に基づいて各々の断片を複数の断片から除去する例示的方法について示す図である。
【
図4】本開示の1つ以上の実施形態による、分類器を含む例示的なメチル化パターンパイプラインについて示す図である。
【
図5A】本開示の1つ以上の実施形態による、種に属する検査対象の疾患状態を決定するための例示的なシステムについて示す図である。
【
図5B】本開示の1つ以上の実施形態による、種に属する検査対象の疾患状態を決定するための例示的な処理システムについて示す図である。
【
図6】
図6A、6B、6C、6D、6E、6F、6G、6H、6I、6J、6K、6L、6M及び6Nは、本開示の1つ以上の実施形態による、例示的なパッチについて示す図である。
【
図7】
図7A及び7Bは、本開示の1つ以上の実施形態による、例示的なパッチ分類器について示す図である。
【
図8】
図8A及び8Bは、本開示の1つ以上の実施形態による、種に属する検査対象の癌状態を決定するための例示的な方法について示す図である。
【
図9A】本開示の1つ以上の実施形態による、パッチCNN分類器にて用いられる例示的なゲノム領域について示す図である。
【
図9B】本開示の1つ以上の実施形態による、パッチCNN分類器にて用いられる例示的な癌タイプについて示す図である。
【
図9C】本開示の1つ以上の実施形態による、パッチCNN分類器の性能の例について示す図である。
【
図10A】本開示の1つ以上の実施形態による、データセットを用いたパッチCNN分類器の性能の例について示す図であって、(全ての癌のタイプ及びステージにわたっての)癌検出に関して特異度が99%とされた場合に53%の感度(精度)が達成された、図である。
【
図10B】本開示の1つ以上の実施形態による、全ての癌タイプにわたっての2値設定におけるパッチCNN分類器の感度の例について示す図であって、分類器は、cfDNA試料のCCGA1訓練に際して、特異度が98%とされた場合には88.00%の感度を示し、特異度が99%とされた場合には74.36%の感度を示し、特異度が99.5%とされた場合には44.23%の感度を示す、図である。
【
図11】本開示の1つ以上の実施形態による、各パッチから埋め込み値(活性化)を取って、Isomapクラスタリングを用いてそれらをクラスタリングさせる際の例を示す図であって、異なる癌ラベルがIsomapの異なる領域へとクラスタすることが示され、埋め込み値が癌タイプを判別するということが示される、図である。
【
図12】本開示の1つ以上の実施形態による、試料セットにわたっての、分類器の544個のパッチの埋め込み層の活性化頻度の例について示す図である。
【
図13】本開示の1つ以上の実施形態による、試料セットにわたっての、分類キノン上位6個の活性化済みパッチの埋め込み値(活性化)のt-SNEクラスタリングの例について示す図であって、最も右寄りのパッチがそれ自身で幾つかの異なる癌タイプを判別できるということが示されている、図である。
【
図14】本開示の1つ以上の実施形態による、試料セットにわたっての、分類キノン上位3個の活性化済みパッチの埋め込み値(活性化)のt-SNEクラスタリングの例について示す図である。
【
図15】本開示の1つ以上の実施形態による、パッチCNNアーキテクチャを用いる分類性能の例示的結果について示す図である。
【
図16】本開示の1つ以上の実施形態による、癌タイプの高位信号によるパッチベースド分類器の性能の例について示す図であって、各ドットはCCGA2からの対象を表し、対象がy軸上にて指定された癌タイプを有している確率を分類器が提供する、図である。
【
図17A】本開示の1つ以上の実施形態による、分類器における原発組織(TOO、Tissue of Origin)に関しての例示的な混同マトリックス分析を示す図であって、全4ステージにわたっての図中に示される各癌タイプの対象を含む対象コホートでのTOO精度が80%を超えていることが示され、状態が不定の試料が分析には含まれている、図である。
【
図17B】本開示の1つ以上の実施形態による、分類器における原発組織(TOO、Tissue of Origin)に関しての別の例示的な混同マトリックス分析を示す図であって、全4ステージにわたっての図中に示される各癌タイプの対象を含む対象コホートでのTOO精度が約90%となることが示され、状態が不定の試料は分析から除外されている、図である。
【
図18】本開示の1つ以上の実施形態による、メチル化パターンにいついてのp値の例示的な算出について示す図である。
【
図19】本開示の1つ以上の実施形態による、検査対象の疾患状態を決定するようにプログラミング又は他の態様で構成されている例示的なコンピュータシステム1901について示す図である。
【発明を実施するための形態】
【0055】
実施形態について参照して詳細に述べるのであり、その例については添付の図面にて示されている。後述の詳細な説明では、本開示の徹底的な理解を提供するために多くの特定の詳細事項が記載されている。もっとも、当業者にとっては、これらの具体的詳細事項なくしても本開示が実施可能であることが自明である。他方で、実施形態の諸態様を不要に曖昧としないために、周知の方法、手順、コンポーネント、回路、及びネットワークについては詳述していない。
【0056】
I. 総論
ターゲテッドメチル化分析によれば、生物試料の分類に関して計算量的に取り扱い可能なシステム及び方法を提供することができる。例えば、メチル化シーケンシングを用いることによって(例えば、約2,800万個のCpGサイト)、DNAシーケンシング塩基リード(read)についての限定的なサブセットを取得することができる(例えば、ヒト細胞については約30億個)。そのようなCpGサイトは、2値型「スイッチ」として機能して、特定の機能をトグル切り換えさせたり、生物試料中の細胞に対して分化するように指令することができる(例えば、他のものもあるが、脳細胞、胚細胞、腎細胞、及び/又は皮膚細胞等)。メチル化基の制御は、癌の検出に関しての分子マーカとしてさらに特徴付けることができる。さらに、CpGサイトは細胞分化に関与する役割を担う故に、それらのメチル化パターンは、特定の細胞試料及び/又はDNA断片の由来(例えば、原発組織(TOO、tissue of origin))を予測するために用いることができる。したがって、CpGサイトの使用は、DNA基リードと比べて、生物試料の分類及び特徴付けに関して明白な優位性をもたらし得る。
【0057】
検査対象の癌状態に関しての検出及び分類のためのシステム及び方法を提供するのであり、これらは核酸試料のメチル化シーケンシング及びパッチ畳み込みニューラルネットワーク(パッチCNN)を用いる。メチル化シーケンシングによって決定された断片のメチル化パターンを含むデータセットを取得できるのであり、メチル化パターンは、各々の断片中の複数のCpGサイト中の各CpGサイトのメチル化状態を含む。データセットに基づいて第1のパッチを構築できる。第1のパッチは、検査対象の種の参照ゲノム中のCpGサイトの第1の独立セットを表し得るのであり、また、各々のCpGサイトのメチル化状態についての第1の複数のパラメータの複数のインスタンスを含む第1のチャンネルを備え得る。前記第1のパッチは次のように構築することができる:CpGサイトの前記第1の独立セットに整列したそれぞれの各々の断片について、前記断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入すること。検査対象での癌状態は、少なくとも前記第1のパッチを分類器に適用することによって決定できる。検査対象からのcfDNA断片に対しては、処理をなして、非メチル化シトシンをウラシルに転換して、シーケンシングをなして、参照ゲノムに対してシーケンス済みリード(read)を比較して、断片内の1つ以上のCpGサイトにてのメチル化状態を識別できる。健常対象(healthy subject)と比較して、異常メチル化cfDNA断片の識別によって、対象の癌状態について洞察をもたらし得る。(健常対照群(healthy control)に比して)DNAメチル化異常は、異なる効果をもたらし得るのであり、これらは癌に寄与し得る。異常メチル化cfDNA断片の識別に関しては、様々な困難が生じ得る。先ず、1つ以上のcfDNA断片が異常にメチル化されていると決定された場合、正常なメチル化がなされていると仮定されている断片を有している対照対象群(group of control subjects)と比べると、よりウェイトが与えられよう。また、対照対象群間ではメチル化状態は異なり得るのであり、対象のcfDNAが異常にメチル化されているか否かを評価しようとする際にこのことを説明することが困難たり得る。また、CpGサイトにてのシトシンのメチル化は、後続のCpGサイトでのメチル化に影響を因果的に及ぼし得る。
【0058】
デオキシリボ核酸(DNA)にてメチル化は、シトシン塩基のピリミジン環上の水素原子がメチル基に転換されて5-メチルシトシンが形成された場合に生じ得る。特に、メチル化は、本願では「CpGサイト」と呼ぶシトシン及びグアニンのジヌクレオチドにて生じ得る。希ではあるが、メチル化は、CpGサイトの一部ではないシトシンにて又はシトシンではない別のヌクレオチドにて生じ得る。異常なcfDNA断片メチル化は高メチル化又は低メチル化としてさらに識別されることができ、いずれもが癌状態を指し得る。
【0059】
本開示にて説明した諸原理は、非CpGコンテキストでのメチル化検出にも同様に適用可能であり、非シトシンメチル化も含まれる。メチル化検出に用いられるウエットラボ分析は、本開示にて説明したものとは異なり得る。さらに、メチル化状態ベクトルは、(それらのサイトが具体的にCpGサイトでなくとも、)メチル化が起きたかもしれない又は起きていないかもしれないサイトのベクトルであると一般的にされる要素を、含み得る。この代替をもって本開示にて説明した処理の残部は同様とでき、また、したがって、本開示にて説明した発明的概念はそれら他のメチル化態様にも適用可能となり得る。
【0060】
II. 定義
本明細書で使用する場合、「およそ」又は「約」という用語は、当業者によって決定される特定の値に対する許容誤差範囲内を意味し得るのであり、これは、値がどのように測定又は決定されるか(例えば、測定システムの制約)に部分的に依存し得る。例えば、「およそ」は、業界の慣例により、1標準偏差以内又は1標準偏差以上を意味し得る。「およそ」とは、所与の値の±20%、±10%、±5%、±1%の範囲を意味し得る用語たる「およそ」又は「約」とは、値の1桁分の範囲内、5倍以内、又は2倍以内を意味し得る。別段の定めなき限り、本出願及び特許請求の範囲にて特定の値が記載されている場合、特定の値に対して許容誤差範囲内を意味するものとして「およそ」という用語を解されたい。用語たる「およそ」は、当業者によって一般的に理解される意味を有し得る。用語たる「およそ」は、±10%を意味し得る。用語たる「およそ」は、±5%を意味し得る。
【0061】
本明細書で使用する場合、「分析」という用語は、物質(例えば、核酸、蛋白質、細胞、組織、又は臓器)の特性を決定するための手法を意味する。分析(例えば、第1分析又は第2分析)は、以下の事項を決定する手法を含み得る:試料中の核酸のコピー数の多様性(copy number variation);試料中の核酸のメチル化状態;試料中の核酸の断片サイズ分布;試料中の核酸の突然変異状態;又は試料中の核酸の断片化パターン。本開示にて説明された任意の核酸の特性を検出するために、任意の分析法を用い得る。核酸の特性には、配列、ゲノム同一性、コピー数、1つ以上のヌクレオチド位置におけるメチル化状態、核酸のサイズ、1つ以上のヌクレオチド位置における核酸中の突然変異の有無、及び核酸の断片化のパターン(例えば、核酸が断片化するヌクレオチド位置)が含まれ得る。分析乃至は方法は、特定の感度及び/又は特異度を有し得るのであり、診断ツールとしての相対的有用性はROC-AUC統計を用いて測定され得る。
【0062】
本明細書で使用する場合、「生物試料」、「患者試料」及び「試料」という用語は互換的に使用されるのであり、、また、対象から採取した任意の試料を指し、これは対象と関連付けられる生物学的状態を反映し得る。一部の実施形態では、そのような試料は、無細胞DNA(cfDNA、cell-free DNA)等の無細胞核酸を含む。一部の実施形態では、そのような試料は、無細胞核酸以外の又は無細胞核酸に加えての核酸を含む。生物試料の例としては、対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸膜液、心嚢液、又は腹水が含まれるが、これらには限定されない(include, but are not limited to)。一部の実施形態では、生物試料は、対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸膜液、心嚢液、又は腹水からなる(consists of)。そのような実施形態では、生物試料は、対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸膜液、心嚢液、又は腹水に限定されるのであり(is limited to)、また、対象の他の要素(例えば、固形組織等)を含まない(does not contain)。生物試料は、存命の又は死亡した対象由来の任意の組織又はマテリアルを含み得る。生物試料は、無細胞試料とされ得る。生物試料は、核酸(例えば、DNA又はRNA)又はその断片を含み得る。「核酸」という用語は、デオキシリボース核酸(DNA断片)、リボ核酸(RNA)、又はそれについての任意のハイブリッド又は断片を指し得る。試料中の核酸は、無細胞核酸とされ得る。試料は、液体試料又は固体試料(例えば、細胞又は組織試料)とされ得る。生物試料は、次のような体液とされ得る:血液、血漿、血清、尿、膣液、(例えば、睾丸の)水瘤からの液、膣フラッシング液、胸膜液、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳頭分泌液、(例えば、甲状腺や乳等)人体の異なる部分から吸引された液体等。生物試料は、糞便試料とされ得る。様々な実施形態では、(例えば、遠心分離プロトコルを経て取得された血漿試料等の)cfDNAについて精製された生物試料中のDNAの主要部分は、無細胞とされていることができる(例えば、DNAの50%、60%、70%、80%、90%、95%、又は99%が無細胞とされていることができる)。生物試料に対しては処理をなして、組織又は細胞構造を物理的に破壊して(例えば、遠心分離及び/又は細胞溶解)、細胞内成分を溶液へと放出させることができ、該溶液は酵素、緩衝剤、塩、洗浄剤等をさらに含み得るのであり、これによって分析のために試料に準備を施し得る。生物試料は、対象から、侵襲的に(例えば、外科的手段により)又は非侵襲的に(例えば、採血、スワブ、又は放出された試料の収集により)取得できる。
【0063】
本明細書で使用する場合、「癌」または「腫瘍」という用語は、組織の異常な塊であって、その成長が正常な組織の成長を上回り且つこれと調整されていないものを指す。癌又は腫瘍は、次の特徴に応じて「良性」又は「悪性」として定義され得る:形態や機能を含む細胞分化の程度、成長速度、局所的浸潤及び転移。「良性」腫瘍は、分化度が高く、悪性腫瘍よりも特徴的に成長が遅く、発生部位に限局している場合がある。また、良性腫瘍は、遠隔箇所へと浸潤、侵食、又は転移する能力は有さない。「悪性」腫瘍は低分化型(退形成)であることがあり、進行性の浸潤、侵食、及び周囲組織の破壊を伴う特徴的に急速な成長を有する。さらに、悪性腫瘍は遠隔部位に転移する能力を有することがある。
【0064】
本明細書で使用する場合、循環無細胞ゲノムアトラス「CCGA」(Circulating Cell-free Genome Atlas)は、新規に診断を受けた癌患者からの血液及び組織並びに癌診断を有さない対象からの血液を前向きに収集する観測的臨床研究として定義される。本研究の目的は、癌と非癌とを判別し、また、癌の原発組織を識別する汎癌分類器を開発することである。例1では、CCGA1及びCCGA2のデータセットについてさらに詳細を提供する。
【0065】
本明細書で使用する場合、「分類」という用語は、試料の特定の特性と関連付けられている任意の数値やキャラクタを指し得る。例えば、「+」記号(或いは「陽性」との語)は、試料が削除又は増幅を有しているものとして分類されていることを徴表し得る。別の例では、「分類」という用語は次の事項を指し得る:対象及び/又は試料中の腫瘍組織の量、対象及び/又は試料中の腫瘍の大きさ、対象における腫瘍のステージ、対象及び/又は試料中の腫瘍ロード、並びに対象における腫瘍転移の存否。分類は、2値型とされるか(例えば、肯定又は否定)又はより多くの分類レベルを有し得る(例えば、1~10或いは0~1の尺度)。「カットオフ」及び「閾値」という用語は、オペレーションにて用いられる所定の数値を指し得る。例えば、カットオフサイズは、断片が除外される上限サイズを指し得る。閾値は、特定の分類が適用となる上限値又は下限値とされ得る。これらの用語のいずれもが、それらのどちらの文脈でも用いられ得る。
【0066】
本明細書で使用する場合、「核酸」及び「核酸分子」という用語は、可換とされ得る。これらの用語は任意の組成形式の核酸を指すのであり、例えば、デオキシリボース核酸(DNA、例えば、相補的DNA(cDNA)、ゲノミックDNA(gDNA)等)、及び/又はDNA類似体(例えば、塩基類似体、糖類似体及び/又は非ネイティブバックボーン等)を含み、これらのいずれもが単鎖形式又は二重鎖形式であり得る。他の態様で限定されていない限り、核酸は天然ヌクレオチドの既知の類似体を含むことができ、その一部は天然由来のヌクレオチドと同様に機能し得る。核酸は、本明細書の処理をなすのに有用な任意のものとされ得る(例えば、線形、環状、スーパーコイル状、単鎖、二重鎖等)。一部の実施形態では、核酸(nucleic acid)は、単染色体又はその断片からのものであり得る(例えば、核酸試料(nucleic acid sample)は、2倍生命体から取得された試料の単染色体からのものであり得る)。特定の実施形態では、核酸は、ヌクレオソーム、ヌクレオソームの断片若しくは部分又はヌクレオソーム様構造を含む。核酸は、蛋白質(ヒストンやDNA結合蛋白質等)を含み得る。本明細書にて説明された処理によって分析された核酸は、時によっては、実質的に単離され、また、蛋白質又は他の分子と実質的に連関させられていない場合がある。核酸には、単鎖(「センス」又は「アンチセンス」、「プラス」鎖又は「マイナス」鎖、「フォワード」リーディングフレーム又は「リバース」リーディングフレーム)及び二重鎖のポリヌクレオチドから合成、複製又は増幅されたDNAの誘導体、変種、及び類似体も含まれる。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、デオキシチミジンが含まれる。対象から得られた核酸をテンプレートとして、核酸をこしらえることができる。
【0067】
本明細書で使用する場合、「無細胞核酸」という用語は、細胞の外、被験者の血液、全血、血漿、血清、尿、脳脊髄液、便、唾液、汗、涙、胸水、心嚢液、又は腹水等の体液中にて細胞外に発見することができる核酸分子を意味する。無細胞核酸は1つ以上の健常な細胞及び/又は1つ以上のがん細胞から生じるのであり、無細胞核酸は循環核酸と可換なものとして用いられる。無細胞核酸の例には、RNA、ミトコンドリアDNA、又はゲノミックDNAが含まれるもこれらには限定されない。本明細書で使用する場合、「無細胞核酸」、「無細胞DNA」、及び「cfDNA」という用語は、可換なものとして用いられる。本明細書で使用する場合、「循環腫瘍DNA(circulating tumor DNA)」又は「ctDNA」という用語は、腫瘍細胞又は他のタイプの癌細胞由来の核酸断片を指すのであり、これは死にゆく細胞のアポトーシス又はネクローシス等の生物学的過程の結果として個人の人体から液体へと放出され得るのであり(例えば、血流中)、又は、めぼしい腫瘍細胞から積極的に放出され得る。
【0068】
本明細書で使用する場合、「断片」という用語は、「核酸断片」(例えば、DNA断片)という用語と可換なものとして用いられるのであり、また、少なくとも3つの連続するヌクレオチドを含むポリヌクレオチド又はポリペプチドシーケンスを指す。生物試料中に見つかった無細胞核酸断片のシーケンシングという文脈では、「断片」及び「核酸断片」という用語は、互換的に、生物試料又はその表現中に見つかる無細胞核酸分子を意味する。このような文脈では、シーケンシングデータ(例えば、全ゲノムシーケンシング、標的シーケンシング等からのシーケンスリード)は、そのような核酸断片の全部又は一部の1つ以上のコピーを導出するために用いられる。そのようなシーケンスリードは、実際には元の核酸断片のPCR複製のシーケンシングから得られる場合があり、したがって核酸断片を「表す」又は「サポート」しているといえる。各々が生物試料中の特定の核酸断片を表す又はサポートする複数のシーケンスリードがある場合がある(例えば、PCR複製)。核酸断片は無細胞核酸とみなされ得る。一部の実施形態では、核酸断片の1つのコピーは、元の無細胞核酸分子を表すために用いられる(例えば、重複は、ライブラリ準備処理中に無細胞核酸分子に付着した分子識別子を介して除去される)。一部の実施形態では、メチル化シーケンシングデータは、これらの核酸断片をさらに区別するために用い得る。例えば、同一又は同一に近いシーケンスを有する2つの核酸断片が、それぞれ異なるメチル化パターンを含む場合、異なる元の無細胞核酸分子に対応し得る。
【0069】
なお、本明細書において、「健常」とは、対象が良好な健康を有していることを指す。健常な対象は、任意の悪性又は非悪性疾患の欠如を示し得る。「健常な個人」は、通常は「健常」とみなされ得ないが分析対象の状態とは無関係の他の疾患又は状態を有していることがある。
【0070】
本明細書で使用する場合、「癌のレベル」という用語は、癌が存在するか否か(例えば、存否)、癌のステージ、腫瘍のサイズ、転移の有無、推定腫瘍分画濃度、全腫瘍変異負荷値、身体の全腫瘍負荷、及び/又は癌の重症度(例えば、癌の再発)の他の指標を意味する。癌のレベルは、数値又は例えば記号やアルファベット文字や色等の他の指標たり得る。レベルは、ゼロとされ得る。癌のレベルは、突然変異又は幾つかの突然変異と関連付けられている前悪性の又は前癌性の状態をも含み得る。癌のレベルは様々な態様で用いられ得る。例えば、スクリーニングでは、以前は癌を有しているとは認識されていない人物に癌があるか否かをチェックすることができる。評価では、癌が診断された人物に関して調べることができ、経時的な癌の進行を監視したり、治療の有効性を検証したり、予後を見定めることができる。予後は、対象が癌によって死亡する確率、又は、癌が所定の期間若しくは時間経過後に進行する確率、又は、癌が転移する確率として表され得る。検出は、「スクリーニング」をなすことを含むか、或いは、癌を示唆する特徴(例えば、症状や他の陽性試験)を有している人物が癌を有するかをチェックすることを含む。「病状のレベル」は病原要素と関連付けられている病状のレベルを指し得るのであり、、レベルは癌については上述のようにされ得る。癌が病原要素と関連付けられている場合、癌のレベルは、病状のレベルのタイプたり得る。
【0071】
本明細書で使用する場合、「メチローム」は、ゲノム中の複数のサイト又は遺伝子座におけるメチル基を含むDNA修飾(例えば、メチル化又はヒドロキシメチル化修飾)の量又は程度の指標となり得る。メチロームは、ゲノムの全部若しくは一部、ゲノムのかなりの部分、又はゲノムの比較的小さな部分に、対応し得る。ゲノムのかなりの部分のメチル化プロファイルは、メチロームと等価とみなされ得る。対象となるメチロームは、体液中に核酸、例えばDNA等をもたらし得る臓器のメチローム(例えば、脳細胞、骨、肺、心臓、筋肉、腎臓等のメチローム)とされることができる。臓器は、移植臓器たり得る。
【0072】
本明細書で使用する場合、「メチル化」という用語は、ヒドロキシメチル化を含むがこれには限定されないメチル基が関与する任意の種類の改質を包括する。領域の「メチル化密度」は、領域内のメチル化を示すサイトにてのリード数を、領域内のサイトを包括するリードの総数で除した値とし得る。サイトは特定の特徴を有し得る(例えば、サイトはCpGサイトたり得る)。領域の「メチル化密度」は、CpGメチル化を示すリード数を、領域内のCpGサイトを包括するリードの総数で除した値とし得る(例えば、特定のCpGサイト、CpGアイランド中のCpGサイト、又はより大きな領域)。例えば、ヒトゲノムの各100kbビンのメチル化密度は、100kb領域にマッピングされたシーケンシングリードによって包括された全CpGサイトの割合として、CpGサイトにての未転換シトシン(メチル化シトシンに対応し得る)の総数から求めることができる。この分析は、他のビンサイズ、例えば50kbや1MB等についても行うこともできる。領域は、ゲノム全体、染色体、又は染色体の一部(例えば、染色体腕)とされ得る。
【0073】
哺乳類ゲノムにおける「DNAメチル化」とは、CpGジヌクレオチドのうち、シトシンの複素環の5位にメチル基を付加すること(例えば、5-メチルシトシンを生成すること)を指し得る。シトシンのメチル化は、例えば5'-CHG-3'及び5'-CHH-3'等の他のシーケンシングコンテキスト中のシトシンで生起し得るのであり、Hはアデニン、シトシン、又はチミンである。シトシンのメチル化は、5-ヒドロキシメチルシトシンの形の場合もある。DNAメチル化は、例えばN6-メチルアデニン等の非シトシンヌクレオチドのメチル化を含み得る。例えば、異なるゲノミック領域からのメチル化データ(例えば、メチル化についての密度、分布、パターン又はレベル)を1つ以上のベクトルセットに転換して、開示の方法及びシステムによって分析することができる。
【0074】
本明細書で使用する場合、「突然変異」という用語は、1つ以上の細胞の遺伝子物質における検知可能な変化を指す。特定の例について述べるに、癌細胞内において1つ以上の突然変異が見出され得るのであり、これらによって癌細胞を識別できる。突然変異は、明らかな細胞(apparent cell)から娘細胞(daughter cell)へと伝播し得る。当業者ならば、親細胞(a parent cell)内の遺伝変種(例えば、ドライバ変種)は、娘細胞内にて追加の異なる変種(例えば、パッセンジャ変種)を惹起し得ることに気付くであろう。突然変異は一般的には核酸内にて生じる。特定の例について述べるに、1つ以上のデオキシリボース核酸又はその断片内における検知可能な変化たり得る。突然変異は一般的には、追加、削除、置換、反転、又は核酸内の新たな位置へと転置されるヌクレオチドを指す。突然変異は自然突然変異又は実験的に誘発された突然変異とされ得る。特定の組織の配列における突然変異は、「組織特異的対立遺伝子」の一例である。例えば、腫瘍は、正常な細胞では生じない遺伝子座に対立遺伝子を結果としてもたらす突然変異を有し得る。「組織特異的対立遺伝子」のもう一つの例としては、胎児組織に発現するが母体組織には発現しない胎児特異的対立遺伝子がある。
【0075】
本明細書で使用する場合、「参照ゲノム」という用語は、任意の生物又はウイルスの部分的又は完全なものであるかを問わない、対象からの識別されたシーケンスを参照するために用いられ得る、任意の特定の既知のシーケンシング済み又は特徴付け済みゲノムを指す。ヒトや多くの他の生物に使用される典型的な参照ゲノムは、国立生物工学情報センター(NCBI、National Center for Biotechnology Information)又はカリフォルニア大学サンタクルーズ校(UCSC)がホストしているオンラインゲノムブラウザ内で提供されている。「ゲノム」とは、生物又はウイルスの完全な遺伝情報を核酸配列で表現したものを指す。本明細書で使用する場合、参照シーケンスまたは参照ゲノムは、多くの場合、1つの個体又は複数の個体から組み立てられた又は部分的に組み立てられたゲノミックシーケンスである。一部の実施形態では、参照ゲノムは、1人以上のヒト個体からのアセンブルされた又は部分的にアセンブルされたゲノミックシーケンスである。参照ゲノムは、何らかの種の遺伝子のセットの代表例とみなすことができる。一部の実施形態では、参照ゲノムは染色体に割り当てられたシーケンスを含む。例示的なヒト参照ゲノムには、NCBI build 34(UCSC相当では:hg16)、NCBI build 35(UCSC相当では:hg17)、NCBI build 36.1(UCSC相当では:hg18)、GRCh37(UCSC相当では:hg19)、及びGRCh38(UCSC相当では:hg38)。
【0076】
本明細書で使用する場合、「シーケンシング」、「シーケンス決定」等の用語は、核酸や蛋白質等の生体高分子の順序を決定するために使用され得る任意の及びあらゆる生化学的処理を一般的に指す。例えば、シークエンスデータには、DNA断片等の核酸分子中に含まれるヌクレオチド塩基の全部又は一部が含まれ得る。
【0077】
本明細書で使用される場合、「シーケンスリード(sequence read)」又は「リード」という用語は、本明細書に記載されている又は当該技術分野で知られている任意のシーケンシング処理によって生じるヌクレオチド配列を指す。リードは核酸断片の片端から生成され得るし(「単一端リード」)、、核酸の両端から生成されることもある(例えば、ペア端リードやダブル端リード)。一部の実施形態では、シーケンスリード(例えば、単一端又はペア端リード)は、標的核酸断片の片方の鎖または両方の鎖から生成し得る。シーケンスリードの長さは、多くの場合特定のシーケンス技術に関連付けられている。例えば、高スループット方法では、サイズが数十から数百塩基対(bp、base pair)と変化するシーケンスリードもたらす。一部の実施形態では、シーケンスリードに関して、平均、中央値又は平均長が約15bp~約900bpの長さとなる(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130bp、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bp)。一部の実施形態では、シーケンスリードに関して、平均、中央値又は平均長が約1000bp、2000bp、5000bp、10,000bp、又は50,000bp以上となる。例えば、ナノポアシーケンシングでは、数十から数百から数千の塩基対のサイズのシーケンスリードをもたらし得る。Illuminaの並列シーケンシングでは、さほど散らばらないシーケンスリードを得ることができ、例えば、ほとんどのシーケンスリードが200bpより小さくなり得る。シーケンスリード(或いはシーケンシングリード)は、核酸分子(例えばヌクレオチド列)に対応するシーケンス情報を指し得る。例えば、シーケンスリードは、核酸断片の一部からのヌクレオチド列(例えば、約20~約150)に対応することができ、核酸断片の片端または両端のヌクレオチド列に対応することができ、又は核酸断片全体のヌクレオチドに対応することができる。シーケンスリードは様々な方法によって取得され得るのであり、例えば、シーケンシング手法又はプローブを用いることによってであったり、例えば、ハイブリダイゼーションアレイ又はキャプチャープローブを用いたり、又は例えばポリメラーゼ連鎖反応(PCR)又は単一のプライマーを用いる線形増幅又は等温増幅を用いる等の増幅手法ことにより取得され得る。
【0078】
「シーケンシング深度」、「カバレッジ」、及び「カバレッジ率」という用語は交換可能に用いられており、遺伝子座に整列した一意的核酸標的分子(「核酸断片」)に対応するコンセンサスシーケンスリードによって遺伝子座がカバーされている回数を指すのであり、例えばシーケンシング深度は遺伝子座を包括する一意的核酸標的断片(PCRシーケンシング重複を除く)の個数に等しい。遺伝子座は、小さければヌクレオチド程度のものから、大きければ染色体アーム程度のものまでになり得るのであり、或いはゲノム全体程度の大きなものまでとなり得る。シーケンシング深度は「YX」、例えば50X、100X等と表現でき、ここで「Y」は核酸標的に対応するシーケンスを持って包括された回数を指すのであり、例えば特定の遺伝子座を包括する独立シーケンス情報が取得された回数とされる。一部の実施形態では、シーケンシング深度はシーケンス済みのゲノム数に対応する。シーケンシング深度は複数の遺伝子座又はゲノム全体にも適用され得るのであり、その場合Yは、ある遺伝子座や一倍体ゲノム、又は全ゲノムについて、それぞれがシーケンシングされる平均回数又は平均的回数を指し得る。平均深度について言及される場合、データセット中に含まれる異なる遺伝子座の実際の深度はある程度の数値範囲に散っていることがある。超深度シーケンシングでは、遺伝子座にて少なくとも100Xのシーケンシング深度を扱える。
【0079】
本明細書で用いられる場合、「真の陽性」(TP、true positive)は、対象がある状態に陥っていることを指す。「真の陽性」は、腫瘍、癌、前癌状態(例えば、前癌病巣)、局所化した若しくは転移した癌、又は非悪性疾患を有した対象を指し得る。「真の陽性」は、対象が状態に陥っていることを指し得るのであり、本開示の解析又は方法によって状態に陥っているものとして識別される。
【0080】
本明細書で用いられる場合、「真の陰性」(TN、true negative)は、対象が状態(condition)に陥っていない又は検出可能な状態に陥っていないことを指す(refers)。真の陰性は、対象が疾患(disease)又は検出可能な疾患、例えば腫瘍、癌、前癌状態(例えば、前癌病巣)、局所化若しくは転移した癌、非悪性疾患を有さないこと、又は対象が他の意味で健常であることを指し得る(can refer)。真の陰性は、状態(condition)に陥っていない若しくは検出可能な状態に陥っていない対象又は本開示の解析又は方法によって状態に陥っていないものと識別された対象を指し得る。
【0081】
本明細書で用いられる場合、「感度」又は「真の陽性率」(TPR、true positive rate)は、真の陽性の件数を、真の陽性及び偽陰性の件数の合計で除したものを指す。感度は、解析又は方法が、真に状態に陥っている母集団における割合を正しく識別する能力を特徴付け得る。例えば、感度は、ある手法が、癌に罹患している集団内の対象の数を正しく識別する能力を特徴付け得る。別の例では、感度は、ある方法が、癌を示す1つ以上のマーカを正しく識別する能力を特徴付け得る。
【0082】
本明細書で用いられる場合、「特異度」又は「真の陰性率」(TNR、true negative rate)は、性真の陰性の件数を、真の陰性及び偽陽性の件数の合計で除したものを指す。特異度は、解析又は方法が、状態に真に陥ってない母集団における割合を正しく識別する能力を特徴付け得る。例えば、特異度は、ある方法が、癌に罹患していない集団内の対象の数を正しく識別する能力を特徴付け得る。別の例では、特異度は、ある方法が、癌を示す1つ以上のマーカを正しく識別する能力を特徴付け得る。
【0083】
本明細書で用いられる場合、「偽陽性」(FP、false positive)は、状態に陥っていない対象を指す。偽陽性は、腫瘍、癌、前癌状態(例えば、前癌病巣)、局所化若しくは転移した癌、非悪性疾患を有さない対象、又は他の意味で健常な対象を指し得る。偽陽性という用語は、状態に陥っていない対象ではあるが、本開示の解析又は方法によって状態に陥っているものと識別された対象を指し得る。本明細書で用いられる場合、「偽陰性」(FN、false negative)という用語は、状態に陥っている対象を指す。偽陰性は、腫瘍、癌、前癌状態(例えば、前癌病巣)、局所化若しくは転移した癌、又は非悪性疾患を有する対象を指し得る。偽陰性という用語は、状態に陥っているが本開示の解析又は方法によって状態に陥っていないものとして識別された対象を指し得る。
【0084】
本明細書で使用する場合、「単一塩基変異体」又は「SNV」という用語は、ヌクレオチドシーケンス(例えば、個体からリードしたシーケンス)の位置(例えば、サイト)において、あるヌクレオチドが異なるヌクレオチドに置換されることを指す。第1の核酸塩基Xから第2の核酸塩基Yへの代替は「X>Y」と表記され得る。例えば、シトシンからチミンへのSNVは「C>T」と表記され得る。
【0085】
本明細書で使用する場合、「サイズプロファイル」及び「サイズ分布」という用語は生物試料中のDNA断片のサイズに関連し得る。サイズプロファイルは、様々なサイズのDNA断片の量の分布を表すヒストグラムたり得る。様々な統計パラメータ(サイズパラメータとも称するし単にパラメータとも称す。)は、あるサイズプロファイルを別のサイズプロファイルと区別することを可能とする。1つのパラメータは、特定のサイズ若しくはサイズ範囲のDNA断片の、全DNA断片に対しての相対的な或いは別のサイズ又は範囲のDNA断片に対しての相対的な、パーセンテージとされ得る。
【0086】
本明細書で使用する場合、「対象」という用語は、任意の生物又は非生物であって例えばヒト(例えば、男性のヒト、女性のヒト、胎児、妊娠中の女性、子供若しくはそれらに類するもの)、非ヒト動物、植物、細菌、真菌若しくは原生生物を含むがこれらに限定されないものを指す。任意のヒト又は非ヒト動物が対象となり得るのであり、これには、哺乳類、爬虫類、鳥類、両生類、魚類、有蹄類、反芻動物、ウシ(例えば、牛)、ウマ(例えば、馬)、ヤギ及びヒツジ(例えば、山羊や羊)、ブタ(例えば、豚)、ラクダ(例えば、駱駝やラマやアルパカ)、サル、類人猿(例えば、ゴリラやチンパンジー)、クマ(例えば、熊)、家禽、イヌ、ネコ、ネズミ、サカナ、イルカ、クジラ、サメ等が含まれるがこれらには限定されない。一部の実施形態では、対象は任意の段階の男性又は女性である(例えば、男、女又は子供)。
【0087】
本明細書で使用する場合、「組織」という用語は、機能的な単位として群集する細胞群に対応し得る。単一の組織中にて1つ以上のタイプの細胞が見出され得る。異なるタイプの組織は異なるタイプの細胞(例えば、肝細胞、肺胞細胞又は血液細胞)で構成され得るし、異なる生物(母対胎児)からの組織にも対応したり、健常細胞対腫瘍細胞に対応したりできる。「組織」という用語は、人体に内在する任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔組織等)を指し得る。「組織」又は「組織タイプ」という用語は、無細胞核酸の元となる組織を指すために用いられ得る。1つの例について言及するに、ウイルス核酸断片は血液組織から導き得る。別の例について言及するに、ウイルス核酸断片は腫瘍組織から導き得る。
【0088】
本明細書で使用する場合、「ベクトル」という用語は、要素のアレイのような要素について列挙したリストであり、各要素には割り当てられた意味がある。このように、本開示で用いられる「ベクトル」という用語は「テンソル」という用語と可換である。例を挙げるに、ベクトルが10,000ビンについてのビンカウントを含む場合、10,000ビンの各1つについてベクトル内には所定の要素が存在することとなる。表記の容易化のために、一部の場合においては、ベクトルは1次元的なものとして説明され得る。もっとも、本開示はそのように限定されはしない。本開示では、ベクトル中の各要素が何を表すのかについての記述が定義されていることを条件に、任意の次元のベクトルを用い得る(例えば、要素1は複数のビンのうちのビン1のビンカウントを表す等)。
【0089】
例示のために、例示的応用例を参照して幾つかの態様について後述する。本明細書に記載された特徴をについての完全な理解を供するために、多数の具体的な詳細、関係、及び方法が提示されていることを理解されたい。もっとも、関連技術において通常の技能を有する者ならば、本明細書に記載された特徴は、1つ以上の特定の詳細がなくとも実施可能であり、又は他の方法を用いて実施可能であることを容易に悟るであろう。幾つかの行為は異なる順序で起き及び/又は他の行為又は事象と同時的に発生し得る故に、本明細書に記載された特徴は、行為又は事象の例示順序によっては制限されない。さらに、本明細書に記載された特徴に従った手法を実施するためには、図示された行為又は事象の全てが必要なわけではない。
【0090】
III. 試料処理
図1は、無細胞DNA(cfDNA)断片をシーケンシングしてメチル化状態ベクトルを取得する処理についての例示的なフローチャートである。解析システム(又は本明細書の他の箇所にて記載される処理システム)は、先ず、複数のcfDNA断片を備える試料から、試料を、取得できる(S110)。一般に、試料は、健常な対象、癌を有しているもの知られているかそう疑われている対象、又は事前情報がない対象からのものとされることができる。試料(例えば、検査用試料又は訓練用試料のいずれか)は、血液、血漿、血清、尿、糞便、及び/又は唾液の試料から選択され得る。代替的には、試料は、全血、血液分画、組織生検、胸水、心嚢液、脳脊髄液、腹膜液等から選択され得る。
【0091】
試料からは、cfDNA断片に対しての処理を経て非メチル化シトシンをウラシルへと転換できる(S120)。方法は、cfDNA断片に対してのバイサルファイト処理(bisulfite treatment)を用い得るのであり、これによって非メチル化シトシンをウラシルへと転換するのであってその際メチル化シトシンは転換されずにこれがなされる。例えば、バイサルファイト転換(bisulfite conversion)に関しては、市販のキットを用い得るのであり、例えば、カリフォルニア州アーバインのZymo Research Corp社から入手可能なEZ DNA MethylationTM - GoldやEZ DNA MethylationTM - DirectやEZ DNA MethylationTM - Lightning等が挙げられる。非メチル化シトシンからウラシルへの転換は、酵素反応を用いて達成され得る。例えば、転換に関しては、非メチル化シトシンをウラシルへと転換する市販のキットを用い得るのであり、例えば、マサチューセッツ州イプスウィッチのNEBiolabs社のAPOBEC-Seq等が挙げられる。
【0092】
転換cfDNA断片から、シーケンシングライブラリを準備し得る(S130)。随意的には、複数のハイブリッド化プローブを用いて、癌状態について情報を含有するcfDNA断片又はゲノミック領域について強化し得る(S135)。ハイブリッド化プローブは、標的cfDNA断片、又は1つ以上の標的領域に由来するcfDNA断片にハイブリッドでき、また、その後のシーケンシング及び分析のためにそれらの断片又は領域を強化できる短オリゴヌクレオチドとされ得る。ハイブリッド化プローブは、興味対象の指定されたCpGサイトのセットについての大深度標的分析をなすために用いられ得る。一旦準備されたらば、シーケンシングライブラリ又はその一部に対してシーケンシングをなすことができ、複数のシーケンスリードを取得できる(S140)。シーケンスリードは、コンピュータソフトウェアによる処理及び解釈のため、コンピュータ可読なデジタル形式とされ得る。複数の試料について準備及びシーケンシングを並列でなし得る。複数の試料は、少なくとも10個, 20個, 50個, 96個, 100個, 200個, 500個, 1000個, 10000個又はそれ以上の試料を含み得る。
【0093】
シーケンスリードから、分析システムは、参照ゲノムへの整列に基づいて、1つ以上のCpGサイトの各々について、位置及びメチル化状態を、決定することができる(S150)。分析システムは、各断片についてメチル化状態ベクトルを生成できるのであり(S160)、これは、参照ゲノム中の断片の位置と、断片中のCpGサイトの個数と、断片中の各CpGサイトのメチル化状態(メチル化されている(M(methylated)と表記)、非メチル化(U(unmethylated)と表記)、又は不定(本明細書の他の箇所ではその他と説明もされるがI(indeterminate)と表記)であるかは問わない)とについて指定をなす。観測された状態は、メチル化及び非メチル化の状態を含み得るのであり;未観測状態は不定とされる。メチル化状態ベクトルは、後の使用及び処理のために、一時的又は永続的コンピュータメモリ内に格納され得る。さらに、分析システムは、重複するリード又は重複するメチル化状態ベクトルを、単一の対象から除き得る。分析システムは、汚染検出をなし得る(例えば、人間からの汚染源、予期せぬ生殖細胞系列ハプロタイプ、クロスサンプルのコンタミ、プローブのコンタミ、生物学的コンタミ、及び/又は技術者コンタミ)。分析システムは、品質管理メトリクスを評価し得る(例えば、強化、プルダウン、カバレッジ、及び/又は整列に関する事柄)。分析システムは、特定の断片が、不定のメチル化状態を有している1つ以上のCpGサイトを有していると決定し得る。不定のメチル化状態は、シーケンシングの誤り及び/又はDNA断片の相補鎖のメチル化状態齟齬に起因していることがある。分析システムは、そのような断片を除外すると決定するか、そのような断片を選択的に含めるもそのような不定メチル化状態について配慮するモデルを構築すると決定できる。不定とされる試料をさらなる原発組織(TOO、tissue of origin)分析から除外すると性能が改善され得る。
【0094】
図2は、メチル化状態ベクトルを取得するためのcfDNA断片シーケンシングについての
図1の例示的処理100について示す図である。例を挙げるに、分析システムは、cfDNA断片112を取り込む。cfDNA断片112は、3つのCpGサイトを含み得る。示されるように、cfDNA断片112の第1及び第3のCpGサイトは、メチル化されていることができる(114)。処理ステップ120に際して、cfDNA断片(cfDNA fragment)112に対して転換をなして転換cfDNA断片(converted cfDNA fragment)122を生成できる。処理120に際して、メチル化されてはいない第2のCpGサイトに関してはそのシトシンをウラシルへと転換できるのであり、その一方で第1及び第3のCpGサイトに関しては転換をなさないことができる。
【0095】
転換後に、シーケンシングライブラリ130を準備してシーケンシング140をなしてシーケンスリード142を生成できる。分析システムは、シーケンスリード142を参照ゲノム144に整列150させることができる。参照ゲノム144は、断片cfDNA(fragment cfDNA)がヒトゲノムのどの位置に由来するかについての文脈を提供し得る。分析システムは、3つのCpGサイトがCpGサイト23,24,25(説明の便宜のために用いられる無作為な参照用識別子)に相互関連するようにシーケンスリードを整列150させることができる。したがって、分析システムは、cfDNA断片112上の全CpGサイトのメチル化状態及びCpGサイトがマッピングするヒトゲノム上の位置の両方についての情報を、生成できる。示されるように、メチル化されているシーケンスリード142上のCpGサイトは、シトシンとしてリードされ得る。シトシンは、第1及び第3のCpGサイト中のシーケンスリード142中に現れるのであり、それにより元のcfDNA断片中の第1及び第3のCpGサイトがメチル化されていることを推認することが可能となる。一方で、第2のCpGサイトはチミンとしてリードされ得るのであり(シーケンシング処理に際してUがTに転換される)、また、第2のCpGサイトは元のcfDNA断片中ではメチル化されてはいないと推認可能である。これらの2つの情報(即ち、メチル化状態及び位置)に基づいて、分析システムは、cfDNA断片112についてのメチル化状態ベクトル152を生成160できる。結果として得られるメチル化状態ベクトル152は<M23,U24,M25>とされ得るのであり、ここで、「M」はメチル化CpGサイトに対応し(corresponds)、「U」は非メチル化CpGサイトに対応し、添字は参照ゲノム中の各CpGサイトの位置に対応し得る(can correspond)。
【0096】
実施例8との関係でさらに後述するように、識別されたメチル化状態ベクトルはp値フィルタリング及び分類に付されて、分類出力は結果報告に編纂されることできる。
【0097】
IV. 例示的システム
図5Aは例示的な環境/システムを図示するのであり、これにおいては検査対象の疾患/癌状態を決定する方法を実装し得る。環境500はシーケンシング装置510と1つ以上のユーザ装置520とを含み得るのであり、ネットワーク525を介して接続がある。
【0098】
シーケンシング装置510は、試料格納容器515と、フローセル545と、グラフィカルユーザインタフェース550と1つ以上の積み込みトレイ555とを含み得る。試料格納容器515は、1つ以上の検査及び/又は訓練用試料を搬送、保持、及び/又は格納するように構成されていることができる。フローセル545は、シーケンシング装置510のフローセルホルダー内に配されることができる。フローセル545は、ソリッドなサポートとされ得るのであり、拘束された検体上に試薬液を保持及び/又は規則正しく通過させるように構成されていることができる。グラフィカルユーザインタフェース550は、特定のタスクに関してのユーザ相互作用を可能とする(例えば、試料及び緩衝液を積み込みトレイ内に入れること、又は対応するメチル化パターンを伴うデータセットを含むシーケンシングデータを取得すること)。例を挙げるに、一旦ユーザ(例えば、検査対象や訓練対象や医療従事者等)がシーケンシング装置510の積み込みトレイ555に試薬及び精製断片試料を与えたのならば、ユーザは、シーケンシング装置510のグラフィカルユーザインタフェース550と相互作用することによってシーケンシングを開始できる。シーケンシング装置510は、本明細書の他の箇所にて説明した1つ以上の処理システムを含み得る。
【0099】
ユーザ装置520の各々は、ラップトップ機やデスクトップコンピュータ等のコンピュータシステム又はスマートフォンやタブレット等の携帯コンピューティング装置とされ得る。ユーザ装置520は、ネットワーク525を介してシーケンシング装置510と通信可能に結合されていることができる。各ユーザ装置はシーケンシング装置510から取得されたデータを様々な用途のために処理でき、例えばユーザのために癌状態についての報告を生成したりできる。ユーザは検査対象や訓練対象としたり任意の者(例えば、医療従事者)に報告に対してのアクセスを付与したりしてもよい。ユーザ装置520は、本明細書の他の箇所にて説明した1つ以上の処理システムを含み得る。1つ以上のユーザ装置520は、処理システム及びメモリを備え得るのであり、該メモリは、処理システムによって実行されると該処理システムに本明細書にて開示された任意の方法又は処理の1つ以上のステップを行わせるコンピュータ命令を格納している。
【0100】
ネットワーク525は、
図5Aに示される様々なコンポーネントや装置間での通信を実現するように構成されていることができる。ネットワーク525は、インターネット、無線ネットワーク、有線ネットワーク、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、Bluetooth(登録商標)、近距離無線通信(NFC)、又は1つ以上のコンポーネント間の通信を提供する任意の他のタイプのネットワークとして実装可能である。ネットワーク525は、セルラー及び/又はポケベルネットワーク、人工衛星、認可制無線、又は認可制無線と認可不要無線との組合せによって実装され得る。ネットワーク525は、無線式、有線式、又はそれらの組合せとされ得る。ネットワーク525は、公衆ネットワーク(例えば、インターネット)、私設ネットワーク(例えば、組織内ネットワーク)、又は公衆及び私設ネットワークの組合せとされ得る。
【0101】
図5Bは、検査対象の疾患/癌状態を決定するための処理システム560についての例示的ブロック図を示す。処理システム560は、1つ以上のプロセッサ又はサーバを備え得るのであり、これによって本明細書にて開示された任意の方法又は処理の1つ以上のステップがなされる。処理システム560は、複数のモデル(model)、エンジン、及びモジュール(module)を含み得る。
図5Bに示されるように、処理システム560は、データ処理モジュール562と、データ構築モジュール564と、アルゴリズムモデル566と、通信エンジン568と1つ以上のデータベースとを含み得る。
【0102】
データ処理モジュール562は、シーケンシング装置510から取得されたデータに対して、クリーニング、処理、管理、転換、及び/又は変換をなすように構成されていることができる。1つの例を挙げるに、データ処理モジュール562は、シーケンシング装置から取得されたデータを、他のモジュール、エンジン、又はモデルにて使用及び/又は認識できるデータに、転換することができる。例えば、データ構築モジュール564は、データ処理モジュール562からのデータから出力データを構築できる。データ構築モジュール564は、シーケンシング装置510、又は、処理システムの任意のモジュール、モデル、及びエンジンから取得されたデータを、構築する及び/又はさらに処理するように構成されていることができる(例えば、本明細書の他の箇所にて説明されている1つ以上のパッチを構築すること)。1つの例を挙げるに、データ構築モジュール566は、複数の断片からそれぞれの各々の断片を除くことによって複数の断片に対してプルーニングをなし得る。
【0103】
アルゴリズムモデル568は、1つ以上のアルゴリズム又はモデルを介して、データに対して、分析、移転、転換、モデリング、及び/又は変換をなし得る。そのようなアルゴリズム又はモデルは、本明細書の他の箇所にて説明されている分類器や計算モデル等の任意の演算的、数学的、統計的、又は機械学習系アルゴリズムを含み得る。分類器又は計算モデルは、少なくとも1つの畳み込みニューラルネットワーク(CNN、convolutional neural network)パッチを含み得る。分類器又は計算モデルは、第1段階モデル及び第2段階モデルを備え得る。第1段階モデルは、複数のベクトルセットを逐次的に受信し且つ複数の出力スコアをもたらし得るのであり、また、第2段階モデルは、第1段階モデルによってもたらされたベクトルセットを受信し且つ出力スコアをもたらし得る。分類器又は計算モデルは層を含み得るのであって、該層は、入力値を受信し且つフィルタ重みのセットを含む少なくとも1つのフィルタと関連付けられている。該層は、中間値を次の関数として算出できる:(i)フィルタ重みのセット及び(ii)複数の入力値。分類器又は計算モデルは、1つ以上のデータベース(例えば、非永続的メモリ又は永続的メモリ)内に格納されていることができる。
【0104】
通信エンジン568は、1つ以上のキーボードやマウス装置やそれらに類するもの等の1つ以上のユーザ装置(例えば、ユーザ装置520)へのインタフェースを提供するように構成されていることができるのであり、それによって1つ以上のユーザ装置520又はシーケンシング装置510からデータ及び/又は任意の情報を受信することが可能となる。
【0105】
1つ以上のデータベース570は、データ(例えば、予め訓練されたモデルや訓練データセット等)を格納するように構成された1つ以上のメモリ装置を含み得る。追加的には、1つ以上のデータベース570は、記憶装置付きコンピュータシステムとして実装され得る。1つ以上のデータベース570は、システム又は装置(例えば、シーケンシング装置510)のコンポーネントによって用いられて1つ以上のオペレーションをなすことができる。1つ以上のデータベース570は、処理システム560と共に配置されている、及び/又はネットワーク上で各々別のものと共に配置されていることができる。1つ以上のデータベース570の各々は、他のデータベースとの関係で同じ又は異なるものとされ得る。1つ以上のデータベース564の各々は、同じ位置に又は他のデータベースとの関係でリモートに配置され得る。1つ以上のデータベースは、上述されていない又は他の所でも説明されていない追加的なモジュール及びデータ構造を格納し得る。
【0106】
上述の識別されたコンポーネント(above identified component)(例えば、モジュール)は、別個のソフトウェアプログラム、手続、データセット、又はモジュールとして実装できない場合があり、したがって、これらのモジュール及びデータについての様々なサブセットは、様々な実装において組み合わされるか、或いは再構成され得る。一部の実施形態では、1つ以上の上述の識別された要素(above identified element)は、システム500以外のコンピュータシステム内に格納され得るのであり、それにおいてはシステム500によってアドレス可能でありそれによってシステム500はそのようなデータの全部又は一部を必要に応じて検索し得る。
【0107】
V.例示的方法
図5A及び5Bを参照して本開示に即するシステムを開示したのであるが、本開示に即する例示的方法800について次に
図8Aとの関連で説明する。方法は、本明細書で開示される環境500及び/又は処理システム560によって実行され得る。
【0108】
方法800のステップ802には、電子的態様にてデータセットを取得するステップであって、該データセットは複数の断片中のそれぞれの各々の断片の対応するメチル化パターンを備える、ステップを含み得る。それぞれの各々の断片の前記対応するメチル化パターンは、前記検査対象から取得された生物試料中の前記各々の断片を備える1つ以上の核酸試料についてのメチル化シーケンシングによって決定され得る。それぞれの各々の断片の前記対応するメチル化パターンは、前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含む。
【0109】
複数の断片中の各断片は一意的な断片を含み得るのであり、その核酸シーケンスは異なるゲノミック位置又は位置に整列する(又はマッピングされる)。複数の断片中の各断片は一意的な断片を含み得るのであり、これは異なるメチル化パターンを含む。断片のシーケンスリードがマップされる位置は、BLAST、BLASR、BWA-MEM、DAMAPPER、NGMLR、GraphMap、Minimap等のプログラムを用いて決定し得る。BGREATとdeBGAは、いずれも第2世代シーケンシングデータに対応するように設計されていることができる。BlastGraphは、BLASTマッピングの結果を用いて、アラインメントのクラスタリングや比較ゲノム解析をなし得る。GramToolsは、ショートリードを母集団参照グラフにマッピングできる。
【0110】
1つ以上の核酸試料についてのメチル化シーケンシングは、(i)全ゲノムメチル化シーケンシング、(ii)全ゲノムバイサルファイトシーケンシング(WGBS、whole genome bisulfite sequencing)、又は(iii)複数の核酸プローブが用いられる標的DNAメチル化シーケンシングを含み得る。1つ以上の核酸試料についてのメチル化シーケンシングは、還元表現バイサルファイトシーケンス、メチル化DNA免疫沈降シーケンシング、次世代シーケンシング、パイロシーケンシング、メチル化特異的PCR、バイサルファイト転換DNAの直接サンガー(Sanger)シークエンス、及び/又はバイサルファイト アンプリコン シーケンシング(BSAS、Bisulfite Amplicon Sequencing)を含み得る。メチル化シーケンシングは、Nanoporeシーケンシング又はIlluminaシーケンシングを用いてなされ得る。1つ以上の核酸試料のメチル化シーケンシングは複数の核酸プローブを用い得る(例えば、100個未満、100個~1000個の間、500個~10,000個の間、1000個~50,000個の間、又は50,000個以上)。
【0111】
標的DNAメチル化シーケンシングは、様々な態様にてなされ得る。異なる酵素処理及び化学処理との組合せを用いて、メチル化シトシン又は非メチル化シトシンのいずれかを転換できる。例えば、1つ以上の核酸試料についての前記メチル化シーケンシングは、1つ以上の5-メチルシトシン(5mc)及び/又は5-ヒドロキシメチルシトシン(5hmc)を前記各々の断片にて検出できる。別の例を挙げるに、1つ以上の核酸試料についての前記メチル化シーケンシングは、前記各々の断片中の1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンを対応する1つ以上のウラシルに転換することを伴い得る。前記1つ以上のウラシルは、前記メチル化シーケンシングに際して、1つ以上の対応するチミンとして検出され得る。1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンについての前記転換は、化学転換、酵素転換、又はそれらの組合せを含み得る。
【0112】
方法800のステップ804は次のステップをさらに含み得る:第1のチャンネルを含む第1のパッチを構築するステップ。前記第1のパッチは、前記種の参照ゲノム中の、CpGサイトの第1の独立セットを表し得る。CpGサイトの前記第1の独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。
図6Aは例示的な第1のパッチ530-1の構造を示す。第1のパッチ530-1は少なくとも1つのチャンネル(例えば、第1のチャンネル)を含み得るのであり、第1のチャンネル532-1-1はCpGサイト1乃至Lを含むCpGサイトの第1の独立セット536-1-1-1を含み得る。ここで、Lは正の整数たり得る(例えば、2, 3, 4, 5, 6, 7, 8, 9, 10以上, 20以上, 30以上又は 50以上)。
【0113】
CpGサイトの第1の独立セットは、所定の個数のCpGサイトを含み得る。CpGサイトの第1の独立セットは、参照ゲノムの選択領域を含み得る。CpGサイトの第1の独立セットは、少なくとも10, 50, 100, 500, 1000又はそれ以上のCpGサイトを含み得る。CpGサイトの第1の独立セットは、多くとも1000, 500, 100, 50, 10又はそれ以下のCpGサイトを含み得る。CpGサイトの第1の独立セットは、128個又は256個のCpGサイトを含み得る。CpGサイトの第1の独立セットは、興味対象たるCpGサイトについての所定のパネルから、選択され得る。例えば、ヒトゲノムに内在する約2,800万個のCpGサイトのうち、約150万個が標的メチル化シーケンシングによって検出可能である。標的メチル化シーケンシングによって識別された150万のCpGサイトを有するパネルは、標的シーケンシング方法によって予め決定されることができ、或いは、具体的な実験的目的に基づいて術者によって選択されることができる。WGBSによるヒトメチロームの特徴付けによって、安定的にメチル化されており且つ識別可能な制御機能を有していないCpGサイトと比較して、動的制御機能を有するCpGサイト又は疾患と関連付けられている単一ヌクレオチド多型を含むCpGサイトを識別できる。
【0114】
興味対象たるCpGサイトの個数は、先験的な知識に基づいて興味対象となる標的サイトのサブパネルを用いてシーケンスリードをフィルタリングすることによって、さらに減じることができる。例えば、興味対象CpGサイトは、癌対非癌の検出又は癌タイプ若しくはサブタイプ間での区別に関して判別的又は情報提供的なCpGサイト又はゲノム領域を識別する先験的な知識によって、取得できる。興味対象CpGサイトのある比率は、p値フィルタリングを用いて、データセットからさらに除外できる。興味対象CpGサイトのサブパネル中に含まれないCpGサイトの除外は、データ前処理中に、又はパッチ設計中になし得るのであり、データ処理モジュール562及び/又はデータ構築モジュール564を介してなされ得る。パッチ設計及び興味対象CpGサイト選択の詳細は、明細書の他の箇所にて説明されている。
【0115】
CpGサイトの前記第1の独立セットは、前記参照ゲノムのCpGインデックス中にある場合がある。前記参照ゲノムの前記CpGインデックスは、CpGサイトの前記第1の独立セットに中には所在しないもCpGサイトの前記第1の独立セット内に所在する第2のCpGサイトと第3のCpGサイトとの間の前記参照ゲノム中に位置する第1のCpGサイトを含み得る。換言すれば、パッチは、CpGインデックスからの非隣接CpGサイトを含み得る。CpGサイトの前記第1の独立セットは、前記参照ゲノムのCpGインデックス中において互いに隣り合う第1のCpGサイトと第2のCpGサイトとを含み得るのであり;前記複数の断片中の第1の断片は、前記第1のCpGサイトを含むも前記第2のCpGサイトを含まないことがあり;前記複数の断片中の第2の断片は、前記第2のCpGサイトを含み得るも前記第1のCpGサイトを含まないものとされることができる。したがって、隣接CpGサイトは異なる一意的なメチル化シーケンシング断片上に存在することができる。他方で、 CpGサイトの前記第1の独立セットは、前記参照ゲノムのCpGインデックス中において互いに隣り合う第1のCpGサイトと第2のCpGサイトとを含み得るのであり;また、前記複数の断片中の第1の断片は、前記第1のCpGサイト及び前記第2のCpGサイトの両方を含み得る。したがって、隣接CpGサイトは同じ一意的なメチル化シーケンシング断片上に存在することができる。CpGサイトの前記第1の独立セットは、前記参照ゲノム全体から抽出され得る。メチル化シーケンシングによって取得された複数の断片中の各断片は、参照ゲノムに整列させられていることができる。参照ゲノムへの整列は、複数の断片中の各断片中のメチル化サイト(例えば、メチル化パターン)の整列を用いてなし得る。参照ゲノムへの整列は、複数の断片中の各断片中の塩基対の整列を用いて(例えば、BLAST、BLASR、BWA-MEM、DAMAPPER、NGMLR、GraphMap、Minimap等のプログラムを用いて)なし得る。
【0116】
前記第1のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み得るのであり、前記第1の複数パラメータの各インスタンスは前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのメチル化状態(又はメチル化の様子)についてのパラメータを含み得る。
【0117】
図6Aを参照するに、複数のインスタンスは、CpGサイトの第1の独立セット中の各CpGサイトに対応する複数のパラメータを伴い得る。
図6Aに示されるように、第1のパッチ530-1の第1のチャンネル532-1-1は、複数のインスタンス534-1-1-1,534-1-1-2~534-1-1-Mを含む(ここで、Mは正の整数)。また、
図6Aでは、各インスタンスは、L個のパラメータ538-1-1-1-1,538-1-1-1-2,538-1-1-1-3,538-1-1-1-4~538-1-1-1-Lを第1のインスタンス534-1-1-1にて含み得るのであり(ここで、Lは正の整数)、各パラメータはCpGサイトの第1の独立セット536-1-1-1中のL個のCpGサイトに対応する。同様に、
図6Aは、第2のインスタンス534-1-1-2中のL個のパラメータ538-1-1-2-1,538-1-1-2-2,538-1-1-2-3,538-1-1-2-4~538-1-1-2-Lと、第Mのインスタンス534-1-1-M中のL個のパラメータ538-1-1-M-1,538-1-1-M-2,538-1-1-M-3,538-1-1-M-4~538-1-1-M-Lとを示す。
【0118】
図6Aの例示的パッチにて示されているように、複数のインスタンス及び複数のパラメータによって、代表的な2次元マトリックス(例えば、イメージ)がもたらされる。したがって、メチル化シーケンシングデータを2次元マトリックスにて再構成すると、CNNにて用いるのに適した入力がもたらされ得る。追加的に、CNNを用いてのデータセットの分析は、断片、試料又は対象レベルにて複数のパラメータ(例えば、特徴又は属性)を含むものとなるように拡大できる。例えば、2次元マトリックスによって複数の断片中のそれぞれの各々の断片についての局所的情報をもたらし得るのであり、断片間メチル化状態パターンは水平又は垂直方向にて識別され得るのであり、したがって、近隣メチル化サイト間の又はシーケンスリード間の相関が識別される。
【0119】
2次元マトリックスのy軸は、第1のパッチの第1のチャンネル中のインスタンス数を増やすことによって増やせる。例えば、第1の複数のパラメータの複数のインスタンスは、24個から2048個とされることができる。第1の複数のパラメータの複数のインスタンスは、128個とされることができる。第1の複数のパラメータの複数のインスタンスは、少なくとも1個、10個、100個、1000個、10000個又はそれ以上とされることができる。一部の実施形態では、前記第1の複数のパラメータの前記複数のインスタンスは多くとも10000個、1000個、100個、10個又はそれ以下とされることができる。前記第1の複数のパラメータの前記複数のインスタンス中のインスタンス数は、前記複数の断片の期待リード深度に前記複数の断片にわたっての1標準偏差加わったものに基づいて決定され得る。これは、μ(リード深度)+σ(標準偏差)として表され得る。一部のそのような実施形態では、前記第1の複数のパラメータの前記複数のインスタンス中のインスタンス数は、本明細書の他の箇所にて説明されたシーケンシング方法によって取得された前記複数の断片の期待リード深度に基づいて決定され得る。例えば、全ゲノムシーケンシングによってなされたシーケンシングは、検査対象のゲノムにわたって平均シーケンシング深度が少なくとも1x, 2x, 3x, 4x, 5x, 6x, 7x, 8x, 9x, 10x、少なくとも20x、少なくとも30x、又は少なくとも40xとなり得る。標的パネルシーケンシングに関してのシーケンシング深度は比較してかなり深いものとなり得るのであり、次の深度を含むがこれらに限定されない:多くて1,000x, 2,000x, 3,000x, 5,000, 10,000x, 15,000x, 20,000x、又は約30,000x。シーケンシング深度は30,000xよりも深くなり得るのであり、例えば、少なくとも40,000x又は50,000xがあり得る。
【0120】
前記第1の複数パラメータのインスタンスにおけるメチル化状態についてのパラメータは、前記複数の断片中の各々の断片に関しては、次の事柄を含み得る:前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化していると決定された場合には、メチル化しているとされること;前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化していないと決定された場合には、メチル化していないとされること;及び/又は前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化している又はメチル化していない以外のものと決定された場合には、それ以外とされること。それ以外とのパラメータに関しては:メチル化シーケンシングが各々の断片の全体にわたって集合的に重複することについて失敗した場合には、曖昧(ambiguous)とフラグされて;基礎となるCpGサイトがペア付け済み端部リード(paired end read)によって包括されていない及び/又は断片と重複するメチル化シーケンシングリードが見つからない場合には、曖昧(ambiguous)とフラグされて;各々の断片についてのメチル化シーケンシングが各々の断片中の対応するCpGサイトの予期された位置にて、対応するCpGサイトと一貫性を欠く(inconsistent)ヌクレオチドを見つけた場合には、変種(variant)とフラグされて;各々の断片のメチル化シーケンシングがペア端部シーケンシング(pair-end sequencing)であり且つ対応するCpGサイトを包括するペア付け済み端部リード(paired end read)のメチル化状態が各々の断片中の対応するCpGサイトについてのと同じメチル化状態を報告しない場合には、抵触(conflicted)とフラグされて;又は各々の断片のメチル化シーケンシングが対応するCpGサイトのメチル化状態について解決をもたらすことができない場合には、未知(unknown)とフラグされる。メチル化状態は次の状態を含み得るもそれらには限定されない:非メチル化;メチル化;曖昧(ambiguous)(例えば、基礎となるCpGがシーケンスリードのペア中のいずれのリードによっても包括されていない場合);変種(variant)(例えば、リードが、参照シーケンスに基づいてのその期待された位置に発生するCpGとの一貫性を欠いている(not consistent)場合であってこれはサイトにての現実の変種又はシーケンス誤りによって惹起され得る。);又は抵触(conflict)(例えば、2つのリードが共に重複するも一貫性を欠く(not consistent)場合)。曖昧、変種、抵触等のメチル化状態は、曖昧状態に押し込めることができる(例えば、それ以外(other))。したがって、CpG状態の可能性としては、メチル化、非メチル化、及び曖昧の3つの状態がある。
【0121】
前記第1のパッチを構築するステップは、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれの各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入することを含み得る。複数の断片中のそれぞれの各々の断片をCpGサイトの第1の独立セットに整列させるに際しては、断片がCpGサイトの第1の独立セット中の全CpGサイトを含む場合を含まないことができる。
【0122】
前記第1のパッチを構築するステップは、前記第1のパッチに割り当てられた各々の断片を、それらの各々のp値又は前記参照ゲノムにおけるそれらの開始位置に基づいて、ソート/選択することをさらに含み得る。例えば、フラグメントをp値又は開始CpG位置でランク付けすることによって、第1のパッチに投入する前に、断片をソート/選択することができる。断片は、断片長によってソート/選択され得る。断片を第1のパッチのインスタンスに投入できるのであって、断片センタリング(例えば、ミドルアウト又は中間に置かれた断片を選択すること)を優先させたり、或いは、インスタンス充填(例えば、トップダウン又は上位にランク付けされた断片を幾つか選択すること)を優先したりしてこれをなせる。第1のパッチを異なる方法(例えば、p値又は位置によって断片をソートすること及び/又はトップダウン又はミドルアウトを用いてインスタンスに投入すること)によって構築することによって、2次元マトリックス(例えば、パッチ)に相違が結果としてもたらされ得る。第1のパッチを異なる方法によって構築することによって、癌タイプの一貫した分類が結果としてもたらされ得る。例えば、上述の任意の実施形態又はそれらの組合せを用いて第1のパッチに投入することによって、成功裏な分類のためのネットワーク入力が提供され得るのであり、これは試料間で再現可能且つ安定している安定パターンを生成することによってなされる。
図6Cは非癌cfDNAから取得されたメチル化シーケンシング断片が投入されたパッチの例について例示するのであり、これは2次元マトリックスとして表されている。インスタンスはy軸で表され得るのであり、一方でCpGサイトに対応するパラメータ(例えば、メチル化については黒色、非メチル化については濃灰色、その他については白色、空白については薄灰色)はx軸で表され得る。断片情報は、パッチ内の各画素についてのセルシェーディングによって表示され得る。
【0123】
複数の断片中の各々の断片についての第1のパッチを構築するステップは、i)第1のチャンネルの第1の複数のパラメータのインスタンス内にて、各々の断片中のCpGサイトに対応する、複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別することと、ii)識別されたパラメータのうちの各々の断片の対応するCpGサイトに整列する各パラメータについて、各々の断片の対応するCpGサイトのメチル化状態を割り当てることとを含み得る。例えば、
図6Dでは、識別ステップは、任意のインスタンスを活用できる。なぜならば、チャンネルには断片が割り当てられていないからである。したがって、
図6Eに例示されているように、第1断片602は、第1の複数のパラメータのインスタンス604に割り当てられ得る。第1断片は、第1断片のCpGサイトに対応する第1の複数のパラメータのインスタンス604内のそれらのCpGサイトに、割り当てられ得る。
【0124】
前記複数の断片中の1つより多い断片は、前記1つより多い断片が共通CpGサイトを有さないことを条件として、前記第1のパッチ中の前記第1のチャンネルの前記第1の複数のパラメータの単一のインスタンスに割り当てられ得る。したがって、
図6D及び6Eの例についてさらに述べるに、
図6Fで例示されるように第2断片CpGサイトが第1断片のCpGサイトと重複しない場合には、第2断片606は、第1の複数のパラメータのインスタンス604に、割り当てられ得る。したがって、
図6Fでは、複数の断片が単一インスタンス内へと投入される場合、それぞれの各々の断片は、インスタンス内の複数の断片内の任意の他の断片と重複できない。このようにして、断片のCpGサイトが互いに重複しないことを条件に、複数のパラメータのインスタンスには、1個より多い或いは2個より多い或いは3個より多い或いは10個より多い或いは20個より多い断片が、割り当てられ得る。第1及び第2断片のCpGサイト内に重複がある場合、2つの断片は、複数のパラメータの同じインスタンス内にあることができない。したがって、第2断片606は、
図6Fにて例示されているようにインスタンス604に割り当てられている代わりに、
図6Gに例示されているようにインスタンス608に割り当てられていることができる。
【0125】
前記第1のチャンネルの前記第1の複数のパラメータの幾つかのインスタンスに各々の断片が割り当てられることができない場合、方法800は、断片が割り当てられていない前記第1のチャンネルの前記複数のパラメータのインスタンス中にてパラメータについてゼロで埋めることをさらに含み得る。例えば、
図6Cでは、幾つかのインスタンス(y軸)には各々の断片が割り当てられることができず、また、これらのインスタンス内の各パラメータには、ゼロや何らかの他の名目的値が割り当てられ得る。
【0126】
前記識別ステップで、前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別できない場合、方法は、前記各々の断片を破棄することをさらに含み得る。。
図6Gを参照するに、図示されたチャンネルの全ての行は、少なくとも1つの断片であって、そのCpGサイトが未だチャンネルに割り当てられていない各々の断片のCpGサイトと重複する、少なくとも1つの断片を、含み得る。このような場合、未だチャンネルに割り当てられていない各々の断片は、破棄され得る。
【0127】
第1のパッチ中の複数のインスタンス中のインスタンス数は、より高度なリード深度を可能とするために、増大させ得る。複数のインスタンス中のインスタンス数は、300迄、500迄、1000迄、5000迄、10,000迄、又は10,000より大きいものとされ得る。したがって、
図6D~6Nを参照するに、そのような実施形態における行数は、 300迄、500迄、1000迄、5000迄、10,000迄、又は10,000より大きいものとされ得る。p値閾値を減少させることができ(これによって合格する断片の個数が減じられる)、断片選定の厳格性を増大させ得るのであり、高信号メチル化パターンを伴う全ての断片が複数のインスタンス内へと投入されることを担保できる。実施例8にて論じたように、リード深度は、パッチ構築用のハイパーパラメータを調整することによって変更できる。実施例8にて論じたように、p値は、パッチ構築用のハイパーパラメータを調整することによって変更できる。ハイパーパラメータ値は解析の具体的要素に基づいて決定され得る(例えば、他のものもあるも、試料サイズ、試料タイプ、メチル化シーケンシングの方法、断片品質、メチル化パターン)。ハイパーパラメータ値は、実験的最適化を用いて決定できる。ハイパーパラメータ値は、以前のテンプレート値に基づいて割り当てられ得る。
【0128】
前記識別ステップで、前記第1のパッチの前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別できなかった場合、方法は、前記第1のパッチの追加のインスタンスを作成するための命令及び前記各々の断片を前記第1のパッチの前記追加のインスタンスに割り当てることをさらに含み得る。したがって、
図6Dを参照するに、
図6Dに例示されるパッチ内の各々の断片のための場所がない場合、
図6Dに例示されるパッチの新規な空レプリカ又はパッチの追加インスタンスが作成され得る。方法は、1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20、又は20個以上の追加パッチ若しくはインスタンスを作成することをさらに含み得る。追加パッチは、第1(例えば、元来の)パッチ(例えば、
図6D)と同一の構造を有し得る。したがって、追加又は重複パッチは、元来のパッチに関して他のものもあり得るが、例えば、同じインスタンス数、独立CpGサイトについての同じセット、同じチャンネル数、及び/又は同じ特徴を含み得る。追加パッチは、第1(例えば、元来の)パッチと同一の構造を有さない場合がある。追加インスタンスは、
図6Dに例示されているような他のインスタンスと同じ又は異なる構造を有し得る。
【0129】
各々の断片の前記メチル化パターンは前記第1のパッチのCpGサイトの前記第1の独立セット中の各CpGサイトを含まないことがあり、また、前記複数の断片中の各々の断片について前記第1のパッチを構築するステップは、前記各々の断片内に存するCpGサイトに対応する第1の複数のパラメータの前記インスタンス中のパラメータに投入すること(例えば、パラメータに数値を割り当てること)を含み得る。第1の複数のパラメータのインスタンス内のパラメータは、ゼロで埋められていることができる。したがって、
図6Fを参照するに、断片602,606によって占有されていないインスタンス604内のそれらのパラメータについては、ゼロで埋めることができる。
【0130】
第1のパッチの構築ステップには、第1のパッチのCpGサイトの第1の独立セットと第1の複数のパラメータの複数のインスタンス中のインスタンス数との積が、所定の制約を充足するように最小化されることが含まれ得る。例えば、CpGサイトの第1の独立セットが「100」であり、且つ、第1の複数のパラメータの複数のインスタンス中のインスタンス数が「50」である場合、第1のパッチのCpGサイトの第1の独立セットと第1の複数のパラメータの複数のインスタンス中のインスタンス数との積は、5000となり得る。所定の制約は、大きくとも、100万、500,000、100,000、50,000、10,000、1000、100以下とされ得る。一部の実施形態では、所定の制約は、少なくとも100、1000、10,000、50,000、100,000より大きいものとされ得る。第1のパッチの構築ステップに関しては、CpGサイトにわたっての高次特徴を捕捉するために、第1のパッチのCpGサイトの第1の独立セットがCpGサイトについての所定の下限数(例えば、30個以上、50個以上、又は100個以上)を有することを伴い得る。
【0131】
第1のパッチの構築ステップに関して述べるに、第1のパッチのCpGサイトの第1の独立セット中のCpGサイトの個数と、第1の複数のパラメータの複数のインスタンス中のインスタンス数とが、予め構築されたマトリックスと同じ対応する次元(CpGサイトの個数,インスタンス数)となっていることが含まれ得る。予め構築されたマトリックスは予め訓練されたネットワークとされることができ、該予め訓練されたネットワークは新たな入力(例えば、新たな試料)を分類するために用いられ得る。一部の実施形態では、予め構築されたマトリックスは、予め訓練されたネットワークへの入力として用いられ得る。第1のパッチの構築ステップに関して述べるに、第1のパッチのCpGサイトの第1の独立セットが、複数の断片中の個々の断片が第1のパッチについての投入に際して人工的に分断されないようにパーティショニングされる第1のパッチの構築ステップに関して述べるに、第1のパッチのCpGサイトの第1の独立セットに対してのパーティショニングでは、第1のパッチ中のCpGサイトの独立セットがCpGサイト密度が高い領域に関してセグメンテーション、トランケーション又は排除をなさないようにされる。
【0132】
データセット取得後且つ第1のパッチ構築前、又は検査対象の疾患/癌状態の決定の任意の段階にて、方法800は、前記複数の断片からそれぞれの各々の断片であって前記各々の断片中の対応する複数のCpGサイトにわたっての対応するメチル化パターンがp値閾値を充足しないp値を有する断片を除去することによって前記複数の断片に対してプルーニングを行うプルーニングステップをさらに含み得る。前記各々の断片の前記p値の決定は、前記各々の断片の前記メチル化パターンを、前記各々の断片の前記複数のCpGサイトを有する複数の参照断片中の前記複数のCpGサイトのメチル化パターンの分布と比較することによってなされ得る。前記複数の参照断片中の各参照断片の前記メチル化パターンは、1つ以上の共通特徴を有する対象のコホート(例えば、健常な対象のコホート、喫煙する健常な対象のコホート、喫煙しない対象のコホート、男性の対象のコホート、女性の対象のコホート、閾値となる年齢を超える対象のコホート、指定された年齢レンジ内の対象のコホート、遺伝子変異の特定のセットを有する対象のコホート、特定の人種の対象のコホート等)から取得された生物試料からの核酸についてのメチル化シーケンシングによって取得され得る。この複数の参照断片は、健常な対象のコホートから取得され得る。健常な対象のコホートは、少なくとも10, 20, 50, 100, 1000又はそれ以上の対象を含み得る。
【0133】
癌陽性の患者の血液試料から取得された断片の大半は、血流中に放出された健常な細胞由来のものたり得る。そのような場合、メチル化シーケンシングによって取得された複数の断片のサブセットは、癌組織由来のものたり得る。
図3及び
図4の例示的ワークフローにて概説されたように、p値フィルタは、健常な(例えば、非癌又は「正常な」)組織に比して高度に差異的なメチル化状態を有さないリードを除去するために、用いられ得る。生成的モデル(例えば、モデル分布)を用いてこれをなし得るのであり、健常試料のコホート(例えば、約130~150)を用いて断片メチル化パターンの正規分布を決定する。参照分布は各遺伝子座にて生成でき、各モデル分布は各遺伝子座での健常メチル化状態を表し得る。参照試料の分布に基づいて、観測された断片についてp値を決定することができ、p値は、観測された断片と少なくとも同じくらい希有なメチル化パターンを観測できる確率とされ得る。p値は各生物試料について複数の断片中の各断片について計算でき、従ってハイパスフィルタを提供するのであり、これは低優先度又は低信号メチル化パターン断片(例えば、健常細胞からのそれ)を除去しつつ、潜在的な興味対象となる又は判別的価値を有するそれらの断片を保持する。p値閾値は、大きくとも0.1, 0.05, 0.01, 0.001又はそれ以下とされ得る。p値閾値は、少なくとも0.0001, 0.001, 0.01, 0.05, 0.1又はそれ以上とされ得る。
【0134】
図6Hを参照し、
図6Aの用語を用いて例示するに、第1のパッチは、第1のチャンネル532-1-1及び第2のチャンネル532-1-2を含む複数のチャンネルを含み得る。各チャンネルは、1つの特徴(例えば、第1の特徴のパラメータ)と関連付けられている情報又はデータを表し得る。
図6Aに転じるに、第2のチャンネル532-1-2は、第1のチャンネル532-1-1の第1の複数のパラメータの各インスタンスについて、第2の複数のパラメータの対応するインスタンスを含み得るのであり、第2の複数パラメータの各インスタンスは、第1のパッチについてのCpGサイトの第1の独立セット中の各々のCpGサイトのCPGのメチル化の様子以外の第1の特徴についてのパラメータを含み得る。第1のパッチを構築するステップは、CpGサイトの第1の独立セットに整列した複数の断片(例えば、
図6Hの断片602,606)中のそれぞれの各々の断片について、各々の断片のメチル化パターンに基づいて、第1の複数のパラメータの全部又は一部のインスタンス並びに第2の複数のパラメータの全部又は一部のインスタンスに投入することを含み得る。第2のチャンネル532-1-2は、追加的な特徴並びに/又は各々のCpGサイト、各々の断片、各々の試料、若しくは各々の対象についての属性を表す別の2次元マトリックスを含み得る。したがって、
図6A及び6Hは、第1の特徴(例えば、CpGカバレッジ)を含む第2のチャンネル532-1-2を示しているものとされ得る。
図6A及び6Hの例示的実施形態では、第2のチャンネルは複数のM個のインスタンス(例えば、
図6A及び6Hに示されているY軸に沿ってのそれ)を含み得るのであり、各インスタンスは、第1のチャンネル532-1-1のL個のCpGサイト536-1-1-1の第1の独立セットに対応する複数のパラメータを、含む。そして、第2のチャンネル532-1-2中の複数のインスタンス中の第Mインスタンスに関して、複数のパラメータは、
図6Aにて538-1-2-M-1, 538-1-2-M-2, 538-1-2-M-3, 538-1-2-M-4, 538-1-2-M-Lと表示され得る。したがって、断片602,606は
図6A及び6Hに示されているパッチによって表されているゲノムの領域に整列され得るのであり、整列された断片中のCpGサイトの状態は、
図6Hに示されるこれらCpGサイトに対応するパッチのチャンネル532-1-1のパラメータに投入するために用いられ得る。チャンネル532-1-1にてこのようにして投入がなされた各そのようなパラメータについて、
図6Hに示されているように、第2のチャンネル532-1-2中の対応するパラメータが存在し得る。そして、これらの対応するパラメータには、追加的な特徴並びに/又はチャンネル532-1-2が表す各々のCpGサイト、各々の断片、各々の試料、若しくは各々の対象についての属性と関連付けられている値を、と投入し得る。例えば、追加的な特徴に関してチャンネル532-1-2が断片マッピングスコアについてのバイナリ表示である場合、ソース断片がマッピング閾値を充足するマッピングスコアを有するのならば、追加的な特徴は「1」とすることができ(図示の目的で
図6Hでは左傾斜のハッシュマークで表されている)、また、ソース断片がマッピング閾値を充足しないマッピングスコアを有するのならば、追加的な特徴は「0」とすることができる(図示の目的で
図6Hでは右傾斜のハッシュマークで表されている)。
図6Hに示されているように、断片606は、マッピング閾値を充足するマッピングスコアを有し得るのであり、他方で断片602はマッピング閾値を充足しないマッピングスコアを有し得る。チャンネル2(第2のチャンネル)の特徴は断片レベル特徴とされ得るのであり、他方でチャンネル1(第1のチャンネル)の特徴は個々のCpGサイトのレベルにあることができる。したがって、チャンネル2については、所与の断片に対応する全てのパラメータは断片レベルの値を採用するのであり、他方でチャンネル1については、断片を表す各パラメータは異なる値を有し得る(CpGメチル化)。このことによって、如何にして任意の所与のチャンネルが異なる粒度でチャンネルパラメータを介してサンプリング及び報告をなし得るのかについて例示し得る(例えば、CpGサイトの次元で或いは断片等の次元で)。
【0135】
複数の断片中の各々の断片についての第1のパッチを構築するステップは:i)第1のチャンネルの第1の複数のパラメータのインスタンス内にて、各々の断片中のCpGサイトに対応する、複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別することと(
図6Gについて上述した);ii)識別されたパラメータのうちの各々の断片の各々のCpGサイトに整列する各パラメータについて、各々の断片の各々のCpGサイトのメチル化状態を割り当てることと(
図6Gについて上述した);iii)前記第1の複数のパラメータの前記インスタンスに対応する前記第2のチャンネルの前記第2の複数のパラメータの前記インスタンスの前記第2の複数のパラメータ中の、前記各々の断片の各々のCpGサイトに整列する、前記識別されたパラメータのうちの各パラメータについて、前記各々の断片の前記各々のCpGサイトの前記第1の特徴を割り当てることとを含む(チャンネル532-1-2について
図6Hで例示したのでありまた上述した)。したがって、各々の断片のメチル化パターンに基づいて、第1の複数のパラメータの全部又は一部のインスタンス内へと投入される断片に関しては、メチル化状態並びに各々の断片のメチル化状態以外の各々のCpGサイトの第1の特徴の両方は、
図6Hにて各々例示されているように、第1及び第2チャンネル中の対応するインスタンス内へと投入され得る。
【0136】
図6Fに示されているように、前記複数の断片中の1つより多い断片は、前記1つより多い断片が共通CpGサイトを有さないことを条件として、前記第1のパッチ中の前記第1のチャンネルの前記第1の複数のパラメータの単一のインスタンスに割り当てられ得る。前記複数の断片中の1つより多い断片は、前記1つより多い断片が共通CpGサイトを有さないことを条件として、前記第1のパッチ中の前記第1のチャンネル及び前記第2のチャンネルの前記第1の複数のパラメータの単一のインスタンスに割り当てられ得る。
【0137】
各々のCpGサイトの第1の特徴(例えば、
図6Hのチャンネル532-1-2の特徴)は、各々のCpGサイトが所在する各々の断片の多重度を含み得る。具体的には、第1のパッチの第2のチャンネル中のCpGサイトの第1の独立セット中の各CpGサイトについては、第1の特徴は、各々のCpGサイトに整列する各々の断片によって表される重複断片(duplicate fragment)の個数を表す多重度(multiplicity)を含み得る。例えば、各々の断片中に含まれる全CpGサイトにて同じ開始及び終了位置並びに同じメチル化状態を有する場合に、複数の断片は同一なマルチプル(identical multiple)とみなされ得る。一部の実施形態では、多重度は、相互に少なくとも10%, 20%, 30%, 50%, 70%, 80%, 90%又はそれ以上の重複CpGサイトを有する断片の個数を表し得る。したがって、断片の多重度は、有益な情報を保持しつつ入力データセットのサイズを減らし得る。複数の同一の断片が、複数の細胞から由来し得る。チャンネル532-1-2の特徴が断片マッピングスコアを含む
図6Hの場合とは違って、
図6Iでは、チャンネル532-1-2の特徴は多重度を含み得る。さらに、断片606は、多重度が4となっていることができ、他方で断片602は多重度が1となっていることができる。断片606のCpGサイトを有する生物試料中には4つのシーケンスリードが含まれ得るのであり、断片602のCpGサイトを有するものには1つが含まれ得る。複数の同一の断片が、同一の細胞から由来し得る。複数の同一断片はPCR増幅ではなくメチル化シーケンシングから取得された断片を含み得るのであり、その際PCR増幅から生じる重複はデータ前処理中にデータセットから除外される(例えば、重複排除(de-dupe))。PCR増幅から生じる重複は、正規化及び/又は増強ステップを用いてさらに減じることができる。
【0138】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、健常コホートから採取されたCpGβ値を含み得る。β値は、(i)メチル化プローブ強度(例えば、メチル化CpGサイト強度)と(ii)メチル化プローブ強度と非メチル化プローブ強度との合計との間の比とされ得る。メチル化プローブ強度は、CpGサイト、領域、全ゲノムのメチル化状態を示し得る(例えば、メチル化サイトの百分率)。メチル化プローブ強度は、特定のCpGサイトでのメチル化断片数を特定のCpGサイトを包括する断片総数で除した比を示し得る。そして、各CpGサイトでの所与の試料についてのメチル化状態のβ値は、低メチル化断片又は高メチル化断片の断片数を表し得るのであり、各々のCpGサイトでの複数の断片のメチル化状態の百分率として表し得る。例えば、各々のCpGサイトについての参照β値は、「健常」な対照群又は参照試料におけるCpGサイトでのメチル化の百分率を数量化できる。
【0139】
各々のCpGサイトの第1の特徴は、コホートから取られたCpG M値(例えば、健常な対象のコホート、喫煙する健常な対象のコホート、喫煙しない対象のコホート、男性の対象のコホート、女性の対象のコホート、閾値となる年齢を超える対象のコホート、指定された年齢レンジ内の対象のコホート、遺伝子変異の特定のセットを有する対象のコホート、特定の人種の対象のコホート等)、健常コホート中の所定の組織タイプからから取られたCpG M値、又は検査対象から取られたCpG M値を含み得るのであり、ここで、M値はメチル化プローブ強度対非メチル化プローブ強度のlog2比として計算される。Du et al., 2010, Comparison of Beta-value and M-value methods for quantifying methylation levels by microarray analysis,” BMC Bioinformatics. 11:587, doi:10.1186/1471-2105-11-587を参照されたいのであり、参照によってこの全体が本明細書に取り込まれる。このような特徴はCpGの解決部にあることができ、
図6Jに例示されている。
図6Jに転じるに、チャンネル532-1-2の特徴が断片マッピングスコアたり得る
図6Hの場合とは異なり、チャンネル532-1-2の特徴は健常コホートから取られたCpGβ値又はM値とされ得る。さらに、
図6H及び6Iとは異なり、チャンネル532-1-2の特徴は、断片のソースとは関連付けられることはできず、むしろそれら自身のCpGサイトが考えられる。したがって、
図6Jのチャンネル532-1-2の各カラム中のチャンネル532-1-2の値は同値とされ得る。なぜならば、各カラムは参照シーケンス(参照ゲノム)中の同じCpGサイトを表すからである。換言するに、
図6Jのチャンネル532-1-2の各列は、チャンネル532-1-2によって表される参照ゲノム中の対応するCpGサイトのβ値又はM値を表す。健常コホートを用いるのではなく、特徴又は他の特徴の組合せを有している対象のコホートを用い得る(例えば、健常な対象のコホート、喫煙する健常な対象のコホート、喫煙しない対象のコホート、男性の対象のコホート、女性の対象のコホート、閾値となる年齢を超える対象のコホート、指定された年齢レンジ内の対象のコホート、遺伝子変異の特定のセットを有する対象のコホート、特定の人種の対象のコホート等)。各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、検査対象から採取されたCpGβ値を含み得る。これによって結果としてもたらされ得るのは
図6Jと酷似するのであり、ただ異なるのは、β値が、健常コホートからのものではなく検査対象の全断片に亘ってのものであることになる。
【0140】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、(コホートからの又は所与の表されている対象からの)5’及び3’近隣CpGサイトのメチル化状態についてのPearson相関スコアを含み得る。これによって結果としてもたらされ得るのは
図6Jと似ているのであり、ただ異なるのは、所与の列の値は次の事項の相関の尺度である(例えば、Pearson相関):(i)所与の列の左の列中のCpGのメチル化状態と;(ii)所与の列の右の列中のCpGのメチル化状態であって検査対象の全断片に亘ってのものであるか代替的には本明細書の他の箇所にて説明されるコホートについてである、メチル化状態。例えば、
図6Kを参照するに、チャンネル532-1-2の列610の特徴は、(
図6Jの)チャンネル532-1-1中の所与のCpGサイトに対応し得る。さらに例示するに、このCpGサイトにマップするのは10個の断片620-1, … 620-10であることができ、したがって、所与のCpGサイトの左に10個のCpG状態があり(10個の断片の各々について1つ)、また、所与のCpGサイトの右には10個のCpG状態がある(10個の断片の各々について1つ)。これらの10個の断片は対象からのものたり得る。これらの10個の断片はコホートからのものたり得る。CpGサイトについてもたらされる値はPearson相関スコアたり得るのであり、次の事項間のものとされ得る:(i)所与のCpGサイトの左にある10個のCpG状態のメチル化状態(X値);及び(ii)所与のCpGサイトの右にある10個のCpG状態のメチル化状態(Y値)。即ち、断片620-1)については(1,0)であり、断片620-2については(0,0)であり以下同様である。この例に関してPearson相関係数計算機を用いてPearson相関スコアの算出をなすと、この例でのXとYとの間のPearson相関はr(8) = 0.67, p = 0.34と表され得るのであり、ここで、(8)は10の試料を与えられて自由度が8度であることを示し、これについてのp値は0.34である。したがって、このCpGサイトに対応するチャンネル532-1-2中のパラメータ610についての列の全体は、値として.67が設定されることができ、これは
図6Kに示されている。
【0141】
5’及び3’近隣CpGサイトのメチル化状態についてのPearson相関スコアではなく、本明細書の他の箇所にて説明されているコホート又は表されている所与の対象からの特徴としては、健常コホートに対しての検査対象中の各々のCpGサイトのメチル化状態についてのJaccard類似度(或いは、Jaccardインデックス、Jaccard類似度係数、及びIntersection over Union(論理和に対して論理積))を含み得る。Jaccard類似度インデックス(或いはJaccard類似度係数)では、2つのセットの構成要素を比較して、どの構成要素が共有されており、どの構成要素が独特であるかをみる。Jaccard類似度インデックスは、2つのデータセットの類似度の尺度たり得るのであり、範囲は0%~100%とし得る。Jaccard類似度インデックスは、2つのデータセットの論理積のサイズを2つのデータセットの論理和のサイズで除したサイズとされ得る。したがって、
図6Kの例はJaccardインデックスに適用可能であるが、ただなされる計算はPearson相関ではなくJaccard類似度である。左右のCpGサイト(5’及び3’近隣CpGサイト)間のJaccard類似度やPearson相関のではなく、重複係数、単純合致係数、Sorensen-Dice係数、重み付けJaccard類似度、重み付けJaccard距離、Tanimoto類似度若しくはTanimoto距離、距離メトリック、又はTverskyインデックスを用いることができ、5’及び3’近隣CpGサイトのメチル化状態をもちいてこれらを計算でき、本明細書の他の箇所にて説明されるコホート又は所与の表されている対象からこれをなし得る。
【0142】
表1は距離メトリクスの例を提示する:
【表1】
表1に転じるに、
は2つのメチル化状態ベクトルたり得るのであり、
におけるそれぞれの各々の要素は、中央対象CpGサイト(central subject CpG site)にマッピングされるn個(nは正の整数)の断片中の1つの隣接CpGサイトのメチル化状態を「1」又は「0」として表すのであり、値たる「1」及び「0」は隣接CpGサイトの2つのあり得るメチル化状態(メチル化及び非メチル化)を表す。例えば、X
p内のそれぞれの各々の要素は、対象中央CpGサイト(subject central CpG site)にマッピングされる複数の断片(n個の断片)中の対応する断片内の5’隣接CpGサイトのメチル化状態を表し得る(can represent)のであり、一方でX
q内のそれぞれの各々の要素は、対象中央CpGサイトにマッピングされる複数の断片中の対応する断片内の3’隣接CpGサイトのメチル化状態を表す(represents)。さらに、max
i及びmin
iは、それぞれ第i番目の要素の最大値(「1」)及び最小値(「0」)たり得る。
【0143】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々の断片のp値を含み得る。各々の断片のメチル化パターンは、各々の断片と同じCpGサイトを有するコホート内のそれらの断片と比較してのチャンネル内の各々の断片のp値を計算するために用いることができる。したがって、
図18を参照するに、各々の断片1802が仮定的なメチル化パターンたる(1, 1, 0, 1, 1, 1)を擁している6個のCpGサイトを有している場合(ここで値たる「1」はメチル化を示し値たる「0」は非メチル化を示す)、「(1, 1, 0, 1, 1, 1)」との表現は、各々の断片1802のメチル化状態ベクトル1803となり得る。 この例では、各々の断片1802のメチル化パターンについてのp値は、同じ6個のCpGサイト(six CpG sites)を有するコホート内の例えば断片1804-1~1804-100等のそれらの断片のメチル化パターンとの関係で決定できる。各々の断片1802については、各々の断片のメチル化状態ベクトル1803が対照群データ1804との比較で発生するサンプル確率は、各々の断片のメチル化状態ベクトル内のCpGサイトを包括する可能性のあるメチル化状態ベクトル1806-1,1806-2,1806-3,...,1806-Mについてのサブセットに対してランダムなサンプリングをなすことによって計算できる。検査メチル化状態ベクトル1803の長さは6であるため、断片1802の6個のCpG(six CpG)を包括するメチル化状態ベクトルについては2^6通りの可能性があり得る。一般的な例を挙げるに、メチル化状態ベクトルのあり得る態様は2^n通りあり、ここでnは検査メチル化状態ベクトルの長さである。サンプリングされたあり得るメチル化状態ベクトル1806の各々に対応する確率は、断片のメチル化状態ベクトル1802及びサンプリングされたあり得るメチル化状態ベクトル1806について、例えばMarkov連鎖モデル又は他の何らかの態様のモデルを用いて、計算することができるのであり、それによって、各々の断片のメチル化パターン(メチル化状態ベクトル)1803の確率以下の確率に対応するサンプリングされたあり得るメチル化状態ベクトル1806の比率が計算される。米国特許公報第2019-0287652号を参照されたいのであり、これは参照によって取り込まれる。隣接CpGサイトの関係度合いについては何らの仮定を採用できず、したがって、p値推定のためにMarkov連鎖モデルを用い得ない。例えば、米国特許公報第2019-0287652号にて開示されたMarkov連鎖モデルを用いるよりは、統計的有意性を測定するための任意の手法を採り得るのであり、非限定的に例示すれば、モーメント生成関数、組合せ法、指数族、漸近近似、ガウス近似、ポアソン近似、及び大偏差近似を挙げられよう。そして、この計算された割合に基づいて、各々の断片1802のメチル化パターン1803についての推定p値スコアを計算することができる。本明細書の他の箇所にて説明されているように、このp値は、各々の断片1802のメチル化状態ベクトル1803又は断片1804の採取元たるコホート(1つ以上の共通特徴を有する対象のコホート)内にてより生じにくい他のメチル化状態ベクトルを観測する確率を表し得る。このように、低いp値スコアは、コホート内にて希であり且つコホートとの相対的関係で異常にメチル化されていると断片がラベル付けされることを惹起するメチル化状態ベクトルに、一般的に対応し得る。断片1804が健常対象のコホートから取られる場合、断片1802についての高いp値スコアは、相対的な意味で健常対象にて存在していることが期待されるメチル化状態ベクトル1803に、一般的に関連し得る。例えば、断片1804の採取元たるコホートが非癌群である場合、メチル化状態ベクトル1803についての低いp値は、各々の断片1802がコホートとの相対的関係では異常にメチル化されていることが示唆され得るのであり、よって、断片1802の採取元たる対象内にて癌が存在することについて可能性として指示的となり得る。
【0144】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々のCpGサイトが載っている各々の断片の長さを含み得る。例えば、
図6Lでは、断片602は長さが62の剰余部となり得るのであり、断片606は長さが98の剰余部となり得る。この場合、断片602,606についてのチャンネル532-1-2内の対応するパラメータについては図示のように投入できそれぞれ値として62及び98を伴う。
【0145】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、断片シーケンス源を含み得る。例えば、断片シーケンス源は、対象のシーケンスリードに関して生検された臓器を示し得る。臓器に関しては、次のようにしてルックアップテーブルに符号化しておくことができる:「1」=脳、「2」=胃、「3」=乳房、「4」=肺、「5」=血液等。所与の検査対象についての全断片がおそらくは同じ臓器又は源泉からのものであると思われる故に、
図6Mが例示しているのは、血液由来の断片602,606がチャンネル532-1-2に符号化されている場合である。源泉たる臓器について符号化をなさずとも、断片シーケンス源は、シーケンスを取得するために用いられたシーケンシングタイプを指定できるのであり、例えば、「1」は標的ペア端シーケンシングを示し、「2」は標的単一端シーケンシングを示し、「3」はペア端全ゲノムシーケンシングを示し、「4」は単一端全ゲノムシーケンシング等を示す。チャンネル532-1-2の第1の特徴は、シーケンスリードが増幅及びシーケンスされた具体的方法について示し得るのであり、ルックアップテーブルを用いて様々な異なる可能性を追跡できるのであり、例えば、「1」=5’トランスクリプトームキット、「2」=3’トランスクリプトームキット等。
【0146】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々の断片の断片マッピング品質スコアを含み得る。断片マッピング品質スコアは、Ewingらの手法を用いて計算できる(Ewing and Green, 1998, “Base-calling of automated sequencer traces using phred. ii. Error probabilities," Genome Res. 8: 186-194.)。
図6Lはこのような割り当てを例示し得るのであり、個々で断片606はマッピング品質が98であり、断片602はマッピング品質が62である。複数のシーケンスリードが断片に寄与する場合(例えば、断片が1より大なる多重度を有する場合)、断片マッピング品質スコアは複数のシーケンスリードのマッピング品質スコアの平均とすることができる。
【0147】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、参照ゲノム中の5'隣接CpGサイトへの距離(例えば、ヌクレオチドの個数)(又は3'隣接CpGサイトへの距離)を含み得る。
図6Nでは、チャンネル532-1-2の特徴は、所与のCpGがその最近近隣(nearest neighbor)CpGサイトとの間に有している5'距離(5’ distance)(又は3'隣接(3’ adjacent)CpGサイトへの距離)とすることができる。さらに、
図6H及び6Iとは異なり、
図6Nのチャンネル532-1-2の特徴は、断片のソースとは関連付けられることはできず、むしろそれら自身のCpGサイトが考えられる。したがって、
図6Nのチャンネル532-1-2の各カラム中のチャンネル532-1-2の値は同値とされ得る。なぜならば、各カラムは参照シーケンス(参照ゲノム)中の同じCpGサイトを表すからである。
図6Nのチャンネル532-1-2の各カラム中は、所与のCpGがその最近近隣CpGサイトとの間に有している5'距離(又は3'隣接CpGサイトへの距離)を表し得る。距離は、線形ヌクレオチド尺度、対数ヌクレオチド尺度、又は何らかの他の関数によるヌクレオチド尺度とされ得る。
【0148】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々のCpGサイトが入っている遺伝的要素を含み得る。このような遺伝的要素の例としては、次の事項が含まれ得るがこれらには限定されはしない:プロモータ/エンハンサ領域、エクソン、イントロン、ヒストン修飾マーク、CpGアイランド/ショア/シェルフ、進化的保存サイト、転写因子結合サイト、制限サイト、クロスオーバホットスポット誘導サイト、ポリアデニル化信号等。遺伝的要素は次のようにしてルックアップテーブルに符号化されていることができる:「1」=エクソン、「2」=イントロン、「3」=制限サイト等。
【0149】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々のCpGサイトと関連付けられている生物学的経路(1つ以上の遺伝子によって惹起され得るような、又は、1つ以上の遺伝子によって惹起され得る生物学的機能によって惹起され得るような、細胞内分子間での複数の相互作用)を含み得る。第1の特徴は、対象たるCpGサイトを含む各々の断片の生物学的経路を含み得る。したがって、所与の生物学的経路(biological pathway)が10個の遺伝子によって惹起される1つ以上の生物学的機能(biological function)を含むのであり、且つ各々の断片がこれらの遺伝子の1つにマッピングされる場合、第1の特徴は、所与の生物学的経路とされ得る。生物学的経路は、ルックアップテーブルに符号化されていることができる。したがって、
図6Iの断片606は、生物学的経路「4」としてルックアップテーブル中にて符号化されている生物学的経路にマッピングされ、また、断片602は生物学的経路「1」としてルックアップテーブル中にて符号化されている生物学的経路にマッピングされることができる。生物学的経路の例は、Fabregat et al. 2018 PMID: 29145629, and Kanehisa and Goto, 2000, “KEGG: Kyoto Encyclopedia of Genes and Genomes,” Nucleic Acids Res. 28(1), pp. 27-30にて見出され得るのであり、その各々は参照によって取り込まれる。
【0150】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々のCpGサイトと関連付けられている遺伝子を含み得る。より具体的には、第1の特徴は、対象とされるCpGサイトを含む各々のCpGサイトがマッピングされる遺伝子とされ得る。遺伝子は、ルックアップテーブルに符号化されていることができる。したがって、
図6Iの断片606は、遺伝子「4」としてルックアップテーブル中にて符号化されている遺伝子(gene)にマッピングされ、また、断片602は遺伝子「1」としてルックアップテーブル中にて符号化されている生物学的事項(biological)にマッピングされることができる。各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々のCpGサイトについてのCpG遷移インパルス関数の値を含み得る。各々のCpGサイトの第1の特徴は、CpGサイトがCpGアイランドの一部であるかの決定を含み得る。CpGサイトがアイランドの一部であるかの決定及びそのような計算がインパルス関数に近づく事例に関しては、Yu et al., 2017, “GaussianCpG: a Gaussian model for detection of CpG island in human genome sequences,” BMC Genomics 18(4), p. 392を参照されたいのであり、これは参照によって取り込まれる。各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々のCpGサイトについてのCpGラン長符号化の値を含み得る。Chen et al., 2018, “Conflict of CpG density and DNA methylation are proximally and distally involved in gene regulation in human and mouse tissues,” Epgenetics 13(7), pp. 721-741を参照されたいのであり、これは参照によって取り込まれる。各々のCpGサイトの第1の特徴は、次の事項を含み得る:CpGサイトがギャップ抵触(COG、Conflicts of Gap)領域にあるか否か;CpGサイトが重複抵触(COO、Conflict of Overlap)領域にあるか否;CpGサイトが中間値調和(HMV、Harmony with Medium Value)領域にあるか否;又はCpGサイトが極値調和(HEV、Harmony with Extreme Value)領域にあるか否。この点に関しては、前掲Chenらを参照されたい。
【0151】
各々のCpGサイトの第1の特徴(例えば、チャンネル532-1-2の特徴)は、各々のCpGサイトが載っている断片のリード(read)ストランド配向を含み得る。ソース断片(source fragment)は、リードストランド配向として、R1 (5’-to-3’)、R2 (3’-to-5’)、両方を有し得る。R1は「1」によって表され得るのであり、R2は「2」によって表され得るのであり、両方は「0」によって表され得る。断片のリードストランド配向は、5'の方向又は3'の方向とされ得る。断片シーケンスソース(fragment sequence source)は、順方向又は逆方向とされ得る。
【0152】
各々のCpGサイトの第1の特徴は、各々のCpGサイトに整列するそれぞれの各々の断片についての断片毎のエントロピー(per fragment entropy)、又は、各々のCpGサイトを含む固定長領域の領域横断エントロピー(across-region entropy)を含み得るのであり、領域横断エントロピーは固定長領域を一群として重複する観測された全メチル化状態に亘って計算される。各々のCpGサイトの第1の特徴は、各々のCpGサイトについてのCpGサイト毎(per-CpG site)のエントロピーを含み得るのであり、サイト毎(per-site)のエントロピーは各々のCpGサイトに対応するパラメータにあたる全インスタンスに亘って計算される。正規化メチル化エントロピー値の計算方法は、Jenkinson et al., 2017, “Potential energy landscapes identify the information-theoretic nature of the epigenome,” Nat. Genet. 49(5), pp. 719-729に開示されており、参照によってこれは取り込まれる。
【0153】
各々のCpGサイトの第1の特徴は、各々の断片のメチル化密度を含み得る。メチル化密度(methylation density)は、次式によって求められる:
【数1】
ここで、β-value
expected healthy methylation(β-値
予想された健常メチル化)は健常コホート中のCpGサイトについてのβ値であり、β-value
observed fragment methylation(β-値
観測された断片メチル化)は各々のCpGサイトについて検査対象にて観測されたβ値である。
近隣CpGサイト(例えば、参照ゲノム中の5'隣接又は3'隣接CpGサイト)への距離(断片塩基対(bp)距離(fragment base pair distance))は、参照ゲノム中で5~100bpの間とし得る。近隣CpGサイトへの距離は、参照ゲノムにおいて、100~500bpの間、500~1000bpの間、1000~5000bpの間、5000~10,000bpの間、又は10,000bp以上とされ得る。各々のCpGサイトの第1の特徴は、固定長領域のメチル化密度(例えば、100bpとなるメチル化密度(methylation density))、各々のCpGサイトにての最小合計カバレッジ、又はCpG近傍(neighborhood)密度(例えば、近隣CpGサイトにてのCpG密度(CpG density))とされ得るのであり、固定長領域を備えるスライディング窓(例えば、200bpのスライディング窓)を用いてスライディング窓中のCpGサイト個数を決定できる。各々のCpGサイトの第1の特徴はメチル化重み付け密度(methylation-weighted density)を含み得るのであり、メチル化CpGサイトの個数は固定長領域(例えば、断片又はスライディング窓)について決定される。スライディング窓については、明細書の他の箇所にて説明されている。CpGメチル化密度の計算についての追加の方法はZhang et al., 2008 “A novel method to quantify local CpG methylation density by regional methylation elongation assay on microarray,” BMC Genomics 9(59), doi:10.1186/1471-2164-9-59に開示されており、これは参照によって取り込まれる。
【0154】
各々のCpGサイトの第1の特徴は次の事項を含み得る:ゲノム参照位置、各々のCpGサイトに整列する第1の複数のパラメータのインスタンス内の断片の開始若しくは終了位置、各々のCpGサイトが所在する各々の断片の長さ、各々のCpGサイトが所在する各々の断片内の反復回数、各々のCpGサイトが所在する各々の断片の5’クリップ済み状態。
【0155】
各々のCpGサイトの第1の特徴は、各々のCpGサイトについての癌関連付けパラメータを含みうる。癌関連付けパラメータは、癌と関連付けられている任意の情報を含み得る。癌関連付けパラメータは、差分メチル化情報、遺伝子発現データ(例えば、メチル化マイクロアレイ、遺伝子発現マイクロアレイ及び/又はRNAアレイ若しくはRNAシーケンシング)、及び/又はゲノム解析を用いて決定され得る。癌関連付けパラメータは、モデル生命体結果(例えば、イーストやマウス等の研究用生命体のグループに基づいてヒト生物学の知見を得るための研究)を用いて決定され得る。各々のCpGサイトの第1の特徴は、参照データベース等の外部データ源から取得又は計算することができる(例えば、癌ゲノムアトラスプログラム(TCGA、the Cancer Genome Atlas)、UCSCゲノムブラウザ、及び/又はマウス腫瘍生物学システム(MTB、Mouse Tumor Biology))。
【0156】
各々のCpGサイトの第1の特徴は、組織又は試料レベル特徴を含み得るのであり、原発組織、原発臓器、及び/又はレプリケイトを含むがこれらには限定されない(例えば、バッチ効果について識別又は調整するため及び/又は縦方向パターンを検出するため)。各々のCpGサイトの第1の特徴は、対象レベル又はコホートレベルの生物学的先行事項を含み得るのであり、喫煙者/非喫煙者、年齢層、及び/又は性別を含むがこれらには限定されない。第1の特徴は、上述されていないが断片メチル化パターンに関して生物学的、構造的、又は技術的文脈を提供する、CpGサイトレベル、断片レベル、試料レベル、組織レベル、対象レベル又はコホートレベルの任意の属性を含み得る。
【0157】
複数のチャンネルは少なくとも3つのチャンネルを含み得る。第1の複数のチャンネル中の第3のチャンネルは、第1の複数のパラメータの各インスタンスについて、第3の複数のパラメータの対応するインスタンスを含み得るのであり、第3の複数パラメータの各インスタンスは、CpGサイトの第1の独立セット中の各々のCpGサイトの第2の特徴についてのパラメータを含む。第2の特徴は、第1の特徴以外のものとされ得るも、本開示にて説明された第1の特徴の任意のものを含み得る。
【0158】
図6Aは、第3のチャンネル532-1-3及び第4のチャンネル532-1-4を含む複数のチャンネルの例を示すのであり、各々はそれぞれ第2の特徴及び第3の特徴を備える。
図6Aに示されるように、第3のチャンネルは複数のM個のインスタンスを含み得るのであり、各インスタンスは、第1のパッチ530-1のL個のCpGサイト536-1-1の第1の独立セットに対応する複数のパラメータを備える。そして、第1のパッチ530-1の第3のチャンネル532-1-3中の複数のインスタンス中の第Mインスタンスに関して、複数のパラメータは、538-1-3-M-1, 538-1-3-M-2, 538-1-3-M-3, 538-1-3-M-4, 538-1-3-M-Lと表示され得る。同様に、第4のチャンネルは複数のM個のインスタンスを含み得るのであり、各インスタンスは、第1のパッチ530-1のL個のCpGサイト536-1-1の第1の独立セットに対応する複数のパラメータを備える。そして、第1のパッチ530-1の第4のチャンネル532-1-4中の複数のインスタンス中の第Mインスタンスに関して、複数のパラメータは、538-1-4-M-1, 538-1-4-M-2, 538-1-4-M-3, 538-1-4-M-4, 538-1-4-M-Lと表示され得る。ここで、第2及び第3の特徴は、第1の特徴以外のものとされ得るも、本開示にて説明された第1の特徴の任意のものを含み得る。
【0159】
第1のパッチ530内の複数のチャンネルは、少なくとも3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20,又はそれ以上のチャンネル532を含み得る。一部の実施形態では、第1のパッチ内の複数のチャンネルは多くとも20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5又はそれ以下のチャンネル532を含み得る。第1のパッチ530内の複数のチャンネル内の各チャンネル532は、異なる特徴を含み得る。第1のパッチ530内の複数のチャンネル内の2つ以上のチャンネルは、同じ特徴を含み得る。第2の特徴は、第1の特徴に関して上述した任意の1つ以上の特徴とされ得る。第1のパッチ530内の少なくとも3つのチャンネルのうちの1つ以上は、第1の特徴に関して上述した任意の1つ以上の特徴とされ得る。
図6Bは、6個のチャンネルを有する第1のパッチ530-1についての例を示す(例えば、メチル化状態、β対照(例えば、対照群又は健常サンプルのβ値)、βサンプル(例えば、訓練又は検査サンプルのβ値)、p値、多重度、及び先行事項(例えば、プロモータ/エンハンサ領域、エクソン、イントロン、ヒストン修飾マーク、CpGアイランド、進化的保存、転写因子結合サイトと関連付けられている生物学的先行事項))。各チャンネルはランク3のアレイ(例えば、4つの平面を有するアレイであって各平面は3行及び5列を有する)として表されていることができ、第1のパッチ内にて深度方向にスタックされることができる。
【0160】
CpGサイトの第1の独立セット内の各々のCpGサイトに共通する特徴は、第1のパッチの各々のチャンネルを表す結果としてもたらされる2次元マトリックス内にて、列の全部又は一部に適用され得る。例えば、各々の試料内の各々のCpGサイトについてのβ値は、試料内のCpGサイトに整列する複数の断片を用いて計算でき、また、各々の参照内の各々のCpGサイトについてのβ値は、参照内のCpGサイトに整列する複数の断片を用いて計算できる。その結果、
図6Nに示されるように、2次元マトリックスは「バーコード的」様相を呈するのであり、第1のパッチ内の各々のチャンネルの各々の列の全部又は一部に同じ値を投入できる。各々のCpGサイトについて一定値を有する特徴については、バーコード様画像を取得でき、これには他のもの有るが次のものが含まれるもこれらには限られない:隣接CpGサイトへの5'距離、隣接CpGサイトへの3'距離、癌関連付けパラメータ、参照M値、及び/又は試料M値。
【0161】
図6Lに示されるように、CpGサイトの第1の独立セットの各々の断片若しくは領域に共通する特徴は、第1のパッチ530の各々のチャンネル532を表す結果としてもたらされる2次元マトリックス内にて、インスタンス(例えば、行)の全部又は一部に適用され得る。例えば、他のものもあるも、断片シーケンス源、断片マッピング品質スコア、断片p値、断片多重度、断片位置、及び/又は断片長に関しては、各々のインスタンスに同じ値を投入できる。各々の試料、対照、又はコホートに共通の特徴は、第1のパッチのチャンネル全体に適用される単一の値を含み得るのであり、CpGサイトの第1の独立セット内の複数の断片又は複数のCpGサイトに特有の特徴は不問とされる。例えば、試料レベル、対象レベル、又はコホートレベルの生物学的先行事項(他のもの有るが喫煙者/非喫煙者、年齢層、及び/又は性別を含むがこれらには限定されない)については、同じ値を第1のパッチの各々のチャンネルに適用できる。
【0162】
方法800のステップ806は、少なくとも第1のパッチを分類器に適用してそれによって検査対象にての癌状態を決定するステップを含み得る。分類器は、癌対非癌及び/又は原発組織について予測することができる。分類器は、癌/非癌/情報性無し、原発組織、原発臓器、癌タイプ、及び/又は癌ステージについて判別するマルチクラス予測をなし得る。
【0163】
図3は、幾つかの実施形態による、p値によってフィルタリングされた複数の断片が分類器に適用される例示的ワークフローについて例示する。また、
図3は、分類が行われて、癌対非癌及び/又は原発組織について判別がなされる例について概説する。このような分類は、2値的分類又はマルチクラスTOO分類たり得る。2値的分類は、癌/非癌を判別するために行われ得る。マルチクラス分類又は任意の分類器は、癌タイプ又はサブタイプを非癌試料から判別するために実行できるのであり、例えば、heme、非情報的な試料、交絡条件、又は他の未分類試料が含まれる。2値的な癌/非癌分類がなされる場合、分類器を一般的な試料母集団に適用するに際しては、特異度が0.99或いは99%又はそれ以上とされるカットオフ閾値を用い得る。カットオフ特異度閾値は、70%, 80%, 85%, 90%, 95%, 98%, 99%,又は99.5%より高いものとされ得る。一部の実施形態では、カットオフ特異度閾値は、高くとも99.5%, 99%, 98%, 95%, 90%又はそれ以下とされ得る。マルチクラスTOO分類を行って、2-5, 5-10, 10-15, 15-20, 20-30又は30以上の異なる癌タイプ及び/又はサブタイプの間で判別をなし得る。分類器を適用して、肛門直腸癌、膀胱癌、乳癌、子宮頸癌、結腸直腸癌、頭部及び頸部癌、肝胆癌、子宮内膜癌、腎臓癌、白血病、肝臓癌、肺癌、リンパ系腫瘍、メラノーマ、多発性骨髄腫、骨髄腫瘍、卵巣癌、非ホジキンリンパ腫、膵臓癌、前立腺癌、腎癌、甲状腺癌、上部胃腸癌、尿路上皮癌のステージ、又は子宮癌を予測できる。1つ以上の癌は「高信号」癌(5年の癌特有死亡率が50%より高い癌として定義される)とされ得るのであり、例えば、肛門直腸癌、結腸直腸癌、食道癌、頭部及び頸部癌、肝胆癌、肺癌、卵巣癌、及び膵臓癌が含まれ、リンパ腫及び多発性骨髄腫も含まれる。高信号癌は、より攻撃性が高くなり得るのであり、また、患者から取得された検査試料内の無細胞核酸濃度が平均を超過し得る。「高信号癌」は、低信号癌群(例えば、子宮癌、甲状腺癌、前立腺癌、及びホルモン受容体陽性のステージI/IIの乳癌)に該当しない癌を指し得る。
【0164】
複数パッチアーキテクチャ
方法は、対応する第1のチャンネルを含む第2のパッチを構築するステップをさらに含み得る。この第2のパッチは、前記種の前記参照ゲノム中の、CpGサイトの第2の独立セットを表し得る。CpGサイトの前記第2の独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。前記第2のパッチの前記対応する第1のチャンネルは、第1の複数のパラメータについての対応する複数のインスタンスを含み得る。前記第2のパッチの前記第1のチャンネルの前記対応する第1の複数パラメータの各インスタンスは、前記第2のパッチについてのCpGサイトの前記第2の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み得る。開示のシステム及び方法は、CpGサイトの第2の独立セットに整列した複数の断片中のそれぞれの各々の断片について、各々の断片のメチル化パターンに基づいて、第2のパッチの第1の複数のパラメータの全部又は一部のインスタンスに投入して、それによって第2のパッチを構築することができる。上述した第1のパッチを分類器に適用することは、第1及び第2の両パッチを分類器に適用して、それによって検査対象にての癌状態を決定することを含み得る。本開示の一部の実施形態は、3個以上のパッチ、4個以上のパッチ、10個以上のパッチ、100個以上のパッチ、又は50個から1000個のパッチを活用でき、それぞれは独自のCpGサイトのセットを有し、また、それぞれが分類器に適用される。
【0165】
第2のパッチは、対応する第1のチャンネルを含む対応する複数のチャンネルを含み得る。また、第2のパッチの対応する複数のチャンネル中の対応する第2のチャンネルは、第1の複数のパラメータの各インスタンスについて、第2の複数のパラメータの対応するインスタンスを含み得るのであり、第2の複数パラメータの対応するインスタンスを含み得るのであり、第2のパッチの第2の複数パラメータの各インスタンスは、第2のパッチについてのCpGサイトの第2の独立セット中の各々のCpGサイトのCPGのメチル化の様子以外の第1の特徴についてのパラメータを含む。開示のシステム及び方法は、CpGサイトの第2の独立セットに整列した複数の断片中のそれぞれの各々の断片について、各々の断片のメチル化パターンに基づいて、第2のパッチの第2の複数のパラメータのインスタンスの全部又は一部にさらに投入できる。
図7A及び7Bは、幾つかの実施形態による、第1のパッチ530-1及び第2のパッチ530-2を含む複数のパッチを有する例示的アーキテクチャについて示す。CpGサイトの第1及び第2の独立セットは、それぞれ、CpGサイト1~L1及びCpGサイト1~L2を含み得る。各パッチは複数のチャンネルを含み得る。
【0166】
CpGサイトの第1の独立セットは、CpGサイトの第2の独立セットと重複しているかもしれないし重複していないかもしれない。第1のパッチは、第2のパッチとは同等のサイズではあるが参照ゲノムの異なる部分を表し得る。第1のパッチは参照ゲノムの第1の部分を表し得るのであり、また、第2のパッチは参照ゲノムの第2の部分を表し、第1の部分のサイズは第2の部分のサイズと異なる。例えば、第1及び第2の部部分のヌクレオチドにおける実際のサイズは、異なり得る。CpGサイトの第1の独立セットは第1の個数のCpGサイトを備え得るのであり、CpGサイトの第2の独立セットは第2の個数のCpGサイトを備え得るのであり、CpGサイトについての第1の個数はCpGサイトについての第2の個数と同一とされ得る。一部の実施形態では、CpGサイトの第1の独立セットは第1の個数のCpGサイトを備え得るのであり、CpGサイトの第2の独立セットは第2の個数のCpGサイトを備え得るのであり、CpGサイトについての第1の個数はCpGサイトについての第2の個数と異なるものとされ得る。
【0167】
第1のパッチは第1の個数のチャンネルを備え得るのであり、第2のパッチは第2の個数のチャンネルを備え得るのであり、第1のチャンネル個数と第2のチャンネル個数とは同一又は非同一とされ得る。第1のパッチは第1の複数の特徴を有する第1の個数のチャンネルを備え得るのであり、第2のパッチは第2の複数の特徴を有する第2の個数のチャンネルを備え得るのであり、第1の複数の特徴は第2の複数の特徴と重複できるが重複しないこともできる。
【0168】
開示のシステム及び方法は、複数のパッチを構築するための命令を更に含み得る。
図7Aは、一部の実施形態による、K個のパッチの例について示すのであり、これには、第1のパッチ530-1、第2のパッチ530-2、及び第Kのパッチ530-Kが含まれるのであり、ここで、Kは正の整数(例えば、2~10,000)であり、また、各パッチはCpGサイト536の独立セットを含み得るのであり、また、パッチ530-KはCpGサイト1~CpGサイトL(K)を含むCpGサイトの第Kの独立セットを含む。複数のパッチ(K)は、1~10個のパッチ、10~20個のパッチ、20~50個のパッチ、50~100個のパッチ、100~500個のパッチ、500~1000個のパッチ、1000~5000個のパッチ、5000~10,000個のパッチ、又は10,000個以上のパッチとされ得る。
【0169】
複数のパッチ内の構築済みパッチの個数は、分類器に含めるべきCpGサイトのパネル内のCpGサイトの個数によって、決定され得る。CpGサイトのパネルは、ヒトゲノムのメチローム全体を含み得る。したがって、複数のパッチにわたって含まれるCpGサイトの個数は、約2,800万となり得る。複数のパッチにわたって含まれるCpGサイトの個数は、1~10,000個、10,000~100,000個、100,000~500,000個、500,000~100万個、100万~150万個、150万~500万個、500万~1,000万個、1,000万~2,000万個、2,000万個以上とされ得る。複数のパッチにわたって含まれるCpGサイトの個数は150万とされ得るのであり、複数のパッチは5000パッチを含み得るのであり、また、それぞれの各々のパッチはCpGサイトの独立セット内で300個のCpGサイトを含み得る。複数のパッチにわたって含まれるCpGサイトの個数は150万とされ得るのであり、複数のパッチは2000パッチを含み得るのであり、また、それぞれの各々のパッチはCpGサイトの独立セット内で750個のCpGサイトを含み得る。複数のパッチにわたって含まれるCpGサイトの個数は150万とされ得るのであり、複数のパッチは1000パッチを含み得るのであり、また、それぞれの各々のパッチはCpGサイトの独立セット内で1500個のCpGサイトを含み得る。分類器に含めるべきCpGサイトのパネルは、冗長CpGサイトを含み得る。
【0170】
複数のパッチ内の構築済みパッチの個数は、それぞれの各々のパッチ内のCpGサイトの独立セット内のCpGサイトの個数と、それぞれの各々のパッチについての複数のインスタンス内のインスタンス数と、それぞれの各々のパッチについての複数のチャンネル中のチャンネルの個数との相対的関係での分類器の演算処理容量によって決定され得る。例を挙げるに、分類器はVGG11型のCNNを含み得るのであり、複数のパッチ内の構築済みパッチの個数は1000~2000とされ得るのであり、それぞれの各々のパッチについてのCpGサイトの独立セット内のCpGサイトの個数は256とされ得るのであり、それぞれの各々のパッチについての複数のインスタンス内のインスタンス数は128とされ得るのであり(例えば、リード深度は128個の断片)、それぞれの各々のパッチについての複数のチャンネル中のチャンネル個数は7とされ得る。分類器は残部ネットワーク(例えば、ResNet)の画像分類器を含み得るのであり、それぞれの各々のパッチ用のCpGサイトの独立セット内のCpGサイトの個数は1000とされ得る。
【0171】
実施例8で説明されているように、ハイパーパラメータの精緻化によって、複数のパッチ内の構築済みパッチの個数、CpGサイトの独立セット内のCpGサイト個数、複数のインスタンス内のインスタンス数、及び複数のチャンネル中のチャンネル数を定義付け及び/又は精緻化できる。複数のパッチにわたって含まれるCpGサイトの個数は、既存の標的メチル化シーケンシング方法を用いることによって決定でき、或いは、実験的目標に基づいて実務家によって選択され得る。したがって、複数のパッチにわたって含まれるべきCpGサイトのパネルについては、高度の情報含有性を有している及び/又は高度な判別的価値を有しているパネルサブ領域を識別することによってさらに厳選できる。
【0172】
パッチ設計
方法は、前記第1のパッチのCpGサイトの前記第1の独立セットを選択するステップであって、複数の臨床的対象を備える臨床的コホートから取得された複数の臨床的生物試料の複数の臨床的核酸試料から取得された複数の臨床的断片のメチル化シーケンシングによって決定された複数のCpGメチル化パターンの評価を介してなされる、ステップをさらに含み得る。前記複数の臨床的対象は、前記癌状態に関する第1の兆候を有する臨床的対象についての第1のセットと前記癌状態に関する第2の兆候を有する臨床的対象についての第2のセットとを含み得る。臨床的コホートから取得された複数の臨床的生物試料の複数の臨床的核酸試料は、研究設計から取得され得る(例えば、TGCAやCCGA)。癌状態についての兆候には、「癌対癌無し」が含まれ得る。癌状態についての兆候には、原発腫瘍(tumor of origin)(例えば、「脳対肺」)が含まれ得る。癌状態についての兆候には任意の癌関連情報が含まれ得るのであり、癌のステージ、癌確率等が含まれるもこれらには限定されはしな。
【0173】
CpGサイトの第1の独立セットを選択することは、臨床的対象についての第1のセットと臨床的対象についての第2のセットとの間での複数のCpGサイト中の各CpGサイトのメチル化状態についての各々の第1の相互情報スコア(例えば、2つの疾患状態の間での判別をするに際しての特徴の情報含有量の尺度を表す数学的な値)に基づいて、複数のCpGサイトの参照ゲノム内での第1の順位を決定することを含み得る。第1のパッチについてのCpGサイトの対応する独立セットについてのCpGサイトの第1の閾値個数を、順位を用いて選択できる。したがって、相互情報はサイト毎の態様で評価でき、相互情報は、所与のCpGサイトにてのペア毎での比較のために第1クラス対第2クラスの関係での確率マスを識別する単一のバリューメトリックとされ得る。例えば、相互情報スコアは、それぞれの各々のCpGサイトについて、複数の臨床的な生物試料中の臨床的対照のそれぞれの各々のペア間でのペア毎の比較全てに関して、計算できる。高い相互情報スコアは、各々のCpGサイトにてのペア組みされた対象間での高いレベルの判別を示し得る。例えば、上位100、上位1000又は上位2000の相互情報スコアに対応するCpGサイトを選択でき、残余のCpGサイトは選択しない。相互情報スコアが0.25, 0.30, 0.35, 0.40, 0.45, 0.50, 0.55, 0.60, 0.65, 0.70, 0.75, 0.80, 0.85, 0.90, 0.95,又は0.99を超過する任意のCpGサイトを、選択し得る。
【0174】
複数の臨床的対象は、癌状態についての第3の兆候を有する臨床的対象についての第3のセットと、癌状態についての第4の兆候を有する臨床的対象についての第4のセットとを含み得るのであり、選択をなすことは、臨床的対象についての第3のセットと臨床的対象についての第4のセットとの間での複数のCpGサイト中の各CpGサイトのメチル化状態についての各々の第2の相互情報スコアに基づいて、複数のCpGサイトの参照ゲノム内での第2の順位を決定することをさらに含み得る。第1のパッチについてのCpGサイトの第1の独立セットについてのCpGサイトの第2の閾値個数を、第2の順位を用いて選択できる。それぞれの相互情報スコアは、臨床的対象についての第1のセットと臨床的対象についての第3のセットとの間で、臨床的対象についての第1のセットと臨床的対象についての第4のセットとの間で、臨床的対象についての第2のセットと臨床的対象についての第3のセットとの間で、及び/又は臨床的対象についての第2のセットと臨床的対象についての第4のセットとの間で、計算できる。複数の臨床的対象は、5個以上、10個以上、50個以上、100個以上、500個以上、1000個以上、2000個以上、5000個以上、10,000個以上、又は20,000個以上の臨床的対象のセットを含み得るのであり、臨床的対象の各セットは、癌状態についての対応する兆候を有する。
【0175】
第1又は第2の相互情報スコアに基づいての参照ゲノム中での複数のCpGサイトのランク付けは、最高から最低の相互情報スコアへと向かってCpGサイトをランク付けすることによってなし得る。第1のパッチについてのCpGサイトの第1の独立セットについてのCpGサイトの第1及び/又は第2の閾値個数を、複数のCpGサイトについてのトップランクの相互情報スコアを用いて選択できる(例えば、比較にて用いられる癌状態を問わずに最高の相互情報スコアを有するCpGサイト)。第1のパッチについてのCpGサイトの第1の独立セットについてのCpGサイトの第1及び/又は第2の閾値個数を、相互情報スコアが計算されたそれぞれの各々の臨床的対象ペアのトップランク相互情報スコアから、選択できる(例えば、最高の相互情報スコアを有するCpGサイトであって、全てのペア毎の比較は選択されたCpGサイトのセットで表されていること)。トップ1000の高位相互情報CpGサイト(top 1000 high mutual information CpG sites)は、複数のペア毎の比較におけるそれぞれの各々の臨床的対象ペアについて、相互情報スコア(mutual information score)のランキングに基づいて、選択できる。各々のCpGサイトについての相互情報スコアは、臨床的対象についてのペア毎での複数の比較に関して、弁別的と看做し得る。
【0176】
最高のランキングの相互情報スコアを伴う複数のCpGサイトは、第1のパッチのCpGサイトの第1の独立セットとして選択され得るのであり、CpGサイトの第1の独立セットは、第1のパッチ内において最高から最低の相互情報スコアへと向かう順序にて、配列され得る。CpGサイトの第1の独立セットは、第1のパッチ内において最低から最高の相互情報スコアへと向かう順序にて、配列され得る。パッチは、トップランクの相互情報スコアを伴う256個のCpGサイトを含み得る。構築することは、第1のパッチに割り当てられた各々の断片を、それらの第1の相互情報スコアに基づいて、ソートすることをさらに含み得る。例えば、第1のパッチの構築前に、断片は、それらの相互情報スコアに基づいてランク付けでき、また、第1のパッチのインスタンス内へとそれらの相互情報スコアの順序で投入できる(例えば、降順、又は昇順)。
【0177】
癌状態についての第1の兆候は第1の癌タイプとされ得るのであり、また、癌状態についての第2の兆候は第2の癌タイプとされ得る。第1の癌タイプ又は第2の癌タイプは、本明細書の他の箇所にて説明された任意の癌とされ得る。そして、臨床的対象間でのペア毎での複数の比較は、任意の2つの癌タイプの間での任意の可能なペア毎での比較を含み得る(例えば、乳癌対肺癌)。
【0178】
第1のパッチのCpGサイトの第1の独立セットについてのCpGサイトの第1の閾値個数中のそれぞれの各々のCpGサイトに関しては、CpGサイトの第1の閾値個の中のあらゆる他のCpGサイトから参照ゲノム内において閾値個の剰余部をもってパディングがなされ得る。例えば、パッチ内に含められるためには、各CpGサイトは、少なくとも10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200,又は300個の剰余部によってパディングされ得る。CpGサイトの第1の独立セットの選択は、パッチ設計用に取り置かれている複数の臨床的生物試料からの複数の臨床的核酸試料を用いてなされ得る(例えば、参照データベース、又は予備研究)。例えば、試料についての第1のセットを用いてパッチ設計用の興味対象とされるCpGサイトを選択でき、また、試料についての第2のセットを用いて各々のパッチの各々のインスタンスに分類のために投入をなし得る。
【0179】
方法のCpGを選択するステップは、臨床的対象についての第1のセットと臨床的対象についての第2のセットとの間での複数の固定長領域中の各固定長領域のCpGサイトメチル化パターンのメチル化状態についての各々の第1の相互情報スコアに基づいて、参照ゲノム内での複数の固定長領域の第1の順位を決定するステップをさらに含み得る。そして、第1の順位を用いて、第1のパッチのCpGサイトの第1の独立セットについてのCpGサイトの第1の閾値個数を、複数の固定長領域中のそれらの固定長領域から、選択できる。したがって、高い相互情報スコアは、固定長領域にてのペア組みされた対象間での高いレベルの弁別力を示し得る。固定長領域についての相互情報スコアは、混合モデルを用いて計算され得る。「モデルベースドな特徴化及び分類」と題する米国特許広報第2020-0365229号を参照されたいのであり、これは参照によって取り込まれる。混合モデルは、全体母集団内にての部分母集団の存在を表す統計的モデルとされ得る。固定長領域は、外部データベース又はプローブの参照パネルを用いて取得できる(例えば、標的シーケンシング解析にて複数のプローブを用いて取得された領域を選択して、興味対象たるCpGサイトの取得元とすべき興味対象たる領域を識別する)。固定長領域は、ゲノム全体に亘って又は参照パネルに亘ってスライドして行く固定長「スライディング窓」を用いて取得できる。
【0180】
例えば、CpGサイトの第1の独立セットはスライディング窓(例えば、100, 200, 300, 400, 500, 600, 700, 800, 900, 1000,又は2000塩基対(bp)の窓)によって選択できるのであり、これはゲノミック領域に亘ってスライドするのであり(例えば、標的シーケンシング解析のプローブに対応するゲノミック領域)、2つの臨床的対象から取得された2つの臨床的生物試料の間でのペア毎の比較を伴ってなされる。スライディング窓の各フレームに関して相互情報スコアを計算できるのであり、スライディング窓の各々のフレーム内のCpGサイトの統計的モデル(例えば、混合モデル)を用いてこれをなし得る。相互情報スコアは、スライディング窓の各々のフレーム内の各々の領域での、第1の癌状態対第2の癌状態についてのメチル化パターンの確率を表し得るのであり、したがって、各々の領域の弁別力がこれにて示される。相互情報スコアは、同様に、スライディング窓の各フレーム内の各領域についてそれが選択されたゲノミック領域に亘って進行していくに従って計算できる。
【0181】
スライディング窓の長さは10bp未満、10~50bp、50~100bp、100~200bp、200~500bp、500~1000bp、1000~2000bp、2000~5000bp、又は5000bp超とされ得る。スライディング窓の長さは256bpとされ得る。スライディング窓の固定長領域は、5個未満のCpGサイト、5~10個のCpGサイト、10~20個のCpGサイト、20~50個のCpGサイト、50~100個のCpGサイト、100~200個のCpGサイト、200~500個のCpGサイト、又は500個より多いCpGサイトを備え得る。
【0182】
複数の固定長領域(窓)についての第1のランク付けは、固定長領域を、相互情報スコア(mutual information score)について降順又は昇順でランク付けすることによってなし得る。固定長領域は1つ以上のCpGサイトを含み得るのであり、また、CpGサイトの第1の独立セットは、トップランク相互情報固定長領域(top-ranking mutual information fixed length region)から取得されたCpGサイトを含み得る。CpGサイトの第1の独立セットは、トップランク相互情報固定長領域を含み得る。
【0183】
複数の臨床的対象は、癌状態についての第3の兆候を有する臨床的対象についての第3のセットと、癌状態についての第4の兆候を有する臨床的対象についての第4のセットとを含み得るのであり;選択をなすことは:臨床的対象についての第3のセットと臨床的対象についての第4のセットとの間での複数の固定長領域中の各固定長領域のCpGサイトメチル化パターンについての各々の第2の相互情報スコアに基づいて、複数の固定長領域の参照ゲノム内での第2の順位を決定することと;第2の順位を用いて第1のパッチのCpGサイトの第1の独立セットについてのCpGサイトの第2の閾値個数を選択することとをさらに含み得る。
【0184】
固定長領域についてのそれぞれの相互情報スコアは、臨床的対象についての第1のセットと臨床的対象についての第3のセットとの間で、臨床的対象についての第1のセットと臨床的対象についての第4のセットとの間で、臨床的対象についての第2のセットと臨床的対象についての第3のセットとの間で、及び/又は臨床的対象についての第2のセットと臨床的対象についての第4のセットとの間で、計算できる。複数の臨床的対象は、5個以上、10個以上、50個以上、100個以上、500個以上、1000個以上、2000個以上、5000個以上、10,000個以上、又は20,000個以上の臨床的対象のセットを含み得るのであり、臨床的対象の各セットは、癌状態についての対応する兆候を有する。
【0185】
第1のパッチについてのCpGサイトの第1の独立セットについてのCpGサイトの第1及び/又は第2の閾値個数を、複数の固定長領域内のトップランク相互情報固定長領域(top-ranked mutual information fixed length region)を用いて選択できる(例えば、比較にて用いられる癌状態を問わずに固定長領域から取得された最高の相互情報スコアを有するCpGサイト)。第1のパッチについてのCpGサイトの第1の独立セットについてのCpGサイトの第1及び/又は第2の閾値個数を、相互情報スコア(mutual information score)が計算されたそれぞれの各々の臨床的対象ペアのトップランク相互情報固定長領域を用いて、選択できる(例えば、最高の相互情報スコアを有する固定長領域であって、全てのペア毎の比較は選択されたCpGサイトのセットで表されていること)。トップ100, 200, 300, 400, 500, 600, 700, 800, 900, 1000,又は2000の相互情報固定長領域は、複数のペア毎の比較におけるそれぞれの各々の臨床的対象ペアについて、相互情報スコアのランキングに基づいて、選択できる。各々の固定長領域についての相互情報スコアは、臨床的対象についてのペア毎での複数の比較に関して、弁別的と看做し得る。
【0186】
構築することは、第1のパッチに割り当てられた各々の断片を、それらの第1の相互情報スコアに基づいて、ソートすることをさらに含み得る(例えば、固定長領域は、相互情報スコアについて最低から最高へとソートされる又は相互情報スコアについて最高から最低へとソートされる)。第1のパッチ内のCpGサイトの第1の独立セットは、固定長領域及び/又は固定長領域から取得されたCpGサイトを含み得るのであり、これらは相互情報スコアの順序で配列され得る(例えば、昇順又は降順)。癌状態についての第1の兆候は第1の癌タイプとされ得るのであり、また、癌状態についての第2の兆候は第2の癌タイプとされ得る。そして、臨床的対象間でのペア毎での複数の比較は、任意の2つの癌タイプの間での任意の可能なペア毎での比較とされ得る(例えば、乳癌対肺癌)。
【0187】
第1のパッチのCpGサイトの第1の独立セットについてのCpGサイトの第1の閾値個数中のそれぞれの各々のCpGサイトに関しては、CpGサイトの第1の閾値個の中のあらゆる他のCpGサイトから参照ゲノム内において閾値個の剰余部をもってパディングがなされ得る(例えば、パッチ内に含められるためには、固定長領域から取得された各CpGサイトは、少なくとも10, 20, 30, 40, 50, 60, 70, 80, 90, 100又は200個の剰余部によってパディングされ得る)。複数の断片はアレイベースドメチル化シーケンシングによって取得でき、また、第1の臨床的対象と第2の臨床的対象との間の複数のCpGサイト内の各CpGサイトのメチル化状態についての参照ゲノム中の複数のCpGサイトの第1のランキングは、β値又はM値に基づいていることができる。
【0188】
複数のCpGメチル化パターン(CpG methylation pattern)の評価を通じての第1のパッチ用になされるCpGサイトの第1の独立セットの選択は、第1のパッチについてCpGサイトの第1の独立セットを選択すること及び第2のパッチについてCpGサイトの第2の独立セットを選択することをさらに含み得る。複数のCpGメチル化パターンの評価を通じての第1のパッチ用になされるCpGサイトの第1の独立セットの選択は、複数のパッチ内の各々のパッチについてCpGサイトの各々の独立セットを選択することをさらに含み得る。
【0189】
分類器の予測及び訓練
方法は、前記第1のパッチを含む複数のパッチを構築するための命令をさらに含み、それぞれの各々のパッチは前記参照ゲノム中のCpGサイトについての異なる独立セットのためのものである。 前記第1のパッチを構築するステップでは、前記第1のパッチを含む複数のパッチを構築し得る。上述の分類器は、1つ以上の第1段階モデル及び第2段階モデルを含み得る。前記第1段階モデルは、予め訓練された(又は訓練済み)モデルとされ得る。さらに、上述した少なくとも第1のパッチを分類器に適用することは複数の特徴要素を含む特徴ベクトルを取得(obtain)することを伴い得るのであり、ここで、前記複数の特徴要素中の各特徴要素は、前記複数の(plurality)パッチ中の各々のパッチを前記対応する第1段階モデルに適用した際の、前記1つ以上の(one or more)第1段階モデル中の対応する第1段階モデルの出力である(前記各パッチは、例えば、検査対象からのメチル化核酸断片から獲得(acquire)されたデータから形成され得る)。前記少なくとも1つのパッチを分類器に適用するステップは、前記特徴ベクトルを前記第2段階モデルに適用してそれによって前記検査対象にての前記癌状態を決定するステップをさらに含み得る。
【0190】
複数のパッチは、10~10000パッチ又は100~3000パッチとされ得る。
図7Aは、幾つかの実施形態によるK個のパッチのセットについて例示するのであり、複数の訓練済み第1段階モデルは訓練済みモデル1、訓練済みモデル2、...、訓練済みモデルKを含み、ここで、Kは正の整数(例えば2~3000)である。第1段階モデルはパッチレベル分類器を含み得るのであり、第2段階モデルは試料レベル分類器を含み得る。特徴ベクトルを第2段階モデルに適用すると、検査対象が癌であるか非癌であるかを決定できるのであり、或いは、原発組織、原発臓器、癌タイプ、及び/又は癌ステージを識別できる。特徴ベクトルの第2段階(second stage)モデルへの適用は応答的な態様にてなされ得るのであり、第1段階(first stage)モデルにて肯定的に分類されたパッチ(例えば、癌陽性)が第2レベル(second level)分類器に適用されるようになされる。
図7AはK個の訓練済みモデルを例示するも、一部の他の実施形態では、Kこのパッチのセットは、K個の訓練済みモデルの代わりに1つのモデル用の入力データたり得る。該1つのモデルは、訓練済み又は未訓練なもののどちらかとされ得る。この場合、該1つのモデルはK個のパッチをもってさらに訓練され得るのであり、K個のパッチが訓練試料から取得されているのならばこれは逐次的又は並列的のどちらかの態様にてなされ得る。別の状況下では、該1つの訓練されたモデルは癌状態を決定するために又はK個のパッチが検査試料から取得されたのならば第2段階モデル(例えば、試料レベル分類器)によるK個のパッチに基づいたさらなる分析のためのデータを提供するために用いられ得る。
【0191】
前記1つ以上の第1段階モデル中のそれぞれの各々の第1段階モデルは対応するCNNを含み得るのであり、 前記第1のパッチの前記第1のチャンネルは2次元的なものを含み得るのであり、前記第1のパッチの前記第1の複数のパラメータの前記複数のインスタンスのそれぞれの各々のインスタンスは第1の次元を構成しており、また、前記第1のパッチの前記第1の複数のパラメータは前記第2の次元を構成している(例えば、
図7Aのパッチ530-1について図示)。第2段階モデルは、ロジスティック回帰モデルを含み得る。「異常断片の検出及び分類」と題する米国特許広報第2019-0287652号を参照されたいのであり、これは参照によって取り込まれる。第2段階モデルは、サポートベクターマシン(SVM)を含み得る。分類に用いられた場合、SVMは、2値ラベル付けがなされたデータ訓練セットを、ラベル付けがなされたデータから最遠の超平面から、分離できる。線形分離が不能である場合、SVMは「カーネル」系手法と協働でき、これは特徴空間への非線形写像を自動的に実現する。SVMによって特徴空間にて見出された超平面は、入力空間内の非線形決定境界に対応し得る。第2段階モデルは任意の機械学習モデル又は統計的モデルを含み得るのであり(例えば、決定ツリーモデル、ランダムフォレストモデル、単純ベイズ、K-Nearest Neighbors、ストキャスティック勾配降下等)、これは本明細書にて開示された任意のデータ又は情報に基づいて分類をなし得る。
【0192】
分類器は、複数の第1段階モデル(例えば、
図7Aの訓練済み/未訓練モデル)と、動的ニューラルネットワーク(例えば、
図7Aの試料レベル分類器)とを備え得る。方法は、前記第1のパッチを含む複数のパッチを構築するステップをさらに含み、それぞれの各々のパッチは前記参照ゲノム中のCpGサイトについての異なるセットのためのものである。 前記第1のパッチを構築するステップは、前記第1のパッチを含む各々のパッチを構築することを含み得る。少なくとも前記第1のパッチを分類器に適用するステップは、前記複数のパッチ中のそれぞれの各々のパッチを前記複数の第1段階モデル中の対応する第1段階モデルに適用することを含み得る。前記対応する第1段階モデルは、次のものを含み得る:i)前記各々のパッチを受けるための各々の入力層であって、前記各々のパッチは第1の次元数を含んでいる、各々の入力層と;ii)対応する重みセットを含む各々の完全接続埋め込み層であって、前記各々の完全接続埋め込み層は前記各々の入力層の出力を直接的又は間接的に受けるのであり、また、前記各々の埋め込み層の各々の出力は前記第1の次元数より少ない第2の次元数とされる、埋め込み層と;iii)前記各々の完全接続埋め込み層からの出力を直接的又は間接的に受ける各々の出力層。前記対応する第1段階モデルは、1つ以上の畳み込み層をさらに含み得る。前記1つ以上の畳み込み層は、前記各々の入力層と前記各々の完全接続埋め込み層との間に配置され得る。前記1つ以上の畳み込み層は、少なくとも次の層数を有し得る:1,2,3,4,5,又はそれ以上。一部の実施形態では、前記1つ以上の畳み込み層は、多くとも次の層数を有し得る:5,4,3,2,又はそれ以下。第1段階モデル中の複数の畳み込み層に関しては、各々の入力層に接続された第1の畳み込み層のニューロンは、各々の入力層によって受信される各々のパッチ内(例えば、2次元画像)の全ての画素に接続されていないことがある。同様に、第2の畳み込み層のニューロンは、第1の畳み込み層の全てのニューロンに接続されていないことがある。この場合、第1の畳み込み層のサイズは各々の入力層のサイズよりも小さいことがあり、及び/又は第2の畳み込み層のサイズは第1の畳み込み層のサイズよりも小さいことがある。少なくとも前記第1のパッチを分類器に適用するステップは、前記複数の第1段階モデル中の各訓練済み第1段階モデルのそれぞれの各々の完全接続埋め込み層からの前記各々の出力の集約したものを、前記動的ニューラルネットワーク(例えば、試料レベル分類器)内へと入力して、それによって前記検査対象にての癌状態を決定することをさらに含み得る。それぞれの各々の完全接続埋め込み層はそれぞれの各々のパッチ(例えば、領域)についての値のセット(例えば、スコア)を表し得るのであり、また、領域毎のスコアのセットは埋め込みサイズを示し得る。
【0193】
前記複数の第1段階モデル中のそれぞれの各々の第1段階モデルの前記各々の埋め込み層の前記各々の出力は、32個から1048個の値を有するセットとされ得る。前記複数の第1段階モデル中のそれぞれの各々の第1段階モデルの前記各々の埋め込み層の前記各々の出力は、128とされ得る。
【0194】
前記複数の第1段階モデル中の各訓練済み第1段階モデルのそれぞれの各々の完全接続埋め込み層からの前記各々の出力の集約したものは、それぞれの各々のパッチについての前記各々のスコアについての連結とされ得る。例えば、
図7Bは分類器の例について例示するのであり、分類器はパッチ畳み込みニューラルネット(パッチCNN)であり、2段階分類がメチル化シーケンシングからの断片を用いてなされる。それぞれの各々の第1段階モデルは、対応する要素をそれぞれの各々のパッチについての各々のパッチ特徴を含む特徴ベクトル内へと出力するパッチレベル特徴抽出機を含み得るのであり、試料レベル分類器は、ロジスティック回帰モデル又はSVMを含み得る。少なくとも前記第1のパッチを分類器に適用するステップは、複数のチャンネルを備える複数のパッチを前記分類器に適用することを含み得るのであり、前記複数のパッチ中のそれぞれの各々のパッチは対応する第1段階モデル(例えば、
図7Bの対応するCNN)内へと入力される。
【0195】
分類器は、1つの第1段階モデル及び機械学習/統計モデル(例えば、
図7Aの動的ニューラルネットワーク又は試料レベル分類器)を備え得る。方法は、前記第1のパッチを含む複数のパッチを構築するステップをさらに含み、それぞれの各々のパッチは前記参照ゲノム中のCpGサイトについての異なるセットのためのものである。 前記第1のパッチを構築するステップは、前記第1のパッチを含む各々のパッチを構築することを含み得る。前記複数のパッチを分類器に適用するステップは、前記複数のパッチを第1段階モデル(例えば、CNN)に適用することを含み得る。この場合、第1段階モデルは、i)逐次的又は並列的のどちらかの態様で前記複数のパッチを受信するための入力層であって、前記複数のパッチの第1のパッチは第1の次元数を含む、入力層と;ii)対応する重みセットを含む各々の完全接続埋め込み層であって、前記各々の完全接続埋め込み層は前記入力層の出力を直接的又は間接的に受けるのであり、また、前記埋め込み層の出力は前記第1の次元数より少ない第2の次元数を含む、埋め込み層と;iii)前記完全接続埋め込み層からの出力を直接的又は間接的に受ける出力層とを含み得る。前記第1段階モデルは、1つ以上の畳み込み層をさらに含み得る。前記1つ以上の畳み込み層は、前記入力層と前記完全接続埋め込み層との間に配置され得る。前記1つ以上の畳み込み層は、少なくとも次の層数を有し得る:1,2,3,4,5,又はそれ以上。一部の実施形態では、前記1つ以上の畳み込み層は、多くとも次の層数を有し得る:5,4,3,2,又はそれ以下。第1段階モデル中の複数の畳み込み層に関しては、入力層に接続された第1の畳み込み層のニューロンは、入力層によって受信されるパッチ内(例えば、2次元画像)の全ての画素に接続されていないことがある。同様に、第2の畳み込み層のニューロンは、第1の畳み込み層の全てのニューロンに接続されていないことがある。この場合、第1の畳み込み層のサイズは入力層のサイズよりも小さいことがあり、及び/又は第2の畳み込み層のサイズは第1の畳み込み層のサイズよりも小さいことがある。前記複数のパッチを分類器に適用するステップは、前記完全接続埋め込み層からの出力を機械学習/統計モデル内へと入力して、それによって前記検査対象にての癌状態を決定することをさらに含み得る。完全接続埋め込み層は各パッチ(例えば、領域)についての値のセット(例えば、スコア)を表し得るのであり、また、領域毎のスコアのセットは埋め込みサイズを示し得る。
【0196】
分類器は、複数の第1段階モデルと機械学習/統計モデル(例えば、
図7Aの動的ニューラルネットワーク又は試料レベル分類器)とを備え得るのであり、複数の第1段階モデルの個数は1つ以上のパッチの個数より少ない。例えば、分類器は2つの第1段階モデル(例えば、2つのCNN)を含み得るのであり、パッチの個数は1000とされ得る。この場合、1000個のパッチの一部(例えば、400個のパッチ)は2つの第1段階モデルの一方への入力データとされ得るのであり、また、該1000個のパッチの残余の部部(例えば、600個のパッチ)は2つの第1段階モデルのもう片方への入力値とされ得る。
【0197】
方法では、対象についてのコホートを用いて前記1つ以上の第1段階モデル(例えば、
図7BのCNNモデル)及び前記動的ニューラルネットワーク(例えば、
図7Bの試料レベル分類器)を訓練するステップをさらに伴い得るのであり、前記対象についてのコホートは、前記癌状態に関する第1のラベルを有する対象についての第1のサブセットと、前記癌状態に関する第2のラベルを有する対象についての第2のサブセットとを含む。前記訓練するステップは、a)ランダムな態様で対象についての前記コホートを癌状態、年齢、喫煙状態、又は性別の任意の組合せに基づいて複数の群に階層化するステップと;b)前記複数の群中の第1の群を訓練群として及び前記複数の群の残部を検査/検証群として用いて、前記1つ以上の第1段階モデル(例えば、
図7BのCNNモデル)及び前記動的ニューラルネットワーク(例えば、
図7Bの試料レベル分類器)を前記訓練群に対して訓練するステップと;c)前記複数の群中の各群について前記用いるステップ(b)を反復するステップであって、前記複数の群中の各群が前記訓練群として前記用いるステップ(b)の反復回にて用いられるようにするステップと;d)分類器性能基準が充足されるまで前記の階層化ステップ(a)、用いるステップ(b)、及び反復ステップ(c)を反復するステップとを伴う。訓練群は、対象についてのコホートから取得された情報又はデータの少なくとも10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%又はそれ以上を含み得る。この場合、検査群は、多くとも、対象についてのコホートから取得された情報又はデータの90%, 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%又はそれ以下を含み得る。一部の実施形態では、訓練群は、多くとも、対象についてのコホートから取得された情報又はデータの90%, 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%又はそれ以下を含み得る。この場合、検査群は、対象についてのコホートから取得された情報又はデータの少なくとも10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%又はそれ以上を含み得る。分類器の性能は、対象についてのコホートにわたって次の百分率となり得る:40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 98.5, 99, 99.5, 99.6, 99.7, 99.8,又は99.9パーセント(精度)であり、これは次の特異度でもたらされる:80, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 98.5, 99, 99.1, 99.2, 99.3, 99.4, 99.5, 99.6, 99.7, 99.8,又は99.9パーセント(特異度)。
【0198】
例えば、分類器は、(対象についてのコホートに関して)患者試料を取得することによって訓練でき、そのような患者の各々はそれらの癌状態をもってラベル付けされるのであり、そのような対象についてのメチル化データを用いて複数のパッチに投入する(例えば、他のものもあるが、相互情報、先験的な知識、ハイパーパラメータ、及び/又は既存のモデル等のパッチ設計の方法を用いてこれがなされる)。各々のパッチに投入されるそれぞれの各々の試料について、癌状態指標は、患者ラベルに対してのパッチレベル分類器訓練のためにパッチに割り当てられることができる(例えば、複数の第1段階モデルを訓練すること)。
【0199】
複数の第1段階モデルを備える分類器に関しては、各第1段階モデル(例えば、パッチレベルCNN)については、2値分類器として訓練して且つ特徴抽出機として用いることができ、また、それぞれの各々の第1段階モデルの出力(例えば、パッチレベルCNN)は、複数の第1段階モデルに対応する複数の領域にわたって連結された中間特徴ベクトル(intermediate feature vector)とされ得る。そのような各中間ベクトル(intermediate vector)は、コホート中の異なる患者に対応する。それぞれの各々の第1段階モデルの出力は、各々の第1段階モデル内の中間完全接続分類層からの複数の活性化(例えば、ReLU(rectified linear unit activation)の出力、tanh、sigmoid等)を含み得る。(対応するパッチの入力に応答する)それぞれの各々の第1段階モデルからの活性化事象をもって各々の総合スコア又は各対象についての埋め込みのベクトルを生成するのに用い得る。例えば、深い且つ広い大深度ニューラルネット(DNN、deep-and-wide deep neural net)分類器としての試料レベル分類器は、各々の総合スコア又は各対象についての埋め込みのベクトル及び各々のラベルについて訓練できる。
【0200】
上述した複数の第1段階モデル(例えば、CNN)及び試料レベル分類器(例えば、動的ニューラルネットワーク)は、3×6重クロス検証を伴い得る。クロス検証では、訓練データセット(training dataset)をより小さな訓練データセットと検証データセット(validation dataset)とに分割し、そして、第1段階モデルをより小さな訓練セット(training set)に対して訓練し、また、第1段階モデルを検証データセットに対して評価することを伴い得る。例えば、訓練データセットは、6つのビンに再分割され得るのであり、これらは興味対象たる全分類及び/又は生物学的先行事項に関して等価的に階層化されており(例えば、癌/非癌、癌タイプ、癌ステージ、年齢、及び/又は喫煙状態が含まれるもこれらには限定されない)、各訓練ビンは可能な限り均質的になるようにされている。訓練は、(上述のように)6つのビンのうちの5つを用いてなし得るのであり、検証(クロス検証)は第6のビンでなし得る。この処理を6回反復して、6つのビンのそれぞれが各1回検証に用いられるようにできる。訓練データセットに対してランダム化をなしてシャッフルを3回なして、階層化、訓練、及び検証を反復して合計18回の訓練回がなされるようにできる。分類器性能尺度は、データセットについての3重ランダム化とすることができる。第1段階モデル及び第2段階モデルの双方についての訓練を、3×6重クロス検証のそれぞれの各々の反復回に際してなし得る。3×6重クロス検証を用いるのではなく、P×Q重クロス検証を用いることもでき、ここでP及びQは正の整数とされ、これらの値は同じ又は異なるものとし得る。訓練データセットは、P個のビンに再分割され得るのであり、これらは興味対象たる全分類及び/又は生物学的先行事項に関して等価的に階層化されており(例えば、癌/非癌、癌タイプ、癌ステージ、年齢、及び/又は喫煙状態が含まれるもこれらには限定されない)、各訓練ビンは可能な限り均質的になるようにされている。訓練は、(上述のように)P個のビンのうちのP-1個を用いてなし得るのであり、検証(クロス検証)は第P番目のビンでなし得る。この処理をQ回反復して、P個のビンのそれぞれが各1回検証に用いられるようにできる。訓練データセットに対してランダム化をなしてシャッフルをP回なして、階層化、訓練、及び検証を反復して合計P×Q回の訓練回がなされるようにできる。Pは、少なくとも2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20又はそれ以上とし得る。Qは少なくとも2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20又はそれ以上とし得る。
【0201】
前記癌状態は原発組織(tissue of origin)(或いはTOO)を含み得るのであり、また、対象についての前記コホート中の各対象は原発組織をもってラベル付けされる。コホートは、任意のタイプの癌又は本明細書の他の箇所で説明される癌の組合せを有する対象を、含み得る。前記癌状態は指定癌のステージを含み得るのであり、また、対象についての前記コホート中の各対象は指定癌のステージをもってラベル付けされている。コホートは、任意のタイプの癌のステージ又は本明細書の他の箇所で説明される癌の組合せを有する対象を、含み得る。前記癌状態は対象が癌を有するか否かについての事項を含み得るのであり、また、前記階層化ステップ(a)によって前記複数の群中の各群の癌を有する対象数と癌を有さない対象数とが等しくなることを担保する。
【0202】
本開示の分類器の訓練可能パラメータの個数は、訓練中の各々のデータセットに対してスケーリングされ得る(例えば、VGGNet:1億4000万個の訓練可能パラメータであるのに対して、パッチCNN16:345,000個の訓練可能パラメータ)。ドロップアウトを適用して過剰適合を制御でき、また、小規模訓練セットの分類を向上させ得るのであり、学習済み重み付け済みアンサンブルを作成すること及びネットワーク複雑度を減じることによってそれはなされ得る。最大で50%のドロップアウトを適用し得る。前記訓練は、前記訓練中に前記複数のパッチ中のそれぞれの各々のパッチの各々の出力層から提供された値に基づいたL1正規化(Lasso(投げ縄)回帰)又はL2正規化(Ridge(尾根)回帰)を用いて前記複数のパッチ中の1つ以上のパッチを除去できる。L2正規化は、最大で10%の係数及びハイパーチューンされたバッチサイズを伴って用い得る。訓練によって複数のパッチ中の1つ以上のパッチを除去でき、限定されたエポック数を伴う早期ストップ及び/又はメトリックベースド早期ストップを用いてこれをなせる。0.5と設定されるアグレッシブなドロップアウト、L1正規化、減衰学習レート、Adamオプティマイザ、及び256と設定される大きなバッチサイズを用いて訓練をなし得る。減衰学習レートではなく、傾斜三角形学習レートを用いて訓練をなし得る。
【0203】
原発組織、原発臓器、癌タイプ、及び/又は癌ステージについてのマルチクラス分類器を訓練するために、癌/非癌についての訓練された2値分類器から取得された特徴ベクトルを用い得る。癌/非癌分類器からマルチクラス(例えば、原発組織)分類器への移転学習により、原発組織分類器における精度増強が結果としてもたらされ得る。「移転学習を用いて対象が癌状態となっているかを決定するシステム及び方法」と題する米国特許出願第62/851,486号(出願日:2019年5月22日)を参照されたいのであり、そのような移転学習に関する開示についてはこれが参照によって取り込まれる。マルチクラス分類器の精度向上は、1%超、5%超、10%超、15%超、20%超、又は50%超となり得る。
【0204】
分類器(classifier)は、(
図7Bに示示されるようにパッチ毎に1つとされる)1つ以上のCNN分類器(CNN classifier)を備えるパッチCNN分類器(patch CNN classifier)を備え得るのであり、試料レベル分類器(sample level classifier)がそれに続くのであり、これは複数のCNN分類器にて抽出された特徴に対してaverage-プーリング、max-プーリング、3-normプーリングによるパッチアグレゲーション、ガウジアンスムージングを伴うか伴わないロジスティック回帰、又はmeansモデリングをなす。分類器(classifier)は、(
図7Bに示示されるようにパッチ毎に1つとされる)1つ以上のCNN分類器を備えるパッチCNN分類器を備え得る。そのようなCNNの各々は予め訓練されたCNNモデルを用い得る。予め訓練されたCNNモデルは、画素化画像データ(例えば、RGB画素化画像)について訓練がなされた畳み込みニューラルネット(neural net)の1つ以上の層を、用い得る。そのような予め訓練されたCNNモデルの例としては、LeNet、AlexNet、VGG11、VGGNet 16、GoogLeNet、又はResNetを挙げ得るがこれらには限定されはしない。予め訓練されたCNNモデルは、多層ニューラルネット、ディープ畳み込みニューラルネット、視覚幾何畳み込みニューラルネット、又はそれらの組合せを備え得る。予め訓練されたCNNモデルは、畳み込みニューラルネットワーク(neural network)の分類層を除いて、非生物学的データについて訓練がなされた畳み込みニューラルネットワークの全ての層を、備え得る。予め訓練されたCNNモデルは、16層訓練済みCNNモデルとされ得る。試料レベル分類器は、訓練済み16層CNNモデルを備え得る。
【0205】
第1レベル分類器用の例示的ネットワークアーキテクチャが以下の表2にて詳述されており、これは2つの完全接続層及びsoftmax出力層を伴ったカスタマイズされたVGG-11畳み込みニューラルネットワーク(CNN、convolutional neural network)アーキテクチャに関する。伝統的なVGG-11は、3x3サイズの畳み込みフィルタを有することができ、また、ReLU活性化関数を用いることができる。このカスタマイズされたVGG-11CNNについて述べるに、畳み込みフィルタ(例えば、畳み込みカーネル)の形状は1x3に調整できて断片パイルアップに際して断片内シーケンスをキャプチャでき(マトリックスについての2次元畳み込み(Conv2d)を伴う)、ReLU(rectified linear unit activation)の代わりにリーキーなReLU活性化関数を用いることができる。
【表2】
【0206】
本開示の別の態様では、種に属する検査対象の癌状態を決定するための方法を提供するのであって、少なくとも1つのプロセッサと前記少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを格納するメモリとを備えたコンピュータシステムにてなされ得る。前記少なくとも1つのプログラムは次のステップのための命令を含み得る:電子的態様にてデータセットを取得するステップであって、該データセットは複数の断片中のそれぞれの各々の断片の対応するメチル化パターンを備え得る、ステップ。それぞれの各々の断片の前記対応するメチル化パターンは、(i)前記検査対象から取得された生物試料中の前記各々の断片の1つ以上の核酸試料についてのメチル化シーケンシングによって決定され得るのであり、また、(ii)前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含み得る。
【0207】
前記少なくとも1つのプログラムは、複数のパッチを取得するための命令をさらに含み得るのであり、前記複数のパッチ中のそれぞれの各々のパッチは、第1のチャンネルを含み得るのであり、且つ、前記種の参照ゲノム中のCpGサイトの対応する独立セットを表す。CpGサイトの前記対応する独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。各々のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み得るのであり、前記第1の複数パラメータの各インスタンスは前記各々のパッチについてのCpGサイトの前記対応する独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含む。前記少なくとも1つのプログラムは、前記各々の断片(the respective fragment)のCpGサイトと前記単一の各々のパッチ(the single respective patch)のCpGサイトの前記対応する独立セットとの間の合致に基づいて、前記複数の断片中のそれぞれの各々の断片の全部又は一部を、前記複数のパッチ中の各々のパッチに、割り当てるための命令をさらに含み得る。前記少なくとも1つのプログラムは次のステップのための命令をさらに含む:前記複数のパッチ中のそれぞれの各々のパッチを前記複数のモデル中の対応する訓練済みモデルに適用してそれによって前記検査対象にての癌状態を決定するステップ。
【0208】
複数の断片中の各々の断片は、異なるゲノミック位置に整列する一意的な分子断片であることができ、或いは異なるメチル化パターンを含み得る。具体的には、断片は、異なるゲノミック位置に整列する一意的な分子断片であることができ、それぞれの各々の断片(each respective fragment)の全部又は一部を各々のパッチ(respective patch)に割り当てることは、各々の断片(respective fragment)のメチル化パターンに基づいているのではなく、むしろ、各々の断片のCpGサイトと各々のパッチのCpGサイトの対応する独立セットとの間の合致に基づいていることがえきる。
【0209】
方法は、複数のパッチを用いることができる。少なくとも1つのプログラムは、次のようにしてパッチを構築する命令を含まないことがある:CpGサイトの第1の独立セットに整列したそれぞれの各々の断片について、各々の断片のメチル化パターンに基づいて、第1の複数のパラメータの全部又は一部のインスタンスに投入すること。対照的に、取得された複数のパッチは以前に構築されたものであることができる。
【0210】
各々の断片(respective fragment)のCpGサイトと各々のパッチ(respective patch)のCpGサイトの対応する独立セットとの間の合致に基づいて複数の断片(plurality of fragments)中のそれぞれの各々の断片(each respective fragment)の全部又は一部を複数のパッチ(plurality of patches)中の各々のパッチに割り当てるステップは、単一の各々のパッチ(single respective patch)に割り当てられた複数の断片中の各々の断片について、次のことを伴い得る:i)単一の各々のパッチの第1のチャンネルの第1の複数のパラメータのインスタンス内にて、各々の断片中のCpGサイトに対応する、複数の断片中の別の断片によってメチル化状態が以前に割り当てられていないパラメータを識別することと;ii)単一の各々のパッチの第1のチャンネルの第1の複数のパラメータのインスタンスに関して、識別されたパラメータのうちの各々の断片の各々のCpGサイトに整列する各パラメータについて、各々の断片の各々のCpGサイトのメチル化状態を割り当てること。
【0211】
核酸試料は、無細胞核酸試料を含み得る。生物試料を処理して、シーケンシング分析の準備として無細胞核酸を抽出できる。生物試料の詳細については、明細書の他の箇所にて説明されている。例えば、無細胞核酸は、K2 EDTA管にて対象から収集された血液試料から抽出され得る。試料は収集後2時間以内に処理でき、血液に対してのダブルスピンをなすのであり、先ず1000gで10分行って、そして血漿について2000gで10分行う。そして、血漿は、1mlのアリコートで-80°Cで保管できる。このようにして、無細胞核酸抽出の目的との関係で、生物試料から適切量の血漿(例えば、1~5ml)を準備できる。無細胞核酸は、QIAamp循環核酸キット(Qiagen)を用いて抽出できるのであり、また、DNA懸濁緩衝液内(Sigma)へと溶出することができる。精製された無細胞核酸は、使用される迄は-20°Cにて保管できる。生物学的方法を用いて1つ以上の方法で無細胞核酸を準備できるのであり、シーケンシングの目的のためにそれをなし得る。
【0212】
生物試料の取得時とシーケンス解析等の解析実行時との間の時間を最適化して、解析又は方法の感度及び/又は特異度を向上させ得る。生物試料は、解析実行の直前に取得できる。生物試料は、解析実行の所定期間(例えば、時間単位、日単位、又は週単位)前に取得及び保管されることができる。試料についての解析は、試料を訓練対象から取得した後次の期間内になし得る:1日、2日、3日、4日、5日、6日、1週間、2週間、3週間、4週間、5週間、6週間、7週間、8週間、3ヶ月、4ヶ月、5ヶ月、6ヶ月、1年、又は1年より長い期間。
【0213】
それぞれの各々の対象についての核酸は、標的パネルシーケンシングによって取得でき、対象の生物試料から取られるシーケンスリードに関しては次のようなデータセットを形成できるようにする:遺伝子に関しての当該標的パネルについて少なくともシーケンシング深度が50,000xとなる場合、遺伝子に関しての当該標的パネルについて少なくともシーケンシング深度が55,000xとなる場合、遺伝子に関しての当該標的パネルについて少なくともシーケンシング深度が60,000xとなる場合、又は遺伝子に関しての当該標的パネルについて少なくともシーケンシング深度が70,000xとなる場合。遺伝子の標的パネルは450~500個の遺伝子とすることができる。一部の実施形態では、遺伝子の標的パネルは、500±5個の遺伝子、500±10個の遺伝子、又は500±25個の遺伝子とすることができる。
【0214】
シーケンシング方法は、全ゲノムバイサルファイトシーケンシング(WGBS)を含むことができる。WGBSでは1つ以上のメチル化状態ベクトルを識別できるのであり、これについては例えば「異常断片の検出及び分類」と題された米国特許出願第16/352,602号(出願日:2019年3月13日)に説明されており、或いは、「モデルベースド特徴付け及び分類」と題する米国仮特許出願第62/847,223号(出願日:2019年3月13日)にて開示された任意の手法に沿ってなし得る。以下の実施例1にて説明するように、CCGA1データセットから複数の核酸を生成できる。複数の核酸を処理して、コピー数の値を取得できこれを用いて分類器(例えば、パッチCNN分類器)を訓練できる。そして、対象からの生物試料から取得された検査データセットは、訓練済み分類器内へと入力でき、対象が疾患状態に陥っているか否かを決定でき、また、一部の実施形態では、疾患状態についてのタイプ、ステージ、及び/又は他の特徴についても含める。高い可変性又は低いマッピング可能性を有するゲノミック領域は、除き得る。
【0215】
標的シーケンシングには、標的DNAメチル化シーケンシングが含まれ得る。標的DNAメチル化シーケンシングは、様々な態様にてなされ得る。異なる酵素処理及び化学処理との組合せによってメチル化シトシン又は非メチル化シトシンのいずれかを転換できる。例えば、標的DNAメチル化シーケンシングでは、複数の核酸中の、1つ以上の5-メチルシトシン(5mc)及び/又は5-ヒドロキシメチルシトシン(5hmc)を検出できる(ブロック410)。別の例を挙げるに、標的DNAメチル化シーケンシングは、複数の核酸中の1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンを対応する1つ以上のウラシルに転換することを伴い得る。別の例を挙げるに、標的DNAメチル化シーケンシングは、複数の核酸中の1つ以上の非メチル化シトシンを対応する1つ以上のウラシルに転換することを伴い得るのであり、DNAメチル化シーケンスでは1つ以上のウラシルを1つ以上の対応するチミンとして読み出す。標的DNAメチル化シーケンシングは、複数の核酸中の1つ以上のメチル化シトシンを対応する1つ以上のウラシルに転換することを伴い得るのであり、DNAメチル化シーケンスでは1つ以上の5mc又は5hmcを1つ以上の対応するチミンとして読み出す。
【0216】
図8Bは、検査対象の癌状態を決定するための方法850について説明する別の例示的フローチャートを示す。方法は、本明細書で開示される環境500及び/又は処理システム560によって実行され得る。
【0217】
方法850のステップ852は、1つ以上のプロセッサを介して、訓練データセットを1つ以上の訓練対象から取得するステップを含み得る。前記訓練データセットは、前記1つ以上の訓練対象から取得された1つ以上の生物試料中の複数の断片と関連付けられている1つ以上の訓練メチル化パターンと、前記1つ以上の訓練メチル化パターンに関連付けられている1つ以上の所定の癌状態とを含み得る。訓練データセットは訓練対象の任意の生物学的又はゲノミックな情報を含み得るのであり、次の事項がふくまれるもこれらには限定されはしない:ゲノムの全部又は一部の主核酸シーケンスに関する情報(例えば、塩基多型、インデル、シーケンス再配列、変異頻度等の有無等);ゲノム内の1つ以上の特定のヌクレオチドシーケンスのコピー数(例えば、コピー数、対立遺伝子頻度分率、単一染色体又は全ゲノムの倍数性等);ゲノムの全部又は一部のエピジェネティック状態(メチル化等の共有結合核酸修飾、ヒストン修飾、ヌクレオソーム配置等);並びに生命体のゲノムの発現プロファイル(例えば、遺伝子発現レベル、アイソタイプ発現レベル、遺伝子発現比等)。
【0218】
前記1つ以上の訓練メチル化パターンは、前記1つ以上の訓練対象から取得された前記1つ以上の生物試料中の前記複数の断片を含む1つ以上の核酸試料の少なくとも1つのメチル化シーケンシングによって決定され得る。前記1つ以上の訓練メチル化パターンは、前記1つ以上の訓練対象から取得された前記1つ以上の生物試料中の前記複数の断片中の各CpGサイトの少なくとも1つのメチル化状態を含み得る。訓練メチル化パターンは、訓練対象のメチル化パターンとされ得る。訓練対象は、情報が計算モデルを訓練するために用いられる任意の対象とされ得る。訓練対象は、検査対象とは異なり得る。対象、計算モデル、メチル化パターン、及びどのようにしてメチル化パターンを決定するかについての詳細は、本明細書の他の箇所にて説明されている。1つ以上の所定の癌状態は、本明細書の他の箇所にて説明されている任意の癌状態とすることができる。
【0219】
方法850のステップ854は、1つ以上のプロセッサを介して、訓練データセットに基づいて1つ以上のパッチを構築するステップを含み得る。1つ以上のパッチの各パッチは、1つ以上のチャンネルを含み得る。1つ以上のパッチの各パッチは、種の参照ゲノム中の1つ以上のCpGサイトを表し得る。CpGサイトの各CpGサイトは、参照ゲノム中の所定の位置に対応し得る。1つ以上のパッチの各パッチ又は第1のパッチは、種の参照ゲノム中の、CpGサイトの第1の独立セットを表し得る。CpGサイトの前記第1の独立セット中のそれぞれの各CpGサイトは、前記参照ゲノム中の所定の位置に対応し得る。前記構築ステップは、CpGサイトの前記第1の独立セットに整列した前記1つ以上の訓練対象から取得された1つ以上の生物試料中の前記複数の断片中のそれぞれの各々の断片について、前記各々の断片の前記訓練メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入する又は埋めることを含み得る。CpGサイトの第1の独立セット、インスタンス、パラメータ、1つ以上のパッチ、及び1つ以上のパッチをどう構築するかについては、本明細書の他の箇所にて更に説明されている。
【0220】
1つ以上のチャンネルは、第1のチャンネルを含み得る。第1のチャンネルは、第1の複数のパラメータについての複数のインスタンスを含み得る。第1の複数パラメータの各インスタンスは、1つ以上のパッチについてのCpGサイトの第1の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み得る。この場合、1つ以上の訓練対象から取得された1つ以上の生物試料中の複数の断片中の各々の断片について構築をなすステップは、次のことを含み得る:i)第1のチャンネルの第1の複数のパラメータのインスタンス内にて、各々の断片中のCpGサイトに対応する、複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別することと、ii)識別されたパラメータのうちの各々の断片の対応するCpGサイトに整列する各パラメータについて、各々の断片の対応するCpGサイトのメチル化状態を割り当てること。パラメータをどう識別するか及びどうメチル化状態を割り当てるかについての更なる詳細は、本明細書の他の箇所にて説明されている。
【0221】
1つ以上のチャンネルは、第2のチャンネルを含み得る。第2のチャンネルは、第1のチャンネルとは異なる情報を含み得る。前記第2のチャンネルは、前記第1の複数のパラメータの各インスタンスについての第2の複数のパラメータについての対応するインスタンスを含み得る。前記第2の複数のパラメータの各インスタンスは、前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのCpGメチル化状態以外の第1の特徴についてのパラメータを含み得る。1つ以上のチャンネルは、第3のチャンネルを更に含み得る。第3のチャンネルは、第1/第2のチャンネルとは異なる情報を含み得る。前記第3のチャンネルは、前記第1の複数のパラメータの各インスタンスについての第3の複数のパラメータについての対応するインスタンスを含み得る。前記第3の複数パラメータの各インスタンスは、CpGサイトの前記第1の独立セット中の各々のCpGサイトの第2の特徴についてのパラメータを含み得る。1つ以上のチャンネルの個数は少なくとも、1, 2, 3, 4, 5, 6, 7, 8, 9, 10又はそれ以上とされ得る。一部の実施形態では、1つ以上のチャンネルの個数は多くとも10, 9, 8, 7, 6, 5又はそれ以下とされ得る。1つ以上のチャンネルの個数が1より大きい場合、1つ以上のチャンネルの各チャンネルは、1つのタイプの特徴(例えば、第1の特徴)と関連付けられている一意的な情報を含み得る。例えば、
図6Bの6つのチャンネルの各々は、メチル化状態、ベータcontrol、ベータsample、p値、多重度、又は先行事項に関連する情報を含むことができる。この例では、6つのチャンネルの各チャンネルは、他のチャンネルとは異なる情報を含み得る。1つ以上のチャンネルの詳細(例えば、第1の特徴や第2の特徴)は、本明細書の他の箇所にて説明されている。
【0222】
ステップ854前にて或いは癌状態の決定の任意の段階にて、方法850は、1つ以上の訓練対象から取得された1つ以上の生物試料中の複数の断片に対してプルーニングを行うステップを含み得るのであり、これは次のことによってなし得る:複数の断片からそれぞれの各々の断片であって各々の断片中の対応する複数のCpGサイトにわたっての対応するメチル化パターンがp値閾値を充足しないp値を有する断片を除去すること。p値、p値閾値、及び複数断片のプルーニングについての詳細は、本明細書の他の箇所にて説明されている。
【0223】
方法850のステップ856は、1つ以上のプロセッサを介して1つ以上のパッチ及び訓練データセットに基づいて計算モデルを訓練するステップを含み得る。計算モデルは、第1段階モデル及び第2段階モデルを備え得る。第1段階モデルは、1つ以上のCNNを備え得る。CNNは、予め訓練されたCNNを含み得る。予め訓練されたCNNは、画素化画像データ(例えば、RGB画素化画像)について訓練がなされた畳み込みニューラルネットの1つ以上の層を、用い得る。そのような予め訓練されたCNNモデルの例としては、LeNet、AlexNet、VGG-11、VGGNet 16、GoogLeNet、又はResNetを挙げ得るがこれらには限定されはしない。予め訓練されたCNNは、カスタマイズされた予め訓練されたCNNを備え得る。カスタマイズされた予め訓練されたCNNは、カスタマイズされたVGG-11畳み込みニューラルネットワークを含み得る。カスタマイズされたVGG-11畳み込みニューラルネットワークは、カスタマイズされたフィルタサイズ及び活性化関数を有し得る。第1段階モデル、CNN、第2段階モデル、予め訓練されたCNN、及びカスタマイズされたVGG-11についての詳細は、本明細書の他の箇所にてさらに説明されている。
【0224】
方法850のステップ858は、1つ以上のプロセッサを介して検査対象から検査データセットを取得するステップを含み得る。検査データセットは、検査対象から取得された1つ以上の生物試料中の複数の断片の1つ以上の検査メチル化パターンを含み得る。検査データセットは、検査対象の任意の生物学的又はゲノミックな情報を含み得る。そのような生物学的やゲノミックな情報の詳細については、明細書の他の箇所にて説明されている。1つ以上の検査メチル化パターンは、検査対象から取得された生物試料中の複数の断片を含む1つ以上の核酸試料のメチル化シーケンシングによって決定され得る。1つ以上の検査メチル化パターンは、検査対象から取得された生物試料中の複数の断片中の各CpGサイトの少なくとも1つのメチル化状態を含み得る。検査メチル化パターンは、検査対象のメチル化パターンとされ得る。
【0225】
方法850のステップ860は、1つ以上のプロセッサを介して検査データセット及び計算モデルに基づいて検査対象の癌状態を決定するステップを含み得る。決定するステップは、少なくとも第1のパッチを分類器に適用してそれによって検査対象にての癌状態を決定するステップを含み得る。計算モデルは、検査データセットに基づいて、癌対非癌及び/又は原発組織について予測することができる。計算モデルは、癌/非癌/情報性無し、原発組織、原発臓器、癌タイプ、及び/又は癌ステージについて判別するマルチクラス予測をなし得る。
【0226】
本明細書にて説明されている任意の方法は、1つ以上の生物学的先行事項を用いて計算モデル/分類器を更新することをさらに含み得る。生物試料の例としては、地理的情報、喫煙者/非喫煙者、疾患状態ステージ、年齢層、疾患状態の検出容易性、及び/又は性別(生物学的性別)が含まれるが、これらには限定されない更新された計算モデルは、一般的な母集団に適用するための分類器(例えば、マルチクラス分類器)及び数学的計算(例えば、行列の演算)を伴い得る。この場合、数学的計算は分類器の前又は後ろに適用できる。一部の実施形態では、更新された計算モデルは、一般的な母集団に適用するための数学的計算を含む分類器とされ得る。この場合、数学的計算は、分類器に統合されて分類器と共に訓練され得る。分類器は、本明細書にて開示された任意のデータ又は情報に基づいて分類をなし得る本明細書の他の箇所にて開示された任意の機械学習モデル又は統計的モデルを含み得る。分類器がCNN用パッチを1つ以上含む場合、1つ以上の生物学的先行事項と関連付けられている情報は、1つ以上のパッチの1つ以上のチャンネル内へと統合される場合があり又は統合されない場合がある。数学的計算はナイーブなベイジアン統計計算を含み得るのであり、この場合1つ以上の生物学的先行事項を用いて事後確率を計算できる。本明細書の他の箇所にて説明されているように、数学的計算は計算モデルを修正するための機構たり得るのであり、異なる標的母集団(例えば、異なる大陸にいる患者)への適用のためになされ得る。更新された計算モデルは、異なる標的人口における癌の頻度及び癌タイプの相対頻度を表す情報を、含み得る。癌の頻度には、訓練データセットの頻度分布が含まれ得る。更新された計算モデルによって、異種研究(例えば、本明細書の他の箇所にて説明されているSTRIKE等)にわたって敷衍可能な性能がもたらされ得る。
【0227】
一部の実施形態では、計算モデルを修正するために、1つ以上の生物学的先行事項には、疾患状態ステージ(例えば、癌ステージ)、疾患状態の検出容易性(例えば、癌の検出容易性)、及び/又は性別(生物学的性別)が含まれ得る。この場合、数学的計算では、i)一般人口の中での癌についての性別固有の発生率及びステージ固有の発生率と、異なるステージ間での癌検出容易性(例えば、CCGA1における腫瘍分画結果)とを組み合わせることができる。数学的計算は、i)一般的な人口における性別固有の発生率及びステージ固有の発生率と、ii)異なるステージ間での癌検出容易性との間での乗算、加算、助産、及び/又は減算を含み得る。一部の実施形態では、癌の性別固有の発生率及びステージ固有の発生率については、異なるステージ間での癌検出容易性に基づいてスケーリングすることができる。性別固有の発生率は、検査対象の性別/生物学的性別と関連付けられている任意の情報(例えば、確率)を含み得る。一部のタイプの癌(例えば、乳癌)は性別固有である故に、性別固有の発生率を用いることができる。癌のステージ固有の発生率には、訓練又は検査対象の癌ステージと関連付けられている任意の情報(例えば、確率)が含まれ得る。癌検出容易性は、腫瘍分画に基づいて決定され得る。例えば、癌の特定タイプが低シェディング(例えば、癌タイプの腫瘍分画が血液試料中において低位)である場合、癌検出容易性の値は低くなり得る。
【0228】
更新された計算モデルが分類器と数学的計算とを含む場合、分類器の訓練は訓練データセットでなし得るのであり、数学的計算の訓練には訓練データセットをあてない場合がある。更新された計算モデルが数学的計算を含む分類器である場合、分類器及び数学的計算に関しては訓練データセットをもって訓練をなし得る。この場合、1つ以上の生物学的先行事項は、1次元又は多次元マトリックスとして構成され得るのであって訓練データセットと組み合わせることが可能とでき、分類器に入れることができる。
【0229】
方法は、1つ以上のプロセッサを介して疾患状態(例えば、癌状態)を検査対象のユーザ装置に関連付けられている電子記録へと送信するステップをさらに含み得る。疾患状態は、メモリ共有、メッセージ受渡し、トークンパッシング、又はネットワーク伝送を含むあらゆる適切な方法を用いてえ、受渡、転送、又は伝送できる。疾患状態は、次の手段を介して検査対象、医療従事者等、又は他の当事者へと送信できる:テキスト表示、写真的表示(photographic display)、ハイパーリンク、動画/オーディオ表示、SMS、メッセージングアプリケーション若しくはサービス、電子メール、又は任意の他の適切な機構。疾患状態は、GUI(例えば、GUI550)に表示できる。GUIは、例えば、疾患状態及び疾患状態に基づいた予防的手段に関する処置提案や推奨案等についての視覚的表示を、ユーザ(例えば、医療従事者等)に提供するように構成されていることができる。GUIは特定のタスクに関してのユーザ対話を可能とすることができる(例えば、疾患状態の検討及び治療計画の調整)。疾患状態(例えば、癌状態)は、癌のレベル、原発組織、及び転移疾患ステータスを含み得る。癌及び原発組織についての詳細については、明細書の他の箇所にて説明されている。
【0230】
転移疾患状態は、リンパ系、血液循環、又は他の経路を介して癌細胞が体の新たな箇所へと拡散していく転移過程を表し得る。原発組織(TOO、tissue of origin)に加えて、癌状態は、TOOから癌が拡散したことと関連付けられる転移疾患状態についての追加的情報を提供し得る。そのような転移疾患状態は、TOOを指す又は体の他の臓器への癌細胞の拡散を指す(例えば、腫瘍隣接組織)のいずれかたり得る。cfDNA断片は、細胞死に由来し得るのであり、また、cfDNA断片の存在は、TOO以外の他の領域内での組織損傷及び細胞死(例えば、腫瘍隣接組織(tumor-adjacent tissue)又は侵襲性転移疾患の影響を受けている体の他の臓器)を示し得る。
【0231】
癌及び転移過程の影響を受けている細胞からのcfDNA断片の検出は、本明細書の他の箇所にて説明されている分類器や計算モデルを用いてなし得る。臨床的知識を多段解析にて実装して、TOOからcfDNA断片を区別し、また、転移部にての隣接組織からそれらを区別できる。臨床的知識には、所与のTOOの癌がどの程度の頻度で他の臓器又は組織へと転移するかが、反映されている。このような情報は、癌登録機構等から取得できる。例えば、SEER Research Data 1975-2017 collects the presence of a distant metastasis to bone, brain, liver. lung, lymph nodes or other sites at time of diagnosisを参照。また、Budczies et al., 2014, “The landscape of metastatic progression patterns across major human cancers,” Oncotarget, 2014 Nov 4;6(1):570-83も参照されたいのであり、これらは参照によって取り込まれる。転移疾患状態を決定するために、本明細書にて説明される任意の方法は2つのステップをさらに含むことができ、これによってTOO及び転移過程を別個に識別でき、断片レベルシーケンシングデータを用いてこれをなし得る。第1のステップでは、本明細書にて説明される任意の方法(例えば、方法800又は方法850)を含み得るのであり、検査対象から取得された1つ以上の生物試料中の複数の断片(例えば、cfDNA断片)を用いて分類器/計算モデルを介して検査対象のTOOを決定できる。第2のステップでは、第1のステップでの分類器/計算モデルを介して複数の断片を分析して、決定されたTOOと関連付けられる転移過程によって最も影響を受けているであろうTOOから遠隔な他の組織の転移疾患状態を検出することが含まれ得るのであり、。他の組織は、臨床的知識に基づいて決定され得る。
【0232】
例えば、第1のステップにて、検査対象から取得された1つ以上の生物試料中の複数の断片を用いて分類器を介して検査対象のTOOが乳房である(或いは検査対象が乳癌を有する)と決定された場合、第2のステップでは、分類器をもって複数の断片を分析して、乳癌転移による影響を受けるとして臨床的に周知であると知られている肝臓、脳、骨、又は肺等の他の組織への転移過程による影響を受けている非癌細胞の存在を検出することが含まれ得る。同様に、ある例では、第1のステップにて、検査対象から取得された1つ以上の生物試料中の複数の断片を用いて分類器を介して検査対象のTOOが肺である(或いは検査対象が肺癌を有する)と決定された場合、第2のステップでは、分類器をもって複数の断片を分析して、肺癌転移による影響を受けるとして臨床的に周知であると知られている骨、脳、又は(or)副腎等の他の組織への転移過程による影響を受けている非癌細胞の存在を検出することが含まれ得る。別の例では、第1のステップにて、検査対象から取得された1つ以上の生物試料中の複数の断片を用いて分類器を介して検査対象のTOOが結腸又は直腸である(或いは検査対象が結腸直腸癌を有する)と決定された場合、第2のステップでは、分類器をもって複数の断片を分析して、結腸直腸癌転移による影響を受けるとして臨床的に周知であると知られている肺、脳、及び(and)腹膜等の他の組織への転移過程による影響を受けている非癌細胞の存在を検出することが含まれ得る。更なる例では、第1のステップにて、検査対象から取得された1つ以上の生物試料中の複数の断片を用いて分類器を介して検査対象のTOOが前立腺である(或いは検査対象が前立腺癌を有する)と決定された場合、第2のステップでは、分類器をもって複数の断片を分析して、前立腺癌転移による影響を受けるとして臨床的に周知であると知られている骨、肝臓、及び肺等の他の組織への転移過程による影響を受けている非癌細胞の存在を検出することが含まれ得る。
【0233】
第1のステップにて用いられる分類器は、第2のステップにて用いられる分類器と同じものとされ得る。例えば、分類器は、複数の組織についての癌の正規化確率(例えば、0~1の値)を提供できる。正規化確率に基づいて、複数の組織についてのランキングを作成できる。この場合、最高位にランク付けされた組織をTOOとすることができ、また、0より大なる正規化確率(例えば、>0.1)を伴って次順位にランク付けされた組織を転移過程によって最も影響を受けているであろうTOOから遠隔な他の組織とすることができる。実施例10が更なる詳細事項を提供する。分類器は腫瘍細胞のcfDNAで訓練されるも、時には腫瘍隣接正常組織(tumor-adjacent normal tissue)のメチル化信号は明白なスコアを結果としてもたらすほどに類似している場合がある。
【0234】
一部の実施形態では、第2のステップにて用いられる分類器は、第1のステップにて用いられる分類器とは異なるものとされ得る。この場合、第2のステップにて用いられる分類器は、疾患特有の分類器とされ得る。非癌細胞並びに/又は既知の癌及び転移の部位(site of metastasis)を有する患者から収集された訓練データセットは、疾患特有の分類器を転移部(metastatic site)に関して訓練するために用い得る。第1のステップでのTOO決定用分類器と第2のステップでの疾患特有分類器との組合せによって、第1及び第2の両ステップで分類器を用いるのに比して、より高い精度と増大した堅牢性がもたらされ得る。
【0235】
本開示の方法、システム、計算モデル及び/又は分類器を用いて、癌の存否やTOOの検出、癌の進行又は再発の監視、治療的反応又は有効性の監視、存在の決定若しくは最小限疾患(MRD、minimum residual disease)の監視、又はこれらの任意の組合せをなし得る。1つの例では、計算モデル及び/又は分類器は、特徴ベクトルが癌を有する対象からのものである蓋然性又は確率スコア(例えば、0~1)を生成するために用いられ得る。蓋然性又は確率スコアは、疾患状態の1つのタイプとされ得る。確率スコアを閾値確率と比較して、対象が癌を有しているか否かを決定できる。他の実施形態では、蓋然性又は確率スコアは異なる時点(例えば、治療の前後)にて評価でき、疾患進行の監視又は治療有効性の監視(例えば、治療としての効率)をなし得る。更なる他の実施形態では、蓋然性又は確率スコアは、臨床的決定を行うため又は該決定に影響を及ぼすために用い得る(例えば、癌診断、治療選択、治療有効性の評価等)。例えば、蓋然性又は確率スコアが閾値を超過する場合、医療従事者等が適切な治療を処方できる。
【0236】
蓋然性又は確率スコアが異なる時点にて評価されるのであれば、第1の時点は癌治療前にあり(例えば、摘出手術前又は治療的介入前)、また、第2の時点は癌治療後にある(例えば、摘出手術後又は治療的介入後)。この場合、該方法は、治療の有効性を監視するステップをさらに含み得る。例えば、第2の蓋然性又は確率スコアが、第1の蓋然性又は確率スコアに比して減少した場合、治療が成功したものとみなされ得る。もっとも、第2の蓋然性又は確率スコアが、第1の蓋然性又は確率スコアに比して増大した場合、治療が不成功とみなされ得る。他の実施形態では、第1及び第2の両時点は、癌治療前にあることができる(例えば、摘出手術前又は治療的介入前)。更なる他の実施形態では、第1及び第2の両時点は、癌治療後にあることができ(例えば、摘出手術前又は治療的介入前)、該方法は、治療の有効性と治療の有効性の減少とを監視するステップをさらに含み得る。更なる他の実施形態では、第1及び第2の時点にて癌患者からcfDNA試料を取得及び分析できるのであり、これは、例えば、癌進行を監視するため、(治療後の)癌の寛解を決定するため、残存疾患又は疾患再発についての監視若しくは検出をなすため、又は処置の(例えば、治療的)有効性を監視するためになされる。
【0237】
任意の時点のセットに亘って検査試料を癌患者から取得でき、また、本開示の方法に即して分析して患者における癌状態を監視できる。第1及び第2の時点は約15分間から約30年間迄の期間に亘って離れていることができるのであり、例えば約30分だったり、例えば約1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23、若しくは約24時間だったり、例えば約1, 2, 3, 4, 5, 10, 15, 20, 25若しくは約30日だったり、又は例えば約1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,若しくは12ヶ月とするか、又は例えば約1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10, 10.5, 11, 11.5, 12, 12.5, 13, 13.5, 14, 14.5, 15, 15.5, 16, 16.5, 17, 17.5, 18, 18.5, 19, 19.5, 20, 20.5, 21, 21.5, 22, 22.5, 23, 23.5, 24, 24.5, 25, 25.5, 26, 26.5, 27, 27.5, 28, 28.5, 29, 29.5若しくは約30年とする。他の実施形態では、検査試料は、患者から、少なくとも3ヶ月毎、少なくとも6ヶ月毎、少なくとも毎年、少なくとも隔年、少なくとも3年毎、少なくとも4年毎、又は少なくとも5年毎に取得され得る。
【0238】
本明細書にて説明された任意の方法で取得された情報(例えば、蓋然性又は確率スコアや疾患状態)は、臨床的決定を行うため又は該決定に影響を及ぼすために用い得る(例えば、癌診断、治療選択、治療有効性の評価等)。例えば、蓋然性又は確率スコアが閾値を超過する場合、医療従事者等が適切な治療を処方できるのであり(例えば、摘出手術、放射線治療、化学療法、及び/又は免疫療法)、これは医療従事者等のユーザ装置上のGUI又は任意の通信媒体(例えば、電話通話やメール(mail))を介し得る。蓋然性又は確率スコア等の情報は、GUIを介して医師又は対象にリードアウトとして提供され得る。1つの例では、蓋然性又は確率スコアが0.6以上である場合、1つ以上の適切な治療を処方できる。別の実施形態では、蓋然性又は確率スコアが0.65以上、0.7以上、0.75以上、0.8以上、0.85以上、0.9以上、又は0.95以上である場合、1つ以上の適切な治療を処方できる。
【0239】
治療は1つ以上の癌治療薬を含み得るのであり、例えば、化学療法薬剤、標的癌療法薬剤、分化療法薬剤、ホルモン療法薬剤、及び免疫療法薬剤が含まれ得る。例えば、治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン、抗腫瘍性抗生物質、細胞骨格破壊剤(タキサン)、トポイソメラーゼ阻害剤、分裂阻害剤、コルチコステロイド、キナーゼ阻害剤、ヌクレオチド類似体、プラチナ系薬剤及びこれらの任意の組み合わせを含む1つ以上の化学療法剤とされ得る。治療には、シグナル伝達阻害剤(例えば、チロシンキナーゼ及び成長因子受容体阻害剤)、ヒストン脱アセチル化酵素(HDAC、histone deacetylase)阻害剤、レチノイン受容体アゴニスト、プロテオソーム阻害剤、血管新生阻害剤及びモノクローナル抗体複合体を含む1つ以上の標的癌治療薬剤が含まれ得る。治療には、トレチノイン、アリトレチノイン、ベキサロテン等のレチノイドを含む1つ以上の分化療法薬剤が含まれ得る。治療には、抗エストロゲン剤、アロマターゼ阻害剤、プロゲスチン、エストロゲン、抗アンドロゲン、及びGnRHアゴニスト若しくは類似体を含む1つ以上のホルモン療法薬剤が含まれ得る。治療には、rituximab(RITUXAN)、alemtuzumab(CAMPATH)等のモノクローナル抗体療法や、BCG、インターロイキン2(IL-2)、インターフェロン-アルファ等の非特異的免疫療法及びアジュバントや、例えばサリドマイドやレナリドミド(REVLIMID)等の免疫調節薬等の1つ以上の免疫療法薬剤を含み得る。腫瘍のタイプ、癌のステージ、癌治療や治療薬剤への以前の曝露歴、及びその他の癌の特徴に基づいて、適切な癌治療薬剤を選択し得る。
【0240】
図19には、ある種に属する検査対象の疾患状態を決定するようにプログラムされている又はそうするように他の方法で構成されている、例示的なコンピュータシステム1901が示されている。コンピュータシステム1901は、本開示にて提供される諸々の方法の様々な観点を実装及び/又は制御できるのであり、例えば、本明細書にて開示された検査対象の癌状態を決定する方法をなすことや、本明細書にて開示されたデータセット訓練及びデータセット検査に関してのバイオインフォマティクス分析の様々なステップをなすことや、データ収集、分析及び結果報告、並びにデータ管理を統合することが含まれる。コンピュータシステム1901は、ユーザの電子機器又は電子機器との関係でリモートに配置されているコンピュータシステムであることができる。電子機器は、携帯電子機器たり得る。
【0241】
コンピュータシステム1901は中央処理装置(CPU、「プロセッサ」及び「コンピュータプロセッサ」ともいう)1905を含み得るのであり、これは単一コア若しくはマルチコアプロセッサ、又は並列処理のための複数のプロセッサとされ得る。コンピュータシステム1901は、メモリまたはメモリ位置1910(例えば、RAM、ROM、フラッシュメモリ)、電子記憶ユニット1915(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インタフェース1920(例えば、ネットワークアダプタ)、並びに、キャッシュ、他のメモリ、データ記憶部及び/若しくは電子ディスプレイアダプタ等の周辺装置1925を含み得る。メモリ1910、記憶ユニット1915、インタフェース1920、及び周辺装置1925は、例えばマザーボード等の通信バス(実線)を介してCPU1905と通信可能となっていることができる。記憶ユニット1915は、データを記憶するためのデータ記憶ユニット(又はデータレポジトリ)とすることができる。コンピュータシステム1901は、通信インタフェース1920の助けを借りてコンピュータネットワーク(「ネットワーク」)1930と動作可能に結合されていることができる。ネットワーク1930は、インターネット(the Internet)、インターネット(an internet)及び/若しくはエクストラネット、又はインターネット(the Internet)と通信可能なイントラネット(an intranet)及び/若しくはエクストラネットとすることができる。ネットワーク1930は、一部の場合は、遠隔通信ネットワーク及び/又はデータネットワークとすることができる。ネットワーク1930は、1つ以上のコンピュータサーバを含み得るのであり、これによってクラウドコンピューティング等の分散コンピューティングを可能とし得る。一部の場合は、コンピュータシステム1901の助けを借りて、ネットワーク1930は、P2Pネットワークを実装でき、これによってコンピュータシステム1901に結合された装置がクライアント又はサーバとして振る舞うことを可能とし得る。
【0242】
CPU1905は、マシン可読命令のシーケンスを実行可能であり、これはプログラム又はソフトウェアに化体していることができる。命令は例えばメモリ1910等のメモリ位置に格納されていることができる命令はCPU1905へと仕向けられることができ、後にそれによってCPU1905に対してプログラミング又は他の態様での構成をなして本開示の方法を実装することができる。CPU1905によってなされるオペレーションの例としては、フェッチ、復号、実行、及びライトバックが含まれ得る。
【0243】
CPU1905は集積回路等とされて回路の一部とされ得る。システム1901の1つ以上のコンポーネントは、回路に含まれ得る。一部の場合、回路はASICである。
【0244】
記憶ユニット1915は、ドライバやライブラリや保存済みプログラムなどのファイルを記憶することができる。記憶ユニット1915は、ユーザ選択やユーザプログラム等のユーザデータを記憶することができる。コンピュータシステム1901は、一部の場合、コンピュータシステム1901との関係で外部にある1つ以上の追加のデータ記憶ユニットを含み得るのであり、例えばこれはイントラネット又はインターネットを介してコンピュータシステム1901と通信可能とされているリモートサーバ上に配置されていることができる。
【0245】
コンピュータシステム1901は、ネットワーク1930を介して1つ以上のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム1901は、ユーザのリモートコンピュータシステムと通信できる(例えば、コンピュータシステム1901から送信された試料分析の結果を受信及び表示するアプリケーションがインストールされたスマートフォン等)。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば、可搬型PC)、スレート型又はタブレット型PC(例えば、Apple(登録商標)社のiPad(登録商標)、サムスン(登録商標)社のGalaxy Tab(登録商標))、電話、スマートフォン(例えば、Apple(登録商標)社のiPhone(登録商標)、アンドロイド(登録商標)利用可能機器、ブラックベリー(登録商標))、又はPDA(personal digital assistant)が含まれる。ユーザは、ネットワーク1930を介してコンピュータシステム1901にアクセスできる。
【0246】
本明細書で説明された方法の実装態様としては、コンピュータシステム1901の電子的記憶位置(例えば、メモリ1910又は電子的記憶ユニット1915等)上に格納されたマシン(例えば、コンピュータプロセッサ)実行可能コードによることができる。マシン実行可能又はマシン可読コードは、ソフトウェアの態様で提供され得る。使用時においては、コードは、プロセッサ1905によって実行され得る。一部の場合、コードは記憶ユニット1915から検索されて、プロセッサ805による容易なアクセスに備えてメモリ1910上に格納され得る。一部の局面では、電子的記憶ユニット1915は除外されて、マシン実行可能間命令はメモリ1910上に記憶される。
【0247】
コードは、事前コンパイルされており且つコードを実行するように適合させたプロセッサを有するマシンで使用するために構成されているか、又は、ランタイム中にコンパイルされることもできる。コードは、事前コンパイルされた態様で又はその都度コンパイルされた態様で実行できるように選択できるプログラミング言語で供給されることができる。
【0248】
本明細書で提供されるシステム及び方法の態様は、プログラミングで化体され得る。本技術の様々な側面は、典型的には、一種のマシン可読媒体にて搬送されている又は化体されているマシン(又はプロセッサ)実行可能コード及び/又は関連データの態様での「製品」又は「製造品」として観念し得る。マシン実行可能なコードは、メモリ等(例えば、ROM、RAM、フラッシュメモリ)又はハードディスク等の電子記憶ユニットに記憶することができる。「記憶」タイプの媒体は、コンピュータ、プロセッサ等の有体メモリ、又はその関連モジュール、例えば様々な半導体メモリ、テープドライブ、ディスクドライブ等のいずれか又は全てを含むことができ、ソフトウェアプログラミングのための非一時的な記憶域を提供し得る。ソフトウェアの全部又は一部は、インターネット又はその他の通信ネットワークを通じて通信され得る。このような通信により、あるコンピュータ又はプロセッサから別のそれへとソフトウェアをロードすること(例えば、管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへ等)が可能となり得る。したがって、ソフトウェア要素を化体することができる別のタイプのメディアには、ローカル装置間の物理インタフェースを介する等の有線及び光学陸地固定回線ネットワーク及び様々な空中リンクを介して使用されるような、光、電気及び電磁波が含まれる。有線又は無線リンクや光リンク等のそのような波が伝播していく物理要素も、ソフトウェアを化体する媒体とみなし得る。本明細書で使用する場合、非一時的有形「記憶」媒体に限定されない限り、コンピュータ又はマシン「可読媒体」等の用語は、実行のためにプロセッサへの命令の提供に関与する任意の媒体を指す。
【0249】
したがって、コンピュータ実行可能コードのようなマシン可読媒体は、有体記憶媒体、搬送波媒体又は物理的伝送媒体を含むがこれらに限定されない多くの態様をとることができる。不揮発性記憶媒体には、例えば、図面に示されたデータベース等を実装するために用いられ得るような任意のコンピュータの任意の記憶装置(例えば、光ディスク又は磁気ディスク)が含まれる。揮発性記憶媒体には、そのようなコンピュータプラットフォームの主メモリ等の動的メモリが含まれる。有体伝送媒体には、同軸ケーブル、銅船及び光ファイバが含まれ、コンピュータシステム内のバスを含むワイヤも含まれる。搬送波伝送媒体は、電気信号若しくは電磁信号、又は音響若しくはRFデータ通信やIRデータ通信で生じるような光波の態様をとり得る。したがって、コンピュータ可読媒体のありふれた形式としては例えば次のものが含まれる:フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意のその他の磁気媒体、CD-ROM、DVD又はDVD-ROM、その他の光学媒体、パンチカード、紙テープ、穴パターンを有する任意のその他の物理記憶媒体、RAM、ROM、PROMお及びEPROM、Flash-EPROM、任意のその他のメモリチップ又はカートリッジ、データ又は命令を搬送する搬送波、このような搬送波を搬送するケーブル又はリンク、或いは、コンピュータがプログラミングコード及び/又はデータを読みとることができる任意のその他の媒体。1つ以上の命令についての1つ以上のシーケンスを実行のためにプロセッサへと伝送するに際して、これらのコンピュータ可読媒体の幾つもの態様が関与し得る。
【0250】
コンピュータシステム1901は、試料分析の結果(例えば、入力シーケンシングデータや出力シーケンシングデータの処理段階及び病理学事項の更なる分類(例えば、疾患又は癌のタイプ及び癌のレベル)についてのグラフィック表示等を含むがこれらに限られない)を提供するためのユーザインタフェース(UI)1940を含む電子ディスプレイ1935を含むかそれと通信可能であることができる。UIの例としては、グラフィカルユーザインタフェース(GUI)及びウェブベースドユーザインタフェースが含まれるもこれらには限定されない。
【0251】
本開示の方法及びシステムは、1つ以上のアルゴリズムをもって実装できる。アルゴリズムは、CPU1905によってソフトウェアを実行することによって実装できる。アルゴリズムは、本明細書で説明された方法の任意のステップをなし得る。
【0252】
実施例1-循環無細胞ゲノムアトラス(CCGA)の研究
循環無細胞ゲノムアトラス(CCGA;NCT02889978)の研究は、前向き型であり多センター型であり観測型であるcfDNAベースドな早期癌検出研究であり、141箇所にて15,254人の人口統計学的に均整のとれた参加者が登録されている。15,254人の登録されている参加者(56%が癌有り、44%が癌無し)から血液試料が収集された。
【0253】
第1のコホートでは、3,583人のCCGA参加者及びSTRIVE参加者(CCGA:1,530人、884人癌無し;STRIVE:1,169人癌無し参加者)から血漿cfDNA抽出物が取得された。STRIVEとは、多センター型であり前向き型であるコホート研究であって、スクリーニングマンモグラフィーを受ける女性が登録されている研究である(99,259人の参加者が登録)。各参加者から採取された血液に対して次の3種のシーケンシング分析がなされた:単ヌクレオチド変種/indelについてのペアcfDNA及び白血球(WBC)ターゲットシーケンシング(507遺伝子、60,000X)(ARTシーケンシング分析)、コピー数変種についてのペアcfDNA及びWBC全ゲノムシーケンシング(WGS、30X)、及びメチル化についての全ゲノムバイサルファイトシーケンシング(WGBS、30X)。
【0254】
第2の予め指定された下位研究では(CCGA-2)、全ゲノム型ではなくターゲット型でなされるバイサルファイトシーケンシング分析を用いて、ターゲットメチル化シーケンシングアプローチに基づいて、癌有り対癌無し並びに原発組織関連の分類器を開発した。CCGA2に関しては、3,133人の訓練参加者及び1,354件の検証サンプル(775は癌有り;579は癌無し、登録時に決定、該事項は癌有り対癌無し状態の確認前)が用いられた。血漿cfDNAに対してはバイサルファイトシーケンシング分析がなされたのであり、メチロームの最も情報が豊富な領域がターゲットされたのであり、これはユニークなメチル化データベース並びに先行するプロトタイプ全ゲノム及びターゲットシーケンシング分析によって識別されているのであり、癌及び組織定義をなすメチル化信号が識別された。訓練用に予約された元の3,133件の試料のうち、1,308件の試料は臨床的に評価可能且つ分析可能とみなされた。分析は、一次分析母集団(n=927(654が癌有り、273が癌無し))及び二次分析母集団(n=1,027(659が癌有り、373が癌無し))に対してなされた。
【0255】
検証試料の分類は、核酸断片のメチル化状態を用いてなされた。2値的な分類のために、観測された核酸断片に対しては、癌由来である相対確率が割り当てられた。同様に、原発組織分類のためには、観測された核酸断片に対しては、特定の組織由来である相対確率が割り当てられた。癌及び原発組織について特徴的な核酸断片をターゲット領域に亘って組み合わせて、癌有りと癌無しとを分類すること及び原発組織を識別することをなした。2値的な分類に関しては、臨床的な感度は特異度99%として推定された。原発組織に関しては、2つの独立したモデルに対してフィッティングがなされたのであり、一方はメチル化データベースを有しており他方はそれを有しておらず;報告された原発組織に関する結果は、予測された原発組織と真の原発組織との間の符合パーセンテージを反映するのであり、これは特異度99%で癌として分類された案件の間でのことである。
【0256】
実施例2:分類器の訓練及び性能
訓練データセットを、2079の試料から生成した。用いられたパッチCNN分類器は543のパッチを含む。したがって、試料毎に543のパッチが計算されて、合計約100万のTensorflow(Google)訓練試料とされた。このデータセットは、パッチCNN分類器を訓練するのに用いられた。訓練データセットにて用いられた2079の試料は複数の研究を含むのであり、次のものが含まれる:CCGA1(1529の試料)、CCGA2(328の試料)、及びConversant(221の試料)、並びに、複数の生物検体(次のものが含まれる:無細胞DNA(cfDNA)(1343の試料)、フォルマリン固定パラフィン埋め込み(FFPE、formalin-fixed paraffin-embedded)(561の試料)、拡散腫瘍細胞(DTC、disseminated tumor cell)(87の試料)、及び凍結保存(59の試料))。
【0257】
パッチ選択は相互情報方法を用いてなされたのであり、全ての癌タイプペアについて上位5箇所の高度相互情報ゲノミック領域(high-mutual-information genomic region)の選択が含まれる。相互情報は2つの分類タイプ間の関係を説明するのであって、例えば、癌タイプペアに関しての高度相互情報領域(high-mutual-information region)は、第1の癌タイプの試料と第2の癌タイプの試料との間で高度に弁別的なCpGサイトを含む。一部の実施形態でのパッチ選択にて用いられた染色体毎の領域表現は、
図9Aに示される。各選択領域について、近隣CpGサイトがマージされて、また、領域には100個のサイトがパディングされるのであり、興味対象のCpGに対してのセンタリングが維持される。そして、全CpGサイトが包括されるように領域が選択されたが、CCGA1からの若年健常試料を用いての対照群カバレッジがない領域に関しては例外とされた。複数のペア単位での比較が可能であった一部の場合では(例えば、マルチクラス分類器)、高度相互情報領域が選択されたのであって、全てのあり得る癌タイプペアについての高度に弁別的なサイトがモデル中にて表されていた。
【0258】
訓練は、癌タイプ及びステージによって階層化された8重クロス検証によって(例えば、多のものもあり得るも癌試料、非癌試料、癌ステージ、及び/又は原発組織の全ビンに亘って均された分布がもたらされるように全試料を等サイズのビンにビニングすることによって)なされた。クロス検証に際しては、7つ(seven)のビンをもってモデルを訓練し、第8(eighth)のビンをもって評価(evaluated)をなしたのであって、検証(validation)は8回(8 times)反復されたのであって、8つのビン(8 bins)の各々が別個に評価された。一部の実施形態での階層化に用いられる癌タイプは例えば
図9Bに示されており、卵巣癌、子宮癌、胃癌、白血病、結腸直腸癌、前立腺癌、乳癌、肺癌、他の癌タイプ、及び非癌タイプが含まれる。
【0259】
癌対非癌を検出すること(「DETECT」)及び原発組織(「TOO(tissue-of-origin)」)を検出することに関しての分類器の性能は、TOOの場合は
図9Cに示される癌タイプのパネルについて査定(assess)された。更なる詳細に関しては、Oxnard et al., “Simultaneous Multi-cancer Detection and Tissue of Origin (TOO) Localization Using Targeted Bisulfite Sequencing of Plasma Cell-free DNA (cfDNA),” American Society of Clinical Oncology (ASCO) Breakthrough, October 11-13, 2019, Bangkok, Thailandを参照されたいのであり、参照によってこれは取り込まれる。真の陽性は三角形によって表され、真の陰性は円形によって表され、擬陽性及び不定とされた試料はそれぞれ菱形及び正方形によって表される。試料に対しては癌又は非癌のラベル付けがなされ、さらには、癌試料には癌タイプのラベル付けがなされた。全試料は特異度99%で検出された。
図9Cは、癌試料中の擬陽性(菱形)の存在を示すのであり、これらは未診断の血液癌の存在に起因したものと思われる。結果によれば、モデルの更なる最適化をなして、擬陽性の検出を回避できそれによってバックグラウンドを減じ得る。そのような最適化によって、高度のバックグラウンドによって見づらくされずに追加の真の陽性癌試料を検出できるより高感度なモデルが可能となる。
【0260】
パッチCNN分類器の性能は、
図10Aに示されるように、癌ステージによってグルーピングされた癌試料パネルについて査定された。全ての癌試料の検出は、特異度99%にてなされた。1つの例を挙げるに、全ての癌試料についての検出の感度は42.1%であったのであり、全ての癌試料についての原発組織分類の感度は89.7%であったのであり、末期ステージ癌試料に比して早期ステージ癌試料の検出は相対的に低かった(ステージI:10.1%、ステージII:29%、ステージIII:58.3%、ステージIV:79.8%)。もっとも、癌ステージの各グループに関しては、原発組織予測の精度は高かった(感度は約90%)。
図10Bは、2値的な設定下におけるパッチCNN分類器(classifier)の性能について示す(例えば、試料が原発組織やステージ等の3つ以上のラベルにカテゴライズ(categorized)されていない場合)。この例では、試料は、癌又は非癌に分類(classified)されている。2値的な設定では、パッチCNN分類器は、非癌試料には10%未満の平均確率を割り当てたのであり、また、癌試料には約80%の平均確率を割り当てたのであり、2値分類器が高性能を有していることが示される。パッチCNN分類器に関して、特異度98%、99%、及び99.5%について、パラメータを調整すると、結果として、それぞれ感度88%、感度74.36%、及び感度44.23%が得られる。
【0261】
実施例3:Isomapクラスタリングによる性能試験
図11を参照するに、次元縮小法を用いて本開示のパッチCNN分類器用の訓練後生成埋め込み値(活性化)の性能を評価したのであり、アクティベーションとは埋め込み値が試料の分類を予測する能力を指す。ラベルたる0~20によって表された癌試料セットを、分類のために用いた。各試料について、訓練済み特徴抽出機を用いて各パッチに関して特徴を抽出した。各パッチについて、埋め込み値のノルムを計算し、所与の試料中の各パッチについてのノルムを連結させて、試料特徴をもたらした。そして、各試料についての連結されたノルムは、投射によって多様体空間にプロットされた。具体的には、非線形次元縮小法たるIsomapを用いて、N次元空間内にて異なる癌ラベルをクラスタさせた。
図11に示される2次元座標空間におけるx軸及びy軸は、クラスタリングがなされた後の試料間の相対距離を示す。投射によれば、異なる癌ラベルがIsomapの異なる領域へとクラスタリングすることが示されており、埋め込み値は異なるラベルを伴う試料間で判別をなし得るということが示されている。これらの結果の示唆するところによれば、埋め込み値又は埋め込み値のノルムのいずれかを用いれば、性能に関する情報をもたらし得る。
【0262】
実施例4:最大活性化のパッチ頻度による性能試験
図12を参照するに、試料セットを、544個のパッチからなる本開示のパッチCNNモデルを用いて評価したのであり、544個のパッチはヒトゲノムの異なる部分を表している。544個のパッチの各々について、活性化の頻度は、試料セットにわたって決定された。したがって、例を挙げるに、仮に試料セット中の試料2及び10に関して、544個のパッチのうちのパッチ10号が活性化された場合、
図12におけるパッチ10号(
図12においてX=10)に関してのy値は、2となるであろう。具体的には、544個のパッチのうちで試料についての分類を予測する最も高い信号をもたらすパッチが、最大限に活性化されたパッチとみなされた(例えば、埋め込み値が最も弁別的となっている箇所)。544個のパッチのうちの各パッチについては、活性化の頻度は、他の全てのパッチとの比較で各々のパッチが最大限にアクティベートされた回数を決定することによって計算された。
図12によれば、性能の大半は、544個のパッチのうちの約20個から由来しているのであり、特に2個のパッチが特に指示力が高い。したがって、544個のパッチのうちの幾つかのパッチは、他のパッチよりもより頻繁に活性化されるのであり、そのようなパッチが分類器性能の決め手となっているのであろう。例えば、特定のパッチは、異なる分類タイプに関して特化していることが可能である(例えば、癌及び/又は非癌)。さらに、指示力が高いパッチIDは、高度に差別的なCpGサイトを含んでいる可能性が高く、パッチ選択を査定及び最適化するための方法が提供される(例えば、パッチのセットを最小化して計算の効率を改善したり及び/又はそのコストを削減したりすること)。具体的には、
図12に示されるような性能指標は、新領域選択アルゴリズムをブートストラップするに際して訓練済み特徴抽出モデルを導くのに用い得る。
【0263】
実施例5:t-SNEクラスタリングによる性能試験
図13及び14を参照するに、t-SNEクラスタリングは、試料セットに関して、最大限に活性化されたパッチたる上位6個(
図13)又は上位3個(
図14)についての埋め込み値を用いて、なされた。実施例4との関係で上述したように、最大限に活性化されたパッチは活性化頻度が最高のものをいう(例えば、所与のパッチが他の全てのパッチとの比較で所与の試料について分類を予測する能力)。そして、t-SNEクラスタリングは次元縮小をなして、データを2次元空間上へと投射する。20個の試料を伴うセットは右の凡例によって示されており、試料ラベルは0~20によって表示されており、また、グラフ上の各離散的ポイントは試料の断片に対応する。
図13では、ポイントの各クラスタは、上位6個の最大限に活性化されたパッチの1つに対応する。
図13の右手側のクラスタは主に癌試料を含むのであり、各々のクラスタによって表されているパッチは幾つかの異なる癌タイプを弁別可能であることが示されている。この結果は、分類中においてパッチは不等な態様で重み付けされているとの
図12での観測に比類するものである(例えば、一部のパッチは他のそれよりも分類の決め手となること)。
図14を参照するに、上位3個の最大限に活性化されたパッチのt-SNEクラスタリングは離散的なクラスタをもたらさないも、グラフの右手側に沿っては視認可能な癌タイプ密集箇所がある。
【0264】
実施例6:癌ステージによる性能試験
図15に転じるに、本開示のパッチCNNアーキテクチャを用いる分類性能は、癌試料のステージI,II,III,及びIVに関して比較された。データは、循環無細胞ゲノムアトラス(CCGA2)のサブセットから取得されており、また、特異度を98%としてフィルタリングされている。結果として、データセットのモデルについての感度は45%だった分類スコアはy軸に沿って提示されており、0は非癌を表し、1は癌を表す。各離散的ポイントは、試料(例えば、個別の対象)を表す。非情報的な試料は参考としてグラフの右手側に含められている。
図15では、癌ステージの進行と共に分類性能が向上することが示されており、対象が癌を有することに関してはステージIの癌試料に対しては0.4未満の平均確率が割り当てられ、他方で対象が癌を有することに関してはステージIVの癌試料に対しては1の平均確率が割り当てられる。
【0265】
実施例7:原発組織関する性能試験
図16、17A、及び17Bを参照するに、本開示のパッチCNNアーキテクチャを用いる分類器の性能を、様々な原発組織から由来する試料について、評価した。データは、CCGA2から取得した。
図16に転じるに、分類スコアはy軸に沿って提示されており、0は非癌を表し、1は癌を表す。各離散的ポイントは、試料(例えば、個別の対象)を表す。興味深いことに、個別の癌タイプ毎の分類結果は、CCGA1データセットとCCGA2データセットとの間で一貫していた。11種の高信号癌タイプが他の癌タイプに比してより用意に検出可能(例えば、確率が0.6以上)なものとして識別されたのであり、例えば、肛門直腸癌、膀胱癌及び尿路上皮癌、結腸直腸癌、頭部及び頸部癌、肝胆癌、肺癌、リンパ系腫瘍、多発性骨髄腫、卵巣癌、膵臓癌、並びに上部胃腸癌が含まれる。
【0266】
図17A及び17Bは、原発組織に関して「1つ取り出す」方式を用いてなされた混同マトリックス分析の結果を示すのであり、不確定分析なくして予測に関して80%を超える精度が達成され(
図17A)、また、不確定分析を伴った場合は予測に関して約90%の精度が達成された。
【0267】
具体的には、
図17Aにおいて、リンパ系腫瘍の癌試料は84%(84/99)の精度で、肺癌試料は86%(155/181)の精度で正しく分類された。他の高信号癌タイプはまちまちな精度で予測されたのであり、次のものが含まれる:乳癌(62/70で89%)、結腸直腸癌(82/90で91%)、頭部及び頸部癌(45/53で85%)、肝胆癌(21/29で72%)、多発性骨髄腫(22/25で88%)、卵巣癌(22/27で81%)、膵臓癌(50/66で76%)、及び上部胃腸癌(40/51で78%)。
【0268】
図17Bに転じるに、不定試料の除外により、原発組織分類が向上した。リンパ系腫瘍の癌試料は96%(76/79)の精度で、肺癌試料は98.4%(126/140)の精度で正しく分類された。他の高信号癌タイプはまちまちな精度で予測されたのであり、次のものが含まれる:乳癌(41/43で95%)、結腸直腸癌(74/76で97%)、頭部及び頸部癌(35/39で90%)、肝胆癌(20/26で77%)、多発性骨髄腫(21/22で95%)、卵巣癌(19/22で86%)、膵臓癌(42/48で88%)、及び上部胃腸癌(35/39で90%)。
【0269】
実施例8:ハイパーパラメータの符号化
開示されたパッチCNN分類器用のハイパーパラメータに関して符号化及び定義付けを行った。このようなハイパーパラメータの使用により、本開示のパッチCNN分類器は、異なるタイプの実験デザイン、アプリケーション、シーケンシング方法、ストリンジェンシー、精度、及び/又は演算属性に適応及び/又は最適化するために迅速にチューニング及び調整されることが可能となった。調整可能なハイパーパラメータの例を挙げるに、他のものもあるも、パッチの数(例えば、10から1000パッチ)、パッチ毎に評価されるCpGサイト数(例えば、10から1000のCpGサイト又は64から512のCpGサイト等の画像幅や、128のCpGサイト又は256のCpGサイト等の画像幅)、パッチ毎の断片の深さ(例えば、2から1000の断片等の画像高、又は32や50や64や128の断片等の画像高)、パッチ内の断片パッキングの密度、パッチ内の核酸断片を位置付けるのにどのパッキングアルゴリズムが使用されているか等がある。他のものもあるが、追加の例示的なハイパーパラメータとしては、p値(対応するメチル化パターンをコホート内の対応する核酸断片に対して評価した際に、p=0.05又はp=0.001等のp値ハイパーパラメータによって設定されたp値閾値を充足しないそれぞれの各々の核酸断片を、複数の核酸断片から除去することによって、入力された複数の核酸断片に対してプルーニングをなすために用いられる値)、用いたクロスバリデーションの種類(例えば、P×Q倍クロスバリデーション、ここでP及びQは正の整数であり、既述と同一のもの又は異なるもの)、L2正規化ドロップアウト率(例えば、0.250000)、L2正規化初期学習率(例えば、0.000200)、及び、L2正規化係数(例えば、0.010000)が挙げられる。そのような正規化のための損失関数を幾つかのサイクルに亘って行ったのであり、また、感度、特異度、及び精度についてのメトリクスを用いて、ハイパーパラメータの各セットについての分類器の性能を評価した。
【0270】
実施例9:品質管理のための制御データ構造の作成と検証
上述のように、
図3および
図4は、メチル化シーケンシングデータから癌状態の分類に用いられるワークフローを示す。初期の前処理後且つメチル化コール及びp値ベースドプルーニング前に、品質管理及び/又は品質監視をデータに対して行った。検査試料(例えば、癌)を、正常又は健常な試料データを含むデータ構造と比較するために、対照群を用いた。健常対照群のデータ構造を生成するための例示的ワークフローを本明細書にて説明する。健常対照群データ構造を作成するために、解析システム(又は本明細書の他の箇所にて記載される処理システム)は、複数の対象から複数の核酸断片(例えば、cfDNA)を受け取った。各核酸断片のメチル化状態ベクターを識別することによって、対照群用のメチル化状態ベクターのセットを作成した。
【0271】
各核酸断片のメチル化状態ベクトルを用いて、解析システムは、メチル化状態ベクトルを、メチル化サイト(例えば、CpGサイト)の文字列に細分化した。解析システムは、結果として得られる文字列が全て所定長未満になるように、メチル化状態ベクトルを細分化した。例えば、長さ11のメチル化状態ベクトルを長さ3以下の文字列に細分化した場合、長さ3の文字列が9個、長さ2の文字列が10個、及び長さ1の文字列が11個となった。例えば、長さ7のメチル化状態ベクトルを長さ4以下の文字列に細分化した場合、長さ4の文字列が4個、長さ3の文字列が5個、長さ6の文字列が2個及び長さ7の文字列が1個となった。メチル化状態ベクターが指定した文字列長以下の場合、該ベクターのCpGサイトを全て含む単一の文字列に変換された。
【0272】
解析システムは、ベクター中の可能性のあるCpGサイト及び可能性のあるメチル化状態毎に、文字列中の最初のCpGサイトとして指定のCpGサイトを有し且つ該メチル化状態の可能性を有する対照群に存在する文字列数を数えることによって、文字列を集計した。例えば、所与のCpGサイトにて、文字列長が3とされていることを加味すると、23或いは8個の文字列の構成が可能であった。あるCpGサイトで、8つの可能な文字列構成各々について、解析システムは、対照群にて各メチル化状態のベクトルの可能性が何回発生したかを集計した。この例について続けて述べるに、次のような数量を集計する:参照ゲノム中の各開始CpGサイトについて、< Mx, Mx+l, Mx+2>, < Mx, M-, Ux+2 >, ... , < Ux, Ux+l, Ux+2>。解析システムは、各々の開始CpGサイト及び文字列の可能性について、既集計カウントが格納されたデータ構造を、作成した。
【0273】
文字列長に上限を設けることには幾つかの利点がある。第1に、文字列の最大長に応じて、解析システムによって作成されたデータ構造のサイズは劇的にサイズが増大し得る。例えば、文字列の最大長を4にすると、全てのCpGサイトが長さ4の文字列に対して最低でも24個の数を集計しなければならないことを意味する。最大文字列長を5に増大させると、全てのCpGサイトに24個又は16個の追加的数が伴うことになり、集計すべき数(及びコンピュータのメモリ)が以前の文字列長に比して2倍となることを意味する。文字列サイズを削減することで、データ構造の作成及び性能を(例えば、後述のような事後アクセスのための利用)、計算量及び記憶量の観点から合理的に保つことに資する。第二に、最大文字列長の制限に関しての統計的な考慮事項としては、文字列カウントを用いる下流モデルのオーバーフィッティング回避が挙げられる。CpGサイトの長い文字列が結果に対して生物学的に強い影響を及ぼさない場合(例えば、癌の存在を予測する異常性の予測)、CpGサイトの大きな文字列に基づいて確率を計算することは、利用不能かもしれないデータを相当量用いる故に問題があり、したがって、モデルが適切に性能を発揮するにはスパースになりすぎ得る。例えば、事前の100個のCpGサイトに条件付けて異常/癌の確率を計算する際、長さ100のデータ構造中の文字列カウントを利用でき、理想的にはその幾つかは事前100個のメチル化状態に正しく一致する。長さ100の文字列のカウントがスパースである場合、検査(test)試料中の長さ100の文字列が異常か否かを判断するのにデータが不十分となっているかもしれない。
【0274】
データ構造が作成されたらば、解析システムは、データ構造及び/又はデータ構造を利用する下流モデルについて、検証を行う。検証(validation)のあるタイプとしては、対照群のデータ構造内の一貫性を確認(check)し得る。例えば、対照群内に外れ値的な対象、試料、及び/又は断片があった場合、解析システムは様々な計算を行って、それらのカテゴリのどれかから任意の断片を除外するか否かを決定する。代表的な例を挙げるに、健常対照群には、未診断であるも癌であり、異常メチル化断片を含む試料が含まれている。この第一の検証は、健常対照群から癌の可能性のある試料を除外して、対照群の純度に影響を及ぼさないように担保する。
【0275】
第二の検証では、データ構造それ自体(即ち、健常対照群)からのカウントをもって、p値の算出に用いた確率論的モデルを確認している。解析システムが検証群中のメチル化状態ベクトルのp値を生成したらば、解析システムは、そのp値から累積密度関数(CDF、Cumulative Density Function)を構築した。解析システムは、このCDFをもって様々な計算を行って、対照群のデータ構造を検証した。理想的にはCDFがCDF(x) ? xとなる恒等関数以下であるということを1つの検査では用いている。他方で、恒等関数を超過した場合、対照群のデータ構造に用いられている確率論的モデルに何らかの欠陥があることが明らかとなる。例えば、1/100の断片が1/1000のp値スコアを有しており、CDF(1/1000) = 1/100 > 1/1000 を意味する場合、第2のタイプの検証は失敗したのであり、確率論的モデルに問題があることが示されていることになる。
【0276】
第3のタイプの検証では、データ構造の構築に使用された試料とは別の検証用サンプルの健常セットを使用しており、データ構造が適切に構築されているか及びモデルが機能したかどうかを検査している。第3のタイプの検証では、健常対照群(healthy control group)がどの程度良好に健常試料(healthy sample)の分布を一般化したかを数値化している。第3のタイプの検証が棄却となった場合、健常対照群が健常分布(healthy distribution)へと良好には一般化しなかったこととなる。第4のタイプの検証は、非健常検証群(non-healthy validation group)からの試料について検査を行っている。
【0277】
解析システムは、p値を計算したのであり(calculated)、また、非健常検証群のためのCDFを構築するのである(builds)。非健常検証群については、解析システムは、少なくとも一部の試料に関して前述のCDF(x) > xを認めたのであり、換言するに、健常対照群及び健常検証群との関係での第2のタイプの検証及び第3のタイプの検証で予期されていた事象の逆が認められた。第4のタイプの検証が失敗した場合、該モデルが識別するように設計されていた異常性をモデルが適切に識別できていなかったことがこのことによって示される。
【0278】
対照群データ構造の一貫性を検証するために、追加的なワークフローが行われた。解析システムは、対照群と同様の対象、試料、及び/又は断片の組成を有すると思われる検証群を活用した。例えば、解析システムが癌無し健常対象を対照群として選択していた場合、解析システムは検証群についても癌無し健常対象を用いていたことになる。
【0279】
検証ワークフローは、対照群について説明されているように検証群についてのメチル化状態ベクトルのセットを生成することを含む。各メチル化状態ベクトルについてその位置におけるあり得る全てのメチル化状態ベクトルが列挙されたのであり、また、対照群データ構造からのあり得る全てのメチル化状態ベクトルの確率が計算された。そして、計算された確率に基づいて各メチル化状態ベクトルについてp値が計算されたのであり、また、検証群からの全てのp値の累積密度関数(CDF)が生成された。p値スコアは、特定のメチル化状態ベクトル及び他のあり得るメチル化状態ベクトルが対照群にてより低い確率を有するという期待されていたことを、表したのである。したがって、低いp値スコアは対照群内の他のメチル化状態ベクトルと比較して相対的に予期せぬメチル化状態ベクトルに対応し、高いp値スコアは対照群に見出される他のメチル化状態ベクトルと比較して相対的により期待されるメチル化状態ベクトルに対応する。CDFを用いて、対照群データ構造内のp値の一貫性を検証した。
【0280】
実施例10:転移疾患状態の決定
表3は、転移が生じた癌患者からの血漿試料中のcfDNA断片を用いて転移疾患状態を決定することについて幾つかの例を示す。転移過程の決定は、癌の有無及び原発組織(TOO)の検出に用いたものと同じ分類器を用いてなされた。
【0281】
さらなる例を挙げるに、TOO参照データセットは、膵臓癌と肝臓への既知の転移とを伴う18の対象からの血漿試料を含んでいる。これらの18の対象の内、9の対象中の血漿試料中にて肝臓からの信号が見出された。もっとも、膵臓癌を有する残りの対象からの血漿試料中にも肝臓からの信号が認められるも、信号はより希であった。同様に、別の例を挙げるに、TOO参照データセットは、乳癌と、肺、脳、骨、及び肝臓への既知の転移とを伴う4の対象からの血漿試料を含んでいる。脳や骨に転移がある試料は、訓練済み分類器について脳組織を表すクラスがなくとも、乳房以外の原発組織に対して強いクロススコア(例えば、正規化された癌確率)があった。また、骨転移のある試料のクロススコアには、骨髄の一部の細胞に類似したメチル化信号を伴う多発性骨髄腫や肉腫のスコアが含まれていた。
【0282】
別の例では、TOO参照データセットは、肺癌と、骨、脳、心膜、及び肝臓への既知の転移とを伴う13の対象からの血漿試料を含んでいる。骨及び脳への転移を伴う試料については、強いクロススコアがあった(肺以外の組織に関しての正規化された癌確率)。さらなる例では、TOO参照データセットは、結腸直腸癌と肝臓への既知の転移とを伴う10の対象からの血漿試料を含んでいる。結腸直腸癌と肝臓への転移を伴う対象からの試料中の肝細胞からは、明らかに見出されるメチル化信号がもたらされなかった。
【0283】
テーブル3:異なる原発性癌を有する異なる対象に関してのTOO(Tissue-of-Origin、原発組織)結果(癌についての正規化された確率)
【表3-1】
【表3-2】
【表3-3】
【表3-4】
【表3-5】
【表3-6】
【0284】
結論
本明細書で単一のインスタンスとして説明されたコンポーネント、オペレーション又は構造については、複数のインスタンスが提供され得る。様々なコンポーネント、オペレーション、データ記憶部の境界はある程度自由であり、特定のオペレーションは特定の例示的な構成の文脈で説明されている。その他の機能割り当ても想定されるのであり、実装の範囲に含まれ得る。一般に、構成例で別個のコンポーネントとして示された構造及び機能は、組み合わせた構造又はコンポーネントとして実装され得る。同様に、単一のコンポーネントとして提示された構造及び機能は、別個のコンポーネントとして実装され得る。このような及び他のバリエーション、変更、追加、及び改良は、実装の範囲に含まれる。
【0285】
第1や第2等の用語は、様々な要素を説明するために用いられるものと解されるも、これらの要素はこれらの用語によって限定されてはならぬことに留意されたい。これらの用語は、専ら1つの要素を他のそれから区別するために用いられる。例えば、本開示の範囲から逸脱せずに、第1主題を第2主題と称することができ、同様に、第2主題を第1主題と称することができる。第1主題及び第2主題はどちらも主題であるも、それらは同じ主題ではない。
【0286】
本開示で使用される用語は、特定の実施形態について記述することだけを目的としており、本発明を制限することを意図しない。本発明の説明及び添付の特許請求の範囲で使用されるように、単数形の「1(一)」、「前記」、「当該」は、文脈にて別段の明示がない限り、複数形をも含むことが意図される。本開示で用いられる場合、「及び/又は」という用語は、1つ以上の関連付けられた列挙項目の任意の及び全ての可能な組み合わせを指し示すのでありまたそれを包括する。「含む(含み)」、「含んでいる」、「備える」、及び/又は「備えている」という用語は、本開示で用いられる場合、記載される特徴、対象物、ステップ、動作、要素及び/又はコンポーネントが存在することを明示する。しかし当該用語は、1以上の他の特徴、対象物、ステップ、動作、要素、コンポーネント、及び/又はそれらの群が存在すること又は追加されることを排除しない。
【0287】
本明細書で使用する場合、「~ならば」という用語は、文脈に応じて、「~の場合」、「~されたらば」、又は「~と決定されたことに応答して」、又は「~が検出されたことに応答して」を意味すると解釈され得る。同様に、「~と決定された場合」又は「[所定の条件又は事象]が検出された場合」という句は、文脈に応じて「~と決定された際には」又は「~と決定されたことに応答して」又は「[所定の条件又は事象]が検出された場合」又は「[所定の条件又は事象]が検出されたことに応答して」という意味に解釈することができる。
【0288】
前述の説明には、例示的な実装例を具現化するシステム、方法、技術、命令シーケンス、及び計算機プログラム製品の例が含まれている。説明を目的として、多くの特定の詳細は、本発明の主題についての様々な実装例についての理解を提供するために提示した。もっとも、当業者には、本発明の主題についての実装例は、これらの特定の詳細なしに実施され得ることが明らかであろう。一般に、よく知られた命令インスタンス、プロトコル、構造、及び手法については詳細に示していない。
【0289】
上述の説明は、解説目的で特定の実装例を参照して語られた。もっとも、上述の例示的議論は、網羅的なものとなることも、実装例を開示される形態そのものに限定することも意図していない。上述の教示に照らせば、多くの改変及びバリエーションが可能となろう。実装例は諸原理及びそれらの実際的応用について最良に説明するために選定されて説明されているのであり、それによって当業者が諸々の実装例及び様々な実装例を最良に活用することが可能となり、意図される具体的な用途に適した様々な変更を伴うことができる。
【誤訳訂正2】
【訂正対象書類名】特許請求の範囲
【訂正対象項目名】全文
【訂正方法】変更
【訂正の内容】
【特許請求の範囲】
【請求項1】
種に属する検査対象の癌状態を決定する方法であって、該方法は、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを格納するメモリとを備えたコンピュータシステムにてなされるのであって、該少なくとも1つのプログラムは、
A)電子的態様にてデータセットを取得するステップであって、前記データセットは複数の断片中のそれぞれ各々の断片の対応するメチル化パターンを備え、それぞれ各々の断片の前記対応するメチル化パターンは(i)前記検査対象から取得された生物試料中の前記各々の断片を備える1つ以上の核酸試料についてのメチル化シーケンシングによって決定され、且つ(ii)前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含む、取得ステップと、
B)第1のチャンネルを含む第1のパッチを構築するステップであって、前記第1のパッチは前記種の参照ゲノム中の、CpGサイトの第1の独立セットを表し、CpGサイトの前記第1の独立セット中のそれぞれ各々のCpGサイトは前記参照ゲノム中の所定の位置に対応する、構築ステップであって、
前記第1のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み、前記第1の複数のパラメータの各インスタンスは前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み、
当該構築ステップ(B)は、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれ各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入することを含む、構築ステップと、
C)少なくとも前記第1のパッチを分類器に適用してそれによって前記検査対象にての前記癌状態を決定する、適用ステップと、をなすための命令を含む、方法。
【請求項2】
請求項1に記載の方法において、前記少なくとも1つのプログラムは、前記取得ステップ(A)後且つ前記構築ステップ(B)前に:
前記複数の断片から、それぞれ各々の断片であって前記各々の断片中の対応する複数のCpGサイトにわたっての対応するメチル化パターンがp値閾値を充足しないp値を有する断片を除去することによって、前記複数の断片に対してプルーニングを行うプルーニングステップであって、前記各々の断片の前記p値は、前記各々の断片の前記対応するメチル化パターンを、前記各々の断片の前記対応する複数のCpGサイトを有する対応する複数の参照断片中の前記対応する複数のCpGサイトのメチル化パターンの対応する分布と比較することによって決定され、前記対応する複数の参照断片中の各参照断片の前記メチル化パターンは、健常な対象のコホートから取得された生物試料からの核酸についてのメチル化シーケンシングによって取得される、プルーニングステップをなすための命令をさらに含む、方法。
【請求項3】
請求項2に記載の方法において、
前記第1のパッチは、前記第1のチャンネル及び第2のチャンネルを含む複数のチャンネルを含み、
前記第2のチャンネルは、前記第1の複数のパラメータの各インスタンスについての第2の複数のパラメータについての対応するインスタンスを含み、前記第2の複数のパラメータの各インスタンスは、前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのCpGメチル化状態以外の第1の特徴についてのパラメータを含み、
前記構築ステップ(B)は、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれ各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンス並びに前記第2の複数のパラメータの全部又は一部のインスタンスに投入することを含む、方法。
【請求項4】
請求項1に記載の方法において、各々の断片の前記メチル化パターンは前記第1のパッチのCpGサイトの前記第1の独立セット中の各CpGサイトを含まず、前記構築ステップ(B)は、前記複数の断片中の各々の断片について、前記各々の断片内に存するCpGサイトに対応する第1の複数のパラメータの前記インスタンス中のパラメータに投入することを含む、方法。
【請求項5】
請求項1に記載の方法において、前記構築ステップ(B)は、前記複数の断片中の各々の断片について:
i)前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別することと、
ii)前記識別されたパラメータのうちの前記各々の断片の対応するCpGサイトに整列する各パラメータについて、前記各々の断片の前記対応するCpGサイトの前記メチル化状態を割り当てることとを含む、方法。
【請求項6】
請求項3に記載の方法において、前記構築ステップ(B)は、前記複数の断片中の各々の断片について:
i)前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別することと、
ii)前記識別されたパラメータのうちの前記各々の断片の各々のCpGサイトに整列する各パラメータについて、前記各々の断片の前記各々のCpGサイトの前記メチル化状態を割り当てることと、
iii)前記第1の複数のパラメータの前記インスタンスに対応する前記第2のチャンネルの前記第2の複数のパラメータの前記インスタンスの前記第2の複数のパラメータ中の、前記各々の断片の各々のCpGサイトに整列する、前記識別されたパラメータのうちの各パラメータについて、前記各々の断片の前記各々のCpGサイトの前記第1の特徴を割り当てることとを含む、方法。
【請求項7】
請求項6に記載の方法において、前記各々のCpGサイトの前記第1の特徴は前記各々のCpGサイトが所在する前記各々の断片の多重度である、方法。
【請求項8】
請求項6に記載の方法において、前記各々のCpGサイトの前記第1の特徴は:
健常コホートから得られたCpGβ値と、
健常コホート中の所定の組織タイプから得られたCpGβ値と、
前記検査対象から得られたCpGβ値と、
5’及び3’近隣CpGサイトのメチル化状態についてのPearson相関スコアと、
諸対象のコホートに対しての前記検査対象中の前記各々のCpGサイトのメチル化状態についての、Jaccard類似度、ユークリッド距離、マンハッタン距離、最大値、正規化ユークリッド距離、正規化最大値、dice係数、又は余弦係数と、
前記各々の断片の断片p値と、
前記各々のCpGサイトが所在する前記各々の断片の長さと、
断片シーケンス源と、
前記各々のCpGサイトが所在する前記各々の断片の断片マッピング品質スコアと、
前記参照ゲノム中の5’隣接CpGサイトへの距離と、
前記参照ゲノム中の3’隣接CpGサイトへの距離と、
前記各々のCpGサイトが所在する前記各々の断片の多重度と、
前記各々のCpGサイトが所在する遺伝的要素と、
前記各々のCpGサイトが関連付けられている生物学的経路と、
前記各々のCpGサイトが関連付けられている遺伝子と、
前記各々のCpGサイトについてのCpG遷移インパルス関数の値と、
前記各々のCpGサイトについてのCpGラン長符号化(run-length encoding)の値と、
前記各々のCpGサイトが所在する前記断片のリード(read)ストランド配向とからなる群から選択される、方法。
【請求項9】
請求項5又は6に記載の方法において、前記複数の断片中の1つより多い断片は、前記1つより多い断片が共通CpGサイトを有さないことを条件として、前記第1のパッチ中の前記第1のチャンネルの前記第1の複数のパラメータの単一のインスタンスに割り当てられる、方法。
【請求項10】
請求項4に記載の方法において、前記第1の複数のパラメータの前記インスタンス中のパラメータはゼロで埋められている、方法。
【請求項11】
請求項1に記載の方法において、CpGサイトの前記第1の独立セットは前記参照ゲノムのCpGインデックス中にある、方法。
【請求項12】
請求項11に記載の方法において、前記参照ゲノムの前記CpGインデックスは、CpGサイトの前記第1の独立セットに中には所在しないがCpGサイトの前記第1の独立セット内に所在する第2のCpGサイトと第3のCpGサイトとの間の前記参照ゲノム中に位置する第1のCpGサイトを含む、方法。
【請求項13】
請求項1に記載の方法において、
CpGサイトの前記第1の独立セットは、前記参照ゲノムのCpGインデックス中において互いに隣り合う第1のCpGサイトと第2のCpGサイトとを含み、
前記複数の断片中の第1の断片は、前記第1のCpGサイトを含むが前記第2のCpGサイトを含まず、
前記複数の断片中の第2の断片は、前記第2のCpGサイトを含むが前記第1のCpGサイトを含まない、方法。
【請求項14】
請求項1に記載の方法において、前記第1の複数のパラメータのインスタンス中のパラメータは、前記複数の断片中の各々の断片について:
前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化していると決定された場合には、メチル化しているとされ、
前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化していないと決定された場合には、メチル化していないとされ、
前記各々の断片中の前記対応するCpGサイトが前記メチル化シーケンシングによってメチル化している又はメチル化していない以外のものと決定された場合には、それ以外とされる、方法。
【請求項15】
請求項5に記載の方法において、前記第1のチャンネルの前記第1の複数のパラメータの幾つかのインスタンスには各々の断片が割り当てられず、前記少なくとも1つのプログラムは、断片が割り当てられていない前記第1のチャンネルの前記複数のパラメータのインスタンス中にてパラメータについてゼロで埋めるための命令を含む、方法。
【請求項16】
請求項5に記載の方法において、前記識別ステップ(i)では、前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別できず、前記少なくとも1つのプログラムは、前記各々の断片を破棄するための命令をさらに含む、方法。
【請求項17】
請求項5に記載の方法において、前記識別ステップ(i)では、前記第1のパッチの前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別できず、前記少なくとも1つのプログラムは、前記第1のパッチの追加のインスタンスを作成するための命令及び前記各々の断片を前記第1のパッチの前記追加のインスタンスに割り当てるための命令をさらに含む、方法。
【請求項18】
請求項3に記載の方法において、
前記複数のチャンネルは少なくとも3つのチャンネルを含み;
前記第1の複数のチャンネルのうちの第3のチャンネルは、前記第1の複数のパラメータの各インスタンスについての第3の複数のパラメータについての対応するインスタンスを含み、前記第3の複数のパラメータの各インスタンスはCpGサイトの前記第1の独立セット中の各々のCpGサイトの第2の特徴についてのパラメータを含み、前記第2の特徴は:
健常コホートから得られたCpGβ値と、
健常コホート中の所定の組織タイプから得られたCpGβ値と、
前記検査対象から得られたCpGβ値と、
5’及び3’近隣CpGサイトのメチル化状態についてのPearson相関スコアと、
諸対象のコホートに対しての前記検査対象中の前記各々のCpGサイトのメチル化状態についての、Jaccard類似度、ユークリッド距離、マンハッタン距離、最大値、正規化ユークリッド距離、正規化最大値、dice係数、又は余弦係数と、
前記各々の断片の断片p値と、
前記各々のCpGサイトが所在する前記各々の断片の長さと、
断片シーケンス源と、
前記各々のCpGサイトが所在する前記各々の断片の断片マッピング品質スコアと、
前記参照ゲノム中の5’隣接CpGサイトへの距離と、
前記参照ゲノム中の3’隣接CpGサイトへの距離と、
前記各々のCpGサイトが所在する前記各々の断片の多重度と、
前記各々のCpGサイトが所在する遺伝的要素と、
前記各々のCpGサイトが関連付けられている生物学的経路と、
前記各々のCpGサイトが関連付けられている遺伝子と、
前記各々のCpGサイトについてのCpG遷移インパルス関数の値と、
前記各々のCpGサイトについてのCpGラン長符号化(run-length encoding)の値と、
前記各々のCpGサイトが所在する前記断片のリード(read)ストランド配向とからなる群から選択される、方法。
【請求項19】
請求項1に記載の方法において、CpGサイトの前記第1の独立セットは前記参照ゲノム全体から抽出される、方法。
【請求項20】
請求項1に記載の方法において、前記少なくとも1つのプログラムは、
対応する第1のチャンネルを含む第2のパッチを構築するステップであって、前記第2のパッチは前記種の前記参照ゲノム中の、CpGサイトの第2の独立セットを表し、CpGサイトの前記第2の独立セット中のそれぞれ各々のCpGサイトは前記参照ゲノム中の所定の位置に対応し、前記第2のパッチの前記対応する第1のチャンネルは第1の複数のパラメータについての対応する複数のインスタンスを含み、前記第2のチャンネルの前記対応する第1の複数のパラメータの各インスタンスは前記第2のパッチについてのCpGサイトの前記第2の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含むステップと、
CpGサイトの前記第2の独立セットに整列した前記複数の断片中のそれぞれ各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第2のパッチの前記第1の複数のパラメータの全部又は一部のインスタンスに投入して、それによって前記第2のパッチを構築するステップと、をなすための命令をさらに含み、
前記適用ステップ(C)は、前記第1及び第2のパッチを前記分類器に適用して、それによって前記検査対象にての癌状態を決定することをさらに含む、方法。
【請求項21】
請求項20に記載の方法において、
前記第2のパッチは、前記対応する第1のチャンネルを含む対応する複数のチャンネルを含み、
前記第2のパッチの前記対応する複数のチャンネルのうちの対応する第2のチャンネルは、前記第1の複数のパラメータの各インスタンスについての第2の複数のパラメータについての対応するインスタンスを含み、前記第2のパッチの前記第2の複数のパラメータの各インスタンスは、前記第2のパッチについてのCpGサイトの前記第2の独立セット中の各々のCpGサイトのCpGメチル化状態以外の第1の特徴についてのパラメータを含み、
CpGサイトの前記第2の独立セットに整列した前記複数の断片中のそれぞれ各々の断片について、投入するための命令は、前記各々の断片の前記メチル化パターンに基づいて、前記第2のパッチの前記第2の複数のパラメータの前記インスタンスの全部又は一部のインスタンスにさらに投入する、方法。
【請求項22】
請求項20に記載の方法において、CpGサイトの前記第1の独立セットは、CpGサイトの前記第2の独立セットとは重複していない、方法。
【請求項23】
請求項20に記載の方法において、CpGサイトの前記第1の独立セットは、CpGサイトの前記第2の独立セットと重複している、方法。
【請求項24】
請求項20に記載の方法において、前記第1のパッチは、前記第2のパッチとは同等のサイズではあるが前記参照ゲノムの異なる部分を表す、方法。
【請求項25】
請求項20に記載の方法において、前記第1のパッチは前記参照ゲノムの第1の部分を表し、前記第2のパッチは前記参照ゲノムの第2の部分を表し、前記第1の部分のサイズは前記第2の部分のサイズと異なる、方法。
【請求項26】
請求項24又は25に記載の方法において、
CpGサイトの前記第1の独立セットは第1の個数のCpGサイトからなり、
CpGサイトの前記第2の独立セットは第2の個数のCpGサイトからなり、
CpGサイトについての前記第1の個数はCpGサイトについての前記第2の個数と同一である、方法。
【請求項27】
請求項24又は25に記載の方法において、
CpGサイトの前記第1の独立セットは第1の個数のCpGサイトからなり、
CpGサイトの前記第2の独立セットは第2の個数のCpGサイトからなり、
CpGサイトについての前記第1の個数はCpGサイトについての前記第2の個数と異なる、方法。
【請求項28】
請求項1に記載の方法において、1つ以上の核酸試料についての前記メチル化シーケンシングは、(i)全ゲノムメチル化シーケンシング又は(ii)複数の核酸プローブを用いる標的DNAメチル化シーケンシングである、方法。
【請求項29】
請求項28に記載の方法において、1つ以上の核酸試料についての前記メチル化シーケンシングは、複数の核酸プローブを使用し、前記複数の核酸プローブは100個以上のプローブを含む、方法。
【請求項30】
請求項1に記載の方法において、1つ以上の核酸試料についての前記メチル化シーケンシングは、1つ以上の5-メチルシトシン(5mc)及び/又は5-ヒドロキシメチルシトシン(5hmc)を前記各々の断片にて検出する、方法。
【請求項31】
請求項1に記載の方法において、1つ以上の核酸試料についての前記メチル化シーケンシングは、前記各々の断片中の1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンを対応する1つ以上のウラシルに転換することを含む、方法。
【請求項32】
請求項31に記載の方法において、前記1つ以上のウラシルは、前記メチル化シーケンシング中に、1つ以上の対応するチミンとして検出される、方法。
【請求項33】
請求項31に記載の方法において、1つ以上の非メチル化シトシン又は1つ以上のメチル化シトシンの前記転換は、化学転換、酵素転換、又はそれらの組合せを含む、方法。
【請求項34】
請求項1に記載の方法において、
前記少なくとも1つのプログラムは、前記第1のパッチを含む複数のパッチを構築するための命令をさらに含み、それぞれ各々のパッチは前記参照ゲノム中のCpGサイトについての異なる独立セットのためのものであり、
前記構築ステップ(B)は前記第1のパッチを含む複数のパッチを構築し、
前記分類器は複数の訓練済み第1段階モデル及び第2段階モデルを含み、
前記少なくとも前記第1のパッチを分類器に適用するステップは:
複数の特徴要素を含む特徴ベクトルを取得するステップであって、前記複数の特徴要素中の各特徴要素は、前記複数のパッチ中の各々のパッチを前記対応する訓練済み第1段階モデルに適用した際の、前記複数の訓練済み第1段階モデル中の対応する訓練済み第1段階モデルの出力である、ステップと、
前記特徴ベクトルを前記第2段階モデルに適用して、それによって前記検査対象にての前記癌状態を決定するステップとを含む、方法。
【請求項35】
請求項34に記載の方法において、
前記複数の訓練済み第1段階モデル中のそれぞれ各々の訓練済み第1段階モデルは対応する訓練済み畳み込みニューラルネットワークであり、前記第2段階モデルはロジスティック回帰モデルであり、
前記第1のパッチの前記第1のチャンネルは2次元的であり、前記第1のパッチの前記第1の複数のパラメータの前記複数のインスタンスのそれぞれ各々のインスタンスが第1の次元を構成しており、前記第1のパッチの前記第1の複数のパラメータが前記第2の次元を構成している、方法。
【請求項36】
請求項34に記載の方法において、前記複数のパッチは10個のパッチから10000個のパッチとされる、方法。
【請求項37】
請求項34に記載の方法において、前記複数のパッチは100個のパッチから3000個のパッチとされる、方法。
【請求項38】
請求項1に記載の方法において、
前記分類器は複数の第1段階モデル及び動的ニューラルネットワークを含み、
前記少なくとも1つのプログラムは、前記第1のパッチを含む複数のパッチを構築するための命令をさらに含み、それぞれ各々のパッチは前記参照ゲノム中のCpGサイトについての異なるセットのためのものであり、
前記構築ステップ(B)は前記第1のパッチを含む各々のパッチを構築し、
前記少なくとも前記第1のパッチを分類器に適用するステップ(C)は:
C1)前記複数のパッチ中のそれぞれ各々のパッチを前記複数の第1段階モデル中の対応する第1段階モデルに適用するステップであって、前記対応する第1段階モデルは:
i)前記各々のパッチを受けるための各々の入力層であって、前記各々のパッチは第1の次元数を含んでいる、入力層と、
ii)対応する重みセットを含む各々の完全接続埋め込み層であって、前記各々の完全接続埋め込み層は前記各々の入力層の出力を直接的又は間接的に受け取り、前記各々の埋め込み層の各々の出力は前記第1の次元数より少ない第2の次元数とされる、埋め込み層と、
iii)前記各々の完全接続埋め込み層からの出力を直接的又は間接的に受け取る各々の出力層とを含む、ステップと、
C2)前記複数の第1段階モデル中の各訓練済み第1段階モデルのそれぞれ各々の完全接続埋め込み層からの前記各々の出力の集約を、前記動的ニューラルネットワーク内へと入力して、それによって前記検査対象にての癌状態を決定するステップとを含む、方法。
【請求項39】
請求項38に記載の方法において、前記複数の第1段階モデル中のそれぞれ各々の第1段階モデルの前記各々の埋め込み層の前記各々の出力は、32個から1048個の値のセットである、方法。
【請求項40】
請求項39に記載の方法において、前記少なくとも1つのプログラムは対象についてのコホートを用いて前記複数の第1段階モデル及び前記動的ニューラルネットワークを訓練するための命令をさらに含み、前記対象についてのコホートは、前記癌状態に関する第1のラベルを有する、対象についての第1のサブセットと、前記癌状態に関する第2のラベルを有する、対象についての第2のサブセットとを含む、方法。
【請求項41】
請求項40に記載の方法において、前記訓練のための命令は:
a)ランダムな態様で対象についての前記コホートを癌状態、年齢、喫煙状態、又は性別の任意の組合せに基づいて複数の群に階層化する、階層化ステップと、
b)前記複数の群中の第1の群を訓練群として及び前記複数の群の残部を検査群として使用して、前記複数のモデル及び前記動的ニューラルネットワークを前記訓練群に対して訓練する、使用ステップと、
c)前記複数の群中の各群について前記使用ステップ(b)を反復するステップであって、前記複数の群中の各群が前記訓練群として前記使用ステップ(b)の反復回にて用いられるようにする、反復ステップと、
d)分類器性能基準が充足されるまで前記階層化ステップ(a)、使用ステップ(b)、及び反復ステップ(c)を反復するステップと、を含む、方法。
【請求項42】
請求項40又は41に記載の方法において、前記癌状態は原発組織であり、対象についての前記コホート中の各対象は原発組織をもってラベル付けされている、方法。
【請求項43】
請求項42に記載の方法において、前記コホートは、肛門直腸癌、膀胱癌、乳癌、子宮頸癌、結腸直腸癌、頭部及び頸部癌、肝胆癌、子宮内膜癌、腎臓癌、白血病、肝臓癌、肺癌、リンパ系腫瘍、メラノーマ、多発性骨髄腫、骨髄腫瘍、卵巣癌、非ホジキンリンパ腫、膵臓癌、前立腺癌、腎癌、甲状腺癌、上部胃腸癌、尿路上皮癌、又は子宮癌を対象として含む。
【請求項44】
請求項40に記載の方法において、前記癌状態は指定癌のステージであり、対象についての前記コホート中の各対象は指定癌のステージをもってラベル付けされている、方法。
【請求項45】
請求項44に記載の方法において、前記コホートは、肛門直腸癌のステージ、膀胱癌のステージ、乳癌のステージ、子宮頸癌のステージ、結腸直腸癌のステージ、頭部及び頸部癌のステージ、肝胆癌のステージ、子宮内膜癌のステージ、腎臓癌のステージ、白血病のステージ、肝臓癌のステージ、肺癌のステージ、リンパ系腫瘍のステージ、メラノーマのステージ、多発性骨髄腫のステージ、骨髄腫瘍のステージ、卵巣癌のステージ、非ホジキンリンパ腫のステージ、膵臓癌のステージ、前立腺癌のステージ、腎癌のステージ、甲状腺癌のステージ、上部胃腸癌のステージ、尿路上皮癌のステージ、又は子宮癌のステージを対象として含む。
【請求項46】
請求項41に記載の方法において、前記癌状態は対象が癌を有するか否かであり、前記階層化ステップ(a)は、前記複数の群中の各群が癌を有する対象数と癌を有さない対象数とを等しく有することを担保する、方法。
【請求項47】
請求項40から46のいずれか一項に記載の方法において、前記訓練によって、前記訓練中に前記複数のパッチ中のそれぞれ各々のパッチの各々の出力層から提供された値に基づいたL1又はL2正規化を用いて前記複数のパッチ中の1つ以上のパッチが除去される、方法。
【請求項48】
請求項1に記載の方法において、前記第1の複数のパラメータの前記複数のインスタンスは24個から2048個である、方法。
【請求項49】
請求項1に記載の方法において、前記第1の複数のパラメータの前記複数のインスタンス中のインスタンス数は、前記複数の断片の期待リード深度に前記複数の断片にわたっての1標準偏差が加わったものに基づいて決定される、方法。
【請求項50】
請求項1に記載の方法において、前記構築ステップ(B)は、前記第1のパッチに割り当てられた各々の断片を、それらの各々のp値又は前記参照ゲノムにおけるそれらの開始位置に基づいて、ソートすることをさらに含む、方法。
【請求項51】
請求項1から50のいずれか一項に記載の方法において、前記少なくとも1つのプログラムは、複数の臨床的対象を備える臨床的コホートから取得された複数の臨床的生物試料の複数の臨床的核酸試料から取得された複数の臨床的断片のメチル化シーケンシングによって決定された複数のCpGメチル化パターンの評価を介して、前記第1のパッチのCpGサイトの前記第1の独立セットを選択する、選択ステップのための命令をさらに含み、前記複数の臨床的対象は、前記癌状態に関する第1の兆候を有する臨床的対象についての第1のセットと前記癌状態に関する第2の兆候を有する臨床的対象についての第2のセットとを含む、方法。
【請求項52】
請求項51に記載の方法において、前記選択ステップのための命令は:
臨床的対象についての前記第1のセットと臨床的対象についての前記第2のセットとの間での前記複数のCpGサイト中の各CpGサイトのメチル化状態についての各々の第1の相互情報スコアに基づいて、複数のCpGサイトの前記参照ゲノム内での第1の順位を決定するステップと、
前記順位を用いて、前記第1のパッチについてのCpGサイトの前記対応する独立セットについてのCpGサイトの第1の閾値個数を選択するステップとを含む、方法。
【請求項53】
請求項51に記載の方法において、
前記複数の臨床的対象は、前記癌状態に関する第3の兆候を有する臨床的対象についての第3のセットと前記癌状態に関する第4の兆候を有する臨床的対象についての第4のセットとを含み、前記選択ステップのための命令は:
臨床的対象についての前記第3のセットと臨床的対象についての前記第4のセットとの間での前記複数のCpGサイト中の各CpGサイトのメチル化状態についての各々の第2の相互情報スコアに基づいて、前記複数のCpGサイトの前記参照ゲノム内での第2の順位を決定するステップと、
前記第2の順位を用いて、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの第2の閾値個数を選択するステップとを含む、方法。
【請求項54】
請求項52に記載の方法において、前記構築ステップ(B)は、前記第1のパッチに割り当てられた各々の断片を、それらの第1の相互情報スコアに基づいて、ソートすることをさらに含む、方法。
【請求項55】
請求項51に記載の方法において、前記癌状態についての第1の兆候は第1の癌タイプであり、前記癌状態についての第2の兆候は第2の癌タイプである、方法。
【請求項56】
請求項52に記載の方法において、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの前記第1の閾値個数中のそれぞれ各々のCpGサイトは、CpGサイトの前記第1の閾値個数の中のあらゆる他のCpGサイトから前記参照ゲノム内において閾値個数の剰余部をもってパディングされる、方法。
【請求項57】
請求項51に記載の方法において、前記選択ステップのための命令は:
臨床的対象についての前記第1のセットと臨床的対象についての前記第2のセットとの間での前記複数の固定長領域中の各固定長領域のCpGサイトメチル化パターンのメチル化状態についての各々の第1の相互情報スコアに基づいて、前記参照ゲノム内での複数の固定長領域の第1の順位を決定するステップと、
前記第1の順位を用いて、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの第1の閾値個数を、前記複数の固定長領域中のそれらの固定長領域から、選択するステップとを含む、方法。
【請求項58】
請求項57に記載の方法において、
前記複数の臨床的対象は、前記癌状態に関する第3の兆候を有する臨床的対象についての第3のセットと前記癌状態に関する第4の兆候を有する臨床的対象についての第4のセットとを含み、前記選択ステップのための命令は:
臨床的対象についての前記第3のセットと臨床的対象についての前記第4のセットとの間での前記複数の固定長領域中の各固定長領域のCpGサイトメチル化パターンのメチル化状態についての各々の第2の相互情報スコアに基づいて、前記参照ゲノム内での前記複数の固定長領域の第2の順位を決定するステップと、
前記第2の順位を用いて、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの第2の閾値個数を選択するステップとを含む、方法。
【請求項59】
請求項57に記載の方法において、前記構築ステップ(B)は、前記第1のパッチに割り当てられた各々の断片を、それらの第1の相互情報スコアに基づいて、ソートすることをさらに含む、方法。
【請求項60】
請求項57に記載の方法において、前記癌状態についての第1の兆候は第1の癌タイプであり、前記癌状態についての第2の兆候は第2の癌タイプである、方法。
【請求項61】
請求項57に記載の方法において、前記第1のパッチのCpGサイトの前記第1の独立セットについてのCpGサイトの前記第1の閾値個数中のそれぞれ各々のCpGサイトは、CpGサイトの前記第1の閾値個数の中のあらゆる他のCpGサイトから前記参照ゲノム内において閾値個数の剰余部をもってパディングされる、方法。
【請求項62】
請求項1から61のいずれか一項に記載の方法において、前記1つ以上の核酸試料は無細胞核酸試料である、方法。
【請求項63】
種に属する検査対象の癌状態を決定するためのコンピュータシステムであって、該コンピュータシステムは、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを格納するメモリであって、該少なくとも1つのプログラムは、
A)電子的態様にてデータセットを取得するステップであって、前記データセットは複数の断片中のそれぞれ各々の断片の対応するメチル化パターンを備え、それぞれ各々の断片の前記対応するメチル化パターンは(i)前記検査対象から取得された生物試料中の前記各々の断片を備える1つ以上の核酸試料についてのメチル化シーケンシングによって決定され、且つ(ii)前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含む、取得ステップと、
B)第1のチャンネルを含む第1のパッチを構築するステップであって、前記第1のパッチは前記種の参照ゲノム中の、CpGサイトの第1の独立セットを表し、CpGサイトの前記第1の独立セット中のそれぞれ各々のCpGサイトは前記参照ゲノム中の所定の位置に対応する、構築ステップであって、
前記第1のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み、前記第1の複数のパラメータの各インスタンスは前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み、
当該構築ステップ(B)は、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれ各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入することを含む、ステップと、
C)少なくとも前記第1のパッチを分類器に適用してそれによって前記検査対象にての前記癌状態を決定する、適用ステップと、をなすための命令を含む、メモリとを備える、コンピュータシステム。
【請求項64】
プロセッサによって実行されると、前記プロセッサに、種に属する検査対象の癌状態を決定する方法を行わせるプログラムコード命令が格納された非一時的コンピュータ可読記憶媒体であって、該命令は、
A)電子的態様にてデータセットを取得するステップであって、前記データセットは複数の断片中のそれぞれ各々の断片の対応するメチル化パターンを備え、それぞれ各々の断片の前記対応するメチル化パターンは(i)前記検査対象から取得された生物試料中の前記各々の断片を備える1つ以上の核酸試料についてのメチル化シーケンシングによって決定され、且つ(ii)前記各々の断片中の対応する複数のCpGサイト中の各CpGサイトのメチル化状態を含む、取得ステップと、
B)第1のチャンネルを含む第1のパッチを構築するステップであって、前記第1のパッチは前記種の参照ゲノム中の、CpGサイトの第1の独立セットを表し、CpGサイトの前記第1の独立セット中のそれぞれ各々のCpGサイトは前記参照ゲノム中の所定の位置に対応する、構築ステップであって、
前記第1のパッチの前記第1のチャンネルは第1の複数のパラメータについての複数のインスタンスを含み、前記第1の複数のパラメータの各インスタンスは前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含み、
当該構築ステップ(B)は、CpGサイトの前記第1の独立セットに整列した前記複数の断片中のそれぞれ各々の断片について、前記各々の断片の前記メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入することを含む、ステップと、
C)少なくとも前記第1のパッチを分類器に適用してそれによって前記検査対象にての前記癌状態を決定する、適用ステップとを含む、非一時的コンピュータ可読記憶媒体。
【請求項65】
種に属する検査対象の癌状態を決定する方法であって、該方法は、
A)1つ以上のプロセッサを介して、訓練データセットを1つ以上の訓練対象から取得するステップであって、前記訓練データセットは、前記1つ以上の訓練対象から取得された1つ以上の生物試料中の複数の断片の1つ以上の訓練メチル化パターンと、前記1つ以上の訓練メチル化パターンに関連付けられている1つ以上の所定の癌状態とを含む、ステップと、
B)前記1つ以上のプロセッサを介して、前記訓練データセットに基づいて1つ以上のパッチを構築するステップであって、前記1つ以上のパッチの各パッチは、1つ以上のチャンネルを含み、前記種の参照ゲノム中の1つ以上のCpGサイトを表し、前記1つ以上のCpGサイトの各CpGサイトは、前記参照ゲノム中の所定の位置に対応する、ステップと、
C)前記1つ以上のプロセッサを介して、前記1つ以上のパッチ及び前記訓練データセットに基づいて計算モデルを訓練するステップと、
D)1つ以上のプロセッサを介して、前記検査対象から検査データセットを取得するステップであって、前記検査データセットは、前記検査対象から取得された1つ以上の生物試料中の複数の断片の1つ以上の検査メチル化パターンを含む、ステップと、
E)1つ以上のプロセッサを介して、前記検査データセット及び前記計算モデルに基づいて前記検査対象の前記癌状態を決定するステップとを含む、方法。
【請求項66】
請求項65に記載の方法において、前記1つ以上の訓練メチル化パターンは、(i)前記1つ以上の訓練対象から取得された前記1つ以上の生物試料中の前記複数の断片を含む1つ以上の核酸試料の少なくとも1つのメチル化シーケンシングによって決定され、(ii)前記1つ以上の訓練対象から取得された前記1つ以上の生物試料中の前記複数の断片中の各CpGサイトの少なくとも1つのメチル化状態を含む、方法。
【請求項67】
請求項65に記載の方法において、前記1つ以上の検査メチル化パターンは、(i)前記検査対象から取得された前記1つ以上の生物試料中の前記複数の断片を含む1つ以上の核酸試料のメチル化シーケンシングによって決定され、(ii)前記検査対象から取得された前記1つ以上の生物試料中の前記複数の断片中の各CpGサイトの少なくとも1つのメチル化状態を含む、方法。
【請求項68】
請求項65に記載の方法において、前記計算モデルは畳み込みニューラルネットワークと第2段階モデルとを備える、方法。
【請求項69】
請求項65に記載の方法において、前記ステップ(B)の前に、前記複数の断片からそれぞれ各々の断片であって前記各々の断片中の対応する複数のCpGサイトにわたっての対応するメチル化パターンがp値閾値を充足しないp値を有する断片を除去することによって、前記複数の断片に対してプルーニングを行うプルーニングステップを含む、方法。
【請求項70】
請求項69に記載の方法において、前記各々の断片の前記p値は、健常な対象のコホートから取得された1つ以上の生物試料からの核酸についてのメチル化シーケンシングによって取得された複数の参照断片に関連付けられているメチル化パターンに基づいて決定される、方法。
【請求項71】
請求項65に記載の方法において、前記1つ以上のチャンネルは第1のチャンネルを含み、前記第1のチャンネルは第1の複数のパラメータの複数のインスタンスを含み、前記第1の複数のパラメータの各インスタンスは前記1つ以上のパッチについてのCpGサイトの第1の独立セット中の各々のCpGサイトのメチル化状態についてのパラメータを含む、方法。
【請求項72】
請求項71に記載の方法において、前記構築ステップ(B)は、CpGサイトの前記第1の独立セットに整列した前記1つ以上の訓練対象から取得された1つ以上の生物試料中の前記複数の断片中のそれぞれ各々の断片について、前記各々の断片の前記訓練メチル化パターンに基づいて、前記第1の複数のパラメータの全部又は一部のインスタンスに投入することを含む、方法。
【請求項73】
請求項71に記載の方法において、前記構築ステップ(B)は、前記複数の断片中の各々の断片について:
i)前記第1のチャンネルの前記第1の複数のパラメータのインスタンス内にて、前記各々の断片中の前記CpGサイトに対応する、前記複数の断片中の別の断片に基づいてメチル化状態が以前に割り当てられていないパラメータを識別することと、
ii)前記識別されたパラメータのうちの前記各々の断片の対応するCpGサイトに整列する各パラメータについて、前記各々の断片の前記対応するCpGサイトの前記メチル化状態を割り当てることとを含む、方法。
【請求項74】
請求項71に記載の方法において、前記1つ以上のチャンネルは第2のチャンネルを含み、前記第2のチャンネルは前記第1の複数のパラメータの各インスタンスについての第2の複数のパラメータについての対応するインスタンスを含み、前記第2の複数のパラメータの各インスタンスは、前記第1のパッチについてのCpGサイトの前記第1の独立セット中の各々のCpGサイトのCpGメチル化状態以外の第1の特徴についてのパラメータを含む、方法。
【請求項75】
請求項74に記載の方法において、前記1つ以上のチャンネルは第3のチャンネルを含み、前記第3のチャンネルは前記第1の複数のパラメータの各インスタンスについての第3の複数のパラメータについての対応するインスタンスを含み、前記第3の複数のパラメータの各インスタンスはCpGサイトの前記第1の独立セット中の各々のCpGサイトの第2の特徴についてのパラメータを含む、方法。
【請求項76】
請求項74に記載の方法において、前記各々のCpGサイトの前記第1の特徴は前記各々のCpGサイトが所在する前記各々の断片の多重度である、方法。
【請求項77】
請求項74に記載の方法において、前記各々のCpGサイトの前記第1の特徴は、
健常コホートから得られたCpGβ値と、
健常コホート中の所定の組織タイプから得られたCpGβ値と、
前記検査対象から得られたCpGβ値と、
5’及び3’近隣CpGサイトのメチル化状態についてのPearson相関スコアと、
諸対象のコホートに対しての前記検査対象中の前記各々のCpGサイトのメチル化状態についての、Jaccard類似度、ユークリッド距離、マンハッタン距離、最大値、正規化ユークリッド距離、正規化最大値、dice係数、又は余弦係数と、
前記各々の断片の断片p値と、
前記各々のCpGサイトが所在する前記各々の断片の長さと、
断片シーケンス源と、
前記各々のCpGサイトが所在する前記各々の断片の断片マッピング品質スコアと、
前記参照ゲノム中の5’隣接CpGサイトへの距離と、
前記参照ゲノム中の3’隣接CpGサイトへの距離と、
前記各々のCpGサイトが所在する前記各々の断片の多重度と、
前記各々のCpGサイトが所在する遺伝的要素と、
前記各々のCpGサイトが関連付けられている生物学的経路と、
前記各々のCpGサイトが関連付けられている遺伝子と、
前記各々のCpGサイトについてのCpG遷移インパルス関数の値と、
前記各々のCpGサイトについてのCpGラン長符号化(run-length encoding)の値と、
前記各々のCpGサイトが所在する前記断片のリード(read)ストランド配向、のうちの少なくとも1つを含む、方法。
【請求項78】
請求項65に記載の方法において、前記1つ以上のプロセッサを介して、前記癌状態を、前記検査対象のユーザ装置に関連付けられている電子記録へと、送信するステップをさらに含む、方法。
【請求項79】
請求項65に記載の方法において、前記癌状態は癌のレベルと、原発組織と、転移性疾患ステータスとを含む、方法。
【請求項80】
請求項68に記載の方法において、前記畳み込みニューラルネットワークは予め訓練された畳み込みニューラルネットワークである、方法。
【請求項81】
請求項80に記載の方法において、前記予め訓練された畳み込みニューラルネットワークはカスタマイズされたVGG-11畳み込みニューラルネットワークを含み、前記カスタマイズされたVGG-11畳み込みニューラルネットワークはカスタマイズされたフィルタサイズ及び活性化関数を有する、方法。
【請求項82】
請求項65に記載の方法において、1つ以上の生物学的先行事項を用いて前記計算モデルを更新するステップをさらに含む、方法。
【誤訳訂正3】
【訂正対象書類名】図面
【訂正対象項目名】全図
【訂正方法】変更
【訂正の内容】
【国際調査報告】