(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-02-24
(54)【発明の名称】メチル化情報を用いた細胞源分画を推定するシステムおよび方法
(51)【国際特許分類】
G16B 40/20 20190101AFI20230216BHJP
G01N 33/53 20060101ALI20230216BHJP
G01N 33/574 20060101ALI20230216BHJP
G16H 10/40 20180101ALI20230216BHJP
C12Q 1/6806 20180101ALN20230216BHJP
C12Q 1/6869 20180101ALN20230216BHJP
【FI】
G16B40/20
G01N33/53 M
G01N33/574 Z
G16H10/40
C12Q1/6806 Z
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022530797
(86)(22)【出願日】2020-12-18
(85)【翻訳文提出日】2022-07-07
(86)【国際出願番号】 US2020066217
(87)【国際公開番号】W WO2021127565
(87)【国際公開日】2021-06-24
(32)【優先日】2019-12-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522105894
【氏名又は名称】グレイル エルエルシー
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100211395
【氏名又は名称】鈴木 裕貴
(72)【発明者】
【氏名】ジン シャン
(72)【発明者】
【氏名】ロバート エイブ ペイン キャレフ
【テーマコード(参考)】
4B063
5L099
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QA19
4B063QQ03
4B063QQ42
4B063QQ52
4B063QR08
4B063QR32
4B063QR35
4B063QR55
4B063QR62
4B063QR72
4B063QS10
4B063QS14
4B063QS25
4B063QS34
4B063QS39
5L099AA03
(57)【要約】
対象の細胞源分画を推定するための複数の特徴を特定する方法が提供される。複数のトレーニング対象における各トレーニング対象について、対応するトレーニング用の複数のセルフリー断片における各セルフリー断片の対応するメチル化パターンと、対応する対象の癌の徴候とが取得される。各セルフリー断片は、複数のビン内のビンにマッピングされ、各ビンは、ヒト参照ゲノムの一部を表す。各セルフリー断片の対応するメチル化パターンを分類器に入力すると、分類器の機能として、セルフリー断片の癌の状態が各セルフリー断片に割り当てられる。対象の癌の状態とセルフリー断片の癌の状態との間の関連性の基準がビン毎に決定される。対象の細胞源分画を推定するための複数の特徴は、複数のビンのサブセットとして識別される。
【特許請求の範囲】
【請求項1】
対象細胞源率を推定するための複数の特徴量を特定する方法であって、該方法は、以下を含む
1つ以上のプロセッサと、前記1つ以上のプロセッサが実行するための1つ以上のプログラムを記憶するメモリとを有するコンピュータシステムにおいて
A)電子形式の訓練データセットを取得するステップであって、該訓練データセットは、複数の訓練対象におけるそれぞれの訓練対象について、以下を含む、ステップ
a)対応するトレーニング用複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンであって、それぞれの無細胞断片の対応するメチル化パターンは、(i)それぞれのトレーニング対象から得られた対応する生体試料におけるそれぞれの断片を含む1以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片における対応する複数のCpG部位におけるそれぞれのCpG部位がメチル化状態を含んで成るもの、及び
それぞれの訓練対象者の対象癌表示であって、対象癌状態が、第1の癌状態及び第2の癌状態のうちの1つである、対象癌表示
B)各複数の無細胞断片中の各無細胞断片を複数のビン中のビンにマッピングし、複数のビン中のそれぞれのビンがヒト参照ゲノムの対応する部分を表し、それによって無細胞断片の複数のトレーニングセットを得、無細胞断片の各トレーニングセットは複数のビン中の異なるビンにマッピングされること
C)無細胞断片の複数の訓練セットにおける無細胞断片の各訓練セット内のそれぞれの無細胞断片に無細胞断片癌状態を割り当てることであって、無細胞断片癌状態は第1の癌状態及び第2の癌状態のいずれかである、それぞれの無細胞断片のメチル化パターンを分類器に入力する際の分類器の出力の関数として、無細胞断片癌状態を割り当てること
D)複数のビンのそれぞれのビンについて、(a)複数の訓練被験者のそれぞれの訓練被験者の癌状態と、(b)それぞれのビンに対応する無細胞断片の対応する訓練セットのそれぞれの無細胞断片の癌状態との間の 関連性の対応する測定値Iを 決定し;そして
E)対象細胞源率を推定するための複数の特徴を複数のビンのサブセットとして特定するステップであって、複数のビンのサブセットにおけるそれぞれのそれぞれのビンが、それぞれのビンについての対応する関連性の尺度に基づく選択基準を満たす、ステップと、を含む。
【請求項2】
を含む手順により、被験者の細胞源分画を推定することをさらに含む、請求項1に記載の方法
試験用の複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンを電子的形態で取得することであって、それぞれの無細胞断片の対応するメチル化パターンは、(i)試験対象から得られた生体試料中のそれぞれの断片を含む一つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態を含んでなる、ことを特徴とする、取得すること。
複数のテスト用無細胞断片の各無細胞断片を複数のビン内のビンに対応付け、複数のテスト用無細胞断片のセットを取得し、各テスト用無細胞断片のセットは複数のビン内の異なるビンに対応付けされる。
無細胞断片の各テストセットにおけるそれぞれの無細胞断片の癌状態を、それぞれの無細胞断片のメチル化パターンを分類器に入力した際の分類器の出力の関数として割り当てること。
複数のビンのサブセットにわたる無細胞断片の各テストセットにおいて、第1の癌状態を割り当てられたテスト対象からの無細胞断片の数の中心傾向の第1の尺度を計算すること。
複数のビンのサブセットにわたる無細胞断片の各テストセットにおけるテスト対象からの無細胞断片の数の中心傾向の第2の尺度を計算すること;及び
中心傾向の第1の尺度および中心傾向の第2の尺度を用いて、被験者の細胞源分率を推定すること。
【請求項3】
第2の癌の状態が癌の非存在であり、被検者の細胞源画分が被検者の腫瘍画分を含む、請求項2に記載の方法。
【請求項4】
請求項1に記載の方法であって、前記分類器は、形式を有することを特徴とする方法。
[数1]
のうち、どちらかである。
[外]は、第一のがん状態に対する第一のモデルである。「フラグメント」は、それぞれの無細胞フラグメントのメチル化パターンを示す。[外]は、第2の癌の状態に関する第2のモデルであり
それぞれのフラグメントの無細胞化した癌の状態が閾値を満たす場合に、第一の癌の状態に割り当てられる。[外]閾値を満たす場合である。
【請求項5】
請求項4記載の方法において、閾値が1以上10以下であることを特徴とする方法。
【請求項6】
閾値が1、2、3、4、5、6、7、8、9、または10である、請求項4に記載の方法。
【請求項7】
前記関連性の尺度Iが、以下のように計算される、請求項1に記載の方法。
[数2]
のうち、どちらかである。
iとjは集合{第一癌の状態、第二癌の状態}に対する独立したインデックスである。
[外]は、複数の訓練対象者のうち、癌の状態iを有する訓練対象者の数である。
[外]は、複数の訓練被験者のうち、それぞれのビンに対応する1つ以上の無細胞断片を有し、癌状態jが割り当てられた訓練被験者の数である。
[数3]
は、複数の訓練被験者のうち、癌の状態iを有し、かつ癌の状態jを割り当てられたそれぞれのビンに対応する1つ以上の無細胞断片を有する訓練被験者の数であり、このような訓練被験者には、癌の状態jが割り当てられる。[外]は、複数の訓練用被写体における訓練用被写体の数である。[外]は[外]であり、かつ[外]は[外]である。
【請求項8】
前記関連性の尺度は、相関関係、相互情報の尺度、または距離メトリックである、請求項1に記載の方法。
【請求項9】
関連性の尺度がピアソン相関係数である、請求項1に記載の方法。
【請求項10】
関連性の尺度が、調整相関係数、加重相関係数、反射相関係数、または尺度化相関係数である、請求項1に記載の方法。
【請求項11】
複数のビンは、1000ビン以上10万ビン以下からなる、請求項1~10のいずれか1項に記載の方法。
【請求項12】
複数のビンが15,000ビン以上80,000ビン未満で構成される、請求項1~10のいずれか1項に記載の方法。
【請求項13】
複数のビンのそれぞれのそれぞれのビンが、平均して、10~1200個の残基を有する、請求項1~12のいずれか一項に記載の方法。
【請求項14】
複数のビンのそれぞれのそれぞれのビンが、平均して、10~10000個の残基を有する、請求項1~12のいずれか一項に記載の方法。
【請求項15】
中心傾向の第1の測定値が、複数のビンのサブセットにわたる無細胞断片の各テストセットにおいて第1の癌条件を割り当てられた複数のテスト対象者からの無細胞断片の数の算術平均、加重平均、中位、三分平均、ウィンザー化平均、平均、又は最頻値である、請求項2に記載の方法。
【請求項16】
中心傾向の第2の尺度が、複数のビンのサブセットにわたる無細胞断片の各テストセットにおける複数のテスト対象からの無細胞断片の数の算術平均、加重平均、中位、三等分、ウィンソライズ平均、平均、又は最頻値である、請求項2に記載の方法。
【請求項17】
細胞源分率を推定することが、中心傾向の第1の測定値を中心傾向の第2の測定値で割ることを含む、請求項2に記載の方法。
【請求項18】
前記複数の訓練対象は、10個の訓練対象から1000個の訓練対象からなる、請求項1~17のいずれか1項に記載の方法。
【請求項19】
選択基準は、関連性の上位N個の尺度のうちの1つを有するビンの選択を指定し、ここで、Nは50以上の正の整数である、請求項1~18のいずれか1項に記載の方法。
【請求項20】
Nが500以上5000以下である、請求項19に記載の方法。
【請求項21】
Nが800から1500の間である、請求項19に記載の方法。
【請求項22】
メチル化配列決定がペアエンドシーケンスである、請求項1~21のいずれか1項に記載の方法。
【請求項23】
メチル化配列決定がシングルリード配列決定である、請求項1~21のいずれか1項に記載の方法。
【請求項24】
対応するトレーニング用複数個の無細胞断片が、500ヌクレオチド未満の平均長を有する、請求項1~23のいずれか1項に記載の方法。
【請求項25】
第1の癌の状態が癌であり、第2の癌の状態が癌の非存在である、請求項1~24のいずれか一項に記載の方法。
【請求項26】
請求項1~24のいずれか1項に記載の方法であって
第一のがんは、副腎がん、胆道がん、膀胱がん、骨・骨髄がん、脳腫瘍、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝・胆道がん、腎臓がんのいずれかであること。肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫または白血病。
であり、第二の癌の条件は癌がないことである。
【請求項27】
請求項1~24のいずれか1項に記載の方法であって
前記第1の癌の状態は、副腎癌の病期、胆道癌の病期、膀胱癌の病期、骨・骨髄癌の病期、脳腫瘍の病期、乳癌の病期、子宮頸癌の病期、大腸癌の病期、食道癌の病期、胃癌の病期、頭・首のがんの病期、肝・胆道のがんの病期、腎癌の病期、肝がんの病期、等のいずれかである。肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、黒色腫、骨髄腫、白血病のいずれかの病期である。
であり、第二の癌の条件は癌がないことである。
【請求項28】
メチル化シークエンスが全ゲノムメチル化シークエンスである、請求項1記載の方法。
【請求項29】
メチル化配列決定が、複数の核酸プローブを用いた標的配列決定であり、複数のビンの各ビンが、複数の核酸プローブ中の少なくとも1つの核酸プローブと関連付けられている、請求項1に記載の方法。
【請求項30】
複数の核酸プローブが、1,000個以上の核酸プローブ、2,000個以上の核酸プローブ、3,000個以上の核酸プローブ、5,000個以上の核酸プローブ、10,000個以上の核酸プローブまたは1,000個以上30,000個以下の核酸プローブからなる、請求項29に記載の方法。
【請求項31】
複数のビンの各ビンが、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上のCpG部位を含む、請求項1~30のいずれか一項に記載の方法。
【請求項32】
複数のビンの各ビンが、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上の連続したCpGサイトを含む、請求項1から29までのいずれか一項に記載の方法。
【請求項33】
複数のビンの各ビンが、ヒト参照ゲノムにおける2~100個の連続したCpG部位からなる、請求項1~30のいずれか一項に記載の方法。
【請求項34】
対応する生体試料が液体生体試料である、請求項1に記載の方法。
【請求項35】
対応する生体試料が血液試料である、請求項1に記載の方法。
【請求項36】
対応する生体試料が、訓練対象者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる、請求項1記載の方法。
【請求項37】
対応する生体試料が、訓練対象者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、または腹膜液からなる、請求項1記載の方法。
【請求項38】
それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態が、請求項1~37のいずれか一項に記載の方法。
メチル化シークエンスにより、それぞれのCpG部位がメチル化されていると判断された場合にメチル化される。
メチル化シークエンスによってそれぞれのCpG部位がメチル化されていないと判定された場合に、メチル化されていないこと、および
メチル化シークエンスにより、それぞれのCpG部位のメチル化状態をメチル化または非メチル化として判定できない場合、「その他」のフラグが立てられる。
【請求項39】
メチル化配列決定が、それぞれの断片中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する、請求項38に記載の方法。
【請求項40】
メチル化配列決定が、それぞれの断片の配列リードにおける、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンを、対応する1つ以上のウラシルに変換することを含む、請求項38に記載の方法。
【請求項41】
請求項40記載の方法であって、1つ以上のウラシルは、1つ以上の対応するチミンとしてメチル化配列決定中に検出される、方法。
【請求項42】
つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換が、化学的変換、酵素的変換、またはそれらの組み合わせからなる、請求項40に記載の方法。
【請求項43】
請求項4~42のいずれか1項に記載の方法であって
前記第1のモデルは、第1の複数のサブモデルから構成される第1の混合モデルであることを特徴とする。
前記第2のモデルは、第2の複数のサブモデルからなる第2の混合モデルであり、
第1及び第2の複数の サブモデルにおける各サブモデルは、対応する生体試料中の無細胞断片の供給源に対する独立した対応するメチル化モデルを表す。
【請求項44】
各独立対応メチル化モデルが、二項モデル、β二項モデル、独立部位モデルまたはマルコフモデルのうちの1つである、請求項43に記載の方法。
【請求項45】
請求項43に記載の方法であって、以下の通りである。
前記第1の複数のサブモデルにおける2つ以上のサブモデルは、独立したサイトモデルであり
前記第2の複数のサブモデルのうち、2つ以上のサブモデルは、独立したサイトモデルであることを特徴とする。
【請求項46】
マッピングB)の前に、複数の無細胞断片に1つ以上のフィルタ条件を適用することをさらに含む、請求項1~45のいずれか一項に記載の方法。
【請求項47】
請求項46に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件は、前記複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンにp値閾値を適用することであり、前記p値閾値は、メチル化パターンが非癌被験者のコホートにおいて観察される頻度を代表するものである、前記フィルタ条件。
【請求項48】
p値の閾値が0.001と0.20の間である、請求項47に記載の方法。
【請求項49】
コホートが少なくとも20人の被験者を含み、複数の無細胞断片が少なくとも10,000の異なる対応するメチル化パターンを含む、請求項47に記載の方法。
【請求項50】
複数の無細胞断片中のそれぞれの無細胞断片に対応するメチル化パターンが0.10以下、0.05以下、または0.01以下のp値を有するとき、対象からのメチル化パターンについてp値の閾値を満たす、請求項47に記載の方法。
【請求項51】
請求項46に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件とは、前記複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料から測定された対応する複数の配列読み取り値における閾値数の配列読み取り値によって表されるという条件を適用することである、請求項1に記載の方法。
【請求項52】
閾値の数値が2、3、4、5、6、7、8、9、10、または10と100の間の整数である、請求項51に記載の方法。
【請求項53】
請求項46に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件とは、前記複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料中の無細胞核酸の閾値数によって表されるという条件を適用することである、請求項1に記載の方法。
【請求項54】
閾値の数値が2、3、4、5、6、7、8、9、10、または10と100の間の整数である、請求項53に記載の方法。
【請求項55】
請求項46に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件とは、前記複数の無細胞断片におけるそれぞれの無細胞断片が閾値数のCpG部位を有するという条件を適用することである。
【請求項56】
CpG部位の閾値の数が、少なくとも1、2、3、4、5、6、7、8、9又は10CpG部位である、請求項55に記載の方法。
【請求項57】
請求項46に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件は、前記複数の無細胞断片におけるそれぞれの無細胞断片が、閾値以下の塩基対の長さを有するという条件である、請求項1に記載の方法。
【請求項58】
閾値の塩基対の数が、長さ1,000、2,000、3,000、または4,000の連続した塩基対である、請求項57に記載の方法。
【請求項59】
請求項2または3に記載の方法であって、該方法はさらに以下を含むことを特徴とする方法。
取得、マッピング、割り当て、第1及び第2の中心傾向の測定値の計算、並びにエポックにわたる複数の時点におけるそれぞれの時点における被験者の細胞源分率の推定を繰り返し、それによってそれぞれの時点における被験者の、複数の細胞源分率における対応する細胞源分率を取得し;及び
複数の細胞源分画を使用して、エポック期間中の被験者の疾患状態の状態または進行を、エポック期間中の第1の細胞源分画の増加または減少という形で決定すること。
【請求項60】
前記エポックは数ヶ月の期間であり、前記複数の時点の各時点は、前記数ヶ月の期間内の異なる時点である、請求項59に記載の方法。
【請求項61】
ヶ月の期間が4ヶ月未満である、請求項60に記載の方法。
【請求項62】
前記エポックは、年の期間であり、前記複数の時点の各時点は、前記年の期間内の異なる時点である、請求項59に記載の方法。
【請求項63】
年の期間が2年以上10年以下である、請求項62に記載の方法。
【請求項64】
前記エポックは時間の期間であり、前記複数の時点の各時点は、前記時間の期間内の異なる時点である、請求項59に記載の方法。
【請求項65】
時間の期間が1時間から6時間の間である、請求項64に記載の方法。
【請求項66】
請求項59~65のいずれか1項に記載の方法であって、前記方法は、前記被験者の第1の細胞源割合が前記エポックにわたって閾値だけ変化することが観察された場合に、前記被験者の診断を変更することをさらに含む、方法。
【請求項67】
被験者の第1の細胞源分率がエポックにわたって閾値だけ変化することが観察された場合に、被験者の予後を変更することをさらに含む、請求項59~65のいずれか一項に記載の方法。
【請求項68】
被験者の第1の細胞源分率がエポックにわたって閾値だけ変化することが観察されたときに、被験者の治療を変更することをさらに含む、請求項59~65のいずれか一項に記載の方法。
【請求項69】
閾値が、10%より大きい、20%より大きい、30%より大きい、40%より大きい、50%より大きい、2倍より大きい、3倍より大きい、または5倍より大きい、請求項66~68のいずれか1項に記載の方法。
【請求項70】
被験体の腫瘍分画が0.003~1.0である、請求項59~69のいずれか1項に記載の方法。
【請求項71】
請求項2または3に記載の方法であって、該方法はさらに以下を含むことを特徴とする方法。
被験者の細胞源分画の値に少なくとも部分的に基づいて、被験者に 治療レジメンを適用すること。
【請求項72】
治療レジメンが、癌のための薬剤を被験者に適用することを含む、請求項71に記載の方法。
【請求項73】
癌のための薬剤が、ホルモン、免疫療法、放射線療法、または抗癌剤である、請求項72に記載の方法。
【請求項74】
癌のための薬剤が、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、および18型)ワクチンである、請求項72に記載の方法。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ又はそれらの後発品。
【請求項75】
被験者が癌のための薬剤で治療されており、該方法はさらに以下を含む、請求項2または3に記載の方法。
被験者の細胞源分画を使用して、被験者の癌治療薬に対する反応を評価すること。
【請求項76】
癌のための薬剤が、ホルモン、免疫療法、放射線療法、または抗癌剤である、請求項75に記載の方法。
【請求項77】
癌のための薬剤が、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、および18型)ワクチン、である、請求項75に記載の方法。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ又はそれらの後発品。
【請求項78】
被験者が癌のための薬剤で治療されており、該方法はさらに以下を含む、請求項2または3に記載の方法。
被験者の細胞源分画を使用して、被験者の癌に対する薬剤を強化するか中止するかを決定すること。
【請求項79】
被験体が、癌に対処するための外科的介入を受けており、該方法は、さらに以下を含む、請求項2または3に記載の方法。
被験者の細胞源分画を使用して、外科的介入に対応する被験者の状態を評価すること。
【請求項80】
複数のビンのビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上に記載されているゲノム領域に対応する、請求項1~79のいずれか一項に記載の方法。
【請求項81】
複数のビンのビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上に記載されているゲノム領域の少なくとも30%にマッピングする、請求項1~80のいずれか一項に記載の方法。
【請求項82】
複数のビンのビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上に記載のゲノム領域の少なくとも50~95%にマップする、請求項1~81のいずれか一項に記載の方法。
【請求項83】
複数のビンのビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上における1~10の固有の対応ゲノム領域にマッピングする、請求項1~82のいずれか1項に記載の方法。
【請求項84】
複数のビンの各ビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上における単一の固有の対応ゲノム領域にマッピングする、請求項1~83のいずれか一項に記載の方法。
【請求項85】
前記複数の訓練対象におけるそれぞれの訓練対象について、前記訓練用の複数の無細胞断片が、少なくとも100,000個の無細胞断片を含む、請求項1~84のいずれか一項に記載の方法。
【請求項86】
前記複数の訓練対象におけるそれぞれの訓練対象について、前記訓練用の複数の無細胞断片が、少なくとも100,000個の無細胞断片を含む、請求項1~84のいずれか一項に記載の方法。
【請求項87】
前記複数の訓練対象におけるそれぞれの訓練対象について、前記訓練用の複数の無細胞断片が、少なくとも100万個の無細胞断片を含む、請求項1~84のいずれか一項に記載の方法。
【請求項88】
複数のビンの各ビンが、100未満の核酸残基、500未満の核酸残基、1000未満の核酸残基、2500未満の核酸残基、5000未満の核酸残基からなる、請求項1~87のいずれか一項に記載の方法。1万個以下、2万5千個以下、5万個以下、10万個以下、25万個以下、50万個以下の核酸残基。
【請求項89】
被験者の細胞源率を推定するための複数の特徴を特定するためのコンピュータシステムであって、該コンピュータシステムは、以下を備える、コンピュータシステム。
1つまたは複数のプロセッサ;および
メモリであって、該メモリは、該1つ以上のプロセッサによって実行されるための1つ以上のプログラムを格納し、該1つ以上のプログラムは、以下のための命令を含む、メモリ。
A)電子形式の訓練データセットを取得するステップであって、該訓練データセットは、複数の訓練対象におけるそれぞれの訓練対象について、以下を含む、ステップ。
a)対応するトレーニング用複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンであって、それぞれの無細胞断片の対応するメチル化パターンは、(i)それぞれのトレーニング対象から得られた対応する生体試料におけるそれぞれの断片を含む1以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片における対応する複数のCpG部位におけるそれぞれのCpG部位がメチル化状態を含んで成るもの、及び
b)それぞれの訓練対象者の対象癌表示であって、対象癌状態が、第1の癌状態及び第2の癌状態のうちの1つである、対象癌表示。
B)各複数の無細胞断片中の各無細胞断片を複数のビン中のビンにマッピングし、複数のビン中のそれぞれのビンがヒト参照ゲノムの対応する部分を表し、それによって無細胞断片の複数のトレーニングセットを得、無細胞断片の各トレーニングセットが複数のビン中の異なるビンにマッピングされること。
C)無細胞断片の複数の訓練セットにおける無細胞断片の各訓練セット内のそれぞれの無細胞断片に無細胞断片癌状態を割り当てることであって、無細胞断片癌状態は第1の癌状態及び第2の癌状態のいずれかである、それぞれの無細胞断片のメチル化パターンを分類器に入力する際の分類器の出力の関数として、無細胞断片癌状態を割り当てること。
D)複数のビンのそれぞれのビンについて、(a)複数の訓練被験者のそれぞれの訓練被験者の癌状態と、(b)それぞれのビンに対応する無細胞断片の対応する訓練セットのそれぞれの無細胞断片の癌状態との間の 関連性の対応する測定値Iを 決定し;そして
E)対象細胞源率を推定するための複数の特徴を複数のビンのサブセットとして特定するステップであって、複数のビンのサブセットにおけるそれぞれのそれぞれのビンが、それぞれのビンについての対応する関連性の尺度に基づく選択基準を満たす、ステップと、を含む。
【請求項90】
プロセッサによって実行されると、対象細胞源率を推定するための複数の特徴を特定するための方法をプロセッサに実行させるプログラムコード命令をその上に格納した非一時的コンピュータ可読記憶媒体であって、該方法は、以下を含むことを特徴とする非一時的コンピュータ可読記憶媒体。
A)電子形式の訓練データセットを取得するステップであって、該訓練データセットは、複数の訓練対象におけるそれぞれの訓練対象について、以下を含む、ステップ。
a)対応するトレーニング用複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンであって、それぞれの無細胞断片の対応するメチル化パターンは、(i)それぞれのトレーニング対象から得られた対応する生体試料におけるそれぞれの断片を含む1以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片における対応する複数のCpG部位におけるそれぞれのCpG部位がメチル化状態を含んで成るもの、及び
b)それぞれの訓練対象者の対象癌表示であって、対象癌状態が、第1の癌状態及び第2の癌状態のうちの1つである、対象癌表示。
B)各複数の無細胞断片中の各無細胞断片を複数のビン中のビンにマッピングし、複数のビン中のそれぞれのビンがヒト参照ゲノムの対応する部分を表し、それによって無細胞断片の複数のトレーニングセットを得、無細胞断片の各トレーニングセットは複数のビン中の異なるビンにマッピングされること。
C)無細胞断片の複数の訓練セットにおける無細胞断片の各訓練セット内のそれぞれの無細胞断片に無細胞断片癌状態を割り当てることであって、無細胞断片癌状態は第1の癌状態及び第2の癌状態のいずれかである、それぞれの無細胞断片のメチル化パターンを分類器に入力する際の分類器の出力の関数として、無細胞断片癌状態を割り当てること。
D)複数のビンのそれぞれのビンについて、(a)複数の訓練被験者のそれぞれの訓練被験者の癌状態と、(b)それぞれのビンに対応する無細胞断片の対応する訓練セットのそれぞれの無細胞断片の癌状態との間の 関連性の対応する測定値Iを 決定し;そして
E)対象細胞源率を推定するための複数の特徴を複数のビンのサブセットとして特定するステップであって、複数のビンのサブセットにおけるそれぞれのそれぞれのビンが、それぞれのビンについての対応する関連性の尺度に基づく選択基準を満足する、ステップ。
【請求項91】
被験者の細胞源分画を推定する方法であって、該方法は、以下を含む。
1つ以上のプロセッサと、前記1つ以上のプロセッサが実行するための1つ以上のプログラムを記憶するメモリとを有するコンピュータシステムにおいて
複数の無細胞断片中のそれぞれの無細胞断片の対応するメチル化パターンを電子的形態で取得することであって、それぞれの無細胞断片の対応するメチル化パターンは、(i)対象から得られた生体試料中のそれぞれの断片を含む1以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態からなる、取得すること。
複数の無細胞断片の各無細胞断片を複数のビンの中のビンに対応付け、それによって複数の無細胞断片のセットを得、無細胞断片の各セットは複数のビンの中の異なるビンに対応付けられる。
複数の無細胞断片の集合における各無細胞断片に無細胞断片癌状態を割り当てること(ここで、無細胞断片癌状態は、第1の癌状態及び第2の癌状態のうちの1つであり、それぞれの無細胞断片のメチル化パターンを分類器に入力する際の分類器の出力の関数として、無細胞断片癌状態は、複数の無細胞断片の集合における各無細胞断片の集合に割り当てる)。
複数のビンにわたる無細胞断片の各セットにおいて、第1の癌状態が割り当てられた対象からの無細胞断片の数の中心傾向の第1の尺度を計算すること。
複数のビンにわたる無細胞断片の各セットにおける対象からの無細胞断片の数の中心傾向の第2の尺度を計算すること及び
中心傾向の第1の尺度および中心傾向の第2の尺度を用いて、被験者の細胞源分率を推定すること。
【請求項92】
複数のビンが1000ビンから100000ビンの間で構成される、請求項91に記載の方法。
【請求項93】
複数のビンが15,000ビンから80,000ビンの間で構成される、請求項91に記載の方法。
【請求項94】
複数のビンのそれぞれのそれぞれのビンが、平均して、10~1200個の残基を有する、請求項91~93のいずれか一項に記載の方法。
【請求項95】
複数のビンのそれぞれのそれぞれのビンが、平均して、10~10000個の残基を有する、請求項91~93のいずれか一項に記載の方法。
【請求項96】
中心傾向の第1の測定値が、複数のビンにわたる無細胞断片の各セットにおいて第1の癌状態を割り当てられた対象からの無細胞断片の数の算術平均、加重平均、中位、三等分、Winsorized平均、平均、又は最頻値である、請求項91~95のいずれか一項に記載の方法。
【請求項97】
中心傾向の第2の尺度が、複数のビンにわたる無細胞断片の各セットにおける対象からの無細胞断片の数の算術平均、加重平均、中位、中位、トリミン、ウィンソライズ平均、平均、または最頻値である、請求項91~95のいずれか一項に記載の方法。
【請求項98】
細胞源分率を推定することが、中心傾向の第1の測定値を中心傾向の第2の測定値で割ることを含む、請求項91~97のいずれか一項に記載の方法。
【請求項99】
メチル化配列決定がペアエンドシーケンスである、請求項91~98のいずれか1項に記載の方法。
【請求項100】
メチル化配列決定がシングルリード配列決定である、請求項91~98のいずれか1項に記載の方法。
【請求項101】
複数の無細胞断片中の各無細胞断片が500ヌクレオチド未満の平均長を有する、請求項91~100のいずれか一項に記載の方法。
【請求項102】
第1の癌の状態が癌であり、第2の癌の状態が癌の非存在である、請求項91~101のいずれか一項に記載の方法。
【請求項103】
請求項91~102のいずれか1項に記載の方法であって
第一のがんは、副腎がん、胆道がん、膀胱がん、骨・骨髄がん、脳腫瘍、乳がん、子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝・胆道がん、腎臓がんのいずれかであること。肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫または白血病
であり、第二の癌の条件は癌がないことである。
【請求項104】
請求項91~102のいずれか1項に記載の方法であって、
前記第1の癌の状態は、副腎癌の病期、胆道癌の病期、膀胱癌の病期、骨・骨髄癌の病期、脳腫瘍の病期、乳癌の病期、子宮頸癌の病期、大腸癌の病期、食道癌の病期、胃癌の病期、頭・首のがんの病期、肝・胆道のがんの病期、腎癌の病期、肝がんの病期、等のいずれかである。肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、黒色腫、骨髄腫、白血病のいずれかの病期であり、第二の癌の条件は癌がないことである。
【請求項105】
メチル化配列決定が全ゲノムメチル化配列決定である、請求項91に記載の方法。
【請求項106】
メチル化配列決定が、複数の核酸プローブを用いた標的配列決定であり、複数のビンにおけるそれぞれのビンが、複数の核酸プローブにおける少なくとも1つの対応する核酸プローブと関連付けられる、請求項91に記載の方法。
【請求項107】
複数の核酸プローブが、1,000以上の核酸プローブ、2,000以上の核酸プローブ、3,000以上の核酸プローブ、5,000以上の核酸プローブ、10,000以上の核酸プローブまたは1,000核酸プローブ以上30,000核酸プローブ以下からなる、請求項106に記載の方法。
【請求項108】
複数のビンの各ビンが、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上のCpG部位を含む、請求項91~107のいずれか1項に記載の方法。
【請求項109】
複数のビンの各ビンが、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上の連続したCpGサイトを含む、請求項91~107のいずれか一項に記載の方法。
【請求項110】
複数のビンの各ビンが、ヒト参照ゲノムにおける2~100個の連続したCpG部位からなる、請求項91~107のいずれか一項に記載の方法。
【請求項111】
生体試料が液体生体試料である、請求項91~110のいずれか1項に記載の方法。
【請求項112】
生体試料が血液試料である、請求項91~111のいずれか1項に記載の方法。
【請求項113】
生体試料が、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる、請求項91~111のいずれか一項に記載の方法。
【請求項114】
生体試料が、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、または腹膜液からなる、請求項91~111のいずれか1項に記載の方法。
【請求項115】
それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態が、請求項91~114のいずれか一項に記載の方法。
メチル化シークエンスにより、それぞれのCpG部位がメチル化されていると判断された場合にメチル化される。
メチル化シークエンスによってそれぞれのCpG部位がメチル化されていないと判定された場合に、メチル化されていないこと、および
メチル化シークエンスにより、それぞれのCpG部位のメチル化状態をメチル化または非メチル化として判定できない場合、「その他」のフラグが立てられる。
【請求項116】
メチル化配列決定が、それぞれの断片中の1つ以上の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する、請求項91~115のいずれか一項に記載の方法。
【請求項117】
メチル化配列決定が、それぞれの断片の配列リードにおける、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンを、対応する1つ以上のウラシルに変換することを含む、請求項91~116のいずれか一項に記載の方法。
【請求項118】
前記1つまたは複数のウラシルは、前記メチル化配列決定中に、1つまたは複数の対応するチミンとして検出される、請求項117に記載の方法。
【請求項119】
つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換が、化学的変換、酵素的変換、またはそれらの組み合わせからなる、請求項117に記載の方法。
【請求項120】
請求項91~119のいずれか1項に記載の方法であって、
無細胞断片状態を割り当てるために使用される分類器は、第1の癌状態に対する第1のモデルと、第2の癌状態に対する第2のモデルとを備え、ここで前記第1のモデルは、第1の複数のサブモデルからなる第1の混合モデルであり、
前記第2のモデルは、第2の複数のサブモデルからなる第2の混合モデルであり
第1及び第2の複数のサブモデルにおける各サブモデルは、対応する生体試料中の無細胞断片の供給源に対する 独立した対応するメチル化モデルを表す。
【請求項121】
各独立対応メチル化モデルが、二項モデル、ベータ二項モデル、独立部位モデルまたはマルコフモデルのうちの1つである、請求項120に記載の方法。
【請求項122】
請求項120に記載の方法であって、以下の通りである。
前記第1の複数のサブモデルにおける2つ以上のサブモデルは、独立したサイトモデルであり、
前記第2の複数のサブモデルのうち、2つ以上のサブモデルは、独立したサイトモデルであることを特徴とする。
【請求項123】
マッピングB)の前に、複数の無細胞断片に1つ以上のフィルタ条件を適用することをさらに含む、請求項91~122のいずれか一項に記載の方法。
【請求項124】
請求項123に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件は、前記複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンにp値閾値を適用することであり、前記p値閾値は、メチル化パターンが非癌被験者のコホートにおいて観察される頻度を代表するものである、前記フィルタ条件。
【請求項125】
p値の閾値が0.001と0.20の間である、請求項124に記載の方法。
【請求項126】
コホートが少なくとも20人の被験者を含み、複数の無細胞断片が少なくとも10,000の異なる対応するメチル化パターンを含む、請求項124に記載の方法。
【請求項127】
複数の無細胞断片におけるそれぞれの無細胞断片に対応するメチル化パターンが0.10以下、0.05以下、または0.01以下のp値を有するとき、対象からのメチル化パターンについてp値の閾値を満たす、請求項124に記載の方法。
【請求項128】
請求項123に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件とは、前記複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料から測定された対応する複数の配列読み取り値における閾値数の配列読み取り値によって表されるという条件を適用することである。
【請求項129】
前記閾値の数値は、2、3、4、5、6、7、8、9、10、または10と100の間の整数であることを特徴とする請求項128に記載の方法。
【請求項130】
請求項123に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件とは、前記複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料中の無細胞核酸の閾値数によって表されるという条件を適用することである、請求項1に記載の方法。
【請求項131】
前記閾値の数値は、2、3、4、5、6、7、8、9、10、または10と100との間の整数である、請求項130に記載の方法。
【請求項132】
請求項123に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件とは、前記複数の無細胞断片におけるそれぞれの無細胞断片が閾値数のCpG部位を有するという条件を適用することである。
【請求項133】
CpG部位の閾値の数が、少なくとも1、2、3、4、5、6、7、8、9または10CpG部位である、請求項132に記載の方法。
【請求項134】
請求項123に記載の方法であって、以下の通りである。
前記1つ以上のフィルタ条件におけるフィルタ条件は、前記複数の無細胞断片におけるそれぞれの無細胞断片が、閾値以下の塩基対の長さを有するという条件である、請求項1に記載の方法。
【請求項135】
閾値の塩基対の数が、長さ1,000、2,000、3,000、または4,000の連続した塩基対である、請求項135に記載の方法。
【請求項136】
請求項91~135のいずれか1項に記載の方法であって、該方法は、さらに以下を含む。
被験者の細胞源分画の値に少なくとも部分的に基づいて、被験者に治療レジメンを適用すること。
【請求項137】
治療レジメンが、被験者に癌のための薬剤を適用することを含む、請求項136に記載の方法。
【請求項138】
癌のための薬剤が、ホルモン、免疫療法、放射線療法、または癌治療薬である、請求項137に記載の方法。
【請求項139】
癌のための薬剤が、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、及び18型)ワクチンである、請求項137に記載の方法。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ又はそれらの後発品。
【請求項140】
対象が癌のための薬剤で治療されており、本方法はさらに以下を含む、請求項91~135のいずれか1項に記載の方法。
被験者の細胞源分画を使用して、癌治療薬に対する被験者の応答を評価すること。
【請求項141】
癌のための薬剤が、ホルモン、免疫療法、放射線療法、または癌治療薬である、請求項140に記載の方法。
【請求項142】
癌のための薬剤が、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、および18型)ワクチンである、請求項140に記載の方法。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ又はそれらの後発品。
【請求項143】
対象が癌のための薬剤で治療されており、本方法はさらに以下を含む、請求項91~135のいずれか1項に記載の方法。
被験者の 細胞源分画を使用して、被験者の癌のための薬剤を強化するか中止するかを決定すること。
【請求項144】
対象が、癌に対処するための外科的介入を受けており、該方法はさらに以下を含む、請求項91~135のいずれか一項に記載の方法。
被験者の細胞源分画を使用して、外科的介入に対応する被験者の状態を評価すること。
【請求項145】
請求項91~144のいずれか1項に記載の方法であって、該方法は、さらに以下を含む。
取得、マッピング、割り当て、第1及び第2の中心傾向の測定値の計算、並びにエポックにわたる複数の時点におけるそれぞれの時点における被験者の細胞源分画の推定を 繰り返し、それによってそれぞれの時点における被験者の、複数の細胞源分画における対応する細胞源分画を取得し;及び
複数の細胞源分画を使用して、エポック期間中の被験者の疾患状態の状態または進行を、エポック期間中の第1の細胞源分画の増加または減少という形で決定すること。
【請求項146】
前記エポックは数ヶ月の期間であり、前記複数の時点における各時点は、前記数ヶ月の期間における異なる時点である、請求項145に記載の方法。
【請求項147】
ヶ月の期間が4ヶ月未満である、請求項146に記載の方法。
【請求項148】
前記エポックは、年の期間であり、前記複数の時点における各時点は、前記年の期間における異なる時点である、請求項145に記載の方法。
【請求項149】
年の期間が2年以上10年以下である、請求項148に記載の方法。
【請求項150】
前記エポックは時間の期間であり、前記複数の時点の各時点は、前記時間の期間内の異なる時点である、請求項145に記載の方法。
【請求項151】
時間の期間が1時間から6時間の間である、請求項150に記載の方法。
【請求項152】
請求項145に記載の方法であって、前記方法は、前記被験者の第1の細胞源分率が前記エポックにわたって閾値だけ変化することが観察される場合に、前記被験者の診断を変更することをさらに含む、方法。
【請求項153】
前記対象の第1の細胞源分率が、前記エポックにわたって閾値だけ変化することが観察される場合に、前記対象の予後を変更することをさらに含む、請求項145に記載の方法。
【請求項154】
被験者の第1の細胞源分率がエポックにわたって閾値だけ変化することが観察される場合に、被験者の治療を変更することを更に含む、請求項145に記載の方法。
【請求項155】
閾値が、10%より大きい、20%より大きい、30%より大きい、40%より大きい、50%より大きい、2倍より大きい、3倍より大きい、または5倍より大きい、請求項152、153、または154に記載の方法。
【請求項156】
細胞源画分が腫瘍画分である、請求項1~155のいずれか1項に記載の方法。
【請求項157】
腫瘍分画が0.003~1.0である、請求項156に記載の方法。
【請求項158】
複数のビンのビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上に記載されたゲノム領域に対応する、請求項91~157のいずれか一項に記載の方法。
【請求項159】
複数のビンのビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上に記載のゲノム領域の少なくとも30%にマップする、請求項91~158のいずれか一項に記載の方法。
【請求項160】
複数のビンのビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上に記載されているゲノム領域の少なくとも50~95%にマッピングする、請求項91~159のいずれか一項に記載の方法。
【請求項161】
複数のビンのビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1以上の中の1~10の固有の対応ゲノム領域にマッピングする、請求項91~160のいずれか1項に記載の方法。
【請求項162】
複数のビンの各ビンが、国際公開番号WO2019/195268A2の表1~24、国際公開番号WO2020/154682A2のリスト1~16、及び/又は国際公開番号WO2020/069350A1のリスト1~8の1つ以上における単一の固有の対応ゲノム領域にマッピングする、請求項91~161のいずれか一項に記載の方法。
【請求項163】
対象について、複数の無細胞断片が、少なくとも100,000個の無細胞断片を含む、請求項91~162のいずれか一項に記載の方法。
【請求項164】
対象について、複数の無細胞断片が、少なくとも500,000個の無細胞断片を含む、請求項91~162のいずれか一項に記載の方法。
【請求項165】
対象について、複数の無細胞断片が、少なくとも100万個の無細胞断片を含む、請求項91~162のいずれか一項に記載の方法。
【請求項166】
複数のビンの各ビンが、100未満の核酸残基、500未満の核酸残基、1000未満の核酸残基、2500未満の核酸残基、5000未満の核酸残基からなる、請求項91~165のいずれか一項に記載の方法。1万個以下、2万5千個以下、5万個以下、10万個以下、25万個以下、50万個以下の核酸残基。
【請求項167】
被験者の細胞源率を推定するためのコンピュータシステムであって、該コンピュータシステムは、以下を備える、コンピュータシステム。
1つまたは複数のプロセッサおよび、
メモリであって、該メモリは、該1つ以上のプロセッサによって実行されるための1つ以上のプログラムを格納し、該1つ以上のプログラムは、以下のための命令を含む、メモリ。
複数の無細胞断片中のそれぞれの無細胞断片の対応するメチル化パターンを電子的形態で取得することであって、それぞれの無細胞断片の対応するメチル化パターンは、(i)対象から得られた生体試料中のそれぞれの断片を含む一つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位中のそれぞれのCpG部位のメチル化状態からなる、取得すること
複数の無細胞断片の各無細胞断片を複数のビンの中のビンに対応付け、それによって複数の無細胞断片のセットを得、無細胞断片の各セットは複数のビンの中の異なるビンに対応付けられる。
複数の無細胞断片の集合における各無細胞断片に無細胞断片癌状態を割り当てること (ここで、無細胞断片癌状態は、第1の癌状態及び第2の癌状態のうちの1つである)、それぞれの無細胞断片のメチル化パターンを分類器に入力したときの分類器の出力の関数として、分類すること
複数のビンにわたる無細胞断片の各セットにおいて、第1の癌状態が割り当てられた対象からの無細胞断片の数の中心傾向の第1の尺度を計算すること。
複数のビンにわたる無細胞断片の各セットにおける対象からの無細胞断片の数の中心傾向の第2の尺度を計算すること及び
中心傾向の第1の尺度および中心傾向の第2の尺度を用いて、被験者の細胞源分率を推定すること。
【請求項168】
プロセッサによって実行されると、プロセッサに、被験者の細胞源率を推定する方法を実行させるプログラムコード命令をその上に格納した、非一時的コンピュータ可読記憶媒体であって、該方法は、以下を含む、非一時的コンピュータ可読記憶媒体。
複数の無細胞断片中のそれぞれの無細胞断片の対応するメチル化パターンを電子的形態で取得することであって、それぞれの無細胞断片の対応するメチル化パターンは、(i)対象から得られた生体試料中のそれぞれの断片を含む1以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位中の各CpG部位のメチル化状態からなる、取得すること。
複数の無細胞断片の各無細胞断片を複数のビンの中のビンに対応付け、それによって複数の無細胞断片のセットを得、無細胞断片の各セットは複数のビンの中の異なるビンに対応付けられる。
複数の無細胞断片の集合における各無細胞断片に無細胞断片癌状態を割り当てること(ここで、無細胞断片癌状態は、第1の癌状態及び第2の癌状態のうちの1つであり、それぞれの無細胞断片のメチル化パターンを分類器に入力する際の分類器の出力の関数として、無細胞断片癌状態は、複数の無細胞断片の集合における各無細胞断片の集合に割り当てる)。
複数のビンにわたる無細胞断片の各セットにおいて、第1の癌状態が割り当てられた対象からの無細胞断片の数の中心傾向の第1の尺度を計算すること、
複数のビンにわたる無細胞断片の各セットにおける対象からの無細胞断片の数の中心傾向の第2の尺度を計算すること
及び中心傾向の第1の尺度および中心傾向の第2の尺度を用いて、被験者の細胞源分率を推定すること。
【発明の詳細な説明】
【関連出願との相互参照】
【0001】
本出願は、2019年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions using Methylation Information」と題する米国仮特許出願第62/950,071号の優先権を主張し、その内容はすべての目的のために参照によりその全体が組み込まれるものとする。
【技術分野】
【0002】
本明細書は、被験者の核酸、特に無細胞核酸試料を使用して、被験者から得られた生体試料中の細胞源分画、例えば腫瘍分画を推定することを説明する。
【背景技術】
【0003】
がんの分子基盤に関する知識の増加と次世代シーケンサー技術の急速な発展により、体液中のがん発生に関与する初期の分子変化の研究が進んでいる。次世代シーケンサー(NGS)などの大規模なシーケンサー技術により、100万塩基あたり1米ドル以下、実際には10米ドルセント以下のコストでシーケンサーを実現する機会が得られている。血漿、血清、尿中の無細胞DNA(cfDNA)には、こうしたがんの発生に関連する特定の遺伝子やエピジェネティックな変化が見いだされる。このような変化は、いくつかのクラスのがんの診断バイオマーカーとして利用できる可能性がある(Salvi et al., 2016, Onco Targets Ther. 9:6549-6559を参照)。
【0004】
無細胞DNA(cfDNA)は、血清、血漿、尿、および他の体液(Chanら、2003, Ann Clin Biochem.40(Pt 2):122-130)、特定の疾患の循環像である「リキッドバイオプシー」を表する(De Mattos-Arruda and Caldas, 2016, Mol Oncol.10(3):464-474).これは、さまざまながんをスクリーニングするための非侵襲的な方法の可能性を表している。
【0005】
cfDNAの存在は、数十年前にMandelとMetaisによって証明された(Mandel and Metais, 1948, C R Seances Soc Biol Fil.cfDNAは、壊死した細胞やアポトーシス細胞に由来し、一般にあらゆる種類の細胞から放出される。Strounらはさらに、患者のcfDNAに特定の癌の変化が見られることを示した(参照、Strounら、1989 Oncology 1989 46(5):318-322)。その後の多くの論文で、cfDNAには変異、メチル化、コピー数変異(CNV)などの特定の腫瘍関連変化が含まれていることが確認され、循環腫瘍DNA(ctDNA)の存在が確認された(参照、Goeslら、2000 Cancer Res. 60(21):5941-5945 およびFrenelら、2015 Clin Cancer Res. 21(20):4586-4596)。
【0006】
血漿や血清中のcfDNAはよく特徴づけられているが、尿中cfDNA(ucfDNA)は従来、あまり特徴づけられていなかった。しかし、最近の研究では、ucfDNAも有望なバイオマーカーの供給源となり得ることが実証されている(例えば、Casadio et al.31(8):1744-1750).
【0007】
血液では、アポトーシスがcfDNAの量を決定する頻度の高いイベントである。しかし、がん患者では、cfDNAの量はネクローシスによっても影響を受けるようである(Hao et al., 2014, Br J Cancer 111(8):1482-1489 and Zonta et al., 2015 Adv Clin Chem.70:197-246).アポトーシスが主な放出メカニズムであると思われるので、循環cfDNAは、約167塩基対の短い断片に富むことを明らかにするサイズ分布を有する(参照、Heitzerら、2015、Clin Chem.61(1):112-123 および Lo et al., 2010, Sci Transl Med.2(61):61ra91)、アポトーシス細胞によって生成されたヌクレオソームに対応する。
【0008】
血清および血漿中の循環cfDNAの量は、健常対照者よりも腫瘍患者で、特に早期腫瘍よりも進行期腫瘍の患者で有意に高いようである(参照、Sozziら、2003、J Clin Oncol.21(21):3902-3908、Kimら、2014、Ann Surg Treat Res. 86(3):136-142; およびShaoら、2015、Oncol Lett.10(6):3478-3482).循環cfDNAの量の変動は、健常者よりも癌患者で高い、(参照、Heitzerら、2013、Int J Cancer.133(2):346-356参照)、循環cfDNAの量は、炎症性疾患を含むいくつかの生理的及び病理的条件によって影響を受ける(参照、Raptis and Menard, 1980, J Clin Invest.66(6):1391-1399、およびShapiroら , 1983, Cancer 51(11):2116-2120 を参照されたい)。
【0009】
メチル化の状態および他のエピジェネティック修飾は、癌などのいくつかの疾患状態の存在と相関することが知られている(Jones, 2002, Oncogene 21:5358-5360を参照)。さらに、メチル化の特定のパターンは、特定の癌の状態と関連することが決定されている(PaskaおよびHudler、2015、Biochemia Medica 25(2):161-176を参照のこと)。WartonとSamimiは、メチル化パターンが無細胞DNAでも観察できることを実証した(Warton and Samimi, 2015, Front Mol Biosci, 2(13) doi: 10.3389/fmolb.2015.00013 )。
【0010】
循環cfDNA、ならびに他の形式の遺伝子型データが診断指標として有望であることを考えると、エピジェネティックなパターンを特定するためにそのようなデータを評価する方法が当技術分野で必要とされている。
【発明の概要】
【0011】
本開示は、cfDNAを用いて被験者から得られた生体試料中の腫瘍分画などの細胞源分画を決定するための堅牢な技術を提供することにより、背景において特定された欠点に対処するものである。メチル化データと全ゲノム、または標的ゲノムシーケンスデータとの組み合わせは、従来のスクリーニング方法を超える追加の診断力を提供する。
【0012】
データセットの分析に関する上記の特定された問題に対処するための技術的解決策(例えば、コンピューティングシステム、方法、及び非一時的コンピュータ可読記憶媒体)が、本開示において提供される。
【0013】
以下は、本発明のいくつかの態様の基本的な理解を提供するために、本発明の概要を示すものである。この要約は、本発明の広範な概要ではない。また、本発明の重要な/重要な要素を特定したり、本発明の範囲を明確にしたりすることを意図したものでもない。その唯一の目的は、後に提示されるより詳細な説明の前段階として、本発明の概念のいくつかを簡略化して提示することである。
【0014】
A.各ビンにおける癌由来フラグメントの比率によって特定されるビンのサブセットに少なくとも部分的に基づいて、細胞源率を推定する実施形態。
【0015】
本開示の一態様は、対象細胞源率を推定するための複数の特徴を特定する方法を提供する。本方法は、1つ以上のプロセッサと、1つ以上のプロセッサによる実行のための1つ以上のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、電子形式で、トレーニングデータセットを取得することを備える。前記トレーニングデータセットは、複数のトレーニング対象におけるそれぞれのトレーニング対象について、a)対応するトレーニング用の複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターン、及びb)それぞれのトレーニング対象の対象癌表示、を含むことを特徴とする、トレーニングデータセット。それぞれの無細胞断片の対応するメチル化パターンは、(i)それぞれの訓練対象者から得られた対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位における各CpG部位のメチル化状態からなる。前記被験者の癌の状態は、第1の癌の状態及び第2の癌の状態のうちの1つである、ことを特徴とする。本方法は、複数の無細胞断片におけるそれぞれの無細胞断片を、複数のビンにおけるビンにマッピングすることをさらに含む。ここで、複数のビンにおけるそれぞれのビンは、ヒト参照ゲノムの対応する部分を表し、それによって、無細胞断片の複数のトレーニングセットを得、無細胞断片の各トレーニングセットは、複数のビンにおける異なるビンにマッピングされる。本方法は、それぞれの無細胞断片のメチル化パターンを分類器に入力する際に、分類器の出力の関数として、無細胞断片の複数のトレーニングセット中のそれぞれの無細胞断片に無細胞断片癌状態を割り当てることをさらに含む。無細胞断片の癌の状態は、第1の癌の状態及び第2の癌の状態のうちの1つであり、無細胞断片の癌の状態は、第1の癌の状態及び第2の癌の状態のうちの1つである。本方法は、複数のビンにおけるそれぞれのビンについて、(a)複数の訓練対象におけるそれぞれの訓練対象の対象癌状態と、(b)それぞれのビンにマッピングされる無細胞断片の対応する訓練セットにおけるそれぞれの無細胞断片の無細胞断片癌状態との間の関連性の対応尺度を決定することをさらに含む。いくつかの実施形態では、この関連付けの方法は、相関計算である。いくつかの実施形態では、この関連付けの方法は、相互情報計算である。いくつかの実施形態では、この関連付けの方法は、距離メトリック(例えば、マンハッタン距離、最大値、正規化ユークリッド距離、正規化マンハッタン距離、ダイス係数、コサイン距離又はジャカール係数等)を計算する方法によるものである。本方法は、対象細胞源率を推定するための複数の特徴を、複数のビンのサブセットとして特定することによって継続する。複数のビンのサブセットにおけるそれぞれのそれぞれのビンは、それぞれのビンについての対応する関連性の尺度に基づく選択基準を満足する。例えば、いくつかの実施形態では、他の全てのビンに対する関連性の尺度がトップランクであるそれらのビンは、選択基準を満たすとみなされる。
【0016】
いくつかの実施形態において、方法は、試験用複数の無細胞断片中のそれぞれの無細胞断片の対応するメチル化パターンを電子的形態で得ることを含む手順によって、試験対象についての細胞源分画を推定することをさらに含む。それぞれの無細胞断片の対応するメチル化パターンは、(i)被験体から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位における各CpG部位のメチル化状態を含んでなる。複数の無細胞断片のテストにおける各無細胞断片は、複数のビンにおけるビンにマッピングされ、それによって、無細胞断片の複数のテストセットが得られ、無細胞断片の各テストセットは、複数のビンにおける異なるビンにマッピングされる。無細胞断片のメチル化パターンを分類器に入力したときの分類器の出力の関数として、複数の無細胞断片のテストセット中のそれぞれの無細胞断片に対して無細胞断片癌状態が割り当てられる。無細胞断片の数の中心傾向の第1の測定値は、複数のビンのサブセットにわたる無細胞断片の各テストセットにおいて第1の癌状態を割り当てられた被検者から計算される。無細胞断片の数の中心傾向の第2の尺度は、複数のビンのサブセットにわたる無細胞断片の各テストセットにおいて、被験体から計算される。次に、被験者の細胞源分率が、中心傾向の第1及び第2の尺度を用いて推定される。
【0017】
いくつかの実施形態において、第2の癌の状態は、癌の非存在であり、被験体用の細胞源画分は、被験体用の細胞源画分を含んでいる。
【0018】
いくつかの実施形態では、分類器は、形式を有する。
[数1]
いくつかのそのような実施形態において
[数2]
は、第1の癌の状態についての第1のモデルであり、「フラグメント」は、それぞれの無細胞フラグメントのメチル化パターンを指す。
[数3]
は、第2の癌の状態に関する第2のモデルである。そのような実施形態において、R(fragment)が閾値を満たすとき、それぞれの無細胞断片の癌状態は、第1の癌状態に割り当てられる。いくつかの実施形態において、閾値は、1~10の間である。いくつかの実施形態では、閾値は、1、2、3、4、5、6、7、8、9、又は10である。
【0019】
いくつかの実施形態では、関連性の尺度Iは、以下のように計算される。
[数4]
【0020】
いくつかのそのような実施形態において、i及びjは、セットに対する独立したインデックスであり、xi は、癌状態iを有する複数の訓練被験者の数であり、yj は、癌状態jが割り当てられたそれぞれのビンにマッピングされた1つ又は複数の無細胞断片を有する複数の訓練被験者の数であり、yは、癌状態jを有する複数の訓練被験者における訓練被験者の数である。[外]は、複数の訓練被験者のうち、癌状態iを有し、かつ癌状態jを割り当てられたそれぞれのビンに対応する1つ以上の無細胞断片を有する訓練被験者の数であり、yは、複数の訓練被験者のうち、癌状態jを割り当てられたそれぞれのビンに対応する1つ以上の無細胞断片を有する訓練被験者の数である。[外]は、複数の訓練被験者における訓練被験者の数である。[外]は[4]であり、かつ[5]である。
【0021】
いくつかの実施形態では、関連性の尺度は、相関関係である。いくつかの実施形態では、相関は、ピアソン相関係数である。いくつかの実施形態では、相関は、調整相関係数、加重相関係数、反射相関係数、または尺度化相関係数を用いて実行される。
【0022】
いくつかの実施形態では、複数のビンは、1000ビンと100,000ビンの間で構成される。いくつかの実施形態では、複数のビンは、15000ビンと80000ビンの間で構成される。いくつかの実施形態において、複数のビンのそれぞれのそれぞれのビンは、平均して、10~1200個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのビンは、平均して、10~10000個の間の残基を有する。
【0023】
いくつかの実施形態において、中心傾向の第1の尺度は、複数のビンのサブセットにわたる無細胞断片の各テストセットにおいて第1の癌条件を割り当てられた複数の試験対象者からの無細胞断片の数の算術平均、加重平均、中位、三等分、Winsorized平均、平均、又は最頻値である。
【0024】
いくつかの実施形態では、中心傾向の第2の尺度は、複数のビンのサブセットにわたる無細胞断片の各テストセットにおける複数の被験体からの無細胞断片の数の算術平均、加重平均、中位、三分平均、ウィンソライズ平均、平均、又は最頻値である。
【0025】
いくつかの実施形態において、細胞源分率を推定することは、中心傾向の第1の尺度を中心傾向の第2の尺度で割ることを含む。
【0026】
いくつかの実施形態では、複数の訓練対象は、10個の訓練対象から1000個の訓練対象で構成される。
【0027】
いくつかの実施形態では、選択基準は、関連性の上位N個の測定のうちの1つを有するビンの選択を指定し、Nは50以上の正の整数である。いくつかの実施形態では、Nは500と5000の間である。いくつかの実施形態では、Nは800と1500の間である。
【0028】
いくつかの実施形態では、メチル化シーケンシングは、ペアエンドシーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、シングルリードシーケンシングである。いくつかの実施形態では、対応するトレーニング用複数の無細胞断片は、500ヌクレオチド未満の平均長を有する。
【0029】
いくつかの実施形態において、第1の癌の状態は癌であり、第2の癌の状態は癌の非存在である。
【0030】
いくつかの実施形態において、第1の癌の状態は、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道癌、胃癌、頭/首癌、肝胆道癌、腎癌、肝癌のいずれかであり、第1の癌の状態は、副腎癌、胆道癌、膀胱癌、骨髄癌、胸膜癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵臓癌、骨盤癌、胸膜癌、皮膚癌、子宮癌のいずれかである。肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫または白血病、そして第2のがんの条件はがんの非存在である。
【0031】
いくつかの実施形態では、第1の癌の状態は、副腎癌の段階、胆道癌の段階、膀胱癌の段階、骨/骨髄癌の段階、脳癌の段階、乳癌の段階、のうちの1つである。子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、腎臓がん、肝臓がん、肺がんのステージ卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、白血病のいずれかであり、第2のがんの状態はがんの非存在である。
【0032】
いくつかの実施形態では、メチル化シーケンシングは、全ゲノムメチル化シーケンシングである。いくつかの実施形態では、メチル化配列決定は、複数の核酸プローブを用いた標的配列決定であり、複数のビンの各ビンは、複数の核酸プローブ中の少なくとも1つの核酸プローブに関連付けられる。
【0033】
いくつかの実施形態では、複数の核酸プローブは、1,000個以上の核酸プローブ、2,000個以上の核酸プローブ、3,000個以上の核酸プローブ、5,000個以上の核酸プローブ、10,000個以上の核酸プローブ又は1,000個以上30,000個以下の核酸プローブから構成される。
【0034】
いくつかの実施形態では、複数のビンの各ビンは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上のCpG部位を含んでなる。いくつかの実施形態では、複数のビンの各ビンは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上の連続したCpG部位を含む。いくつかの実施形態では、複数のビンの各ビンは、ヒト参照ゲノムにおける2~100個の連続するCpG部位からなる。
【0035】
いくつかの実施形態では、対応する生物学的試料は、液体生物学的試料である。いくつかの実施形態では、対応する生物学的試料は、血液試料である。いくつかの実施形態では、対応する生体試料は、訓練対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる。いくつかの実施形態では、対応する生体試料は、トレーニング対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる。
【0036】
いくつかの実施形態において、それぞれのフラグメントにおける対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態は、それぞれのCpG部位がメチル化されているとメチル化シーケンシングによって判定された場合にメチル化され、それぞれのCpG部位がメチル化されていないとメチル化シーケンスによって判定された場合に非メチル化され、それぞれのCpG部位のメチル化状態をメチル化または非メチル化としてコールできない場合には「その他」としてのフラグ付けがなされる。
【0037】
いくつかの実施形態では、メチル化配列決定により、それぞれの断片において1つ以上の5-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)が検出される。
【0038】
いくつかの実施形態では、メチル化配列決定は、それぞれのフラグメントの配列リードにおける、1つまたは複数の非メチル化シトシンまたは1つまたは複数のメチル化シトシンを、対応する1つまたは複数のウラシルに変換することを含んでいる。いくつかの実施形態では、1つまたは複数のウラシルは、1つまたは複数の対応するチミンとして、メチル化配列決定中に検出される。 いくつかの実施形態では、1つまたは複数の非メチル化シトシンまたは1つまたは複数のメチル化シトシンの変換は、化学的変換、酵素的変換、またはそれらの組み合わせを含んでなる。
【0039】
いくつかの実施形態において、第1のモデルは、第1の複数のサブモデルを含む第1の混合モデルであり、第2のモデルは、第2の複数のサブモデルを含む第2の混合モデルであり、第1及び第2の複数のサブモデルにおける各サブモデルは、対応する生体試料中の無細胞断片のソースに対する独立した対応するメチル化モデルを表す。
【0040】
いくつかの実施形態において、各独立対応メチル化モデルは、二項モデル、ベータ二項モデル、独立部位モデル、又はマルコフモデルのうちの1つである。
【0041】
いくつかの実施形態では、第1の複数のサブモデル中の2つ以上のサブモデルは、独立したサイトモデルであり、第2の複数のサブモデル中の2つ以上のサブモデルは、独立したサイトモデルである。
【0042】
いくつかの実施形態において、本方法は、複数の無細胞断片に1つ以上のフィルタ条件を適用することをさらに含む。
【0043】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンへのp値閾値の適用であり、p値閾値は、メチル化パターンが非癌被験者のコホートにおいて観察される頻度を代表するものである。
【0044】
いくつかの実施形態では、p値閾値は0.001と0.20の間である。
【0045】
いくつかの実施形態では、コホートは少なくとも20人の被験者からなり、複数の無細胞断片は少なくとも10,000の異なる対応するメチル化パターンを含んでいる。
【0046】
いくつかの実施形態において、p値閾値は、複数の無細胞断片におけるそれぞれの無細胞断片に対応するメチル化パターンが0.10以下、0.05以下、又は0.01以下のp値を有する場合に、対象からのメチル化パターンについて満たされる。
【0047】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料におけるそれぞれの断片を含む1つ以上の核酸試料から測定された対応する複数の配列読み取り値において、閾値数の配列読み取り値によって表されるという条件の適用である。
【0048】
いくつかの実施形態では、閾値の数は、2、3、4、5、6、7、8、9、10、または10と100の間の整数である。
【0049】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料中の無細胞核酸の閾値数によって表されるという要求の適用である。
【0050】
いくつかの実施形態では、閾値の数は、2、3、4、5、6、7、8、9、10、または10と100の間の整数である。
【0051】
いくつかの実施形態において、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が閾値数のCpG部位を有するという要件の適用である。
【0052】
いくつかの実施形態では、CpG部位の閾値の数は、少なくとも1、2、3、4、5、6、7、8、9又は10個のCpG部位である。
【0053】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、閾値の塩基対の数未満の長さを有するという要件である。
【0054】
いくつかの実施形態では、閾値の塩基対の数は、長さが1,000、2,000、3,000、または4,000個の連続した塩基対である。
【0055】
いくつかの実施形態において、本方法は、取得、マッピング、割り当て、第1及び第2の中心傾向の測定値の計算、並びにエポックにわたる複数の時点におけるそれぞれの時点における被験体についての細胞源分画の推定を繰り返し、これにより対応する細胞源分画を取得することをさらに含む。を求め、複数の細胞源分率を用いて、エポック中の被験者の疾患状態の状態又は進行を、エポックにわたる第1の細胞源分率の増加又は減少という形で決定することである。
【0056】
いくつかの実施形態では、エポックは数ヶ月の期間であり、複数のタイムポイントの各タイムポイントは、数ヶ月の期間内の異なるタイムポイントである。
【0057】
いくつかの実施形態では、数ヶ月の期間は、4ヶ月未満である。
【0058】
いくつかの実施形態では、エポックは年の期間であり、複数のタイムポイントにおける各タイムポイントは、年の期間における異なるタイムポイントである。
【0059】
いくつかの実施形態では、年数の期間は2年以上10年以下である。
【0060】
いくつかの実施形態では、エポックは時間の期間であり、複数のタイムポイントにおける各タイムポイントは、時間の期間内の異なるタイムポイントである。
【0061】
いくつかの実施形態では、時間の期間は、1時間以上6時間以下である。
【0062】
いくつかの実施形態において、本方法は、被験者の第1の細胞源分率がエポックにわたって閾値だけ変化することが観察される場合に、被験者の診断を変更することをさらに含む。
【0063】
いくつかの実施形態において、本方法は、被験体の第1の細胞源分率がエポックにわたって閾値だけ変化することが観察される場合に、被験体の予後を変更することをさらに含む。
【0064】
いくつかの実施形態において、本方法は、被験体の第1の細胞源分率がエポックにわたって閾値だけ変化することが観察される場合に、被験体の治療を変更することをさらに含む。
【0065】
いくつかの実施形態では、閾値は、10%より大きい、20%より大きい、30%より大きい、40%より大きい、50%より大きい、2倍より大きい、3倍より大きい、又は5倍より大きい。
【0066】
いくつかの実施形態では、被験体の腫瘍分率は、0.003~1.0の間である。
【0067】
いくつかの実施形態において、本方法は、被験体に対する細胞源分画の値に少なくとも部分的に基づいて、被験体に治療レジメンを適用することをさらに含む。
【0068】
いくつかの実施形態において、治療レジメンは、癌のための薬剤を被験体に適用することを含む。
【0069】
ある実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線療法、または抗癌剤である。
【0070】
いくつかの実施形態において、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、及び18型)ワクチン。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブまたはその後発品。
【0071】
いくつかの実施形態において、被験体は、癌のための薬剤で処理されており、本方法は、被験体の癌のための薬剤に対する応答を評価するために、被験体のための細胞源画分を使用することをさらに含む。
【0072】
ある実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線療法、または抗癌剤である。
【0073】
いくつかの実施形態において、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、および18型)ワクチン。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ又はそれらの後発品。
【0074】
いくつかの実施形態において、被験体は、癌のための薬剤で治療されており、本方法は、被験体における癌のための薬剤を強化するか中止するかを決定するために、被験体の細胞源画分を使用することをさらに含む。
【0075】
いくつかの実施形態において、被験体は、がんに対処するための外科的介入を受けており、本方法は、被験体の細胞源画分を使用して、外科的介入に応答する被験体の状態を評価することをさらに含む。
【0076】
いくつかの実施形態では、複数のビンのビンは、国際特許出願番号PCT/US2019/025358(WO2019/195268A2として公開)の表1~24、国際特許出願番号のリスト1~8のうちの1つ以上に記載されているゲノム領域に対応する。PCT/US2019/053509(WO2020/069350A1として公開)、及び/又は国際特許出願番号PCT/US2020/015082(WO2020/154682A2として公開)のリスト1~16に記載されており、これらの各々は、参照によりその全体が本明細書に組み込まれるものとする。
【0077】
いくつかの実施形態では、複数のビンのビンは、国際特許出願番号PCT/US2019/025358(WO2019/195268A2として公開)の表1~24、国際特許出願番号PCT/US2019/053509(WO2020/069350A1として公開)のリスト1~8、及び/又は国際特許出願番号PCT/US2020/015082(WO2020/154682A2として公開)のリスト1~16の1又は複数の中に記載されたゲノム領域の少なくとも30%にマッピングされる。
【0078】
いくつかの実施形態では、複数のビンのビンは、国際特許出願番号PCT/US2019/025358(WO2019/195268A2として公開)の表1~24の1つ以上に記載されているゲノム領域の少なくとも50~95%の間にマッピングされる。PCT/US2019/025358(WO2019/195268A2として公開)、国際特許出願番号PCT/US2019/053509(WO2020/069350A1として公開)のリスト1~8、及び/又は国際特許出願番号PCT/US2020/015082(WO2020/154682A2として公開)のリスト1~16のうち1つ以上に記載されているゲノム領域の少なくとも50~95%にマッピングされる。
【0079】
いくつかの実施形態では、複数のビンのビンは、国際特許出願番号PCT/US2019/025358(WO2019/195268A2として公開)の表1~24、国際特許出願番号PCT/US2019/053509(WO2020/069350A1として公開)のリスト1~8、及び/又は国際特許出願番号PCT/US2020/015082(WO2020/154682A2として公開)のリスト1~16の1又は複数の中の1~10の固有の対応ゲノム領域に対してマッピングされる。
【0080】
いくつかの実施形態では、複数のビンの各ビンは、国際特許出願番号PCT/US2019/025358(WO2019/195268A2として公開)の表1~24、国際特許出願番号PCT/US2019/053509(WO2020/069350A1として公開)のリスト1~8、及び国際特許出願番号PCT/US2020/015082(WO2020/154682A2として公開)のリスト1~16のいずれか又は複数の単一固有の対応ゲノム領域とマッピングされる。
【0081】
いくつかの実施形態では、複数の訓練対象におけるそれぞれの訓練対象について、訓練用の複数の無細胞断片は、少なくとも100,000個の無細胞断片からなる。
【0082】
いくつかの実施形態では、訓練用複数の無細胞断片は、複数の訓練対象におけるそれぞれの訓練対象について、少なくとも100,000個の無細胞断片からなる。
【0083】
いくつかの実施形態では、複数の訓練対象におけるそれぞれの訓練対象について、訓練用複数の無細胞断片は、少なくとも100万個の無細胞断片からなる。
【0084】
いくつかの実施形態では、複数のビンの各ビンは、100未満の核酸残基、500未満の核酸残基、1000未満の核酸残基、2500未満の核酸残基、5000未満の核酸残基から構成される。1万個以下、2万5千個以下、5万個以下、10万個以下、25万個以下、50万個以下の核酸残基。
【0085】
本開示の別の態様は、被験者の細胞源率を推定するためのコンピューティングシステムを提供する。コンピューティングシステムは、1つ以上のプロセッサと、1つ以上のプロセッサによって実行される1つ以上のプログラムを記憶するメモリとを備える。前記1つ又は複数のプログラムは、トレーニングデータセットを取得するための命令を電子的形態で含んでいる。訓練データセットは、複数の訓練対象におけるそれぞれの訓練対象について、a)対応する訓練用の複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターン、及びb)それぞれの訓練対象の対象癌表示、を含む。それぞれの無細胞断片の対応するメチル化パターンは、(i)それぞれの訓練対象者から得られた対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位における各CpG部位のメチル化状態から構成される。前記被験者の癌の状態は、第1の癌の状態及び第2の癌の状態のうちの一方である、ことを特徴とする。前記1つ又は複数のプログラムは、前記複数の無細胞断片におけるそれぞれの無細胞断片を、前記複数のビンにおけるビンに対応付けるための命令をさらに含む。ここで、複数のビンにおけるそれぞれのビンは、ヒト参照ゲノムの対応する部分を表し、それにより、無細胞断片の複数のトレーニングセットを取得し、無細胞断片の各トレーニングセットは、複数のビンにおける異なるビンにマッピングされる。前記1つ又は複数のプログラムは、それぞれの無細胞断片のメチル化パターンを分類器に入力する際に、分類器の出力の関数として、前記複数の無細胞断片の訓練セットにおけるそれぞれの無細胞断片に無細胞断片癌状態を割り当てるための命令を更に含む。前記無細胞断片の癌の状態は、前記第1の癌の状態及び前記第2の癌の状態のうちのいずれかである。前記1つ又は複数のプログラムは、前記複数のビンにおけるそれぞれのビンについて、(a)前記複数の訓練対象におけるそれぞれの訓練対象の対象の癌状態と、(b)前記それぞれのビンにマッピングされた無細胞断片の対応する訓練セットにおけるそれぞれの無細胞断片の癌状態との間の関連性の対応指標Iを決定する命令を更に備える。前記1つ又は複数のプログラムは、前記被験者細胞源率を推定するための複数の特徴を、前記複数のビンのサブセットとして特定するための命令を更に含むことを特徴とする。複数のビンのサブセットにおけるそれぞれのそれぞれのビンは、それぞれのビンに対する対応する関連性の尺度に基づく選択基準を満たす。
【0086】
本開示の別の態様は、1つまたは複数のプログラムが、本明細書に開示された方法のいずれかを単独または組み合わせて実行するための命令をさらに含む、上記開示されたコンピューティングシステムを提供する。
【0087】
本開示の別の態様は、被験者の細胞源率を推定するための1つ以上のプログラムを記憶した非一時的なコンピュータ可読記憶媒体を提供する。つ又は複数のプログラムは、コンピュータによって実行されるように構成される。前記1つ以上のプログラムは、トレーニングデータセットを取得するための命令を電子的形態で含んでいる。トレーニングデータセットは、複数のトレーニング対象におけるそれぞれのトレーニング対象について、a)対応するトレーニング用の複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターン、及びb)それぞれのトレーニング対象の対象癌表示、を含む。それぞれの無細胞断片の対応するメチル化パターンは、(i)それぞれの訓練対象者から得られた対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位の各CpGのメチル化状態から構成されている。前記被験者の癌の状態は、第1の癌の状態及び第2の癌の状態のうちの一方である、ことを特徴とする。前記1つ又は複数のプログラムは、前記複数の無細胞断片におけるそれぞれの無細胞断片を、前記複数のビンにおけるビンに対応付けるための命令を含んでいる。ここで、複数のビンにおけるそれぞれのビンは、ヒト参照ゲノムの対応する部分を表し、それによって、無細胞断片の複数のトレーニングセットを取得し、無細胞断片の各トレーニングセットは、複数のビンにおける異なるビンにマッピングされる。前記1つ又は複数のプログラムは、それぞれの無細胞断片のメチル化パターンを分類器に入力する際に、分類器の出力の関数として、前記複数の無細胞断片のトレーニングセットにおけるそれぞれの無細胞断片に無細胞断片癌状態を割り当てるための命令を更に含む。前記無細胞断片の癌の状態は、前記第1の癌の状態及び前記第2の癌の状態のうちのいずれかである。前記1つ又は複数のプログラムは、前記複数のビンにおけるそれぞれのビンについて、(a)前記複数の訓練対象におけるそれぞれの訓練対象の対象の癌状態と、(b)前記それぞれのビンにマッピングされた無細胞断片の対応する訓練セットにおけるそれぞれの無細胞断片の癌状態との間の関連性の対応指標Iを決定する命令を更に備える。前記1つ又は複数のプログラムは、前記被験者細胞源率を推定するための複数の特徴を、前記複数のビンのサブセットとして特定するための命令を含むことを特徴とする。複数のビンのサブセットにおけるそれぞれのそれぞれのビンは、それぞれのビンに対する対応する関連性の尺度に基づく選択基準を満たす。
【0088】
本開示の別の態様は、1つまたは複数のプログラムが、本明細書に開示された方法のいずれかを単独または組み合わせて実行するための命令をさらに含む、上記開示された非一時的コンピュータ可読記憶媒体を提供する。
【0089】
B.無細胞DNAから取得したメチル化データを用いて、被験者の細胞源分画を決定することを目的とした実施形態。
【0090】
本開示の別の態様は、被験者の細胞源分画を推定する方法を提供する。本方法は、1つ以上のプロセッサと、1つ以上のプロセッサによる実行のための1つ以上のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、電子的形態で、複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンを得ることを含んでいる。ここで、それぞれの無細胞断片の対応するメチル化パターンは、(i)対象から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態からなるものである。本方法は、複数の無細胞断片中の各無細胞断片を複数のビン中のビンにマッピングし、それによって複数の無細胞断片のセットを得ることを含んでいる。無細胞断片の各セットは、複数のビンの中の異なるビンにマッピングされる。本方法はまた、それぞれの無細胞断片のメチル化パターンを分類器に入力した際の分類器の出力の関数として、複数の無細胞断片のセットの中のそれぞれの無細胞断片に無細胞断片癌状態を割り当てることを含む。無細胞断片の癌の状態は、第1の癌の状態及び第2の癌の状態のうちの1つである。本方法は、複数のビンにわたる無細胞断片の各セットにおいて第1の癌状態を割り当てられた対象からの無細胞断片の数の中心傾向の第1の尺度を計算し、複数のビンにわたる無細胞断片の各セットにおいて対象からの無細胞断片の数の中心傾向の第2の尺度を計算することによって継続される。本方法は、中心傾向の第1の尺度及び中心傾向の第2の尺度を用いて、被験者の細胞源分率を推定することを更に含む。
【0091】
いくつかの実施形態では、複数のビンは、1000ビンの間で構成される。いくつかの実施形態では、複数のビンは、15000ビンと80000ビンの間で構成される。
【0092】
いくつかの実施形態では、複数のビンのそれぞれのビンは、平均して、10~1200個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのビンは、平均して、10~10000個の間の残基を有する。
【0093】
いくつかの実施形態では、中心傾向の第1の指標は、複数のビンにわたる無細胞断片の各セットにおいて第1の癌状態を割り当てられた対象からの無細胞断片の数の算術平均、加重平均、中距離、中間値、トリミン、Winsorized平均、平均、又は最頻値である。いくつかの実施形態では、中心傾向の第2の尺度は、複数のビンにわたる無細胞断片の各セットにおける対象からの無細胞断片の数の算術平均、加重平均、中位、中ヒゲ、トリミン、Winsorized平均、平均、又は最頻値である。
【0094】
いくつかの実施形態では、細胞源分率を推定することは、中心傾向の第1の尺度を中心傾向の第2の尺度で割ることを含んでいる。
【0095】
いくつかの実施形態では、メチル化シーケンシングは、ペアエンドシーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、シングルリードシーケンシングである。
【0096】
いくつかの実施形態では、複数の無細胞断片は、500ヌクレオチド未満の平均長を有する。
【0097】
いくつかの実施形態において、第1の癌の状態は癌であり、第2の癌の状態は癌の非存在である。
【0098】
いくつかの実施形態において、第1の癌の状態は、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道癌、胃癌、頭/首癌、肝胆道癌、腎癌、肝癌のいずれかであり、第1の癌の状態は、副腎癌、胆道癌、膀胱癌、骨髄癌、胸膜癌、腎臓癌、肝臓癌、肺癌、卵巣癌、膵臓癌、骨盤癌、胸膜癌、皮膚癌、子宮癌のいずれかである。肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫または白血病、そして第2のがんの条件はがんの非存在である。
【0099】
いくつかの実施形態では、第1の癌の状態は、副腎癌の段階、胆道癌の段階、膀胱癌の段階、骨/骨髄癌の段階、脳癌の段階、乳癌の段階、のうちの1つである。子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、腎臓がん、肝臓がん、肺がんのステージ卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、白血病のいずれかであり、第2のがんの状態はがんの非存在である。
【0100】
いくつかの実施形態では、メチル化シーケンシングは、全ゲノムメチル化シーケンシングである。いくつかの実施形態では、メチル化配列決定は、複数の核酸プローブを用いた標的配列決定であり、複数のビンにおけるそれぞれのビンは、複数の核酸プローブにおける少なくとも1つの対応する核酸プローブと関連付けられる。
【0101】
いくつかの実施形態では、複数の核酸プローブは、1,000個以上の核酸プローブ、2,000個以上の核酸プローブ、3,000個以上の核酸プローブ、5,000個以上の核酸プローブ、10,000個以上の核酸プローブ、又は1,000個以上30,000個以下の核酸プローブから構成される。
【0102】
いくつかの実施形態では、複数のビンの各ビンは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上のCpG部位を含んでなる。いくつかの実施形態では、複数のビンの各ビンは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上の連続したCpG部位を含む。いくつかの実施形態では、複数のビンの各ビンは、ヒト参照ゲノムにおける2~100個の連続するCpG部位からなる。
【0103】
いくつかの実施形態では、生体試料は、液体生体試料である。いくつかの実施形態では、生物学的試料は血液試料である。いくつかの実施形態では、生体試料は、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる。いくつかの実施形態では、生体試料は、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる。
【0104】
いくつかの実施形態において、それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態は、それぞれのCpG部位がメチル化されているとメチル化シーケンシングによって判定された場合にメチル化され、それぞれのCpG部位がメチル化されていないとメチル化シーケンスによって判定された場合に非メチル化され、それぞれのCpG部位のメチル化状態をメチル化または非メチル化としてコールできない場合に「その他」としてフラッグ付けられる:この場合、それぞれの断片中の対応する複数のCpG部位は、メチル化シーケンスによって判定されている。
【0105】
いくつかの実施形態では、メチル化配列決定により、それぞれの断片において1つ以上の5-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)が検出される。
【0106】
いくつかの実施形態では、メチル化配列決定は、それぞれの断片の配列リードにおける、1つまたは複数の非メチル化シトシンまたは1つまたは複数のメチル化シトシンを、対応する1つまたは複数のウラシルに変換することを含む。いくつかの実施形態では、1つまたは複数のウラシルは、1つまたは複数の対応するチミンとして、メチル化配列決定中に検出される。いくつかの実施形態では、1つまたは複数の非メチル化シトシンまたは1つまたは複数のメチル化シトシンの変換は、化学的変換、酵素的変換、またはそれらの組み合わせを含んでなる。
【0107】
いくつかの実施形態において、第1のモデルは、第1の複数のサブモデルを含む第1の混合モデルであり、第2のモデルは、第2の複数のサブモデルを含む第2の混合モデルであり、第1及び第2の複数のサブモデルにおける各サブモデルは、対応する生体試料中の無細胞断片のソースに対する独立した対応するメチル化モデルを表す。
【0108】
いくつかの実施形態において、各独立対応メチル化モデルは、二項モデル、ベータ二項モデル、独立部位モデル、又はマルコフモデルのうちの1つである。
【0109】
いくつかの実施形態では、第1の複数のサブモデル中の2つ以上のサブモデルは、独立したサイトモデルであり、第2の複数のサブモデル中の2つ以上のサブモデルは、独立したサイトモデルである。
【0110】
いくつかの実施形態において、本方法は、複数の無細胞断片に1つ以上のフィルター条件を適用することをさらに含む。
【0111】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンへのp値閾値の適用であり、p値閾値は、メチル化パターンが非癌被験者のコホートにおいて観察される頻度を代表するものである。
【0112】
いくつかの実施形態では、p値閾値は、0.001と0.20の間である。いくつかの実施形態では、p値閾値は、0.01と0.10の間である。いくつかの実施形態では、p値閾値は、0.001、0.005、0.010、0.020、0.030、0.040、0.050、0.060、0.070、0.080、0.090、または0.010より大きい。
【0113】
いくつかの実施形態では、コホートは、少なくとも20人、少なくとも30人、少なくとも50人、少なくとも100人、少なくとも500人、又は少なくとも1000人の被験者からなる。いくつかの実施形態では、複数の無細胞断片は、少なくとも300、少なくとも500、少なくとも1000、少なくとも5000、少なくとも8000、又は少なくとも10000の異なる対応するメチル化パターンを含んでなる。
【0114】
いくつかの実施形態において、p値閾値は、複数の無細胞断片におけるそれぞれの無細胞断片に対応するメチル化パターンが0.10以下、0.05以下、又は0.01以下のp値を有する場合に、対象からのメチル化パターンについて満たされる。
【0115】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料におけるそれぞれの断片を含む1つ以上の核酸試料から測定された対応する複数の配列リードにおける閾値数の配列リードによって表されるという要求の適用である。いくつかの実施形態では、閾値数は、2、3、4、5、6、7、8、9、10、又は10と100との間の整数である。
【0116】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料中のそれぞれの断片を含む1つ以上の核酸試料中の無細胞核酸の閾値数によって表されるという要求の適用である。いくつかの実施形態では、閾値数は、2、3、4、5、6、7、8、9、10、または10と100との間の整数である。
【0117】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、閾値数のCpG部位を有するという要件の適用である。いくつかの実施形態では、CpG部位の閾値数は、少なくとも1、2、3、4、5、6、7、8、9又は10個のCpG部位である。
【0118】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、閾値の塩基対の数未満の長さを有するという条件である。いくつかの実施形態では、閾値の塩基対の数は、長さが1千、2千、3千、又は4千の連続した塩基対である。
【0119】
いくつかの実施形態では、1つのフィルタ条件が適用される。いくつかの実施形態では、2つのフィルタ条件が適用される。いくつかの実施形態では、3つのフィルタ条件が適用される。いくつかの実施形態では、4つのフィルタ条件が適用される。
【0120】
いくつかの実施形態では、本方法は、取得、マッピング、割り当て、第1及び第2の中心傾向の測定値の計算、並びにエポックにわたる複数の時点におけるそれぞれの時点における被検者の細胞源分画の推定を繰り返すことをさらに含み、したがって、それぞれの時点における被検者の複数の細胞源分画における、対応する細胞源分画を取得することを含む。いくつかの実施形態では、この複数の細胞源分画は、エポックにわたる第1の細胞源分画の増加又は減少という形で、エポック中の被験者の疾患状態の状態又は進行を決定するために使用される。
【0121】
いくつかの実施形態では、各エポックは数ヶ月の期間であり、複数のタイムポイントの各タイムポイントは、数ヶ月の期間内の異なるタイムポイントである。いくつかの実施形態では、数ヶ月の期間は、4ヶ月未満である。いくつかの実施形態では、各エポックは1ヶ月の長さである。いくつかの実施形態では、各エポックは2ヶ月の長さである。いくつかの実施形態では、各エポックは3ヶ月の長さである。いくつかの実施形態では、各エポックは4ヶ月の長さである。いくつかの実施形態では、各エポックは、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23又は24ヵ月の長さである。
【0122】
いくつかの実施形態では、エポックは年の期間であり、複数のタイムポイントの各タイムポイントは、年の期間内の異なるタイムポイントである。いくつかの実施形態では、年の期間は、1年以上10年以下である。いくつかの実施形態では、年の期間は、1年、2年、3年、4年、5年、6年、7年、8年、9年、または10年である。いくつかの実施形態では、エポックは1年以上30年以下である。
【0123】
いくつかの実施形態では、エポックは時間の期間であり、複数のタイムポイントにおける各タイムポイントは、時間の期間内の異なるタイムポイントである。いくつかの実施形態では、時間の期間は、1時間から24時間の間である。いくつかの実施形態では、時間の期間は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、又は24時間である。
【0124】
いくつかの実施形態において、本方法は、被験体の第1の細胞源分率がエポックにわたって閾値量だけ変化することが観察された場合に、被験体の診断を変更することをさらに含む。例えば、いくつかの実施形態では、診断は、癌を有することから寛解していることに変更される。別の例として、いくつかの実施形態では、診断は、癌を有していない状態から癌を有する状態に変更される。別の例として、いくつかの実施形態では、診断は、癌の第1ステージを有することから、癌の第2ステージを有することに変更される。別の例として、いくつかの実施形態では、診断は、癌の第2段階を有することから、癌の第3段階を有することへと変更される。さらに別の例として、いくつかの実施形態では、診断は、第3段階の癌を有することから、第4段階の癌を有することに変更される。さらに別の例として、いくつかの実施形態では、診断は、転移していない癌を有することから、転移している癌を有することへと変更される。
【0125】
いくつかの実施形態では、本方法は、被験体の第1の細胞源分率がエポックにわたって閾値量だけ変化することが観察された場合に、被験体の予後を変更することをさらに含む。例えば、いくつかの実施形態では、予後は生命予後を含み、予後は第1の生命予後から第2の生命予後に変更され、第1及び第2の生命予後はその持続時間が異なる。いくつかの実施形態では、予後の変更は、対象の余命を増加させる。いくつかの実施形態では、予後の変化は、対象の余命を減少させる。
【0126】
いくつかの実施形態では、本方法は、被験体の第1の細胞源分率がエポックにわたって閾値量だけ変化することが観察されたときに、被験体の治療を変更することを更に含む。いくつかの実施形態では、治療の変更は、癌治療薬を開始すること、癌治療薬の投与量を増加させること、癌治療薬を停止すること、又は癌治療薬の投与量を減少させることを含む。いくつかの実施形態では、治療の変更は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6型、11型、16型、18型)ワクチンによる対象の治療を開始または終了することからなる。11、16、及び18)ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、又はそれらの後発品等を挙げることができる。いくつかの実施形態では、治療の変更は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16型。及び18)ワクチン、ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、又は被験者に投与されたそれらの後発品等量である。いくつかの実施形態では、閾値は、10%より大きい、20%より大きい、30%より大きい、40%より大きい、50%より大きい、2倍より大きい、3倍より大きい、または5倍より大きい。
【0127】
いくつかの実施形態では、被験体の腫瘍分画は、0.003~1.0の間である。いくつかの実施形態では、被験体の腫瘍分画は、0.005~0.80の間である。いくつかの実施形態では、被験体の腫瘍分画は、0.01~0.70の間である。いくつかの実施形態では、被験体の腫瘍分画は、0.05~0.60の間である。
【0128】
いくつかの実施形態において、本方法は、被験体に対する細胞源分画の値に少なくとも部分的に基づいて、被験体に治療レジメンを適用することをさらに含む。いくつかの実施形態では、治療レジメンは、被験体に癌のための薬剤を適用することを含む。いくつかの実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線療法、又は癌治療薬である。いくつかの実施形態では、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、及び18型)ワクチン。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブ又はそれらの後発品。
【0129】
いくつかの実施形態では、被験体は、癌のための薬剤で処理されており、本方法は、被験体の癌のための薬剤に対する応答を評価するために、被験体のための細胞源画分を使用することを更に含む。いくつかの実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線療法、又は癌治療薬である。いくつかの実施形態では、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、及び18型)ワクチン。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、ボルテゾミブまたはその後発品。
【0130】
いくつかの実施形態では、被験体は、癌のための薬剤で治療されており、方法は、被験体における癌のための薬剤を強化するか中止するかを決定するために、被験体の細胞源分画を使用することをさらに包含する。例えば、いくつかの実施形態では、少なくとも閾値細胞源割合(例えば、0.05、0.10、0.15、0.20、0.25、又は0.30より大きい等)の観察が、被験体における癌の治療薬を強める(例えば、投与量を増やす、放射線治療の放射線レベルを上げる)根拠として使用される。いくつかの実施形態では、閾値細胞源割合未満(例えば、0.05、0.10、0.15、0.20、0.25、又は0.30未満など)の観察は、被験体における癌のための薬剤の使用を中止するための基礎として使用される。
【0131】
いくつかの実施形態では、被験体は、がんに対処するための外科的介入を受け、方法は、被験体の細胞源分画を使用して、外科的介入に応答する被験体の状態を評価することをさらに含む。いくつかの実施形態では、状態は、本開示で提供される方法を用いて計算された細胞源分画に基づく指標である。
【0132】
いくつかの実施形態では、複数のビンのビンは、国際特許出願番号PCT/US2019/025358(WO2019/195268A2として公開)の表1~24、国際特許出願番号のリスト1~8の1つ又は複数に記載されている単一のゲノム領域に相当する。PCT/US2019/053509(WO2020/069350A1として公開)、及び/又は国際特許出願番号PCT/US2020/015082(WO2020/154682A2として公開)のリスト1~16に記載されており、これらの各々は、参照によりその全体が本明細書に組み込まれるものとする。
【0133】
いくつかの実施形態では、複数のビンのビンは、国際特許出願番号PCT/US2019/025358(WO2019/195268A2として公開)の表1~24、国際特許出願番号のリスト1~8のうちの1つ以上に記載されているゲノム領域の組み合わせに対応する。PCT/US2019/053509(WO2020/069350A1として公開)、及び/又は国際特許出願番号PCT/US2020/015082(WO2020/154682A2として公開)のリスト1~16、これらの各々はその全体が参照により本明細書に組み込まれるものとする。例えば、いくつかの実施形態では、複数のビンのビンは、国際特許公開第WO2019/195268A2号の表1~24、国際特許公開第WO2020/069350A1号のリスト1~8、及び/又は国際特許公開第WO2020/154682A2号のリスト1~16に記載の1、2、3、4、5又はそれ以上の5つの領域を含んでいる。
【0134】
いくつかの実施形態では、複数のビンのビンは、国際特許公開第WO2019/195268A2号の表1~24、国際特許公開第WO2020/069350A1号のリスト1~8、及び/又は国際特許公開第WO2020/154682A2号のリスト1~16の1つ以上に記載のゲノム領域の、少なくとも30%、40%、50%、60%、70%、80% 、90%、95% 、99%又は100%とマッピングする。
【0135】
いくつかの実施形態では、複数のビンのビンは、国際特許公開第WO2019/195268A2号の表1~24、国際特許公開第WO2020/069350A1号のリスト1~8、及び/又は国際特許公開第WO2020/154682A2号のリスト1~16の1つ以上に記載のゲノム領域の少なくとも50~95%にマッピングされる。
【0136】
いくつかの実施形態では、複数のビンのビンは、国際特許公開第WO2019/195268A2号の表1~24、国際特許公開第WO2020/069350A1号のリスト1~8、及び/又は国際特許公開第WO2020/154682A2号のリスト1~16の1又は複数における1~10の固有の対応ゲノム領域にマッピングされる。
【0137】
いくつかの実施形態では、複数のビンの各ビンは、国際特許公開第WO2019/195268A2号の表1~24、国際特許公開第WO2020/069350A1号のリスト1~8、及び/又は国際特許公開第WO2020/154682A2号のリスト1~16の1又は複数における単一の固有の対応ゲノム領域とマッピングされる。
【0138】
いくつかの実施形態では、それぞれの対象について、複数の無細胞断片は、少なくとも10,000、15,000、20,000、25,000、50,000、100,000、200,000、300,000、500,000又は100万の無細胞断片からなる。いくつかの実施形態では、それぞれの対象について、複数の無細胞断片は、少なくとも100万個の無細胞断片からなる。
【0139】
いくつかの実施形態では、複数のビンの各ビンは、100未満の核酸残基、500未満の核酸残基、1000未満の核酸残基、2500未満の核酸残基、5000未満の核酸残基から構成され、10,000未満の核酸残基、25,000未満の核酸残基、50,000未満の核酸残基、100,000未満の核酸残基、100,000未満の核酸残基から構成される。10000個以下、25000個以下、50000個以下、100000個以下、250000個以下、または500000個以下。
【0140】
いくつかの実施形態では、複数のビンの各ビンは、(i)100個の核酸残基と(ii)500、1000、2500、5000、10,000、25,000、50,000、100,000、250,000、または500,000個の核酸残基との間で構成されている。
【0141】
本開示の別の態様は、被験者の細胞源率を推定するためのコンピューティングシステムを提供する。コンピューティングシステムは、1つ以上のプロセッサと、1つ以上のプロセッサによって実行される1つ以上のプログラムを記憶するメモリとを備える。前記1つ以上のプログラムは、複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンを電子的形態で取得するための命令を含んでいる。ここで、それぞれの無細胞断片の対応するメチル化パターンは、(i)対象から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位の各CpGのメチル化状態から構成される。前記1つ又は複数のプログラムは、前記複数の無細胞断片中の各無細胞断片を複数のビン中のビンにマッピングし、それによって複数の無細胞断片のセットを得るための命令を更に含む。無細胞断片の各セットは、複数のビンの中の異なるビンにマッピングされる。前記1つ又は複数のプログラムは、前記複数の無細胞断片のセットにおける各無細胞断片の各セットに無細胞断片癌条件を割り当てるための命令を更に含むことを特徴とする。無細胞断片癌状態は、それぞれの無細胞断片のメチル化パターンを分類器に入力したときの分類器の出力の関数として、第1の癌状態及び第2の癌状態のうちの1つである。前記1つ又は複数のプログラムは、前記複数のビンにわたる無細胞断片の各セットにおいて前記第1の癌状態を割り当てられた前記対象からの無細胞断片の数の中心傾向の第1の尺度を計算するための命令、及び前記複数のビンにわたる無細胞断片の各セットにおいて前記対象からの無細胞断片の数の中心傾向の第2の尺度を計算するための命令をさらに含む、請求項1に記載のプログラム。前記1つ又は複数のプログラムは、前記中心傾向の第1の尺度及び前記中心傾向の第2の尺度を用いて前記対象者の細胞源分率を推定するための命令を更に含む、請求項1に記載の方法。
【0142】
本開示の別の態様は、1つまたは複数のプログラムが、上記に開示された方法のいずれかを単独または組み合わせて実行するための命令をさらに含む、上記開示されたコンピューティングシステムを提供する。
【0143】
本開示の別の態様は、被験者の細胞源率を推定するための1つ以上のプログラムを記憶した非一時的なコンピュータ可読記憶媒体を提供する。つ以上のプログラムは、コンピュータによって実行されるように構成される。前記1つ以上のプログラムは、複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンを電子的な形態で取得するための命令を含んでいる。それぞれの無細胞断片の対応するメチル化パターンは、(i)対象から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態からなる。前記1つ又は複数のプログラムは、前記複数の無細胞断片中の各無細胞断片を複数のビン中のビンにマッピングし、それによって複数の無細胞断片のセットを得るための命令を含んでいることを特徴とする。ここで、無細胞断片の各セットは、複数のビンの中の異なるビンにマッピングされる。つ又は複数のプログラムは、それぞれの無細胞断片のメチル化パターンを分類器に入力する際に、分類器の出力の関数として、複数の無細胞断片のセットにおけるそれぞれの無細胞断片に無細胞断片癌状態を割り当てるための命令を更に含む。前記無細胞断片の癌の状態は、前記第1の癌の状態及び前記第2の癌の状態のうちのいずれかである。前記1つ又は複数のプログラムは、前記複数のビンにわたる無細胞断片の各セットにおいて前記第1の癌状態を割り当てられた前記対象からの無細胞断片の数の中心傾向の第1の尺度を計算し、前記複数のビンにわたる無細胞断片の各セットにおいて前記対象からの無細胞断片の数の中心傾向の第2の尺度を計算する命令を更に含む、請求項1に記載のプログラム。前記1つ又は複数のプログラムは、前記第1の中心傾向の尺度及び前記第2の中心傾向の尺度を用いて前記対象者の細胞源分率を推定するための命令を含む、請求項1に記載の方法。
【0144】
本開示の別の態様は、1つまたは複数のプログラムが、上記開示された方法のいずれかを単独または組み合わせて実行するための命令をさらに含む、上記開示された非一時的なコンピュータ可読記憶媒体を提供する。
【0145】
添付の請求項の範囲内のシステム、方法、および装置の様々な実施形態は、それぞれいくつかの側面を有し、そのうちの1つが本明細書に記載される望ましい属性に単独で関与することはない。添付の特許請求の範囲の範囲を限定することなく、いくつかの顕著な特徴を本明細書に記載する。この議論を考慮した後、特に「詳細な説明」と題されたセクションを読んだ後、様々な実施形態の特徴がどのように使用されるかを理解することができる。
【参照による組み込み】
【0146】
本明細書に記載されたすべての刊行物、特許および特許出願は、個々の刊行物、特許または特許出願が参照により組み込まれるように具体的かつ個別に示されている場合と同じ程度に、参照によりその全体が本明細書に組み込まれる。
【図面の簡単な説明】
【0147】
本明細書に開示された実施態様は、限定ではなく、例として、添付の図面の図に示されている。同様の参照数字は、図面のいくつかの図を通して、対応する部品を指す。
【
図1】本開示のいくつかの実施形態によるコンピューティングデバイスを例示するブロック図である。
【
図2】
図2A及び
図2Bは、開示のいくつかの実施形態による、対象細胞源率を推定するための複数の特徴を特定する方法の例示的フローチャートをまとめて示しており、破線のボックスは任意のステップを表している。
【
図3】
図3A及び
図3Bは、本開示のいくつかの実施形態による、破線のボックスが任意のステップを表す、被験者の細胞源割合を推定する方法の例示的フローチャートを集合的に示す図である。
【
図4】本開示のいくつかの実施形態による、列挙された癌のいずれかを有する被験者のctDNA分率を、癌の病期の関数としてプロットした図である。
【
図5】本開示のいくつかの実施形態による、配列決定のための核酸試料を調製する方法のフローチャートを示す図である。
【
図6】本開示のいくつかの実施形態による配列リードを得るためのプロセスのグラフ表示である。
【
図7】本開示のいくつかの実施形態による、全ゲノムバイサルファイトシーケンスデータに基づく腫瘍分率推定値と、組織ベースの全ゲノムシーケンスデータから得られる既知の腫瘍分率との比較を示す図である。特に、WGBS推定腫瘍分率は、断片の平均総数(例えば、各断片が参照ゲノムの特定のビン又は領域にマッピングされる)に対する異常断片の平均数の比率を含んでいる。
図7は、495名の被験者のシークエンス情報に基づいている。既知の組織腫瘍率>0.01の場合、WGBS腫瘍率推定に関するスピアマン相関は0.86である。既知の組織腫瘍率>0.005では、WGBS腫瘍率推定のスピアマン相関は0.90である。既知の組織腫瘍率>0.001では、WGBS腫瘍率推定に対するスピアマン相関は0.89である。既知の組織腫瘍率>0.0001では、WGBS腫瘍率推定値のスピアマン相関は0.74であった。これは、WGBSに基づく腫瘍分画の推定値が既知の組織の腫瘍分画と相関があることを示している。
【
図8】特徴識別のために本開示のいくつかの実施形態に従って使用される相互情報量の尺度を示す図である。
【0148】
次に、添付図面に例示されている実施形態について詳細に参照する。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の具体的な詳細が記載されている。しかしながら、本開示がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の例では、周知の方法、手順、構成要素、回路、及びネットワークは、実施形態の側面を不必要に不明瞭にしないように、詳細には説明されていない。
【0149】
本明細書に記載される実施態様は、被験者の推定細胞源分率を決定するための様々な技術的解決策を提供する。例示的な実施形態では、核酸断片は、被験者の生物学的試料から取得される。生物学的試料は、無細胞核酸からなる。したがって、核酸断片は無細胞核酸である。核酸断片は、予め定義されたメチル化部位のセットについてメチル化状態を評価され、メチル化状態に基づくスコアが各々割り当てられる。複数のメチル化状態スコアは、複数のカウントに変換され、このカウントは、予め定義されたメチル化部位のセット内の各メチル化部位について対応するメチル化スコアと比較される。対応するメチル化スコアは、細胞ソースにおけるメチル化パターンの分析から得られたものである。この比較により、被験者のメチル化の頻度が決定され、この頻度を用いて、細胞源に関して、細胞源率を推定することができる。
【定義】
【0150】
本明細書で使用される場合、用語「約」又は「約」は、当業者によって決定される特定の値に対する許容誤差範囲内を意味し、これは、値が測定又は決定される方法、例えば、測定システムの限界に部分的に依存する。例えば、いくつかの実施形態では、「約」は、当業者の慣例に従って、1標準偏差以内又は1標準偏差より大きいことを意味する。いくつかの実施形態では、「約」は、所与の値の±20%、±10%、±5%、又は±1%の範囲を意味する。いくつかの実施形態では、「約」又は「約」という用語は、ある値の1桁以内、5倍以内、又は2倍以内を意味する。特定の値が本願及び特許請求の範囲に記載されている場合、特に断らない限り、特定の値に対して許容可能な誤差範囲内を意味する用語「約」が想定されるべきである。用語「約」は、当業者によって一般的に理解されるような意味を有し得る。いくつかの実施形態では、用語「約」は、±10%を意味する。いくつかの実施形態では、用語「約」は、±5%を指す。
【0151】
本明細書において、「アッセイ」という用語は、物質、例えば、核酸、タンパク質、細胞、組織、又は器官の特性を決定するための技術を指す。アッセイ(例えば、第1のアッセイ又は第2のアッセイ)は、試料中の核酸のコピー数変動、試料中の核酸のメチル化状態、試料中の核酸の断片サイズ分布、試料中の核酸の変異状態、又は試料中の核酸の断片化パターンを決定する技術を含むことができる。本明細書で言及する核酸の特性のいずれかを検出するために、当該技術分野における通常の技能を有する者に知られている任意のアッセイを使用することができる。核酸の特性には、配列、ゲノム同一性、コピー数、1つ以上のヌクレオチド位置におけるメチル化状態、核酸のサイズ、1つ以上のヌクレオチド位置における核酸の変異の有無、および核酸の断片化のパターン(例えば、核酸が断片化するヌクレオチド位置)を含むことが可能である。アッセイや方法は、特定の感度や特異性を持つことができ、診断ツールとしての相対的な有用性は、ROC-AUC統計を使って測定することが可能である。
【0152】
本明細書で使用される場合、「生体試料」、「患者試料」、及び「試料」という用語は、互換的に使用され、対象から採取された任意の試料を指し、対象に関連する生体状態を反映させることができる。いくつかの実施形態では、そのような試料は、無細胞DNAなどの無細胞核酸を含む。いくつかの実施形態では、そのような試料は、無細胞核酸以外の核酸又は無細胞核酸に加えて核酸を含む。生体試料の例としては、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液が挙げられるが、これらに限定されるものではない。いくつかの実施形態では、生体試料は、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる。このような実施形態では、生体試料は、被験者の血液、全血、血漿、血清、尿、脳脊髄液、便、唾液、汗、涙、胸水、心嚢液、又は腹膜液に限られ、被験者の他の成分(例えば、固体組織等)は含まれない。生物学的試料は、生きている又は死んだ被験者に由来する任意の組織又は物質を含むことができる。生物学的試料は、無細胞試料であり得る。生物学的試料は、核酸(例えば、DNA又はRNA)又はその断片を含むことができる。試料は、液体試料または固体試料(例えば、細胞または組織試料)であることができる。生体試料は、血液、血漿、血清、尿、膣液、水腫(例えば、精巣の)液、膣洗浄液、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、身体の異なる部位(例えば、甲状腺、乳房)からの吸引液などの体液であり得る。生体試料は、便試料であり得る。様々な実施形態において、無細胞DNAについて濃縮された生体試料(例えば、遠心分離プロトコルを介して得られた血漿試料)中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%より大きい、60%、70%、80%、90%、95%、または99%は、細胞を含まないことができる)。生物学的試料は、組織または細胞構造を物理的に破壊するように処理することができ(例えば、遠心分離および/または細胞溶解)、したがって、細胞内成分を溶液中に放出することができる。溶液中には、酵素、緩衝液、塩、洗剤などがさらに含まれており、これらは分析のために試料を準備するために使用することができる。生物学的試料は、対象から侵襲的に(例えば、外科的手段)または非侵襲的に(例えば、採血、スワブ、または排出された試料の収集)得ることができる。
【0153】
一部の実施形態では、生体試料は、1つの組織型(例えば、乳房、肺、前立腺、大腸、腎臓、子宮、膵臓、食道、リンパ、卵巣、子宮頸、表皮、甲状腺、膀胱、または胃などの単一の器官に由来する)である。いくつかの実施形態では、生体試料は、2つ以上の組織型(例えば、2つ以上の器官からの組織の組み合わせ)に由来する。いくつかの実施形態では、生物学的試料は、1つ以上の細胞型(例えば、単一の器官または所定の器官のセットに由来する細胞)に由来している。
【0154】
本明細書に開示されるように、用語「核酸」及び「核酸分子」は互換的に使用される。この用語は、任意の組成形態の核酸、例えば、デオキシリボ核酸(DNA、例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)等)、リボ核酸(RNA、例えば、,メッセージRNA(mRNA)、短鎖阻害RNA(siRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA、胎児または胎盤で高発現するRNAなど)、および/またはDNAもしくはRNAアナログ(例えば、,塩基アナログ、糖アナログおよび/または非ネイティブ骨格などを含む)、RNA/DNAハイブリッドおよびポリアミド核酸(PNA)であり、これらはすべて一本鎖または二本鎖の形態であることが可能である。特に限定されない限り、核酸は、天然ヌクレオチドの既知のアナログを含むことができ、そのいくつかは、天然に存在するヌクレオチドと同様の方法で機能することができる。核酸は、本明細書のプロセスを実施するのに有用な任意の形態(例えば、直鎖、円形、スーパーコイル、一本鎖、二本鎖など)であることができる。いくつかの実施形態における核酸は、単一の染色体又はその断片からであることができる(例えば、核酸サンプルは、二倍体生物から得られたサンプルの1つの染色体からであってもよい)。特定の実施形態では、核酸は、ヌクレオソーム、ヌクレオソームまたはヌクレオソーム様構造の断片もしくは部分を含んでなる。核酸は、タンパク質(例えば、ヒストン、DNA結合タンパク質など)を含むこともある。本明細書に記載のプロセスによって分析される核酸は、実質的に単離され、タンパク質または他の分子と実質的に結合していない場合がある。核酸には、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)および二本鎖ポリヌクレオチドから合成、複製または増幅したRNAまたはDNAの誘導体、変種および類似物もまた含まれる。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシンおよびデオキシチミジンが含まれる。RNAの場合、塩基シトシンはウラシルに置き換えられ、糖の2′位は水酸基を含む。核酸は、被験者から得られた核酸を鋳型として調製することができる。
【0155】
本明細書で使用する場合、「無細胞核酸」という用語は、細胞の外、被験者の血液、全血、血漿、血清、尿、脳脊髄液、便、唾液、汗、涙、胸水、心嚢液、または腹膜液などの体液中に存在し得る核酸分子をいう。無細胞核酸は、1つ以上の健康な細胞および/または1つ以上の癌細胞に由来する 無細胞核酸は、循環核酸として互換的に使用される。無細胞核酸の例には、RNA、ミトコンドリアDNA、又はゲノムDNAが含まれるが、これらに限定されない。本明細書で使用される場合、用語「無細胞核酸」、「無細胞DNA」、及び「cfDNA」は、互換的に使用される。本明細書で使用される場合、「循環腫瘍DNA」または「ctDNA」という用語は、腫瘍細胞または他の種類の癌細胞に由来する核酸断片を指し、瀕死細胞のアポトーシスまたは壊死などの生体プロセスの結果として個人の身体(例えば、血流)から液体中に放出されるか、生存腫瘍細胞によって活発に放出される可能性がある。無細胞核酸の例には、RNA、ミトコンドリアDNA、またはゲノムDNAが含まれるが、これらに限定されない。
【0156】
本明細書で開示するように、「循環腫瘍DNA」または「ctDNA」という用語は、腫瘍または他のタイプの癌の細胞などの異常組織に由来する核酸断片を指し、瀕死の細胞のアポトーシスまたは壊死などの生体プロセスの結果として被験者の血流中に放出されるか、生存腫瘍細胞によって活発に放出される可能性がある。
【0157】
本明細書で開示するように、「参照ゲノム」という用語は、任意の生物またはウイルスの、部分的であるか完全であるかにかかわらず、被験体からの同定配列を参照するために使用することができる、任意の特定の既知、配列決定済みまたは特徴付けられたゲノムを指す。ヒト被験体および他の多くの生物に使用される例示的な参照ゲノムは、国立生物工学情報センター(NCBI)またはカリフォルニア大学サンタクルーズ校(UCSC)がホストするオンラインゲノムブラウザで提供される。ゲノム」とは、核酸配列で表される、生物またはウイルスの完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、多くの場合、個体または複数の個体から組み立てられたまたは部分的に組み立てられたゲノム配列である。いくつかの実施形態では、参照ゲノムは、1つまたは複数のヒト個体からのアセンブルされたまたは部分的にアセンブルされたゲノム配列である。参照ゲノムは、種の遺伝子のセットの代表例とみなすことができる。いくつかの実施形態では、参照ゲノムは、染色体に割り当てられた配列からなる。例示的なヒト参照ゲノムには、NCBIビルド34(UCSC相当:hg16)、NCBIビルド35(UCSC相当:hg17)、NCBIビルド36.1(UCSC相当:hg18)、GRCh37(UCSC相当:hg19)、およびGRCh38(UCSC相当:hg38)などがあるがこれに限られるわけではない。
【0158】
本明細書で開示するように、「参照ゲノムの領域」、「ゲノム領域」、または「染色体領域」という用語は、参照ゲノムの任意の部分、連続または非連続を指す。また、例えば、ビン、パーティション、ゲノム部分、参照ゲノムの一部、染色体の一部等と呼ぶこともできる。いくつかの実施形態では、ゲノムセクションは、ゲノム配列の特定の長さに基づく。いくつかの実施形態では、方法は、複数のゲノム領域に対してマッピングされた複数の核酸断片の分析を含むことができる。ゲノム領域は、ほぼ同じ長さであることができ、またはゲノムセクションは、異なる長さであることができる。いくつかの実施形態では、ゲノム領域は、ほぼ同じ長さである。いくつかの実施形態では、異なる長さのゲノム領域は、調整または加重される。いくつかの実施形態では、ゲノム領域は、約10キロベース(kb)~約500kb、約20kb~約400kb、約30kb~約300kb、約40kb~約200kb、および場合によっては約50kb~約100kbである。いくつかの実施形態では、ゲノム領域は、約100kb~約200kbである。ゲノム領域は、配列の連続した実行に限定されない。したがって、ゲノム領域は、連続する配列及び/又は非連続する配列から構成され得る。ゲノム領域は、単一の染色体に限定されない。いくつかの実施形態では、ゲノム領域は、1つの染色体の全てもしくは一部、または2つ以上の染色体の全てもしくは一部を含む。いくつかの実施形態では、ゲノム領域は、1本、2本、またはそれ以上の染色体全体にまたがっていてもよい。さらに、ゲノム領域は、複数の染色体の共同部分または不連続部分にまたがっていてもよい。
【0159】
本明細書で使用する場合、「断片」という用語は、「核酸断片」(例えば、DNA断片)と互換的に使用され、少なくとも3つの連続したヌクレオチドからなるポリヌクレオチドまたはポリペプチド配列の一部を意味する。生体試料中に見出される無細胞核酸分子の配列決定という文脈では、「断片」及び「核酸断片」という用語は、互換的に、生体試料又はその表現物中に見出される無細胞核酸分子を指す。このような文脈において、配列決定データ(例えば、全ゲノム配列決定、標的配列決定などからの配列リード)は、このような核酸断片の全部または一部の1つまたは複数のコピーを導出するために使用される。このような配列リードは、実際には、元の核酸断片のPCR複製物の配列決定から得られてもよく、したがって、核酸断片を「代表」または「支持」する。生物学的試料(例えば、PCR複製物)中の特定の核酸断片を各々代表または支持する複数の配列リードが存在してもよい。いくつかの実施形態では、核酸断片は、無細胞核酸とみなすことができる。いくつかの実施形態では、PCR重複物からの配列読み取りは、誤解を招く可能性がある;例えば、特定の無細胞核酸分子の存在量レベルを決定する必要がある場合などである。そのような実施形態では、核酸断片の1つのコピーだけが、元の無細胞核酸分子を表すために使用される(例えば、ライブラリ調製プロセス中に無細胞核酸分子に付けられる分子識別子によって重複が除去される)。いくつかの実施形態において、メチル化配列決定データは、これらの核酸断片をさらに区別するために使用され得る。例えば、同一またはほぼ同一の配列を共有する2つの核酸断片は、それぞれが異なるメチル化パターンを保有する場合、依然として異なる元の無細胞核酸分子に対応する可能性がある。
【0160】
いくつかの実施形態では、2つのフラグメントは、それぞれのフラグメント配列が、2ヌクレオチド未満、3ヌクレオチド未満、4ヌクレオチド未満、5ヌクレオチド未満、6ヌクレオチド未満、7ヌクレオチド未満で互いに異なる場合に、ほぼ同一の核酸配列を共有するとみなされる。8ヌクレオチド未満、9ヌクレオチド未満、10ヌクレオチド未満、15ヌクレオチド未満、20ヌクレオチド未満、25ヌクレオチド未満、30ヌクレオチド未満、35ヌクレオチド未満、40ヌクレオチド未満、45ヌクレオチド未満または50ヌクレオチド未満で。 いくつかの実施形態では、2つのフラグメントは、それぞれのフラグメント配列が、全ヌクレオチドの1%未満、全ヌクレオチドの2%未満、全ヌクレオチドの3%未満、全ヌクレオチドの4%未満、または全ヌクレオチドの5%未満だけ互いに異なる場合に、ほぼ同一の配列を共有すると見なされる。
【0161】
いくつかの実施形態では、それぞれの(例えば、第1又は第2の)複数の核酸断片からの第1の断片は、参照ゲノム内の第1の位置に整列され、それぞれの(例えば、第1又は第2の)複数の核酸断片からの第2の断片は、参照ゲノム内の第2の位置に整列される。いくつかの実施形態では、第1の位置及び第2の位置は、参照ゲノム内の異なる領域に対応する。いくつかの実施形態では、第1の位置及び第2の位置は、同じ位置である(例えば、第1の位置及び第2の位置は、参照ゲノムの同じ領域に対応する)。いくつかの実施形態では、第1および第2の位置は、少なくとも1残基、少なくとも2残基、少なくとも3残基、少なくとも4残基、少なくとも5残基、少なくとも6残基、少なくとも7残基、少なくとも8残基、少なくとも9残基、少なくとも10残基、少なくとも11残基、少なくとも12残基、少なくとも13残基で参照ゲノムにおいて重なる。少なくとも14残基によって、少なくとも15残基によって、少なくとも16残基によって、少なくとも17残基によって、少なくとも18残基によって、少なくとも19残基によって、少なくとも20残基によって、少なくとも30残基によって、少なくとも40残基によって、少なくとも50残基によって、少なくとも60残基によって、少なくとも70残基によって、少なくとも80残基によって、少なくとも90残基によって、または少なくとも100残基によって、である。いくつかの実施形態では、第1の位置と第2の位置は、参照ゲノムにおいて1~50残基の間で重なる。
【0162】
いくつかの実施形態では、それぞれの断片は、参照ゲノムの少なくとも第1の場所および第2の場所にマッピングされる(例えば、それぞれの断片に対応する核酸配列は、参照ゲノムの少なくとも2つの異なる場所に存在する)。いくつかの実施形態では、それぞれの断片は、参照ゲノムの少なくとも3箇所、少なくとも4箇所、少なくとも5箇所、少なくとも6箇所、少なくとも7箇所、少なくとも8箇所、少なくとも9箇所、少なくとも10箇所、少なくとも11箇所、少なくとも12箇所、少なくとも13箇所、少なくとも14箇所、少なくとも15箇所、少なくとも16箇所、少なくとも17箇所、少なくとも18箇所、少なくとも19箇所または少なくとも20箇所にマッピングされる。いくつかの実施形態では、参照ゲノムの少なくとも2つのマッピングされた位置は、参照ゲノムにおいて、少なくとも1残基、少なくとも5残基、少なくとも10残基、少なくとも25残基、少なくとも50残基、少なくとも100残基、少なくとも200残基、少なくとも300残基、少なくとも400残基、少なくとも500残基、少なくとも600残基、少なくとも700残基、少なくとも800残基、少なくとも900残基、または少なくとも1000残基によって互いに離間している。いくつかの実施形態では、少なくとも2つのマッピングされた位置は、参照ゲノム中の異なる遺伝子を構成する。いくつかの実施形態では、少なくとも2つのマッピングされた位置は、参照ゲノムの異なる染色体上に位置する。
【0163】
核酸断片は、親ポリヌクレオチドの生物学的活性および/またはいくつかの特性を保持することができる。一例として、鼻咽頭癌細胞は、エプスタイン・バー・ウイルス(EBV)DNAの断片を対象、例えば、患者の血流に沈着させ得る。これらの断片は、血漿中の腫瘍由来DNAのレベルを検出するために使用することができる1つ以上のBamHI-W配列断片を含むことができる。BamHI-W配列断片は、Bam-HI制限酵素を用いて認識及び/又は消化することができる配列に相当する。BamHI-W配列は、配列5’-GGATCC-3’を参照することができる。
【0164】
さらに、ポリヌクレオチドは、例えば、生体試料内に自然に存在するcfDNA断片のように自然のプロセスによって、またはin vitroの操作によって、複数のセグメントに分割、または断片化されることが可能である。核酸を断片化する様々な方法は、当技術分野でよく知られている。これらの方法は、例えば、化学的または物理的または酵素的な性質のいずれかであってよい。酵素的断片化には、DNaseによる部分分解;酸による部分脱プリンティング;制限酵素の使用;イントロンにコードされたエンドヌクレアーゼ;核酸セグメントの特定のハイブリダイゼーションに依存して切断剤を核酸分子の特定の位置に局在させるトリプレックスおよびハイブリッド形成法などのDNAベースの切断方法;または既知もしくは未知の位置でポリヌクレオチドを切断する他の酵素もしくは化合物などが含まれ得る。物理的断片化方法は、ポリヌクレオチドを高い剪断速度にさらすことを含むことができる。高いせん断速度は、例えば、ピットまたはスパイクを有するチャンバーまたはチャネルを通してDNAを動かすこと、または制限されたサイズの流路、例えば、ミクロンまたはサブミクロンの範囲の断面寸法を有するアパーチャーを通してDNA試料を強制的に流すことによって生じることがある。その他の物理的方法としては、超音波処理、ネブライゼーションなどがある。物理的および化学的断片化方法の組み合わせも同様に、熱による断片化およびイオン媒介性加水分解のようなものを採用することができる。例えば、Sambrookら、「Molecular Cloning:A Laboratory Manual」、3rd Ed.Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N. Y. (2001) (”Sambrook et al.”) を参照し、これは、すべての目的のために参照により本明細書に組み込まれる。これらの方法は、核酸を選択されたサイズ範囲の断片に消化するように最適化することができる。
【0165】
本明細書で使用される場合、用語「配列読み取り」または「読み取り」は、本明細書に記載されるまたは当該技術分野で既知の任意の配列決定プロセスによって生成されるヌクレオチド配列を指す。リードは、核酸断片の一端から生成され得(「シングルエンドリード」)、時には核酸の両端から生成される(例えば、ペアエンドリード、ダブルエンドリード)。いくつかの実施形態では、配列リード(例えば、シングルエンドリード又はペアエンドリード)は、標的核酸断片の片方の鎖又は両方の鎖から生成され得る。配列リードの長さは、しばしば、特定の配列決定技術に関連付けられる。例えば、ハイスループット法は、数十から数百の塩基対(bp)の大きさで変化し得る配列リードを提供する。いくつかの実施形態では、配列リードは、約15bp~900bp長の平均、中央値、または平均長さ(例えば.約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp,約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bpである。いくつかの実施形態では、配列リードは、約1000bp、2000bp、5000bp、10,000bp、または50,000bp以上の平均、中央値または平均長さである。ナノポアシークエンシングは、例えば、数十から数百から数千の塩基対の大きさで変化し得る配列リードを提供し得る。イルミナパラレルシーケンスは、それほど変化しないシーケンスリードを提供することができ、例えば、シーケンスリードの大部分は200bpより小さくすることができる。配列リード(または配列決定リード)は、核酸分子(例えば、ヌクレオチドの文字列)に対応する配列情報を指すことができる。例えば、配列読み取りは、核酸断片の一部からのヌクレオチドの列(例えば、約20~約150)に対応することができ、核酸断片の一方または両方の末端のヌクレオチドの列に対応することができ、または核酸断片全体のヌクレオチドに対応することができる。配列読み取りは、様々な方法、例えば、配列決定技術を使用して、またはプローブ、例えば、ハイブリダイゼーションアレイまたは捕捉プローブにおいて、または増幅技術、例えば、ポリメラーゼ連鎖反応(PCR)または単一のプライマーを使用する線形増幅または等温増幅を使用して、得ることができる。
【0166】
本明細書で開示するように、本明細書で使用する「配列決定」、「配列決定」等の用語は、核酸またはタンパク質等の生体高分子の順序を決定するために使用され得る任意のおよびすべての生化学プロセスを一般に指す。例えば、配列決定データは、DNA断片などの核酸分子におけるヌクレオチド塩基の全てまたは一部を含むことができる。
【0167】
本明細書で開示するように、用語「一塩基変異体」または「SNV」は、ヌクレオチド配列、例えば、個体から読み取った配列の位置(例えば、部位)における、1つのヌクレオチドの異なるヌクレオチドへの置換をいう。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、”X>Y”と表記されることがある。例えば、シトシンからチミンへのSNVは、”C>T”と表記されることがある。
【0168】
本明細書で使用されるように、用語「メチル化プロファイル」(メチル化状態とも呼ばれる)は、ある領域についてのDNAメチル化に関連する情報を含むことができる。DNAメチル化に関連する情報は、CpG部位のメチル化指数、領域内のCpG部位のメチル化密度、連続する領域にわたるCpG部位の分布、複数のCpG部位を含む領域内の個々のCpG部位に対するメチル化のパターン又はレベル、及び非CpGメチル化を含むことができる。ゲノムの相当部分のメチル化プロファイルは、メチロームと同等と考えることができる。哺乳類ゲノムにおける「DNAメチル化」は、CpGジヌクレオチドのうち、シトシンの複素環の5位へのメチル基の付加(例えば、5-メチルシトシンを生成する)を指すことができる。シトシンのメチル化は、例えば5’-CHG-3’および5’-CHH-3’のような他の配列コンテキストにおけるシトシンで起こり得るが、ここでHはアデニン、シトシンまたはチミンである。シトシンのメチル化は、5-ヒドロキシメチルシトシンの形態でもあり得る。DNAのメチル化は、N6-メチルアデニンなどの非シトシンヌクレオチドのメチル化も含むことができる。
【0169】
本明細書で使用する「メチローム」は、ゲノム中の複数の部位または遺伝子座におけるDNAメチル化量の指標とすることができる。メチロームは、ゲノムの全て、ゲノムのかなりの部分、又はゲノムの比較的小さな部分(複数可)に対応することができる。腫瘍メチローム」は、対象(例えば、ヒト)の腫瘍のメチロームとすることができる。腫瘍メチロームは、腫瘍組織または血漿中の無細胞腫瘍DNAを用いて決定することができる。腫瘍メチロームは、関心のあるメチロームの一例であり得る。核酸、例えばDNAを体液中に供給することができる臓器(例えば、脳細胞、骨、肺、心臓、筋肉、腎臓などのメチローム)のメチロームが対象となり得る。臓器は移植された臓器でもよい。
【0170】
本明細書で使用する場合、各ゲノム部位(例えば、CpG部位、その5’→3’方向に沿った塩基の直線配列においてシトシンヌクレオチドがグアニンヌクレオチドに続いているDNAの領域)の「メチル化指数」の用語は、その部位を覆う核酸断片の総数に対するその部位でのメチル化を示す核酸断片の比率を指すことができる。領域の「メチル化密度」は、メチル化を示す領域内の部位における読み取りの数を、その領域内の部位を覆う読み取りの総数で割ったものとすることができる。部位は、特定の特徴を有することができる(例えば、部位は、CpG部位であり得る)。ある領域の「CpGメチル化密度」は、CpGメチル化を示すリードの数を、その領域(例えば、特定のCpG部位、CpG島内のCpG部位、またはより大きな領域)内のCpG部位をカバーするリードの総数で割った値とすることができる。例えば、ヒトゲノムの各100kbビンに対するメチル化密度は、100kb領域にマップされた核酸断片によってカバーされる全てのCpG部位の割合として、CpG部位における非変換シトシン(メチル化シトシンに対応し得る)の総数から決定することができる。いくつかの実施形態では、この分析は、他のビンサイズ、例えば、50-kb又は1-MBなどに対して行われる。いくつかの実施形態において、領域は、ゲノム全体又は染色体又は染色体の一部(例えば、染色体腕)である。CpG部位のメチル化指標は、領域がそのCpG部位のみを含む場合の領域のメチル化密度と同じであることができる。メチル化シトシンの割合」は、例えば、CpG文脈の外側のシトシンを含む、領域内の分析されたシトシン残基の総数に対して、メチル化されている(例えば、バイサルファイト変換後に変換されていない)ことが示されたシトシン部位「Cの数」を指すことができる。メチル化指数、メチル化密度、メチル化シトシンの割合などは、”メチル化レベル ”の一例である。
【0171】
本明細書で使用する場合、「血漿メチローム」は、動物(例えば、ヒト)の血漿又は血清から決定されるメチロームであり得る。血漿及び血清は無細胞DNAを含み得るので、血漿メチロームは、無細胞メチロームの一例であり得る。血漿メチロームは、腫瘍/患者メチロームの混合物であり得るので、混合メチロームの一例となり得る。細胞メチローム」は、対象、例えば、患者の細胞(例えば、血液細胞又は腫瘍細胞)から決定されるメチロームであり得る。血球のメチロームは、血球メチローム(または血液メチローム)と呼ぶことができる。
【0172】
本明細書で使用される場合、用語「異常なメチル化パターン」又は「異常なメチル化パターン」は、閾値よりも低い頻度で試料中に見出されると予想されるメチル化状態ベクトル、メチル化パターン又は該メチル化状態ベクトルを有するDNA分子のメチル化状態を意味する。本明細書で提供される特定の実施形態では、健康な個体からなる健康な対照群において特定のメチル化状態ベクトルを見出すことの期待度は、p値によって表される。いくつかの実施形態では、メチル化状態ベクトルのp値は、2020年5月22日に出願された「Systems and Methods for Determining Whether a Subject has a Cancer Condition Using Transfer Learning」と題するPCT/US2020/034317の例5、及び2019年3月13日に出願され、現在US2019/0287652として公開されている「Anomalous fragment detection and classification」と題する米国特許出願番号16/352,602で説明されているように決定され、その各々は参照によりその全体が本明細書に組み込まれるものとする。低いp値スコアは、それによって、一般に、健常対照群における健常者からのサンプル内の他のメチル化状態ベクトルと比較して、比較的予期しないメチル化状態ベクトルに相当する。高いp値スコアは、一般に、健康な対照群の健康な個体からのサンプル内に見出される他のメチル化状態ベクトルと比較して、相対的により期待されるメチル化状態ベクトルに相当する。閾値(例えば、0.1、0.01、0.001、0.0001など)より低いp値を有するメチル化状態ベクトルは、異常メチル化パターンと定義することができる。メチル化パターンまたはメチル化状態ベクトルのp値または期待値を計算するために、当技術分野で知られている様々な方法を使用することができる。本明細書で提供される例示的な方法は、CpG部位のメチル化状態が隣接するCpG部位のメチル化状態に依存すると仮定するマルコフ連鎖確率の使用を含む。本明細書で提供される代替方法は、複数の混合成分を含む混合モデルを利用することにより、健康な個体において特定のメチル化状態ベクトルを観察する期待度を計算し、各CpG部位におけるメチル化が他のCpG部位におけるメチル化状態から独立していると仮定される独立部位モデルである。本明細書で提供される方法は、異常なメチル化パターンを有するゲノム領域を使用する。ゲノム領域に対応する又はゲノム領域に由来するcfDNA断片が、参照試料において閾値よりも少ない頻度で現れるメチル化状態ベクトルを有する場合、ゲノム領域は異常なメチル化パターンを有すると決定され得る。参照サンプルは、対照被験者または健康な被験者からのサンプルであり得る。参照試料にメチル化状態ベクトルが出現する頻度は、p値スコアとして表すことができる。ゲノム領域に対応する又はゲノム領域に由来するcfDNA断片が単一の均一なメチル化状態ベクトルを有しない場合、ゲノム領域は、複数のメチル化状態ベクトルに対して複数のp値スコアを有することができる。この場合、複数のp値スコアは、閾値と比較される前に、合計または平均化され得る。ゲノム領域に対応するp値スコアと閾値との比較には、算術平均、幾何平均、調和平均、中央値、最頻値など、当技術分野で知られる様々な方法を採用することができるが、これらに限定されるものではない。
【0173】
本明細書で使用する場合、用語「相対的存在量」は、特定の特性(例えば、特定の長さ、1つ以上の特定の座標/終端位置で終わる、ゲノムの特定の領域に整列する、または特定のメチル化状態を有する)を有する第1の量の核酸断片と特定の特性(例えば、特定の長さ、1つ以上の特定の座標/終端位置で終わる、またはゲノムの特定の領域に整列する)を有する第2の量の核酸断片の比率を意味し得る。一例では、相対的存在量は、ゲノム位置の第1のセットで終わるDNA断片の数とゲノム位置の第2のセットで終わるDNA断片の数の比率を指す場合がある。いくつかの態様において、「相対的存在量」は、ゲノム位置の1つのウィンドウ内で終わる無細胞DNA分子の量(1つの値)を、ゲノム位置の別のウィンドウ内で終わる無細胞DNA分子の量(他の値)に関連付ける分離値の一種であり得る。つのウィンドウは重なり合うことができるが、異なるサイズであることができる。他の実施形態では、2つのウィンドウは重なり得ない。さらに、いくつかの実施形態では、ウィンドウは1ヌクレオチドの幅であり、したがって、1ゲノム位置と等価である。
【0174】
メチル化とは、シトシン塩基のピリミジン環上の水素原子をメチル基に変換し、5-メチルシトシンを形成するデオキシリボ核酸(DNA)の修飾を意味する。特に、メチル化は、シトシンとグアニンのジヌクレオチド(本明細書では「CpG部位」と呼ぶ)で起こりがちである。他の例では、メチル化は、CpG部位の一部ではないシトシン、またはシトシン以外の別のヌクレオチドで起こり得るが、これらは稀な発生である。本開示では、メチル化は、明確化のために、CpG部位を参照して議論される。異常なcfDNAのメチル化は、ハイパーメチル化又はハイポメチル化として同定され、その両方が、癌の状態を示す可能性がある。当技術分野でよく知られているように、DNAメチル化異常は(健康な対照と比較して)異なる効果を引き起こし、癌に寄与する可能性がある。
【0175】
メチル化異常のあるcfDNA断片の同定には、様々な課題がある。まず、被験者のcfDNAが異常にメチル化されていると判定することは、対照群との比較においてのみ重要であり、対照群の数が少ない場合には、判定が信頼できなくなる。さらに、対照群となる被験者のメチル化状態は様々であり、被験者のcfDNAが異常にメチル化されていると判定する際に考慮することが困難な場合がある。また、あるCpG部位のシトシンのメチル化は、その後に続くCpG部位のメチル化に因果関係があるとされている。
【0176】
当業者であれば、本明細書に記載された原理は、非シトシンメチル化を含む非CpGコンテキストにおけるメチル化の検出にも同様に適用可能であることを理解されるであろう。
【0177】
本明細書に開示されるように、用語「被験体」は、ヒト(例えば、男性ヒト、女性ヒト、胎児、妊娠中の女性、子供など)、非ヒト動物、植物、細菌、真菌、または原生生物を含むがこれらに限定されない、任意の生物または非生物のことをいう。任意のヒトまたは非ヒト動物が被験体として機能し得、これには、哺乳類、爬虫類、鳥類、両生類、魚類、無蹄類、反芻動物、ウシ(例えば、牛)、馬(例えば、馬)、カプリンおよびオビ(例えば、,羊、山羊)、豚(例えば、豚)、ラクダ科(例えば、ラクダ、ラマ、アルパカ)、猿、類人猿(例えば、ゴリラ、チンパンジー)、羆(例えば、熊)、鶏、犬、猫、ネズミ、魚、イルカ、鯨、サメを指す。用語「対象」及び「患者」は、本明細書において互換的に使用され、例えば癌などの医学的状態又は障害を有することが知られている、又は潜在的に有するヒト又は非ヒト動物に言及する。いくつかの実施形態では、対象は、任意の段階の雄又は雌(例えば、男、女、又は子供)である。
【0178】
試料が採取される、又は本明細書に記載の方法若しくは組成物のいずれかによって処理される対象は、任意の年齢であり得、成人、乳児、又は子供であることが可能である。いくつかの態様において、被験体、例えば.患者は、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、53.55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99歳、またはその範囲内(e.g.,約2歳と約20歳の間、約20歳と約40歳の間、または約40歳と約90歳の間)。本開示の方法から利益を得ることができる被験者、例えば、患者の特定のクラスは、被験者、例えば、40歳を超える患者である。
【0179】
本開示の方法から利益を得ることができる被験者、例えば、患者の別の特定のクラスは、慢性心臓症状のリスクがより高くなり得る小児科患者である。さらに、サンプルが採取される、または本明細書に記載の方法もしくは組成物のいずれかによって治療される対象、例えば、患者は、男性または女性であり得る。
【0180】
本明細書で使用する「正規化」という用語は、比較目的のために、値または値の集合を共通の参照枠に変換することを意味する。例えば、診断用ctDNAレベルがベースラインctDNAレベルで「正規化」される場合、診断用ctDNAレベルは、診断用ctDNAレベルがベースラインctDNAレベルと異なる量を決定することができるように、ベースラインctDNAレベルと比較される。
【0181】
本明細書で使用する「癌」または「腫瘍」という用語は、組織の異常な塊で、その塊の成長が正常な組織の成長を上回り、協調しないものを指す。癌または腫瘍は、形態および機能性を含む細胞分化の程度、成長速度、局所浸潤および転移などの特徴に応じて、「良性」または「悪性」と定義することができる。良性腫瘍は、分化度が高く、悪性腫瘍と比較して成長が遅く、発生部位に限局していることが特徴である。さらに、良性腫瘍は遠隔部位への浸潤、浸潤、転移の能力がない場合もある。悪性腫瘍は、低分化(未分化)であり、周囲組織への浸潤、浸潤、破壊を進行させながら急速に増殖することが特徴である。さらに、悪性腫瘍は遠隔部位への転移能を有することもある。
【0182】
本明細書で使用する場合、「がんのレベル」という用語は、がんが存在するかどうか(例えば、存在するかどうか)、がんのステージ、腫瘍のサイズ、転移の有無、身体の総腫瘍負担、及び/又はがんの深刻さ(例えば、がんの再発)の他の指標を指す。癌のレベルは、数字、または記号、アルファベット文字、色などの他の指標とすることができる。レベルは、ゼロであり得る。癌のレベルは、突然変異または突然変異の数に関連する前悪性または前癌状態(state)も含むことができる。癌のレベルは、様々な方法で使用することができる。例えば、スクリーニングでは、これまで癌であることが知られていない人に癌が存在するかどうかを調べることができる。評価は、癌と診断された人を調査して、経時的な癌の進行を監視し、治療の有効性を調査し、または予後を決定することができる。一実施形態では、予後は、被験者が癌で死亡する確率、又は特定の期間若しくは時間の後に癌が進行する確率、又は癌が転移する確率として表すことができる。検出は、「スクリーニング」を構成することができ、または、癌の示唆的な特徴(例えば、症状または他の陽性試験)を有する誰かが、癌を有するかどうかを確認することを構成することができる。
【0183】
用語「癌負荷」、「腫瘍負荷」、「癌負荷」及び「腫瘍負荷」は、試験試料中の腫瘍由来核酸の濃度又は存在を指すために、本明細書において互換的に使用される。このように、用語「癌負荷」、「腫瘍負荷」、「癌負荷」及び「腫瘍負荷」は、生体試料中の細胞源画分又は腫瘍画分の非限定的な例である。いくつかの実施形態において、腫瘍画分は、細胞源画分の特定バージョンである。
【0184】
本明細書で使用する場合、「組織」という用語は、機能単位としてまとまった細胞群に相当する。複数の種類の細胞が1つの組織に存在することもある。異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞又は血球)から構成され得るが、異なる生物(母親対胎児)からの組織又は健康な細胞対腫瘍細胞に対応することもできる。組織」という用語は、一般に、人体に見られる任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、中咽頭組織)を指すことができる。いくつかの態様において、用語「組織」または「組織型」は、無細胞核酸が由来する組織を指すために使用され得る。一例では、ウイルス核酸断片は血液組織に由来することができる。別の例では、ウイルス核酸断片は、腫瘍組織に由来することができる。
【0185】
本書では,「未学習の分類器」という用語は,ターゲットデータセットで学習されていない分類器を指する.しかし、未訓練の分類器は、一次データセット(例えば、小規模及び/又は参照データセット)上で部分的に訓練されることがある。未訓練分類器」という用語は、未訓練分類器のそのような訓練において、転移学習技術が使用される可能性を排除しないことが理解されるであろう。例えば、Fernandesら , 2017, ”Transfer Learning with Partial Observability Applied to Cervical Cancer Screening,” Pattern Recognition and Image Analysis: 8th Iberian Conference Proceedings, 243-250(参照によりここに組み込まれる)は、かかる転送学習の非制限的な例を提供するものである。移転学習が使用される場合、未訓練の分類器には、主要な訓練データセットのデータを超える追加のデータが提供される。典型的には、この追加データは、別の補助的な学習データセットから学習された係数(例えば、回帰係数)の形式である。さらに、単一の補助訓練データセットについての説明が開示されてきたが、本開示において未訓練分類器を訓練する際に一次訓練データセットを補完するために使用され得る補助訓練データセットの数には制限がないことが理解されよう。例えば、いくつかの実施形態では、2つ以上の補助訓練データセット、3つ以上の補助訓練データセット、4つ以上の補助訓練データセット、又は5つ以上の補助訓練データセットが、転移学習によって一次訓練データセットを補完するために用いられ、かかる各補助データセットは一次訓練データセットとは異なるものである。このような実施形態では、任意の態様の転移学習が使用されてもよい。例えば、一次訓練データセットに加えて、第一補助訓練データセットと第二補助訓練データセットとが存在する場合を考える。第1の補助訓練データセットから学習された係数は、(第1の補助訓練データセットへの回帰などの分類器の適用によって)、伝達学習技術(例えば、上述の2次元行列の乗算)を用いて第2の補助訓練データセットに適用されてもよく、その結果、その係数が次に第1の訓練データセットに適用されて、これが、第1の訓練データセット自体と共に、未訓練分類器へ適用される訓練済み中間分類器が得られてもよい。あるいは、第一補助訓練データセットから学習された係数の第一セット(第一補助訓練データセットへの回帰などの分類器の適用による)と第二補助訓練データセットから学習された係数の第二セット(第二補助訓練データセットへの回帰などの分類器の適用による)をそれぞれ個別に第一訓練データセットの別々のインスタンスに(例えば、独立した行列の乗算によって)適用しても良い。一次訓練データセット自体(または一次訓練セットから学習された主成分または回帰係数のような一次訓練データセットの何らかの縮小形態)と共に、一次訓練データセットの別々のインスタンスへの係数のそのような適用の両方は、次に、未訓練の分類器を訓練するために、未訓練分類器に適用されてもよい。いずれの例でも、第1及び第2の補助訓練データセットから得られる細胞源(例えば、癌の種類など)に関する知識は、細胞源にラベル付けされた一次訓練データセット)と共に、未訓練の分類器を訓練するために使用される。
【0186】
「分類」という用語は、試料の特定の性質に関連付けられた任意の番号または他の文字を指すことができる。例えば、「+」記号(又は「陽性」という単語)は、サンプルが欠失又は増幅を有するものとして分類されることを意味し得る。別の例では、用語「分類」は、対象及び/又は試料中の腫瘍組織の量、対象及び/又は試料中の腫瘍の大きさ、対象中の腫瘍のステージ、対象及び/又は試料中の腫瘍負荷、並びに対象中の腫瘍転移の存在を意味する。いくつかの実施形態では、分類は、二値(例えば、陽性又は陰性)であるか、又はより多くのレベルの分類(例えば、1~10又は0~1のスケール)を有する。いくつかの実施形態において、用語「カットオフ」及び「閾値」は、操作で使用される所定の数値を指す。一例では、カットオフサイズとは、フラグメントが除外される以上のサイズを指す。いくつかの実施形態では、閾値は、特定の分類が適用される上または下の値を指す。これらの用語のいずれかは、これらの文脈のいずれでも使用することができる。
【0187】
本明細書で使用する場合、用語「癌関連変化」または「癌特異的変化」には、癌由来の変異(一塩基変異、ヌクレオチドの欠失または挿入、遺伝子または染色体セグメントの欠失、転座、逆位を含む)、遺伝子の増幅、ウイルス関連配列(例えば、ウイルスエピソーム、ウイルス挿入物、細胞に感染しその後細胞から放出されるウイルスDNA、循環または無細胞ウイルスDNA)などを含めることができる。異常なメチル化プロファイルまたは腫瘍特異的メチル化シグネチャー、異常な無細胞核酸(例えば、DNA)サイズプロファイル、異常なヒストン修飾マークおよび他のエピジェネティック修飾、および癌関連または癌特異的な無細胞DNA断片の末端の位置など)。
【0188】
本明細書で使用される場合、用語「対照」、「対照試料」、「参照」、「参照試料」、「正常」、及び「正常試料」は、特定の状態を有さない、又は他の点では健康である対象からの試料を表す。一例では、本明細書に開示されるような方法は、腫瘍を有する対象に対して実行することができ、ここで、参照サンプルは、対象の健康な組織から採取されたサンプルである。参照試料は、対象から取得することも、データベースから取得することも可能である。参照は、例えば、対象からの試料から得られた核酸断片をマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生体試料及び体質的試料からの核酸断片をアライメントして比較することができるハプロイド又は二倍体ゲノムを指すことができる。体質的サンプルの例としては、被験者から得られた白血球のDNAを挙げることができる。ハプロイドゲノムの場合、各遺伝子座に1つだけヌクレオチドが存在することがある。2倍体ゲノムの場合、ヘテロ接合性遺伝子座を特定することができる。各ヘテロ接合性遺伝子座は2つの対立遺伝子を持つことができ、どちらの対立遺伝子も遺伝子座へのアライメントに一致させることが可能である。
【0189】
いくつかの態様は、説明のための例示的なアプリケーションを参照して以下に説明される。多数の特定の詳細、関係、および方法が、本明細書に記載される特徴の完全な理解を提供するために記載されることを理解されたい。しかしながら、関連する技術において通常の技能を有する者は、本明細書に記載される特徴が、特定の詳細の1つ以上なしに、または他の方法を用いて実施され得ることを容易に認識するであろう。いくつかの行為は異なる順序で及び/又は他の行為又は事象と同時に起こり得るので、本明細書に記載された特徴は、行為又は事象の図示された順序によって制限されない。さらに、本明細書に記載された特徴に従った方法論を実施するために、図示された全ての行為または事象が必要なわけではない。
【0190】
システムの例示的な実施形態。
【0191】
ここで、例示的なシステムの詳細が、
図1と共に説明される。
図1は、いくつかの実装に従ったシステム100を例示するブロック図である。いくつかの実装におけるデバイス100は、1つまたは複数の処理ユニットCPU(複数可)102(プロセッサまたは処理コアとも呼ばれる)、1つまたは複数のネットワークインターフェース104、ユーザインターフェース106、非永続メモリ111、永続メモリ112、およびこれらのコンポーネントを相互接続するための1つまたは複数の通信バス114を含む。つ以上の通信バス114は、任意に、システムコンポーネント間の通信を相互接続し制御する回路(チップセットと呼ばれることもある)を含む。非永続的メモリ111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含み、一方、持続的メモリ112は、典型的には、CD-ROM、デジタル多用途ディスク(DVD)または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージ装置、磁気ディスクストレージ装置、光ディスクストレージ装置、フラッシュメモリ装置、または他の非揮発性の固体ストレージ装置などである。永続的メモリ112は、任意選択で、CPU(s)102から遠隔に位置する1つ以上のストレージデバイスを含む。永続的メモリ112、および非永続的メモリ112内の不揮発性メモリ装置(複数可)は、非一過性のコンピュータ可読記憶媒体を構成する。いくつかの実装では、非永続的メモリ111または代替的に非一過性のコンピュータ可読記憶媒体は、以下のプログラム、モジュールおよびデータ構造、またはそのサブセットを、時には永続的メモリ112と組み合わせて格納する。
オプションのオペレーティングシステム116は、様々な基本システムサービスを処理するための手順と、ハードウェアに依存するタスクを実行するための手順を含んでいる。
システム100を他の装置、または通信ネットワークと接続するための、オプションのネットワーク通信モジュール(または命令)118。
被験者の生体試料中の被験者の細胞源割合158を決定するための細胞源割合推定モジュール120と、を備える。
それぞれの訓練対象124(例えば、124-1、・・・、124-Z、ここでZは1より大きい正の整数)ごとに、それぞれの訓練対象のそれぞれの無細胞断片126(例えば、126-1-X、・・・、126-1-Y、ここでX及びYはXより大きいYの任意の正の整数)に対して少なくとも(i)対応するメチル化パターン128(例えば、。128-1-X)であって、少なくとも、それぞれの無細胞断片における各CpG部位130(例えば、130-1-X-A、・・・、130-1-X-Q)のそれぞれのメチル化状態から決定されるもの、及び(ii)それぞれの訓練対象の対応する対象癌表示136を提供する。
被検者の生体試料に由来する複数の無細胞断片中の各無細胞断片142(例えば、142-G、・・・、142-H、G及びHはGよりも大きい正の整数)に対して、(i)少なくとも各CpG部位148(例えば。146-G-M、・・・、146-G-N、・・・、146-H-O、・・・146H-P、ここでM、N、O及びPは正の整数)、(ii)それぞれの無細胞断片におけるそれぞれのビンマッピング148(例えば、148-G、・・・、148H)、(iii)それぞれの予測された無細胞断片癌状態150(例えば、。150-G、...、150-H)、被験体データセットは、中心傾向の第1の尺度152、中心傾向の第2の尺度154、及び推定細胞源割合156を更に含む。
【0192】
本開示に従って、それぞれの無細胞断片の対応するビンマッピング132(例えば、132-1-X)及びそれぞれの無細胞断片の癌状態134(例えば、134-1-X)の割り当てがなされる。便宜上及び解釈の容易さのために、これらのデータ構成は、トレーニングデータセットにあるものとして示される。しかしながら、典型的な実施形態では、このようなデータ構築物は、トレーニングセット内の無細胞断片のメチル化パターンから計算され、元のデータセットの一部ではない。他の実施形態では、ビンマッピング132及び無細胞断片癌状態は、取得されるトレーニングデータセット122の一部である。
【0193】
いくつかの実施態様によれば、上記特定された要素の1つまたは複数は、先に述べたメモリデバイスの1つまたは複数に格納され、上述した機能を実行するための命令のセットに対応する。上記特定されたモジュール、データ、またはプログラム(例えば、命令のセット)は、別々のソフトウェアプログラム、手順、データセット、またはモジュールとして実装される必要はなく、したがって、これらのモジュールおよびデータの様々なサブセットは、様々な実装において組み合わせられるか、さもなければ再配置されてもよい。いくつかの実装では、非永続的メモリ111は、任意に、上記で特定されたモジュールおよびデータ構造のサブセットを格納する。さらに、いくつかの実施形態では、メモリは、上記で説明されていない追加のモジュール及びデータ構造を格納する。いくつかの実施形態では、上記特定された要素の1つ以上は、可視化システム100が必要なときにかかるデータの全てまたは一部を取り出すことができるように、可視化システム100のものとは別の、可視化システム100によってアドレス指定可能なコンピュータシステムに格納される。
【0194】
図1は「システム100」を描いているが、この図は、本明細書で説明する実装の構造概略図としてよりも、コンピュータシステムに存在し得る様々な特徴の機能的説明として意図されるものである。実際には、また当業者が認識するように、別々に示された項目は組み合わされ得、いくつかの項目は分離され得る。さらに、
図1では、非永続的メモリ111にある特定のデータおよびモジュールを描いているが、これらのデータセットおよび/またはモジュールの一部または全部は、永続的メモリ112にある可能性がある。
【0195】
本開示に従ったシステムが
図1を参照して開示されたが、本開示に従った方法が、
図2A及び2B並びに
図3A及び3Bを参照して今詳細に説明される。開示された方法のいずれかが、被験体における癌の状態または被験体が癌の状態を有する可能性を決定するために、2017年10月25日に出願された米国特許出願第15/793,830号および/または2017年10月24日の国際出願日を有する国際特許公開番号PCT/US17/58099に開示されたアッセイまたはアルゴリズムのいずれかを利用またはそれと連動し得ることが理解でき、その各々は参照によりここに組み込まれるものとする。
【0196】
細胞源比率を推定するための特徴を特定する。
【0197】
ブロック202本開示の一態様は、1つ以上のプロセッサと、1つ以上のプロセッサによる実行のための1つ以上のプログラムを記憶するメモリとを有するコンピュータシステムにおいて実行される、対象についての細胞源率を推定するための複数の特徴を特定する方法を提供する。
【0198】
いくつかの実施形態では、
図2Aのブロック202の細胞源画分は、共通の原発部位の第1の癌状態に対応する。いくつかの実施形態では、細胞源画分は、ある癌種の腫瘍画分、又はその画分に対応する。いくつかの実施形態では、細胞源分画は、第1の癌状態の所定のステージの腫瘍分画に対応する。いくつかの実施形態では、細胞源画分は、1つ又は複数の種類のヒト細胞に由来する。
【0199】
被験者とがんの状態
【0200】
ブロック204
図2Aのブロック204において、本方法は、電子形式のトレーニングデータセットを取得することによって進行する。訓練データセットは、複数の訓練対象における各訓練対象について、少なくともa)対応する訓練用複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターン、及びb)それぞれの訓練対象の対象癌表示であって、対象癌表示が第1癌状態及び第2癌状態のうちの1つであるものを含む。
【0201】
ブロック206に従って、いくつかの実施形態では、複数の訓練対象は、10~1000の訓練対象からなる。いくつかの実施形態では、複数の訓練被験者は、少なくとも10の訓練被験者、少なくとも25の訓練被験者、少なくとも50の訓練被験者、少なくとも100の訓練被験者、少なくとも250の訓練被験者、少なくとも500の訓練被験者、少なくとも750の訓練被験者、少なくとも1000の訓練被験者または少なくとも1500の訓練被験者からなる。いくつかの実施形態では、複数の訓練科目は、10~100,000の訓練科目、100~50,000の訓練科目、又は100~10,000の訓練科目からなる。
【0202】
いくつかの実施形態では、複数の訓練被験者において、第1の癌状態及び第2の癌状態を有する訓練被験者の数が均衡している(例えば、複数の訓練被験者は、各被験者の癌状態を有する実質的に同数の訓練被験者から構成される)。例えば、複数の訓練被験者が第1の癌状態を有する少なくとも50人の訓練被験者からなる場合、複数の訓練被験者は、第2の癌状態を有する少なくとも50人の訓練被験者からもなり、又は複数の訓練被験者が第1の癌状態を有する少なくとも500人の訓練被験者からなる場合、複数の訓練被験者は、第2の癌状態を有する少なくとも500人の訓練被験者からもなる。いくつかの実施形態では、訓練被験者の5%以上95%以下が第1の癌の状態を有し、残りが第2の癌の状態を有している。
【0203】
いくつかの実施形態では、訓練被験者の20パーセントから80パーセントの間が、第1の癌の状態を有し、残りが第2の癌の状態を有する。いくつかの実施形態では、訓練被験者の30パーセントから70パーセントの間が、第1の癌の状態を有し、残りが第2の癌の状態を有する。いくつかの実施形態では、訓練被験者の40パーセントから60パーセントの間が、第1の癌の状態を有し、残りが第2の癌の状態を有する。いくつかの実施形態では、訓練被験者の45パーセントから55パーセントの間が第1の癌の状態を有し、残りが第2の癌の状態を有している。
【0204】
ブロック208を参照すると、いくつかの実施形態では、第1の癌の状態は癌からなり、第2の癌の状態は癌がないことである。いくつかの実施形態では、第1の癌の状態は、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道癌、胃癌、頭/首癌、肝胆道癌、腎癌、肝癌のうちの1つである。肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、黒色腫、多発性骨髄腫、又は白血病であり、第2のがんの状態はがんの非存在である。いくつかの実施形態では、第1の癌の状態は、副腎癌のステージ、胆道癌のステージ、膀胱癌のステージ、骨/骨髄癌のステージ、脳癌のステージ、乳癌のステージのうちの1つである。子宮頸がん、大腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、腎臓がん、肝臓がん、肺がんのステージ卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、白血病のいずれかであり、第2のがんの状態はがんの非存在である。
【0205】
いくつかの実施形態において、第2の癌の状態は、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道癌、胃癌、頭/首癌、肝胆道癌のいずれかであり、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、頭/首癌、肝/頸癌、肝/首癌、胆道癌、胆道癌、膀胱癌、骨/骨髄癌は、以下のいずれかである。腎臓癌、肝臓癌、肺癌、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、黒色腫、多発性骨髄腫、又は白血病が挙げられる。いくつかの実施形態では、第2の癌の状態は、副腎癌の段階、胆道癌の段階、膀胱癌の段階、骨/骨髄癌の段階、脳癌の段階、乳癌の段階、子宮頸癌の段階、大腸癌の段階、食道癌の段階、胃癌の段階、頭/首癌の段階、肝胆道癌の段階、腎癌の段階のいずれか1つである。肝臓癌、肺癌、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、または白血病の病期。
【0206】
いくつかの実施形態では、被験者の癌の状態は、第1の癌の状態、第2の癌の状態、及び第3の癌の状態のうちの1つである。いくつかの実施形態では、複数の訓練被験者における各訓練被験者のそれぞれの被験者癌状態は、複数の癌状態から個別に選択される。いくつかのそのような実施形態では、複数の訓練対象は、複数の癌状態におけるそれぞれのそれぞれの癌状態を有する少なくとも最小数の訓練対象からなる。いくつかの実施形態では、それぞれのそれぞれの癌状態を有する訓練被験者の最小数は、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも300、少なくとも350、少なくとも400、少なくとも450、又は少なくとも500の訓練被験者を有する。
【0207】
いくつかの実施形態では、複数の癌状態は、少なくとも5、少なくとも10、または少なくとも20の固有の癌状態からなる。いくつかの実施形態において、複数の癌の状態は、22個の固有の癌の状態からなる。
【0208】
いくつかの実施形態において、複数の癌の状態における各癌の状態は、副腎癌、胆道癌、膀胱癌、骨/骨髄癌、脳癌、乳癌、子宮頸癌、大腸癌、食道癌、胃癌、頭/首癌の1つである。肝胆膵がん、腎臓がん、肝臓がん、肺がん、卵巣がん、膵臓がん、骨盤がん、胸膜がん、前立腺がん、腎臓がん、皮膚がん、胃がん、精巣がん、胸腺がん、甲状腺がん、子宮がん、リンパ腫、メラノーマ、多発性骨髄腫、又は白血病である。いくつかの実施形態では、複数の癌状態における各癌状態は、副腎癌の段階、胆道癌の段階、膀胱癌の段階、骨/骨髄癌の段階、脳癌の段階、乳癌の段階、子宮頸癌の段階、大腸癌の段階、食道癌の段階、胃癌の段階、頭/首癌の段階、肝胆道癌の段階、腎癌の段階のうちの1つである。肝臓癌、肺癌、卵巣癌、膵臓癌、骨盤癌、胸膜癌、前立腺癌、腎臓癌、皮膚癌、胃癌、精巣癌、胸腺癌、甲状腺癌、子宮癌、リンパ腫、メラノーマ、多発性骨髄腫、または白血病の病期。
【0209】
無細胞フラグメントの取得とメチル化シークエンス
ブロック204を再び参照すると、各トレーニング対象について、対応するトレーニング用複数の無細胞断片における、それぞれのそれぞれの無細胞断片の対応するメチル化パターンは、(i)それぞれのトレーニング対象から得られた対応する生体試料中のそれぞれの断片を含む1以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位の各CpGのメチル化状態から構成される。
【0210】
いくつかの実施形態では、対応する生物学的試料は、液体生物学的試料である。いくつかの実施形態では、対応する生物学的試料は、血液試料である。いくつかの実施形態では、対応する生体試料は、訓練対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる。いくつかの実施形態では、対応する生体試料は、トレーニング対象の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる。
【0211】
いくつかの実施形態では、訓練対象からの対応する生体試料中の1つ以上の核酸試料は、無細胞核酸試料(例えば、液体生体試料から得られたもの)である。いくつかの実施形態では、生体試料から得られる無細胞核酸は、本開示で定義される核酸の任意の形態、またはそれらの組み合わせである。例えば、いくつかの実施形態では、生体試料から得られる無細胞核酸は、RNA及びDNAの混合物である。
【0212】
いくつかの実施形態では、それぞれの訓練対象についての対応する訓練用複数個の無細胞断片が、生体試料(例えば、液体生体試料)からの無細胞核酸に由来する場合、無細胞核酸が、評価可能な細胞源分率を示すことが有利である。いくつかの実施形態では、対応する訓練対象についての、第1又は第2の癌状態に関する細胞源率は、少なくとも2パーセント、少なくとも5パーセント、少なくとも10パーセント、少なくとも15パーセント、少なくとも20パーセント、少なくとも25パーセント、少なくとも50パーセント、少なくとも75パーセント、少なくとも90パーセント、少なくとも95パーセント、又は少なくとも98パーセントである。
【0213】
いくつかの実施形態では、生体試料は、配列決定解析の準備のために無細胞核酸を抽出するように処理される。非限定的な例として、いくつかの実施形態では、無細胞核酸断片は、K2 EDTAチューブで対象から採取された生体試料(例えば、血液試料)から抽出される。生体試料が血液である場合、試料は、採取後2時間以内に、生体試料をまず1000gで10分間二重回転させ、次に、得られた血漿を2000gで10分間回転させることによって処理される。その後、血漿は1mlのアリコートで-80℃に保存される。このようにして、無細胞核酸抽出の目的のために、生体試料から適当な量の血漿(例えば、1~5ml)が調製される。いくつかのそのような実施形態では、無細胞核酸は、QIAamp循環核酸キット(Qiagen)を用いて抽出され、DNA Suspension Buffer(Sigma)中に溶出される。いくつかの実施形態では、精製された無細胞核酸は、使用するまで-20℃で保存される。例えば、Swanton, et al., 2017, ”Phylogenetic ctDNA analysis depicts early stage lung cancer evolution,” Nature, 545(7655):446-451であり、これは参照により本明細書に組み込まれる。配列決定の目的で生物学的方法から無細胞核酸を調製するために、他の同等の方法を使用することができ、そのような方法はすべて本開示の範囲内である。
【0214】
ある実施形態では、無細胞核酸断片は、メチル化されていないシトシンをウラシルに変換するように処理される。ある実施形態では、本方法は、メチル化シトシンを変換せずに非メチル化シトシンをウラシルに変換するDNAの重亜硫酸塩処理を用いる。例えば、EZ DNA MethylationTM - Gold、EZ DNA MethylationTM - Direct又はEZ DNA MethylationTM - Lightningキット(Zymo Research Corp(Irvine、CA)から入手可能)などの市販キットが、重亜硫酸塩変換に使用される。別の実施形態では、非メチル化シトシンのウラシルへの変換は、酵素反応を用いて達成される。例えば、変換は、APOBEC-Seq(NEBiolabs、Ipswich、MA)のような非メチル化シトシンのウラシルへの変換のための市販のキットを使用することができる。
【0215】
変換された無細胞核酸断片から、シークエンシングライブラリーが調製される。オプションとして、配列決定ライブラリーは、複数のハイブリダイゼーションプローブを用いて、細胞由来の情報を有する無細胞核酸断片、またはゲノム領域について濃縮される。ハイブリダイゼーションプローブは、特に指定された無細胞核酸断片、又は標的領域にハイブリダイズし、その後の配列決定及び解析のためにそれらの断片又は領域について濃縮する短いオリゴヌクレオチドである。いくつかの実施形態では、ハイブリダイゼーションプローブは、細胞起源について情報がある指定されたCpG部位のセットの標的高深度分析を実行するために使用される。一旦調製されると、配列決定ライブラリー又はその一部は、複数の配列リードを得るために配列決定される。
【0216】
いくつかの実施形態では、被験者の生体試料から得られた配列リードは、基準セット(例えば、健康な被験者の対照コホートなどの複数の基準被験者から得られたもの)に対して正規化される。その全体が参照により本明細書に組み込まれる、2019年9月19日に公開された「高次元のデータを選択、管理、および分析するための方法およびシステム」と題する米国特許公開第2019-0287649号は、正規化の複数の方法を開示している。
【0217】
いくつかの実施形態では、複数の配列リードは、少なくとも100、少なくとも500、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、少なくとも6000、少なくとも7000、少なくとも8000、少なくとも9000、少なくとも10,000、少なくとも20,000、少なくとも50,000、少なくとも100,000、または少なくとも100万の配列リードから構成される。いくつかの実施形態では、複数の配列リードは、少なくとも500万、少なくとも1000万、又は少なくとも1億の配列リードからなる。
【0218】
いくつかの実施形態では、複数の訓練対象におけるそれぞれの訓練対象のための訓練用無細胞断片は、少なくとも100、少なくとも500、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、少なくとも6000、少なくとも7000、少なくとも8000、少なくとも9000、少なくとも10,000、少なくとも20,000、少なくとも50,000、少なくとも100,000、少なくとも100万、少なくとも500万、又は少なくとも1000万の無細胞断片から構成されている。いくつかの実施形態では、複数の訓練対象におけるそれぞれの訓練対象のための訓練用無細胞断片は、少なくとも100、少なくとも500、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、少なくとも6000、少なくとも7000、少なくとも8000、少なくとも9000、少なくとも10,000、少なくとも20,000、少なくとも50,000、少なくとも100,000、少なくとも500万又は少なくとも1000万の無細胞断片から構成されている。
【0219】
いくつかの実施形態では、複数の訓練対象における第1の訓練対象は、第1の数の無細胞断片を含む第1の対応する複数の無細胞断片を有し、複数の訓練対象における第2の訓練対象は、第1の数とは異なる第2の数の無細胞断片を含む第2の対応する複数の無細胞断片を有する(例えば、いくつかの実施形態では、各訓練対象は異なる訓練の複数の無細胞断片を有する)。
【0220】
いくつかの実施形態では、無細胞断片の各対応する訓練用複数個は、500ヌクレオチド未満の平均長さを有する。いくつかの実施形態では、各対応するトレーニング用無細胞断片の複数の断片は、100、200、300、400、500、600、700、800、900、または1000ヌクレオチド未満の平均長さを有する。
【0221】
いくつかの実施形態では、配列決定は、メチル化配列決定からなる。
【0222】
いくつかの実施形態において、メチル化配列決定は、それぞれの断片において1つ以上の5-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)を検出する。いくつかのそのような実施形態では、メチル化配列決定は、それぞれの断片の配列読み取りにおける、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンを、対応する1つ以上のウラシルに変換することをさらに含む。いくつかの実施形態では、1つまたは複数のウラシルは、1つまたは複数の対応するチミンとして、メチル化配列決定中に検出される。いくつかの実施形態では、1つ以上の非メチル化シトシンまたは1つ以上のメチル化シトシンの変換は、化学的変換、酵素的変換、またはそれらの組み合わせからなる。いくつかの実施形態では、シトシン変換は、「Systems and Methods for Determining Tumor Fraction」と題され、2019年7月23日に出願された米国特許出願第62/877,755号に記載のように行われ、これは参照によりここに組み込まれるものとする。
【0223】
いくつかの実施形態において、それぞれのフラグメントにおける対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態は、以下の通りである。(i)それぞれのCpG部位がメチル化されているとメチル化シークエンシングによって決定される場合、メチル化されている、(ii)それぞれのCpG部位がメチル化されていないとメチル化シークエンシングによって決定される場合、非メチル化されている、及び/又は(iii)それぞれのCpG部位のメチル化状態をメチル化又は非メチル化として呼ぶことができない場合「その他」として旗を付けることである。
【0224】
いくつかの実施形態では、メチル化シーケンシング(例えば、メチル化パターンを決定するために使用される)は、ペアエンドシーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、シングルリードシーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、全ゲノムメチル化シーケンシング(例えば、全ゲノムビスルファイトシーケンス)である。
【0225】
全ゲノムシーケンスアッセイとは、全ゲノムまたは全ゲノムの相当部分についてシーケンスリードを生成し、コピー数変異またはコピー数異常のような大きな変異を決定するために使用できる物理的アッセイのことをいう。このような物理的アッセイは、全ゲノムシーケンス技術または全エクソームシーケンス技術を採用することができる。
【0226】
いくつかの実施形態では、全ゲノムメチル化配列決定は、例えば、2019年3月13日に出願され、現在US2019/0287652として公開されている「Anomalous fragment detection and classification」と題する米国特許出願第16/352,602号に記載されているように、1つまたは複数のメチル化状態ベクターを特定するが、これはその全体が参照によりここに組み込まれるものである。
【0227】
いくつかの実施形態では、配列決定は、核酸(例えば、無細胞核酸)から測定された配列リードの数を得るために使用できる任意の形態の配列決定からなり、これには、Roche 454プラットフォーム、Applied Biosystems SOLIDプラットフォーム、Helicos True Single Molecule DNA配列決定技術などのハイスループット配列決定システム、Affymetrix Inc.の1分子リアルタイム(SMRT)技術、454ライフサイエンス、イルミナ/ソレクサ及びヘリコス・バイオサイエンスのシークエンスバイシンセシスプラットフォーム、アプライドバイオシステムズのシークエンスバイライゲーションプラットフォーム、ライフテクノロジーズのION TORRENT技術、及び/又はナノポアシーケンスなどが挙げられる。いくつかの実施形態では、シーケンシングは、シーケンシングバイシンセシスおよび可逆的ターミネーターベースのシーケンシング(例えば、イルミナのゲノムアナライザー;ゲノムアナライザーII;HISEQ 2000;HISEQ 2500(イルミナ、サンディエゴカリフォルニア))から構成される。
【0228】
いくつかの実施形態では、全ゲノムメチル化配列決定は、ゲノムの一部を配列決定するために使用される。いくつかの実施形態では、ゲノムの一部は、ゲノム(例えば、ヒト参照ゲノム)の少なくとも10パーセント、20パーセント、30パーセント、40パーセント、50パーセント、60パーセント、70パーセント、80パーセント、90パーセント、95パーセント、99パーセント、99・9パーセント、又は全てである。いくつかの実施形態では、全ゲノムメチル化配列決定は、複数の配列読み取りを生成し、複数の配列読み取り中の各配列読み取りは、1000塩基対以下の配列長を有する。いくつかの実施形態では、全ゲノムメチル化シーケンシングは、ゲノムの部分にわたって少なくとも5倍、少なくとも10倍、少なくとも15倍、少なくとも20倍、少なくとも25倍、少なくとも30倍、少なくとも50倍、少なくとも100倍、または少なくとも200倍であるゲノムの部分のシーケンス被覆率を取得する。いくつかの実施形態では、全ゲノムメチル化シーケンスは、ゲノム全体にわたって少なくとも5倍、少なくとも10倍、少なくとも15倍、少なくとも20倍、少なくとも25倍、少なくとも30倍、少なくとも50倍、少なくとも100倍、または少なくとも200倍のシーケンス被覆率を取得する。
【0229】
いくつかの実施形態では、メチル化配列決定は、複数の核酸プローブを用いた標的配列決定であり、複数のビンの各ビン(例えば、関心ゲノム領域)は、複数の核酸プローブ中の少なくとも1つの核酸プローブと関連付けられる。
【0230】
いくつかの実施形態では、標的化シーケンシングは、複数の核酸プローブを使用してゲノムの一部(例えば、ヒト参照ゲノム)を標的とし、標的化シーケンシングは、ゲノムの標的部分(例えば、プローブがマッピングする)の少なくとも5x、少なくとも10x、少なくとも15x、少なくとも20x、少なくとも25x、少なくとも30x、少なくとも50x、少なくとも100x、少なくとも250x、少なくとも500xまたは少なくとも1000xのシーケンスカバレッジを取得する。いくつかの実施形態では、標的化シーケンシングは、対象のゲノム内の選択された領域にわたって、少なくとも100倍、少なくとも200倍、少なくとも500倍、少なくとも1000倍、少なくとも2000倍、少なくとも3000倍、少なくとも4000倍、少なくとも5000倍、少なくとも10,000倍、少なくとも15,000倍、少なくとも20,000倍、少なくとも25,000倍、少なくとも30,000×、少なくとも40,000×、または少なくとも50,000倍のシーケンスカバレッジを獲得する。
【0231】
いくつかの実施形態では、標的化パネルシーケンシングは、例えば全ゲノムシーケンシングよりも効率的(例えば、シーケンシングのための材料の使用、シーケンシングに要する時間の長さなどに関して)でありながら、対象の参照ゲノム中の関心領域に関する有意な情報を得るので有益である。言い換えれば、いくつかの実施形態では、標的化パネルシーケンシングは、対象について腫瘍分率(および/または腫瘍起源)を決定する問題を計算処理可能にしながら、基礎データから(例えば、無細胞核酸レベルおよびゲノム領域にわたる両方で)できるだけ多くの情報を取得するのに役立つ。例えば、参照ゲノム(例えば、ヒト参照ゲノム)は、約2800万のCpG部位を含むが、参照ゲノムに向けられた標的メチル化パネルは、より少ないCpG部位(例えば、1万と500万の間のCpG部位、10万と300万の間のCpG部位など。
【0232】
いくつかの実施態様において、複数のプローブ中の少なくとも1つのプローブは、少なくとも1つの所定のCpG部位を含む生体試料中の核酸に結合し、濃縮するように設計されている。いくつかの実施態様では、複数のプローブ中の各プローブは、少なくとも1つの所定のCpG部位を含む生物学的試料中の核酸に結合し、濃縮するように設計されている。
【0233】
いくつかの実施形態では、複数のプローブにおける各プローブは、ある数の所定のCpG部位を有する核酸を標的とするように設計されている。例えば、いくつかの実施形態では、複数のプローブにおける1つ以上のプローブは、50個以下の所定のCpG部位、40個以下の所定のCpG部位、30個以下の所定のCpG部位、25個以下の所定のCpG部位を含む生体試料中の核酸を結合及び濃縮するように設計される。22個以下、20個以下、18個以下、15個以下、12個以下、10個以下、5個以下、3個以下の所定のCpG部位を含む核酸。
【0234】
いくつかの実施形態では、標的メチル化配列決定について、複数のプローブは、1,000~2,000,000個のプローブからなる。いくつかの実施形態では、複数のプローブは、1,000以上のプローブ、2,000以上のプローブ、3,000以上のプローブ、4,000以上のプローブ、5,000以上のプローブ、10,000以上のプローブ、20,000以上のプローブ又は30,000以上のプローブから構成される。いくつかの実施形態では、複数のプローブは、1,000~30,000個のプローブである。いくつかの実施形態では、複数のプローブは、少なくとも5,000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000、少なくとも100,000、少なくとも200,000、少なくとも300,000、少なくとも400,000、少なくとも500,000、少なくとも600,000、少なくとも700,000、少なくとも800,000、少なくとも900,000、又は少なくとも1,000,000のプローブから構成される。
【0235】
複数のプローブが他の数のプローブを含んでもよいことは理解されるべきであるが、その非限定的な例としては、1,500,000プローブ以下、1,400,000プローブ以下、1,300,000プローブ以下、1,200,000プローブ以下、が挙げられる。プローブ数 150万個以下、110万個以下、100万個以下、90万個以下、80万個以下、70万個以下、60万個以下、50万個以下、40万個以下、30万個以下、20万個以下、50万個以下、40万個以下、30万個以下、50万個以下、60万個以下、70万個以下、80万個以下、100万個以下、50万個以下、50万個以下、60万個以下、70万個以下、80万個以下、80万個以下、80万個以下、80万個以下万個以下、10万個以下、9万個以下、8万個以下、7万個以下、6万個以下、5万個以下、4万個以下、3万個以下、2万個以下、1.1万個以下、9千個以下、8千個以下、7千個以下、6千個以下、5千個以下、4千個以下、2千個以下、または1千個以下。
【0236】
いくつかの実施形態では、複数のプローブは、参照ゲノムの0.5~50メガバイトを集合的にカバーする複数の遺伝子標的(例えば、参照ゲノムの一部及び/又は遺伝子標的のパネル)を標的としている。いくつかの実施形態では、複数のプローブの複数の遺伝子標的は、参照ゲノムの5~40メガバイト、参照ゲノムの10~30メガバイト、参照ゲノムの15~35メガバイト、参照ゲノムの20~30メガバイト、参照ゲノムの25~35メガバイト、または参照ゲノムの30~40メガバイトを集合的にカバーする。
【0237】
いくつかの実施形態では、複数のプローブは、標的化がんアッセイパネルである。多数の標的化がんアッセイパネルが当技術分野で知られており、例えば、2019年4月2日に出願された「Methylated Markers and Targeted Methylation Probe Panels」と題するWO2019/195268A2として公開された国際特許出願第PCT/US2019/025358、国際特許出願No.WO2020/069350A1として公開されたPCT/US2019/053509、「Methylated Markers and Targeted Methylation Probe Panel」という名称、2019年9月27日に出願され、「Detecting Cancer, Cancer Tissue or Origin, or Cancer Type」という名称、WO2020/154682A2として公開された国際特許出願番号PCT/US2020/015082、2020年1月24日出願、これらはそれぞれ参照により全体を本書に組み入れるものとする。例えば、いくつかの実施形態では、標的癌アッセイパネルは、腫瘍分画の決定及び/又は癌の診断に関連する情報を一緒に提供することができる断片(無細胞核酸)を捕捉することができる複数のプローブ(又はプローブ対)を含む。いくつかの実施形態では、標的化癌アッセイパネルにおける複数のプローブは、少なくとも50、100、500、1,000、2,000、2,500、5,000、6,000、7,500、10,000、15,000、20,000、25,000、又は50,000対のプローブが含まれる。他の実施形態では、標的癌アッセイパネルにおける複数のプローブは、少なくとも500、1,000、2,000、5,000、10,000、12,000、15,000、20,000、30,000、40,000、50,000、又は100,000のプローブを含む。いくつかの実施形態では、複数のプローブは、集合的に、少なくとも0.1百万、0.2百万、0.4百万、0.6百万、0.8百万、100万、200万、300万、400万、500万、600万、700万、800万、900万、または1000万のヌクレオチドから構成されている。いくつかの実施形態では、プローブ(またはプローブ対)は、癌および非癌サンプルにおいて差次的にメチル化された1つまたは複数のゲノム領域を標的とするように特別に設計されている。
【0238】
例えば、標的癌アッセイパネルにおける複数のプローブは、癌性サンプルにおいて差次的にメチル化されているcfDNA断片を選択的に結合し、濃縮することができるプローブを含むことができる。この場合、濃縮された断片の配列決定により、腫瘍分画の決定または癌の診断に関連する情報を提供することができる。さらに、プローブは、異常なメチル化パターン及び/又はハイパーメチル化若しくはハイポメチル化パターンを有すると判定されたゲノム領域を標的として設計することができ、検出の選択性及び特異性をさらに提供することができる。
【0239】
いくつかの実施形態では、複数のプローブ中のプローブ(又はプローブ対)は、少なくとも25bp、30bp、35bp、40bp、45bp、50bp、60bp、70bp、80bp、又は90bpを含むゲノム領域を標的化する。いくつかの実施形態では、複数のプローブ中のプローブは、少なくとも5つのメチル化部位を含むゲノム領域を標的としている。いくつかの実施形態では、複数のプローブ中のプローブは、20、15、10、8、または6未満のメチル化部位を含むゲノム領域を標的化する。いくつかの実施形態では、複数のプローブ中のプローブは、非癌性又は癌性試料においてメチル化又は非メチル化のいずれかのメチル化(例えば、CpG)部位を少なくとも80、85、90、92、95、又は98%有するゲノム領域を標的としている。
【0240】
無細胞フラグメントのフィルタリング
【0241】
いくつかの実施形態では、本方法は、複数の無細胞断片に1つ又は複数のフィルタ条件を適用することをさらに含む。したがって、いくつかの実施形態では、1つ以上の核酸サンプルのメチル化配列決定から得られた全ての無細胞断片が、対象細胞源分画を推定するための複数の特徴を特定するために、及び/又は対象細胞源分画を推定するために使用されるとは限らない。いくつかの実施形態では、これは、核酸断片(例えば、無細胞核酸)が情報量の点で異なり、いくつかの実施形態では、所望の情報量を有する核酸断片のみが、特徴の特定及び/又は細胞源分率の推定のために保持される(例えば、関連情報を提供しない断片は破棄される)ことに起因する。いくつかの実施形態では、特徴は、複数のフィルタリング条件における1つ以上のフィルタリング条件を満たす無細胞断片から決定される(例えば、各フィルタリング条件は断片の情報量を評価する)。複数のフィルタリング方法は、例えば、2020年5月22日に出願された「Systems and Methods for Determining Whether a Subject has a Cancer Condition Using Transfer Learning」と題する国際特許出願番号PCT/US2020/034317、及び2019年3月13日に出願され、現在US2019/0287652として公開されている「Anomalous fragment detection and classification」と題する米国特許出願番号16/352,602で詳細に説明されている、各々は参照により本明細書に組み込まれるものとする。フィルタ条件の非限定的な例が以下に提供される。
【0242】
メチル化ベクトルに基づくP値フィルタリング。
【0243】
いくつかの実施形態では、複数のフィルタ条件におけるフィルタ条件は、複数の無細胞断片における各無細胞断片が、閾値以下である対応するp値を有するという条件であり、p値は、国際特許出願番号の実施例5に記載されているように、p値フィルタリングによって決定される。PCT/US2020/034317、名称「Systems and Methods for Determining Whether a Subject has a Cancer Condition Using Transfer Learning」、2020年5月22日出願、及び米国特許出願番号16/352,602、名称「Anomalous fragment detection and classification」、2019年3月13日出願、現在US2019/0287652として公開、これらの各々は参照によりその全体を本明細書に組み入れるものとする。このようなフィルタ条件の目的は、対応するメチル化状態ベクトルに基づいて、異常なメチル化無細胞断片を受け入れて使用することである。例えば、サンプル中の各無細胞断片について、断片に対応するメチル化状態ベクトル(例えば、期待されるメチル化状態ベクトルが健康な被験者のコホート(複数)の配列分析から決定される)を用いて、断片が(例えば、そこから得られる配列リードの分析を通じて)期待されるメチル化状態ベクトルに対して異常にメチル化しているかどうかについて判定が行われる。このような無細胞断片のメチル化状態ベクターの生成は、例えば、米国特許庁(U.S. Pat. No.Appl. Pub.No.2019/0287652に記載されており、その全体が参照により本明細書に組み込まれる。
【0244】
いくつかの実施形態では、健常者コホートは、少なくとも20人の被験者からなり、複数の無細胞断片は、少なくとも10,000の異なる対応するメチル化パターンを含む。いくつかの実施形態では、健常者コホートは、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、又は少なくとも100人の被験者から構成される。いくつかの実施形態では、健常コホートは、1以上10未満、10以上50未満、50以上100未満、100以上500未満、500以上1000未満、又は1000以上の被験者から構成される。いくつかの実施形態では、複数の無細胞断片は、1以上1000以下、1000以上2000以下、2000以上4000以下、4000以上6000以下、6000以上8000以下、8000以上10,000以下、10,000以上20,000以下、20,000以上50,000以下、又は50,000以上の異なる対応のメチル化パターンから構成されている。
【0245】
いくつかの実施形態では、p値閾値は、0.001と0.20の間である。いくつかの実施形態では、閾値は0.01である(例えば、そのような実施形態では、pは<0.01でなければならない)。いくつかの実施形態では、閾値は、0.001、0,005、0.01、0.015、0.02、0.05、または0.10である。いくつかの実施形態では、閾値は0.0001と0.20の間である。いくつかの実施形態において、p値閾値は、複数の無細胞断片におけるそれぞれの無細胞断片に対応するメチル化パターンが、0.10以下、0.05以下、又は0.01以下のp値を有するとき、対象からのメチル化パターンについて満たされる。
【0246】
そのような実施形態では、閾値未満のp値を有する無細胞断片のみが、特徴同定及び/又は細胞源分画推定に寄与する。例えば、いくつかの実施形態では、複数の無細胞断片は、それぞれの断片中の対応する複数のCpG部位にわたる対応するメチル化パターン(例えば、メチル化状態ベクトル)が、p値閾値を満足しないp値を有するそれぞれの無細胞断片を複数の無細胞断片から除去することによってフィルタリングされる。
【0247】
いくつかの実施形態では、異常な断片は、CpG部位の数が閾値を超え、CpG部位のメチル化率が閾値を超える(hypermethylated)断片、またはCpG部位の非メチル化率が閾値を超える(hypomethylated)断片と同定される。例えば、後述の最小CpG部位及び/又は断片長に基づくフィルタ条件を参照されたい。いくつかの実施形態では、メチル化及び/又は非メチル化CpG部位の閾値割合は、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも85%、少なくとも90%、又は少なくとも95%である。いくつかの実施形態では、メチル化及び/又は非メチル化CpG部位の閾値割合は、50%~100%の間である。
【0248】
いくつかの実施形態では、マルコフモデル(例えば、隠れマルコフモデル「HMM」)を使用して、それぞれの無細胞断片のメチル化パターンにおける各状態について、シーケンスにおける次の状態を観察する可能性を決定する確率のセットを与えられた、メチル化状態のシーケンス(例えば、メチル化についての「M」、非メチル化についての「U」、を含む)がそれぞれの無細胞断片について観察される確率が決定される。いくつかの実施形態では、確率のセットは、HMMを訓練することによって得られる。このような訓練は、非癌被験者のコホートから得られた観察されたメチル化状態配列(例えば、メチル化パターン)の初期訓練データセットを用いて、統計パラメータ(例えば、第1の状態が第2の状態に移行する確率(移行確率)及び/又は所定のメチル化状態がそれぞれのCpG部位に対して観察される確率(放出確率))を計算することを含む。いくつかの実施形態において、HMMは、教師あり訓練(例えば、観察された状態と同様に基礎となる配列が既知であるサンプルを用いて)を用いて訓練される。いくつかの代替実施形態では、HMMは、教師なし訓練(例えば、ビタビ学習、最尤推定、期待値最大化訓練、及び/又はバウム-ウェルチ訓練)を使用して訓練される。例えば、Baum-Welchアルゴリズムなどの期待値最大化アルゴリズムは、観察されたサンプルシーケンスから遷移確率及び放出確率を推定し、観察されたシーケンスを最もよく説明するパラメータ化された確率モデルを生成する。このようなアルゴリズムでは、正しく予測される状態の期待数が最大になるまで尤度関数の計算を繰り返す。例えば、Yoon, 2009, ”Hidden Markov Models and their Applications in Biological Sequence Analysis,” Curr.Genomics.Sep; 10(6):402-415, doi: 10.2174/138920209789177575.
【0249】
最小限の袋の大きさ
いくつかの実施形態では、複数のフィルタ条件におけるフィルタ条件は、各無細胞断片が閾値整数より大きいバッグサイズを有するという要件である。言い換えれば、いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、対応する生体試料におけるそれぞれの断片を含む1つ以上の核酸試料から測定された対応する複数の配列読み取り値における閾値数の配列読み取り値によって表されるという要求の適用である。例えば、閾値の整数が1である場合、フィルタ条件は、各無細胞断片が、生体試料から測定された対応する複数の配列読み取り部において1つ以上の配列読み取り部によって表されるという要求の適用である。いくつかの実施形態では、閾値整数は、1、2、3、4、5、6、7、8、9、10、又は10と100との間の整数である。いくつかの実施形態では、閾値整数は、1以上10以下、10以上20以下、20以上30以下、30以上40以下、40以上50以下、50以上60以下、60以上70以下、70以上80以下、80以上90以下、または90以上100以下である。いくつかの実施形態では、閾値の整数は、100以上500以下、500以上1000以下、又は1000以上である。
【0250】
いくつかの実施形態では、複数のフィルタ条件におけるフィルタ条件は、それぞれの無細胞断片が閾値整数より大きいバッグサイズを有するという要件であり、それぞれのそれぞれのバッグ内の配列リード(例えば、それぞれの無細胞断片を表す)は、複数の無細胞核酸の配列決定から取得されたものである。例えば、いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれのそれぞれの無細胞断片が、対応する生体試料におけるそれぞれの断片を含む1つ以上の核酸試料中の無細胞核酸の閾値数によって表されるという要求の適用である。いくつかの実施形態では、閾値の整数は、1、2、3、4、5、6、7、8、9、10、又は10と100との間の整数である。いくつかの実施形態では、閾値整数は、1以上10未満、10以上20未満、20以上30未満、30以上40未満、40以上50未満、50以上60未満、60以上70未満、70以上80未満、80以上90未満、または90以上100未満の間である。いくつかの実施形態では、閾値の整数は、100以上500以下、500以上1000以下、又は1000以上である。
【0251】
CpGサイトの最小数
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片におけるそれぞれの無細胞断片が、閾値数のCpG部位を有するという要件の適用である。いくつかの実施形態では、CpG部位の閾値の数は、少なくとも1、2、3、4、5、6、7、8、9又は10個のCpG部位である。いくつかの実施形態では、CpG部位の閾値の数は、1~10、10~20、20~30、30~40、40~50、又は50以上のCpG部位である。
【0252】
いくつかの実施形態では、1つ以上のフィルタ条件におけるフィルタ条件は、複数の無細胞断片中のそれぞれの無細胞断片が、閾値の塩基対の数未満の長さを有するという条件である。いくつかの実施形態では、閾値の塩基対の数は、1千、2千、3千、又は4千の塩基対である。いくつかの実施形態では、閾値の塩基対の数は、100、200、300、400、500、600、700、800、900、または1000の塩基対である。いくつかの実施形態では、閾値の塩基対の数は、1000、2000、3000、または4000の連続した塩基対の長さである。いくつかの実施形態では、塩基対の閾値の数は、長さが100、200、300、400、500、600、700、800、900、または1000個の連続した塩基対である。
【0253】
いくつかの実施形態では、複数のフィルタ条件におけるフィルタ条件は、各無細胞断片が第1の閾値数のCpG部位をカバーし、塩基対の観点から第2の閾値未満の長さであることを条件とするものである。例えば、第1閾値が1CpG部位であり、第2閾値が1000塩基対である場合、各無細胞断片は、1つ以上のCpG部位をカバーし、かつ1000塩基対以下の長さであることが必要である。いくつかの実施形態では、各無細胞断片は、特定の断片長(例えば、第2の閾値長)内で少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、又は20個のCpG部位をカバーしなければならない。いくつかの実施形態では、各無細胞断片は、特定の数のCpG部位(例えば、第1の閾値)にまたがる一方で、長さが500、1000、2000、3000、または4000の連続塩基対未満である必要がある。言い換えれば例えば、いくつかの実施形態では、複数のフィルタ条件におけるフィルタ条件は、各無細胞断片が、少なくとも1つのCpG部位、少なくとも2つのCpG部位、少なくとも3つのCpG部位、少なくとも4つのCpG部位、少なくとも5つのCpG部位、少なくとも6つのCpG部位を含むことを要求する。参照ゲノムの連続する500塩基未満の範囲にある、少なくとも7つのCpG部位、少なくとも8つのCpG部位、少なくとも9つのCpG部位、少なくとも10つのCpG部位、少なくとも11つのCpG部位、少なくとも12のCpG部位、少なくとも13のCpG部位、少なくとも14のCpG部位または少なくとも15のCpG部位が含まれる。
【0254】
ハイパーメチル化またはハイポメチル化
いくつかの実施形態では、複数のフィルター条件におけるフィルター条件は、各無細胞断片がハイパーメチル化されていることを条件とする。いくつかの実施形態では、複数のフィルター条件におけるフィルター条件は、各無細胞断片がハイポメチル化されていることを要件とする。いくつかの実施形態では、フィルター条件は、ゲノムの領域(例えば、ビン)に依存する。例えば、1つ以上の癌状態と関連するハイメチル化状態を有するヒトゲノムの多数の領域、ならびに1つ以上の癌状態と関連するハイメチル化状態を有するヒトゲノムの多数の領域は、WO2019/195268A2として公開された国際特許出願番号PCT/US2019/025358、表題「Methylated Markers and Targeted Methylation Probe Panels」、2019年4月2日に出願、国際特許出願番号No.PCT/US2020/015082、WO2020/154682A2として公開された、「Detecting Cancer, Cancer Tissue or Origin, or Cancer Type」と題する、2020年1月24日出願、及び国際特許出願番号PCT/US2019/053509、WO2020/069350A1として公開された、「Methylated Markers and Targeted Methylation Probe Panel」と題する、2019年9月27日出願、これらはそれぞれその全体において参照によりここに援用されるものとする。したがって、本開示のいくつかの実施形態では、複数のゲノム領域における1つまたは複数のビンはそれぞれ、国際特許公開番号に開示される領域における対応するゲノム領域を表す。WO2019/195268、WO2020/154682、及び/又はWO2020/069350であり、複数のフィルタ条件におけるフィルタ条件は、(a)国際特許公開番号で示されるCpG部位の1又は複数の癌状態に関連するハイパーメチル化状態を有するヒトゲノムの領域を表すビンにマッピングする無細胞断片を選択する場合、ハイパーメチル化している無細胞断片の選択を要求する。WO2019/195268、WO2020/154682、及び/又はWO2020/069350、並びに(b)国際特許公開番号WO2019/195268、WO2020/154682、及び/又はWO2020/069350によって示されるCpG部位の1つ又はそれ以上の癌の状態と関連するハイポメチル化状態を有するヒトゲノムの領域を表すビンとマップするフラグメントを選択する場合にハイポメチル化しているセルフリー核酸の選択を要求する。
【0255】
いくつかの実施形態では、複数のフィルター条件は、p値閾値が満たされること、及び無細胞断片がハイパーメチル化されることを必要とする。いくつかの実施形態では、複数のフィルタ条件は、p値閾値が満たされること、及び無細胞断片がハイポメチル化されることを必要とする。いくつかの実施形態では、複数のフィルター条件は、各ビンに対して異なる。例えば、複数のビンのうちの1つのビンについては、複数のフィルタ条件は、p値閾値が満たされ、かつ無細胞断片がハイポメチル化されていることを必要とし、複数のビンのうちの2番目のビンについては、複数のフィルタ条件は、p値閾値が満たされ、かつ無細胞断片がハイポメチル化されていることを必要とする。
【0256】
癌の状態
いくつかの実施形態では、複数のフィルタ条件におけるフィルタ条件は、各無細胞断片が癌条件閾値を満たすこと(例えば、各無細胞断片がそれぞれの癌条件に関連付けられる確率が所定の閾値以上であること)という要件である。いくつかの実施形態において、各がん状態は、異なるそれぞれの予め定義された閾値を有する。例えば、参照によりその全体が本明細書に組み込まれる、2020年3月31日に出願された、Systems and Methods for Using Neural Networks to Determine a Cancer Stateという名称の米国特許出願第63/003,087号に記載されているように、各ゲノム領域(例えばbin)について癌確率を決定するのに、訓練済みのニューラルネットワーク(例えば、複数の基準被験者について訓練されたもの)が使用されている。
【0257】
いくつかのそのような実施形態では、複数のビンのそれぞれのビンについて、それぞれのビンにマッピングされる複数の無細胞断片のそれぞれの無細胞断片について、対応する訓練済みニューラルネットワークは、それぞれの無細胞断片のメチル化パターンに基づいて、無細胞断片が癌の状態(例えば、癌の存在)と関連する確率である予測値を計算する。したがって、いくつかのそのような実施形態では、それぞれの無細胞断片のメチル化パターンは、訓練されたニューラルネットワークを使用してスコア化され、訓練されたニューラルネットワークによって出力されたスコアは、無細胞断片が癌状態を有する確率及び/又は無細胞断片が癌状態(例えば、癌の存在)に関連する確率に基づく計算から構成される。それぞれの無細胞断片は、得られたスコアが上記で定義された条件(例えば、固定値の閾値を超える確率)を満たす場合、フィルタ条件を通過する(例えば、細胞源割合を推定するための特徴の識別に用いるために選択される、及び/又は細胞源割合を推定するために用いるために選択される)。それぞれの無細胞断片は、得られたスコアが上記で定義された条件(例えば、固定値の閾値を下回る確率)を満たさない場合、フィルタ条件を通過しない(例えば、廃棄される)。
【0258】
いくつかのそのような実施形態では、閾値は正または負である。いくつかの実施形態では、閾値は、0.1以上1未満、1以上5未満、5以上10未満、10以上50未満、50以上100未満、又は100より大きい。いくつかの実施形態では、閾値は、-0.1以上-1以下、-1以上-5以下、-5以上-10以下、-10以上-50以下、-50以上-100以下、または-100以下である。いくつかの実施形態では、閾値はゼロである。いくつかの実施形態では、各ビンは、それぞれのそれぞれの癌状態に対するそれぞれの閾値を有する(例えば、ビンのそれぞれのサブセットは、それぞれの癌状態に関連付けられる)。
いくつかの実施形態では、開示されたフィルター条件の任意の組合せが課される。いくつかの実施形態では、複数の無細胞断片は、メチル化パターンが本明細書に開示される1つ以上のフィルター条件を満たす1つ以上の無細胞断片を含む。
【0259】
フラグメントとビンをマッピングする。
【0260】
ブロック210においてブロック210において、本方法は、各複数の無細胞断片における各無細胞断片を複数のビンにおけるビンにマッピングし、それによって無細胞断片の複数のトレーニングセットを得ることによって進行する。複数のビンにおけるそれぞれのビンは、ヒト参照ゲノムの対応する部分を表す。無細胞フラグメントの各トレーニングセットは、複数のビンの中の異なるビンにマッピングされる。
【0261】
いくつかの実施形態では、マッピングは、例えばAriocに実装されるようなSmith-Watermanギャップド・アライメント、または例えばBowtieに実装されるようなBurrows-Wheeler変換を使用して実行される。他の適切なアライメントプログラムには、BarraCUDA、BBMap、BFAST、BigBWA、BLASTN、BLAT、BWA、BWA-PSSM、CASHXが含まれるが、これらに限定されるわけではない。例えば、Langmead and Salzberg, 2012, Nat Methods 9, pp.357-359; Li and Durbin, 2009, ”Fast and accurate short read alignment with Burrows-Wheeler transform,” Bioinformatics 25(14), 1754-1760; and Smith and Yun, 2017, ”Evaluation alignment and variant-calling software for mutation identification in C. elegans by whole-genome sequencing,” PLOS ONE, doi.org/10.1371/journal.pone.0174446.All Rights Reserved.を参照。の各々は、参照により本明細書に組み込まれる。いくつかの実施形態では、各無細胞断片を複数のビン内のビンにマッピングすることで、ミスマッチングが可能になる。いくつかの実施形態では、マッピングは、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、又は10を超えるミスマッチを含む。
【0262】
いくつかの実施形態では、ブロック212を参照すると、複数のビンは、1000と100,000の間のビンで構成されるか、またはそれらで構成される。いくつかの実施形態では、複数のビンは、15000と80000の間のビンで構成されるか、またはそれらからなる。いくつかの実施形態では、複数のビンは、25000と65000の間のビンで構成されるか、またはそれらで構成される。いくつかの実施形態では、複数のビンは、45,000と65,000の間のビンで構成されるか、またはそれらで構成される。
【0263】
いくつかの実施形態では、複数のビンは、少なくとも1000ビン、少なくとも2500ビン、少なくとも5000ビン、少なくとも10,000ビン、少なくとも20,000ビン、少なくとも30,000ビン、少なくとも40,000ビン、少なくとも50,000ビン、少なくとも60,000ビン、少なくとも70,000ビン、少なくとも80,000ビン、少なくとも90,000ビン、少なくとも100,000ビン又は少なくとも110,000ビンから構成される。
【0264】
さらに、いくつかの実施形態では、
図2Aのブロック214に従って、複数のビンにおけるそれぞれのそれぞれのビンは、平均して10~1200個の間の残基を有する(例えば、それぞれのビンは、10~1200個の間のヌクレオチドからなるヒト参照ゲノムの一部に対応する)。いくつかの実施形態では、複数のビンにおけるそれぞれのそれぞれのビンは、平均して、10~10000個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのそれぞれのビンは、平均して、10~500個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのそれぞれのビンは、平均して、10~100個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのそれぞれのビンは、平均して、25~100個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのビンは、平均して、5000~10000個の間の残基を有する。
【0265】
いくつかの実施形態において、複数のビンにおけるそれぞれのそれぞれのビンは、10個未満の残基、20個未満の残基、30個未満の残基、40個未満の残基、50個未満の残基、60個未満の残基、70個未満の残基、80個未満の残基、90個未満の残基、100個未満の残基、200個未満の残基、300個未満の残基から構成され、300個未満の残基は、300個未満の残基となる。400 位以下、500 位以下、600 位以下、700 位以下、800 位以下、900 位以下、1000 位以下、2000 位以下、3000 位以下、4000 位以下、5000 位以下、6000 位以下、7000 位以下、8000 位以下、または 9000 位以下。
【0266】
ブロック216を参照すると、いくつかの実施形態では、複数のビンの各ビンは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上のCpG部位から構成されている。いくつかの実施形態では、複数のビンの各ビンは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上の連続したCpG部位を含む。いくつかの実施形態では、複数のビンの各ビンは、ヒト参照ゲノムにおける2~100個の連続するCpG部位から構成される。いくつかの実施形態では、複数のビンの各ビンは、2~50個の連続するCpG部位からなる。いくつかの実施形態では、複数のビンの各ビンは、50個から100個の連続するCpG部位からなる。いくつかの実施形態では、複数のビンの各ビンは、少なくとも2つの連続するCpG部位からなる。
【0267】
いくつかの実施形態では、複数のビンは、参照ゲノム(例えば、哺乳類、ヒトなど)の全てまたは一部を等しい大きさのビンに分割することによって構築され、各ビンは、参照ゲノムの固有の等しい大きさの部分を表す。いくつかの実施形態では、複数のビンは、参照ゲノム(例えば、哺乳類、ヒトなど)の全て又は一部を等しい又は不等な大きさのビンに分割することによって構築され、各ビンは参照ゲノムのユニークな部分を表す。
【0268】
いくつかの実施形態では、複数のビンは、参照ゲノム(例えば、哺乳類、ヒトなど)の全て又は一部を等しい又は不等な大きさのビンに分割することによって構築され、各ビンは、参照ゲノムの対応する部分を表す。そのような実施形態では、複数のビン中の1つのビンによって表される参照ゲノムの対応する部分は、複数のビン中の別のビンによって表される参照ゲノムの対応する部分と重なり得る。いくつかのそのような実施形態では、複数のビンは、参照ゲノム(例えば、哺乳類、ヒトなど)のすべてを等しい又は不等な大きさのビンに分割することによって構築され、各ビンは、参照ゲノムの対応する重複する部分又は重複しない部分を表す。いくつかの実施形態では、複数のビンは、参照ゲノムの一部(例えば、哺乳類、ヒトなど)を等しいまたは不等な大きさのビンに分割することによって構築され、各ビンは、参照ゲノムの重複する部分または重複しない部分を表わす。
【0269】
いくつかの実施形態では、複数のビンは、癌の非存在または存在に関与するヒトゲノムの領域の少なくとも一部が複数のビンによって表される一方、参照ゲノムの他の領域がビンによって表されないように構築される。アプローチに関係なく、各ビンは参照ゲノムの一意の部分を表す。いくつかの実施形態では、かかるビンは、参照ゲノムの30bpsと5000bpsの間、30bpsと4000bpsの間、30bpsと3000bpsの間、30bpsと2000bpsの間、30bpsと1000bpsの間、または40bpsと800bpsの間のサイズ範囲である。代替実施形態では、そのようなビンは、参照ゲノムの10,000 bpsと100,000 bpsの間、20,000 bpsと300,000 bpsの間、30,000 bpsと500,000 bpsの間、40,000 bpsと100万ビンの間、5万ビンと5億ビンの間、または10万ビンと2千万ビンの間のサイズに及ぶ。
【0270】
いくつかの実施形態では、参照ゲノムの部分は、参照ゲノムの1~22染色体、又は参照ゲノムの少なくとも25パーセント、少なくとも30パーセント、少なくとも35パーセント、少なくとも40パーセント、少なくとも45パーセント、少なくとも50パーセント、少なくとも55パーセント、少なくとも60パーセント、少なくとも65パーセント、少なくとも70パーセント、少なくとも75パーセント、少なくとも80パーセント、少なくとも85パーセント、少なくとも90パーセント、少なくとも95パーセント又は少なくとも99パーセントの間である。いくつかのそのような実施形態では、各ビンは、参照ゲノムの10,000塩基以上100,000塩基以下、20,000塩基以上300,000塩基以下、30,000塩基以上500,000塩基以下、40,000塩基以上100万塩基以下50,000塩基以上5万塩基以下または100,000塩基以上25,000,000塩基以下の範囲を表する。
【0271】
いくつかの実施形態では、ビンの各々は、がんと関連すると同定されている参照ゲノムの特定の部位を表す。
【0272】
いくつかの実施形態では、ビンの各々は、非癌対照と比較したcfDNAにおける癌および/または組織特異的メチル化パターンによって癌と関連すると同定された参照ゲノムの特定の領域を表す。
【0273】
いくつかの実施形態では、各ビンは、参照ゲノムにおけるエンハンサー、プロモーター、5’UTR、エクソン、エクソン/阻害剤境界、イントロン、イントロン/エクソン境界、3’UTR領域、CpG棚、CpG岸、又はCpG島の全て又は一部を表す。例えば、Cavalcante and Santor, 2017, ”annotatr:genomic regions in context,” Bioinformatics 33(15) 2381-2383を参照し、そのような領域の適切な定義と、多数の異なる種についてそのようなアノテーションが文書化されている場所を参照することである。
【0274】
いくつかの実施形態では、高い変動性又は低いマッピング可能性を有するゲノム領域は、例えば、Jensen et al, 2013, PLoS One 8; e57381に開示される方法を使用して、複数のビンにおけるビン表現から除外される。また、Li and Freudenberg, 2014, Front.Genet.5, p.318を参照し、マッピング可能性を解析する。
【0275】
ビンに使用するヒトゲノム領域を選択する。
【0276】
本開示のいくつかの実施形態では、複数のビンの各ビンは、癌特異的メチル化パターンの標的選択用に設計されたゲノム領域のパネルから引き出される。いくつかの実施形態では、そのような各ゲノム領域は、2020年1月24日に出願された「Detecting Cancer, Cancer Tissue or Origin, or Cancer Type」という名称の国際特許出願番号PCT/US2020/015082(WO2020/154682A2として発行)の表2から引き出され、その中で参照された配列リストを含めて参照によりここに組み込まれるものとする。PCT/US2020/015082のSEQ ID NO 452,706 - 483,478は、特定のハイパーメチル化またはハイポメチル化標的ゲノム領域に関するさらなる情報を提供する。これらのSEQ ID NOレコードは、特定の癌型の組からのサンプルにおいて差次的にメチル化され得る標的ゲノム領域を同定する。PCT/US2020/015082のSEQ ID NO 452,706 ~ 483,478 の標的ゲノム領域は、PCT/US2020/015082のリスト6から引き出されたものである。同じ標的ゲノム領域の多くは、PCT/US2020/015082のリスト1~5およびリスト7~16にも見出される。各SEQ IDの項目は、hg19に対する標的ゲノム領域の染色体上の位置、その領域から濃縮されるcfDNA断片が高メチル化または低メチル化されているかどうか、標的ゲノム領域の1本のDNA鎖の配列、およびそのゲノム領域で差次的にメチル化されている癌タイプの1対または1組を示す。いくつかの標的ゲノム領域のメチル化状態は、1組以上のがん種を区別するので、各エントリーは、そこで参照される配列リストを含むPCT/US2020/015082の表3に示される第1のがん種および1つまたは複数の第2のがん種を特定する。
【0277】
いくつかの実施形態では、本開示の複数のビンは、PCT/US2020/015082のリスト1~16、リスト1~3、リスト13~16、リスト12、リスト4、またはリスト8~11のいずれか1つにおける少なくとも200、500、1,000、5,000、10,000、15,000、20,000、30,000、40,000、または50,000の標的ゲノム領域それぞれに対する別個のビンを含む。いくつかの実施形態では、本開示の複数のビンは、PCT/US2020/015082の1つ以上のリスト1~16の任意の組み合わせにおける少なくとも200、500、1,000、5,000、10,000、15,000、20,000、30,000、40,000、又は50,000の標的ゲノム領域のそれぞれに対する別々のビンを含む(例:リスト1~3、リスト13~16、リスト12、リスト4、若しくはリスト8~11など)。
【0278】
いくつかの実施形態では、本開示の複数のビンは、PCT/US2020/015082のリスト1~16のいずれか1つにおける標的ゲノム領域の少なくとも20%、30%、40%、50%、60%、70%、80%、90%、または95%のそれぞれに対する別個のビンを含む。いくつかの実施形態では、本開示の複数のビンは、PCT/US2020/015082の1つ以上のリスト1~16(例えば、リスト1~3、リスト13~16、リスト12、リスト4、またはリスト8~11など)の任意の組み合わせにおける標的ゲノム領域の少なくとも20%、30%、40%、50%、60%、70%、80%、90%または95%のそれぞれについて、別個のビンを含む。
【0279】
ビンに使用されるヒトゲノム領域の追加選択
本開示のいくつかの実施形態では、複数のビンの各ビンは、癌特異的なメチル化パターンの標的選択のために設計されたゲノム領域のパネルから引き出される。いくつかの実施形態では、そのような各ゲノム領域は、2019年9月27日に出願された「Methylated Markers and Targeted Methylation Probe Panel」という名称の国際特許出願番号PCT/US2019/053509(WO2020/069350A1として発行)の表2から引き出され、その中で参照される配列リストを含め、参照によりここに組み込まれるものとする。
【0280】
WO2020/069350A1の配列リストには、(1)SEQ ID NO、(2)(a)CpG部位が存在する染色体またはコンティグ、(b)その領域の開始位置および停止位置を特定する配列識別子、(3)(2)に対応する配列、(4)その領域のハイパーメチル化またはハイポメチル化スコアに基づいて含まれるかどうか、という情報が含まれている。染色体番号、開始位置、停止位置は、既知のヒト参照ゲノムであるGRCh37/hgl9を基準として提供される。GRCh37/hgl9の配列は、National Center for Biotechnology Information (NCBI), the Genome Reference Consortium, Santa Cruz Genomics Instituteが提供するGenome Browserから入手可能である。
【0281】
一般に、ビンは、WO2020/069350のリスト1~8に含まれる標的領域のいずれかの開始/停止範囲内に含まれるCpG部位のいずれかを包含することができる。
【0282】
いくつかの実施形態では、本開示の複数のビンは、WO2020/069350のリスト1~8のいずれか1つにおける少なくとも200、500、1,000、5,000、10,000、15,000、20,000、30,000、40,000、または50,000の標的ゲノム領域の各々に対する別個のビンを含む。いくつかの実施形態では、本開示の複数のビンは、WO2020/069350のリスト1~8の任意の組み合わせにおける少なくとも200、500、1,000、5,000、10,000、15,000、20,000、30,000、40,000、又は50,000の標的ゲノム領域のそれぞれについて別個のビンを含む。
【0283】
いくつかの実施形態では、本開示の複数のビンは、WO2020/069350のリスト1~8のいずれか1つにおける標的ゲノム領域の少なくとも20%、30%、40%、50%、60%、70%、80%、90%、または95%のそれぞれに対する別個のビンを含む。いくつかの実施形態では、本開示の複数のビンは、WO2020/069350のリスト1~8の任意の組み合わせにおける標的ゲノム領域の少なくとも20%、30%、40%、50%、60%、70%、80%、90%又は95%のそれぞれに対する別個のビンを含む。
【0284】
本開示のいくつかの実施形態では、複数のビンの各ビンは、癌特異的メチル化パターンの標的選択のために設計されたゲノム領域のパネルから引き出される。いくつかの実施形態では、そのような各ビンは、2019年4月2日に出願された「Methylated Markers and Targeted Methylation Probe Panels」と題するWO2019/195268A2として公開された国際特許出願番号PCT/US2019/025358の表1~24のいずれかにおけるゲノム領域に対応する(その全体は参照により本書に組み込まれる)。
【0285】
いくつかの実施形態では、本開示の各ビンは、WO2019/195268A2の表1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23及び/又は24の1又は複数に記載のゲノム領域にマッピングされる。
【0286】
いくつかの実施形態では、本開示の複数のビンの全体が一緒になって、WO2019/195268A2の表1~24の1つ以上におけるゲノム領域の少なくとも30%、40%、50%、60%、70%、80%、90%又は95%にマッピングするように構成される。いくつかのそのような実施形態では、複数のビンの各ビンは、WO2019/195268A2の表1~24のいずれかにおける単一の固有の対応するゲノム領域にマッピングされる。いくつかのそのような実施形態では、本開示の複数のビンにおけるビンは、WO2019/195268A2の表1~24の任意の組み合わせにおける1、2、3、4、5、6、7、8、9又は10の固有の対応するゲノム領域にマッピングされる。
【0287】
いくつかのそのような実施形態では、本開示の複数のビンにおける各ビンは、WO2019/195268A2の表2~10または16~24のいずれかにおける単一の一意の対応するゲノム領域にマッピングされる。いくつかのそのような実施形態では、複数のビンのビンは、WO2019/195268A2の表2~10または16~24の任意の組み合わせにおける1、2、3、4、5、6、7、8、9または10の固有の対応するゲノム領域と対応付けられる。
【0288】
いくつかの実施形態では、本開示の複数のビンにおける1つ以上のビンは、一緒になって、WO2019/195268A2の表1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23および/または24におけるゲノム領域の少なくとも30%、40%、50%、60%、70%、80%、90%または95%にマップするよう構成される。
【0289】
無細胞フラグメントの癌の条件を割り当てる。
【0290】
ブロック218を参照する。
図2Bのブロック218を参照すると、方法は、無細胞断片の複数のトレーニングセットにおける無細胞断片の各トレーニングセット内のそれぞれの無細胞断片に無細胞断片癌状態を割り当てることによって進み、ここで無細胞断片癌状態は、第1の癌状態及び第2の癌状態のいずれかであり、それぞれの無細胞断片のメチル化パターンを分類器に入力する際の分類器の出力の関数であるとされる。
【0291】
いくつかの実施形態では、分類器は、形式を有する。
[数3]
【0292】
いくつかのそのような実施形態において[外]は、第1の癌状態に対する第1のモデルである。
【0293】
いくつかのそのような実施形態において[外]は、第2の癌の状態に関する第2のモデルである。いくつかの実施形態では、第1及び第2のモデルに関して、「フラグメント」は、それぞれの無細胞フラグメントのメチル化パターンを指す。いくつかの実施形態において、それぞれの無細胞断片の癌状態は、以下の場合に第1の癌状態を割り当てられる。[外]は、閾値を満たす。いくつかの実施形態では、閾値は、1~10の間の任意の値である。いくつかの実施形態では、閾値は、1、2、3、4、5、6、7、8、9、又は10である。
【0294】
いくつかの実施形態において、第1のモデルは、第1の複数のサブモデルを含む第1の混合モデルであり、第2のモデルは、第2の複数のサブモデルを含む第2の混合モデルであり、第1及び第2の複数のサブモデルにおける各サブモデルは、対応する生体試料中の無細胞断片のソースに対する独立した対応するメチル化モデルを表す。
【0295】
いくつかの実施形態では、対象の癌状態は、複数の癌状態のうちの1つである(例えば、複数の癌状態がN個の癌状態からなる場合)。いくつかのそのような実施形態において、分類器は、以下の形式を有する。
[数4]
【0296】
いくつかのそのような実施形態において[外]は、複数の癌状態における第3の癌状態のための第3のモデルである。いくつかのそのような実施形態において[外]はth、複数の癌状態におけるN個の癌状態に対するN個th モデルである。
【0297】
本明細書の実施形態に従って使用するための混合物モデルの例は、2019年5月13日に出願された「モデルベースの特徴づけ及び分類」と題する米国特許出願第62/847,223号に記載されており、その全体が参照により本明細書に組み込まれる。
【0298】
いくつかの実施形態では、各独立対応メチル化モデルは、二項モデル、ベータ二項モデル、独立部位モデル、又はマルコフモデルのうちの1つである。いくつかの実施形態において、第1の複数のサブモデル中の2つ以上のサブモデルは、独立部位モデルであり、第2の複数のサブモデル中の2つ以上のサブモデルは、独立部位モデルである。
【0299】
例えば、その全体が参照により本明細書に組み込まれる、2020年2月28日に出願された「Identifying Methylation Patterns that Discriminate or Indicate a Cancer Condition」と題する米国特許出願第62/983,443号は、対象の特定の癌状態を識別するメチル化パターンを特定する複数の方法を開示している。具体的には、いくつかの実施形態では、癌状態のグループにおける各癌状態(例えば、起源癌)は、参照ゲノム全体または参照ゲノムのサブセット全体(例えば、標的パネル配列決定によって評価される)にわたる異常メチル化のそれぞれのパターン(例えば、修飾メチル化パターン)に対応する。特定の被験者の癌状態を決定するために、本方法は、関心のある複数のゲノム領域を評価し、複数のゲノム領域内の各ゲノム領域について、それぞれのゲノム領域にマッピングするメチル化パターンを有するフラグメントの対応するカウントを生成する(例えば、それぞれのゲノム領域にマッピングするフラグメントにおいて特定される可能なメチル化パターンごとにフラグメントのそれぞれのカウントが存在する)。次いで、本方法は、対象についての複数のゲノム領域にわたる断片カウントを、異なる癌状態に対応するメチル化パターンのデータベース(例えば、ライブラリ)と比較し(例えば、各癌状態は、複数のゲノム領域内のゲノム領域のそれぞれのサブセットについて対応する断片カウントを有する)、対象についての癌状態の可能性を決定し、ここで癌状態は、癌対非癌、癌タイプ、及び/又は起源組織に相当する。いくつかの実施形態では、本方法は、下流アプリケーションへの入力のために(例えば、腫瘍分率を推定するため、及び/又は対象の最小残存疾患を決定するために)対象の癌状態を特定するために使用される。いくつかの実施形態では、本開示で使用される複数のビンは、米国特許出願第62/983,443号において評価された任意の単一又は任意の組み合わせのがんに関連するメチル化パターンを含む、米国特許出願第62/983,443号において特定されたゲノムの一部を表すように選択される。
【0300】
別の例として、その全体が参照により本明細書に組み込まれる、2020年5月13日に出願された「モデルベースの特徴づけおよび分類」と題する米国特許出願第15/931,022号は、異なる癌状態に対応するメチル化特徴を識別するためにゲノム領域のメチル化状態(例えば、ゲノム領域にマッピングする配列読み取りにより表される断片から決定)を用いた確率的モデルの開発を開示する。いくつかの実施形態では、本開示で使用される複数のビンは、米国特許出願第15/931,022号において評価された任意の単一または任意の組み合わせのがんに関連するメチル化パターンを含む、米国特許出願第15/931,022号において特定されたゲノムの部分を表すように選択される。
【0301】
核酸断片に癌分類を行う他の方法としては、例えば、2019年12月13日に出願された「Cancer Classification using Patch Convolutional Neural Networks」と題する米国特許出願第62/948,129号、2019年3月13日に出願された「高次元のデータを選択、管理、分析する方法およびシステム」と題する米国特許出願第16/352,739号、US.特許出願第16/428,575号、名称「Convolutional Neural Network Systems and Methods for Data Classification」、2019年5月31日出願、および米国特許出願第62/985,258号、名称「Systems and Methods for Cancer Condition Determination using Autoencoders」、2020年3月4日出願、これらの各々は参照によりその全体がここに組み込まれるものとする。
【0302】
いくつかの実施形態では、分類器は、多変量ロジスティック回帰、ニューラルネットワーク、畳み込みニューラルネットワーク、サポートベクターマシン(SVM)、決定木、回帰アルゴリズム、又は教師ありクラスタリングモデルである。
【0303】
多変量ロジスティック回帰を含むロジスティック回帰アルゴリズムは、Agresti, An Introduction to Categorical Data Analysis, 1996, Chapter 5, pp.103-144, John Wiley & Son, New Yorkに開示されており、これは参照によりここに組み込まれるものとする。
【0304】
畳み込みニューラルネットワークアルゴリズムを含むニューラルネットワークアルゴリズムは、See, Vincent et al., 2010, ”Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion,” J Mach Learn Res 11, pp.3371-3408; Larochelle et al., 2009, ”Exploring strategies for training deep neural networks,” J Mach Learn Res 10, pp.1-40; and Hassoun, 1995, Fundamentals of Artificial Neural Networks, Massachusetts Institute of Technology, each of these are herein incorporated by reference.(Happiness Networksは、参照により、ここに組み込まれる).
【0305】
SVMアルゴリズムは、Cristianini and Shawe-Taylor, 2000, ”An Introduction to Support Vector Machines,” Cambridge University Press, Cambridge; Boser et al, 1992, ”A training algorithm for optimal margin classifiers,” in Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory, ACM Press, Pittsburgh, Pa.に記述されている。pp.142-152; Vapnik, 1998, Statistical Learning Theory, Wiley, New York; Mount, 2001, Bioinformatics: sequence and genome analysis, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.; Duda, Pattern Classification, Second Edition, 2001, John Wiley & Sons, Inc,pp.259、262-265;およびHastie、2001、The Elements of Statistical Learning、Springer、New York;およびFureyら、2000、Bioinformatics 16、906-914、これらはそれぞれ、参照によりその全体をここに組み入れるものとする。分類に使用される場合、SVMは、(例えば、腫瘍分画値によって)二値ラベル付きデータ訓練セットの所定のセットを、ラベル付きデータから最大に離れた超平面を用いて分離する。線形分離が不可能な場合、SVMは特徴空間への非線形マッピングを自動的に実現する「カーネル」という手法と組み合わせて動作させることが可能である。SVMが特徴空間で見つけた超平面は、入力空間における非線形の決定境界に対応する。
【0306】
決定木は、Duda, 2001, Pattern Classification, John Wiley & Sons, Inc., New York, pp.395-396によって一般的に説明されており、これは参照によりここに組み込まれる。ツリーベースの方法は、特徴空間を一組の矩形に分割し、次に、各々においてモデル(定数のようなもの)を適合させる。いくつかの実施形態では、決定木はランダムフォレスト回帰である。使用することができる1つの具体的なアルゴリズムは、分類回帰木(CART)である。他の具体的な決定木アルゴリズムは、ID3、C4.5、MART、及びランダムフォレストを含むが、これらに限定されるものではない。CART、ID3、およびC4.5は、Duda, 2001, Pattern Classification, John Wiley & Sons, Inc., New York, 396-408頁および411-412頁に記載されており、この内容は参照によりここに組み込まれる。CART、MART、およびC4.5は、Hastieら、2001、The Elements of Statistical Learning、Springer-Verlag、New York、第9章に記載されており、その全体が参照により本書に組み込まれるものとする。ランダムフォレストは、Breiman, 1999, ”Random Forests--Random Features,” Technical Report 567, Statistics Department, U.C. Berkeley, September 1999に記載されており、その全体が参照により本明細書に組み込まれる。
【0307】
クラスタリングは、Duda and Hart, Pattern Classification and Scene Analysis, 1973, John Wiley & Sons, Inc., New York, (以下「Duda 1973」)の211-256ページに記載されており、その全体が参照によりここに組み込まれるものとする。Duda 1973の6.7項に記載されているように、クラスタリング問題は、データセット内の自然なグループ化を見つけるものとして説明されている。自然なグループ分けを特定するために、2つの問題に取り組む。まず、2つのサンプル間の類似性(または非類似性)を測定する方法が決定される。この指標(類似度指標)は、あるクラスタ内のサンプルが、他のクラスタ内のサンプルに対してより似ていることを保証するために用いられる。次に、類似度指標を用いてデータをクラスタに分割する仕組みが決定される。
【0308】
類似性の尺度はDuda 1973のセクション6.7で議論されており、クラスタリングの調査を始める1つの方法は、距離関数を定義し、トレーニングセット内のサンプルのすべてのペアの間の距離の行列を計算することであると述べられている。距離が類似性の良い尺度であるならば、同じクラスタ内の参照エンティティ間の距離は、異なるクラスタ内の参照エンティティ間の距離よりも有意に小さくなるであろう。しかし、Duda 1973の215ページに記載されているように、クラスタリングは距離メトリックを使用する必要はない。例えば、2つのベクトルxとx’を比較するために、非計量的な類似性関数s(x, x’)を使用することが可能である。従来、s(x, x’)は対称関数であり、xとx’が何らかの形で ”似ている ”場合に値が大きくなっていた。非計量的な類似性関数s(x, x’)の例は、Duda 1973の218ページに記載されている。
【0309】
データセット内の点間の「類似性」または「非類似性」を測定する方法を選択した後、クラスタリングには、データの任意のパーティションのクラスタリング品質を測定する基準関数が必要である。基準関数を極大化するようなデータセットの分割が、データのクラスタリングに用いられる。Duda 1973の217ページを参照。基準関数はDuda 1973の6.8節で説明されている。
【0310】
最近では、Dudaら、Pattern Classification, 2nd edition, John Wiley & Sons, Inc.New York、が出版されている。537-563ページには、クラスタリングの詳細が記述されている。クラスタリング技術に関するより詳細な情報は、Kaufman and Rousseeuw, 1990, Finding Groups in Data:An Introduction to Cluster Analysis, Wiley, New York, N.Y.; Everitt, 1993, Cluster analysis (3d ed.), Wiley, New York, N.Y.; and Backer, 1995, Computer-Assisted Reasoning in Cluster Analysis, Prentice Hall, Upper Saddle River, New Jersey、これらの各々は参照によりここに組み込まれるものとする。本開示において使用され得る特定の例示的なクラスタリング技術には、階層的クラスタリング(最近傍アルゴリズム、最遠傍アルゴリズム、平均連結アルゴリズム、セントロイドアルゴリズム、または二乗和アルゴリズムによる凝集型クラスタリング)、k-平均法、ファジーk-平均法、およびジャービス-パトリッククラスタリングが含まれるが、それらに限定されるものではない。かかるクラスタリングは、第1の特徴のセット{p1 , ..., pN-K }(又は第1の特徴のセットから得られる主成分)に対するものであってもよい。いくつかの実施形態では、クラスタリングは、トレーニングセットがクラスタリングされるときにどのようなクラスタが形成されるべきかという先入観が課されない教師なしクラスタリングを構成する。
【0311】
特徴を把握する。
【0312】
ブロック220を参照する。
図2Bのブロック220を参照すると、本方法は、複数のビンにおけるそれぞれのビンについて、(a)複数の訓練対象におけるそれぞれの訓練対象の対象癌状態と、(b)それぞれのビンに対応付けられた無細胞断片の対応する訓練セットにおけるそれぞれの無細胞断片癌状態との間の関連の対応指標Iを決定することによって進行する。
【0313】
いくつかの実施形態では、ブロック222に関して、関連性の尺度は、相関関係である。ブロック224を参照すると、いくつかの実施形態では、相関は、ピアソン相関係数である。ブロック226を参照すると、いくつかの実施形態では、相関は、調整相関係数、加重相関、反射相関係数、または尺度化相関係数を用いて実行される。
【0314】
いくつかの実施形態では、関連性の尺度は、相互情報計算である。例えば、Song et al., 2012, ”Comparison of co-expression measures: mutual information, correlation, and model based indices,” BMC Bioinformatics 13, 328.を参照されたい。例えばいくつかの実施形態では、相互情報は、
図8に従って計算される。
図8に記載されるように、トレーニング対象ラベルY(2つの癌タイプの場合、癌タイプA又はB)、及びビン特徴X間の相互情報は、相互情報によって計算される。実際、
図8は、被験者が癌タイプA又はBのいずれかを有する確率が同じである(P(Y=A)=P(Y=B))という仮定の下での相互情報の計算方法を提供する。いくつかの特定の実施形態では、准の尺度は、以下のように計算される相互情報である。
[数5]
【0315】
いくつかのそのような実施形態において、i及びjは、がん状態のセット(例えば、第1及び第2のがん状態)に対する独立したインデックスである。いくつかの実施形態において[外]は、複数の訓練被験者のうち、がん状態iを有する訓練被験者の数である(例えば、iは第1のがん状態であり、または代替的に、iは第2のがん状態であるなど。)いくつかの実施形態では[外]は、それぞれのビンにマッピングされる1つ以上の無細胞断片を有する複数の訓練被験者のうち、癌状態jを割り当てられた訓練被験者の数である(例えば、jは第1の癌状態、または代替的に、jは第2の癌状態などである。).2つの癌の状態の場合、この関連性の測定は次のような形式をとる。
[数6]
【0316】
いくつかのそのような実施形態では、関連性の尺度は、少なくともa)第1の癌の状態を有し、かつ第1の癌の状態に割り当てられたそれぞれのビン内に1つ以上の無細胞断片を有する訓練被験者の数、b)第1の癌の状態を有するが、第2の癌の状態に割り当てられたそれぞれのビン内に1つ以上の無細胞断片を有する訓練被験者の数に基づいて、決定される。c) 第二の癌の状態を有し、かつ第二の癌の状態に割り当てられたそれぞれのビン内に1つ以上の無細胞断片を有する訓練被験者の数、および d) 第二の癌の状態を有するが、第一の癌の状態に割り当てられたそれぞれのビン内に1つ以上の無細胞断片を有する訓練被験者の数。
【0317】
ある実施形態では、この機能は
[数7]
は、癌状態iを有し、かつ癌状態jを割り当てられたそれぞれのビンにマッピングされた1つ以上の無細胞断片を有する、複数の訓練被験者の中の訓練被験者の数であり
[外]は、複数の訓練被験者における訓練被験者の総数である。いくつかの実施形態では、関数[外]は、以下を含む。
(例えば、複数の訓練被験者の中の訓練被験者の総数におけるith の癌状態を有する訓練被験者の数の比)、及び[外]からなり[外]である。(例えば、複数の訓練対象者における訓練対象者の総数のうち、jth の癌の状態を有する訓練対象者の数の割合)。
【0318】
いくつかの実施形態では、2つの可能性のある癌の状態がある場合、関連性の尺度は距離メトリックである。表1は、そのような距離メトリックの例を提供する。
【0319】
【0320】
表1において
[外]は、、訓練データセット状態ベクトルであり、におけるそれぞれの要素は、複数の訓練対象者における対応する訓練対象者のがん表示を表し、nは、訓練対象者n人を表す。[外]は、複数の訓練対象における対応する癌対象の訓練対象癌表示を表し、nは、訓練母集団のn対象を表す。例えば、いくつかの実施形態において、所定の要素[外]は、訓練対象が第1の癌の状態を有する場合、「0」であり、訓練対象が第2の癌の状態を有する場合、0である。表1において[外]は、距離メトリックが計算されるそれぞれのビンのためのベクトルである。のように[外]の各要素は、対応する癌の状態を表す。[外]の各要素は、対応する癌の状態を表す。ただし[外]の各要素は、対応する癌の状態を表す。[外]
は、距離メトリックが計算される訓練対象者のそれぞれのビンの測定された態様を表す。いくつかの実施形態において、各要素[外]は、被験者のビン内の断片のいずれかが第1の癌状態であると分類されたかどうかに関する二値表示である(例えば、あるときは「0」、ないときは「1」)。いくつかの実施形態では、対象ビン内の各要素は[外]は、サブジェクトビン内のフラグメントのいずれかが、第2のがんの状態であると分類されたかどうかに関するバイナリ表示である(例えば、ある場合は「0」、ない場合は「1」)。いくつかの実施形態では、各要素の[外]の各要素は、第1の癌状態であると分類されたサブジェクトビン内のフラグメントの数(例えば、ある場合は「0」、ない場合は「1」)をビン内の全フラグメントで割った比率である。いくつかの実施形態では、各要素の[外]は、被験者のビン内の、第2のがんの状態であると分類されたフラグメントの数(例えば、あるときは「0」、ないときは「1」)をビン内の全フラグメントで割った比率である。いくつかの実施形態では、各要素の[外]は、第1のがんの状態であると分類された対象のビン内のフラグメントの数(例えば、ある場合は「0」、ない場合は「1」)を、第2のがんの状態であると分類された対象のビン内のすべてのフラグメントで割った比率である。いくつかの実施形態では、以下の各要素は[外]は、第1の癌の状態であると分類された対象ビン内のフラグメントの閾値の存在(例えば、閾値を満たす場合は「0」、閾値を満たさない場合は「1」)かどうかに関する二値表示である。この閾値は、上述した比率又は断片数の何れかの閾値とすることができる。さらに、表1において、maxi、miniは、それぞれ、ith要素の最大値(例えば 、「1」)、最小値(例えば、「0」)である。距離に基づく分類に関する追加の詳細および情報は、Yangら、1999、「DistAI:An Inter-pattern Distance-based Constructive Learning Algorithm」、Intelligent Data Analysis、3(1)、55-83に開示されており、これは参照によりここに組み込まれるものとする。
【0321】
いくつかの実施形態では、関連性の尺度の計算は、複数の訓練対象における各訓練対象が複数の癌状態のうちの1つを有する複数のビンにおける各ビンについて、関連性の尺度を決定する。いくつかのそのような実施形態では、関連性の尺度は、以下のように計算される。
[数8]
【0322】
いくつかの実施形態では、この式におけるi、j、及びnは、癌状態のセットに対する(例えば、複数の癌状態におけるそれぞれのそれぞれの癌状態に対する)独立した指標である。いくつかの実施形態において[外]は、がん状態iを有する複数の訓練被験者中の訓練被験者の数であり、いくつかの実施形態では[外]は、がん状態jを割り当てられたそれぞれのビンにマッピングされた1つ以上の無細胞断片を有する、複数の訓練被験者の中の訓練被験者の数である。zn を含むまで、それぞれのそれぞれのがん状態を有する、複数の訓練被験者の中の訓練被験者のそれぞれの数が存在する。 いくつかの実施形態において、この関数は[外]は、以下の比率からなる。[外]であり、ここで[外]は、癌状態iを有し、かつ癌状態j~nのうちの1つに割り当てられたそれぞれのビンにマッピングされた1つ以上の無細胞断片を有する、複数の訓練被験者の中の訓練被験者の数であり[外]
は、複数の訓練被験者における訓練被験者の総数である。いくつかの実施形態では、関数[外]は、以下を含む。[外](例えば、複数の訓練対象における訓練対象の総数における、ithの癌状態を有する訓練対象の数の比率)、及び[外]からなり[外](例えば、複数の訓練被験者における訓練被験者の総数における、jthの癌の状態を有する訓練被験者の数の比率)。いくつかの実施形態では、複数の癌状態における各癌状態は、対応する比率(例えば、[外])が、それぞれの癌の状態を有する訓練被験者の数(例えば、nth癌の状態)である。
【0323】
ブロック228を参照する。方法は、
図2Bのブロック228を参照して、対象細胞源率を推定するための複数の特徴を複数のビンのサブセットとして特定することによって続けられ、複数のビンのサブセット内のそれぞれのビンは、それぞれのビンについて対応する関連性の測定に基づく選択基準を満たす。
【0324】
いくつかの実施形態では、選択基準は、関連性の上位N個の測定のうちの1つを有するビンの選択を指定し、ここでNは、50以上の正の整数である。いくつかの実施形態では、Nは、500と5000の間である。いくつかの実施形態では、Nは800と1500の間である。いくつかの実施形態では、Nは、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも1100、少なくとも1200、少なくとも1300、少なくとも1400、又は少なくとも1500の間である。
【0325】
いくつかの実施形態では、ブロック230を参照すると、選択基準は、関連性の上位N個の尺度のうちの1つを有するビンの選択を指定し、ここでNは50以上の正の整数である(例えば、関連性の最高尺度を有する少なくとも50個のビンが、特徴として選択される)。
【0326】
いくつかの実施形態では、複数の特徴は、少なくとも10、少なくとも50、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも1100、少なくとも1200、少なくとも1300、少なくとも1400、又は少なくとも1500の特徴からなる。いくつかの実施形態では、複数の特徴は、500以上5000以下、800以上1500以下、又は1500以上の特徴からなる。
【0327】
細胞源分画を推定する。
【0328】
いくつかの実施形態では、被験者の細胞源率を推定するための複数の特徴(例えば、ビンのサブセット)を特定した後、方法は、少なくとも複数の特徴に基づいて被験者の細胞源率を推定することを更に含む。
【0329】
いくつかの実施形態では、本方法は、電子的形態で、試験用複数の無細胞断片におけるそれぞれのそれぞれの無細胞断片の対応するメチル化パターンを得ることを含む手順によって、細胞源または腫瘍画分推定を実行し(e.から)、それぞれのそれぞれの無細胞断片の対応するメチル化パターンは、(i)被験体から得られた生体試料中のそれぞれの断片を含む1つ以上の核酸試料のメチル化配列決定によって決定され、(ii)それぞれの断片中の対応する複数のCpG部位の各CpGのメチル化状態からなる、手順によって推定する。本手順は、試験用複数の無細胞断片中の各無細胞断片を複数のビン中のビンにマッピングし、それによって無細胞断片の複数の試験セットを得ることをさらに含み、無細胞断片の各試験セットは複数のビン中の異なるビンにマッピングされる。この手順は、それぞれの無細胞断片のメチル化パターンを分類器に入力したときの分類器の出力の関数として、複数の無細胞断片のテストセットにおけるそれぞれの無細胞断片に対して無細胞断片癌条件を割り当てることによって継続される。この手順は、複数のビンのサブセットにわたる無細胞断片の各テストセットにおいて第1の癌状態を割り当てられた被験体からの無細胞断片の数の中心傾向の第1の指標を計算することと、複数のビンのサブセットにわたる無細胞断片の各テストセットにおいて被験体からの無細胞断片の数の中心傾向の第2の指標を計算することとを含む。この手順は、中心傾向の第1の尺度及び中心傾向の第2の尺度を用いて、被験体に対する細胞源分率を推定する。
【0330】
いくつかの実施形態において、第2の癌状態は、癌の非存在を含み、被験体について推定された細胞源分率は、被験体についての腫瘍分率を含む。
【0331】
例えば、いくつかの実施形態では、腫瘍割合推定値は、被験者の生体試料(例えば、cfDNA及び/又は血漿)中の1つ以上のメチル化状態パターンが腫瘍由来であり、かかる腫瘍由来のメチル化パターンの頻度が正常細胞に対する癌細胞の割合(例えば、腫瘍割合)に直接比例するという仮定に基づいて計算される。
【0332】
そのような画分を決定する様々な方法があり、その一部は、2019年12月18日に出願された「Systems and Methods for Estimating Cell Source Fractions using Methylation Information」と題する米国特許出願第16/719,902号及び2020年4月16日出願の「Systems and Methods for Tumor Fraction Estimation from Small Variants」と題する米国特許出願第16/850,634号に記載されており、その両方が参照により本書にその全体として援用されるものとする。
【0333】
いくつかの実施形態では、中心傾向の第1の指標は、複数のビンのサブセットにわたる無細胞断片の各テストセットにおいて第1の癌条件を割り当てられた複数の試験対象からの無細胞断片の数の算術平均、加重平均、中間値、トライミーン、Winsorized平均、平均、又は最頻値である。いくつかの実施形態では、中心傾向の第2の尺度は、複数のビンのサブセットにわたる無細胞断片の各テストセットにおける複数の被験体からの無細胞断片の数の算術平均、加重平均、中間値、トリミン、ウィンザー化平均、平均値、又は最頻値である。いくつかの実施形態では、細胞源分率を推定することは、中心傾向の第1の尺度を中心傾向の第2の尺度で割ることを含んでいる。幾つかの実施形態では、複数の訓練対象における各訓練対象のそれぞれの対象癌状態は、複数の癌状態から選択される。いくつかの実施形態において、対応する中心傾向の尺度は、複数の癌状態におけるそれぞれのそれぞれの癌状態について決定される。いくつかのそのような実施形態では、細胞源分率を推定することは、中心傾向の第1の尺度を中心傾向の他の各尺度の合計で割ることを含む。
【0334】
いくつかの実施形態では、被験体の腫瘍分画は、0.003~1.0の範囲である。いくつかの実施形態では、被験体の腫瘍分率は、0.001~1.0の範囲内である。いくつかの実施形態では、被験体の腫瘍分率は、少なくとも0.001、少なくとも0.005、少なくとも0.01、少なくとも0.05、少なくとも0.1、少なくとも0.2、少なくとも0.3、少なくとも0.4、少なくとも0.5、少なくとも0.6、少なくとも0.7、少なくとも0.8、少なくとも0.9又は少なくとも1.0である。
【0335】
いくつかの実施形態では、被験者の細胞源(例えば、腫瘍)画分を決定することは、被験者の起源の癌をさらに同定する。いくつかの実施形態では、第1及び/又は第2の癌の状態は、起源組織(例えば、癌が起源であると考えられている場所)を含んでいる。いくつかの実施形態では、第1および/または第2の癌の状態は、癌の病期(例えば、I期、II期、III期またはIV期)を含んでいる。
【0336】
いくつかの実施形態において、起源となる癌は、非癌、乳癌、肺癌、前立腺癌、大腸癌、腎癌、子宮癌、膵臓癌からなる群より選択される第1の癌の状態を含んでいる。食道癌、リンパ腫、頭頸部癌、卵巣癌、肝胆膵癌、メラノーマ、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌、鼻咽頭癌、肝癌、又はそれらの組み合わせからなる群から選択される第1の癌の状態を含んでいる。
【0337】
いくつかの実施形態では、起源となる癌は、乳癌、肺癌、前立腺癌、大腸癌、腎癌、子宮癌、膵臓癌からなる群から選択される少なくとも第1の癌状態及び第2の癌状態をそれぞれ含んでいる。食道癌、リンパ腫、頭頸部癌、卵巣癌、肝胆膵癌、メラノーマ、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌、鼻咽頭癌、肝癌、またはそれらの組み合わせからなる群から選択される少なくとも第1の癌の状態および第2の癌の状態を含む。
【0338】
いくつかの実施形態では、第1及び/又は第2の癌の状態は、乳癌の段階、肺癌の段階、前立腺癌の段階、大腸癌の段階、腎癌の段階、子宮癌の段階、膵臓癌の段階、食道癌の段階、リンパ腫の段階、頭/首癌の段階から構成され、卵巣癌の段階、肝/膵臓癌の段階、黒色腫の段階、子宮頸癌の段階、多発性骨髄腫の段階、白血球の段階、又は、白血球の段階を含む。卵巣癌、肝胆膵癌、メラノーマ、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌、鼻咽頭癌、肝癌、またはこれらの組み合わせの病期。
【0339】
いくつかの実施形態では、被験体の細胞源(例えば、腫瘍)画分を決定することは、被験体に治療勧告(例えば、癌治療)を提供することをさらに含み、治療勧告は、細胞源画分(例えば、疾患がどの程度進行しているか)及び起源癌に少なくとも部分的に基づいている。
【0340】
いくつかの実施形態では、本方法は、疾患の進行を監視するため、または治療効果(例えば、治療効力)を監視するために、1つまたは複数の時点(例えば、治療の前または後)で被験体の細胞源(例えば、腫瘍)画分を決定することをさらに含む。例えば、いくつかの実施形態では、経時的な腫瘍分画の増加(例えば、第2の後の時点)は、疾患の進行を示し、逆に、いくつかの実施形態では、経時的な腫瘍分画の減少(例えば、第2の後の時点)は、治療が成功したことを示す。
【0341】
例えば、いくつかの実施形態において、本方法は、被験体に対する細胞源分画の値に少なくとも部分的に基づいて、被験体に治療レジメンを適用することをさらに含む。いくつかの実施形態では、治療レジメンは、被験体に癌のための薬剤を適用することを含む。いくつかの実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線療法、又は癌治療薬である。いくつかの実施形態では、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、及び18型)ワクチン。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、又はこれらの後発品等。
【0342】
いくつかの実施形態では、被験体は、癌のための薬剤で処理されており、本方法は、被験体の細胞源画分を使用して、癌のための薬剤に対する被験体の応答を評価することをさらに含む。いくつかの実施形態では、癌のための薬剤は、ホルモン、免疫療法、放射線療法、又は癌治療薬である。いくつかの実施形態では、癌のための薬剤は、レナリドミド、ペムブロリズマブ、トラスツズマブ、ベバシズマブ、リツキシマブ、イブルチニブ、ヒトパピローマウイルス4価(6、11、16、及び18型)ワクチン。ペルツズマブ、ペメトレキセド、ニロチニブ、デノスマブ、酢酸アビラテロン、プロマクタ、イマチニブ、エベロリムス、パルボシクリブ、エルロチニブ、ボルテゾミブ、またはそれらの後発品等。
【0343】
いくつかの実施形態において、被験体は、癌のための薬剤で治療されており、本方法は、被験体における癌のための薬剤を強化するか中止するかを決定するために被験体の細胞源分画を使用することをさらに備える。いくつかの実施形態では、被験体は、がんに対処するための外科的介入を受けており、本方法は、外科的介入に応じた被験体の状態を評価するために、被験体の細胞源分画を使用することをさらに備える。
【0344】
いくつかの実施形態では、本方法は、エポックにわたる複数の時点(例えば、2つ以上の時点、3つ以上の時点、4つ以上の時点)におけるそれぞれの時点において繰り返される。エポックにわたる複数の時点(例えば、2つ以上の時点、3つ以上の時点、4つ以上の時点)におけるそれぞれの時点において本方法を繰り返し、それによって、それぞれの時点における被験体について、複数の細胞源(例えば、腫瘍)画分における対応する細胞源(例えば、腫瘍)画分を得、複数の細胞源(例えば、腫瘍)画分を用いて、被験体における疾患の状態又は進行を決定する。複数の細胞源(例えば、腫瘍)分画を使用して、その時点における被験者の病状の状態又は進行を、その時点における第1の細胞源(例えば、腫瘍)分画の増加又は減少という形で判定すること。
【0345】
いくつかのそのような実施形態では、エポックは数ヶ月の期間であり、複数の時点の各時点は、数ヶ月の期間内の異なる時点である。いくつかの実施形態では、数ヶ月の期間は、1ヶ月と4ヶ月の間、4ヶ月と8ヶ月の間、8ヶ月と12ヶ月の間、12ヶ月と18ヶ月の間、18ヶ月と24ヶ月の間、または24ヶ月より多い期間である。いくつかの実施形態では、数ヶ月の期間は、4ヶ月未満である。
【0346】
いくつかの実施形態では、エポックは年の期間であり、複数のタイムポイントの各タイムポイントは、年の期間内の異なるタイムポイントである。いくつかの実施形態では、年の期間は、2年と10年の間である。いくつかの実施形態では、年の期間は、1年と5年の間、5年と10年の間、10年と15年の間、15年と20年の間、又は20年以上である。
【0347】
いくつかの実施形態では、エポックは時間の期間であり、複数のタイムポイントにおける各タイムポイントは、時間の期間内の異なるタイムポイントである。いくつかの実施形態では、時間の期間は、1時間から6時間の間である。いくつかの実施形態では、時間の期間は、1時間と3時間の間、3時間と6時間の間、6時間と9時間の間、9時間と12時間の間、12時間と18時間の間、18時間と24時間の間、又は24時間以上の間である。
【0348】
いくつかの実施形態では、本方法は、被験体の第1の細胞源(例えば、腫瘍)画分がエポックにわたって閾値量だけ変化することが観察されるとき、被験体の診断を変更することをさらに含む。いくつかの実施形態では、本方法は、被験体の第1の細胞源(例えば、腫瘍)画分がエポックにわたって閾値量だけ変化することが観察される場合に、被験体の予後を変更することをさらに含む。いくつかの実施形態では、本方法は、対象の第1の細胞源(例えば、腫瘍)画分がエポックにわたって閾値量だけ変化することが観察される場合に、対象の治療を変更することをさらに含む。前述の実施形態のいくつかでは、閾値は、1パーセントより大きい、5パーセントより大きい、10パーセントより大きい、20パーセントより大きい、30パーセントより大きい、40パーセントより大きい、又は50パーセントより大きい。いくつかの実施形態において、閾値は、2倍より大きい、3倍より大きい、4倍より大きい、又は5倍より大きい。
【0349】
特定の実施形態では、本方法は、癌治療前(例えば、切除手術又は治療的介入の前)である第1の時点だけでなく、癌治療後(例えば、切除手術又は治療的介入の後)である第2の時点でも行われ、各時点で開示される方法によって決定される細胞源(例えば、腫瘍)画分の比較によって治療の有効性を監視するために開示される方法が使用される。例えば、第2の時点における腫瘍分率が、第1の時点における腫瘍分率と比較して減少する場合、治療は成功したとみなされる。しかし、第2の時点における腫瘍分率が第1の時点における腫瘍分率と比較して増加する場合、治療は成功しなかったとみなされる。他の実施形態では、第1及び第2の時点の両方が、癌治療の前(例えば、切除手術又は治療的介入の前)である。さらに他の実施形態では、第1及び第2の時点の両方が、癌治療の後(例えば、切除手術又は治療的介入の前)であり、本方法は、治療の効果又は治療の効果の喪失を監視するために使用される。さらに他の実施形態では、生物学的試料(cfDNA試料)は、第1および第2の時点で被験体(例えば、癌患者)から得られ、例えば、癌の進行を監視するため、癌が寛解(例えば、治療後)しているかどうかを決定するため、残存疾患もしくは疾患の再発を監視もしくは検出するため、または治療(例えば、治療)効果を監視するために分析されてもよい。
【0350】
当業者であれば、生体試料を任意の数の時点にわたって試験対象(例えば、癌患者)から取得し、本開示の方法に従って分析して、患者における癌状態(例えば、腫瘍分画経由)を監視できることを容易に理解するであろう。いくつかの実施形態では、第1及び第2の時点は、約15分から約30年までの範囲の時間によって分離され、例えば、約1、2、3、4、5、6、7、8、9、10.11、12、13、14、15、16、17、18、19、20、21、22、23、または約24時間、例えば約1、2、3、4、5、10、15、20、25または約30日、例えば約1、2、3、4、5、6、7、8、9、10、11または12ヶ月、あるいは例えば約1、1.5,2,2.5,3,3.5,4,4.5,5,5.5,6,6.5,7,7.5,8,8.5,9,9.5,10,10.5,11,11.5,12,12.5,13,13.5,14,14.5,15,15.5,16,16.5,17,17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5又は約30年の間である。他の実施形態では、生物学的サンプルは、少なくとも3ヶ月に1回、少なくとも6ヶ月に1回、少なくとも1年に1回、少なくとも2年に1回、少なくとも3年に1回、少なくとも4年に1回、または少なくとも5年に1回、患者から取得することができる。
【0351】
被検者の推定細胞源率を決定すること。
【0352】
ブロック302
図3Aのブロック302を参照すると、対象(例えば、試験対象)の細胞源分率を推定する方法が提供される。いくつかの実施形態では、被験体はヒトである。いくつかの実施形態では、被験体は、任意の段階の男性又は女性(例えば、男性、女性、又は子供)である。いくつかの実施形態では、被験体の細胞源画分は、単一の細胞源に由来する。いくつかの実施形態では、被験者のための細胞源画分は、2つ以上の細胞源に由来する。いくつかの実施形態では、細胞源分画は、上記ブロック202に関して記載された通りである。
【0353】
ブロック304を参照する。ブロック304を参照すると、本方法は、電子的形態で、複数の無細胞断片におけるそれぞれの無細胞断片の対応するメチル化パターンを得ることによって続けられる(e...,複数の無細胞断片は、対象の生体試料に由来する)、ここで、それぞれのそれぞれの無細胞断片の対応するメチル化パターンは、(i)対象から得られた生体試料中のそれぞれの断片を含む1つまたは複数の核酸試料のメチル化配列決定によって求められ、(ii)それぞれの断片中の対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態から構成される。いくつかの実施形態では、ブロック306を参照すると、複数の無細胞断片は、500ヌクレオチド未満の平均長さを有する。いくつかの実施形態では、無細胞断片は、ブロック204に関して上述したように、生体試料に由来する。
【0354】
いくつかの実施形態では、生体試料は、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液からなる、又はそれらから構成される。このような実施形態では、生体試料は、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液の他、被験者の他の成分(例えば、固体組織等)を含んでもよい。
【0355】
そのような生物学的試料は、無細胞核酸断片(例えば、cfDNA断片)を含む。いくつかの実施形態では、生物学的試料は、配列決定分析の準備のために、無細胞核酸を抽出するように処理される。非限定的な例として、いくつかの実施形態では、無細胞核酸断片は、K2 EDTAチューブで対象から採取された生体試料(例えば、血液試料)から抽出される。生体試料が血液である場合、試料は、採取後2時間以内に、生体試料をまず1000gで10分間二重回転させ、次に、得られた血漿を2000gで10分間回転させることによって処理される。その後、血漿は1mlのアリコートで-80℃に保存される。このようにして、無細胞核酸抽出の目的のために、生体試料から適当な量の血漿(例えば、1~5ml)が調製される。いくつかのそのような実施形態では、無細胞核酸は、QIAamp循環核酸キット(Qiagen)を用いて抽出され、DNA Suspension Buffer(Sigma)中に溶出される。いくつかの実施形態では、精製された無細胞核酸は、使用するまで-20℃で保存される。例えば、Swanton, et al., 2017, ”Phylogenetic ctDNA analysis depicts early stage lung cancer evolution,” Nature, 545(7655):446-451であり、これは参照により本明細書に組み込まれる。配列決定の目的で生物学的方法から無細胞核酸を調製するために、他の同等の方法を使用することができ、そのような方法はすべて本開示の範囲内である。
【0356】
いくつかの実施形態では、生体試料から得られる無細胞核酸断片は、本開示で定義される核酸の任意の形態、又はそれらの組み合わせである。例えば、いくつかの実施形態では、生体試料から得られる無細胞核酸は、RNA及びDNAの混合物である。
【0357】
ある実施形態では、無細胞核酸断片は、メチル化されていないシトシンをウラシルに変換するように処理される。ある実施形態では、本方法は、メチル化シトシンを変換せずに非メチル化シトシンをウラシルに変換するDNAの重亜硫酸塩処理を用いる。例えば、EZ DNA MethylationTM - Gold、EZ DNA MethylationTM - Direct又はEZ DNA MethylationTM - Lightningキット(Zymo Research Corp(Irvine、CA)から入手可能)などの市販キットが、重亜硫酸塩変換に使用される。別の実施形態では、非メチル化シトシンのウラシルへの変換は、酵素反応を用いて達成される。例えば、変換は、APOBEC-Seq(NEBiolabs、Ipswich、MA)のような非メチル化シトシンのウラシルへの変換のための市販のキットを使用することができる。
【0358】
変換された無細胞核酸断片から、シークエンシングライブラリーが調製される。オプションとして、配列決定ライブラリーは、複数のハイブリダイゼーションプローブを用いて、細胞由来の情報を有する無細胞核酸断片、またはゲノム領域について濃縮される。ハイブリダイゼーションプローブは、特に指定された無細胞核酸断片、又は標的領域にハイブリダイズし、その後の配列決定及び解析のためにそれらの断片又は領域を濃縮する短いオリゴヌクレオチドである。いくつかの実施形態では、ハイブリダイゼーションプローブは、細胞起源について情報がある指定されたCpG部位のセットの標的高深度分析を実行するために使用される。一旦調製されると、配列決定ライブラリー又はその一部は、複数の配列リードを得るために配列決定される。
【0359】
いくつかの実施形態では、配列決定は、メチル化配列決定からなる。いくつかの実施形態では、メチル化シーケンシングは、ペアエンドシーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、シングルリードシーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、全ゲノムメチル化シーケンシングである。いくつかの実施形態では、メチル化シーケンシングは、複数の核酸プローブを用いた標的シーケンシングであり、複数のビンにおけるそれぞれのビンは、複数の核酸プローブにおける少なくとも1つの対応する核酸プローブと関連付けられる。いくつかの実施形態では、複数のビンのそれぞれのビンは、複数の核酸プローブの中の少なくとも2つの対応する核酸プローブと関連付けられる。
【0360】
いくつかの実施形態では、複数の核酸プローブ(例えば、標的配列決定に使用されるプローブ)は、1,000以上の核酸プローブ、2,000以上の核酸プローブ、3,000以上の核酸プローブ、4,000以上の核酸プローブ、5,000以上の核酸プローブ、10,000以上の核酸プローブ、20,000以上の核酸プローブ又は30,000以上の核酸プローブから構成される。いくつかの実施形態では、1,000個の核酸プローブと30,000個の核酸プローブの間の複数の核酸プローブがある。
【0361】
いくつかの実施形態において、メチル化配列決定(例えば、本明細書に記載されるまたは当該技術分野において公知の任意のメチル化配列決定方法に従って行われる)が、それぞれのフラグメントにおいて1つまたは複数の5-メチルシトシン(5mC)および/または5-ヒドロキシメチルシトシン(5hmC)を検出する、場合である。
【0362】
いくつかの実施形態では、メチル化配列決定は、それぞれのフラグメントの配列リードにおける、1つまたは複数の非メチル化シトシンまたは1つまたは複数のメチル化シトシンを、対応する1つまたは複数のウラシルに変換することを含んでいる。いくつかの実施形態では、1つまたは複数のウラシルは、1つまたは複数の対応するチミンとして、メチル化配列決定中に検出される。いくつかの実施形態では、1つまたは複数の非メチル化シトシンまたは1つまたは複数のメチル化シトシンの変換は、化学的変換、酵素的変換、またはそれらの組み合わせを含んでなる。
【0363】
いくつかの実施形態において、それぞれのフラグメントにおける対応する複数のCpG部位におけるそれぞれのCpG部位のメチル化状態は、以下の通りである。a)それぞれのCpG部位がメチル化されているとメチル化シークエンシングにより決定される場合、メチル化されている、b)それぞれのCpG部位がメチル化されていないとメチル化シークエンシングにより決定される場合、非メチル化されている、c)それぞれのCpG部位のメチル化状態をメチル化または非メチル化として呼ぶことができないとき「その他」としてフラッグされる。
【0364】
ブロック308を参照する。ブロック308を参照すると、方法は、複数の無細胞断片中の各無細胞断片を複数のビン中のビンにマッピングし、それによって複数の無細胞断片のセットを得、無細胞断片の各セットは、複数のビン中の異なるビンにマッピングされることによって継続される。
【0365】
いくつかの実施形態では、ブロック310を参照すると、複数のビンは、1000と100,000の間のビンで構成される。いくつかの実施形態では、複数のビンは、15000から80000の間のビンで構成される。いくつかの実施形態では、複数のビンは、上記のブロック210に関して説明したように、任意の数のビンからなる。
【0366】
ブロック312を参照すると、いくつかの実施形態では、複数のビンにおけるそれぞれのそれぞれのビンは、平均して、10~1200個の間の残基を有している。いくつかの実施形態では、複数のビンにおけるそれぞれのビンは、平均して、10~10000個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのそれぞれのビンは、平均して、10~500個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのそれぞれのビンは、平均して、10~100個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのそれぞれのビンは、平均して、25~100個の間の残基を有する。いくつかの実施形態では、複数のビンのそれぞれのビンは、平均して、5000~10000個の間の残基を有する。
【0367】
さらに、ブロック314に関して、いくつかの実施形態では、複数のビンにおける各ビンは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20又はそれ以上のCpG部位からなる又はそれらからなる。いくつかの実施形態では、複数のビンの各ビンは、ヒト参照ゲノムにおける2~100個の連続したCpG部位から構成される。いくつかの実施形態では、複数のビンの各ビンは、2~50個の連続するCpG部位からなる。いくつかの実施形態では、複数のビンの各ビンは、50個から100個の連続するCpG部位からなる。いくつかの実施形態では、複数のビンの各ビンは、少なくとも2つの連続するCpG部位からなる。
【0368】
ブロック316を参照する。ブロック316を参照すると、本方法は、無細胞断片の複数の訓練セットにおける無細胞断片の各訓練セット内のそれぞれの無細胞断片に無細胞断片癌状態を割り当てることによって続き、無細胞断片癌状態は、それぞれの無細胞断片のメチル化パターンを分類器に入力した際の分類器の出力の関数として、第1癌状態及び第2癌状態のうちの1つである。ブロック318を参照すると、いくつかの実施形態では、第1の癌の状態は癌であり、第2の癌の状態は癌の非存在である。いくつかの実施形態では、第1の癌の状態は癌であり、第2の癌の状態は癌の非存在である。いくつかの実施形態では、無細胞断片癌状態は、複数の癌状態のうちの1つである(例えば、ブロック206を参照して上述したように)。
【0369】
いくつかの実施形態では、無細胞断片状態を割り当てるために使用される分類器は、第1の癌状態に対する第1のモデルと第2の癌状態に対する第2のモデルとを備え、第1のモデルは、第1の複数のサブモデルを含む第1の混合モデルであり、第2のモデルは、第2の複数のサブモデルを含む第2の混合モデルであり、第1及び第2の複数のサブモデルにおけるそれぞれのサブモデルは、対応する生体試料における無細胞断片の供給源に対する独立した対応メチル化モデルを表している。いくつかの実施形態では、分類器は、式(1)又は式(3)の形式を有する。
【0370】
ブロック320を参照する。
図3Bのブロック320を参照すると、本方法は、複数のビンにわたる無細胞断片の各セットにおいて第1の癌状態を割り当てられた対象からの無細胞断片の数の中心傾向の第1の指標を計算することをさらに含む。いくつかの実施形態では、ブロック322を参照すると、中心傾向の第1の尺度は、複数のビンにわたる無細胞断片の各セットにおいて第1の癌状態を割り当てられた対象からの無細胞断片の数の算術平均、加重平均、中位、中位、トリミン、ウィンザー化平均、平均、又は最頻値である。
【0371】
ブロック324を参照する。ブロック324を参照すると、本方法は、複数のビンにわたる無細胞断片の各セットにおいて第2の癌状態を割り当てられた対象からの無細胞断片の数の第2の中心傾向の指標を計算することを更に含む。いくつかの実施形態では、ブロック326を参照すると、中心傾向の第2の尺度は、複数のビンにわたる無細胞断片の各セットにおいて第1の癌状態を割り当てられた対象からの無細胞断片の数の算術平均、加重平均、中位、中位、トリメイン、Winsorized平均、平均、又は最頻値である。
【0372】
ブロック328を参照する。ブロック328を参照すると、本方法は、中心傾向の第1の尺度及び中心傾向の第2の尺度を用いて被験者の細胞源分画を推定することによって進む。いくつかの実施形態では、細胞源分画は、腫瘍分画を含んでいる。ブロック330について、いくつかの実施形態では、腫瘍分率を推定することは、中心傾向の第1の測定値を中心傾向の第2の測定値で割ることからなる。
【0373】
いくつかの実施形態では、細胞源分画は、被験体における細胞源に関連する疾患(例えば、癌)を治療するための治療選択肢を決定するための基礎又は部分的基礎として使用される。いくつかの実施形態では、細胞源分画は、治療モニタリングのための基礎として使用される。いくつかの実施形態では、被験者の推定細胞源分率が与えられると、特定の治療オプションが被験者に有効でない、又は有効でないだろうと判断することが可能である。例えば、チェックポイント免疫療法は、細胞傷害性T細胞が機能不全に陥り、アポトーシスを受けると、効果的でないだろう。このような状況は、例えば、対象者の生体試料からの複数の断片が、血液中の細胞障害性T細胞に由来すると判定された場合に示される。いくつかの実施形態では、推定された細胞源分画は、最小残存疾病量の監視を助ける。
【0374】
当業者は、前のセクションに開示された実施形態(例えば、「細胞源割合を推定するための特徴の特定」参照)のいずれかが、本明細書に記載される、被験者の推定細胞源割合を決定するための方法及び実施形態に任意の組み合わせで適用されることを認識することができる。
【0375】
例
実施例1-癌別ctDNA分画中央値のステージ別増加量。
【0376】
図4を参照すると、被験者は、癌の種類に関係なく、癌のステージI、II、III、およびIVでグループ化されている。
図4において、X軸は各被験者がどの癌の病期を有するかを示し、Y軸は各被験者について観察されたctDNA分率を示す。各被験者のcfDNA分率を計算するために使用される方法は、コホート内の各被験者の生体試料から電子形式の第1の複数の核酸断片配列を得ることを含み、生体試料は無細胞核酸分子で構成される。
【0377】
図4は、基礎となるがんを示す無細胞配列の読み取り値を持つ被験者のうち、がんの種類に関係なく、がんのステージによってctDNA分率がどのように変化するかを示す分析結果である。したがって、
図4は、臨床的病期分類(ステージ1~4)によって決定されるように疾患がより重篤になると、細胞源分画の証拠(より大きなctDNA分画)がcfDNAに見いだされることを示している。
図4は、これがCCGAコホート(CCGAコホートの詳細については実施例3を参照)全体にわたる一般的なケースである一方、この傾向に対する違反(outliers)が存在することを示している。
図4におけるそのような外れ値は示唆的であり、臨床的な誤分類によって最もよく説明される。したがって、
図4は、基礎疾患の基本的な構成要素である、cfDNAにおける一般的な予想細胞源分画率を示している。
図4はまた、ステージ4には非常に低い菌糸放出率を示す個体があることを示しており、ステージ4内に異なるサブステートが存在することを示している。
【0378】
図4は、意味のある有益な閾値を設定するための基礎として、シェディング率(ctDNAの割合)を使用できることを示している。
【0379】
実施例2-複数のシーケンスリードを取得する。
【0380】
図5は、一実施形態による、配列決定のための核酸試料を調製するための方法500のフローチャートである。方法500は、以下のステップを含むが、これに限定されるものではない。例えば、方法500の任意のステップは、品質管理又は当業者に知られている他の実験室アッセイ手順のための定量サブステップを構成してもよい。
【0381】
ブロック502において、核酸サンプル(DNA又はRNA)が被験者から抽出される。サンプルは、全ゲノムを含む、ヒトゲノムの任意のサブセットであってよい。試料は、癌を有することが知られている、又は癌を有することが疑われている対象から抽出されてもよい。試料は、血液、血漿、血清、尿、糞便、唾液、他の種類の体液、又はそれらの任意の組合せを含んでもよい。いくつかの実施形態では、血液サンプルを採取するための方法(例えば、注射器又は指刺し)は、外科手術を必要とする場合がある組織生検を得るための手順よりも侵襲性が低い場合がある。抽出された試料は、cfDNA及び/又はctDNAを含んでいてもよい。健康な人の場合、人体はcfDNA及びその他の細胞残屑を自然に除去することができる。被験者が癌や疾患を患っている場合、抽出されたサンプル中のctDNAは、診断のために検出可能なレベルで存在する可能性がある。
【0382】
ブロック504では、配列決定ライブラリが調製される。ライブラリ調製中、アダプターライゲーションを通じて、ユニーク分子識別子(UMI)が核酸分子(例えば、DNA分子)に付加される。UMIは、アダプターライゲーション中にDNAフラグメントの末端に付加される短い核酸配列(例えば、4~10塩基対)である。いくつかの実施形態では、UMIは、特定のDNA断片に由来する配列読み取りを識別するために使用することができる固有のタグとして機能する縮退塩基対である。アダプターライゲーションに続くPCR増幅の間、UMIは、付着したDNA断片とともに複製される。これにより、ダウンストリーム解析において、同じオリジナル断片に由来するシーケンスリードを同定することができる。
【0383】
ブロック506において、標的化DNA配列は、ライブラリーから濃縮される。濃縮の間、ハイブリダイゼーションプローブ(本明細書では「プローブ」とも呼ばれる)は、癌(または疾患)の有無、癌の状態、または癌の分類(例えば、癌クラスまたは起源組織)について情報提供する核酸断片を標的化し、プルダウンするために使用される。所定のワークフローにおいて、プローブは、DNAの標的(相補的)鎖にアニール(またはハイブリダイズ)するように設計されることがある。標的鎖は、「ポジティブ」鎖(例えば、mRNAに転写され、その後タンパク質に翻訳される鎖)であっても、相補的な「ネガティブ」鎖であってもよい。プローブの長さは、10、100、または1000塩基対の範囲であってもよい。一実施形態では、プローブは、メチル化部位パネルに基づいて設計される。一実施形態では、プローブは、特定の癌又は他の種類の疾患に対応すると疑われるゲノム(例えば、ヒト又は他の生物の)の特定の変異又は標的領域を分析するために、標的遺伝子のパネルに基づいて設計される。さらに、プローブは、標的領域の重複する部分をカバーしてもよい。ブロック408において、これらのプローブは、核酸サンプルの一般的な配列読み取りを行うために使用される。
【0384】
図6は、一実施形態による配列リードを得るためのプロセスを示すグラフ図である。
図6は、試料からの核酸セグメント800の一例を描写している。ここで、核酸セグメント600は、一本鎖のような核酸セグメントとすることができる。いくつかの実施形態では、核酸セグメント600は、二本鎖のcfDNAセグメントである。図示された例では、異なるプローブによって標的化され得る核酸セグメントの3つの領域605A、605B、及び605Cが描かれている。具体的には、3つの領域605A、605B、及び605Cの各々は、核酸セグメント600上の重なり合う位置を含む。重複する位置の例は、
図5においてシトシン(「C」)ヌクレオチド塩基602として描かれている。シトシンヌクレオチド塩基602は、領域605Aの第1の縁の近く、領域605Bの中央、及び領域605Cの第2の縁の近くに位置する。
【0385】
いくつかの実施形態では、プローブの1つ以上(または全て)は、特定の癌または他の種類の疾患に対応すると疑われるゲノム(例えば、ヒトまたは別の生物の)の特定の変異または標的領域を分析するための遺伝子パネルまたはメチル化部位パネルに基づいて設計される。全エクソームシーケンス」としても知られるゲノムの全ての発現遺伝子を配列決定するのではなく、標的遺伝子パネルまたはメチル化部位パネルを使用することによって、方法600は、標的領域の配列決定深度を増加させるために使用され得、ここで深度は、サンプル内の所定の標的配列が配列決定された回数のカウントを意味する。配列決定深度を増加させることで、核酸サンプルの必要な入力量を減らすことができる。
【0386】
つ以上のプローブを用いた核酸サンプル600のハイブリダイゼーションにより、標的配列670の把握が行われる。
図6に示すように、標的配列670は、ハイブリダイゼーションプローブによって標的化される領域605のヌクレオチド塩基配列である。また、標的配列670は、ハイブリダイゼーション核酸断片と呼ぶこともできる。例えば、標的配列670Aは、第1のハイブリダイゼーションプローブによって標的とされる領域605Aに対応し、標的配列670Bは、第2のハイブリダイゼーションプローブによって標的とされる領域605Bに対応し、標的配列670Cは、第3のハイブリダイゼーションプローブによって標的とされる領域605Cに対応する。シトシンヌクレオチド塩基602がハイブリダイゼーションプローブによって標的化された各領域605A~C内の異なる位置にあることを考えると、各標的配列670は、標的配列670上の特定の位置でシトシンヌクレオチド塩基602に対応するヌクレオチド塩基を含んでいる。
【0387】
ハイブリダイゼーションステップの後、ハイブリダイズした核酸断片は捕捉され、また、PCRを用いて増幅されることができる。例えば、標的配列670を濃縮して、その後に配列決定することができる濃縮配列680を得ることができる。いくつかの実施形態では、各濃縮配列680は、標的配列670から複製される。標的配列670A及び670Cからそれぞれ増幅される濃縮配列680A及び680Cはまた、各配列読み取り部680A又は680Cの端部付近に位置するチミンヌクレオチド塩基を含む。以下では、参照アレル(例えば、シトシンヌクレオチド塩基602)に対して変異している濃縮配列680中の変異ヌクレオチド塩基(例えば、チミンヌクレオチド塩基)を代替アレルと見做す。さらに、標的配列670Bから増幅された各濃縮配列680Bは、各濃縮配列680Bの中心付近または中心に位置するシトシンヌクレオチド塩基を含む。
【0388】
図5のブロック508において、配列リードは、濃縮DNA配列、例えば、
図6に示す濃縮配列680から生成される。配列データは、当技術分野において既知の手段によって濃縮DNA配列から取得されてもよい。例えば、方法600は、合成技術(Illumina)、パイロシーケンス(454 Life Sciences)、イオン半導体技術(Ion Torrent sequencing)、単一分子リアルタイムシーケンス(Pacific Biosciences)、ライゲーションによるシーケンス(SOLiD sequencing)、ナノポアシークエンス(Oxford Nanopore Technologies)、又はペアエンドシーケンスを含む次世代シーケンス(NGS)技術を含んでもよい。いくつかの実施形態では、可逆的色素ターミネーターを有するsequencing-by-synthesisを用いて、超並列シーケンシングを行う。
【0389】
いくつかの実施形態では、配列リードは、アライメント位置情報を決定するために、当該技術分野において既知の方法を用いて参照ゲノムにアライメントされてもよい。アラインメント位置情報は、所定の配列リードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノム内の領域の開始位置及び終了位置を示してもよい。アラインメント位置情報は、開始位置及び終了位置から決定され得る配列リードの長さを含んでもよい。参照ゲノム中の領域は、遺伝子または遺伝子のセグメントに関連する場合がある。
【0390】
様々な実施形態において、配列読み取りは、以下のように示される読み取りペアで構成される。[外]と[外]例えば、第1リード[外]は、核酸断片の第1末端から配列決定されるかもしれない一方、第2リード[外]核酸断片の第二末端から配列決定することができる。したがって、第1のリードのヌクレオチド塩基対[外]と第2リード[外]の塩基対は、参照ゲノムの塩基と一貫して(例えば、反対の向きで)整列されることがある。リードペアから得られるアラインメント位置情報[外]と[外]は、第1のリードの末尾に対応する参照ゲノム中の開始位置(例えば、[外])と、第2のリードの終端に対応する参照ゲノム中の終端位置(例えば..., [外]).言い換えれば、参照ゲノムにおける開始位置と終了位置は、核酸断片が対応する参照ゲノム内の可能性の高い位置を表す。SAM(sequence alignment map)形式またはBAM(binary)形式を有する出力ファイルを生成し、メチル化状態の決定などのさらなる解析のために出力することができる。
【0391】
実施例3 - Cell-Free Genome Atlas Study (CCGA) コホート。
【0392】
CCGA[NCT02889978]からの被験者を、本開示の実施例において使用した。CCGAは、140以上の施設で15,000人以上の人口統計学的にバランスのとれた参加者を登録した、前向き多施設観察型cfDNAベース早期癌検出研究である。
【0393】
この例では、CCGAのサブスタディの一つを見る。登録時に定義された、新たに治療歴のないがんと診断された被験者(C、ケース)およびがんと診断されていない参加者(非がん[NC]、コントロール)から血液が採取されました。この事前に計画されたサブスタディには、20種類の腫瘍とすべての臨床病期において、878人の症例、580人の対照者、169人のアッセイ対照者(n=1627)が含まれている。
【0394】
全サンプルは以下の方法で解析された。1)cfDNAと白血球(WBC)のペアターゲットシーケンス(60,000X、507遺伝子パネル);ジョイントコーラーがWBC由来の体細胞変異と残留技術ノイズを除去;2)cfDNAとWBCのペアホールゲノムシーケンス(WGS、35X);新規の機械学習アルゴリズムが癌関連のシグナルスコアを生成;ジョイント解析が共有イベントを特定;3)cfDNAホールゲノムバイサルファイトシーケンス(WGBS、34X)。3)cfDNA全ゲノムバイサルファイトシーケンス(WGBS、34X);異常なメチル化断片を用いて正規化スコアを生成した。体細胞モザイク(例:クローン性造血)と一致するように、WBCにマッチしたバリアントは年齢とともに増加し、いくつかはこれまでに報告されていない非正規の機能喪失型突然変異であった。WBC変異体除去後、正規のドライバー体細胞変異体はCに非常に特異的であった(例えば、EGFRとPIK3CAでは、NCは0個で、Cはそれぞれ11個と30個であった)。同様に、WGSで体細胞コピー数変化(SCNA)が検出された8人のNCのうち、4人はWBCに由来するものであった。CCGAのWGBSデータは、情報量の多いハイパーフラグメントおよびハイポフラグメントレベルのCpG(1:2の比率)を明らかにし、そのサブセットを用いてメチル化スコアを算出した。すべてのアッセイにおいて、NC被験者の1%未満に一貫した「癌様」シグナルが観察された(診断されていない癌の可能性を表す)。NC対ステージI-III対ステージIVで増加傾向が観察された(nonsyn.SNVs/indels per Mb [Mean±SD] NC: 1.01±0.86, stage I-III: 2.43±3.98; stage IV: 6.45±6.79; WGS score NC: 0.00±0.08, I-III: 0.27±0.98; IV: 1.95±2.33; methylation score NC: 0±0.50; I-III: 1.02±1.77; IV: 3.94±1.70 )。これらのデータは、浸潤癌に対する99%以上の特異性を達成することが可能であることを示し、早期癌検出のためのcfDNAアッセイの有望性を支持するものである。
【0395】
実施例4 - 細胞ソースの例
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、共通の原発部位の第1の癌状態である。いくつかの実施形態では、第1の癌状態は、乳癌、肺癌、前立腺癌、大腸癌、腎癌、子宮癌、膵臓癌、食道の癌、リンパ腫、頭/首癌、卵巣癌、肝胆膵癌、黒色腫、子宮頸癌、多発性骨髄腫、白血病、甲状腺癌、膀胱癌、胃癌またはそれらの組合せである。
【0396】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、ある癌種の腫瘍、又はその分画である。いくつかの実施形態では、腫瘍は、副腎皮質癌、小児副腎皮質癌、AIDS関連癌の腫瘍、カポジ肉腫、肛門癌に関連する腫瘍、虫垂癌に関連する腫瘍、アストロサイトーマ。小児(脳腫瘍)腫瘍、非定型奇形腫・ラブドイド腫瘍、中枢神経系(脳腫瘍)腫瘍、皮膚基底細胞癌、胆管癌に伴う腫瘍、膀胱癌腫瘍、小児膀胱癌腫瘍、骨癌(e.g.g.,ユーイング肉腫、骨肉腫、悪性線維性組織球腫)組織、脳腫瘍、乳癌組織、小児乳癌組織、小児気管支腫瘍、バーキットリンパ腫組織、カルチノイド腫瘍(消化管)、小児カルチノイド腫瘍、原発不明癌、小児原発不明癌、小児心臓(心)腫瘍、中枢神経(例えば、小児異型脳腫瘍など。小児非定型奇形腫・ラブドイドなどの脳腫瘍)腫瘍、小児胚性腫瘍、小児胚細胞腫瘍、子宮頸癌組織、小児子宮頸癌組織、胆管癌組織、小児脊索腫組織、慢性骨髄増殖性新生物。大腸がん腫瘍、小児大腸がん腫瘍、小児頭蓋咽頭腫組織、非浸潤性乳管がん(DCIS)、小児胚性腫瘍、子宮内膜がん(子宮がん)組織、小児上衣腫組織食道がん組織、小児食道がん組織、エステシオネーロブラストーマ(頭頸部がん)組織、小児頭蓋外胚細胞腫瘍、頭蓋外胚細胞腫瘍、眼球がん組織、眼内黒色腫、網膜芽細胞腫。卵管癌組織、胆嚢癌組織、胃(胃)癌組織、小児胃(胃)癌組織、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、小児消化管間質腫瘍、胚細胞腫瘍(e.g.,小児中枢神経系生細胞腫瘍、小児頭蓋外生細胞腫瘍、卵巣生細胞腫瘍、または精巣癌組織)、頭頸部癌組織、小児心臓腫瘍、肝細胞癌(HCC)組織。膵島細胞腫瘍(膵神経内分泌腫瘍)、腎臓または腎細胞癌(RCC)組織、喉頭癌組織、白血病、肝癌組織、肺癌(非小細胞および小細胞)組織、小児肺癌組織、男性乳癌組織。骨悪性線維性組織球腫および骨肉腫、メラノーマ、小児メラノーマ、眼内メラノーマ、小児眼内メラノーマ、メルケル細胞癌、悪性中皮腫、小児中皮腫、転移性癌組織。原発不明転移性扁平上皮癌組織、NUT 遺伝子変化を伴う正中線癌、口腔癌(頭頸部癌)組織、多発性内分泌腫瘍症候群組織、多発性骨髄腫/形質細胞新生物、骨髄異形成症候群組織。骨髄異形成/骨髄増殖性新生物、慢性骨髄増殖性新生物、鼻腔・副鼻腔癌組織、鼻咽頭癌(NPC)組織、神経芽腫組織、非小細胞肺癌組織、口腔癌組織。唇・口腔がん・中咽頭がん組織、骨肉腫・骨悪性線維性組織球腫組織、卵巣がん組織、小児卵巣がん組織、膵臓がん組織、小児膵臓がん組織、乳頭腫症(小児喉頭がん)組織傍神経節腫組織、小児傍神経節腫組織、副鼻腔・鼻腔癌組織、副甲状腺癌組織、陰茎癌組織、咽頭癌組織、褐色細胞腫組織、小児褐色細胞腫組織、下垂体腫瘍。形質細胞新生物/多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系(CNS)リンパ腫、原発性腹膜癌組織、前立腺癌組織、直腸癌組織、網膜芽腫、小児横紋筋肉腫、唾液腺癌組織、肉腫(e.g.g.,小児血管腫、骨肉腫、子宮肉腫など)、セザリー症候群(リンパ腫)組織、皮膚がん組織、小児皮膚がん組織、小細胞肺がん組織、小腸がん組織、皮膚扁平上皮がん、原発不明扁平頸がん、皮膚T細胞リンパ腫、精巣がん組織、小児精巣がん組織、喉がん(例えば、上咽頭がん、上腸がん)。上咽頭癌、中咽頭癌、下咽頭癌)組織、胸腺腫または胸腺癌、甲状腺癌組織、腎盂・尿管移行細胞癌組織、原発不明癌組織、尿管または腎盂組織。移行細胞癌(腎臓(腎細胞)癌組織、尿道癌組織、子宮内膜子宮癌組織、子宮肉腫組織、膣癌組織、小児膣癌組織、血管腫瘍、外陰部癌組織、ウィルムス腫瘍などの小児腎臓腫瘍。
【0397】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、第1の癌の状態である。いくつかのそのような実施形態では、第1の癌の状態は、乳癌の段階、肺癌の段階、前立腺癌の段階、大腸癌の段階、腎癌の段階、子宮癌の段階、膵臓癌の段階、食道癌の段階である。リンパ腫、頭頸部がん、卵巣がん、肝胆膵がん、メラノーマ、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がんなどの病期である。
【0398】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、乳癌の所定の段階、肺癌の所定の段階、前立腺癌の所定の段階、大腸癌の所定の段階、腎癌の所定の段階、子宮癌の所定の段階、膵臓癌の所定の段階、食道癌の所定の段階、リンパ腫の所定の段階、頭頸部癌の所定の段階、肝胆膵癌の所定の段階、メラトンの所定の段階リンパ腫の所定のステージ、頭頸部がんの所定のステージ、卵巣がんの所定のステージ、肝胆膵がんの所定のステージ、メラノーマの所定のステージ、子宮頸がんの所定のステージ、多発性骨髄腫の所定のステージ、白血病の所定のステージ、甲状腺がんの所定のステージ、膀胱がんの所定のステージ又は胃癌の所定のステージである。
【0399】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、非癌組織由来である。いくつかの実施形態では、本開示の任意の実施形態の細胞源は、健康な組織に由来する細胞からのものである。いくつかの実施形態では、本開示の任意の実施形態の細胞源は、乳房、肺、前立腺、大腸、腎臓、子宮、膵臓、食道、リンパ、卵巣、子宮頸、表皮、甲状腺、膀胱、胃、またはそれらの組み合わせなどの健康組織からのものである。
【0400】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、1つの組織型から誘導される。いくつかの実施形態では、本開示の任意の実施形態の細胞源は、2つ以上の組織型から誘導される。いくつかの実施形態では、組織型は、1つ以上の細胞型(例えば、健康な非癌性細胞と癌性細胞との組み合わせ)を含む。いくつかの実施形態では、組織型は、1つの細胞型(例えば、癌性細胞又は健康な非癌性細胞のいずれか1つ)を含む。
【0401】
いくつかの実施形態において、本開示の任意の実施形態の細胞源は、1つの細胞種、2つの細胞種、3つの細胞種、4つの細胞種、5つの細胞種、6つの細胞種、7つの細胞種、8つの細胞種、9つの細胞種、10つの細胞種、又は10以上の細胞種を構成している。
【0402】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、肝細胞である。いくつかのそのような実施形態では、細胞源は、肝細胞、肝星状脂肪蓄積細胞(ITO細胞)、クッパー細胞、類洞内皮細胞、またはそれらの任意の組合せである。
【0403】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、胃細胞である。いくつかのそのような実施形態では、細胞源は、頭頂細胞である。
【0404】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、1つ又は複数のタイプのヒト細胞である。いくつかのそのような実施形態では、細胞源は、適応性NK細胞、脂肪細胞、肺胞細胞、アルツハイマー型IIアストロサイト、アマクリン細胞、アメロブラスト、アストロサイト、B細胞、好塩基球、好塩基球活性化細胞、好塩基球増加細胞、ベッツ細胞。ベッツ細胞、ビストレート化細胞、ベッチャー細胞、心筋細胞、CD4+ T細胞、セメント芽細胞、小脳顆粒細胞、胆管細胞、コレシスト細胞、クロマフィン細胞、シガー細胞、クラブ細胞、オルチコトロピック細胞。細胞傷害性T細胞、樹状細胞、腸クロム親和細胞、腸クロム親和様細胞、好酸球、糸球体外メサンギウム細胞、ファゴット細胞、脂肪パッド細胞、胃長細胞、ゴブレット細胞、性腺刺激性細胞肝星細胞、肝細胞、過分化好中球、糸球体内メサンギウム細胞、xtaglomerular 細胞、ケラチノサイト、腎近位尿細管ブラシボーダー細胞、Kupffer 細胞、乳酸性細胞、Leydig 細胞。マクロファージ、黄斑変性細胞、マスト細胞、巨核球、メラノサイト、小胞体細胞、単球、ナチュラルキラー細胞、ナチュラルキラーT細胞、輝細胞、好中球、骨芽細胞、破骨細胞、骨細胞。オキシフィル細胞(副甲状腺)、パネス細胞、傍濾胞細胞、パラソル細胞、副甲状腺長細胞、頭頂細胞、傍細胞神経分泌細胞、ペグ細胞、周皮細胞、管状ミオイド細胞、血小板、ポドサイト制御性T細胞、網状細胞、網膜双極細胞網膜水平細胞、網膜神経節細胞、網膜前駆細胞、センチネル細胞、セルトリ細胞、体細胞栄養細胞、体細胞栄養細胞、星状細胞、サステナ細胞、T細胞、Tヘルパー細胞、テロサイト、腱細胞、チロトロピック細胞、移行性B細胞、トリコサイト(ヒト)、房細胞、単極ブラシセル、白血球、ゼルバーレン又はこれらの任意の組み合わせが挙げられる。いくつかのそのような実施形態では、細胞源のそのような細胞は、健康である。代替の実施形態では、細胞源のそのような細胞は、癌に罹患している。
【0405】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、そのような細胞型が単一の器官に由来することを条件として、細胞型の任意の組み合わせである。いくつかのそのような実施形態では、この単一器官は、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭/首、卵巣、肝臓、子宮頸、甲状腺、膀胱、又は胃である。いくつかの実施形態では、この単一臓器は健康である。代替的な実施形態では、この単一器官は、単一器官に由来する癌に悩まされている。さらに別の実施形態では、この単一器官は、単一器官以外の器官に由来し、単一器官に転移した癌に罹患している。
【0406】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、そのような細胞型が器官の所定のセットに由来することを条件として、細胞型の任意の組み合わせである。いくつかのそのような実施形態では、この所定の器官のセットは、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭/首、卵巣、肝臓、子宮頸、甲状腺、膀胱及び胃のセット内の任意の2つの器官である。いくつかの実施形態では、この所定の臓器のセットは健康である。代替的な実施形態では、この所定の臓器のセットは、所定の臓器のセット内の臓器の1つに由来する癌に悩まされている。さらに別の実施形態では、この所定の器官のセットは、所定の器官のセット以外の器官に由来し、所定の器官のセットに転移した癌に罹患している。
【0407】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、そのような細胞型が器官の所定のセットに由来することを条件として、細胞型の任意の組み合わせである。いくつかのそのような実施形態では、この所定の器官のセットは、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭/首、卵巣、肝臓、子宮頸、甲状腺、膀胱及び胃のセット中の任意の3つの器官である。いくつかの実施形態では、この所定の臓器のセットは健康である。代替的な実施形態では、この所定の臓器のセットは、所定の臓器のセット内の臓器の1つに由来する癌に悩まされている。さらに別の実施形態では、この所定の器官のセットは、所定の器官のセット以外の器官に由来し、所定の器官のセットに転移した癌に罹患している。
【0408】
いくつかの実施形態では、本開示の任意の実施形態の細胞源は、そのような細胞型が器官の所定のセットに由来することを条件として、細胞型の任意の組み合わせである。いくつかのそのような実施形態では、この所定の器官のセットは、乳房、肺、前立腺、結腸/直腸、腎臓、子宮、膵臓、食道、血液、頭/首、卵巣、肝臓、子宮頸、甲状腺、膀胱及び胃のセット中の任意の4つの器官、5つの器官、6つの器官、又は7つの器官である。いくつかの実施形態では、この所定の臓器のセットは健康である。代替的な実施形態では、この所定の臓器のセットは、所定の臓器のセット内の臓器の1つに由来する癌に悩まされている。さらに別の実施形態では、この所定の器官のセットは、所定の器官のセット以外の器官に由来し、所定の器官のセットに転移した癌に罹患している。
【0409】
いくつかの具体的な実施形態では、本開示の任意の実施形態の細胞源は、白血球である。いくつかのそのような実施形態では、細胞源は、好中球、好酸球、好塩基球、リンパ球、Bリンパ球、Tリンパ球、細胞障害性T細胞、単球、またはそれらの任意の組合せである。
【0410】
結論
【0411】
複数のインスタンスは、単一のインスタンスとして本明細書で説明されるコンポーネント、操作または構造に対して提供されるかもしれない。最後に、様々なコンポーネント、操作、およびデータストアの間の境界は、多少任意であり、特定の操作は、特定の例示的な構成の文脈で説明される。他の機能の割り当てが想定され、実装の範囲に入る可能性がある。一般に、例示的な構成において別々のコンポーネントとして示された構造および機能は、結合された構造またはコンポーネントとして実装されてもよい。同様に、単一のコンポーネントとして提示された構造および機能は、別々のコンポーネントとして実装されてもよい。これらおよび他の変形、修正、追加、および改善は、実装(複数可)の範囲に含まれる。
【0412】
また、本明細書では、様々な要素を説明するために第1、第2などの用語を使用することがあるが、これらの要素はこれらの用語によって限定されるべきではないことが理解されるであろう。これらの用語は、1つの要素を別の要素から区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第1の主題を第2の主題と称することができ、同様に、第2の主題を第1の主題と称することができる。第1の被写体及び第2の被写体は、いずれも被写体であるが、同一の被写体ではない。
【0413】
本開示で使用される用語は、特定の実施形態を説明する目的のみのものであり、本発明を限定することを意図するものではない。本発明の説明及び添付の特許請求の範囲で使用されるように、単数形「a」、「an」及び「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。また、本明細書で使用される「及び/又は」という用語は、関連する列挙された項目の1つ以上の任意の及び全ての可能な組み合わせを指し、包含することが理解されるであろう。本明細書で使用される場合、用語「comprises」及び/又は「comprising」は、記載された特徴、整数、ステップ、操作、要素、及び/又は成分の存在を規定するが、1つ以上の他の特徴、整数、ステップ、操作、要素、成分、及び/又はそれらの群の存在又は追加を排除しないことはさらに理解されよう。
【0414】
本明細書で使用される場合、用語「もし」は、文脈に応じて、「いつ」または「時に」または「決定に応答して」または「検出することに応答して」を意味すると解釈される場合がある。同様に、「決定されれば」または「[述べられた条件または事象]が検出されれば」という語句は、文脈に応じて、「決定時に」または「決定に応答して」または「(述べられた条件または事象)を検出する際に」または「(述べられた条件または事象)を検出することに応答して」を意味すると解釈され得る。
【0415】
前述の説明には、例示的な実装を具現化する例示的なシステム、方法、技術、命令列、および計算機プログラム製品が含まれていた。説明のために、発明的主題の様々な実装の理解を提供するために、多数の具体的な詳細が示された。しかし、当業者には、本発明主題の実装は、これらの具体的な詳細なしに実施され得ることが明らかであろう。一般に、よく知られた命令例、プロトコル、構造及び技術は詳細に示されていない。
【0416】
前述の説明は、説明のために、特定の実施態様を参照して説明されている。しかしながら、上記の例示的な議論は、網羅的であること、または実施態様を開示された正確な形態に限定することを意図していない。多くの修正および変形が、上記の教示に鑑みて可能である。実施態様は、原理およびその実用的な応用を最もよく説明し、それによって当業者が、企図される特定の使用に適するように、実施態様および様々な修正を加えた様々な実施態様を最もよく利用できるように、選択および記述されたものである。
【国際調査報告】