(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-10
(54)【発明の名称】疾患分類のための長い無細胞DNA分子を用いた分子分析
(51)【国際特許分類】
C12Q 1/68 20180101AFI20241203BHJP
C12Q 1/6809 20180101ALI20241203BHJP
C12Q 1/6869 20180101ALI20241203BHJP
C12Q 1/6886 20180101ALI20241203BHJP
C12Q 1/6883 20180101ALI20241203BHJP
C12M 1/34 20060101ALI20241203BHJP
C12M 1/00 20060101ALI20241203BHJP
G16B 40/10 20190101ALN20241203BHJP
【FI】
C12Q1/68
C12Q1/6809 Z
C12Q1/6869 Z
C12Q1/6886 Z
C12Q1/6883 Z
C12M1/34 Z
C12M1/34 B
C12M1/00 A
G16B40/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024531285
(86)(22)【出願日】2022-11-24
(85)【翻訳文提出日】2024-05-31
(86)【国際出願番号】 CN2022133878
(87)【国際公開番号】W WO2023093782
(87)【国際公開日】2023-06-01
(32)【優先日】2021-11-24
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】524195802
【氏名又は名称】センター フォー ノヴォスティクス
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ロー, ユク-ミン デニス
(72)【発明者】
【氏名】チウ, ロッサ ワイ クゥン
(72)【発明者】
【氏名】チャン, クワン チー
(72)【発明者】
【氏名】ジアン, ペイヨン
(72)【発明者】
【氏名】チョイ, ロク イー
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB11
4B029BB20
4B029FA03
4B029FA15
4B063QA13
4B063QA19
4B063QQ03
4B063QQ08
4B063QQ42
4B063QR32
4B063QR56
4B063QS25
4B063QS34
4B063QS36
4B063QX02
(57)【要約】
本明細書に記載の方法及びシステムは、無細胞DNA分子の様々な特徴を使用して生体サンプル又は対象の特性を特定することを含む。かかる特徴は、サイズ(例えば、長い無細胞DNA分子を特徴とする場合)、メチル化、及び末端モチーフを含み得る。前記方法は、疾患分類の特定及び/又は起源組織の予測を含む。いくつかの実例において、前記方法は、長い無細胞DNA分子の量の特定を含み、前記疾患分類は、前記特定された量を基礎としてもよい。前記方法は、無細胞DNA分子のメチル化パターンを同定し、そして前記メチル化パターンを参照パターンと比較して前記組織起源を予測することも含み得る。いくつかの実例において、前記メチル化パターン分析は、訓練された機械学習モデルを使用することを含む。前記特徴は、1つ又は複数の末端モチーフを有する配列の相対頻度も含み得、該特徴で前記相対頻度を参照頻度と比較して疾患分類を特定することができる。
【特許請求の範囲】
【請求項1】
対象の生体サンプルを分析する方法であって、
前記対象の前記生体サンプルからの複数の無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取るステップであって、前記配列リードの各々が前記配列リード上の1組の部位でのメチル化状態のメチル化パターンを含むステップと、
前記配列リードの各々について、
前記メチル化パターンを第1参照メチル化パターンと比較し、前記第1参照メチル化パターンが複数の組織型の第1組織型に対応し、そして
前記メチル化パターンと前記第1参照メチル化パターンの比較に基づき、前記配列リードの組織分類を前記複数の組織型の1つに由来すると特定するステップと、
前記配列リードの前記組織分類に基づいて前記生体サンプルの疾患の分類を特定するステップと、を含む、前記方法。
【請求項2】
前記疾患の分類を特定するステップは、
前記第1組織型に由来すると分類された配列リードの第1量を特定するステップと、
前記第1量に基づいて前記生体サンプルの疾患の分類を特定するステップと、を含む、請求項1に記載の方法。
【請求項3】
前記第1量に基づいて前記生体サンプルの疾患の分類を特定するステップは、前記第1量をカットオフ値と比較するステップを含む、請求項2に記載の方法。
【請求項4】
前記カットオフ値は前記疾患の分類が既知の参照サンプルに基づいて決定される、請求項3に記載の方法。
【請求項5】
前記疾患の分類を特定するステップは、機械学習モデルを前記第1量に適用して前記疾患の分類を示す出力を生成するステップを含む、請求項3に記載の方法。
【請求項6】
前記機械学習モデルは前記疾患の分類が既知の訓練サンプルを使用して訓練される、請求項5に記載の方法。
【請求項7】
前記配列リードの各々について、
前記メチル化パターンを1つ又は複数の他の組織型に対応する1つ又は複数の他の参照メチル化パターンと比較するステップと、
1つ又は複数の他の組織型に由来すると分類された配列リードの1つ又は複数の他の量を特定するステップと、
更に前記1つ又は複数の他の量に基づいて前記生体サンプルの疾患の分類を特定するステップと、を更に含む、請求項1から6のいずれか1項に記載の方法。
【請求項8】
前記第1組織型は疾患組織型である、請求項1から7のいずれか1項に記載の方法。
【請求項9】
前記第1組織型は前記疾患に関連する、請求項1から7のいずれか1項に記載の方法。
【請求項10】
前記疾患は癌である、請求項1から9のいずれか1項に記載の方法。
【請求項11】
前記疾患の分類を特定するステップは、前記癌の血管浸潤の有無を判定するステップを含む、請求項10に記載の方法。
【請求項12】
前記配列リードの位置を特定するステップを更に含み、前記第1参照メチル化パターンが前記位置に対応する、請求項1から11のいずれか1項に記載の方法。
【請求項13】
前記メチル化パターンは前記1組の部位の部位対間の塩基の数を含む、請求項1から12のいずれか1項に記載の方法。
【請求項14】
前記組織分類は前記配列リードが前記複数の組織型の1つに由来する確率を含む、請求項1から13のいずれか1項に記載の方法。
【請求項15】
前記疾患の分類は前記疾患の重篤度を同定する、請求項1から14のいずれか1項に記載の方法。
【請求項16】
前記疾患の前記重篤度は前記疾患の複数の病期から選択される病期を含む、請求項15に記載の方法。
【請求項17】
前記第1参照メチル化パターンは第1組織型の参照組織の複数の部位を含み、前記複数の部位の各々が前記部位でのメチル化指数を同定する、請求項1から16のいずれか1項に記載の方法。
【請求項18】
前記メチル化パターンを前記第1参照メチル化パターンと比較するステップは、
前記メチル化パターンの前記1組の部位の各部位について、
前記部位のメチル化状態と前記第1参照メチル化パターンの対応する部位の前記メチル化指数との間の類似度メトリックを決定するステップと、
前記決定された類似度メトリックに基づいて前記配列リードの集計値を決定するステップと、を含む、請求項17に記載の方法。
【請求項19】
前記類似度メトリックは、前記部位の前記メチル化状態を表す2進値と前記対応する部位の前記メチル化指数との差に基づいて決定される、請求項18に記載の方法。
【請求項20】
前記集計値は、前記決定された類似度メトリックの合計、代表値、又は中央値である、請求項18又は19に記載の方法。
【請求項21】
前記複数の組織型の1つは、前記第1組織型を含み、前記配列リードの前記組織分類を前記複数の組織型の1つに由来すると特定するステップは、
前記第1参照メチル化パターンについて決定された前記集計値が第2参照メチル化パターンについて決定された別の集計値より大きいと特定するステップであって、前記第2参照メチル化パターンが前記複数の組織型の他の組織型に対応するステップと、
前記配列リードの前記組織分類を前記第1組織型に由来すると特定するステップと、を含む、請求項18から20のいずれか1項に記載の方法。
【請求項22】
前記複数の組織型の1つは、前記複数の組織型の他の組織型の1つを含み、前記配列リードの前記組織分類を前記複数の組織型の1つに由来すると特定するステップは、
前記第1参照メチル化パターンについて決定された前記集計値が第2参照メチル化パターンについて決定された別の集計値より小さいと特定するステップであって、前記第2参照メチル化パターンが前記他の組織型の1つに対応するステップと、
前記配列リードの前記組織分類を前記他の組織型の1つに由来すると特定するステップと、を含む、請求項18から20のいずれか1項に記載の方法。
【請求項23】
複数の参照メチル化パターンは、前記第1参照メチル化パターンを含み、前記複数の参照メチル化パターンの各々が前記複数の組織型の特定の組織型に対応し、前記方法は、
前記配列リードの各々について、
前記複数の参照メチル化パターンの各参照メチル化パターンに対して、
前記メチル化パターンを前記参照メチル化パターンと比較し、そして
前記メチル化パターンと前記参照メチル化パターンの比較に基づき、前記配列リードの前記組織分類を前記複数の組織型の1つに由来すると特定するステップと、
前記第1組織型の前記組織分類と関連している配列リードの最大量の特定に基づいて前記生体サンプルの疾患の分類を特定するステップと、を更に含む、請求項1から22のいずれか1項に記載の方法。
【請求項24】
前記複数の組織型は2つの組織型を含み、前記第1組織型が疾患組織型であり、第2組織型が非疾患組織型である、請求項1から23のいずれか1項に記載の方法。
【請求項25】
前記疾患は癌である、請求項1から24のいずれか1項に記載の方法。
【請求項26】
前記癌は肝細胞癌、肺癌、乳癌、胃癌、多形性膠芽腫、膵臓癌、結腸直腸癌、鼻咽頭癌、又は頭頸部扁平上皮癌の1つである、請求項25に記載の方法。
【請求項27】
対象の生体サンプルを分析する方法であって、
前記対象の前記生体サンプルからの無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取るステップであって、前記配列リードの各々が前記配列リード上の1組の部位でのメチル化状態のメチル化パターンを含むステップと、
前記配列リードの各々について、
第1組織型由来であるとラベル付けされた配列リードの第1訓練セット及び1つ又は複数の他の組織型由来であるとラベル付けされた配列リードの第2訓練セットを使用して訓練された機械学習モデルに前記配列リードの前記メチル化パターンを入力し、そして
前記機械学習モデルの出力に基づき、前記配列リードが前記第1組織型に由来するか否かの分類を特定するステップと、
前記分類を使用して前記第1組織型の特性を特定するステップと、を含む、前記方法。
【請求項28】
前記分類を使用して前記第1組織型の特性を特定するステップは、
前記第1組織型に由来すると分類された配列リードの第1量を特定するステップと、
前記第1量に基づいて前記第1組織型の前記生体サンプルの疾患の分類を特定するステップと、を含む、請求項27に記載の方法。
【請求項29】
前記配列リードを前記機械学習モデルに入力するステップを更に含む、請求項27又は28に記載の方法。
【請求項30】
塩基及びメチル化状態のワンホットエンコーディングの行列を形成するステップを更に含む、請求項27から29のいずれか1項に記載の方法。
【請求項31】
前記機械学習モデルは畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)を含む、請求項27から30のいずれか1項に記載の方法。
【請求項32】
配列リードの前記第1又は第2訓練セットは1つ又は複数の示差的にメチル化された領域(DMR)から取得される、請求項27から31のいずれか1項に記載の方法。
【請求項33】
前記配列リードの位置を特定するステップを更に含み、前記位置も前記機械学習モデルに入力される、請求項27から32のいずれか1項に記載の方法。
【請求項34】
前記メチル化パターンは前記1組の部位の部位対間の塩基の数を含む、請求項27から33のいずれか1項に記載の方法。
【請求項35】
前記第1組織型の前記特性は前記第1組織型に由来すると分類された配列リードの量を同定する、請求項27から34のいずれか1項に記載の方法。
【請求項36】
前記第1組織型の前記特性は前記第1組織型に関連する疾患の疾患状態を同定する、請求項27から34のいずれか1項に記載の方法。
【請求項37】
前記疾患は癌である、請求項36に記載の方法。
【請求項38】
前記第1組織型の前記特性は前記第1組織型に関連する前記疾患の予測予後を更に同定する、請求項36に記載の方法。
【請求項39】
前記疾患は癌であり、
前記予測予後は前記癌に関連する血管浸潤の存在を含む、請求項38に記載の方法。
【請求項40】
前記1つ又は複数の他の組織型はT細胞、B細胞、好中球、肺組織、又は肝臓を含む、請求項27から39のいずれか1項に記載の方法。
【請求項41】
各配列リードの前記1組の部位は、少なくとも3つの部位を含む、請求項1から40のいずれか1項に記載の方法。
【請求項42】
対象の生体サンプルを分析する方法であって、
前記対象の前記生体サンプルからの無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取るステップであって、前記配列リードの各々が前記配列リード上の1組の部位でのメチル化状態のメチル化パターンを含むステップと、
第1配列リードの位置を同定するステップと、
前記位置に対応する前記第1配列リードにおけるバリアントを検出するステップと、
前記第1配列リードの前記メチル化パターンを使用して前記バリアントの起源組織を特定するステップと、を含む、前記方法。
【請求項43】
前記起源組織を特定するステップは、
前記メチル化パターンを前記位置での第1参照メチル化パターンと比較するステップであって、前記第1参照メチル化パターンが疾患の疾患組織型に対応するステップと、
前記メチル化パターンと前記第1参照メチル化パターンの比較に基づき、前記第1配列リードを複数の組織型の1つに由来すると分類するステップと、を含む、請求項42に記載の方法。
【請求項44】
前記起源組織を特定するステップは、
前記位置及び前記メチル化パターンを、第1組織型由来であるとラベル付けされた配列リードの第1訓練セット及び1つ又は複数の他の組織型由来であるとラベル付けされた配列リードの第2訓練セットを使用して訓練された機械学習モデルに入力するステップと、
前記機械学習モデルの出力に基づき、前記第1配列リードが前記第1組織型に由来するか否かを特定するステップと、を含む、請求項42に記載の方法。
【請求項45】
前記バリアントはマイクロサテライト拡張、挿入、欠失、構造変異、配列重複、増幅、再構成、転位、反転、及び/又は微小欠失である、請求項42から44のいずれか1項に記載の方法。
【請求項46】
対象の生体サンプルを分析する方法であって、
前記対象の前記生体サンプルからの無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取るステップであって、前記配列リードの各々が前記配列リード上の1組の部位でのメチル化状態のメチル化パターンを含むステップと、
第1配列リードの位置を同定するステップと、
前記位置に対応する前記第1配列リードにおけるバリアントを検出するステップと、
前記第1配列リードの前記メチル化パターン及び前記バリアントを使用して癌の分類を特定するステップと、を含む、前記方法。
【請求項47】
前記バリアントは分類が既知の癌に関連し、前記メチル化パターンはメチル化レベルであり、前記癌の分類を特定するステップは、
前記第1配列リードの前記1組の部位のメチル化状態に基づいて前記第1配列リードの前記メチル化レベルを特定するステップと、
前記第1配列リードの前記メチル化レベルを閾値と比較するステップであって、前記閾値が、癌の分類が既知の参照サンプルのメチル化レベルに基づいて決定されるステップと、
前記バリアント及び前記メチル化レベルが前記閾値を超える判定に基づいて前記癌の分類を特定するステップと、を含む、請求項46に記載の方法。
【請求項48】
前記配列リードのそれぞれの位置を同定するステップと、
前記配列リードから複数の配列リードを決定するステップであって、前記複数の配列リードの各配列リードが前記第1配列リードの同じ位置由来であり、前記バリアントを含み、前記複数の配列リードが前記第1配列リードを含むステップと、を更に含み、
前記癌の分類を特定するステップは、
前記複数の配列リードの集計メチル化レベルを特定するステップと、
前記複数の配列リードの前記集計メチル化レベルを閾値と比較するステップであって、前記閾値が、癌の分類が既知の参照サンプルのメチル化レベルに基づいて決定されるステップと、
前記バリアント及び前記集計メチル化レベルが前記閾値を超える判定に基づいて前記癌の分類を特定するステップと、を更に含む、請求項46に記載の方法。
【請求項49】
前記複数の配列リードの集計メチル化レベルを特定するステップは、
前記複数の配列リードの各配列リードについて、前記配列リードの前記1組の部位のメチル化状態に基づいてメチル化レベルを特定するステップと、
前記複数の配列リードのメチル化レベルに基づいて集計値を決定するステップであって、前記集計値が前記集計メチル化レベルであるステップと、を含む、請求項48に記載の方法。
【請求項50】
前記集計値は、前記複数の配列リードの前記特定されたメチル化レベルの代表値、合計、又は中央値である、請求項49に記載の方法。
【請求項51】
前記複数の配列リードの前記位置は特定のハプロタイプの位置である、請求項49に記載の方法。
【請求項52】
前記バリアントは前記特定のハプロタイプでのDNA分子の増幅又は欠失である、請求項51に記載の方法。
【請求項53】
前記メチル化レベルが前記閾値を超える判定は、前記メチル化レベルが前記閾値未満であると特定することを含む、請求項47又は48に記載の方法。
【請求項54】
前記位置での高メチル化は前記分類が既知の癌に関連し、前記メチル化レベルが前記閾値を超える判定は、前記メチル化レベルが前記閾値より高いと特定することを含む、請求項47又は48に記載の方法。
【請求項55】
前記癌は特定の組織型であると特定される、請求項46に記載の方法。
【請求項56】
前記癌の分類を特定するステップは、
前記第1配列リードの前記位置及び前記メチル化パターンを、癌細胞由来であるとラベル付けされた配列リードの第1訓練セット及び正常細胞由来であるとラベル付けされた配列リードの第2訓練セットを使用して訓練された機械学習モデルに入力するステップと、
前記機械学習モデルの出力に基づき、前記第1配列リードが前記癌細胞に由来するか否かを判定するステップと、を含む、請求項46に記載の方法。
【請求項57】
前記メチル化パターンは前記生体サンプルの全体的なメチル化レベルである、請求項46から56のいずれか1項に記載の方法。
【請求項58】
前記癌の分類を特定するステップは、前記メチル化パターンを癌に関連する参照メチル化パターンと比較するステップを含む、請求項46から57のいずれか1項に記載の方法。
【請求項59】
前記バリアントは、マイクロサテライト拡張、挿入、欠失、構造変異、配列重複、増幅、再構成、転位、及び/又は反転である、請求項46から58のいずれか1項に記載の方法。
【請求項60】
前記第1配列リードは、サイズ範囲内のサイズを有し、前記サイズ範囲の下限は、少なくとも500bp、600bp、1kbp、2kbp、3kbp、4kbp、5kbp、6kbp、7kbp、8kbp、9kbp、又は10kbpのうちの1つである、請求項42から59のいずれか1項に記載の方法。
【請求項61】
前記第1配列リードの前記1組の部位は少なくとも3つの部位を含む、請求項42から60のいずれか1項に記載の方法。
【請求項62】
前記第1配列リードの前記位置を同定するステップは、前記第1配列リードを参照配列にアライメントするステップを含み、前記第1配列リードにおける前記バリアントが前記位置での前記参照配列に対するものである、請求項42から61のいずれか1項に記載の方法。
【請求項63】
前記第1配列リードの前記位置を同定するステップは、前記第1配列リードを参照配列にアライメントするステップを含み、前記第1配列リードにおける前記バリアントが前記対象の生得的ゲノムに対するものである、請求項42から61に記載の方法。
【請求項64】
前記メチル化認識配列決定は亜硫酸水素塩処理を含まない、請求項1から63のいずれか1項に記載の方法。
【請求項65】
前記メチル化認識配列決定は亜硫酸水素塩処理を含む、請求項1から63のいずれか1項に記載の方法。
【請求項66】
対象の生体サンプルを分析する方法であって、前記生体サンプルが正常細胞を起源とするDNA、及び場合によっては癌に関連する細胞を起源とするDNAを含み、前記DNAの少なくとも一部が前記生体サンプルにおいて無細胞であり、
前記生体サンプルからの複数の無細胞DNA分子のサイズを測定するステップと、
第1サイズ範囲内のサイズを有する無細胞DNA分子の第1量を測定するステップであって、前記第1サイズ範囲の上限が少なくとも1,000塩基であるステップと、
前記第1量を使用して、正規化されたパラメーターの値を生成するステップと、
前記正規化されたパラメーターを使用して癌のレベルの分類を特定するステップと、を含む、前記方法。
【請求項67】
前記第1サイズ範囲はゼロより大きい下限を含む、請求項66に記載の方法。
【請求項68】
前記生体サンプルからの前記複数の無細胞DNA分子の配列決定から取得された配列リードを受け取るステップと、
前記配列リードの各々について、対応する無細胞DNA分子の1つ又は複数の終了配列の各々の配列モチーフを特定するステップと、
終了配列における1組の1つ又は複数の配列モチーフの少なくとも1つを有する前記複数の無細胞DNA分子の群を同定するステップと、を更に含み、
前記第1量は前記複数の無細胞DNA分子の群のサブグループから特定され、前記無細胞DNA分子のサブグループは前記第1サイズ範囲内のサイズを有する、請求項66又は67に記載の方法。
【請求項69】
前記1組の1つ又は複数の配列モチーフはCCCAを含む、請求項68に記載の方法。
【請求項70】
前記下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択される、請求項67に記載の方法。
【請求項71】
前記第1サイズ範囲の上限は少なくとも3,000塩基である、請求項66から70のいずれか1項に記載の方法。
【請求項72】
前記癌のレベルの分類は前記癌の組織学的状態の分類を含む、請求項66から71のいずれか1項に記載の方法。
【請求項73】
前記癌の組織学的状態は癌の血管浸潤の存在を含む、請求項72に記載の方法。
【請求項74】
前記生体サンプルからの複数の無細胞DNA分子のサイズを測定するステップは、
前記複数の無細胞DNA分子の単一分子リアルタイム配列決定又はナノポア配列決定を行うステップと、
前記複数の無細胞DNA分子の各無細胞DNA分子中のヌクレオチドの数を計数するステップと、を含む、請求項66から74のいずれか1項に記載の方法。
【請求項75】
前記正規化されたパラメーターは、前記第1サイズ範囲内のサイズを有する前記無細胞DNA分子の相対頻度を含む、請求項66から75のいずれか1項に記載の方法。
【請求項76】
前記正規化されたパラメーターは、第2サイズ範囲内のサイズを有する無細胞DNA分子の第2量を使用して決定され、前記第1サイズ範囲と前記第2サイズ範囲が異なる、請求項66から75のいずれか1項に記載の方法。
【請求項77】
前記癌のレベルの分類を特定するステップは、前記正規化されたパラメーターをカットオフ値と比較するステップを含む、請求項66から76のいずれか1項に記載の方法。
【請求項78】
前記カットオフ値は癌分類が既知の参照サンプルを使用して決定される、請求項77に記載の方法。
【請求項79】
前記正規化されたパラメーターをカットオフ値と比較するステップは、機械学習モデルを使用して前記正規化されたパラメーターを前記カットオフ値と比較するステップを含み、前記カットオフ値が、癌のレベルの分類が既知の参照サンプルを含む1つ又は複数の訓練データセットを使用して決定される、請求項77に記載の方法。
【請求項80】
対象の生体サンプルを分析する方法であって、
前記対象の前記生体サンプルからの無細胞DNA分子の配列決定から取得された配列リードを受け取るステップと、
前記配列リードの各々について、対応する無細胞DNA分子の1つ又は複数の終了配列の各々の配列モチーフを特定するステップと、
1組のN個の配列モチーフの各々について、
前記配列モチーフの相対頻度を特定することで、N個の相対頻度を特定するステップと、
前記N個の相対頻度を使用して、それぞれが互いに正規化された又は参照サンプルの群内の配列モチーフの他の頻度に正規化されたN個の頻度のベクターを生成するステップと、
前記N個の頻度のベクターを疾患の分類が既知の参照サンプルの群から決定された複数の参照ベクターと比較するステップと、
前記N個の頻度のベクターと前記複数の参照ベクターの比較に基づいて前記生体サンプルの疾患の分類を特定するステップと、を含む、前記方法。
【請求項81】
前記N個の頻度のベクターの頻度はzスコアである、請求項80に記載の方法。
【請求項82】
前記N個の頻度のベクターを複数の参照ベクターと比較するステップは、前記複数の参照ベクターに機械学習モデルを適用して1組のクラスターを生成するステップを含み、前記1組のクラスターの各クラスターが前記複数の参照ベクターの1つ又は複数の参照ベクターを含む、請求項80又は81に記載の方法。
【請求項83】
前記分類を特定するステップは、
前記N個の頻度のベクターと前記1組のクラスターの参照ベクターの第1クラスターの最も近い参照ベクターとの第1距離を特定するステップであって、前記参照ベクターの第1クラスターが前記疾患を有すると分類された参照サンプルの群の第1サブグループを表すステップと、
前記N個の頻度のベクターと前記1組のクラスターの参照ベクターの第2クラスターの最も近い参照ベクターとの第2距離を特定するステップであって、前記参照ベクターの第2クラスターが前記疾患を有さないと分類された参照サンプルの群の第2サブグループを表すステップと、
前記第1距離が前記第2距離未満であると特定するステップと、
前記第1距離が前記第2距離より大きい判定に基づいて前記対象が前記疾患を有さないと特定するステップと、を含む、請求項82に記載の方法。
【請求項84】
前記分類を特定するステップは、
前記N個の頻度のベクターと前記1組のクラスターの参照ベクターの第1クラスターの最も近い参照ベクターとの第1距離を特定するステップであって、前記参照ベクターの第1クラスターが、前記疾患を有すると分類された参照サンプルの群の第1サブグループを表すステップと、
前記N個の頻度のベクターと前記1組のクラスターの参照ベクターの第2クラスターの最も近い参照ベクターとの第2距離を特定するステップであって、前記参照ベクターの第2クラスターが前記疾患を有さないと分類された参照サンプルの群の第2サブグループを表すステップと、
前記第1距離が前記第2距離未満であると特定するステップと、
前記第1距離が前記第2距離未満である判定に基づいて前記対象が前記疾患を有すると特定するステップと、を含む、請求項82に記載の方法。
【請求項85】
前記相対頻度は、前記生体サンプルからの前記無細胞DNA分子に対する、前記配列モチーフに対応する終了配列を有する無細胞DNA分子の割合に基づいて決定される、請求項80から84のいずれか1項に記載の方法。
【請求項86】
前記相対頻度は、前記1組のN個の配列モチーフの他の配列モチーフに対応する終了配列を有する無細胞DNA分子の数に対する、前記配列モチーフに対応する終了配列を有する無細胞DNA分子の割合に基づいて決定される、請求項80から84のいずれか1項に記載の方法。
【請求項87】
前記相対頻度は前記配列モチーフの順位である、請求項80から86のいずれか1項に記載の方法。
【請求項88】
前記配列モチーフの前記順位は、前記配列モチーフに対応する終了配列を有する前記無細胞DNA分子の個数に基づいて決定される、請求項87に記載の方法。
【請求項89】
前記N個の頻度のベクターを生成するステップは、前記参照サンプルの群内の前記配列モチーフの他の頻度を使用して前記配列モチーフの前記相対頻度を正規化するステップを含む、請求項80から88のいずれか1項に記載の方法。
【請求項90】
前記N個の頻度のベクターにおける各頻度は、前記相対頻度を前記参照サンプルの群内の前記配列モチーフの平均頻度と比較することによって決定される、請求項89に記載の方法。
【請求項91】
対象の生体サンプルを分析する方法であって、
前記対象の前記生体サンプルからの無細胞DNA分子の配列決定から取得された配列リードを受け取るステップと、
前記配列リードを使用して前記無細胞DNA分子のサイズを特定するステップと、
前記配列リードの各々について、対応する無細胞DNA分子の1つ又は複数の終了配列の各々の配列モチーフを決定するステップと、
第1サイズ範囲を有する前記無細胞DNA分子の第1組について、前記無細胞DNA分子の前記第1組内の1つ又は複数の配列モチーフの出現の第1相対頻度を特定するステップと、
第2サイズ範囲を有する前記無細胞DNA分子の第2組について、前記無細胞DNA分子の前記第2組内の1つ又は複数の配列モチーフの出現の第2相対頻度を特定するステップであって、前記第2サイズ範囲が、前記第1サイズ範囲の上限より大きい上限を有するステップと、
前記第1相対頻度と前記第2相対頻度の分離値を特定するステップと、
前記分離値を使用して疾患の分類を特定するステップと、を含む、前記方法。
【請求項92】
前記分類を特定するステップは、前記分離値を1つ又は複数のカットオフ値と比較するステップを含む、請求項91に記載の方法。
【請求項93】
前記1つ又は複数のカットオフ値のうちのカットオフ値は、前記疾患の分類が既知の参照サンプルを使用して決定される、請求項92に記載の方法。
【請求項94】
前記1つ又は複数のカットオフ値のうちのカットオフ値は0.6、0.65、0.7、又は0.75のうちの1つである、請求項92に記載の方法。
【請求項95】
前記疾患の分類は、前記疾患の重篤度の分類を含む、請求項91から93のいずれか1項に記載の方法。
【請求項96】
前記疾患の重篤度は、前記疾患の複数の病期から選択される病期を含む、請求項95に記載の方法。
【請求項97】
前記第1サイズ範囲は上限を含む、請求項91から96のいずれか1項に記載の方法。
【請求項98】
前記上限は、少なくとも80塩基、少なくとも100塩基、少なくとも150塩基、少なくとも200塩基、又は少なくとも300塩基のうちの1つから選択される、請求項97に記載の方法。
【請求項99】
前記第2サイズ範囲は下限を含む、請求項91から98のいずれか1項に記載の方法。
【請求項100】
前記下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択される、請求項99に記載の方法。
【請求項101】
前記分離値は前記第1相対頻度と前記第2相対頻度の比率値である、請求項91から100のいずれか1項に記載の方法。
【請求項102】
前記分離値を使用して疾患の分類を特定するステップは、前記分離値に機械学習モデルを適用して前記疾患の分類を示す出力を生成するステップを含む、請求項91から101のいずれか1項に記載の方法。
【請求項103】
前記機械学習モデルは前記疾患の分類が既知の訓練サンプルを使用して訓練される、請求項102に記載の方法。
【請求項104】
前記機械学習モデルは、畳み込みニューラルネットワーク(CNN)、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば、完全結合型リカレントニューラルネットワーク(RNN)、ゲートリカレントユニット(GRU)、長短期記憶(LSTM))、トランスフォーマーベースの方法(例えばXLNet、BERT、XLM、RoBERTa)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、K平均クラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、適応ブースティング(AdaBoost)、極端勾配ブースティング(XGBoost)、サポートベクターマシン(SVM)、又は上記の機械学習モデルの1つ又は複数を含む複合モデルのうちの1つから選択される、請求項102に記載の方法。
【請求項105】
前記第1相対頻度は、前記生体サンプルからの前記無細胞DNA分子に対する、第1組の前記無細胞DNA分子の割合である、請求項91から104のいずれか1項に記載の方法。
【請求項106】
前記第1相対頻度は、他の配列モチーフを有する無細胞DNA分子の数に対する、第1組の前記無細胞DNA分子の割合である、請求項91から104のいずれか1項に記載の方法。
【請求項107】
対象の生体サンプルを分析する方法であって、
無細胞DNA分子の配列決定から取得された配列リードを受け取るステップと、
前記配列リードの各々について、
前記配列リードの1つ又は複数の特徴を、第1組織型由来であるとラベル付けされた配列リードの第1訓練セット及び1つ又は複数の他の組織型由来であるとラベル付けされた配列リードの第2訓練セットを使用して訓練された機械学習モデルに入力し、そして
前記機械学習モデルの出力に基づき、前記配列リードが前記第1組織型に由来するか否かの組織分類を特定するステップと、
前記第1組織型に由来すると分類された配列リードの第1量を特定するステップと、
前記第1量に基づいて前記第1組織型の前記生体サンプルの第1疾患の分類を特定するステップと、を含む、前記方法。
【請求項108】
前記1つ又は複数の特徴は、参照ゲノムにおける末端の位置、配列構成、サイズ、1つ又は複数の末端での配列モチーフ、及びDNAメチル化パターンから選択される少なくとも1つを含む、請求項107に記載の方法。
【請求項109】
前記1つ又は複数の特徴は、前記配列リードの配列構成を含み、前記配列構成が前記配列リードのヌクレオチド塩基組成及び/又はヌクレオチド塩基順序を含む、請求項108に記載の方法。
【請求項110】
前記1つ又は複数の特徴は、前記配列リードの末端の位置を含み、前記末端の位置を特定するステップは、前記配列リードを前記参照ゲノムにアライメントするステップを含む、請求項108に記載の方法。
【請求項111】
前記1つ又は複数の特徴は、前記配列リードのDNAメチル化パターンを含み、前記DNAメチル化パターンが前記配列リード上の1組の部位でのメチル化状態を含む、請求項108に記載の方法。
【請求項112】
前記第1組織型は疾患組織型である、請求項107から111のいずれか1項に記載の方法。
【請求項113】
前記第1組織型は前記疾患に関連する、請求項107から112のいずれか1項に記載の方法。
【請求項114】
前記疾患は癌である、請求項107から113のいずれか1項に記載の方法。
【請求項115】
前記疾患の分類を特定するステップは、前記癌の血管浸潤の有無を判定するステップを含む、請求項114に記載の方法。
【請求項116】
前記癌は、肝細胞癌、肺癌、乳癌、胃癌、多形性膠芽腫、膵臓癌、結腸直腸癌、鼻咽頭癌、又は頭頸部扁平上皮癌の1つである、請求項107から115のいずれか1項に記載の方法。
【請求項117】
前記機械学習モデルは、畳み込みニューラルネットワーク(CNN)、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば、完全結合型リカレントニューラルネットワーク(RNN)、ゲートリカレントユニット(GRU)、長短期記憶、(LSTM))、トランスフォーマーベースの方法(例えばXLNet、BERT、XLM、RoBERTa)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、K平均クラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、適応ブースティング(AdaBoost)、極端勾配ブースティング(XGBoost)、サポートベクターマシン(SVM)、又は上記の機械学習モデルの1つ又は複数を含む複合モデルのうちの1つから選択される、請求項107から116のいずれか1項に記載の方法。
【請求項118】
前記生体サンプルの疾患の分類を特定するステップは、前記第1量を1つ又は複数のカットオフ値と比較するステップを含む、請求項107から117のいずれか1項に記載の方法。
【請求項119】
前記1つ又は複数のカットオフ値のうちのカットオフ値は、前記疾患の分類が既知の参照サンプルを使用して決定される、請求項118に記載の方法。
【請求項120】
対象の生体サンプルを分析する方法であって、
前記対象の前記生体サンプルからの無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取るステップであって、前記配列リードの各々が前記配列リードの1組の部位でのメチル化状態を含むステップと、
前記配列リードの各々について、
前記配列リードの前記1組の部位の各々のメチル化状態を特定し、そして
前記メチル化状態に基づいて前記配列リードのメチル化レベルを特定するステップと、
前記配列リードの前記特定されたメチル化レベルに基づいて統計値を決定するステップと、
前記統計値を参照値と比較して前記対象の病態の分類のレベルを特定するステップと、を含む、前記方法。
【請求項121】
前記メチル化認識配列決定は、単一分子配列決定を含む、請求項120に記載の方法。
【請求項122】
前記メチル化認識配列決定は、ナノポア配列決定を含む、請求項120に記載の方法。
【請求項123】
前記配列リードのメチル化レベルを特定するステップは、前記1組の部位のメチル化された1つ又は複数の部位の個数を特定するステップを含む、請求項120から122のいずれか1項に記載の方法。
【請求項124】
前記統計値は前記配列リードの前記特定されたメチル化レベルの代表値又は中央値である、請求項120から123のいずれか1項に記載の方法。
【請求項125】
前記病態は癌を含む、請求項120から124のいずれか1項に記載の方法。
【請求項126】
前記病態の分類のレベルは、癌の病期を含む、請求項125に記載の方法。
【請求項127】
前記配列リードの各々は第1サイズ範囲内のサイズを有する、請求項120から126のいずれか1項に記載の方法。
【請求項128】
前記第1サイズ範囲は下限を含む、請求項127に記載の方法。
【請求項129】
前記下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択される、請求項128に記載の方法。
【請求項130】
前記第1サイズ範囲は上限を含む、請求項127から129のいずれか1項に記載の方法。
【請求項131】
前記第1サイズ範囲の上限は少なくとも3,000塩基である、請求項130に記載の方法。
【請求項132】
前記1組の部位は少なくとも3つの部位を含む、請求項120から131のいずれか1項に記載の方法。
【請求項133】
前記参照値は、前記病態の分類が既知の参照サンプルを使用して決定される、請求項120から132のいずれか1項に記載の方法。
【請求項134】
実行されるとコンピュータシステムに先行する請求項のいずれか1項に記載の方法を行わせる複数の命令を記憶する非一時的コンピュータ可読媒体を含む、コンピュータ製品。
【請求項135】
請求項134に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための1つ又は複数のプロセッサと、を含む、システム。
【請求項136】
上記の方法のいずれかを行うための手段を含む、システム。
【請求項137】
上記の方法のいずれかを行うように構成された1つ又は複数のプロセッサを含む、システム。
【請求項138】
それぞれ上記の方法のいずれかのステップを行うモジュールを含む、システム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年11月24日に出願した、発明の名称が「疾患分類のための長い無細胞DNA分子を用いた分子分析」である米国仮特許出願第63/283,190号、及び2021年12月3日に出願した、発明の名称が「疾患分類のための長い無細胞DNA分子を用いた分子分析」である米国仮特許出願第63/285,683号の優先権を主張し、それらの内容の全てがあらゆる目的で参照によって本出願に組み込まれる。
【背景技術】
【0002】
以前の多くの研究は、癌患者の血漿中の400bp以下の循環無細胞DNA分子の先天的情報/後天的情報に注目していた(Jiang et al. Proc Natl Acad Sci USA. 2015;112:E1317-25、Mouliere et al. PLoS One. 2011;6:e23418、Mouliere et al. Sci Transl Med. 2018;10:eaat4921、Underhill et al. PLoS Genet. 2016;12:e1006162、Chan et al. Proc Natl Acad Sci USA. 2013;110:18761-8)。癌又は自己免疫疾患等の多くの他の疾患を有する患者における、例えば≧500bp、≧600bp、≧1kb、≧2kb、≧3kb、≧4kb、≧5kb、≧10kb又は他の組み合わせの長いDNA分子に関する診断的価値及び商業的価値は、まだ探究されていない。
【0003】
Jahrらは、ポリアクリルアミドゲル電気泳動(PAGE)を使用することで、癌を有する6つのサンプルのうち、3つのサンプルの血漿中に高分子量DNA断片が存在することを報告した(Jahr et al. Cancer Res. 2001;61:1659-65)。この試験で検査した癌サンプルの50%のみに存在するこのような高分子量DNA分子は、癌患者の間でかかる長い無細胞DNA分子が一貫して検出可能ではない可能性があることを示唆しているようである。たとえ高分子量の無細胞DNA分子の存在を示した3つのサンプルでも、これらのDNA分子がどの程度豊富であるか不明である。更に、この試験は、癌を有さない個体からのサンプルとの比較を提供しなかった。これらいくつかの要因は、長い無細胞DNA分子が癌検出用の実用的なバイオマーカーであることを示唆していないようである。また、ポリアクリルアミドゲル電気泳動(PAGE)ベースの分析では、配列における実際の先天的/後天的情報の解読が不可能である。
一般的なゲノム分析ツールは、ショートリード超並列配列決定を含む。ショートリード超並列配列決定は、典型的には<800bp、又は実際に、好ましくは<600bpの短いDNA分子を分析するように設計される。その上、Jahrらによる文献等では長い無細胞DNA分子の検出可能性が低いと示していることから、長い無細胞DNA分子の分析は、まだ探究されていない。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Jiang et al. Proc Natl Acad Sci USA. 2015;112:E1317-25
【非特許文献2】Mouliere et al. PLoS One. 2011;6:e23418
【非特許文献3】Mouliere et al. Sci Transl Med. 2018;10:eaat4921
【非特許文献4】Underhill et al. PLoS Genet. 2016;12:e1006162
【非特許文献5】Chan et al. Proc Natl Acad Sci USA. 2013;110:18761-8
【発明の概要】
【課題を解決するための手段】
【0005】
本明細書に記載の技術は、無細胞DNA分子の様々な特徴を使用して生体サンプル又は対象の特性を特定することができる。かかる特徴は、サイズ(例えば、長い無細胞DNA分子を特徴とする場合)、メチル化、及び末端モチーフを含み得る。例えば、本明細書に記載のいくつかの方法、装置、及びシステムは、長い無細胞DNA断片を使用して生体サンプルを分析することを含み得る。
【0006】
様々な方法は、前記対象の生体サンプル(例えば、血漿サンプル)中の無細胞DNA分子(例えば、長い無細胞DNA分子)の1つ又は複数の特徴に基づく疾患分類の特定及び/又は起源組織の予測を含み得る。いくつかの実例において、前記方法は、(例えば、上限が1000塩基のサイズ範囲内の)無細胞DNA分子の量の特定を含み、前記疾患分類は前記特定された量を基礎としてもよい。更なる例として、前記方法は、無細胞DNA分子のメチル化パターンを同定し、そして前記無細胞DNA分子の前記メチル化パターンを参照パターンと比較して前記起源組織を予測することも含み得る。無細胞DNA分子上のバリアントの起源はこの方式で特定できる。尚更なる例として、前記特徴は、1つ又は複数の末端モチーフを有する配列の相対頻度も含み得、該特徴で前記相対頻度(例えば、相対頻度のベクター)を参照頻度と比較して疾患分類を特定することができる。
【0007】
いくつかの実例において、メチル化パターン分析は訓練された機械学習モデルを使用することを含み得る。前記メチル化パターン分析は、無細胞DNA分子の個別の特性、例えば、メチル化された部位の百分率等のような、前記分子上の1組の部位から特定されたメチル化レベルを提供できる。このような単一分子メチル化レベルは病態の特定に使用できる。
【0008】
いくつかの実施形態において、前記無細胞DNA分子(例えば、長い無細胞DNA分子)の複数の特徴は疾患分類の特定及び/又は起源組織の予測のために組み合わせられる。例えば、参照配列と比較してバリアントを有する配列リードのメチル化パターンを特定してもよく、かかるメチル化パターンは疾患分類の特定に使用できる。別の例として、末端モチーフの相対頻度は、特定のサイズ範囲内の無細胞DNA分子から選択してもよい。
【0009】
本開示のこれらの及び他の実施形態は以下に詳細に説明する。例えば、他の実施形態は、本明細書に記載の方法に関連するシステム、デバイス、及びコンピュータ可読媒体に関する。
【0010】
以下の詳細な説明及び添付の図面を参照した上で、本開示の実施形態の本質及び利点をより良く理解することができる。図面及び特許請求の範囲を含む明細書の残りの部分を参照することで、本開示の他の特徴及び利点が認識されるであろう。本開示の更なる特徴及び利点、並びに本開示の様々な実施形態の構造及び操作は、以下に添付の図面を参照しながら説明する。図面において、同様の参照番号は、同一又は機能的に類似の要素を示すことができる。
【図面の簡単な説明】
【0011】
【
図1】いくつかの実施形態に係る、長い無細胞DNA分子を分析する一例の概要を図示する概略図を示す。
【0012】
【
図2】単一分子リアルタイム配列決定によって配列決定されたメチル化及び/又は非メチル化CpG部位を持つ分子の例を示す。
【0013】
【
図3】いくつかの実施形態に係る、無細胞DNA分子の動態特徴を特定するプロセス例を図示する概略図を示す。
【0014】
【
図4】いくつかの実施形態に係る、無細胞DNA分子の動態特徴を特定する別のプロセス例を図示する概略図を示す。
【0015】
【
図5】いくつかの実施形態に係る、異なる配列決定技術にわたる500bpより大きい長さを有する血漿DNA断片の割合を同定するグラフを示す。
【0016】
【
図6】1人のHCC対象と1人のHBV保菌者のサイズ分布を図示する折れ線グラフを示す。
【0017】
【
図7】血管浸潤を有するHCC患者と有さないHCC患者における、所与のサイズを上回るcfDNA断片の百分率を同定する棒グラフを示す。
【0018】
【
図8】血管浸潤を有するHCC患者と有さないHCC患者における>200bpの長いDNA断片の百分率を同定する箱ひげ図を示す。
【0019】
【
図9】血管浸潤を有するHCC患者と有さないHCC患者のサイズ比を同定する箱ひげ図を示す。
【0020】
【
図10】いくつかの実施形態に係る、長い無細胞DNA分子の頻度に基づいて対象の生体サンプルを分析するプロセス例を描くフローチャートを示す。
【0021】
【
図11】いくつかの実施形態に係る、血漿DNA分子の256個の4-mer末端モチーフの階層的クラスタリング分析に基づいて生成されたヒートマップを示す。
【0022】
【
図12】いくつかの実施形態に係る、短い血漿DNA(<200bp)の4-mer末端モチーフの階層的クラスタリング分析を使用して生成されたヒートマップを示す。
【0023】
【
図13】いくつかの実施形態に係る、長い血漿DNA(>1kb)の4-mer末端モチーフの階層的クラスタリング分析を使用して生成されたヒートマップを示す。
【0024】
【
図14】いくつかの実施形態に係る、短い血漿DNA(<200bp)及び長い血漿DNA(>1kb)の両方の4-mer末端モチーフの階層的クラスタリング分析を使用して生成されたヒートマップを示す。
【0025】
【
図15】ある実施形態に係る、4-mer末端モチーフ比率の階層的クラスタリング分析を使用して生成されたヒートマップを示す。
【0026】
【
図16】いくつかの実施形態に係る、1つ又は複数の末端モチーフを有する配列の相対頻度に基づいて対象の生体サンプルを分析するプロセス例を図示するフローチャートを示す。
【0027】
【
図17】短い血漿DNA分子(<600bp)と長い血漿DNA分子(>1kb)のモチーフ順位の関係を同定する1組のグラフを示す。
【0028】
【
図18】HCC及び非HCC対象における<200bpの血漿DNA分子中のCCCAの末端モチーフ頻度を同定する箱ひげ図を示す。
【0029】
【
図19】血漿DNA分子中のCCCAのモチーフ頻度を同定する1組の箱ひげ図を示す。
【0030】
【
図20】HCC及び非HCC対象を区別する際の短いDNA分子及び長いDNA分子中のCCCAのモチーフ頻度の実績を同定するROC曲線を示す。
【0031】
【
図21】HCC患者、HBV保菌者、及び健康対象におけるCCCA率を同定する箱ひげ図を示す。
【0032】
【
図22】HCCを有する対象とHCCを有さない対象を区別する際のCCCA率の実績を同定するROC曲線を示す。
【0033】
【
図23】CRC患者及び健康対象における<200bpの血漿DNA分子中のCCCAの末端モチーフ頻度を同定する箱ひげ図を示す。
【0034】
【
図24】CRC患者及び健康対象における1kbより長い血漿DNA分子中のCCCAのモチーフ頻度を同定する箱ひげ図を示す。
【0035】
【
図25】SMRT-配列決定際のCRC患者及び健康対象におけるCCCA率を同定する箱ひげ図を示す。
【0036】
【
図26】HCC患者及びHBV保菌者における<200bpの血漿DNA分子中のCCCAの末端モチーフ頻度を同定する箱ひげ図を示す。
【0037】
【
図27】血漿DNA分子中のCCCAのモチーフ頻度を同定する1組の箱ひげ図を示す。
【0038】
【
図28】ナノポア配列決定際のHCC患者及びHBV保菌者におけるCCCA率を同定する箱ひげ図を示す。該CCCA率は、HCC患者及びHBV保菌者における長いDNA分子(>1kb)のCCCAモチーフ頻度を短いDNA分子(<200bp)のCCCAモチーフ頻度で割ることで算出されたものである。
【0039】
【
図29】200bp未満のサイズを有する短いDNA分子における末端モチーフ特徴のロジスティック回帰分析によって生成された結果を同定する箱ひげ図を示す。
【0040】
【
図30】HCCを有する対象とHCCを有さない対象を区別する際の短いDNA分子(<200bp)における末端モチーフ特徴を用いたロジスティック回帰の実績を同定するROC曲線を示す。
【0041】
【
図31】1kbより大きいサイズを有する長いDNA分子における末端モチーフ特徴のロジスティック回帰分析から生成された結果を同定する箱ひげ図を示す。
【0042】
【
図32】HCCを有する対象とHCCを有さない対象を区別する際の長いDNA分子(>1kb)における末端モチーフ特徴を用いたロジスティック回帰の実績を同定するROC曲線を示す。
【0043】
【
図33】>1kbの長いDNA分子及び<200bpの短いDNA分子の両方における末端モチーフ特徴を用いたロジスティック回帰分析を同定する箱ひげ図を示す。
【0044】
【
図34】HCCを有する対象とHCCを有さない対象を区別する際の長いDNA分子(>1kb)及び短いDNA分子(<200bp)の両方から導き出された末端モチーフ特徴を組み合わせて用いたロジスティック回帰の実績を同定するROC曲線を示す。
【0045】
【
図35】モチーフ比率を用いたロジスティック回帰分析によって生成された結果を同定する箱ひげ図を示す。
【0046】
【
図36】HCCを有する対象とHCCを有さない対象を区別する際のモチーフ比率を用いたロジスティック回帰の実績を同定するROC曲線を示す。
【0047】
【
図37】HCCを有する対象とHCCを有さない対象を区別する際の末端モチーフ比率を用いたSVMの実績を同定するROC曲線を示す。
【0048】
【
図38】HCCを有する対象とHCCを有さない対象を区別する際のモチーフ比率を用いたランダムフォレスト分析の実績を同定するROC曲線を示す。
【0049】
【
図39】HCCを有する対象とHCCを有さない対象を区別する際のモチーフ比率を用いたLDA分析の実績を同定するROC曲線を示す。
【0050】
【
図40】いくつかの実施形態に係る、1つ又は複数の末端モチーフを有する配列の相対頻度に基づいて対象の生体サンプルを分析するプロセス例を図示するフローチャートを示す。
【0051】
【
図41】いくつかの実施形態に係る、長い無細胞DNA分子のメチル化パターンを参照組織のメチル化パターンと比較する図示例を示す。
【0052】
【
図42】いくつかの実施形態に係る、少なくとも1つのメチル化ミスマッチを含む長い無細胞DNA分子におけるメチル化パターンを分析する技術を示す。
【0053】
【
図43】ゲノム全体にわたるCpG部位及び癌由来一塩基バリアント(SNV)の普遍性の1kb分解能での比較を示す。
【0054】
【
図44】ゲノム全体にわたるCpG部位及び癌由来SNVの普遍性の3kb分解能での比較を示す。
【0055】
【
図45】ゲノム全体にわたるCpG部位及び癌由来SNVの普遍性の200bp分解能での比較を示す。
【0056】
【
図46】無細胞DNA分子が腫瘍DNAに対応するか否かをそのメチル化ハプロタイプ情報に応じて予測するプロセス例を図示する概略図を示す。
【0057】
【
図47】本開示の実施形態に係るメチル化ハプロタイプ分析に基づき、異なる病期のHCC患者において肝臓起源であると特定されるDNA分子の百分率を同定する箱ひげ図を示す。
【0058】
【
図48】いくつかの実施形態に係る、異なる病期にわたるHCC患者の癌メチル化スコアを同定する箱ひげ図を示す。
【0059】
【
図49】いくつかの実施形態に係る、HCC患者における生存率分析を同定する1組の生存率曲線を示す。
【0060】
【
図50】SMRT-seq及びナノポア配列決定からのデータを使用して算出されたHBV保菌者及びHCC患者のHCCメチル化スコアを同定する箱ひげ図を示す。
【0061】
【
図51】SMRT-seq及びナノポア配列決定からのデータを使用してHBV保菌者及びHCC患者からの血漿サンプルにおいて単一分子起源組織分析によって特定された肝臓由来cfDNAの百分率を同定するグラフを示す。
【0062】
【
図52】本開示で提示される実施形態に基づいて15人の健康対象、45人のHCC患者及び4人のCRC患者において結腸起源と分類された血漿DNA分子の百分率を同定する箱ひげ図を示す。
【0063】
【
図53】いくつかの実施形態に係るメチル化ハプロタイプ分析に基づき、血管浸潤を有するHCC患者と有さないHCC患者の間でHCC腫瘍起源であると特定されるDNA分子の百分率を同定する1組のバープロットを示す。
【0064】
【
図54】いくつかの実施形態に係る、HCC腫瘍起源であると特定されるDNA分子の百分率を同定する1組のバープロットを示す。
【0065】
【
図55】長い無細胞DNAの単一分子メチル化配列データの分析の癌検出精度及び短い無細胞DNAのメチル化配列データを用いた他の分析の癌検出精度を同定する1組のROC曲線を示す。
【0066】
【
図56】長いDNA(>1kb)を用いたメチル化ハプロタイプベースの分析のHCC検出精度及び短い血漿DNA分子(<600bp)のショートリード亜硫酸水素塩配列決定を用いた血漿DNA組織マッピング分析のHCC検出精度を同定する1組のROC曲線を示す。
【0067】
【
図57】いくつかの実施形態に係る、長い無細胞DNA分子のメチル化パターンに基づいて対象の生体サンプルを分析するプロセス例を図示するフローチャートを示す。
【0068】
【
図58】いくつかの実施形態に係る、単一分子リアルタイム配列決定(SMRT-Seq)際の個体の異なる群における単一分子メチル化レベルを同定する箱ひげ図を示す。
【0069】
【
図59】サイズが>500bpであり、少なくとも3つのCpG部位を含有し、SMRT-Seqにおいてメチル化レベルが≦60%であるDNA分子における単一分子メチル化レベルを同定する箱ひげ図を示す。
【0070】
【
図60】いくつかの実施形態に係る、SMRT-Seq及びショートリード配列決定(例えば、Illumina配列決定)におけるHCC対象と非HCC対象を区別する際の単一分子メチル化レベルの実績を同定するROC曲線を示す。
【0071】
【
図61】異なるバルセロナクリニック肝臓癌(BCLC)病期のHCC患者における単一分子メチル化レベルを同定する箱ひげ図を示す。
【0072】
【
図62】いくつかの実施形態に係る、DNA分子における単一分子メチル化レベルを用いた疾患分類を特定するプロセス例を図示するフローチャートを示す。
【0073】
【
図63】いくつかの実施形態に係る、機械学習モデルを用いたメチル化ハプロタイプのパターン認識の例示図を示す。
【0074】
【
図64】訓練プロセスに使用される様々な配列決定深度にわたる血漿中の腫瘍DNAと非腫瘍DNAを区別するための機械学習モデルの実績を同定する1組の棒グラフを示す。
【0075】
【
図65】血漿中の腫瘍DNAと非腫瘍DNAを区別するための機械学習モデルの実績を同定する1組の棒グラフを示し、該機械学習モデルでは機械学習が様々な配列決定深度にわたる示差的にメチル化された領域を使用して訓練されたものである。
【0076】
【
図66】異なる長さの血漿DNA分子による、癌患者の血漿中の腫瘍DNAと非腫瘍DNAを区別する機械学習モデルの実績を同定する表を示す。
【0077】
【
図67】いくつかの実施形態に係る、機械学習モデルを使用して長い無細胞DNA分子のメチル化パターンに基づいて組織型特性を特定するプロセス例を図示するフローチャートを示す。
【0078】
【
図68】いくつかの実施形態に係る、SNV及びCpGメチル化ハプロタイプ情報を用いた組み合わせ分析の例を図示する概略図を示す。
【0079】
【
図69】野生型対立遺伝子を持つ第1群の血漿DNA分子及び変異を持つ第2群の血漿DNA分子の特徴を示す。
【0080】
【
図70】体細胞変異周囲の200bp又は1kb領域におけるCpG部位の数の分布を同定する表を示す。
【0081】
【
図71】癌の有無の情報を提供する歪んだ対立遺伝子比及び歪んだメチル化レベルを伴う相対的ハプロタイプ不均衡を有するDNA分子の概略図を示す。
【0082】
【
図72】いくつかの実施形態に係る、バリアント及びメチル化パターンを使用して長い無細胞DNA分子のメチル化パターンに基づいて起源組織を特定する生体サンプル分析のプロセス例を図示するフローチャートを示す。
【0083】
【
図73】いくつかの実施形態に係る、バリアント及びメチル化パターンを使用して長い無細胞DNA分子のメチル化パターンに基づいて癌分類を特定する生体サンプル分析のプロセス例を図示するフローチャートを示す。
【0084】
【
図74】血漿DNA分子に存在する配列構成、ゲノム位置、断片情報及び後天的情報に基づいて癌を有する患者と有さない患者を区別するための機械学習モデルを訓練するプロセス例を図示する概略図を示す。
【0085】
【
図75】血漿DNA分子に存在する断片情報及び後天的情報を用いた癌検出に訓練されたモデルを適用するプロセス例を図示する概略図を示す。
【0086】
【
図76】いくつかの実施形態に係る、機械学習モデルを使用して長い無細胞DNA分子の複数の特徴に基づいて疾患分類を特定する対象の生体サンプル分析のプロセス例を図示するフローチャートを示す。
【0087】
【
図77】DNA分子における1組のマイクロサテライト配列の例を示す。
【0088】
【
図78】癌特異的マイクロサテライトマーカーに基づいて腫瘍由来DNAを検出する一例の概要を図示する。
【0089】
【
図79】本発明の一実施形態に係る測定システムを図示する。
【0090】
【
図80】本発明の実施形態に係るシステム及び方法と共に使用可能なコンピュータシステムの例のブロック図を示す。
【発明を実施するための形態】
【0091】
用語
「組織」は、機能単位として共に群化する細胞の群に対応する。1タイプより多くの細胞が、単一の組織内に見出され得る。異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞、又は血球細胞)からなり得るが、異なる生物(宿主対ウイルス)からの組織又は健康細胞対腫瘍細胞にも対応し得る。「組織」という用語は一般に、ヒト体内に見られる任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔咽頭組織)を指し得る。いくつかの態様において、「組織」又は「組織型」という用語は、無細胞核酸が起源とする組織を指すために使用され得る。一例では、ウイルス核酸断片は、例えば、エプスタイン・バーウイルス(EBV)の血液組織に由来し得る。別の例では、ウイルス核酸断片は、腫瘍組織、例えば、EBV又はヒトパピローマウイルス感染(HPV)に由来し得る。
【0092】
「サンプル」、「生体サンプル」、又は「患者サンプル」という用語は、生きている対象又は死んだ対象に由来する任意の組織又は物質を含むことを意味する。生体サンプルは、無細胞サンプルであり得、それは、対象からの核酸分子と、場合によっては病原体、例えばウイルスからの核酸分子との混合物を含み得る。生体サンプルは一般に、核酸(例えば、DNA又はRNA)又はその断片を含む。「核酸」という用語は一般に、デオキシリボ核酸(DNA)、リボ核酸(RNA)、又はそれらの任意のハイブリッド又は断片を指し得る。サンプル中の核酸は無細胞核酸であり得る。サンプルは、液体サンプル又は固体サンプル(例えば、細胞又は組織サンプル)であり得る。生体サンプルは、血液、血漿、血清、尿、膣液、(例えば精巣の)水腫からの液、膣洗浄流体、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の異なる部分(例えば、甲状腺、乳房)からの吸引流体等の体液であり得る。便サンプルもまた、使用することができる。様々な実施形態において、無細胞DNAについて濃縮された生体サンプル(例えば、遠心分離プロトコルを通じて得られた血漿サンプル)中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%超、60%超、70%超、80%超、90%超、95%超、又は99%超は、無細胞であり得る)。いくつかの実施形態において、少なくとも1,000個の無細胞DNA分子が分析される。他の実施形態において、少なくとも10,000又は50,000又は100,000又は500,000又は1,000,000又は5,000,000個の無細胞DNA分子、又はそれ以上の無細胞DNA分子が、分析され得る。少なくとも同じ数の配列リードが分析され得る。生体サンプルは、組織又は細胞の構造を物理的に破壊するように(例えば、遠心分離及び/又は細胞溶解)処理され得るため、細胞内成分を、分析用のサンプルを調製するための酵素、緩衝液、塩、界面活性剤等を更に含有し得る溶液中に放出し得る。
【0093】
「生得的ゲノム」(CGとも呼ばれる)という用語はゲノム中の遺伝子座におけるコンセンサスヌクレオチドから構成され、したがって、コンセンサス配列と見なされ得る。CGは対象のゲノム全体(例えば、ヒトゲノム)、又はゲノムの部分のみをカバーすることができる。細胞のDNA及び(例えば、血漿中に見出され得るような)無細胞DNAから生得的ゲノム(CG)を得ることができる。理想的には、コンセンサスヌクレオチドは、ある遺伝子座が1つの対立遺伝子についてホモ接合性であり、又は2つの対立遺伝子についてヘテロ接合性であることを示すべきである。ヘテロ接合性遺伝子座は通常はある遺伝的多型のメンバーである2つの対立遺伝子を含有する。例として、ある遺伝子座にアライメントしたリードにおいて2つの対立遺伝子がそれぞれ少なくとも所定の百分率(例えば、30%又は40%)で現れる閾値が、その遺伝子座がヘテロ接合性であるか否かを特定するための特定基準であり得る。1種類のヌクレオチドが十分な百分率(例えば、70%以上)で現れる場合、その遺伝子座はCG中でホモ接合性であると判断され得る。1つの健康細胞のゲノムは細胞分裂の間に自然に起こるランダム変異のため別の健康細胞のゲノムと異なり得るが、このようなコンセンサスが使用されるとき、CGは変化しないはずである。いくつかの細胞はゲノム再構成したゲノムを有し得、例えば、抗体及びT細胞受容体遺伝子に関係するBリンパ球及びTリンパ球がそうである。そのような大規模な差異はそれでも血液中の有核細胞集団のうちの比較的小さい集団であり、したがって、血液細胞の十分なサンプリング(例えば、配列決定深度)により、そのような再構成が生得的ゲノムの特定に影響を与えることはない。口腔細胞、皮膚細胞、毛包、又は様々な正常な体組織の生検組織を含む他の細胞種もCG源として役立ち得る。
【0094】
「生得的DNA」という用語は、対象が持って生まれた遺伝的構成を反映するあらゆるDNA源を指す。対象について、生得的DNAを得ることができる「生得的サンプル」の例は健康な血液細胞DNA、口腔細胞DNA及び毛根DNAを含む。これらの健康細胞に由来するDNAが対象のCGを定義する。それらの細胞は様々な方法で、例えば、ある人が癌を有していないと知られているとき、又は癌細胞若しくは前腫瘍細胞(例えば、肝臓癌が疑われるときの毛根DNA)を含む可能性がない組織からサンプルを得ることができるときに健康であると同定され得る。別の例として、患者に癌がないときに血漿サンプルを得ることができ、決定された生得的DNAをその後の(例えば、1年以上後の)血漿サンプルから得られた結果と比較する。別の実施形態において、50%未満の腫瘍DNAを含有する単一の生体サンプルを生得的ゲノムと腫瘍関連遺伝的変化の推測のために使用することができる。そのようなサンプルでは、腫瘍関連一塩基変異の濃度はCG中のヘテロ接合性SNPの各対立遺伝子の濃度よりも低い。そのようなサンプルは以下に記載されるサンプルゲノムの決定のために使用される生体サンプルと同一のものであり得る。
【0095】
「配列リード」とは、核酸分子の任意の部分又は全部から配列決定されたヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定されたヌクレオチドの短い鎖(例えば、20~150ヌクレオチド)、核酸断片の片端又は両端でのヌクレオチドの短い鎖、又は生体サンプルに存在する核酸断片全体の連鎖であり得る。配列リードは様々な方式で、例えば配列決定技術を使用するか、又は、例えばハイブリダイゼーションアレイでのプローブ又はマイクロアレイで使用され得る捕捉プローブを使用するか、又はポリメラーゼ連鎖反応(PCR)又は単一プライマー又は等温増幅を用いた線形増幅等の増幅技術を使用して、得ることができる。生体サンプルの分析の一環として、少なくとも1,000配列リードを分析してもよい。他の例として、少なくとも10,000又は50,000又は100,000又は500,000又は1,000,000又は5,000,000配列リード、又はそれ以上の配列リードを分析してもよい。DNA分子のかかる例示的な数は超並列配列決定の一環として分析され得る。
【0096】
配列リードは、断片の末端に関連する「終了配列」を含み得る。終了配列は、断片の最も外側のN塩基、例えば、断片の末端での1~30塩基に対応し得る。配列リードが断片全体に対応する場合、配列リードは2つの終了配列を含み得る。ペアエンド配列決定により断片の末端に対応する2つの配列リードが提供される場合、各配列リードはそれぞれ1つの終了配列を含み得る。
【0097】
「配列モチーフ」とは、DNA断片(例えば、無細胞DNA断片)における塩基の短い繰り返しパターンを指し得る。配列モチーフは断片の末端に発生し得るため、終了配列の一部となり得るか又はそれを含み得る。「末端モチーフ」とは、潜在的に特定のタイプの組織について、DNA断片の末端で優先的に発生する終了配列の配列モチーフを指し得る。末端モチーフは断片の末端の直前又は直後にも発生し得るため、依然として終了配列に対応する。ヌクレアーゼは、特定の末端モチーフに対する特定の切断選択、及び第2末端モチーフに対する2番目に好ましい切断選択を有し得る。
【0098】
「終了位置」又は「末端位置」(又は単に「末端」)とは、無細胞DNA分子、例えば血漿DNA分子の最も外側の塩基即ち端部でのゲノム座標又はゲノムアイデンティティ又はヌクレオチドアイデンティティを指し得る。末端位置はDNA分子のどちらの末端に対応してもよい。このように、DNA分子の開始及び終了が言及する場合、両方とも終了位置に対応する。実際に、1つの末端位置は、超並列配列決定又は次世代配列決定、単一分子配列決定、二本鎖又は一本鎖DNA配列決定ライブラリ作成プロトコル、ポリメラーゼ連鎖反応(PCR)、又はマイクロアレイに限定されない分析方法によって検出又は特定された無細胞DNA分子の1つの端部上の最も外側塩基のゲノム座標又はヌクレオチドアイデンティティである。このようなインビトロ技術は、無細胞DNA分子の真のインビボ物理的末端(複数可)を変化させる可能性がある。よって、各検出可能な末端は、生物学的に真の末端を表し得るか、又は該末端は内側の1つ又は複数のヌクレオチドであるか、又は1つ又は複数のヌクレオチドは、例えばクレノウ断片による非平滑末端二本鎖DNA分子のオーバーハングの5’平滑化及び3’充填のように、分子の元の末端から延長された。末端位置のゲノムアイデンティティ又はゲノム座標は、ヒト参照ゲノム、例えばhg19に対する配列リードのアライメントの結果から導き出され得る。それは、ヒトゲノムの元の座標を表すインデックス又はコードのカタログから導き出され得る。それは、標的特異的プローブ、ミニ配列決定、DNA増幅に限定されない手段によって読み取られる無細胞DNA分子上の位置又はヌクレオチドアイデンティティを指し得る。
【0099】
「好ましい末端」(又は「反復終了位置」)とは、生理学的(例えば妊娠)又は病理学的(疾患)状態(例えば癌)を有する生体サンプルにおいて、かかる状態を有さない生体サンプルよりも、又は同じ病理学的又は生理学的状態の異なる時点又はステージ、例えば、治療前又は後よりも、(例えば、あるレート(rate)によって測定されて)多く提示されるか又は多く存在する末端を指す。したがって、好ましい末端は、関連生理学的又は病理学的状態では、他の状態と比較して、検出される尤度又は確率が増加する。増加した確率は、病理学的状態と非病理学的状態の間、例えば癌を有する患者と有さない患者の間で比較し、尤度比又は相対確率として定量化することができる。尤度比は、検査されるサンプルにおいて少なくとも閾値数の好ましい末端が検出される確率に基づいて、又はかかる症状を有さない患者よりもかかる症状を有する患者において好ましい末端が検出される確率に基づいて、決定することができる。尤度比の閾値の例としては、1.1、1.2、1.3、1.4、1.5、1.6、1.8、2.0、2.5、3.0、3.5、4.0、4.5、5、6、8、10、20、40、60、80及び100を含むが、それらに限定されない。かかる尤度比は、関連状態を有するサンプルと有さないサンプルの相対存在値を比較することで測定できる。関連生理学的又は疾患状態で好ましい末端が検出される確率がより高いため、かかる好ましい終了位置は、同じ生理学的又は疾患状態を有する複数の個体において見られる。確率が増加することで、1つより多くの無細胞DNA分子は、分析される無細胞DNA分子の数がゲノムのサイズより遥かに少ない場合でも、同じ好ましい終了位置で終了すると検出することができる。よって、好ましい終了位置又は反復終了位置は、「頻繁終了位置」とも呼ばれる。いくつかの実施形態において、定量的閾値を使用して、末端が好ましい末端と見なされるように同じサンプル又は同じサンプルアリコート内で少なくとも複数回(例えば、3、4、5、6、7、8、9、10、15、20、又は50回)検出されるように、要求を立ててもよい。関連生理学的状態は、人が健康、無疾患、又は目的の疾患を有さない場合の状態を含み得る。同様に、「好ましい終了ウィンドウ」は、1組の連続した好ましい終了位置に対応する。
【0100】
DNA分子がある位置で終了する「レート」は、DNA分子が該位置で終了する頻度に関係する。かかるレートは「末端密度」と呼ばれてもよい。レートは、分析されるDNA分子の数に対して正規化された位置で終了するDNA分子の数に基づいたものであり得る。正規化は、周囲領域における末端の代表値、中央値、又は総数に基づいて行うこともできる。正規化に使用される周囲領域としては、該位置から上流及び/又は下流の500、1000、3000、5000bp等を含み得るが、それらに限定されない。
【0101】
「対立遺伝子」という用語は、同じ物理的ゲノム遺伝子座にある代替DNA配列を指し、異なる表現型の特徴をもたらす場合ともたらさない場合がある。各染色体のコピーが2つある任意の特定の二倍体生物(男性の対象の性染色体を除く)では、各遺伝子の遺伝子型は、ホモ接合体においては同じであり、ヘテロ接合体においては異なる、その遺伝子座に存在する対立遺伝子の対を含む。生物の集団又は種は、典型的には、様々な個体の各遺伝子座に複数の対立遺伝子を含む。集団内に2つ以上の対立遺伝子が見られるゲノム遺伝子座は、多型部位と呼ばれる。遺伝子座での対立遺伝子バリエーションは、存在する対立遺伝子の数(即ち、多型の程度)、又は集団内のヘテロ接合体の割合(即ち、ヘテロ接合性率)として測定可能である。本明細書で使用される「多型」という用語は、その頻度に関係なく、ヒトゲノムにおける任意の個体間のバリエーションを指す。そのようなバリエーションの例は、一塩基多型、単純なタンデムリピート多型、挿入-欠失多型、変異(疾患を引き起こし得る)、及びコピー数バリエーションを含むが、これらに限定されない。本明細書で使用される「ハプロタイプ」という用語は、同じ染色体又は染色体領域上で一緒に伝達される複数の遺伝子座での対立遺伝子の組み合わせを指す。ハプロタイプは、僅か1対の遺伝子座、又は染色体領域、又は染色体全体又は染色体腕を指し得る。
【0102】
「相対頻度」(単に「頻度」とも呼ばれる)は、割合(例えば、百分率、画分、又は濃度)を指し得る。特に、特定の末端モチーフ(例えば、CCGA又は単一塩基のみ)の相対頻度は、例えば、CCGAの末端配列を有することによって末端モチーフCCGAと関連付けられるサンプル中の無細胞DNA断片の割合を提供し得る。別の例として、相対頻度は、各モチーフの互いの出現の順位であり得る。かかる順位は、分母が同じであるため、割合又は生の個数を使用できる。
【0103】
「サブリード」は、環状化DNA鋳型の1つの鎖の全ての塩基から生成された配列であり、DNAポリメラーゼによって1つの連続した鎖にコピーされている。例えば、サブリードは、環状化DNA鋳型のDNAの1つの鎖に対応し得る。このような例では、環状化後、1つの二本鎖DNA分子には、2つのサブリードがある(各配列決定パスについて1つ)。いくつかの実施形態では、生成された配列は、例えば、配列決定エラーが存在するため、1つの鎖の全ての塩基のサブセットを含み得る。
【0104】
「部位」(「ゲノム部位」とも呼ばれる)は、単一の塩基位置、又は相関する塩基位置の群、例えば、CpG部位、又は相関する塩基位置のより大きい群であり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、該遺伝子座をそのコンテキストにおける部位と等価にするただ1つの部位を含み得る。
【0105】
「メチル化状態」とは、所与の部位でのメチル化の状態を指す。例えば、ある部位は、メチル化されてもよく、メチル化されていなくてもよく、又はいくつかのケースでは、特定されていなくてもよい。配列リードは、対応する無細胞DNA分子のメチル化状態が特定できる1つ又は複数の部位を含み得る。1つ又は複数の部位の各部位は、メチル化状態に関連付けられ得る。例えば、1つ又は複数の部位は、CpG部位であり得、各部位は、特定のメチル化状態が特定されたCpG部位であり得る。いくつかの実例において、配列リードの各々の1つ又は複数の部位は、少なくともN個の部位を含む。例えば、所与の配列リードは、少なくとも3つのCpG部位を含み得る。少なくとも2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、又は50より多い部位に限定されない他の数も考慮され得る。追加的に又は代替的に、配列リードは、第1サイズ範囲(例えば、500塩基対(bp)より大きい)内のサイズを有する長い無細胞DNA分子に対応し得、少なくともN個の部位(例えば、3つのCpG部位)を含み得る。本明細書で使用されるように、「1組の部位」は、N個の部位に対応し得る。
【0106】
各ゲノム部位(例えば、CpG部位)の「メチル化指数」は、その部位をカバーするリード総数に対する、その部位でメチル化を示すDNA断片の(例えば、配列リード又はプローブから決定されるような)割合を指し得る。「リード」は、DNA断片から取得された情報(例えば、部位のメチル化状態)に対応し得る。リードは、1つ又は複数の部位における特定のメチル化状態のDNA断片と優先的にハイブリダイズする試薬(例えば、プライマー又はプローブ)を使用して、取得することができる。典型的に、このような試薬は、それらのメチル化状態に応じて、DNA分子を示差的に修飾するか又は認識するプロセス、例えば、亜硫酸水素塩変換、又はメチル化感受性制限酵素、又はメチル化結合タンパク質、又は抗メチルシトシン抗体、あるいはメチルシトシン及びヒドロキシメチルシトシンを認識する単一分子配列決定技術(例えば、単一分子リアルタイム配列決定及びナノポア配列決定(例えば、Oxford Nanopore Technologiesによる)で、処理した後に適用される。メチル化指数は2進値(0又は1)に変換してもよい。例えば、メチル化指数は、実際のメチル化指数が≦0.5の場合、0に再コード化してもよく、メチル化指数は、実際のメチル化指数が>0.5の場合、1に再コード化してもよい。メチル化指数は、単一DNA分子における個別のCpG部位にわたるメチル化を言及する場合に2進値である。
【0107】
領域の「メチル化密度」は、この領域内の部位におけるメチル化を示すリードの数を領域における部位をカバーするリード総数で割ったものを指し得る。この部位は、具体的な特徴を有し得、例えば、CpG部位であり得る。よって、領域の「CpGメチル化密度」は、CpGメチル化を示すリードの数を、この領域におけるCpG部位(例えば、特定のCpG部位、CpGアイランド内又はそれより大きな領域のCpG部位)をカバーするリード総数で割ったものを指し得る。例えば、ヒトゲノム中の各100kbビンのメチル化密度は、100kb領域にマッピングされた配列リードによってカバーされた全てのCpG部位に占める割合として、CpG部位での(メチル化シトシンに対応する)亜硫酸水素塩処理後に変換されていないシトシンの総数から決定することができる。この分析は、500bp、5kb、10kb、50kb、若しくは1Mb等の他のビンサイズについて実施することもできる。領域は、全ゲノム、又は染色体、又は染色体の一部(例えば、染色体腕)であり得る。CpG部位のメチル化指数は、領域がそのCpG部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの割合」は、この領域において、分析されたシトシン残基の総数に対する、メチル化されている(例えば、亜硫酸水素塩変換後に変換されていない)と示されているシトシン部位「C」の数を指し得、即ちCpGのコンテキスト外のシトシンを含む。「メチル化レベル」の例としては、メチル化指数、メチル化密度、1つ又は複数の部位でメチル化された分子の個数、及び1つ又は複数の部位でメチル化された分子(例えば、シトシン)の割合が挙げられる。亜硫酸水素塩変換とは別に、当業者に既知の他のプロセスを使用してDNA分子のメチル化状態を調べることができ、これらのプロセスは、メチル化状態に感受性の酵素(例えば、メチル化感受性制限酵素)、メチル化結合タンパク質、メチル化状態に感受性のプラットフォームを使用した単一分子配列決定(例えば、ナノポア配列決定(Schreiber et al. Proc Natl Acad Sci 2013; 110: 18910-18915)及び単一分子リアルタイム配列決定(例えば、Pacific Biosciencesによる)(Flusberg et al. Nat Methods 2010; 7: 461-465))を含むが、それらに限定されない。
【0108】
「メチローム」は、ゲノムにおける複数の部位又は遺伝子座でのDNAメチル化の量の尺度を提供する。メチロームは、ゲノムの全部、ゲノムの実質的な部分、又はゲノムの比較的僅かな箇所(複数可)に対応し得る。
【0109】
「メチル化プロファイル」は、複数の部位又は領域のDNA又はRNAメチル化に関する情報を含む。DNAメチル化に関する情報としては、CpG部位のメチル化指数、領域におけるCpG部位のメチル化密度(MDと略す)、連続領域にわたるCpG部位の分布、1つより多くのCpG部位を含有する領域内の各個別のCpG部位のメチル化パターン又はレベル、及び非CpGメチル化を含み得るが、それらに限定されない。いくつかの実施形態において、メチル化プロファイルは、1タイプより多くの塩基(例えばシトシン又はアデニン)のメチル化又は非メチル化のパターンを含み得る。ゲノムの実質的部分のメチル化プロファイルは、メチロームと同等であると見なし得る。哺乳類ゲノムにおける「DNAメチル化」とは、典型的に、CpGジヌクレオチドにおいてのシトシン残基の5’炭素へのメチル基付加(即ち、5-メチルシトシン)を指す。DNAメチル化は、他のコンテキスト、例えば、CHG及びCHHのコンテキストでのシトシンに発生し得、ここでHはアデニン、シトシン又はチミンである。シトシンのメチル化は、5-ヒドロキシメチルシトシンの形としてもよい。非シトシンメチル化、例えばN6-メチルアデニンも報告されている。
【0110】
「メチル化パターン」とは、メチル化塩基と非メチル化塩基の順序を指す。例えば、メチル化パターンは、単一のDNA鎖、単一の二本鎖DNA分子、又は別のタイプの核酸分子上のメチル化塩基の順序であり得る。一例として、3つの連続するCpG部位は、UUU、MMM、UMM、UMU、UUM、MUM、MUU、又はMMUといったメチル化パターンのいずれかを有し得る。ここで、「U」は非メチル化部位を示し、「M」はメチル化部位を示す。この概念をメチル化に限定されない塩基修飾に拡張する場合、修飾塩基と非修飾塩基の順序を指す「修飾パターン」という用語が使用される。例えば、修飾パターンは、単一のDNA鎖、単一の二本鎖DNA分子、又は別のタイプの核酸分子上の修飾された塩基の順序であり得る。一例として、3つの連続する潜在的に修飾可能な部位は、UUU、MMM、UMM、UMU、UUM、MUM、MUU、又はMMUといった修飾パターンのいずれかを有し得る。ここで、「U」は非修飾部位を示し、「M」は修飾部位を示す。メチル化に基づかない塩基修飾の一例は、8-オキソグアニン等のような酸化的変化である。
【0111】
「高メチル化」及び「低メチル化」という用語は、その単一分子のメチル化レベルによって測定される単一のDNA分子のメチル化密度、例えば、その分子内のメチル化塩基又はヌクレオチドの数を、その分子内のメチル化可能な塩基又はヌクレオチドの総数で割ったものを指し得る。高メチル化分子は、単一分子のメチル化レベルが閾値以上である分子であり、用途ごとに定義され得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、又は95%であり得る。低メチル化分子は、単一分子のメチル化レベルが閾値以下である分子であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、又は95%であり得る。
【0112】
「高メチル化」及び「低メチル化」という用語はまた、これらの分子の複数分子メチル化レベルによって測定される、DNA分子の集団のメチル化レベルも指し得る。分子の高メチル化集団は、複数分子メチル化レベルが閾値以上である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、又は95%であり得る。分子の低メチル化集団は、複数分子メチル化レベルが閾値以下である集団であり、用途ごとに定義され得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、又は95%であり得る。いくつかの実施形態において、分子の集団は、1つ又は複数の選択されたゲノム領域にアライメントされ得る。いくつかの実施形態において、選択されたゲノム領域(複数可)は、遺伝障害、インプリンティング障害、代謝障害、又は神経障害等の疾患に関連し得る。選択されたゲノム領域(複数可)は、50ヌクレオチド(nt)、100nt、200nt、300nt、500nt、1000nt、2knt、5knt、10knt、20knt、30knt、40knt、50knt、60knt、70knt、80knt、90knt、100knt、200knt、300knt、400knt、500knt、又は1Mntの長さを有し得る。
【0113】
「メチル化認識配列決定」とは、配列決定プロセス中にDNA分子のメチル化状態を確認できるようにする任意の配列決定方法を指し、亜硫酸水素塩配列決定、あるいはメチル化感受性制限酵素消化、抗メチルシトシン抗体若しくはメチル化結合タンパク質を用いた免疫沈降、又はメチル化状態(例えば、亜硫酸水素塩配列決定無し)の解明を可能にする単一分子配列決定が先行する配列決定を含むが、それらに限定されない。本明細書に記載の任意のこのような配列決定は、超並列配列決定であり得る。「メチル化認識アッセイ」又は「メチル化感受性アッセイ」は、MSP、プローブベースの調査、ハイブリダイゼーション、密度測定が続く制限酵素消化、抗メチルシトシン免疫アッセイ、メチル化シトシン又はヒドロキシメチルシトシンの割合の質量分析調査、配列決定が続かない免疫沈降等ような、配列決定及び非配列決定ベースの方法の両方を含み得る。
【0114】
「配列決定深度」という用語は、遺伝子座が、その遺伝子座にアライメントされた配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、又は染色体腕の大きさ、又はゲノム全体の大きさであってもよい。配列決定深度は、50x、100x等と表され得、ここで「x」は、遺伝子座が配列リードでカバーされる回数を指す。配列決定深度は、複数の遺伝子座又はゲノム全体に適用することもでき、この場合、xはそれぞれ、遺伝子座若しくはハプロイドゲノム又はゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも100xの配列決定深度を指し得る。
【0115】
「癌のレベル」という用語は、癌が存在するか否か、癌の病期、腫瘍のサイズ、転移があるか否か、体の総腫瘍負荷、及び/又は癌の重篤度の他の尺度を指し得る。癌のレベルは、数字、又は、記号、アルファベット文字、及び色等の他のしるしであり得る。レベルは、ゼロであり得る。癌のレベルは、変異又はの変異の数に関連する前悪性症状又は前癌性症状(状態)も含む。癌のレベルは、様々な方法で使用され得る。例えば、スクリーニングによって、癌を有することを今まで知らなかった者において癌が存在するか否かをチェックすることができる。評価は、癌と診断されている者を検査して、癌の進行を経時的に監視し、療法の有効性を研究し、又は予後を判定し得る。いくつかの実施形態において、予後は、患者が癌で死亡する確率、又は特定の持続時間若しくは特定の時間後、癌が進行する確率、又は癌が転移する確率として表し得る。検出は、「スクリーニング」を意味し得るか、又は癌の示唆的な特徴(例えば、症状又は他の陽性検査結果)を有する者が癌を有するか否かをチェックすることを意味し得る。
【0116】
「病態のレベル」(又は障害のレベル)は、生物に関連する病態の量、程度、又は重篤度を指し得、そのレベルは、癌について上記で記述した通りであり得る。病態の別の例は、移植された臓器の拒絶反応である。他の病態の例としては、遺伝子インプリンティング障害、自己免疫発作(例えば、腎臓を損傷するループス腎炎又は多発性硬化症)、炎症性疾患(例えば、肝炎)、線維化プロセス(例えば、肝硬変)、脂肪浸潤(例えば、脂肪性肝疾患)、変性プロセス(例えば、アルツハイマー病)、及び虚血性組織損傷(例えば、心筋梗塞又は脳卒中)を含み得る。対象の健康な状態は、病態のない分類と見なし得る。
【0117】
「分離値」は、2つの値、例えば、2つの画分寄与又は2つのメチル化レベルを含む差又は比に対応する。分離値は単純な差又は比であり得る。分離値は他の因子、例えば、乗法的因子を含み得る。他の例として、値の関数の差又は比は、例えば、2つの値の自然対数(ln)の差として使用され得る。
【0118】
「分離値」及び「集計値」(例えば、相対頻度)は、異なる分類(状態)間で変化するサンプルの測定値を提供するパラメーター(メトリックとも呼ばれる)の2つの例であり、そのため異なる分類の特定に使用できる。集計値は、例えば、クラスタリングで行われるように、サンプルの1組の相対頻度と1組の参照相対頻度間で差が取られる場合の分離値であり得る。
【0119】
「相対存在量」は、ゲノム位置の1つのウィンドウ内で終了するある量(1つの値)の無細胞DNA分子を、ゲノム位置の別のウィンドウ内で終了するある量(他の値)の無細胞DNA分子と関連付ける分離値の1種に対応し得る。2つのウィンドウは重複し得るが、サイズが異なる。他の実施形態において、2つのウィンドウは重複しない。更に、ウィンドウの幅は、1ヌクレオチドであり得るため、1ゲノム位置に相当し得る。末端密度は、相対存在量の1種である。
【0120】
本明細書で使用される「分類」という用語は、サンプルの特定の特性に関連付けられた任意の数(複数可)又は他の文字(複数可)を指す。例えば、「+」記号(又は「陽性」という語)は、サンプルが欠失又は増幅を有すると分類されることを表し得る。分類は、二項分類(例えば、陽性又は陰性)であり得るか、又はより多くの分類レベル(例えば、1~10又は0~1のスケール)を有し得る。「カットオフ」及び「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを上回ると断片が除外されるサイズを指し得る。閾値は、それを上回る又は下回ると特定の分類が適用する値であり得る。これらの用語のいずれかは、これらの文脈のいずれかにおいて使用され得る。
【0121】
本明細書で使用される「パラメーター」という用語は、定量的データセット及び/又は定量的データセット間の数値関係を特徴付ける数値を意味する。例えば、第1核酸配列の第1量と第2核酸配列の第2量との比(又は比の関数)はパラメーターである。
【0122】
「サイズプロファイル」という用語は一般に、生体サンプル中のDNA断片のサイズに関する。サイズプロファイルは、様々なサイズの、ある量のDNA断片の分布を提供するヒストグラムであり得る。様々な統計パラメーター(サイズパラメーター又は単にパラメーターとも呼ばれる)は、1つのサイズプロファイルを別のサイズプロファイルと区別するために使用することができる。1つのパラメーターは、全てのDNA断片に対する、又は他のサイズ若しくは範囲のDNA断片に対する、特定のサイズ若しくはサイズ範囲のDNA断片の百分率である。
【0123】
「カットオフ」及び「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを上回ると断片が除外されるサイズを指し得る。閾値は、特定の分類が適用されるのを上回る又は下回る値であり得る。これらの用語のいずれかは、これらの文脈のいずれかにおいて使用され得る。カットオフ又は閾値は、「参照値」であり得るか、又は特定の分類を表すか若しくは2つ以上の分類間を区別する参照値から導き出され得る。かかる参照値は、当業者によって理解されるように、様々な方法で決定され得る。例えば、メトリックは、異なる既知の分類を有する対象の2つの異なるコホートについて決定され得、参照値は、1つの分類(例えば、平均)の代表として、又はメトリックの2つのクラスター間の値(例えば、所望の感度及び特異性を取得するために選択された)として選択され得る。別の例として、参照値は、サンプルの統計分析又はシミュレーションに基づいて決定され得る。カットオフ、閾値、参照等の特定の値は、所望の正確度(例えば、感度及び特異性)に基づいて決定することができる。
【0124】
略語「bp」は塩基対を指す。場合によっては、一本鎖であり塩基対を含まないDNA断片でも、「bp」はその長さを示すために使用できる。一本鎖DNAの文脈において、「bp」はヌクレオチドとしての長さを提供すると解してもよい。
【0125】
略語「nt」は、ヌクレオチドを指す。場合によっては、「nt」を使用して、塩基単位で一本鎖DNAの長さを示すことができる。また、「nt」は、分析される遺伝子座の上流又は下流等の相対位置を示すためにも使用され得る。二本鎖DNAについても、「nt」は、文脈が別段明確に示さない限り、2本の鎖におけるヌクレオチドの総数ではなく、一本鎖の長さを指し得る。技術的概念化、データ表示、処理及び分析に関する一部の文脈では、「nt」と「bp」は互換的に使用される場合がある。
【0126】
「動態特徴」という用語は、単一分子リアルタイム配列決定を含む配列決定から導き出される特徴を指し得る。このような特徴は、塩基修飾分析に使用することができる。動態特徴の例は、上流及び下流の配列構成、鎖情報、パルス間隔、パルス幅、及びパルス強度を含む。単一分子リアルタイム配列決定では、DNA鋳型に対するポリメラーゼの活性の影響を継続的に監視している。したがって、このような配列決定から生成された測定値は、動態特徴、例えば、ヌクレオチド配列と見なすことができる。
【0127】
「機械学習モデル」という用語は、サンプルデータ(例えば、訓練データ)を使用して試験データを予測することに基づくモデルを含み得るため、教師あり学習を含み得る。機械学習モデルは、コンピュータ又はプロセッサを使用して開発されることが多い。機械学習モデルは、統計モデルを含み得る。
【0128】
「データ分析フレームワーク」という用語は、データを入力として受け取り、次に予測結果を出力することができるアルゴリズム及び/又はモデルを含み得る。「データ分析フレームワーク」の例としては、統計モデル、数学的モデル、機械学習モデル、他の人工知能モデル、及びそれらの組み合わせを含む。
【0129】
「リアルタイム配列決定」という用語は、配列決定に関与する反応の進行中にデータ収集又は監視を伴う技術を指し得る。例えば、リアルタイム配列決定は、新しい塩基を組み込むDNAポリメラーゼの光学的監視又は撮影を伴う場合がある。
【0130】
「約」又は「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定若しくは決定方法、即ち測定システムの制限に部分的に依存する。例えば、「約」は、当分野の慣例により、1つ以内又は1つより多くの標準偏差を意味し得る。あるいは、「約」は、所与の値の最大20%、最大10%、最大5%、又は最大1%の範囲を意味し得る。あるいは、特に生物学的システム又はプロセスに関して、「約」又は「およそ」という用語は、値の1桁以内、5倍以内、より好ましくは2倍以内を意味し得る。本出願及び特許請求の範囲に特定の値が記載されている場合、特に明示しない限り、「約」という用語は特定の値の許容誤差範囲内を意味すると想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は±10%を指し得る。「約」という用語は、±5%を指し得る。
【0131】
値の範囲が提供される場合、文脈が別段明確に示さない限り、その範囲の上限と下限との間の各介在する値も、下限の10分の1まで具体的に開示されていることが理解される。示された範囲における任意の示された値又は介在する値と、その示された範囲における任意の他の示された又は介在する値との間の各より小さな範囲が本開示の実施形態内に包含される。これらのより小さな範囲の上限及び下限は、独立して範囲に含まれるか除外されてもよく、どちらか一方、両方の限界がより小さな範囲に含まれるか、又はどちらも含まれない各範囲も、示された範囲内で特に除外される任意の限界を条件として、本開示内に包含される。示された範囲が一方又は両方の限界を含む場合、それらの限界のいずれか又は両方を除外する範囲も本開示に含まれる。
【0132】
標準略語は使用され得、例えば、bpは塩基対、kbはキロ塩基、piはピコリットル、s又はsecは秒間、minは分間、h又はhrは時間、aaはアミノ酸、ntはヌクレオチド、等である。
【0133】
特に定義されない限り、本明細書で使用される全ての技術用語と科学用語は、本開示が属する分野の当業者に一般的に理解されるのと同じ意味である。本明細書に記載の場合と類似又は相当する任意の方法及び材料が本開示の実施形態の実施又は試験において使用できるが、ここでいくつかの可能な例示的方法及び材料を説明する。
【0134】
本技術は、癌を有する対象及び癌を有さない対象の血漿サンプル中の長い無細胞DNA分子の存在、存在量及び配列特徴を分析することを含む。そして、これらの特徴は、対象の疾患分類を特定するために使用できる。これらの長い無細胞DNA分子を使用することで、より短い無細胞DNA断片では意図されない又は不可能な分析が可能になる。例えば、メチル化CpG部位及び一塩基多型(SNP)の状態は、生体サンプルのDNA断片を分析するために使用されることが多い。CpG部位及びSNPは、典型的に、最も近いCpG部位又はSNPから数百又は数千の塩基対離れている。生体サンプル中の大部分の無細胞DNA断片の長さは、通常、200bp未満である。その結果、大部分の無細胞DNA断片上で2つ以上の連続したCpG部位又はSNPを見つけることは、殆ど不可能又は不可能である。600bp又は1kbより長いものを含めて、200bpより長い無細胞DNA断片は、複数のCpG部位及び/又はSNPを含み得る。長い無細胞DNA断片上の複数のCpG部位及び/又はSNPの存在により、短い無細胞DNA断片のみの場合よりも効率的及び/又は正確な分析が可能になる。
【0135】
いくつかの実施形態において、無細胞DNA分子のメチル化パターンは、対象の疾患の分類を特定するために使用される。無細胞DNA分子のメチル化パターンは、1組の部位(例えば、少なくとも3つのCpG部位)のメチル化状態を含み得る。メチル化状態は、対応する部位がメチル化されたか否かを示すことができる。メチル化パターンを特定するために、メチル化認識配列決定(例えば、単一分子配列決定、ナノポア配列決定)を使用して生体サンプルを配列決定して配列リードを取得してもよく、ここで配列リードの各々はそれぞれのメチル化パターンを含む。長い無細胞DNA分子(例えば、サイズが600bpより大きい)は、比較的多いCpG部位(例えば、少なくとも3つのCpG部位)を含み得るので使用できる。
【0136】
配列リードの各々について、配列リードのメチル化パターンを1つ又は複数の参照メチル化パターンと比較する。1つ又は複数の参照メチル化パターンの各々は、複数の組織型のうちの組織型と関連付けてもよい。いくつかの実例において、1つ又は複数の参照メチル化パターンのうちの参照メチル化パターンは分類が既知の疾患と関連付けられる。例えば、比較は、(i)1組の部位の各部位について、配列リードのCpG部位のメチル化状態と対応するCpG部位の参照メチル化パターンのメチル化指数との間の類似度メトリックを決定すること、及び(ii)類似度メトリックに基づいて配列リードの集計値(例えば、合計)を生成することを含み得る。比較に基づき、配列リードの組織分類(例えば、肝臓)を、配列リードのメチル化パターンに最も一致する参照メチル化パターンに基づいて特定することができる。引き続きこの例では、メチル化パターンに最も一致する参照メチル化パターンは、該参照メチル化パターンの集計値が他の参照メチル化パターンの1つ又は複数の他の集計値より大きい場合に、決定できる。組織分類プロセスは、配列リードの組織分類が特定されるまで、配列リードごとに繰り返してもよい。その後、疾患分類を組織分類に基づいて特定できる。例えば、疾患分類は、特定の組織分類(例えば、肝臓、肺、結腸)を有すると分類された配列リードの量に基づいて特定できる。
【0137】
いくつかの実例において、各配列リードのメチル化パターンは機械学習モデルに入力されて配列リードの組織分類を示す出力を生成する。分類は、組織型の特性(例えば、該組織型に由来すると分類された配列リードの量)を特定するために使用できる。組織型の特性は、該組織型に関連する疾患の疾患状態を同定することもできる。
【0138】
いくつかの実例において、無細胞DNA分子において検出されたメチル化パターン及び1つ又は複数のバリアント(例えば、多型)は、起源組織を特定するために使用される。例えば、いくつかの血漿DNA分子は、白血球に存在しない変異を持ち得る。しかし、それらのそれぞれのメチル化パターンに基づいてこれらの血漿DNA分子が肝臓組織に関連すると特定できる。いくつかの実例において、バリアント及びメチル化パターンは機械学習モデルに入力されて出力を生成し、ここで出力は無細胞DNA分子の起源組織を特定するために用いられる。
【0139】
無細胞DNA分子において検出されたメチル化パターン及び1つ又は複数のバリアント(例えば、多型)は共に使用して癌の分類を特定することができる。例えば、血漿DNA分子のバリアント(例えば、一塩基バリアント)及びこれらのバリアント周囲の配列のそれぞれのメチル化パターン(例えば、多数の非メチル化状態)は、一緒に使用して肝細胞癌(HCC)の分類を特定することができる。
【0140】
いくつかの実施形態において、長い無細胞DNA分子の量は、対象の癌の分類を特定するために使用される。例えば、各無細胞DNA分子のサイズが測定される。サイズ範囲(例えば、1000bpより大きいサイズ)内のサイズを有する無細胞DNA分子の量を特定してもよい。正規化されたパラメーターは、無細胞DNA分子の特定された量から決定できる。例えば、正規化されたパラメーターは、第1量を第2サイズ範囲(例えば、150bp未満のサイズ)内の無細胞DNA分子の第2量で正規化することで決定できる。いくつかの実例において、正規化されたパラメーターは第1量と第2量の比率値である。そして、正規化されたパラメーターは癌のレベルを特定するために使用できる。
【0141】
いくつかの実施形態において、無細胞DNA分子の末端モチーフの頻度は疾患の分類を特定するために使用される。生体サンプルは、配列リードを取得するために配列決定される。配列リードの各々について、配列リードの終了配列の各々の配列モチーフ(例えば、CCCA)を特定してもよい。その後、1組のN個の配列モチーフの各配列モチーフについて、相対頻度を特定してもよい。例えば、配列モチーフの相対頻度は、1組のN個の配列モチーフの他の配列モチーフに対応する終了配列を有する無細胞DNA分子の数に対する、配列モチーフに対応する終了配列を有する無細胞DNA分子の割合に基づいて特定できる。
【0142】
N個の頻度のベクターは1組のN個のモチーフの相対頻度を使用して特定してもよく、ここでN個の頻度の各々は互いに正規化されるか又は参照サンプルの群内の配列モチーフの他の頻度に正規化される。ベクターは複数の参照ベクターと比較してもよい。比較は、ベクターと複数の参照ベクターのうちの参照ベクターとの距離を特定することを含み得る。複数の参照ベクターの各々は疾患の分類が既知の参照サンプルを使用して決定される。比較に基づき、対象の疾患の分類を特定できる。例えば、分類は、N個の頻度のベクターとの距離が最も短いと特定された特定の参照ベクターの疾患分類を選択することを含み得る。
【0143】
いくつかの実施形態において、異なるサイズ範囲を有する無細胞DNA分子の末端モチーフ頻度は疾患の分類を特定するために使用される。1つ又は複数の配列モチーフ(例えば、CCCA)について、第1モチーフ頻度は、第1サイズ範囲(例えば、1kbより大きいサイズ)内の無細胞DNA分子について特定してもよく、第2モチーフ頻度は第2サイズ範囲(例えば、200bp未満のサイズ)内の無細胞DNA分子について特定してもよい。分離値(例えば、比率値)は、第1モチーフ頻度及び第2モチーフ頻度に基づいて特定できる。分離値は疾患の分類を特定するために使用できる。例えば、分離値は、疾患の分類が既知の参照サンプルを使用して決定されたカットオフ値と比較してもよい。別の例において、分離値は、疾患分類を特定するために機械学習モデルを使用して処理してもよく、ここで機械学習モデル(例えば、ロジスティック回帰、サポートベクターマシン)は疾患の分類が既知の訓練サンプルを使用して訓練されたものである。
【0144】
いくつかの実施形態において、機械学習モデルは、訓練データセットの様々な特徴を使用して訓練されて第1組織及び他の組織からのリードを区別する。区別に基づき、癌分類を特定できる。配列リードは血漿DNAサンプルから取得してもよい。いくつかの実例において、少なくともいくつかの配列リードは閾値サイズ(例えば、600bp)より大きい長さを有する。各配列リードについて、1つ又は複数の特徴が特定される。1つ又は複数の特徴は、配列リードについて、参照ゲノムにおける末端の位置、配列構成、サイズ、1つ又は複数の末端での配列モチーフ、又はDNAメチル化パターンを含み得る。特徴は訓練された機械学習モデルに入力してもよい。機械学習モデルは、配列リードの分類を特定するために使用できる出力を生成できる。分類は、配列リードが第1組織型に由来するかそれとも別の組織型に由来するかを同定できる。その後、配列リードの分類は、疾患の分類を特定するために使用してもよい。例えば、第1組織型に由来すると分類された配列リードの量を特定してもよく、該量を疾患分類の特定に使用してもよい。
【0145】
いくつかの実施形態において、無細胞DNA分子の単一分子メチル化レベルは、対象の病態のレベルを特定するために使用される。例えば、メチル化部位の百分率は、複数の無細胞DNA分子の各DNA分子について特定される。いくつかの実例において、複数の無細胞DNA分子は閾値(例えば、500bp)を上回るサイズを有する。複数の無細胞DNA分子のメチル化部位の特定された百分率は、統計値(例えば、代表値、中央値)を決定するために使用できる。統計値は病態を特定するために参照と比較してもよい。
【0146】
長い無細胞DNA分子の分析は、これまで未踏の癌検出及び評価に付加価値を提供できる。無細胞DNA分子が長いほど、CpG部位が多く存在するため、短い分子よりも、そのメチル化パターン、プロファイル又はハプロタイプの特異性が高くなれる。したがって、メチル化及び非メチル化部位順の順列は大幅に大きくなる。これにより、任意の特定の組織を起源とするDNA分子の同定、つまり起源組織分析が改善できる。
【0147】
かかる起源組織分析は、ショートリード配列決定を使用して短い無細胞DNA分子を分析するこれまで知られていた技術とは区別される。短い無細胞DNA分子上の限られた数のCpG部位により、以前の方法は、短い無細胞DNA分子の集団/複数の短い無細胞DNA分子に対して集団統計を使用して血漿サンプル中の無細胞DNA含有量のメチル化プロファイルを組み立てていた。このアプローチでは、様々な組織又は臓器を起源とする無細胞DNA分子の相対的な寄与度を推測することしかできなかった。長い無細胞DNA分子上の数がより多いCpG部位によって付与されたDNAメチル化パターン特異性により、このような個別の長い無細胞DNA分子の起源組織の特定が実行可能であると考えられる。言い換えれば、個別の分子は起源組織又は起源臓器に割り当てられ得る。
【0148】
長い無細胞DNA分子を分析する別の予想される利点は、該分子上の配列バリアントを同分子上の隣接CpGのメチル化情報と結び付けることができる潜在力にある。実際、長い無細胞DNA分子の分析では、かかる分子上で2つ以上の分子的(例えば先天的又は後天的)特徴の分析が可能である。例としては、(i)2つ以上の配列バリエーション(例えば点変異、マイクロサテライトバリエーション等)、(ii)2つ以上の後天的バリエーション(例えば2つ以上の高又は低メチル化CpG部位)、及び(iii)先天的及び後天的変化の異なる組み合わせを含む。加えて、悪性腫瘍は細胞死率がより高いと知られているため、腫瘍から放出された長い無細胞DNA分子の存在量は、非腫瘍組織と異なる場合がある。本開示では、癌及び自己免疫疾患、臓器移植拒絶反応、外傷、虚血、壊死等に限定されない多くの他の疾患の検出及び監視を可能にするために、長い無細胞DNA断片を分析するいくつかのアプローチが発明されている。いくつかの実施形態において、本開示で提示されるアプローチは予後、リスク階層化、治療指導等に使用され得る。
I.長い無細胞DNA分子を分析するための技術
【0149】
癌を有する患者及び癌を有さない対象の血漿サンプルから無細胞DNAを採取した。かかる無細胞DNAを、メチル化ハプロタイプ分析、個別の血漿DNA分子の起源組織、断片サイズプロファイリング、血漿DNA末端分析、不揃い末端分析、マイクロサテライト不安定性等に限定されない様々な分析のために単一分子配列決定に供した。長い無細胞DNA分子の様々な特徴(例えば、メチル化状態、不揃い末端)を同定するための技術に関する情報は、全ての内容があらゆる目的で参照によって本明細書に組み込まれる米国特許出願第16/995,607号に更に記載されている。
A.生体サンプル中の長い無細胞DNA分子の検出
【0150】
図1は、いくつかの実施形態に係る、長い無細胞DNA分子を分析する一例の概要を図示する概略
図100を示す。一例において、分析は、配列決定、例えば、単一分子配列決定を含み得る。単一分子配列決定は、単一分子リアルタイム配列決定(即ちSMRT-seq)(例えばPacific Biosciences、PacBio SMRT-seqによる)及びナノポア配列決定(例えばOxford Nanopore Technologiesによる)を含み得るが、それらに限定されない。各配列決定されたDNA分子のヌクレオチドは、配列決定プロセス中に生成された電気信号又は光信号に応じて同定できる。同定されたヌクレオチドは対応する長い無細胞DNA分子の後続の分析に使用できる。追加的に又は代替的に、他の配列決定技術を使用して長い無細胞DNAを検出してもよい。例えば、クラスターベースの配列決定は、所与の断片の各末端(例えば、200bp以上)を配列決定することで、同定されたヌクレオチド配列(例えば、400bp以上)の配列リードを生成することを含み得る。
【0151】
例えば、血漿DNAの長さは配列に存在するヌクレオチドの数を計数することで特定され得る。血漿DNAの4-mer末端モチーフはその末端で4ヌクレオチドを分析することで特定され得る。同様に、いくつかの実施形態において、1-mer、2-mer、3-mer、5-mer、6-mer、7-mer、8-mer、9-mer、10-mer、15-mer、20-mer、又は他の組み合わせに限定されない末端モチーフの他のタイプは使用され得る。
【0152】
いくつかの実施形態において、癌対象と非癌対象の間の血漿DNA分子の分析も不揃い末端(即ち一本鎖の突出末端(複数可)を持つ元の二本鎖)及びマイクロサテライト不安定性を含み得る。マイクロサテライト不安定性とは、通常1~6ヌクレオチド反復のマイクロサテライトが、1つ又は複数のヌクレオチドの欠失/挿入に対応する変異を蓄積するゲノム変化を指す。
【0153】
いくつかの実施形態において、PacBio SMRT-seqを使用すると、血漿DNA分子における一連のCpG部位にわたってメチル化状態を、以前に刊行したアプローチ(Tse et al. Proc Natl Acad Sci USA. 2021;118: e2019768118)に限定されないアプローチに従って測定ウィンドウにおけるDNAポリメラーゼ動態信号を分析することで、特定することができる。追加的に又は代替的に、ナノポア配列決定を使用すると、血漿DNA分子における一連のCpG部位にわたってメチル化状態を、米国出願第63/173,728号に提示されたツール、刊行したアプローチ、例えばオープンソースソフトウェアNanopolish(Simpson et al. Nat Methods. 2017;14:407-410)、DeepMod(Liu et al. Nat Commun. 2019;10:2449)、Tombo(Stoiber et al. BioRxiv. 2017:p.094672)、DeepSignal(Ni et al. Bioinformatics. 2019;35:4586-4595)、Guppy(github.com/nanoporetech)、Megalodon(github.com/nanoporetech/megalodon)等に限定されないものに従って、ナノポアを通過するDNA分子に応じて電気信号を分析することで、特定することができる。いくつかの実施形態において、メチル化パターンは、化学変換(例えば亜硫酸水素塩)又は酵素変換(例えばTET2及びAPOBEC)の処理及びそれに続くPacBio SMRT-seq及び/又はナノポア配列決定により取得され得る。酵素変換により、非メチル化シトシンは、チミンとして増幅及び配列決定されるウラシルに変換されるが、メチル化シトシンは不変のままである。よって、メチル化状態は、参照ゲノムにおけるCpG部位全体にわたってチミン(非メチル化シグナル)又はシトシン(メチル化シグナル)を検出することで特定できる。
【0154】
いくつかの実施形態において、配列決定されたリードはMinimap2(Li H. Bioinformatics. 2018;34(18):3094-3100)を使用してヒト参照ゲノムにアライメントされる。いくつかの実施形態において、配列決定されたリードを参照ゲノムにアライメントさせるために、BLASR(Mark J Chaisson et al. BMC Bioinformatics. 2012; 13: 238)、BLAST(Altschul SF et al. J Mol Biol. 1990;215(3):403-410)、BLAT(Kent WJ. Genome Res. 2002;12(4):656-664)、BWA(Li H et al. Bioinformatics. 2010;26(5):589-595)、NGMLR(Sedlazeck FJ et al. Nat Methods. 2018;15(6):461-468)、及びLAST(Kielbasa SM et al. Genome Res. 2011;21(3):487-493)が使用される。いくつかの実施形態において、配列決定されたリードのアライメントは使用されない。
B.長い無細胞DNA分子のメチル化状態の特定
【0155】
本明細書に記載のように、CpG部位全体にわたるメチル化状態は、SMRT配列決定中に生成された動態特徴を分析することで取得することができる。例えば、例示の目的でPacific Biosciences SMRT配列決定を単一分子リアルタイム配列決定の例とすると、DNAポリメラーゼ分子がゼロモード導波路(ZMW)として機能するウェルの底部に配置される。ZMWは、光を小さな観測量に閉じ込めるためのナノ光デバイスであり、直径が非常に小さな穴であり得、検出に使用される波長範囲の光の伝播を許容せず、それによって、固定化ポリメラーゼによって組み込まれた色素標識ヌクレオチドからの光信号の発光のみが、低い一定のバックグラウンド信号に対して検出可能となる(Eid et al., 2009)。DNAポリメラーゼは、蛍光標識ヌクレオチドの相補的な核酸鎖への組み込みを触媒する。
【0156】
図2は、単一分子リアルタイム配列決定によって配列決定されたメチル化及び/又は非メチル化CpG部位を持つ分子200の例を示す。DNA分子は、固定化DNAポリメラーゼに結合する環状化分子を形成しDNA合成を開始するように、最初にヘアピンアダプターに連結された。
図2中、DNA分子202は、ヘアピンアダプターに連結されて連結分子204を形成する。その後、連結分子204は環状化分子206を形成する。CpG部位を有さない分子も配列決定され得る。環状化分子206は、依然として配列決定され得る非メチル化CpG部位208を含む。
【0157】
血漿DNA分子におけるCpG部位全体にわたるメチル化状態(本明細書でメチル化ハプロタイプという)が特定されていると、血漿DNA分子のメチル化ハプロタイプを様々な組織のメチル化ハプロタイプと比較してその血漿DNA分子の起源組織を特定することができる。言い換えれば、メチル化ハプロタイプを、単一DNA分子における1つ又は複数のCpG部位にわたるメチル化パターンと定義した。例えば、「-M-U-M-M-M-」はメチル化ハプロタイプを表し、メチル化CpGとそれに続く非メチル化CpGとそれに続く3つの連続したメチル化CpG部位を示した。「-M-U-M-M-M-」及び「-M-U-M-M-U-」のメチル化ハプロタイプ情報は異なった。前述した組織としては、好中球、T細胞、B細胞、巨核球、赤血球、単球、NK細胞、肝臓、肺、食道、心臓、膵臓、結腸、小腸、脂肪組織、副腎、脳、乳房、腎臓、膀胱、甲状腺、前立腺、子宮等を含み得るが、それらに限定されない。組織は、膀胱癌、乳癌、結腸及び直腸癌、子宮内膜癌、腎臓癌、白血病、肝臓癌、肺癌、黒色腫、非ホジキンリンパ腫、膵臓癌、前立腺癌、甲状腺癌等のような癌に関与し得るが、それらに限定されない。
1.動態特徴
【0158】
本開示に記載の方法のいくつかの実施形態は、測定ウィンドウ内の全ての塩基のパルス間隔(IPD)、パルス幅(PW)、及び配列構成を測定・利用することに基づくものである。複数のメトリックの組み合わせを使用できれば、例えば、上流及び下流配列構成、鎖情報、IPD、パルス幅並びにパルス強度等の特徴を同時に利用できれば、単一塩基分解能での塩基修飾の正確な測定(例えばmC検出)を達成できる可能性があると推測した。配列構成とは、DNAのストレッチにおける塩基組成(A、C、G、又はT)及び塩基順序を指す。かかるDNAのストレッチは、塩基修飾分析の対象又は標的である塩基を囲み得る。1つの実施形態において、DNAのストレッチは、塩基修飾分析の対象である塩基に近接し得る。別の実施形態において、DNAのストレッチは、塩基修飾分析の対象である塩基から遠く離れ得る。DNAのストレッチは、塩基修飾分析の対象である塩基の上流及び/又は下流にあり得る。
【0159】
1つの実施形態において、塩基修飾分析に使用するための上流及び下流配列構成、鎖情報、IPD、パルス幅並びにパルス強度の特徴は、動態特徴と呼ばれる。
【0160】
修飾及び/又は塩基を酵素的に又は化学的に変換することなく、塩基における修飾を検出する技術が求められる。本明細書に記載のように、標的塩基における修飾は、標的塩基周囲の塩基の単一分子リアルタイム配列決定から取得された動態特徴データを使用して検出され得る。動態特徴は、パルス間隔、パルス幅、及び配列構成を含み得る。これらの動態特徴は、標的塩基の上流及び下流の一定数のヌクレオチドの測定ウィンドウについて取得され得る。(例えば、測定ウィンドウにおける特定の位置での)これらの特徴は、機械学習モデルの訓練に使用できる。サンプル調製の例として、DNA分子の2本の鎖をヘアピンアダプターに接続することで、環状DNA分子を形成してもよい。環状DNA分子により、Watson及びCrick鎖のいずれか又は両方の動態特徴を取得することが可能になる。測定ウィンドウにおける動態特徴に基づいてデータ分析フレームワークを開発することができる。このデータ分析フレームワークは、メチル化を含む修飾の検出に使用され得る。本セクションでは修飾を検出するための様々な技術を説明する。
【0161】
図3は、いくつかの実施形態に係る、無細胞DNA分子の動態特徴を特定するプロセス例を図示する概略
図300を示す。
図3に示すように、例として、Pacific Biosciences SMRT配列決定からWatson鎖のサブリードを取得して塩基修飾の状態に関して1つの特定の塩基を分析した。
図3中、塩基修飾分析に供された塩基の各側からの3塩基は測定ウィンドウ300と定義される。1つの実施形態において、これら7塩基(即ち塩基修飾分析のための3ヌクレオチド(nt)の上流配列及び下流配列並びに1つのヌクレオチド)の配列構成、IPD、及びPWを、測定ウィンドウとしての2次元(即ち2D)行列内にコンパイルした。示される例において、測定ウィンドウ300はWatson鎖の1つのサブリードに用いられる。他の変形は本明細書で説明される。
【0162】
行列の1行目302は、試験された配列を示した。行列の2行目304において、0の位置は塩基修飾分析用の塩基を表した。-1、-2、及び-3の相対位置は、それぞれ、塩基修飾分析に供された塩基の上流の位置1-nt、2-nt、及び3-ntを示した。+1、+2、及び+3の相対位置は、それぞれ、塩基修飾分析に供された塩基の下流の位置1-nt、2-nt及び3-ntを示した。各位置は、対応するIPD及びPW値を含有する2列を含む。次の4行(行308、312、316、及び320)は、それぞれ、鎖(例えばWatson鎖)におけるヌクレオチドの4タイプ(A、C、G、及びT)に対応した。行列におけるIPD及びPW値の存在は、特定の位置でどの対応するヌクレオチドタイプが配列決定されたかに依存した。
図3に示すように、0の相対位置で、IPD及びPW値はWatson鎖において「G」を示す行に表示され、これは、その位置での配列結果においてグアニンが判読されたことを示唆する。配列決定された塩基に対応しない列における他の格子は、「0」とコード化される。例として、2Dデジタル行列(
図3)に対応する配列情報は、Watson鎖について5’-GATGACT-3’である。
【0163】
図4は、いくつかの実施形態に係る、無細胞DNA分子の動態特徴を特定する別のプロセス例を図示する概略
図400を示す。
図4に記載の1つの実施形態に示すように、測定ウィンドウをCrick鎖からのデータに適用してもよい。単一分子リアルタイム配列決定からCrick鎖のサブリードを取得して塩基修飾の状態に関して1つの特定の塩基を分析した。
図4中、塩基修飾分析に供された塩基の各側からの3塩基及び塩基修飾分析に供された塩基は測定ウィンドウと定義される。1つの実施形態において、これら7塩基(即ち塩基修飾分析のための3ヌクレオチド(nt)の上流配列及び下流配列並びに1つのヌクレオチド)の配列構成、IPD、PWを測定ウィンドウとしての2次元(即ち2D)行列にコンパイルした。
【0164】
行列の1行目は試験された配列を示した。行列の2行目において、0の位置は、塩基修飾分析用の塩基を表した。-1、-2、及び-3の相対位置は、それぞれ、塩基修飾分析に供された塩基の上流の位置1-nt、2-nt及び3-ntを示した。+1、+2、及び+3の相対位置は、それぞれ、塩基修飾分析に供された塩基の下流位置1-nt、2-nt及び3-ntを示した。各位置は、対応するIPD及びPW値を含有する2列を含む。次の4行は、この鎖(例えばCrick鎖)におけるヌクレオチドの4タイプ(A、C、G、及びT)に対応した。行列におけるIPD及びPW値の存在は、特定の位置でどの対応するヌクレオチドタイプが配列決定されたかに依存した。
図4に示すように、0の相対位置で、IPD及びPW値はCrick鎖において「T」を示す行に表示され、これは、その位置での配列結果においてチミンが判読されたことを示唆する。配列決定された塩基に対応しない列における他の格子は「0」とコード化される。例として、2Dデジタル行列(
図4)に対応する配列情報は、Crick鎖について5’-ACTTAGC-3’である。
2.機械学習モデル
【0165】
機械学習モデルについて、サブリードの入力データ構造は訓練に使用できる。入力データ構造は、サンプル核酸分子において配列決定されたヌクレオチドのウィンドウに対応し得る。訓練セットは、メチル化状態が既知の部位を有してもよい。各訓練サンプルは、第1の複数の第1データ構造の1つ及び標的位置でのヌクレオチドの修飾(例えば、メチル化)の第1状態を示すラベルを含み得る。訓練は、第1の複数の第1データ構造及び任意に第2の複数の第2データ構造がモデルに入力される時、第1ラベル及び任意に第2ラベルのうちの対応するラベルにマッチする又はマッチしないモデルの出力に基づいてモデルのパラメーターを最適化することで、行われる。モデルの出力は、それぞれのウィンドウにおける標的位置でのヌクレオチドが修飾を有するか否かを指定する。いくつかの実施形態において、モデルの出力は、複数の状態の各々にある確率を含み得る。最も高い確率を有する状態はその状態と取ることができる。
【0166】
モデルは、畳み込みニューラルネットワーク(CNN)を含み得る。CNNは、第1の複数のデータ構造及び任意に第2の複数のデータ構造をフィルタするように構成された1組の畳み込みフィルタを含み得る。フィルタは、本明細書に記載の任意のフィルタであり得る。各層のフィルタの数は、10~20、20~30、30~40、40~50、50~60、60~70、70~80、80~90、90~100、100~150、150~200、又はそれ以上であり得る。フィルタのカーネルサイズは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、15~20、20~30、30~40、又は以上であり得る。CNNは、フィルタされた第1の複数のデータ構造及び任意にフィルタされた第2の複数のデータ構造を受信するように構成された入力層を含み得る。CNNは、複数のノードを含む複数の隠れ層も含み得る。複数の隠れ層の最初の層が入力層に結合された。CNNは、複数の隠れ層の最後の層に結合され、出力データ構造を出力するように構成された出力層を更に含み得る。出力データ構造は特性を含み得る。
【0167】
モデルは、教師あり学習モデルを含み得る。教師あり学習モデルは、分析的学習、人工ニューラルネットワーク、誤差逆伝播、ブースティング(メタアルゴリズム)、ベイズ統計、事例ベース推論、決定木学習、帰納論理プログラミング、ガウス過程回帰、遺伝的プログラミング、データ処理のグループ法、カーネル推定器、学習オートマトン、学習分類器システム、最小メッセージ長(決定木、決定グラフ等)、多重線形部分空間学習、ナイーブベイズ分類器、最大エントロピー分類器、条件付き確率場、最近傍アルゴリズム、確率的で近似的に正しい学習(PAC)学習、リップルダウンルール、知識獲得法論、シンボリック機械学習アルゴリズム、サブシンボリック機械学習アルゴリズム、サポートベクトルマシン、最小複雑性マシン(MCM)、ランダムフォレスト、分類器のアンサンブル、通常分類、データ事前処理、不均衡データセットの処理、統計的関係学習、又は多基準分類アルゴリズムProaftnを含む、様々なアプローチ及びアルゴリズムを含み得る。モデルは、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば、長短期メモリ、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、K平均クラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクターマシン(SVM)、又は本明細書に記載の任意のモデルであり得る。
II.長い無細胞DNA分子の頻度ベースの分析
【0168】
血漿中に存在する長い無細胞DNA分子の量は、特定の対象の疾患状態に依存し得る。例えば、肝細胞癌(HCC)を有する対象の生体サンプル中に存在する長い無細胞DNA分子の第1量は、B型肝炎ウイルス(HBV)保菌者である別の対象の生体サンプル中に存在する長い無細胞DNA分子の第2量より小さい場合がある。このため、HCC患者及びHBV保菌者の長い無細胞DNA分子は、単一分子リアルタイム配列決定(例えば、PacBioシーケンサーによる)を使用して配列決定してこれらの量ベースの特徴を同定することができる。
【0169】
いくつかの実施形態において、長いDNA分子は、500bp、600bp、1kb、2kb、3kb、4kb、5kb、10kb以上、又は10kbを上回る長さを有するDNA分子として定義される。いくつかの実例において、長いDNA分子は、サイズ範囲内のサイズを有すると定義される。サイズ範囲は、下限及び上限を含み得る。下限は、長いDNA分子と見なされる無細胞DNA分子の最小サイズを同定する。例えば、サイズ範囲の下限は、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも600bp、少なくとも700bp、少なくとも800bpを含む。逆に、上限は、長いDNA分子と見なされる無細胞DNA分子の最大サイズを同定する。例えば、サイズ範囲の上限は、少なくとも500bp、600bp、1kb、2kb、3kb、4kb、5kb、10kb、又は10kb以上を含む。いくつかの実例において、サイズ範囲は下限のみを指定し、上限を指定しない。上記の長さは非限定的であり、他のタイプの長さが考慮され得る。
A.長い無細胞DNA分子を用いた頻度ベースの分析と短い無細胞DNA分子を用いた頻度ベースの分析との比較
【0170】
慢性B型肝炎感染症を有する5人の患者(HBV保菌者)及びHCCを有する19人の患者からの血漿DNAサンプルを、SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)を用いた単一分子リアルタイム(SMRT)配列決定鋳型構築に供した。DNAを1.8×AMPure PBビーズで精製し、TapeStation装置(Agilent)を使用してライブラリサイズを推定した。配列決定プライマーのアニーリング及びポリメラーゼの結合条件をSMRT Link v10.1ソフトウェア(Pacific Biosciences)で計算した。要するに、配列決定プライマーv4を配列決定鋳型にアニールし、その後Sequel II Binding Kit 2.1及びInternal Control Kit 1.0(Pacific Biosciences)を使用してポリメラーゼを鋳型に結合した。配列決定をSMRT Cell 8M上で行った。Sequel II Sequencing 2.0 Kit (Pacific Biosciences)を使用して配列決定の動画を30時間収集した。中央値が314,477の配列決定されたリード(四分位範囲(IQR):128,791~561,018)を取得した。血漿DNA分子におけるCpG部位全体にわたるDNAメチル化状態を、HKモデル(Tse et al. Proc Natl Acad Sci USA. 2021;118; e2019768118)に従って特定した。比較のために、ショートリード配列決定(例えば、Illumina配列決定)を同血漿DNAサンプルに対して行った。各配列リードの長さを、HCCサンプルに対応する配列リードについて特定した。500bpを上回る長さを有する配列リードのサイズ分布を、Illuminaシーケンサー結果及びSMRT配列結果ごとに同定した。
【0171】
図5は、いくつかの実施形態に係る、様々な配列決定技術にわたって500bpより大きい長さを有する血漿DNA断片の割合を同定するグラフ500を示す。
図5は、HCCを有する患者における>500bpの血漿DNA断片の割合が、Illumina配列決定結果(中央値:0.68%、範囲:0.34%~1.24%)よりも、単一分子リアルタイム配列決定(SMRT-seq)結果(中央値:22.88%、範囲:11.64%~40.46%)の方が遥かに高いことを示す(P値<0.0001、マンホイットニーU検定)。データは、Illumina配列決定に基づいては調査できなかった実質的な量の長い血漿DNA分子が存在することを示唆した。
【0172】
図6は、1人のHCC対象602及び1人のHBV保菌者604のサイズ分布を図示する折れ線グラフ600を示す。SMRT-seqを使用してサンプルの各々の配列リードを生成した。Y軸は、対数スケール(例えば、サイズ分布の正規化されたパラメーター)で示される頻度値に対応する。両方のサイズプロファイルとも、166bp、333bp、500bp、663bp、830bp、994bp等でのヌクレオソームサイズのピークを表示した。1kbより長い長DNAの頻度は、HBV保菌者よりも、HCCを有する患者の方が速く低下するようであった。いくつかの実施形態において、サイズプロファイルの変化を利用してHCCを有する患者と有さない患者を区別することができる。
【0173】
上記の結果は、腫瘍サンプルのサイズ分布が疾患分類に使用できることを示す。いくつかの実例において、サンプルが癌を含むか否かを分類するためにカットオフが決定される。カットオフは、特定の長さ(例えば、600bp)以上の長さを有する無細胞DNA分子の特定の量又は頻度を表す正規化されたパラメーターに対応し得る。
B.長いDNA分子の頻度に基づく疾患の組織学的状態予測
【0174】
HCCにおける血管浸潤は全身性腫瘍播種の前提条件であり、移植又は腫瘍切除後の腫瘍再発の最良の予測因子である(Thuluvath. J. Clin. Gastroenterol. 2009;43:101-2)。循環血漿DNA濃度が血管浸潤状態(Huang et al. Pathol. Oncol. Res. 2012;18: 271-276)及び腫瘍関連変異(Oversoe et al. Scand. J. Gastroenterol. 2020;55:1433-1440; Liao et al. Oncotarget. 2016; 7:40481-40490)に相関することを示唆したいくつかの試験があるが、cfDNAのサイズ特徴が血管浸潤に関連するか否かは不明である。
【0175】
DNA分子における血管浸潤に関連するサイズ特徴を探究するために、単一分子リアルタイム配列決定を使用してHCC患者における血漿DNAを試験した。コホートにおいて、18人の患者が血管浸潤を有したが、27人の患者が血管浸潤を有さなかった。
図7は、血管浸潤を有するHCC患者702及び血管浸潤を有さないHCC患者704について所与のサイズを上回るcfDNA断片の百分率を同定する棒グラフ700を示す。赤棒は、血管浸潤を有するHCC症例を示し、青緑棒は、血管浸潤を有さないHCC症例を示す。加えて、x軸は、所与のサイズカットオフ(例えば、200bp、500bp、2kbp)より長いDNA分子の百分率を示す。
図7に示すように、血管浸潤を有する対象の血漿DNAは、血管浸潤を有さない対象より短いサイズ分布を持ち、この差異は2kbのサイズまで明らかであるが、Illumina配列決定等の以前の配列決定方法ではこれを明らかにすることはできなかった。
【0176】
いくつかの実施形態において、特定のサイズより大きい(例えば、≧200bp、≧500bp、≧600bp、≧1kb、≧2kb、≧3kb、≧4kb、≧5kb、≧10kb、他の組み合わせ)DNA断片の百分率は、癌患者の血管浸潤状態を非侵襲的に予測するために使用できる。
図8は、血管浸潤を有するHCC患者と有さないHCC患者における>200bpの長いDNA断片の百分率を同定する箱ひげ
図900を示す。SMRT配列決定を使用して長いDNA分子を同定した。
図8に示すように、血管浸潤を有するHCC患者は、>200bpの長いDNA断片の百分率が有意に低く(P値:0.015、マンホイットニーU検定)、HCC患者の血管浸潤状態予測での使用可能性が示唆された。更に、血管浸潤状態予測での使用可能性は、非侵襲方式での再発リスクの評価及び予後を可能にすることができる。
【0177】
追加的に又は代替的に、長いDNA断片と短いDNA断片のサイズ比は、癌患者における血管浸潤状態予測に非侵襲的に使用できる。
図9は、血管浸潤を有するHCC患者と有さないHCC患者のサイズ比を同定する箱ひげ
図900を示す。血管浸潤を有するHCC患者と有さないHCC患者のサイズ比を、長いDNA断片(>500bp)の割合を短いDNA断片(<150bp)で割ることで算出した。
図9に示すように、血管浸潤を有するHCC患者は、血管浸潤を有さないHCC患者よりも、サイズ比が有意に低い(P値:0.004、マンホイットニーU検定)。
図9の結果は、HCC患者の血管浸潤状態予測及び非侵襲方式での再発リスク評価と予後の実現におけるその使用可能性を示す。
C.長い無細胞DNA分子の頻度ベースの分析方法
【0178】
図10は、いくつかの実施形態に係る、長い無細胞DNA分子の頻度に基づいて対象の生体サンプルを分析するプロセス例を描くフローチャート1000を示す。生体サンプルは、正常細胞及び場合によっては癌に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は生体サンプルにおいて無細胞である。
【0179】
ステップ1002で、生体サンプルからの複数の無細胞DNA分子のサイズを測定してもよい。例えば、単一分子リアルタイム配列決定(即ちSMRT-seq)(例えばPacific Biosciences、PacBio SMRT-seqによる)及びナノポア配列決定(例えばOxford Nanopore Technologiesによる)を使用して無細胞DNA分子のヌクレオチドを同定・計数することができる。無細胞DNA分子のサイズを特定するためにヌクレオチドの数を計数してもよい。他の実施形態において、DNA分子の各末端での配列リードを配列決定してもよく、リードの対を参照ゲノムにアライメントしてDNA分子のサイズを特定してもよい。
【0180】
ステップ1004で、第1サイズ範囲内のサイズを有する無細胞DNA分子の第1量を測定してもよい。第1サイズ範囲は、少なくとも1,000塩基、少なくとも3,000塩基、又はそれ以上の上限を含む。いくつかの実例において、第1サイズ範囲は、ゼロより大きい下限を含む。下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択されてもよい。したがって、サイズ範囲のいくつかの例は、300~1000bp、300~3000bp、300~800bp、400~800bp、400~1500bp、及び500~3000bpである。
【0181】
追加的に又は代替的に、第1量の無細胞DNA分子は、1つ又は複数の配列モチーフ(例えば、CCCA)に対応する終了配列を有し得る。1つ又は複数の配列モチーフを有する無細胞DNA分子を特定するために、配列リードが生体サンプルからの複数の無細胞DNA分子の配列決定から取得される。配列リードの各々について、配列モチーフは、対応する無細胞DNA分子の1つ又は複数の終了配列の各々について特定される。終了配列における1組の1つ又は複数の配列モチーフのうちの少なくとも1つを有する複数の無細胞DNA分子の群を特定してもよい。そして、第1量は、第1サイズ範囲を有する複数の無細胞DNA分子の群のサブグループの量である。
【0182】
ステップ1006で、第1量を使用して正規化されたパラメーターの値を生成してもよい。正規化されたパラメーターは、生体サンプル中の第1サイズ範囲内のサイズを有する無細胞DNA分子の頻度であり得る。いくつかの実例において、正規化されたパラメーターは、対数スケールで正規化された、生体サンプル中の第1サイズ範囲内のサイズを有する無細胞DNA分子の頻度であり得る。他の例において、第2サイズ範囲内の無細胞DNA分子の第2量は第1量の正規化に使用され得る。第2サイズ範囲は第1サイズ範囲と異なってもよい。例えば、第2サイズ範囲は第1サイズ範囲未満(例えば、1~150bp)であってもよい。
【0183】
ステップ1008で、正規化されたパラメーターを使用して癌のレベルの分類を特定してもよい。例えば、正規化されたパラメーターをカットオフ値と比較してもよい。いくつかの実例において、サンプルが癌を含むか否かを分類するためにカットオフが決定される。カットオフは、特定の長さ(例えば、600bp)以上の長さを有する参照サンプルの無細胞DNA分子の特定の量又は頻度を表す正規化されたパラメーターに対応し得、ここで参照サンプルは、レベルの分類が既知の癌に関連する。カットオフ値又は比較は、訓練データセットによる機械学習、例えば、
図6からの訓練サンプルを使用して決定され得る。
【0184】
他の方法のためのカットオフ値及び比較も、訓練データセットによる機械学習を使用して決定され得る。正規化されたパラメーターとカットオフ(参照)の比較は、例えば、教師あり学習を使用して訓練された機械学習モデルに関与し得る。いくつかの実例において、カットオフ値は、レベルの分類が既知の癌を有する参照サンプルを含む1つ又は複数の訓練データセットを使用して決定される。例えば、正規化されたパラメーター又は分離値(及び場合によっては他の基準、例えばコピー数、及びメチル化レベル)、及び訓練サンプルが採取された分類が既知の訓練対象は、訓練データセットを形成することができる。機械学習モデルのパラメーターは、癌のレベルを分類する最適化精度を提供するように、訓練セットに基づいて最適化されてもよい。機械学習モデルの例としては、ニューラルネットワーク、決定木、クラスタリング、及びサポートベクターマシンを含む。
【0185】
癌のレベルは、癌無し、早期、中期、又は進行期を含み得る。そして分類はレベルのうちの1つから選択され得る。したがって、分類は、癌の複数の病期を含む癌の複数のレベルから特定できる。例として、癌は肝細胞癌、肺癌、乳癌、胃癌、多形性膠芽腫、膵臓癌、結腸直腸癌、鼻咽頭癌、及び頭頸部扁平上皮癌であり得る。疾患分類の特定は、癌の組織学的状態、例えば、血管浸潤の有無を含み得る。
III.長い無細胞DNA分子及び短い無細胞DNA分子の末端モチーフ分析
【0186】
生体サンプルの無細胞DNA分子の末端モチーフは、同定して疾患分類に使用することができる。ショートリード配列決定(Illumina)に基づいて<600bpのcfDNA分子における癌診断に末端モチーフシグネチャを使用することが実行可能である以前の試験(Jiang et al. Cancer Discov. 2020; 10:664-673)に加えて、長いcfDNA分子における末端モチーフ特徴も、癌診断に使用できる。特に、1-mer、2-mer、3-mer、5-mer、6-mer、7-mer、8-mer、9-mer、10-mer、15-mer、20-mer、又は他の組み合わせに限定されない末端モチーフの分析は、癌を有する対象と有さない対象を判別するために使用できる。
【0187】
1組の末端モチーフの各末端モチーフについて、生体サンプルの末端モチーフを有する配列の相対頻度を特定してもよい。いくつかの実例において、末端モチーフを有する配列の相対頻度は、参照サンプルの群内の配列モチーフの他の頻度に基づいて特定される。それによって、1組の末端モチーフの配列の相対頻度は生体サンプルのN個の頻度のベクターを形成でき、ここでNは、1組の末端モチーフ中の末端モチーフの数に対応する。生体サンプルのN個の頻度のベクターは、疾患の分類が既知(例えば、HCC)の参照サンプルの群から決定された複数の参照ベクターと比較してもよい。比較に基づき、生体サンプルの疾患の分類を特定することができる。
A.クラスターベースの分析
【0188】
血漿DNA分子の5’4-mer末端モチーフを用いた階層的クラスタリング分析に基づき、HCCを有する患者及び有さない患者は異なるクラスターに群分けされたことが多い。血漿DNA分子は、単一分子配列決定(例えば、SMART-seq)を使用して配列決定してもよく、それによって配列リードは長い無細胞DNA分子を含むようになる。末端モチーフは、配列リードごとに特定されてもよく、配列リードの相対頻度は末端モチーフ(例えば、CCGC)のタイプごとに特定されてもよい。ある疾患分類に対応する生体サンプルは、異なるモチーフにわたって配列リードの相対頻度が類似し、一緒に群分けしてクラスターを形成できる。かかる同様な相対頻度は、血漿DNAの単一分子配列決定から推測された末端モチーフが癌の有無に関する情報を提供できることを示唆し得る。
【0189】
図11は、いくつかの実施形態に係る、血漿DNA分子の256個の4-mer末端モチーフの階層的クラスタリング分析に基づいて生成されたヒートマップ1100を示す。例えば、生体サンプル(例えば、HCCサンプル、HBV保菌者サンプル)にわたる配列の頻度の平均及び標準偏差は行を表す末端モチーフについて決定されてもよい。そして、生体サンプルについて、末端モチーフを有する配列リードの相対頻度を生成でき、ここで相対頻度は、計算された平均から減算されてから標準偏差で割った末端モチーフを有する配列リードの末端モチーフ頻度に基づいてもよい。次に、末端モチーフの相対頻度の結果は、ヒートマップ1100中の生体サンプルを表す列の対応する行(例えば、HCC04)において色分け値として示すことができる。プロセスは、他の末端モチーフまで継続してもよく、それによってヒートマップの列全体の色分け値を所与のサンプルについて特定できる。
【0190】
いくつかの実例において、zスコアは、無細胞DNA分子の配列決定からの配列の末端モチーフの相対頻度を示すために使用される。zスコアは、特定の末端モチーフと、頻度のバリエーション(例えば、その所与の末端モチーフのサンプルにわたる)で割った平均頻度(例えば、その所与の末端モチーフのサンプルにわたる)との差であり得る。
図11中、ヒートマップにおける各行は異なる訓練サンプル(例えば、HCCサンプル、HBV保菌者サンプル)にわたる特定の末端モチーフの頻度のzスコア値を表した。特定の末端モチーフのZスコアは、訓練サンプル間の特定の末端モチーフの平均及び標準偏差を使用して計算できる。zスコアを使用して、末端モチーフ頻度を異なる色で仮想化してより鮮明に比較することができる。
【0191】
生体サンプルは、それらの相対末端モチーフ頻度の類似度に基づいて群分けしてもよい。
図11に示すように、2つのクラスター「A」及び「B」を形成してもよい。サブグループA及びBを血管浸潤の組織学的状態の低い及び高い発生率に関連付けた。特に、「A」クラスターは、55.6%が血管浸潤に関与するHCCサンプルを同定し、「B」クラスターは、87.5%が血管浸潤に関与するHCCサンプルを同定する。血管浸潤とは、腫瘍細胞(例えば、ctDNA)が血管及び/又はリンパ管の内腔に存在する疾患状態を指す。血管浸潤は、腫瘍による血管(通常は静脈)への直接浸潤を伴う壁外血管浸潤(EMVI)も含み得る。血管浸潤は比較的重篤な癌を示す可能性がある。これを解剖病理学の報告を調べることで判定した。
【0192】
これらのクラスターを参照サンプルの頻度として使用すると、特定の生体サンプルの末端モチーフ頻度を上記の参照サンプルと比較して疾患分類を特定することができる。
【0193】
これらの結果は、単一分子配列決定から導き出された血漿DNA末端モチーフの使用に基づいて組織学的状態の分類を非侵襲的に可能にすることができることを示唆した。更に、血管浸潤の分類は、特に血管浸潤が対応する疾患のより重篤な形態に関与するため、患者の予後に臨床的に関連し得る。
B.長いDNA分子の末端モチーフ頻度のクラスターベースの分析
【0194】
5’4-mer末端モチーフを用いた階層的クラスタリング分析に基づき、短いDNA分子(例えば、<200bp)及び長いDNA分子(例えば、>1kb)を分析した。ある実施形態において、短いDNA分子及び長いDNA分子の組み合わせ分析により、長いDNA分子(例えば>1kb)からの256個のモチーフの頻度を含有する第1ベクターと短いDNA分子(例えば、<200bp)からの256個のモチーフの頻度を含有する第2ベクターを、512個の次元を有する新しいベクターとして連結することができる。追加的に又は代替的に、短いDNA分子及び長いDNA分子の組み合わせ分析は、長いDNA分子(例えば>1kb)からの256個のモチーフの頻度を含有する第1ベクターと短いDNA分子(例えば<200bp)からの256個のモチーフの頻度を含有する第2ベクターとの比であり得る。いくつかの実施形態において、短いDNA分子及び長いDNA分子は、異なるカットオフで定義される。例えば、短いDNA分子は、50bp、60bp、70bp、80bp、90bp、100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp、250bp、300bp、400bp、500bp、600bp未満等に限定されないカットオフで定義してもよい。長いDNA分子は、600bp、700bp、800bp、1kb、2kb、3kb、4kb、5kb、10kb、15kb、20kb、30kb、40kb、50kbより大きい等に限定されないカットオフで定義してもよい。
【0195】
図12は、いくつかの実施形態に係る、短い血漿DNA(<200bp)の4-mer末端モチーフの階層的クラスタリング分析を使用して生成されたヒートマップ1200を示す。加えて、
図13は、いくつかの実施形態に係る、長い血漿DNA(>1kb)の4-mer末端モチーフの階層的クラスタリング分析を使用して生成されたヒートマップ1300を示す。
図14は、いくつかの実施形態に係る、短い血漿DNA(<200bp)及び長い血漿DNA(>1kb)の両方の4-mer末端モチーフの階層的クラスタリング分析を使用して生成されたヒートマップ1400を示す。
図15は、ある実施形態に係る、4-mer末端モチーフ比率の階層的クラスタリング分析を使用して生成されたヒートマップ1500を示す。
図12~15に示すように、下括弧に示された百分率の各々は、対応する患者群から同定されたHCC患者の百分率を示す。
【0196】
短いDNA分子に基づく分析(
図12)と比較して、HCC群と非HCC群を区別する能力は、長いDNA分子(>1kb)を使用する場合(
図13)に改善されており、組み合わせ分析(
図14及び15)において更に強化される。改善は、HCCを有する患者と有さない患者の間のより明確な分離が
図12と比較して
図13、14、及び15から観察されたという事実によって実証できる。例えば、
図12に示すように、階層クラスターを2つの主要な群に分割すると、短いcfDNA分子(例えば<200bp)から導き出された末端モチーフを使用する場合に群間のHCC患者の百分率を区別することができなかった(62.07%対61.36%)(P値:1、フィッシャーの正確検定)。それと対照的に、
図13に示すように、長いcfDNA分子(例えば>1kb)から導き出された末端モチーフを使用する場合、群間のHCC患者の百分率は有意に異なるようになった(85.71%対29.03%)(P値:1.577 x 10
-6、フィッシャーの正確検定)。更に、短いcfDNA分子及び長いcfDNA分子の末端モチーフを組み合わせる場合、群のHCC患者の百分率は、
図14(85.11%対19.23%)(P値:3.51 x 10
-8、フィッシャーの正確検定)及び
図15(92.31%対26.47%)(P値:5.121 x 10
-9、フィッシャーの正確検定)に示すように、より区別可能のようであった。
C.クラスターベースの分析方法
【0197】
図16は、いくつかの実施形態に係る、1つ又は複数の末端モチーフを有する配列の相対頻度に基づいて対象の生体サンプルを分析するプロセス例を図示するフローチャート1600を示す。生体サンプルは、正常細胞及び場合によっては疾患(例えば、癌)に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は生体サンプルにおいて無細胞である。
【0198】
ステップ1602で、無細胞DNA分子の配列決定から取得された配列リードを受け取ってもよい。例えば、単一分子リアルタイム配列決定(即ちSMRT-seq)(例えばPacific Biosciencesによる。PacBio SMRT-seq)及びナノポア配列決定(例えばOxford Nanopore Technologiesによる)を使用して生体サンプルから配列リードを取得してもよい。他の配列技術は、例えば、本明細書に記載のように、使用してもよい。
【0199】
いくつかの実例において、配列リードは、下限及び上限を含み得る第1サイズ範囲内のサイズを有する長い無細胞DNA分子に対応する。例として、第1サイズ範囲は、少なくとも1,000塩基、少なくとも3,000塩基、又はそれ以上の上限を含み得る。いくつかの実例において、下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択されてもよい。
【0200】
追加的に又は代替的に、配列リードから第1組の配列リードを選択してもよい。第1組の配列リードは、第1サイズ範囲内のサイズを含み得る。そして、配列リードから第2組の無細胞DNA分子を選択してもよく、ここで第2組の配列リードは、第2サイズ範囲内のサイズを含み得る。いくつかの実例において、第2サイズ範囲は、第1サイズ範囲の上限より大きい上限を有する。例えば、第1サイズ範囲は、600bp未満であり得、第2サイズ範囲は1000塩基より大きくてもよい。いくつかの例において、2つのサイズ範囲は重複してもよく、例えば、第1サイズ範囲は800bp未満であり得、第2サイズ範囲は700bp~2000bpであり得る。
【0201】
ステップ1604で、配列リードの各々について、対応する無細胞DNA分子の1つ又は複数の終了配列の各々の配列モチーフを特定してもよい。例えば、配列リードの4-mer末端モチーフを、その末端での4ヌクレオチドを分析することで特定できる。同様に、いくつかの実施形態において、1-mer、2-mer、3-mer、5-mer、6-mer、7-mer、8-mer、9-mer、10-mer、15-mer、20-mer、又は他の組み合わせに限定されない末端モチーフの他のタイプを使用してもよい。
【0202】
ステップ1606で、1組のN個の配列モチーフの各々について、配列モチーフの相対頻度を特定してもよい。N個の相対頻度を特定してもよい。末端モチーフの相対頻度は、その特定の末端モチーフを有するDNA分子の百分率であり得る。別の例として、相対頻度は、配列モチーフの順位、例えば、末端モチーフを有するDNA分子(断片)の生の個数の順位であり得る。いくつかの実例において、正規化された頻度は、例えば、
図11について上述したように、zスコアである。例として、Nは、例えば、使用される末端モチーフのk-merサイズに応じて、2、3、4、5、8、10、15、16、20、50、64、100、128、200、256、又はそれ以上に等しい整数であり得る。
【0203】
いくつかの実例において、相対頻度は、生体サンプルからの無細胞DNA分子に対する、配列モチーフに対応する終了配列を有する無細胞DNA分子の割合に基づいて特定され得る。あるいは、相対頻度は、1組のN個の配列モチーフの他の配列モチーフに対応する終了配列を有する無細胞DNA分子の数に対する、配列モチーフに対応する終了配列を有する無細胞DNA分子の割合に基づいて特定され得る。
【0204】
ステップ1608で、N個の相対頻度を使用して1組のN個の配列モチーフに対応するN個の頻度のベクターを生成してもよい。ベクターにおけるN個の頻度の各々は、互いに正規化されてもよく(例えば、順位通り)、又は参照サンプルの群内の配列モチーフの他の頻度に正規化されてもよい(例えば、zスコアについて上述した通り)。参照サンプルの群内の各頻度の正規化も、順位を使用して行うことができる。例えば、N個の頻度のベクターは、参照サンプルの群内の配列モチーフの他の頻度を使用して配列モチーフの相対頻度を正規化することで生成してもよい。いくつかの実例において、N個の頻度のベクターにおける各頻度は、相対頻度を参照サンプルの群内の配列モチーフの代表頻度と比較して、例えば、zスコアを特定することで、特定される。
【0205】
いくつかの実例において、N個の頻度のベクターは、(i)第1サイズ範囲内の第1組の配列リードのN個の相対頻度に対応する第1ベクター、及び(ii)第2サイズ範囲内の第2配列リード中の配列リードのN個の相対頻度に対応する第2ベクターに基づいて、生成してもよい。よって、N個の頻度のベクターは、短いDNA分子(例えば、第1組の配列リード)と長いDNA分子(例えば、第2組の配列リード)の間の相関を同定する値であり得る。
【0206】
ステップ1610で、N個の頻度のベクターは、疾患の分類が既知の参照サンプルの群から決定された複数の参照ベクターと比較してもよい。比較は、ベクターと参照ベクターの距離を特定することを含み得る。例として、参照ベクターは、参照サンプルのもの又は参照サンプルの群(クラスター)を代表するもの、例えば、参照サンプルの群のベクターの統計値(代表値、中央値、平均、又は重心)であり得る。
【0207】
ステップ1612で、生体サンプルの疾患の分類を比較に基づいて特定してもよい。いくつかの実例において、分類は、階層クラスタリング及び/又はヒートマップクラスタリングを使用して特定してもよい。他の機械学習技術、例えば、ニューラルネットワーク、決定木、及びサポートベクターマシンも使用され得る。
【0208】
いくつかの実例において、疾患の分類を特定することは、N個の頻度のベクターに最も近い参照ベクターのクラスターに関連する分類を同定することを含む。例えば、N個の頻度のベクターと1組のクラスターの参照ベクターの第1クラスターの最も近い参照ベクターとの間の第1距離を特定してもよい。参照ベクターの第1クラスターは、疾患を有すると分類された参照サンプルの群の第1サブグループを表す。N個の頻度のベクターと1組のクラスターの参照ベクターの第2クラスターの最も近い参照ベクターとの間の第2距離も特定してもよい。参照ベクターの第2クラスターは、疾患を有さないと分類された参照サンプルの群の第2サブグループを表す。次に第1及び第2距離を比較することができる。第1距離が第2距離より大きい場合、対象は疾患を有さないと特定できる。第1距離が第2距離未満である場合、対象は、疾患を有すると特定できる。
D.短い無細胞DNA分子及び長い無細胞DNA分子の順位及び分離値
【0209】
様々な末端モチーフの相対頻度を使用して生体サンプルの疾患分類を特定することに加えて、特定の末端モチーフを有する配列の頻度を、生体サンプルの血漿DNA分子のサイズ範囲ごとに特定してもよい。いくつかの実例において、末端モチーフの相対頻度は、末端モチーフを有する配列の数を血漿DNA分子中に見出され得る他の末端モチーフを有する配列の数と比較したものに基づいて特定される。追加的に又は代替的に、相対頻度は、血漿DNA分子の配列全体に対する、末端モチーフを有する配列の百分率であり得る。DNA分子の各サイズ範囲の配列の頻度は分離値の特定に使用できる。次に分離値は疾患の分類を特定するために使用できる。
【0210】
図17は短い血漿DNA分子(<600bp)と長い血漿DNA分子(>1kb)との間のモチーフ順位の関係を同定する1組のグラフ1700を示す。
図17中、グラフにおける各円は、4-mer末端モチーフを表す。グラフ「A」は、慢性HBV感染症を有する対象のモチーフ順位を同定し、グラフ「B」は、HCCを有する対象のモチーフ順位を同定する。特に、グラフ1702において、慢性HBV感染症を有する患者について血漿DNA分子(<600bp)の256個の末端モチーフの順位を、長い血漿DNA分子(>1kb)の対応物に対してプロットした。グラフ1702におけるピンクの領域1806Aは、血漿DNA分子について上位10位内に順位付けされたが、長い血漿DNA分子について11
th以下に順位付けされたモチーフを同定する。逆に、黄色の領域1808Aは、長い血漿DNA分子について上位10位内に順位付けされたが、短い血漿DNA分子について11
th以下に順位付けされたモチーフを強調した。短いDNA分子と長いDNA分子の間のモチーフパターンが異なると判明した。例えば、GCTT、ACTT、及びGTTTの順位は、短い血漿DNAと比較して長い血漿DNAにおいて上昇したが、CCAG、CCTG、及びCCAAの順位は低下した。
【0211】
グラフ1704において同定されたHCCを有する患者について、血漿DNAの256個の末端モチーフの順位に反映された相対頻度は、慢性HBV感染症を有する患者(グラフ1702)の末端モチーフの相対頻度と異なった。特に、グラフ1702及び1704は、血漿DNA分子の末端モチーフ頻度を示す。グラフ1702と同様に、グラフ1704におけるピンクの領域1806Bは、血漿DNA分子について上位10位内に順位付けされたが、長い血漿DNA分子について11th以下に順位付けされたモチーフを同定する。逆に、黄色の領域1808Bは、長い血漿DNA分子について上位10位内に順位付けされたが、短い血漿DNA分子について11th以下に順位付けされたモチーフを強調した。例えば、HCCを有する患者の血漿DNAにおけるCCAG、CCTG、及びCCAAモチーフに関するモチーフ順位は、HBV感染症を有する患者と異なった。よって、これらのデータは、短い血漿DNA分子と長い血漿DNA分子の間の末端モチーフの分析が癌検出に価値のある情報を提供できることを示唆する。例えば、生体サンプルのCCAGの分離値をカットオフ値と比較して疾患分類を特定してもよい。しかし、サイズが>1kbの血漿DNA分子を伴うこのような分析は、ショートリード配列決定技術(例えばIllumina配列決定プラットフォーム)では、長いDNA分子、例えば>600bpのDNA分子を配列決定する能力の欠如により、得ることができなかった。
E.長いDNA分子の末端モチーフ頻度
【0212】
いくつかの実施形態において、末端モチーフ分析は、1つの特定の4-mer末端モチーフの分析に対応する。例えば、CCCAの末端モチーフ頻度を<200bpの短い血漿DNA分子、>600bpの長い血漿DNA分子、及び>1kbの長い血漿DNA分子で計算した。
1.肝細胞癌
【0213】
図18は、HCC及び非HCC対象の<200bpの血漿DNA分子におけるCCCAの末端モチーフ頻度を同定する箱ひげ
図1800を示す。
図18に示すように、HCC群内の短いcfDNA分子のCCCA末端モチーフの低下は、Illuminaプラットフォームによって明らかにされた以前の知見に一致し(Jiang et al. Cancer Discov. 2020; 10:664-673)、ここでHCCにおける低下が観察された。統計的に有意な、HCCにおけるCCCAのモチーフ頻度の低下は、他の分類と一部重複する。長いDNA断片を使用してより良好な結果が得られるか否かを探究した。
【0214】
図19は、血漿DNA分子におけるCCCAのモチーフ頻度を同定する1組の箱ひげ
図1900を示す。箱ひげ
図1902は、HCC及び非HCC対象の600bpより長い血漿DNA分子のCCCA頻度を示し、箱ひげ
図1904は、HCC及び非HCC対象の>1kbの血漿DNA分子のCCCA頻度を示す。
図18とは対照的に、長いDNA分子が及び本開示のコホートにおいてSMRT配列決定を使用して同定・分析された場合、驚いたことに、非HCC対象と比較してHCC患者において長いcfDNA分子のCCCAのより高い(より低いではなく)モチーフ頻度が観察されたことが発見された。加えて、HCCと他の分類の分離は、短いcfDNA分子よりも、長いcfDNA分子の方が大きかった。
【0215】
長いDNA分子を用いた末端モチーフ分析を評価するために、
図20は、HCC及び非HCC対象を区別する際の短いDNA分子2002及び長いDNA分子2004中のCCCAのモチーフ頻度の実績を同定するROC曲線2000を示す。
図20に示すように、短いcfDNAの末端モチーフに基づくAUCは0.69であり、対照的に、長いcfDNAのAUCは0.88であった(P値:0.0065、ブートストラップ検定)。長いcfDNA分子から導き出された末端モチーフCCCAの使用により、短いcfDNA分子の使用と比較して、HCC患者を非HCC患者と区別する能力が有意により高くなった。
【0216】
いくつかの実施形態において、長いDNA分子と短いDNA分子の両方からの情報は、疾患分類の能力を強化するために、1つの分析モデル内に統合される。
図21は、HCC患者、HBV保菌者、及び健康対象におけるCCCA率を同定する箱ひげ
図2100を示す。CCCA率を、HCC患者、HBV保菌者及び健康対象における長いDNA分子(>1kb)のCCCAモチーフ頻度を短いDNA分子(<200bp)のCCCAモチーフ頻度で割ることで算出した。HCC患者は、非HCC対象よりも、有意に高いCCCA率を表示した(P値:3.919 x 10
-10、マンホイットニーU検定)。短いDNA分子(
図18)又は長いDNA分子(
図19)のCCCA%のいずれと比較しても、HCC対象と非HCC対象を区別する能力はCCCA率を使用する場合に大幅に強化されていた。
【0217】
例として、
図22は、HCCを有する対象とHCCを有さない対象を区別する際のCCCA率の実績を同定するROC曲線2200を示す。
図22は、0.9のAUCでの長対短のCCCA率分析について示す。いくつかの実施形態において、別の末端モチーフ比率(例えばCCCT、CCCC、CCCG、TTTA)は癌検出に使用されるか、又は複数の末端モチーフ比率は一緒に癌検出に使用してもよい。ショートリード配列決定技術が長いDNA分子(例えば>600bp)を分析できず、かかる末端モチーフ比率分析が従来の試験では実行不可能であると考えられたことから、これらの結果は驚くべきものである。
2.結腸直腸癌
【0218】
4人の結腸直腸癌(CRC)患者及び15人の健康対象からの血漿DNA分子のSMRT配列決定を行った。
図23は、CRC患者及び健康対象における<200bpの血漿DNA分子中のCCCAの末端モチーフ頻度を同定する箱ひげ
図2300を示す。SMRT-配列決定を使用して血漿DNA分子を配列決定した。
図23は、健康対象と比較する場合、CRC患者のCCCA頻度が有意に低下することを示す(P値:<0.01、マンホイットニーU検定)。
【0219】
図24は、CRC患者及び健康対象における1kbより長い血漿DNA分子中のCCCAのモチーフ頻度を同定する箱ひげ
図2400を示す。SMRT配列決定を使用して血漿DNA分子を配列決定した。
図24は、健康対象と比較する場合、CRC患者のCCCA頻度が有意に上昇することを示す(P値:0.01、マンホイットニーU検定)。CCCA頻度のこのような上昇は、長いcfDNA末端モチーフ特徴が本開示に提示された結腸直腸癌及び肝細胞癌に限定されない複数の癌タイプの検出に適用できることを実証する。従来の配列決定方法(例えば、Illumina配列決定)は長いDNA分子(例えば、600bpより大きいサイズを有する血漿DNA分子)を同定できないことから、これも驚くべきものである。
【0220】
いくつかの実施形態において、長いDNA分子及び短いDNA分子の両方からの情報は、結腸直腸癌患者における疾患分類の能力を強化するために、1つの分析モデル内に統合される。
図25は、SMRT配列決定際のCRC患者及び健康対象におけるCCCA率を同定する箱ひげ
図2500を示す。箱ひげ
図2500に示すように、CCCA率を、CRC患者及び健康対象における長いDNA分子(>1kb)のCCCAモチーフ頻度を短いDNA分子(<200bp)のCCCAモチーフ頻度で割ることで算出した。CRC患者は、健康対象よりも、有意に高いCCCA率を表示した(P値:0.004、マンホイットニーU検定)。
F.ナノポア配列決定による末端モチーフ分析
【0221】
いくつかの実施形態において、核酸の末端モチーフ分析においてOxford Nanopore Technologies(ONT)によるナノポア配列決定が利用される。ナノポア配列決定の効果を実証するために、8人のHCC患者及び6人のHBV保菌者から血漿DNA分子をナノポア配列決定によって配列決定した。
【0222】
図26は、HCC患者及びHBV保菌者における<200bpの血漿DNA分子中のCCCAの末端モチーフ頻度を同定する箱ひげ
図2600を示す。
図26に示すように、HCC群内の短いcfDNA分子のCCCA末端モチーフの低下は、Illuminaプラットフォームによって明らかにされた以前の知見に一致した(Jiang et al. Cancer Discov. 2020; 10:664-673)。しかし、長いDNA分子はIllumina配列決定プラットフォームでは殆ど検出できなかった(分子の0%が>600bp)ため、末端モチーフ分析における長いcfDNA分子の有用性は知られていなかった。
【0223】
図27は、血漿DNA分子中のCCCAのモチーフ頻度を同定する1組の箱ひげ
図2700を示す。
図27に示すように、箱ひげ
図2702は、HCC及びHBV保菌者における600bpより長い血漿DNA分子のCCCA頻度を示し、箱ひげ
図2704は、HCC及びHBV保菌者における1kbより長い血漿DNA分子のCCCA頻度を示す。
図26とは対照的に、長いDNA分子が本開示のコホートにおいてナノポア配列決定を使用して同定・分析された場合、非HCC対象と比較してHCC患者において長いcfDNA分子中のCCCAのより高いモチーフ頻度が観察されたことが発見され、これは、本開示に記載のSMRT配列決定プラットフォームから生成された本開示のデータに一致する。
【0224】
いくつかの実施形態において、長いDNA分子及び短いDNA分子の両方からの情報は、ナノポア配列決定における疾患分類の能力を強化するために、1つの分析モデル内に統合される。
図28は、ナノポア配列決定際のHCC患者及びHBV保菌者におけるCCCA率を同定する箱ひげ
図2800を示す。CCCA率を、HCC患者及びHBV保菌者における長いDNA分子(>1kb)のCCCAモチーフ頻度を短いDNA分子(<200bp)のCCCAモチーフ頻度で割ることで算出した。
図28に示すように、HCC患者は、HBV保菌者よりも、有意に高いCCCA率を表示した(P値:0.013、マンホイットニーU検定)。これらの所見は、本開示の実施形態で提示されたSMRT配列決定によって生成された本開示のデータに一致し、複数のプラットフォームにわたる長いcfDNA断片特徴の診断潜在力を強調する。
G.長い無細胞DNA分子の末端モチーフ頻度に基づく疾患分類のための機械学習技術
【0225】
いくつかの実施形態において、末端モチーフ分析は、癌を有する患者と有さない患者を分類するために末端モチーフシグネチャから有用な情報を抽出できる機械学習モデルを使用して実施される。機械学習モデルは、畳み込みニューラルネットワーク(CNN)、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば、完全結合型リカレントニューラルネットワーク(RNN)、ゲートリカレントユニット(GRU)、長短期記憶、(LSTM))、トランスフォーマーベースの方法(例えばXLNet、BERT、XLM、RoBERTa)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、K平均クラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、適応ブースティング(AdaBoost)、極端勾配ブースティング(XGBoost)、サポートベクターマシン(SVM)、又は上記の1つ又は複数のモデルを含む複合モデルを含み得るが、それらに限定されない。
1.ロジスティック回帰
【0226】
いくつかの実施形態において、ロジスティック回帰分析は、4-mer末端モチーフを使用してHCC対象と非HCC対象を分類する区別能力を評価するために使用される。ロジスティック回帰(LR)モデルでは、二値の結果変数間で関係を確立することが可能である。例えば、二値の結果0及び1は、それぞれ、非癌及び癌の癌状態を示す。LRは、予測変数でロジット変換確率を線形関係としてモデリングし、ここで、該予測変数は異なるサイズ範囲のcfDNA分子に由来する末端モチーフを含む。例えば、Yを{0,1}で非癌及び癌を示す二値の結果変数とし、pをyが1の確率とし、p=P(Y=1)とする。pが高いほど、癌を有する可能性が高い。x
1、x
2、…、x
kを1組の予測変数とする。一例において、1組の予測変数は、>1kbのcfDNA分子の256個の5’4-mer末端モチーフの頻度であり得る。x
1、x
2、…、x
kに対するYのロジスティック回帰により、下記等式の最尤法を通じてβ
0、β
1、…、β
kのパラメーター値を導き出すことができる。
【数1】
該等式は更に下記式に変換できる。
【数2】
【0227】
図29は、サイズが200bp未満の短いDNA分子における末端モチーフ特徴のロジスティック回帰分析によって生成された結果を同定する箱ひげ
図2900を示す。
図29は、<200bpの短いcfDNA分子を用いたロジスティック回帰分析を示す。
図29に示すように、HCC患者は、対照対象よりも、癌を有すると分類される確率が高かった。
図30は、HCCを有する対象とHCCを有さない対象を区別する際の短いDNA分子(<200bp)における末端モチーフ特徴を用いたロジスティック回帰の実績を同定するROC曲線3000を示す。
図30は、0.89のAUCでの短いDNA分子の末端モチーフのロジスティック回帰分析を示す。
【0228】
短いDNA分子に加えて、ロジスティック回帰分析は長いDNA分子に拡張されてもよい。
図31は、サイズが1kbより大きい長いDNA分子における末端モチーフ特徴のロジスティック回帰分析から生成された結果を同定する箱ひげ
図3100を示す。
図32は、HCCを有する対象とHCCを有さない対象を区別する際の長いDNA分子(>1kb)の末端モチーフ特徴を用いたロジスティック回帰の実績を同定するROC曲線3200を示す。>1000bpの長いcfDNA分子がロジスティック回帰分析に使用された場合、HCC患者は、
図29の結果と比較して、健康及びHBV保菌者対象より高い確率を示す。更に、HCC分類の精度は、
図32に示すように0.9のAUCに達した。確率スコアのカットオフを使用して99%の特異性を可能にすると、末端モチーフ分析での短いDNA分子の使用は42%の感度しか提供できなかったのに対して、末端モチーフ分析での長いcfDNA分子の使用は感度を70%に向上させる。
【0229】
上記のデータは、本開示で実施される長いcfDNA分子の使用が、診断実績を強化できることを示唆した。Illuminaショートリード配列決定技術を使用して癌患者の血漿の腫瘍DNA画分において短いcfDNA分子が濃縮されたことを明らかにした試験(Jiang et al. Proc Natl Acad Sci USA. 2015;112:E1317-25)があることから、多くの試験は、癌検出の実績を改善するために短いcfDNA分子の分析に注目することを試みた(Underhill et al. PloS Genet. 2016;12:e1006162、Mouliere et al. Sci Transl Med. 2018;10:eaat4921、Liu et al. Transl Lung Cancer Res. 2021;10:1501-1511)。例えば、1つの試験では、配列決定前にベンチトップマイクロ流体デバイスによるインビトロサイズ選択を使用して長いcfDNA分子の除去を試みた(Mouliere et al. Sci Transl Med. 2018;10:eaat4921)。したがって、長いcfDNA分子を含めて診断実績を強化することは、以前に探究されたことがなく、長いcfDNA分子の使用による診断実績の向上は驚くべきものである。
【0230】
短いDNA分子及び長いDNA分子の末端モチーフ特徴は、一緒に使用してロジスティック回帰を用いた癌分類の実績を更に強化することができる。
図33は、>1kbの長いDNA分子及び<200bpの短いDNA分子の両方における末端モチーフ特を用いたロジスティック回帰分析を同定する箱ひげ
図3300を示す。
図33に示すように、長いDNA分子(>1kb)及び短いDNA分子(<200bp)の両方からの末端モチーフ情報が一緒にロジスティック回帰分析に統合された場合、HCC対象を健康対象及びHBVを有する対象と明確に区別することができる。
図34は、HCCを有する対象とHCCを有さない対象を区別する際の長いDNA分子(>1kb)及び短いDNA分子(<200bp)の両方に由来する末端モチーフ特徴を組み合わせて用いたロジスティック回帰の実績を同定するROC曲線3400を示す。
図34に示すように、HCC対象と非HCC対象の間での診断能力は、0.92のAUCに更に強化された。いくつかの実施形態において、3つ以上のサイズ範囲からの末端モチーフのパターンを使用してもよい。例として、サイズ範囲が<200bpの分子からの256個のモチーフ、サイズ範囲が200~600bpの分子からの256個のモチーフ、及びサイズ範囲が>600bpの分子からの256個のモチーフの頻度は、一緒にロジスティック回帰分析に統合してもよく(4-mer特徴の数:256 x 3)、HCCを有する患者を、癌を有さない患者と区別するAUCが0.93である。
【0231】
いくつかの実例において、長いDNA分子(>1kb)におけるモチーフ頻度を短いDNA分子(<200bp)のモチーフ頻度で割ることで算出されたモチーフ比率は、ロジスティック回帰に使用される。
図35は、モチーフ比率を用いたロジスティック回帰分析によって生成された結果を同定する箱ひげ
図3500を示す。かかるモチーフ比率がロジスティック回帰分析に使用された場合、HCC対象について生成された確率は、健康及びHBV保菌者対象より大幅に高かった。
図36は、HCCを有する対象とHCCを有さない対象を区別する際のモチーフ比率を用いたロジスティック回帰の実績を同定するROC曲線3600を示す。
図36に示すように、AUCは0.97に更に向上しており、これは、短いcfDNA分子及び長いcfDNA分子の両方に由来する末端モチーフ情報を相乗的に利用することで癌に対する診断潜在力を強化できることを反映する。
2.サポートベクターマシン
【0232】
いくつかの実施形態において、サポートベクターマシン(SVM)分析は、4-mer末端モチーフに基づいて癌対象と非癌対象を分類するために使用される。SVM分類器を確立するための訓練データセットがnサンプルを含むと仮定すると、
(M
1,Y
1)、…、(M
n,Y
n)(1)
式中、Y
iはサンプルiについて1(癌対象を示す)又は-1(非癌対象を示す)であり、M
iはサンプルiについて末端モチーフパターンを含むp次元ベクターである。例えば、M
iは256個の4-mer末端モチーフを含有するベクターであり得る。あるいは、M
iは、長いcfDNA分子と短いcfDNA分子の比等の256個の4-mer末端モチーフに由来する値を含有するベクターであり得る。SVMは、訓練データセットを使用して訓練して、非癌群と癌群をできるだけ正確に分離する「超平面」を決定することができる。かかる超平面を見つける方式は様々ある。その1つは、下記式を満たす1組の係数(p次元ベクターを有するW)を見つけることである。
【数4】
(癌群内の任意の対象について)(2)
及び
【数5】
(非癌群内の任意の対象について)(3)
式中、Wは、超平面を決定するp次元ベクターの係数であり、Mは、p末端モチーフ及びnサンプルを有する行列(pxn次元)であり、bは切片である。
式(2)及び(3)は下記式に書き換えることができる。
【数6】
(4)
式中、Y
iは-1(非癌)又は1(癌)である。
(2)と(3)の間のマージン距離(D)は
である。
ここで
は、点から面までの距離の等式を使用して計算される。
【0233】
よって、(4)に供される
を最小化することでDを最大化する必要がある。この原則に基づき、分類器のパラメーター(W及びb)を決定してもよい。新しいサンプルの癌リスクスコアは、この例において訓練されたパラメーター(W及びb)を使用して計算できる。
【0234】
図37は、HCCを有する対象とHCCを有さない対象を区別する際の末端モチーフ比率を用いたSVMの実績を同定するROC曲線3700を示す。SVMを、256個の末端モチーフ比率を使用して所与の対象の生体サンプルを分類するために使用し、ここで各末端モチーフ比率は、長いDNA分子と短いDNA分子との間のそれぞれの末端モチーフ(例えば、CCCA)についての頻度の比率に対応した。
図37に示すように、長いDNA分子(>1kb)及び短いDNA分子(<200bp)の両方からの末端モチーフ情報が一緒にSVM分析に統合された場合、HCC対象と非HCC対象の間での診断能力は、0.93のAUCに達した。いくつかの実施形態において、3つ以上のサイズ範囲からの末端モチーフのパターンを使用してもよい。例として、サイズ範囲が<200bpの分子からの256個のモチーフ、サイズ範囲が200~600bpの分子からの256個のモチーフ、及びサイズ範囲が>600bpの分子からの256個のモチーフの頻度は一緒にロジスティック回帰分析に統合してもよい。
3.ランダムフォレスト
【0235】
いくつかの実施形態において、HCC対象と非HCC対象を分類するために4-mer末端モチーフを使用してランダムフォレストツリー分析を行ってもよい。
図38は、HCCを有する対象とHCCを有さない対象を区別する際のモチーフ比率を用いたランダムフォレスト分析の実績を同定するROC曲線3800を示す。ランダムフォレストツリーを、256個の末端モチーフ比率を使用して所与の対象の生体サンプルを分類するために使用し、ここで各末端モチーフ比率は、長いDNA分子と短いDNA分子の間のそれぞれの末端モチーフ(例えば、CCCA)についての頻度の比率に対応した。
図38に示すように、長いDNA分子(>1kb)及び短いDNA分子(<200bp)の両方からの末端モチーフ情報がランダムフォレストツリー分析に統合された場合、HCC対象と非HCC対象の間での診断能力は、0.94のAUCに達した。
4.線形判別分析
【0236】
いくつかの実施形態において、HCC対象と非HCC対象を分類するために4-mer末端モチーフを使用して線形判別分析(LDA)を行ってもよい。
図39は、HCCを有する対象とHCCを有さない対象を区別する際のモチーフ比率を用いたLDA分析の実績を同定するROC曲線3900を示す。線形判別分析を、256個の末端モチーフ比率を使用して所与の対象の生体サンプルを分類するために使用し、ここで各末端モチーフ比率は、長いDNA分子と短いDNA分子の間のそれぞれの末端モチーフ(例えば、CCCA)についての頻度の比率に対応した。
図39に示すように、長いDNA分子(>1kb)及び短いDNA分子(<200bp)の両方からの末端モチーフ情報がLDA分析に統合された場合、HCC対象と非HCC対象の間での診断能力は、0.97のAUCに達した。
H.短いDNA分子及び長いDNA分子の分析方法
【0237】
図40は、いくつかの実施形態に係る、1つ又は複数の末端モチーフを有する配列の相対頻度に基づいて対象の生体サンプルを分析するプロセス例を図示するフローチャート4000を示す。生体サンプルは、正常細胞及び場合によっては疾患(例えば、癌)に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は生体サンプルにおいて無細胞である。
【0238】
ステップ4002で、無細胞DNA分子の配列決定から取得された配列リードを受け取ってもよい。例えば、単一分子リアルタイム配列決定(即ちSMRT-seq)(例えばPacific Biosciencesによる。PacBio SMRT-seq)及びナノポア配列決定(例えばOxford Nanopore Technologiesによる)を使用して生体サンプルから配列リードを取得してもよい。他の配列技術は、例えば、本明細書に記載のように、使用してもよい。
【0239】
ステップ4004で、配列リードを使用して無細胞DNA分子のサイズを特定してもよい。例えば、ヌクレオチドの数を計数して無細胞DNA分子のサイズを特定してもよい。他の技術も使用され得、例えば、ペアエンド配列決定を使用し、配列リードの対を参照ゲノムにアライメントしてもよい。
【0240】
ステップ4006で、配列リードの各々について、対応する無細胞DNA分子の1つ又は複数の終了配列の各々の配列モチーフを特定してもよい。例えば、配列リードの4-mer末端モチーフは、その末端での4ヌクレオチドを分析することで特定してもよい。引き続きこの例では、第1配列リードは、CCCAを配列モチーフとして含み得、第2配列リードはCCAGを配列モチーフとして含み得る。同様に、いくつかの実施形態において、1-mer、2-mer、3-mer、5-mer、6-mer、7-mer、8-mer、9-mer、10-mer、15-mer、20-mer、又は他の組み合わせに限定されない末端モチーフの他のタイプを使用してもよい。
【0241】
ステップ4008で、第1サイズ範囲を有する無細胞DNA分子の第1組について、無細胞DNA分子の第1組内の1つ又は複数の配列モチーフの出現の第1相対頻度を特定してもよい。相対頻度は、配列モチーフの順位であり得る。別の例として、相対頻度は、特定の配列モチーフを有するDNA分子の百分率であり得る。
【0242】
いくつかの実例において、第1相対頻度は、生体サンプルからの無細胞DNA分子に対する、第1組の無細胞DNA分子の割合である。追加的に又は代替的に、第1相対頻度は、他の配列モチーフを有する無細胞DNA分子の数に対する、第1組の無細胞DNA分子の割合である。いくつかの実例において、第1サイズ範囲は、少なくとも80塩基、少なくとも100塩基、少なくとも150塩基、少なくとも200塩基、又は少なくとも300塩基のうちの1つから選択される上限を含む。例えば、第1サイズ範囲は1~200bpであり得る。
【0243】
ステップ4010で、第2サイズ範囲を有する無細胞DNA分子の第2組について、無細胞DNA分子の第2組内の1つ又は複数の配列モチーフの出現の第2相対頻度を特定してもよい。いくつかの実例において、第2相対頻度は、生体サンプルからの無細胞DNA分子に対する、第2組の無細胞DNA分子の割合であり得る。追加的に又は代替的に、第2相対頻度は、他の配列モチーフを有する無細胞DNA分子の数に対する、第2組の無細胞DNA分子の割合である。
【0244】
いくつかの実例において、第2サイズ範囲は、第1サイズ範囲の上限より大きい上限を有する。例えば、第1サイズ範囲は600bp未満であり得、第2サイズ範囲は1000塩基より大きくてもよい。いくつかの例において、2つのサイズ範囲は重複してもよく、例えば、第1サイズ範囲は800bp未満であり得、第2サイズ範囲は700bp~2000bpであり得る。追加的に又は代替的に、第2サイズ範囲は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択される下限を含む。いくつかの実例において、第2サイズ範囲の下限は、第1サイズ範囲の上限より大きい。
【0245】
ステップ4012で、第1相対頻度と第2相対頻度の分離値を特定してもよい。いくつかの実例において、分離値は、第1相対頻度と第2相対頻度の比であるか、又は頻度の各関数の比である。例えば、分離値は、第1組の無細胞DNA分子(例えば、短いDNA分子)に対する第2組の無細胞DNA分子(例えば、長いDNA分子)の比であり得、ここで第1及び第2組は、CCCAに対応する終了配列を有する。他の実例において、分離値は、2つの頻度の減算だけでなく、頻度間の分離の尺度を提供する関数の組み合わせも含み得る。分離値の特定は、本開示のセクションIII.D及びIII.Eに更に説明する。
【0246】
ステップ4014で、分離値を使用して生体サンプルの疾患の分類を特定してもよい。いくつかの実例において、分類は、分離値を1つ又は複数のカットオフ値と比較することで特定される。疾患は癌(例えば、HCC、CRC)であり得、分類は、癌の複数の病期を含み得る。例として、癌は、肝細胞癌、肺癌、乳癌、胃癌、多形性膠芽腫、膵臓癌、結腸直腸癌、鼻咽頭癌、及び頭頸部扁平上皮癌であり得る。いくつかの実例において、疾患の分類は、疾患の重篤度の分類を同定する。疾患分類の特定は、癌の組織学的状態、例えば、血管浸潤の有無を含み得る。1つ又は複数のカットオフ値は、疾患の分類が既知の参照サンプル(例えば、健康サンプル、疾患を有すると分類された対象からのサンプル)から決定されてもよい。いくつかの実例において、1つ又は複数のカットオフ値のうちのカットオフ値は0.6、0.65、0.7、又は0.75の1つから選択されてもよい。
【0247】
上述したように、疾患の分類が既知の訓練サンプル(例えば、
図17に示すもの)による機械学習を使用して、1つ又は複数のカットオフ値を決定してもよい。別の例において、1つ又は複数のカットオフ値との比較は、機械学習モデルを使用して行ってもよい。機械学習モデルは、分離値に適用して疾患の分類を生成することができる。機械学習モデルとしては、畳み込みニューラルネットワーク(CNN)、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば、完全結合型リカレントニューラルネットワーク(RNN)、ゲートリカレントユニット(GRU)、長短期記憶、(LSTM))、トランスフォーマーベースの方法(例えばXLNet、BERT、XLM、RoBERTa)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、K平均クラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、適応ブースティング(AdaBoost)、極端勾配ブースティング(XGBoost)、サポートベクターマシン(SVM)、又は上記の1つ又は複数のモデルを含む複合モデルを含み得るが、それらに限定されない。
IV.疾患分類のための長い無細胞DNA分子のメチル化パターン分析
【0248】
人体のどの組織でも腫瘍形成が発生し得るため、単一分子の起源組織の特定は、癌検査及び癌治療の指導に有用である。血漿DNAの標的起源組織が、血漿DNAメチル化ハプロタイプとその組織のメチル化ハプロタイプとの間のCpG部位にわたるメチル化状態の面での最も少ないミスマッチ(即ちメチル化ミスマッチ)に対応するという仮説に基づき得る1つのアプローチは、本明細書で最小メチル化ミスマッチアプローチと名付けられる。メチル化ミスマッチの数は、同じゲノム位置を起源とする2つのメチル化ハプロタイプ間のCpG部位にわたるメチル化状態をペアごとに比較することで特定してもよい。同じCpG位置での2つのメチル化ハプロタイプ間の2つのメチル化状態が異なる場合、1つのミスマッチとして計数される。
【0249】
いくつかの実施形態において、組織及び血漿DNA分子から取得された長いDNA分子のメチル化ハプロタイプは、短いメチル化ハプロタイプと比較して、長いメチル化ハプロタイプが特定の組織に固有の情報価値のあるメチル化パターンを含有する可能性がより高いことから、精度の強化に使用される。
【0250】
図41は、いくつかの実施形態に係る、長い無細胞DNA分子のメチル化パターンを参照組織のメチル化パターンと比較する例示
図4100を示す。特に、
図41は、3つのCpG部位を有する血漿DNAの短いメチル化ハプロタイプではどの組織がかかる血漿DNA分子に寄与するかを特定できない(例えば、肝臓、脳及び肺組織は同じ短いメチル化ハプロタイプを共有する)ことを示す。それと対照的に、10つのCpG部位を有する血漿DNAの長いメチル化ハプロタイプでは、脳、肺、結腸及び白血球からの血漿DNAのメチル化ハプロタイプがそれぞれ2、3、4及び5のメチル化ミスマッチを示すのと比較して、肝臓からのメチル化ハプロタイプが0の最も少ないメチル化ミスマッチを示すことから、肝臓をかかる血漿DNA分子の起源組織として明確に特定できる。
【0251】
いくつかの実施形態において、メチル化ハプロタイプについてのパターン認識分析は、各長い血漿DNA分子の起源組織を特定する実績を改善する。そして、起源組織の特定は疾患分類の特定に使用できる。
【0252】
図42は、いくつかの実施形態に係る、少なくとも1つのメチル化ミスマッチを含む長い無細胞DNA分子におけるメチル化パターンを分析する技術4200を図示する。
図42に示すように、血漿DNA分子の起源組織を特定することは、最小メチル化ミスマッチアプローチにとって困難であるかもしれない。特に、所与の血漿DNA分子は、腫瘍細胞におけるメチル化ハプロタイプと比較する場合に、部位「2」でメチル化ミスマッチを有するが、非腫瘍細胞(例えば、バフィーコート)のメチル化ハプロタイプと比較する場合に、部位「5」でもメチル化ミスマッチを有する。パターン認識分析ではこの課題に対処できる。例えば、位置4、5、及び6での3つの連続した非メチル化CpG部位の存在が、HCCのより高い尤度を示すと判定することができる。この情報に基づき、位置4、5、及び6でのCpG部位には、他の位置でのCpG部位と比較して、腫瘍パターンを示すより高い重みが与えられる。この重みに踏まえて、所与の血漿DNA分子は、その位置4、5、及び6での非メチル化CpG部位に基づいて腫瘍細胞に関連すると予測することができる。これらのタイプのパターン分析は、所与の血漿DNA分子が特定の長さを上回る場合に、より効果的になる。
【0253】
いくつかの実施形態において、血漿DNAの長さとしては、≧500bp、≧600bp、≧1kb、≧2kb、≧3kb、≧4kb、≧5kb、≧10kb又は他の組み合わせを含むが、それらに限定されない。CpG部位の数としては、≧3、≧4、≧5、≧6、≧7、≧8、≧9、≧10、≧15、≧20、≧25、≧30、≧35、≧40、≧45、≧50、≧60、≧70、≧80、≧90、≧100、≧200、≧300、≧400、≧500、≧1000、又は他の組み合わせを含み得るが、それらに限定されない。いくつかの実施形態において、様々な組織及び腫瘍組織からの長いDNA分子のメチル化ハプロタイプは、メチル化認識酵素変換によって特定される。かかる変換方法の一例は、非破壊酵素反応を伴い、TET2及びAPOBEC3Aを利用して(メチル化ではなく)非メチル化シトシンを、チミンとして配列決定されたウラシルに変換するメチル-seq(EM-seq)である(例えばNEBNext(登録商標)Enzymatic Methyl-seq Kit)。従来の亜硫酸水素塩配列決定は、長いDNA分子を分解するため、メチル化ハプロタイプ情報が短くなり、血漿DNAの起源組織特定の精度に悪影響が及ぼされることから、長いDNA分子を採取する際に欠点がある。
A.長い無細胞DNA分子におけるCpG部位
【0254】
図43は、ゲノム全体にわたるCpG部位及び癌由来一塩基バリアント(SNV)の普遍性の1kb分解能での比較4300を示す。特に、表Aは、少なくとも対応する数のCpG部位(例えば、>1)を有する所与のゲノム(例えば、参照ゲノム)の1kbゲノム領域の数を示す。表Bは、少なくとも対応する数のSNV(例えば、>2)を有するゲノムの1kbゲノム領域の数を示す。
図43に示すように、少なくとも10つのCpG部位を含有する1kb領域は971,880であり、ヒトゲノムの33.7%を占めるのに対して、腫瘍組織からの38,465個の体細胞変異を分析する際に、少なくとも10つのSNVを含有する1kb領域はただ2つである。よって、CpG部位を大量有する血漿DNA分子は十分に取得でき、それによって、それらのメチル化パターンを疾患の予測に使用することができる。
【0255】
図44は、ゲノム全体にわたるCpG部位及び癌由来SNVの普遍性の3kb分解能での比較4400を示す。表Aは、少なくとも対応する数のCpG部位(例えば、>1)を有する所与のゲノム(例えば、参照ゲノム)の3kbゲノム領域の数を示す。表Bは、少なくとも対応する数のSNV(例えば、>2)を有するゲノムの3kbゲノム領域の数を示す。
図44に示すように、少なくとも10つのCpG部位を含有する3kb領域は844,742であり、ヒトゲノムの88.0%を占めるのに対して、少なくとも10つのSNVを含有する3kb領域はただ2つである。これらの結果は、長い血漿DNA分子のメチル化ハプロタイプに基づく分析により、癌の存在に関する情報を提供するために使用できる血漿DNA分子の情報を大幅に改善できることを示唆した。
【0256】
対照的に、短い無細胞DNA分子のCpG部位の量は疾患分類に十分ではない可能性がある。
図45は、ゲノム全体にわたるCpG部位及び癌由来SNVの普遍性の200bp分解能での比較4500を示す。表Aは、少なくとも対応する数のCpG部位(例えば、>1)を有する所与のゲノム(例えば、参照ゲノム)の200bpゲノム領域の数を示す。表Bは、少なくとも対応する数のSNV(例えば、>2)を有するゲノムの200bpゲノム領域の数を示す。
図45に示すように、10つのCpG部位を含有する200bp領域の百分率は急速に1.9%と低くなった。この結果は、短い無細胞DNA分子に存在するCpG部位の数(例えば<200bp)が限られるため、血漿DNAに基づく起源組織分析又は疾患分類に悪影響を及ぼすことを示唆する。
【0257】
よって、長い無細胞DNA分子におけるいくつかのCpG部位のメチル化パターンを使用して、疾患(例えば、癌)の存在を予測できる1つ又は複数のバイオマーカーを同定することができる。例えば、血漿サンプルの長い無細胞DNA分子に対応する配列リードは、メチル化認識配列決定(例えば、Enzymatic Methyl-seq)を使用して取得できる。各配列リードは、配列リード上の1組のCpG部位でのメチル化状態を同定するメチル化パターンを含み得る。各配列リードのメチル化パターンは、組織型の参照メチル化パターンと比較してもよく、それによって配列リードの組織分類が特定される。次に配列リードの組織分類を疾患分類の特定に使用できる。
【0258】
例えば、長い無細胞DNA分子のパターン特異性が遥かに高いため、参照組織メチロームの分解能が低い場合でも、分子ごとのメチル化分析を行うことができる。例えば、参照組織メチロームがゲノムの全ての塩基をカバーしていないか又は情報の断片化セクションを含む場合でも、ゲノム全体において長い無細胞DNA分子とのマッチがより少ない可能性がある。実際に、長い無細胞DNA分子は、参照の曖昧さにも関わらず、その真のマッチにアライメントすることができる。参照メチル化パターンが存在する限り、メチル化パターンの比較を使用して長い無細胞DNA分子の割合が特定の組織型に対応するか否かを予測することができる。血漿サンプルにおける特定の組織型に関連する長い無細胞DNA分子の高い割合は癌を予測することができる。
B.起源組織
【0259】
異なるメチル化パターン(即ちメチル化ハプロタイプ情報)を持つ一連のCpG部位を伴う、HCCを有する患者における長い血漿DNA分子の存在は、単一分子レベルでのそれらの起源組織/起源腫瘍の追跡を促進する。
【0260】
図46は、無細胞DNA分子が腫瘍DNAに対応するか否かをそのメチル化ハプロタイプ情報に応じて予測するプロセス例を図示する概略
図4600を示す。
図46中、血漿DNA分子をSMRT配列決定に供した。各配列決定されたリードのCpG部位にわたるメチル化状態を、HKモデルを使用して導き出した(Tse et al. Proc Natl Acad Sci USA. 2021;118: e2019768118)。血漿DNAの起源組織をそのメチル化ハプロタイプによって追跡する実行可能性を実証するために、各参照組織、例えばバフィーコート及びHCC腫瘍における、血漿DNA分子(CpG部位にわたるメチル化状態(0/1))とCpG部位に対応する集計メチル化指数(それぞれ0~1の範囲の連続値)との間のメチル化状態の面での距離を計算してもよい。いくつかの実例において、濃い色は対応するCpG部位のメチル化(「1」)を示し、白色はCpG部位の非メチル化(「0」)を示す。参照腫瘍組織の各円グラフは対応するCpG部位でメチル化された参照DNA分子の割合(百分率)を表すことができる。よって、円グラフの大部分が濃い色であることは、高い割合の参照DNA分子が対応するCpG部位でメチル化されていることを意味する。
【0261】
よって、所与の長い無細胞DNA分子の各CpG部位のメチル化状態は、参照組織の各々の円グラフと比較することができ、組織のマッチングは、総合的に考慮すると長い無細胞DNA分子上に存在する全てのCpG部位のメチル化状態からのずれが最も少ない参照組織パターンに基づいて特定できる。例えば、CpG部位について、長い無細胞DNA分子のメチル化状態と参照腫瘍組織における参照DNA分子の割合との間の第1距離を計算してもよい。例として、DNA分子上のメチル化部位(1)と60%のメチル化指数(密度)を有する参照との間の距離は0.4であり得る。DNA分子がメチル化されていない場合、距離は0.6であり得る。同じCpG部位について、長い無細胞DNA分子のメチル化状態と参照バフィーコートにおける参照DNA分子の割合との間の第2距離を計算してもよい。第1及び第2距離を比較してもよい。この例において、第1距離は第2距離未満であり、これは、CpG部位が参照腫瘍組織と同様のメチル化状態を有することを示すことができる。
【0262】
いくつかの実施形態において、メチル化されたと同定された配列決定CpGの百分率又は割合と定義された、参照組織におけるCpG部位の各々のメチル化指数は、亜硫酸水素塩配列決定(BS-seq)データから取得される。追加的に又は代替的に、参照組織における集計メチル化指数は、Enzymatic Methyl-seqデータ(即ちEM-seq)から取得され得る。
【0263】
血漿DNA及び参照組織メチロームのメチル化ハプロタイプ間の距離としては、ユークリッド距離、コサイン類似度、ハミング距離、編集距離等を含み得るが、それらに限定されない。いくつかの実施形態において、距離計算は、異なるゲノム位置に応じて重み付けベクターによって調整できる。例えば、腫瘍組織と非腫瘍組織のメチル化の差異が大きな位置には、より高い重みが割り当てられる。対照的に、腫瘍組織と非腫瘍組織の間のメチル化の差異が小さな位置には、より低い重みが割り当てられる。
C.メチル化スコアを用いた起源組織分析
1.肝細胞癌(HCC)
【0264】
いくつかの実施形態において、本明細書に記載のメチル化パターン分析は、追加の計算を使用して血漿DNA分子の起源組織の分析を更に例示することを含み得る。説明的な例として、各血漿DNA分子のメチル化パターンを、ホリスティック動態(HK)モデルを使用してCpG部位周囲のポリメラーゼ動態信号に応じて特定した(Tse et al. Proc Natl Acad Sci USA. 2021;118: e2019768118)。各血漿DNA分子のかかるメチル化パターンを、肝臓組織、バフィーコート、結腸組織、肺組織等に限定されない参照メチル化プロファイルと比較した。いくつかの実施形態において、参照メチル化プロファイルは、高深度亜硫酸水素塩配列決定の結果に基づいて取得される。各参照組織のゲノムにおける各CpG部位について、メチル化指数(MI)を下記式によって計算した。
【数7】
式中、「C」は配列決定されたシトシン(即ちメチル化CpG)の数を表し、「T」は、配列決定されたチミン(即ち非メチル化CpG)の数を表す。
【0265】
肝臓組織とバフィーコートの間のMI差が30%より大きいCpG部位を下流分析に情報価値のあるものと認めた。いくつかの実施形態において、MI差としては、5%、10%、15%、20%、25%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%等を含むが、それらに限定されない。いくつかの実施形態において、その分子において観察されたメチル化パターンと参照メチル化プロファイルの比較に基づいてDNA分子が特定の組織を起源とする尤度を特定するために、スコアリングシステムが使用される。n個の情報価値のあるCpG部位を持つ各DNA分子について、メチル化スコアS(liver)を下記式によって計算した。
【数8】
式中、
はCpG部位iのメチル化状態を示し、0及び1の
はそれぞれ非メチル化及びメチル化CpG部位を表し、
は肝臓におけるCpG部位iのメチル化指数を示す。S(liver)が高いほど、DNA分子が肝臓組織を起源としている尤度が高い。
【0266】
同様に、血漿DNA分子とバフィーコートの間のメチル化パターンの類似度を特定するために、別のメチル化スコアS(buffy coat)を以下にように計算した。
【数9】
【0267】
同様に、血漿DNA分子と結腸の間のメチル化パターンの類似度を特定するために、別のメチル化スコアS(colon)を以下にように計算した。
【数10】
【0268】
同様に、血漿DNA分子と肺の間のメチル化パターンの類似度を特定するために、別のメチル化スコアS(lung)を以下にように計算した。
【数11】
【0269】
S(liver)、S(buffy coat)、S(colon)及びS(lung)のうち、S(liver)が最高であると、対応するDNA分子は肝臓起源と分類される。さもないと、それは、どのメチル化スコアが最高であるかに応じて、造血系、結腸、又は肺起源と分類される。
2.癌メチル化スコアを用いたHCC病期予測
【0270】
図47は、本開示の実施形態に係るメチル化ハプロタイプ分析に基づき、異なる病期のHCC患者において肝臓起源であると特定されるDNA分子の百分率を同定する箱ひげ
図4700を示す。特に、
図47は、BCLC病期分類システムによる異なる病期のHCCを有する患者における血漿DNA分子の百分率を示す。病期の進行に伴い、肝臓由来断片が増加する傾向がある。血漿DNA分子の起源組織分析から、患者が患っている癌の病期等、疾患の重篤度を特定できる。よって、メチル化ハプロタイプベースの分析は、治療法選択及び予後予測の指導に効果的に使用できる。
【0271】
本開示に記載の実施形態に係るメチル化ハプロタイプ分析及びメチル化スコアに基づき、癌メチル化スコアと名付けられたメトリックを使用して癌の存在及び/又は重篤度を反映することができる。血漿DNA分子のメチル化パターンを、癌を含む参照組織のメチル化プロファイルと比較した。メチル化パターンの面でDNA分子と分析される腫瘍の間の類似度を反映する第1スコアS(cancer)を下記式によって計算した。
【数12】
式中、
は血漿DNA分子におけるCpG部位jのメチル化状態であり、
は腫瘍組織(例えば、肺組織、肝臓組織、結腸組織、バフィーコート)の参照メチロームにおける対応するCpG部位のメチル化指数であり、nは血漿DNA分子におけるCpG部位の総数である。
【0272】
同様に、DNA分子のメチル化パターンと、バフィーコート、肝臓組織、結腸組織、肺組織等に限定されない組織参照メチル化プロファイルとの間の比較の中で最も高い類似度を特定するために、第2スコアS(non-cancer)を下記式によって計算した。
【数13】
【0273】
最後に、下記式を使用してS(cancer)及びS(non-cancer)の両方を統合して癌メチル化スコアを生成した。
【数14】
式中、Tは、1つの個体において分析される血漿DNA分子の総数である。癌メチル化スコアが高いほど、試験サンプルが癌を有する可能性が高い。この分析における癌タイプとしては、HCC、膀胱癌、乳癌、結腸及び直腸癌、子宮内膜癌、腎臓癌、白血病、肺癌、黒色腫、非ホジキンリンパ腫、膵臓癌、甲状腺癌等を含み得るが、それらに限定されない。
【0274】
図48は、いくつかの実施形態に係る、異なる病期にわたるHCC患者の癌メチル化スコアを同定する箱ひげ
図4800を示す。
図48は、HCCを有する患者の癌メチル化スコア(「HCCメチル化スコア」とも呼ばれる)が特定された癌メチル化スコア分析を示す。HCC患者は、BCLC病期分類システムによる異なる病期のHCCを有した。病期の進行に伴い、HCCメチル化スコアが徐々に増加した。よって、癌メチル化スコア分析に基づき、患者が患っている癌の病期等、疾患の重篤度を特定できる。よって、癌メチル化スコアは、治療法選択及び予後予測の指導に効果的に使用できる。
【0275】
いくつかの実施形態において、HCCメチル化スコアに基づいてHCC患者のコホートに生存率分析を実施した。例えば、HCCメチル化スコアがHCCメチル化スコアの中央値以下の症例を「群A」と分類し、HCCメチル化スコアがHCCメチル化スコアの中央値より大きい症例を「群B」と分類した。カプラン・マイヤー生存率曲線を使用して異なる群間の生存確率分布を反映することができる。本明細書に記載のように、生存率曲線は、所与の群における各年齢まで生存した個体の数又は割合を示すグラフに対応する。生存率曲線の急速な低下は、生存率曲線の緩徐な低下と比較して、所与の群がより早く死亡することを示す。
【0276】
図49は、いくつかの実施形態に係る、HCC患者における生存率分析を同定する1組の生存率曲線4900を示す。曲線4902は、HCCメチル化スコア分析用の少なくとも7つのCpG部位を有するDNA分子を示す。曲線4904は、HCCメチル化スコア分析用の7つ未満のCpG部位を有するDNA分子を示す。
図49に示すように、群B(4906A及び4906B)内のHCC患者は、群A(4908A及び4908B)より生存率が悪い傾向にある。少なくとも7つのCpG部位を有するより長いcfDNA分子(長さの中央値:758bp、曲線4902)を使用すると、7つ未満のCpG部位を有するより短いDNA分子(長さの中央値:311bp、曲線4904)の使用よりも、2群間のカプラン・マイヤー生存率曲線の差より大きくなり、これは、予後予測において長いcfDNA分子の使用が短いcfDNA分子より効果的であることを示唆する。例えば、2年後、曲線4902は、群A患者の91%が生存でき、群B患者の81%が生存できることを示し、ここで対応する癌メチル化スコアは短いcfDNA分子から導き出されたものである。対照的に、曲線4904は、群A患者の96%が生存でき、群B患者の77%が生存できることを示し、ここで対応する癌メチル化スコアは長いcfDNA分子から導き出されたものである。よって、癌メチル化スコア分析は疾患の生存確率を特定するために使用できる。
【0277】
加えて、癌メチル化スコアは、様々な配列決定プラットフォームを使用して取得された長い配列リードに基づいて効果的に使用できる。
図50は、SMRT-seq(5002)及びナノポア配列決定(5004)からのデータを使用して計算されたHBV保菌者及びHCC患者のHCCメチル化スコアを同定する箱ひげ
図5000を示す。HCCメチル化スコアは、本開示における実施形態に従って計算された。
図50に示すように、HCC患者は、SMRT-seq(P<0.001、マンホイットニーU検定)及びナノポア配列決定(P=0.0026、マンホイットニーU検定)の両方においてHBV保菌者より有意に高いHCCメチル化スコアを示した。
【0278】
よって、Oxford Nanopore Technologies(ONT)によるナノポア配列決定も、核酸の分析に利用できる。ナノポア配列決定の効果を実証するために、8人のHCC患者及び6人のHBV保菌者からの血漿DNA分子をナノポア配列決定及びSMRT配列決定の両方で配列決定した。
図51は、SMRT-seq及びナノポア配列決定からのデータを使用してHBV保菌者(5102)及びHCC患者(5104)からの血漿サンプルにおいて単一分子起源組織分析によって肝臓由来cfDNAの百分率を同定するグラフ5100を示す。
図51に示すように、ナノポア配列決定を使用してHBV保菌者及びHCC患者において肝臓起源と分類されたcfDNA分子の百分率は、SMRT配列決定によるものに一致することを示した(ピアソン相関、r=0.99、P<0.001)。
3.結腸直腸癌(CRC)
【0279】
HCCに加えて、SMRT-配列決定を使用してCRC患者、HCC患者及び健康対象からの血漿DNA分子を分析し、メチル化スコアにより起源組織を分析した。
【0280】
結腸組織とバフィーコートの間のMI差が30%より大きいCpG部位を下流分析に情報価値のあるものと認めた。いくつかの実施形態において、MI差としては、5%、10%、15%、20%、25%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%等を含むが、それらに限定されない。いくつかの実施形態において、その分子において観察されたメチル化パターンと参照メチル化プロファイルとの比較に基づいてDNA分子が特定の組織を起源とする尤度を特定するために、スコアリングシステムが使用される。n個の情報価値のあるCpG部位を持つDNA分子について、メチル化スコアS(colon)を下記式によって計算した。
【数15】
式中、
はCpG部位iのメチル化状態を示し、0及び1の
はそれぞれ非メチル化及びメチル化CpG部位を表し、
は結腸におけるCpG部位iのメチル化指数を示す。S(colon)が高いほど、DNA分子が結腸組織を起源とする尤度が高い。
【0281】
同様に、血漿DNA分子とバフィーコートの間のメチル化パターンの類似度を特定するために、別のメチル化スコアS(buffy coat)を以下のように計算した。
【数16】
【0282】
同様に、血漿DNA分子と肝臓の間のメチル化パターンの類似度を特定するために、別のメチル化スコアS(liver)を以下のように計算した。
【数17】
【0283】
同様に、血漿DNA分子と肺の間のメチル化パターンの類似度を特定するために、別のメチル化スコアS(lung)を以下のように計算した。
【数18】
【0284】
S(colon)、S(buffy coat)、S(liver)及びS(lung)のうち、S(colon)が最高である場合、対応するDNA分子は結腸起源と分類される。さもないと、それは、どのメチル化スコアが最高であるかに応じて、造血系、肝臓、又は肺起源と分類される。
【0285】
図52は、本開示に提示された実施形態に基づいて15人の健康対象、45人のHCC患者及び4人のCRC患者において結腸起源と分類された血漿DNA分子の百分率を同定する箱ひげ
図5200を示す。この分析例には、少なくとも7つのCpG部位を有するDNA分子(長さの中央値:896bp)が含まれた。
図52に示すように、CRC患者は、健康対象(P値:0.0005、マンホイットニーU検定)よりも、結腸起源と分類されたDNA分子の百分率が有意に高く、CRCとHCC患者の間の明確な分離が示される(P値:0.0018、マンホイットニーU検定)。これは、結腸直腸癌を有する対象と有さない対象を区別する際の本開示における実施形態のメチル化スコア分析の診断能力を実証しただけでなく、癌の起源組織を正確に特定する際の特異性も強調した。
D.疾患の組織学的状態
【0286】
長い無細胞DNA分子に更に分析を行って疾患の組織学的状態を取得してもよい。
図53は、いくつかの実施形態に係るメチル化ハプロタイプ分析に基づき、血管浸潤を有するHCC患者と有さないHCC患者の間でHCC腫瘍起源であると特定されるDNA分子の百分率を同定する1組のバープロット5300を示す。
図53は、HCC腫瘍起源であると特定されるDNA分子の百分率の中央値が、血管浸潤を有さないHCC患者(14.08%)よりも、血管浸潤を有するHCC患者の方が高かった(16.68%)ことを示す。データは、メチル化ハプロタイプベースの分析によって同定された腫瘍由来DNA分子を腫瘍の組織学的状態に関する情報を提供するために使用することを示唆した。
E.長い無細胞DNA分子を用いたメチル化ベースの分析と短い無細胞DNA分子を用いたメチル化ベースの分析との比較
【0287】
サイズが1kbより大きい血漿DNAを使用すると、生体サンプルについて疾患を正確に分類することができる。
図54は、いくつかの実施形態に係る、HCC腫瘍起源であると特定されるDNA分子の百分率を同定する1組のバープロット5400を示す。
図54は、HCC腫瘍起源であると特定されるDNA分子の百分率が、HCCを有さない患者よりも、HCCを有する患者の方が有意に高かった(中央値:14.78%対10.98%。P値:0.024、マンホイットニーU検定)ことを示す。結果は、長い血漿DNA分子ごとの組織起源/腫瘍起源の分析が癌検出用のツールとして機能することを示唆した。
【0288】
更に、長い血漿DNAのメチル化ハプロタイプ分析が短いDNA分子(<600bp)の使用よりも利点があるか否かを評価するために、HCCを有する患者と有さない患者からのサンプルのPacBio直接メチル化HKモデル分析(Tse et al. Proc Natl Acad Sci USA. 2021;118: e2019768118)を使用して取得された血漿DNA配列データを2つの群に分割した。第1群の分子は、>1kbのサイズに対応し、第2群の分子は<600bpのサイズに対応した。第1群について、本開示に提示された実施形態に従ってメチル化ハプロタイプに基づいて腫瘍由来分子の検出を試みた。第2群について、全体的なメチル化レベル(血漿DNA分子によるヒトゲノム全体におけるメチル化CpG部位の百分率)を計算し、メチル化ハプロタイプ情報の代わりに集計メチル化レベルに基づいて肝臓DNA寄与を特定した。
【0289】
図55は、長い無細胞DNAの単一分子メチル化配列データの分析の癌検出精度、及び短い無細胞DNAのメチル化配列データを使用する他の分析の癌検出精度を同定する1組のROC曲線5500を示す。線A(5502)は、本開示に提示された実施形態に係る、サイズが>1kbの血漿DNA分子のメチル化ハプロタイプ分析を示す。線B(5504)は、<600bpの血漿DNA分子によるヒトゲノム全体におけるメチル化CpG部位の百分率を示す。線C(5506)は、二次計画法アプローチを使用して、メチル化ハプロタイプ情報の代わりに<600bpの血漿DNA分子の集計メチル化レベルによって、導き出された肝臓寄与を示す。
【0290】
図55は、第1群の分子(例えば、長い無細胞DNA分子)を用いたメチル化ハプロタイプ分析(AUC:0.83)が、第2群の分子で検査された他の2つの方法(AUC:<0.7)を上回ったことを示す。これらの結果は、癌検出において、長い血漿DNA分子のメチル化ハプロタイプベースの分析がより短い血漿DNA分子のメチル化分析より優れることを実証した。
【0291】
別の比較分析を行って長い無細胞DNA分子を用いたメチル化ハプロタイプベースの分析と短い無細胞DNA分子の血漿DNA組織マッピング分析の実績を比較した。短い無細胞DNA分子を取得するために、ショートリード亜硫酸水素塩配列決定技術(Illumina)を使用して34人の対照及び38人のHCC対象を配列決定し、中央値が2億1,100万の75bp x 2ペアエンドリード(範囲:1億1,200万~16億8,100万)であった。
【0292】
図56は、長いDNA5602(>1kb)を用いたメチル化ハプロタイプベースの分析のHCC検出精度、及び短い血漿DNA分子5604(<600bp)のショートリード亜硫酸水素塩配列決定を用いた血漿DNA組織マッピング分析のHCC検出精度を同定する1組のROC曲線5600を示す。
図56に示すように、このサンプルのコホートについて、血漿DNA組織マッピング分析(Sun et al. Proc Natl Acad Sci USA. 2015;112:E5503-5512)は、HCCを有する患者と有さない患者を区別する際に0.76のAUCを提供した。かかるAUC値は、短い血漿DNA分子に基づく分析の実績が長い血漿DNA分子のメチル化ハプロタイプに基づく分析の実績(AUC:0.83)を下回ったことを示す。短いDNA分子の集団からのゲノム領域における集計メチル化確率を利用した血漿DNA組織マッピング(Sun et al. Proc Natl Acad Sci USA. 2015;112:E5503-5512)では、個別の長い血漿DNA分子のメチル化ハプロタイプに関する情報及び有用性を考慮に入れていなかった。
F.長い無細胞DNA分子のメチル化パターン分析方法
【0293】
図57は、いくつかの実施形態に係る、長い無細胞DNA分子のメチル化パターンに基づいて対象の生体サンプルを分析するプロセス例を図示するプロセス5700のフローチャートを示す。生体サンプルは、正常細胞及び場合によっては複数の組織型の1つ又は複数に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は、生体サンプルにおいて無細胞である。
【0294】
ステップ5702で、無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取ってもよい。メチル化認識配列決定は、酵素処理を含み得る。いくつかの実例において、メチル化認識配列決定は亜硫酸水素塩処理を含まない。他の実例において、亜硫酸水素塩処理は使用される。配列リードの各々は、配列リード上の1組の部位(例えば、CpG部位)でのメチル化状態のメチル化パターンを含み得る。例えば、配列リードは、「-M-M-M-U-U-U-」のメチル化パターンを表示する6つのCpG部位を含み得、ここで「M」はメチル化状態を表し、「U」は非メチル化状態を表す。別の例において、所与の配列リードは、少なくとも3つのCpG部位を含み得る。メチル化パターンは、1組の部位のうちの部位対間の塩基の数(例えば、塩基の指定された数)、及び塩基のアイデンティティを含み得る。
【0295】
cfDNA分子の部位でのメチル化状態は、本明細書に記載のように、硫酸水素塩変換を使用して調べることができる。亜硫酸水素塩変換とは別に、当業者に既知の他のプロセスを使用してDNA分子のメチル化状態を調べることができ、これらのプロセスは、メチル化状態に感受性の酵素(例えばメチル化感受性制限酵素)、メチル化結合タンパク質、メチル化状態に感受性のプラットフォームを用いた単一分子配列決定(例えばナノポア配列決定(Schreiber et al. Proc Natl Acad Sci 2013; 110: 18910-18915)及びPacific Biosciences単一分子リアルタイム分析(Tse et al. Proc Natl Acad Sci U S A 2021; 118: e2019768118)による)を含むが、それらに限定されない。
【0296】
いくつかの実例において、配列リードは、下限及び上限を含み得る第1サイズ範囲内のサイズを有する長い無細胞DNA分子に対応する。例として、第1サイズ範囲は、少なくとも1,000塩基、少なくとも3,000塩基、又はそれ以上の上限を含み得る。いくつかの実例において、下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択され得る。
【0297】
1組の部位は、様々な数としてもよい。いくつかの実例において、配列リードの各々の1組の部位は、少なくともN個の部位を含み得る。例えば、所与の配列リードは、少なくとも3つのCpG部位を含み得る。少なくとも2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、又は50より多い部位に限定されない他の数も考慮され得る。追加的に又は代替的に、配列リードは、第1サイズ範囲(例えば、500bpより大きい)内のサイズを有する長い無細胞DNA分子に対応し得、少なくともN個の部位(例えば、3つのCpG部位)を含み得る。
【0298】
ステップ5704及び5706を、ステップ5702から受け取った配列リードのうちの各配列リードに対して行ってもよい。ステップ5704で、配列リードのメチル化パターンを第1参照メチル化パターンと比較してもよい。いくつかの実例において、第1参照メチル化パターンは、第1組織型に対応する。第1組織型は疾患組織型であり得る。いくつかの実例において、第1組織型は疾患に関連する。追加的に又は代替的に、配列リードのメチル化パターンを、更に1つ又は複数の他の参照メチル化パターンのうちの各参照メチル化パターンと比較してもよい。各参照メチル化パターンは、複数の組織型のうちの組織型に対応し得る。
【0299】
参照メチル化パターンの値は、二進値(例えば、
図41又は42中の0及び1)であり得るか又は小数(例えば、20%のメチル化指数を示す0.2)を有し得る。参照パターンは、組織型に対して一般的であり得るか又は特定の位置に固有であり得る。このようなケースでは、配列リードの位置を特定してもよい。したがって、いくつかの実施形態において、メチル化パターンを参照パターンと比較することは、配列リードの位置を(例えば、参照ゲノムに対して)特定することを含み得、ここで参照メチル化パターンは該位置での参照配列に対応する。
【0300】
いくつかの実例において、配列リードのメチル化パターンと第1参照メチル化パターンとの間の比較は、部位のメチル化状態と同部位での第1参照メチル化パターンのメチル化指数との差に基づいて類似度メトリックを計算することを含み得る。類似度メトリックは、距離(例えば、ユークリッド距離)、コサイン類似度、又はメチル化スコアであり得る。
【0301】
いくつかの実例において、メチル化状態は、対応する部位がメチル化されているか否かを示す。この実例において、メチル化状態は、部位のメチル化を示す2進値を含む。類似度メトリックは、配列リードの集計値(例えば、合計、代表値、中央値)を特定するために1組の部位から決定されてもよい。集計値は配列リードの組織分類を特定するために1つ又は複数のカットオフと比較してもよく、ここで1つ又は複数のカットオフは、第1組織型に関連すると知られる参照サンプルを使用して同定してもよい。追加的に又は代替的に、メチル化パターンと第1参照メチル化パターンの比較は、対応する1組の部位でのメチル化状態に基づいて配列リードのメチル化レベルを特定し、該メチル化レベルに基づいて第1参照メチル化パターンから特定された別のメチル化レベルとの差を特定し、そして該差を1つ又は複数のカットオフ値と比較することを含み得る。メチル化レベルは、メチル化指数、メチル化密度、1組の部位のうちの1つ又は複数の部位でメチル化された分子の個数、又は1組の部位のうちの1つ又は複数の部位でのメチル化された分子(例えば、シトシン)の割合であり得る。
【0302】
いくつかの実例において、類似度メトリックは、メチル化スコアである。メチル化スコアを計算するために、第1参照メチル化パターンを表す参照メチル化プロファイルを、第1参照メチル化パターンが取得されたゲノムにおける各CpGのメチル化指数を計算することで特定してもよい。次に、配列リードの各CpG部位について、CpG部位のメチル化状態(例えば、0と1間の2進値)と同CpG部位での対応するメチル化指数との差を特定してもよい。CpG部位にわたって特定された差を集計して配列リードのメチル化スコアを特定してもよい。いくつかの実例において、集計値は、配列リードのメチル化スコアを特定するために、(例えば、配列リードのCpG部位の総数によって)正規化される。メチル化スコアを特定するステップは、本開示のセクションIV.C及びIV.Dに更に記載される。
【0303】
ステップ5706で、比較に基づき、配列リードの組織分類を特定してもよい。組織分類は、上記で
図41、42、及び46について説明したように行ってもよい。例えば、比較は、メチル化パターンの1組の部位のうちの各部位について、部位のメチル化状態と第1参照メチル化パターンの対応する部位のメチル化指数との類似度メトリックを特定することで、特定されてもよい。1組の部位にわたる類似度メトリックは、集計値(例えば、類似度メトリックの合計)を特定するために集計されてもよい。集計値がカットオフ値を超える場合、配列リードは第1組織型に関連すると分類できる。集計値がカットオフ値を超えていない場合、配列リードは他の組織型の1つに関連すると分類できる。カットオフ値は、第1組織型に関連すると知られる1つ又は複数の参照サンプルを使用して決定してもよい。
【0304】
別の例において、最も近い参照メチル化パターンは、それぞれの集計値に基づいて1組の参照メチル化パターンの間(例えば、第1参照メチル化パターン及び1つ又は複数の他の参照メチル化パターン)で同定でき、組織分類は、最も高い集計値を有する参照メチル化パターンの対応する組織型と特定できる。特に、上記の段落に記載の集計値は、各参照メチル化パターンについて特定できる。次に、配列リードは、最も高い集計値を有する参照メチル化パターンに関連する組織型に由来すると分類できる。よって、組織分類は、配列リードが複数の組織型の1つに由来すること(又はその由来の程度)を示すことができる。組織分類は、配列リードが複数の組織型の1つに由来する確率を含み得る。1つより多くの組織型の確率を特定してもよい。
【0305】
追加的に又は代替的に、最も近い参照メチル化パターンを、メチル化状態の直接比較に基づいて1組の参照メチル化パターン(例えば、第1参照メチル化パターン及び1つ又は複数の他の参照メチル化パターン)の間で同定してもよく、組織分類を、最も近いメチル化参照パターンの対応する組織型と特定してもよい。例えば、配列リードは「-M-M-M-U-U-U-」のメチル化パターンを表示する6つのCpG部位を有し、ここで「M」はメチル化状態を表し、及び「U」は非メチル化状態を表す。他の分子は、「-M-U-M-U-M-U-」、「-M-U-M-M-U-U-」、「-M-U-U-U-M-M-」、「-M-M-U-U-M-U-」、「-M-M-U-U-U-M-」、「-U-M-M-M-U-U-」、「-U-U-M-U-M-M-」、「-U-U-M-M-M-U-」、「-U-U-U-M-M-M-」の参照メチル化パターンを表示する他の組織からの対応するCpG部位を含有する。しかし、(例えば)肝臓組織に対応する参照メチル化パターンは「-M-M-M-U-U-M-」であってもよい。この例において、配列リードは、肝臓組織に関連すると特定できる。よって、分子における1組のCpG部位にわたるメチル化パターンの組み合わせは、細胞性質又は疾患状態を示す「分子バーコード」として機能できる。
【0306】
比較がメチル化スコアの使用を伴う場合、組織分類は、配列リードのメチル化状態及び他の参照メチル化パターンからのメチル化指数に基づいて他のメチル化スコアを特定することを含んでもよい。例えば、第1参照メチル化パターンは第1組織型(例えば、肝臓)に対応し得、第2メチル化パターンは第2組織型(例えば、バフィーコート)に対応し得、第3メチル化パターンは第3組織型(例えば、結腸)に対応し得る。次に、最も高いメチル化スコアに関連する組織型を配列リードの組織分類として特定できる。いくつかの実例において、比較は、2つの参照メチル化パターン(例えば、第1及び第2参照メチル化パターン)のメチル化スコアを比較することを含み、ここで第1参照メチル化パターンは第1組織型に対応し、第2参照メチル化パターンは1つ又は複数の他の組織型に対応する。メチル化スコアを使用して組織分類を行うステップは本開示のセクションIV.Cに更に記載される。
【0307】
第1組織型が疾患型である場合、疾患組織(例えば、HCC)の参照メチル化プロファイルに対応する第1メチル化スコア(例えば、S(cancer)スコア)を特定でき、健康組織(例えば、非HCC)の参照メチル化プロファイルに対応する第2メチル化スコア(例えば、S(non-cancer)スコア)を特定できる。次に、疾患を分類するために、配列リードについて特定された第1及び第2メチル化スコアを一緒に使用して癌メチル化スコアを特定してもよい。癌メチル化スコアを使用して疾患分類を行うステップは、本開示のセクションIV.Dに更に記載される。
【0308】
ステップ5708で、生体サンプルの疾患の疾患分類を配列リードの組織分類に基づいて特定してもよい。組織型が疾患組織型である場合、組織分類と疾患分類は同等であり得る。疾患分類について、ステップ5706で特定された癌メチル化スコアを使用して疾患分類を特定してもよい。疾患は癌であり得る。疾患分類の特定は、癌による血管浸潤の有無を判定することを含み得る。いくつかの実例において、疾患分類の特定は、(i)第1組織型に由来すると分類された配列リードの第1量を特定すること、及び(ii)第1量を1つ又は複数の参照値と比較した上で生体サンプルの疾患の分類を特定することを含む。
【0309】
1つ又は複数の参照値は、疾患の分類が既知の参照サンプルから決定されてもよい。配列リードの第1量が1つ又は複数のカットオフ値を超えると、対象は疾患をゆすると分類できる。対照的に、配列リードの第1量が1つ又は複数のカットオフ値を超えていないと、対象は疾患を有さないと分類できる。
【0310】
量は、第1組織型の確率の合計であり得る。例えば、組織分類が確率値又はメチル化スコアに対応する場合、配列リードの第1量は、第1組織型に由来すると分類された配列リードの確率値又はメチル化スコアの合計を含み得る。いくつかの実例において、合計は、確率閾値を上回る配列リードの確率値又はメチル化スコアに基づいて特定される。
【0311】
いくつかの実例において、疾患分類は、第1参照メチル化パターンに対応する配列リードの第1量を1つ又は複数の他の参照メチル化パターンの量と比較することで特定され、ここで1つ又は複数の他の参照メチル化パターンの各々は1つ又は複数の他の組織型に関連する。1つ又は複数の他の組織型に由来すると分類された配列リードの1つ又は複数の他の量を特定してもよい。配列リードの第1量と1つ又は複数の他の量との比較に基づき、生体サンプルの疾患の分類を特定できる。例えば、配列リードの第1量が最大量である場合、対象は第1組織型の疾患を有すると特定できる。
【0312】
疾患の分類は、疾患の重篤度の分類(例えば、疾患無し、早期、中期、進行期)を含み得る。例えば、疾患の分類は、BCLC病期に従う癌の病期を含み得る。次に、分類は病期の1つを選択してもよい。したがって、分類は、疾患の複数の病期(例えば、HCCのBCLC病期の1つ)から特定できる。いくつかの実例において、疾患は癌である。例として、癌は、肝細胞癌、肺癌、乳癌、胃癌、多形性膠芽腫、膵臓癌、結腸直腸癌、鼻咽頭癌、及び頭頸部扁平上皮癌であり得る。
V.疾患重篤度を予測するための長い無細胞DNA分子の単一分子メチル化レベル分析
【0313】
疾患重篤度の評価は、治療法決定、予後予測及び監視の指導に重要である。肝細胞癌(HCC)を例にすると、早期HCC(例えばバルセロナクリニック肝臓癌(BCLC)0/A)を有する患者は、生存期間の中央値が>5年と予想され、通常、焼灼術、切除術及び移植のような治癒治療が提供される。対照的に、進行期HCC(例えばBCLC C)を有する患者は、生存期間の中央値が>2年と予想され、通常、全身性治療が提供される(Reig. et al. J. Hepatol. 2022;76:681-693)。
【0314】
本開示の実施形態によれば、単一分子メチル化パターン分析及びcfDNA起源組織分析に限定されないcfDNA分子のメチル化に基づく分析は、癌病期の予測に限定されない疾患の重篤度の予後判定に使用できる。
A.単一分子メチル化レベルを用いた疾患分類
【0315】
単一分子リアルタイム配列決定(SMRT-Seq)を使用して45人のHCC患者、13人のB型肝炎ウイルス(HBV)保菌者及び15人の健康個体からの血漿DNA分子を配列決定した。
図58は、いくつかの実施形態に係る、単一分子リアルタイム配列決定(SMRT-Seq)際の個体の異なる群内の単一分子メチル化レベルを同定する箱ひげ
図5800を示す。HCC患者からの血漿DNA分子は、対照個体よりも、平均単一分子メチル化レベルが有意に低かった(P値:0.005、マンホイットニーU検定)(
図58)。本明細書における単一分子レベルは、単一分子においてメチル化されたと特定されるCpG部位の百分率によって定義された。例えば、DNA分子が10つのCpG部位を含有し且つその5つがメチル化されたと特定された場合、単一分子メチル化レベルは50%(即ち5/10*100%)となる。単一分子メチル化レベルは、所与の生体サンプルの配列リードの各々について特定されてもよく、ここで統計値(例えば、平均、中央値)は、単一分子メチル化レベルから特定できる。
図58におけるこれらのデータは、単一分子メチル化レベルの使用によりHCC患者の検出が可能になることを示唆した。
【0316】
いくつかの実施形態において、SMRT-seqで分子のサイズ、CpG部位の数及びメチル化レベルに限定されない基準に基づいてより多くの長いcfDNA分子を取得できることから、基準を診断実績の更なる強化に使用でき、長いcfDNA分子(例えば>600bp)を配列決定できないIllumina配列決定プラットフォームについてはこれは適さなかった。
【0317】
図59は、サイズが>500bpであり、少なくとも3つのCpG部位を含有し、SMRT-Seqにおいてメチル化レベルが≦60%であるDNA分子における単一分子メチル化レベルを同定する箱ひげ
図5900を示す。
図59に示すように、サイズが>500bpであり、少なくとも3つのCpG部位を含有し、メチル化レベルが≦60%であるDNA分子について、それぞれ、健康対象、HBV保菌者及びHCC患者における平均単一分子メチル化レベルを分析した。HCCを有さない患者と比較してHCC患者が有意に低いメチル化レベルを示すことを発見した(P-値:2.132 x 10
-8、マンホイットニーU検定)。
【0318】
図60は、いくつかの実施形態に係る、SMRT-Seq及びショートリード配列決定(例えば、Illumina配列決定)においてHCC対象と非HCC対象を区別する際の単一分子メチル化レベルの実績を同定するROC曲線6000を示す。
図60に示すように、サイズ選択を経ていないDNA分子全体と比較して、サイズが>500bpの分子(6002)に基づくこのような選択的分析は診断実績を向上させ、受信者動作特性(ROC)曲線下面積(AUC)が0.7から0.87に向上した。加えて、ショートリード配列決定に基づくこのようなメチル化分析に使用される>500bpの分子(6004)は、0.56のAUCのみ提供し(Jiang et al. Cancer Discov. 2020; 10:664-673)、これは本明細書に開示された実施形態より遥かに悪かった。
【0319】
図61は、異なるバルセロナクリニック肝臓癌(BCLC)病期のHCC患者における単一分子メチル化レベルを同定する箱ひげ
図6100を示す。
図61は、患者における平均単一分子メチル化レベルがBCLC病期分類システムに従う異なるHCC病期に応じて変化したことを示す。癌病期の進行に伴い、単一分子メチル化レベルが徐々に低下した。よって、血漿DNA分子の単一分子メチル化レベルは、患者が患っている癌の病期等、疾患の重篤度に関する情報を提供するために使用できる。実際に、血漿DNA分子の単一分子メチル化レベルは、治療法選択及び予後予測を指導することができる。いくつかの実例において、長い血漿DNA分子(例えば、サイズが600bpより大きい)の単一分子メチル化レベルは、疾患の重篤度を特定する精度の向上に使用される。
B.DNA分子における単一分子メチル化レベルを使用して疾患分類を特定する方法
【0320】
図62は、いくつかの実施形態に係る、DNA分子における単一分子メチル化レベルを使用して疾患分類を特定するプロセス例を図示するフローチャート6200を示す。生体サンプルは、正常細胞及び場合によっては複数の組織型の1つ又は複数に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は生体サンプルにおいて無細胞である。
【0321】
ステップ6202で、無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取ってもよい。配列リードの各々は、配列リード上の1組の部位(例えば、CpG部位)に対応するメチル化状態を含み得る。メチル化認識配列決定は、各無細胞DNA分子の各CpG部位でのメチル化状態を同定するために使用できる単一分子配列決定又はナノポア配列決定を含み得る。例えば、単一分子リアルタイム配列決定(SMRT-Seq)又はナノポア配列決定を使用して無細胞DNA分子を配列決定して配列リードを取得してもよい。追加的に又は代替的に、亜硫酸水素塩変換、メチル化状態に感受性の酵素(例えばメチル化感受性制限酵素)、及びメチル化結合タンパク質に限定されない他のプロセスは、CpG部位のメチル化状態を同定するために使用してもよい。
【0322】
いくつかの実例において、配列リードは、下限及び上限を含み得る第1サイズ範囲内のサイズを有する長い無細胞DNA分子に対応する。例として、第1サイズ範囲は、少なくとも1,000塩基、少なくとも3,000塩基、又はそれ以上の上限を含み得る。いくつかの実例において、下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択され得る。
【0323】
いくつかの実例において、配列リードの各々は、対応する無細胞DNA分子のメチル化レベルが特定できる、1つ又は複数のメチル化状態を有する1つ又は複数の部位を含む。1つ又は複数の部位の各部位は、メチル化状態に関連し得る。例えば、1つ又は複数の部位はCpG部位であり得、各部位は、特定のメチル化状態が特定されるCpG部位であり得る。いくつかの実例において、配列リードの各々の1つ又は複数の部位は、少なくともN個の部位を含む。例えば、所与の配列リードは、少なくとも3つのCpG部位を含み得る。2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、又は50より多い部位に限定されない他の数も考慮され得る。追加的に又は代替的に、配列リードは、第1サイズ範囲(例えば、500bpより大きい)内のサイズを有する長い無細胞DNA分子に対応し得、少なくともN個の部位(例えば、3つのCpG部位)を含み得る。1組の部位のメチル化状態を特定するステップは、
図57のステップ5702に更に記載される。
【0324】
ステップ6204及び6206を、ステップ6202から受け取った配列リードのうちの各配列リードに対して行ってもよい。ステップ6204で、配列リードの1つ又は複数の部位の各々のメチル化状態を特定してもよい。いくつかの実例において、所与の部位のメチル化状態は、部位がメチル化されたか否かを同定する2進値(例えば、
図58中の0及び1)を含む。
【0325】
ステップ6206で、配列リードのメチル化レベルを1つ又は複数の部位のメチル化状態に基づいて特定してもよい。メチル化レベルは、メチル化指数、メチル化密度、1組の部位のうちの1つ又は複数の部位でメチル化された分子の個数、又は1組の部位のうちの1つ又は複数の部位でメチル化された分子(例えば、シトシン)の割合であり得る。例えば、メチル化レベルは、配列リードのメチル化CpG部位の個数及びCpG部位の総個数に基づいて特定されたCpG部位のメチル化パーセントを同定する。例えば、DNA分子が10つのCpG部位を含有し且つその5つがメチル化されたと特定された場合、単一分子メチル化レベルは50%(即ち5/10*100%)となる。
【0326】
ステップ6208で、生体サンプルの統計値を、配列リードの特定されたメチル化レベルに基づいて特定してもよい。例えば、統計値は、配列リードに対応するメチル化レベルの平均、中央値、又は代表値であり得る。追加的に又は代替的に、統計値は、配列リードのメチル化レベルから特定された集計値(例えば、合計)であり得る。
【0327】
ステップ6210で、無細胞DNA断片の統計値を参照値と比較して対象の病態の分類のレベルを特定する。参照値は、カットオフ値又は閾値を含み得るか、又はカットオフ値又は閾値を決定するためのものである。カットオフ又は閾値は、参照値は、特定の分類を表すか又は2つ以上の分類を区別するカットオフ又は閾値から導き出され得る。いくつかの実例において、参照値は、病態の分類が既知の参照サンプルを使用して決定される。統計値がカットオフ値(閾値)を上回る又は下回る対象は、先天的障害を有すると分類され得る。カットオフ値は、参照値に対する統計メトリック(例えば、有意性、P値、Zスコア)によって定義され得る。
【0328】
例として、病態は癌であり得る。例として、レベルは癌無し、早期、中期、又は進行期であり得る。そして分類は、病期の1つを選択し得る。したがって、分類は、癌の複数の病期(例えば、BCLC病期の1つ)から特定され得る。例として、癌は、肝細胞癌、肺癌、乳癌、胃癌、多形性膠芽腫、膵臓癌、結腸直腸癌、鼻咽頭癌、及び頭頸部扁平上皮癌であり得る。
VI.長い無細胞DNA分子におけるメチル化パターンに基づく疾患分類のための機械学習技術
【0329】
いくつかの実施形態において、メチル化ハプロタイプのパターン認識分析は、癌を有する患者と有さない患者の分類用のメチル化ハプロタイプから有用な情報を抽出できる機械学習モデルを使用して実施してもよい。配列リードは、亜硫酸水素塩処理を含まない無細胞DNA分子のメチル化認識配列決定から取得されてもよい。これは、亜硫酸水素塩処理の化学反応は長い無細胞DNA分子(例えば、>600bp)に対応する配列リードの取得を妨害し得るからである。いくつかの実例において、各長い無細胞DNA分子のメチル化パターンは値の行列に変換され、ここで長い無細胞DNA分子は特定の組織型と関連し得る。行列は、組織分類を特定するための機械学習モデルの訓練に使用できる。
【0330】
以前に知られていた技術と比較して、機械学習モデルは、疾患分類において長い無細胞DNA分子の特定の部位が他の部位より予測的であることを同定できる。更に、長い無細胞DNA分子におけるCpG部位の数の増加により、機械学習モデルをより多様なメチル化パターンで訓練することが可能になる。実際に、機械学習モデルは、一般にCpG部位がより少ない短いDNA分子で訓練された別のモデルと比較して、より正確に疾患の分類を特定することができる。
【0331】
機械学習モデルとしては、畳み込みニューラルネットワーク(CNN)、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば、完全結合型リカレントニューラルネットワーク(RNN)、ゲートリカレントユニット(GRU)、長短期記憶、(LSTM))、トランスフォーマーベースの方法(例えばXLNet、BERT、XLM、RoBERTa)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、K平均クラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、適応ブースティング(AdaBoost)、極端勾配ブースティング(XGBoost)、サポートベクターマシン(SVM)、又は上記の1つ又は複数のモデルを含む複合モデルを含み得るが、それらに限定されない。
A.機械学習モデル
【0332】
図63は、いくつかの実施形態に係る、機械学習モデルを用いたメチル化ハプロタイプのパターン認識の例示
図6300を示す。いくつかの実施形態において、機械学習モデルは、CNN及びそれに続くLSTMを含む複合モデルである。特に、
図63は、癌を有する患者の血漿中の腫瘍DNAと非腫瘍DNAを分類するためのメチル化ハプロタイプのパターン認識の使用例を示す。
1.訓練データ
【0333】
EM-seqを使用して腫瘍細胞(緑)及び非腫瘍細胞(青)からの長いメチル化ハプロタイプ(例えば>5kb)を取得した。一連の塗りつぶされたドットと塗りつぶされていないドット(即ちメチル化及び非メチル化CpG部位)を有する水平線(DNA)は、メチル化ハプロタイプを表す。いくつかの実例において、腫瘍細胞からDNA断片を取得するために、組織DNAに超音波処理が行われて特定のサイズ(例えば、5kb、10kb)を有する分子が取得される。亜硫酸水素塩配列決定を含むメチル化認識配列決定を使用してデータ訓練用の配列リードを取得してもよい。いくつかの実例において、非腫瘍DNA断片はT細胞、B細胞、好中球、肺組織、肝臓等から取得される。
【0334】
各長いメチル化ハプロタイプは、配列構成及びメチル化パターンの両方を含むデータ行列にプログラムされる。データ行列は、塩基のワンホットエンコーディングを含み得、対応する無細胞DNA分子の各CpG部位のメチル化状態を同定し得る。用語「ワンホットエンコーディング」とは、カテゴリデータが数値表現に変換されるようにカテゴリデータを定量化する技術を指す。特に、該技術は、データセット内のカテゴリの数に等しい長さのベクター(例えば、塩基)を生成することを含み得る。例えば、ある塩基がTカテゴリに属する場合、このベクターの成分には、1の値が割り当てられるT成分を除いて、0の値が割り当てられる。ワンホットエンコーディングにより、数値的に意味のある方式でカテゴリを追跡することができる。
【0335】
行列の1行目は配列情報「…ACGTACGTCT…」を示し、ここで「…」は簡略化のためにそれらの塩基が省略されることを示した。例示の目的で、第1CpG部位はメチル化されておらず、第2CpG部位はメチル化された。「i」列において、「A」ヌクレオチドに対応して、「i」列と「A」行が交差する箇所(ここでセルと呼ばれる)に「1」が記入された。同列における他のセルには「0」が記入された。「ii」列において、非メチル化の「C」ヌクレオチド及びその直後に続く「G」ヌクレオチドに対応して、「uCG」行に対応するセルに「1」が記入された。「ii」列における他のセルには「0」が記入された。「vi」列において、メチル化された「C」ヌクレオチド及びその直後に続く「G」ヌクレオチドに対応して、「mCG」行に対応するセルに「1」が記入された。「vi」列における他のセルには「0」が記入された。これらのルールに基づき、メチル化ハプロタイプに関連する配列構成及びメチル化パターンを含むデータ行列が構築された。
2.訓練
【0336】
いくつかの実施形態において、それぞれ腫瘍細胞及び非腫瘍細胞から取得されたいくつかのデータ行列は、腫瘍関連メチル化ハプロタイプと非腫瘍関連メチル化ハプロタイプを区別するための機械学習モデルの訓練に使用され得る。訓練された機械学習モデルは、血漿DNAに存在するメチル化ハプロタイプが腫瘍細胞又は非腫瘍細胞に由来する尤度を特定するために使用され得る。追加的に又は代替的に、それぞれ癌を有する患者と有さない患者に関連する血漿DNAから取得されたいくつかのデータ行列は、腫瘍関連メチル化ハプロタイプと非腫瘍関連メチル化ハプロタイプを区別するための機械学習モデルの訓練に使用され得る。
【0337】
いくつかの実施形態において、[分子長x6]の形の2次元(2D)行列を畳み込みニューラルネットワーク(CNN)に入力した。該行列を、カーネルサイズが10の128個のフィルタから構成されたCNNの1D畳み込み層に渡した。正規化線形ユニット(ReLU)の活性化関数を採用した。その後、プールサイズが2の最大プーリング層及び2のストライドが適用される。引き続き、32個のユニットを有する双方向の長期短期記憶(LSTM)層を使用した。LSTMは、各時点がそれぞれCpG部位の位置に対応するように解してもよい。よって、LSTMがメチル化パターンを疾患の存在と関連付けるように訓練されるように、CpG部位の配列のメチル化状態をLSTMによって分析されてもよい。いくつかの実例において、双方向のLSTMが使用される。この層で双曲線正接(tanh)活性化関数が採用される。その後、出力を平坦化し、それぞれ128個及び64個のニューロンを含む2つの緻密層に渡した。2つの緻密層についてReLUの活性化関数を採用した。最終層は、シグモイド活性化関数を有する単一ニューロンを用い、腫瘍DNA分子及び非腫瘍DNA分子である尤度を示す確率値を出力する。血漿DNA分子に対応する確率値が高いほど、血漿DNA分子が腫瘍に由来する尤度が高いことを示唆した。
【0338】
いくつかの実施形態において、確率のカットオフは、腫瘍由来血漿DNA分子を検出するために特定の値より大きくてもよく、0.5、0.6、0.7、0.8、及び0.9等を含むが、それらに限定されない。確率のカットオフは、非腫瘍由来血漿DNA分子を検出するために特定の値より小さくてもよく、0.5、0.4、0.3、0.2、及び0.1等を含むが、それらに限定されない。いくつかの実施形態において、活性化関数は、正規化線形ユニット(ReLU)、指数線形ユニット(ELU)、漏れのある正規化線形ユニット(Leaky ReLU)、パラメトリック正規化線形ユニット(Parametric ReLU)、スケーリングされた指数線形ユニット(SELU)、ガウス誤差線形ユニット(GELU)、双曲線正接(tanh)関数、シグモイド関数、ソフトマックス関数、スウィッシュ関数等を含み得るが、それらに限定されない。
【0339】
いくつかの実施形態において、モデルが好中球、T細胞、B細胞、巨核球、赤血球、単球、NK細胞、肝臓、肺、食道、心臓、膵臓、結腸、小腸、脂肪組織、副腎、脳、乳房、腎臓、膀胱、甲状腺、前立腺、子宮等に限定されない異なる組織からのメチル化ハプロタイプから導きされたデータ行列によって訓練された場合、かかるモデルは、メチル化ハプロタイプに基づいて各血漿DNA分子の起源組織/起源腫瘍を特定するために使用され得る。
B.実施例
【0340】
上記で提案したメチル化ハプロタイプのパターン認識の実行可能性及び潜在的な実績を評価するために、それぞれ、HCC腫瘍及びバフィーコート(即ち白血球)サンプルに由来する血漿DNA分子の様々な数のメチル化ハプロタイプをシミュレートした。確率モデルを使用して特定のサイズ(例えば2kb)を有する血漿DNA分子のメチル化ハプロタイプをシミュレートした。血漿DNA分子上のk個のCpG部位(k≧1)のメチル化状態をM=(m1、m2、…、mk)とし、ここでmiは血漿DNA分子上のCpG部位iでの0(非メチル化状態)又は1(メチル化状態)である。HCC腫瘍に由来する血漿DNA分子に関連するMの確率は、HCC組織における前のメチル化分布に依存し得る。バフィーコートに由来する血漿DNA分子に関連するMの確率は、バフィーコートにおける前のメチル化分布に依存し得る。
【0341】
HCC組織及びバフィーコートサンプルにおける、1、2、…、kでの対応するCpG部位の前のメチル化分布はベータ分布に従う。ベータ分布は、Beta(α,β)で示される2つの正のパラメーターα及びβによってパラメーター化される。ベータ分布から導き出された値は、0~1の範囲である。目的の組織の高深度亜硫酸水素塩配列決定データに基づき、パラメーターα及びβを、それぞれ、その特定の組織の各CpG部位での配列決定されたシトシン(メチル化)及びチミン(非メチル化)の数によって決定した。HCC腫瘍組織について、このようなベータ分布をBeta(αT,βT)とした。バフィーコートサンプルについて、このようなベータ分布をBeta(αN,βN)とした。それぞれ、Beta(αT,βT)及びBeta(αN,βN)から腫瘍由来及び非腫瘍由来血漿DNA分子についてk個のCpG部位(k≧1)のメチル化状態をサンプリングした。特定のヌクレオチド距離内の共メチル化及び共非メチル化に関する前の確率分布は、シミュレーションに統合され得る。例えば、2つの連続したCpG部位の79.6%、75.6%、71.6%、68.6%、66.4%、65.1%、62.5%、61.1%、及び60.7%が、それぞれ、5bp、10bp、20bp、30bp、40bp、50bp、100bp、200bp及び500bpのヌクレオチド距離内に共メチル化又は共非メチル化されたと発見された。
【0342】
血漿DNAプールに寄与する腫瘍由来DNA分子及び非腫瘍由来DNA分子を、5,000個のランダムに選択されたゲノム領域にわたって1x、5x、10x、20x、25x、30x、35x、40x、50x、60x、70x、80x、90x、及び100xのいくつかの異なる深度でシミュレートした。特定の深度で、データ行列を本開示における実施形態に従ってそれぞれ腫瘍由来DNA分子及び非腫瘍由来DNA分子について構築した。訓練プロセス中、腫瘍由来DNA分子のデータ行列に対応する出力値を「1」でラベル付けした。非腫瘍由来DNA分子のデータ行列に対応する出力値を「0」でラベル付けした。腫瘍由来及び非腫瘍由来DNA分子に関連するデータ行列を使用して、CNN及びLSTMを含む深層学習モデルを訓練した。深層学習のモデルパラメーターを、予測出力値と期待出力値の間の予測誤差を最小化することで決定した。訓練されたモデルをを、訓練プロセス中に使用されなかった新しくシミュレートされた血漿DNAを分類するために適用した。受信者動作特性曲線下面積(AUC)を使用して異なる深度でモデル実績を評価した。
【0343】
図64は、訓練プロセスで使用された異なる配列決定深度にわたって血漿中の腫瘍DNAと非腫瘍DNAを区別するための機械学習モデルの実績を同定する1組の棒グラフ6400を示す。各配列決定深度(X軸)について、青棒6402は、訓練データを分類することに基づく機械学習モデルのAUCを同定し、オレンジ棒6404は、試験データを分類することに基づく機械学習モデルのAUCを同定する。
図64は、訓練で使用された配列決定深度の増加に伴い、血漿中の腫瘍DNAと非腫瘍DNAを区別する実績が向上したことを示す。訓練で使用された70xの配列決定深度で実績がプラトーに達し、AUCが0.90であった。メチル化ハプロタイプに基づく深層学習モデルを使用する実績(AUC:0.90)は、最小メチル化ミスマッチアプローチ(AUC:0.8)を有意に上回った。これらのデータは、提案されたメチル化ハプロタイプのパターン認識が、任意のゲノム領域からの癌由来無細胞DNAを検出するための一般的で情報価値のあるアプローチであることを示唆した。
【0344】
いくつかの実施形態において、腫瘍ゲノムと非腫瘍ゲノムの間で示差的にメチル化された領域(DMR)からの血漿DNA分子を選択的に分析し、これによりモデル実績が更に強化される。バフィーコートゲノムと比較して腫瘍ゲノムにおいて高メチル化された5,000個のDMRを取得た(例えばメチル化レベルの差が少なくとも20%)。腫瘍由来DNA分子及び非腫瘍由来DNA分子を、それら5,000個のDMRについて1x、5x、10x、20x、25x、30x、35x、40x、50x、60x、70x、80x、90x、及び100xの深度でシミュレートした。
【0345】
図65は、血漿中の腫瘍DNAと非腫瘍DNAを区別するための機械学習モデルの実績を同定する1組の棒グラフ6500を示し、ここで機械学習は異なる配列決定深度にわたって示差的にメチル化された領域を使用して訓練された。各配列決定深度(X軸)について、青棒6502は、訓練データを分類することに基づく機械学習モデルのAUCを同定し、オレンジ棒6504は、試験データを分類することに基づく機械学習モデルのAUCを同定する。
図65は、訓練で使用された配列決定深度の増加に伴い、血漿中の腫瘍DNAと非腫瘍DNAを区別する実績が向上したことを示す。訓練で使用された30xの配列決定深度で実績がプラトーに達し、AUCが0.91であり(
図65)、これは同じ配列決定深度での非DMRゲノム領域(
図64)を上回った。いくつかの実施形態において、0.5を腫瘍由来分子であると分類する確率のカットオフとして使用した場合、30xの配列決定深度で86%の特異性及び81%の感受性が達成できる。対照的に、100xの配列決定深度で91%の特異性及び87%の感受性が達成できる。メチル化ハプロタイプに基づく深層学習モデルを使用する実績(AUC:0.91)は最小メチル化ミスマッチアプローチ(AUC:0.87)を有意に上回った。これらのデータは、いくつかの実施形態において、ゲノムのサブセットの選択的分析により癌検出が強化されることを示唆した。
【0346】
無細胞DNA分子が長いほど、含まれるCpG部位が多くなる。血漿DNA分子におけるCpG部位がより多くなると、一般に血漿DNA分子の起源組織を特定する精度を高めることができる。
図66は、異なる長さの血漿DNA分子で癌患者の血漿中の腫瘍DNAと非腫瘍DNAを区別する機械学習モデルの実績を同定する表6600を示す。
図66は、200bpのDNA分子のメチル化ハプロタイプの分析によりただ0.62のAUCが得られたのに対して、1kbの血漿DNA分子のメチル化ハプロタイプの分析によりAUCが0.84に向上したことを示す。5kbの血漿DNA分子のメチル化ハプロタイプの分析によりAUCが更に0.98に向上した。これらの結果は、癌患者における長い無細胞DNAの分析により、血漿DNA分子の起源組織/起源腫瘍をより正確に特定するアプローチが提供され、癌、又は自己免疫疾患、臓器移植、外傷等に限定されない他の疾患の検出及び監視の実績が大幅に向上することを示唆した。
C.機械学習モデルを使用して長い無細胞DNA分子のメチル化パターンに基づいて疾患分類を特定する方法
【0347】
図67は、いくつかの実施形態に係る、機械学習モデルを使用して長い無細胞DNA分子のメチル化パターンに基づいて組織型特性を特定する対象の生体サンプル分析のプロセス例を図示するフローチャート6700を示す。生体サンプルは、正常細胞及び場合によっては複数の組織型のうちの1つ又は複数に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は生体サンプルにおいて無細胞である。
【0348】
ステップ6702で、無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取ってもよい。メチル化認識配列決定は、酵素処理を含み得る。いくつかの実例において、メチル化認識配列決定は疾患分類用の配列リードを生成するための亜硫酸水素塩処理を含まない。他の実例において、亜硫酸水素塩処理は使用される。訓練データを生成して機械学習モデルを訓練するために、メチル化認識配列決定に亜硫酸水素塩処理を使用してもよい。配列リードの各々は配列リード上の1組の部位(例えば、CpG部位)でのメチル化状態のメチル化パターンを含み得る。例えば、所与の配列リードは、少なくとも3つのCpG部位を含み得る。メチル化パターンは、1組の部位の部位対間の塩基の数、及び塩基のアイデンティティを含み得る。
【0349】
いくつかの実例において、配列リードは、下限及び上限を含み得る第1サイズ範囲内のサイズを有する長い無細胞DNA分子に対応する。例として、第1サイズ範囲は、少なくとも1,000塩基、少なくとも3,000塩基、又はそれ以上の上限を含み得る。いくつかの実例において、下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択され得る。
【0350】
1組の部位は様々な数としてもよい。いくつかの実例において、配列リードの各々の1組の部位は、少なくともN個の部位を含み得る。例えば、所与の配列リードは、少なくとも3つのCpG部位を含み得る。2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、又は50より多い部位に限定されない他の数も考慮され得る。追加的に又は代替的に、配列リードは、第1サイズ範囲(例えば、500bpより大きい)内のサイズを有する長い無細胞DNA分子に対応し得、少なくともN個の部位(例えば、3つのCpG部位)を含み得る。配列リードを取得し配列リードのメチル化状態を特定するステップは、
図57のステップ5702に更に記載される。
【0351】
ステップ6704及び6706を、ステップ6702から受け取った配列リードのうちの各配列リードに対して行ってもよい。ステップ6704で、配列リードのメチル化パターンを機械学習モデルに入力してもよい。いくつかの実例において、メチル化パターンを機械学習モデルに入力することは、配列リードの配列を機械学習モデルに入力することを含む。配列リードのメチル化パターンを機械学習モデルに入力することは、配列リードの行列を形成することを含み得、例えば、ここで行列は、塩基のワンホットエンコーディング、及び配列リードの1組の部位のメチル化状態を含む。いくつかの実例において、配列リードの位置を特定してもよく(例えば、配列リードを参照配列の対応する位置にアライメントすることによって)、ここで位置も機械学習モデルに入力される。
【0352】
機械学習モデルは、第1組織型由来であるとラベル付けされた配列リードの第1訓練セット、及び1つ又は複数の他の組織型由来であるとラベル付けされた配列リードの第2訓練セットを使用して訓練できる。いくつかの実例において、機械学習モデルは、例えば、
図63について説明したように、畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)を含む。いくつかの実例において、配列リードの第1又は第2訓練セットは、1つ又は複数の示差的にメチル化された領域(DMR)から取得される。1つ又は複数の他の組織型は、1、2、3、4、5、10、15、20、又は20より多い組織型を含み得る。1つ又は複数の他の組織型としては、T細胞、B細胞、好中球、肺組織、又は肝臓を含み得るが、それらに限定されない。1つ又は複数の他の組織型はバフィーコートを含み得る。
【0353】
ステップ6706で、機械学習モデルの出力に基づき、配列リードの分類を特定してもよい。分類は、配列リードが第1組織型に由来すること(又はその由来の程度)を示すことができる。組織分類は、配列リードが第1組織型に由来する確率を含み得る。第1組織型は疾患組織型であり得る。いくつかの実例において、第1組織型は疾患に関連する。1つより多くの組織型の確率を特定してもよい。
【0354】
ステップ6708で、配列リードの分類を使用して第1組織型の特性を特定してもよい。第1組織型の特性は、第1組織型に由来すると分類された配列リード量を同定することができる。いくつかの実例において、第1組織型の特性は、第1組織型に関連する疾患の疾患状態を同定することができる。疾患は癌であり得る。第1組織型の特性は、第1組織型に関連する疾患の予測予後を更に同定することができる。例えば、予測予後は、癌に関連する血管浸潤の存在であり得る。
【0355】
いくつかの実例において、特性を特定することは、(i)第1組織型に由来すると分類された配列リードの第1量を特定すること、及び(ii)第1量に基づいて第1組織型の生体サンプルの疾患の分類を特定することを含む。第1量を使用して疾患の分類を特定するステップは、
図57のステップ5708に更に記載される。
VII.バリアントとメチル化パターンの組み合わせ分析
【0356】
長い無細胞DNA分子を用いた疾患分類の精度を強化するために、長い無細胞DNA分子のメチル化パターン分析をSNVベースの分析と組み合わせてもよい。例えば、血漿サンプルにおいて、配列リードを、生得的ゲノムに示される白血球から決定された参照配列等の参照配列と比較することに基づいて配列リードの変異(例えば、SNV)を同定してもよい。次に、かかる遺伝子変異につながる配列リードのメチル化パターンを分析してもよい。
【0357】
長い無細胞DNA分子のSNVとメチル化パターンの組み合わせ分析を使用する方法は、生体サンプルの無細胞DNA分子のメチル化認識配列決定から配列リードを取得することを含む。各配列リードは、メチル化パターンを含み、ここでメチル化パターンは配列リード上の1組のCpG部位でのメチル化状態を同定する。配列リードのうちの配列リードは、参照ゲノムの対応する箇所にアライメントしてもよい。次に、配列リードは、1つ又は複数のバリアント(例えば、一塩基バリアント、一塩基多型、増幅)の存在を特定するために、対応する箇所の配列と比較される。バリアントは、マイクロサテライト拡張、挿入、欠失、構造変異、配列重複、増幅、再構成、転位、反転、及び/又は微小欠失であり得る。いくつかの実例において、配列リードのSNVは、SNVが他のリードの閾値数(例えば、5回)を上回ると検出された場合に同定される。1つ又は複数のバリアントが同定される場合、疾患分類を特定するために配列リードのメチル化パターンを更に分析してもよい。
A.SNV及びメチル化パターン
【0358】
いくつかの実施形態において、患者のバフィーコートDNA及び血漿DNAが配列決定される。バフィーコートDNAは、Illumina配列決定に限定されないものを使用して配列され得る。血漿DNAは、長い無細胞DNA分子に対応する配列リードを取得できるように、SMRT-seqに限定されないものを使用して配列決定され得る。
図68は、いくつかの実施形態に係る、SNV及びCpGメチル化ハプロタイプ情報を用いた組み合わせ分析の例を図示する概略
図6800を示す。
図68に示すように、バフィーコートDNAの配列決定結果に存在しない、対立遺伝子(例えばGヌクレオチド)を持つ血漿DNAは、体細胞変異と呼ばれた。かかる体細胞変異を持つ血漿DNA分子のメチル化ハプロタイプを分析すると、潜在的な癌の解剖学的位置を特定することができる。
【0359】
いくつかの実施形態において、癌シグナルに関連するメチル化ハプロタイプを疾患分類用のいわゆる体細胞変異と結び付けてもよい。組み合わせ分析を使用して疾患分類用の体細胞変異のみを使用する場合の偽陽性を低減してもよい。例えば、(例えば、メチル化パターンに基づいて)起源腫瘍であると特定される配列決定血漿DNA分子によってサポートされる体細胞変異は、腫瘍起源であると特定されない配列決定血漿DNA分子によってサポートされる体細胞変異と比較して、真の変異である可能性がより高い。よって、腫瘍起源であると特定される配列決定血漿DNA分子によってサポートされる体細胞変異を選択すると、腫瘍由来変異を検出する際の陽性的中率を高めることができる。
【0360】
図69は、野生型対立遺伝子を持つ第1群の血漿DNA分子及び変異を持つ第2群の血漿DNA分子の特徴6900を示す。第1群について、野生型対立遺伝子を持つサイズがそれぞれ8.9kb、3.7kb、4.3kb及び3.9kbの4つの長い血漿DNA分子を同定した。これら4つの血漿DNA分子は、CpG部位にわたるそれらそれぞれのメチル化状態(赤棒)の存在量に基づき、白血球起源のものであると特定された。第2群について、白血球に存在しない変異を持つサイズがそれぞれ9kb、2.3kb、及び5.5kbの3つの長い血漿DNA分子を同定した。これら3つの血漿DNA分子は、CpG部位にわたるそれらそれぞれの非メチル化状態(緑棒)の存在量に基づき、HCC腫瘍起源のものであると特定された。よって、第2群の血漿DNA分子を有する患者は、SNVとCpGメチル化ハプロタイプを組み合わせた相乗分析に基づいてHCCを有すると診断でき、これは臨床診断に一致した。
【0361】
いくつかの実施形態において、DNA分子が長いほど、起源組織分析を促進するCpG部位が多く含有されることから、DNA分子が長いほど、腫瘍DNAと非腫瘍DNA分子の分類が正確になる。よって、SNVを持つDNA分子が長いほど、腫瘍局在分析が正確になる。例えば、例示の目的で、200bp及び1kb等のサイズを有する腫瘍組織から同定された体細胞変異周囲の領域におけるCpG部位の数を分析した。合計、38,465個の体細胞変異を分析した。
【0362】
図70は、体細胞変異周囲の200bp又は1kb領域におけるCpG部位の数の分布を同定する表7000を示す。参照ゲノムは、それぞれの等サイズ領域(例えば、200bp、1kb)に分割される。対応する数のCpG部位(例えば、0、≧1、≧10)及び少なくとも1つのSNVを有するこれらの領域の数を特定した。
図70に示すように、サイズが200bpの領域のうち29.7%はCpG部位を有さなかったが、サイズが1kbの領域のうち4.4%のみはCpG部位を有さなかった。更に、サイズが200bpの領域のうち5.1%は少なくとも10つのCpG部位を有したが、サイズが1kbの領域についてかかる百分率は35.7%に増加した。これらの結果は、より豊富なCpG部位を有するメチル化ハプロタイプに基づき、変異を持つ長い血漿DNAの使用が、血漿DNAの起源組織の特定に有益であることを示唆した。他の長さでも同様な結論を出すことができる。サイズが3kbの領域の90%は少なくとも10つのCpG部位を有したが、SNVについて、実際にゲノム全体にわたって2つの領域のみがある。
B.疾患分類におけるハプロタイプとメチル化パターンの間の対立遺伝子の不均衡
【0363】
癌細胞はコピー数異常を頻繁に示す(Chan et al. Proc Natl Acad Sci USA. 2013;110:18761-8、Chan et al. Clin Chem. 2013; 59:1,211-224、Zeira and Raphael. Bioinformatics. 2020;36: i344-i352)。このようなコピー数異常は一般に非腫瘍細胞に存在しない。コピー数異常は、コピー数増加及びコピー数減少を含む。
【0364】
癌を有する患者について、血漿DNAは、腫瘍由来DNA分子及び非腫瘍由来DNA分子を含む混合物である。バリアントは腫瘍細胞と非腫瘍細胞の間でコピー数の差を引き起こし得る。かかる差により、ヒトゲノム全体にわたる腫瘍由来DNAの濃度が明らかに異なり得る。例えば、コピー数増加領域は、比較的高い腫瘍DNA濃度を引き起こすが、コピー数減少領域は比較的低い腫瘍DNA濃度を引き起こす。コピー数増加及び減少は、癌細胞において単一対立遺伝子的に発生し、対立遺伝子の不均衡(例えばヘテロ接合性の消失(LOH))を引き起こすことが多い(Vattathil et al. Genome Res. 2013:23:152-158)。
【0365】
言い換えれば、コピー数増加及び減少等のバリアントは、一般に1つのハプロタイプブロックに関与する。いくつかの状況では、両方のハプロタイプともコピー数増加の影響を受けるが、2つのハプロタイプブロック間で増幅されたブロックの数は異なり得る。よって、コピー数増加又は減少の影響を受ける2つの生得的ハプロタイプブロックの間の血漿DNA分子の観察された量は異なる。癌においてゲノム全体の低メチル化が頻繁に観察される(Chan et al. Proc Natl Acad Sci USA. 2013;110:18761-8、Ehrlich. Oncogene. 2002;21: 5400-13)ことから、腫瘍DNAからの寄与が増加するハプロタイプは、腫瘍DNAからの寄与が減少する他のハプロタイプよりも、メチル化レベルが低いと予想される。よって、相対的なハプロタイプメチル化不均衡は、癌の存在に関する情報を提供する新しいメトリックとなる。いくつかの実施形態において、癌細胞中のハプロタイプ間の不均衡なハプロタイプメチル化レベルは、癌由来DNA分子が血液循環に流される場合、癌患者の血漿におけるこのようなハプロタイプメチル化不均衡の一因となる。
【0366】
マイクロサテライト拡張、挿入、欠失、構造変異、配列重複、増幅、再構成、転位、反転、及び/又は微小欠失に限定されないバリアントの他のタイプもこの分析において考慮され得る。
【0367】
図71は、癌の有無に関する情報を提供する歪んだ対立遺伝子比及び歪んだメチル化レベルを伴う相対的ハプロタイプ不均衡を有するDNA分子の概略
図7100を示す。
図71に示すように、2つのハプロタイプの間の結果として生じる歪んだ対立遺伝子比及びメチル化レベルを利用して患者における癌の存在を特定してもよい。
図71中、非腫瘍細胞は、ハプロタイプI及びII(それぞれHap I及びHap IIとする)を含有する。コピー数異常、例えばコピー数増加を伴う腫瘍細胞は、1つのハプロタイプI及び3つのハプロタイプIIを含有する。血漿DNA分子は配列決定されてそれぞれハプロタイプI及びハプロタイプIIに割り当てられる。
【0368】
簡略上、2つの対立遺伝子部位は例示の目的で選択される。Hap Iと比較してより多い数の分子がHap IIに割り当てられ、その結果、Hap I上のTとGの対立遺伝子と比較してHap II上のCとAの対立遺伝子の対立遺伝子比がより高くなる。対立遺伝子上流及び下流のCpG部位が分析される。CとAの対立遺伝子に関連するCpG部位は、このケースにおいて20%のメチル化レベルで低メチル化される。このようなメチル化レベルは、このケースにおいてメチル化レベルが75%のTとGの対立遺伝子に関連するCpG部位と異なる。対立遺伝子比の増加は、Hap IIにおける対立遺伝子に関連するCpG部位のメチル化レベルの低下と相まって、コピー数増加及び低メチル化を反映するため、腫瘍細胞からの血漿DNAの寄与に関する情報を提供する。
【0369】
いくつかの実施形態において、同じハプロタイプブロックにおける対立遺伝子に割り当てられた血漿DNA分子の数は、血漿DNA分子の数の増加によりサンプリング変動が減少することから、分類能力を増強するために一緒に集計してもよい。いくつかの実例において、同じハプロタイプブロックにおける血漿DNA分子の各々のメチル化パターンは疾患分類を特定するために使用される。血漿にハプロタイプメチル化不均衡が存在するか否かを特定するための統計的アプローチとしては、逐次確率比検定、二項比例検定、ピアソンのカイ二乗検定、2比率のz検定等を含み得るが、それらに限定されない。分析されるCpG部位の数とては、≧3、≧4、≧5、≧6、≧7、≧8、≧9、≧10、≧15、≧20、≧25、≧30、≧35、≧40、≧45、≧50、≧60、≧70、≧80、≧90、≧100、≧200、≧300、≧400、≧500、≧1000、又は他の組み合わせを含み得るが、それらに限定されない。
C.起源組織を特定するためのバリアントとメチル化パターンの組み合わせ分析方法
【0370】
図72は、いくつかの実施形態に係る、バリアント及びメチル化パターンを使用して長い無細胞DNA分子のメチル化パターンに基づいて起源組織を特定する生体サンプル分析のプロセス例を図示するフローチャート7200を示す。生体サンプルは、正常細胞及び場合によっては複数の組織型の1つ又は複数に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は生体サンプルにおいて無細胞である。
【0371】
ステップ7202で、無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取ってもよい。いくつかの実例において、メチル化認識配列決定は、疾患分類用の配列リードを生成するために亜硫酸水素塩処理を含まない。他の実例において、亜硫酸水素塩処理は使用される。配列リードの各々は、配列リード上の1組の部位(例えば、CpG部位)でのメチル化状態のメチル化パターンを含み得る。例えば、所与の配列リードは少なくとも15個のCpG部位を含み得る。メチル化パターンは、1組の部位の部位対間の塩基の数、及び塩基のアイデンティティを含み得る。
【0372】
いくつかの実例において、配列リードは、下限及び上限を含み得る第1サイズ範囲内のサイズを有する長い無細胞DNA分子に対応する。例として、第1サイズ範囲は、少なくとも1,000塩基、少なくとも3,000塩基、又はそれ以上の上限を含み得る。いくつかの実例において、下限は、少なくとも少なくとも500bp、600bp、1kbp、2kbp、3kbp、4kbp、5kbp、6kbp、7kbp、8kbp、9kbp、10kbpのうちの1つから選択され得る。
【0373】
1組の部位は様々な数としてもよい。いくつかの実例において、配列リードの各々の1組の部位は、少なくともN個の部位を含み得る。例えば、所与の配列リードは、少なくとも3つのCpG部位を含み得る。少なくとも3、5、10、20、30、40、50、60、70、80、90、100部位に限定されない他の数も考慮され得る。追加的に又は代替的に、配列リードは、第1サイズ範囲(例えば、1kbpより大きい)内のサイズを有する長い無細胞DNA分子に対応し得、少なくともN個の部位(例えば、10個のCpG部位)を含み得る。配列リードを取得し配列リードのメチル化状態を特定するステップは、
図57のステップ5702に更に記載される。
【0374】
ステップ7204で、配列リードの第1配列リードの位置を特定してもよい。第1配列リードの位置は、第1配列リードを参照ゲノムにアライメントすることで特定してもよい。いくつかの実例において、第1配列リードの位置は、第1配列リードを対象の生得的ゲノムにアライメントすることで特定される。
【0375】
ステップ7206で、該位置に対応する第1配列リードにおけるバリアントを検出してもよい。第1配列リードにおけるバリアントは、該位置での参照配列に対するバリアントであり得る。例として、バリアントは、多型、マイクロサテライト拡張、挿入、欠失、構造変異、配列重複、増幅、再構成、転位、反転、及び/又は微小欠失であり得る。一塩基多型であるバリアントの例は
図68に示す。
【0376】
ステップ7208で、第1配列リードのメチル化パターンを使用してバリアントの起源組織を特定してもよい。起源組織の同定(組織分類)には、本開示のセクションIV、V、及びVIに記載の技術を含めて、本明細書に記載の任意の技術を使用してもよい。例えば、バリアントに関連する起源組織は、
図57のステップ5706及び5708に記載のように、第1配列リードのメチル化パターンと1つ又は複数の参照メチル化パターンを比較することで特定してもよい。他の方法のこのような説明はこの方法にも同様に適用する。例えば、起源組織の特定は、メチル化パターンを前記位置での第1参照メチル化パターンと比較することを含む。第1参照メチル化パターンは、疾患の疾患組織型に対応し得る。いくつかの実例において、第1参照メチル化パターンは、特定の組織型(例えば、肝臓)に対応する。比較に基づき、配列リードを複数の組織型のうちの1つに由来すると分類できる。
【0377】
参照パターンの値は、二値(例えば、
図41又は42中の0及び1)であり得るか、又は小数(例えば、20%のメチル化指数を示す0.2)を有し得る。最も近い参照パターンは、1組の参照パターンから同定されてもよく、組織分類は、最も近い参照パターンの対応する組織型と特定されてもよい。最も近い参照パターンは、参照パターンに対して各部位でのメチル化状態又は指数の差を取ることで特定できる。組織分類は、配列リードが複数の組織型の1つに由来すること(又はその由来の程度)を示すことができる。組織分類は、配列リードが複数の組織型の1つに由来する確率を含み得る。1つより多くの組織型の確率を特定してもよい。
【0378】
いくつかの実例において、起源組織の特定は、位置及びメチル化パターンを機械学習モデルに入力することを含み得る。機械学習モデルは、第1組織型由来であるとラベル付けされた配列リードの第1訓練セット、及び1つ又は複数の他の組織型由来であるとラベル付けされた配列リードの第2訓練セットを使用して訓練してもよい。いくつかの実例において、機械学習モデルは、畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)を含む。いくつかの実例において、配列リードの第1又は第2訓練セットは、1つ又は複数の示差的にメチル化された領域(DMR)から取得される。機械学習モデルの出力に基づき、配列リードが第1組織型に由来するか否かを特定する。
D.癌分類を特定するためのバリアントとメチル化パターンの組み合わせ分析方法
【0379】
図73は、いくつかの実施形態に係る、バリアント及びメチル化パターンを使用して長い無細胞DNA分子のメチル化パターンに基づいて癌分類を特定する生体サンプル分析のプロセス例を図示するフローチャート7300を示す。生体サンプルは、正常細胞及び場合によっては癌に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は生体サンプルにおいて無細胞である。
【0380】
ステップ7302で、無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取ってもよい。メチル化認識配列決定は酵素処理を含み得る。いくつかの実例において、メチル化認識配列決定は亜硫酸水素塩処理を含まない。他の実例において、亜硫酸水素塩処理は使用される。配列リードの各々は、配列リード上の1組の部位(例えば、CpG部位)でのメチル化状態のメチル化パターンを含み得る。例えば所与の配列リードは、少なくとも15個のCpG部位を含み得る。メチル化パターンは、1組の部位の部位対間の塩基の数、及び塩基のアイデンティティを含み得る。
【0381】
短い無細胞DNA分子における単一分子メチル化レベルは、癌分類を特定するのに統計的に十分ではない可能性がある。この問題に対処するために、長い無細胞DNA分子を使用してもよい。いくつかの実例において、配列リードは、下限及び上限を含み得る第1サイズ範囲内のサイズを有する長い無細胞DNA分子に対応する。例として、第1サイズ範囲は、少なくとも1,000塩基、少なくとも3,000塩基、又はそれ以上の上限を含み得る。いくつかの実例において、下限は、少なくとも500bp、600bp、1kbp、2kbp、3kbp、4kbp、5kbp、6kbp、7kbp、8kbp、9kbp、10kbpのうちの1つから選択され得る。長いDNA分子を配列決定することで、所与の長いDNA分子の1組のCpG部位の数は多くなり得る(例えば、少なくとも5、10、20、50、100、200、500、又は1,000個のCpG部位)。このように、メチル化された部位の総割合は、1つ又は2つの部位しか有さない断片ではなく、正確な統計特定値となり得る。
【0382】
1組の部位は様々な数としてもよい。いくつかの実例において、配列リードの各々の1組の部位は、少なくともN個の部位を含み得る。例えば、所与の配列リードは、少なくとも3つのCpG部位を含み得る。少なくとも3、5、10、20、30、40、50、60、70、80、90、100部位に限定されない他の数も考慮され得る。追加的に又は代替的に、配列リードは、第1サイズ範囲(例えば、1000kbpより大きい)内のサイズを有する長い無細胞DNA分子に対応し得、少なくともN個の部位(例えば、10個のCpG部位)を含み得る。配列リードを取得し配列リードのメチル化状態を特定するステップは、
図57のステップ5702に更に記載される。
【0383】
ステップ7304で、配列リードの第1配列リードの位置を特定してもよい。第1配列リードの位置は、第1配列リードを参照ゲノムにアライメントすることで特定してもよい。いくつかの実例において、第1配列リードの位置は、第1配列リードを対象の生得的ゲノムにアライメントすることで特定される。追加的に又は代替的に、他の配列リードのそれぞれの位置も、第1配列リードの同じ位置からの配列リードに基づいて癌分類を特定できるように、特定してもよい。
【0384】
ステップ7306で、前記位置に対応する第1配列リードにおけるバリアントを検出してもよい。第1配列リードにおけるバリアントは、前記位置での参照配列に対するバリアントであり得る。バリアントは、マイクロサテライト拡張、挿入、欠失、構造変異、配列重複、増幅、再構成、転位、反転、及び/又は微小欠失であり得る。いくつかの実例において、バリアントは、マイクロサテライト不安定性(例えば、コピー数異常)又は癌のマーカーである特定の配列バリアント(例えば、一塩基バリアント)等のような既知の腫瘍マーカーであり得る。
【0385】
ステップ7308で、第1配列リードのメチル化パターン及びバリアントを使用して、癌(又は他の疾患若しくは症状)の分類を特定してもよい。例えば、癌の分類は、メチル化パターンのメチル化レベルに基づいて特定してもよく、ここでメチル化レベルは第1配列リードの1組の部位のメチル化状態から特定される。メチル化レベルは、メチル化指数、メチル化密度、1組の部位のうちの1つ又は複数の部位でのメチル化された分子の個数、又は1組の部位のうちの1つ又は複数の部位でのメチル化された分子(例えば、シトシン)の割合であり得る。いくつかの実例において、メチル化レベルは、メチル化CpG部位の個数及び第1配列リードのCpG部位の総個数に基づいて特定された、第1配列リードのCpG部位のメチル化パーセントを同定する。例えば、DNA分子が10個のCpG部位を含有しその5つがメチル化されたと特定された場合、単一分子メチル化レベルは50%(即ち5/10*100%)となる。第1配列リードのバリアントは、対応するDNA分子が腫瘍由来であるか否かを示す第1しるしとして使用でき、配列リードのメチル化パターンは、DNA分子が腫瘍由来であることを示す第2しるしとして使用できる。配列リードが腫瘍マーカーを有し且つ閾値より下(例えば、20%、30%、40%、50%、又は60%より下)の単一分子メチル化レベルを有するならば、癌の分類は、癌が存在するとなり得る。例えば、癌による広範囲な低メチル化の結果として、その低下が発生する。
【0386】
追加的に又は代替的に、単一分子メチル化については、例えば、ゲノムにおける特定の位置(CpGアイランド)が高メチル化された(例えば、40%、50%、60%、70%、80%、90%、又は95%より大きい)と知られる場合、閾値より大きいか否かが特定されてもよい。この例において、配列リードが腫瘍マーカーを有し且つ閾値より上(例えば、40%、50%、60%、70%、80%、又は90%より上)の単一分子メチル化レベルを有するならば、癌の分類は、癌が存在するとなり得る。
【0387】
いくつかの実例において、癌の分類を特定することは、メチル化パターンを前記位置での第1参照メチル化パターンと比較することを含む。よって、単一分子メチル化レベルの代わりに、メチル化又は非メチル化部位のパターンを使用してもよい。例えば、肝臓を起源とする6つのCpG部位を有するcfDNA分子は、「-M-M-M-U-U-U-」のメチル化パターンを有し得、ここで「M」は、メチル化状態を表し、「U」は、非メチル化状態を表す。しかし、他の組織のからの、対応するCpG部位を含有する他の分子は、「-M-U-M-U-M-U-」、「-M-U-M-M-U-U-」、「-M-U-U-U-M-M-」、「-M-M-U-U-M-U-」、「-M-M-U-U-U-M-」、「-U-M-M-M-U-U-」、「-U-U-M-U-M-M-」、「-U-U-M-M-M-U-」、「-U-U-U-M-M-M-」のメチル化パターンを有し得る。この例について、全ての分子が、値が0.5の同一の単一分子メチル化レベルを示すことから、単一分子メチル化レベルを使用して肝臓由来分子を他の組織に由来する分子と区別することができない。対照的に、これら6つのCpG部位にわたるメチル化パターンを使用すると、肝臓由来分子は、他の組織に由来する分子と比べてユニークになる。この状況では、分子における1組のCpG部位にわたるメチル化パターンは、細胞性質又は疾患状態、例えば、メチル化パターンに対応する特定の組織型における疾患状態を示す「分子バーコード」として機能することができる。第1参照メチル化パターンは、癌に関連する特定の組織型に対応し得る。比較に基づき、対象を、癌を有すると特定できる。
【0388】
参照メチル化パターンの値は、二値(例えば、
図41又は42中の0及び1)であり得るか、又は小数(例えば、20%のメチル化指数を示す0.2)を有し得る。例えば、最も近い参照メチル化パターンは、1組の参照メチル化パターンから同定されてもよく、疾患分類は、最も近い参照メチル化パターンの疾患と特定されてもよい。最も近い参照メチル化パターンは、参照メチル化パターンに対して各部位でのメチル化状態又は指数の差を取ることで特定してもよい。最も近い参照メチル化パターンを同定する追加の詳細は、少なくとも
図57のプロセス5700及び本開示のセクションIVに記載される。
【0389】
いくつかの実例において、癌分類を特定することは、位置及びメチル化パターンを機械学習モデルに入力することを含む。機械学習モデルは、癌細胞由来であるとラベル付けされた配列リードの第1訓練セット、及び正常細胞由来であるとラベル付けされた配列リードの第2訓練セットを使用して訓練してもよい。いくつかの実例において、機械学習モデルは、畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)を含む。いくつかの実例において、配列リードの第1又は第2訓練セットは、1つ又は複数の示差的にメチル化された領域(DMR)から取得される。機械学習モデルの出力に基づき、配列リードが癌細胞に由来するか否かを特定する。
【0390】
追加的に又は代替的に、複数のDNA分子を、癌の分類を特定するために使用できる。複数のDNA分子の各DNA分子は、バリアントを含み得る。バリアントは、また、マイクロサテライト不安定性(コピー数異常)又は癌のマーカーである特定の配列バリアント等のような既知の腫瘍マーカーであり得る。それらそれぞれのメチル化パターンに基づき、腫瘍バリアントを有する配列リードの全てのメチル化レベルは、それらそれぞれの組の部位のメチル化状態に基づいて特定できる。かかるメチル化レベルは、1つの部位のみのもの又は複数の部位にわたるものであり得、複数の領域にわたって(例えば、CpGアイランドにわたって)発生し得る。いくつかの実例において、メチル化レベルは、配列リードの部位の総数に対する、メチル化部位の割合を含む。メチル化レベルは、配列リードの低メチル化又は高メチル化を特定するために閾値と比較してもよい。メチル化レベルが閾値を超えると、癌は対象に存在すると特定できる。閾値の例は上記で提供される。閾値は、癌の分類(例えば、健康、癌存在)が既知の対象から取得された参照サンプルのメチル化レベルを検査することで特定できる。実際に、バリアントを有する無細胞DNA分子から特定されたメチル化レベルは、対象に癌が存在するか否かを特定する別のしるしとして使用できる。
【0391】
更に別の実施形態において、使用される複数のDNA分子の別の例では、バリアントは、欠失又は増幅等のようなコピー数異常(CNA)であり得る。コピー数異常は様々な方式で、例えば、領域における個数又はリードを、別の領域における個数(例えば、1つの領域、多数の領域にわたる平均リード密度、別の染色体(複数可)上の領域、又はゲノム全体のリードの総数)と比較することで、特定できる。個数の比は、CNAが存在するか否かを分類するためにカットオフ値と比較してもよい。CNAを有する領域について、該領域にアライメントした配列リードの1つ又は複数の部位の集計メチル化レベル(例えば、配列リードについて特定されたメチル化レベルの合計、代表値、又は中央値)は、閾値と比較してもよい。閾値は、癌の分類(例えば、健康、癌存在)が既知の対象から取得された参照サンプルのメチル化レベルに基づいて決定されてもよい。例えば、増幅を有するゲノム領域は、CNAを有さない別のゲノム領域と比較してそのゲノム領域からの断片がより多い以上、(広範囲な低メチル化により)一般にメチル化レベルがより低い。このため、CNAが配列リードの増幅に対応する場合、集計メチル化レベルが閾値未満であれば、対象は癌が存在するという分類と特定できる。他の実例において、特定の位置が癌を有する対象において高メチル化されたと知られるならば、メチル化レベルが閾値より大きいか否かを特定することができる。CNAが特定の領域の配列リードの欠失に対応す場合、集計メチル化レベルが閾値より大きければ、対象は癌が存在するという分類と特定できる。よって、複数のDNA分子のメチル化パターンは、対象に癌が存在するか否かの追加のしるしとして使用できる。
【0392】
更に別の実施形態において、ハプロタイプ技術は、複数のDNA分子に使用してもよい。例えば、1つ又は複数のSNP(ヘテロ接合遺伝子座)での対立遺伝子比を特定してもよい。複数のSNPが使用される場合、対立遺伝子比は、1つのハプロタイプでの配列リードの第1個数、及び他のハプロタイプでの配列リードの第2個数に基づいて特定してもよい。当業者に理解されるように、異なる領域又は異なるハプロタイプのDNA断片のサイズも使用され得る。そして、異常を有する領域又はハプロタイプのメチル化レベル(例えば、単一メチル化レベルの集計又はDNA分子にわたって特定されたレベル)は、特定されて閾値と比較してもよい。閾値は、癌の分類(例えば、健康、癌存在)が既知の対象から取得された参照サンプルのメチル化レベルに基づいて決定されてもよい。その位置での対立遺伝子比が特定のハプロタイプでのDNA分子の増幅を示す場合、特定のハプロタイプに対応する配列リードの集計メチル化レベルが閾値未満であれば、対象は癌が存在するという分類と特定できる。他の実例において、その位置での対立遺伝子比が特定のハプロタイプでのDNA分子の欠失を示す場合、特定のハプロタイプに対応する配列リードの集計メチル化レベルが閾値より大きければ、対象は癌が存在するという分類と特定できる。よって、欠失について、メチル化レベルは、広範囲なメチル化のため増加するか、又は腫瘍内の領域で高メチル化を有すると知られる領域のため増加する。
VIII.長いCFDNA分子の複数の特徴に基づく疾患分類のための機械学習
【0393】
長い無細胞DNA分子の複数の特徴(例えば、メチル化パターン、配列モチーフ、配列構成)は、対象の疾患の分類を特定するために使用できる。特に、機械学習モデルは、疾患の分類が既知の訓練サンプルから取得された長い無細胞DNA分子(例えば、サイズが600bpより大きい配列)を使用して訓練できる。
A.訓練
【0394】
図74は、血漿DNA分子に存在する断片情報及び後天的情報に基づき、癌を有する患者と有さない患者を区別するための機械学習モデルを訓練するプロセス例を図示する概略
図7400を示す。
図74に示すように、何人かの癌を有する患者と有さない患者からいくつかの血漿DNAサンプルを取得してもよい。生体サンプルの長い無細胞DNA分子の配列リードは、単一分子配列決定又はクラスターベースの配列決定によって取得してもよい。所与の長い無細胞DNA分子の配列リードは、対応する組の特徴を同定するために分析されてもよい。末端、サイズ、配列構成、末端モチーフ、メチル化ハプロタイプ、不揃い末端、ゲノム座標等に限定されない各血漿DNA分子の特徴は、データ行列にプログラムしてもよい。いくつかの実例において、配列構成は、少なくとも一部の血漿DNA分子のヌクレオチド配列(例えば、4-mer)を同定する。配列構成は血漿DNA分子全体に及んでもよい。
【0395】
癌を有する患者と有さない患者からのデータ行列は、癌を有する又は有さない患者を分類するための統計モデルの訓練に使用できる。統計モデルとしては、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば完全結合型リカレントニューラルネットワーク(RNN)、ゲートリカレントユニット(GRU)、長短期記憶(LSTM))、トランスフォーマーベースの方法(例えばXLNet、BERT、XLM、RoBERTa)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、K平均クラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、適応ブースティング(AdaBoost)、極端勾配ブースティング(XGBoost)、及びサポートベクターマシン(SVM)を含み得るが、それらに限定されない。
B.分類
【0396】
訓練されたモデルは、新しいサンプルが癌を有するか否かを特定するために使用できる。
図75は、血漿DNA分子に存在する断片情報及び後天的情報を用いた癌検出に訓練されたモデルを適用するプロセス例を図示する概略
図7500を示す。例えば、配列リードは、血漿DNAサンプルから取得されてもよく、ここで少なくとも一部の配列リードは閾値サイズ(例えば、600bp)より大きい長さを有する。各配列リードについて、1つ又は複数の特徴が特定される。1つ又は複数の特徴は、配列リードについて、参照ゲノムにおける末端の位置、配列構成、サイズ、1つ又は複数の末端での配列モチーフ、又はDNAメチル化パターンを含み得る。特徴は、訓練された機械学習モデルに入力できる。機械学習モデルは、配列リードの分類を特定するために使用できる出力を生成できる。分類は、配列リードが第1組織型に由来するか、それとも別の組織型に由来するかを同定することができる。
【0397】
配列リードの分類を分析してもよい。例えば、第1組織型に対応する配列リードの量を特定してもよい。量がカットオフ値を超えると、対象は第1組織型に対応する疾患分類と特定できる。
C.長い無細胞DNA分子の複数の特徴に基づく疾患分類に機械学習モデルを使用する方法
【0398】
図76は、いくつかの実施形態に係る、機械学習モデルを使用して長い無細胞DNA分子の複数の特徴に基づいて疾患分類を特定する対象の生体サンプル分析のプロセス例を図示するフローチャート7600を示す。生体サンプルは、正常細胞及び場合によっては第1組織型の疾患に関連する細胞を起源とするDNAを含み得る。加えて、DNAの少なくとも一部は生体サンプルにおいて無細胞である。
【0399】
ステップ7602で、無細胞DNA分子のメチル化認識配列決定から取得された配列リードを受け取ってもよい。メチル化認識配列決定は酵素処理を含み得る。いくつかの実例において、メチル化認識配列決定は、疾患分類の配列リードを生成するために亜硫酸水素塩処理を含まない。対照的に、訓練データを生成して機械学習モデルを訓練するために、亜硫酸水素塩処理をメチル化認識配列決定に使用してもよい。配列リードの各々は、配列リード上の1組の部位(例えば、CpG部位)でのメチル化状態のメチル化パターンを含み得る。メチル化パターンは、1組の部位の部位対間の塩基の数、及び塩基のアイデンティティを含み得る。
【0400】
いくつかの実例において、配列リードは、下限及び上限を含み得る第1サイズ範囲内のサイズを有する長い無細胞DNA分子に対応する。例として、第1サイズ範囲は、少なくとも1,000塩基、少なくとも3,000塩基、又はそれ以上の上限を含み得る。いくつかの実例において、下限は、少なくとも300塩基、少なくとも400塩基、少なくとも500塩基、少なくとも600塩基、又は少なくとも800塩基のうちの1つから選択され得る。
【0401】
1組の部位は様々な数としてもよい。いくつかの実例において、配列リードの各々の1組の部位は、少なくともN個の部位を含み得る。例えば、所与の配列リードは、少なくとも3つのCpG部位を含み得る。少なくとも3、5、10、20、30、40、50、60、70、80、90、100部位に限定されない他の数も考慮され得る。追加的に又は代替的に、配列リードは、第1サイズ範囲(例えば、500bpより大きい)内のサイズを有する長い無細胞DNA分子に対応し得、少なくともN個の部位(例えば、3つのCpG部位)を含み得る。配列リードを取得し配列リードのメチル化状態を特定するステップは、
図57のステップ5702に更に記載される。
【0402】
ステップ7604及び7606を、ステップ7602から受け取った配列リードのうちの各配列リードに対して行ってもよい。ステップ7604で、配列リードの1つ又は複数の特徴を機械学習モデルに入力してもよい。いくつかの実例において、1つ又は複数の特徴は、参照ゲノムにおける末端の位置、配列構成、サイズ、1つ又は複数の末端での配列モチーフ、及びDNAメチル化パターンから選択される少なくとも1つを含む。例えば、特徴は、配列リードの配列構成であり得、ここで配列構成は、配列リードのヌクレオチド塩基組成及び/又はヌクレオチド塩基順序を含む(本開示のセクションI.Bに記載された通り)。別の特徴は、配列リードの末端の位置であり得、ここで末端の位置を特定することは、配列リードを参照ゲノムにアライメントすることを含み得る。別の例において、特徴は、配列リードのDNAメチル化パターンであり得、ここでDNAメチル化パターンは、配列リード上の1組の部位でのメチル化状態を含む(本開示のセクションIV、V、及びVIに記載された通り)。
【0403】
機械学習モデルは、第1組織型由来であるとラベル付けされた配列リードの第1訓練セット、及び1つ又は複数の他の組織型由来であるとラベル付けされた配列リードの第2訓練セットを使用して訓練された。いくつかの実例において、機械学習モデルは、畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)を含む。いくつかの実例において、配列リードの第1又は第2訓練セットは、1つ又は複数の示差的にメチル化された領域(DMR)から取得される。機械学習モデルは、畳み込みニューラルネットワーク(CNN)、線形回帰、ロジスティック回帰、深層リカレントニューラルネットワーク(例えば、完全結合型リカレントニューラルネットワーク(RNN)、ゲートリカレントユニット(GRU)、長短期記憶、(LSTM))、トランスフォーマーベースの方法(例えばXLNet、BERT、XLM、RoBERTa)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、K平均クラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、適応ブースティング(AdaBoost)、極端勾配ブースティング(XGBoost)、サポートベクターマシン(SVM)、又は上記の機械学習モデルの1つ又は複数を含む複合モデルのうちの1つから選択され得る。
【0404】
1つ又は複数の他の組織型は、1、2、3、4、5、10、15、20、又は20より多くの組織型を含み得る。1つ又は複数の他の組織型としては、T細胞、B細胞、好中球、肺組織、又は肝臓を含み得るが、それらに限定されない。1つ又は複数の他の組織型はバフィーコートを含み得る。
【0405】
ステップ7606で、機械学習モデルの出力に基づき、配列リードの分類を特定してもよい。分類は、配列リードが第1組織型に由来することを示す。組織分類は、配列リードが第1組織型に由来する確率を含み得る。第1組織型は、疾患組織型であり得る。いくつかの実例において、第1組織型は疾患に関連する。
【0406】
ステップ7608で、第1組織型に由来すると分類された配列リードの量を特定してもよい。いくつかの実例において、配列リードの量を表すパラメーターが決定される。パラメーターは、第1組織型に由来すると分類されない他の配列リードの量に対する、配列リードの量の割合を含み得る。
【0407】
ステップ7610で、配列リードの量を使用して生体サンプルの疾患の分類を特定してもよい。例えば、生体サンプルの疾患の分類を特定することは、量を1つ又は複数のカットオフ値と比較することを含み、ここで1つ又は複数のカットオフは、疾患の分類が既知の参照サンプルを使用して決定される。疾患は癌であり得る。いくつかの実例において、疾患の分類を特定することは、血管浸潤の有無を判定することを含む。量を使用して疾患の分類を特定するステップは、
図57のステップ5708に更に記載される。
【0408】
疾患の分類は、疾患の重篤度の分類(例えば、疾患無し、早期、中期、進行期)を含み得る。例えば、疾患の分類は、BCLC病期に従う癌の病期を含み得る。そして、分類は、病期の1つを選択してもよい。したがって、分類は、疾患の複数の病期(例えば、HCCのBCLC病期の1つ)から特定できる。いくつかの実例において、疾患は癌である。例として、癌は、肝細胞癌、肺癌、乳癌、胃癌、多形性膠芽腫、膵臓癌、結腸直腸癌、鼻咽頭癌、及び頭頸部扁平上皮癌であり得る。
IX.マイクロサテライト不安定性
【0409】
マイクロサテライト不安定性は、結腸癌、胃癌、卵巣癌等を含む様々な癌に関連する。マイクロサテライトは、1~6ヌクレオチドの配列モチーフが複数回反復するDNAのタンデムリピートである。
図77は、DNA分子における1組のマイクロサテライト配列7700の例を示す。
【0410】
これらの反復配列は、何千もの領域に発生し得、ヒトゲノムの他の領域より変異率が高い(Brinkmann et al. Am J Hum Genet. 1998;62:1408-15)。マイクロサテライト不安定性(MSI)は、DNAミスマッチ修復(MMR)が適切に機能せず、標的マイクロサテライトの反復単位が増加又は減少し、その結果体細胞サイズが変化することが原因で発生すると考えられる。MMR欠損に関連する広範な不安定性は、重要な制御プロセスにおいて遺伝子を不活性化し腫瘍形成を引き起こし得る体細胞変異の急速な蓄積を示す。現在の研究では、多くの形態の癌、より多くの場合、早期疾患においてMMR欠損を同定している(Le et al. Science. 2017;357:409-413)。MSI検出は、特異的マーカーに対するPCRとそれに続くPAGE及びオートラジオグラフィーのいずれかによって、最初に結腸直腸癌において行われた(Thibodeau et al. Science. 1993;260:816-819)。しかし、これらの方法は、手間と時間がかかり、侵襲的で、寸法精度が低かった。
【0411】
続いて、MSI検出は、最も頻繁なマイクロサテライト変化について選択された特異的マーカーに対するPCR、及びそれに続くゲル電気泳動並びにオートラジオグラフィーを使用することで、小細胞肺癌患者の血漿において行われた(Chen et al. Nat Med. 1996; 2(9):1033-5)。しかし、これらのPCRベースの方法では、MSI検出の用途が限られたマーカーに制限され、PCRプライマーの標的とされない他のMSIを保有する癌患者に適用できない。また、これらも、手間と時間がかかり、寸法精度が低かった。
【0412】
超並列次世代配列決定(NGS)(即ちショートリード配列決定)も、癌におけるMSIの検出に提案されている(Cortes-Ciriano et al. Nat Commun. 2017;8:15180)。しかし、マイクロサテライトの検出可能なサイズ範囲は、NGS技術のリード長さによって制限され、典型的には50~150bpである。加えて、NGSによる短いリードの性質及びマイクロサテライトの高い反復性により、アライメント結果が不正確になる傾向があり、MSI分析時に偽陽性が発生する。
【0413】
癌患者における長い血漿DNA分子の分析は、MSIの有無を判定するより正確なツールを提供する。単一分子配列決定によって配列決定された長い血漿DNA分子を使用することで、リピートの全長及びその近傍のユニークな配列情報を取得することができ、それによって、かかるリピートゲノム位置及び目的のマイクロサテライトのサイズを正確に検査できる。多型領域が従来のcfDNA(例えば160bp)より長い場合があるため、血漿中の長いcfDNAを分析できなければ、これらのマーカーの一部を利用できない。いくつかの実例において、他のタンデムリピート多型(例えば、ミニサテライト)も、長い無細胞DNA分子を使用して検出でき、該分子は次に腫瘍由来DNAの検出に使用され得る。また、少数の既知のMSIマーカーに制限された文献に記載のPCRベースの方法を使用する場合とは対照的に、MSI検出のためのロングリード配列決定の使用は、任意のMSI(例えばゲノムワイドなレベルで)を保有する癌患者に適用できる。
【0414】
図78は、癌特異的マイクロサテライトマーカーに基づいて腫瘍由来DNAを検出する一例の概要7800を図示する。
図78に示すように、いくつかの実施形態において、癌細胞に特有に存在するが正常細胞に存在しないマイクロサテライト変化(CAG)
30を保有する腫瘍由来分子を検出してもよい。いくつかの実施形態において、マイクロサテライト変化に関連するメチル化ハプロタイプは、本開示に提示された実施形態に従って腫瘍位置を特定するために使用できる。
X.治療
A.治療選択
【0415】
本開示の実施形態では、疾患の再発を正確に予測でき、それによって、対象の疾患転帰及び全生存率を改善するための早期介入及び適切な治療の選択が容易になる。例えば、対応するサンプルが疾患の再発を予測可能な事象において、対象に強化化学療法を選択することができる。別の例では、初期治療を完了した対象の生体サンプルを配列決定して、疾患の再発を予測可能なウイルスDNAを同定することができる。かかる例において、対象の癌が初期治療に抵抗性を示している可能性があるため、対象に代替治療レジメン(例えば、より高用量)及び/又は異なる治療を選択することができる。
【0416】
実施形態は、病態の再発の分類の特定に応じて対象を治療することをも含み得る。例えば、予測が局所領域不全に対応する場合、手術を可能な治療として選択できる。別の例では、予測が遠隔転移に対応する場合、化学療法を可能な治療として追加的に選択できる。いくつかの実施形態において、治療は、手術、放射線療法、化学療法、免疫療法、標的療法、ホルモン療法、幹細胞移植、又は精密医療を含む。特定された再発の分類に基づき、対象への危害リスクを低減し全生存率を増加する治療計画を立てることができる。実施形態は、治療計画に従って対象を治療することを更に含み得る。
B.治療のタイプ
【0417】
実施形態は、対象について分類を特定した後に患者の病態を治療することを更に含み得る。治療は、病態の特定されたレベル、臨床上関連するDNAの分画濃度、又は起源組織に応じて提供できる。例えば、同定された変異は、特定の薬物又は化学療法の標的となり得る。起源組織は、手術又は任意の他の形式の治療をガイドするために使用できる。そして、病態のレベルは、あらゆる治療の攻撃性を決定するために使用でき、治療の攻撃性は病態の該レベルに基づいて決定してもよい。病態(例えば、癌)は、化学療法、薬物、食事、療法、及び/又は手術によって治療され得る。いくつかの実施形態において、パラメーター(例えば、量又はサイズ)の値が参照値を超えるほど、治療の攻撃性が高くなり得る。
【0418】
治療は切除を含み得る。例として、膀胱癌について、治療は、経尿道的膀胱腫瘍切除術(TURBT)を含み得る。この手順は、診断、病期分類及び治療に使用される。TURBT中、外科医は膀胱鏡を尿道から膀胱に挿入する。そして、腫瘍は、小さなワイヤーループ、レーザー、又は高エネルギー電気を備えるツールを使用して除去される。筋層非浸潤性膀胱癌(NMIBC)を有する患者について、TURBTは、該癌の治療又は除去に使用され得る。別の治療は、根治的膀胱切除術及びリンパ節郭清を含み得る。根治的膀胱切除術は、膀胱全体及び可能な周囲組織と臓器の切除である。治療は尿路変更術も含み得る。尿路変更術は、治療の一環として膀胱を切除する際に、医師が尿の体外に排出される新しい経路を作る場合のことである。
【0419】
治療は、通常、癌細胞の成長及び分裂を防ぐことで癌細胞を破壊する薬物の使用である化学療法を含み得る。薬物は、例えば、マイトマイシン-C(ジェネリック医薬品として入手可能)、ゲムシタビン(Gemzar)、及び膀胱内化学療法用のチオテパ(Tepadina)に関わり得るが、それらに限定されない。全身化学療法は、例えば、シスプラチンゲムシタビン、メトトレキサート(Rheumatrex、Trexall)、ビンブラスチン(Velban)、ドキソルビシン、及びシスプラチンに関わり得るが、それらに限定されない。
【0420】
いくつかの実施形態において、治療は、免疫療法を含み得る。免疫療法は、PD-1と呼ばれるタンパク質を遮断する免疫チェックポイント阻害剤を含み得る。阻害剤は、アテゾリズマブ(Tecentriq)、ニボルマブ(Opdivo)、アベルマブ(Bavencio)、デュルバルマブ(Imfinzi)、及びペムブロリズマブ(Keytruda)を含み得るが、それらに限定されない。
【0421】
治療の実施形態は、標的療法も含み得る。標的療法は、癌の成長及び生存に寄与する癌の特定の遺伝子及び/又はタンパク質を標的とする治療である。例えば、エルダフィチニブは、癌細胞が成長又は浸潤し続けているFGFR3又はFGFR2遺伝子変異を伴う局所進行性又は転移性尿路上皮癌を有する者の治療用に承認された経口投与薬物である。
【0422】
いくつかの治療は放射線療法を含み得る。放射線療法は、高エネルギー光子(例えばx線)又は他の粒子を使用して癌細胞を破壊することを含み得る。各個別治療に加えて、本明細書に記載のこれらの治療の組み合わせが使用され得る。いくつかの実施形態において、パラメーターの値が閾値を超え、該閾値自体が参照値を超える場合、治療の組み合わせが使用され得る。参照文献における治療に関する情報は、参照によって本明細書に組み込まれる。
XI.システムの例
【0423】
図79は、本開示の実施形態に係る測定システム7900を示す。図示のように、システムは、アッセイ装置7910内の無細胞DNA分子等のサンプル7905を含み、ここでアッセイ7908はサンプル7905に対して行うことができる。例えば、サンプル7905をアッセイ7908の試薬と接触させて、物理的特徴7915の信号を提供することができる。アッセイ装置の例としては、アッセイのプローブ及び/若しくはプライマー又は液滴が(アッセイを含む液滴と共に)移動するチューブを含むフローセルであり得る。物理的特徴7915(例えば、蛍光強度、電圧、又は電流)は、検出器7920によってサンプルから検出される。検出器7920は、一定の間隔(例えば、周期的な間隔)で測定を行って、データ信号を構成するデータ点を取得することができる。1つの実施形態において、アナログデジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。アッセイ装置7910及び検出器7920は、アッセイシステム、例えば、本明細書に記載の実施形態に従って配列決定を行う配列決定システムを形成することができる。データ信号7925は、検出器7920から論理システム7930に送信される。例として、データ信号7925を使用して、DNA分子の参照ゲノムにおける配列及び/又は位置を特定することができる。データ信号7925は、同時に生成された様々な測定値、例えば、蛍光色素の異なる色又はサンプル7905の異なる分子への異なる電気信号を含み得るため、データ信号7925は、複数の信号に対応し得る。データ信号7925は、ローカルメモリ7935、外部メモリ7940、又は記憶装置7945に記憶され得る。
【0424】
論理システム7930は、コンピュータシステム、ASIC、マイクロプロセッサ、グラフィックスプロセッシングユニット(GPU)等であってもよいし、それらを含んでもよい。それはディスプレイ(例えば、モニタ、LEDディスプレイ等)及びユーザ入力装置(例えば、マウス、キーボード、ボタン等)を含んでもよいし、それらに結合されてもよい。論理システム7930及び他の部品は、スタンドアローン又はネットワーク接続されたコンピュータシステムの一部であってもよいし、検出器7920及び/又はアッセイ装置7910を含む装置(例えば、配列決定装置)に直接取り付けられても組み込まれてもよい。論理システム7930は、プロセッサ7950において実行されるソフトウェアも含み得る。論理システム7930は、本明細書に記載の方法のいずれかを実行するように測定システム7900を制御するための命令を記憶するコンピュータ可読媒体を含み得る。例えば、論理システム7930は、配列決定又は他の物理的操作が実行されるように、アッセイ装置7910を含むシステムにコマンドを提供することができる。かかる物理的操作は、例えば、試薬を特定の順序で添加及び除去するように、特定の順序で実行できる。かかる物理的操作は、サンプルを取得してアッセイを行うために使用され得るように、例えば、ロボットアームを含むロボットシステムによって実行され得る。
【0425】
システム7900は、対象に治療を提供できる治療装置7960も含み得る。治療装置7960は、治療を決定でき及び/又は治療を実施するために使用できる。かかる治療の例としては、手術、放射線療法、化学療法、免疫療法、標的療法、ホルモン療法、及び幹細胞移植を含み得る。論理システム7930は、例えば、本明細書に記載の方法の結果を提供するために、治療装置7960に接続され得る。治療装置は、(例えば、ロボットシステムを制御するように、治療を制御するために)他の装置からの入力、例えばイメージング装置及びユーザ入力を受信し得る。
【0426】
本明細書で言及したコンピュータシステムのいずれも、任意の好適な数のサブシステムを利用し得る。かかるサブシステムの例は、
図80においてコンピュータシステム8000で示される。いくつかの実施形態において、コンピュータシステムは、単一のコンピュータ装置を含み、ここでサブシステムは該コンピュータ装置の部品であり得る。他の実施形態において、コンピュータシステムは、それぞれがサブシステムであり内部部品を備える、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップ及びラップトップコンピュータ、タブレット、携帯電話及び他のモバイル装置を含み得る。
【0427】
図80に示すサブシステムは、システムバス75を介して相互接続される。プリンター74、キーボード78、記憶装置(複数可)79、ディスプレイアダプター82に結合されるモニタ76(例えば、LED等のような表示画面)等の追加のサブシステムが示される。I/Oコントローラー71に結合する周辺機器及び入力/出力(I/O)装置は、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))等の当分野で既知の任意の数の手段によって、コンピュータシステムに接続することができる。例えば、I/Oポート77又は外部インターフェース81(例えば、Ethernet(登録商標)、Wi-Fi等)を使用して、コンピュータシステム8000をInternet等の広域ネットワーク、マウス入力装置、又はスキャナーに接続することができる。システムバス75を介した相互接続により、中央プロセッサ73が各サブシステムと通信し、システムメモリ72又は記憶装置(複数可)79(例えば、ハードドライブ等の固定ディスク、又は光ディスク)からの複数の命令の実行、及びサブシステム間の情報交換を制御することが可能になる。システムメモリ72及び/又は記憶装置(複数可)79は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロフォン、加速度計等のデータ収集装置85である。本明細書で言及したデータのいずれも、1つの部品から別の部品へ出力でき、ユーザへ出力できる。
【0428】
コンピュータシステムは、例えば、外部インターフェース81、内部インターフェースによって、又は1つの部品から別の部品へ接続したり取り外したりできるリムーバブル記憶装置を介して一緒に接続された、複数の同じ部品又はサブシステムを含み得る。いくつかの実施形態において、コンピュータシステム、サブシステム、又は装置は、ネットワーク上で通信することができる。かかる例において、1つのコンピュータをクライアント、別のコンピュータをサーバと見なすことができ、ここで疎の各々は、同じコンピュータシステムの一部であり得る。クライアント及びサーバはそれぞれ複数のシステム、サブシステム、又は部品を含み得る。
【0429】
実施形態の態様は、ハードウェア回路(例えば、特定用途向け集積回路又はフィールドプログラマブルゲートアレイ)、及び/又はモジュラー様式又は統合様式で一般にプログラム可能なプロセッサと共に、メモリに記憶されたコンピュータソフトウェアを使用して、制御論理の形態で実施することができるため、プロセッサは、ハードウェア回路を設定するソフトウェア命令、及び設定命令又はASICを有するFPGAを含み得る。本明細書で使用されるように、プロセッサは、同じ集積チップ上のシングルコアプロセッサ、マルチコアプロセッサ、又は単一の回路基板上の若しくはネットワーク化の、複数の処理ユニット、並びに専用ハードウェアを含み得る。本明細書で提供される開示及び教示に基づき、当業者は、ハードウェア及びハードウェアとソフトウェアの組み合わせを使用して、本開示の実施形態を実施するための他の方式及び/又は方法を認識・理解するであろう。
【0430】
本出願に記載のソフトウェア部品又は機能のいずれも、例えば、従来の又はオブジェクト指向の技術を使用して、任意の好適な、例えば、Java(登録商標)、C、C++、C#、Objective-C、Swiftのようなコンピュータ言語、又はPerl又はPython等のスクリプト言語を使用するプロセッサによって実行されるソフトウェアコードとして、実装され得る。ソフトウェアコードは、記憶及び/又は送信のためのコンピュータ可読媒体上に一連の命令又はコマンドとして記憶され得る。好適な非一時的なコンピュータ可読媒体としては、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、ハードドライブ若しくはフロッピー(登録商標)ディスク等の磁気媒体、又はコンパクトディスク(CD)若しくはDVD(デジタル多用途ディスク)若しくはブルーレイディスク等の光学媒体、及びフラッシュメモリ等を含み得る。コンピュータ可読媒体は、このような装置の任意の組み合わせであり得る。加えて、操作の順序は並べ替えられてもよい。プロセスは、その操作が完了する時に終了できるが、図に含まれない追加のステップを有し得る。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応し得る。プロセスが関数に対応する場合、その終了は、呼び出し関数又はメイン関数への該関数の戻り値に対応し得る。
【0431】
かかるプログラムは、符号化され、Internetを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、及び/又は無線ネットワークを介した送信に適合したキャリア信号を使用して送信されてもよい。したがって、コンピュータ可読媒体は、かかるプログラムで符号化されたデータ信号を使用して作製され得る。プログラムコードで符号化されたコンピュータ可読媒体は、互換性装置でパッケージ化されてもよいし、(例えば、Internetダウンロードを介して)他の装置とは別個に提供されてもよい。任意のかかるコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、又はコンピュータシステム全体)上又はその内部に存在してもよく、システム又はネットワークにおける異なるコンピュータ製品上又はその内部に存在してもよい。コンピュータシステムは、本明細書で言及した結果のいずれかをユーザへ提供するためのモニタ、プリンター、又は他の好適なディスプレイを含み得る。
【0432】
本明細書に記載の方法のいずれも、ステップを実行するように構成され得る1つ又は複数のプロセッサを含むコンピュータシステムによって全部又は部分的に実行され得る。プロセッサで実行される任意の操作(例えば、アライメント、決定、比較、演算、計算)は、リアルタイムで実行され得る。「リアルタイム」という用語は、特定の時間制約内で完了される演算操作又はプロセスを指し得る。時間制約は、1分間、1時間、1日間、又は7日間であり得る。よって、実施形態は、本明細書に記載の方法のいずれかのステップを実行するように構成された、個別のステップ又は個別のステップの群を実行する異なる部品を備える可能性のあるコンピュータシステムに関し得る。番号付けのステップとして示されたが、本明細書の方法のステップは、同じ時間又は異なる時間又は異なる順序で実行することができる。加えて、これらのステップの一部は、他の方法からの他のステップの一部と共に使用され得る。また、ステップの全部又は一部は選択的である場合もある。加えて、方法のいずれかのステップのいずれも、これらのステップを実行するためのシステムのモジュール、ユニット、回路、又は他の手段を用いて実行できる。
【0433】
特定の実施形態の具体的な詳細は、本開示の実施形態の趣旨及び範囲から逸脱することなく、任意の好適な様態で組み合わせることができる。しかしながら、本開示の他の実施形態は、各個々の態様、又はこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象とし得る。
【0434】
本開示の例示的実施形態の上の説明は、例示及び説明の目的で提示されている。包括的であること、又は本開示を説明された正確な形態に限定することは意図されず、多くの修正及び変更が、先の教示に鑑みて可能である。
【0435】
「一(a)」、「一つ(an)」、又は「該(the)」の記述は、明確に反対の記載がない限り、「1つ又は複数」を意味することが意図される。「又は」の使用は、明確に反対の記載がない限り、「排他的な又は」ではなく「包含的な又は」を意味することが意図される。「第1」の構成要素への言及は、第2の構成要素が提供されることを必ずしも必要としない。また、「第1」又は「第2」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「~に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。
【0436】
本明細書に1群の置換が開示される場合、それらの群の全ての個々のメンバー、及び該置換を使用して形成できる全てのサブグループ及びクラスは個別に開示されることが理解される。マルクーシュ群又は他の群化が本明細書で使用される場合、該群の全ての個々のメンバー、及び該群の可能な全ての組み合わせ及びサブコンビネーションは、本開示に個別に含まれることが意図される。本明細書で使用されるように、「及び/又は」は、「及び/又は」で区切られたリストにおける項目の1つ、全て、又は任意の組み合わせが該リストに含まれることを意味し、例えば、「1、2及び/又は3」は、「『1』、又は『2』、又は『3』、又は『1及び2』、又は『1及び3』、又は『2及び3』、又は『1、2及び3』」に相当する。
【0437】
「含む(including、includes)」、「有する(having、has)」、「と共に(with)」という用語、又はその変形は、詳細な説明及び/又は特許請求の範囲のいずれかで使用される限りでは、かかる用語は、「含む(comprising)」という用語と同様の方式で包括的であることを意図している。本明細書で使用されるように、「本質的に…からなる」は、請求項の基本的又は新規な特徴に実質的に影響しない材料又はステップを排除するものではない。
【0438】
例えば、温度範囲、時間範囲、又は組成範囲等、明細書で範囲が与えられる場合、全ての中間範囲及び部分範囲、並びに所与の範囲に含まれる全ての個々の値は本開示に含まれることが意図される。
【0439】
本明細書で言及した全ての特許、特許出願、刊行物、及び説明は、あらゆる目的で参照によって全体として組み込まれる。いずれも先行技術とは認められない。本出願と本明細書に提供される参照文献が矛盾する場合、本出願が優先するものとする。
【国際調査報告】