IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ マイクロノーマ,インク.の特許一覧

特表2024-538697メタエピゲノミクスベースの疾患診断法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】メタエピゲノミクスベースの疾患診断法
(51)【国際特許分類】
   G16H 10/40 20180101AFI20241016BHJP
   G16H 50/20 20180101ALI20241016BHJP
【FI】
G16H10/40
G16H50/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024520848
(86)(22)【出願日】2022-10-07
(85)【翻訳文提出日】2024-06-04
(86)【国際出願番号】 US2022046126
(87)【国際公開番号】W WO2023059922
(87)【国際公開日】2023-04-13
(31)【優先権主張番号】63/253,655
(32)【優先日】2021-10-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
(71)【出願人】
【識別番号】523174457
【氏名又は名称】マイクロノーマ,インク.
(74)【代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(72)【発明者】
【氏名】アダムス,エディー
(72)【発明者】
【氏名】ワンドロ,ステファン
(72)【発明者】
【氏名】フララクシオ,セレーナ
(72)【発明者】
【氏名】シン-テイラー,アカンクシャ
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA04
(57)【要約】
対象のゲノム及びその対象内に含有される微生物ゲノムからのエピジェネティックデータに基づいて、対象の健康状態を決定するための診断モデルを作成するための方法が提供される。
【選択図】図1A
【特許請求の範囲】
【請求項1】
対象の疾患を決定する方法であって、
(a)対象の生体試料を提供することと、
(b)前記生体試料の1つ以上の核酸分子を、前記1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって濃縮することと、
(c)濃縮された前記1つ以上の核酸分子を配列決定して、1つ以上の核酸分子配列決定リードを生成することと、
(d)予測モデルに入力として前記濃縮された1つ以上の核酸分子が提供される場合、前記予測モデルの出力として前記対象の前記疾患を決定することと、を含む、方法。
【請求項2】
前記1つ以上の核酸分子が、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む、請求項1に記載の方法。
【請求項3】
前記疾患が、がん又は非がん性疾患を含む、請求項1に記載の方法。
【請求項4】
前記がんが、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む、請求項3に記載の方法。
【請求項5】
前記非がん性疾患が、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む、請求項3に記載の方法。
【請求項6】
前記1つ以上の核酸分子配列決定リードをフィルタリングして、1つ以上の非哺乳類配列決定リード及び1つ以上の哺乳類配列決定リードを特定することを更に含む、請求項1に記載の方法。
【請求項7】
前記エピジェネティック特徴が、核酸エピジェネティック特徴を含む、請求項1に記載の方法。
【請求項8】
前記エピジェネティック特徴が、哺乳類核酸エピジェネティック特徴又は非哺乳類核酸エピジェネティック特徴を含む、請求項1に記載の方法。
【請求項9】
前記非哺乳類核酸エピジェネティック特徴が、ホスホロチオエート結合ヌクレオチドを含む、請求項8に記載の方法。
【請求項10】
前記生体試料が、組織、液体生検試料、又はそれらの組み合わせを含む、請求項1に記載の方法。
【請求項11】
前記対象が、ヒト又は非ヒト哺乳類である、請求項1に記載の方法。
【請求項12】
前記1つ以上の哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、請求項2に記載の方法。
【請求項13】
前記1つ以上の非哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、請求項2に記載の方法。
【請求項14】
前記核酸エピジェネティック特徴の前記親和性標的化が、前記核酸エピジェネティック特徴を濃縮することを含む、請求項7に記載の方法。
【請求項15】
前記核酸エピジェネティック特徴が、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む、請求項7に記載の方法。
【請求項16】
前記核酸エピジェネティック特徴が、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む、請求項7に記載の方法。
【請求項17】
前記親和性標的化が、前記エピジェネティック特徴に結合するために特異的親和性試薬を利用する、請求項1に記載の方法。
【請求項18】
前記特異的親和性試薬が、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む、請求項17に記載の方法。
【請求項19】
前記組換えエピジェネティックタンパク質が、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む、請求項18に記載の方法。
【請求項20】
前記エピジェネティックリーダーが、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む、請求項19に記載の方法。
【請求項21】
前記エピジェネティックリーダーが、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む、請求項19に記載の方法。
【請求項22】
前記エピジェネティックリーダーが、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む、請求項19に記載の方法。
【請求項23】
前記エピジェネティックライター及びイレーサーが、触媒的に不活性である、請求項19に記載の方法。
【請求項24】
前記エピジェネティックリーダー、ライター、及びイレーサーが、エピトープタグを含む、請求項19に記載の方法。
【請求項25】
前記エピトープタグが、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む、請求項24に記載の方法。
【請求項26】
前記分子認識モチーフが、birA又はソルターゼモチーフ(sortase motif)を含む、請求項25に記載の方法。
【請求項27】
前記1つ以上の哺乳類及び非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、前記固体支持体が、前記エピトープタグに対する固定化された相補的な抗体を含む、請求項2に記載の方法。
【請求項28】
前記特異的親和性試薬が、前記エピジェネティック特徴を認識し、それに結合するための領域を含む、請求項17に記載の方法。
【請求項29】
前記親和性標的化が、前記生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む、請求項1に記載の方法。
【請求項30】
前記複数の固定化された親和性剤が、前記エピジェネティック特徴に結合するであろう領域を含む、請求項29に記載の方法。
【請求項31】
前記固体支持体が、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む、請求項29に記載の方法。
【請求項32】
フィルタリングすることが、ゲノムデータベースに対して前記1つ以上の哺乳類配列決定リード及び前記1つ以上の非哺乳類配列決定リードをフィルタリングすることを含む、請求項6に記載の方法。
【請求項33】
前記ゲノムデータベースが、ヒトゲノムデータベースである、請求項32に記載の方法。
【請求項34】
前記予測モデルが、1個体以上の対象の生体試料の1つ以上の核酸分子及び前記1個体以上の対象の対応する疾患から決定された1つ以上の哺乳類、1つ以上の非哺乳類、又はそれらの組み合わせの特徴で訓練される、請求項3に記載の方法。
【請求項35】
前記1つ以上の哺乳類特徴が、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む、請求項34に記載の方法。
【請求項36】
前記1つ以上の哺乳類特徴が、哺乳類機能性遺伝子及び生化学的経路存在量を含む、請求項34に記載の方法。
【請求項37】
前記1つ以上の非哺乳類特徴が、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む、請求項34に記載の方法。
【請求項38】
前記1つ以上の非哺乳類特徴が、微生物機能性遺伝子及び生化学的経路存在量を含む、請求項34に記載の方法。
【請求項39】
前記液体生検試料が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む、請求項10に記載の方法。
【請求項40】
前記疾患を決定する前記予測モデルの精度が、前記生体試料の前記1つ以上の核酸分子が濃縮されている場合、前記生体試料の1つ以上の核酸分子が濃縮されていない場合と比較して、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する、請求項1に記載の方法。
【請求項41】
前記予測モデルが、前記対象の前記疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む、請求項1に記載の方法。
【請求項42】
訓練された予測モデルの出力が、前記1つ以上の哺乳類特徴存在量と前記1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む、請求項34に記載の方法。
【請求項43】
訓練された予測モデルの入力が、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む、請求項34に記載の方法。
【請求項44】
前記予測モデルが、前記疾患の組織特異的位置で更に訓練される、請求項34に記載の方法。
【請求項45】
前記予測モデルが、前記がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される、請求項34に記載の方法。
【請求項46】
前記予測モデルが、前記対象の前記生体試料の核酸配列決定リードが提供される場合、前記がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する、請求項3に記載の方法。
【請求項47】
前記予測モデルが、前記対象のがん療法応答を出力する、請求項3に記載の方法。
【請求項48】
訓練された予測モデルが、前記対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす前記対象に対する療法を出力する、請求項34に記載の方法。
【請求項49】
訓練された予測モデルが、療法、前記対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、前記対象のがんの縦断的なモデルを出力する、請求項34に記載の方法。
【請求項50】
前記予測モデルが、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去する、請求項34に記載の方法。
【請求項51】
前記濃縮することが、前記1つ以上の核酸分子の合計を、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%減少させる、請求項1に記載の方法。
【請求項52】
予測モデルを訓練する方法であって、
(a)疾患を有する1個体以上の対象の生体試料を提供することと、
(b)前記生体試料の1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって、前記1個体以上の対象の前記生体試料を濃縮することと、
(c)濃縮された1つ以上の核酸分子を配列決定して、1つ以上の核酸分子配列決定リードを生成することと、
(d)前記予測モデルを前記1つ以上の核酸分子配列決定リードの1つ以上の特徴及び前記1個体以上の対象の前記疾患で訓練することと、を含む、方法。
【請求項53】
前記エピジェネティック特徴が、哺乳類エピジェネティック特徴又は非哺乳類エピジェネティック特徴を含む、請求項52に記載の方法。
【請求項54】
前記1つ以上の特徴が、1つ以上の疾患特徴を含む、請求項52に記載の方法。
【請求項55】
訓練された予測モデルに別の1個体以上の対象の生体試料の核酸配列決定リードが提供される場合、前記訓練された予測モデルが、前記1個体以上の対象とは異なる前記別の1個体以上の対象の疾患を決定する、請求項52に記載の方法。
【請求項56】
前記1つ以上の核酸分子が、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む、請求項52に記載の方法。
【請求項57】
前記1つ以上の核酸配列決定リードをフィルタリングして、前記1つ以上の非哺乳類配列決定リード、前記1つ以上の哺乳類配列決定リード、又はそれらの組み合わせを特定することを更に含む、請求項56に記載の方法。
【請求項58】
前記エピジェネティック特徴が、核酸エピジェネティック特徴を含む、請求項52に記載の方法。
【請求項59】
前記生体試料が、組織、液体生検試料、又はそれらの組み合わせを含む、請求項52に記載の方法。
【請求項60】
前記1個体以上の対象が、ヒト又は非ヒト哺乳類である、請求項52に記載の方法。
【請求項61】
前記1つ以上の哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、請求項56に記載の方法。
【請求項62】
前記1つ以上の非哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、請求項56に記載の方法。
【請求項63】
前記核酸エピジェネティック特徴の前記親和性標的化が、前記核酸エピジェネティック特徴を濃縮することを含む、請求項58に記載の方法。
【請求項64】
前記核酸エピジェネティック特徴が、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む、請求項58に記載の方法。
【請求項65】
前記核酸エピジェネティック特徴が、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む、請求項58に記載の方法。
【請求項66】
前記親和性標的化が、前記エピジェネティック特徴に結合するために特異的親和性試薬を利用する、請求項52に記載の方法。
【請求項67】
前記特異的親和性試薬が、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む、請求項66に記載の方法。
【請求項68】
前記組換えエピジェネティックタンパク質が、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む、請求項67に記載の方法。
【請求項69】
前記エピジェネティックリーダーが、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する前記組換えメチル結合ドメインを含む、請求項68に記載の方法。
【請求項70】
前記エピジェネティックリーダーが、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む、請求項68に記載の方法。
【請求項71】
前記エピジェネティックライター及びイレーサーが、触媒的に不活性である、請求項68に記載の方法。
【請求項72】
前記エピジェネティックリーダー、ライター、及びイレーサーが、エピトープタグを含む、請求項68に記載の方法。
【請求項73】
前記エピトープタグが、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む、請求項72に記載の方法。
【請求項74】
前記分子認識モチーフが、birA又はソルターゼモチーフを含む、請求項73に記載の方法。
【請求項75】
前記1つ以上の哺乳類核酸分子及び前記1つ以上の非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、前記固体支持体が、前記エピトープタグに対する固定化された相補的な抗体を含む、請求項56に記載の方法。
【請求項76】
前記特異的親和性試薬が、前記エピジェネティック特徴を認識し、それに結合するための領域を含む、請求項66に記載の方法。
【請求項77】
前記親和性標的化が、前記生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む、請求項52に記載の方法。
【請求項78】
前記複数の固定化された親和性剤が、前記エピジェネティック特徴に結合するであろう領域を含む、請求項77に記載の方法。
【請求項79】
前記固体支持体が、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む、請求項77に記載の方法。
【請求項80】
フィルタリングすることが、ゲノムデータベースに対して、前記1つ以上の哺乳類及び非哺乳類配列決定リードをフィルタリングすることを含む、請求項57に記載の方法。
【請求項81】
前記ゲノムデータベースが、ヒトゲノムデータベースである、請求項80に記載の方法。
【請求項82】
前記1つ以上の特徴が、1つ以上の哺乳類特徴、1つ以上の非哺乳類特徴、又はそれらの組み合わせの特徴を含む、請求項52に記載の方法。
【請求項83】
前記1つ以上の哺乳類特徴が、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む、請求項82に記載の方法。
【請求項84】
前記1つ以上の哺乳類特徴が、哺乳類機能性遺伝子及び生化学的経路存在量を含む、請求項82に記載の方法。
【請求項85】
前記1つ以上の非哺乳類特徴が、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む、請求項82に記載の方法。
【請求項86】
前記1つ以上の非哺乳類特徴が、微生物機能性遺伝子及び生化学的経路存在量を含む、請求項82に記載の方法。
【請求項87】
前記液体生検試料が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む、請求項59に記載の方法。
【請求項88】
前記疾患が、がん又は非がん性疾患を含む、請求項55に記載の方法。
【請求項89】
前記疾患を決定する前記予測モデルの精度が、前記生体試料の前記1つ以上の核酸分子が濃縮されている場合、前記生体試料の1つ以上の核酸分子が濃縮されていない場合と比較して、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する、請求項55に記載の方法。
【請求項90】
前記予測モデルが、前記別の1個体以上の対象の前記疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む、請求項52に記載の方法。
【請求項91】
前記非哺乳類核酸エピジェネティック特徴が、ホスホロチオエート結合ヌクレオチドを含む、請求項53に記載の方法。
【請求項92】
前記エピジェネティックリーダーが、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する前記組換えメチル結合ドメインを含む、請求項68に記載の方法。
【請求項93】
訓練された予測モデルの出力が、前記1つ以上の哺乳類特徴存在量と前記1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む、請求項82に記載の方法。
【請求項94】
訓練された予測モデルの入力が、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む、請求項52に記載の方法。
【請求項95】
前記予測モデルが、前記疾患の組織特異的位置で更に訓練される、請求項88に記載の方法。
【請求項96】
前記予測モデルが、前記がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される、請求項88に記載の方法。
【請求項97】
前記予測モデルが、前記別の1個体以上の対象の前記生体試料の核酸配列決定リードが提供される場合、前記がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する、請求項88に記載の方法。
【請求項98】
前記訓練された予測モデルが、前記別の1個体以上の対象のがん療法応答を出力する、請求項55に記載の方法。
【請求項99】
前記訓練された予測モデルが、前記別の1個体以上の対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす、前記別の1個体以上の対象に対する療法を出力する、請求項55に記載の方法。
【請求項100】
前記訓練された予測モデルが、療法、前記別の1個体以上の対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、前記別の1個体以上の対象のがんの縦断的なモデルを出力する、請求項55に記載の方法。
【請求項101】
前記がんが、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む、請求項88に記載の方法。
【請求項102】
前記予測モデルが、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去するように構成される、請求項52に記載の方法。
【請求項103】
前記非がん性疾患が、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む、請求項88に記載の方法。
【請求項104】
前記濃縮することが、前記1つ以上の核酸分子の合計を、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%減少させる、請求項52に記載の方法。
【請求項105】
対象の疾患を決定するコンピュータシステムであって、
(a)1つ以上のプロセッサと、
(b)ソフトウェアを含む非一時的コンピュータ可読記憶媒体であって、前記ソフトウェアが、実行の結果として、前記コンピュータシステムの前記1つ以上のプロセッサに、
(i)対象の生体試料の1つ以上の核酸分子の1つ以上の核酸分子配列決定リードを受信することであって、前記1つ以上の核酸分子が、前記1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって濃縮される、受信することと、
(ii)予測モデルに前記1つ以上の核酸分子配列決定が提供される場合、前記予測モデルの出力として前記対象の疾患を決定することと、を行わせる実行可能命令を含む、非一時的コンピュータ可読記憶媒体と、を備える、コンピュータシステム。
【請求項106】
前記1つ以上の核酸分子が、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む、請求項105に記載の方法。
【請求項107】
前記疾患が、がん又は非がん性疾患を含む、請求項105に記載の方法。
【請求項108】
前記がんが、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む、請求項107に記載の方法。
【請求項109】
前記非がん性疾患が、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む、請求項107に記載の方法。
【請求項110】
前記実行可能命令が、前記1つ以上の核酸分子配列決定リードをフィルタリングして、1つ以上の非哺乳類配列決定リード及び1つ以上の哺乳類配列決定リードを特定することを更に含む、請求項105に記載の方法。
【請求項111】
前記エピジェネティック特徴が、核酸エピジェネティック特徴を含む、請求項105に記載の方法。
【請求項112】
前記エピジェネティック特徴が、哺乳類核酸エピジェネティック特徴又は非哺乳類核酸エピジェネティック特徴を含む、請求項105に記載の方法。
【請求項113】
前記非哺乳類核酸エピジェネティック特徴が、ホスホロチオエート結合ヌクレオチドを含む、請求項112に記載の方法。
【請求項114】
前記生体試料が、組織、液体生検試料、又はそれらの組み合わせを含む、請求項105に記載の方法。
【請求項115】
前記対象が、ヒト又は非ヒト哺乳類である、請求項105に記載の方法。
【請求項116】
前記1つ以上の哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、請求項106に記載の方法。
【請求項117】
前記1つ以上の非哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、請求項106に記載の方法。
【請求項118】
前記核酸エピジェネティック特徴の前記親和性標的化が、前記核酸エピジェネティック特徴を濃縮することを含む、請求項111に記載の方法。
【請求項119】
前記核酸エピジェネティック特徴が、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む、請求項111に記載の方法。
【請求項120】
前記核酸エピジェネティック特徴が、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む、請求項111に記載の方法。
【請求項121】
前記親和性標的化が、前記エピジェネティック特徴に結合するために特異的親和性試薬を利用する、請求項105に記載の方法。
【請求項122】
前記特異的親和性試薬が、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む、請求項121に記載の方法。
【請求項123】
前記組換えエピジェネティックタンパク質が、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む、請求項122に記載の方法。
【請求項124】
前記エピジェネティックリーダーが、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む、請求項123に記載の方法。
【請求項125】
前記エピジェネティックリーダーが、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む、請求項123に記載の方法。
【請求項126】
前記エピジェネティックリーダーが、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む、請求項123に記載の方法。
【請求項127】
前記エピジェネティックライター及びイレーサーが、触媒的に不活性である、請求項123に記載の方法。
【請求項128】
前記エピジェネティックリーダー、ライター、及びイレーサーが、エピトープタグを含む、請求項123に記載の方法。
【請求項129】
前記エピトープタグが、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む、請求項128に記載の方法。
【請求項130】
前記分子認識モチーフが、birA又はソルターゼモチーフを含む、請求項129に記載の方法。
【請求項131】
前記1つ以上の哺乳類及び非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、前記固体支持体が、前記エピトープタグに対する固定化された相補的な抗体を含む、請求項106に記載の方法。
【請求項132】
前記特異的親和性試薬が、前記エピジェネティック特徴を認識し、それに結合するための領域を含む、請求項121に記載の方法。
【請求項133】
前記親和性標的化が、前記生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む、請求項105に記載の方法。
【請求項134】
前記複数の固定化された親和性剤が、前記エピジェネティック特徴に結合するであろう領域を含む、請求項133に記載の方法。
【請求項135】
前記固体支持体が、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む、請求項133に記載の方法。
【請求項136】
フィルタリングすることが、ゲノムデータベースに対して前記1つ以上の哺乳類配列決定リード及び前記1つ以上の非哺乳類配列決定リードをフィルタリングすることを含む、請求項110に記載の方法。
【請求項137】
前記ゲノムデータベースが、ヒトゲノムデータベースである、請求項136に記載の方法。
【請求項138】
前記予測モデルが、1個体以上の対象の生体試料の1つ以上の核酸分子及び前記1個体以上の対象の対応する疾患から決定された1つ以上の哺乳類、1つ以上の非哺乳類、又はそれらの組み合わせの特徴で訓練される、請求項107に記載の方法。
【請求項139】
前記1つ以上の哺乳類特徴が、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む、請求項138に記載の方法。
【請求項140】
前記1つ以上の哺乳類特徴が、哺乳類機能性遺伝子及び生化学的経路存在量を含む、請求項138に記載の方法。
【請求項141】
前記1つ以上の非哺乳類特徴が、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む、請求項138に記載の方法。
【請求項142】
前記1つ以上の非哺乳類特徴が、微生物機能性遺伝子及び生化学的経路存在量を含む、請求項138に記載の方法。
【請求項143】
前記液体生検試料が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む、請求項114に記載の方法。
【請求項144】
前記疾患を決定する前記予測モデルの精度が、前記生体試料の前記1つ以上の核酸分子が濃縮されている場合、前記生体試料の前記1つ以上の核酸分子が濃縮されていない場合と比較して、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する、請求項105に記載の方法。
【請求項145】
前記予測モデルが、前記対象の前記疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む、請求項105に記載の方法。
【請求項146】
訓練された予測モデルの出力が、前記1つ以上の哺乳類特徴存在量と前記1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む、請求項138に記載の方法。
【請求項147】
訓練された予測モデルの入力が、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む、請求項105に記載の方法。
【請求項148】
前記予測モデルが、前記疾患の組織特異的位置で更に訓練される、請求項138に記載の方法。
【請求項149】
前記予測モデルが、前記がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される、請求項138に記載の方法。
【請求項150】
前記予測モデルが、前記対象の前記生体試料の核酸配列決定リードが提供される場合、前記がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する、請求項107に記載の方法。
【請求項151】
前記予測モデルが、前記対象のがん療法応答を出力する、請求項107に記載の方法。
【請求項152】
前記訓練された予測モデルが、前記対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす前記対象に対する療法を出力する、請求項107に記載の方法。
【請求項153】
前記訓練された予測モデルが、療法、前記対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、前記対象のがんの縦断的なモデルを出力する、請求項107に記載の方法。
【請求項154】
前記予測モデルが、他の非夾雑非哺乳類特徴を選択的に保持しながら、前記1つ以上の配列決定リードから夾雑非哺乳類特徴を除去する、請求項105に記載の方法。
【請求項155】
濃縮された核酸が、濃縮前の前記1つ以上の核酸分子の少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の減少を含む、請求項105に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、2021年10月8日に出願された米国仮出願第63/253,655号の利益を主張し、この出願は参照により本明細書に組み込まれる。
【発明の概要】
【0002】
本発明の開示は、疾患関連メタエピゲノムバイオマーカーを特定する方法、及びこれらのバイオマーカーを用いて組織又は液体生検試料から特定の疾患を正確に診断する方法を提供する。具体的には、本発明は、組織又は液体生検試料からの哺乳類、細菌、真菌、古細菌、及びウイルス界に由来する生物界間エピジェネティックデータを富化及び統合するための方法、並びにこの組み合わされたデータセットを使用して哺乳類対象の疾患を診断及び分類するための方法を提供する。
【0003】
本明細書に開示される本発明の方法は、生物界間核酸分析から疾患診断バイオマーカーを発見する手段を提供し、バイオマーカーが、核酸の混合(すなわち、多生物界)集団内に含有されるエピジェネティック特徴に特異的に由来する。これらのエピジェネティック特徴は、例えば、2つ以上の分類学的生物界によって共有される共通の特徴であり得るか、又は独立して分析され、その後に組み合わされて生物界間診断シグネチャを提供する、分類学的に異なる重複しないエピジェネティック特徴であり得る。
【0004】
ヒトDNAメチル化ベースのバイオマーカーは、長い間、学術研究及び臨床研究の対象となってきており(例えば、DNA Methylation and Complex Human Disease,Michael Neidhart,2016,ISBN:978-0-12-420194-1を参照)、5-メチルシトシン(5mC)修飾DNAの疾患特性の存在又は不在を利用するいくつかの市販の診断アッセイに組み込まれてきた。例えば、がん診断に対するFDAの承認を得た唯一の血液ベースの液体生検アッセイは、エピゲノミクスのEpi proColon大腸がんスクリーニングアッセイである。これは、3.5mlの患者血漿から単離されたメチル化Septin9 ctDNAの定性的検出のためのPCRアッセイである(SEPT9_v2転写産物のプロモーター領域における特定のCpGモチーフのメチル化は、大腸がんに関連しているが、健康組織には関連していない)。具体的には、エピゲノミクスアッセイは、単離されたcfDNA及びメチル化特異的プライマーのバイサルファイト処理を利用して、メチル化Septin9の存在を検出する。より最近では、Grail Inc.は、ゲノムCpG部位の差次的DNAメチル化を使用して、異なるがんの間で、かつがん試料と非がん試料とを区別した。GRAILは、無細胞循環腫瘍DNA(ctDNA)のメチル化パターンの標的化バイサルファイト配列決定を通して、単一の試料から50を超える固有のがんタイプを正確にスクリーニングするという野心的な目標を設定した。DNAメチル化ベースのバイオマーカーは、多くの疾患分野において研究されてきたが、どのctDNA断片が真に腫瘍由来であるかを決定する手段として、液体生検ベースのがん診断法において特に有用であることが証明され得る。がん遺伝子(例えば、TP53、KRAS)におけるほとんどのドライバ変異は、それらの起源の組織に関係なく、がんの間で一般的であるが、CpGメチル化プロファイルは、それらに由来する組織及び腫瘍に非常に特異的であり、潜在的に、がんのより正確な診断を可能にする。加えて、ヒトゲノム全体で2800万のCpG部位があり、そのメチル化状態(メチル化対非メチル化)には、がん特異的シグネチャが含まれている可能性があるが、カノニカルctDNA変異は、コピー数/ゲノムに制限され、したがって、検出の感度に制限が課される。哺乳類のDNA修飾を利用するこれら及び他の分析では、これらのエピジェネティック分析が、非哺乳類源からの核酸データを意図的に除外して行われることを強調することが重要であり、疾患特異的な存在又は存在量において同時に明らかになる可能性がある。
【0005】
同様に、微生物ゲノムは、ゲノムの基礎となるポリヌクレオチド配列の遺伝性であるが酵素的に可逆的な化学修飾の形態でエピジェネティック情報を有することが理解されるが、哺乳類DNAメチル化と微生物DNAメチル化との間の相違は、これまで、選択された原核生物標的に焦点を当てたアッセイの診断感度を改善するために、哺乳類DNAから原核生物DNAを分離する手段として使用されてきた。例えば、Schmidt et al.(US8288115 B2)は、特定のタンパク質(Toll様受容体9(TLR9)及びCpG結合タンパク質(CGBP))を使用して、哺乳類DNA及び非哺乳類DNAの両方を含有する試料から非メチル化原核生物DNAを濃縮することを教示している。非メチル化CpG部位は、哺乳類DNAよりも原核生物DNAで20倍豊富であるため、非メチル化CpG含有DNAの物理的濃縮は、下流分子のアッセイ、具体的には、Schmidt et al.のPCRベースの分析によるアッセイにおいて存在する哺乳類DNAの量を制限するのに役立つ。
【0006】
同様に、Forsyth(US8927218 B2)は、核酸の複雑な混合物からの原核配列を濃縮するために、特異的な微生物DNAのメチル化モチーフ、及びメチル化特異的抗体に結合することができるが、加水分解することができない触媒的に不活性な制限酵素の使用を教示している。ここでも、その意図は、原核生物配列を非原核生物配列から物理的に分離することで、選択された原核生物の検出に焦点を当てた下流の分析で検出限界を改善することである。
【0007】
Zhou et al.(WO2020/198664;PCT US2020/025425)は、「マイクロバイオームのゲノム及びエピゲノムプロファイリング」を容易にするために、無細胞DNAから配列決定ライブラリを調製する方法を教示しているが、ここでも、その目的は、ほとんどの下流配列決定リードが微生物起源であるように、哺乳類核酸分子を非哺乳類核酸分子から分離することである。更に、Zhou et al.の方法は、微生物エピゲノム分析に適し得る配列決定ライブラリを調製する手段を提供するが、エピゲノム分析の様式又は分析されるエピジェネティック特徴は教示されない。
【0008】
前述の技術分野とは対照的に、排他的に哺乳類起源又は非哺乳類起源(しかし両方ではない)のエピジェネティック特徴は、分析の対象であるが、本発明の方法は、核酸試料内に現れる分類学的に多様な生命形態に由来するエピジェネティックデータを利用し、組み合わせる。微生物は、哺乳類の疾患プロセスにますます関与しており、疾患特異的な哺乳類エピジェネティック特徴は、診断バイオマーカーの堅牢な供給源であることが証明されているため、核酸試料内の哺乳類及び微生物の分類学的供給源の両方からのエピジェネティックな内容を組み合わせることで、高感度かつ特異的な「メタエピゲノム」診断シグネチャの作成が可能になるであろうと考えた。このようにして、本発明者らは、全ての既存の技術から大きく乖離し、疾患診断バイオマーカーを特定する新しい方法を生み出す。
【0009】
本明細書に開示される態様は、核酸試料に含まれる哺乳類及び非哺乳類のエピジェネティック情報の組み合わせに基づいて、対象における疾患を診断するための診断モデルを作成する方法を提供し、本方法は、(a)1つ以上の哺乳類及び非哺乳類核酸分子の両方によって共有されるエピジェネティック特徴の親和性標的化によって、1つ以上の哺乳類及び非哺乳類核酸分子を濃縮することと、(b)濃縮された核酸組成物を配列決定して、配列決定リードを生成することと、(c)配列決定リードをゲノムデータベースの構築物(build)でフィルタリングして、非哺乳類配列決定リードを単離し、哺乳類アラインメントファイルを生成することと、(d)哺乳類アラインメントファイルを分析して、哺乳類特徴存在量表(abundance table)を生成することと、(e)非哺乳類配列決定リードを分析して、非哺乳類特徴存在量表を生成することと、(f)哺乳類及び非哺乳類特徴存在量表を組み合わせて、組み合わされたメタエピゲノム機械学習特徴セットを生成することと、(g)メタエピゲノム特徴セットに関する予測モデルを訓練及び試験して、訓練された予測モデルを生成することと、(h)訓練された予測モデルの出力を使用して、対象における疾患の有無の診断を提供することと、を含む。いくつかの実施形態では、核酸試料は、組織、液体生検試料、又はそれらの任意の組み合わせに由来し得る。いくつかの実施形態では、対象は、ヒト又は非ヒト哺乳類を含み得る。いくつかの実施形態では、核酸は、DNA、RNA、無細胞DNA、無細胞RNA、エソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせの総集団を含み得る。
【0010】
いくつかの実施形態では、親和性標的化は、共有された核酸のエピジェネティック特徴を濃縮することを含み得る。いくつかの実施形態では、共有された核酸のエピジェネティック特徴は、メチル化CpGジヌクレオチド対を含み得る。いくつかの実施形態では、共有された核酸のエピジェネティック特徴は、非メチル化CpGジヌクレオチド対を含み得る。いくつかの実施形態では、共有された核酸のエピジェネティック特徴は、修飾された核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、及びN6-メチルアデニンを含み得る。
【0011】
いくつかの実施形態では、親和性標的化は、特異的親和性試薬を含み得る。いくつかの実施形態では、特異的親和性試薬は、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、又は組換えエピジェネティックタンパク質を含み得る。いくつかの実施形態では、組換えエピジェネティックタンパク質は、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含み得る。いくつかの実施形態では、エピジェネティックリーダーは、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含み得る。いくつかの実施形態では、エピジェネティックリーダーは、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む。いくつかの実施形態では、エピジェネティックライター及びイレーサーは、触媒的に不活性であり得る。いくつかの実施形態では、エピジェネティックリーダー、ライター、及びイレーサーは、エピトープタグを含み得る。いくつかの実施形態では、エピトープタグは、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含み得る。いくつかの実施形態では、分子認識モチーフは、birA又はソルターゼモチーフ(sortase motif)を含み得る。いくつかの実施形態では、核酸組成物は、固体支持体によって濃縮されてもよく、固体支持体は、エピトープタグに共有結合された相補的な抗体を含み得る。いくつかの実施形態では、特異的親和性試薬は、エピジェネティック特徴を認識し、それに結合するための領域を含み得る。いくつかの実施形態では、親和性標的化は、核酸試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含み得る。いくつかの実施形態では、複数の固定化された親和性剤は、エピジェネティック特徴に結合するであろう領域を含み得る。いくつかの実施形態では、固体支持体は、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含み得る。いくつかの実施形態では、ゲノムデータベースは、ヒトゲノムデータベースであり得る。
【0012】
いくつかの実施形態では、哺乳類特徴存在量表は、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含み得る。いくつかの実施形態では、哺乳類特徴存在量表は、哺乳類機能性遺伝子及び生化学的経路存在量表を含み得る。いくつかの実施形態では、非哺乳類特徴存在量表は、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含み得る。いくつかの実施形態では、非哺乳類特徴存在量表は、非哺乳類機能性遺伝子及び生化学的経路存在量表を含み得る。いくつかの実施形態では、訓練された予測モデルの出力は、哺乳類特徴セットと非哺乳類特徴セットとの組み合わせの分析を含み得る。いくつかの実施形態では、訓練された予測モデルは、目的の疾患に特徴存在量が存在するか又は存在しないことが知られている哺乳類及び非哺乳類のエピゲノム存在量のセットで訓練され得る。いくつかの実施形態では、診断モデルは、以下の生命の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を利用することができる。いくつかの実施形態では、診断モデルは、疾患のカテゴリ又は組織特異的位置を診断することができる。いくつかの実施形態では、診断モデルは、対象における1つ以上のタイプのがんを診断するために使用することができる。いくつかの実施形態では、診断モデルは、対象におけるがんの1つ以上のサブタイプを診断するために使用することができる。いくつかの実施形態では、診断モデルは、対象におけるがんの病期を予測するために、及び/又は対象におけるがんの予後を予測するために使用することができる。いくつかの実施形態では、診断モデルは、対象のがん療法応答を予測するために使用することができる。いくつかの実施形態では、診断モデルは、特定の対象に対する最適な療法を選択するために利用することができる。いくつかの実施形態では、診断モデルは、療法に対する1つ以上のがんの応答の経過を縦断的にモデル化し、次いで、治療レジメンを調整するために利用することができる。
【0013】
いくつかの実施形態では、診断モデルは、以下:急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、又はブドウ膜黒色腫のうちの1つ以上を診断することができる。いくつかの実施形態では、診断モデルは、シグナルと呼ばれる他の非ヒト特徴を選択的に保持しながら、ノイズと呼ばれる夾雑物としての特定の非ヒト特徴を特定及び除去することができる。いくつかの実施形態では、診断モデルは、全身性エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、又はサルコイドーシスを診断するために使用することができる。いくつかの実施形態では、液体生検試料は、以下:血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、又は呼気凝縮液のうちの1つ以上を含み得るが、これらに限定されない。
【0014】
本明細書に開示される態様は、核酸試料に含有される哺乳類及び非哺乳類エピジェネティック情報の組み合わせに基づいて、対象における疾患を診断するための診断モデルを作成する方法を提供し、本方法は、(a)1つ以上の哺乳類核酸分子に存在するエピジェネティック特徴の親和性標的化によって1つ以上の哺乳類核酸分子を濃縮することと、(b)1つ以上の非哺乳類核酸分子に存在するエピジェネティック特徴の親和性標的化によって1つ以上の非哺乳類核酸分子を濃縮することと、(c)濃縮された哺乳類核酸組成物を配列決定して、配列決定リードを生成することと、(d)濃縮された非哺乳類核酸組成物を配列決定して、配列決定リードを生成することと、(e)哺乳類配列決定リードをゲノムデータベースの構築物にアラインメントして、哺乳類アラインメントファイルを生成することと、(f)非哺乳類配列決定リードをゲノムデータベースの構築物でフィルタリングして、非哺乳類配列決定リードを単離することと、(g)哺乳類アラインメントファイルを分析して、哺乳類特徴存在量表を生成することと、(h)非哺乳類配列決定リードを分析して、非哺乳類特徴存在量表を生成することと、(i)哺乳類及び非哺乳類特徴存在量表を組み合わせて、組み合わされたメタエピゲノム機械学習特徴セットを生成することと、(j)メタエピゲノム特徴セットに関する予測モデルを訓練及び試験して、訓練された予測モデルを生成することと、(k)訓練された予測モデルの出力を使用して、対象における疾患の有無の診断を提供することと、を含む。いくつかの実施形態では、核酸試料は、組織、液体生検試料、又はそれらの任意の組み合わせに由来し得る。いくつかの実施形態では、対象は、ヒト又は非ヒト哺乳類を含み得る。いくつかの実施形態では、核酸は、DNA、RNA、無細胞DNA、無細胞RNA、エソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせの総集団を含み得る。
【0015】
いくつかの実施形態では、親和性標的化は、哺乳類及び非哺乳類核酸エピジェネティック特徴を濃縮することを含み得る。いくつかの実施形態では、哺乳類核酸エピジェネティック特徴は、修飾された核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、5-ホルミルシトシン、5-カルボキシシトシン、N4-アセチルシトシン、及びN6-メチルアデニンを含み得る。いくつかの実施形態では、非哺乳類核酸エピジェネティック特徴は、修飾された核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、4-メチルシトシン、N4-アセチルシトシン、N6-メチルアデニンを含み得る。いくつかの実施形態では、非哺乳類核酸エピジェネティック特徴は、ホスホロチオエート結合ヌクレオチドを含み得る。
【0016】
いくつかの実施形態では、親和性標的化は、特異的親和性試薬を含み得る。いくつかの実施形態では、特異的親和性試薬は、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、又は組換えエピジェネティックタンパク質を含み得る。いくつかの実施形態では、組換えエピジェネティックタンパク質は、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含み得る。いくつかの実施形態では、エピジェネティックリーダーは、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、DnaA、SeqA、MutHLS、Lrp、OxyR、Fur、HdfR、又はそれらに由来する組換えメチル結合ドメインを含み得る。いくつかの実施形態では、エピジェネティックリーダーは、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含み得る。いくつかの実施形態では、エピジェネティックリーダーは、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含み得る。いくつかの実施形態では、エピジェネティックライター及びイレーサーは、触媒的に不活性であり得る。いくつかの実施形態では、エピジェネティックリーダー、ライター、及びイレーサーは、エピトープタグを含み得る。いくつかの実施形態では、エピトープタグは、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含み得る。いくつかの実施形態では、分子認識モチーフは、birA又はソルターゼモチーフを含み得る。いくつかの実施形態では、核酸組成物は、固体支持体によって濃縮されてもよく、固体支持体は、エピトープタグに共有結合された相補的な抗体を含み得る。いくつかの実施形態では、特異的親和性試薬は、エピジェネティック特徴を認識し、それに結合するための領域を含み得る。いくつかの実施形態では、親和性標的化は、核酸試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含み得る。いくつかの実施形態では、複数の固定化された親和性剤は、エピジェネティック特徴に結合し得る領域を含み得る。いくつかの実施形態では、固体支持体は、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含み得る。いくつかの実施形態では、ゲノムデータベースは、ヒトゲノムデータベースであり得る。
【0017】
いくつかの実施形態では、哺乳類特徴存在量表は、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含み得る。いくつかの実施形態では、哺乳類特徴存在量表は、哺乳類機能性遺伝子及び生化学的経路存在量表を含み得る。いくつかの実施形態では、非哺乳類特徴存在量表は、非哺乳類分類学的割り当て及びそれに関連付けられたいくつかの配列決定リードを含み得る。いくつかの実施形態では、非哺乳類特徴存在量表は、非哺乳類機能性遺伝子及び生化学的経路存在量表を含み得る。いくつかの実施形態では、訓練された予測モデルの出力は、組み合わされた哺乳類及び非哺乳類特徴セットの分析を含み得る。いくつかの実施形態では、訓練された予測モデルは、目的の疾患に特徴存在量が存在するか又は存在しないことが知られている哺乳類及び非哺乳類のエピゲノム存在量のセットで訓練され得る。いくつかの実施形態では、診断モデルは、以下の生命の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を利用することができる。いくつかの実施形態では、診断モデルは、疾患のカテゴリ又は組織特異的位置を診断することができる。いくつかの実施形態では、診断モデルは、対象における1つ以上のタイプのがんを診断するために使用することができる。いくつかの実施形態では、診断モデルは、対象におけるがんの1つ以上のサブタイプを診断するために使用することができる。いくつかの実施形態では、診断モデルは、対象におけるがんの病期を予測するために、及び/又は対象におけるがんの予後を予測するために使用することができる。いくつかの実施形態では、診断モデルは、対象のがん療法応答を予測するために使用することができる。いくつかの実施形態では、診断モデルは、特定の対象に対する最適な療法を選択するために利用することができる。いくつかの実施形態では、診断モデルは、療法に対する1つ以上のがんの応答の経過を縦断的にモデル化し、次いで、治療レジメンを調整するために利用することができる。
【0018】
いくつかの実施形態では、診断モデルは、以下:急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、又はブドウ膜黒色腫のうちの1つ以上を診断することができる。いくつかの実施形態では、診断モデルは、シグナルと呼ばれる他の非ヒト特徴を選択的に保持しながら、ノイズと呼ばれる夾雑物としての特定の非ヒト特徴を特定及び除去することができる。いくつかの実施形態では、診断モデルは、全身性エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、又はサルコイドーシスを診断するために使用することができる。いくつかの実施形態では、液体生検試料は、以下:血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、又は呼気凝縮液のうちの1つ以上を含み得るが、これらに限定されない。
【0019】
本明細書に提供される本開示の態様は、1個体以上の対象の疾患のための特徴セットを作成する方法を含み、本方法は、(a)疾患を有する1個体以上の対象の生体試料の1つ以上の哺乳類及び非哺乳類核酸分子を提供することと、(b)1つ以上の哺乳類及び非哺乳類核酸分子に共通するエピジェネティック特徴の親和性標的化によって、1個体以上の対象の生体試料の1つ以上の哺乳類及び非哺乳類核酸分子を濃縮することと、(c)濃縮された1つ以上の哺乳類及び非哺乳類核酸分子を配列決定して、1つ以上の哺乳類及び非哺乳類の配列決定リードを生成することと、(d)哺乳類及び非哺乳類の配列決定リードをフィルタリングして、非哺乳類の配列決定リードを単離し、それによって哺乳類特徴存在量を生成することと、(e)非哺乳類の配列決定リードを分析して、非哺乳類特徴存在量を生成することと、(f)哺乳類及び非哺乳類特徴存在量と1個体以上の対象の疾患とを組み合わせることによって特徴セットを作成することと、を含む、方法。いくつかの実施形態では、エピジェネティック特徴は、核酸エピジェネティック特徴を含む。いくつかの実施形態では、生体試料は、組織、液体生検試料、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、1個体以上の対象は、ヒト又は非ヒト哺乳類である。いくつかの実施形態では、哺乳類及び非哺乳類核酸分子は、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、核酸エピジェネティック特徴の親和性標的化は、核酸エピジェネティック特徴を濃縮することを含む。いくつかの実施形態では、共有された核酸のエピジェネティック特徴は、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、核酸エピジェネティック特徴は、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む。
【0020】
いくつかの実施形態では、親和性標的化は、エピジェネティック特徴に結合するために特異的親和性試薬を利用する。いくつかの実施形態では、特異的親和性試薬は、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、組換えエピジェネティックタンパク質は、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む。いくつかの実施形態では、エピジェネティックライター及びイレーサーは、触媒的に不活性である。いくつかの実施形態では、エピジェネティックリーダー、ライター、及びイレーサーは、エピトープタグを含む。いくつかの実施形態では、エピトープタグは、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、分子認識モチーフは、birA又はソルターゼモチーフを含む。いくつかの実施形態では、本方法は、哺乳類及び非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、固体支持体が、エピトープタグに対する固定化された相補的な抗体を含む。いくつかの実施形態では、固定化された相補的な抗体は、受動的、静電的、共有結合的、又はそれらの任意の組み合わせの力によって固体支持体に固定化される。いくつかの実施形態では、特異的親和性試薬は、エピジェネティック特徴を認識し、それに結合するための領域を含む。いくつかの実施形態では、親和性標的化は、哺乳類及び非哺乳類核酸分子を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む。いくつかの実施形態では、複数の固定化された親和性剤は、受動的、静電的、共有結合的、又はそれらの任意の組み合わせの力によって固体支持体に固定化される。
【0021】
いくつかの実施形態では、複数の固定化された親和性剤は、エピジェネティック特徴に結合するであろう領域を含む。いくつかの実施形態では、固体支持体は、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む。
【0022】
いくつかの実施形態では、フィルタリングすることは、ゲノムデータベースに対して哺乳類及び非哺乳類の配列決定リードをフィルタリングすることを含む。いくつかの実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。
【0023】
いくつかの実施形態では、哺乳類特徴存在量は、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、哺乳類特徴存在量は、哺乳類機能性遺伝子及び生化学的経路存在量表を含む。いくつかの実施形態では、非哺乳類特徴存在量は、非哺乳類分類学的割り当て及びそれに関連付けられたいくつかの配列決定リードを含む。いくつかの実施形態では、非哺乳類特徴存在量は、非哺乳類機能性遺伝子及び生化学的経路存在量表を含む。いくつかの実施形態では、液体生検試料は、以下:血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、又は呼気凝縮液のうちの1つ以上を含むが、これらに限定されない。
【0024】
本明細書に提供される本開示の態様は、いくつかの実施形態では、対象の疾患を判定するための予測モデルの出力を使用する方法を含み、本方法は、(a)第1の疾患を有する第1のセットの対象及び第2の疾患を有する第2のセットの対象の生体試料の1つ以上の哺乳類及び非哺乳類核酸分子を、第1及び第2のセットの対象の1つ以上の哺乳類及び非哺乳類核酸分子に共通するエピジェネティック特徴の親和性標的化によって濃縮することと、(b)第1及び第2の対象の濃縮された1つ以上の哺乳類及び非哺乳類核酸分子を配列決定して、1つ以上の哺乳類及び非哺乳類配列決定リードを生成することと、(c)第1及び第2のセットの哺乳類及び非哺乳類配列決定リードをフィルタリングして、非哺乳類の配列決定リードを単離し、それによって、第1及び第2のセットの哺乳類特徴存在量を生成することと、(d)第1及び第2のセットの非哺乳類配列決定リードを分析して、第1及び第2のセットの非哺乳類特徴存在量を生成することと、(e)第1のセットの哺乳類及び非哺乳類特徴存在量、並びに第1のセットの対象の第1の疾患で予測モデルを訓練し、それによって、訓練された予測モデルを生成することと、(f)第2のセットの哺乳類及び非哺乳類特徴存在量を訓練された予測モデルへの入力として使用して、第2のセットの対象の第2の疾患の出力を受信することと、を含む。いくつかの実施形態では、第1又は第2のセットの対象は、1個体以上の対象を含む。いくつかの実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。いくつかの実施形態では、非哺乳類核酸分子は、非哺乳類核酸分子を含む。いくつかの実施形態では、生体試料は、組織、液体生検試料、又はそれらの任意の組み合わせに由来する。いくつかの実施形態では、第1又は第2のセットの対象は、ヒト又は非ヒト哺乳類である。いくつかの実施形態では、第1又は第2のセットの哺乳類及び非哺乳類核酸分子は、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせの総集団を含む。いくつかの実施形態では、親和性標的化は、第1及び第2のセットの哺乳類及び非哺乳類核酸エピジェネティック特徴を濃縮することを含む。
【0025】
いくつかの実施形態では、第1及び第2のセットの哺乳類及び非哺乳類核酸エピジェネティック特徴は、修飾された核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、5-ホルミルシトシン、5-カルボキシシトシン、N4-アセチルシトシン、及びN6-メチルアデニンを含む。いくつかの実施形態では、第1及び第2のセットの哺乳類及び非哺乳類核酸エピジェネティック特徴は、修飾された核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、4-メチルシトシン、N4-アセチルシトシン、N6-メチルアデニンを含む。いくつかの実施形態では、第1及び第2のセットの哺乳類及び非哺乳類核酸エピジェネティック特徴は、ホスホロチオエート結合ヌクレオチドを含む。いくつかの実施形態では、親和性標的化は、特異的親和性試薬を含む。いくつかの実施形態では、特異的親和性試薬は、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、又は組換えエピジェネティックタンパク質を含む。
【0026】
いくつかの実施形態では、組換えエピジェネティックタンパク質は、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、DnaA、SeqA、MutHLS、Lrp、OxyR、Fur、HdfR、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む。いくつかの実施形態では、エピジェネティックリーダーは、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、エピジェネティックライター及びイレーサーは、触媒的に不活性である。いくつかの実施形態では、エピジェネティックリーダー、ライター、及びイレーサーは、エピトープタグを含む。いくつかの実施形態では、エピトープタグは、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、分子認識モチーフは、birA又はソルターゼモチーフを含む。
【0027】
いくつかの実施形態では、本方法は、第1又は第2の哺乳類又は非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、固体支持体が、エピトープタグに対する固定化された相補的な抗体を含む。いくつかの実施形態では、相補的な抗体は、受動的、静電的、共有結合的、又はそれらの任意の組み合わせの力によって固体支持体に固定化される。いくつかの実施形態では、特異的親和性試薬は、第1又は第2の哺乳類又は非哺乳類エピジェネティック特徴を認識し、それに結合するための領域を含む。いくつかの実施形態では、親和性標的化は、第1又は第2のセットの哺乳類又は非哺乳類核酸分子を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む。いくつかの実施形態では、親和性剤は、静電的、受動的、共有結合的、又はそれらの任意の組み合わせの力によって固定化される。いくつかの実施形態では、複数の固定化された親和性剤は、第1又は第2のセットの哺乳類又は非哺乳類エピジェネティック特徴に結合する領域を含む。いくつかの実施形態では、固体支持体は、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む。
【0028】
いくつかの実施形態では、第1又は第2のセットの哺乳類特徴存在量は、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、第1又は第2の哺乳類特徴存在量は、哺乳類機能性遺伝子及び生化学的経路存在量表を含む。いくつかの実施形態では、第1又は第2のセットの非哺乳類特徴存在量は、非哺乳類分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、非哺乳類特徴存在量は、非哺乳類機能性遺伝子及び生化学的経路存在量表を含む。いくつかの実施形態では、訓練された予測モデルの出力は、組み合わされた第1及び第2のセットの哺乳類及び非哺乳類特徴存在量の分析を含む。いくつかの実施形態では、訓練された予測モデルの入力は、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む。いくつかの実施形態では、第1又は第2の疾患は、疾患のカテゴリ又は組織特異的位置を含む。いくつかの実施形態では、第1又は第2の疾患は、1つ以上のタイプのがん、1つ以上のサブタイプのがん、がんの病期、がんの予後、又はそれらの任意の組み合わせを更に含む。
【0029】
いくつかの実施形態では、訓練された予測モデルは、第2のセットの対象のがん療法応答を予測するために使用される。いくつかの実施形態では、訓練された予測モデルは、第2のセットの対象に対する最適な療法を選択するために利用される。いくつかの実施形態では、訓練された予測モデルは、療法に対する第2のセットの対象の1つ以上のがんの応答の経過を縦断的にモデル化し、次いで、治療レジメンを調整するために利用される。
【0030】
いくつかの実施形態では、第1又は第2の疾患は、以下:急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、又はブドウ膜黒色腫のうちの1つ以上を更に含む。
【0031】
いくつかの実施形態では、予測モデルは、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去するように構成される。いくつかの実施形態では、第1又は第2の疾患は、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせを更に含む。いくつかの実施形態では、液体生検試料は、以下:血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、又は呼気凝縮液のうちの1つ以上を含む。
【0032】
本明細書に提供される開示の態様は、いくつかの実施形態では、対象の疾患を決定する方法を含み、本方法は、対象の生体試料を提供することと、1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって、生体試料の1つ以上の核酸分子を濃縮することと、濃縮された1つ以上の核酸分子を配列決定して、1つ以上の核酸分子配列決定リードを生成することと、予測モデルに濃縮された1つ以上の核酸分子が入力として提供される場合、予測モデルの出力として対象の疾患を決定することと、を含む。いくつかの実施形態では、1つ以上の核酸分子は、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む。いくつかの実施形態では、疾患は、がん又は非がん性疾患を含む。いくつかの実施形態では、がんは、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、非がん性疾患は、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む。いくつかの実施形態では、本方法は、1つ以上の核酸分子配列決定リードをフィルタリングして、1つ以上の非哺乳類配列決定リード及び1つ以上の哺乳類配列決定リードを特定することを更に含む。いくつかの実施形態では、エピジェネティック特徴は、核酸エピジェネティック特徴を含む。いくつかの実施形態では、エピジェネティック特徴は、哺乳類核酸エピジェネティック特徴又は非哺乳類核酸エピジェネティック特徴を含む。いくつかの実施形態では、非哺乳類核酸エピジェネティック特徴は、ホスホロチオエート結合ヌクレオチドを含む。いくつかの実施形態では、生体試料は、組織、液体生検試料、又はそれらの組み合わせを含む。いくつかの実施形態では、対象は、ヒト又は非ヒト哺乳類である。いくつかの実施形態では、1つ以上の哺乳類核酸分子は、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、1つ以上の非哺乳類核酸分子は、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、核酸エピジェネティック特徴の親和性標的化は、核酸エピジェネティック特徴を濃縮することを含む。いくつかの実施形態では、核酸エピジェネティック特徴は、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む。いくつかの実施形態では、核酸エピジェネティック特徴は、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、親和性標的化は、エピジェネティック特徴に結合するために特異的親和性試薬を利用する。いくつかの実施形態では、特異的親和性試薬は、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、組換えエピジェネティックタンパク質は、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む。いくつかの実施形態では、エピジェネティックリーダーは、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、エピジェネティックライター及びイレーサーは、触媒的に不活性である。いくつかの実施形態では、エピジェネティックリーダー、ライター、及びイレーサーは、エピトープタグを含む。いくつかの実施形態では、エピトープタグは、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、分子認識モチーフは、birA又はソルターゼモチーフを含む。いくつかの実施形態では、本方法は、1つ以上の哺乳類及び非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、固体支持体が、エピトープタグに対する固定化された相補的な抗体を含む。いくつかの実施形態では、特異的親和性試薬は、エピジェネティック特徴を認識し、それに結合するための領域を含む。いくつかの実施形態では、親和性標的化は、生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含み得る。いくつかの実施形態では、複数の固定化された親和性剤は、エピジェネティック特徴に結合するであろう領域を含む。いくつかの実施形態では、固体支持体は、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、フィルタリングすることは、ゲノムデータベースに対して1つ以上の哺乳類配列決定リード及び1つ以上の非哺乳類配列決定リードをフィルタリングすることを含む。いくつかの実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。いくつかの実施形態では、予測モデルは、1個体以上の対象の生体試料の1つ以上の核酸分子及び1個体以上の対象の対応する疾患から決定された1つ以上の哺乳類、1つ以上の非哺乳類、又はそれらの組み合わせの特徴で訓練される。いくつかの実施形態では、1つ以上の哺乳類特徴は、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、1つ以上の哺乳類特徴は、哺乳類機能性遺伝子及び生化学的経路存在量を含む。いくつかの実施形態では、1つ以上の非哺乳類特徴は、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、1つ以上の非哺乳類特徴は、微生物機能性遺伝子及び生化学的経路存在量を含む。いくつかの実施形態では、液体生検試料は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、生体試料の1つ以上の核酸分子が濃縮されている場合、生体試料の1つ以上の核酸分子が濃縮されていない場合と比較して、疾患を決定する予測モデルの精度は、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する。いくつかの実施形態では、予測モデルは、対象の疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む。いくつかの実施形態では、訓練された予測モデルの出力は、1つ以上の哺乳類特徴存在量と1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む。いくつかの実施形態では、訓練された予測モデルの入力は、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む。いくつかの実施形態では、予測モデルは、疾患の組織特異的位置で更に訓練される。いくつかの実施形態では、予測モデルは、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される。いくつかの実施形態では、予測モデルは、対象の生体試料の核酸配列決定リードが提供される場合、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する。いくつかの実施形態では、予測モデルは、対象のがん療法応答を出力する。いくつかの実施形態では、訓練された予測モデルは、対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす対象に対する療法を出力する。いくつかの実施形態では、訓練された予測モデルは、療法、対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、対象のがんの縦断的なモデルを出力する。いくつかの実施形態では、予測モデルは、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去する。いくつかの実施形態では、濃縮することは、1つ以上の核酸分子の合計を、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%減少させる。
【0033】
本明細書に提供される本開示の態様は、いくつかの実施形態では、疾患を有する1個体以上の対象の生体試料を提供することと、生体試料の1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって1個体以上の対象の生体試料を濃縮することと、濃縮された1つ以上の核酸分子を配列決定して、1つ以上の核酸分子配列決定リードを生成することと、予測モデルを1つ以上の核酸分子配列決定リード及び1個体以上の対象の疾患の1つ以上の特徴で訓練することと、を含む、予測モデルを訓練する方法を含む。いくつかの実施形態では、エピジェネティック特徴は、哺乳類エピジェネティック特徴又は非哺乳類エピジェネティック特徴を含む。いくつかの実施形態では、1つ以上の特徴は、1つ以上の疾患特徴を含む。いくつかの実施形態では、訓練された予測モデルは、訓練された予測モデルに1個体以上の対象の生体試料の別の核酸配列決定リードが提供される場合、1個体以上の対象とは異なる別の1個体以上の対象の疾患を決定する。いくつかの実施形態では、1つ以上の核酸分子は、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む。いくつかの実施形態では、本方法は、1つ以上の核酸配列決定リードをフィルタリングして、1つ以上の非哺乳類配列決定リード、1つ以上の哺乳類配列決定リード、又はそれらの組み合わせを特定することを更に含む。いくつかの実施形態では、エピジェネティック特徴は、核酸エピジェネティック特徴を含む。いくつかの実施形態では、生体試料は、組織、液体生検試料、又はそれらの組み合わせを含む。いくつかの実施形態では、1個体以上の対象は、ヒト又は非ヒト哺乳類である。いくつかの実施形態では、1つ以上の哺乳類核酸分子は、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、1つ以上の非哺乳類核酸分子は、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、核酸エピジェネティック特徴の親和性標的化は、核酸エピジェネティック特徴を濃縮することを含む。いくつかの実施形態では、核酸エピジェネティック特徴は、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む。いくつかの実施形態では、核酸エピジェネティック特徴は、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、親和性標的化は、エピジェネティック特徴に結合するために特異的親和性試薬を利用する。いくつかの実施形態では、特異的親和性試薬は、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、組換えエピジェネティックタンパク質は、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む。いくつかの実施形態では、エピジェネティックライター及びイレーサーは、触媒的に不活性である。いくつかの実施形態では、エピジェネティックリーダー、ライター、及びイレーサーは、エピトープタグを含む。いくつかの実施形態では、エピトープタグは、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、分子認識モチーフは、birA又はソルターゼモチーフを含む。いくつかの実施形態では、本方法は、1つ以上の哺乳類核酸分子及び1つ以上の非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、固体支持体が、エピトープタグに対する固定化された相補的な抗体を含む。いくつかの実施形態では、特異的親和性試薬は、エピジェネティック特徴を認識し、それに結合するための領域を含む。いくつかの実施形態では、親和性標的化は、生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含み得る。いくつかの実施形態では、複数の固定化された親和性剤は、エピジェネティック特徴に結合するであろう領域を含む。いくつかの実施形態では、固体支持体は、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、フィルタリングすることは、ゲノムデータベースに対して1つ以上の哺乳類及び非哺乳類配列決定リードをフィルタリングすることを含む。いくつかの実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。いくつかの実施形態では、1つ以上の特徴は、1つ以上の哺乳類特徴、1つ以上の非哺乳類特徴、又はそれらの組み合わせの特徴を含む。いくつかの実施形態では、1つ以上の哺乳類特徴は、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、1つ以上の哺乳類特徴は、哺乳類機能性遺伝子及び生化学的経路存在量を含む。いくつかの実施形態では、1つ以上の非哺乳類特徴は、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、1つ以上の非哺乳類特徴は、微生物機能性遺伝子及び生化学的経路存在量を含む。いくつかの実施形態では、液体生検試料は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、疾患は、がん又は非がん性疾患を含む。いくつかの実施形態では、生体試料の1つ以上の核酸分子が濃縮されている場合、生体試料の1つ以上の核酸分子が濃縮されていない場合と比較して、疾患を決定する予測モデルの精度は、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する。いくつかの実施形態では、予測モデルは、別の1個体以上の対象の疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む。いくつかの実施形態では、非哺乳類核酸エピジェネティック特徴は、ホスホロチオエート結合ヌクレオチドを含む。いくつかの実施形態では、エピジェネティックリーダーは、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、訓練された予測モデルの出力は、1つ以上の哺乳類特徴存在量と1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む。いくつかの実施形態では、訓練された予測モデルの入力は、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む。いくつかの実施形態では、予測モデルは、疾患の組織特異的位置で更に訓練される。いくつかの実施形態では、予測モデルは、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される。いくつかの実施形態では、予測モデルは、生体試料の別の1個体以上の対象の核酸配列決定リードが提供された場合、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する。いくつかの実施形態では、訓練された予測モデルは、別の1個体以上の対象のがん療法応答を出力する。いくつかの実施形態では、訓練されたモデルは、別の1個体以上の対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす別の1個体以上の対象に対する療法を出力する。いくつかの実施形態では、訓練された予測モデルは、療法、対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、別の1個体以上の対象のがんの縦断的なモデルを出力する。いくつかの実施形態では、がんは、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、予測モデルは、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去するように構成される。いくつかの実施形態では、非がん性疾患は、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む。いくつかの実施形態では、濃縮することは、1つ以上の核酸分子の合計を、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%減少させる。
【0034】
いくつかの実施形態では、本明細書に提供される開示の態様は、対象の疾患を決定するためのコンピュータシステムを含み、コンピュータシステムが、1つ以上のプロセッサと、ソフトウェアを含む非一時的コンピュータ可読記憶媒体と、を含み、ソフトウェアが、実行の結果として、コンピュータシステムの1つ以上のプロセッサに、(i)対象の生体試料の1つ以上の核酸分子の1つ以上の核酸分子配列決定リードを受信することであって、1つ以上の核酸分子が、1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって濃縮される、受信することと、(ii)予測モデルに1つ以上の核酸分子配列決定が提供される場合、予測モデルの出力として対象の疾患を決定することと、を行わせる実行可能命令を含む。いくつかの実施形態では、1つ以上の核酸分子は、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む。いくつかの実施形態では、疾患は、がん又は非がん性疾患を含む。いくつかの実施形態では、がんは、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、非がん性疾患は、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む。いくつかの実施形態では、実行可能命令は、1つ以上の核酸分子配列決定リードをフィルタリングして、1つ以上の非哺乳類配列決定リード及び1つ以上の哺乳類配列決定リードを特定することを更に含む。いくつかの実施形態では、エピジェネティック特徴は、核酸エピジェネティック特徴を含む。いくつかの実施形態では、エピジェネティック特徴は、哺乳類核酸エピジェネティック特徴又は非哺乳類核酸エピジェネティック特徴を含む。いくつかの実施形態では、非哺乳類核酸エピジェネティック特徴は、ホスホロチオエート結合ヌクレオチドを含む。いくつかの実施形態では、生体試料は、組織、液体生検試料、又はそれらの組み合わせを含む。いくつかの実施形態では、対象は、ヒト又は非ヒト哺乳類である。いくつかの実施形態では、1つ以上の哺乳類核酸分子は、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、1つ以上の非哺乳類核酸分子は、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、核酸エピジェネティック特徴の親和性標的化は、核酸エピジェネティック特徴を濃縮することを含む。いくつかの実施形態では、核酸エピジェネティック特徴は、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む。いくつかの実施形態では、核酸エピジェネティック特徴は、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、親和性標的化は、エピジェネティック特徴に結合するために特異的親和性試薬を利用する。いくつかの実施形態では、特異的親和性試薬は、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、組換えエピジェネティックタンパク質は、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、エピジェネティックリーダーは、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む。いくつかの実施形態では、エピジェネティックリーダーは、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む。いくつかの実施形態では、エピジェネティックライター及びイレーサーは、触媒的に不活性である。いくつかの実施形態では、エピジェネティックリーダー、ライター、及びイレーサーは、エピトープタグを含む。いくつかの実施形態では、エピトープタグは、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、分子認識モチーフは、birA又はソルターゼモチーフを含む。いくつかの実施形態では、実行可能命令は、1つ以上の哺乳類及び非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、固体支持体が、エピトープタグに対する固定化された相補的な抗体を含む。いくつかの実施形態では、特異的親和性試薬は、エピジェネティック特徴を認識し、それに結合するための領域を含む。いくつかの実施形態では、親和性標的化は、生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む。いくつかの実施形態では、複数の固定化された親和性剤は、エピジェネティック特徴に結合するであろう領域を含む。いくつかの実施形態では、固体支持体は、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、フィルタリングすることは、ゲノムデータベースに対して1つ以上の哺乳類配列決定リード及び1つ以上の非哺乳類配列決定リードをフィルタリングすることを含む。いくつかの実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。いくつかの実施形態では、予測モデルは、1個体以上の対象の生体試料の1つ以上の核酸分子及び1個体以上の対象の対応する疾患から決定された1つ以上の哺乳類、1つ以上の非哺乳類、又はそれらの組み合わせの特徴で訓練される。いくつかの実施形態では、1つ以上の哺乳類特徴は、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、1つ以上の哺乳類特徴は、哺乳類機能性遺伝子及び生化学的経路存在量を含む。いくつかの実施形態では、1つ以上の非哺乳類特徴は、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む。いくつかの実施形態では、1つ以上の非哺乳類特徴は、微生物機能性遺伝子及び生化学的経路存在量を含む。いくつかの実施形態では、液体生検試料は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、生体試料の1つ以上の核酸分子が濃縮されている場合、生体試料の1つ以上の核酸分子が濃縮されていない場合と比較して、疾患を決定する予測モデルの精度は、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する。いくつかの実施形態では、予測モデルは、対象の疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む。いくつかの実施形態では、訓練された予測モデルの出力は、1つ以上の哺乳類特徴存在量と1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む。いくつかの実施形態では、訓練された予測モデルの入力は、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む。いくつかの実施形態では、予測モデルは、疾患の組織特異的位置で更に訓練される。いくつかの実施形態では、予測モデルは、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される。いくつかの実施形態では、予測モデルは、対象の生体試料の核酸配列決定リードが提供される場合、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する。いくつかの実施形態では、予測モデルは、対象のがん療法応答を出力する。いくつかの実施形態では、訓練された予測モデルは、対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす対象に対する療法を出力する。いくつかの実施形態では、訓練された予測モデルは、療法、対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、対象のがんの縦断的なモデルを出力する。いくつかの実施形態では、予測モデルは、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去する。いくつかの実施形態では、濃縮された核酸は、濃縮前の1つ以上の核酸分子の少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の減少を含む。
【0035】
本発明の新規特徴は、添付の特許請求の範囲に詳細に述べられる。本開示の特徴及び利点のより良好な理解が、本開示の原理が使用される例示的な実施形態を記載する以下の詳細な説明、及び添付の図面を参照することによって得られる。
【図面の簡単な説明】
【0036】
図1A】本明細書のいくつかの実施形態に記載される、生命の哺乳類、細菌、古細菌、真菌、及びウイルスドメイン内に存在するエピジェネティック特徴に基づいて疾患分類を生成するためのメタエピゲノムワークフローのフロー図を示す。
図1B】本明細書のいくつかの実施形態に記載される、生命の哺乳類、細菌、古細菌、真菌、及びウイルスドメイン内に存在するエピジェネティック特徴に基づいて疾患分類を生成するためのメタエピゲノムワークフローのフロー図を示す。
図1C】本明細書のいくつかの実施形態に記載される、生命の哺乳類、細菌、古細菌、真菌、及びウイルスドメイン内に存在するエピジェネティック特徴に基づいて疾患分類を生成するためのメタエピゲノムワークフローのフロー図を示す。
図1D】本明細書のいくつかの実施形態に記載される、生命の哺乳類、細菌、古細菌、真菌、及びウイルスドメイン内に存在するエピジェネティック特徴に基づいて疾患分類を生成するためのメタエピゲノムワークフローのフロー図を示す。
図1E】本明細書のいくつかの実施形態に記載される、生命の哺乳類、細菌、古細菌、真菌、及びウイルスドメイン内に存在するエピジェネティック特徴に基づいて疾患分類を生成するためのメタエピゲノムワークフローのフロー図を示す。
図1F】本明細書のいくつかの実施形態に記載される、生命の哺乳類、細菌、古細菌、真菌、及びウイルスドメイン内に存在するエピジェネティック特徴に基づいて疾患分類を生成するためのメタエピゲノムワークフローのフロー図を示す。
図2A】本発明の方法による、メタエピゲノム分析に利用される例示的な哺乳類核酸の修飾を示す。図2Aは、5-メチルシトシン(5mC)を示す。図2Bは、5-ヒドロキシメチルシトシン(5hmC)を示す。図2Cは、5-ホルミルシトシン(5fC)を示す。図2Dは、5-カルボキシシトシン(5caC)を示す。図2Eは、本明細書のいくつかの実施形態に記載される、N4-アセチシトシン(N4AcC)を示す。
図2B】本発明の方法による、メタエピゲノム分析に利用される例示的な哺乳類核酸の修飾を示す。図2Aは、5-メチルシトシン(5mC)を示す。図2Bは、5-ヒドロキシメチルシトシン(5hmC)を示す。図2Cは、5-ホルミルシトシン(5fC)を示す。図2Dは、5-カルボキシシトシン(5caC)を示す。図2Eは、本明細書のいくつかの実施形態に記載される、N4-アセチシトシン(N4AcC)を示す。
図2C】本発明の方法による、メタエピゲノム分析に利用される例示的な哺乳類核酸の修飾を示す。図2Aは、5-メチルシトシン(5mC)を示す。図2Bは、5-ヒドロキシメチルシトシン(5hmC)を示す。図2Cは、5-ホルミルシトシン(5fC)を示す。図2Dは、5-カルボキシシトシン(5caC)を示す。図2Eは、本明細書のいくつかの実施形態に記載される、N4-アセチシトシン(N4AcC)を示す。
図2D】本発明の方法による、メタエピゲノム分析に利用される例示的な哺乳類核酸の修飾を示す。図2Aは、5-メチルシトシン(5mC)を示す。図2Bは、5-ヒドロキシメチルシトシン(5hmC)を示す。図2Cは、5-ホルミルシトシン(5fC)を示す。図2Dは、5-カルボキシシトシン(5caC)を示す。図2Eは、本明細書のいくつかの実施形態に記載される、N4-アセチシトシン(N4AcC)を示す。
図2E】本発明の方法による、メタエピゲノム分析に利用される例示的な哺乳類核酸の修飾を示す。図2Aは、5-メチルシトシン(5mC)を示す。図2Bは、5-ヒドロキシメチルシトシン(5hmC)を示す。図2Cは、5-ホルミルシトシン(5fC)を示す。図2Dは、5-カルボキシシトシン(5caC)を示す。図2Eは、本明細書のいくつかの実施形態に記載される、N4-アセチシトシン(N4AcC)を示す。
図3A】本発明の方法による、メタエピゲノム分析に利用される例示的な微生物核酸修飾を示す。図3Aは、6-メチルアデニン(6mA)を示す。図3Bは、5-メチルシトシン(5mC)を示す。図3Cは、4-メチルシトシン(4mC)を示す。図3Dは、N4-アセチルシトシン(N4AcC)を示す。図3Eは、本明細書のいくつかの実施形態に記載される、5-ヒドロキシメチルシトシン(5hmC)を示す。
図3B】本発明の方法による、メタエピゲノム分析に利用される例示的な微生物核酸修飾を示す。図3Aは、6-メチルアデニン(6mA)を示す。図3Bは、5-メチルシトシン(5mC)を示す。図3Cは、4-メチルシトシン(4mC)を示す。図3Dは、N4-アセチルシトシン(N4AcC)を示す。図3Eは、本明細書のいくつかの実施形態に記載される、5-ヒドロキシメチルシトシン(5hmC)を示す。
図3C】本発明の方法による、メタエピゲノム分析に利用される例示的な微生物核酸修飾を示す。図3Aは、6-メチルアデニン(6mA)を示す。図3Bは、5-メチルシトシン(5mC)を示す。図3Cは、4-メチルシトシン(4mC)を示す。図3Dは、N4-アセチルシトシン(N4AcC)を示す。図3Eは、本明細書のいくつかの実施形態に記載される、5-ヒドロキシメチルシトシン(5hmC)を示す。
図3D】本発明の方法による、メタエピゲノム分析に利用される例示的な微生物核酸修飾を示す。図3Aは、6-メチルアデニン(6mA)を示す。図3Bは、5-メチルシトシン(5mC)を示す。図3Cは、4-メチルシトシン(4mC)を示す。図3Dは、N4-アセチルシトシン(N4AcC)を示す。図3Eは、本明細書のいくつかの実施形態に記載される、5-ヒドロキシメチルシトシン(5hmC)を示す。
図3E】本発明の方法による、メタエピゲノム分析に利用される例示的な微生物核酸修飾を示す。図3Aは、6-メチルアデニン(6mA)を示す。図3Bは、5-メチルシトシン(5mC)を示す。図3Cは、4-メチルシトシン(4mC)を示す。図3Dは、N4-アセチルシトシン(N4AcC)を示す。図3Eは、本明細書のいくつかの実施形態に記載される、5-ヒドロキシメチルシトシン(5hmC)を示す。
図4】本明細書のいくつかの実施形態に記載される、本発明の方法によるメタエピゲノム分析に利用される細菌及び古細菌ホスホロチオエート修飾を示す。
図5A】本明細書のいくつかの実施形態に記載される、いくつかの実施形態に記載される、これまで哺乳類エピジェネティック特徴として考えられてきたエピジェネティック特徴である5-ヒドロキシメチルシトシンを利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図5B】本明細書のいくつかの実施形態に記載される、いくつかの実施形態に記載される、これまで哺乳類エピジェネティック特徴として考えられてきたエピジェネティック特徴である5-ヒドロキシメチルシトシンを利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図5C】本明細書のいくつかの実施形態に記載される、いくつかの実施形態に記載される、これまで哺乳類エピジェネティック特徴として考えられてきたエピジェネティック特徴である5-ヒドロキシメチルシトシンを利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図5D】本明細書のいくつかの実施形態に記載される、いくつかの実施形態に記載される、これまで哺乳類エピジェネティック特徴として考えられてきたエピジェネティック特徴である5-ヒドロキシメチルシトシンを利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図5E】本明細書のいくつかの実施形態に記載される、いくつかの実施形態に記載される、これまで哺乳類エピジェネティック特徴として考えられてきたエピジェネティック特徴である5-ヒドロキシメチルシトシンを利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図5F】本明細書のいくつかの実施形態に記載される、いくつかの実施形態に記載される、これまで哺乳類エピジェネティック特徴として考えられてきたエピジェネティック特徴である5-ヒドロキシメチルシトシンを利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図6A】本明細書のいくつかの実施形態に記載される、微生物核酸の5-ヒドロキシメチルシトシンベースの濃縮を利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図6B】本明細書のいくつかの実施形態に記載される、微生物核酸の5-ヒドロキシメチルシトシンベースの濃縮を利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図6C】本明細書のいくつかの実施形態に記載される、微生物核酸の5-ヒドロキシメチルシトシンベースの濃縮を利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図6D】本明細書のいくつかの実施形態に記載される、微生物核酸の5-ヒドロキシメチルシトシンベースの濃縮を利用した、微生物エピジェネティックバイオマーカーの発見及びそこから導き出されたがん診断モデルの実験データを示す。
図7】本明細書の実施形態に記載される、本明細書の他箇所に記載の方法を実施、実装、及び/又は実行するように構成されたシステムの図を示す。
【発明を実施するための形態】
【0037】
本明細書に提供される本開示の態様は、核酸試料に含まれる哺乳類及び非哺乳類エピジェネティック情報(本明細書では「メタエピゲノム」情報、データ、特徴、シグネチャ、又はバイオマーカーと称される)の組み合わせに基づいて、対象における疾患を診断するための診断モデルを作成する方法を含み得る。いくつかの場合では、非哺乳類エピジェネティック情報は、細菌、真菌、古細菌、ウイルス、又はそれらの任意の組み合わせのエピジェネティック情報を含み得る。これは、いくつかの実施形態では、1つ以上の特異的エピジェネティックマークを有するゲノム領域の抗体ベース又は非抗体タンパク質ベースの濃縮を介して単離された哺乳類核酸分子及び非哺乳類核酸分子の両方を特定し、次いで、疾患を有する対象と疾患を有しない対象とを区別するためのそれらの濃縮された核酸の有用性を試験することによって達成され得る。いくつかの実施形態では、特定されたメタエピゲノムバイオマーカー及び対象の試料内のそれらの存在又は存在量を使用して、(1)個体が特定の疾患を有する、(2)個体が特定の身体部位内に良性若しくは悪性の腫瘤を有する、(3)個体が特定のタイプの良性若しくは悪性の腫瘤を有する、かつ/又は(4)疾患が特定の療法に応答する可能性が高い若しくは低い、という特定の確率を割り当てることができる。そのような方法の他の使用は、当業者には、合理的に想像可能であり、容易に実装可能である。
【0038】
本明細書に開示される本発明は、いくつかの実施形態では、状態(すなわち、がん)を診断するために、哺乳類及び非哺乳類起源の核酸に由来するメタエピゲノムバイオマーカーを使用することができる。いくつかの実施形態では、開示される発明は、観察された組織構造、細胞異型、又はがんを診断するために伝統的に使用されている他の主観的尺度のうちの1つ以上を含める必要がないため、典型的な病理レポートと比較してより良い臨床転帰を提供する可能性がある。いくつかの実施形態では、開示される方法は、「正常な」ヒト源のバックグラウンドで非常に低い頻度でしばしば修飾されるがんゲノムへの分析を制限するのではなく、試料における全ての可能なゲノムから引き出される配列情報を利用することによって、高い感度を提供することができる。いくつかの実施形態では、本明細書に開示される方法は、固体組織又は血液由来の試料のいずれかによってそのような転帰を達成することができ、後者は、最小限の試料調製を必要とし、最小限の侵襲性である。いくつかの実施形態では、液体生検ベースのアッセイは、非悪性ヒト細胞に由来する無細胞DNA(cfDNA)に起因する感度の問題にしばしば悩まされている循環腫瘍DNA(ctDNA)アッセイによってもたらされる課題を克服することができる。いくつかの実施形態では、液体生検ベースのメタエピゲノムアッセイは、最も一般的ながんゲノム異常(例えば、TP53変異、KRAS変異)ががんタイプ間で共有されているため、ctDNAアッセイが典型的に達成できないがんタイプを区別することができる。いくつかの実施形態では、記載される方法は、シグネチャのサイズを制限することができ、その方法は、当業者(例えば、正規化された機械学習)によって予想され、メタエピゲノムアッセイは、例えば、マルチプレックス定量的ポリメラーゼ連鎖反応(qPCR)及びマルチプレックスアンプリコン配列決定のための標的化されたアッセイパネルを使用することによって臨床的に利用可能になる可能性がある。
【0039】
いくつかの実施形態では、本明細書に開示される本発明の方法は、図1Aに見られるように、1個体以上の対象の疾患のための特徴セットを作成するための方法を含み得る。いくつかの場合では、本方法は、(a)疾患(例えば、がん又は非がん性疾患)101を有する1個体以上の対象の生体試料の1つ以上の哺乳類及び非哺乳類核酸分子を提供するステップと、(b)全未分画核酸組成物102を単離するステップと、(c)共通のエピジェネティック特徴103の標的化を介して、1個体以上の対象の生体試料の1つ以上の哺乳類及び非哺乳類核酸分子を濃縮するステップと、(d)濃縮された1つ以上の哺乳類及び非哺乳類核酸分子104を配列決定するステップと、(e)濃縮された1つ以上の哺乳類核配列決定リード105をフィルタリングするステップと、(f)フィルタリングされた1つ以上の哺乳類核配列決定リードの結果から、1つ以上の非哺乳類配列決定リード108を受信するステップと、(g)1つ以上の濃縮された非哺乳類配列決定リードのための分類学的又は経路割り当てを生成し、それによって、非哺乳類特徴存在量109を生成するステップと、(h)1つ以上の非哺乳類特徴存在量110を除染するステップと、(i)濃縮された1つ以上の哺乳類核酸配列決定リードをアラインメントし、それによって、哺乳類アラインメントファイル106を生成するステップと、(j)哺乳類アラインメントファイル107の1つ以上の濃縮された哺乳類核酸配列決定リードの哺乳類特徴存在量を選択するステップと、(k)1つ以上の哺乳類及び非哺乳類特徴存在量並びに1個体以上の対象の疾患を特徴セットに組み合わせることによって、1個体以上の対象の疾患の特徴セットを作成するステップと、を含み得る。いくつかの場合では、特徴セットは、メタエピゲノム機械学習特徴セット111を含み得る。いくつかの場合では、本方法は、そのデータセットにおけるエピジェネティック特徴を有する哺乳類又は非哺乳類核酸分子の疾患関連核酸配列を特定することを更に含み得る。いくつかの場合では、疾患関連核酸配列の特定は、疾患(例えば、がん又は非がん性疾患)を有する対象、又は健康である対象に由来し得る。いくつかの事例では、疾患状態は、がん、糖尿病など、又は本明細書の他箇所で論じられる任意の疾患若しくは障害を含み得る。いくつかの実施形態では、濃縮された配列決定データセットは、次世代配列決定、ロングリード配列決定(例えば、ナノポア配列決定)、又はそれらの組み合わせを使用して取得され得る。いくつかの実施形態では、濃縮された配列決定データセット104は、共通のエピジェネティック特徴103に特異的な抗体又は非抗体タンパク質ベースの薬剤による、哺乳類及び非哺乳類の両方の核酸分子に共通するエピジェネティック特徴の親和性標的化から得られ、それによって、図1Aに示されるように、哺乳類及び非哺乳類起源101の核酸配列を含有する生体試料からの核酸試料102から目的のゲノム領域を単離することができる。いくつかの実施形態では、濃縮された核酸の集団103に存在するメタエピゲノム特徴は、メタエピゲノム計算ワークフロー112を通して特定することができ、濃縮された哺乳類配列決定リードが、bowtie2又はKraken又はそれらの均等物を使用して哺乳類参照ゲノムとのアラインメントを介して、全ての生の配列決定リード104から計算的にフィルタリング105して、哺乳類アラインメントファイルを生成することができる。いくつかの実施形態では、哺乳類アラインメントファイルは、分析パイプライン107(MethylAction又はMEDIPSなど)を通して処理されて、選択されたエピジェネティック特徴の親和性標的化103を介して濃縮されたゲノム領域を特定し、それによって、選択された哺乳類特徴の出力を生成することができる。いくつかの実施形態では、得られる非哺乳類リード108は、Web of Life109などの参照微生物データベースを用いてbowtie2又はKrakenを使用して分類学的に分類され得る。いくつかの実施形態では、特定のエピジェネティックマークを有する非哺乳類遺伝子の存在量は、Web of Lifeツールキットアプリ(WolTka)又はその任意の均等物109を使用して確認することができる。いくつかの実施形態では、特定された非哺乳類リード109は、除染パイプライン110を通して処理されて、共通の非哺乳類夾雑物に由来する配列を除去して、除染された非哺乳類特徴を生成することができる。いくつかの実施形態では、除染された非哺乳類特徴110は、哺乳類分析パイプライン107の出力と組み合わされて、予測モデルのための訓練特徴セットとして機能し得るメタエピゲノム特徴セット111を生成することができる。
【0040】
いくつかの実施形態では、本明細書に提供される開示は、図1Bに見られるように、哺乳類及び非哺乳類ドメインに存在する異なるエピジェネティック特徴に基づいて、核酸の試料分割及び並列単離を通して、別個の哺乳類及び非哺乳類エピゲノム分析を調製する方法を含み得る。いくつかの場合では、本方法は、(a)1つ以上の哺乳類及び非哺乳類核酸組成物101を含む生体試料を提供するステップと、(b)未分画核酸組成物102を単離するステップと、(c)単離された未分画核酸組成物を1つ以上のアリコート113に分割するステップと、(d)1つ以上のアリコートの哺乳類及び非哺乳類核酸組成物を濃縮し、それによって、濃縮された哺乳類及び非哺乳類核酸組成物(114、155)を生成するステップと、(e)濃縮された哺乳類及び非哺乳類核酸組成物を疾患112の特徴セットに変換するステップと、を含み得る。いくつかの場合では、濃縮された哺乳類及び非哺乳類核酸分子組成物を特徴セットに変換することは、哺乳類リード105をフィルタリングするステップで、メタエピゲノム計算ワークフロー112に濃縮された配列決定リードを入力することを含み得る。いくつかの場合では、哺乳類及び非哺乳類核酸分子102の試料は、哺乳類及び非哺乳類(微生物)エピジェネティック特徴の別個の分析を容易にするために、物理的に分割され得る113。いくつかの実施形態では、哺乳類エピジェネティック特徴114は、エピジェネティック特徴に特異的な抗体又は非抗体タンパク質ベースの薬剤によるエピジェネティック特徴の親和性標的化によって濃縮され得る。いくつかの実施形態では、哺乳類ゲノム全体にわたるエピジェネティック特徴の分布は、バイサルファイト配列決定、縮小表現バイサルファイト配列決定、酸化的バイサルファイト配列決定、ACE-seq、酵素的メチル-seq(EM-seq)、ナノポア配列決定、又はそれらの均等物などの、第1の濃縮ステップを利用しても利用しなくてもよい特定の配列決定方法によって確かめることができる。いくつかの実施形態では、非哺乳類エピジェネティック特徴115は、エピジェネティック特徴に特異的な抗体又は非抗体タンパク質ベースの薬剤によるエピジェネティック特徴の親和性標的化によって濃縮され得る。いくつかの実施形態では、試料中の非哺乳類ゲノム全体にわたるエピジェネティック特徴の分布は、バイサルファイト配列決定、縮小表現バイサルファイト配列決定、酸化的バイサルファイト配列決定、ACE-seq、酵素的メチル-seq(EM-seq)、ナノポア配列決定、又はそれらの均等物などの、第1の濃縮ステップを利用しても利用しなくてもよい特定の配列決定方法によって確かめることができる。いくつかの実施形態では、並列哺乳類114及び非哺乳類115のエピジェネティック分析の結果を組み合わせ、メタエピゲノム計算ワークフロー112に入力して、メタエピゲノム機械学習特徴セットを生成する。
【0041】
いくつかの実施形態では、本明細書に提供される開示は、図1Cに見られるように、哺乳類及び非哺乳類核酸の連続した単離を通して、対象の疾患の特徴セットを生成する方法を含み得る。いくつかの場合では、本方法は、(a)1個体以上の対象の1つ以上の生体試料を提供するステップであって、生体試料が、哺乳類及び非哺乳類核酸組成物101を含む、提供するステップと、(b)未分画哺乳類及び非哺乳類核酸組成物102を単離するステップと、(c)未分画哺乳類及び非哺乳類核酸組成物を濃縮して、哺乳類核酸組成物及び残余組成物114を分離するステップと、(d)非哺乳類核酸組成物の残余組成物を濃縮するステップと、(e)哺乳類及び非哺乳類核酸組成物を疾患112の特徴セットに変換するステップと、を含み得る。いくつかの場合では、哺乳類及び非哺乳類核酸組成物を疾患の特徴セットに変換することは、114及び115(図1C)によって決定された哺乳類及び非哺乳類配列決定リードを、要素104(図1A)でメタエピゲノム計算ワークフロー112に入力することを含み得る。いくつかの実施形態では、哺乳類及び非哺乳類エピジェネティック特徴は、図1Cに示されるように、連続した様式116で同じ核酸試料102から濃縮され得、哺乳類エピジェネティック特徴114は、エピジェネティック特徴に特異的な抗体又は非抗体タンパク質ベースの薬剤によるエピジェネティック特徴の親和性標的化によって濃縮され、それによって、標的化されたエピジェネティックマークを有する哺乳類核酸分子が枯渇した試料が生成され、次いで、その試料が、非哺乳類エピジェネティック特徴の濃縮115のための入力として機能することができる。いくつかの実施形態では、濃縮の順序が逆であり、標的化された非哺乳類エピジェネティック濃縮115が、哺乳類エピジェネティック濃縮114に先行する。次いで、この連続的なエピジェネティック分析116の出力は、メタエピゲノム計算ワークフロー112に入力されて、メタエピゲノム機械学習特徴セットが生成され得る。
【0042】
いくつかの態様では、本明細書に提供される開示は、メタエピゲノム分析モジュールを組み込んだ予測モデルを訓練して、健康な、非がん(不健康な)、及びがん関連の非哺乳類シグネチャのメタエピゲノムベースの発見を可能にする方法を含み得る(図1D)。いくつかの実施形態では、本明細書に開示する本発明のシステム及び方法は、(a)配列決定を介して試料のメタエピゲノム特徴を決定することと、(b)予測モデルを生成することと、を含み得る。いくつかの実施形態では、配列決定方法は、次世代配列決定若しくはロングリード配列決定(例えば、ナノポア配列決定)又はそれらの組み合わせを含み得る。いくつかの実施形態では、予測モデル121は、本明細書の他の箇所に記載されるメタエピゲノム機械学習特徴セットに関する予測モデル120を訓練することを含み得る。いくつかの実施形態では、予測モデルは、正則化された機械学習モデルを含み得る。いくつかの実施形態では、予測モデルは、線形回帰、ロジスティック回帰、決定木、サポートベクターマシン(SVM)、ナイーブベイズ、k近傍法(kNN)、k平均法、ランダムフォレストアルゴリズムモデル、又はそれらの任意の組み合わせを含み得る。
【0043】
本開示の態様は、図1Dに見られるように、予測モデルを訓練して、対象の疾患を決定する方法を含み得る。いくつかの場合では、本方法は、(a)健康な対象117、がん性の対象118、非がん性及び不健康な対象、又はそれらの任意の組み合わせからの1つ以上の核酸試料を提供するステップと、(b)1つ以上の核酸試料102から未分画核酸組成物を単離するステップと、(c)親和性標的化103によって、未分画核酸組成物の1つ以上の非哺乳類及び哺乳類核酸分子を濃縮するステップと、(d)1つ以上の非哺乳類及び哺乳類核酸分子を、1個体以上の対象112の疾患に対応する1つ以上の特徴セットに変換するステップと、(e)1つ以上の特徴セット及び対応する疾患で予測モデル120を訓練し、それによって、対象の疾患を決定するように構成された訓練された予測モデル121を生成するステップと、を含み得る。いくつかの場合では、対象の決定された特徴付けは、健康122、がん性疾患123、又は非がん性疾患124を含み得る。いくつかの場合では、対象の決定された特徴付けは、健康122、がん性疾患123、又は非がん性疾患124を含み得る。いくつかの実施形態では、予測モデルは、図1Dに示されるように、試料中に存在する哺乳類及び非哺乳類核酸分子間で共有されるエピジェネティック特徴の親和性標的化103によって濃縮された、複数の既知の健康な対象117、複数の既知のがん対象118、及び複数の非がん、不健康な対象119からの核酸102に由来するメタエピゲノム特徴セット112で訓練120され得る。いくつかの実施形態では、訓練された予測モデル121を生成するための予測モデル120の訓練は、健康な対象122、がんを有する対象123、及びがんを有しない不健康な対象124について機械学習で特定されたメタエピゲノムシグネチャを生成する。
【0044】
本明細書に提供される本開示の態様は、図1Eに見られるように、対象の疾患を決定するために予測モデルを訓練するための個別の哺乳類及び非哺乳類核酸分析の方法を含み得る。いくつかの場合では、本方法は、(a)健康な対象117人、がん性の対象118人、非がん性及び不健康な対象、又はそれらの任意の組み合わせからの1つ以上の核酸試料を提供するステップと、(b)1つ以上の核酸試料102から未分画核酸組成物を単離するステップと、(c)未分画核酸組成物113を2つ以上のアリコート(114、115)に分割するステップと、(d)1つ以上の哺乳類核酸114の2つ以上のアリコートの第1のサブセット及び1つ以上の非哺乳類核酸分子115の2つ以上のアリコートの第2のサブセットを濃縮するステップと、(e)1つ以上の非哺乳類及び哺乳類核酸分子を1個体以上の対象112の疾患に対応する1つ以上の特徴セットに変換するステップと、(e)1つ以上の特徴セット及び対応する疾患で予測120モデルを訓練し、それによって、対象の疾患を判定するように構成された訓練された予測モデル121を生成するステップと、を含み得る。いくつかの場合では、対象の決定された疾患は、健康122、がん性疾患123、又は非がん性疾患124を含み得る。いくつかの態様では、本明細書に提供される開示は、健康、非がん(不健康な)、及びがん関連の非哺乳類のシグネチャのメタエピゲノムベースの発見を可能にするために、メタエピゲノム特徴セットに関する予測モデルを訓練する方法を含み得、図1Bの別個のエピジェネティック分析が結合されて、予測モデルの訓練120のための組み合わされたメタエピゲノム特徴セットを形成する。いくつかの実施形態では、予測モデル120を訓練するように構成されたメタエピゲノム特徴セット112は、図1Eに示されるように、哺乳類及び非哺乳類エピジェネティック特徴の並列分析を容易にするために物理的に分割された、複数の既知の健康な対象117、複数の既知のがん対象118、及び複数の非がん、不健康な対象119からの核酸102に由来し得る。
【0045】
本明細書に提供される本開示の態様は、対象の疾患を決定するために予測モデルを訓練するための連続的な哺乳類及び非哺乳類核酸分析の方法を含み得る。いくつかの場合では、本方法は、(a)健康な対象117、がん性の対象118、非がん性及び不健康な対象、又はそれらの任意の組み合わせからの1つ以上の核酸試料を提供するステップと、(b)1つ以上の核酸試料102から未分画核酸組成物を単離するステップと、(c)単離された未分画核酸組成物を用いて連続的なエピジェネティック分析を実施し、それによって、1つ以上の非哺乳類及び哺乳類核酸分子を生成するステップと、(d)1つ以上の非哺乳類及び哺乳類核酸分子を、1個体以上の対象112の疾患に対応する1つ以上の特徴セットに変換するステップと、(e)1つ以上の特徴セット及び対応する疾患で予測モデル120を訓練し、それによって、対象の疾患を決定するように構成された訓練された予測モデル121を生成するステップと、を含み得る。いくつかの場合では、図1Cに示されるように、連続的なエピジェネティック分析116は、未分画核酸組成物を濃縮して、哺乳類核酸組成物及び残余組成物114を分離することと、非哺乳類核酸組成物115についての残余組成物を濃縮することと、を含む。いくつかの場合では、対象の決定された特徴付けは、健康122、がん性疾患123、又は非がん性疾患124を含み得る。いくつかの態様では、本明細書に提供される開示は、健康、非がん(不健康)、及びがん関連の非哺乳類シグネチャのメタエピゲノムベースの発見を可能にするための予測モデルを訓練する方法を含み得、図1Cの連続的なエピジェネティック分析を結合して、機械学習のための組み合わせたメタエピゲノム特徴セットを形成する。いくつかの実施形態では、予測モデル120を訓練するためのメタエピゲノム特徴セット112は、図1Fに示されるように、哺乳類及び非哺乳類エピジェネティック特徴の連続的な分析を受けた、複数の既知の健康な対象117、複数の既知のがん対象118、及び複数の非がん、不健康な対象119からの核酸102に由来し得る。
【0046】
いくつかの実施形態では、濃縮又は直接配列決定分析を標的とする特定の哺乳類エピジェネティック特徴は、図2に示されるように、5-メチルシトシン(5mC)、5-ヒドロキシメチルシトシン(5hmC)、5-ホルミルシトシン(5fC)、5-カルボキシシトシン(5caC)、又はN4-アセチルシトシン(N4AcC)を含み得る(それぞれ、図2A図2E)。
【0047】
いくつかの実施形態では、濃縮又は直接配列決定分析を標的とする特定の非哺乳類エピジェネティック特徴は、図3に示されるように、6-メチルアデノシン(6mA)、5-メチルシトシン(5mC)、4-メチルシトシン(4mC)、N4-アセチルシトシン(N4AcC)、又は5-ヒドロキシメチルシトシン(5hmC)を含み得る(それぞれ、図3A図3E)。
【0048】
いくつかの実施形態では、濃縮を標的とする特定の非哺乳類エピジェネティック特徴は、図4に示されるように、ホスホロチオエートヌクレオチド結合を含み得る。
【0049】
本明細書に開示される態様は、核酸試料に含有される哺乳類及び非哺乳類エピジェネティック情報の組み合わせに基づいて、対象における疾患を診断するための予測モデルを作成する方法を提供し得(図1A)、本方法は、(a)1つ以上の哺乳類及び非哺乳類核酸分子103に存在するエピジェネティック特徴の親和性標的化によって1つ以上の哺乳類及び非哺乳類核酸分子を濃縮することと、(b)エピジェネティック特徴104の標的化を通して濃縮された核酸を配列決定することと、データセットから哺乳類及び非哺乳類配列決定リードの両方を計算的に分析して、訓練された診断モデルを生成するための予測モデルを訓練するために使用されるメタエピゲノム機械学習特徴セット111を生成することと、を含む(図1D)。
【0050】
本明細書に開示される態様は、予測モデルを訓練する方法(図1D)を提供し、本方法は、(a)訓練データセット(i)として、1個体以上の対象の1つ以上の配列決定されたメタエピゲノム存在量112を提供することと、(b)試験セット(i)として、1個体以上の対象の1つ以上の配列決定されたメタエピゲノム存在量112を提供することと、(c)それぞれ60対40の訓練試料対検証試料の試料比で予測モデルを訓練することと、(d)予測モデルの予測精度を評価することと、を含む。
【0051】
いくつかの実施形態では、訓練された予測モデルによって行われる予測は、健康な対象を示す機械学習シグネチャ、又はがんを有する対象を示す機械学習由来のシグネチャ、又はがん以外の疾患を有する対象を示す機械学習由来のシグネチャを含み得る。いくつかの実施形態では、訓練された予測モデルは、シグナルと呼ばれる他の1つ以上の非哺乳類又は非微生物配列を選択的に保持しながら、ノイズとして分類される1つ以上の非哺乳類又は非微生物核酸を特定及び除去し得る。
【0052】
上記のステップは、実施形態による方法又は一連の動作の各々を示しているが、当業者であれば、本明細書に記載の教示に基づいて、多くの変形を認識するであろう。ステップは、異なる順序で完了され得る。ステップは、追加又は省略され得る。ステップのいくつかは、サブステップを含み得る。これらのステップの多くは、有益なほど頻繁に繰り返され得る。
【0053】
本方法又は一連の動作の各々のステップのうちの1つ以上は、回路、例えば、フィールドプログラマブルゲートアレイのためのプログラマブルアレイロジックなどのプロセッサ又は論理回路の1つ以上で実行され得る。回路は、本方法又は一連の動作の各々のステップのうちの1つ以上を提供するようにプログラムされ得、プログラムは、例えば、コンピュータ可読メモリに記憶されたプログラム命令、又はプログラマブルアレイロジック又はフィールドプログラマブルゲートアレイなどの論理回路のプログラムされたステップを含み得る。
【0054】
予測モデル
本開示の方法及びシステムは、1個体以上の対象が、1個体以上の対象の各対象の生体試料からがんを有するかどうかを決定するために、人工知能、予測モデル、及び/又は機械学習技術の外部機能を利用又はアクセスすることができる。いくつかの場合では、人工知能技術は、1個体以上の対象のがんを予測し得る1つ以上の核酸分子配列決定リードの特徴(例えば、非哺乳類及び/又は哺乳類)を特定し得る。いくつかの場合では、特徴は、本明細書の他箇所に記載される1つ以上の予測モデルを訓練するために使用され得る。これらの特徴は、本明細書の他箇所に記載されるように、疾患又は障害を正確に予測するために使用され得る。いくつかの場合では、疾患又は障害は、本明細書の他箇所に記載されるがん又は非がん性疾患を含み得る。そのような予測モデル、アルゴリズム、及び/又は機械学習技術を使用して、医療提供者(例えば、医師、看護師、医療技術者など)は、情報に基づいた正確なリスクベースの意思決定を行うことができ、それによって、初期段階の疾患診断、疾患進行、及びモニタリング、対象の疾患を治療するための治療及び/若しくは治療上の提案、又はそれらの任意の組み合わせを改善することができる。
【0055】
本開示の方法及びシステムは、1個体以上の対象の疾患を予測し得る1つ以上の哺乳類特徴及び/又は1つ以上の非哺乳類特徴を決定するために、哺乳類の核酸分子及び/又は非哺乳類の核酸分子の存在及び存在量を分析することができる。いくつかの場合では、本明細書の他箇所に記載される方法及びシステムは、疾患を示す1つ以上の哺乳類特徴、1つ以上の非哺乳類特徴、及び1個体以上の対象の対応する疾患で予測モデルを訓練することができる。いくつかの場合では、次いで、訓練された予測モデルを使用して、予測モデルを訓練するために利用される1個体以上の対象とは異なる別の1個体以上の対象の疾患(例えば、がん又はがん性疾患)の可能性(例えば、予測)を生成することができる。学習された予測モデルは、1つ以上の核酸分子配列決定リードを処理して対象が疾患を有する可能性を生成するように構成された、機械学習ベースの分類器などの人工知能ベースのモデルを含んでもよい。モデルは、患者(例えば、がん患者、非がん性疾患を有する患者、病気もがんもない患者、がんの治療を受けているがん患者、非がん性疾患の治療を受けている患者、又はそれらの組み合わせ)の1つ以上のコホートからの生体試料の1つ以上の核酸分子から生成された1つ以上の哺乳類及び/又は非哺乳類核酸配列リードの存在又は存在量を使用して訓練され得る。いくつかの場合では、予測モデルは、予測モデルの訓練データセットの一部分ではない1つ以上の患者のがんを治療するための治療予測を提供するように訓練され得る。そのような予測モデルは、患者の存在及び生体試料から得られた1つ以上の核酸分子配列決定リードの存在量の入力が提供された場合、訓練データセットの一部ではない1個体以上の患者の治療推奨を出力することができる。
【0056】
予測モデルは、1つ以上の予測モデルを含み得る。予測モデルは、1つ以上の機械学習アルゴリズムを含み得る。機械学習アルゴリズムの例としては、サポートベクターマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、ニューラルネットワーク、ディープニューラルネットワーク(DNN)、回帰型ニューラルネットワーク(RNN)、ディープRNN、長短期記憶(LSTM)回帰型ニューラルネットワーク(RNN)、ゲート付き回帰型ユニット(GRU)、勾配ブースティングマシン、線形回帰、k近傍法、k平均法、決定木、ロジスティック回帰、他の教師あり学習アルゴリズム、若しくは教師なし機械学習モデル、又はそれらの任意の組み合わせが挙げられ得る。予測モデルは、分類又は回帰に使用され得る。モデルは、複数の予測モデルから構成されるアンサンブルモデルの推定を含み得、例えば、勾配ブースティング決定木の構築における勾配ブースティングなどの技術を利用し得る。モデルは、本明細書の他箇所に記載される、対象の生体試料の1つ以上の核酸分子から生成される1つ以上の核酸配列決定リードに加えて、患者及び/又は対象のデータ(例えば、患者の病歴、家族の病歴、血圧、脈拍、体温、酸素飽和度、又はそれらの任意の組み合わせ)に対応する1つ以上の訓練データセットを使用して訓練され得る。
【0057】
訓練データセットは、例えば、一般的な臨床疾患又は障害の診断を有する患者の1つ以上のコホートから生成され得る。訓練データセットは、1個体以上の対象の生体試料の1つ以上の哺乳類核酸分子及び/又は1つ以上の非哺乳類核酸分子の存在及び/又は存在量の形態で、1つ以上の非哺乳類特徴、1つ以上の哺乳類特徴、又はそれらの組み合わせのセットを含み得る。いくつかの事例では、1つ以上の哺乳類核酸分子及び/又は1つ以上の非哺乳類核酸分子は、本明細書の他箇所に記載されるように、濃縮された核酸分子を含み得る。特徴は、前述の1つ以上の哺乳類特徴及び/又は1つ以上の非哺乳類特徴に対する1個体以上の対象の対応するがん診断を含み得る。いくつかの場合では、特徴は、患者の年齢、患者の病歴、他の病状、現在又は過去の投薬治療、臨床リスクスコア、及び最後の観察からの時間などの患者情報を含み得る。例えば、所与の時点で所与の患者から収集された一連の特徴は、集合的にシグネチャとして機能し、これは、ある時点での患者及び/又は対象の疾患若しくは疾患状態を示し得る。
【0058】
訓練データのラベルは、例えば、対象及び/又は患者の疾患(例えば、がん又は非がん性疾患)又は障害の存在、不在、診断、又は予後などの臨床転帰を含み得る。臨床転帰は、治療有効性(例えば、対象が、がんに基づく治療に対する陽性応答者であるかどうか)を含み得る。
【0059】
入力特徴は、データをビンに集約することによって、又は代替的にワンホットエンコーディングを使用することによって構造化され得る。入力はまた、相互相関などの前述の入力から導出された特徴値又はベクトルも含み得る。
【0060】
訓練記録は、1個体以上の対象の生体試料の1つ以上の哺乳類核酸分子及び/又は1つ以上の非哺乳類核酸分子の存在及び/又は存在量の特徴から構築することができる。
【0061】
モデルは、入力特徴を処理して、1つ以上の分類、1つ以上の予測、又はそれらの組み合わせを含む出力値を生成し得る。例えば、そのような分類又は予測は、対象にがんが存在するか又は存在しない(例えば、疾患又は障害の不在)の二項分類、カテゴリ標識の群間の分類(例えば、「疾患又は障害なし」、「見かけの疾患又は障害」、及び「疾患又は障害の可能性が高い」)、特定の疾患又は障害を発症する可能性(例えば、相対的な可能性又は見込み)、疾患又は障害の存在を示すスコア、患者の死亡の可能性についての「リスク因子」、及び任意の数値予測について信頼区間を含み得る。機械学習技術の出力が、予測モデルのその後の層又はサブセクションへの入力特徴として使用され得るような、様々な機械学習技術がカスケードされ得る。
【0062】
(例えば、モデルの重み及び相関を決定することによって)モデルを訓練して、リアルタイムの分類又は予測を生成するために、モデルは、本明細書の他箇所に記載されるデータセット及び/又は特徴を使用して訓練され得る。そのようなデータセットは、統計的に有意な分類又は予測を生成するのに十分な大きさであり得る。例えば、データセットは、データのデータベースを含み得、データは、1個体以上の対象の1つ以上の核酸分子配列決定リード及び1個体以上の対象の対応する疾患ラベルを含み得る。訓練データセットは、訓練対象(例えば、ヒト及び/又は非ヒト哺乳類)から収集され得る。各対象の訓練データセットは、対象が疾患(例えば、がん又は非がん性疾患)を有すると診断されているか、又は生物学的状態を有すると診断されていないことを示す診断状態を有し得る。
【0063】
データセットは、訓練データセット、開発データセット、及び試験データセットなどのサブセット(例えば、個別又は重複する)に分割され得る。例えば、データセットは、データセットの80%を含む訓練データセット、データセットの10%を含む開発データセット、及びデータセットの10%を含む試験データセットに分割され得る。訓練データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、又は約90%を含み得る。開発データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、又は約90%を含み得る。試験データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、又は約90%を含み得る。いくつかの実施形態では、一つ抜き交差検証が用いられ得る。訓練セット(例えば、訓練データセット)は、試料採取の独立性を確保するために、1個体以上の患者コホートに対応するデータのセットのランダムな試料採取によって選択され得る。代替的には、訓練セット(例えば、訓練データセット)は、試料採取の独立性を確保するために、1個体以上の患者コホートに対応するデータのセットの比例試料採取によって選択され得る。
【0064】
モデル予測の精度を改善し、予測モデルの過剰適合を減少させるために、データセットを、拡張して、訓練セット内の試料の数を増加させ得る。例えば、データ拡張は、訓練記録における観測の順序を再配置することを含み得る。欠落した観察を有するデータセットに対応するために、フォワードフィリング、バックフィリング、線形補間、及びマルチタスクガウスプロセスなどの欠落したデータを補完する方法が使用され得る。データセットを、フィルタリング又はバッチ補正して、交絡因子を除去又は軽減し得る。例えば、データベース内では、患者のサブセットが、除外され得る。
【0065】
予測モデルは、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、回帰型ニューラルネットワーク(RNN)、又はディープRNNなどの1つ以上のニューラルネットワークを含み得る。回帰型ニューラルネットワークは、長短期記憶(LSTM)ユニット又はゲート付き回帰型ユニット(GRU)であり得るユニットを含み得る。例えば、モデルは、一連の入力特徴(例えば、1つ以上の核酸分子配列決定リード)、バイタル(本明細書の他箇所に記載される)、患者の病歴、及び/又は患者の人口統計を有するニューラルネットワークを含むアルゴリズムアーキテクチャを含み得る。脱落又は正規化などのニューラルネットワーク技術は、過剰適合を防止するために予測モデルを訓練する間に使用され得る。ニューラルネットワークは、複数のサブネットワークを含み得、それらの各々は、異なるタイプの出力情報(例えば、ニューラルネットワークの全体的な出力を形成するように組み合わせられ得る)の分類又は予測を生成するように構成される。機械学習モデルは、代替的に、ランダムフォレスト、分類及び回帰木、サポートベクターマシン、判別分析、回帰技術、並びにそれらのアンサンブル及び勾配ブーストされたバリエーションを含む統計的又は関連アルゴリズムを利用し得る。
【0066】
予測モデルが疾患又は障害の分類又は予測を生成する場合、通知(例えば、警告又は警報)が生成され、病院内の患者の治療チームの医師、看護師、又は他のメンバーなどの医療提供者に送信され得る。通知は、自動電話、ショートメッセージサービス(SMS)若しくはマルチメディアメッセージサービス(MMS)メッセージ、電子メール、又はダッシュボード内の警告を介して送信され得る。通知は、疾患若しくは障害の予測、予測される疾患若しくは障害の可能性、疾患若しくは障害の予想される発病までの時間、可能性若しくは時間の信頼区間、又は疾患若しくは障害に対する推奨される治療のコースなどの出力情報を含み得る。
【0067】
予測モデルの性能を検証するために、異なる性能メトリックが生成され得る。例えば、受信者動作特性曲線下面積(AUROC)を使用して、予測モデルの診断能力を決定し得る。例えば、予測モデルは、特異度及び感度が調整可能であるような、調整可能である分類閾値を使用し得、受信者動作特性曲線(ROC)を使用して、特異度及び感度の種々の値に対応する種々の動作点を特定し得る。
【0068】
データセットが十分に大きくない場合など、いくつかの場合では、相互検証を実施して、異なる訓練及び試験データセットにわたるモデルの堅牢性を評価し得る。
【0069】
感度、特異度、精度、陽性的中率(PPV)、陰性的中率(NPV)、適合率再現率曲線下面積(AUPR)、AUROC、又は類似物などの性能メトリックを計算するために、以下の定義が使用され得る。「偽陽性」は、陽性の転帰又は結果が誤って又は時期尚早に生成された転帰(例えば、疾患又は障害の実際の発症前、又は発症なし)を指し得る。「真陽性」は、患者が疾患又は障害を有する場合(例えば、患者が疾患若しくは障害の症状を示すか、又は患者の記録が疾患若しくは障害を示す)、陽性の転帰又は結果が正しく生成された転帰を指し得る。「偽陰性」は、陰性の転帰又は結果が生成されたが、患者が疾患又は障害を有する(例えば、患者が疾患若しくは障害の症状を示すか、又は患者の記録が疾患若しくは障害を示す)転帰を指し得る。「真陰性」は、陰性の転帰又は結果が生成された転帰(例えば、疾患又は障害の実際の発症前、又は発症なし)を指し得る。
【0070】
予測モデルは、診断精度尺度に対応する最小の所望の値を有するなど、精度又は性能のための特定の所定の条件が満たされるまで訓練され得る。例えば、診断精度尺度は、対象における疾患又は障害の発生の可能性の予測に対応し得る。別の例として、診断精度尺度は、対象が以前に治療された疾患又は障害の悪化又は再発の可能性の予測に対応し得る。診断精度尺度の例としては、疾患又は障害の検出又は予測の診断精度に対応する感度、特異度、陽性的中率(PPV)、陰性的中率(NPV)、精度、AUPR、及びAUROCが挙げられ得る。
【0071】
例えば、そのような所定の条件は、疾患又は障害の予測の感度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の値を含むことであり得る。
【0072】
別の例として、そのような所定の条件は、疾患又は障害の予測の特異度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の値を含むことであり得る。
【0073】
別の例として、そのような所定の条件は、疾患又は障害の予測の陽性的中率(PPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の値を含むことであり得る。
【0074】
別の例として、そのような所定の条件は、疾患又は障害の予測の陰性的中率(NPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の値を含むことであり得る。
【0075】
別の例として、そのような所定の条件は、疾患又は障害の予測の受信者動作特性(ROC)曲線の曲線下面積(AUC)(AUROC)が、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、又は少なくとも約0.99の値を含むことであり得る。
【0076】
別の例として、そのような所定の条件は、疾患又は障害を予測する適合率再現率曲線下面積(AUPR)が、少なくとも約0.10、少なくとも約0.15、少なくとも約0.20、少なくとも約0.25、少なくとも約0.30、少なくとも約0.35、少なくとも約0.40、少なくとも約0.45、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、又は少なくとも約0.99の値を含むことであり得る。
【0077】
いくつかの実施形態では、訓練されたモデルは、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の精度で疾患又は障害を予測するように訓練又は構成され得る。
【0078】
いくつかの実施形態では、モデルは、ニューラルネットワーク又は畳み込みニューラルネットワークである。Vincent et al.,2010,“Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion,”J Mach Learn Res 11,pp.3371-3408、Larochelle et al.,2009,“Exploring strategies for training deep neural networks,”J Mach Learn Res 10,pp.1-40、及びHassoun,1995,Fundamentals of Artificial Neural Networks,Massachusetts Institute of Technologyを参照されたく、これらの各々は、参照により本明細書に組み込まれる。
【0079】
いくつかの実施形態では、Lee,T.-W.(1998):Independent component analysis:Theory and applications,Boston,Mass:Kluwer Academic Publishers,ISBN 0-7923-8261-7、及びHyvaerinen,A.;Karhunen,J.;Oja,E.(2001):Independent Component Analysis,New York:Wiley,ISBN 978-0-471-40540-5において記載されるものなど、独立成分分析(ICA)を使用して、データを脱次元化(de-dimensionalize)し、これらは、参照によりその全体が本明細書に組み込まれる。
【0080】
いくつかの実施形態では、Jolliffe,I.T.(2002).Principal Component Analysis.Springer Series in Statistics.New York:Springer-Verlag.doi:10.1007/b98835.ISBN 978-0-387-95442-4に記載されているものなど、主成分分析(PCA)を使用して、データを脱次元化し、これらは、参照によりその全体が本明細書に組み込まれる。
【0081】
SVMは、Cristianini and Shawe-Taylor,2000,“An Introduction to Support Vector Machines,”Cambridge University Press,Cambridge、Boser et al.,1992,“A training algorithm for optimal margin classifiers,”in Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory,ACM Press,Pittsburgh,Pa.,pp.142-152、Vapnik,1998,Statistical Learning Theory,Wiley,New York;Mount,2001,Bioinformatics:sequence and genome analysis,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.、Duda,Pattern Classification,Second Edition,2001,John Wiley&Sons,Inc.,pp.259,262-265、及びHastie,2001,The Elements of Statistical Learning,Springer,New York;and Furey et al.,2000,Bioinformatics 16,906-914に記載されており、これらの各々、参照によりその全体が本明細書に組み込まれる。分類に使用される場合、SVMは、標識されたデータから、最大限に離れたハイパープレーンを使用して、バイナリ標識されたデータの所与のセットを分離する。線形分離が不可能な場合、SVMは、特徴空間への非線形マッピングを自動的に実現する「カーネル」の技術と組み合わせて機能することができる。特徴空間内のSVMによって見出される超平面は、入力空間内の非線形決定境界に対応する。
【0082】
決定木は、概して、Duda,2001,Pattern Classification,John Wiley&Sons,Inc.,New York,pp.395-396によって説明されており、これは、参照により本明細書に組み込まれる。決定木に基づく方法は、特徴空間を長方形のセットに分割し、各々に(定数のような)モデルを適合させる。いくつかの実施形態では、決定木はランダムフォレスト回帰である。使用され得る1つの特定のアルゴリズムは、分類及び回帰木(CART)である。他の特定の決定木アルゴリズムは、ID3、C4.5、MART、及びランダムフォレストを含むが、これらに限定されない。CART、ID3、及びC4.5は、Duda,2001,Pattern Classification,John Wiley&Sons,Inc.,New York.pp.396-408及びpp.411-412に記載されており、これは、参照により本明細書に組み込まれる。CART、MART、及びC4.5は、Hastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New York,Chapter 9に記載されており、これは、参照によりその全体が本明細書に組み込まれる。ランダムフォレストは、Breiman,1999,“Random Forests-Random Features,”Technical Report 567,Statistics Department,U.C.Berkeley,September 1999に記載されており、これは参照によりその全体が本明細書に組み込まれる。
【0083】
クラスタリング(例えば、教師なしクラスタリングモデルアルゴリズム及び教師ありクラスタリングモデルアルゴリズム)は、Duda and Hart,Pattern Classification and Scene Analysis,1973,John Wiley&Sons,Inc.,New York(以降、「Duda 1973」)の211~256ページに記載されており、これは、参照によりその全体が本明細書に組み込まれる。Duda 1973のセクション6.7に記載されるように、クラスタリング問題は、データセットにおいて自然な群化を見出すことの1つとして説明される。自然な群化を特定するために、2つの問題を対処する。第一に、2つの試料間の類似性(又は相違性)を測定する方法を決定する。このメトリック(類似性尺度)を使用して、一方のクラスタ内の試料が他方のクラスタ内の試料よりも互いにより類似していることを確実にする。第二に、類似性尺度を使用してデータをクラスタに分割するための機構を決定する。類似性尺度は、Duda 1973のセクション6.7で考察されており、クラスタリング調査を開始する1つの方法は、距離関数を定義し、訓練セット内の試料の全てのペア間の距離の行列を計算することであると記載されている。距離が類似性の良好な尺度である場合、同じクラスタ内の参照実体間の距離は、異なるクラスタ内の参照実体間の距離よりも顕著に小さいであろう。しかしながら、Duda 1973の215ページに記載されているように、クラスタリングは距離メトリックの使用を必要としない。例えば、非メトリック類似性関数s(x、x’)を使用して、2つのベクトルx及びx’を比較し得る。従来、s(x,x’)は、x及びx’が何らかの形で「類似」している場合に値が大きい対称関数である。非メトリック類似性関数s(x,x’)の例は、Duda 1973の218ページに示されている。データセット内の点間の「類似性」又は「相違性」を測定するための方法が選択されると、クラスタリングは、データの任意の分割のクラスタリング品質を測定する基準関数を必要とする。基準関数を極端化するデータセットの分割を使用して、データをクラスタリングする。Duda 1973の217ページを参照されたい。基準関数は、Duda 1973のセクション6.8で考察されている。より最近では、Duda et al.,Pattern Classification,2nd edition,John Wiley&Sons,Inc.New Yorkが出版されている。537~563ページは、クラスタリングを詳細に記載している。クラスタリング技術の詳細は、Kaufman and Rousseeuw,1990,Finding Groups in Data:An Introduction to Cluster Analysis,Wiley,New York,N.Y.、Everitt,1993,Cluster analysis(3d ed.),Wiley,New York,N.Y.、及びBacker,1995,Computer-Assisted Reasoning in Cluster Analysis,Prentice Hall,Upper Saddle River,New Jerseyに見出され得、これらの各々は、参照により本明細書に組み込まれる。本開示において使用され得る特定の例示的なクラスタリング技術は、階層的クラスタリング(最近傍アルゴリズム、最遠傍アルゴリズム、平均リンケージアルゴリズム、重心アルゴリズム、又は二乗和アルゴリズムを使用した凝集クラスタリング)、k平均クラスタリング、ファジーk平均クラスタリング、及びジャービス・パトリック(Jarvis-Patrick)クラスタリングを含むが、これらに限定されない。いくつかの実施形態では、クラスタリングは、教師なしクラスタリングを含み、訓練セットがクラスタリングされる場合、どのクラスタが形成するべきであるかの先入観が課されない。
【0084】
複数カテゴリロジットモデルのものなどの回帰モデルは、Agresti,An Introduction to Categorical Data Analysis,1996,John Wiley&Sons,Inc.,New York,Chapter 8に記載されており、これは、参照によりその全体が本明細書に組み込まれる。いくつかの実施形態では、モデルは、Hastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New Yorkに開示されている回帰モデルを利用し、これは、参照によりその全体が本明細書に組み込まれる。いくつかの実施形態では、勾配ブースティングモデルは、例えば、本明細書に記載の分類アルゴリズムに対して使用され、これらの勾配ブースティングモデルは、Boehmke,Bradley;Greenwell,Brandon(2019).“Gradient Boosting”.Hands-On Machine Learning with R.Chapman&Hall.pp.221-245.ISBN 978-1-138-49568-5.に記載されており、これは、参照によりその全体が本明細書に組み込まれる。いくつかの実施形態では、アンサンブルモデル化技術が使用され、これらのアンサンブルモデル化技術は、本明細書の分類モデルの実装に記載され、Zhou Zhihua(2012)Ensemble Methods:Foundations and Algorithms.Chapman and Hall/CRC.ISBN 978-1-439-83003-1に記載されている(これは、参照によりその全体が本明細書に組み込まれる)。
【0085】
いくつかの実施形態では、機械学習分析は、データ分析を実施するための命令を含む1つ以上のプログラム(例えば、非永続メモリ又は永続メモリに記憶された1つ以上のプログラム)を実行するデバイスによって実施される。いくつかの実施形態では、データ分析は、少なくとも1つのプロセッサ(例えば、処理コア)と、データ分析を実施する命令を含むメモリ(例えば、非永続メモリ又は永続メモリに格納された1つ以上のプログラム)と、を備えるシステムによって実施される。
【0086】
システム
本開示は、本開示の方法を実装するようにプログラムされたコンピュータシステムを提供する。図7は、コンピュータシステム201を示し、これは、本明細書の他箇所に記載される、疾患(例えば、がん又は非がん性疾患)を予測し、予測モデルを訓練し、推奨される療法を生成し、1個体以上の対象の疾患の治療の縦断的経過を生成及び/若しくは予測し、又はそれらの任意の組み合わせを行うようにプログラムされるか、又はそうでなければ構成される。コンピュータシステム201は、ユーザの電子デバイス、又は電子デバイスに関する遠隔に位置されたコンピュータシステムであり得る。電子デバイスは、モバイル電子デバイスであり得る。
【0087】
コンピュータシステム201は、単一コア若しくは複数コアプロセッサ、又は並列処理のための複数のプロセッサであり得る中央処理ユニット(CPU、また、本明細書では「プロセッサ」及び「コンピュータプロセッサ」)205を含む。コンピュータシステム201はまた、メモリ又はメモリ位置204(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶ユニット206(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インターフェース208(例えば、ネットワークアダプタ)、並びにキャッシュ、他のメモリ、データ記憶装置、及び/又は電子ディスプレイアダプタなどの周辺デバイス207を含む。メモリ204、記憶ユニット206、インターフェース208、及び周辺デバイス207は、マザーボードなどの通信バス(実線)を介してCPU205と通信している。記憶ユニット206は、データを記憶するためのデータ記憶ユニット(又はデータ保存場所)であり得る。コンピュータシステム201は、通信インターフェース208を用いて、コンピュータネットワーク(「ネットワーク」)203に動作可能にカップリングされ得る。ネットワーク203は、インターネット、インターネット及び/若しくはエクストラネット、又はインターネットと通信しているイントラネット及び/若しくはエクストラネットであり得る。いくつかの場合では、ネットワーク203は、電気通信及び/又はデータネットワークである。ネットワーク203は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる1つ以上のコンピュータサーバを含み得る。ネットワーク203は、コンピュータシステム201を用いるいくつかの場合では、ピアツーピアネットワークを実装することができ、これは、コンピュータシステム201にカップリングされたデバイスがクライアント又はサーバとして動作することを可能にし得る。
【0088】
CPU205は、プログラム又はソフトウェアにおいて具現化され得る機械可読命令のシーケンスを実行し得る。命令は、メモリ204などのメモリ位置に記憶され得る。命令は、CPU205に向けられ得、その後、本明細書の他箇所に記載の本開示の方法を実装するようにCPU205をプログラム又は構成し得る。CPU205によって実施される動作の例としては、フェッチ、デコード、実行、及びライトバックが挙げられ得る。
【0089】
CPU205は、集積回路などの回路の一部分であり得る。システム201の1つ以上の他の構成要素は、回路に含まれ得る。いくつかの場合では、回路は、用途特異的な集積回路(ASIC)である。
【0090】
記憶ユニット206は、ドライバ、ライブラリ、及び保存されたプログラムなどのファイルを記憶し得る。記憶ユニット206は、ユーザデータ(例えば、疾患予測及び/又はユーザ及び/又は対象の核酸配列決定リードの1つ以上の哺乳類特徴及び/又は1つ以上の非哺乳類特徴、ユーザープリファレンス、ユーザプログラム、又はそれらの任意の組み合わせ)を記憶することができる。コンピュータシステム201は、いくつかの場合では、イントラネット又はインターネットを介してコンピュータシステム201と通信している遠隔サーバ上に位置するなど、コンピュータシステム201の外部にある1つ以上の追加のデータ記憶ユニットを含み得る。
【0091】
コンピュータシステム201は、ネットワーク203を介して1つ以上の遠隔コンピュータシステムと通信し得る。例えば、コンピュータシステム201は、ユーザの遠隔コンピュータシステムと通信し得る。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレート若しくはタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標))、又はパーソナルデジタルアシスタントが挙げられ得る。ユーザは、ネットワーク203を介してコンピュータシステム201にアクセスし得る。
【0092】
本明細書に記載の方法は、例えば、メモリ204又は電子記憶ユニット206上など、コンピュータシステム201の電子記憶位置上に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって実装され得る。機械実行可能コード又は機械可読コードは、ソフトウェアの形態で提供され得る。使用中、コードは、プロセッサ205によって実行され得る。いくつかの場合では、コードは、記憶ユニット206から取得され、プロセッサ205による即時アクセスのためにメモリ204上に記憶され得る。いくつかの状況では、電子記憶ユニット206を除外してもよく、機械実行可能命令は、メモリ204に記憶される。
【0093】
コードは、事前にコンパイルされ、コードを実行するように適合されたプロセッサを有する機械での使用のために構成され得るか、又はランタイム中にコンパイルされ得る。コードは、事前にコンパイルされた又はコンパイルされたままの様式でコードを実行することを可能にするように選択され得るプログラミング言語で提供され得る。
【0094】
コンピュータシステム201などの本明細書に提供されるシステム及び方法の態様は、プログラミングで具現化され得る。技術の様々な態様は、典型的には、機械(又はプロセッサ)実行可能コード及び/又は機械可読媒体のタイプで搬送されるか、若しくは具現化される関連データの形態で「製品」又は「製造品」として考えられ得る。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)又はハードディスクなどの電子記憶ユニットに記憶され得る。「記憶」タイプの媒体は、コンピュータ、プロセッサなどの有形メモリのいずれか若しくは全て、又は様々な半導体メモリ、テープドライブ、ディスクドライブなどのそれらの関連するモジュールを含み得、ソフトウェアプログラミングのためにいつでも非一時的な記憶を提供し得る。ソフトウェアの全部又は一部分は、時にはインターネット又は様々な他の通信ネットワークを介して通信され得る。そのような通信は、例えば、一方のコンピュータ又はプロセッサから別のコンピュータ又はプロセッサへ、例えば、管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を担持し得る別のタイプの媒体は、ローカルデバイス間の物理的インターフェースにわたって、有線及び光地上通信ネットワークを介して、並びに様々なエアリンクにわたって使用されるような、光、電気、及び電磁波を含む。有線又は無線リンク、光リンクなどのそのような波を搬送する物理的要素もまた、ソフトウェアを担持する媒体とみなされ得る。本明細書で使用される場合、非一時的な有形の「記憶」媒体に限定されない限り、コンピュータ又は機械の「読み取り可能媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
【0095】
したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体又は物理伝送媒体を含むがこれらに限定されない多くの形態をとり得る。不揮発性記憶媒体は、例えば、図面に示されるデータベースなどを実装するために使用され得るなどの任意のコンピュータ(複数可)などの記憶デバイスのうちのいずれかなどの光ディスク又は磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームの主要メモリなどの動的メモリを含む。有形伝送媒体は、コンピュータシステム内のバスを含むワイヤを含む、同軸ケーブル、銅線及び光ファイバを含む。搬送波伝送媒体は、電気若しくは電磁信号、又は無線周波数(RF)及び赤外線(IR)データ通信中に生成されたものなどの音響又は光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVD若しくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理記憶媒体、RAM、ROM、PROM及びEPROM、FLASH-EPROM、任意の他のメモリチップ若しくはカートリッジ、データ若しくは命令を輸送する搬送波、そのような搬送波を輸送するケーブル若しくはリンク、又はコンピュータがプログラミングコード若しくはデータを読み取り得る任意の他の媒体が含まれる。これらの形態のコンピュータ可読媒体の多くは、実行のために1つ以上の命令の1つ以上のシーケンスをプロセッサに搬送することに関与し得る。
【0096】
コンピュータシステム201は、電子ディスプレイ202を含むか、又はそれと通信し得、これは、本明細書の他箇所で記載されているように、例えば、予測結果の視覚化のためのディスプレイ又は予測モデルを訓練するためのインターフェースを提供するためのユーザインターフェース(UI)209を含む。UIの例としては、グラフィカルユーザインターフェース(GUI)及びウェブに基づくユーザインターフェースが挙げられるが、これらに限定されない。
【0097】
本開示の方法及びシステムは、本明細書の他箇所で記載される、1つ以上のアルゴリズム及び/又は予測モデルによって実装され得る。アルゴリズム及び/又は予測モデルは、中央処理ユニット205による実行時にソフトウェアによって実装され得る。アルゴリズム及び/又は予測モデルは、例えば、対象のがんを予測し、対象若しくは1個体以上の対象の疾患(例えば、本明細書の他箇所に記載されるがん)を治療するための仕立てられた治療及び/又は治療薬を決定し、対象若しくは1個体以上の対象の疾患(例えば、本明細書の他箇所に記載されるがん)を治療するための治療薬の縦断的経過を予測し得る。
【0098】
実施形態
番号付き実施形態1は、対象の疾患を決定する方法であって、対象の生体試料を提供することと、生体試料の1つ以上の核酸分子を1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって濃縮することと、濃縮された1つ以上の核酸分子を配列決定して、1つ以上の核酸分子配列決定リードを生成することと、予測モデルに濃縮された1つ以上の核酸分子が入力として提供される場合、予測モデルの出力として対象の疾患を決定することと、を含む、方法を含む。番号付き実施形態2は、1つ以上の核酸分子が、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む、番号付き実施形態1に記載の方法を含む。番号付き実施形態3は、疾患が、がん又は非がん性疾患を含む、番号付き実施形態1又は2に記載の方法を含む。番号付き実施形態4は、がんが、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む、番号付き実施形態1~3のいずれか一項に記載の方法を含む。番号付き実施形態5は、非がん性疾患が、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む、番号付き実施形態1~4のいずれか一項に記載の方法を含む。番号付き実施形態6は、1つ以上の核酸分子配列決定リードをフィルタリングして、1つ以上の非哺乳類配列決定リード及び1つ以上の哺乳類配列決定リードを特定することを更に含む、番号付き実施形態1~5のいずれか一項に記載の方法を含む。番号付き実施形態7は、エピジェネティック特徴が、核酸エピジェネティック特徴を含む、番号付き実施形態1~6のいずれか一項に記載の方法を含む。番号付き実施形態8は、エピジェネティック特徴が、哺乳類核酸エピジェネティック特徴又は非哺乳類核酸エピジェネティック特徴を含む、番号付き実施形態1~7のいずれか一項に記載の方法を含む。番号付き実施形態9は、非哺乳類核酸エピジェネティック特徴が、ホスホロチオエート結合ヌクレオチドを含む、番号付き実施形態1~8のいずれか一項に記載の方法を含む。番号付き実施形態10は、生体試料が、組織、液体生検試料、又はそれらの組み合わせを含む、番号付き実施形態1~9のいずれか一項に記載の方法を含む。番号付き実施形態11は、対象が、ヒト又は非ヒト哺乳類を含む、番号付き実施形態1~9のいずれか一項に記載の方法を含む。番号付き実施形態12は、1つ以上の哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、番号付き実施形態1~11のいずれか一項に記載の方法を含む。番号付き実施形態13は、1つ以上の非哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、番号付き実施形態1~12のいずれか一項に記載の方法を含む。番号付き実施形態14は、核酸エピジェネティック特徴の親和性標的化が、核酸エピジェネティック特徴を濃縮することを含む、番号付き実施形態1~13のいずれか一項に記載の方法を含む。番号付き実施形態15は、核酸エピジェネティック特徴が、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む、番号付き実施形態1~14のいずれか一項に記載の方法を含む。番号付き実施形態16は、核酸エピジェネティック特徴が、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む、番号付き実施形態1~15のいずれか一項に記載の方法を含む。番号付き実施形態17は、親和性標的化が、特異的親和性試薬を利用して、エピジェネティック特徴に結合する、番号付き実施形態1~16のいずれか一項に記載の方法を含む。番号付き実施形態18は、特異的親和性試薬が、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む、番号付き実施形態1~17のいずれか一項に記載の方法を含む。番号付き実施形態19は、組換えエピジェネティックタンパク質が、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む、番号付き実施形態1~18のいずれか一項に記載の方法を含む。番号付き実施形態20は、エピジェネティックリーダーが、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む、番号付き実施形態1~19のいずれか一項に記載の方法を含む。番号付き実施形態21は、エピジェネティックリーダーが、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む、番号付き実施形態1~20のいずれか一項に記載の方法を含む。番号付き実施形態22は、エピジェネティックリーダーが、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む、番号付き実施形態1~21のいずれか一項に記載の方法を含む。番号付き実施形態23は、エピジェネティックライター及びイレーサーが、触媒的に不活性である、番号付き実施形態1~22のいずれか一項に記載の方法を含む。番号付き実施形態24は、エピジェネティックリーダー、ライター、及びイレーサーが、エピトープタグを含む、番号付き実施形態1~23のいずれか一項に記載の方法を含む。番号付き実施形態25は、エピトープタグが、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む、番号付き実施形態1~24のいずれか一項に記載の方法を含む。番号付き実施形態26は、分子認識モチーフが、birA又はソルターゼモチーフを含む、番号付き実施形態1~25のいずれか一項に記載の方法を含む。番号付き実施形態27は、1つ以上の哺乳類及び非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、固体支持体が、エピトープタグに対する固定化された相補的な抗体を含む、番号付き実施形態1~26のいずれか一項に記載の方法を含む。番号付き実施形態28は、特異的親和性試薬が、エピジェネティック特徴を認識し、それに結合するための領域を含む、番号付き実施形態1~27のいずれか一項に記載の方法を含む。番号付き実施形態29は、親和性標的化が、生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む、番号付き実施形態1~28のいずれか一項に記載の方法を含む。番号付き実施形態30は、複数の固定化された親和性剤が、エピジェネティック特徴に結合するであろう領域を含む、番号付き実施形態1~29のいずれか一項に記載の方法を含む。番号付き実施形態31は、固体支持体が、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む、番号付き実施形態1~30のいずれか一項に記載の方法を含む。番号付き実施形態32は、フィルタリングが、ゲノムデータベースに対して、1つ以上の哺乳類配列決定リード及び1つ以上の非哺乳類配列決定リードをフィルタリングすることを含む、番号付き実施形態1~31のいずれか一項に記載の方法を含む。番号付き実施形態33は、ゲノムデータベースが、ヒトゲノムデータベースである、番号付き実施形態1~32のいずれか一項に記載の方法を含む。番号付き実施形態34は、予測モデルが、1個体以上の対象の生体試料の1つ以上の核酸分子及び1個体以上の対象の対応する疾患から決定された1つ以上の哺乳類、1つ以上の非哺乳類、又はそれらの組み合わせの特徴で訓練される、番号付き実施形態1~33のいずれか一項に記載の方法を含む。番号付き実施形態35は、1つ以上の哺乳類特徴が、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む、番号付き実施形態1~34のいずれか一項に記載の方法を含む。番号付き実施形態36は、1つ以上の哺乳類特徴が、哺乳類機能性遺伝子及び生化学的経路存在量を含む、番号付き実施形態1~35のいずれか一項に記載の方法を含む。番号付き実施形態37は、1つ以上の非哺乳類特徴は、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む、番号付き実施形態1~36のいずれか一項に記載の方法を含む。番号付き実施形態38は、1つ以上の非哺乳類特徴は、微生物機能性遺伝子及び生化学的経路存在量を含む、番号付き実施形態1~37のいずれか一項に記載の方法を含む。番号付き実施形態39は、液体生検試料が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む、番号付き実施形態1~38のいずれか一項に記載の方法を含む。番号付き実施形態40は、疾患を決定する予測モデルの精度が、生体試料の1つ以上の核酸分子が濃縮されている場合、生体試料の1つ以上の核酸分子が濃縮されていない場合と比較して、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する、番号付き実施形態1~39のいずれか一項に記載の方法を含む。番号付き実施形態41は、予測モデルが、対象の疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む、番号付き実施形態1~40のいずれか一項に記載の方法を含む。番号付き実施形態42は、訓練された予測モデルの出力が、1つ以上の哺乳類特徴存在量と1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む、番号付き実施形態1~41のいずれか一項に記載の方法を含む。番号付き実施形態43は、訓練された予測モデルの入力が、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む、番号付き実施形態1~42のいずれか一項に記載の方法を含む。番号付き実施形態44は、予測モデルが、疾患の組織特異的位置で更に訓練される、番号付き実施形態1~43のいずれか一項に記載の方法を含む。番号付き実施形態45は、予測モデルが、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される、番号付き実施形態1~44のいずれか一項に記載の方法を含む。番号付き実施形態46は、予測モデルが、対象の生体試料の核酸配列決定リードが提供された場合、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する、番号付き実施形態1~45のいずれか一項に記載の方法を含む。番号付き実施形態47は、予測モデルが、対象のがん療法応答を出力する、番号付き実施形態1~46のいずれか一項に
記載の方法を含む。番号付き実施形態48は、訓練された予測モデルが、対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす対象に対する療法を出力する、番号付き実施形態1~47のいずれか一項に記載の方法を含む。番号付き実施形態49は、訓練された予測モデルが、療法、対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、対象のがんの縦断的なモデルを出力する、番号付き実施形態1~48のいずれか一項に記載の方法を含む。番号付き実施形態50は、予測モデルが、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去する、番号付き実施形態1~49のいずれか一項に記載の方法を含む。番号付き実施形態51は、濃縮することが、1つ以上の核酸分子の合計を、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%減少させる、番号付き実施形態1~50のいずれか一項に記載の方法を含む。
【0099】
番号付き実施形態51は、予測モデルを訓練する方法であって、疾患を有する1個体以上の対象の生体試料を提供することと、生体試料の1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって1個体以上の対象の生体試料を濃縮することと、濃縮された1つ以上の核酸分子を配列決定して、1つ以上の核酸分子配列決定リードを生成することと、予測モデルを1つ以上の核酸分子配列決定リードの1つ以上の特徴及び1個体以上の対象の疾患で訓練することと、を含む、方法を含む。番号付き実施形態52は、エピジェネティック特徴が、哺乳類エピジェネティック特徴又は非哺乳類エピジェネティック特徴を含む、番号付き実施形態51に記載の方法を含む。実施形態53は、1つ以上の特徴が、1つ以上の疾患特徴を含む、番号付き実施形態51又は52に記載の方法を含む。番号付き実施形態54は、訓練された予測モデルに別の1個体以上の対象の生体試料の核酸配列決定リードが提供される場合、訓練された予測モデルが、1個体以上の対象とは異なる別の1個体以上の対象の疾患を決定する、番号付き実施形態51~53のいずれか一項に記載の方法を含む。番号付き実施形態55は、1つ以上の核酸分子が、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む、番号付き実施形態51~54のいずれか一項に記載の方法を含む。番号付き実施形態56は、1つ以上の核酸配列決定リードをフィルタリングして、1つ以上の非哺乳類配列決定リード、1つ以上の哺乳類配列決定リード、又はそれらの組み合わせを特定することを更に含む、番号付き実施形態51~55のいずれか一項に記載の方法を含む。番号付き実施形態57は、エピジェネティック特徴が、核酸エピジェネティック特徴を含む、番号付き実施形態51~56のいずれか一項に記載の方法を含む。番号付き実施形態58は、生体試料が、組織、液体生検試料、又はそれらの組み合わせを含む、番号付き実施形態51~57のいずれか一項に記載の方法を含む。番号付き実施形態58は、1個体以上の対象が、ヒト又は非ヒト哺乳類である、番号付き実施形態51~57のいずれか一項に記載の方法を含む。番号付き実施形態59は、1つ以上の哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、番号付き実施形態51~58のいずれか一項に記載の方法を含む。番号付き実施形態60は、1つ以上の非哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、番号付き実施形態51~59のいずれか一項に記載の方法を含む。番号付き実施形態61は、核酸エピジェネティック特徴の親和性標的化が、核酸エピジェネティック特徴を濃縮することを含む、番号付き実施形態51~60のいずれか一項に記載の方法を含む。番号付き実施形態62は、核酸エピジェネティック特徴が、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む、番号付き実施形態51~61のいずれか一項に記載の方法を含む。番号付き実施形態63は、核酸エピジェネティック特徴が、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む、番号付き実施形態51~62のいずれか一項に記載の方法を含む。番号付き実施形態64は、親和性標的化が、特異的親和性試薬を利用して、エピジェネティック特徴に結合する、番号付き実施形態51~63のいずれか一項に記載の方法を含む。番号付き実施形態65は、特異的親和性試薬が、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む、番号付き実施形態51~64のいずれか一項に記載の方法を含む。番号付き実施形態66は、組換えエピジェネティックタンパク質が、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む、番号付き実施形態51~65のいずれか一項に記載の方法を含む。番号付き実施形態67は、エピジェネティックリーダーが、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む、番号付き実施形態51~66のいずれか一項に記載の方法を含む。番号付き実施形態68は、エピジェネティックリーダーが、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む、番号付き実施形態51~67のいずれか一項に記載の方法を含む。番号付き実施形態69は、エピジェネティックライター及びイレーサーが、触媒的に不活性である、番号付き実施形態51~68のいずれか一項に記載の方法を含む。番号付き実施形態70は、エピジェネティックリーダー、ライター、及びイレーサーが、エピトープタグを含む、番号付き実施形態51~69のいずれか一項に記載の方法を含む。番号付き実施形態71は、エピトープタグが、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む、番号付き実施形態51~70のいずれか一項に記載の方法を含む。番号付き実施形態72は、分子認識モチーフが、birA又はソルターゼモチーフを含む、番号付き実施形態51~71のいずれか一項に記載の方法を含む。番号付き実施形態73は、1つ以上の哺乳類核酸分子及び1つ以上の非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、固体支持体が、エピトープタグに対する固定化された相補的な抗体を含む、番号付き実施形態51~72のいずれか一項に記載の方法を含む。番号付き実施形態74は、特異的親和性試薬が、エピジェネティック特徴を認識し、それに結合するための領域を含む、番号付き実施形態51~73のいずれか一項に記載の方法を含む。番号付き実施形態75は、親和性標的化が、生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む、番号付き実施形態51~74のいずれか一項に記載の方法を含む。番号付き実施形態76は、複数の固定化された親和性剤が、エピジェネティック特徴に結合するであろう領域を含む、番号付き実施形態51~75のいずれか一項に記載の方法を含む。番号付き実施形態77は、固体支持体が、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む、番号付き実施形態51~76のいずれか一項に記載の方法を含む。番号付き実施形態78は、フィルタリングが、ゲノムデータベースに対して、1つ以上の哺乳類及び非哺乳類配列決定リードをフィルタリングすることを含む、番号付き実施形態51~77のいずれか一項に記載の方法を含む。番号付き実施形態79は、ゲノムデータベースが、ヒトゲノムデータベースである、番号付き実施形態51~78のいずれか一項に記載の方法を含む。番号付き実施形態80は、1つ以上の特徴が、1つ以上の哺乳類特徴、1つ以上の非哺乳類特徴、又はそれらの組み合わせを含む、番号付き実施形態51~79のいずれか一項に記載の方法を含む。番号付き実施形態81は、1つ以上の哺乳類特徴が、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む、番号付き実施形態51~80のいずれか一項に記載の方法を含む。番号付き実施形態82は、1つ以上の哺乳類特徴が、哺乳類機能性遺伝子及び生化学的経路存在量を含む、番号付き実施形態51~81のいずれか一項に記載の方法を含む。番号付き実施形態83は、1つ以上の非哺乳類特徴が、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む、番号付き実施形態51~82のいずれか一項に記載の方法を含む。番号付き実施形態84は、1つ以上の非哺乳類特徴は、微生物機能性遺伝子及び生化学的経路存在量を含む、番号付き実施形態51~83のいずれか一項に記載の方法を含む。番号付き実施形態85は、液体生検試料が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む、番号付き実施形態51~84のいずれか一項に記載の方法を含む。番号付き実施形態86は、疾患が、がん又は非がん性疾患を含む、番号付き実施形態51~85のいずれか一項に記載の方法を含む。番号付き実施形態87は、疾患を決定する予測モデルの精度が、生体試料の1つ以上の核酸分子が濃縮されている場合、生体試料の1つ以上の核酸分子が濃縮されていない場合と比較して、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する、番号付き実施形態51~86のいずれか一項に記載の方法を含む。番号付き実施形態88は、予測モデルが、別の1個体以上の対象の疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む、番号付き実施形態51~87のいずれか一項に記載の方法を含む。番号付き実施形態89は、非哺乳類核酸エピジェネティック特徴が、ホスホロチオエート結合ヌクレオチドを含む、番号付き実施形態51~88のいずれか一項に記載の方法を含む。番号付き実施形態90は、エピジェネティックリーダーが、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む、番号付き実施形態51~89のいずれか一項に記載の方法を含む。番号付き実施形態91は、訓練された予測モデルの出力が、1つ以上の哺乳類特徴存在量と1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む、番号付き実施形態51~90のいずれか一項に記載の方法を含む。番号付き実施形態92は、訓練された予測モデルの入力が、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上からのエピゲノム存在量情報を含む、番号付き実施形態51~91のいずれか一項に記載の方法を含む。番号付き実施形態93は、予測モデルが、疾患の組織特異的位置で更に訓練される、番号付き実施形態51~92のいずれか一項に記載の方法を含む。番号付き実施形態94は、予測モデルが、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される、番号付き実施形態51~93のいずれか一項に記載の方法を含む。番号付き実施形態95は、予測モデルが、別の1個体以上の対象の生体試料の核酸配列決定リードが提供される場合、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する、番号付き実施形態51~94のいずれか一項に記載の方法を含む。番号付き実施形態96は、訓練された予測モデルが、別の1個体以上の対象のがん療法応答を出力する、番号付き実施形態51~95のいずれか一項に記載の方法を含む。番号付き実施形態97は、訓練された予測モデルが、別の1個体以上の対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす別の1個体以上の対象に対する療法を出力する、番号付き実施形態
51~96のいずれか一項に記載の方法を含む。番号付き実施形態98は、訓練された予測モデルが、療法、対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、別の1個体以上の対象のがんの縦断的なモデルを出力する、番号付き実施形態51~97のいずれか一項に記載の方法を含む。番号付き実施形態99は、がんが、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む、番号付き実施形態51~98のいずれか一項に記載の方法を含む。番号付き実施形態100は、予測モデルが、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去するように構成される、番号付き実施形態51~99のいずれか一項に記載の方法を含む。番号付き実施形態101は、非がん性疾患が、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む、番号付き実施形態51~100のいずれか一項に記載の方法を含む。番号付き実施形態102は、濃縮することが、1つ以上の核酸分子の合計を、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%減少させる、番号付き実施形態51~101のいずれか一項に記載の方法を含む。
【0100】
番号付き実施形態103は、対象の疾患を決定するコンピュータシステムであって、1つ以上のプロセッサと、ソフトウェアを含む非一時的コンピュータ可読記憶媒体と、を含み、ソフトウェアが、実行の結果として、コンピュータシステムの1つ以上のプロセッサに、(i)対象の生体試料の1つ以上の核酸分子の1つ以上の核酸分子配列決定リードを受信することであって、1つ以上の核酸分子が、1つ以上の核酸分子に共通するエピジェネティック特徴の親和性標的化によって濃縮される、受信することと、(ii)予測モデルに1つ以上の核酸分子配列決定が提供される場合、予測モデルの出力として対象の疾患を決定することと、を行わせる実行可能命令を備える、コンピュータシステムを含む。番号付き実施形態104は、1つ以上の核酸分子が、1つ以上の哺乳類核酸分子、1つ以上の非哺乳類核酸分子、又はそれらの組み合わせを含む、番号付き実施形態103に記載のシステムを含む。番号付き実施形態105は、疾患が、がん又は非がん性疾患を含む、番号付き実施形態103又は104に記載のシステムを含む。番号付き実施形態106は、がんが、急性骨髄性白血病、副腎皮質がん、膀胱尿路上皮がん、脳低悪性度神経膠腫、乳房浸潤がん、子宮頸部扁平上皮がん及び子宮頸管腺がん、胆管がん、結腸腺がん、食道がん、多形性神経膠芽腫、頭頸部扁平上皮がん、腎臓嫌色素性細胞、腎臓腎明細胞がん、腎臓腎乳頭細胞がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、リンパ腫瘍びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺がん、膵臓腺がん、褐色細胞腫及び傍神経節腫、前立腺腺がん、直腸腺がん、肉腫、皮膚皮膚黒色腫、胃腺がん、精巣胚細胞腫瘍、胸腺腫、甲状腺がん、子宮がん肉腫、子宮体部子宮内膜がん、ブドウ膜黒色腫、又はそれらの任意の組み合わせを含む、番号付き実施形態103~105のいずれか一項に記載のシステムを含む。番号付き実施形態107は、非がん性疾患が、エリテマトーデス、2型糖尿病、慢性閉塞性肺疾患(COPD)、サルコイドーシス、又はそれらの任意の組み合わせの非がん疾患を含む、番号付き実施形態103~106のいずれか一項に記載のシステムを含む。番号付き実施形態108は、実行可能命令は、1つ以上の核酸分子配列決定リードをフィルタリングして、1つ以上の非哺乳類配列決定リード及び1つ以上の哺乳類配列決定リードを特定することを更に含む、番号付き実施形態103~107のいずれか一項に記載のシステムを含む。番号付き実施形態109は、エピジェネティック特徴が、核酸エピジェネティック特徴を含む、番号付き実施形態103~108のいずれか一項に記載のシステムを含む。番号付き実施形態110は、エピジェネティック特徴が、哺乳類核酸エピジェネティック特徴又は非哺乳類核酸エピジェネティック特徴を含む、番号付き実施形態103~109のいずれか一項に記載のシステムを含む。番号付き実施形態111は、非哺乳類核酸エピジェネティック特徴が、ホスホロチオエート結合ヌクレオチドを含む、番号付き実施形態103~110のいずれか一項に記載のシステムを含む。番号付き実施形態112は、生体試料が、組織、液体生検試料、又はそれらの組み合わせを含む、番号付き実施形態103~111のいずれか一項に記載のシステムを含む。番号付き実施形態113は、対象が、ヒト又は非ヒト哺乳類である、番号付き実施形態103~112のいずれか一項に記載のシステムを含む。番号付き実施形態114は、1つ以上の哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、番号付き実施形態103~113のいずれか一項に記載のシステムを含む。番号付き実施形態115は、1つ以上の非哺乳類核酸分子が、DNA、RNA、無細胞DNA、無細胞RNA、エクソソームDNA、エクソソームRNA、又はそれらの任意の組み合わせを含む、番号付き実施形態103~114のいずれか一項に記載のシステムを含む。番号付き実施形態116は、核酸エピジェネティック特徴の親和性標的化が、核酸エピジェネティック特徴を濃縮することを含む、番号付き実施形態103~115のいずれか一項に記載のシステムを含む。番号付き実施形態117は、核酸エピジェネティック特徴が、メチル化CpGジヌクレオチド対、非メチル化CpGジヌクレオチド対、又はそれらの組み合わせを含む、番号付き実施形態103~116のいずれか一項に記載のシステムを含む。番号付き実施形態118は、核酸エピジェネティック特徴が、核酸塩基5-メチルシトシン、5-ヒドロキシメチルシトシン、N4-アセチルシトシン、N6-メチルアデニン、又はそれらの任意の組み合わせを含む、番号付き実施形態103~117のいずれか一項に記載のシステムを含む。番号付き実施形態119は、親和性標的化が、特異的親和性試薬を利用して、エピジェネティック特徴に結合する、番号付き実施形態103~118のいずれか一項に記載のシステムを含む。番号付き実施形態120は、特異的親和性試薬が、ストレプトアビジン、NeutrAvidin、ポリクローナル、モノクローナル、組換え抗体、アプタマー、組換えエピジェネティックタンパク質、又はそれらの任意の組み合わせを含む、番号付き実施形態103~119のいずれか一項に記載のシステムを含む。番号付き実施形態121は、組換えエピジェネティックタンパク質が、エピジェネティックリーダー、ライター、イレーサー、又はそれらの任意の組み合わせを含む、番号付き実施形態103~120のいずれか一項に記載のシステムを含む。番号付き実施形態122は、エピジェネティックリーダーが、組換えメチル-CpG結合タンパク質Mecp2、Mbd1-6、SETDB1、SETDB2、TIP5/BAZ2A、Zbtb38、Kaiso、Zbtb4、Np95、Np97、又はそれらに由来する組換えメチル結合ドメインを含む、番号付き実施形態103~121のいずれか一項に記載のシステムを含む。番号付き実施形態123は、エピジェネティックリーダーが、組換えジンクフィンガーCXXCドメイン含有タンパク質KDM2A、KDM2A、KDM2B、FBXL19、CFP1、DNMT1、MLL1、MLL2、MDB1、TET1、TET3、IDAX、CXXC5、CGBP、又はそれらに由来する組換えCXXCドメインを含む、番号付き実施形態103~122のいずれか一項に記載のシステムを含む。番号付き実施形態124は、エピジェネティックリーダーが、微生物タンパク質Dam、CcrM、ModA13、SpnD39III、Dcm、JHP1050、M2.Hpy.AII、又はそれらに由来する組換えメチル結合ドメインを含む、番号付き実施形態103~123のいずれか一項に記載のシステムを含む。番号付き実施形態125は、エピジェネティックライター及びイレーサーが、触媒的に不活性である、番号付き実施形態103~124のいずれか一項に記載のシステムを含む。番号付き実施形態126は、エピジェネティックリーダー、ライター、及びイレーサーが、エピトープタグを含む、番号付き実施形態103~125のいずれか一項に記載のシステムを含む。番号付き実施形態127は、エピトープタグが、N末端若しくはC末端6×ヒスチジンタグ、緑色蛍光タンパク質(MA)、myc、ヘマグルチニン(HA)、Fc融合体、分子認識モチーフ、又はそれらの任意の組み合わせを含む、番号付き実施形態103~126のいずれか一項に記載のシステムを含む。番号付き実施形態128は、分子認識モチーフが、birA又はソルターゼモチーフを含む、番号付き実施形態103~127のいずれか一項に記載のシステムを含む。番号付き実施形態129は、1つ以上の哺乳類及び非哺乳類核酸分子を固体支持体によって濃縮することを更に含み、固体支持体が、エピトープタグに対する固定化された相補的な抗体を含む、番号付き実施形態103~128のいずれか一項に記載のシステムを含む。番号付き実施形態130は、特異的親和性試薬が、エピジェネティック特徴を認識し、それに結合するための領域を含む、番号付き実施形態103~129のいずれか一項に記載のシステムを含む。番号付き実施形態131は、親和性標的化が、生体試料を、複数の固定化された親和性剤を含む固体支持体とインキュベートすることを含む、番号付き実施形態103~130のいずれか一項に記載のシステムを含む。番号付き実施形態132は、複数の固定化された親和性剤が、エピジェネティック特徴に結合するであろう領域を含む、番号付き実施形態103~131のいずれか一項に記載のシステムを含む。番号付き実施形態133は、固体支持体が、磁性ビーズ、アガロースビーズ、非磁性ラテックス、機能化セファロース、pH感受性ポリマー、又はそれらの任意の組み合わせを含む、番号付き実施形態103~132のいずれか一項に記載のシステムを含む。番号付き実施形態134は、フィルタリングが、ゲノムデータベースに対して、1つ以上の哺乳類配列決定リード及び1つ以上の非哺乳類配列決定リードをフィルタリングすることを含む、番号付き実施形態103~133のいずれか一項に記載のシステムを含む。番号付き実施形態135は、ゲノムデータベースが、ヒトゲノムデータベースである、番号付き実施形態103~134のいずれか一項に記載のシステムを含む。番号付き実施形態136は、予測モデルが、1個体以上の対象の生体試料の1つ以上の核酸分子及び1個体以上の対象の対応する疾患から決定された1つ以上の哺乳類、1つ以上の非哺乳類、又はそれらの組み合わせの特徴で訓練される、番号付き実施形態103~135のいずれか一項に記載のシステムを含む。番号付き実施形態137は、1つ以上の哺乳類特徴が、哺乳類ゲノム座標又は注釈付きゲノム遺伝子座、及びそれに関連するいくつかの配列決定リードを含む、番号付き実施形態103~136のいずれか一項に記載のシステムを含む。番号付き実施形態138は、1つ以上の哺乳類特徴が、哺乳類機能性遺伝子及び生化学的経路存在量を含む、番号付き実施形態103~137のいずれか一項に記載のシステムを含む。番号付き実施形態139は、1つ以上の非哺乳類特徴が、微生物分類学的割り当て及びそれに関連するいくつかの配列決定リードを含む、番号付き実施形態103~138のいずれか一項に記載のシステムを含む。番号付き実施形態140は、1つ以上の非哺乳類特徴が、微生物機能性遺伝子及び生化学的経路存在量を含む、番号付き実施形態103~139のいずれか一項に記載のシステムを含む。番号付き実施形態141は、液体生検試料が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、又はそれらの任意の組み合わせを含む、番号付き実施形態103~140のいずれか一項に記載のシステムを含む。番号付き実施形態142は、疾患を決定する予測モデルの精度が、生体試料の1つ以上の核酸分子が濃縮されている場合、生体試料の1つ以上の核酸分子が濃縮されていない場合と比較して、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約85%、少なくとも約90%、又は少なくとも約95%増加する、番号付き実施形態103~141のいずれか一項に記載のシステムを含む。番号付き実施形態143は、予測モデルが、対象の疾患を決定する場合、少なくとも約0.70、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、又は少なくとも約0.95の曲線下面積を含む、番号付き実施形態103~142のいずれか一項に記載のシステムを含む。番号付き実施形態144は、訓練された予測モデルの出力が、1つ以上の哺乳類特徴存在量と1つ以上の非哺乳類特徴存在量との組み合わせの分析を含む、番号付き実施形態103~143のいずれか一項に記載のシステムを含む。番号付き実施形態145は、訓練された予測モデルの入力が、以下の生物界:哺乳類、細菌、古細菌、真菌、及び/又はウイルスのうちの1つ以上
からのエピゲノム存在量情報を含む、番号付き実施形態103~144のいずれか一項に記載のシステムを含む。番号付き実施形態146は、予測モデルが、疾患の組織特異的位置で更に訓練される、番号付き実施形態103~145のいずれか一項に記載のシステムを含む。番号付き実施形態147は、予測モデルが、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせで更に訓練される、番号付き実施形態103~146のいずれか一項に記載のシステムを含む。番号付き実施形態148は、予測モデルが、対象の生体試料の核酸配列決定リードが提供された場合、がんのタイプ、サブタイプ、病期、予後、又はそれらの任意の組み合わせを出力する、番号付き実施形態103~147のいずれか一項に記載のシステムを含む。番号付き実施形態149は、予測モデルが、対象のがん療法応答を出力する、番号付き実施形態103~148のいずれか一項に記載のシステムを含む。番号付き実施形態150は、訓練された予測モデルが、対象のがん領域の少なくとも約5%、少なくとも約10%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、又は少なくとも約95%の減少をもたらす対象に対する療法を出力する、番号付き実施形態103~149のいずれか一項に記載のシステムを含む。番号付き実施形態151は、訓練された予測モデルが、療法、対象のがんを治療するための療法への調整、又はそれらの組み合わせに応答して、対象のがんの縦断的なモデルを出力する、番号付き実施形態103~150のいずれか一項に記載のシステムを含む。番号付き実施形態152は、予測モデルが、他の非夾雑非哺乳類特徴を選択的に保持しながら、夾雑非哺乳類特徴を除去する、番号付き実施形態103~151のいずれか一項に記載のシステムを含む。番号付き実施形態153は、濃縮された核酸が、濃縮前の1つ以上の核酸分子の少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約97%、少なくとも約98%、又は少なくとも約99%の減少を含む、番号付き実施形態103~152のいずれか一項に記載のシステムを含む。
【実施例
【0101】
実施例1:5-ヒドロキシメチルシトシン微生物エピジェネティックバイオマーカーの発見及びがん診断モデルの評価
図5A図5Dは、5-ヒドロキシメチルシトシン(5hmC)微生物エピジェネティックバイオマーカーの発見及びがん診断モデルの評価の研究の実験パラメータ及び得られる分類精度を示す。図5Aは、5-ヒドロキシルメチルシトシン濃縮配列決定データが得られた無細胞DNA研究、及び配列決定データに存在する試料タイプを示す。次いで、得られた非ヒト配列決定データを、微生物ゲノムの参照データベース(「rep206」)にアラインメントした。図5Bに、非ヒトリードのアラインメントのデータセットを示す。図5Cは、アラインメントされたデータセットに存在する膵臓がん試料の臨床的詳細を示す。次いで、機械学習モデルを、図5Dに示される膵臓がん患者及び健康な個体からの5hmC濃縮微生物核酸に対して訓練した(「5hmC試料」ROC曲線、左;「入力試料」ROC曲線は、濃縮されていない核酸から生成された)。試料数が少ないため、試料特徴セットのより伝統的な70/30の訓練-試験分割の代わりに、一つ抜き(leave-one-out)(LOO)交差検証を行った。図5Eは、データセットに存在する肺がん試料の臨床的詳細を示す。図5Fは、肺がん患者及び健康な個体からの5hmC濃縮微生物核酸に対して訓練された機械学習モデルの性能を示す。図5Dと同様に、LOOを利用して、肺がん分類器を開発した。
【0102】
図6Aは、5-ヒドロキシルメチルシトシン濃縮配列決定データが得られた無細胞DNA研究、及びそこに存在する試料タイプを示す。図6Bは、様々ながんタイプ及び健康な個体からの5hmC濃縮された微生物核酸で訓練されたランダムフォレスト機械学習分類器の性能を示す。各がんタイプ対健康についてのROC曲線は、それぞれのROC曲線上に指定されたがんタイプで与えられる。図6Cは、結腸がん及び胃がんからの5hmC濃縮微生物核酸、並びに結腸がん及び胃がんからの良性腫瘍に対して訓練されたランダムフォレスト機械学習分類器の性能を示す。図6Dは、図6Cからの同じ試料に対して訓練されたランダムフォレスト機械学習分類器の性能を示す。しかしながら、この例では、微生物5hmC特徴セットは、特定の微生物界(すなわち、細菌、真菌、及びウイルス)に限定され、それによって、3つの生物界全てが、がん対良性の判別力を有する5hmCを有する特徴を含有することを実証した。
【0103】
実施例2:hMeDIP-seq法による5hmC陽性微生物ゲノム領域の特定
5hmCの濃縮は、Active MotifのhMeDIPキット(#55010)を使用して、製造業者のプロトコルに従って行う。簡潔に述べると、3~5μgのヒト脳DNA(Zyagen #HG0201)、Pseudomonas aeruginosa株PAO1-LAC DNA(ATCC #47085D-5)、Escherichia coli株EDL933 DNA(ATCC #700927D-5)、及びBacillus subtilis株168 DNA(ATCC #23857D-5)を、酵素消化を使用して(酵素断片化のためのRocheのKAPA fragキット、#07962517001)、製造業者のプロトコルに従って断片化する。試料を37℃で8分間インキュベーションし、その後、AMPure XPビーズ(Beckman Coulter #A63881)を使用して精製する。断片化DNAを、Qubit1×dsDNA HSアッセイキット(ThermoFisher #Q33231)を使用して定量化し、断片化プロファイルを、TapeStationゲノム(Agilent #5067-5365)及びD1000(Agilent #5067-5582)テープを使用して可視化する。100ngの断片化されたヒト脳gDNA及び500ngのPseudomonas aeruginosa、Escherichia coli、及びBacillus subtilisからのDNAを、4μgのウサギ抗5hmC抗体又は対照IgGのいずれかと、4℃で一晩回転させながらインキュベートする。材料の10%(それぞれ10ng及び50ng)を入力として留保し、下流の精製及び分析まで、-80℃で保存する。25μLのPierceプロテインA/Gプラスアガロースビーズ(ThermoFisher #20423)を添加し、試料を室温で2時間回転させ、続いて、製造業者のプロトコルに示されているように洗浄することによって、タンパク質-抗体複合体を捕捉する。捕捉された抗体-タンパク質複合体を、SDS媒介溶出を使用して、ビーズから溶出する。同様に、等量の溶出緩衝液も入力に追加する。溶出された免疫沈降(IP)材料及びそれらのそれぞれの入力を、Qiagen MinEluteカラムを使用して精製する。次いで、それらをqPCRベースのQC分析にかけて、IP効率を評価し、その後、ライブラリを調製する。
【0104】
2S(商標)Plus DNAライブラリキット(IDT #10009878)及び2S(商標)MIDアダプタセットA+B(IDT #10009902)を使用して、製造業者のプロトコルに従ってライブラリを調製する。簡潔に述べると、入力及びIPを増幅するために、それぞれ9回及び14回のPCRサイクルを使用した。最終ライブラリを、25μLの体積で溶出する。最終ライブラリは、KAPAライブラリ定量キット(Roche #07960140001)及びQubit 1×dsDNA HSアッセイキットを使用して定量化し、TapeStation D1000テープを使用して可視化する。それらは、P3ケミストリー(Illumina #20040561)を使用して、NextSeq2000上でペアエンド(150×150 8×0)配列決定する。ゲノム全体の5hmCの濃縮は、MeDIPSパッケージを介して計算的に特定する(Lienhard,M.,Grimm,C.,Morkel,M.,Herwig,R.,& Chavez,L.(2014).MEDIPS:genome-wide differential coverage analysis of sequencing data derived from DNA enrichment experiments.Bioinformatics(Oxford,England),30(2),284-286.https://doi.org/10.1093/bioinformatics/btt650)ここでは、非免疫沈降入力対照で見出されるリード数よりも、目的のゲノム遺伝子座での配列決定リードの統計的に有意な増加が計算され、表にされる。
【0105】
定義
別途定義されない限り、本明細書で使用される全ての技術用語、表記法、並びに他の技術用語及び科学用語又は専門用語は、請求される主題が関連する技術分野の当業者によって一般的に理解されるものと同じ意味を有することが意図される。いくつかの場合では、一般的に理解される意味を有する用語は、明瞭さ及び/又は容易に参照するために本明細書に定義され、そのような定義を本明細書に含めることは、必ずしも当該技術分野で一般的に理解されるものとの実質的な違いを表すと解釈されるべきではない。
【0106】
本出願全体を通じて、様々な実施形態は、範囲形式で提示され得る。範囲形式での説明は、単に便宜及び簡潔のためであり、本開示の範囲に対する柔軟性のない限定として解釈されるべきでないことを理解されたい。したがって、範囲の記載は、全ての可能な部分範囲並びにその範囲内の個々の値を具体的に開示しているとみなされるべきである。例えば、1~6などの範囲の記載は、1~3、1~4、1~5、2~4、2~6、3~6などの部分範囲、並びにその範囲内の個々の数字、例えば、1、2、3、4、5、及び6などを具体的に開示しているとみなされるべきである。これは、範囲の幅に関係なく適用される。
【0107】
本明細書及び特許請求の範囲で使用される場合、「a」、「an」及び「the」という単数形は、別段文脈が明らかに指示しない限り、複数の指示対象を含む。例えば、「試料(a sample)」という用語は、それらの混合物を含む、複数の試料を含む。
【0108】
「決定すること」、「測定すること」、「評価すること(evaluating)」、「評価すること(assessing)」、「アッセイすること」、及び「分析すること」という用語は、多くの場合、測定の形態を指すために本明細書で互換的に使用される。これらの用語は、要素が存在するか否かを決定すること(例えば、検出)を含む。これらの用語は、定量的、定性的、又は定量的及び定性的決定を含み得る。評価することは、相対的又は絶対的であり得る。「の存在を検出すること」は、文脈に応じて、それが存在するか存在しないかを決定することに加えて、存在するものの量を決定することを含み得る。
【0109】
「対象」、「個体」、又は「患者」という用語は、本明細書では互換的に使用される。「対象」は、発現された遺伝物質を含有する生物学的実体であり得る。生物学的実体は、例えば、細菌、ウイルス、真菌、及び原生動物を含む、植物、動物、又は微生物であり得る。対象は、インビボで得られた、又はインビトロで培養された生物学的実体の組織、細胞、及びそれらの子孫であり得る。対象は、哺乳動物であり得る。哺乳動物は、ヒトであり得る。対象は、疾患のリスクが高いと診断されるか、又は疑われ得る。いくつかの場合では、対象は、必ずしも疾患のリスクが高いと診断されるか、又は疑われるわけではない。
【0110】
「エピジェネティック特徴」という用語は、化学物質又は環境要因によって導入される核酸修飾とは対照的に、細胞の生化学的機構(酵素)によって組み込まれるか又は除去される核酸に対する遺伝的かつ可逆的な化学修飾を説明するために使用される。これはまた、感染プロセス中に宿主細胞の酵素機構のウイルス動員及び/又はウイルス酵素を介して産生されるウイルス核酸への化学修飾にも適用される。
【0111】
「メタエピジェネティック」及び「メタエピゲノム」という用語は、複数の生物界からの核酸の分析に由来する核酸配列決定データなどのエピジェネティックデータを組み合わせた分析を説明するために使用される。これらの例では、配列決定データは、標的化されたエピジェネティック特徴を有する核酸を濃縮するために、1つ以上のエピジェネティック特徴を用いた核酸の濃縮に由来する。
【0112】
「エピジェネティックライター」という用語は、特定のヌクレオチド修飾を組み込むために必要な生化学的反応(複数可)を行う酵素を説明するために使用される。例えば、哺乳類DNAメチルトランスフェラーゼは、ゲノム内の選択されたシトシンヌクレオチドにメチル基を組み込む「エピジェネティックライター」である。
【0113】
「エピジェネティックリーダー」という用語は、エピジェネティックマークを認識し、問題のエピジェネティックマークの認識に依存する細胞事象又は転写事象を促進/調整することができるタンパク質を説明するために使用される。
【0114】
「エピジェネティックイレーサー」という用語は、特定のヌクレオチド修飾を除去するために必要な生化学的反応(複数可)を行う酵素を説明するために使用される。
【0115】
「分類学的存在量」という用語は、各試料における特定された微生物分類群に割り当てることができるいくつかの配列決定リードを説明するために使用される。
【0116】
「生物界間」という用語は、2つ以上の分類学的生物界(ここでは、哺乳類、細菌、古細菌、真菌、及びウイルス)からの生物学的又は分子的なデータ又は特徴を組み合わせる分析を説明するために使用される。
【0117】
「インビボ」という用語は、対象の体内で起こる事象を説明する。
【0118】
「エクスビボ」という用語は、対象の体外で起こる事象を説明する。エクスビボアッセイは、対象に対して実施されない。むしろ、それは、対象とは別の試料に対して実施される。試料に対して実施されるエクスビボアッセイの例は、「インビトロ」アッセイである。
【0119】
「インビトロ」という用語は、材料が得られる生物源から分離されるように、実験室試薬を保持するための容器内で起こる事象を説明するために使用される。インビトロアッセイは、生細胞又は死細胞が用いられる細胞ベースのアッセイを包含することができる。インビトロアッセイはまた、無傷の細胞が用いられない無細胞アッセイを包含することができる。
【0120】
本明細書で使用される「約」数という用語は、その数にその数の10%を加えた又は引いたものを指す。「約」範囲という用語は、その範囲にその最小値の10%を引いた、及びその最大値の10%を加えた範囲を指す。
【0121】
絶対的又は連続的用語、例えば、「するだろう(will)」、「しないだろう(will not)」、「とする(shall)」、「としない(shall not)」、「する必要がある(must)」、「してはならない(must not)」、「最初に(first)」、「最初に(initially)」、「次」、「続いて」、「前」、「後」、「最後に(lastly)」、及び「最後に(finally)」の使用は、本明細書に開示の本実施形態の範囲を限定することを意図するものではなく、例示としてである。
【0122】
本明細書に記載される任意のシステム、方法、ソフトウェア、組成物、及びプラットフォームは、モジュラーであり、連続的なステップに限定されない。したがって、「第1」及び「第2」などの用語は、必ずしも優先順位、重要性の順序、又は行為の順序を暗示しない。
【0123】
本明細書で使用される場合、「治療」又は「治療すること」という用語は、レシピエントにおいて有益な又は所望の結果を得るための薬学的又は他の介入レジメンを参照して使用される。有益な又は所望の結果は、治療的利益及び/又は予防的利益を含むが、これらに限定されない。治療的利益は、治療される症状又は基礎障害の根絶又は改善を指し得る。また、治療的利益は、対象は依然として基礎障害に罹患している可能性があるが対象において改善が観察されるような基礎障害に関連する生理学的症状のうちの1つ以上の根絶又は改善で達成され得る。予防効果は、疾患若しくは状態の出現の遅延、予防、若しくは排除、疾患若しくは状態の症状の発病の遅延若しくは排除、疾患若しくは状態の進行の減速、停止、若しくは逆転、又はそれらの任意の組み合わせを含む。予防的利益のために、特定の疾患を発症させるリスクのある対象、又は疾患の生理学的症状のうちの1つ以上を報告する対象は、この疾患の診断がなされていな場合があるにもかかわらず、治療を受けてもよい。
【0124】
本明細書で使用されるセクションの見出しは、構成の目的のためにのみ使用され、記載される主題を限定するものとして解釈されるべきではない。
図1A
図1B
図1C
図1D
図1E
図1F
図2A
図2B
図2C
図2D
図2E
図3A
図3B
図3C
図3D
図3E
図4
図5A
図5B
図5C
図5D
図5E
図5F
図6A
図6B
図6C
図6D
図7
【国際調査報告】