IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フリーノム ホールディングス,インク.の特許一覧

特表2024-528704核酸シーケンシングにおける、改善された5-ヒドロキシメチル化シトシンの分解能のための組成物および方法
<>
  • 特表-核酸シーケンシングにおける、改善された5-ヒドロキシメチル化シトシンの分解能のための組成物および方法 図1A
  • 特表-核酸シーケンシングにおける、改善された5-ヒドロキシメチル化シトシンの分解能のための組成物および方法 図1B
  • 特表-核酸シーケンシングにおける、改善された5-ヒドロキシメチル化シトシンの分解能のための組成物および方法 図2
  • 特表-核酸シーケンシングにおける、改善された5-ヒドロキシメチル化シトシンの分解能のための組成物および方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-30
(54)【発明の名称】核酸シーケンシングにおける、改善された5-ヒドロキシメチル化シトシンの分解能のための組成物および方法
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20240723BHJP
   C12Q 1/48 20060101ALI20240723BHJP
   C12Q 1/25 20060101ALI20240723BHJP
   C12Q 1/6844 20180101ALI20240723BHJP
   C12Q 1/6806 20180101ALI20240723BHJP
   C12Q 1/6886 20180101ALI20240723BHJP
【FI】
C12Q1/6869 Z
C12Q1/48
C12Q1/25
C12Q1/6844 Z
C12Q1/6806 Z
C12Q1/6886 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024503898
(86)(22)【出願日】2022-07-19
(85)【翻訳文提出日】2024-02-29
(86)【国際出願番号】 US2022037557
(87)【国際公開番号】W WO2023003851
(87)【国際公開日】2023-01-26
(31)【優先権主張番号】63/223,661
(32)【優先日】2021-07-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.FRAM
2.ANDROID
(71)【出願人】
【識別番号】521040846
【氏名又は名称】フリーノム ホールディングス,インク.
(74)【代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(72)【発明者】
【氏名】アリアジ,エリック
(72)【発明者】
【氏名】エスクエティーニ,パウラ
(72)【発明者】
【氏名】テワリ,アニーシャ
(72)【発明者】
【氏名】ワインバーグ,デイビッド
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA19
4B063QQ03
4B063QQ08
4B063QQ42
4B063QR08
4B063QR42
4B063QR55
4B063QR62
4B063QS25
4B063QS34
4B063QX01
(57)【要約】
【解決手段】
本開示は、核酸シーケンシングライブラリの品質および核酸メチル化プロファイリングを改善するのに有用な5hmCシーケンシングの分解能を改善するためのオリゴヌクレオチドアダプタ組成物、方法、およびシステムを提供する。改善されたオリゴヌクレオチドアダプタを適用する方法、および機械学習分類子生成のためのシーケンシング方法、ならびにがんなどの細胞増殖性障害を検出する方法も提供される。改善されたオリゴヌクレオチドアダプタを適用する方法と共に、標的核酸濃縮を適用する方法、ならびに核酸シーケンシングライブラリの品質および核酸メチル化プロファイリングを改善するためのシーケンシング方法も提供される。
【選択図】図1A
【特許請求の範囲】
【請求項1】
生体試料中の核酸のヒドロキシメチル化状態データを提供するための方法であって、前記方法は、
a)前記核酸を含有する前記生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、前記生体試料中の前記核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、前記オリゴヌクレオチドアダプタが、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)前記ライゲーションされた核酸またはその誘導体の少なくとも一部に、前記ライゲーションされた核酸の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換するが、ヒドロキシメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換しない変換条件を適用し、それによって、変換された核酸を生成する工程と、
d)前記変換された核酸の少なくとも一部をシーケンシングして、前記変換された核酸の核酸シーケンスを得て、前記核酸の前記ヒドロキシメチル化状態データを提供する工程と
を含む、方法。
【請求項2】
前記オリゴヌクレオチドアダプタが、前記オリゴヌクレオチドアダプタのフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない、請求項1に記載の方法。
【請求項3】
b)の後またはc)の前に、前記ライゲーションされた核酸の少なくとも一部に、β-グルコシルトランスフェラーゼ(β-GT)/UDP-グルコースによるグルコシル化を行い、5hmCヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む、請求項1に記載の方法。
【請求項4】
前記変換条件が、亜硫酸水素塩処理、酵素処理、またはそれらの組み合わせを含む、請求項1に記載の方法。
【請求項5】
前記オリゴヌクレオチドアダプタが、5hmCヌクレオチドを含む、請求項1に記載の方法。
【請求項6】
前記オリゴヌクレオチドアダプタが、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、請求項1に記載の方法。
【請求項7】
前記変換条件が、β-GT、シトシンジオキシゲナーゼ酵素、カルボキシメチルトランスフェラーゼ、アポリポタンパク質B mRNA編集触媒ポリペプチド様タンパク質(AID/APOBEC)、またはそれらの組み合わせによる処理を含む、請求項1に記載の方法。
【請求項8】
前記シトシンジオキシゲナーゼ酵素が、テンイレブントランスロケーションタンパク質1(TET1)、テンイレブントランスロケーションタンパク質2(TET2)、テンイレブントランスロケーションタンパク質3(TET3)、またはその機能的変異体を含む、請求項7に記載の方法。
【請求項9】
b)の後またはc)の前に、シーケンス濃縮を実施する工程をさらに含む、請求項1に記載の方法。
【請求項10】
前記シーケンス濃縮が、ターゲットキャプチャーハイブリダイゼーションを含む、請求項9に記載の方法。
【請求項11】
前記ライゲーションされた核酸の少なくとも一部が、シーケンシングする工程の前に増幅される、請求項1に記載の方法。
【請求項12】
前記オリゴヌクレオチドアダプタが、5hmCホスホラミダイトを使用して化学的に合成される、請求項1に記載の方法。
【請求項13】
前記オリゴヌクレオチドアダプタが、5gmCヌクレオチドおよび5caCヌクレオチドを含み、前記オリゴヌクレオチドアダプタが、ホスホロアミダイト化学を使用して5mC含有オリゴヌクレオチドを合成することと、前記5mC含有オリゴヌクレオチドをTET酵素およびβ-GT/UDP-グルコースで酵素的に処理することとによって少なくとも部分的に生成される、請求項1に記載の方法。
【請求項14】
オリゴヌクレオチドアダプタを生成するための方法であって、前記方法は、
a)少なくとも部分的に、ホスホラミダイト化学によって、5mC含有オリゴヌクレオチドを合成する工程と、
b)前記5mC含有オリゴヌクレオチドをTET酵素およびβ-GT/UDP-グルコースと接触させて、5mCヌクレオチドを5gmCヌクレオチドまたは5caCヌクレオチドに変換し、それによって前記オリゴヌクレオチドアダプタを生成する工程と
を含む、方法。
【請求項15】
前記オリゴヌクレオチドアダプタが、末端デオキシヌクレオチジルトランスフェラーゼ(TdT)媒介性酵素的オリゴヌクレオチド合成を使用して合成される、請求項14に記載の方法。
【請求項16】
前記オリゴヌクレオチドアダプタが、5gmCヌクレオチドおよび5caCヌクレオチドを含む、請求項14に記載の方法。
【請求項17】
SAM依存性C5-メチルトランスフェラーゼ(C5-MT)または別のDNA シトシン-5 メチルトランスフェラーゼを使用して、前記5mC含有オリゴヌクレオチド中の非メチル化シトシンヌクレオチドをメチル化する工程をさらに含む、請求項14に記載の方法。
【請求項18】
前記オリゴヌクレオチドアダプタを、生体試料から単離された核酸の少なくとも一部にライゲーションする工程をさらに含む、請求項14に記載の方法。
【請求項19】
オリゴヌクレオチドアダプタを生成するための方法であって、前記方法は、
少なくとも部分的に、ホスホラミダイト化学によって、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含有するオリゴヌクレオチドを合成し、それによって前記オリゴヌクレオチドアダプタを生成する工程を含む、方法。
【請求項20】
前記オリゴヌクレオチドアダプタが、酵素的オリゴヌクレオチド合成技術を使用して合成される、請求項19に記載の方法。
【請求項21】
前記オリゴヌクレオチドアダプタを、生体試料から単離された核酸の少なくとも一部にライゲーションする工程をさらに含む、請求項19に記載の方法。
【請求項22】
生体試料中の核酸のヒドロキシメチル化プロファイルを生成するための機械学習モデルを訓練するための方法であって、前記方法は、
a)前記核酸を含有する前記生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、前記生体試料中の前記核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、前記オリゴヌクレオチドアダプタが、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)前記ライゲーションされた核酸の少なくとも一部に、前記ライゲーションされた核酸中の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換された核酸を生成する工程と、
d)前記変換された核酸の少なくとも一部をシーケンシングし、前記変換された核酸の核酸シーケンスを得て、前記核酸のヒドロキシメチル化状態データを提供する工程と、
e)前記ヒドロキシメチル化状態データを使用して、前記ヒドロキシメチル化プロファイルを生成するために、前記機械学習モデルを訓練する工程と
を含む、方法。
【請求項23】
前記オリゴヌクレオチドアダプタが、前記オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない、請求項22に記載の方法。
【請求項24】
b)の後またはc)の前に、前記ライゲーションされた核酸の少なくとも一部に、少なくとも部分的に、β-GT/UDP-グルコースによるグルコシル化を行い、5hmCヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む、請求項22に記載の方法。
【請求項25】
前記生体試料が無細胞DNA(cfDNA)を含む、請求項22に記載の方法。
【請求項26】
個体から得られるかまたは個体に由来する生体試料中のcfDNAのヒドロキシメチル化プロファイルを決定するための方法であって、前記方法は、
a)前記cfDNAを含有する前記生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、前記生体試料中の前記cfDNAの少なくとも一部にライゲーションし、それによって、ライゲーションされたcfDNAを生成する工程であって、前記オリゴヌクレオチドアダプタが、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)前記ライゲーションされたcfDNAまたはその誘導体の少なくとも一部に、前記ライゲーションされたcfDNA中の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換されたcfDNAを生成する工程と、
d)前記変換されたcfDNAの少なくとも一部をシーケンシングし、前記変換されたcfDNAの核酸シーケンスを得て、前記cfDNAの前記ヒドロキシメチル化状態データを提供する工程と、
e)前記変換されたcfDNAの前記核酸シーケンスを参照核酸シーケンスにアラインメントして、前記生体試料の前記ヒドロキシメチル化プロファイルを決定する工程と
を含む、方法。
【請求項27】
シーケンシングする工程の前に、前記ライゲーションされたcfDNAの少なくとも一部を増幅する工程をさらに含む、請求項26に記載の方法。
【請求項28】
増幅する工程の前に、核酸シーケンシングライブラリを準備する工程をさらに含む、請求項27に記載の方法。
【請求項29】
前記オリゴヌクレオチドアダプタが、前記オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない、請求項26に記載の方法。
【請求項30】
b)の後またはc)の前に、前記ライゲーションされたcfDNAの少なくとも一部に、少なくとも部分的に、β-GT/UDP-グルコースによるグルコシル化を行い、ヒドロキシメチル化シトシンヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む、請求項26に記載の方法。
【請求項31】
前記ヒドロキシメチル化プロファイルが、異常な細胞状態または疾患と関連し、前記異常な細胞状態または前記疾患を有するとして個体の分類を提供する、請求項26に記載の方法。
【請求項32】
前記異常な細胞状態または前記疾患が、ステージ1のがん、ステージ2のがん、ステージ3のがん、またはステージ4のがんである、請求項31に記載の方法。
【請求項33】
前記オリゴヌクレオチドアダプタが、固有の分子識別子を含む、請求項26に記載の方法。
【請求項34】
前記変換条件が、化学的方法、酵素的方法、またはこれらの組み合わせを使用することを含む、請求項26に記載の方法。
【請求項35】
前記変換条件が、亜硫酸水素塩、重亜硫酸塩、二亜硫酸塩、またはこれらの組み合わせで処理することを含む、請求項26に記載の方法。
【請求項36】
前記生体試料が、体液、糞便、結腸流出物、尿、脳脊髄液、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される、請求項26に記載の方法。
【請求項37】
生体試料についての分類子を生成するための方法であって、前記方法は、
a)核酸を含有する前記生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、前記生体試料中の前記核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、前記オリゴヌクレオチドアダプタが、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)前記ライゲーションされた核酸の少なくとも一部に、前記ライゲーションされた核酸中の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換された核酸を生成する工程と、
d)前記変換された核酸の少なくとも一部をシーケンシングし、前記変換された核酸の核酸シーケンスを得て、前記核酸のヒドロキシメチル化状態データを提供する工程と、
e)前記ヒドロキシメチル化状態データを使用して、前記分類子を生成するために機械学習モデルを訓練する工程と
を含む、方法。
【請求項38】
前記オリゴヌクレオチドアダプタが、前記オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない、請求項37に記載の方法。
【請求項39】
c)の前に、前記ライゲーションされた核酸の少なくとも一部に、少なくとも部分的に、β-GT/UDP-グルコースによるグルコシル化を行い、ヒドロキシメチル化シトシンヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む、請求項37に記載の方法。
【請求項40】
個体から得られるかまたは個体に由来する生体試料についての分類子を生成するための方法であって、前記方法は、
a)核酸を含有する前記生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、前記生体試料中の前記核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、前記オリゴヌクレオチドアダプタが、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含み、かつシトシンヌクレオチドを含まない、工程と、
c)前記ライゲーションされた核酸の少なくとも一部に、前記ライゲーションされた核酸中の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換された核酸を生成する工程と、
d)前記変換された核酸の少なくとも一部をシーケンシングし、前記変換された核酸の核酸シーケンスを得て、前記核酸のヒドロキシメチル化状態データを提供する工程と、
e)前記ヒドロキシメチル化状態データを使用して、分類子を生成するために機械学習モデルを訓練する工程と
を含む、方法。
【請求項41】
対象における細胞増殖性障害を検出するための方法であって、前記方法は、
a)前記対象から核酸を含有する生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、前記生体試料中の前記核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、前記オリゴヌクレオチドアダプタが、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)前記ライゲーションされた核酸の少なくとも一部に、前記ライゲーションされた核酸中の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換された核酸を生成する工程と、
d)前記変換された核酸の少なくとも一部をシーケンシングし、前記変換された核酸の核酸シーケンスを得て、前記核酸のヒドロキシメチル化状態データを提供する工程と、
e)健康な対象と前記細胞増殖性障害を有する対象とを区別することができるように訓練された機械学習モデルを使用して、前記ヒドロキシメチル化状態データを処理し、前記細胞増殖性障害の存在または感受性に関連する出力値を提供して、それによって、前記対象における前記細胞増殖性障害の存在または感受性を示す、工程と
を含む、方法。
【請求項42】
前記オリゴヌクレオチドアダプタが、前記オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない、請求項41に記載の方法。
【請求項43】
b)の後またはc)の前に、前記ライゲーションされた核酸の少なくとも一部に、少なくとも部分的に、β-GT/UDP-グルコースによるグルコシル化を行い、ヒドロキシメチル化シトシンヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む、請求項41に記載の方法。
【請求項44】
前記細胞増殖性障害が、結腸直腸がん、乳がん、卵巣がん、前立腺がん、肺がん、膵臓がん、子宮がん、肝臓がん、食道がん、胃がん、甲状腺がん、または膀胱がんを含む、請求項41に記載の方法。
【請求項45】
前記機械学習モデルが、予め選択された感度および特異度で前記細胞増殖性障害を検出するように調整される、請求項41に記載の方法。
【請求項46】
前記機械学習モデルが、少なくとも約80%の感度で前記細胞増殖性障害の存在または感受性を分類する、請求項41に記載の方法。
【請求項47】
前記変換条件が、亜硫酸水素塩処理、酵素処理、またはそれらの組み合わせを含む、請求項41に記載の方法。
【請求項48】
前記オリゴヌクレオチドアダプタが、前記オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位に、シトシンヌクレオチドの代わりに5hmCヌクレオチドを含む、請求項41に記載の方法。
【請求項49】
前記オリゴヌクレオチドアダプタが、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、請求項41に記載の方法。
【請求項50】
前記変換条件が、β-GT、シトシンジオキシゲナーゼ酵素、カルボキシメチルトランスフェラーゼ、AID/APOBEC、またはそれらの組み合わせによる処理を含む、請求項41に記載の方法。
【請求項51】
前記シトシンジオキシゲナーゼ酵素が、TET1、TET2、TET3、またはその機能的変異体を含む、請求項50に記載の方法。
【請求項52】
a)の後またはb)の前に、前記オリゴヌクレオチドアダプタをTET酵素で処理する工程をさらに含む、請求項41に記載の方法。
【請求項53】
b)の後またはc)の前に、シーケンス濃縮を実施する工程をさらに含む、請求項41に記載の方法。
【請求項54】
前記シーケンス濃縮が、ターゲットキャプチャーハイブリダイゼーションを含む、請求項53に記載の方法。
【請求項55】
シーケンシングする工程の前に、前記ライゲーションされた核酸の少なくとも一部を増幅する工程をさらに含む、請求項41に記載の方法。
【請求項56】
前記核酸シーケンスを参照ゲノムにアラインメントする工程をさらに含む、請求項41に記載の方法。
【請求項57】
前記ヒドロキシメチル化状態データを特徴量化する工程と、予め指定されたかまたは予め選択された生物学的特性によって、前記生体試料を群に分類するように訓練された機械学習モデルを使用して、特徴量化されたヒドロキシメチル化状態データを処理する工程とをさらに含む、請求項41に記載の方法。
【請求項58】
特徴量化されたヒドロキシメチル化状態データが、前記生体試料中の前記核酸シーケンスの特性に対応する、請求項41に記載の方法。
【請求項59】
前記核酸シーケンスの前記特性が、前記対象における前がん、がんもしくはがんのステージ、またはがんの予後の有無から選択される、請求項58に記載の方法。
【請求項60】
疾患について以前に処置された対象における微小残存病変をモニタリングするための方法であって、前記方法は、ヒドロキシメチル化プロファイルをベースラインヒドロキシメチル化状態として決定する工程と、1つ以上の所定の時点の各々におけるヒドロキシメチル化プロファイルをさらに決定する工程とを含み、前記ベースラインのヒドロキシメチル化状態からのヒドロキシメチル化プロファイルの変化が、前記対象における前記ベースラインヒドロキシメチル化状態での前記微小残存病変の状態の変化を示す、方法。
【請求項61】
前記微小残存病変が、処置に対する反応、腫瘍負荷、手術後の残存腫瘍、再発、二次スクリーニング、一次スクリーニング、またはがんの進行によって示される、請求項60に記載の方法。
【請求項62】
前記対象の処置に対する反応を判定する工程をさらに含む、請求項60に記載の方法。
【請求項63】
前記対象における腫瘍負荷をモニタリングする工程をさらに含む、請求項60に記載の方法。
【請求項64】
手術後の前記対象における残存腫瘍を検出する工程をさらに含む、請求項60に記載の方法。
【請求項65】
前記対象の再発を検出する工程をさらに含む、請求項60に記載の方法。
【請求項66】
前記対象に対する二次スクリーンとして実行される、請求項60に記載の方法。
【請求項67】
前記対象に対する一次スクリーンとして実行される、請求項60に記載の方法。
【請求項68】
前記対象におけるがんの進行をモニタリングする工程をさらに含む、請求項60に記載の方法。
【請求項69】
記憶された命令を含む非一時的なコンピュータ可読媒体であって、前記命令が、1つ以上のプロセッサによって実行される場合、生体試料中の核酸にライゲーションされたオリゴヌクレオチドアダプタを使用して、生成された核酸ライブラリーから得られたヒドロキシメチル化状態データに基づいて、対象を、細胞増殖性障害を有するかまたは前記細胞増殖性障害を有さないと分類するための分類子を実施するように操作可能であり、前記オリゴヌクレオチドアダプタが、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、非一時的なコンピュータ可読媒体。
【請求項70】
前記オリゴヌクレオチドアダプタが、前記オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない、請求項69に記載の非一時的なコンピュータ可読媒体。
【請求項71】
細胞増殖性障害を検出するための前記分類子が、前記細胞増殖性障害の起源の組織を決定するようにさらに構成される、請求項69に記載の非一時的なコンピュータ可読媒体。
【請求項72】
前記分類子が、訓練用生物学的サンプルから得られた訓練ベクトルを使用して訓練され、前記訓練用生体試料の第1のサブセットが、細胞増殖性障害を有すると同定され、前記訓練用生体試料の第2のサブセットが、前記細胞増殖性障害を有さないと同定される、請求項69に記載の非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年7月20日に出願された米国仮特許出願第63/223,661号の利益を主張し、この文献は、参照によりその全体が本明細書に援用される。
【0002】
本開示は、一般に、核酸シーケンスのメチル化分析を行うための改善されたアダプタおよび方法に関する。本開示は、核酸メチル化パターン分析に有用であり得る5-ヒドロキシメチル化シトシンのシーケンシング分解能を改善するためのシーケンシングアダプタおよび使用方法に関する。
【背景技術】
【0003】
DNAメチル化は、主にCpGジヌクレオチド中のシトシンで起こり、遺伝子調節における機能的役割を有するエピジェネティックマークとして作用する。メチル化マークは遺伝性があり、それらのゲノム全体のプロファイルは組織ごとに異なる。がんでは、遺伝子特異的メチル化プロファイルは異常になり得るが、起源の組織(tissue of origin)との類似性を保持し、これが、メチル化マークをがんの診断および予後のための有用なバイオマーカにする。
【0004】
5-メチルシトシン(5mC)および5-ヒドロキシメチルシトシン(5hmC)は、シトシンの5炭素位置(5-carbon position)におけるエピジェネティック修飾の2つの形態であり、それぞれ遺伝子サイレンシングおよび遺伝子活性化に関連する。これらのメチル化マークは、がんの存在を推測するための分類モデルを構築するために使用され得る様々な種類の情報を提供する。高い感度および特異度で疾患を推測するための分類モデルを生成するためには質の高いシーケンス情報が望ましく、そのような情報は、試料処理およびシーケンシング中に失われ得、それによって、そのようなモデルの精度に影響を与える。
【0005】
いくつかのシーケンシング方法は、5hmCを同定するために使用され得るが、これらの方法は、商業的スクリーニングおよび診断用途の採用に影響を与える利点および欠点、例えば、ヌクレオチド分解能の欠如、偽陽性5hmCコール、高い試料入力要件、直接読み出しではなく減算による推測、および核酸試料からのシーケンシングのために作製されるシーケンシングライブラリの品質を有する。したがって、疾患診断、予後診断、および進行の分類モデルにおいて有用であり得る核酸シーケンシングから提供されるヒドロキシメチル化状態情報の質を改善するためのツールおよび方法が必要とされ得る。
【発明の概要】
【0006】
本開示は、核酸シーケンシング中のヒドロキシメチル化シトシンの改善された検出に向けられた、組成物、方法、およびシステムを提供する。本明細書に記載されるそのような方法において使用される、方法および組成物は、核酸シーケンシングの前に使用されるTAB-seqおよびACE-seqなど、非メチル化およびメチル化シトシンの変換方法の限界を克服するために使用され得る。様々な態様では、5hmC、または5-(β-グルコシルオキシメチル)シトシン(5gmC)および5-カルボキシシトシン(5caC)もしくは5-カルボキシメチルシトシン(5cxmC)の組み合わせを含有する修飾アダプタを使用すること、ならびにそのようなアダプタの生体試料中の核酸断片へのライゲーションは、試料中のヒドロキシメチル化シーケンス情報の分解能を改善し得る。
【0007】
ある態様では、本開示は、オリゴヌクレオチドアダプタを提供し、該オリゴヌクレオチドアダプタは、1つ以上の5hmC、5gmC、5caC、5cxmCヌクレオチド、またはそれらの組み合わせを含むが、シトシンヌクレオチドを含まず、核酸シーケンシングのための生物学的サンプル中の核酸分子へのライゲーションにおいて使用され得る。いくつかの実施形態では、シトシンヌクレオチドは、アダプタのフローセル結合領域またはプライマー結合部位に存在しない。いくつかの実施形態では、シトシンヌクレオチドは、アダプタのUMI部分に存在するが、アダプタの非UMI部分に存在しない。いくつかの実施形態では、シトシンヌクレオチドは、アダプタのプライマー結合部位部分に存在するが、アダプタの非プライマー結合部位部分に存在しない。オリゴヌクレオチドは、核酸シーケンスにおける非メチル化シトシンおよびメチル化シトシンをウラシルに変換するのに必要な条件付きで処理する前に、核酸シーケンスにライゲーションすることができ、下流の増幅およびシーケンシング方法のためのプライマにハイブリダイズすることができる。
【0008】
別の態様では、本開示は、生体試料中の核酸のヒドロキシメチル化状態データを提供するための方法を提供し、該方法は、
a)核酸を含有する生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、生体試料中の核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、オリゴヌクレオチドアダプタは、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)ライゲーションされた核酸またはその誘導体の少なくとも一部に、ライゲーションされた核酸の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換するが、ヒドロキシメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換しない変換条件を適用し、それによって、変換された核酸を生成する工程と、
d)変換された核酸の少なくとも一部をシーケンシングして、変換された核酸の核酸シーケンスを得て、核酸のヒドロキシメチル化状態データを提供する工程と、を含む。
【0009】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、オリゴヌクレオチドアダプタのフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0010】
いくつかの実施形態では、方法は、b)の後またはc)の前に、ライゲーションされた核酸の少なくとも一部に、β-グルコシルトランスフェラーゼ(β-GT)/UDP-グルコースによるグルコシル化に施し、5hmCヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む。
【0011】
いくつかの実施形態では、変換条件は、亜硫酸水素塩処理(bisulfite treatment)、酵素処理(enzymatic treatment)、またはそれらの組み合わせを含む。
【0012】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、5hmCヌクレオチドを含む。
【0013】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、5gmCヌクレオチドおよび5caCヌクレオチドを含む。
【0014】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む。
【0015】
いくつかの実施形態では、変換条件は、β-GT、シトシンジオキシゲナーゼ酵素、カルボキシメチルトランスフェラーゼ、アポリポタンパク質B mRNA編集触媒ポリペプチド様タンパク質(AID/APOBEC)、またはそれらの組み合わせによる処理を含む。
【0016】
いくつかの実施形態では、シトシンジオキシゲナーゼ酵素は、テンイレブントランスロケーションタンパク質1(ten eleven translocation protein 1)(TET1)、テンイレブントランスロケーションタンパク質2( ten eleven translocation protein 2)(TET2)、テンイレブントランスロケーションタンパク質3(ten eleven translocation protein 3)(TET3)、またはその機能的変異体を含む。
【0017】
いくつかの実施形態では、方法は、a)の後またはb)の前に、オリゴヌクレオチドアダプタをTET酵素で処理する工程をさらに含む。
【0018】
いくつかの実施形態では、方法は、b)の後またはc)の前に、シーケンス濃縮を実施する工程をさらに含む。
【0019】
いくつかの実施形態では、シーケンス濃縮は、ターゲットキャプチャーハイブリダイゼーション(target capture hybridization)を含む。
【0020】
いくつかの実施形態では、ライゲーションされた核酸の少なくとも一部は、シーケンシングの前に増幅される。
【0021】
いくつかの実施形態では、方法は、シーケンシングの前に、ライゲーションされた核酸の少なくとも一部を増幅する工程をさらに含む。
【0022】
いくつかの実施形態では、方法は、増幅の前に核酸シーケンシングライブラリを調製する工程をさらに含む。
【0023】
いくつかの実施形態では、方法は、核酸シーケンスを参照ゲノムにアラインメントする工程をさらに含む。
【0024】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、5hmCホスホラミダイトを使用して化学的に合成される。
【0025】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、5gmCヌクレオチドおよび5caCヌクレオチドを含み、オリゴヌクレオチドアダプタは、ホスホロアミダイト化学を使用して5mC含有オリゴヌクレオチドを合成し、かつ5mC含有オリゴヌクレオチドを、TET酵素およびβ-GT/UDP-グルコースで酵素的に処理することによって少なくとも部分的に生成される。
【0026】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、末端デオキシヌクレオチジルトランスフェラーゼ(TdT)媒介性酵素的オリゴヌクレオチド合成を使用して合成される。
【0027】
いくつかの実施形態では、方法は、SAM依存性C5-メチルトランスフェラーゼ(C5-MT)または別のDNA シトシン-5 メチルトランスフェラーゼを使用して、5mC含有オリゴヌクレオチドにおける非メチル化シトシンヌクレオチドをメチル化する工程をさらに含む。
【0028】
いくつかの実施形態では、方法は、オリゴヌクレオチドアダプタを、生体試料から単離された核酸の少なくとも一部にライゲーションする工程をさらに含む。
【0029】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、酵素的オリゴヌクレオチド合成技術を使用して合成される。
【0030】
いくつかの実施形態では、生体試料は無細胞DNA(cfDNA)を含む。
【0031】
いくつかの実施形態では、核酸はcfDNAである。
【0032】
いくつかの実施形態では、生体試料は個体から得られ、または個体に由来し、ヒドロキシメチル化状態データは、異常な細胞状態または疾患と関連し、異常な細胞状態または疾患を有する個体の分類を提供する。
【0033】
いくつかの実施形態では、異常な細胞状態または疾患は、ステージ1のがん、ステージ2のがん、ステージ3のがん、またはステージ4のがんである。
【0034】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、固有の分子識別子を含む。
【0035】
いくつかの実施形態では、生体試料は、体液、糞便、結腸流出物、尿、脳脊髄液、血漿、血清、全血、単離された血液細胞(isolated blood cells)、血液から単離された細胞(cells isolated from the blood)、およびそれらの組み合わせからなる群から選択される。
【0036】
いくつかの実施形態では、方法は、任意選択で、ヒドロキシメチル化状態データを特徴量化する工程と、予め指定されたか、または予め選択された生物学的特性によって生体試料を群に分類するように訓練された機械学習モデルを使用して、特徴量化されたヒドロキシメチル化状態データを処理する工程とを含む。
【0037】
いくつかの実施形態では、特徴量化されたヒドロキシメチル化状態データは、生体試料中の核酸シーケンスの特性に対応する。
【0038】
いくつかの実施形態では、核酸シーケンスの特性は、対象における前がん、がんもしくはがんのステージ、またはがんの予後の有無から選択される。
【0039】
別の態様では、本開示は、オリゴヌクレオチドアダプタを生成するための方法を提供し、該方法は、
a)少なくとも部分的に、ホスホラミダイト化学によって5mC含有オリゴヌクレオチドを合成する工程と、
b)5mC含有オリゴヌクレオチドを、TET酵素およびβ-GT/UDP-グルコースと接触させて、5mCヌクレオチドを5gmCヌクレオチドまたは5caCヌクレオチドに変換し、それによって、オリゴヌクレオチドアダプタを生成する工程と、を含む。
【0040】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、末端デオキシヌクレオチジルトランスフェラーゼ(TdT)媒介性酵素的オリゴヌクレオチド合成を使用して合成される。
【0041】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、5gmCヌクレオチドおよび5caCヌクレオチドを含む。
【0042】
いくつかの実施形態では、方法は、SAM依存性C5-メチルトランスフェラーゼ(C5-MT)、または別のDNA シトシン-5 メチルトランスフェラーゼを使用して、5mC含有オリゴヌクレオチドにおける非メチル化シトシンヌクレオチドをメチル化する工程をさらに含む。
【0043】
いくつかの実施形態では、方法は、オリゴヌクレオチドアダプタを、生体試料から単離された核酸の少なくとも一部にライゲーションする工程をさらに含む。
【0044】
別の態様では、本開示は、オリゴヌクレオチドアダプタを生成するための方法を提供し、該方法は、少なくとも部分的に、ホスホラミダイト化学によって、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含有するオリゴヌクレオチドを合成し、それによって、オリゴヌクレオチドアダプタを生成する工程を含む。
【0045】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、酵素的オリゴヌクレオチド合成技術を用いて合成される。
【0046】
いくつかの実施形態では、方法は、オリゴヌクレオチドアダプタを、生体試料から単離された核酸の少なくとも一部にライゲーションする工程をさらに含む。
【0047】
別の態様では、本開示は、生体試料中の核酸のヒドロキシメチル化プロファイルを生成するように機械学習モデルを訓練するための方法を提供し、該方法は、
a)核酸を含有する生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、生体試料中の核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、オリゴヌクレオチドアダプタは、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)ライゲーションされた核酸の少なくとも一部に、ライゲーションされた核酸中の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換された核酸を生成する変換条件を生成する工程と、
d)変換された核酸の少なくとも一部をシーケンシングし、変換された核酸の核酸シーケンスを得、核酸のヒドロキシメチル化状態データを提供する工程と、
e)ヒドロキシメチル化状態データを使用して、ヒドロキシメチル化プロファイルを生成するように機械学習モデルを訓練する工程と
を含む。
【0048】
いくつかの実施形態では、e)は、ヒドロキシメチル化状態データを特徴量化する工程をさらに含む。いくつかの実施形態では、オリゴヌクレオチドアダプタは、オリゴヌクレオチドアダプタにおけるフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0049】
いくつかの実施形態では、方法は、b)の後またはc)の前に、ライゲーションされた核酸の少なくとも一部を、少なくとも部分的に、β-GT/UDP-グルコースによるグルコシル化を行い、5hmCヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む。
【0050】
いくつかの実施形態では、生体試料は無細胞DNA(cfDNA)を含む。
【0051】
別の態様では、本開示は、個体から得られるかまたは個体に由来する生体試料中のcfDNAのヒドロキシメチル化プロファイルを決定するための方法を提供し、該方法は、
a)cfDNAを含有する生体試料を得る工程、
b)オリゴヌクレオチドアダプタを、生体試料中のcfDNAの少なくとも一部にライゲーションし、それによって、ライゲーションされたcfDNAを生成する工程であって、オリゴヌクレオチドアダプタは、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)ライゲーションされたcfDNAまたはその誘導体の少なくとも一部に、ライゲーションされたcfDNA中の非メチル化およびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換されたcfDNAを生成する工程と、
d)変換されたcfDNAの少なくとも一部をシーケンシングし、変換されたcfDNAの核酸シーケンスを得て、cfDNAのヒドロキシメチル化状態データを提供する工程と、
e)変換されたcfDNAの核酸シーケンスを参照核酸シーケンスにアラインメントし、生体試料のヒドロキシメチル化プロファイルを決定する工程、とを含む。
【0052】
いくつかの実施形態では、方法は、シーケンシングの前に、ライゲーションされたcfDNAを増幅する工程をさらに含む。
【0053】
いくつかの実施形態では、方法は、増幅の前に核酸シーケンシングライブラリを調製する工程をさらに含む。
【0054】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0055】
いくつかの実施形態では、本方法は、b)の後またはc)の前に、ライゲーションされたcfDNAの少なくとも一部に、少なくとも部分的に、β-GT/UDP-グルコースによるグルコシル化を行い、ヒドロキシメチル化シトシンヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む。
【0056】
いくつかの実施形態では、ヒドロキシメチル化プロファイルは、異常な細胞状態または疾患と関連し、異常な細胞状態または疾患を有する個体の分類を提供する。
【0057】
いくつかの実施形態では、異常な細胞状態または疾患は、ステージ1のがん、ステージ2のがん、ステージ3のがん、またはステージ4のがんである。
【0058】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、固有の分子識別子を含む。
【0059】
いくつかの実施形態では、変換条件は、化学的方法、酵素的方法、またはこれらの組み合わせを使用することを含む。
【0060】
いくつかの実施形態では、変換条件は、亜硫酸水素塩(bisulfite)、重亜硫酸塩(hydrogen sulfite)、二亜硫酸塩(disulfite)、またはこれらの組み合わせで処理することを含む。
【0061】
いくつかの実施形態では、生体試料は、体液、糞便、結腸流出物、尿、脳脊髄液、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、およびそれらの組み合わせからなる群から選択される。
【0062】
別の態様では、本開示は、生体試料についての分類子を生成するための方法を提供し、該方法は、
a)核酸を含有する生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、生体試料中の核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、オリゴヌクレオチドアダプタは、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)ライゲーションされた核酸の少なくとも一部に、ライゲーションされた核酸中の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換された核酸を生成する工程と、
d)変換された核酸の少なくとも一部をシーケンシングし、変換された核酸の核酸シーケンスを得、核酸のヒドロキシメチル化状態データを提供する工程と、
e)ヒドロキシメチル化状態データを使用して、分類子を生成するために機械学習モデルを訓練する工程と
を含む。
【0063】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0064】
いくつかの実施形態では、方法は、b)の後またはc)の前に、ライゲーションされた核酸の少なくとも一部に、少なくとも部分的に、β-GT/UDP-グルコースによってグルコシル化を行い、ヒドロキシメチル化シトシンヌクレオチドを5gmCヌクレオチドに変換する工程を含む。
【0065】
別の態様では、本開示は、個体から得られるかまたは個体に由来する生体試料についての分類子を生成するための方法を提供し、該方法は、
a)核酸を含有する生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、生体試料中の核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、オリゴヌクレオチドアダプタは、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含み、シトシンヌクレオチドを含まない、工程と、
c)ライゲーションされた核酸の少なくとも一部に、ライゲーションされた核酸中の非メチル化シトシンヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を適用し、それによって、変換された核酸を生成する、工程と、
d)変換された核酸の少なくとも一部をシーケンシングし、変換された核酸の核酸シーケンスを得て、核酸のヒドロキシメチル化状態データを提供する工程と、
e)ヒドロキシメチル化状態データを使用して、分類子を生成するために機械学習モデルを訓練する工程と
を含む。
【0066】
別の態様では、本開示は、対象における細胞増殖性障害を検出するための方法を提供し、該方法は、
a)対象から核酸を含む生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、生体試料中の核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、オリゴヌクレオチドアダプタが、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)ライゲーションされた核酸の少なくとも一部に、ライゲーションされた核酸中の非メチル化ウラシルヌクレオチドおよびメチル化シトシンヌクレオチドをウラシルヌクレオチドに変換する変換条件を提供し、それによって変換された核酸を生成する工程と、
d)変換された核酸の少なくとも一部をシーケンシングし、変換された核酸の核酸シーケンスを得て、核酸のヒドロキシメチル化状態データを提供する工程と、
e)健康な対象と細胞増殖性障害を有する対象とを区別することができるように訓練された機械学習モデルを使用して、ヒドロキシメチル化状態データを処理し、細胞増殖性障害の存在または感受性に関連する出力値を提供し、それによって、対象における細胞増殖性障害の存在または感受性を示す、工程と
を含む。
【0067】
いくつかの実施形態では、アダプタは、オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0068】
いくつかの実施形態では、方法は、b)の後またはc)の前に、ライゲーションされた核酸の少なくとも一部に、少なくとも部分的に、β-GT/UDP-グルコースによるグルコシル化を適用し、ヒドロキシメチル化シトシンヌクレオチドを5gmCヌクレオチドに変換する工程をさらに含む。
【0069】
いくつかの実施形態では、細胞増殖性障害は、結腸直腸がん、乳がん、卵巣がん、前立腺がん、肺がん、膵臓がん、子宮がん、肝臓がん、食道がん、胃がん、甲状腺がん、または膀胱がんを含む。
【0070】
いくつかの実施形態では、機械学習モデルは、予め選択された感度および特異度で、細胞増殖性障害を検出するように調整される。
【0071】
いくつかの実施形態では、機械学習モデルは、少なくとも約80%の感度で、細胞増殖性障害の存在または感受性を分類する。
【0072】
いくつかの実施形態では、変換条件は、亜硫酸水素塩処理、酵素的処理、またはそれらの組み合わせを含む。
【0073】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位のシトシンヌクレオチドの代わりに5hmCヌクレオチドを含有する。
【0074】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせの混合物を含む。
【0075】
いくつかの実施形態では、変換条件は、β-GT、シトシンジオキシゲナーゼ酵素、カルボキシメチルトランスフェラーゼ、AID/APOBEC、またはそれらの組み合わせによる処理を含む。
【0076】
いくつかの実施形態では、シトシンジオキシゲナーゼ酵素は、TET1、TET2、TET3、またはその機能的変異体を含む。
【0077】
いくつかの実施形態では、方法は、a)の後またはb)の前に、オリゴヌクレオチドアダプタをTET酵素で処理する工程をさらに含む。
【0078】
いくつかの実施形態では、方法は、b)の後またはc)の前に、シーケンス濃縮を実施する工程をさらに含む。
【0079】
いくつかの実施形態では、シーケンス濃縮は、ターゲットキャプチャーハイブリダイゼーションを含む。
【0080】
いくつかの実施形態では、方法は、シーケンシングの前に、ライゲーションされた核酸の少なくとも一部を増幅する工程をさらに含む。
【0081】
いくつかの実施形態では、方法は、核酸シーケンスを参照ゲノムにアラインメントする工程をさらに含む。
【0082】
いくつかの実施形態では、方法は、ヒドロキシメチル化状態データを特徴量化する工程と、予め指定されたかまたは予め選択された生物学的特性によって、生体試料を群に分類するように訓練された機械学習モデルを使用して、特徴量化されたヒドロキシメチル化状態データを処理する工程とをさらに含む。
【0083】
いくつかの実施形態では、特徴量化されたヒドロキシメチル化状態データは、生体試料中の核酸シーケンスの特性に対応する。
【0084】
いくつかの実施形態では、核酸シーケンスの特性は、対象における前がん、がんもしくはがんの病期、またはがんの予後の有無から選択される。
【0085】
別の態様では、本開示は、疾患について以前に処置された対象における微小残存病変(minimal residual disease)をモニタリングするための方法を提供し、該方法は、ヒドロキシメチル化プロファイルをベースラインヒドロキシメチル化状態として決定する工程と、1つ以上の所定の時点の各々におけるヒドロキシメチル化プロファイルをさらに決定する工程とを含み、ベースラインヒドロキシメチル化状態(baseline hydroxymethylation state)からのヒドロキシメチル化プロファイルの変化は、対象におけるベースラインヒドロキシメチル化状態での微小残存疾患状態の変化を示す、工程を含む。
【0086】
いくつかの実施形態では、微小残存病変は、処置に対する反応、腫瘍負荷(tumor load)、手術後の残存腫瘍、再発、二次スクリーニング、一次スクリーニング、またはがんの進行によって示される。
【0087】
いくつかの実施形態では、方法は、処置に対する対象の反応を決定する工程をさらに含む。
【0088】
いくつかの実施形態では、方法は、対象における腫瘍負荷をモニタリングする工程をさらに含む。
【0089】
いくつかの実施形態では、方法は、手術後の対象における残存腫瘍を検出する工程をさらに含む。
【0090】
いくつかの実施形態では、方法は、対象の再発を検出する工程をさらに含む。
【0091】
いくつかの実施形態では、方法は、対象に対する二次スクリーンとして実行される。
【0092】
いくつかの実施形態では、方法は、対象に対する一次スクリーンとして実行される。
【0093】
いくつかの実施形態では、方法は、対象におけるがんの進行をモニタリングする工程をさらに含む。
【0094】
別の態様では、本開示は、記憶された命令を含む非一時的なコンピュータ可読媒体を提供し、それは、1つ以上のプロセッサによって実行される場合、生体試料中の核酸にライゲーションされたオリゴヌクレオチドアダプタを使用して生成された核酸ライブラリーから得られるヒドロキシメチル化状態データに基づいて、対象を、細胞増殖性障害を有するかまたは細胞増殖性障害を有さないと分類するための分類子を実施するように動作可能であり、オリゴヌクレオチドアダプタは、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む。
【0095】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、オリゴヌクレオチドアダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0096】
いくつかの実施形態では、細胞増殖性障害を検出するための分類子は、細胞増殖性障害の起源の組織を決定するようにさらに構成される。
【0097】
いくつかの実施形態では、分類子は、訓練生体試料から得られた訓練ベクトル(training vector)を使用して訓練され、訓練生体試料(training biological sample)の第1のサブセットは、細胞増殖性障害を有すると同定され、訓練生体試料の第2のサブセットは、細胞増殖性障害を有さないと同定される。
【0098】
別の態様では、本開示は、生体試料中の核酸分子のヒドロキシメチル化状態データを提供するために核酸をシーケンシングする方法を提供し、該方法は、
a)核酸を含有する生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、生体試料中の核酸の少なくとも一部にライゲーションし、それによって、ライゲーションされた核酸を生成する工程であって、アダプタは、5hmCヌクレオチド、5gmCヌクレオチド、5caCヌクレオチド、5cxmCヌクレオチド、またはそれらの組み合わせを含む、工程と、
c)ライゲーションされた核酸の少なくとも一部に、核酸中のヒドロキシメチル化シトシンではなく、非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件を適用する工程と、
d)核酸をシーケンシングし、核酸の核酸シーケンスを得て、核酸分子におけるヒドロキシメチル化状態データを提供する工程とを含む。
【0099】
いくつかの実施形態では、アダプタは、アダプタのフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0100】
いくつかの実施形態では、方法は、ライゲーション操作の後、ライゲーションされた核酸をβ-GT/UDP-グルコースによるグルコシル化を行い、5hmCヌクレオチドを5gmCヌクレオチドに変換する工程を含む。
【0101】
いくつかの実施形態では、変換条件は、亜硫酸水素塩処理、酵素処理、または両方の組み合わせを含む。
【0102】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、設計されたオリゴヌクレオチドアダプタシーケンスにおいて、シトシンヌクレオチドの代わりにすべての5hmCヌクレオチドを含む。
【0103】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、設計されたオリゴヌクレオチドアダプタシーケンスにおいて、シトシンヌクレオチドの代わりに5gmC、5caC、および/または5cxmCヌクレオチドの混合物を含む。
【0104】
いくつかの実施形態では、酵素的処理は、β-グルコシルトランスフェラーゼ(β-GT)、シトシンジオキシゲナーゼ酵素(TET1、TET2、TET3、またはその機能的変異体など)、カルボキシメチルトランスフェラーゼ、またはAID/APOBECの1つ以上による処理を含む。
【0105】
いくつかの実施形態では、シーケンス濃縮操作は、操作b)の後またはc)の前に、実施される。
【0106】
いくつかの実施形態では、シーケンス濃縮操作は、ターゲットキャプチャーハイブリダイゼーションである。
【0107】
いくつかの実施形態では、ライゲーションされた核酸は、シーケンシングの前に増幅される。
【0108】
いくつかの実施形態では、シーケンシングから得られた核酸シーケンスは、参照ゲノムにアラインメントされる。
【0109】
いくつかの実施形態では、5hmC含有アダプターオリゴヌクレオチドは、5-ヒドロキシメチル修飾シチジンホスホルアミダイトを使用して化学的に合成され得る。
【0110】
いくつかの態様では、5gmCと5caCとの混合物を含有するアダプターオリゴヌクレオチドは、最初にホスホラミダイト化学を使用して5mC含有アダプタを合成し、次いでそれらをTET酵素+β-GT/UDP-グルコースで酵素的に処理することによって生成され得る。
【0111】
オリゴヌクレオチドシーケンシングアダプタを製造するための方法であって、該方法は、
a)ホスホラミダイト化学によって、5mCを含有するオリゴヌクレオチドを合成する工程と、
b)5mCヌクレオチドにおいて、オリゴヌクレオチドを酸化するのに充分な条件下で、オリゴヌクレオチドをTET酵素+β-GT/UDP-グルコースで変換する工程と、
c)酸化オリゴヌクレオチドを、生体試料から単離されたポリ核酸分子にライゲーションする工程と
を含む。
【0112】
いくつかの実施形態では、5hmC含有アダプタは、末端デオキシヌクレオチジルトランスフェラーゼ(TdT)媒介酵素的オリゴ合成を使用した酵素的オリゴヌクレオチド合成を使用して、直接合成され得る。
【0113】
いくつかの実施形態では、5gmCと5caCとの混合物を含有するアダプタは、最初に酵素的オリゴヌクレオチド合成技術を使用して5mC含有アダプタを合成し、次いでそれらをTET酵素プラスβ-GT/UDP-グルコースで酵素的に処理することによって生成され得る。
【0114】
いくつかの実施形態では、5mCを含有するアダプタは、SAM依存性C5-メチルトランスフェラーゼ(C5-MT)、または他のDNAシトシン-5メチルトランスフェラーゼを使用して、非メチル化シトシンを含有するアダプタをメチル化することによって生成され得る。
【0115】
オリゴヌクレオチドシーケンシングアダプターを製造するための方法であって、該方法は、
a)ホスホラミダイト化学によって、5gmC、5caC、および/または5cxmCを含有するオリゴヌクレオチドを合成する工程と、
b)合成されたオリゴヌクレオチドを、生体試料から単離されたポリ核酸分子にライゲーションする工程と
を含む。
【0116】
いくつかの実施形態では、5caC含有アダプタは、酵素的オリゴヌクレオチド合成技術を使用して直接合成され得る。
【0117】
別の態様では、個体から得られるかまたは個体に由来する生体試料のヒドロキシメチル化プロファイルを生成するための方法が提供され、該方法は、
a)核酸を含有する生体試料を得る工程と、
b)生体試料中の核酸へオリゴヌクレオチドアダプタをライゲーションする工程であって、アダプタが、5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、シトシンヌクレオチドを含まない、工程と、
c)ライゲーションされた核酸に、核酸中の非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件を適用する工程と、
d)核酸をシーケンシングし、核酸の核酸シーケンスを得、核酸におけるヒドロキシメチル化状態データを提供する工程と、
e)ヒドロキシメチル化状態データを特徴量化し、機械学習モデルを訓練して、ヒドロキシメチル化状態データを使用してメチル化プロファイルを生成する工程と
を含む。
【0118】
いくつかの実施形態では、アダプタは、5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、アダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0119】
いくつかの実施形態では、方法は、ライゲーションされた核酸にβ-GT/UDP-グルコースによるグルコシル化を行い、5hmCを5gmCに変換した後、核酸中の非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件を適用する工程を含む。
【0120】
いくつかの実施形態では、核酸試料は無細胞DNA(cfDNA)試料である。
【0121】
別の態様では、本開示は、個体から得られるかまたは個体に由来するcfDNA試料のヒドロキシメチル化プロファイルを決定するための方法を提供し、該方法は、
a)核酸を含む生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、生体試料中の核酸へライゲーションする工程であって、アダプタが5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、シトシンヌクレオチドを含まない、工程と、
c)ライゲーションされた核酸を、生体試料の核酸中の非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件に適用する工程と、
d)核酸をシーケンシングし、核酸の核酸シーケンスを得て、核酸におけるヒドロキシメチル化状態データを提供する工程と、
e)変換された核酸分子の核酸シーケンスを、参照核酸シーケンスにアラインメントして、個体のヒドロキシメチル化プロファイルを決定する工程と
を含む。
【0122】
いくつかの実施形態では、核酸シーケンシングライブラリは、増幅の前に調製される。
【0123】
いくつかの実施形態では、アダプタは、5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、アダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0124】
いくつかの実施形態では、参照核酸シーケンスは参照ゲノムである。
【0125】
いくつかの実施形態では、方法は、ライゲーションされた核酸に、β-GT/UDP-グルコースによるグルコシル化を行い、5hmCを5gmCに変換した後、核酸中の非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件を適用する工程を含む。
【0126】
いくつかの実施形態では、ヒドロキシメチル化プロファイルは、異常な細胞状態または疾患と関連し、異常な細胞状態または疾患を有するとして対象の分類を提供する。
【0127】
いくつかの実施形態では、ユニークな分子識別子を含むオリゴヌクレオチドアダプタは、a)の前に、cfDNA試料中の未変換核酸にライゲーションされる。
【0128】
いくつかの実施形態では、核酸分子は、化学的方法、酵素的方法、またはそれらの組み合わせを使用して、シトシンからウラシルへの変換条件が適用される。
【0129】
いくつかの実施形態では、生体試料中のcfDNAは、亜硫酸水素塩、重亜硫酸塩、二亜硫酸塩、またはこれらの組み合わせで処理される。
【0130】
いくつかの実施形態では、対象から得られる生体試料は、核酸分子を含有し、体液、糞便、結腸流出物、尿、脳脊髄液、血漿、血清、全血、単離された血液細胞、血液から単離された細胞、またはそれらの組み合わせである。
【0131】
いくつかの実施形態では、細胞増殖性障害は、ステージ1のがん、ステージ2のがん、ステージ3のがん、およびステージ4のがんから選択される。
【0132】
別の態様では、個体から得られるかまたはそれに由来する核酸試料についての分類子を生成するための方法が提供されることであって、該方法は、
a)核酸を含有する生体試料を得る工程と、
b)生体試料中の核酸へオリゴヌクレオチドアダプタをライゲーションする工程であって、アダプタが5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、シトシンヌクレオチドを含まない、工程と、
c)ライゲーションされた核酸に、核酸中の非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件を適用する工程と、
d)核酸をシーケンシングし、核酸の核酸シーケンスを得て、核酸におけるヒドロキシメチル化状態データを提供する工程と、
e)ヒドロキシメチル化状態データを使用して、分類子を生成するように機械学習モデルを訓練する工程と
を含む。
【0133】
いくつかの実施形態では、アダプタは、5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、アダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0134】
いくつかの実施形態では、方法は、ライゲーションされた核酸に、β-GT/UDP-グルコースによるグルコシル化を行い、ヒドロキシメチル化Cを5gmCに変換した後、核酸中の非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件を適用する工程を含む。
【0135】
別の態様では、本開示は、対象における細胞増殖性障害を検出するための方法を提供し、本方法は、
a)核酸を含有する生体試料を得る工程と、
b)オリゴヌクレオチドアダプタを、生体試料中の核酸へライゲーションする工程であって、アダプタが、5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、シトシンヌクレオチドを含まない、工程と、
c)ライゲーションされた核酸に、核酸中の非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件を適用する工程と、
d)核酸をシーケンシングし、核酸の核酸シーケンスを得て、核酸におけるヒドロキシメチル化状態データを提供する工程と、
f)健康な対象と細胞増殖性障害を有する対象とを区別することができるように訓練された機械学習モデルを使用して、ヒドロキシメチル化状態データを処理し、細胞増殖性障害の存在に関連する出力値を提供して、それにより、対象における細胞増殖性障害の存在を示す工程と
を含む。
【0136】
いくつかの実施形態では、アダプタは、5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、アダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0137】
いくつかの実施形態では、方法は、ライゲーションされた核酸に、β-GT/UDP-グルコースによるグルコシル化を行い、ヒドロキシメチル化Cを5gmCに変換した後、核酸中の非メチル化シトシンおよびメチル化シトシンをウラシルに変換するために必要な変換条件を適用する工程を含む。
【0138】
様々な実施形態では、異なる種類の細胞増殖性障害は、結腸直腸がん、乳がん、卵巣がん、前立腺がん、肺がん、膵臓がん、子宮がん、肝臓がん、食道がん、胃がん、甲状腺がん、または膀胱がんから選択される。
【0139】
いくつかの実施形態では、機械学習分類子は、結腸直腸がん、乳がん、卵巣がん、前立腺がん、肺がん、膵臓がん、子宮がん、肝臓がん、食道がん、胃がん、甲状腺がん、もしくは膀胱がん、またはそれらの組合せである細胞増殖性障害のがん診断および確認診断の必要性に応じて、検出される異なる種類の細胞増殖性障害に対する予め選択された感度および特異性を提供するように調整される。
【0140】
いくつかの実施形態では、機械学習モデルは、少なくとも約80%の感度でがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約90%の感度でがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約95%の感度でがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約70%の陽性予測値(PPV)でがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約80%のPPVでのがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約90%のPPVでのがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約95%のPPVでがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約99%のPPVでがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約80%の陰性予測値(NPV)でがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約90%のNPVでのがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約95%のNPVでがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約99%のNPVでがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約0.90の曲線下面積(AUC)を用いて対象のがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約0.95のAUCを用いて対象のがんの存在または感受性を分類する。いくつかの実施形態では、機械学習モデルは、少なくとも約0.99のAUCを用いて対象のがんの存在または感受性を分類する。
【0141】
いくつかの実施形態では、変換条件は、亜硫酸水素塩処理、酵素処理、または両方の組み合わせを含む。
【0142】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、フローセル結合領域に、シトシンヌクレオチドの代わりにすべての5hmCヌクレオチドを含み、任意選択で、所定のオリゴヌクレオチドアダプタ配列中のアダプタ中のプライマー結合部位も含む。
【0143】
いくつかの実施形態では、オリゴヌクレオチドアダプタは、設計されたオリゴヌクレオチドアダプタ配列中の5gmCおよび5caC、または5cxmCおよびシトシンヌクレオチドの混合物を含む。
【0144】
いくつかの実施形態では、酵素的処理は、β-グルコシルトランスフェラーゼ(β-GT)、シトシンジオキシゲナーゼ酵素(TET1、TET2、TET3、またはその機能的変異体など)、カルボキシメチルトランスフェラーゼ、またはAID/APOBECの1つ以上による処理を含む。
【0145】
いくつかの実施形態では、TET酵素の酵素的処理の使用は、ライゲーションの前にアダプタに対して行われる。
【0146】
いくつかの実施形態では、シーケンス濃縮操作は、操作b)の後またはc)の前に実施される。
【0147】
いくつかの実施形態では、シーケンス濃縮操作は、ターゲットキャプチャーハイブリダイゼーションである。
【0148】
いくつかの実施形態では、ライゲーションされた核酸は、シーケンシングの前に増幅される。
【0149】
いくつかの実施形態では、シーケンシングから得られた核酸シーケンスは、参照ゲノムにアラインメントされる。
【0150】
いくつかの実施形態では、ヒドロキシメチル化状態データは、予め指定された、または予め選択された生物学的特性に従って試料を群に分類するように訓練された訓練済み機械学習モデルを使用して、特徴量化され、かつ処理される。
【0151】
いくつかの実施形態では、特徴のセットは、機械学習モデルを使用して処理される核酸シーケンスから同定される。特徴のセットは、生体試料中の核酸シーケンスの特性に対応できる。
【0152】
いくつかの実施形態では、核酸シーケンスの特性は、試料を得た個体における前がん、がん、もしくはがんのステージ、またはがんの予後の存在もしくは非存在から選択される。
【0153】
別の態様では、本開示は、疾患に対して以前に治療された対象における微小残存病変をモニタリングするための方法を提供し、該方法は、本明細書に記載のヒドロキシメチル化プロファイルをベースラインヒドロキシメチル化状態として決定し、分析を繰り返して、1つ以上の所定の時点でヒドロキシメチル化プロファイルを決定する工程であって、ベースラインからの変化が、対象におけるベースラインでの微小残存疾患状態の変化を示す、工程を含む。
【0154】
いくつかの実施形態では、微小残存病変は、処置に対する反応、腫瘍負荷、手術後の残存腫瘍、再発、二次スクリーニング、一次スクリーニング、およびがんの進行から選択される。
【0155】
別の態様では、処置に対する反応を決定するための方法が提供される。
【0156】
別の態様では、腫瘍負荷をモニタリングするための方法が提供される。
【0157】
別の態様では、手術後に残存腫瘍を検出するための方法が提供される。
【0158】
別の態様では、再発を検出するための方法が提供される。
【0159】
別の態様では、二次スクリーンとして使用するための方法が提供される。
【0160】
別の態様では、一次スクリーンとして使用するための方法が提供される。
【0161】
別の態様では、がんの進行をモニタリングするための方法が提供される。
【0162】
一態様では、本開示は、細胞増殖性障害を検出するための機械学習モデル分類子を含むシステムを提供し、該システムは、
a)生体試料中の核酸に対してオリゴヌクレオチドアダプタを使用して生成された核酸ライブラリから得られたヒドロキシメチル化状態データに基づいて、対象を細胞増殖性障害を有するかまたは細胞増殖性障害を有さないとして分類するように動作可能な分類子を含むコンピュータ可読媒体であって、該アダプタが、5hmC、5gmC、5caC、5cxmC、またはそれらの組み合わせを含み、シトシンヌクレオチドを含まない、コンピュータ可読媒体と、
b)コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと
を含む。
【0163】
いくつかの実施形態では、アダプタは、5hmC、5gmC、5caC、5cxmC、またはこれらの組み合わせを含み、アダプタ中のフローセル結合領域またはプライマー結合部位にシトシンヌクレオチドを含まない。
【0164】
いくつかの実施形態では、細胞増殖性障害を検出するための機械学習モデル分類子は、起源組織決定を含む。
【0165】
いくつかの実施形態では、システムは、コンピュータシステムのメモリにロードされた分類子と、訓練生体試料から得られた訓練ベクトルを使用して訓練された機械学習モデルと、細胞増殖性障害を有すると同定された訓練生体試料の第1のサブセットと、細胞増殖性障害を有さないとして同定された訓練生体試料の第2のサブセットとを含む。
【0166】
本開示のさらなる態様および利点は、以下の詳細な説明から当業者には容易に明らかになり、本開示の例示的な実施形態のみが示され、説明される。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、様々な明白な点において修正が可能である。したがって、図面および説明は、本質的に例示的なものとみなされるべきであり、限定的なものとみなされるべきではない。
【0167】
参照による組み入れ
本明細書で言及される全ての刊行物、特許、および特許出願は、あたかも個々の刊行物、特許、または特許出願がそれぞれ具体的かつ個別に参照により援用されることが示されるのと同程度に、参照により本明細書に援用される。参照により援用される刊行物および特許または特許出願が、本明細書に含まれる開示と矛盾する程度に、本明細書は、そのような矛盾するあらゆる題材に取って代わる、および/またはそれよりも優先されることが意図される。
【図面の簡単な説明】
【0168】
本開示の実施例は、添付の図面を参照して、単なる例として説明される。本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載される。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を記載する以下の詳細な説明、および添付の図面(本明細書中では「図(Figure)」および「図(FIG.)」でもある)を参照することによって得られるものである。
図1A】例示的なアダプタ(図1A)およびその使用方法(図1B)を示す概略図を提供する。図1Aは、ヒドロキシメチル化シーケンシングにおいて使用されるアダプタの一般化された例を提供する。アダプタは、フローセルおよびプライマー結合領域に、修飾シトシン5hmC、5gmC、5caC、または5cxmCのいずれかを含有することができる。UMI領域のシトシンは、修飾されないか、または5mC、5hmC、5gmC、5caC、もしくは5cxmCで修飾される場合がある。5m(5-メチル)、5hm(5-ヒドロキシメチル)、5gm(β-グルコシル-5-ヒドロキシメチル)、5ca(5-カルボキシル)、5cxm(5-カルボキシメチル)、UMI(固有の分子バーコード)。
図1B】例示的なアダプタ(図1A)およびその使用方法(図1B)を示す概略図を提供する。図1Bは、ヒドロキシメチル化シーケンシングのためのアダプタを生成するためのプロセスの例を提供する。アダプタは、脱アミノ化からの保護を必要とする位置において、(i)mCヌクレオチド、または(ii)5hmC、5gmC、5caCもしくは5cxmCヌクレオチドの組み合わせを使用して設計および合成することができる。プロセス(i)について、合成されたアダプタは、ライゲーションにおける使用の前に、酸化され得、任意選択で()グルコシル化され得る。プロセス(ii)について、アダプタは、ライゲーションにおける使用の準備ができている。C(シトシン)、m(メチル)、5hm(5-ヒドロキシメチル)、5gm(β-グルコシル-5-ヒドロキシメチル)、5ca(5-カルボキシル)、5cxm(5-カルボキシメチル)。
図2】例示的な5hmC-seqアッセイの概要の概略図を提供する。5hmC-seqアッセイの操作は、下流の酵素変換から保護されているアダプタから開始する。ターゲット濃縮操作は任意選択である()。
図3】本明細書で提供される方法を実装するために、機械学習モデルおよび分類子を使用してプログラムされるか、または別の方法で構成される、コンピュータシステムの概略図を提供する。
【発明の詳細な説明】
【0169】
本発明の様々な実施形態が本明細書に示され、記載されてきたが、そのような実施形態は例としてのみ提供されることが当業者には明らかであろう。多数の変形、変更、および置換が、本発明から逸脱することなく当業者に想起され得る。本明細書で説明される本発明の実施形態に対する様々な代替形態が採用され得ることを理解されたい。
【0170】
本開示は、概して、生体試料中の核酸のシトシンヒドロキシメチル化状態のシーケンシングに有用なオリゴヌクレオチドアダプタ組成物に関する。シトシン(5-メチルシトシン;5mC)の5炭素位置でのDNAメチル化は、遺伝子サイレンシング、ヌクレオソームポジショニング、およびクロマチン構成(chromatin organization)において機能的役割を有するエピジェネティックマークである。ヒトでは、DNAメチル化は、主にCpGジヌクレオチドのシトシンで起こる。メチル化マークは遺伝性があり、それらのゲノム全体のプロファイルは組織ごとに異なる。がんでは、遺伝子特異的メチル化プロファイルは異常になるが、起源の組織との類似性を保持する。これらの特性は、メチル化マークを、がんの診断および予後のための非常に有用なバイオマーカにする。
【0171】
循環無細胞DNA(cfDNA)は、死滅しているアポトーシス細胞または壊死細胞から血液中に放出され、したがって、ヒトの身体全体にわたる細胞死のスナップショットを表す。腫瘍では、細胞のいくつかの画分が絶えず死滅し、DNAを無細胞腫瘍由来DNA(ctDNA)断片として血液循環に放出する。腫瘍特異的DNAメチル化パターンの知識は、メチル化アトラスとして利用して、cfDNAを調べ、その所与の断片が、腫瘍または正常細胞型に由来するかどうかを決定することができる。
【0172】
ヒドロキシメチル化は、シトシンの5炭素位置における別のエピジェネティック修飾である(5hmC)。この修飾は、能動的な脱メチル化に関与し得、遺伝子発現の調節における役割を果たし得る。能動的な脱メチル化経路において、5hmCは、5mCの反復酸化(iterative oxidation)における第1の操作として生成され得る。5hmCのゲノムワイド分布の研究は、遺伝子発現と強く関連する動的ランドスケープを実証した。5hmCプロファイルの変化は、細胞増殖性障害を含む広範な疾患状態に関連し得る。
【0173】
本明細書で使用される場合、「細胞増殖性障害(cell proliferative disorder)」という用語は、概して、細胞の無秩序もしくは異常な増殖を含む、障害または疾患を指し得る。いくつかの非限定的な例では、障害は、結腸直腸細胞増殖、前立腺細胞増殖、肺細胞増殖、乳房細胞増殖、膵臓細胞増殖、卵巣細胞増殖、子宮細胞増殖、肝細胞増殖、食道細胞増殖、胃細胞増殖、または甲状腺細胞増殖である。いくつかの実施形態では、細胞増殖性障害は、結腸腺がん、肝臓肝細胞がん、肺腺がん、肺扁平上皮がん、卵巣漿液性嚢胞腺がん、膵臓腺がん、前立腺がん、または直腸腺がんである。本明細書で使用される場合、「正常な(normal)」または「健康な(healthy)」という用語は、概して、細胞、組織、血漿、血液、生体試料、または細胞増殖性障害を有さない対象を指し得る。
【0174】
生体試料中の核酸の改善された品質のヒドロキシメチル化情報を捕捉するライブラリ調製における改善は、分類モデルおよび関連する臨床スクリーニング方法の感度を増加させるために必要であり得る。
【0175】
I.酵素的ヒドロキシメチル化シーケンシングのためのライブラリ調製およびアダプターライゲーション
生体試料から、核酸分子中の5hmC、5-ホルミルシトシン(5fC)、および5caCを検出するためのシーケンシングライブラリの調製のための方法が提供される。これらの方法は、改善されたライブラリ収率および品質を提供し得、それらは、スケーラブルであり、より扱いやすく、かつ他のヒドロキシメチル化シーケンシングアプローチよりも改善されたアダプタ保護を提供する。これらの方法はまた、ロングリードシーケンシングアプローチよりも費用効率が高く、かつエラーが起こりにくいショートリードシーケンシングにおいて、ベース解像度5hmCデータを提供し得る。
【0176】
本明細書に記載される方法は、DNAヒドロキシメチル化シーケンシングアプリケーションだけでなく、非メチル化シーケンシングアプリケーションにも許容可能なライブラリを提供し、それによって、単一試料からの複数のアプリケーションのためのシーケンシングデータを提供する。結果として得られた生シーケンシングデータは、ヒドロキシメチル化状態分析、ならびに、コピー数の変化、生殖細胞系列変異体検出、体細胞突然変異体検出、ヌクレオソームポジショニング、転写因子プロファイリング、クロマチン免疫沈降法などのより従来的なcfDNA分析に使用され得る。
【0177】
A.シーケンシングアプリケーションのためのアダプターライゲーション
一態様では、方法は、ヒドロキシメチル化プロファイリングのための核酸シーケンスの完全性および情報を保存し得る。一例では、5hmC保護およびAPOBEC変換(例えば、脱アミノ化)の前にdsDNAアダプターライゲーションを組み合わせることは、フラグメントエンドポイント情報を保存しながら、ライブラリ調製のための最大限可能なライブラリ複雑性を提供し得、それにより、ヒドロキシメチル化ctDNAなどの稀な事象を検出するためのより高い感度を提供する。この方法は、試料ターゲットエンリッチメントに適用され得るか、またはゲノム全体のシーケンシングのために直接適用され得る。
【0178】
試料核酸の5hmC保護およびAPOBEC変換の前にアダプターライゲーションを実施することは、dsDNA依存性アダプターライゲーション方法の実施を可能にし得、これは、高い複雑性ライブラリを生成しながらエンドポイント情報を維持する。さらに、cfDNA(モーダルサイズ=167塩基対、bp)など、試料核酸の断片長が小さい場合、アダプターライゲーションは、DNAの長さを、アダプタの長さの約2倍に伸ばし得(両面ライゲーション(double-sided ligation)による)、これは、固相可逆的固定化(SPRI)-ビーズベースの反応クリーンアップ操作(solid phase reversible immobilization (SPRI)-bead based reaction cleanup operations)の間、大幅に増加した回収効率により、ライゲーションされていないcfDNAに勝る利点を提供する。生体試料中の核酸シーケンスのエンドポイント情報を保存することは、機械学習モデルにおける特徴として使用され得る、cfDNAにおける断片化パターンのより正確な分析を可能にし得る。保護/変換ワークフロープロセスの前にアダプターオリゴヌクレオチドをライゲーションするため、フローセル表面またはシーケンシングプライマー結合部位に結合するオリゴヌクレオチドアダプタにおけるシトシンは、変換中のCからTへの置換がシーケンシングを妨害し(obstruct)得るため、変換操作中に生じる脱アミノ化から最初に修飾または保護される。いくつかの実施形態では、このアプローチは、シトシンが通常、フローセル付着およびシーケンシングプライマー結合のためのアダプターデザイン(adapter design)中に位置付けられるであろう配列位置において、5hmC、または5gmCおよび5caCの混合物を含有するアダプタを使用することによって、TAB-seqおよびACE-seqの限界を低減または排除し得る。これらの方法は、ロングリードシーケンシングと組み合わせた5hmC-Sealとは異なり、ショートリードシーケンシングを使用し、これは、いくつかの実施形態では、本明細書において議論されるアプリケーションにより適し得る。
【0179】
いくつかの実施形態では、5hmC含有アダプターオリゴヌクレオチドは、5-hmCホスホラミダイトを使用して直接合成され得る。5hmC含有アダプタのcfDNAへのライゲーション後、アダプターオリゴヌクレオチド中の5hmCヌクレオチド、ならびに試料核酸ライブラリーインサートは、ヒドロキシメチル化シトシンの標識操作中に、β-グルコシルトランスフェラーゼ(β-GT)および基質、UDP-グルコースを使用するグルコシル化が行われ得る。試料核酸中のヒドロキシメチル化シトシンのグルコシル化は、例えば、亜硫酸水素塩またはAPOBEC酵素を用いたその後の処理による脱アミノ化から修飾シトシンを保護し得る。
【0180】
いくつかの態様では、5gmCおよび5caCの混合物を含有するオリゴヌクレオチドアダプタは、最初にホスホラミダイト化学を使用して5mC含有アダプタを合成し、次いでそれらをTET酵素+β-GT/UDP-グルコースで酵素的に処理することによって作製され得る。5mCを含有するアダプタの化学合成は、5hmC含有アダプタの化学合成よりも初期切断産物(early truncation synthesis)が少なく効率的であり、および費用がかからないことの両方であり得る。
【0181】
いくつかの実施形態では、5hmC含有アダプタは、酵素的オリゴヌクレオチド合成技術を使用して生成され得る。いくつかの実施形態では、酵素的オリゴヌクレオチド合成方法は、供給されたデオキシヌクレオチドをDNAの3’-OH末端に付着させる、鋳型非依存性ポリメラーゼである末端デオキシヌクレオチジルトランスフェラーゼ(TdT)を採用する。
【0182】
一例において、オリゴヌクレオチドアダプタは、シーケンシングライブラリを生成するために、生体試料中の核酸フラグメントの集団の5’および3’末端にライーゲーションされ得る。一例において、核酸アダプタのコレクションは、試料中の核酸断片にライゲーションされ、アダプタのコレクションは、4bp、5bp、および6bpのユニークな分子識別子(UMI)シーケンスの等しい部分と、その後の最後の位置(例えば、3’末端)における不変異体チミジン(T)とを含み、T/Aオーバーハングライゲーションを可能にする。したがって、UMIは、ライブラリーインサート核酸に隣接して位置され得る。シーケンシング中、UMIはまた、5’末端でのリードの一部としてシーケンシングされ得る(あるいは、UMIは、シーケンシングリードレベルでライブラリーインサートと一致し得る)。不変異体Tは、シーケンシングされた位置で塩基多様性を維持するために、3つの位置にわたってずらされ(staggered)得る。対照的に、不変異体チミジンを有する単長UMIを使用することは、不変異体チミジンに対応する位置での低い複雑性シーケンシングをもたらし、シーケンシングの質の低下をもたらし得る。各UMIの最初の4bpは共に、4bpコアUMI配列のセットを含み、これらは、2以上の編集距離を有し、ヌクレオチドであり、かつカラーバランスが取れている。単長コアUMIを使用することは、可変長UMIシーケンスにかかわらず、UMIの抽出および重複排除のための単長UMIについて構築されるバイオインフォマティックツールの使用を促進し得る。したがって、4bpのコア配列は、バイオインフォマティクスツールに5、6、または7塩基(不変異体Tを含む)をトリミングすることを知らせる認識シーケンスとして機能し得、それによって、正確なcfDNAエンドポイント情報を維持する。UMIの使用は、シーケンシング後のリード重複排除(read deduplication)、一本鎖エラー訂正(single-stranded error correction)、および二重再構成(duplex reconstruction)を可能にし得、それによって、二本鎖エラー訂正(double-stranded error correction)とも呼ばれるエラー訂正を強化するためのリードの逆相補体の使用を可能にする。別の例では、ユニークデュアルインデックス(UDI)は、シーケンシング後の試料の試料バーコード化および逆多重化を提供するために、ライブラリ調製中にUMI含有アダプタに付加され得る、追加のシーケンスである。様々な例では、UDI配列の長さは、4bp、5bp、6bp、7bp、8bp、または12bpである。
【0183】
様々な実施形態では、オリゴヌクレオチドアダプタは、5’チミジン突出を有する長さ4bp~6bpのUMIを含み得る。UMIは、固有でないように設計される(例えば、特定の制約されたシーケンスのセットから引き出される)。
【0184】
いくつかの実施形態では、いくつかのUMIは、1つ以上のメチルシトシン塩基を含有する。酵素的メチル化変換反応(TET酸化およびAPOBEC脱アミノ化を含む)の効率は、UMIミスマッチ率によって設計されたUMI配列の、特定の制約されたセットとマッチしないUMIの割合に基づいて評価される場合がある。UMIミスマッチ率は、シーケンシングライブラリの品質を評価するために、埋め込み品質制御メトリックとして使用され得る。さらに、バイオインフォマティクスパイプラインにおいて完全なUMIマッチが必要とされる場合、UMIミスマッチ率は、不完全な変換のためにより低い品質であり得る個々のリードを除去するためのフィルタとして使用され得る。
【0185】
様々な実施形態では、UMIミスマッチ率は、6%未満、5%未満、4%未満、3%未満、または2%未満である。
【0186】
いくつかの実施形態では、UMIは、酵素活性をモニターするために使用され得る修飾を含有する1つ以上のシトシンを含有する。これらの修飾塩基の非限定的な例には、5mC、5hmC、5fC、および5cxmCが含まれる。
【0187】
いくつかの例では、アダプター核酸に存在するシトシンは、アダプタにおけるCからTへの変換を防ぐために、5-メチル基または5-ヒドロキシメチル基で修飾される。
【0188】
一例では、アダプター核酸に存在するシトシンは、5hmC、5gmC、5caC、または5cxmC基で修飾され、アダプタにおけるシトシン(C)からウラシル(U)への変換を防止する。
【0189】
図1Aは、ヒドロキシメチル化シーケンシングにおいて使用されるアダプタの一般化された例を提供する。アダプタは、フローセルおよびプライマー結合領域中に、以下の修飾シトシン5hmC、5gmC、5caC、または5cxmCのいずれかを含有し得る。UMI領域中のシトシンは、修飾されていないか、または5mC、5hmC、5gmC、5caC、もしくは5cxmCで修飾され得る。5m(5-メチル)、5hm(5-ヒドロキシメチル)、5gm(β-グルコシル-5-ヒドロキシメチル)、5ca(5-カルボキシル)、5cxm(5-カルボキシメチル)、UMI(固有分子バーコード)。
【0190】
図1Bは、ヒドロキシメチル化シーケンシングのためのアダプタを生成するためのプロセスの例を提供する。アダプタは、脱アミノ化からの保護を必要とする位置で、(i)mCヌクレオチド、または(ii)5hmC、5gmC、5caCもしくは5cxmCヌクレオチドの組み合わせを使用して設計および合成することができる。プロセス(i)について、合成されたアダプタは、ライゲーションにおける使用の前に、酸化され得、任意選択で()グルコシル化され得る。プロセス(ii)について、アダプタは、ライゲーションにおける使用の準備ができている。C(シトシン)、m(メチル)、5hm(5-ヒドロキシメチル)、5gm(β-グルコシル-5-ヒドロキシメチルまたは5-(β-グルコシルオキシメチル)シトシン)、5ca(5-カルボキシル)、5cxm(5-カルボキシメチル)。
【0191】
図2は、例示的な5hmC-seqアッセイの概要の概略図を提供する。5hmC-seqアッセイの操作は、例えば、下流の酵素変換から保護されている、図1Bから生成されたアダプタから開始する。ターゲット濃縮操作は任意選択である()。
【0192】
このアプローチの1つの利点は、変換前のアダプターライゲーションが、亜硫酸水素塩変換と、その後のssDNAアダプターライゲーションとを行うアプローチと比較して、断片の終点および長さの情報を維持することであり得る。アダプタをライゲーションする前の核酸の考慮に入れるべき分解は、有益な断片エンドポイントおよび長さの情報の喪失をもたらし得る。
【0193】
CからUへの酵素的(例えば、APOBECを使用する)変換は、亜硫酸水素塩変換法と比較して、試料核酸断片上で分解性が低く、より完全かつ均一なカバレッジもたらし得る。DNAの亜硫酸水素塩分解は均一でないこともあり得、したがって、いくつかのシーケンスは、ヒドロキシメチル化シーケンシングにおいて調べられているまさにその部位であるCGジヌクレオチドを含む他のシーケンスよりも優先的に分解され得る。したがって、酵素的アプローチは、同数の固有なリードを使用する亜硫酸水素塩変換法よりも高いCpG部位のカバレッジ、およびターゲットエンリッチメントアプリケーションにおいてキャプチャされたリードのより高い均一性を提供し得る。さらに、非バイサルファイト法(例えば、酵素変換)は、生物学的シグナルの分解能の増加、具体的には、核酸シーケンス中の5mCおよび5hmCを区別する能力を提供し得る。この情報および追加の分解能は、計算アプローチおよび他の方法において有益であり得る。
【0194】
いくつかの例では、DNAまたはバーコード化DNAに、試料DNAまたはバーコード化DNAの非修飾であるメチル化およびヒドロキシメチル化シトシン核酸塩基をウラシル核酸塩基に変換する酵素反応を適用することは、酵素変換を実行することを含む。
【0195】
様々な例では、生体試料からの核酸における5hmCのグルコシル化は、脱アミノ化から5hmCを保護する。デアミナーゼは、未修飾のC、5mC、および5hmCを、Uまたはその誘導体に変換するために使用され得る。デアミナーゼの非限定的な例には、APOBEC(アポリポタンパク質B mRNA編集酵素、触媒ポリペプチド様)が含まれる。本明細書に記載される実施形態は、非メチル化シトシンまたはメチル化シトシンの脱アミノ化におけるシーケンスバイアスを克服するのに充分な量のAPOBECを利用する。さらに、亜硫酸水素塩変換よりもむしろAPOBEC変換を伴う実施形態は、生体試料からの核酸への実質的に少ない損傷を提供し得る。
【0196】
いくつかの例では、5hmCシーケンシング方法は、核酸試料のアリコートを、TETジオキシゲナーゼの非存在下でβ-GTと接触させ、続いてシチジンデアミナーゼ(例えば、APOBEC)で処理して、アリコート中の実質的にすべての5hmCがグルコシル化され、かつ実質的にすべての非修飾シトシンおよび5mCがウラシルに変換される反応生成物を生成する、工程を含む。PCR増幅後、ウラシルはチミジンで置換されており、したがって、シトシンおよび5mCは、シーケンシングされた場合、区別ができない。結果として生じる反応生成物をシーケンシングし、参照シーケンスと比較して、5hmCをシトシンから、および5mCから区別することができる。これらの部分の区別は、これらの修飾ヌクレオチドの参照シーケンスへのマッピングを可能にし得る。参照核酸シーケンスは、任意のβ-GTまたはデアミナーゼとも反応しない核酸試料をシーケンシングすることによって得られ得る。あるいは、参照シーケンスは、参照シーケンスが既知の参照核酸シーケンス(例えば、配列のデータベースまたは参照ゲノムから得られる)である場合、マッピングのために使用され得る。
【0197】
B.5hmC核酸シーケンシング
Tet補助亜硫酸水素塩シーケンシング(TAB-seq)、5hmC選択的化学標識技術(例えば、5hmC-seal)、APOBEC結合エピジェネティックシーケンシング(ACE-seq)、およびDNA免疫沈降結合化学修飾補助亜硫酸水素塩シーケンシング(DIP-CAB-seq)を含む、いくつかのシーケンシング方法を使用して、5hmCを同定することができる。各方法は、利点および欠点を有し得る。
【0198】
TAB-seqにおいて、5hmCヌクレオチドは、T4 β-グルコシルトランスフェラーゼ(β-GT)を使用して5-(β-グルコシルオキシメチル)シトシン(5gmC)への修飾によって保護され、5mC塩基は、mTet1を使用して5caCに変換される。その後、全てのCおよび5caCヌクレオチドは、それぞれUまたは5caUへの亜硫酸水素塩変換によって脱アミノ化され得る。しかしながら、亜硫酸水素塩は、DNAの90~99%を分解し得るので、TAB-seqは、単一塩基5hmCの分解を達成する一方、TAB-seqは、亜硫酸水素塩媒介性分解を軽減するために比較的大量のDNAを必要とし得る。したがって、高いDNA質量要件は、限定された分析物であり得る、cfDNA試料中の5hmCをシーケンシングするためにTAB-seqが採用されることを妨げ得る。
【0199】
5hmC-Sealにおいて、β-GTは、5hmCをアジド修飾グルコース(UDP-6-N-Glu)で標識するために使用され、アジド基は、クリックケミストリーを介したビオチンのその後の共有結合(covalent attachment)を可能にする。ストレプトアビジンビーズを使用して、ビオチン-5gmC含有DNA断片をアフィニティーキャプチャ(affinity capture)すると同時に、非結合断片を洗い流す。次いで、キャプチャされたDNA断片をPCR増幅し、シーケンシングする。この技術は、ショートリードシーケンシング法(例えば、5gmCをCとして読み取る)を使用して、他の修飾/非修飾C塩基からの5hmCの曖昧性除去(disambiguration)を可能にする操作を含まない。その結果、方法は、少なくとも1つの5hmCを含有するcfDNA断片のみを同定し得るが、5hmCの数および特異的位置は未知である。ロングリードシーケンシング技術であるSMRTシーケンシングを使用して、5hmC-SealのキャプチャされたDNA断片から5hmCの単一ヌクレオチド分解能を得ることができる。ショートリードシーケンシングは、ロングリードシーケンシングよりも好ましくなり得、より費用効率が高く、エラーが起こりにくい。
【0200】
TAB-seqと同様に、ACE-seqは、5hmCを、グルコース部分を用いて保護するためにβ-GTを採用する。TAB-seqとは異なり、ACE-seqにおける変換/脱アミノ化操作は、亜硫酸水素塩によって化学的に媒介される代わりに、APOBECによって酵素的に媒介される。したがって、ACE-seqは、TAB-seqよりも少ないインプットDNAを必要とし得るが、方法は依然として欠点を有し得る。第1に、cfDNAインプット量は非常に低く、例えば、わずか約4μL(約5μLであるグルコシル化反応の総量と、約1μLである基質、酵素、および濃縮緩衝液成分の総量との差から推定される)になり得る。cfDNA試料は、一般に、数百ピコグラム(pg)/μLの低い範囲(例えば、~200pg/μL)であり、したがって、方法は、cfDNAを濃縮するためのワークアラウンドを考案することなく、低いcfDNA質量インプット(<1~2ng)のみをサポートし得る。したがって、この低いcfDNAインプット量は、疾患への適用におけるバイオマーカとしてcfDNA中の非常に稀な5hmCを同定するための方法の感度を本質的に限定し得る。第2に、ACE-seqにおけるアダプターライゲーションの前に、cfDNAの酵素的グルコシル化および脱アミノ化が、実行される。一般に、dsDNA依存性アダプターライゲーションは、NGSアプリケーションにおける第1の操作である。しかし、アダプターライゲーションが脱アミノ化の前に実行される場合、アダプタ中のCはUに脱アミノ化し、これはIlluminaのプラットフォームシーケンシングアプリケーションと適合しないであろう。ライゲーション前にcfDNAを脱アミノ化することによって、アダプターシトシンは、変化しないままであり得る。しかしながら、脱アミノ化からのcfDNAインサートにおけるCからUへの変換は、非相補鎖を生成し得る。したがって、cfDNAの脱アミノ化後のアダプターライゲーションストラテジは、非従来型のssDNAベースのライゲーションアプローチを必要とし得る。ACE-seqにおいて、ssDNAベースのライゲーションは、Accel Methyl-NGSキット(Swift Biosciences)を採用して、Illuminaのアダプターシーケンスを導入することによって達成され得る。しかしながら、この特定のssDNAライゲーション法は、(第2の鎖合成のためのプライマー結合部位として機能するために)未知の数の低複雑性塩基をssDNAの3’末端に付加し得、したがって、3’末端点情報を消去し得る。さらに、ssDNAベースのライゲーションを必要とすることは、二重鎖UMIストラテジを使用して所与のリードの逆相補鎖を検出する可能性を無効にし得る(cfDNAがライゲーション前に変性されるため)。したがって、ssDNAベースのライブラリは、逆相補鎖情報を失い得、これは、より大きなシーケンシングエラー抑制を可能にする。
【0201】
試験変換核酸シーケンス(test converted nucleic acid sequence)が、特定のCpG遺伝子座における参照Cに対応するTである場合、Cは、元の試験核酸断片においてメチル化されなかった。
対照的に、試験変換核酸シーケンスおよび参照シーケンスが両方とも特定のCpG遺伝子座におけるCである場合、Cは元の試験核酸断片においてヒドロキシメチル化された。
【0202】
いくつかの例では、変換された核酸分子の核酸シーケンスは、約50~500x、約25~1000x、約50~500x、約250~750x、約500~200x、約750~1500x、または約100~2000xの深さでシーケンシングされる。いくつかの実施形態では、核酸シーケンスは、100x超または500x超の深さでシーケンシングされる。
【0203】
いくつかの例では、変換された核酸分子の核酸シーケンスは、約500x、約1000x、約2000x、約3000x、約4000x、約5000x、約6000x、約7000x、約8000x、約9000x、約10000x、または5000x超の深さでシーケンシングされる。
【0204】
いくつかの例では、変換された核酸分子の核酸シーケンスは、約300x固有、約400x固有、約500x固有、約600x固有、約700x固有、約800x固有、約900x固有、もしくは約1000x固有、または500x固有超の深さでシーケンシングされる。
【0205】
C.ヒドロキシメチル化プロファイリング
様々な例では、酵素的ヒドロキシメチル化シーケンシングが完了すると、アッセイを使用して、生体試料中の核酸のヒドロキシメチル化状態を分析し得る。いくつかの例では、全ゲノム酵素的ヒドロキシメチルシーケンシング(「WG EHM-seq」)は、ゲノム中のほぼ全てのシチジンヌクレオチドのDNAヒドロキシメチル化状態を特徴量化することによって高分解能シーケンシングを提供する。標的酵素的ヒドロキシメチルシーケンシング(「TEHM-seq」)などの他の標的化方法は、メチル化分析に有用であり得る。
【0206】
cfDNAのヒドロキシメチル化プロファイルは、配列アラインメント法を適用して、全ゲノムからのヒドロキシメチルシーケンシングリードまたはヒト参照ゲノムの標的ヒドロキシメチルシーケンシングをマッピングすることによって同定することができる。
配列アラインメント方法の非限定的な例には、bwa-meth、bismark、Last、GSNAP、BSMAP、NovoAlign、Bison、Metagenomic Phylogenetic Analysis(例えば、MetaPhlAn2)、BLAT、Burrows-Wheeler Aligner(BWA)、Bowtie、Bowtie2、Bfast、BioScope、CLC bio、Cloudburst、Eland/Eland2、GenomeMapper、GnuMap、Karma、MAQ、MOM、Mosaik、MrFAST/MrsFAST、PASS、PerM、RazerS、RMAP、SSAHA2、Segemehl、SeqMap、SHRiMP、Slider/SliderII、Srprism、Stampy、vmatch、ZOOM、およびSOAP/SOAPアライメントツールである。
【0207】
ヒドロキシメチルシーケンシングにおける二重鎖UMIの使用は、核酸分子の真のヒドロキシメチル化状態を決定する精度を増加させ得る。方法は、例えば、抽出(DNA損傷)、ライブラリ調製(末端修復フィルイン)、酵素変換(アンダーコンバージョンまたはオーバーコンバージョン)、PCR(塩基取り込みエラー)、およびシーケンシング(塩基呼び出しエラー)の間に導入される可能性のあるエラーを説明することができる。ヒドロキシメチル化状態決定の精度を向上することは、これらのヒドロキシメチル化ベースのエピジェネティックなシーケンスの違いを使用して集団を層別化するための特徴量化および分類子生成を改善し得る。この方法は、エラー訂正のためのインデックスバーコードに依存しない。
【0208】
D.核酸濃縮方法との組み合わせ
別の態様では、方法は、所望の核酸の濃縮を含む。いくつかの実施形態では、ヒドロキシメチルシーケンシング方法は、所望の核酸シーケンスが濃縮された核酸の試料に対して実施され得る。いくつかの実施形態では、ヒドロキシメチルシーケンシング方法は、核酸濃縮操作を含む。いくつかの実施形態では、核酸濃縮法は、ヒドロキシメチル化無細胞DNAをシーケンシングするための方法と組み合わされ得る。いくつかの実施形態では、方法は、cfDNAの試料中のヒドロキシメチル化DNA分子のみにアフィニティータグを加える工程と、アフィニティータグでタグ付けされたDNA分子を濃縮する工程と、濃縮されたDNA分子をシーケンシングする工程とを含む。いくつかの実施形態では、相補的核酸分子は、がんの進行、検出、予後、または処置反応に関与するメチル化状態を有するゲノム配列を標的とするための濃縮方法において使用される
【0209】
いくつかの実施形態では、核酸は、サイズ、核酸塩基含量(nucleobase content)、または核酸シーケンスによって予め決定される。特定の濃縮法は、それぞれが参照により本明細書に援用される、米国特許出願公開US20200123616および国際公開WO2017176630A1などの、本明細書に記載の方法と組み合わせて適用され得る。
【0210】
「濃縮する(enrich)」および「濃縮(enrichment)」という用語は、ある特徴を有する分析物(例えば、ヒドロキシメチルシトシンを含む核酸)を、その特徴を有さない分析物(例えば、ヒドロキシメチルシトシンを含まない核酸)から部分的に精製することを指す。
【0211】
濃縮は、特徴を有する分析物(例えば、ヒドロキシメチルシトシンを含有する核酸)の濃度を、特徴を有さない分析物と比較して、少なくとも2倍、少なくとも5倍、または少なくとも10倍増加させ得る。濃縮後、試料中の分析物の少なくとも10%、少なくとも20%、少なくとも50%、少なくとも80%、または少なくとも90%は、濃縮に使用される特徴を有し得る。例えば、濃縮組成物中の核酸分子の少なくとも10%、少なくとも20%、少なくとも50%、少なくとも80%、または少なくとも90%は、キャプチャタグを含有するように修飾された1つ以上のヒドロキシメチルシトシンを有する鎖を含有し得る。用語の他の定義は、本明細書全体を通して現れ得る。
【0212】
方法の濃縮操作は、磁気ストレプトアビジンビーズを使用して行われ得るが、他の支持体が使用され得る。前述のように、濃縮されたcfDNA分子(ヒドロキシメチル化cfDNA分子に対応する)は、PCRによって増幅され、次いでシーケンシングされ得る。そのような実施形態では、濃縮されたcfDNA試料は、添加されたアダプタ(またはその相補体)にハイブリダイズする1つ以上のプライマを使用して増幅され得る。いくつかの実施形態では、濃縮されたDNA試料は、PCR増幅の前に、例えば、APOBECを使用して脱アミノ化される。この一連の操作は、濃縮されたDNA上の5hmC修飾の塩基分解能決定を可能にし得る。
【0213】
いくつかの実施形態では、脱アミノ化された濃縮DNAは、Y字型アダプタにハイブリダイズする1つ以上のプライマを使用して増幅され得る。Y字形アダプタ(Yアダプタ)が追加される実施形態では、アダプターライゲート核酸(adapter-ligated nucleic acids)は、2つのプライマ、 アダプタの上部鎖の一本鎖領域にハイブリダイズする第1のプライマと、およびYアダプタ(またはループの切断後のヘアピンアダプタ)の下部鎖の一本鎖領域の相補体にハイブリダイズする第2のプライマとを使用するPCRによって増幅され得る。例えば、いくつかの実施形態では、使用されるYアダプタは、P5およびP7アーム(シーケンスは、Illuminaのシーケンシングプラットフォームと適合性がある)を有し得、増幅生成物は、一方にP5シーケンスを有し得、他方にP7シーケンスを有し得る。これらの増幅生成物を、Illuminaのシーケンシング基質にハイブリダイズさせ、シーケンシングすることができる。いくつかの実施形態では、増幅に使用されるプライマ対は、Yアダプタにハイブリダイズする3’末端と、P5シーケンスまたはP7シーケンスのいずれかを有する5’テールとを有し得る。これらの実施形態では、増幅生成物はまた、一方にP5シーケンスを有し、他方にP7シーケンスを有し得る。これらの増幅生成物をIlluminaのシーケンシング基質にハイブリダイズさせ、シーケンシングすることができる。この増幅操作は、限定サイクルPCR(例えば、5~20サイクル)によって行われ得る。
【0214】
(a)循環無細胞DNAを含む試料を得る工程と、(b)試料中のヒドロキシメチル化DNAを濃縮する工程と、(c)1つ以上の標的遺伝子座(例えば、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、または少なくとも10個の標的遺伝子座)のそれぞれにマッピングする(例えば、対応するシーケンスを有する)濃縮されたヒドロキシメチル化DNA中の核酸の量を独立して定量する工程とを含む方法も提供される。この方法は、(d)濃縮されたヒドロキシメチル化DNA中の1つ以上の核酸シーケンスが、対照と比較して、濃縮されたヒドロキシメチル化DNA中で過剰に表現されるか、または過小に表現されるかを決定する工程をさらに含み得る。濃縮されたヒドロキシメチル化DNAにおいて過剰に表されるか、または過小に表される核酸の同一性(および、特定の場合では、これらの核酸が、濃縮されたヒドロキシメチル化DNAにおいて過剰に表されるか、または過小に表される程度)は、診断、処置決定、または予後を行うために使用することができる。例えば、いくつかの場合では、濃縮されたヒドロキシメチル化DNAの分析は、前述のように、表現型と相関するシグネチャを同定し得る。いくつかの実施形態では、1つ以上の標的遺伝子座(例えば、以下に列挙される遺伝子/間隔)のそれぞれにマッピングされる濃縮されたヒドロキシメチル化DNA中の核酸分子の量は、qPCR、デジタルPCR、アレイ、シーケンシング、または任意の他の定量的方法によって定量化され得る。
【0215】
いくつかの実施形態では、方法は、cfDNAの試料中の1つ以上のヒドロキシメチルシトシンおよびメチルシトシンヌクレオチドを含むDNA分子に標識を付着させる工程であって、ヒドロキシメチルシトシンヌクレオチドは、第1のキャプチャタグで標識され、メチルシトシンヌクレオチドは、第1のキャプチャとは異なる第2のキャプチャタグで標識されて、標識試料を生成する、工程と、標識されるDNA分子を濃縮する工程と、濃縮されたDNA分子をシーケンシングする工程とを含み得る。方法のこの実施形態は、1つ以上のヒドロキシメチルシトシンを含むDNA分子と、1つ以上のメチルシトシンヌクレオチドを含むDNA分子とを別々に濃縮する工程を含み得る。標識は、上記の方法から、またはSongら(参照により本明細書に組み込まれる「Simultaneous single-molecule epigenetic imaging of DNA methylation and hydroxymethylation」、Proc. Natl. Acad. Sci. 2016 113:4338-43)から適合され得、キャプチャタグは、蛍光標識の代わりに使用される。
【0216】
いくつかの実施形態では、濃縮方法は、DNAをユニバーサルアダプタ、例えば、cfDNAの断片の両端にライゲーションするアダプタにライゲーションすることによって実施され得る。特定の場合では、ユニバーサルアダプタは、Yアダプター(またはヘアピンアダプター)をcfDNAの末端にライゲーションし、それにより、鎖の3’末端に付加されたタグシーケンスと同じでも相補的でもない5’タグシーケンスを含有する上部鎖を有する二本鎖DNA分子を生成することによって行われ得る。方法の初期操作で使用されるDNA断片は、予め変性されていない非増幅DNAであり得る。図1Aに示されるように、この操作は、ポリメラーゼを用いたcfDNAの末端のポリッシング(例えば、平滑化(blunting))すること、例えば、Taqポリメラーゼを使用して断片をAテーリングすること、およびTテーリングYアダプタ(T-tailed Y-adapters)をAテーリング断片(A-tailed fragments)へライゲーションすることを必要とし得る。この初期ライゲーション操作は、制限量のcfDNAに対して行われ得る。例えば、アダプターライゲートcfDNAは、ゲノムに応じて、200ng未満のDNA、例えば、10pg~200ng、100pg~200ng、1ng~200ng、5ng~50ng、または10,000ng未満(例えば、5,000未満、1,000未満、500未満、100未満、または10未満)の半数体ゲノム等価物(haploid genome equivalent)を含有し得る。いくつかの実施形態では、方法は、50ng未満のcfDNA(およそ5mLの血漿にほぼ相当する)、またはおよそ1mLの血漿にほぼ相当する10ng未満のcfDNAを使用して実施される。例えば、Newmanら(参照により本明細書に組み込まれる、「An ultrasensitive method For quantitating circulating tumor DNA with broad patient coverage」、Nat Med.2014 20:548-54)は、1~5mLの血漿から単離された7~32ngのcfDNAからのライブラリを記載している。これは、2,121~9,697の半数体ゲノムと同等である(半数体ゲノムあたり3.3pgを仮定する)。cfDNA上にライゲーションされたアダプタは、シーケンシングされた分子の多重化および定量分析を容易にするための分子バーコードを含み得る。具体的には、アダプタは、アダプタが、試料がライゲーションされた試料を同定する分子バーコードを含有するという点で、「インデックス付け(index)」され得、これが、シーケンシング前に試料をプールすることを可能にする。代替として、または追加として、アダプタは、ランダムバーコードなどを含有し得る。このようなアダプタは、断片にライゲーションすることができ、特定の領域に対応する実質的に全ての断片は、異なるシーケンスでタグ付けされる。これは、PCR複製物の同定を可能にし、分子がカウントされることを可能にする。
【0217】
方法のこの実装の次の操作では、cfDNA中のヒドロキシメチル化DNA分子は、化学選択性基(chemoselective group)、例えば、クリック反応に関与し得る基で標識される。この操作は、アダプターライゲートcfDNAを、DNA β-グルコシルトランスフェラーゼ(例えば、T4 DNA β-グルコシルトランスフェラーゼ(これは、多数の供給業者から市販されている)であるが、他のDNA β-グルコシルトランスフェラーゼが存在する)、および例えば、UDP-6-N3-GIU(例えば、アジドを含有するUDPグルコース)とインキュベートすることによって行われ得る。この操作は、例えば、参照により本明細書に援用される米国特許公開第US20110301045号、またはSongら(参照により本明細書に援用される、「Selective chemical labeling revealing the genome-wide distribution of 5-hydroxymethylcytosine」、Nat.Biotechnol.2011 29:68-72)から適合されたプロトコルを使用して行われ得る。
【0218】
方法のこの実施の次の操作は、ビオチン部分を、環化付加(クリック)反応を介して化学選択的に修飾されたDNAに加えることを含む。この操作は、ビオチン化反応物、例えば、ジベンゾシクロオクチン修飾ビオチンを、その反応が完了した後、例えば、適切な時間の後(例えば、30分以上後)にグルコシルトランスフェラーゼ反応に直接添加することによって行われ得る。いくつかの実施形態では、ビオチン化反応物は、一般式B-L-Xのものであり得、式中、Bはビオチン部分であり、Lはリンカーであり、Xは、環化付加反応を介してcfDNAに付加された化学選択性基と反応する基である。特定の場合では、リンカーは、化合物を水性環境中でより可溶性にし得、そのようなものとして、ポリエチレングリコール(PEG)リンカーまたはその同等物を含有し得る。いくつかの実施形態では、添加される化合物は、ジベンゾシクロオクチン-PEGn-ビオチンであり得、Nが2~10、例えば4である。ジベンゾシクロオクチン-PEG4-ビオチンは、比較的親水性であり、0.35mMの濃度までの水性緩衝液中で可溶性である。この操作において添加される化合物は、切断可能な結合を含有する必要はなく、例えば、ジスルフィド結合などを含有しない。この操作では、環化付加反応は、ヒドロキシメチル化cfDNAに付加されるアジド基と、ビオチン部分に結合されるアルキニル基(例えば、ジベンゾシクロオクチン基)との間であり得る。また、この操作は、例えば、米国特許公開第US20110301045号またはSongら(参照により本明細書に援用される、「Selective chemical labeling revealing the genome-wide distribution of 5-hydroxymethylcytosine」、Nat.Biotechnol.2011 29:68-72」)から適合されたプロトコルを使用して行われ得る。
【0219】
方法の濃縮操作は、磁気ストレプトアビジンビーズを使用して行われ得るが、他の支持体が使用され得る。前述のように、濃縮されたcfDNA分子(ヒドロキシメチル化cfDNA分子に対応する)は、PCRによって増幅され、次いでシーケンシングされる。
【0220】
これらの実施形態では、濃縮されたDNA試料は、追加されたアダプター(またはそれらの相補体)にハイブリダイズする1つ以上のプライマを使用して増幅され得る。Yアダプタが追加される実施形態では、アダプターライゲート核酸は、2つのプライマ、 アダプタの上部鎖の一本鎖領域にハイブリダイズする第1のプライマと、Yアダプタ(またはループの切断後のヘアピンアダプタ)の下部鎖の一本鎖領域の相補体にハイブリダイズする第2のプライマとを使用するPCRによって増幅され得る。例えば、いくつかの実施形態では、使用されるYアダプタは、P5およびP7アーム(例えば、Illuminaのシーケンシングプラットフォームと適合する配列を有する)を有し得、増幅生成物は、一方にP5シーケンスを有し得、他方にP7シーケンスを有し得る。これらの増幅生成物は、Illuminaのシーケンシング基質にハイブリダイズされ、シーケンシングされ得る。いくつかの実施形態では、増幅に使用されるプライマ対は、Yアダプタにハイブリダイズする3’末端と、P5シーケンスまたはP7シーケンスのいずれかを有する5’テールとを有し得る。これらの実施形態では、増幅生成物はまた、一方にP5シーケンスを有し、他方にP7シーケンスを有し得る。これらの増幅生成物は、Illuminaのシーケンシング基質にハイブリダイズされ、シーケンシングされ得る。この増幅操作は、制限されたサイクルPCR(例えば、5~20サイクル)によって実施され得る。
【0221】
シーケンシング操作は、任意の好都合な次世代シーケンシング方法を使用して行われ得、少なくとも10,000、少なくとも50,000、少なくとも100,000、少なくとも500,000、少なくとも100万、少なくとも1,000万、少なくとも1億、または少なくとも10億のシーケンスリードをもたらし得る。いくつかの場合では、リードはペアエンドリード(paired-end read)である。プライマは、増幅のために使用され得、プライマ伸長法(primer extension)が使用される任意の次世代シーケンシングプラットフォーム、例えば、Illuminaの可逆的ターミネーター法(reversible terminator method)、Rocheのパイロシーケンシング法(454)、Life Technologiesの、ライゲーションによるシーケンシング(SOLiDプラットフォーム)、Life TechnologiesのIon Torrentプラットフォーム、またはPacific Biosciencesの蛍光塩基切断法(fluorescent base-cleavage method)における使用と適合性があり得る。このような方法の例は、以下の参考文献、Marguliesら(「Genome sequencing in microfabricated high-density picolitre reactors」、Nature 2005 437:376-380)、Ronaghiら(「Real-time DNA sequencing using detection of pyrophosphate release」、Anal Biochem.1996;242:84-89)、Shendureら(「Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome」、Science 2005、309:1728-1732)、Imelfortら(「De novo sequencing of plant genomes using second-generation technologies」、Brief Bioinform.2009、10:609-618)、Foxら(「Applications of ultra-high-throughput sequencing」、Methods Mol Biol.2009;553:79-108」)、Applebyら(「New technologies for ultra-high-throughput genotyping in plants」、Methods Mol Biol. 2009; 513:19-39)、Englishら(「Mind the Gap:Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology」、PLoS ONE.2012;7:e47768)、およびMorozovaら(「Applications of next-generation sequencing technologies in functional Genomics」、Genomics.2008、92:255-264)に記載され、これらの文献のそれぞれが参照により本明細書に援用され、方法および方法の特定の操作の概要のために使用され得、操作のそれぞれについて出発生成物、試薬、および最終生成物を含む。
【0222】
いくつかの実施形態では、シーケンシングされた試料は、複数の試料からのDNA分子のプールを含み得、試料中の核酸は、それらのソース(source)を示すための分子バーコードを含む。いくつかの実施形態では、核酸は、単一のソース(例えば、単一の生物、ウイルス、組織、細胞、対象など)に由来し得る。他の実施形態では、核酸試料は、複数のソースから抽出された核酸のプール(例えば、複数の生物、組織、細胞、対象などからの核酸のプール)であり得、「複数(plurality)」は2つ以上を意味する。したがって、いくつかの実施形態では、核酸試料は、2個以上のソース、3個以上のソース、5個以上のソース、10個以上のソース、50個以上のソース、100個以上のソース、500個以上のソース、1000個以上のソース、5000個以上のソース、最大約10,000個以上のソースからの核酸を含有し得る。分子バーコードは、異なるソースからのシーケンスが分析された後に、区別されることを可能にし得る。
【0223】
シーケンスリードは、コンピュータによって分析され得、したがって、以下に記載される操作を行うための命令は、適切な物理コンピュータ可読記憶媒体(physical computer readable storage medium)に記録され得るプログラムとして記載され得る。
【0224】
II.コンピュータシステムおよび機械学習方法
A.試料の特徴量
本明細書で使用される場合、機械学習およびパターン認識に関して、「特徴量(feature)」という用語は、観察されている現象の個々の測定可能な特性(property)または特徴(characteristic)を指し得る。特徴量は数値であり得るが、文字列およびグラフなどの構造的特徴が構文パターン認識において使用され得る。「特徴量」の概念は、線形回帰などの統計的技法において使用される説明変数の概念に関連し得る。
【0225】
いくつかの実施形態では、ヒドロキシメチル化状態データは、予め指定されたまたは予め選択された生物学的特性に従って試料を群に分類するように訓練された、訓練された機械学習モデルを使用して、特徴量化され、かつ処理される。
【0226】
いくつかの実施形態では、特徴量のセットは、機械学習モデルを使用して処理される核酸シーケンスから同定される。
特徴量のセットは、生体試料中の核酸シーケンスの特性に対応し得る。
【0227】
いくつかの実施形態では、核酸シーケンスの特性は、試料を得た個体におけるがんの有無もしくはがんのステージ、またはがんの予後から選択される。
【0228】
訓練試料は、例えば、臨床疑問(clinical question)によって示されるように、所望の分類に基づいて選択することができる。異なるサブセットは、例えば、サブセットに割り当てられた標識によって決定されるように、異なる特性を有することができる。訓練生体試料の第1のサブセットは、特定の特性を有するものとして同定することができ、訓練生体試料の第2のサブセットは、特定の特性を有しないものとして同定することができる。特性の例は、様々な疾患または障害であり得るが、中間分類または中間測定値でもあり得る。このような特性の例には、がんの存在もしくはがんのステージ、または、がんの予後、例えば未処置の場合もしくはがんの処置に対する反応が含まれるが、これらに限定されない。例として、がんは、結腸直腸がん、肝臓がん、肺がん、膵臓がん、または乳がんである場合がある。
【0229】
いくつかの実施形態では、特徴量は、機械学習分析のための特徴量行列(feature matrix)を使用して処理される。
【0230】
複数のアッセイについて、システムは、機械学習モデルを使用して処理される特徴量セットを識別し得る。システムは、各分子クラスに対してアッセイを実施し、測定値から特徴量ベクトル(feature vector)を形成し得る。システムは、機械学習モデルを使用して特徴量ベクトルを処理し、生体試料が指定された特性を有するかどうかの出力分類( output classification)を得ることがある。
【0231】
いくつかの実施形態では、機械学習モデルは、集団の個体または特徴量の集団における個体または特徴量の2つのグループまたはクラスを区別する分類子を出力する。いくつかの実施形態では、分類子は、訓練された機械学習分類子である。
【0232】
いくつかの実施形態では、がん組織におけるバイオマーカの有益な遺伝子座または特徴量をアッセイしてプロファイルを形成する。受信者動作特性(ROC)曲線は、2つの集団(例えば、治療剤に反応する個体と反応しない個体)を区別する際に、特定の特徴量(例えば、本明細書に記載のバイオマーカのいずれかおよび/または追加の生物医学的情報のいずれかの項目)の性能をプロットするのに有用であり得る。母集団全体(症例および対照)にわたる特徴量データは、単一の特徴量の値に基づいて昇順でソートされ得る。
【0233】
いくつかの実施形態では、疾病は、進行腺腫(AA)、結腸直腸がん(CRC)、結腸直腸がん、または炎症性腸疾患である。
【0234】
「入力特徴量(input features)」または「特徴量(feature)」という用語は、試料の出力分類(標識)、例えば、疾病、シーケンスコンテンツ(例えば、変異)、提案されるデータ収集操作、または提案される処置を予測するためのモデルによって使用される変数を指し得る。変数の値は、試料について決定され、分類を決定するために使用され得る。遺伝子データの入力特徴量の例には、ゲノムに対するシーケンスデータ(例えば、シーケンスリード)のアラインメントに関するアラインメント変数と、例えば、シーケンスリードのシーケンスコンテンツ、タンパク質もしくは自己抗体の測定値、またはゲノム領域における平均メチル化レベルに関する非アラインメント変数とが含まれる。
【0235】
様々な実施形態において、核酸シーケンスにおけるヒドロキシメチル化状態は、1)単一のCpG部位の特徴量(例えば、5hmC対Cの比または%ヒドロキシメチル化)、CpG部位について、5hmC対5mCの比、5hmC対全メチルの化(5mC+5hmC)の比 2)単一のCH部位(例えば、5hmC対Cの比または%ヒドロキシメチル化)、CH部位について、5hmC対5mCの比、5hmC対全メチルの化(5mC+5hmC)の比 3)断片レベル5hmC特徴量(例えば、断片が≧X 5hmC CpG部位を有する場合、cfDNA断片をヒドロキシメチル化と呼び、CpG部位の≧X%が5hmCである場合、cfDNA断片をヒドロキシメチル化と呼び、断片が≧X 5hmC部位を有する場合、cfDNA断片をヒドロキシメチル化と呼び(CpGだけではない)、Cの≧X%が各断片に対して5hmCである場合、cfDNA断片をヒドロキシメチル化と呼ぶ(CpG部位だけでない)こと) 4)領域レベル5hmC特徴量(例えば、断片が≧X 5hmC CpG部位を有する場合、cfDNA断片をヒドロキシメチル化と呼び、CpG部位の≧X%が5hmCである場合、cfDNA断片をヒドロキシメチル化と呼び、断片が≧X 5hmC部位を有する場合、cfDNA断片をヒドロキシメチル化と呼び(CpGだけではない)、(CpG部位だけではなく)Cの≧X%が各遺伝子本体にわたって5hmCである場合、cfDNA断片をヒドロキシメチル化と呼び、各遺伝子本体について、5hmC対Cの比または%ヒドロキシメチル化を含むように情報量化する)、5hmC対5mCの比、5hmC対全メチル化(5mC+5hmC)の比、またはこれらの組み合わせを含むように特徴量化され得、ここで、Xは任意の数である。
【0236】
いくつかの実施形態では、遺伝子本体シーケンス全体にわたる特徴量化は、エクソンのみ(例えば、所与の遺伝子の全てのエクソンを一緒に凝集させることによって)、転写開始部位領域(例えば、TSSを取り囲む1-kb領域)、エンハンサ、CpGシェルフ、CpGショア、またはCpGアイランドを含み得る。
【0237】
変数の値は、試料について決定され得、分類を決定するために使用され得る。遺伝子データの入力特徴量の例には、ゲノムに対するシーケンスデータ(例えば、シーケンスリード)のアラインメントに関するアラインメント変数と、例えば、シーケンスリードのシーケンスコンテンツ、タンパク質もしくは自己抗体の測定値、またはゲノム領域における平均メチル化レベルに関する非アラインメント変数とが含まれる。様々な例では、V-プロット測定、転写因子結合分析、FREE-Cデコンボリューション、転写開始部位にわたるcfDNA測定値、およびcfDNA断片にわたるDNAヒドロキシメチル化レベルなどの遺伝的特徴量を、機械学習法およびモデルによって処理される入力特徴量として使用され得る。
【0238】
いくつかの例では、シーケンシング情報は、転写開始部位、転写因子結合部位、クロマチン開状態およびクロマチン閉状態、ヌクレオソームポジショニングもしくは占有率などの複数の遺伝的特徴量に関する情報を含むが、これらに限定されない。
【0239】
B.データ分析
いくつかの実施形態では、本開示は、ソフトウェアアプリケーション、コンピューティングハードウェア、またはその両方において実現されるデータ分析を有するシステム、方法、またはキットを提供する。様々な実施形態では、分析アプリケーションまたはシステムは、少なくとも、データ受信モジュール、データ前処理モジュール、データ分析モジュール(1つ以上のタイプのゲノムデータに対して操作することができる)、データ解釈モジュール、またはデータ可視化モジュールを備える。いくつかの実施形態では、データ受信モジュールは、実験室ハードウェアまたは機器を、実験室データを処理するコンピュータシステムに接続するコンピュータシステムを備えることができる。いくつかの実施形態では、データ前処理モジュールは、分析の準備のためにデータに対して演算を実行するハードウェアシステムまたはコンピュータソフトウェアを備えることができる。前処理モジュール内のデータに適用され得る操作の例は、アフィン変換、ノイズ除去操作、データクリーニング、再フォーマット、またはサブサンプリングを含む。1つ以上のゲノム材料からのゲノムデータを分析するために特殊化され得るデータ分析モジュールは、例えば、アセンブルされたゲノムシーケンスを取り組み、確率的分析および統計的分析を実施して、疾患、病態、状態、リスク、疾病、または表現型に関連する異常パターンを同定することができる。データ解釈モジュールは、例えば、統計学、数学、または生物学から引き出される分析方法を使用して、同定された異常パターンと、健康状態、機能状態、予後、またはリスクとの間の関係の理解をサポートすることができる。データ視覚化モジュールは、数学モデリング、コンピュータグラフィックス、またはレンダリングの方法を使用して、結果の理解または解釈を容易にすることができるデータの視覚的表現を作成することができる。
【0240】
様々な実施形態では、機械学習法を適用して、試料集団中の試料を区別する。いくつかの実施形態では、機械学習法を適用して、健常腺腫試料と進行腺腫試料とを区別する。
【0241】
いくつかの実施形態では、メチル化ベースの予測エンジンを訓練するために使用される1つ以上の機械学習演算は、一般化線形モデル、一般化加法モデル、ノンパラメトリック回帰演算、ランダムフォレスト分類子、空間回帰演算、ベイジアン回帰モデル、時系列分析、ベイジアンネットワーク、ガウスネットワーク、決定木学習演算、人工ニューラルネットワーク、再帰ニューラルネットワーク、強化学習演算、線形/非線形回帰演算、サポートベクターマシン、クラスタリング操作、および遺伝的アルゴリズム操作のうちの1つ以上を含む。
【0242】
様々な実施形態では、コンピュータ処理方法は、ロジスティック回帰、多重線形回帰(MLR)、次元削除、部分最小二乗(PLS)回帰、主成分回帰、オートエンコーダ、変分オートエンコーダ、特異値分解、フーリエベース、ウェーブレット、判別分析、サポートベクターマシン、決定木、分類木および回帰木(CART)、木ベースの方法(tree-based methods)、ランダムフォレスト、勾配ブースト木、ロジスティック回帰、行列因子分解、多次元スケーリング(MDS)、次元削除法、t分散型確率的近隣埋め込み法(t-SNE)、多層パーセプトロン(MLP)、ネットワーククラスタリング、ニューロファジ、および人工ニューラルネットワークから選択される。
【0243】
いくつかの実施形態では、本明細書に開示される方法は、個体または複数の個体からの試料の核酸シーケンシングデータに関するコンピュータ分析を含むことができる。分析は、シーケンスデータから推論される変異体を同定して、確率モデリング、統計モデリング、メカニスティックモデル、ネットワークモデリング、または統計的推論に基づいてシーケンス変異体を同定することができる。分析方法の非限定的には、主成分分析、オートエンコーダ、特異値分解、フーリエベース、ウェーブレット、判別分析、回帰、サポートベクターマシン、木ベースの方法、ネットワーク、行列因数分解、およびクラスタリングが含まれる。変異体の非限定的な例には、生殖系列変異(germline variation)または体細胞突然変異(somatic mutation)が含まれる。いくつかの実施形態では、変異体は、観察された変異体を指す場合がある。観察された変異体は、科学的に確認され得るか、または文献において報告され得る。いくつかの実施形態では、変異体は、生物学的変化に関連する推定上の変異体を指し得る。生物学的変化は、観察または未観察(例えば、既知または未知)であり得る。いくつかの実施形態では、推定上の変異体は、文献において報告され得るが、まだ生物学的に確認されていない。
【0244】
あるいは、推定上の変異体は、文献において報告されない場合があるが、本明細書に開示されるコンピュータ分析に基づいて推測することができる。いくつかの実施形態では、生殖系列変異体(germline variant)は、天然または正常な変異を誘導する核酸を指すことができる。
【0245】
自然または正常な変化には、例えば、皮膚の色、毛髪の色、および正常な体重が含まれる場合がある。いくつかの実施形態では、体細胞突然変異は、後天的または異常な変異を誘導する核酸を指す場合がある。後天的または異常な変動は、例えば、がん、肥満、疾病、症状、疾患、および障害を含み得る。いくつかの実施形態では、分析は、生殖系列変異体を区別することを含むことができる。生殖系列変異体は、例えば、プライベート変異体(private variant)および体細胞突然変異を含むことができる。いくつかの実施形態では、同定された変異体は、臨床医または他の医療専門家によって、ヘルスケア方法論、診断の精度、およびコスト削減を改善するために使用され得る。
【0246】
また、本明細書では、増幅および/またはシーケンシング技術、体細胞突然変異、および生殖系列変異体を通して導入された核酸中のシーケンスエラーを区別することができる改良された方法およびコンピューティングシステムまたはソフトウェア媒体も提供される。提供される方法は、患者から得られた全ての試料のアラインメントされたシーケンシングデータから変異体を同時に呼び出し、スコア付けする工程を含むことができる。
【0247】
患者以外の対象から得られた試料を使用することもできる。他の試料はまた、シーケンシングアッセイまたはターゲットシーケンシングアッセイ(例えば、ターゲットリシーケンシングアッセイ)によって以前に分析された対象から収集することもできる。本明細書に開示される方法、コンピューティングシステム、またはソフトウェア媒体は、偽陽性および偽陰性の同定の数を減少させることによって、変異または突然変異(例えば、コピー数変異、単一ヌクレオチド変異、インデル、遺伝子融合を含む、生殖細胞系または体細胞)の同定および精度、ならびに検出下限を改善することができる。
【0248】
C.分類子生成
いくつかの態様では、本システムおよび方法は、cfDNAの生体試料からのメチル化シーケンス分析に由来する特徴量情報に基づいて生成された分類子を提供する。分類子は、cfDNAなどの生体試料中で同定されたメチル化シーケンス特徴に基づいて集団中の群を区別するための予測エンジンの一部を形成し得る。
【0249】
いくつかの実施形態では、分類子は、メチル化情報の類似部分を統合フォーマットおよび統合スケールにフォーマットすることによって、メチル化情報を正規化することと、正規化されたメチル化情報をカラムナデータベースに記憶することと、記憶した正規化されたメチル化情報に1つ以上の機械学習演算を適用することによって、メチル化予測エンジンを訓練することであって、メチル化予測エンジンは、特定の集団について、1つ以上の特徴の組み合わせをマッピングする、訓練することと、メチル化予測エンジンを、アクセスされたフィールド情報に適用して、軍に関連するメチル化を同定することと、および個体を群に分類することとにより、作成される。
【0250】
特異度は、疾患を有さない患者の中で陰性試験の確率として定義され得る。特異度は、陰性と判定された無病者の数を、無病個体(disease-free individuals)の総数で割ったものに等しい。
【0251】
様々な実施形態では、モデル、分類子、または予測試験は、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも99%の特異度を有する。
【0252】
感度は、疾患を有する者の陽性試験の確率として定義され得る。感度は、陽性と試験された罹患個体の数を、罹患個体の総数で割ったものに等しい。
【0253】
様々な実施形態では、モデル、分類子、または予測試験は、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも99%の感度を有する。
【0254】
いくつかの実施形態では、群は、健康な(無症候性)炎症性腸疾患、AA、またはCRCである。
【0255】
D.デジタル処理装置
いくつかの実施形態では、デジタル処理デバイスまたはその使用が本明細書に記載される。いくつかの実施形態では、デジタル処理デバイスは、デバイスの機能を実行する1つ以上のハードウェア中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、またはテンソル処理ユニット(TPU)を含むことができる。いくつかの実施形態では、デジタル処理デバイスは、実行可能な命令を実行するように構成されたオペレーティングシステムを含むことができる。いくつかの実施形態では、デジタル処理デバイスは、任意選択で、コンピュータネットワークに接続することができる。いくつかの実施形態では、デジタル処理デバイスは、任意選択で、デバイスがワールドワイドウェブ(the World Wide Web)にアクセスするようにインターネットに接続することができる。いくつかの実施形態では、デジタル処理デバイスは、任意選択で、クラウドコンピューティングインフラストラクチャに接続することができる。いくつかの実施形態では、デジタル処理デバイスは、任意選択で、イントラネットに接続することができる。いくつかの実施形態では、デジタル処理デバイスは、任意選択で、データストレージデバイスに接続することができる。
【0256】
適切なデジタル処理デバイスの非限定的例には、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、ハンドヘルドコンピュータ、インターネットアプライアンス、モバイルスマートフォン、およびタブレットコンピュータが含まれる。適切なタブレットコンピュータには、例えば、ブックレット、スレート、およびコンバーチブル構成を有するものを含まれ得る。
【0257】
いくつかの実施形態では、デジタル処理デバイスは、実行可能な命令を実行するように構成されたオペレーティングシステムを備えることができる。例えば、オペレーティングシステムは、ソフトウェアを備えることができ、該ソフトウェアは、デバイスのハードウェアを管理し、かつアプリケーションの実行のためのサービスを提供するプログラムおよびデータを含む。オペレーティングシステムの非限定的な例には、Ubuntu、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux、Apple(登録商標)、MacOS X Server(登録商標)、Oracle(登録商標) Solaris(登録商標)、Windows Server(登録商標)、およびNovell(登録商標)NetWare(登録商標)が含まれる。適切なパーソナルコンピュータオペレーティングシステムの非限定的な例には、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)などのUNIX(登録商標)様オペレーティングシステムが含まれる。いくつかの実施形態では、オペレーティングシステムは、クラウドコンピューティングによって提供することができ、クラウドコンピューティングリソースは、1つ以上のサービスプロバイダによって提供することができる。
【0258】
いくつかの実施形態では、デバイスは、ストレージおよび/またはメモリデバイスを備えることができる。ストレージおよび/またはメモリデバイスは、一時的または永続的にデータまたはプログラムを記憶するために使用される1つ以上の物理的装置であり得る。いくつかの実施形態では、デバイスは揮発性メモリであり得、記憶された情報を維持するために電力を必要とする。いくつかの実施形態では、デバイスは、不揮発性メモリであり得、デジタル処理デバイスに電力が供給されていないとき、記憶された情報を保持する。いくつかの実施形態では、不揮発性メモリは、フラッシュメモリを含み得る。いくつかの実施形態では、不揮発性メモリは、ダイナミックランダムアクセスメモリ(DRAM)を含み得る。いくつかの実施形態では、不揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM)を含み得る。いくつかの実施形態では、不揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含み得る。いくつかの実施形態では、デバイスは、例えば、CD-ROM、DVD、フラッシュメモリデバイス、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、およびクラウドコンピューティングベースのストレージを含むストレージデバイスであり得る。いくつかの実施形態では、記憶および/またはメモリデバイスは、本明細書に開示されるものなどのデバイスの組み合わせであり得る。
【0259】
いくつかの実施形態では、デジタル処理デバイスは、ユーザに視覚情報を送るためのディスプレイを含み得る。いくつかの実施形態では、ディスプレイは、陰極線管(CRT)であり得る。いくつかの実施形態では、ディスプレイは、液晶ディスプレイ(LCD)であり得る。いくつかの実施形態では、ディスプレイは、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)であり得る。いくつかの実施形態では、ディスプレイは、有機発光ダイオード(OLED)ディスプレイであり得る。いくつかの実施形態では、OLEDディスプレイは、パッシブマトリクスOLED(PMOLED)、またはアクティブマトリクスOLED(AMOLED)ディスプレイであり得る。いくつかの実施形態では、ディスプレイは、プラズマディスプレイであり得る。いくつかの実施形態では、ディスプレイは、ビデオプロジェクタであり得る。いくつかの実施形態では、ディスプレイは、本明細書に開示されるものなどのデバイスの組み合わせであり得る。
【0260】
いくつかの実施形態では、デジタル処理デバイスは、ユーザからの情報を受信および処理するための入力デバイスを含み得る。いくつかの実施形態では、入力デバイスは、キーボードであり得る。いくつかの実施形態では、入力デバイスは、例えば、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ、またはスタイラスを含むポインティングデバイスであり得る。いくつかの実施形態では、入力デバイスは、タッチスクリーンまたはマルチタッチスクリーンであり得る。いくつかの実施形態では、入力デバイスは、音声または他の音声入力を取り込むためのマイクロフォンであり得る。いくつかの実施形態では、入力デバイスは、動きまたは視覚入力をキャプチャするためのビデオカメラであり得る。いくつかの実施形態では、入力デバイスは、本明細書に開示されるものなどのデバイスの組み合わせであり得る。
【0261】
E.非一時的なコンピュータ可読記録媒体
いくつかの実施形態では、本明細書で開示される主題は、任意選択でネットワーク接続されたデジタル処理デバイスのオペレーティングシステムによって実行可能な命令を含むプログラムで符号化された1つ以上の非一時的なコンピュータ可読記憶媒体を含む場合がある。いくつかの実施形態では、コンピュータ可読記憶媒体は、デジタル処理デバイスの有形構成要素であり得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、任意選択で、デジタル処理デバイスから取り外し可能であり得る。いくつかの実施形態では、コンピュータ可読記憶媒体には、例えば、CD-ROM、DVD、フラッシュメモリデバイス、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどを含まれ得る。いくつかの実施形態では、プログラムおよび命令は、媒体に対して、永続的に、実質的に永続的に、半永続的に、または非永続的に符号化することができる。
【0262】
F.コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。図3は、患者データ、生物学的データ、生物学的シーケンス、または参照シーケンスを記憶、処理、同定、または解釈するようにプログラムされるか、または別の方法で構成される、コンピュータシステム(101)を示す。コンピュータシステム(101)は、本開示の患者データ、生物学的データ、生物学的シーケンス、または参照シーケンスの様々な態様を処理することができる。コンピュータシステム(101)は、ユーザの電子デバイス、または電子デバイスに対して遠隔に位置するコンピュータシステムであり得る。電子デバイスは、モバイル電子デバイスであり得る。
【0263】
コンピュータシステム(101)は、シングルコアもしくはマルチコアプロセッサ、または並列処理のための複数のプロセッサであり得る中央処理装置(CPU、本明細書では「プロセッサ(processor)」および「コンピュータプロセッサ(computer processor)」でもある)(105)を含む。コンピュータシステム(101)はまた、メモリまたはメモリ位置(110)(例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ)と、電子記憶ユニット(115)(例えば、ハードディスク)と、1つ以上の他のシステムと通信するための通信インターフェース(120)(例えば、ネットワークアダプタ)と、キャッシュ、他のメモリ、データストレージおよび/または電子ディスプレイアダプタなどの周辺デバイス(125)とを備える。メモリ(110)、ストレージユニット(115)、インターフェース(120)、および周辺デバイス(125)は、マザーボードなどの通信バス(実線)を介してCPU(105)と通信する。記憶ユニット(115)は、データを記憶するためのデータストレージユニット(またはデータリポジトリ)であり得る。コンピュータシステム(101)は、通信インターフェース(120)を用いてコンピュータネットワーク(「ネットワーク」)(130)に動作可能に結合することができる。ネットワーク(130)は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであり得る。いくつかの実施形態におけるネットワーク(130)は、電気通信および/またはデータネットワークである。ネットワーク(130)は、クラウドコンピューティングなどの分散コンピューティングを可能にする1つ以上のコンピュータサーバを含むことができる。ネットワーク(130)は、いくつかの実施形態では、コンピュータシステム(101)を用いて、コンピュータシステム(101)に結合されたデバイスがクライアントまたはサーバとして作動することを可能にし得るピアツーピアネットワークを実装することができる。
【0264】
CPU(105)は、プログラムまたはソフトウェアで具現化することができる機械可読命令のシーケンスを実行することができる。命令は、メモリ(110)などのメモリ位置に記憶され得る。命令は、CPU(105)に指示することができ、CPU(105)は、その後、本開示の方法を実施するようにCPU(105)をプログラムまたは別の方法で構成することができる。CPU(105)によって実行される操作の例には、フェッチ、デコード、実行、およびライトバックが含まれ得る。
【0265】
CPU(105)は、集積回路などの回路の一部になり得る。システム(101)の1つ以上の他の構成要素を回路に含めることができる。いくつかの実施形態では、回路は、特定用途向け集積回路(ASIC)である。
【0266】
ストレージユニット(115)は、ドライバ、ライブラリ、および保存されたプログラムのファイルを記憶することができる。ストレージユニット(115)は、ユーザーデータ、例えばユーザ嗜好、およびユーザープログラムを記憶することができる。コンピュータシステム(101)は、いくつかの実施形態では、イントラネットまたはインターネットを介してコンピュータシステム(101)と通信するリモートサーバ上に位置するなど、コンピュータシステム(101)の外部にある1つ以上の追加のデータストレージユニットを含むことができる。
【0267】
コンピュータシステム(101)は、ネットワーク(130)を介して1つ以上のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム(101)は、ユーザのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標))、または携帯情報端末が含まれる。ユーザは、ネットワーク(130)を介してコンピュータシステム(101)にアクセスすることができる。
【0268】
本明細書に記載される方法は、コンピュータシステム(101)の電子記憶場所、例えば、メモリ(110)または電子記憶ユニット(115)上に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって実装することができる。機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードは、プロセッサ(105)によって実行され得る。いくつかの実施形態では、コードは、ストレージユニット(115)から取り出され、プロセッサ(105)による容易なアクセスのためにメモリ(110)に記憶され得る。いくつかの実施形態では、電子ストレージユニット(115)は除外することができ、機械実行可能命令はメモリ(110)に記憶される。
【0269】
コードは、コードを実行するように適合されたプロセッサを有するマシンで使用するために、事前コンパイルおよび構成することができるか、またはランタイム中(during runtime)に解釈またはコンパイルすることができる。コードは、コードが事前コンパイル、解釈、またはコンパイルされたとおりの様式で実行されることを可能にするように選択され得るプログラミング言語で供給され得る。
【0270】
コンピュータシステム(101)などの、本明細書で提供されるシステムおよび方法の態様は、プログラミングで具現化することができる。技術の様々な態様は、典型的には、機械(またはプロセッサ)実行可能コードおよび/またはある種類の機械可読媒体上で送られるか、または具現化される関連データの形態で、「製品(product)」または「製造品(article of manufacture)」とみなされ得る。機械実行可能コードは、メモリ(例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子ストレージユニットに記憶することができる。
【0271】
III.使用方法
A.疾患の検出および診断
本明細書に提供される方法およびシステムは、人工知能ベースのアプローチを使用して予測分析を実施し、対象(患者)から得られたデータを分析して、がん(例えば、CRC)を有する対象の診断の出力を生成し得る。例えば、アプリケーションは、予測アルゴリズムを得られたデータに適用して、がんを有する対象の診断を生成し得る。予測アルゴリズムは、得られたデータを処理してがんを有する対象の診断を生成するように構成される、機械学習ベースの予測器など、人工知能ベースの予測器を含み得る。
【0272】
いくつかの実施形態では、本明細書に記載される生成物またはプロセスを使用して検出または評価されるがんには、乳がん、卵巣がん、肺がん、結腸がん、過形成性ポリープ、腺腫、結腸直腸がん、高度異形成( high grade dysplasia)、軽度異形成(low grade dysplasia)、前立腺過形成、前立腺がん、黒色腫、膵臓がん、脳腫瘍(神経膠芽腫など)、血液悪性腫瘍(hematological malignancy)、肝細胞がん、子宮頸がん、子宮内膜がん、頭頸部がん、食道がん、消化管間質腫瘍(GIST)、腎細胞がん(RCC)、または胃がんが含まれるが、これらに限定されない。結腸直腸がんは、CRCデュークスBまたはデュークスC-Dであり得る。血液悪性腫瘍は、B細胞慢性リンパ球性白血病、B細胞リンパ腫-DLBCL、B細胞リンパ腫-DLBCL-胚中心様、B細胞リンパ腫-DLBCL-活性化B細胞様、およびバーキットリンパ腫であり得る。
【0273】
いくつかの実施形態では、本明細書に記載される生成物またはプロセスは、日光角化症(actinic keratosis)、萎縮性胃炎(atrophic gastritis)、白板症(leukoplakia)、紅色肥厚症(erythroplasia)、リンパ腫様肉芽腫症(lymphomatoid granulomatosis)、前白血病、線維症、子宮頸部異形成(cervical dysplasia)、子宮頸部異形成(uterine cervical dysplasia)、色素性乾皮症(xeroderma pigmentosum,)、バレット食道、結腸直腸ポリープ、または悪性腫瘍に発症する可能性が高い他の異常な組織の成長もしくは病変などの前悪性状態を検出または評価するために使用され得る。HIVおよびHPVなどの形質転換ウイルス感染はまた、方法によって評価され得る表現型も提示する。
【0274】
方法によって特徴付けられるがんは、がん腫、肉腫、リンパ腫もしくは白血病、胚細胞腫瘍、芽細胞腫、または他のがんであり得るが、これらに限定されない。がん腫には、上皮性腫瘍、扁平上皮腫瘍、扁平上皮がん、基底細胞腫瘍、基底細胞がん、移行上皮乳頭腫およびがん腫、腺腫および腺がん(腺)、腺腫、腺がん、形成性胃炎、インスリノーマ、グルカゴノーマ、ガストリノーマ、ビポーマ(vipoma)、胆管がん、肝細胞がん、アデノイド嚢胞性がん腫、付属器のカルチノイド腫瘍、プロラクチノーマ、膨大細胞腫、Hurthle細胞腺腫、腎細胞癌、Grawitz腫瘍、多発性内分泌腺腫、類内膜腺腫、付属器および皮膚付属器新生物、粘膜表皮様新生物、嚢胞性、粘液性および漿液性新生物、嚢胞腺腫、腹膜偽粘液腫、乳管性、小葉性および髄質性新生物、腺房細胞新生物、複合上皮性新生物、Warthin腫瘍、胸腺腫、特殊性腺性新生物(specialized gonadal neoplasms)、性索間質性腫瘍(thecoma)、顆粒膜細胞腫(granulosa cell tumor)、男性化細胞腫(arrhenoblastoma)、セルトリ-レディッヒ細胞腫、グロムス腫瘍、褐色細胞腫(paraganglioma)、褐色細胞腫(pheochromocytoma)、グロムス腫瘍、母斑および黒色腫、メラノサイトーシス母斑、悪性黒色腫、黒色腫、結節性黒色腫、異形成母斑、悪性黒子型黒色腫、表在拡大型黒色腫、および悪性末端黒子型黒色腫が含まれるが、これらに限定されない。肉腫には、アスキン腫瘍、ボツリオイデス、軟骨肉腫、ユーイング肉腫、悪性血管内皮腫、悪性神経鞘腫、骨肉腫、悪性軟部腫瘍、肺胞軟部肉腫、血管肉腫、膀胱肉腫、皮膚線維肉腫、類線維腫、線維形成性小円形細胞腫瘍、上皮性肉腫、骨格外軟骨肉腫、骨格外骨肉腫、線維肉腫、血管周細胞腫、血管肉腫、カポジ肉腫、平滑筋肉腫、脂肪肉腫、リンパ管筋肉腫、リンパ肉腫、悪性線維性組織肉腫、神経線維肉腫、リンパ線維肉腫が含まれるが、これらに限定されない。リンパ腫および白血病には、慢性リンパ球性白血病/小リンパ球性リンパ腫、B細胞前リンパ球性白血病、リンパ形質細胞性リンパ腫(例えば、ワルデンシュトレームマクログロブリン血症)、脾臓辺縁帯リンパ腫、形質細胞骨髄腫、形質細胞腫、モノクローナル免疫グロブリン沈着疾患、重鎖疾患、結節外辺縁帯B細胞リンパ腫(maltリンパ腫とも呼ばれる)、結節辺縁帯B細胞リンパ腫(nmzl)、濾胞性リンパ腫、マントル細胞リンパ腫、びまん性大細胞型B細胞リンパ腫、縦隔(胸腺)大細胞型B細胞リンパ腫、血管内大細胞型B細胞リンパ腫、原発性滲出液リンパ腫、バーキットリンパ腫/白血病、T細胞前リンパ球性白血病、T細胞大顆粒リンパ球性白血病、攻撃性NK細胞白血病、成人T細胞白血病/リンパ腫、結節外性NK/T細胞リンパ腫、鼻型、腸疾患型T細胞リンパ腫、脾臓T細胞リンパ腫、芽細胞性NK細胞リンパ腫、真菌症/セザリー症候群、原発性皮膚CD30陽性T細胞リンパ増殖性障害、原発性皮膚未分化大細胞リンパ腫、リンパ腫様乳頭症、血管免疫芽球性T細胞リンパ腫、末梢T細胞リンパ腫、不特定未分化大細胞リンパ腫、古典的ホジキンリンパ腫(結節性硬化症、混合細胞性、リンパ球リッチ、リンパ球枯渇または非枯渇)、および結節性リンパ球優性ホジキンリンパ腫が含まれるが、これらに限定されない。胚細胞腫瘍には、胚腫、胚異形成、精上皮腫、非胚腫性胚細胞腫瘍、胚性がん、内胚葉洞腫瘍、絨毛がん、奇形腫、多胚腫、および性腺芽細胞腫が含まれるが、これらに限定されない。芽細胞腫には、腎芽細胞腫、髄芽腫、および網膜芽細胞腫が含まれるが、これらに限定されない。他のがんには、唇がん、喉頭がん、下咽頭がん、舌がん、唾液腺がん、胃がん、腺がん、甲状腺がん(髄および乳頭甲状腺がん)、腎臓がん、腎実質がん、子宮頸がん、子宮体がん、子宮内膜がん、絨毛膜がん、精巣がん、尿路がん、黒色腫、神経膠芽腫、星状細胞腫、髄膜腫などの脳腫瘍、髄芽腫および末梢神経外胚葉性腫瘍、胆嚢がん、気管支がん、多発性骨髄腫、基底細胞腫、奇形腫、網膜芽細胞腫、脈絡膜黒色腫、セミノーマ、横紋筋肉腫、頭蓋咽頭腫、骨肉腫、軟骨肉腫、筋肉腫、脂肪肉腫、線維肉腫、ユーイング肉腫、および形質細胞腫が含まれるが、限定されない。
【0275】
さらなる実施形態では、分析中のがんは、非小細胞肺がんおよび小細胞肺がん(小細胞がん(オート細胞がん)、混合小細胞/大細胞がん、および複合小細胞がんを含む)を含む肺がん、結腸がん、乳がん、前立腺がん、肝臓がん、膵臓がん、脳腫瘍、腎臓がん、卵巣がん、胃がん、皮膚がん、骨がん、胃がん、乳がん、膵臓がん、神経膠腫、神経膠芽腫、肝細胞がん、乳頭状腎がん、頭頸部扁平上皮がん、白血病、リンパ腫、骨髄腫、または固形腫瘍であり得る。
【0276】
さらなる実施形態では、がんは、急性リンパ芽球性白血病、急性骨髄性白血病、副腎皮質がん、AIDS関連がん、AIDS関連リンパ腫、肛門がん、虫垂がん、星状細胞腫、非定型奇形腫/ラブドイド腫瘍、基底細胞がん、膀胱がん、脳幹神経膠腫、脳腫瘍(脳幹神経膠腫、中枢神経系非定型奇形腫/ラブドイド腫瘍、中枢神経系胚性腫瘍、星状細胞腫、頭蓋咽頭腫、上衣芽細胞腫、上衣腫、髄芽腫、髄上皮腫、中間分化型松果体実質腫瘍、脳室上部の原始神経外胚葉腫瘍および松果体芽細胞腫を含む)、乳がん、気管支腫瘍、バーキットリンパ腫、原発部位不明がん、カルチノイド腫瘍、原発部位不明がん、中枢神経系非定型奇形腫/ラブドイド腫瘍、中枢神経系胚性腫瘍、子宮頸がん、小児がん、脊索腫、慢性リンパ性白血病、慢性骨髄性白血病、慢性骨髄増殖性疾患、結腸がん、結腸直腸がん、頭蓋咽頭腫、皮膚T細胞リンパ腫、内分泌膵島細胞腫瘍、子宮内膜がん、上衣芽細胞腫、上衣腫、食道がん、感覚神経芽腫、ユーイング肉腫、頭蓋外胚細胞腫瘍、顎外胚細胞腫瘍、肝外胆管がん、胆嚢がん、胃がん(gastric(stomach)cancer)、消化管カルチノイド腫瘍、消化管間質細胞腫瘍、消化管間質腫瘍(GIST)、妊娠性絨毛腫瘍、神経膠腫、有毛細胞白血病、頭頸部がん、心臓がん、ホジキンリンパ腫、下咽頭がん、眼内黒色腫、膵島細胞腫瘍、カポジ肉腫、腎臓がん、ランゲルハンス細胞組織球症、喉頭がん、口唇がん、肝臓がん、悪性線維性組織球腫骨がん、髄芽腫、髄上皮腫、黒色腫、メルケル細胞がん、メルケル細胞皮膚がん、中皮腫、原発不明の転移性扁平上皮頸部がん、口腔がん、多発性内分泌腫瘍症候群、多発性骨髄腫、多発性骨髄腫/形質細胞新生物、菌状息肉症、骨髄異形成症候群、骨髄増殖性新生物、鼻腔がん、上咽頭がん、神経芽腫、非ホジキンリンパ腫、非黒色腫皮膚がん、非小細胞肺がん、口腔がん、口腔がん、中咽頭がん、骨肉腫、その他の脳腫瘍および脊髄腫瘍、卵巣がん、卵巣上皮がん、卵巣胚細胞腫瘍、卵巣低悪性度腫瘍、膵がん、乳頭腫症、副鼻腔がん、副甲状腺がん、骨盤がん、陰茎がん、咽頭がん、中分化松型果体実質腫瘍、松果体芽細胞腫、下垂体腫瘍、形質細胞新生物/多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系(CNS)リンパ腫、原発性肝細胞がん、前立腺がん、直腸がん、腎がん、腎細胞がん、腎細胞がん、呼吸器がん、網膜芽細胞腫、横紋筋肉腫、唾液腺がん、セザリー症候群、小細胞肺がん、小腸がん、軟部肉腫、扁平上皮がん、頸部扁平上皮がん、胃(胃)がん、テント上原始神経外胚葉腫瘍、T細胞リンパ腫、精巣がん、咽頭がん、胸腺がん、胸腺腫、甲状腺がん、移行細胞がん、腎盂尿管移行細胞がん、絨毛腫瘍、尿管がん、尿道がん、子宮がん、子宮肉腫、膣がん、外陰がん、ワルデンシュトレームマクログロブリン血症、またはウィルム腫瘍であり得る。本開示の方法は、これらのがん、および他のがんを特徴付けるために使用することができる。したがって、表現型を特徴付けることは、本明細書に開示されるがんの1つの診断、予後、またはセラノーシスを提供することができる。
【0277】
機械学習予測因子は、入力としてがんを有する患者のコホートの1つ以上のセットからのデータセット、例えば、個体の生体試料の多分析物アッセイ(multi-analyte assays)を実施することによって生成されるデータセット、および機械学習予測因子への出力として対象の臨床診断(例えば、ステージ分類および/または腫瘍の割合)結果を使用して訓練され得る。
【0278】
訓練データセット(例えば、個体の生体試料の多分析物アッセイを行うことによって生成されるデータセット)は、例えば、共通の特性(特徴量)および結果(標識)を有する対象の1つ以上のセットから生成され得る。訓練データセットは、診断に関連する特徴に対応する特徴およびラベルのセットを含み得る。特徴量は、例えば、健常試料および疾患試料から得られた生体試料中のcfDNA断片の計数など、参照ゲノムのビン(ゲノムウィンドウ)のセットの各々と重複するか、またはその範囲内に入るcfDNAアッセイ測定値の特定の範囲またはカテゴリーなどの特徴を含み得る。例えば、所与の時点において所与の対象から収集された特徴量のセットは、所与の時点における対象の同定されたがんを示し得る診断シグネチャとして集合的に役立ち得る。特性はまた、1つ以上のがんについてなど、対象の診断結果を示す標識を含み得る。
【0279】
標識は、例えば、対象の臨床診断(例えば、ステージ分類および/または腫瘍の割合)結果などの結果を含み得る。結果は、対象におけるがんに関連する特徴を含み得る。例えば、特徴は、対象が1つ以上のがんを有することを示し得る。
【0280】
訓練セット(例えば、訓練データセット)は、対象の1つ以上のセット(例えば、1つ以上のがんを有するまたは有しない患者の後向きコホートおよび/または前向きコホート)に対応するデータのセットのランダムサンプリングによって選択され得る。あるいは、訓練セット(例えば、訓練データセット)は、対象の1つ以上のセット(例えば、1つ以上のがんを有する、または有しない患者の後向きコホートおよび/または前向きコホート)に対応するデータのセットの比例サンプリングによって選択されて得る。訓練セットは、対象の1つ以上のセット(例えば、異なる臨床現場または治験からの患者)に対応するデータのセットにわたってバランスがとられ得る。機械学習予測器は、診断精度尺度(diagnostic accuracy measures)に対応する最小の所望値を有するなど、精度または性能に関する特定の所定の条件が満たされるまで訓練され得る。例えば、診断精度尺度は、対象における1つ以上のがんの診断、ステージ分類、または腫瘍の割合の予測に対応し得る。
【0281】
診断精度尺度の例には、感度、特異度、PPV、NPV、精度、およびがん(例えば、結腸直腸がん)を検出または予測する診断精度に対応するROC曲線のAUCが含まれ得る。
【0282】
別の態様では、本開示は、対象におけるがんを同定するための方法を提供し、該方法は、(a)上記対象からの無細胞核酸(cfNA)分子を含む生体試料を提供する工程と、(b)上記対象からの上記cfNA分子をメチル化シーケンシングして、複数のcfNAシーケンシングリードを生成する工程と、(c)上記複数のcfNAシーケンシングリードを参照ゲノムにアラインメントする工程と、(d)上記参照ゲノムの第1の複数のゲノム領域の各々における上記複数のcfNAシーケンシングリードの定量的尺度を生成し、第1のcfNA特徴量セットを生成する工程であって、上記参照ゲノムの上記第1の複数のゲノム領域は、少なくとも約10個の異なる領域、上記少なくとも約10個の異なる領域の各々を含む、工程と、(e)訓練されたアルゴリズムを上記第1のcfNA特徴量セットに適用して、上記対象が上記がんを有する尤度(likelihood)を生成する工程とを含む。
【0283】
いくつかの実施形態では、方法は、疾患または細胞増殖障害を有するリスクがある対象からの所定の関心領域(ROI)において測定されたヒドロキシメチル化レベルを、類似の所定のROIについて、正常または健康な対象における測定されたヒドロキシメチル化レベルのデータベースと比較する工程と、類似の所定のROIについて、正常または健康な対象における測定されたヒドロキシメチル化レベルのデータベースにおいて、正常または健康な対象の所定のROIと比較して、対象の所定のROIにおける差次的にヒドロキシメチル化された核酸断片を定量することによって、対象が細胞増殖障害を有するリスクが増加すると判定する工程とを含む。
【0284】
例えば、そのような所定の疾病は、がん(例えば、結腸直腸がん、乳がん、膵臓がん、または肝臓がん)を予測する感度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0285】
別の例として、そのような所定の疾病は、がん(例えば、結腸直腸がん、乳がん、膵臓がん、または肝臓がん)を予測する特異度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0286】
別の例として、そのような所定の疾病は、がん(例えば、結腸直腸がん、乳がん、膵臓がん、または肝臓がん)を予測するPPVが、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0287】
別の例として、このような所定の疾病は、がん(例えば、結腸直腸がん、乳がん、膵臓がん、または肝臓がん)を予測するNPVが、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0288】
別の例として、このような所定の疾病は、がん(例えば、結腸直腸がん、乳がん、膵臓がん、または肝臓がん)を予測するROC曲線のAUCが、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99の値を含むことであり得る。
【0289】
前述の態様のいずれかのうちのいくつかの例では、方法は、対象における疾患の進行をモニタリングする工程をさらに含み、モニタリングは、遺伝子シーケンスの特徴に少なくとも部分的に基づく。いくつかの例では、疾患はがんである。
【0290】
いくつかの実施形態では、本明細書に記載の方法は、患者試料中の全メチル化シグナルに対する5-ヒドロキシメチル化シグナルの寄与を決定するために有用である。全メチル化シグナルは、メチル化検出のための亜硫酸水素塩または酵素ベースのライブラリ調製を含む様々なシーケンシング方法に由来し得る。診断の感度または特異度に悪影響を及ぼすノイズに対する5hmCの寄与は、試験性能を改善するために総メチル化シグナルから除去され得る。
【0291】
いくつかの実施形態では、本明細書に記載の方法は、5hmC検出に有用であり、酸化的重硫酸水素塩シーケンシング(oxBS-seq)と同様の様式で使用することができる。5mCの変換なしでのC、5hmC、5fC、および5caC塩基のウラシルへの変換は、5mCのみの検出を可能にし得る。5hmCシグナルは、全メチル化シグナルから減算されて、塩基分解能で「真のメチル」シグナルを達成することができるが、より低いDNA入力を使用する。全メチル化シグナルから5hmCを減算することは、DNA中の「真のメチル」または5mCシグナルの読み出しを提供する。oxBS-seqは、5hmCから5fCへの化学的酸化、続いて、高いDNA入力を必要とする重亜硫酸水素塩変換を伴い得る。
【0292】
いくつかの実施形態では、本明細書に記載の方法は、遺伝子発現の予測を改善するために、ヌクレオチド分解能5hmCを単独で、または全メチル化シグナルと組み合わせて分析するのに有用である。予測のための特徴は、プロモータ、エンハンサ、UTR、および遺伝子本体などの関連ゲノム特徴量において、CpGまたは断片レベルあたりの5hmCレベルおよび5hmC/5mC比を含み得る。
【0293】
いくつかの実施形態では、本明細書に記載の方法は、様々な組織、細胞型、およびがん型におけるヌクレオチドレベル5hmCシグネチャを収集し、それによって過去の5hmC組織マップの分解能を高めるのに有用である。これらのデータの分析は、がんの診断および予後のための起源の組織のより高感度かつ特異的な決定のために使用され得る。
【0294】
いくつかの実施形態では、本明細書に記載の方法は、がんの処置に対する患者の応答についてのバイオマーカの発見に有用である。cfDNA中の5hmCシグナルの存在量または組織特異的5hmCシグナルの存在を使用して、1つ以上のがん型に対する処置後の残存疾患を追跡することができる。
【0295】
いくつかの実施形態では、本明細書に記載される方法は、コンパニオン診断法のための薬物標的遺伝子におけるcfDNA由来5hmCシーケンスデータ情報を使用して、薬物処置に反応する可能性が高いかまたは積極的に反応する患者、薬物に対する患者の反応の有効性、または処置に起因する副作用のリスクがある患者を同定し得る。
【実施例
【0296】
実施例1.5hmC含有核酸の溶解を改善するための修飾オリゴヌクレオチドアダプタの使用
本明細書に記載の方法は、患者試料中の無細胞またはゲノムDNA分子からのヌクレオチド分解能5hmCシーケンシングライブラリの生成に使用することができる。ライブラリは、ゲノム全体または標的領域について生成することができる。5hmC DNA修飾の分析は、がん検出のためのバイオマーカの発見、起源組織の決定、がんの予後、およびコンパニオン診断開発を含む多くの用途を有し得る。疾患の特徴量化されたバイオマーカを同定するため(サブタイプ層別化を含む)、または疾患検出のために個々の試料を分類するのに有用な機械学習モデルを訓練するために、ヒドロキシメチル化プロファイリングを含む用途のための入力として、特徴量化されたヒドロキシメチル化状態データを使用され得る。
【0297】
方法
5hmC検出のための酵素的ヒドロキシメチル化シーケンシング(EHM-seq)法は、以下の操作、
a.5mCアダプタの酵素的酸化および任意選択でグルコシル化、
b.入力DNAの末端調製、
c.酵素的酸化されたアダプタを使用した、入力DNAへのアダプターライゲーション、
d.DNA分子中のCおよび5mCのβ-グルコシル化と、Uへの酵素的脱アミノ化とによる5hmCの保護、ならびに
e.変換された入力のライゲーションされたDNAのシーケンシング
を含み得る。
【0298】
A)5mCアダプタの酵素的酸化
アダプタにおける5mCの酵素的酸化は、最初に5hmCに、次いで5fCに、最終的に5caCに酵素的に酸化することを含み、同時に、同じ反応では、5hmCから5gmCにグルコシル化し得る。このようにして、5caCおよび5gmCは、Uへの下流変換から保護され得る。
【0299】
5mCの酸化、あるいは5caCおよび/または5gmCへのグルコシル化は、Uへの下流の酵素変換からアダプタを保護し、ライゲーションされたDNA分子は、5hmC検出に供され得る。
【0300】
5mCアダプタを酵素的に酸化させることの代替は、その後のアダプターライゲーション反応において使用するための5hmC含有アダプタを合成することであり得る。
【0301】
B)末端調製および入力DNAのAテーリング
末端修復は、3’-5’エキソヌクレアーゼ活性を有するDNAポリメラーゼを使用して5’突出を充填し、3’突出を除去し、それにより平滑末端DNAを生成する。次いで、Aテーリングは、単一のAヌクレオチドを3’末端に結合させて、その後の高効率T/Aライゲーション操作を可能にする。あるいは、平滑末端ライゲーションを使用してアダプタをDNA分子に結合させる場合、Aテーリング操作を省略することができる。
【0302】
C)アダプターライゲーションおよびライブラリ調製
酵素的に酸化されたアダプタを、1μMの最終濃度で試料DNA分子とのアダプターライゲーション反応に加える。アダプターライゲーション後、クリーンアップを行い、アダプターライゲーションされたDNA分子を最終容量で溶出する。
【0303】
D)5hmCの5gmCへのグルコシル化による保護
ライゲーションされたDNAをグルコシル化する。グルコシル化後、クリーンアップを行い、グルコシル化アダプターライゲーションされたDNA分子を最終容量で溶出する。
【0304】
クリーンアップされたβ-GT保護DNAを変性させ、続いて氷上で即座にインキュベートする。変性されたDNAに、APOBEC反応条件を適用し、酵素変換を完了させる。
【0305】
次いで、変換されたDNAをPCR増幅し、ターゲットエンリッチメントおよび/またはシーケンシングを行うことができる。
【0306】
ヒドロキシメチル化分析/特徴量化
5hmCは、エンハンサ、プロモータ、および遺伝子本体を含むゲノムのゲノム領域に優先的に表現される。本明細書に記載の方法によって生成されたデータの有用な特徴量化を使用して、例えば、平均ヒドロキシメチル化レベル(遺伝子本体と重複して検出されたヒドロキシメチル化CpGの数を、遺伝子本体と重複するCpGの総数で割ったもの)など、遺伝子本体にわたる総計5hmCメトリックを計算する。このメトリックの可能な用途の1つは、試料の疾患状態を分類することである。
【0307】
CpGメチル化は哺乳動物におけるシトシンメチル化の大部分を構成するので、哺乳動物ゲノムにおけるシトシンメチル化およびヒドロキシメチル化の分析は、慣例上、CpG状況におけるシトシンのメチル化に焦点を当ててきた。しかし、非CpGメチル化、すなわちCHメチル化は、生物学的に機能的であり得る。核酸シーケンス中のヒドロキシメチル状態は、遺伝子本体にわたる平均CHヒドロキシメチル化レベルを含むように特徴量化され得る。ひとたび情報量化されると、ヒドロキシメチル化状態データは、ヒドロキシメチル化プロファイリングを含む用途のために処理されることで、疾患の特徴的なバイオマーカを同定する(サブタイプ層別化を含む)か、または疾患検出のために個々の試料を分類するのに有用な機械学習モデルを訓練し得る。
図1A
図1B
図2
図3
【国際調査報告】