(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-09
(54)【発明の名称】メチル化核酸の高深度シーケンシングのための方法とシステム
(51)【国際特許分類】
C12Q 1/6874 20180101AFI20220902BHJP
C12Q 1/686 20180101ALI20220902BHJP
C12Q 1/6837 20180101ALI20220902BHJP
C12Q 1/6876 20180101ALI20220902BHJP
C12M 1/00 20060101ALI20220902BHJP
C12Q 1/6806 20180101ALI20220902BHJP
C12N 15/09 20060101ALN20220902BHJP
【FI】
C12Q1/6874 Z
C12Q1/686 Z
C12Q1/6837 Z
C12Q1/6876 Z
C12M1/00 A
C12Q1/6806 Z
C12N15/09 Z ZNA
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021511648
(86)(22)【出願日】2020-05-29
(85)【翻訳文提出日】2021-04-26
(86)【国際出願番号】 US2020035380
(87)【国際公開番号】W WO2020243609
(87)【国際公開日】2020-12-03
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】521040846
【氏名又は名称】フリーノム ホールディングス,インク.
(74)【代理人】
【識別番号】100082072
【氏名又は名称】清原 義博
(72)【発明者】
【氏名】アリアジ,エリック
(72)【発明者】
【氏名】ワインバーグ,デイビッド
(72)【発明者】
【氏名】ホーガン,グレッグ
(72)【発明者】
【氏名】エスティー.ジョン,ジョン
(72)【発明者】
【氏名】ピアソン,マイケル
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB20
4B029CC01
4B029CC02
4B029FA15
4B063QA13
4B063QA19
4B063QA20
4B063QQ02
4B063QQ08
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QR55
4B063QR62
4B063QR72
4B063QR77
4B063QR82
4B063QS25
4B063QS34
4B063QS36
4B063QS39
4B063QX01
(57)【要約】
本明細書で提供される方法とシステムは、核酸メチル化シーケンシングの品質と精度を改善することでバイサルファイトベースのメチル化シーケンシングの現行の制限に対処するものであり、疾患の検出のために用いられる。メチル化シーケンシングのために破壊性を最小限にした変換方法のほか、特殊なUMIアダプターを含む方法は、シーケンシングライブラリとシーケンシング情報の品質改善をもたらす。精度が高くなり、メチル化状態情報が完全になるにつれ、機械学習モデルと分類子生成に使用される特徴生成の品質を向上させることができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
生物試料の核酸分子に対しメチル化シーケンシングを行う方法であって、該方法は、
a)固有の分子識別子を含む核酸アダプターを前記核酸分子にライゲーションする工程であって、前記核酸分子が未変換核酸を含む、工程と、
b)破壊性が最小限の変換方法を用いて前記核酸分子内で非メチル化シトシンをウラシルに変換する工程であって、これにより変換核酸を生成する、工程と、
c)ポリメラーゼ連鎖反応により前記変換核酸を増幅する工程であって、これにより増幅済みの変換核酸を生成する、工程と、
d)CpGまたはCH遺伝子座の予め同定されたパネルに対応する配列を濃縮するために、前記増幅済みの変換核酸を、CpGまたはCH遺伝子座の予め同定されたパネルに相補的な核酸プローブでプローブする工程であって、これによりプローブ済みの変換核酸を生成する、工程と、
e)前記プローブ済みの変換核酸の核酸配列を100x超の深度で決定する工程と、
f)生物試料の核酸分子のメチル化プロファイルを決定するために、前記プローブ済みの変換核酸の核酸配列を、CpGまたはCH遺伝子座の予め同定されたパネルの基準核酸配列と比較する工程とを含む、方法。
【請求項2】
前記核酸分子が血漿cfDNAである、請求項1に記載の方法。
【請求項3】
前記破壊性が最小限の変換方法が、酵素変換、TAPS、またはCAPSを含む、請求項1に記載の方法。
【請求項4】
前記固有の分子識別子が、長さ4bp~6bpであり、5’チミジンオーバーハングを有する、請求項1に記載の方法。
【請求項5】
前記核酸アダプターがユニークデュアルインデックス(UDI)シーケンスをさらに含む、請求項4に記載の方法。
【請求項6】
前記UDIシーケンスの長さが4bp、5bp、6bp、7bp、8bp、9bp、10bp、11bp、または12bpである、請求項5に記載の方法。
【請求項7】
前記変換核酸を増幅する工程は、ユニークデュアルインデックス(UDI)シーケンスを含むプライマーを使用することを含む、請求項1に記載の方法。
【請求項8】
前記核酸アダプターは、グアニン、チミン、アデニン、およびシトシンの各塩基を含むが5mC含有塩基または5hmC含有塩基を含まない、変換抵抗アダプターである、請求項1に記載の方法。
【請求項9】
前記核酸プローブが非メチル化核酸プローブである、請求項1に記載の方法。
【請求項10】
前記核酸プローブは、基準核酸配列内のCpG部位に非メチル化シトシンと一致する対象の標的領域へとハイブリダイズする、請求項1に記載の方法。
【請求項11】
前記核酸プローブは、基準核酸配列内のCpG部位にメチル化シトシンと一致する対象の標的領域を含む、請求項1に記載の方法。
【請求項12】
前記核酸プローブが、化学的あるいは酵素的に改質されたメチル化核酸プローブまたは非メチル化核酸プローブの混合物である、請求項1に記載の方法。
【請求項13】
前記プローブ済みの変換核酸のCGコンテキストの1つ以上のシトシンはチミンに変換され、前記プローブ済みの変換核酸のCHコンテキストのシトシンはすべてチミンに変換される、請求項1に記載の方法。
【請求項14】
非メチル化シトシンからウラシルへの変換は、一連のTET/APOBEC酵素変換を含む、請求項1に記載の方法。
【請求項15】
非メチル化シトシンからウラシルへの変換はTAPSを含む、請求項1に記載の方法。
【請求項16】
被験体由来の生物試料の核酸分子内の標的化メチル化パターンを決定するための方法であって、該方法は、
a)固有の分子識別子を含む核酸アダプターを前記核酸分子にライゲーションする工程であって、前記核酸分子が未変換核酸を含む、工程と、
b)変換核酸を生成するために核酸分子内で非メチル化シトシンをウラシルに酵素変換する工程と、
c)前記変換核酸をポリメラーゼ連鎖反応により増幅する工程と、
d)CpGまたはCH遺伝子座の予め同定されたパネルに対応する配列を濃縮するために、前記変換核酸を、CpGまたはCH遺伝子座の前記予め同定されたパネルに相補的な核酸プローブでプローブする工程と、
e)前記変換核酸の核酸配列を100x超の深度で決定する工程と、
f)前記被験体由来の生物試料の核酸分子の標的化メチル化パターンを決定するために、前記変換核酸の核酸配列を、CpGまたはCH遺伝子座の予め同定されたパネルの基準核酸配列と比較する工程とを含む、方法。
【請求項17】
前記変換核酸の核酸配列を決定する工程が、二重鎖様エラー訂正を含む、請求項16に記載の方法。
【請求項18】
前記核酸アダプターは、グアニン、チミン、アデニン、およびシトシンの各塩基を含むが5mC含有塩基または5hmC含有塩基を含まない、変換抵抗アダプターである、請求項16に記載の方法。
【請求項19】
CpGまたはCH遺伝子座の前記予め同定されたパネルが、転写因子開始部位に関連付けられる遺伝子座を含む、請求項16に記載の方法。
【請求項20】
標的化メチル化パターンがヘミメチル化CpG遺伝子座を含む、請求項16に記載の方法。
【請求項21】
被験体由来の無細胞DNA(cfDNA)試料のメチル化プロファイルを決定するための方法であって、該方法は、
a)固有の分子識別子を含む核酸アダプターをcfDNAにライゲーションする工程であって、前記cfDNAが未変換核酸を含む、工程と、
b)変換核酸を生成するために核酸分子内で非メチル化シトシンをウラシルに酵素変換する工程と、
c)前記変換核酸をポリメラーゼ連鎖反応により増幅する工程と、
d)CpGまたはCH遺伝子座の予め同定されたパネルに対応する配列を濃縮するために、前記変換核酸を、CpGまたはCH遺伝子座の前記予め同定されたパネルに相補的な核酸プローブでプローブする工程と、
e)前記変換核酸の核酸配列を100x超の深度で決定する工程と、
f)被験体由来の無細胞DNA(cfDNA)試料のメチル化プロファイルを決定するために、前記変換核酸の核酸配列を、CpGまたはCH遺伝子座の前記予め同定されたパネルの基準核酸配列と比較する工程とを含む、方法。
【請求項22】
前記核酸アダプターは、グアニン、チミン、アデニン、およびシトシンの各塩基を含むが5mC含有塩基または5hmC含有塩基を含まない、変換抵抗アダプターである、請求項21に記載の方法。
【請求項23】
組織由来のcfDNA試料を同定する工程、cfDNA試料の体細胞変異を同定する工程、cfDNA試料のヌクレオソーム位置を推定する工程、cfDNA試料の可変メチル化領域を同定する工程、またはcfDNA試料のハプロタイプブロックを同定する工程をさらに含む、請求項21に記載の方法。
【請求項24】
生物試料の核酸分子に対しメチル化シーケンシングを行う方法であって、該方法は、
a)核酸分子のcfDNA断片からメチル化シーケンシングライブラリを調製する工程であって、
i)二本鎖アダプターをcfDNA断片にライゲーションすること、
ii)二重の固有分子識別子をcfDNA断片にライゲーションすること、および
iii)破壊性が最小限の変換方法を用いてcfDNA断片中の非メチル化シトシンをウラシルに変換することで、核酸分子のcfDNAからメチル化シーケンシングライブラリを調製することを含む、工程と、
b)前記メチル化シーケンシングライブラリをCpGまたはCH遺伝子座に対応する配列に対して濃縮する工程であって、それにより濃縮メチル化シーケンシングライブラリを生成する、工程と、
c)シングルエンドリードまたはペアエンドリードを使用して、前記濃縮メチル化シーケンシングライブラリを100x超の深度で配列決定する工程であって、それによりシングルエンドリードまたはペアエンドリードの配列決定断片を生成する、工程と、
d)前記ペアエンドリードの各配列決定断片に対して、ペアエンドリードの重複領域内にあるシーケンシングエラーを訂正する工程と、
e)PCRとシーケンシングから生じるエラーを訂正するために、配列決定断片を鎖状リードファミリーに折りたたむ工程と、
f)前記核酸分子中の対称的なCpG遺伝子座の推定メチル化状態に対するメチル化の不一致を同定するために、前記鎖状リードファミリーを二重リードファミリーに折りたたむ工程とを含む、方法。
【請求項25】
前記破壊性が最小限の変換方法が、酵素変換、TAPS、またはCAPSである、請求項24に記載の方法。
【請求項26】
分類子を生成する方法であって、該方法は、
a)固有の分子識別子を含む核酸アダプターを、健康な被験体由来の生物試料および癌被験体由来の生物試料の各核酸分子にライゲーションする工程と、
b)破壊性が最小限の変換方法を用いて前記核酸分子内で非メチル化シトシンをウラシルに変換する工程であって、これにより変換核酸を生成する、工程と、
c)ポリメラーゼ連鎖反応により前記変換核酸を増幅する工程であって、これにより増幅済みの変換核酸を生成する、工程と、
d)CpGまたはCH遺伝子座の予め同定されたパネルに対応する配列を濃縮するために、前記増幅済みの変換核酸を、CpGまたはCH遺伝子座の予め同定されたパネルに相補的な核酸プローブでプローブする工程であって、これによりプローブ済みの変換核酸を生成する、工程と、
e)前記プローブ済みの変換核酸の核酸配列を100x超の深度で決定する工程と、
f)健康な被験体と癌被験体のメチル化プロファイルを表す入力特徴の一組の測定値を取得するために、前記プローブ済みの変換核酸の核酸配列を、CpGまたはCH遺伝子座の前記予め同定されたパネルの基準核酸配列と比較する工程と、
g)健康な被験体と癌被験体とを弁別する分類子を生成するために機械学習モデルを訓練する工程とを含む、方法。
【請求項27】
CpGまたはCH遺伝子座の前記予め同定されたパネルが、転写開始部位に関連付けられる遺伝子座を含む、請求項26に記載の方法。
【請求項28】
ヘミメチル化CpGまたはCHの遺伝子座を決定する工程をさらに含む、請求項26に記載の方法。
【請求項29】
核酸分子の組織起源を同定する工程をさらに含む、請求項26に記載の方法。
【請求項30】
核酸分子のゲノム位置と断片長を同定する工程をさらに含む、請求項26に記載の方法。
【請求項31】
前記入力特徴は、CpGに対する塩基単位のメチル化%、CHGに対する塩基単位のメチル化%、CHHに対する塩基単位のメチル化%、ある領域においてメチル化CpGの数または割合が異なる断片を観察する数または割合、変換効率、低メチル化ブロック、CPGのメチル化レベル、CHHのメチル化レベル、CHGのメチル化レベル、断片長、断片中点、chrMのメチル化レベル、LINE1のメチル化レベル、ALUのメチル化レベル、ジヌクレオチドカバレッジ、カバレッジの均一性、全体的な平均CpGカバレッジ、ならびに、CpGアイランド、CGIシェルフ、およびCGIショアでの平均カバレッジから選択される、請求項26に記載の方法。
【請求項32】
健康な個体集団と癌の個体集団とを鑑別する分類子であって、該分類子は、健康な被験体と癌被験体それぞれのメチル化シーケンシングデータからのメチル化プロファイルを表す一組の測定値を含み、該測定値はメチル化プロファイルの特性に対応する一組の特徴を生成するために使用され、該一組の特徴は機械学習または統計モデルに入力され、前記機械学習または統計モデルは、健康な個体集団と癌の個体集団とを鑑別する分類子として有用な特徴ベクトルを提供する、分類子。
【請求項33】
被験体集団から癌を検出するための方法であって、該方法は、
a)核酸のメチル化プロファイルを得るために、破壊性が最小限の標的化変換メチルシーケンシングを使用することにより、被験体由来の生物試料の核酸をアッセイする工程と、
b)健康な被験体と癌被験体の各試料を分類する訓練アルゴリズムに前記メチル化プロファイルを入力することにより前記生物試料を分類する工程と、
c)前記訓練アルゴリズムが特定の信頼値で生物試料を癌に対して陰性と分類する場合に、生物試料を癌に対して陰性と同定するレポートをコンピュータスクリーンに出力する工程とを含む、方法。
【請求項34】
前記癌が大腸癌である、請求項33に記載の方法。
【請求項35】
メチル化状態に基づいて個体を分類するためのシステムであって、該システムは、
a)分類子を備えたコンピュータ可読媒体製品であって、前記分類子は、健康な被験体と癌被験体の各メチル化シーケンシングデータからのメチル化プロファイルを表す一組の測定値を含み、該測定値は健康な被験体と癌被験体の各メチル化プロファイルの特性に対応する一組の特徴を生成するために使用され、該一組の特徴は機械学習または統計モデルに入力され、前記機械学習または統計モデルは、健康な個体集団と癌の個体集団とを鑑別する分類子として有用な特徴ベクトルを提供する、コンピュータ可読媒体製品と、
b)前記コンピュータ可読媒体製品に記憶された命令を実行するための1つ以上のプロセッサとを備えている、システム。
【請求項36】
前記システムは、線形判別分析(LDA)分類子、二次判別分析(QDA)分類子、サポートベクターマシン(SVM)分類子、ランダムフォレスト(RF)分類子、線形カーネルサポートベクターマシン分類子、一次多項式カーネルサポートベクターマシン分類子、二次多項式カーネルサポートベクターマシン分類子、リッジ回帰分類子、弾性ネットアルゴリズム分類子、逐次最小問題最適化法アルゴリズム分類子、単純ベイズアルゴリズム分類子、および非負値行列因子分解(NMF)予測アルゴリズム分類子から選択される機械学習分類子として構成される、分類回路を備えている、請求項35に記載のシステム。
【請求項37】
前記システムが、上記の方法のいずれかを実行する手段を備えている、請求項35に記載のシステム。
【請求項38】
前記システムは、上記方法のいずれかを実行するように構成される1つ以上のプロセッサを備えている、請求項35に記載のシステム。
【請求項39】
前記システムは、上記方法のいずれかの工程をそれぞれ実行するモジュールを備えている、請求項35に記載のシステム。
【請求項40】
以前に疾患を処置された被験体の最小残存病変状態をモニタリングするための方法であって、該方法は、
a)メチル化状態のベースラインにて被験体から得た生物試料のメチル化プロファイルのベースラインを決定する工程と、
b)ベースラインメチル化状態後の1つ以上の所定の時点に、被験体から得た生物試料の試験メチル化プロファイルを決定する工程と、
c)メチル化プロファイルのベースラインと比較した場合の試験メチル化プロファイルの変化を決定する工程であって、前記変化は被験体の最小残存病変状態の変化を示す、工程とを含む、方法。
【請求項41】
前記最小残存病変状態は、処置への応答、腫瘍負荷、手術後の残存腫瘍、再発、二次スクリーニング、一次スクリーニング、および癌進行から選択される、請求項40に記載の方法。
【請求項42】
前記疾患が大腸癌である、請求項40に記載の方法。
【請求項43】
上記方法を実施するための試薬と、腫瘍シグナルを検出するための指示書とを備えている、腫瘍検出用キット。
【請求項44】
前記試薬が、プライマーセット、PCR反応成分、シーケンシング試薬、破壊性が最小限の変換試薬、およびライブラリ調製試薬からなる群から選択される、請求項43に記載の腫瘍検出用キット。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は2019年5月31日出願の米国仮出願第62/855,795号に基づく利益を主張するものであり、この仮出願はその全体を参照により本明細書に引用される。
【0002】
参照による引用
実施例を含めて本明細書で言及される刊行物、特許、および特許出願はすべて、あたかも個々の刊行物、特許、または特許出願が参照により引用されていると具体的かつ個別に示されているかのように、その全体を参照により本明細書に引用される。矛盾が生じた場合には、明細書中にあらゆる定義を含む本出願を優先するものとする。
【背景技術】
【0003】
正常分化や癌などの疾患におけるDNAの安定性とDNAの役割により、DNAメチル化は腫瘍の特徴と表現型状態を表すことができ、これにより個別化医療での使用可能性が高くなっている。異常なDNAメチル化パターンが癌発症の早期に起こるため、癌の早期検出を容易にすることができる。実際、DNAメチル化異常は癌の特徴の1つであるとともに、腫瘍発生から癌の進行と転移にいたるまで、癌のあらゆる側面に関連付けられている。このような特性により、近年見られる多くの手法において、癌を診断するためにDNAメチル化パターンが使用されるようになった。具体的には、無細胞DNA(cfDNA)は循環中に存在する断片化DNAであり、断片化パターンは生体信号として有用かつ有益である。対照的にゲノムDNAは、ライブラリ調製に使用するためにインビトロで人工的に断片化されるため、ゲノムDNAの断片化パターンは診断方法ではあまり重要ではない。
【0004】
DNAメチル化はDNAの共有結合修正であるとともに、遺伝子発現を抑制してクロマチン構造を調整するという重要な役割を担うことが可能な安定した遺伝的特徴である。人間では、DNAメチル化は主にCpGジヌクレオチドのシトシン残基に生じる。他のジヌクレオチドとは異なり、CpGはゲノム全体に均等に分布しておらず、短いCpGが豊富でCpGアイランドと呼ばれるDNA領域に集中する場合がある。通常、ゲノム内のCpG部位の大部分の約70~75%までがメチル化されている。しかし、メチル化パターンは細胞型ごとに異なり、細胞型特異的遺伝子発現を調節する役割を反映している。このようにして、細胞のメチロームは、細胞の末端分化状態を、例えばニューロン、筋肉細胞、免疫細胞などとするようにプログラムすることができる。
【0005】
さらに、組織中の様々な細胞サブタイプは異なるメチル化パターンを呈することができる。癌細胞では、CpGメチル化は調節解除することができ、メチル化パターンの異常は腫瘍形成に生じるイベントの中で最も早いものの一部である。所与の癌型のメチル化プロファイルは、癌の由来となる組織のプロファイルと最も類似している。ゆえに、cfDNA断片上の異常なメチル化特徴は、癌細胞を正常細胞から分化させて、組織型の由来を突き止めるために使用することができる。通常、全体的なCpGメチル化レベルは癌細胞で低下するが、特定の遺伝子座での平均メチル化レベル(またはメチル化%)は、対となる正常細胞と比して癌細胞中の特定のCpG部位にて変動する場合がある。正常細胞と罹患細胞との間で、メチル化が異なるCpG(DMC、単一部位)または領域(DMR、局所領域内の複数の部位)をプロファイリングすることで、疾患のバイオマーカーを同定することができる。このような手法はSEPT9遺伝子メチル化アッセイ(Epi proColon)の開発へと通じている。このアッセイは、最初にFDAの承認を受けた、血液を用いる大腸癌(CRC)の診断法である。
【0006】
バイサルファイト変換またはバイサルファイトシーケンシングが、DNAメチル化分析に広く使用されている方法となっている。バイサルファイトシーケンシングは、DNAメチル化を個々の塩基にマッピングする、都合の良い効果的な方法である。残念ながら、バイサルファイト変換は、試料DNAの90%より多くを分解させる、cfDNAに対する厳しく破壊的なプロセスである。バイサルファイトシーケンシングライブラリを構築する2つの主な手法として、(1)一本鎖DNAライブラリを構築する必要があるライブラリ構築前のDNAのバイサルファイト変換と、(2)二本鎖アダプターライゲーション後のDNAのバイサルファイト変換がある。どちらもDNAの重度の分解を伴うものであり、この分解は、特に非常に低濃度で血漿に存在するとともに液体生検用途に対する限界資源であるcfDNAに対する問題となるおそれがある。ssDNAライブラリでは、一部の分解されたcfDNAはライブラリ内に保持することができるが、分解断片に関するエンドポイント情報は失われる。このようなライブラリにより、DNAメチル化を試験するのにcfDNAエンドポイントまたは断片長情報を使用する能力が制限されてしまう。dsDNAライブラリでは、バイサルファイトにより切断されたcfDNAインサートはライブラリから失われるが、生存したcfDNAインサートに関するエンドポイント情報は保持される。このことは、ゲノムの高深度の固有カバレッジを達成するために極めて大量の採血を必要とし、または分析の実行を低深度の固有カバレッジにのみ制限してしまう。
【0007】
次世代DNAシーケンシングの出現により、臨床医学と基礎研究が進歩している。しかし、この技法において1回の実験でDNA配列の数千億のヌクレオチドを生成することができるものの、エラー率は約1%であり、この結果、数億ものシーケンシングの誤りが生じてしまう。このようなエラーは一部の用途では許容可能であるが、腫瘍や混合微生物集団などの遺伝的に不均一な混合物の「ディープシーケンシング」では大きな問題となる。
【0008】
既存の方法では、cfDNAの変異体、およびcfDNAのメチル化状態を分析するには、2つの異なるシーケンシングアッセイと2つの異なるcfDNAプールが必要になる。血漿/cfDNA投入量と関連コストの観点から、このような方法には莫大なコストがかかる可能性がある。加えて、バイサルファイトによるDNAの破壊は、バイサルファイト変換DNAのシーケンシングデータ(酵素変換と比較)に作用可能な変異体コーリング方法の感度を低下させかねない。ゆえに、試料核酸の完全性を維持するとともに、全ゲノムレベルまたは標的レベルでのメチル化状態分析の精度を向上させるためには、cfDNAのメチル化分析法の改善が必要となる。
【発明の概要】
【0009】
本明細書で提供される方法とシステムは、核酸メチル化シーケンシングの品質と精度を改善することでバイサルファイトベースのメチル化シーケンシングの制限に対処するものであり、疾患の検出のために用いられる。精度が高くなり、メチル化状態に関する情報が完全になるにつれ、機械学習モデルと分類子生成に使用される特徴生成の品質を高くすることができる。
【0010】
第1の態様では、核酸試料のメチル化シーケンシングを実行するための方法が提供され、該方法は、
a)固有の分子識別子を含む核酸アダプターを前記核酸分子にライゲーションする工程であって、前記核酸分子が未変換核酸を含む、工程と、
b)破壊性が最小限の変換方法を用いて前記核酸分子内で非メチル化シトシンをウラシルに変換する工程であって、これにより変換核酸を生成する、工程と、
c)ポリメラーゼ連鎖反応により前記変換核酸を増幅する工程であって、これにより増幅済みの変換核酸を生成する、工程と、
d)CpGまたはCH遺伝子座の予め同定されたパネルに対応する配列を濃縮するために、前記増幅済みの変換核酸を、CpGまたはCH遺伝子座の予め同定されたパネルに相補的な核酸プローブでプローブする工程であって、これによりプローブ済みの変換核酸を生成する、工程と、
e)前記プローブ済みの変換核酸の核酸配列を100x超の深度で決定する工程と、
f)生物試料の核酸分子のメチル化プロファイルを決定するために、前記プローブ済みの変換核酸の核酸配列を、CpGまたはCH遺伝子座の予め同定されたパネルの基準核酸配列と比較する工程とを含む。
【0011】
一実施形態では、前記核酸分子は血漿cfDNAである。
【0012】
一実施形態では、前記破壊性が最小限の変換方法は、酵素変換、TAPS、またはCAPSを含む。
【0013】
一実施形態では、前記固有の分子識別子は、長さ4bp~6bpであり、5’チミジンオーバーハングを有している。
【0014】
一実施形態では、前記核酸アダプターはユニークデュアルインデックス(UDI)シーケンスをさらに含む。一実施形態では、前記UDIシーケンスの長さは4bp、5bp、6bp、7bp、8bp、9bp、10bp、11bp、または12bpである。
【0015】
一実施形態では、前記変換核酸を増幅する工程は、ユニークデュアルインデックス(UDI)シーケンスを含むプライマーを使用することを含む。一実施形態では、前記UDIシーケンスの長さは4bp、5bp、6bp、7bp、8bp、9bp、10bp、11bp、または12bpである。
【0016】
一実施形態では、前記核酸アダプターは、グアニン、チミン、アデニン、およびシトシンの各塩基を含むが5mC含有塩基または5hmC含有塩基を含まない、変換抵抗アダプターである。
【0017】
一実施形態では、前記核酸プローブは非メチル化核酸プローブである。
【0018】
一実施形態では、前記核酸プローブは、基準核酸配列内のCpG部位に非メチル化シトシンと一致する対象の標的領域へとハイブリダイズする。
【0019】
一実施形態では、前記核酸プローブは、基準核酸配列内のCpG部位にメチル化シトシンと一致する対象の標的領域を含む。
【0020】
一実施形態では、前記核酸プローブは、化学的あるいは酵素的に改質されたメチル化核酸プローブまたは非メチル化核酸プローブの混合物である。
【0021】
一実施形態では、前記プローブ済みの変換核酸のCGコンテキストの1つ以上のシトシンはチミンに変換され、前記プローブ済みの変換核酸のCHコンテキストのシトシンはすべてチミンに変換される。
【0022】
一実施形態では、非メチル化シトシンからウラシルへの変換は、一連のTET/APOBEC酵素変換を含む。
【0023】
一実施形態では、非メチル化シトシンからウラシルへの変換はTAPSを含む。
【0024】
第2の態様では、被験体由来の生物試料の核酸分子内の標的化メチル化パターンを決定するための方法が提供され、該方法は、
a)固有の分子識別子を含む核酸アダプターをcfDNAにライゲーションする工程であって、前記cfDNAが未変換核酸を含む、工程と、
b)変換核酸を生成するために核酸分子内で非メチル化シトシンをウラシルに酵素変換する工程と、
c)前記変換核酸をポリメラーゼ連鎖反応により増幅する工程と、
d)CpGまたはCH遺伝子座の予め同定されたパネルに対応する配列を濃縮するために、前記変換核酸を、CpGまたはCH遺伝子座の前記予め同定されたパネルに相補的な核酸プローブでプロービングする工程と、
e)前記変換核酸の核酸配列を100x超の深度で決定する工程と、
f)被験体由来の無細胞DNA(cfDNA)試料のメチル化プロファイルを決定するために、前記変換核酸の核酸配列を、CpGまたはCH遺伝子座の前記予め同定されたパネルの基準核酸配列と比較する工程とを含む。
【0025】
一実施形態では、前記変換核酸の核酸配列を決定する工程は、二重鎖様エラー訂正(duplex-like error correction)を含む。
【0026】
一実施形態では、前記核酸アダプターは、グアニン、チミン、アデニン、およびシトシンの各塩基を含むが5mC含有塩基または5hmC含有塩基を含まない、変換抵抗アダプターである。
【0027】
一実施形態では、CpGまたはCH遺伝子座の前記予め同定されたパネルは、転写因子開始部位に関連付けられる遺伝子座を含む。
【0028】
一実施形態では、前記標的化メチル化パターンは、ヘミメチル化CpG遺伝子座を含む。
【0029】
第3の態様では、被験体由来の無細胞DNA(cfDNA)試料のメチル化プロファイルを決定するための方法が提供され、該方法は、
a)固有の分子識別子を含む核酸アダプターをcfDNAにライゲーションする工程であって、前記cfDNAが未変換核酸を含む、工程と、
b)変換核酸を生成するために核酸分子内で非メチル化シトシンをウラシルに酵素変換する工程と、
c)前記変換核酸をポリメラーゼ連鎖反応により増幅する工程と、
d)CpGまたはCH遺伝子座の予め同定されたパネルに対応する配列を濃縮するために、前記変換核酸を、CpGまたはCH遺伝子座の前記予め同定されたパネルに相補的な核酸プローブでプロービングする工程と、
e)前記変換核酸の核酸配列を100x超の深度で決定する工程と、
f)被験体由来の無細胞DNA(cfDNA)試料のメチル化プロファイルを決定するために、前記変換核酸の核酸配列を、CpGまたはCH遺伝子座の前記予め同定されたパネルの基準核酸配列と比較する工程とを含む。
【0030】
一実施形態では、前記核酸アダプターは、グアニン、チミン、アデニン、およびシトシンの各塩基を含むが5mC含有塩基または5hmC含有塩基を含まない、変換抵抗アダプターである。
【0031】
一実施形態では、前記固有の分子識別子は、長さ4bp~6bpであり、5’チミジンオーバーハングを有している。
【0032】
一実施形態では、前記核酸アダプターはユニークデュアルインデックス(UDI)シーケンスをさらに含む。一実施形態では、前記UDIシーケンスの長さは4bp、5bp、6bp、7bp、8bp、9bp、10bp、11bp、または12bpである。
【0033】
一実施形態では、前記方法はさらに、組織由来のcfDNA試料を同定する工程、cfDNA試料の体細胞変異を同定する工程、cfDNA試料のヌクレオソーム位置を推定する工程、cfDNA試料の可変メチル化領域を同定する工程、またはcfDNA試料のハプロタイプブロックを同定する工程を含む。
【0034】
本明細書にはさらに、デュプレックスシーケンシングによるメチル化シーケンシングの方法が提供される。デュプレックスシーケンシングは、シーケンシング精度、例えばメチル化シーケンシング精度を改善可能な、タグベースのエラー訂正方法である。この方法では、アダプターは核酸鋳型上にライゲーションされ、PCRを使用して増幅される。一実施形態では、前記アダプターは、プライマー配列、およびランダムな12bpインデックスを含む。ディープシーケンシングは、すべての固有の分子タグからコンセンサス配列情報を提供する。分子タグとシーケンシングプライマーに基づいて、二重配列をアライメントさせてDNAの真の配列を決定することができる。デュプレックスシーケンシングの利点として、非常に低いエラー率、PCR増幅エラーの検出と除去が挙げられる。デュプレックスシーケンシングでは、アダプターの追加後に付加的なライブラリ調製工程は必要とされない。
【0035】
一実施形態では、生物試料の核酸分子に対しメチル化シーケンシングを行う方法は、
a)核酸分子のcfDNA断片からメチル化シーケンシングライブラリを調製する工程であって、
i)二本鎖アダプターをcfDNA断片にライゲーションすること、
ii)二重の固有分子識別子をcfDNA断片にライゲーションすること、および
iii)破壊性が最小限の変換方法を用いてcfDNA断片中の非メチル化シトシンをウラシルに変換することで、核酸分子のcfDNAからメチル化シーケンシングライブラリを調製することを含む、工程と、
b)前記メチル化シーケンシングライブラリをCpGまたはCH遺伝子座に対応する配列に対して濃縮する工程であって、それにより濃縮メチル化シーケンシングライブラリを生成する、工程と、
c)シングルエンドリードまたはペアエンドリードを使用して、前記濃縮メチル化シーケンシングライブラリを100x超の深度で配列決定する工程であって、それによりシングルエンドリードまたはペアエンドリードの配列決定断片を生成する、工程と、
d)前記ペアエンドリードの各配列決定断片に対して、ペアエンドリードの重複領域内にあるシーケンシングエラーを訂正する工程と、
e)PCRとシーケンシングから生じるエラーを訂正するために、配列決定断片を鎖状リードファミリーに折りたたむ工程と、
f)前記核酸分子中の対称的なCpG遺伝子座の推定メチル化状態に対するメチル化の不一致を同定するために、前記鎖状リードファミリーを二重リードファミリーに折りたたむ工程とを含む。
【0036】
一実施形態では、前記破壊性が最小限の変換は、酵素変換、TAPS、またはCAPSを含む。
【0037】
第4の態様では、分類子を生成するための方法が提供され、該方法は、
a)固有の分子識別子を含む核酸アダプターを、健康な被験体由来の生物試料および癌被験体由来の生物試料の各核酸分子にライゲーションする工程と、
b)破壊性が最小限の変換方法を用いて前記核酸分子内で非メチル化シトシンをウラシルに変換する工程であって、これにより変換核酸を生成する、工程と、
c)ポリメラーゼ連鎖反応により前記変換核酸を増幅する工程であって、これにより増幅済みの変換核酸を生成する、工程と、
d)CpGまたはCH遺伝子座の予め同定されたパネルに対応する配列を濃縮するために、前記増幅済みの変換核酸を、CpGまたはCH遺伝子座の予め同定されたパネルに相補的な核酸プローブでプローブする工程であって、これによりプローブ済みの変換核酸を生成する、工程と、
e)前記プローブ済みの変換核酸の核酸配列を100x超の深度で決定する工程と、
f)健康な被験体と癌被験体のメチル化プロファイルを表す入力特徴の一組の測定値を取得するために、前記プローブ済みの変換核酸の核酸配列を、CpGまたはCH遺伝子座の前記予め同定されたパネルの基準核酸配列と比較する工程と、
g)健康な被験体と癌被験体とを弁別する分類子を生成するために機械学習モデルを訓練する工程とを含む。
【0038】
一実施形態では、CpGまたはCH遺伝子座の前記予め同定されたパネルは、転写開始部位に関連付けられる遺伝子座を含む。
【0039】
一実施形態では、前記方法は、ヘミメチル化CpGまたはCH遺伝子座を決定する工程をさらに含む。
【0040】
一実施形態では、前記方法は、核酸分子の組織起源を同定する工程をさらに含む。
【0041】
一実施形態では、前記方法は、核酸分子のゲノム位置と断片長を同定する工程をさらに含む。
【0042】
一実施形態では、前記固有の分子識別子は、長さ4bp~6bpであり、5’チミジンオーバーハングを有している。
【0043】
一実施形態では、前記核酸アダプターはユニークデュアルインデックス(UDI)シーケンスをさらに含む。一実施形態では、前記UDIシーケンスの長さは4bp、5bp、6bp、7bp、8bp、9bp、10bp、11bp、または12bpである。
【0044】
一実施形態では、前記変換核酸の増幅は、ユニークデュアルインデックス(UDI)シーケンスを含むプライマーを使用することを含む。一実施形態では、前記UDIシーケンスの長さは4bp、5bp、6bp、7bp、8bp、9bp、10bp、11bp、または12bpである。
【0045】
一実施形態では、前記入力特徴は、CpGに対する塩基単位(base wise)のメチル化%、CHGに対する塩基単位のメチル化%、CHHに対する塩基単位のメチル化%、ある領域においてメチル化CpGの数または割合が異なる断片を観察する数または割合、変換効率(例えばCHHに対して100平均メチル化%)、低メチル化ブロック、CPGのメチル化レベル、CHHのメチル化レベル、CHGのメチル化レベル、断片長、断片中点、chrMのメチル化レベル、LINE1のメチル化レベル、ALUのメチル化レベル、ジヌクレオチドカバレッジ(例えばジヌクレオチドの正規化カバレッジ)、カバレッジの均一性(例えば、1xと10xの平均ゲノムカバレッジでの固有のCPG部位(例えばs4ラン(runs)に対する))、全体的な平均CpGカバレッジ(例えば深度)、ならびに、CpGアイランド、CGIシェルフ、およびCGIショアでの平均カバレッジから選択される。
【0046】
第5の態様では、健康な個体と癌の個体とを鑑別する分類子が提供され、該分類子は、健康な被験体と癌被験体それぞれのメチル化シーケンシングデータからのメチル化プロファイルを表す一組の測定値を含み、該測定値はメチル化プロファイルの特性に対応する一組の特徴を生成するために使用され、該一組の特徴は機械学習または統計モデルに入力され、前記機械学習または統計モデルは、健康な個体集団と癌の個体集団とを鑑別する分類子として有用な特徴ベクトルを提供する。
【0047】
第6の態様では、被験体集団から癌を検出するための方法が提供され、該方法は、
a)核酸のメチル化プロファイルを得るために、破壊性が最小限の標的化変換メチルシーケンシングを使用することにより、被験体由来の生物試料の核酸をアッセイする工程と、
b)健康な被験体と癌被験体の各試料を分類する訓練アルゴリズムに前記メチル化プロファイルを入力することにより前記生物試料を分類する工程と、
c)前記訓練アルゴリズムが特定の信頼値で生物試料を癌に対して陰性と分類する場合に、生物試料を癌に対して陰性と同定するレポートをコンピュータスクリーンに出力する工程とを含む。
【0048】
一例では、前記癌は大腸癌である。
【0049】
第7の態様では、本発明の開示は、メチル化状態に基づいて個体を分類するためのシステムを提供し、該システムは、
a)分類子を備えたコンピュータ可読媒体製品であって、前記分類子は、健康な被験体と癌被験体の各メチル化シーケンシングデータからのメチル化プロファイルを表す一組の測定値を含み、該測定値は健康な被験体と癌被験体の各メチル化プロファイルの特性に対応する一組の特徴を生成するために使用され、該一組の特徴は機械学習または統計モデルに入力され、前記機械学習または統計モデルは、健康な個体集団と癌の個体集団とを鑑別する分類子として有用な特徴ベクトルを提供する、コンピュータ可読媒体製品と、
b)前記コンピュータ可読媒体製品に記憶された命令を実行するための1つ以上のプロセッサとを備えている。
【0050】
一例では、前記システムは、線形判別分析(LDA)分類子、二次判別分析(QDA)分類子、サポートベクターマシン(SVM)分類子、ランダムフォレスト(RF)分類子、線形カーネルサポートベクターマシン分類子、一次多項式カーネルサポートベクターマシン分類子、二次多項式カーネルサポートベクターマシン分類子、リッジ回帰分類子、弾性ネットアルゴリズム分類子、逐次最小問題最適化法アルゴリズム分類子、単純ベイズアルゴリズム分類子、および非負値行列因子分解(NMF)予測アルゴリズム分類子から選択される機械学習分類子として構成される、分類回路を備えている。
【0051】
一実施形態では、前記システムは上記方法のいずれかを実行するための手段を備えている。
【0052】
一実施形態では、前記システムは上記方法のいずれかを実行するよう構成された1つ以上のプロセッサを備えている。
【0053】
一実施形態では、前記システムは、上記方法のいずれかの工程をそれぞれ実行するモジュールを備えている。
【0054】
別の態様では、本発明の開示は、以前に疾患を処置された被験体の最小残存病変状態をモニタリングするための方法を提供し、該方法は、本明細書に記載されるようなメチル化プロファイルをメチル化状態のベースラインとして決定する工程と、1つ以上の所定の時点に前記メチル化プロファイルを決定するために分析を繰り返す工程とを含み、ベースラインからの変化は、被験体におけるベースラインでの最小残存病変状態の変化を示す。
【0055】
別の態様では、本発明の開示は、以前に疾患を処置された被験体の最小残存病変状態をモニタリングするための方法を提供し、該方法は、
a)メチル化状態のベースラインにて被験体から得た生物試料のメチル化プロファイルのベースラインを決定する工程と、
b)ベースラインメチル化状態後の1つ以上の所定の時点に、被験体から得た生物試料の試験メチル化プロファイルを決定する工程と、
c)メチル化プロファイルのベースラインと比較した場合の試験メチル化プロファイルの変化を決定する工程であって、前記変化は被験体の最小残存病変状態の変化を示す、工程とを含む。
【0056】
いくつかの実施形態では、前記疾患は癌である。いくつかの実施形態では、前記疾患は大腸癌である。
【0057】
別の態様では、本発明の開示は、以前に大腸癌を処置された被験体の最小残存病変状態をモニタリングするための方法を提供し、該方法は、被験体由来の生物試料内のメチル化断片を検出する工程を含み、前記生物試料内の前記メチル化断片は、被験体の大腸癌に対するベースラインでの最小残存病変状態の変化を示す。
【0058】
いくつかの実施形態では、前記最小残存病変状態は、処置への応答、腫瘍負荷、手術後の残存腫瘍、再発、二次スクリーニング、一次スクリーニング、および癌進行から選択される。
【0059】
別の態様では、被験体に対する処置への反応を判定するための方法が提供される。
【0060】
別の態様では、被験体に対する腫瘍負荷をモニタリングするための方法が提供される。
【0061】
別の態様では、被験体の手術後の残存腫瘍を検出するための方法が提供される。
【0062】
別の態様では、被験体における再発を検出するための方法が提供される。
【0063】
別の態様では、被験体に対する二次スクリーニングとして使用するための方法が提供される。
【0064】
別の態様では、被験体に対する一次スクリーニングとして使用するための方法が提供される。
【0065】
別の態様では、被験体の癌進行をモニタリングするための方法が提供される。
【0066】
別の態様では、本発明の開示は、前述の方法を実施するための試薬と、腫瘍シグナル、例えばメチル化シグナルを検出するための指示書とを備えた、腫瘍検出用のキットを提供する。試薬として例えば、プライマーセット、PCR反応成分、シーケンシング試薬、破壊性が最小限の変換試薬、およびライブラリ調製試薬を挙げることができる。
【図面の簡単な説明】
【0067】
【
図1】従来のメチルバイサルファイト変換および分解と、本明細書に記載されるような断片長情報を保存する改変方法とを比較するフローダイアグラムである。
【
図2】本明細書に記載される方法に有用な互い違いに配されたアダプターを示す概略図である。
【
図3】本明細書に記載される二重鎖様エラー訂正方法を示す概略図である。
【
図4】変換抵抗アダプターの一例を示す概略図であるPANEL Aと、適合性PCRプライマーとの完全な塩基対をなす変換アダプター配列に一致する、対応するシーケンシングプライマーであるPANEL Bとを示す。
【
図5】本明細書に提供される方法を実行するようにプログラムまたはその他の方法により構成されるコンピュータシステムを示す。
【
図6】例示的な変換抵抗アダプター/プライマーシステムに対するシーケンシングライブラリ収率を示すグラフである。変換抵抗アダプターでは、変換によるシーケンシング収率は5mC含有アダプターに比べて高いことが認められる。
【発明を実施するための形態】
【0068】
本明細書には、cfDNAのメチル化プロファイリングのためにメチル化領域のライブラリ調製とシーケンシングの向上を可能にする方法が提供される。この方法は、実用的な用途を支援するためにカバレッジ、カバレッジの均一性、分解能、およびメチル化データ精度を向上させることにより、生物試料内の核酸に対して従来行われているメチル化シーケンシングとプロファイリングの制限に対処するものである。本明細書に提供される方法から得られるシーケンシングデータは、個体集団を分類または層別化するためにメチル化プロファイリングデータを使用する実用的な用途に有用である。このような個体集団の分類と層別化には、疾患を抱える個体の同定、疾患進行のステージ分類、または疾患に対する特別な処置への応答を挙げることができる。
【0069】
I.定義
本明細書では、単数形を表す用語、例えば「a」、「an」、および「the」は、前後関係から明らかでない限り、単数形と複数形の両方の場合を含めて意味する。
【0070】
「血漿無細胞DNA」、「循環遊離DNA」、「無細胞DNA」、または「cfDNA」という用語は、血液の無細胞部分を循環するDNA分子を指す場合がある。血液中を循環する核酸は壊死細胞またはアポトーシス細胞から生じるものであり、癌などの疾患ではアポトーシスから非常に高い核酸量が観察される。癌における循環DNAは疾患の顕著な徴候を伴うものであり、癌遺伝子の突然変異やマイクロサテライト変化が挙げられる。これら循環DNAは、循環腫瘍DNA(ctDNA)と称される場合もある。血漿中のウイルスゲノム配列、DNA、またはRNAは、疾患の潜在的バイオマーカーである。
【0071】
いくつかの実施形態では、血液の無細胞分画は血清または血漿であるのが好ましい。本明細書では、生物試料の「無細胞分画」という用語は、細胞を実質的に含まない生物試料の分画を指す。本明細書では、「実質的に細胞を含まない」という用語は、約20,000細胞/ml未満、約2,000細胞/ml未満、約200細胞/ml未満、または約20細胞/ml未満を含む生物試料由来の調製物を指す場合がある。ゲノムDNA(gDNA)は、血液細胞を含まない分画を汚染する白血球から放出される、非断片化DNAを指す。gDNA汚染試料を軽減するために、高度に制御された試料処理ワークフローを実装し、かつ検体をgDNAの存在に対してスクリーニングしてもよい。
【0072】
本明細書では、状態またはアウトカムに対して「診断する」または「診断」という用語は、状態またはアウトカムの予測または診断、状態またはアウトカムの素因の判定、患者の処置のモニタリング、患者の治療応答、状態またはアウトカムの予後、進行、および特定の処置への応答の診断を含む。
【0073】
本明細書では、用語「位置」は、核酸分子内で同定された鎖のヌクレオチド位置を指す。
【0074】
本明細書では、「核酸」という用語は、一本鎖(ss)または二本鎖(ds)の場合があるDNA、RNA、DNA/RNAキメラまたはハイブリッドを指す。核酸はゲノムであるか、真核細胞あるいは原核細胞のゲノムに由来するか、合成されるか、クローニングされるか、増幅されるか、または逆転写されてもよい。前記方法と組成物のある実施形態では、核酸は、前後関係から求められるようにゲノムDNAを指すことが好ましい。
【0075】
本明細書では、特に明記しない限り、「修飾シトシン」という用語は、5-メチルシトシン(5mC)、5-ヒドロキシメチルシトシン(5hmC)、ホルミル修飾シトシン、カルボキシ修飾シトシン、5-カルボキシルシトシン(5caC)、または、他の任意の化学基で修飾されたシトシンを指す。
【0076】
本明細書では、「メチルシトシンジオキシゲナーゼ」、「ジオキシゲナーゼ」、または「オキシゲナーゼ」という用語は、5mCを5hmCに変換する酵素を指す。メチルシトシンジオキシゲナーゼの非限定的な例として、TET1、TET2、TET3、ネグレリアTETが挙げられる。TET2は、全5mCの少なくとも90%、少なくとも92%、少なくとも94%、少なくとも96%、少なくとも98%、または少なくとも99%を酸化するメチルシトシンジオキシゲナーゼの例である。
【0077】
本明細書では、「変換抵抗アダプター」または「変換抵抗プライマー」という用語は、それぞれアダプターまたはプライマーとして使用される核酸分子を指す。塩基変換を防ぐために修飾ヌクレオチド塩基を組み込む代わりに、変換抵抗アダプターまたは変換抵抗プライマーは未修飾塩基のみを組み込むことで、メチル化シーケンシングのための変換反応中に全塩基変換を可能にする。アダプター/プライマーDNA配列中の「未修飾塩基」は、従来のグアニン、アデニン、シトシン、およびチミンを指す。
【0078】
本明細書では、「シチジンデアミナーゼ」という用語は、シトシン(C)を脱アミン化してウラシル(U)を形成する酵素を指す。シチジンデアミナーゼの非限定的な例として、APOBEC3Aなど、シチジンデアミナーゼのAPOBECファミリーが挙げられる。いずれの態様でも、本明細書に記載のシチジンデアミナーゼは、GenBankアクセッション番号AKE33285.1のアミノ酸配列に少なくとも90%同一である(例えば、少なくとも95%同一である)配列を有する場合があり、前記悪セッション番号は、ヒトAPOBEC3Aの配列である。いくつかの態様では、本明細書に記載のシチジンデアミナーゼは、少なくとも95%、98%または99%、好ましくは少なくとも99%の効率で未修飾シトシンをウラシルに変換する。
【0079】
本明細書では、「グルコシルトランスフェラーゼ」または「GT」という用語は、5ghmCを形成するためにUDP-グルコースから5hmC残基へのβ-D-グルコシルまたはα-D-グルコシル残基の移動を触媒する酵素を指す。APOBECは、Cまたは5mCをUに変換するよりも低い速度で5hmCをUに変換することができる。GTの例はT4-ベータGT(βGT)である。一例では、GTはジオキシゲナーゼと同時に使用してもよい。この組み合わせによって確実に5hmCの脱アミノ化が遮断され、そうなることで5%未満、3%未満、または1%未満の5hmCがデアミナーゼによりUに変換される。別の例では、DNAとの同じ反応混合においてGTをジオキシゲナーゼと一緒に使用してもよく、そうすることで、ジオキシゲナーゼは5mCを5hmCと5caCに変換し、GTは任意の残留5hmCを5ghmCに変換することでシトシンのみが脱アミノ化されるのを確実にする。
【0080】
本明細書では、核酸試料に対して「部分」と「アリコート」という用語は同じ意味を意図されており、互換的に使用することができる。
【0081】
本明細書では、「比較する」という用語は、2つ以上の配列を互いに対して分析することを指す。場合により比較は、2つ以上の配列を互いに対してアライメントすることで実行されてもよく、そうすることで、対応する場所に位置するヌクレオチドが互いに対してアライメントされる。
【0082】
本明細書では、「基準配列」という用語は、分析されている断片の配列を指す。基準配列は、公開データベースから取得するか、または実験の一部として別々に配列決定することができる。場合により基準配列は仮定のものであってもよく、それにより基準配列は、配列比較の実施を可能にするように計算上脱アミノ化することができる(すなわち、CsをUsまたはTsなどに変更する)。
【0083】
本明細書では、「G」、「A」、「T」、「U」、「C」、「5mC」、「5fC」、「c5aC」、「5hmC」、および「5ghmC」という用語は、それぞれグアニジン(G)、アデニン(A)、チミン(T)、ウラシル(U)、シトシン(C)、5-メチルシトシン、5-ホルミルシトシン、5-カルボキシルシトシン(5caC)、5-ヒドロキシメチルシトシン、および5-グルコシルヒドロキシメチルシトシンを指す。明確にするために、C、5fc、5caC、5mc、および5ghmCは各々、異なる部分である。
【0084】
「最小残存病変」または「MRD」という用語は、癌処置後に体内に残る少数の癌細胞を指す。癌処置が作用したかどうかを判定し、かつ更なる処置計画を行うために、MRD検査を行うことができる。MRDを評価するために、処置への応答、腫瘍負荷、手術後の残存腫瘍、再発、二次スクリーニング、一次スクリーニング、癌の進行を含むがこれらに限定されない、様々な測定基準を使用することができる。
【0085】
「次世代シーケンシング」または「NGS」という用語は概して、大きさ1kb未満であるゲノム断片のシーケンシングライブラリに適用される。
【0086】
本明細書では、「健康な」という用語は、疾患のない被験体、またはそれに由来する試料を指す。健康は動的状態であるが、この用語は、参照される疾患状態、例えば癌を欠く被験体の病理学的状態を指すこともある。一例では、癌被験体を分類するメチル化プロファイルを指すとき、「健康な」という用語は、CRCなどの癌を欠く個体を指す。この被験体に他の疾患または健康状態が存在し得るが、「健康な」という用語は、疾患状態のある被験体とそれを欠いた被験体を、かつこれら被験体に由来する試料同士を比較または分類するために、明示された疾患の欠如を示す場合がある。
【0087】
本明細書では、「閾値」という用語は概して、2つの被験体集団を判別、分別、または鑑別するために選択される値を指す。いくつかの実施形態では、この閾値は、疾患(例えば悪性)状態と非疾患(例えば健康)状態との間でメチル化状態を判別する。いくつかの実施形態では、前記閾値は、疾患の段階(例えば、ステージ1、ステージ2、ステージ3、またはステージ4)を判別する。閾値は対象の疾患に応じて設定することができ、例えば訓練セットの初期の分析に基づくか、または既知の特性(例えば、健康、疾患、または疾患段階)を有する一組の入力に対して計算上決定することができる。閾値はさらに、特定部位でのメチル化の予測値に従い遺伝子領域に対して設定することもできる。閾値はメチル化部位ごとに異なる場合があり、複数の部位から得たデータを最終分析で組み合わせることができる。
【0088】
他に定めのない限り、本明細書に使用される技術用語と科学用語はすべて、本発明の開示が属する技術分野の当業者により一般的に理解されるのと同じ意味を持つ。本明細書に記載されるものと同様または同等である任意の方法と材料は本発明の教示の実施または試験にも使用可能であるが、一部の例示的な方法と材料を本明細書に記載する。
【0089】
任意の刊行物に対する引用は、本出願日より前に開示されていることを示すためのものであり、本特許請求の範囲が先行発明によりこのような刊行物に先行するものではないことを認めるものとして、解釈されるべきではない。さらに、提供される公開日は、独立して確認可能な実際の公開日とは異なる場合がある。
【0090】
本発明の開示を読むことで当業者に明らかとなるように、本明細書に記載かつ例示される個々の実施形態はそれぞれ、本教示の範囲または趣旨から逸脱することなく、他の様々な実施形態のいずれかの特徴から容易に分離し、または組み合わせることが可能な、別個の構成要素と特徴を有している。列記される任意の方法は、列記されたイベントの順序で、またはその他理論上可能な任意の順序で実施することができる。
【0091】
本明細書で言及されるすべての特許と刊行物は、これら特許と刊行物内で開示されるすべての配列を含むものであり、参照により明示的に引用されている。
【0092】
II.標的化メチル化シーケンシング
標的化メチル化シーケンシングの手法では、cfDNAなどの生物試料中の標的領域は、標的遺伝子配列のメチル化状態を決定するために分析される。いくつかの実施形態では、この標的領域は、対象の標的領域の少なくとも約16の連続ヌクレオチドなど、対象の標的領域の連続ヌクレオチドを含むか、または厳格な条件下でこの連続ヌクレオチドにハイブリダイズされる。様々な例では、標的化シーケンシングは、ハイブリダイゼーションキャプチャーおよびアンプリコンシーケンシングの各手法を使用して達成することができる。
【0093】
A.ハイブリダイゼーションキャプチャー
本明細書で提供されるハイブリダイゼーション方法は、溶液中ハイブリダイゼーション、固体支持体上でのハイブリダイゼーション(例えば、膜、マイクロアレイ、および細胞/組織スライド上でのノーザンハイブリダイゼーション、サウザンハイブリダイゼーション、およびインサイツハイブリダイゼーション)といった、様々なフォーマットの核酸ハイブリダイゼーションに使用することができる。特にこの方法は、標的化次世代シーケンシングに用いられる、ある種のゲノムDNA配列(例えばエクソン)の標的濃縮用の溶液中ハイブリッドキャプチャーに適している。ハイブリッドキャプチャーの手法では、無細胞核酸試料はライブラリ調製を受ける。本明細書では、「ライブラリ調製」は、後続するDNAシーケンシングを可能にするために、末端修復、A-テーリング、アダプターライゲーション、または無細胞DNA上で実施される他の調製を含む。ある例では、調製された無細胞核酸ライブラリ配列は、無細胞核酸試料分子にライゲーションされるアダプター、配列タグ、およびインデックスバーコードを含む。次世代シーケンシング手法用にライブラリ調製を容易にするために、様々な市販のキットも利用可能である。次世代シーケンシングライブラリ構築は、高スループットシーケンシングのために特定のサイズのDNA断片の寄せ集めを生成するために、調整された一連の酵素反応を用いて核酸標的を調製する工程を含んでもよい。様々なライブラリ調製技法の進歩と発展により、トランスクリプトミクスやエピジェネティクスなどの分野への次世代シーケンシングの応用が広がっている。
【0094】
シーケンシング技法が向上した結果、ライブラリ調製に変化と向上が認められている。本明細書で使用される、次世代シーケンシングライブラリ調製のキットとして、Agilent、Bioo Scientific、Kapa Biosystems、New England Biolabs、Illumina、Life Technologies、Pacific Biosciences、Rocheなどの企業が開発したキットが挙げられる。
【0095】
標的化捕捉遺伝子パネルに対する様々な例では、様々なライブラリ調製キットは、Nextera Flex(Illumina)、IonAmpliseq(Thermo Fisher Scientific)、Genexus(Thermo Fisher Scientific)、Agilent ClearSeq(Illumina)、Agilent SureSelect Capture(Illumina)、Archer FusionPlex(Illumina)、BiooScientific NEXTflex(Illumina)、IDT xGen(Illumina)、Illumina TruSight(Illumina)、Nimblegene SeqCap(Illumina)、およびQiagen GeneRead (Illumina)から選択することができる。
【0096】
いくつかの実施形態では、ハイブリッドキャプチャー方法は、特異的プローブを用いて、調製されたライブラリ配列で実施される。本明細書では、「特異的プローブ」という用語は、既知のメチル化部位に特異的なプローブを指すことがある。いくつかの実施形態では、特異的プローブは、ヒトゲノムを基準配列として使用することと、メチル化部位を有することが知られている特定のゲノム領域を標的配列として使用することに基づいて、設計される。具体的には、メチル化部位を有することが知られているゲノム領域は、以下のプロモーター領域、CpGアイランド領域、CGIショア領域、およびインプリンティング遺伝子領域の少なくとも1つを含んでもよい。したがって、いくつかの実施形態の特異的プローブを用いてハイブリッドキャプチャーを実施する場合、標的配列に相補的な試料ゲノム内の配列、例えば、メチル化部位を有することが知られている試料ゲノム内の領域(本明細書では「特定ゲノム領域」とも呼ばれる)を効率的に捕捉することができる。
【0097】
一例によると、本明細書に記載されたメチル化領域は、特異的プローブを設計するために使用される。いくつかの実施形態では、特異的プローブは、例えば、eArrayシステムなどの商業的に入手可能な方法を用いて設計される。プローブの長さは、所望のメチル化領域に十分な特異性でハイブリダイズするのに十分な長さであり得る。様々な例では、プローブは、10量体、11量体、12量体、13量体、14量体、15量体、16量体、17量体、18量体、19量体、または20量体である。
【0098】
メチル化解析の標的領域は、データベースリソース(遺伝子オントロジーなど)を活用してスクリーニングされ得る。相補的塩基対の原理によれば、標的領域をうまく捕捉するために、一本鎖の捕捉プローブは、一本鎖の標的配列と相補的に組み合わされてもよい。いくつかの実施形態では、設計されたプローブは、固体キャプチャーチップ(プローブが固体支持体上に固定されている)として、または液体キャプチャーチップ(プローブが液体中で遊離している)として設計されてもよい。しかしながら、プローブの長さ、プローブの密度、および高コストなどの制限要因のため、固体キャプチャーチップはほとんど使用されず、一方で、液体キャプチャーチップはより頻繁に使用される。
【0099】
いくつかの実施形態では、通常の配列(A、T、C、およびGの塩基の平均含有率はそれぞれ25%である)と比較して、GCリッチ配列(GC塩基の平均含有率が60%よりも高い)は、C塩基とG塩基の分子構造ゆえに、捕捉効率の低下をもたらす可能性がある。重要な研究領域、例えば、CGI領域(CpGアイランド)では、十分かつ正確なCGIデータを得るために、プローブの使用量を増やす必要がある場合がある。
【0100】
B.アンプリコンベースのシーケンシング
変換DNAの断片は増幅されてもよい。いくつかの実施形態では、増幅は、少なくとも1つのメチル化部位を有するメチル化変換標的配列にアニールするように設計されたプライマーを用いて実施される。メチル化シーケンシング変換により、非メチル化シトシンはウラシルに変換され、5-メチルシトシンは影響を受けない。「変換標的配列」は、メチル化部位であることが知られているシトシンが「C」(シトシン)として固定されているのに対し、非メチル化である(メチル化されていない)ことが知られているシトシンが「U」(ウラシル;プライマー設計の目的で「T」(チミン)として扱われてもよい)として固定されている配列を指すこともある。
【0101】
様々な例では、DNAの供給源は、全血、血漿、血清から得られた無細胞DNA、または細胞あるいは組織から抽出されたゲノムDNAである。いくつかの実施形態では、増幅済みの断片のサイズは、約100~200塩基対の長さである。いくつかの実施形態では、DNA源は、細胞源(例えば、組織、生検、細胞株)から抽出され、増幅済みの断片の大きさは、長さが約100~350塩基対の長さである。いくつかの実施形態では、増幅済みの断片は、少なくとも1つ、少なくとも2つ、少なくとも3つ、または3つを超えるCpGジヌクレオチドを含む少なくとも1つの20塩基対配列を含んでいる。増幅は、本開示によるプライマーオリゴヌクレオチドのセットを使用して実施されてもよく、熱安定性ポリメラーゼを使用してもよい。複数のDNAセグメントの増幅は、1つの同じ反応容器で同時に実施されてもよい。いくつかの実施形態では、2つ以上の断片が同時に増幅される。例えば、増幅は、ポリメラーゼ連鎖反応(PCR)を用いて実施されてもよい。
【0102】
そのような配列を標的とするように設計されたプライマーは、変換メチル化配列に対してある程度の偏りを示すことがある。いくつかの実施形態では、PCRプライマーは、標的化メチル化シーケンシング用途にメチル化特異的であるように設計される。メチル化特異的プライマーは、いくつかの用途において、より高い感度を可能にし得る。例えば、プライマーは、例えば、PCR用途において、最適な識別を達成するように配置された特徴的なヌクレオチド(バイサルファイト変換後のメチル化配列に特異的)を含むように設計されてもよい。特徴的なヌクレオチドは、3’最終位置または最後から二番目の位置に配置されてもよい。
【0103】
いくつかの実施形態では、プライマーは、循環DNAの一般的なサイズ範囲である75~350bpの長さのDNA断片を増幅するように設計される。標的サイズを考慮してプライマー設計を最適化することで、本明細書に記載される方法の感度を高めることができる。プライマーは、約50~200、約75~150、または約100あるいは125bpである領域を増幅するように設計されてもよい。
【0104】
一実施形態では、増幅工程は、ユニークデュアルインデックス(UDI)配列を含むプライマーを使用することを含む。
【0105】
一実施形態では、UDI配列は、長さが4bp、5bp、6bp、7bp、8bp、9bp、10bp、11bp、または12bpである。
【0106】
いくつかの実施形態では、核酸配列内のあらかじめ選択されたCpG位置のメチル化状態は、メチル化特異的PCR(MSP)プライマーオリゴヌクレオチドを使用するアンプリコンベースのアプローチによって検出される。バイサルファイト処理したDNAの増幅のためにメチル化特異的なプライマーを使用することで、メチル化核酸と非メチル化核酸を区別することができる。MSPプライマー対は、変換CpGジヌクレオチドにハイブリダイズする少なくとも1つのプライマーを含む。したがって、前記プライマーの配列は、少なくとも1つのCpG、TpG、またはCpAジヌクレオチドを含む。非メチル化DNAに特異的なMSPプライマーは、CpG中のC位置の3’位置に「T」を含む。したがって、これらのプライマーの塩基配列は、あらかじめ処理された核酸配列およびそれに相補的な配列にハイブリダイズする少なくとも18ヌクレオチドの長さを有する配列を含んでいてもよく、その塩基配列は少なくとも1つのCpG、TpG、またはCpAのジヌクレオチドを有する。本方法のいくつかの実施形態では、MSPプライマーは、2~5個のCpG、TpG、またはCpAのジヌクレオチドを有する。いくつかの実施形態では、ジヌクレオチドは、プライマーの3’半分内に位置し、例えば、18塩基の長さを有するプライマーでは、指定されたジヌクレオチドは、配列の3’末端から最初の9塩基内に位置する。CpG、TpG、またはCpAのジヌクレオチドに加えて、プライマーは、複数のメチル変換塩基(例えば、シトシンがチミンに変換されたもの、または、ハイブリダイズされる鎖上では、グアニンがアデノシンに変換されたもの)をさらに含んでもよい。いくつかの実施形態では、プライマーは、2つ以下のシトシンおよび/またはグアニンの塩基を有するように設計される。
【0107】
いくつかの実施形態では、領域の各々は、複数のプライマー対を用いて複数の部分に分けて増幅される。いくつかの実施形態では、これらの部分は重複しない。上記部分は隣接していても間隔を空けて配されてもよい(例えば、10、20、30、40、または50bpの間隔を空ける)。標的領域(CpGアイランド、CpGショア、および/またはCpGシェルフを含む)が通常、75~150bpよりも長いため、この例では、所定の標的領域のより多く(またはすべて)にわたる部位のメチル化状態を評価することができる。
【0108】
プライマーは、Primer3、Primer3Plus、Primer-BLASTなどの適切なツールを使用して、標的領域に対して設計され得る。議論されるように、バイサルファイト変換は、シトシンがウラシルに変換し、5’-メチル-シトシンがチミンに変換する。したがって、プライマーの位置決めまたは標的化は、必要とされるメチル化の特異性の程度に応じて、バイサルファイト変換メチル化配列を利用することができる。
【0109】
III.酵素メチル化シーケンシングのためのライブラリ調製
第1の態様では、シーケンシングライブラリの調製のための方法が提供される。本明細書に記載される方法は、次世代の非メチル化およびメチル化シーケンシングアプリケーションの両方に許容されるライブラリを提供し、それにより、単一の試料から2つのアプリケーションのためのシーケンシングデータを提供する。得られた生のシーケンシングデータは、メチル化状態の解析だけでなく、コピー数の変化、生殖系列変異体の検出、体細胞変異体の検出、ヌクレオソームの位置決め、転写因子プロファイリング、クロマチン免疫沈降などの従来のcfDNA解析にも使用することができる。
【0110】
A.標的化シーケンシングアプリケーションのためのアダプターライゲーション
一態様では、本発明の方法は、メチル化プロファイリングのための核酸配列の完全性および情報を保存する。一例では、酵素変換の前にdsDNAアダプターライゲーションを組み合わせることにより、断片のエンドポイント情報を保存する一方で、標的濃縮のために(またはゲノムワイドシーケンシングのために直接)可能な限り高いライブラリの複雑さを提供し、それによりメチル化ctDNAなどの稀な事象を検出する感度を向上させる。変換前のアダプターライゲーションの利点と比較が
図1に示される。
【0111】
一例では、核酸アダプターは、生物学的試料中の核酸断片の集団の5’および3’の末端にライゲーションされ、シーケンシングライブラリが生成される。一例では、核酸アダプターの収集物が、試料中の核酸断片にライゲーションされ、ここで、アダプターの収集物は、T/Aオーバーハングライゲーションを可能にするために、4bp、5bp、および6bpのユニーク分子識別子(UMI)配列の等分と、その後、最後の位置(すなわち、3’末端)にインバリアント(invariant)チミジン(T)を含む。このように、UMIはライブラリの挿入核酸に隣接して位置している。シーケンシングの間、UMIも5’末端にあるリードの一部として配列決定される(代替的に、UMIはシーケンシングリードレベルでライブラリインサートと一致する)。インバリアントTは、配列決定位置での塩基の多様性を維持するために3つの位置に渡って互い違いに配置される。対照的に、インバリアントチミジンを有する単一長のUMIを使用すると、インバリアントチミジンに対応する位置で複雑性の低いシーケンシングが行われ、結果としてシーケンシングの質が低下する。各UMIの最初の4bpは、編集距離が2以上であり、かつヌクレオチドと色のバランスが取れた4bpのコアUMI配列のセットを含む。可変長のUMI配列にもかかわらず、単一長のコアUMIを使用することで、単一長のUMIのために構築されたバイオインフォマティクスツールを、UMIの抽出と重複排除のために使用することが容易になる。このように、4bpのコア配列は、5、6、または7塩基(インバリアントTを含む)をトリミングするようバイオインフォマティクスツールに通知する認識配列として機能し、それによって正確なcfDNAエンドポイント情報を維持する。互い違いに配置されたアダプターを示す概略図が
図2に示されている。UMIを使用することにより、リードの重複排除、一本鎖のエラー訂正、およびシーケンシング後の二重鎖の再構築が可能となり、それにより、二本鎖のエラー訂正とも呼ばれるエラー訂正を強化するためにリードの逆補体の使用が可能となる。別の例では、ユニークデュアルインデックス(UDI)は、試料のバーコード化およびシーケンシング後の試料の逆多重化()をもたらすために、ライブラリ精製中にUMI含有アダプターに加えられ得る追加配列である。様々な例では、UDI配列は、4bp、5bp、6bp、7bp、8bp、または12bpの長さである。
【0112】
様々な実施形態では、核酸アダプターは、5’チミジンオーバーハングを有する4bp~6bpの長さのUMIを含んでもよい。UMIは非ユニークである(すなわち、特定の制約のある配列セットから引き出される)ように設計されている。
【0113】
一実施形態では、いくつかのUMIは、1つ以上のメチルシトシン塩基を含む。酵素的メチル化変換反応(TET酸化およびAPOBEC脱アミノ化を含む)の効率は、UMIミスマッチ率によって、設計されたUMI配列の特定の制約のあるセットと一致しないUMIの割合に基づいて評価され得る。UMIミスマッチ率は、シーケンシングライブラリの質を評価するために埋め込まれた品質管理指標として使用され得る。加えて、バイオインフォマティクスパイプラインにおいて完全なUMIマッチが必要とされる場合、UMIミスマッチ率は、不完全な変換のために品質が低くなる可能性がある個々のリードを取り除くためのフィルターとして使用されてもよい。
【0114】
様々な実施形態では、UMIミスマッチ率は、6%未満、5%未満、4%未満、3%未満、または2%未満である。
【0115】
別の実施形態では、UMIは、酵素活性をモニタリングするために使用することができる修飾を含む1以上のシトシンを含有する。これらの修飾塩基の非限定的な例は、5-メチルシトシン、5-ヒドロキシメチルシトシン、5-ホルミルシトシン、および5-カルボキシルシトシンを含む。
【0116】
B.DNAメチル化シーケンシングアプリケーションのための酵素変換
Tet支援ピリジンボランシーケンシング(TAPS)は、核酸中のシトシンをウラシルに変換するための破壊性が最小限の変換メチル化シーケンシング方法である。このバイサルファイトを使用しない方法では、DNAの分解を最小限に抑えることができるため、重亜硫酸ナトリウムシーケンシングと同等の変換率を達成しながら、核酸分子の長さを維持することができる。TAPSは、シトシンおよびグアニンの塩基対に対するより高いシーケンシング品質スコアをもたらし、CpGアイランドなどの様々なゲノムの特徴のより均一なカバレッジを与えることができる。
【0117】
TAPSでは、テンイレブントランスロケーション(Tet1)酵素は、5mCおよび5hmCの両方を5caCに酸化する。ピリジンボランは、5caCをジヒドロウラシルに還元し、これはPCR後にチミンに変換されるウラシル誘導体である。TAPSは他にも2つの方法:TAPSβと化学的に支援されたピリジンボランシーケンシング(CAPS)で行うことができる。TAPSβでは、β-グルコシルトランスフェラーゼを用いて5hmCをグルコースで標識することにより、5hmCを酸化・還元反応から保護し、5mCを特異的に検出することができる。CAPSでは、過ルテニウム酸カリウムはTet1の化学的な代替物として作用し、5hmCを特異的に酸化するため、直接検出が可能である。
【0118】
一例では、未修飾CをUに酵素変換することと、UMIアダプターをライブラリインサートに合わせて互い違いに配置することの組み合わせは、メチル化ライブラリの標的シーケンシングに有用である。低深度シーケンシングアプリケーションでは、試料cfDNAが同じ程度まで分解されないため、この組み合わせは、バイサルファイト変換シーケンシングと比較して、血漿の量的入力またはcfDNAの質量的入力の減少を可能にし得る。
【0119】
高深度シーケンシング用途では、cfDNAが同じ程度まで分解されないため、血漿またはcfDNAの同様の入力からのバイサルファイト変換シーケンシングと比較して、より高い深度のシーケンシングが得られる可能性がある。
【0120】
一例では、アダプター核酸中に存在するシトシンは、アダプターにおけるC-T変換を防ぐために、5-メチル基または5-ヒドロキシメチル基で修飾される。
【0121】
このアプローチの1つの利点は、バイサルファイト変換と、その後にssDNAアダプターライゲーションを行うアプローチと比較して、変換前のアダプターライゲーションが断片のエンドポイントと長さの情報を維持することである。アダプターをライゲーションする前の核酸のかなりの分解は、情報価値のある断片のエンドポイントと長さの情報の損失をもたらしかねない。
【0122】
酵素的な未修飾CのUへの変換は、試料の核酸断片への負担が少なく、バイサルファイト法と比較して、より完全で均一なカバレッジをもたらすこともある。DNAのバイサルファイトによる分解は均一ではなく、一部の配列が、メチル化シーケンシングで調べられるまさにその部位であるCGジヌクレオチドなどの他の配列よりも優先的に分解される。そのため、酵素的なアプローチは、同じ数の固有のリードを用いるバイサルファイト変換法よりも高いCpG部位のカバレッジをもたらし、標的濃縮のアプリケーションでは、捕捉されたリードの高い均一性をもたらす。さらに、非バイサルファイト法(例えば、酵素的およびTAPSのような化学的変換法)は、生物学的シグナルの解像度を高め、具体的には、核酸配列中の5mCと5hmCのメチル化を区別する能力を提供する。この情報と追加の解像度は、計算アプローチおよび他の方法において有益であり得る。
【0123】
いくつかの例では、DNAまたはバーコード付きDNAを、DNAまたはバーコード付きDNAのシトシン核酸塩基をウラシル核酸塩基に変換する酵素反応に晒すことは、「酵素変換を実施する」ことを含む。
【0124】
様々な例において、グルコシル化および酸化反応は、デアミナーゼによる5hmCおよび5mCの観察された固有の脱アミノ化を克服する。デアミナーゼは、5mCと未修飾CをUに変換するが、5ghmCと5caCは変換しない。デアミナーゼの非限定的な例としては、APOBEC(アポリポタンパク質B mRNA編集酵素、触媒ポリペプチド様)が挙げられる。本明細書に記載される実施形態は、シトシンのグルコシル化、酸化、および脱アミノ化において実質的に配列の偏りがない酵素を利用する。さらに、これらの実施形態は、グルコシル化、酸化、および脱アミノ化反応の間のDNAの非特異的な損傷を実質的に与えない。
【0125】
いくつかの実施形態では、グルコシルトランスフェラーゼ(GT)、例えば、β-グルコシルトランスフェラーゼ(βGT)を利用して、グルコースを5hmCに共有結合させ、この修飾塩基を脱アミノ化から保護する。同じ効果を達成するべく、5hmCを修飾するための他の酵素反応や化学反応を用いてもよい。
【0126】
一般に、および、一態様において、本明細書で提供される方法は、(a)実質的にすべての修飾されたシトシン(C)が酸化されるか、または5hmCの場合にはグルコシル化される反応生成物を生成するために、核酸試料のアリコート(部分)を反応混合物中のジオキシゲナーゼ、例えば、TET2、およびβGTで処理する工程と、b)実質的にすべての未修飾CsをUに変換するために、この反応生成物をシチジンデアミナーゼで処理する工程とを含む。これらの例および実施形態を通して使用される「修飾された」シトシンという用語は、5mC、5hmC、5ghmC、5fC、および5caCのうちの1つ以上を指し、ここで、5mC、5hmC、および5fCの完成までの酸化により5caCが生じる。βGTは5hmCとのみ反応する。しかし、5hmCの一部は、グルコシル化が起こる前にジオキシゲナーゼによって5fCに変換され、さらに5caCに変換されることもある。ジオキシゲナーゼの存在下では、5mCは大部分が5caCの完成まで酸化されるが、一部の残りの5hmCが生成されることもある。しかしながら、残りの5hmCは、さもなければメチル化シーケンシングの精度を低下させることもある5hmCの低い脱アミノ化率を防ぐために、βGTによってグルコシル化され得る。
【0127】
したがって、記載された方法は、脱アミノ化の前に核酸をジオキシゲナーゼで処理することにより、未修飾のシトシンと修飾されたシトシンとを大きく区別する。しかしながら、ゲノムDNA中の天然に存在する5mCの量は、5hmCの量を実質的に超えることもあり、その結果、天然に存在する5fCと5caCの量を超えることもある。したがって、天然に存在する修飾されたシトシンの量は、一般的に天然に存在する5mCの量の近似値であると考えられる。
【0128】
一実施例では、方法は5hmCシーケンシングを実施するために適合可能である。5hmCシーケンシング方法はさらに、アリコート中の実質的にすべての5hmCがグルコシル化され、実質的にすべての未修飾のCと5mCがUに変換された反応生成物を生成するために、ジオキシゲナーゼの非存在下で核酸試料のアリコートをβGTで処理し、その後、シチジンデアミナーゼで処理する工程を含む。PCR増幅後、UはTに変換され、したがって、シトシンと5mCはシーケンシング時に区別がつかなくなる。結果として得られた反応生成物をシーケンシングし、基準配列と比較することで、5hmCを、Cおよび5mCと区別することができる。これらの部位を区別することで、これらの修飾されたヌクレオチドを、基準配列、例えばデータベースからの基準配列、または、独自に決定された基準配列にマッピングすることができる。
【0129】
いくつかの実施形態では、βGTを有するジオキシゲナーゼとデアミナーゼの反応生成物またはその増幅産物は、どのCがメチル化されている(どれが5hmCの小画分を含み得る)か、およびどのCが修飾されていないかを決定するために配列決定され得る。いくつかの実施形態では、ジオキシゲナーゼを有していないβGTとデアミナーゼの反応生成物またはその増幅産物は、どのCがヒドロキシメチル化されており、どのCがヒドロキシメチル化されていないかを決定するために配列決定され得る。いくつかの実施形態では、ジオキシゲナーゼを有していないβGTとデアミナーゼの反応生成物またはその増幅産物は、どのCがヒドロキシメチル化されており、どのCが未修飾であるかを決定するために配列決定され得る。基準DNAは、核酸試料をジオキシゲナーゼ、βGT、およびデアミナーゼのいずれか1つと反応させないことによって生じる反応生成物をシーケンシングすることによって生成され得る。代替的に、基準配列は、例えば、配列のデータベースからの既知の基準配列である。
【0130】
一実施形態では、βGTを有するジオキシゲナーゼとデアミナーゼの反応生成物の配列を基準配列と比較することができる。随意に、これは、核酸試料中のどのシトシンがメチル基対ヒドロキシメチル基によって修飾されているかを決定するために、βGT(ジオキシゲナーゼなし)とデアミナーゼの反応生成物の配列と比較することができる。
【0131】
一態様では、核酸試料の標的メチル化シーケンシングを行う方法が提供され、上記方法は、
a)固有の分子識別子を含む核酸アダプターをcfDNAにライゲーションする工程であって、cfDNAが未変換の核酸を含む、工程と、
b)変換核酸を生成するために、核酸分子内で非メチル化シトシンをウラシルに酵素的に変換する工程と、
c)ポリメラーゼ連鎖反応により変換核酸を増幅する工程と、
d)予め同定されたCpGまたはCH遺伝子座のパネルに対応する配列を濃縮するために、変換核酸を、上記予め同定されたCpGまたはCH遺伝子座のパネルに相補的な核酸プローブでプローブする工程と、
e)変換核酸の核酸配列を100x超の深度で決定する工程と、
f)被験体由来の無細胞DNA(cfDNA)試料のメチル化プロファイルを決定するために、変換核酸の核酸配列を、予め同定されたCpGまたはCH遺伝子座のパネルの基準核酸配列と比較する工程とを、含む。
【0132】
試験変換核酸配列が、指定されたCpG遺伝子座の基準Cに対応するTである場合、Cは元の試験核酸断片においてメチル化されていなかった。対照的に、試験変換核酸配列と基準配列が両方とも指定されたCpG遺伝子座においてCである場合、Cは元の試験核酸断片においてメチル化されていた。
【0133】
一実施例では、変換核酸分子の核酸配列は、約50-500倍、約25-1000倍、約50-500倍、約250-750倍、約500-200倍、約750-1500倍、または約100-2000倍の深度で配列決定される。いくつかの実施形態では、核酸配列は100倍または500x超の深度で配列決定される。
【0134】
一例では、変換核酸分子の核酸配列は、約500倍、約1000倍、約2000倍、約3000倍、約4000倍、約5000倍、約6000倍、約7000倍、約8000倍、約9000倍、約10000倍、または5000倍よりも大きい深度で配列決定される。
【0135】
一例では、変換核酸分子の核酸配列は、約300倍固有、約400倍固有、約500倍固有、約600倍固有、約700倍固有、約800倍固有、約900倍固有、または約1000倍固有、または500倍を超えて固有の深度で配列決定される。
【0136】
C.標的濃縮シーケンシングアプリケーション
さらに、シーケンシング中の標的捕捉アプリケーションにおいて、所望のメチル化領域を濃縮するための方法が提供される。DNAメチル化ライブラリを用いて標的濃縮捕捉パネルを適用する際の潜在的な問題は、オンターゲットリードの低い率/オフターゲットDNA断片捕捉の高い率である。パネル内の各領域について、メチル化CpGに由来するDNA、または非メチル化CpGに由来するDNAを標的とするプローブを設計することができる。いずれのプローブタイプにおいても、領域に沿ったすべてのCpG部位が、プローブタイプについて必要に応じて、メチル化されていないか、またはメチル化されているとみなされる。プローブは、バイサルファイト/酵素変換およびPCR増幅の後に、ライブラリ分子にハイブリダイズされ得る。その後、プローブに捕捉されたライブラリ分子のみが配列決定される。この方法では、ゲノムのごく一部のみが配列決定されるため、シーケンシングコストを削減できるという利点がある。一例では、ゲノムの約0.1%が配列決定される。一例では、ゲノムの約0.3%が配列決定される。一例では、ゲノムの約0.5%が配列決定される。一例では、ゲノムの約0.7%が配列決定される。一例では、ゲノムの約1%が配列決定される。他の例において、ゲノムの約2%、約3%、約4%、約5%、約6%、約7%、約8%、約9%、または約10%が配列決定される。
【0137】
バイサルファイトと酵素変換ライブラリの両方における標的捕捉濃縮アプローチでは、有意なオフターゲット捕捉率が生じることがある。オフターゲット捕捉率は、メチル化CpGに由来するDNAにハイブリダイズする両方のタイプのプローブにおいて、CpG部位にないすべてのシトシンがCからTに変換されることに部分的に起因する。プローブ中のシトシン含有量の減少は、配列の複雑さの減少につながり、したがって、標的ライブラリ分子にハイブリダイズするプローブの特異性を低下させる。
【0138】
本明細書で使用されるように、「メチル化プローブ」および「非メチル化プローブ」という用語は、変換後の核酸配列において、メチル化CpGと非メチル化CpGにそれぞれハイブリダイズするために使用されるプローブを指す。プローブは、変換後の核酸配列を認識するように設計されていてもよい。変換後のメチル化CpGプローブでは、Cは変換後、Cのままである。変換後の非メチル化CpGプローブでは、変換後にCがTに変換される。変換後のメチル化プローブと非メチル化プローブの両方において、非CpGジヌクレオチドのすべてのCは、変換後にTに変換される。
【0139】
メチル化プローブは、いくつかのシトシン(すなわち、CpG部位のシトシン)を保持している。対照的に、非メチル化プローブでは、すべてのシトシンがチミンに変換される。非メチル化プローブは、メチル化プローブよりも複雑ではなく、オフターゲット捕捉率に優先的に寄与する可能性が高い。一例では、メチル化CpGに由来するDNAにハイブリダイズするプローブは、標的濃縮方法に使用される。一例では、メチル化CpGに由来するDNAにハイブリダイズする標的に実質的に相補的な配列を有するプローブが、標的濃縮方法に使用される。
【0140】
標的濃縮のためにメチル化CpGに由来するDNAにハイブリダイズするプローブは、異なる態様を実現するために選択可能である。標的捕捉ハイブリダイゼーション反応は、単一の温度で生じる。しかし、メチル化CpGに由来するDNAにハイブリダイズするプローブの最適融解温度(Tm)は、平均して、メチル化CpGに由来するDNAにハイブリダイズするように設計されていないプローブのTmよりも高い。
【0141】
シトシンの塩基対は3つの水素結合を含むのに対し、チミンの塩基対は2つの水素結合を含む。プローブ中のシトシンをチミンに変換すると、水素結合が減少するため、プローブのTmが低下する。メチル化プローブはシトシンの一部を含み、非メチル化プローブはシトシンを保持しないため、メチル化プローブでは、一致した非メチル化プローブに比べてTmが高くなる。ある領域でCpG部位の数が増えると、メチル化プローブと非メチル化プローブとの間の融解温度の差も大きくなる。融解温度の高いプローブは、融解温度の低いプローブよりも効率的に標的DNA断片にハイブリダイズする可能性がある。一般に、ハイブリダイゼーションの温度は、オンターゲット捕捉を促すために比較的高くなるように選択される。しかし、一般的なハイブリダイゼーション温度では、メチル化プローブは、複数のシトシンが保持されることにより、高い融解温度が生じるため、非メチル化プローブよりも効率的にハイブリダイズする。融解温度が高いと、プレキャプチャーライブラリーのシーケンシングによって測定されたレベルと比較して、標的捕捉ハイブリダイゼーションアプローチによって測定されたCpGメチル化レベルの%が、高くなるというバイアスが生じる可能性がある。
【0142】
一例では、過剰メチル化または低メチル化ライブラリ分子をそれぞれ濃縮するために、ハイブリダイゼーション反応において、メチル化または非メチル化の単一のプローブタイプのみを使用する。メチル化または非メチル化の単一タイプのプローブを使用することで、プローブタイプ間の異なる融解温度の問題を回避することができる。単一のプローブタイプを使用することで、同じDNA断片タイプをより効率的に捕捉(または濃縮)することもできる。ある例では、メチル化プローブのみを使用することで、低メチル化ROIよりも過剰メチル化ROIの優先的な結合が得られる。別の例では、非メチル化プローブのみを使用することにより、非メチル化ROIの濃縮が得られる。
【0143】
単一のプローブタイプのみを使用することにより、メチル化ROIと非メチル化ROIの捕捉の相対的なバランスに影響を与えることなく、オフターゲットの捕捉を減少させるために、より高いハイブリダイゼーション温度を使用することもできる。したがって、プローブパネルは、過剰メチル化または低メチル化DNA断片を濃縮したいという要望に基づいて設計することができる。一例として、過剰メチル化DNA断片と低メチル化DNA断片の両方の定量化が望まれる場合には、両方のメチル化状態に対して、2つの、並行しているが別のハイブリダイゼーション反応が採用される。
【0144】
D.メチル化解析
様々な例では、酵素メチル化シーケンシングが完了すると、アッセイを使用して生物学的試料中の核酸のメチル化状態を分析する。一例では、全ゲノム酵素メチルシーケンシング(「WG EM-seq」)は、ゲノム内のほぼすべてのシチジンヌクレオチドのDNAメチル化を特徴づけることにより、高解像度のシーケンシングを提供する。標的酵素メチルシーケンシング(「TEM-seq」)などの他の標的化方法は、メチル化分析に有用であり得る。
【0145】
他の例では、従来、バイサルファイト変換に使用されてきたアッセイは、酵素変換、TAPS、およびCAPSなどの破壊性が最小限の変換方法に採用され得る。様々な例では、メチル化分析に使用されるアッセイは、質量分析、メチル化特異的PCR(MSP)、還元表現バイサルファイトシーケンシング(RRBS)、HELPアッセイ、GLAD-PCRアッセイ、ChIPオンチップアッセイ、制限ランドマークゲノムスキャン、メチル化DNA免疫沈降(MeDIP)、バイサルファイトで処理されたDNAのパイロシーケンシング、分子破壊光アッセイ(molecular break light assay)、メチル感受性サザンブロッティング、高解像度溶解(HRMまたはHRMA)、古代DNAメチル化再構築、またはメチル化感受性一塩基プライマー延長アッセイ(msSNuPE)であり得る。
【0146】
cfDNAのメチル化プロファイルは、ヒト基準ゲノムの全ゲノムまたは標的メチルシーケンシングから得られたメチルシーケンスリードをマッピングするために、シーケンシングアラインメント方法を適用することで特定可能である。配列アラインメント方法の非限定的な例としては、bwa-meth、bismark、Last、GSNAP、BSMAP、NovoAlign、Bison、メタゲノム系統発生解析(例えば、MetaPhlAn2)、BLAT、バローズ-ウィーラーアライナ(Burrows-Wheeler Aligner)(BWA)、Bowtie、Bowtie2、Bfast、BioScope、CLC bio、Cloudburst、Eland/Eland2、GenomeMapper、GnuMap、Karma、MAQ、MOM、Mosaik、MrFAST/MrsFAST、PASS、PerM、RazerS、RMAP、SSAHA2、Segemehl、SeqMap、SHRiMP、Slider/SliderII、Srprism、Stampy、vmatch、ZOOM、およびSOAP/SOAP2アラインメントツールが挙げられる。
【0147】
E.デュプレックスUMIベースのメチル化コンセンサスコールを用いるCpGエラー訂正
メチル化分析は、CpGコンテキスト内の「C」が、シーケンシングにおいて「C」(メチル化)または「T」(非メチル化)として読み出されるかに基づいて、シーケンシングデータを分析することを伴う。しかしながら、親DNA分子にメチル化されていないCpGが存在するということ以外の理由で、シーケンシングにおいてこれらの位置に「T」が現れることがある。これらの理由には、シーケンシング時のエラー、PCR時のエラー、末端修復時のヌクレオチドのfill-in、DNA損傷、CpGを別のジヌクレオチドに置き換える生殖系列一塩基多型(SNP)、CpGを別のジヌクレオチドに置き換える体細胞突然変異、および過変換(overconversion)(すなわち、メチル化マークがあるにもかかわらず5mCがTに変換される)が含まれる。加えて、親DNA分子にメチル化CpGが存在すること以外の理由で、シーケンシングの際にこれらの位置に「C」が現れることもある。これらの理由には、シーケンシング時のエラー、PCR時のエラー、DNA損傷、および不完全な変換(メチル化マークがないにもかかわらず、非メチル化CがTに変換されない)などが挙げられる。これらのエラーモードのほとんどを補正できないと、CpGのメチル化状態を正確に読み取ることができず、CpGのメチル化状態を極めて正確に読み取ることが必要な希少事象(例えば、早期癌のctDNA分子)の検出が制限されかねない。加えて、デュプレックス構造の情報を考慮することができない方法は、ヘミメチル化されたCpG部位と対称的にメチル化されたCpG部位を区別することができない。このような情報は、メチル化シグナルの生物学的意義を解釈するのに有用である。例えば、ヘミメチル化はデノボメチル化事象を直接特定し、それによってデノボ要因と維持要因を区別することができる。
【0148】
デュプレックスシーケンシングアプローチは、これらの広範なエラーに対処することによってシーケンシング精度の限界を克服する。例えば、デュプレックスシーケンシングは、DNAデュプレックスの2つの鎖のそれぞれを独立してタグ付けしてシーケンシングすることによってエラーを低減する。2本の鎖は相補的であるため、真の変異を2本の鎖の同じ位置で発見することができる。同様に、CpGジヌクレオチドが左右対称であるため、完全にメチル化されたCpGモチーフは、両鎖の対向する隣接位置にメチル化シトシンを有する。対照的に、PCRまたはシーケンシングエラーでは片方の鎖のみにエラーが発生する。この方法は、二本鎖DNAの鎖間に存在する冗長で付加的な情報を独自に利用しているため、一本鎖からのデータを利用する方法の技術的限界を克服することができる。
【0149】
酵素学的なメチル化シーケンシングについては、個々の断片のAPOBEC転換の効率は、シトシンとして配列決定されるCHHコンテキスト中のシトシンの数によって評価可能である。100%の効率であるAPOBEC反応の場合、CHHコンテキスト中のすべてのシトシンがウラシルに変換され、チミンとして配列決定される。対照的に、APOBEC酵素が効率的に作用しなかった(すなわち、変換が不完全だった)cfDNA 断片は、CHHコンテキスト内にウラシルに変換されなかった1つ以上のシトシンを含み得、これはシトシンとして配列決定される。CHHコンテキスト中の未変換のシトシンの数は、不完全な変換のために信頼性が低くノイズが多い可能性があるリードを取り除くためのフィルターとして使用可能である。
【0150】
核酸に作用する多くの酵素は、どの部位が酵素によって効率的に作用されるかで偏りをもたらす配列優先度を持っている。実験データを使用して、個々の酵素の配列優先度を特定することができる。様々な実施形態では、このデータを用いて、酵素によって不完全に変換される可能性が高い潜在的な部位をマスクすることができる。一例として、APOBEC A3Aは、Tが先行するシトシンと比べて、Aが先行するシトシンに対して12倍の識別性を有する。
【0151】
一例では、二重鎖メチル化コンセンサスコールの方法が提供され、前記方法は、
a)酵素変換を用いてcfDNAからメチル化シーケンシングライブラリを調製する工程であって、
(i)生物学的試料から得られた核酸断片に二本鎖アダプターをライゲーションすること;
(ii)予め同定された所望の遺伝子座の超深度シーケンシングを可能にするために、標的濃縮を行うこと;
(iii)(どちらの鎖も損傷を受けないように)酵素変換を用いてcfDNA からメチル化シーケンシングライブラリを調製し、および(酵素変換に関与する変性工程の前に二重鎖にタグ付けるために)酵素変換の前にデュプレックスUMIをライゲーションすること、
を含む、工程と、
b)所望の特定の遺伝子座の超深度シーケンシングを可能にする標的濃縮工程と、
c)シングルエンドリードまたはペアエンドリードを使用して、濃縮ライブラリを配列決定する工程と、
d)ペアエンドリードの配列決定断片に対して、ペアエンドリードの重複領域内にあるシーケンシングエラーを訂正する工程と、
e)PCRとシーケンシングから生じるエラーを訂正するために、配列決定断片を鎖状リードファミリーに折りたたむ工程と、
f)対称的なCpGの推測されるメチル化状態の不一致を同定するために、鎖状リードファミリーを二重リードファミリーに折りたたむ工程を含む。
【0152】
【0153】
デュプレックス情報を用いるメチル配列データのCpG「エラー訂正」は、入力としてメチル配列データを使用する分類子の感度または特異性をさもなければ低下させる可能性のあるノイズをフィルタリングするという利点を提供する。ヌクレオチドの不均衡が変換後に配列に導入されるため、メチルシーケンシングのコンテキストで互い違いに配置されたメチル化UMIを使用する固有のUMIデザインは、シーケンシングの精度を高め、(特にNextSeqシーケンサーなどのプラットフォームを使用して)クラスターの識別を支援することでデータ出力を増加させる可能性があり、大量のPhiXデータを追加することへの依存度を減らすことができる(シーケンシングの深度を増加させ、関連コストを削減する)。塩基対合ヌクレオチドにおけるバリアントコールの一致を分析する標準的なデュプレックスシーケンシングとは異なり、CpGデュプレックスベースのデュプレックスシーケンシング方法は、鎖間のCpGメチル化の対称性(1bpオフセット)を評価する。特定の例では、デュプレックスシーケンシングにより、非メチル化CpGからSNPを区別することもできる。酵素学的なメチルシーケンシング方法は、両鎖の配列を高効率的に捕捉することができるという、バイサルファイトベースの方法を上回る利点を有する。
【0154】
F.酵素メチル化シーケンシングにおけるデュプレックスUMIベースのメチル化コンセンサスコールのための変換抵抗アダプターを用いたCpGエラー訂正
別の態様では、変換抵抗アダプターおよびプライマーがメチルシーケンシングに使用される。5mCを特定するために使用されるバイサルファイトシーケンシングまたは酵素メチル化シーケンシング(EM-seq)などの、塩基修飾の位置を特定するために使用されるシーケンシング方法は、化学的または酵素的に各未修飾シトシン塩基(C)を変化させて、Cの塩基対合特性を変化させることによって動作する。例えば、EM-seqプロセスの間、未修飾のCはすべてAPOBEC酵素によってウラシル(U)に変換され、その後、チミン(T)として配列決定される。5mCの塩基は変換されず、Cとして配列決定される。塩基はDNAが一本鎖の時にのみ変換可能であるため、CからUへの変換反応の前に二本鎖DNAを変性させなければならない。
【0155】
デュプレックスシーケンシングとメチル化シーケンシングを組み合わせた場合に生じる可能性のある問題の1つは、PCRの増幅とシーケンシングの減少である。DNAがまだ二本鎖である間(すなわち、塩基変換の前)にアダプターをDNA上にライゲーションしなければならないため、アダプター中のすべてのCはUに変換され、それによって効率的なPCR増幅および配列決定が妨げられることになる。
【0156】
この問題に対する解決策は、脱アミノ化反応中に変換されないか、変換されにくい修飾塩基(例えば、5mC、5hmC、または他のC変異体)を有するアダプターを使用することである。しかしながら、修飾塩基を含むオリゴヌクレオチドは、標準的な塩基のみを含むオリゴヌクレオチドに比べて著しく高価であることが多い。さらに、この解決策は一般的に、5mCが変換不可能なされないバイサルファイトメチルシーケンシングにのみ有効である。
【0157】
バイサルファイトシーケンシングとは異なり、EM-seqプロセスは、APOBECによる5mCまたは5hmCのUへの変換を防ぐために必要な追加の酵素ステップを必要とする。このステップは、5mCまたは5hmCの塩基を酸化するTet酵素、または5hmCをグルコシル化するβGTのいずれかを使用し、それによって5hmCを変換から保護する。このステップが完全に効率的でない場合、アダプター中の5mCまたは5hmCの一部がウラシルに変換され、ライブラリの複雑さが失われ、シーケンシングの質が低下することになる。Tet酸化反応は反応条件に非常に敏感であり、シーケンシングライブラリの質を変動させる可能性がある。
【0158】
EM-seqデュプレックスシーケンシングの酸化効率に対する堅牢性を向上させるために(そして現在の経済的負担を軽減するために)、非修飾塩基のみを含む変換抵抗アダプターを使用することができる。未修飾塩基とは、修飾のない状態の従来の塩基グアニン、シトシン、アデニン、およびチミンを指す。5mCや5hmCなどの修飾塩基を用いてアダプター分子の全変換を制限する従来の方法とは逆に、このアプローチでは、効率とシーケンシングの質の向上を実現するために、アダプター中のすべてのシトシン変換を可能にしている。変換抵抗アダプターの例は、
図4のパネルAに示されている。
【0159】
これらの変換抵抗アダプターを用いて生成されたシーケンシングライブラリは、元のアダプター配列に一致するPCRとシーケンシングプライマーのセットを用いて増幅および配列決定することができる。変換後、シーケンシングライブラリは、
図4のパネルBの変換アダプター配列に一致するPCRとシーケンシングプライマーを用いて増幅および配列決定することができる。
【0160】
G.酵素変換中の内部プロセス制御の使用
標的酵素メチル化シーケンシングのために、合成内部プロセス制御(IPC)を使用して、酵素メチル化変換中の酸化および脱アミノ化反応をモニタリングしてもよい。
【0161】
様々な実施形態において、IPCは、Cの前後2つの塩基のウィンドウ(NNCNN)に256個の可能なシトシンコンテキストをすべて含んでもよい。
【0162】
様々な実施形態では、IPCは、100%非修飾C、100%メチル化C、または100%ヒドロキシル化C(またはCに対する別の修飾)のいずれかを含むPCRによって合成されたデュプレックスである。これに関連して、IPCの変換または保護効率をモニタリングすることができる。いくつかの実施形態では、変換または保護効率は、シーケンシングまたは定量的PCRによってモニタリングすることができる。
【0163】
H.ヘミメチル化分析
別の例では、メチル配列におけるUMIの使用は、エラー訂正およびヘミメチル化の分析/除去を可能にする。代替的に、鎖特異的なメチル化シーケンシングにより、ヘミメチル化されたDNAの識別が可能となる。CpG/CpG二分染色体(dyad)のメチル化状態は通常、一致しており、すなわち、完全にメチル化されているか、完全に非メチル化されている。しかしながら、メチル化状態が一致しない、すなわちヘミメチル化されたCpG/CpG二分染色体は、CpG/CpG二重鎖は、転写サイレンシングまたは再活性化が行われている領域や、DNA複製時に一時的に発生する場合を除いて、一般的に低~中程度の頻度で発生する。このようなヘミメチル化二分染色体は、集団を階層化する際の分類子を知らせ得る追加の情報を提供する。ヘミメチル化二分染色体を認識することで、より完全なメチル配列プロファイルを得ることができ、分類子の生成時にこの情報を除去するか含めるかを選択することができる。
【0164】
酵素的メチルシーケンシングアプローチのもう一つの利点は、メチル化Cと未変換Cとをよりよく区別できることである。酵素的変換によって断片の完全性と長さを維持することにより、デュプレックスUMIメチル配列を使用して、核酸分子の真のメチル化状態を決定する精度を高めることができる。この方法は、例えば、抽出(DNA損傷)、ライブラリの調製(末端修復fill-in)、酵素変換(過小変換または過変換)、PCR(塩基取り込みエラー)、およびシーケンシング(ベースコールエラー)の際に生じる可能性のあるエラーを説明することができる。メチル化状態の決定の精度を高めることで、これらのメチル化に基づくエピジェネティックな配列の違いを用いて集団を層別化するための特徴付けや分類子の生成が改善される。一例では、アダプターの方向性を利用して、(read1がどのゲノム鎖にマッピングされるかに基づいて)上鎖対下鎖に由来するdsDNA断片を識別し、これを
図3に模式的に示している。この方法は、エラー訂正のためにインデックスバーコードに依存する方法とは対照的である。
【0165】
I.体細胞変異体の識別
様々な例では、酵素変換DNAは、ゲノム中のC残基のメチル化状態を推測するために使用される。しかしながら、DNAの酵素変換が非メチル化C残基をU残基に変換し、他の化学的変化をDNAに導入しないため、基準配列またはクエリ配列中のCまたはT塩基に対応しない体細胞変異体も、変換DNAにおいて識別することができる。これらの体細胞変異体は、未変換DNA用に設計された既存の方法(デュプレックスシーケンシングなどのエラー訂正方法を含む)を用いて識別することができる。さらに、基準配列またはクエリ配列中のC塩基またはT塩基に対応する体細胞変異体は、体細胞変異体がデュプレックスDNA分子の両鎖の同じ位置に見られるはずであるのに対し、メチル化関連のパターンはそうではない(すなわち、C塩基とT塩基は互いに塩基対合では見られないからである)という予想に基づいて、デュプレックスシーケンシングを用いてメチル化関連のシーケンシングパターンと区別することができる。この違いにより、EM配列では、CpG部位のメチル化状態と体細胞変異体の両方を識別することができる。
【0166】
J.ヌクレオソームの位置の推定
CpG部位でのシトシンのメチル化は、隣接するDNAと比較してヌクレオソームにまたがるDNAで大幅に濃縮され得る。したがって、CpGメチル化パターンはさらに、機械学習アプローチを用いてヌクレオソームの位置を推測するために採用されてもよい。EM配列データセットは、メチル化変換に関係なく、機械学習方法およびモデルに入力される特徴を生成するために、WGSに使用されるのと同じ方法に従って分析されてもよい。その後、5mCのパターンは、ヌクレオソームの位置を予測するために使用可能であり、これは、遺伝子発現の推論および/または疾患および癌の分類に役立ち得る。別の例では、特徴は、メチル化状態とヌクレオソーム位置の情報の組み合わせから得られてもよい。
【0167】
メチル化分析で使用されるメトリクスには、限定されないが、M-バイアス(CpG、CHG、CHHの塩基単位(base wise)メチル化%)、変換効率(例えば、CHHに関する100平均メチル化%)、低メチル化ブロック、メチル化レベル(例えば、CPG、CHH、CHG、chrM、LINE1、またはALUの全体的な平均メチル化)、ジヌクレオチドカバレッジ(ジヌクレオチドの正規化カバレッジ)、カバレッジの均等性(例えば、1倍と10倍の平均ゲノムカバレッジにおける固有のCpG部位(S4実行時)、全体的な平均CpGカバレッジ(深度)、およびCpGアイランド、CGIシェルフ、およびCGIショアにおける平均カバレッジが挙げられる。一例では、デュプレックスベースのCpGメチル化コールの出力は、この分析の入力として使用される。一例では、断片のエンドポイントと長さの情報は、分析のための特徴入力として使用される。これらのメトリクスは、機械学習方法およびモデルの特徴入力として使用されてもよい。
【0168】
別の態様において、本開示はある方法を提供し、上記方法は:(a)被験体からcfDNAを含む生体試料を提供する工程と;(b)試料中のメチル化cfDNAの任意の濃縮に十分な条件にcfDNAを曝露する工程と;(c)cfDNAの非メチル化シトシン核酸塩基を、ウラシル核酸塩基へ酵素的に変換する工程と;(d)cfDNAを配列決定する工程であって、それによって配列リードを生成する、工程と;(e)(i)ウラシル核酸塩基の存在に基づいて、cfDNAのメチル化の程度を決定するために、および、(ii)cfDNAの少なくとも部分的な分解をモデル化し、それによって分解パラメータを生成するために、配列リードをコンピュータ処理する工程と;(f)遺伝子配列特徴を決定するために分解パラメータとメチル化の程度を使用する工程とを含む。
【0169】
いくつかの例では、cfDNAのシーケンシングは、変換シトシン核酸塩基に対する未変換シトシン核酸塩基の比に基づいて、DNAのメチル化の程度を決定することを含む。いくつかの例では、変換シトシン核酸塩基は、ウラシル核酸塩基として検出される。いくつかの例では、ウラシル核酸塩基は、配列リードにおけるチミン核酸塩基として観察される。
【0170】
いくつかの例では、分解パラメータを生成することは、ベイジアンモデルを使用することを含む。いくつかの例では、ベイジアンモデルは、鎖のバイアスまたは酵素的変換もしくは過変換に基づく。いくつかの例では、配列リードのコンピュータ処理は、対合HMMまたはナイーブベイジアンモデルのフレームワーク下で分解パラメータを使用することを含む。
【0171】
K.可変メチル化領域(DMR)の分析
一例では、メチル化分析は、可変メチル化領域(DMR)分析である。DMRは、ゲノムの領域にわたるCpGメチル化を定量化するために使用される。領域は発見によって動的に割り当てられる。異なるクラスの多くの試料を分析し、様々な分類間で最可変メチル化領域を特定可能である。領域のサブセットを選択して、可変メチル化を行い、分類に使用することができる。領域で捕捉されたCpGの数を分析に使用してもよい。一例では、デュプレックスベースのCpGメチル化コールの出力は、この分析のための入力として使用される。領域はサイズが可変であってもよい。一例では、多くのCpG部位を領域として一緒に束ねる事前発見プロセスが実行される。一例では、DMRは、機械学習方法およびモデルの入力特徴として使用される。
【0172】
L.メチル化ハプロタイプブロックとメチル化ハプロタイプロード
一例では、ハプロタイプブロックアッセイが試料に適用される。メチル化ハプロタイプブロックの識別は、異質な組織試料のデコンボリューションと、血漿DNAからの腫瘍組織由来マッピングを助ける。メチル化ハプロタイプブロック(MHB)として知られる緊密に結合したCpG部位は、WGBSデータにおいて識別可能である。ブロックレベルでの組織特異的なメチル化分析を行うために、メチル化ハプロタイプロード(MHL)と呼ばれるメトリックが使用される。この方法は、異質な試料のデコンボリューションに有用な情報量の多いブロックを提供する。この方法は、循環cfDNAにおける腫瘍負荷の定量的な推定と組織由来のマッピングに有用である。一例では、デュプレックスベースのCpGメチル化コールの出力は、この分析の入力として使用される。一例では、ハプロタイプブロックは、機械学習方法およびモデルの入力特徴として使用される。
【0173】
M.細胞型由来(Cell-Type of Origin)を同定するための標的メチル化コール分析
一態様では、メチル化パターンに基づいてcfDNA分子の細胞型由来を同定するために、標的メチル化コールのための方法が使用される。この方法は、シグナル増幅のためにDNAメチル化の広汎な性質を利用するべく、個々のシーケンシングリード上の複数の隣接するCpG部位の共同メチル化状態の確率的モデルを提供する。このモデルは、各細胞型のシーケンシングリードの確率を開発し、次に全体的な細胞型の混合モデルを開発して、モデルにフィットさせる。
【0174】
従来のDNAメチル化分析では、細胞集団における個々のCpG部位のメチル化率(β値)に着目して、そのCpG部位がメチル化されている細胞の割合を示していた。このような集団平均的な測定は、cfDNAの一部にのみ影響を及ぼす異常なメチル化シグナルを捉えるには感度が十分でないことが多い。しかしながら、DNAメチル化の広範な性質に基づいて、疾患特異的なcfDNAリードは、正常なcfDNAリードと計算上区別することができる。
【0175】
加えて、DNAメチル化の広汎な性質を考慮すると、複数の隣接するCpG部位の共同メチル化状態を使用して、癌特異的cfDNAリードと正常なcfDNAリードとを容易に区別することができる。所定のリードにおけるすべてのCpG部位のメチル化値の平均値(α値とする)は、異常メチル化cfDNAと正常なcfDNAとの間の差(0および1)を提供する(α腫瘍=0%、α正常=100%)。メチル化α値は、リード中のすべてのCpG部位の結合確率が、疾患のDNAメチル化シグネチャーに従っているかどうかを推定するために用いられる。この方法は、血漿中のすべてのcfDNAのうち、複数の細胞型由来のcfDNAを高感度に同定することができる。
【0176】
様々な例では、アライメントツールを用いてリードを基準ゲノムにアライメントし、メチル化シトシンをコールする。PCRの重複を除去し、メチル化シトシンと非メチル化シトシンの数を各CpG部位について定量化する。CpGクラスターのメチル化レベルは、メチル化シトシンの数とクラスター内のシトシンの総数の比として算出される。このWGBSのデータ処理手順では、メチル化マーカーの識別に使用される正常な血漿試料におけるCpGクラスターの平均メチル化レベルを算出する。血漿のcfDNA試料を試験データとして使用する場合、マーカーパネルの領域にアライメントされた個々のシーケンシングリードのすべてのCpG部位の結合メチル化状態が抽出され、機械学習モデルに入力される。この方法では、デュプレックスベースのCpGメチル化コールは、メチル化状態の分析と特徴の生成のための入力特徴として使用される。カバレッジの高いcfDNAメチル化データの入力データ品質を向上させるために、2超、3超、または4超のCpG部位をカバーするリードがフィルタリング可能である。
【0177】
本明細書に記載されるメチル化シーケンシング方法は、例えば、PCRエラーおよびバイアスを低減し、バイサルファイト変換で発生するDNAの分解を低減することにより、シーケンシングリードの品質を向上させることができる。一例では、メチル化シーケンシングデータを使用して、重複領域をモデル化する。一例では、機械学習モデリングは、識別されたメチル化DNA領域について、細胞型由来を決定することができる。
【0178】
様々な例では、モデルは2以上の細胞型由来を分類することができる。他の例では、モデルは、3、4、5、6、7、8、9、10、15、20、50、75、100、または100以上の異なる細胞型に配列を分類することができる。
【0179】
N.DNAヒドロキシメチル化分析
本発明の一態様では、アダプターライゲーション工程でアダプター核酸におけるヒドロキシメチル化を代用し、その後、5mCおよび5hmCを結合するためにジオキシゲナーゼおよびβGTを使用する代わりに、試験核酸ライブラリ挿入物中の5hmC残基にグルコースを結合するためにβGTのみを使用することによって、5hmCシーケンシングは実現可能である。結果として得られたシーケンシングデータを基準ゲノムと比較すると、試験配列において対応するCを示す基準中のすべてのCの位置は、ヒドロキシメチル化Cとして解釈され、試験配列においてTとして示される基準中のすべてのCは、修飾されていないCまたはメチル化Cとして解釈される。したがって、ヒドロキシメチル化分析のデータ解釈は、メチル化分析の場合と同じである。
【0180】
本発明の一態様では、メチル化およびヒドロキシメチル化配列決定ライブラリを比較して、単一ヌクレオチドの解像度で各シトシン修飾(例えば、5mまたは5mC)のレベルを特定することができる。
【0181】
本発明の一態様では、ヒドロキシメチル化ステータスの読み出しがメチル化ステータスと同じであるため、メチル化シーケンシングデータで使用されるすべての分析方法をヒドロキシメチル化シーケンシングデータに適用することができる。
【0182】
IV.コンピュータシステムおよび機械学習方法
A.試料特徴
本明細書で使用されるように、機械学習およびパターン認識に関連するため、「特徴」という用語は、観察される現象の個々の測定可能な特性または特徴を指すこともある。特徴は通常、数値であるが、文字列やグラフなどの構造的特徴が構文パターン認識で使用される。「特徴」の概念は、線形回帰などの統計的手法で使用される説明変数の概念に関連する。
【0183】
一実施形態において、特徴は機械学習分析のための特徴マトリックスに入力される。
【0184】
複数のアッセイについて、システムは、機械学習モデルへの入力として特徴セットを特定する。システムは、各分子クラスについてアッセイを実行し、測定値から特徴ベクトルを形成する。システムは特徴ベクトルを機械学習モデルへ入力し、生物試料が指定された特性を有するかどうかの出力分類を獲得する。
【0185】
一実施形態では、機械学習モデルは、個体の2つのグループまたはクラス、すなわち、個体の集団における特徴または集団の特徴を区別する分類子を出力する。一実施形態では、分類子は、訓練された機械学習分類子である。
【0186】
一実施形態では、癌組織におけるバイオマーカーの情報量の多い遺伝子座または特徴をアッセイして、プロファイルを形成する。2つの集団(例えば、治療薬に反応する個体と反応しない個体)を区別する際の特定の特徴(例えば、本明細書に記載されたバイオマーカーのいずれか、および/または追加の生物医学的情報のいずれかの項目)のパフォーマンスをプロットするために、受信者動作特性(ROC)曲線が有用である。典型的には、集団全体(例えば、症例および対照)の特徴データは、単一の特徴の値に基づいて昇順にソートされる。
【0187】
いくつかの実施形態では、疾病は、進行性腺腫(AA)、大腸癌(CRC)、結腸直腸癌、または炎症性腸疾患である。
【0188】
「入力特徴」または「特徴」という用語は、試料の出力分類(ラベル)、例えば、状態、配列内容(例えば、突然変異)、提案されたデータ収集操作、または提案された治療法を予測するためにモデルによって使用される変数を指す。変数の値は、試料に対して決定可能であり、分類を決定するために使用することができる。遺伝子データの入力特徴の例としては、配列データ(例えば、配列リード)のゲノムへのアラインメントに関連するアラインメントされた変数、および非アラインメントされた変数、例えば、配列リードの配列内容、タンパク質または自己抗体の測定値、またはゲノム領域における平均メチル化レベルに関連する変数が挙げられる。
【0189】
変数の値は、試料に対して決定可能であり、分類を決定するために使用することができる。遺伝子データの入力特徴の例としては、配列データ(例えば、配列リード)のゲノムへのアラインメントに関連するアラインメントされた変数、および非アラインメントされた変数、例えば、配列リードの配列内容、タンパク質または自己抗体の測定値、またはゲノム領域における平均メチル化レベルに関連する変数が挙げられる。様々な例では、例えば、Vプロット測定値、FREE-C、転写開始部位のcfDNA測定値、およびcfDNA断片のDNAメチル化レベルなどの遺伝的特徴が、機械学習方法およびモデルの入力特徴として使用される。
【0190】
一例では、シーケンシング情報は、限定されないが、転写開始部位、転写因子結合部位、クロマチンのオープンおよびクローズ状態、ヌクレオソームの位置または占有率などの複数の遺伝的特徴に関する情報を含む。
【0191】
B.データ解析
いくつかの実施形態では、本開示は、ソフトウェアアプリケーション、コンピューティングハードウェア、またはその両方で実現されるデータ解析を有するシステム、方法、またはキットを提供する。様々な実施形態では、分析アプリケーションまたはシステムは、少なくとも、データ受信モジュール、データ前処理モジュール、データ解析モジュール(これは、1以上のタイプのゲノムデータで動作することができる)、データ解釈モジュール、またはデータ可視化モジュールを含む。一実施形態では、データ受信モジュールは、実験室のハードウェアまたは器具類を実験室のデータを処理するコンピュータシステムに接続するコンピュータシステムを含むことができる。一実施形態では、データ前処理モジュールは、分析の準備としてデータに対する操作を行うハードウェアシステムまたはコンピュータソフトウェアを含むことができる。前処理モジュールでデータに適用できる操作の例としては、アフィン変換、ノイズ除去操作、データクリーニング、再フォーマット、またはサブサンプリングが挙げられる。データ解析モジュールは、1以上のゲノム材料からのゲノムデータの解析に特化することができ、例えば、組み立てられたゲノム配列を取り込んで、確率的および統計的な解析を行うことで、疾患、病理、状態、リスク、条件、または表現型に関連する異常なパターンを特定することができる。データ解釈モジュールは、特定された異常パターンと健康状態、機能状態、予後、またはリスクとの間の関連性の理解を裏付けるために、例えば、統計学、数学、または生物学から得られた解析方法を使用することができる。データ可視化モジュールは、結果についての理解または解釈を促すことができるデータの視覚的な表現を作成するために数学的モデル化、コンピュータグラフィックス、またはレンダリングの方法を使用することができる。
【0192】
様々な実施形態では、機械学習方法は、試料の集団中の試料を区別するために適用される。一実施形態では、機械学習方法は健康な試料と進行性の腺腫試料との間で試料を識別するために適用される。
【0193】
一実施形態では、メチル化に基づく予測エンジンを訓練するために使用される、1つ以上の機械学習演算は、一般化線形モデル、一般化加法モデル、ノンパラメトリック回帰演算、ランダムフォレスト分類子、空間回帰演算、ベイジアン回帰モデル、時系列分析、ベイジアンネットワーク、ガウスネットワーク、決定木学習演算、人工ニューラルネットワーク、リカレントニューラルネットワーク、強化学習演算、線形/非線形回帰演算、サポートベクターマシン、クラスタリング演算、および遺伝的アルゴリズム演算を含む。
【0194】
様々な実施形態では、コンピュータ処理方法は、ロジスティック回帰、多重線形回帰(MLR)、次元削減、部分的最小二乗(PLS)回帰、主成分回帰、オートエンコーダ、変分オートエンコーダ、特異値分解、フーリエ基底、ウェーブレット、判別分析、サポートベクターマシン、決定木、分類木と回帰木(CART)、ツリーベース方法、ランダムフォレスト、勾配ブーストツリー、ロジスティック回帰、行列因子分解、多次元スケーリング(MDS)、次元削減方法、t分布型確率的近傍埋め込み法(t-SNE)、多層パーセプトロン(MLP)、ネットワーククラスタリング、ニューロファジィ、および人工ニューラルネットワークから選択される。
【0195】
いくつかの実施形態では、本明細書に開示される方法は、個体からの、または複数の個体からの試料の核酸配列データに対する計算分析を含むことができる。解析は、確率的モデリング、統計的モデリング、機械的モデリング、ネットワークモデリング、または統計的推論に基づいて、配列データから推測される変異体を特定することができる。解析方法の非限定的な例としては、主成分分析、オートエンコーダ、特異値分解、フーリエ基底、ウェーブレット、判別分析、回帰、サポートベクターマシン、ツリーベース方法、ネットワーク、行列因子分解、およびクラスタリングが挙げられる。変異体の非限定的な例としては、生殖細胞系列の変異または体細胞変異が含まれる。いくつかの実施形態では、変異体は既知の変異体を指すことができる。既知の変異体は、科学的に確認されたり、文献に報告されたりすることができる。いくつかの実施形態では、変異体は、生物学的変化に関連する仮説的変異体を指すことができる。生物学的変化は、既知または未知であり得る。いくつかの実施形態では、仮説的変異体は、文献に報告されているが、まだ生物学的に確認されていないことがある。
【0196】
あるいは、推定上の変異体は、文献では報告されないが、本明細書で開示されるコンピュータ解析に基づいて推論することができる。いくつかの実施形態では、生殖系列変異体とは、自然変異または正常変異を引き起こす核酸を指し得る。
【0197】
自然変異または正常変異には、例えば、皮膚色、毛色、および標準体重が含まれ得る。いくつかの実施形態では、体細胞突然変異とは、後天的変異または異常変異を引き起こす核酸を指し得る。後天的変異または異常変異には、例えば、癌、肥満症、疾病、症状、疾患、および障害が含まれ得る。いくつかの実施形態では、その解析は、生殖系列変異体を区別することを含み得る。生殖系列変異体には、例えば、プライベートバリアント(private variants)および体細胞突然変異が含まれ得る。いくつかの実施形態では、同定された変異体は、臨床医あるいは他の保健専門家によって、保健医療方法論、診断の精度、およびコスト削減を改善するために使用され得る。
【0198】
さらに、増幅および/またはシーケンシング技術、体細胞突然変異、および生殖系列変異体によって導入された核酸の配列誤差を区別することができる、改善された方法およびコンピューティングシステムまたはソフトウェア媒体が本明細書で提供される。提供される方法は、患者から得られたすべての試料の整列したシーケンシングデータからの変異体を同時にコールし、スコアリングすることを含み得る。
【0199】
患者以外の被験体から得られた試料も使用することができる。他の試料もまた、シーケンシングアッセイあるいはターゲットシーケンシングアッセイ(つまり、ターゲットリシケーンシングアッセイ)によってあらかじめ解析された被験体から集めることができる。本明細書で開示される方法、コンピューティングシステム、またはソフトウェア媒体は、変異あるいは突然変異(例えば、コピー数多型、一塩基多様性、インデル、遺伝子融合を含む、生殖系列もしくは体細胞)の同定および精度を向上させることができ、ならびに、偽陽性および偽陰性の同定の数を減らすことにより、検出限界を減少させることができる。
【0200】
C.分類子生成
一態様では、本システムおよび方法は、cfDNAの生体試料からのメチル化配列の解析に由来する特徴情報に基づいて生成される分類子を提供する。分類子は、cfDNAなどの生体試料中で同定されたメチル化配列特徴に基づいて、集団内の群を区別するための予測エンジンの一部を形成する。
【0201】
一実施形態では、分類子は、メチル化情報の類似部分を統一されたフォーマットおよび統一されたスケールにフォーマットすること、正規化されたメチル化情報を列指向データベースに格納すること、上記格納された正規化されたメチル化情報に1以上の機械学習オペレーションを適用することによってメチル化予測エンジンを訓練することであって、上記メチル化予測エンジンは、特定の集団に対して、1以上の特徴の組み合わせをマッピングする、こと、ある群に関連するメチル化を同定するために、上記メチル化予測エンジンをアクセスされたフィールド情報に適用すること、および、上記個体を1つの群に分類することによって作成される。
【0202】
特異性は、疾患を抱えていない人々の間での試験が陰性となる確率として定義され得る。特異性は、陰性と判定された疾患を抱えていない人の数を、疾患を抱えていない個体の総数で割ったものに等しい。
【0203】
様々な実施形態では、モデル、分類子、または予測試験は、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%の特異性を有する。
【0204】
感度は、疾患を抱えていない人々の間での試験が陽性となる確立として定義され得る。感度は、陰性と判定された疾患を抱えている個体数を、疾患を抱えている個体の総数で割ったものに等しい。
【0205】
様々な実施形態では、モデル、分類子、または予測試験は、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、または少なくとも約99%の感度を有する。
【0206】
一実施形態では、群は、健康な(無症状の)炎症性腸疾患、AA、またはCRCから選択される。
【0207】
D.デジタル処理装置
いくつかの実施形態では、本明細書に記載される主題は、デジタル処理装置またはその使用を含み得る。いくつかの実施形態では、デジタル処理装置は、装置の機能を実行する、1以上のハードウェア中央処理装置(CPU)、グラフィック処理ユニット(GPU)、またはテンソル処理ユニット(TPU)を含み得る。いくつかの実施形態では、デジタル処理装置は、実行可能な命令を実行するように構成されたオペレーティングシステムを含み得る。いくつかの実施形態では、デジタル処理装置は、コンピュータネットワークに随意に接続され得る。いくつかの実施形態では、デジタル処理装置は、ワールド・ワイド・ウェブに接続するように、インターネットに随意に接続され得る。いくつかの実施形態では、デジタル処理装置は、クラウドコンピューティングインフラストラクチャに随意に接続され得る。いくつかの実施形態では、デジタル処理装置はイントラネットに随意に接続され得る。いくつかの実施形態では、デジタル処理装置はデータ記憶装置に随意に接続され得る。
【0208】
適切なデジタル処理装置の非限定的な例としては、サーバーコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、ハンドヘルドコンピュータ、インターネットアプライアンス、モバイルスマートフォン、およびタブレットコンピュータが挙げられる。適切なタブレットコンピュータは、例えば、ブックレット、スレート、および転換可能な構成を含み得る。
【0209】
いくつかの実施形態では、デジタル処理装置は、実行可能な命令を実行するように構成されたオペレーティングシステムを含み得る。例えば、オペレーティングシステムはプログラムとデータを含むソフトウェアを含む場合があり、そのソフトウェアは、装置のハードウェアを管理し、アプリケーションの実行のためのサービスを提供する。オペレーティングシステムの非限定的な例としては、Ubuntu、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux(登録商標)、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標) Solaris(登録商標)、Windows Server(登録商標)、およびNovell(登録商標)NetWare(登録商標)が挙げられる。適切なパーソナルコンピュータオペレーティングシステムの非限定的な例としては、Microsoft(登録商標) Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびUNIX(登録商標)系オペレーティングシステム、例えば、GNU/Linux(登録商標)が挙げられる。いくつかの実施形態では、オペレーティングシステムは、クラウドコンピューティングによって提供され得、クラウドコンピューティングリソースは、1以上のサービスプロバイダーによって提供され得る。
【0210】
いくつかの実施形態では、上記装置は記憶装置および/またはメモリ装置を含み得る。記憶装置および/またはメモリ装置は、一時的または恒久的に、データあるいはプログラムを記憶するために使用される1以上の物理的な装置であり得る。いくつかの実施形態では、上記装置は揮発性メモリであり得、記憶した情報を維持するための電力を必要とする。いくつかの実施形態では、上記装置は不揮発性メモリであり得、デジタル処理装置に電力が供給されていないときに、記憶した情報を保持することができる。いくつかの実施形態では、不揮発性メモリはフラッシュメモリを含み得る。いくつかの実施形態では、不揮発性メモリは、ダイナミックランダムアクセスメモリ(DRAM)を含み得る。いくつかの実施形態では、不揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM(登録商標))を含み得る。いくつかの実施形態では、不揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含み得る。いくつかの実施形態では、上記装置は、例えば、CD-ROM、DVD、フラッシュメモリ装置、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、およびクラウドコンピューティングベースの記憶装置を含む、記憶装置であり得る。いくつかの実施形態では、記憶装置および/またはメモリ装置は、本明細書で開示されるものなどの装置の組み合わせであり得る。
【0211】
いくつかの実施例では、デジタル処理装置は、ユーザーに視覚情報を送るためのディスプレイを含み得る。いくつかの実施形態では、ディスプレイは陰極線管(CRT)であり得る。いくつかの実施形態では、ディスプレイは液晶ディスプレイ(LCD)であり得る。いくつかの実施形態では、ディスプレイは、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)であり得る。いくつかの実施形態では、ディスプレイは、有機発光ダイオード(OLED)ディスプレイであり得る。いくつかの実施形態では、OLEDディスプレイは、パッシブ-マトリックスOLED(PMOLED)またはアクティブ-マトリックスOLED(AMOLED)のディスプレイであり得る。いくつかの実施形態では、ディスプレイはプラズマディスプレイであり得る。いくつかの実施形態では、ディスプレイはビデオプロジェクタであり得る。いくつかの実施形態では、ディスプレイは、本明細書で開示されるようなものなどの装置の組み合わせであり得る。
【0212】
いくつかの実施形態では、デジタル処理装置は、ユーザーから情報を受け取るための入力装置を含み得る。いくつかの実施形態では、入力装置はキーボードであり得る。いくつかの実施形態では、入力装置は、例えば、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ、またはスタイラスを含む、ポインティングデバイスであり得る。いくつかの実施形態では、入力装置は、タッチスクリーンまたはマルチタッチスクリーンであり得る。いくつかの実施形態では、入力装置は、声または他の音声入力を捕捉するマイクロホンであり得る。いくつかの実施形態では、入力装置は、動きまたは視覚入力を捕捉するビデオカメラであり得る。いくつかの実施形態では、入力装置は、本明細書で開示されるものなどの装置の組み合わせであり得る。
【0213】
E.非一時的なコンピュータ可読記憶媒体
いくつかの実施形態において、本明細書で開示される主題は、随意にネットワーク接続されたデジタル処理装置のオペレーティングシステムによって実行可能な命令を含むプログラムでコードされた、1つ以上の非一時的なコンピュータ可読記憶媒体を含み得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、デジタル処理装置の有形の構成要素であり得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、デジタル処理装置から随意に取り外し可能であり得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、例えば、CD-ROM、DVD、フラッシュメモリ装置、固体メモリ、磁気ディスク装置、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどを含み得る。いくつかの実施形態では、プログラムおよび命令は、永続的に、ほぼ永続的に、半永続的に、または非一時的に、媒体上でコードされ得る。
【0214】
F.コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。
図5は、患者データ、生物学データ、生物学的配列、または基準配列を保存するか、処理するか、同定するか、あるいは解釈するようにプログラムされるか、またはそうでなければ構成されるコンピュータシステム(501)を示す。コンピュータシステム(501)は、本開示の患者データ、生物学データ、生物学的配列、または基準配列の様々な態様を処理することができる。コンピュータシステム(501)は、電子デバイスに対して遠隔に位置付けられる、ユーザーまたはコンピュータシステムの電子デバイスであり得る。電子デバイスはモバイル電子デバイスであってもよい。
【0215】
コンピュータシステム(501)は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも呼ばれる)(505)を含み、その中央処理装置は、シングルコアまたはマルチコアのプロセッサ、あるいは並行処理のための複数のプロセッサであり得る。コンピュータシステム(501)は、メモリまたは記憶場所(510)(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶装置(515)(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インターフェース(520)(例えば、ネットワークアダプタ)、および周辺機器(525)、例えば、キャッシュ、他のメモリ、データ記憶装置、ならびに/あるいは電子ディスプレイアダプターも含む。メモリ(510)、記憶装置(515)、インターフェース(520)、および周辺機器(525)は、マザーボードなどの通信バス(実線)を介してCPU(505)と通信する。記憶装置(515)は、データを保存するためのデータ記憶装置(または、データレポジトリ)であり得る。コンピュータシステム(501)は、通信インターフェース(520)の助けによってコンピュータネットワーク(「ネットワーク」)(530)に動作可能に接続され得る。ネットワーク(530)は、インターネットおよび/またはエクストラネット、あるいは、インターネットと通信状態にあるイントラネットおよび/またはエクストラネットであり得る。いくつかの実施形態では、ネットワーク(530)は、電気通信および/またはデータネットワークである。ネットワーク(530)は1つ以上のコンピュータサーバーを含み得、このコンピュータサーバーは、クラウドコンピューティングなどの分散コンピューティングを可能にし得る。ネットワーク(530)は、いくつかの実施形態では、コンピュータシステム(501)の助けにより、ピアツーピア・ネットワークを実施することができ、これにより、コンピュータシステム(501)に連結されたデバイスが、クライアントまたはサーバーとして動くことを可能にし得る。
【0216】
CPU(505)は一連の機械可読命令を実行することができ、これらの命令は、プログラムまたはソフトウェアで具現化され得る。この命令は、メモリ(510)などの記憶場所に保存され得る。この命令は、CPU(505)に向けることができ、これは後に、本開示の方法を実施するようにCPU(505)をプログラムするか、またはそうでなければ構成することができる。CPU(505)により実行される動作の例としては、フェッチ、デコード、実行、およびライトバックが挙げられる。
【0217】
CPU(505)は、集積回路など回路の一部であり得る。システム(501)の1つ以上の他のコンポーネントが、回路に含まれてもよい。いくつかの実施形態では、回路は特定用途向け集積回路(ASIC)である。
【0218】
記憶装置(515)は、ドライバー、ライブラリ、およびセーブされたプログラムなどのファイルを保存することができる。記憶装置(515)は、ユーザーデータ、例えば、ユーザーの嗜好およびユーザーのプログラムを保存することができる。コンピュータシステム(501)は、いくつかの実施形態では、イントラネットまたはインターネットを介してコンピュータシステム(501)と通信状態にあるリモートサーバー上に位置付けられるなどした、コンピュータシステム(501)の外側にある1つ以上の追加のデータ記憶装置を含み得る。
【0219】
コンピュータシステム(501)は、ネットワーク(530)を介して1つ以上のリモートコンピュータシステムと通信することができる。例えば、コンピュータ(501)は、ユーザーのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ(例えば、持ち運び可能なPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android-enabledデバイス、Blackberry(登録商標))、または携帯情報端末を含む。ユーザーは、ネットワーク(530)を介してコンピュータシステム(501)にアクセスすることができる。
【0220】
本明細書に記載される方法は、例えば、メモリ(510)または電子記憶装置(515)上などの、コンピュータシステム(501)の電子記憶場所に保存された機械(例えば、コンピュータプロセッサ)実行可能コードによって実行可能である。機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供され得る。使用中、コードはプロセッサ(505)により実行され得る。いくつかの実施形態では、上記コードは、記憶装置(515)から検索され、かつプロセッサ(505)による即時のアクセスのためにメモリ(510)に保存され得る。いくつかの実施形態では、電子記憶装置(515)が排除されてもよく、機械実行可能命令がメモリ(510)に保存される。
【0221】
コードは、コードを実行するのに適したプロセッサを有する機械との使用のためにあらかじめコンパイルおよび構成され得るか、あるいは、実行時間中に解釈またはコンパイルされ得る。コードは、あらかじめコンパイルされた、解釈された、またはアズコンパイルされた(as-compiled)様式でコードを実行可能にするために選択され得る、プログラミング言語で供給され得る。
【0222】
コンピュータシステム(501)などの本明細書で提供されるシステムおよび方法の態様は、プログラミングの際に具現化され得る。この技術の様々な態様は、典型的に、一種の機械可読媒体上で実行または具現化される機械(または、プロセッサ)実行可能コードおよび/または関連データの形態の、「製品」または「製造用品」として考えられ得る。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子記憶装置に記憶することができる。「記憶」型の媒体は、様々な半導体メモリ、テープドライブ、ディスクドライブなどの、コンピュータやプロセッサの有形メモリ、あるいはその関連するモジュールのいずれかまたは全てを含むことができ、これらは、ソフトウェアのプログラミングのためにいかなる時も非一時的な記録媒体を提供し得る。ソフトウェアの全てまたは一部は、時々、インターネットまたは様々な他の電気通信ネットワークを介して通信される。そのような通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへの、ソフトウェアのローディングを可能にし得る。ゆえに、ソフトウェア要素を持ち得る別のタイプの媒体は、有線および光地上通信線ネットワークを介した、および様々なエアリンク(air-links)上での、ローカルデバイス間の物理インターフェースにわたって使用されるものなどの、光波、電波、および電磁波を含む。有線または無線リンク、光リンクなどの、そのような波を運ぶ物理要素はまた、ソフトウェアを持つ媒体と考えられ得る。本明細書で使用される場合、非一時的で有形の「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する媒体を指す。
【0223】
したがって、コンピュータ実行可能コードなどの機械可読媒体は、限定されないが、有形記憶媒体、キャリア波媒体、または物理送信媒体を含む、多くの形態をとってもよい。不揮発性記憶媒体は、例えば、光ディスクまたは磁気ディスク、例えば、図面に示されるデータベースなどを実施するために使用され得るものなどのコンピュータなどにおける記憶装置のいずれかを含む。揮発性記憶媒体は、ダイナミックメモリ、例えば、そのようなコンピュータプラットフォームのメインメモリを含む。有形送信媒体は、同軸ケーブル、コンピュータシステム内のバスを含むワイヤーを含む、銅線および光ファイバーを含んでいる。搬送波送信媒体は、無線周波(RF)および赤外線(IR)データ通信中に生成されたものなどの、電気信号または電磁気信号、あるいは音波または光波の形態をとり得る。それゆえ、コンピュータ可読媒体の共通の形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、DVD、あるいはDVD-ROM、他の光学媒体、パンチカード、紙テープ、穴のパターンを備えた他の物理記憶媒体、RAM、ROM、PROM、およびEPROM、FLASH(登録商標)-EPROM、他のメモリーチップあるいはカートリッジ、データもしくは命令を運ぶ搬送波、そのような搬送波を運ぶケーブルあるいはリンク、あるいはコンピュータがプログラミングコードおよび/またはデータを読むことができる他の媒体が挙げられる。コンピュータ可読媒体のこれらの形態の多くは、実行のためにプロセッサに1つ以上の命令の1つ以上のシーケンスを運ぶことに関与し得る。
【0224】
コンピュータシステム(501)は、例えば、核酸配列、濃縮された核酸試料、発現プロファイル、および発現プロファイルの分析を提供するためのユーザーインターフェース(UI)(540)を含む電子ディスプレイ(135)を含み得るか、またはそれと通信状態にあり得る。UIの例としては、限定されないが、グラフィカルユーザーインターフェース(GUI)およびウェブベースのユーザーインターフェースが挙げられる。
【0225】
本開示の方法とシステムは、1つ以上のアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置(505)による実行時に、ソフトウェアによって実施することができる。アルゴリズムは、例えば、複数の調節エレメントを探索し、核酸試料を配列決定し、核酸試料を濃縮し、核酸試料の発現プロファイルを決定し、核酸試料の発現プロファイルを分析し、発現プロファイルの分析の結果を記録または広めることができる。
【0226】
いくつかの実施形態では、本明細書に開示される主題は、少なくとも1つのコンピュータプログラム、またはそのコンピュータプログラムの使用を含む。コンピュータプログラムは、デジタル処理装置のCPU、GPU、またはTPUで実行可能であり、特定のタスクを実行するように書き込まれた、一連の指示であり得る。コンピュータ読み取り可能な命令は、特定のタスクを行うか、または特定の抽出データタイプを実行する、機能、オブジェクト、アプリケーションプログラミングインターフェース(API)、データ構造などのプログラムモジュールとして実行され得る。本明細書で提供される開示を考慮すると、当業者は、コンピュータプログラムが様々な言語の様々なバージョンで書き込まれ得ることを認識するであろう。
【0227】
コンピュータ読み取り可能命令の機能性は、様々な環境の必要に応じて、組み合わせられ得るか、または分配され得る。いくつかの実施形態では、コンピュータプログラムは1つのシーケンスの命令を含み得る。いくつかの実施形態では、コンピュータプログラムは複数のシーケンスの命令を含み得る。いくつかの実施形態では、コンピュータプログラムは1つの位置から提供され得る。いくつかの実施形態では、コンピュータプログラムは複数の位置から提供され得る。いくつかの実施形態では、コンピュータプログラムは1以上のソフトウェアモジュールを含み得る。いくつかの実施形態では、コンピュータプログラムは、一部または全体として、1つ以上のウェブアプリケーション、1つ以上のモバイルアプリケーション、1つ以上のスタンドアロンアプリケーション、1つ以上のウェブブラウザプラグイン、拡張、アドイン、またはアドオン、あるいはそれらの組み合わせを含み得る。
【0228】
いくつかの実施形態では、コンピュータ処理は、統計学、数学、生物学、またはそれらの任意の組み合わせの方法であり得る。いくつかの実施形態では、コンピュータ処理方法は、例えば、ロジスティク回帰、次元削減、主成分分析、オートエンコーダ、特異値分解、フーリエ基底、特異値分解、ウェーブレット、判別分析、サポートベクターマシン、ツリーベース方法、ランダムフォレスト、勾配ブーストツリー、ロジスティク回帰、行列因子分解、ネットワーククラスタリング、ニューラルネットワークを含む、次元削減法を含む。
【0229】
いくつかの実施形態では、コンピュータ処理方法は、例えば、回帰、サポートベクターマシン、ツリーベース方法、およびネットワークを含む、教師あり機械学習法である。
【0230】
いくつかの実施形態では、コンピュータ処理方法は、例えば、クラスタリング、ネットワーク、主成分分析、および行列因子分解を含む、教師なし機械学習法である。
【0231】
G.データベース
いくつかの実施形態では、本明細書に開示される主題は、患者データ、生物学データ、生物学的配列、あるいは基準配列を保存するための、1つ以上データベース、またはその使用を含む。基準配列はデータベースから導き出すことができる。本明細書で提供される開示を考慮すると、当業者は、多くのデータベースが配列情報の保存および検索に適していることを認識するだろう。いくつかの実施形態では、適切なデータベースは、例えば、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、実体関連モデルデータベース、連想データベース、およびXMLデータベースを含み得る。いくつかの実施形態では、データベースはインターネットベースであり得る。いくつかの実施形態では、データベースはウェブベースであり得る。いくつかの実施形態では、データベースは、クラウドコンピューティングベースであり得る。いくつかの実施形態では、データベースは、1つ以上のローカルコンピュータ記憶装置ベースであり得る。
【0232】
V.癌の診断および検出
本明細書に記載される訓練された機械学習法、モデル、および識別分類子は、癌の検出、診断、ならびに処置応答性を含む様々な医療用途に有用である。モデルが個々のメタデータおよび分析由来の特徴を用いて訓練されると、その用途は、集団中の個体を階層化し、それに応じて処置の決定を導くように適合され得る。
【0233】
A.診断
本明細書で提供される方法およびシステムは、癌(例えば、CRC)を抱える被験体の診断のアウトプットを生成するために、被験体(患者)から得たデータを分析するべく、人工知能ベースのアプローチを使用して予測分析を実施することができる。例えば、癌を抱える被験体の診断を生成するために、その用途は、得られたデータに予測アルゴリズムを適用することができる。予測アルゴリズムは、癌を抱える被験体の診断を生成するために、得られたデータを処理するように構成された、機械学習ベースの予測因子などの人工知能ベースの予測因子を含み得る。
【0234】
機械学習予測因子は、機械学習予測因子に対するインプットとしての癌患者のコホートと、アウトプットとしての被験体の既知の診断(例えば、ステージ分類および/または腫瘍の割合)の結果との1つ以上のセットから得たデータセット、例えば、個体の生体試料のマルチ分析アッセイの実施により生成されたデータセットを使用して、訓練され得る。
【0235】
データセット(例えば、個体の生体試料のマルチ分析アッセイの実施により生成されたデータセット)の訓練は、例えば、共通の特性(特徴)および結果(標識)を有する被験体の1つ以上のセットから生成され得る。データセットの訓練は、診断に関連する特徴に対応する1セットの特徴および標識を含み得る。特徴は、例えば、cfDNAアッセイ測定のある範囲あるいはカテゴリー、例えば、基準ゲノムの1組のビン(ゲノムウィンドウ)の各々に重複するか、またはその範囲に入る健康な試料と病気の試料から得られた生体試料中のcfDNA断片数などの特性を含み得る。例えば、所定の時点に所与の被験体から集められた1組の特徴は、診断シグネチャーとして集団的に機能し得、所与の時点で上記被験体の同定された癌を示し得る。特性は、1つ以上の癌についてなど、被験体の診断結果を示す標識も含み得る。
【0236】
標識は、例えば、被験体の既知の診断(例えば、ステージ分類および/または腫瘍の割合)結果などのアウトカムを含み得る。アウトカムには、被験体における癌に関連した特性が含まれ得る。例えば、特性は、被験体が1つ以上の癌を患うことを示し得る。
【0237】
訓練セット(例えば、訓練データセット)は、1セット以上の被検体(例えば、1つ以上の癌を抱えているか、あるいは抱えていない患者の後向きコホートおよび/または前向きコホート)に対応する1セットのデータの無作為抽出によって選択され得る。あるいは、訓練セット(例えば、訓練データセット)は、1セット以上の被験体(例えば、1つ以上の癌を抱えているか、あるいは抱えていない、患者の後向きコホートおよび/または前向きコホート)に対応する1セットのデータの比例抽出によって選択され得る。訓練セットは、被験体(例えば、様々な臨床施設または治験からの患者)の1つ以上のセットに対応するデータの複数のセットにわたって平衡が保たれ得る。診断精度の測定値に対応する最小目標値を有しているなどの、精度またはパフォーマンスについてあらかじめ定義された条件が満たされるまで、機会学習予測因子が訓練される場合がある。例えば、診断精度の測定値は、被験体の1つ以上の癌の診断、ステージ分類、または腫瘍の割合の予測に対応し得る。
【0238】
診断精度の測定値の例としては、癌(例えば、大腸癌)を検出または予測する診断精度に対応する感度、特異性、陽性的中率(PPV)、陰性的中率(NPV)、精度、およびROC曲線の曲線下面積(AUC)が挙げられ得る。
【0239】
他の態様では、本開示は、被験体の癌を同定するための方法を提供し、上記方法は、(a)前記被験体由来の無細胞核酸(cfNA)分子を含む生体試料を提供する工程と、(b)複数のcfNAシーケンシングリードを生成するために、前記被験体由来の前記cfNA分子をメチル化配列決定する工程と、(c)前記複数のcfNAシーケンシングリードを基準ゲノムにアライメントする工程と、(d)第1のcfNA特徴セットを生成するために、前記基準ゲノムの第1の複数のゲノム領域の各々で、前記複数のcfNAシーケンシングリードの定量的測度を生成する工程であって、ここで、前記基準ゲノムの前記第1の複数のゲノム領域は、少なくとも約10の異なる領域(前記少なくとも約10の異なる領域の各々)を含む、工程と、(e)前記被験体が癌を有する可能性を生成するために、訓練されたアルゴリズムを前記第1のcfNA特徴セットに適用する工程と、を含む。
【0240】
例えば、そのようなあらかじめ定義された条件とは、癌(例えば、大腸癌、乳癌、膵臓癌、あるいは肝臓癌)を予測する感度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0241】
別の例として、そのようなあらかじめ定義された条件とは、癌(例えば、大腸癌、乳癌、膵臓癌、あるいは肝臓癌)を予測する特異性が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであり得る。
【0242】
別の例として、そのようなあらかじめ定義された条件とは、癌(例えば、大腸癌、乳癌、膵臓癌、あるいは肝臓癌)を予測する陽性的中率(PPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、あるいは少なくとも約99%の値を含むことであり得る。
【0243】
別の例として、そのようなあらかじめ定義された条件とは、癌(例えば、大腸癌、乳癌、膵臓癌、あるいは肝臓癌)を予測する陰性的中率(NPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、あるいは少なくとも約99%の値を含むことであり得る。
【0244】
別の例として、そのようなあらかじめ定義された条件は、癌(例えば、大腸癌、乳癌、膵臓癌、あるいは肝臓癌)を予測するROC曲線のAUCが、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99の値を含むことであり得る。
【0245】
前述の態様のいずれかのいくつかの例では、方法は、被験体の疾患の進行をモニタリングする工程をさらに含み、ここで、上記モニタリングする工程は、遺伝子配列の特徴に少なくとも部分的に基づく。いくつかの例では、上記疾患は癌である。
【0246】
前述の態様のいずれかのいくつかの例では、方法は、被験体の癌の組織起源を決定する工程をさらに含み、ここで、上記決定する工程は、遺伝子配列の特徴に少なくとも部分的に基づく。
【0247】
前述の態様のいずれかのいくつかの例では、方法は、被験体の腫瘍量を推定する工程をさらに含み、ここで、上記推定する工程は、遺伝子配列の特徴に少なくとも部分的に基づく。
【0248】
B.処置応答性
本明細書に記載される予測的な分類子、システム、および方法は、多くの臨床用途(例えば、個体の生体試料のマルチ分析アッセイの実施に基づいた)のために、個体の集団を分類するのに有用である。そのような臨床用途の例としては、早期癌を検出すること、癌を診断すること、疾患の特定の段階に癌を分類すること、または、癌を処置するための治療剤に対する応答性あるいは耐性を決定することが挙げられる。
【0249】
本明細書に記載される方法およびシステムは、グレードおよび段階と同様に様々な癌型に適用可能であり、それゆえ、単一の癌疾患型に制限されない。したがって、分析とアッセイの組み合わせは、様々な組織中の様々な癌型にわたって癌治療法の応答性を予測し、処置応答性に基づいて個体を分類するために、本システムおよび方法で使用され得る。一実施例では、本明細書に記載される分類子は、個体の群を処置の応答者と非応答者に階層化する。
【0250】
本開示は、対象の疾病または疾患の薬物標的(例えば、特定のクラスに関連する/重要な遺伝子)を決定するための方法をさらに提供し、上記方法は、少なくとも1つの遺伝子の遺伝子発現レベルについて個体から得られた試料を評価する工程と、上記試料の分類に関連する遺伝子を決定し、それにより、分類に関連する1つ以上の薬物標的を確かめるために、近接性分析ルーチンを使用する工程と、を含む。
【0251】
本開示は、疾患クラスを処置するように設計される薬物の有効性を決定するための方法をさらに提供し、上記方法は、上記疾患クラスを有する個体から試料を得る工程と、上記試料を上記薬物に曝露させる工程と、少なくとも1つの遺伝子の遺伝子発現レベルについて、上記薬物に曝露された試料を評価する工程と、モデルの相対的な遺伝子発現レベルに対する上記試料の相対的な遺伝子発現レベルに応じて、薬物に露出された試料を上記疾患クラスに分類するために、重み付き投票スキームを用いて構築されたコンピュータモデルを使用する工程と、を含む。
【0252】
本開示は、疾患クラスを処置するように設計された薬物の有効性を決定するための方法をさらに提供し、ここで、個体は上記薬物に曝露されており、上記方法は、上記薬物にさらされた個体から試料を得る工程と、少なくとも1つの遺伝子の遺伝子発現レベルについて上記試料を評価する工程と、上記試料を上記疾患クラスに分類するために、重み付き投票スキームを用いて構築されたモデルを使用する工程であって、前記使用は、モデルの遺伝子発現レベルと比較して上記試料の遺伝子発現レベルを評価することを含む、工程と、を含む。
【0253】
しかし、別の用途は、個体が表現型クラス(例えば、知能、処置に対する応答、長命、ウイルス感染の可能性、または肥満)に属するかどうかを決定する方法であり、上記方法は、上記個体から試料を得る工程と、少なくとも1つの遺伝子の遺伝子発現レベルについて上記試料を評価する工程と、モデルの遺伝子発現レベルと比較して、上記試料の遺伝子発現レベルを評価することを含む、疾患クラスに上記試料を分類するために、重み付き投票スキームを用いて構築されたモデルを使用する工程と、を含む。
【0254】
バイオマーカーは、大腸癌患者の予後を予測するのに有用であり得る。高リスク(予後不良)または低リスク(良好な予後)として患者を分類する能力により、これらの患者に適切な治療を選択することが可能になる。例えば、高リスク患者は積極的治療から利益を得る可能性があるが、低リスク患者にとっては、治療は有意な利点がない可能性がある。
【0255】
特定の癌治療への「例外的な応答者」である可能性がある患者のサブセット、または代替的治療法から利益を得る可能性がある個体のサブセットを同定することにより、処置決定を導くことができる予測的なバイオマーカーがある。
【0256】
一態様では、処置応答性に基づいた集団の分類に関する本明細書に記載されるシステムおよび方法は、クラスDNA損傷剤の化学療法剤、DNA修復標的治療、DNA損傷シグナル伝達の阻害剤、DNA損傷誘発性細胞周期停止の阻害剤、およびDNA損傷に間接的につながるプロセスの阻害により処置される癌を指すが、これらのクラスに限定されない。これらの化学療法剤の各々は、「DNA損傷治療剤」と考えられ得る。
【0257】
患者の分析物データは、臨床的再発のリスクが高いまたはリスクが低い患者など、高リスクおよび低リスクの患者群に分類され、その結果は治療方針を決定するために使用され得る。例えば、高リスク患者であると決定された患者は、手術後にアジュバント化学療法により治療されることがある。低リスクの患者であるとみなされる患者の場合、アジュバント化学療法は手術後に控えられることがある。したがって、本開示は、ある態様では、再発リスクを示す大腸癌腫瘍の遺伝子発現プロファイルを調製するための方法を提供する。
【0258】
様々な例では、本明細書に記載される分類子は、処置への応答者と非応答者の間で個体の集団を階層化する。
【0259】
様々な例では、処置は、アルキル化剤、植物アルカロイド、抗腫瘍抗生物質、代謝拮抗薬、トポイソメラーゼ阻害剤、レチノイド、チェックポイント阻害剤治療、およびVEGF阻害剤から選択される。
【0260】
集団が応答者と非応答者に階層化され得る処置の例としては、限定されないが、ソラフェニブ、レゴラフェニブ、イマチニブ、エリブリン、ゲムシタビン、カペシタビン、パゾパニブ、ラパチニブ、ダブラフェニブ、スニチニブリンゴ酸塩、クリゾチニブ、エベロリムス、トリシロリムス(torisirolimus)、シロリムス、アキシチニブ、ゲフィチニブ、アナストロゾール、ビカルタミド、フルベストラント、ラルチトレキセド(ralitrexed)、ペメトレキセド、ゴセレリン酢酸塩、エルロチニブ、ベムラフェニブ、ビスモデギブ、クエン酸タモキシフェン、パクリタキセル、ドセタキセル、カバジタキセル、オキサリプラチン、ziv-アフリベルセプト(aflibercept)、ベバシズマブ、トラスツズマブ、ペルツズマブ、パニツムマブ、タキサン、ブレオマイシン、メルファレン(melphalen)、プルムバギン、camptosar、マイトマイシンC、ミトキサントロン、ポリ(スチレンマレイン酸)結合ネオカルチノスタチン(SMANCS)、ドキソルビシン、ペグ化ドキソルビシン、FOLFORI、5-フルオロウラシルテモゾロミド、パシレオチド、テガフール、ギメラシル、オテラシ(oteraci)、イトラコナゾール、ボルテゾミブ、レナリドミド、イリノテカン、エピルビシン、ロミデプシン、レスミノスタット、タスキニモド(tasquinimod)、レファメチニブ、ラパチニブ、タイバーブ(登録商標)、Arenegyr、NGR-TNF、パシレオチド、シグニフォー(登録商標)、チシリムマブ、トレメリムマブ、ランソプラゾール、PrevOnco(登録商標)、ABT-869、リニファニブ、vorolanib、チバンチニブ、タルセバ(登録商標)、エルロチニブ、スチバーガ(登録商標)、レゴラフェニブ、フルオロ-ソラフェニブ、ブリバニブ、リポソームドキソルビシン、レンバチニブ、ラムシルマブ、ペレチノイン、Ruchiko、ムパルホスタット(muparfostat)、Teysuno(登録商標)、テガフール、ギメラシル、オテラシル、およびorantinibを含む、化学療法剤、および、アレムツズマブ、アテゾリズマブ、イピリムマブ、ニボルマブ、オファツムマブ、ペンブロリズマブ、またはリツキシマブを含む抗体療法が挙げられる。
【0261】
他の例では、集団は、PD-1またはCTLA4に結合する化合物などのチェックポイント阻害剤治療に対する応答者と非応答者に階層化される場合がある。
【0262】
他の例では、集団は、VEGF経路標的に結合する抗VEGF治療の応答者と非応答者に階層化される場合がある。
【0263】
VI.適応症
いくつかの例では、生物学的状態は疾患を含み得る。いくつかの例では、生物学的状態は病期であり得る。いくつかの例では、生物学的状態は生体状態の徐々の変化であり得る。いくつかの例では、生物学的状態は治療効果であり得る。いくつかの例では、生物学的状態は薬物効果であり得る。いくつかの例では、生物学的状態は外科的効果であり得る。いくつかの例では、生物学的状態は、生活様式改善後の生体状態であり得る。生活様式改善の非限定的な例としては、食事の変化、喫煙の変化、および睡眠パターンの変化が挙げられる。いくつかの例では、生物学的状態は未知である。本明細書に記載される分析には、未知の生物学的状態を推論するか、または未知の生物学的状態を解釈するために機会学習が含まれ得る。
【0264】
一例では、本システムおよび方法は、結腸癌、すなわち、結腸(大腸で最も長い部分)の組織に生じる癌に関連する用途にとりわけ有用である。ほとんどの結腸癌は、腺癌(線状の内臓を作り、腺のような性質を有する細胞で始まる癌)である。癌の進行は、身体中の癌のステージあるいは程度によって特徴付けられる。ステージ分類は通常、腫瘍のサイズ、リンパ節が癌を含有するかどうか、および、上記癌が最初に発生した部位から身体の他の部分まで広がっているかどうかに基づく。結腸癌のステージには、ステージI、ステージII、ステージIII、およびステージIVが含まれる。別段の定めがない限り、「結腸癌」との用語は、ステージ0、ステージI、ステージII(ステージIIAあるいはIIBを含む)、ステージIII(ステージIIIA、IIIB、あるいはIIICを含む)、またはステージIVの結腸癌を指す。本明細書に記載されるいくつかの例では、結腸癌は任意のステージのものである。いくつかの例では、結腸癌は、ステージIの大腸癌である。いくつかの例では、結腸癌は、ステージIIの大腸癌である。いくつかの例では、結腸癌は、ステージIIIの大腸癌である。いくつかの例では、結腸癌は、ステージIVの大腸癌である。
【0265】
開示された方法によって推論することが可能な疾患としては、例えば、癌、腸関連疾患、免疫介在性炎症性疾患、神経系疾患、腎臓病、出生前疾患、および代謝疾患が挙げられる。
【0266】
いくつかの例では、本開示の方法は、癌を診断するために使用され得る。癌の非限定的な例としては、腺腫(腺腫性ポリープ)、広基性鋸歯状腺腫(sessile serrated adenoma)(SSA)、進行性腺腫、大腸癌異形成、大腸腺腫、大腸癌(colorectal cancer)、結腸癌、直腸癌、大腸癌(colorectal carcinoma)、大腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫、および肉腫が挙げられる。
【0267】
開示された方法およびシステムによって推論することが可能な癌の非限定的な例としては、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病(AML)、副腎皮質癌、カポジ肉腫、肛門癌、基底細胞癌、胆管癌、膀胱癌、骨癌、骨肉腫、悪性線維性組織球腫、脳幹神経膠腫、脳癌、頭蓋咽頭腫、上衣芽細胞腫、上衣腫、髄芽腫、髄上皮腫、松果体実質腫瘍、乳癌、気管支腫瘍、バーキットリンパ腫、非ホジキンリンパ腫、カルチノイド腫瘍、子宮頚癌、脊索腫、慢性リンパ性白血病(CLL)、慢性骨髄性白血病(CML)、結腸癌、大腸癌、皮膚T細胞リンパ腫、非浸潤性乳管癌、子宮内膜癌、食道癌、ユーイング肉腫、眼癌、眼球内黒色腫、網膜芽細胞腫、線維性組織球腫、胆嚢癌、胃癌、神経膠腫、ヘアリー細胞白血病、頭頚部癌、心臓癌、肝細胞性(肝臓)癌、ホジキンリンパ腫、下咽頭癌、腎癌、喉頭癌、口唇癌、口腔癌、肺癌、非小細胞癌、黒色腫、口腔癌、骨髄異形成症候群、多発性骨髄腫、髄芽腫、鼻腔癌、副鼻腔癌、神経芽細胞腫、上咽頭癌、口腔癌、口腔咽頭癌、骨肉腫、卵巣癌、膵臓癌、乳頭腫、傍神経節腫、副甲状腺癌、陰茎癌、咽頭癌、下垂体腫瘍、形質細胞腫瘍、前立腺癌、直腸癌、腎細胞癌、横紋筋肉腫、唾液腺癌、セザリー症候群、皮膚癌、小腸癌、軟部組織肉腫、扁平上皮癌、精巣癌、咽頭癌、胸腺腫、甲状腺癌、尿道癌、子宮癌、子宮肉腫、膣癌、外陰癌、ワルデンシュトレームマクログロブリン血症、およびウィルムス腫瘍が挙げられる。
【0268】
開示された方法およびシステムによって推論することが可能な腸関連疾患の非限定的な例としては、クローン病、大腸炎、潰瘍性大腸炎(UC)、炎症性腸疾患(IBD)、過敏性腸症候群(IBS)、およびセリアック病が挙げられる。いくつかの例では、疾患は、炎症性腸疾患、大腸炎、潰瘍性大腸炎、クローン病、顕微鏡的大腸炎、コラーゲン大腸炎、リンパ球性大腸炎、便流変更性大腸炎、ベーチェット病、および潰瘍性大腸炎である。
【0269】
開示された方法およびシステムによって推論することが可能な免疫介在性炎症性疾患の非限定的な例としては、乾癬、サルコイドーシス、関節リウマチ、喘息、鼻炎(枯草熱)、食物アレルギー、湿疹、狼瘡、多発性硬化症、線維筋痛、1型糖尿病、およびライム病が挙げられる。開示された方法およびシステムによって推論することが可能な神経系疾患の非限定的な例としては、パーキンソン病、ハンチントン病、多発性硬化症、アルツハイマー病、脳卒中、癲癇、神経変性、および神経障害が挙げられる。開示された方法およびシステムによって推論することが可能な腎臓病の非限定的な例としては、間質性腎炎、急性腎不全、および腎症が挙げられる。開示された方法およびシステムによって推論することが可能な出生前疾患の非限定的な例としては、ダウン症候群、異数性、二分脊椎、三染色体性、エドワーズ症候群、奇形腫、仙尾部奇形腫(SCT)、脳室拡大、腎非形成、嚢胞性線維症、および胎児水腫が挙げられる。開示された方法およびシステムによって推論することが可能な代謝疾患の非限定的な例としては、シスチン症、ファブリー病、ゴーシェ病、レッシュ-ナイハン症候群、ニーマン・ピック病、フェニルケトン尿症、ポンペ病、テイ・ザックス病が挙げられる。
【0270】
特定の例の特定の詳細は、本発明の開示された例の精神および範囲から逸脱することなく、任意の適切な様式で組み合わせられてもよい。しかし、本発明の他の例は、個々の態様に関する特定の例、またはこれらの個々の態様の特定の組み合わせに向けられ得る。本明細書において言及される特許、特許出願、出版物、および説明はすべて、すべての目的のためにそれら全体が参照によって取り込まれる。
【0271】
VII.キット
本開示は、被験体の癌を同定またはモニタリングするためのキットを提供する。キットは、被験体の無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測度(例えば、存在、非存在、あるいは相対量を示す)を同定するためのプローブを含む。無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測度(例えば、存在、非存在、または相対量を示す)は、1つ以上の癌を示し得る。プローブは、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の配列に対して選択的であり得る。キットには、プローブを使用して上記無細胞の生体試料を処理し、被験体の無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測度を示す(例えば、存在、非存在、または相対量を示す)データセットを生成するための説明書が含まれる。一実施形態では、上記キットは、プライマーセット、PCR反応成分、シーケンシング試薬、破壊性が最小限の変換試薬、およびライブラリ調製試薬を含む。
【0272】
キット中のプローブは、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座における配列に選択的であり得る。キット中のプローブは、複数の癌関連ゲノム遺伝子座に対応する核酸(例えば、RNAまたはDNA)分子を選択的に濃縮するように構成されてもよい。キット中のプローブは、核酸プライマーであってもよい。キット中のプローブは、1つ以上の複数の癌関連ゲノム遺伝子座またはゲノム領域からの核酸配列との配列相補性を有し得る。上記複数の癌関連ゲノム遺伝子座またはゲノム領域は、標的化メチル化配列決定のために同定された少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、またはそれより多くの異なる癌関連ゲノム遺伝子座またはゲノム領域を含み得る。
【0273】
キット中の説明書には、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座における配列に選択的なプローブを使用して、無細胞の生体試料を分析する説明書が含まれる。これらのプローブは、複数の癌関連ゲノム遺伝子座の1つ以上からの核酸配列(例えば、RNAまたはDNA)との配列相補性を有する核酸分子(例えば、RNAまたはDNA)であり得る。これらの核酸分子は、プライマーまたは濃縮配列であり得る。無細胞の生体試料を分析するための説明書には、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測度を示す(例えば、存在、非存在、あるいは相対量を示す)データセットを生成するために、無細胞の生体試料を処理するべく、アレイハイブリダイゼーション、ポリメラーゼ連鎖反応(PCR)、または核酸シーケンシング(例えば、DNAシーケンシング、あるいはRNAシーケンシング)を実施する導入が含まれ得る。無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測度(例えば、存在、非存在、または相対量を示す)は、1つ以上の癌を示し得る。
【0274】
キット中の説明書には、アッセイ読み取りを測定および解釈する説明書が含まれ、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測度を示す(例えば、存在、非存在、あるいは相対量を示す)データセットを生成するために、複数の癌関連ゲノム遺伝子座の1つ以上で定量化され得る。例えば、複数の癌関連ゲノム遺伝子座に対応するアレイハイブリダイゼーションあるいはポリメラーゼ連鎖反応(PCR)を定量化すると、無細胞の生体試料中の複数の癌関連ゲノム遺伝子座の各々における配列の定量的測度を示す(例えば、存在、非存在、あるいは相対量を示す)データセットを生成することができる。アッセイ読み取りは、定量的PCR(qPCR)値、デジタルPCR(dPCR)値、デジタルドロップレットPCR(ddPCR)値、蛍光値など、または正規化したそれらの値を含み得る。
【実施例】
【0275】
実施例1:標的化EM-seqライブラリの調製および分類子の生成。
【0276】
出発物質:10~200ngの二本鎖DNA。
【0277】
1.DNA調製
酸化前にDNAからEDTAを取り除き、DNA試料は29μlの最終量を有していた。酸化および脱アミノ化を評価するために対照DNAを使用した。Illuminaプラットフォームでの配列決定のために、使用法の推薦事項についてEnzymatic Methyl-seq Kit Manual(NEB #E7120)を参照した。
【0278】
2.アダプターライゲーション
3.5-メチルシトシンおよび5-ヒドロキシメチルシトシンの酸化
TET2緩衝液を調製した。次に、TET2反応物をTET2反応緩衝液補足剤(Reaction Buffer Supplement)を含む1つのチューブに加え、その後、完全に混合した。氷上で、TET2反応緩衝液、酸化補足剤、酸化促進剤、およびTET2酵素をDNA試料に直接添加した。その後、その混合物を、ボルテックスにより完全に混合した。遠心分離機に短時間かけた後に、希釈したFe(II)溶液を、混合物に添加した。その後、その混合物を、ボルテックスすることによって、または上下にピペッティングすることによって完全に混合し、遠心分離機に短時間かけた。次に、その混合物を、サーモサイクラー内で、37℃で1時間インキュベートした。その後、試料を氷に移してから、1μlの停止試薬(黄色)で処置した。次に、その混合物を、ボルテックスすることによって、または上下に少なくとも10回ピペッティングすることによって完全に混合し、遠心分離機に短時間かけた。最後に、その混合物を、サーモサイクラー内で、37℃で30分間、その後、4℃でインキュベートした。
【0279】
4.TET2変換されたDNAのクリーンアップ
試料精製ビーズをボルテックスにより再懸濁した。次に、NEBNext試料精製ビーズを各試料に添加し、その後、上下にピペッティングすることによって完全に混合した。試料を、室温で少なくとも5分間ベンチトップ上でインキュベートした。その後、複数のチューブを適切な磁気スタンドに立て置き、上清からビーズを分離した。5分後(または、溶液が透明になると)、DNA標的を含有するビーズを妨げないように上清を注意深く除去し、廃棄した。磁気スタンドに置いたまま、新たに調製した80%のエタノールを、上記複数のチューブの各々に添加した。試料を室温で30秒間インキュベートしてから、上清を注意深く除去し、廃棄した。洗浄を1回繰り返し、合計2回の洗浄を行った。p10ピペットチップを使用して2回目の洗浄を行った後、目に見える液体をすべて除去した。その後、蓋を開けた状態でチューブを磁気スタンドに置いたまま、ビーズを2分間風乾させた。その後、チューブを磁気スタンドから取り外した。溶出緩衝液を用いてDNAをビーズから溶出した。溶出緩衝液をチューブの各々に添加し、上下に10回ピペッティングすることにより完全に混合した。その後、試料を室温で少なくとも1分間インキュベートした。必要に応じて、チューブを磁気スタンドに戻す前に、試料を遠心分離機に短時間かけてチューブの側面から液体を集めた。その後、チューブを磁気スタンドに戻した。3分間後(または、溶液が透明になるといつでも)、上清から溶出したDNAを新しいPCRチューブに移した。
【0280】
5.DNAの変性
シトシンの脱アミノ化の前に、ホルムアミドまたは0.1Nの水酸化ナトリウムのいずれかを使用してDNAを変性した。
【0281】
6.シトシンの脱アミノ化
氷上で、APOBEC反応緩衝液、BSA、およびAPOBECを変性DNAに添加した。その後、遠心分離機に短時間かける前に、混合物を、ボルテックスすることによって、または、上下に少なくとも10回ピペッティングすることによって完全に混合した。その後、上記混合物をサーモサイクラー内で、37℃で3時間、その後、4℃でインキュベートした。
【0282】
7.脱アミノ化したDNAのクリーンアップ
試料精製ビーズを、ボルテックスにより再懸濁した。次に、100μlの再懸濁したNEBNext試料精製ビーズを各試料に添加し、その後、上下に少なくとも10回ピペッティングすることにより完全に混合した。最後の混合中に、すべての液体をチップから注意深く排出した。その後、試料を、室温で、少なくとも5分間ベンチトップ上でインキュベートした。5分後(または、溶液が透明になると)、上清を注意深く除去し、廃棄した。磁気スタンドに置いたまま、新たに調製した80%のエタノールを上記チューブに添加した。その後、試料を室温で30秒間インキュベートしてから、上清を注意深く除去し、廃棄した。洗浄を1回繰り返し、合計2回の洗浄を行った。次に、蓋を開けた状態でチューブを磁気スタンドに置いたまま、ビーズを90秒間風乾させた。その後、溶出緩衝液を用いて、DNA標的をビーズから溶出した。溶出緩衝液をチューブの各々に添加し、上下に10回ピペッティングすることにより完全に混合した。試料を室温で少なくとも1分間インキュベートした。必要に応じて、チューブを磁気スタンドに戻す前に、試料を遠心分離機に短時間かけてチューブの側面から液体を集めた。その後、チューブを磁気スタンドに戻した。3分間後(または、溶液が透明になるといつでも)、上清中の溶出したDNA標的を新しいPCRチューブに移した。
【0283】
8.多重増幅および標的化されたメチル化分類
ゲノムのあらかじめ同定された領域の標的化されたメチル化分析を可能にするために、従来のツールを用いたアライメントおよびメチル化コールのために、生データファイルを使用した。酵素変換DNAの全ゲノム増幅を実行した。酵素変換ライブラリに対して標的濃縮を実施し、5’-ビオチン化キャプチャプローブを使用して、標的CpG部位を含有するあらかじめ同定されたDNA断片を特異的にプルダウンした。Illumina TruSightVR Rapid Capture Kitを使用して、ハイブリッド選択を実施した。ハイブリダイゼーション工程において、濃縮ハイブリダイゼーション緩衝液の代わりにキャプチャ標的緩衝液3(Illumina)を使用した。ハイブリダイゼーション後、捕捉されたDNA断片を、14のPCRサイクルで増幅した。標的キャプチャライブラリを、4~5つの試料がラピッドランモードにある2x100サイクルランを使用して、Illumina HiSeqVR 2500シーケンサー上で配列決定した。酵素的シーケンシングライブラリに10%のPhiXをスパイクすることで、塩基の多様性を高め、配列決定の品質を向上させた。
【0284】
従来方式を使用して、FASTQファイルを基準ゲノムにマッピングし、メチル化スコアを計算して疾患分類を行った。健康、疾患、疾患状態、および処置の応答性に関連する1組のCpG部位を含む特徴データ(Featurized data)を機械学習モデルに入力し、集団中の個体を階層化する分類子を特定した。
【0285】
実施例2:変換抵抗シーケンシングアダプター/プライマーのシステムを用いた標的化EM-seq
既知の配列の同定されたアダプターを、未知の配列を有する試料中のDNA分子の末端にライゲーションした。その後、既知のアダプターに対応する単一の組のプライマーを使用して、様々な分子の全ライブラリをPCR増幅するために、上記アダプターを使用した。後の配列決定反応中に、ライゲーションされたアダプター配列を、シーケンシングプライマーの結合部位としてさらに使用した。デュプレックスシーケンシングによって提供されるデータを利用するために、UMI(unique molecular identifiers)を有する部分的に二本鎖のアダプターを、二本鎖DNAにライゲーションした。
【0286】
酸化効率に対するEM-Seqのデュプレックスシーケンシングの堅牢性を改善する(およびコストを削減する)ために、変換抵抗アダプターを使用して、シーケンシングライブラリ品質の一貫性を高めることができる。変換抵抗アダプターは、未修飾の塩基のみを含有しており、アダプターの全塩基変換を可能にする。変換抵抗アダプターの一例が
図4のパネルAに示される。
【0287】
変換がない場合、これらの変換抵抗アダプターを用いて生成されたシーケンシングライブラリを、もとのアダプター配列と一致する1組のPCRとシーケンシングプライマーを用いて、増幅および配列決定することができる。変換がある場合、
図4のパネルBに示されるような変換アダプター配列と一致するPCRとシーケンシングプライマーとを用いて、シーケンシングライブラリを増幅および配列決定することができる。
【0288】
変換抵抗アダプター、PCRプライマー、およびシーケンシングプライマーの1つの機能例セットを試験した(
図6)。変換抵抗アダプターまたは5mC含有アダプターのいずれかを用いて生成したライブラリのシーケンシングライブラリ収率が示される。TET媒介性酸化工程を実施しなかったため、すべてのCおよび5mCは、CからUへの変換に影響されやすかった。5mC含有アダプターシステムは変換なしでより効率的であった一方で、変換抵抗アダプターは、変換特異的PCRプライマーを使用して変換抵抗アダプターシステムを増幅することができるように変換を必要とした。これらの変換特異的PCRプライマーのためのDNA配列が表1に表記される。
【0289】
【0290】
【0291】
本発明の好ましい実施形態が本明細書で示され、記載されてきたが、こうした実施形態がほんの一例として提供されているに過ぎないということは当業者にとって明白である。本発明が、明細書内で提供される特定の例によって限定されることは意図されていない。本発明は前述の明細書に関して記載されているが、本明細書中の実施形態の記載および例示は、限定的な意味で解釈されることを目的としていない。多くの変更、変化、および置換が、本発明から逸脱することなく、当業者には思い浮かぶであろう。さらに、本発明のすべての態様は、様々な条件および変数に依存する、本明細書で説明された特定の描写、構成、または相対的な比率に限定されないことが理解されよう。本明細書に記載される本発明の実施形態の様々な代替案が、本発明の実施に際して利用され得ることを理解されたい。それゆえ、本発明は、任意のそのような代替物、修正物、変形物、または同等物にも及ぶものと企図される。以下の特許請求の範囲は本発明の範囲を定義するものであり、この特許請求の範囲およびその同等物の範囲内の方法ならびに構造は、それにより包含されることが意図されている。
【配列表】
【国際調査報告】