(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023123420
(43)【公開日】2023-09-05
(54)【発明の名称】セルフリーDNAを生じる組織及び/又は細胞タイプを決定する方法、並びにそれを用いて疾患又は異常を識別する方法
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20230829BHJP
C12Q 1/04 20060101ALI20230829BHJP
【FI】
C12Q1/6869 Z
C12Q1/04 ZNA
【審査請求】有
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023082794
(22)【出願日】2023-05-19
(62)【分割の表示】P 2020203304の分割
【原出願日】2015-07-27
(31)【優先権主張番号】62/029,178
(32)【優先日】2014-07-25
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/087,619
(32)【優先日】2014-12-04
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TWEEN
(71)【出願人】
【識別番号】517025822
【氏名又は名称】ユニヴァーシティ オブ ワシントン
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100119013
【弁理士】
【氏名又は名称】山崎 一夫
(74)【代理人】
【識別番号】100123777
【弁理士】
【氏名又は名称】市川 さつき
(74)【代理人】
【識別番号】100111796
【弁理士】
【氏名又は名称】服部 博信
(74)【代理人】
【識別番号】100111501
【弁理士】
【氏名又は名称】滝澤 敏雄
(72)【発明者】
【氏名】シェンデュア ジェイ
(72)【発明者】
【氏名】スナイダー マシュー
(72)【発明者】
【氏名】キルヒャー マーティン
(57)【要約】
【課題】生物学的サンプル中のセルフリーDNA(cfDNA)に寄与する1つ以上の組織及び/又は細胞タイプを決定する方法を提供する。
【解決手段】生物学的サンプルから、複数のcfDNAフラグメントを単離する;当該複数のcfDNAフラグメントの少なくとも一部分に付随する配列を決定する;当該複数のcfDNAフラグメントの少なくともいくつかのcfDNAフラグメント末端の参照ゲノム内のゲノム上の場所を当該cfDNAフラグメント配列の関数として決定する;及び当該cfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の関数として決定する、ことを含む方法。
【選択図】なし
【特許請求の範囲】
【請求項1】
対象者においてセルフリーDNA(cfDNA)を生じる組織及び/又は細胞タイプを決定する方法であって、
当該対象者からの生物学的サンプルからcfDNAを単離する工程であって、当該単離cfDNAが複数のcfDNAフラグメントを含む、前記工程;
当該複数のcfDNAフラグメントの少なくとも一部分に付随する配列を決定する工程;
当該複数のcfDNAフラグメントの少なくともいくつかのcfDNAフラグメント末端の参照ゲノム内におけるゲノム上の場所を、当該cfDNAフラグメント配列の関数として決定する工程;及び
当該cfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の関数として決定する工程を含む、
前記方法。
【請求項2】
cfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを決定する工程が、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所を1つ以上の参照マップと比較する工程を含む、請求項1に記載の方法。
【請求項3】
cfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを決定する工程が、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の分布に関して数学的変換を実施する工程を含む、請求項1又は請求項2に記載の方法。
【請求項4】
数学的変換がフーリエ変換を含む、請求項3に記載の方法。
【請求項5】
参照ゲノムの少なくともいくつかの座標の各々に対するスコアを決定する工程をさらに含み、ここで当該スコアが少なくとも複数のcfDNAフラグメント末端及びそれらのゲノム上の場所の関数として決定され、さらに観察されるcfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつを決定する工程が当該スコアと1つ以上の参照マップを比較する工程を含む、請求項1から4のいずれかに記載の方法。
【請求項6】
座標に関するスコアが、当該座標がcfDNAフラグメント末端の場所である確率を表しているか又は前記確率と関係性がある、請求項5に記載の方法。
【請求項7】
参照マップが、少なくとも1つの細胞タイプ又は組織から作製されたDNase I高感受性サイトデータセットを含む、請求項2から6のいずれか1項に記載の方法。
【請求項8】
参照マップが、少なくとも1つの細胞タイプ又は組織から作製されたRNA発現データセットを含む、請求項2から7のいずれか1項に記載の方法。
【請求項9】
当該参照マップが、ヒト組織又は細胞を異種移植された動物のcfDNAから作製される、請求項2から8のいずれか1項に記載の方法。
【請求項10】
参照マップが、少なくとも1つの細胞タイプ又は組織から作製された染色体コンフォーメーションマップを含む、請求項2から9のいずれか1項に記載の方法。
【請求項11】
参照マップが、少なくとも1つの細胞タイプ又は組織から作製されたクロマチン接近容易性マップを含む、請求項2から10のいずれか1項に記載の方法。
【請求項12】
参照マップが、少なくとも1人の参照対象者から入手されるサンプルから得られる配列データを含む、請求項2から11のいずれか1項に記載の方法。
【請求項13】
参照マップが、疾患又は異常に付随する少なくとも1つの細胞タイプ又は組織に対応する、請求項2から12のいずれか1項に記載の方法。
【請求項14】
参照マップが、組織又は細胞タイプのヌクレオソーム及び/又はクロマトソームの位置又は間隔を含む、請求項2から13のいずれか1項に記載の方法。
【請求項15】
参照マップが、少なくとも1つの細胞タイプ又は組織から入手されたクロマチンを外因性ヌクレアーゼ(例えばマイクロコッカスヌクレアーゼ)で消化することによって作製される、請求項2から14のいずれか1項に記載の方法。
【請求項16】
参照マップが、転移による方法(例えばATAC-seq)によって決定されたクロマチン接近容易性データを含む、請求項2から15のいずれか1項に記載の方法。
【請求項17】
参照マップが、ある組織又は細胞タイプのDNA結合及び/又はDNA占拠タンパク質の位置と結びついたデータを含む、請求項2から16のいずれか1項に記載の方法。
【請求項18】
DNA結合及び/又はDNA占拠タンパク質が転写因子である、請求項17に記載の方法。
【請求項19】
位置が、架橋DNA-タンパク質複合体のクロマチン免疫沈澱によって決定される、請求項17又は請求項18に記載の方法。
【請求項20】
位置が、当該組織又は細胞タイプに付随するDNAをヌクレアーゼ(例えばDNase-I)で処理することによって決定される、請求項17又は請求項18に記載の方法。
【請求項21】
参照マップが、ある組織又は細胞タイプにおけるヌクレオソーム、クロマトソーム、又は他のDNA結合若しくはDNA占拠タンパク質の位置又は間隔に関連する生物学的特徴を含む、請求項2から20のいずれか1項に記載の方法。
【請求項22】
生物学的特徴が1つ以上の遺伝子の定量的発現である、請求項21に記載の方法。
【請求項23】
生物学的特徴が1つ以上のヒストンマークの有無である、請求項21又は請求項22に記載の方法。
【請求項24】
生物学的特徴がヌクレアーゼ切断に対する高感受性である、請求項21から23のいずれか1項に記載の方法。
【請求項25】
参照マップを作製するために用いられる組織又は細胞タイプが、疾患又は異常を有する対象者の一次組織である、請求項2から24のいずれか1項に記載の方法。
【請求項26】
疾患又は異常が、癌、正常妊娠、妊娠(例えば異数性妊娠)の合併症、心筋梗塞、炎症性腸疾患、全身性自己免疫疾患、局所性自己免疫疾患、拒絶を伴う同種間移植、拒絶を伴わない同種間移植、卒中、及び局在性組織損傷から成る群から選択される、請求項25に記載の方法。
【請求項27】
参照マップを作製するために用いられる組織又は細胞タイプが、健康な対象者の一次組織である、請求項2から24のいずれか1項に記載の方法。
【請求項28】
参照マップを作製するために用いられる組織又は細胞タイプが不死化細胞株である、請求項2から24のいずれか1項に記載の方法。
【請求項29】
参照マップを作製するために用いられる組織又は細胞タイプが腫瘍の生検である、請求項2から24のいずれか1項に記載の方法。
【請求項30】
配列データがcfDNAフラグメント末端の位置を含む、請求項12に記載の方法。
【請求項31】
参照対象者が健康である、請求項30に記載の方法。
【請求項32】
参照対象者が疾患又は異常を有する、請求項30に記載の方法。
【請求項33】
疾患又は異常が、癌、正常妊娠、妊娠(例えば異数性妊娠)の合併症、心筋梗塞、炎症性腸疾患、全身性自己免疫疾患、局所性自己免疫疾患、拒絶を伴う同種間移植、拒絶を伴わない同種間移植、卒中、及び局在性組織損傷から成る群から選択される、請求項32に記載の方法。
【請求項34】
参照マップが、組織又は細胞タイプに付随する参照ゲノムの座標の少なくとも一部分に対する参照スコアを含む、請求項13から33のいずれか1項に記載の方法。
【請求項35】
参照マップがスコアの数学的変換を含む、請求項34に記載の方法。
【請求項36】
スコアが、組織又は細胞タイプの全ての参照ゲノム座標のサブセットを表す、請求項34に記載の方法。
【請求項37】
サブセットがヌクレオソーム及び/又はクロマトソームの位置又は間隔と結びついている、請求項36に記載の方法。
【請求項38】
サブセットが転写開始サイト及び/又は転写終了サイトと結びついている、請求項36又は請求項37に記載の方法。
【請求項39】
サブセットが少なくとも1つの転写因子の結合サイトと結びついている、請求項36から38のいずれか1項に記載の方法。
【請求項40】
サブセットがヌクレアーゼ高感受性サイトと結びついている、請求項36から39のいずれか1項に記載の方法。
【請求項41】
サブセットが、さらに加えて少なくとも1つのオルトゴナルな生物学的特徴と結びついている、請求項36から40のいずれか1項に記載の方法。
【請求項42】
オルトゴナルな生物学的特徴が高発現遺伝子に付随する、請求項41に記載の方法。
【請求項43】
オルトゴナルな生物学的特徴が低発現遺伝子に付随する、請求項41に記載の方法。
【請求項44】
数学的変換がフーリエ変換を含む、請求項35から43のいずれか1項に記載の方法。
【請求項45】
複数のスコアの少なくとも1つのサブセットが閾値を超えるスコアを有する、請求項5から44のいずれか1項に記載の方法。
【請求項46】
cfDNAを生じる組織及び/又は細胞タイプを、当該cfDNAフラグメント末端の少なくともいくつかの複数のゲノム上の場所の関数として決定する工程が、当該cfDNAフラグメント末端の少なくともいくつかの複数のゲノム上の場所のフーリエ変換、又はその数学的変換を、参照マップと比較する工程を含む、請求項1から45のいずれか1項に記載の方法。
【請求項47】
単離cfDNAを生じると決定された組織及び/又は細胞タイプの一覧を含む報告を作製する工程をさらに含む、請求項1から46のいずれか1項に記載の方法。
【請求項48】
対象者における疾患又は異常を識別する方法であって、
当該対象者からの生物学的サンプルからセルフリーDNA(cfDNA)を単離する工程であって、当該単離cfDNAが複数のcfDNAフラグメントを含む、前記工程;
当該複数のcfDNAフラグメントの少なくとも一部分に付随する配列を決定する工程;
当該複数のcfDNAフラグメントの少なくともいくつかのcfDNAフラグメント末端に対する参照ゲノム内のゲノム上の場所を当該cfDNAフラグメント配列の関数として決定する工程;当該cfDNAを生じる組織及び/又は細胞タイプの少なくともいくつかを、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の関数として決定する工程;及び
当該疾患又は異常を、当該cfDNAを生じると決定された組織及び/又は細胞タイプの関数と認定する工程を含む、
前記方法。
【請求項49】
cfDNAフラグメントを生じる組織及び/又は細胞タイプを決定する工程が、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所を1つ以上の参照マップと比較する工程を含む、請求項48に記載の方法。
【請求項50】
cfDNAフラグメントを生じる組織及び/又は細胞タイプを決定する工程が、複数のcfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の分布に関して数学的変換を実施する工程を含む、請求項48又は請求項49に記載の方法。
【請求項51】
数学的変換がフーリエ変換を含む、請求項50に記載の方法。
【請求項52】
参照ゲノムの少なくともいくつかの座標の各々に対するスコアを決定する工程をさらに含み、当該スコアが少なくとも複数のcfDNAフラグメント末端及びそれらのゲノム上の場所の関数として決定され、さらに観察されたcfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつを決定する工程が当該スコアと1つ以上の参照マップを比較する工程を含む、請求項48から51のいずれかに記載の方法。
【請求項53】
座標に対するスコアが、座標がcfDNAフラグメント末端の位置である確率を表しているか又は前記と関係性がある、請求項52に記載の方法。
【請求項54】
参照マップが、DNase I高感受性サイトデータセット、RNA発現データセット、発現データ、染色体コンフォーメーションマップ、クロマチン接近容易性マップ、クロマチン断片化マップ、又は少なくとも1人の参照対象者から入手され、かつある疾患又は異常に付随する少なくとも1つの細胞タイプ又は組織に対応するサンプルから得られる配列データ、及び/又はある組織又は細胞タイプのヌクレオソーム及び/又はクロマトソームの位置又は間隔の取り方を含む、請求項49から53のいずれか1項に記載の方法。
【請求項55】
参照マップが、少なくとも1つの細胞タイプ又は組織のクロマチンを外因性ヌクレアーゼ(例えばマイクロコッカスヌクレアーゼ)で消化することによって作製される、請求項49から54のいずれか1項に記載の方法。
【請求項56】
参照マップが、転移による方法(例えばATAC-seq)を少なくとも1つの細胞タイプ又は組織の核又はクロマチンに適用することによって決定されたクロマチン接近容易性データを含む、請求項54又は請求項55に記載の方法。
【請求項57】
参照マップが、組織又は細胞タイプのDNA結合及び/又はDNA占拠タンパク質の位置と結びついたデータを含む、請求項49から56のいずれか1項に記載の方法。
【請求項58】
DNA結合及び/又はDNA占拠タンパク質が転写因子である、請求項57に記載の方法。
【請求項59】
位置が、架橋DNA-タンパク質複合体のクロマチン免疫沈澱を少なくとも1つの細胞タイプ又は組織に適用することによって決定される、請求項57又は請求項58に記載の方法。
【請求項60】
位置が、組織又は細胞タイプに付随するDNAをヌクレアーゼ(例えばDNase-I)で処理することによって決定される、請求項57又は請求項58に記載の方法。
【請求項61】
当該参照マップが、ある組織又は細胞タイプのヌクレオソーム、クロマトソーム、又は他のDNA結合若しくはDNA占拠タンパク質の位置又は間隔に関連する生物学的特徴を含む、請求項48から60のいずれか1項に記載の方法。
【請求項62】
生物学的特徴が1つ以上の遺伝子の定量的発現である、請求項61に記載の方法。
【請求項63】
生物学的特徴が1つ以上のヒストンマークの有無である、請求項61又は請求項62に記載の方法。
【請求項64】
生物学的特徴がヌクレアーゼ切断に対する高感受性である、請求項61から63のいずれか1項に記載の方法。
【請求項65】
参照マップを作製するために用いられる組織又は細胞タイプが、疾患又は異常を有する対象者の一次組織である、請求項49から64のいずれか1項に記載の方法。
【請求項66】
疾患又は異常が、癌、正常妊娠、妊娠(例えば異数性妊娠)の合併症、心筋梗塞、炎症性腸疾患、全身性自己免疫疾患、局所性自己免疫疾患、拒絶を伴う同種間移植、拒絶を伴わない同種間移植、卒中、及び局在性組織損傷から成る群から選択される、請求項65に記載の方法。
【請求項67】
マップを作製するために用いられる組織又は細胞タイプが、健康な対象者の一次組織である、請求項49から65のいずれか1項に記載の方法。
【請求項68】
参照マップを作製するために用いられる組織又は細胞タイプが不死化細胞株である、請求項49から65のいずれか1項に記載の方法。
【請求項69】
参照マップを作製するために用いられる組織又は細胞タイプが腫瘍の生検である、請求項49から65のいずれか1項に記載の方法。
【請求項70】
少なくとも1人の参照対象者から入手されるサンプルから得られる配列データがcfDNAフラグメント末端の位置の確率を含む、請求項54に記載の方法。
【請求項71】
参照対象者が健康である、請求項70に記載の方法。
【請求項72】
参照対象者が疾患又は異常を有する、請求項70に記載の方法。
【請求項73】
疾患又は異常が、癌、正常妊娠、妊娠(例えば異数性妊娠)の合併症、心筋梗塞、炎症性腸疾患、全身性自己免疫疾患、局所性自己免疫疾患、拒絶を伴う同種間移植、拒絶を伴わない同種間移植、卒中、及び局在性組織損傷から成る群から選択される、請求項72に記載の方法。
【請求項74】
参照マップが、当該組織又は細胞タイプと結びついた参照ゲノムの少なくとも一部分についてcfDNAフラグメント末端確率を含む、請求項54から73のいずれか1項に記載の方法。
【請求項75】
参照マップが当該cfDNAフラグメント末端確率の数学的変換を含む、請求項74に記載の方法。
【請求項76】
cfDNAフラグメント末端確率が、当該組織又は細胞タイプの全ての参照ゲノム座標のサブセットを表す、請求項74に記載の方法。
【請求項77】
サブセットがヌクレオソーム及び/又はクロマトソームの位置又は間隔と結びついている、請求項76に記載の方法。
【請求項78】
サブセットが転写開始サイト及び/又は転写終了サイトと結びついている、請求項76又は請求項77に記載の方法。
【請求項79】
サブセットが少なくとも1つの転写因子の結合サイトと結びついている、請求項76から78のいずれか1項に記載の方法。
【請求項80】
サブセットがヌクレアーゼ高感受性サイトと結びついている、請求項76から79のいずれか1項に記載の方法。
【請求項81】
サブセットが、さらに加えて少なくとも1つのオルトゴナルな生物学的特徴と結びついている、請求項76から80のいずれか1項に記載の方法。
【請求項82】
オルトゴナルな生物学的特徴が高発現遺伝子に付随する、請求項81に記載の方法。
【請求項83】
オルトゴナルな生物学的特徴が低発現遺伝子に付随する、請求項81に記載の方法。
【請求項84】
数学的変換がフーリエ変換を含む、請求項75から83のいずれか1項に記載の方法。
【請求項85】
複数のcfDNAフラグメント末端スコアの少なくとも1つのサブセットが各々閾値を超えるスコアを有する、請求項52から84のいずれか1項に記載の方法。
【請求項86】
cfDNAを生じる組織及び/又は細胞タイプを、当該cfDNAフラグメント末端の少なくともいくつかの複数のゲノム上の場所の関数として決定する工程が、当該cfDNAフラグメント末端の少なくともいくつかの複数のゲノム上の場所のフーリエ変換、又はその数学的変換を参照マップと比較する工程を含む、請求項48から85のいずれか1項に記載の方法。
【請求項87】
参照マップが、疾患又は異常に付随する少なくとも1つの組織に対応するDNA又はクロマチン断片化データを含む、請求項48から86のいずれか1項に記載の方法。
【請求項88】
参照ゲノムがヒトに付随する、請求項48から87のいずれか1項に記載の方法。
【請求項89】
疾患又は異常を識別する記述を含む報告を作製する工程をさらに含む、請求項48から88のいずれか1項に記載の方法。
【請求項90】
報告が、単離cfDNAを生じると決定された組織及び/又は細胞タイプの一覧をさらに含む、請求項89に記載の方法。
【請求項91】
生物学的サンプルが、全血、末梢血血漿、尿又は脳脊髄液を含むか、本質的に前記から成るか、又は前記から成る、請求項1から90のいずれか1項に記載の方法。
【請求項92】
対象者におけるセルフリーDNA(cfDNA)を生じる組織及び/又は細胞タイプを決定する方法であって、
(i)当該対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、並びにcfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップを作製する工程;
(ii)コントロール対象者又は既知疾患を有する対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、cfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップの参照セットを作製する工程;並びに
(iii)当該cfDNAに由来するヌクレオソームマップをヌクレオソームマップの参照セットと比較することによって、当該cfDNAを生じる当該組織及び/又は細胞タイプを決定する工程を含み、
前記(a)、(b)及び(c)が、
(a)ヒトゲノムにおいて任意の特定の塩基対がcfDNAフラグメントの末端に出現する可能性の分布;
(b)ヒトゲノムの塩基対の任意の対がcfDNAフラグメントの末端の対として出現する可能性の分布;及び
(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果としてcfDNAフラグメントに出現する可能性の分布である、
前記方法。
【請求項93】
対象者におけるcfDNAを生じる組織及び/又は細胞タイプを決定する方法であって、
(i)当該対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、並びにcfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップを作製する工程;
(ii)コントロール対象者又は既知疾患を有する対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、マイクロコッカスのヌクレアーゼ(MNase)、DNase処理又はATAC-Seqによるクロマチンの消化から誘導したDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップの参照セットを作製する工程;並びに
(iii)当該cfDNAに由来するヌクレオソームマップをヌクレオソームマップの参照セットと比較することによって、当該cfDNAを生じる当該組織及び/又は細胞タイプを決定する工程を含み、
前記(a)、(b)及び(c)が、
(a)ヒトゲノムにおいて任意の特定の塩基対が配列決定されたフラグメントの末端に出現する可能性の分布;
(b)ヒトゲノムの塩基対の任意の対が配列決定されたフラグメントの末端の対として出現する可能性の分布;及び
(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果として配列決定されたフラグメントに出現する可能性の分布である、
前記方法。
【請求項94】
対象者において臨床症状を診断する方法であって、
(i)当該対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、並びにcfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップを作製する工程;
(ii)コントロール対象者又は既知疾患を有する対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、cfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップの参照セットを作製する工程;並びに
(iii)当該cfDNAに由来するヌクレオソームマップをヌクレオソームマップの参照セットと比較することによって、当該臨床症状を決定する工程を含み、
前記(a)、(b)及び(c)が、
(a)ヒトゲノムにおいて任意の特定の塩基対がcfDNAフラグメントの末端に出現する可能性の分布;
(b)ヒトゲノムの塩基対の任意の対がcfDNAフラグメントの末端の対として出現する可能性の分布;及び
(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果としてcfDNAフラグメントに出現する可能性の分布である、
前記方法。
【請求項95】
対象者において臨床症状を診断する方法であって、
(i)当該対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、並びにcfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップを作製する工程;
(ii)コントロール対象者又は既知疾患を有する対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、マイクロコッカスのヌクレアーゼ(MNase)、DNase処理又はATAC-Seqによるクロマチンの消化から誘導したDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップの参照セットを作製する工程;並びに
(iii)当該cfDNAに由来するヌクレオソームマップをヌクレオソームマップの参照セットと比較することによって、当該cfDNAの供給源組織の組成を決定する工程を含み、
前記(a)、(b)及び(c)が、
(a)ヒトゲノムにおいて任意の特定の塩基対が配列決定されたフラグメントの末端に出現する可能性の分布;
(b)ヒトゲノムの塩基対の任意の対が配列決定されたフラグメントの末端の対として出現する可能性の分布;及び
(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果として配列決定されたフラグメントに出現する可能性の分布である、前記方法。
【請求項96】
ヌクレオソームマップが、
生物学的サンプルから単離されたcfDNAを精製する工程、
アダプター連結及び場合によってPCR増幅によってライブラリーを構築する工程、並びに、
生じたライブラリーを配列決定する工程、
によって作製される、請求項92-95のいずれか1項に記載の方法。
【請求項97】
ヌクレオソームマップの参照セットが、
コントロール対象者の生物学的サンプルから単離されたcfDNAを精製する工程、
アダプター連結及び場合によってPCR増幅によってライブラリーを構築する工程、並びに、
生じたライブラリーを配列決定する工程、
によって作製される、請求項92-95のいずれか1項に記載の方法。
【請求項98】
分布(a)、(b)若しくは(c)又はこれらの分布の1つの数学的変換を連続ウインドウでフーリエ変換に付し、続いてヌクレオソーム占拠に付随した周期レンジについて強度を定量して、ヌクレオソームが各連続ウインドウ内で構造化された配置を示す範囲を集約する、請求項92-95のいずれか1項に記載の方法。
【請求項99】
分布(a)、(b)若しくは(c)又はこれらの分布の1つの数学的変換で、特定の転写因子(TF)の転写因子結合サイト(TFBS)の直近にシーケンシング読取り開始位置がマップされる参照ヒトゲノムでサイトの分布を定量し(TFがTFBSと結合するときはしばしば当該サイトの直ぐ側にヌクレオソームがフランキングする)、cfDNAに寄与する細胞タイプのTF活性の結果としてのヌクレオソームの配置を集約する、請求項92-95のいずれか1項に記載の方法。
【請求項100】
ヌクレオソーム占拠シグナルが、他のゲノム上の目印(例えばDNase I高感受性サイト、転写開始サイト、トポロジカルドメイン、他の後成的な目印、又は他のデータセット(例えば遺伝子発現など)での相関的動態によって規定される全てのそのようなサイトのサブセット)周辺で、分布(a)、(b)及び/又は(c)又はこれらの分布の1つの数学的変換から、集合化シグナルの任意の1つにしたがって集約される、請求項92-95のいずれか1項に記載の方法。
【請求項101】
分布を変換して、当該ゲノムの多様なサブセット内のヌクレオソームの配置の周期的シグナルを集合化又は集約する、例えば、連続ウインドウでの周期性、或いはまた別に、転写因子結合サイト、遺伝子モデル特徴(例えば転写開始サイト)、組織発現データ又は他のヌクレオソーム配置に相関するものによって規定されるゲノムの不連続サブセットでの周期性を定量する、請求項92-95のいずれか1項に記載の方法。
【請求項102】
分布が、組織特異的データ、すなわち組織特異的DNase I高感受性サイト周辺の集合シグナルによって規定される、請求項92-95のいずれか1項に記載の方法。
【請求項103】
追加のヌクレオソームマップを当該参照セットと比較するために統計的シグナルをプロセッシングする工程をさらに含む、請求項92-95のいずれか1項に記載の方法。
【請求項104】
最初に多岐にわたるサンプルセットで当該ゲノムの端から端まで連続ウインドウ内で長レンジヌクレオソーム順番付けを集約し、続いて主要成分分析(PCA)を実施して、サンプルをクラスター化するか又は混合割合を概算する、請求項103に記載の方法。
【請求項105】
臨床症状が癌、すなわち悪性腫瘍である、請求項94又は請求項95に記載の方法。
【請求項106】
生物学的サンプルがcfDNAを含む循環血漿であり、そのいくらかの部分が腫瘍に由来する、請求項105に記載の方法。
【請求項107】
臨床症状が、組織損傷、心筋梗塞(心臓組織の急性損傷)、自己免疫疾患(多様な組織の慢性損傷)、妊娠、染色体異常(例えばトリソミー)、及び移植片拒絶から選択される、請求項94又は請求項95に記載の方法。
【請求項108】
cfDNAに寄与すると決定された1つ以上の組織又は細胞タイプの各々に割合を割り当てる工程をさらに含む、請求項1から107のいずれか1項に記載の方法。
【請求項109】
1つ以上の決定された組織又は細胞タイプの各々に割り当てられた割合が、少なくとも部分的には、1人又は複数の健康な対象者のcfDNAと対比された相関性の程度又は相関性増加の程度を基準にする、請求項108に記載の方法。
【請求項110】
相関性の程度が、少なくとも部分的には、当該生物学的サンプル由来のcfDNAフラグメント末端の分布の数学的変換と当該決定された組織又は細胞タイプに付随する参照マップとの比較に基づく、請求項108又は請求項109に記載の方法。
【請求項111】
1つ以上の決定された組織又は細胞タイプの各々に割り当てられた割合が混合モデルに基づく、請求項108から110のいずれか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権の主張)本出願は、米国仮特許出願No.62/029,178(2014年7月25日出願)及びNo.62/087,619(2014年12月4日出願)に対し優先権を主張する(前記の各々の要旨は、あたかも前記が本明細書で完全に説明されたかのように参照により本明細書に含まれる)。
(政府の利益に関する記述)本発明は、アメリカ国立衛生研究所(NIH)のグラント番号1DP1HG007811により政府の支援を受けて達成された。政府は本発明において一定の権利を有する。
(技術分野)
本開示は、セルフリーDNAを生じる1つ以上の組織及び/又は細胞タイプを決定する方法に関する。いくつかの実施態様では、本開示は、ある対象者の疾患又は異常を、当該対象者に由来する生物学的サンプルのセルフリーDNAに付随すると決定された1つ以上の組織及び/又は細胞タイプの関数と認定する方法を提供する。
【背景技術】
【0002】
セルフリーDNA(“cfDNA”)は人間の循環血漿、尿及び他の体液に存在する。cfDNAは二本鎖DNAフラグメントを含む。前記フラグメントは比較的短く(もっぱら200塩基対未満)、通常は低濃度で存在する(例えば血漿中に1-100ng/μL)。健康な個体の循環血漿では、cfDNAは主として血液細胞(すなわち造血細胞系列の正常な細胞)のアポトーシスに由来すると考えられている。しかしながら、特殊な状況では、他の組織が、体液(例えば循環血漿)中のcfDNAの組成に実質的に寄与することができる。
cfDNAはある種の専門分野(例えば生殖医療、癌診断及び移植医療)で用いられてきたが、cfDNAに基づく既存の検査は、2つ以上の細胞集団間(例えば母体ゲノムに対して胎児ゲノム、正常ゲノムに対して癌ゲノム、移植片レシピエントゲノムに対してドナーゲノムなど)の遺伝子型(例えば個々の配列の一次配列又は表示コピー数)の相違に着目する。残念ながら、任意の与えられた生物学的サンプルで見いだされるcfDNAフラグメントの圧倒的多数が寄与細胞集団間で配列が同一のゲノム領域に由来するために、既存のcfDNA系検査はその適用範囲が極めて制限される。加えて、多くの疾患及び異常が、cfDNAを生じる組織及び/又は細胞タイプで、当該疾患又は異常が関与する例えば組織損傷又は炎症性プロセスに由来する変化を随伴する。2つのゲノム間で個々の配列の一次配列又は表示コピー数の相違に着目する既存のcfDNA系診断検査は、そのような変化を検出することができない。したがって、強力な非生検型診断方法を提供するcfDNAの潜在能力は計り知れないが、極めて多様な疾患及び異常の診断に適用できるcfDNA系診断方法論に対する要請は今なお続いている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示は、対象者からの生物学的サンプルでセルフリーDNA(“cfDNA”)を生じる1つ以上の組織及び/又は細胞タイプを決定する方法を提供する。いくつかの実施態様では、本開示は、ある対象者の疾患又は異常を、当該対象者に由来する生物学的サンプルのcfDNAと付随すると決定された1つ以上の組織及び/又は細胞タイプの関数と認定する方法を提供する。
【課題を解決するための手段】
【0004】
いくつかの実施態様では、本開示は、対象者においてセルフリーDNA(cfDNA)を生じる組織及び/又は細胞タイプを決定する方法を提供し、前記方法は以下の工程を含む:当該対象者からの生物学的サンプルからcfDNAを単離する工程(当該単離cfDNAは複数のcfDNAフラグメントを含む);当該複数のcfDNAフラグメントの少なくとも一部分に付随する配列を決定する工程;当該複数のcfDNAフラグメントの少なくともいくつかのcfDNAフラグメント末端の参照ゲノム内のゲノム上の場所を当該cfDNAフラグメント配列の関数として決定する工程;及び当該cfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の関数として決定する工程。
他の実施態様では、本開示は対象者における疾患又は異常を識別する方法を提供し、前記方法は以下の工程を含む:当該対象者からの生物学的サンプルからセルフリーDNA(cfDNA)を単離する工程(当該単離cfDNAは複数のcfDNAフラグメントを含む);当該複数のcfDNAフラグメントの少なくとも一部分に付随する配列を決定する工程;当該複数のcfDNAフラグメントの少なくともいくつかのcfDNAフラグメント末端の参照ゲノム内のゲノム上の場所を当該cfDNAフラグメント配列の関数として決定する工程;当該cfDNAを生じる組織及び/又は細胞タイプの少なくともいくつかを、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の関数として決定する工程;及び当該疾患又は異常を、当該cfDNAを生じると決定された組織及び/又は細胞タイプの関数として同定する工程。
【0005】
他の実施態様では、本開示は対象者でセルフリーDNA(cfDNA)を生じる組織及び/又は細胞タイプを決定する方法を提供し、前記方法は以下の工程を含む:(i)当該対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、並びにcfDNAのライブラリー構築及び大量パラレルシーケンシング(massively parallel sequencing)による下記に示す分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップを作製する工程;(ii)コントロール対象者又は既知疾患を有する対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、cfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記に示す分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップの参照セットを作製する工程;並びに(iii)当該生物学的サンプルのcfDNAに由来するヌクレオソームマップをヌクレオソームマップの参照セットと比較することによって、当該生物学的サンプルのcfDNAを生じる組織及び/又は細胞タイプを決定する工程。ここで前記(a)、(b)及び(c)は以下のとおりである:(a)ヒトゲノムにおいて任意の特定の塩基対がcfDNAフラグメントの末端に出現する可能性の分布;(b)ヒトゲノムの塩基対の任意の対がcfDNAフラグメントの末端の対として出現する可能性の分布;及び(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果としてcfDNAフラグメントに出現する可能性の分布。
【0006】
さらに他の実施態様では、本開示は対象者におけるcfDNAを生じる組織及び/又は細胞タイプを決定する方法を提供し、前記方法は以下の工程を含む:(i)当該対象者からの生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、並びにcfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記に示す分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップを作製する工程;(ii)コントロール対象者又は既知疾患を有する対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、酵素(例えばマイクロコッカスのヌクレアーゼ、DNase又はトランスポザーゼ)によるクロマチン断片化から誘導したDNAのライブラリー構築及び大量パラレルシーケンシングによる下記に示す分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップの参照セットを作製する工程;並びに(iii)当該生物学的サンプルのcfDNAに由来するヌクレオソームマップをヌクレオソームマップの参照セットと比較することによって、当該生物学的サンプルのcfDNAを生じる組織及び/又は細胞タイプを決定する工程。ここで前記(a)、(b)及び(c)は以下のとおりである:(a)ヒトゲノムにおいて任意の特定の塩基対が配列決定されたフラグメントの末端に出現する可能性の分布;(b)ヒトゲノムの塩基対の任意の対が配列決定されたフラグメントの末端の対として出現する可能性の分布;及び(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果として配列決定されたフラグメントに出現する可能性の分布。
【0007】
他の実施態様では、本開示は対象者で臨床症状を診断する方法を提供し、前記方法は以下の工程を含む:(i)当該対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、並びにcfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップを作製する工程;(ii)コントロール対象者又は既知疾患を有する対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、cfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップの参照セットを作製する工程;並びに(iii)当該生物学的サンプルのcfDNAに由来するヌクレオソームマップをヌクレオソームマップの参照セットと比較することによって、当該臨床症状を決定する工程。ここで前記(a)、(b)及び(c)は以下のとおりである:(a)ヒトゲノムにおいて任意の特定の塩基対がcfDNAフラグメントの末端に出現する可能性の分布;(b)ヒトゲノムの塩基対の任意の対がcfDNAフラグメントの末端の対として出現する可能性の分布;及び(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果としてcfDNAフラグメントに出現する可能性の分布。
【0008】
他の実施態様では、本開示は対象者で臨床症状を診断する方法を提供し、前記方法は以下の工程を含む:(i)当該対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、並びにcfDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップを作製する工程;(ii)コントロール対象者又は既知疾患を有する対象者の生物学的サンプルの入手、当該生物学的サンプルのcfDNAの単離、酵素(例えばマイクロコッカスのヌクレアーゼ(MNase)、DNase又はトランスポザーゼ)によるクロマチン断片化から誘導したDNAのライブラリー構築及び大量パラレルシーケンシングによる下記の分布(a)、(b)及び/又は(c)の測定によってヌクレオソームマップの参照セットを作製する工程;並びに(iii)当該生物学的サンプルのcfDNAに由来するヌクレオソームマップをヌクレオソームマップの参照セットと比較することによって、当該生物学的サンプルの供給源組織(tissue-of-origin)の組成を決定する工程。ここで前記(a)、(b)及び(c)は以下のとおりである:(a)ヒトゲノムにおいて任意の特定の塩基対が配列決定されたフラグメントの末端に出現する可能性の分布;(b)ヒトゲノムの塩基対の任意の対が配列決定されたフラグメントの末端の対として出現する可能性の分布;及び(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果として配列決定されたフラグメントに出現する可能性の分布。
これらの実施態様及び他の実施態様は下記ではるかに詳細に記載される。
【図面の簡単な説明】
【0009】
【
図1A-C】cfDNA断片化パターンをヌクレオソーム占拠に関連付ける3つのタイプの情報を示す(小さなゲノム領域について例示されている)。これらと同じタイプの情報はまた、酵素(例えばマイクロコッカスのヌクレアーゼ(MNase)、DNase又はトランスポザーゼ)によるクロマチンの断片化によってももたらされうる。
図1Aは、ヒトゲノムにおいて任意の特定の塩基対が配列決定されたフラグメントの末端(すなわち断片化点)に出現する可能性の分布を示す。
図1Bは、ヒトゲノムの塩基対の任意の対が配列決定されたフラグメントの末端の対として出現する可能性の分布を示す(すなわち、個々の分子を生じる断片化点の連続する対)。
図1Cは、ヒトゲノムにおいて任意の特定の塩基対が、配列決定されたフラグメント内で、弁別的なヌクレオソーム占拠の結果として出現する可能性の分布である(すなわち相対的カバレッジ)。
【
図2】典型的なcfDNAシーケンシングライブラリーの挿入サイズ分布を示し、ここでは人数が明らかでない健康な個体からの提供を含むヒト血漿に由来するcfDNAプールについて示されている(バルクcfDNA)。
【
図3A】全cfDNAサンプル(血漿)、腫瘍患者サンプルのcfDNA(腫瘍)、妊婦個体のcfDNA(妊娠)、種々のヒト細胞株のヒトMNase(細胞株)及びヒトDNAショットガンシーケンシングライブラリー(ショットガン)にわたって、第一の(chr1)ヒト常染色体にマッピングした読取り開始座標の高速フーリエ変換(FFT)の平均ピリオドグラム強度を示す。
【
図3B】全cfDNAサンプル(血漿)、腫瘍患者サンプルのcfDNA(腫瘍)、妊婦個体のcfDNA(妊娠)、種々のヒト細胞株のヒトMNase(細胞株)及びヒトDNAショットガンシーケンシングライブラリー(ショットガン)にわって、最後の(chr22)ヒト常染色体にマッピングした読取り開始座標の高速フーリエ変換(FFT)の平均ピリオドグラム強度を示す。
【
図4A】全常染色体の10キロ塩基対(kbp)ブロックでの196塩基対(bp)周期性における強度の最初の3主要成分(PC)を示す。
図4AはPC2対PC1を示し、
図4BはPC3対PC2を示す。
【
図4B】全常染色体の10キロ塩基対(kbp)ブロックでの196塩基対(bp)周期性における強度の最初の3主要成分(PC)を示す。
図4AはPC2対PC1を示し、
図4BはPC3対PC2を示す。
【
図5】全常染色体を通して10kbpブロックで196bp周期性により測定された強度のユークリッド距離の階層クラスター化樹形図を示す。
【
図6A】全常染色体を通して10kbpブロックでの181bpから202bp周期性における強度の最初の3主要成分を示す。
図6AはPC2対PC1を示し、
図6BはPC3対PC2を示す。
【
図6B】全常染色体を通して10kbpブロックでの181bpから202bp周期性における強度の最初の3主要成分を示す。
図6AはPC2対PC1を示し、
図6BはPC3対PC2を示す。
【
図7】全常染色体を通して10kbpブロックで181bpから202bp周期性により測定された強度のユークリッド距離の階層クラスター化樹形図を示す。
【
図8A-D】cfDNAデータセットのための全常染色体を通して10kbpブロックでの181bpから202bp周期性における強度の主要成分分析(10PCの最初の7つ)を示す。
図8AはPC2対PC1を示し、
図8BはPC3対PC2を示し、
図8CはPC4対PC3を示し、
図8DはPC5対PC4を示す。
【
図8E-F】cfDNAデータセットのための全常染色体を通して10kbpブロックでの181bpから202bp周期性における強度の主要成分分析(10PCの最初の7つ)を示す。
図8EはPC6対PC5を示し、
図8FはPC7対PC6を示す。
【
図9A-B】MNaseデータセットのための全常染色体を通して10kbpブロックでの181bpから202bp周期性における強度の主要成分分析を示す。
図9AはPC2対PC1を示し、
図9BはPC3対PC2を示す。
【
図9C-E】MNaseデータセットのための全常染色体を通して10kbpブロックでの181bpから202bp周期性における強度の主要成分分析を示す。
図9CはPC4対PC3を示し、
図9DはPC5対PC4を示し、
図9EはPC6対PC5を示す。
【
図10】全ての合成cfDNA及びMNaseデータセット混合物の代表的ヒト常染色体(chr11)の平均ピリオドグラム強度を示す。
【
図11】合成MNaseデータセット混合物について全常染色体を通して10kbpブロックでの181bpから202bp周期性における強度の最初の2主要成分を示す。
【
図12】合成cfDNAデータセット混合物について全常染色体を通して10kbpブロックでの181bpから202bp周期性における強度の最初の2主要成分を示す。
【
図13】合成MNase及びcfDNA混合物データセットのための全常染色体の10kbpブロックでの181bpから202bp周期性における強度のユークリッド距離の階層クラスター化樹形図を示す。
【
図14】少なくとも100Mの読取り(リード)を有するサンプルセットの23,666C TCF結合サイト周辺の1kbpウインドウにおける読取り開始点密度を示す。
【
図15】少なくとも100Mの読取りを有するサンプルセットの5,644 c-Jun結合サイト周辺の1kbpウインドウにおける読取り開始点密度を示す。
【
図16】少なくとも100Mの読取りを有するサンプルセットの4,417 NF-YB結合サイト周辺の1kbpウインドウにおける読取り開始点密度を示す。
【
図17】cfDNAフラグメント末端を生じる過程の模式図を示す。アポトーシス及び/又は壊死による細胞死はネイティブなクロマチンのほぼ完全な消化をもたらす。タンパク質結合DNAフラグメント(典型的にはヒストン又は転写因子と結合している)は、優先的に消化に耐え循環中に放出されるが、裸のDNAは消失する。フラグメントは、プロテアーゼ処理に続いて末梢血の血漿から回収できる。健康な個体では、cfDNAは主として骨髄系及びリンパ系細胞系列に由来するが、ある種の医学的症状では1つ以上の追加の組織の寄与が存在しうる。
【
図18】伝統的シーケンシングライブラリー調製で観察されるcfDNAのフラグメントの長さを示す。長さはペア形成末端シーケンシング読取りのアラインメントから推論される。フラグメントの長さが167塩基対(bp)(緑色破線)の再現性を有するピークはクロマトソームとの結合と一致する。付加的ピークは~10.4bpの周期性を立証し、ヌクレオソームコアにおけるDNAのらせんピッチと一致する。ライブラリー調製時の酵素による末端修復は5’及び3’オーバーハングを除去し、真の切断サイトを曖昧にする可能性がある。
【
図19】伝統的ライブラリーの167bpフラグメント及びフランキングするゲノム配列のジヌクレオチド組成を示す。BH01ライブラリーで観察されるジヌクレオチド頻度をシミュレーションしたフラグメントの予想される周期と比較した(切断及びアダプター連結の優先性の両方から生じる末端偏向と適合する)。
【
図20】cfDNAフラグメントの一本鎖ライブラリー調製プロトコルの模式図を示す。
【
図21】一本鎖シーケンシングライブラリー調製で観察されるcfDNAのフラグメントの長さを示す。ライブラリー調製時に鋳型分子に対して酵素による末端修復は実施されない。50-120bpの短いフラグメントが伝統的ライブラリーと比較して高度に濃縮されている。~10.4bp周期性が存続するが、その相は~3bpシフトしている。
【
図22】一本鎖ライブラリーの167bpフラグメント及びフランキングするゲノム配列のジヌクレオチド組成を示す。IH02ライブラリーで観察されるジヌクレオチド頻度をシミュレーションしたフラグメントの予想される頻度と比較したところ、再び末端偏向と適合する。BH01とIH02との間の偏向のバックグラウンドレベルにおける見かけの相違は、真のライブラリーというよりはシミュレーションしたライブラリー間の相違と関係する(データは示されていない)。
【
図23A-B】伝統的プロトコルで調製された代表的なcfDNAシーケンシングライブラリーのゲル画像を示す。
【
図24A】cfDNAフラグメントのモノヌクレオチド切断偏向を示す。
【
図24B】cfDNAフラグメントのジヌクレオチド切断偏向を示す。
【
図25】ヌクレオソーム配置の推論の模式図を示す。塩基毎のウインドウ化保護スコア(per-base windowed protection score, WPS)は、120bpウインドウ内部にあるフラグメント末端の数を、完全にこのウインドウにまたがるフラグメントの数から差し引くことによって計算される。高WPS値は消化からのDNAの保護の増加を示し、低い値はDNAが保護されないことを示す。ピークコールは上昇WPSの連続領域を識別する。
【
図26】よく研究されたアルファサテライトアレイで強力に位置決めされたヌクレオソームを示す。サンプルCH01のカバレッジ、フラグメント末端及びWPS値が、染色体12の動原体周辺遺伝子座の長フラグメント(120bpウインドウ;120-180bp読取り)又は短フラグメント(16bpウインドウ;35-80bp読取り)bin(ビン)について示されている。CH01のヌクレオソームコール(中央、青色の枠)は遺伝子座を通して規則的な間隔を有する。公表された2つの研究のMNase消化に基づくヌクレオソームコール(中央、紫色及び黒色の枠)もまた示されている。遺伝子座は、注釈を有するアルファサテライトアレイとオーバーラップする。
【
図27】染色体9のDNase I高感受性サイト(DHS)周辺の推論されるヌクレオソーム配置を示す。サンプルCH01のカバレッジ、フラグメント末端及びWPS値が長及び短フラグメントビンについて示されている。高感受性領域(灰色で強調されている)は、長フラグメントbinのカバレッジの低下によって特徴づけられる。DHSに隣接するCH01のヌクレオソームコール(中央、青色枠)は典型的な隣接対よりも間隔が広く、調節タンパク質(転写因子を含む)に対する介在配列の接近容易性と一致する。より短いフラグメント(前記はそのようなタンパク質と結合できる)のカバレッジはDHSで増加し、前記は、いくつかの注釈付き転写因子結合サイトとオーバーラップする(データは示されていない)。。公表された2つの研究のMNase消化に基づくヌクレオソームコールが、
図26のように示されている。
【
図28】本発明のある実施態様のピークコール及びスコア付けの模式図を示す。
【
図29】GC含有量によるCH01ピーク密度を示す。
【
図30】サンプルごとの隣接ピーク間の距離のヒストグラムを示す。ピークコールから隣接コールの距離が測定される。
【
図31】サンプル間のピークコールの比較を示す。サンプルの各対について、ピークがより少ないサンプルの各ピークコールと他のサンプルの最も近いピークコールとの間の距離を計算し、1のbinサイズのヒストグラムとして可視化する。負の数は最も近いピークが上流にあり、正の数は最も近いピークが下流にあることを示す。
【
図32】サンプル間でのピークコールの比較を示す。
図32AはIH01対BH01を示し、
図32BはIH02対BH01を示し、
図32CはIH02対IH01を示す。
【
図33A】真のピーク対シミュレーションピークのヌクレオソームスコアを示す。
【
図33B】あるスコアbin内の当該スコアbinの関数としてのピークオフセットの中央値(左y軸)及び各スコアbinのピークの数(右y軸)を示す。
【
図34A-C】サンプルと適合シミュレーション結果間でのピークコールの比較を示す。
図34AはBH01シミュレーション対BH01実在物を示し、
図34BはIH01シミュレーション対BH01実在物を示し、
図34CはIH02シミュレーション対IH01実在物を示す。
【
図35】サンプルCH01の隣接ピーク間の距離を示す。黒色の点線は分布の態様を示す(185bp)。
【
図36】22,626の転写開始サイト(TSS)周辺の集合、調整ウインドウ化保護スコア(WPS;120bpウインドウ)を示す。TSSは、転写の鎖及び方向について調整した後0位でアラインメントされる。集合WPSは、真のデータ及びシミュレーションデータの両方について中心TSSに対する各位置のTSS毎のWPSを合計することによって作表される。プロットされた値は、真の集合WPSとシミュレーション集合WPS間の相違を表す(前記は下記でより詳しく述べるようにさらに調整される)。より高いWPS値は切断からの優先的な保護を示す。
【
図37】22,626の転写開始サイト(TSS)周辺の集合、調整ウインドウ化保護スコア(WPS;120bpウインドウ)を示す。TSSは、転写の鎖及び方向について調整した後0位でアラインメントされる。集合WPSは、真のデータ及びシミュレーションデータの両方について中心TSSに対する各位置のTSS毎のWPSを合計することによって作表される。プロットされた値は、真の集合WPSとシミュレーション集合WPS間の相違を表す(前記は下記でより詳しく述べるようにさらに調整される)。より高いWPS値は切断からの優先的な保護を示す。
図37は、22,626開始コドン周辺の集合、調整WPSを示す。
【
図38】22,626の転写開始サイト(TSS)周辺の集合、調整ウインドウ化保護スコア(WPS;120bpウインドウ)を示す。TSSは、転写の鎖及び方向について調整した後0位でアラインメントされる。集合WPSは、真のデータ及びシミュレーションデータの両方について中心TSSに対する各位置のTSS毎のWPSを合計することによって作表される。プロットされた値は、真の集合WPSとシミュレーション集合WPS間の相違を表す(前記は下記でより詳しく述べるようにさらに調整される)。より高いWPS値は切断からの優先的な保護を示す。
図38は、224,910スプライシングドナーサイト周辺の集合、調整WPSを示す。
【
図39】22,626の転写開始サイト(TSS)周辺の集合、調整ウインドウ化保護スコア(WPS;120bpウインドウ)を示す。TSSは、転写の鎖及び方向について調整した後0位でアラインメントされる。集合WPSは、真のデータ及びシミュレーションデータの両方について中心TSSに対する各位置のTSS毎のWPSを合計することによって作表される。プロットされた値は、真の集合WPSとシミュレーション集合WPS間の相違を表す(前記は下記でより詳しく述べるようにさらに調整される)。より高いWPS値は切断からの優先的な保護を示す。
図39は、224,910スプライシングアクセプターサイト周辺の集合、調整WPSを示す。
【
図40】
図40は、CH01のデータ(真のデータ、適合シミュレーションデータ及びそれらの相違を含む)に関する多様な遺伝的特徴周辺の集合、調整WPSを示す。
【
図41】A/B区画におけるヌクレオソームの間隔を示す。非オーバーラップ100キロ塩基(kb)bin(各々~500ヌクレオソームコールを含む)におけるヌクレオソームの間隔の中央値をゲノムワイドで計算する。GM12878についてのA/B区画予測(前記もまた100kb解像度による)は公開情報源による。区画Aはオープンクロマチンと結合し、区画Bは閉鎖クロマチンと結合する。
【
図42】染色体7及び11のヌクレオソームの間隔及びA/B区画を示す。A/Bセグメント化(赤色及び青色の棒線)は主として染色体G-バンド形成を概括する(表意記号、灰色棒線)。ヌクレオソームの間隔の取り方の中央値(黒色ドット)は100kb binで計算され、A/Bセグメントの上部にプロットされている。
【
図43】長画分(上)及び短画分(下)について93,550CTCFサイトの集合、調整WPSを示す。
【
図44】CTCFサイトの短画分cfDNAの集合、調整WPSの拡大図を示す。淡赤色棒線(及びプロット内の対応する陰影)は、公知の52bp CTCF結合モチーフの位置を示す。この棒線の暗赤色部分は、FIMOモチーフ検索に用いられた17bpモチーフの場所を示す。
【
図45】クラスター化FIMO予測CTCFサイト(純粋にモチーフを根拠とする:518,632サイト)、これらの予測のうちENCODE ChIP-seqピークとオーバーラップするサブセット(93,530サイト)、及び19細胞株にわたって活性であることが実験的に観察されたさらに別のサブセット(23,723サイト)に由来するCTCFサイト周辺で計算された-1から+1のヌクレオソームの間隔の取り方を示す。CTCFサイトのもっともストリンジェンシーが低いセットは、もっぱらゲノムワイド平均(~190bp)とほぼ同じ距離で隔てられている。しかしながら、最高のストリンジェンシーでは、ほとんどのCTCFサイトがはるかに広い距離(~260bp)で隔てられ、活性なCTCF結合及び隣接ヌクレオソーム再配置と一致する。
【
図46】ヌクレオソームにフランキングするCTCF占拠再配置を示す。
図46は、FIMOによって予測される518,632のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示す。
図47は、
図46のように、FIMOによって予測される518,632のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示すが、ただしここで同じCTCFサイトセットがENCODE ChIP-seqピークとのオーバーラップに基づいてフィルター処理されて、93,530サイトが残された。
図48は、
図47のように、FIMOによって予測される93,530のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示すが、ただしここでCTCFサイトセットは19細胞株にわたって実験的に観察される活性なCTCFサイトセットとのオーバーラップに基づいてフィルター処理されて、23,732サイトが残された。
【
図47】ヌクレオソームにフランキングするCTCF占拠再配置を示す。
図46は、FIMOによって予測される518,632のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示す。
図47は、
図46のように、FIMOによって予測される518,632のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示すが、ただしここで同じCTCFサイトセットがENCODE ChIP-seqピークとのオーバーラップに基づいてフィルター処理されて、93,530サイトが残された。
図48は、
図47のように、FIMOによって予測される93,530のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示すが、ただしここでCTCFサイトセットは19細胞株にわたって実験的に観察される活性なCTCFサイトセットとのオーバーラップに基づいてフィルター処理されて、23,732サイトが残された。
【
図48】ヌクレオソームにフランキングするCTCF占拠再配置を示す。
図46は、FIMOによって予測される518,632のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示す。
図47は、
図46のように、FIMOによって予測される518,632のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示すが、ただしここで同じCTCFサイトセットがENCODE ChIP-seqピークとのオーバーラップに基づいてフィルター処理されて、93,530サイトが残された。
図48は、
図47のように、FIMOによって予測される93,530のCTCF結合サイトについての3つの最も近い上流のピークコール及び3つの最も近い下流のピークコールのピーク間距離を示すが、ただしここでCTCFサイトセットは19細胞株にわたって実験的に観察される活性なCTCFサイトセットとのオーバーラップに基づいてフィルター処理されて、23,732サイトが残された。
【
図49】広い間隔(230-270bp)が置かれたフランキングヌクレオソームを有する推定的CTCFサイトサブセットについて、
図49は、長画分(上)及び短画分(下)の両方が、ストリンジェンシーが増加するCTCFサイトサブセットでより強い配置シグナルを提示することを示す。要となる限界着色線については
図45を参照されたい。
【
図50】ヌクレオソームにフランキングするCTCF占拠再配置を示す。
図50は、当該518,632サイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示し、前記は、各サイトについてフランキングする+1及び-1ヌクレオソームコールを隔てる塩基対の数を示す距離ビンに分けられている。
図51は、
図50の518,632サイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示すが、ただしここで同じCTCFサイトセットはENCODE ChIP-seqピークとのオーバーラップに基づいてフィルター処理された。
図52は、
図51のサイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示すが、ただしここで同じサイトセットは19細胞株にわたって実験的に観察される活性なCTCFサイトセットとのオーバーラップに基づいてさらにフィルター処理された。
図50の要となる限界着色線は
図51及び
図52と同じである。
【
図51】ヌクレオソームにフランキングするCTCF占拠再配置を示す。
図50は、当該518,632サイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示し、前記は、各サイトについてフランキングする+1及び-1ヌクレオソームコールを隔てる塩基対の数を示す距離ビンに分けられている。
図51は、
図50の518,632サイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示すが、ただしここで同じCTCFサイトセットはENCODE ChIP-seqピークとのオーバーラップに基づいてフィルター処理された。
図52は、
図51のサイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示すが、ただしここで同じサイトセットは19細胞株にわたって実験的に観察される活性なCTCFサイトセットとのオーバーラップに基づいてさらにフィルター処理された。
図50の要となる限界着色線は
図51及び
図52と同じである。
【
図52】ヌクレオソームにフランキングするCTCF占拠再配置を示す。
図50は、当該518,632サイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示し、前記は、各サイトについてフランキングする+1及び-1ヌクレオソームコールを隔てる塩基対の数を示す距離ビンに分けられている。
図51は、
図50の518,632サイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示すが、ただしここで同じCTCFサイトセットはENCODE ChIP-seqピークとのオーバーラップに基づいてフィルター処理された。
図52は、
図51のサイトについて平均短画分WPS(上パネル)及び平均長画分WPS(下パネル)を示すが、ただしここで同じサイトセットは19細胞株にわたって実験的に観察される活性なCTCFサイトセットとのオーバーラップに基づいてさらにフィルター処理された。
図50の要となる限界着色線は
図51及び
図52と同じである。
【
図53A-D】短cfDNA及び長cfDNAフラグメントに由来する転写因子結合サイトのフットプリントを示す。クラスター化FIMO結合サイト予測をENCODE ChIP-seqデータでインターセクト(intersect)して、追加因子セットのために転写因子(TF)結合サイトの信頼セットを入手した。得られたTF結合サイトセットにフランキングする領域に対する集合、調整WPSを、cfDNAフラグメントの長画分及び短画分の両方について示す。より高いWPS値は、それぞれヌクレオソーム又はTF占拠のより高い可能性を示す。
図53A:AP-2、
図53B:E2F-2、
図53C:EBOX-TF、
図53D:IRF。
【
図53E-H】短cfDNA及び長cfDNAフラグメントに由来する転写因子結合サイトのフットプリントを示す。クラスター化FIMO結合サイト予測をENCODE ChIP-seqデータでインターセクト(intersect)して、追加因子セットのために転写因子(TF)結合サイトの信頼セットを入手した。得られたTF結合サイトセットにフランキングする領域に対する集合、調整WPSを、cfDNAフラグメントの長画分及び短画分の両方について示す。より高いWPS値は、それぞれヌクレオソーム又はTF占拠のより高い可能性を示す。
図53E:MYC-MAX、
図53F:PAX5-2、
図53G:RUNX-AML、
図53H:YY1。
【
図54】
図54は、転写因子ETS(210,798サイト)に対する集合、調整WPSを示す。長cfDNA画分(上)及び短cfDNA画分(下)の両方から計算したWPSが示されている。周辺のヌクレオソーム(長画分)の組織化による結合サイトそのもの(短画分)におけるTF保護に一致するシグナルが観察される。追加のTFについての同様な分析は
図53A-Hに示されている。
【
図55】
図55は、転写因子MAFK(32,159サイト)に対する集合、調整WPSを示す。長cfDNA画分(上)及び短cfDNA画分(下)の両方から計算したWPSが示されている。周辺のヌクレオソーム(長画分)の組織化による結合サイトそのもの(短画分)におけるTF保護に一致するシグナルが観察される。追加のTFについての同様な分析は
図53A-Hに示されている。
【
図56】DNase高感受性(DHS)サイトに基づく、セルフリーDNAに寄与する細胞タイプ混合物の推論を示す。116の多岐にわたる生物学的サンプルに由来するDHSサイトのヌクレオソームコールのピークからピークまでの間隔の取り方の度数分布は二峰性分布を示し、第二峰は、おそらく活性なDHSサイトにおける介在転写因子の結合のために広げられた(~190bp->260bp)ヌクレオソームの間隔の取り方に一致する。リンパ系又は骨髄系サンプルで識別されるDHSサイトは、ヌクレオソームの間隔の取り方が広がったDHSサイトの最大割合を示し、健康な個体では造血細胞死が優先的なcfDNA供給源であることと一致する。
【
図57】転写開始サイト(TSS)周辺の調整WPSスコアをNB-4(急性前骨髄細胞白血病細胞株)について識別された5遺伝子発現bin(五分位数)にどのように分けられるかによって、ヌクレオソームの間隔の取り方及び配置の相違が明らかにされることを示す。高度に発現される遺伝子は転写本体内のヌクレオソームの強力な位相整合を示す。TSSの上流で、-1ヌクレオソームは発現binを通して好位置に存在するが、-2及び-3ヌクレオソームは中等度から高度発現遺伝子に対してのみ好位置に存在する。
【
図58】中等度から高度発現遺伝子について、短フラグメントピークはTSSと-1ヌクレオソームの間で観察され、転写活性遺伝子の転写の前開始複合体又はその何らかの成分のフットプリントと一致することを示す。
【
図59】転写本体におけるヌクレオソーム距離の中央値はNB-4細胞株(ρ=-0.17、n=19,677遺伝子)について測定される遺伝子発現と負の相関関係を有することを示す。ほとんど又は全く遺伝子発現のない遺伝子は193bpというヌクレオソーム距離の中央値を示すが、発現遺伝子ではこの範囲は186-193bpの間である。この負の相関関係は、より多くのヌクレオソームコールがより正確な距離の中央値の決定に用いられるときにより強くなる(例えば少なくとも60ヌクレオソーム、ρ=-0.50、n=12,344遺伝子を必要とする)。
【
図60】多重的寄与をデコンボリューションするため、どのように高速フーリエ変換(FFT)を用いて、各TSSで始まる遺伝子本体の最初の10kbのための長フラグメントWPSで特定の周期寄与(強度)の多さを定量するかを示す。種々の周期でこれらの強度を有する76細胞株及び一次組織のRNA発現間の相関関係の曲線が示される。NB-4細胞株は太い黒線で示される。相関関係は193-199bpの周期レンジで強度の規模が最大である。
【
図61】健康状態及び癌におけるセルフリーDNAに寄与する細胞タイプの推論を示す。上段パネルは、多様なcfDNAライブラリーについて、193-199bp周期レンジで平均強度を有する76のRNA発現データセットに対する相関関係ランクを示す(前記cfDNAライブラリーはタイプによって分類され、最高ランク(一番上の列)から最低ランク(一番下の列)に記入されている)。相関値及び完全な細胞株名又は組織名は表3に提供されている。3つの全健康サンプル(BH01、IH01及びIH02;最初の3カラム)で最高の相関関係はいずれも、リンパ系及び骨髄系細胞株とともに骨髄である。対照的に、第IV期癌患者から入手されたcfDNAサンプル(IC15、IC17、IC20、IC35、IC37;最後の5カラム)は、多様な癌細胞株と上位相関関係を示す。例えば、IC17(肝細胞癌(HCC))はHepG2(肝細胞癌腫細胞株)と、IC35(乳管癌(DC))はMCF7(転移性乳腺癌細胞株)と最高の相関関係を示す。癌サンプルで観察された細胞株/組織ランクを3つの健康なサンプルの各々と比較しランク変化を平均したとき(下段パネル)、最大ランク変化は、3つの健康サンプルを互に比較しランク変化を平均して観察されたもの(コントロール)の2倍を超える。例えば、IC15(小細胞肺癌(SCLC))については、SCLC-21H(小細胞肺癌細胞株)のランクは平均31位増加し、IC20(扁平上皮細胞肺癌(SCC))については、SK-BR-3(転移性乳腺癌細胞株)で平均ランク21に増加し、IC37(結腸直腸腺癌(AC))については、HepG2で24ランクに増加した。
【
図62A】循環腫瘍DNA高負荷サンプルの選別のための、カバレッジ(
図62A)を基準にする異数性定量を示す。
図62Aは各染色体のZスコアの合計を示し、前記スコアは、異数性がないと仮定するシミュレーションサンプル(赤色ドット)と比較した各サンプル(黒色ドット)のシーケンシング読取りの観察数と予測数を基準にして算出された。
【
図62B】循環腫瘍DNA高負荷サンプルの選別のための、対立遺伝子バランス(
図62B)を基準にする異数性定量を示す。
図62Bは、追加のシーケンシングのために選択されたサンプルのサブセットに対する、染色体毎に評価された48,800の共通SNPの各々における対立遺伝子バランスを示す。
【
図63A】ピークコールと公表されたヌクレオソームコールセットとの比較を示す。
図63Aは、3つの公表されたデータセット(Gaffney et al. 2012;JS Pedersen et al. 2014;及びA Schep et al. 2015)全体のヌクレオソームピークコールとともに本明細書で作製したコール(CA01の適合するシミュレーションを含む)との間の距離を示す。以前に公表されたデータセットは、正規の~185bpヌクレオソーム距離では規定された1つのモードを示さず、これはおそらく標本の乏しさ及び広いコール範囲のためであろう。対照的に、cfDNAに由来する全てのヌクレオソームコールは1つの良好に規定されたモードを示す。適合するシミュレーションデータセットはより短いモード(166bp)及びより広い分布を有する。さらにまた、コールの作製に用いられるcfDNAデータセットのカバレッジが高ければ高いほど、当該分布のモードによって表されるコールの割合は高くなる。
【
図63B】ピークコールと公表されたヌクレオソームコールセットとの比較を示す。
図63Bは、
図63Aと同じセット一覧の各々についてヌクレオソームの数を示す。このcfDNAヌクレオソームコールは約13Mヌクレオソームピークコールを有するもっとも包括的なコールセットを提示する。
図63Cは、IH01 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。
図63Dは、IH02 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。
図63Eは、BH01 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。
図63Fは、CH01 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。
図63Gは、CA01 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。負の数は最も近いピークが上流にあり、正の数は最も近いピークが下流にあることを示す。cfDNAのカバレッジが増加するにつれ、以前に公表されたコールがより高い割合で当該決められたヌクレオソームコールにより接近して見いだされる。最高の一致は、Gaffneyら(Gaffney et al., PLoS Genet., vol. 8, e1003036 (2012) and A Schep et al. 2015)及びA.Schepら(2015)が作製したコールで見いだされた。
図63Hは、各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示すが、この場合CA01の適合シミュレーションに対するものである。最も近い真のヌクレオソームの位置は、以下の研究者ら(Gaffney et al., PLoS Genet., vol. 8, e1003036, 2012;及びJS Pedersen et al., Genome Research, vol. 24, pp. 454-466, 2014)のコールに対するシミュレーションにおいてコールされたピークから離れる傾向にある。A.Schepら(2015)によって作製されたコールはシミュレーションコールとある程度のオーバーラップを示すように思われる。
【
図63C-E】ピークコールと公表されたヌクレオソームコールセットとの比較を示す。
図63Cは、IH01 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。
図63Dは、IH02 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。
図63Eは、BH01 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。
【
図63F-H】ピークコールと公表されたヌクレオソームコールセットとの比較を示す。
図63Fは、CH01 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。
図63Gは、CA01 cfDNAサンプルの各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示す。負の数は最も近いピークが上流にあり、正の数は最も近いピークが下流にあることを示す。cfDNAのカバレッジが増加するにつれ、以前に公表されたコールがより高い割合で当該決められたヌクレオソームコールにより接近して見いだされる。最高の一致は、Gaffneyら(Gaffney et al., PLoS Genet., vol. 8, e1003036 (2012) and A Schep et al. 2015)及びA.Schepら(2015)が作製したコールで見いだされた。
図63Hは、各ピークコールと以前に公表されたデータセットの最も近いピークコールとの間の距離を示すが、この場合CA01の適合シミュレーションに対するものである。最も近い真のヌクレオソームの位置は、以下の研究者ら(Gaffney et al., PLoS Genet., vol. 8, e1003036, 2012;及びJS Pedersen et al., Genome Research, vol. 24, pp. 454-466, 2014)のコールに対するシミュレーションにおいてコールされたピークから離れる傾向にある。A.Schepら(2015)によって作製されたコールはシミュレーションコールとある程度のオーバーラップを示すように思われる。
【発明を実施するための形態】
【0010】
本開示は、対象者からの生物学的サンプル中のセルフリーDNAを生じる1つ以上の組織及び/又は細胞タイプを決定する方法を提供する。いくつかの実施態様では、本開示は、ある対象者の疾患又は異常を、当該対象者に由来する生物学的サンプル中のcfDNAに付随すると決定された1つ以上の組織及び/又は細胞タイプの関数と認定する方法を提供する。
本開示は、異なる細胞タイプ又は組織を起源とするcfDNA分子は以下の(a)-(c)に関して異なるという予測に基づく:(a)ヒトゲノムにおいて任意の特定の塩基対がcfDNAフラグメントの末端(すなわち断片化点)に出現する可能性の分布;(b)ヒトゲノムの塩基対の任意の対がcfDNAフラグメントの末端の対(すなわち、個々のcfDNA分子を生じる断片化点の連続する対)として出現する可能性の分布;及び(c)ヒトゲノムにおいて任意の特定の塩基対が弁別的なヌクレオソーム占拠の結果としてcfDNAフラグメント内に出現する可能性の分布(すなわち相対的カバレッジ)。これらは下記では分布(a)、(b)及び(c)と称されるか、又は包括的に“ヌクレオソーム依存切断確率マップ”、“切断接近容易性マップ”又は“ヌクレオソームマップ”と称される(
図1)。注目すべきことに、ヌクレオソームマップはまた、酵素(例えばマイクロコッカスヌクレアーゼ(MNase)、DNase又はトランスポザーゼ)又はヌクレオソーム若しくはクロマトソームの間で或いはそれらの境界でゲノムDNAを優先的に断片化する同等の手順でクロマチンを断片化することによって誘導されるフラグメントのシーケンシングを介して測定することが可能である。
【0011】
健康な個体では、cfDNAは圧倒的に血液細胞(すなわち造血細胞系列の細胞)のアポトーシスに由来する。これらの細胞はプログラムされた細胞死を経るので、それらのゲノムDNAは切断され循環中に放出される(循環中で前記DNAはヌクレアーゼによって分解され続ける)。cfDNAの長さの分布は、約10.5塩基対(bp)の周期で変動し(これはヌクレオソームの周りに巻き付いているDNAのらせんピッチと一致する)、さらに顕著なピークを167bp周辺(リンカー結合モノヌクレオソームと結合するDNAの長さと一致する)に有する(
図2)。前記実証から、cfDNAのヌクレオソームとの結合は、循環中での完全で急速な分解からcfDNAを保護するという仮説に至った。また別の可能性は、長さ分布はアポトーシスそのものの最中のDNA切断パターンから単純に生じるということである(前記はヌクレオソームの配置によって直接影響を受ける)。それにもかかわらず、cfDNAの長さの分布は、cfDNAを生じる断片化プロセスはヌクレオソームの配置によって影響を受けるという証拠を提供する。
【0012】
いくつかの実施態様では、本開示は、ヌクレオソームマップを、体液由来cfDNA又はクロマチンの断片化から誘導されるDNAのライブラリー構築及び大量パラレルシーケンシングによる分布(a)、(b)及び/又は(c)の測定と規定する(前記クロマチンの断片化は、酵素(例えばマイクロコッカスヌクレアーゼ(MNase)、DNase又はトランスポザーゼ)、又はヌクレオソーム若しくはクロマトソームの間で或いはそれらの境界でゲノムDNAを優先的に断片化する同等の手順による)。下記で述べるように、これらの分布を“変換”して、ゲノムの多様なサブセット内のヌクレオソームの配置取りによる周期的シグナルを、例えば連続ウインドウ中或いはまたゲノムの不連続サブセット中(転写因子結合サイト、遺伝子モデル特徴(例えば転写因子開始サイト又は遺伝子本体)、トポロジカルに結合するドメイン、組織発現データ又はヌクレオソームの配置と相関関係を有する他のものによって定される)で周期性を定量し、集合化又は集約することができる。さらに、これらは組織特異的データによって規定することができるかもしれない。例えば、組織特異的DNase I高感受性サイトの近傍のシグナルを集合化又は集約することができよう。
本開示は、血漿由来cfDNAフラグメントから推論されるin vivoヌクレオソーム保護に関する密でゲノムワイドのマップを提供する。健康な個体のcfDNAから誘導されたCH01マップは、マッピング可能なヒト参照ゲノムのほぼ大半に及ぶ、13M近い、均一な間隔で配置されたヌクレオソーム保護の極大値を含む。CH01ではピークの数は本質的に飽和状態であるが、他の品質測定基準はシーケンシング深度さの関数であることを維持した(
図33A-B)。したがって、本研究及び他の実験のために、追加のゲノムワイドのヌクレオソームマップ(このマップは本発明者らが今日まで実施してきたcfDNAシーケンシングのほぼ全てに基づく)を同一方法で構築した(‘CA01’、14.5億(G)フラグメント;カバレッジ700重;13.0Mピーク)。このマップはより均一な間隔の取り方及びより高度に支持されるピークコールを示すが(
図33A-B、63A-H)、我々は前記が健康個体及び非健康個体の両方に由来するcfDNAに基づくことに注意を喚起する(表1、5)。
本明細書に開示する密でゲノムワイドのヌクレオソーム保護のマップは、ヒト参照ゲノムのマッピング可能部分の飽和に近づき、ヒトゲノムワイドのヌクレオソーム配置又は保護マップの作製のために実施された以前の労作よりも、顕著に均一で期待されたヌクレオソームリピートの長さと一致するピークからピークまでの間隔の取り方を有する(
図63A-H)。ほぼ全ての以前の労作とは対照的に、本明細書で観察されたフラグメントは内因性の生理学的プロセスによって作製され、したがってin vitroのマイクロコッカスヌクレアーゼ消化に随伴する技術的変動を被る恐れは少ない。この参照マップで考えられるcfDNAを生じる細胞タイプは必然的に不均一である(例えば健康な個体ではリンパ系及び骨髄系細胞タイプの混合物)。それにもかかわらず、このマップの相対的完全性は、ヒト細胞におけるヌクレオソームの配置及び間隔、および、ヌクレオソームと後成的調節、転写産物及び核構造との相互作用を指令するプロセスのより深い理解を促進することができる。
【0013】
対象者からの生物学的サンプルにおいてcfDNAの起源を決定する方法
上記で一般的に考察したように、さらに下記の実施例でより具体的に示すように、本技術を用いて、対象者からの生物学的サンプル中のcfDNAに寄与する組織及び/又は細胞タイプを決定することができる。
したがって、いくつかの実施態様では、本開示は、対象者においてセルフリーDNA(cfDNA)を生じる組織及び/又は細胞タイプを決定する方法を提供し、前記方法は、対象者由来の生物学的サンプルからcfDNAを単離する工程(当該単離cfDNAは複数のcfDNAフラグメントを含む);当該複数のcfDNAフラグメントの少なくとも一部分に付随する配列を決定する工程;当該複数のcfDNAフラグメントの少なくともいくつかのcfDNAフラグメント末端の参照ゲノム内のゲノム上の場所を、当該cfDNAフラグメント配列の関数として決定する工程;及び当該cfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の関数として決定する工程を含む。
いくつかの実施態様では、生物学的サンプルは、全血、末梢血血漿、尿又は脳脊髄液を含むか、本質的にそれらから成るか、又はそれら全血、末梢血血漿、尿又は脳脊髄液から成る。
【0014】
いくつかの実施態様では、cfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを決定する工程は、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所又はそれらの分布の数学的変換と1つ以上の参照マップとの比較を含む。
本明細書で用いられるように、“参照マップ”という用語は任意のタイプ又は形態のデータを指し、前記は、cfDNA配列がアラインメントされるゲノム(例えば参照ゲノム)内の座標の関数として、対象者からの生物学的サンプル中のcfDNAの属性と相関関係を有するか又は前記の匹敵することができる。参照マップは、任意の適切な手段によって対象者からの生物学的サンプル中のcfDNAの属性と相関させるか又は比較することができる。例えて言えばかつ非限定的に言えば、相関又は比較は、対象者からの生物学的サンプル中のcfDNA末端の周期を、参照ゲノムの同等の座標について規定された数値又は任意の他の状態の観点で、直接的に又は参照ゲノム内のウインドウ全体にわたってそれらの分布について数学的変換を実施した後で、参照マップで分析することによって達成できる。別の非限定的な例では、相関又は比較は、対象者からの生物学的サンプルのcfDNAに基づいて決定したヌクレオソームの間隔を、当該決定したヌクレオソームの間隔の取り方又は当該ヌクレオソームの間隔と相関関係を有する別の特性の観点から参照マップで分析することによって達成できる。
【0015】
参照マップは、任意の適切なデータ源に由来するか又はそれらから導ける。前記データ源には例えば、ゲノム情報の公開データベース、公表データ、又は各々共通の属性(例えば疾患の状態)を有しうる参照対象者の具体的集団について作製されたデータが含まれる。いくつかの実施態様では、参照マップはDNase I高感受性データセットを含む。いくつかの実施態様では、参照マップはRNA発現データセットを含む。いくつかの実施態様では、参照マップは染色体コンフォーメーションマップを含む。いくつかの実施態様では、参照マップはクロマチン接近容易性マップを含む。いくつかの実施態様では、参照マップは、ある疾患又は異常に付随する少なくとも1つの組織又は細胞タイプから作製される。いくつかの実施態様では、参照マップは、ある組織又は細胞タイプにおけるヌクレオソーム及び/又はクロマトソームの位置を含む。いくつかの実施態様では、参照マップは、外因性ヌクレアーゼ(例えばマイクロコッカスヌクレアーゼ)によるクロマチンの消化を含む手順によって作製される。いくつかの実施態様では、参照マップは、転移による方法(例えばATAC-seq)によって決定されるクロマチン接近容易性データを含む。いくつかの実施態様では、参照マップは、ある組織又は細胞タイプのDNA結合及び/又はDNA占拠タンパク質の位置に付随するデータを含む。いくつかの実施態様では、DNA結合及び/又はDNA占拠タンパク質は転写因子である。いくつかの実施態様では、位置は、架橋したDNA-タンパク質複合体のクロマチン免疫沈澱を含む手順によって決定される。いくつかの実施態様では、位置は、当該組織又は細胞タイプに付随するDNAのヌクレアーゼ(例えばDNase I)による処理を含む手順によって決定される。いくつかの実施態様では、参照マップは、既知の疾患を有する1人以上の個体に由来する生物学的サンプルのcfDNAフラグメントのシーケンシングによって作製される。いくつかの実施態様では、この生物学的サンプル(前記から参照マップが作製される)は、ヒト細胞又は組織が異種移植された動物から収集される。
いくつかの実施態様では、参照マップは、ある組織又は細胞タイプのDNA結合又はDNA占拠タンパク質の位置に対応する生物学的特徴を含む。いくつかの実施態様では、参照マップは、1つ以上の遺伝子の定量的なRNA発現に対応する生物学的特徴を含む。いくつかの実施態様では、参照マップは、1つ以上のヒストンマークの有無に対応する生物学的特徴を含む。いくつかの実施態様では、参照マップは、ヌクレアーゼ切断に対する高感受性に対応する生物学的特徴を含む。
【0016】
cfDNA末端の少なくともいくつかのゲノム上の場所を1つ以上の参照マップと比較する工程は多様な方法で達成できる。いくつかの実施態様では、生物学的サンプルから作製されるcfDNAデータ(例えばcfDNAフラグメントのゲノム上の場所、それらの末端、それらの末端の周期、及び/又はそれらの分布から推論されるヌクレオソームの間隔の取り方)が1つ以上の参照マップと比較される。そのような実施態様では、生物学的サンプル中のcfDNAと最高の相関関係を有する参照マップと関係する組織又は細胞タイプが寄与しているとみなされる。例えて言えばかつ非限定的に言えば、cfDNAデータが、ありそうに思われるcfDNAの末端及び参照ゲノム内のそれらの場所の一覧を含むならば、cfDNA末端及びそれらの参照ゲノム内の場所のもっとも類似する一覧を有する参照マップが寄与していると考えることができる。別の非限定的な例として、生物学的サンプルに由来するcfDNAフラグメント末端の分布の数学的変換と最高の相関関係を有する(又は健康な対象者由来のcfDNAと比較して相関関係が増加する)参照マップが寄与していると考えることができる。寄与していると考えられるそれら参照マップに一致する組織タイプ及び/又は細胞タイプは、したがって当該生物学的サンプルから単離されたcfDNAの潜在的な供給源と考えられる。
いくつかの実施態様では、cfDNAを生じる組織及び/又は細胞タイプの少なくともいくつかを決定する工程は、cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の分布の数学的変換を実施する工程を含む。本技術に関係する使用に適切な数学的変換の非限定的な一例はフーリエ変換、例えば高速フーリエ変換(“FFT”)である。
【0017】
いくつかの実施態様では、当該方法はさらに、参照ゲノムの少なくともいくつかの座標の各々についてスコアを決定する工程を含み、ここで当該スコアは少なくとも複数のcfDNAフラグメント末端およびその末端のゲノム上の位置の関数として決定され、さらに、観察されるcfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを決定する工程は当該スコアを1つ以上の参照マップと比較する工程を含む。スコアは、参照ゲノムの座標に相対的値又は絶対的値を割り当てるために用いることができる任意の測量基準(たとえば数値的ランク付けまたは確率)でありうる。例えば、スコアは、ある確率(例えば座標がcfDNAフラグメント末端の場所を表す確率、又は座標がヌクレオソーム若しくはタンパク質結合によってヌクレアーゼ切断から優先的に保護されるゲノムの場所を表す確率)から成るか、又は前記確率と関係性を有することができる。別の例として、スコアは、ゲノムの特定の領域内におけるcfDNAフラグメント末端の分布の数学的変換によって決定されるように、当該領域内のヌクレオソームの間隔の取り方と関係を有することができる。そのようなスコアは、以下を含む任意の適切な手段によって当該座標に割り当てることができる:例えば特定の座標と関連する絶対的又は相対的事象(例えばcfDNA末端の数)を計測するか、又は当該領域若しくはゲノム座標のそのような計測値に関して数学的変換を実施する。いくつかの実施態様では、ある座標についてのスコアは、当該座標がcfDNAフラグメント末端の場所であるという確率と結びついている。他の実施態様では、ある座標のスコアは、当該座標が、ヌクレオソーム又はタンパク質結合によってヌクレアーゼ切断から優先的に保護されるゲノムの場所を表すという確率と結びついている。いくつかの実施態様では、スコアは、当該座標の当該ゲノム領域でのヌクレオソームの間隔の取り方と結びついている。
【0018】
本明細書に記載する方法で言及する組織及び/又は細胞タイプは、cfDNAを生じる任意の組織又は細胞タイプでありうる。いくつかの実施態様では、組織又は細胞タイプはある疾患又は異常を有する対象者の一次組織である。いくつかの実施態様では、疾患又は異常は以下から成る群から選択される:癌、正常妊娠、妊娠(例えば異数性妊娠)の合併症、心筋梗塞、炎症性腸疾患、全身性自己免疫疾患、局所性自己免疫疾患、拒絶を伴う同種間移植、拒絶を伴わない同種間移植、卒中、及び局在性組織損傷。
いくつかの実施態様では、組織又は細胞タイプは健康な対象者の一次組織である。
いくつかの実施態様では、組織又は細胞タイプは不死化細胞株である。
いくつかの実施態様では、組織又は細胞タイプは腫瘍の生検である。
いくつかの実施態様では、参照マップは、少なくとも1人の参照対象者から入手したサンプルから得られる配列に基づく。いくつかの実施態様では、この配列データは、例えば参照マップが既知疾患を有する対象者のcfDNAのシーケンシングによって作製される場合は、参照ゲノム内のcfDNAフラグメント末端の場所を規定する。他の実施態様では、この配列データ(参照マップは前記データに基づく)は以下の任意の1つ以上を含むことができる:DNase I高感受性サイトデータセット、RNA発現データセット、染色体コンフォーメーションマップ、クロマチン接近容易性マップ、又はマイクロコッカスヌクレアーゼによるクロマチン消化によって作製されるヌクレオソームの間隔の取り方マップ。
いくつかの実施態様では、参照対象者は健康である。いくつかの実施態様では、参照対象者は、場合によって以下から成る群から選択される疾患又は異常を有する:癌、正常妊娠、妊娠(例えば異数性妊娠)の合併症、心筋梗塞、炎症性腸疾患、全身性自己免疫疾患、局所性自己免疫疾患、拒絶を伴う同種間移植、拒絶を伴わない同種間移植、卒中、及び局在性組織損傷。
【0019】
いくつかの実施態様では、参照マップは、当該組織又は細胞タイプと結びついた参照ゲノムの座標の少なくとも一部分に対するスコアを含む。いくつかの実施態様では、参照マップは、スコアの数学的変換(例えばスコアのフーリエ変換)を含む。いくつかの実施態様では、スコアは、当該組織又は細胞タイプに対する参照ゲノム座標の注釈に基づく。いくつかの実施態様では、スコアはヌクレオソーム及び/又はクロマトソームの位置に基づく。いくつかの実施態様では、スコアは転写開始サイト及び/又は転写終了サイトに基づく。いくつかの実施態様では、スコアは少なくとも1つの転写因子の予測される結合サイトに基づく。いくつかの実施態様では、スコアは予測されるヌクレアーゼ高感受性サイトに基づく。いくつかの実施態様では、スコアは予測されるヌクレオソームの間隔に基づく。
いくつかの実施態様では、スコアは少なくとも1つのオルトゴナルな生物学的特徴と結びついている。いくつかの実施態様では、オルトゴナルな生物学的特徴は高度に発現される遺伝子と結びついている。いくつかの実施態様では、オルトゴナルな生物学的特徴は低発現遺伝子と結びついている。
いくつかの実施態様では、複数のスコアの少なくともいくつかは閾(最小)値を超える値を有する。そのような実施態様では、閾(最小)値より低いスコアは、参照マップとのスコアの比較工程から除外される。いくつかの実施態様では、閾値は、cfDNAを生じる組織及び/又は細胞タイプの決定前に決定される。他の実施態様では、閾値は、cfDNAを生じる組織及び/又は細胞タイプの決定後に決定される。
【0020】
いくつかの実施態様では、cfDNAを生じる組織及び/又は細胞タイプを、当該cfDNAフラグメント末端の少なくともいくつかの複数のゲノム上の場所の関数として決定する工程は、サンプルのcfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の分布の数学的変換を1つ以上の参照マップの1つ以上の特徴と比較する工程を含む。この目的に適切な数学的変換の非限定的な一例は、フーリエ変換(例えば高速フーリエ変換(“FFT”))である。
本明細書に記載されるいずれかの実施態様では、当該方法はさらに、単離cfDNAを生じると決定された組織及び/又は細胞タイプの一覧を含む報告を作製する工程を含む。当該報告は場合によってさらに以下についての任意の情報を含む:サンプル及び/又は対象者、生物学的サンプルのタイプ、生物学的サンプルを対象者から入手した日付、cfDNA単離工程を実施した日付、及び/又は生物学的サンプルから単離されたいずれのcfDNAもおそらく生じなかった組織及び/又は細胞タイプ。
いくつかの実施態様では、当該報告はさらに推奨される処理プロトコルを含む。前記プロトコルは、例えて言えばかつ非限定的に言えば、対象者から追加の診断検査を入手することの勧め、治療レジメンの開始の勧め、既存の治療レジメンの対象者に関する改変の勧め、及び/又は既存の治療レジメンの一時停止又は中止の勧めを含む。
【0021】
対象者における疾患又は異常を識別する方法
上記で一般的に考察し、さらに下記実施例でより具体的に示すように、本開示技術を用いて、疾患若しくは異常又は疾患若しくは異常が存在しないことを、対象者からの生物学的サンプルに寄与する組織及び/又は細胞タイプに少なくとも部分的に基づいて決定(例えば予測)することができる。
したがって、いくつかの実施態様では、本開示は対象者の疾患又は異常を識別する方法を提供し、前記方法は以下の工程を含む:対象者からの生物学的サンプルからセルフリーDNA(cfDNA)を単離する工程(当該単離cfDNAは複数のcfDNAを含む);当該複数のcfDNAフラグメントの少なくとも一部分に付随する配列を決定する工程;当該複数のcfDNAフラグメントの少なくともいくつかのcfDNAフラグメントの末端の参照ゲノム内のゲノム上の場所を、当該cfDNAフラグメント配列の関数として決定する工程;当該cfDNAを生じる組織及び/又は細胞タイプの少なくともいくつかを、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の関数として決定する工程;及び当該疾患又は異常を、当該cfDNAを生じると決定された組織及び/又は細胞タイプの関数として同定する工程。
いくつかの実施態様では、生物学的サンプルは全血、末梢血血漿、尿又は脳脊髄液を含むか、本質的に前記から成るか、又は前記から成る。
【0022】
いくつかの実施態様では、cfDNAフラグメントを生じる組織及び/又は細胞タイプを決定する工程は、当該cfDNAフラグメント末端の少なくともいくつかのゲノム上の場所又はそれらの分布の数学的変換を1つ以上の参照マップと比較する工程を含む。これらの実施態様と関連して用いられる“参照マップ”という用語は、対象者からの生物学的サンプル中のcfDNAを生じる組織及び/又は細胞タイプを決定する方法に関して上記に記載した意味と同じ意味を有することができる。いくつかの実施態様では、参照マップは以下の任意の1つ以上を含むことができる:DNase I高感受性サイトデータセット、RNA発現データセット、染色体コンフォーメーションマップ、クロマチン接近容易性マップ、少なくとも1人の参照対象者から入手されるサンプルから作製される配列データ、疾患又は異常に付随する少なくとも1つの組織に対応する酵素媒介断片化データ、及び/又はある組織又は細胞タイプのヌクレオソーム及び/又はクロマトソームの位置。いくつかの実施態様では、参照マップは、既知の疾患を有する1人以上の個体に由来する生物学的サンプルのcfDNAフラグメントのシーケンシングによって作製される。いくつかの実施態様では、この生物学的サンプル(前記から参照マップが作製される)は、ヒト細胞又は組織が異種移植された動物から収集される。
【0023】
いくつかの実施態様では、参照マップは、外因性ヌクレアーゼ(例えばマイクロコッカスヌクレアーゼ)によるクロマチンの消化によって作製される。いくつかの実施態様では、参照マップは、転移による方法(例えばATAC-seq)によって決定されるクロマチン接近容易性データを含む。いくつかの実施態様では、参照マップは、ある組織又は細胞タイプのDNA結合及び/又はDNA占拠タンパク質の位置に付随するデータを含む。いくつかの実施態様では、DNA結合及び/又はDNA占拠タンパク質は転写因子である。いくつかの実施態様では、位置は、架橋したDNA-タンパク質複合体のクロマチン免疫沈澱によって決定される。いくつかの実施態様では、位置は、当該組織又は細胞タイプに付随するDNAをヌクレアーゼ(例えばDNase I)で処理することによって決定される。
いくつかの実施態様では、参照マップは、ある組織又は細胞タイプのDNA結合又はDNA占拠タンパク質の位置に対応する生物学的特徴を含む。いくつかの実施態様では、参照マップは、1つ以上の遺伝子の定量的な発現に対応する生物学的特徴を含む。いくつかの実施態様では、参照マップは、1つ以上のヒストンマークの有無に対応する生物学的特徴を含む。いくつかの実施態様では、参照マップは、ヌクレアーゼ切断に対する高感受性に対応する生物学的特徴を含む。
いくつかの実施態様では、当該cfDNAを生じる組織及び/又は細胞タイプを決定する工程は、当該複数のcfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の分布に関して数学的変換を実施する工程を含む。いくつかの実施態様では、数学的変換はフーリエ変換を含む。
【0024】
いくつかの実施態様では、当該方法はさらに、参照ゲノムの少なくともいくつかの座標の各々についてスコアを決定する工程を含み、ここで前記スコアは当該少なくとも複数のcfDNAフラグメント末端及びそれらのゲノム上の場所の関数として決定され、さらに、観察されるcfDNAフラグメントを生じる組織及び/又は細胞タイプの少なくともいくつかを決定する工程は、当該スコアを1つ以上のマップと比較する工程を含む。スコアは、参照ゲノムの座標に相対的又は絶対的値を割り当てるために用いることができる任意の測量基準(例えば数値的ランキング又は確率)でありうる。例えば、スコアは、ある確率(例えば座標がcfDNAフラグメント末端の場所を表す確率、又は座標がヌクレオソーム若しくはタンパク質結合によってヌクレアーゼ切断から優先的に保護されるゲノムの場所を表す確率)から成るか、又は前記確率と関係性を有することができる。別の例として、スコアは、ゲノムの特定の領域内におけるcfDNAフラグメント末端の分布の数学的変換によって決定されるように、当該領域内のヌクレオソームの間隔と関係を有することができる。そのようなスコアは、以下を含む任意の適切な手段によって当該座標に割り当てることができる:例えば特定の座標と結びついた絶対的又は相対的事象(例えばcfDNA末端の数)を計測するか、又は当該領域若しくはゲノム座標のそのような計測値に関して数学的変換を実施する。いくつかの実施態様では、ある座標についてのスコアは、当該座標がcfDNAフラグメント末端の場所であるという確率と結びついている。他の実施態様では、ある座標のスコアは、当該座標が、ヌクレオソーム又はタンパク質結合によってヌクレアーゼ切断から優先的に保護されるゲノムの場所を表す確率と結びついている。いくつかの実施態様では、スコアは、当該座標の当該ゲノム領域でのヌクレオソームの間隔と結びついている。
【0025】
これらの実施態様と関連して用いられる“スコア”という用語は、対象者の生物学的サンプルのcfDNAを生じる組織及び/又は細胞タイプを決定する方法に関して上記で述べた意味と同じ意味を有することができる。いくつかの実施態様では、ある座標のスコアは、当該座標がcfDNAフラグメント末端の場所であるという確率と結びついている。他の実施態様では、ある座標のスコアは、当該座標が、ヌクレオソーム又はタンパク質結合によってヌクレアーゼ切断から優先的に保護されるゲノムの場所を表す確率と結びついている。いくつかの実施態様では、スコアは、当該座標の当該ゲノム領域でのヌクレオソームの間隔の取り方と結びついている。
いくつかの実施態様では、参照マップの作製に用いられる組織又は細胞タイプはある疾患又は異常を有する対象者の一次組織である。いくつかの実施態様では、疾患又は異常は以下から成る群から選択される:癌、正常妊娠、妊娠(例えば異数性妊娠)の合併症、心筋梗塞、全身性自己免疫疾患、局所性自己免疫疾患、炎症性腸疾患、拒絶を伴う同種間移植、拒絶を伴わない同種間移植、卒中、及び局在性組織損傷。
いくつかの実施態様では、組織又は細胞タイプは健康な対象者の一次組織である。
いくつかの実施態様では、組織又は細胞タイプは不死化細胞株である。
いくつかの実施態様では、組織又は細胞タイプは腫瘍の生検である。
【0026】
いくつかの実施態様では、参照マップは、少なくとも1人の参照対象者から入手したサンプルから得られる配列に基づく。いくつかの実施態様では、この配列データは、例えば参照マップが既知疾患を有する対象者のcfDNAのシーケンシングによって作製される場合は、参照ゲノム内のcfDNAフラグメント末端の場所を規定する。他の実施態様では、この配列データ(参照マップは前記データに基づく)は以下の任意の1つ以上を含むことができる:DNase I高感受性サイトデータセット、RNA発現データセット、染色体コンフォーメーションマップ、クロマチン接近容易性マップ、又はマイクロコッカスヌクレアーゼによる消化によって作製されるヌクレオソームの配置マップ。いくつかの実施態様では、参照対象者は健康である。いくつかの実施態様では、参照対象者は疾患又は異常を有する。いくつかの実施態様では、当該疾患又は異常は以下から成る群から選択される:癌、正常妊娠、妊娠(例えば異数性妊娠)の合併症、心筋梗塞、全身性自己免疫疾患、炎症性腸疾患、局所性自己免疫疾患、拒絶を伴う同種間移植、拒絶を伴わない同種間移植、卒中、及び局在性組織損傷。
【0027】
いくつかの実施態様では、参照マップは、当該組織又は細胞タイプに結びついている参照ゲノムの少なくとも一部分に対するcfDNAフラグメント末端確率、又はそのような確率と相関性を有する量を含む。いくつかの実施態様では、参照マップは、当該cfDNAフラグメント末端確率又はそのような確率と相関性を有する量の数学的変換を含む。
いくつかの実施態様では、参照マップは、当該組織又は細胞タイプに結びついた参照ゲノムの座標の少なくとも一部分に対するスコアを含む。いくつかの実施態様では、参照マップは、スコアの数学的変換(例えばスコアのフーリエ変換)を含む。いくつかの実施態様では、スコアは当該組織又は細胞タイプに対する参照ゲノム座標の注釈に基づく。いくつかの実施態様では、スコアはヌクレオソーム及び/又はクロマトソームの位置に基づく。いくつかの実施態様では、スコアは転写開始サイト及び/又は転写終了サイトに基づく。いくつかの実施態様では、スコアは少なくとも1つの転写因子の予測される結合サイトに基づく。いくつかの実施態様では、スコアは予測されるヌクレアーゼ高感受性サイトに基づく。
【0028】
いくつかの実施態様では、スコアは少なくとも1つのオルトゴナルな生物学的特徴と結びついている。いくつかの実施態様では、オルトゴナルな生物学的特徴は高発現遺伝子と結びついている。いくつかの実施態様では、オルトゴナルな生物学的特徴は低発現遺伝子と結びついている。
いくつかの実施態様では、当該複数のスコアの少なくともいくつかは各々閾値を超えるスコアを有する。そのような実施態様では、閾(最小)値より低いスコアは、当該スコアを参照マップと比較する工程から除外される。いくつかの実施態様では、閾値は、cfDNAを生じる組織及び/又は細胞タイプの決定前に決定される。他の実施態様では、閾値は、cfDNAを生じる組織及び/又は細胞タイプの決定後に決定される。
いくつかの実施態様では、cfDNAを生じる組織及び/又は細胞タイプを、当該cfDNAフラグメント末端の少なくともいくつかの複数のゲノム上の場所の関数として決定する工程は、サンプルのcfDNAフラグメント末端の少なくともいくつかのゲノム上の場所の分布の数学的変換を1つ以上の参照マップの1つ以上の特徴と比較する工程を含む。
いくつかの実施態様では、この数学的変換はフーリエ変換を含む。
いくつかの実施態様では、参照マップは、当該疾患又は異常と結びついた少なくとも1つの組織に対応する酵素媒介断片化データを含む。
いくつかの実施態様では、参照ゲノムはヒトに付随する。
【0029】
本発明のある特徴では、体液中のcfDNAの分析による悪性疾患の検出、モニタリング並びの供給源組織及び/又は細胞タイプの判断のために、本明細書に記載の方法が用いられる。悪性疾患を有する患者で、体液(例えば循環血漿)中のcfDNAの一部分が腫瘍に由来しうるということは今では文書で十分に裏付けられている。本明細書に記載の方法を用いて、この腫瘍由来部分を検出及び定量できる可能性は高い。さらにまた、ヌクレオソーム占拠マップは細胞タイプ特異的であるので、本明細書に記載の方法を用いて、悪性疾患の供給源組織及び/又は細胞タイプを決定できる可能性は高い。さらにまた上記で特記したように、癌では循環血漿cfDNAの濃度に大きな増加があり、前記は腫瘍そのものの寄与に対して潜在的に不均衡であることが観察されている。これは、癌では他の組織(例えば間質系、免疫系)が循環血漿cfDNAに寄与する可能性を示唆している。そのような他の組織のcfDNAへの寄与があるタイプの癌について患者間で一貫しているかぎりにおいては、上記に記載の方法は、癌細胞それ自体ではなくこれらの他の組織のシグナルに基づいて癌検出、癌モニタリング、及び/又は供給源組織及び/又は細胞タイプの割り当てを可能にしうる。
本発明の別の特徴では、組織の損傷の検出、モニタリング並びに供給源組織及び/又は細胞タイプの判断のために、本明細書に記載の方法が用いられる。多くの病理学的プロセスが損傷組織に由来する体液(例えば循環血漿)中のcfDNAの一部分を生じるであろうということは予測できる。本明細書に記載の方法を用いて、組織損傷に由来するcfDNAを検出及び定量できる可能性は高い(対応する供給源組織及び/又は細胞タイプの識別を含む)。これは、病理学的プロセス(心筋梗塞(心臓組織の急性損傷)、自己免疫疾患(多岐にわたる組織の慢性損傷)及び急性又は慢性組織損傷を伴う多くの他のものを含む)の診断及び/又はモニタリングを可能にしうる。
【0030】
本発明の別の特徴では、妊娠におけるcfDNAの胎児画分の推定及び/又は染色体若しくは他の遺伝子異常の検出強化のために、本明細書に記載の方法が用いられる。上記に記載のヌクレオソームマップと一緒にすれば、母体血漿運搬DNAフラグメントの相対的に低深度のシーケンシングは、費用効率が高く迅速な男女の両胎児妊娠で胎児部分の推定を可能にすることができる。さらにまた、母体ゲノム又は胎児ゲノムに由来したかもしれないという可能性に関して、不均一な確率を個々のシーケンシング読取り(リード)に割り当てることを可能にすることによって、これらの方法はまた、母体の体液中のcfDNAの分析を介して染色体異常(例えばトリソミー)を検出することを目的とする検査のパフォーマンスを強化することができる。
本発明の別の特徴では、cfDNAへの移植(自家移植又は同種移植片)の寄与を定量するために、本明細書に記載の方法が用いられる。急性同種移植片拒絶の早期及び非侵襲性検出の従来の方法は、血漿運搬DNAのシーケンシング及びドナーゲノム由来フラグメントの濃度増加の認定を必要とする。このアプローチは、例えば5-10%のドナー画分を検出するために、このプールフラグメントの相対的に高深度シーケンシング(deep sequencing)を必要とする。前記に代わって提供器官のヌクレオソームマップに基づくアプローチは、深度のより低いシーケンシングで同様な推定を、又は同等量のシーケンシングでより感度の高い推定を可能にすることができる。癌と同様に、移植片そのもの以外の細胞タイプが移植片拒絶時にcfDNA組成に寄与することもまたありうる。そのような他の組織のcfDNAへの寄与が移植片拒絶時の患者間で一貫しているかぎり、上記に記載の方法は、移植ドナー細胞それ以外のこれら他の組織に由来するシグナルに基づいて移植片拒絶をモニターすることを可能にする。
【0031】
本開示の追加の実施態様
本開示はまた、ある既知の疾患又は異常を有する対象者から作製したヌクレオソーム参照マップを用いてある疾患又は異常を診断する方法を提供する。いくつかのそのような実施態様では、前記方法は以下の工程を含む:(1)ヌクレオソームマップの参照セットを作製する工程(ここで各ヌクレオソームマップは以下のいずれかから誘導される:所定の臨床症状(例えば正常、妊娠、癌タイプA、癌タイプBなど)を有する個体の体液に由来するcfDNA、及び/又は特定の組織及び/又は細胞タイプのクロマチンの消化に由来するDNA);(2)個体のcfDNAに由来するヌクレオソームマップを当該ヌクレオソームマップの参照セットと比較することによって、当該個体の体液から臨床症状及び/又はcfDNAの供給源組織/細胞タイプ組成を予測する工程。
工程1:ヌクレオソームマップの参照セットの作製、及びヌクレオソーム配置に由来するシグナルの集合化又は集約。
ヌクレオソームマップの作製のために好ましい方法は、DNAの精製、ライブラリーの構築(アダプター連結及びことによるとPCR増幅による)、及び体液由来cfDNAの大量パラレルシーケンシングを含む。ヌクレオソームマップのまた別の供給源(前記は参照点として本発明の関係で又は変型物の主要成分の識別のために有用である)は、マイクロコッカスヌクレアーゼ(MNase)、DNase処理、ATAC-Seq又は他の関連方法によるクロマチンの消化から誘導されるDNAであり、ここでヌクレオソームの配置についての情報は分布(a)、(b)又は(c)で捕捉される。これらの分布(a)、(b)及び(c)の記述は上記段落[0009]で提供され、さらに
図1のグラフで示されている。
【0032】
原則として、そのようなライブラリーの非常に高深度のシーケンシングを用いて、cfDNAに寄与する集合細胞タイプで当該ゲノムの特定の座標におけるヌクレオソーム占拠を定量することができるが、しかし今日これは非常に費用がかかる。しかしながら、ヌクレオソーム占拠パターンに付随するシグナルは、当該ゲノムの連続又は不連続領域にわたって集約又は集合化することができる。例えば、本明細書に提供する実施例1又は2では、シーケンシング読取り開始サイト位置がマップされる参照ヒトゲノムのサイト分布(すなわち分布(a))が、10キロ塩基対(kbp)の連続ウインドウでフーリエ変換に付され、続いてヌクレオソーム占拠に付随する周期範囲について強度の定量が実施される。これは、ヌクレオソームが構造化された配置を10kbpウインドウ内で示す範囲を効率的に集約する。本明細書で提供される実施例3では、我々は、特定の転写因子(TF)の転写因子結合サイト(TFBS)の直近にシーケンシング読取り開始サイト位置がマップされる参照ヒトゲノムにおいてサイトの分布(すなわち分布(a))を定量する(TFがTFBSと結合するときはしばしば当該サイトの直ぐ側にヌクレオソームがフランキングする)。これは、cfDNAに寄与する細胞タイプのTF活性の結果としてヌクレオソームの配置を効率的に集約する。重要なことに、ヌクレオソーム占拠シグナルを有意義に集約することができる多くの関連する方法が存在する。これら方法には、他のゲノム上の目印(例えばDNase I高感受性サイト、転写開始サイト、トポロジカルドメイン、他の後成的な目印又は、他のデータセット(例えば遺伝子発現など)での相関的動態によって規定される全てのそのようなサイト)周辺で分布(a)、(b)及び/又は(c)のシグナルの集合化が含まれる。シーケンシグの費用がさらに低下するので、未知のcfDNAサンプルと比較するために、ヌクレオソーム占拠のマップ(既知疾患に付随するcfDNAサンプルから作製されるマップを含む)を参照マップとして、直接(すなわちシグナルを集合化することなく)使用することもまた可能であろう。いくつかの実施態様では、この(ヌクレオソーム占拠の参照マップが作製される)生物学的サンプルは、(ヒト細胞又は組織が異種移植される)動物から収集される。この利点は、造血細胞系列と一緒に問題の細胞/組織に由来するcfDNA混合物が提示されるのとは対照的に、ヒトゲノムをマッピングする配列決定cfDNAフラグメントは、例外なく当該異種移植された細胞又は組織に由来する。
【0033】
工程2:1つ以上の新規な個体/サンプルのcfDNA誘導ヌクレオソームマップをヌクレオソームマップの参照セットと、直接又は各マップの数学的変換後に比較することに基づく病理、臨床症状、及び/又は供給源組織/細胞タイプの予測。
いったんヌクレオソームマップの参照セットを作製したら、追加のヌクレオソームマップを参照セットと比較する多様な統計的シグナルのプロセッシング方法が存在する。実施例1及び2では、まず初めに多岐にわたるサンプルセット中の当該ゲノムに沿って10kbpウインドウでロングレンジヌクレオソーム順番付けを集約し、続いて主要成分分析(PCA)を実施して、サンプルをクラスター化するか(実施例1)又は混合割合を推定する(実施例2)。我々は、これらの実施例で用いられるcfDNAサンプルの全ての臨床症状及び全ての細胞株サンプルの供給源組織/細胞タイプを承知しているが、これらサンプルの一切は“未知のもの”であり、かつ臨床症状の有無又はその供給源組織/細胞タイプの予測に用いられるPCA分析におけるその動態(前記は他の全てのヌクレオソームマップと対比されるPCA分析におけるその動態に基づく)は不明である。
当該未知のサンプルでは、参照セットの1+メンバーと1:1の態様で厳密に適合することは必ずしも要求されない。逆に、互いに対するその類似性を定量することができ(実施例1)、又はそのヌクレオソームマップを参照セットに由来する2+サンプルの不均一混合物のモデルにすることができる(実施例2)。
【0034】
本発明の方法の成功がするために、各サンプル中のcfDNAの供給源組織/細胞タイプの組成を予測すること又は最終的に知ることは必要とされない。寧ろ、本明細書に記載の方法は、個々の病理又は臨床症状の関係でcfDNAの供給源組織及び/又は細胞タイプの組成の一貫性を必要とする。しかしながら、クロマチンの消化に由来するDNAを分析しこれらをヌクレオソームマップに加えて多数の組織及び/又は細胞タイプのヌクレオソームマップを直接調査することによって、未知のcfDNA由来サンプルに寄与する組織及び/又は細胞タイプを推測することが可能となろう。
本明細書に記載する任意の実施態様で、当該方法はさらに、疾患又は異常を識別する記述を含む報告を作製する工程を含むことができる。いくつかの実施態様では、当該報告はさらに、当該単離cfDNAを生じたと決定される組織及び/又は細胞タイプの一覧を含むことができる。いくつかの実施態様では、当該報告はさらに、当該対象者と関係することがおそらくない疾患及び/又は異常の一覧を含む。当該報告は場合によってさらに、当該サンプル及び/又は対象者、生物学的サンプルのタイプ、生物学的サンプルが対象者から入手された日付、cfDNA単離工程が実施された日付、及び/又は当該生物学的サンプルから単離されたcfDNAのいずれもおそらくそれらから生じたのではないであろうと思われる組織及び/又は細胞タイプについての任意の他の情報を含むことができる。
いくつかの実施態様では、当該報告はさらに以下を含む推奨治療プロトコルを含む:例えて言えばかつ非限定的に言えば、対象者の追加の診断検査の入手の助言、治療レジメン開始の助言、対象者に関する既存レジメンの改変の助言、及び/又は既存の治療レジメンの一時停止又は停止の助言。
【実施例0035】
セルフリーDNAヌクレオソームマップの主要構成要素分析
cfDNA抽出物及びMNase消化実験から得られたシーケンシングデータにおいて読取り開始位置の分布を調べ、ヌクレオソーム配置に関連するシグナルの存在を評価する。この目的のために、プールcfDNAサンプル(数が明らかでない健康な個体から提供されたものを含むヒト血漿;バルクcfDNA)、単一の健康な男性コントロール個体由来のcfDNAサンプル(MC2.cfDNA)、頭蓋内腫瘍を有する患者に由来する4つのcfDNAサンプル(腫瘍2349、腫瘍2350、腫瘍2351、腫瘍2353)、5つの異なるヒト細胞株由来の6つのMNase消化実験(Hap1.MNase、HeLa.MNase、HEK.MNase、NA12878.MNase、HeLaS3、MCF.7)及び異なる妊婦個体に由来する7つのcfDNAサンプル(gm1matplas、gm2matplas、im1matplas、fgs002、fgs00、fgs004、fgs005)を分析し、女性リンパ芽球系細胞株(NA12878)から抽出したDNAの通常ショットガンシーケンシングデータセットと対比した。プールcfDNA(バルクcfDNA_部分、26%)及び健康男性コントロール個体(MC2.cfDNA_部分、18%)のサブセットも別個のサンプルとして加え、シーケンシング深度の影響を精査した。
読取り開始座標を抽出し、方法のセクションに記載したように高速フーリエ変換(FFT)を用いてピリオドグラムを作製した。この分析は、読取り開始サイトの分布においてどれくらい多くの非均一性が特定の周期(周波数)/周期性のシグナルによって説明できるかを決定する。我々は120-250bpのレンジに焦点を当てた。このレンジは、ヌクレオソームリンカー配列(10-80bp)の追加配列とともに単一ヌクレオソームに巻き付くDNAの長さの範囲(120-250bp)を含む。
図3は、ヒト染色体1及びヒト染色体22の全ブロックに及ぶ各周期についての平均強度を示す。cfDNAサンプルと同様にMNase消化実験は200bp周期性より低い明瞭なピークを示す。そのようなピークはヒトショットガンデータでは観察されない。これらの分析は、cfDNAのフラグメント境界の分布におけるヌクレオソーム配置の主要な効果と一致する。
【0036】
サンプル間の正確なピーク周期の変動もまた観察された。これは、各細胞タイプでリンカー配列の長さの分布が異なることの結果かもしれない。ピークはヌクレオソーム結合DNAパターン+リンカー配列から生じるということは、ピーク周辺にフランキングするものは対称的ではないという観察、及びピークより低い周期と比較してピークより高い周期の強度は低いという観察によって支持される。これは、
図3に提示したプロットに類似するプロットを用いて、cfDNA及びMNaseシーケンシングデータの品質管理を実施することができること示唆している。cfDNA及び通常(ショットガン)DNAによるMNaseのランダムな断片化又は夾雑は希釈を生じ、極端な場合にはこれらの特徴的な強度パターンの完全な消失をもたらすであろう。
以下では、データは、181bpから202bpの周期(周波数)レンジについて決定された全強度および196bpの周期性で測定された強度に基づいて分析された。より高度の解析を提供するためにより広い周波数(周期)レンジを選択した(なぜならば、より広範囲のリンカーの長さが捕捉されているからである)。これらの強度はここでは純粋に計算的理由から焦点を当てて選択されている。関連する実施態様では異なる周期レンジを用いることができる。
図4及び5は、ヒト常染色体の完全長を覆う連続的でオーバーラップしない10kbpブロックにわたって196bpでのピリオドグラム強度の可視化を追求した(詳細については方法の項を参照されたい)。
図4は、データの主要成分分析(PCA)及び最初の3成分に対する推定を示す。主要成分1(PC1)(28.1%の分散)は
図3で観察される強度の強さにおける相違を捕捉し、それによってMNase及びcfDNAサンプルをゲノムショットガンデータから切り離す。対照的に、PC2(9.7%の分散)はMNaseとcfDNAサンプルとの間の相違を捕捉する。PC3(6.4%分散)は個々のサンプル間の相違を捕捉する。
図5はこのデータの階層クラスター化樹形図を示し、前記樹形図は強度ベクターのユークリッド距離に基づく。我々は、これら2つのHeLa S3実験が、(データが異なる研究室で作製され異なる実験プロトコルに従っているにもかかわらず)PCA及び樹形図において堅固なクラスターを形成していることに注目している。“正常”cfDNAサンプル、腫瘍cfDNAサンプル及び細胞株MNaseサンプルグループもまたクラスターを形成した。具体的には、同じ腫瘍タイプ(多形性神経膠芽腫)に由来する3つの腫瘍サンプルは、腫瘍2351(異なる腫瘍タイプに由来する(表1参照))とは別個のクラスターを形成するように思われる。GM1及びIM1サンプルは、妊婦から入手した他のcfDNAサンプルとは別個のクラスターを形成する。これは、これらサンプルのピークより低い周期について観察されるより高い強度と一致する(すなわち
図3のより明瞭な左肩)。これは、2つのサンプルセット間のcfDNAの調製における微妙な相違、又は制御されなかった生物学的相違(例えば妊娠期間)を示しているのかもしれない。
【0037】
図6及び7は同等の分析の結果を示すが、ただし181bpから202bpの周期レンジに基づく。これらのプロットを比較するとき、それらの結果は、より広い周期レンジについて大いに安定しているが、周期の追加はより微細スケールによる分析で感度を改善することができる。供給源細胞タイプ特異的パターンをさらに追及するために、cfDNA及びMNaseデータセットを、この周期レンジに対する強度のPCAを用いて別個に分析した。以下の分析セットでは、妊婦の5つのcfDNAサンプルは除外した(前記サンプルは
図3で明瞭な左肩を示す)。
図8はcfDNAデータの最初の7つの主要成分を示し、
図9は6つのMNaseデータセットについて6つの主要成分の全てを示す。関連するサンプルのクラスター化が存在するが、各サンプルをその残りのサンプルと分離する顕著な変動(生物学的及び技術的変動)もまた存在する。例えば、バルクcfDNAとバルクcfDNA_部分との分離、或いはMC2.cfDNAとMC2.cfDNA_部分との分離から分かるように、シーケンシングの深度の影響が認められた。この技術的な混乱を修正するために読取りサンプリングを用いることができる。
この実験におけるいくつかの重要な観察には以下が含まれる:
1)cfDNAシーケンシングデータの読取り開始座標はヌクレオソーム配置の強力なシグナルを捕捉する。
2)ゲノムのサブセット(例えば連続10kbpウインドウ)にわたって集められた、ヌクレオソーム配置シグナルにおける相違は、サンプルの起源と相関関係を有する。