(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024119898
(43)【公開日】2024-09-03
(54)【発明の名称】セルフリー核酸のフラグメントームプロファイリングのための方法
(51)【国際特許分類】
C12Q 1/6809 20180101AFI20240827BHJP
C12Q 1/6869 20180101ALI20240827BHJP
G16B 20/20 20190101ALI20240827BHJP
C12M 1/00 20060101ALN20240827BHJP
C12M 1/34 20060101ALN20240827BHJP
【FI】
C12Q1/6809 Z
C12Q1/6869 Z
G16B20/20
C12M1/00 A
C12M1/34 Z
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024091417
(22)【出願日】2024-06-05
(62)【分割の表示】P 2021174556の分割
【原出願日】2017-07-06
(31)【優先権主張番号】62/359,151
(32)【優先日】2016-07-06
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/437,172
(32)【優先日】2016-12-21
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/420,167
(32)【優先日】2016-11-10
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/489,399
(32)【優先日】2017-04-24
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.アンドロイド
(71)【出願人】
【識別番号】515059083
【氏名又は名称】ガーダント ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ダイアナ アブドゥエヴァ
(57)【要約】
【課題】セルフリー核酸のフラグメントームプロファイリングのための方法の提供。
【解決手段】本開示は、セルフリーDNAの様々な使用を企図する。一態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を決定するための方法であって、(a)ゲノムの複数の塩基位置でのDNA断片のマルチパラメトリック分布を構築するステップ、および(b)第1の遺伝子座における各々の塩基位置の塩基同一性を考慮に入れることなく、マルチパラメトリック分布を使用して、対象の第1の遺伝子座における遺伝子異常の存在または非存在を決定するステップを含む方法を開示する。
【選択図】なし
【特許請求の範囲】
【請求項1】
図面に記載の発明。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、2016年7月6日に出願された米国仮出願番号第62/359,151号、2016年11月10日に出願された米国仮出願番号第62/420,167号、2016年12月21日に出願された米国仮出願番号第62/437,172号、および2017年4月24日に出願された米国仮出願番号第62/489,399号に基づく優先権を主張しており、これら出願の各々は、参考として本明細書中に全体が援用される。
【背景技術】
【0002】
背景
セルフリー核酸(例えば、DNAまたはRNA)のがん診断アッセイに関する現行の方法は、一塩基バリアント(SNV)、コピー数多様性(CNV)、融合、およびインデル(すなわち、挿入または欠失)を含む腫瘍関連体細胞バリアントの検出に重点を置いており、これらは全てリキッドバイオプシーの主流の標的である。ヌクレオソームポジショニングの結果として生じる新しいタイプの構造バリアントを同定して、腫瘍関連情報に関して測定し、これを体細胞変異コールと組み合わせると、いずれかのアプローチ単独から得ることができる場合よりはるかに包括的な腫瘍ステータスの評価を生じることができるという証拠が増えつつある。クロマチン構成によって影響を受ける核酸断片分布の基礎となる非ランダムパターンを解析することによって、この一組の新規構造バリアントを、体細胞バリアントとは独立して試料中に観察することができ、実際に、体細胞バリアントが検出されない試料中でも観察することができる。
【発明の概要】
【課題を解決するための手段】
【0003】
要旨
ヌクレオソームポジショニングは、遺伝子発現の後成的(epigenetic)制御に寄与し、非常に組織特異性であり、様々な表現型の状況を示す重要なメカニズムである。本開示は、セルフリー核酸(例えば、cfDNA)を使用してヌクレオソームプロファイリングを実施するための方法、システム、および組成物を記載する。これを使用して、新しいドライバー遺伝子を同定すること、コピー数多様性(CNV)を決定すること、体細胞変異ならびに融合およびインデルなどの構造多様性を同定すること、ならびに上記の多様性のいずれかを検出するための多重アッセイにおいて使用できる領域を同定することができる。
【0004】
本開示は、セルフリー核酸(例えば、DNAまたはRNA)の様々な使用を提供する。そのような使用は、疾患(例えば、がん)などの健康状態を有するまたは有することが疑われる対象を検出する、モニターする、および対象の処置を決定するステップを含む。本明細書に提供する方法は、起源組織、疾患、進行等を表すことができるフラグメントームプロファイルを評価するために、体細胞バリアント情報を伴うまたは伴うことなく、配列情報をマクロスケールで包括的に使用しうる。
【0005】
一態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を決定するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのDNA断片のマルチパラメトリック分布を構築するステップ、および(b)対象の第1の座遺伝子座における遺伝子異常の存在または非存在を決定するために、第1の遺伝子座における各塩基位置の塩基同一性を考慮に入れることなく、マルチパラメトリック分布を使用するステップを含む方法を開示する。
【0006】
一部の実施形態では、遺伝子異常は、配列異常を含む。一部の実施形態では、配列異常は、一塩基バリアント(SNV)を含む。一部の実施形態では、配列異常は、挿入もしくは欠失(インデル)、または遺伝子融合を含む。一部の実施形態では、配列異常は、(i)一塩基バリアント(SNV)、(ii)挿入または欠失(インデル)、および(iii)遺伝子融合からなる群から選択される2つまたはそれより多くの異なるメンバーを含む。一部の実施形態では、遺伝子異常は、コピー数多様性(CNV)を含む。
【0007】
一部の実施形態では、マルチパラメトリック分布は、ゲノムの複数の塩基位置の各々と整列するDNA断片の長さを示すパラメータを含む。一部の実施形態では、マルチパラメトリック分布は、ゲノムの複数の塩基位置の各々と整列するDNA断片の数を示すパラメータを含む。一部の実施形態では、マルチパラメトリック分布は、ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数を示すパラメータを含む。一部の実施形態では、マルチパラメトリック分布は、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの2つまたはそれより多くを示すパラメータを含む。一部の実施形態では、マルチパラメトリック分布は、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数を示すパラメータを含む。
【0008】
一部の実施形態では、上記分布を使用するステップは、コンピュータによって、マルチパラメトリック分布を、ゲノムの複数の塩基位置でのDNA断片の複数の他のマルチパラメトリック分布の入力を有する分類器に適用することであって、他のマルチパラメトリック分布が、(a)組織特異的がんを有する対象、(b)特定のステージのがんを有する対象、(c)炎症状態を有する対象、(d)がんに対して無症候性であるが、がんへと進行する腫瘍を有する対象、および(e)治療に対して陽性または陰性の応答を有する対象から選択される群から得られることを含む。
【0009】
一部の実施形態では、分類器は、機械学習エンジンを含む。一部の実施形態では、分類器は、ゲノムの1つまたは複数の遺伝子座で一組の遺伝子バリアントの入力をさらに含む。一部の実施形態では、一組の遺伝子バリアントは、報告された腫瘍マーカーの1つまたは複数の遺伝子座を含む。
【0010】
一部の実施形態では、方法は、分布スコアを決定するために、マルチパラメトリック分布を使用するステップをさらに含む。一部の実施形態では、分布スコアは、遺伝子異常の変異負荷を示している。一部の実施形態では、分布スコアは、ジヌクレオソーム保護を有するDNA断片の数、およびモノヌクレオソーム保護を有するDNA断片の数のうちの1つまたは複数を示す値を含む。
【0011】
一部の実施形態では、方法は、マルチモーダル密度を推定するために、マルチパラメトリック分布を使用するステップ、および遺伝子異常の存在または非存在を決定するために、マルチモーダル密度を使用するステップをさらに含む。一部の実施形態では、マルチモーダル密度を使用するステップは、マルチモーダル密度から識別スコアを生成すること、および識別スコアをカットオフ値と比較して遺伝子異常の存在または非存在を決定することを含む。一部の実施形態では、方法は、残差密度推定値を計算することによって遺伝子異常に関連する遺伝子の発現を推定するステップをさらに含む。一部の実施形態では、方法は、モノヌクレオソームにおける残差密度を計算することによって遺伝子異常に関連する遺伝子のコピー数を推定するステップをさらに含む。
【0012】
別の態様では、本明細書において、試験対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片を使用して、試験対象における遺伝子異常を決定するためのコンピュータ実行分類器であって、(a)複数の対象の各々から得た1つまたは複数のセルフリーDNA集団の各々に関する一組の分布スコアの入力であって、各々の分布スコアが、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの少なくとも1つまたは複数に基づいて生成される、入力、ならびに(b)試験対象における1つまたは複数の遺伝子異常の分類の出力を含む分類器を開示する。
【0013】
一部の実施形態では、分類器は、機械学習エンジンをさらに含む。一部の実施形態では、分類器は、ゲノムの1つまたは複数の遺伝子座で一組の遺伝子バリアントの入力をさらに含む。一部の実施形態では、一組の遺伝子バリアントは、報告された腫瘍マーカーの1つまたは複数の遺伝子座を含む。
【0014】
別の態様では、本明細書において、試験対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片を使用して試験対象における遺伝子異常を決定するためのコンピュータ実行方法であって、(a)試験対象から得たセルフリーDNAからのDNA断片を使用して、試験対象における遺伝子異常を決定するように構成されているコンピュータ実行分類器を提供するステップであって、分類器が訓練セットを使用して訓練される、ステップ、(b)試験対象に関する一組の分布スコアを、分類器に入力として提供するステップであって、各々の分布スコアが、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの1つまたは複数を示す、ステップ、ならびに(c)分類器を使用するステップであって、コンピュータによって、試験対象における遺伝子異常の分類を生成するステップを含む方法を開示する。
【0015】
一部の実施形態では、方法は、(a)の前に、(i)(1)複数の対照対象の各々からの1つまたは複数のセルフリーDNA集団の各々に関する一組の参照分布スコアであって、各々の参照分布スコアが、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの1つまたは複数を示す、一組の参照分布スコア、(2)観察された表現型を有する複数の対象の各々からの1つまたは複数のセルフリーDNA集団の各々に関する一組の表現型分布スコアであって、各々の表現型分布スコアが、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの1つまたは複数を示す、一組の表現型分布スコア、(3)対照対象から得たセルフリーDNA集団の各々に関する一組の参照分類、(4)観察された表現型を有する対象から得たセルフリーDNA集団の各々に関する一組の表現型分類を含む訓練セットを提供するステップ、ならびに(ii)コンピュータによって、訓練セットを使用して分類器を訓練するステップをさらに含む。
【0016】
一部の実施形態では、対照対象は、無症候性の健康な個体を含む。一部の実施形態では、観察された表現型を有する対象は、(a)組織特異的がんを有する対象、(b)特定のステージのがんを有する対象、(c)炎症状態を有する対象、(d)がんに対して無症候性であるが、がんへと進行する腫瘍を有する対象、または(e)治療に対して陽性もしくは陰性の応答を有するがんを有する対象を含む。
【0017】
別の態様では、本明細書において、対象に由来するセルフリーデオキシリボ核酸(DNA)断片を解析するためのコンピュータ実行方法であって、セルフリーDNA断片を表す配列情報を得るステップ、およびセルフリーDNA断片を表すマルチパラメトリックモデルを生成するために、配列情報を使用して複数のデータセットについてマルチパラメトリック解析を実施するステップであって、マルチパラメトリックモデルが3つまたはそれより多くの次元を含む、ステップを含む方法を開示する。
【0018】
一部の実施形態では、データセットは、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、(g)シークエンシングしたDNA断片の配列モチーフ、(h)GC含有量、(i)シークエンシングしたDNA断片長の分布、および(j)メチル化ステータスからなる群から選択される。一部の実施形態では、配列モチーフは、DNA断片の末端に位置する長さ2~8塩基対の配列である。一部の実施形態では、マルチパラメトリック解析は、ゲノムの複数の塩基位置または領域の各々に、(i)ゲノムにおけるマッピング可能な位置をカバーする配列を含むユニークなセルフリーDNA断片の数の分布、(ii)DNA断片がゲノムにおけるマッピング可能な位置をカバーする配列を含むように、セルフリーDNA断片の少なくとも一部の各々の断片長の分布、および(iii)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度の分布からなる群から選択される1つまたは複数の分布をマッピングするステップを含む。一部の実施形態では、ゲノムの複数の塩基位置または領域は、表1に記載の遺伝子のうちの1つまたは複数に関連する少なくとも1つの塩基位置または領域を含む。一部の実施形態では、ゲノムの複数の塩基位置または領域の各々は、長さが2~500塩基対の間である。一部の実施形態では、ゲノムの複数の塩基位置または領域は、(i)1つまたは複数のゲノム分割マップを提供するステップ、および(ii)ゲノム分割マップからゲノムの複数の塩基位置または領域を選択するステップであって、ゲノムの各々の塩基位置または領域が目的の遺伝子にマッピングする、ステップによって同定される。一部の実施形態では、マッピングするステップは、ゲノムの複数の塩基位置または領域の各々に、複数のデータセットの各々からの複数の値をマッピングすること1を含む。一部の実施形態では、複数の値のうちの少なくとも1つは、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、または(g)シークエンシングしたDNA断片の配列モチーフからなる群から選択されるデータセットである。
【0019】
一部の実施形態では、マルチパラメトリック解析は、マルチパラメトリックモデルを生成するために、コンピュータによって1つまたは複数の数学的変換を適用するステップを含む。一部の実施形態では、数学的変換は、分水嶺変換を含む。一部の実施形態では、マルチパラメトリックモデルは、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、および(g)シークエンシングしたDNA断片の配列モチーフからなる群から選択される複数の変数の同時分布モデルである。
【0020】
一部の実施形態では、方法は、マルチパラメトリックモデルにおいて1つまたは複数のピークを同定するステップであって、各々のピークがピーク分布幅およびピークカバレッジを有する、ステップをさらに含む。一部の実施形態では、方法は、対象に存在する生殖系列または体細胞一塩基多型によって誘導される多様性を組み込むステップをさらに含む。一部の実施形態では、方法は、セルフリーDNA断片を表すマルチパラメトリックモデルと、参照マルチパラメトリックモデルとの間の1つまたは複数の逸脱を検出するステップをさらに含む。一部の実施形態では、逸脱は、(i)ヌクレオソーム領域外でのリード数の増加、(ii)ヌクレオソーム領域内でのリード数の増加、(iii)マッピング可能なゲノム位置と比較してより広いピーク分布、(iv)ピーク位置のシフト、(v)新しいピークの同定、(vi)ピークのカバレッジ深度の変化、(vii)ピーク周囲の開始位置の変化、および(viii)ピークに関連する断片サイズの変化からなる群から選択される。一部の実施形態では、参照マルチパラメトリックモデルは、健康な無症候性の個体から導出される。一部の実施形態では、参照マルチパラメトリックモデルは、異なる時点の対象から導出される。
【0021】
一部の実施形態では、参照マルチパラメトリックモデルは、対象の腫瘍周囲の微小環境の間質組織から獲得したDNAから導出される。一部の実施形態では、参照マルチパラメトリックモデルは、健康な無症候性の個体の剪断ゲノムDNAから導出される。一部の実施形態では、参照マルチパラメトリックモデルは、所定の組織タイプのヌクレオソーム占有プロファイルから導出される。一部の実施形態では、組織タイプは、乳房、結腸、肺、膵臓、前立腺、卵巣、皮膚、および肝臓からなる群から選択される正常組織である。一部の実施形態では、参照マルチパラメトリックモデルは、共有する特徴を有する個体のコホートから導出される。一部の実施形態では、共有する特徴は、腫瘍タイプ、炎症状態、アポトーシス状態、壊死状態、腫瘍の再発、および処置に対する抵抗性からなる群から選択される。一部の実施形態では、アポトーシス状態は、感染症および細胞代謝回転からなる群から選択される。一部の実施形態では、壊死状態は、心血管状態、敗血症、および壊疽からなる群から選択される。
【0022】
一部の実施形態では、方法は、セルフリーDNAの起源である細胞におけるアポトーシスプロセスに起因するマルチパラメトリックモデルの寄与を決定するステップをさらに含む。一部の実施形態では、方法は、セルフリーDNAの起源である細胞における壊死プロセスに起因するマルチパラメトリックモデルの寄与を決定するステップをさらに含む。一部の実施形態では、方法は、対象の体試料について以下のアッセイ:(i)起源組織解析、(ii)遺伝子発現解析、(iii)転写因子結合部位(TFBS)占有解析、(iv)メチル化ステータス解析、(v)体細胞変異の検出、(vi)検出可能な体細胞変異レベルの測定、(vii)生殖系列変異の検出、および(viii)検出可能な生殖系列変異レベルの測定のうちの1つまたは複数を実施するステップをさらに含む。
【0023】
一部の実施形態では、方法は、セルフリーDNA断片のRNA発現を測定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、セルフリーDNA断片の逆メチル化を測定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、セルフリーDNA断片の逆ヌクレオソームマッピングを測定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、セルフリーDNA断片における1つまたは複数の体細胞一塩基多型の存在を同定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、セルフリーDNA断片における1つまたは複数の生殖系列一塩基多型の存在を同定するために、マルチパラメトリック解析を実施するステップをさらに含む。一部の実施形態では、方法は、ジヌクレオソーム保護を有するDNA断片の数および/またはモノヌクレオソーム保護を有するDNA断片の数を示す値を含む分布スコアを生成するステップをさらに含む。一部の実施形態では、方法は、対象の変異負荷を推定するステップをさらに含む。一部の実施形態では、方法は、マルチモーダル密度を推定するステップ、およびセルフリーDNA断片における1つまたは複数の遺伝子異常の存在を同定するために、マルチモーダル密度を使用するステップをさらに含む。一部の実施形態では、方法は、標準的なヌクレオソーム構造をマッピングするステップをさらに含む。一部の実施形態では、マッピングするステップは、二変量混合正規分布の位置特異的モデリングを実施することを含む。
【0024】
別の態様では、本明細書において、対象に由来するセルフリーデオキシリボ核酸(DNA)断片を解析するためのコンピュータ実行方法であって、セルフリーDNA断片を表すマルチパラメトリックモデルを得るステップ、およびマルチパラメトリックモデルを、別個のコホートを表す1つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するために、コンピュータによって統計分析を実施するステップを含む方法を開示する。
【0025】
一部の実施形態では、統計分析は、さらなる解析のために目的の遺伝子を表す関連するゲノム範囲を記載する1つまたは複数のゲノム分割マップを提供するステップを含む。一部の実施形態では、統計分析は、ゲノム分割マップに基づいて一組の1つまたは複数の局在化ゲノム領域を選択するステップをさらに含む。一部の実施形態では、統計分析は、一組の1つまたは複数のヌクレオソームマップ破壊を得るために、その一組における1つまたは複数の局在化ゲノム領域を解析するステップをさらに含む。一部の実施形態では、統計分析は、パターン認識、深層学習、および教師なし学習のうちの1つまたは複数を含む。一部の実施形態では、ゲノム分割マップは、(a)コホートにおける2人またはそれより多くの対象のセルフリーDNA集団を提供するステップ、(b)試料の各々に関するマルチパラメトリックモデルを生成するために、セルフリーDNA集団の各々のマルチパラメトリック解析を実施するステップ、および(c)1つまたは複数の局在化ゲノム領域を同定するために、マルチパラメトリックモデルを解析するステップによって構築される。一部の実施形態では、ヌクレオソームマップ破壊の少なくとも1つはドライバー変異に関連し、ドライバー変異は、体細胞バリアント、生殖系列バリアント、およびDNAメチル化からなる群から選択される。一部の実施形態では、ヌクレオソームマップ破壊の少なくとも1つは、マルチパラメトリックモデルを、別個のコホートを表す1つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するために使用される。
【0026】
一部の実施形態では、局在化ゲノム領域の少なくとも1つは、約2~約200塩基対の範囲の短いDNA領域であり、この領域は、有意な構造多様性のパターンを含む。一部の実施形態では、局在化ゲノム領域の少なくとも1つは、約2~約200塩基対の範囲の短いDNA領域であり、この領域は、有意な構造多様性のクラスタを含む。一部の実施形態では、構造多様性は、挿入、欠失、転遺伝子座、遺伝子再構成、メチル化ステータス、マイクロサテライト、コピー数多様性、コピー数関連構造多様性、または差異を示す他の任意の多様性からなる群から選択されるヌクレオソームポジショニングの多様性である。一部の実施形態では、クラスタは、局在化ゲノム領域内のホットスポット領域であり、ホットスポット領域は、1つまたは複数の有意な変動またはピークを含む。一部の実施形態では、局在化ゲノム領域の少なくとも1つは、約2~約200塩基対の範囲の短いDNA領域であり、この領域は、有意な不安定性パターンを含む。一部の実施形態では、1つまたは複数の局在化ゲノム領域を解析するステップは、セルフリーDNA断片を表すマルチパラメトリックモデルと、(i)健康な対照の1つまたは複数のコホートに関連する1つまたは複数の健康参照マルチパラメトリックモデル、および(ii)疾患を有する対象の1つまたは複数のコホートに関連する1つまたは複数の疾患参照マルチパラメトリックモデルから選択される1つまたは複数の参照マルチパラメトリックモデルとの間の1つまたは複数の逸脱を検出することを含む。
【0027】
一部の実施形態では、方法は、一組の構造多様性の選択をさらに含み、構造多様性の選択は、(i)1つまたは複数の健康参照マルチパラメトリックモデル、(ii)構造多様性を標的とする1つまたは複数のプローブの効率、および(iii)構造多様性の期待度数がゲノムにおける構造多様性の平均期待度数より高い、ゲノムの部分に関する先の情報のうちの1つまたは複数の関数である。
【0028】
一部の実施形態では、ヌクレオソーム占有プロファイルの少なくとも1つは、腫瘍の指標、がんの早期検出、腫瘍タイプ、腫瘍の重症度、腫瘍の侵襲性、処置に対する腫瘍の抵抗性、腫瘍のクローン性、腫瘍のドラッガビリティ、腫瘍の進行、および血漿中調節異常スコアからなる群から選択される1つまたは複数の評価に関連する。一部の実施形態では、腫瘍のクローン性の評価は、試料中のセルフリーDNA断片におけるヌクレオソームマップ破壊の不均一性を観察することから決定される。一部の実施形態では、2つまたはそれより多くのクローンの各々の相対的寄与の評価を決定する。
【0029】
一部の実施形態では、方法は、疾患の疾患スコアを決定するステップであって、疾患スコアが、(i)疾患に関連する1つまたは複数のヌクレオソーム占有プロファイル、(ii)疾患を有しないコホートに関連する1つまたは複数の健康参照マルチパラメトリックモデル、および(iii)疾患を有するコホートに関連する1つまたは複数の疾患参照マルチパラメトリックモデルのうちの1つまたは複数の関数として決定される、ステップをさらに含む。
【0030】
別の態様では、本明細書において、(a)複数の異なるクラスを提供するステップであって、各々のクラスが共有する特徴を有する一組の対象を表す、ステップ、(b)クラスの各々から得た複数のセルフリーデオキシリボ核酸(DNA)集団の各々に関して、セルフリーDNA集団からのセルフリーDNA断片を表すマルチパラメトリックモデルを提供するステップであって、それによって訓練データセットを提供するステップ、および(c)コンピュータによって、1つまたは複数の訓練された分類器を作成するために、訓練データセットについて学習アルゴリズムを訓練するステップであって、各々の訓練された分類器が、試験対象のセルフリーDNAの試験集団を複数の異なるクラスのうちの1つまたは複数に分類するように構成されている、ステップを含む、訓練された分類器を作成するためのコンピュータ実行方法を開示する。
【0031】
一部の実施形態では、学習アルゴリズムは、ランダムフォレスト、ニューラルネットワーク、サポートベクターマシン、および線形分類器からなる群から選択される。一部の実施形態では、複数の異なるクラスの各々は、健康、乳がん、結腸がん、肺がん、膵臓がん、前立腺がん、卵巣がん、黒色腫、および肝臓がんからなる群から選択される。
【0032】
一態様では、本明細書において、対象の試験試料を分類する方法であって、(a)対象のセルフリーデオキシリボ核酸(DNA)の試験集団からのセルフリーDNA断片を表すマルチパラメトリックモデルを提供するステップ、および(b)訓練された分類器を使用して、セルフリーDNAの試験集団を分類するステップを含む方法を開示する。
【0033】
一部の実施形態では、方法は、セルフリーDNA集団の分類に基づいて対象に治療介入を実施するステップをさらに含む。
【0034】
別の態様では、本明細書において、(a)コンピュータによって、対象のセルフリーDNA断片からの配列情報を生成するステップ、(b)コンピュータによって、配列情報に基づいてセルフリーDNA断片を参照ゲノムにマッピングするステップ、ならびに(c)コンピュータによって、マッピングされたセルフリーDNA断片を解析するステップであって、参照ゲノムの複数の塩基位置の各々で、(i)塩基位置にマッピングするセルフリーDNA断片の数、(ii)塩基位置にマッピングする各々のセルフリーDNA断片の長さ、(iii)セルフリーDNA断片の長さの関数としての、塩基位置にマッピングするセルフリーDNA断片の数、(iv)塩基位置で開始するセルフリーDNA断片の数、(v)塩基位置で終止するセルフリーDNA断片の数、(vi)長さの関数としての塩基位置で開始するセルフリーDNA断片の数、および(vii)長さの関数としての塩基位置で終止するセルフリーDNA断片の数からなる群から選択される複数の測定値を決定するステップを含む、コンピュータ実行方法を開示する。一部の実施形態では、配列情報は、セルフリーDNA断片の完全なまたは部分配列である。
【0035】
別の態様では、本明細書において、対象に由来するセルフリーDNA断片を解析するコンピュータ実行方法であって、(a)コンピュータによって、セルフリーDNA断片を表す配列情報を受信するステップ、ならびに(b)マッピング可能な塩基位置またはゲノム位置毎に解析を実施するステップであって、(i)塩基位置またはゲノム位置で開始または終止する配列断片の数、(ii)塩基位置またはゲノム位置での配列または断片の長さ、(iii)塩基位置またはゲノム位置での断片または配列のカバレッジ、および(iv)塩基位置またはゲノム位置での配列モチーフ分布のうちの複数を含むステップを含む方法を開示する。
【0036】
一部の実施形態では、方法は、対象のセルフリーDNAと、セルフリーDNAの1つまたは複数の参照集団との間の逸脱を検出するステップであって、逸脱が、対象における状態または性向の存在を示す、ステップをさらに含む。一部の実施形態では、解析は、(i)起源組織の解析、(ii)遺伝子発現の解析、(iii)転写因子結合部位(TFBS)占有の解析、(iv)メチル化ステータスの解析、(v)体細胞変異の検出、(vi)検出可能な体細胞変異レベルの測定、(vii)生殖系列変異の検出、および(viii)検出可能な生殖系列変異レベルの測定からなる群における1つまたは複数を含む。
【0037】
一部の実施形態では、状態または性向は、(i)がんの存在、(ii)組織異常の存在、(iii)特定の組織特異的異常の存在、(iv)後成的調節または機能における多様性の存在、および(v)後成的調節または機能における多様性の存在からなる群における1つまたは複数である。一部の実施形態では、解析は、(i)一塩基バリアント、(ii)コピー数バリアント、(iii)挿入、(iv)欠失、(v)遺伝子再構成、(vi)メチル化ステータス、および(vii)ヘテロ接合性の喪失からなる群における1つまたは複数の検出をさらに含む。
【0038】
別の態様では、本明細書において、対象が臨床的に重要な1つまたは複数のクラスに属する尤度を決定するための分類器を生成する方法であって、a)臨床的に重要な1つまたは複数のクラスの各々に関して、臨床的に重要なクラスに属する種の複数の対象の各々からのセルフリーDNA集団、および臨床的に重要なクラスに属さない種の複数の対象の各々からのセルフリーDNA集団を含む訓練セットを提供するステップ、b)複数のDNA配列を産生DNA配列を生成するために、セルフリーDNA集団からのセルフリーDNA断片をシークエンシングするステップ、c)各々のセルフリーDNA集団に関して、種の参照ゲノムの1つまたは複数のゲノム領域の各々に複数のDNA配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、d)訓練セットを生じるために、複数の遺伝子座の各々に関して、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、および(iii)遺伝子座で終止するDNA配列から選択される少なくとも1つの特徴の定量的測定値を示す値を含むデータセットを、各々のセルフリーDNA集団に関して提供するステップ、ならびにe)訓練セットについてコンピュータベースの機械学習システムを訓練するステップであって、それによって対象が臨床的に重要な1つまたは複数のクラスに属する尤度を決定するための分類器を生成するステップを含む方法を開示する。
【0039】
一部の実施形態では、臨床的に重要なクラスは、1つまたは複数の遺伝子バリアントの存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、1つまたは複数のがんの存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、1つまたは複数の非がん疾患、障害、または異常な生物学的状況の存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、1つまたは複数の標準的なドライバー変異の存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、1つまたは複数のがんサブタイプの存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、がんの処置に対する応答の尤度を示す。一部の実施形態では、臨床的に重要なクラスは、コピー数多様性(CNV)の存在または非存在を示す。一部の実施形態では、臨床的に重要なクラスは、起源組織を示す。一部の実施形態では、定量的測定値は、選択された特徴を有するDNA配列のサイズ分布を含む。
【0040】
別の態様では、本明細書において、対象における異常な生物学的状況を決定する方法であって、a)DNA配列を産生DNA配列を生成するために、対象のセルフリーDNAからのセルフリーDNA断片をシークエンシングするステップ、b)対象の種の参照ゲノムの1つまたは複数のゲノム領域の各々にDNA配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、c)複数の遺伝子座の各々に関して、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、および(iii)遺伝子座で終止するDNA配列から選択される少なくとも1つの特色の定量的測定値を示す値を含むデータセットを提供するステップ、ならびにd)データセットに基づいて、異常な生物学的状況の尤度を決定するステップを含む方法を開示する。
【0041】
一部の実施形態では、参照ゲノムは、ヒトの参照ゲノムを含む。一部の実施形態では、定量的測定値は、選択された特色を有するDNA配列のサイズ分布を含む。一部の実施形態では、サイズ分布は、ジヌクレオソーム保護を有するDNA断片および/またはモノヌクレオソーム保護を有するDNA断片の数を示す値を含む。一部の実施形態では、定量的測定値は、選択された特色を有するDNA配列のサイズ分布の比率を含む。一部の実施形態では、データセットは、複数の遺伝子座に関して、イントロンまたはエクソンにおける位置を示す値をさらに含む。一部の実施形態では、定量的測定値は、正規化された測定値である。一部の実施形態では、異常な状況を決定するステップは、異常の程度を決定することを含む。一部の実施形態では、方法は、治療介入を施して異常な生物学的状況を処置するステップをさらに含む。
【0042】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片の分布を構築するステップ、ならびに(b)1つまたは複数の遺伝子座の各々に関して、コンピュータによって、(1)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するDNA断片の数、および(2)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の数の比率、またはその逆を示す定量的測定値を計算するステップ、ならびに(c)1つまたは複数の遺伝子座の各々に関する定量的測定値を使用して、対象における1つまたは複数の遺伝子座における遺伝子異常の存在または非存在を示す前記出力を決定するステップを含む方法を開示する。一部の実施形態では、分布は、1つまたは複数のマルチパラメトリック分布を含む。
【0043】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片の分布を構築するステップ、ならびに(b)対象における遺伝子異常の存在または非存在を示す前記出力を決定するために、分布を使用するステップであって、存在または非存在が、(i)DNA断片の分布を、対象のゲノムに対して外部の起源からの参照分布と比較することなく、(ii)DNA断片の分布に由来するパラメータを参照パラメータと比較することなく、および(iii)DNA断片の分布を、対象の対照からの参照分布と比較することなく、決定される、ステップを含む方法を開示する。
【0044】
一部の実施形態では、遺伝子異常は、コピー数多様性(CNV)を含む。一部の実施形態では、遺伝子異常は、一塩基バリアント(SNV)を含む。一部の実施形態では、分布は、1つまたは複数のマルチパラメトリック分布を含む。
【0045】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片の分布をデコンボリューションするためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片のカバレッジの分布を構築するステップ、ならびに(b)1つまたは複数の遺伝子座の各々に関して、コンピュータによって、カバレッジの分布をデコンボリューションするステップであって、それによってコピー数(CN)構成要素、細胞クリアランス構成要素、および遺伝子発現構成要素からなる群から選択される1つまたは複数のメンバーに関連する分画寄与度を生成するステップを含む方法を開示する。
【0046】
一部の実施形態では、計算するステップは、コピー数(CN)構成要素、細胞クリアランス構成要素、および遺伝子発現構成要素からなる群から選択される2つまたはそれより多くのメンバーに関連するDNA断片カバレッジの分布の分画寄与度を計算することを含む。一部の実施形態では、計算するステップは、コピー数構成要素、クリアランス構成要素、および発現構成要素に関連するDNA断片カバレッジの分布の分画寄与度を計算することを含む。
【0047】
一部の実施形態では、方法は、分画寄与度の一部に少なくとも基づいて遺伝子異常の存在または非存在を示す出力を生成するステップをさらに含む。一部の実施形態では、分布は、1つまたは複数のマルチパラメトリック分布を含む。
【0048】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片の分布を構築するステップ、(b)コンピュータによって、DNA断片の分布における複数の塩基位置のうちの1つまたは複数の塩基位置で1つまたは複数のピークを同定するステップであって、各々のピークがピーク値およびピーク分布幅を含む、ステップ、ならびに(c)コンピュータによって、(i)1つまたは複数の塩基位置、(ii)ピーク値、および(iii)ピーク分布幅に少なくとも基づいて、対象における遺伝子異常の存在または非存在を決定するステップを含む方法を開示する。
【0049】
一部の実施形態では、1つまたは複数のピークは、ジヌクレオソームピークまたはモノヌクレオソームピークを含む。一部の実施形態では、1つまたは複数のピークは、ジヌクレオソームピークおよびモノヌクレオソームピークを含む。一部の実施形態では、遺伝子異常の存在または非存在を示す前記出力は、ジヌクレオソームピークに関連する第1のピーク値と、モノヌクレオソームピークに関連する第2のピーク値の比率、またはその逆を示す定量的測定値に少なくとも基づいて決定される。一部の実施形態では、分布は、1つまたは複数のマルチパラメトリック分布を含む。
【0050】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片の分布を構築するステップ、(b)コンピュータによって、1つまたは複数の遺伝子座でDNA断片の分布を解析するステップであって、DNA断片の分布と、(i)健康な対照の1つまたは複数のコホートに関連する1つまたは複数の健康参照分布、および(ii)疾患を有する対象の1つまたは複数のコホートに関連する1つまたは複数の疾患参照分布から選択される複数の参照分布との間の逸脱を検出することを含むステップ、ならびに(c)コンピュータによって、(b)において検出された逸脱に少なくとも基づいて、対象における遺伝子異常の存在または非存在を示す前記出力を決定するステップを含む方法を開示する。
【0051】
一部の実施形態では、分布は、1つまたは複数のマルチパラメトリック分布を含む。一部の実施形態では、解析するステップは、1つまたは複数のデルタシグナルを計算することであって、各々のデルタシグナルが、DNA断片の分布と複数の参照分布の参照分布との間の差異を含むことを含む。
【0052】
別の態様では、本明細書において、対象の生物試料を処理するための方法であって、(a)前記対象の前記生物試料を得るステップであって、前記生物試料がデオキシリボ核酸(DNA)断片を含む、ステップ、(b)前記生物試料をアッセイするステップであって、(i)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および(ii)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の存在または非存在を示すシグナルを生成するステップ、ならびに(c)前記シグナルを使用するステップであって、(i)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および(ii)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の前記存在または非存在を示す出力を生成するステップを含む方法を開示する。
【0053】
一部の実施形態では、アッセイするステップは、一組の1つまたは複数の遺伝子座のDNA断片に関して前記生物試料を濃縮することを含む。一部の実施形態では、アッセイするステップは、前記生物試料の前記DNA断片をシークエンシングすることを含む。
【0054】
別の態様では、本明細書において、対象に由来するセルフリーDNA断片を含む生物試料を分析するための方法であって、モノヌクレオソーム保護およびジヌクレオソーム保護の各々に対応する同じ遺伝子座からのDNA断片を検出するステップを含む方法を開示する。
【0055】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を決定するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのDNA断片のマルチパラメトリック分布を構築するステップ、および(b)第1の遺伝子座における各塩基位置の塩基同一性を考慮に入れることなく、対象の第1の座遺伝子座における遺伝子異常の存在または非存在を決定するために、マルチパラメトリック分布を使用するステップを含む方法を開示する。
【0056】
一部の実施形態では、遺伝子異常は、配列異常またはコピー数多様性(CNV)を含み、配列異常は、(i)一塩基バリアント(SNV)、(ii)挿入または欠失(インデル)、および(iii)遺伝子融合からなる群から選択される。一部の実施形態では、マルチパラメトリック分布は、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの1つまたは複数を示すパラメータを含む。一部の実施形態では、方法は、分布スコアを決定するために、マルチパラメトリック分布を使用するステップであって、分布スコアが、遺伝子異常の変異負荷を示す、ステップを含む。一部の実施形態では、分布スコアは、ジヌクレオソーム保護を有するDNA断片の数およびモノヌクレオソーム保護を有するDNA断片の数のうちの1つまたは複数を示す値を含む。
【0057】
別の態様では、本明細書において、試験対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片を使用して、試験対象における遺伝子異常を決定するためのコンピュータ実行分類器であって、(a)複数の対象の各々から得た1つまたは複数のセルフリーDNA集団の各々に関する一組の分布スコアの入力であって、各々の分布スコアが、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの少なくとも1つまたは複数に基づいて生成される、入力、ならびに(b)試験対象における1つまたは複数の遺伝子異常の分類の出力を含む分類器を開示する。
【0058】
別の態様では、本明細書において、試験対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片を使用して試験対象における遺伝子異常を決定するためのコンピュータ実行方法であって、(a)試験対象から得たセルフリーDNAからのDNA断片を使用して、試験対象における遺伝子異常を決定するように構成されているコンピュータ実行分類器を提供するステップであって、分類器が訓練セットを使用して訓練される、ステップ、(b)試験対象に関する一組の分布スコアを、分類器に入力として提供するステップであって、各々の分布スコアが、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの1つまたは複数を示す、ステップ、ならびに(c)試験対象における遺伝子異常の分類を生成するために、コンピュータによって、分類器を使用するステップを含む方法を開示する。
【0059】
別の態様では、本明細書において、対象に由来するセルフリーデオキシリボ核酸(DNA)断片を解析するためのコンピュータ実行方法であって、セルフリーDNA断片を表す配列情報を得るステップ、およびセルフリーDNA断片を表すマルチパラメトリックモデルを生成するために、配列情報を使用して複数のデータセットについてマルチパラメトリック解析を実施するステップであって、マルチパラメトリックモデルが3つまたはそれより多くの次元を含む、ステップを含む方法を開示する。
【0060】
一部の実施形態では、データセットは、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、(g)シークエンシングしたDNA断片の配列モチーフ、(h)GC含有量、(i)シークエンシングしたDNA断片長の分布、および(j)メチル化ステータスからなる群から選択される。一部の実施形態では、マルチパラメトリック解析は、ゲノムの複数の塩基位置または領域の各々に、(i)ゲノムにおけるマッピング可能な位置をカバーする配列を含むユニークなセルフリーDNA断片の数の分布、(ii)DNA断片がゲノムにおけるマッピング可能な位置をカバーする配列を含むように、セルフリーDNA断片の少なくとも一部の各々の断片長の分布、および(iii)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度の分布からなる群から選択される1つまたは複数の分布をマッピングするステップを含む。一部の実施形態では、ゲノムの複数の塩基位置または領域は、表1に記載の遺伝子のうちの1つまたは複数に関連する少なくとも1つの塩基位置または領域を含む。一部の実施形態では、マッピングするステップは、ゲノムの複数の塩基位置または領域の各々に、複数のデータセットの各々からの複数の値をマッピングすることを含む。一部の実施形態では、複数の値のうちの少なくとも1つは、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、または(g)シークエンシングしたDNA断片の配列モチーフからなる群から選択されるデータセットである。一部の実施形態では、マルチパラメトリック解析は、コンピュータによって1つまたは複数の数学的変換を適用してマルチパラメトリックモデルを生成するステップを含む。一部の実施形態では、マルチパラメトリックモデルは、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、および(g)シークエンシングしたDNA断片の配列モチーフからなる群から選択される複数の変数の同時分布モデルである。
【0061】
一部の実施形態では、方法は、マルチパラメトリックモデルにおいて1つまたは複数のピークを同定するステップであって、各々のピークがピーク分布幅およびピークカバレッジを有する、ステップをさらに含む。一部の実施形態では、方法は、セルフリーDNA断片を表すマルチパラメトリックモデルと、参照マルチパラメトリックモデルとの間の1つまたは複数の逸脱を検出するステップをさらに含む。一部の実施形態では、逸脱は、(i)ヌクレオソーム領域外でのリード数の増加、(ii)ヌクレオソーム領域内でのリード数の増加、(iii)マッピング可能なゲノム位置と比較してより広いピーク分布、(iv)ピーク位置のシフト、(v)新しいピークの同定、(vi)ピークのカバレッジ深度の変化、(vii)ピーク周囲の開始位置の変化、および(viii)ピークに関連する断片サイズの変化からなる群から選択される。
【0062】
一部の実施形態では、方法は、(i)セルフリーDNAの起源である細胞におけるアポトーシスプロセス、または(ii)セルフリーDNAの起源である細胞における壊死プロセスに起因するマルチパラメトリックモデルの寄与を決定するステップをさらに含む。一部の実施形態では、方法は、マルチパラメトリック解析を実施するステップであって、(i)セルフリーDNA断片のRNA発現を測定する、(ii)セルフリーDNA断片のメチル化を測定する、(iii)セルフリーDNA断片のヌクレオソームマッピングを測定する、あるいは(iv)セルフリーDNA断片における1つもしくは複数の体細胞一塩基多型、またはセルフリーDNA断片における1つもしくは複数の生殖系列一塩基多型の存在を同定するステップをさらに含む。一部の実施形態では、方法は、ジヌクレオソーム保護を有するDNA断片の数、またはモノヌクレオソーム保護を有するDNA断片の数を示す値を含む分布スコアを生成するステップをさらに含む。一部の実施形態では、方法は、対象の変異負荷を推定するステップをさらに含む。
【0063】
別の態様では、本明細書において、対象に由来するセルフリーデオキシリボ核酸(DNA)断片を解析するためのコンピュータ実行方法であって、セルフリーDNA断片を表すマルチパラメトリックモデルを得るステップ、およびコンピュータによって統計分析を実施するステップであって、マルチパラメトリックモデルを、別個のコホートを表す1つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するステップを含む方法を開示する。
【0064】
別の態様では、本明細書において、(a)複数の異なるクラスを提供するステップであって、各々のクラスが共有する特徴を有する一組の対象を表す、ステップ、(b)クラスの各々から得た複数のセルフリーデオキシリボ核酸(DNA)集団の各々に関して、セルフリーDNA集団からのセルフリーDNA断片を表すマルチパラメトリックモデルを提供するステップであって、それによって訓練データセットを提供するステップ、および(c)1つまたは複数の訓練された分類器を作成するために、コンピュータによって、訓練データセットについて学習アルゴリズムを訓練するステップであって、各々の訓練された分類器が、試験対象のセルフリーDNAの試験集団を複数の異なるクラスのうちの1つまたは複数に分類するように構成されている、ステップを含む、訓練された分類器を作成するためのコンピュータ実行方法を開示する。
【0065】
別の態様では、本明細書において、対象の試験試料を分類する方法であって、(a)対象のセルフリーデオキシリボ核酸(DNA)の試験集団からのセルフリーDNA断片を表すマルチパラメトリックモデルを提供するステップ、および(b)セルフリーDNAの試験集団を分類するために、訓練された分類器を使用するステップを含む方法を開示する。
【0066】
別の態様では、本明細書において、(a)コンピュータによって、対象のセルフリーDNA断片からの配列情報を生成するステップ、(b)コンピュータによって、配列情報に基づいてセルフリーDNA断片を参照ゲノムにマッピングするステップ、ならびに(c)コンピュータによって、マッピングされたセルフリーDNA断片を解析するステップであって、参照ゲノムの複数の塩基位置の各々で、(i)塩基位置にマッピングするセルフリーDNA断片の数、(ii)塩基位置にマッピングする各々のセルフリーDNA断片の長さ、(iii)セルフリーDNA断片の長さの関数としての、塩基位置にマッピングするセルフリーDNA断片の数、(iv)塩基位置で開始するセルフリーDNA断片の数、(v)塩基位置で終止するセルフリーDNA断片の数、(vi)長さの関数としての塩基位置で開始するセルフリーDNA断片の数、および(vii)長さの関数としての塩基位置で終止するセルフリーDNA断片の数からなる群から選択される複数の測定値を決定するステップを含む、コンピュータ実行方法を開示する。
【0067】
別の態様では、本明細書において、対象に由来するセルフリーDNA断片を解析するコンピュータ実行方法であって、(a)コンピュータによって、セルフリーDNA断片を表す配列情報を受信するステップ、ならびに(b)マッピング可能な塩基位置またはゲノム位置毎に解析を実施するステップであって、(i)塩基位置またはゲノム位置で開始または終止する配列断片の数、(ii)塩基位置またはゲノム位置での配列または断片の長さ、(iii)塩基位置またはゲノム位置での断片または配列のカバレッジ、および(iv)塩基位置またはゲノム位置での配列モチーフ分布のうちの複数を含むステップを含む方法を開示する。別の態様では、本明細書において、対象が臨床的に重要な1つまたは複数のクラスに属する尤度を決定するための分類器を生成する方法であって、a)臨床的に重要な1つまたは複数のクラスの各々に関して、臨床的に重要なクラスに属する種の複数の対象の各々からのセルフリーDNA集団、および臨床的に重要なクラスに属さない種の複数の対象の各々からのセルフリーDNA集団を含む訓練セットを提供するステップ、b)複数のDNA配列を産生DNA配列を生成するために、セルフリーDNA集団からのセルフリーDNA断片をシークエンシングするステップ、c)各々のセルフリーDNA集団に関して、種の参照ゲノムの1つまたは複数のゲノム領域の各々に複数のDNA配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、d)訓練セットを生じるために、複数の遺伝子座の各々に関して、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、および(iii)遺伝子座で終止するDNA配列から選択される少なくとも1つの特徴の定量的測定値を示す値を含むデータセットを、各々のセルフリーDNA集団に関して提供するステップ、ならびにe)訓練セットについてコンピュータベースの機械学習システムを訓練するステップであって、それによって対象が臨床的に重要な1つまたは複数のクラスに属する尤度を決定するための分類器を生成するステップを含む方法を開示する。
【0068】
別の態様では、本明細書において、対象における異常な生物学的状況を決定する方法であって、a)DNA配列を産生DNA配列を生成するために、対象のセルフリーDNAからのセルフリーDNA断片をシークエンシングするステップ、b)対象の種の参照ゲノムの1つまたは複数のゲノム領域の各々にDNA配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、c)複数の遺伝子座の各々に関して、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、および(iii)遺伝子座で終止するDNA配列から選択される少なくとも1つの特色の定量的測定値を示す値を含むデータセットを提供するステップ、ならびにd)データセットに基づいて、異常な生物学的状況の尤度を決定するステップを含む方法を開示する。
【0069】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片の分布を構築するステップ、ならびに(b)1つまたは複数の遺伝子座の各々に関して、コンピュータによって、(1)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するDNA断片の数、および(2)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の数の比率、またはその逆を示す定量的測定値を計算するステップ、ならびに(c)1つまたは複数の遺伝子座の各々に関する定量的測定値を使用して、対象における1つまたは複数の遺伝子座における遺伝子異常の存在または非存在を示す前記出力を決定するステップを含む方法を開示する。
【0070】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片の分布を構築するステップ、ならびに(b)対象における遺伝子異常の存在または非存在を示す前記出力を決定するために、分布を使用するステップであって、存在または非存在が、(i)DNA断片の分布を、対象のゲノムに対して外部の起源からの参照分布と比較することなく、(ii)DNA断片の分布に由来するパラメータを参照パラメータと比較することなく、および(iii)DNA断片の分布を、対象の対照からの参照分布と比較することなく、決定される、ステップを含む方法を開示する。一部の実施形態では、遺伝子異常は、コピー数多様性(CNV)または一塩基バリアント(SNV)を含む。
【0071】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片の分布をデコンボリューションするためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片のカバレッジの分布を構築するステップ、ならびに(b)1つまたは複数の遺伝子座の各々に関して、コンピュータによって、カバレッジの分布をデコンボリューションするステップであって、それによってコピー数(CN)構成要素、細胞クリアランス構成要素、および遺伝子発現構成要素からなる群から選択される1つまたは複数のメンバーに関連する分画寄与度を生成するステップを含む方法を開示する。一部の実施形態では、方法は、分画寄与度の一部に少なくとも基づいて遺伝子異常の存在または非存在を示す出力を生成するステップをさらに含む。
【0072】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片の分布を構築するステップ、(b)コンピュータによって、DNA断片の分布における複数の塩基位置のうちの1つまたは複数の塩基位置で1つまたは複数のピークを同定するステップであって、各々のピークがピーク値およびピーク分布幅を含む、ステップ、ならびに(c)コンピュータによって、(i)1つまたは複数の塩基位置、(ii)ピーク値、および(iii)ピーク分布幅に少なくとも基づいて、対象における遺伝子異常の存在または非存在を決定するステップを含む方法を開示する。
【0073】
一部の実施形態では、1つまたは複数のピークは、ジヌクレオソームピークまたはモノヌクレオソームピークを含む。一部の実施形態では、遺伝子異常の存在または非存在を示す前記出力は、ジヌクレオソームピークに関連する第1のピーク値、およびモノヌクレオソームピークに関連する第2のピーク値の比率またはその逆を示す定量的測定値に少なくとも基づいて決定される。
【0074】
別の態様では、本明細書において、対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、(a)コンピュータによって、ゲノムの複数の塩基位置でのセルフリーDNAからのDNA断片の分布を構築するステップ、(b)コンピュータによって、1つまたは複数の遺伝子座でDNA断片の分布を解析するステップであって、DNA断片の分布と、(i)健康な対照の1つまたは複数のコホートに関連する1つまたは複数の健康参照分布、および(ii)疾患を有する対象の1つまたは複数のコホートに関連する1つまたは複数の疾患参照分布から選択される複数の参照分布との間の逸脱を検出することを含むステップ、ならびに(c)コンピュータによって、(b)において検出された逸脱に少なくとも基づいて、対象における遺伝子異常の存在または非存在を示す前記出力を決定するステップを含む方法を開示する。一部の実施形態では、解析するステップは、1つまたは複数のデルタシグナルを計算することであって、各々のデルタシグナルが、DNA断片の分布と複数の参照分布の参照分布との間の差異を含むことを含む。
【0075】
別の態様では、本明細書において、対象の生物試料を処理するための方法であって、(a)前記対象の前記生物試料を得るステップであって、前記生物試料がデオキシリボ核酸(DNA)断片を含む、ステップ、(b)前記生物試料をアッセイするステップであって、(i)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および(ii)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の存在または非存在を示すシグナルを生成するステップ、ならびに(c)前記シグナルを使用するステップであって、(i)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および(ii)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の前記存在または非存在を示す出力を生成するステップを含む方法を開示する。一部の実施形態では、アッセイするステップは、(i)一組の1つもしくは複数の遺伝子座のDNA断片に関して前記生物試料を濃縮すること、または(ii)前記生物試料の前記DNA断片をシークエンシングすることを含む。
【0076】
別の態様では、本明細書において、対象に由来するセルフリーDNA断片を含む生物試料を分析するための方法であって、モノヌクレオソーム保護およびジヌクレオソーム保護の各々に対応する同じ遺伝子座からDNA断片を検出するステップを含む方法を開示する。
【0077】
別の態様では、本明細書において、対象に由来するセルフリーDNA断片を含む生物試料を分析するための方法であって、遺伝子座に関連するジヌクレオソーム保護を有するDNA断片を検出するステップを含む方法を開示する。一部の実施形態では、遺伝子座は、ERBB2、TP53、またはNF1を含む。一部の実施形態では、遺伝子座は、表1に記載の遺伝子を含む。
【0078】
別の態様では、本開示は、対象が重要な1つまたは複数のクラスに属する尤度を決定するための分類器を生成する方法であって、a)臨床的に重要な1つまたは複数のクラスの各々に関して、臨床的に重要なクラスに属する種の複数の対象の各々の生物試料および臨床的に重要なクラスに属さない種の複数の対象の各々の生物試料を含む訓練セットを提供するステップ、b)複数のデオキシリボ核酸(DNA)配列を生成するために、生物試料からのセルフリーデオキシリボ核酸(cfDNA)分子をシークエンシングするステップ、c)各々の生物試料に関して、複数のDNA配列を、種の参照ゲノムの1つまたは複数のゲノム領域の各々にマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、d)訓練セットを生じるために、複数の遺伝子座の各々に関して、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、および(iii)遺伝子座で終止するDNA配列から選択される少なくとも1つの特徴の定量的測定値を示す値を含むデータセットを各々の試料に関して提供するステップ、ならびにe)訓練セットについてコンピュータベースの機械学習システムを訓練するステップであって、それによって対象が臨床的に重要な1つまたは複数のクラスに属する尤度を決定するための分類器を生成するステップを含む方法を提供する。一実施形態では、定量的測定値は、選択された特徴を有するDNA配列のサイズ分布を含む。
【0079】
別の態様では、対象における異常な生物学的状況を決定する方法は、a)DNA配列を産生DNA配列を生成するために、対象の生物試料からのcfDNA分子をシークエンシングするステップ、b)対象の種の参照ゲノムの1つまたは複数のゲノム領域の各々にDNA配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、c)複数の遺伝子座の各々に関して、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、および(iii)遺伝子座で終止するDNA配列から選択される少なくとも1つの特色の定量的測定値を示す値を含むデータセットを提供するステップ、ならびにd)データセットに基づいて、異常な生物学的状況の尤度を決定するステップを含む。一実施形態では、方法は、異常な生物学的状況を処置するために、治療介入を施すステップをさらに含む。このように、異常な生物学的状況を処置するために、治療介入を施す方法は、本明細書に開示するように、対象における異常な生物学的状況を決定するステップの後に、治療介入を施すステップを含みうる。
【0080】
一実施形態では、定量的測定値は、選択した特色を有するDNA配列のサイズ分布を含む。一実施形態では、サイズ分布は、ジヌクレオソーム保護を有する断片および/またはモノヌクレオソーム保護を有する断片の数を示す値を含む。一実施形態では、定量的測定値は、選択された特色を有するDNA配列のサイズ分布の比率をさらに含む。一実施形態では、データセットは、複数の遺伝子座に関して、イントロンまたはエクソンにおける位置を示す値をさらに含む。
【0081】
別の態様は、1つまたは複数のコンピュータプロセッサによって実行した場合に、入力データセットに基づいてデータセットの異常な状況のクラスの尤度を出力するための方法を実行する機械実行可能なコードを含むコンピュータ可読媒体であって、方法が、複数の遺伝子座の各々に関して、フラグメントームプロファイリングに由来し、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、および(iii)遺伝子座で終止するDNA配列から選択される1つまたは複数の特色の定量的測定値を示す値を含む、コンピュータ可読媒体を提供する。
【0082】
本開示の別の態様は、異常な生物学的状況を示すフラグメントームプロファイルを有すると特徴付けられた、異常な生物学的状況を有する対象に、異常な生物学的状況を処置するように設計された処置の有効量を投与するステップを含む方法を提供する。
【0083】
本開示の別の態様は、異常な生物学的状況を示すフラグメントームプロファイルを有すると特徴付けられた、異常な生物学的状況を有するまたは有することが疑われる対象に、医薬品を投与するステップを含む方法において使用するための、異常な生物学的状況を処置するために有効である医薬品を提供する。
【0084】
本開示はまた、異常な生物学的状況を有するまたは有することが疑われる対象を処置するための医薬の製造に使用するための、異常な生物学的状況を処置するために有効である医薬品であって、対象が、異常な生物学的状況を示すフラグメントームプロファイルを有すると特徴付けられている、医薬品も提供する。
【0085】
別の態様では、本明細書において、第1のクラスの複数の対象および第2のクラスの複数の対象を含む複数の訓練対象(例えば、少なくとも50人の訓練対象)の訓練データを提供するステップであって、訓練データが、各訓練対象の訓練試料からの、1つまたは複数の選択されたゲノム遺伝子座にマッピングするcfDNA分子のマルチパラメトリック分布を含む、ステップ、ならびに機械学習アルゴリズムを訓練するステップであって、選択されたゲノム遺伝子座にマッピングするcfDNA分子のマルチパラメトリック分布を含む、試験対象の試験試料からの試験データに基づいて、対象を、がんを有するまたはがんを有しないと分類する分類モデルを開発するステップを含む方法を提供する。一部の実施形態では、分類モデルは確率モデルである。
【0086】
一部の実施形態では、第1および第2のクラスは、がんを有するおよびがんを有しない、治療に応答するおよび治療に応答しない、ならびにステージ1のがんおよびステージ2のがんから選択される。一部の実施形態では、マルチパラメトリック分布は、分子サイズ、分子開始位置および/または分子終止位置を含む。一部の実施形態では、選択されたゲノム遺伝子座は、複数の腫瘍遺伝子、例えば表1の目的の遺伝子の各々において少なくともジヌクレオソームの距離を含む。
【0087】
別の態様では、本明細書において、1つまたは複数の選択されたゲノム遺伝子座にマッピングするcfDNA分子のマルチパラメトリック分布を含む、試験対象の試験試料からの試験データを提供するステップ、ならびに第1のクラスの複数の対象および第2のクラスの複数の対象を含む複数の訓練対象の訓練データに基づくコンピュータベースの分類モデルを使用するステップであって、訓練データが各々の訓練対象の訓練試料から、1つまたは複数の選択されたゲノム遺伝子座にマッピングするcfDNA分子のマルチパラメトリック分布を含む、ステップ、試験対象を第1のクラスまたは第2のクラスに属すると分類するステップを含む方法を提供する。一部の実施形態では、分類モデルは、少なくとも90%、少なくとも95%、少なくとも98%、少なくとも99%、または少なくとも99.8%の陽性的中率を有するように選択される。
【0088】
別の態様では、本明細書において、本明細書に記載の分類方法を使用して対象を、がんを有すると分類するステップ、およびそのように分類された対象に治療的処置を施すステップを含む方法を提供する。別の態様では、本明細書において、本明細書に記載の方法によってがんを有すると分類された対象に、治療的処置を施してがんを処置するステップを含む方法を提供する。
【0089】
本開示の追加の態様および利点は、本開示のごく例示的な実施形態を示し、説明する以下の詳細な説明から、当業者に容易に明らかとなる。認識されるように、本開示は、他のおよび異なる実施形態を行うことができ、そのいくつかの詳細を、その全てが本開示から逸脱することなく、様々な明白な点では変更することができる。したがって、図面および説明は、本質的に説明的であり、制限的ではないとみなされるべきである。
参照による組込み
【0090】
本明細書において言及した全ての刊行物、特許、および特許出願は、各々の個々の刊行物、特許、または特許出願が具体的におよび個別に参照により本明細書に組み込まれると示されているのと同じ程度に、参照により本明細書に組み込まれている。
【0091】
本開示の新規特徴は、添付の特許請求の範囲に具体的に示されている。本開示の特徴および利点のより良好な理解は、本開示の原理が使用されている例示的な実施形態を示す以下の詳細な記載および添付の図面(本明細書中の図(Figure)および図(FIG.)を含む)を参照することにより得られる。
【図面の簡単な説明】
【0092】
【
図1-1】
図1Aは、1つまたは複数の構成要素を有するフラグメントームシグナルの例を示す。
【0093】
【
図1-2】
図1Bは、1つまたは複数の構成要素を有し、各構成要素がクリアランス係数により影響を受けるフラグメントームシグナルの例を示す。
【0094】
【
図1-3】
図1Cは、悪性試料(後期肺がん)対正常試料での、ジヌクレオソーム複合体の存在により示される、転写開始部位(TSS)の多様性を示す。
【0095】
【
図1-4】
図1Dは、同じ領域中の限定的な分解能の単変量断片開始密度を示す。
【0096】
【
図1-5】
図1Eは、臨床試料で観察されたセルフリーDNA(cfDNA)の断片長分布を示す。
【0097】
【
図2】
図2は、断片長およびゲノム位置にわたるcfDNA断片のヒートプロット、つまり三次元マルチパラメトリック解析の例を示す。
【0098】
【
図3】
図3A~3Dは、3つの異なるゲノム位置(PIK3CAから2か所およびEGFRから1か所)の血漿中異常発現計測値(deregulation metric)を示す4つの変換マルチパラメトリックヒートマップの例を示す。
図3Aは、PIK3CA|2238ゲノム位置に対応するヒートマップを示し、エクソン正規化10bp(塩基対)断片開始カバレッジ(x軸)の値は、約0~約0.10の範囲であり、中心化中央値10bp断片サイズ(y軸)の値は、約148bp~約172bpの範囲である。
図3Bは、PIK3CA|2238ゲノム位置に対応するヒートマップを示し、エクソン正規化10bp断片開始カバレッジ(x軸)の値は、約0.014~約0.035の範囲であり、中心化中央値10bp断片サイズ(y軸)の値は、約150bp~約185bpの範囲である。
図3Cは、PIK3CA|2663ゲノム位置に対応するヒートマップを示し、エクソン正規化10bp断片開始カバレッジ(x軸)の値は、約0.028~約0.075の範囲であり、中心化中央値10bp断片サイズ(y軸)の値は、約155bp~約185bpの範囲である。
図3Dは、EGFR|6101ゲノム位置に対応するヒートマップを示し、エクソン正規化10bp断片開始カバレッジ(x軸)の値は、約0.01~約0.061の範囲であり、中心化中央値10bp断片サイズ(y軸)の値は、約145bp~約186bpの範囲である。各臨床試料は、以下のような塗りつぶした有色円で表されている:健康対照は暗緑色で示されており、がんを有する対象は、青色、青緑色、黄色、オレンジ色、および赤色の範囲の色で示されている(それぞれ、0.1%~93%の最大変異体アレル割合(最大MAF)値に対応する)。実際、青色円は、スペクトル(例えば、がんを有する対象のコホート全体の最大MAF値の範囲)の最小値または最低値終点に対応する場合があり、赤色円は、スペクトル(例えば、がんを有する対象のコホート全体の最大MAF値の範囲)の最大値または最高値終点に対応する場合がある。
【0099】
【
図4】
図4は、所与の臨床試料のゲノム断片にわたって位置により変動する血漿中異常発現スコアの試料を示す(下段パネル)。上段パネルは、アッセイした関連遺伝子およびそれら遺伝子に見出されたあらゆる変更(SNVまたはCNV)のリストを示す。
【0100】
【
図5】
図5は、各々が異なる非小細胞肺癌(NSCLC)患者に由来する5,000個の試料中の複数のゲノム領域にわたる血漿中異常発現スコアの教師なしクラスタリングにより生成されたヒートプロットを示す。Y軸は、5,000個の患者試料の各々を反映している。X軸は、一群の分析したゲノム位置を反映している。色は、各試料について各ゲノム位置の血漿中異常発現スコアを反映している。
【0101】
【
図6】
図6は、ゲノム位置の小範囲、例えばKRAS遺伝子にわたって生成されたヒートマップを示す。この場合、血漿中異常発現スコアは10bpの分解能を有し、例えば、血漿中異常発現スコアは、10bp毎に算出されている。Y軸は2,000個の臨床試料に関する情報を提供する。X軸は、KRAS遺伝子全体の血漿中異常発現スコアを10bpの分解能で提供する。
【0102】
【
図7】
図7は、塩基対間で二本鎖DNAを切断することができる酵素の例:小球菌ヌクレアーゼを示す。
【0103】
【
図8】
図8は、マルチパラメトリックモデルの一側面、特に、ゲノムの範囲内にある各ゲノム位置での断片頻度のプロットを示す。
【0104】
【
図9】
図9は、マルチパラメトリックモデルの一側面、特に、ゲノムの範囲内にある各ゲノム位置での断片頻度のプロットを示す。
【0105】
【
図10】
図10は、マルチパラメトリックモデルの2つの側面、特に、ゲノムの範囲内にある各ゲノム位置での正規化分子計数および正規化断片サイズ(つまり長さ)のプロットを示す。
【0106】
【
図11】
図11は、マルチパラメトリックモデルの2つの側面、特に、ゲノム範囲内にある各ゲノム位置での正規化分子計数および正規化断片サイズ(つまり長さ)のプロットを示す。
【0107】
【
図12】
図12は、マルチパラメトリックモデルの3つの側面、特に、ゲノム範囲内にある各ゲノム位置での正規化分子計数、正規化断片サイズ(つまり長さ)、および正規化二本鎖パーセントを示す。
【0108】
【
図13】
図13は、マルチパラメトリックモデルの1つの側面、特に、ゲノム範囲内にある各ゲノム位置(x軸)でのリード計数(y軸)を示す。
【0109】
【
図14】
図14は、マルチパラメトリック解析の一部として実施して、マルチパラメトリックモデルを生成することができる数学的変換の例を示す。
【0110】
【
図15】
図15は、所与のゲノム領域における、2つの異なる対象の2つのマルチパラメトリックモデルの例を示す。
【0111】
【
図16】
図16は、所与のゲノム領域における、2つの異なる対象の2つのマルチパラメトリックモデルの例を示す。
【0112】
【
図17】
図17は、所与のゲノム領域における、2つの異なる対象の2つのマルチパラメトリックモデルの例を示す。
【0113】
【
図18】
図18は、所与のゲノム領域における、ヌクレオソーム構成対ゲノム位置の例を示す。
【0114】
【
図19】
図19は、所与のゲノム領域における、ヌクレオソーム構成対ゲノム位置の例を示す。
【0115】
【
図20】
図20は、絶対コピー数(CN)を決定するためのプロセスの例を示す。
【0116】
【
図21】
図21Aおよび21Bは、フラグメントームプロファイリングを使用して、血漿DNAの全シークエンシングによりコピー数増幅遺伝子の活性化を推定する例を示す。
図21Aは、2,076個の臨床試料での、ERBB2における正規化ジヌクレオソーム対モノヌクレオソーム計数比のプロットを示す。
図21Bは、
図21Aのプロットの部分拡大図を示す。
【0117】
【
図22】
図22は、本明細書で提供された方法を実施するようにプログラムされているかまたはそうでなければ構成されているコンピュータシステムを示す。
【0118】
【
図23】
図23は、腫瘍タイプ全体の単一ヌクレオソーム分解能断片化パターン(例えば、フラグメントームプロファイリングまたは「フラグメントミクス」分析に由来する)を示す。
【0119】
【
図24】
図24は、後期肺腺癌を有する768人の患者を含むコホートのフラグメントームプロファイリング(「フラグメントミクス」)に由来する特徴の例を示す。
【0120】
【
図25】
図25は、フラグメントームシグナルを使用した異常検出に使用することができるK構成要素混合モデルの例を示す。
【0121】
【
図26-1】
図26Aは、異常なcfDNAフラグメントームシグナルを特定するために、二変量正規混合モデルにフィッティングされる楕円エンベロープの例を示す。
【0122】
【
図26-2】
図26Bは、5つの異なるコホート(結腸直腸がん手術後、結腸直腸がん手術前、肺がん手術後、肺がん手術前、および正常)全体のcfDNA試料のフラグメントーム分析により生成された異常発現スコアの分布の例を示す。
【0123】
【
図27-1】
図27Aは、TP53遺伝子、エクソン#7に関連するゲノム領域における、対象の断片サイズ(例えば、断片長)およびゲノム位置を含むマルチパラメトリックモデルの例を示す。
【0124】
【
図27-2】
図27Bは、20個の試料の4つの集計後期乳がんコホート(上から下へと示されている)における、ERBB2プロモーター領域の2D断片開始位置(x軸)および断片長(y軸)密度ヒートマップを示す:(i)低変異負荷および近二倍体ERBB2コピー数(CN)を含むコホート、(ii)高変異負荷および近二倍体ERBB2コピー数(CN)を含むコホート、(iii)低変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホート、および(iv)高変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホート。
【0125】
【
図27-3】
図27Cは、20個の試料の4つの集計後期乳がんコホート(上から下へと示されている)における、ERBB2エンハンサー領域の2D断片開始位置(x軸)および断片長(y軸)密度ヒートマップを示す:(i)低変異負荷および近二倍体ERBB2コピー数(CN)を含むコホート、(ii)高変異負荷および近二倍体ERBB2コピー数(CN)を含むコホート、(iii)低変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホート、および(iv)高変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホート。
【0126】
【
図28-1】
図28Aは、アラインした2D断片開始位置(x軸)および断片長(y軸)密度ヒートマップ(上から下へと示されている)を示す:(i)単一の試料(ERBB2陽性対象に由来する)から生成されたERBB2エンハンサー領域のヒートマップ(右上)、(ii)複数の健康対照から生成された集計コホートヒートマップ、および(iii)複数の高ERBB2 CNおよび低変異負荷対象から生成された集計コホートヒートマップ。加えて、4つの異なるゲノム領域(例えば、TP53、NF1、ERBB2、およびBRCA1遺伝子に対応する)での、モノヌクレオソームおよびジヌクレオソーム計数(例えば、試験試料中で計数された、そのゲノム位置から開始する断片の数)のカバレッジプロットが示されている。
【0127】
【
図28-2】
図28Bは、アラインした2D断片開始位置(x軸)および断片長(y軸)密度ヒートマップ(上から下へと示されている)を示す:(i)単一の試料(ERBB2陰性対象に由来する)から生成されたERBB2エンハンサー領域のヒートマップ(右上)、(ii)複数の健康対照から生成された集計コホートヒートマップ、および(iii)複数の高ERBB2 CNおよび低変異負荷対象から生成された集計コホートヒートマップ。加えて、4つの異なるゲノム領域(例えば、TP53、NF1、ERBB2、およびBRCA1遺伝子に対応する)での、モノヌクレオソームおよびジヌクレオソーム計数のカバレッジプロットが示されている。
【0128】
【
図29】
図29Aおよび29Bは、ERBB2およびNF1エクソンドメイン(増幅なし)の2Dヌクレオソームマッピングのプロットを示す。各図の下段には、2D密度推定および画像処理が示されている。各図の上段には、30例の近二倍体ERBB2臨床症例全体で観察された標準ドメインのヌクレオソームマスク(nucleosomal mask)が示されている。
【0129】
【
図30】
図30は、以前にリキッドバイオプシーアッセイにより最大MAFがアッセイされていた4つの異なるコホート全体の推定第17染色体腫瘍量のプロットを示す:(i)(0,0.5]の範囲の最大MAFを有するコホート、(ii)(0.5,5]の範囲の最大MAFを有するコホート、(iii)(5,20]の範囲の最大MAFを有するコホート、および(iv)(20,100]の範囲の最大MAFを有するコホート。
【0130】
【
図31-1】
図31Aは、ERBB2発現構成要素対ERBB2コピー数のプロットを示す。
【0131】
【
図31-2】
図31Bは、分散-共分散行列を構築し、分散-共分散行列を反転させ、楕円判別関数(ellipse discrimination function)を生成することにより実施されるERBB2陰性訓練セットを使用した2D閾値化のプロットを示す。
【0132】
【
図32-1】
図32Aは、2360例の後期がん対象および43例の健康対照全体の、MPL遺伝子ドメインにおけるジヌクレオソーム断片の相対的濃縮のプロットを示す。
【0133】
【
図32-2】
図32Bおよび32Cは、MPL遺伝子の選択的転写物中の残差ジヌクレオソーム比シグナルのブレイクポイントの例を示す。
図32Cは、
図32Bのプロットの部分拡大図を示す。
【発明を実施するための形態】
【0134】
詳細な説明
本発明の好ましい実施形態を本明細書において示し、説明するが、そのような実施形態は、単なる例として提供されることは当業者に明白である。多数の変更、変化、および置換が、本発明から逸脱することなく当業者にここで想起されるであろう。本明細書に記載の本発明の実施形態に対する様々な代替を、本発明を実践するために使用してもよいと理解すべきである。
【0135】
本明細書において使用される用語「生物試料」は、一般的に、対象に由来する組織または液体試料を指す。生物試料は、対象から直接得てもよい。生物試料は、1つもしくは複数の核酸分子、例えばデオキシリボ核酸(DNA)もしくはリボ核酸(RNA)分子であってもよく、またはそれらを含んでもよい。生物試料は、任意の臓器、組織、または生物学的液体に由来しうる。生物試料は、例えば体液、または固形組織試料を含みうる。固形組織試料の例は、例えば固形腫瘍生検からの腫瘍試料である。体液は、例えば血液、血清、血漿、腫瘍細胞、唾液、尿、リンパ液、前立腺液、精液、乳、喀痰、便、涙液、およびこれらの誘導体を含む。
【0136】
本明細書において使用される用語「対象」は、一般的に、任意の動物、哺乳動物、またはヒトを指す。対象は、がん、がんに関連する症状、がんに関して無症候性である、または診断されていない(例えば、がんに関して診断されていない)ことから選択される1つまたは複数の特徴を有しうる、おそらく有する、または有することが疑われうる。対象はがんを有してもよく、対象はがんに関連する症状を示してもよく、対象はがんに関連する症状を有しなくてもよく、または対象はがんと診断されていなくてもよい。一部の実施形態では、対象はヒトである。
【0137】
本明細書において使用される用語「セルフリーDNA」(または「cfDNA」)は、一般的に、対象の血流中を自由に循環するDNA断片を指す。セルフリーDNA断片は、ジヌクレオソーム保護(例えば、少なくとも240塩基対(「bp」)の断片サイズ)を有しうる。ジヌクレオソーム保護を有するこれらのcfDNA断片は、ヌクレオソーム間でおそらく切断されず、それによってより長い断片長(例えば、334bp付近を中心とする典型的なサイズ分布を伴う)をもたらした。セルフリーDNA断片は、モノヌクレオソーム保護(例えば、240塩基対(「bp」)未満の断片サイズ)を有してもよい。モノヌクレオソーム保護を有するこれらのcfDNA断片は、ヌクレオソーム間でおそらく切断され、それによってより短い断片長(例えば、167bp付近を中心とする典型的なサイズ分布を伴う)をもたらした。本明細書において考察するcfDNAは、胎児起源を有しなくてもよく、対象は通常妊娠していなくてもよい。
【0138】
本明細書において使用される用語「DNA配列」は、一般的に、「未加工の配列リード」および/または「コンセンサス配列」を指す。未加工の配列リードは、DNAシークエンサーの出力であり、例えば増幅後に、典型的に同じ親分子の冗長な配列を含む。「コンセンサス配列」は、起源の親分子の配列を表すことが意図される親分子の冗長な配列に由来する配列である。コンセンサス配列は、投票(各々の大部分のヌクレオチド、例えば、配列における所定の塩基位置で最も一般的に観察されるヌクレオチドは、コンセンサスヌクレオチドである)または参照ゲノムと比較することなどの他のアプローチによって産生することができる。コンセンサス配列は、タグを追跡することにより、および/または配列リード内部情報を使用することにより子孫配列の追跡を可能にする(例えば、増幅後)ユニークまたは非ユニーク分子タグによって起源親分子をタグ付けすることによって産生することができる。タグ付けまたはバーコード化の例、およびタグまたはバーコードの使用は、例えばその全体が参照により本明細書に組み込まれている、米国特許出願公開第2015/0368708号、第2015/0299812号、第2016/0040229号、および第2016/0046986号に提供される。
【0139】
シークエンシング方法は、第一世代シークエンシング方法、例えばマキサム-ギルバートもしくはサンガーシークエンシング、またはハイスループットシークエンシング(例えば、次世代シークエンシングまたはNGS)方法でありうる。ハイスループットシークエンシング方法は、少なくとも10,000、100,000、100万個、1000万個、1億個、10億個、またはそれより多くのポリヌクレオチド分子を同時(または実質的に同時)にシークエンシングすることができる。シークエンシング方法には、パイロシークエンシング、合成によるシークエンシング、一分子シークエンシング、ナノポアシークエンシング、半導体シークエンシング、ライゲーションによるシークエンシング、ハイブリダイゼーションによるシークエンシング、Digital Gene Expression(Helicos)、超並列シークエンシング、例えばHelicos、Clonal Single Molecule Array(Solexa/Illumina)、PacBio、SOLiD、Ion Torrent、またはNanoporeプラットフォームを使用するシークエンシングが挙げられうるがこれらに限定されるわけではない。
【0140】
本明細書において使用される用語「参照ゲノム」(時に「アセンブリ」と呼ばれる)は、一般的に、遺伝子データから組み立てられ、種のゲノムを表すと意図される核酸配列データベースを指す。典型的に、参照ゲノムは半数体である。典型的に、参照ゲノムは、その種の単一の個体のゲノムを表すのではなく、むしろいくつかの個体のゲノムのモザイクである。参照ゲノムは、公開されているまたは私的な参照ゲノムでありうる。ヒト参照ゲノムは、例えばhg19もしくはNCBI Build 37またはBuild 38を含む。
【0141】
本明細書において使用される用語「参照配列」は、一般的に、それに対して対象のヌクレオチド配列を比較するヌクレオチド配列を指す。典型的に、参照配列は、参照ゲノムに由来する。
【0142】
本明細書において使用される用語「マッピング」は、一般的に、配列相同性に基づいてDNA配列を参照配列と整列させることを指す。アライメントは、アライメントアルゴリズム、例えばNeedleman-Wunschアルゴリズム(例えば、URL ebi.ac.uk/Tools/psa/emboss_needle/nucleotide.htmlで入手可能な、任意選択でデフォルト設定を使用するEMBOSS Needle alignerを参照されたい)、BLASTアルゴリズム(例えば、URL blast.ncbi.nlm.nih.gov/Blast.cgiで入手可能な、任意選択でデフォルト設定を使用するBLASTアライメントツールを参照されたい)、またはSmith-Watermanアルゴリズム(例えば、URL ebi.ac.uk/Tools/psa/emboss_water/nucleotide.htmlで入手可能な、任意選択でデフォルト設定を使用するEMBOSS Water alignerを参照されたい)を使用して実施することができる。最適なアライメントを、デフォルトパラメータを含む、選択したアルゴリズムの任意の適したパラメータを使用して評価することができる。
【0143】
本明細書において使用される用語「ゲノム領域」は、一般的に、ゲノムの任意の領域(例えば、塩基対位置の範囲)、例えばゲノム全体、染色体、遺伝子、またはエクソンを指す。ゲノム領域は、連続または不連続領域であってもよい。「座」(または「遺伝子座」)は、ゲノム領域の一部または全体(例えば、遺伝子の一部、または遺伝子の単一のヌクレオチド)でありうる。
【0144】
本明細書において使用される用語「定量的測定値」は、一般的に、絶対的または相対的測定値を指す。定量的測定値は、数、統計学的測定(例えば、度数、平均値、中央値、標準偏差、または分位数)、または程度もしくは相対量(例えば、高い、中等度、および低い)でありうるがこれらに限定されるわけではない。定量的測定値は、2つの定量的測定値の比率でありうる。定量的測定値は、定量的測定値の線形結合でありうる。定量的測定は、正規化測定値でありうる。
【0145】
本明細書において使用される用語「異常な生物学的状況」は、一般的に、正常から何らかの程度逸脱している生物系の状況を指す。異常な状況は、生理レベルまたは分子レベルで起こりうる。例えば、限定されるわけではないが、異常な生理学的状況(疾患、病態)または遺伝子異常(変異、一塩基バリアント、コピー数バリアント、遺伝子融合、インデル等)。疾患状況は、がんまたは前がんでありうる。異常な生物学的状況は、異常性の程度(例えば、正常な状況から離れる距離を示す定量的測定値)に関連しうる。
【0146】
本明細書において使用される用語「尤度」は、一般的に、確率、相対的確率、存在もしくは非存在、または程度を指す。
【0147】
本明細書において使用される用語「機械学習アルゴリズム」は、一般的に、例えばクラスタリング、分類、またはパターン認識のための解析モデル構築を自動化する、コンピュータによって実行されるアルゴリズムを指す。機械学習アルゴリズムは、教師ありまたは教師なしでありうる。学習アルゴリズムには、例えば人工ニューラルネットワーク(例えば、誤差逆伝播ネットワーク)、判別分析(例えば、ベイズ分類器またはフィッシャー分析)、サポートベクターマシン、決定木(例えば、再帰分割プロセス、例えばCART-分類回帰木、またはランダムフォレスト)、線形分類器(例えば、多重線形回帰(MLR)、部分的最小二乗(PLS)回帰、および主成分回帰)、階層クラスタリング、およびクラスタ分析が挙げられる。機械学習アルゴリズムがそれについて学習するデータセットを、「訓練データ」と呼ぶことができる。
【0148】
本明細書において使用される用語「分類器」は、一般的に、試験データを入力として受信し、1つまたは別のクラスに属するとの入力データの分類を出力として産生するアルゴリズムコンピュータコードを指す。
【0149】
本明細書において使用される用語「データセット」は、一般的に、システムの要素を特徴付ける値のコレクションを指す。システムは、例えば生物試料からのcfDNAでありうる。そのようなシステムの要素は、遺伝子座でありうる。データセット(dataset)(または「データセット(data set)」)の例は、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、(iii)遺伝子座で終止するDNA配列、(iv)DNA配列のジヌクレオソーム保護またはモノヌクレオソーム保護、(v)参照ゲノムのイントロンまたはエクソンに位置するDNA配列、(vi)1つまたは複数の特徴を有するDNA配列のサイズ分布、および(vii)1つまたは複数の特徴を有するDNA配列の長さ分布等から選択される特徴の定量的測定値を示す値を含む。
【0150】
本明細書において使用される用語「値」は、一般的に、値が指す特色を特徴付ける任意のものでありうるデータセットにおけるエントリーを指す。これには、数、言葉もしくは語句、記号(例えば、+または-)、または程度が挙げられるがこれらに限定されるわけではない。
【0151】
本明細書において使用される用語「リキッドバイオプシー」は、一般的に、非侵襲性または低侵襲性の臨床検査またはアッセイ(例えば、生物試料またはセルフリーDNAの)を指す。そのような「リキッドバイオプシー」アッセイは、1つまたは複数の腫瘍関連マーカー遺伝子の測定値(例えば、マイナーアレル頻度、遺伝子発現、またはタンパク質発現)を報告することができる。そのようなリキッドバイオプシーアッセイは、市販の、例えばGuardant Healthの循環中の腫瘍DNA試験、Fluxion BiosciencesのSpotlight59腫瘍学パネル、Agena BioscienceのUltraSEEK肺がんパネル、Foundation MedicineのFoundationACTリキッドバイオプシーアッセイ、およびPersonal
Genome DiagnosticsのPlasmaSELECTアッセイでありうる。そのようなアッセイは、一組の遺伝子バリアント(例えば、SNV、CNV、インデル、および/または融合)の各々に関するマイナーアレル割合(MAF)値の測定値を報告することができる。
【0152】
本明細書において使用される用語「マルチモーダル密度」は、一般的に、複数のパラメータにおける密度または密度分布を指す。マルチモーダル密度は、多変量混合分布を含みうる。
【0153】
緒言
【0154】
がんの形成および進行は、デオキシリボ核酸(DNA)の遺伝的および後成的(epigenetic)修飾の両方から生じうる。本開示は、セルフリーDNA(cfDNA)などのDNAの後成的修飾の解析方法を提供する。そのような「フラグメントーム」解析を、単独でまたは既存の技術と組み合わせて使用して、疾患もしくは状態の存在もしくは非存在、診断された疾患もしくは状態の予後、診断された疾患もしくは状態の治療的処置、または疾患もしくは状態の予想される処置の転帰を決定することができる。
【0155】
循環中のセルフリーDNA(cfDNA)は、瀕死の組織細胞から末梢血(血漿または血清)などの体液に脱落した主に短いDNA断片(例えば、約100~400塩基対の長さを有し、最頻値は約165bpである)でありうる。cfDNAの解析によって、がん関連遺伝子バリアントに加えて、瀕死の細胞の食細胞による除去の後成的フットプリントおよびシグネチャーが明らかとなり、それによって存在する悪性疾患(例えば、腫瘍)の集合ヌクレオソーム占有プロファイル、ならびにその微小環境構成要素がもたらされうる。
【0156】
悪性の固形腫瘍は、腫瘍関連正常細胞、上皮細胞、および間質細胞、免疫細胞、ならびに血管細胞を含み、その全てのいずれかがcfDNA試料(例えば、対象の体液から得られうる)に寄与して表されうることから、(i)細胞死のタイプおよびDNAの解体の際の関連するクロマチン凝集事象、(ii)対象の免疫系によって調節される様々なタイプの貪食の仕組みを伴いうるクリアランス機構、ならびに(iii)循環中の細胞タイプの基礎となる組合せによって影響を受けうる血液組成の非悪性の多様性、(iv)所定のタイプの臓器または組織における非悪性の細胞死の複数の起源または原因、ならびに(v)がん内部の細胞タイプの不均一性を含む、1つ、2つ、またはそれより多くの構成要素または要因が血漿中フラグメントームシグナル(例えば、cfDNA断片の解析から得たシグナル)に寄与しうる。
【0157】
ヒストン保護複合体の形態でのセルフリーDNAは、好中球、マクロファージ、好酸球、ならびに腫瘍細胞を含む様々な宿主細胞によって放出されうる。循環中のDNAは、典型的に短い半減期(例えば、約10~15分)を有し、肝臓は典型的に、循環中のDNA断片を血液循環から除去する主要な臓器である。循環中のcfDNAの蓄積は、細胞死および/もしくは活性化の増加、cfDNAのクリアランス障害、ならびに/または内因性のDNアーゼ酵素レベルの減少に起因しうる。対象の血流中を循環するセルフリーDNA(cfDNA)は、典型的に膜被覆構造(例えば、アポトーシス体)に充填されうるか、または生体高分子(例えば、ヒストンまたはDNA結合血漿タンパク質)と複合体を形成しうる。DNA断片化およびその後の輸送のプロセスを、フラグメントーム解析によって検出されるセルフリーDNAシグナルの特徴に及ぼすその効果に関して分析することができる。
【0158】
細胞核(例えば、ヒトの)において、DNAは典型的に、コアヒストン八量体の周囲に巻き付いた約145塩基対(bp)のDNAを含む構造に構築されるヌクレオソームに存在する。DNAとヒストン二量体の静電および水素結合相互作用によって、タンパク質表面上でエネルギー的に望ましくないDNAの屈曲が起こりうる。そのような屈曲は、他のDNA結合タンパク質に対して立体的に妨害性でありえて、したがって細胞核のDNAへのアクセスを調節する役割を有しうる。細胞におけるヌクレオソームポジショニングは、動的に変動しえて(例えば経時的にならびに様々な細胞の状況および状態において)、例えば自発的に部分的に巻きほどけて再度巻き付く。フラグメントームシグナルは、ヌクレオソーム単位によって影響を受ける配置を起源とするヒストン保護DNA断片を反映しうることから、ヌクレオソームの安定性およびダイナミクスは、そのようなフラグメントームシグナルに影響を及ぼしうる。これらのヌクレオソームダイナミクスは、多様な要因、例えば、(i)ATP加水分解のエネルギーを使用してヌクレオソームをスライドさせ、クロマチン線維からヒストンを交換または除去しうるATP依存的再構成複合体、(ii)標準的なヒストンの特性とは異なる特性を有し、クロマチン線維内で局在化特異的ドメインを作製しうるヒストンバリアント、(iii)遊離のヒストンの供給を制御し、ヒストンの蓄積および除去においてクロマチン再構成因子と協調しうるヒストンシャペロン、ならびに(iv)クロマチン構造に直接または間接的に影響を及ぼしうるヒストンの翻訳後修飾(PTM)(例えば、アセチル化、メチル化、リン酸化、およびユビキチン化)に由来しうる。
【0159】
したがって、cfDNAにおける断片化シグナルまたはパターンは、ゲノムにおけるクロマチン構成の不均一性に関連する複数の事象に由来する集合cfDNAシグナルを示しうる。そのようなクロマチン構成は、全体的な細胞の同一性、代謝状況、限局的調節状況、瀕死の細胞における局所遺伝子活性、およびDNAクリアランス機構などの要因に応じて異なりうる。その上、セルフリーDNAフラグメントームシグナルは、寄与する細胞の基礎となるクロマチン構造にごく部分的に起因しうる。そのようなcfDNAフラグメントームシグナルは、細胞死の際のクロマチン圧縮のより複雑なフットプリントおよび酵素消化からのDNAの保護を示しうる。したがって、所定の細胞タイプまたは細胞系列タイプに対して特異的なクロマチンマップは、細胞死の様々な段階でのヌクレオソーム安定性、コンフォメーション、および組成の変化、またはデブリの移動により、DNAアクセシビリティの固有の不均一性にごく部分的に寄与しうるに過ぎない。その結果、一部のヌクレオソームが、セルフリーDNAに優先的に存在するようになる場合があり、または存在しなくなる場合があり(例えば、cfDNAクリアランスに影響を及ぼして血液循環に放出するフィルタリング機構が存在しうる)、これは、細胞死および死細胞クリアランスの様式および機構などの要因に依存しうる。
【0160】
フラグメントームシグナルは、細胞において生成され、アポトーシスおよび壊死などの細胞プロセスの際に核DNA断片化の結果として血液循環にcfDNAとして放出されうる。そのような断片化は、異なるステージの細胞においてDNAに作用する異なるヌクレアーゼ酵素の結果として産生され、それによって配列特異的DNA切断パターンがもたらされ、これをcfDNAフラグメントームシグナルにおいて解析することができる。そのようなクリアランスパターンを分類するステップは、細胞環境の臨床的に関連するマーカー(例えば、腫瘍微小環境、炎症、疾患状況、腫瘍形成等)でありうる。
【0161】
フラグメントームシグナルは、それらが由来する異なるクロマチン状況に対応する別個の構成要素にcfDNA断片を分類することによって解析することができる。例えば、フラグメントームシグナルを、
図1Aに示すように、異なる基礎となるクロマチン状況を表す構成要素(例えば、良性の全身応答、腫瘍の全身応答、腫瘍微小環境、および腫瘍)の合計として表記してもよい。この「クロマチン状況のクリアランス」モデルは、各々のクロマチン状況が、異なる基礎となるクリアランス機構(例えば、組織タイプ、臓器タイプ、または腫瘍タイプに特異的)を有しうることから、構成要素にクリアランス係数を乗算することによって修飾されうる。
図1Bに示すように、フラグメントームシグナルを、1つまたは複数の構成要素の合計としてモデル形成してもよく、各々の構成要素は、クリアランス係数によって影響を受ける(例えば、乗算される)。そのような構成要素およびクリアランス係数は、類似または同一のクロマチン状況の間を識別するために使用することができる非バリアントマーカーとなりうる。フラグメントーム解析は、そのような「クロマチン状況のクリアランス」モデルを使用して、クロマチン状況の1つもしくは複数、またはそのクリアランス機構の1つもしくは複数が、例えば遺伝子異常または疾患状況のマーカー指標として使用するために十分に異なる特定の領域(または特色)を同定することによって実施されうる。そのような遺伝子異常は、SNV、CNV、インデル、融合を含みうる。
【0162】
フラグメントーム解析は、ゲノム異常および/またはDNAにおける後成的変化の結果でありうるクロマチン構成または構造の標準的なまたは非標準的な多様性を明らかにしうる。そのような測定値は、例えば、(i)がん特異的腫瘍微小環境、(ii)がん特異的である間質脱落特徴が起こる物理的ストレスに対する間質の応答、(iii)免疫学的に活性ながんの断片の非常に小さい存在に対する応答の血液細胞組成の変化、および/または(iv)出芽しつつある腫瘍ニッチ形成に関連する微細な組織免疫プロファイルの変動に対する血液組成の応答のうちの1つまたは複数を明らかにしうる。フラグメントーム解析によって測定または推定することができる遺伝子異常は、後成的バリアントまたは変化を含みうる。
【0163】
限局的増幅および/または異数性を含む体細胞コピー数バリアント(CNV)は、多くのがん、特に転移性がんにおいて一般的に観察される遺伝子異常の群を表す。典型的に、コピー数は、特定の遺伝子またはDNA配列の細胞1つ当たりのコピー数を指す。しかし、そのようなコピー数(CN)の解釈は、不均一なマルチクローナルな腫瘍環境をプロファイルする場合にはあまり正確ではない場合がある。そのような腫瘍細胞は、不均一な腫瘍細胞集団において広範囲のCNを有しうる。
【0164】
欠失および複製などの体細胞から獲得した染色体再構成、特に限局的再構成によって、遺伝子の用量効果として公知の現象である遺伝子の発現レベルの変化が起こりうる。
【0165】
マイクロアレイ技術、例えばアレイ比較ゲノムハイブリダイゼーション(アレイCGH)、および一塩基多型(SNP)マイクロアレイは、CNV検出において広く使用されている。従来のアレイCGHにおいて、参照および試験DNAを蛍光標識し、アレイにハイブリダイズさせ、シグナル比をコピー数(CN)比の推定値として使用する。SNPマイクロアレイはまた、ハイブリダイゼーションに基づくが、各々のマイクロアレイにおいて単一の試料を処理し、強度の比は、試験中の試料の強度を、参照試料のコレクションまたは試験される他の全ての試料と比較することによって形成される。マイクロアレイ/遺伝子型判定アレイは、大きいCNV検出にとって効率的であるが、それらは、短い遺伝子またはDNA配列(例えば、約50キロベース(kb)未満の長さを伴う)のCNVを検出する場合にはより感度が低い。
【0166】
ゲノムの塩基毎の検分を提供することによって、次世代シークエンシング(NGS)は、アレイではなおも検出できない場合がある小さいまたは新規CNVを検出しうる。適したNGS方法の例には、全ゲノム(WGS)、全エクソームシークエンシング(WES)、または標的化エクソームシークエンシング(TES)が挙げられうる。しかし、個々のシークエンシング試料からCNV(例えば、コピー数増幅(CNA))を検出するための計算アルゴリズムの開発は、部分的に、ハイブリダイゼーションによって導入されるバイアスおよびゲノム全体を通してのまばらで不均一なカバレッジにより、なおも難題である。
【0167】
腫瘍組織を獲得する(例えば、費用が高く侵襲性である生検技法を通して)難しさおよび関連する健康リスクは、低侵襲性の血液ベースアッセイを開発する動機付けとなっている。血液のプロファイリングは、試料獲得の性質が低侵襲性であること、試料採取プロトコールの標準化が比較的容易であること、および経時的に繰り返し試料を得ることができることを含む、いくつかの実践的な利点を提供しうる。これまでの研究から、異なるがんタイプを有する患者の血漿中に、マイクロサテライト変化および遺伝子変異を含むがん関連バリアントが同定されている。血漿中の大量の非腫瘍DNAの存在下でがんバリアントを検出することは、コピー数検出における新たな難題を表しうる。
【0168】
その上、血漿由来セルフリーDNAは、クロマチン構造のゲノムワイド解析(特に、ミクロコッカスヌクレアーゼシークエンシング、または「MNアーゼ-seq」アッセイ)においてこれまでに認められた特徴、特にcfDNAにおいて観察されたDNA断片化のパターンを調べることによって決定されるヒト組織の後成的背景に関連する特徴を保持している。
図7は、塩基対間の二本鎖DNAを切断することができる酵素の例、ミクロコッカスヌクレアーゼ(MNアーゼ)を説明する。ミクロコッカスヌクレアーゼの1:3希釈液は、特定の配列に対して特異性を有することなく、任意の塩基対の位置で切断することができる。MNアーゼは、クロマチンを消化することができ、それによってDNA鎖に沿ったヌクレオソームの位置に関する情報を提供することができる。様々なモデル生物およびヒト細胞株の研究により、DNA上のヌクレオソームのポジショニングは多様で組織特異的であり、従来のコピー数アプローチが、短いCNVバリアントの血漿由来DNAコピー数検出に関して最適ではない参照シグナルに依存することが明らかとなっている。特に、cfDNA断片コピー数は、基礎となる細胞または組織タイプのヌクレオソームポジショニング、細胞クリアランス、および/または遺伝子発現に依存しうるが、これらは、経時的に細胞状態によって変化しうる。セルフリーDNAシグナルは、組織において観察されるヌクレオソームポジショニングに従って挙動することが観察されており、そのためヌクレオソームの枯渇は、活発に発現する遺伝子の転写開始部位(TSS)で起こり、したがって、TSS内のある特定のDNA断片の出現率は、造血細胞の発現シグネチャーを直接反映する。
【0169】
ヌクレオソームは、遺伝子が活発に転写される(例えば、DNAポリメラーゼII(Pol II)によって)場合にも存在しうる。しかし、ヌクレオソームポジショニングはしばしば、細胞において経時的に変化し、一部のヌクレオソームは、転写が誘導されると失われうる。例えば、多くの真核細胞遺伝子において、Pol IIは、鋳型の最初の50~100bpの転写後停止する。当初のヒストンは、DNAループ形成を伴う中等度レベルの転写の間はDNA上に留まりうるが、複数の転写複合体がヒストンを置換する集中的な転写の間では、より有意な再構成が起こりうる。その結果として、DNA断片のモノヌクレオソームおよびジヌクレオソーム性質の識別は、例えば
図1Cに示すように、断片開始カバレッジの単変量解析によってジヌクレオソーム複合体の存在が明らかとならない代替の転写開始部位(TSS)プロモーターを使用する場合(例えば、
図1Dに示すように代替の転写開始を示しうる)、TSS周囲の基礎となる調節を同定および決定するために助けとなりうる。
【0170】
セルフリーDNAの起源の解明における最近の進歩にもかかわらず、ヌクレオソーム認識体細胞バリアント検出アルゴリズムがなおも必要である。ヌクレオソーム認識バリアント検出アプローチは、ヌクレオソームポジショニングがcfDNA断片パターンおよびシグナルにどのように影響を及ぼすかに関する本発明者らの理解を広げ、転写因子結合および転写開始部位外のセルフリーDNA断片化パターンのヌクレオソームベースの解析(フラグメントミクス(fragmentomics))の拡大を重視しうる。
【0171】
本開示は、血漿中異常発現スコアを決定するためのユニパラメトリックまたはマルチパラメトリック解析の使用を提供する。ユニパラメトリック解析は、1つの独立したパラメータによる分布関数の解析を含みうる。マルチパラメトリック解析は、2つまたはそれより多くの独立したパラメータによる分布関数の解析を含みうる。血漿中異常発現スコアは、ゲノムにおいて(例えば、ゲノム位置において)変化しうる。この変動は、例えば複数の塩基位置の各々の塩基位置と重複する断片の数に基づきうる。複数の塩基位置は、ゲノムの一部または全体から選択されうる。この変動は、例えばゲノムの一部または全体の各々の位置と重複する断片の長さの分布に基づきうる。
【0172】
一態様では、血漿中異常発現スコアを決定するステップは、一組のゲノム位置の各々で特定の長さを有する試料中のcfDNA断片(例えば、NGSまたは他のシークエンシング方法によって検出される)の数をプロットするステップを含みうる。これは、マルチパラメトリック解析、例えば第1の軸がゲノムの1つまたは複数の領域と重複する複数のゲノム位置(例えば、複数の塩基対位置の連続するスパンまたは表1に記載の一組のゲノム領域)を表しうる三次元(3-D)プロットを作成することによって行うことができる。3-Dプロットの第2の軸は、試料中の一組の可能な断片の長さ(例えば、0bp~400bp)の各々を表しうる。3-Dプロットの第3の軸は、断片の長さの各々でユニークなゲノム位置と重複する断片の数を表しうる。
【0173】
データをそのような3-Dマトリックスにプロットすると、得られたマルチパラメトリック分布プロットを使用してスコアを決定することができる。このスコアは、本明細書において他所で記載される血漿中異常発現スコアでありうる。
【0174】
別の態様では、血漿中異常発現スコアを決定するステップは、ユニパラメトリック解析、例えば第1の軸がゲノムの1つまたは複数の領域と重複する複数のゲノム位置を表しうる(例えば、複数の塩基対位置の連続するスパンまたは表1に記載の一組のゲノム領域)二次元(2-D)プロットを作成することを含みうる。2-Dプロットの第2の軸は、特定の長さを有し、複数のゲノム位置の各々と重複する試料中のcfDNA断片の数を表しうる。
【0175】
フラグメントーム解析は、上記の1つまたは複数のユニパラメトリックまたはマルチパラメトリック解析を含みうる。フラグメントーム解析は、セルフリー核酸を使用するヌクレオソームプロファイリング、ヌクレオソームプロファイリングのパターンを疾患もしくは状態などの特異的表現型に関連させるステップ、または試料を1つもしくは複数の関連するクラスに分類するのを助けるために分類器を構成するステップを含みうる。例えば、分類器は、参照ゲノムにおけるイントロン-エクソン境界の位置を含むイントロン-エクソン境界情報、およびイントロンもしくはエクソンの位置またはイントロン-エクソン境界付近の位置を示す値を含むフラグメントーム情報(例えば、1つまたは複数のマルチパラメトリックまたはユニパラメトリックモデル)を使用する。そのようなイントロン-エクソン境界情報は、遺伝子バリアントまたは異常な生物学的状況の識別にとって有益でありうる。フラグメントーム解析を同様に使用して、例えば関連する表現型を検出するためにゲノムのユニーク部分を選択的に濃縮するために使用することができるプローブ、プライマー、およびベイトを同定することができる。
配列情報
【0176】
本明細書におけるフラグメントームプロファイリングは、セルフリー核酸分子の試料に由来する配列情報を利用する。配列情報を決定する多数の方法が存在する。例には、HiSeq(Illumina)またはIon Torrent(Thermo Fisher)を使用するシークエンシングが挙げられる。特に、ペアエンドシークエンシングを使用して、血漿中の単一のDNA分子の連続性を測定してもよく、例えばクロマチンDNAをヌクレオソーム間断片へと切断する内因性のエンドヌクレアーゼの活性化パターンを試験してもよい。ヌクレオソーム占有パターンのため、これらのcfDNA断片長を、
図1Eに示すように分布として観察する。水平軸は、断片長(塩基対、「bp」として)であるが、垂直軸は、所定の断片長を有するcfDNA断片の数を示す。断片長分布のピークは、167bp付近で認められ、これはヒストン八量体コアの周囲に巻き付いた約147bpのDNAおよびリンカーDNAのセグメントに対応する。より小さいピークもまた、334bp付近(例えば、167bpの断片長の2倍)で認められ、これは、関連するリンカーDNAと共に、ヒストン八量体コア周囲(例えば、単一のヒストン周囲に2回または2つの連続するヒストンの周囲)に2回巻き付いたDNAに対応する。約167bpの断片長分布のこのピークは、マルチパラメトリック解析において、マルチパラメトリックヒートプロットの1つまたは複数の軸に沿って約167bp離れた1つまたは複数の周期的ピークを観察することによって明白でありうる。
【0177】
cfDNAシグナルにおいて観察されるアポトーシスDNA断片化の存在下で、ペアエンドシークエンシングにより、DNA結合ヌクレオソームの位置および占有ならびに転写因子の両方の決定が可能となる。次に、このアプローチにより、異なるクロマチン構造プロファイルから生じる分子集団を、サブヌクレオソーム分解能であっても識別することができる。cfDNA断片がゲノム開始空間と断片長空間との間でどのように異なるかを調べることによって、
図2に説明するヒートプロット可視化がもたらされうる。
【0178】
配列データをセルフリー核酸試料から獲得した後、配列データを整列させて、ユニーク分子リードに折り畳んでもよい。整列させるための方法は、ClustalW2、Clustal Omega、およびMAFFTを含む。
【0179】
本明細書において導出したシークエンシング情報を任意選択で折り畳んで、ユニーク分子および/またはユニーク配列リードを決定することができる。ユニーク分子に折り畳むための方法は、例えば、Population GeneticsのVeriTag、およびJohns Hopkins UniversityのSafeSeqSによって記載されている。
【0180】
cfDNAをシークエンシングして、参照ゲノムにマッピングするための技術は、当技術分野で公知であり、例えばChandranandaら、(2015年)BMC Medical Genomics8巻:29頁を参照されたい。
ユニパラメータモデリング
【0181】
本開示は、ユニパラメトリックモデリングのための方法を提供する。ユニパラメトリックモデルは、2-D分布、例えば断片計数分布での2-D解析を実施するステップを含みうる。ユニパラメトリックモデルは、一組のゲノムの位置を含みうる。ゲノムは、ヒトゲノムでありうる。ゲノムは、報告された腫瘍マーカーの1つまたは複数の遺伝子座を含みうる。2-D断片計数分布は、ゲノムにおける一組の位置、およびゲノムにおける一組の位置の各々の位置と整列する一組の断片の数を含みうる。そのようなモデリングを、本明細書により詳細に記載する分類器と共に使用して、状態もしくは状態の状況に関連するパターンもしくはシグネチャーを同定するため、または試験対象における遺伝子異常(例えば、SNV、CNV、融合、またはインデル)を決定することができる。ユニパラメトリックモデルの他の例には、2-D開始位置分布、2-D終止位置分布、または2-D断片長分布に関する2-D解析が挙げられるがこれらに限定されるわけではない。
【0182】
2-D開始位置分布は、ゲノムにおける一組の位置、およびゲノムにおける一組の位置の各々の位置で開始する一組の断片の数を含みうる。
【0183】
2-D終止位置分布は、ゲノムにおける一組の位置、およびゲノムにおける一組の位置の各々の位置で終止する一組の断片の数を含みうる。
【0184】
第1の2-D断片長分布は、ゲノムにおける一組の位置、およびゲノムにおける一組の位置の各々の位置と重複する一組の断片の長さを含みうる。
【0185】
第2の2-D断片長分布は、一組の長さ、および一組の長さにおいてある長さを有する一組の断片の数を含みうる(例えば、
図1Eに示すように)。
【0186】
一例では、ユニパラメトリックモデルを使用して、対象のセルフリーDNAにおけるSNVを検出する。第1に、セルフリーDNAを、肺がんを有する対象の体液試料から得る。cfDNA断片をシークエンシングして、断片の複数の配列リードを産生する。各々の配列リードを、ヒトゲノムからの一組の複数の参照配列にマッピングする。一組の参照配列における各々の塩基位置に関して、その塩基位置にマッピングする配列リードの数を計数し、それによって一組の参照配列に関する2-D断片計数分布を産生する。一組の参照配列において、2-D断片計数分布がその参照配列で異常に低い(組における他の参照配列と比較して)1つの参照配列を同定する。これは、アップレギュレートされた遺伝子発現を有する遺伝子座を含む参照配列であると生物学的に解釈される。この参照配列は、EGFR L858R一塩基多型遺伝子座を含む。このように、ユニパラメトリックモデルは、参照配列における塩基位置の塩基同一性を使用することなく(すなわち、配列におけるヌクレオチド同一性の多様性を通してSNVを直接検出することなく)、EGFR L858R SNVの存在の「バリアントフリーの」検出を実施した。次に、このSNV検出を使用して、臨床診断、予後、治療選択、治療予測、治療モニタリング等を決定してもよい。
マルチパラメトリックモデリング
【0187】
試料からの配列データを生成した後、配列データのマルチパラメトリック解析を実施して、マルチパラメトリックモデルを生成しうる。マルチパラメトリック解析は、複数のパラメータ(データセット)を同時に利用する任意の解析を指す。例えば、マルチパラメトリック解析は、nが少なくとも2の整数であるn個の独立変数(値x1、x2、…、xn)を有する分布関数(関数値y)を含みうる。例えば、一例では、マルチパラメトリック解析は、マッピング可能な塩基毎の軸(例えば、ゲノムにおける複数のゲノム位置の各々において)において、その塩基にまたがるユニーク分子の数およびその塩基で開始するユニーク分子の数を示す分布プロットをゲノムに沿って生成するステップを含みうる。別の例として、マルチパラメトリック解析は、各々の入力ベクトル[値x1、x2、…、xn]に関連する断片の数(例えば、関数値y)の分布プロットを生成するステップであって、各々のxiがシークエンシングリードデータにおける独立変数(複数のn個の独立変数の)である、ステップを含みうる。そのような入力ベクトルの例は、x1が、cfDNA断片がまたがるマッピング可能な塩基位置(例えば、ゲノムにおけるそのような複数のゲノム位置での)であり、x2が、cfDNA断片の塩基の長さ(例えば、「断片長」)であるベクトルでありうる。フラグメントーム解析は典型的に、断片の相対的分布(例えば、異なる対象、異なる時点で採取した試料、異なるゲノム位置、または遺伝子座等と比較した)の解析を含むことから、DNA断片の数のカバレッジ値(例えば、計数)は、正規化されてもよく、または非正規化であってもよい。
【0188】
パラメータは、(i)ゲノムの複数の塩基位置の各々と整列するDNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列するDNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止するDNA断片の数のうちの1つまたは複数を示しうる。マルチパラメトリックモデルは、2つまたはそれより多くのそのようなパラメータを含みうる。そのようなパラメータは、正規化値、または非正規化値でありうる。
【0189】
マルチパラメトリックモデリングは、ユニパラメトリックモデリングと同様に、ゲノムの構造多様性または不安定性のクラスタまたは領域(例えば、ヌクレオソーム占有またはポジショニングの結果として)を示すパターンを生じることができる。
【0190】
フラグメントームプロファイリングは、セルフリー核酸試料から1つまたは複数のマルチパラメトリックまたはユニパラメトリックモデルを生成し、それによってセルフリー核酸試料のフラグメントームプロファイルを生成することによって実施されうる。1つまたは複数のフラグメントームプロファイル(またはフラグメントームデータ)に、教師なしクラスタリングを行って、1つまたは複数のクラスの別個の異常な生物学的状況を明らかにしてもよい。1つまたは複数のフラグメントームプロファイル(またはフラグメントームデータ)を分類器に組み込んで、対象が臨床的に重要な1つまたは複数のクラスに属する尤度を決定してもよい(例えば、機械学習技術を使用して)。臨床的に重要なクラスは、例えば異常な生物学的状況または遺伝子バリアントを示すカテゴリーでありうる。臨床的に重要なクラスの例には、(i)1つまたは複数の遺伝子バリアントの存在または非存在、(ii)1つまたは複数のがんの存在または非存在、(iii)1つまたは複数の標準的なドライバー変異の存在または非存在、(iv)1つまたは複数の疾患サブタイプの存在または非存在(例えば、肺がん分子サブタイプ)、(v)がんまたは他の疾患、障害、もしくは異常な生物学的状況の処置に対する応答の尤度(例えば、薬物または治療)、(vi)コピー数多様性(CNV)の存在または非存在(例えば、ERBB2増幅)、あるいは(vii)腫瘍微小環境に由来する情報(例えば、cfDNA断片に対応する起源組織)が挙げられる。
【0191】
1つまたは複数のフラグメントームプロファイル(またはフラグメントームデータ)を分類器に組み込んで、1つまたは複数の標準的なドライバー変異の存在または非存在の尤度を決定してもよい。ドライバー変異は、その生存または再生の増加のいずれかを通してその微小環境におけるクローンに対して選択的利点を与える変異でありうる。ドライバー変異は、がんまたは別の異常な生物学的状況に関連する体細胞変異でありうる。ドライバー変異の存在は、がんの診断、がんサブタイプを有する対象の階層化、腫瘍量、組織もしくは臓器の腫瘍、腫瘍の転移、処置の有効性、または処置に対する抵抗性を示しうる。標準的なドライバー変異は、当技術分野で周知の変異、例えばCatalogue of Somatic Mutations in Cancer(COSMIC)(URL cancer.sanger.ac.uk/cosmicで入手可能)に記載されている変異でありうる。標準的なドライバー変異の例には、肺がんにおける上皮増殖因子受容体(EGFR)エクソン19欠失、EGFRエクソン19挿入、EGFR G719X、EGFRエクソン20挿入、EGFR T790M、EGFR L858R、およびEGFR L861Qが挙げられる。1つまたは複数の標準的なドライバー変異の存在または非存在の尤度に関するそのような情報を使用して、対象を(例えば、肺がんと)診断してもよく、診断(例えば、肺がんの分子サブタイプ)を有する対象を階層化してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置(例えば、所定の用量での標的化処置などの薬物)を選択してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を中止してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を変更してもよく(例えば、第1の薬物から第2の薬物へ、または第1の用量から第2の用量へ)、または対象についてさらなる医学的検査(例えば、イメージングまたは生検)を実施してもよい。
【0192】
1つまたは複数のフラグメントームプロファイル(またはフラグメントームデータ)を分類器に組み込んで、1つまたは複数の疾患サブタイプ(例えば、対象における肺がん分子サブタイプ)の存在または非存在の尤度を決定してもよい。例えば、EGFR T790MおよびEGFR L858Rは、肺がんの2つの分子サブタイプである。1つまたは複数の疾患サブタイプの存在または非存在の尤度に関するそのような情報を使用して、対象を(例えば、肺がんと)診断してもよく、診断(例えば、肺がんの分子サブタイプ)を有する対象を階層化してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置(例えば、所定の用量での標的化処置などの薬物)を選択してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を中止してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を変更してもよく(例えば、第1の薬物から第2の薬物へ、または第1の用量から第2の用量へ)、または対象についてさらなる医学的検査(例えば、イメージングまたは生検)を実施してもよい。
【0193】
1つまたは複数のフラグメントームプロファイル(またはフラグメントームデータ)を分類器に組み込んで、対象の処置(例えば、がん、または他の疾患、障害、もしくは異常な生物学的状況のための薬物または治療)に対する応答の尤度を決定してもよい。例えば、処置は、EGFR陽性肺がんを処置するために設計されたチロシンキナーゼ阻害剤(TKI)などの標的化処置でありうる。TKIの例は、エルロチニブ(erlonitib)およびゲフィチニブ(gefinitib)である。対象の処置に対する応答の尤度に関するそのような情報を使用して、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置(例えば、所定の用量での標的化処置などの薬物)を選択してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を中止してもよく、疾患もしくは他の異常な生物学的状況を有する対象を処置するための処置を変更してもよく(例えば、第1の薬物から第2の薬物へ、または第1の用量から第2の用量へ)、または対象についてさらなる医学的検査(例えば、イメージングまたは生検)を実施してもよい。
【0194】
1つまたは複数のフラグメントームプロファイル(またはフラグメントームデータ)を分類器に組み込んで、腫瘍の微小環境に由来する情報(例えば、cfDNA断片に対応する起源組織)の尤度を決定してもよい。フラグメントームプロファイルは、血液中を循環する核酸からの特徴的なシグナル(またはシグネチャー)を含みうることから、そのようなシグネチャーは、腫瘍細胞、白血球、および他のバックグラウンド細胞、ならびに腫瘍の微小環境からの集合シグナルを含みうる。腫瘍細胞の生物学および微小環境はいずれも、腫瘍の生物学および活性に影響を及ぼすために役割を果たしうる。このため、腫瘍の微小環境に由来する情報の尤度に関するそのような情報を使用して、起源組織(例えば、腫瘍活性が組織または臓器において優勢であること)を同定してもよい。そのような情報をデコンボリューションして、副次構成要素(例えば、炎症を有する臓器、白血球、腫瘍、正常なアポトーシス細胞)を同定してもよい。そのような副次構成要素情報を使用して、腫瘍が位置する組織および/または臓器を決定してもよい。
【0195】
マルチパラメトリック解析は、その例を
図2に示す2-D密度プロット(例えば、ヒートプロットまたはヒートマップ)によって表すことができる。水平軸は、第1の独立変数(例えば、ゲノムの複数のゲノム領域におけるゲノム位置)でありうる。垂直軸は、第2の独立変数(例えば、cfDNA断片長)である。ヒートプロットは、分布関数値の範囲における分布関数値(例えば、関数値y)の異なる分位数を表す複数の色を有する。例えば、ヒートプロットは、6つの色(青、シアン、緑、黄、オレンジ、および赤)の複数を含んでもよく、組における各々の連続する色はそれぞれ、分布関数値の範囲の第1、第2、第3、第4、第5、および第6分位数における分布関数値を表す。あるいは、ヒートプロットは、複数の個別の色(例えば、青、シアン、緑、黄、オレンジ、および赤)の連続する組合せを含んでもよく、各々の色は、分布関数値の範囲内の各々のヒートプロットポイントの関数値の相対的パーセンタイルに従って、複数の個別の色の線形加重組合せを表す。そのようなヒートプロットは、三次元(3-D)でありうる。しかし、多次元を生成するための他の多くのアプローチを使用してもよい。一部の例では、マルチパラメトリック解析は、同時に解析される2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または20より多くの次元を含む。
【0196】
図2に認められるように、そのようなヒートプロットは、cfDNA断片分布(
図1E)の典型的なパターンの結果としてゲノム位置または断片長において周期性を明らかにしうる。この周期性は、ヒートプロットの水平軸または垂直軸のいずれかにおいて約167bpでありうる。
【0197】
1つのマルチパラメトリック解析は、一例としてヒートマップなどのマルチパラメトリックモデルを生成し、データマイニングツールを使用して、非ランダムの系統的パターンを同定することができる。そのようなパターンは、状態(例えば、心血管状態、感染症、炎症、自己免疫障害、がん、特定のタイプのがんの診断、特定のステージのがんの診断等)と診断されている対象などのコホートの表現型に関連するピーク高さまたはピーク幅の関連性を含みうる。
【0198】
マルチパラメトリックヒートマップを生成後、例えば多変量機械学習技術または非悪性のコホートと比較した2-D密度プロットの残差変動の直接モデリングを使用して、この空間を複数の異なる方法の1つで変換してもよい(
図3に示すように)。例えば、マルチパラメトリック解析において、所定のゲノム位置での断片量(x
1)および断片長(x
2)の関数として、血漿中異常発現(分布関数値y)の計測値を確立することができる。そのような関数形は、(1)正規化カバレッジおよび断片長空間におけるL2ノルムとして単純にすることができ、または(2)陰性対照および/もしくは健康なドナー参照の組の二変量正規化近似として表すことができる。後者(2)の例として、血漿中異常発現計測値は、例えばロバストな多変量位置および高い破談点を有するスケール推定値(Fast
Minimum Covariance Determinant estimatorとしても公知)を使用して、データの第1のモーメントおよび第2のモーメントによって決定した確率等高線楕円を有する二変量正規密度の負の対数でありうる。
【0199】
データ変換の実施形態を説明するために、
図3A~3Dは、ゲノム位置の3つの異なる組(2つはPIK3CAに由来し、1つはEGFRに由来する)の血漿中異常発現計測値を示す、4つの異なる変換したマルチパラメトリックヒートマップの例を表す。各々のヒートマップは、断片開始および幅密度を、2000例より多くの臨床試料において血漿中異常発現計測値に変換することによって生成した。水平軸は、エクソン正規化10bp断片開始カバレッジを示しうる。垂直軸は、中心化中央値10bp断片サイズを示しうる。各々の臨床試料を、塗りつぶした色の円で、以下のように示す:健康な対照を暗緑色で示し、がんを有する対象を青、シアン、黄、オレンジ、および赤(それぞれ、0.1%~93%の最大変異体アレル割合(MAF)値に対応する)の範囲の色で示す。実際に、青色の円は、スペクトルの最小値または最低値末端(例えば、がんを有する対象のコホートにおけるMAF最大値の範囲)に対応しうるが、赤色の円は、スペクトルの最大値または最高値末端(例えば、がんを有する対象のコホートにおけるMAF最大値の範囲)に対応しうる。
【0200】
図3Aおよび3Bから、本発明者らは、ゲノム位置のPIK3CA|2238の組に関して、高い最大MAFを有するがんの対象(例えば、赤色の円で示す)は、健康な対照(例えば、緑色の円で示す)と比較して、中心化中央値10bp断片サイズに関してより低い値を有する傾向があり、エクソン正規化10bp断片開始カバレッジに関してより高い値を有する傾向があることを観察する。
図3Cから、本発明者らはまた、ゲノム位置のPIK3CA|2663の組に関して、高い最大MAFを有するがんの対象(例えば、赤色の円で示す)は、健康な対照(例えば、緑色の円で示す)と比較して、中心化中央値10bp断片サイズに関してより高い値を有する傾向があり、エクソン正規化10bp断片開始カバレッジに関してより低い値を有する傾向があることを観察する。
図3Dから、本発明者らはまた、ゲノム位置のEGFR|6101の組に関して、高い最大MAFを有するがんの対象(例えば、赤色の円で示す)は、健康な対照(例えば、緑色の円で示す)と比較して、中心化中央値10bp断片サイズに関してより高い値を有する傾向があり、エクソン正規化10bp断片開始カバレッジに関してより高い値を有する傾向があることを観察する。ゲノム位置のこれらの3組の各々に関して、(1)中心化中央値10bp断片サイズの分布および(2)エクソン正規化10bp断片開始カバレッジの分布の両方のシフト(例えば、x軸およびy軸両方のシフト)が、健康な対照と比較してがんの対象コホートにおいて観察される。がんのステータスの結果としてのマルチパラメトリック分布における分布シフトのこれらの観察は、配列リードデータ解析(例えば、バイオインフォマティクス解析)とは独立して明白であり、一塩基バリアント(SNV)、コピー数多様性(CNV)、挿入および欠失(インデル)または他の通常の遺伝子異常を同定するためのバイアス(例えば、単独で、または他の臨床的に観察されるデータと共に)として使用することができる。
【0201】
一例では、マルチパラメトリックモデルを使用して、対象のセルフリーDNAを解析することによってがんを検出する。第1に、セルフリーDNAを、一組のがんを有する複数の対象およびがんを有しない対象の体液試料から得た。cfDNA断片をシークエンシングして、断片の複数の配列リードを産生した。各々の配列リードを、ヒトゲノムの一組の複数の参照配列にマッピングした。マルチパラメトリックモデルを以下のように生成した:一組の中心化中央値10bp断片サイズ値における各々の値(第1の変数)に関して、一組のエクソン正規化10bp断片開始カバレッジ値における各々の値 (第2の変数)に関して、およびゲノム位置のPIK3CA|2663の組における各々のゲノム位置(第3の変数)に関して、がんを有しない各々の健康な対照対象のMAFを緑色でプロットし、がんを有する各々の対象のMAFを、MAFを表す色のスペクトル(例えば、青から黄、オレンジ、赤へと増加させる)でプロットした。このマルチパラメトリックモデルにおいて、高い最大MAFを有するがんの対象(例えば、赤色の円で示す)は、健康な対照(例えば、緑色の円で示す)と比較して、中心化中央値10bp断片サイズに関してより高い値を有する傾向があり、エクソン正規化10bp断片開始カバレッジに関してより低い値を有する傾向があることが観察された。次に、上記と同じ技法を、がんのステータスが未知である第1および第2の試験対象について繰り返した。第1の試験対象に関連する円が、健康な対照を表す範囲内(例えば、緑色の円のクラスタを有する領域)に入ったことから、第1の試験対象は、この試験に基づいてがんに関して陰性であると診断された。第2の試験対象に関連する円は、がんを有する対象を表す範囲内(例えば、赤色の円のクラスタを有する領域)に非常に高い90%のMAFで入ったことから、第2の試験対象は、この試験に基づいて、がんに関して陽性であると診断されたか、またはさらなる生検検査に回された。マルチパラメトリックモデルを、このように対象のcfDNA試料について実施して、これらの対象においてがんを検出した。
【0202】
1つまたは複数の多数のフィルタリング技術を、計算された血漿中異常発現計測値に達する前、または血漿中異常発現計測値が確立された後のいずれかで、マルチパラメトリック分布データに適用してもよい。フィルタリング技術は、ノイズまたは他の微細な現象を除外しながら、一組のデータ(例えば、一組の精細データ)において重要な情報、傾向、またはパラメータを捕捉することを試みる近似関数を作成しうる。例えば、フィルタリング技術によって、一組のデータからより多くの情報を抽出することが可能となりうるか、またはフレキシブルもしくはロバストである解析が可能となりうる。試料のフィルタリング技術は、移動平均、グローバル多項式関数、スプライン、デジタル平滑化(例えば、バターワースフィルター、フーリエ平滑化等)、ウィグナー変換、連続ウェーブレット変換(CWT)および不連続ウェーブレット変換(DWT)を含む。フィルタリング技術はまた、アッセイのバイアス、例えば標的化捕捉に関連する濃縮関連バイアスに関連する既定の断片開始カバレッジの減算によりアッセイ特異的ノイズを除去するステップを伴いうる。均一な断片分布を表す不自然な試料をアッセイしてもよく、そのような不自然な試料において観察された断片長濃縮を使用して、臨床試料シグナルを補正してもよい(例えば、シグナルのアッセイ関連構成要素をフィットさせるおよび/または減算することにより)。あるいはまたはさらに、断片の計数をさらに正規化して、血漿DNA分解によるバイアスを補正することができる。そのような分解は、例えば取り扱いおよび保存に由来しえて、それによって予想される断片長分布の変化および/または混入したゲノムDNAの存在が起こりうる。
【0203】
一例として、
図4は、所定の臨床試料中のゲノム断片における位置によって変化する血漿中異常発現スコアの試料を示す(下のパネル)。上のパネルは、アッセイした関連遺伝子の一覧およびそれらの遺伝子において見出された任意の変化(SNVまたはCNV)を示す。血漿中異常発現スコアは、局在化ゲノム領域での血漿中異常発現を表す値でありうる。血漿中異常発現スコアは、健康な細胞を起源とするほとんどのDNAフラグメントームシグナルが観察される標準的な包絡(例えば、マルチパラメトリック分布の領域(例えば、エリア))を示しうる。血漿中異常発現スコアは、非悪性の健康な対照対象(目的の疾患を有しない)の訓練セットを使用するステップ、および訓練セットの各々の対象のcfDNA試料についてマルチパラメトリック解析を実施するステップによって生成されうる。次に、コホートに対して断片が明記された度数(例えば、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%、または99.995%)で観察される領域を同定してもよい。次に、これらの領域を隠してもよく、それによってこれらの領域外の密度が同定される。次に、これらの密度を集計(または合計)して、血漿中異常発現スコアを得てもよい。そのような血漿中異常発現スコアは、例えば変異負荷、腫瘍量、または疾患負荷を示しうる。
【0204】
血漿中異常発現スコアの一例は、所定のゲノム領域または塩基位置をカバーするDNA断片の数を示すバリアントフリーカバレッジ(VCF)スコアでありうる。低い値の血漿中異常発現スコアは、局在化ゲノム領域で比較的低レベルの血漿中異常発現を示しうる。高い値の血漿中異常発現スコアは、局在化ゲノム領域で比較的高レベルの血漿中異常発現を示しうる。血漿中異常発現スコアは、例えばユニパラメトリックヒートプロット(またはヒートマップ)またはマルチパラメトリックヒートプロット(またはヒートマップ)において認められるように、相対的な差を示すために、異なる色(例えば、血漿中異常発現スコアの範囲の複数の分位数における各々の異なる分位数に関して異なる色)で表されうる。
【0205】
再び
図4を参照すると、血漿中異常発現スコアにおいて複数の異なるピークを観察することができ、それらは複数の十分に確立されたがんマーカー遺伝子(例えば、PIK3CA、MYC、CDKN2A、CCND1、CCND2、KRAS、CDK4、RB1、およびERBB2)に対応する。血漿中異常発現スコアにおける異なるピークは、公知の腫瘍マーカー、例えばCatalogue of Somatic Mutations in Cancer(COSMIC)において報告された体細胞変異に関連しうる。
【0206】
多数の(例えば、数百から数千、またはそれより多くの)臨床試料においてマルチパラメトリックモデルを生成することによって、そのようなマルチパラメトリックモデルは、特定のがんタイプに関連しうるか、または体細胞バリアントもしくは他のタイプのバリアントを発見するために解析することができる経験的な特色を含む計測値(例えば、血漿中異常発現スコア)を生じうる。次に、そのような情報を、バリアントフリーの体細胞バリアント分類器に組み込むことができる。一例として、5,000例の非小細胞肺癌(NSCLC)患者の試料中の複数のゲノム領域における血漿中異常発現スコアの教師なしクラスタリングを解析して、ヒートプロットとして可視化することができる。
【0207】
例えば、
図5は、各々が異なる非小細胞肺癌(NSCLC)患者に由来する5,000例の試料中の複数のゲノム領域における血漿中異常発現スコアの教師なしクラスタリングによって生成されたヒートプロットを示す。Y軸は、5,000例の患者試料の各々を反映する。X軸は、解析されるゲノム位置のパネルを反映する。色は、各試料の各々のゲノム位置に関する血漿中異常発現スコアを反映する。データセット全体を、教師なしクラスタリングアルゴリズムを使用してクラスタ化した。このヒートマップに基づいて、本発明者らは、このデータを使用して患者のバリアントフリーの分類に関するホットスポットとして使用することができる領域を同定することができる。そのような分類を使用して、臨床試験に含めるべき、ある特定の治療を施すべき、治療的処置をやめるべき等の患者を同定することができる。
【0208】
水平軸(長軸)は、ゲノムの複数のゲノム位置におけるゲノム位置を示しうる。垂直軸(短軸)は、臨床試料を示しうる(例えば、各々の列は1つの臨床試料からのデータを表す)。そのようなヒートプロットは、比較的高い血漿中異常発現のエリア(例えば、赤、オレンジ、および黄色のエリア中)および比較的低い血漿中異常発現のエリア(例えば、青および緑色のエリア中)を示すことができる。
【0209】
マルチパラメトリックモデルの別の例として、ヒートマップを、ゲノム位置(例えば、10塩基対(「bp」)の解像度で)において生成し、
図6(パートA)に示すように、多数の臨床試料(例えば、2000例)において単一の遺伝子(例えば、KRAS)を可視化することができる。水平軸は、ゲノムの複数のゲノム位置(例えば、KRAS遺伝子にまたがる)におけるゲノム位置を示しうる。垂直軸は、臨床試料を示しうる(例えば、各々の列は1つの臨床試料からのデータを表す)。この解析において、少なくとも1つの報告されたバリアントを有するKRASバリアントフリーカバレッジ値(VFC)を、ヒートプロットにおいて可視化する(
図6(パートA))。上部の高い変数ビンをゲノム順に配置して、これに転写物アイソフォームおよびmRNAプロファイルを重ねる(
図6(パートB))。
【0210】
多数の臨床試料における1つまたは複数のユニパラメトリックおよび/またはマルチパラメトリックモデルから生成された血漿中異常発現スコアの観察された特色を、周知の体細胞変異検出および定量方法アプローチの中に組み込んで、そのような体細胞変異検出および定量方法の検出感度を改善してもよい。例えば、cfDNAなどのセルフリー核酸におけるコピー数多様性(例えば、CNV)を検出および定量するための現行の方法において、典型的なカバレッジ計測値(例えば、バリアントを含む分子の数の、バリアントを有しない分子の参照数に対して計算された比率)を、マルチパラメトリックモデルにおけるシフトに対応する計測値によって調節してもよく、または交換してもよい。
【0211】
多数の臨床試料における1つまたは複数のユニパラメトリックおよび/またはマルチパラメトリックモデルから生成された血漿中異常発現スコアの観察された特色を、クラスタ化し、エンリッチメント解析を行って、基礎となる体細胞変化に関連する血漿中プロファイルを産生してもよい。このアプローチは、バリアントフリー血漿中異常発現スコアを使用することによって、一組の1つまたは複数の体細胞変異(例えば、公知の腫瘍マーカー)がcfDNA試料を得た患者に存在する確率的な尤度の計算または決定をもたらしうる。
【0212】
対象のセルフリーDNA試料から生成された1つまたは複数のユニパラメトリックモデルを、前記試料を、一組の一塩基バリアント(SNV)または他の遺伝子バリアントの各々を有するまたは有しないとして分類するように訓練された分類器(例えば、機械学習エンジン)に組み込んでもよい。これらのSNVまたは他の遺伝子バリアントは、表1から選択される1つまたは複数の遺伝子において見出されうる。この分類器はバリアントフリー分類器であってもよい(例えば、体細胞変異の同定に基づいて分類しない)。この分類器は、バリアント認識分類器であってもよい(例えば、体細胞変異の同定に基づいて分類する)。
【0213】
バリアントフリー分類器は、ゲノムの任意の遺伝子座またはサブ遺伝子座における複数の塩基位置の各々で塩基同一性を考慮に入れることなく、ゲノムの遺伝子座での配列異常の存在または非存在を決定することができ、前記複数の塩基同一性は、公知の体細胞変異を示す。サブ遺伝子座は、複数の連続する塩基位置でありえて、そのため、前記複数性はゲノムにおける遺伝子座のサブセットである。バリアントフリー分類器は、ユニパラメトリックまたはマルチパラメトリック解析を使用して、対象の遺伝子座における配列異常の存在または非存在を決定してもよい。この遺伝子座は、報告された腫瘍マーカーであってもよい。この遺伝子座は、これまでに報告されていない腫瘍マーカーであってもよい。
【0214】
バリアント認識分類器は、ゲノムの1つまたは複数の遺伝子座またはサブ遺伝子座における複数の塩基位置の各々で塩基同一性を考慮に入れることによって、ゲノムの第1の遺伝子座での配列異常の存在または非存在を決定することができ、前記複数の塩基同一性は、公知の体細胞変異を示しており、第1の遺伝子座はゲノムの1つまたは複数の遺伝子座またはサブ遺伝子座に存在しない。言い換えれば、バリアント認識分類器は、ゲノムの他の任意の遺伝子座で検出される公知の体細胞変異に関する情報を組み込むことによって、所定の遺伝子座での配列異常を同定しうる。
【0215】
あるいは、対象のセルフリーDNA試料から生成した1つまたは複数のマルチパラメトリックモデルを、一組の一塩基バリアント(SNV)または他の遺伝子バリアントの各々を有するまたは有しないと前記試料を分類するように訓練された分類器(例えば、機械学習エンジン)に組み込んでもよい。これらのSNVまたは他の遺伝子バリアントは、表1から選択してもよい。この分類器は、バリアントフリー分類器であってもよい(例えば、体細胞変異の同定に基づいて分類しない)。この分類器はバリアント認識分類器であってもよい(例えば、体細胞変異の同定に基づいて分類する)。マルチパラメトリックモデルは、1つまたは複数の遺伝子座に関連する任意の情報、例えば、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、(iii)遺伝子座で終止するDNA配列、(iv)DNA配列のジヌクレオソーム保護もしくはモノヌクレオソーム保護、(v)参照ゲノムのイントロンもしくはエクソンに位置するDNA配列、(vi)1つもしくは複数の特徴を有するDNA配列のサイズ分布、(vii)1つもしくは複数の特徴を有するDNA配列の長さ分布、または(viii)その任意の組合せから選択される特徴の定量的測定値を示す値を含む1つまたは複数のデータセットを含みうる。
【0216】
あるいは、対象のセルフリーDNA試料から生成した1つまたは複数のユニパラメトリックモデルおよび1つまたは複数のマルチパラメトリックモデルを、一組の一塩基バリアント(SNV)または他の遺伝子バリアントの各々を有するまたは有しないと前記試料を分類するように訓練された分類器(例えば、機械学習エンジン)に組み込んでもよい。これらのSNVまたは他の遺伝子バリアントは、表1から選択してもよい。この分類器は、バリアントフリー分類器であってもよい(例えば、体細胞変異の同定に基づいて分類しない)。この分類器はバリアント認識分類器であってもよい(例えば、体細胞変異の同定に基づいて分類する)。ユニパラメトリックモデルは、1つまたは複数の遺伝子座に関連する任意の情報、例えば、(i)遺伝子座にマッピングするDNA配列、(ii)遺伝子座で開始するDNA配列、(iii)遺伝子座で終止するDNA配列、(iv)DNA配列のジヌクレオソーム保護もしくはモノヌクレオソーム保護、(v)参照ゲノムのイントロンもしくはエクソンに位置するDNA配列、(vi)1つもしくは複数の特徴を有するDNA配列のサイズ分布、(vii)1つもしくは複数の特徴を有するDNA配列の長さ分布、または(viii)その任意の組合せから選択される特徴の定量的測定値を示す値を含む1つまたは複数のデータセットを含みうる。
【0217】
血漿中異常発現スコアなどの計測値に加えて、マルチパラメトリック解析はまた、対象の腫瘍関連情報を明らかにしうる。一例では、ゲノムの任意の所定の位置でのリードの数は、セルフリー核酸試料を獲得した対象の腫瘍のステータスに対する洞察、例えば起源組織、腫瘍量、腫瘍の侵襲性、腫瘍のドラッガビリティ、腫瘍の進化およびクローン性、ならびに処置に対する腫瘍の抵抗性を生じうる。
【0218】
別の例では、ゲノムの任意の所定の位置でのリードの数は、ゲノムにおけるその位置でのリードの長さによって干渉され、セルフリー核酸試料を獲得した対象の腫瘍のステータスに対する洞察、例えば起源組織、腫瘍量、腫瘍の侵襲性、腫瘍のドラッガビリティ、腫瘍の進化およびクローン性、ならびに処置に対する腫瘍の抵抗性を生じうる。
【0219】
モデルにおけるパターン、例えばピークの高さ、ピークの幅、新しいピークの出現、ピークのシフト、および/またはスメアは、表現型の指標として役立ちうる。一部の例では、個体のヌクレオソームプロファイルを、参照マルチパラメトリックモデルまたはパターンと比較して、表現型または表現型の変化を決定する。
【0220】
一態様では、本明細書において、対象から得たセルフリー試料(またはセルフリーデオキシリボ核酸(DNA))からのDNA断片における遺伝子異常の存在または非存在を示す出力を生成するための方法を開示する。方法は、ゲノムの複数の塩基位置でのセルフリー試料(またはセルフリーDNA)からのDNA断片の分布を構築する(例えば、コンピュータによって)ステップを含みうる。次に、対象における遺伝子異常の存在または非存在を示す出力を、分布を使用して決定してもよい。存在または非存在は、(i)DNA断片の分布を、対象のゲノムに対して外部の起源からの参照分布と比較することなく、(ii)DNA断片の分布に由来するパラメータを参照パラメータと比較することなく、および/または(iii)DNA断片の分布を、対象の対照からの参照分布と比較することなく決定されうる。一部の実施形態では、遺伝子異常は、コピー数多様性(CNV)および/または一塩基バリアント(SNV)を含む。一部の実施形態では、分布は、1つまたは複数のマルチパラメトリック分布を含む。
【0221】
一態様では、本明細書においてジヌクレオソーム保護を有するDNA断片、および/またはモノヌクレオソーム保護を有するDNA断片に関して対象の生物試料を処理するための方法を開示する。処理するステップは、対象の生物試料を得るステップを含みうる。生物試料は、デオキシリボ核酸(DNA)断片を含みうる。アッセイするステップは、(i)1つもしくは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するDNA断片、および/または(ii)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の存在または非存在を示すシグナルを生成するステップを含みうる。そのような生成されたシグナルを使用して、(i)1つもしくは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するDNA断片、および/または(ii)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の存在または非存在を示す出力を生成してもよい。アッセイするステップは、一組の1つまたは複数の遺伝子座のDNA断片に関して生物試料を濃縮するステップを含みうる。そのような遺伝子座は、腫瘍関連遺伝子座および/または非腫瘍関連遺伝子座を含みうる。アッセイするステップは、生物試料のDNA断片をシークエンシングするステップを含みうる。
【0222】
別の態様では、本明細書において、対象から得たセルフリー試料(またはセルフリーデオキシリボ核酸(DNA))からのDNA断片における遺伝子異常の存在または非存在を示す出力を生成するための方法を開示する。生成するステップは、セルフリー試料(またはセルフリーDNA)からDNA断片の分布(例えば、ゲノムの複数の塩基位置での)を構築する(例えば、コンピュータによって)ステップを含みうる。次に、1つまたは複数の遺伝子座の各々に関して、(1)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有するDNA断片の数、および(2)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の数の比率、またはその逆を示す定量的測定値を計算してもよい(例えば、コンピュータによって)。次に、対象における1つまたは複数の遺伝子座における遺伝子異常の存在または非存在を示す出力を生成してもよい。生成は、1つまたは複数の遺伝子座の各々に関する定量的測定値を使用してもよい。一部の実施形態では、分布は、1つまたは複数のマルチパラメトリック分布を含む。
参照モデル
【0223】
参照マルチパラメトリックモデルは、異なる時点で同じ対象から得た異なる試料から導出されうる。そのような試料の一部または全ては、セルフリーDNAを含みうる。あるいは、これらの試料のうちの1つまたは複数は、腫瘍から直接誘導することができる(例えば、生検または穿刺吸引液を介して)。そのような試料から導出したモデルを使用して、患者のがんをモニターする、がんにおけるクローン性を観察する、新規変異を検出する、および薬物抵抗性を検出することができる。
【0224】
参照マルチパラメトリックモデルは、対象の腫瘍周囲の微小環境の間質組織から導出してもよい。そのようなモデルに使用するDNAは、例えば生検の際に誘導することができる。間質組織から導出したモデルを使用して、ベースラインのマルチパラメトリックモデルを作成することができる。これによって、腫瘍由来セルフリーDNAにおける新規多様性の早期観察が可能となりうる。
【0225】
参照マルチパラメトリックモデルは、健康な無症候性の個体の剪断されたゲノム(非セルフリー)DNAから導出してもよい。剪断DNAを使用して、健康な個体のセルフリーDNA試料を模倣することができる。例えば、そのような剪断DNA試料を、フラグメントームシグナルの正規化のために使用してもよい。例えば、剪断DNAを生成して実験に使用して、一組の1つまたは複数のプローブの捕捉効率を検証および最適化することができる(例えば、標的化アッセイにおいて)。
【0226】
参照マルチパラメトリックモデルを、所定の組織タイプのフラグメントーム(例えば、ヌクレオソーム)プロファイルから導出してもよい。ヌクレオソーム占有プロファイリング技術の例には、Stathamら、Genomics Data、3巻、2015年3月、94~96頁(2015年)が挙げられる。
【0227】
参照試料のマルチパラメトリックモデルを使用して、アポトーシスプロセスおよび壊死プロセスに関連するフラグメントーム(例えば、ヌクレオソーム)パターンまたはプロファイルを決定することができる。次に、そのようなパターンの検出を独立してまたは共に使用して、対象における状態をモニターすることができる。例えば、腫瘍が拡大すると、腫瘍の微小環境における壊死のアポトーシスに対する比率が変化しうる。壊死および/またはアポトーシスにおけるそのような変化は、フラグメントームプロファイリングを使用する本明細書に記載の方法を使用して検出することができる。
【0228】
距離の関数は、(1)対象のユニパラメトリックまたはマルチパラメトリックモデルと、(2)参照ユニパラメトリックまたはマルチパラメトリックモデル(例えば、健康な集団に典型的な)の間の差異を計算することによってフラグメントームプロファイルから導出されうる。
フラグメントームシグネチャー
【0229】
一例では、表現型を有する対象(例えば、無症候性の健康な個体または特定のタイプのがんを有する個体)のコホートは、そのフラグメントームプロファイルを本明細書における方法を使用してアッセイすることができる。コホートメンバーのフラグメントームプロファイルを解析し、コホートのフラグメントームシグネチャーを決定する。de novoで試験する対象は、2つまたはそれより多くのコホートのフラグメントームシグネチャーを使用して、そのプロファイルを、訓練された分類器(訓練されたデータベース)によって1つまたは複数のクラスに分類することができる。
【0230】
個体のコホートは全て、共有する特徴を有しうる。この共有する特徴は、腫瘍のタイプ、炎症状態、アポトーシス状態、壊死状態、腫瘍の再発、および処置に対する抵抗性からなる群から選択されうる。アポトーシス状態は、例えば健康な対象と比較して壊死より高い尤度でアポトーシスによる細胞死を引き起こす疾患または状態でありうる。アポトーシス状態は、感染症および細胞の代謝回転からなる群から選択されうる。壊死状態は、例えば、健康な対象と比較してアポトーシスより高い尤度で壊死による細胞死を引き起こす疾患または状態でありうる。壊死状態は、心血管状態、敗血症、および壊疽からなる群から選択されうる。
【0231】
一部の例では、コホートは、特定のタイプのがん(例えば、乳がん、結腸直腸がん、膵臓がん、前立腺がん、黒色腫、肺がんまたは肝臓がん)を有する個体を含む。そのようながんのヌクレオソームシグネチャーを得るために、各々のそのような個体は、血液試料を提供する。セルフリーDNAを、そのような血液試料から得る。そのようなコホートのセルフリーDNAをシークエンシングする(ゲノムの一組の領域の選択的濃縮を伴うまたは伴わずに)。シークエンシング反応からの配列リードの形態での配列情報をヒトゲノムにマッピングする。任意選択で、分子を、マッピング操作の前または後のいずれかにユニーク分子リードに折り畳む。
【0232】
所定の試料中のセルフリーDNA断片は、そこからセルフリーDNAが生じる細胞の混合物を表すことから、各々の細胞タイプからの異なるヌクレオソーム占有は、所定のセルフリーDNA試料を表す数学モデルに寄与しうる。例えば、断片長の分布は、異なる細胞タイプまたは腫瘍と非腫瘍細胞との比較において異なるヌクレオソーム保護により生じうる。この方法を使用して、配列データのユニパラメトリック、マルチパラメトリック、および/または統計分析に基づく一組の臨床的に有用な評価を開発してもよい。
【0233】
モデルをパネルの構成で使用して、領域(例えば、フラグメントームプロファイル関連領域)を選択的に濃縮し、特定の変異にまたがる多数のリードを確保してもよく、また、転写開始部位(TSS)、プロモーター領域、ジャンクション部位、およびイントロン領域のような重要なクロマチン中心事象を考慮してもよい。
【0234】
例えば、フラグメントームプロファイルにおける差異は、イントロンとエクソンのジャンクション(または境界部)またはその付近で見出される。1つまたは複数の体細胞変異の同定を、1つまたは複数のマルチパラメトリックまたはユニパラメトリックモデルと相関させて、cfDNA断片が分布するゲノム位置を示すことができる。この相関分析は、フラグメントームプロファイルの破壊が最も顕著である1つまたは複数のイントロン-エクソンジャンクションを明らかにしうる。例えば、フラグメントームプロファイルの破壊は、発現されるタンパク質の異なるアイソフォームが原因でありえて、結合部位の変化を引き起こし、それによってcfDNA断片のヌクレオソーム保護を変化させ、これは、イントロン-エクソンジャンクションの特定の位置がアイソフォームの開始に関連するイントロン-エクソンジャンクションでのcfDNA断片の異なるシグネチャーおよび分布として経験的に観察することができる。イントロン-エクソン境界部をパネルの構成に含めて、これらの領域を選択的に濃縮してもよく、これによって疾患または他の異常な生物学的状況のより良好な区別(例えば、異なる尤度の決定)がもたらされうる。このアプローチは、エクソン領域全体の代わりにまたはそれに加えてエクソン-イントロンジャンクションに重点を置くことによってパネルの設計を改善しうる。
【0235】
フラグメントームプロファイルを、既存の体細胞変異パネルと組み合わせることができる。一部の例では、フラグメントームプロファイリングと組み合わせてSNV情報を使用すると、SNVコールの感度または精度を増加させることができる。例えば、ある特定のSNVが、平均より短い(例えば、長さ155、154、153、152、151、150、149、または148bp未満)断片に主に存在する場合、SNVが体細胞変異である可能性はより高い。SNVが平均より長い(例えば、155、156、157、158、159、160、161、162、163、164、165、または166より長い)断片に主に見出される場合、SNVが生殖系列SNVである可能性はより高い。したがって、本開示のアッセイは、セルフリーDNA試料からのユニーク分子におけるSNVならびに各々のユニーク分子の断片サイズを決定するステップ、およびSNVを含むユニーク分子のサイズ分布に基づいて体細胞SNVコールの信頼スコアを調節するステップを伴いうる。
【0236】
フラグメントームプロファイリング解析は、対象を表すセルフリーDNAのユニパラメトリックまたはマルチパラメトリック解析を実施するステップを含みうる。所定の対象の配列データから、参照ゲノムの各々の塩基位置に関して1つまたは複数の期待分布を生成してもよく、各々の期待分布は、所定の位置にマッピングするリードの数、所定の位置にマッピングするセルフリーDNA断片長、所定の位置で開始するセルフリーDNA断片の数、および所定の位置で終止するセルフリーDNA断片の数のうちの1つまたは複数を説明する。
【0237】
ゲノムの所定の遺伝子座で試料と参照の間の塩基対毎の比較を実施することによって、このパターンから何らかの逸脱(例えば、所定の塩基位置での期待値より増加もしくは減少したリード数、または分布のシフト)が観察されれば、腫瘍量、腫瘍タイプ、腫瘍のクローン性、または不均一性、腫瘍の侵襲性等などの腫瘍関連情報を示す。そのような逸脱は、ヌクレオソームポジショニングの多様性および細胞プロセスの下流の結果である。
【0238】
例えば、感染症、炎症、ならびに腫瘍の成長および浸潤などの異常な細胞プロセスは、セルフリーDNA断片が循環して、リキッドバイオプシー応用のために血液試料の一部として収集される血流へのDNAの脱落に対するアポトーシスおよび壊死経路の相対的寄与に影響を及ぼす。アポトーシスプロセスは、ヌクレオソームを切断することから、これらのプロセスはヌクレオソームが存在するより長いリード(例えば、より長い断片)を生じうる。ヌクレオソーム保護は、正常細胞より腫瘍細胞において異なることから、異なるデータパターンがコホートにおいて、例えばがんと正常の間、または2つの腫瘍タイプの間で観察されうる。
【0239】
フラグメントームプロファイリング解析を実施するために、セルフリーDNA分子のコレクションを、対象から収集した血液試料から提供してもよい。セルフリーDNAは、短い断片の形態(そのほとんどは長さ200塩基対未満)でありうる。セルフリーDNAにライブラリ調製およびハイスループットシークエンシングを行って、試料からセルフリーDNA分子を表す配列情報を生成してもよい。アライメント後、整列させた配列情報についてマルチパラメトリック解析を実施して、試料からのセルフリーDNA分子を表すマルチパラメトリックモデルを生成してもよい。
【0240】
ユニパラメトリック解析を、前記配列情報を使用して一組の2つのデータセットについて実施して、試料からのセルフリーDNA分子を表す、二次元を有するユニパラメトリックモデルを生成してもよい。データセットは、定量的値のベクトルを含みうる。ユニパラメトリックモデルは、2つのデータセットを含んでもよく、例えば1つのデータセットがy軸を含み、1つのデータセットがx軸を含む。
【0241】
マルチパラメトリック解析を、前記配列情報を使用して3つまたはそれより多くのデータセットの複数について実施して、試料からのセルフリーDNA分子を表す、3つまたはそれより多くの次元を有するマルチパラメトリックモデルを生成してもよい。マルチパラメトリックモデルは、3つのデータセットを含んでもよく、例えば1つのデータセットがz軸(または影をつけた色)を含み、1つのデータセットがy軸を含み、1つのデータセットがx軸を含む。
【0242】
ユニパラメトリックまたはマルチパラメトリック解析のために選択するデータセットは、(a)シークエンシングした断片の開始位置、(b)シークエンシングした断片の終止位置、(c)マッピング可能な位置をカバーする、シークエンシングしたユニーク断片の数、(d)断片長、(e)マッピング可能な塩基対位置が、シークエンシングした断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングした断片内に出現する尤度、および(g)シークエンシングした断片の配列モチーフからなる群から選択されうる。配列モチーフは、断片の末端に位置する長さ2~8塩基対の配列であり、これを使用して配列情報におけるパターンを同定してもよく、分類スキームに組み込んでもよい。
【0243】
ユニパラメトリック解析は、ゲノムの2つまたはそれより多くの位置または領域の各々に1つのパラメータをマッピングするステップを含みうる。このパラメータは、(a)シークエンシングした断片の開始位置、(b)シークエンシングした断片の終止位置、(c)マッピング可能な位置をカバーする、シークエンシングしたユニーク断片の数、(d)断片長、(e)マッピング可能な塩基対位置が、シークエンシングした断片の末端に出現する尤度、および(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングした断片内に出現する尤度からなる群から選択されうる。ゲノムのこれらの2つまたはそれより多くの位置または領域は、表1に記載される目的の遺伝子のうちの1つまたは複数に関連する少なくとも1つの領域を含みうる。
【0244】
マルチパラメトリック解析は、ゲノムの2つまたはそれより多くの位置または領域の各々に2つまたはそれより多くのパラメータをマッピングするステップを含みうる。これらのパラメータは、(a)シークエンシングした断片の開始位置、(b)シークエンシングした断片の終止位置、(c)マッピング可能な位置をカバーする、シークエンシングしたユニーク断片の数、(d)断片長、(e)マッピング可能な塩基対位置が、シークエンシングした断片の末端に出現する尤度、および(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングした断片内に出現する尤度からなる群から選択されうる。ゲノムのこれらの2つまたはそれより多くの位置または領域は、表1に記載される目的の遺伝子のうちの1つまたは複数に関連する少なくとも1つの領域を含みうる。
【表1】
【0245】
セルフリーDNAは、その基礎となるクロマチン構成を表すフットプリントを含むことができ、これは発現を支配するヌクレオソーム占有、RNAポリメラーゼII休止、細胞死特異的DNアーゼ過敏、および細胞死の際のクロマチン凝縮のうちの1つまたは複数を捕捉しうる。そのようなフットプリントは、細胞デブリのクリアランスおよび輸送のシグネチャー、例えばDNA断片化を有することができ、DNA断片化は、アポトーシスにより瀕死の細胞ではカスパーゼ活性化DNアーゼ(CAD)によって実施されるが、また、瀕死の細胞が食作用を受けた後はリソソームDNアーゼIIによって実施され、それによって異なる切断マップがもたらされうる。ゲノム分割マップは、重要なウィンドウの目的の領域への集計を介して、クロマチンの上記の特性に関連する悪性状態と非悪性状態との比較における異なるクロマチン状況のゲノムワイドの同定によって構築することができる。そのような目的の領域は一般的に、ゲノム分割マップと呼ばれる。
【0246】
ゲノムの2つまたはそれより多くの位置または領域は、(i)1つまたは複数のゲノム分割マップを提供するステップ、および(ii)ゲノム分割マップからゲノムの位置または領域を選択するステップであって、ゲノムの各々のそのような位置または領域が目的の遺伝子にマッピングする、ステップによって同定されうる。ゲノムの2つまたはそれより多くの位置または領域は、長さが各々2~500塩基対の間でありうる。ゲノムのこれらの位置または領域は、さらなる解析のために目的の遺伝子に関連する局在化ゲノム領域を表す。
【0247】
マルチパラメトリック解析は、ゲノムの2つまたはそれより多くの領域のヒートマップを生成するステップを含みうる。このヒートマップは、2つまたはそれより多くのパラメータが、所定のゲノムの位置においてどのように変化するかに関する視覚的表示を与えうる。ゲノムの2つまたはそれより多くの領域は、表1に記載の遺伝子のうちの1つまたは複数から選択される少なくとも1つの領域を含みうる。コホート内またはコホートにわたる多数の対象(例えば、100人より多く)を表すヒートマップを組み合わせて、対象が属する所定のコホートまたはコホートの群を表す1つまたは複数の参照ヒートマップを生成することができる。例えば、コホートは、特徴、例えば、診断された疾患(例えば、腫瘍タイプ)、共通の疾患状況(例えば、健康な対照)、または共通の疾患転帰(例えば、腫瘍の再発または処置に対する抵抗性)を共有する対象を含みうる。
【0248】
マルチパラメトリック解析は、1つまたは複数の数学的変換を適用して、マルチパラメトリックモデルを生成するステップをさらに含みうる。マルチパラメトリックモデルは、(a)シークエンシングした断片の開始位置、(b)シークエンシングした断片の終止位置、(c)マッピング可能な位置をカバーするシークエンシングしたユニークな断片の数、(d)断片長さ、(e)マッピング可能な塩基対位置が、シークエンシングした断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングした断片内に出現する尤度、および(g)配列モチーフからなる群から選択される2つまたはそれより多くの変数の同時分布モデルでありうる。マルチパラメトリックモデルから、1つまたは複数のピークを同定してもよい。各々のそのようなピークは、ピーク分布幅およびピークカバレッジを有しうる。
【0249】
コホート内またはコホートにわたる多数(例えば、少なくとも50、100、200、300、500、700、1000、2000、3000、5000人またはそれより多く)の対象を表すユニパラメトリックまたはマルチパラメトリックモデルを組み合わせてそれぞれ、対象が属する所定のコホートまたはコホートの群を表す1つまたは複数の参照ユニパラメトリックまたはマルチパラメトリックモデルを生成してもよい。例えば、コホートは、共通の診断された疾患(例えば、腫瘍タイプ)、共通の疾患状況(例えば、健康な対照)または共通の疾患転帰(例えば、腫瘍の再発)を有する対象を含みうる。
【0250】
ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーDNA分子のRNA発現を測定するステップをさらに含みうる。ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーDNA分子のメチル化を測定するステップをさらに含みうる。ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーDNA分子のヌクレオソームマッピングを測定するステップをさらに含みうる。ヌクレオソーム占有は、シークエンシングした断片のグアニン-シトシン(GC)含有量に連鎖していることから、メチル化レベルは、例えばメチル化の抑制をヌクレオソーム占有から推論することができるTSSエリアを調べることによって間接的に評価することができる。これらのエリアにおいて、ピークのカバレッジおよび/または幅の変化を、メチル化の結果として(例えば、ヒストン周囲の異なる巻き付きより)観察することができる。同様に、cfDNA分子のヌクレオソームマッピングを間接的に評価してもよい。
【0251】
ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーDNA分子における1つまたは複数の体細胞一塩基バリアント(SNV)の存在を同定するステップをさらに含みうる。ユニパラメトリックまたはマルチパラメトリック解析は、セルフリーDNA分子における1つまたは複数の生殖系列一塩基バリアント(SNV)の存在を同定するステップをさらに含みうる。
【0252】
1つのゲノムパラメータをユニパラメトリック解析に組み込んでもよい。1つまたは複数のゲノムパラメータをマルチパラメトリック解析に組み込んでもよい。ゲノムパラメータは、(i)組織タイプ、(ii)遺伝子発現パターン、(iii)転写因子結合部位(TFBS)占有、(iv)メチル化部位、(v)一組の検出可能な体細胞変異、(vi)検出可能な体細胞変異のレベル、(vii)一組の検出可能な生殖系列変異、および(viii)検出可能な生殖系列変異のレベルから選択されうる。
【0253】
参照ユニパラメトリックまたはマルチパラメトリックモデルからの逸脱を検出してもよい。そのような逸脱は、(i)ヌクレオソーム領域外でのリード数の増加、(ii)ヌクレオソーム領域内でのリード数の増加、(iii)マッピング可能なゲノム位置と比較してより広いピーク分布、(iv)ピーク位置のシフト、(v)新しいピークの同定、(vi)ピークのカバレッジ深度の変化、(vii)ピーク周囲の開始位置の変化、および(viii)ピークに関連する断片サイズの変化を含みうる。これらの逸脱は、試料に由来するセルフリーDNAを表すヌクレオソームマップ破壊を示しうる。
【0254】
局在化ゲノム領域は、長さ約2~約200塩基対の範囲でありうるゲノムの短い領域である。各々の局在化ゲノム領域は、有意な構造多様性または不安定性のパターンまたはクラスタを含みうる。ゲノム分割マップを提供して、関連する局在化ゲノム領域を同定してもよい。局在化ゲノム領域は、有意な構造多様性または構造不安定性のパターンまたはクラスタを含みうる。クラスタは、局在化ゲノム領域内のホットスポット領域である。ホットスポット領域は、1つまたは複数の有意な変動またはピークを含みうる。構造多様性は、ヌクレオソームポジショニングの多様性である。構造多様性は、挿入、欠失、転遺伝子座、遺伝子再構成、メチル化ステータス、マイクロサテライト、コピー数多様性、コピー数関連構造多様性、または差異を示す他の任意の多様性からなる群から選択されうる。
【0255】
ゲノム分割マップは、(a)コホートにおける2人またはそれより多くの対象のセルフリーDNAの試料を提供するステップ、(b)セルフリーDNAの試料の各々のマルチパラメトリック解析を実施して、前記試料の各々に関するマルチパラメトリックモデルを生成するステップ、および(c)マルチパラメトリックモデルを解析して、その各々が有意な構造多様性または不安定性のパターンまたはクラスタを含む1つまたは複数の局在化ゲノム領域を同定するステップによって得ることができる。
【0256】
対象に由来するセルフリーDNAを含む試料を分析するための方法であって、試料からのセルフリーDNA分子を表す配列情報を得て、前記配列情報に関して統計分析を実施し、一組の1つまたは複数のユニパラメトリックモデルを、別個のコホートを表す1つまたは複数のヌクレオソーム占有プロファイルに関連していると分類する、方法を提供する。
【0257】
対象に由来するセルフリーDNAを含む試料を分析するための方法であって、試料からのセルフリーDNA分子を表す配列情報を得て、前記配列情報に関して統計分析を実施して、マルチパラメトリックモデルを、別個のコホートを表す1つまたは複数のヌクレオソーム占有プロファイルに関連していると分類する、方法を提供する。
【0258】
統計分析は、さらなる解析のために目的の遺伝子を表す関連するゲノム範囲を記載する1つまたは複数のゲノム分割マップを提供するステップを含みうる。統計分析は、ゲノム分割マップに基づいて一組の1つまたは複数の局在化ゲノム領域を選択するステップをさらに含みうる。統計分析は、一組の1つまたは複数のヌクレオソームマップ破壊を得るために、その組における1つまたは複数の局在化ゲノム領域を解析するステップをさらに含みうる。統計分析は、パターン認識、深層学習、および教師なし学習のうちの1つまたは複数を含みうる。
【0259】
ヌクレオソームマップ破壊は、生物学的に関連する情報に関して所定の局在化ゲノム領域を特徴付ける測定値である。ヌクレオソームマップ破壊は、野生型、体細胞バリアント、生殖系列バリアント、およびDNAメチル化からなる群から選択されるドライバー変異に関連しうる。
【0260】
1つまたは複数のヌクレオソームマップ破壊を使用して、ユニパラメトリックまたはマルチパラメトリックモデルを、別個のコホートを表す1つまたは複数のヌクレオソーム占有プロファイルに関連していると分類してもよい。これらのヌクレオソーム占有プロファイルは、1つまたは複数の評価に関連しうる。評価は、治療介入(例えば、処置の選択肢、処置の選択、生検および/またはイメージングによるさらなる評価)の一部として考慮してもよい。
【0261】
評価は、指標、腫瘍タイプ、腫瘍の重症度、腫瘍の侵襲性、処置に対する腫瘍の抵抗性、および腫瘍のクローン性からなる群から選択されうる。腫瘍のクローン性の評価は、試料中のセルフリーDNA分子におけるヌクレオソームマップ破壊の不均一性を観察するステップから決定してもよい。2つまたは複数のクローンの各々の相対的寄与の評価を決定する。
【0262】
疾患スコアは、セルフリーDNA試料を得る対象の健康ステータスの指標として決定することができる。この疾患スコアは、(i)1つまたは複数の評価、(ii)疾患に関連する1つまたは複数の健康参照マルチパラメトリックモデル、および(iii)疾患に関連する1つまたは複数の疾患参照マルチパラメトリックモデルのうちの1つまたは複数の関数として決定されうる。
【0263】
ゲノム分割マップを、一組の構造多様性の選択に適用してもよい。構造多様性の選択は、(i)1つまたは複数の疾患に関連する1つまたは複数の参照マルチパラメトリックモデル、(ii)構造多様性を標的とする1つまたは複数のプローブの効率、および(iii)構造多様性の期待度数がゲノムにおける構造多様性の平均期待度数より高いゲノムの部分に関する先の情報のうちの1つまたは複数の関数でありうる。
【0264】
1つまたは複数のセルフリーDNA試料を分析する方法を、マルチモジュラーパネルを構成するステップに適用してもよい。このマルチモジュラーパネルの構成は、(i)1つまたは複数の体細胞変異、(ii)ヒトゲノムにおけるヌクレオソーム位置の分布の情報、ならびに(iii)正常組織または細胞タイプ、および体細胞変異を含む組織または細胞タイプを起源とするセルフリーDNA分子におけるカバレッジバイアスに関する先の情報のうちの1つまたは複数を解析するステップを含みうる。上記の解析後に、マルチモジュラーパネルの構成はまた、以下、(i)その少なくとも1つが、セルフリーDNA試料を獲得した対象に1つまたは複数の疾患が存在する尤度の増加を示す、1つまたは複数の構造多様性、(ii)その少なくとも1つが、セルフリーDNA試料を獲得した対象に1つまたは複数の疾患が存在する尤度の増加を示す、1つまたは複数の体細胞変異、および(iii)1つまたは複数のクロマチン中心事象のうちの1つまたは複数を含む一組をマルチモジュラーパネルに含めるために選択するステップも含みうる。クロマチン中心事象は、転写開始部位、プロモーター領域、ジャンクション部位、およびイントロン領域のうちの1つまたは複数を含みうる。
【0265】
1つまたは複数のセルフリーDNA試料を分析する方法を、状態を検出またはモニターするステップに適用してもよい。状態をそのように検出またはモニターするステップは、試料からセルフリーDNA分子を表す配列情報を得るステップ、および前記分子に関するマクロスケール情報(例えば、塩基同一性以外の情報)を使用して、前記状態を検出またはモニターするステップを含みうる。
【0266】
1つまたは複数のセルフリーDNA試料を分析する方法を、マルチパラメトリックモデルに基づく絶対的コピー数(CN)関連構造多様性を検出するステップに適用してもよい。CN関連構造多様性は、ゲノム分割マップに基づくマルチパラメトリックモデルの比較的高いまたは低い逸脱のエリアを表す。CN関連構造多様性は、1つまたは複数の評価、例えば腫瘍量、または腫瘍タイプを決定するために1つまたは複数のヌクレオソームマップ破壊を表しうる。適切な健康参照ユニパラメトリックまたはマルチパラメトリックモデルおよび疾患参照ユニパラメトリックまたはマルチパラメトリックモデルによって、対象のユニパラメトリックまたはマルチパラメトリックモデルにおける逸脱は、ヌクレオソームマップ破壊として解釈されうる。これらのヌクレオソームマップ破壊の1つまたは複数を組み合わせて、1つまたは複数の評価、例えば腫瘍の不均一性を決定してもよい。
パネルの構成
【0267】
本明細書に記載のフラグメントームプロファイリング技術を、モジュラーパネル構成のためにさらに使用することができる。そのようなモジュラーパネル構成によって、ヌクレオソームプロファイリングに関して適切であるゲノムの領域を選択的に濃縮する一組のプローブまたはベイトの設計が可能となる。この「フラグメントーム認識」または「ヌクレオソーム認識」を組み込むことによって、多くの個体からの配列データを収集して、モジュラーパネル構成の手順、例えば標的とすべきそのゲノム位置の決定およびこれらのゲノム位置に関するプローブの最適な濃度を最適化することができる。
【0268】
例えば、クロマチン構造の変化、例えば転写開始部位(TSS)でのヌクレオソーム再ポジショニング、または位相学的に関連するドメイン構造の破壊は、遺伝子転写の調節において肝要な役割を果たすことができ、疾患を含むヒトの健康の多くの態様に関連している。したがって、ゲノムワイドなクロマチンアクセシビリティを非悪性コホートと悪性コホートの間で比較するステップにより、疾患の発生を伴う有用な後成的変化の位置の同定が可能となりうる。例えば、非悪性症例および悪性症例(例えば、対象)の代表的なコホートにおける、ヌクレオソーム占有、クロマチンアクセシビリティ、転写因子結合部位、およびDNアーゼ感受性マップに関する公共の図譜の研究、ならびにde novoの異なるクロマチン構造の直接発見(例えば、全ゲノムシークエンシング(WGS)を介して)から、クロマチンマーカーに関して濃縮された集中的なフットプリントを産生することができる。そのようなクロマチンマーカーは、ある特定の組織、細胞タイプ、細胞死タイプ、および悪性タイプ(例えば、腫瘍タイプ)に対して特異的でありえて、標的化濃縮アッセイを介して十分な解像度およびカバレッジで標的とすることができる。
【0269】
体細胞多様性ならびに構造多様性および不安定性の両方の知識を組み込むことによって、構造多様性または不安定性の公知のパターンまたはクラスタを有するゲノムの特定の部分(ホットスポット)を標的とするプローブ、ベイトまたはプライマーのパネルを構成することができる。例えば、配列データの統計分析により、一連の蓄積された体細胞事象および構造多様性が明らかとなり、それによってクローン進化試験が可能となる。データ解析は、コホート間での異なるカバレッジ、腫瘍のある特定のサブセットの存在を示すパターン、高い体細胞変異負荷を有する試料中の外来の構造事象、および血液細胞と腫瘍細胞との比較に起因する異なるカバレッジを含む、重要な生物学的洞察を示す。
【0270】
別の例では、フラグメントームプロファイリングを、1つまたは複数の遺伝子に関する低マルチプレックスポリメラーゼ連鎖反応(PCR)パネルを生成するステップに適用することができ、低マルチプレックスPCRパネルは、(a)1つまたは複数のゲノム分割マップを提供するステップ、(b)1つまたは複数のゲノム分割マップにおける1つまたは複数の局在化ゲノム領域をカバーする複数のプローブを提供するステップ、および(c)複数のプローブから、最適なPCR成績を有する1つまたは複数のプローブを選択するステップであって、前記プローブの各々が遺伝子の各々に関連する所定の局在化ゲノム領域をカバーする、ステップによって生成されうる。
【0271】
最適なPCR成績の評価は、遺伝子の各々に関連するプローブのカバレッジの最大深度によって測定される。このため、各遺伝子に関して、PCRパネルに含めるために、1つまたは複数の最適なプローブを選択してもよい。
【0272】
一例では、低マルチプレックスPCRパネルは、少なくとも1、2、3、4、5、または6個の遺伝子を含み、パネルの任意のサブセットを、シングルマルチプレックスPCRアッセイに同時に組み合わせることができる。低マルチプレックスPCRパネルを使用して、デジタルPCR、ドロップレットデジタルPCR、定量的PCR、および逆転写PCRからなる群から選択されるアッセイを、セルフリーDNAまたはセルフリーRNA分子について実施してもよい。低マルチプレックスPCRアッセイは、目的の所定の遺伝子において複数のプローブおよびプライマーをタイリングする能力を有しないことから、そのような最適化パネルの使用によって、PCRパネルに含めるための最適な一組の少数のプローブが確実に選択されるであろう。
分類
【0273】
本明細書における方法およびシステムを、分類器に適用することができる。分類器は、訓練してもよく、または訓練しなくてもよい。分類器を使用して、状態または状態の状況に関連するパターンを同定する。分類器は、コンピュータで実行されうる。
【0274】
一態様では、分類器は、試験対象から得たセルフリー試料(またはセルフリーDNA)からのDNAを使用して試験対象における遺伝子異常を決定してもよい。この分類器は、(a)対象の1つまたは複数の試料(またはセルフリーDNA)の各々に関する一組の分布スコアの入力であって、各々の分布スコアが、ゲノムの複数の位置の各々にマッピングする対象のセルフリー試料(またはセルフリーDNA)からのDNAに存在する塩基の数を表す、入力、および(b)1つまたは複数の遺伝子異常の分類の出力を含みうる。
【0275】
分類器は、機械学習エンジンを含みうる。分布スコアは、塩基位置がマッピングされる各々の分子の長さを表しうる。分布スコアは、塩基位置と重複する各分子の計数を表しうる。分布スコアは、塩基位置で開始する各分子の計数を表しうる。分布スコアは、塩基位置で終止する各分子の計数を表しうる。
【0276】
分類器を使用して、試験対象に関する一組の分布スコアを提供するステップ、および分類器を使用して試験対象の分類を生成するステップによって、試験対象から得たセルフリー試料(またはセルフリーDNA)からのDNAを使用して、試験対象における遺伝子異常を決定してもよい。
【0277】
分類器を訓練セットによって訓練してもよい。訓練セットは、対象の複数の試料の各々に関する一組の分布スコアおよび複数の試料の各々に関する一組の分類を含みうる。一組の分布スコアは、(a)対照対象の複数の試料の各々に関する一組の参照分布スコアであって、各々の参照分布スコアが、ゲノムの複数の位置の各々にマッピングする対照対象のセルフリー試料(またはセルフリーDNA)からのDNAに存在する塩基の数を表す、スコア、または(b)観察された表現型を有する対象の複数の試料の各々に関する一組の表現型分布スコアであって、各々の表現型分布スコアが、ゲノムの複数の位置の各々にマッピングする観察された表現型を有する対象のセルフリー試料(またはセルフリーDNA)からのDNAに存在する塩基の数を表す、スコアを含みうる。一組の分類は、(c)対照対象の複数の試料の各々に関する一組の参照分類、または(d)観察された表現型を有する対象の複数の試料の各々に関する一組の表現型分類を含みうる。
【0278】
一組の参照分布スコアまたは一組の参照分類に関連する対照対象は、無症候性の健康な個体でありうる。一組の表現型分布スコアまたは一組の表現型分類に関連する観察された表現型を有する対象は、(a)組織特異的がんを有する対象、(b)特定のステージのがんを有する対象、(c)炎症状態を有する対象、(d)がんに対して無症候性であるが、がんへと進行する腫瘍を有する対象、または(e)特定の薬物もしくは薬物レジメンに対して陽性もしくは陰性の応答を有するがんを有する対象を含みうる。
【0279】
分類器は、ゲノムの1つまたは複数の遺伝子座で一組の遺伝子バリアントの入力をさらに含みうる。一組の遺伝子バリアントは、報告された腫瘍マーカー(例えば、COSMICにおいて報告された腫瘍マーカー)の1つまたは複数の遺伝子座を含みうる。
【0280】
訓練された分類器を作成するための方法であって、(a)複数の異なるクラスを提供するステップであって、各々のクラスが、共有する特徴を有する一組の対象(例えば1つまたは複数のコホートから)を表す、ステップ、(b)クラスの各々に属する複数の試料の各々からのセルフリーDNA分子を表すユニパラメトリックまたはマルチパラメトリックモデルを提供し、それによって訓練データセットを提供するステップ、および(c)訓練データセットについて学習アルゴリズムを訓練して1つまたは複数の訓練された分類器を作成するステップであって、各々の訓練された分類器が、試験試料を複数のクラスのうちの1つまたは複数に分類する、ステップを含む方法を提供する。
【0281】
一例として、訓練された分類器は、ランダムフォレスト、ニューラルネットワーク、サポートベクターマシン、および線形分類器からなる群から選択される学習アルゴリズムを使用してもよい。複数の異なるクラスの各々は、健康、乳がん、結腸がん、肺がん、膵臓がん、前立腺がん、卵巣がん、黒色腫、および肝臓がんからなる群から選択されうる。
【0282】
訓練された分類器を、対象の試料を分類する方法に適用してもよい。この分類する方法は、(a)対象の試験試料からのセルフリーDNA分子を表す一組の1つまたは複数のユニパラメトリックモデルを提供するステップ、および(b)訓練された分類器を使用して試験試料を分類するステップを含みうる。試験試料を1つまたは複数のクラスに分類後、試料の分類に基づいて対象に治療介入を実施する。
【0283】
訓練された分類器を、対象の試料を分類する方法に適用してもよい。この分類する方法は、(a)対象の試験試料からのセルフリーDNA分子を表すマルチパラメトリックモデルを提供するステップ、および(b)訓練された分類器を使用して試験試料を分類するステップを含みうる。試験試料を1つまたは複数のクラスに分類後、試料の分類に基づいて対象に治療介入を実施する。
【0284】
図8および9は各々、マルチパラメトリックモデル、特にゲノムの範囲内の各々のゲノム位置で断片度数のプロットに組み込まれうる一態様を説明する。各々の図において、断片度数は、異なるヌクレオソームポジショニングの結果としてゲノム位置によって変動する。
図8において、半周期的な線は、ゲノム位置(x軸)における平均断片度数(y軸)を示し、異なるヌクレオソーム占有の結果としての多様なフラグメントームシグナルを説明する。
図9において、2つの半周期的な線は、ゲノム位置(x軸)にわたる、標準的な断片開始分布(y軸)および所定の位置を起源とする断片の中央値腫瘍量(y軸)をそれぞれ示し、異なるヌクレオソーム占有の結果としての多様なフラグメントームシグナル、およびより低い標準的な断片開始分布の位置での所定の位置を起源とする断片のより高い中央値腫瘍量の両方を説明する。
【0285】
図10および11は、マルチパラメトリックモデルの2つの態様、特にゲノムの範囲内の各々のゲノム位置での正規化した分子計数(上のパネル)および正規化した断片サイズ(すなわち、長さ、下のパネル)のプロットを説明する。各々の図において、正規化した分子計数および正規化した断片サイズはいずれも、異なるヌクレオソームポジショニングの結果としてゲノム位置によって変動する。
【0286】
図12は、マルチパラメトリックモデルの3つの態様、特にゲノムの範囲内の各々のゲノム位置での正規化した分子計数、正規化した断片サイズ(すなわち、長さ)、および正規化した二本鎖の百分率を説明する。マルチパラメトリックモデルの3つ全ての態様が、異なるヌクレオソームポジショニングの結果としてゲノム位置によって変動する。特に、この変動は、マルチパラメトリックモデルにおいて何らかの周期性を示す。この周期性は、典型的に約10.5塩基対である。
【0287】
図13は、マルチパラメトリックモデルの1つの態様、特にゲノムの範囲内での各々のゲノム位置(x軸)でのリードの計数(y軸)を説明する。ゲノムのこの範囲は、NF1、ERBB2、BRCA1、MET、SMO、BRAF、EGFR、およびCOK6を含むいくつかの腫瘍関連遺伝子に対応する。
【0288】
図14は、マルチパラメトリックモデルを生成するためにマルチパラメトリック解析の一部として実施することができる数学的変換の例を説明する。特に、高速フーリエ変換(FFT)を適用して、ゲノムの範囲内の各々のゲノム位置での開始位置毎のリードの計数のプロットを生成する。ゲノムのこの範囲は、NF1、ERBB2、BRCA1、およびTP53を含むいくつかの腫瘍関連遺伝子に対応する。示されるように、特にERBB2遺伝子は、示される他の遺伝子より有意に高い(約2倍またはそれより高い)リードの計数の値を示し、このことはERBB2変異がおそらく存在することを示す。
【0289】
図15は、ゲノムの所定の領域における2人の異なる対象の2つのマルチパラメトリックモデルの例を説明する。特に、ゲノムのこの領域は、腫瘍関連遺伝子TP53に対応する。腫瘍を有する対象(下のパネル)に対応するマルチパラメトリックモデル(この場合、ヒートマップ)から、腫瘍を有しない対象(上のパネル)と比較して、特にエクソン9によって記されるエリア付近で逸脱を認めることができる。そのような逸脱は、ヒートマップのより滑らかでない位相およびより可変の領域(例えば、ピーク)の存在を含む。
【0290】
図16は、ゲノムの所定の領域における2人の異なる対象の2つのマルチパラメトリックモデルの例を説明する。特にゲノムのこの領域は、腫瘍関連遺伝子NF1に対応する。TP53。腫瘍を有する対象(下のパネル)に対応するマルチパラメトリックモデル(この場合、ヒートマップ)から、腫瘍を有しない対象(上のパネル)と比較して逸脱を認めることができる。そのような逸脱は、ヒートマップのより滑らかでない位相およびより可変の領域(例えば、ピーク)の存在を含む。
【0291】
図17は、ゲノムの所定の領域における2人の異なる対象の2つのマルチパラメトリックモデルの例を説明する。特に、ゲノムのこの領域は、腫瘍関連遺伝子ERBB2に対応する。腫瘍を有する対象(下のパネル)に対応するマルチパラメトリックモデル(この場合、ヒートマップ)から、腫瘍を有しない対象(上のパネル)と比較して逸脱を認めることができる。そのような逸脱は、ヒートマップのより滑らかでない位相およびより可変の領域の存在(例えば、ピーク)を含む。
【0292】
図18および19は、ゲノムの所定の領域におけるヌクレオソーム構成とゲノム位置の比較の例を説明する。特に、各々の図面は、異なる対象(y軸)において測定した、異なるヒト染色体(
図18では第19染色体、および
図19では第20染色体)におけるゲノム位置(x軸)に対するヌクレオソーム構成(カバレッジを影をつけた色によって示す)を説明する。
図18および19は、これらのゲノム領域における塩基同一性にかかわらず、フラグメントームシグナルの類似のクラスタを、コホートの異なる対象において観察できることを説明する。
【0293】
図20は、絶対コピー数(CN)を決定するためのプロセスの例を説明する。第1に、ヌクレオソーム位置を特定して、それらを通常のコホートにおける期待値とマッチさせる。次に、FGFRにおけるあらゆるヌクレオソームウィンドウに関して、超保存的非第10染色体ヌクレオソーム部位のコレクションを決定し、超保存第10染色体ヌクレオソーム部位のコレクションを決定する。最後に、FGFRヌクレオソーム部位のインサートサイズ密度に対して位置上で積分する。
【0294】
図21Aおよび21Bは、血漿中DNAの全シークエンシングによってコピー数増幅遺伝子の活性化を推論するフラグメントームプロファイリングを使用する例を説明する。
図21Aは、2,076例の臨床試料におけるERBB2における正規化したジヌクレオソームのモノヌクレオソームに対する計数比率のプロットを示す。このヒートマップの肉眼による検分により、高い増幅活性の領域(例えば、黄色2104および赤色2106で示す)を、正常から低い増幅活性(例えば、緑色2102で示す)のバックグラウンドに対して観察することができる。
図21Bは、
図21Aのプロットの右側の拡大部分を示し、バックグラウンドの緑または青色2112に対して、高振幅のCNVコール(例えば、黄色2114および赤色2116で示す)に関して濃縮されたクラスタを示す。
図21Bの下のパネルは、類似のフラグメントームシグナルによって共にクラスタ形成されているゲノム領域を示す(例えば、共通の遺伝子座に対応するゲノム領域の連続する部分の結果として)。
【0295】
各々の臨床試料に関して、ERBB2断片(例えば、ERBB2遺伝子にマッピングするcfDNA断片)のみを切り出して、フラグメントームプロファイリングを行った。ERBB2は、ある特定のタイプのがん、例えば乳がんおよび胃がんのマーカーとして、ならびにがんを有する対象における処置に対する抵抗性のマーカーとして周知である。各々の臨床試料に関して、ジヌクレオソームのモノヌクレオソームに対する計数比率を、(1)ジヌクレオソーム保護を有する断片(例えば、少なくとも240塩基対(「bp」)の断片サイズ)の数を計数することによって、(2)モノヌクレオソーム保護を有する断片(例えば、240塩基対(「bp」)未満の断片サイズ)の数を計数することによって、(3)(1)と(2)の比率をとることによって、および(4)試料の中央値(例えば、試料におけるそのような比率の値の中央値)に対して比率を正規化することによって、ERBB2ゲノムドメイン(例えば、ゲノム領域)において決定した。次に、各々の臨床試料に関して、試料のジヌクレオソームのモノヌクレオソームに対する計数比率を、その試料に関連するCNV測定と共にプロットした(例えば、あらゆる増幅コールを紫色のドットとして示す、上のパネル)。
【0296】
2,076例の臨床試料におけるこのデータプロットの教師なしクラスタリングにより、正常から低い増幅活性(例えば、緑色2102で示す)のバックグラウンドに対して高い増幅活性(リードの計数によって表記される最高のフラグメントームシグナルによって示される)(例えば、黄色2104および赤色2106で示す)を有する3つのクラスタの存在が明らかとなり、右側のクラスタは肉眼で最も顕著であった。このクラスタは高振幅のCNVコールに富むが、他は、中央のクラスタではスメアとなり、右のクラスタではスメアの程度はより少ない。クラスタは、コピー数増幅遺伝子(例えば、ERBB2に関連する遺伝子)が、目に見えるクラスタ(例えば、赤色および黄色における)に関連する臨床試料に関して活性化されていることの指標として解釈されうる。このように、フラグメントームプロファイル(例えば、ERBB2における)を、増幅ステータスと相関させることができる。そのような観察は、関連する高振幅のCNVコールがないゲノム領域(おそらく、ごく限定的な検出を可能にする、循環中の腫瘍DNA(例えば、ctDNA)の低い感度のために)に関しても行うことができる。これらの観察は、それらのゲノム領域が、フラグメントームをプロファイルした遺伝子(例えば、ERBB2)を活発に転写しているより高い尤度を示すと解釈されうる。そのようなフラグメントームプロファイリングは、感度および特異性を増加させるために既存のCNV検出方法(例えば、リキッドバイオプシーアッセイを実施することによる)に組み込むことができる。類似の解析を、複数の遺伝子において実施して、複数の遺伝子におけるコピー数増幅の比較的高いおよび低い活性化を観察してもよい。
【0297】
図21Aおよび21Bの結果は、cfDNA断片が、断片サイズおよび断片位置の解析を含むフラグメントームプロファイリングを実施することによって、がん細胞の腫瘍微小環境に対する洞察を明らかにしうることを示している。この場合、腫瘍の微小環境において細胞から能動的に脱落したコピー数増幅遺伝子(例えば、ERBB2)の活性化は、高振幅のCNVコールの実施とは独立して、ERBB2ジヌクレオソーム保護シグネチャーとして観察することができる。このアプローチは、典型的に循環中のアレル割合が低いことを考慮すれば、既存のCNV検出およびコーリングアプローチが、循環中の腫瘍DNA(例えば、ctDNA)において感度よく検出することが非常に難しいことから、それらに対して利点を有しうる。そのようなフラグメントームアプローチはまた、特に他の遺伝子バリアント、例えばSNV、インデル、および融合によって、観察可能な表現型の差がもたらされない場合には、そのような遺伝子バリアントの存在を測定および予測するために適切でありうる。共有する疾患を有するコホートの対象における、例えば正常な試料と比較した位置、断片長、または異なる次元(断片長、位置)における距離の関数と組み合わせたフラグメントームプロファイリングは、コホート内での分子サブタイプ(例えば、肺がん患者のコホート内での肺がんの異なる分子サブタイプ)を明らかにし、それによってコホートにおける対象を階層化しうる。
【0298】
ヌクレオソーム断片長の差に関するアッセイ
本明細書には、対象の生物学的試料を処理するための方法であって、(a)前記対象の前記生物試料を得るステップであって、前記生物試料が、デオキシリボ核酸(DNA)断片を含む、ステップ、(b)前記生物試料をアッセイして、(i)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および(ii)上記遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の存在または非存在を示すシグナルを生成するステップ、ならびに(C)前記シグナルを使用して、(i)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および(ii)遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の前記存在または非存在を示す出力を生成するステップを含む方法が開示されている。
【0299】
本方法は、一組の1つまたは複数の遺伝子座のDNA断片に関して生物学的試料を濃縮するステップを含んでいてもよい。
【0300】
また、本明細書には、対象に由来するセルフリーDNA断片を含む生物学的試料を分析するための方法であって、モノヌクレオソーム保護およびジヌクレオソーム保護の各々に対応する、同じ遺伝子座からのDNA断片を検出するステップを含む方法が開示されている。
【0301】
また、本明細書には、対象の生物学的試料を分析するための方法であって、(i)試料中のcfDNA断片をシークエンシングして、DNA配列を提供するステップ、(ii)(i)で得られたDNA配列を、対象の種の参照ゲノムの1つまたは複数のゲノム領域にマッピングするステップ、および(iii)マッピングされたDNA配列を有する1つまたは複数のゲノム領域について、モノヌクレオソームに対応する配列の数、およびジヌクレオソームに対応する配列の数を算出するステップを含む方法が開示されている。(iii)で得られたモノ-およびジ-ヌクレオソーム配列の数は、比較することができる。
【0302】
したがって、一般的な観点では、同じ遺伝子座(単数または複数)のモノヌクレオソームおよびジヌクレオソーム保護に対応するcfDNA断片は、別々にアッセイされる。本明細書で示されているように、これらの断片の測定レベルの変化は、対象内の生物学的状況の変化を示すことができる。例えば、
図27Bは、高ERBB2コピー数を有する乳がん患者試料でのジヌクレオソーム断片の増加を示す。したがって、本方法は、検出または算出されたシグナルを使用して(例えば、本明細書の他所で考察されているような分類器を使用して)、試料がそこから採取された対象の生物学的状況を評価する(例えば、疾患を診断する)さらなるステップを含んでいてもよい。特に、モノまたはジヌクレオソーム断片の量の変化を使用して、対象の生物学的状況を評価することができる。
【0303】
断片は、種々の方法で、例えば、本明細書の他所で考察されているようにcfDNA断片をシークエンシングすることにより、またはcfDNA断片をサイズで分離し(例えば、アガロースゲルで)、それらを定量化することにより、アッセイすることができる。
【0304】
これらの方法は、遺伝子座に見られるモノヌクレオソーム断片およびジヌクレオソーム断片の定量比(例えば、この比は、生物学的状況が変化すると共に変化する場合がある)、遺伝子座に見られる断片の量(例えば、たとえ比が依然として同じであっても、両タイプの断片のレベルは増加する場合がある)、または断片の出現もしくは消失(例えば、ジヌクレオソーム断片は、1つの生物学的状況では検出不能であるが、別の状況では検出可能であり得る)を考慮する。本方法では、これらのシグナルの各々を考慮することができる。
【0305】
本方法は、例えば、生物学的状況に応じてモノヌクレオソームシグナルおよび/またはジヌクレオソームシグナルが変化を示すことが公知である特定の目的の遺伝子座(単数または複数)に着目することができる。しかしながら、他の実施形態では、本方法は、後に生物学的状況の変化と相関させることができるシグナルを検出してもよい。例えば、本明細書の他所で考察されているように、cfDNAをシークエンシングすることができ、配列を、参照ゲノムにマッピングすることができる。一部の実施形態では、モノヌクレオソームシグナルおよび/またはジヌクレオソームシグナルの変化が、生物学的状況と既に相関されている(例えば、疾患対非疾患、または変異体対野生型、または低コピー数対高コピー数など)遺伝子座の場合、これらの遺伝子座のシグナルを評価することができる(例えば、本明細書の他所で考察されているような分類器を使用して)。他の実施形態では、1つまたは複数の遺伝子座のモノ/ジヌクレオソームシグナルを、異なる生物学的状況を有する対象から採取された試料中の同じ遺伝子座のシグナルと比較することができ、任意の差を評価して(例えば、さらなる対象に由来する試料を使用して)、それらが生物学的状況の差と相関するか否かを確かめること、または本明細書の他所で考察されているような分類器を構築することができる。
【0306】
したがって、本方法は、モノ/ジヌクレオソーム断片の量を、参照試料から得られた値と比較するステップを含んでいてもよい。そのような比較には、本明細書の他所に記載されているような分類器を使用することができる。
【0307】
これらの方法で考慮される遺伝子座は、一般的には、単一遺伝子内に、または単一遺伝子のプロモーター領域内に存在していてもよい。
【0308】
ジヌクレオソーム断片を考慮することに加えて、これらの方法は、加えて(または代わりに)、他のオリゴヌクレオソーム断片(トリ、テトラなど)を考慮することができるが、
図1Eに示されているように、そのような断片は、それほど豊富でなく、したがって検出がそれほど容易ではない。オリゴヌクレオソーム断片(ジ、トリなど)は、個々に考慮してもよく、または集合的に考慮してもよい。
【0309】
モノおよびオリゴヌクレオソームDNA断片のアッセイは、当技術分野で公知である。例えば、細胞死検出ELISAPLUS製品が市販されており、血清中のcfDNAに適用されているが(Holdenriederら、2005年)、DNA断片の長さ、または異なる遺伝子座の断片は区別されない。
【0310】
コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされているコンピュータシステムを提供する。
図22は、対象に由来するセルフリー核酸を含む試料を分析するようにプログラムされているかまたはそうでなければ構成されているコンピュータシステム2201を示す。コンピュータシステム2201は、本開示の方法の種々の態様を制御することができる。コンピュータシステム2201は、電子デバイスに対して遠隔に位置するユーザまたはコンピュータシステムの電子デバイスであってもよい。電子デバイスは、移動式電子デバイスであってもよい。
【0311】
コンピュータシステム2201は、中央処理ユニット(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも呼ばれる)2205を含み、中央処理ユニットは、単一コアまたはマルチコアプロセッサであってもよく、または並列処理用の複数のプロセッサであってもよい。また、コンピュータシステム2201は、メモリまたはメモリ位置2210(例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ)、電子記憶ユニット2215(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース2220(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶、および/または電子表示装置アダプタなどの周辺デバイス2225を含む。メモリ2210、記憶ユニット2215、インターフェース2220、および周辺デバイス2225は、マザーボードなどの、通信バス(実線)を介してCPU2205と通信する。記憶ユニット2215は、データを記憶するためのデータ記憶ユニット(またはデータ保管場所)であってもよい。コンピュータシステム2201は、通信インターフェース2220の支援によりコンピュータネットワーク(「ネットワーク」)2230と作動可能に接続されていてもよい。ネットワーク2230は、インターネット(Internet)、インターネット(internet)および/もしくはエクストラネット、またはインターネット(Internet)と通信するイントラネットおよび/もしくはエクストラネットであってもよい。一部の場合、ネットワーク2230は、遠距離通信および/またはデータネットワークである。ネットワーク2230は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる1つまたは複数のコンピュータサーバを含んでいてもよい。一部の場合、ネットワーク2230は、コンピュータシステム2201の支援により、コンピュータシステム2201に接続されているデバイスが、クライアントまたはサーバとして作動することを可能にすることができるピアツーピアネットワークを実装することができる。
【0312】
CPU2205は、プログラムまたはソフトウェアに具現化されていてもよい一連の機械読み取り可能な命令を実行することができる。命令は、メモリ2210などのメモリ位置に記憶されていてもよい。命令は、CPU2205に向けることができ、それによりその後本開示の方法を実施するようにCPU2205をプログラムするかまたはそうでなければ構成することができる。CPU2205により実施される作業の例としては、フェッチ、デコード、実行、およびライトバックを挙げることができる。
【0313】
CPU2205は、集積回路などの回路の一部であってもよい。回路には、システム2201の1つまたは複数の他の部品が含まれていてもよい。一部の場合、回路は、特定用途向け集積回路(ASIC)である。
【0314】
記憶ユニット2215は、ドライバー、ライブラリ、および保存されたプログラムなどのファイルを記憶することができる。記憶ユニット2215は、ユーザのデータ、例えばユーザの設定、ユーザのプログラムを記憶することができる。一部の場合、コンピュータシステム2201は、イントラネットまたはインターネットを介してコンピュータシステム2201と通信する遠隔サーバなどに位置する、コンピュータシステム2201の外部にある1つまたは複数のさらなるデータ記憶ユニットを含んでいてもよい。
【0315】
コンピュータシステム2201は、ネットワーク2230を介して1つまたは複数の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム2201は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、アンドロイド対応デバイス、Blackberry(登録商標))、またはパーソナルデジタルアシスタントが挙げられる。ユーザは、ネットワーク2230を介してコンピュータシステム2201にアクセスすることができる。
【0316】
本明細書に記載されている方法は、例えば、メモリ2210または電子記憶ユニット2215などの、コンピュータシステム2201の電子記憶位置に記憶されている機械(例えば、コンピュータプロセッサ)実行可能なコードにより実施することができる。機械実行可能なまたは機械読み取り可能なコードは、ソフトウェアの形態で提供することができる。使用中、コードは、プロセッサ2205により実行することができる。一部の場合、コードを記憶ユニット2215から取り出し、プロセッサ2205によるアクセスの提供ができているメモリ2210に記憶することができる。一部の状況では、電子記憶ユニット2215は省くことができ、機械実行可能な命令は、メモリ2210に記憶されている。
【0317】
コードは、コードを実行するように構成されているプロセッサ(processer)を有する機械で使用するために事前にコンパイルおよび適合されていてもよく、またはランタイム中にコンパイルしてもよい。コードは、事前コンパイルまたは同時コンパイルの様式でコードを実行することが可能なように選択することができるプログラミング言語で提供することができる。
【0318】
コンピュータシステム2201などの、本明細書で提供されているシステムおよび方法の態様は、プログラミングで具現化することができる。この技術の種々の態様は、典型的には、一種の機械読み取り可能な媒体に保持されているかまたは具現化されている機械(またはプロセッサ)実行可能なコードおよび/または関連データの形態の「製品」または「製造品」であると考えることができる。機械実行可能なコードは、メモリ(例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子記憶ユニットに記憶することができる。「記憶」タイプの媒体は、コンピュータもしくはプロセッサなどの有形メモリ、またはソフトウェアプログラミングのために任意の時間の非一過性記憶を提供することができる、種々の半導体メモリ、テープドライブ、およびディスクドライブなどの、それらの関連モジュールのいずれかまたはすべてを含んでいてもよい。ソフトウェアの全部または部分は、インターネットまたは種々の他の遠距離通信ネットワークを介して適時に通信される。例えば、そのような通信は、1つのコンピュータまたはプロセッサから別のものへの、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのローディングを可能にすることができる。したがって、ソフトウェア要素を保持することができる別のタイプの媒体としては、有線および光地上通信ネットワークを介して、および種々の無線リンクにより、ローカルデバイス間の物理的インターフェースを介して使用されるものなど、光波動、電気的波動、および電磁波が挙げられる。有線もしくは無線リンクまたは光リンクなどの波動を伝播する物理的要素も、ソフトウェアを保持する媒体とみなすことができる。本明細書で使用される場合、非一過性の有形「記憶」媒体に限定されていない限り、コンピュータまたは機械「読み取り可能な媒体」などの用語は、実行用のプロセッサに命令を提供することに寄与するあらゆる媒体を指す。
【0319】
したがって、コンピュータ実行可能なコードなどの機械読み取り可能な媒体は、これらに限定されないが、有形の記憶媒体、搬送波媒体、または物理的伝送媒体を含む、多数の形態をとることができる。不揮発性記憶媒体としては、例えば、図面に示されている、データベースなどを実装するために使用することができるものなど、任意のコンピュータなどの記憶デバイスのいずれかなどの、光または磁気ディスクが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどの、ダイナミックメモリが挙げられる。有形の伝送媒体としては、同軸ケーブル、コンピュータシステム内のバスを含む配線を含む銅線および光ファイバーが挙げられる。搬送波伝送媒体は、無線周波(RF)および赤外線(IR)データ通信中に生成されるものなど、電気的もしくは電磁気的シグナル、または音響波もしくは光波の形態を取っていてもよい。したがって、コンピュータ読み取り可能な媒体の一般的形態としては、例えば、フロッピーディスク(登録商標)、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROM、およびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を運搬する搬送波、そのような搬送波を運搬するケーブルもしくはリンク、またはコンピュータがそこからプログラミングコードおよび/もしくはデータを読み取ることができる任意の他の媒体が挙げられる。コンピュータ読み取り可能な媒体のこれらの形態の多くは、実行用のプロセッサに対する1つまたは複数の命令の1つまたは複数のシークエンスを保持することに関与することができる。
【0320】
コンピュータシステム2201は、例えば、対象に由来するセルフリー核酸を含む試料の分析に関連する情報を提供するためのユーザインターフェース(UI)2240を含む電子表示装置2235を含んでいてもよく、または通信することができる。UIの例としては、限定ではないが、グラフィカルユーザインターフェース(GUI)およびウェブに基づくユーザインターフェースが挙げられる。
【0321】
本開示の方法およびシステムは、1つまたは複数のアルゴリズムにより実施することができる。アルゴリズムは、中央処理ユニット2205による実行時にソフトウェアにより実施することができる。
【0322】
本明細書には、本発明の好ましい実施形態が示され、記載されているが、当業者であれば、そのような実施形態は、例として提供されているに過ぎないことは明白である。本発明は、本明細書内で提供されている特定の例により限定されることは意図されていない。本発明は、上述の明細書を参照して記載されているが、本明細書中の実施形態の説明および図示は、限定という意味で解釈されることは意図されていない。今や、当業者であれば、本発明から逸脱しない多数の変更、変化、および置換を思いつくだろう。さらに、本発明の態様はすべて、本明細書に示されている特定の描写、構成、または相対的比率に限定されず、それらは、様々な条件および変数に依存することが理解されるものとする。本発明の実施には、本明細書に記載されている本発明の実施形態の種々の代替を用いることができることが理解されるべきである。したがって、本発明は、任意のそのような代替、改変、変更、または等価物も包含することが企図されるものとする。以下の特許請求の範囲が本発明の範囲を規定し、これらの特許請求の範囲内にある方法および構造ならびにそれらの等価物は、それにより包含されることが意図されている。
【実施例0323】
(実施例1)
セルフリーDNA断片化パターンは、原発腫瘍の体細胞変異に関連する変化を示し、体細胞バリアント検出の感度および特異性を向上させる。
循環血の血漿から単離されたセルフリーDNA(cfDNA)は、瀕死細胞のクリアランスおよび血流輸送を生き延びたDNA断片を含む。がんにおいて、これらの断片は、腫瘍体細胞多様性ならびにそれらの微小環境の足跡を保持しており、臨床実践において非侵襲性の血漿に基づく腫瘍遺伝子型決定を可能にする。しかしながら、がん由来DNAの割合は、典型的には少なく、初期段階での正確な検出が困難であり、がん性状況に関連する統計的に独立した(orthogonal)体細胞バリアント非含有パターンの探索が促進される。cfDNA断片のゲノム分布は、造血細胞におけるヌクレオソーム占有を反映することが示されているため、(a)患者腫瘍中の別個の変異と関連するがんのcfDNAポジショニングの不均質なパターンを観察するための、および(b)cfDNAポジショニングを、検出の感度および特異性の増加を可能にすることができる既存の分析手法に統合するための実験を実施した。
【0324】
進行期臨床がんを有する1万5000人よりも多くの患者のcfDNA断片長および位置の分布ならびに関連する体細胞ゲノムプロファイルを、70個の遺伝子を標的とする非常に正確な深度カバレッジ(15,000×)ctDNA NGS試験により決定した。バリアント非含有フラグメントームプロファイリングの総合的分析を実施し、フラグメントームプロファイルを、統計的方法を使用して、検出された体細胞性変更との関連性について試験した。異なるクラスのフラグメントームサブタイプ(例えば、目視観察、クラスタリング、または他の手法により明らかにされた示差的フラグメントームプロファイルを有するサブタイプ)が、十分に特徴付けられたドライバー遺伝子変更(driver alteration)およびゲノム分子サブタイプを有する試料では有意に濃縮されていることが観察された。cfDNAポジショニングのパターンとHER2増幅との間で発見された関連性を確認するために、既知知のHER2免疫組織化学的ステータスを有する試料の独立コホートを調査した。
【0325】
全体として、フラグメントームプロファイリングは、腫瘍のHER2免疫組織化学的(IHC)ステータスと有意に関連していたERBB2(例えば、HER2)増幅固有特徴を示し、HER2増幅検出の感度の42%増加、およびHER2増幅検出の特異性の7%増加をもたらした。観察された肺腺癌フラグメントームサブタイプは、相互に排他的なゲノム変更と同時に起こり、肺がんの内因性分子サブタイプであると以前に記載した。まとめると、これらの結果は、cfDNA断片化ランドスケープの総合的分析が、様々なヒト状態に関するcfDNAに基づくバイオマーカーのさらなる開発を支援することができることを示唆する。したがって、フラグメントームプロファイリングは、がんcfDNAの分類を可能にすることができ、観察された体細胞多様性およびその根底にある腫瘍微小環境の独立した証拠を提供することができ、バリアント検出のより高い感度および正確さに結び付く。これは、がんサブタイプの病因および療法選択が異なる臨床的に関連するクラスの統合的検出へと向かう道筋を示唆する。
【0326】
(実施例2)
セルフリーDNA断片化パターン(フラグメントームプロファイリングまたは「フラグメントミクス」分析)は、腫瘍関連体細胞変異に関連する変化を示す。
循環血の血漿から単離されたセルフリーDNA(cfDNA)は、瀕死細胞のクリアランスおよび血流輸送を生き延びたDNA断片を含む。がんにおいて、これらの断片は、腫瘍体細胞多様性ならびにそれらの微小環境の足跡を保持しており、臨床実践において非侵襲性の血漿に基づく遺伝子型決定を可能にする。しかしながら、がん由来DNAの割合は、典型的には少なく、初期段階での正確な検出が困難であり、がん性状況に関連する統計的に独立した体細胞バリアント非含有パターンの探索が促進される。cfDNA断片のゲノム分布は、造血細胞におけるヌクレオソーム占有を反映することが示されているため、(a)患者腫瘍中の別個の変異と関連するがんのcfDNAポジショニングの不均質なパターンを観察するための、および(b)cfDNAポジショニングを、検出の感度および特異性の増加を可能にすることができる既存の分析手法に統合するための実験を実施した。
【0327】
進行期臨床がんを有する1万5000人よりも多くの患者のcfDNA断片長および位置の分布ならびに関連する体細胞ゲノムプロファイルを、70個の遺伝子を標的とする非常に正確なディープカバレッジ(>15,000×)ctDNA NGS試験により決定した。バリアント非含有フラグメントームプロファイリング(「フラグメントミクス」分析)の総合的分析を実施し、フラグメントームプロファイルを、統計的方法を使用して、検出された体細胞性変更との関連性について試験した。異なるクラスのフラグメントームサブタイプ(例えば、目視観察、クラスタリング、または他の手法により明らかにされた示差的フラグメントームプロファイルを有するサブタイプ)が、十分に特徴付けられたドライバー遺伝子変更およびゲノム分子サブタイプを有する試料では有意に濃縮されていることが観察された。
【0328】
EGFR遺伝子について
図23に示されているように、cfDNA断片化パターンのシグナルデコンボリューションを使用して、腫瘍タイプ全体の単一ヌクレオソーム分解能断片化パターンを生成した。部分aに示されているように、EGFR遺伝子の複数のゲノム領域が、がん検出のための腫瘍関連マーカー(例えば、リキッドバイオプシーによりアッセイすることができる)を含む場合がある。部分bに示されているように、「無配列フラグメントミクス(sequence-free fragmentomics)」分析は、良性バリアント、非体細胞バリアント、および体細胞バリアントを含む、EGFR遺伝子のゲノム領域全体のバリアントを明らかにする。部分cに示されているように、そのようなEGFR DNAバリアントは、変異(SNV)および増幅(例えば、CNV)を含む場合がある。部分dに示されているように、総変異負荷は、フラグメントーム分析によるSNVおよびCNVを含むバリアントの検出から明らかになる。
【0329】
フラグメントミクスプロファイルを評価し、cfDNAポジショニングのパターンと肺がん特異的ヌクレオソーム特徴との間で発見された関連性を確認するために、後期(進行期)肺腺癌を有する768人の患者の検証コホートに由来する試料の独立コホートを調査した。後期肺腺癌患者の検証コホートから生成されたフラグメントームプロファイルに対して、最小冗長性特徴選択(minimum redundancy feature selection)(例えば、Dingら、J Bioinform Comput Biol、2005年4月;3巻(2号):185~205頁)を実施した。
図24に示されているように、この教師なしクラスタリング分析により、肺がん特異的特徴(EGFR、KRAS、FGFR2、ALK、EML4、TSC1、RAF1、BRCA2、およびKIT遺伝子に関連する体細胞変異を含む)のサブセットが特定された。各行(y軸)は、患者から採取された768個のcfDNA試料の1つを表し、各列(x軸)は、異なる遺伝子に対応する異なるゲノム位置を示す。特に、フラグメントームパターンは、EGFR、KRAS、およびFGFR2に体細胞変異(例えば、遺伝子型決定分析により、肺腺癌および他のタイプの肺がんを有する患者で一般的に観察される)の有意なクラスタを示した。したがって、フラグメントームプロファイル分析により、cfDNAポジショニングのパターン(フラグメントミクス)と肺がん特異的ヌクレオソーム特徴との間で発見された関連性が確認された。
【0330】
(実施例3)
セルフリーDNA断片化パターン(フラグメントームプロファイリングまたは「フラグメントミクス」分析)は、異常検出のための密度としてモデル化することができる。
フラグメントームプロファイルは、特定の状態(例えば、悪性または非悪性、悪性状態は異常症例を示す)と関連する観察された断片化開始および長さの密度として3D遺伝子座標空間にモデル化することができる。そのようなフラグメントームプロファイルは、デジタルドロップレットポリメラーゼ連鎖反応(ddPCR)、定量的ポリメラーゼ連鎖反応(qPCR)、およびアレイ比較ゲノムハイブリダイゼーション(CGH)などの、様々なアッセイ法を使用して得ることができる。そのような「リキッドバイオプシー」アッセイは、例えば、Guardant Healthの循環中腫瘍DNA試験、Fluxion BiosciencesのSpotlight59オンコロジーパネル、Agena BioscienceのUltraSEEK肺がんパネル、Foundation MedicineのFoundationACTリキッドバイオプシーアッセイ、Personal Genome DiagnosticsのPlasmaSELECTアッセイなどが、商業的に入手可能であり得る。そのようなアッセイは、一組の遺伝子バリアント(例えば、SNV、CNV、インデル、および/または融合)の各々のマイナーアレル割合(MAF)値の測定を報告することができる。
【0331】
フラグメントームプロファイルを、異常検出アルゴリズムによる分析にかけて、異常な状態(例えば、対象中の悪性がん)を特定することができる。異常検出は、データマイニングに幅広く使用されており、混合モデルおよび期待値最大化(EM)アルゴリズムを使用して実施することができる。
図25に示されているように、異常検出は、混合モデリング、断片開始および長さの分布を、K-構成要素(K個の異なるクロマチン構成を表す)混合モデルとして形式的に記載することができる一般的な確率論的クラスタリング技法を含んでいてもよい。
【0332】
上記モデルでは、cfDNA開始位置(「開始」)および長さシグナル(例えば、複数のcfDNA断片の各々の開始および長さ)を処理して、特定のクロマチン単位に関連するDNA断片のサブセット(例えば、細胞死および細胞クリアランスを生き延びたもの)の非悪性観察の分布の等高線を画定する最先端を規定することができる。さらなる観察が、そのような最先端画定部分空間内に位置する場合、これらの観察点は、初期観察と同じ非悪性集団に由来するとみなされる。そうでなければ、最先端外に位置するさらなる観察は、異常な(例えば、悪性集団に由来する)細胞状態を示す場合がある。この異常性の徴候は、所与の信頼レベルで決定することができる。データ分析の種々の技法を、1クラスSVM(One-Class SVM)[Estimating the support of a high-dimensional distribution、Scholkopf, Bernhardら、Neural computation 13巻、7号(2001年):1443~1471頁]楕円エンベロープのフィッティング[Rousseeuw, P.J.、Van Driessen, K.「A fast algorithm for the minimum covariance determinant estimator」、Technometrics、41巻(3号)、212頁(1999年)]、ならびにアイソレーションフォーレスト(Isolation Forest)[Liu, Fei Tony、Ting, Kai MingおよびZhou, Zhi-Hua.「Isolation forest.」Data Mining、2008年、ICDM‘08. Eighth IEEE International Conference on.]を含む混合モデルに適用して、不均質な一組の観察の部分集団をクラスタ化するために使用することができ、これら文献の各々は、参照により本明細書に組み込まれる。
【0333】
楕円エンベロープフィッティング法を、上記で規定されている(および
図25に示されている)二変量正規混合に適用することができる。第1の作業は、同じヒストン保護DNAユニットから生じる断片に関連する等高線を確立することを含む。多変量正規化における等値線のそのような導出は、下記に記載されており、楕円としての等高線を確立する。一組の非悪性対照血漿試料を考慮すると、ゲノム空間を、非オーバーラップセグメントに細分化することができ、これらのセグメントは、cfDNA断片の集団で観察される保護DNAのクラスタを規定する。次に、二変量正規または二変量t分布モデルP(x)を構築して、特定の断片が非悪性細胞に由来する確率を得る。確率pが閾値ε未満である場合、そのような断片は、異常であるとみなされる。異常断片の密度を全ゲノムセグメントにわたって総計することにより(染色体XおよびYに適切な注意をはらって)、非悪性クロマチン構成の外部に由来するcfDNA断片(つまり、由来が異常であるcfDNA断片)の割合を表す、悪性負担(つまり、腫瘍量)の定量的尺度がもたらされる。生理学的に多様な一組のcfDNA試料を含む訓練セットが、複数の非悪性対照(例えば、健康対照対象)から得られれば、あらゆる検出された悪性寄与(例えば、検出された異常性)は、がん由来であることを示すことができる。そのような悪性負荷決定は、楕円エンベロープを、以下のように二変量正規混合にフィッティングすることにより実施することができる(
図26Aに示されているように)。
【0334】
(x-μ)TΣ-1(x-μ)=c
【0335】
式中、Σは、共分散行列である。この数式は、楕円を表わす。μ=(0,0)であり、Σが対角行列である単純な場合では、以下の数式が得られる。
【0336】
(x/σx)2+(y/σy)2=c
【0337】
Σが対角行列ではない場合、対角化を実施して、同じ結果に到達することができる。対角化技法は、例えば[Hyndman, R.J.(1996年)、Computing
and graphing highest density regions、The American Statistician、50巻(2号)、120~126頁]に記載されており、この文献は、参照により本明細書に組み込まれる。
【0338】
以下のアルゴリズムを実施して、参照試料(例えば、健康対照)に由来するcfDNA集団を使用して二変量正規混合モデルを訓練および試験した。
【0339】
まず、40人の非悪性成人の血漿試料を含むデータセットを使用して、訓練を実施した。各ヒト染色体毎に、断片長を無視し、カーネル密度推定量を、統計ソフトウェアパッケージRの「density」機能を使用して算出した。アルゴリズム(1)では、経験的分布関数の一団を、少なくとも5000点の規則的グリッドにわたって分散させ、その後(2)高速フーリエ変換を使用して、この近似を離散化型のカーネルでデコンボリューションし、その後(3)線形近似を使用して、指定の点での密度を評価する。例えば、カーネル密度推定法は、[Venables, W. N.およびRipley, B. D.(2002年)Modern Applied Statistics with S. New York: Springer]に記載されており、この文献は、参照により本明細書に組み込まれる。
【0340】
次に、クロマチン保護ユニットの境界を確立するために、算出された密度に谷部を確立した。谷部は、変化が生じた系列の最低値であると規定される。次に、規定されたセグメント毎に、2Dピニングカーネル密度推定量(2D binned kernel density estimate)を、統計ソフトウェアパッケージRのKernSmoothパッケージを使用して算出した。KernSmoothアルゴリズムは、[Wand, M. P.(1994年)、Fast Computation of Multivariate Kernel Estimators. Journal of Computational and Graphical Statistics、3巻、433~445頁]に記載されており、この文献は、参照により本明細書に組み込まれる。次に、各遺伝子座標方向に一組のグリッド点を生成した(x軸はゲノム位置であり、y軸は断片長である)。次に、グリッド点により誘導されたメッシュにわたって、密度推定量の行列を算出した。
【0341】
使用したカーネルは、標準的二変量正規密度だった。予め既定されたグリッドの各(x1、x2)対毎に、二変量ガウスカーネルをその位置で中央化し、各データ点での、帯域幅により基準化されたカーネルの最高値を合計する。グリッドは、必要に応じて散在的に規定してもよい(例えば、3bp、5bp毎など)。両方向に15bpのグリッドサイズを使用して、メモリ使用量を最小限に抑えた。帯域幅は、カーネル帯域幅平滑化パラメータを指し、より大きな値の帯域幅は推定値をより滑らかにし、より小さな値の帯域幅は推定値をあまり滑らかにしない。ヒューリスティックチューニング(heuristic tuning)を、400個よりも多くの強力にポジショニングされたヌクレオソームプロファイル(つまり、複数の組織、細胞系統、および生物にわたって同じヌクレオソーム構造を保存するプロファイル)を含む12p11.1領域にて様々な帯域幅パフォーマンスを検査することにより、30bpの帯域幅で実施した。そのような強力にポジショニングされたヌクレオソームプロファイルは、例えば、Gaffney, D.J.ら、Controls of nucleosome positioning in the human genome. PLoS Genet.、8巻、e1003036(2012年)に記載されており、この文献は、参照により本明細書に組み込まれる。あるいは、平均積分二乗誤差を最小限に抑えるために、形式的帯域幅評価(URL www.ssc.wisc.edu/~bhansen/718/NonParametrics1.pdfで利用可能)を使用してもよい。
【0342】
次に、推定平均および共分散を使用して、99.995%楕円エンベロープを、統計ソフトウェアパッケージRのmvtnormライブラリを使用して確立した。このアルゴリズムは、solve()関数を使用して、分散-共分散行列を反転させ、ellipse()関数を使用して、二変量正規密度の対数の負の値として高さメトリックを算出した。例えば、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、少なくとも99.9%、少なくとも99.99%、少なくとも99.999%、または少なくとも99.9995%などの、楕円エンベロープの他の値を使用してもよい。
【0343】
上記に記載されている訓練作業により、99.995%の信頼性で、非悪性クラスタを表していた3D断片開始位置および長さ空間の領域を確立した。次に、二変量正規混合モデルの試験を、肺および結腸がん患者のコホートから得られたcfDNA試料を含むデータセットを使用して実施した。上記cfDNA試料は、切除前および切除後の採取血液の両方に由来していた。訓練と同様に、アルゴリズムのテスト部分は、2Dカーネル密度推定量を算出することを含んでいた。次に、悪性負担(悪性負荷、腫瘍量、または腫瘍量)を、非悪性楕円エンベロープの外側の密度の加重和として算出した。加重は、非悪性訓練セットの2Dカーネル密度推定量の逆数として設定した。
【0344】
図26Bは、上記に記載されている二変量正規混合モデルを使用した、5つの異なるコホート(結腸直腸がん手術後、結腸直腸がん手術前、肺がん手術後、肺がん手術前、および正常)全体のcfDNA試料のフラグメントーム分析により生成された異常発現スコアの分布の例を示す。「手術後」は、そのcfDNAが、外科的切除手術後になされた採取血液で分析された対象を指す。「手術前」は、そのcfDNAが、外科的切除手術前になされた採取血液で分析された対象を指す。なお、結腸直腸がん手術後のコホートおよび肺がん手術後コホートの異常発現スコア(したがって、悪性負担)は、より低い値を示し、正常(例えば、健康)コホートの異常発現スコアと類似していた。対照的に、結腸直腸がん手術前および肺がん手術前コホートの異常発現スコア(したがって、悪性負担)は、正常(例えば、健康)コホートの異常発現スコアよりも有意に高い値を示した。さらに、結腸直腸がん手術前および肺がん手術前コホートの異常発現スコア(したがって、悪性負担)は、他の3つ(結腸直腸がん手術後、肺がん手術後、および正常対象)と比較して、これらコホート内で有意により高い変動を示した。
【0345】
(実施例4)
セルフリーDNA断片化パターン(フラグメントームプロファイリングまたは「フラグメントミクス」分析)は、腫瘍関連コピー数多様性(CNV)に関連する変化を示す。
循環血の血漿から単離されたセルフリーDNA(cfDNA)は、瀕死細胞のクリアランスおよび血流輸送を生き延びたDNA断片を含む。がんにおいて、これらの断片は、腫瘍コピー数多様性ならびにそれらの微小環境の足跡を保持しており、臨床実践において非侵襲性の血漿に基づく腫瘍遺伝子型決定を可能にする。しかしながら、がん由来DNAの割合は、典型的には少なく、初期段階での正確な検出が困難であり、がん性状況に関連する統計的に独立したコピー数バリアント非含有パターンの探索が促進される。cfDNA断片のゲノム分布は、造血細胞におけるヌクレオソーム占有を反映することが示されているため、実験を実施して、(a)患者腫瘍中の別個のCNVと関連するがんのcfDNAポジショニングの不均質なパターンを観察し、(b)cfDNAポジショニングを既存の分析に統合した。このような手法は、検出の感度および特異性の増加を可能にすることができる。
【0346】
リキッドバイオプシーアッセイを実施して後期標的エクソームのMAFを測定することにより、ERBB2ヌクレオソーム動力学を研究した。DNA断片サイズ対DNA断片開始位置の2Dヒートマップを含むマルチパラメトリックモデル(例えば、3次元としてDNA断片カバレッジを有する)を使用して、線形ピニング、FFTによる離散性デコンボリューション、および二変量ガウスカーネルフィッティングにより、開始位置による断片計数の通常カーネル密度推定量に対するピニング近似値を導出した。その結果は、
図27Aに示されている。
【0347】
図27Aは、TP53遺伝子、エクソン番号7に関連するゲノム領域における断片サイズ(例えば、断片長)(y軸)および対象のゲノム位置(x軸)を含むマルチパラメトリックモデルの例を示す(z軸は断片計数であり、色の濃淡で表されている)。このマルチパラメトリックモデルを使用して、セルフリーヌクレオソームポジショニングの効果を視覚化することができる。腫瘍を有する対象に対応するマルチパラメトリックモデル(この場合は、ヒートマップ)から、約180塩基位置により隔てられている(例えば、位置に対応する横軸に沿って)2つのピークを観察することができる。加えて、モノヌクレオソーム保護に対応する3つのピークを観察することができる(例えば、約160~約180塩基位置(bp)の範囲の断片サイズに対応する)。加えて、ジヌクレオソーム保護に対応する3つのピークを観察することができる(例えば、約320~約340塩基位置(bp)の範囲の断片サイズに対応する)。これらピークの各々は、位置(例えば、横軸に沿ったピークの中心の)、断片サイズ(例えば、縦軸に沿ったピークの中心の)、およびピーク幅(例えば、軸の1つに沿った)を含んでいてもよい。
【0348】
20人のERBB2陰性およびERBB2陽性の後期乳がん患者のコホートにて、両調節エレメント(例えば、ERBB2遺伝子に関連するプロモーターおよびエンハンサー領域)を、全ゲノム分析により検査した。そのような研究は、
図27Bおよび27Cに示されているように、ERBB2陽性症例のヌクレオソームクリアランスの予想クロマチン構造を有する十分な断片カバレッジ、ならびに発現に関連するジヌクレオソームクラスタの存在を示した。
【0349】
図27Bは、20個の試料の4つの集計後期乳がんコホート(上から下へと示されている)における、ERBB2プロモーター領域の2D断片開始位置(x軸)および断片長(y軸)密度ヒートマップを示す:(i)低変異負荷および近二倍体ERBB2コピー数(CN)を含むコホート、(ii)高変異負荷および近二倍体ERBB2コピー数(CN)を含むコホート、(iii)低変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホート、および(iv)高変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホート。
【0350】
低変異負荷および近二倍体ERBB2コピー数(CN)を含むコホートは、腫瘍量が低く、腫瘍のERBB2遺伝子のCNVが低い可能性が高い対象である。高変異負荷および近二倍体ERBB2コピー数(CN)を含むコホートは、腫瘍量は高いが、腫瘍のERBB2遺伝子のCNVが低い可能性が高い対象である。
図27Bの上段2つの行のヒートマップから分かるように、腫瘍のERBB2遺伝子のCNVが低い対象は、低変異負荷および高変異負荷症例の両方にわたって類似のフラグメントームプロファイルを示した。
【0351】
低変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホートは、腫瘍負荷は低いが、腫瘍のERBB2遺伝子のCNVが高い可能性が高い対象である。高変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホートは、腫瘍負荷が高く、腫瘍のERBB2遺伝子のCNVが高い可能性が高い対象である。
図27Bの下段2つの行のヒートマップから分かるように、腫瘍のERBB2遺伝子のCNVが高い対象は、低変異負荷および高変異負荷症例の両方にわたって類似のフラグメントームプロファイルを示した。加えて、ERBB2遺伝子のCNVが高い対象は、(i)より多くのジヌクレオソームピークの出現(断片長に対応する縦軸に沿って、各行のヒートマップの上部分に位置する)および(ii)2つのピーク間の距離がより大きく、他のピークとの「スメア化」(例えば、より大きな幅を有し、したがって互いに合流し始める、より不明確なピーク)を示すフラグメントームプロファイルを示した。
【0352】
図27Cは、20個の試料の4つの集計後期乳がんコホート(上から下へと示されている)における、ERBB2エンハンサー領域の2D断片開始位置(x軸)および断片長(y軸)密度ヒートマップを示す:(i)低変異負荷および近二倍体ERBB2コピー数(CN)を含むコホート、(ii)高変異負荷および近二倍体ERBB2コピー数(CN)を含むコホート、(iii)低変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホート、および(iv)高変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホート。
【0353】
低変異負荷および近二倍体ERBB2コピー数(CN)を含むコホートは、腫瘍負荷が低く、腫瘍のERBB2遺伝子のCNVが低い可能性が高い対象である。高変異負荷および近二倍体ERBB2コピー数(CN)を含むコホートは、腫瘍負荷は高いが、腫瘍のERBB2遺伝子のCNVが低い可能性が高い対象である。
図27Cの上段2つの行のヒートマップから分かるように、腫瘍のERBB2遺伝子のCNVが低い対象は、低変異負荷および高変異負荷症例の両方にわたって類似のフラグメントームプロファイルを示した。
【0354】
低変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホートは、腫瘍量は低いが、腫瘍のERBB2遺伝子のCNVが高い可能性が高い対象である。高変異負荷および高ERBB2コピー数(CN)(例えば、約4よりも大きな)を含むコホートは、腫瘍量が高く、腫瘍のERBB2遺伝子のCNVが高い可能性が高い対象である。
図27Cの下段2つの行のヒートマップから分かるように、腫瘍のERBB2遺伝子のCNVが高い対象は、低変異負荷および高変異負荷症例の両方にわたって類似のフラグメントームプロファイルを示した。加えて、ERBB2遺伝子のCNVが高い対象は、より多くのジヌクレオソームピークの出現(断片長に対応する縦軸に沿って、各行のヒートマップの上部分に位置する)を示すフラグメントームプロファイルを示した。
【0355】
図28Aおよび28Bに示されているように、個々の対象試料のフラグメントーム分析により、リキッドバイオプシーアッセイなどの標的化アッセイを使用してクロマチン構造検出の実現可能性が確認された。
【0356】
図28Aは、整列させた2D断片開始位置(x軸)および断片長(y軸)密度ヒートマップ(右側、上から下へと示されている)を示す:(i)単一の試料(ERBB2陽性対象に由来する)から生成されたERBB2エンハンサー領域のヒートマップ(右上)、(ii)複数の健康対照から生成された集計コホートヒートマップ、および(iii)複数の高ERBB2 CN/低変異負荷対象から生成された集計コホートヒートマップ。加えて、4つの異なるゲノム領域(例えば、TP53、NF1、ERBB2、およびBRCA1遺伝子に対応する)での、モノヌクレオソームおよびジヌクレオソーム計数(例えば、試験試料中で計数された、そのゲノム位置から開始する断片の数)のカバレッジプロットが示されている(左側)。試験試料は、健康対照のコホートよりも、高ERBB2 CNおよび低変異負荷コホートのフラグメントームプロファイル(例えば、ジヌクレオソーム断片のピークまたは「ジヌクレオソームピーク」の出現を示す)とより類似したフラグメントームプロファイルを示す(右)。加えて、試験試料は、他の3つの遺伝子(TP53、NF1、およびBRCA1)と比較して、両方ともERBB2遺伝子領域にて有意に上昇した(例えば、数倍)モノヌクレオソームおよびジヌクレオソーム計数のカバレッジプロットを示す(左)。したがって、試験試料のフラグメントームプロファイルおよびカバレッジプロットは両方とも、試験対象がERBB2陽性である可能性が高いことを示し、それを確認する。フラグメントームプロファイリングを実施することにより、ERBB2遺伝子の遺伝子座の各塩基位置の塩基同一性を考慮に入れずに、ERBB2遺伝子のCN遺伝子異常の存在が測定および取得された。
【0357】
図28Bは、アラインした2D断片開始位置(x軸)および断片長(y軸)密度ヒートマップ(上から下へと示されている)を示す:(i)単一の試料(ERBB2陰性対象に由来する)から生成されたERBB2エンハンサー領域のヒートマップ(右上)、(ii)複数の健康対照から生成された集計コホートヒートマップ、および(iii)複数の高ERBB2 CN/低変異負荷対象から生成された集計コホートヒートマップ。加えて、4つの異なるゲノム領域(例えば、TP53、NF1、ERBB2、およびBRCA1遺伝子に対応する)での、モノヌクレオソームおよびジヌクレオソーム計数(例えば、試験試料中で計数された、そのゲノム位置から開始する断片の数)のカバレッジプロットが示されている。試験試料は、高ERBB2 CNおよび低変異負荷コホートよりも、健康対照のコホートのフラグメントームプロファイル(例えば、ジヌクレオソーム断片のピークまたは「ジヌクレオソームピーク」が存在しない)とより類似したフラグメントームプロファイルを示す(右)。加えて、試験試料は、他の3つの遺伝子(TP53、NF1、およびBRCA1)と比較して、ERBB2遺伝子領域にて上昇していないモノヌクレオソームおよびジヌクレオソーム計数のカバレッジプロットを示す(左)。したがって、試験試料のフラグメントームプロファイルおよびカバレッジプロットは両方とも、試験対象がERBB2陰性である可能性が高いことを示し、それを確認する。フラグメントームプロファイリングを実施することにより、ERBB2遺伝子の遺伝子座の各塩基位置の塩基同一性を考慮に入れずに、ERBB2遺伝子のCN遺伝子異常の非存在が測定および取得された。
【0358】
一態様では、対象から得られたセルフリー試料(またはセルフリーDNA)に由来するデオキシリボ核酸(DNA)断片中の遺伝子異常の存在または非存在を示す出力を生成するための方法が本明細書で開示されている。本方法は、フラグメントームプロファイル(例えば、2Dヒートマッププロット)から1つまたは複数のピークを特定することを含んでいてもよい。そのような特定は、ゲノムの複数の塩基位置にわたって、セルフリー試料(またはセルフリーDNA)に由来するDNA断片の分布を構築することを含んでいてもよい。次に、DNA断片の分布において、複数の塩基位置の1つまたは複数の塩基位置で1つまたは複数のピークを特定することができる。各々のそのようなピークは、ピーク値およびピーク分布幅を含んでいてもよい。次に、対象の遺伝子異常の存在または非存在を決定することができる。そのような決定は、少なくとも(i)1つまたは複数の塩基位置、(ii)ピーク値、および/または(iii)ピーク分布幅に基づいていてもよい。一部の実施形態では、1つまたは複数のピークは、ジヌクレオソームピークおよび/またはモノヌクレオソームピークを含む。
【0359】
一部の実施形態では、遺伝子異常の存在または非存在を示す出力は、少なくとも、ジヌクレオソームピークに関連する第1のピーク値およびモノヌクレオソームピークに関連する第2のピーク値の比またはその逆を示す定量的尺度に基づいて決定される。例えば、ジヌクレオソームピーク値(および/またはピーク分布幅(「ピーク幅」))の、モノヌクレオソームピーク値(および/またはピーク幅)に対する比を使用して、試験試料のフラグメントームプロファイルが、1つまたは複数の健康対照対象(またはコホート)および/または1つまたは複数の罹患対象(またはコホート)のフラグメントームプロファイル(類似のピーク位置、ピーク値、および/またはピーク幅を有する)と一致するパターンであり得るか否かを示すことができる。
【0360】
マルチパラメトリック分布(例えば、2D密度プロットまたはヒートマップ)が生成されれば、マルチモーダル密度を推定することができる。しかしながら、そのような評価は、1次元の場合でさえ困難である場合がある。単峰型モデルの場合、密度形状は、多変量分布分析の周知の方法を使用して生成することができるパラメータ(例えば、歪度および尖度)により記載することができる。マルチモーダルモデルの場合、マルチモーダル密度分析(例えば、断片開始位置(「断片開始」)などのパラメータの)を実施して、最頻値の数および各々のそのような最頻値の位置を決定することができる。それは、最頻値が、クロマチンマークのエピジェネティックなcap分析遺伝子発現(CAGE)ピークを模倣する優性特徴であり、その根底にあるクロマチン構成の潜在的症候であり得るためである。
【0361】
マルチモーダル密度分析は、マルチモーダル密度構成と一致する様式の一組の均質な構成要素へのサンプリング集団の分解を提供する混合モデルの使用を含んでいてもよい。種々の方法および手法を使用して、多変量正規混合、例えば機械学習アルゴリズムの最頻値挙動を決定することができる。一例として、マルチパラメトリック分布(例えば、フラグメントーム2D密度)に対して、地形図に好適な分水嶺変換(watershed transformation)などの画像処理および画像分割アルゴリズムを実施してもよい。そのような分水嶺変換手法は、各地点の明るさがその高さを表わすフラグメントームプロファイルを表すことができ、したがってマルチモーダル密度分析は、そのよう分水嶺プロット(watershed plot)の尾根部の上部に沿って走る1つまたは複数の線を決定することを含んでいてもよい。
図29Aに示されているように、そのような変換手法を使用して、フラグメントームプロファイルを分析し、二変量正規混合の地形図モデリングにより標準ヌクレオソームアーキテクチャをマッピングした。
【0362】
図29Aは、ERBB2およびNF1エクソンドメイン(増幅なし)の2Dヌクレオソームマッピングを示す。そのようなヌクレオソームマッピングは、例えば、第17染色体のERBB2プロモーター領域および隣接する遺伝子NF1に関連するフラグメントームプロファイルの稜線再構成を実施することにより得ることができる。このプロセスでは、ヌクレオソームマスクを、フラグメントームプロファイルにフィッティングした。
【0363】
ここで、シグナルは、ヌクレオソーム境界の等高線、およびそのような等高線の密度の変動を表わす。図の下段には、2D密度推定および画像処理が示されている。図の上段は、30例の近二倍体ERBB2臨床事例(例えば、そのリキッドバイオプシーアッセイにより、CNVが低いかまたはないことを示すMAF値が報告された対象)全体で観察された標準ドメインのヌクレオソームマスクである。健康対象を検査し、フラグメントームプロファイリングに供し、ヌクレオソームが存在すると予想される等高線を決定した。そのような分析は、デルタシグナルを使用することを含んでおり、各デルタシグナルは、DNA断片(例えば、試験試料の)の分布と、参照分布(例えば、健康対照の標準分布)との差を含む。健康対照に基づいてマスクを構築し、そのマスクを試験試料に適用した。得られたプロットは、この試験試料が、健康対照のコホートのフラグメントームプロファイルと非常に類似するフラグメントームプロファイルを有することを示す。
【0364】
その後、ヌクレオソームマスキング手法を、第17染色体(chr17)の標的ドメイン全体に適用し、リキッドバイオプシーアッセイによりアッセイされ、4つの組織タイプ(前立腺、結腸、乳房、および肺)全体の進行がん患者を表していた7,000試料のより大きな臨床コホートに拡張した。フラグメントームシグナルをデコンボリューションして、ERBB2、NF1、BRCA1、およびTP53の4つの遺伝子を含んでいたchr17標的ドメインの標準ヌクレオソームマスクを生成した。
【0365】
次に、汎がん近二倍体ERBB2コピー数訓練セットから導出されたヌクレオソーム特異的特徴を使用して、腫瘍関連マイナーアレル頻度(MAF)をアッセイした811個の進行期乳癌試料全体にわたってERBB2遺伝子の残差マスクを隣接遺伝子の残差マスクと対比させることにより、ERBB2発現構成要素および第17染色体腫瘍量を推定した。具体的には、腫瘍量を、非ERBB2ドメイン全体の反復残差測定値として評価し、限局的増幅事象(focal amplification event)に対してロバスト化し(
図30に示されているように)、ERBB2発現尺度を、811個の乳がん試料全体の、ERBB2ジヌクレオソーム対ERBB2発現のモノヌクレオソームチャネルの残差密度推定量対コピー数推定量として算出した(
図31Aに示されているように)。ERBB2コピー数を、ERBB2モノヌクレオソームの残差密度として決定し、変異負荷について補正し、ERBB2境界の外部を評価した。
【0366】
図29Bは、ERBB2およびNF1エクソンドメイン(増幅なし)の2Dヌクレオソームマッピングを示す。図の下段には、2D密度推定および画像処理が示されている。図の上段には、30例のERBB2臨床症例全体で観察された標準ドメインのヌクレオソームマスクが示されている。このプロセスでは、試験試料プロファイルと標準健康プロファイルとの比較を使用してパターンマッチングを実施した(例えば、シグナルデコンボリューション、およびデコンボリューションされたシグナルのパターン認識を実施することにより)。この比較では、複数の手法を使用して、差を観察することができる。例えば、log尤度を算出して、観察されたシグナルと、(i)1つまたは複数の標準マスク(例えば、健康対照に由来する)、(ii)1つまたは複数の陽性異常プロファイル、または(iii)両方の組合せとの距離を測定することができる。別の例として、画像処理アルゴリズムを、フラグメントームプロファイル比較のために実施してもよい。その後、そのような距離またはデルタシグナルを比較して、所与の試験試料が、健康である可能性がより高いか、または罹患状況である可能性がより高い対象を示すフラグメントームプロファイルを有するか否かを決定することができる。複数の参照分布(例えば、1つまたは複数の健康個体および1つまたは複数の罹患個体)との比較が、単一の比較に組み込まれていてもよい。
【0367】
図30は、以前にリキッドバイオプシーアッセイにより最大MAFがアッセイされていた4つの異なるコホート全体の推定第17染色体腫瘍量のプロットを示す:(i)(0,0.5]の範囲の最大MAFを有するコホート、(ii)(0.5,5]の範囲の最大MAFを有するコホート、(iii)(5,20]の範囲の最大MAFを有するコホート、および(iv)(20,100]の範囲の最大MAFを有するコホート。腫瘍の細胞クリアランス(例えば、細胞およびセルフリーDNAを循環中へと流出させる腫瘍の傾向)は、NF1遺伝子または他の非がんマーカーの定量的尺度を算出することにより測定することができる。例えば、そのような定量的尺度は、ジヌクレオソーム保護を示す測定された断片の数の、モノヌクレオソーム保護を示す測定された断片の数に対する比であってもよい。対象から得られたセルフリー試料(またはセルフリーDNA)に由来するDNA断片の分布(例えば、マルチパラメトリック分布またはユニパラメトリック分布(uni-parametric distribution))を、遺伝子座の1つまたは複数の構成要素へとデコンボリューションしてもよい。そのような構成要素は、コピー数(CN)、細胞クリアランス、および遺伝子発現の1つ、2つ、3つを含んでいてもよい。デコンボリューションは、ゲノムの複数の塩基位置にわたって、セルフリー試料(またはセルフリーDNA)に由来するDNA断片のカバレッジの分布を構築することを含んでいてもよい。次に、デコンボリューションは、1つまたは複数の遺伝子座の各々について、カバレッジの分布をデコンボリューションし、それによりコピー数(CN)構成要素、細胞クリアランス構成要素、および/または遺伝子発現構成要素に関連する分画寄与度を生成することを含んでいてもよい。
【0368】
図31Aは、ERBB2発現構成要素対ERBB2コピー数のプロットを示す。ここで、ERBB2発現測定値(y軸)は、811個の乳がん試料全体のERBB2ジヌクレオソーム対モノヌクレオソームチャネルの残差密度推定量として算出した。ERBB2プロモーター領域を検査して、コピー数変化に関連するクロマチン再編成事象を観察した。コピー数変化は発現と関連しているため、フラグメントームシグナルから発現を推定することができる。FISHおよび/または免疫組織化学法(IHC)によりHER2陽性であると以前に確認されたERBB2ステータスを有する対象のコホートについて、このコホートのERBB2プロモーター領域のフラグメントームプロファイルを検査し、ERBB2陽性発現のマスクを特定した。同様に、ERBB2陰性コホート(この場合も、FISHおよび/またはIHCにより臨床的に検証されていた)のマスクを生成して、ERBB2陰性発現のマスクを特定した。したがって、所与の試験試料について、関連するフラグメントームプロファイル(例えば、ERBB陽性プロファイルおよびERBB2陰性プロファイルの混合として)の分析は、ERBB2陽性またはERBB2陰性フラグメントームパターンのいずれかと一致する尤度(例えば、パターンマッチングに関連するlog尤度)を示すことができる。コホート中の各対象について、関連するフラグメントームプロファイルのカバレッジ数から、ERBB2コピー数を測定した。
【0369】
図31Bは、分散-共分散行列を構築し、分散-共分散行列を反転させ、楕円判別関数を生成することにより実施される、ERBB2陰性訓練セットを使用した2D閾値化のプロットを示す。ERBB2発現およびコピー数の多変量正規分布を、平均ベクトルμおよび共分散行列Σでパラメメーター化し、判別スコアを生成するために使用した。この手順を使用して、試験試料が、ERBB2陰性訓練データに対する二変量正規近似により作成された楕円内に含まれるか否かについて試験した。楕円(
図31Bに示されているような)を、データの一次および二次モーメントにより決定した。ERBB2発現およびコピー数の多変量正規分布の分散-共分散行列を反転させることにより、判別スコアを生成した。この判別スコアは、二変量正規密度の負の対数として算出した。
【表2】
【0370】
表2は、増幅検出の概要が、公知のHER2免疫組織化学的ステータスを有する58個の試料をもたらすことを示す。これらの結果は、免疫組織化学法(IHC)および蛍光in situハイブリダイゼーション(FISH)により検証したERBB2陽性およびERBB2陰性乳がん症例の独立試験セットの感度および特異性の概要を含む。これらの結果は、フラグメントミクス(フラグメントームプロファイルの分析)が、従来のCNV検出手法と比較して、より高い感度および特異性でERBB2陽性およびERBB2陰性乳がん症例の増幅検出を可能にしたことを示す。そのようなフラグメントミクス手法は、より高い感度およびより高い特異性でCNVを検出するために、従来のCNV検出手法(例えば、1つまたは複数の遺伝子座の塩基位置の塩基同一性を考慮に入れる手法)と並行して実施してもよい。あるいは、そのようなフラグメントミクス手法は、いずれか1つの方法の場合よりも高い感度およびより高い特異性でCNVを検出するために、従来のCNV検出手法(例えば、1つまたは複数の遺伝子座の塩基位置の塩基同一性を考慮に入れる手法)と組み合わせて実施してもよい。
【0371】
(実施例5)
セルフリーDNA断片化パターン(フラグメントームプロファイリングまたは「フラグメントミクス」分析)は、がんに関連する免疫細胞タイプの存在を示す変化を示す。
chr1:43814893~43815072の単一連続伸長により表わされるMPL遺伝子(MPLプロトオンコジーン、トロンボポエチン受容体)の遺伝子座の断片開始分布を含む一組のフラグメントームプロファイルを、(i)少なくとも6つの異なる組織にわたる一組の2,360例の後期悪性症例、および(ii)43人の健康バイオバンク対照対象にわたって検査した。各フラグメントームプロファイルについて、モノヌクレオソーム断片(240bp未満の長さを有する)の数で除算した観察されたジヌクレオソーム断片(約240bp~約360bpの範囲の長さを有する)の数として規定されるジヌクレオソーム比を、30bp窓をずらして算出した。次に、各フラグメントームプロファイル毎に、健康対照対象全体の中央値プロファイルを減算することにより、そのようなジヌクレオソーム比の残差を得た。
図32Aに示されているように、行は、試料に対応し、列は、180bpのMPL標的ドメインにわたる個々の窓に対応し、y軸は、リキッドバイオプシーアッセイで観察された最大変異アレル頻度(MAF)が増加する方向であるヒートマップにより表されるような残差プロットを生成した。
【0372】
高MAF試料(約30%より高い)(つまり、最も高い腫瘍量を有し、したがって比較的進行した転移性疾患を示す対象に由来するもの)は、健康対照対象と比較して、高腫瘍量がんの短距離(サブヌクレオソーム、約180bp未満)の示差的クロマチンアーキテクチャを示すジヌクレオソーム残差の濃縮を示した。標的MPLドメインのENSEMBL転写構造の検査は、残差ジヌクレオソーム比シグナルのブレイクポイントを示した(
図32Bおよび32Cに示されているように)、これは、高腫瘍量がん試料で断片が濃縮されている転写物構造多様性に関連し、MPLの選択的転写物の短縮エクソン使用頻度と一致していた。そのようなブレイクポイントは、MPL遺伝子の選択的スプライシング事象を示し、2つの異なる転写物にわたるサブヌクレオソームフラグメントームシグナルを表わし、1つの転写物は、別の転写物の短縮型である。転写物(標準型)の短縮型は、上段に示されており、転写物の非標準型は、下段に示されている。
【0373】
組織特異的選択的エクソン使用頻度とのブレイクポイント関連性をさらに検査することにより(
図32Cに示されているように)、典型的な膜貫通型Mplバリアント、MPLK(全長)、およびMPLP(短縮)の特定が明らかになる。MPLPバリアントは、単球、B-リンパ球(lympocyte)、およびT細胞集団で検出されたが、単球、B細胞、およびT細胞でのMPLK mRNA発現は低かった。本発明者らは、ブレイクポイントが、より短い転写物の縁端と関連しており、より長い転写物と関連していた割合が少ない(つまり、シグナルがより低い)ことを観察した。より長い転写物が、免疫細胞タイプ集団で観察され、がん存在および/または侵襲性を示すことができる。これらの結果は、健康正常対照対象と比べて、高腫瘍量を有する対象は、MPLPシグネチャーが濃縮されているさらなるセルフリーDNA負荷を保持することを示す。そのようなシグネチャーは、がん存在および侵襲性に関連する免疫細胞タイプ存在を示す(例えば、[Different mutations of the human c-mpl gene indicate distinct hematopoietic diseases、Xin Heら、Journal of Hematology & Oncology20136:11]に記載されているように)。したがって、これらの結果は、フラグメントミクス(フラグメントームプロファイルの分析)が、その存在ががんと関連している免疫細胞タイプの存在または相対的増加量の検出および特定を可能にしたことを示す。
本発明は、例えば、以下の項目を提供する。
(項目1)
対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を決定するためのコンピュータ実行方法であって、
(a)コンピュータによって、ゲノムの複数の塩基位置での前記DNA断片のマルチパラメトリック分布を構築するステップ、および
(b)第1の遺伝子座における各々の塩基位置の塩基同一性を考慮に入れることなく、前記マルチパラメトリック分布を使用するステップであって、前記対象の前記第1の遺伝子座における前記遺伝子異常の前記存在または非存在を決定するステップ
を含む方法。
(項目2)
前記遺伝子異常が、配列異常またはコピー数多様性(CNV)を含み、前記配列異常が、(i)一塩基バリアント(SNV)、(ii)挿入または欠失(インデル)、および(iii)遺伝子融合からなる群から選択される、項目1に記載の方法。
(項目3)
前記マルチパラメトリック分布が、(i)前記ゲノムの前記複数の塩基位置の各々と整列する前記DNA断片の長さ、(ii)前記ゲノムの前記複数の塩基位置の各々と整列する前記DNA断片の数、および(iii)前記ゲノムの前記複数の塩基位置の各々で開始または終止する前記DNA断片の数のうちの1つまたは複数を示すパラメータを含む、項目1に記載の方法。
(項目4)
分布スコアを決定するために、前記マルチパラメトリック分布を使用するステップであって、前記分布スコアが前記遺伝子異常の変異負荷を示すステップをさらに含む、項目1に記載の方法。
(項目5)
前記分布スコアが、ジヌクレオソーム保護を有する前記DNA断片の数、およびモノヌクレオソーム保護を有する前記DNA断片の数のうちの1つまたは複数を示す値を含む、項目4に記載の方法。
(項目6)
試験対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片を使用して前記試験対象における遺伝子異常を決定するためのコンピュータ実行分類器であって、
(a)複数の対象の各々から得た1つまたは複数のセルフリーDNA集団の各々に関する一組の分布スコアの入力であって、各々の分布スコアが、(i)ゲノムの複数の塩基位置の各々と整列する前記DNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列する前記DNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止する前記DNA断片の数のうちの少なくとも1つまたは複数に基づいて生成される、入力、ならびに
(b)前記試験対象における1つまたは複数の遺伝子異常の分類の出力
を含む分類器。
(項目7)
試験対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片を使用して、前記試験対象における遺伝子異常を決定するためのコンピュータ実行方法であって、
(a)試験対象から得たセルフリーDNAからのDNA断片を使用して、前記試験対象における遺伝子異常を決定するように構成されているコンピュータ実行分類器を提供するステップであって、前記分類器が訓練セットを使用して訓練される、ステップ、
(b)前記試験対象に関する一組の分布スコアを、前記分類器に入力として提供するステップであって、各々の分布スコアが、(i)ゲノムの複数の塩基位置の各々と整列する前記DNA断片の長さ、(ii)ゲノムの複数の塩基位置の各々と整列する前記DNA断片の数、および(iii)ゲノムの複数の塩基位置の各々で開始または終止する前記DNA断片の数のうちの1つまたは複数を示す、ステップ、ならびに(c)前記分類器を使用するステップであって、コンピュータによって、前記試験対象における遺伝子異常の分類を生成するステップ
を含む方法。
(項目8)
対象に由来するセルフリーデオキシリボ核酸(DNA)断片を解析するためのコンピュータ実行方法であって、
前記セルフリーDNA断片を表す配列情報を得るステップ、および
前記セルフリーDNA断片を表すマルチパラメトリックモデルを生成するために、前記配列情報を使用して、複数のデータセットについてマルチパラメトリック解析を実施するステップであって、前記マルチパラメトリックモデルが3つまたはそれより多くの次元を含む、ステップ
を含む方法。
(項目9)
前記データセットが、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、(g)シークエンシングしたDNA断片の配列モチーフ、(h)GC含有量、(i)シークエンシングしたDNA断片の長さの分布、および(j)メチル化ステータスからなる群から選択される、項目8に記載の方法。
(項目10)
前記マルチパラメトリック解析が、前記ゲノムの複数の塩基位置または領域の各々に、(i)ゲノムにおけるマッピング可能な位置をカバーする配列を含むユニークなセルフリーDNA断片の数の分布、
(ii)前記DNA断片が前記ゲノムにおける前記マッピング可能な位置をカバーする配列を含むように、前記セルフリーDNA断片の少なくとも一部の各々に関する断片長の分布、および
(iii)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度の分布
からなる群から選択される1つまたは複数の分布をマッピングすることを含む、項目8に記載の方法。
(項目11)
ゲノムの前記複数の塩基位置または領域が、表1に記載の遺伝子のうちの1つまたは複数に関連する少なくとも1つの塩基位置または領域を含む、項目10に記載の方法。
(項目12)
前記マッピングすることが、ゲノムの複数の塩基位置または領域の各々に、複数の前記データセットの各々からの複数の値をマッピングすることを含む、項目10に記載の方法。
(項目13)
前記複数の値のうちの少なくとも1つが、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、または(g)シークエンシングしたDNA断片の配列モチーフからなる群から選択されるデータセットである、項目12に記載の方法。
(項目14)
前記マルチパラメトリック解析が、前記マルチパラメトリックモデルを生成するために、コンピュータによって1つまたは複数の数学的変換を適用することを含む、項目8に記載の方法。
(項目15)
前記マルチパラメトリックモデルが、(a)シークエンシングしたDNA断片の開始位置、(b)シークエンシングしたDNA断片の終止位置、(c)マッピング可能な位置をカバーするユニークなシークエンシングしたDNA断片の数、(d)シークエンシングしたDNA断片の長さ、(e)マッピング可能な塩基対位置が、シークエンシングしたDNA断片の末端に出現する尤度、(f)マッピング可能な塩基対位置が、異なるヌクレオソーム占有の結果としてシークエンシングしたDNA断片内に出現する尤度、および(g)シークエンシングしたDNA断片の配列モチーフからなる群から選択される複数の変数の同時分布モデルである、項目8に記載の方法。
(項目16)
前記マルチパラメトリックモデルにおいて1つまたは複数のピークを同定するステップであって、各々のピークがピーク分布幅およびピークカバレッジを有する、ステップをさらに含む、項目8に記載の方法。
(項目17)
前記セルフリーDNA断片を表す前記マルチパラメトリックモデルと、参照マルチパラメトリックモデルとの間の1つまたは複数の逸脱を検出するステップをさらに含む、項目16に記載の方法。
(項目18)
前記逸脱が、
(i)ヌクレオソーム領域外でのリード数の増加、
(ii)ヌクレオソーム領域内でのリード数の増加、
(iii)マッピング可能なゲノム位置と比較してより広いピーク分布、
(iv)ピーク位置のシフト、
(v)新しいピークの同定、
(vi)ピークのカバレッジ深度の変化、
(vii)ピーク周囲の開始位置の変化、および
(viii)ピークに関連する断片サイズの変化
からなる群から選択される、項目17に記載の方法。
(項目19)
(i)セルフリーDNAの起源である細胞におけるアポトーシスプロセス、または(ii)前記セルフリーDNAの起源である細胞における壊死プロセスに起因する前記マルチパラメトリックモデルの寄与を決定するステップをさらに含む、項目8に記載の方法。
(項目20)
マルチパラメトリック解析を実施するステップであって、(i)前記セルフリーDNA断片のRNA発現を測定する、(ii)前記セルフリーDNA断片のメチル化を測定する、(iii)前記セルフリーDNA断片のヌクレオソームマッピングを測定する、または(iv)前記セルフリーDNA断片における1つもしくは複数の体細胞一塩基多型または前記セルフリーDNA断片における1つもしくは複数の生殖系列一塩基多型の存在を同定するステップをさらに含む、項目8に記載の方法。
(項目21)
ジヌクレオソーム保護を有する前記DNA断片の数、またはモノヌクレオソーム保護を有する前記DNA断片の数を示す値を含む分布スコアを生成するステップをさらに含む、項目8に記載の方法。
(項目22)
前記対象の変異負荷を推定するステップをさらに含む、項目8に記載の方法。
(項目23)
対象に由来するセルフリーデオキシリボ核酸(DNA)断片を解析するためのコンピュータ実行方法であって、
前記セルフリーDNA断片を表すマルチパラメトリックモデルを得るステップ、および
コンピュータによって統計分析を実施して、前記マルチパラメトリックモデルを、別個のコホートを表す1つまたは複数のヌクレオソーム占有プロファイルに関連していると分類するステップ
を含む方法。
(項目24)
訓練された分類器を作成するためのコンピュータ実行方法であって、
(a)複数の異なるクラスを提供するステップであって、各々のクラスが共有する特徴を有する一組の対象を表す、ステップ、
(b)前記クラスの各々から得た複数のセルフリーデオキシリボ核酸(DNA)集団の各々に関して、前記セルフリーDNA集団からのセルフリーデオキシリボ核酸(DNA)断片を表すマルチパラメトリックモデルを提供するステップであって、それによって訓練データセットを提供するステップ、および
(c)1つまたは複数の訓練された分類器を作成するために、コンピュータによって前記訓練データセットについて学習アルゴリズムを訓練するステップであって、各々の訓練された分類器が、試験対象のセルフリーDNAの試験集団を前記複数の異なるクラスのうちの1つまたは複数に分類するように構成されている、ステップ
を含む方法。
(項目25)
対象の試験試料を分類する方法であって、
(a)前記対象のセルフリーデオキシリボ核酸(DNA)の試験集団からのセルフリーDNA断片を表すマルチパラメトリックモデルを提供するステップ、および
(b)訓練された分類器を使用して、前記セルフリーDNAの試験集団を分類するステップ
を含む方法。
(項目26)
(a)コンピュータによって、対象のセルフリーDNA断片からの配列情報を生成するステップ、
(b)コンピュータによって、前記配列情報に基づいて前記セルフリーDNA断片を参照ゲノムにマッピングするステップ、ならびに
(c)コンピュータによって、前記マッピングされたセルフリーDNA断片を解析するステップであって、前記参照ゲノムの複数の塩基位置の各々で、
(i)前記塩基位置にマッピングするセルフリーDNA断片の数、
(ii)前記塩基位置にマッピングする各々のセルフリーDNA断片の長さ、
(iii)セルフリーDNA断片の長さの関数としての、前記塩基位置にマッピングする前記セルフリーDNA断片の数、
(iv)前記塩基位置で開始するセルフリーDNA断片の数、
(v)前記塩基位置で終止するセルフリーDNA断片の数、
(vi)長さの関数としての前記塩基位置で開始するセルフリーDNA断片の数、および
(vii)長さの関数としての前記塩基位置で終止するセルフリーDNA断片の数
からなる群から選択される複数の測定値を決定するステップ
を含む、コンピュータ実行方法。
(項目27)
対象に由来するセルフリーDNA断片を解析するコンピュータ実行方法であって、
(a)コンピュータによって、前記セルフリーDNA断片を表す配列情報を受信するステップ、ならびに
(b)マッピング可能な塩基位置またはゲノム位置毎に解析を実施するステップであって、
(i)前記塩基位置またはゲノム位置で開始または終止する配列断片の数、
(ii)前記塩基位置またはゲノム位置での配列または断片の長さ、
(iii)前記塩基位置またはゲノム位置での断片または配列のカバレッジ、および
(iv)前記塩基位置またはゲノム位置での配列モチーフ分布
のうちの複数を含むステップ
を含む方法。
(項目28)
対象が臨床的に重要な1つまたは複数のクラスに属する尤度を決定するための分類器を生成する方法であって、
a)前記臨床的に重要な1つまたは複数のクラスの各々に関して、臨床的に重要なクラスに属する種の複数の対象の各々のセルフリーDNA集団、および臨床的に重要なクラスに属さない種の複数の対象の各々のセルフリーDNA集団を含む訓練セットを提供するステップ、
b)複数のDNA配列を生成するために、前記セルフリーDNA集団からのセルフリーDNA断片をシークエンシングするステップ、
c)各々のセルフリーDNA集団に関して、前記種の参照ゲノムの1つまたは複数のゲノム領域の各々に前記複数のDNA配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、
d)訓練セットを生じるために、前記複数の遺伝子座の各々に関して
(i)前記遺伝子座にマッピングするDNA配列、(ii)前記遺伝子座で開始するDNA配列、および(iii)前記遺伝子座で終止するDNA配列
から選択される少なくとも1つの特徴の定量的測定値を示す値を含むデータセットを、各々のセルフリーDNA集団に関して提供するステップ、ならびに
e)前記訓練セットについてコンピュータベースの機械学習システムを訓練するステップであって、それによって前記対象が臨床的に重要な1つまたは複数のクラスに属する尤度を決定するための分類器を生成するステップ
を含む方法。
(項目29)
対象における異常な生物学的状況を決定する方法であって、
a)DNA配列を生成するために、前記対象のセルフリーDNAからのセルフリーDNA断片をシークエンシングするステップ、
b)前記対象の種の参照ゲノムの1つまたは複数のゲノム領域の各々に前記DNA配列をマッピングするステップであって、各々のゲノム領域が複数の遺伝子座を含む、ステップ、
c)前記複数の遺伝子座の各々に関して、
(i)前記遺伝子座にマッピングするDNA配列、(ii)前記遺伝子座で開始するDNA配列、および(iii)前記遺伝子座で終止するDNA配列
から選択される少なくとも1つの特色の定量的測定値を示す値を含むデータセットを提供するステップ、ならびに
d)前記データセットに基づいて、前記異常な生物学的状況の尤度を決定するステップ
を含む方法。
(項目30)
対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、
(a)コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーDNAからの前記DNA断片の分布を構築するステップ、ならびに
(b)1つまたは複数の遺伝子座の各々に関して、コンピュータによって、(1)前記1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護を有する前記DNA断片の数、および(2)前記遺伝子座に関連するモノヌクレオソーム保護を有する前記DNA断片の数の比率、またはその逆を示す定量的測定値を計算するステップ、ならびに
(c)前記1つまたは複数の遺伝子座の各々に関する前記定量的測定値を使用して、前記対象における前記1つまたは複数の遺伝子座における前記遺伝子異常の存在または非存在を示す前記出力を決定するステップ
を含む方法。
(項目31)
対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、
(a)コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーDNAからの前記DNA断片の分布を構築するステップ、ならびに
(b)前記対象における前記遺伝子異常の存在または非存在を示す前記出力を決定するために、前記分布を使用するステップであって、前記存在または非存在が、(i)前記DNA断片の前記分布を、前記対象のゲノムに対して外部の起源からの参照分布と比較することなく、(ii)前記DNA断片の前記分布に由来するパラメータを参照パラメータと比較することなく、および(iii)前記DNA断片の前記分布を、前記対象の対照からの参照分布と比較することなく、決定される、ステップ
を含む方法。
(項目32)
前記遺伝子異常が、コピー数多様性(CNV)または一塩基バリアント(SNV)を含む、項目31に記載の方法。
(項目33)
対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片の分布をデコンボリューションするためのコンピュータ実行方法であって、
(a)コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーDNAからの前記DNA断片のカバレッジの分布を構築するステップ、ならびに
(b)1つまたは複数の遺伝子座の各々に関して、コンピュータによって、前記カバレッジの前記分布をデコンボリューションするステップであって、それによってコピー数(CN)構成要素、細胞クリアランス構成要素、および遺伝子発現構成要素からなる群から選択される1つまたは複数のメンバーに関連する分画寄与度を生成するステップ
を含む方法。
(項目34)
前記分画寄与度の一部に少なくとも基づいて遺伝子異常の存在または非存在を示す出力を生成するステップをさらに含む、項目33に記載の方法。
(項目35)
対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、
(a)コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーDNAからの前記DNA断片の分布を構築するステップ、
(b)コンピュータによって、前記DNA断片の前記分布における前記複数の塩基位置のうちの1つまたは複数の塩基位置で1つまたは複数のピークを同定するステップであって、各々のピークがピーク値およびピーク分布幅を含むステップ、ならびに
(c)コンピュータによって、(i)前記1つまたは複数の塩基位置、(ii)前記ピーク値、および(iii)前記ピーク分布幅に少なくとも基づいて、前記対象における前記遺伝子異常の前記存在または非存在を決定するステップ
を含む方法。
(項目36)
前記1つまたは複数のピークが、ジヌクレオソームピークまたはモノヌクレオソームピークを含む、項目35に記載の方法。
(項目37)
前記遺伝子異常の存在または非存在を示す前記出力が、前記ジヌクレオソームピークに関連する第1のピーク値と、前記モノヌクレオソームピークに関連する第2のピーク値の比率、またはその逆を示す定量的測定値に少なくとも基づいて決定される、項目36に記載の方法。
(項目38)
対象から得たセルフリーDNAからのデオキシリボ核酸(DNA)断片における遺伝子異常の存在または非存在を示す出力を生成するためのコンピュータ実行方法であって、
(a)コンピュータによって、ゲノムの複数の塩基位置での前記セルフリーDNAからの前記DNA断片の分布を構築するステップ、
(b)コンピュータによって、1つまたは複数の遺伝子座での前記DNA断片の前記分布を解析するステップであって、前記DNA断片の前記分布と、(i)健康な対照の1つまたは複数のコホートに関連する1つまたは複数の健康参照分布、および(ii)疾患を有する対象の1つまたは複数のコホートに関連する1つまたは複数の疾患参照分布から選択される複数の参照分布との間の逸脱を検出することを含むステップ、ならびに
(c)コンピュータによって、(b)において検出された前記逸脱に少なくとも基づいて、前記対象における前記遺伝子異常の存在または非存在を示す前記出力を決定するステップ
を含む方法。
(項目39)
解析するステップが、1つまたは複数のデルタシグナルを計算することであって、各々のデルタシグナルが、前記DNA断片の前記分布と前記複数の参照分布の参照分布との間の差異を含む、ことを含む、項目38に記載の方法。
(項目40)
対象の生物試料を処理するための方法であって、
(a)前記対象の前記生物試料を得るステップであって、前記生物試料がデオキシリボ核酸(DNA)断片を含む、ステップ、
(b)前記生物試料をアッセイするステップであって、(i)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および(ii)前記遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の存在または非存在を示すシグナルを生成するステップ、ならびに
(c)前記シグナルを使用するステップであって、(i)1つまたは複数の遺伝子座からの遺伝子座に関連するジヌクレオソーム保護、および(ii)前記遺伝子座に関連するモノヌクレオソーム保護を有するDNA断片の前記存在または非存在を示す出力を生成するステップ
を含む方法。
(項目41)
アッセイするステップが、(i)一組の1つもしくは複数の遺伝子座のDNA断片に関して前記生物試料を濃縮するステップ、または(ii)前記生物試料の前記DNA断片をシークエンシングするステップを含む、項目40に記載の方法。
(項目42)
対象に由来するセルフリーDNA断片を含む生物試料を分析するための方法であって、モノヌクレオソーム保護およびジヌクレオソーム保護の各々に対応する同じ遺伝子座からのDNA断片を検出するステップを含む方法。
(項目43)
対象に由来するセルフリーDNA断片を含む生物試料を分析するための方法であって、遺伝子座に関連するジヌクレオソーム保護を有するDNA断片を検出するステップを含む方法。
(項目44)
前記遺伝子座が、ERBB2、TP53、またはNF1を含む、項目43に記載の方法。