特表2024-519975 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ペットディーエックス，インコーポレイテッドの特許一覧

特表2024-519975フラグメントミクスを用いてがんを検出するための方法および組成物

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B-C
3A
3B
3C
4A
4B
5A
5B
6A
6B
7
8A-B
8C-D
9A-B
10A
10B
11A
11B
12
13
14
15
16A-B
16C-D
17
18
19
20
21
22
23A
23B
24A
24B
25
26
27
28
29A
29B
29C
30
31
32
33

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-21

(54)【発明の名称】フラグメントミクスを用いてがんを検出するための方法および組成物

(51)【国際特許分類】

C12Q 1/6851 20180101AFI20240514BHJP

C12Q 1/6886 20180101ALI20240514BHJP

【ＦＩ】

C12Q1/6851 Z

C12Q1/6886

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023572512

(86)(22)【出願日】2022-05-20

(85)【翻訳文提出日】2024-01-22

(86)【国際出願番号】 US2022030301

(87)【国際公開番号】W WO2022246232

(87)【国際公開日】2022-11-24

(31)【優先権主張番号】63/202,006

(32)【優先日】2021-05-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】523439839

【氏名又は名称】ペットディーエックス，インコーポレイテッド

【氏名又は名称原語表記】ＰＥＴＤＸ，ＩＮＣ．

【住所又は居所原語表記】９３１０ＡｔｈｅｎａＣｉｒｃｌｅ，Ｓｕｉｔｅ２００，ＬａＪｏｌｌａ，Ｃａｌｉｆｏｒｎｉａ９２０３７Ｕ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100077012

【弁理士】

【氏名又は名称】岩谷龍

(72)【発明者】

【氏名】クルーグリヤク，クリスティーナ

(72)【発明者】

【氏名】モラス，フランチェスコ

(72)【発明者】

【氏名】ツイ，ワイイ

【テーマコード（参考）】

4B063

【Ｆターム（参考）】

4B063QA01

4B063QA13

4B063QA19

4B063QQ42

4B063QQ52

4B063QR32

4B063QR35

4B063QR62

4B063QS24

4B063QS36

4B063QX01

(57)【要約】

本発明は、がんまたは腫瘍の検出、特性評価および／または管理を目的として、対象由来の試料中のDNA断片の断片サイズ分布を測定するための方法およびキットを提供する。

【特許請求の範囲】

【請求項1】

対象において、がんまたは腫瘍を検出する方法であって、
対象から循環セルフリーDNA（cfDNA）試料を単離する工程；
前記cfDNA試料をシーケンシングして、１つ以上の断片サイズ分布を測定する工程；
前記１つ以上の断片サイズ分布を、１つ以上のコントロール対象から得られた第２の断片サイズ分布と比較する工程；および
前記２つの断片サイズ分布の比較に基づいて、がんまたは腫瘍の有無を判定する工程
を含む方法。

【請求項2】

前記１つ以上のコントロール対象が、前記対象または１つ以上の健常対象を含む、請求項１に記載の方法。

【請求項3】

前記cfDNA試料のシーケンシングが、全ゲノムシーケンシングまたは次世代シーケンシングである、請求項１に記載の方法。

【請求項4】

前記１つ以上の断片サイズ分布のモデルを作成する工程をさらに含む、請求項１に記載の方法。

【請求項5】

前記１つ以上の断片サイズ分布のモデルが統計モデルである、請求項５に記載の方法。

【請求項6】

前記１つ以上の断片サイズ分布のモデルが、前記１つ以上の断片サイズ分布から抽出された１つ以上の特徴量から得られる、請求項４に記載の方法。

【請求項7】

前記１つ以上の特徴量が、中央値、平均値、曲線下面積（AUC）、振動の振幅、分散、標準偏差、断片長の区間またはこれらの組み合わせを含む、請求項６に記載の方法。

【請求項8】

前記１つ以上の特徴量に基づいて、前記試料を腫瘍または正常として分類する工程をさらに含む、請求項６に記載の方法。

【請求項9】

第２の断片サイズ分布のモデルが、混合分布モデルである、請求項１に記載の方法。

【請求項10】

前記１つ以上の断片サイズ分布と第２の断片サイズ分布の比較が、距離または類似性の測定により行われる、請求項１に記載の方法。

【請求項11】

前記距離または類似性の測定がKLダイバージェンスである、請求項１０に記載の方法。

【請求項12】

前記１つ以上の断片サイズ分布が、前記試料中のcfDNA断片の長さまたは配列の少なくとも一方から計算される、請求項１に記載の方法。

【請求項13】

第２の断片サイズ分布が、ベースラインの断片サイズ分布である、請求項１に記載の方法。

【請求項14】

前記対象が哺乳動物である、請求項１に記載の方法。

【請求項15】

前記対象が、イヌ、ネコ、ウマまたはヒトである、請求項１４に記載の方法。

【請求項16】

前記cfDNA試料が、前記対象の血液から単離されたものである、請求項１に記載の方法。

【請求項17】

前記対象の血液が、循環腫瘍DNA（ctDNA）をさらに含む、請求項１６に記載の方法。

【請求項18】

前記単離されたcfDNAにアダプターをライゲートし、該アダプターを標的とするユニバーサルプライマーを使用することによって、増幅された断片を作製する工程をさらに含む、請求項１に記載の方法。

【請求項19】

前記１つ以上の断片サイズ分布の測定が、全ゲノムシーケンシングまたは次世代シーケンシングを用いて、増幅された断片サイズの数および分布を測定することによって行われる、請求項１８に記載の方法。

【請求項20】

前記１つ以上の断片サイズ分布と第２の断片サイズ分布の比較が、前記増幅された断片サイズの数および分布を、前記対象または１つ以上の健常対象と比較することによって行われ、この比較結果から、前記対象の前記増幅された断片サイズの数および分布が、前記１つ以上の健常対象の増幅された断片サイズの数および分布と異なるかどうかが判断される、請求項１８に記載の方法。

【請求項21】

前記ユニバーサルプライマーが、配列特異的なプライマーをさらに含む、請求項１８に記載の方法。

【請求項22】

前記対象の１つ以上の断片サイズ分布と前記１つ以上の健常対象の第２の断片サイズ分布との間に統計的有意差があることから、がんまたは腫瘍が存在することが示される、請求項１に記載の方法。

【請求項23】

前記対象の１つ以上の断片サイズ分布と前記１つ以上の健常対象の第２の断片サイズ分布との間に統計的有意差がないことから、がんまたは腫瘍が存在しないことが示される、請求項１に記載の方法。

【請求項24】

前記がんが血液がんである、請求項１に記載の方法。

【請求項25】

前記がんがリンパ腫である、請求項１に記載の方法。

【請求項26】

がん陽性シグナルが検出された対象において、がんシグナルの起源（CSO）を予測する方法であって、
対象から循環セルフリーDNA（cfDNA）試料を単離する工程；
前記cfDNA試料をシーケンシングして、断片サイズ分布とコピー数プロファイルを測定する工程；
前記コピー数プロファイルからがん陽性シグナルを検出する工程；
コピー数増加領域および／またはコピー数減少領域の断片サイズ分布を、コントロールコピー数領域の断片サイズ分布と比較するか、コピー数増加領域の断片サイズ分布とコピー数減少領域の断片サイズ分布を比較する工程；ならびに
前記コピー数増加領域および／または前記コピー数減少領域の断片サイズ分布と前記コントロールコピー数領域の断片サイズ分布の間の差に基づいて、またはこれらの断片サイズ分布の間に差がないことに基づいて、がんシグナルの起源（CSO）を予測する工程
を含む方法。

【請求項27】

前記コピー数増加領域および／または前記コピー数減少領域の断片サイズ分布と前記コントロールコピー数領域の断片サイズ分布の間に差がないことから、血液がんであることが予測される、請求項２６に記載の方法。

【請求項28】

対象において、がんまたは腫瘍を検出する方法であって、
対象から循環セルフリーDNA（cfDNA）試料を単離する工程；
前記cfDNA試料をシーケンシングして、１つ以上の断片サイズ分布を測定する工程；
前記１つ以上の断片サイズ分布の実験モデルを作成する工程；
前記１つ以上の断片サイズ分布を、前記対象または１つ以上のコントロール対象から得られた第２の断片サイズ分布と比較する工程；および
前記２つの断片サイズ分布の比較に基づいて、がんまたは腫瘍の有無を判定する工程
を含む方法。

【請求項29】

前記１つ以上のコントロール対象が、前記対象または１つ以上の健常対象を含む、請求項２８に記載の方法。

【請求項30】

前記１つ以上の断片サイズ分布の実験モデルが統計モデルである、請求項２８に記載の方法。

【請求項31】

前記１つ以上の断片サイズ分布の実験モデルが、前記１つ以上の断片サイズ分布から抽出された１つ以上の特徴量から得られる、請求項２８に記載の方法。

【請求項32】

前記１つ以上の特徴量が、中央値、平均値、曲線下面積（AUC）、振動の振幅、分散、標準偏差、断片長の区間またはこれらの組み合わせを含む、請求項３１に記載の方法。

【請求項33】

前記cfDNA試料から得られた前記実験モデルを、がんも腫瘍も有していないことが判明している個体のコントロールcfDNA試料から得られたコントロールモデルと比較する工程をさらに含む、請求項２８に記載の方法。

【請求項34】

前記実験モデルを前記コントロールモデルと比較することによって、前記対象ががんまたは腫瘍を有する可能性が判定される、請求項３３に記載の方法。

【請求項35】

前記実験モデルの１つ以上の特徴量を前記コントロールモデルの１つ以上の特徴量と比較することによって、前記対象ががんまたは腫瘍を有する可能性が判定される、請求項３３に記載の方法。

【請求項36】

前記１つ以上の断片サイズ分布と少なくとも１つの健常対象の第２の断片サイズ分布の比較が、距離または類似性の測定により行われる、請求項２８に記載の方法。

【請求項37】

前記距離または類似性の測定がKLダイバージェンスである、請求項３６に記載の方法。

【請求項38】

試料において断片サイズ分布を測定する方法であって、
がんに罹患しているか、がんに罹患している疑いがある対象からDNA試料を単離する工程；
前記DNA試料をシーケンシングして、断片サイズ分布を測定する工程；
前記断片サイズ分布から１つ以上の特徴量を測定する工程；および
前記断片サイズ分布の実験モデルを作成する工程
を含む工程。

【請求項39】

前記実験モデルが統計モデルである、請求項３８に記載の方法。

【請求項40】

前記実験モデルが前記１つ以上の特徴量から得られる、請求項３８に記載の方法。

【請求項41】

前記１つ以上の特徴量が、中央値、平均値、曲線下面積（AUC）、振動の振幅、分散、標準偏差、断片長の区間またはこれらの組み合わせを含む、請求項３８に記載の方法。

【請求項42】

前記１つ以上の特徴量に基づいて、前記試料を腫瘍試料または正常試料として同定する工程をさらに含む、請求項３８に記載の方法。

【請求項43】

前記断片サイズ分布が、前記試料中のDNA断片の長さまたは配列の少なくとも一方から計算される、請求項３８に記載の方法。

【請求項44】

前記DNA試料がセルフリーDNA（cfDNA）試料である、請求項３８に記載の方法。

【請求項45】

前記DNA試料が、前記対象の血液から単離されたものである、請求項３８に記載の方法。

【請求項46】

前記血液が、循環腫瘍DNA（ctDNA）をさらに含む、請求項４５に記載の方法。

【請求項47】

前記シーケンシングが、全ゲノムシーケンシングまたは次世代シーケンシングを含む、請求項３８に記載の方法。

【請求項48】

前記単離されたDNAにアダプターをライゲートし、該アダプターを標的とするユニバーサルプライマーを使用することによって、増幅された断片を作製する工程をさらに含む、請求項３８に記載の方法。

【請求項49】

前記１つ以上の断片サイズ分布の測定が、全ゲノムシーケンシングまたは次世代シーケンシングを用いて、増幅された断片サイズの数および分布を測定することによって行われる、請求項４８に記載の方法。

【請求項50】

前記ユニバーサルプライマーが、配列特異的なプライマーをさらに含む、請求項４８に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、試料中のDNA断片の断片サイズ分布を分析することによって、対象においてがんまたは腫瘍の検出、特性評価または管理を行う方法に関する。

【背景技術】

【0002】

獣医学が向上し続けていることから、イヌやネコなどの愛玩動物の寿命が延び続けている。一方で、愛玩動物の寿命の延長によって、がんが高率に見られるようになった。一部の推計によれば、10歳を超えたイヌの50%以上は、がんに関連する健康問題により死亡することが示されている。ネコでも様々な種類のがんが発症する。これらの動物において最もよく見られるがんとして、リンパ腫、扁平上皮癌（皮膚がん）、乳がん、肥満細胞腫、口腔腫瘍、線維肉腫（軟部組織がん）、骨肉腫（骨がん）、呼吸器癌、腸腺癌、および膵臓／肝腺癌が挙げられる。

【0003】

特定の品種のネコは、別の品種のネコよりも特定のがんに罹患しやすい。徴候および症状は、がんの種類およびステージに応じて様々に異なる。残念ながら、このようながんの検出および診断は困難であることが多く、正確な診断を下すためには、通常、侵襲性の生検を行う必要がある。

【0004】

イヌでも同様の状況がある。特定の品種のイヌは、特定の種類のがんに罹患しやすいことが知られている（Rafalko、BIORXIV、2022）。例えば、大型犬は骨肉腫に罹患しやすい。特に、ジャーマンシェパード、ゴールデンレトリーバー、ラブラドルレトリーバー、イングリッシュポインター、ボクサー、イングリッシュセッター、グレートデーン、プードルおよびシベリアンハスキーは、血管肉腫（HSA）に罹患しやすい。血管肉腫は、小型の犬種よりも大型の犬種に発症しやすい傾向がある。

【0005】

現在のがんの診断方法には、イメージング、放射性標識および生検がある。リキッドバイオプシーは、侵襲性の生検でしか得ることのできない診断情報を得ることができる。リキッドバイオプシーの第１適応は、性差、遺伝子多型、変異などの遺伝マーカーの検出に基づく。非侵襲性の出生前診断は、胎児の染色体異数性のスクリーニングに世界中で使用されており、羊水穿刺などによる侵襲性の出生前診断の件数の大幅な減少に寄与している。臓器移植患者に行われるリキッドバイオプシーは、移植片機能不全のモニターに使用されている。がんのリキッドバイオプシーは、標的治療の選択や、がんの進行のモニタリングに使用されている。しかし、がんまたは腫瘍の検出のための、生検を利用した現在利用可能な技術は、比較的費用が高く、簡便に行うことはできない。

【発明の概要】

【課題を解決するための手段】

【0006】

本明細書では、対象から得た試料から得られたDNAの断片サイズ分布を測定するための方法および組成物について述べる。いくつかの実施形態において、この組成物および方法は、対象におけるがんの検出、診断およびスクリーニングに用いられる。

【0007】

【0008】

いくつかの実施形態において、前記対象は哺乳動物である。いくつかの実施形態において、前記対象は、イヌ、ネコ、ウマまたはヒトである。いくつかの実施形態において、前記cfDNA試料は、前記対象の血液から単離されたものである。いくつかの実施形態において、前記対象の血液は、循環腫瘍DNA（ctDNA）をさらに含む。いくつかの実施形態において、前記がんは血液がんである。いくつかの実施形態において、前記がんはリンパ腫である。

【0009】

いくつかの実施形態において、前記方法は、前記１つ以上の断片サイズ分布のモデルを作成する工程をさらに含む。いくつかの実施形態において、前記１つ以上の断片サイズ分布のモデルは統計モデルである。いくつかの実施形態において、前記１つ以上の断片サイズ分布のモデルは、前記１つ以上の断片サイズ分布から抽出された１つ以上の特徴量から得られる。いくつかの実施形態において、前記１つ以上の特徴量は、中央値、平均値、曲線下面積（AUC）、振動の振幅、分散、標準偏差、断片長の区間またはこれらの組み合わせを含む。

【0010】

いくつかの実施形態において、前記方法は、前記１つ以上の特徴量に基づいて、前記試料を腫瘍または正常として分類する工程をさらに含む。いくつかの実施形態において、第２の断片サイズ分布のモデルは統計モデルである。いくつかの実施形態において、前記１つ以上の断片サイズ分布と第２の断片サイズ分布の比較は、KLダイバージェンスにより行われる。いくつかの実施形態において、前記１つ以上の断片サイズ分布は、前記試料中のcfDNA断片の長さまたは配列の少なくとも一方から計算される。いくつかの実施形態において、第２の断片サイズ分布は、ベースラインの断片サイズ分布である。

【0011】

いくつかの実施形態において、前記方法は、前記単離されたcfDNAにアダプターをライゲートし、該アダプターを標的とするユニバーサルプライマーを使用することによって、増幅された断片を作製する工程をさらに含む。いくつかの実施形態において、前記１つ以上の断片サイズ分布は、全ゲノムシーケンシングまたは次世代シーケンシングを用いて、増幅された断片サイズの数および分布を測定することによって測定される。いくつかの実施形態において、前記１つ以上の断片サイズ分布と第２の断片サイズ分布の比較は、前記増幅された断片サイズの数および分布を、１つ以上の健常対象と比較することによって行われ、この比較結果から、前記対象の前記増幅された断片サイズの数および分布が、前記１つ以上の健常対象の増幅された断片サイズの数および分布と異なるかどうかが判断される。いくつかの実施形態において、前記ユニバーサルプライマーは、配列特異的なプライマーをさらに含む。いくつかの実施形態において、前記対象の１つ以上の断片サイズ分布と前記１つ以上の健常対象の第２の断片サイズ分布との間に統計的有意差があることから、がんまたは腫瘍が存在することが示される。いくつかの実施形態において、前記対象の１つ以上の断片サイズ分布と前記１つ以上の健常対象の第２の断片サイズ分布との間に統計的有意差がないことから、がんまたは腫瘍が存在しないことが示される。

【0012】

本明細書で提供されるいくつかの実施形態は、がん陽性シグナルが検出された対象において、がんシグナルの起源（CSO）を予測する方法に関する。いくつかの実施形態において、この方法は、
対象から循環セルフリーDNA（cfDNA）試料を単離する工程；
前記cfDNA試料をシーケンシングして、断片サイズ分布とコピー数プロファイルを測定する工程；
前記コピー数プロファイルからがん陽性シグナルを検出する工程；
コピー数増加領域および／またはコピー数減少領域の断片サイズ分布を、コントロールコピー数領域の断片サイズ分布と比較する工程；ならびに
前記コピー数増加領域および／または前記コピー数減少領域の断片サイズ分布と前記コントロールコピー数領域の断片サイズ分布の間の差に基づいて、またはこれらの断片サイズ分布の間に差がないことに基づいて、がんシグナルの起源（CSO）を予測する工程
を含む。
いくつかの実施形態において、前記コピー数増加領域および／または前記コピー数減少領域の断片サイズ分布と前記コントロールコピー数領域の断片サイズ分布の間に差がないことから、血液がんであることが予測される。

【0013】

本明細書で提供されるいくつかの実施形態は、対象において、がんまたは腫瘍を検出する方法に関する。いくつかの実施形態において、この方法は、
対象から循環セルフリーDNA（cfDNA）試料を単離する工程；
前記cfDNA試料をシーケンシングして、１つ以上の断片サイズ分布を測定する工程；
前記１つ以上の断片サイズ分布の実験モデルを作成する工程；
前記１つ以上の断片サイズ分布を、１つ以上のコントロール対象から得られた第２の断片サイズ分布と比較する工程；および
前記２つの断片サイズ分布の比較に基づいて、がんまたは腫瘍の有無を判定する工程
を含む。
いくつかの実施形態において、前記１つ以上のコントロール対象は、前記対象または１つ以上の健常対象を含む。いくつかの実施形態において、前記１つ以上の断片サイズ分布の実験モデルは統計モデルである。いくつかの実施形態において、前記１つ以上の断片サイズ分布の実験モデルは、前記１つ以上の断片サイズ分布から抽出された１つ以上の特徴量から得られる。いくつかの実施形態において、前記１つ以上の特徴量は、平均値、曲線下面積（AUC）、振動の振幅、標準偏差、断片長の区間またはこれらの組み合わせを含む。

【0014】

いくつかの実施形態において、前記方法は、前記cfDNA試料から得られた前記実験モデルを、がんも腫瘍も有していないことが判明している個体のコントロールcfDNA試料から得られたコントロールモデルと比較する工程をさらに含む。いくつかの実施形態において、前記実験モデルを前記コントロールモデルと比較することによって、前記対象ががんまたは腫瘍を有する可能性が判定される。いくつかの実施形態において、前記実験モデルの１つ以上の特徴量を前記コントロールモデルの１つ以上の特徴量と比較することによって、前記対象ががんまたは腫瘍を有する可能性が判定される。いくつかの実施形態において、前記１つ以上の断片サイズ分布と少なくとも１つの健常対象の第２の断片サイズ分布の比較は、KLダイバージェンスにより行われる。

【0015】

本明細書で提供されるいくつかの実施形態は、試料において断片サイズ分布を測定する方法に関する。いくつかの実施形態において、この方法は、
対象からDNA試料を単離する工程；
前記DNA試料をシーケンシングして、断片サイズ分布を測定する工程；
前記断片サイズ分布から１つ以上の特徴量を測定する工程；および
前記断片サイズ分布の実験モデルを作成する工程
を含む。
いくつかの実施形態において、前記対象は、がんに罹患しているか、がんに罹患している疑いがある対象である。いくつかの実施形態において、前記実験モデルは統計モデルである。いくつかの実施形態において、前記実験モデルは、前記１つ以上の特徴量から得られる。いくつかの実施形態において、前記１つ以上の特徴量は、平均値、曲線下面積（AUC）、振動の振幅、標準偏差、断片長の区間またはこれらの組み合わせを含む。

【0016】

いくつかの実施形態において、前記方法は、前記１つ以上の特徴量に基づいて、前記試料を腫瘍試料または正常試料として同定する工程をさらに含む。いくつかの実施形態において、前記断片サイズ分布は、前記試料中のDNA断片の長さまたは配列の少なくとも一方から計算される。いくつかの実施形態において、前記DNA試料はセルフリーDNA（cfDNA）試料である。いくつかの実施形態において、前記DNA試料は、前記対象の血液から単離されたものである。いくつかの実施形態において、前記血液は、循環腫瘍DNA（ctDNA）をさらに含む。いくつかの実施形態において、前記シーケンシングは、全ゲノムシーケンシングまたは次世代シーケンシングを含む。いくつかの実施形態において、前記方法は、前記単離されたDNAにアダプターをライゲートし、該アダプターを標的とするユニバーサルプライマーを使用することによって、増幅された断片を作製する工程をさらに含む。いくつかの実施形態において、前記１つ以上の断片サイズ分布は、全ゲノムシーケンシングまたは次世代シーケンシングを用いて、増幅された断片サイズの数および分布を測定することによって測定される。いくつかの実施形態において、前記ユニバーサルプライマーは、配列特異的なプライマーをさらに含む。

【図面の簡単な説明】

【0017】

【図1】正常な健常対象から採取したcfDNA試料中における特定の断片長を有するcfDNAの平均密度の代表的なプロファイルを示す線グラフである。

【0018】

【図2A-2C】断片サイズ分布を、負の二項混合モデル（図2A）、ガウス混合モデル（図2B）および単純混合モデル（図2C）に変換した代表的な線グラフを示す。各グラフにおいて、灰色の線は試料であり、黒色の線は試料のモデルフィットである。図2Cでは、灰色の線は試料であり、丸印は、同定された各ピークの位置と高さを示す。

【0019】

【図3A-3C】反転したデータの負の二項混合モデル（図3A）、ガウス混合モデル（図3B）および単純混合モデル（図3C）を用いた最頻値の分布を示した代表的な点グラフを示す。正常試料は、ベースライン測定から得られたもの（丸印）、または試験測定（本明細書では「試験－正常」と呼ぶ）の試料から得られたもの（三角形）である。「最頻値３」は、各グラフにおいて使用したスケーリングを示し、最頻値が大きいほど、大きな丸形または三角形で示している。

【0020】

【図4A-4B】反転したデータの負の二項混合モデル（図4A）およびガウス混合モデル（図4B）を用いた重みの分布を示した代表的な点グラフを示す。正常試料は、ベースライン測定から得られたもの（丸印）、または試験測定（本明細書では「試験－正常」と呼ぶ）の試料から得られたもの（三角形）である。「重み」は、混合分布モデルの各成分（各ヌクレオソームのピーク）の割合である。「重み３」は、各グラフにおいて使用したスケーリングを示し、重みが大きいほど、大きな丸形または三角形で示している。

【0021】

【図5A-5B】反転したデータの負の二項混合モデル（図5A）またはガウス混合モデル（図5B）を用いた尺度の分布を示した代表的な点グラフを示す。正常試料は、ベースライン測定から得られたもの（丸印）、または試験測定（本明細書では「試験－正常」と呼ぶ）の試料から得られたもの（三角形）である。反転したデータの負の二項混合モデルの「尺度」は、過分散であり、すなわち、小さな値が大きな分散を引き起こす。「尺度３」は、各グラフにおいて使用したスケーリングを示し、尺度が大きいほど、大きな丸形または三角形で示している。

【0022】

【図6A-6B】反転したデータの負の二項混合モデル（図6A）またはガウス混合モデル（図6B）を用いた主成分分析（PCA）を示した代表的な点グラフを示す。正常試料は、ベースライン測定から得られたもの（丸印）、または試験測定（本明細書では「試験－正常」と呼ぶ）の試料から得られたもの（三角形）である。抽出された特徴量は、試験ごとに試料を区別していない。ほぼすべての変動が１つの主成分において捕捉される。「PC3」は、各グラフにおいて使用したスケーリングを示し、主成分値が大きいほど、大きな丸形または三角形で示している。

【0023】

【図7】バッチ１、バッチ２およびバッチ３のPC値を比較した正規化断片長データのPCAプロットを示す点グラフである。「PC3」は、各グラフにおいて使用したスケーリングを示し、主成分値が大きいほど、大きな丸形で示している。

【0024】

【図8A-8D】バッチ１、バッチ２およびバッチ３のすべての試料（図8A）、非正常試料（図8B）、正常試料（図8C）およびベースライン試料（図8D）のPC値をそれぞれバッチごとにプロットした箱ひげ図を示す。ベースライン試料は、本明細書に開示する正常試料のサブセットである。

【0025】

【図9A-9B】正常対象（図9A）およびベースラインの正常対象（図9B）から得られたバッチ１、バッチ２およびバッチ３のcfDNA試料における特定の断片長を有するcfDNAの密度のプロファイルを示した代表的な線グラフを示す。

【0026】

【図10A-10B】バッチ１～３のすべての正常試料を合わせたもの（図10A）と、正常試料を合わせた際のベースラインの正常試料のみ（図10B）の一連の初期統計量を用いてピークの割合を比較した代表的な点グラフを示す。「ピーク３」は、各グラフにおいて使用したスケーリングを示し、ピークが大きいほど、大きな丸形で示している。

【0027】

【図11A-11B】バッチ１、バッチ２およびバッチ３における振動値（図11A）およびAUC値（図11B）をプロットした代表的な点グラフを示す。ベースライン群、非正常群および正常群で分けて示した。

【0028】

【図12】バッチ１、バッチ２およびバッチ３における対象の年齢分布をバッチごとに示した箱ひげ図を示す。

【0029】

【図13】ベースライン群と正常群と腫瘍群に分けて示した各試料のKLダイバージェンス値の点グラフである。

【0030】

【図14】正常群と腫瘍群に分けて示したバッチ４～７およびバッチ12の各試料のKLダイバージェンス値の点グラフである。

【0031】

【図15】ガウス混合モデルから抽出された特徴量（平均値、AUC、振動および標準偏差）の間の相関性を示すグラフである。これらの分布のパラメータはマルコフ連鎖モンテカルロ法により推定した。平均値、SDおよび重みは、すべての試料の混合分布モデルから得られたものである。短い断片のAUCは、各試料の第１の最頻値に対するAUCである。振動は、ベースライン試料において同定したピーク値と谷値から計算した。

【0032】

【図16A-16D】確率的方法により各閾値に対する正確度、感度、特異度、陽性的中率（PPV）およびF-1スコアの分布を計算し、特異度（図16A）、F-1スコア（図16B）、PPVスコア（図16C）および感度（図16D）のそれぞれに対して最適化した分布を示す。

【0033】

【図17】平均正常試料の正規化したカウントと平均腫瘍試料の正規化したカウントの間での断片長の差異のプロファイルを示す。

【0034】

【図18】バッチ１～３の正常試料または腫瘍試料の特定の断片長のcfDNAの平均正規化カウントのプロファイルを示す。

【0035】

【図19】バッチ１～３のすべての試料のPCA分析と、正常試料の二次元密度等高線を示す。「PC3」は、このグラフにおいて使用したスケーリングを示し、主成分値が大きいほど、大きな丸形で示している。

【0036】

【図20】ベースライン試料、正常試料および腫瘍試料の平均値から求めたKLダイバージェンス値のドットプロットを示す。

【0037】

【図21】ベースライン混合分布モデルから２つの外れ値試料を除外した後の、ベースライン試料、正常試料および腫瘍試料の平均値から求めたKLダイバージェンス値のドットプロットを示す。

【0038】

【図22】腫瘍細胞含有割合の数値の関数として腫瘍細胞含有割合の事前分布をプロットしたグラフを示す。

【0039】

【図23A】健康なcfDNA試料と混合した試料201-20885において、腫瘍細胞含有割合の期待値に対して腫瘍細胞含有割合の推定値をプロットしたグラフを示す。

【0040】

【図23B】健康なcfDNA試料と混合した試料201-00316において、腫瘍細胞含有割合の期待値に対して腫瘍細胞含有割合の推定値をプロットしたグラフを示す。

【0041】

【図24A】健康なcfDNA試料と混合した試料201-00015において、腫瘍細胞含有割合の期待値に対して腫瘍細胞含有割合の推定値をプロットしたグラフを示す。

【0042】

【図24B】健康なcfDNA試料と混合した試料301-30640において、腫瘍細胞含有割合の期待値に対して腫瘍細胞含有割合の推定値をプロットしたグラフを示す。

【0043】

【図25】試料201-00015において、コピー数が減少（loss）、変化なし（neutral）または増加（gain）した染色体の断片長分布を示す。

【0044】

【図26】がんの種類ごとの試料の調整分離値を示す。単一の試料で複数の種類の腫瘍が認められたものや、断片長曲線間の分離が見られなかったにもかかわらず腫瘍細胞含有割合が低かった試料は図示していない。

【0045】

【図27】閾値を選択するためのプロットを示す。135から175までの閾値を１ずつ増加させて試験を実施し、断片長曲線間の分離が最大となる閾値に対して、断片長曲線間の分離を示す生の値をプロットした。

【0046】

【図28】データの平滑化が閾値の選択に与える効果を示す。スプライン平滑化を行った場合とスプライン平滑化を行っていない場合の、選択した試料用閾値の変化として示す。

【0047】

【図29A】３つのコピー数（CN）群すべてを有する選択された試料において、「減少」－「増加」の式で求めた分離値と「変化なし」－「増加」の式で求めた分離値との間の直線関係（左パネル）、または「減少」－「増加」の式で求めた分離値と「減少」－「変化なし」の式で求めた分離値との間の直線関係（右パネル）を示す。リードのカットオフは０とした。

【0048】

【図29B】「減少」－「増加」の式で求めた分離値と「変化なし」－「増加」の式で求めた分離値の間の直線関係における補正した分離値の残差と検討した最小リード数（M）の間の相関性（左パネル）、または「減少」－「増加」の式で求めた分離値と「減少」－「変化なし」の式で求めた分離値の間の直線関係における補正した分離値の残差と検討した最小リード数（M）の間の相関性（右パネル）を示す。リードのカットオフは０とした。

【0049】

【図29C】補正した後の、「減少」－「増加」の式で求めた分離値と「変化なし」－「増加」の式で求めた分離値との間の直線関係（左パネル）、または「減少」－「増加」の式で求めた分離値と「減少」－「変化なし」の式で求めた分離値との間の直線関係（右パネル）を示す。リードのカットオフは200,000とした。

【0050】

【図30】調整値と期待値の差としてプロットした、「減少」－「変化なし」の式および「変化なし」－「増加」の式の調整の正確度を示す。

【0051】

【図31】染色体１本あたりのリード数に対してプロットした試料ごとの染色体１本あたりの平均KL値を示す。

【0052】

【図32】ゲノムワイドな方法においてフラグメントミクスを用いた染色体１本あたりのKLダイバージェンスの変化を示す。実線の水平線は潜在的な閾値を示す。

【0053】

【図33】モデル６を用いてパラメータを学習させた染色体に特異的な双曲線を用いたKLの予測値をKLの真値に対してプロットしたグラフを示す。

【発明を実施するための形態】

【0054】

以下の詳細な説明において、本明細書の一部を構成する添付の図面を参照しながら本発明を説明する。別段の記載がない限り、図面中の類似の記号は、通常、類似の構成要素を示す。詳細な説明、図面および請求項に記載の実施形態は説明を目的としたものであり、本発明をなんら限定するものではない。本明細書に記載の主題の要旨や範囲から逸脱することなく、その他の実施形態を採用してもよく、その他の変更を加えてもよい。本明細書に概説し、図面に示した本開示の態様は、様々な構成で配置、置換、合体、分離および設計できることは容易に理解され、このような態様はいずれも本明細書において明確に想定されている。本明細書において引用された文献はいずれも、本明細書で引用される特定の開示を提示するために本明細書の一部を構成するものとしてその全体が明示的に援用される。

【0055】

本発明の実施形態は、がんまたは腫瘍を有する可能性を対象においてスクリーニングするための方法、システムおよび組成物に関する。いくつかの実施形態において、がんまたは腫瘍のスクリーニングは、
がんまたは腫瘍を有する疑いがある対象（例えばイヌ）から循環セルフリーDNA（cfDNA）試料を単離する工程；
前記試料中のcfDNA断片をシーケンシングする工程；
少なくとも１つのcfDNA断片に基づいてサイズ分布を計算する工程；
断片サイズ分布のモデルまたは要約統計量を作成する工程；
前記断片サイズ分布のモデルを、少なくとも１つの健常対象に由来する第２のモデルと比較する工程；および
前記２つのモデルの比較に基づいて、がんまたは腫瘍の有無を判定する工程
によって行われる。
cfDNAのシーケンシングは、当業者に公知の方法であればどのような方法で行ってもよく、例えば、標的シーケンシングやゲノムワイドシーケンシングなどにより行ってもよい。その他の例として、ナノポアを用いた方法、エマルションを用いた方法、および「sequencing by binding」サイクルシーケンシング法が挙げられるが、これらに限定されない。

【0056】

いくつかの実施形態において、がんまたは腫瘍は、モデル間の比較によってスクリーニングされる。いくつかの実施形態において、これらのモデルは混合分布モデルである。モデルは、少なくとも１つの断片の断片サイズ分布プロファイルに由来するものである。本明細書において、「断片分布」という用語は、当業者によって理解される通常の意味を有し、したがって、cfDNA試料から得られた少なくとも１つのDNA断片の長さ、配列、断片化およびその他の分布特性を指す。「断片サイズ分布」は、断片の長さまたは断片化を含む、断片のサイズに注目した断片分布であると解釈される。本明細書に開示するように、モデルは、がんまたは腫瘍を有する疑いがある対象に対して作成することができ、１つ以上の健常対象に対してモデルを作成することもできる。次に、これらのモデルを互いに比較して、有意差があるかどうかを調べることができる。モデルの例として、要約統計量、ヌクレオソームのピークの数およびその形状、特定の閾値よりも長い断片または短い断片の割合、一定区間の断片の割合、統計的分布を有するデータの近似、およびサポートベクターマシンやニューラルネットワークなどの識別学習法が挙げられるが、これらに限定されない。検出可能な差異の例としては、ピークの位置（最頻値）、ピークの高さ（重み）、ピークの広がり（尺度）、特定の閾値よりも長い断片または短い断片の割合、振動の振幅、断片サイズ分布の全体的な形状、主成分値、および２つのモデル間でのカルバック・ライブラー（KL）ダイバージェンスが挙げられるが、これらに限定されない。いくつかの実施形態では、がんまたは腫瘍を有する疑いがある対象の断片サイズ分布と１つ以上の健常対象の断片サイズ分布との間に統計的有意差があることから、がんまたは腫瘍が存在することが示される。いくつかの実施形態では、がんまたは腫瘍を有する疑いがある対象の断片サイズ分布と１つ以上の健常対象の断片サイズ分布との間に統計的有意差がないことから、がんまたは腫瘍が存在しないことが示される。

【0057】

対象体内のcfDNAの断片サイズ分布を測定する方法として様々なものが存在する。一実施形態において、血液試料は対象から得られるものである。血液から循環セルフリーDNA（cfDNA）が得られる。いくつかの実施形態において、血液試料は循環腫瘍DNA（ctDNA）を含む。cfDNAは、試料中にcfDNAのみが残存するように、試料から血液細胞を除去することによって単離される。いくつかの実施形態では、全ゲノムシーケンシング用のランダムPCRプライマーセットを試料に加えて、試料中の元の断片長を維持したまま断片を増幅する。

【0058】

次に、ポリメラーゼを上記の混合物に加え、プライマーにより各断片の全長を伸長する。増幅された断片には、配列末端が含まれていてもよく、一実施形態において、この配列末端は、次世代シーケンシング（NGS）システムで使用するためにフォーマット化され、断片中のヌクレオチド配列が同定される。

【0059】

本明細書で提供される方法および組成物は、対象、特にヒト、哺乳動物およびその他の種類の対象におけるがんの検出、診断、ステージ分類、スクリーニング、治療および管理を向上させることができる。前述したように、本発明の実施形態は、例えば血液などの体液中を循環するcfDNAの断片分布を同定することを含む。一実施形態において、核酸配列エレメントは、血液中の循環腫瘍DNAにおいて見出される。いくつかの実施形態において、核酸配列エレメントは、唾液または尿中のセルフリーDNAにおいて見出されてもよい。

【0060】

本明細書において、がんまたは腫瘍の測定に関する「検出」は、がんの程度または測定に対応するシグナルまたはそのようなシグナルを発生するのに必要な物質を観察し記録するために用いられる機器の使用を含む。様々な実施形態において、「検出」は、あらゆる適切な方法を含み、具体的には、増幅、シーケンシング、アレイ、蛍光、化学発光、表面プラズモン共鳴、表面弾性波、質量分析、赤外分光法、ラマン分光法、原子間力顕微鏡法、走査トンネル顕微鏡法、電気化学検出法、核磁気共鳴法、量子ドットなどが含まれる。

【0061】

本明細書で提供されるいくつかの実施形態はキットに関する。いくつかの実施形態において、このキットは、対象におけるがんの判定のためキットである。いくつかの実施形態において、このキットは、対象から得られた生体試料中のcfDNAを増幅するための全ゲノムシーケンシングプライマーと、このプライマーを増幅するためのポリメラーゼとを含む。

【0062】

本明細書に記載の分析は、対象の全般的な健康状態の診断に用いられる幅広い診断検査一式の一部であってもよいと解釈すべきである。例えば、対象におけるcfDNAの断片サイズ分布の分析は、がんの検出、診断、ステージ分類、スクリーニング、モニタリング、治療および管理のためのその他の方法（追加の遺伝的分散分析など）と同時に行ってもよく、このようなその他の方法と連続して行ってもよい。これらの手法は、白血病、扁平上皮癌、ネコ乳がん、肥満細胞腫、膀胱がん、骨肉腫、血管肉腫または対象が罹患する様々なその他のがんなどの、様々ながんの検出に有用である可能性がある。

【0063】

いくつかの実施形態において、前記方法は、がんを有している疑いのある対象から生体試料を得る工程を含む。いくつかの実施形態において、前記試料はリキッドバイオプシー試料であり、例えば、血液試料である。いくつかの実施形態において、前記試料はcfDNAを含む。いくつかの実施形態において、前記試料は、10mL未満の量、例えば、10mL、9mL、8mL、7mL、6mL、5mL、4mL、3mL、2mL、1mL、500μL、250μLもしくは100μL、またはこれらの数値のいずれか２つを上下限とする範囲内の量で提供される。いくつかの実施形態において、前記試料中に含まれるDNAの量は、10μg以下、例えば、10μg、5μg、1μg、500ng、100ng、50ng、10ng、5ng、1ng、500pg、100pg、50pg、10pg、9pg、8pg、7 pg、6pg、5pg、4pg、3pg、2pgもしくは1pg、またはこれらの数値のいずれか２つを上下限とする範囲内の量である。いくつかの実施形態において、前記方法は、前記試料からDNAを精製する工程を含む。DNAの精製は、DNA精製技術を用いて行ってもよく、DNA精製技術として、例えば、抽出技術、沈殿、クロマトグラフィー、ビーズを用いた方法、またはDNA精製用の市販のキットが挙げられる。いくつかの実施形態において、前記方法を使用して、断片サイズ分布の１つ以上の特徴量に基づき、がんの種類またはがん組織の起源を予測することができる。

【0064】

用語の定義
別段の定義がない限り、本明細書で使用されているあらゆる技術用語および科学用語は、当技術分野の当業者によって一般に理解される意味を有する。本明細書で引用されたすべての特許、出願、公開出願およびその他の刊行物は、別段の記載がない限り、いずれも引用によりその全体が本明細書に援用される。本明細書に記載の用語に対して複数の定義がある場合、別段の記載がない限り、この節に記載の定義を優先するものとする。

【0065】

本明細書において、「a」または「an」は、１つまたは１つ以上を意味してもよい。

【0066】

本明細書において、「約」という用語は、当業者であれば理解できる通常の意味を有し、したがって、特定の数値が、この数値を決定するために用いられた方法に本質的に付随する誤差の変動または複数の測定間での変動を含むことを示す。

【0067】

本明細書に開示されている寸法および値は、本明細書に記載されている数値に厳密に限定されるとは解釈されない。その代わり、本明細書に記載されている寸法は、特段の記載がない限り、記載されている数値と、その数値付近の機能的に同等な数値範囲の両方を意味することが意図されている。例えば、「20mm」であるとして開示されている寸法は、「約20mm」であることが意図されている。

【0068】

本明細書を通して、別段の記載がない限り、「含む」および「含んでいる」という用語は、本明細書に記載の工程もしくは構成要素または工程群もしくは構成要素群を包含することを意味するが、その他の工程もしくは構成要素または工程群もしくは構成要素群を除外するものではない。「からなる」は、この用語の前に挙げられたもののみを含むことを意味する。したがって、「からなる」という用語は、この用語の前に挙げられた構成要素が必要または必須であることを示し、その他の構成要素は含まれていなくてもよいことを意味する。「実質的に～からなる」は、この用語の前に挙げられた構成要素を含み、これらの構成要素の開示に関連して記載された活性または作用に対して妨害も寄与もしないその他の構成要素も含むことを意味する。したがって、「実質的に～からなる」という用語は、この用語の前に挙げられた構成要素が必要または必須であることを示すが、その他の構成要素は任意であり、この用語の前に挙げられた構成要素の活性または作用に実質的な影響を与えるかどうかに応じて含まれていてもよく、含まれていなくてもよい。

【0069】

本明細書において、「機能」や「機能性」という用語は、本明細書に照らして理解される一般的な通常の意味を有し、生物学的機能、酵素的機能または治療的機能を指す。

【0070】

本明細書において、物質、化合物または材料の「収量」という用語は、本明細書に照らして理解される一般的な通常の意味を有し、その物質、化合物または材料の期待される全体量に対する実際の全体量を指す。例えば、物質、化合物または材料の収量は、期待される全体量の80%、81%、82%、83%、84%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%もしくは100%であるか；約80%、約81%、約82%、約83%、約84%、約85%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、約99%もしくは約100%であるか；少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%もしくは少なくとも100%であるか；少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%もしくは少なくとも約100%であるか；80%以下、81%以下、82%以下、83%以下、84%以下、85%以下、90%以下、91%以下、92%以下、93%以下、94%以下、95%以下、96%以下、97%以下、98%以下、99%以下もしくは100%以下であるか；約80%以下、約81%以下、約82%以下、約83%以下、約84%以下、約85%以下、約90%以下、約91%以下、約92%以下、約93%以下、約94%以下、約95%以下、約96%以下、約97%以下、約98%以下、約99%以下もしくは約100%以下であるか；またはこれらの数値の間のあらゆる小数値を含んでいてもよい。収量は、反応もしくは処理の効率；望ましくない副反応；分解；投入した物質、化合物もしくは材料の品質；または製造工程における所望の物質、化合物もしくは材料の損失の影響を受けることがある。

【0071】

本明細書において、「単離された」という用語は、本明細書に照らして理解される一般的な通常の意味を有し、（１）（天然の状態および／もしくは実験条件において）最初に産生された時点で付随する少なくともいくつかの成分から分離された物質および／もしくは物体、ならびに／または（２）人の手で製造、調製および／もしくは生産された物質および／もしくは物体を指す。単離された物質および／または物体は、最初に付随するその他の成分から、約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、約90%、約95%、約98%、約99%、実質的に100%もしくは100%の割合、おおよそこれらの割合、少なくともこれらの割合、少なくともおおよそこれらの割合、これらの割合以下、またはおおよそこれらの割合以下（またはこれらの数値を含む範囲および／もしくはこれらの数値を上下限とする範囲）で分離されたものであってもよい。いくつかの実施形態において、単離された物質の純度は、約80%、約85%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、約99%、実質的に100%もしくは100%の純度、おおよそこれらの純度、少なくともこれらの純度、少なくともおおよそこれらの純度、これらの純度以下、またはおおよそこれらの純度以下（またはこれらの数値を含む範囲の純度および／もしくはこれらの数値を上下限とする範囲の純度）である。本明細書において、「単離された」物質は、「純粋なもの」であってもよい（例えば、その他の成分が実質的に含まれていなくてもよい）。本明細書において、「単離された細胞」は、多数の細胞からなる生物または組織から分離された細胞を指してもよい。

【0072】

本明細書において、「インビボ」は、本明細書に照らして理解される一般的な通常の意味を有し、組織抽出物や死んだ生物ではなく、生きた生物の体内、通常は動物、ヒトなどの哺乳動物または植物の体内、またはこれらの生きた生物を構成する生きた細胞において特定の方法を実施することを指す。

【0073】

本明細書において、「エクスビボ」は、本明細書に照らして理解される一般的な通常の意味を有し、天然の状態にわずかな変更を加えて生きた生物の体外において特定の方法を実施することを指す。

【0074】

本明細書において、「インビトロ」は、本明細書に照らして理解される一般的な通常の意味を有し、生物学的条件から外れて、例えば、ペトリディッシュや試験管などにおいて特定の方法を実施することを指す。

【0075】

本明細書において、「核酸」、「核酸分子」または「ヌクレオチド」は、ポリヌクレオチドまたはオリゴヌクレオチドを指し、例えば、デオキシリボ核酸（DNA）またはリボ核酸（RNA）、オリゴヌクレオチド、ポリメラーゼ連鎖反応（PCR）により得られた断片、ならびにライゲーション、切断、エンドヌクレアーゼ作用、エキソヌクレアーゼ作用および合成のいずれかにより得られた断片などが挙げられる。核酸分子は、天然のヌクレオチドモノマー（DNAやRNAなど）、もしくは天然のヌクレオチドの類似体（例えば、天然のヌクレオチドのエナンチオマー）、またはこれらの組み合わせから構成されていてもよい。修飾ヌクレオチドは、糖部分および／またはピリミジン塩基部分もしくはプリン塩基部分に修飾を有していてもよい。糖部分の修飾としては、例えば、ハロゲン、アルキル基、アミンまたはアジド基による１つ以上のヒドロキシル基の置換が挙げられ、糖部分はエーテル化またはエステル化されていてもよい。さらに、糖部分全体が、立体構造的に類似の構造や電子的に類似の構造と置換されていてもよく、このような構造として、例えば、アザ糖および炭素環式糖類似体が挙げられる。修飾塩基部分としては、アルキル化プリン、アルキル化ピリミジン、アシル化プリン、アシル化ピリミジン、およびその他の公知の複素環置換基が挙げられる。核酸モノマーは、ホスホジエステル結合またはこれと似た結合により連結することができる。ホスホジエステル結合と似た結合としては、ホスホロチオエート結合、ホスホロジチオエート結合、ホスホロセレノエート結合、ホスホロジセレノエート結合、ホスホロアニロチオエート（phosphoroanilothioate）結合、ホスホロアニリデート（phosphoranilidate）結合、ホスホロアミデート結合などが挙げられる。「核酸分子」は、いわゆる「ペプチド核酸」も包含し、これは、ポリアミド主鎖に付加された天然の核酸塩基または修飾核酸塩基を含む。核酸は、一本鎖であってもよく、二本鎖であってもよい。

【0076】

本明細書において、「ペプチド」、「ポリペプチド」および「タンパク質」という用語は、本明細書に照らして理解される一般的な通常の意味を有し、ペプチド結合により連結されたアミノ酸で構成される巨大分子を指す。ペプチド、ポリペプチドおよびタンパク質の機能として数多くのものが当技術分野で知られており、酵素、構造、輸送、防御、ホルモンまたはシグナル伝達といった機能があるが、これらに限定されない。ペプチド、ポリペプチドおよびタンパク質は、核酸鋳型を利用したリボソーム複合体により生物学的に生成されることが多いが、常にこの方法で生成される訳ではなく、化学合成により作製することもできる。核酸鋳型を遺伝子操作することによって、ペプチド、ポリペプチドまたはタンパク質の変異を起こすことができ、このような変異には、置換、欠失、切断、付加、重複、または２個以上のペプチド、ポリペプチドもしくはタンパク質の融合が含まれる。２個以上のペプチド、ポリペプチドまたはタンパク質の融合は、１つの分子内で隣接して連結するように行うことができ、あるいは別のアミノ酸を間に挟んで連結することもでき、この別のアミノ酸としては、例えば、リンカー、反復配列、エピトープもしくはタグ、または1塩基長、2塩基長、3塩基長、4塩基長、5塩基長、6塩基長、7塩基長、8塩基長、9塩基長、10塩基長、11塩基長、12塩基長、13塩基長、14塩基長、15塩基長、16塩基長、17塩基長、18塩基長、19塩基長、20塩基長、25塩基長、30塩基長、35塩基長、40塩基長、45塩基長、50塩基長、55塩基長、60塩基長、65塩基長、70塩基長、75塩基長、80塩基長、85塩基長、90塩基長、95塩基長、100塩基長、150塩基長、200塩基長もしくは300塩基長のその他の配列；約1塩基長、約2塩基長、約3塩基長、約4塩基長、約5塩基長、約6塩基長、約7塩基長、約8塩基長、約9塩基長、約10塩基長、約11塩基長、約12塩基長、約13塩基長、約14塩基長、約15塩基長、約16塩基長、約17塩基長、約18塩基長、約19塩基長、約20塩基長、約25塩基長、約30塩基長、約35塩基長、約40塩基長、約45塩基長、約50塩基長、約55塩基長、約60塩基長、約65塩基長、約70塩基長、約75塩基長、約80塩基長、約85塩基長、約90塩基長、約95塩基長、約100塩基長、約150塩基長、約200塩基長もしくは約300塩基長のその他の配列；少なくとも1塩基長、少なくとも2塩基長、少なくとも3塩基長、少なくとも4塩基長、少なくとも5塩基長、少なくとも6塩基長、少なくとも7塩基長、少なくとも8塩基長、少なくとも9塩基長、少なくとも10塩基長、少なくとも11塩基長、少なくとも12塩基長、少なくとも13塩基長、少なくとも14塩基長、少なくとも15塩基長、少なくとも16塩基長、少なくとも17塩基長、少なくとも18塩基長、少なくとも19塩基長、少なくとも20塩基長、少なくとも25塩基長、少なくとも30塩基長、少なくとも35塩基長、少なくとも40塩基長、少なくとも45塩基長、少なくとも50塩基長、少なくとも55塩基長、少なくとも60塩基長、少なくとも65塩基長、少なくとも70塩基長、少なくとも75塩基長、少なくとも80塩基長、少なくとも85塩基長、少なくとも90塩基長、少なくとも95塩基長、少なくとも100塩基長、少なくとも150塩基長、少なくとも200塩基長もしくは少なくとも300塩基長のその他の配列；少なくとも約1塩基長、少なくとも約2塩基長、少なくとも約3塩基長、少なくとも約4塩基長、少なくとも約5塩基長、少なくとも約6塩基長、少なくとも約7塩基長、少なくとも約8塩基長、少なくとも約9塩基長、少なくとも約10塩基長、少なくとも約11塩基長、少なくとも約12塩基長、少なくとも約13塩基長、少なくとも約14塩基長、少なくとも約15塩基長、少なくとも約16塩基長、少なくとも約17塩基長、少なくとも約18塩基長、少なくとも約19塩基長、少なくとも約20塩基長、少なくとも約25塩基長、少なくとも約30塩基長、少なくとも約35塩基長、少なくとも約40塩基長、少なくとも約45塩基長、少なくとも約50塩基長、少なくとも約55塩基長、少なくとも約60塩基長、少なくとも約65塩基長、少なくとも約70塩基長、少なくとも約75塩基長、少なくとも約80塩基長、少なくとも約85塩基長、少なくとも約90塩基長、少なくとも約95塩基長、少なくとも約100塩基長、少なくとも約150塩基長、少なくとも約200塩基長もしくは少なくとも約300塩基長のその他の配列；1塩基長以下、2塩基長以下、3塩基長以下、4塩基長以下、5塩基長以下、6塩基長以下、7塩基長以下、8塩基長以下、9塩基長以下、10塩基長以下、11塩基長以下、12塩基長以下、13塩基長以下、14塩基長以下、15塩基長以下、16塩基長以下、17塩基長以下、18塩基長以下、19塩基長以下、20塩基長以下、25塩基長以下、30塩基長以下、35塩基長以下、40塩基長以下、45塩基長以下、50塩基長以下、55塩基長以下、60塩基長以下、65塩基長以下、70塩基長以下、75塩基長以下、80塩基長以下、85塩基長以下、90塩基長以下、95塩基長以下、100塩基長以下、150塩基長以下、200塩基長以下もしくは300塩基長以下のその他の配列；約1塩基長以下、約2塩基長以下、約3塩基長以下、約4塩基長以下、約5塩基長以下、約6塩基長以下、約7塩基長以下、約8塩基長以下、約9塩基長以下、約10塩基長以下、約11塩基長以下、約12塩基長以下、約13塩基長以下、約14塩基長以下、約15塩基長以下、約16塩基長以下、約17塩基長以下、約18塩基長以下、約19塩基長以下、約20塩基長以下、約25塩基長以下、約30塩基長以下、約35塩基長以下、約40塩基長以下、約45塩基長以下、約50塩基長以下、約55塩基長以下、約60塩基長以下、約65塩基長以下、約70塩基長以下、約75塩基長以下、約80塩基長以下、約85塩基長以下、約90塩基長以下、約95塩基長以下、約100塩基長以下、約150塩基長以下、約200塩基長以下もしくは約300塩基長以下のその他の配列；もしくはこれらの長さのいずれか２つを上下限とする範囲内の長さのその他の配列が挙げられる。本明細書において、ポリペプチド上での「下流」という用語は、本明細書に照らして理解される一般的な通常の意味を有し、前の配列のＣ末端に続く配列を指す。本明細書において、ポリペプチド上での「上流」という用語は、本明細書に照らして理解される一般的な通常の意味を有し、後ろの配列のＮ末端の前にある配列を指す。

【0077】

「DNA断片」および「核酸断片」という用語は、当業者によって理解される一般的な意味を有し、ゲノムから得られるポリヌクレオチド配列を指し、ゲノムに沿ったどの部位から得られたものであってもよく、どのようなヌクレオチド配列を含んでいてもよい。

【0078】

「断片サイズ分布」という用語は、当業者によって理解される一般的な意味を有し、試料中の核酸断片の総数、試料中の１つ以上の核酸断片のサイズ、特定のサイズまたは特定のサイズ範囲の核酸断片の絶対存在量または相対存在量、および試料中の異なるサイズの核酸断片の絶対存在量または相対存在量のうちの１つ以上に関する情報を指す。

【0079】

「断片サイズ」という用語は、当業者によって理解される一般的な意味を有し、本明細書では、核酸分子に関して使用され、核酸の塩基対数を指し、核酸分子の長さを示す。

【0080】

「遺伝子」という用語は、本明細書に照らして理解される一般的な通常の意味を有し、通常、タンパク質または機能性RNAをコードする核酸の一部を指すが、この用語は、調節配列を包含していてもよい。当業者であれば、「遺伝子」という用語が、遺伝子調節配列（例えば、プロモーターやエンハンサーなど）および／またはイントロン配列を含んでいてもよいことを十分に理解できるであろう。さらに、「遺伝子」の定義には、タンパク質をコードしないが、tRNAやmiRNAなどの機能性RNA分子をコードする核酸も含まれることも十分に理解できるであろう。場合によっては、遺伝子は、転写、メッセージ生成または組成に関与する調節配列を含む。別の実施形態では、遺伝子は、タンパク質、ポリペプチドまたはペプチドをコードする転写された配列を含む。本明細書に記載の用語の定義に準じて、「単離された遺伝子」は、その他の天然の遺伝子や、その他の天然の調節配列、ポリペプチドまたはペプチドをコードするその他の天然の配列などのその他の配列から実質的に単離された転写された核酸、調節配列、コード配列などを含んでいてもよい。この点に関して、「遺伝子」という用語は、単に、転写されるヌクレオチド配列を含む核酸およびその相補鎖を指すために使用される。当技術分野において理解されるように、「遺伝子」という機能用語は、ゲノム配列を包含するとともに、RNA配列もしくはcDNA配列、またはこれらよりも小さな組換え核酸セグメントも包含し、この小さな組換え核酸セグメントには、転写されない遺伝子部分の核酸セグメントが含まれ、例えば、遺伝子において転写されないプロモーター領域またはエンハンサー領域が挙げられるが、これらに限定されない。また、この小さな組換え遺伝子核酸セグメントは、核酸操作技術を用いて、タンパク質、ポリペプチド、ドメイン、ペプチド、融合タンパク質、変異体および／またはこれらに類似するものを発現してもよく、これらを発現するように構成されていてもよい。

【0081】

「がん」および「がん性」という用語は、本明細書に照らして理解される一般的な意味を有し、無秩序な細胞増殖を一般的な特徴とする動物の生理学的状態を指す。「腫瘍」は、１個以上のがん性細胞を含んでいる。いくつかの実施形態において、腫瘍は固形腫瘍である。主要な種類のがんがいくつかある。癌腫は、例えば、皮膚細胞や腸管の表層細胞などの上皮細胞から派生したがんである。肉腫は、例えば、骨、軟骨、脂肪、筋肉、血管、その他の結合組織や支持組織などの間葉系細胞から派生したがんである。白血病は、骨髄などの造血細胞から派生したがんであり、多数の異常な血液細胞を産生し、これらの異常な血液細胞が血液循環に入る。リンパ腫および多発性骨髄腫は、リンパ節のリンパ系細胞から派生したがんである。中枢神経系がんは、中枢神経系および脊髄から派生したがんである。

【0082】

本明細書において、「アレル」または「アレルバリアント」という用語は、本明細書に照らして理解される一般的な意味を有し、遺伝子座または遺伝子のバリアントを指す。いくつかの実施形態において、遺伝子座または遺伝子の特定のアレルは、特定の表現型に関連しており、例えば、疾患または病態を発症するリスクの変化、特定の疾患ステージまたは特定の病態ステージに進行する可能性、特定の治療方法による治療可能性、感染症に対する易感染性、免疫機能などに関連している。

【0083】

本明細書において、「増幅」という用語は、本明細書に照らして理解される一般的な意味を有し、標的核酸を複製して、選択された核酸配列のコピー数を増加させるための当技術分野で公知のあらゆる方法を指す。増幅は、指数関数的な増幅であってもよく、直線的な増幅であってもよい。標的核酸は、DNAであってもよく、RNAであってもよい。通常、このような方法で増幅された配列は、「アンプリコン」を形成する。増幅は、ポリメラーゼ連鎖反応（「PCR」）、転写に基づく増幅、等温増幅、ローリングサークル増幅などの（ただし、これらに限定されない）様々な方法で行ってもよい。増幅は、比較的同等な量の各プライマーからなるプライマー対を使用して、二本鎖アンプリコンを産生させてもよい。しかし、当技術分野でよく知られているように、非対称PCRを使用して、一方の鎖の産物を優先的にまたは排他的に増幅させてもよい（例えば、Poddar et al. Molec. And Cell. Probes 14:25-32 (2000)を参照されたい）。これは、プライマー対の一方のプライマーの濃度を他方のプライマーに対して大幅に減少させること（例えば100倍の差）によって行うことができる。非対称PCRによる増幅は、ほぼ直線状になる。当業者であれば、様々な種類の増幅方法を組み合わせて使用してもよいことを理解できるであろう。

【0084】

本明細書において、「アンプリコン」という用語は、本明細書に照らして理解される一般的な意味を有し、増幅される核酸配列と、増幅反応の結果として得られる核酸ポリマーとを指す。アンプリコンは、ポリメラーゼ連鎖反応（PCR）やリガーゼ連鎖反応（LCR）などによって人工的に形成することができ、遺伝子重複により天然に形成されることもある。

【0085】

本明細書において、「個体」、「対象」、「宿主」または「患者」という用語は、当業者であれば理解できる通常の意味を有し、したがって、ヒトまたは非ヒト哺乳動物を含む。「哺乳動物」という用語は、この用語が通常示す生物学的な意味で使用される。したがって、「哺乳動物」として、具体的には、サル類（チンパンジー、類人猿、サル）やヒトなどの霊長類；ならびにウシ、ウマ、ヒツジ、ヤギ、ブタ、ウサギ、イヌ、ネコ、げっ歯類、ラット、マウスおよびモルモットが挙げられるが、これらに限定されない。

【0086】

本明細書において、「リキッドバイオプシー」という用語は、本明細書に照らして理解される一般的な意味を有し、血液などの非固形生体組織を試料として採取し、この試料を検査することを指す。

【0087】

本明細書において、「cfDNA」という用語は、本明細書に照らして理解される一般的な意味を有し、循環セルフリーDNAを指し、これには、血漿中に放出されたDNA断片が含まれる。cfDNAは、循環腫瘍デオキシリボ核酸（ctDNA）を含んでいてもよい。

【0088】

本明細書において、「cfDNA」という用語は、本明細書に照らして理解される一般的な意味を有し、循環腫瘍DNAを指し、これには、細胞に結合せずに血流内を循環している腫瘍由来の断片化したDNAが含まれる。

【実施例】

【0089】

以下の実施例において、本発明の実施形態をさらに詳しく定義する。これらの実施例は、説明のみを目的として記載されていると解釈される。当業者であれば、前述の考察とこれらの実施例から本発明の本質的な特性を理解することができ、本発明の要旨および範囲から逸脱することなく、本発明の実施形態に様々な変更および改良を加えて、様々な用途および条件に本発明を適合させることができる。したがって、本明細書において示され、述べられた本発明の実施形態以外の、本発明の実施形態の様々な改良も、前述の説明から当業者には明らかであろう。このような改良も、添付の請求項の範囲内に含まれる。本明細書において引用された各参考文献の開示は、本明細書においてその開示を引用するために、引用によりその全体が本明細書に援用される。

【0090】

実施例１
対象からのcfDNAの抽出
本明細書で述べるcfDNAの単離の実施形態は、一連の抽出工程により行った。イヌ対象から、セルフリーDNA安定化成分を含む抗凝固採血管（BCT）に血液試料を採取した。利用可能な採血管の例として、ロシュ社のセルフリーDNA抽出用採血管、Streck社の採血管、Biomatrica社の採血管、MagMax採血管、Norgen社の採血管が挙げられるが、これらに限定されない。次に、抗凝固採血管を遠心分離して、血漿分画と赤血球を分離した。セルフリー血漿層を抗凝固採血管から回収し、保存するか、セルフリーDNA（cfDNA）の抽出にそのまま使用した。

【0091】

磁気ビーズを用いた市販の抽出キット（MagMaxセルフリーDNA単離キット）を用いて、２～８mLの血漿からcfDNAを抽出した。その他の類似の抽出法／キットを用いて、この工程を実施することもでき、このような抽出法／キットとして、カラムを用いた固相法や、沈殿を利用した方法が挙げられる。cfDNAを溶出し、蛍光光度法および電気泳動（TapeStation）で定量した。

【0092】

シーケンシング用に全ゲノムを増幅するように構成されたランダムプライマーにcfDNA試料を接触させることによって、cfDNAから全ゲノムライブラリーを作製した。しかし、当業者であれば、例えば、次世代シーケンシングなどの配列の増幅に適したあらゆる方法を利用できることを理解できるであろう。一実施形態において、ライブラリーを作製する際に、ユニークな分子識別子やユニークな試料特異的バーコードを組み込んで、複数の異なる対象から得た試料の多重分析を行ってもよい。

【0093】

実施例２
断片サイズ分布に基づくフラグメントミクス解析
対象由来のcfDNAの分析の実施形態は、イヌ血漿中のcfDNA断片のサイズとその分布を健常イヌ対象と比較することによって行った。ライブラリーを定量して総濃度を測定し、cfDNA断片をシーケンシングして、シーケンシング工程で得られたcfDNA断片の長さを分析することによって断片サイズを分析した。

【0094】

ライブラリーの全ゲノムシーケンシングは、NovaSeq 6000を用いて2×100サイクルでペアエンドシーケンシングを行うことにより実施した。しかし、当業者であれば、2×50サイクルといったその他の様々なサイクル数でもペアエンドシーケンシングに適しており、このようなサイクル数を利用できることを理解できるであろう。シーケンシングランを実施した後、ライブラリー中の増幅された各cfDNA断片のヌクレオチド数をカウントすることによって、DNA断片のサイズを測定した。

【0095】

実施例３
腫瘍またはがんを有する対象を陽性として同定するためのデータ解析
cfDNA断片の断片サイズ分布を解析することによって、対象が腫瘍またはがんを有するかどうかを判定できることを以下の実施例に示す。

【0096】

がんcfDNAと腫瘍cfDNAと正常なcfDNAの混合物を含む12個の試料バッチをイヌ対象集団から得た。cfDNAを単離し、シーケンシングし、分析して、各cfDNA断片のサイズに基づいて断片サイズ分布を計算した。一連の８つの試験において、バッチID1～7とバッチID12を分析した。これらのライブラリーバッチには、約200万～500万個の断片が含まれていた。図1は、正常な健常対象から採取したcfDNA試料バッチにおける断片長分布を示す。

【0097】

複数のバッチの断片サイズ分布を直接測定した。さらに、この複数のバッチの断片サイズ分布を利用して、各バッチの混合分布モデルを作成して比較を行った。図1に示すように、１個のヌクレオソームあたり１つの最頻値が存在することから、この断片長分布は多峰性であり、各ヌクレオソームのピークの短長側に振動が認められる。以上を踏まえて、混合分布モデルが自ずと選択された。

【0098】

本明細書において、「混合分布モデル」は、当業者によって理解される通常の意味を有し、ある集団内の亜集団を示す確率モデルを指す。このモデルでは、観測されたデータセット中の個々の観測結果が属する亜集団の同定は必要とされない。各断片長のカウントは、確率分布でモデル化する。一実施形態において、これらの断片長分布は、過分散ポアソン分布であり、これは負の二項分布としても知られている。過分散ポアソン分布は正に歪むが、データは負の歪みを有しているため、反転したデータ（例えば、長さ１が長さ1000となり、これとは逆の場合も同様である）にモデルをフィットさせ、得られた結果を再度反転する。この一例を図2Aに示す。この図では、コントロール試料（灰色の線）とそのモデルフィット（黒色の線）が、４成分の負の二項混合モデルの下方に示されている。第２の実施形態では、ガウス混合モデルでデータをモデル化する（図2B）。このモデルでは、断片サイズ分布がガウス分布で近似される。ガウス分布は、最頻値がほぼ対称になるという利点がある。ガウス混合モデルでは、第２のピークを犠牲にすることによって、第１のピークが良好にモデル化される。第３の実施形態において、このモデルは、プロファイルの平滑化と、ピークの位置およびその最大高さの同定で実質的に構成されている（図2C）。

【0099】

図2A～2Cで差異が認められたにもかかわらず、これらの混合分布モデルの最頻値分布は類似している（図3A～3C）。正常試料は、ベースライン測定から得られたもの（丸印）、または閾値測定（本明細書では「試験」と呼ぶ）の「飛び値」試料から得られたもの（三角形）である。図3A～3Cのラベルは、正常であると見られた患畜試料の名称を示す。正常クラスターと命名した試験試料はいずれもコントロール試料を含んでいたが、別のいくつかの試料クラスターも認められた。フラグメントミクスの観点からは、これらの試験試料を実際に正常であると見なすこともできる。混合分布モデルから推定された重みの分布を図4A～4Bに示し、推定された尺度パラメータ（負の二項混合モデルの過分散とガウス混合モデルの標準偏差）の分布を図5A～5Bに示す。多変量解析のｐ値の計算による分類または機械学習法による分類では、最頻値の位置、尺度パラメータおよび重みをそれぞれ独立して検討することができ、これらを合わせて検討することもできる。別の特徴量として、振動の振幅の測定値、短い断片の断片サイズプロファイルの曲線下面積（AUC）（図11A～11B）、およびその他の断片長の区間が含まれていてもよい。これらの特徴量の相関性を図15に示す。

【0100】

本明細書に開示するように、抽出された特徴量の値は、バッチごとの影響を受ける（図6A～6Bおよび図13～14）。具体的には、バッチ番号が大きくなるほど、図7に示すPCA分析の左上の隅に試料が全体にシフトする。この傾向は、PC1～PC3においてバッチごとに計算したPC値の箱ひげ図分析でも観測することができ、この箱ひげ図分析では、データ分散の99.65%が捕捉された（図8A～8D）。実際に、この傾向によって、バッチ番号が大きくなるほど、増幅されたヌクレオソームのピークが高くなっている（図9A～9B）。また、本明細書に開示するように、ベースラインの設定は、わずかに高齢対象側に傾いている（図12）。これを踏まえて、いくつかの実施形態では、断片サイズプロファイルと年齢の相関性を分析に含めてもよいことが想定される。

【0101】

試料の特徴を調べてその分類を行うために使用した一連の初期統計量は、１つ以上の正常試料を合わせたものからなるリファレンス正常試料に関するものであった。この正常試料プロファイルを平滑化してピークの位置を同定し、正規化したプロファイルにおけるこれらのピーク位置でのピークの割合を計算した。さらに、正常試料を合わせたデータからKLダイバージェンスを計算した。この統計量から、バッチ効果が観測された（図9A）。次に、正常試料を合わせたものと試料の間で、すべてのピークの割合の絶対差を調べた。この統計分析では、正常試料の方が値が低く、これは、正常試料のピークの割合の方が、正常試料を合わせたものに対する類似性が高いことを意味しており、すなわち、腫瘍材料を含む試料は、観測可能なヌクレオソームのピークの割合が変化していることを意味している（図10A～10B）。さらに、KLダイバージェンスは、２つの確率分布の距離を計算するものであるが、このKLダイバージェンスでは、51～1000bpの断片サイズの確率分布を、試料とリファレンス正常試料との間で比較している。

【0102】

本明細書に開示するように、正常試料のKLダイバージェンスは、リファレンス正常試料のKLダイバージェンスよりも小さく、これは、リファレンス正常試料がすべての正常試料で構成されている場合、またはリファレンス正常試料がベースライン試料のみで構成されている場合にも当てはまる。しかし、これらの２つの分布には大きな重複がある。51～1000bpの断片サイズ分布にフィットさせたガウス混合モデルから別の統計量が得られる。このガウス混合モデルは４つの成分を有し、それぞれ観測可能なヌクレオソームのピークのうちの１つに由来する。マルコフ連鎖モンテカルロ法（MCMC）を用いて、各試料の各パラメータ（４つの平均値、４つの標準偏差、最初の３つの重みの合計を１から差し引くことにより得られる４番目の重みとしての３つの混合重み）を学習させた。

【0103】

既知の正常な断片サイズ分布のサブセットを用いて、ベースラインセットを形成し、このベースラインセットからリファレンスを計算した。KLダイバージェンス値は、ベースライン試料と正常試料と腫瘍試料とで異なり、腫瘍試料で最大値となり、ベースライン試料で最小値となった（図13～14）。実験試料のKL値を正常試料のKL値と比較する際に、以下の４種の閾値を検討した。
（１）正常群で観測された最大値（「max」）
（２）正常群で観測された２つの最大値の平均値（「平均値」）
（３）正常群のKLの平均値の３標準偏差（「3sd」）
（４）正常群のKLの平均値の４標準偏差（「4sd」）

【0104】

特定の基準を最適化するために閾値を選択してもよい。例えば、バッチ１～３から得たデータを用いて、正確度、感度、特異度、陽性的中率（PPV）およびF1スコアの各閾値を計算した（表１）。表２は、バッチ４～７およびバッチ12の性能指標を示す。これらの指標をそれぞれ最適化することによって様々な結果が得られた（図16A～16D）。本明細書に開示するように、病理学的な解決策が好まれたため、感度と特異度の最適化は目的変数として好ましくなかった。特異度を優先することによりPPVを最適化するという結論は、良好な妥協点であると考えられる。試料を腫瘍または正常に分類することは、識別性の高い学習タスクであり、通常、正常試料のみで構成されたベースラインセットに依存せずに、正常ラベルと腫瘍ラベルの両方を用いた訓練データに依存する別の方法で検討することができる。このような方法の一例として、
ａ）ペナルティにより正則化を行うロジスティック回帰（LR）、例えば、ridge回帰、lasso回帰、grouped lasso回帰、fused lasso回帰など、
ｂ）サポートベクターマシン（SVM）、
ｃ）１つ以上の隠れ層を有するニューラルネットワーク（NN）
が挙げられるが、これらに限定されない。

【0105】

これらの分類方法では、混合分布モデルに関して前述したように、選択された範囲（例えば51～1000bp）において正規化されたカウントを特徴量として利用することができ、あるいはデータから抽出された特徴量を利用することができる。

【表1】

【表2】

【0106】

バッチ４～７およびバッチ12を分析したところ、47個の真の陽性結果が同定され（すなわち、47個の試料が、腫瘍またはがんであるとして正しく同定され）、バッチ１～３からは、４個の真の陽性結果が同定された。

【0107】

分類を行う際には、２つのクラス間でのデータ分布の区別が極めて重要である。クラスごとに平均プロファイルを取得し、一方のクラスの平均プロファイルから他方のクラスの平均プロファイルを差し引いたところ、正常試料では約150bpの断片が多く存在していたが、腫瘍試料では長い断片の複数のピークが多く存在していた（図17）。しかし、２群の平均プロファイルを同時にプロットした場合、平均プロファイルの差は小さく、かろうじて視認できる程度であった（図18）。すべての試料のPCA分析では、正常群と腫瘍群とで有意な重複が示されている（図19）。これは恐らく、断片サイズプロファイルが事実上正常に見えてしまうほどに真性腫瘍試料中の腫瘍細胞含有割合が少ないことによるものだと考えられる。正常試料は強いクラスターを形成し、正常試料のプロファイルが堅牢に再現可能であることが示唆されている。一方、腫瘍試料は正常試料とは様々に異なることから、腫瘍クラスの分布の解釈が煩雑になっている。したがって、例えば、ロジスティック回帰などによる外れ値の検出が分類よりも好ましい可能性がある。（ｉ）すべての正常試料は互いに類似しているという観測結果、（ii）腫瘍試料は様々に異なる可能性があるという観測結果、および（iii）近似モデル化を行うことなく全データを使用したいという要望があったことから、別の外れ値の検出方法として、試験試料とベースライン試料の平均値との間で、例えばKLダイバージェンスのような距離関数を用いる方法を実施した（図20）。図20では、KLダイバージェンス値が最大であったベースライン試料が示されており、すべての腫瘍試料がこの閾値よりも上に位置することが示されている。

【0108】

過去に報告されているがんの検出のためのcfDNAの断片サイズ分析は、通常、ヒトのデータに基づいて設計されたものである。驚くべきことに、本明細書に記載の技術を用いることによって、試料（愛玩動物試料）に特徴的な要素として、愛玩動物試料ではヒトと比べて断片サイズプロファイルに認められるピークの数が多いということが見出された。本明細書に記載の方法は、断片サイズプロファイル全体を考慮に入れることによって、前述のさらなるピークの存在から間接的に利点を得ることができる。したがって、複数のさらなるピークが存在することから、先行技術の方法よりも有利であり、これまでに報告されていないものでもある。

【0109】

ベースラインから外れ値試料を除外することによって、KLダイバージェンスが正常試料とは有意に異なる試料の数が増加したが、いくつかの偽陽性も認められた（図21）。本明細書に開示した分析方法論を用いてデータセットをテストすることによって、高特異度と高感度の点で前述の確率的方法よりもわずかに良好な結果が得られた。

【0110】

実施例４
フラグメントミクスに基づく腫瘍細胞含有割合の推定
フラグメントミクスに基づく腫瘍細胞含有割合の推定を行うための方法論のまとめを以下の実施例に示す。

【0111】

１．確率モデル：

【数1】

【0112】

上記の確率モデルは、３つの未知パラメータとそれらの事前確率、決定論的計算および尤度モデルを定義する。観測されたデータは行列Ｙに格納され、コピー数（CN）（例えば、１コピー、２コピー、３コピー）ごとに１つの列に格納される。

【0113】

第１の未知量は腫瘍細胞含有割合（TC）ｔであり、小さい方が好ましい事前値である。事前確率には、試料に関する情報を考慮に入れなかった。単調減少曲線を用いることによって、正常ラベルのパラメータθと腫瘍ラベルのパラメータθを入れ替えることによる各逆畳み込み層を用いた代替策の検討を回避した。事前分布を図22に示す。

【0114】

θNは純粋な正常プロファイルであり、θTは純粋な腫瘍プロファイルである。それらの事前確率はディリクレ分布であることから、非負値性と定数和制約が保証される。事前分布のパラメータは、以下の式に基づいた逆畳み込みによって、モデル５のプロファイルの推定値から得られた。したがって、これらの事前確率は、データのいくつかの態様に基づく経験的確率であった。

【0115】

２．モデル５の式：

【数2】

【0116】

ここで、Ｙバーは、正規化したカウントデータを示す。例えば、ＹバーＧは、利得プロファイル（CN3）を利得プロファイルの総リード数で割った値である。

【数3】

【0117】

上記式はいずれも未知量である腫瘍細胞含有割合（TC）ｔに依存することから、1～99%の範囲の各ｔ値に対して1%の増分で上記式の計算を行った。任意の数値ｔに対して上記式を解いて、純粋なプロファイルの推定値を得た。すべての数値ｔに対して、データの推定値を求め（上記モデルのＱを参照されたい）、観測されたデータと比較した。モデル５では正規分布を用いて、ｔ値を選択し（したがって、与えられたデータに対して純粋なプロファイルが得られた）、最も高い対数尤度を得た（最適合）。前記式の解には負数が含まれている可能性がある。これらの負数は、データの推定値を求める前に０で置き換えた。正でないエントリが20%を超える解は無視した。このようなエントリは、概して、中程度のTCを有する試料群の極端なTC値付近に発生した。

【0118】

パラメータαをリスケールして、モデル５の推定値にバイアスをかけた。

【数4】

【0119】

スケーリング因子は６Ｍであり、ここでＭは、フラグメントミクスプロファイルの長さ（Ｙカウント行列の行の数）である。バイアスは１であった。

【0120】

上記モデルの最下段に示した式は、多項尤度である。

【0121】

計算を効率化するため、断片長プロファイルのすべてのＭの位置（51～260、M=210）を分析する代わりに、２つおきの位置のみを考慮に入れることにより（すなわち、51～259の範囲において増分を２として、M=105）、データ量を半分にした。

【0122】

上記モデルは、Stanソフトウェアを用いて実行し、ウォームアップとして12,000回の反復計算を行い、3,000回の反復計算でサンプリングを行った。以下のパラメータで初期化して、繰り返し回数を４回として並行して計算を実施した。（１）ｔは、5%に設定した。（２）θNは、その事前確率（ディリクレ分布（αN））からサンプリングした。（３）θTは、その事前確率（ディリクレ分布（αT））からサンプリングした。

【0123】

以下の１つの制御パラメータを設定した。
max_treedepth=20

【0124】

２セットのin silico混合物を用いて上記モデルを構築し、別の２セットのin silico混合物を用いて試験を行った。各混合物を希釈してそれぞれ三連で分析して、データのリサンプリングと解への収束に関して、このモデルの堅牢性を評価した。このモデルは、225個（＝57×3+54）の希釈試料のうち、１つの試料で収束に失敗した。19段階で希釈して、それぞれを三連で分析したことから、計57個の試料を作製した。３セットの混合物から19×3=57個の試料を作製したが、１セットの混合物では、その混合前の腫瘍細胞含有割合（TC）が最大希釈倍率よりも低かったため、18×3=54個の試料を作製した。

【0125】

最初の混合物は、試料201-20885と試料201-00316を、健康なcfDNAに混合して作製した。正常試料は、がん試料で認められた純粋な正常シグナルに可能な限り類似したフラグメントミクスプロファイルを有するように選択した。

【0126】

試料201-20885と、これに「一致する正常試料」の間での純粋な正常シグナルのKLダイバージェンスは約0.003であり、試料201-00316と、これに「一致する正常試料」の間での純粋な正常シグナルのKLダイバージェンスは0.03であった。試料201-00316では、KLダイバージェンス値が大きく、データ内に２つのシグナル（正常とがん）のみが存在するという仮定が破綻してしまったため、分析が困難であった。その代わりに、２つの正常シグナルとがんシグナルが様々な割合で得られた。

【0127】

いずれの試料でも、TCがわずかに過大評価された（図23Aおよび図23B）。この効果は、試料201-20885では低いTCで顕著であり、試料201-00316では高いTCで顕著であった。TCの期待値は、希釈していない試料の元のTCの推定値から得た。

【0128】

このモデルの構築は上記混合物に依存するものであったことから、別の２セットの混合物を作製して性能を試験した（図24Aおよび図24B）。これらのがん試料に緊密に一致する正常試料を得た（KLダイバージェンス：約0.003）。この試験でも、TCが過大評価されたが、この過大評価は小さいTC値（<10%）のみで見られた。

【0129】

実施例５
in silico混合物
腫瘍試料と正常試料からなるin silico混合物を作製するための方法のまとめを以下の実施例に示す。腫瘍細胞含有割合の推定の性能を評価する際に真値を得るため、腫瘍試料と正常試料からなるin silico混合物を作製して、純粋なプロファイルの混合割合を調べて、この混合割合を調節した。

【0130】

腫瘍細胞含有割合が高いcfDNA試料を健康なcfDNA試料と混合した。フラグメントミクスの基準を作成するには、健康なcfDNA試料の断片長プロファイルが、がんを含むcfDNA試料の正常成分の断片長プロファイルと一致していなければならない。

【0131】

複数の試料をスクリーニングして、明瞭なシグナルと高い腫瘍細胞含有割合を有する試料を同定した。試料201-20885は、ichorCNAによる結果と一致して、コピー数特異的な断片長プロファイルが良好に分離され、その腫瘍細胞含有割合（TC）の推定値は51%（［45%～56.8%］）であった。

【0132】

試料201-00316は、コピー数１の領域とコピー数３の領域に限局していたが、コピー数４の領域とコピー数５の領域であると見られる領域も観測された。予想されたとおり、コピー数４とコピー数５の増加（gain）は、短い断片に偏っていると見られた（図25）。コピー数１、コピー数２およびコピー数３に基づき、腫瘍細胞含有割合（TC）が43.7%（［33.5%～58.1%］）であると推定した。この推定値は、ichorCNAで予測した腫瘍細胞含有割合（TC）よりも低かった。

【0133】

試料201-20885の正常成分を示す正常試料として試料101-10849を選択し（純粋なプロファイルからのKL＝0.003）、試料201-00316の正常成分を示す正常試料として試料101-00013を選択した（純粋なプロファイルからのKL＝0.036）。

【0134】

選択された試料201-20885の腫瘍細胞含有割合は約51%であり、選択された別の試料201-00316の腫瘍細胞含有割合は約44%であった。試料201-00316の方が腫瘍細胞含有割合が低く、正常シグナルがわずかに異なる正常試料を含み、総リード数も少なかったことから、この試料の混合物は、逆畳み込みが困難であったことには留意されたい。これらの２つのがん試料をそれぞれ含む様々な混合物を、表３に示す割合で三連で作製した。

【表3】

【0135】

実施例６
コピー数特異的な断片長曲線間の分離の定量
この実施例では、試料分析における断片長曲線間の分離の定量の方法論について概説する。

【0136】

断片長プロファイルは、（実施例３に示したように）ゲノムワイドに計算してプロットできるだけでなく、（実施例４に示したように）コピー数に従って計算してプロットすることもできる。

【0137】

コピー数が増加している領域（gain）でのプロファイルの計算では、短い断片の割合が増加していることが予想され、コピー数が減少している領域（loss）でのプロファイルの計算では、長い断片の割合が増加していることが予想される。

【0138】

このような違いがあることから、臨界断片長が存在し、この臨界断片長を下回ると、減少プロファイルの上方に増加プロファイルが観測され、この臨界断片長を上回ると、増加プロファイルの上方に減少プロファイルが観測される。変化なしのプロファイルは、増加プロファイルと減少プロファイルの間のどこかに位置する。

【0139】

単一の試料における断片長曲線間の分離は、以下のスキームに従って定量する。臨界断片長を下回る領域では、増加プロファイルから減少プロファイルを差し引き、得られた差を合計して数量Ａを得る。臨界断片長を上回る領域では、減少プロファイルから増加プロファイルを差し引き、得られた差を合計して数量Ｂを得る。断片長曲線間の分離は、ＡとＢの合計となる。

【0140】

減少プロファイルまたは増加プロファイルの一方が利用できない場合は、変化なしのプロファイルを代わりに使用する。次に、「減少」－「増加」の式、「減少」－「変化なし」の式、および「変化なし」－「増加」の式の３つの式を用いて、断片長曲線間の分離を計算することができる。括弧内の名称は、使用するプロファイルの名称を示している。

【0141】

断片長曲線間の分離を示す値の計算は、臨界断片長の位置に左右される。この未知量の取り扱いに関して、様々な方法を検討することができ、具体的には、単一の閾値をすべての試料に用いることができ、臨界断片長を含む中央区間を無視することができ、あるいは各試料に対して閾値を最適化することができる（図27）。

【0142】

わずかな数のリードから求めた断片長プロファイルは、信頼性が低い可能性がある。この理由から、特定の閾値を下回るリード数のプロファイルを排除することができ、このような閾値として、100,000リード、200,000リード、500,000リードおよび1,000,000リードが挙げられるが、これらに限定されない。

【0143】

さらに、スプライン曲線を用いてプロファイルを平滑化することができる。これによって、断片長曲線間の分離を示す値に影響は及ばない。断片長プロファイル間に実際に分離がない数例を除いては、大きな分離が得られる閾値も安定なまま維持される（図28）。

【0144】

変化なしのプロファイルは、減少プロファイルと増加プロファイルの間に位置することから、「減少」－「変化なし」の式または「変化なし」－「増加」の式を用いて計算した分離値は、「減少」－「増加」の式を用いて計算した分離値よりも小さくなる。これらの３つのレベルのすべてが利用可能な試料を分析することによって、この効果を定量した（図29A）。得られた直線関係を利用して、単純な線形補正を得ることができた。

【0145】

この補正の残差は、断片長プロファイルを構築する最小リード数から求めた推定腫瘍細胞含有割合との強い相関性は認められなかった（図29B）。しかし、少数のリードで構築されたプロファイルにおいて、大きな残差が観測された。

【0146】

200,000リードにリードフィルタをかけると、「減少」－「変化なし」の式で求めた調整分離値と「変化なし」－「増加」の式で求めた調整分離値は、「減少」－「増加」の式で求めた分離値と緊密に一致した（図29C）。この結果から、これら３つの式で求めた分離値はいずれも同等に扱うことができ、一緒に分析できることが示された（図30）。

【0147】

実施例７
血液がんのフラグメントミクス
血液がん試料のフラグメントミクス解析を以下の実施例に示す。明確なコピー数プロファイルを有する血液がん試料は断片長曲線において分離を示さなかったという観測に基づいて、確認されているその他の血液がん症例を試験して、断片長曲線において分離が見られないことが血液がんであることを示す特徴量であるのかどうかを調査した。この仮説が正しければ、試料を血液がんとして分類する別の方法として、この方法を利用することができる。

【0148】

リンパ腫であることが確認されている112個の試料を調査して、コピー数多型（CNV）を減少（loss）、変化なし（neutral）または増加（gain）として分類した。

【0149】

各コピー数（CN）群に対して断片長曲線をプロットした。各コピー数レベルに対する腫瘍の寄与は様々であるが、断片長プロファイルは変化しないということが予想された。このような予測は、健常対象では、cfDNAの大半は白血球から放出されるものであることから、悪性腫瘍が白血球に由来するものであれば、健常対象と同じヌクレオソーム組織および同じDNA断片化を示すということから説明できると考えられた。

【0150】

112個の試料のうち90個が、アノテーションによりコピー数多型（CNV）を可視化できた。90個の症例のうち18個（20%）において、フラグメントミクス曲線間での分離が観測された。この分離は、（ｉ）主要なヌクレオソームピークの長い方の側面に明瞭な線が見られること、および（ii）約150bp未満では、腫瘍を最も多く含むプロファイル（例えばコピー数が５の増加）が、腫瘍が最も少ないプロファイル（コピー数１）の上方に見られ、約150bpを超えると、腫瘍を最も多く含むプロファイル（例えばコピー数が５の増加）が、腫瘍が最も少ないプロファイル（コピー数１）の下方に見られることとして定義される。

【0151】

コピー数の減少、変化なしまたは増加としてコピー数多型（CNV）の分類が可能であったCNV陽性のすべての臨床評価（CV）試料を検討することによって主分析を行った。したがって、245個の試料を検討した。分離スコアは、デフォルト状態の減少曲線と増加曲線を比較するための上方曲線から下方曲線を差し引く式（「完全」式）を使用して計算するか、「減少」－「変化なし」の式による比較、または「変化なし」－「増加」の式による比較（「部分」式）によって求めた。200,000リード未満から求めたコピー数レベルは無視した。214個の試料が残った。「部分」式で求めた分離値は、「完全」式で求めた分離値と合致するように補正した。補正を行った回帰モデルは切片を含んでいなかった。

【0152】

得られた回帰モデルを手動で確認して各試料にラベル（「分離」、「低い腫瘍細胞含有割合において分離なし」または「高い腫瘍細胞含有割合において分離なし」）を割り当てた。断片長曲線間の分離が予想された。短い断片では、変化なしの曲線の上に増加曲線が位置し、減少曲線の上に変化なしの曲線が位置し、150bp付近の変化点（図27）を超えた後の長い断片では、これとは逆の順で同様の分離が見られると予想された。このように、上記ラベルは、上記で計算した分離スコアとよく一致していた。

【0153】

CNVデータにおいて腫瘍細胞含有割合が高いという証拠が得られたにもかかわらず、断片長曲線間の分離が認められなかった試料が同定されたことは、非常に興味深かった。断片長曲線間の分離が認められた試料と、腫瘍細胞含有割合が高かったにもかかわらず断片長曲線間の分離が認められなかった試料のみをフィルタリングし、あらゆるコール閾値を検討した。0.0173の閾値によって最も良好な結果が得られることが判明した（感度97.7%、特異度98.5%）。この分析は腫瘍の種類を盲検化して行った。

【0154】

上記の２つのカテゴリーをさらに検討したところ、この閾値において、２つの偽陽性試料（断片長曲線間の分離が確認できるが、分離値が低い試料）が見出された。これらの試料において分離を同定し、再調査においてこれらの試料と類似した試料を同定し、コールから除外した。これらの除外した試料では、フラグメントミクス曲線間の分離に基づくがんシグナルの起源（CSO）の予測は行わない。

【0155】

非盲検化を行う前に、この方法の性能に影響を与えうる明らかなバッチ効果を評価した。シーケンシングランを行った際に、わずかな増加傾向があると考えられた。しかし、回帰直線の95%信頼区間には水平線が含まれていた。これは、バッチ効果がないという帰無仮説を棄却できなかったことを意味する。共変量である年齢と性別からも同様の結論が得られた。

【0156】

非盲検化試験において、Ｂ細胞リンパ腫は、腫瘍細胞含有割合が高いにもかかわらず、断片長曲線間の分離が見られない傾向があったが、Ｔ細胞リンパ腫などのその他の種類のがんでは、断片長曲線間の分離が示された（図26）。再検討後の最終コールは、表４に示すように、調整分離値が<0.01727873であり、かつ分離なし／高い腫瘍細胞含有割合（TC）でラベリングされた試料とした。

【表4】

【0157】

次に、表５に示すように、試験設定の性能を計算した。このフラグメントミクス法では、少なくとも200,000リードで構築された少なくとも２つのコピー数レベル（減少と変化なし；変化なしと増加；または減少と増加）の確認が必要とされる。これらの基準を満たさなかった試料は、分離スコアが付与されない。市販のOncoK9テストにおいて現在使用されているヘム予測は、コピー数プロファイルに基づいており、コピー数プロファイルは、血液がんに関連する特徴量を有することが過去に報告されている（https://pubmed.ncbi.nlm.nih.gov/14562028/）。本実施例で述べた血液がんのフラグメントミクス解析は、表５に示すように、感度が向上していた。

【表5】

【0158】

実施例８
染色体によるフラグメントミクス
cfDNA試料においてがんシグナルを検出するための、染色体によるフラグメントミクスの使用について以下の実施例に示す。

【0159】

がんの検出感度を向上させる方法の１つとして、腫瘍からのシグナルを増強させる方法がある。血液中の腫瘍細胞含有割合は通常小さい。染色体の増加により腫瘍DNAが増加し、染色体の欠失により腫瘍DNAは減少する。標準的なフラグメントミクス解析では、ゲノムワイドなすべてのリード、コピー数が変化していない領域のシグナルによる増加領域のシグナルの低下、および染色体の欠失による「さらに悪い」シグナルを検討する。

【0160】

本分析では、個々の染色体間の差異を見い出し、これが利用できることを期待して、染色体によるフラグメントミクスについて検討した。この分析は、断片長プロファイルを得るには、約100,000個の断片だけで足りるという知見に基づいている。

【0161】

各試料中の染色体を比較した。各染色体ペアに対して、それらの断片長分布間でのKLダイバージェンスを比較した。腫瘍が存在し、コピー数変化（CNA）があった場合、コピー数が変化した染色体は、コピー数が変化していない（CNN）染色体から一貫して大きな逸脱を示した。

【0162】

健康な試料において、どの程度のKLダイバージェンス値が期待されるのかを理解することによって、コール閾値を確立することにより、試験試料を正常試料と比較する必要なく、がん陽性試料を同定することができる。

【0163】

コール閾値を同定するため、正倍数性の正常試料において染色体同士の一対比較を検討した。正常試料において染色体１本あたりのKLダイバージェンスの平均値を調べたところ、ベースライン値は不均質であり、染色体の長さに反比例していることが判明した。染色体が長いほど多くのリードが得られ、リード数が多いほど滑らかな断片長プロファイルが得られて、ノイズやアーチファクトによるKLの増加が少なくなる。

【0164】

さらに、第９染色体は外れ値であった。第９染色体は、第14染色体や第16染色体とほぼ同じ程度の長さしかないが、そのKLダイバージェンスの平均値は予想よりも非常に高く、これは恐らく配列中のGC含量が多いことによるものだと考えられた。

【0165】

特定の染色体（第９染色体および短い染色体）において観測されたアーチファクトによるKLダイバージェンスの増加に対処するため、染色体の長さまたは試料全体の平均KL値を単一の因子として用いてKLの観測値を補正することができる。別の方法では、平均KL値とリード数の間の関係性をモデル化することができる。

【0166】

常染色体に注目して、以下の式で表される双曲線として各KL曲線をモデル化した。
y=a/(x+ b)

【0167】

次に、最小二乗法を用いて、この関数を染色体ごとにフィットさせた。図32に示すモデルが得られた。このモデルでは、染色体ごとに観測されたKLダイバージェンス値を、各染色体にマッピングされたリード数の関数として正規化した。

【0168】

この補正によって、リード数によるKLの勾配と、染色体に特異的なアーチファクトを排除した。この補正はリード数に注目したものであったが、染色体１本あたりにも注目して補正を行った。これによって、染色体間でのGC含量の違いを暗黙的に考慮に入れた。必要に応じて、特定の領域のリード数とその領域のGC含量の両方を考慮に入れたさらに精密な補正を行ってもよい。

【0169】

染色体によるこのフラグメントミクス法において、陽性試料をコールするには、正規化した平均KL値が大きい染色体を同定する。正規化した平均KL値が特定の閾値を上回っていれば、試料はがん陽性と判定される。

【0170】

閾値は様々な方法で定義することができる。例えば、閾値は、正常試料の平均値を上回る標準偏差の数や、データセットの正確度を最適化する閾値などであってもよい。

【0171】

まず、染色体により調整した平均KL値を検討し、平均値と標準偏差（SD）を用いて単一の閾値を定義した。ゲノムワイドなフラグメントミクスのベースラインと比較した結果を表６に示す。

【表6】

【0172】

正常試料の数が少なかったにもかかわらず、このデータセットでは、染色体によるフラグメントミクス法の性能は、ゲノムワイドなベースラインよりも優れていた。

【0173】

前述のモデルによる補正は、染色体ごとの平均値に対して作用しており、単一の数値には作用しなかった。したがって、わずかな逸脱を起こすがんシグナルは、平均値の計算によって薄まる可能性がある。その代わりに、試料ごとに染色体同士の一対比較を検討すれば、感度をさらに向上させることができる。

【0174】

この方法を実施するため、染色体のペアに対してKL値の正規化を行うことができる。前述したように、各染色体は、染色体特異的なパラメータを有する双曲線により説明される。一対比較法によるKLダイバージェンスは、染色体に特異的な２つの双曲線の合計として、以下の式によりモデル化される。
y=a/(x1+b)+c/(x2+d)

【0175】

染色体に特異的なパラメータは、一連の正常試料の一対比較法によるKLダイバージェンス値をデータとして使用して、マルコフ連鎖モンテカルロ法により学習させた。染色体にマッピングされたリード数の関数としての、KLの予測値と観測値の間の相関性は、0.9728だった（図33）。

【0176】

試験試料において一対比較法によるダイバージェンス値を正規化することによって、染色体特異的なアーチファクトと染色体の長さによるアーチファクトを排除することができた。

【0177】

コール閾値は、各一対比較に対して確立した。表７に示すように、閾値を選択する際に、コントロール試料の平均値から離れた標準偏差の数を選択してもよく、あるいはコントロール値を確率分布でモデル化して、その確率分布からパーセンタイルを選択してもよいが、これらに限定されない。

【表7】

【0178】

ゲノムワイドなフラグメントミクス法は、試験試料のゲノムワイドな断片長プロファイルと一連の正常試料のゲノムワイドな断片長プロファイルとを比較する。染色体による別のフラグメントミクス法では、同じゲノムワイドな方法論を、試験試料の個々の染色体に適用することによって、個々の染色体を外部基準と比較する。次に、例えば、最も極端な染色体レベルの結果や、ゲノムワイドな方法と比較した最も大きな変化を考慮に入れて試験試料の状態を判定する。

【0179】

図31および表８は、KLダイバージェンスの変化と、正常試料の平均値から3SD、4SDまたは5SD離れた線を示す。3SDの閾値で９つの試料がコールされた。

【表8】

【0180】

本明細書において使用された節の見出しは、本発明を系統立てて述べることのみを目的として設けられており、本明細書に記載の主題を限定するものであると解釈すべきではない。本出願において引用された、特許、特許出願、記事、書籍、論文およびインターネットウェブページなどの（ただしこれらに限定されない）、あらゆる学術文献および類似の資料は、任意の目的に対して引用により、本明細書に具体的に引用された開示を含むその全体が本明細書に明示的に援用される。援用された引用文献に記載の用語の定義が、本発明の教示における用語の定義と異なる場合、本発明の教示における用語の定義を採用するものとする。本発明の教示において述べた温度、濃度、時間などの前に「約」という意味を含む用語が置かれている場合、ごくわずかな逸脱は、本発明の教示の範囲内であることは十分に理解される。

【0181】

特定の実施形態および実施例において本発明を開示したが、当業者であれば、具体的に開示された実施形態から別の実施形態ならびに／または本発明の使用、当業者に明らかな変更およびこれらの等価物にまで、本発明を拡大することができることを理解できるであろう。さらに、本発明のいくつかのバリエーションを示し、詳細に説明したが、本開示に鑑みれば、本発明の範囲内のその他の変更も当業者であれば容易に理解できるであろう。さらに、本発明の実施形態の特定の特徴および態様の様々な組み合わせ、またはその下位の組み合わせも可能であり、このような組み合わせも本発明の範囲内に含まれることが想定される。本明細書で開示された実施形態の様々な特徴および態様は、本明細書で開示された本発明の様々な態様または実施形態を構成することを目的として、別の特徴および態様と組み合わせてもよく、別の特徴および態様と置き換えてもよいと理解されるべきである。したがって、本明細書で開示された本発明の範囲は、本明細書で開示された前述の特定の実施形態によって限定されるべきではない。

【0182】

しかしながら、当業者であれば、本発明の要旨および範囲内の様々な変更および改良は明らかであることから、本発明の好ましい実施形態を示した詳細な説明は、本発明を説明することのみを目的としたものであると解釈すべきである。

【0183】

本明細書に記載の説明において用いられた用語は、限定的なものや拘束的なものであるとは解釈されない。これらの用語は、本発明のシステム、方法および関連する要素の実施形態の詳細な説明に付随して使用されているにしか過ぎない。さらに、本発明の実施形態は、いくつかの新たな特徴を含んでいてもよく、これらの特徴のうちの１つのみが望ましい特性に寄与するわけではなく、これらの特徴のうちの１つが、本明細書に記載の本発明を実施するにあたり必須のものであるとも解釈されない。

【図1】