IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ チャイニーズ ユニバーシティ オブ ホンコンの特許一覧 ▶ グレイル,リミティド ライアビリティ カンパニーの特許一覧

特開2023-139321非侵襲的出生前検査および癌検出のために核酸サイズ範囲を使用すること
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023139321
(43)【公開日】2023-10-03
(54)【発明の名称】非侵襲的出生前検査および癌検出のために核酸サイズ範囲を使用すること
(51)【国際特許分類】
   C12Q 1/68 20180101AFI20230926BHJP
   C12M 1/34 20060101ALI20230926BHJP
   C12M 1/00 20060101ALI20230926BHJP
【FI】
C12Q1/68
C12M1/34 Z
C12M1/00 A
【審査請求】有
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023127899
(22)【出願日】2023-08-04
(62)【分割の表示】P 2020544091の分割
【原出願日】2018-11-02
(31)【優先権主張番号】62/580,906
(32)【優先日】2017-11-02
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.PYTHON
(71)【出願人】
【識別番号】512037244
【氏名又は名称】ザ チャイニーズ ユニバーシティ オブ ホンコン
(71)【出願人】
【識別番号】522380594
【氏名又は名称】グレイル,リミティド ライアビリティ カンパニー
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ロー ユク-ミン デニス
(72)【発明者】
【氏名】チウ ロッサ ワイ クン
(72)【発明者】
【氏名】チャン クワン チー
(72)【発明者】
【氏名】チアン ペイヨン
(57)【要約】
【課題】母体血漿中の低い胎児DNA画分を有する妊婦についての非侵襲的出生前検査(NIPT)の性能を改善するためのアプローチを開発すること。
【解決手段】サイズバンド分析は、染色体領域がコピー数異常を示すか、または癌を検出するために使用されるかを決定するために使用される。特定のサイズに焦点を合わせる代わりに、複数のサイズ範囲が分析され得る。特定のサイズの代わりに複数のサイズ範囲を使用することによって、方法は、臨床関連DNAが低画分の生体試料であり得る場合でも、染色体領域がコピー数異常を示すかを決定することができ得る。複数の範囲を使用することは、ゲノム領域における選択されたリードのサブセットではなく、ゲノム領域からの全ての配列リードの使用を可能にし得る。分析の精度は、類似またはより高い特異度でのより高い感度で増加され得る。
【選択図】なし
【特許請求の範囲】
【請求項1】
明細書に記載の発明。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2017年11月2日に出願された「USING NUCLEIC ACID SIZE RANGE FOR NONINVASIVE PRENATAL TESTING AND CANCER DETECTION」と題された米国仮特許出願第62/580,906号からの優先権を主張し、その全内容は、全ての目的のために参照により本明細書に組み込まれる。
【背景技術】
【0002】
妊婦の血漿および血清中の胎児に由来する循環無細胞DNA(cfDNA)の存在の実証(Lo et al.,Lancet 1997;350:485-487)は、非侵襲的出生前検査(NIPT)の開発を通して出生前検査の実施を完全に転換した。NIPTは、羊水穿刺および絨毛膜絨毛サンプリング(CVS)などの侵襲的組織サンプリングと関連したリスクの回避において利点を有する。これまでのところ、NIPTは、胎児RhD血液群ジェノタイピング(Finning et al.BMJ 2008;336:816-818;Lo et al.N Engl J Med 1998;339:1734-1738)、伴性障害についての胎児性決定(Costa et al.N.Engl.J.Med.2002;346:1502)、染色体異数性検出(Chiu et al.Proc Natl Acad Sci U S A 2008;105:20458-20463;Fan et al.Nature 2012;487:320-324;Chiu et al.BMJ 2011;342:c7401;Bianchi et al.N.Engl.J.Med.2014;370:799-808;Yu et al.Proc.Natl.Acad.Sci.U.S.A.2014;111:8583-8;Norton et al.N.Engl.J.Med.2015;372:1589-1597)、および単一遺伝子障害の診断(Lam et al.Clin.Chem.2012;58:1467-75;Lo et al.Sci.Transl.Med.2010;2:61ra91-61ra91;Ma et al.Gene 2014;544:252-258;New et al.J.Clin.Endocrinol.Metab.2014;99:E1022-E1030)に使用されている。特に、母体血漿DNAの超並列配列決定を用いる、一般的な染色体異数性についてのNIPTは、数十か国で臨床サービスに急速に採用され、毎年数百万人の妊婦によって使用されている(Allyse et al.Int.J.Womens.Health 2015;7:113-26;Chandrasekharan et al.Sci Transl Med 2014;6:231fs15)。
【0003】
初期検証研究(Chiu et al.BMJ 2011;342:c7401;Sparks et al.Am.J.Obstet.Gynecol.2012;206:319.e1-9)では、NIPTは、異数性の高いリスクで患者に実施され、92%~100%の高い陽性的中率(PPV)が達成された。一般的には胎児DNA画分と呼ばれる、特定の母体試料における胎児DNAの相対濃度は、NIPTの精度の重要な決定因子である(Chiu et al.BMJ 2011;342:c7401;Jiang et al.Bioinformatics 2012;28:2883-2890、npj Genomic Med.2016;1:16013)。21トリソミー検出の感度は、胎児DNA画分の低減とともに有意に減少するであろう(Chiu et al.BMJ 2011;342:c7401;Canick et al.Prenat.Diagn.2013;33:667-674)。したがって、トリソミー検出の偽陰性結果は、低い胎児DNA画分を有する妊娠において発生し得る。例えば、Canick et alは、ダウン症候群を有する212症例の中に、4つの偽陰性があり、その全てが4%~7%の胎児DNA画分を有したことを報告した(Canick et al.Prenat.Diagn.2013;33:667-674)。
【0004】
NIPTを行う多くの実験室では、ある割合の分析において検査失敗またはノーコール結果が観察されることに留意することが重要である。いくつかの研究では、総実験室失敗率は、8.8%に達し得る(Porreco et al.Am.J.Obstet.Gynecol.2014;211:365.e1-365.e12)。NIPTで結果を得ることができない主な理由の1つは、いくつかの試料における母体血漿DNA中の低い胎児DNA画分、通常は<4%である(Gil et al.Fetal Diagn.Ther.2014;35:156-73)。4%未満の胎児DNA画分を有する患者では、異数性の有病率は4.7%であると報告され、これは全体コホートにおける0.4%の有病率と比較して有意により高かったことが実証された(Norton et al.N.Engl.J.Med.2015;372:1589-1597)。したがって、そのような検査失敗は、最終的にはNIPTの全体的な性能に悪影響を及ぼし得る。例えば、より高い検査失敗率がより低い実際のPPVをもたらすことが例示された(Yaron Prenat.Diagn.2016;36:391-6)。理論的推定(Yaron Prenat.Diagn.2016;36:391-6)では、実験室での0.1%の失敗率は67%の実際のPPVを与えるが、1%の失敗率は、16.7%の実際のPPVを生じさせ、異数性の増加したリスクと関連していると報告された検査失敗を有する全てのこれらの患者が、胎児が実際に米国産科婦人科学会(ACOG)推奨からの推奨による異数体であるかを確認するために侵襲的検査を行うであろうことを想定する(Yaron Prenat.Diagn.2016;36:391-6)。
【0005】
妊娠の約2%が4%未満の胎児DNA画分を有することが示されている(Wang et al.Prenat.Diagn.2013;33:662-666)。10~21週間の胎児DNAの増加は、非常に微妙(胎児DNA画分において週に約0.1%平均増加)であるため、低い胎児DNA画分を示す第1の血液試料を有する患者の再採血が、十分な胎児DNA画分の正当な理由となる可能性は低い(Wang et al.Prenat.Diagn.2013;33:662-666)。加えて、そのような低胎児DNA画分は、高母体重を有する女性において優先的に発生する。いくつかの研究では、胎児DNA画分4%未満のために結果を報告することができないことは、5.9%に達し得る(Hall et al.PLoS One 2014;9:e96677)。
【0006】
したがって、母体血漿中の低い胎児DNA画分(例えば、4%未満)を有する妊婦についてのNIPTの性能を改善するためのアプローチを開発することは有用であろう。そのような改善は、一般的な染色体異数性(例えば、21トリソミー、18トリソミー、13トリソミー、および性染色体異数性)およびサブ染色体異常(例えば、微小欠失および微小重複)についてのNIPTの性能に有益であろう。加えて、コピー数異常および癌についての検査の精度および効率を改善することは、同様のアプローチで対処することができる。これらおよびその他のニーズは、以下で対処される。
【発明の概要】
【課題を解決するための手段】
【0007】
サイズバンド分析は、染色体領域がコピー数異常を示すか、または癌を検出するために使用されるかを決定するために使用される。特定のサイズに焦点を合わせる代わりに、複数のサイズ範囲が分析され得る。特定のサイズの代わりに複数のサイズ範囲を使用することによって、方法は、臨床関連DNAが低画分の生体試料であり得る場合でも、染色体領域がコピー数異常を示すかを決定することができ得る。複数の範囲を使用することは、ゲノム領域における選択されたリードのサブセットではなく、ゲノム領域からの全ての配列リードの使用を可能にし得る。分析の精度は、類似またはより高い特異度でのより高い感度で増加され得る。分析は、同じ精度を達成するためにより少ない配列決定リードを含み、より効率的なプロセスをもたらし得る。分析は、より低い画分の臨床関連DNAで行われ得るため、分析は、妊娠または癌の初期段階で行われ得る。
【0008】
特定の実施形態では、例えば以下の項目が提供される:
(項目1)
染色体領域が対象からの生体試料においてコピー数異常を示すかを決定する方法であって、前記生体試料が、臨床関連DNA分子および他のDNA分子を含む無細胞DNA分子の混合物を含み、前記方法が、
複数のサイズ範囲の各サイズ範囲について、
前記サイズ範囲に対応する前記生体試料からの無細胞DNA分子の第1の量を測定することと、
コンピュータシステムによって、前記サイズ範囲に対応する無細胞DNA分子の前記第1の量および前記サイズ範囲にないサイズを含む第2のサイズ範囲のDNA分子の第2の量を用いてサイズ比を計算することと、
複数のサイズ範囲の複数の参照サイズ比を含む参照サイズパターンを取得することであって、前記参照サイズパターンが、染色体領域にコピー数異常を有する対象またはコピー数異常を有さない対象からの複数の参照試料から決定される、取得することと、
複数の前記サイズ比と前記参照サイズパターンとを比較することと、
前記比較に基づいて前記染色体領域がコピー数異常を示すかを決定することと、を含む、方法。
(項目2)
前記臨床関連DNA分子が、胎児DNAまたは母体DNAを含む、項目1に記載の方法。
(項目3)
前記臨床関連DNA分子が、腫瘍DNAを含み、前記他のDNA分子が、非腫瘍DNAを含む、項目1に記載の方法。
(項目4)
前記コピー数異常が、異数性である、項目2に記載の方法。
(項目5)
前記コピー数異常が、癌の徴候である、項目3に記載の方法。
(項目6)
前記複数のサイズ範囲の各サイズ範囲が、帯域幅によって特徴付けられる、項目1に記載の方法。
(項目7)
前記帯域幅が、50bp~200bpの範囲にある、項目6に記載の方法。
(項目8)
各サイズ範囲が、前記複数のサイズ範囲のいずれかの他のサイズ範囲と重複していない、項目1に記載の方法。
(項目9)
各サイズ範囲が、前記複数のサイズ範囲のうちの少なくとも1つの他のサイズ範囲と重複している、項目1に記載の方法。
(項目10)
前記サイズ比が、zスコアを含む、項目1に記載の方法。
(項目11)
前記第2のサイズ範囲は、前記複数のサイズ範囲の各サイズ範囲よりも大きい範囲である、項目1に記載の方法。
(項目12)
前記第2のサイズ範囲が、前記生体試料中の無細胞DNA分子の全てのサイズ、または前記染色体領域中の無細胞DNA分子の全てのサイズを含む、項目1に記載の方法。
(項目13)
前記無細胞DNA分子が、ゲノム領域に由来する、項目1に記載の方法。
(項目14)
前記ゲノム領域が、染色体である、項目13に記載の方法。
(項目15)
前記ゲノム領域が、染色体腕である、項目13に記載の方法。
(項目16)
前記複数のサイズ比と前記参照サイズパターンとを比較することが、
前記複数のサイズ比の各サイズ比と前記対応するサイズ範囲での前記参照サイズ比とを比較することと、
各サイズ比が前記対応するサイズ範囲での前記参照サイズ比と統計的に類似することを決定することと、を含む、項目1に記載の方法。
(項目17)
前記複数のサイズ比と前記参照サイズパターンとを比較することが、
前記複数のサイズ範囲について前記複数のサイズ比を含むサイズパターンを決定することと、
前記サイズパターンと前記参照サイズパターンとを比較することと、
前記サイズパターンが前記参照サイズパターンと類似の形状を有することを決定することと、を含む、項目1に記載の方法。
(項目18)
前記参照サイズパターンが、コピー数異常を有する対象からの前記複数の参照試料から決定され、
前記方法が、
前記比較に基づいて前記染色体領域がコピー数異常を示すことを決定することをさらに含む、項目16に記載の方法。
(項目19)
前記参照サイズパターンを取得し、前記複数のサイズ比と前記参照サイズパターンとを比較することが、前記複数のサイズ比を機械学習モデルに入力することを含み、
前記機械学習モデルが、複数の参照試料からの複数の訓練サイズパターンを用いて訓練された、項目1に記載の方法。
(項目20)
前記複数のサイズ比と前記参照サイズパターンとを比較することが、前記複数のサイズ比と前記複数の参照試料から決定される複数の閾値とを比較することを含む、項目1に記載の方法。
(項目21)
対象からの生体試料において癌分類を決定する方法であって、前記生体試料が、腫瘍DNA分子および非腫瘍DNA分子を含む無細胞DNA分子の混合物を含み、前記方法が、
複数のサイズ範囲の各サイズ範囲について、
前記サイズ範囲に対応する前記生体試料からのメチル化無細胞DNA分子の第1の量を測定することと、
コンピュータシステムによって、前記サイズ範囲に対応するメチル化無細胞DNA分子の前記第1の量および前記サイズ範囲にないサイズを含む第2のサイズ範囲のDNA分子の第2の量を用いてメチル化レベルを計算することと、
前記複数のサイズ範囲の複数のメチル化レベルを含む参照サイズパターンを取得することであって、前記参照サイズパターンが、癌を有する対象または癌を有さない対象からの複数の参照試料から決定される、取得することと、
複数の前記メチル化レベルと前記参照サイズパターンとを比較することと、
前記比較に基づいて癌のレベルを決定することと、を含む、方法。
(項目22)
前記第2の量が、メチル化無細胞DNA分子のものである、項目21に記載の方法。
(項目23)
前記メチル化無細胞DNA分子が、染色体腕由来である、項目21に記載の方法。
(項目24)
前記複数のメチル化レベルと前記参照サイズパターンとを比較することが、
前記複数のサイズ範囲の各メチル化レベルと前記対応するサイズ範囲での前記参照メチル化レベルとを比較することと、
各メチル化レベルが前記対応するサイズ範囲での前記参照メチル化レベルと統計的に類似することを決定することと、を含む、項目21に記載の方法。
(項目25)
前記複数のメチル化レベルと前記参照サイズパターンとを比較することとが、
前記複数のサイズ範囲について前記複数のメチル化レベルを含むサイズパターンを決定することと、
前記サイズパターンと前記参照サイズパターンとを比較することと、
前記サイズパターンが前記参照サイズパターンと類似の形状を有することを決定することと、を含む、項目21に記載の方法。
(項目26)
前記参照サイズパターンが、癌を有する対象からの前記複数の参照試料から決定され、
前記方法が、
前記対象が癌を有することを決定することをさらに含む、項目24に記載の方法。
(項目27)
メチル化無細胞DNA分子の前記第1の量が、ゲノム領域由来である、項目21に記載の方法。
(項目28)
前記ゲノム領域が、染色体腕であり、前記染色体腕が、1p、1q、8p、8q、13q、および14qからなる群から選択される、項目27記載の方法。
(項目29)
前記複数のメチル化レベルと前記参照サイズパターンとを比較することが、前記複数のメチル化レベルと前記複数の参照試料から決定される複数の閾値とを比較することを含む、項目21に記載の方法。
(項目30)
前記複数のサイズ範囲が、Mサイズ範囲を含み、
メチル化無細胞DNA分子の前記第1の量を測定することが、前記サイズ範囲に対応し、Nゲノム領域の各ゲノム領域に対応するメチル化無細胞DNA分子の前記第1の量を測定することを含み、
前記サイズ範囲に対応し、前記ゲノム領域に対応するメチル化無細胞DNAの前記第1の量および前記第2の量を用いて前記メチル化レベルを計算することが、N×Mメチル化レベルの測定ベクターを生成し、Nは1以上の整数であり、Mは1超の整数であり、
前記参照サイズパターンが、前記Nゲノム領域および前記Mサイズ範囲の参照メチル化レベルの参照ベクターを含み、前記参照サイズパターンが、癌を有する対象または癌を有さない対象からの複数の参照試料から決定され、
前記複数のメチル化レベルと前記参照サイズパターンとを比較することが、前記測定ベクターと前記参照ベクターとを比較することを含む、項目21に記載の方法。
(項目31)
対象からの生体試料において癌分類を決定する方法であって、前記生体試料が、腫瘍DNA分子および非腫瘍DNA分子を含む無細胞DNA分子の混合物を含み、前記方法が、
Nゲノム領域の各ゲノム領域について
Mサイズ範囲の各サイズ範囲について
前記サイズ範囲に対応し、前記ゲノム領域に対応する前記生体試料からの無細胞DNA分子の第1の量を測定することと、
コンピュータシステムによって、前記サイズ範囲に対応し、前記ゲノム領域に対応する無細胞DNA分子の前記第1の量および前記サイズ範囲にないサイズを含む第2のサイズ範囲のDNA分子の第2の量を用いてサイズ比を計算し、これによってN×Mサイズ比の測定ベクターを生成することであって、Nが1以上の整数であり、Mが1超の整数である、生成することと、
前記Nゲノム領域および前記Mサイズ範囲の参照サイズ比の参照ベクターを含む参照サイズパターンを取得することであって、前記参照サイズパターンが、癌を有する対象または癌を有さない対象からの複数の参照試料から決定される、取得することと、
前記測定ベクターと前記参照ベクターとを比較することと、
前記比較に基づいて癌のレベルを決定することと、を含む、方法。
(項目32)
各ゲノム領域が、染色体腕である、項目31に記載の方法。
(項目33)
前記参照サイズパターンが、機械学習モデルを用いて決定され、前記機械学習モデルが、サポートベクターマシン、決定木、単純ベイズ分類、ロジスティック回帰、クラスタリングアルゴリズム、主成分分析、特異値分解、t分布型確率的近傍埋め込み、および人工ニューラルネットワークからなる群から選択される少なくとも1つを含む、項目31に記載の方法。
(項目34)
前記測定ベクターと前記参照ベクターとを比較することが、癌を有すると決定された個体および癌を有していないと決定された個体の異なるゲノム領域のサイズ比を含む訓練ベクターの訓練セットで訓練された機械学習モデルを使用することを含む、項目31に記載の方法。
(項目35)
前記癌が、肝細胞癌を含む、項目31に記載の方法。
(項目36)
前記癌のレベルが、癌の確率を含む、項目31に記載の方法。
(項目37)
前記参照サイズパターンを取得することおよび前記測定ベクターと前記参照ベクターとを比較することが、機械学習モデルを使用することを含み、
前記機械学習モデルが、複数の参照サイズパターンを用いて訓練され、
前記測定ベクターと前記参照ベクターとを比較することが、前記測定ベクターと前記参照ベクターとの類似性を特徴付けるカットオフ値を決定することを含み、
癌のレベルを決定することが、前記カットオフ値を使用する、項目31に記載の方法。
(項目38)
前記測定ベクターと前記参照ベクターとを比較することが、前記N×Mサイズ比と前記複数の参照試料から決定される複数の閾値とを比較することを含む、項目31に記載の方法。
(項目39)
項目1に記載の操作を行うようにコンピュータシステムを制御するための複数の指示を保存する非一時的コンピュータ可読媒体を備える、コンピュータ製品。
(項目40)
システムであって、
項目39に記載のコンピュータ製品と、
前記非一時的コンピュータ可読媒体上に保存される指示を実行するための1つ以上のプロセッサと、を備える、システム。
(項目41)
前記方法のうちのいずれかを行うための手段を備える、システム。
(項目42)
前記方法のうちのいずれかを行うように構成された、システム。
(項目43)
前記方法のうちのいずれかのステップをそれぞれ行うモジュールを備える、システム。
本発明の実施形態の性質および利点に関するより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態による血漿DNAサイズバンド分析の原理の概略図を示す。
図2A】本発明の実施形態による血漿DNA断片のサイズについての異数体染色体について測定された胎児DNA画分を示す。
図2B】本発明の実施形態による正倍数性および21トリソミー胎児からのDNAを含む試料についてのサイズバンドのzスコアを示す。
図3-1】本発明の実施形態による4%の胎児DNA画分を有する異なる個々の妊娠にわたる異数体染色体について測定されたゲノム表現(GR)のサイズバンドベースの変化するパターンを示す。
図3-2】図3-1の説明に同じ。
図3-3】図3-1の説明に同じ。
図3-4】図3-1の説明に同じ。
図3-5】図3-1の説明に同じ。
図3-6】図3-1の説明に同じ。
図3-7】図3-1の説明に同じ。
図3-8】図3-1の説明に同じ。
図3-9】図3-1の説明に同じ。
図3-10】図3-1の説明に同じ。
図3-11】図3-1の説明に同じ。
図3-12】図3-1の説明に同じ。
図4A】本発明の実施形態による正倍数体および21トリソミー胎児での妊娠間のサイズバンドベースの変化するパターンのヒートマッププロットを示す。
図4B】本発明の実施形態による正倍数体および21トリソミー胎児での妊娠間のサイズバンドベースの変化するパターンのt-SNE(t分布型確率的近傍埋め込み)プロットを示す。
図4C】本発明の実施形態による正倍数体および21トリソミー胎児での妊娠間の従来のzスコアアプローチを用いたzスコア分布を示す。
図5A】本発明の実施形態による異なるサイズバンド間のzスコアパターンを学習することによるニューラルネットワークベースのモデルの性能評価を示す。
図5B図5Aの説明に同じ。
図6】染色体領域が本発明の実施形態による対象からの生体試料においてコピー数異常を示すかを決定する方法を示す。
図7】本発明の実施形態による肝細胞癌(HCC)患者の血漿DNAにおける測定されたメチル化のサイズバンドベースの変化するパターンを示す。
図8】本発明の実施形態による対象からの生体試料における癌分類を決定する方法を示す。
図9】本発明の実施形態による肝細胞癌(HCC)患者の血漿DNAにおける測定されたコピー数異常のサイズバンドベースの変化するパターンを示す。
図10】本発明の実施形態による癌検出のためのサイズバンドゲノム表現(GR)アプローチのワークフローを例示する。
図11A】本発明の実施形態によるサイズバンドGRと従来のzスコアアプローチとの比較を示す。
図11B図11Aの説明に同じ。
図11C図11Aの説明に同じ。
図12】本発明の実施形態による癌分類を決定する方法を示す。
図13】本発明の実施形態による癌検出のためのサイズバンドメチル化密度(MD)アプローチのワークフローを例示する。
図14A】本発明の実施形態によるサイズバンドMDと従来のzスコアアプローチとの比較を示す。
図14B図14Aの説明に同じ。
図14C図14Aの説明に同じ。
図15】本発明の実施形態によるシステムを例示する。
図16】本発明の実施形態によるコンピュータシステムを示す。
【発明を実施するための形態】
【0010】
用語
「試料」、「生体試料」、または「患者試料」という用語は、生きている対象または死んだ対象に由来する任意の組織または物質を含むことを意味する。生体試料は、無細胞試料であり得、これは、対象からの核酸分子と、場合によっては病原体、例えば、ウイルスからの核酸分子との混合物を含み得る。生体試料は一般に、核酸(例えば、DNAまたはRNA)またはその断片を含む。「核酸」という用語は一般に、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはそれらの任意のハイブリッドもしくは断片を指し得る。試料中の核酸は、無細胞核酸であってもよい。試料は、液体試料または固体試料(例えば、細胞または組織試料)であり得る。生体試料は、血液、血漿、血清、尿、膣液、水腫(例えば、精巣の)からの流体、膣洗浄流体、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の異なる部分(例えば、甲状腺、乳腺)からの吸引液などの体液であり得る。便試料もまた、使用することができる。種々の実施形態では、無細胞DNAのために濃縮された生体試料(例えば、遠心分離プロトコルを介して得られた血漿試料)におけるDNAの大部分は、無細胞であり得る(例えば、DNAの50%、60%、70%、80%、90%、95%、または99%超は、無細胞であり得る)。遠心分離プロトコルは、例えば、3,000g×10分で流体部分を得ることと、残留細胞を除去するために30,000gでさらに10分間再遠心分離することと、を含み得る。
【0011】
本明細書で使用されるとき、「遺伝子座(locus)」またはその複数形「遺伝子座(loci)」という用語は、ゲノムにわたって変動を有するヌクレオチド(または塩基対)の任意の長さの場所またはアドレスである。「配列リード」という用語は、核酸分子、例えば、DNA断片の全部または一部から得られる配列を指す。一実施形態では、断片の一端のみが配列決定される。あるいは、断片の両端(例えば、各端から約30bp)を配列決定して、2つの配列リードを生成することができる。対合された配列リードは、次いで参照ゲノムにアラインすることができ、これは断片の長さを提供することができる。さらに別の実施形態では、線状DNA断片は、例えば、ライゲーションによって、環状化することができ、ライゲーション部位に及ぶ部分は、配列決定することができる。
【0012】
本明細書で使用される「断片」(例えば、DNA断片)という用語は、少なくとも3つの連続したヌクレオチドを含むポリヌクレオチドまたはポリペプチド配列の一部を指し得る。核酸断片は、親ポリペプチドの生体活性および/またはいくつかの特徴を保持することができる。核酸断片は、二本鎖または一本鎖、メチル化または非メチル化、インタクトまたはニック、他の高分子、例えば、脂質粒子、タンパク質と複合または非複合であり得る。腫瘍由来の核酸は、腫瘍細胞における病原体からの病原体核酸を含む、腫瘍細胞から放出される任意の核酸を指し得る。
【0013】
「アッセイ」という用語は一般に、核酸の特性を決定するための技法を指す。アッセイ(例えば、第1のアッセイまたは第2のアッセイ)は一般に、試料中の核酸の量、試料中の核酸のゲノム同一性、試料中の核酸のコピー数変動、試料中の核酸のメチル化状態、試料中の核酸の断片サイズ分布、試料中の核酸の突然変異状態、または試料中の核酸の断片化パターンを決定する技法を指す。当業者に既知の任意のアッセイは、本明細書で言及される核酸の特性のいずれかを検出するために使用され得る。核酸の特性には、配列、量、ゲノム同一性、コピー数、1つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、1つ以上のヌクレオチド位置での核酸の突然変異、および核酸の断片化のパターン(例えば、核酸が断片化するヌクレオチド位置(複数可))が含まれる。「アッセイ」という用語は、「方法」という用語と交換可能に使用されてもよい。アッセイまたは方法は、特定の感度および/または特異度を有することができ、それらの診断ツールとしての相対的な有用性は、ROC-AUC統計を使用して測定することができる。
【0014】
本明細書で使用される「ランダム配列決定」という用語は一般に、配列決定される核酸断片が、配列決定手順の前に、具体的に特定または既定されていない配列決定を指す。特定の遺伝子座を標的化するための配列特異的プライマーは、必要とされない。いくつかの実施形態では、アダプタが断片の端部に付加され、配列決定のためのプライマーがアダプタに結合される。よって、任意の断片は、同じ普遍的アダプタに結合する同じプライマーで配列決定することができ、よって、配列決定は、ランダムであり得る。超並列配列決定は、ランダム配列決定を使用して行われ得る。
【0015】
「核酸」は、一本鎖または二本鎖のいずれかの形態のデオキシリボヌクレオチドまたはリボヌクレオチドおよびそれらのポリマーを指し得る。用語は、合成、自然発生、および非自然発生であり、参照核酸と同様の結合特性を有し、参照ヌクレオチドと同様の方法で代謝される、既知のヌクレオチド類似体または修飾されたバックボーン残基もしくは結合を含有する核酸を包含し得る。そのような類似体の例は、限定なく、ホスホロチオエート、ホスホラミダイト、メチルホスホネート、キラルメチルホスホネート、2-O-メチルリボヌクレオチド、ペプチド核酸(PNA)を含み得る。
【0016】
特に示されない限り、特定の核酸配列はまた、その保存的に修飾されたバリアント(例えば、縮退コドン置換)および相補的配列、ならびに明示的に示される配列を黙示的に包含する。具体的には、縮退コドン置換は、1つ以上の選択される(または全ての)コドン第3位が混合塩基および/またはデオキシイノシン残基で置換されている配列を生成することによって達成され得る(Batzer et al.,Nucleic Acid Res.19:5081(1991);Ohtsuka et al.,J.Biol.Chem.260:2605-2608(1985);Rossolini et al.,Mol.Cell.Probes 8:91-98(1994))。核酸という用語は、遺伝子、cDNA、mRNA、オリゴヌクレオチド、およびポリヌクレオチドと交換可能に使用される。
【0017】
自然発生リボヌクレオチドまたはデオキシリボヌクレオチドモノマーに言及することに加えて、「ヌクレオチド」という用語は、特に文脈が明示しない限り、ヌクレオチドが使用されている(例えば、相補的塩基へのハイブリダイゼーション)特定の文脈に関して機能的に同等である、誘導体および類似体を含む、それらの関連構造バリアントを指すと理解され得る。
【0018】
「配列リード」は、核酸分子の任意の一部または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、生体試料に存在する核酸断片全体であり得る。同様に例として、配列リードは、核酸断片から配列決定されるヌクレオチドの短鎖(例えば、約20~150個の塩基)、核酸断片の一端もしくは両端でのヌクレオチドの短鎖、または生体試料に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技法を使用するか、もしくはプローブを使用する様々な方法で、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブで、または単一プライマーもしくは等温増幅を使用するポリメラーゼ連鎖反応(PCR)もしくは線形増幅などの増幅技法で、あるいは質量分析などの生物物理学的測定に基づいて、入手され得る。配列リードは、単一分子配列決定から入手され得る。「単一分子配列決定」とは、テンプレートDNA分子のクローンコピーからの塩基配列情報を解釈する必要なしに配列リードを得るための、単一テンプレートDNA分子の配列決定を指す。単一分子配列決定は、DNA分子の分子全体または一部のみを配列決定し得る。DNA分子の大部分は、例えば、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または99%を超えて配列決定され得る。
【0019】
「普遍的配列決定」という用語は、アダプタが断片の端部に付加され、配列決定のためのプライマーがアダプタに結合される配列決定を指す。よって、任意の断片を同じプライマーで配列決定することができ、よって、配列決定はランダムであり得る。
【0020】
「臨床関連」DNAの例は、母体血漿中の胎児DNAおよび患者の血漿中の腫瘍DNAを含む。別の例は、移植患者の血漿中の移植片関連DNAの量の測定を含む。さらなる例は、対象の血漿中の造血および非造血DNAの相対量の測定を含む。この後者の実施形態は、造血組織および/または非造血組織が関与する病理学的プロセスまたは損傷を検出または監視または予知するために使用することができる。
【0021】
「癌のレベル」(またはより一般的には「疾患のレベル」もしくは「病態のレベル」)という用語は、癌が存在するか(すなわち、存在または不在)、癌のステージ、腫瘍のサイズ、転移があるか、身体の総腫瘍負荷、治療に対する癌の応答、および/または癌の重症度の他の尺度(例えば、癌の再発)を指し得る。癌のレベルは、数字(例えば、確率)または記号、アルファベット文字、および色などの他のしるしであり得る。レベルは、ゼロであり得る。癌のレベルには、前悪性病態または前癌性病態(状態)も含まれ得る。癌のレベルは、様々な方法で使用することができる。例えば、スクリーニングにより、癌を有することを今まで知らなかった人物において癌が存在するかどうかをチェックすることができる。評価は、癌と診断されている人物を調べて、癌の進行を経時的に監視し、療法の有効性を研究し、または予後を決定することができる。一実施形態において、予後は、患者が癌で死亡する可能性、または特定の持続時間または特定の時間の後に癌が進行する可能性、または癌が転移する可能性として表すことができる。検出は、「スクリーニング」を意味することができ、または癌の示唆的な特徴(例えば、症状または他の陽性検査)を有する人物が癌を有するかどうかをチェックすることを意味し得る。「病理学のレベル」とは、病原体に関連する病理学のレベルを指すことができ、そのレベルは癌について上で説明したとおりであり得る。疾患/病態のレベルはまた、癌について上で説明したとおりであり得る。癌が病原体に関連している場合、癌のレベルは病理学のレベルの一種になり得る。
【0022】
本明細書で使用される「染色体異数性」という用語は、二倍体ゲノムの量からの染色体の定量的な量の変動を意味する。変動は、増加または減少であり得る。これは、1つの染色体の全体または染色体の領域を含み得る。
【0023】
本明細書で使用される「配列不均衡」または「異常」という用語は、参照量からの臨床関連染色体領域の量における少なくとも1つのカットオフ値によって定義される任意の有意な偏差を意味する。配列不均衡は、染色体投与量不均衡、対立遺伝子不均衡、突然変異投与量不均衡、コピー数不均衡、ハプロタイプ投与量不均衡、および他の同様の不均衡を含むことができる。一例として、対立遺伝子不均衡は、腫瘍が、欠失した遺伝子の1つの対立遺伝子もしくは増幅した遺伝子の1つの対立遺伝子、またはそのゲノムにおける2つの対立遺伝子の差動増幅を有し、これによって試料において特定の遺伝子座に不均衡を形成する場合、発生し得る。別の例として、患者は、腫瘍抑制遺伝子に遺伝性突然変異を有し得る。患者は次いで、腫瘍抑制遺伝子の非突然変異対立遺伝子が欠失している腫瘍を発生させ得る。よって、腫瘍内では、突然変異投与量不均衡がある。腫瘍がそのDNAを患者の血漿中に放出する場合、腫瘍DNAは、血漿中の患者の(正常細胞からの)構成的DNAと混合されるであろう。本明細書に記載される方法の使用を通して、血漿中のこのDNA混合物の突然変異投与量不均衡を検出することができる。異常は、染色体領域の欠失または増幅を含むことができる。
【0024】
哺乳動物ゲノムにおける「DNAメチル化」とは、典型的には、CpGジヌクレオチド間でシトシン残基の5’炭素へのメチル基の付加(すなわち、5-メチルシトシン)を指す。DNAメチル化は、他の文脈、例えば、CHGおよびCHHにおいてシトシンで生じ得、ここで、Hは、アデニン、シトシン、またはチミンである。シトシンメチル化はまた、5-ヒドロキシメチルシトシンの形態であり得る。N6-メチルアデニンなどの非シトシンメチル化も報告されている。
【0025】
「分類」とは、試料の特定の特性と関連している任意の数(複数可)または他の特徴(複数可)を指す。例えば、「+」という記号(または「陽性」という語)は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二項(例えば、陽性または陰性)であるか、またはより多くのレベルの分類(例えば、1~10または0~1のスケール)を有することができる。
【0026】
「カットオフ」および「閾値」という用語は、操作に使用される所定の数を指すことができる。閾値または参照値は、特定の分類が適用される値より上または下の値、例えば、対象が病態を有するかどうか、または病態の重症度などの病態の分類であってもよい。カットオフは、試料または対象の特徴を参照して、または参照せずに、予め決定されてもよい。例えば、カットオフは、検査される対象の年齢または性別に基づいて選択され得る。カットオフは、検査データの出力後に、かつそれに基づいて選択され得る。例えば、試料の配列決定が特定の深度に達するときに、特定のカットオフが使用され得る。別の例として、1つ以上の病態の既知の分類および測定された特性値(例えば、メチル化レベル、統計的サイズ値、または数)を有する参照対象は、異なる病態および/または病態の分類(例えば、対象が病態を有するか)を区別するために参照レベルを決定するために、使用することができる。これらの用語のうちのいずれも、これらの文脈のうちのいずれにおいても使用することができる。当業者によって理解されるように、カットオフは、所望の感度および特異度を達成するように選択することができる。
【0027】
「部位」(「ゲノム部位」とも呼ばれる)は、単一の塩基位置、または相関する塩基位置の群、例えば、CpG部位、または相関する塩基位置のより大きい群であり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその脈絡における部位と等価にするであろうただ1つの部位を含むことができる。
【0028】
各ゲノム部位(例えば、CpG部位)に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリード数の合計にわたって示す、(例えば、配列リードまたはプローブから決定されるような)DNA断片の割合を指し得る。「リード」は、DNA断片から得られた情報(例えば、部位のメチル化状態)に対応することができる。リードは、特定のメチル化状態のDNA断片と優先的にハイブリダイズする試薬(例えば、プライマーまたはプローブ)を使用して、得ることができる。典型的には、このような試薬は、DNA分子のメチル化状態、例えば、バイサルファイト変換、またはメチル化感受性制限酵素、またはメチル化結合タンパク質、または抗メチルシトシン抗体に応じて、DNA分子を特異的に修飾するか、または特異的に認識するプロセスによる処理後に適用される。別の実施形態において、メチルシトシンおよびヒドロキシメチルシトシンを認識する単一分子配列決定技術を使用して、メチル化状態を解明し、メチル化指数を決定することができる。
【0029】
領域の「メチル化密度」は、この領域における部位をカバーするリード数の合計で割ったメチル化を示す、領域内の部位におけるリード数を指し得る。この部位は、具体的な特徴を有し得、例えば、CpG部位であり得る。したがって、領域の「CpGメチル化密度」は、この領域におけるCpG部位(例えば、特定のCpG部位、CpGアイランド内またはそれより大きな領域のCpG部位)をカバーするリード数の合計で割ったCpGメチル化を示すリード数を指す。例えば、ヒトゲノム中の各100kbビンのメチル化密度は、100kb領域へマップされた配列リードによって覆われた全てのCpG部位の割合として、CpG部位の(メチル化されたシトシンに対応する)バイサルファイト処理後に変換されていないシトシンの総数から判定することができる。この分析はまた、500bp、5kb、10kb、50kb、もしくは1Mbなどの他のビンサイズに対して実施することができる。領域は、全ゲノム、または染色体、または染色体の一部(例えば、染色体腕)であり得る。CpG部位のメチル化指数は、領域がそのCpG部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの割合」は、この領域における解析されたシトシン残基の総数、すなわち、CpGの脈絡外のシトシンを含む、メチル化されている(例えば、バイサルファイト変換後に未変換)ことが示されているシトシン部位「C」の数を指し得る。メチル化指数、メチル化密度、およびメチル化シトシンの割合は、「メチル化レベル」の例であり、これは、部位におけるメチル化リードの数を含む、他の比を含み得る。バイサルファイト変換とは別に、当業者に既知の他のプロセスは、これらに限定されないが、メチル化状態に敏感な酵素(例えば、メチル化感受性制限酵素)、メチル化結合タンパク質、メチル化状態に敏感なプラットフォームを用いる単一分子配列決定(例えば、ナノポア配列決定(Schreiber et al.Proc Natl Acad Sci 2013;110:18910-18915)およびPacific Biosciences単一分子リアルタイム分析(Flusberg et al.Nat Methods 2010;7:461-465)によるもの)を含み、DNA分子のメチル化状態を調べるために使用することができる。
【0030】
「メチル化認識配列」とは、配列決定プロセス中にDNA分子のメチル化状態を確認することができる配列決定方法を指し、これにはバイサルファイト配列決定、またはメチル化感受性制限酵素消化、抗メチルシトシン抗体もしくはメチル化結合タンパク質を使用する免疫沈降、またはメチル化状態の解明を可能にする単一分子配列決定が含まれるが、これらに限定されない。「メチル化認識アッセイ」または「メチル化感受性アッセイ」には、MSP、プローブに基づく調査、ハイブリダイゼーション、制限酵素消化とそれに続く密度測定、抗メチルシトシン免疫アッセイ、メチル化シトシンまたはヒドロキシメチルシトシンの割合の質量分析調査、配列決定を伴わない免疫沈降などの配列決定および非配列決定に基づく方法の両方が含まれ得る。
【0031】
「分離値」(または相対存在量)は、2つのDNA分子量、2つの寄与率、または2つのメチル化レベル(試料(混合物)メチル化レベルおよび参照メチル化レベルなど)などの2つの値を含む差または比に対応する。分離値は、単純な差または比であり得る。例として、x/yの直接比はx/(x+y)と同様に分離値である。分離値は、他の因子、例えば、倍数因子を含むことができる。他の例として、値の関数の差または比、例えば、2つの値の自然対数(ln)の差または比を使用することができる。分離値は、差および/または比を含むことができる。メチル化レベルは、相対存在量の例であり、例えば、メチル化DNA分子(例えば、特定の部位)と他のDNA分子(例えば、特定の部位にある他の全てのDNA分子または非メチル化DNA分子)との相対存在量である。他のDNA分子量は、正規化因子として機能することができる。別の例として、全てまたは非メチル化DNA分子の強度に対するメチル化DNA分子の強度(例えば、蛍光または電界強度)を決定することができる。相対存在量は、体積あたりの強度も含むことができる。
【0032】
「対照」、「対照試料」、「参照」、「参照試料」、「正常」、および「正常試料」という用語は、特定の病態を持たない試料、またはそうでなければ健康な試料を一般的に説明するために交換可能に使用され得る。一例では、本明細書に開示される方法は、腫瘍を有する対象に対して実施することができ、参照試料は、対象の健康な組織から採取された試料である。別の例では、参照試料は、疾患、例えば、癌または癌の特定ステージを有する対象から採取した試料である。参照試料は、対象またはデータベースから取得され得る。参照は一般に、対象からの試料を配列決定することから得られた配列リードをマップするために使用される参照ゲノムを指す。参照ゲノムは一般に、生体試料および生得的試料からの配列リードが整列および比較され得る、1倍体または2倍体ゲノムを指す。1倍体ゲノムについては、各遺伝子座において1つのヌクレオチドのみが存在する。2倍体ゲノムについては、ヘテロ接合遺伝子座を特定することができ、このような遺伝子座は2つの対立遺伝子を有し、いずれかのアレルが、遺伝子座へのアラインメントの一致を可能にし得る。参照ゲノムは、例えば、1つ以上のウイルスゲノムを含めることにより、ウイルスに対応し得る。
【0033】
本明細書で使用される「健康である」という語句は一般に、良好な健康状態を有する対象を指す。このような対象は、悪性疾患または非悪性疾患が存在しないことを示す。「健常者」は、通常「健康である」とはみなされない、アッセイされる病態とは無関係の他の疾患または病態を有し得る。
【0034】
「癌」または「腫瘍」という用語は交換可能に使用され、一般に、組織の異常な塊を指し、その塊の増殖は正常組織の増殖を上回り、協調されない。癌または腫瘍は、以下の特性に応じて「良性」または「悪性」と定義され得る。形態および機能性を含む細胞分化の程度、増殖速度、局所浸潤、および転移。「良性」腫瘍は一般に十分に分化しており、悪性腫瘍よりも特徴的に増殖が遅く、発生部位に局在したままである。さらに、良性腫瘍には、遠隔部位に浸潤、侵襲、または転移する能力を有さない。「悪性」腫瘍は一般に低分化(退形成)であり、周囲組織の進行性浸潤、侵襲、および破壊を伴う特徴的な急速な増殖を示す。さらに、悪性腫瘍には遠隔部位に転移する能力を有する。「ステージ」は、悪性腫瘍の進行状況を説明するために使用されることができる。初期ステージの癌または悪性腫瘍は、後期ステージの悪性腫瘍よりも体内の腫瘍量が少なく、一般的に症状が少なく、予後が良好で、治療成績が良好であることに関連している。後期または進行ステージの癌または悪性腫瘍は、多くの場合、遠隔転移および/またはリンパ拡散に関連している。
【0035】
「偽陽性」(FP)という用語は、病態を有さない対象を指し得る。偽陽性とは一般に、腫瘍、癌、前癌性病態(例えば、前癌性病変)、限局性癌または転移性癌、非悪性疾患を有さない、またはそうでなければ健康である対象を指す。偽陽性という用語は一般に、病態を有さないが、本開示のアッセイまたは方法によって病態を有すると特定される対象を指す。
【0036】
「感度」または「真陽性率」(TPR)という用語は、真陽性の数を真陽性と偽陰性の数の合計で割ったものを指し得る。感度は、真に病態を有する集団の割合を正確に特定するアッセイまたは方法の能力を特徴付けることができる。例えば、感度は、癌を有する集団内の対象の数を正しく特定する方法の能力を特徴付けることができる。別の例では、感度は、癌を示す1つ以上のマーカーを正確に特定する方法の能力を特徴付けることができる。
【0037】
「特異度」または「真陰性率」(TNR)という用語は、真陰性の数を真陰性と偽陽性の数の合計で割ったものを指し得る。特異度は、真に病態を有さない集団の割合を正確に特定するアッセイまたは方法の能力を特徴付けることができる。例えば、特異度は、癌を有さない集団内の対象の数を正しく特定する方法の能力を特徴付けることができる。別の例では、特異度は、癌を示す1つ以上のマーカーを正しく特定する方法の能力を特徴付けることができる。
【0038】
「ROC」または「ROC曲線」という用語は、受信者動作特性曲線を指し得る。ROC曲線は、二項分類システムの性能をグラフィカルに表現されることができる。任意の所与の方法について、様々な閾値設定で感度を特異度に対してプロットすることにより、ROC曲線を生成することができる。対象における腫瘍の存在を検出する方法の感度および特異度は、対象の血漿試料中の腫瘍由来核酸の様々な濃度で決定され得る。さらに、得られた3つのパラメータ(感度、特異度、閾値設定など)のうちの少なくとも1つ、およびROC曲線によって、任意の不明なパラメータの値または期待値を決定し得る。不明なパラメータは、ROC曲線に適合した曲線を使用して決定され得る。「AUC」または「ROC-AUC」という用語は一般に、受信者動作特性曲線下の領域を指す。このメトリックは、方法の感度と特異度の両方を考慮して、方法の診断的有用性の尺度を提供し得る。一般的に、ROC-AUCの範囲は0.5~1.0であり、0.5に近い値は方法の診断的有用性が限られていること(例えば、低感度および/または低特異度)を示し、1.0に近い値は方法の診断的有用性が高いこと(例えば、高感度および/または高特異度)を示す。例えば、参照により本明細書に組み込まれる、Pepe et al,“Limitations of the Odds Ratio in Gauging the Performance of a Diagnostic,Prognostic,or Screening Marker,”Am.J.Epidemiol 2004,159(9):882-890を参照されたい。尤度関数、オッズ比、情報理論、予測値、キャリブレーション(適合度を含む)、および再分類測定を使用して診断的有用性を特徴付ける追加のアプローチは、参照によりその全体が本明細書に組み込まれる、Cook,“Use and Misuse of the Receiver Operating Characteristic Curve in Risk Prediction,”Circulation 2007,115:928-935に要約されている。
【0039】
「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、1以内または1を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大20%、最大10%、最大5%、または最大1%の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の1桁以内、5倍以内、より好ましくは2倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は±10%を指し得る。「約」という用語は、±5%を指し得る。
【0040】
本明細書で使用される用語は、特定のケースのみを説明する目的のものであり、限定することを意図したものではない。本明細書で使用される場合、単数形「a」、「an」、および「the」は、文脈上明らかに別途指示されない限り、複数形も含むことを意図している。「または」の使用は、それとは反対に具体的に示されない限り、「排他的なまたは」ではなく「包含的なまたは」を意味することが意図される。「~に基づいて」という用語は、「~に少なくとも部分的に基づいて」を意味することを意図している。さらに、「~を含む(including)」、「~を含む(includes)」、「~を有する(having)」、「~を有する(has)」、「~とともに(with)」という用語、またはその変形は、詳細な説明および/または特許請求の範囲のいずれかで使用される限りでは、そのような用語は、「~を含む(comprising)」という用語と同様の様態で包括的であることを意図している。
【0041】
無細胞DNAのサイズベース分析は、染色体異数性および癌についての生体試料の分析に使用されている。しかしながら、以前のサイズベース技法では、生体試料が低いパーセンテージの臨床関連DNAを有する場合、統計的に有意な結果を得ることは、困難であり得る。臨床関連DNAの画分が低い場合、以前のサイズベース分析は、単一の分析技法として依存されるのではなく、別のタイプの分析の結果を確認するために使用され得る。本発明の実施形態は、サイズバンドの使用を含み、これは、より多くの無細胞DNAを分析に使用することを可能にし得、サイズのパターンを分析することを可能にし得る。結果として、サイズベース分析は、低画分の臨床関連DNAでも正確に行われ得る。
【0042】
この研究では、我々は、NIPTに必要な胎児DNA画分の限度を下げるために、無細胞DNAのサイズ分析を適用することを目的とした。我々は、特異度に悪影響を与えることなく、NIPTの感度を改善することを目的とする。同様の技法は、癌分析に適用され得る。特定のサイズの代わりに複数のサイズ範囲を使用することは、臨床関連DNAの画分が低い場合でも、生体試料の分析を可能にすることが見出された。実施形態は、染色体領域がコピー数異常(CNA)を示すかを決定するためにサイズバンドを使用することを含み得る。CNAは、異数性または癌に関し得る。実施形態はまた、癌のレベルを決定するためにサイズバンドを使用することを含み得る。
【0043】
I.サイズベース分析
母体血漿中の胎児由来分子が母体DNA分子よりも短いことが実証されている(Chan et al.Clin Chem 2004;50:88-92;Lo et al.Sci.Transl.Med.2010;2:61ra91-61ra91)。研究者らは、そのようなサイズの違いを利用して、NIPTの母体血漿試料中の胎児DNAを濃縮した(Li et al.Clin Chem 2004;50:1002-1011,JAMA 2005;293:843-9;Lun et al.Proc.Natl.Acad.Sci.U.S.A.2008;105:19920-5)。Yu et al.は、胎児染色体異数性が、ペアエンド配列決定データにおいて異数体染色体から短い断片の異常な割合を決定することによって検出され得ることを例示した(Yu et al.Proc.Natl.Acad.Sci.U.S.A.2014;111:8583-8)。そのようなアプローチは、母体血漿中のDNA分子の数と比較される場合、良好なNIPT性能を達成することができる(Yu et al.Proc.Natl.Acad.Sci.U.S.A.2014;111:8583-8)。
【0044】
低胎児DNA画分(例えば、<4%)を有する妊婦における胎児染色体異常の非侵襲的検出の精度を改善するために、以前に検討されてきた1つの可能な方法は、インシリコサイズ選択または物理サイズ選択を通した短いDNA分子の選択的分析である(例えば、全ての目的で参照により本明細書に組み込まれる、2008年7月23日に出願された、WO2009/013496)。これらの方法では、短い血漿DNA分子からのデータまたは分子は、統計分析、疾患分類、および症例解釈の基礎を形成する。胎児由来DNA分子は、母体由来のものと比較してより短いサイズ分布が短いため、短DNA断片の選択的分析は、胎児由来DNA分子を優先的に濃縮し、より高い胎児DNA画分をもたらし得る。
【0045】
胎児DNA画分は、NIPT性能を左右する重要な因子であるため、これは、NIPTの精度を潜在的に改善し得る。しかしながら、150bp未満の長さを有する配列決定されたリードのインシリコ選択は、有効な胎児DNA画分を増加させ得るが、胎児DNA画分とカウントされている分子の数との間のトレードオフのため、単一分子カウントによる異数性検出の感度は必ずしも増加させないであろうことが報告された(Fan et al.Clin.Chem.2010;56:1279-1286)。言い換えると、表1において示されるように、カウントされる血漿DNA断片の数の著しい低減のため、短いDNAを選択することでの以前のアプローチは、配列決定深度を増加させることなく感度を改善することができなかった。分析される血漿DNA断片のサイズを低減することは、分析されるDNA断片の数を低減する。例えば、100bp未満の長さのみが分析される場合、DNA断片は、48.5倍の低減を受ける。同時に、より小さな血漿DNA断片に焦点を当てることによって、胎児DNA画分が濃縮される。例えば、100bp未満の長さについて、胎児DNA画分は、1.78倍の濃縮を有する。しかしながら、1.78倍の濃縮は、分析されている血漿DNA分子における48.5倍の低減と比較して小さい。
【表1】
【0046】
一方で、我々は、特定の閾値未満、例えば、150bpのサイズのDNA分子を活用することによって診断特異度を改善するために、別の血漿DNAサイズベースのアプローチ(米国特許8,620,593)を以前に開発した。この方法では、潜在的な異数性染色体に由来する血漿DNA分子の平均サイズが、他の染色体に由来する血漿DNA分子の平均サイズと比較される。胎児染色体異数性は、過大表現された染色体(例えば、トリソミック染色体)からの血漿DNA分子の平均サイズの短縮または過小表現された染色体(例えば、モノソミック染色体)についての血漿DNA分子の平均サイズの延長をもたらすので、このアプローチは、染色体異数性の非侵襲的な検出の特異度を改善することが示されている。しかしながら、そのようなアプローチは、カウントされる血漿DNA分子の数の低減のため、感度を向上させることを期待することができなかった。
【0047】
異数性染色体のコピー数変化を定量化するために、特定の短いDNA分子のインシリコ選択を使用することを試みる以前の取り組みがいくつかあった(Fan et al.Clin.Chem.2010;56:1279-1286)。しかしながら、そのような特定のサイズを選択は、最終的な臨床分類に寄与するであろうDNA分子の数を低減し、したがって確率的変動を増加させるであろう。分析的に、そのような確率的変動の増加は、変動係数(CV)または標準偏差(SD)の増加として明示され得る。ポアソン分布によると、分析される分子の数の4倍低減毎に、CVは2倍増加するであろう。一方で、循環胎児DNAの画分濃度の2倍増加毎に、胎児染色体異数性の正しい診断に到達するためにカウントする必要がある分子の数は、4倍減少するであろう。150bp未満の分子にサイズ選択を使用する場合、胎児DNA画分は、約2倍増加するが、血漿DNA分子の数は、4.7倍減少するであろう。したがって、単純なサイズ選択による胎児DNA画分の濃縮は、血漿DNA分子の低減の有害な影響を効果的に相殺することができず、これは、単純なインシリコサイズ選択によるNIPTにおける一貫した改善がなかった重要な理由であり得る(Fan et al.Clin.Chem.2010;56:1279-1286)。
【0048】
II.サイズパターン
この研究では、我々は、一連の異なるサイズ範囲にわたる分子数の詳細な変化するパターンを利用することによって、血漿DNAサイズ情報を組み込む新たな方法を開発し、これは、経験的データによれば、驚くべきことに、検査感度の改善をもたらした。血漿DNA分子をより多くのサイズバンドに分画する場合、サイズバンドあたりの配列決定されたDNA分子がはるかに少なくなり、単独の各バンド内の血漿DNA分子が感度を改善することができなかったため、これは直観に反する。1つの特定のバンドを単独で使用する代わりに、我々の新たなアプローチは、性能を改善するために異なるバンドにわたる関係を使用することである。
【0049】
我々は、異数体染色体のゲノム表現(GR)の変化が、異なるサイズの血漿DNA分子中に存在する測定された胎児DNA画分に従って変動するであろうと推論した。無細胞胎児および母体DNAサイズは、2つの別個の断片化パターンを反映するため、我々は、影響を受けた染色体のGR変化間の関係が、非ランダムな方法で異なるサイズ範囲(サイズバンド)に関連しているであろうと仮定した(Lo et al.Sci.Transl.Med.2010;2:61ra91-61ra91)。したがって、我々は、異なるサイズバンドの中で異常染色体に由来するGR値の詳細な変化する形状を分析するための新たなアプローチを開発した。このアプローチの概略原理は、図1において例示される。
【0050】
図1は、血漿DNAサイズバンド分析の原理の概略図100を示す。母体血漿は、それぞれ、胎児および母体細胞に由来する胎児DNA分子(セクション104および分子106における赤波線)および母体DNA分子(セクション108および分子110における黒波線)の混合物を含む。胎児DNA分子は一般に、胎児DNAサイズプロファイルが母体DNA分子のそれに対して左にシフトしていることによって証明されるように、母体のものよりも短い。したがって、測定された胎児DNA画分は、異なるサイズバンドによって変化し、一般により短いサイズ範囲において濃縮するであろう。よって、トリソミック胎児を妊娠している女性について、参照群からのその導出をzスコアによって測定することができる、測定されたゲノム表現(GR)は、異なるサイズバンドによって変動することが予想されるが、対照的に、正倍数体胎児の妊娠では特定の変化は起こらないであろう。
【0051】
図1は、サイズバンドを離散バンドおよびスライディングウィンドウの両方として示す。頻度対サイズのグラフにおいて、異なる色付き列(例えば、列112)は、離散サイズ範囲に対応するサイズバンドを示す。zスコア(chr21)対サイズのグラフ116および118において、色付き列(例えば、列122および列124)は、異なるサイズバンドのzスコアを示す。zスコア対サイズのグラフにおける線126および128は、サイズバンドの結果をスライディングウィンドウとして示す。異数体胎児の妊娠では、線128は、特定のサイズを中心とするサイズバンドのzスコアを示す。例えば、線128上に所与のx座標およびy座標を有するデータ点は、x座標によって示されるサイズを中心とするサイズの範囲についてy座標によって示されるzスコアを有する。各zスコアは、サイズバンド全体について計算されたプールされたzスコアである。よって、正倍数体胎児の妊娠のグラフ116において、線126は、サイズバンドの結果をスライディングウィンドウとして示す。異数体胎児の妊娠のグラフ118において、線128は、サイズバンドの結果をスライディングウィンドウとして示す。
【0052】
サイズバンドが離散またはスライディングウィンドウに基づくかにかかわらず、サイズバンドのzスコアの形状またはパターンは、正倍数体胎児の妊娠と異数体胎児の妊娠との間で明確に異なる。例えば、グラフ116およびグラフ118において示されるように、異数体胎児の妊娠は、正倍数体胎児の妊娠におけるより周期的なパターンと比較した二峰性のパターンを示す。
【0053】
異なるサイズバンドにわたる数のパターンは、胎児DNA画分、腫瘍DNA画分、または他の臨床関連DNA画分に関連し得る。よって、異なるサイズバンドにわたる一連の分子数および異なるサイズバンドベースの読み出し間の関係を同時に定量化するこの新たなアプローチは、特定のサイズのDNA分子のみを使用するアプローチと比較して、血漿DNAサイズ特性を統合する場合、血漿DNA分子を喪失しないであろう。そのような同時定量化は、特定のサイズカットオフ未満の単一読み出しのみの使用と比較して、精度を改善するであろう。血漿におけるコピー数変化のサイズバンドパターンは、これらに限定されないが、人工ニューラルネットワーク、k最近傍アルゴリズム、サポートベクターマシン、および混合ガウスモデルなどのような機械学習アプローチの使用で認識することができる。
【0054】
A.サイズパターンデータ分析の検証
サイズパターン(すなわち、特定のサイズバンドでの無細胞DNAの量に関連する画分またはパラメータの形状)は、無細胞DNAの特性に依存し得る。例えば、サイズパターンは、図1におけるグラフ116および118のように、生体試料が異数体胎児からの無細胞DNAを含むかに依存し得る。第1に、異なるサイズのDNAの胎児DNA画分は、特定のサイズの無細胞DNAが、母体DNAと比較して胎児DNAについて濃縮されることを示すために分析される。第2に、異数体胎児を有する妊婦からのデータは、正倍数体胎児を有する妊婦からのデータに対するサイズバンドを用いて分析される。これらの分析は、CNAが異数体胎児の結果である場合を含め、CNAの差を区別するためにサイズパターンを分析することができることを確認する。
【0055】
1.測定された胎児DNA画分は、異なるサイズバンドによって変動する
胎児DNA画分変化が断片サイズによって非ランダムな方法で変動しないであろうという仮説を検証するために、我々は、我々の以前の研究において記載されるデータを再分析した(Chan et al.Proc.Natl.Acad.Sci.2016;113:E8159 -E8168)。
【0056】
図2Aは、50~400bpの範囲である、血漿DNA断片のサイズについての異数体染色体の測定された胎児DNA画分を示す。X軸は、DNA分子のサイズであり、Y軸は、胎児DNAであるそのサイズでのDNA分子の画分である。例えば、120bpのサイズで、胎児DNA画分は、70.5%であり、これは、120bpのサイズを有するDNA分子のうち、70.5%が胎児由来であり、それらの29.5%が妊婦由来であることを意味する。胎児DNA画分は、男性胎児を有する妊婦からの試料の染色体Yパーセンテージから決定された。胎児DNA画分は、それぞれ、120bpおよび280bpのサイズで濃縮されていることがわかった。70.5%の最大胎児DNA画分は、120bpのサイズで見られ、これは、17.4%の胎児DNA画分で200bpサイズでの最低のものよりも4倍高い。
【0057】
2.血漿DNAにおけるCNAは、異なるサイズバンドについて変動する
不均一なパターンを示す胎児DNA画分の変化は、異数体染色体に由来する分子数の表現に影響を与えるであろう。異数体染色体は、異常な数の染色体を有する。胎児における異常な数の染色体は、母体DNAと比較して胎児DNAの量に影響するであろう。例えば、21トリソミーは、2つのみの代わりに、3つの21染色体を有する。胎児が21トリソミーを有する場合、胎児DNAは、正常正倍数体胎児よりも高い画分を有する。胎児DNAは多くの場合、母体DNAよりも短いため、21トリソミーを有する胎児を妊娠している女性の母体試料は、正倍数体胎児を妊娠している女性の母体試料と比較して、より高い濃度の21染色体からの短いDNAを有する可能性が高いであろう。
【0058】
図2Bは、21トリソミー胎児の妊娠および正倍数体胎児の妊娠のサイズバンドスライディングウィンドウを用いてzスコア結果を示す。サイズバンドスライディングウィンドウの帯域幅は、50bpであった。21トリソミー胎児の妊娠は、4%の胎児DNA画分を有した。図2Bにおいて見られるように、21トリソミー胎児の120bp位置は、分析された全ての試料の中で最も高いzスコアを有し、したがって測定されたコピー数異常の最も高い程度に対応した。異なるサイズバンドは、120bpおよび他のサイズでのzスコアの規模に影響するであろう。影響を受けた染色体のzスコアの計算は、以下に記載される。
【0059】
50bp帯域幅を有するサイズバンドの中点が、長さiに位置する(例えば、サイズバンドの中点が75bpのiに位置し、バンドが50~100bpの範囲にある)と仮定して、標的化染色体(例えば、21染色体)にマップする配列決定リードのパーセンテージは、ゲノム表現i(すなわち、GRi)として示される、目的の特定のサイズ範囲(例えば、50~100bp)内のそのような断片を用いて計算することができる。長さiのzスコアは、下記式で計算され、
【数1】
式中、MiおよびSDiは、長さiを中心とするサイズバンドの標的化染色体のゲノム表現の平均値および標準偏差を表し、これは、この研究では、正倍数体胎児を有する50の妊娠から推測された。サイズの完全なスペクトルは、50~400bpの範囲である、サイズプロファイルにおけるサイズバンドの中点の位置を動的に変化することによって調査されるであろう。
【0060】
図2Bでは、我々は、21トリソミー胎児での妊娠についてのサイズバンドベースのzスコア曲線202において規則的な波状パターンを観察することができる。この観察は、異なるサイズバンドにおける胎児のDNA画分の変化を連想させた。しかしながら、正倍数体胎児での対照群においてそのようなパターンは示されなかった。特定のサイズバンドにおけるそのような変化の規模は、胎児DNA画分の変化とは異なるように思われた。例えば、120 bpでのzスコアは、280bpでのzスコアよりもはるかに高かったが(図2B)、胎児DNA画分は、これら2つのサイズ間で同等であった(図2A)。ばらつきは、166bpよりも短い長さと比較して、166bpよりも長い長さでより急速に減少する分子数の結果であり得、高いサンプリング変動は、長い分子に存在するであろう。
【0061】
図2Bはまた、x軸上の「全て」とラベル付けされた値に対応する円として例示された、全てのサイズについてのzスコアを示す。最も高い円である、赤色円204は、21トリソミーに対応する。赤色円204は、3未満のZスコアを有する。よって、全ての断片を使用し、カットオフとして3のzスコアを使用する場合、この症例は、誤って正倍数体胎児として分類され、偽陰性の結果をもたらすであろう。対照的に、異なるサイズバンドに対して変動するzスコアの変化の別個の形状を使用する場合、症例は、対照群との比較において21トリソミー症例として正しく特定することができる。
【0062】
B.サイズパターン分析の適用
サイズパターンデータは、正倍数体胎児または異数体胎児のいずれかを妊娠している女性について生成された。データは次いで、正倍数体胎児での妊娠と異数体胎児での妊娠との間を区別するためにサイズパターンを使用することができたかを決定するために、機械学習モデルを使用することを含む、異なる技法によって分析された。
【0063】
1.血漿中のCNAのサイズバンド形状は、低胎児画分を有する染色体異数性を知らせる
そのようなサイズバンドベースのzスコアパターンを低胎児DNA画分を有する他の試料に一般化することができるかを評価するために、我々は、各々21トリソミーの胎児での48症例および各々正倍数体胎児での63症例を含む、各々男性胎児での追加の111個の母体血漿DNA試料を分析した。胎児DNA画分は、男性胎児に由来するY染色体配列を用いて推定された(Hudecova et al.PLoS One 2014;9:e88484;Chiu et al.BMJ 2011;342:c7401)。4%以下の低胎児DNA画分を有する十分な症例を有するために、トリソミック胎児での48の妊娠についての各ペアエンド配列決定データセットは、4%胎児DNA画分以下のレベルを達成するために正倍数体胎児での症例からの配列決定データセットとインシリコで混合された。
【0064】
図3は、4%の胎児DNA画分を有する異なる個々の妊娠にわたる異数体染色体について測定されたゲノム表現(GR)のサイズバンドベースの変化するパターンを示す。Y軸は、zスコア値を示し、正倍数体胎児を妊娠している女性と比較した異数体胎児を妊娠している女性における測定されたGRについての導出の程度を示した。X軸は、異なるサイズバンドを示した。赤線(またより濃い線)は、トリソミック胎児での妊娠を表し、灰色線は、正倍数体胎児での妊娠を表した。
【0065】
図3は、トリソミック胎児でのほとんど全ての症例が、正倍数体胎児での症例からのものと比較して、測定されたコピー数異常の一貫して異なるサイズバンドベースのパターンを示したことを示す。各症例では、21トリソミー症例のサイズパターンについての線は、正倍数性症例のパターンとは明らかに異なり、これは、図2Bに示されるように、21トリソミーが全てのサイズ断片についてzスコアを用いることよりも容易に決定されることを可能にすることができる。
【0066】
我々は、トリソミックおよび正倍数体症例を有する妊娠間のデータ構造を視覚化するために、ヒートマップおよびt-SNE(t分布確率的近傍埋め込み)アプローチをさらに使用した。図4Aは、正倍数体および21トリソミー胎児での妊娠間のサイズバンドベースの変化するパターンのヒートマッププロットを示す。青色(例えば、エリア402)は、正倍数体を示すサイズバンドの特徴についてであり、緑色(例えば、エリア404)は、21トリソミーを示すサイズバンドの特徴についてである。図4Aにおけるほぼ全ての症例(46/48、96%)は、21トリソミー胎児症例を一緒にクラスター化することを含む。同様に、正倍数体胎児を含む図4Aにおけるほぼ全ての症例(62/63、98%)は、一緒にクラスター化された。
【0067】
図4Bは、正倍数体および21トリソミー胎児での妊娠間のサイズバンドベースの変化するパターンのt-SNEプロットを示す。t-SNEプロットは、機械学習から決定される2つの特徴に基づく。t-SNEプロットは、21トリソミー症例での妊娠を正倍数体症例での妊娠と容易に区別することができるという一貫した結果を与え(図4B)、血漿DNA中の測定されたコピー数異常のサイズバンドベースの形状が4%などの低胎児DNA画分を有する症例について染色体異数性を知らせることができたことを示した。
【0068】
図4Cは、正倍数体および21トリソミー胎児での妊娠間の従来のzスコアアプローチを用いたzスコア分布を示す。破線は、3のzスコア閾値を示す。3のzスコアカットオフを使用して、21トリソミーの検出率は、48%のみであろう。言い換えると、21トリソミーの52%は、偽陰性をもたらすであろう。加えて、図4Cは、1つの正倍数性妊娠が21トリソミーについて偽陽性をもたらすであろうことを示す。従来のzスコアアプローチは、図4Bにおけるt-SNEアプローチと比較してより低い感度および特異度をもたらし、任意の偽陽性または偽陰性を生成しなかった。
【0069】
2.低胎児DNA画分を有する症例を検出するための機械学習パターン認識
我々は、胎児コピー数異常を検出するためのサイズバンドベースのアプローチの使用をさらに実証するために、ニューラルネットワークモデルを利用した。我々は、試料を訓練および検査データセットに分けた。訓練データセットは、21トリソミー胎児での33の妊娠および正倍数体胎児での63の症例を含み、検査データセットは、15の21トリソミー胎児および50の生倍数体胎児を含有した。各々20ニューロンを有する1つの層で構成されたニューラルネットワークは、サイズバンドにおける隠されたパターンを捕捉するモデルを学習するために使用された。その後、我々は、このモデルを検査データセットに適用した。
【0070】
図5は、ニューラルネットワークモデルの訓練データセットおよび検査データセットを示す。21トリソミーの確率について0.7のカットオフで、我々は、それぞれ、1%、2%、3%、および4%の胎児DNA画分について98%の特異度で40%、80%、100%、および100%感度を達成することができたことがわかった。1%の低胎児DNA画分でも、ニューラルネットワークモデルは、21トリソミーの真陽性を特定する能力を示す。
【0071】
ニューラルネットワークモデル以外の機械学習モデルは、対象における胎児異数性または癌の確率を決定することができるパターンおよび特徴を決定するために使用され得る。これらの機械学習モデルの訓練は、障害または臨床関連特徴によって影響されるものおよびそうでないものからの試料を含むデータセットを使用することができる。訓練に考慮され得るパラメータは、サイズバンドの帯域幅、サイズバンドの中心点、DNA分子の量、DNA分子の場所、エピゲノム信号(例えば、メチル化)、および他の変数を含む。
【0072】
3.コピー数異常を検出するための例示的な方法
図6は、染色体領域が対象からの生体試料においてコピー数異常を示すかを決定する方法600を示す。生体試料は、臨床関連DNA分子および他のDNA分子を含む無細胞DNA分子の混合物を含み得る。臨床関連DNA分子は、胎児DNAまたは母体DNAを含み得る。臨床関連DNA分子が胎児DNAを含む場合、他のDNAは、母体DNAを含み得る。臨床関連DNA分子が母体DNAを含む場合、他のDNAは、胎児DNAを含み得る。臨床関連DNAは、腫瘍DNAを含み得、他のDNA分子は、非腫瘍DNAを含む。
【0073】
ブロック602で、方法600は、複数のサイズ範囲の各サイズ範囲についてのサイズ範囲に対応する生体試料からの無細胞DNA分子の第1の量を測定することを含み得る。無細胞DNA分子は、染色体または染色体の一部であり得る、特定のゲノム領域に由来し得る。例えば、ゲノム領域は、染色体腕であり得る。ゲノム領域は、ゲノムからの任意の領域であり得る。いくつかの実施形態では、無細胞DNA分子は、複数のばらばらなまたは連続したゲノム領域に由来し得る。サイズ範囲は、本明細書に記載されるサイズバンドであり得る。
【0074】
使用する特定のサイズ範囲は、機械学習モデルによって決定され得る。機械学習モデルは、データセットで訓練することができ、モデルは、変動することができ、コピー数異常または臨床病態を検出するために感度および特異度を最適化するために、その範囲(例えば、サイズ範囲の中心点位置および/または帯域幅)が使用される。データセットは、複数の参照サイズパターンを含み得る。機械学習モデルは、サイズ範囲の特定の帯域幅が有利であることを決定し得る。加えて、機械学習モデルは、特定のサイズ範囲が予測結果にとって他よりも重要であり得ることを決定し得る。例えば、サイズ範囲は、100bp~150bpの任意のサイズを中心とするスライドするサイズ範囲であると決定され得る。他の実施形態では、機械学習モデルは、離散した重複しないサイズ範囲が、スライドするサイズ範囲に対して改善した結果を提供し得ることを決定し得る。訓練セットの感度および/または特異度または他の精度に関するコスト関数は、機械学習モデルのパラメータおよび特徴選択(例えば、使用するサイズ範囲および特定のサイズ比)を更新するために使用することができる。検証データセットはまた、モデルの精度を確認するために使用することができる。
【0075】
ブロック604で、方法600は、複数のサイズ範囲の各サイズ範囲について、コンピュータシステムによって、サイズ範囲に対応する無細胞DNA分子の第1の量およびサイズ範囲にないサイズを含む第2のサイズ範囲のDNA分子の第2の量を用いてサイズ比を計算することを含み得る。サイズ比は、無細胞DNA分子のzスコアまたは正規化された量(例えば、画分、パーセンテージ、または相対存在量)であり得る。例えば、サイズ比は、ゲノム表現(GR)であり得る。他の実施形態では、サイズ比は、GRで計算されたzスコア(例えば、図2Bにおける曲線202上の点でのzスコア値)であり得る。
【0076】
各サイズ範囲は、帯域幅を有し得、これは、サイズ範囲におけるサイズの範囲の数値を記載する。例えば、帯域幅は、50bp~100bp、100bp~200bp、200bp~300bp、または300bp~400bpの範囲にあり得る。100bpを中心とする50bpの帯域幅を有するサイズ範囲は、75bp~125bpに及ぶであろう。各サイズ範囲は、複数のサイズ範囲の任意の他のサイズ範囲(例えば、図1における列122および列124などの別個のサイズバンド)と重複していない場合があり得る。他の実施形態では、各サイズ範囲は、複数のサイズ範囲のうちの少なくとも1つの他のサイズ範囲と重複し得る。この方法では、サイズ範囲は、スライディングウィンドウとみなされ得る。スライディングウィンドウは次いで、多くのサイズ(例えば、図1における線126または線128)にわたって連続するサイズ比値をもたらす。
【0077】
第2のサイズ範囲は、複数のサイズ範囲の各サイズ範囲よりも大きい場合があり得る。第2のサイズ範囲は、無細胞DNA分子の全てのサイズを含み得るか、または測定された無細胞DNA分子についてのゲノム領域における無細胞DNA分子の全てのサイズを含み得る。第2のサイズ範囲は、ブロック602における測定された無細胞DNA分子と同じゲノム領域(例えば、同じ染色体(複数可)または染色体腕(複数可))からの無細胞DNA分子を含み得る。第2のサイズ範囲はまた、ブロック602における測定された無細胞DNA分子についてのゲノム領域以外のゲノム領域からの無細胞DNA分子を含み得る。例えば、21トリソミーでは、ブロック602で測定された無細胞分子は、染色体21に由来し得る。この場合では、第2のサイズ範囲は、他の染色体(例えば、参照として、またはゲノム全体にわたって機能する異なる染色体)からの無細胞DNA分子を含み得る。方法600は次いでまた、第2のサイズ範囲にある無細胞DNA分子の量を測定することを含み得る。
【0078】
ブロック606で、方法600は、複数のサイズ範囲の複数の参照サイズ比を含む参照サイズパターンを得ることを含み得る。参照サイズパターンは、コピー数異常を有する対象から、または染色体領域にコピー数異常を有さない対象からの複数の参照試料から決定され得る。例えば、検査されているコピー数異常が胎児異数性に関する場合、参照試料は、正倍数体胎児を有することが知られている対象からのものであり得る。他の実施形態では、参照試料は、胎児異数性を有することが知られている対象からのものであり得る。複数のサイズ範囲の各参照サイズ比は、生体試料の代わりに参照試料を除いて、ブロック604において計算されたサイズ比と同じ方法で決定され得る。例えば、図2Bにおいて、参照試料のサイズパターンは、曲線202を除いて、図2Bにおける曲線のいずれか1つであり得る。参照サイズパターンは、参照試料の全てのサイズパターンの統計的表現であり得る。例えば、参照サイズパターンは、全てのサイズパターンの平均(平均値、中央値、または最頻値)であり得る。例えば、この平均化された参照サイズパターンは、図1における線126であり得る。
【0079】
ブロック608で、方法600は、複数のサイズ比と参照サイズ比とを比較することを含み得る。複数のサイズ比と参照サイズパターンとを比較することは、複数のサイズ比の各サイズ比と対応するサイズ範囲での参照サイズ比とを比較することを含み得る。例えば、複数のサイズ比は、図1における線128を構成する点であり得る。いくつかの場合では、複数のサイズ比は、線128の一部のみを構成し得る。参照サイズパターンが図1における線126であると仮定し、複数のサイズ比と参照サイズパターンとを比較することは、線128の点と線126の参照点との間の統計的比較を含み得る。
【0080】
各サイズ範囲の各サイズ比は、対応するサイズ範囲での参照サイズ比と統計的に類似することが決定され得る。統計的類似性は、閾値を用いて決定され得る。閾値は、サイズ比が参照サイズ比にどれだけ近い必要があるかを示し得る。閾値は、参照サイズ比からの特定の数の標準偏差(例えば、1、2、または3)であり得る。いくつかの実施形態では、全てのサイズ比が参照サイズ比と統計的に類似する必要はない。代わりに、サイズ比の最小数は、統計的に類似し得る。例えば、サイズ比の80%、85%、90%、または95%は、対応する参照サイズ比と統計的に類似し得る。
【0081】
複数のサイズ比と参照サイズパターンとを比較することは、複数のサイズ比と複数の参照試料から決定される複数の閾値とを比較することを含み得る。例えば、各サイズ範囲は、参照試料の標準偏差に基づき得る、異なる閾値を有し得る。単一のサイズ範囲はまた、異なる閾値を有し得、各閾値は、サイズ比が参照試料とは異なるという異なる確実性レベルに関連している。比較することは、超えられた閾値の数をカウントすることと、数が量または画分(例えば、0.5、0.6、0.7、0.8、または0.9)を超えるかを決定することを含み得る。数が量を超える場合、コピー数異常は、染色体領域によって示されることが決定され得る。
【0082】
いくつかの実施形態では、複数のサイズ比と参照サイズパターンとを比較することは、複数のサイズ範囲の複数のサイズ比を含むサイズパターンを決定することを含み得る。サイズパターンは、サイズ比とサイズ範囲とを関連付けるグラフであり得る。例えば、サイズパターンは、図1における線128、図2Bにおける曲線202、または図3における21トリソミー線のいずれかであり得る。サイズパターンは、参照サイズパターンと類似の形状を有すると決定され得る。類似の形状を決定することは、サイズパターンの勾配(例えば、一次導関数)および/または変曲点(例えば、二次導関数)が参照サイズパターンのものと類似することを決定することを含み得る。勾配または変曲点の類似性は、統計的有意性(例えば、特定の数の標準偏差)を示し得る、閾値を用いて決定され得る。
【0083】
いくつかの実施形態では、複数のサイズ比と参照サイズパターンとを比較することは、ニューラルネットワークを含む、機械学習を用いる比較を含み得る。機械学習モデルは、サイズ比を計算する方法、サイズ比と参照サイズパターンとを比較する方法、および/またはサイズパターンが参照サイズパターンに類似するかを決定する方法を決定するために使用することができる。サイズ比を計算する方法は、サイズ範囲の帯域幅ならびに第2のサイズ範囲のサイズおよび帯域幅を決定することを含み得る。サイズ比と参照サイズパターンとを比較する方法は、異なるサイズ範囲の重み付け、およびサイズパターンの0次、1次、または2次導関数を使用するかを決定することが含み得る。サイズパターンが参照パターンに類似するかを決定する方法は、類似性の閾値を決定することを含み得る。
【0084】
参照サイズパターンを取得し、複数のサイズ比と参照サイズパターンとを比較することは、複数のサイズ比を機械学習モデルに入力することを含み得る。機械学習モデルは、複数の参照試料からの複数の訓練サイズパターンを用いて訓練され得る。訓練された機械学習モデル(例えば、ニューラルネットワーク)は、染色体領域に異常を有する試料の確率を出力し得る。
【0085】
ブロック610で、方法600は、比較に基づいて染色体領域がコピー数異常を示すかを決定することを含み得る。コピー数異常は、21トリソミー、18トリソミー、13トリソミー、および性染色体異数性を含む、異数性であり得る。コピー数異常は、癌の徴候であり得る。方法600はまた、癌について対象を治療すること、または異数性について計画を立てることを含み得る。
【0086】
参照サイズパターンが、コピー数異常を有する対象からの複数の参照試料から決定され、比較が、サイズ比またはサイズパターンが参照サイズパターンに類似することを示す場合、染色体領域は、コピー数の異常を示すことが決定され得る。比較がサイズ比またはサイズパターンと参照サイズパターンとの間の差異を示す場合、染色体領域は、コピー数異常を示さないことが決定され得る。いくつかの実施形態では、コピー数異常を示す確率が決定され得る。確率は、サイズ比またはサイズパターンと参照サイズパターンとの類似度または非類似度と相関され得る。確率は、ニューラルネットワークまたは本明細書に記載される任意のモデルを含む、機械学習モデルを用いて決定され得る。
【0087】
あるいは、参照サイズパターンが、コピー数異常を有さない対象からの複数の参照試料から決定され、比較が、サイズ比またはサイズパターンが参照サイズパターンに類似することを示す場合、染色体領域は、コピー数の異常を示さないことが決定され得る。比較がサイズ比またはサイズパターンと参照サイズパターンとの間の差異を示す場合、染色体領域は、コピー数異常を示すことが決定され得る。
【0088】
C.低胎児画分での改善した精度
血漿DNAにおける測定されたコピー数異常のサイズバンドベースのパターンを活用することによってアプローチの性能をベンチマークするために、我々はまた、従来のzスコア(Chiu et al.Proc Natl Acad Sci USA 2008;105:20458-20463)およびサイズ選択方法を用いて、4%、3%、2%、および1%などの異なる胎児DNA画分にわたる特異度および感度を計算した。胎児DNAは、120bpで母体血漿DNA中に存在する測定された胎児DNA画分の最大値を与えたため(図2A)、我々は、約120bpでのサイズバンドが全てのDNA断片を使用するよりも良好な性能を与えるであろうと仮定した。この目的のために、我々は、105~155bpのサイズバンドを選択し、対応するZスコアを計算した。
【0089】
表2は、サイズ選択ありおよびなしの従来のカウントベースの方法と比較した、サイズバンドベースのパターン認識の性能を示す。血漿DNAにおける測定されたコピー数異常のサイズバンドベースのパターンの使用は、従来のZスコアおよびサイズ選択アプローチとの比較において優れた性能を与えた。例えば、我々の研究では、3%の胎児DNA画分で、測定されたコピー数異常のサイズバンドベースのパターンの認識は、98%の特異度で100%感度を与えた。比較として、従来のカウントベースのアプローチは、10%の感度および98%の特異度のみを与えた。150bp未満の断片のサイズ選択を使用して、感度は、43%に改善した。しかしながら、120bpまでのさらに短いサイズの断片を選択すると、感度は20%に低減した。これは、本発明において提案される方法が、サイズ選択を用いる既存のアプローチよりもはるかに良好な分析性能を提供することを示す。
【表2】
【0090】
増加した精度に加えて、本発明の実施形態は、低減した量の配列決定を可能にし得る。サイズパターンアプローチは、特定のサイズの配列リードを破棄することを含まない場合があり得、結果として、所定の配列決定深度での配列リードが分析に使用される。サイズパターンアプローチはそこで、特定のサイズ範囲でより多くのリードを提供するために追加の配列決定を必要としない場合があり得る。さらに、特定の低レベルの胎児画分でより高い配列決定深度でも、サイズバンドまたはサイズパターンを使用しないアプローチは、21トリソミーを依然として正確に決定しない場合があり得る。サイズバンドまたはサイズパターンが分析されない場合、低胎児画分は、21トリソミーと正倍数性症例との間の統計的に有意なサイズ差をもたらさない場合があり得る。さらに、サイズバンドまたはサイズパターンなしでのサイズ選択を用いる既存のアプローチは、他の技法を補完するために使用され得るが、サイズバンドまたはサイズパターンを使用する実施形態は、独立して、21トリソミーまたはコピー数異常を決定するために使用され得る。
【0091】
この研究では、我々は、例えば、2%に及ぶ、低胎児DNA画分を有する妊婦についてNIPTを行うことを可能にする新規方法を開発した。ニューラルネットワークモデルまたは他の機械学習モデルを訓練するためにより多くの試料が使用され、我々は、検出限界をさらに低下させると予想するであろう。我々は、母体血漿DNAにおけるコピー数変化の程度が、トリソミックおよび正倍数体胎児での妊娠間の異なるサイズバンドに関連して別個のパターンを示すであろうという事実を活用した。これは、2%未満の胎児DNA画分に及ぶ胎児染色体異数性の非侵襲的検出の限度を下げることによって、幅広い人口カバレッジを達成するための重要なステップである。従来のアプローチを使用して、4%未満の胎児DNA画分を含む妊娠は、NIPTには適さず、一般的には、報告することができない結果または検査失敗が出されるであろう。
【0092】
我々の新たなアプローチは、検出下限のために偽陰性率を低減するだけでなく、異数性を有するリスクが4%未満の胎児DNA画分を有する妊娠において増加するであろうことを示す多くの報告があったため、実際のPPVも改善する可能性を有する(Norton et al.N.Engl.J.Med.2015;372:1589-1597)。以前に、一部の研究者は、低胎児DNA画分を有する妊娠が、遺伝的カウンセリングを受けるべきであり、異数性の増加したリスクのために包括的な超音波評価および診断検査を提供されるべきであると主張する(Yaron Prenat.Diagn.2016;36:391-396)。胎児DNA画分は一般に、母体重と逆相関しているため(Wang et al.Prenat.Diagn.2013;33:662-666;Hudecova et al.PLoS One 2014;9:e88484)、高ボディマス指数を有する妊娠は、低胎児DNA画分でのシナリオに敏感に取り組むためのそのようなサイズバンドベースのアプローチの能力から特に恩恵を受けるであろう。我々の新たなアプローチの別の使用は、胎児DNA画分が一般的により低い場合、NIPTが妊娠の初期(例えば、妊娠10週前)に行われることを可能にすることであろう。
【0093】
D.腫瘍学におけるメチル化レベル分析
コピー数異常(CNA)はまた、多くの癌で存在する。結果として、CNAは、対象における癌のレベルを決定するために使用され得る。加えて、癌患者はしばしば、特定のゲノム領域においてより高いレベルのメチル化を示す。したがって、メチル化マーカーはまた、癌のレベルを決定するためにサイズバンド分析と組み合わせて使用され得る。
【0094】
1.メチル化でのサイズパターン分析
我々は、メチル化などの他のタイプの癌関連異常もまた、非癌対象から区別することができた特定のサイズバンドベースのパターンを構成するために使用され得るであろうと推論した。したがって、我々はまた、上記のようなHCC患者からの4つの血漿DNA試料をさらに分析した。我々は、健康な対象の臓器ではメチル化されていないと考えられるが、癌患者でははるかに高いメチル化される可能性を有する領域についてのメチル化レベルを定量化するために、これに限定されないが、標的化バイサルファイト配列決定を使用した。我々は、健康な対象との比較においてメチロミック異常に関してサイズバンド関連パターンを調査するために、本明細書に記載されるサイズバンドベースのアプローチを適用した。メチル化は、2013年3月15日に出願された米国特許出願第13/842,209号(2017年8月15日の米国特許第9,732,390号として発行)および2015年7月20日に出願された米国特許出願第14/803,692号にさらに記載され、両方の内容は、全ての目的で参照により本明細書に組み込まれる。
【0095】
図7は、肝細胞癌(HCC)患者の血漿DNAにおける測定されたメチル化のサイズバンドベースの変化するパターンを示す。zスコアは、HCCを有さないことが知られている健康な対象からの参照試料の平均メチル化レベル平均値を計算し、平均メチル化レベルに関連する標準偏差を計算することによって計算される。各サイズバンドのZスコアは、そのサイズバンドでのメチル化レベルと平均メチル化レベル平均値との間の差、および標準偏差によって除算された差として計算される。図7における破線は、+3または-3のzスコアを示し、これは、平均メチル化レベル平均値からの統計的有意性を示すために使用され得る。
【0096】
赤線またはより濃い線702、704、706、および708は、早期HCC(eHCC)を表し、灰色線は、HCCを有さない慢性B型肝炎ウイルス(HBV)キャリアを表した。図7において、我々は、HCC患者(線702、704、706、および708)に関連したメチロミック異常の別個のサイズバンドパターンを確認することができ、これは、HCC01、HCC02、およびHCC03においてHBVキャリア(灰色線)から癌患者を特定することを可能にした。線702、704、および706は、HBV試料の灰色線からかなり高く見える少なくとも2つのピークを有するパターンを示す。線708は、灰色線により近いが、依然としてHBV試料の灰色線よりも高い2つのピークを有する。「全て」とラベル付けされた各グラフにおける右端のデータは、サイズバンドに関係なく、全てのデータについてのプールされたZスコアである。HCC04について、ランダムでないサイズバンドベースの湾曲パターンは、全ての断片の使用で全体的な異常メチル化度(円710によって表される)よりも情報が豊富であることがわかった。異なるグラフにおいて異なるゲノム領域が使用された。染色体腕1qは、HCC01およびHCC04に使用され、10pは、HCC02に使用され、19qは、HCC03に使用された。他の実施形態では、癌を検出するために、例えば、これらに限定されないが、低メチル化、点突然変異、ヒドロキシメチル化、断片化末端などのサイズバンドベースの変化するパターンも使用することができた。
【0097】
2.癌のレベルを決定するための例示的な方法
図8は、対象からの生体試料における癌のレベルを決定する方法800を示す。生体試料は、無細胞DNA分子の混合物を含み得る。無細胞DNA分子は、腫瘍DNA分子および非腫瘍DNA分子を含み得る。
【0098】
ブロック802で、方法800は、複数のサイズ範囲の各サイズ範囲についてのサイズ範囲に対応する生体試料からのメチル化無細胞DNA分子の第1の量を測定することを含み得る。メチル化無細胞DNA分子は、染色体腕に由来し得る。サイズ範囲に対応するメチル化無細胞DNA分子の量を測定することは、無細胞DNA分子がメチル化されていることを除いて、方法600または本明細書に記載される任意の他の方法に記載されるように行われ得る。メチル化無細胞DNA分子の第1の量は、1つ以上のゲノム領域に由来し得る。ゲノム領域は、染色体腕、例えば、1p、1q、8p、8q、13q、または14pであり得る。ゲノム領域の様々な組み合わせが使用され得る。使用する特定の領域は、既知の癌のレベルを有する試料の訓練セットに対して癌のレベルを決定するための領域の様々な組み合わせの精度を分析することによって決定することができる。
【0099】
ブロック804で、方法800は、各サイズ範囲について、コンピュータシステムによって、サイズ範囲に対応するメチル化無細胞DNA分子の第1の量およびサイズ範囲にないサイズを含む第2のサイズ範囲のDNA分子の第2の量を用いてメチル化レベルを計算することを含み得る。第2の量は、メチル化無細胞DNA分子のものであり得る。これらまたは他の実施形態では、第2の量は、非メチル化無細胞DNA分子を含み得る。
【0100】
メチル化レベルは、1つ以上の部位でメチル化または非メチル化されるDNA分子のDNA分子のzスコアまたは正規化された量(例えば、画分、パーセンテージ、または相対存在量)であり得る。例えば、メチル化レベルは、第2の量に対する第1の量の比であり得る。他の実施形態では、メチル化レベルは、zスコアであり得る。Zスコアは、第2の量に対するサイズ範囲に対応する無細胞DNA分子の量の比を用いて計算され得る。次いで、計算された比と平均比平均値との間の差を、標準偏差で割って、Zスコアを決定する。平均比平均値は、対照群(例えば、非癌患者、参照試料、または癌に関連しないゲノム領域)の平均メチル化レベルであってもよい。メチル化レベルがzスコアである場合、サイズ範囲のメチル化レベルは、図7における線702、704、706、および708上の任意の点であり得る。
【0101】
ブロック806で、方法800は、複数のサイズ範囲の複数の参照メチル化レベルを含む参照サイズパターンを得ることを含み得る。複数のサイズ範囲は、機械学習アルゴリズムによって決定され得、方法600について記載されるものと同じ方法で決定され得る。参照サイズパターンは、癌を有する対象または癌を有さない対象からの複数の参照試料から決定され得る。例えば、参照試料は、HCCまたは任意のタイプの癌を有さないことが知られている患者に由来し得る。参照サイズパターンは、HCCを有さない慢性HBVキャリアからのデータに基づき得る。例えば、参照サイズパターンは、図7におけるHBVについての灰色線のいずれかであり得る。いくつかの実施形態では、参照サイズパターンは、方法600で説明されるように、参照試料についての全てのサイズパターンの統計的表現であり得る。
【0102】
ブロック808で、方法800は、複数のメチル化レベルと参照サイズパターンとを比較することを含み得る。方法800は、複数のサイズ比の各メチル化レベルと対応するサイズ範囲での参照メチル化レベルとを比較することを含み得る。メチル化レベルと参照サイズパターンとを比較することは、サイズの代わりにメチル化レベルであることを除いて、サイズ比が方法600における参照サイズパターンと比較される方法で行われ得る。方法800は、各メチル化レベルが対応するサイズ範囲での参照メチル化レベルと統計的に類似することを決定することを含み得る。いくつかの実施形態では、方法800は、各メチル化レベルまたはいくつかのメチル化レベルが、対応するサイズ範囲での参照メチル化レベルと統計的に異なることを決定することを含み得る。
【0103】
いくつかの実施形態では、複数のメチル化レベルと参照サイズパターンとを比較することは、複数のサイズ範囲の複数のメチル化レベルを含むサイズパターンを決定することを含み得る。サイズパターンは、参照サイズパターンと比較され得る。サイズパターンは、参照サイズパターンと類似の形状を有すると決定され得る。方法800における参照サイズパターンとの比較は、方法600における参照サイズパターンとの比較に類似し得る。
【0104】
メチル化無細胞DNA分子の第1の量が、複数のゲノム領域からのものである場合、メチル化レベルは、ゲノムにおけるそれらの場所に基づいて分析され得る。複数のメチル化レベルは、多次元ベクターを含み得る。多次元ベクターは、N×Mであり得、Nは、サイズ範囲の数であり、Mは、ゲノム領域の数である。ゲノム領域は、染色体、染色体腕、または染色体腕の一部であり得る。参照サイズパターンは、同様に多次元ベクター(例えば、サイズN×M)であり得る。複数のメチル化レベルは、機械学習モデルまたは他の技法を用いて参照サイズパターンと比較され得る。多次元ベクターおよびメチル化レベルの使用は、以下に記載される(例えば、図13、14A、14B、および14C)。
【0105】
ブロック810で、方法800は、比較に基づいて癌のレベルを決定することを含み得る。癌のレベルは、対象が癌を有するか否か、癌の可能性、または腫瘍サイズを含み得る。
【0106】
参照サイズパターンが、癌を有する対象からの複数の参照試料から決定され、比較が、類似のメチル化レベルまたは類似の形状の決定を含む場合、対象は、癌を有すると決定され得る。この参照サイズパターンでは、比較が、異なるメチル化レベルまたは異なる形状の決定を含む場合、対象は、癌を有さないと決定され得る。参照サイズパターンが、癌を有さない複数の参照試料から決定され、比較が、異なるメチル化レベルまたは形状の決定を含む場合、対象は、癌を有すると決定され得る。参照サイズパターンが、癌を有さない複数の参照試料から決定され、比較が、類似のメチル化レベルまたは形状の決定を含む場合、対象は、癌を有さないと決定され得る。
【0107】
E.サイズバンドマトリックスでのパターン分析
様々な癌で、染色体腕を含む、特定のゲノム領域は、コピー数異常を有する可能性がより高くなり得る。考えられるコピー数異常について染色体腕によってサイズ範囲を分析することは、癌の確率の決定または癌の検出に役立てるために使用され得る。機械学習モデルは、異なる染色体領域(例えば、腕)でのサイズ特徴のパターンに基づいて癌分類子を決定するために使用することができる。
【0108】
1.サイズパターン分析
癌患者の血漿中の腫瘍由来DNAのサイズプロファイルは、非腫瘍由来DNA分子とは異なることが示され、前者は一般に、より多くの短いDNA分子からなるため(Jiang et al.Proc.Natl.Acad.Sci.2015;112:E1317-E1325)、我々は、本発明に記載されるサイズバンドベースのアプローチが、コピー数異常(CNA)およびメチロミック異常などの癌関連異常を検出するために有用であろうと推論した。例として、我々は、サイズバンドベースのパターン認識を、早期肝細胞癌(HCC)患者の4つの血漿DNA試料およびHCC癌を有さない67個の慢性B型肝炎(HBV)キャリア(HBVキャリア)に適用した。健康な対照の30個の血漿DNA試料は、HCC患者およびHBVキャリアのCNAおよびメチロミック異常を呼び出すために使用されたコピー数変化の正常参照範囲を構築するために使用された。
【0109】
図9は、肝細胞癌(HCC)患者の血漿DNAにおける測定されたコピー数異常のサイズバンドベースの変化するパターンを示す。赤線は、早期HCC(eHCC)を表し、灰色線はHCCを有さない慢性B型肝炎ウイルス(HBV)キャリアを表した。我々は、HCC癌を有する患者における測定されたCNAのサイズバンドパターンの曲線(赤またはより濃い線902、904、906、および908)が、HBVキャリアを有する患者についての曲線(灰色線)とは異なったことを観察する。例えば、HCC01およびHCC03症例は、それぞれ、13qおよび1p染色体腕上でコピー増加を有した。
【0110】
HCC01およびHCC03では、我々は、210bpに中点を有するサイズバンドが、コピー数変化を示すその左側および右側に対する転換点の傾向があった、非ランダムな波状サイズバンドベースのパターンを一貫して検出することができ、120bp付近のサイズバンドパターンは、「ベルカーブ」の傾向を示した。14q欠失を受けたHCC02症例について、逆「ベルカーブ」が存在した。HCC04症例について、我々が全ての断片にZスコアを使用した場合、我々は、3未満であり、非癌患者のZスコアの範囲内に十分に含まれるZスコアを有する円910によって示されるように、癌を検出することができなかった。しかしながら、我々がサイズバンドベースのアプローチを利用した場合、我々は、ランダムなサイズバンドベースのパターン(灰色線)を示す非癌患者からHCC04を区別することができた。対照的に、そのような非ランダムな異なるサイズバンドベースパターンは、対照群には存在しなかった。異なる染色体腕は、異なるサイズのパターンを示す。サイズパターンは、染色体腕に特異的なサイズパターンを参照する必要があり得る。
【0111】
2.サイズバンドGRマトリックスでの癌分類子
癌細胞は一般に、任意の染色体腕で発生するであろうコピー数異常を有し、これは、腫瘍細胞がDNAを癌患者の血液循環に流す場合に血漿において反映されるであろう。腫瘍由来無細胞DNA分子は、バックグラウンド正常無細胞DNAとの比較において異なるサイズ特性を有することが示されている(例えば、腫瘍無細胞DNA分子は、正常細胞に由来するバックグラウンド無細胞DNAよりも短い)ので、異なるサイズ範囲にわたる相対腫瘍DNA画分は、変動するであろう。よって、癌患者の血漿中に存在する異なるサイズ範囲にわたるコピー数異常の測定された程度は、異なるサイズ範囲にわたる相対腫瘍DNA画分の関数であろう。
【0112】
我々は、異なるサイズ範囲にわたる測定されたコピー数異常の詳細なパターンを捕捉することが、癌患者と非癌患者との区別における性能を改善するであろうと提案した。パターンは、複数の領域も含むことができる。
【0113】
図10は、本発明の実施形態による癌検出のためのサイズバンドゲノム表現(GR)アプローチのワークフローを例示する。ステージ1010で、我々は、配列決定された無細胞DNA断片を参照ゲノムにマップした。ステージ1020で、配列決定された断片は、異なる染色体腕にマップされる。
【0114】
ステージ1030で、配列決定された断片は、異なるサイズ範囲(サイズバンド)にさらに分類される。例えば、サイズ範囲は、これらに限定されないが、35-75bp、40-80bp、45-85bp、50-90bp、55-95bp、60-100bp、65-105bp、70-110bp、75-115bp、80-120bp、85-125bp、90-130bp、95-135bp、100-140bp、105-145bp、110-150bp、115-155bp、120-160bp、125-165bp、130-170bp、135-175bp、140-180bp、145-185bp、150-190bp、155-195bp、160-200bp、165-205bp、170-210bp、175-215bp、180-220bp、185-225bp、190-230bp、195-235bp、200-240bp、205-245bp、210-250bp、215-255bp、220-260bp、225-265bp、230-270bp、235-275bp、240-280bp、245-285bp、250-290bp、255-295bp、260-300bp、265-305bp、270-310bp、275-315bp、280-320bp、285-325bp、290-330bp、295-335bp、300-340bp、305-345bp、310-350bp、315-355bp、320-360bp、325-365bp、330-370bp、335-375bp、340-380bp、345-385bp、350-390bp、355-395bp、360-400bp、365-405bp、370-410bp、375-415bp、380-420bp、および385-425bpを含み得る。そのようなサイズ範囲は、全ての他の実施形態にも使用され得る。
【0115】
特定のサイズ範囲内の分子の群について、各染色体腕にマップされた配列決定された断片の割合が計算され、本明細書ではゲノム表現(GR)と呼ばれる。GRは、サイズ範囲内の特定の領域(またはゲノム全体)に対応する全てのDNA断片の割合である。ステージ1030は、様々なサイズ範囲、異なる染色体腕、癌を有することが知られている試料、および癌を有さないことが知られている試料のGRを示す。
【0116】
例として、各染色体腕が71のサイズ範囲を含み、常染色体が合計39の染色体腕を有する場合、サイズ範囲および染色体腕は、2,769次元ベクターをもたらす。ステージ1040は、可能な多次元ベクターを示す表(「サイズバンドGRマトリックス」)を示す。第1の行1042は、癌試料1に対応し、71×N次元ベクターを示し、ここで、Nは、染色体腕の数である。表は、癌のM試料および非癌のP試料を示す。
【0117】
ステージ1050で、多次元ベクターおよび多次元ベクターから形成されるサイズバンドGRマトリックスは、癌分類モデルを訓練するために使用することができる。機械学習アルゴリズムまたは深層学習アルゴリズムは、これらに限定されないが、サポートベクターマシン(SVM)、決定木、単純ベイズ分類、ロジスティック回帰、クラスタリングアルゴリズム、主成分分析(PCA)、特異値分解(SVD)、t分布型確率的近傍埋め込み(tSNE)、人工ニューラルネットワーク、および分類子のセットを構成し、それらの予測の加重投票によって新たなデータ点を分類するアンサンブル方法を含む、癌分類子を訓練するために使用することができた。癌分類子が訓練されると、新たな患者について癌の確率を予測することができる。
【0118】
訓練データは、癌および非癌対象を含むことができる。無細胞DNA測定(サイズバンドGR、メチル化など)をモデル化する機械学習アルゴリズムは、癌と非癌対象との間の最良の分離を与える分類境界を構成するために(例えば、ロジスティック回帰式などの、線形または非線形式で編成された訓練された重みおよび係数のセットを用いて)使用することができる。癌関連データ点への最適分類境界からの無細胞DNA測定を含む新たな試料の入力ベクターの偏差は、癌である可能性を示すであろう。そのような偏差は、正規化または0~1のスケール内の癌の確率に変換することができる。確率が高いほど、癌になる可能性が高くなる。特定の閾値を超える(例えば、>0.6)癌の確率は、癌での陽性検査とみなすことができる。
【0119】
肝細胞癌について、1p、1q、8p、および8qは、一般的にはコピー数に関して異常であったことが報告された(Proc Natl Acad Sci USA.2015 Mar 17;112(11):E1317-25)。よって、サイズバンド癌検出の性能を例示するために、我々は、多数の健康な対照(CTR)、HBVキャリア(HBV)、肝硬変対象(肝硬変)、初期HCC(eHCC)、中期HCC(iHCC)、および進行期HCC(aHCC)を配列決定するために、超並列配列決定プラットフォームを使用した。訓練データセットについて、我々は、限られた数の進行期HCC患者を配列決定し、次いで進行期HCC患者の配列決定結果と非HCC対象のものとを人為的に混合して、0.01%~50%の範囲である腫瘍DNA画分の広いカバレッジを有する十分なHCC陽性患者および非HCC対象を含有する訓練データセットを形成した。この目的のために、401人のHCC患者は、使用される配列決定リードの割合を変動することによって34人のHBV、10人のCTR、および9人のaHCC対象をランダムに繰り返し混合することによって作成され、175人の非HCC患者は、34人のHBV、15人の肝硬変、および10人のCTR対象をランダムに繰り返し混合することによって作成された。SVMアルゴリズムは、そのような401人のHCC患者および175人のin-HCC患者を用いて癌分類子を訓練するために使用された。
【0120】
ステージ1060で、訓練された癌分類モデルは、新たな試料が癌を有するか、または癌を有さないかを予測するために使用することができる。癌の確率は、モデルによって決定され得、閾値を超える確率は、癌の陽性検査とみなされる。
【0121】
癌を検出するためのサイズバンドアプローチおよび従来のzスコアアプローチは、30のCTR、19のHBV、14の肝硬変、36のeHCC、および11のiHCC対象を含む検査データセットに適用された。
【0122】
図11Aは、癌を検出するためのサイズバンドアプローチの結果を示す。SVMは、癌分類子を訓練するために使用された。eHCCおよびiHCC対象の両方は、0.60を超える中央値の癌の確率を有し、iHCCは、eHCCよりも高い確率を有した。CTR、HBV、および肝硬変対象は、0.20未満の確率中央値を示した。癌を検出するためのサイズバンドアプローチは、95%の特異度で64%感度を有した。赤点線は、95%特異度に対応する。
【0123】
図11Bは、癌を検出するための従来のzスコアアプローチの結果を示す。赤点線は、95%特異度に対応し、これは、約4.2のzスコアであった。染色体腕1p、1q、8p、および8qが例として使用された。検査試料の各腕のGRが計算された。対応する平均値および標準偏差も計算された。各腕zスコアは、(GR-平均値)/標準偏差として計算されるであろう。絶対zスコアは、4つの染色体腕に対応する4つの絶対zスコアの合計と等しかった。iHCC対象は、CTR、HBV、肝硬変、およびeHCC対象よりも著しく高い癌の絶対zスコア中央値を有した。iHCCの絶対zスコア中央値は、他の対象の絶対zスコアよりも高かったが、いくらかのiHCC対象のzスコアは、他の対象とかなり類似していた。しかしながら、eHCCの絶対zスコアの中央値は、CTR、HBV、および肝硬変対象のものよりもわずかに高いのみであり、3のzスコア閾値レベルとほぼ同じであった。従来のzスコアアプローチは、95%の特異度で51%感度を有した。よって、サイズバンドアプローチは、従来のzスコアアプローチに対して優れた感度を示す。
【0124】
図11Cは、受信者動作特性曲線(ROC)分析での従来のzスコアアプローチに対するサイズバンドアプローチの優位性を示す(0.84対0.82)。
【0125】
3.サイズバンドゲノム表現(GR)マトリックスでの例示的な方法
図12は、対象からの生体試料における癌分類を決定する例示的な方法1200を示す。生体試料は、腫瘍DNA分子および非腫瘍DNA分子を含む無細胞DNA分子の混合物を含み得る。
【0126】
ブロック1202で、生体試料からの無細胞DNA分子の第1の量が測定され得る。無細胞DNA分子の第1の量は、M範囲の各サイズ範囲およびNゲノム領域の各ゲノム領域に対応し得る。複数のサイズ範囲は、方法600または方法800で記載されるように決定され得る。各ゲノム領域は、染色体腕であり得る。
【0127】
ブロック1204で、サイズ比は、サイズ範囲にないサイズを含む第2のサイズ範囲の無細胞DNA分子の第1の量および無細胞DNA分子の第2の量を用いて計算され得る。サイズ比は、方法600のように計算され得るが、サイズ比は、特定のゲノム領域(例えば、染色体腕)についてのものであり得る。例として、サイズ比は、図10における行1004のゲノム表現GR1、GR2、GR3、...GR71のいずれかであり得る。サイズ比を計算することは、N×Mサイズ比の測定ベクターを生成し得る。Nは、1以上の整数であり得る。NおよびMは、2、3、4、5、または6超を含む、1を超える整数であり得る。
【0128】
ブロック1206で、参照サイズパターンが取得され得る。参照サイズパターンは、Nゲノム領域およびMサイズ範囲についての参照サイズ比の参照ベクターを含み得る。参照サイズパターンは、癌を有する対象または癌を有さない対象からの複数の参照試料から決定され得る。参照サイズパターンは、機械学習モデルを用いて決定され得る。
【0129】
機械学習モデルは、癌を有する個体からの複数のゲノム領域の各々でのサイズ比を含むサイズ比の訓練セットを用いて決定され得る。癌分類子は、機械学習アルゴリズムまたは深層学習アルゴリズムを用いて決定され得る。機械学習モデルまたは深層学習アルゴリズムは、サポートベクターマシン(SVM)、決定木、単純ベイズ分類、ロジスティック回帰、クラスタリングアルゴリズム、主成分分析(PCA)、特異値分解(SVD)、t分布型確率的近傍埋め込み(tSNE)、人工ニューラルネットワーク、または本明細書に記載される任意のアルゴリズムを含み得る。訓練セットは、癌を有すると決定された個体および癌を有さないと決定された個体の異なるゲノム領域でのサイズ比を含み得る。機械学習モデルは、図10における癌分類子であり得る。
【0130】
ブロック1208で、測定ベクターは、参照ベクターと比較され得る。比較は、機械学習モデルを用いて比較され得る。比較は、測定ベクターと参照ベクターとの類似性に基づく値をもたらし得る。
【0131】
測定ベクターと参照ベクターとを比較することは、N×Mサイズ比と複数の参照試料から決定される複数の閾値とを比較することを含み得る。例えば、各サイズ範囲は、参照試料の標準偏差に基づき得る、異なる閾値を有し得る。したがって、N×M閾値があり得る。単一のサイズ範囲はまた、異なる閾値を有し得、各閾値は、サイズ比が参照試料とは異なるという異なる確実性レベルに関連している。比較することは、超えられた閾値の数をカウントすることと、比較に基づいて癌のレベルを決定することと、を含み得る。超えられたより高いレベルの閾値は、測定ベクターと参照ベクターとの間のより大きな差を示し得る。
【0132】
ブロック1210で、癌のレベルは、比較に基づいて決定され得る。癌は、肝細胞癌を含み得る。癌は、結腸直腸癌、肺癌、鼻咽頭癌、卵巣癌、胃癌、および血液癌を含み得る。方法1200は、癌と非癌対象との間の区別を可能にし得る。対象は、測定ベクターと参照ベクターとの類似性に基づく値に基づいて、癌を有するか、または高い癌の可能性を有すると分類され得る。類似性に基づく値は、カットオフ値と比較され得る。カットオフ値をより大きく超える類似性に基づく値は、より高い癌の可能性または重症度を示し得る。方法は、対象が癌を有するか、または高い癌の可能性を有すると分類される場合、癌を治療することをさらに含み得る。
【0133】
方法1200は、癌の代わりに自己免疫障害のレベルを決定するように適合され得る。自己免疫障害は、全身性エリテマトーデス(SLE)を含み得る。DNA断片のサイズは、その内容が全ての目的のために参照により本明細書に組み入れられる、2014年9月19日に出願された、米国特許出願公開第2015/0087529A1号に記載されるように、SLEに関連することが見出されている。自己免疫障害のレベルは、測定ベクターと参照ベクターとを比較することによって決定され得る。参照ベクターは、参照サイズパターンからのものであり得る。参照サイズパターンは、健康な対象または既知の自己免疫障害のレベルを有する対象からの試料から決定され得る。方法1200は、自己免疫障害ありおよびなしの対象間の区別を可能にし得る。
【0134】
4.サイズバンドメチル化密度(MD)マトリックスでの癌分類子
癌細胞は一般に、任意のゲノム領域において発生するであろう特定のメチル化パターンを有する。例えば、癌細胞では、Aluリピート領域は、非悪性細胞と比較して優先的により少なくメチル化され得、CpGアイランド領域は、非悪性細胞と比較して優先的によりメチル化され得る。そのような癌関連異常メチル化信号は、腫瘍細胞がDNAを血液循環に流す場合に癌患者の血漿において反映され得る。上記で説明されるように、様々なサイズ範囲にわたる相対腫瘍DNA画分は変動する。よって、癌患者の血漿中に存在する異なるサイズ範囲にわたる癌関連メチル化レベルの測定された程度は、異なるサイズ範囲にわたる相対腫瘍DNA画分の関数であろう。
【0135】
我々は、異なるサイズ範囲にわたる測定されたメチル化異常の詳細なパターンを捕捉することが、癌患者と非癌患者との区別における性能を改善するであろうと提案した。
【0136】
図13は、本発明の実施形態による癌検出のためのサイズバンドメチル化密度(MD)アプローチのワークフローを例示する。ステージ1310で、我々は、配列決定されたバイサルファイト変換無細胞DNA断片を参照ゲノムに、Methy-Pipe(Jiang et al.,PLoS One.2014;9(6):e100360)または他のメチル化対応アライナーを用いてマップした。ステージ1320で、異なる差動メチル化領域にマップされた配列決定された断片が配置される。
【0137】
ステージ1330で、配列決定された断片は、異なるサイズ範囲(サイズバンド)にさらに分類される。例えば、サイズ範囲は、図10についてステージ1030に記載されるサイズ範囲を含む、本明細書に記載される任意のサイズ範囲を含み得る。
【0138】
特定のサイズ範囲内の分子の群について、目的の領域上の配列決定されたCpG(例えば、AluリピートまたはCpGアイランド)の割合が計算され、メチル化レベルを反映するメチル化密度(MD)をもたらすであろう。領域は、造血細胞(例えば、T細胞、B細胞、好中球、マクロファージ、赤芽細胞など)、肝臓細胞、および結腸細胞を含む、肝臓癌細胞と他の正常細胞との間で異なるメチル化レベルを示し得る。ステージ1330は、異なるサイズ範囲、異なるゲノム領域、癌を有することが知られている試料、および癌を有さないことが知られている試料のMDを示す。
【0139】
例として、各領域が、71のサイズ範囲を含み、合計32,450の領域があり、肝臓癌細胞と他の正常細胞との間の作動的メチル化を示す場合、サイズ範囲およびゲノム領域は、2,303,950次元ベクターをもたらす。ステージ1340は、可能な多次元ベクターを示す表(「サイズバンドMDマトリックス」)を示す。表の第1の行1342は、癌試料1に対応し、71×N次元ベクターを示し、ここで、Nは、ゲノム領域の数である。表は、癌のM試料および非癌のP試料を示す。
【0140】
ステージ1350で、多次元ベクターおよび多次元ベクターから形成されるサイズバンドMDマトリックスは、癌分類モデルを訓練するために使用することができる。訓練は、図10のステージ1050を含む、例えば、本明細書に記載されるような、分類を行う任意の好適な機械学習モデルによるものであり得る。癌分類子が訓練されると、新たな患者の癌を示す試料の確率を予測することができる。特定の閾値を超える(例えば、>0.6)癌の確率は、癌での陽性検査とみなすことができる。
【0141】
サイズバンドメチル化レベルの使用での癌検出の性能を例示するために、我々は、多数の健康な対照(CTR)、HBVキャリア(HBV)、肝硬変対象(肝硬変)、初期HCC(eHCC)、中期HCC(iHCC)、および進行期HCC(aHCC)を配列決定するために、超並列配列決定プラットフォームを使用した。訓練データセットについて、我々は、限られた数の進行期HCC患者を配列決定し、次いで進行期HCC患者の配列決定結果と非HCC対象のものとを人為的に混合して、0.01%~50%の範囲である腫瘍DNA画分の広いカバレッジを有する十分なHCC陽性患者および非HCC対象を含有する訓練データセットを形成した。この目的のために、140人のHCC患者は、使用される配列決定リードの割合を変動することによって27人のHBVおよび7人のaHCC対象をランダムに繰り返し混合することによって作成され、140人の非HCC患者は、7人のHBVおよび20人のCTR対象をランダムに繰り返し混合することによって作成された。SVMアルゴリズムは、そのような140人のHCC患者および140人の非HCC患者を用いて癌分類子を訓練するために使用された。
【0142】
ステージ1360で、訓練された癌分類モデルは、新たな試料が癌を有するか、または癌を有さないかを予測するために使用することができる。癌の確率は、モデルによって決定され得、閾値を超える確率は、癌の陽性検査とみなされる。
【0143】
図14A、14B、および14Cは、本発明の実施形態によるサイズバンドMDと従来のzスコアアプローチとの比較を示す。図14Aは、サイズバンドMDアプローチの結果を示す。図14Bは、従来のzスコアアプローチの結果を示す。
【0144】
図14Aおよび14Bは、27人のHBV、36人のeHCC、および11人のiHCC対象を含む検査データセットにおいて、癌を検出するためのサイズバンドメチル化アプローチが従来のzスコアアプローチよりも優れていたことを示す。従来のzスコアアプローチは、次の方法で行われた。(1)目的の全ての領域に由来する総断片についての(「X」によって示される)プールされたメチル化レベルが計算され、(2)プールされたメチル化レベルの平均値(M)、および非癌群におけるプールされたメチル化レベルの標準偏差(SD)が計算され、(3)次いで従来のメチル化zスコアが、zスコア=(X-M)/SDによって定義される。SVMは、癌分類子を訓練するために使用された。図14Aにおけるサイズバンドメチル化アプローチは、92.5%の特異度で74.5%の感度を有した。対照的に、図14Bにおける従来のzスコアアプローチは、92.5%の特異度で、より低い感度、65.9%の感度を有した。増加した感度は、重要な利益をもたらし得る。早期癌の早期検出は一般に、より良好な治療転帰と関連している。eHCC群およびiHCC群の両方は、治療可能なステージであるとみなされる。したがって、治療可能な症例における感度の任意の増加は、臨床的影響を有し、患者の非常に異なる生存プロファイルにつながり得る。
【0145】
図14Cは、受信者動作特性曲線(ROC)分析におけるサイズバンドメチル化アプローチの優位性を示す(SVM:0.89AUC対zスコア:0.87AUC)。
【0146】
したがって、ゲノム表現(GR)を有する多次元ベクターの使用(例えば、図10~12)は、GRの代わりにメチル化密度を用いる分析に適合され得る。
【0147】
F.追加サイズパターン適用
サイズバンドベースのパターンは、血漿DNAに見られるそれらの異常の起源を知らせるであろう。例として、妊娠の文脈において、コピー数異常が母親に由来する場合、母体DNA断片が胎児DNAよりも長いため、サイズバンドパターンは、胎児由来のものと比較して逆方向に発生するであろう(Yu et al.Clin.Chem.2017;63:495-502)。サイズバンドベースの分子診断はまた、癌などの他の臨床病態における無細胞DNAの分析に適用することができ(Jiang et al.Proc.Natl.Acad.Sci.2015;112:E1317-E1325)、点突然変異、サブ染色体異常、およびエピジェネティック異常の検出を向上させることを含む。臨床病態は、移植された組織または臓器に対する免疫応答の存在を決定することを含み得る。
【0148】
さらに、全身性エリテマトーデス(SLE)患者の血漿DNA中に存在する見かけのコピー数変化(Chan et al.Proc.Natl.Acad.Sci.2014;111:E5302-E5311)は、特定の細胞における真のコピー数の変化ではなく、特定のDNA配列への抗DNA抗体の優先的な結合によるものである可能性が高いので、SLEなどの血漿DNA中に存在する血漿DNA交絡異常を区別することも可能になるであろう。よって、サイズバンドベース分析は、SLE患者の血漿中に存在する測定されたコピー数異常について異なるサイズバンドに関してランダムな形状変化を認めることが予想されるであろう。
【0149】
実施形態は、患者における疾患または病態のレベルまたは確率を決定した後に、患者における疾患または病態を治療することを含み得る。治療には、本明細書で言及される参考文献に記載される任意の治療を含む、任意の好適な療法、薬物、または外科手術が含まれ得る。参考文献における治療に関する情報は、参照により本明細書に組み込まれる。
【0150】
III.材料および方法
試料収集および処理
この後ろ向き研究のために分析された匿名化されたデータは、Chinese University of Hong KongのUniversity Pathology Service(UPS)における既存の患者データから得られた。161個の試料からなる患者データは、UPSの実験室で開発された検査の結果として生成された。腫瘍切除のためにDepartment of Surgery of the Prince Wales Hospital,Hong Kongに入院したHCCを有する匿名化された患者が動員された。全ての血液は、手術前に収集された。匿名化されたHBVキャリアおよび肝硬変対象は、Department of Medicine and Therapeutics of the Prince of Wales Hospital,Hong Kongから動員された。試料は、血液を遠心分離して血漿を得ることによって得られた。簡潔には、末梢血試料は、その後4℃で10分間1,600gで遠心分離された、EDTA含有チューブに収集された。血漿部分は、さらなる分析まで-80℃で保存された無細胞血漿を得るために、4℃で10分間16,000gで再遠心分離された。DNAは、QIAamp DSP DNA Blood Mini Kit(Qiagen)を用いて、4~10mLの血漿から抽出された。血漿DNAは、SpeedVac Concentrator(Savant DNA120、Thermo Scientific)で、試料あたり75μLの最終体積に濃縮された。
【0151】
配列決定ライブラリー調製およびDNA配列決定
抽出された血漿DNAを使用して、インデックス付きDNAライブラリーは、製造業者の指示に従ってペアエンド配列決定試料調製キットで構成された。このステップでは、血漿二本鎖DNA分子は、末端修復して鈍端を形成し、同時に余分なA塩基が追加された。PCR増幅を支援し、フローセルにアニーリングし、配列決定を促進することができるアダプタは、配列決定ライブラリーを形成するためにAタグ付き二本鎖血漿DNA分子にライゲートされた。ライブラリーは、以前に記載されるように、各端について36または50または75サイクルの使用で、ペアエンドモードで配列決定することができる(Yu et al.Proc.Natl.Acad.Sci.U.S.A.2014;111:8583-8)。
【0152】
配列アラインメント
各試料からの配列は、以前に記載されるように、短オリゴヌクレオチドアラインメントプログラム2(SOAP2)(Li et al.Bioinformatics 2009;25:1966-1967)を用いてヒト参照ゲノム(hg19)にアラインされた(Yu et al.Proc.Natl.Acad.Sci.U.S.A.2014;111:8583-8)。平均で、各試料は、1200万個の一意にマップされたペアエンドリードを得た(範囲:1000万~1500万)。
【0153】
メチル化レベル
配列リードの部位のメチル化状態は、本明細書に記載されるように得ることができる。例えば、DNA分子は、DNA分子の配列リードを使用して分析することができ、この場合、配列決定はメチル化認識である。例えば、メチル化認識配列決定は、バイサルファイト配列決定、または配列決定に先立つメチル化感受性制限酵素消化、抗メチルシトシン抗体もしくはメチル化結合タンパク質を使用する免疫沈降、またはメチル化状態の解明を可能にする単一分子配列決定を含むことができるが、これらに限定されない。他のメチル化認識アッセイも使用することができる。
【0154】
配列リードはそれぞれ、生体試料の無細胞DNA分子のメチル化状態を含むことができる。メチル化状態は、特定のシトシン残基が、5-メチルシトシンまたは5-ヒドロキシメチルシトシンであるかどうかを含み得る。配列リードは、様々な方法、様々な配列決定技術、PCR技術(例えば、リアルタイムまたはデジタル)、アレイ、および断片の配列を特定するためのその他の好適な技術で得ることができる。リアルタイムPCRは、例えば、部位でメチル化されたDNAの数に比例する強度信号として、DNA群を集合的に分析する例である。配列リードは、2つの部位の相互の近接度と配列リードの長さに応じて、2つ以上の部位をカバーすることができる。
【0155】
分析は、メチル化認識配列決定から配列リードを受信することによって行うことができ、したがって、分析は、DNAから以前に得られたデータにのみ分析を行うことができる。他の実施形態では、分析は、実際の配列決定、またはDNA分子の特性の測定を実行する他の能動的ステップを含み得る。配列決定は、例えば、超並列配列決定または次世代配列決定を使用して、単一分子配列決定を使用して、および/または二本鎖もしくは一本鎖DNA配列決定ライブラリー調製プロトコル、ならびに本明細書に記載の他の技術を使用して、様々な方法で実行することができる。配列決定の一部として、配列リードの一部が細胞核酸に対応し得ることが可能である。
【0156】
配列決定は、例えば本明細書に記載されるような標的化配列決定であり得る。例えば、ウイルスからの核酸分子に対して生体試料を濃縮することができる。ウイルス由来の核酸分子の生体試料の濃縮には、ウイルスの一部またはウイルスのゲノム全体に結合する捕捉プローブの使用を含むことができる。他の実施形態は、ウイルスの特定の遺伝子座に特異的なプライマーを使用することができる。生体試料は、ヒトゲノムの一部、例えば常染色体の領域由来の核酸分子について濃縮され得る。図1は、そのような捕獲プローブの例を示す。他の実施形態では、配列決定はランダム配列決定を含むことができる。
【0157】
配列決定装置による配列決定後、配列リードは、例えば、有線または無線通信または取り外し可能な記憶装置を介して配列決定を実行する配列決定装置に通信可能に結合され得るコンピュータシステムによって受信され得る。いくつかの実施形態では、核酸断片の両端を含む1つ以上の配列リードが受信され得る。DNA分子の位置は、DNA分子の1つ以上の配列リードをヒトゲノムのそれぞれの部分、例えば、特異的メチル化領域(DMR)などの特定の領域にマップ(アライン)することにより決定することができる。一実施態様では、リードが目的の領域にマップされない場合、リードを無視することができる。他の実施形態では、特定のプローブ(例えば、PCRまたは他の増幅後)は、特定の蛍光色などを介して位置を示すことができる。特定は、無細胞DNA分子が1つ以上の部位のセットのうちの1つに対応するものであり得、すなわち、1つ以上の部位でメチル化されたDNAの量が必要とされる全てであるため、特定の部位が不明となり得る。
【0158】
配列決定およびアラインメント後、個々のCpG部位のメチル化状態はよって、CpG文脈におけるシトシン残基でのメチル化配列リード「M」(メチル化)の数および非メチル化配列リード「U」(非メチル化)の数から推測することができた。バイサルファイト配列決定データを使用して、母体血液、胎盤、および母体血漿のメチローム全体が構成された。母体血漿中の特定の遺伝子座のメチル化CpG密度平均値(メチル化密度、MDとも呼ばれる)は、下記方程式を用いて計算することができ、
【数2】
式中、Mは、メチル化リードの数であり、Uは、遺伝子座内のCpG部位での非メチル化リードの数である。遺伝子座内に2つ以上のCpG部位がある場合、MおよびUは、部位にわたる数に対応する。
【0159】
代替として、メチル化アッセイは、Infinium HDメチル化アッセイプロトコルに従って、バイサルファイト変換されたゲノムDNAで行うことができる。ハイブリダイズされたビーズチップは、Illumina iScan装置でスキャンすることができる。DNAメチル化データは、内部制御に対する正規化およびバックグラウンド減算とともに、GenomeStudio(v2011.1)Methylation Module(v1.9.0)ソフトウェアによって分析された。個々のCpG部位のメチル化指数は、ベータ値(β)によって表すことができ、これは、メチル化および非メチル化対立遺伝子間の蛍光強度の比を用いて計算され得る。
【数3】
【0160】
胎児DNA画分の計算
男性胎児を有する妊娠において、母体血漿試料中の胎児DNA画分(f)は、Y染色体(chrY%)にアラインされたリードの割合から決定することができる。以前の研究では、女性胎児を有する妊婦の血漿中の少数の配列は、Y染色体に誤ってアラインされていたことが示された(Chiu et al.Proc Natl Acad Sci USA 2008;105:20458-20463)。したがって、男性胎児を有する妊婦の血漿中のchrY%は、男性胎児に由来するY染色体リードおよびY染色体にミスアラインされた母体リードの混合物であった(Chiu et al.BMJ 2011;342:c7401)。男性胎児を有する妊娠におけるchrY%とfとの間の関係は、下記方程式を用いて表すことができ、chrY%=chrY男性%×f-chrY女性%×(1-f)式中、chrY男性%は、100%男性DNAを含有する血漿試料におけるY染色体にアラインされたリードの割合であり、chrY女性%は、100%女性DNAを含有する血漿試料におけるY染色体にアラインされたリードの割合である。
【0161】
特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨および範囲から逸脱することなく、任意の好適な様態で組み合わせることができる。しかしながら、本発明の他の実施形態は、各個々の態様、またはこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象とし得る。
【0162】
IV.例示的なシステム
図15は、本発明の一実施形態によるシステム1500を例示する。示されるシステムは、試料ホルダ1510内の無細胞DNA分子などの試料1505を含み、試料1505は、アッセイ1508と接触して物理的特性1515の信号を提供することができる。試料ホルダの例は、アッセイのプローブおよび/もしくはプライマー、または液滴が(アッセイを含む液滴とともに)移動するチューブを含む、フローセルであり得る。試料からの蛍光強度値などの物理的特性1515は、検出器1520によって検出される。検出器は、データ信号を構成するデータ点を得るために、間隔(例えば、周期的な間隔)を空けて測定を行うことができる。一実施形態において、アナログデジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。試料ホルダ1510および検出器1520は、アッセイデバイス、例えば、本明細書に記載される実施形態に従って配列決定を行う配列決定デバイスを形成することができる。データ信号1525は、検出器1520から論理システム1530へ送信される。データ信号1525は、ローカルメモリ1535、外部メモリ1540、またはストレージデバイス1545に保存され得る。
【0163】
論理システム1530は、コンピュータシステム、ASIC、マイクロプロセッサなどであってもよいか、またはそれらを含んでもよい。それはまた、ディスプレイ(例えば、モニタ、LEDディスプレイなど)、およびユーザ入力デバイス(例えば、マウス、キーボード、ボタンなど)を含み得るか、またはそれらに連結され得る。論理システム1530および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であってもよく、または検出器1520および/もしくは試料ホルダ1510を含むデバイス(例えば、配列決定デバイス)に直接取り付けられても組み込まれてもよい。論理システム1530はまた、プロセッサ1550において実行するソフトウェアを含み得る。論理システム1530は、本明細書に記載される方法のいずれかを行うようにシステム1500を制御するための指示を保存するコンピュータ可読媒体を含み得る。例えば、論理システム1530は、配列決定または他の物理的操作が行われるように、試料ホルダ1510を含むシステムにコマンドを提供することができる。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、行うことができる。そのような物理的操作は、試料を入手してアッセイを行うために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって行われ得る。
【0164】
本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用してもよい。そのようなサブシステムの例は、図16においてコンピュータ装置1600において示されている。いくつかの実施形態において、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態において、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含むことができる。
【0165】
図16に示されるサブシステムは、システムバス1675を介して相互接続される。プリンタ1674、キーボード1678、固定ディスク1679、ディスプレイアダプタ1682に結合しているモニタ1676などの追加のサブシステムなどが示されている。I/Oコントローラ1671に連結した、周辺および入力/出力(I/O)デバイスは、シリアルポート1677などの、当該技術分野で既知の任意の数の手段によって、コンピュータシステムへ接続することができる。例えば、シリアルポート1677または外部インターフェース1681(例えば、Ethernet、Wi-Fiなど)を使用して、Internetなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータ装置1600を接続することができる。システムバス1675を介した相互接続は、中央プロセッサ1673が各サブシステムと通信し、システムメモリ1672または固定ディスク1679からの指示の実行、およびサブシステム間の情報の交換を制御することを可能にする。システムメモリ1672および/または固定ディスク1679は、コンピュータ可読媒体を具現化し得る。本明細書に言及される値のうちのいずれも、1つの構成要素から別の構成要素へ出力することができ、ユーザへ出力することができる。
【0166】
コンピュータシステムは、例えば、外部インターフェース1681によって、または内部インターフェースによって一緒に接続された、複数の同じ構成要素またはサブシステムを含むことができる。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信することができる。かかる例において、1つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含むことができる。
【0167】
本発明の実施形態のうちのいずれも、ハードウェア(例えば、特定用途向け集積回路またはフィールドプログラマブルゲートアレイ)を使用して、かつ/またはモジュラー様式もしくは統合様式で一般にプログラム可能なプロセッサとともにコンピュータソフトウェアを使用して、制御論理の形態で実装することができることを理解されたい。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、およびハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装するための他の方法および/または方法を認識および理解するであろう。
【0168】
本出願に記載されるソフトウェア構成要素または機能のうちのいずれも、例えば、従来のまたはオブジェクト指向技法を使用する、例えば、Java、C++、Python、またはPerlなどの任意の好適なコンピュータ言語を用いてプロセッサによって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶および/または伝送のために、コンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得、好適な媒体としては、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、磁気媒体(ハードドライブもしくはフロッピーディスク等)、または光学媒体(コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)等)、およびフラッシュメモリ等が挙げられる。コンピュータ可読媒体は、かかる記憶または送信デバイスの任意の組み合わせであってもよい。
【0169】
かかるプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および/または無線ネットワークを介した送信に適合した搬送波信号を使用して送信されてもよい。したがって、本発明の一実施形態に従うコンピュータ可読媒体は、そのようなプログラムでコードされたデータ信号を使用して作製されてもよい。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されていてもよく、または(例えば、インターネットダウンロードを介して)他のデバイスとは別個に提供されてもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータプログラム製品(例えば、ハードドライブ、CD、またはコンピュータシステム全体)上またはその内部に存在してもよく、システムまたはネットワーク内の異なるコンピュータプログラム製品上またはその内部に存在してもよい。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザへ提供するための他の好適なディスプレイを含み得る。
【0170】
本明細書に記載される方法のうちのいずれも、ステップを行うように構成することができる、1つ以上のプロセッサを含むコンピュータシステムで全体的または部分的に行われ得る。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実行するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはそれぞれのステップ群を実行する。番号付けされたステップとして提示されるものの、本明細書における方法のステップは、同時にまたは異なる順序で行うことができる。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用することができる。また、あるステップの全てまたは部分は、任意選択的であってもよい。さらに、本方法のうちのいずれかのステップのうちのいずれも、モジュール、回路、またはこれらのステップを実施するための他の手段で実施することができる。
【0171】
本発明の例示的実施形態の上の説明は、例解および説明目的で提示されている。包括的であること、または本発明を説明された正確な形態に限定することは意図されず、多くの修正および変更が、先の教示に鑑みて可能である。
【0172】
前述の記載では、説明の目的で、本技術の様々な実施形態の理解を提供するために、多数の詳細が述べられてきた。しかしながら、特定の実施形態は、これらの詳細の一部なしで、または追加の詳細を用いて実施され得ることが当業者には明らかであろう。
【0173】
いくつかの実施形態を記載してきたが、本発明の精神から逸脱することなく、様々な修正、代替構成、および均等物が使用され得ることが当業者によって認識されるであろう。加えて、本発明を不必要に不明瞭にすることを避けるために、多数の周知のプロセスおよび要素は記載されていない。加えて、任意の特定の実施形態の詳細は、その実施形態の変形に常に存在するとは限らず、他の実施形態に追加されてもよい。
【0174】
値の範囲が提供される場合、文脈が明確に別段に示さない限り、その範囲の上限と下限との間の各介在する値も、下限の10分の1まで具体的に開示されていると理解される。示された範囲における任意の示された値または介在する値と、その示された範囲における任意の他の示されたまたは介在する値との間の各より小さな範囲が包含される。これらのより小さな範囲の上限および下限は、範囲に独立して含まれるか除外されてもよく、どちらか一方、両方の限度がより小さな範囲に含まれるか、またはどちらも含まれない各範囲も、述べられた範囲における特に除外された限度を条件として、本発明に包含される。述べられた範囲が一方または両方の限度を含む場合、それらのいずれかまたは両方を除外する範囲も含まれる。
【0175】
本明細書および添付の特許請求の範囲で使用されるとき、単数形「a」、「an」、および「the」は、文脈が明らかに別段に指示しない限り、複数の参照物を含む。よって、例えば、「方法」への言及は、複数のそのような方法を含み、「粒子」への言及は、当業者に知られている1つ以上の粒子およびそれらの同等物への言及を含む。本発明は、ここで明確化および理解の目的で詳細に記載されてきた。しかしながら、添付の特許請求の範囲の範囲内で特定の変更および修正が実施され得ることが理解されるであろう。
【0176】
本明細書で引用される全ての刊行物、特許、および特許出願は、全ての目的のためにそれらの全体が参照により本明細書に組み込まれる。いかなるものも、先行技術であるとは認められていない。
図1
図2A
図2B
図3-1】
図3-2】
図3-3】
図3-4】
図3-5】
図3-6】
図3-7】
図3-8】
図3-9】
図3-10】
図3-11】
図3-12】
図4A
図4B
図4C
図5A
図5B
図6
図7
図8
図9
図10
図11A
図11B
図11C
図12
図13
図14A
図14B
図14C
図15
図16
【手続補正書】
【提出日】2023-09-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
対象からの生体試料において癌分類を決定する方法であって、前記生体試料が、腫瘍DNA分子および非腫瘍DNA分子を含む無細胞DNA分子の混合物を含み、前記方法が、
複数のサイズ範囲の各サイズ範囲について、
前記サイズ範囲に対応する前記生体試料からのメチル化無細胞DNA分子の第1の量を測定することと、
コンピュータシステムによって、前記サイズ範囲に対応するメチル化無細胞DNA分子の前記第1の量および前記サイズ範囲にないサイズを含む第2のサイズ範囲のDNA分子の第2の量を用いてメチル化レベルを計算することと、
前記複数のサイズ範囲の複数の参照メチル化レベルを含む参照サイズパターンを取得することであって、前記参照サイズパターンが、癌を有する対象または癌を有さない対象からの複数の参照試料から決定される、取得することと、
複数の前記メチル化レベルと前記参照サイズパターンとを比較することと、
前記比較に基づいて癌のレベルを決定することと、
を含む、方法。
【請求項2】
前記第2の量がメチル化無細胞DNA分子のものである、請求項1に記載の方法。
【請求項3】
前記メチル化無細胞DNA分子が染色体腕由来である、請求項1に記載の方法。
【請求項4】
前記複数のメチル化レベルと前記参照サイズパターンとを比較することが、
前記複数のサイズ範囲の各メチル化レベルと前記対応するサイズ範囲での前記参照メチル化レベルとを比較することと、
各メチル化レベルが前記対応するサイズ範囲での前記参照メチル化レベルと統計的に類似することを決定することと、
を含む、請求項1に記載の方法。
【請求項5】
前記複数のメチル化レベルと前記参照サイズパターンとを比較することとが、
前記複数のサイズ範囲について前記複数のメチル化レベルを含むサイズパターンを決定することと、
前記サイズパターンと前記参照サイズパターンとを比較することと、
前記サイズパターンが前記参照サイズパターンと類似の形状を有することを決定することと、
を含む、請求項1に記載の方法。
【請求項6】
前記参照サイズパターンが、癌を有する対象からの前記複数の参照試料から決定され、
前記方法が、
前記対象が癌を有することを決定すること
をさらに含む、請求項4に記載の方法。
【請求項7】
メチル化無細胞DNA分子の前記第1の量が、ゲノム領域由来である、請求項1に記載の方法。
【請求項8】
前記ゲノム領域が、染色体腕であり、前記染色体腕が、1p、1q、8p、8q、13q、および14qからなる群から選択される、請求項7に記載の方法。
【請求項9】
前記複数のメチル化レベルと前記参照サイズパターンとを比較することが、前記複数のメチル化レベルと前記複数の参照試料から決定される複数の閾値とを比較することを含む、請求項1に記載の方法。
【請求項10】
前記複数のサイズ範囲が、Mサイズ範囲を含み、
メチル化無細胞DNA分子の前記第1の量を測定することが、前記サイズ範囲に対応し、Nゲノム領域の各ゲノム領域に対応するメチル化無細胞DNA分子の前記第1の量を測定することを含み、
前記サイズ範囲に対応し、前記ゲノム領域に対応するメチル化無細胞DNAの前記第1の量および前記第2の量を用いて前記メチル化レベルを計算することが、N×Mメチル化レベルの測定ベクターを生成し、Nは1以上の整数であり、Mは1超の整数であり、
前記参照サイズパターンが、前記Nゲノム領域および前記Mサイズ範囲の参照メチル化レベルの参照ベクターを含み、前記参照サイズパターンが、癌を有する対象または癌を有さない対象からの複数の参照試料から決定され、
前記複数のメチル化レベルと前記参照サイズパターンとを比較することが、前記測定ベクターと前記参照ベクターとを比較することを含む、
請求項1に記載の方法。
【外国語明細書】