(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-19
(45)【発行日】2022-12-27
(54)【発明の名称】DNAのサイズに基づく解析
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20221220BHJP
C12Q 1/02 20060101ALI20221220BHJP
C12Q 1/6886 20180101ALI20221220BHJP
C12Q 1/686 20180101ALI20221220BHJP
G16H 50/20 20180101ALI20221220BHJP
C12Q 1/6851 20180101ALI20221220BHJP
【FI】
C12Q1/6869 Z
C12Q1/02
C12Q1/6886 Z
C12Q1/686 Z
G16H50/20
C12Q1/6851 Z
(21)【出願番号】P 2021028536
(22)【出願日】2021-02-25
(62)【分割の表示】P 2020105483の分割
【原出願日】2013-03-08
【審査請求日】2021-03-25
(32)【優先日】2012-03-08
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2012-04-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】513154234
【氏名又は名称】ザ チャイニーズ ユニバーシティー オブ ホンコン
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100150810
【氏名又は名称】武居 良太郎
(74)【代理人】
【識別番号】100196977
【氏名又は名称】上原 路子
(72)【発明者】
【氏名】ロー ユク ミン デニス
(72)【発明者】
【氏名】チャン クワン チー
(72)【発明者】
【氏名】ジュヨン ウェンリ
(72)【発明者】
【氏名】ジアーン ペイヨン
(72)【発明者】
【氏名】リャオ ジアウェイ
(72)【発明者】
【氏名】チウ ワイ クン ロッサ
【審査官】松田 芳子
(56)【参考文献】
【文献】欧州特許出願公開第02426217(EP,A1)
【文献】国際公開第2010/112316(WO,A1)
【文献】国際公開第2009/019455(WO,A2)
【文献】The Journal of Urology,2009年,Vol.181,p.363-371
【文献】PLoS ONE,2011年09月,Vol.6, No.9,e23418 p.1-10
【文献】J. AM. CHEM. SOC.,2010年,Vol.132,p.5793-5798
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/68
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
生物の試料を解析する方法であって、
該試料は、正常細胞および癌に関連しているおそれのある細胞由来の無細胞DNA断片を含み:
該方法は、
試料由来の複数のDNA断片のうちの各々について、
DNA断片のシーケンシングから得られる1つまたは複数の読み取り配列を受け取ること、ここで、前記1つまたは複数の読み取り配列は、前記DNA断片の両方の末端を含む;
前記1つまたは複数の読み取り配列を参照ゲノムにアラインして、前記DNA断片の両方の末端についてアラインした位置を得ること;
アラインした位置を利用して前記DNA断片のサイズを決定すること;
複数のサイズの各サイズについて、
複数のDNA断片のセットについてアラインした位置から決定したサイズを用いて、そのサイズに対応する試料由来の複数のDNA断片のセットの量を決定すること;
複数のサイズのDNA断片の量に基づいて第1パラメータの第1値を計算すること、ここで第1パラメータは前記試料におけるDNA断片のサイズプロファイルの統計的尺度を提供する;
第1値を校正値と比較すること;並びに、
その比較に基づいて、腫瘍DNAの分画濃度を推定すること;を含む、方法。
【請求項2】
前記DNA断片はランダムに選択される、請求項1に記載の方法。
【請求項3】
前記DNA断片はゲノムの複数の領域から選択される、請求項1に記載の方法。
【請求項4】
前記DNA断片はゲノムの複数の所定の領域から選択される、請求項3に記載の方法。
【請求項5】
前記DNA断片は複数の染色体から選択される、請求項3又は4に記載の方法。
【請求項6】
前記校正値は非腫瘍DNAと腫瘍DNAとを含む校正試料を用いて決定される、請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記第1パラメータは、長いDNA断片の存在度に対する短いDNA断片の存在度を表し、短いDNA断片は、長いDNA断片よりもサイズが小さい、請求項1~6のいずれか1項に記載の方法。
【請求項8】
複数のサイズのDNA断片の量に基づき1つまたは複数の第2パラメータの1つまたは複数の第2値を計算すること、ここで当該1つまたは複数の第2パラメータは、試料におけるDNA断片のサイズプロファイルの異なる統計的尺度を提供する;
前記1つまたは複数の第2値を、対応する第2校正値と比較すること;そして、
第1値および1つまたは複数の第2値を含む比較に基づいて、試料における腫瘍DNAの分画濃度を推定すること;をさらに含む、請求項1~7のいずれか1項に記載の方法。
【請求項9】
第1校正データ点が、前記第1パラメータの値の校正値に対応する胎児DNAの分画濃度を特定し、
1つまたは複数の第2校正データ点が、前記1つまたは複数の第2パラメータの値の1つまたは複数の第2校正値に対応する腫瘍DNAの分画濃度を特定し、そして
前記第1校正データ点および第2校正データ点は多次元曲線上の点であり、そして前記比較は、第1値および1つまたは複数の第2値に対応する座標を有する多次元点を同定することを含む、請求項8に記載の方法。
【請求項10】
校正データ点が、前記第1パラメータの値の校正値に対応する腫瘍DNAの分画濃度を特定し、そして
前記校正データは異なる校正試料に対応するヒストグラムから決定され、ここでヒストグラムが複数のサイズのDNA断片の量を提供し、異なる校正試料の少なくとも一部は異なる分画濃度を有する、請求項1~9のいずれか1項に記載の方法。
【請求項11】
前記1つまたは複数の読み取り配列はDNA断片の全長配列を含む、請求項1~10のいずれか1項に記載の方法。
【請求項12】
前記1つまたは複数の読み取り配列は環状化DNA断片から得られる、請求項1~11のいずれか1項に記載の方法。
【請求項13】
前記1つまたは複数の読み取り配列はナノポアベースのシーケンサーから得られる、請求項1~12のいずれか1項に記載の方法。
【請求項14】
前記1つまたは複数の読み取り配列は超並列ペアエンドシーケンシングより得られる、請求項1~13のいずれか1項に記載の方法。
【請求項15】
複数の分画濃度にわたり校正値を近似する関数を決定することをさらに含む、請求項1~14のいずれか1項に記載の方法。
【請求項16】
前記試料は血漿試料である、請求項1~15のいずれか1項に記載の方法。
【請求項17】
コンピュータシステムにより実行され得る複数の命令を含むコンピュータプログラムであって、実行される場合、請求項1~16のいずれか1項に記載の方法を実行するように前記コンピュータシステムを制御するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2012年3月8日に出願された「SIZE-BASED ANALYSIS OF FETAL DNA FRACTION IN MATERNAL PLASMA」と題する米国仮特許出願第61/608,623号、および2012年4月6日に出願された「SIZE-BASED ANALYSIS OF FETAL DNA FRACTION IN MATERNAL PLASMA」と題する米国仮特許出願61/621,451号の優先権の利益を主張する非仮特許出願であり、それらの全内容は、あらゆる目的において参照により本明細書中に援用される。
【背景技術】
【0002】
母親血漿中における無細胞胎児DNAの発見が、非侵襲的な出生前診断の新たな可能性を切り開いてきた(Lo YMD et al. Lancet 1997;350:485-487)。分画胎児DNA濃度の平均/中央値は、約3%~10%であることが報告されている(Lo YMD et al. Am J Hum Genet 1998;62:768-775;Lun FMF et al. Clin Chem 2008;54:1664-1672)。分画胎児DNA濃度は、母体血漿DNAを用いた非侵襲的な出生前診断テストの性能に影響する重要なパラメータである。例えば、胎児染色体の異数体(例えば、トリソミー21、トリソミー18、またはトリソミー13)についての非侵襲的な出生前診断では、分画胎児DNA濃度が高いほど、母体血漿中における異数染色体由来のDNA配列がより過剰に発現する。実際に、母体血漿中の分画胎児DNA濃度を2分の1にすると、異数性を検出するためにカウントするのが必要な分子数は4倍になる(Lo YMD et al. Proc Natl Acad Sci USA 2007;104:13116-13121)。
【0003】
ランダムな大量並列シーケンシングによる胎児トリソミーの非侵襲的な出生前検出では、試料の分画胎児DNA濃度が、ロバストな検出を達成するために必要なシーケンシングの量に影響を与える(Fan HC and Quake SR. PLoS One 2010;5:e10439)。実際、多くのグループでは、品質管理工程を含め、この工程で分画胎児DNA濃度をまず測定し、最小分画胎児DNA濃度より多くを含む試料のみが診断結果を出すのに適格とした(Palomaki GE et al. Genet Med 2011;13:913-920)。他のグループでは、特定の母体血漿試料が異数性妊娠由来であるリスクを推定するための診断アルゴリズムに、分画胎児DNA濃度を含めた(Sparks AB et al. Am J Obstet Gynecol 2012;206:319.e1-9)。
【0004】
異数性の検出に加えて、分画胎児DNA濃度は、例えば、異常ヘモグロビン症(Lun FMF et al. Proc Natl Acad Sci USA2008;105:19920-19925)や血友病(Tsui NBY et al. Blood 2011;117:3684-3691)などの単一遺伝子疾患を検出するための母性血漿DNAを用いた非侵襲的な出生前診断テストにも、同様に影響を与える。また、分画胎児DNA濃度は、胎児の全ゲノムシーケンシングに加え、胎児の遺伝および突然変異についてのゲノムマップを構築するために行う必要があるシーケンシングの深さにも影響を与える(Lo YMD et al. Sci Transl Med 2010;2:61ra91 and U.S. Patent Application 2011/0105353)。
【0005】
分画胎児DNA濃度を測定するための多くの方法が記載されている。一つのアプローチは、母系ゲノムには存在しない胎児特異的な父系配列の濃度を測定することである。そのような配列の例として、男児が有するY染色体上にある配列、およびRh(D)陰性の妊婦が宿しているRh(D)陽性胎児が有するRHD遺伝子由来の配列が挙げられる。また、母体および胎児の両方に存在する配列を用いて、全母体血漿DNAを測定することができる。それから、分画胎児DNA濃度に達するために、全母体血漿DNAの濃度を超える胎児特異的な父系配列の濃度の比率を計算できる。
【0006】
使用可能な配列の別の例として、一塩基多型の使用が挙げられる(Lo YMD et al. Sci Transl Med 2010;2:61ra91)。分画胎児DNA濃度を測定するための遺伝子マーカーを使用することの欠点は、どの遺伝子マーカーセットも単体では全ての胎児-母体ペアについての情報を提供できないことである。使用可能な更に別の方法として、母体血漿における胎児または胎盤特異的なDNAメチル化パターンを示すDNA配列を使用することが挙げられる(Nygren AO et al. Clin Chem 2010;56:1627-1635)。DNAメチル化マーカーを使用することについての潜在的な欠点は、DNAメチル化のレベルは個体間で差があるということである。更に、DNAメチル化マーカーの検出に使用される方法は、通常複雑であり、メチル化感受性制限酵素による消化(Chan KCA et al. Clin Chem 2008;52:2211-2218)または亜硫酸水素塩転換(Chim SSC et al. Proc Natl Acad Sci USA 2005;102:14753-14758)またはメチル化DNA免疫沈降(MeDIP)(Papageorgiou EA et al. Nat Med 2011;17:510-513)を利用することなどが含まれる。
【0007】
分画胎児DNA濃度は重要な値なので、その値を決定するための追加的な方法およびシステムを有することが望ましい。
【発明の概要】
【0008】
実施形態は、生体試料由来のDNAの混合物における臨床的に関連するDNAの分画濃度を、様々なサイズのDNA断片の量に基づいて推定するための方法およびシステムを提供し得る。例えば、母体の血漿における胎児DNAまたは患者の血漿における腫瘍DNAの分画濃度が測定できる。DNA断片のサイズは、胎児DNAの割合および腫瘍DNAの割合と相関していることが示された。(例えば、校正関数としての)校正データ点は、サイズパラメータの値と臨床的に関連するDNAの分画濃度との間の対応関係を示す。ある試料について、サイズパラメータの第1値は、試料におけるDNA断片のサイズから決定できる。第1値を校正データ点と比較することにより、臨床的に関連するDNAの分画濃度が推定できる。
【0009】
一実施形態によれば、方法は、生体試料における臨床的に関連するDNAの分画濃度を推定するものであり、ここで生体試料は臨床的に関連するDNAおよびその他のDNAを含む。複数のサイズのうちの各サイズについて、そのサイズに対応する生体試料由来の複数のDNA断片の量を測定する。コンピュータシステムは、第1パラメータの第1値を複数のサイズのDNA断片の量に基づいて計算する。第1パラメータは、生体試料におけるDNA断片のサイズプロファイルの統計的尺度を提供する。1つまたは複数の第1校正データ点が得られる。各第1校正データ点は、第1パラメータの校正値に対応する臨床的に関連するDNAの分画濃度を特定する。1つまたは複数の校正データ点は、複数の校正試料から決定される。第1値を少なくとも1つの校正データ点の校正値と比較する。生体試料における臨床的に関連するDNAの分画濃度を当該比較に基づいて推定する。
【0010】
別の実施形態によれば、方法は、生物の生体試料を解析するものである。生体試料は、正常細胞由来のDNAと、癌に関連しているおそれがある細胞由来のDNAを含む。少なくともDNAの一部は、生体試料における無細胞DNAである。複数のサイズのうちの各サイズについて、そのサイズに対応する生体試料由来の複数のDNA断片の量を測定する。コンピュータシステムは、第1パラメータの第1値を複数のサイズのDNA断片の量に基づいて計算する。第1パラメータは、生体試料におけるDNA断片のサイズプロファイルの統計的尺度を提供する。第1値を基準値と比較する。生物の癌のレベルの区分を当該比較に基づいて決定する。
【0011】
他の実施形態は、本明細書に記載の方法に関連するシステム、携帯可能な消費者用装置、およびコンピュータ可読媒体に関する。
【0012】
本発明の性質および利点は、以下の詳細な説明および添付の図面を参照してより良く理解され得る。
【図面の簡単な説明】
【0013】
【
図1】
図1は、本発明の実施形態に従った、母体血漿中の循環無細胞DNAのサイズ分布についてのプロット100を示す。
【0014】
【
図2】
図2Aは、本発明の実施形態に従った、異なる分画胎児DNA濃度を有する2つの母体血漿試料における胎児DNA(妊娠第1期)のサイズ分布についてのプロット200を示す。
図2Bは、本発明の実施形態に従った、異なる分画胎児DNA濃度を有する2つの母体血漿試料における胎児DNA(妊娠第2期)のサイズ分布についてのプロット250を示す。
【0015】
【
図3】
図3は、本発明の実施形態に従った、生体試料における臨床的に関連するDNAの分画濃度を推定する方法を示す方法300のフローチャートである。
【0016】
【
図4】
図4は、本発明の実施形態に従った、電気泳動を利用して得られる母体血漿DNAのサイズ分布(エレクトロフェログラム)を示すプロット400である。
【0017】
【
図5】
図5Aは、本発明の実施形態に従った、母体血漿における胎児DNAの割合が様々な試料について150bp以下のDNA断片の割合を示すプロット500である。
図5Bは、(CF(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット550である。
【0018】
【
図6】
図6Aは、(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット600である。
図6Bは、(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット650である。
【0019】
【
図7】
図7は、(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット700である。
【0020】
【
図8】
図8は、本発明の実施形態に従った、母体血漿における胎児DNAの割合が様々な試料について150bp以下のDNA断片の割合を示すプロット800である。
【0021】
【
図9】
図9Aは、(CFサイズ(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット900である。
図9Bは、(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット950である。
【0022】
【
図10】
図10Aは、(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1000である。
図10Bは、(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1005である。
【0023】
【
図11】
図11は、本発明の実施形態に従った、反復要素のサイズについて胎児DNAの割合に対しプロットしたサイズ比を示すプロットである。
【0024】
【
図12】
図12Aは、本発明の実施形態に従った、サイズ比を決定するために使用できるエレクトロフェログラム1200である。
図12Bは、本発明の実施形態に従った、母体血漿における胎児DNAの割合が様々な試料について200bp~267bpのDNA断片と290bp~294bpのDNAとの量のサイズ比を示すプロット1250である。
【0025】
【
図13】
図13は、本発明の実施形態に従った、校正試料から得た測定値より校正データ点を決定するための方法1300のフローチャートである。
【0026】
【
図14】
図14Aは、本発明の実施形態に従った、トレーニングセットについての胎児DNAの分画濃度に対するサイズ比のプロット1400である。
図14Bは、本発明の実施形態に従った、胎児特異的配列を用いて測定した分画濃度に対する
図14Aの線形関数1410から導き出した(推定した)分画濃度のプロット1450である。
【0027】
【
図15】
図15Aは、本発明の実施形態に従った、腫瘍切除前後の2人の肝細胞癌(HCC)患者の血漿における腫瘍DNAの割合が様々な試料について150bp以下のDNA断片の割合を示すプロット1500である。
図15Bは、腫瘍切除前後の2人のHCC患者について、(CFサイズ(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1550である。
【0028】
【
図16】
図16Aは、腫瘍切除前後の2人のHCC患者について、(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1600である。
図16Bは、腫瘍切除前後の2人のHCC患者について、(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1650である。
【0029】
【
図17】
図17は、腫瘍切除前後の2人のHCC患者について、(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1700である。
【0030】
【
図18】
図18Aは、腫瘍切除前後のHCC患者について、150bp以下のDNA断片の割合を示すプロット1800である。
図18Bは、腫瘍切除前後のHCC患者について、(CFサイズ(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1850である。
【0031】
【
図19】
図19Aは、腫瘍切除前後のHCC患者について、(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1900である。
図19Bは、腫瘍切除前後のHCC患者について、(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1950である。
【0032】
【
図20】
図20は、腫瘍切除前後のHCC患者について、(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット2000である。
【0033】
【
図21】
図21は、本発明の実施形態に従った、生物の生体試料を解析して癌のレベルの区分を決定するための方法2100を示すフローチャートである。
【0034】
【
図22】
図22は、様々な種類の癌で見られる一般的な染色体異常のいくつかを示す表2200である。
【0035】
【
図23】
図23は、本発明の実施形態に係るシステムおよび方法に使用可能な例としてコンピュータシステム2300の概略図を示す。
【発明を実施するための形態】
【0036】
定義
本明細書で使用する場合、用語「生体試料」とは、被験者(例えば、妊婦などのヒト)から採取され、対象とする1つまたは複数の核酸分子を含有するいずれかの試料を指す。例として、血漿、唾液、胸水、汗、腹水、胆汁、尿、血清、膵液、糞便および子宮頸部スメア試料が挙げられる。生体試料は、ヒト、動物、または他の適切な生物から得ることができる。「校正試料」は、生体試料に対応するもので、生体試料の臨床的に関連するDNA画分が、例えば、臨床的に関連するDNAに特異的なアレルを使用する方法等の校正方法によって分かるまたは決定されるものである。臨床的に関連するDNAの例としては、母体の血漿における胎児DNAまたは患者の血漿における腫瘍DNAが挙げられる。
【0037】
本明細書で使用する場合、用語「座位(locus)」又はその複数形の「座位(loci)」とは、ゲノム間で多様性を有する任意の長さのヌクレオチド(又は塩基対)の位置又はアドレスのことである。用語「読み取り配列」とは、核酸分子、例えば、DNA断片の全部または一部から得られる配列を指す。一実施形態では、断片の一方の末端のみがシーケンシングされる。代わりに、断片の両方の末端(例えば、各末端から約30bp)をシーケンシングして2つの読み取り配列を生成してもよい。その後、この一対の読み取り配列を参照ゲノムにアラインして、断片の長さが分かるようにしてもよい。更に別の実施形態では、直鎖状DNA断片を、例えば、ライゲーションにより環状化してもよく、ライゲーション部位にまたがる部分をシーケンシングしてもよい。
【0038】
用語「ユニバーサルシーケンシング」とは、アダプターを断片の末端に加え、シーケンシング用のプライマーをアダプターに結合させるシーケンシングのことを指す。従って、任意の断片を同じプライマーを用いてシーケンシングすることができ、シーケンシングがランダムにできる。
【0039】
分画胎児DNA濃度という用語は、胎児DNAの割合および胎児DNA画分という用語と交換可能に使用され、生体試料(例えば、母体血漿または血清試料)中に存在する胎児から由来した胎児DNA分子の割合を指す(Lo YMD et al. Am J Hum Genet 1998;62:768-775;Lun FMF et al. Clin Chem 2008;54:1664-1672)。同様に、分画腫瘍DNA濃度という用語は、腫瘍DNAの割合および腫瘍DNA画分という用語と交換可能に使用され、生体試料中に存在する腫瘍DNA分子の割合を指す。
【0040】
用語「サイズプロファイル」は、一般に、生体試料中におけるDNA断片のサイズに関するものである。サイズプロファイルは、様々なサイズのDNA断片の量の分布を示すヒストグラムであってもよい。様々な統計パラメータ(サイズパラメータまたは単にパラメータとも呼ばれる)が、あるサイズプロファイルと別のサイズプロファイルとを区別するために使用できる。パラメータの1つとして、全DNA断片に対するまたは他のサイズ範囲のDNA断片に対する、特定のサイズまたはサイズ範囲のDNA断片の割合がある。
【0041】
「臨床的に関連する」DNAの例としては、母体の血漿における胎児DNAおよび患者の血漿における腫瘍DNAが挙げられる。別の例として、移植患者の血漿における移植片に関連するDNAの量の測定値が挙げられる。更なる例として、被験者の血漿における造血DNAと非造血DNAとの相対量の測定値が挙げられる。この後者の実施形態は、造血および/または非造血組織が関連する病理学的プロセスまたは傷害を検出またはモニタリングまたは予知するのに使用できる。
【0042】
「校正データ点(calibration data point)」は、「校正値(calibration value)」および対象とするDNA(すなわち、臨床的に関連するDNA)について測定された分画濃度あるいは既知の分画濃度を含む。校正値とは、臨床的に関連するDNAの分画濃度が既知である校正試料について決定されたサイズパラメータの値である。校正データ点は、様々な方法で定義でき、例えば、離散点として、または校正関数(検量線(calibration curve)もしくは検量面(calibration surface)とも呼ばれる)として定義できる。
【0043】
用語「癌のレベル」とは、癌が存在するか否か、癌の段階、腫瘍のサイズ、ある染色体領域において欠失または増幅がいくつあるか(例えば、2重または3重)、および/または癌の重症度についてのその他の尺度を指すことがある。癌のレベルは数字またはその他の記号であってもよい。レベルはゼロの場合もある。癌のレベルには、欠失または増幅に関連する前悪性または前癌状態も含まれる。
【0044】
詳細な説明
母体血漿中に存在する無細胞胎児DNA分子は、一般的に、母親由来の分子よりも短いことが知られている(Chan KCA et al. Clin Chem 2004;50:88-92;Lo YMD et al. Sci Transl Med 2010;2:61ra91)。胎児DNAの存在により、母体血漿DNAの全体的なサイズ分布がシフトし、そのシフトの程度が胎児DNAの分画濃度と関連する。母体血漿DNAのサイズプロファイルの特定の値を測定することにより、実施形態で母体血漿中の分画胎児DNA濃度を得ることができる。
【0045】
また、非侵襲的な出生前診断における用途とは別に、実施形態は、癌の検出、移植、および医学的なモニタリングをするのに有用な可能性のある生物の液中にある様々なサイズの臨床的に有用な核酸種の分画濃度を測定するのに使用できる。以前から、癌患者の血漿中では、腫瘍由来のDNAは非癌由来のDNAよりも短いことが示されている(Diehl F et al. Proc Natl Acad Sci USA 2005;102:16368-16373)。移植関連では、造血由来のDNAは、非造血DNAよりも短いことが示されている(Zheng YW et al. Clin Chem 2012;58:549-558)。例えば、患者がドナーから肝臓を受けると、その血漿中では肝臓(成人では非造血器官)由来のDNAが造血由来のDNAよりも短くなる(Zheng YW et al. Clin Chem 2012;58:549-558)。同様に、心筋梗塞または脳卒中の患者では、損傷を受けた非造血器官(すなわち、それぞれ心臓および脳)から放出されたDNAにより、血漿DNAのサイズプロファイルは短いサイズ範囲にシフトする結果となることが期待されるであろう。
【0046】
I.サイズ分布
実施形態を実証するために、例えば、ペアエンド大量並列シーケンシングあるいは(例えば、バイオアナライザーを使用した)電気泳動により、サイズプロファイルを測定することができることを以下の実施例で示す。バイオアナライザーを用いた電気泳動は迅速かつ比較的安価な手順であるため、後者の例が特に有用である。これにより、血漿DNA試料を比較的高価なシーケンシングプロセスに供する前に、この解析を品質管理手段として迅速に実行できるだろう。
【0047】
図1は、本発明の実施形態に従った、母体血漿中の循環無細胞DNAのサイズ分布についてのプロット100を示す。サイズ分布は、DNA断片のサイズを測定し、その後、様々なサイズ、例えば、50塩基~約220塩基の範囲内のDNA断片の数を数えることで得ることができる。プロット100は、2つの分布を示す。分布110は、母体血漿試料における全DNA断片についてのものであり、分布120は、胎児由来のDNAのみについてのものである。横軸は、DNA断片の塩基対(bp)のサイズである。縦軸は、測定したDNA断片の割合である。
【0048】
図1では、母体血漿における胎児由来のDNAのサイズ分布は、母親由来のものよりも短いことが示される(Chan KC et al. ClinChem 2004;50:88-92)。近年、我々は、妊婦における胎児特異的DNAおよび(主に母親由来の)全DNAについて解像度の高いサイズ分布を決定するために、ペアエンド超並列配列解析を使用してきた。我々は、DNAにおける2つの種の間の主な違いは、胎児由来のDNAだと166bpのDNA断片の分画が減少し、150bp以下の短いDNAの割合が増加することであることを示した(Lo YM et al. Sci Transl Med 2010 2:61ra91)。
【0049】
ここで、我々は、母体血漿試料(生体試料の一例)における全DNA断片のサイズ分布の解析をすることが、母体血漿における胎児DNAの分画濃度を測定するのにいかに有用であるかを概説する。母体血漿における胎児DNAの分画濃度が増加すると、全DNAについての全体的なサイズ分布が短くなる。一実施形態では、約144bpのDNA断片と約166bpのDNA断片との相対量(パラメータの一例)が、胎児DNAの分画濃度を反映させるのに使用できる。別の実施形態では、サイズプロファイルに関する他のパラメータまたはパラメータの組み合わせが血漿DNAのサイズ分布を反映させるのに使用できる。
【0050】
図2Aは、本発明の実施形態に従った、異なる分画胎児DNA濃度を有する2つの母体血漿試料における胎児DNA(妊娠第1期)のサイズ分布についてのプロット200を示す。これら二人の妊婦は、いずれも男児を宿していた。分画胎児DNA濃度は、全シーケンシングされたDNA断片におけるY染色体由来の配列の割合から決定した。両方の試料は、妊娠第1期の妊婦から採取した。ケース338(実線、分画胎児DNA濃度は10%)は、ケース263(点線、分画胎児DNA濃度は20%)よりも低い分画胎児DNA濃度を有していた。ケース263と比較すると、ケース338は、166bpにおけるピークは高かったが、150bp未満のサイズのピークは低かった。言い換えると、ケース263では150bp未満のDNA断片がより多く、一方ケース338では約166bpの断片がより多かった。これらの観察は、短いDNAとおよび長いDNAとの相対量が分画胎児DNA濃度に相関しうるという仮説と一致する。
【0051】
図2Bは、本発明の実施形態に従った、異なる分画胎児DNA濃度を有する2つの母体血漿試料における胎児DNA(妊娠第2期)のサイズ分布についてのプロット250を示す。両方の試料は、妊娠第2期の妊婦から採取した。これら二人の妊婦は、いずれも男児を宿していた。分画胎児DNA濃度は、全シーケンシングされたDNA断片におけるY染色体由来の配列の割合から決定した。先の実施例と同様に、ケース5415(点線、分画胎児DNA濃度は19%と高め)は、150bp未満のサイズのピークが高く、一方ケース5166(実線、分画胎児DNA濃度は12%と低め)では166bpにおけるピークが高かった。
【0052】
分画胎児DNA濃度の値に対する異なる値のサイズパラメータの相関を、以下のデータプロットに示す。さらに、腫瘍DNAの断片のサイズは、腫瘍DNA断片および正常細胞由来のDNA断片を有する試料における腫瘍DNA断片の割合に相関する。したがって、腫瘍断片のサイズも、試料における腫瘍断片の割合を決定するのに使用できる。
【0053】
II.方法
DNA断片のサイズは分画濃度(割合とも呼ばれる)に相関しているので、実施形態では、この相関関係を利用して試料における特定の種類のDNA(例えば、胎児DNAまたは腫瘍由来のDNA)の分画濃度を決定できる。特定の種類のDNAは、臨床的に関連するDNAであり、その分画濃度が推定対象である。したがって、この方法は、測定したDNA断片のサイズに基づいて、生体試料における臨床的に関連するDNAの分画濃度を推定することができる。
【0054】
図3は、本発明の実施形態に従った、生体試料における臨床的に関連するDNAの分画濃度を推定する方法を示す方法300のフローチャートである。生体試料は、臨床的に関連するDNAおよびその他のDNAを含む。生体試料は、患者、例えば、胎児を宿している妊婦の被験体から得ることができる。別の実施形態では、患者は腫瘍を有してもよく、または有すると疑われる者であってもよい。一実施態様では、生体試料は、DNA断片のサイズを決定するのに利用可能な測定データ(例えば、読み取り配列)を出力する装置、例えば、シーケンシング装置に受けることができる。方法300は、本明細書に記載される他の方法と同様、全部または一部をコンピュータシステムによって実行してもよい。
【0055】
ブロック310では、様々なサイズに対応するDNA断片の量を測定する。複数のサイズのうちの各サイズについて、そのサイズに対応する生体試料由来の複数のDNA断片の量を測定することができる。例えば、140塩基の長さを有するDNA断片の数を測定できる。この量をヒストグラムとして保存してもよい。一実施形態では、生体試料由来の複数の核酸のうちの各核酸のサイズを測定する。この測定は個別に行ってもよく(例えば、一分子のシーケンシングにより)、またはグループ単位で行ってもよい(例えば、電気泳動により)。サイズは、ある範囲に対応することもある。したがって、量は、サイズが特定の範囲内にあるDNA断片であってもよい。
【0056】
複数のDNA断片を、ランダムに選択またはゲノムの1つまたは複数の所定の領域から優先的に選択できる。例えば、上述したように、標的の濃縮を行ってもよい。別の実施形態では、DNA断片は、ランダムに(例えば、ユニバーサルシークエンシングを用いて)シーケンシングでき、得られた読み取り配列を、被験体(例えば、参照ヒトゲノム)に対応するゲノムにアラインさせることができる。そして、読み取り配列が1つまたは複数の所定の領域にアラインするDNA断片のみをサイズを決定するのに使用できる。
【0057】
様々な実施形態では、サイズは、質量、長さ、または他の適切なサイズ測定値であり得る。本明細書に記載のように、測定は様々な方法で行うことができる。例えば、ペアエンドシーケンシングおよびDNA断片のアライメントを行ってもよく、または電気泳動を利用してもよい。生体試料の正確なサイズプロファイル提供するために、統計学的に有意なDNA断片数を測定してもよい。統計学的に有意なDNA断片数の例として、100,000超;1,000,000超;2,000,000超、または他の適切な値が挙げられるが、これは求める精度に依存しうる。
【0058】
一実施形態では、ペアエンドシーケンシングまたは電気泳動などの物理的測定から得られたデータを、コンピュータで受信し、解析して、DNA断片のサイズの測定を達成してもよい。例えば、ペアエンドシーケンシングによる読み取り配列を(例えば、アラインメントにより)解析してサイズを決定してもよい。別の例として、電気泳動から得られた電気泳動図を解析してサイズを決定してもよい。一実施態様では、DNA断片の解析には、シークエンシングまたはDNA断片を電気泳動にかけるといった実際のプロセスを含むが、別の実施態様では、得られたデータの解析を行うのみであってもよい。
【0059】
ブロック320では、第1パラメータの第1値を複数のサイズのDNA断片の量に基づいて計算する。一態様では、第1パラメータは、生体試料におけるDNA断片のサイズプロファイルの統計的尺度(例えば、ヒストグラム)を提供する。このパラメータは、複数のDNA断片のサイズから決定されるため、サイズパラメータと呼ぶことがある。
【0060】
第1パラメータは、様々な形態をとり得る。このようなパラメータが、特定のサイズのDNA断片の数を全断片数で除した値であり、これはヒストグラム(特定のサイズの断片の絶対的または相対的な数を提供する任意のデータ構造)から得ることができる。別の例として、パラメータは、特定のサイズまたは特定の範囲の断片の数を、別のサイズまたは範囲の断片数で除した値であることもある。除算することで、異なる試料について、解析対象のDNA断片数の違いを考慮した正規化として機能し得る。正規化は、各試料について同じ数のDNA断片を解析することによって達成できるが、これは解析対象の全断片数で除することでも同じ結果が得られる。他のパラメータの例を、本明細書に記載する。
【0061】
ブロック330では、1つまたは複数の第1校正データ点を得る。各第1校正データ点は、第1パラメータの特定の値(校正値)に対応する臨床的に関連するDNAの分画濃度を特定できる。分画濃度は、特定の濃度または濃度範囲として特定できる。校正値は、複数の校正試料から決定された第1パラメータ(すなわち、特定のサイズパラメータ)の値に対応しうる。校正データ点は、既知の分画濃度を有する校正試料から決定でき、分画濃度は、本明細書に記載の様々な技術によって測定できる。少なくともいくつかの校正試料は異なる分画濃度を有するが、いくつかの校正試料は同じ分画濃度を有していてもよい。
【0062】
様々な実施形態では、1つまたは複数の校正点は、1つの離散点として、離散点のセットとして、関数として、1つの離散点と関数として、あるいは他の離散的または連続的な値のセットの組み合わせとして、定義してもよい。例として、校正データ点は、特定の分画濃度の試料について、サイズパラメータ(例えば、特定のサイズまたはサイズ範囲内の断片数)の1つの校正値から決定できる。複数のヒストグラムを、各校正試料についての別のヒストグラムとともに使用してもよく、そのうちのいくつかの校正試料は同じ分画濃度を有してもよい。
【0063】
一実施形態では、同じ分画濃度の複数の試料から得た同じサイズパラメータについての測定値を組み合わせて、特定の分画濃度についての校正データ点を決定できる。例えば、サイズパラメータの値の平均を同じ分画濃度の試料のサイズデータから得て、特定の校正データ点を決定(または校正データ点に対応する範囲を提供)できる。別の実施形態では、同じ校正値を有する複数のデータ点を使用して、平均分画濃度を決定できる。
【0064】
一実施態様では、多くの校正試料についてDNA断片のサイズを測定する。同じサイズパラメータの校正値を各校正試料について測定する。各校正試料についてのサイズパラメータを、試料の既知の分画濃度に対しプロットしてもよい。関数当てはめにより新しい試料の分画濃度を決定するのに使用できる校正データ点を定義する関数をプロットのデータ点に当てはめてもよい。
【0065】
ブロック340では、第1値を少なくとも1つの校正データ点の校正値と比較する。比較は様々な方法で行うことができる。例えば、比較は、第1値が校正値よりも高いか低いかということであってもよい。比較は、(校正データ点からなる)検量線と比較することを含み得るので、比較により、第1パラメータの第1値を有する曲線上の点を同定することができる。例えば、(新しい試料中におけるDNAサイズの測定値から決定される)第1パラメータの計算値Xは、Fが校正関数(曲線)である関数F(X)に代入するのに使用できる。F(X)の算出値は、分画濃度である。誤差範囲は、各X値について異なっていてもよく、これによりF(X)の算出値の範囲が設けられる。
【0066】
ステップ350では、生体試料における臨床的に関連するDNAの分画濃度を、比較に基づいて推定する。一実施形態では、第1パラメータの第1値が校正閾値より大きいまたは小さいか否かを決定し、これにより当該試料について推定した分画濃度が校正閾値に対応する分画濃度より大きいまたは小さいか否かを決定する。例えば、生体試料について計算した第1値X1が校正値XCより大きい場合、この生体試料の分画濃度FC1はXCに対応する分画濃度FCCより大きいと決定できる。この比較は、例えば、胎児の異数性のテストなど他のテストを行うのに生体試料中に十分な分画濃度があるか否かを決定するのに使用できる。この大きい小さいという関係は、パラメータをいかに定義するかに依存し得る。このような実施形態では、1つの校正データ点のみが必要であってもよい。
【0067】
別の実施形態では、比較は、校正関数に第1値を代入することによって達成される。校正関数は、第1値に対応する曲線上の点を同定することによって、第1値を効果的に校正値と比較することができる。推定した分画濃度を、校正関数の算出値として設ける。
【0068】
一実施形態では、生体試料についての複数のパラメータの値を決定できる。例えば、その生体試料におけるDNA断片のサイズプロファイルが異なる統計的尺度に対応する第2パラメータについての第2値を決定できる。第2値は、DNA断片の同じサイズ尺度、または異なるサイズ尺度を用いて決定できる。各パラメータは、異なる検量線に対応しうる。一実施態様では、異なる値を、独立して異なる検量線と比較して複数の推定分画濃度を得ることができ、これらを平均してもよく、または算出範囲を設けるために用いてもよい。
【0069】
別の実施態様では、異なる値のパラメータを分画濃度を算出する単一の校正関数に効果的に代入できる多次元検量線を用いてもよい。単一の校正関数は、校正試料から得られた全てのデータ点を関数当てはめすることにより得られる。したがって、一実施形態では、第1校正データ点および第2校正データ点を多次元曲線上の点とすることができ、この曲線の場合、比較は、第1値および1つまたは複数の第2値に対応する座標を有する多次元の点を同定することを含む。
【0070】
III.サイズの決定
血漿DNAのサイズ分布は、例えば、これらに限定されないが、リアルタイムPCR、電気泳動、および質量分析を利用して決定できる。様々な実施形態では、測定するサイズは、長さ、分子量、または長さもしくは分子量に比例する測定パラメータ、例えばエレクトロフェログラムにおける移動度や電気泳動もしくは質量分析計において一定距離を移動するのにかかる時間などである。別の例では、DNAを、結合した染料の量が、DNA分子の長さに比例するように、インターカレーター性蛍光色素、例えば臭化エチジウム又はSYBRグリーンで染色できる。UV光が試料に照射されたとき発する蛍光の強度によって結合した色素の量を決定できる。サイズを測定するためのいくつかの例およびその結果のデータを以下に記載する。
【0071】
A.シーケンシングを利用した第1胎児試料セット
表1は、例として、胎児DNA画分に関する試料情報およびシーケンシング解析を示す。血漿試料は、それぞれ1人の男児を宿している80人の妊婦から採取した。80人の妊婦のうち、39人は正倍数体の胎児を宿しており、18人はトリソミー21(T21)の胎児を宿しており、10人はトリソミー18(T18)の胎児を宿しており、13人はトリソミー13(T13)の胎児を宿していた。血漿DNAのサイズ分布は、ペアエンド大量並列シーケンシングを用いて決定した。母体血漿DNAのシーケンシングライブラリーは、6塩基のバーコードを3回のプライマーPCR増幅により各血漿試料のDNA分子へ導入した以外は従前に記載(Lo YM et al. Sci Transl Med 2010;2:61ra91)のように構築した。
【0072】
2つの試料を1シーケンシングレーン(すなわち2プレックスシーケンシング)に導入した。別の実施形態では、2個より多くの試料、例えば、6個、または12個、または20個、または20個を超える試料を1シーケンシングレーンに導入できる。全ライブリは、36bp×2PEフォーマットを用いたGenome Analyzer IIx(Illumina)によりシーケンシングした。更に7サイクルのシーケンシングを行い、それぞれシーケンシングした血漿DNA分子上のインデックス配列をデコードした。36bpの読み取り配列は、Short Oligonucleotide Alignment Program 2(SOAP2)(soap.genomics.org.cn)を用いてリピート領域をマスクしないヒト参照ゲノム(Hg18)(genome.ucsc.edu)にアラインした。個々のメンバーのペアエンド(PE)読み取り配列は、フローセル上の同じクラスタ位置でシーケンシングし、そして、ヒトゲノムの単一の位置に正しい方向で特異的にアラインした。ここで、ヌクレオチドのミスマッチは見られなかった。他の実施形態では、アラインメントは、特異的でなくてもよく、ミスマッチも許容され得る。
【0073】
600bp以下の挿入サイズを示したPE読み取り配列のみを解析用に回収した。これらの基準によると、これらの実験で解析した血漿DNA断片のサイズは、36bp~600bpの範囲にあった。それぞれシーケンシングしたDNA断片のサイズを、シーケンシングした断片の各末端における最も外側のヌクレオチドの座標から推定した。
【0074】
【0075】
表1は、様々な異数性状態の試料についてのデータを示す。データには、症例数、妊娠期間の中央値と範囲、ペアエンド読み取り配列の数の中央値と範囲、胎児DNA画分の中央値と範囲が含まれる。
【0076】
母体血漿試料における胎児DNAの分画濃度は、先に記載のようにY染色体にアラインする配列の量から導き出した(Chiu RW et al. BMJ 2011;342:c7401)。この技術は、校正方法の一例である。したがって、表1で測定された胎児DNA画分を校正データ点に使用して、新しい試料における胎児DNA画分を推定できる。表1のデータを収集するために使用される試料を、校正試料とすることができる。
【0077】
B.標的シーケンシングを利用した第2胎児試料セット
表2は、試料情報および本発明の実施形態に従って標的を濃縮した母体血漿DNAを示す。血漿試料は、それぞれ1人の男児を宿している48人の妊婦から採取した。48人の妊婦のうち、21人は正倍数体の胎児を宿しており、17人はトリソミー21(T21)の胎児を宿しており、9人はトリソミー18(T18)の胎児を宿しており、1人はトリソミー13(T13)の胎児を宿していた。これらのデータは、以下の実施例と共に、標的技術を用いることができる実施形態を示すものである。血漿DNAのサイズ分布は、ペアエンド大量並列シーケンシングを用いて決定できる。他の実施形態では、血漿DNAのサイズ分布は、例えば、これらに限定されないが、リアルタイムPCR、電気泳動、および質量分析を利用して決定できる。
【0078】
高倍率(high-fold)シーケンシングで標的領域をカバーするために、一実施形態ではAgilent SureSelect Target Enrichment Systemを用いて、chr7(0.9Mb領域)、chr13(1.1Mb領域)、chr18(1.2Mb領域)およびchr21(1.3Mb領域)のDNA分子を捕捉するプローブを設計した。このプローブ設計において、chr7、chr13、chr18、およびchr21のダウン症候群に関する重要領域(21q22.1-q22.3)にあるエキソンをまず標的領域として選択した。chr13、chr18およびchr21は、chr7よりもエキソン領域が少ないので、chr13、chr18、およびchr21のダウン症候群に関する重要領域には追加の非エキソン領域を導入し、上記4つの染色体間の標的領域の全長のバランスをとった。選択した非エキソン領域は、120bpの長さで、特異的にマッピング可能で、GC含量が0.5に近く、そして標的染色体にわたって均一に分布していた。
【0079】
上記エキソンおよび非エキソン領域の全ての座標をプローブ設計用にAgilent eArray platformに供した。500ngの各母体血漿DNAライブラリーを、捕捉プローブと共に65℃で24時間インキュベートした。ハイブリダイゼーション後、標的DNA分子を溶離し、製造業者の説明書に従い12サイクルのPCRによって増幅した。標的を濃縮したライブリは、50bp×2PEフォーマットを用いたGA IIx(Illumina)によりシーケンシングした。更に7サイクルのシーケンシングを行い、それぞれシーケンシングした血漿DNA分子上のインデックス配列をデコードした。50bpの読み取り配列は、Short Oligonucleotide Alignment Program 2(SOAP2)(soap.genomics.org.cn)を用いてリピート領域をマスクしないヒト参照ゲノム(Hg18)(genome.ucsc.edu)にアラインした。個々のメンバーのPE読み取り配列は、フローセル上の同じクラスタ位置でシーケンシングし、そして、ヒトゲノムの単一の位置に正しい方向で特異的にアラインした。2つのミスマッチが許容された。シーケンシングライブラリーの複雑さは、標的の濃縮後に大幅に減少した。
【0080】
600bp以下の挿入サイズを示したPE読み取り配列のみを解析用に回収した。これらの基準によると、この試験で解析した血漿DNA断片のサイズは、36bp~600bpの範囲にあった。それぞれシーケンシングしたDNA断片のサイズを、シーケンシングした断片の各末端における最も外側のヌクレオチドの座標から推定した。母体血漿試料における胎児DNAの分画濃度は、胎児特異的アレルを有する断片とそれぞれの母体と同じアレルを有する断片との比率より推定した。
【0081】
【0082】
表2は、様々な異数性状態の試料について標的をシーケンシングしたデータを示す。
【0083】
C.胎児サンプルの電気泳動
血漿DNAのサイズ分布の解析は、大量並列シーケンシングの利用に加え、電気泳動により達成される。電気泳動では、断片が媒体を移動する時間を測定する。粒子のサイズが異なると、媒体を移動するのにかかる時間が異なる。したがって、一実施形態では、母体血漿DNAのシーケンシングライブラリーのマイクロ流体電気泳動により、母体血漿DNAのサイズ分布を決定できる。
【0084】
図4は、本発明の実施形態に従った、電気泳動を利用して得られる母体血漿DNAのサイズ分布を示すプロット400(エレクトロフェログラム)である。マイクロ流体電気泳動は、Agilent 2100 Bioanalyzerを用いて行った。2つの試料のシーケンシングライブラリーのエレクトロフェログラムをプロット400に示す。X軸は、DNAがセンサに到達するまでにかかる時間を示し、DNA断片のサイズに対応する。Y軸は、特定の時間にセンサを通過するDNA断片の蛍光単位(FU)を表す。
【0085】
DNA断片がセンサに到達するまでにかかる時間は、DNA断片のサイズと正相関する。バイオアナライザーは、自動的に、被験試料がかかった時間を既知の長さのDNA断片の混合物(すなわち、DNAラダー)がかかった時間と比較することにより、時間を断片のサイズに変換できる。続けて、DNAシーケンシングライブラリーを大量並列シーケンシングを利用してシーケンシングし、そしてY染色体配列の分画を用いてこれらの試料の分画胎児DNA濃度を決定した。
【0086】
プロット400において、実線410は、分画胎児DNA濃度が8.3%の試料UK92797を示し、破線420は、分画胎児DNA濃度が20.3%の試料UK94884を示す。UK92797試料と比較して、試料UK94884(分画胎児DNAが多い試料)は、200bp~267bpのDNAサイズに対応する63秒~73秒の電気泳動時間の間(領域A)に比較的多いDNA量を有し、292bpまでのDNAサイズに対応する73秒の電気泳動時間(領域B)以内に比較的低いDNA量を有していた。
【0087】
製造業者のプロトコル従い、合計サイズが122bpのDNAアダプターおよびプライマーセットを、シーケンシングライブラリー構築のため血漿DNAに導入した。したがって、領域Aは、約78bp~145bpの血漿DNA断片に対応し、領域Bは、約170bpの血漿DNA断片に対応する。そのように導き出すことは、DNAライブラリーの構築のための異なるプロトコルに応用できる。例えば、Illuminaシングルリードシーケンシングライブラリの調製では合計サイズ92bpのアダプター/プライマーを導入するが、このサイズは、標準的なペアエンドシーケンシングライブラリーの調製では119bpになる。
【0088】
別の実施形態では、血漿DNAは、当業者に知られている全ゲノム増幅システム、例えば、Rubicon Genomics PlasmaPlex WGA kit (www.rubicongenomics.com/products)により増幅できる。増幅産物は、その後バイオアナライザーによって解析できる。さらに別の実施形態では、増幅産物は、例えば、Caliper(www.caliperls.com/products/labchip-systems)の電気泳動システムにより解析できる。さらに別の実施形態では、血漿DNAのサイズ分布は、例えば、ナノポアベースのシーケンサー(例えば、Oxford Nanopore Technologies(www.nanoporetech.com))より入手)またはHelico DNA シーケンサー(www.helicosbio.com)を用いて増幅せずに直接解析できる。
【0089】
IV.サイズパラメータ
上述のように様々なパラメータが、生体試料におけるDNA断片のサイズプロファイルの統計的尺度となる。パラメータは、解析するDNA断片の全サイズのまたは一部のみを使用して決定してもよい。一実施形態では、パラメータは、短いDNA断片と長いDNA断片の相対量であり、ここで短いDNAおよび長いDNAは、特定のサイズまたはサイズ範囲に対応しうる。
【0090】
母体血漿DNAの全体的なサイズ分布が分画胎児DNA濃度を反映させるのに使用できるか否かを調べるために、異なるパラメータを使用して短いDNAおよび長いDNAの相対量を定量し、これらのパラメータと分画胎児DNA濃度との間の相関を決定した。これらの調査の結果を以下のセクションで示す。短いDNAの相対量を反映するために、例示として我々が用いたパラメータは、以下を含む:
i.CF(サイズ≦150)と表する150bp以下のDNA断片の割合。CFは累積度数(cumulative frequency)を指す。よって、CF(サイズ≦150)は150bp以下の断片の累積度数を指す。
ii.(CF(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量の比。
iii.(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量の比。
iv.(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量の比。
v.(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量の比。
【0091】
パラメータの他の例として、ヒストグラムの頻度数がある。一実施形態では、複数のパラメータを使用してもよい。例えば、各パラメータの値が異なる割合を示すことがあるので、これらの割合の平均を決定してもよい。別の実施形態では、各パラメータが、多次元校正関数の異なる次元に対応し、ここで、新しい試料のパラメータの値は、対応する多次元面上の座標に対応する。
【0092】
V.サイズと分画濃度との相関
シークエンシングを利用した2つの試料セットを様々なサイズパラメータと分画濃度との相関を説明するのに使用する。リピート要素のサイズの解析も行う。また、電気泳動のデータも、サイズパラメータと分画濃度との相関を示す。
【0093】
A.第1試料セット
図5Aは、本発明の実施形態に従った、母体血漿における胎児DNAの割合が様々な試料について、150bp以下のDNA断片の割合を示すプロット500である。80個の母体血漿試料について分画胎児DNA濃度に対する150bp以下のDNAの割合をプロットした。正倍数体試料を黒丸で示す。トリソミー13(T13)試料を白三角で示す。トリソミー18(T18)試料を白菱形で示し、トリソミー21(T21)試料を白逆三角で示す。
【0094】
全試料について分画胎児DNA濃度と150bp以下のDNAとの割合の間に正の相関があった(ピアソン相関係数=0.787)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の状態が異なる試料間で一貫しているようだ。これらの結果は、サイズパラメータの解析が母体血漿試料における分画胎児DNA濃度を推定するために有用であることを示唆している。したがって、
図5のデータ点を方法300の校正データ点として使用できる。その後、新たな試料についてのパラメータCF(サイズ≦150)が30であると判定された場合、胎児DNAの割合は約7%~16%の間であると推定できる。
図5のデータ点も、導き出し示した生データ点に当てはまる校正関数を決定するために使用できる。
【0095】
図5Bは、(CFサイズ(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット550である。80個の母体血漿試料について分画胎児DNA濃度に対するCF(サイズ≦150)/サイズ(163~169)比をプロットした。全試料について分画胎児DNA濃度とCF(サイズ≦150)/サイズ(163~169)比の間に正の相関があった(ピアソン相関係数=0.815)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の状態が異なる試料間で一貫している。
【0096】
図6Aは、(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット600である。80個の母体血漿試料について分画胎児DNA濃度に対するサイズ(140~146)/サイズ(163~169)比をプロットした。全試料について分画胎児DNA濃度とサイズ(140~146)/サイズ(163~169)比の間に正の相関があった(ピアソン相関係数=0.808)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の倍数性の状態が異なる試料間で一貫している。
【0097】
図6Bは、(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット650である。80個の母体血漿試料について分画胎児DNA濃度に対するサイズ(140~154)/サイズ(163~169)比をプロットした。全試料について分画胎児DNA濃度とサイズ(140~154)/サイズ(163~169)比の間に正の相関があった(ピアソン相関係数=0.802)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の倍数性の状態が異なる試料間で一貫しているようだ。
【0098】
図7は、(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット700である。80個の母体血漿試料について分画胎児DNA濃度に対するサイズ(100~150)/サイズ(163~169)比をプロットした。全試料について分画胎児DNA濃度とサイズ(100~150)/サイズ(163~169)比の間に正の相関があった(ピアソン相関係数=0.831)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の状態が異なる試料間で一貫している。
【0099】
B.第2試料セット
図8は、本発明の実施形態に従った、母体血漿における胎児DNAの割合が様々な試料について150bp以下のDNA断片の割合を示すプロット800である。標的を濃縮後に48個の超並列ペアエンドシーケンシングした母体血漿試料について分画胎児DNA濃度に対する150bp以下のDNAの割合をプロットした。正倍数体試料を黒丸で示す。トリソミー13(T13)試料を白三角で示す。トリソミー18(T18)試料を白菱形で示し、トリソミー21(T21)試料を白逆三角で示す。全試料について分画胎児DNA濃度と150bp以下のDNAとの割合の間に正の相関があった(ピアソン相関係数=0.816)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の状態が異なる試料間で一貫している。これらの結果は、サイズパラメータの解析が母体血漿試料における分画胎児DNA濃度を推定するために有用であることを示唆している。
【0100】
図9Aは、(CFサイズ(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット900である。48個の母体血漿試料について分画胎児DNA濃度に対するCF(サイズ≦150)/サイズ(163~169)比をプロットした。全試料について分画胎児DNA濃度とCF(サイズ≦150)/サイズ(163~169)比の間に正の相関があった(ピアソン相関係数=0.776)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の状態が異なる試料間で一貫している。
【0101】
図9Bは、(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット950である。48個の母体血漿試料について分画胎児DNA濃度に対するサイズ(140~146)/サイズ(163~169)比をプロットした。全試料について分画胎児DNA濃度とサイズ(140~146)/サイズ(163~169)比の間に正の相関があった(ピアソン相関係数=0.790)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の状態が異なる試料間で一貫している。
【0102】
図10Aは、(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1000である。48個の母体血漿試料について分画胎児DNA濃度に対するサイズ(140~154)/サイズ(163~169)比をプロットした。全試料について分画胎児DNA濃度とサイズ(140~154)/サイズ(163~169)比の間に正の相関があった(ピアソン相関係数=0.793)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の状態が異なる試料間で一貫している。
【0103】
図10Bは、(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1005である。48個の母体血漿試料について分画胎児DNA濃度に対するサイズ(100~150)/サイズ(163~169)比をプロットした。全試料について分画胎児DNA濃度とサイズ(100~150)/サイズ(163~169)比の間に正の相関があった(ピアソン相関係数=0.798)。サイズパラメータと分画胎児DNA濃度との間の正の相関は、胎児の染色体の倍数性の状態が異なる試料間で一貫している。
【0104】
C.反復要素
上述の通り我々は、母体血漿における全てのマッピング可能なDNA断片のサイズが分画胎児DNA濃度と相関することを実証した。このセクションでは、ゲノム中の反復要素のサイズ解析も、血漿における分画胎児DNA濃度の推定に使用できるか否かを調べる。本実施例で、我々は、ゲノムのAlu反復にマッピングしたDNA断片のサイズ分布を解析した。
【0105】
図11は、本発明の実施形態に従った、反復要素のサイズについて胎児DNAの割合に対しプロットしたサイズ比を示すプロットである。この例では、100bp~150bpのDNA断片と163bp~169bpのDNAとの量の比(サイズ(100~150)/サイズ(163~169))を、胎児DNAの割合に対するサイズ分布の変化を反映させるのに用いる。サイズ比と分画胎児DNA濃度の間に正の相関があった(ピアソン相関係数=0.829)。この結果は、反復要素のサイズ分析もまた、母体試料のける胎児DNA分画濃度を決定するのに使用できることを示唆している。
【0106】
大量並列シーケンシングの使用に加えて、他の方法、例えば、PCR、リアルタイムPCR、電気泳動、および質量分析を利用して母体血漿における反復要素(例えば、Alu反復)のサイズ分布を決定できる。一実施形態では、母体血漿試料におけるDNAは、リンカーにライゲーションできる。その後、PCRを、Alu配列に特異的な1のプライマーおよびリンカーに特異的な他のプライマーを用いて行うことができる。PCRに続いて、PCR産物のサイズを、例えば、電気泳動、質量分析、または大量並列シーケンシングによって解析できる。これにより、母体血漿のAlu反復由来の配列のサイズを読み取ることができるだろう。この戦略は、他の標的配列または配列ファミリーにも使用できる。更に、PCRに続き、別のAlu特異的プライマーを用いるネステッド(nested)PCRを行ってもよく、ここでは同じリンカー特異的プライマーまたはリンカー中のネステッドプライマーのいずれかと組み合わせる。かかるネステッドPCRは、対象とする配列(この場合、Alu配列)を増幅させる特異性を増加させるという利点を有する。
【0107】
反復要素を利用する利点の1つは、反復要素のコピー数は比較的多いので、解析が容易なことである。例えば、増幅のサイクルが少なくてもよい場合がある。また、コピー数が多いと、解析精度が潜在的に高くなる。考えられる欠点は、個体間でコピー数が異なる反復要素のクラスもあるということである。
【0108】
D.電気泳動
図12Aは、本発明の実施形態に従った、サイズ比を決定するために使用できるエレクトロフェログラム1200である。解析した全てのDNAライブラリーについて、約292bpに鋭いピークがあり、これに続き300bp~400bpの範囲の二次ピークがあった。あるサイズ範囲の曲線下面積は、その領域由来のDNA断片の相対量を表すことができるので、領域A(200bp~267bp)の面積と領域B(290bp~294bp)の面積の比を用いて、短い断片DNAおよび長いDNA断片の相対量を定量化する。まず、手動で蛍光単位(FU)のベースラインを0に調整し、次に、選択領域の面積を求めた。
【0109】
図12Bは、本発明の実施形態に従った、母体血漿における胎児DNAの割合が様々な試料について200bp~267bpのDNA断片と290bp~294bpのDNAとの量のサイズ比(すなわち、エレクトロフェログラムに示された領域AとBの面積比)を示すプロット1250である。292bpのピークがFU値6.1と低いT13のケースが1つあったが、それ以外のケースは全て20以上のFU値を示した。この低いFU値は面積測定が不正確になるだろうので、解析から除外した。領域AとBの面積比を、他の79個の母体血漿試料全てについての分画胎児DNA濃度に対してプロットする。これらの試料について分画胎児DNA濃度とAとBの面積比との間に正の相関があった(ピアソン相関係数=0.723)。
【0110】
VI.校正データ点の決定
上述したように、校正データ点は、様々な方法で定義できる。さらに、校正データ点は、様々な方法で得ることができる。例えば、校正データ点は、単純に、あるパラメータの一連の校正値として対応する分画濃度とともにメモリから読み出すものであってもよい。また、校正データ点を定義する校正関数をメモリから読み出すこともできる(例えば、所定の関数形式を有する線形または非線形関数)。いくつかの実施形態では、校正データ点は、校正試料から測定されたデータから計算できる。
【0111】
A.方法
図13は、本発明の実施形態に従った、校正試料から得た測定値より校正データ点を決定するための方法1300のフローチャートである。校正試料には、臨床的に関連するDNAおよびその他のDNAが含まれる。
【0112】
ブロック1310では、複数の校正試料を受けとる。校正試料は、本明細書に記載のように得られる。各試料は、別個の実験、またはある分子についてどの試料由来なのかを同定するいくつかの同定手段(例えば、バーコードでDNA断片をタグ付けする)により別個に解析できる。例えば、校正試料を、例えば、シーケンシング装置などのDNA断片のサイズを決定するために用いることができる測定データ(例えば、読み取り配列)を出力する装置で受け取ってもよく、または電気泳動装置で受け取ってもよい。
【0113】
ブロック1320では、臨床的に関連するDNAの分画濃度を、複数の校正試料のそれぞれについて測定する。胎児DNA濃度を測定する様々な実施形態では、父系遺伝配列又は胎児特異的エピジェネティックマーカーを使用してもよい。例えば、父系遺伝アレルは、妊婦のゲノムには存在しないので、母体血漿における分画胎児DNA濃度に比例する割合で検出できる。胎児特異的エピジェネティックマーカーには、母体血漿における胎児または胎盤特異的DNAメチル化パターンを示すDNA配列を含みうる。
【0114】
ブロック1330では、それぞれの校正試料由来のDNA断片の量を、様々なサイズについて測定する。サイズは、本明細書に記載のように測定できる。校正試料のサイズプロファイルに関するデータを取得するために、サイズをカウントやプロットしてもよく、ヒストグラムを作成するのに使用してもよく、または他の分類手段に供してもよい。
【0115】
ブロック1340では、あるパラメータについての校正値を複数のサイズのDNA断片の量に基づいて計算する。校正値は、各校正試料について計算できる。一実施形態では、各校正値について同じパラメータを使用する。しかし、本明細書に記載の複数のパラメータを使用できる実施形態もある。例えば、150塩基未満のDNA断片の累積分画をパラメータとして使用でき、異なる分画濃度を有する試料は異なる校正値を有するであろう。各試料について校正値および測定された分画濃度を含む当該試料についての校正データ点を決定してもよい。これらの校正データ点は、方法300で使用でき、あるいは最終校正データ点(例えば、関数当てはめにより定義される)を決定するのに使用できる。
【0116】
ブロック1350では、複数の分画濃度にわたり校正値を近似する関数を決定する。例えば、線形関数は、分画濃度の関数として校正値に当てはまるだろう。線形関数は、方法300で使用される校正データ点を定義できる。
【0117】
いくつかの実施形態では、複数のパラメータについての校正値を、各試料について計算できる。ある試料についての校正値は、分画濃度とともにデータ点を提供できる多次元座標(各次元は、各パラメータについてのものである)を定義できる。従って、一実施態様では、多次元関数は、全ての多次元データ点に当てはめることができる。したがって、異なる値のパラメータを単一の校正関数に効果的に代入して分画濃度を算出できる多次元検量線を使用できる。そして、単一の校正関数を、校正試料から得られた全てのデータ点の関数当てはめにより作成できる。
【0118】
B.腫瘍DNA濃度の測定
上述のように、実施形態はまた、生体試料における腫瘍DNAの濃度にも適用できる。腫瘍DNAの分画濃度の決定に関する例を次に示す。
【0119】
我々は、肝細胞癌(HCC)に罹患している2人の患者から外科的腫瘍切除の前後の血漿試料を採取した。サイズ解析は、ペアエンド(PE)大量並列シーケンシングを用いて行った。母体血漿DNAのシーケンシングライブラリーは、従前に記載のように構築した(Lo YM et al. Sci Transl Med 2010;2:61ra91)。全ライブリは、HiSeq 2000(Illumina)50bp×2PEフォーマットを用いてシーケンシングした。50bpの読み取り配列は、Short Oligonucleotide Alignment Program 2 (SOAP2)(soap.genomics.org.cn)を用いて、リピート領域をマスクしないヒト参照ゲノム(Hg18) (http://genome.ucsc.edu)にアラインした。それぞれシーケンシングした断片のサイズを、アラインした断片の各末端における最も外側のヌクレオチドの座標から推定した。
【0120】
我々は、Affymetrix SNP6.0 microarray systemを使用して、HCC患者の血液細胞および腫瘍試料から抽出したDNAの遺伝子型を決定した。それぞれのケースで、腫瘍組織においてヘテロ接合性の消失(LOH)を示す領域を、Affymetrix Genotyping Console v4.0 を用いてSNP座位の異なるアレルの強度に基づき同定した。腫瘍由来のDNAの分画濃度(F)は、式:F=(A-B)/A×100%(式中、Aは、LOH領域においてヘテロ接合SNPが欠失していないアレルを有する読み取り配列の数であり、Bは、LOH領域においてヘテロ接合SNPが欠失しているアレルを有する読み取り配列の数である)を用い、LOH領域で欠失および欠失していないアレルを有する配列の量の差から推定した。表3は、その結果を示す。
【0121】
【0122】
表3は、血漿試料におけるシーケンシング情報および腫瘍DNAの分画濃度の測定値を示す。
【0123】
別の実施形態では、重複を示す座位を使用することができる。例えば、腫瘍では、2つのホモ接合染色体のうちの1つについて1コピー分増加しアレルが重複しているようになることがある。よって、1つまたは複数のヘテロ接合の座位において非重複アレル(例えば、SNP)を有する読み取り配列の第1量Aおよびヘテロ接合の座位において重複アレルを有する読み取り配列の第2量Bを決定できる。臨床的に関連するDNAの分画濃度Fは、第1量と第2量の比として(B-A)/A比を用いて計算できる。
【0124】
別の実施形態では、1つまたは複数のホモ接合の座位を使用してもよい。例えば、患者がホモ接合であり、1ヌクレオチドの変異が腫瘍組織内に存在する場合、1つまたは複数の座位を同定できる。その後、1つまたは複数のホモ接合の座位において野生型アレルを有する読み取り配列の第1量Aを決定できる。そして、1つまたは複数のホモ接合の座位において変異型アレルを有する読み取り配列の第2量Bを決定できる。臨床的に関連するDNAの分画濃度Fは、第1量と第2量の比として2B/(A+B)比を用いて計算できる。
【0125】
C.データ点に対する関数当てはめ(Functional Fit)の例
校正試料から決定されるパラメータ値に対し関数当てはめを実施する例をここで説明する。それぞれ1人の男児を宿している80人の妊婦から採取した血漿試料を解析した。80人の妊婦のうち、39人は正倍数体の胎児を宿しており、13人はトリソミー13(T13)の胎児を宿しており、10人はトリソミー18(T18)の胎児を宿しており、18人はトリソミー21(T21)の胎児を宿していた。これらの妊婦の妊娠期間の中間値は13週と1日であった。DNAを血漿試料から抽出し、先に記載したIllumina HiSeq2000プラットフォーム(Zheng YW et al. Clin Chem. 2012;58:549-58)を用いてシーケンシングした。ただし、シーケンシングは8-plexフォーマットで行った。各DNA分子について、両端からそれぞれから50ヌクレオチドをシーケンシングし、参照ゲノム(hg18)にアラインした。
【0126】
次に、それぞれシーケンシングした分子のサイズを、両端の最も外側のヌクレオチドの座標から導き出した。各試料について、中央値が1110万の断片をシーケンシングし、参照ゲノムに特異的にアラインした。サイズが100bp~150bpのDNA分子の割合をサイズが163bp~169bpのDNA分子の割合で除した比を計算し、この比をサイズ比を呼ぶ。80人の妊婦は、全員男児を宿していたので、Y染色体に特異的にアラインした読み取り配列の割合を、各血漿DNA試料における胎児DNAの分画濃度を決定するのに用いた。
【0127】
試料は、ランダムに2セット、すなわちトレーニングセットとバリデーションセットに分けた。線形回帰を使用し、トレーニングセット内の試料に基づいて、分画胎児DNA濃度とサイズ比との関係を確立した。その後、サイズ比から、線形回帰式を用いてバリデーションセットについての分画胎児DNA濃度を導き出した。バリデーションは、次のセクションで説明する。
【0128】
図14Aは、本発明の実施形態に従った、トレーニングセットについての胎児DNAの分画濃度に対するサイズ比のプロット1400である。上述のように、サイズ比は、サイズが100bp~150bpのDNA分子の割合をサイズが163bp~169bpのDNA分子の割合で除することで計算する。データ点1405で示すように、サイズ比を、胎児のDNAの分画濃度に対してプロットする。白丸は、正倍数体のケースを表す。黒塗りのマークは、異数性のケースを表す(T13は黒四角、T18は黒丸、T21は黒三角)。線形回帰線1410は、データ点の関数当てはめによる結果である。関数当てはめは、任意の適切な技術、例えば、最小二乗法により行うことができる。この線1410は、トレーニングセット以外の他の試料について測定されたパラメータの値を推定するのに使用できる。線1410の各部分を校正データ点と考えることができる。
【0129】
VII.校正データ点との比較
上述したように、校正データ点を用いて、臨床的に関連するDNAの分画濃度を決定できる。例えば、
図14Aの生データ点1405を用いて、ある校正値に対する分画DNA濃度の範囲を設けることができる(
図14Aでラベルしたサイズ比)。この範囲は、分画濃度が閾値量より多いか否かを決定するのに使用できる。範囲の代わりに、特定のサイズ比における分画濃度の平均値を使用してもよい。例えば、新しい試料についてのサイズ比として1.3という測定値に対応する分画濃度は、1.3における2つのデータ点から計算した平均濃度として決定できる。一実施形態では、関数当てはめ(例えば、線1410)を使用してもよい。
【0130】
図14Bは、本発明の実施形態に従った、胎児特異的配列を用いて測定した分画濃度に対する
図14Aの線形関数1410から導き出した(推定した)分画濃度のプロット1450である。トレーニングセットのデータに基づいて決定された回帰式(すなわち、線1410)を用いて、バリデーション試料について決定されるサイズ比を、バリデーションセットの試料についての胎児DNAの分画濃度を導き出すのに使用した。測定された分画濃度は、血漿DNA試料におけるY染色体配列の割合(すなわち、Y染色体にアラインする読み取り配列の割合)に対応する。
【0131】
線1460は、2セットの値の間で完全な相関関係を表す。データ点1455のずれは、推定がどの程度正確であるかを示し、点が線1460上にあると点は完全に正確であることを示す。本明細書で述べたように、求める試験は、単に、生体試料において臨床的に関連するDNAが十分な割合で存在するか否かを決定するためのものであるので、推定は完全に正確である必要はない。白丸は、正倍数体のケースを表す。黒塗りのマークは、異数性のケースを表す(T13は黒四角、T18は黒丸、T21は黒三角)。サイズ比から導き出した画胎児DNA濃度とY染色体配列の割合から測定した分画胎児DNA濃度間の差の中央値は2.1%であった。試料の90%で、その差は4.9%未満であった。
【0132】
異なる倍数性状態を有する試料を、キャリブレーションセットとバリデーションセットの両方で使用した。
図14Aに示すように、サイズ比と分画胎児DNA濃度間の関係は倍数性状態が異なる試料間で一貫していた。その結果、分画胎児DNA濃度は、
図14Bに示すように、試料の倍数性状態を事前に知ることなく、試料のサイズ比から導き出すことができる。1つの検量線を、異なる倍数性状態を有する試料について使用した。つまり、我々は、分画胎児DNA濃度を決定するための実施形態を適用する前に、試料の倍数性状態を知る必要がない。
【0133】
VIII.癌
本明細書に記載のように、実施形態は、生体試料における腫瘍DNAの分画濃度を推定するのに使用できる。胎児の例と同様に、例えば、サイズパラメータの値と測定した分画濃度との間の相関関係を示すデータ点に関数(例えば、線形関数)を当てはめることにより、校正試料を用いて相関データ点を決定できる。
【0134】
A.サイズと腫瘍DNA濃度の相関
図15Aは、本発明の実施形態に従った、腫瘍切除前後の2人のHCC患者の血漿における腫瘍DNAの割合が様々な試料について150bp以下のDNA断片の割合を示すプロット1500である。2人のHCC患者について、腫瘍切除の前(黒丸)および後(白丸)の分画腫瘍DNA濃度に対する150bp以下のDNAの割合をプロットした。2つの白丸の位置は互いに近接している(ほぼ重なっている)。これらの結果は、サイズパラメータの解析がHCC患者の血漿試料における分画腫瘍DNA濃度を推定するのに有用であることを示唆している。腫瘍切除後の150bp以下の分画腫瘍DNA濃度およびDNA断片の割合の両方で減少がある。黒丸1505は、腫瘍DNAの割合がかなり低い試料に対応し、これは、腫瘍のサイズが小さいことに関連する。言い換えれば、大きな腫瘍を有する患者は、短いDNAの割合が高く、これは、小さい腫瘍を有する患者と比較してCF(≦150bp)の割合が高いことで反映される。
【0135】
図15Bは、腫瘍切除前後の2人のHCC患者について、(CFサイズ(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1550である。CF(サイズ≦150)/サイズ(163~169)比を2人のHCC患者について、腫瘍切除の前(黒丸)および後(白丸)の分画腫瘍DNA濃度に対しプロットした。2つの白丸の位置は互いに近接している。腫瘍切除後は、分画腫瘍DNA濃度とサイズ比の両方の減少があった。
【0136】
図16Aは、腫瘍切除前後の2人のHCC患者について、(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1600である。サイズ(140~146)/サイズ(163~169)比を2人のHCC患者について、腫瘍切除の前(黒丸)および後(白丸)の分画腫瘍DNA濃度に対しプロットした。腫瘍切除後は、分画腫瘍DNA濃度とサイズ比の両方の減少があった。
【0137】
図16Bは、腫瘍切除前後の2人のHCC患者について、(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1650である。サイズ(140~154)/サイズ(163~169)比を2人のHCC患者について、腫瘍切除の前(黒丸)および後(白丸)の分画腫瘍DNA濃度に対しプロットした。腫瘍切除後は、分画腫瘍DNA濃度とサイズ比の両方の減少があった。
【0138】
図17は、腫瘍切除前後の2人のHCC患者について、(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1700である。サイズ(100~150)/サイズ(163~169)比を2人のHCC患者について、腫瘍切除の前(黒丸)および後(白丸)の分画腫瘍DNA濃度に対しプロットした。腫瘍切除後は、分画腫瘍DNA濃度とサイズ比の両方の減少があった。
【0139】
B.治療によるサイズの減少
図18Aは、腫瘍切除前後のHCC患者について、150bp以下のDNA断片の割合を示すプロット1800である。同じ癌患者由来の一対の試料は、破線でつながっている同一の記号で表す。一般的に、腫瘍切除後の癌患者の血漿DNAにおける150bp以下のDNAの割合の減少がある。
【0140】
治療前と治療後についての割合の値の差分は、腫瘍の存在とサイズパラメータの値との相関関係を示している。治療前と治療後についての割合の値の差分を利用して、例えば、その割合が閾値を下回ると成功であることを示す場合、閾値に対する割合を比較することにより、治療の成功度を決定できる。別の例では、治療前と治療後の間の差分を閾値と比較できる。
【0141】
割合(または他のサイズパラメータの値)を用いて腫瘍の発生を検出できる。例えば、サイズパラメータのベースライン値を決定できる。そして、その後、サイズパラメータの値を再度測定できる。サイズパラメータの値が有意な変化を示した場合、その患者は、腫瘍を有しているリスクが高いとすることができる。割合があまり変わらない(すなわち、治療後の値が同じ)
図18Aが示すように、サイズパラメータの値が個人間であまり変わらない場合、同じベースライン値を他の患者に適用できる。したがって、ベースライン値を、患者ごとに取る必要がない。
【0142】
図18Bは、腫瘍切除前後のHCC患者について、(CFサイズ(サイズ≦150)/サイズ(163~169))と表する150bp以下のDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1850である。同じ癌患者由来の一対の試料は、破線でつながっている同一の記号で表す。腫瘍切除後は、両者のケースともサイズ比の減少があった。
【0143】
図19Aは、腫瘍切除前後のHCC患者について、(サイズ(140~146)/サイズ(163~169))と表する140bp~146bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1900である。同じ癌患者由来の一対の試料は、破線でつながっている同一の記号で表す。腫瘍切除後は、両者のケースともサイズ比の減少があった。
【0144】
図19Bは、腫瘍切除前後のHCC患者について、(サイズ(140~154)/サイズ(163~169))と表する140bp~154bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット1950である。同じ癌患者由来の一対の試料は、破線でつながっている同一の記号で表す。腫瘍切除後は、両者のケースともサイズ比の減少があった。
【0145】
図20は、腫瘍切除前後のHCC患者について、(サイズ(100~150)/サイズ(163~169))と表する100bp~150bpのDNA断片と163bp~169bpのDNAとの量のサイズ比を示すプロット2000である。同じ癌患者由来の一対の試料は、破線でつながっている同一の記号で表す。腫瘍切除後は、両者のケースともサイズ比の減少があった。
【0146】
C.方法
図21は、本発明の実施形態に従った、生物の生体試料を解析して癌のレベルの区分を決定するための方法2100を示すフローチャートである。方法2100は、生物(例えば、ヒト)の生体試料を解析できる。生物試料は、正常細胞由来のDNAと、癌に関連しているおそれがある細胞由来のDNAを含む。少なくともDNAの一部は、生体試料における無細胞DNAである。方法300および1300の態様を方法2100の実施形態に適用できる。
【0147】
ブロック2110では、様々なサイズに対応するDNA断片の量を測定する。方法300に記載のように、複数のサイズのうちの各サイズについて、そのサイズに対応する生体試料由来の複数のDNA断片の量を測定することができる。複数のDNA断片を、ランダムに選択またはゲノムの1つまたは複数の所定の領域から優先的に選択できる。例えば、上述したように、標的の濃縮を行ってもよく、あるいはゲノムの特定の領域由来の読み取り配列を選択してもよい。
【0148】
ブロック2120では、第1パラメータの第1値を複数のサイズのDNA断片の量に基づいて計算する。一態様では、第1パラメータは、生体試料におけるDNA断片のサイズプロファイルの統計的尺度(例えば、ヒストグラム)を提供する。このパラメータは、複数のDNA断片のサイズから決定されるため、サイズパラメータと呼ぶことができる。パラメータの例を本明細書に記載する。本明細書に記載のように複数のパラメータを用いてもよい。
【0149】
ブロック2130では、第1値を基準値と比較する。基準値の例として、正常値および正常値から特定の距離(例えば、標準偏差の単位内)にあるカットオフ値を含む。基準値は、(例えば、健康であることがわかっている)同じ生物由来の異なる試料から測定してもよい。よって、基準値は、生物が癌を有さないと推測される試料から決定される第1パラメータの値に対応し得る。一実施形態では、生体試料は、治療後の生物から得られ、基準値は、治療前に採取した試料から決定された第1パラメータの値に対応する(例えば、上記に例示されている)。基準値は、他の健康な生物の試料から決定してもよい。
【0150】
ブロック2140では、生物の癌のレベルの区分を、比較に基づいて決定する。様々な実施形態では、区分は、数値、文字、または他の任意の指標であり得る。区分することで、早期に癌に関する確率またはその他のスコアに関しyesまたはnoという2値の結果を提供することができる。確率およびその他のスコアは、絶対値であってもよく、あるいはその生物の従前の区分に対する相対値であってもよい。一実施態様では、区分は、生物が癌を有していない、または癌のレベルが低下したということである。別の実施形態では、区分は、生物が癌を有している、または癌のレベルが増加したということである。
【0151】
本明細書に記載のように、癌のレベルには、癌の存在、癌の段階、または腫瘍のサイズを含み得る。例えば、第1値を超えたか否か(例えば、第1パラメータを如何に定義するかによるが、その値よりも大きいまたは小さいということ)を利用して、癌が存在するかどうか、または少なくともその可能性(例えば、パーセンテージ尤度)を判断できる。さらに、閾値を超える程度が可能性の増大を示すようにして、複数の閾値を利用してもよい。さらに、上記の程度は、異なる癌のレベル、例えば、腫瘍の数または大きさに対応してもよい。したがって、実施形態は、生物の癌のレベルの診断、段階付け、予知、または進行状況のモニターが可能である。
【0152】
D.特定の領域のサイズ分布の決定
他の実施形態と同様に、DNA断片の第1セットが、生物のゲノムにおける1つまたは複数の所定領域に対応しうる。よって、サイズ解析は、選択領域、例えば、特定の染色体、染色体の腕、または同じ長さ、例えば1Mbの複数領域(ビン)、についても実施できる。例えば、対象の種類の癌で一般的に変化する領域に集中できる。
図22の表2200は、様々な種類の癌で見られる一般的な染色体異常のいくつかを示す。増加は、特定のセグメント内の1つまたは複数のコピー数の追加を伴う染色体の増幅を指し、欠失は、特定のセグメント内のホモ接合染色体の片方または両方の欠失を指す。
【0153】
一実施形態では、DNA断片の追加のセットを、生体試料から同定してもよい。DNA断片の各セットは、表2200で特定した領域などの異なる所定領域に対応しうる。癌に関連しない領域もまた、例えば、基準値を決定するために使用できる。本明細書に記載のように、様々なサイズに対応するDNA断片の量を決定でき、DNA断片の追加のセットそれぞれについてのパラメータのサイズ値を決定できる。したがって、DNA断片のセットとゲノム領域との間に1対1の対応が存在するようなゲノム領域についてそれぞれの異なるサイズ値を決定できる。
【0154】
それぞれのサイズ値を、それぞれの基準値と比較できる。対応するサイズ値がそれぞれの基準値と統計学的に差異がある所定領域を同定できる。基準値が正常値である場合、統計的な差異は、カットオフのサイズ値と比較することによって決定できる(例えば、推定または測定した統計的分布に基づくカットオフ値が特定の数の正常値からの標準偏差である場合)。それぞれの基準値は、異なる領域に対し同一または異なっていてもよい。例えば、異なる領域は、サイズごとに異なる正常値を有することがある。
【0155】
一実施形態では、基準値と統計学的に差異がある領域の数を利用して、区分を決定してもよい。従って、対応するサイズの値がそれぞれの基準値と統計学的に差異がある所定領域を同定する数を決定できる。その数を、領域の閾値数と比較して、生物における癌のレベルの区分を決定できる。閾値数は、正常試料内および癌試料内の差に基づいて決定できる。
【0156】
表2200で示すように、異なる癌はゲノムの異なる部分に関連する。したがって、どの領域が統計学的に差異があるかということを利用して、可能性のある1つまたは複数の癌の種類が同定された領域に関連する場合、その可能性のある癌の種類を決定できる。例えば、染色体セグメント7p由来のDNA断片のサイズ値が正常値よりも有意に低いと分かった場合(例えば、カットオフ値の決定による)、その区分が癌の存在を示すなら結腸直腸癌が可能性のある癌として同定できる。染色体セグメント7pのサイズ値を区分を決定するただ一つの指標として用いてもよいし、あるいは複数の領域を用いてもよいことに留意されたい。一実施形態では、区分が全体として癌であることを示す場合にのみ、染色体セグメント7pのサイズ値を用いて結腸直腸癌を可能性のある癌として同定する。
【0157】
IX.コンピュータシステム
本明細書に記載のいずれのコンピュータシステムに関しても、任意の適切な数のサブシステムを利用することが可能である。このようなサブシステムの例を、
図23のコンピュータ装置2300に示す。いくつかの実施形態では、コンピュータシステムは、ただ1つのコンピュータ装置を含み、この場合、サブシステムがコンピュータ装置の構成要素でありうる。他の実施形態では、コンピュータシステムは、複数のコンピュータ装置を含み、それぞれが内部構成要素を含むサブシステムでありうる。
【0158】
図23に示すサブシステムがシステムバス2375を介して相互接続される。例として、プリンター2374、キーボード2378、固定ディスク2379、ディスプレイアダプター2382に接続されたモニター2376、等の追加のサブシステム、が示されている。I/O制御装置2371に接続された周辺装置および入/出力(I/O)装置を、当技術分野で既知の任意の数のシリアルポート2377、等の手段によりコンピュータシステムに接続できる。例えば、シリアルポート2377または外部インターフェイス2381(例えば、イーサネット(登録商標)、Wi-Fi等)を使って、コンピュータシステム2300をインターネット等の広域ネットワーク、マウス入力装置、またはスキャナーに接続できる。システムバス2375を介した相互接続は、中央処理装置2373のそれぞれのサブシステムとの通信、およびシステムメモリー2372または固定ディスク2379からの命令の実行の制御、ならびにサブシステム間の情報交換の制御を可能とする。システムメモリー2372および/または固定ディスク2379は、コンピュータ可読媒体を組み入れることができる。本明細書に記載のいずれのデータも、1つの装置から別の装置に出力でき、また、ユーザーに対しても出力できる。
【0159】
コンピュータシステムは、例えば、外部インターフェイス2381または内部インターフェイスにより接続された複数の同じ装置またはサブシステムを含むことができる。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワークを介して通信できる。このような場合は、1つのコンピュータをクライアント、別のコンピュータをサーバーと見なすことができ、この場合、それぞれは、同じコンピュータシステムの一部となりうる。クライアントおよびサーバーは、それぞれ複数のシステム、サブシステム、または装置を含んでもよい。
【0160】
本発明のいずれの実施形態も、モジュールまたは集積方式で一般的にプログラム可能なプロセッサを有するハードウェア(例えば、特定の目的の集積回路またはフィールドプログラム可能なゲートアレイ)および/またはコンピュータソフトウェアを使った制御論理の形で実装できることと理解すべきである。本明細書における開示および教示に基づいて、当業者なら、ハードウェアおよびハードウェアとソフトウェアの組み合わせを使って、本発明の実施形態を実施する他の手段、および/または方法が分かり、理解するであろう。
【0161】
本出願に記載のいずれのソフトウェア成分または機能も、例えば、Java(登録商標)、C++またはPerl等のいずれかの適切なコンピュータ言語を使い、例えば、従来の、またはオブジェクト指向技術を使って、プロセッサにより実行されるソフトウェアコードとして実装可能である。ソフトウェアコードは、保存および/または送信用のコンピュータ可読媒体上の一連の指令または命令として保存できる。適切な媒体には、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、ハードドライブもしくはフロッピー(登録商標)ディスク、等の磁気メディア、またはコンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)等の光学メディア、フラッシュメモリ、等が含まれる。コンピュータ可読媒体は、このような保存または送信装置のいずれかの組み合わせであってもよい。
【0162】
このようなプログラムは、また、インターネットを含む種々のプロトコルに準拠した有線、光学、および/または無線ネットワークを介した送信に合わせたキャリアシグナルを使って、コード化および送信できる。従って、本発明の実施形態に係るコンピュータ可読媒体は、このようなプログラムでコードされたデータシグナルを使って作成できる。プログラムコードでコードされたコンピュータ可読媒体は、互換性のある装置と一緒にパッケージされても、または他の装置から別々に(例えば、インターネットのダウンロードにより)提供されてもよい。このようなコンピュータ可読媒体はいずれも、単一のコンピュータプログラム製品(例えば、ハードドライブ、CD、または全体コンピュータシステム)上にあっても、内部にあってもよく、また、システムまたはネットワーク内の異なるコンピュータプログラム製品上にあっても、内部にあってもよい。コンピュータシステムは、モニター、プリンター、または本明細書記載のいずれかの結果をユーザーに提供するための他の適切なディスプレイを含んでもよい。
【0163】
本明細書に記載の任意の方法は、全体的に、または部分的に、ステップを実行するよう構成できる、1つまたは複数のプロセッサを含むコンピュータシステムを使って実施できる。従って、実施形態は、本明細書に記載の任意の方法のステップを実行するように構成され、場合によっては、それぞれのステップまたはそれぞれのステップグループを実行する異なる装置を備えた、コンピュータシステムに関するものであってもよい。本明細書の方法のステップは、番号を付したステップとして示したが、同時にまたは異なる順序で行うことができる。さらに、これらのステップの一部は、他の方法による他のステップの一部と一緒に使用できる。また、全部または一部のステップを任意に選択できる。さらに、任意の方法の任意のステップを、モジュール、回路、またはこれらのステップを実行する他の手段と一緒に行うことができる。
【0164】
特定の実施形態の特定の詳細は、本発明の実施形態の趣旨および範囲を逸脱することなく、いずれかの適切な方法で組み合わせることができる。しかし、本発明の他の実施形態は、それぞれの個別態様、またはこれらの個別態様の特定の組み合わせ、に関連する具体的な実施形態に関するものであってもよい。
【0165】
本発明の代表的な実施形態の上記記載は、例示および説明の目的で提示するものである。本発明を記載された通りの形態として網羅的または限定的とする意図はなく、上記教示を考慮した多くの修正および変形が可能である。実施形態は、本発明の原理およびその実際の適用を最良に説明し、それにより、種々な実施形態で、特定の意図された用途に適合するように種々の変形を用いて、他の当業者が本発明を最良に利用できるように選択および記載した。
【0166】
特に逆の指示がなければ、「a」、「an」または「the」の記述は、「1つまたは複数の」を意味するという意図である。
【0167】
全ての特許、特許出願、出版物、および上述の記載は、それらの全内容があらゆる目的において参照により本明細書に援用される。これらのいずれも先行技術であることを認めるものではない。