【文献】
FAN, H. Christina et al.,"Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood",Proc. Natl. Acad. Sci. U. S. A.,2008年,Vol. 105,p. 16266-16271
(58)【調査した分野】(Int.Cl.,DB名)
胎児及び母体の核酸を含む母体テストサンプルにおける、任意の4つ又はそれ以上の関心対象染色体それぞれの任意の4つ又はそれ以上の異なった完全胎児染色体異数性の有無を決定する方法において、
(a) 前記母体テストサンプルにおける胎児及び母体の核酸に関する配列情報を、次世代シークエンシング(NGS)を用いて取得するステップと、
(b) 前記配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した前記任意の4つ又はそれ以上の関心対象染色体それぞれの配列タグ数を同定し、また前記任意の4つ又はそれ以上の関心対象染色体それぞれの正規化染色体の配列タグ数を同定するステップ、ここで、前記4つまたはそれ以上の関心対象染色体それぞれの前記正規化染色体は、関心対象染色体を正常なコピー数で有する細胞で構成されていることが既知の検体から採取した適格サンプルの配列情報を用いて同定されたものであり、そして:
(i)関心対象染色体にマッピングする配列タグの数の変動と最も近似する、正規化染色体にマッピングされた配列タグの数における変動を呈する、
及び/又は
(ii)適格サンプルにおいて関心対象染色体との間の染色体ドースの変動及びドース分布に基づいて統計学的に同定されるものであって、適格サンプル中の関心対象染色体の染色体ドースの分布と、テストサンプル中の関心対象染色体の染色体ドースの分布との間で、最も大きな統計学的相違を提供する、
と、
(c) 前記任意の4つ又はそれ以上の関心対象染色体それぞれに対して同定した前記配列タグ数、及び前記正規化染色体に対して同定した前記配列タグ数を使用して、前記4つ又はそれ以上の関心対象染色体それぞれの単独染色体ドースを計算するステップと、及び
(d) 前記4つ又はそれ以上の関心対象染色体それぞれの前記単独染色体ドースそれぞれを、前記4つ又はそれ以上の関心対象染色体それぞれの閾値と比較し、これにより前記母体テストサンプルにおける任意の4つ又はそれ以上の異なった完全胎児染色体異数性の有無を決定するステップと
を有する、方法。
請求項1記載の方法において、前記ステップ(c)は、前記関心対象染色体それぞれの単独染色体ドースを、前記関心対象染色体それぞれに対して同定した前記配列タグ数と、前記関心対象染色体それぞれの前記正規化染色体配列に対して同定した前記配列タグ数との比として計算するステップを有する、方法。
請求項1〜3のうちいずれか一項記載の方法において、1〜22番染色体、X染色体及びY染色体から選択した前記任意の4つ又はそれ以上の関心対象染色体は、1〜22番染色体、X染色体及びY染色体から選択した少なくとも20の染色体を含むものとし、少なくとも20の異なった完全胎児染色体異数性の有無を決定する、方法。
請求項1〜3のうちいずれか一項記載の方法において、1〜22番染色体、X染色体及びY染色体から選択した前記任意の4つ又はそれ以上の関心対象染色体は、1〜22番染色体、X染色体及びY染色体のすべてとし、1〜22番染色体、X染色体及びY染色体のすべての異なった完全胎児染色体異数性の有無を決定する、方法。
胎児及び母体の核酸を含む母体テストサンプルにおける、任意の1つ又はそれ以上の関心対象染色体の任意の1つ又はそれ以上の異なった完全胎児染色体異数性の有無を決定する方法において、
(a) 前記母体テストサンプルにおける胎児及び母体の核酸に関する配列情報を、次世代シークエンシング(NGS)を用いて取得するステップと、
(b) 前記配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の1つ又はそれ以上の関心対象染色体それぞれの配列タグ数を同定し、また前記任意の1つ又はそれ以上の関心対象染色体それぞれの正規化断片配列の配列タグ数を同定するステップ、ここで、前記1つまたはそれ以上の関心対象染色体それぞれの前記正規化断片配列は、関心対象染色体を正常なコピー数で有する細胞で構成されていることが既知の検体から採取した適格サンプルの配列情報を用いて同定されたものであり、そして:
(i)関心対象染色体にマッピングする配列タグの数の変動と最も近似する、正規化断片配列にマッピングされた配列タグの数における変動を呈する、
及び/又は
(ii)適格サンプルにおいて関心対象染色体との間の染色体ドースの変動及びドース分布に基づいて統計学的に同定されるものであって、適格サンプル中の関心対象染色体の染色体ドースの分布と、テストサンプル中の関心対象染色体の染色体ドースの分布との間で、最も大きな統計学的相違を提供する、
と、
(c) 前記任意の1つ又はそれ以上の関心対象染色体それぞれに対して同定した前記配列タグ数、及び前記正規化断片配列に対して同定した前記配列タグ数を使用して、前記任意の1つ又はそれ以上の関心対象染色体それぞれの単独染色体ドースを計算するステップと、及び
(d) 前記任意の1つ又はそれ以上の関心対象染色体それぞれの前記単独染色体ドースそれぞれを、前記任意の1つ又はそれ以上の関心対象染色体それぞれの閾値と比較し、これにより前記母体テストサンプルにおける任意の1つ又はそれ以上の異なった完全胎児染色体異数性の有無を決定するステップと
を有する、方法。
請求項8記載の方法において、前記ステップ(c)は、前記関心対象染色体それぞれの単独染色体ドースを、前記関心対象染色体それぞれに対して同定した前記配列タグ数と、前記関心対象染色体それぞれの前記正規化断片配列に対して同定した前記配列タグ数との比として計算するステップを有する、方法。
請求項8又は9記載の方法において、1〜22番染色体、X染色体及びY染色体から選択した前記任意の1つ又はそれ以上の関心対象染色体は、1〜22番染色体、X染色体及びY染色体から選択した少なくとも20の染色体を含むものとし、少なくとも20の異なった完全胎児染色体異数性の有無を決定する、方法。
請求項8又は9記載の方法において、1〜22番染色体、X染色体及びY染色体から選択した前記任意の1つ又はそれ以上の関心対象染色体は、1〜22番染色体、X染色体及びY染色体のすべてとし、1〜22番染色体、X染色体及びY染色体のすべての異なった完全胎児染色体異数性の有無を決定する、方法。
請求項1〜11のうちいずれか一項記載の方法において、前記異なった完全胎児染色体異数性は、完全染色体トリソミー、完全染色体モノソミー、及び完全染色体ポリソミーから選択する、方法。
請求項1〜12のうちいずれか一項記載の方法において、前記異なった完全胎児染色体異数性は、2番トリソミー、8番トリソミー、9番トリソミー、21番トリソミー、13番トリソミー、16番トリソミー、18番トリソミー、22番トリソミー、47,XXY、47,XXX、47,XYY、及びXモノソミーから選択する、方法。
請求項1〜13のうちいずれか一項記載の方法において、ステップ(a)〜(d)は、異なる母体検体からのテストサンプルに対して繰り返して行い、前記方法は、前記テストサンプルそれぞれにおける任意の4つ又はそれ以上の異なった完全胎児染色体異数性の有無を決定する、方法。
胎児及び母体の核酸を含む母体テストサンプルにおける、任意の1つ又はそれ以上の関心対象染色体の1つ又はそれ以上の断片の異なった部分的胎児染色体異数性の有無を決定する方法において、
(a) 前記母体テストサンプルにおける胎児及び母体の核酸に関する配列情報を、次世代シークエンシング(NGS)を用いて取得するステップと、
(b) 前記配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の1つ又はそれ以上の関心対象染色体における任意の1つ又はそれ以上の断片それぞれの配列タグ数を同定し、また前記任意の1つ又はそれ以上の関心対象染色体における任意の1つ又はそれ以上の断片それぞれの正規化断片配列の配列タグ数を同定するステップ、ここで、前記1つまたはそれ以上の関心対象染色体の1つまたはそれ以上の断片それぞれの前記正規化断片配列は、関心対象染色体を正常なコピー数で有する細胞で構成されていることが既知の検体から採取した適格サンプルの配列情報を用いて同定されたものであり、そして:
(i)1つまたはそれ以上の関心対象染色体の1つまたはそれ以上の断片にマッピングする配列タグの数の変動と最も近似する、正規化断片配列にマッピングされた配列タグの数における変動を呈する、
及び/又は
(ii)適格サンプルにおいて関心対象染色体との間の染色体ドースの変動及びドース分布に基づいて統計学的に同定されるものであって、適格サンプル中の1つまたはそれ以上の関心対象染色体の1つまたはそれ以上の断片の染色体ドースの分布と、テストサンプル中の1つまたはそれ以上の関心対象染色体の1つまたはそれ以上の断片の染色体ドースの分布との間で、最も大きな統計学的相違を提供する、
と、
(c) 前記任意の1つ又はそれ以上の関心対象染色体における任意の1つ又はそれ以上の断片それぞれに対して同定した前記配列タグ数、及び前記正規化断片配列に対して同定した前記配列タグ数を使用して、前記任意の1つ又はそれ以上の関心対象染色体における任意の1つ又はそれ以上の断片それぞれの単独染色体ドースを計算するステップと、及び
(d) 前記任意の1つ又はそれ以上の関心対象染色体における任意の1つ又はそれ以上の断片それぞれの前記単独断片ドースそれぞれを、前記任意の1つ又はそれ以上の関心対象染色体における任意の1つ又はそれ以上の染色体断片それぞれの閾値と比較し、これにより前記母体テストサンプルにおける任意の1つ又はそれ以上の異なった部分的胎児染色体異数性の有無を決定するステップと
を有する、方法。
請求項16記載の方法において、前記ステップ(c)は、前記関心対象染色体における任意の1つ又はそれ以上の染色体断片それぞれの単独断片ドースを、前記関心対象染色体における任意の1つ又はそれ以上の染色体断片それぞれに対して同定した前記配列タグ数と、前記関心対象染色体における任意の1つ又はそれ以上の染色体断片それぞれの前記正規化断片配列に対して同定した前記配列タグ数との比として計算するステップを有する、方法。
請求項16〜18のうちいずれか一項に記載の方法において、前記異なった部分的胎児染色体異数性は、部分的重複、部分的増殖、部分的挿入及び部分的欠失から選択する、方法。
請求項16〜19のうちいずれか一項に記載の方法において、前記異なった部分的胎児染色体異数性は、1番染色体の部分モノソミー、4番染色体の部分モノソミー、5番染色体の部分モノソミー、7番染色体の部分モノソミー、11番染色体の部分モノソミー、15番染色体の部分モノソミー、17番染色体の部分モノソミー、18番染色体の部分モノソミー、及び22番染色体の部分モノソミーから選択する、方法。
請求項16〜20のうちいずれか一項記載の方法において、ステップ(a)〜(d)は、異なる母体検体からのテストサンプルに対して繰り返して行い、前記方法は、前記テストサンプルそれぞれにおける異なった部分的胎児染色体異数性の有無を決定する、方法。
請求項8〜21のうちいずれか一項記載の方法において、前記正規化断片配列は、1〜22番染色体、X染色体及びY染色体のうち任意の1つ又はそれ以上における単独断片とする、方法。
請求項8〜21のうちいずれか一項記載の方法において、前記正規化断片配列は、1〜22番染色体、X染色体及びY染色体のうち任意の1つ又はそれ以上における断片グループとする、方法。
請求項1〜23のうちいずれか一項記載の方法において、前記ステップ(a)は、前記テストサンプルにおける前記核酸の少なくとも一部分をシークエンシングし、前記テストサンプルにおける前記胎児及び母体の前記核酸に関する配列情報を得る、方法。
請求項1〜26のうちいずれか一項記載の方法において、前記次世代シークエンシングは、可逆色素ターミネーターによるシークエンシング・バイ・シンセシスを使用する、大量並列シークエンシングとする、方法。
【発明を実施するための形態】
【0026】
1個又はそれ以上の関心対象である配列の総量が既知である、又はその配列の総量に違いがあると懸念される核酸混合物を有するテストサンプルにおける、関心対象である配列のコピー数多型(CNV:copy number variations)を決定する方法を提供する。関心対象である配列は、遺伝子状態又は病状に関連することが既知又は懸念される染色体全体に関してキロベース(kb)からメガベース(Mb)の範囲にわたるゲノム配列を含む。関心対象である配列の例としては、よく知られている異数性、例えば、21番トリソミーに関連する染色体、及びがんのような疾患で増殖される染色体断片、例えば、急性骨髄性白血病における部分的8番トリソミーに関連する染色体がある。本発明により決定することができるCNVとしては、1〜22番の染色体、X及びYの性染色体のうち任意の1つ又はそれ以上におけるモノソミー及びトリソミー、例えば、45,X、47,XXX、47,XXY、及び47,XYY、他の染色体ポリソミー、すなわち限定はしないがXXXX、XXXXX、XXXXY、XYYYYを含むテトラソミー及びペンタソミー、染色体のうち任意の1つ又はそれ以上における断片(セグメント)の欠失及び/又は重複がある。
【0027】
本発明方法は、処理に関連する染色体間(ラン内)変動及びシークエンシング間(ラン間)変動からの見越し変動ステミング処理を担う統計的アプローチをなす。この方法は、任意の胎児異数性におけるCNV、及び種々の内科的疾患に関連すると既知である又は懸念されるCNVを決定するのに適用可能である。
【0028】
他に明示しない限り、本発明の実施には、従来の技術範囲にある分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質及びDNAシークエンシング(配列決定)及び組換えDNAの分野で共通して使用される普通の技術を含む。このような技術は当業者には既知であり、多くの文書及び参照文献(例えば、Sambrook et al.,”Molecular Cloning:A Laboratory Manual”,Third Edition (Cold Spring Harbor), [2001]); 及びAusubel et al., “Current Protocols in Molecular Biology” [1987]参照。)に記載されている。
【0029】
多くの範囲が範囲を画定する数に含まれている。本明細書に記載するあらゆる最大数値限定は、あらゆるより低い数値限定をも、このようなより低い数値限定が本明細書にはっきりと記載されているように含むことを意図する。本明細書に記載するあらゆる最小数値限定は、あらゆるより高い数値限定をも、このようなより高い数値限定が本明細書にはっきりと記載されているように含むことを意図する。本明細書に記載するあらゆる数値範囲は、このようなより広い数値範囲内にあるあらゆる狭い数値範囲をも、このようなより狭い数値範囲が本明細書にはっきりと記載されているように含むことを意図する。
【0030】
本明細書に付された見出し項目は、本明細書を全体的に参照することによって理解できる本発明の種々の態様又は実施形態を限定するものではない。したがって、上述したように、以下に定義する用語は、本明細書全体を参照することによってより十分に定義されるものである。
【0031】
本明細書に別様に定義しない限り、本明細書に使用するすべての技術的及び科学的な用語は、本発明が属する当業者に共通して理解されるのと同一の意味を有する。本明細書に含まれる用語を含む種々の科学辞書は既知であり、当業者が利用可能である。本明細書に記載のものと類似又は等価な任意の方法及び材料を本発明の実施又はテストに使用できるが、幾つかの好適な方法及び材料を記載する。したがって、以下に定義する用語は、本明細書全体を参照することによってより十分に記述されるものである。本発明は、本明細書に記載される特別な方法論、手順、及び試薬に限定されるものではなく、当業者が使用する文脈に応じて変化し得る。
【0032】
定義
本明細書に使用する、単数表記の”a”,”an”及び”the”は、他に明示しない限り複数での言及も含むものとする。他に明示しない限り、核酸は左から右に5′から3′に向かう向きに記述し、アミノ酸配列は左から右にアミノからカルボキシに向かう向きでそれぞれ記述する。
【0033】
本明細書における用語「評価(assessing)」は、「正常(normal)」、「異変あり(affected)」、「ノーコール(no-call)」という3タイプの判定(コール)のうち1つによって染色体異数性の状態を特徴付けることを意味する。例えば、トリソミー有無判定場合、「正常」の判定は、パラメータ、例えばユーザー定義の信頼性閾値未満のテスト染色体ドースの値によって決定し、「異変あり」の判定は、パラメータ、例えばユーザー定義の信頼性閾値を超えるテスト染色体ドースによって決定し、「ノーコール」の判定は、パラメータ、例えば「正常」又は「異変あり」の判定を行うユーザー定義の信頼性閾値間にあるテスト染色体ドースによって決定する。
【0034】
本明細書における用語「コピー数多型」は、適格サンプルに存在する核酸配列のコピー数と比較するテストサンプルに存在する1kb以上の長さを有する核酸配列におけるコピー数の変動を意味する。「コピー数多型(copy number variation)」は、核酸における1kb以上の長さを有する配列であって、コピー数の差異はテストサンプルにおける関心対象配列を適格サンプルに存在するその関心対象配列と比較することによって見出す。コピー数多型には、微小欠失を含む欠失、微小挿入を含む挿入、重複、増殖、逆位、転座、及び複合多部位変異がある。CNVは染色体異数性及び部分的異数性を含む。
【0035】
本明細書における用語「異数性」は、染色体全体又は染色体一部における不足又は過剰によって生ずる遺伝子材料の不均衡を意味する。
【0036】
本明細書における用語「染色体異数性」及び「完全染色体異数性」は、染色体全体における不足又は過剰によって生ずる遺伝子材料の不均衡を意味し、また生殖細胞系列異数性及びモザイク異数性を含む。
【0037】
本明細書における用語「部分異数性」及び「部分染色体異数性」は、染色体の一部における不足又は過剰、例えば、部分モノソミー及び部分トリソミーによって生ずる遺伝子材料の不均衡を意味し、転座、欠失及び挿入によって生ずる不均衡を含む。
【0038】
本明細書における用語「異数性サンプル」は、染色体含有量が正倍数性でない検体を表すサンプル、すなわち、染色体のコピー数が異常な検体を表すサンプルを意味する。
【0039】
本明細書における用語「異数性染色体」は、異常コピー数のサンプルに存在することが既知である又は決定された染色体を意味する。
【0040】
本明細書における用語「複数」は、本発明方法に使用するテストサンプル及び適格サンプルにおいて、コピー数多型における大きな差異を識別するのに十分な多数の核酸分子又は塩基配列タグ(例えば、染色体ドース)を意味する。若干の実施形態において、20〜40個の塩基対(bp)リード(reads)を有する、少なくとも約3×10
6個の塩基配列タグ、少なくとも約5×10
6個の塩基配列タグ、少なくとも約8×10
6個の塩基配列タグ、少なくとも約10×10
6個の塩基配列タグ、少なくとも約15×10
6個の塩基配列タグ、少なくとも約20×10
6個の塩基配列タグ、少なくとも約30×10
6個の塩基配列タグ、少なくとも約40×10
6個の塩基配列タグ、少なくとも約50×10
6個の塩基配列タグを、各テストサンプルから得る。
【0041】
本明細書における用語「ポリヌクレオチド」、「核酸」及び「核酸分子」は、互いに置き換え可能に使用され、ヌクレオチドの共有結合配列(すなわち、RNAのリボヌクレオチド及びDNAのデオキシリボヌクレオチド)を意味し、1つのヌクレオチドにおけるペントースの3′位置をホスホジエステル基によって、次のヌクレオチドにおけるペントースの5′位置に結合し、限定しないがRNA,DNA,及びcfDNA分子を含む任意の核酸形式の配列を含む。用語「ポリヌクレオチド」は、限定しないが単独らせん及び2重らせんのポリヌクレオチドを含む。
【0042】
本明細書における用語「部分」は、生物学的サンプルにおける胎児及び母体の核酸分子の配列情報量の合計が1ヒトゲノムの配列情報より少ない量を意味する。
【0043】
本明細書における用語「テストサンプル」は、コピー数に変動があったことが懸念される少なくとも1つの核酸配列を有する核酸混合物を含むサンプルを意味する。テストサンプルに存在する核酸は「テスト核酸」と称する。
【0044】
本明細書における用語「適格サンプル」は、テストサンプルにおける核酸と比べられるコピー数が既知で存在する核酸混合物を有するサンプルを意味し、正常、すなわち関心対象である配列に異数性がないサンプルであり、例えば、21番染色体の正規化染色体を識別するのに使用する適格サンプルは21番トリソミーサンプルではないサンプルである。
【0045】
本明細書における用語「トレーニングセット」は、異変ありサンプル及び異変なしサンプルを含むことができるサンプルセットを意味する。トレーニングセットにおける異変なしサンプルは、正規化配列、例えば、正規化染色体を識別する適格サンプルとして使用し、異変なしサンプルの染色体ドースを使用し、関心対象である各配列、例えば、染色体それぞれの閾値を設定する。トレーニングセットにおける異変ありサンプルは、異変ありテストサンプルを異変なしサンプルから容易に区別できることを検証するのに使用することができる。
【0046】
本明細書における用語「適格核酸」は、「適格配列」と互いに置き換え可能に使用することができ、「適格配列」はテスト配列又はテスト核酸の総量と比較する配列である。適格配列は既知の表象で、すなわち、適格配列の総量が既知で生物学的サンプルに存在する。「関心対象である適格配列」は、適格サンプルにおいて総量が既知である適格配列であり、内科的疾患のある個人における配列表現の差異に関連する配列である。
【0047】
本明細書における用語「関心対象(である)配列」は、健康な個人対疾患のある個人における配列表現の差異に関連する核酸配列を意味する。関心対象配列は、内科的疾患又は遺伝子疾患における誤表現、すなわち、過剰表現又は不足表現されている染色体における配列である。関心対象配列は、さらに、染色体の一部、すなわち染色体断片(セグメント)、又は染色体にもなり得る。例えば、関心対象配列は、異数性症状で過剰表現される染色体、又はがんで不足表現される腫瘍抑制因子をコード化する遺伝子となり得る。関心対象配列は、検体における細胞の全体母集団又は部分母集団における過剰表現又は不足表現になっている配列を含む。「適格関心対象配列」は適格サンプルにおける関心対象配列である。「テスト関心対象配列」はテストサンプルにおける関心対象配列である。
【0048】
本明細書における用語「正規化配列」は、サンプル間でマッピングされる塩基配列タグ(ときに「配列タグ」と略称する)の数における変動(多型)を呈する配列であって、正規化パラメータとして使用される関心対象配列のそれと最も近似し、また1つ又はそれ以上の異変なしサンプルから異変ありサンプルを最も区別できるシークエンシング実行である。「正規化染色体」又は「正規化染色体配列」は、「正規化配列」の例である。「正規化染色体配列」は、単独染色体又は染色体グループによって構成することができる。「正規化断片」は「正規化配列」の他の例である。「正規化断片配列」は、染色体の単独断片によって構成することができる、又は同一若しくは異なった染色体における2つ又はそれ以上の断片によって構成することができる。
【0049】
本明細書における用語「弁別可能性」は、1つ又はそれ以上の異変なし、すなわち正常サンプルを、1つ又はそれ以上の異変あり、すなわち異数性サンプルから区別できる正規化染色体の特徴を意味する。
【0050】
本明細書における用語「配列ドース」は、関心対象配列の配列タグ密度を正規化配列のタグ密度に関連付けるパラメータを意味する。「テスト配列ドース」は、関心対象配列、例えば21番染色体の配列タグ密度を正規化配列、例えばテストサンプルで決定した9番染色体の配列タグ密度に関連付けするパラメータである。同様に、「適格配列ドース」は、関心対象配列の配列タグ密度を適格サンプルで決定した正規化配列の配列タグ密度に関連付けするパラメータである。
【0051】
本明細書における用語「配列タグ密度」は、基準ゲノム配列にマッピングされる配列リード(reads)数を意味し、例えば、21番染色体の配列タグ密度は、基準ゲノムの21番染色体にマッピングされるようシークエンシング方法によって生じた配列リード数である。本明細書における用語「配列タグ密度比」は、基準ゲノム配列の染色体、例えば、21番染色体にマッピングされる配列タグ数の、基準ゲノムにおける21番染色体の長さに対する比を意味する。
【0052】
本明細書における用語「次世代シークエンシング(NGS:Next Generation Sequencing」は、クローン的に増幅された、また単独核酸分子における大量並列シークエンシングができるシークエンシング方法を意味する。NGSにおける非限定的な例としては、可逆色素ターミネータを使用するシークエンシング・バイ・シンセシス(sequencing-by-synthesis)及びシークエンシング・バイ・リゲーション(sequencing-by-ligation)がある。
【0053】
本明細書における用語「パラメータ」は、数量的データセット及び/又は数量的データセット相互間の数的関係性を特徴付ける数値を意味する。例えば、染色体にマッピングされる配列タグ数と、配列タグがマッピングされる染色体の長さとの比(又は比の関数)をパラメータとする。
【0054】
本明細書における用語「閾値」及び「適格閾値」は、適格認定するデータセットを使用して計算し、また有機体におけるコピー数多型、例えば異数性に関する診断上の制限値として作用する任意の数値を意味する。本発明を実施することから得られた結果が閾値を超える場合、被検体はコピー数多型、例えば21番トリソミーがあると診断することができる。本発明に記載する方法の適切な閾値は、サンプルのトレーニングセット用に計算した正規化値(例えば、染色体ドース、NCVs、又はNSVs)を解析することによって同定することができる。閾値は、適格(すなわち、異変なし)サンプル及び異変ありサンプルの双方を有するトレーニングセットにおける適格(すなわち、異変なし)サンプルを使用して同定することができる。トレーニングセットにおける染色体異数性があると分かっているサンプル(すなわち、異変ありサンプル)を使用して、選択した閾値がテストセットにおける異変なしサンプルから異変ありを区別するのに有用であるかを確認することができる(本明細書の実施例参照)。閾値選択は、分類を行わなければならないと希望するユーザーの確信レベルに依存する。若干の実施形態において、適切な閾値を同定するのに使用するトレーニングセットは、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、又はそれより多くの個数のサンプルを有するものとする。より多くの適格サンプルのセットを使用することは、閾値の診断有用性を改善するのに有利である。
【0055】
本明細書における用語「正規化値」は、関心対象配列(例えば、染色体又は染色体断片)に対して同定された配列タグの数を、正規化配列(例えば、正規化染色体又は正規化染色体断片)に対して同定された配列タグの数に関連付けする数値を意味する。例えば、「正規化値」は、本明細書のいたるところに記載した染色体ドースとすることができる、又は本明細書のいたるところに記載したNCV(Normalized Chromosome Value)又は本明細書のいたるところに記載したNSV(Normalized Segment Value)とすることができる。
【0056】
本明細書における用語「リード(read)」は、十分な長さ(例えば、少なくとも約30bp)のDNA配列を意味し、このリードを使用してより大きな配列又は領域を同定することができ、例えば、染色体又はゲノム領域又は遺伝子に整列させ、また特別に割り当てることができる。
【0057】
本明細書における用語「配列タグ」は、「マッピングされた配列タグ」と互いに置き換えて使用され、より大きな配列、例えば基準ゲノムに整列(alignment)によって特別に割り当てられた、すなわちマッピングされた配列リードを意味する。マッピングされた配列タグは、基準ゲノムに一意的にマッピングされる、すなわち、基準ゲノムに対する単独ロケーションとして割り当てられる。基準ゲノムに対して1ロケーションより多いロケーションでマッピングできるタグ、すなわち、一意的にマッピングされないタグはこの解析には含まれない。
【0058】
本明細書における用語「整列した(aligned)」、「整列(alignment)」、又は「整列する(aligning)」は、基準ゲノムから既知の配列に対する核酸分子の順番における一致として同定される1つ又はそれ以上の配列状態を意味する。このような整列は、手作業で、又は例えば、イルミナ・ゲノミクス・アナリシス(Illumina Genomics Analysis)におけるパイプラインの一部として配給されるヌクレオチドデータの効率的局所的整列(ELAND:Efficient Local Alignment of Nucleotide Data)コンピュータアルゴリズムを含むコンピュータアルゴリズムによって行うことができる。
【0059】
本明細書における用語「基準ゲノム」は、検体から同定された配列を参照するのに使用することができる任意の有機体又はウイルスにおける任意の特別な既知ゲノム配列(部分又は全体のいずれか)を意味する。例えば、ヒト検体並びに他の多くの有機体用に使用される基準ゲノムは、バイオテクノロジー情報ナショナルセンター(www.ncbi.nlm.hih.gov.)において見つけることができる。「ゲノム」は、有機体又はウイルスにおける核酸配列で表現される完全遺伝情報を意味する。
【0060】
本明細書における用語「臨床関連配列(clinically-relevant sequence)」は、遺伝子疾患又は病状に関連する又は関与することが既知である、又は疑われる核酸配列を意味する。臨床関連配列の有無を決定することは、内科的疾患の診断を決定する若しくは診断の確認をする上で、又は疾病の進行診断を行う上で有用である。
【0061】
本明細書において、核酸又は核酸混合物の文脈で使用される用語「由来する(derived)」は、核酸がその起源となる発生源(ソース)から得られたことを意味する。例えば、一実施形態において、2つの異なったゲノムから由来する核酸混合物とは、核酸、例えばcfDNAがネクローシス又はアポトーシスのような自然発生的プロセスによって細胞から自然に放出されたものであることを意味する。他の実施形態においては、2つの異なったゲノムから由来する核酸混合物とは、核酸を検体からの細胞における2つの異なったタイプから抽出したことを意味する。
【0062】
本明細書における用語「混合サンプル(mixed sample)」は、異なったゲノムに由来する核酸の混合物を含むサンプルを意味する。
【0063】
本明細書における用語「母体サンプル(maternal sample)」は、妊娠した検体、例えば、女性のヒトから採取した生物学的サンプルを意味する。
【0064】
本明細書における用語「生体液(biological fluid)」は、生体液源から採取した液体を意味し、例えば、血液、血清、血漿、痰、破出液、脳脊髄液、尿、精液、汗、涙、唾液等がある。本明細書で使用する用語「血液」、「血漿」及び「血清」は、それらの画分又は処理した部分をも包含する。同様に、サンプルを生検、綿棒、塗抹等から採取する場合、「サンプル」は生検、綿棒、塗抹等に由来する処理画分又は部分をも含む。
【0065】
本明細書における用語「母体核酸」及び「胎児核酸」は、それぞれ妊娠女性検体の核酸及びその妊娠女性検体が孕んでいる胎児の核酸を意味する。
【0066】
本明細書で使用する用語「〜に対応する」は、異なった検体ゲノムに存在し、必ずしもすべてのゲノムにおいて同一配列を有するものではないが、例えば、遺伝子又は染色体である関心対象配列の遺伝情報以外の固有性を与えるのに供される、例えば、遺伝子又は染色体である核酸配列を意味する。
【0067】
本明細書で使用する用語「ほぼ無細胞」は、所望のサンプルの調合であって、この所望サンプルから通常関連する成分を除去する該所望サンプルを包含する。例えば、血漿サンプルは、血漿に関連する血液細胞、例えば赤色細胞(赤血球)を除去することによってほぼ無細胞状態にしたものである。若干の実施形態においては、ほぼ無細胞のサンプルは、除去処理を行わないと、CNVのテストをすべき所望遺伝的材料に寄与するであろう細胞を除去する処理を行う。
【0068】
本明細書に使用する用語「胎児画分」は、胎児核酸及び母体核酸を含むサンプル内に存在する胎児核酸の画分を意味する。
【0069】
本明細書に使用する用語「染色体」は、染色質に由来し、またDNA及びタンパク質成分(ヒストン)を含む生きている細胞の遺伝担持遺伝子キャリアを意味する。本明細書では、従来の国際的に認識されている個体ヒトゲノム染色体番号付け体系を採用する。
【0070】
本明細書に使用する用語「ポリヌクレオチド長さ」は、基準ゲノムの配列又は領域における核酸分子(ヌクレオチド)の絶対数を意味する。用語「染色体長さ」は、塩基対における染色体の既知の長さを意味し、例えば、ワールド・ワイド・ウェブ上の”genome.ucsc.edu/cgi-bin/hgTracks?Hgsid=167155613&chromInfoPage=”で見つかるヒト染色体のNCBI36/hg18アセンブリに規定されている。
【0071】
本明細書における用語「検体」は、ヒト検体並びにヒトではない検体、例えば、哺乳類、無脊椎動物、脊椎動物、菌類、酵母、細菌、及びウイルスをも意味する。本明細書における例はヒトに関連し、専門用語は主にヒト関連指向であるが、本発明の概念は任意の植物又は動物からのゲノムに適用でき、また獣医学、動物科学、研究所等の分野において有用である。
【0072】
本明細書における用語「病状」は、すべての疾患及び障害を含む広い意味での「内科的疾患」を意味するが、個人の健康に影響を及ぼし、医療支援の恩恵を受ける、又は医療処置の実施を受けることがあるような「傷害」及び妊娠のような正常健康状態をも含むものとする
【0073】
用語「完全」は、本明細書において全体染色体の過剰又は不足に言及する染色体異数性につき使用する。
【0074】
染色体異数性につき使用する用語「部分」は、染色体の一部における過剰又は不足に言及する。
【0075】
本明細書における用語「モザイク」は、単独受精卵から成長した1個体における異なった核型を有する2つの細胞集団が存在することを意味する。モザイク現象は、成長中の突然変異から生じ、この突然変異は成熟細胞の小集団にのみ波及する。
【0076】
本明細書における用語「非モザイク」は、1つの核型の細胞よりなる有機体、例えば、ヒト胎児を意味する。
【0077】
染色体ドースを決定することにつき使用する用語「染色体を使用する」は、本明細書において、染色体のために得る配列情報、すなわち、染色体のために得る配列タグの数を使用することを意味する。
【0078】
本明細書に使用する用語「感度」は、真陽性及び偽陰性の合計で真陽性を除算した数値に等しい。
【0079】
本明細書に使用する用語「特異度」は、真陰性及び偽陽性の合計で真陰性を除算した数値に等しい。
【0080】
本明細書における用語「患者サンプル」は、患者、すなわち医療的注意、ケア又は処置を受ける個人から得た生物学的サンプルを意味する。患者サンプルは、本明細書に記載する任意のサンプルとすることができる。好適には、患者サンプルは、非侵襲性手順で採取し、例えば、末梢血サンプル又は糞便サンプルとする。
【0081】
本明細書における用語「低二倍性」は、種の染色体特徴における正常な半数より1つ又はそれ以上少ない染色体数を意味する。
【0082】
説明
本発明は、2つの異なったゲノム由来の核酸混合物を有し、1つ又はそれ以上の関心対象配列における総量が異なることが既知である、又は疑われるテストサンプルにおける、異なる関心対象配列のコピー数多型(CNV:copy number variation)を決定する方法を提供する。本発明方法によって決定されたコピー数多型としては、全体染色体の過剰又は不足、顕微鏡的に可視の極めて大きな染色体断片を含む変更、キロベース(kb)からメガベース(Mb)にも及ぶDNA断片における超顕微鏡的コピー数多型の多量存在がある。本発明方法は、この方法は、処理に関連する染色体間変動及びシークエンシング間変動からの見越し変動ステミング処理を担う統計的アプローチを含む。この方法は、任意の胎児異数性におけるCNV、及び種々の内科的疾患に関連すると既知である若しくは懸念されるCNVを決定するのに適用可能である。本発明方法によって決定できるCNVには、1〜22番染色体、X及びY染色体のうち任意の1つ又はそれ以上におけるトリソミー及びモノソミー、他の染色体ポリソミー、及び染色体のうち1つ又はそれ以上における断片(セグメント)の欠失及び/又は重複が含まれ、こらはテストサンプルの核酸を1回だけシークエンシングすることによって決定することができる。いかなる異数性もテストサンプルの核酸を1回だけシークエンシングすることによって得られる配列情報から決定することができる。
【0083】
ヒトゲノムにおけるCNVは、ヒトの及び多様性及び疾病素因に大きな影響を与える(Redon et al., Nature 23:444-454 [2006], Shaikh et al. Genome Res 19:1682-1690 [2009]参照)。CNVは、異なるメカニズムによる遺伝的疾病に関与し、多くの場合遺伝子量又は遺伝子の乱れによる不均衡に起因することが分かっている。遺伝的疾患に直接関連することの他に、CNVは、疾患となり得る表現型異常の仲立ちをすることがしられている。近年、幾つかの研究は、正常な対照例と比較すると、自閉症、ADHD及び統合失調症のような複合疾患における、稀な又はデノボ(新)なCNVの増加を報告しており、稀な又はユニークなCNVの潜在的病原性を浮き彫りにしている(Sebat et al., 316:445-449 [2007]; Walsh et al., Science 320:539-543 [2008]参照)。CNVは、主に欠失、重複、挿入及び不均衡な転座事象に起因するゲノム再編成から生ずる。
【0084】
本明細書に記載する方法は、次世代シークエンシング技術(NGS:next generation sequencing technology)を採用し、クローン的に増幅したDNAテンプレート又は単独DNA分子をフローセル内で大量並列的にシークエンシングする(例えば、Volkerding et al., Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11: 31-46 [2010]参照)。高いスループットの配列情報の他に、NGSは、各配列リードが個別クローンDNAテンプレート又は単独DNA分子を表現する計数可能な「配列タグ」である点で定量的情報を提供する。NGSのシークエンシング技術としては、ピロシークエンシング(pyrosequencing)、可逆色素ターミネータを使用するシークエンシング・バイ・シンセシス(sequencing-by-synthesis)、オリゴヌクレオチドのプローブ結紮によるシークエンシング、及びイオン半導体シークエンシングがある。個別サンプルからのDNAを個別にシークエンシングする(すなわち、単独シークエンシング)、又は複数サンプルからのDNAをプールし、1回のシークエンシング作業(ラン)でインデックス付きのゲノム分子としてシークエンシング(すなわち、多重シークエンシング)し、DNA配列の数憶個のリードを生ずることができる。本発明方法による配列情報を得るのに使用できるシークエンシング技術の例を以下に説明する。
【0085】
シークエンシング方法
若干のシークエンシング技術は市場で入手可能であり、例えば、アフィメトリクス(Affymetrix Inc.[カリフォルニア州サニーベール])社からのシークエンシング・バイ・ハイブリダイゼーション基盤、及び454ライフ・サイエンシズ(Life Sciences [コネチカット州ブラッドフォード])社、イルミナ/ソレクサ(Illumina/Solexa [カリフォルニア州ヘイワード])社及びヘリコス・バイオサイエンシズ(Helicos Biosciences [マサチューセッツ州ケンブリッジ])社からのシークエンシング・バイ・シンセシス基盤、及び、アプライド・バイオシステムズ(Applied Biosystems [カリフォルニア州フォスターシティ])社からのシークエンシング・バイ・リゲーション基盤があり、これらを以下に説明する。ヘリコス・バイオサイエンシズ社のシークエンシング・バイ・シンセシスを使用して実施する単独分子シークエンシングの他に、他の単独分子シークエンシング技術としては、パシフィック・バイオサイエンシズ(Pacific Biosciences)社のSMRT(登録商標)、イオン・トレント(登録商標)社の技術、及び例えば、オックスフォード・ナノポア・テクノロジーズ(Oxford Nanopore Technologies)社が開発したナノポア(細孔)シークエンシングがある。自動化サンガー(Sanger)方法は「第1世代」技術として見られているが、自動化サンガーシークエンシングを含むサンガーシークエンシングも、本発明方法に使用することができる。他のシークエンシング方法としては、核酸画像形成(イメージング)技術、例えば、原子間力顕微鏡(AFM:atomic force microscopy)又は透過型電子顕微鏡(TEM:transmission electron microscopy)がある。典型的シークエンシング技術を以下に説明する。
【0086】
一実施形態において、本発明方法は、ヘリコス社の真単独分子シークエンシング(tSMS:true Single Molecule Sequencing)技術(Harris T.D.et al., Science 320:106-109 [2008]参照)を使用して、テストサンプルにおける核酸の配列情報、例えば母体サンプルにおけるcfDNAを得る。tSMS技術において、DNAサンプルを約100〜200個のヌクレオチドのストランドに開裂し、またポリA配列を各DNAストランドの3′端部に付加する。各ストランドは、蛍光ラベル付けされたアデノシンヌクレオチドの付加によってラベル付けされる。DNAストランドをつぎにフローセル内で交配させ、このフローセルは数100万個のオリゴT捕捉部位を収容し、これらオリゴT捕捉部位はフローセル表面に不動に固定する。そのテンプレートは約1憶テンプレート/cm
2の密度にすることができる。このフローセルを機器、例えばHeliScope(登録商標)シークエンサーに装着し、レーザーをフローセルの表面に照射し、各テンプレーの位置を明らかにする。CCDカメラはフローセル表面上のテンプレート位置をマッピングすることができる。テンプレートの蛍光レベルを開裂し、洗い出す。シークエンシング反応はDNAポリメラーゼ及び蛍光ラベル付けヌクレオチドを導入することによって開始する。オリゴT核酸ハプライマーとして作用する。ポリメラーゼは、テンプレート指導に従ってラベル付けヌクレオチドをプライマーに組込む。ポリメラーゼ及び組込まれなかったヌクレオチドを除去する。蛍光ラベル付けヌクレオチドの組込みを指導するテンプレートは、フローセル表面の画像形成によって判別される。画像形成後、開裂ステップは、蛍光ラベルを除去し、このプロセスは所望のリード長さを得るまで他の蛍光ラベル付けヌクレオチドに対して繰り返す。各ヌクレオチド付加ステップで配列情報を収集する。単独分子シークエンシング技術による全ゲノムシークエンシングは、シークエンシングライブラリ準備におけるPCR塩基増幅を排除し、またサンプル調合の直接性により、そのサンプルのコピー測定ではなくサンプル自体の直接測定を可能にする。
【0087】
他の実施形態において、本発明方法は、(ロシュ[Roche]社)454シークエンシング(例えば、Margulies, M.et.al. Nature 437:376-380 [2005]参照)を使用して、テストサンプルにおける核酸の配列情報、例えば母体テストサンプルにおけるcfDNAを得る。454シークエンシングは、2つのステップを有する。第1ステップにおいて、DNAは、約300〜800個の塩基対フラグメントに切り分け、これらフラグメントは端部が粗い。次にオリゴヌクレオチドアダプタをフラグメントの端部に連結する。アダプタはフラグメントの増幅及びシークエンシングのプライマーとして作用する。フラグメントをDNA捕捉ビード、例えば、ストレプトアビジン被覆ビードに取付け、この取付けには、例えば、5′ビオチンタグを含むアダプタBを使用する。ビードに取付けたフラグメントは、オイル−水エマルションの液滴内でPCR増幅される。この結果、各ビードにクローン的に増幅したDNAフラグメントの多数のコピーを生ずる。第2ステップにおいて、ビードをウェル(ピコリットルのサイズ)内に捕捉する。ピロシークエンシングを各フラグメントに対して並列的に行う。1つ又はそれ以上のヌクレオチドの付加は光信号を発生し、この光信号をシークエンシング機器のCCDカメラによって記録する。信号強度は組込まれたヌクレオチドの数に比例する。ピロシークエンシングは、ヌクレオチド付加の際に放出されるピロリン酸塩(PPi)を利用する。PPiは、アデノシン5′ホスホ硫酸の存在下でATPスルフリル化によってATPに変換される。ルシフェラーゼ(発光酵素)はATPを使用して、ルシフェリンをオキシルシフェリンに変換し、またこの反応は光を発生し、この光を測定及び解析する。
【0088】
他の実施形態において、本発明方法は、SOLiD(登録商標)技術(アプライド・バイオシステムズ [Applied Biosystems]社)を使用して、テストサンプルにおける核酸の配列情報、例えば母体テストサンプルにおけるcfDNAを得る。SOLiDシークエンシング・バイ・リゲーションにおいて、ゲノムDNAをフラグメントに切り分け、フラグメントの5′及び3′端部にアダプタを取付け、フラグメントライブラリを生成する。代案として、フラグメントの5′及び3′端部にアダプタを取付け、フラグメントを円形に配列し、円形に配列されたフラグメントを短縮化して内部アダプタを生成し、またこの結果生じたフラグメントの5′及び3′端部にアダプタを取付けて整合対ライブラリを生成することによって、内部アダプタを導入することができる。つぎに、ビード、プライマー、テンプレート、及びPCRを収容するマイクロリアクタ内でクローンビード集団を調製する。PCRに続いて、テンプレートを変性させ、ビードを増やして拡張したテンプレートでビードを分離する。選択したビードにおけるテンプレートに3′修飾を加え、これによりスライドガラスへの結合が可能になる。配列は、ランダムなオリゴヌクレオチドを、順次に、特定のフルオロフォア(蛍光色素分子)によって識別される中心的な決定塩基(又は塩基対)と部分的にハイブリダイゼーション(交配)及びリゲーション(連結)することによって決定することができる。色を記録した後、連結されたオリゴヌクレオチドを開裂し、また除去し、つぎに、このプロセスを繰り返す。
【0089】
他の実施形態において、本発明方法は、パシフィック・バイオサイエンシズ社の単独分子リアルタイム(SMRT)シークエンシング技術を使用して、テストサンプルにおける核酸の配列情報、例えば母体テストサンプルにおけるcfDNAを得る。SMRTシークエンシングにおいて、色素ラベル付きヌクレオチドの連続的組込みをDNA合成中に画像化する。単独DNAポリメラーゼ分子は、リンに結合したヌクレオチドが成長するプライマーストランドに組込まれている間に配列情報を取得する、個別ゼロ・モード波長検出器(ZMW検出器:zero-mode wavelength detector)の底面に取り付く。ZMWは閉じ込め構体であり、DNAポリメラーゼによる単独ヌクレオチドの組込みを、ZMWに対して激しく(ミリ秒単位で)出入りするよう拡散する蛍光ヌクレオチドを背景として観察することができる。ヌクレオチドが成長ストランドに組込まれるのには数ミリ秒かかる。この時間中、蛍光ラベルは励起して蛍光信号を発生し、また蛍光タグが開裂する。色素の対応する蛍光測定はどの塩基が組込まれたかを示す。このプロセスを繰り返す。
【0090】
他の実施形態において、本発明方法は、ナノポア(細孔)シークエンシング(例えば、Soni GV and Meller A. Clin Chem 53:1996-2001 [2007]参照)を使用して、テストサンプルにおける核酸の配列情報、例えば母体テストサンプルにおけるcfDNAを得る。ナノポアシークエンシングDNA解析技術は、オックスフォード・ナノポア・テクノロジーズ社(英国オックスフォード)を含む多くの会社によって産業的に開発されている。ナノポアシークエンシングは単独分子シークエンシング技術であり、これによってDNAの単独分子をナノポアに通過させるとき直接シークエンシングすることができる。ナノポアは直径1ナノメートルのオーダーの細孔である。ナノポアを導電流体内に浸漬し、電位差(電圧)を印加することによってナノポアにイオンが導通することにより僅かな電流を生ずる。流れる電流の量はナノポアのサイズ及び形状の影響をうける。DNA分子がナノポアを通過するとき、DNA分子におけるヌクレオチドはナノポアを異なる程度で塞ぎ、ナノポアに流れる電流の大きさを異なる程度で変化する。このようにして、DNA分子がナノポアを通過するときの電流変化がDNA配列のリード(読取り)を表す。
【0091】
他の実施形態において、本発明方法は、化学的感知電界効果トランジスタ(chemFET)アレイ(例えば、米国特許出願公開第20090026082号参照)を使用して、テストサンプルにおける核酸の配列情報、例えば母体テストサンプルにおけるcfDNAを得る。この技術における1つの例において、DNA分子を反応チャンバ内に配置し、テンプレート分子をポリメラーゼに結合したシークエンシングプライマーに交配させる。1個又はそれ以上の三リン酸塩がシークエンシングプライマーの3′端部で新たな核酸ストランドに組込まれるのをchemFETによる電流変化によって判別できる。アレイは多数のchemFETセンサを有することができる。他の実施例において、単独核酸はビードに取り付くことができ、また核酸はビード上で増幅でき、個別のビードはchemFETアレイにおける反応チャンバ(各チャンバはchemFETセンサを有する)に転写することができ、核酸をシークエンシングすることができる。
【0092】
他の実施形態において、本発明方法は、透過型電子顕微鏡(TEM)を使用するハルシオン・モレキュラー(Halcyon Molecular)社の技術を使用して、テストサンプルにおける核酸の配列情報、例えば母体テストサンプルにおけるcfDNAを得る。個別分子配置急速ナノ転写(IMPRNT:Individual Molecule Placement Nano Transfer)と称されるこの方法は、選択的に重原子マーカーでラベル付けした高分子量(150kb以上)DNAを撮像する1原子解像度の透過型電子顕微鏡を使用し、これら分子を極薄フィルム上に超密度(3nmのストランド相互間距離)の平行アレイにして塩基相互間の間隔が一定になるよう配列する。電子顕微鏡を使用してフィルム上の分子を撮像し、重原子マーカーの位置を決定し、またDNAから塩基配列情報を抽出する。この方法は国際公開第2009/046445号に記載されている。この方法は10分未満で完全ヒトゲノムをシークエンシングすることができる。
【0093】
他の実施形態において、DNAシークエンシング技術はイオン・トレント(Ion Torrent)社の単独分子シークエンシングであり、これは半導体技術を単純シークエンシング化学に組合せて化学的コード化情報(A,C,G,T)を半導体チップ上のデジタル情報(0,1)に直接翻訳するものである。実際は、ヌクレオチドをポリメラーゼによってDNAストランドに組込むとき水素イオンが副産物として放出される。イオン・トレントは微細加工したウェルの高密度アレイを使用し、この生化学プロセスを大量並列的に行う。各ウェルは異なるDNA分子を保持する。ウェルの下方にイオン感知層を配置し、このイオン感知層の下方にイオンセンサを配置する。ヌクレオチド、例えばCをDNAテンプレートに付加し、次にDNAストランドに組込むとき、水素イオンが放出される。そのイオンからの電荷は溶液のpHを変化させ、この変化をイオン・トレントのイオンセンサによって検出することができる。このシークエンサー(基本的には世界最小のソリッドステートpH計)は塩基を判定し、化学的情報からデジタル情報に直接移行する。イオン・トレント社の個人向け(パーソナル)ゲノムマシン(PGM[登録商標])シーケンサーは、チップを順次に1つのヌクレオチドで横溢させる。チップを横溢する次のヌクレオチドが一致しない場合、電圧変化が記録されず、塩基が判定されない。DNAストランドに2つの個別塩基が存在する場合、電圧が倍になり、チップは判定された2つの個別塩基を記録する。直接検出によりヌクレオチド組込みを数秒で記録することができる。
【0094】
他の実施形態において、本発明方法は、シークエンシング・バイ・ハイブリダイゼーションを使用して、テストサンプルにおける核酸の配列情報、例えば母体テストサンプルにおけるcfDNAを得る。シークエンシング・バイ・ハイブリダイゼーションは、複数のポリヌクレオチド配列を複数個ポリヌクレオチドプローブに接触させ、複数個のポリヌクレオチドプローブそれぞれは随意的に基板に係留することができる。基板は既知のヌクレオチド配列のアレイを有する平坦表面とすることができる。アレイに対するハイブリダイゼーション(交配)パターンを使用してサンプルに存在するポリヌクレオチド配列を決定することができる。他の実施形態において、各プローブをビード、例えば磁気ビード等に係留する。ビードに対するハイブリダイゼーションを決定し、これを使用してサンプル内の複数のポリヌクレオチド配列を同定することができる。
【0095】
他の実施形態において、本発明方法は、イルミナ社のシークエンシング・バイ・シンセシス及び可逆ターミネーター塩基シークエンシング化学(例えば、Bentley et al., Nature 6:53-59 [2009]参照)を使用する数100万個のDNAフラグメントの大量並列シークエンシングによって、テストサンプルにおける核酸の配列情報、例えば母体サンプルにおけるcfDNAを得る。テンプレートDNAはゲノムDNA、例えば、cfDNAとすることができる。若干の実施形態において、cfDNAをテンプレートとして使用し、cfDNAは短いフラグメントとして存在するのでフラグメント化を不要とする。例えば、胎児のcfDNAは、長さが約170塩基対(bp)のフラグメントとして血流を循環し(例えば、Fan et al., Clin Chem 56:1279-1286 [2010]参照)、シークエンシング前にDNAのフラグメント化は不要である。イルミナ社のシークエンシング技術は、フラグメント化したゲノムDNAを、オリゴヌクレオチドアンカーを結合する平面状の透光性表面に取付けるのに依存する。テンプレートDNAは端部修復されて5′リン酸化平滑末端を生じ、またクレノウフラグメントのポリメラーゼ活性を使用して単独のA塩基を平滑リン酸化DNAフラグメントの3′端部に付加する。この付加により、オリゴヌクレオチドアダプタに対するリゲーション(連結)のためにDNAフラグメントを調製し、このオリゴヌクレオチドアダプタは3′端部で単独のT塩基の張出部を有し、リゲーション効率を高める。アダプタであるオリゴヌクレオチドはフローセルアンカーに対して相補的である。制限的希釈条件の下で、アダプタ修飾し、単独ストランド化したテンプレートDNAをフローセルに付加し、アンカーに対するハイブリダイゼーションによって不動化する。取付けられたDNAフラグメントは拡張し、またブリッジ増幅して、数億個のクラスタを有する超高密度シークエンシングフローセルを生じ、各クラスタは同一テンプレートの1000個のコピーを含む。一実施形態において、ランダムにフラグメント化したゲノムDNA、例えばcfDNAを、PCRを用いて増幅してからクラスタ増幅を行う。代案として、増幅しないゲノムライブラリ調製を使用し、クラスタ増幅のみを使用してランダムにフラグメント化したゲノムDNA、例えばcfDNAを富裕にする(例えば、Kozarewa et al., Nature Methods 6:291-295 [2009]参照)。除去可能な蛍光色素を有する可逆ターミネーターを使用する堅牢な4色DNAシークエンシング・バイ・シンセシス技術を用いてテンプレートをシークエンシングする。高感度蛍光検出は、レーザー励起及び全内部反射光学系を使用することにより達成される。約20〜40bpの短配列リードは、反復マスク掛けした基準ゲノムに対して整列し、また基準ゲノムに対する短配列リードの一意的マッピングは、特別に開発したデータ解析パイプラインソフトウェアを使用して同定する。非反復マスク掛け基準ゲノムを使用することもできる。反復マスク掛け又は非反復マスク掛けのいずれかの基準ゲノムを使用して、基準ゲノムに対して一意的にマッピングするリードのみをカウントする。第1リードが完了した後、テンプレートをその場で再生成し、フラグメントの反対側端部から第2リードを可能にする。このようにして、DNAフラグメントにおけるどちらか一方の単一端部又は修復端部のシークエンシングを使用することができる。サンプルに存在するDNAフラグメントの部分的シークエンシングを行い、例えば36bpの所定長さのリードを有する配列タグを既知の基準ゲノムに対してマッピングし、これをカウントする。一実施形態において、基準ゲノム配列はNCBI36/hg18配列とし、この配列情報はワールド・ワイド・ウェブ上の”genome.ucsc.edu/cgi-bin/hgTracks?Hgsid=167155613&chromInfoPage=”から入手できる。代案として、基準ゲノム配列はGRCh37/hg19配列とし、この配列情報はワールド・ワイド・ウェブ上の”genome.ucsc.edu/cgi-bin/hgGateway”から入手できる。他の公開配列情報ソースとしては、GenBank、dbEST、dbSTS、EMBL(the European Molecular Biology Laboratory)、及びDDBJ(the DNA Databank of Japan)がある。配列を整列させる多くのコンピュータアルゴリズムが利用可能であり、これらアルゴリズムとしては、限定しないがBLAST(altschul et al., 1990)、BLITZ(MPsrch)(Sturrock & Collins, 1993)、FASTA(Person & Lipman, 1988)、BOWTIE(Langmead et al., Genome Biology 10:R25.1-R25.10 [2009])、又はELAND(Illumina, Inc., San Diego, CA, USA)がある。一実施形態において、血漿cfDNAのクローン的に拡張したコピーの一方の端部を、イルミナ・ゲノム・アナライザ(Illumina Genome Analyzer)用の生物情報解析によってシークエンシングし、また処理するが、これにはヌクレオチドデータベースの効率的大量整列(ELAND:Efficient Large-Scale Alignment of Nucleotide Database)ソフトウェアを使用する。本明細書に記載の方法における若干の実施形態において、マッピングされた配列タグは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130bp、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、約500bpの配列リードを有する。500bpを超える単独端部リードを可能にし、修復端部リードを生成するとき約1000bpより多いリードをも可能にする技術的進歩が期待される。一実施形態において、マッピングされた配列タグは36bpの配列リードを有する。配列タグのマッピングは、タグの配列を基準の配列と比較することによって得られ、これによりシークエンシングした核酸(例えば、cfDNA)分子の染色体起源を決定し、また特別な遺伝配列情報は不要である。僅かな程度の不一致(配列タグあたり0〜2個の不一致)も、基準ゲノムと混合したサンプルにおけるゲノムとの間に存在し得る少数の多型性の要因となることができる。
【0096】
サンプルにつき複数の配列タグが得られる。若干の実施形態において、20〜40個の塩基対(bp)リード(reads)を有する、少なくとも約3×10
6個の塩基配列タグ、少なくとも約5×10
6個の塩基配列タグ、少なくとも約8×10
6個の塩基配列タグ、少なくとも約10×10
6個の塩基配列タグ、少なくとも約15×10
6個の塩基配列タグ、少なくとも約20×10
6個の塩基配列タグ、少なくとも約30×10
6個の塩基配列タグ、少なくとも約40×10
6個の塩基配列タグ、少なくとも約50×10
6個の塩基配列タグを、サンプルあたりリードを基準ゲノムに対してマッピングすることから得る。一実施形態において、すべての配列リードを基準ゲノムの全領域に対してマッピングする。一実施形態において、基準ゲノムにおけるすべての領域、例えばすべての染色体に対してマッピングされたタグをカウントし、また混合DNAサンプルにおけるCNV、すなわち関心対象配列、例えば染色体又は染色体の一部における過剰又は不足表現を決定する。この方法は、2つのゲノム間の区別は不要である。
【0097】
CNV、例えば異数性がサンプルに存在する又はしないに関する正確な決定に必要な精度は、1回のシークエンシング作業(ラン)でサンプルあたり基準ゲノムにマッピングする配列タグ数の変動(染色体間変動)、及び異なるシークエンシング作業(ラン)で基準ゲノムにマッピングする配列タグ数の変動(シークエンシング間変動)に基づく。例えば、多型(変動)は、GCリッチ又はGCプアな基準配列にマッピングするタグに対して特別に宣告することができる。他の多型(変動)は、核酸の抽出及び純化、シークエンシングライブラリの調製、及び異なるシークエンシング基盤に対して異なる手順を使用することから生じ得る。本発明方法は、正規化配列(正規化染色体配列、又は正規化断片配列)に関する知識をベースにした配列ドース(染色体ドース、又は断片ドース)を使用し、本来的に染色体間(ラン内)及びシークエンシング間(ラン間)からステミング処理する見越し変動性、並びに基盤依存変動性の要因とする。染色体ドースは、単独染色体、又は1〜22番染色体、X及びY染色体から選択した2個又はそれ以上の染色体により構成することができる正規化染色体配列に関する知識に基づく。代案として、正規化染色体配列は、単独染色体断片、又は1個の染色体における、又は2個若しくはそれ以上の染色体における2個以上の断片により構成することができる。断片ドースは、任意の1個の染色体の単独断片、又は1〜22番染色体、X及びY染色体のうち、任意の2個若しくはそれ以上の染色体ににおける2個以上の断片より構成することができる正規化断片配列に関する知識に基づく。
【0098】
適格サンプルにおける正規化配列(正規化染色体配列及び正規化断片)の決定
正規化配列は、関心対象、例えば染色体又は染色体断片における任意の1個の配列に対する正常コピー数を有する細胞で構成されていることが既知の検体から採取した適格サンプルのセットからの配列情報を使用して同定する。正規化配列の決定は、
図1に示す本発明方法の実施形態におけるステップ100,120,130,140及び145で説明する。適格サンプルから採取した配列情報は、テストサンプルにおける染色体異数性の統計的に有意な同定を決定するのにも使用する(
図1のステップ155及び実施例参照)。
図1は、生物学的サンプルにおける関心対象、例えば染色体又は染色体断片の配列におけるCNVを決定する本発明方法による実施形態100のフローチャートである。若干の実施形態において、生物学的サンプルは、検体から採取し、異なるゲノムによって関与される核酸混合物を含む。異なるゲノムは2つの個体によってサンプルに関与し、例えば、異なったゲノムは胎児及びこの胎児を孕んだ母体によって関与される。その外に、ゲノムは、同一検体からの、例えばがん患者の血漿サンプルからの異数性がん細胞及び正倍数性細胞によってサンプルに関与する。
【0099】
適格サンプルのセットは、適格正規化配列を同定するため、またテストサンプルにおけるCNVの統計学的に有意な同定を決定するのに使用する変動値を得るために採取する。ステップ110において、複数の生物学的適格サンプルを、関心対象の任意な1つの配列に関して正常なコピー数を有する細胞を含んでいることが既知である複数の検体から採取する。一実施形態において、適格サンプルは、細胞遺伝学的手段を用いて染色体の正常コピー数を有することが確認された胎児を孕んだ母体から採取する。生物学的適格サンプルは、生物学的流体、例えば、血漿、又は以下に説明するような任意の適当なサンプルとすることができる。若干の実施形態において、適格サンプルは、核酸分子、例えばcfDNA分子の混合物を含むものとすることができる。若干の実施形態において、適格サンプルは、胎児及び母体のcfDNA分子の混合物を含む母体血漿サンプルとする。正規化染色体及び/又は正規化染色体の断片のための配列情報は、任意な既知のシークエンシング方法を使用して、例えば、胎児及び母体の核酸の少なくとも一部をシークエンシングすることによって得る。好適には、本明細書のいたるところに記載した次世代シークエンシング(NGS)方法のうち任意な1つを使用して、単独分子又はクローン増幅した分子としての胎児及び母体の核酸をシークエンシングする。
【0100】
ステップ120において、適格サンプルに含まれるすべての適格核酸それぞれの少なくとも一部分をシークエンシングして、例えばhg18の基準ゲノムに整列する、例えば36bpリードの配列リードを数100万生ずる。若干の実施形態において、配列リードは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130bp、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、約500bpを有する。500bpを超える単独端部リードを可能にし、修復端部リードを生成するとき約1000bpより多いリードをも可能にする技術的進歩が期待される。一実施形態において、マッピングされた配列タグは36bpの配列リードを有する。配列リードは基準ゲノムに整列し、また基準ゲノムに一意的にマッピングされたリードは塩基配列タグ(ときに「配列タグ」と略称する)として知られている。一実施形態において、20〜40個の塩基対(bp)リード(reads)を有する、少なくとも約3×10
6個の適格配列タグ、少なくとも約5×10
6個の適格配列タグ、少なくとも約8×10
6個の適格配列タグ、少なくとも約10×10
6個の適格配列タグ、少なくとも約15×10
6個の適格配列タグ、少なくとも約20×10
6個の適格配列タグ、少なくとも約30×10
6個の適格配列タグ、少なくとも約40×10
6個の適格配列タグ、少なくとも約50×10
6個の適格配列タグを、基準ゲノムに対して一意的にマッピングするリードから得る。
【0101】
ステップ130で、適格サンプルにおける核酸をシークエンシングすることから得たすべてのタグをカウントして、適格配列タグ密度を決定する。一実施形態において、配列タグ密度は、基準ゲノムにおける関心対象配列にマッピングされる適格配列タグの数として決定する。他の実施形態において、適格配列タグは、マッピングされる関心対象適格配列の長さに対して正規化した、関心対象配列にマッピングした適格配列タグの数として決定する。関心対象配列長さに対するタグ密度の比として決定された配列タグ密度は、本明細書においてタグ密度比と称する。関心対象配列長さに対する正規化は不要であり、ヒト解釈用に簡素化するための数値における桁数を減らすステップとして含めることができる。すべての適格配列タグをマッピングし、また適格サンプルそれぞれにおいてカウントするとき、適格サンプルにおける関心対象配列、例えば臨床関連配列の配列タグ密度は、後に正規化配列を同定する付加的配列のための配列タグ密度として決定される。
【0102】
若干の実施形態において、関心対象配列は、完全染色体異数性に関連する染色体、例えば21番染色体とし、適格正規化配列は、染色体異数性に関連せず、また配列タグ密度における多型(変動)が関心対象配列の配列(すなわち、染色体)、例えば21番染色体の多型に最も近似する完全染色体である。1〜22番染色体、X及びY染色体のうち任意の1個又はそれ以上を関心対象配列とすることができ、また1個又はそれ以上の染色体は、適格サンプルにおける1〜22番染色体、X及びY染色体のうち任意の1個それぞれに対する正規化配列として同定することができる。正規化染色体は個別染色体とするか、又は本明細書のいたるところに記載するように染色体のグループとすることができる。
【0103】
他の実施形態において、関心対象配列は、部分的異数性、例えば、染色体欠失若しくは挿入、又は不均衡染色体転座に関連する染色体断片であり、正規化配列は、部分異数性に関連せず、また配列タグ密度における多型(変動)が部分異数性に関連する染色体断片のの多型に最も近似する染色体断片である。1〜22番染色体、X及びY染色体のうち任意の1個又はそれ以上における任意な1個又はそれ以上の断片を関心対象配列とすることができる。
【0104】
全ての実施形態において、適格サンプルで単独配列又は配列グループが、任意な1個又はそれ以上の関心対象配列のための正規化配列として同定されるかどうかによって、適格正規化配列は、適格サンプルにおいて決定された関心対象配列の配列タグ密度に最も近似する配列タグ密度に変動を有する。例えば、適格正規化配列は最も小さい変動性(多型性)を有する配列である、すなわち、正規化配列の変動性は関心対象配列の変動性に最も近似する。
【0105】
若干の実施形態において、正規化配列は、1個又はそれ以上の異変ありサンプルから1個又はそれ以上の適格サンプルを最も区別される配列であり、正規化配列は最も弁別可能性の高い配列であることを意味し、すなわち、正規化配列の弁別可能性は、異変ありテストサンプルにおける関心対象配列に対して最適な弁別を行い、異変ありテストサンプルを他の異変なしサンプルから容易に区別することができる。他の実施形態において、正規化配列は最も小さい変動性及び最も大きい弁別可能性を有する配列とする。弁別可能性のレベルは、以下に実施例で説明するように、適格サンプルの母集団における配列ドース、例えば染色体ドース又は断片ドースと、1個又はそれ以上のテストサンプルにおける染色体ドースとの間における統計学的相違として決定することができる。例えば、弁別可能性は、T検定値として数値的に表すことができ、このT検定値は、適格サンプルの母集団における染色体ドースと、1個又はそれ以上のテストサンプルにおける染色体ドースとの間の統計学的な相違を表す。代案として、弁別可能性は、正規化染色体値(NCV:Normalized Chromosome Value)として数値表現することができ、これはNCVの分布が標準的である限り染色体ドースに対するzスコアである。同様に、弁別可能性は、T検定値として数値表現することができ、これは適格サンプルの母集団における断片ドースと、1個又はそれ以上のテストサンプルにおける断片ドースとの間の統計学的相違を表す。代案として、断片ドースの弁別可能性は、正規化断片値(NSV:Normalized Segment Value)として数値表現することができ、これはNSVの分布が標準的である限り染色体ドースに対するzスコアである。zスコアを決定する際に、適格サンプルのセットにおける染色体ドース又は断片ドースの平均及び標準偏差を使用することができる。代案として、適格サンプル及び異変ありサンプルを含むトレーニングセットにおける染色体ドース又は断片ドースの平均及び標準偏差を使用することができる。他の実施形態において、正規化配列は最小変動性及び最大弁別可能性を有する配列とする。
【0106】
本発明方法は、本来的に類似特性を有し、またサンプル間及びシークエンシングの作業(ラン)間で類似の多型(変動)を受け易い配列を同定し、これはテストサンプルにおける配列ドースを決定するのに有用である。
【0107】
適格サンプルにおける配列ドース(すなわち、染色体ドース又は断片ドース)の決定
ステップ140において、計算した適格タグ密度に基づいて、関心対象配列用の適格配列ドース、すなわち染色体ドース又は断片ドースを、関心対象配列の配列タグ密度と、後のステップ145で正規化配列を同定する付加的配列の適格配列タグ密度との比として決定する。これに続いて同定した正規化配列を使用し、テストサンプルにおける配列ドースを決定する。
【0108】
一実施形態において、適格サンプルにおける配列ドースは、関心対象染色体に関する配列タグ数と、適格サンプルにおける正規化染色体配列に関する配列タグ数との比として計算される染色体ドースである。正規化染色体配列は、単独染色体、染色体グループ、1個の染色体の断片、又は異なる染色体からの断片グループとすることができる。したがって、関心対象染色体に関する染色体ドースは、適格サンプルにおいて、(i)関心対象染色体に関するタグ数と、単独染色体により構成される正規化染色体配列に関するタグ数との比、(ii)関心対象染色体に関するタグ数と、2個又はそれ以上の染色体により構成される正規化染色体配列に関するタグ数との比、(iii)関心対象染色体に関するタグ数と、単独染色体断片により構成される正規化断片配列に関するタグ数との比、(iv)関心対象染色体に関するタグ数と、1個の染色体からの2個又はそれ以上の断片により構成される正規化断片配列に関するタグ数との比、又は(v)関心対象染色体に関するタグ数と、2個又はそれ以上の染色体における2個又はそれ以上の染色体断片により構成される正規化断片配列に関するタグ数との比、として決定する。(i)〜(v)に従って関心対象である21番染色体に関する染色体ドースを決定する実施例を以下に示す。関心対象染色体、例えば21番染色体に関する染色体ドースを、21番染色体の配列タグ密度と、残りのすべての染色体、すなわち1〜20番染色体、22番染色体、X染色体及びY染色体のそれぞれに関する配列タグ密度との比として決定する(i)、関心対象染色体、例えば21番染色体に関する染色体ドースを、21番染色体の配列タグ密度と、残りの染色体における2個又はそれ以上のあり得るすべての組合せに関する配列タグ密度との比として決定する(ii)、関心対象染色体、例えば21番染色体に関する染色体ドースを、21番染色体の配列タグ密度と、他の染色体、例えば9番染色体の断片に関する配列タグ密度との比として決定する(iii)、関心対象染色体、例えば21番染色体に関する染色体ドースを、21番染色体の配列タグ密度と、他の1個の染色体の2個の断片、例えば9番染色体の2個の断片に関する配列タグ密度との比として決定する(iv)、及び関心対象染色体、例えば21番染色体に関する染色体ドースを、21番染色体の配列タグ密度と、2個の異なる染色体の2個の断片に関する、例えば9番染色体の断片及び14番染色体の断片に関する配列タグ密度との比として決定する。
【0109】
他の実施形態において、適格サンプルにおける配列ドースは、関心対象断片に関する配列タグ数と適格サンプルにおける正規化断片配列に関する配列タグ数との比として計算される断片ドースとする。正規化断片配列は、1個の染色体断片、又は異なる染色体からの断片グループとすることができる。したがって、関心対象断片に関する断片ドースは適格サンプルにおいて、(i)関心対象断片に関するタグ数と、染色体の単独断片により構成される正規化断片配列に関するタグ数との比、(ii)関心対象断片に関するタグ数と、1個の染色体における2個又はそれ以上の断片により構成される正規化断片配列に関するタグ数との比、又は(iii)関心対象断片に関するタグ数と、2個又はそれ以上の異なる染色体における2個又はそれ以上の断片により構成される正規化断片配列に関するタグ数との比、として決定する。
【0110】
関心対象の1個又はそれ以上の染色体に関する染色体ドースはすべての適格サンプルにおいて決定し、また正規化染色体配列をステップ145で同定する。同様に、1個又はそれ以上の関心対象断片に関する断片ドースをすべての適格サンプルで決定し、また正規化断片配列をステップ145で同定する。
【0111】
適格配列ドースからの正規化配列の同定
ステップ145において、正規化配列を関心対象配列用に計算した配列ドースに基づく配列として同定し、すなわち、すべての適格サンプルにわたり関心対象配列に関する配列ドースにおける変動性が最小となる。本発明方法は、本来的に類似特性を有し、またサンプル間及びシークエンシングの作業(ラン)間で類似の多型(変動)を受け易い配列を同定し、これはテストサンプルにおける配列ドースを決定するのに有用である
【0112】
1個又はそれ以上の関心対象配列に関する正規化配列は、適格サンプルのセットで同定することができ、またその後適格サンプルで同定される配列を使用して、各テストサンプルで1個又はそれ以上の関心対象配列に関する配列ドースを計算し(ステップ150)、各テストサンプルにおける異数性の有無を決定する。関心対象の染色体又は断片のために同定した正規化配列は、異なるシークエンシング基盤を使用するとき、及び/又はシークエンシングすべき核酸の純化に差があるとき、及び/又はシークエンシングライブラリの調製に差があるとき、異なることがあり得る。本発明方法による正規化配列を使用することによって、使用するサンプル調製及び/又はシークエンシング基盤に無関係に、染色体又は断片におけるコピー数多型に関する特別なまた感度のよい評価基準をもたらす。
【0113】
若干の実施形態において、1個より多い正規化配列を同定する、すなわち、異なった正規化配列を1個の関心対象配列に関して決定することができ、また複数の配列ドースを1個の関心対象配列に関して決定することができる。例えば、関心対象である21番染色体に関する染色体ドースにおける多型、例えば、変動係数は、14番染色体の配列タグ密度を使用するとき最小となる。しかし、2個、3個、4個、5個、6個、7個、8個又はそれ以上の正規化配列は、テストサンプルにおける関心対象配列に関する配列ドース決定に使用して同定することができる。例えば、任意な1つのテストサンプルにおける21番染色体に関する第2ドースを、正規化染色体配列として、7番染色体、9番染色体、11番染色体又は12番染色体を使用して決定することができ、なぜならこれら染色体はすべて14番染色体のCVに近似するCVを有するからである(実施例2、表2参照)。好適には、単独染色体を、関心対象染色体に関する正規化染色体配列として選択するとき、正規化染色体配列は、テストされるすべてのサンプル、例えば適格サンプルにわたり最小の変動性を有する関心対象染色体に関する染色体ドースになる染色体とする。
【0114】
染色体の正規化配列としての正規化染色体配列
他の実施形態において、正規化染色体配列は単独配列とするか、又は配列グループとすることができる。例えば、若干の実施形態において、正規化配列は、配列グループ、例えば染色体グループとし、これは1〜22番染色体、X染色体及びY染色体のうち任意の1個又はそれ以上に関する正規化配列として同定する。関心対象染色体に関する正規化配列、すなわち、正規化染色体配列を含む染色体のグループは、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個の染色体よりなるグループとすることができ、またX染色体及びY染色体のうち一方又は双方を含む又は含まないものとすることができる。正規化染色体配列として同定される染色体のグループは、テストされるすべてのサンプル、例えば適格サンプルにわたり最小の変動性を有する関心対象染色体に関する染色体ドースになる染色体グループとする。好適には、個別染色体及び染色体グループを、正規化染色体配列として選択される関心対象配列の挙動に最も近似する能力に関して、一緒にテストする。
【0115】
一実施形態において、21番染色体の正規化配列は、9番染色体、1番染色体、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、7番染色体、8番染色体、10番染色体、11番染色体、12番染色体、13番染色体、14番染色体、15番染色体、16番染色体、及び17番染色体から選択する。代案として、21番染色体の正規化配列を、9番染色体、1番染色体、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、7番染色体、8番染色体、10番染色体、11番染色体、12番染色体、13番染色体、14番染色体、15番染色体、16番染色体、及び17番染色体から選択した染色体グループとする。他の実施形態において、染色体グループは、9番染色体、1番染色体、2番染色体、11番染色体、12番染色体、及び14番染色体から選択したグループとする。
【0116】
若干の実施形態において、本発明方法は、さらに、各染色体を個別に、また残りの染色体とのあり得るすべての組合せを使用してすべての染色体ドースを系統的に計算することによって決定した正規化配列を使用することにより改善する(実施例7参照)。例えば、系統的に決定した正規化染色体は、各関心対象染色体に関して、1〜22番染色体、X染色体及びY染色体のうち任意な1個、及び1〜22番染色体、X染色体及びY染色体のうち2個又はそれ以上の組合せを使用してすべてのあり得る染色体ドースを系統的に計算することによって決定し、どの単独染色体又はどの染色体グループを正規化染色体とするかを決定することができ、これにより適格サンプルのセットにわたる関心対象染色体に関する染色体ドースの変動性が最小となる(実施例7参照)。したがって、一実施形態において、21番染色体に関する系統的に計算した正規化染色体配列は、4番染色体、14番染色体、16番染色体、20番染色体、及び22番染色体よりなる染色体グループとする。単独染色体又は染色体グループは、ゲノムにおけるすべての染色体に関して決定することができる。
【0117】
一実施形態において、18番染色体の正規化配列は、8番染色体、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、7番染色体、9番染色体、10番染色体、11番染色体、12番染色体、13番染色体、14番染色体から選択する。好適には、18番染色体用の正規化配列を、8番染色体、2番染色体、3番染色体、5番染色体、6番染色体、12番染色体、及び14番染色体から選択する。代案として、18番染色体の正規化配列を、8番染色体、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、7番染色体、9番染色体、10番染色体、11番染色体、12番染色体、13番染色体、及び14番染色体から選択した染色体グループとする。好適には、染色体グループは、8番染色体、2番染色体、3番染色体、5番染色体、6番染色体、12番染色体、及び14番染色体から選択したグループとする。
【0118】
他の実施形態において、18番染色体の正規化配列は、(本明細書のあらゆるところで説明したように)あり得る各正規化染色体を個別に、また正規化染色体のあり得るすべての組合せを使用してあり得るすべての染色体ドースを系統的に計算することによって、決定する。したがって、一実施形態において、18番染色体に関する正規化配列は、2番染色体、3番染色体、5番染色体、及び7番染色体よりなる染色体グループで構成される正規化染色体とする。
【0119】
一実施形態において、X染色体の正規化配列は、1番染色体、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、7番染色体、8番染色体、9番染色体、10番染色体、11番染色体、12番染色体、13番染色体、14番染色体、15番染色体、及び16番染色体から選択する。好適には、X染色体の正規化配列を、2番染色体、3番染色体、5番染色体、6番染色体、及び8番染色体から選択する。代案として、X染色体の正規化配列を、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、7番染色体、8番染色体、9番染色体、10番染色体、11番染色体、12番染色体、13番染色体、14番染色体、15番染色体、及び16番染色体から選択した染色体グループとする。好適には、染色体グループは、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、及び8番染色体から選択したグループとする。
【0120】
他の実施形態において、X染色体の正規化配列は、(本明細書のいたるところに記載したように)正規化染色体のうちあり得る正規化染色体及びあり得る正規化染色体の組合せのそれぞれを使用して、すべてのあり得る染色体ドースを系統的に計算することによって決定する。したがって、一実施形態において、X染色体の正規化配列は4番染色体及び8番染色体のグループよりなる正規化染色体とする。
【0121】
一実施形態において、13番染色体の正規化配列は、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、7番染色体、8番染色体、9番染色体、10番染色体、11番染色体、12番染色体、14番染色体、18番染色体、及び21番染色体から選択する。好適には、13番染色体用の正規化配列を、2番染色体、3番染色体、5番染色体、6番染色体、及び8番染色体から選択した染色体とする。他の実施形態において、13番染色体の正規化配列を、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、7番染色体、8番染色体、9番染色体、10番染色体、11番染色体、12番染色体、14番染色体、18番染色体、及び21番染色体から選択した染色体グループとする。好適には、染色体グループは、2番染色体、3番染色体、4番染色体、5番染色体、6番染色体、及び8番染色体から選択したグループとする。
【0122】
他の実施形態において、13番染色体の正規化配列は、(本明細書のいたるところに記載したように)正規化染色体のうちあり得る正規化染色体及びあり得る正規化染色体の組合せのそれぞれを使用して、すべてのあり得る染色体ドースを系統的に計算することによって決定する。したがって、一実施形態において、13番染色体の正規化配列は4番染色体及び5番染色体のグループを有する正規化染色体とする。他の実施形態において、13番染色体の正規化配列は4番染色体及び5番染色体のグループよりなる正規化染色体とする。
【0123】
Y染色体の染色体ドースにおける多型は30個より多く、これらの正規化染色体をそれぞれ独立的に使用してY染色体ドースを決定する。したがって、1〜22番染色体及びX染色体から選択した任意の1個の染色体又は2個若しくはそれ以上の染色体のグループをY染色体の正規化配列として使用する。一実施形態において、少なくとも1個の正規化染色体は、1〜22番染色体及びX染色体よりなる染色体グループとする。他の実施形態において、染色体グループは、2番染色体、3番染色体、4番染色体、5番染色体、及び6番染色体よりなる染色体グループとする。
【0124】
他の実施形態において、Y染色体の正規化配列は、(本明細書のいたるところに記載したように)正規化染色体のうちあり得る正規化染色体及びあり得る正規化染色体の組合せのそれぞれを使用して、すべてのあり得る染色体ドースを系統的に計算することによって決定する。したがって、一実施形態において、Y染色体の正規化配列は4番染色体及び6番染色体よりなる染色体グループを有する正規化染色体とする。他の実施形態において、Y染色体の正規化配列は4番染色体及び6番染色体よりなる染色体グループで構成した正規化染色体とする。
【0125】
関心対象の異なる染色体又は関心対象の異なる断片におけるドースを計算するのに使用される正規化配列は同一の正規化配列とする、又は関心対象の異なる染色体又は関心対象の異なる断片に対してそれぞれ異なる正規化配列とすることができる。例えば、関心対象染色体Aの正規化配列(単独若しくはグループ)は同一とするか、又は例えば関心対象染色体Bの正規化配列(単独若しくはグループ)とは異なるものとすることができる。
【0126】
完全染色体の正規化配列は完全染色体若しくは完全染色体グループとするか、又は染色体断片若しくは1個以上の染色体断片のグループとすることができる。
【0127】
染色体の正規化配列としての正規化断片配列
他の実施形態において、染色体の正規化配列は正規化断片配列とすることができる。正規化断片配列は単独断片とする若しくは1個の染色体の断片グループとすることができ、又は2個以上の異なる染色体からの断片とすることができる。正規化断片配列はゲノムにおける断片配列のすべての組合せを系統的に計算することによって決定することができる。例えば、21番染色体の正規化断片配列は、2番染色体のサイズより大きい又は小さい単独断片とすることができ、2番染色体は約47Mbp(million base pairs)であり、約140Mbpの9番染色体とはサイズが異なる。代案として、21番染色体のための正規化配列は、1番染色体からの配列と、12番染色体からの配列との組合せとすることができる。
【0128】
一実施形態において、21番染色体の正規化配列は、1〜20番染色体、22番染色体、X染色体及びY染色体のうちの1断片、又は2個以上の断片グループの正規化断片配列とする。他の実施形態において、18番染色体の正規化配列は、1〜17番染色体、19〜22番染色体、X染色体及びY染色体のうちの1断片、又は断片グループとする。他の実施形態において、13番染色体の正規化配列は、1〜12番染色体、14〜22番染色体、X染色体及びY染色体のうちの1断片、又は断片グループとする。他の実施形態において、X染色体の正規化配列は、1〜22番染色体、及びY染色体のうちの1断片、又は断片グループとする。他の実施形態において、Y染色体の正規化配列は、1〜22番染色体、及びX染色体のうちの1断片、又は断片グループとする。単独断片又は断片グループの正規化断片配列はゲノムにおけるすべての染色体に対して決定することができる。正規化断片配列の2個以上の断片は1個の染色体からの断片とするか、又は2個以上の断片は2個以上の染色体の断片とすることができる。正規化染色体配列につき説明したように、正規化断片配列は2個以上の異なった染色体に対して同一とすることができる。
【0129】
染色体断片のための正規化配列としての正規化断片配列
関心対象配列のCNV有無は、関心対象配列が染色体断片であるとき決定することができる。染色体断片のコピー数多型は、部分的染色体異数性の有無を決定することができる。以下に説明するのは、種々の胎児異常及び病状に関連する部分的染色体異数性の例である。染色体断片は任意の長さとすることができる。例えば、その長さはキロベースから数100メガベースの範囲にわたることがあり得る。ヒトゲノムは30億個のDNA塩基にわたって存在し、このDNA塩基を、数10個、数1000個、数10万、数100万の異なるサイズの断片に分割し、これら異なるサイズの断片を本発明方法によって決定することができる。染色体断片の正規化配列は、1〜22番染色体、X染色体及びY染色体のうち任意な1個からの単独断片、又は1〜22番染色体、X染色体及びY染色体のうち任意な1個以上から断片グループとすることができる正規化断片配列である。
【0130】
関心対象断片の正規化配列は、染色体にわたり変動性を有する、また関心対象断片の配列に近接するサンプルにわたり変動性を有する配列である。正規化配列の決定は、正規化配列が1〜22番染色体、X染色体及びY染色体のうち任意な1個又はそれ以上の断片グループであるとき、関心対象染色体の正規化配列を決定することに関して説明したとおりに実行することができる。1個の断片又は断片グループの正規化断片配列は、1個の断片及び2個以上の断片におけるすべてのあり得る組合せを使用して、適格サンプル、すなわち、関心対象断片が2倍体であると分かっているサンプルのセットにおける各サンプルの関心対象断片の正規化配列として断片ドースを計算することによって同定することができ、また正規化配列は、正規化染色体配列につき上述したように、すべての適格サンプルにわたる関心対象断片の変動性が最低の断片ドースを提供するように決定する。
【0131】
例えば、1Mb(megabase)の関心対象断片に関して、約3Gbのヒトゲノムにおける残りの300万個(1mgの関心対象断片を差し引いた)の断片を個別に、又は互いに組合せて使用し、適格サンプルのセットにおける関心対象断片の断片ドースを計算し、どの1個の断片又はどの断片グループが適格サンプル及びテストサンプルの正規化断片配列として作用するかを決定することができる。関心対象断片は約1000個の塩基から数10メガベースもの塩基にわたり変化し得る。正規化断片配列は、関心対象配列と同一サイズの1個又はそれ以上の断片により構成することができる。他の実施形態において、正規化断片配列は、関心対象配列の断片とは異なった、及び/又は互いに異なった断片により構成することができる。例えば、10,000塩基長さを有する配列の正規化断片配列は20,000塩基長さとすることができ、異なる長さ、例えば、7,000+8,000+5,000塩基の配列組合せを有するものとすることができる。正規化染色体配列につき本明細書のいたるところに記載したように、正規化断片配列は、正規化断片におけるあり得る正規化染色体断片それぞれを個別に、またあり得るすべての組合せを使用して(正規化染色体配列につき本明細書のいたるところに記載したように)、すべてのあり得る染色体ドース及び/又は断片ドースを系統的に計算することによって、決定することができる。単独断片又は断片グループは、ゲノムにおけるすべての断片及び/又は染色体に対して決定することができる。
【0132】
関心対象の異なる染色体断片におけるドースを計算するのに使用する正規化配列は同一とするか、又は関心対象の異なる染色体断片に異なった正規化配列とすることができる。例えば、関心対象染色体断片Aの正規化断片(単独若しくはグループ)の正規化配列は同一とするか、又は例えば関心対象染色体断片Bの正規化断片(単独若しくはグループ)とは異なる正規化配列とすることができる。
【0133】
テストサンプルにおける異数性決定
適格サンプルにおける正規化配列の同定に基づいて、1個又はそれ以上の関心対象配列に違いがあるゲノムに由来する核酸混合物を有するテストサンプルにおける関心対象配列に対して配列ドースを決定する。
【0134】
ステップ115において、テストサンプルを関心対象配列に臨床関連CNVがあることが疑われる又は既知の検体から採取する。このテストサンプルは、生体液、例えば、血漿、又は以下に説明するような任意の適当なサンプルとすることができる。若干の実施形態において、テストサンプルは、核酸分子、例えばcfDNA分子の混合物を含むものとする。若干の実施形態において、テストサンプルは、胎児及び母体のcfDNA分子混合物を含む母体血漿サンプルとする。
【0135】
ステップ125で、テストサンプルにおけるテスト核酸の少なくとも一部を、適格サンプルにつき説明したように、シークエンシングし、例えば、36bpリードの配列リードを数100万個生成する。ステップ120と同様に、テストサンプルにおける核酸をシークエンシングすることから生じたリードを基準ゲノムに対して一意的にマッピングする。ステップ120につき説明したように、20〜40個の塩基対(bp)リード(reads)を有する、少なくとも約3×10
6個の適格配列タグ、少なくとも約5×10
6個の適格配列タグ、少なくとも約8×10
6個の適格配列タグ、少なくとも約10×10
6個の適格配列タグ、少なくとも約15×10
6個の適格配列タグ、少なくとも約20×10
6個の適格配列タグ、少なくとも約30×10
6個の適格配列タグ、少なくとも約40×10
6個の適格配列タグ、少なくとも約50×10
6個の適格配列タグを、基準ゲノムに対して一意的にマッピングするリードから得る。
【0136】
ステップ135で、テストサンプルにおける核酸をシークエンシングすることから得るすべてのタグをカウントして、テスト配列タグ密度を決定する。一実施形態において、関心対象配列にマッピングされたテスト配列タグ数は、テスト配列タグ密度比を得るようマッピングされる関心対象配列の既知長さに正規化する。適格サンプルにつき説明したように、関心対象配列の既知長さに正規化する必要はなく、ヒト解釈用に簡素化するための数値における桁数を減らすステップとして含めることができる。すべてのマッピングされたテスト配列タグをテストサンプルにおいてカウントするとき、テストサンプルにおける関心対象配列、例えば臨床関連配列の配列タグ密度は、適格サンプルで同定される少なくとも1個の正規化配列に対応する付加的配列のための配列タグ密度として決定される。
【0137】
ステップ150で、適格サンプルにおける少なくとも1個の正規化配列の同定に基づいて、テスト配列ドースを、テストサンプルにおける関心対象配列に対して決定する。本明細書のいたるところに記載したように、少なくとも1個の正規化配列は、単独配列又は配列グループとすることができる。テストサンプルにおける関心対象配列の配列ドースは、テストサンプルにおける関心対象配列に関して決定した配列タグ密度と、テストサンプルで決定した少なくとも1個の正規化配列の配列タグ密度との比であり、この場合、テストサンプルにおける正規化配列は、特別な関心対象配列のために適格サンプルにおいて同定した正規化配列に対応する。例えば、適格サンプルにおいて21番染色体に対して同定した正規化配列が染色体、例えば14番染色体であると決定される場合、21番染色体(関心対象配列)のテスト配列ドースは、21番染色体の配列タグ密度と、テストサンプルでそれぞれ決定された14番染色体の配列タグ密度との比として決定される。同様に、13番染色体、18番染色体、X染色体、Y染色体及び染色体異数性に関連する他の染色体の染色体ドースを決定する。関心対象染色体の正規化配列は、1個の染色体若しくは染色体グループ、又は1個の染色体断片若しくは染色体断片グループとすることができる。上述したように、関心対象配列は、染色体の一部、例えば染色体断片の一部とすることができる。したがって、染色体断片のドースは、テストサンプルにおける断片に関して決定された配列タグ密度と、テストサンプルにおける正規化染色体断片の配列タグ密度との比として決定することができ、この場合、テストサンプルにおける正規化断片は、特別な関心対象断片のために適格サンプルにおいて同定された正規化断片(単独断片又は断片グループ)に対応する。染色体断片は寸法がキロベースからメガベースにわたる。
【0138】
ステップ155で、複数個の適格サンプルで決定された適格配列ドース、及び関心対象配列に関して異数性が既知のサンプルに対して決定された配列ドースのために確立された標準偏差から閾値を導き出す。正確な分類は、異なるクラス、すなわち、異数性のタイプに関する確率分布間の相違に依存する。好適には、閾値は、異数性の各タイプ、例えば21番トリソミーの経験分布から選択する。胎児及び母体の核酸混合物を含む母体サンプルから抽出したcfDNAをシークエンシングすることによって染色体異数性を決定するのに本発明方法を使用することを説明する実施例で記載するように、13番トリソミー、18番トリソミー、21番トリソミー及びXモノソミーの異数性を分類するのに確立された可能な閾値がある。或る染色体異数性の異変サンプルを区別するよう決定される閾値は、異なる異数性の異変サンプルを区別するよう決定される閾値と同一又は異なるものとすることができる。実施例で示すように、各関心対象染色体の閾値は、サンプル間及びシークエンシングラン間にわたる染色体ドースの変動性から決定する。任意の関心対象染色体の染色体ドースの変動性が少なければ少ないほど、異なった異数性を決定するための閾値を設定するのに使用されるすべての異変なしサンプルにわたる関心対象染色体のドースにおける分散は狭くなる。
【0139】
ステップ160で、関心対象配列のコピー数多型を、関心対象配列のテスト配列ドースを適格配列ドースから確立した少なくとも1個の閾値と比較することによって決定する。
【0140】
ステップ165で、関心対象テスト配列の計算したドースを、ユーザー定義の信頼性閾値に従って選択した閾値として設定したドースと比較し、サンプルを「正常」、「異変あり」、「ノーコール」として分類する。「ノーコール」サンプルは、断定的診断を信頼性を持って下せないサンプルである。
【0141】
本発明の他の実施形態は、胎児及び母体の核酸分子を有する生物学的サンプルにおける胎児の染色体異数性を出生前診断する方法を提供する。この診断は、生物学的テストサンプル、例えば母体血漿サンプルから採取した胎児及び母体の核酸分子混合物の少なくとも一部をシークエンシングする配列情報を取得し、配列データから1個又はそれ以上の関心対象染色体の正規化ドース及び/又は1個又はそれ以上の関心対象断片の正規化断片ドースをコンピュータ計算し、テストサンプルにおける関心対象染色体の染色体ドース及び/又は関心対象断片の断片ドースと、複数個の適格(正常)サンプルで確立された閾値との統計学的有意差を決定し、及び統計学的有意差に基づいて出生前診断を行うことに基づく。本発明方法のステップ165で説明するように、正常又は異変ありの診断を行う。「ノーコール」は、正常又は異変ありの診断が確信を持って行うことができない場合に下す。
【0142】
サンプル
CNV、例えば染色体異数性及び部分的異数性を決定するのに使用するサンプルは、細胞内に存在する、又は「無細胞」の核酸を有する。本発明の若干の実施形態において、無細胞核酸、例えば無細胞(cell-free)DNA(cfDNA)を採取するのが有利である。無細胞DNAを含む無細胞核酸は、生物学的サンプル、例えば限定しないが血漿及び血清から従来既知の種々の方法によって採取することができる(Chen et al., Nature Med.2:1033-1035 [1996]; Lo et al., Lancet 350:485-487 [1997]参照)。細胞から無細胞DNAを分離するため、分別、遠心分離(例えば、密度勾配遠心分離)、DNA特異的沈降、又は高スループットの細胞ソート及び/又は分離方法を使用することができる。
【0143】
本発明に記載の方法を適用する核酸混合物を有するサンプルは、例えば組織サンプル、生体液サンプル、又は細胞サンプルのような生物学的サンプルである。若干の実施形態において、核酸混合物を生物学的サンプルから既知の方法のうち任意な1つのによって、精製又は分離する。サンプルは精製又は分離したポリヌクレオチドにより構成されるか、又は組織サンプル、生体液サンプル、又は細胞サンプルのような生物学的サンプルを含むものとすることができる。生体液としては、限定しないが、血液、血漿、血清、汗、涙、痰、尿、精液、内耳液、リンパ液、唾液、脳脊髄液、破出液、骨髄懸濁液、膣液、経頸管洗浄液、脳液、腹水、母乳、呼吸器官、腸管及び泌尿生殖器管の分泌物、羊水、及び白血球共生サンプルがある。若干の実施形態において、サンプルは、非侵襲的手順によって容易に採取できるサンプル、例えば、血液、血漿、血清、汗、涙、痰、尿、精液、内耳液、唾液、又は糞便とする。好適には、生物学的サンプルは、末梢血液サンプル、又は血漿及び血清画分とする。他の実施形態において、生物学的サンプルは、綿棒若しくは塗抹採取試料、生検試料、又は細胞培養とする。他の実施形態において、サンプルは、2種類以上の生物学的サンプルの混合物とし、例えば、生物学的サンプルは、生体液サンプル、組織サンプル及び細胞培養サンプルのうち2つ又はそれ以上を有するものとすることができる。本明細書に使用する用語「血液」、「血漿」及び「血清」は、それらの画分又は処理した部分をも包含する。同様に、サンプルを生検、綿棒、塗抹等から採取する場合、「サンプル」は生検、綿棒、塗抹等に由来する処理画分又は部分をも含む。
【0144】
若干の実施形態において、サンプルはソースから採取することができ、限定はしないが、異なる個体、同一又は異なる個体の異なる発達段階、異なる疾患の個体(例えば、がんを有する又は遺伝性疾患を有することが疑われる個体)、正常個体、個体における疾患の異なる段階で採取したサンプル、異なる環境因子を受けた個体からのサンプル、又は病理学的素因を有する個体、又は感染性疾患作用因子(HIV)に被曝した個体からのサンプルがある。
【0145】
一実施形態において、サンプルは、妊娠した雌体、例えば、妊娠した女性から採取した母体サンプルとする。この場合、サンプルは本明細書に記載した方法を使用して解析し、胎児の潜在的染色体異常の出生前診断を行う。母体サンプルは組織サンプル、生体液サンプル、又は細胞サンプルとすることができる。生体液は、非限定的な例として、血液、血漿、血清、汗、涙、痰、尿、精液、内耳液、リンパ液、唾液、脳脊髄液、破出液、骨髄懸濁液、膣液、経頸管洗浄液、脳液、腹水、母乳、呼吸器官、腸管及び泌尿生殖器管の分泌物、羊水、及び白血球共生サンプルがある。他の実施形態において、母体サンプルは、2つ異常の生物学的サンプルの混合物とすることができ、例えば、生物学的サンプルは、生体液サンプル、組織サンプル及び細胞培養サンプルのうち2つ又はそれ以上を有するものとすることができる。若干の実施形態において、サンプルは、非侵襲的手順によって容易に採取できるサンプル、例えば、血液、血漿、血清、汗、涙、痰、尿、精液、内耳液、唾液、又は糞便とする。好適には、生物学的サンプルは、末梢血液サンプル、又は血漿及び血清画分とする。他の実施形態において、生物学的サンプルは、綿棒若しくは塗抹採取試料、生検試料、又は細胞培養とする。本明細書に使用する用語「血液」、「血漿」及び「血清」は、それらの画分又は処理した部分をも包含する。同様に、サンプルを生検、綿棒、塗抹等から採取する場合、「サンプル」は生検、綿棒、塗抹等に由来する処理画分又は部分をも含む。
【0146】
サンプルは、試験管内培養したソースを含む組織、細胞、又はポリヌクレオチドから採取することができる。培養したサンプルは、限定しないが、異なる培地及び条件(例えば、pH、圧力、若しくは温度)に維持した培養物(例えば、組織若しくは細胞)、異なる長さの期間にわたり維持した培養物(例えば、組織若しくは細胞)、異なる因子若しくは試薬(例えば、薬剤候補若しくは調節因子)で処理した培養物(例えば、組織若しくは細胞)、又は組織若しくは細胞における異なるタイプの培養物を含むソースから採取することができる。
【0147】
生物学的ソースから核酸を単離する方法は、既知であり、またソースの性質に基づいて異なってくる。当業者であれば、方法に記載の方法に必要なソースから核酸を容易に単離することができる。若干の実施形態において、核酸サンプルにおける核酸分子をフラグメント化するのは有利である。フラグメント化を行うとき、ランダムとするか、又は例えば制限エンドヌクレアーゼを使用する特別なものとすることができる。ランダムフラグメント化の方法は従来既知であり、例えば、デオキシリボヌクレアーゼ温浸、アルカリ処理、及び物理的剪断がある。一実施形態において、サンプル核酸は、フラグメント化を受けていないcfDNAから採取する。他の実施形態において、サンプル核酸は、約500以上の塩基対のフラグメントにフラグメント化された、またNGS方法を容易に適用できるゲノムDNAから採取する。
【0148】
出生前診断のためのCNV決定
母体血液内で循環する無細胞胎児DNA及びRNAは、母体管理及び生殖意思決定支援双方を行うため、多くの遺伝子疾患の初期出生前診断(NIPD:non-invasive prenatal diagnosis)に使用することができる。血流内で循環する無細胞DNAの存在は50年にわたり知られてきた。より最近では、循環する少量の胎児DNAの存在が妊娠期間中の母体血流で発見された(Lo et al., Lancet 350:485-487 [1997]参照)。死にかけている胎盤細胞に由来すると考えられている、無細胞(cell-free)胎児DNA(cfDNA)は、典型的には200bpより少ない長さの短いフラグメントにより構成されていることが分かっており(Chan et al., Clin Chem 50:88-92 {2004]参照)、このcfDNAは、妊娠4週目の早期に確認することができ(Illanes et al., Early Human Dev 83:563-566 [2007]参照)、また数時間の配給内で母体循環から除去されることがわかっている(Lo et al., Am J Hum Genet64:218-224 [1999]参照)。CfDNAの他に、無細胞胎児RNA(cfRNA)のフラグメントは、母体血流内に確認することができ、これは胎児又は胎盤内で転写された遺伝子に由来する。母体血液サンプルからのこれら胎児遺伝要素の抽出及びその後の解析により、新規なNIPD機会をもたらす。
【0149】
本発明方法は、NIPDに使用され、また胎児cfDNAを母体cfDNAから区別する必要がなく、胎児の異数性を決定することができる多型性独立方法である。若干の実施形態において、異数性は、完全染色体トリソミー若しくはモノソミー又は部分的トリソミー若しくはモノソミーである。部分的異数性は、染色体の一部の不足又は過剰によって生じ、また不安定な転座、不安定な反転、欠失及び挿入から引き起こされる染色体不均衡を含む。これまで、最も一般的に知られている生存可能な異数性は、21番トリソミー、すなわちダウン症候群(DS)であり、これは21番染色体の一部又はすべての存在によって生ずる。DSは遺伝的又は散発性の異常によって引き起こされ、21番染色体のすべて又は一部の過剰コピーが、他の染色体(通常、14番染色体)に取り付いて、単独の変形した染色体を形成する。DSは、知能障害、深刻な学習困難性、及び心臓病などの長期健康問題で生ずる超過死亡に関連する。臨床的に有意であることが知られている他の異数性としては、エドワーズ症候群(18番トリソミー)及びパトー症候群(13番トリソミー)があり、しばしば最初の2,3か月の寿命で死亡する。性染色体の数に関連する異常性も既知であり、Xモノソミー、例えばターナー症候群(XO)、及び女児出生におけるトリプルX症候群(XXX)、クラインフェルター症候群(XXY)、及び男児出生におけるXYY症候群があり、知的技能の欠落及び減退を含む種々の表現型に関連する。本発明方法を使用して、これら及び他の染色体異常を出生前に診断することができる。
【0150】
本発明の若干の実施形態によれば、本発明方法により決定されるトリソミーは、21番トリソミー(T21;ダウン症候群)、18番トリソミー(T18;エドワーズ症候群)、16番トリソミー(T16)、22番トリソミー(T22;キャットアイ症候群)、15番トリソミー(T15;プラダーウィリ症候群)、13番トリソミー(T13;パトー症候群)、8番トリソミー(T8;ワーカニー症候群)、XXY(クラインフェルター症候群)、XYY、又はXXXトリソミーに限定しない。本発明が教示することによれば、様々な他の完全トリソミー及び部分的トリソミーを胎児cfDNAで決定することができる。部分的トリソミーの例としては、限定しないが、部分トリソミーlq32〜44、9pトリソミー、4番トリソミーモザイク、17pトリソミー、部分トリソミー4q26−qter、9番トリソミー、部分2pトリソミー、部分トリソミー1q、及び/又は部分トリソミー6p/モノソミー6qがある。
【0151】
本発明方法は、X染色体モノソミー、及び部分的モノソミーを決定することができ、部分的モノソミーとしては、例えば13番モノソミー、15番モノソミー、16番モノソミー、21番モノソミー、22番モノソミーがあり、これらは流産となる妊娠に見られることが知られている。一般的に完全異数性に見られる染色体の部分的モノソミーも本発明方法によって決定することができる。モノソミー18pは、まれな染色体障害であり、これは18番染色体の短アームのすべて又は一部を欠失している(一染色体性である)。この障害は、典型的には小人症、程度に幅がある知能発育不全、発話発達遅滞、頭蓋骨及び顔(頭蓋顔面)領域奇形、及び/又は付加的な身体的異常で特徴付けされる。頭蓋顔面に関連する障害は、範囲及び重篤度に関して、ケースごとに大きく変動がある。15番染色体の構造又はコピー数多型によって生ずる症状としては、アンジェルマン症候群及びプラダーウィリ症候群があり、これらは15番染色体の同一部分、15q11〜q13における遺伝子活性欠乏がある。幾つかの転座及び微小欠失は、キャリヤである親には無症状であり得るが、それでも子孫に大きな遺伝的障害を発症し得る。例えば、15q11〜q13微小欠失を有する健康な母親は、アンジェルマン症候群、重篤な神経変性疾患を持つ子供を産むことがあり得る。本発明方法を使用して胎児におけるこのような部分的欠失及び他の欠失を同定することができる。部分モノソミー13qはまれな染色体障害であり、13番染色体における長アームの一部が消失している(一染色体性である)結果である。部分モノソミー13qを持って生まれた胎児は、低出産時体重、頭部及び顔(頭蓋顔面領域)の奇形、骨格異常(とくに、手及び足)、及び他の身体的異常を呈する。精神発達遅滞はこの症状の特徴である。幼年期中の死亡率はこの障害を持って産まれた個体が高い。部分モノソミー13qのほとんどすべてのケースは、はっきりとした理由なくランダムに(散発的に)発生する。22q11.2欠失症候群(ディジョージ症候群としても知られている)は、22番染色体の小さいピースの欠失によって発症する症候群である。(22q11.2)欠失は、その染色体対のうち一方における長アームにある染色体中間部近傍で生ずる。この症候群の特徴は、同一症候群メンバー内でも広範囲に変動があり、身体の多くの部分に異変を及ぼす。特徴的兆候及び症候は、出生異常、例えば、先天性心臓疾患、最も一般的には神経筋の閉止問題に関連する口蓋における欠陥(口蓋帆咽頭不全)、学習障害、顔の特徴における軽度の相違、及び反復性感染がある。染色体領域22q11.2での微小欠失は、統合失調症を20〜30倍にも増大させるリスクに関連する。一実施形態において、本発明方法を使用して、限定はしないが、モノソミー18p、15番染色体の部分モノソミー(15q11〜q13)、部分モノソミー13qを含む部分モノソミーを決定し、また22番染色体の部分モノソミーも本発明方法を用いて決定することができる。
【0152】
本発明方法は、片方の親がこのような異常性のキャリヤであることが分かっている場合に何らかの異数性を決定するのにも使用することができる。これら異数性としては、限定しないが、小さい過剰マーカー染色体(SMC:supernumerary marker chromosome)のモザイク、t(11;14)(p15;p13)転座、不均衡転座t(8;11)(p23.2;p15.5)、11q23微小欠失、17p11.2欠失、22q13.3欠失、Xp22.3微小欠失、10p14欠失、20p微小欠失、ディジョージ症候群[del(22)(q11.2q11.23]、ウィリアムズ症候群(7q11.23及び7q36欠失)、1p36欠失、2p微小欠失、神経線維腫症1型(17q11.2微小欠失)、Yq欠失、ウォルフ・ヒルシュホーン(Wolf-Hirschhorn)症候群(WHS, 4p16.3微小欠失)、1p36.2微小欠失、11q14欠失、19q13.2微小欠失、ルビンシュタイン・タイビ(16p13.3微小欠失)7p21微小欠失、ミラー・ディーカー(Miller-Dieker)症候群、17p11.2欠失、及び2q37微小欠失がある。
【0153】
完全胎児染色体異数性の決定
一実施形態において、本発明は、胎児及び母体の核酸分子を含む母体テストサンプルにおける任意の1つ又はそれ以上の異なった完全胎児染色体異数性の有無を決定する方法を提供する。好適には、本発明方法は、任意の4つ又はそれ以上の完全染色体異数性の有無を決定する。本発明方法のステップは、(a)母体テストサンプルにおける胎児及び母体核酸の配列情報を取得するステップと、及び(b)配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象染色体それぞれにおける配列タグ数を同定し、また任意の1個又はそれ以上の関心対象染色体それぞれにおける正規化染色体配列の配列タグ数を同定するステップとを有する。正規化染色体配列は単独染色体とするか、又は1〜22番染色体、X染色体及びY染色体から選択した染色体グループとすることができる。本発明方法は、さらに、ステップ(c)において、任意の1個又はそれ以上の関心対象染色体それぞれに対して同定した配列タグ数、及び各正規化染色体配列に対して同定した配列タグ数を使用して、任意の1個又はそれ以上の関心対象染色体それぞれにおける単独染色体ドースを計算し、及びステップ(d)で任意の1個又はそれ以上の関心対象染色体それぞれにおける各単独染色体ドースを任意の1個又はそれ以上の関心対象染色体それぞれの閾値と比較し、これにより母体テストサンプルにおける任意の1つ又はそれ以上の異なった完全胎児異数性の有無を決定する。
【0154】
若干の実施形態において、ステップ(c)は、各関心対象染色体の単独染色体ドースを、各関心対象染色体に対して同定した配列タグ数と、各関心対象染色体の正規化染色体に対して同定した配列タグ数との比として計算する。
【0155】
他の実施形態において、ステップ(c)は、関心対象染色体それぞれの単独染色体ドースを、関心対象染色体それぞれに対して同定した配列タグ数と、関心対象染色体それぞれの正規化染色体に対して同定した配列タグ数との比として計算する。他の実施形態において、ステップ(c)は、関心対象染色体の配列タグ比の計算を、関心対象染色体に対して得た配列タグ数を関心対象染色体の長さに関連付けし、また関心対象染色体の対応する正規化染色体配列のタグ数を正規化染色体配列の長さに関連付けし、また関心対象染色体の染色体ドースを、関心対象染色体の配列タグ密度と正規化配列の配列タグ密度との比として計算することによって行う。すべての関心対象染色体それぞれに対してこの計算を繰り返す。ステップ(a)〜(d)を、異なる母体検体からのテストサンプルに対して繰り返すことができる。
【0156】
4つ又はそれ以上の完全胎児染色体異数性を、胎児及び母体の無細胞DNAの混合物を含む母体テストサンプルにおいて決定する実施形態の例は、(a)テストサンプルにおける胎児及び母体の無細胞DNA分子の少なくとも一部をシークエンシングして配列情報を取得するステップと、(b)この配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の20個又はそれ以上の関心対象染色体それぞれの配列タグ数を同定し、またその20個又はそれ以上の関心対象染色体それぞれの正規化染色体の配列タグ数を同定するステップと、(c)その20個又はそれ以上の関心対象染色体それぞれに対して同定した配列タグ数及び各正規化染色体に対して同定した配列タグ数を使用して、その20個又はそれ以上の関心対象染色体それぞれの単独染色体ドースを計算するステップと、及び(d)その20個又はそれ以上の関心対象染色体それぞれの各単独染色体ドースを、20個又はそれ以上の関心対象染色体それぞれの閾値と比較し、またこれによりテストサンプルにおける任意の20又はそれ以上の異なった完全胎児染色体異数性の有無を決定するステップとを有する。
【0157】
他の実施形態において、上述の母体テストサンプルにおける任意の1つ又はそれ以上の異なった完全胎児染色体異数性の有無を決定する方法は、関心対象染色体におけるドースを決定する正規化断片配列を使用する。この場合、この方法は、(a)テストサンプルにおける胎児及び母体の核酸の配列情報を取得するステップと、(b)この配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の1つ又はそれ以上の関心対象染色体それぞれの配列タグ数を同定し、またその1つ又はそれ以上の関心対象染色体それぞれの正規化断片配列の配列タグ数を同定するステップとを有する。正規化断片配列は、染色体の単独断片とするか、又は任意の1個又はそれ以上の異なった染色体からの断片グループとすることができる。この方法は、さらに、(c)その任意の1個又はそれ以上の関心対象染色体それぞれに対して同定した配列タグ数及び各正規化断片配列に対して同定した配列タグ数を使用して、その任意の1個又はそれ以上の関心対象染色体それぞれの単独染色体ドースを計算するステップと、及び(d)その任意の1個又はそれ以上の関心対象染色体それぞれの各単独染色体ドースを、任意の1個又はそれ以上の関心対象染色体それぞれの閾値と比較し、またこれによりテストサンプルにおける任意の1つ又はそれ以上の異なった完全胎児染色体異数性の有無を決定するステップとを有する。
【0158】
若干の実施形態において、ステップ(c)は、関心対象染色体それぞれの単独染色体ドースを、関心対象染色体それぞれに対して同定した配列タグ数と、関心対象染色体それぞれの正規化断片配列に対して同定した配列タグ数との比として計算する。
【0159】
他の実施形態において、ステップ(c)は、関心対象染色体の配列タグ比の計算を、関心対象染色体に対して得た配列タグ数を関心対象染色体の長さに関連付けし、また関心対象染色体の対応する正規化断片配列のタグ数を正規化断片配列の長さに関連付けし、また関心対象染色体の染色体ドースを、関心対象染色体の配列タグ密度と正規化断片配列の配列タグ密度との比として計算することによって行う。すべての関心対象染色体それぞれに対してこの計算を繰り返す。ステップ(a)〜(d)を、異なる母体検体からのテストサンプルに対して繰り返すことができる。
【0160】
異なるサンプルセットの染色体ドースを比較する手段は、テストサンプルにおける染色体ドースを、適格サンプルセットにおける対応の染色体ドースの平均に関連付ける正規化染色体値(NCV:normalized chromosome value)を決定することによって得ることができる。NCVは、次式のように計算する。
【数3】
ここで、
は、それぞれ適格サンプルセットにおけるj番染色体ドースに対する推定した平均及び標準偏差であり、x
ijはテストサンプルiにおける観測したj番染色体ドースである。
【0161】
若干の実施形態において、少なくとも1つの完全胎児染色体異数性の有無を決定する。他の実施形態において、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24の、完全胎児染色体異数性の有無を1つのサンプル内で決定し、この場合、22の完全胎児染色体異数性は、任意の1つ又はそれ以上の常染色体における完全染色体異数性に対応し、23番目の染色体異数性及び24番目の染色体異数性はX染色体及びY染色体の完全胎児染色体異数性に対応する。性染色体の異数性はテトラソミー、ペンタソミー及び他のポリソミーを含むため、本発明方法により決定することができる異なる完全染色体異数性の数としては、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、又は少なくとも30の、完全染色体異数性がある。したがって、決定される異なる完全胎児染色体異数性の数は、解析用に選択される関心対象染色体の数に関連する。
【0162】
一実施形態において、上述のように母体テストサンプルにおける任意の1個又はそれ以上の異なる完全胎児染色体異数性の有無を決定することは、1〜22番染色体、X染色体及びY染色体から選択した1つの関心対象染色体の正規化断片配列を使用する。他の実施形態において、2個又はそれ以上の関心対象染色体を、1番,2番,3番,4番,5番,6番,7番,8番,9番,10番,11番,12番,13番,14番,15番,16番,17番,18番,19番,20番,21番,22番染色体、X染色体及びY染色体のうち任意の2つ又はそれ以上から選択する。一実施形態において、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象染色体は、1〜22番染色体、X染色体及びY染色体から選択した少なくとも20個の染色体を有し、この場合、少なくとも20の異なった完全胎児染色体異数性の有無を決定する。他の実施形態において、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象染色体は、1〜22番染色体、X染色体及びY染色体のすべてとし、またこの場合、1〜22番染色体、X染色体及びY染色体のすべてにおける完全胎児染色体異数性の有無を決定する。決定することができる異なる完全胎児染色体異数性としては、完全染色体トリソミー、完全染色体モノソミー、及び完全染色体ポリソミーがある。完全胎児染色体異数性の例としては、常染色体のうち任意の1個又はそれ以上におけるトリソミー、例えば2番トリソミー、8番トリソミー、9番トリソミー、21番トリソミー、13番トリソミー、16番トリソミー、18番トリソミー、22番トリソミーに限定することなく、性染色体のトリソミー、例えば47,XXY、47XXX、及び47XYY;性染色体のテトラソミー、例えば48,XXYY、48,XXXY、及び48XXXX、及び48XYYY;性染色体のペンタソミー、例えば49,XXXYY、49,XXXXY、及び49,XXXXX、及び49,XYYYY;及びXモノソミーがある。本発明方法によって決定できる他の完全胎児染色体異数性を以下に説明する。
【0163】
部分胎児染色体異数性の決定
他の実施形態において、本発明は、胎児及び母体の核酸分子を含む母体テストサンプルにおける任意の1つ又はそれ以上の異なった部分胎児染色体異数性の有無を決定する方法を提供する。本発明方法のステップとしては、(a)母体テストサンプルにおける胎児及び母体核酸の配列情報を取得するステップと、及び(b)配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれにおける配列タグ数を同定し、また任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれにおける正規化断片配列の配列タグ数を同定するステップとを有する。正規化断片配列は染色体の単独断片とするか、又は1個又はそれ以上の異なった染色体からの断片グループとすることができる。本発明方法は、さらに、ステップ(c)において、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれに対して同定した配列タグ数、及び各正規化断片配列に対して同定した配列タグ数を使用して、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれの単独断片ドースを計算し、及びステップ(d)で任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれにおける各単独断片ドースを任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の染色体断片それぞれの閾値と比較し、これにより母体テストサンプルにおける任意の1つ又はそれ以上の異なった部分胎児染色体異数性の有無を決定する。
【0164】
若干の実施形態において、ステップ(c)は、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上それぞれの単独断片ドースを、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれに対して同定した配列タグ数と、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれの正規化断片配列に対して同定した配列タグ数との比として計算する。
【0165】
他の実施形態において、ステップ(c)は、関心対象断片の配列タグ比の計算を、関心対象断片に対して得た配列タグ数を関心対象断片の長さに関連付けし、また関心対象断片の対応する正規化断片配列のタグ数を正規化断片配列の長さに関連付けし、また関心対象断片の断片ドースを、関心対象断片の配列タグ密度と正規化断片配列の配列タグ密度との比として計算することによって行う。すべての関心対象染色体それぞれに対してこの計算を繰り返す。ステップ(a)〜(d)を、異なる母体検体からのテストサンプルに対して繰り返すことができる。
【0166】
異なるサンプルセットの断片ドースを比較する手段は、テストサンプルにおける断片ドースを、適格サンプルセットにおける対応の断片ドースの平均に関連付ける正規化断片値(NSV:normalized segment value)を決定することによって得ることができる。NSVは、次式のように計算される。
【数4】
ここで、
は、それぞれ適格サンプルセットにおけるj番断片ドースに対する推定した平均及び標準偏差であり、x
ijはテストサンプルiにおける観測したj番断片ドースである。
【0167】
若干の実施形態において、少なくとも1つの部分胎児染色体異数性の有無を決定する。他の実施形態において、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10、15、20、25、又はそれ以上の、部分胎児染色体異数性の有無を1つのサンプル内で決定する。一実施形態において、1〜22番染色体、X染色体及びY染色体のうち任意の1個から選択した1個の関心対象断片は、1〜22番染色体、X染色体及びY染色体から選択する。他の実施形態において、1〜22番染色体、X染色体及びY染色体から選択した2個又はそれ以上の関心対象断片を、1番,2番,3番,4番,5番,6番,7番,8番,9番,10番,11番,12番,13番,14番,15番,16番,17番,18番,19番,20番,21番,22番染色体、X染色体及びY染色体のうち任意の2つ又はそれ以上から選択する。一実施形態において、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象断片は、1〜22番染色体、X染色体及びY染色体から選択した少なくとも1個、5個、10個、15個、20個、25個又はそれ以上の断片を有し、この場合、少なくとも1個、5個、10個、15個、20個、25個の異なった部分胎児染色体異数性の有無を決定する。決定することができる異なる部分胎児染色体異数性としては、部分重複、部分増殖、部分挿入、及び部分欠失がある。部分胎児染色体異数性の例としては、常染色体の部分モノソミー、及び部分トリソミーがある。常染色体の部分モノソミーとしては、1番染色体の部分モノソミー、4番染色体の部分モノソミー、5番染色体の部分モノソミー、7番染色体の部分モノソミー、11番染色体の部分モノソミー、15番染色体の部分モノソミー、17番染色体の部分モノソミー、18番染色体の部分モノソミー、及び22番染色体の部分モノソミー、がある。本発明方法によって決定できる他の部分胎児染色体異数性を以下に説明する。
【0168】
上述した実施形態の任意の1つにおいて、テストサンプルは、血液、血漿、血清、尿、及び唾液のサンプルから選択した母体サンプルとする。若干の実施形態において、母体サンプルは血漿サンプルとする。母体サンプルの核酸分子は、胎児及び母体の無細胞DNA分子の混合物である。核酸のシークエンシングは、本明細書のいたるところに記載したように、次世代シークエンシング(NGS)を使用して行うことができる。他の実施形態において、シークエンシングは、可逆色素ターミネーターによるシークエンシング・バイ・シンセシスを使用する大量並列シークエンシングとする。他の実施形態において、シークエンシングは、シークエンシング・バイ・リゲーションとする。さらに他の実施形態において、シークエンシングは単独分子シークエンシングとする。随意的に増幅ステップをシークエンシングに先立って行う。
【0169】
臨床的障害のCNV決定
出生異常の早期決定の他に、本明細書に記載する方法は、ゲノムにおける遺伝子配列の表現における何らかの異常性決定に適用することができる。
【0170】
がん患者からの血液における血漿及び血清DNAは測定可能な量の腫瘍DNAを含み、これら腫瘍DNAを回収し、腫瘍DNAの代理ソースとして使用することができ、また腫瘍には、遺伝子配列若しくは全体染色体においてさえも、異数性又は不適切な数に特徴がある。個体からのサンプルにおける所定配列、すなわち、関心対象配列の総量における相違決定を内科的疾患の診断に使用することができる。若干の実施形態において、本発明方法を使用して、がんを患っていることが疑われる又は既知の患者における染色体異数性の有無を決定することができる。さらに、本発明方法は、疾患状態の有無を決定する、病原体、例えばウイルスの核酸の有無を決定する、移植片対宿主拒絶反応(GVHD:graft versus host disease)に関連する染色体異常を決定する、及び法医学解析における個体の関与を決定するのにも使用することができる。
【0171】
本発明の実施形態は、異なる2つのゲノム由来の核酸混合物を含み、1個又はそれ以上の関心対象配列の総量に違いがあることが既知又は疑われるテストサンプルにおける関心対象配列、例えば、臨床関連配列のコピー数多型を評価する方法を提供する。核酸混合物は2つ又はそれ以上の細胞型に由来する。一実施形態において、核酸混合物は、内科的疾患、例えばがんを患っている検体から採取した正常細胞及びがん性細胞に由来する。
【0172】
がんの発症には、しばしば全体染色体の数における変動、すなわち完全染色体異数性、及び/又は染色体断片の数の変動、すなわち部分異数性を伴うことがよくあり、これらは染色体不安定性(CIN:chromosome instability)として知られているプロセスによって生ずる(Thoma et al.,Swiss Med Weekly 2011:141:w13170参照)。多くの固形腫瘍、例えば乳がんは、初期位置から数個の遺伝子異常の蓄積による転移として進行する(Sato et al., Cancer Res., 50:7184-7189 [1990]; Jongsma et.al., J Clin Pathol: Mol Path 55:305-309 [2002]参照)。このような遺伝子異常は、蓄積すると、増殖性優位、遺伝的不安定性、及び薬物抵抗性が急激に進展する付随能力、亢進する血管形成、タンパク質分解及び転移をもたらす。この遺伝子異常は、減退する「腫瘍抑制遺伝子」又は優勢に作用する腫瘍遺伝子のいずれかの影響をもたらす。ヘテロ接合性喪失(LOH:loss of heterozygosity)にいたる欠失及び遺伝子組換えは、突然変異腫瘍抑制対立遺伝子をカバーしないことによって、腫瘍進行に大きな役割を果たすと信じられている。
【0173】
cfDNAは、悪性腫瘍と診断された患者の血液循環内で見つかっており、悪性腫瘍としては、限定しないが、肺がん(Pathak et al., Clin Chem 52:1833-1842 {2006]参照)、前立腺がん(Schwartzenbach et al., Clin Cancer Res 15:1032-8 [2009]参照)、及び乳がん(Schwartzenbach et al., breast-cancer-research.com/content/11/5/R7 [2009]参照)で見つかっている。がん患者における循環cfDNAで決定することができるがんに関連するゲノム不安定性の同定は、潜在的な診断及び予測ツールである。一実施形態において、本発明方法は、がん、例えば、上皮性悪性腫、非上皮性悪性腫瘍、リンパ腫、白血病、胚細胞腫瘍、及び芽細胞腫に罹患していることが疑われる又は既知である検体に由来する核酸混合物を有するサンプルにおける関心対象CNVを評価する。一実施形態において、サンプルは末梢血液から採取(処理)した血漿サンプルとし、この血漿サンプルは正常細胞及びがん性細胞に由来するcfDNAの混合物を含む。他の実施形態において、CNVが存在するか否かを決定するのに必要な生物学的サンプルは、他の生体液、例えば、限定しないが、血清、汗、涙、痰、尿、精液、内耳液、リンパ液、唾液、脳脊髄、破出液、骨髄懸濁液、膣液、経頸管洗浄液、脳液、腹水、母乳、呼吸器官、腸管及び泌尿生殖器管の分泌物、羊水、及び白血球共生サンプルからの、又は組織生検、綿棒若しくは塗抹採取試料における、がん性細胞及び非がん性細胞の混合物に由来するものとする。
【0174】
関心対象配列は、がんの発症及び/又は進行に役割を果たすことが既知である、又は疑われる核酸配列である。関心対象配列の例としては、核酸配列、すなわち、完全染色体及び/又は染色体断片があり、これらは以下に説明するように、がん性細胞内で増幅又は欠失される。
【0175】
一実施形態において、本発明方法は、染色体増幅の有無を決定するのに使用することができる。若干の実施形態において、染色体増幅は、1個又はそれ以上の染色体の過剰生成である。他の実施形態において、染色体増幅は、1個又はそれ以上の染色体断片の過剰生成である。さらに他の実施形態において、染色体増幅は、2個又はそれ以上の染色体における2個又はそれ以上の断片の過剰生成である。染色体増幅は、1個又はそれ以上のがん遺伝子の過剰生成である。
【0176】
ヒトの固形腫瘍に関連して優勢的に活動する遺伝子は、過剰表現又は異形表現として効果を発揮する。遺伝子増幅は、遺伝子表現の上方調節に向かう共通のメカニズムである。細胞発生に関する研究からの証拠は、ヒトの乳がんの50%以上にもわたり大きな増幅を生ずることを示している。最も注目すべきは、17番染色体(17(17q21-q22))に位置するがん原遺伝子に対するヒトにおける上皮細胞増殖因子受容体2(HER2:human epidermal growth factor receptor 2)の増幅によって、細胞表面におけるHER2の過剰表現となり、乳がん及び他の悪性腫瘍における過剰なかつ無調節なシグナルを発生することになる(Park et al., Clinical Breast Cancer 8:392-401 [2008]参照)。様々ながん遺伝子が、ヒトの他の悪性腫瘍で増幅されることが分かってきた。ヒトの腫瘍における細胞性がん遺伝子の増幅は、前骨髄球性白血病細胞株HL60及び小細胞肺がん細胞株におけるc-myc、原発性神経芽細胞腫(ステージIII及びIV)、神経芽腫細胞株、網膜芽細胞腫細胞株、原発性腫瘍、小細胞肺がん株、及び腫瘍におけるN-myc、小細胞肺がん細胞株及び腫瘍におけるL-myc、急性骨髄性白血病及び、大腸がん細胞株におけるc-myb、表皮がん細胞及び原発性神経膠腫におけるc-erbb、肺、大腸、膀胱、及び直腸の原発性上皮性悪性腫瘍におけるc-K-ras-2、乳房上皮性悪性腫瘍細胞株におけるN-rasの増幅を有する(Varmus H., Ann Rev Genetics 18:553-612 (1984)[cited in Watson et al., Molecular Biology of the Gene(4th ed.;Benjamin/Cummings Publishing Co. 1987)]参照)。
【0177】
一実施形態において、本発明方法を使用して染色体欠失の有無を決定することができる。若干の実施形態において、染色体欠失は、1個又はそれ以上の全体染色体の喪失とする。他の実施形態において、染色体欠失は、1個の染色体における1個又はそれ以上の断片の喪失とする。さらに他の実施形態において、染色体欠失は、2個又はそれ以上の染色体における2個又はそれ以上の断片の喪失とする。染色体欠失は、1個又はそれ以上の腫瘍抑制遺伝子の喪失を含むものとすることができる。
【0178】
腫瘍抑制遺伝子を含む染色体欠失は、固形腫瘍の発症及び進行に重要な役割を果たす。染色体13q14に位置する網膜芽細胞腫抑制遺伝子(Rb-1)は最も強く特徴付けられた腫瘍抑制遺伝子である。Rb-1遺伝子産物である105kDa細胞核リンタンパク質は細胞サイクル調節に重要な役割を果たす(Howe et al., Proc Natl Acad Sci (USA) 87:5883-5887 [1990]参照)。Rbタンパク質の変化又は喪失表現は、点(突然)変異又は染色体欠失のいずれかによって、両方の対立遺伝子の不活性化により生ずる。Rb-i遺伝子の変化は、網膜芽細胞腫だけでなく、他の悪性腫瘍、例えば骨肉腫、小細胞肺がん(Rygaard et al., Cancer Res 50:5312-5317 [1990]参照)、及び乳がんでもあることが分かっている。制限断片長多型(RFLP:restriction fragment length polymorphism)研究は、このような腫瘍タイプは13qでしばしばヘテロ接合性を喪失しており、Rb-1の対立遺伝子のうち一方が全体的な染色体欠失によって喪失していることを示唆するものであることを示した(Bowcock et al., Am J Hum Genet, 46:12 [1990]参照)。重複、欠失並びに6番染色体及び他のパートナー染色体を巻き込む不均衡転座を含む、1番染色体の異常は、1番染色体の領域、とくに、1q21〜1q32及び1p11〜13が、骨髄増殖性新生物の慢性及び進行期双方に病因的に関連するがん遺伝子又は腫瘍抑制遺伝子を持っていることを示す(Caramazza et al., Eur J Hematol 84:191-200 [2010]参照)。骨髄増殖性新生物は5番染色体の欠失にも関連する。5番染色体の完全喪失又は間質的欠失は、骨髄異形成症候群(MDS:myelodysplastic syndromes)における最も共通する核型異常である。単独del(5q)/5qのMDS患者は、付加的核型欠陥を有する患者よりも見込みある予後診断を受け、付加的核型欠陥を有する患者は骨髄増殖性新生物(MPNs:myeloproliferative neoplasms)及び急性骨髄性白血病を発症する傾向がある。不均衡となる5番染色体欠失の頻度は、5qには造血幹細胞/前駆細胞(HSC/HPC)の成長制御に基本的な役割を持つ1個又はそれ以上の腫瘍抑制遺伝子があるという着想に至る。5q31及び5q32に中心がある共通欠失領域(CDR:commonly deleted regions)の細胞発生マッピングは、リボソーム・サブユニットRPS14、転写因子Egrl/Krox20、細胞骨格再構成タンパク質及びαカテニンを含む腫瘍抑制遺伝子候補を同定した(Eisenmann et al., Oncogene 28:3429-3441 [2009]参照)。新鮮腫瘍及び腫瘍細胞株の細胞発生及びアレロタイプ化の研究は、3p25,3p21〜22、3p21.3、3p12〜13及び3p14を含む3番染色体の幾つかの明確な領域からのアレル欠失(対立遺伝子欠損)が、肺、乳房、腎臓、頭頸部、卵巣、頸部、大腸、膵臓、食道、膀胱、及び他の臓器における深刻な広範囲の上皮がんに見られる、最も初期に最も頻発するゲノム以上である。幾つかの腫瘍抑制遺伝子が染色体の3p領域にマッピングされ、そして考えられることは、間質欠失又はプロモーター過剰メチル化が上皮性悪性腫瘍発症における3p又は3番染色体全体の喪失に先行して生ずるということである(Angeloni D.,Briefings Functional Genomics 6:19-39 [2007]参照)。ダウン症候群(DS)を持つ新生児及び子供は、先天性一過性白血病を呈することがよくあり、また急性骨髄性白血病及び急性リンパ芽球性白血病のリスクが増大する。約300個の遺伝子を有する21番染色体は、多くの構造的異常、例えば、転座、欠失、及び増幅が白血病、リンパ腫、及び固形腫瘍に含まれる。さらに、21番染色体に位置する遺伝子は腫瘍形成に重要な役割を果たすことが同定された。体細胞に関する並びに構造上の21番染色体異常は白血病に関連し、また21qに位置するRUNX1、TMPRSS2及びTFFを含む特定遺伝子が腫瘍形成に役割を果たす(Fonatsch C Gene Chromosomes Cancer 49:497-508 [2010]参照)。
【0179】
一実施形態において、本発明方法は、遺伝子増幅と腫瘍進行度との関連性を評価する手段を提供する。増幅及び/又は欠失とがんのステージ又は悪性度との相関性は予測の上で重要であり、なぜなら、このような情報は遺伝的腫瘍悪性度の定義に寄与し、この悪性度は最悪の予測が持たれるより進行した腫瘍での将来的病気進行をよりよく予測する。さらに、初期増幅及び/又は欠失に関する情報は、将来的病気進行の予測因子としてこれら事象を評価する上で有用である。本発明方法によって同定されるように、遺伝子増幅及び欠失は、他の既知のパラメータ、例えば、腫瘍悪性度、組織構造、Brd/Urdラベル付け指標、ホルモン状態、リンパ節の転移、腫瘍サイズ、生存期間、並びに疫学的及び生物統計学的研究から得られる他の腫瘍特性に関連付けることができる。例えば、本発明方法によってテストすべき腫瘍DNAとしては、異型過形成、非浸潤性乳管がん、ステージI〜IIIのがん、及び転移リンパ節があり、増幅及び欠失とステージとの関連性の同定を行うことができる。なされた関連性はできるだけ有効な治療介入を行うことができる。例えば、絶えず増幅される領域は過剰表現された遺伝子を含み、この遺伝子の生成物を治療的に攻撃することができる(例えば、成長因子受容体チロシン・キナーゼ、p185
HER2)。
【0180】
本発明方法を使用して、原発がんから他の部位に転移したがん細胞の核酸配列のコピー数多型を決定することによって、薬物抵抗性に関連する増幅及び/又は欠失事象同定することができる。遺伝子増幅及び/又は欠失が薬物抵抗性の急速な発展を可能にする核型不安定性の発現である場合、化学療法に感受性のある患者の腫瘍よりも、化学療法に耐性がある患者からの原発腫瘍により多くの増幅及び/又は欠失が予想される。例えば、特定遺伝子の増幅が薬物抵抗性の発達に寄与する場合、その遺伝子の周囲の領域が、化学療法に耐性がある患者の原発腫瘍ではなく、胸膜滲出からの腫瘍細胞で絶えず増幅されていることが予想される。遺伝子増幅及び/又は欠失と薬物耐性発達との間の関連性を発見することは、術後補助(アジュバント)療法が有益か否かの患者同定を可能にする。
【0181】
母体サンプルにおける完全及び/又は部分的な胎児染色体異数性の有無を決定することにつき説明したのと同様に、本発明方法を使用して、核酸、例えば、DNA又はcfDNAを含む任意の患者サンプル(母体サンプルではない患者サンプルを含む)における完全及び/又は部分的な染色体異数性の有無を決定することができる。患者サンプルは、本明細書のいたるところに記載したように、任意の生物学的サンプルとすることができる。好適には、サンプルは非侵襲的手順で採取する。例えば、サンプルは血液サンプル又は血液の血清及び血漿画分とすることができる。代案として、サンプルは尿サンプル又は糞便サンプルとすることができる。さらに他の実施形態において、サンプルは組織生検サンプルとする。すべてのケースで、サンプルは核酸、例えば、cfDNA又はゲノムDNAを含み、これらDNAを精製し、上述のような任意のNGSシークエンシングを使用してシークエンシングする。
【0182】
フォーメーションに関連する完全及び部分的染色体異数性、並びにがん進行の双方を本発明方法により決定することができる。
【0183】
患者サンプルにおける完全染色体異数性の決定
一実施形態において、本発明は、核酸分子を含む患者テストサンプルにおける異なった任意の1つ又はそれ以上の完全染色体異数性の有無を決定する方法を提供する。若干の実施形態において、本発明方法は、任意の1つ又はそれ以上の異なった完全染色体異数性の有無を決定する。本発明方法のステップとしては、(a)患者テストサンプルにおける患者核酸の配列情報を取得するステップと、及び(b)配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象染色体における配列タグ数を同定し、また任意の1個又はそれ以上の関心対象染色体における正規化染色体配列の配列タグ数を同定するステップとを有する。正規化染色体配列は単独染色体とするか、又は1〜22番染色体、X染色体及びY染色体から選択した染色体グループとすることができる。本発明方法は、さらに、ステップ(c)において、任意の1個又はそれ以上の関心対象染色体それぞれに対して同定した配列タグ数、及び各正規化染色体配列に対して同定した配列タグ数を使用して、任意の1個又はそれ以上の関心対象染色体それぞれの単独染色体ドースを計算し、及びステップ(d)で任意の1個又はそれ以上の関心対象染色体それぞれにおける各単独染色体ドースを任意の1個又はそれ以上の関心対象染色体それぞれの閾値と比較し、これにより患者テストサンプルにおける任意の1つ又はそれ以上の異なった完全患者異数性の有無を決定する。
【0184】
若干の実施形態において、ステップ(c)は、関心対象染色体それぞれの単独染色体ドースを、関心対象染色体それぞれに対して同定した配列タグ数と、関心対象染色体それぞれの正規化染色体に対して同定した配列タグ数との比として計算する。
【0185】
他の実施形態において、ステップ(c)は、関心対象染色体それぞれの単独染色体ドースを、関心対象染色体それぞれに対して同定した配列タグ数と、関心対象染色体それぞれの正規化染色体に対して同定した配列タグ数との比として計算する。他の実施形態において、ステップ(c)は、関心対象染色体の配列タグ比の計算を、関心対象染色体に対して得た配列タグ数を関心対象染色体の長さに関連付けし、また関心対象染色体の対応する正規化染色体配列のタグ数を正規化染色体配列の長さに関連付けし、また関心対象染色体の染色体ドースを、関心対象染色体の配列タグ密度と正規化配列の配列タグ密度との比として計算することによって行う。すべての関心対象染色体それぞれに対してこの計算を繰り返す。ステップ(a)〜(d)を、異なる患者からのテストサンプルに対して繰り返すことができる。
【0186】
1つ又はそれ以上の完全染色体異数性を、無細胞DNA分子を含むがん患者テストサンプルにおいて決定する実施形態の例は、(a)テストサンプルにおける患者の無細胞DNA分子の少なくとも一部をシークエンシングして配列情報を取得するステップと、(b)この配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の20個又はそれ以上の関心対象染色体それぞれの配列タグ数を同定し、またその20個又はそれ以上の関心対象染色体それぞれの正規化染色体の配列タグ数を同定するステップと、(c)その20個又はそれ以上の関心対象染色体それぞれに対して同定した配列タグ数及び各正規化染色体に対して同定した配列タグ数を使用して、その20個又はそれ以上の関心対象染色体それぞれの単独染色体ドースを計算するステップと、及び(d)その20個又はそれ以上の関心対象染色体それぞれの各単独染色体ドースを、20個又はそれ以上の関心対象染色体それぞれの閾値と比較し、またこれにより患者テストサンプルにおける任意の20又はそれ以上の異なった完全染色体異数性の有無を決定するステップとを有する。
【0187】
他の実施形態において、上述の患者テストサンプルにおける任意の1つ又はそれ以上の異なった完全染色体異数性の有無を決定する方法は、関心対象染色体におけるドースを決定する正規化断片配列を使用する。この場合、この方法は、(a)テストサンプルにおける核酸の配列情報を取得するステップと、(b)この配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の1つ又はそれ以上の関心対象染色体それぞれの配列タグ数を同定し、またその1つ又はそれ以上の関心対象染色体それぞれの正規化断片配列の配列タグ数を同定するステップとを有する。正規化断片配列は、染色体の単独断片とするか、又は任意の1個又はそれ以上の異なった染色体からの断片グループとすることができる。この方法は、さらに、(c)その任意の1個又はそれ以上の関心対象染色体それぞれに対して同定した配列タグ数及び各正規化断片配列に対して同定した配列タグ数を使用して、その任意の1個又はそれ以上の関心対象染色体それぞれの単独染色体ドースを計算するステップと、及び(d)その任意の1個又はそれ以上の関心対象染色体それぞれの各単独染色体ドースを、任意の1個又はそれ以上の関心対象染色体それぞれの閾値と比較し、またこれにより患者テストサンプルにおける任意の1つ又はそれ以上の異なった完全染色体異数性の有無を決定するステップとを有する。
【0188】
若干の実施形態において、ステップ(c)は、関心対象染色体それぞれの単独染色体ドースを、関心対象染色体それぞれに対して同定した配列タグ数と、関心対象染色体それぞれの正規化断片配列に対して同定した配列タグ数との比として計算する。
【0189】
他の実施形態において、ステップ(c)は、関心対象染色体の配列タグ比の計算を、関心対象染色体に対して得た配列タグ数を関心対象染色体の長さに関連付けし、また関心対象染色体の対応する正規化断片配列のタグ数を正規化断片配列の長さに関連付けし、また関心対象染色体の染色体ドースを、関心対象染色体の配列タグ密度と正規化断片配列の配列タグ密度との比として計算することによって行う。すべての関心対象染色体それぞれに対してこの計算を繰り返す。ステップ(a)〜(d)を、異なる患者からのテストサンプルに対して繰り返すことができる。
【0190】
異なるサンプルセットの染色体ドースを比較する手段は、テストサンプルにおける染色体ドースを、適格サンプルセットにおける対応の染色体ドースの平均に関連付ける正規化染色体値(NCV:normalized chromosome value)を決定することによって得ることができる。NCVは、次式のように計算される。
【数5】
ここで
は、それぞれ適格サンプルセットにおけるj番染色体ドースに対する推定した平均及び標準偏差であり、x
ijはテストサンプルiにおける観測したj番染色体ドースである。
【0191】
若干の実施形態において、少なくとも1つの完全染色体異数性の有無を決定する。他の実施形態において、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24の、完全染色体異数性の有無を1つのサンプル内で決定し、この場合、22の完全染色体異数性は、任意の1つ又はそれ以上の常染色体における完全染色体異数性に対応し、23番目の染色体異数性及び24番目の染色体異数性はX染色体及びY染色体の完全染色体異数性に対応する。異数性はトリソミー、テトラソミー、ペンタソミー及び他のポリソミーを含み、また完全染色体異数性の数は、異なる疾患、同一疾患における異なるステージで変化するため、本発明方法により決定することができる異なる完全染色体異数性の数としては、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、又はそれ以上の染色体異数性がある。腫瘍の系統的染色体解析によれば、がん細胞における染色体数は、低二倍性(46個の染色体よりも相当少ない)から4倍性及び4倍性を超える倍数性(200個の染色体)ものわたり広範囲に変化することがある(Storchova and Kuffer J Cell Sci 121:3859-3866 [2008]参照)。若干の実施形態において、本発明方法は、がん、例えば、大腸がんを患っていることが疑われる又は既知である患者からのサンプルにおいて、200以上もの染色体異数性の有無を決定する。染色体異数性としては、1個又はそれ以上の染色体喪失(低二倍性)、トリソミー、テトラソミー、ペンタソミー及び他のポリソミーを含む過剰完全染色体がある。染色体断片の過剰及び/又は喪失も、本明細書のいたるところに記載したように決定することができる。本発明方法は、本明細書のいたるところに記載したように、任意のがんを患っていることが疑われる又は既知である患者からのサンプルにおける異なる異数性の有無を決定するのに適用することができる。
【0192】
若干の実施形態において、1〜22番染色体、X染色体及びY染色体のうち任意の1つを、上述のような患者テストサンプルにおける任意の1つ又はそれ以上の異なった完全染色体異数性の有無を決定する際の関心対象染色体とすることができる。他の実施形態において、2個又はそれ以上の関心対象染色体を、1番,2番,3番,4番,5番,6番,7番,8番,9番,10番,11番,12番,13番,14番,15番,16番,17番,18番,19番,20番,21番,22番染色体、X染色体及びY染色体のうち任意の2つ又はそれ以上から選択する。一実施形態において、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象染色体は、1〜22番染色体、X染色体及びY染色体から選択した少なくとも20個の染色体を有し、この場合、少なくとも20の異なった完全染色体異数性の有無を決定する。他の実施形態において、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象染色体は、1〜22番染色体、X染色体及びY染色体のすべてとし、またこの場合、1〜22番染色体、X染色体及びY染色体のすべてにおける完全染色体異数性の有無を決定する。決定することができる異なる完全染色体異数性としては、1〜22番染色体、X染色体及びY染色体のうち任意の1個又はそれ以上における完全染色体モノソミー、X染色体及びY染色体のうち任意の1個又はそれ以上における完全染色体トリソミー、X染色体及びY染色体のうち任意の1個又はそれ以上における完全染色体テトラソミー、X染色体及びY染色体のうち任意の1個又はそれ以上における完全染色体ペンタソミー、及びX染色体及びY染色体のうち任意の1個又はそれ以上における完全染色体ポリソミーがある。
【0193】
患者サンプルにおける部分染色体異数性の決定
他の実施形態において、本発明は、核酸分子を含む患者テストサンプルにおける任意の1つ又はそれ以上の異なった部分染色体異数性の有無を決定する方法を提供する。本発明方法のステップとしては、(a)テストサンプルにおける患者核酸の配列情報を取得するステップと、及び(b)配列情報を使用して、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれにおける配列タグ数を同定し、また任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれにおける正規化断片配列の配列タグ数を同定するステップとを有する。正規化断片配列は染色体の単独断片とするか、又は1個又はそれ以上の異なった染色体からの断片グループとすることができる。本発明方法は、さらに、ステップ(c)において、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれに対して同定した配列タグ数、及び各正規化断片配列に対して同定した配列タグ数を使用して、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれの単独断片ドースを計算し、及びステップ(d)で任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれにおける各単独断片ドースを任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の染色体断片それぞれの閾値と比較し、これによりテストサンプルにおける任意の1つ又はそれ以上の異なった部分染色体異数性の有無を決定する。
【0194】
若干の実施形態において、ステップ(c)は、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上それぞれの単独断片ドースを、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれに対して同定した配列タグ数と、任意の1個又はそれ以上の関心対象染色体における任意の1個又はそれ以上の断片それぞれの正規化断片配列に対して同定した配列タグ数との比として計算する。
【0195】
他の実施形態において、ステップ(c)は、関心対象断片の配列タグ比の計算を、関心対象断片に対して得た配列タグ数を関心対象断片の長さに関連付けし、また関心対象断片の対応する正規化断片配列のタグ数を正規化断片配列の長さに関連付けし、また関心対象断片の断片ドースを、関心対象断片の配列タグ密度と正規化断片配列の配列タグ密度との比として計算することによって行う。すべての関心対象染色体それぞれに対してこの計算を繰り返す。ステップ(a)〜(d)を、異なる患者からのテストサンプルに対して繰り返すことができる。
【0196】
異なるサンプルセットの断片ドースを比較する手段は、テストサンプルにおける断片ドースを、適格サンプルセットにおける対応の断片ドースの平均に関連付ける正規化断片値(NSV:normalized segment value)を決定することによって得ることができる。NSVは、次式のように計算される。
【数6】
ここで、
は、それぞれ適格サンプルセットにおけるj番断片ドースに対する推定した平均及び標準偏差であり、x
ijはテストサンプルiにおける観測したj番断片ドースである。
【0197】
若干の実施形態において、少なくとも1つの部分染色体異数性の有無を決定する。他の実施形態において、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10、15、20、25、又はそれ以上の、部分染色体異数性の有無を1つのサンプル内で決定する。一実施形態において、1〜22番染色体、X染色体及びY染色体のうち任意の1個から選択した1個の関心対象断片は、1〜22番染色体、X染色体及びY染色体から選択する。他の実施形態において、1〜22番染色体、X染色体及びY染色体から選択した2個又はそれ以上の関心対象断片を、1番,2番,3番,4番,5番,6番,7番,8番,9番,10番,11番,12番,13番,14番,15番,16番,17番,18番,19番,20番,21番,22番染色体、X染色体及びY染色体のうち任意の2つ又はそれ以上から選択する。一実施形態において、1〜22番染色体、X染色体及びY染色体から選択した任意の1個又はそれ以上の関心対象断片は、1〜22番染色体、X染色体及びY染色体から選択した少なくとも1個、5個、10個、15個、20個、25個、50個、75個、100個又はそれ以上の断片を有し、この場合、少なくとも1個、5個、10個、15個、20個、25個、50個、75個、100個又はそれ以上の異なった部分染色体異数性の有無を決定する。決定することができる異なる部分染色体異数性としては、部分重複、部分増殖、部分挿入、及び部分欠失がある。
【0198】
患者における染色体異数性(部分又は完全)の有無を決定するのに使用できるサンプルは、本明細書のいたるところに記載したように、任意の生物学的サンプルとすることができる。患者における異数性決定に使用できるサンプルのタイプは、罹患していることが既知である又は疑われる患者の疾患のタイプに基づく。例えば、糞便サンプルをDNAソースとして選択し、結腸直腸がんに関連する異数性の有無を決定することができる。好適には、サンプルは非侵襲性手段によって採取した生物学的サンプル、例えば、血漿サンプルとする。本明細書のいたるところに記載したように、患者サンプルにおける核酸のシークエンシングは、次世代シークエンシング(NGS)を使用して実施することができる。若干の実施形態において、シークエンシングは、可逆色素ターミネーターによるシークエンシング・バイ・シンセシスを使用する大量並列シークエンシングとする。他の実施形態において、シークエンシングは、シークエンシング・バイ・リゲーションとする。さらに他の実施形態において、シークエンシングは単独分子シークエンシングとする。随意的に増幅ステップをシークエンシングに先立って行う。
【0199】
若干の実施形態において、異数性の有無は、本明細書のいたるところに記載したように、例えば、肺、乳房、腎臓、頭頸部、卵巣、頸部、大腸、膵臓、食道、膀胱、及び他の臓器のがん、並びに血液がんを罹患していることが疑われる患者において決定する。血液がんとしては、骨髄、血液、及びリンパ系のがんがあり、リンパ系は、リンパ節、リンパ管、へんとう腺、胸腺、脾臓、及び消化管のリンパ系組織を含む。骨髄からスタートする白血病及び骨髄腫、及びリンパ系からスタートするリンパ腫は、最も一般的な血液がんのタイプである。
【0200】
CNVを決定するための装置及びシステム
【0201】
シークエンシングデータの解析及びこの解析から導く診断は、一般的には種々のコンピュータアルゴリズム及びプログラムを使用して行う。一実施形態において、本発明は、テストサンプルにおける胎児異数性の有無を示す出力を発生するコンピュータプログラム製品を提供する。コンピュータ製品としては、プロセッサに対して胎児異数性を診断させるよう媒体に記録したロジックを有するコンピュータ可読媒体を含み、ロジックは、母体の生物学的サンプルからの核酸分子の少なくとも一部から、計算した染色体を含むシークエンシングデータを受け取る受取り手順、受取ったデータから胎児異数性を解析するコンピュータ支援ロジック、及びこの胎児異数性の有無又は種類を示す出力を発生する出力手順を有する。
【0202】
本発明方法は、任意のCNV、例えば、染色体異数性又は部分異数性を同定する方法を実行するコンピュータ可読命令を格納したコンピュータ可読媒体を使用して行うことができる。したがって、一実施形態において、本発明は、完全及び部分染色体異数性、例えば、胎児異数性を同定する方法を実施するコンピュータ可読命令を格納したコンピュータ可読媒体を提供する。
【0203】
本発明方法は、さらに、任意のCNV、例えば、染色体異数性又は部分異数性を同定する方法を実行するよう構成したコンピュータ処理システムを使用して実施することができる。したがって、本発明は、上述の方法を実施するよう構成したコンピュータ処理システムを提供する。一実施形態において、本発明装置は、サンプルにおける核酸分子の少なくとも一部をシークエンシングして、本明細書のいたるところに記載したように、配列情報のタイプを取得するよう構成したシークエンシング装置を有する。
【0204】
本発明を、以下の実施例で詳細に説明するが、これら実施例は、本発明の特許請求の範囲を限定することを意図しない。添付図面は、本発明の明細書と一体の部分として見なすべきである。以下の実施例は説明であって特許請求の範囲を限定するものではない。
【0205】
実験実施例
実施例1
サンプル処理及びDNA抽出
末梢血液サンプルを、妊娠第一期又は第二期にあり、胎児異数性のリスクがあると見なされた妊婦から採取した。血液採取前に各当事者からインフォームド・コンセントを得た。血液を採取してから、羊水穿刺又は絨毛膜絨毛のサンプリングを行った。核型解析は、絨毛膜絨毛又は羊水穿刺のサンプルを使用して行い、胎児の核型を確認した。
【0206】
各検体から採取した末梢血液はACD管に収集した。1個の血液サンプル管(6〜9mL/管)を、15mLの低速遠心管に移し入れた。血液を、ベックマン・コールター社のアレグラ6R遠心分離及びロータモデルGA3.8を使用して、2640rpm、4゜Cにして10分間にわたり、遠心分離した。無細胞血漿抽出のため、上澄みの血漿層を15mLの高速遠心分離管に移し入れ、ベックマン・コールター社のアヴァンチJ−E遠心分離器及びJA14ロータを使用して、16000xg、4゜Cにして10分間にわたり遠心分離した。2段階の遠心分離ステップを血液採取後72時間内に行った。無細胞血漿を−80゜Cで保存し、DNA抽出前に1回だけ解凍した
【0207】
無細胞DNAは、キアゲン(Qiagen)社のQIAmp DNA血液ミニキットを使用し、製造業者の取扱説明書に従って抽出した。5ミリリットルのバッファAL及び500μlのキアゲン社のプロテアーゼを4.5ml〜5mlの無細胞血漿に添加した。分量をリン酸緩衝生理食塩水(PBS:phosphate buffered saline)で10mlに調整した。複数カラムを使用して、ベックマン社のマイクロ遠心分離器において8,000RPMにして遠心分離することによって溶液から沈殿したcfDNAを分離した。カラムをAW1及びAW2バッファで洗浄し、cfDNAを55μlのヌクレアーゼのない水で溶離した。約3.5〜7ngのcfDNAを血漿サンプルから抽出した。
【0208】
すべてのシークエンシングライブラリを、母体血漿から抽出した約2ngの精製cfDNAから調製した。ライブラリ調製は、以下に説明するようなイルミナ(Illumina:登録商標)用のNEBNext(登録商標)DNAサンプルPrep DNA試薬セット1(Part No.E6000L; New England Biolabs, Ipswich, MA)の試薬を使用して行った。無細胞血漿DNAは元々フラグメント(断片)化されているため、噴霧又は超音波処理による更なるフラグメント化は血漿DNAサンプルでは行わない。40μlに含まれる約2ngの精製cfDNAのオーバーハング部分は、NEBNext(登録商標)末端修復モジュールによってリン酸化した平滑末端に転換させられ、この転換は、cfDNAを1.5mlの微量遠心管内で、NEBNext(登録商標)DNAサンプルPrep DNA試薬セット1に供給した、5μlの10Xリン酸化バッファ、2μlのデオキシヌクレオチド混合溶液(各dNTP毎に10mM)、1μlの1:5希釈DNAポリメラーゼ、1μlのT4DNAポリメラーゼ、及び1μlのT4ポリヌクレオチドキナーゼとともに15分間にわたり20゜Cで培養することによって行った。次にこの反応混合物を75゜Cで5分間にわたり培養することによって、酵素を加熱不活性化した。この混合物を4゜Cに冷却し、また平滑末端化したDNAのdA尾端化(tailing)を、クレノウフラグメント(3′〜5′エキソマイナス)(NEBNext(商標名)DNAサンプルPrep DNA試薬セット1)を含む10μlのdA尾端化マスター混合物を使用し、また15分間にわたり37゜Cで培養することによって行った。つぎに、クレノウフラグメントを加熱不活性化し、この不活性化は反応混合物を75゜Cで5分間にわたり培養することによって行った。クレノウフラグメントの不活性化後に、1μlのイルミナ・ゲノミック・アダプタ・オリゴ・ミックス(Part No. 1000521; Illumina Inc., Hayward, CA)1:5希釈液を使用して、イルミナアダプタ(Non-Index Y-Adaptors)を、NEBNext(登録商標)DNAサンプルPrep DNA試薬セット1に供給された4μlのT4DNAリガーゼを使用して反応混合物を15分間にわたり25゜Cで培養することによって、dA尾端化したDNAに結合させた。この混合物を4゜Cに冷却し、アダプタ結合したcfDNAを、未結合アダプタ、アダプタ二量体、及びエージェンコートAMPure XP PCRの精製システム(Part No. A63881; Beckman Coulter Genomics, Danvers, MA)に供給された磁気ビードを使用する他の試薬から精製した。PCRの18サイクルを行って、選択的にアダプタ結合cfDNAを富裕化し、この富裕化は、フュージョン(Phusion:登録商標)・ハイ−フィデリティ・マスター・ミックス(Finnzymes, Woburn, MA)及びアダプタに相補的なイルミナ社のPCRプライマー(Part No. 1000537及び1000537)を使用して行った。アダプタ結合DNAに対してPCR(98゜Cで30秒間;98゜Cで10秒間、65゜Cで30秒間及び72゜Cで30秒間を18サイクル、72゜Cで5分間の最終延長、及び4゜Cで保持)を加え、この場合、製造業者の取扱説明書に従って、NEBNext(登録商標)DNAサンプルPrep DNA試薬セット1に供給されたイルミナゲノミックPCRプライマー(Part No. 100537及び1000538)及びフュージョン・HF・PCRマスター・ミックスを使用した。増幅した生成物を、エージェンコートAMPure XP PCRの精製システム(Agencourt Bioscience Corporation, Berverly, MA)を使用して精製し、この精製は、製造業者の取扱説明書(www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdfで入手可能)に従って行った。精製した増幅生成物は、40μlのキアゲン・EB・バッファで溶離し、増幅したライブラリの濃度及びサイズ分布を、2100バイオアナライザ(Agilent technologies Inc., Santana Clara, CA)のためのアジレント・DNA・1000・キットを使用して解析した。
【0209】
イルミナ・ゲノム・アナライザIIを使用して増幅したDNAをシークエンシングし、36bpの単独末端リードを得た。ランダム配列情報の約30bpのみが特定ヒト染色体に属する配列を同定するのに必である。より長い配列は、より特別なターゲットを一意的に同定することができる。サンプルのシークエンシングが完了した際に、イルミナ社「シークエンサ制御ソフトウェア」は画像及び塩基コール(判定)ファイルを、イルミナ社「ゲノム・アナライザ・パイプライン」を実行するユニックスサーバーに転送した。イルミナ社「ジェラルド」プログラムを実行して配列を基準ヒトゲノムに整列させ、この基準ヒトゲノムはバイオテクノロジー情報ナショナルセンターによって規定されたhg18ゲノムNCBI36/hg18)に由来するものである(ワールドワイドウェブ上におけるURL;http://genome.ucsc.edu/cgi-bin/hgGateway?Org=Human&db=hg18&hgsid=166260105で入手可能である)。ゲノムに一意的に整列させる上述の手順から生成した配列データを、Linnuxオペレーティングシステムを実行するコンピュータ上で稼働するプログラム(c2c.pl)によってジェラルドの出力(export.txtファイル)から読んだ。塩基の不一致を有する配列アラインメントは、ゲノムに一意的に整列した場合にのみ整列カウントが可能であり、整列カウントに含める。同一の開始及び末端配位を有する(複製)配列アラインメントは排除した。
【0210】
約500万〜約1500万個の36bpタグ間で2個以下の不一致がヒトゲノムにマッピングされた。マッピングされたすべてのタグをカウントし、またテストサンプル及び適格サンプルの双方において染色体ドースの計算に含めた。塩基0から塩基2×10
6に、塩基10×10
6から塩基13×10
6に、塩基23×10
6からY染色体の末端にわたる領域は、特別に解析から排除し、これは男児又は女児のいずれかの胎児に由来するタグはY染色体のこれら領域にマッピングされるからである。同一ラン(稼働)でシークエンシングされたサンプル間で個別染色体にマッピングされる配列タグの総数に若干の変動が示され(染色体間変動)、相当大きな変動が異なるシークエンシングランで生じた(シークエンシングラン間変動)。
【0211】
実施例2
13番、18番、21番、X及びY染色体のドース及び分散
すべての染色体に対してマッピングした配列タグ数の染色体間変動及びシークエンシング間変動の程度を調べるため、48人のボランティアの妊婦検体における末梢血液に由来する血漿cfDNAを抽出し、実施例1に説明したようにシークエンシングし、以下のように解析した。各染色体にマッピングされた配列タグの総数(配列タグ密度)を決定した。代案として、マッピングした配列タグ数を染色体の長さに正規化し、配列タグ密度比を生成することができる。染色体長さに対する正規化は必要なステップではなく、単にヒトを解釈する上で簡素化するよう数の桁数を減少するために行うことができる。配列タグカウントを正規化するのに使用することができる染色体長さは、ワールドワイドウェブ上におけるgenome.ucsc.edu/goldenPath/stats.html#hg18で提供された長さとすることができる。
【0212】
各染色体に対して得られた配列タグ密度は、残りの染色体それぞれの配列タグ密度に関連付けして適格染色体ドースを導き出し、この適格染色体ドースは、関心対象染色体、例えば、21番染色体の配列タグ密度と、残りの染色体、すなわち、1〜20番染色体、22番染色体及びX染色体それぞれの配列タグ密度との比として計算した。表1は、適格サンプルのうち1つで決定された関心対象の13番、18番、21番染色体、X及びY染色体の計算した適格染色体ドースの例を示す。染色体ドースは、すべてのサンプルにおけるすべての染色体(Chr:chromosome)に対して決定し、また適格サンプルにおける関心対象の13番、18番、21番染色体、X及びY染色体の平均ドースを表2及び表3に示し、
図2〜6に示す。
図2〜6は、さらに、テストサンプルに対する染色体ドースも示す。適格サンプルにおける関心対象染色体それぞれの染色体ドースは、各関心対象染色体それぞれにおけるマッピングした配列タグ総数における、残りの染色体それぞれにおけるマッピングした配列タグ総数に対する変動の比較尺度を提供する。したがって、適格染色体ドースが、染色体又は染色体グループ、すなわち、関心対象染色体の変動に最も近似するサンプル内の変動を有し、また更なる統計的評価をする上で正規化値用の理想配列として供する正規化染色体を同定することができる。
図7及び8は、適格サンプルの母集団で決定した13番、18番、21番染色体、X及びY染色体の計算した平均染色体ドースを示す。
【0213】
若干の実施形態において、最良の正規化染色体は最も少ない変動ではなく、テストサンプルを適格サンプルから最も区別する適格ドースの分布を有するものであり、すなわち、最良の正規化染色体は最低変動ではなく、最大弁別可能性である。この弁別可能性は、適格サンプルにおける染色体ドースの変動及びドース分布に基づく。
【0214】
表2及び3は、変動性の評価尺度としての変動係数(CV)、及び18番、21番染色体、X染色体及びY染色体の弁別可能性の評価尺度としてのスチューデントt検定値を示し、t検定値が小さければ小さいほど、弁別可能性は大きくなる。13番染色体の弁別可能性は、適格サンプルの平均染色体ドースとT13テストサンプルのみの13番染色体ドースとの間の差と、適格ドースの平均の標準偏差の比として決定した。
【0215】
適格染色体ドースは、以下に説明するように、テストサンプルにおける異数性を同定するとき、閾値を決定する基礎として供する。
【0219】
正規化染色体、染色体ドース及び関心対象染色体それぞれの弁別可能性を使用して得られたT21,T13,T18及びターナー症候群の診断例を実施例3で説明する。
【0220】
実施例3
正規化染色体を使用する胎児異数性の診断
異数性を評価するため染色体ドースの使用を生物学的テストサンプルに適用する上で、母体血液テストサンプルをボランティアの妊婦から採取し、cfDNAを調製し、シークエンシングし、また実施例1及び2で記載したように解析した。
【0221】
21トリソミー
表4は、例としてのテストサンプル(#11403)における21番染色体の計算したドースを示す。T21異数性の陽性診断のための計算した閾値は適格(正常)サンプルの平均からの標準偏差の2倍より大きい値>(2標準偏差)に設定した。T21のための診断は、テストサンプルにおける染色体ドースが設定した閾値よりも大きいことに基づいて行った。14番及び15番染色体を個別の計算における正規化染色体として使用し、最も低い変動性を有する染色体、例えば14番染色体、又は最も大きい弁別可能性を有する染色体、例えば染色体15のうちいずれかを使用して異数性を同定することができる。計算した染色体ドースを使用して13例のT21サンプルを同定し、異数性サンプルがT21であることを核型によって確認した。
【0223】
18トリソミー
表5はテストサンプル(#11390)における18番染色体の計算したドースを示す。T18異数性陽性診断のための計算した閾値は適格(正常)サンプルの平均からの標準偏差の2倍(2標準偏差)に設定した。T18のための診断は、テストサンプルにおける染色体ドースが設定した閾値よりも大きいことに基づいて行った。8番染色体を正規化染色体として使用した。この場合、8番染色体が最も低い変動性を有し、又は最も大きい弁別可能性を有する染色体であった。染色体ドースを使用して8例のT18サンプルを同定し、T18であることを核型によって確認した。
【0224】
これらデータは、正規化染色体が最小変動性及び最大弁別可能性の双方を有することを示している。
【0226】
13トリソミー
表6はテストサンプル(#51236)における13番染色体の計算したドースを示す。T13異数性陽性診断のための計算した閾値は適格(正常)サンプルの平均からの標準偏差の2倍(2標準偏差)に設定した。T13のための診断は、テストサンプルにおける染色体ドースが設定した閾値よりも大きいことに基づいて行った。5番染色体又は3番、4番、5番及び6番染色体のグループを正規化染色体として使用して、13番染色体の染色体ドースを計算した。1例のT13サンプルを同定した。
【0228】
3〜6番染色体の配列タグ密度は、3〜6番染色体の平均タグカウント数である。
このデータは、3番、4番、5番及び6番染色体の組合せが、5番染色体よりも低い変動性、及び他の任意な染色体よりも最も大きい弁別可能性をもたらすものであることを示している。
【0229】
したがって、染色体グループを、染色体ドースを決定し、また異数性を同定するための正規化染色体として使用することができる。
【0230】
ターナー症候群(Xモノソミー)
表7は、テストサンプル(#51238)におけるX染色体及びY染色体の計算したドースを示す。ターナー症候群(Xモノソミー)陽性診断のための計算した閾値は、X染色体に対して適格(正常)サンプルの平均から(−2標準偏差)よりも小さく、Y染色体がない場合に対して適格(正常)サンプルの平均から(−2標準偏差)よりも小さく設定した。
【0232】
設定した閾値の染色体ドースよりも小さいX染色体ドースを有するサンプルを1個のX染色体よりも少ないものとして同定した。この同一サンプルは設定した閾値より少ないY染色体ドースを有すると決定したが、このことはそのサンプルがY染色体を持っていないことを示す。このようにして、X及びY染色体の染色体ドースの組合せを使用し、ターナー症候群(Xモノソミー)を同定した。したがって、本発明によれば、染色体のCNVを決定することができる。とくに、本発明によれば、母体血漿cfDNAを大量並列シークエンシングすることによって、またシークエンシングデータの統計学的解析のための正規化染色体同定によって、過剰及び不足表現の染色体異数性を決定することができる。本発明方法の感度及び信頼性は、妊娠第1期及び第2期における異数性テストを正確に行うことができる。
【0233】
実施例4
部分異数性の決定
配列ドース使用を、血液の血漿から調製したcfDNAの生物学的テストサンプルにおける部分異数性評価に適用し、実施例1に記載したようにシークエンシングした。サンプルは、染色体解析によって11番染色体における部分的欠失を有する検体に由来するものと確認した。部分異数性(11番染色体における部分的、すなわちq21〜q23の欠失)のためのシークエンシングデータ解析を、上述した実施例で染色体異数性につき説明したように行った。配列タグをテストサンプルにおける11番染色体にマッピングすることによって、染色体のqアームにおける塩基対81000082〜103000103間におけるタグカウント数の、適格サンプルにおける11番染色体の対応配列に関して得られたタグカウント数(データは示さない)に対する顕著な喪失を明らかにした。適格サンプルそれぞれにおける関心対象11番染色体にマッピングした配列タグ(810000082〜103000103bp)及び適格サンプルにおける全体ゲノムの20メガベース断片すべてにマッピングした配列タグ、すなわち適格配列タグ密度を使用して、すべての適格サンプルにおけるタグ密度比として適格配列ドースを決定した。平均配列ドース、標準偏差、及び変動係数を、全体ゲノムにおける20メガベース断片のすべてに対して計算し、最小の変動性を有する20メガベース配列は、5番染色体における同定された正規化配列(13000014〜33000033)であり(表8参照)、これを使用してテストサンプルにおける関心対象配列のドースを計算した(表9参照)。表8は、テストサンプルにおける11番染色体の関心対象配列(810000082〜103000103bp)のドースを示し、これは、関心対象配列にマッピングした配列タグと、同定した正規化配列にマッピングした配列タグとの比として計算した。
図10は、7個の適格サンプルにおける関心対象配列の配列ドース(○)、及びテストサンプルにおける対応配列の配列ドース(◇)を示す。平均を実線で示し、平均から5標準偏差に設定した部分異数性陽性診断のための計算した閾値を破線で示す。部分異数性診断は、設定した閾値より少ないテストサンプルの配列ドースに基づいて行った。テストサンプルは、染色体解析によって、11番染色体におけるq21〜q23欠失を有することを検証した。
【0234】
したがって、染色体異数性を同定することの他に、本発明方法を使用して部分異数性を同定することができる。
【0237】
実施例5
異数性検出の実証
実施例2及び3で説明し、また
図2〜6に示したサンプルで得られた配列データをさらに解析して、母体サンプルにおける異数性をうまく同定することに成功する本発明方法の感度を示した。21番、18番、13番染色体、X染色体及びY染色体のための正規化染色体ドースは、平均の標準偏差に対する分布(Y軸)として解析し、また
図11に示す。使用した正規化染色体は、基準(デノミネータ)として示した(X軸)。
【0238】
図11Aは、21番染色体の正規化染色体として14番染色体を使用するとき、異変なしサンプル(○)及び21トリソミーサンプル(T21;△)における21番染色体の平均からの標準偏差に対する染色体ドース分布を示す。
図11Bは、18番染色体の正規化染色体として8番染色体を使用するとき、異変なしサンプル(○)及び18トリソミーサンプル(T18;△)における18番染色体の平均からの標準偏差に対する染色体ドース分布を示す。
図11Cは、13番染色体の染色体ドースを決定するための正規化染色体として3番、4番、5番及び6番染色体のグループの平均配列タグ密度を使用し、異変なしサンプル(○)及び13トリソミーサンプル(T13;△)における13番染色体の平均からの標準偏差に対する染色体ドース分布を示す。
図11Dは、X染色体の正規化染色体として4番染色体を使用するとき、異変なし女児サンプル(○)、異変なし男児サンプル(△)及びXモノソミーサンプル(XO;+)におけるX染色体の平均からの標準偏差に対する染色体ドース分布を示す。
図11Eは、Y染色体の染色体ドースを決定するための正規化染色体として1〜22番染色体及びX染色体のグループの平均配列タグ密度を使用するとき、異変なし男児サンプル(○)、異変なし女児サンプル(△)、及びXモノソミーサンプル(+)におけるY染色体の平均からの標準偏差に対する染色体ドース分布を示す。
【0239】
データは、21トリソミー、18トリソミー、13トリソミーを異変なし(正常)サンプルから明確に区別されたことを示している。Xモノソミーサンプルは、異変なし女児サンプルのX染色体ドースよりも明らかに低いX染色体ドースを有し、また異変なし男児サンプルのY染色体ドースよりも明らかに低いY染色体ドースを有する(
図11E参照)ものとして容易に同定した。したがって、本発明方法は、母体血液サンプルにおける染色体異数性の有無を決定するのに感度よく、また特化したものである。
【0240】
実施例6
母体血液からの無細胞胎児DNAに関して大量並列DNAシークエンシングを使用する
胎児異常の決定:トレーニングセット1とは独立したテストセット1
研究は、米国13か所の臨床施設における有資格現地臨床研究員によって2009年4月から2010年7月までの間に、各機関での機関審査委員会(IRB:institutional review board)が承認したヒト検体プロトコルの下で行った。インフォームドコンセントの同意書を、研究関与前に各検体から取得した。プロトコルは、血液サンプル及び臨床データを得て非侵襲性妊婦遺伝子診断方法の発展を支援するよう策定した。18歳以上の妊婦を有資格者とした。臨床的にCVS又は羊水穿刺を受ける患者に対して、手順を実施する前に血液した採取し、また胎児の核型結果を収集した。末梢血液サンプル(管2個又は総量20mLまでの)をすべての検体からクエン酸デキストロース(ACD:acid citrate dextrose)管(ベクトン・ディッキンソン社製)内に引き込んだ。すべてのサンプルに対し、身元が判明しないようにし、匿名患者ID番号を割り当てた。血液サンプルを、研究用に設けた温度制御輸送容器内で一晩かけて研究室に輸送した。血液引込みとサンプル受入れとの間に経過した時間を、サンプル評価の一部として記録した。
【0241】
現地研究コーディネーターは、匿名患者ID番号を使用して、患者のその時の妊娠状況及び履歴に関連する臨床データを研究症例報告書(CRF:case report forms)に書き込んだ。侵襲性出生前手順によるサンプルからの胎児核型の細胞発生学的解析を、地方の研究所毎に行い、この結果も研究CRFに記録した。CRFで得られたすべてのデータを、研究所の臨床データベースに入力した。無細胞血漿を、血管穿刺後24〜48時間内に個別の血液管から2段階遠心分離処理を使用して得た。単独の血液管からの血漿でシークエンシング解析に十分である。無細胞DNAは、製造業者の取扱説明書に従ってQIAmpDNA血液ミニキット(キアゲン社)を使用して無細胞血漿から抽出した。無細胞DNAフラグメントは、長さが約170塩基対(bp)であることが分かっているため(Fan et al.,Clin Chem 56:1279-1286 [2010]参照)、シークエンシング前にはデータのフラグメント化は不要である。
【0242】
トレーニングセットのサンプルのために、cfDNAを、シークエンシングライブラリ調製及びイルミナ・ゲノム・アナライザIIX装置(http://www.illumina.com/参照)により標準製造業者プロトコルを使用するシークエンシングを行うよう、プログノシス・バイオサイエンシズ社(カリフォルニア州ラ・ジョラ)に送った。36塩基対の単独末端リードを得た。シークエンシングが完了した際に、すべての塩基コールを収集し解析する。テストセットのサンプルに対して、シークエンシングライブラリを調製し、シークエンシングを、イルミナ・ゲノム・アナライザIIX装置上で行った。シークエンシングライブラリの調製は以下のようにして行った。記載された全編プロトコルは、実質的にイルミナ社が規定した標準プロトコルであり、増幅ライブラリの精製においてのみイルミナ社プロトコルから異なる。イルミナ社プロトコルはゲル電気泳動を使用して増幅ライブラリを精製することを指示するが、本明細書に記載するプロトコルは、同一精製ステップに対して磁気ビードを使用する。母体血漿から抽出した精製cfDNAの約2ngを使用して、一次シークエンシングライブラリを調製し、この調製は、製造業者の指示書に従い、イルミナ社のNEBNext(商標名)DNAサンプルPrep DNA試薬セット1(Part No.E6000L; New England Biolabs, Ipswich, MA)を使用して行った。精製カラムの代わりにエージェンコート社の磁気ビード及び試薬を使用して行った、アダプタ結合生成物の最終精製を除くすべてのステップを、プロトコルに従って、ゲノムDNAライブラリのサンプル調製用NEBNext(商標名)試薬とともに行い、イルミナ(登録商標)GAIIを使用してシークエンシングした。NEBNext(商標名)プロトコルは、ほぼイルミナ社が規定したもの(grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf.で入手可能)に従う。
【0243】
40μlに含まれる約2ngの精製cfDNAフラグメントのオーバーハング(突出)部分を、NEBNext(登録商標)末端修復モジュールによってリン酸化した平滑末端に転換し、この転換は、40μlのcfDNAを、NEBNext(登録商標)DNAサンプルPrep DNA試薬セット1に供給された、5μlの10Xリン酸化バッファ、2μlのデオキシヌクレオチド混合溶液(各dNTP毎に10mM)、1μlの1:5希釈DNAポリメラーゼ、1μlのT4DNAポリメラーゼ、及び1μlのT4ポリヌクレオチドキナーゼとともに15分間にわたり20゜Cで培養することによって行った。サンプルを4゜Cに冷却し、また以下のように、QIAQuickPCR精製キット(キアゲン社カリフォルニア州バレンシア)に供給されたQIAQuickカラムを使用して精製した。50μl反応物を1.5mlの微量遠心管内に移し入れ、250μlのキアゲンバッファPBを添加した。この結果物300μlをQIAQuickカラム内に移し入れ、微量遠心管内において1分間にわたり13,000RPMで遠心分離した。カラムを750μlのキアゲンバッファPEで洗浄し、再び遠心分離した。残留エタノールを、5分間13,000RPMで追加遠心分離することによって除去した。DNAを、遠心分離によって39μlのキアゲンバッファEB内で溶離した。平滑末端化したDNAのdA尾端化(tailing)を、クレノウフラグメント(3′〜5′エキソマイナス)(NEBNext(商標名)DNAサンプルPrep DNA試薬セット1)を含む16μlのdA尾端化マスター混合物を使用し、また製造業者のNEBNext(登録商標)dA尾端化モジュールに従って、30分間にわたり37゜Cで培養することによって行った。サンプルを4゜Cに冷却し、以下のように、MinElute PCR精製キット(キアゲン社、カリフォルニア州バレンシア)に供給されたカラムを使用して精製した。つぎに、クレノウフラグメントを加熱不活性化し、この不活性化は反応混合物を75゜Cで5分間にわたり培養することによって行った。50μl反応物を1.5mlの微量遠心管内に移し入れ、250μlのキアゲンバッファPBを添加した。300μlをMinEluteカラムに移し入れ、微量遠心管内において1分間にわたり13,000RPMで遠心分離した。残留エタノールを、5分間13,000RPMで追加遠心分離することによって除去した。DNAを、遠心分離によって15μlのキアゲンバッファEB内で溶離した。10マイクロリットルのDNA溶離物を、1μlのイルミナ・ゲノミック・アダプタ・オリゴ・ミックス(Part No. 1000521)1:5希釈液、15μlの2Xクイック・リゲーション反応バッファ、及び4μlのT4DNAリガーゼとともに、NEBNext(登録商標)クイック・リゲーション・モジュールに従って、15分間25゜Cで培養した。サンプルを4゜Cに冷却し、以下のように、MinEluteカラムを使用して精製した。150ミリリットルのキアゲンバッファPEを30μlの反応物に添加し、全体量をMinEluteカラムに移し入れ、このカラムを微量遠心管内において13,000RPMで1分間にわたり遠心分離した。カラムを750μlのキアゲンバッファPEで洗浄し、また再び遠心分離した。残留エタノールを、5分間13,000RPMで追加遠心分離することによって除去した。DNAを、遠心分離によって28μlのキアゲンバッファEB内で溶離した。23マイクロリットルのアダプタ結合DNAに対して18サイクルのPCR(98゜Cで30秒間;98゜Cで10秒間、65゜Cで30秒間及び72゜Cで30秒間を18サイクル、72゜Cで5分間の最終延長、及び4゜Cで保持)を加え、この場合、製造業者の取扱説明書に従って、NEBNext(登録商標)DNAサンプルPrep DNA試薬セット1に供給されたイルミナゲノミックPCRプライマー(Part No. 100537及び1000538)及びフュージョン・HF・PCRマスター・ミックスを使用した。増幅した生成物を、エージェンコートAMPure XP PCRの精製システム(Agencourt Bioscience Corporation, Berverly, MA)を使用して精製し、この精製は、製造業者の取扱説明書(www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdfで入手可能)に従って行った。エージェンコートAMPure XP PCRの精製システムは、組込まれなかったdNTP、プライマー、プライマー二量体、塩、及び他の汚染物を除去し、また100bpより多い単位複製配列を回収する。精製した増幅生成物は、40μlのキアゲン・EB・バッファで溶離し、増幅したライブラリの濃度及びサイズ分布を、2100バイオアナライザ(Agilent technologies Inc., Santana Clara, CA)のためのアジレント・DNA・1000・キットを使用して解析した。トレーニングサンプルセット及びテストサンプルセットの双方に対して36塩基対の単独末端リードをシークエンシングした。
【0244】
データ解析及びサンプル分類
長さが36塩基の配列リードをUCSCデータベースから得られるヒトゲノムアセンブリ(http://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/参照)に整列させた。アラインメントは、アラインメント中に2つの塩基の不一致まで許容するボータイ(Bowtie)ショートリードアライナー(バージョン0.12.5)を利用して行った(Langmead et al., Genome Biol 10:R25 [2009]参照)。単独のゲノム位置にあいまいにマッピングされたリードのみを排除した。リードをマッピングしたゲノム位置をカウントし、また染色体ドースの計算に含めた(後の説明参照)。男児及び女児からの配列タグを区別することなしにマッピングしたY染色体の領域(とくに、塩基0から塩基2×10
6に、塩基10×10
6から塩基13×10
6に、塩基23×10
6からY染色体の末端にわたる領域)を解析から排除した。
【0245】
配列リードの染色体分布におけるラン内及びラン間シークエンシング変動は、マッピングされた配列部位分布における胎児異数性の効果を損なう恐れがある。このような変動を補正するため、染色体ドースは、所定正規化染色体配列で観測されたカウントに正規化された所定関心対象染色体に対するマッピング部位のカウントとして計算した。上述したように、正規化された染色体配列は、単独染色体又は染色体グループにより構成することができる。正規化染色体配列は、まず各常染色体を関心対象染色体を有するカウントの比における潜在的なデノミネーター(分母)としてみなし、トレーニングサンプルセットにおける関心対象の21番染色体、18番染色体、13番染色体及びX染色体の2倍体核型を有する、異変なしサンプル、すなわち適格サンプルであるサンプルの部分集合内で同定した。デノミネーター染色体、すなわちシークエンシングラン内及びシークエンシングラン間での染色体ドース変動を最少化した正規化染色体配列を選択した。各関心対象染色体は、明確な正規化染色体配列(デノミネーター)を有すると決定した(表10参照)。どの単独染色体も13番染色体の正規化染色体配列として同定されず、なぜならどの染色体も、サンプルにわたる13番染色体のドース変動を減少するとの決定はされなかったから、すなわち、13番染色体のNCV値の分散が十分減少されず、T13異数性を正確に同定できなかったからである。2〜6番染色体をランダムに選択し、13番染色体の挙動を擬態するグループとしての能力をテストした。2〜6番染色体のグループは、トレーニングサンプルにおける13番染色体のドース変動性をほぼ減少させることが分かり、したがって、13番染色体の正規化染色体配列として選択した。上述したように、Y染色体の染色体ドースにおける変動性は30より多く、これらから独立的に単独染色体を、Y染色体ドース決定における正規化染色体配列として使用した。2〜6番染色体のグループは、トレーニングサンプルにおけるY染色体のドース変動性をほぼ減少させることが分かり、したがって、Y染色体の正規化染色体配列として選択した。
【0246】
適格サンプルにおける関心対象染色体それぞれの染色体ドースは、関心対象染色体それぞれのマッピングした配列タグの総数の、残りの染色体それぞれのマッピングした配列タグの総数に対する変動の判断基準尺度をなす。したがって、適格染色体ドースは、サンプル間変動が関心対象染色体の変動に最も近似し、また更なる統計学的評価のための値を正規化する理想配列として供する染色体又は染色体グループ、すなわち正規化染色体配列を同定することができる。
【0247】
トレーニングセットにおけるすべてのサンプル、すなわち適格サンプル及び異変ありサンプルの染色体ドースも、以下に説明するようにテストサンプルにおいて異数性を同定するとき、閾値を決定する基礎として供し得る。
【0249】
テストセットにおける各サンプルの関心対象染色体それぞれに対して正規化値を決定し、異数性有無を決定するのに使用する。正規化値は染色体ドースとして計算することができ、この染色体ドースをさらに計算して正規化された染色体値(NCV)を生ずることができる。
【0250】
テストセットに対して、各サンプルにおける関心対象の21番染色体、18番染色体、13番染色体、X染色体及びY染色体それぞれの染色体ドースを計算した。上述の表10に記載したように、21番染色体の染色体ドースは、テストサンプルにおける21番染色体にマッピングされたテストサンプルにおけるタグ数と、9番染色体にマッピングされたテストサンプルにおけるタグ数との比として計算し、18番染色体の染色体ドースは、テストサンプルにおける18番染色体にマッピングされたテストサンプルにおけるタグ数と、8番染色体にマッピングされたテストサンプルにおけるタグ数との比として計算し、13番染色体の染色体ドースは、テストサンプルにおける13番染色体にマッピングされたテストサンプルにおけるタグ数と、2〜6番染色体にマッピングされたテストサンプルにおけるタグ数との比として計算し、X染色体の染色体ドースは、テストサンプルにおけるX染色体にマッピングされたテストサンプルにおけるタグ数と、6番染色体にマッピングされたテストサンプルにおけるタグ数との比として計算し、Y染色体の染色体ドースは、テストサンプルにおけるY染色体にマッピングされたテストサンプルにおけるタグ数と、2〜6番染色体にマッピングされたテストサンプルにおけるタグ数との比として計算した。
【0251】
正規化した染色体値
各テストサンプルにおける関心対象染色体それぞれの染色体ドース、トレーニングセットの適格サンプルにおいて決定した対応の染色体ドースの平均を使用し、正規化した染色体値(NCV:normalized chromosome value)は、次式で計算される。
【数7】
ここで、
は、それぞれトレーニングセットにおけるj番染色体ドースに対する推定した平均及び標準偏差であり、x
ijはサンプルiにおける観測したj番染色体ドースである。染色体ドースが正規分布しているとき、NCVはドースに対して統計学的にzスコアに等しい。異変なしサンプルからのNCVの変位値−変位値プロットにおける線形性からの大きな逸脱は観測されない。さらに、NCVの正規性標準検定は、正規性の帰無仮説を却下できない。
【0252】
テストセットに対して、各サンプルにおける関心対象の21番染色体、18番染色体、13番染色体、X染色体及びY染色体それぞれのNCVを計算した。安全かつ有効な分類スキームを保証するため、控えめの境界を異数性分類に選択した。常染色体の異数性状態を分類するため、染色体に異変あり(すなわち、その染色体が異数性である)と分類するのにNCV>4であることを必要とし、染色体に異変なしと分類するにはNCV<2.5であることを必要とした。NCVが2.5と4.0との間である常染色体を有するサンプルは「ノーコール」として分類した。
【0253】
この検定における性染色体の分類は、X染色体及びY染色体双方に対して、以下のようにNCVを逐次的に適用することによって行った。
1. 男児サンプルの平均からNCV Y>-2.0標準偏差である場合、このサンプルは男児(XY)であると分類した。
2. 男児サンプルの平均からNCV Y<-2.0標準偏差であり、かつ女児サンプルの平均からNCV X>-2.0標準偏差である場合、このサンプルは女児(XX)であると分類した。
3. 男児サンプルの平均からNCV Y<-2.0標準偏差であり、かつ女児サンプルの平均からNCV X<-3.0標準偏差である場合、このサンプルはXモノソミー、すなわちターナー症候群であると分類した。
4. NCVが上述の基準のいずれにも当てはまらない場合、そのサンプルは、性に関して「ノーコール」として分類した。
【0254】
結果
人口統計学的研究
合計1,014名の患者を2009年4月から2010年7月にかけて登録した。患者の人口統計学的データ、侵襲的処置タイプ及び核型結果を
に列挙する。研究参加者の平均年齢は35.6歳(17〜47歳の範囲)であり、妊娠期間は、6週間、1日から38週の間、1日の範囲にわたる(平均は15週と4日)。異常胎児染色体核型の全体的出現率は6.8%で、そのうちT21の事象は2.5%であった。単胎妊娠及び核型を有する946検体のうち、906例(96%)は、出生前手順前の胎児異数性に関して少なくとも1つの臨床的に認識される危険因子を示した。単一兆候としての高齢母体の例を除外したとしても、データは、現在のスクリーニングモダリティに対して極めて高い偽陽性率を示している。増大した項部透過性、滑液嚢水腫、又は他の構造的先天性異常の超音波による発見は、この統計群における異常核型を最も多く予測した。
【0255】
【表11】
*複数妊娠期間からの胎児結果を含む、**臨床医が評価及び報告した略記:
AMA=高齢母体年齢(Advanced Maternal Age),NT=項部透過性(nuchal translucency)
【0256】
この研究母集団で表される種々の民族的背景の分布も表11に示す。この研究における患者全体のうち63%がコーカサス系、17%がラテン系、6%がアジア系、5%が混血系、4%がアフリカ系アメリカ人であった。民族的多様性は、場所毎に大きく変動することが分かった。例えば、ある1つの場所では登録者の60%がラテン系、26%がコーカサス系の検体であり、3か所のクリニックはすべて同一の州に位置してラテン系の検体は登録されなかった。予期したとおり、この研究結果において異なった民族に対して顕著の相違は観察されなかった。
【0257】
トレーニングデータセット1
トレーニングセット研究は、2009年4月から2009年12月にかけて収集した435サンプルの初期逐次蓄積から71サンプルを選択した。この一次検体シリーズにおける異変あり胎児(異常核型)を孕んだすべての検体を、シークエンシング及びランダム選択のために、また適正サンプル及びデータを有する異変なし検体数に含めた。トレーニングセット患者の臨床的特性は、表11に示す全体的研究の人口統計に一致した。トレーニングセットのサンプルにおける妊娠期間は10週0日〜23週1日にわたる範囲であった。38を下回るCVS、32を下回る羊水穿刺1名の患者は、侵襲的手順タイプとして特定されなかった(異変なし核型46,XY)。患者の70%はコーカサス系、8.5%はラテン系、8.5%はアジア系、8.5%は混血系であった。シークエンシングした6サンプルは、トレーニング目的のためにこのセットから除外した。すなわち、双子を孕んだ検体(以下にさらに説明する)からの4サンプル、調製中に汚染されたT18を有する1サンプル、及び胎児核型69,XXXを有する1サンプルを除外し、他の65サンプルをトレーニングセットとして残した。
【0258】
特異配列部位(すなわち、ゲノムにおいて特異部位として同定されたタグ)の数は、トレーニングセット研究の初期段階における2.2Mから後期段階における13.7Mまで変化し、これは時とともにシークエンシング技術が改良されたことに起因する。特異部位におけるこの6倍もの染色体ドースにおけるいかなる潜在的シフトをもモニタリングするため、研究の開始時及び終了時に異なる異変なしサンプルで稼働した。最初の15の異変なしサンプルでの稼働に対して、平均特異部位数は3.8M、21番染色体及び18番染色体の平均染色体ドースは、それぞれ0.314及び0.528であった。最後の15の異変なしサンプルでの稼働に対して、平均特異部位数は10.7M、21番染色体及び18番染色体の平均染色体ドースは、それぞれ0.316及び0.529であった。トレーニングセット研究の時間経過における21番染色体及び18番染色体の平均染色体ドース間には統計学的相違はなかった。
【0259】
21番、18番及び13番染色体のトレーニングセットNCVを
図12に示す。
図12に示す結果は、2倍体NCVのおおよそ99%は、平均の±2.5標準偏差内に入る点で正常性の想定に一致する。この65サンプルセットのうち、T21を示す臨床的核型を有する8サンプルは、6〜20にわたるNCVを有していた。胎児T18を示す臨床的核型を有する4サンプルは、3.3〜12にわたるNCVを有し、胎児13トリソミー(T13)を示す臨床的核型を有する2サンプルは、2.6〜4にわたるNCVを有していた。異変ありサンプルにおけるNCVの分散は、個別サンプルにおける胎児cfDNAのパーセンテージに依存することに起因する。
【0260】
常染色体と同様に、性染色体の平均及び標準偏差をトレーニングセットで確立した。性染色体閾値は、トレーニングセットにおける男女の胎児を100%同定できた。
【0261】
テストデータセット1
トレーニングセットからの染色体ドースの平均及び標準偏差を確立した後、48サンプルのテストセットを、2010年1月から2010年6月にかけて収集した合計575サンプルから選択した。双子妊娠からのサンプルのうち1例を最終解析から除外し、テストセットとして47サンプルを残した。シークエンシング及び機器を操作するための職員が調製するサンプルは、臨床的核型情報が分からないようにした。妊娠期間の範囲はトレーニングセットで見たのと同様であった(表11参照)。侵襲性手順の58%はCVSであり、手順に関する全体的人口統計よりも高いが、トレーニングセットと同様であった。検体の50%はコーカサス系、27%はラテン系、10.4%はアジア系、6.3%はアフリカ系アメリカ人であった。
【0262】
テストセットにおいて、特異配列タグ数は、約13M〜26Mにわたり変動した。異変なしサンプルに対して、21番染色体及び18番染色体の染色体ドースは、それぞれ0.313及び0.527であった。21番、18番及び13番染色体のテストセットNCVを
図13に示し、分類を表12に示す。
【0263】
【表12】
*MXは、Y染色体の確証がないX染色体におけるモノソミーである。
【0264】
テストセットにおいて、胎児T21を示した臨床的核型を有する13/13検体は、5〜14の範囲のNCVを有すると正確に同定された。胎児T18を示した核型を有する8/8検体は、8.5〜22の範囲のNCVを有すると正確に同定された。このテストセットにおいてT13として分類された核型を有する1つのサンプルは約3のNCVを有してノーコールとして分類された。
【0265】
テストデータセットに関して、すべての男児サンプルが、複雑核型、46,XY+マーカー染色体(核型によっては同定不能)を有するサンプルを含めて正確に同定された(表3参照)。20女児サンプルのうち19サンプルが正確に同定され、また1女児サンプルがノーコールとして分類された。テストセットにおける核型45,Xを有する3サンプルに関して、3個のうち2サンプルがXモノソミーとして正確に同定され、1サンプルがノーコールとして分類された(表12参照)。
【0266】
双子
トレーニングセットに関して初期に選択した4サンプル及びテストセットにおける1サンプルは、双子妊娠からのものであった。ここで使用される閾値は、双子妊娠の設定で期待されるcfDNA量が異なることによって混乱を生ずるおそれがある。トレーニングセットにおいて、双子サンプルのうち1サンプルからの核型は、単一絨毛膜性の47,XY+21であった。第2の双子サンプルは二卵性双生児であり、羊水穿刺を各胎児に対して個別に行った。この双子妊娠において、二卵性双生児のうち一方は47,XY+21の核型であり、他方は正常な核型46,XXであった。これらケース双方において、無細胞分類は、サンプルをT21と分類した上述の方法に基づいて行った。トレーニングセットにおける他の2つの双子妊娠は、T21に関して異変なしとして正確に分類された(すべての双子は21番染色体に関して2倍体の核型を示した)。テストセットにおける双子サンプルに関して、核型は双子B(46,XX)に対してのみ確立し、アルゴリズムはT21に関して異変なしと正確に分類した。
【0267】
結論
データは、大量並列シークエンシングを使用して妊婦の血液から複数の異常胎児核型を決定することができることを示す。これらデータは、独立したテストセットデータを使用して21トリソミー及び18トリソミーを有するサンプルの100%正確な分類を同定できることを実証している。異常性染色体核型を有する胎児の場合でも、本発明方法のアルゴリズムによって、不正確に分類されるサンプルはなかった。重要なことに、アルゴリズムは、少なくとも一方が異変ありの胎児である双子妊娠の2セットで、T21の存在を決定するのによく機能し、これは従来ではみられなかったことである。さらに、この研究は、複数のセンターからの様々な配列サンプルを審査し、商業的臨床的設定で直面しそうな異常核型の範囲のみならず、共通トリソミーの異変がない妊娠を正確に分類し、出生前スクリーニングで今も残存する容認できない高い疑陽性率に対処する意義を示している。データは、将来この方法を用いる大きな能力に価値ある予想を与える。示した特異ゲノム部位の部分集合解析は分散一貫ポアソン計数統計で増加する。
【0268】
大量並列シークエンシングを使用して、母体血漿から胎児異常を非侵襲的出生前決定の感度が計数統計によってのみ制限されることを実証したファン及びクウェイク氏の発見に基づく(Fan and Quake, PLos One 5, e10439 [2010])。シークエンシング情報は全体ゲノムにわたって収集したため、この方法は、任意の異数性又は挿入及び欠失を含む他のコピー数多型を決定することができる。シークエンシングデータを500キロベースのビンで解析したとき、サンプルのうち1つからの核型は11番染色体にq21とq23との間で小さい欠失を有し、これをq21から開始する25Mb領域におけるタグの相対数の10%減少として観測された。さらに、トレーニングセットにおいて、3サンプルが細胞発生解析におけるモザイク現象に起因する複雑性染色体核型を有していた。これら核型は、i)47,XXX[9]/45,X[6]、ii)45,X[3]/46,XY[17]、及び
iii)47,XXX[13]/45,X[7]であった。若干のXYを含む細胞を示したサンプルii)はXYと正確に分類された。サンプルi(CVS処置からの)及びiii(羊水穿刺からの)双方は細胞発生解析によるXXX及びX細胞の混合(モザイク型ターナー症候群に一致する)を示し、これらはそれぞれノーコール及びXモノソミーとして分類された。
【0269】
アルゴリズムを検査するにあたり、他の興味深いデータポイントは、テストセットからの1サンプルに関して、21番染色体における-5と-6との間にNCVを持つことを観測した(
図13参照)。このサンプルは細胞発生によって21番染色体に2倍体性を示すが、核型は9番染色体に部分的三倍体性、47,XX+9[9]/46XX[6]を有するモザイク現象を示した。9番染色体はデノミネーターに使用して21番染色体の染色体ドースを決定するため(表10参照)、このことは全体NCV値を低下させる。このサンプルにおいて胎児9番トリソミーを決定するのに正規化染色体を使用する能力は、以下の実施例7で得られる結果によって証明される。
【0270】
この方法の感度に関するファン氏らの結論は、利用するアルゴリズムがシークエンシング方法によってもたらされる任意なランダム的又は系統的なバイアスを構成する場合のみ正確である。シークエンシングデータが適正に正規化されていない場合、結果としての解析は計数統計に劣る。チュー氏らは、最近の論文では、大量並列シークエンシング方法を使用する18番及び13番染色体の測定は不正確であると記述し、またこの方法をT18及びT13の決定に適用するにはより詳しいリサーチが必要であると結論付けた(Chiu et al., BMJ 342:c7401 [2011])。チュー氏らの論文で使用される方法は、単に関心対象染色体(彼らのケースでは21番染色体)における、シークエンシングランでタグ総数によって正規化された配列タグ数を使用するものである。このアプローチの課題は、各染色体におけるタグの分布は、シークエンシングラン毎に変動するおそれがあり、したがって、異数性決定に関する測定基準の全体変動を増大する点にある。チュー氏のアルゴリズムによる結果を本発明の実施例に使用した染色体ドースに比較するため、21番及び18番染色体のテストデータを、
図14に示すようなチュー氏らが推奨する方法を使用して、再解析した。全体的には、21番及び18番染色体それぞれのNCV範囲の比較、並びに異数性分類に対して4.0のNCV閾値を利用して本発明によるテストセットから正確に同定した10/13のT21サンプル5/8のT18サンプルの決定率低下を観測した。
【0271】
エーリッヒ氏らもT21にのみ注目し、チュー氏らと同一のアルゴリズムを使用した(Ehrich et al., Am J Obstet Gynecol 204:205 el-e11 [2011])。さらに、彼らのテストセットzスコア測定基準における外部基準データ、すなわち、トレーニングセットからのずれを観測した後、彼らはテストセットを再トレーニングして、分類境界を規定した。原理的にはこのアプローチは実現可能であるが、実際的には、どの位多くのサンプルがトレーニングを必要とするか、及び分類境界が正確であるという確証を得るのにどの位の頻度で再トレーニングをする必要があるかを決定することに難題がある。この問題を軽減する1つの方法は、各シークエンシングラン毎に、ベースラインを測定し、また定量的な挙動を較正する制御を設けることである。
【0272】
本発明方法を使用して得られたデータは、大量並列シークエンシングは染色体カウントデータを正規化するアルゴリズムが最適化されるとき、妊婦の血漿から複数の胎児染色体異常を決定できることを示している。定量化のための本発明方法は、シークエンシングラン相互間のランダムな及び系統的な変動を最小化するだけでなく、全体ゲノムにわたる、異数性、とくに、T21及びT18を効果的に分類することができる。より多くのサンプル収集がT13決定のためのアルゴリズムをテストするのに必要となる。この目的のため、本発明の診断精度をさらに実証する、有望な、手探りの、複数場所での臨床的研究を行っている。
【0273】
実施例7
個別テストサンプルのすべての染色体における少なくとも5つの異なった染色体異数性の
有無決定
1組の母体テストサンプル(テストセット1;実施例6)それぞれにおける任意の染色体異数性の有無を決定する本発明方法の能力を実証するため、系統的に決定した正規化染色体配列を、トレーニングセット(トレーニングセット1;実施例6)の異変なしサンプルにおいて同定し、各テストサンプルにおけるすべての染色体の染色体ドースを計算するのに使用した。テストセット及びトレーニングセットの各サンプルにおける任意の1つ又はそれ以上の異なる完全胎児染色体異数性の有無決定は、各個別サンプルに対する単独シークエンシングランから得たシークエンシング情報によって行った。
【0274】
実施例6で説明したトレーニングセットの各サンプルにおける各染色体に対して同定された染色体密度、すなわち配列タグ数を使用して、単独染色体又は染色体グループよりなる系統的に決定した正規化染色体配列を、1〜22染色体、X染色体及びY染色体それぞの単独染色体ドースを計算することによって決定した。1〜22染色体、X染色体及びY染色体それぞれの系統的に決定した正規化染色体配列は、あり得るすべての染色体の組合せを分子として使用し、各染色体の染色体ドースを系統的に計算することによって決定した。例えば、関心対象染色体としての21番染色体の染色体ドースは、(i)21番染色体(関心対象染色体)に得られた配列タグ数と、(ii)残りの染色体それぞれに得られた配列タグ数との比、及び残りの染色体(21番染色体を除外する)、すなわち、1,2,3,4,5等から20,21,22,X,及びYにいたる染色体のあり得るすべての組合せ、例えば、1+2,1+3,1+4,1+5等から1+20,1+22,1+X,及び1+Y;,1+2+3,1+2+4,1+2+5等から1+2+20,1+2+22,1+2+X,及び1+2+Y;1+3+4,1+3+5,1+3+6等から1+3+20,1+3+22,1+3+X,及び1+3+Y;1+2+3+4,1+2+3+5,1+2+3+6等から1+2+3+20,1+2+3+22,1+2+3+X,及び1+2+3+Y等々に得られたタグ数の合計として計算し、染色体1〜20番染色体、22番染色体、X染色体及びY染色体のすべてのあり得る組合せを、正規化染色体配列(分子)として使用し、トレーニングセットにおける適格サンプルそれぞれにおける各関心対象染色体のあり得るすべての染色体ドースを決定した。トレーニングサンプルのすべてにおける染色体ドースは21番染色体と同様にして決定し、21番染色体に対する系統的に決定した正規化染色体配列は、すべてのトレーニングサンプルにわたり変動性が最も小さい21番染色体ドースとなる、単独染色体又は染色体グループとして決定した。同一解析を繰り返し、13番染色体、18番染色体、X染色体及びY染色体を含む残りの染色体それぞれの系統的に決定した正規化染色体配列として供する単独染色体又は染色体の組合せを決定した、すなわち、あり得るすべての染色体の組合せを使用して、すべてのトレーニングサンプルにおける他のすべての関心対象染色体、1〜12番染色体、14〜17番染色体、19〜20番染色体、22番染色体、X染色体及びY染色体の正規化配列(単独染色体又は染色体グループ)を決定した。このようにして、すべての染色体を関心対象染色体として処理し、系統的に決定した正規化配列を、トレーニングセットの異変なしサンプルそれぞれにおけるすべての染色体それぞれに対して決定した。表13は、1〜22番染色体、X染色体及びY染色体それぞれの系統的に決定した正規化配列として同定した単独染色体又は染色体グループを示す。表13から明らかなように、関心対象である幾つかの染色体に対しては、系統的に決定した正規化染色体配列は単独染色体であると決定し(例えば、4番染色体が関心対象染色体であるとき)、他の関心対象染色体に対しては、系統的に決定した正規化染色体配列は染色体グループであると決定した(例えば、21番染色体が関心対象染色体であるとき)。
【0276】
ずべての染色体それぞれに対して決定した系統的に決定した正規化染色体配列の平均、標準偏差(SD)、及び変動係数(CV)を表14に示す。
【表14】
aトリソミーを含む
b女児
【0277】
CVの値によって反映されたすべてのトレーニングサンプルにわたる染色体ドースの分散は、大きな信号対ノイズ比及びダイナミックレンジを得る系統的に決定した染色体配列の使用が、以下に示すように異数性決定を高い感度及び高い特異度で行うことができることを実証する。
【0278】
本発明方法の感度及び特異度を実証するため、関心対象となる1〜22番染色体、X染色体及びY染色体すべての染色体ドースを、トレーニングセットの各サンプルにおいて、また実施例5で説明したテストセットのすべてのサンプルそれぞれにおいて、上述の表13に示した対応する系統的に決定した正規化染色体配列を使用して決定した。
【0279】
各関心対象染色体の系統的に決定した正規化染色体配列を使用して、何らかの染色体異数性有無をトレーニングセットにおける各サンプルにおいて、及びテストサンプルそれぞれにおいて決定した、すなわち、各サンプルが1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22番染色体、X染色体及びY染色体の完全胎児染色体異数性を含んでいるか否かを決定した。配列情報、すなわち、配列タグ数は、トレーニングセットにおける各サンプルにおける、及びテストサンプルそれぞれにおけるすべての染色体に関して取得し、トレーニングサンプル及びテストサンプルのそれぞれにおける各染色体の単独染色体ドースを、上述したように、トレーニングセットで決定したのに対応する系統的に決定した正規化染色体配列(表13参照)に関して得た配列タグ数を使用して計算した。系統的に決定した正規化染色体配列用に各トレーニングサンプルにおいて得た配列タグ数を使用して、各トレーニングサンプルにおける各染色体の染色体ドースを決定し、また系統的に決定した正規化染色体配列用に各テストサンプルにおいて得た配列タグ数を使用して、各テストサンプルにおける各染色体の染色体ドースを決定した。安全で効果的な異数性分類を確実にするため、実施例6で説明したのと同一の控えめな境界を選択した。
【0280】
トレーニングセット結果
系統的に決定した正規化染色体配列を使用してのトレーニングセットのサンプルにおける21番、18番及び13番染色体の染色体ドースのプロットを
図15に示す。系統的に決定した正規化染色体配列、すなわち、4+14+16+20+22番の染色体グループを使用するとき、T21を示す臨床的核型を有する8個のサンプルは5.4〜21.5の間のNCVを有していた。系統的に決定した正規化染色体配列、すなわち、2+3+5+7番の染色体グループを使用するとき、T18を示す臨床的核型を有する4個のサンプルは3.3〜15.3の間のNCVを有していた。系統的に決定した正規化染色体配列、すなわち、4+5番の染色体グループを使用するとき、T13を示す臨床的核型を有する2個のサンプルは8.0及び12.4のNCVを有していた。トレーニングセットにおけるT21を有するサンプルは、21番染色体データの最後の8サンプル(○)として示し、トレーニングセットにおけるT18を有するサンプルは、18番染色体データの最後の4サンプル(△)として示し、トレーニングセットにおけるT13を有するサンプルは、13番染色体データの最後の2サンプル(□)として示す。
【0281】
これらデータは、正規化染色体配列を使用して異なる完全胎児染色体異常を高い確度で決定し、また正確に分類できることを示している。異変あり核型を有するすべてのサンプルは3より大きいNCVを有するため、これらサンプルが異変なしの分布の一部である確率は約0.1%よりも低い。
【0282】
常染色体と同様に、X染色体用の系統的に決定した正規化染色体配列(すなわち、4+8番染色体)を使用するとき、またY染色体用の系統的に決定した正規化染色体配列(すなわち、4+6番染色体)を使用するとき、トレーニングセットにおけるすべての男児及び女児の胎児が正確に同定された。さらに、Xモノソミーの5サンプルすべてを同定した。
図18Aは、トレーニングセットにおける各サンプルそれぞれにおける、X染色体に対して決定したNCV(X軸)、及びY染色体に対して決定したNCV(Y軸)をプロットしたものを示す。核型がXモノソミーであるサンプルすべては、−4.83未満のNCV値を有する。45,X核型(フル又はモザイク)に一致する核型を有するそれらXモノソミーのサンプルは、予想どおりゼロに近いYのNCVを有する。女児サンプルはX及びY双方ともNCV=0の周りに集まる。
【0283】
テストセット結果
関連の系統的に決定した正規化染色体配列を使用するテストサンプルにおける21番、18番及び13番染色体の染色体ドースのプロットを
図16に示す。系統的に決定した正規化染色体配列(すなわち、4+14+16+20+22番の染色体グループ)を使用するとき、T21を示す臨床的核型を有する13個のサンプルのうち13個は7.2〜16.3の間のNCVで同定された。系統的に決定した正規化染色体配列(すなわち、2+3+5+7番の染色体グループを使用するとき)、T18を示す臨床的核型を有する8個のサンプルすべては12.7〜30.7の間のNCVで同定された。系統的に決定した正規化染色体配列(すなわち、4+5番の染色体グループ)を使用するとき、T13を示す臨床的核型を有する1個のみのサンプルは8.6のNCVで同定された。テストセットにおけるT21を有するサンプルは、21番染色体データの最後の13サンプル(○)として示し、テストセットにおけるT18を有するサンプルは、18番染色体データの最後の8サンプル(△)として示し、テストセットにおけるT13を有するサンプルは、13番染色体データの最後の1サンプル(□)として示す。
【0284】
これらデータは、系統的に決定した正規化染色体配列を使用して異なる完全胎児染色体異常を高い確度で決定し、また正確に分類できることを示している。トレーニングセットと同様に、異変あり核型を有するすべてのサンプルは7より大きいNCVを有し、このことはこれらサンプルが異変なしの分布の一部である確率は無限小的に低いことを示す(
図16参照)。
【0285】
常染色体と同様に、X染色体用の系統的に決定した正規化染色体配列(すなわち、4+8番染色体)を使用するとき、またY染色体用の系統的に決定した正規化染色体配列(すなわち、4+6番染色体)を使用するとき、テストセットにおけるすべての男児及び女児の胎児が正確に同定された。さらに、Xモノソミーの3サンプルすべてを同定した。
図18Bは、テストセットにおける各サンプルにおける、X染色体に対して決定したNCV(X軸)、及びY染色体に対して決定したNCV(Y軸)をプロットしたものを示す。
【0286】
上述したように、本発明方法によれば、各サンプルにおける1〜22番染色体、X染色体及びY染色体それぞれの完全又は部分的な染色体異数性の有無を決定することができる。T13,T18,T21及びXモノソミーの完全染色体異数性を決定する他に、本発明方法はテストサンプルのうち1つのサンプルで9番染色体トリソミーの存在を決定した。系統的に決定した正規化染色体配列(すなわち、3+4+8+10+17+19+20+22番染色体グループ)を使用するとき、関心対象の9番染色体に対して、14.4のNCVを有するサンプルを同定した(
図17参照)。このサンプルは、21番染色体(実施例6ではこの21番染色体に対して9番染色体が正規化染色体配列として使用された)のドースが異常に低く計算されることで9番染色体の異数性が疑われた実施例6のテストサンプルに対応するものであった。
【0287】
このデータは、T21,T13,T18,T9及びXモノソミーを示す臨床的核型を有するサンプルの100%が正確に同定されたことを示す。
図19は、47個のテストサンプルそれぞれにおける1〜22番染色体それぞれのNCVのプロットを示す。NCVの中央値はゼロに正規化した。データは、本発明方法(系統的に決定した正規化染色体配列の使用を含む)が、このテストセットに存在した5タイプの染色体異数性すべての存在を100%の感度及び100%の特異度で決定したことを示し、また本発明方法は、いかなるサンプルにおいても、1〜22番染色体、X染色体及びY染色体のうち任意の1つに関する任意の完全染色体異数性を同定できることを明らかに示している。
【0288】
実施例8
部分的胎児染色体異数性の有無決定:ネコ眼症候群の決定
ディジョージ症候群(22q11.2欠失症候群)、すなわち、22番染色体における欠失で生ずる障害は、幾つかの身体系統における発育不全を生ずる結果となる。ディジョージ症候群に共通して関連する内科的疾患としては、心臓疾患、免疫系の機能不全、口蓋裂、副甲状腺機能不全及び行動障害がある。ディジョージ症候群に関連する障害の数及び重篤度は大きく変動する。ディジョージ症候群を有するほとんどすべてのヒトは様々な分野の専門家からの治療を必要とする。
【0289】
胎児における22番染色体の部分的欠失有無を決定するため、血液サンプルを母親の静脈穿刺によって採取し、上述の実施例で説明したようにcfDNAを調製する。精製したcfDNAをアダプタに結合し、イルミナ社のcBotクラスタステーションを使用してクラスタ増幅する。大量並列シークエンシングを、可逆色素ターミネーターを使用して行い、36bpリードを数100万生成する。配列リードをヒトhg19基準ゲノムに整列させ、基準ゲノムに一意的にマッピングされたリードをタグとしてカウントする。
【0290】
すべて22番染色体の2倍体が既知である1組の適格サンプルのセット、すなわち、22番染色体又は22番染色体のいかなる部分も2倍体状態でのみ存在することが既知である適格サンプルセットを先ずシークエンシング及び解析し、3メガベース(MB)の1000断片(領域22q11.2は除外する)それぞれの配列タグ数を得る。ヒトゲノムが約30憶個の塩基(3Gb)を有すると仮定すると、3Mbの1000断片それぞれはゲノムの残りをほぼ構成する。1000断片それぞれは、関心対象断片、すなわち、22q11.2の3Mb領域の正規化断片配列を決定するのに個別に又は断片配列グループとして、使用される。単独の1000bp断片にそれぞれにマッピングされる配列タグ数を個別に使用して、22q11.2の3Mb領域の断片ドースを計算する。さらに、2個以上の断片のあり得るすべての組合せを使用してすべての適格サンプルにおける関心対象断片の断片ドースを決定する。サンプルにわたり最小の変動性を有する断片となる単独3Mb断片又は2個以上の3Mb断片の組合せを、正規化断片配列として選択する。
【0291】
各適格サンプルにおける関心対象断片にマッピングされた配列タグ数を使用して、各適格サンプルにおける断片ドースを決定する。すべての適格サンプルにおける断片ドースの平均及び標準偏差を計算し、またテストサンプルで決定した断片ドースと比較する上での閾値を設定するのに使用する。好適には、正規化断片値(NSV)をすべての適格サンプルにおけるすべての関心対象断片に対して計算し、閾値設定に使用する。
【0292】
これに続いて、対応のテストサンプルにおける正規化断片配列にマッピングしたタグ数を使用してテストサンプルにおける関心対象断片のドースを決定する。正規化断片値(NSV)を、上述したように、テストサンプルの断片に対して計算し、テストサンプルにおける関心対象断片のNCVを、適格サンプルを使用して決定した閾値と比較し、テストサンプルにおける22q11.2の欠失有無を決定する。
【0293】
テストNCV<-3は、関心対象断片の喪失、すなわち、22番染色体の部分的(22q11.2の)欠失が検査サンプルに存在することを示す。
【0294】
実施例9
ステージII大腸がん患者の転帰予測の便DNA検査
すべてのステージII大腸がん患者の約30%は再発し、がん疾患で死に至る。再発を起こした患者のステージII大腸がんは、4,5,15q、17q及び18q番染色体に多くの喪失を示した。とくに、ステージII大腸がん患者の4q22.1〜4q35.2における喪失は、より悪い転帰を示した。これらゲノム変化の有無決定は、補助(アジュバント)治療を患者が選択する上での支援となり得る(Brosens et al., Analytical Cellular Pathology/Cellular Oncology 33:95-104 [2010]参照)。
【0295】
ステージII大腸がんを有する患者の4q22.1〜4q35.2の領域における1つ以上の染色体欠失有無を決定するため、便及び/又は血漿サンプルを患者から採取する。便DNAは、刊行物(Chen et al., J Natl Cancer Inst 97:1124-1132 {2005])に記載の方法に従って調製し、また血漿DNAを上述の実施例で説明した方法に従って調製した。DNAを本明細書で説明したNGSに従ってシークエンシングし、また患者サンプルの配列情報を使用して4q22.1〜4q35.2の領域にわたる1つ以上の断片の断片ドースを計算する。断片ドースは、適格便及び/又は血漿サンプルのセットにおいてそれぞれ事前に決定する正規化断片配列を使用して決定する。検査サンプル(患者サンプル)における断片ドースを計算し、4q22.1〜4q35.2の領域内での1つ又はそれ以上の部分的染色体欠失有無は、関心対象断片それぞれのNSVを、適格サンプルセットにおけるNSVからの閾値と比較することによって決定する。
【0296】
本発明の好適な実施形態を本明細書において示しまた説明したが、このようなすべての実施形態は単なる例であることは当業者には明らかであろう。当業者にとっては、多くの変更、改変及び代用を、本発明から逸脱することなく行うことができるであろう。本明細書に記載した実施形態の種々の代替実施形態を、本発明の実施に使用できる。特許請求の範囲の請求項が本発明の範囲を規定し、また特許請求の範囲内の方法及び構成及び均等物も本発明によってカバーされることを意図する。