【文献】
Brief Funct. Genomics, 2010, 9(5-6), pp.405-415 (Epub 2011 Jan 6)
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする技術的課題は、微小欠失/微小重複を含むコピー数変異を正確に検出できる、コピー数変異の検出方法及びシステムを提供することである。
【課題を解決するための手段】
【0006】
本発明の一態様によれば、検品中の核酸分子の少なくとも一部に配列情報を読み出すステップ、この配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断するステップ、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するステップ、各窓口におけるタグ配列の数を、GC含有量について補正し、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求めるステップ、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補CNV破過点として選定するステップ、各CNV破過点と前のCNV破過点との間にある配列、及び、各CNV破過点と次のCNV破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点の有意性が全体で終了閾値に満たないまでに繰り返し、CNV破過点を判断するステップを含むことを特徴とするコピー数変異を検出する方法を提供する。
【0007】
また、検品中の核酸分子の少なくとも一部に配列情報を読み出すステップをさらに含んでもよい。
【0008】
また、各窓口において、参照となるタグ配列の数(reference unique reAds)が同じであってもよく、各窓口が同じ長さを有しもよい。
【0009】
また、終了閾値は、正常なサンプルからなる対照試料群により得てもよい。
【0010】
また、各窓口におけるタグ配列の数をGC含有量について補正するのは、GC含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるステップを含んでもよい。
【0011】
また、対照試料群で補正された予期のタグ配列の数は、次の手順により求められる;対照群の各窓口におけるタグの総数に対するGC含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出する。
【0012】
また、CNV破過点を判断した後に、さらに、CNV破過点の間にある断片に対して、信頼水準を求めるステップを含んでもよい。上述した信頼水準を求めるのは、補正されたタグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求めるステップ、及び、断片にある補正されたタグ配列数の平均が信頼区間から逸脱する場合に、当該CNV破過点にある断片は、確かに異常があると判断するステップ、を含む。
【0013】
また、タグ配列の数が正規分布になり、前述信頼区間が95%信頼区間である。
【0014】
また、候補CNV破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。
【0015】
また、当該方法は、さらに、次のことを含んでもよい;前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの1種である。及び/又は、前述検品のゲノムDNAは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びSDS法などのDNA抽出法により得られる。及び/又は、前述検品のゲノムDNAを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。及び/又は、上述した検品のゲノムDNA断片の片端又は両端をシークエンシングして、DNA断片の配列情報を読み出す。
【0016】
また、当該方法は、さらに、異なる検品を区別するように、それぞれ、各試料のDNA断片に、異なるインデックスを付けるステップを含んでもよい。
【0017】
本発明の別の態様によれば、検品中の核酸分子の少なくとも一部に配列情報を読み出す読み出しユニット、得られた配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断するタグ配列決定ユニット、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するタグ配列数算出ユニット、各窓口におけるタグ配列の数を、GC含有量について補正し、対照試料群で補正された予期のタグ配列の数に基づいて補正し、補正されたタグ配列の数を求めるタグ配列数補正ユニット、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補CNV破過点として選定する候補破過点選定ユニット、及び、各CNV破過点と前のCNV破過点との間にある配列、及び、各CNV破過点と次のCNV破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点の有意性が全体で終了閾値に満たないまでに繰り返し、CNV破過点を判断する破過点決定ユニットを含むことを特徴とするコピー数変異を検出するシステムを提供する。
【0018】
また、各窓口において、参照となるタグ配列の数(reference unique reAds)が同じであってもよく、各窓口が同じ長さを有しもよい。
【0019】
また、終了閾値は、正常なサンプルからなる対照試料群により得てもよい。
【0020】
また、タグ配列数補正ユニットは、
GC含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるGC補正ユニットと、
対照群の各窓口におけるタグの総数に対するGC含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出し、GC補正されたタグ配列の数を、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求める窓口補正ユニットと
を含んでもよい。
【0021】
また、当該システムは、さらに、破過点決定ユニットでCNV破過点を判断した後に、タグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求め、断片にあるタグ配列数の平均が信頼区間から逸脱する場合に、当該CNV破過点にある断片は、確かに異常があると判断する破過点濾過ユニットを含んでもよい。
【0022】
また、補正されたタグ配列の数が正規分布になり、前述信頼区間が95%信頼区間である。
【0023】
また、候補破過点選定ユニットで候補CNV破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。
【0024】
また、前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの1種である。及び/又は、前述検品のゲノムDNAは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びSDS法などのDNA抽出法により得られる。及び/又は、前述検品のゲノムDNAを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。
【0025】
及び/又は、上述した検品のゲノムDNA断片の片端又は両端をシークエンシングして、DNA断片の配列情報を読み出す。
【0026】
また、異なる検品を区別するように、それぞれ、各試料のDNA断片に、異なるインデックスを付ける。
【発明の効果】
【0027】
本発明に係るコピー数変異を検出する方法及びシステムにより、臨床の実行可能性があり、微小欠失/微小重複を含むコピー数変異を正確に検出できる。
【発明を実施するための形態】
【0029】
以下、本発明で使用される用語を次のように説明する;
コピー数変異(copy number variation, CNV):検出対象サンプル由来の核酸配列を正常なサンプル由来の核酸配列と比べて、1kb以上の核酸分子のコピー数に変化が生じることを意味する。それは、欠失、例えば微小欠失、挿入、例えば微挿入、マイクロ重複、重複、逆位、転座、及び複雑なマルチサイト変異が含まれる。
【0030】
異数性:正常なサンプルと比べて、遺伝物質に存在している染色体の数が不足あるいは過剰することを意味する。さらには、全体または一部の染色体が不足あるいは過剰するのを含む。また本発明に係るコピー数変異は、異数性の状況を含む。
【0031】
シークエンシング:サンプルの核酸配列を決定することである。それは、様々な配列決定法により行われる。ジデオキシ・チェーン・ターミネータ法(dideoxy chain-termination method)を含んでいるがこれに限定されず、高スループットの配列決定法が好ましく、次世代法シークエンシング技術や単一分子シークエンシング技術を含んでいるが、これに限定されない。
【0032】
次世代法シークエンシング技術(Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010Jan;11(1):31-46)としては、イルミナ-Solexa(GATM、HiSeq2000TMなど)、ABI-Solid、及びRoche-454(パイロシーケンシング)配列決定装置を含んでいるが、これに限定されなく、単一分子シークエンシング技術としては、真の単一分子シークエンシング技術(Helicos社、True Single Molecule DNA sequencing)、単一分子リアルタイムシークエンシング(Pacific Biosciences社、single molecule real-time (SMRTTM))、及びナノ細孔シークエンシング技術(Oxford Nanopore Technologies社)など(Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 2446(4)を含んでいるが、これに限定されない。
【0033】
シークエンシングの種類は、片端(single-end)を読むこと、及び、両端(Pair-end)を読むことに分けれる。シーケンシングデータは長さが50bp、90bp、及び100bpでもよい。本発明に係る実施の形態においては、シークエンシング技術がイルミナ-Solexaであり、シークエンシングの種類が両端(Pair-end)を読むことであり、双方向の位置の関係を有する、長さが100bpのDNA配列を得る。
【0034】
本発明に係る実施の形態において、シークエンシングの深さは、検品となる染色体に変異が生じる断片の長さにより決定しておいてもよい。シークエンシングの深さが高いほど、感度が高くなり、即ち、検出された欠失、重複がある断片は短くなる。シークエンシングの深さが0.1-30×であってもよく、即ち、データの合計量がヒトゲノムの長さに対して0.1-30倍になる。例えば、本発明に係る実施の形態においては、シークエンシングの深さが0.1×,(2.5×108bp)である。
【0035】
読み出し(reads):一定の長さを有する核酸配列(一般には20bpを越える)を、例えばシーケンサーにより配列決定して配列解析の結果を得る。配列対比法により、それの参照ゲノムにおける特定な領域や位置を知ることができる。
【0036】
配列対比(対比):一つまたは複数の核酸配列を、参照配列と比較することを意味する。具体的には、短い核酸配列の参照ゲノムにおける位置を決めるように、短い核酸配列(例えば、読み出し)を参照配列と比較する。コンピュータを利用して配列対比する場合に、配列対比は、ELAND(efficient local alignment of nucleotide data)、SOAP(Short Oligonucleotide analysis Package)、及びBWA(Burrows-Wheeler aligner)などの配列対比用プログラムから選ばれるいずれかの1種により行われる。対比の認定用基準は、また、ナンフォールトトレランス(100%一致)及び部分的なフォールトトレランス(100%未満の一致)に分ける。
【0037】
タグ配列:参照配列(例えば参照ゲノム配列)における唯一の場所に位置決める読み出し(reads)を指す。
【0038】
参照タグ配列(reference unique reads):固定された長さを有する、参照配列(一般的に参照ゲノム)に唯一の位置を有する配列を指す。タグ配列を判断するプロセスは、例えば、固定された長さを有する配列に参照ゲノムを分割するステップ、これらの配列を参照ゲノムと対比させるステップ、及び、参照ゲノムに唯一に完全適合する配列を、唯一適合の配列として選定するステップを含む。固定された長さは、シーケンサーによる配列解析の結果により決定してもよく、具体的に、平均の長さを参照してもよい。配列解析の結果は、シーケンサーにより異なる。詳しく、配列決定のたびに、配列決定の結果の異なる可能性があるので、この長さは、主観、経験で選定されるかもしれない。
【0039】
インデックス(index):特定の長さを有する、識別の役割を果たす核酸配列。試験されるDNA分子が複数の検品から得られた場合には、配列解析において、異なる検品を区別するために、それぞれ、各試料に、異なるインデックスをつけてもよい(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3)。これにより、複数のサンプルを同時に配列決定できる。インデックスは、異なる検品を区別するためのであり、インデックスをつけたDNA分子の他の機能に、影響を与えることがない。
【0040】
GC含有量についての補正:バッチ間または1つのバッチ内に、GCバイアスががあるため、GC含有量の高いまたはGC含有量の低い領域にコピー数の偏りを引き起こす。対照試料群にGC含有量について補正された、各窓口における、相対的なシーケンシング配列の数により、シーケンシングデータに当該偏りを削除し、コピー数変異の検出精度を向上させることができる。
【0041】
平均値:本願でいう平均値が、一般的に算術平均或いは中央値である。
【0042】
タグ配列の数:タグ配列の数は、最初の数を基にし計算されたのであってもよいし、タグ配列の数を補正係数により補正した補正値であってもよい。例えば、比率であって、「コピー率」と取り換え可能である場合がある。
【0043】
検品:試験サンプルと呼ばれる場合がある。変異があると疑われる核酸分子を含むサンプルを意味する。核酸の種類としては、特に制限がないが、デオキシリボ核酸(DNA)であってもよいし、リボ核酸であってもよく、DNAが好ましい。RNAとしては、対応配列を有するDNAに、常法により変換し、続く検出及び解析を行うことができる。
【0044】
対照試料:検品と相対的なのであって、正常、一般的に表現型の正常であると考えられるサンプルである。
【0045】
対照試料群(対照群):対照試料からなるグループを意味する。本発明に係る実施の形態において、このグループに含まれる対照試料の数が30を越える必要がある。
【0046】
以下、図面を参照して本発明、さらに、例示用の実施例を詳しく説明する。
【0047】
高スループット配列解読技術が進む、シーケンシングのコストを削減するにつれて、配列解読技術は、染色体異常の検出に広く応用する。
【0048】
臨床試験においてコピー数変異の検出用技術を改善するために、高スループット配列解読技術を基にして、全ゲノムに対してコピー数変異をスクリーニングする、高スループット、高特異性、正確な位置決めの利点を有しているが開示されている。被験体からサンプルを得ることにより、DNAを抽出して高スループット配列解読したあと、得られたデータを解析して、試験結果を得る。
【0049】
図1は、本発明に係るコピー数変異を検出する方法による一実施例のフローチャートである。
【0050】
ステップ102では、
図1のように、検品から核酸分子の少なくとも一部に関する読み出し(reads)を得る。読み出しを得るように、検品中の核酸分子を少なくとも一部又は全部で配列決定してもよい。検品中の核酸分子の少なくとも一部に関する読み出しを得てもよいし、検品中の全ての核酸分子に関する読み出しを得てもよい。例えば、検品からのゲノムDNA分子をランダムに断片化したDNA断片を、配列決定して、読み出しを得る。読み出しの長さが一定の範囲にあるが、固定された長さを有する読み出しを、短縮化により、得ることができる。DNA断片の長さが50bp〜1500bpにあるが、例えば、50bp〜150bp、150bp〜350bp、350bp〜500bp、500bp〜700bp、700bp〜1000bp、及び1000bp〜1500bpであってもよい。例えば、50bp、90bp、100bp、150bp、300bp、350bp、500bp、700bp、1000bp、1500bpから選ばれであってもよい。実施例では、300bp〜700bpにあることが好ましく、350bp〜500bにあることがより好ましい。読み出しの長さはシーケンサーにより大きく異なる。例えばイルミナ-Solexa、ライフテクノロジーズ-solidによる読み出しの長さは、300bpの範囲内であるが、roche-454、従来のサンガー配列決定法、最先端の単一分子の配列決定用システムによる読み出しの長さは、約1000bpを超える。唯一の対比用の必要条件を満たすために、一般的に、タグ配列を読み出しにより選定する時に、20bp以上、好ましく、26bp以上の配列を選定して、対比させる。
【0051】
ステップ104では、配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。例えば、読み出しの少なくとも一部又は全部を、(ゲノム)参照配列と対比させて、読み出しのゲノムへのサイト情報を取得し、読み出しの染色体へのサイト情報を得る。ヒト由来の検品としては、参照ゲノムの配列が、NCBIデータベースからの標準ヒトゲノムの参照配列である。本発明に係る実施例において、ヒトゲノムの配列にNCBIデータベース(例えば、hg18(NCBI Build 36)でもよい)からのヒトゲノムの参照配列を、対比用ソフトウェアにSOAPaligner/soap2を適用する。ゲノムの参照配列に唯一に完全適合するDNA断片を読み取む。即ち、前の読み出しのみを、ヒトゲノムの参照配列と対比させる。つまり、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。
【0053】
ステップ108では、各窓口におけるタグ配列の数を、GC含有量について補正し、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求める。実施例において、各窓口におけるタグ配列の数をGC含有量について補正するのは、GC含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるステップ、を含む。対照試料群で補正された予期のタグ配列の数は、次の手順により求められる;対照群の各窓口におけるタグの総数に対するGC含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出する。
【0054】
ステップ110では、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい(即ち、大幅に大きな差がある)分界点を候補CNV破過点として選定する。例えば、全ゲノムにおいては、各窓口の両側にコピー数変異があるのを示す有意差であるp値により、所定の数の窓口を候補CNV破過点として選定し、候補CNV破過点の有意差をp値として算出する。
【0055】
ステップ112では、各CNV破過点と次のCNV破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点の有意性が全体で終了閾値に満たないまでに繰り返し、CNV破過点を判断する。一般的に、終了閾値は、予め設定されておく。例えば、正常なサンプルからなる対照試料群を分析することにより、この終了閾値を得ることができる。
【0056】
前述実施例において、得られた読み出しをゲノムの参照配列と対比させ、唯一の完全適合する読み出しを選定して、それに対して、各窓口に入る配列数を計算し、各窓口に入るタグ配列の数をGC補正及び対照群補正したあと、有意性を繰り返して計算する。それにより、CNV検出を実現でき、微小欠失/微小重複を含める小さなコピー数変異を、正確に検出できる。
【0057】
ヒト由来のサンプルとしては、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの1種を、抽出したゲノムDNAである。これは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びSDS法などのDNA抽出法により得られる。カラムクロマトグラフィーは、血液、組織及び細胞を、細胞溶解液とプロテイナーゼKとにより、露出したDNA分子に変えて、高塩分でこれがシリコーン膜に結合してから、低塩分、高pHでDNA分子をシリコーン膜から溶出するのであるので、実施例において、カラムクロマトグラフィーが好ましい。詳細方法及び原理は、Tiangen TIANamp Micro DNA Kit (DP316)のマニュアルを参照できる。
【0058】
試験されるDNA分子が複数の検品から得られた場合には、異なる検品を区別するために、それぞれ、各試料に、長さが4bp〜12bpの範囲にある異なるインデックス(index)をつけてもよい(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3)。これにより、複数の検品を同時に検出でき、効率を向上させ、検出のコストを削減させることができる。
【0059】
図2は、本発明に係るコピー数変異を検出する方法による別の実施例のフローチャートである。
【0060】
ステップ202では、検品からのゲノムDNA分子をランダムに断片化して、DNA断片を得る。前述検品のゲノムDNAを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。好ましく、超音波法、例えばコバリス社製S-series(AFAの技術に基づいて、センサーから放出される音響エネルギー/力学的エネルギーがDNAサンプルを通ると、ガスを溶解させて、気泡になる。エネルギーが除去された後、気泡が破裂して、DNA分子を断片化するための能力を生成する。エネルギー強度および時間間隔などを設定することにより、DNA分子を断片化して、長さが特定範囲にあるDNA分子にすることができる。詳細原理及び方法は、コバリス社製S-seriesのマニュアルを参照できる。)により、DNA分子を断片化して、長さが集中している断片にする。
【0061】
ステップ204では、DNA断片を配列決定して、DNA断片による配列解析の結果を得、つまり、読み出しのことである。配列決定した読み出しは、長さが一定の範囲にあってもよいが、DNA断片による配列解析の結果より、固定された長さを有する読み出しを、短縮化により、得ることができる。配列決定用方法としては、イルミナ/Hiseq2000、ABI/SOLiD、Roche/454が挙げられる。シークエンシングの種類としては、single-end(片端)を読むこと、及び、Pair-end(両端)を読むことに分けれる。シーケンシングデータは長さが50bp〜1500bpでもよい。本発明に係る実施例においては、シークエンシング技術がイルミナ/Hiseq2000であり、シークエンシングの種類が、Pair-endを読むことであり、双方向の位置の関係を有する、長さが100bpのDNA配列を得る。シークエンシングの深さは、検品となる染色体に変異が生じる断片の長さにより決定しておいてもよい。シークエンシングの深さが高いほど、感度が高くなり、即ち、検出された欠失、重複がある断片は短くなる。本発明に係る実施例においては、ヒト由来の検品の読み出しが2〜900×10
8にある。
【0062】
ステップ206では、読み出しを、ゲノムの参照配列と対比させて、読み出しのゲノムへのサイト情報を取得する。
【0063】
ステップ206では、ゲノムの参照配列に唯一に完全適合する読み出しを、タグ配列としてを選定する。
【0065】
ステップ210では、窓口の補正係数を求めるように、ゲノムにおける各窓口に対して、平均のGC含有量を算出し、この補正係数により、各窓口の補正されたタグ配列の数を計算する。このステップは、主に各窓口のGC含有量に従って、各窓口に対して、タグ配列の数を補正するのであり、バッチ補正又はGC補正とも言われることがある。
【0068】
ステップ212では、各窓口の補正されたタグ配列数を、該窓口の予期された個数で、割ると、コピー率である各窓口に補正したタグ配列数になる。なお、窓口の予期された個数は、正常なサンプルからなる対照群(control set)により得られた。このステップは、正常なサンプルからのデータにより、各窓口のタグ配列数を補正するのであり、窓口補正とも言うことがある。
【0070】
対照群の選定において、ライブラリーの構築方法、配列決定用試薬、及びシークエンシングの種類は、検出対象サンプルの場合と一致させる。これにより、対照試料の検出対象サンプルに対する補正効果を向上させることができる。なお、対照群の中のサンプルが正常なサンプルであり、サンプル数が30を超える。
【0071】
ステップ214では、全ゲノムにおいては、各窓口の両側にコピー数変異があるのを示す有意差であるp値により、所定の数の窓口を候補CNV破過点として選定し、各候補CNV破過点の有意差をp値として算出する。
【0072】
1)候補CNV破過点の選定:全ゲノムの全ての窓口において、各窓口の両側にあるいくつかの窓口(検出モデルが有意差にするように、一般的にサンプル数が30を超えるか、検出モデルにおける最低サンプル数の制限を満たす)に対して、コピー数変異の差を計算し、各窓口の両側にコピー数変異があるのを示す有意差により(小さい値から大きな値へのp値)、いくつか(例えば窓口総数の1%)の(窓口に対応する)点を候補CNV破過点(Breakpoint、即ちCNV断片の各分界点)として選定する。
【0074】
ステップ216では、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点のp値が全体で終了p値(即ち、終了閾値)に満たないまでに繰り返す。なお、終了p値は、対照試料群を分析することにより求められる。
【0075】
反復と合併:有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、すべてのp値が終了p値よりも小さいまでに繰り返して反復する。
【0076】
終了p値の算出:例えば、対照試料に前述工程を繰り返して反復し、反復及び合併された最大のp値を記録し、一つの断片に合併させるまでに繰り返して反復することができる。ここで、最大のp値の変化傾向により、最も劇的な変化を示す最大のp値(即ち、p値の変化曲線で、曲線の傾きの最も顕著な変化を示す点(最大の曲率を有する点)である。)又は前の合併における最大のp値を終了閾値とする。実施例において、繰り返して反復しなる断片数が所定の断片数になる場合を、反復と合併の終了として設定。例えば、全ゲノムの解析において、対照試料に前述工程を繰り返して反復しなる断片数が24になるまでに解析する。この時の終了p値の平均を計算することにより、終了p値を効果的に求めることができる。
【0077】
上述したステップ214及びステップ216は断片化とも呼ばれてもよい。ステップ214における1)と2)で、窓口及び破過点を選定する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。単染色体の環化反応は以下の通りである:染色体に対して、出発点の近傍にある窓口を計算する場合には、左側にある効果的な窓口数は、統計的検定には不十分であると、当該染色体の終点から逆方向で、計算する。同様に、右側にある効果的な窓口数は、統計的検定には不十分であると、当該染色体の出発点から計算する。この工程は、染色体の出発点及び終点に位置している窓口を算出することを可能にする。全ゲノムの環化反応は以下の通りである:各染色体の前端に位置している効果的な窓口数は、統計的検定には不十分であると、前の染色体の末端に索引を付けるに対して、各染色体の末端に位置している効果的な窓口数は、統計的検定には不十分であると、次の染色体の前端に索引を付け、第1染色体とY染色体が接続される。
【0079】
閾値の選定:中心極限定理に従って、各対照試料の窓口のコピー率の分布を算出する。この中心極限定理で、窓口に読み込むことがランダムであるので、コピー率が正規分布に適合するが、有意水準が0.05になる分位点を選択する。それぞれ、対照群にその平均を、コピー率の変異をスクリーニングするための閾値の最低限及び最高限として計算する。
【0080】
前述実施例において、バッチ補正と窓口補正により、試験結果の精度を向上させることができる。対照群を導入することにより、精度を、対照群を大きくすることにより向上させ、最初のDNA量に対する要求を減らすことができる。
【0081】
図3は、本発明に係るコピー数変異を検出する方法によるさらに別の実施例のフローチャートである。
図3では、正常なサンプルからなる対照群を処理するプロセス(3A)と、検品を処理するプロセス(3B)と、を含む。対照群は、主に、検品補正用のデータ、及び、検品の処理における反復と合併を終了させる要件とする終了閾値を取得するために使用される。
【0082】
図3のように、プロセス3Aは、
対照試料からDNA分子を抽出するステップ310A、
対照試料から抽出されたDNA分子をランダムに断片化してから、配列決定し、対照試料のDNA断片の配列決定配列データ(即ち、読み出し)を取得するステップ311A、
対照試料の読み出しを参照ゲノムと対比させるステップ312A、
参照配列に唯一に完全適合する読み出しの数(即ち、タグ配列数)を計算するステップ313A、
対照試料をバッチ補正するステップ314A、
検品を窓口補正するように、対照試料により、予期の窓口数を求めるステップ315A、
候補CNV破過点を選定し、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点とのp値を再計算し、残りの断片数が所定の数(例えば、24)になるまでに繰り返する(即ち、候補CNV破過点の選定及び断片化)ステップ316A、及び、
この場合、終了p値の平均を計算することにより、検品の処理における反復と合併を終了させる要件とする終了閾値として、終了p値を効果的に算出することができるステップ317A
を含む。
【0083】
プロセス3Bは、
検品からDNA分子を抽出するステップ310B、
検品から抽出されたDNA分子をランダムに断片化してから、配列決定し、対照試料のDNA断片の読み出しを取得するステップ311B、
検品のDNA断片の読み出しを参照ゲノムと対比させるステップ312B、
参照配列に唯一に完全適合する読み出しの数(即ち、タグ配列数)を計算するステップ313B、
検品をバッチ補正するステップ314B、
検品を窓口補正するように、対照試料により、予期の窓口数を求めるステップ315B、
候補CNV破過点の選定及び断片化をするステップ316B、及び、
得られた結果を濾過するステップ317B
を含む。
【0084】
対照群の選定において、ライブラリーの構築方法、配列決定用試薬、及びシークエンシングの種類は、検出対象サンプルの場合と一致させる。これにより、対照試料の検出対象サンプルに対する補正効果を向上させることができる。なお、対照群の中のサンプルが正常なサンプルであり、サンプル数が30を超える。
【0085】
図4は、本発明の一実施形態により染色体をCNV解析するのを概略的に示すフローチャートである。
【0086】
図4のように、ステップ401は、DNAの抽出及び配列決定である:Tiangen DP327-02の取扱説明書によりゲノムDNAを抽出したあと、イルミナ/Hiseq2000標準に基づいて、ライブラリーを構築する。このステップで、500bpに集中したDNA分子の両端に対して、配列決定用アダプターをつけ、サンプルに対して、異なるインデックス(index)をつける。これにより、1回の配列決定の結果から、異なる検品を区別できる。
【0087】
ステップ402は、配列の対比である:イルミナ/Hiseq2000の配列決定用方法(ほかの配列決定用方法、例えばABI/SOLiDにより、同一または類似の効果を達成できる)により、各サンプルから得られた、特定の長さを有するDNA断片を、読み出し、それをNCBIデータベースからの標準ヒトゲノムの参照配列とSOAP2対比させ、シーケンシング配列の参照ゲノムにおける位置を知る。重複の配列が解析の妨害になるのを避けるために、続く解析を行うための有効データとして、標準ヒトゲノムの参照配列から選ばれる唯一適合のシーケンシング配列(つまり、唯一の参照配列に完全適合する読み出しの数、即ち、タグ配列数)のみを選択する。
【0088】
ステップ403は、PSCC分析である:本開示の発明者によって開発された、全ゲノムにコピー数変異を検出する一連の生命情報学方法(以下、PSCC)に従って、検品をバッチ補正し、対照群(control set)により、検品に対して、窓口補正(correction)、標準化(Normalization)、及び断片化(segmentation)を行う。
【0091】
図5は、本発明に係るコピー数変異を検出するシステムによる一実施例のフローチャートである。
図5のように、当該システムは、検品中の核酸分子の少なくとも一部に配列情報を読み出す読み出しユニット51と、ゲノム参照配列に唯一に完全適合する参照配列をタグ配列として判断するタグ配列決定ユニット52と、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するタグ配列数算出ユニット53と、各窓口におけるタグ配列の数を、GC含有量について補正し、対照試料群で補正された予期のタグ配列数に基づいて補正し、補正されたタグ配列の数を求めるタグ配列数補正ユニット54と、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい(即ち、大幅に大きな差がある)分界点を候補CNV破過点として選定する候補破過点選定ユニット55と、各CNV破過点と前のCNV破過点との間にある配列、及び、各CNV破過点と次のCNV破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点の有意性が全体で終了閾値に満たないまでに繰り返し、CNV破過点を判断する破過点決定ユニット56と、を含む。この終了閾値は、正常なサンプルからなる対照試料群により得てもよい。タグ配列数算出ユニット53により窓口にゲノムの参照配列を分割する場合には、参照となるタグ配列の数(reference unique reads)を同じくしてもよく、各窓口を同じ長さにしてもよい。実施例において、候補破過点選定ユニット55で候補CNV破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行う。
【0092】
前述実施例において、タグ配列決定ユニットでは、読み出しにより、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。配列数補正ユニットでは、各窓口におけるタグ配列の数を補正する。候補破過点選定ユニットと破過点決定ユニットでは、有意性を繰り返して計算し、CNV破過点を判断する。それにより、CNV検出を実現でき、微小欠失/微小重複を含める小さなコピー数変異を、正確に検出できる。
【0093】
図6は、本発明に係るコピー数変異を検出するシステムによる別の実施例のフローチャートである。
図6のように、当該システムは、読み出しユニット51、タグ配列決定ユニット52、タグ配列数算出ユニット53、タグ配列数補正ユニット64、候補破過点選定ユニット55、及び破過点決定ユニット56、を含む。読み出しユニット51、タグ配列決定ユニット52、タグ配列数算出ユニット53、候補破過点選定ユニット55、及び破過点決定ユニット56の詳細は、
図5の具体的な説明を参照する。簡潔にするために詳しい説明を省略する。タグ配列数補正ユニット64は、GC含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるGC補正ユニット641と、対照群の各窓口におけるタグの総数に対するGC含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口におけるタグ配列の数の予期値を算出し、GC補正されたタグ配列の数を、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数(コピー率とも呼ばれる)を求める窓口補正ユニット642と、を含む。
【0094】
本発明の一実施例によれば、当該システムは、さらに、破過点決定ユニットでCNV破過点を判断した後に、タグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求め、断片にあるタグ配列数の平均が信頼区間から逸脱する場合に、当該CNV破過点にある断片は、確かに異常があると判断する破過点濾過ユニット67、を含む。一実施例において、タグ配列の数が正規分布になり、前述信頼区間が95%信頼区間である。
【0095】
一実施例において、前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの1種である。前述検品のゲノムDNAは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びSDS法などのDNA抽出法により得られる。前述検品のゲノムDNAを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。検品のゲノムDNA断片の片端又は両端をシークエンシングして、DNA断片の配列情報を読み出す。異なる検品を区別するように、それぞれ、各試料のDNA断片に、異なるインデックスを付ける。
【0096】
図5および
図6に示すような各ユニットの機能について、上述した本発明の実施例に対応する説明の一部を参照する。簡潔にするために詳しい説明を省略する。
【0097】
これらの場合には、各特定な機能の応用をできるだけ、達成するように、ハードウェア、ファームウェア、及びソフトウェアの構成は互換性があることは、当業者にとって自明なことである。
【実施例】
【0098】
以下、実施例により本発明を詳しく説明する。なお、これらの実施例は単に説明のためのもので、本発明を限定するものではないのが理解されるべきであることは、当業者にとって自明なことである。実施例において特定の条件を明記されていない場合には、先行方法や、製造会社からの方法に従って、各ステップを実行できる。試薬や機器の製造業者は、明記されていない場合、市販されることにより入手できる。以下の括弧内の記述は、それぞれ各種試薬とキットとの製造業者のカタログ番号を示す。配列決定用アダプターや、インデックスindexは、イルミナ社の製造したMultiplexing Sample Preparation Oligonutide Kitからのものである。
【0099】
実施例1:染色体数の変異を持つ2サンプルと微小欠失をを持つ6サンプルとの検出
1、DNAの抽出:Tiangen社の製造したTIANamp Micro DNAKit(DP316)からの操作マニュアルに従い、8サンプル(以下、Sample1、Sample2、Sample3…Sample8と呼ばれる)からDNAを抽出し、得られたDNAを利用して、訂正されたイルミナ/Hiseq2000からの明細書に従って、ライブラリーを構築し、500bpに集中したDNA分子の両端に配列決定用アダプターをつけ、サンプルに対して、異なるインデックス(index)をつけ、次に、フローセル(flow cell)の界面にある相補のアダプターをハイブリッドし、核酸分子を特定の条件下でクラスタにし、そして、両端を読んでシークエンシングし、100bpの長さを有するDNA断片の配列を得た。
【0100】
具体的に、羊水から得られたDNA100ng(Quant-IT dsDNA HS Assay kit)を利用して、訂正されたイルミナ/Hiseq2000からの明細書に従って、ライブラリーを構築した。なお、詳細は、先行技術(http://www.イルミナ.com/から入手できるイルミナ/Solexaのライブラリー構築用明細書)を参照する。2100Bioanalyzer (Agilent)により、DNAライブラリー及び挿入断片のサイズが500bpであると決定し、Q-PCR法で定量して、配列決定した。
【0101】
2、配列決定:本実施例では、イルミナ/SolexaからのClusterStation、Hiseq2000(PEsequencing)明細書に従って、各サンプルがデータの数を約5G得るように、8サンプル由来のDNAを配列決定した。なお、各検品は、結合したindexによって区別されるのである。対比用ソフトウェアSOAP2を利用して、配列決定されたDNA配列を、NCBIデータベース(hg18(NCBI Build 36))からの標準ヒトゲノムの参照配列と対比させ、シーケンシング配列の参照ゲノムにおける位置を知る。
【0102】
【0103】
【0104】
【0105】
【0106】
【0107】
【0108】
【0109】
【0110】
f)結果の視覚化
【0111】
4、結果の統計
8サンプルを検出及び検証した結果は、表1に示す。
【0112】
なお、検証した結果は、CGHチップ(比較ゲノムハイブリダイゼーション)によって得られた。製造業者からのマニュアルを参照して、Human Genome CGH Microarray Kit(Agilent Technologies Inc.)を実験に用いた。
【0113】
【表1】
【0114】
なお、chrが染色体を、T7が7番染色体のトリソミーを、トリソミーである性染色体変異を、表す。
【0115】
図7A-Hは、8つのサンプルを検出した結果を示す模式図である。
【0116】
表1及び
図7A-7Hよりみれば、本発明は、0.4Mの微小欠失を有する断片とも、全体染色体数の変異ともを正確に検出し、所在位置を確認することができる。それにより、それらの検出効率と精度は、両方に優れる。
【0117】
これまでに報告されるコピー数変異の検出方法と比較して、本開示は、主に次の利点を含む;
(1)精度:50Mのデータにより、0.45の微小欠失を有する断片を、正確に検出できる。
(2)拡張可能性:最初のDNA量に対する要求を減らすために、配列決定されたデータの数を多くするほか、対照群を大きくすることにより、精度を向上させることができる。
(3)安定、広範囲:これまでに報告される方法においては、操作自体を詳細に説明しないが、本発明は、データによるバッチ補正、グループ補正、及び、断片化用条件の選定などに関する。
【0118】
本発明は、対象患者にコピー数変異を検出することにより、臨床決定のための遺伝カウンセリングおよび根拠を提供するのに有益であり、微小欠失症候群に罹患している患者に対して、病理判定を正確に行うことができる。本発明は、全ての微小欠失症候群に罹患している患者や、微小欠失症候群に罹患しているおそれがある患者に適用する。対象患者は単に説明のためのもので、本発明を限定するものではないのが理解されるべきである。
【0119】
本明細書において、本発明の具体的な実施態様を例示および説明したが、上記の開示は、本開示を限定するものであると解釈することはできない。前記開示により、種々の変形および改変をすることができ、これらの変形および改変は、すべて、添付の請求の範囲に含まれていることは、当業者によって認識される。本発明の範囲は、添付の請求の範囲およびその均等構成を基準にする。