(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US
本開示は、一般に、多種多様な遺伝的シーケンシング方法を校正するために用いることができる遺伝的シーケンシングコントロールに関する。例えば、本明細書に開示されたシーケンシングコントロールは、多種多様なハイスループットシーケンシング方法(例えば、次世代シーケンシング方法を意味するもの)を校正するために用いることができる。本開示は、また、一般に、例えば、多種多様なシーケンシング方法の校正を含む多種多様なアプリケーションでのシーケンシングコントロールの使用に関する。
人工ポリヌクレオチド配列を含む人工染色体であって、前記人工ポリヌクレオチド配列のいずれかのフラグメントが公知の天然ゲノム配列のいずれかと識別可能である前記人工染色体。
前記人工ポリヌクレオチド配列の1,000隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する、請求項1に記載の人工染色体。
前記人工ポリヌクレオチド配列の100隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する、請求項1に記載の人工染色体。
前記人工ポリヌクレオチド配列の21隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する、請求項1に記載の人工染色体。
前記人工ポリヌクレオチド配列が、遺伝子座、CpGアイランド、モバイルエレメント、反復ポリヌクレオチド特徴、小規模な遺伝的変動及び大規模な遺伝的変動からなる群から選択される天然真核生物染色体の特徴のいずれか1つまたはそれ以上を含む、請求項1〜4のいずれか1項に記載の人工染色体。
フラグメントが前記人工ポリヌクレオチド配列の20〜10,000,000隣接ヌクレオチドを含む、請求項1〜7のいずれか1項に記載の人工染色体のDNAフラグメントを含むベクター。
エンドヌクレアーゼ消化によって請求項12に記載のベクターから前記フラグメントを切除すること、または、請求項12に記載のベクター内に含まれる前記DNAフラグメントを増幅もしくは転写することを含む、請求項8または請求項9に記載のフラグメントの生成方法。
エンドヌクレアーゼ消化によって請求項13に記載のベクターから前記人工ポリヌクレオチド配列を切除すること、または、請求項13に記載のベクター内に含まれる前記人工ポリヌクレオチド配列を増幅もしくは転写することを含む、請求項10または請求項11に記載の人工ポリヌクレオチド配列の生成方法。
ポリヌクレオチドシーケンシングプロセスを校正するための請求項1〜7のいずれか1項に記載の人工染色体及び/または請求項8もしくは請求項9に記載のフラグメント及び/または請求項10もしくは請求項11に記載の人工ポリヌクレオチド配列の使用。
ポリヌクレオチド定量プロセスを校正するための請求項1〜7のいずれか1項に記載の人工染色体及び/または請求項8もしくは請求項9に記載のフラグメント及び/または請求項10もしくは請求項11に記載の人工ポリヌクレオチド配列の使用。
請求項1〜7のいずれか1項に記載の1つ以上の人工染色体及び請求項8もしくは請求項9に定義されるとおりの1つ以上のフラグメントまたは請求項10もしくは請求項11に定義されるとおりの1つ以上の人工ポリヌクレオチド配列を含むキット。
コンピュータプログラム可能媒体であって、これに記憶される請求項1〜7のいずれか1項に記載の1つ以上の人工染色体を含有する、前記コンピュータプログラム可能媒体。
【発明を実施するための形態】
【0039】
詳細説明
一般
本明細書全体にわたって、特に記載しない限り、または、文脈により特に要求されない限り、単一のステップ、物質の組成物、ステップの群または物質の組成物の群への参照では、これらのステップ、物質の組成物、ステップの群または物質の組成物の群の1つ及び複数(すなわち、1つ以上)を包含すると取らなければならない。
【0040】
本明細書に用いられる場合、単数形「a」、「an」及び「the」は、文脈が明確に特に指示をしない限り、これらの単語の複数形を含む。
【0041】
用語「及び/または」、例えば、「X及び/またはY」は、「X及びY」または「XまたはY」のいずれかを意味すると理解しなければならず、双方の意味またはいずれかの意味の明確な支持をもたらすと取らなければならない。
【0042】
本明細書全体にわたって、単語「含む(comprise)」、またはその変型、例えば、「comprises」または「comprising」は、記載した要素、整数もしくはステップ、または要素、整数もしくはステップの群を含むが、他の要素、整数もしくはステップ、または要素、整数もしくはステップの群のいずれかを除外しないことを意味すると理解しなければならない。
【0043】
用語「約」は、本明細書に用いられる場合、一定の範囲の特定の値の+/−10%を指す。
【0044】
人工染色体:
本明細書に開示された人工染色体は、物理的ポリヌクレオチド配列として生成してよい、またはコンピュータ中(in silico)に生成し、記憶してよい。本明細書に記載されたアプリケーションの多くでは、人工染色体が、in silicoのままで十分である。しかし、人工染色体の物理的ポリヌクレオチド配列は、スタンダードの、ポリヌクレオチド生成の公知の方法を用いて生成することができる。
【0045】
本明細書に開示された人工染色体は、DNAまたはRNAポリヌクレオチド配列を含んでよい。このため、本明細書でのポリヌクレオチド配列への参照のいずれかは、DNA配列またはRNA配列への参照と理解しなければならない。
【0046】
人工染色体の正確な長さは、人工染色体が設計される特定の使用に従って変えることができる。例えば、人工染色体の長さは、約10
3〜10
9ヌクレオチド長の範囲とすることができる。1つの例では、人工染色体は、少なくとも1,800ヌクレオチド長であるポリヌクレオチド配列を含む、またはこれからなる。もう1つの例では、人工染色体は、20メガベース(Mb;1Mbは、1,000、000ヌクレオチドに等しい)未満長であるポリヌクレオチド配列を含む、またはこれからなる。このため、人工染色体は、例えば、1,800ヌクレオチド長〜20Mb長としてよい。
【0047】
人工染色体は、人工ポリヌクレオチド配列を含み、当該人工ポリヌクレオチド配列のいずれかのフラグメントが公知の天然ゲノム配列のいずれかと識別可能である。人工ポリヌクレオチド配列の1つの利点が、かかるフラグメントは、対象の天然ポリヌクレオチド標的を含有する試料に直接添加することができ、同時に、なお、試料中に存在する天然ポリヌクレオチドのいずれかと識別可能であるということである。人工染色体は、公知の天然ゲノム配列といくつかの相同性(または配列同一性)を共有する追加の配列を含んでよいと理解される。かかる追加の配列のいずれも、人工染色体の人工ポリヌクレオチド配列内に含まれない。
【0048】
人工ポリヌクレオチド配列は、人工染色体の任意の割合を形成することができる。このため、人工ポリヌクレオチド配列は、人工染色体の1%〜100%を含むことができる。例えば、人工ポリヌクレオチド配列は、人工染色体の約10%、20%、30%、40%、50%、60%、70%、80%、90%または95%を含むことができる。1つの例では、人工ポリヌクレオチド配列が、人工染色体の大部分を形成する。このため、人工ポリヌクレオチド配列は、人工染色体の50%以上、60%以上、70%以上、80%以上、90%以上、95%以上、99%以上を形成してよい。もう1つの特定の例では、人工ポリヌクレオチド配列が、人工染色体の100%を形成する。
【0049】
人工ポリヌクレオチド配列の長さは、変えることができる。人工ポリヌクレオチド配列の長さは、人工染色体全体の長さとしてよい。したがって、人工ポリヌクレオチド配列の長さは、約10
3〜10
9ヌクレオチド長の範囲とすることができる。1つの例では、人工ポリヌクレオチド配列が、少なくとも1,800ヌクレオチド長である。もう1つの例では、人工ポリヌクレオチド配列が、20Mb未満長である。このため、人工ポリヌクレオチド配列は、例えば、1,800ヌクレオチド長〜20Mb長としてよい。もう1つの例では、人工ポリヌクレオチド配列の長さは、本明細書に開示されたフラグメントの長さと同じとしてよい。例えば、人工ポリヌクレオチド配列の長さは、例えば、20ヌクレオチド〜10,000,000ヌクレオチド長としてよい。
【0050】
人工染色体の人工ポリヌクレオチド配列は、公知の天然配列(すなわち、生物のいずれかから分離されたポリヌクレオチド配列のいずれか)のいずれかと相同性がほとんどない、または相同性がない。したがって、本明細書に開示された染色体は、「人工」染色体として記載されている。相同性の程度は、当該技術分野で公知の好適な配列比較方法のいずれかを用いて、公知の天然ポリヌクレオチド配列のいずれかと人工染色体の人工ポリヌクレオチド配列の比較によって決定してよい。人工染色体の人工ポリヌクレオチド配列と公知の天然ポリヌクレオチド配列のいずれかの間に共有される配列同一性がほとんどない、または配列同一性がないということは、人工ポリヌクレオチド配列が、公知の天然配列のいずれかと相同性がほとんどない、または相同性がないことを示す。
【0051】
人工染色体の人工ポリヌクレオチド配列は、完全に人工としてよく、公知の天然配列のいずれかと相同性がないとしてよい。このため、人工染色体配列は、公知の天然ヌクレオチド配列のいずれかと配列同一性を共有しないとしてよい。
【0052】
1つの例では、人工ポリヌクレオチド配列の10,000,000隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する。もう1つの例では、人工ポリヌクレオチド配列の1,000,000隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する。他の例では、人工ポリヌクレオチド配列の500,000隣接ヌクレオチドのいずれか、100,000隣接ヌクレオチドのいずれか、50,000隣接ヌクレオチドのいずれか、10,000隣接ヌクレオチドのいずれか、1,000隣接ヌクレオチドのいずれか、500隣接ヌクレオチドのいずれか、400隣接ヌクレオチドのいずれか、300隣接ヌクレオチドのいずれか、250隣接ヌクレオチドのいずれか、200隣接ヌクレオチドのいずれか、150隣接ヌクレオチドのいずれか、100隣接ヌクレオチドのいずれかまたは50隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する。特定の例では、人工ポリヌクレオチド配列の250隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する。もう1つの特定の例では、人工ポリヌクレオチド配列の150隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する。特定の例では、人工ポリヌクレオチド配列の100隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する。本明細書に開示された人工ポリヌクレオチド配列のいずれかでは、人工ポリヌクレオチド配列の10,000,000隣接ヌクレオチドのいずれか、1,000,000隣接ヌクレオチドのいずれか、500,000隣接ヌクレオチドのいずれか、100,000隣接ヌクレオチドのいずれか、50,000隣接ヌクレオチドのいずれか、10,000隣接ヌクレオチドのいずれか、1,000隣接ヌクレオチドのいずれか、500隣接ヌクレオチドのいずれか、400隣接ヌクレオチドのいずれか、300隣接ヌクレオチドのいずれか、250隣接ヌクレオチドのいずれか、200隣接ヌクレオチドのいずれか、150隣接ヌクレオチドのいずれか、100隣接ヌクレオチドのいずれか、50隣接ヌクレオチドのいずれか、25隣接ヌクレオチドのいずれか、21隣接ヌクレオチドのいずれかまたは20隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと、任意の組み合わせまたは並べ換えで、100%未満、95%未満、90%未満、80%未満、70%未満、60%未満、50%未満、40%未満、30%未満、20%未満、10%未満、5%未満、または1%未満の配列同一性を有してよい。このため、例えば、人工ポリヌクレオチド配列の21隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと50%未満、40%未満、30%未満、20%未満、10%未満、5%未満、または1%未満の配列同一性を有してよい。1つの特定の例では、人工ポリヌクレオチド配列の21隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと50%未満の配列同一性を有する。
【0053】
人工染色体の小部分(例えば、8、9、10、11、12、13、14または15隣接ヌクレオチド)が、同じ長さの公知の天然ヌクレオチド配列のいずれかと相同としてよい。例えば、人工染色体のかかる小部分が、対象の配列変異を含む公知の天然ヌクレオチド配列の小部分を複写してよい。例えば、人工染色体の小部分(例えば、8、9、10、11、12、13、14または15隣接ヌクレオチド)が、その長さに渡って、特定の遺伝子の変異などの対象の配列変異を含む公知の天然ヌクレオチド配列と100%同一としてよい。人工染色体配列の大部分が、公知の天然ヌクレオチド配列のいずれかと相同性をほとんど共有しなくてよい、または相同性を共有しなくてよい(それゆえ、人工ポリヌクレオチド配列としてよい)が、人工染色体は、追加で1つ以上の対象のかかる小部分または特定の配列を含有してよい。
【0054】
人工染色体が、公知の天然ヌクレオチド配列といくつかの配列同一性を共有するポリヌクレオチド配列を含む、またはこれからなる場合、人工染色体は、機能性mRNA、rRNA、tRNA、lncRNA、snRNA、snoRNAまたは機能性ポリペプチドもしくはタンパク質をコードしなくてよい。
【0055】
本明細書に開示された人工染色体の人工ポリヌクレオチド配列は、公知の天然ポリヌクレオチド配列のいずれかと一次ヌクレオチド配列同一性を共有しないにもかかわらず、1つ以上の天然ポリヌクレオチド配列(例えば、天然染色体)の一般的特徴を含有することができる。このため、本明細書に開示された人工染色体のフラグメントは、1つ以上の天然ポリヌクレオチド配列の一般的特徴を含有することができる。例えば、人工ポリヌクレオチド配列は、遺伝子、反復エレメント、モバイルエレメント、小規模な遺伝的変動、大規模な遺伝的変動等(これらに限定されない)を含む、通常、真核生物及び/または原核生物染色体またはゲノムにみられる遺伝的特徴をコードすることができる。
図1は、かかる典型的な特徴の実例を提供し、これらのいずれか1つまたはそれ以上が、任意の組み合わせで本明細書に開示された人工ポリヌクレオチド配列に含まれてよい。
【0056】
人工染色体を生成すること:
本開示は、また、本明細書に開示された人工染色体またはそのフラグメントを生成する(または「作製する」)方法を提供する。さらに、本開示は、本明細書に開示された方法のいずれか1つまたはそれ以上によって生成される(または「作製される」)人工染色体またはそのフラグメントを提供する。本明細書に開示された人工染色体は、本明細書に記載されたとおり、いくつかの好適な方法によって作製してよい。例えば、人工染色体は、延長された隣接ポリヌクレオチド配列を形成するようにヌクレオチドのランダム付加によって、in silicoで他の公知の天然配列と配列同一性をほとんど有しない、または配列同一性を有しない隣接ポリヌクレオチド配列を生成することによって作製してよい。人工染色体配列を生成するのに用いることができる好適なソフトウエアプログラムとしては、ランダムDNA配列を生成するためのソフトウエア、例えば、FaBox(Villesen 2007)またはRANDNA(Piva and Principato 2006);DNA配列をシャッフルするためのソフトウエア、例えば、uShuffle(Jiang,Anderson et al.2008)及びShufflet(Coward 1999)が挙げられる(例えば、これらのものであり、これらに限定されない)。
【0057】
あるいは、人工染色体は、天然ソースから同定された公知または天然のヌクレオチド配列(本明細書では「テンプレート」配列を意味する)を取り出し、その後、テンプレート配列の公知の天然ポリヌクレオチド配列のいずれかと共有される配列同一性を除去する、または減少させるために、ヌクレオチドをシャッフルすること(または「再配列すること」)によって作製してよい。1つの例では、人工染色体の全ヌクレオチドを一緒にシャッフルし、ヌクレオチド順序を変えることができる。1つの例では、テンプレート配列に従って別々のヌクレオチド長のウインドウにテンプレートヌクレオチド配列内の隣接ヌクレオチドを分割することができ、単一のウインドウ内のヌクレオチドだけを一緒にシャッフルすることができる。これによりウインドウ内の一次ヌクレオチド配列を再配列することができ、この結果、シャッフルされた(または「再配列された」)配列が、公知の天然配列のいずれかと配列同一性をほとんど共有しない、または、共有しないが、同時に、オリジナルの公知または天然の配列に特有であるヌクレオチド組成物のより広い特性を保持している。例えば、テンプレート配列に当てはまるウインドウ中に存在する同じヌクレオチドが、同じウインドウ内のシャッフルされた配列中に保持されることを確実にすることによって、シャッフルされたウインドウの長さで、ウインドウ内のヌクレオチドの偏りのいずれか(例えば、高グアニンまたはシトシン含有率)を保持することができる(
図2の実例によって例示されるとおり)。このため、本明細書で意味する「シャッフリング」は、ポリヌクレオチド配列の固定長内の同じヌクレオチドを再配列し、ポリヌクレオチド配列の固定長内に存在する特定のヌクレオチドそれぞれの数の変更を含まない。
【0058】
配列特有の特徴が、次世代シーケンシング及び分析で、天然遺伝的特徴の発現を偏らせる可能性があるため、テンプレート配列の高レベルのヌクレオチド組成物特性を保持することには、利点がある可能性がある。例えば、高または低グアニンまたはシトシン含有率(GC%)を有する配列では、ライブラリー調製中のPCRによって不十分に増幅され、その結果、シーケンシングライブラリー内の発現が不十分であってよい。あるいは、反復配列構造を有する配列を明白にアラインすることが困難であり、その結果、分析中の発現が不十分となる可能性がある。本明細書に開示された人工染色体及びスタンダードは、天然遺伝的特徴をエミュレートするように設計することができるため、テンプレート配列と同じ配列特有の偏りを反映するように人工染色体またはスタンダードの合成一次配列を生成することができる。このため、本明細書に開示された人工染色体またはスタンダードは、人工一次配列を有すると同時に、オリジナルテンプレート配列としてヌクレオチド組成物及び/または反復構造を維持することができる。
【0059】
シャッフリングのいずれかを実施するために選択されるウインドウサイズは、固定のポリヌクレオチド長さ(例えば、10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1000以上のヌクレオチド)に一致させることができる。あるいは、選択されるウインドウサイズは、テンプレート配列中に存在するより高次の遺伝的特徴(例えば、イントロン、エキソン、CpGアイランドなど)の境界に一致させることができる。例えば、遺伝子の一次イントロン及びエキソン配列は、シャッフルすると同時に、なお、組織化エキソン及びイントロン特徴を維持することができる。このため、人工染色体内の人工ポリヌクレオチド配列の一次配列が公知または天然の配列とマッチングしないにもかかわらず、より高次の遺伝的特徴の構造及び組織化を保持することができる。
【0060】
あるいは、人工染色体は、天然ソースから同定される公知または天然のヌクレオチド配列(「テンプレート」配列)を取り出し、その後、テンプレート配列をリバースすることによって作製してよい。天然ヌクレオチド配列(DNAまたはRNA配列)は、ヌクレオチド塩基間のリン酸ジエステル結合によって強いられる内因性の5’から3’への方向性を有する。3’から5’への方向に配列をリバースすると、この方向性が妨害され、オリジナルテンプレート配列への相同性(または配列同一性)をもはや有しない配列が生成される。人工染色体を生成する本方法の1つの利点が、テンプレート配列への配列同一性が除去されても、ヌクレオチド組成物及びオリジナル配列の反復性が保持されることである。それゆえ、リバースされた配列は、「人工」であり、オリジナル内因性配列(正しい方向性を有する)と識別することができる。
【0061】
あるいは、人工染色体は、天然ソースから同定される公知または天然のヌクレオチド配列(「テンプレート」配列)を取り出し、その後、配列内の別のヌクレオチドにヌクレオチドを置換することによって作製してよい。例えば、グアニンヌクレオチドは、シトシンヌクレオチドに置換することができ、シトシンヌクレオチドは、グアニンヌクレオチドに置換することができ、アデニンヌクレオチドは、チミンヌクレオチドに置換することができ、及び/またはチミンヌクレオチドは、アデニンヌクレオチドに置換することができる。個々のヌクレオチド及び一次配列が、変化する可能があっても、体系的方法でヌクレオチドを置換することによって、配列の反復構造を維持することができ、ピリミジン及びプリン組成物を維持することができ、及び/またはGC含有率を維持することができる。
【0062】
シャッフルする、置換する及びリバースする技術は、任意の組み合わせまたは並べ換えで、人工染色体及び/またはそのフラグメントの作製中にそれぞれを適用することができると理解される。このため、リバースされた配列中の残りの公知の天然配列との相同性のいずれかを減少させる、または除去するために、例えば、テンプレート配列をリバースすることができ、その後、リバースされた配列中の選択されたウインドウをシャッフルすることができる。あるいは、シャッフルされた配列中の残りの公知の天然配列への相同性のいずれかを減少させる、または除去するために、例えば、テンプレート配列をシャッフルすることができ、シャッフルされた配列中の選択されたウインドウをリバースすることができる。
【0063】
公知の天然配列との相同性が、人工染色体ヌクレオチド配列内に存在するかどうかを確認するために、BLASTnソフトウエアプログラム(Altschul,S.F.,et al.,1990)などのソフトウエアプログラムで、公知のヌクレオチド配列データベース(例えば、NCBIヌクレオチドコレクション(nr/nt)データベース)を検索することができる。また、複数のヌクレオチド配列のアライメント及び比較を容易にする他の好適なソフトウエアプログラム、例えば、FASTA(Pearson and Lipman1988)またはENA配列サーチ(http://www.ebi.ac.uk/ena/search/)を用いることができる。複合配列では、相同性は、通常、公知の配列とマッチングする21以上の隣接ヌクレオチド配列(例えば、21以上のヌクレオチド配列長に渡って100%配列同一性を有する)に相当する。単一配列(例えば、反復またはモノヌクレオチド組成物)では、相同性は、0.01未満またはこれに等しい期待(E)値(NCB1 BLAST(Altschul,S.F.,et al.,1990)に定義されるとおり)に相当する。このため、本明細書に開示された人工ポリヌクレオチド配列の21以上の隣接ヌクレオチドのいずれかは、0.01未満またはこれに等しいE値(NCB1 BLAST(Altschul,S.F.,et al.,1990)に定義されるとおり)を有してよい。
【0064】
シャッフルする、置換する及び/またはリバースする技術が、所望の程度まで他の公知の天然配列と共有される配列同一性を除去しない、またはこれを十分に減少させない場合、所望のレベルの配列類似性の減少を実現するために個々のヌクレオチド置換を生成することができる。このため、残りの共有される配列同一性のいずれかを除去するために、ヌクレオチドの特定の挿入、欠失または置換によって、シャッフルされた、置換された、またはリバースされた配列をさらに、編集する(または「キュレートする」)ことができる。したがって、本明細書に開示された人工染色体の生成方法は、公知の天然配列のいずれかと共有される配列同一性のいずれかを減少させる、またはこれを除去するために、さらに、シャッフルされた、置換された、またはリバースされたヌクレオチド配列を編集することを含んでよい。
【0065】
相同性を除去するために、天然ゲノムまたは染色体配列のいずれもシャッフルする、置換する、またはリバースすると同時に、天然ゲノムまたは染色体配列のヌクレオチド組成物の特徴を保持することができる。公に利用可能なヌクレオチドオンラインデータベースのいずれか1つまたはそれ以上から好適な天然ヌクレオチド配列を同定することができる。好適なヌクレオチドオンラインデータベースの例としては、GenBank及びヌクレオチドコレクション(nr/nt)データベース (National Center for Biotechnology Information)、DNA Data Bank of Japan (National Institute of Genetics)及びEMBL−BANK(European Bioinformatics Institute)が挙げられる。あるいは、天然ソースからポリヌクレオチドを分離し、公知のシーケンシング技術を用いて、そのポリヌクレオチドのシーケンシングによって好適な天然ヌクレオチド配列を得てよい。1つの例では、天然ゲノムまたは染色体配列が、ヒトまたはマウスゲノムまたは染色体配列などの哺乳動物ゲノムまたは染色体配列である。例えば、参照ヒトゲノム配列(例えば、最新の注釈バージョンhg19)から天然ヌクレオチド配列を選択してよい。あるいは、哺乳動物配列のいずれか(例えば、M.musculus mm10)、脊椎動物ゲノムのいずれか(例えば、D.rerio danRer7)、動物配列のいずれか(例えば、C.elegans ce10、D.melanogastor dm3など)、植物配列のいずれか(例えば、A.thalianis tair9)、菌配列のいずれか(例えば、N.crassa)または真核生物配列のいずれか(例えば、S.cerevisae SacCer6)、または細菌配列のいずれか(例えば、E.coli eschColiK12)、または原始細菌配列のいずれか(例えば、M.kandleri methKand1)、またはウイルス、ファージ及びオルガネラ配列のいずれか((例えば、Hepatitis delta virus)から天然ヌクレオチド配列を選択してよい。
【0066】
本明細書に開示された人工染色体内の人工ポリヌクレオチド配列は、単一の種に由来する公知の天然ゲノム配列のいずれか、または複数の種に由来する公知の天然ゲノム配列のいずれかと識別可能なものとしてよい。例えば、本明細書に開示された人工染色体内の人工ポリヌクレオチド配列は、公知の天然ヒトゲノム配列のいずれかと識別可能なものとしてよい。もう1つの例では、本明細書に開示された人工染色体内の人工ポリヌクレオチド配列は、生物のいずれかの公知の天然ゲノム配列のすべてと識別可能なものとしてよい。
【0067】
もう1つの実例では、テンプレート配列として、高GC含有率(75%)を有するAnaeromyxobacter dehalogensゲノムを用いることができる。A.dehalogensゲノム配列をシャッフルすると、オリジナルA.dehalogensゲノム(または他の天然または公知の配列のいずれか)と相同性がない(または、共有される配列同一性がない)ポリヌクレオチド配列を含むが、A.dehalogensゲノムの特徴である高GC含有率を保持する人工染色体を生成することができる。
【0068】
本明細書に記載されたプロセスは、公知または天然の配列のいずれかと相同性(または共有される配列同一性)がない複数の隣接ヌクレオチド配列を生成するために用いることができる。単一のマージされた隣接配列を形成するために、これらの複数の配列を再配列し、混合することができる。このため、本明細書に開示された人工染色体は、そのデザイン及び構成に多くの柔軟性を提供するモジュール方式で作製することができる。例えば、まとめて単一の複合人工染色体にアセンブルする前に、できる限り異なる遺伝的特徴をコードする複数の配列を、単独で作製することができる。また、異なる配列組み合わせをアセンブルすると、特定の調査または診断の要件のためにカスタムビルド人工染色体の作製が可能になる。
【0069】
さらに、複数の(すなわち、2つ以上の)人工染色体を生成し、一緒に用いることができる。したがって、本開示は、また、2つ以上の人工染色体のライブラリーを提供する。ライブラリーに入れるために選択される染色体の数は、ライブラリーの特定の意図される用途に応じて選択することができる。1つの例では、人工染色体のライブラリーは、倍数体ゲノムを含む全ゲノムの組織化をエミュレートすることができる。例えば、46の別個の染色体配列でヒトゲノムの組織化をエミュレートするために、46の人工染色体を含有する人工染色体のライブラリーを作製することができる。このため、個々の人工染色体配列を複製し、倍数体人工ゲノムを形成することができる。複製人工染色体間に配列変動を組み入れ、これにより、天然接合生殖性をシミュレートすることができる。もう1つの例では、人工染色体のライブラリーが、微生物のコレクションまたはコミュニティ(例えば、シーケンシング分析にかける環境試料中に存在するものとしてよい)として存在する複数の微生物ゲノムをエミュレートしてよい。例えば、かかるコレクションが、10を越える、例えば、約30の異なる人工染色体を含んでよい。
【0070】
追加の人工染色体の特徴:
上記に記載されたとおり、人工染色体(またはそのフラグメント)は、1つ以上の(またはいずれか)天然生物中に存在しない一次ヌクレオチド配列を含有するにもかかわらず、より高いレベルの特徴、例えば、真核生物遺伝子座、CpGアイランド、モバイルエレメント、反復ポリヌクレオチド特徴、小規模な遺伝的変動及び大規模な遺伝的変動または原核生物遺伝子座、DNA反復、及び/またはモバイルエレメントを組み入れることができ、完全長または機能性mRNA、rRNA、tRNA、microRNA、piRNA、lncRNA、snRNA、snoRNA、機能性翻訳リーディングフレーム、ポリペプチドまたはタンパク質をコードしない。人工染色体のこれらの特徴及び他の追加または別の特徴が、本明細書に記載されている。
【0071】
人工遺伝子
人工染色体の人工ポリヌクレオチド配列は、1つ以上の人工遺伝子を含むことができる。1つ以上の人工遺伝子は、介在するイントロンと1つ以上のエキソンを含むことができる。イントロン及び/またはエキソンは、任意の好適な長さのものとすることができる。例えば、エキソンは、25ヌクレオチド〜10キロベース(kb)の長さとしてよい。イントロンは、50ヌクレオチド〜2メガベース(Mb)の長さとしてよい。遺伝子全体のサイズは、200ヌクレオチド〜4Mbの範囲としてよい。人工染色体に存在する人工遺伝子の数は、1〜10,000で変えてよい。人工遺伝子それぞれの生成されるアイソフォームの数は、1〜200で変えてよい。1つの人工遺伝子当たりのエキソンの数は、1〜300で変えてよい。1つの人工遺伝子当たりのイントロンの数は、1〜300で変えてよい。
【0072】
人工遺伝子は、本明細書に記載された好適な方法のいずれかによって生成することができる。例えば、人工遺伝子は、本明細書に記載されたシャッフリング技術を用いて、天然テンプレートヌクレオチド配列の天然イントロン及びエキソン配列に対応するシャッフリングウインドウを用いて、生成することができる。いったんシャッフルされる(さらに、必要であれば、手動で編集される)と、人工遺伝子は、その後、オリジナル天然遺伝子のイントロン及びエキソン構造を有する人工染色体中に再作製することができる(
図3の人工染色体の実例によって例示されるとおり)。さらに、人工染色体内にコードされる人工遺伝子座に、15未満ヌクレオチドの小さな配列要素、例えば、スプライシング及び転写開始部位及び停止配列要素を入れることができる。
【0073】
人工モバイルエレメント
人工染色体の人工ポリヌクレオチド配列は、1つ以上のモバイル反復エレメントを含むことができる。モバイル反復エレメントは、人工染色体全体に点在する複数のコピーとして存在するきわめて類似したDNA配列である。これらの長さ及び存在量は、必要に応じて、変えることができる。例えば、本開示の人工染色体に組み入れることができる人工モバイルエレメントの反復ユニットの長さは、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000以上のヌクレオチドとすることができる。例えば、人工モバイルエレメントの反復ユニットのサイズは、100ヌクレオチド〜10kbで変えることができる。本明細書に開示された人工染色体中に存在する反復エレメントの数は、人工染色体の全長の0.1〜90%を占めてよい。
【0074】
1つの例では、モバイルエレメントの長さ及び存在量が、天然モバイル挿入エレメントをエミュレートするように合わせられる。さらに、モバイルエレメントの一次配列が、公知の天然モバイルエレメントのいずれかと配列同一性がほとんどない、またはこれがないように生成される。本開示の人工染色体に含めてよい好適なモバイルエレメントの例が、ヒトSINEエレメントをエミュレートするモバイルエレメントである。かかるモバイルエレメントの長さは、約350ヌクレオチドである。1つの例では、人工染色体配列の約10%(例えば、10.7%)を含むように人工染色体にヒトSINEエレメントをエミュレートする複数のモバイルエレメントを組み入れることができる。
【0075】
古くから最近までの挿入事象の変異の蓄積から生じるモバイル反復エレメントの階層構造をエミュレートするように人工モバイルエレメントを生成することができる(Lander,E.S.et al.,2001)。例えば、最初に、公知の天然配列との相同性を除去するために、モバイルエレメントのオリジナル天然(「祖先」)反復配列をシャッフルすることができる。その後、複数のコピーを生成するためにシャッフルされたモバイルエレメント配列を複製することができる。例えば、人工染色体は、人工モバイルエレメントの少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも500、少なくとも1,000または少なくとも2,000以上のコピーを含有してよい。その後、祖先配列からモバイル反復配列の配列変性を複写するために、1つ以上のコピー(またはそれぞれのコピー)をランダムヌクレオチド置換、挿入及び欠失させることができる(
図4の実例によって例示されるとおり)。モバイルエレメントは、また、一定の範囲のモバイルエレメントを生成するために、さらに、ヌクレオチド置換及び増幅の複数のサイクルにかけることができる。
【0076】
反復ポリヌクレオチド配列
人工染色体の人工ポリヌクレオチド配列は、例えば、末端反復、例えばテロメア、逆方向反復、及びタンデム反復、例えばセントロメアを含む反復DNA特徴などの反復ポリヌクレオチド特徴を含むことができる。タンデム、逆方向及び末端反復DNAは、一連の反復ユニット増幅事象から進め、新しい反復サブファミリーを広げることができる。反復ユニット増幅の連続ラウンド、続いて、人工的に複写された配列分散(例えば、ランダムヌクレオチド置換、欠失及び/または挿入を挿入するための反復ユニットの操作によって;
図5の実例によって例示されるとおり)を用いることによって、人工反復DNAを設計する場合、反復DNA配列を生成するこのプロセスをエミュレートすることができる。この反復プロセスは、反復ユニットのサブセット間の階層的関係性を維持する反復DNAタンデムアレーを生成することができる。
【0077】
このため、人工染色体の人工ポリヌクレオチド配列は、サテライトDNAなどの反復ヒト遺伝的特徴をエミュレートする人工反復DNAを含むことができる。もう1つの例では、人工染色体が、1つ以上のセントロメアを含有することができる。セントロメアは、25〜5,000ヌクレオチド長間のDNA配列を有するタンデム反復ユニットの大きなアレーを構成することができる。あるいは、または、さらに、人工染色体は、反復テロメア配列を含有することができる。反復テロメア配列は、任意の好適な長さのものとすることができる。例えば、反復テロメア配列は、5、6、7、8、9、10、11、12、13、14、15、20以上のヌクレオチドの反復ユニットを含むことができる。例えば、反復テロメア配列は、4〜10ヌクレオチド長とすることができる。1つの例では、かかるテロメア配列が、配列末端に最長10kbまでタンデム反復された6ヌクレオチドモチーフを含むことができる。必要に応じて、他の好適な反復を設計することができる。本明細書に開示された人工染色体に任意の好適な数の反復を組み入れることができる。1つの例では、テロメア反復のコピー数は、5,000〜50,000としてよい。
【0078】
小規模な遺伝的変動
小規模な遺伝的変動(例えば、すべて、50未満隣接ヌクレオチド長である単一のヌクレオチド多型、挿入、欠失、複製、及び複数のヌクレオチド多型を含む)を本明細書に開示された複数の人工染色体に組み入れることができる。例えば、2つ以上の人工染色体に存在する2つ以上の変異が、2つ以上の対立遺伝子を示す(
図6の実例によって例示されるとおり)遺伝的変動をシミュレートするために、一対の人工染色体間のヌクレオチド差を生成することができる。したがって、複数の人工染色体が、複数の対立遺伝子の典型とすることができる。例えば、1つの対立遺伝子の2つのコピーを含有するように、倍数体ゲノムの一部分をエミュレートする人工染色体の2つのマッチングコピーを生成することができる(これにより、ホモ接合性をシミュレートする)。あるいは、人工染色体の2つのコピーのそれぞれが、異なる対立遺伝子を含有することができる(これにより、ヘテロ接合性をシミュレートする)。所望のとおり、複数の人工染色体上に複数の対立遺伝子を調製することができると理解される。したがって、本開示は、天然対立遺伝子変動の典型である複数の人工染色体のコレクション(または「ライブラリー」)を提供する。1つの例では、2、3または4人工染色体上の2、3または4人工対立遺伝子が提供される。
【0079】
本明細書に開示された人工染色体中に組み込むための小規模な遺伝的変動の生成中に、公知の天然配列との相同性のいずれかを除去するように編集するのに、小規模な変動ヌクレオチド配列及びフランキング人工配列が必要となる可能性がある。
【0080】
また、本明細書に開示された人工染色体中に疾患と関係する遺伝的変動を示すポリヌクレオチド配列を組み入れることができる。例えば、変異のマッチング局所配列コンテクストを提供するために人工染色体に特定のSNPなどの特定の診断の遺伝的特徴を挿入する同時に、より広いレベルで公知の天然配列と相同性がほとんどない、または、これがないことを維持することができる。
【0081】
公知の遺伝的変動のエミュレーションが複数の人工染色体を必要とするため、「コンセンサス」、または「参照」配列(例えば、hg19ヒトゲノムアセンブリ、mm10マウスゲノムアセンブリ等のコンセンサスゲノムアセンブリと類似する)及び遺伝的変動の1つ以上の部位で参照染色体と異なる1つ以上の複数の別個の人工染色体(または「変動型」人工染色体)と考えられる特定の人工染色体を生成することができる。したがって、本明細書に開示された人工染色体のライブラリーは、単一の参照人工染色体及び遺伝的変動の1つ以上の部位で参照染色体と異なる1つ以上の変動型人工染色を含むことができる。
【0082】
大規模な遺伝的変動
また、本明細書に開示された複数の人工染色体に、大規模な遺伝的変動(例えば、大きな欠失、複製、コピー数変異、挿入、逆位及び転座を含み、それぞれが50以上の隣接ヌクレオチドのヌクレオチド配列と関係する)を組み入れることができる。天然大規模な遺伝的変動は、通常のショットガンショート配列リード長より大きなヌクレオチド配列に影響を及ぼし、さらに、天然の、試料ヌクレオチド配列中の構造的変動の検出及び分解を複雑にすることが多い。
【0083】
本明細書に記載されたとおり、大規模な変動の構造的ユニットサイズとマッチするウインドウサイズで、トランスバージョン、コピー数変動及び/またはモバイルエレメント挿入によって影響を受けるヌクレオチド配列のシャッフリングを実施することができる。例えば、複製前に単一の反復ユニットをシャッフルし、複製されたコピーが同じシャッフルされた配列を共有することができる。もう1つの例では、トランスバージョン前に配列をシャッフルし、配向及び切断点だけがテンプレート配列と異なるようにすることができる。もう1つの例では、モバイルエレメントの挿入前に配列をシャッフルし、挿入により同じ人工染色体中の他のモバイルエレメントとの配列相同性を保持することができる。
【0084】
本明細書に開示された複数の人工染色体に組み入れることができる大規模な遺伝的変動の1つの例が、転座である。転座は生じさせることができ、それによって、配列が2つの人工染色体間に再配列され、2つの相互融合人工染色体を生成する(
図9の実例によって例示されるとおり)。2つの非相同性人工染色体間の転座の結果、2つの異なる遺伝子を融合させ、キメラ遺伝子融合を生成することができる。このため、本明細書に開示された人工染色体は、1つ以上の人工キメラ遺伝子融合を含むことができる。
【0085】
人工微生物ゲノム
微生物ゲノム(人工染色体は、また、本明細書で「人工微生物ゲノム」を意味する)をシミュレートするために、本明細書に開示された人工染色体の人工ポリヌクレオチド配列を設計することができる。例えば、本明細書に開示された方法によって天然配列との一次配列相同性を除去するために、天然微生物ゲノムをシャッフルすることによって人工染色体を生成し(
図10の実例によって例示されるとおり)、同時に、なお、オリジナル微生物ゲノムの特定の特徴(例えば、サイズ、rRNAオペロン数、GC%、反復含有率等であるが、これらに限定されない)を保持することができる。
【0086】
メタゲノム分析の人工微生物コミュニティをシミュレートするために複数の人工染色体を生成することができる。このため、本開示は、また、オリジナルの、天然微生物ゲノム配列と共有される配列同一性のいずれもが減少した、またはこれが除去された2つ以上の人工微生物ゲノムのライブラリーを提供する。メタゲノム試料内の微生物集団のさまざまな存在量に一致させるように、個々の人工微生物ゲノムの相対的存在量を選択することができる。したがって、通常、メタゲノム分析中にプロファイルされる不均一微生物コミュニティをエミュレートするために人工微生物ゲノムのライブラリーを生成することができる。本明細書に開示された人工微生物ゲノムを、任意の好適な数でライブラリーに混合することができる。1つの例では、ライブラリーが、3〜3,000人工微生物ゲノムを含有してよい。
【0087】
本明細書に開示された人工微生物ゲノムは、1つ以上の遺伝子座をコードすることができる。遺伝子座は、通常、メタゲノムコミュニティの系統プロファイリングに用いられる人工16遺伝子を含んでよい(例えば、Edwards,R.A.et al.,2006を参照)。16S rRNA遺伝子内の可変領域のPCR増幅及びシーケンシングが、試料内の微生物の存在量及び分類学的多様性を評価する一次的アプローチとなる。本明細書に開示された人工微生物ゲノム中に存在する人工16S rRNA配列は、通常、公知の天然配列との相同性を除去するためにシャッフルされ、同時に、アンプリコンシーケンシングに用いられるユニバーサルプライマーと相補的な配列を合わせ、天然配列と同一であるままにすることができる(
図11の実例によって例示されるとおり)。
【0088】
人工免疫受容体クロノタイプ
本明細書に開示された人工染色体の人工ポリヌクレオチド配列は、IgA、IgH、IgL、IgK、IgM、TCRA、TCRB、及びTCRG受容体等のいずれか1つまたはそれ以上の発現を含む1つ以上の免疫細胞受容体遺伝子座をコードすることができる。多様な範囲のクロノタイプと称される配列を生成するために、これらの免疫グロブリン及びT細胞受容体遺伝子座(loci)に、V(D)J組み換え及び体細胞超変異を受けさせる。人工クロノタイプのスイートを生成するために人工染色体配列を用いて、これらの生物学的プロセスをモデル化することができる。
【0089】
免疫グロブリン及びT細胞受容体配列からの可変(V)セグメント、連結(J)セグメント及び多様性(D)セグメント配列(及びフランキングイントロン)をヒトゲノムなどのゲノム配列から取り出し、単独でシャッフルし、相同性を減少させる、またはこれを除去することができる。いくつかの例では、通常、免疫受容体のアンプリコンプロファイリングに用いられるユニバーサルプライマー配列と相補的な小さな(例えば、20ヌクレオチド長)配列を保持することが必要とされる可能性がある(例えば、van Dongen,J.J.et al.,2003を参照)。その後、D−J遺伝子セグメントを形成するために、ランダムで選択される多様性(D)セグメントと最初に混合される連結(J)セグメントをランダムで選択することによって、人工免疫グロブリン及びT細胞受容体遺伝子座のV(D)J組み換えを実施し、除去される配列を介在させ、続いて、ランダムで選択される可変(V)セグメントと連結し、その結果、再配列された人工VDJ遺伝子セグメントとすることができる(
図12及び13の実例によって例示されるとおり)。異なるセグメントのランダム選択は、異なるセグメント組み合わせの莫大なレパートリーを生成する。セグメントジャンクションまたはセグメント内でヌクレオチドの置換、付加または欠失によって追加の多様性を付加することができる。再配列された人工遺伝子セグメントのそれぞれが、本明細書で「クロノタイプ」を意味する。通常、ヒト白血球の免疫レパートリーシーケンシング中にみられる天然免疫受容体クロノタイプのサイズ、多様性、複雑度及びプロファイルをエミュレートするために、本方法によって、多くの人工クロノタイプを生成することができる。
【0090】
コンピュータ読取可能媒体:
in silicoで、本明細書に開示された人工染色体を提供してよく、それゆえ、コンピュータ読取可能媒体で提供してよい。このため、本開示は、また、1つ以上の本明細書に開示された人工染色体の典型であるデータを含有するコンピュータ読取可能媒体を提供する。コンピュータ読取可能媒体は、一時的でないものとしてよい。
【0091】
コンピュータ読取可能媒体は、コンピュータ読取可能媒体に記憶される人工染色体または染色体を分析するように適合されるコンピュータシステムと一緒に提供してよい。
【0092】
本開示は、また、コンピュータ読取可能媒体に記憶される人工染色体または染色体の分析を可能にするソフトウエアを提供する。例えば、ソフトウエアは、人工染色体配列と所与のインプット配列の配列を比較して、配列比較を実施可能にしてよい。この機能を実現することができる公知のソフトウエアパッケージのいずれかを用いることができる。
【0093】
ポリヌクレオチドスタンダード:
RNAまたはDNAポリヌクレオチドとして、本明細書に開示された人工染色体配列の一部または全部のいずれかを物理的に生成することができる。このため、本開示は、また、人工染色体の人工ポリヌクレオチド配列の20〜10,000,000隣接ヌクレオチドを含む、またはからなる本明細書に開示された人工染色体のフラグメントを提供する。例えば、当該フラグメントは、人工ポリヌクレオチド配列の10,000,000隣接ヌクレオチドのいずれか、1,000,000隣接ヌクレオチドのいずれか、500,000隣接ヌクレオチドのいずれか、100,000隣接ヌクレオチドのいずれか、50,000隣接ヌクレオチドのいずれか、10,000隣接ヌクレオチドのいずれか、1,000隣接ヌクレオチドのいずれか、500隣接ヌクレオチドのいずれか、400隣接ヌクレオチドのいずれか、300隣接ヌクレオチドのいずれか、250隣接ヌクレオチドのいずれか、200隣接ヌクレオチドのいずれか、150隣接ヌクレオチドのいずれか、100隣接ヌクレオチドのいずれか、50隣接ヌクレオチドのいずれか、25隣接ヌクレオチドのいずれか、21隣接ヌクレオチドのいずれかまたは20隣接ヌクレオチドのいずれかを含んでよい、またはこれらからなるものでよい。かかるフラグメントが、本明細書で「スタンダード」を意味する。ポリヌクレオチドスタンダードは、人工染色体の対応する人工配列とマッチする。したがって、ポリヌクレオチドスタンダードは、本明細書に開示された人工染色体の特徴のいずれか1つまたはそれ以上の典型とすることができる。本明細書に開示されたスタンダードは、人工染色体と無関係に用いることができると理解される。例えば、人工スタンダードは、人工染色体への参照を必要としないで、ポリヌクレオチド定量プロセスを校正するために用いることができる。
【0094】
本明細書に開示された人工染色体に基づいた物理的、実体的スタンダードの生成は、多種多様なシーケンシング方法(PCR増幅及びNGSシーケンシング方法を含む)の校正を可能にする。例えば、これは、増幅及び/またはシーケンシング方法が実施される前に、所与のRNAまたはDNA試料に公知の量の1つ以上のポリヌクレオチドスタンダードを添加することによって実施してよい。人工染色体を参照した公知のポリヌクレオチドスタンダードのシーケンシングの分析により、用いられる特定の増幅及び/またはシーケンシング方法の有力な校正が提供される。
【0095】
RNAスタンダードの生成
スタンダードは、RNAスタンダードとしてよい。RNAスタンダードは、人工染色体によってコードされる対象の特徴とマッチし、これの典型であるRNA分子である。例えば、RNAスタンダードは、人工染色体によってコードされる人工遺伝子または転写されるエレメントまたはそのフラグメントの典型とすることができる。1つの例では、RNAスタンダードが、公知の天然配列のいずれかとの相同性のいずれも含まない。それゆえ、RNAスタンダードの長さは、対象の特徴に応じて変えることができる。1つの例では、RNAスタンダードの長さが、200ヌクレオチド〜30kbで変えることができる。
【0096】
人工染色体からの対象の配列は、DNA配列に合成することができる。DNA配列は、活性プロモーターとの作動可能な結合でベクターに挿入することができる。このため、本開示は、また、人工染色体のフラグメントをコードするDNA分子を提供する。本開示は、また、人工染色体のフラグメントをコードするDNA配列を含むポリヌクレオチドベクター(例えば、DNAベクター)を提供する。任意の好適なベクターを用いることができる。1つの例では、ベクターが、発現ベクターである。発現ベクターは、本明細書に開示されたスタンダードの転写を命令することができる任意の好適なプロモーター及び/またはエンハンサーを含有することができる。
【0097】
本明細書に開示されたベクターは、RNA分子を生成するRNA合成反応のテンプレートとして用いることができる。このため、本開示は、また、本明細書に開示されたベクターからRNA分子を合成することを含む本明細書に開示されたポリヌクレオチドスタンダードの生成方法を提供する。好適なRNA合成方法は、よく知られている。例えば、無細胞のin vitro発現系でかかる合成方法を実施してよい。あるいは、宿主細胞などのin vivo発現系でかかる方法を実施してよい。任意の好適な宿主細胞を用いることができる。その後、最終RNAポリヌクレオチドスタンダードを生成するために、公知の方法によって、生成されたRNA分子を精製することができる。
【0098】
このため、本開示は、人工染色体配列の人工配列の一部または全部とマッチするRNAスタンダードを生成するのに用いることができる方法を提供する。RNAスタンダードの好適な生成方法の概略図が、
図14に示されている。
【0099】
複数のRNAスタンダードの混合物
混合物としてまとめて複数のRNAスタンダードを用いることができる。したがって、本開示は、本明細書に開示された1つ以上のRNAスタンダードの混合物を提供する。混合物は、RNAスタンダードの構造的完全性を維持するために任意の好適な緩衝剤を含むことができる。
【0100】
一定の範囲の異なる濃度で個々のRNAスタンダードを希釈し、その後、RNAスタンダードの混合物に混合することができる。それゆえ、一定の範囲の異なる濃度のRNAスタンダードのこの混合物は、定量的スケールを含むことができる。定量的スケールは、異なる逐次的存在量でRNAスタンダードのラダーを含むことができる。付随する試料内の天然RNA転写産物の存在量を測定するための参照としてこのスケールを用いることができる。個々のRNAスタンダードの相対濃度が異なる別の混合物を生成することができる。別の混合物中のRNAスタンダードの比較により、RNAスタンダードの存在量差を測定することができ、これにより、例えば、遺伝子発現中に生じる2つ以上の試料間のRNA存在量の変化を測定するのに用いることができる参照スケールを提供することができる。
【0101】
混合物ごとに提供されるRNAスタンダードの数は、3〜3000で、例えば、調製される混合物ごとに3〜300で変えることができる。例えば、約90RNAスタンダードを含有する混合物を提供してよい。試料中に存在する全RNAの0.001〜50%、例えば、約1%からなるように対象の試料にRNAスタンダードを添加してよい。
【0102】
人工遺伝子の典型であるRNAスタンダード
人工染色体の人工ポリヌクレオチド配列内でコードされる対象の人工遺伝子のいずれかとマッチするようにRNAスタンダードを設計することができる。隣接RNAスタンダード配列は、人工エキソン配列とマッチすると同時に、介在するイントロン配列は、除外される(
図3の実例に例示したとおり)。このため、RNAスタンダードは、人工染色体によってコードされる人工遺伝子のエキソン配列だけに相当する隣接ヌクレオチド配列を含む、またはこれからなることができる。これは、遺伝子スプライシングの天然プロセスをエミュレートし、これにより、イントロン配列が除去され、エキソン配列が一緒に結合される。
【0103】
特定のエキソンが含まれ、またはこれが除外され、遺伝子座の複数のアイソフォームが形成される別のスプライシングの生物学的プロセスをエミュレートするようにRNAスタンダードを設計することができる。さらに、単一の遺伝子座から生成される複数のアイソフォームのそれぞれとマッチする複数のRNAスタンダードを生成することができる。異なる濃度で複数の別のmRNAアイソフォームとマッチする複数のRNAスタンダードを混合することによって、例えば、イントロンリテンション、カセットエキソン、別の転写開始及び終結、非カノニカルスプライシングなどを含む別のスプライシング事象をシミュレートすることができる。それぞれのアイソフォームの典型であるRNAスタンダードの相対的存在量は、典型となる別のスプライシング事象の頻度に一致させるように変えることができる。
【0104】
人工融合遺伝子の典型であるRNAスタンダード
2つの人工染色体間の転座は、2つの異なる人工遺伝子を単一の融合遺伝子(または「キメラ」)に結合することができる。人工染色体間の転座によって生成される融合遺伝子とマッチするようにRNAスタンダードを生成することができる。
【0105】
転座は、通常、染色体対(または高次倍数性異常生物中の複数の当量染色体)の1つの染色体だけに影響を及ぼし、残りの対内の他の染色体に影響を及ぼさない。それゆえ、遺伝子の2つの正常な(すなわち、非融合)コピー及び融合された遺伝子の単一のコピーの典型であるRNAスタンダードを生成し、これにより、ヘテロ接合体遺伝子型をエミュレートすることには利点がある可能性がある(
図9の実例に例示したとおり)。モデル化される特定の融合遺伝子の試験される試験試料中の好適な濃度をエミュレートするために、融合遺伝子とマッチするRNAスタンダードの相対濃度を変えることができる。例えば、腫瘍試料内の細胞のフラクションだけが、転座対立遺伝子を有し、融合遺伝子を発現する微小残存疾患の場合では、低濃度の人工融合遺伝子を用いてよい。
【0106】
DNAスタンダードの生成
スタンダードは、DNAスタンダードとしてよい。DNAスタンダードは、人工染色体中の対象の人工配列とマッチし、これの典型であるDNA分子である。1つの例では、DNAスタンダードが、人工染色体中の特徴の配列とマッチする。このため、本開示は、また、本明細書に開示された人工染色体の人工配列のDNAフラグメントを提供する。DNA合成の任意の好適な公知の方法を用いてDNA分子として人工染色体配列の一部または全部を物理的に生成することができる。したがって、DNAスタンダードのサイズ及び含有率は、DNAスタンダードを形成するために選択される人工染色体の特定のフラグメントに応じて変えることができる。1つの例では、DNAスタンダードの長さが、20ヌクレオチド〜20Mbで変えることができる。
【0107】
人工染色体配列とマッチするDNA分子をベクターに挿入してよい。任意の好適なベクターを用いてよい。例えば、ベクターは、プラスミドベクターとしてよい。2つの好適な制限エンドヌクレアーゼコンセンサス認識部位のいずれかの間のベクターに合成されたDNA分子を挿入してよい。例えば、2つのIII型制限エンドヌクレアーゼコンセンサス認識部位間のベクターに合成されたDNA分子を挿入してよい(
図15の実例に例示した)。これにより、1つ以上の制限エンドヌクレアーゼを用いたベクターからの切除によってDNAスタンダードの生成が可能になる。したがって、本開示は、人工染色体の配列に対応するDNAフラグメントを合成すること、ベクター(例えば、プラスミドベクター)にDNAフラグメントを挿入すること及び次に制限エンドヌクレアーゼ消化によってベクターからDNAフラグメントを切除することを含むDNAスタンダードの生成方法を提供する。
【0108】
DNAスタンダードの別の生成方法を用いることができる。例えば、増幅反応によってDNAスタンダード(例えば、プラスミドベクターなどベクターの中に存在してよい)を生成してよい。例えば、DNAスタンダードのいずれかの末端で配列と相補的であるPCRプライマーを用いることによって、DNAスタンダードの複数のコピーを生成するためにPCR増幅を用いることができる。DNA分子の複数のコピーを生成するための公知の任意の好適な増幅方法を用いてよい。DNAスタンダードの好適な生成方法の概略図が、
図15に示されている。
【0109】
複数のDNAスタンダードの混合物
混合物としてまとめて複数のDNAスタンダードを用いることができる。したがって、本開示は、本明細書に開示された1つ以上のDNAスタンダードの混合物を提供する。混合物は、DNAスタンダードの構造的完全性を維持するために任意の好適な緩衝剤を含むことができる。
【0110】
一定の範囲の異なる濃度で個々のDNAスタンダードを希釈し、その後、DNAスタンダードの混合物に混合することができる。それゆえ、一定の範囲の異なる濃度のDNAスタンダードのこの混合物は、定量的スケールを含むことができる。定量的スケールは、異なる逐次的存在量でDNAスタンダードのラダーを含むことができる。付随する試料内の天然DNA転写産物の存在量を測定するための参照としてこのスケールを用いることができる。
【0111】
個々のDNAスタンダードの相対濃度が異なる別の混合物を生成することができる。別の混合物中のDNAスタンダードの比較により、DNAスタンダードの存在量差を測定することができ、これにより、2つ以上の付随する試料間のDNA分子の存在量の変化を測定するのに用いることができる参照スケールを提供することができる。例えば、2つの混合物間のDNAスタンダードの存在量の差により、2つの試料間の微生物ゲノムDNAの存在量の差を比較するスケールを提供することができる。
【0112】
混合物ごとに提供されるDNAスタンダードの数は、3〜3000で、例えば、調製される混合物ごとに3〜300で変えることができる。例えば、約90DNAスタンダードを含有する混合物を提供してよい。試料中に存在する総DNAの0.001〜50%、例えば、約1%からなるように対象の試料にDNAスタンダードを添加してよい。
【0113】
結合されたDNAスタンダード
標準分子生物学技術、例えば、制限消化及び連結反応またはGibsonアセンブリを用いて、単一の隣接配列に複数のDNAスタンダードを一緒に連結する(または「結合する」)ことができる(例えば、
図16に示したとおり)。このため、本開示は、また、結合されたDNAスタンダードを提供する。本開示は、また、単一の隣接配列に2つの以上の本明細書に開示されたDNAスタンダードを一緒に連結することを含む結合されたDNAスタンダードの調製方法を提供する。
【0114】
単一の結合されたスタンダードは、複数のコピー数に反復される個々のDNAスタンダードを含有することができる。したがって、DNAスタンダードの存在量差を確認するためにコピー数を用いることができる。本開示は、また、それぞれのDNAスタンダードが、結合されたDNAスタンダードの複数のコピーとして存在する複数の個々のDNAスタンダードを含む結合されたDNAスタンダードの調製方法を提供する。
【0115】
さらに、単一の結合されたスタンダードは、それぞれが任意の組み合わせで任意の所望のコピー数にコピーされる複数の異なる個々のDNAスタンダードを含有することができる。
【0116】
個々のDNAスタンダードの存在量の変化は、ピペット操作または分取のエラーから生じる可能性がある。しかし、複数の個々のDNAスタンダードを大きな結合されたDNAスタンダードに連結すると、ピペット操作または分取による個々間の変化のいずれかが除去される(結合されたDNAスタンダードは1回で分取されるため)。
【0117】
結合されたDNAスタンダードを含む異なるコピー数での複数の個々のDNAスタンダードの存在量は、ピペット操作によるエラーを推定するために用いることができる。これは、結合されたスタンダードのピペット操作のエラーが、結合されたDNAスタンダードに一緒に混合されている個々のDNAスタンダード間と同じであり、これに依存しているためである。単一の結合されたDNAスタンダードに結合されている個々のDNAスタンダードの公知の存在量と実測値間でグラフ化された最適合線の傾きは、結合されたDNAスタンダードのピペット操作エラーの推定値を示す。この推定値に従ったDNAスタンダード存在量の次の正規化により、この変化の発生源を最小化することができる。この内部正規化アプローチにより、存在量のより正確な測定値が可能になる。
【0118】
個々のDNAスタンダードの任意の好適な型及び数を結合し、結合されたDNAスタンダードを形成することができる。1つの例では、6つの個々のDNAスタンダードが結合され、単一の結合されたDNAスタンダードが形成される。さらに、一定の範囲の濃度で複数の結合されたDNAスタンダードを混合し、混合物を形成することができる。もう1つの例では、30の結合されたDNAスタンダードが混合され、混合物が形成される。
【0119】
人工微生物ゲノムの典型であるDNAスタンダード
メタゲノミクスは、さまざまな生物からの複数のゲノムの研究を必要とし、微生物ゲノムのコミュニティをプロファイルするのに適用することができる。例えば、メタゲノム分析を用い、配列を決定し、単一の試料(例えば、環境試料)内の複数の微生物ゲノムの存在量を測定することができる。人工微生物ゲノムとマッチし、これの典型であるDNAスタンダードを調製し、これにより、微生物コミュニティ構造及び多様性をエミュレートすることができる。
【0120】
このため、本開示は、人工微生物ゲノムに基づいているDNAスタンダードを提供する。かかるDNAスタンダードは、全人工微生物ゲノムの典型的な部分配列だけとマッチしてよい(例えば、
図10に示したとおり)。例えば、微生物ゲノムサイズは、かなり変わる(一般的な分類群に対し0.5〜7Mb)。それゆえ、DNAスタンダードは、完全長人工微生物ゲノムに比例する長さ(例えば、0.5〜7Kbの1%サイズ)としてよい。
【0121】
さらに、微生物のゲノムは、広い範囲のパーセンテージGC含有率(例えば、20%〜75%)を示す。本明細書に開示されたDNAスタンダードは、完全長人工微生物ゲノムに比例するGC含有率(例えば、20%〜75%の範囲)としてよい。人工微生物ゲノム内の典型的な部分配列だけとマッチするDNAスタンダードを用いると、微生物コミュニティをプロファイルするのに必要なシーケンシング深度を減少させると同時に、通常、天然試料に存在する微生物コミュニティ構造とほぼ同じであるスタンダード間の広い範囲の存在量を維持することができる。
【0122】
小規模な遺伝的変動の典型であるDNAスタンダード
小規模な遺伝的変動は、人工染色体配列の2つの以上の変動型対立遺伝子を識別する(例えば、
図6に示したとおり)。複数の人工染色体間のかかる小規模な遺伝的変動の典型であるDNAスタンダードを設計することができる。例えば、「参照」人工染色体中に存在する対立遺伝子の配列とマッチする個々のDNAスタンダードを生成することができ、「変異」人工染色体中に存在する対立遺伝子の配列とマッチする個々のDNAスタンダードを生成することができる。
【0123】
DNAスタンダードの相対的存在量は、対立遺伝子の相対頻度とマッチする可能性がある。例えば、同じ存在量で、別の変異とマッチする1つのDNAスタンダード及び参照変異とマッチする1つのDNAスタンダードが、倍数体ゲノム中の対立遺伝子のヘテロ接合体頻度をエミュレートすることができる。もう1つの例では、別の変異とマッチする単一のDNAスタンダードが、倍数体ゲノム中のホモ接合体変動をエミュレートすることができる。もう1つの例では、変化する存在量で、別の変異とマッチする1つのDNAスタンダード及び参照変異とマッチする1つのDNAスタンダードが、不均一頻度(非2対立遺伝子比で存在する、例えば、試料のサブセットだけが変異を有する場合)をエミュレートすることができる。したがって、人工染色体間の遺伝的変動の存在及び頻度をエミュレートするためにDNAスタンダードを調製することができる。
【0124】
大規模な構造的変動の典型であるDNAスタンダード
大規模な遺伝的変動は、人工染色体配列の2つ以上の変動型対立遺伝子を識別することができる。複数の人工染色体間のかかる大規模な遺伝的変動とマッチし、これの典型であるDNAスタンダードを設計することができる(例えば、
図8に示したとおり)。DNAスタンダードの相対的存在量は、大規模な変動の相対頻度とマッチし、接合生殖性をエミュレートすることができる。
【0125】
タンデム反復アレー中の1つ以上の反復ユニットとマッチするDNAスタンダードを提供することができる(例えば、
図5に示したとおり)。また、反復ユニットコピー数をエミュレートするためにDNAスタンダードの濃度の変化を選択することができる。例えば、高コピー数変異に一致するように大量のDNA反復スタンダードを調製することができる。反対に、低コピー数変異に一致するように低存在量DNA反復スタンダードを調製することができる。さらに、また、所望の対立遺伝子頻度とマッチするようにDNAスタンダードの相対的存在量を校正することができる。
【0126】
DNAスタンダードを識別するための配列バーコード
同じDNA配列(例えば、同じ反復エレメント)とマッチするDNAスタンダード間で識別するために、DNAスタンダードに1つ以上の「バーコード」ヌクレオチド配列を組み入れることができる(例えば、
図17に示したとおり)。バーコードヌクレオチド配列は、通常、全DNAスタンダード配列の小さなフラクションだけを構成する小さな(例えば、4、5、6、7、8、9、または10ヌクレオチド)隣接または非隣接ヌクレオチド配列である。例えば、1つ以上のバーコードヌクレオチド配列は、DNAスタンダードの全ヌクレオチド配列の10%未満、例えば、9%未満、例えば、8%未満、例えば、7%未満、例えば、6%未満、例えば、5%未満、例えば、4%未満、例えば、3%未満、例えば、2%未満、例えば、1%を占めてよい。バーコードヌクレオチド配列の存在は、DNAスタンダードの同定を可能にすることができる。例えば、複数のDNAスタンダードが同じ人工染色体配列とマッチする場合、「バーコード」ヌクレオチド配列は、同じ人工染色体配列とマッチする全DNAスタンダード内の特定のDNAスタンダードの同定を可能にする。バーコード配列は、分析中に除去する、または修飾することができるため、アライメントを妨げない。
【0127】
免疫受容体クロノタイプの典型であるDNAスタンダード
本明細書に開示されたDNAスタンダードは、対応する人工染色体内でコードされる免疫グロブリン及びT細胞受容体遺伝子座から生成される人工クロノタイプとマッチし、これの典型であるように設計することができる(例えば、
図12及び13に示したとおり)。1つの例では、DNAスタンダードが、ランダムに選択されるV、D及びJセグメントのクロノタイプ配列を包含する。本明細書に開示されたDNAスタンダードは、また、通常、免疫レパートリーシーケンシングで用いられるユニバーサルプライマー配列と相補的な小配列を保持してよい。例えば、DNAスタンダードが、天然クロノタイプ多様性をプロファイルするためのBIOMED−2(van Dongen,Langerak et al.2003)研究に記載されたプライマー配列を保持してよい。
【0128】
本方法によって、それぞれが人工クロノタイプの典型である多くのDNAスタンダードを生成することができる。通常、ヒト白血球の免疫レパートリーシーケンシング中にみられる天然受容体クロノタイプのサイズ、多様性、複雑度及びプロファイルをエミュレートする混合物にこれらのDNAスタンダードを混合することができる。
【0129】
16S マーカー遺伝子の典型であるDNAスタンダード
DNAスタンダードを、人工微生物ゲノムから人工16S rRNA遺伝子配列の典型とすることができる(例えば、
図11に示したとおり)。人工16S rRNA遺伝子は、通常、アンプリコンシーケンシングで用いられるユニバーサル16S プライマーと相補的な2つの配列を保持することを除いて、公知の配列との相同性を有しない。これにより、DNAスタンダードが16S プライマーによるPCR増幅のテンプレートの役割を果たすことができる。DNAスタンダードの増幅は、これにより、PCR増幅の合成的及び定量的測定、及び通常、微生物コミュニティ同一性及び構造を決定するのに用いられる16S rRNAマーカー遺伝子のシーケンシングを提供する。
【0130】
使用方法:
本明細書に開示されたポリヌクレオチドスタンダードは、多種多様なシーケンシング方法を校正するために用いることができる。これは、測定される標的DNA/RNA配列を含む試料にポリヌクレオチドスタンダードを添加することによって実施することができる。標的DNA/RNAのソースは、公知の生物または環境試料のいずれかに由来するものとすることができる。例えば、ポリヌクレオチドスタンダードは、動物(例えば、哺乳動物、ヒトなど)、植物(例えば、トウモロコシ、コメなど)、微生物(例えば、細菌、原始細菌など)及び環境(例えば、土壌試料、ヒトの大便、臨床試料、例えば、感染創傷液など)ソースに由来する天然RNAの試料に添加することができる。測定される標的DNA/RNA配列を含有する試料のいずれかで実施されるシーケンシング方法を校正するために本明細書に開示されたポリヌクレオチドスタンダードを用いることができると理解される。
【0131】
本明細書に開示されたポリヌクレオチドスタンダードは、天然ポリヌクレオチド配列との相同性(または配列同一性)をほとんど有しない、または、これを有しないため、ポリヌクレオチドスタンダードに由来するシーケンスリードは、試料中に存在する天然RNA/DNAに由来するシーケンスリードと識別することができる(例えば、
図18に示したとおり)。このため、本明細書に開示されたフラグメント(スタンダード)は、ポリヌクレオチドスタンダードに由来するシーケンスリードを試料中に存在する天然RNA/DNAに由来するシーケンスリードと識別することができるように、選択される公知の天然配列に対してパーセンテージ同一性を有してよい。これにより、シーケンシング前にRNA/DNA試料にポリヌクレオチドスタンダードを添加することが可能になり、それゆえ、対象のDNA/RNA試料と同じライブラリー調製、シーケンシング、アライメント及び分析を行うことができる。しかし、シーケンシング後に、ポリヌクレオチドスタンダードとマッチするリードを、対象のDNA/RNA試料とマッチするリードと識別することができる。
【0132】
したがって、本明細書に開示された方法は、試料中の対象の標的ポリヌクレオチド(DNAまたはRNA)の配列を決定するステップを含む。本明細書に開示された方法は、また、試料に添加された1つ以上のポリヌクレオチドスタンダードの配列を決定するステップを含む。本明細書に開示された方法は、さらに、試料に添加された1つ以上のポリヌクレオチドスタンダードの配列及び/または量と、試料中の対象の標的ポリヌクレオチド(DNAまたはRNA)の配列及び/または量を比較するステップを含む。かかる比較により、1つ以上のポリヌクレオチドスタンダードの測定に由来する値に対して、試料中の標的ポリヌクレオチドの測定に由来する値の正規化が可能になる。したがって、本明細書に開示された方法は、さらに、1つ以上のポリヌクレオチドスタンダードの測定に由来する値に対して、試料中の標的ポリヌクレオチドの測定に由来する値を正規化するステップを含んでよい。これらの値を正規化することができる任意の好適な数学的アルゴリズムを用いることができる。
【0133】
多くの場合では、RNA/DNA試料と混合されたポリヌクレオチドスタンダードは、試料中のRNA/DNAの混合総量のフラクションだけを構成する。この寄与率(通常、試料中のRNA/DNAの総量の0.1〜10%、または通常、試料中のRNA/DNAの総量の10%未満、例えば、5%未満、例えば、1%未満、例えば、0.5%未満)は、分析に用いられるライブラリー調製の型(例えば、rRNA除去、polyAまたは全RNA精製調製)に従って変わる。ポリヌクレオチドスタンダードの寄与率は、RNA/DNA試料に帰するシーケンシング深度に反比例する可能性がある。それゆえ、ポリヌクレオチドスタンダードの分析を十分に行うことができるのに必要な最少量として、フラクション全体を選択することができる。
【0134】
ポリヌクレオチドスタンダードのシーケンシングエラーを測定すること
ヌクレオチドが誤って決定される場合、シーケンシングエラーが生じ、これはライブラリー調製またはシーケンシングプロセス自体のエラーまたは人工産物から生じる可能性がある。ポリヌクレオチドスタンダードからのシーケンスリードの分析は、ヌクレオチドエラー差を同定し、定量化することができる。シーケンシングエラーの同定を容易にする好適なソフトウエアとしては、Quake(Kelley,Schatz et al.2010)及びSysCall(Meacham,Boffelli et al.2011)が挙げられる。その後、この分析を用いて配列の性能及びクオリティを測定することができる。また、この分析により、その後、研究者が試料DNA/RNAからのリード内の系統的シーケンシングエラーを正規化する、または訂正することが可能になり、試料中の対象の標的DNA/RNAのはるかに正確な(質的及び量的の双方で)測定値が提供される。また、ポリヌクレオチドスタンダードのシーケンシングエラープロファイルを用いて、真のヌクレオチド差(例えば、SNPまたはヌクレオチド修飾)からのシーケンシングエラーを識別することができる。
【0135】
ポリヌクレオチドスタンダードにより配列アライメントを評価すること
シーケンシング作業中に、小さなシーケンスリードが最初に参照ゲノムにアラインされることが多い。リードの大きな参照ゲノムへのアライメントは、速度、感度及び精度の結果に差をもたらし、多くの方法で実施することができるコンピュータを多用するタスクである。本明細書に開示されたポリヌクレオチドスタンダードを用いて、シーケンスリードが本明細書に開示された人工染色体にアラインされる効率及び精度を評価し、これにより、実施されるアライメント方法を校正することができる。したがって、本明細書に開示された方法は、さらに、ポリヌクレオチドスタンダードに由来するシーケンスリードを、そのスタンダードが由来する人工染色体にアラインするステップを含んでよい。任意の好適なアライメント方法を用いて、このステップを実施することができる。配列リードのアライメントを容易にする好適なソフトウエアの例としては、BWA(Li and Durbin 2009、Kelley,Schatz et al.2010)及びBowtie(Langmead,Trapnell et al.2009)が挙げられる。
【0136】
好ましくは、シーケンスリードが、参照ゲノム及び人工染色体の双方に同時にアラインされる。1つの例では、人工染色体配列が、参照ゲノムと混合され、急速なアライメントを容易にするインデックスが作成される。これによりシーケンスリードを人工染色体及び参照ゲノムの双方に同時にアラインすることが可能になる(例えば、
図18に示したとおり)。リードが人工染色体にアラインする精度及び感度を評価することによって、天然ゲノムにアラインするリードの並行及び経験的評価を同時に実施することができる。
【0137】
正確なリードアライメントの感度及び特異性;及び/または一致して、一致しないで、または一体化してマップされたリード対の割合;及び/またはアライメントミスマッチ及び塩基毎精度など(これらに限定されない)のいくつかの特性に従って、本明細書に開示されたポリヌクレオチドスタンダードに由来するリードの人工染色体へのアライメント、を評価することができる。
【0138】
スプリットまたは非隣接方法で、参照ゲノムにイントロンをトラバースするRNAシーケンスリードをアラインすることが必要である。イントロン及びエキソンのスプライシングをエミュレートするように設計されているRNAスタンダードが、本明細書に開示されている。それゆえ、かかるRNAスタンダードを用いて、イントロン中のリードのスプリットアライメントを評価することができる。人工染色体及び天然染色体の双方に、RNAスタンダードに由来するスプリットリードをアラインすることができる。配列リードのスプリットアライメントを容易にする好適なソフトウエアの例としては、Tophat2(Kim,Pertea et al.2013)及びSTAR(Dobin,Davis et al.2013)が挙げられる。その後、人工遺伝子アノテーションと人工染色体のスプリットアライメントを比較し、リードがイントロン中でアラインする感度及び特異性を評価することができる。
【0139】
別のスプライシング、転写開始及び終結が、単一の遺伝子座からの一定の範囲のアイソフォームを生成する。また、スプライス及び非スプライスアライメントが完全長転写モデルにアセンブルされる精度を評価するのに用いることができるRNAスタンダードが、本明細書に開示されている。例えば、人工染色体及び天然染色体の双方で、オーバーラップしているリードアライメントから完全長転写アイソフォームをアセンブルすることができる。配列リードのアセンブリを容易にする好適なソフトウエアの例としては、Cufflinks(Trapnell,Williams et al.2010)及びTrinity(Haas,Papanicolaou et al.2013)が挙げられる。その後、人工遺伝子アノテーションとアセンブルされるRNA転写産物の構造を比較し、転写アセンブリが生じた感度及び特異性を評価することができる(例えば、
図3に示したとおり)。その後、この評価を用いて、付随する天然試料中の遺伝子モデルのアセンブリを知らせることができる。
【0140】
ポリヌクレオチドスタンダードにより定量的精度を評価すること
個々のポリヌクレオチドスタンダードを公知の濃度に希釈し、まとめて混合し、かかるスタンダードの定量的スケールを提供する混合物を形成することができる。スケールを定義するために選択される特定の値は、分析される試料中に存在する標的RNA/DNAの好適な量に基づいて決定することができる。シーケンシング後に、ポリヌクレオチドスタンダードにアラインするリードの数は、存在量の定量的測定をもたらすことができる。以下を含む(これらに限定されない)いくつかの方法で、公知の分子濃度及びポリヌクレオチドスタンダードの測定されたリード存在量間の比較を用いて、試料内及び試料間の定量的分析を知らせることができる。
(i)ポリヌクレオチドスタンダードの公知の濃度と、同じポリヌクレオチドスタンダードの存在量の測定値との比較が、DNA/RNAシーケンシング方法の定量的精度を示す。
(ii)ダイナミックレンジ(ポリヌクレオチドスタンダードの最大及び最少の存在量間の差)が、定量的直線性(またはこれの一部)を示す。これらの期待値から離れることが、定量的正規化の性能としてよい。
(iii)検出の下限(検出されたポリヌクレオチドスタンダードの最少濃度)が、ライブラリーサイズ及び感度を示す。
(iv)定量化されるポリヌクレオチドスタンダードが、対応する存在量で遺伝子を定量化するための内部参照を含む。
(v)シーケンシングユニット(R/FPKM)のモルまたは絶対的(転写コピー数)ユニットへの変換を可能にすること。
(vi)RNAスタンダードの定量的範囲が、2つ以上の試料間の正規化を可能にし、遺伝子発現の比較分析を可能にする。
【0141】
RNAスタンダードにより遺伝子発現を測定すること
遺伝子発現プロファイリングが、RNAシーケンシングリードを用いて複数の遺伝子の存在量を測定する。本明細書に開示されたRNAスタンダードは、一定の範囲の濃度で添加され、混合物を形成し、これにより、遺伝子発現の差をエミュレートすることができる。RNAスタンダードの存在量が測定される精度を評価し、これにより、付随する天然RNA試料中の遺伝子発現分析の定量的精度を評価することができる(例えば、
図19に示したとおり)。
【0142】
一定の範囲の公知の濃度で複数のRNAスタンダードを混合し、まとめて混合し、異なる混合物を形成し、試料間の遺伝子存在量の差及び遺伝子発現の倍数変化をエミュレートことができる。RNAスタンダードの存在量を測定することができる。RNAスタンダードの定量を容易にする好適なソフトウエアの例としては、EdgeR(Robinson,McCarthyet al.2010)及びDEseq(Anders,McCarthyet al.2013)が挙げられる。RNAスタンダードの存在量の測定値をその公知の分子濃度と比較すると、転写定量の精度を示すことができる。天然遺伝子の存在量をRNAスタンダードまたは複数のRNAスタンダードを含む定量的参照スケールと比較することは、また、遺伝子発現の測定値を知らせることができる。
【0143】
同様に、別のRNAスタンダードアイソフォームが、異なる濃度で含まれ、別のスプライシングをエミュレートすることができる。好適なソフトウエア、例えば、Cufflinks(Trapnell,Williams et al.2010)またはMISO(Katz,Wang et al.2010)を用いてRNAスタンダードアイソフォームの存在量を測定することができる。混合物間のRNAスタンダードアイソフォーム存在量の実測倍数変化を決定し、遺伝子発現の変化と関係なく、試料間でアイソフォームスイッチング及び別のスプライシングが測定される精度を評価することができる。天然アイソフォームの存在量をRNAスタンダードと比較することは、また、別のスプライシングの測定値を知らせることができる。
【0144】
DNAスタンダードによって表される小規模な遺伝的変動を検出すること
人工染色体中の小規模な遺伝的変動の変動型及び参照対立遺伝子の典型である本明細書に開示されたDNAスタンダードを生成することができる(例えば、
図6に示したとおり)。一定の範囲の変数:例えば、変動型接合生殖性;リードアライメント、クオリティ及び/またはカバレッジ;変動型及び複雑度(例えば、SNP、インデル、ホモポリマー);隣接配列コンテクスト;及び小規模な遺伝的変動を同定するのに用いられるソフトウエア(これらに限定されない)が、変動型同定及び遺伝子型アサインメントに影響を及ぼす可能性がある。本明細書に開示されたDNAスタンダードを用いて、小規模な遺伝的変動が同定される感度及び特異性を評価することができる。DNAスタンダードの配列決定は、参照人工染色体配列について小規模な変動を同定することができる。小規模な遺伝的変動を同定するための好適なソフトウエアとしては、GATK(McKenna,Hanna et al.2010)及びSAMtools(Li,Handsaker et al.2009)が挙げられる。人工染色体について、小規模な遺伝的変動がDNAスタンダード内で検出される精度及び感度を評価することができる(例えば、
図20に示したとおり)。不確実性(例えば、95%信頼区間)の値は、また、精度の推定の結果とみなすことができる。人工染色体中で小規模な遺伝的変動が同定される信頼度及び感度を比較することは、また、付随するDNA試料中の小規模な遺伝的変動の同定を知らせることができる。
【0145】
DNAスタンダードによって表される対立遺伝子頻度を測定すること
対立遺伝子の頻度の正確な定量は、正確に遺伝子型を割り当てる、または変異(例えば、腫瘍試料内の癌細胞のサブセットが、有害変異を有する場合)を有する試料内のDNAのフラクションを推定するために必要である。本明細書に開示されたDNAスタンダードを用いて、対立遺伝子頻度の差をエミュレートし、これにより、対立遺伝子頻度が測定される定量的精度を評価する、または校正することができる。
【0146】
例えば、変化する濃度でシーケンシングのために天然DNA試料と混合される混合物に、異なる対立遺伝子の典型であるDNAスタンダードを混合することができる。公知のモル濃度及び変異対立遺伝子のそれぞれの測定されたリード存在量(それぞれが異なるDNAスタンダードによって表される)間の比較により、その後、対立遺伝子頻度の定量的評価が実施可能になる。このため、本明細書に開示されたDNAスタンダードを用いて、異なる相対濃度で変異検出の感度、特異性及び精密度を決定し、天然標的変異対立遺伝子の検出及び/または定量による比較のための定量的スケールを確立することができる。このため、本明細書に開示された方法は、それぞれの変異DNAスタンダードが所定の濃度で添加される変異対立遺伝子の典型であるDNAスタンダードの混合物を調製するステップを含むことができる。本方法は、また、混合物中の変異DNAスタンダードのそれぞれの配列及び量を決定することを含んでよい。本明細書に開示された方法は、さらに、測定される変異DNAスタンダード頻度の定量的スケールをもたらすステップを含んでよく、当該スケールは、その後、単一のDNA試料中、または複数のDNA試料間で決定される天然DNA対立遺伝子の定量的測定を校正するために用いることができる。
【0147】
DNAスタンダードによって表される大規模な変動を分解すること
コンピュータで大規模な変動、または構造的遺伝的変動を正確に分解するのは、シーケンスリードの長さより長いことが多いため、困難である可能性がある。大規模な変動の典型であり、これをエミュレートする本明細書に開示されたDNAスタンダードを生成することができる。例えば、正確に構造を分解するソフトウエアプログラム能力を評価する;及び構造的変動型の相対的存在量及びコピー数を定量化する、及び/または遺伝子型を構造的変動を含む配列に割り当てるために、構造的変動の典型であるDNAスタンダードを用いることができる。大規模な変動を分解するための好適なソフトウエアとしては、BreakDancer(Chen,Wallis et al.2009)及びCortex(Iqbal,Caccamo et al.2012)が挙げられる。また、参照人工染色体についての構造的変動による配列リードの再分布をモデル化するために本明細書に開示されたDNAスタンダードを用いることができる。DNAスタンダードの測定は、大規模な変動が付随する天然ゲノムDNA試料内で同定され、定量化される精度の評価を知らせることができる。
【0148】
DNAスタンダードのde novoアセンブリ
天然参照ゲノムが利用できない場合には、ゲノム配列は、オーバーラップしている配列リードからde novoでアセンブルしなければならない。付随する標的ゲノムDNA試料で、DNAスタンダードの並行de novoアセンブリを同時に実施することができる。de novoアセンブリの好適なソフトウエアとしては、Velvet(Zerbino and Birney 2008)及びABySS(Simpson,Wong et al.2009)が挙げられる。ゲノムアセンブリに影響を及ぼす変数としては、ゲノム複雑度及び反復含有率;倍数性;シーケンシング深度、クオリティ及びエラー率;リード長さ及び挿入サイズ;ならびにソフトウエアプログラム及び用いられるパラメータ(k−mer長さ、アライメントアプローチ、リードソフトクリッピング、及び他のパラメータを含む)が挙げられる(これらに限定されない)。これらの変数のDNAスタンダードのde novoアセンブリへのインパクトを評価することができる。
【0149】
アセンブルされる配列を公知のDNAスタンダードと比較し、de novoアセンブリの性能及び上記の変数のインパクトを評価することができる。N50値;メジアン、最大及び/または混合コンティグサイズ;人工染色体と比較したコンティグのカバレッジ及びギャップ;人工染色体と比較したコンティグのミスマッチまたは塩基毎精度;ならびに大きなまたは系統的アセンブリエラーの同定のいずれか1つまたはそれ以上に従って人工染色体のde novoアセンブリを評価することができる。DNAスタンダードのde novoアセンブリの評価は、付随する標的天然DNA試料のde novoアセンブリの評価を知らせることができる。
【0150】
DNAスタンダードによるメタゲノム分析
メタゲノム分析は、環境試料からの複数の微生物ゲノムのアセンブリ及び定量を含むことが多い。本明細書に開示されたDNAスタンダードを用いて、一定の範囲の異なる存在量でゲノムの不均一コレクションからなる複合微生物コミュニティをエミュレートすることができる(例えば、
図10に示したとおり)。微生物ゲノムの典型であるこれらのDNAスタンダードを用いて、メタゲノム分析を評価することができる。メタゲノム分析に影響を及ぼす変数としては、微生物コミュニティゲノムサイズ、複雑度、反復及びGC含有率、ならびにユーザー定義変数、例えば、シーケンシング深度及びカバレッジ、クオリティ、リード長さ及び挿入サイズ、ならびにソフトウエア及び用いられるパラメータが挙げられる(これらに限定されない)。これらの変数のDNAスタンダードのメタゲノム分析へのインパクトを評価することができる。
【0151】
本明細書に開示されたメタゲノムDNAスタンダードを用いて、de novoアセンブリ及び分析の性能を評価することができる(例えば、
図21に示したとおり)。N50値;及びメジアン及び最大コンティグサイズ;カバレッジを含む(これらに限定されない)いくつかの特徴に従って、人工染色体に関してDNAスタンダードのアセンブリを評価することができる;対応する人工染色体に関してアセンブルされるDNAスタンダードコンティグの塩基毎精度を比較することができる。DNAスタンダードのメタゲノム分析の評価は、付随する標的天然DNA試料のメタゲノム分析の評価を知らせることができる。
【0152】
NGSシーケンシングは、サンプルを抽出したコミュニティ内の微生物の存在量及び多様性を決定することができる。異なる相対濃度で本明細書に開示されたDNAスタンダードを混合し、定量的参照を含む混合物を形成することができる。本明細書に開示された方法は、さらに、測定されるメタゲノムDNAスタンダード頻度の定量的スケールをもたらすステップを含んでよく、当該スケールは、その後、付随する環境試料中で決定される天然微生物ゲノムの定量的測定を校正するために用いることができる。
【0153】
また、DNAスタンダードを用いて、定量的存在量に関するメタゲノム分析を評価することができる。例えば、DNAスタンダードを用いて、効率的なアセンブリに必要な最少配列カバレッジ;検出の下限(すなわち、メタゲノムDNAスタンダードが検出される最少濃度);及びライブラリー感度、サイズ及び/または多様性の測定値(これらに限定されない)を評価することができる。また、本明細書に開示されたメタゲノムDNAスタンダードは、2つの以上の試料間の定量的比較に用いることができ、2つの以上の試料間で実施される微生物コミュニティ構造及び多様性の比較分析が可能になる。
【0154】
DNAスタンダードによる16S rRNAプロファイリング
16S rRNA遺伝子は、大きな複合微生物コミュニティをプロファイルするための系統的マーカーとして用いることが多い。人工微生物ゲノムからの16S rRNA遺伝子の一部分の典型であり、これとマッチするDNAスタンダードを生成することができる(例えば、
図11に示したとおり)。さらに、異なる相対濃度で人工16S rRNA遺伝子の典型であるDNAスタンダードを混合し、微生物コミュニティをエミュレートし、実施される16S プロファイリングアプリケーションを評価することができる。
【0155】
人工16S rRNA遺伝子とマッチするDNAスタンダードは、ユニバーサルプライマーと相補的な小配列を保持し、それゆえ、並行して天然16S rRNA遺伝子に増幅することができる。DNAスタンダードからの得られたアンプリコンを分析し、その後、(i)PCR増幅偏りの差;及び(ii)DNAスタンダードアンプリコンの測定存在量をこれらのDNAスタンダードの公知の初期濃度に対して比較することによる定量的精度のいずれか1つまたはそれ以上を評価することができる。さらに、DNAスタンダードから得られたアンプリコンを用いて、比較のための定量的スケールを確立し、対象の付随するメタゲノム試料からのアンプリコンを定量化することができる。
【0156】
DNAスタンダードによりGC偏りを同定すること
GC含有率のライブラリー調製及びシーケンシング中のいくつかの反応へのインパクトの結果、アセンブリ及び定量の偏りを生じさせる微生物ゲノムの偏った発現となる(Chen,Y.C.,et al.,2013)。本明細書に開示されたDNAスタンダードを用いて、GC含有率のシーケンシング及び分析へのインパクトを評価することができる。
【0157】
微生物ゲノム中にみられる広い範囲のGC含有率とマッチするDNAスタンダードを生成することができる。シーケンシング及び分析前に、環境DNA試料内でDNAスタンダードを混合することができる。GC含有率と相関関係にあるDNAスタンダードのアライメント、アセンブリ及び/または定量の偏りを同定することができる。例えば、DNAスタンダードの存在量の測定値及び公知の濃度間の差が、GC含有率と関係する偏りを同定することができ、順に次の定量的正規化がGC含有率のインパクトを打ち消すことができる。本明細書に開示されたDNAスタンダードは、また、DNA定量のGC含有率偏りを最少化する正規化パラメータを確立するためのトレーニングセットとして用いることができる。
【0158】
免疫受容体シーケンシングでDNAスタンダードを用いること
免疫レパートリーシーケンシングは、白血球によって発現される免疫受容体配列のスイートを増幅するために共通セットのプライマーを用いる。本明細書に開示されたDNAスタンダードは、人工染色体の人工クロノタイプの典型となるように設計することができる(
図12及び13に示した例)。クロノタイプDNAスタンダードの範囲及び複雑度は、白血球の試料によって発現される天然クロノタイプの複合及び多様なプロファイルをエミュレートするように合わせることができる。
【0159】
本明細書に開示されたDNAスタンダードは、また、通常、免疫レパートリーシーケンシングで用いられるプライマー対のそれぞれと相補的な小配列を保持してよい。それゆえ、PCR増幅は、試料内の対象の天然クロノタイプを増幅するために用いることができるが、また、DNAスタンダードによって表されるクロノタイプを増幅するために用いることができる。それゆえ、DNAスタンダードは、免疫レパートリーシーケンシング中にユニバーサルプライマーを用いた増幅のテンプレートの役割を果たすことができる。増幅及びシーケンシング後に、DNAスタンダードに由来するリードを分析して、免疫レパートリーシーケンシングの性能を評価し、異なるクロノタイプの相対的存在量を定量化することができる。また、DNAスタンダードを用いて、ハイブリダイゼーション効率の差による可能性がある異なるユニバーサルプライマーの増幅偏りを決定することができる。DNAスタンダードの公知の初期濃度に対してDNAスタンダードアンプリコンの存在量の測定値を比較することによって増幅偏りを決定することができる。次にクロノタイプ存在量を正規化し、決定された増幅偏りをカウントすることができる。また、本明細書に開示されたDNAスタンダードを用いて、人工クロノタイプの検出及び定量を評価することができ、付随する標的天然DNA試料のクロノタイプ検出及び定量の評価を知らせることができる。
【0160】
本明細書に開示された方法のいずれかが、ホモ接合性、ヘテロ接合性または異質性を複写するために、同じ濃度、または異なる濃度で試料に本明細書に開示された2つ以上のフラグメント(またはスタンダード)を添加することを含んでよい。例えば、同じ濃度で2つの異なるフラグメント(またはスタンダード)を添加し、ヘテロ接合性を複写してよい。このため、異なる濃度でフラグメント(またはスタンダード)を添加することによりホモ接合性、ヘテロ接合性または異質性を複写することができる。
【0161】
キット:
上記から理解されるとおり、本開示は、また、1つ以上の本明細書に開示されたポリヌクレオチドスタンダードを含むキットを提供する。あるいはまたはさらに、キットは、1つ以上の本明細書に開示されたスタンダードをコードする1つ以上のポリヌクレオチド配列を含む1つ以上の本明細書に開示されたベクターを含んでよい。キットは、また、ポリヌクレオチドスタンダードを生成するためにベクターを発現するのに好適な1つ以上の成分を含んでよい。キットは、本明細書に開示されたポリヌクレオチドスタンダード及び本明細書に開示されたベクターの双方を含んでよい。キットは、また、その中に含有される特定のポリヌクレオチドスタンダードを記載している情報、例えば、その配列、濃度、対象の構造的ゲノム特徴など(これらに限定されない)を提供してよい。キットは、また、1つ以上の本明細書に開示された人工染色体を含んでよい。
【0162】
キットは、任意の組み合わせで本明細書に開示されたポリヌクレオチドスタンダード及び/またはベクターのいずれか1つまたはそれ以上の混合物を含んでよい。スタンダード及び/またはベクターの混合物は、単一の緩衝剤中に一緒に提供してよく、1つ以上の容器中に提供してよい。あるいは、スタンダード及び/またはベクターの混合物は、それぞれが単一のスタンダード及び/またはベクター、または単一の濃度のスタンダード及び/またはベクターを含む複数の別個の容器の形態で提供してよい。別個の容器は、キットとして互いに関連させて提供してよい。
【0163】
キットは、さらに、本明細書に開示されたコンピュータ機器、コンピュータプログラム可能媒体、及び/またはコンピュータソフトウエアを含んでよい。このため、キットは、物理的ポリヌクレオチドスタンダードを実験的に用いることができ、コンピュータ機器及びソフトウエアを用いて、実験に由来するシーケンシング情報を人工染色体に関係づけることができるパッケージとして提供してよい。
【0164】
コンピュータシステム及びコンピュータ実装方法:
本開示は、また、コンピュータシステム及びコンピュータ実装方法を提供する。
図38は、ポリヌクレオチドシーケンシングプロセスを校正するのに好適なコンピュータシステム3800を示す。コンピュータシステム3800は、プログラムメモリ3804、データメモリ3806、コミュニケーションポート3808及びユーザーポート3810に接続されたプロセッサー3802を含む。プログラムメモリ3804は、非一過性コンピュータ読取可能媒体、例えばハードドライブ、ソリッドステートディスクまたはCD−ROMである。ソフトウエア、すなわち、プログラムメモリ3804に記憶される実行可能プログラムがプロセッサー3802に本明細書に開示された方法を実施させる。
【0165】
プロセッサー3802は、その後、データストア3806、例えば、RAMまたはプロセッサーレジスターに校正された結果を記憶してよい。プロセッサー3802は、また、コミュニケーションポート3808を介して、サーバー、例えば、ポリヌクレオチドシーケンシング実験を管理する試料配列データベースまたはコンピュータシステムに校正された結果を送ってよい。
【0166】
プロセッサー3802は、データメモリ3806から、ならびに、コミュニケーションポート3808から、及びユーザー3816にシーケンシング結果の視覚的表示3814を示すディスプレイ3812に接続されているユーザーポート3810から、データ、例えば、ポリヌクレオチド配列、人工染色体のフラグメントまたは試料の配列を示すデータを受けてよい。1つの例では、プロセッサー3802は、例えば、IEEE802.11に従ったWi−Fiネットワークを用いることによって、コミュニケーションポート3808を介してシーケンシングデバイスから配列データを受ける。Wi−Fiネットワークは、専用マネージメントインフラストラクチャー、例えばルーター、を必要としない分散型アドホックネットワークとしてよく、またはネットワークを管理するルーターまたはアクセスポイントを備えた集中ネットワークとしてよい。
【0167】
コミュニケーションポート3808及びユーザーポート3810は、別個の物として示されるが、データを受けるために任意の種類のデータポート、例えば、ネットワークコネクション、メモリインターフェイス、プロセッサー3802のチップパッケージのピン、またはロジカルポート、例えば、IPソケットもしくはプログラムメモリ3804に記憶され、プロセッサー3802によって実行されるファンクションのパラメータを用いてよいと理解しなければならない。これらのパラメータは、データメモリ3806に記憶してよく、値渡しまたは参照渡し、すなわち、ソースコード中のポインターとして扱ってよい。
【0168】
プロセッサー3802は、揮発性メモリ、例えばキャッシュまたはRAM、または非揮発性メモリ、例えば、オプティカルディスクドライブ、ハードディスクドライブ、ストレージサーバーもしくはクラウドストレージのメモリアクセスを含む、これらのインターフェイスすべてからデータを受けてよい。コンピュータシステム3800は、さらに、クラウドコンピューティング環境、例えば、仮想マシンのダイナミックナンバーをホストする内部接続サーバーの管理グループ内で実施してよい。
【0169】
のちに受けるデータを決定する、または計算するプロセッサー3802が、受けるステップのいずれも先導してよいと理解しなければならない。例えば、プロセッサー3802は、人工染色体の配列データを決定してよく、データメモリ3806、例えば、RAMまたはプロセッサーレジスター中に配列データを記憶してよい。プロセッサー3802は、その後、例えば、メモリアドレスと一緒にリードシグナルを提供することによって、データメモリ3806からのデータを要求してよい。データメモリ3806は、物理的ビットライン上の電圧シグナルとしてデータを提供してよく、プロセッサー3802は、メモリインターフェイスを介して人工染色体の配列データを受けてよい。
【0170】
この開示全体を通じて特に記載しない限り、データは、データ構造、例えば、[「G」、「A」、「T」、「C」]ストリングまたはヌクレオチドをコードするバイナリタプルのリストによって表してよいと理解しなければならない。データ構造は、データメモリ3806に物理的に記憶するまたはプロセッサー3802によって処理することができる。
【0171】
本開示の技術は、さまざまな技術を用いて実施してよいと理解しなければならない。例えば、本明細書に記載された方法は、好適なコンピュータ読取可能媒体にある一連のコンピュータ実行可能命令によって実施してよい。好適なコンピュータ読取可能媒体が、揮発性(例えば、RAM)及び/または非揮発性(例えば、ROM、ディスク)メモリ、キャリア波及び伝送媒体を含んでよい。例示的なキャリア波は、局所ネットワークまたは公的アクセス可能ネットワーク、例えば、インターネットでデジタルデータストリームを伝達する電気、電磁または光学シグナルの形態を取ってよい。
【0172】
また、特に記載しない限り、以下の記述から明らかなことと理解しなければならず、説明を通じて、用語、例えば、「処理すること」または「コンピュータで計算すること」または「計算すること」、または「決定すること」または「表示すること」または「校正すること」または「正規化する」などを用いる記述は、コンピュータシステムのレジスター及びメモリ内の物理的(電子的)量として表されるデータを処理し、コンピュータシステムメモリまたはレジスターまたは他の情報ストレージ、伝送またはディスプレイデバイス内の同様に物理的量として表される他のデータに変換するコンピュータシステム、または類似のエレクトロニックコンピューティングデバイスのアクション及びプロセスを意味することができると理解される。
【0173】
本開示は、本明細書に、さらに、以下の非限定例中に記載される。
実施例1:
以下のとおり、人工染色体の1つの例を調製した。ヒトchr7:271,335,00〜271,385,00(hg19)から5,000nt配列を取り出した。この配列は、HOXA1遺伝子のプロモーター中のCpGアイランド(CpGジヌクレオチドの密度を含有する配列)をオーバーラップさせる。相同性を除去するために、5,000nt配列をシャッフルし、同時に50ntのシャッフリングウインドウサイズでCGジヌクレオチドペアリングを維持した。このプロセスは、
図2に示されている。相同性を除去するために、ウインドウ内の一次DNA配列をシャッフルして、配列を再配列し、同時にウインドウサイズより大きな分解で遺伝的特徴を維持した。必要な場合、公知の天然配列との相同性を除去するために追加のヌクレオチド置換、挿入及び欠失を手動で生成した。BLASTnソフトウエアプログラム(Altschul,S.F. et al.,JMolBiol215,403−10(1990))を用いてヌクレオチドコレクション(nr/nt)データベースと得られたシャッフルされた配列を比較し、公知または天然の配列のいずれかとの21nt隣接相同性より大きないずれかの配列がないことを確認した。この実施例の方法は、公知または天然の配列との相同性を有しないが、HOXA1プロモーター内に50ntの分解で高次のCpGアイランド遺伝的特徴を保持する5,000nt配列を生成した。
【0174】
実施例2:
以下のとおり、人工染色体中の人工遺伝子配列の1つの例を調製した。最初に12エキソン及び11イントロンを含むヒトゲノム(hg19)から遺伝子配列を取り出した。個々のエキソン及びイントロン配列ならびに上流/下流1,000nt配列を取り出した。実施例1に記載されたとおり、相同性を除去するために20ntウインドウサイズでそれぞれの遺伝子エキソン及びイントロン配列を個々にシャッフルした。その後、正しい順序で、人工染色体内でシャッフルされたエキソン及びイントロン配列をアセンブルし、ヒトゲノム内のオリジナル遺伝子について、配向及び分布が保持された。この人工遺伝子が、
図3に示したとおり、R_1_2_Rを指す。挿入されたエキソンと隣接しているヌクレオチドを手動で編集し、カノニカルジヌクレオチドAG−CTスプライス部位及びポリ−ピリミジントラックヌクレオチドを挿入した。このため、当該人工遺伝子は、天然ヒト遺伝子中に存在する遺伝子座のより高次の遺伝的特徴を保持するが、オリジナルヒト遺伝子または他の公知のヌクレオチド配列のいずれかとの一次配列相同性を保持しない。
【0175】
実施例3:
以下のとおり、それぞれの遺伝子が複数のアイソフォームを含み、複数の遺伝子が人工染色体に含まれるものの1つの例を実施した。最初に、GENCODE v19基本的遺伝子アセンブリ(Harrow,Denoeud et al.2006)からヒトmRNAアイソフォーム配列を取り出した。混合されたエキソン長さ、エキソン数及びアイソフォーム数によってアイソフォームをランク付けした。このリストから系統立って2つ以上の別のアイソフォームを含む30の遺伝子のサンプルを抽出した。エキソン除外、エキソン含有、別の転写開始、別の転写終結、イントロンリテンションならびに別の3’及び5’スプライス部位使用を含む別の遺伝子スプライシングの異なる例を含むようにこれらのアイソフォームをキュレートした。ヒトゲノム(hg19)からのそれぞれの遺伝子エキソン及びイントロン配列を取り出し、相同性を除去するために、実施例1に上記のとおり、個々にシャッフルした。その後、人工染色体中でそれぞれのシャッフルされた配列を再アセンブルし、エキソン−イントロン構造を維持したが、天然配列との相同性を除去した。通常、ヒトゲノム中の遺伝子間でみられる距離とほぼ同じとなるように人工染色体中の挿入された遺伝子座間の距離を維持した。このプロセスによって、
図1に示したとおり、人工染色体中に30の人工遺伝子座を組み入れた。
【0176】
実施例4:
以下のとおり、人工染色体中に含有されるモバイルエレメントの1つの例を調製した。共通反復クラス(AluSx、MIRb、L2a等)(A.F.A.Smit,R.Hubley&P.Green Repeat Masker at http://repeatmasker.org)からモバイルエレメントの5つの例の天然ヒトDNA配列を取り出した。相同性を除去するために、実施例1に上記のとおり、反復配列をシャッフルし、キュレートした。十分な数にシャッフルされた反復配列を複製し、ヒトゲノム中に存在するものと同じ密度で人工染色体に挿入した。例えば、8Mb人工染色体配列が、ヒトゲノム中の類似天然反復エレメントの密度とマッチする788AluSx、534MIRb、433L2a、93MER5B及び166L1M5反復モバイルエレメントを有する。その後、
図4に示したとおり、個々の反復エレメントをランダムヌクレオチド置換、挿入、及び欠失させ、祖先配列から個々の反復モバイルエレメントの配列分散を生じさせた。ヒトゲノム中の類似天然エレメントの配列及び長さ分散とマッチするようにシャッフルされた反復モバイルエレメントの配列及び長さ分散を設計することができる。その後、
図1に示したとおり、ヒトゲノム中の類似天然モバイルエレメントと同じ密度及び分布で、人工染色体配列にシャッフルされた反復モチーフを挿入した。
【0177】
以下のとおり、人工染色体中に含有されるセントロメアの1つの例を調製した。ヒトゲノム中の個々のALR/Alphaセントロメアから単一の171ntタンデム反復DNA配列を取り出した(A.F.A.Smit,R.Hubley&P.Green Repeat Masker at http://repeatmasker.org)。この天然171ntタンデム反復DNA配列をシャッフルし、天然配列との相同性を除去するためにキュレートし、祖先反復を形成した。この祖先反復から、4連続ラウンドの4倍増幅を実施し、続いて、ランダムヌクレオチド置換、挿入、及び欠失によって14%配列分散を実施した。この結果、オリジナルヒト配列の内部階層的反復構造と類似した内部階層的反復構造を有するが、オリジナルヒト配列と配列同一性を共有しない10、944ヌクレオチド長人工セントロメアエレメントが形成された。その後、
図1に示したとおり、染色体配列の中央領域に人工セントロメアエレメントを挿入した。
【0178】
以下のとおり、人工染色体中に含有されるテロメアの1つの例を調製した。
図1に示したとおり、手動で人工6−merヌクレオチド祖先反復モチーフ(ATTGGG)を生成し、複数のラウンドの増幅を行い、配列分散をシミュレートし、2つの10.9及び8.3kb長の人工テロメア配列を生成し、その後、人工染色体配列のそれぞれの末端に付加した。
【0179】
実施例5:
以下のとおり、人工染色体中に含有される小規模な遺伝的変動の1つの例を調製した。変異型、ヌクレオチド含有率及びサイズに従って、SNP、挿入、欠失、ヘテロ接合体、マイクロサテライト及び複数のヌクレオチド多型を含むヒト小規模な変動のリスト(Sherry,S.T. et al.Nucleic Acids Res29,308−11(2001)をランク付けした。このリストから系統立って512の小規模な変異のすべてのサンプルを抽出した。選択した小規模な変異手動でキュレートし、広い範囲の変異型、ヌクレオチド含有率及びサイズの発現を確実にした。ヒトゲノム配列(hg19)から上流及び下流フランキング5ヌクレオチド配列と共にヒト小規模な変動のDNA配列を取り出した。その後、268の小規模な変動を2つの人工染色体に置換し、これにより、オリジナル「参照」人工染色体に対するホモ接合体変動を組み入れる一対の変動型人工染色体が生成された。次に、289の小規模な変動を1つの単一の人工変動型対立遺伝子染色体だけに置換し、これにより、オリジナル「参照」人工染色体に対するヘテロ接合体変動が生成された。このプロセスによって、人工染色体中のホモ接合体及びヘテロ接合体の小規模な変動を示すことができる。
【0180】
実施例6:
以下のとおり、人工染色体への疾患特異的小規模な遺伝的変動の組み入れの1つの例を実施した。BRAF V600E変異の結果、バリン(V)からグルタミン酸(E)のBRAFタンパク質中の位置600で、アミノ酸置換が生じ、これは黒色腫症例の約85%にみられている(Davies,H. et al.Nature417,949−54(2002))。ヒトゲノムから野生型(T)または疾患関連変異BRAF V600E変異(A)のいずれか及びフランキング上流及び下流150ヌクレオチドとマッチするDNA配列を取り出した(hg19アセンブリ中のchr7:140,452,986−140,453,286に対応する)。BRAF V600E変異への6上流及び下流ヌクレオチドは、シャッフルされなかった。しかし、
図7に示したとおり、BRAF V600E変動の部位からの距離を増大させながら、増大する大きなウインドウサイズ中に残りのフランキング配列をシャッフルした。例えば、BRAF V600E変動の20nt距離内の場合、6ntウインドウサイズで配列をシャッフルし、BRAF V600E変動の100nt距離内の場合、10ntウインドウサイズでシャッフルし、BRAF V600E変動の100nt距離を越える場合、20ntウインドウサイズでシャッフルした。これは、遺伝子配列全体で公知の天然配列との相同性を除去したが、変異のすぐそばのシャッフリングのウインドウ分解を増大させた。その後、シャッフルされた配列を「参照」人工染色体に置換し、BRAF V600E変異を有する人工変異染色体が形成された。
【0181】
もう1つの例では、K562細胞株は、TP53遺伝子配列中のch17:7578523−7578524(hg19)でフレームシフトヌクレオチド挿入を含有する(Law,J.C. et al.、Leuk Res17,1045−50(1993))。ヒトゲノムから参照(T)または疾患関連変異TP53 Q136fs変異(TG)のいずれか及びフランキング上流及び下流150ヌクレオチドとマッチするDNA配列を取り出した(hg19アセンブリ中のchr17:7,578,374−7,578,674に対応する)。TP53 Q136fs変異への6上流及び下流ヌクレオチドはシャッフルされず、残りのシャッフルされた配列は、上記のとおり、TP53Q136fsからの距離ごとのウインドウサイズが増大した。その後、この配列を「参照」人工染色体に置換し、TP53 Q136fs変異を有する人工変異染色体が形成された。
【0182】
実施例7:
以下のとおり、人工染色体への大規模な遺伝的変動(>50nt)の組み入れの1つの例を実施した。変異型、ヌクレオチド含有率及びサイズに従って、ヒト大規模な変動のカタログ(Sherry,Ward et al.2001,MacDonald,Ziman et al.2014)をランク付けした。ヒト大規模な変動のリストから系統立って大規模な変動の12例すべてのサンプルを抽出し、手動でキュレートし、大きな欠失、挿入、逆位(トランスバージョン)、コピー数変動及びモバイルエレメント挿入を含む多様な範囲の異なる型の大規模な変動の完全発現を確実にした。追加の1,000ヌクレオチドフランキング上流及び下流配列と構造的変動の配列をシャッフルし、実施例1に前述のとおり、公知の天然配列との相同性を除去するためにキュレートした。特に、実施例4に前述のとおり、内部階層構造を維持することができるように大規模な変動の内部構造(例えば、反復または逆方向ユニット)のいずれかについて可能なシャッフリングを実施した。その後、構造的変動のこれらの例を人工染色体配列に挿入し、変動型人工染色体を生成した。この方法では、
図12に示したとおり、人工染色体内に4つの異なる型の大規模な構造的変動の12例を挿入した。上記の実施例6の方法に記載されたとおり、「参照」人工染色体に対する複数の変動型人工染色体の使用によって、一定の範囲の構造的変動の遺伝子型(ホモ接合体及びヘテロ接合体)を確立することができる。
【0183】
もう1つの例では、以下のとおり、複数の人工染色体間のコピー数で変わるDNA反復を組み入れた。
図33に示したとおり、ヒトゲノム(hg19)から単一のD4Z4反復コピーのDNA配列を取り出し、公知の天然配列との相同性を除去するために反復コピーサイズとマッチするウインドウサイズとシャッフルした。シャッフルされたD4Z4反復コピーは、その後、複写され、頭−尾配向に組織化され、10、20、50、100及び200のシャッフルされたD4Z4反復コピーのアレーを形成する。これらの反復コピー数は、ヒト対象の実測D4Z4コピー数の大部分(99%)を包含する(Schaap,Lemmers et al.2013)。これは、10コピー(FSMD患者の95%によって示された)、20コピー(高リスク個体)、50コピー(関連個体について)及び100超のコピー(影響を受けない個体について)のコピー数を含む(van der Maarel and Frants2005)。その後、それぞれの反復アレーを人工染色体に組み入れ、これにより、人工D4Z4反復コピー数で変わる一定の範囲の異なる遺伝子型が生成された。
【0184】
実施例8:
以下のとおり、2つの人工染色体間の転座による融合遺伝子の形成の1つの例を実施した。最初に、実施例2に前述の方法を用いて、2つの人工遺伝子、B1及びA1遺伝子をコードする2つの人工染色体を生成した。A1及びB1遺伝子のエキソン/イントロン構造は、それぞれ、ヒトABL1及びBCR遺伝子に由来した。
図9に示したとおり、B1遺伝子は、人工染色体A上に23エキソン/21イントロンを含み、人工染色体B上に11エキソンを含むA1遺伝子の典型である配列を生成した。それぞれの人工染色体内に遺伝子のエキソン/イントロン構造を維持したが、上記の実施例1に記載された方法によって、相同性を除去するためにDNA配列をシャッフルした。その後、
図9に示したとおり、(i)B1遺伝子中のエキソン4後及び(ii)A1遺伝子中のエキソン2前の転座によって、人工染色体A及びB配列を再配列し、これにより、人工染色体A上にB1エキソン1〜13及びA1エキソン2〜11を含む融合遺伝子及び人工染色体B上でA1エキソン1及びB1エキソン14〜22とマッチする融合遺伝子が生成された。このプロセスによって、2つの人工染色体の転座を実施し、融合遺伝子事象が形成された。
【0185】
実施例9:
以下のとおり、微生物ゲノムコミュニティをシミュレートするために、本明細書に開示された人工染色体の使用の1つの例を実施した。環境DNA試料は、複数の微生物ゲノムの複合コミュニティを含有することが多い。そこで、型、サイズ、及び存在量が異なる微生物ゲノム(本明細書では「人工微生物ゲノム」を意味する)の典型である複数の人工染色体の複合コミュニティをシミュレートした。最初に、全部で30の微生物の高クオリティドラフトゲノム配列(Chan,P.P.,et al.,Nucleic Acids Res40,D646−52(2012))を取り出した。選択した微生物ゲノムを手動でキュレートし、広い範囲の分類群(アーキア及び細菌の双方を含む)、サイズ(0.5〜10Mbp)、GC含有率(27〜70%)、rRNAオペロンカウント(1〜10)の発現、及び多様な範囲の環境(ヒト身体、水生、陸上及び極端な物理的または化学的条件)からの分離を確実にした。当該選択(表9に示した)は、環境DNA試料内の複合微生物集団中でみられることが多い系統的及びゲノム異質性の典型となることを意図している。ゲノム配列をシャッフルし、公知の天然配列との配列相同性のいずれかを有する配列を除去するように操作した。このプロセスによって、30の人工微生物ゲノムのライブラリーが生成された。
【0186】
16S rRNA遺伝子を微生物ゲノムに組み入れるもう1つの例を実施した。前記の方法を用いて事前に生成された人工微生物ゲノムから、表9に示したとおりの30の微生物ゲノム配列に対応する16S rRNA配列を取り出した。16S rRNA配列をシャッフルし、実施例1に前述のとおり、公知の天然配列との相同性を除去するために手動で編集した。しかし、ユニバーサル16S プライマー(フォワードプライマー:CTACGGGAGGCAGCAG及びリバースプライマー:GACTACCAGGGTATCTAATCC)に必要な配列が、保持されている。
図11に示したとおり、これらのプライマー配列は、16S rRNA遺伝子内のV3領域に対応するおよそ460ntのシャッフルされた配列に接している。この介在するシャッフルされたV3配列は、ポリメラーゼ連鎖反応でユニバーサル16S プライマーを用いて増幅される公知の天然配列との相同性を有しない人工マーカーを含む。合成マーカー16S rRNA遺伝子は、微生物ゲノム配列が引き出されたオリジナル微生物のオペロンカウント(1〜10)に関する頻度で、人工微生物ゲノム配列にアセンブルされる。
【0187】
実施例10:
本明細書に開示された人工染色体を用いて、哺乳動物免疫グロブリン配列多様性のシミュレーションの1つの例を実施した。人工免疫レパートリー配列の生成により、ヌクレオチドスタンダードの使用が可能になり、免疫レパートリーシーケンシング中にクロノタイプの精度及び定量が評価される。人工染色体上にTCRβ座を生成し、V(D)J組み換えのプロセスをモデル化し、人工TCRβクロノタイプのスイートを生成した。最初に、ヒトゲノム(hg19)からTCRβ遺伝子配列(65Vβセグメント、2Dβセグメント及び13Jβセグメントを含む)を取り出した。公知の天然配列との相同性を除去するために、それぞれのセグメントまたはイントロン配列を単独でシャッフルし、BIOMED−2研究(van Dongen,J.J. et al.Leukemia 17、2257−317(2003))に用いられるプライマー配列と相補的な配列は除外された。
図13に示したとおり、その後、シャッフルされたセグメント及びフランキングイントロン配列を再アセンブルし、人工染色体上のTCRβ遺伝子座を組み入れた。
【0188】
人工TCRβ遺伝子座に、その後、以下のとおり、V(D)J組み換えのT細胞分化及び体細胞超変異中に生じる生物学的プロセスの単純化したシミュレーションを受けさせ、TCRβクローンを生成した。成人健康男性内で事前に同定されランダムで選択されたTCRβクロノタイプに対応するVβ、Dβ及びJβセグメントの選択及び連結によって、V(D)J組み換えをシミュレートした(Zvyagin,I.V. et al.Proc Natl Acad Sci U S A 111、5980−5(2014))。成人健康男性にみられるTCRβクロノタイプ中のランダムで選択された挿入及び欠失に基づく頻度で、ジャンクションでのヌクレオチドの挿入または欠失によって体細胞超変異をシミュレートした(Zvyagin,I.V. et al.Proc Natl Acad Sci U S A 111、5980−5(2014))。この方法ののちに、15の人工TCRβクロノタイプが生成された。
【0189】
もう1つの例では、人工染色体上にTCRγ座を生成し、VJ組み換えをモデル化し、人工TCRβクロノタイプのスイートを生成した。最初に、ヒトゲノム(hg19)から10Vγセグメント、5Jγセグメント及び2Cγセグメント及びフランキングイントロン配列を取り出した。公知の天然配列との相同性を除去するために、それぞれのセグメントまたはイントロン配列を単独でシャッフルし、BIOMED−2研究(van Dongen,Langerak et al.2003)に用いられるプライマー配列と相補的な配列は除外された。
図12に示したとおり、シャッフルされた配列及びフランキングイントロン配列を再アセンブルし、人工TCRγ遺伝子座を形成した。次に、人工Vγセグメント及びJγセグメントをランダムで選択し、結合することによって、T細胞分化中に生じるVγJγ体細胞組み換えの多様化プロセスをモデル化し、一定の範囲のTCRβクロノタイプを生成した。例えば、Vγ4セグメントをJγ1セグメントに結合し、Vγ4Jγ1クローン(配列番号:203)を形成した。この方法ののちに、15人工TCRG VγJγクローン(配列番号:203−219)が生成された。
【0190】
実施例11:
人工染色体中のR_1_2_R遺伝子の典型であるRNAスタンダード配列の1つの例を実施した。実施例2に記載された方法を用いて、R_1_2_R遺伝子座を人工染色体に組み入れた。その後、
図3に示したとおり、R_1_2_R遺伝子の13−エキソン配列を一緒に結合し、連続1,310nt配列(配列番号:3)を形成し、同時に介在する12イントロン配列を除去した。追加の約100ヌクレオチドポリアデニントラクトをR_1_2_RmRNA配列の3’末端に付加した。シミュレートしたシーケンスリードを用いてR_1_2_Rスタンダードの典型であるRNAスタンダードの性能を評価した。Shermanソフトウエアを用いて、R_1_2_R配列(配列番号:3)からの1,000ペアエンド125−ntリードをシミュレートした。その後、以下のパラメータで、Tophat2ソフトウエア(Kim,Pertea et al.2013)を用いてシミュレートしたリードを人工染色体にアラインした。
>tophat2 cht_index simulated_reads.R1.fq simulated_reads.R1.fq
【0191】
1,000リードすべてが一意に及び正確にR_1_2_R遺伝子にアラインされたことがわかった。シミュレートしたリードが正確にスプリットされ、12イントロン及び13すべてにアラインされたことがわかり、R_1_2_Rスタンダードの有用性が確認された。
【0192】
実施例12:
人工R_1_2遺伝子の別のスプライスmRNAアイソフォームの典型であるRNAスタンダードの1つの例を実施した。R_1_2_V配列は、人工染色体に含まれ、上記の実施例11に記載されたR_1_2_R配列への別のスプライスアイソフォームを含む。R_1_2_Vアイソフォーム配列は、隣接1,310nt配列(配列番号:4)を形成する12のエキソンを含むと同時に介在する11のイントロン配列は、除去される。
図3に示したとおり、R_1_2_Vスタンダード配列は、別のアイソフォームR_1_2_Rスタンダードと共通した11エキソンを有することを明記する。しかし、それは、エキソン(4)を欠失し、追加の2つのエキソン(5及び6)を含有する。それゆえ、R_1_2人工遺伝子の別のスプライシングによって、R_1_2_R及びエキソン4が除外されエキソン5及び6を含有するR_1_2_V RNAスタンダードモデルを比較する。
【0193】
実施例13:
R_1_2_R遺伝子の成熟mRNA配列の典型であるRNAスタンダードを生成するために、RNAスタンダードの製造の1つの例を実施した。市販のサービス(ThermoFisher GeneArt)を用いて、DNA分子としてR_1_2_R配列(配列番号:3)を最初に合成した。
図14に示したとおり、エレメントの以下の順序で:(i)SP6プロモーター(ii)R_1_2_R遺伝子配列(iii)約50ヌクレオチドポリ−アデニン配列及び(iv)EcoR1制限部位、当該配列をpMA発現プラスミドに挿入した。当該プラスミドを変換し、E.coliで培養した。QIAprep Spin Midiprep(Cat#12945)を用いて当該プラスミドを精製した。プラスミドクローンは、上記の配列要素の精度、挿入及び配向を確認するためにシーケンスされたSangerであった。その後、EcoR1制限エンドヌクレアーゼによる消化によって当該プラスミドを線状化した。次に、in vitroRNA合成反応のテンプレートとして当該プラスミドを用いて、合成RNAポリヌクレオチドスタンダードを生成し、その後、これをQIAquick column(QIAGEN)で精製した。BioAnalyzer RNA Chip(Agilent)を用いてRNAスタンダードのアリコットを分析し、予測される完全長転写及び濃度を確認した。その後、精製したRNAスタンダードを必要な濃度に希釈した。
【0194】
実施例14:
複数のRNAスタンダードの異なる混合物を生成する方法の1つの例を実施した。最初に上記の実施例11及び13に記載されたとおり、人工染色体中でコードされる30の遺伝子の典型であるRNAスタンダードを製造した。表1に示したとおり、30のRNAスタンダードを10群(それぞれの群は、3つのRNAスタンダードからなる)に分けた。10群間で3倍連続滴定を実施し、最少及び最大群間の存在量が10
6倍の範囲に及ぶ。その後、異なる相対的存在量で30のRNAスタンダードを混合し、混合物を形成した。それゆえ、当該混合物は、RNA存在量の定量的スケールまたはラダーを含む異なる濃度の逐次的範囲で30の異なるRNAスタンダードを含む。このRNAスタンダードのコレクションを混合物Aと称した。
【0195】
次に、異なる範囲の存在量で同じ30RNAスタンダードをアセンブルし、表1に示したとおり、異なる混合物を形成し、混合物Bと称した。混合物B中のRNAスタンダードの存在量は、RNAスタンダードの存在量間の対ごとの比較で、混合物A及び混合物B間のRNAスタンダードの存在量が0、2倍または4倍増大または減少を示す量である。RNAスタンダード存在量の変化のこの差は、天然遺伝子集団とほぼ同じであり、遺伝子発現の変化をエミュレートするのにこれを用いることができる。
【0196】
実施例15:
複数の別のスプライスRNAスタンダードの異なる混合物を生成する方法の1つの例を実施した。最初に実施例13に記載された方法を用いて60RNAスタンダード(配列番号:1−62)を製造した。上記の実施例12に記載されたとおり、互いに共有し、エキソン配列含有率が異なる2つの別のアイソフォームを含む対としてRNAスタンダードを構成した。
【0197】
30対のRNAスタンダードを混合し、2つの別の3倍連続希釈とし、混合物A及びBを形成し、別のアイソフォームRNAスタンダード間の存在量の対ごとの比較が、1倍、2倍及び3倍の変化(表1に示した)に相当するようにした。例えば、混合物A中に15,000アトモル/ulでR_1_2_R及び5,000アトモル/ulでR_1_2_Vを添加し、混合物B中に1,250アトモル/ulでR_1_2_R及び3,750アトモル/ulでR_1_2_Vを添加した。これは、混合物A及びB間のR_1_2遺伝子発現の4倍変化に相当し、また、個々のR_1_2_R及びR_1_2_Vアイソフォーム間の相対濃度の3倍変化に相当し、これにより、R_1_2遺伝子の別のスプライシングをエミュレートする。混合物間のアイソフォーム存在量の差を天然遺伝子集団の別のスプライシングと比較することができる。
【0198】
実施例16:
以下のとおり、融合遺伝子の典型であるRNAスタンダードの1つの例を実施した。(i)B1遺伝子配列(配列番号:136)(ii)A1遺伝子配列(配列番号:135)及び(iii)B1エキソン1〜13配列及びA1エキソン2〜11配列(配列番号:137)とマッチするB1fA1遺伝子、とマッチするようにRNAスタンダードを製造した。実施例13に前述の方法を用いてRNAスタンダードを製造した。
【0199】
実施例17:
6,974,486〜6,975,593ヌクレオチド間の人工染色体配列の典型であるようにDNAスタンダードの製造の1つの例を実施した。最初に市販のサービス(ThermoFisher GeneArt)で、1,122ntDNAスタンダード配列(配列番号:63)及び2つのフランキングSap1制限部位(GCTCTTC)をDNA分子に合成した。その後、
図14に示したとおり、当該配列を高コピープラスミド(pMA)にクローン化した。それぞれのプラスミドをE.coli培養物中で成長させ、QIAprep Spin Midiprep(Cat#12945)を用いて調製した。QIAquickカラム(QIAGEN)を用いてDNAプラスミドを精製し、ストックを含むようにスタンダード濃度に希釈した。プラスミドクローンをSangerシーケンスし、プラスミドへの正確な配列及び挿入を確認した。PCR(D_1_1_R配列の末端でプライマー対を用いることがDNAスタンダードを増幅するのに用いられる)または制限ダイジェスト(フランキングSap1部位の下流のSap1制限エンドヌクレアーゼ切断5/6ntを用いて、切断後に末端に付加ヌクレオチドを残さず、D_1_1_RスタンダードDNA分子を切除することができる)によるDNAスタンダード合成のテンプレートとしてストックプラスミドを用いた。合成後に、Agilent 21000 BioanalyserでD_1_1_Rスタンダードのアリコットを分析し、当該スタンダードの予測される完全長サイズ及び濃度を確認した。その後、精製したDNAスタンダードを必要な濃度に希釈する。
【0200】
実施例18:
複数のDNAスタンダードの異なる混合物を生成する方法の1つの例を実施した。上記の実施例17に記載された方法を用いて人工染色体配列とマッチする30のDNAスタンダードを製造した。DNAスタンダードを10群に分け、それぞれが3つのDNAスタンダードからなる。それぞれの群の3倍連続希釈(すなわち、3つのDNAスタンダードが同じ濃度を有する)をアセンブルし、これにより、DNAスタンダードの最少及び最大群間の濃度が10
6倍の範囲に及ぶ(表5に示した)。この範囲の濃度のDNAスタンダードの組み合わせは、混合物Aと称される。これにより、この混合物は、DNA存在量の定量的スケールまたはラダーを提供する。次に、異なる範囲の濃度で同じ30のDNAスタンダードをアセンブルし、表5に示したとおり、別の混合物Bを形成した。混合物B中の各DNAスタンダードの存在量は、DNAスタンダードの存在量間の対ごとの比較で、混合物A及び混合物B間のDNAスタンダードの存在量が0、2倍または4倍増大または減少を示す量である。混合物間のDNAスタンダード存在量のこの変化は、天然DNA配列とほぼ同じであり、DNA存在量の倍数変化を測定する定量的スケールまたはラダーを含む。
【0201】
実施例19:
単一の、より大きな、または「結合された」DNAスタンダードを生成するために複数のDNAスタンダードを結合する方法の1つの例を実施した。結合されたDNAスタンダードが、上記の実施例17に記載された方法を用いて生成される複数の個々のDNAスタンダードを含む。例えば、結合されたDNAスタンダードAが、D_1_1_Rの1コピー;D_1_2_Rの2コピー;D_1_3_Rの3コピー、D_1_4_Rの4コピー;D_1_5_Rの5コピー;D_1_6_Rの6コピーを含む。また、
図16に示したとおり、1(D_1_1_R)及び6(D_1_6_R)間でコピー数を変えることが、個々のD_1_1_R及びD_1_6_Rスタンダード間の存在量の6倍の増大に相当することを明記する。表7.に示したとおり、このアプローチを用いて、計90の個々のDNAスタンダードからアセンブルした15の結合されたDNAスタンダード(A〜O)を構成した。それゆえ、それぞれの結合されたDNAスタンダードが、1倍〜6倍の相対的コピー数で6つの個々のDNAスタンダードを含む。
【0202】
以下のとおり、異なるコピー数(D_1_1_Rの1コピー;D_1_2_Rの2コピー;D_1_3_Rの3コピー)で個々のDNAスタンダードを結合されたDNAスタンダードにアセンブルした。最初に、個々のDNAスタンダードをpUC19ベクターにクローン化した。ジャンクション領域で20−bpオーバーラップを有するオリゴヌクレオチドプライマーを用いてPCR増幅を実施した。製造者の指示書に従ってGibson Assembly Master Mix(New England BioLabs、Ipswich、MA)を用いて得られたPCRアンプリコンを一緒に連結した。簡潔にいうと、0.062pmolのベクターフラグメント、0.187pmolの5つの挿入フラグメント及び10ulのGibson Assembly Master Mix(2x)で、6つのフラグメントGibsonアセンブリを設定し、20ulの最終容積とした。50℃で2時間、最終Gibsonアセンブリをインキュベートした。以下のインキュベーション後に、次の変換及びプラスミド精製のために−20℃で試料を保管した。Sangerシーケンシングを用いて、結合されたDNAスタンダード挿入配列を確認した。
【0203】
結合されたDNAスタンダードを逓増相対濃度で滴定し、混合し、表7に示したとおり、存在量の15倍の増大を包含する混合物Cを生成した。
【0204】
実施例20:
人工染色体間の遺伝的変動の典型であるDNAスタンダードの1つの例を実施した。実施例5に前述のとおり、人工染色体間に遺伝的変動を組み入れることができる。上記の実施例17に記載された方法によって、等しい長さ(1000nt)の人工染色体配列の領域とマッチする32対のDNAスタンダード(配列番号:63〜134)を製造した。それぞれの対が、「参照」染色体(_Rで表される)または変異人工染色体(_Vで表される)のいずれかとマッチする2つのDNAスタンダードを含む。例えば、DNAスタンダード対;変異対立遺伝子(D_1_1_Vと称される;配列番号:64)とマッチする一方のDNAスタンダード及び上記の実施例20に記載された参照D_1_1_Rスタンダード(配列番号:63)とマッチする他方のDNAスタンダードを生成した。
図6に示したとおり、D_1_1_Vスタンダード配列は、4SNP、12nt欠失、6nt挿入及び33nt欠失を含む7部位でD_1_1_Rスタンダード配列と異なる。可能な場合、変動の部位の上流及び下流に隣接する200nt配列が、また、シーケンシングエッジ効果のインパクトを最少化するDNA配列中にある。全体で、上記の実施例17に記載されたとおりの方法を用いて、252SNP、挿入または欠失50nt未満(DNAスタンダードごとに5〜8のSNP、挿入または欠失)を含有する30のDNAスタンダード対を製造した。
【0205】
実施例21:
遺伝的変動の典型であるDNAスタンダードの異なる混合物を生成する方法の1つの例。実施例20に記載されたとおり、遺伝的変動の典型であるDNAスタンダード対の相対的存在量を変えることによって、異なる倍数体遺伝子型を示すことができる。最初に異なる存在量で30のDNAスタンダード対を添加し、表5に示したとおり、混合物Aを形成し、その結果、DNAスタンダード対間の対ごとの比較が、変異及び参照DNAスタンダード間の変異全体の相対的存在量の変化が等しい、3倍、9倍、及び30倍のものを示す。変動型及び参照DNAスタンダード間の相対的存在量のこの変化が、倍数体ゲノム中のホモ接合体、ヘテロ接合体、及び不均一変動のモデル化を可能にする。例えば、参照及び変異人工染色体の典型であるDNAスタンダードの等しい濃度が、ヒトなどの倍数体生物中のヘテロ接合体遺伝子型の典型である。DNAスタンダードの異なる相対濃度は、定量的差を測定するためのスケールまたはラダーを確立することができる。次に、異なる範囲の存在量で同じ30のDNAスタンダード対をアセンブルし、表5に示したとおり、異なる混合物を形成し、混合物Bと称した。混合物B中のDNAスタンダードの存在量は、参照及び変動型DNAスタンダードの相対的存在量間の対ごとの比較で、混合物A及び混合物B間の遺伝的変動の存在量の一定の範囲の倍数変化を示す量である。この変異存在量の変化の差が、DNA試料間の対立遺伝子頻度の変化とほぼ同じである。
【0206】
実施例22:
特定の疾患関連遺伝的変動の典型であるDNAスタンダードの1つの例を実施した。実施例6に前述の参照及び変異人工染色体に対応する2つのDNAスタンダードを生成した。それゆえ、参照DNAスタンダードは、参照配列(Q139fsのT及びV600EのT;配列番号:138)とマッチし、変動型DNAスタンダードは、疾患関連遺伝的変動(Q139fsのTG及びV600EのA;配列番号:139)とマッチした。実施例17に前述のとおり、DNAスタンダードを製造した。
【0207】
等しい存在量でDNAスタンダードを混合し、これにより、単一のTP53 Q136fs及びBRAF V600E変異及び単一の野生型対立遺伝子を有するヘテロ接合体遺伝子型をエミュレートする。上記の実施例21に記載されたとおり、参照DNAスタンダードに対する10倍連続希釈によって変異DNAスタンダードの連続希釈を生成した。これにより、DNA試料の逓増部分母集団が変異対立遺伝子を有する不均一対立遺伝子頻度をエミュレートすることができる。
【0208】
参照及び変異(変異を含有する)DNAスタンダードの異なる混合物を含有するライブラリーで次世代シーケンシング(Illumina HiSeq 4000)を実施した。その後、以下のとおり、シーケンスリードを分析した。
1.BWAを用いてシーケンスリードをヒトゲノムにアラインした;
2.Picardツールを用いてアライメントを処理した;
3.Genome Analysis Tool Kit(GATK)を用いて変異を同定した。
変異の双方(ヘテロ接合体混合物からの例のoutput.vcf fileから取った結果)を同定した:
p53フレームシフト変異
B5_R 300 . T TG 962.73 . \
AC=1;AF=0.500;AN=2;BaseQRankSum=1.780;ClippingRankSum=0.008; \
DP=60;FS=2.250;MLEAC=1;MLEAF=0.500;MQ=60.00;MQ0=0; \
MQRankSum=0.472;QD=16.05;ReadPosRankSum=−0.008;SOR=0.430 \
GT:AD:DP:GQ:PL 0/1:24,32:56:99:1000,0,677(GT0/1がヘテロ接合体対立遺伝子を示し、0は、参照対立遺伝子であり、1は、変異対立遺伝子である)
BRAF V600E変異
B5_R 602 . T A 130.77 . \
AC=1;AF=0.500;AN=2;BaseQRankSum=0.306;ClippingRankSum=0.184; \
DP=15;FS=0.000;MLEAC=1;MLEAF=0.500;MQ=60.00;MQ0=0; \
MQRankSum=−0.429;QD=8.72;ReadPosRankSum=0.184;SOR=1.022 \
GT:AD:DP:GQ:PL 0/1:10,5:15:99:159,0,364
【0209】
この例は、異なるホモ接合体、ヘテロ接合体及びより低い変異体対立遺伝子頻度で合成DNAスタンダード上に表された臨床的に重要な変異の同定を示す。これは、倍数体ヒトゲノム中のヘテロ接合体対立遺伝子の典型であるように当該スタンダードの混合物が用いられる1つの例を提供する。ここでモデル化された変異(BRAF V600E変異)には、重要な臨床的意義があり、臨床診断の分野での本校正方法の価値を示している。
【0210】
実施例23:
大規模な遺伝的変動の典型であるDNAスタンダードの1つの例を実施した。実施例7に記載されたとおり、人工染色体に事前に組み入れた構造的変動の12例とオーバーラップしているDNAスタンダードを製造した。それぞれのDNAスタンダードでは、シーケンシング及びアセンブリに影響を及ぼす可能性がある末端効果を阻止するように、少なくとも600ntの上流及び下流フランキング配列が含まれた。実施例17に前述のとおり、DNAスタンダード対を製造し、異なる相対的存在量で混合し、実施例21に記載された方法を用いて異なる遺伝子型をモデル化する混合物を形成することができる。
【0211】
実施例23.1:
コピー数変動の典型であるDNAスタンダードの1つの例を実施した。上記の実施例7の人工染色体に組み入れた人工D4Z4反復アレーとオーバーラップしている6のDNAスタンダード(配列番号:167〜172)を生成した。
図33に示したとおり、それぞれのDNAスタンダードは、長さが計1,600ntであり、(i)単一のD4Z4反復コピーおよそ800nt長(ii)半反復コピーとマッチする400nt上流配列(iii)半反復コピーとマッチする400nt下流配列を含む。それぞれのDNAスタンダード間で識別するために、DNA配列中に6の「バーコード」ヌクレオチド配列(AGCTA、CGATC、CACTG、TCAGC、TAGAC、及びGCAGT)の1つを含めた。それぞれの配列は、1つのDNAスタンダード上に存在するだけであり、他の5つのDNAスタンダード上に存在しないことを明記する。
図17に示したとおり、バーコードヌクレオチドは、DNAスタンダード配列内に40ntの介在する距離を有し、その結果、それぞれの100ntウインドウが、常にバーコード配列の少なくとも2つの例を含有する。
【0212】
図33に示したとおり、実施例17に記載された方法を用いてそれぞれのDNAスタンダードを製造し、以下の相対濃度;10倍、13倍、50倍及び150倍でDNAスタンダードを滴定した。これは、FSMD患者の95%によって示された10コピーから、影響を受けない個体の100超のコピー(van der Maarel and Frants 2005)までのヒト対象の実測D4Z4コピー数の大部分(Schaap,Lemmers et al.2013)を包含する。このプロセスは、反復DNA配列の異なるコピー数の典型であるDNAスタンダードの混合物を生成した。
【0213】
実施例24:
微生物ゲノムコミュニティの典型であるDNAスタンダードの1つの例を実施した。実施例9でアセンブルした人工微生物ゲノム内の選択された配列とマッチする12のDNAスタンダード(配列番号:149〜160)を生成した。DNAスタンダードの長さ及びGC%が、人工微生物ゲノムの長さ及びGC%と比例し、それゆえ典型的であるように微生物ゲノム配列を選択した。これは、表9に示し、
図10に示した。例えば、人工「Enterococcus faecal様」ゲノムは、3.2Mbであり、平均38%GC含有率を有する。比較によって「E.faecalis様」ゲノムとマッチする典型的なDNAスタンダードMG_1(配列番号:149)は、2.2kb長さ(全ゲノムの長さの6.875%)及び38%GC含有率を有し、これにより、比例して「E.faecalis様」ゲノムの長さ及びGC含有率の典型となる。実施例17に前述のとおり、DNAスタンダードを製造した。12のDNAスタンダードを4つの群に構成し、10倍連続希釈の濃度でそれぞれの群を混合し、10
4倍の範囲の濃度を包含する混合物を形成した。
【0214】
実施例25:
哺乳動物免疫グロブリン配列多様性の典型であるDNAスタンダードの1つの例を実施した。実施例10に記載された方法を用いて生成された人工TCRβVDJクロノタイプ配列とマッチした長さ750ntの15のDNAスタンダードを生成した。
図13に示したとおり、DNAスタンダードは、BIOMED−2プライマー、ならびに介在するV、J及びDセグメントと相補的な配列とオーバーラップする。実施例17に前述のとおり、DNAスタンダードを製造した。DNAスタンダードを5つの群(すなわち、群ごとに3つのスタンダード)に構成し、10倍連続希釈の濃度でそれぞれの群を混合し、10
5倍の範囲の濃度を包含する混合物を形成した。このダイナミックレンジは、健康試料(Zvyagin,Pogorelyy et al.2014)にみられ、また、微小残存疾患(Logan,Gao et al.2011)などの疾患状態にみられるヒトクロノタイプ分布プロファイルに及ぶ。
【0215】
もう1つの例では、実施例10に記載された人工TCRG VJクロノタイプ配列の典型であるDNAスタンダードを生成した。実施例10で生成された人工TCRG VγJγクロノタイプ配列とマッチした長さ750ntの15のDNAスタンダード(配列番号:186〜202)を生成した。
図12に示したとおり、DNAスタンダードは、BIOMED−2プライマー、ならびに介在するV、及びJセグメントと相補的な配列とオーバーラップする。実施例17に前述のとおり、DNAスタンダードを製造し、混合し、上記のとおり、混合物を形成した。
【0216】
実施例26:
シーケンシングのために天然RNA試料にRNAスタンダードを添加する方法の1つの例を実施した。最初に、Coriell Cell Repositories成長プロトコール及び標準に従ってK562細胞を培養した。簡潔にいうと、5%CO2下で、37℃で10%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco(登録商標))中でK562細胞を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、K562細胞から全RNAを抽出した。次に、それぞれの試料にTURBO DNase(Life Technologies)でDNase処理を実施し、続いて、RNA Clean and Concentrator Kit(Zymo Research)でクリーンアップを実施した。全RNAにBioAnalyzerを実行し、完全性をチェックし、濃度を決定した。ライブラリー調製のためにRNA完全性数(RIN)>9.5のRNAだけを用いた。
【0217】
実施例14及び表1に前述のとおり、混合物AとしてRNAスタンダードを混合した。その後、RNA混合物Aに約1%総容積までK562全RNA(NanoDrop、ThermoScientificで測定されるとおり)を添加した。製造者の指示書に従ってTruSeq Stranded Total RNA Sample Prep Kit(Illumina)を用いて、toprepareRNAライブラリーを調製した。シーケンシングのために試料をプールする前に、調製したライブラリーをQubit(Invitrogen)で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)で確認した。HiSeq 2500装置(Illumine)を用いて、125ntペアエンド配列リードでシーケンシングを実施する。
【0218】
実施例27:
RNAスタンダードのアライメント及びアセンブリを評価する方法の1つの例を実施した。上記の実施例11及び13に記載されたとおりの方法を用いて、2つの別のアイソフォームを含む30の遺伝子(全部で60のRNAスタンダード)とマッチするRNAスタンダードを生成した。RNAスタンダードを等しい存在量に希釈し、等しい割合で混合し、混合物Cの等しい部分を形成した。その後、製造者の指示書に従ってTruSeq Stranded Total RNA Sample Prep Kit(Illumina)を用いて、RNAスタンダード混合物Cから直接、ライブラリーを調製した。HiSeq 2500(Illumina)装置で、125ntペアエンドリードで試料をシーケンスする前に、調製したライブラリーをQubit(Invitrogen)で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)で確認した。実施例28に記載された方法を用いて配列リード(.fastq)ファイルを処理した。その後、以下のパラメータで、Tophat2を用いて配列リードを人工染色体(chrT)にアラインした。
>tophat2 chrT_index MixtureC.R1.fq MixtureC.R2.fq
【0219】
実施例28に記載された方法を用いて、得られたアライメント(.bam)ファイルから、アライメント統計量(全及びスプリットアライメントの双方の)を決定した。特に、全RNAスタンダードは、十分な存在量があり、その結果、完全配列リード倍数カバレッジに達し、それゆえ、これは、配列倍数カバレッジが、非限定である場合、アライメントの評価を可能にする。この結果は、表2にまとめられている。特に、RNAスタンダード混合物Cから全リードアライメントの98%感度、及びスプライスリードアライメントの0.99%感度を決定する。さらに、欠失した18イントロン及び16エキソンを除いて、全遺伝子構造をアセンブルし、これにより、人工染色体にコードされる遺伝子座(及びアイソフォーム)とマッチするRNAスタンダードの性能を確認した。
【0220】
比較のため、また、上記に記載された同じ60のRNAスタンダードをシーケンスして生成されるシーケンスリードをシミュレートした。シミュレートしたリードの上記に記載されたとおりRNAスタンダードから生成される実験に由来するリードとの比較により、アライメント及びアセンブリによる変数のインパクト(シミュレートしたリード及び実験に由来するリードの双方に影響を及ぼす)とライブラリー調製及びシーケンシングによる変数のインパクト(実験に由来するリードだけに影響を及ぼし、シミュレートしたリードに影響を及ぼさない)を識別することができる。
【0221】
RNASeqReadSimulator(http://alumni.cs.ucr.edu/〜liw/rnaseqreadsimulator.html)ソフトウエアを用いて、通常、Illuminaシーケンシング技術(Bolotin,Mamedov et al.2012)のために報告されている1%エラー率を組み入れるRNAスタンダードから生成される125−ntペアエンドリードをシミュレートした。これは、HiSeq 2500装置でスタンダードシーケンシングごとに.fastqファイルを生成する。配列リードファイルを処理し、上記のとおり、アラインし、実施例28に記載された方法を用いてアライメント統計量(全及びスプリットアライメントの双方の)を決定した。結果は、表2にまとめられている。特に、アライメントの98%感度、及びスプライスアライメントの99%感度がみられると同時に、最終アセンブリから6のイントロン及び8のエキソンを欠失している。
【0222】
遺伝子座のアライメント及びアセンブリ結果と、シミュレートしたシーケンスリード及び実験に由来するシーケンスリードとの比較により、シーケンシング実験でのRNAスタンダードの使用が確認される。特に、シミュレートしたリードは、RNAスタンダードのアライメント及びアセンブリのための実験に由来するシーケンスリードの性能を十分にまとめており、人工染色体の転写される特徴とマッチするRNAスタンダードを設計し、モデル化し、分析するときの有用性を示す。
【0223】
実施例28:
RNAスタンダード及び天然RNA試料ライブラリーからなるリードを人工染色体及び天然参照ゲノムにアラインする方法の1つの例を実施した。実施例26に記載された方法を用いて生成された配列ファイル(.fastq)をデマルチプレックスした。製造者の指示書に従って、trim_galoreを用いて、配列ファイルから低クオリティリード及び配列またはアダプターコンタミ配列を除去した。(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)。
【0224】
ヒトゲノム(hg19)配列を人工染色体(chrT)配列と連結し、単一のファイル(.fasta)を形成した。その後、製造者の指示書に従って、bowtie−buildを用いて、混合した配列ファイルからインデックスファイル(hg19_chrT_index.*)を生成した(Langmead and Salzberg2012)。次に、以下のパラメータでTophat2(Kim、Pertea et al.2013)を用いて、シーケンスリード(.fastq)をインデックスファイル(hg19_chrT_index.*)にアラインした。
>tophat2 hg19_chrT_index ./K562.R1.fq ./K562.R2.fq
【0225】
このアプローチは、アライメントを誘導するために以前の遺伝子アノテーションを組み入れず、新しい遺伝子の発見及び転写産物のde novoアセンブリに必要であることが多い。次に、以下に記載され、表2にまとめられたいくつかの計量に従って、シーケンスリードの人工染色体及び天然ゲノムへのアライメントを評価した。ゲノム/人工染色体へのリードは、人工染色体(ChrTへのリード)及びヒトゲノム(Hg19へのリード)にアラインするリードの数によって決定される。K562では、1,091,683リードを人工染色体にアラインし、65,778,796リードをヒトゲノム配列にアラインした。
【0226】
ゲノムに対する人工染色体にアラインするリードのフラクションから計算されるフラクション希釈が、試料ライブラリーに対するスタンダードの希釈を示す。K562試料では、ライブラリーの1.63%が人工染色体にアラインし、61倍の希釈係数を示す。
【0227】
アライメント感度は、アライメント(真陽性)を有する人工染色体にコードされる遺伝子座の人工遺伝子塩基の数を人工遺伝子塩基の総数で割ったものと定義される。K562試料1では、0.81のアライメント感度がみられる。
【0228】
アライメント特異性は、アライメントを有する人工遺伝子塩基の数をアライメントを有する塩基の総数で割ったものと定義される。K562試料1では、0.83のアライメント特異性がみられる。
【0229】
スプライスアライメント感度は、正確なスプリットアライメントを有する人工遺伝子イントロンの数を人工遺伝子イントロンの総数で割ったものと定義される。K562試料では、0.86のアライメント感度であり、
図22Aに示されている。
【0230】
スプライスアライメント特異性は、スプリットアライメントとマッチする人工遺伝子イントロンの数をユニークスプリットアライメントの数で割ったものと定義される。K562試料では、0.85のアライメント特異性がみられる。
【0231】
シーケンスされたライブラリー内で確実に検出されず、オーバーラップしているアライメントを有しない最大存在量のRNAスタンダードに相当する検出限界が、
図24Dに示されている。0.005アトモル/ul(検出されない最大存在量RNAスタンダードR_8_2(配列番号:47、48)に希釈係数をかけたもの)で検出の下限を決定する。この濃度以下である対応する562RNA試料内のアイソフォームが、シーケンシングライブラリー内に表れない、またはここで検出されない可能性があり、ライブラリーシーケンシングが、全飽和に進まない。
【0232】
実施例29:
RNAスタンダードからのリードを人工遺伝子にアセンブルする方法の1つの例を実施した。デフォルトパラメータ:
>cufflinks K562_1_mixA.bam
に従って、Cufflink2(Trapnell,Williams et al.2010)を用いて、実施例28に記載された方法によって生成されたアライメントファイル(.bam)を完全長転写構造にアセンブルした。
【0233】
人工染色体上で108の転写構造をアセンブルし、1つの例が
図23に示されている。これは、複数のフラグメント構造としてのいくつかのRNAスタンダードの部分的アセンブリのため、RNAスタンダードの数(60)より多いことを明記する。
【0234】
アセンブリ性能を評価するために、デフォルトパラメータに従ってCuffcompare(Trapnell、Williams et al.2010)を用いて、人工染色体上の公知の転写アノテーションに対してアセンブルした転写産物を比較した。全レベル(ヌクレオチド、エキソン、イントロン、転写、遺伝子)での人工遺伝子構造、及びアセンブリから欠失している人工エキソン、イントロン及び遺伝子のフラクションに関して、アセンブリの感度及び特異性に従って、転写アセンブリを評価した。さらに、遺伝子構造に関する感度及び特異性の測定値の詳細が、以前に記載されている(Burset and Guigo 1996)。本例のK562RNA試料と混合した場合のRNAスタンダードのアセンブリの結果は、表2にまとめられている。特に、人工染色体上の遺伝子アセンブリに基づいたこれらの測定値は、付随するK562RNA試料中の転写産物のマッチしたde novoアセンブリの評価を知らせる。
【0235】
正確にアイソフォームをアセンブルすることができないのは、低存在量のRNAスタンダードの不十分な配列カバレッジによる結果である可能性がある。これにより、正確にアセンブルすることができない最も多いRNAスタンダードは、転写アセンブリの下限を示す。これは、エキソン、イントロン及び全アイソフォーム構造がアセンブルされている感度に関して、それぞれのアイソフォームの公知の濃度をグラフ化することによって、
図22A及び
図22Bに示されている。この濃度以下で存在する付随するK562RNA試料からの転写産物は、不十分に、または部分的にだけアセンブルされたものと予測される。
【0236】
実施例30:
RNAスタンダード存在量を定量化する方法の1つの例を実施した。最初に、実施例26に記載された方法を用いて、ライブラリー調製及びシーケンシングのために、実施例15の混合物Aとして事前に調製したとおりのRNAスタンダードを、3つの生物学的複写K562RNA試料に添加した。
【0237】
最初に、以下のパラメータでTophat2(Kim、Pertea et al.2013)を用いて、シーケンスリード(.fastq)をインデックスファイル(hg19_chrT_index.*)にアラインした。
>tophat2 −G annotations.gtf hg19_chrT_index ./K562.R1.fq ./K562.R2.fq
【0238】
このアプローチは、アライメントを誘導するために遺伝子アノテーションを使用する。アノテーションファイル(annotations.gtf)は、人工染色体上の遺伝子座のアノテーション、及びヒトゲノムのGENCODE v19(Harrow、Frankish et al.2012)からの天然遺伝子アノテーションを含む。デフォルトパラメータに従ってCufflink2(Trapnell、Williams et al.2010)を用いて、RNAスタンダード及びヒト遺伝子アノテーションに対してアライメントファイル(.bam)を定量化した。
>cufflinks −G annotations.gtf K562_1_mixA.bam
【0239】
2つのレベルで存在量を定量化することができる;それぞれの人工遺伝子(すなわち、混合したDNAスタンダード対の双方)及びそれぞれのアイソフォーム(すなわち、それぞれのDNAスタンダードアイソフォーム)の存在量を測定した。
図24AにRNAスタンダードの定量を示すために、それぞれの人工遺伝子の公知の遺伝子濃度(アトモル/ulで)に対して、測定された遺伝子存在量(RPKMで)をグラフ化した。RNAスタンダードの実測存在量(NGシーケンシングによって測定されるとおり)間で、予測存在量(混合物Aに混合した場合、その公知の濃度に相当する)との相関(ピアソンのr)によって定量的精度を測定することができる。この例(3つの複写K562RNA試料と混合したRNAスタンダード混合物A)では、相関が、0.95である。
図24Aに示された傾きは、増大の比例性(直線とフィットし、1/Y
2加重している非線形回帰から決定される)を測定する。これは、RNAスタンダードのダイナミックレンジで予測存在量と比較した実測値の線形比例性を示す。
【0240】
この例では、傾きは、0.91である。この結果は、表2にまとめられている。
【0241】
RNAスタンダードが、定量化される精度は、シーケンシングカバレッジに依存しており、低シーケンシングカバレッジを有する低存在量RNAスタンダードの定量は、高存在量RNAスタンダードより変わり易い。これを示すために、
図22CのそれぞれのRNAスタンダードの公知の濃度に対するそれぞれのRNAスタンダードの定量的測定値の変動率(COV%)をグラフ化した。これは、0.153アトモル/ulのRNAスタンダードが、高変動97.07(CV%)の変動を有すると同時に、1,250アトモル/ulの遺伝子が、3.24(CV%)の低変動を示すことを示す。これは、RNAスタンダードの使用が、遺伝子存在量が測定される信頼度を評価することを示す。
【0242】
図24Aに示したとおり、百万当たりキロベース当たりのリード(RPKM)でNGシーケンシングによって測定される天然遺伝子の存在量(付随するRNA試料中)をモルユニット中の濃度(アトモル/ul)に変換するのにRNAスタンダードを使用することができる。例えば、付随するK562RNA試料では、切断点クラスター領域遺伝子(BCR)の発現を測定し、20.9063RPKMである。これは、同様に大量のRNAスタンダードとの比較によって0.019アトモル/ulの濃度に相当する。
【0243】
実施例31:
別のスプライシングを測定するためにRNAスタンダードを用いる方法の1つの例を実施した。個々のアイソフォームの正確な定量は、他の別の同じ遺伝子座からのスプライスアイソフォームと共有される配列のレベルを変えることによって複雑化する。それゆえ、アイソフォーム定量の精度を評価するために、
図24Dに示したとおり、混合物A(実施例15で調製した)中のRNAスタンダードの公知のアイソフォーム存在量(アトモル/ulで)に対して、測定されたアイソフォーム存在量(RPKMで)をグラフ化した。次に、K562RNA試料を添加したアイソフォームRNAスタンダードの相関0.93(ピアソンのr)及び傾き0.86を決定し、これにより、アイソフォーム定量の評価が提供された。この結果は、表2にまとめられている。
【0244】
次に、別のスプライシングをエミュレートするプロセスで単一の共有される人工遺伝子座から生成される複数の個々のアイソフォームRNAスタンダード間の相対的存在量を測定した。
図25Aに示したとおり、対のアイソフォームの公知の相対的存在量と比較した対のアイソフォームの実測相対的存在量をグラフ化し、別のスプライシング事象が測定される定量的精度を示す。この試料では、K562RNA試料に添加した混合物A中のRNAアイソフォーム対間の相関0.76(ピアソンのr)及び傾き0.84がみられる。この評価は、付随するK562RNA試料中の天然遺伝子の別のスプライシングの分析を知らせる。
【0245】
実施例32:
複数のRNA試料間の差を測定するためにRNAスタンダードを用いる方法の1つの例を実施した。最初に、Coriell Cell Repositories成長プロトコール及び標準に従ってGM12878細胞を培養した。簡潔にいうと、5%CO2下で、37℃で10%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco)中でGM12878を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、GM12878細胞からRNAを抽出した。実施例14に前述のとおり、及び表1に示したとおり、混合物A及び混合物BとしてRNAスタンダードを調製した。RNA混合物AをK562RNA試料に添加し、RNA混合物BをGM12878RNA試料に添加し、最終試料の最終容積1%(NanoDrop、ThermoScientificによって測定されるとおり)とした。実施例26の上記に記載されたとおりの配列のライブラリーを調製した。上記の実施例28〜30に記載された方法を用いて、人工染色体及び参照ヒトゲノムで、付随するGM12878RNA試料とRNAスタンダード混合物Bのシーケンスされたリードファイル(.fastq)を分析した。結果は、表2にまとめられ、
図24B、Fに示されている。
【0246】
次に、混合物A(K562細胞試料との)及び混合物B(GM12878細胞試料との)間のRNAスタンダードの存在量の差を比較した。
図24Cに示したとおり、予測される倍数変化と比較して混合物A及びB間の実測倍数変化をグラフ化し、表3に示した。予測される倍数変化及び実測倍数変化間に相関0.70(ピアソンのr)及び傾き0.88がみられ、RNA存在量の差が付随するRNA試料間で測定される精度を示す。
【0247】
次に、試料間のRNAスタンダードの相対的アイソフォーム存在量の差を測定した。
図24F及び25Bに示したとおり、混合物A及び混合物B間のアイソフォーム存在量の予測される倍数変化に対する実測倍数変化をグラフ化した。この試料では、予測されるアイソフォーム倍数変化に対する実測値が相関0.73(ピアソンのr)及び傾き0.75(表3にまとめられた)を有し、別のスプライシングの差が付随するRNA試料間で測定される精度を示す。
【0248】
アイソフォーム存在量の倍数変化が、定量的な別のスプライシング事象をエミュレートする。R_10_2遺伝子を使用して、どのようにして当該スタンダードが別のスプライシングの倍数変化をエミュレートすることができるかを
図25Cに示す。R_10_2遺伝子は、より長いアイソフォーム(_R)またはより短いバージョン(_V)を生成する第5のエキソンの別のスプライシングから生じる2つの異なるアイソフォームを含む。実施例27に前述の方法によって生成されるシミュレートした配列リードによるカバレッジは、R_10_2アイソフォームを正確にアセンブルすることができることを示す。R_10_2遺伝子の典型であるスタンダードを混合物A及びBに添加し、その結果、(i)遺伝子発現が5倍減少し、(ii)R_10_2_Vアイソフォームのアイソフォーム発現変化が相対的に3倍増大し、これに伴ってR_10_Rアイソフォームが3倍減少した。これは、
図25Cに示したとおり、エキソン5で別のスプライシングの3倍変化をエミュレートする。次に、混合物Aを有するK562細胞及び混合物Bを有するGM12878細胞間のR_10_2アイソフォーム存在量の倍数変化を定量化し、
図25Cに示したとおり、遺伝子発現の4倍減少(遺伝子存在量の5倍と予測される倍数変化の過少推定である)及び相対的アイソフォーム存在量の3倍変化がみられた。この例は、どのようにしてアイソフォームRNAスタンダードの変化する存在量が、RNA試料間の別のスプライシング差をエミュレートすることができるかを示す。
【0249】
RNAスタンダードの特定のサブセットに上記分析のものを制限することができる。例えば、
図26Bに示したとおり、4.8アトモル/ulで、アセンブリのユーザー定義される閾値存在量限界を越えてRNAスタンダードの別のスプライシングの精度を決定することができる。このRNAスタンダードのサブセットが、全RNAスタンダードの平均より高い配列カバレッジを有するため、アイソフォーム定量のより正確な測定値(相関、傾き)がみられる。
【0250】
実施例33:
疾患及び正常RNA試料間の差を校正するためにRNAスタンダードを用いる方法の1つの例を実施した。Origeneから3つの正常ヒト肺試料及び3つの肺腺癌試料からの全RNA試料を購入した(試料ID:CR560142、CR559185、CR560128、CR560083、CR560135、CR561324;Rockville、MD)。実施例26に前述の方法を用いて、RNAスタンダード混合物Aを1%総容積でそれぞれの肺腺癌試料に添加し、RNA混合物Bを1%容積でそれぞれの肺正常RNAに添加した。以前に公開されたERCC RNA Spike−In(Consortium 2005)との比較を可能にするために、また、製造者の指示書(tools.lifetechnologies.com/content/sfs/manuals/cms_086340.pdf)に従って、ERCC Spike−In混合物1をそれぞれの肺腺癌試料に添加し、ERCC Spike−In混合物2をそれぞれの肺正常試料に添加した。上記の実施例28〜30に記載された方法を用いて、シーケンシングのライブラリーとして混合したRNA試料を調製し、分析した。結果は、表2にまとめられている。
【0251】
次に、ERCC Spike−In配列と本明細書に記載されたRNAスタンダードの性能を比較した。製造者の指示書に従って、ERCC Spike−Inのアライメント及び発現倍数変化を決定し、前述のとおり(実施例28〜30に)、RNAスタンダード及びERCC Spike−Inの双方について、アライメント特異性及び感度、フラクション希釈、検出限界及びダイナミックレンジ、ならびに量的な精度(相関及び傾き)を測定した。ERCC Spike−In及びRNAスタンダード間の比較は、表2にまとめられている。
【0252】
図26A、Bに、RNAスタンダード及びERCC Spike−Inの双方の公知の存在量に対する予測値をグラフ化した。また、
図26Cに示したとおり、RNAスタンダード及びERCC Spike−Inの双方の混合物間の倍数変化を比較する。
【0253】
ERCCスタンダードは、RNAスタンダード(0.81)と比較してほぼ同じアライメント感度(0.84)を示すが、RNAスタンダードと比較してより高い特異性(0.99)を示す。ERCCアライメントのこのより高い特異性は、単一のRNA配列だけを含むERCC Spike−Inの結果である。本明細書に記載されたRNAスタンダード、及び内因性ヒト遺伝子と異なり、ERCC Spike−Inは、複数のエキソン及びイントロン配列を含まず、それゆえ、非スピリットリードをERCC Spike−In配列にアラインすることだけができる。
【0254】
次に、正常肺RNA試料または肺腺癌RNA試料内の癌(Wellcome Trust Sanger Cancer Census(Futreal,Coin et al.2004)によってキュレートしたとおり)が原因となって関係するヒト遺伝子の発現を定量化した。人工染色体上の遺伝子の464の遺伝子コーディネートのゲノムコーディネート(GENCODE v19アノテーション(Harrow,Denoeud et al.2006)から)を連結し、単一のアノテーションファイル(CancerGenes_RNAstandards.gtf)を形成した。その後、以下のパラメータでCuffdiff(Trapnell,Williams et al.2010)を用いて、癌遺伝子及びRNAスタンダードの発現を測定した。
>Cuffdiff −g CancerGenes_RNAstandards.gtf \
LunGCancer1.sam,LunGCancer2.sam,LunGCancer3.sam \
LungNormal1.sam,LungNormal2.sam,LungNormal3.sam
【0255】
その後、実施例28〜30に前述の方法を用いて、混合物A(肺正常)及び混合物B(肺腺癌)中のRNAスタンダードの遺伝子発現の差及び別のスプライシングの定量的精度を評価するために比較分析を実施した。結果は、表3にまとめられている。
【0256】
RNAスタンダードの存在量の測定値に対する癌遺伝子の存在量の測定値をグラフ化し、どのようにして対応する癌遺伝子の濃度(アトモル/ulで)を推測するのにRNAスタンダードの実測存在量(RPKMで)を用いることができるかを
図26Dに示した。
【0257】
どのようにしてRNAスタンダードが、付随するRNA試料中の個々の遺伝子の分析を知らせることができるかを示すために、ミニ染色体維持2(MCM2)遺伝子の発現を考慮した。MCM2は、細胞増殖のマーカー(Yang、Ramnath et al.2006、SimonandSchwacha2014)であり、MCM2発現の強化が以前に肺腺癌試料中で報告されている(Zhang、Gong et al.2014)。それゆえ、正常試料及びマッチした腫瘍試料間のMCM2発現の倍数変化を正確に測定することが重要である。MCM2は、複合スプライス構造(16のエキソンを含む)を有し、それゆえ、RNAスタンダードを用いてうまくモデル化される。MCM2が、肺正常試料中で約63.0RPKMの平均発現を示すが、肺腺癌試料中で2.07倍(平均170.1RPKMまで)に強化されていることを観測した。RNAスタンダードとの比較によって、19.53アトモル/ulの濃度に相当するMCM2発現を決定する。特に、ほぼ同じ濃度(例えば、R_6_1及びR_6_2)のRNAスタンダードが、不十分にアセンブリ及び定量化される。これは、付随する肺正常及び肺腺癌RNAシーケンシング間のMCM2発現の測定は、注意深く解釈しなければならないことを示唆している。
【0258】
図26Dに示された測定されたRNAスタンダード存在量のグラフが、約0.005615アトモル/ulでの検出の限界を示唆している。癌遺伝子の42.7%が、この検出の限界を越えており、さらなる分析に好適であることを観測する。このライブラリーは、飽和までシーケンスされないため、追加の癌遺伝子が、この検出の限界以下の濃度で存在する可能性がある、または正確に検出されない可能性がある遺伝子発現が変化する可能性があることを明記する。
【0259】
実施例34:
シーケンシングのためにマウスRNA試料にRNAスタンダードを添加する方法の1つの例を実施した。最初に4ヶ月齢野生型スイスマウスからマウス肝臓組織を得た。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、マウス肝臓試料から全RNAを抽出した。次に、それぞれの試料にTURBO DNase(Life Technologies)でDNAse処理を実施し、続いて、RNA Clean and Concentrator Kit(Zymo Research)でクリーンアップを実施した。全RNAにBioAnalyzerを実行し、完全性をチェックし、濃度を決定した。ライブラリー調製のためにRNA完全性数(RIN)>9.5のRNAだけを用いた。1%容積(NanoDrop、ThermoFischerによって決定されるとおり)で、実施例15の混合物Aとして事前に調製したRNAスタンダードをマウス肝臓RNA試料に添加した。実施例26に記載された方法を用いてRNA試料を調製し、シーケンスした。
【0260】
次に、人工染色体(chrT)配列をマウスゲノム(mm10)配列と連結し、単一のファイル(.fasta)を形成した。その後、製造者の指示書に従って、bowtie−buildを用いて、混合した配列ファイルからインデックスファイル(mm10_chrT_index.*)を生成した(Langmead and Salzberg2012)。次に、以下のパラメータでTophat2(Kim、Pertea et al.2013)を用いて、シーケンスリード(.fastq)をインデックスファイル(mm10_chrT_index.*)にアラインし:
>tophat2 mm10_chrT_index ./MouseLiver.R1.fq ./MouseLiver.R2.fq
アライメントファイル(.bam)が提供された。実施例28〜30に前述の方法を用いて、マウス肝臓試料に付随するRNAスタンダードのアライメント、アセンブリ及び定量の分析を実施した。結果は、表2にまとめられ、
図27及び28に示されている。特に、マウス肝臓RNA試料を添加した混合物A中のRNAスタンダードの分析は、表2に示したとおり、ヒトRNA試料と用いられるRNAスタンダードと、ほぼ同じ感度(0.56)及び特異性(0.97)を示した。これは、RNAスタンダードの性能がマウスRNA試料への添加によって影響を受けず、シーケンスリードのマウスゲノムへの付随するアライメントによっても影響を受けないことを裏付ける。
【0261】
実施例35:
非ヒトゲノムでRNAスタンダードからのシーケンスリードを分析する方法の1つの例を実施した。RNAスタンダードが、一定の範囲の異なる生物クレードからの異なる天然ゲノムで用いられる場合、前記実施例28〜30及び34に記載されたのと同等にうまく機能するかどうかを決定した。最初に以下の生物のゲノム配列をダウンロードした:H.sapiens(hg19)、M.musculus(mm10)、C.elegans(ce10)、D.melanogastor(dm3)、A.thalianis(tair9)E.coli(eschColiK12)及びM.kandleri(methKand1)及びS.cerevisae(SacCer6)。それぞれの個々のゲノム配列を人工染色体配列(chrT)と連結し、単一の配列(.fasta)ファイルを形成した。その後、Bowtie2−buildを用いて、製造者の指示書に従って、混合された配列ファイルに対応するインデックスを作製した。
【0262】
次に、実施例27に記載されたとおり、等しい濃度で混合したRNAスタンダードから調製したライブラリーからのシーケンスリードをアラインし、混合物Cを形成した。シーケンスリードを以下のパラメータを用いて生物ゲノム(*によって表される)を有する人工染色体を含むそれぞれの個々のインデックスにアラインした。
>tophat2 *_chrT_index MixtureC.R1.fq MixtureC.R2.fq
*は、生物ゲノム(例えば、Dm3、hg19等)に相当する。
【0263】
それぞれの得られたアライメント(.bam)では、上記の実施例28に記載された方法を用いてアライメント統計量(全及びスプリットアライメントの双方の)を決定した。付随するゲノムに関係なく、ゲノムにアラインするリードの数、ならびにトータル及びスプライスリードの特異性及び感度がほとんど変わらないことがみられた。これらの結果は、表4にまとめられており、RNAスタンダードが付随するゲノムに関係なく同等にうまく機能すること及び広い範囲の生物からのRNA試料と共にRNAスタンダードを用いることができることを示す。
【0264】
実施例36:
融合遺伝子発現を測定するためにRNAスタンダードを用いる方法の1つの例を実施した。実施例8に前述のとおり、人工染色体の転座から得られた正常(A1及びB1)遺伝子及び融合遺伝子(B1fA1)の典型であるRNAスタンダードについて、実施例27に記載された方法を用いてリードライブラリーをシミュレートした。
図9Bに示したとおり、10
4倍の範囲を包含するように、2つの正常RNAスタンダード(A1及びB1遺伝子)に対して融合RNAスタンダードの10倍連続希釈に従ってリード存在量を配分する。この結果、リードの逓増小割合で融合RNAスタンダードの発現となった。RNAスタンダード配列リードを、1%の最終濃度まで、詳細が上記に記載されたK562、GM12878、肺正常及び肺癌RNA試料から生成した実験に由来するRNAシーケンシングライブラリーと連結した。さらなる分析のためにライブラリーファイル(.fastq)を生成した。
【0265】
次に、以下のパラメータでTophat2−fusion(Kim,Pertea et al.2013)を用いて、シーケンスリード(.fastq)をインデックスファイル(hg19_chrT_index.*)にアラインし:
>tophat2−fusion hg19_chrT_index ./K562.R1.fq ./K562.R2.fq
アライメントファイル(.bam)及び融合ファイル(fusions.out)を生成し、転座によって生成された融合イントロンとオーバーラップしているリードの数(百万当たり;RPM)を示した。
図9Bに示したとおり、リードカバレッジに対するそれぞれの融合RNAスタンダード希釈の公知の濃度をグラフ化した。相関(0.982)及び傾き(0.927)を用いて、融合遺伝子RNAスタンダードの定量的精度を評価し、正常遺伝子に対して融合遺伝子発現を定量化することが比較的高精度であることを示す。さらに、また、
図9Cに示したとおり、RNA融合遺伝子の相対的存在量と比較した融合RNAスタンダードの同定とみなされる信頼度をグラフ化した。この分析は、付随する天然RNA試料内で対応するカバレッジの融合遺伝子を検出し、定量化することができる精度、感度及び信頼度を示す。
【0266】
付随するK562RNA試料は、染色体9及び22間のBCR−ABL遺伝子融合のヘテロ接合体である(Grosveld、Verwoerd et al.1986)。次に、K562RNA試料中の内因性BCR−ABL1(p210)融合遺伝子の相対的存在量の測定値を知らせるためにRNAスタンダードを用いた。GM12878ゲノムDNAに対する10倍連続希釈でK562細胞からのゲノムDNAを滴定し、野生型細胞(GM12878)バックグラウンドに対してBCR−ABL1融合遺伝子を有する細胞(K562)の逓増小部分母集団をエミュレートした。
図9Bに示したとおり、K562細胞フラクションの連続希釈で、BCR−ABL1(p210)融合遺伝子のリード(百万当たり)存在量をグラフ化した。BCR−ABL1(p210)融合遺伝子の存在量に対応するRNAスタンダードは、微小残存疾患をモニターするのに不十分である融合遺伝子検出感度(約1:10希釈に対応する)の相対的に浅い限界を示す。それゆえ、融合遺伝子の典型であるRNAスタンダードの使用により、RNAシーケンシングライブラリー中の融合遺伝子を検出する感度及び精度の評価が可能になり、微小残存疾患をモニターするのに有用としてよい(Mitterbauer,Nemeth et al.1999)。
【0267】
実施例37:
シーケンシングのために天然DNA試料にDNAスタンダードを添加する方法の1つの例を実施した。5%CO2下で、37℃で10%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco(登録商標))中でヒトGM12878細胞株(Coriell Cell Repositories)を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、GM12878からDNAを抽出した。抽出されたDNA試料をRNase Aで処理し、続いて、Genomic DNA Clean&Concentrator kit(Zymo Research)でクリーンアップした。Nanodrop(Thermo Scientific)上で、精製したDNAを定量化した。実施例18及び表5に前述のとおり、混合物AとしてDNAスタンダードを混合した。その後、DNA混合物Aに約1%総容積までGM12878ゲノムDNA(NanoDrop、ThermoScientificで測定されるとおり)を添加した。
【0268】
製造者の指示書に従ってTruSeq Stranded DNA Sample Prep Kit(Illumina)を用いて、DNAライブラリーを調製した。シーケンシングのために試料をプールする前に、調製したライブラリーをQubit(Invitrogen)で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)で確認した。HiSeq 2500装置(Illumine)を用いて、125ntペアエンド配列リードでシーケンシングを実施する。
【0269】
実施例38:
DNAスタンダードのアライメント及びアセンブリを評価する方法の1つの例を実施した。上記の実施例17及び20に記載されたとおりの方法を用いて、2つの対立遺伝子(参照及び変異)を有する人工染色体の30の領域とマッチするDNAスタンダードを生成した。DNAスタンダードを等しい存在量に希釈し、等しい割合で混合し、混合物Cの等しい部分を形成した。製造者の指示書に従ってTruSeq Stranded DNA Sample Prep Kit(Illumina)を用いて、DNAライブラリーを調製した。HiSeq 2500装置(Illumina)で、125ntペアエンドリードとして試料をシーケンスする前に、調製したライブラリーをQubit(Invitrogen)で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)で確認した。実施例39に記載された方法を用いて、配列リード(.fastq)ファイルを処理し、アラインした。実施例39に記載された方法を用いて、アライメント(.bam)ファイルからのアライメントを評価した。特に、全RNAスタンダードは、十分な存在量があり、完全配列倍数カバレッジに達する。配列倍数カバレッジが限定されないアライメント測定値が、表6にまとめられている。特に、リードアライメントの99%感度及び97%特異性を決定し、これにより、人工染色体の領域の典型であるDNAスタンダードの有用性が確認された。
【0270】
比較のため、また、同じDNAスタンダードから生成されると予測されるリードをシミュレートした。シミュレートしたリードと上記で生成された実験に由来するリードとの比較により、アライメント及びアセンブリによる変数のインパクト(シミュレートしたリード及び実験に由来するリードの双方に影響を及ぼす)とシーケンシングによる変数のインパクト(実験に由来するリードだけに影響を及ぼし、シミュレートしたリードに影響を及ぼさない)を識別することができる。
【0271】
製造者の指示書に従って、Sherman(http://www.bioinformatics.babraham.ac.uk/projects/sherman/)を用いて、HiSeq装置上でシーケンシング当たりの1つ.fastqファイルとしてDNAスタンダードによって生成された125ntペアエンドリードをシミュレートした。シーケンスリードに、通常、Illuminaシーケンシング技術(Bolotin,Mamedov et al.2012)のために報告されている1%エラー率を組み入れる。シミュレートした配列リードを人工染色体(上記と同一のパラメータでbwaを用いて)にアラインし、上記に記載されたとおり、アライメントを評価した。結果は、表6にまとめられている。特に、DNAスタンダードからのリードのアライメントの99%感度及び100%特異性がみられ、これにより、人工染色体からの配列とマッチするDNAスタンダードの有用性が確認された。特に、シミュレートしたリードは、DNAスタンダードのアライメント及びアセンブリのための実験に由来するシーケンスリードの性能を十分にまとめており、人工染色体の特徴とマッチするDNAスタンダードを設計し、モデル化し、分析するときの有用性を示す。
【0272】
実施例39:
DNAスタンダード及び天然DNA試料ライブラリーからなるリードを人工染色体及び天然参照ゲノムにアラインする方法の1つの例を実施した。実施例37の方法を用いて生成された配列ファイル(.fastq)をデマルチプレックスした。製造者の指示書に従って、trim_galoreを用いて、配列ファイルから低クオリティリード及び配列またはアダプターコンタミ配列を除去した。(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)。
【0273】
ヒトゲノム(hg19)配列を人工染色体(chrT)配列と連結し、単一のファイル(.fasta)を形成した。その後、製造者の指示書に従ってbwaインデックスを用いて(Langmead and Salzberg 2012)、混合した配列ファイルからインデックスファイル(hg19_chrT_index.*)を生成した。次に、bwaを用いて(Li and Durbin 2009)リードをインデックスファイルにアラインし:
>bwa mem −M hg19_chrt.bwa sequence.read1.fq sequence.read2.fa >alignments.sam
アライメント(.bam)ファイルを生成した。
【0274】
シーケンシングエラーが、リードアライメント及び人工染色体配列間の塩基毎ミスマッチを生成することができる。配列エラーアライメントを分析し、シーケンシングクオリティを評価することができる。例えば、シーケンシングエラー率は、シーケンスされた100nt当たりのシーケンシングエラーの平均数を示す。DNAスタンダードにGM12878DNA試料を添加したこの例では、
図29Aに示したとおり、誤ったミスマッチを含有する0.67%のリードを決定する。シーケンシングエラー分布は、また、
図29Bに示したとおり、リード全体の配列エラーの分布を示す。
【0275】
次に、以下に記載され、表6にまとめられたいくつかの計量に従って、シーケンスリードの人工染色体及び天然ヒト(hg19)ゲノムへのアライメントを評価した。
【0276】
ゲノム/人工染色体へのリードは、人工染色体及びヒトゲノムにアラインするリードの数である。例えば、GM12878試料では、2,029,597リードを人工染色体にアラインし、458,521,347リードをヒトゲノム配列にアラインした。
【0277】
ゲノムに対する人工染色体にアラインするリードのフラクションであるフラクション希釈が、試料ライブラリーに対するスタンダードの希釈(フラクション希釈)を示す。GM12878試料では、ライブラリーの0.4%が、人工染色体にアラインし、250倍の希釈係数を示す。
【0278】
アライメント感度は、オーバーラップしているアライメント(真陽性)を有する人工DNAスタンダード塩基のサイズを人工DNAスタンダード塩基(真陽性及び偽陰性)の総数で割ったものと定義される。GM12878試料では、0.849の塩基毎アライメント感度がみられる。
【0279】
アライメント特異性は、オーバーラップしているアライメント(真陽性)を有する人工DNAスタンダード塩基の数をオーバーラップしているアライメント(真陽性及び偽陽性)を有する塩基の総数で割ったものと定義される。GM12878試料では、0.961の塩基毎アライメント特異性がみられる。
【0280】
検出限界は、リードアライメントを有せず、シーケンスされたライブラリー内で確実に検出されない最大存在量のDNAスタンダードに相当する。GM12878では、0.0037アトモル/ulの検出限界がみられる。
【0281】
実施例40:
以下のとおり、結合されたDNAスタンダードからピペット操作エラーを計算する方法の1つの例を実施した。ここにどのようにして結合されたDNAスタンダードでピペット操作エラーを計算するかを示し、ピペット操作エラーの計算が、どれだけ正確であるかを示す。これは、ピペット操作による変動及び他の原因からの変動の公知のレベルが必要である。これを行うために、最初に実施例38に前述のとおり、等しい組み合わせで混合したDNAスタンダードからのシーケンスされたライブラリーに基づいて、ピペット操作及び他の原因による変動の量をシミュレートした。ピペット操作エラーによる変動は、個々のDNAスタンダードの存在量と全DNAスタンダードの平均存在量との差と定義した。これは、ピペット操作による予測される変動と称され、単一の結合されたDNAスタンダードを一緒に含む個々のDNAスタンダード間で依存し、同一である。同じDNAスタンダード混合物Cから調製したテクニカル複写配列ライブラリーの分析によって、他の原因、例えば、ライブラリー調製及びシーケンシング、による変動を決定した。変動は、DNA Flat mixのテクニカル複写間の正規化した存在量の差に相当する。他の原因による予測される変動は、単一の結合されたDNAスタンダードを一緒に含む個々のDNAスタンダード間で依存せず、異なる。以下に従って、変動のこれらの2つの原因をDNAスタンダード混合物の実測存在量に組み入れた。
実測存在量=予測存在量×ピペット操作による予測される変動×他の原因による予測される変動
【0282】
この例では、実施例38に前述のとおり、DNAスタンダードに由来するリードをシミュレートした。表7に示したとおり、結合されたDNAスタンダードの公知の存在量に従って、リード存在量を配分した。
図31Aに示したとおり、それぞれのDNAスタンダードの予測存在量に対する実測存在量をグラフ化した。これは、単一の結合されたDNAスタンダードを一緒に含む個々のDNAスタンダードによって示された特徴的な依存性線形傾き分布を示す。特に、一緒に結合された複数のDNAスタンダードは、
図31Bに示したとおり、存在量に依存はするが不規則であり、ピペット操作による異常値の同定及び除外が容易になる。
【0283】
以下のとおり、DNAスタンダードの実測存在量からのピペット操作変動を計算した(
図31Bに示した);それぞれの結合されたDNAスタンダードでは、最初に6つの個々のDNAスタンダードで最適合線(Y切片が0に制限され、1/Y
2に加重された非線形回帰)をグラフ化した。1つからの直線傾きの偏差は、ピペット操作の不正確さと比例している。例えば、結合されたDNAスタンダードAでは、1.188の傾きがみられ、結合されたDNAスタンダードAの追加の18%が、ピペット操作エラーにより追加されたと推定される。全ての結合されたDNAスタンダードの計算値が表7にまとめられている。計算されたピペット操作変動の予測されたピペット操作変動との比較では、このアプローチを用いて、ピペット操作によるエラーが3%の平均マージン内と推定されることを示す。
【0284】
次に、以下のとおり、この計算した変動によるそれぞれの結合されたDNAスタンダード測定値を正規化することによってピペット操作による変動を最少化することができる。最初に、
図31A、Bに示したとおり、結合されたDNAスタンダードの線形分布が1の傾きを示すようにした。これにより、DNAスタンダードの予測される及び実測存在量間の相関(ピアソンのr)が0.99に改善する(DNAスタンダードが正規化なしで単独で測定される場合の0.987と比較して;
図31B)。ピペット操作エラーの正規化するによる定量的精度の改善は、結合されたDNAスタンダード間の変動率が16.13から0.73へという約10倍の減少によって示されている(
図31Cに示した)。これは、ユーザーがピペット操作変動による変動ならびに不正確さの量及び他の原因からの変動の量を計算するのを可能にし、測定信頼度を改善する。
【0285】
実施例41:
DNAスタンダード存在量を定量化する方法の1つの例を実施した。最初にDNAスタンダードによって表される人工染色体のそれぞれの領域でアライメントの頻度を測定した。長さの正規化後に、これにより、百万当たりキロベース当たりのリード(RPKM)でそれぞれのDNAスタンダードの実測値を割り当てた。
図28Aに示したとおり、それぞれのDNAスタンダードの公知の濃度(アトモル/ulで)と比較したDNAスタンダード存在量の測定値をグラフ化し、定量的精度を評価した。したがって、相関(ピアソンのr)でDNAスタンダード定量を測定し、DNAスタンダード存在量の実測値及び予測値間の一致の指標を提供することができる。例えば、実施例37でGM12878ゲノムDNA試料で事前に調製したDNAスタンダードでは、0.94の相関がみられる。傾きは、DNAスタンダードのダイナミックレンジで予測存在量に対する実測値の線形比例性を示す。混合物AとしてGM12878試料と混合したDNAスタンダードでは、傾きは、1.01である。結果は、表6にまとめられている。
【0286】
実施例42:
DNAスタンダードの遺伝的変動を同定する方法の1つの例を実施した。最初に、以下のとおり、SAMtools(Li、Handsaker et al.2009)及びPicardツールを用いて、実施例40に記載された方法を用いて調整したアライメント(.sam)ファイルを前処理した。
>java −jar CreateSequenceDictionary.jar R=hg19_chrT.fa O=hg19_chrT.dict
>samtools faidx hg19_chrT.fa >hg19_chrT.fai
>java −jar SortSam.jar INPUT=alignments.sam OUTPUT=alignments.sort.bam \
SORT_ORDER=coordinate
>java −jar ReorderSam.jar INPUT=alignments.sort.bam \
OUTPUT=alignments.sort.reorder.bam REFERENCE=hg19_chrT.fa
>java −jar BuildBamIndex.jar INPUT=alignments.sort.reorder.bam
【0287】
その後、遺伝的変動を同定するために以下のデフォルトパラメータを用いて、Unified Genome Haplotype callerを含む公開されたベストプラクティス(http://www.broadinstitute.org/gatk/guide/best−practices)に従って、GATK toolkit(McKenna,Hanna et al.2010)を用いた。
【0288】
>java −jar GenomeAnalysisTK.jar −T HaplotypeCaller −R hg19_chrT.fa \
【0289】
−I alignments.sort.reorder.bam −−genotyping_mode DISCOVERY \
【0290】
−−defaultBaseQualities 30 −o variants.vcf
【0291】
本明細書に記載された方法は、同時に人工染色体上の変動を同定するだけでなく、また、GM12878ゲノムDNA及び参照ヒトゲノム間の変動を同定することを明記する。以下のとおり、人工染色体中の変異同定の性能を評価することができる。
【0292】
変異カバレッジは、アライメントカバレッジと遺伝的変動の割合に相当する。例えば、アライメントオーバーラップ490(88%)の変動では、GM12878DNA試料に付随するDNAスタンダードを例にあげる。
【0293】
変異感度は、正確に同定される(真陽性)変異の数をDNAスタンダード(真陰性+偽陰性)内に表れた変異の総数で割ったものと定義される。これは、シーケンシング深度及び変異検出の双方に依存する。例えば、GM12878試料では、0.65の変動感度に達する。
【0294】
変異検出は、変動感度を変異カバレッジで割ったものと定義され、シーケンシング深度またはカバレッジと無関係な変異検出の測定値を提供する。例えば、GM12878試料では、0.73の変異効率に達する。
【0295】
変異特異性は、正確に同定される変異(真陽性)の数を検出される変異(真陽性+誤陰性)の総数で割ったものである。例えば、GM12878試料では、0.57の変異特異性に達する。
【0296】
メジアンクオリティスコアは、変異がこの部位に存在するPHREDスケール確率と定義され、それぞれの同定された変異に割り当てることができる。GM12878試料では、
図28Eに示したとおり、正確な変異コールのメジアンクオリティスコアは1,803であり、一方、誤った変異コールのメジアンクオリティスコアは、61である。
【0297】
この結果は、表6にまとめられている。DNAスタンダード内に表れる変動の特定のサブセットに記述統計量を制限することができる。例えば、DNAスタンダード内の挿入を検出する感度を決定することができる。
【0298】
図30Aに示したとおり、人工染色体上の誤った変異コールが、正確なコールより低いクオリティスコアを示し、GM12878ゲノム中の付随する変異同定の誤った変異同定を同定するのにクオリティスコアに有用性があることを示す。同様に、
図30Bに示したとおり、特定のヌクレオチド置換(CからAへ及びTからGへ)が特に誤ってコールされた変動中で強化されるのがみられ、さらに注意してこれらのヌクレオチド変動型を解釈しなければならないことを示唆している。
【0299】
正確に変動を同定することができないのは、不十分な配列カバレッジによることが多い可能性がある。変動を同定する感度のこの限界が、正確にそれぞれのDNAスタンダードに割り当てられた変動のフラクションに対してそれぞれのDNAスタンダードの濃度の予測値をグラフ化することによって、
図28B、Eに示されている。変動が検出されない最大濃度のDNAスタンダードは、付随するGM12878ゲノム試料内で変動を確実に検出することができる下限を示す。
【0300】
次に、参照及び変異DNAスタンダードの相対濃度を変えることによって生じた相対的対立遺伝子頻度を分析した。人工染色体上で同定される115の変異について、相対的対立遺伝子カバレッジの実測値(GATK output.vcfファイル中のDPによって示されるとおり)に対する相対的対立遺伝子頻度の予測値(すなわち、変異DNAスタンダードに対する参照の存在量割合)をグラフ化した。このグラフは、
図28Cに示したとおり、最少の正確に同定される対立遺伝子頻度が1%であり、正確な変動検出が、0.088アトモル/ulの存在量のDNAスタンダードに制限されることを示す。対立遺伝子をカバレッジ>8アトモル/ulであるものだけに制限すると、相関0.9574及び傾き0.9043で対立遺伝子頻度定量値を改善し、これは、正確に検出し、希少な変異を定量化するのに十分なシーケンシングカバレッジが重要であることを反映している。
【0301】
また、ほぼ同じ配列リードカバレッジでDNAスタンダード中の変異同定と付随するGM12878ゲノムDNA中の変異同定を比較することができる。例えば、ゲノムDNA変異の第25〜第75パーセンタイルは、3〜6倍のカバレッジの配列カバレッジを示す。この配列カバレッジは、0.15アトモル/ulの平均存在量を有する5つのDNAスタンダードに相当する。DNAスタンダードのこのサブセットに分析を制限すると、GM12878ゲノム中の変動を同定するには0.846の感度、及び0.93の特異性となることを示唆している。
【0302】
実施例43:
疾患及び正常ヒトDNA試料間のDNAスタンダードの変動を定量化する方法の1つの例を実施した。Origene(CD563993、CR563976;Rockville、MD)から正常肺及び肺の腺癌からの市販のDNAを購入した。実施例18で調製したとおりのDNA混合物Aを1%総容積で肺腺癌DNA試料に添加し、DNA混合物Bを1%容積(NanoDropによって決定されるとおり)で肺正常DNA試料に添加した。実施例37に前述の方法を用いて、DNA試料及びライブラリーを調製し、シーケンスした。実施例41〜42に記載された方法を用いて、リードをアラインし、分析した。結果は、表6にまとめられている。
【0303】
DNA試料は、不均一頻度(前述のホモ接合体/ヘテロ接合体対立遺伝子頻度と別の)で変動を有してよい。例えば、特定の変動を有している癌細胞は、小さな割合のシーケンスされた試料だけを含んでよい。
図30C、Dに示したとおり、対立遺伝子頻度の予測値に対する対立遺伝子頻度の実測値をグラフ化し、対立遺伝子定量の精度及び感度を決定する。例えば、肺腺癌試料は、相関(ピアソンのr)0.91及び傾き0.95を有する。検出の限界は、対立遺伝子を確実に同定することができるより低い頻度限界を示す。例えば、この例では、検出の下限は、0.0019アトモル/ulである。同様に、対立遺伝子頻度は、試料純度の推定値を提供し、サンプル抽出した肺腺癌組織内の癌細胞の割合を推定することを可能にし、1:100対立遺伝子頻度を13倍カバレッジまたは0.0082アトモル/ulに変えることができる。
【0304】
実施例44:
マウスDNA試料にDNAスタンダードを添加する方法の1つの例。4ヶ月齢野生型スイスSWR/Jマウスからマウス肝臓組織を得た。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、マウス肝臓試料からゲノムDNAを抽出した。抽出されたDNA試料をRNase Aで処理し、続いて、Genomic DNA Clean&Concentrator kit(Zymo Research)でクリーンアップした。Nanodrop(Thermo Scientific)上で精製したDNAを定量化した。実施例18で調製したとおりのDNA混合物Aを1%総容積(NanoDropによって決定されるとおり)でマウスDNA試料に添加した。実施例37に前述の方法を用いて、DNA試料及びライブラリーを調製し、シーケンスした。
【0305】
マウスゲノム(mm10)配列を人工染色体(chrT)配列と連結し、単一のファイル(mm10_chrT.fa)を形成した。その後、製造者の指示書に従ってbwaインデックスを用いて、混合した配列ファイルからインデックスファイル(mm10_chrT_index.*)を生成した(Langmead and Salzberg2012)。実施例39に記載された方法を用いて、bwaを用いて(Kim、Pertea et al.2013)シーケンスリード(.fastq)をインデックスファイル(mm10_chrT_index.*)にアラインした。実施例41に記載された方法を用いて、DNAスタンダードのアライメント、定量及び変異検出を分析し、
図28Dに示した。表6にまとめられた結果は、ヒト及びマウスゲノムDNAの双方とほぼ同じレベルのアライメント特異性、感度、及び定量を示し、DNAスタンダードの性能は、マウスDNA試料の添加またはマウスゲノムによる付随するアライメントによって影響を受けないことを示す。
【0306】
実施例45:
非ヒトゲノムでDNAスタンダードからのシーケンスリードを分析する方法の1つの例を実施した。DNAスタンダードが、一定の範囲の異なる生物クレードからの異なる天然ゲノムで用いられる場合、同等にうまく機能するかどうかを決定した。実施例35に前述の方法によって、付随する人工染色体を有する一定の範囲の生物ゲノムのためのインデックスビルドを生成した。次に、DNAスタンダードからのシーケンスリードを実施例38に記載されたとおりの方法を用いて調製した混合物Cにアラインした。以下のデフォルトパラメータでbowtie(Li and Durbin2009)を用いて、配列リードをそれぞれの生物ゲノム/人工染色体配列にアラインした。
>bowtie2 −x *_chrT_index −1 MixtureC.R1.fq −2 MixtureC.R2.fq
*は、生物ゲノム(例えば、Dm3、hg19等)に相当する。
【0307】
それぞれの得られたアライメント(.bam)では、実施例40に記載された方法を用いて、アライメント感度及び特異性を測定した。表4にまとめられたこれらの結果は、DNAスタンダードアライメントが付随する生物ゲノムに関係なくほとんど変わらず、DNAスタンダードは、一定の範囲の異なる生物DNA試料で用いられる場合、同等にうまく機能することを示す。
【0308】
実施例46:
DNAスタンダード中の疾患と関連した遺伝的変動を同定する方法の1つの例を実施した。実施例22に前述の方法によって生成され、疾患と関係する変動の特定の例の典型であるDNAスタンダードの性能を評価するために、実施例38に記載された方法を用いてシーケンスリードをシミュレートした。遺伝子型(例えば、ヘテロ接合体または変化する不均一スケール)に従って、リード存在量を配分した。
【0309】
K562細胞株は、TP53 Q139fs変動を有するが、BRAF V600E変動を有しない。シーケンスされたリードを実施例37で調製したK562ゲノムDNAからのライブラリーに添加した。リードを1%総容積で添加し、その結果、ヘテロ接合性をモデル化するDNAスタンダードが、付随するK562ゲノムとほぼ同じカバレッジ(すなわち、10.4倍)に達する。以下のパラメータで、配列リード(K562及びDNAスタンダードから)をゲノムにアラインした。
>bwa mem −M hg19_chrAB K562.R1.fq K562.R2.fq >alignments.chrB5.sam
【0310】
実施例42のとおり、アライメントを調製し、以下のパラメータで、Genome Analysis Toolkit(DePristo、Banks et al.2011)を用いた。
>java −jar  ̄/1000G/GenomeAnalysisTK.jar −T HaplotypeCaller −R hg19_chrAB \
−I alignments.chrB5.sam −−genotyping_mode DISCOVERY
−−defaultBaseQualities 30 −o variants.vcf
【0311】
次に、
図7Bに示したとおり、変異カバレッジに対して、変異DNAスタンダード及び関連するK562ゲノムDNA中のそれぞれの変異の深度カバレッジ(GATK output.vcfファイル中のDPによって示されるとおり)をグラフ化した。さらに、
図7Cに示したとおり、それぞれのDNAスタンダードの公知の濃度に対してそれぞれの遺伝子型が割り当てられる信頼度をグラフ化し、これにより、SNPが10
4倍数ダイナミックレンジで同定される信頼度を示す。
【0312】
野生型細胞集団に対する変動を有している細胞の逓増小部分母集団をモデル化するために、GM12878ゲノムDNAライブラリー(TP53 Q139fs変動を含有しない)のバックグラウンドに対してK562細胞株DNAライブラリー(TP53 Q139fs変動を含有する)を滴定し、10
5ダイナミックレンジを包含する10倍連続希釈を形成した。その後、前記の実施例39に記載された方法を用いて、これらの希釈したライブラリーをヒトゲノム/人工染色体にアラインした。DNAスタンダード及び付随するゲノムDNA試料中で同定された疾患関連変異の比較が、
図7Bに示されている。変異及び参照DNAスタンダードが等しい存在量(すなわち、ヘテロ接合体遺伝子型)である場合、V600E及びQ139fs変動を正確に同定することができ、同様に、付随するK562DNA試料中のQ139fs変動をしっかりと同定することができることがみられた。しかし、参照DNAスタンダードに対して10倍に変異DNAスタンダードを希釈した場合、または、付随するDNA試料が10倍以上の希釈のK562DNAを含む場合、Q139fs変動を検出することができなかった。
【0313】
実施例47:
DNAスタンダードによって表される構造的変異のアセンブリの方法の1つの例を実施した。人工染色体上の構造的変動の典型であるDNAスタンダード(実施例23に前述のとおり)を1%総容積でK562ゲノムDNA試料に添加した。DNA試料及びライブラリーを調製し、実施例37に前述の方法を用いて、シーケンスし、実施例39に記載された方法を用いて、人工染色体/ヒトゲノムにアラインした。
【0314】
人工染色体上の以下の構造的変動の配列カバレッジをプロファイルした;参照人工染色体に対して長さ635、624及び699ntの逆方向DNA配列を含有した長さ1837、1824及び1899の3つのDNAスタンダード(配列番号:171〜173)(
図32Aに示された)。参照人工染色体に対して長さ698、665及び696の大きなDNA配列挿入を含有した長さ1898、1865及び1896の3つのDNAスタンダード(配列番号:174〜176)(
図32Bに示された)。参照人工染色体に対して長さ651、634及び683ntの大きなDNA配列欠失を含有した長さ1200ntの3つのDNAスタンダード(配列番号:177〜179)(
図32Cに示された)。参照人工染色体に対して4つの反復コピーx96nt(380nt)、2つのコピーx202(438nt)コピー及び2つのコピーx621ntの大きなDNA配列タンデム複製を含有した長さ1200ntの3つのDNAスタンダード(配列番号:180〜182)(
図32Dに示された)。参照人工染色体に対してモバイルエレメント反復挿入を含有した長さ1988、1580または1430ntの3つのDNAスタンダード(配列番号:183〜185)。挿入された反復配列は、前述のとおり、AluSx、MIRb、L2aトランスポゾンの古い反復ユニットとマッチした(
図32Eに示された)。
【0315】
実施例48:
コピー数反復の測定を校正するためにDNAスタンダードを用いる方法の1つの例を実施した。実施例23に前述の方法によって生成され、D4Z4コピー数変動の典型であるDNAスタンダードの性能を評価するために、実施例38に記載された方法を用いてシーケンスリードをシミュレートした。実施例23に前述のとおり、コピー数(10〜150コピー)に従ってリード存在量を配分した。
【0316】
実施例37に記載された方法を用いて、K562、GM12878、肺腺癌及び正常肺DNA試料からのライブラリーにシーケンスされたリードを付加した。実施例39に前述のとおり、bwa(Langmead and Salzberg 2012)を用いてリードを人工染色体及びヒト(hg19)ゲノムにアラインした。
図33Bに示したとおり、公知の反復コピー数に対してDNAスタンダードの実測存在量(百万当たりリードで)をグラフ化し、反復コピー数の定量の評価を可能にした。付随するヒトDNA試料からのヒトゲノム中のD4Z4反復配列のカバレッジとDNAスタンダードコピー数を比較した。D4Z4反復ユニット(約3、301nt)及びDNAスタンダードのサイズの差を正規化した後に、DNAスタンダードとの比較によって付随する患者ゲノム中のD4Z4反復ユニットの数を推定した。例えば、
図33Bに示したとおり、GM12878ゲノム中の161の反復コピーと推定した。
【0317】
実施例49:
環境DNA試料にDNAスタンダードを添加する方法の1つの例。オーストラリアのクイーンズランドのWatsons Creek及びマングローブ畑から土壌を採集した。化学的及び生物学的分析の双方前に4℃で土壌試料を保管した。製造者のプロトコールに従ってPowerSoil(商標)DNA kit(MoBio Laboratories、Carlsbad、CA、USA)を用いて土壌試料からゲノムDNAを抽出した。Nanodrop(Thermo Scientific)によって全ゲノムDNAを定量化した。実施例18で調製したとおりのDNA混合物Aを1%総容積(NanoDropによって決定されるとおり)で土壌DNA試料に添加した。
【0318】
製造者の指示書に従ってTruSeq DNA PCR−free Sample Prep Kit(Illumina)を用いて、DNAライブラリーを調製した。試料をプールする前に、調製したライブラリーをQubit(Invitrogen)で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)で確認した。125ntペアエンドリードでHiSeq 2500装置(Illumine)を用いて、シーケンシングを実施する。
【0319】
実施例50:
DNAスタンダードリードを微生物ゲノムにアラインする方法の1つの例を実施した。HiSeq 2500装置によって生成された配列(.fastq)ファイルをデマルチプレックスした。製造者の指示書に従って、trim_galoreを用いて、低品質リード及び配列またはアダプターコンタミ配列を除去した。(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)。
【0320】
実施例9に記載された方法によって生成された全人工微生物ゲノムを混合し、実施例39に前述の方法を用いて単一のインデックスビルドを生成した。以下のパラメータでbwa(Li and Durbin 2009)を用いてシーケンスリードを人工微生物ゲノムにアラインした。
>bwa mem −M ArtChr.bwa sequence.read1.fq sequence.read2.fa \ alignments.sam
【0321】
人工微生物ゲノムにアラインするリードに従って人工微生物ゲノムへのアライメント(.bamファイル)を評価した。例えば、土壌試料1中で、4,317,629リードを人工微生物ゲノムにアラインした。フラクション希釈は、全リードに対して人工微生物ゲノムにアラインするリードのフラクションである。例えば、土壌試料1中で、ライブラリー内の5.6%のリードが、人工微生物ゲノムにアラインし、17.1倍希釈係数に対応する。検出限界は、シーケンスされたライブラリー内で確実に検出されず、アライメントを有しない最大存在量のRNAスタンダードに相当する。土壌試料1では、1.0093の検出限界がみられる。感度は、オーバーラップしているアライメントを有するDNAスタンダード塩基の数と定義され、
図35Cに示したとおりである。これは、シーケンシング深度及びアライメントに依存する。例えば、土壌試料1中で、DNAスタンダード塩基の80.2%が、オーバーラップしているアライメントを有する。結果は、表10にまとめられている。
【0322】
実施例51:
以下のとおり、微生物ゲノムコミュニティのアセンブリを校正するためにDNAスタンダードリードを用いる方法の1つの例を実施した。製造者の指示書に従ってVelvet(Zerbino and Birney 2008)を用いてde novo配列アセンブリを実施した。
>velvet_1.2.10/velveth ./output 91 −sam soil.sam
>velvet_1.2.10/velvetg ./output −exp_cov auto −cov_cutoff 0 −scaffolding no
【0323】
アセンブルしたコンティグによってオーバーラップされるDNAスタンダードサイズの割合であるカバレッジに従ってコンティグアセンブリを評価した。これは、シーケンシング深度及びアセンブリの双方に依存する。例えば、土壌試料1中で、
図35Dに示したとおり、DNAスタンダードの31.9%に及ぶコンティグをアセンブルした。ノードは、正確にアセンブルした(DNAスタンダードとマッチする)別個のコンティグの数である。例えば、土壌試料1中で、20(36のうち)ノードをアセンブリする。N50統計量は、全アセンブリ(N50)に対するコンティグのメジアン質量を指す。例えば、土壌試料1中で、508のN50統計量を決定した。最大コンティグサイズは、正確にアセンブルしたコンティグの最大サイズである。例えば、土壌試料1中で、DNAスタンダード完全長の92.1%に相当する904ntまでコンティグをアセンブルした。アセンブリ中の全塩基は、DNAスタンダードにアラインするリードの総数に対して正確にアセンブルしたコンティグにアラインするリードの数である。例えば、土壌試料1中で、22.1%リードをアセンブルしたコンティグにアラインする。この結果は、表10にまとめられている。
【0324】
実施例52:
微生物ゲノムの定量を校正するためにDNAスタンダードを用いる方法の1つの例を実施した。定量の精度を評価するために、それぞれのアセンブルしたコンティグの公知の濃度(アトモル/ulで)に対して実測存在量(RPKMで)をグラフ化した(
図36A、Bに示したとおり)。最初にDNAスタンダードによって表される人工微生物ゲノムのそれぞれの領域でアライメントの頻度を測定した。長さの正規化後に、百万当たりキロベース当たりのリード(RPKM)でそれぞれのDNAスタンダードの実測値を割り当てた。
図35Aに示したとおり、それぞれのDNAスタンダードの公知の濃度(アトモル/ulで)と比較したDNAスタンダード存在量の測定値をグラフ化し、定量的精度を評価した。したがって、相関(ピアソンのr)でDNAスタンダード定量を測定し、DNAスタンダード存在量の実測値及び予測値間の一致の指標を提供することができる。例えば、土壌試料1で調製したDNAスタンダードでは、0.96の相関がみられ、傾きは1.061である。結果は、表10にまとめられている。
【0325】
ゲノムアセンブリは、
図35Aに示したとおり、十分なシーケンシングカバレッジに依存する。
図35Bに示したとおり、高濃度のDNAスタンダードが、完全配列カバレッジ及びアセンブリを示し、一方、逆に、低濃度が予測されるDNAスタンダードがスペア配列カバレッジ及び不十分アセンブリを示すことがみられる。これは、付随する土壌試料中のその相対的存在量に従って微生物ゲノムのカバレッジ及びアセンブリの予測値を決定するのを可能にする。
【0326】
実施例53:
複数の環境DNA試料間の差を測定するためにDNAスタンダードを用いる方法の1つの例を実施した。最初に、実施例49に前述の方法を用いて低有機含有率の3つの土壌試料との比較のために、高有機含有率の土壌試料の3つの土壌試料からDNAを抽出した。実施例18で調製したとおりのDNA混合物Aを1%総容積で高有機含有率の3つの土壌試料に添加し、DNA混合物Bを1%容積で低有機含有率の3つの土壌試料に添加した。実施例49に前述の方法を用いて、DNA試料及びライブラリーを調製し、シーケンスした。実施例50〜52に記載された方法を用いて、リードをアラインし、分析した。結果は、表10にまとめられ、
図36A、Bに示されている。
【0327】
低有機含有率土壌試料中の混合物Bを形成するDNAスタンダードの実測存在量に対して、高有機含有率土壌試料中の混合物Aを形成するDNAスタンダードの実測存在量をグラフ化し、
図36C中にDNAスタンダード倍数変化を示した。表11にまとめられたとおり、0.8328(ピアソンのr)の相関及び傾き1.149がみられ、DNA存在量の差が測定される精度を示す。
【0328】
実施例54:
環境DNA試料中の微生物ゲノムの定量を校正するためにDNAスタンダードを用いる方法の1つの例を実施した。50mLポリプロピレンチューブ中に健康男性から糞便試料を採集した。製造者のプロトコールに従ってMoBio PowerFecal(商標)DNA Isolation kit(MoBio Laboratories、Carlsbad、CA、USA)を用いて糞便試料からDNAを抽出した(0.25g)。
【0329】
実施例18で調製したとおりのDNA混合物Aを1%総容積で、健康ヒト対象からの2つの複製糞便試料に添加した。実施例49に前述の方法を用いて、DNA試料及びライブラリーを調製し、シーケンスした。実施例50〜52に記載された方法を用いて、リードをアラインし、分析した。結果は、表10にまとめられ、
図36D〜Fに示されている。
【0330】
上記の実施例51に記載された方法を用いてDNAスタンダードのアセンブリを評価した。例えば、糞便試料1中で、DNAスタンダードが、全リードの0.89%(225百万からの2百万)で含まれた。シーケンスリードをDNAスタンダードの53.2%カバレッジを包含する14のコンティグにアセンブルした。実施例52に前述の方法を用いて、アセンブルしたDNAスタンダードコンティグの存在量を測定した。これは、メタゲノムの定量のための内部参照ラダーを提供し、微生物コミュニティ分析(Singh、Behal et al.2009)を知らせ、結果は、表10にまとめられている。例えば、糞便試料1では、0.97の相関及び1.041の傾きがみられ、アセンブルしたDNAスタンダードの高い定量的精度を示す。
【0331】
実施例55:
PCR増幅のテンプレートとしてDNAスタンダードを用いる方法の1つの例を実施した。哺乳動物免疫グロブリン配列多様性が増幅され、シーケンスされる免疫レパートリーシーケンシングなどのアンプリコンシーケンシングの方法にDNAスタンダードを用いることができる。実施例25に記載された方法を用いて、人工TCRγクロノタイプの典型であるDNAを事前に製造した。製造者の指示書に従ってTCRγ遺伝子座(チューブA及びBに存在する)のユニバーサルBIOMED2プライマー配列(vanDongen、Langerak et al.2003)を用いてDNAスタンダードにPCR増幅(KAPA Biosystems)した。BioAnalyser(2100 High Sensitivity DNA Assay;Agilent)を用いて増幅された生成物を分析した。
図34に示したとおり、BioAnalyserトレースが、全15のTCRγクロノタイプDNAスタンダードからの正確なサイズ750nt生成物の増幅を示す。これは、免疫レパートリーシーケンシング中のPCR増幅のテンプレートとしてのDNAスタンダードの有用性を確認する。
【0332】
次に、クローンT−ALL細胞からの10%gDNA及び健康な成人のPBMCからの90%gDNAのゲノムDNA混合物を生成し、TCRγクロノタイプのクローン集団をモデル化した。Cell Bank AustraliaからクローンT−ALL細胞株、KARPAS 45(カタログ番号06072602、ヒトT細胞白血病)を購入した。European Collection of Cell Cultures成長プロトコール及び標準に従ってKARPAS 45細胞を培養した。簡潔にいうと、5%CO
2下で、37℃で15%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco(登録商標))中でKARPAS 45細胞を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、KARPASからゲノムDNAを抽出した。抽出されたDNA試料をRNase Aで処理し、続いて、Genomic DNA Clean&Concentrator kit(Zymo Research)でクリーンアップした。Nanodrop(Thermo Scientific)上で精製したDNAを定量化した。MoBio Ultra Clean kit(カタログ番号12334−250)を用いて健康成人のPBMCからゲノムDNAを抽出した。溶液TD3中にgDNAを溶離し、Nanodrop(Thermo Scientific)上で分析した。
【0333】
その後、混合物の全ゲノムDNA濃度の1%で、人工TCRγクロノタイプDNAスタンダードを添加した。混合したクロノタイプDNAスタンダード及びT−ALL/PBMCゲノムDNAミックス上でユニバーサルBIOMED2プライマー配列(上記に記載されたとおり)を用いてPCR増幅(KAPA Biosystems)を実施した。Wizard(登録商標) SV Gel及びPCR Clean−Upシステム(Promega)を用いてPCRアンプリコンを精製し、Nanodrop(Thermo Scientific)上で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)上で確認した。
【0334】
製造者の指示書に従ってNextera XT Sample Prep Kit(Illumina)を用いて、PCRアンプリコンからライブラリーを調製した。試料をプールする前に、調製したライブラリーをQubit(Invitrogen)で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)で確認した。125ntペアエンドリードでHiSeq 2500装置(Illumine)を用いて、シーケンシングを実施する。
【0335】
実施例56:
哺乳動物免疫グロブリン配列多様性の分析にDNAスタンダードを用いる方法の1つの例を実施した。実施例25に記載された方法によって生成され、人工TCRβクロノタイプの典型であるDNAスタンダードの性能を評価するために、最初に、BIOMED−2TCRβマルチプレックスプライマー配列(チューブA〜C)(van Dongen,Langerak et al.2003)でDNAスタンダードのin silicoPCR増幅(http://insilico.ehu.es/PCR/)を実施し、約750ntアンプリコン配列を生成した。正確な相補性を有するにはプライマー結合部位が必要であり、プライマー特異的増幅偏りがないと想定した。次に、実施例38に前述の方法を用いてアンプリコン配列からのシーケンスリードをシミュレートした。実施例25に記載されたとおり、DNAスタンダードの相対濃度に従ってリード存在量を配分した。3人の健康ヒト対象中のTCRβ遺伝子座の事前に公開された実験的アンプリコンシーケンシングライブラリー(.fastq)に1%フラクションでリードを添加する(Zvyagin、Pogorelyy et al.2014)。Accession ID:SRP028752で、NCBI Short Read Archive(SRA)からこのデータを取り出した。これらの3つのライブラリーは、健康成人ヒト対象のTCRβクロノタイププロファイルの典型である。製造者の推奨に従ってMiTCRを用いてヒトライブラリーファイルを分析する(Bolotin、Mamedov et al.2012)。
【0336】
それぞれのライブラリーでは、表8にまとめられたとおり、以下の計量を決定した。ヒトゲノム/人工TCRβクロノタイプにアラインするリードの数及びDNAスタンダードにアラインするリードの数ヒト対象Aのこの例では、人工TCRβクロノタイプにアラインする25,191リードがみられる。人工TCRβクロノタイプにアラインするリードのフラクションが、ヒト対象Aの1%の希釈係数を示す。検出の限界は、ライブラリー中のシーケンスリードによって検出されない最大存在量DNAスタンダードを示し、ダイナミックレンジは、ライブラリー中のシーケンスリードによって検出される最大及び最少存在量DNAスタンダード間の倍数差を示す。クローン感度は、人工TCRβクロノタイプが正確に割り当てられるDNAスタンダードの割合を示す。これは、また、Vβ、Dβ、Jβセグメントアサインメント及び挿入/欠失の検出の精度を含むことができる。
【0337】
公知の濃度に対して人工TCRβクロノタイプの実測頻度をグラフ化し、相関及び傾きによるTCRβクロノタイプ存在量測定の精度を確認する(結果は、表8にまとめられている)。健康ヒト対象の天然TCRβクロノタイプに対する人工TCRβクロノタイプの存在量が、
図13Eに示されている。健康ヒト対象の天然TCRβ V、J及びDセグメントに対する人工TCRβV、J及びDセグメント使用の存在量が、
図13Fに示されている。
【0338】
実施例57:
16S rRNA系統プロファイリングの分析にDNAスタンダードを用いる方法の1つの例を実施した。表9に示したとおり、一定の範囲の分類群、サイズ、GC含有率及びrRNAオペロンカウントの典型である6つの異なる人工微生物ゲノムからの16S rRNA遺伝子とマッチする長さ1018ntの6つのDNAスタンダード(配列番号:161〜166)を生成した。DNAスタンダードは、追加のフランキング250nt配列を有して、16S rRNA遺伝子のV3領域中の2つのユニバーサル16S プライマーとオーバーラップするように設計される。16S DNAスタンダードは、ユニークアンプリコン配列を生成するためのPCR増幅のテンプレートを形成する。ユニバーサル16S プライマー配列でin silicoPCR増幅(http://insilico.ehu.es/PCR/)を実施した。これは、DNAスタンダードのそれぞれからユニークで別個のアンプリコンを生成した。
図11に示したとおり、(i)人工コミュニティ内の微生物ゲノムの初期存在量及び(ii)人工微生物ゲノム内のrRNAオペロンコピー数に従って、それぞれのアンプリコンの存在量を配分した。また、アンプリコン存在量が、プライマー結合効率によって影響を受ける可能性がある、16S DNAスタンダードを用いてプライマー結合効率の差を同定し、正規化することができる。しかし、この分析では、PCR増幅に偏りがないと想定した。次に、実施例38に前述の方法を用いて16S DNAスタンダードからシーケンスされたリードライブラリーを生成した。意図されたアンプリコン濃度に従ってリード存在量を配分し、人工微生物コミュニティの16S プロファイリングから生成したシーケンスされたリードライブラリーとシーケンスされたリードライブラリーを混合した。
図11Bに示したとおり、意図された濃度に対して16S DNAスタンダードの実測存在量をグラフ化した。
図11Cに示したとおり、人工微生物ゲノムの存在量を完全に正規化するにはrRNAオペロンカウントが必要であることを明記する。これは、それ以下であると付随する試料中のいずれの微生物ゲノムも、確実に検出されない可能性がある検出の限界を示す。
【0339】
実施例58:
以下のとおり、シーケンシング中のGC偏りを校正するためにDNAスタンダードを用いる方法の1つの例を実施した。約27%、68%及び74%GC含有率に対応する3つの異なる群に区別した9つのDNAスタンダードを設計し、製造した(配列番号:140〜148)。GC−Metaスタンダード間の長さ特異的偏りを最少化するには、全DNAスタンダードがほぼ同じ長さ(1,000nt)のものとなる。実施例38に前述の方法を用いて、等しい濃度で9つのDNAスタンダードを混合し、単一の混合物を形成した。クイーンズランドのWatsons Creek及びマングローブ畑から採集した土壌から取ったDNAにこの混合物を1%総容積で添加した。実施例49に前述の方法を用いて、ライブラリーとして混合したDNA試料を調製し、シーケンスした。
【0340】
最初にbwa(Li and Durbin 2009)を用いて人工微生物ゲノムにシーケンスリードをアラインした。
>bwa mem −M chrt.bwa sequence.read1.fq sequence.read2.fa / >alignments.sam
【0341】
次に、
図37に示したとおり、アラインしたリードの存在量をそのGC含有率に対して、グラフ化した。比較のため、DNAスタンダードから長さ及び頻度がマッチしたシミュレートしたリードを生成した。シーケンスされたリードとシミュレートしたリードの比較では、
図37A〜Cに示したとおり、高GCスタンダード及びATリッチスタンダードの双方のアンダーサンプリングを示す。実測存在量及び予測存在量のこの差が、DNA定量でのGC依存偏りのインパクトを最少化するための正規化を知らせることができる。
【0342】
実施例59:
以下のとおり、免疫レパートリーシーケンシングを校正するためにTCRγクロノタイプをミミックする合成DNAスタンダードを用いる方法の1つの例を実施した。TCRγ(TCRG)は、それが生成するクロノタイプの比較的制限されたスイートのためにクローン性分析の優先の標的である。この例では、マルチプレックスPCR及び免疫受容体シーケンシングの間に合成TCRGスタンダードを設計し、製造し、用いた。
【0343】
参照ヒトゲノム中のTCRG遺伝子座から10Vγセグメント、5Jγセグメント及び2Cγセグメント及びフランキングイントロン配列を取り出した(hg19;
図12)。Carlson et.al.2013に記載されたとおり、フォワード及びリバースプライマー配列と相補的な配列を除いて、公知の天然配列との相同性を除去するためにそれぞれのセグメントまたはイントロン配列を単独で逆方向にし、シャッフルした。その後、全フォワード及びリバースプライマー組み合わせで、合成セグメントを混合した。リードスルーPCR増幅を妨げるように設計された単一のGCリッチヘアピン配列が点在するそれぞれのセグメントを一緒に結合した。その後、配列を合成された4つのより大きな配列に混合した(配列番号:203〜206)。配列を4つの部分GeneArt(Life Technologies)に合成し、pMA−RQベクターに挿入した。TCRGスタンダードの4つの部分をNEBuilder(登録商標)HiFi DNA Assembly Master Mix(New England Biolabs)を用いて1つの隣接配列pUC19に連結した。50mL培養物中に最終14.4kbプラスミドを成長させ、精製し、DNA配列確認のために用いた。TCRGスタンダード合成では、最終プラスミドをSapIで消化し、Zymoclean(商標)Gel DNA Recovery Kit(Zymo Research)で12kbフラグメントをゲル抽出した。
【0344】
European Collection of Cell Cultures成長プロトコール及び標準に従ってクローンT−ALL細胞株、KARPAS 45(カタログ番号06072602、ヒトT細胞白血病)を培養した。簡潔にいうと、5%CO
2下で、37℃で15%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco(登録商標))中でKARPAS 45を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、KARPAS 45からゲノムDNA(gDNA)を抽出した。抽出されたDNA試料をRNase Aで処理し、続いて、Genomic DNA Clean&Concentrator kit(Zymo Research)でクリーンアップした。Qubit 2.0 Fluorometer(Life Technologies)でBR dsDNA Qubit Assayを用いて、精製したDNAを定量化した。健康成人のPBMCからのgDNAをバックグラウンドとして用いた。簡潔にいうと、製造者の指示書に従ってMoBio UltraClean kit(カタログ番号12334−250)を用いてgDNAを抽出し、溶液TD3中に溶離した。Nanodrop(Thermo Scientific)上で精製したgDNAを分析し、Qubit 2.0 Fluorometer(Life Technologies)でBR dsDNA Qubit Assayを用いて、定量化した。
【0345】
生物学的バックグラウンド中の合成TCRGスタンダードの感度、再現性及び定量的精度を試験するために、クローンT−ALL細胞(KARPAS 45)からのgDNAの混合物を健康成人のPBMC gDNAからのgDNA(TCRG遺伝子型の複合バックグラウンドを含む)で、10、1及び0.1%最終濃度に希釈し、表12に記載されたとおり、10%合成TCRGスタンダードを生成した。製造者の推奨に従って等モル比のVF及びJRプライマープール、KAPA HiFi HotStart Ready Mix(KAPA Biosystems)を含有するマルチプレックスPCR反応中のテンプレートとして個々に調製した混合物を用いた。DNA Clean&Concentrator(商標)−5(Zymo Research)を用いてマルチプレックスPCR反応からのPCR生成物を精製した。Qubit 2.0 Fluorometer(Life Technologies)でBR dsDNA Qubit Assayを用いてPCR生成物を定量化し、Agilent High Sensitivity DNA Kitを有するAgilent 2100 Bioanalyzer(AgilentTechnologies)上で確認した。
【0346】
製造者の指示書に従ってNextera XT Sample Prep Kit(Illumina(登録商標))を用いて、DNAライブラリーを調製した。Qubit(Invitrogen)で、調製したライブラリーを定量化し、Agilent High Sensitivity DNA Kitを有するAgilent 2100 Bioanalyzer(AgilentTechnologies)上で確認した。Kinghorn Centre for Clinical GenomicsでHiSeq 2500(Illumina(登録商標))上でライブラリーをシーケンスした。
【0347】
シーケンシングファイルを受け取り、リードを以下のパラメータを用いて可能性のある実在及び合成TCRGの全てを含むインデックスにアラインした。bowtie2 −p 12 −x tcrg_combs −1 10TALL_TCRGstds1.1.fq −2 10TALL_TCRGstds1.2.fq −S 10TALL_TCRGstds1.combs.sam
【0348】
最初に合成TCRGスタンダードを分析した。最初にアライメント頻度に従ってそれぞれの合成スタンダードの相対的存在量を決定した。最初に全プライマー組み合わせから生成物を生成し、シーケンスし、その機能の陽性対照の指標を提供することを明記する。
【0349】
また、シーケンスされたアンプリコンの相対的存在量を使用して、プライマー組み合わせの定量的効率を評価することができる。全アンプリコンテンプレートが単一の配列に由来するため、初期テンプレート存在量が均一であり、それゆえ、差は、マルチプレックス混合物中のプライマー効率及びプライマー存在量のいずれかの差を反映する。それゆえ、アライメント頻度に従ってそれぞれの合成スタンダードの相対的存在量のマトリックスをアセンブルした(表12)。このマトリックスは、PCR反応内のそれぞれのプライマー対の相対的性能を示す。例えば、J1リバースプライマーと組み合わせたV11フォワードプライマーは、平均より4.1倍未満不十分に機能し、一方、JP1リバースプライマーと組み合わせたV9フォワードプライマーは、平均より2.15倍越えて機能する。これは、付随する試料中のTCRGクロノタイプの定量を調節するために用いることができる正規化係数を提供する。
【0350】
特に、この正規化係数は、プライマーハイブリダイゼーション及びマルチプレックスプライマー混合物中の相対的プライマー濃度を定める温度など、同じ条件になりやすい内部合成コントロールから計算される。それゆえ、次に、付随する混合物中のTCRGクロノタイプの相対的存在量を決定した。いくつかのクロノタイプがライブラリーにない場合、それがRNA試料中にないと結論を下すことができる(上記の合成スタンダードで事前にそれぞれのプライマーを確認したため)。その後、上記の合成スタンダードから計算した正規化係数に従って、それぞれのTCRGクロノタイプの相対濃度を調節した。このため、本明細書に記載された合成DNAスタンダードは、免疫レパートリー配列の分析に向けたNGS方法の有用な校正を提供する。
【0351】
実施例60:
以下のとおり、結合された合成スタンダードを定量的DNAラダーとして用いる方法の1つの例を実施した。上記に説明したとおり、ピペット操作のエラーが、複数のスタンダードの存在量間で変動を生じさせる可能性がある。ピペット操作エラーを除去するために、個々のDNAスタンダードを一緒に結合することができる。かかる場合には、コピー数の差が存在量差となる。個々のスタンダード間の依存する変動を用いて、ピペット操作の変動によるエラーを計算し、別のスタンダード間の正確な頻度を確実にすることができる。
【0352】
以下のフォーマットで結合されたスタンダードを設計した(
図39にまとめられている)。それぞれ600ntの複数の個々のDNAスタンダード(A、B、C及びD)を設計した。その後、これらのDNAスタンダードをその後、Aの1コピー;Bの2コピー;Cの4コピー及びDの8コピーを含む単一の隣接配列に一緒に結合することができるABBまたはCDDフォーマットに組織化した(配列番号:207〜290)。さらに、個々のDNAスタンダード間のI−SceI制限消化部位をホストするさらに小さなリンカー配列を添加した。これは、制限消化によるピペット操作後に、複数のスタンダードから個々のスタンダードを遊離させ、これにより、ピペット操作による変動なしで個々のスタンダードの混合物を生成することができる。
【0353】
Gene Art(Life Technologies)によって個々にABB及びCDD組織化中の混合した反復を含む配列を合成した。それぞれの結合スタンダードは、1つのABB及び4つのCDDのものからなる。製造者のプロトコールに従ってNEBuilder(登録商標)HiFi DNA Assembly Master Mixを用いて、5つのフラグメントをpUC19−FAFB(FAFBフィラー配列を有するpUC19)に連結した。EcoRI及びBamHIで、それぞれの結合スタンダードの最終プラスミド、例えば、pUC19−FAFB−GA98を消化し、次にZymoclean(商標)Gel DNA Recovery Kit(ZymoResearch)でゲル抽出し、10.4kb結合DNAスタンダードを得た。
【0354】
Qubit 2.0 Fluorometer(Life Technologies)でBR dsDNA Qubit Assayを用いて全21の結合DNAスタンダードの濃度を測定した。結合DNAスタンダード混合物を混合し、epMotion 5070 epBlue(商標)ソフトウエアプログラムを用いて10
6倍濃度範囲に及ぶ混合物を形成し、ロボット的に最終混合物を生成した。
【0355】
その後、混合物Aを最終濃度10%でGM12878細胞株から抽出された全gDNAに添加した。GM12878は、Madhavi Maddugoda(Epigenetics Research Group、Garvan Institute of MedicalResearch)によって提供された。Coriell Cell Repositories成長プロトコール及び標準に従ってGM12878細胞を培養した。簡潔にいうと、5%CO2下で、37℃で10%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco(登録商標))中でGM12878を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、GM12878及びマウスからDNAを抽出した。抽出されたDNA試料をRNase Aで処理し、続いて、Genomic DNA Clean&Concentrator kit(Zymo Research)でクリーンアップした。Nanodrop(Thermo Scientific)上で精製したDNAを定量化した。
【0356】
製造者の指示書に従ってNextera XT Sample Prep Kit(Illumina(登録商標))を用いて、DNAライブラリーを調製した。Qubit(Invitrogen)で、調製したライブラリーを定量化し、Agilent High Sensitivity DNA Kitを有するAgilent 2100 Bioanalyzer(AgilentTechnologies)上で確認した。Kinghorn Centre for Clinical GenomicsでHiSeq 2500(Illumina(登録商標))上でライブラリーをシーケンスした。
【0357】
以下のとおり、結合された合成スタンダードからのシーケンスリードを分析した。最初に以下のパラメータでシーケンスリードをインデックス(それぞれの個々のスタンダードを含む)にアラインした。bowtie2 −x conjoined_sequences −1 NGSreads.1.fq −2 NGSreads.2.fq −S output.sam
【0358】
次に、アライメント頻度に従ってそれぞれの個々のスタンダードの存在量を決定した。その後、重みつき正規化存在量の測定値と比較して、それぞれの個々のスタンダードの公知の重みつき正規化濃度(ホストする結合されたスタンダードの濃度及び結合されたスタンダード内のコピー数の双方に由来する)をグラフ化した(
図39)。これは、ピペット操作の変動の程度を示した。例えば、予測値より高い濃度で混合物中に混合された著しい異常値の結合されたスタンダードがみられる(
図39Bに示した)。この異常値が結合されたスタンダード内の全スタンダードに等しく影響を及ぼす場合、当該異常値が別のテクニカルな変動でなくピペット操作によるものであり、それゆえ、さらに分析する前に除去することができることを示す。
【0359】
スタンダードの公知の濃度及び存在量の測定値間の0.9451の相関を決定した。次に、結合されたスタンダード内の個々のスタンダードの全てに調節を適用し、1の傾きが示された(上記に詳細が記載された)。調節がスタンダードの分布を改善し、異常値を調節し、相関が0.9806に改善され(
図39C)、DNAスタンダードの定量的精度の改善を示す。
【0360】
実施例61:
以下のとおり、融合遺伝子事象をミミックする合成スタンダードを用いる方法の1つの例を実施した。融合遺伝子事象は多くのヒト癌の一因となるが、これはRNAシーケンシング方法を用いて同定するのが難しい可能性がある。合成RNAスタンダードを用いて、融合遺伝子をエミュレートし、これにより、融合遺伝子を検出する能力を評価することができる。この例では、RNAシーケンシング方法を校正するために合成融合遺伝子スタンダードを設計し、製造し、用いた。
【0361】
24の正常遺伝子(上記の実施例36に記載されたRNAスタンダードのリストから)を選択した。その後、それぞれの遺伝子のイントロン内の融合部位を割り当て、12の相互融合転座事象をエミュレートするために部位を対にした。これらの12の事象が、その後、24の融合遺伝子の配列(それぞれの転座が2つの相互融合遺伝子を形成する;配列番号:291−314及び
図40を参照)を生成した。
【0362】
発現ベクター中にホストされる融合遺伝子配列を生成するために、製造者のプロトコールに従ってNEBuilder(登録商標)HiFi DNA Assembly Master Mix(New England Biolabs)を用いた。簡潔にいうと、40μLアリコットのα−Select Silver Efficiency Chemically Competent E.coli(Bioline)を氷上で解かし、製造者の推薦したプロトコールによって2μLの希釈したNEBuilder(登録商標)HiFi DNA Assembled生成物で変換した。変換した細胞を予熱した100μg/mLアンピシリンプレート上にプレートし、37℃で一晩(18時間)、インキュベートした。それぞれのプレートからの1つのコロニーを用いて、100μg/mLアンピシリンを含有する5mL LB液体培地を接種した。シェーカー上で、37℃で一晩、接種したチューブをインキュベートした。Qiagen Spin Miniprep Kitを用いてプラスミドを分離した。Sangerシーケンシングで精製したプラスミドの配列を確認した。
【0363】
合成RNAスタンダードを生成するために、in vitro転写反応を用いた。RNA合成では、それぞれのプラスミドをEcoRI−HF(New England Biolabs)で線状化し、続いて、プロテイナーゼK処理した。Zymo ChIP DCC columns(Zymo Research)を用いて線状化したプラスミドをクリーンアップした。in vitro転写反応を実施し、RNA転写産物を合成した。製造者の指示書に従ってMEGAscript(登録商標)Sp6 kit(Life Technologies)を用いて完全長RNA転写産物を合成した。製造者の>200ntプロトコールを用いてRNA Clean&Concentrator−25 column(Zymo Research)を用いてRNAを精製した。RNA Nano kitを有するAgilent 2100 Bioanalyzer(Agilent Technologies)上で精製したRNA転写産物を確認し、ストック在庫に含めた。
【0364】
合成融合遺伝子スタンダードを希釈し、互いの発現のダイナミックレンジを含み、正常な親遺伝子を有する10
6倍数濃度に及ぶ混合物を形成した。Qubit 2.0 Fluorometer(Life Technologies、Carlsbad、CA、USA)上で、全RNA融合転写産物の濃度を測定した。epMotion 5070 epBlue(商標)ソフトウエアプログラムを用いてRNA融合転写産物をプールし、10
6倍濃度範囲に及ぶ最終混合物をロボット的にアセンブルした。これが最終混合物ストックを形成した。
【0365】
融合遺伝子合成スタンダード混合物を2つのヒト細胞型K562及びGM12878に由来する天然RNA試料に加えた。Coriell Cell Repositories成長プロトコール及び標準に従ってK562及びGM12878細胞を培養した。簡潔にいうと、5%CO
2下で、37℃で10%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco(登録商標))中でK562及びGM12878を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、K562及びGM12878から全RNAを抽出した。次に、それぞれの試料にTURBO DNase(Life Technologies)でDNAse処理を実施し、続いて、RNA Clean and Concentrator−25 Kit(Zymo Research)でクリーンアップを実施した。全RNAにAgilent 2100 Bioanalyzerを実行し、無損傷を評価し、Nanodrop(Thermo Scientific)及びQubit(Life Technologies)の双方を用いて、濃度を決定した。ライブラリー調製のためにRNA完全性数(RIN)>8.0のRNAだけを用いた。
【0366】
K562 RNAは、公知のBCR−ABL融合遺伝子を含有する。1:1、1:10及び1:100倍数比で、連続希釈K562対GM12878 RNAを生成した。それぞれのライブラリー調製に1μgの混合したRNAを用いた。ライブラリー調製前にK562及びGM12878の混合物の全RNA濃度の10%でRNA融合スタンダードを添加した。Ribo−Zero(商標)Magnetic Kit(ヒト/マウス/ラット)(Epicentre)を用いてRNA混合物のリボソームを除去した。リボソーム除去RNAを用い、製造者のプロトコールに従ってIllumina(登録商標)プラットホームのためのKAPA Stranded RNA−Seq Library Preparation Kit(KAPA Biosystems)を用いてライブラリーを調製した。シーケンシングのために試料をプールする前に、Qubit 2.0 Fluorometer上のHS dsDNA Qubit Assay(Life Technologies、Carlsbad、CA、USA)を用いて調製したライブラリーを定量化し、Agilent 2100 Bioanalyzer(AgilentTechnologies)上で確認した。
【0367】
以下のとおり、シーケンスリードを分析した。最初に、以下のとおり、可能にする融合サーチオプションでTophat2アライナーを用いてシーケンスリードを合成染色体及びヒトゲノム配列(hg38)の双方を含むインデックスにアラインした。tophat −−fusion−search −G gencode.v23.annotation.chrT_rna.gtf hg38.chrT 100K_RFMXA.1.fq 100K_RFMXA.2.fq
【0368】
その後、得られたアライメントファイル(accepted_hits.bam)及びfusion.outファイルを処理し、合成遺伝子性能を評価した。正確に19(24のうち)の融合遺伝子を同定し、同時に、残りの5つの未同定融合遺伝子が、7.557アトモル/μl以下の存在量を示し、この実験での融合遺伝子発見の感度の限界を示した。
【0369】
次に、混合物内の融合遺伝子の公知の濃度に対して融合ジャンクションでのカバレッジをグラフ化した。0.9652のピアソンの相関及び1.166の傾きで、線形関係性がみられ、融合遺伝子カバレッジが融合遺伝子発現の好適な測定値を提供することを示す(
図40を参照)。測定値として合成融合遺伝子を用いて、K562 RNA試料中のBCR−ABL遺伝子にアラインする約16リードとほぼ同じである約21リードがFG1_12_P2融合遺伝子にアラインしたことがわかり、この融合遺伝子の発現が付随する試料中で少なく(K562 RNAが約10%で希釈されている)、約1.6アトモル/μlであることを示す。
【0370】
実施例62:
以下のとおり、生殖細胞系変動をミミックする合成スタンダードを用いる方法の1つの例を実施した。倍数体ヒトゲノム中の生殖細胞系変動は、主としてホモ接合体及びヘテロ接合体対立遺伝子頻度で、生じる。ホモ接合体遺伝子型は、単一のDNAスタンダードによって表すことができ、同時に、等しい頻度で2つの対立遺伝子を含むヘテロ接合体変動は、2つのDNAスタンダードを必要とする。2つを越える対立遺伝子が集団中に存在してよく、それぞれの対立遺伝子の典型である新しいDNAスタンダードが必要である。しかし、ヒトゲノムは、倍数体(すなわち、それぞれの常染色体性染色体の2つのコピーがある)であるため、2つのスタンダードだけが、個々のヒトの倍数体ゲノムをミミックする任意の1回で必要となる。
【0371】
これを示すために、等しい(すなわち、ヘテロ接合体)または単一の(すなわち、ホモ接合体)濃度で、138の別の単一のヌクレオチド変異(SNV)の典型であるDNAスタンダードを混合した。epMotion 5070 epBlue(商標)ソフトウエアプログラムを用いてDNAスタンダードをプールし、最終混合物をロボット的に生成した。その後、DNAスタンダードをGM12878ヒト細胞株から抽出されたゲノムDNAに添加した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、GM12878及びマウスからDNAを抽出した。製造者の指示書に従ってNextera XT Sample Prep Kit(Illumina(登録商標))を用いて、DNAライブラリーを調製した。Qubit(Invitrogen)で、調製したライブラリーを定量化し、Agilent High Sensitivity DNA Kitを有するAgilent 2100 Bioanalyzer(AgilentTechnologies)上で確認した。Kinghorn Centre for Clinical GenomicsでHiSeq 2500(Illumina(登録商標))上でライブラリーをシーケンスした。その後、デフォルトパラメータでBWA MEM(Li and Durbin 2009)を用いてシーケンスリードをヒトゲノム(hg38)及び合成染色体の双方にアラインした。その後、ベストプラクティスに従ってGenome Analysis Toolkit(GATK)を用いて得られたアライメントを分析した。30倍カバレッジで、合成染色体中のホモ接合体の89%及びヘテロ接合体SNPの71%を同定した(
図41A)。変異検出のこの感度は、付随するNA12878ゲノムとほぼ同じであり、事前に記載された変異アノテーションとの比較によってホモ接合体の86%及びヘテロ接合体SNPの63%を同定したことを明記する(Zook、J.M. et al.、2014)。
【0372】
実施例63:
以下のとおり、体細胞変動をミミックする合成スタンダードを用いる方法の1つの例を実施した。体細胞変動は、多くの状態を実証することができ、癌の腫瘍変動がそのうちで最も重要である。ホモ接合体またはヘテロ接合体のいずれかであり、所与の個体の全細胞中に存在する生殖細胞系変動と異なり、体細胞変動は、腫瘍試料内の細胞のフラクション(サブクローン集団)だけに存在する可能性があり、また、腫瘍ゲノム中の頻繁な再配列及びコピー数変動によって混同される可能性がある。例えば、腫瘍が、その細胞系列に従って別個の遺伝子型を有する複数のクローン細胞集団を含む可能性がある。結果として、体細胞変動は、広い範囲の異なる頻度で存在する可能性がある。
【0373】
一定の範囲の頻度で138の体細胞変動の典型であるDNAスタンダードの使用を示すために、参照対立遺伝子に対して2倍連続希釈でDNAスタンダードを混合し、1:2(すなわち、ヘテロ接合体)から1:4096までの対立遺伝子頻度のスケールを確立した(
図42A)。実施例62に記載された方法を用いて、DNAスタンダードを調製し、混合し、NA12878ゲノムDNAに添加し、シーケンスした。Kinghorn Centre for Clinical GenomicsでHiSeq 2500(Illumina(登録商標))上でライブラリーをシーケンスした。その後、デフォルトパラメータでBWA MEM(Li and Durbin 2009)を用いてシーケンスリードをヒトゲノム(hg38)及び合成染色体の双方にアラインした。その後、デフォルトパラメータでVarScan2(Koboldt et al.2009)を用いて得られたアライメントを分析し、DNAスタンダードによって表される遺伝的変動を同定し、その相対頻度(すなわち、変動型対立遺伝子頻度)を定量化した。
【0374】
変異の公知の濃度をその頻度の測定値に対してグラフ化した(
図42B)。これは、異なる対立遺伝子頻度で同定される変異の精度を示し、濃度の予測値及び存在量の測定値間の相関が、変異対立遺伝子頻度を測定する定量的精度、及び正確に変異を同定し、その頻度を測定することができる感度の限界を示す。対立遺伝子頻度のスケールは、付随する試料内のクローン部分母集団の相対的サイズを評価することができる参照を提供する。
【0375】
高い25,000倍カバレッジで、2つの変異を除いて全てについて少なくとも1つの支持リードを同定することができ、例外のその双方とも最もまれな対立遺伝子フラクションに属する(1/4096;
図42B)。しかし、このカバレッジで、また、シーケンシング及びアライメントエラーによって生成したDNAスタンダード中の>2000の偽陽性の可能性がある変異コールがみられ、さらに、変異候補をフィルターする必要があることを示す。それゆえ、次に、DNAスタンダードを用いて、必要な感度及び特異性に従ってp−値(VarScan2によって実施されたとおり、参照及び変異対立遺伝子を支持するリードカウントのフィッシャーの正確確率検定を含む)閾値を実験的に決定した。例えば、1x10
-6のp−値閾値が、体細胞変異を同定するための54%の感度及び82%の特異性を提供する。しかし、この厳密性を適用すると、アッセイの感度が1/128の対立遺伝子頻度(すなわち、1%未満頻度;
図42C、D)に制限される。
【0376】
実施例64:
以下のとおり、複合遺伝子型をミミックする合成スタンダードを用いる方法の1つの例を実施した。染色体異数性の場合、または複数の個々の遺伝子型が同時にサンプル抽出される場合、より多くの複合遺伝子型がみられる可能性がある。例えば、妊婦の血液中で循環するDNAが考慮される場合、2つのオーバーラップしている遺伝子型、胎児(母親及び父親の双方の対立遺伝子を構成する)及び母親(2つの母親の対立遺伝子を構成する)が検出される。胎児対立遺伝子は、胎児に由来する循環DNAのフラクションと共に(これは妊娠中に母親の循環DNAの約1〜40%から変えることができる)ホモ接合体及びヘテロ接合体対立遺伝子頻度の双方に従って、一定の範囲の濃度でみられる可能性がある。対立遺伝子頻度は、さらに、常染色体性染色体が、非倍数体頻度で、例えば、21−トリソミー、最も一般的な遺伝的先天異常で存在する染色体異数性によって複雑化する可能性がある。例えば、染色体21の変異の典型であるDNAスタンダードを、他の常染色体性染色体の変動の典型であるDNAスタンダードより1.5倍のより高い頻度で添加し、21−トリソミーをエミュレートした。それゆえ、DNAスタンダードによって表される対立遺伝子頻度は、(i)遺伝子型頻度(すなわち、ヘテロ接合体またはホモ接合体)(ii)循環中の胎児及び母親のDNAの相対的存在量及び(iii)胎児ゲノム中のコピー数変動(例えば、染色体異数性)の混合に反映する。
【0377】
胎児及び母親の遺伝子型の布置の典型である120のDNAスタンダードを設計した(参照及び変異の双方;配列番号:315〜434)。それぞれのスタンダードは、通常、循環中にみられるDNAフラグメントサイズに相当する約160nt長である。その後、一定の範囲の濃度でDNAスタンダードを混合し、妊婦の血液内で循環する胎児及び母親のDNAの相対的存在量をエミュレートした(
図42E)。例えば、等しい濃度でヘテロ接合体遺伝子型の典型である2つの胎児DNAスタンダードを混合し、その後、これらの2つのスタンダードを10%フラクション濃度で母親のDNAスタンダードに混合し、これにより、血液から取り出した循環DNAの残りの90%を表す。
【0378】
さらに、これを示すために、120の異なる変異事象を表したDNAスタンダードの混合物からシミュレートしたライブラリー(上記のこの実施例に記載された方法を用いて)を生成した。当該混合物は、一定の範囲の異なる胎児DNAロード(0、1、10、25及び50%)で一定の範囲の4つの異なる遺伝子型組み合わせ(胎児及び母親のホモ接合体及びヘテロ接合体)を包含し、追加の1.5倍濃縮で、ヒト染色体21からの変動の典型であるDNAスタンダードのサブセットを添加し、21−トリソミーをエミュレートした。デフォルトパラメータでBWA MEM(Li and Durbin 2009)を用いてシーケンスリードを合成染色体にアラインした。その後、デフォルトパラメータでVarScan2(Koboldt et al.2009)を用いて得られたアライメントを分析し、DNAスタンダードによって表される遺伝的変動を同定し、その相対頻度(すなわち、変動型対立遺伝子頻度)を定量化した。実測遺伝子型頻度に対して予測値をグラフ化して、付随する試料中の胎児変異を測定することができる参照スケールを提供し、胎児遺伝子型及び染色体異数性の決定を知らせる。
【0379】
実施例65:
以下のとおり、テンプレート配列をリバースすることによるスタンダードの生成方法の1つの例を実施した。特に、以下の例は、コードされるタンパク質中でミスセンス置換(V617E)を生じさせ、癌と関係するJAK2遺伝子(COSM12600)中で1,849ntで生じる置換変動(G>T)をエミュレートするためにどのようにDNAスタンダードを設計するかを示す。
【0380】
DNAスタンダードを生成するために、最初に、約200ntフランキング配列と共に参照及び変異対立遺伝子の双方を取り出した。ヒトゲノム内のオリジナル遺伝子座との相同性を阻止するために、当該配列をリバースした。COSM12600参照対立遺伝子の典型であるDNAスタンダードのリバースされたDNA配列は、配列番号:435に記載され、変異対立遺伝子は、配列番号:436に記載されている。
【0381】
次に、偶然によるヒトゲノムとの有意な相同性を保持するDNAスタンダード内のサブ配列を同定した。有意な(E−値>0.01)相同性を有するDNAスタンダード配列(TTCTGATTCCTTTTTTTTTTCATGTTTCTTAACA(配列番号:437))の35nt小領域を同定した。その後、(i)シャッフリング、これによりヌクレオチドが相同性を除去するために新しい順序にシャッフルされる(例えばCTTATTTTTTTCATTCTGTTCCTATATTTTCGAT(配列番号:438))(ii)置換、これにより全GがCに置換され、全CがGに置換され、全AがTに置換され及び全TがAに置換される(例えば、GAATAAAAAAAGTAAGACAAGGATATAAAAGCTA(配列番号:439))のいずれかによって、この配列を修飾した。この場合には、シャッフリングは、オリジナル配列と同じヌクレオチド含有率を維持するが、配列反復性のいずれかをやめ、一方、置換は、配列反復性を維持するが、ヌクレオチド組成物を修飾する(しかし、相対的ピリミジン及びプリン含有率は維持される)。COSM12600参照対立遺伝子の典型であるDNAスタンダードの最終DNA配列は、配列番号:440に記載され、変異対立遺伝子は、配列番号:441に記載されている。
【0382】
同様に、変動のいずれかのDNAスタンダードを設計するために本方法を使用することができる。実例として、BRAF(COSM476;配列番号:442、配列番号:443)、KRAS(COSM521;配列番号:444、配列番号:445)、IDH1(COSM28746;配列番号:446、配列番号:447)、EGFR(COSM6224;配列番号:448、配列番号:449)、FGFR3(COSM715;配列番号:450、配列番号:451)、PIK3CA(COSM775;配列番号:452、配列番号:453)、MYD88(COSM85940;配列番号:454、配列番号:455)、キット(COSM1314;配列番号:456、配列番号:457)、CTNNB1(COSM5664;配列番号:458、配列番号:459)、NRAS(COSM584;配列番号:460、配列番号:461)、DNMT3A(COSM52944;配列番号:462、配列番号:463)及びFOXL2(COSM33661;配列番号:464、配列番号:465)中の変動を含む臨床的重要性がある一定の範囲の変動の典型であるDNAスタンダードを生成した。
【0383】
実施例66:
以下のとおり、テンプレート配列をリバースすることによって小規模または大規模な遺伝的変動をミミックするスタンダードの生成方法の1つの例を実施した。欠失または挿入などのより大きな構造的遺伝的事象を表す場合、変動を取り巻く配列反復性及び構造を維持することが重要である可能性があり、これは、局所リードアライメントが大きな変異の構造を分解するのにきわめて重要である可能性があるためである。それゆえ、DNAスタンダードを生成するためのテンプレート配列のリバージョン及び/または置換は、大きな構造的変異を表し、天然の大きな構造的変異にみられる多くは複合のアーキテクチャ及び反復配列構造を維持するのに特に有利な方法を提供する。
【0384】
この実施例は、EGRF遺伝子中の17nt欠失(GAATTAAGAGAAGCAA(配列番号:466);COSM6223)をエミュレートするためにどのようにしてDNAスタンダードを設計したかを示す。最初に参照及び変異(すなわち、17nt欠失を有する)EGRF配列に隣接する200ntの配列を取り出した。その後、3’から5’へ配列をリバースし、第2に、偶然によってヒトゲノムとの相同性(配列逆転にかかわらず)を保持したヌクレオチドのいずれも置換した。EGRF欠失(COSM6223)の典型である最終DNAスタンダード配列は、配列番号:467(参照)及び配列番号:468(変異)で提供される。
【0385】
重要なことに、挿入事象の典型であるDNAスタンダードは、挿入切断点部位に隣接している配列をリバースする(3’から5’へ)だけでなく、切断点に挿入される配列をリバースするのにも必要である。これを示すために、ERBB2遺伝子中で生じる14nt挿入(COSM20959)の典型であるDNAスタンダードを設計した。この場合には、変動ならびに変異挿入配列に隣接する200nt配列を取り出した(CATACGTGATGGC(配列番号:469))。その後、参照配列及び変異配列(挿入を含有する)をリバースし、続いて、ヌクレオチドを偶然によってヒトゲノムへの相同性を保持した部分配列のいずれかに置換した。ERBB2挿入の典型である最終DNAスタンダード配列は、配列番号:470(参照)及び配列番号:471(変異)で提供される。
【0386】
実例として、EGFR(COSM6223;配列番号:472、配列番号:473)、IL7R(COSM214586;配列番号:474、配列番号:475)、IL6ST(COSM251361;配列番号:476、配列番号:477)、キット(COSM1326;配列番号:478、配列番号:479)遺伝子中の挿入及び欠失を含む、臨床的重要性がある一定の範囲の構造的変異の典型であるDNAスタンダード配列を生成した。
【0387】
当業者であれば、本明細書に記載された開示は、特に記載したもの以外に変更及び修正の余地があることを理解する。本開示は、かかる変動及び修飾の全てを含むと理解しなければならない。本開示は、また、本明細書に引用した、またはこれに示したステップ、特徴、組成物及び化合物の全て、これを個々に、またはまとめて、ならびに前記ステップまたは特徴のいずれか及び全ての組み合わせまたはいずれかの2つ以上を含む。本開示の広く一般的な範囲から逸脱することなく、上記に記載された実施形態に多くの変更及び/または修正が生じる可能性があることが、当業者によって理解される。それゆえ、本実施形態は、あらゆる点で、例示するものであり、制限するものではないと考えなければならない。機能的に均等である生成物、組成物及び方法は、本明細書に記載されたとおり、明白に本開示の範囲内である。
【0389】
文献:
・Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.& Lipman,D.J.Basic local alignment search tool.J Mol Biol 215,403−10(1990)。
・Anders,S.,D.J.McCarthy,Y.Chen,M.Okoniewski,G.K.Smyth,W.Huber and M.D.Robinson(2013).”Count−based differential expression analysis of RNA sequencing data using R and Bioconductor.” Nat Protoc 8(9):1765−1786。
・Baker,S.C.et al.The External RNA Controls Consortium:a progress report.Nat Methods 2,731−4(2005)。
・Bentley,D.R.et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature 456,53−9(2008)。
・Bernstein,B.E.et al.Genomic maps and comparative analysis of histone modifications in human and mouse.Cell 120,169−81(2005)。
・Bolotin,D.A.,I.Z.Mamedov,O.V.Britanova,I.V.Zvyagin,D.Shagin,S.V.Ustyugova,M.A.Turchaninova,S.Lukyanov,Y.B.Lebedev and D.M.Chudakov ”Next generation sequencing for TCR repertoire profiling:platform−specific features and correction algorithms.” Eur J Immunol 42(11):3073−3083(2012)。
・Burset,M.and R.Guigo ”Evaluation of gene structure prediction programs.” Genomics 34(3):353−367(1996)。
・Carlson,C.,O’Emerson,R.,Sherwood,A.,Desmarais,C.,Chung,M−W.,Parsons,J.,Steen,M.,A LaMadrid−Herrmannsfeldt,M.,Williamson,D.,Livingston,R.,Wu,D.,Wood,B,Rieder,M.& Robins,H.”Using synthetic templates to design an unbiased multiplex PCR assay.” Nature Communications 4,Article number 2680(2013)。
・Chen,K.,J.W.Wallis,M.D.McLellan,D.E.Larson,J.M.Kalicki,C.S.Pohl,S.D.McGrath,M.C.Wendl,Q.Zhang,D.P.Locke,X.Shi,R.S.Fulton,T.J.Ley,R.K.Wilson,L.Ding and E.R.Mardis(2009).”BreakDancer:an algorithm for high−resolution mapping of genomic structural variation.” Nat Methods 6(9):677−681。
・Chen,Y.C.,Liu,T.,Yu,C.H.,Chiang,T.Y.& Hwang,C.C.Effects of GC bias in next−generation−sequencing data on de novo genome assembly.PLoS One 8,e62856(2013)。
・Clarke,J.et al.Continuous base identification for single−molecule nanopore DNA sequencing.Nat Nanotechnol 4,265−70(2009)。
・Consortium,E.(2005).”Proposed methods for testing and selecting the ERCC external RNA controls.” BMC Genomics 6:150。
・Coward,E.(1999).”Shufflet:shuffling sequences while conserving the k−let counts.” Bioinformatics 15(12):1058−1059。
・Davies,H.et al.Mutations of the BRAF gene in human cancer.Nature 417,949−54(2002)。
・DePristo,M.A.,E.Banks,R.Poplin,K.V.Garimella,J.R.Maguire,C.Hartl,A.A.Philippakis,G.del Angel,M.A.Rivas,M.Hanna,A.McKenna,T.J.Fennell,A.M.Kernytsky,A.Y.Sivachenko,K.Cibulskis,S.B.Gabriel,D.Altshuler and M.J.Daly(2011).”A framework for variation discovery and genotyping using next−generation DNA sequencing data.” Nat Genet 43(5):491−498。
・Dobin,A.,C.A.Davis,F.Schlesinger,J.Drenkow,C.Zaleski,S.Jha,P.Batut,M.Chaisson and T.R.Gingeras(2013).”STAR:ultrafast universal RNA−seq aligner.” Bioinformatics 29(1):15−21。
・Edwards,R.A.et al.Using pyrosequencing to shed light on deep mine microbial ecology.BMC Genomics 7,57(2006)。
・Eid,J.et al.Real−time DNA sequencing from single polymerase molecules.Science 323,133−8(2009)。
・Futreal,P.A.,L.Coin,M.Marshall,T.Down,T.Hubbard,R.Wooster,N.Rahman and M.R.Stratton(2004).”A census of human cancer genes.” Nat Rev Cancer 4(3):177−183。
・Grosveld,G.,T.Verwoerd,T.van Agthoven,A.de Klein,K.L.Ramachandran,N.Heisterkamp,K.Stam and J.Groffen(1986).”The chronic myelocytic cell line K562 contains a breakpoint in bcr and produces a chimeric bcr/c−abl transcript.” Mol Cell Biol 6(2):607−616。
・Haas,B.J.,A.Papanicolaou,M.Yassour,M.Grabherr,P.D.Blood,J.Bowden,M.B.Couger,D.Eccles,B.Li,M.Lieber,M.D.Macmanes,M.Ott,J.Orvis,N.Pochet,F.Strozzi,N.Weeks,R.Westerman,T.William,C.N.Dewey,R.Henschel,R.D.Leduc,N.Friedman and A.Regev(2013).”De novo transcript sequence reconstruction from RNA−seq using the Trinity platform for reference generation and analysis.” Nat Protoc 8(8):1494−1512。
・Harrow,J.,F.Denoeud,A.Frankish,A.Reymond,C.K.Chen,J.Chrast,J.Lagarde,J.G.Gilbert,R.Storey,D.Swarbreck,C.Rossier,C.Ucla,T.Hubbard,S.E.Antonarakis and R.Guigo(2006).”GENCODE:producing a reference annotation for ENCODE.” Genome Biol 7 Suppl 1:S4 1−9。
・Harrow,J.,A.Frankish,J.M.Gonzalez,E.Tapanari,M.Diekhans,F.Kokocinski,B.L.Aken,D.Barrell,A.Zadissa,S.Searle,I.Barnes,A.Bignell,V.Boychenko,T.Hunt,M.Kay,G.Mukherjee,J.Rajan,G.Despacio−Reyes,G.Saunders,C.Steward,R.Harte,M.Lin,C.Howald,A.Tanzer,T.Derrien,J.Chrast,N.Walters,S.Balasubramanian,B.Pei,M.Tress,J.M.Rodriguez,I.Ezkurdia,J.van Baren,M.Brent,D.Haussler,M.Kellis,A.Valencia,A.Reymond,M.Gerstein,R.Guigo and T.J.Hubbard(2012).”GENCODE:the reference human genome annotation for The ENCODE Project.” Genome Res 22(9):1760−1774。
・Iqbal,Z.,M.Caccamo,I.Turner,P.Flicek and G.McVean(2012).”De novo assembly and genotyping of variants using colored de Bruijn graphs.” Nat Genet 44(2):226−232。
・Jiang,M.,J.Anderson,J.Gillespie and M.Mayne(2008).”uShuffle:a useful tool for shuffling biological sequences while preserving the k−let counts.” BMC Bioinformatics 9:192。
・Jiang,L.et al.Synthetic spike−in standards for RNA−seq experiments.Genome Res 21,1543−51(2011)。
・Johnson,D.S.,Mortazavi,A.,Myers,R.M.& Wold,B.Genome−wide mapping of in vivo protein−DNA interactions.Science 316,1497−502(2007)。
・Katz,Y.,E.T.Wang,E.M.Airoldi and C.B.Burge(2010).”Analysis and design of RNA sequencing experiments for identifying isoform regulation.” Nat Methods 7(12):1009−1015。
・Kelley,D.R.,M.C.Schatz and S.L.Salzberg(2010).”Quake:quality−aware detection and correction of sequencing errors.” Genome Biol 11(11):R116。
・Kim,D.,G.Pertea,C.Trapnell,H.Pimentel,R.Kelley and S.L.Salzberg(2013).”TopHat2:accurate alignment of transcriptomes in the presence of insertions,deletions and gene fusions.” Genome Biol 14(4):R36。
・Koboldt,D.C.et al.(2009) ”VarScan:variant detection in massively parallel sequencing of individual and pooled samples.” Bioinformatics 25:2283−5。
・Lander,E.S.et al.Initial sequencing and analysis of the human genome.Nature 409,860−921(2001)。
・Langmead,B.and S.L.Salzberg(2012).”Fast gapped−read alignment with Bowtie 2.” Nat Methods 9(4):357−359。
・Langmead,B.,C.Trapnell,M.Pop and S.L.Salzberg(2009).”Ultrafast and memory−efficient alignment of short DNA sequences to the human genome.” Genome Biol 10(3):R25。
・Law,J.C.,Ritke,M.K.,Yalowich,J.C.,Leder,G.H.& Ferrell,R.E.Mutational inactivation of the p53 gene in the human erythroid leukemic K562 cell line.Leuk Res 17,1045−50(1993)。
・Li,H.and R.Durbin(2009).”Fast and accurate short read alignment with Burrows−Wheeler transform.” Bioinformatics 25(14):1754−1760。
・Li,H.,B.Handsaker,A.Wysoker,T.Fennell,J.Ruan,N.Homer,G.Marth,G.Abecasis and R.Durbin(2009).”The Sequence Alignment/Map format and SAMtools.” Bioinformatics 25(16):2078−2079。
・Li,H.,B.Handsaker,A.Wysoker,T.Fennell,J.Ruan,N.Homer,G.Marth,G.Abecasis,R.Durbin and S.Genome Project Data Processing(2009).”The Sequence Alignment/Map format and SAMtools.” Bioinformatics 25(16):2078−2079。
・Lieberman−Aiden,E.et al.Comprehensive mapping of long−range interactions reveals folding principles of the human genome.Science 326,289−93(2009)。
・Logan,A.C.,H.Gao,C.Wang,B.Sahaf,C.D.Jones,E.L.Marshall,I.Buno,R.Armstrong,A.Z.Fire,K.I.Weinberg,M.Mindrinos,J.L.Zehnder,S.D.Boyd,W.Xiao,R.W.Davis and D.B.Miklos(2011).”High−throughput VDJ sequencing for quantification of minimal residual disease in chronic lymphocytic leukemia and immune reconstitution assessment.” Proc Natl Acad Sci U S A 108(52):21194−21199。
・MacDonald,J.R.,R.Ziman,R.K.Yuen,L.Feuk and S.W.Scherer(2014).”The Database of Genomic Variants:a curated collection of structural variation in the human genome.” Nucleic Acids Res 42(Database issue):D986−992。
・McKenna,A.,M.Hanna,E.Banks,A.Sivachenko,K.Cibulskis,A.Kernytsky,K.Garimella,D.Altshuler,S.Gabriel,M.Daly and M.A.Depristo(2010).”The Genome Analysis Toolkit:A MapReduce framework for analyzing next−generation DNA sequencing data.” Genome Res。
・Meacham,F.,D.Boffelli,J.Dhahbi,D.I.Martin,M.Singer and L.Pachter(2011).”Identification and correction of systematic error in high−throughput sequence data.” BMC Bioinformatics 12:451。
・Mitterbauer,G.,P.Nemeth,S.Wacha,N.C.Cross,I.Schwarzinger,U.Jaeger,K.Geissler,H.T.Greinix,P.Kalhs,K.Lechner and C.Mannhalter(1999).”Quantification of minimal residual disease in patients with BCR−ABL−positive acute lymphoblastic leukaemia using quantitative competitive polymerase chain reaction.” Br J Haematol 106(3):634−643。
・Mortazavi,A.,Williams,B.A.,McCue,K.,Schaeffer,L.& Wold,B.Mapping and quantifying mammalian transcriptomes by RNA−Seq.Nat Methods 5,621−8(2008)。
・Pearson,W.R.and D.J.Lipman(1988).”Improved tools for biological sequence comparison.” Proc Natl Acad Sci U S A 85(8):2444−2448。
・Piva,F.and G.Principato(2006).”RANDNA:a random DNA sequence generator.” In Silico Biol 6(3):253−258。
・Robinson,M.D.,D.J.McCarthy and G.K.Smyth(2010).”edgeR:a Bioconductor package for differential expression analysis of digital gene expression data.” Bioinformatics 26(1):139−140。
・Ronaghi,M.,Uhlen,M.& Nyren,P.A sequencing method based on real−time pyrophosphate.Science 281,363,365(1998)。
・Rothberg,J.M.et al.An integrated semiconductor device enabling non−optical genome sequencing.Nature 475,348−52(2011)。
・Schaap,M.,R.J.Lemmers,R.Maassen,P.J.van der Vliet,L.F.Hoogerheide,H.K.van Dijk,N.Basturk,P.de Knijff and S.M.van der Maarel(2013).”Genome−wide analysis of macrosatellite repeat copy number variation in worldwide populations:evidence for differences and commonalities in size distributions and size restrictions.” BMC Genomics 14:143。
・Sherry,S.T.,M.H.Ward,M.Kholodov,J.Baker,L.Phan,E.M.Smigielski and K.Sirotkin(2001).”dbSNP:the NCBI database of genetic variation.” Nucleic Acids Res 29(1):308−311。
・Simon,N.E.and A.Schwacha(2014).”The Mcm2−7 Replicative Helicase:A Promising Chemotherapeutic Target.” Biomed Res Int 2014:549719。
・Simpson,J.T.,K.Wong,S.D.Jackman,J.E.Schein,S.J.Jones and I.Birol(2009).”ABySS:a parallel assembler for short read sequence data.” Genome Res 19(6):1117−1123。
・Singh,J.,A.Behal,N.Singla,A.Joshi,N.Birbian,S.Singh,V.Bali and N.Batra(2009).”Metagenomics:Concept,methodology,ecological inference and recent advances.” Biotechnol J 4(4):480−494。
・Trapnell,C.,B.A.Williams,G.Pertea,A.Mortazavi,G.Kwan,M.J.van Baren,S.L.Salzberg,B.J.Wold and L.Pachter(2010).”Transcript assembly and quantification by RNA−Seq reveals unannotated transcripts and isoform switching during cell differentiation.” Nat Biotechnol 28(5):511−515。
・van der Maarel,S.M.and R.R.Frants(2005).”The D4Z4 repeat−mediated pathogenesis of facioscapulohumeral muscular dystrophy.” Am J Hum Genet 76(3):375−386。
・van Dongen,J.J.,A.W.Langerak,M.Bruggemann,P.A.Evans,M.Hummel,F.L.Lavender,E.Delabesse,F.Davi,E.Schuuring,R.Garcia−Sanz,J.H.van Krieken,J.Droese,D.Gonzalez,C.Bastard,H.E.White,M.Spaargaren,M.Gonzalez,A.Parreira,J.L.Smith,G.J.Morgan,M.Kneba and E.A.Macintyre(2003).”Design and standardization of PCR primers and protocols for detection of clonal immunoglobulin and T−cell receptor gene recombinations in suspect lymphoproliferations:report of the BIOMED−2 Concerted Action BMH4−CT98−3936.” Leukemia 17(12):2257−2317。
・Villesen,P.(2007).”FaBox:an online toolbox for fasta sequences.” Molecular Ecology Notes 7(6):965−968。
・Yang,J.,N.Ramnath,K.B.Moysich,H.L.Asch,H.Swede,S.J.Alrawi,J.Huberman,J.Geradts,J.S.Brooks and D.Tan(2006).”Prognostic significance of MCM2,Ki−67 and gelsolin in non−small cell lung cancer.” BMC Cancer 6:203。
・Zerbino,D.R.and E.Birney(2008).”Velvet:algorithms for de novo short read assembly using de Bruijn graphs.” Genome Res 18(5):821−829。
・Zhang,W.,W.Gong,H.Ai,J.Tang and C.Shen(2014).”Gene expression analysis of lung adenocarcinoma and matched adjacent non−tumor lung tissue.” Tumori 100(3):338−345。
・Zook,J.M.et al.Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls.Nat Biotechnol 32,246−51(2014)。
・Zvyagin,I.V.,M.V.Pogorelyy,M.E.Ivanova,E.A.Komech,M.Shugay,D.A.Bolotin,A.A.Shelenkov,A.A.Kurnosov,D.B.Staroverov,D.M.Chudakov,Y.B.Lebedev and I.Z.Mamedov(2014).”Distinctive properties of identical twins’ TCR repertoires revealed by high−throughput sequencing.” Proc Natl Acad Sci U S A 111(16):5980−5985。