【実施例】
【0059】
[0091] 本明細書で記載される方法および態様は以下の実施例においてさらに定義され、別途記載しない限り、ここで全ての部および百分率は重量によるものであり、度はセ氏である。本発明の特定の態様は本明細書における実施例において定義される。これらの実施例は本発明の好ましい態様を示すものであるが、説明としてのみ与えられていることは理解されるべきである。本明細書における論考およびこれらの実施例から、当業者はこの発明の本質的な特徴を確かめることができ、その精神および範囲から逸脱することなく本発明の様々な変更および修正を行ってそれを様々な使用および条件に適応させることができる。
【0060】
[0092] そのPCRに基づくNGSライブラリー調製法は、競合内部増幅対照(IAC)を組み込む。この方法はNGSライブラリー調製の間に導入される非系統的誤差の大部分に関して対照し、定量的NGSデータの実験室間比較を可能にする。
【0061】
[0093] 従って、競合IACは、PCR反応における天然鋳型の速度論を模倣し、そうしてPCR効率における標的特異的バリエーションに関して対照するために対象の天然核酸鋳型と同一のプライミング部位を共有することにより、PCRに基づくNGSライブラリー調製における非系統的誤差に関して対照する。
【0062】
[0094] 本明細書で記載される方法において、競合IACは天然核酸鋳型と同じ速度論を経験するため、天然標的の配列決定の読みのそのそれぞれの競合IACに対する比例関係はNGSライブラリー調製の間に変化しない。
【0063】
[0095] さらに、試料調製中に配置された競合IACの濃度が既知である場合、ここでNGSライブラリー調製の開始時に存在していた天然核酸分子の元の存在量を正確に計算することが可能である。
【0064】
[0096] 一例として、多数の実験室が多数の異なる研究において同じ競合IACの混合物を用いた際、その多数の実験室のそれぞれがその結果が一致していることを示している。
【0065】
[0097] 従って、PCRに基づくNGSライブラリー調製における競合IACの使用は、高い程度の正確性および再現性を有する多数の試料にわたる多数の核酸標的の対費用効果の高い高度に多重化された分析を可能にする。
【0066】
[0098] 競合IACの組み込みの追加の利益は、結果としてそれぞれの天然標的の等モルの(すなわち均一な)濃度に向かう正規化(すなわち収束)をもたらすプロトコル、例えば多重PCRをそのような方法を用いて実施することができることである。
【0067】
[0099] 鋳型濃度の正規化により、ここで天然核酸鋳型間の存在量が100万倍より大きく異なり得ることが可能であることは理解されるべきである。過去には、最も高く表現された天然核酸鋳型は不必要に過剰に標本抽出され、最も少なく表現されている核酸鋳型を配列決定する(例えば、2倍の変化を正確に検出するために少なくとも10回(検出力=80%;第一種過誤率=0.05))ために1000万回配列決定されていたであろう。しかし、本明細書で記載される競合IAC法の使用は、標的分析物の表現における正規化を提供し、なおまだ低い配列決定の読みの数を有する低および高存在量標的の両方の元の表現の定量的情報を保持している。従って、過剰表現された核酸標的の過剰標本抽出における低減は、結果として低減した費用および深い配列決定と関係する確率的な標本抽出のエラーをもたらす。
【0068】
[00100] 実施例1
[00101] NGSライブラリー調製およびその後の核酸存在量の測定に関する競合IA
Cを用いた多重PCR
[00102] FDAに出資された配列決定品質管理(SEQC)計画において用いられた
(既に様々な条件下で多重qPCR、マイクロアレイおよびNGSプラットフォームにより測定された核酸存在量を有する)参照物質RNA用量設定プールを得た。
【0069】
[00103] NGSライブラリーをプライマーおよび150種類の遺伝子標的に関する競
合IACの存在下で多重PCRを用いて逆転写された参照物質から調製した。
[00104] そのNGSライブラリー調製を、個々の試験サイト内での、実験室間での、
および異なる核酸測定プラットフォームにわたる核酸存在量測定の再現性に関して競合IACを用いた多重PCRを用いて評価した。
【0070】
[00105] NGSライブラリー調製に関する競合IACを用いた多重PCRの経費およ
び利点を、一般的に用いられるIlluminaに基づくNGSライブラリー調製プロトコルおよびTaqman qPCRと、臨床設定において核酸存在量を正確に測定することに関して比較した。
【0071】
[00106] 方法および結果
[00107] ヒトゲノム中の150種類の独特に転写される遺伝子のそれぞれに関する1
01塩基対領域(すなわちアンプリコン)に対応する順方向および逆方向プライマーを設計した。それぞれのプライマーは一様な68℃の融解温度を有するように設計された。それぞれのプライマーは、マルチテンプレートPCRに関して用いることができる、例えば最初の多重PCR後にバーコードおよび配列決定アダプター配列の付加において用いることができるユニバーサルテール配列も含有していた。これらのプライマーはIntegrated DNA Technologies(IDT)により合成され、それを等モル比で組み合わせ、希釈して50ナノモル濃度のそれぞれのプライマーの最終作動濃度にした。それぞれ101塩基長の150種類の競合内部増幅対照(IAC)の対応する混合物がIntegrated DNA Technologies(IDT)により合成された。その競合IACのそれぞれはそれらのそれぞれの天然核酸鋳型標的に対する同一の標的特異的プライミング部位を含有していた。配列決定後のデータ分析の間に競合IACをその対応する天然標的と区別することができるように、これらの同一の順方向および逆方向プライミング部位の内側にその配列の内部部位において6ヌクレオチドの置換があった。
【0072】
[00108] それぞれの競合IACはIDTにより互いと比較しておおよそ等モル濃度で
組み合わせられて混合物にされた。競合IACの混合は厳密な1:1の比率ではなかった可能性があるため、その競合IACのそれぞれのコピー数の絶対存在量およびその150種類の競合IACのそれぞれに関する互いに関するそれらの比率は、既知の量のゲノムDNA(gDNA)参照物質と比較した用量設定により決定された。独特のゲノム配列のそれぞれはそのゲノム全体を通して互いに対して1対1の比率で存在するため、ゲノムDNA参照物質は正規化試薬の役目を果たすことができる。従って、gDNAに対して用量設定した場合の競合IAC濃度における認識された差は、実際にその混合物中の競合IAC間に存在する比率における系統的な差を示している。この系統的な差は一定量のgDNAに対する用量設定により決定され、IACのその特定のロットまたは混合物を用いて得られる将来の計算および測定に常に適用される(
図1)。
【0073】
[00109]
図1は、それぞれの多重PCR中への100,000コピーの一定量のgD
NA入力と比較した内部増幅対照(IAC)の混合物の用量設定を示す。Y軸上にプロットされているのは、観察された天然の読みを天然の読みおよびそのそれぞれの競合IACの読みの両方の合計で割った頻度または比率である。X軸上にプロットされているのは、競合IACのおおよそ等モルの混合物中のそれぞれの標的の最初に推定された量である。10,000,000コピーのそれぞれのIAC(Log10濃度=0)から1,000(Log10濃度=−2)コピーまでの範囲の10通りの希釈を10個の反応のそれぞれの中に入力して示した曲線を生成した。150種類の設計されたプライマーセット、競合IAC、およびそれぞれの天然標的の内で、119種類を当てはまりの良さを用いて用量設定した(R
2>0.95)。その競合IACの95%より多くは、100,000コピーまで希釈した場合(10,000,000の出発IACコピーを100,000またはLog10濃度−2に、すなわち10,000,000から100倍希釈した)、予想された等量点:(天然)/(天然+IAC)=0.5の10倍以内であった。その新しい濃度はその競合IACの混合物における119アッセイのそれぞれに関する実際の濃度の役目を果たし、絶対正確性(すなわち真の正確性)μgの基準の役目を果たした。
【0074】
[00110] 従って、IACの一定量のgDNAとの用量設定された混合物に対する15
0のアッセイを試験した後、150のアッセイの内の119は十分な性能特徴(ヒルプロットR
2>0.95)を有すると決定された。これらの補正はその後このIACの混合物を用いてなされた全ての将来の測定に適用された。
【0075】
[00111] 配列決定品質管理(SEQC)計画としても知られているMAQC計画の第
III相は、2つのRNA試料のタイプから4つのプールを生成した:Stratageneからのユニバーサルヒト参照RNA(UHRR)およびAmbionからのヒト脳参照RNA(HBRR)。その4つのプールには、2つの参照RNA試料ならびに元の試料の2つの混合物が含まれていた:試料A、100% UHRR;試料B、100% HBRR;試料C、75% UHRR:25% HBRR;およびD、25% UHRR:75% HBRR。この生物学的に異なるRNA源の組み合わせおよび既知の用量設定の差異が、検出される差次的に発現している遺伝子に基づくプラットフォームの正確性を評価するための方法を提供した。これらのRNAプールの10(10)μgの分割量を試料A、B、CおよびDに関して用いた。
【0076】
[00112] そのRNA用量設定プール参照物質(試料A、B、CおよびD)のそれぞれ
を、InvitrogenからのSuperscript III逆転写酵素をMMLV逆転写酵素の代わりに用いたことおよびそれぞれの逆転写反応において1μgのRNAを入れたことを除いてCanales et al., 2006において記載されているように逆転写した。加えて、逆転写により配列決定ライブラリー調製に導入される分散を決定するため、試料Aを2つの別個の逆転写マスターミックスの調製から2回逆転写した。
【0077】
[00113] これらの5つのcDNAの逆転写されたRNA用量設定プール(試料A−R
A1、A−RT2、B、CおよびD)のそれぞれからの1(1)μLを、150種類の標的を表す競合内部増幅対照(IAC)混合物の系列希釈した混合物を含有する12個の多重PCR反応の1つの中にスパイクした(spiked)。これらの競合IACの混合物の12個の系列希釈は、装填される107コピーから103に至るまでの範囲である。それぞれの試料の合計12μLが多重PCRの間に消費され、これはそれぞれの試料に関して合計で約133ngのRNAに対応していた。
【0078】
[00114] それぞれの遺伝子標的に関する天然物質が競合IACと等しい濃度である濃
度(すなわち等量点)をそれぞれの逆転写された参照物質(試料SEQC A−RT1、A−RT2、B、CおよびD)において決定し、それはヒル方程式を用いて決定された(
図2)。
【0079】
[00115]
図2におけるグラフは、それぞれの多重PCR中に入力された一定量の10
0,000コピーのgDNAと比較した内部増幅対照(IAC)の混合物、または11ngの逆転写されたRNAのcDNA物質(試料SEQC A−RT1、A−RT2、B、CおよびD)の用量設定を示す。Y軸上にプロットされているのは、観察された天然の読みを天然の読みおよびそのそれぞれの競合IACの読みの両方の合計で割った頻度または比率である。X軸上にプロットされているのは、競合IACのおおよそ等モルの混合物中のそれぞれの標的の最初に推定された量である。10,000,000コピーのそれぞれのIAC(Log10濃度=0)から1,000(Log10濃度=−2)コピーまでの範囲の希釈を10個の反応のそれぞれの中に入力して上記の曲線を生成した。
【0080】
[00116] 試料CおよびDは試料AおよびCの間の既知の交差用量設定に相当するため
、差次的に発現した遺伝子に関するそのプラットフォームの正確性を評価した(
図3)。SEQC試料C−RT1に関して測定された値を、測定されたSEQC試料AおよびBの値に基づいて予想された値と比較した(%差)。予測されたシグナルC’および実際のア
ッセイシグナルCの間のパーセント差を、相対的アッセイ正確性(RA)の指標として用いた。標的遺伝子に関するRAスコアΔCをそれぞれ(C−C’/C’)として定義した。それぞれの遺伝子に関する予想されたRAスコアからのパーセント差の分布を、標準化されたqNGS(n=88)および標準化されたRT−PCR(n=201)に関して箱ひげ図で示す。箱ひげ図の構成要素は以下の通りである:水平線、中央値;箱、四分位間範囲;ひげ、1.5×四分位間範囲;黒い正方形、異常値。
【0081】
[00117] 試料SEQC A−RT1、A−RT2、B、C間で測定された遺伝子標的
(n=88)を、遺伝子間の差次的発現(DE)に関して評価した(
図4A);DEの変化は1.5〜3.0、2〜3、3〜5、5〜10倍、または10倍より大きかった。偽陽性または陰性変化に関する対照は、SEQC A−RT1をSEQC A−RT2に対して比較することにより評価された。試料AおよびBに基づく予想値に対して比較した試料Cにおける差次的発現を示す要約統計を
図4B−表1において示す。
【0082】
[00118] 逆転写間のアッセイの再現性を
図5において示す。SEQC試料Aの2つの
逆転写(RT1対RT2)を、
図1における性能基準にうまく合格した119種類の遺伝子標的の発現に関して測定した。その119種類の遺伝子標的の内で、97種類はそれぞれの標的の等量点および濃度を決定するためのヒル方程式の曲線当てはめに関してR
2>0.95を有していた(
図2)。
【0083】
[00119]
図3および
図4におけるデータと同じデータが
図6において示されている。
試料Cにおける予想された測定値(x軸)対観察された測定値(y軸)。SEQC試料Cの逆転写を、
図1における性能基準にうまく合格した119種類の遺伝子標的の発現に関して測定した。その119種類の遺伝子標的の内で、88種類はそれぞれの標的の等量点および濃度を決定するためのヒル方程式の曲線当てはめに関してR
2>0.95を有していた(y軸)(
図2)。
【0084】
[00120]
図5からの97種類の遺伝子標的の収束および増大した均一性を
図7におい
て示す。X軸上にプロットされているのは最高存在量の鋳型と比例する
図5からのデータである。Y軸上にあるのは遺伝子標的が最高の配列鋳型と比例している配列の読みの実際の比率である。測定および正確性は圧縮されていないが(
図4〜6)、遺伝子標的の75%は互いに対して10倍以内の配列決定の読みの存在量であることを特筆する。すなわち、配列決定深度がおおよそ1000倍から下は10倍まで低下した。これは、直接的な配列決定の費用における100倍の減少に相当する。
【0085】
[00121] Bullard et al. BMC Bioinformatics 2010, 11:94からのIlluminaプラットフォームを用いたRNA配列決定に関して3倍より大きい変化を検出するためのROC曲線を
図8において示す。
図4Bと比較して、このROC曲線は3倍より大きい変化を検出するためのRNA配列決定の約75%の正確性を表す。一方で本明細書で記載される標準化されたqNGSは97%より大きい正確性を有する(
図4B)。その標準化されたqNGS法は天然標的間の1000倍の比率の差にわたる3倍の変化を正確に検出するために10倍の配列決定深度を利用したことを特筆すべきである。対照的に、伝統的なRNA配列決定は同様の正確性に到達するために100倍多くの読みを必要とするであろう。一例において、標準化されたqNGS法を用いて97個の遺伝子を正確に定量化するために500万の配列決定の読みが利用された。これと比較して、伝統的なRNA配列決定は正確な定量化のために優に5億を超える読みを必要としたであろう。
【0086】
[00122] 実施例2
[00123] 内部標準混合物を用いたPCRに駆動されるライブラリー調製後の定量的配
列決定は分析性能を向上させており、費用を低減する。
【0087】
[00124] 次世代配列決定(NGS)ライブラリーの調製の間に技術的変動の主な源と
して導入される非系統的偏りは、NGSの臨床設定における核酸存在量の測定への適用を妨げてきた。
【0088】
[00125] 現在のqPCR臨床診断の費用はそれらが用いる化学(通常は蛍光性)の費
用に固定されており、それらが調べている核酸標的の数と線形の関係がある。さらに、それぞれのアッセイ標的は別個の反応容器および多数の対照を必要とし、それは手が出ないほどに高価になり得る。これらの累積費用が多数の核酸標的の測定に基づくより複雑な臨床診断の出現を妨げている。多重化された核酸標的存在量測定に関するより対費用効果の高い代替策は、既存の遺伝子パネルを乱すことなく高い対費用効果で新規のアッセイ標的をオンラインにすることにおいて柔軟ではなく、または定量的なデータの標準化およびサイト間再現性を受け入れられない。NGSは多数の患者試料および核酸標的の対費用効果の高い高度に多重化された定量分析を受け入れられるが、サイト間での定量的NGSの結果の比較を可能にし、正確に核酸存在量を測定するための深い配列決定に関する必要性を回避するための効率的な方法に関する必要性が存在する。
【0089】
[00126] この実施例において;競合内部増幅対照(IAC)混合物(すなわち内部標
準)を組み込んだPCRに基づくNGSライブラリー調製のプロトコルは、NGSライブラリー調製の間に導入される偏りの大部分に関して対照し、臨床実験室が定量的NGSデータから対費用効果の高い適度に複雑な診断パネルを提供することを可能にした。
【0090】
[00127] FDAに出資された配列決定品質管理(SEQC)計画において用いられた
参照物質RNA用量設定プールを得た(試料A、B、CおよびD)。SEQC計画のRNA試料CおよびDはSEQC計画のRNA試料AおよびBの間の既知の交差用量設定に相当するため、SEQC発現の値を発現に関する測定値および予想値と比較してその方法の正確性を決定することが可能である。150種類の遺伝子標的に関するプライマーおよび競合IACを用いた多重PCRを用いて、以下のものからNGSライブラリーを調製した:1)一般的な分析性能を試験するためのgDNA、および2)正確性を決定するための逆転写されたSEQC参照物質からのcDNA。
【0091】
[00128] 結果:
[00129] 入力としての系列用量設定された競合IAC混合物と混合されたgDNAを
用いて、10
6の桁にわたる線形ダイナミックレンジを平均R
2=0.995(0.993−0.997;95%CI)で観察した。試料Cに関する予想値対観察値の相関係数はR
2=0.96であり、試料Dに関する予想値対観察値の相関係数はR
2=0.94であり、ROC曲線により決定された3倍の変化を検出する正確性は97%(95〜99%;95%CI)であった。わずか400,000の配列決定の読みに基づく測定のサイト間の相関係数は、天然標的間の存在量の約10
5の桁の線形ダイナミックレンジにわたってR
2=0.92であった。
【0092】
[00130] 本明細書で記載される方法は、NGSライブラリー調製の間に導入される非
系統的偏りの重要な源を克服する。これは、再現性のある実験室間およびプラットフォーム間の定量的NGSの結果、ならびに臨床診断適用に関する規制上の承認への明確な道を可能にする。
【0093】
[00131] 本明細書で記載される方法(内部増幅対照(IAC)を用いるNGS)は、
定量的次世代配列決定(NGS)データのサイト内およびサイト間再現性を提供する。本明細書で記載される方法は、稀な核酸標的および高存在量の核酸標的の両方を十分に配列決定するために必要な読みの数を収束させることにより、深い配列決定に関する必要性、
従って直接的な配列決定の費用も低減する。
【0094】
[00132]
図9は、内部増幅対照(IAC)の混合物を含むPCRマスターミックスの
略図を提供する。そのIACはライブラリー間、サイト間の基準の役目を果たす。そのIACは長期間(例えば数年間)安定である。そのIACの混合物はPCRの偏りに関して対照し、既知の濃度で存在する。標的特異的プライマーの混合物には、反応あたり数百種類の標的が含まれる。その標的特異的プライマーはユニバーサルテールを含有する。
【0095】
[00133]
図10A〜10Bは、gDNAおよびSEQC cDNAに対する内部増幅
対照の混合物の用量設定を示すグラフである。そのプロットは酵素系の阻害に関する用量反応曲線の形式である。Taqポリメラーゼがその酵素である。阻害剤は競合内部増幅対照(IAC)の濃度である。その用量反応を、天然ゲノムDNA(gDNA)または天然相補DNA(cDNA)標的に関して観察された配列決定の読み対天然およびIACの配列決定の読みの合計の比率として測定する。gDNAプロットは、150種類の設計された遺伝子標的の119種類(約80%のアッセイ設計成功率)を表す。3パラメーター固定傾きヒル方程式のその119アッセイのそれぞれへの当てはめに関する平均相関係数は、R
2=0.995(0.993−0.997;95%CI)であった。
【0096】
[00134] 平均IC50(50%阻害濃度)は10
4.98であり、入力されたgDA
Nコピー数は10
5であった。従って、内部増幅対照の混合物の用量設定は、核酸の複雑な混合物のコピー数の測定の相対的ではない真の正確性を提供する。
【0097】
[00135]
図10〜11(結果1)において、そのcDNAプロットは119の作動(
working)遺伝子標的アッセイの内の110を表す。9(9)のアッセイは天然標的ならびに内部増幅対照の両方に関して少なくとも1つの配列決定の読みの不十分な読みの深度を有していた。平均IC50(50%阻害濃度)をSEQC試料A、B、CおよびDにおいてそれぞれの核酸標的に関して様々な条件下で決定し、その後の実施例において用いた;以下に関して結果の比較を実施した:
[00136]
図12(結果2)は同じライブラリー調製の複製の配列決定(サイト内)を
示し、ここでX軸=180万の配列決定の読みであり、Y軸=300万の配列決定の読みである。
【0098】
[00137]
図13(結果3)は配列決定された別個のライブラリー調製(サイト内)を
示し、ここでX軸=260万の配列決定の読みであり、Y軸=480万の配列決定の読みである。
【0099】
[00138]
図14A〜14B(結果4)は試料AおよびBの測定値(サイト内)に基づ
く試料CおよびDの測定値の予測を示し、ここでX軸=1520万の配列決定の読みであり、Y軸=490万の配列決定の読みである。
【0100】
[00139]
図15(結果5)は、異なるサイトで配列決定された別個のライブラリー調
製(サイト間)である測定値の実験室間比較(サイト間)を示し、ここでX軸=260万の配列決定の読みであり、Y軸=40万の配列決定の読みである。
【0101】
[00140]
図16A〜16B(結果6)は
図13(結果4)に基づく変化の倍率を正確
に検出するための受信者曲線を示し、これは
図14−結果4に基づく差次的発現を呼ぶための受信者曲線を示す。
【0102】
[00141]
図17(結果7)は、PCRに駆動されるライブラリー調製は必要な読みの
深度を低減する天然標的濃度に収束することを示す。PCRに駆動されるライブラリー調
製の間の天然鋳型アンプリコン濃度の収束は、全ての標的を十分に配列決定ための配列決定の読みの数を低減する。内部増幅対照は、鋳型濃度の収束にもかかわらずそれぞれの核酸標的を正確に測定するためのPCRに駆動される配列決定ライブラリーの調製の開始時に必要な基準点を提供する(
図12〜16−結果2〜6参照)。この実施例において、直接的な配列決定深度が1000倍低減され、全ての標的は互いの100倍以内である。
【0103】
本明細書で記載される方法には内部増幅対照を用いたPCRに駆動されるNGSライブラリー調製に基づく中程度の複雑性の臨床パネルの使用が含まれることは本開示の意図される範囲内であることも理解されるべきである。限定的でない例には、以下に関するパネルが含まれる:肺癌危険性試験(15遺伝子);肺癌診断試験(4遺伝子);肺癌化学抵抗性試験(20遺伝子)、およびBCR−ABL融合転写産物試験(2遺伝子)。
【0104】
[00142] 実施例3
[00143] 標準化されたRNA配列決定(STARSEQ)
[00144] 標準化されたRNA配列決定(STARSEQ)を、2つの別個の参照物質
を用いて評価した:1)トレド大学医療センター(UTMC)の施設内治験審査委員会により承認されたプロトコルに従うUTMCにおける表現型が正常な人の血液に由来するゲノムDNA(gDNA)(匿名化された723の試料)、および2)FDAに出資された配列決定品質管理(SEQC)計画(以前のMAQCコンソーシアム)により提供された4種類の参照RNA試料(A、B、CおよびD)。試料AはStratageneから得られたユニバーサルヒト参照RNAからなる。試料BはAmbionから得られたヒト脳参照RNAからなる。SEQC計画に関して、次いで試料AおよびBをそれぞれAmbion外部RNA対照コンソーシアム(ERCC)スパイクイン(Spike−In)対照RNA混合物1および2と、総RNA濃度に基づいて試料AおよびB中で2%の終濃度を達成するように組み合わせた。
【0105】
[00145] それぞれのERCC RNA対照のスパイクイン混合物は、10
6より大き
いダイナミックレンジにわたる同じ対照を含有しているが、異なる配合においてである。それぞれの配合混合物内には4つの部分群があり、それは混合物1および2の間で存在量において既知の倍率の差異を示す:0.5倍、0.67倍、1.0倍および4.0倍の差異。次いで試料AおよびBを3:1および1:3の比率の混合物において組み合わせてそれぞれ試料CおよびDを作成した。gDNA“参照”物質は、内在性標的の大部分が互いに対して1:1に非常に近い比率である試料を表す。一方で、試料A〜Dは、方法の分析性能特徴を10
6倍より大きい存在量のダイナミックレンジにわたって評価するためのグラウンドトルースベンチマークとして用いることができる、合成(ERCC対照)および内在性RNA標的の既知の比率での複雑な混合物を表す。
【0106】
[00146] RNA参照物質の逆転写
[00147] それぞれ10マイクログラムの1μg/μLの濃度の試料A〜D参照RNA
物質をFDAに出資されたSEQC計画から得た(fda.gov/科学研究/生物情報学ツール/マイクロアレイ品質管理計画)。それぞれの試料に関して2μg分割量のRNAを逆転写した。それぞれの逆転写反応はSuperscript III逆転写(Life Technologies)およびオリゴ(dT)プライミングに関する製造業者のプロトコルを用いて90μL体積で行われた。逆転写後、それぞれの試料に関する2つの90μLのcDNA生成物を組み合わせて単一の180μL体積にした(逆転写1;RT1)。試料Aに関して、2つの2μg分割量のRNAの追加のセットを別個のマスターミックスを用いて逆転写した(逆転写2;RT2)。
【0107】
[00148] STARSEQアッセイ標的の選択
[00149] マイクロアレイ品質管理(MAQC)コンソーシアムは以前に多重qPCR
およびマイクロアレイプラットフォームの性能を評価するために1,297遺伝子のリストを選択した。このリストから、STARSEQアッセイを開発するために150種類の内在性標的を選択した。これらの150のアッセイは、部分的にはそれらが表す遺伝子標的が10
6より大きいダイナミックレンジにわたって発現しているために選択された。これらの試薬を用いて、gDNAおよび逆転写された参照RNA試料A〜D中のそれぞれの遺伝子標的の絶対的ならびに相対的な比率を測定した。加えて、92種類の外部RNA対照コンソーシアム(ERCC)標的の内の28種類もSTARSEQアッセイを開発するために選択した。
【0108】
[00150] STARSEQプライマーの設計および合成
[00151] 順方向および逆方向PCRプライマーを、ヒトゲノム中の150種類の独特
に転写される遺伝子および28種類のERCC標的のそれぞれに関する対応する101bpのアンプリコン領域に対して設計した。それぞれの順方向および逆方向プライマーのセットは、Primer3ソフトウェア(Untergasser et al, NAR, 2012)を用いて一様な68℃の融解温度を有するように設計された。標的以外へのプライミングを最小限にするため、プライマー対の特異性をGenomeTester 1.3を用いて検証し、大きさが1000bp未満のあらゆる追加のアンプリコンを同定した。それぞれのプライマーはヒトゲノム中に存在しないユニバーサルテール配列も含有し、それはマルチテンプレートPCRでのバーコードおよびプラットフォーム特異的配列決定アダプターの追加のために用いることができる。順方向ユニバーサルテールは整列されたプライマー伸長(arrayed primer extension)のために用いられるアダプター(APEX−2)と配列が同じであり、一方で逆方向テール配列は最後の4つの3’塩基を除いて順方向テール配列と同じであり、それは配列決定の間に方向性を可能にする。150種類の内在性標的および28種類のERCC標的に関するユニバーサルテールを有する標的特異的プライマーは、それぞれIntegrated DNA Technologies(IDT)およびLife technologiesにより合成された。内在性またはERCC標的に関するプライマープールを、合成されたプライマーを当モル比で組み合わせ、希釈トリス−EDTA緩衝液中でそれぞれのプライマーに関して50nMの最終作動濃度に希釈することにより作製した。
【0109】
[00152] STARSEQ競合内部標準混合物の設計および合成
[00153] それぞれの101bpの競合内部標準(IS)を、それらのそれぞれの天然
核酸標的と同一の標的特異的プライミング部位を保持するように設計した(
図18A〜18B)。配列決定後のデータ分析の間に競合ISをその対応する天然標的と区別することができるように、これらの同一のプライミング部位の内側に6ヌクレオチドの置換がある。内在性標的に対応する150種類の競合ISはIntegrated DNA Technologies(IDT)により合成され、ERCC標的に対応する28種類の競合ISはLife technologiesにより合成された。
【0110】
[00154] 内在性標的に対応する150種類の競合IS鋳型に関して、濃度がIDTに
おいて光学密度により測定され、続いてそれをこれらの測定に基づいて1:1の化学量論モル比で組み合わせた。それぞれのISの濃度を、100,000コピーの一定のgDNA入力と比較したその混合物の交差用量設定により実験的に決定した(ID723)。表現型上健康な人からのgDNAにおいて、ここで座位の大部分は互いに対して1:1の比率であり、これはそれぞれの競合IS鋳型に関する実際の濃度を決定するための妥当かつ対費用効果の高い参照物質を提供するであろうと信じられている。
【0111】
[00155] ERCC標的に対応する28種類の競合IS鋳型に関して、そのような標準
化のための参照物質は存在しない。従って、それぞれの標準を(ユニバーサル配列を有しない)順方向および逆方向プライマーで別々に増幅し、カラム精製し(QIAquick
PCR精製キット)、可視化し、101塩基におけるただ1つのピークに関してAgilent 2100 Bioanalyzer上でDNAチップをDNA 1000キットの試薬と共に製造業者のプロトコルに従って用いて定量化した(Agilent Technologies Deutschland GmbH、ヴァルトブロン、ドイツ)。次いで定量化した標準を1:1の化学量論モル比で組み合わせて内部標準(IS)のストック濃縮混合物を作製した。次いで競合ISの内在性およびERCC標的混合物の両方を作動濃度に系列希釈し、全てのその後の実験において試料A〜D中のそれぞれの転写産物の絶対コピー数を定量化するための参照混合物として用いた(
図18A〜18B)。
【0112】
[00156] ユニバーサルテールを有する標的特異的プライマーを用いた多重競合PCR
[00157] それぞれの多重競合ポリメラーゼ連鎖反応(PCR)に関して、以下のもの
を含有する10μLの反応体積を調製した:1μLの天然鋳型、1μLの様々な入力濃度における競合IS混合物、1μLの対応するプライマー混合物、1μLの2mM dNTP、1μLの10×Idaho Technology反応緩衝液(30mM MgCl
2を含む)、0.1μLのPromega GoTaqホットスタートTaqポリメラーゼ(5u/μL)および4.9μLのRNAアーゼを含まない水(
図18A)。ゲノムDNAを150種類の内在性標的に相当する競合IS混合物の系列希釈した混合物を含有する10個の別個の多重PCR反応中にスパイクした。これらの10個の希釈は、2×10
6〜10
3コピーの存在量の装填の範囲のIS混合物の一連の3倍希釈に相当する。RT1に関する試料A〜DのcDNAを、28種類のERCC標的に相当する競合IS混合物の系列希釈した混合物を含有する5つの別個の多重PCR反応中にスパイクした。これらの5つの希釈は、IS混合物の一連の希釈に相当する:10
6、10
5、10
4、10
3および300コピーの装填。試料A(RT1およびRT2)、B、CおよびDに関する逆転写されたRNAを、150種類の内在性標的に相当する競合IS混合物の系列希釈した混合物を含有する12個の別個の多重PCR反応中にスパイクした。これらの12個の希釈は、6×10
7〜3.4×10
2コピーの存在量の装填の範囲のIS混合物の一連の3倍希釈に相当する。合計17μLのそれぞれのcDNA試料が多重競合PCRの間に消費され、これはそれぞれの試料に関して約377ngのRNAに対応する。
【0113】
[00158] 標準化されたRNA配列決定(STARSEQ)の作業の流れおよびデータ
分析
[00159]
図18A NT=天然標的(例えばcDNA、gDNA等);IS=内部標
準、a)プライマー配列において特定の天然標的に相同であり、従ってその天然標的と増幅に関して競合するが、b)そのプライマー部位に対して内側に1個以上の塩基置換を含有し、従ってその天然標的と識別することができる、ssDNAまたはdsDNA分子。それぞれの遺伝子に関するIS鋳型は、内部標準混合物中の他の遺伝子に関するISに対して固定された関係にある。
【0114】
[00160]
図18Bは、a)それぞれのNTおよびそのそれぞれのISの間の競合がそ
れぞれのNTに関する元の濃度を保ち、そしてb)そのISは互いに対して固定された関係にあるため、元の試料中の天然標的間の比例関係が増幅および配列決定の間に保たれていることを示す。その元の試料中の天然標的の存在量の決定は、NTおよびISに関する配列決定計数の比率(NT:IS)にそのアンプリコンライブラリー調製中に装填された内部標準(IS)の濃度を掛けることにより得られる(すなわち等量点の決定)。少なくとも3つの希釈点にわたって値を測定できなかった天然標的は示していない。
図18B−上のパネル:123種類の標的に関する一定量のゲノムDNA(gDNA)による競合内部標準混合物の交差用量設定の線形性を示す。点線はNT:IS比の値に関する95%予測区間を表す。
図18B−中央のパネル:試料A、B、CおよびDからの一定量の26種類のERCC天然標的による競合内部標準混合物の交差用量設定の線形性を示す。それぞれのERCC標的は、存在量における10
6より大きいダイナミックレンジにわたる異な
る濃度である。
図18B−下のパネルは、試料A、B、CおよびDからの一定量の内在性cDNA天然標的(gDNAにおいて評価されたものと同じ標的;上のパネル)による競合内部標準混合物の交差用量設定の線形性を示す。
【0115】
[00161] 多重競合PCRによるタッチダウンPCR
[00162] 多重PCRのレベルを増大させることは、用いるプライマーの濃度における
釣り合った減少を必要とする。プライマー濃度を減少させることは、多重PCRにおいて2つの主な作用を有する:1)プライマーダイマー産物の形成を低減し、そして2)プラトーなアンプリコン産物形成が早期にdNTPが限られた試薬になるのを防ぐ(プライマーがより少ない方法)。この後者の作用は、それが全ての標的鋳型がプラトー相に達することを可能にし、競合ISの存在下でシグナル圧縮なしで高存在量標的の過剰標本抽出/配列決定を大幅に低減するため、重要である(
図19A〜19C、
図20A〜20B)。
【0116】
[00163] STARSEQはシグナル圧縮なしで過剰標本抽出を低減する
[00164]
図19Aは、仮定のcDNA試料内の2種類の天然標的(NT)を示す。1
つの天然標的は高存在量、10
8コピーであり(“豊富な”NT)、一方で別の天然標的は低存在量、10
2コピーであり(“稀な”NT)、これは標的間の存在量における100万倍の差を表す。この仮定のcDNA試料を、10
5コピーにおける固定された濃度の関係を有する内部標準(IS)の混合物と組み合わせる。
【0117】
[00165]
図19Bは、
図19Aに関する多重競合PCRライブラリー調製を示す。“
豊富な”および“稀な”NTの両方に関するPCR増幅プロットは明確さの目的のために分けられているが、同じ反応において起こっている。多重競合PCRの間、それぞれの天然標的はdNTP、ポリメラーゼおよび限られた濃度のプライマーに関してそのそれぞれの競合内部標準と等しく競合する。それぞれの標的のプライマー対の出発濃度は同じであるため、それぞれの競合反応はおよそ同じ終点濃度(約10
9コピー)でプラトーになるであろう。
【0118】
[00166]
図19Cにおいて、それぞれのNTおよびそれぞれのISの間の等しい競合
は元の試料中の天然標的間の比例関係を保ち、これはシグナル圧縮なしでの天然標的存在量の測定を可能にする。なお、鋳型の10
6倍の範囲が多重競合PCRライブラリー調製後に10
3まで低減し、結果として高存在量標的の過剰標本抽出における1,000倍の低減がもたらされる。
【0119】
[00167] 天然標的の試料を多数の比率でIS混合物と混合すること(
図18A)は、
結果としてただ1つの内部標準のスパイクインにより得ることができるよりも大きな程度の鋳型濃度における均一性をもたらす(
図19A)。
【0120】
[00168] STARSEQは必要とされる配列決定の読みを10,000倍まで低減す
る
[00169]
図20Aは、ERCC(n=104)および内在性(n=400)cDNA
標的に関する実際の比例した配列決定データを示す。X軸は最低存在量の標的(10
0に設定された)に対して標準化されたライブラリー調製におけるそれぞれの標的の比例した存在量を表す。Y軸は最低存在量の標的を少なくとも1回配列決定するために必要とされる比例した配列決定の読み(カバー度(coverage))の単位における。
【0121】
[00170]
図20Bは
図20Aの表にした要約であり、ここで配列決定の読みの数は全
ての標的を少なくとも1回観察するための全ての配列決定の読みの合計を表す。伝統的なRNA配列決定の読みの必要とされる数は、そのライブラリー中に存在する標的のコピー数および必要とされる配列決定のカバー度の間の仮定された1:1関係に基づいて計算さ
れる。STARSEQによる必要とされる配列決定の読みにおける低減の倍率は、伝統的なRNA配列決定およびSTARSEQ配列決定の読みの商である。
【0122】
[00171] しかし、プライマーを希釈してなお対象の標的をうまく増幅することができ
る限界が存在する。この限界は、いくつかのアプローチを通して押し下げることができる:1)プライマーの融解温度を高める、および2)その間にアニーリングが起きて最終的なプライマー結合を可能にする時間を増大させる。これらの解決策の両方が標的以外へのプライミングを悪化させ得る。ここで本明細書においてこの明らかな障害を修正されたタッチダウンPCRプロトコルの使用により改善することができることを示す。このプロトコルでは、プライマー結合のストリンジェンシーを増大させて標的以外へのプライミングを低減するために、高いアニーリング温度がPCRの最初のサイクルの間に組み込まれる。その後のサイクルにおいてアニーリング温度を徐々に低くして、より早期の高ストリンジェンシーサイクルの間に一度十分な特異的な産物が形成されると、結果として増大した収量がもたらされる。この枠組みを用いて、以下のプロトコルを開発した:それぞれの多重競合反応混合物に対してair thermocycler(RapidCycler(Idaho Technology,Inc.アイダホ州アイダホフォールズ))中で修正タッチダウンPCR条件下で低いプライマー濃度を用いて以下のサイクルを行った:95℃/3分間(Taq活性化);94℃/30秒間(変性)、72℃/4分間(アニーリング)、および72℃/15秒間(伸長)を5サイクル;アニーリング温度を1℃下げて71℃にして5サイクル繰り返す;1℃下げて5サイクル行う操作をアニーリング温度が64℃になるまで繰り返す(合計45サイクル)。
【0123】
[00172] 特定の態様において、そうしなければプライマーダイマー産物のみが観察さ
れるであろう反応調製の間には標的以外へのプライミングおよび酵素活性が十分に高いため、ホットスタートTaqポリメラーゼが用いられる。
【0124】
[00173] ERCC参照物質を用いたSTARSEQの性能
[00174]
図21Aは試料A、B、CおよびDにおけるERCC標的の存在量の測定さ
れたシグナルを示す。点はNTおよびISの両方に関して少なくとも15の配列決定の読みを有するそれらのライブラリー調製からのERCC測定値の中央値を表す。X軸の単位は、ERCCスパイクイン対照の既知の濃度に関するAmbion製品文献、SEQCプロジェクトの物質調製プロトコル、およびそれぞれの標的に関する仮定された100%の逆転写収率に由来する。
【0125】
[00175]
図21Bは、ERCC IDにより数値的に並べた
図21Aにおけるデータ
の差のプロットを示す。示されているそれぞれのERCC標的は4種類の試料A〜Dの全てにおいて少なくとも1回測定された。明確さの目的のため、ERCC−170を
図21Aおよび
図21Bにおいて橙色で強調している。
【0126】
[00176]
図21Cにおいて、試料CおよびDは試料AおよびBからの総RNAのそれ
ぞれ3:1および1:3混合物に相当する。これらの比率を用いてAおよびBの測定値から試料CおよびDに関する予想される測定値を計算し(x軸)、試料CおよびDの実際の測定値(y軸)に対してプロットした(n=52)。
【0127】
[00177]
図21Dにおいて、点はNTおよびISの両方に関して少なくとも15の配
列決定の読みを有する少なくとも2個のIS希釈点を有するそれらのアッセイに関するSEQC A、B、CおよびDにおけるERCC標的の測定値における標準偏差を表す。赤い線は、ポアソン標本抽出分布+ベースライン0.08技術的複製標準偏差に基づく予想される標準偏差を示す。
【0128】
[00178]
図21Eは、95%信頼区間を有する対応する曲線下面積(AUC)により
変化の倍率を検出するためのROC曲線を示す。ROC曲線は試料中のERCC標的の差次的比率下位プール(subpools)の比較に由来する:A対B、A対C、A対D、B対C、B対DおよびC対D。1.1倍変化に関する結果は、次の差次的比率下位プールの範囲を現す:[1.05〜1.174](対照n=100、試験n=96);1.25[1.175〜1.374](対照n=163、試験n=163);1.5[1.375〜1.74](対照n=229、試験n=227);2.0[1.75〜2.49](対照n=229、試験n=223);≧4.0[2.5〜10.0](対照n=286、試験n=290)。
【0129】
[00179] 内在性cDNA標的を用いたSTARSEQの性能。
[00180] ライブラリー調製あたりのコピー数の単位での試料A中のcDNA標的の絶
対シグナル存在量を、別々の日、異なるサイト(OU=オハイオ大学;UTMC=トレド大学医療センター)において、そして異なる逆転写調製(RT1およびRT2)の間で測定した。点はNTおよびISの両方に関して少なくとも15の配列決定の読みを有するそれらのライブラリー調製からのERCC測定値の中央値を表す。
図22Aは日の間の作用を示す(n=88)。
図22Bは日の間およびサイト間の作用を示す(n=81)。
図22Cは日の間およびライブラリー間の作用を示す(n=92)。
図22Dは、日の間、サイト間およびライブラリー間の作用を示す(n=80)。
図22E〜22Fは、試料CおよびDが試料AおよびBからの総RNAのそれぞれ3:1および1:3混合物に相当することを示している。これらの比率を用いてAおよびBの測定値から試料CおよびDに関する予想される測定値を計算し(x軸)、試料C(n=86)およびD(n=90)の実際の測定値(y軸)に対してプロットした。
【0130】
[00181] STARSEQのTaqMan qPCRおよびIllumina RNA
配列決定との交差プラットフォーム比較。
[00182] STARSEQおよびTaqMan qPCR(
図24はTaqManおよ
びSTARSEQ測定の間の差のプロットを示す)またはIllumina RNA配列決定(
図25はIllumina RNA配列決定およびSTARSEQ測定の間の差のプロットを示す)の間の試料AおよびBの測定値に関する差の平均をそれぞれの内在性標的に関して決定した。この差をTaqMan qPCRまたはIllumina RNA配列決定の試料CおよびDに関する測定値から減算し、CおよびDのSTARSEQ測定値(y軸)に対してプロットした(x軸)。
【0131】
[00183] STARSEQ測定値はNTおよびISの両方に関して少なくとも15の配
列決定の読みを有するライブラリー調製からの測定値の中央値を表す。
図26Aは、TaqMan qPCRのSTARSEQとの比較を示す(n=292)。
図26Bは、Illumina RNA配列決定のSTARSEQとの比較を示す(n=340)。
【0132】
[00184] アッセイ性能
[00185]
図26において示されるように、アッセイ測定性能をERCCならびに内在
性cDNA標的に関するSEQC試料A、B、CおよびDにおいて評価した。内在性標的はgDNA対照に対しても評価した(
図18B参照)。
【0133】
[00186] 真陰性の測定結果は、全ての内部標準のスパイクイン濃度にわたって十分な
数の競合内部標準が配列決定された(少なくとも15回配列決定された)が不十分な天然鋳型が観察された場合に生じる。これらのアッセイに関する発現の上限は、なお存在する最も低いIS濃度を用いて[1/(ISの配列決定の計数)]×そのライブラリー調製中に装填されたISの濃度として計算することができる。これらの測定結果は真陰性の測定結果を表し、正確な定量化の下限をこれらのデータから決定することができる。
【0134】
[00187] 失敗したアッセイは、NTおよびISの両方に関して“配列決定深度が低す
ぎる”測定結果である。これらは真のアッセイの失敗(天然も内部標準も少なくとも15回配列決定されなかった)を表す。この方法では、競合IS混合物は偽陰性の報告に関して対照することができる。
【0135】
[00188] バーコードおよび配列決定アダプターの添加
[00189] 融合プライマーのセットを、それらの3’末端が多重競合PCRの間に付加
されたユニバーサルAPEX−2配列テールに相補的であるように設計した。これらの融合プライマーは、4ヌクレオチドのインデックス/バーコード配列およびそれに対して5’側に順方向または逆方向ion torrentアンプリコン配列決定アダプターのテールを有する(
図26)。順方向および逆方向配列決定プライマーの両方が、それぞれの試料に二重に指標を付け、配列の読みに誤った指標を付ける可能性を低減するために意図的にバーコード付加されている;両方のバーコードは一致していなければならない。それぞれのバーコード付加反応に関して、以下のものを含有する10μLの反応体積を調製した:1μLの多重競合PCR産物、1μLの1μM順方向および逆方向バーコード付加プライマー、1μLの2mM dNTP、1μLの10×Idaho Technology反応緩衝液(30mM MgCl
2を含む)、0.1μLのPromega GoTaqホットスタートTaqポリメラーゼ(5u/μL)ならびに4.9μLのRNAアーゼを含まない水。それぞれのバーコード化反応に対してair thermocycler(RapidCycler(Idaho Technology,Inc.アイダホ州アイダホフォールズ))中で以下の条件下でサイクルを行った:95℃/3分間(Taq活性化);94℃/5秒間(変性)、58℃/10秒間(アニーリング)、および72℃/15秒間(伸長)を15サイクル。反応容器をすぐに取り出し、すべてのその後の工程の間4℃で保つ。この工程の間の目標は、バーコード付加された産物のヘテロ2量体化を防ぐことである。ヘテロ2量体化のタイプに応じて、配列決定後の整列のエラーが偽の配列決定の塩基の判定(calls)から生じる可能性があり、結果として測定の精度および正確性が低下する。次いで新しくバーコード付加された多重競合PCR配列決定ライブラリーをAgilent 2100 Bioanalyzer上でDNAチップをDNA 1000キットの試薬と共に製造業者のプロトコルに従って用いて定量化する(Agilent Technologies Deutschland GmbH、ヴァルトブロン、ドイツ)。次いで独特にバーコード付加された配列決定ライブラリーを、それぞれのライブラリーが最終的に受け入れるであろう配列決定の読みの百分率を最適化するように既知の化学量論比で混合し;ほとんどの場合1:1が用いられる。
【0136】
[00190] STARSEQ“真陰性”対TaqmanおよびRNA配列決定
[00191] 26のSTARSEQ測定結果は、測定未満(less than mea
surement)の報告を戻す(report back)ために十分なデータを有していた。その26の測定の内で、TaqManは14に関して未検出(ND)を報告し、RNA配列決定は1に関してNDを報告した(
図27参照)。STARSEQはISを検出することができたが、存在するNTを正確に定量化することはできなかったため、これらはTaqManおよびRNA検出に関する偽陰性の検出を表す。測定未満は[1/(ISの配列決定の計数)]×そのライブラリー調製中に装填されたISの濃度として計算された。
【0137】
[00192] ERCC測定値の標準偏差。
[00193]
図28は、差のSDが
図21中に存在するデータから計算されることを示す
。アッセイ内試料内SDは、それぞれの試料A〜D内のアッセイ内SDの中央値から計算される。アッセイ内試料間SDは、試料A〜Dにわたるアッセイ内SDの中央値から計算される。アッセイ間試料間SDは、試料A〜Dにわたる残差(residuals)のア
ッセイ間SDの中央値から計算される。そのSDはLog
10値で報告されるため、それは変動係数(CV)の報告とおおよそ同等である。
【0138】
[00194] 産物の精製および配列決定
[00195] 特定の態様において、バーコード付加された配列決定ライブラリーの精製の
間にシステムが強い変性剤またはカオトロピック塩類、例えば塩酸グアニジンまたはチオシアン酸グアニジンを用いないことが必要である。これらの薬剤は結果として下流の鋳型のヘテロ2量体化、偽の配列決定の塩基の判定および配列決定後のアラインメントのエラーをもたらす。この理由のため、それぞれのバーコード付加された配列決定ライブラリーの混合物をLife Technologies E−Gel SizeSelect 2%アガロースゲルを用いて精製し、それは変性剤またはカオトロピック塩類の使用を報告しておらず、電気泳動による分離の間の熱変性を防ぐために冷蔵室中で運転することができる。次いで精製された配列決定ライブラリーをIon Torrent配列決定プラットフォームのためのKAPAライブラリー定量化キット(Kapa Biosystems)を用いて定量化した。この定量化に基づいて、ライブラリーを適切に希釈し、トレド大学医療センター(UTMC)、オハイオ州トレドおよびオハイオ大学(OU)、オハイオ州アセンズにおいて製造業者の推奨に従ってIon Torrent PGM配列決定サービスのために調製した。
【0139】
[00196] FASTQファイル処理
[00197] NGSサービスからの生の配列決定データはFASTQ形式で提供されて戻
された。配列決定の読みを抽出し、それぞれの配列決定の読みを3つの別個のFASTQファイルに解析する(parsed):1)順方向(query-barcode.fastq)および2)
逆方向バーコード(query-revbarcode.fastq)領域、ならびに3)標的特異的プライミング部位に対して内側の領域に対応するアンプリコンの中央部分(query-subject.fastq)
、ここで6ヌクレオチド置換がNTおよび対応する競合ISの間に存在するはずである。
【0140】
[00198] 対象データベースに対する配列のBFAST
[00199] その3つのFASTQファイルのそれぞれを、それがバーコード(barcode.fa)であるか、またはアンプリコン領域(subject.fa)であるかに対応する既知の参照F
ASTAデータベースと、BLAT様の速い正確な検索ツール(BFAST、バージョン0.7.0a)を用いてアラインメントし、配列アラインメント/マップ(SAM)形式でファイルを出力した。インデックスデータベースに対するBFASTのマッチおよびSAMファイルの出力を、1)順方向バーコード、2)逆方向バーコードおよび3)捕捉したアンプリコン対象配列を含有するトリミングしたFASTQファイルに関して実施した。
【0141】
[00200] 配列係数のビニング(Binning)
[00201] 次いで配列の読みのIDをマッチングのための鍵として用いて1)順方向お
よび2)逆方向バーコード、ならびに3)アンプリコン領域からの3つのSAMファイルのそれぞれを合わせて実用的な抽出および報告言語(PERL)ハッシュテーブルにした(http://www.perl.org/)。バーコードおよびアンプリコンのアラインメントに基づいて、それぞれの配列決定の読みをビンして(binned)、所与の試料調製に関するIS入力濃度およびそれがBFASTアラインメントによりNTと判定されるかまたはISと判定されるかに対応するアレイにした。順方向および逆方向バーコードアラインメントの判定が一致しなかった場合、その配列の読みはビンされなかった。結果として得られたビンされた配列決定の読みのハッシュテーブルはカンマで区切られた形式で出力され、統計的方法の節で概説するように処理された。
【0142】
[00202] 相対的存在量の測定
[00203] 少なくとも14の配列決定の読みがNTおよびISのそれぞれに関して必要
とされた。正確な希釈倍率は、多数のアッセイ標的にわたる、そして多数の系列希釈された内部標準のスパイクインにわたるNT:IS比の変化に基づいて決定された。次いで内部標準の希釈度にNT:IS比を掛けた。それぞれのアッセイは、内部標準の多数の希釈度のため、アッセイあたり多数の測定値を有していた。これらの測定値のSTDEVが分散において10倍未満である場合、これらの測定値の中央値を受け入れた。正確な測定値は内部標準濃度の予め決められたアッセイの系統的偏りに基づいていた。これらの測定値の母集団を母集団の中央値に対して標準化した。
【0143】
[00204] STARSEQ測定値の包含/排除の基準
[00205] それぞれの天然標的(gDNAまたはcDNA)を、ISMの交差用量設定
した濃度内のそのそれぞれの内部標準と比較して測定した(
図18)。それぞれ天然標的(NT)およびそれぞれの競合内部標準(IS)に関する少なくとも15の配列決定の読みの実験による閾値は、NT:IS比を有効であると考えるための最適な包含/排除基準であった(検出力>80%;第1種過誤率<0.05;2倍のNT:IS比の変化を検出すること)(
図18)。上記の基準を満たす1つより多い測定値を有するそれらのアッセイに関して、測定値間の1000%より大きい変動係数(CV)は、その特定の試料におけるそのアッセイ測定値に関する排除のきっかけとなった。
【0144】
[00206] 統計的方法:天然標的濃度の推定値
[00207] それぞれの遺伝子標的および下付きのiで示したそれぞれのIS混合物の入
力濃度を有する技術的複製に関して、天然標的の濃度の推定値(NC
i)を天然標的(NT
i)および内部標準(IS
i)の両方の観察された/ビンされた配列計数、ならびに内部標準の(ライブラリー調製あたりの鋳型コピー数の単位での)既知の出発濃度(SC
i)に基づいて計算した。
【0145】
【化1】
【0146】
[00208] 要約量(summarization quantity)を推定するため
の実験により決定された最適な方法およびQCパラメーターは、1)それが有するNC
i技術的複製尺度の中央値(NC
中央値)、2)NT
iならびにIS
iの両方に関する少なくとも15の配列決定計数、および3)底が10の対数尺度での1.00未満のNC
iにわたる変動係数(CV)であった。これは、標的間の存在量における2倍の変化の0.05未満の第1種過誤率および0.20未満の第2種過誤率での検出を可能にするための所与の標的の十分な標本抽出を有するように選択された。
【0147】
[00209] 実施例4
[00210] 適用の限定的でない例
[00211] 一部の態様において、生物学的状態を示す数値的指標を得るための方法は、
第1の生物学的状態および第2の生物学的状態のそれぞれに対応する2つの試料を提供すること;その2つの試料のそれぞれにおける2種類の核酸のそれぞれの量を測定する、および/または数えること;その量をいくつかの試料間で直接比較することができる数値として提供すること;その第1および第2の生物学的状態のそれぞれに対応する数値を数学的に計算すること;ならびにその2つの生物学的状態を識別する数学的計算を決定することを含む。本明細書で用いられるような第1および第2の生物学的状態は、比較すべき2つの生物学的状態、たとえば識別すべき2つの表現型の状態に対応する。限定的でない例には、たとえば非疾患(正常)組織対疾患組織;療法薬応答を示す培養物対より少ないそ
の療法薬応答を示す培養物;有害な薬物応答を示す対象対より少ない有害な応答を示す対象;処置された対象の群対処置されていない対象の群等が含まれる。
【0148】
[00212] “生物学的状態”は、本明細書で用いられる際、例えば臨床的に関連のある
表現型または他の対象の代謝状態に関する表現型の状態を指し得る。生物学的状態には、例えば疾患表現型、疾患状態または非疾患状態への素因;療法薬応答またはそのような応答への素因、有害な薬物応答(例えば薬物毒性)またはそのような応答への素因、薬物に対する耐性、またはそのような耐性を示す素因等が含まれ得る。好ましい態様において、得られた数値的指標は、例えば対象の表現型と相関することによりバイオマーカーの役目を果たすことができる。一部の態様において、その薬物は抗腫瘍薬であることができる。特定の態様において、本明細書で記載される方法の使用は個別化医療を提供することができる。
【0149】
[00213] 特定の態様において、その生物学的状態は遺伝子の正常な発現レベルに対応
する。その生物学的状態が正常なレベルに対応しない、例えば所望の範囲の外側にある場合、非正常、例えば疾患状態が示されている可能性がある。
【0150】
[00214] 特定の生物学的状態、例えば疾患または代謝状態を識別する数値的指標は、
それに関連する所与の状態(単数および/または複数)に関するバイオマーカーとして用いることができる。例えば、一部の態様において、示される生物学的状態は、以下の状態の少なくとも1つであることができる:血管新生と関連する状態、抗酸化剤と関連する状態、アポトーシスと関連する状態、心血管と関連する状態、細胞周期と関連する状態、細胞構造と関連する状態、サイトカインと関連する状態、防御応答と関連する状態、発生と関連する状態、糖尿病と関連する状態、分化と関連する状態、DNA複製および/または修復と関連する状態、内皮細胞と関連する状態、ホルモン受容体と関連する状態、葉酸受容体と関連する状態、炎症と関連する状態、中間代謝と関連する状態、膜輸送と関連する状態、神経伝達と関連する状態、癌と関連する状態、酸化的代謝と関連する状態、タンパク質成熟と関連する状態、シグナル伝達と関連する状態、ストレス応答と関連する状態、組織構造と関連する状態、転写因子と関連する状態、輸送と関連する状態、および異物代謝と関連する状態。他の特定の態様において、抗酸化および異物代謝酵素遺伝子;微小血管内皮細胞遺伝子発現;膜輸送遺伝子発現;免疫耐性;ホルモン受容体発現の転写制御;ならびに癌腫および腫瘍における薬物耐性に関する遺伝子発現パターンをヒト細胞において評価することができる。
【0151】
[00215] 一部の態様において、測定すべき核酸の1種類以上は、その生物学的状態の
1つと他のもの(単数または複数)より大きい程度まで関係している。例えば、一部の態様において、評価すべき核酸の1種類以上は第1の生物学的状態と関係しており、第2の生物学的状態とは関係していない。
【0152】
[00216] 核酸は、その核酸が生物学的状態と正または負のどちらかで関係している場
合、特定の生物学的状態“と関係している”と言うことができる。例えば、核酸は、その核酸が第1の生物学的状態において第2の生物学的状態と比較してより高い量で存在する場合に第1の生物学的状態と“正に関係している”と言うことができる。実例として、癌細胞において非癌細胞と比較して高度に発現している遺伝子は、癌と正に関係していると言うことができる。他方で、第1の生物学的状態において第2の生物学的状態と比較してより低い量で存在する核酸は、第1の生物学的状態と負に関係していると言うことができる。
【0153】
[00217] 測定すべき、および/または数えるべき核酸は、特定の表現型と関係する遺
伝子に対応することができる。その核酸の配列は、その遺伝子の転写される領域、発現す
る領域、および/または制御領域に対応することができる(例えば、転写因子、例えば同時制御に関する転写因子の制御領域)
[00218] 一部の態様において、2個より多くの遺伝子の発現量が測定され、生物学的
状態を示す数値的指標の提供において用いられる。例えば、一部の場合において、多数の遺伝子の発現パターンを所与の表現型の状態、例えば臨床的に関連する表現型を特性付けるために用いる。一部の態様において、少なくとも約5個の遺伝子、少なくとも約10個の遺伝子、少なくとも約20個の遺伝子、少なくとも約50個の遺伝子、または少なくとも約70個の遺伝子を測定して生物学的状態を示す数値的指標を提供するために用いることができる。本発明の一部の態様において、約90個未満の遺伝子、約100個未満の遺伝子、約120個未満の遺伝子、約150個未満の遺伝子、または約200個未満の遺伝子を測定して生物学的状態を示す数値的指標を提供するために用いることができる。
【0154】
[00219] 生物学的状態を示す数値的指標を提供するためにどの数学的計算を用いるか
を決定することは、当該技術で、例えば数学、統計、および/または計算の技術分野で既知のあらゆる方法により達成することができる。一部の態様において、数学的計算を決定することはソフトウェアの使用を含む。例えば、一部の態様において、機械学習ソフトウェアを用いることができる。
【0155】
[00220] 数値を数学的に計算することは、数値を相互作用させるためのあらゆる方程
式、演算、式および/または公式、例えば和、差、積、商、対数、累乗および/または他の数学的計算を用いることを指すことができる。一部の態様において、数値的指標は分子を分母で割ることにより計算され、ここでその分子は1種類の核酸の量に対応し、その分母は別の核酸の量に対応する。特定の態様において、その分子は所与の生物学的状態と正に関係する遺伝子に対応し、その分母はその生物学的状態と負に関係する遺伝子に対応する。一部の態様において、評価されている生物学的状態と正に関係する1個より多くの遺伝子および評価されている生物学的状態と負に関係する1個より多くの遺伝子を用いることができる。例えば、一部の態様において、分子において正に関係する遺伝子に関する数値および分母において等しい数の負に関係する遺伝子に関する数値を含む数値的指標を得ることができる。そのような釣り合った数値的指標において、参照核酸の数値は相殺する。一部の態様において、釣り合った数値は参照核酸(単数または複数)を提供する遺伝子(単数または複数)の発現における変動の作用を中和することができる。一部の態様において、数値的指標は一連の1つ以上の数学関数により計算される。
【0156】
[00221] 一部の態様において、2種類より多くの生物学的状態を比較、例えば識別す
ることができる。例えば、一部の態様において、試料はある範囲の生物学的状態、例えば疾患進行の異なる病期、例えば癌の異なる病期に対応する生物学的状態から提供され得る。癌の異なる病期における細胞には、例えば疾患過程にわたる様々な時点における所与の患者からの非癌性細胞対非転移性癌性細胞対転移性細胞が含まれる。例えば膀胱癌、骨癌、脳腫瘍、乳癌、結腸癌、内分泌系癌、胃腸癌、婦人科癌、頭頚部癌、白血病、肺癌、リンパ腫、転移、骨髄腫、新生物性組織、小児癌、陰茎癌、前立腺癌、肉腫、皮膚癌、精巣癌、甲状腺癌、および尿管癌が含まれる様々なタイプの癌の癌細胞を用いることができる。好ましい態様において、どの化学療法剤が所与のタイプの癌に関して、例えば特定の患者において最高に作用することができるのかを予測するためのバイオマーカーを開発することができる。
【0157】
[00222] 非癌性細胞には、血腫および/または瘢痕組織、ならびに非癌患者、例えば
癌患者と血縁の、または血縁ではない非癌患者からの形態学的に正常な実質の細胞が含まれ得る。非癌性細胞には、癌患者からの、例えば同じ組織および/または同じ器官中のその癌の部位に近い部位からの;その癌の部位からもっと離れた、例えば同じ器官系中の異なる組織および/または器官中の部位からの、またはさらにもっと離れた、例えば異なる
器官および/または異なる器官系中の部位からの形態学的に正常な実質も含まれ得る。
【0158】
[00223] 得られた数値的指標はデータベースとして提供することができる。その数値
的指標および/またはデータベースは診断における、例えば臨床検査の開発および適用における使用を見出すことができる。
【0159】
[00224] 診断的適用
[00225] 一部の態様において、生物学的状態を同定する方法が提供される。一部の態
様において、その方法は以下の工程を含む:試料中の2種類の核酸のそれぞれの量を測定し、および/または数え、その量を数値として提供し;そしてその数値を用いて数値的指標を提供し、それによりその数値的指標がその生物学的状態を示す。
【0160】
[00226] 生物学的状態を示す数値的指標は、様々な態様に従って上記で記載したよう
に決定することができる。その試料は標本、例えば処置すべき対象から採取した標本から得ることができる。その対象は、病院、医療提供者の診療室、診療所、および/または他の健康管理および/または研究施設が含まれる臨床設定にあることができる。次いでその試料中の対象の核酸(単数または複数)の量を測定する、および/または数えることができる。
【0161】
[00227] 所与の数の遺伝子を評価すべき特定の態様において、その所与の数の遺伝子
に関する発現データを同時に得ることができる。特定の遺伝子の発現パターンをデータベース中のそれらと比較することにより、その遺伝子の発現パターンを有する腫瘍が応答する可能性が最も高いであろう化学療法剤を決定することができる。
【0162】
[00228] 一部の態様において、その方法を用いて、変異した内在性遺伝子の存在下で
外来性の正常な遺伝子を定量化することができる。その欠失した領域にわたるプライマーを用いて、トランスフェクションした正常な遺伝子および/または構成的な異常な遺伝子からの発現を選択的に増幅し、定量化することができる。
【0163】
[00229] 一部の態様において、本明細書で記載される方法を用いて正常な発現レベル
を決定する、例えば正常な遺伝子転写産物の発現レベルに対応する数値を提供することができる。そのような態様は、少なくともその評価された遺伝子の発現に関する正常な生物学的状態を示すために用いることができる。
【0164】
[00230] 正常な発現レベルは、通常は疾患、外傷、および/または他の細胞の傷害と
関係していない状態の下での転写産物の発現レベルを指すことができる。一部の態様において、正常な発現レベルは、数として、または好ましくは例えば+/−実験誤差に関する百分率の範囲内の特定の遺伝子の正常な発現の範囲に対応する数値の範囲として提供され得る。試料中の所与の核酸、例えば特定の遺伝子に対応する核酸に関して得られた数値の比較は、確立された正常な数値に対して、例えば本明細書で提供されるデータベース中のデータに対する比較により比較することができる。数値はその試料中のその核酸の分子の数を示すことができるため、この比較はその遺伝子が正常なレベルの範囲内で発現しているか否かを示すことができる。
【0165】
[00231] 一部の態様において、その方法は生物学的状態を同定するために用いること
ができ、それは第1試料中の核酸の量を評価し、前記の量を数値として提供することを含み、ここで前記の数値はいくつかの他の試料の間で直接比較可能である。一部の態様において、その数値は無制限の数の他の試料と直接比較できる可能性がある。試料は異なる時点において、例えば異なる日に;同じ実験室における同じもしくは異なる時点において;および/または異なる実験室における異なる実験において評価することができる。
【0166】
[00232] 療法
[00233] 一部の態様は、薬物開発を向上させる方法を提供する。例えば、内部標準の
標準化された混合物、数値のデータベース、および/または数値的指標のデータベースを用いて薬物開発を向上させることができる。
【0167】
[00234] 一部の態様において、遺伝子発現の調節をこれらの段階の1つ以上において
測定して、および/または数えて候補薬物の作用を決定する。例えば、(例えば所与の段階において同定された)候補薬物を生物学的実体に投与することができる。その生物学的実体は上記で記載したような核酸を有することができるあらゆる実体であることができ、薬物開発の段階に基づいて適切に選択することができる。例えば、リード同定段階において、その生物学的実体はインビトロ培養物であることができる。臨床試験の段階において、その生物学的実体はヒトの患者であることができる。
【0168】
[00235] 次いで候補薬物の遺伝子発現への作用を、例えば本発明の様々な態様を用い
て評価することができる。例えば、核酸試料をその生物学的実体から採取し、対象の核酸の量を測定する、および/または数えることができる。例えば、量は数値および/または数値的指標として提供することができる。次いである量を薬物開発の別の段階におけるその核酸の別の量と;および/またはデータベース中の数値および/または指標と比較することができる。この比較は、その薬物開発プロセスを1以上の方法で変更するための情報を提供することができる。
【0169】
[00236] 薬物開発の工程を変更することは、好ましくは薬物開発に関する時間および
/または費用を低減するために、薬物を開発するプロセスにおいて1つ以上の変更を行うことを指すことができる。例えば、変更は臨床試験を層別化することを含み得る。臨床試験の層別化は、例えば患者集団を臨床試験内で区分すること、および/または特定の個人がその臨床試験に登録する、および/またはその臨床試験のその後の相に継続することができるか否かを決定することを指すことができる。例えば、患者を本発明の様々な態様を用いて決定された彼らの遺伝子構造の1つ以上の特徴に基づいて区分することができる。例えば、前臨床段階において、例えば候補薬物への応答の欠如に対応することが分かっているインビトロ培養物から得られた数値を考慮する。臨床試験の段階において、同じまたは類似の数値を示す対象はその試験における参加を免除され得る。従って薬物開発プロセスが変更され、時間および経費が節約されてきた。
【0170】
[00237] キット
[00238] 本明細書で記載された内部増幅対照(IAC)/競合内部標準(IS)は、
組み合わせてキットの形態で提供することができる。一部の態様において、そのキットはIACならびに多重PCRおよび次世代配列決定(NGS)が含まれるPCRを実施するために必要な試薬を提供する。そのIACはその濃度が既知である単一の濃縮された形態で提供されてよく、または溶液中でいくつかの既知の作動濃度の少なくとも1つに系列希釈されてよい。
【0171】
[00239] そのキットには、本明細書で記載されたような150種類の同定された内在
性標的のIS、または本明細書で記載されたような28種類のERCC標的のIS、または両方が含まれていてよい。これらのISは、そのISが数年間に至るまでの間安定なままであることを可能にする溶液中で提供することができる。
【0172】
[00240] このキットは、その150種類の内在性標的のIS、その28種類のERC
C標的のIS、およびそれらの対応する天然標的を増幅するために特異的に設計されたプライマーも提供することができる。そのキットは、dNTP、反応緩衝液、Taqポリメ
ラーゼ、およびRNアーゼを含まない水が含まれるがそれらに限定されない1種類以上の必要なPCR試薬で満たされた1個以上の容器も提供してよい。場合によりそのような容器(単数または複数)と関係するのは、IACおよび関係する試薬の製造、使用または販売を規制する政府機関により規定された形態での告示であり、その告示は研究使用のための製造、使用または販売の機関による認可を反映する。
【0173】
[00241] そのキットには、そのキット中に含まれるISを用いる多重PCRおよびN
GSが含まれるPCRを調製、実施、および分析するための適切な説明書も含まれていてよい。その説明書は、印刷物、ビデオテープ、コンピューターで読み取り可能なディスク、または光学ディスクが含まれるがそれらに限定されないあらゆる適切な形態であることができる。
【0174】
[00242] この明細書において参照された特許および非特許文献が含まれる全ての刊行
物は明確に参照により本明細書に援用される。本明細書で列挙された文書のいずれの引用も、前記のいずれかが関連する先行技術であるという自認として意図されているわけではない。その日付に関する全ての記載またはこれらの文書の内容に関する表現は出願者に入手可能な情報に基づいており、これらの文書の日付または内容の正確さに関する自認を構成することは一切ない。
【0175】
[00243] 本発明は様々な好ましい態様に関連して記述されてきたが、当業者は、本発
明の本質的な範囲から逸脱することなく様々な変更を行ってよく、その要素の代わりに均等物を用いてよいことを理解するべきである。加えて、特定の状況または材料を本発明の教示に適合させるために、その本質的な範囲から逸脱することなく多くの修正を行うことができる。
【0176】
[00244] 従って、本発明はこの発明を実施するために熟慮された本明細書で開示され
た特定の態様に限定されるのではなく、本発明には特許請求の範囲内に入る全ての態様が含まれるであろうことが意図されている。