(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6571526
(24)【登録日】2019年8月16日
(45)【発行日】2019年9月4日
(54)【発明の名称】鎖を除外することによりマイクロアレイの性能を向上する方法
(51)【国際特許分類】
C12Q 1/6874 20180101AFI20190826BHJP
C12N 15/09 20060101ALI20190826BHJP
G01N 37/00 20060101ALI20190826BHJP
G01N 33/53 20060101ALI20190826BHJP
【FI】
C12Q1/6874 Z
C12N15/09 200
G01N37/00 102
G01N33/53 M
【請求項の数】14
【全頁数】19
(21)【出願番号】特願2015-540167(P2015-540167)
(86)(22)【出願日】2013年11月6日
(65)【公表番号】特表2015-534813(P2015-534813A)
(43)【公表日】2015年12月7日
(86)【国際出願番号】EP2013073100
(87)【国際公開番号】WO2014072309
(87)【国際公開日】20140515
【審査請求日】2016年11月4日
(31)【優先権主張番号】61/724,156
(32)【優先日】2012年11月8日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】591003013
【氏名又は名称】エフ.ホフマン−ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN−LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100077517
【弁理士】
【氏名又は名称】石田 敬
(74)【代理人】
【識別番号】100087871
【弁理士】
【氏名又は名称】福本 積
(74)【代理人】
【識別番号】100087413
【弁理士】
【氏名又は名称】古賀 哲次
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100196977
【弁理士】
【氏名又は名称】上原 路子
(72)【発明者】
【氏名】ナカオ アキ
【審査官】
戸来 幸男
(56)【参考文献】
【文献】
特表2012−505453(JP,A)
【文献】
特開2008−039475(JP,A)
【文献】
特開2011−217726(JP,A)
【文献】
Genes Chromosomes Cancer,2011年,vol.50, no.4,pp.263-274
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/6874
C12N 15/09
G01N 33/53
G01N 37/00
CAplus/MEDLINE/EMBASE/BIOSIS/
WPIDS(STN)
JSTPlus/JMEDPlus/JST7580(JDreamIII)
PubMed
(57)【特許請求の範囲】
【請求項1】
センスおよびアンチセンス鎖を有する標的核酸の配列を、配列決定の計算を含むマイクロアレイ解析により問い合わせる方法であって、
該方法は、1つまたは複数のトレーニング試料の解析により決定された、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からの所定のシグナルを計算から除外することを含み、
ヌクレオチド位置についてセンスおよびアンチセンス鎖のうち一方からの所定のシグナルを除外することは、以下の工程:
(a)1つまたは複数のトレーニング試料を解析してトレーニングデータセット内のトラブルスポットを同定すること;
(b)前記1つまたは複数のヌクレオチド位置の各々について、標的核酸のセンスおよびアンチセンス鎖に特異的なセンスおよびアンチセンスプローブセット(ここで、各プローブセットは、5つのプローブ、つまり、標的配列内の特定の位置においてトラブルスポットとなりうる可能性がある1個のヌクレオチドをそれぞれ検出するための4つのプローブおよび当該位置においてトラブルスポットとなりうる可能性があるヌクレオチドの欠失を検出するための1つのプローブを含む)を含む複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナルを測定すること、ここで、前記4つのプローブは、A、T、GおよびCをそれぞれ検出するためのものである;
(c)各プローブセットについて、各プローブセットのハイブリダイゼーションシグナルを比較することにより塩基識別能を決定すること;
(d)各ヌクレオチド位置について、工程(c)で決定した各プローブセットの識別能を用いてセンスおよびアンチセンス鎖で別々に識別能を計算すること;
(e)各ヌクレオチド位置について、工程(d)で計算したセンスおよびアンチセンス鎖間の識別能を比較すること;
(f)検査試料において、工程(a)で同定したトラブルスポットからのシグナル、および工程(e)で同定した塩基識別能が低い鎖からのシグナルをトラブルスポットとして除外すること;
を含む、前記方法。
【請求項2】
工程(e)において、前記塩基識別能の差異が閾値を超えているか否かを決定すること;および、
工程(f)において、当該差異が閾値を超えている場合、塩基識別が低いプローブセットに対応する鎖からのシグナルを除外すること;
を更に含む、請求項1に記載の方法。
【請求項3】
工程(b)において、プローブ強度を、単一の試料と接触させた複数のマイクロアレイを用いて測定する、請求項1または2に記載の方法。
【請求項4】
工程(b)において、ハイブリダイゼーションシグナルを、複数の試料と接触させた複数のマイクロアレイを用いて測定する、請求項1または2に記載の方法。
【請求項5】
工程(c)において、塩基識別能を、
式1:
DR_MMs={(PM−max(MMi))/(PM+max(MMi)),i=1:3}
(式中、PMは、該当する塩基位置について、野生型配列とハイブリダイズするよう設計された、完全にマッチするプローブのプローブ強度であり;MMiは、一塩基対の置換にハイブリダイズするよう設計された、3種のミスマッチのプローブのうちの1つのプローブ強度であり;max(MM)は、プローブセットにおける3種のミスマッチのプローブ間で最大のプローブ強度である)
を用いて測定する、請求項1〜4のいずれか1項に記載の方法。
【請求項6】
工程(d)において、センスおよびアンチセンス鎖に対する識別能を、各塩基位置について該当する鎖に対するプローブセットについて工程(c)において得た値のパーセンタイルとして計算する、請求項1〜5のいずれか1項に記載の方法。
【請求項7】
工程(e)において、工程(d)で計算したセンスおよびアンチセンス鎖間の識別能を、
式3:
(1)Q75i<PTの場合、Q75i<Q75j−T
(2)Q75i≧PTの場合、Q75i<A(Q75j−B)2+PT
(式中、Tは、閾値であり;Q75iは、除外する鎖iのQ75値であり;Q75jは、相補鎖jのQ75値である)
を用いて比較する、請求項1〜6のいずれか1項に記載の方法。
【請求項8】
パーセンタイルは、60〜90%である、請求項6または7に記載の方法。
【請求項9】
パーセンタイルは、第3四分位数(75%)である、請求項6〜8のいずれか1項に記載の方法。
【請求項10】
検出検査試料におけるセンスおよびアンチセンス鎖を有する標的核酸の有無を、配列決定または変異検出の計算を含むマイクロアレイ解析を用いて検出する方法であって、
該方法は、1つまたは複数のトレーニング試料の解析により決定された、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からの所定のシグナルを計算から除外することを含み、
ヌクレオチド位置についてセンスおよびアンチセンス鎖のうち一方からの所定のシグナルを除外することは、以下の工程:
(a)1つまたは複数のトレーニング試料を解析してトレーニングデータセット内のトラブルスポットを同定すること;
(b)前記1つまたは複数のヌクレオチド位置の各々について、標的核酸のセンスおよびアンチセンス鎖に特異的なセンスおよびアンチセンスプローブセット(ここで、各プローブセットは、5つのプローブ、つまり、標的配列内の特定の位置においてトラブルスポットとなりうる可能性がある1個のヌクレオチドをそれぞれ検出するための4つのプローブおよび当該位置においてトラブルスポットとなりうる可能性があるヌクレオチドの欠失を検出するための1つのプローブを含む)を含む複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナルを測定すること、ここで、前記4つのプローブは、A、T、GおよびCをそれぞれ検出するためのものである;
(c)各プローブセットについて、各プローブセットのハイブリダイゼーションシグナルを比較することにより塩基識別能を決定すること;
(d)各ヌクレオチド位置について、工程(c)で決定した各プローブセットの識別能を用いてセンスおよびアンチセンス鎖で別々に識別能を計算すること;
(e)各ヌクレオチド位置について、工程(d)で計算したセンスおよびアンチセンス鎖間の識別能を比較すること;
(f)検査試料において、工程(a)で同定したトラブルスポットからのシグナル、および工程(e)で同定した塩基識別能が低い鎖からのシグナルをトラブルスポットとして除外すること;
を含む、前記方法。
【請求項11】
工程(e)において、上記塩基識別能の差異が閾値を超えているか否かを決定すること;および、
工程(f)において、当該差異が閾値を超えている場合、塩基識別が低いプローブセットに対応する鎖からのシグナルを除外すること;
を更に含む、請求項10に記載の方法。
【請求項12】
工程(c)において、塩基識別能を、
式1:
DR_MMs={(PM−max(MMi))/(PM+max(MMi)),i=1:3}
(式中、PMは、該当する塩基位置について、野生型配列とハイブリダイズするよう設計された、完全にマッチするプローブのプローブ強度であり;MMiは、一塩基対の置換にハイブリダイズするよう設計された、3種のミスマッチのプローブのうちの1つのプローブ強度であり;max(MM)は、プローブセットにおける3種のミスマッチのプローブ間で最大のプローブ強度である)
を用いて測定する、請求項10又は11に記載の方法。
【請求項13】
工程(d)において、センスおよびアンチセンス鎖に対する識別能を、複数のマイクロアレイを使用し測定した各塩基位置について該当する鎖に対するプローブセットについて工程(c)において得た値のパーセンタイルとして計算する、請求項10〜12のいずれか1項に記載の方法。
【請求項14】
検査試料におけるセンスおよびアンチセンス鎖を有するp53遺伝子の変異の有無を、変異検出の計算を含むマイクロアレイ解析を用いて検出する方法であって、
該方法は、1つまたは複数のトレーニング試料の解析により決定された、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からの所定のシグナルを計算から除外することを含み、
ヌクレオチド位置についてセンスおよびアンチセンス鎖のうち一方からの所定のシグナルを除外することは、以下の工程:
(a)1つまたは複数のトレーニング試料を解析してトレーニングデータセット内のトラブルスポットを同定すること;
(b)前記1つまたは複数のヌクレオチド位置の各々について、p53遺伝子のセンスおよびアンチセンス鎖に特異的なセンスおよびアンチセンスプローブセット(ここで、各プローブセットは、5つのプローブ、つまり、標的配列内の特定の位置においてトラブルスポットとなりうる可能性がある1個のヌクレオチドをそれぞれ検出するための4つのプローブおよび当該位置においてトラブルスポットとなりうる可能性があるヌクレオチドの欠失を検出するための1つのプローブを含む)を含む複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナルを測定すること、ここで、前記4つのプローブは、A、T、GおよびCをそれぞれ検出するためのものである;
(c)各プローブセットについて、各プローブセットのハイブリダイゼーションシグナルを比較することにより塩基識別能を決定すること;
(d)各ヌクレオチド位置について、工程(c)で決定した各プローブセットの識別能を用いてセンスおよびアンチセンス鎖で別々に識別能を計算すること;
(e)各ヌクレオチド位置について、工程(d)で計算したセンスおよびアンチセンス鎖間の識別能を比較すること;
(f)検査試料において、工程(a)で同定したトラブルスポットからのシグナル、および工程(e)で同定した塩基識別能が低い鎖からのシグナルをトラブルスポットとして除外すること;
を含む、前記方法。
【発明の詳細な説明】
【技術分野】
【0001】
オリゴヌクレオチドマイクロアレイ(チップ)は、1の実験で複数の核酸標的を解析する経済的な方法である。このようなアレイは、一般的に、複数の遺伝子を解析するため、例えば、遺伝子発現アッセイにおいて使用される。また、オリゴヌクレオチドマイクロアレイは、体細胞および生殖細胞の変異を検出するアッセイにおいてシーケンシングに代わる経済的かつ便利な代替品としても需要がある。特定の遺伝子は、体細胞変異および多型が良く起こる場所としてよく知られている。このような遺伝子における体細胞変異および多型の多くは、疾患または表現型の変化に関連している。例えば、TP53およびEGFR遺伝子における複数の変異は癌に関連している。TP53遺伝子における体細胞変異はp53機能の喪失を引き起こすことが知られており、これにより様々な組織で発生する癌の進行に関連する。また、TP53変異の状態は、予後及び治療に対する応答を予測するのに有用である。同様に、CYP450遺伝子における複数の多型により、薬物代謝のパターンが効果的に予測される。このような変異が数多くあるため、別個のアッセイでそれぞれの変異を標的とすることは実用的ではない。したがって、一度に複数の変異した塩基の位置(または遺伝子内の全塩基の位置)が検査可能なマイクロアレイは有用な代替品となる。
【背景技術】
【0002】
典型的なマイクロアレイ(チップ)は、それぞれが固体表面に結合した何百万の核酸プローブを含む微細なスポットの集合である。プローブは、適切な条件下で試料由来の標識DNA断片にハイブリダイズ可能である。プローブと標的間のハイブリダイゼーションが検出され、場合により、標的分子に結合した標識を検出することで定量化される。
【0003】
変異を検出するツールとしてのマイクロアレイが、いくつかのシステムで検証された(Schwartz,S.,Clinical Utility of Single Nucleotide Polymorphism Arrays (2011)Clin.Lab.Med.31:581参照)。残念ながら、マイクロアレイを用いた研究によると、マイクロアレイの感度および特異性は、既存の技術に比べ未だ理想的ではないと報告されている(例えば、Zin R.,et al.,SNP−based arrays complement classic cytogenetics in the detection of chromosomal aberrations in Wilms’ tumor (2012)Cancer Genetics 205:80参照)。実際、マイクロアレイの性能が、検査対象の配列全体にわたって均一ではないようである。配列内で、他の位置よりもエラーになりやすい位置がある。このような特殊な部位を同定するデータ解析のために、より優れた数学的または統計ツールを使用することが変異を検出するマイクロアレイの感度および特異性を向上するのに有望である。
【発明の概要】
【0004】
いくつかの実施形態では、本発明は、センスおよびアンチセンス鎖を有する標的核酸の配列を、配列決定の計算を含むマイクロアレイ解析により問い合わせる方法であって、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することを含む方法である。本実施形態の変形例では、ヌクレオチド位置についてセンスおよびアンチセンス鎖のうち一方からのシグナルを除外することは、以下の工程を含む:複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナルを測定すること;各プローブセットについて、各プローブセットのハイブリダイゼーションシグナルを比較することにより塩基識別能を決定すること;各ヌクレオチド位置について、各プローブセットから計算した識別能を用いてセンスおよびアンチセンス鎖で別々に識別能を計算すること;各ヌクレオチド位置について、計算した識別能をセンスおよびアンチセンス鎖間で比較すること;塩基識別能が低い鎖からのシグナルを除外すること。ある実施形態では、上記方法は、上記塩基識別能の差異が閾値を超えているか否かを決定すること;および、当該差異が閾値を超えている場合、塩基識別が低いプローブセットに対応する鎖からのシグナルを除外すること、を更に含む。いくつかの実施形態では、プローブ強度を、単一の試料と接触させた複数のマイクロアレイを用いて測定する。いくつかの実施形態では、ハイブリダイゼーションシグナルを、複数の試料と接触させた複数のマイクロアレイを用いて測定する。本実施形態の変形例では、塩基識別を、式1を用いて測定する。本実施形態の更なる変形例では、センスおよびアンチセンス鎖に対する識別能を、各塩基位置について該当する鎖に対するプローブセットの識別能のパーセンタイルとして計算する。本実施形態のより更なる変形例では、センスおよびアンチセンス鎖間の識別能を、式3を用いて比較する。ある実施形態では、パーセンタイルは、60〜90%である。別の実施形態では、パーセンタイルは、第3四分位数(75%)である。
【0005】
別の実施形態では、本発明は、検査試料におけるセンスおよびアンチセンス鎖を有する標的核酸の有無を、配列決定または変異検出の計算を含むマイクロアレイ解析を用いて検出する方法であって、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することを含む方法である。本実施形態の変形例では、ヌクレオチド位置についてセンスおよびアンチセンス鎖のうち一方からのシグナルを除外することは、以下の工程を含む:複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナルを測定すること;各プローブセットについて、各プローブセットのハイブリダイゼーションシグナルを比較することにより塩基識別能を決定すること;各ヌクレオチド位置について、各プローブセットの識別能を用いてセンスおよびアンチセンス鎖で別々に識別能を計算すること;各ヌクレオチド位置について、センスおよびアンチセンス鎖間の識別能を比較すること;塩基識別能が低い鎖からのシグナルを除外すること。ある実施形態では、上記方法は、上記塩基識別能の差異が閾値を超えているか否かを決定すること;および、当該差異が閾値を超えている場合、塩基識別が低いプローブセットに対応する鎖からのシグナルを除外すること:を更に含む。本実施形態の変形例では、塩基識別を、式1を用いて測定する。本実施形態の更なる変形例では、センスおよびアンチセンス鎖に対する識別能を、複数のマイクロアレイを使用し測定した各塩基位置について該当する鎖に対するプローブセットの識別能のパーセンタイルとして計算する。
【0006】
さらに別の実施形態では、本発明は、検査試料におけるセンスおよびアンチセンス鎖を有する標的核酸の有無を、配列決定または変異検出の計算を含むマイクロアレイ解析を用いて検出する1つまたは複数のプロセッサを制御するコードであって、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することを制御するコードを含むコンピュータ可読媒体である。本実施形態の変形例では、コンピュータ可読媒体は、以下の工程を制御するコードを含む:複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナルを測定すること;各プローブセットについて、各プローブセットのハイブリダイゼーションシグナルを比較することにより塩基識別能を決定すること;各ヌクレオチド位置について、各プローブセットの識別能を用いてセンスおよびアンチセンス鎖で別々に識別能を計算すること;各ヌクレオチド位置について、センスおよびアンチセンス鎖間の識別能を比較すること;塩基識別能が低い鎖からのシグナルを除外すること。
【0007】
さらに別の実施形態では、本発明は、検査試料における標的核酸を検出するシステムであって、マイクロアレイからのハイブリダイゼーションデータを取得するために構成されたデータ取得モジュール;標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することにより標的ヌクレオチド配列を決定するようにデータを処理するために構成されたデータ処理装置、ここで、当該除外することは、以下の工程を介する:複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナルを測定すること;各プローブセットについて、各プローブセットのハイブリダイゼーションシグナルを比較することにより塩基識別能を決定すること;各ヌクレオチド位置について、各プローブセットの識別能を用いてセンスおよびアンチセンス鎖で別々に識別能を計算すること;各ヌクレオチド位置について、センスおよびアンチセンス鎖間の識別能を比較すること;塩基識別能が低い鎖からのシグナルを除外すること、を介するデータ処理装置;ならびに、データ処理装置により生成されたデータを表示するために構成された表示モジュール;を含むシステムである。ある実施形態では、センスおよびアンチセンス鎖に対応するプローブセット間の塩基識別能の比較は、複数のマイクロアレイより得られたセンスおよびアンチセンス鎖の塩基識別能のパーセンタイルを比較することにより実施する。
【0008】
さらに別の実施形態では、本発明は、検出検査試料におけるp53遺伝子の変異の有無を、変異検出の計算を含むマイクロアレイ解析を用いて検出する方法であって、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することを含む方法である。本実施形態の変形例では、当該ヌクレオチド位置は、p53遺伝子のコドン273の第1位置およびコドン220の第2位置から選択される。
【図面の簡単な説明】
【0009】
【
図1】Q
75値を用いてセンスおよびアンチセンスプローブの識別能を比較することによる除外する鎖の選択。
【発明を実施するための形態】
【0010】
定義
用語「核酸」および「オリゴヌクレオチド」は、標的配列およびプローブを指す。これらの用語は、長さによって制限されず、アデノシン、グアノシン、シチジン、チミジン、およびウリジン、ならびにそれらの塩基の修飾物を含む、プリンもしくはピリミジン塩基のデオキシリボヌクレオチド(一本鎖または二本鎖DNA)、リボヌクレオチド(RNA)、並びに他の任意のN−グリコシドの線状高分子の総称である。
【0011】
用語「プローブ」は、適切な条件下で標的核酸に選択的にハイブリダイズするオリゴヌクレオチドを指す。
【0012】
用語「プローブセット」は、標的配列内の同一の塩基位置における変異の状態を問い合わせるために設計された1のマイクロアレイにつき2つ以上のプローブから構成される群を指す。典型的なプローブセットは、5つ以上の異なるプローブ、そのうち1つは試料由来の野生型DNA配列にハイブリダイズするプローブで、3つは3種の可能な一塩基の置換に対するプローブで、1つは問い合わせ位置における一塩基対の欠失を検出するためのプローブを含む。追加のプローブを加えてもよく、例えば、二塩基対の欠失を検出するための第6のプローブを含めてもよい。
【0013】
用語「標的部位」または「標的塩基位置」は、プローブセット内のプローブによる問い合わせの対象である標的核酸における塩基位置を指す。プローブセット内の複数の重複するプローブが、同じ標的部位を問い合わせる場合もある。
【0014】
用語「標的配列」または「標的」は、解析の対象である核酸配列の領域をいう。
【0015】
用語「試料」は、核酸を含有するあるいは含有すると思われる任意の組成物を指す。これは、個体から単離された組織または体液の試料、例えば、皮膚、血漿、血清、脊髄液、リンパ液、滑液、尿、涙、血液細胞、臓器、骨髄及び腫瘍を含み、新鮮なまたは新鮮凍結された組織、およびホルマリン固定パラフィン包埋された組織(FFPET)、また個体から採取された細胞から確立されたインビトロ培養物、およびそれから単離された核酸の試料も包含する。
【0016】
用語「トレーニングセット」は、統計モデルを含むデータ解析アルゴリズムを構築するために用いられる試料のセットを指す。
【0017】
用語「トレーニングデータセット」は、トレーニングセットから得られたマイクロアレイデータのセットを指す。トレーニングデータセットは、配列が分かっている試料から得られたマイクロアレイデータのセットであってもよい。例えば、トレーニングデータセットは、変異の状態を決定するための統計モデルを構築するため、強度パターンが一貫して配列内の残りの部分と異なる特定のヌクレオチド位置を同定するため、そして変異検出アルゴリズムを修正するために用いてもよい。
【0018】
用語「検査セット」は、トレーニングセットを使用して構築された変異検出アルゴリズムを検証するために用いられる1つまたは複数の試料のセットを指す。
【0019】
用語「検査データセット」は、検査セットから得られたマイクロアレイデータのセットを指す。検査データセットは、配列(変異の状態)が分かっている試料から得られたマイクロアレイデータのセットであってもよい。例えば、検査データセットは、トレーニングデータセットからのデータに基づいて構築されたアルゴリズムによる変異検出の効果を検証するために用いてもよい。
【0020】
用語「検査試料」は、検査データセットを生成するのに用いられる試料を指す。
【0021】
用語「マイクロアレイによる再配列決定」または「マイクロアレイによる変異検出」は、互換的に使用され、マイクロアレイ上に配置され、試料中に存在する標識核酸断片にハイブリダイズした複数のプローブセット(各セットは、標的配列のセンスおよびアンチセンス鎖内のヌクレオチド位置に対応する)からのハイブリダイゼーションシグナルを検出および解析することによって、標的配列内の変異を検出する方法を指す。典型的には、マイクロアレイによる再配列決定は、複数のプローブセットからのハイブリダイゼーションシグナルを利用し、野生型核酸の背景において変異核酸を検出するアルゴリズムを含む。用語「再配列決定」は、標的核酸の配列全体における変異の状態を決定すること、および、全ヌクレオチドにおける一部のヌクレオチド、例えば、標的核酸内で変異部位であることがわかっている選択した1つまたはいくつかのヌクレオチド、を決定することを包含する。
【0022】
本発明は、再配列決定および変異検出を行うマイクロアレイの精度を向上させる方法を含む。マイクロアレイは、野生型核酸配列の背景における変異を検出するために設計された核酸プローブの集合である。つまり、適切なハイブリダイゼーション条件下で、プローブは、試料ゲノム中に存在する標的配列にのみ優先的にハイブリダイズする。各プローブセットは、標的配列内の特定のヌクレオチド位置について、3種の可能な一塩基対の置換および一塩基対の欠失を検出するように設計されている。個々の変異を検出するために、プローブ長が異なるいくつかの重複するプローブセットを設計してもよい。マイクロアレイは、標的配列中のヌクレオチドの一部または全部における変異を検出するように設計されたプローブセットを含んでもよい。さらに、マイクロアレイは、標的配列の両方の鎖上のヌクレオチドに対応するプローブセットを含んでもよい。アレイは、問い合わせ対象のヌクレオチドの数に応じて、数千あるいは数百万のプローブセットを含んでもよい(Schena,M.(ed.),Microarray Biochip Technology(2000)Eaton Pub.Co.(Westborough,Mass.)参照)。
【0023】
各プローブセットは、典型的に、5つのプローブ、つまり、標的配列内の特定の位置において可能なヌクレオチドの各々に対する4つのプローブおよび当該位置におけるヌクレオチドの欠失を検出するための1つのプローブを含む。適切なプロトコルでインキュベーションすると、プローブは検出可能なシグナルを発する。理想的には、プローブセット内の5つのプローブのうちの1つは、問い合わせ位置が野生型である場合に他の4つよりもはるかに大きいシグナルを発し、5つのプローブのうちの2つは、野生型DNAに加えて変異DNAが試料に含まれている場合に他の3つよりも大きなシグナルを発する。体細胞変異のほとんどがヘテロ接合であり、典型的な臨床試料は、癌及び非癌細胞の両方を含んでいるので、ほとんどの場合野生型シグナルが存在する。検出器は、標的配列内の該当位置における特定のヌクレオチドについて、特定の鎖に対する特定のプローブに関するシグナルを登録する。
【0024】
ヌクレオチドの呼び出しを行うために現在使用されるソフトウェアのアルゴリズムは、各位置についてセンスおよびアンチセンス両者のプローブセットからのデータを調べるものである。センスおよびアンチセンス両者のシグナルが、標的配列内の特定の位置における変異に対し特定の様式で一致した場合にのみ、当該ソフトウェアは、その位置における当該ヌクレオチドに対する変異呼び出しを行う。
【0025】
本発明は、マイクロアレイ解析による変異検出または再配列決定を向上させる方法であって、標的核酸配列における1つまたは複数のヌクレオチド位置について、2つの相補鎖のうち一方からのシグナルを変異検出アルゴリズムから除外することを含む方法である。
【0026】
本発明者らは、標的配列内の多数のトラブルスポットに対する各アレイの動向を観察した。これらのトラブルスポットは、検査対象である核酸の起源および品質が異なる複数の試料を用いてアレイを検査するときに、はっきりする。アレイは、一貫して、標的配列内の特定の位置についての正しい呼び出しができなかった。本発明者らは、このような呼び出しミスを除外またはその数を減らすことを目的として、トラブルスポットにおけるエラーの原因を調査した。驚くべきことに、標的配列内のいくつかの位置では、センスおよびアンチセンスプローブセット間の性能に劇的な差異があることが発見された。従って、本発明者らは、そのようなヌクレオチド位置を同定し、性能の低い鎖から得られたデータを計算から除外する数学的方法を発明した。性能の低い鎖は、本発明の教示に従って同定される。センスおよびアンチセンスプローブの両者とも性能が低い場合、いずれの鎖も除外しないことに注目する。
【0027】
1の実施形態では、本発明は、試料由来の標識化断片核酸をオリゴヌクレオチドマイクロアレイにハイブリダイズさせること、ハイブリダイゼーションデータを得ること、ハイブリダイゼーションデータをプローブ強度に変換すること、プローブ強度データを解析して、例えば核酸配列または変異の存在といった生物学的に意味のある情報を抽出すること、によりマイクロアレイデータセットを得ることを含む方法である。オリゴヌクレオチドマイクロアレイは、Schena,M.(ed.),Microarray Biochip Technology(2000)に記載のように特注してもよいし、または、例えば、Affymetrix(Santa Clara,Cal.)、NimbleGen(Madison,Wisc.)、およびAgilent Tech.(Santa Clara,Cal.)などの市販業者から入手してもよい。高品質のマイクロアレイデータを生成するための最適条件、例えば、試料の調製、増幅、核酸の断片化および標識化、ハイブリダイゼーションおよび洗浄等は、マイクロアレイの製造業者より得られるか、または核酸化学の当業者によって経験的に決定できる。試料の配列を決定する、または試料における変異を同定するために、マイクロアレイハイブリダイゼーションデータは、例えば、当該分野で公知の任意のマイクロアレイ解析アルゴリズム、例えば、Microarray Suite(MAS)、またはGene Chip Operating System(GCOS)(Affymetrix,Santa Clara,Cal.)により解析してもよい。
【0028】
本実施形態では、マイクロアレイデータセットを取得し、標的核酸配列内で頻発するトラブルスポットを同定するために複数のマイクロアレイ実験を実施する。場合により、起源および試料中の核酸の品質とは無関係なトラブルスポットを同定するために、様々な供給源から単離された標的核酸を用いて複数の実験を実施する。本実施形態のいくつかの変形例では、検査試料を解析する前に、1つまたは複数のトレーニング試料を解析してトレーニングデータセット内のトラブルスポットを同定する。トレーニング試料は、変異細胞と非変異細胞とを含む患者試料を模倣するために変異を有する標的核酸および有さない標的核酸の混合物を含んでもよい。
【0029】
本発明のいくつかの実施形態では、一方または両方の鎖を標的とするプローブセットが一貫して呼び出しに失敗するのか否かを決定するために、マイクロアレイデータセット内のトラブルスポットを更に解析する。本実施形態の変形例では、トラブルスポットにおける変異呼び出しに失敗するこのようなプローブセットは非特異的なハイブリダイゼーションをしやすいのか否かを決定するために、マイクロアレイデータセットを解析する。
【0030】
いくつかの実施形態では、本発明は、標的配列内の特定のヌクレオチド位置における配列決定または変異検出の計算から除外する性能の低い鎖を同定する方法を含む。あるヌクレオチド位置において一方の鎖を除外すべきか否かを同定するために、当該ヌクレオチド位置についてのプローブハイブリダイゼーションデータを用いて以下の工程を行ってもよい:(1)各プローブセットの識別能を算出すること;(2)各標的ヌクレオチド位置について、センスおよびアンチセンス鎖で別々に、全てのプローブセットの識別能のパーセンタイルを算出すること;(3)工程(2)で得られた値について複数のマイクロアレイに共通する望ましいパーセンタイルを決定すること;(4)工程(3)でられ得たパーセンタイルでの識別能に関し、センス鎖およびアンチセンス鎖間の差異を決定すること;(5)工程(4)でられ得た差異が閾値を実質的または実際に超えている場合、識別能が低い鎖を変異検出または再配列決定の計算から除外すること。
【0031】
プローブセットの識別能を算出するために任意の式を用いることができる(Seo,et.al,Bioinformatics,Vol.20,No.16 2534−2544,2004)。いくつかの実施形態では、識別能は、ミスマッチプローブの識別能の比率(DR_MM)を算出することによって決定してもよい。各プローブセットについてのDR_MM(DR_MM
s)は、式1に従って決定する。
式1:
DR_MM
s={(PM−max(MM
i))/(PM+max(MM
i)),i=1:3}
PMは、該当する塩基位置について、野生型配列とハイブリダイズするよう設計された、完全にマッチするプローブのプローブ強度である。
MM
iは、一塩基対の置換にハイブリダイズするよう設計された、3種のミスマッチのプローブのうちの1つのプローブ強度である。
max(MM)は、プローブセットにおける3種のミスマッチのプローブ間で最大のプローブ強度である。
【0032】
各プローブセットについて算出されたDR_MMを用い塩基位置における鎖に対する識別能を計算するために、任意のパーセンタイル、例えば、50(中央値)、55、60、70、75(四分位)、80、または90パーセンタイル、あるいはこれらの数値の間の任意のパーセンタイルを用いてもよい。いくつかの実施形態では、50(中央値)を用いる。
【0033】
該当塩基位置において複数のマイクロアレイに共通する鎖の性能に基づいて性能の低い鎖を同定するために、任意のパーセンタイル、例えば、55、60、70、または90パーセンタイル、あるいはこれらの数値の間の任意のパーセンタイルを用いてもよい。いくつかの実施形態では、75パーセンタイル(Q
75)を用いる。
【0034】
鎖を除外するために、センスおよびアンチセンス鎖のパーセンタイル間の差異についての任意の閾値を用いてもよい。いくつかの実施形態では、閾値を、式2に従って設定する。
式2:
Q
75i<Q
75j−T
Tは、閾値である。
Q
75iは、除外する鎖iのQ
75値である。
Q
75jは、相補鎖jのQ
75値である。
【0035】
いくつかの実施形態では、閾値は0.13に等しい(T=0.13)。
【0036】
いくつかの実施形態では、閾値として選択する値は、鎖の相対的な性能に依存する。一方の鎖に対する識別能が低く、他方の鎖との差異がその閾値を超えている場合、識別能の低い鎖を除外する。識別能の低さが中程度の場合、他方の鎖の性能が顕著に優れている場合、すなわちQ
75が当該閾値よりも実質的に高い場合のみ、識別能の低い鎖を除外する。両方の鎖の性能が低い場合、いずれの鎖も除外しない。いくつかの実施形態では、性能が極端に低いことはQ
75<0.151として定義され、性能の低さが中程度であることは0.151≦Q
75<0.3として定義される。性能の低さについての閾値(PT)は、経験的に決定してもよい。
【0037】
いくつかの実施形態では、閾値を、式3に従って設定する。
式3:
(1)Q
75i<PTの場合、Q
75i<Q
75j−T
(2)Q
75i≧PTの場合、Q
75i<A(Q
75j−B)
2+PT
Tは、鎖間の差異についての閾値である。
PTは、性能の低さについての閾値である。
AおよびBは、経験的に決定する。
Q
75iは、除外する鎖iのQ
75値である。
Q
75jは、相補鎖jのQ
75値である。
【0038】
いくつかの実施形態では、閾値は0.13に等しい(T=0.13)。性能の低さについての閾値は、0.151(PT=0.151)で、A=0.42227、そしてB=0.281である。
【0039】
いくつかの実施形態では、本発明は、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することにより、標的ヌクレオチド配列内の変異を検出するために設計されたマイクロアレイについてのデータ解析アルゴリズムであって、ここで、当該除外することは、以下の工程:複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナル(例えば、プローブ強度)を測定すること;各プローブセットについて、各プローブセットの塩基識別能を計算すること;各標的ヌクレオチド位置について、全てのプローブセットの識別能のパーセンタイルを、センスおよびアンチセンス鎖で別々に算出すること;複数のマイクロアレイに共通する、識別能の値について望ましいパーセンタイルを決定すること;当該パーセンタイルでの識別能についてのセンス鎖およびアンチセンス鎖間の差異を決定すること;そして、当該差異が閾値を実質的または実際に超えている場合、識別能が低い鎖を変異検出または再配列決定の計算から除外すること、を介するデータ解析アルゴリズムを含む。
【0040】
いくつかの実施形態では、本発明は、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することにより、試料におけるTP53遺伝子内の変異を検出するように設計されたマイクロアレイについてのデータ解析アルゴリズムであって、ここで、当該除外することは、以下の工程:複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナル(例えば、プローブ強度)を測定すること;各プローブセットについて、当該シグナルを用いて各プローブセットの塩基識別能を計算すること;各標的ヌクレオチド位置について、全てのプローブセットの識別能のパーセンタイルを、センスおよびアンチセンス鎖で別々に算出すること;複数のマイクロアレイに共通する、識別能の値について望ましいパーセンタイルを決定すること;当該パーセンタイルでの識別能についてのセンス鎖およびアンチセンス鎖間の差異を決定すること;そして、当該差異が閾値を実質的または実際に超えている場合、識別能が低い鎖を変異検出または再配列決定の計算から除外すること、を介するデータ解析アルゴリズムを含む。これらの変異は、ある種のヒトの癌の発生および進行に関連する。例えば、Freed−Pastor,W.et al.(2004).“Mutant p53:one name,many proteins”(2012)Genes Dev.26:1268を参照のこと。
【0041】
下記の実施例および図により、ヒトTP53(p53)遺伝子内の変異を検出する本発明の方法の適用例について説明する。
【0042】
いくつかの実施形態では、本発明は、標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することにより標的ヌクレオチド配列を決定する1つまたは複数のプロセッサを制御するコードを含むコンピュータ可読媒体であって、ここで、当該除外することは、以下の工程:複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナル(例えば、プローブ強度)を測定する;当該シグナルを用いて各プローブセットの塩基識別能を計算すること;各標的ヌクレオチド位置について、全てのプローブセットの識別能のパーセンタイルを、センスおよびアンチセンス鎖で別々に算出すること;複数のマイクロアレイに共通する、識別能の値について望ましいパーセンタイルを決定すること;当該パーセンタイルでの識別能についてのセンス鎖およびアンチセンス鎖間の差異を決定すること;そして、当該差異が閾値を実質的または実際に超えている場合、識別能が低い鎖を変異検出または再配列決定の計算から除外すること、を介するコンピュータ可読媒体である。
【0043】
いくつかの実施形態では、本発明は、本発明に従って検査試料における標的ヌクレオチド配列を決定するためのシステムであって、センスおよびアンチセンス鎖のデータを含むヌクレオチドマイクロアレイからのデータセットを取得するために構成されたデータ取得モジュール;標的核酸配列における1つまたは複数のヌクレオチド位置について、センスおよびアンチセンス鎖のうち一方からのシグナルを計算から除外することにより標的ヌクレオチド配列を決定するようにデータを処理するために構成されたデータ処理装置、ここで、当該除外することは、以下の工程:複数のマイクロアレイを使用し、センスおよびアンチセンス鎖の各々に対する1つまたは複数のプローブセットを用いて該当するヌクレオチド位置におけるハイブリダイゼーションシグナル(例えば、プローブ強度)を測定すること;各プローブセットについて、各プローブセットの塩基識別能を計算すること;各標的ヌクレオチド位置について、全てのプローブセットの識別能のパーセンタイルを、センスおよびアンチセンス鎖で別々に算出すること;複数のマイクロアレイに共通する、識別能の値について望ましいパーセンタイルを決定すること;当該パーセンタイルでの識別能についてのセンス鎖およびアンチセンス鎖間の差異を決定すること;そして、当該差異が閾値を実質的または実際に超えている場合、識別能が低い鎖を変異検出または再配列決定の計算から除外すること、を介するデータ処理装置;ならびに、データ処理装置により生成されたデータを表示するために構成された表示モジュール;を含むシステムである。
【実施例】
【0044】
実施例1.AMPLICHIP(登録商標)p53におけるp53遺伝子内のトラブルスポットの同定
p53遺伝子(TP53)内の変異を検出するAMPLICHIP(登録商標)p53(Roche Molecular Diagnostics,Indianapolis,Ind.)の実現可能性調査により、以下の2つの変異についての検出能が不十分であることが分かった:
(1)220_2(コドン220、第2位置)A>G、および
(2)273_1(コドン273、第1位置)C>T。
これらは、卵巣癌で見られる最も一般的な変異のトップ6に入る。
【0045】
トラブルスポットを確認するために、患者試料を模倣した試料のトレーニングセットを、表1の記載のように調製した。試料は、変異型および野生型DNAとの混合物から成る。変異型DNAは、コドン273における変異の状態を試験前に確認した細胞株から得た。変異型DNAを、p53野生型細胞株のDNAで希釈した。
【0046】
【表1】
【0047】
実施例2.トラブルスポットの特性調査
マイクロアレイデータについての一連の解析により、コドン220_2におけるA>G変異の呼び出しに失敗した全てのチップについて、以下の傾向があったことが明らかになった。
(1)センス鎖を標的とするプローブセットは、A>G変異を呼び出すが、アンチセンスのプローブセットは野生型を呼び出してしまう;
(2)アンチセンスのプローブセットの全プローブで大量のクロスハイブリダイゼーションが観察される;
(3)アンチセンスプローブセットのプローブのインシリコ解析により、大量のクロスハイブリダイゼーションの発生が裏付けられた。
【0048】
細胞株および臨床試料を用いたマイクロアレイデータの一連の解析により、コドン273_1におけるC>T変異の呼び出しに失敗した全てのチップについて、以下の傾向があったことが明らかになった。
(1)センス鎖を標的とするプローブセットは、C>T変異の呼び出すが、アンチセンスのプローブセットは野生型を呼び出してしまう;
(2)アンチセンスのプローブセットのいくつかのプローブで大量のクロスハイブリダイゼーションが観察される。
【0049】
実施例3.鎖の除去によるアルゴリズムの修正
合計123個の基準チップ(マイクロアレイ)を使用した(AMPLICHIP(登録商標)p53(Roche Molecular Diagnostics,Indianapolis,Ind.))。基準チップを、野生型細胞株とハイブリダイズさせ、そのプローブ強度を臨床試料における変異の検出のベースラインとして使用した。まず、DR_MM(ミスマッチプローブの識別能の比率)の中央値を、式1に従って、チップごとに各鎖上の塩基位置について各プローブセットに対し算出した。DR_MMは非特異的なハイブリダイゼーションの量を評価するための良好な尺度である。その後、123個のチップ全体の75パーセンタイル値(Q
75)を、塩基位置ごとに各鎖について算出した。Q
75値が非常に低いと、当該塩基位置における当該鎖に対するプローブセットの識別能が、全体の75%で非常に低いことを意味する。式(3)に、同じヌクレオチド位置におけるセンス鎖およびアンチセンス鎖についてのQ
75値を代入し、その結果以下の値を有する鎖を除外した。
(1)Q
75i<0.151の場合、Q
75i<Q
75j−0.130
(2)Q
75i≧0.151の場合、Q
75i<0.4227(Q
75j-0.281)
2+0.151
Q
75iは、除外する鎖iのQ
75値である。
Q
75jは、相補鎖jのQ
75値である。
【0050】
合計39本の鎖を同定し除外した、すなわち、変異の呼び出しに使用しなかった。これらを、
図1において三角印データ点として表し、表2−1及び2−2に要約する。
【0051】
図1は、p53野生型細胞株DNAとハイブリダイズさせた123個のチップを用いて算出したQ
75値によるセンスおよびアンチセンスプローブの識別能の比較を示す。各軸は、各センスおよびアンチセンス鎖についてのQ
75値を表す。各データ点は1240個の問い合わせ塩基位置をそれぞれ表す。2つの線は、鎖を除外しないデータ点(
図1の丸印で示すデータ点)を取り囲む境界である。データ点は、大きく3つのカテゴリーに分類される。第1のカテゴリー(大部分を占めるケース)では、センスおよびアンチセンス鎖のQ
75値は同程度である。これらケースは、
図1の境界線内にあり、Q
75_アンチセンス=Q
75_センスの直線からあまり離れていない。第2のカテゴリーでは、データ点はセンス鎖およびアンチセンス鎖間で異なるQ
75値を有するが、それらの値は両方ともある程度高く(例えば、0.2超)、対応する塩基位置についての識別能が許容内であることを表す。これらのデータ点は、
図1の境界線内にある。第3のカテゴリーでは、Q
75値は、センス鎖とアンチセンス鎖間でかなり異なっており、鎖間の識別能の差異が大きく、そして一方の鎖のQ
75が非常に低く識別能が低いということを表す。これらのデータ点は
図1の境界線外にある。第3のカテゴリー内のデータ点に対応する塩基の位置について性能が低い(Q
75値が低い)鎖を変異の呼び出しの計算から除外する。
【0052】
表2−1及び2−2において、「コドン」は、コドン番号及びそのコドン内のヌクレオチドの位置を示す。「Wt」は、野生型配列内のヌクレオチドを示す。「S」は、センス鎖を示す。「AS」は、アンチセンス鎖を示す。「Q75_S」および「Q75_AS」は、センスおよびアンチセンス鎖についてのQ
75をそれぞれ示す。「abs(Diff75)」は、センス鎖およびアンチセンス鎖間での差異の絶対値を示す。
【0053】
【表2-1】
【表2-2】
【0054】
これらの鎖を変異検出の計算から除去すると、再配列決定マイクロアレイ(AMPLICHIP(登録商標)p53Test)の特異性を損なうことなく、変異検出能を向上させる結果となった。いくつかのデータセットの例を表3に示す。
【0055】
【表3】
【0056】
本発明は、特定の実施例を参照して詳細に説明してきたが、本発明の範囲内で種々の改変を行いうることは当業者には明らかであろう。したがって、本発明の範囲は、本明細書に記載の実施例により限定されるべきではなく、以下に示す特許請求の範囲によって限定される。