特許第6240210号(P6240210)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エフ.ホフマン−ラ ロシュ アーゲーの特許一覧

特許6240210標的シーケンシングリードの正確かつ迅速なマッピング
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6240210
(24)【登録日】2017年11月10日
(45)【発行日】2017年11月29日
(54)【発明の名称】標的シーケンシングリードの正確かつ迅速なマッピング
(51)【国際特許分類】
   C12Q 1/68 20060101AFI20171120BHJP
   C12M 1/34 20060101ALI20171120BHJP
   C12M 1/00 20060101ALI20171120BHJP
   G06F 19/22 20110101ALI20171120BHJP
【FI】
   C12Q1/68 ZZNA
   C12Q1/68 A
   C12M1/34 Z
   C12M1/00 A
   G06F19/22
【請求項の数】19
【全頁数】26
(21)【出願番号】特願2015-544446(P2015-544446)
(86)(22)【出願日】2013年11月27日
(65)【公表番号】特表2015-536661(P2015-536661A)
(43)【公表日】2015年12月24日
(86)【国際出願番号】EP2013074799
(87)【国際公開番号】WO2014083023
(87)【国際公開日】20140605
【審査請求日】2016年11月25日
(31)【優先権主張番号】13/689,314
(32)【優先日】2012年11月29日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】591003013
【氏名又は名称】エフ.ホフマン−ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN−LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100077517
【弁理士】
【氏名又は名称】石田 敬
(74)【代理人】
【識別番号】100087871
【弁理士】
【氏名又は名称】福本 積
(74)【代理人】
【識別番号】100087413
【弁理士】
【氏名又は名称】古賀 哲次
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100196977
【弁理士】
【氏名又は名称】上原 路子
(72)【発明者】
【氏名】チェン シャオイン
(72)【発明者】
【氏名】リー イエン
(72)【発明者】
【氏名】ウェイ−ミン リウ
(72)【発明者】
【氏名】シャオジュイ(マックス)マー
(72)【発明者】
【氏名】シム−ジャスミン トルオン
【審査官】 柴原 直司
(56)【参考文献】
【文献】 特表2015−535681(JP,A)
【文献】 ,Sci. China Life Sci., (2011), 54, [10], p.945-952
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00−3/00
G06F 19/10−19/28
C12M 1/00−3/10
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS/WPIDS(STN)
PubMed
(57)【特許請求の範囲】
【請求項1】
生物の試料ゲノムの標的領域におけるバリアントを検出する方法であって、
複数のシーケンスリードを受け取る、ここで、該シーケンスリードは該生物から得られた試料におけるゲノムセグメントをシーケンシングすることにより得られ、該シーケンシングは該標的領域由来のゲノムセグメントを増幅および/または濃縮することを含む;
照ゲノムの標的領域由来のバリエーションの第1数をそれぞれ有する参照ゲノムの1つまたは複数の代替領域を同定する、ここで、第1数は、1よりも大きく、第1閾値数よりも小さい;
コンピュータシステムにより、該複数のシーケンスリードについて該参照ゲノムの標的領域に対するアラインメントを実行し、バリエーションの第2閾値数よりも小さい数で参照ゲノムの標的領域にアラインするシーケンスリードのセットを同定する;
第3閾値数よりも小さいバリエーションの第2数を有する1つまたは複数の代替領域とアラインする少なくとも1つのシーケンスリードを該セットから除外する;そして
該セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定する;
ことを含む方法。
【請求項2】
前記標的領域由来のゲノムセグメントは、該標的領域を増幅するように設計された1対のプライマーを用いて増幅される、請求項1に記載の方法。
【請求項3】
前記標的領域由来のゲノムセグメントは、該標的領域由来のゲノムセグメントを選択するための表面に結合したプローブを用いて濃縮される、請求項1に記載の方法。
【請求項4】
前記第3閾値数は、代替領域について対応するバリエーションの第1数の半分である、請求項1に記載の方法。
【請求項5】
前記第3閾値数は1である、請求項1に記載の方法。
【請求項6】
前記代替領域を同定することは、
複数の同じ位置において前記参照ゲノムの標的領域とそれぞれ異なるシーケンスリードの数をカウントする、ここで該標的領域に対し同じバリエーションを有するシーケンスリードが代替グループを形成する;
その数がカットオフ値を超える場合、該代替グループ由来の第1シーケンスリードについて該参照ゲノムに対するアライメントを実行する;そして
第1シーケンスリードについて参照ゲノムの第1領域に対するアライメントが標的領域に対するアライメントよりバリエーション数が少ない場合、該第1領域を代替領域として同定する;
ことを含む、請求項1に記載の方法。
【請求項7】
前記代替グループのシーケンスリード同士は、連続する領域内で互いに同一である、請求項6に記載の方法。
【請求項8】
前記第1領域を代替領域として同定するために用いるシーケンスリードは、異なる試料のシーケンシングから得たものである、請求項6に記載の方法。
【請求項9】
前記第1シーケンスリードを、前記標的領域についての既知の変異に関するデータベースと比較する;そして
該第1シーケンスリードが、該標的領域についての既知の変異に対応する場合、該代替グループを代替領域に対応するものとして除外する;
ことを更に含む、請求項6に記載の方法。
【請求項10】
代替領域は、前記参照ゲノム以外の配列を含む配列のデータベースから得たものである、請求項1に記載の方法。
【請求項11】
前記セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定することは、
標的領域内の各位置において、参照ゲノムと異なるシーケンスリードにおけるバリエーションの数をカウントすることを含む、請求項1に記載の方法。
【請求項12】
前記方法を、1つまたは複数の他の標的領域について繰り返すことを更に含む、請求項1に記載の方法。
【請求項13】
前記シーケンシングは、2つ以上の試料をシーケンシングするランで実行し、ここで前記ゲノムセグメントは、複数の試料のうちの1つの試料と対応するIDを含み、少なくとも2つの試料は異なる標的領域を有する、請求項12に記載の方法。
【請求項14】
前記代替領域の1つまたは複数は異なるゲノム由来である、請求項1に記載の方法。
【請求項15】
前記1つまたは複数の代替領域と前記少なくとも1つのシーケンスリードとのアラインは、
代替領域と標的領域との間の第1バリエーションを同定する;
シーケンスリードを標的領域に対しアラインさせて、シーケンスリードと標的領域との間の第2バリエーションを同定する;そして
第1バリエーションを第2バリエーションに対し比較する;
ことによりなされる、請求項1に記載の方法。
【請求項16】
生物の試料ゲノムの標的領域におけるバリアントを検出するためにコンピュータシステム制御を実行するときに複数の命令を保存する非一時的コンピュータ可読媒体を含むコンピュータ製品であって、
該命令は、
複数のシーケンスリードを受け取る、ここで、該シーケンスリードは該生物から得られた試料におけるゲノムセグメントをシーケンシングすることにより得られ、該シーケンシングは該標的領域由来のゲノムセグメントを増幅および/または濃縮することを含む;
照ゲノムの標的領域由来のバリエーションの第1数をそれぞれ有する1つまたは複数の代替領域を同定する、ここで、第1数は、1よりも大きく、第1閾値数よりも小さい;
該複数のシーケンスリードについて該参照ゲノムの標的領域に対するアラインメントを実行し、バリエーションの第2閾値数よりも小さい数で、参照ゲノムの標的領域にアラインするシーケンスリードのセットを同定する;
第3閾値数よりも小さいバリエーションの第2数を有する1つまたは複数の代替領域とアラインする少なくとも1つのシーケンスリードを該セットから除外する;そして
該セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定する;
ことを含む、コンピュータ製品。
【請求項17】
前記代替領域を同定することは、
複数の同じ位置において前記参照ゲノムの標的領域とそれぞれ異なるシーケンスリードの数をカウントする、ここで該標的領域に対し同じバリエーションを有するこれらのシーケンスリードが代替グループを形成する;
その数がカットオフ値を超える場合、該代替グループの第1シーケンスリードについて該参照ゲノムに対するアライメントを実行する;そして
第1シーケンスリードについて参照ゲノムの第1領域に対するアライメントが標的領域に対するアライメントよりバリエーション数が少ない場合、該第1領域を代替領域として同定する;
ことを含む、請求項16に記載のコンピュータ製品。
【請求項18】
生物の試料ゲノムの標的領域におけるバリアントを検出するためのシステムであって、
複数のシーケンスリードを受け取る、ここで、該シーケンスリードは該生物から得られた試料におけるゲノムセグメントをシーケンシングすることにより得られ、該シーケンシングは該標的領域由来のゲノムセグメントを増幅および/または濃縮することを含む;
照ゲノムの標的領域由来のバリエーションの第1数をそれぞれ有する1つまたは複数の代替領域を同定する、ここで、第1数は、1よりも大きく、第1閾値数よりも小さい;
該複数のシーケンスリードについて該参照ゲノムの標的領域に対するアラインメントを実行し、バリエーションの第2閾値数よりも小さい数で、参照ゲノムの標的領域にアラインするシーケンスリードのセットを同定する;
第3閾値数よりも小さいバリエーションの第2数を有する1つまたは複数の代替領域とアラインする少なくとも1つのシーケンスリードを該セットから除外する;そして
該セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定する;
ように構成された1つまたは複数のプロセッサを含む、システム。
【請求項19】
標的領域に関連する1つまたは複数の代替領域を保存するデータベースを更に含む、請求項18に記載のシステムであって、
ここで、該1つまたは複数の代替領域を同定することは、該データベースから1つまたは複数の代替領域を取得することを含む、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、ゲノムシーケンシングを用いた生物試料の解析に関し、特に、ターゲットシーケンシング工程より得られたシーケンシングリードの正確かつ迅速なマッピングに関する。
【背景技術】
【0002】
医師は、特定の患者のゲノムについて1つまたは複数の特定(標的)領域(例えば、領域当たり100〜500塩基)を解析したい場合がある。例えば、患者の遺伝子の特定の部分についての変異を検査することがある。特定領域のみが解析対象であるため、試料中で標的領域由来のゲノムセグメント(例えば、DNA断片)の割合を増加させるための技術が開発されてきた。このような技術として、標的領域の増幅および濃縮が挙げられる。
【0003】
増幅では、標的領域に対応する配列を有するゲノムセグメントを増幅するために、標的領域にハイブリダイズするプライマーを使用する。望ましいのは、試料に標的領域のゲノムセグメントが多く含まれるようになり、このゲノムセグメントをシーケンシングすると、多くの割合のリードが標的領域に対応するという結果である。こうすると、シーケンシングに関する多くの労力が、ゲノムの非標的領域由来のゲノムセグメントのシーケンシングすることで無駄にならなくなる。濃縮では、標的領域に対応するゲノムセグメントを捕捉して標的領域に対応するリードの割合を増加させるために、標的領域にハイブリダイズするプローブを使用し得る。
【0004】
しかし、増幅および濃縮の両方で、該ゲノム以外の部分に由来するゲノムセグメントも未だリードされて(読み込まれて)いる。その結果、現在の技術では、参照ゲノムに対する変異について標的領域を解析する場合は特に、精度を確保するためにリードをゲノム全体に対しアライン(マッッピング)する。つまり、シーケンスリードが得られると、その配列を参照ゲノムと比較し、そのリードに最も良くマッチするゲノム位置を見つける。リードをアラインした後、標的領域にアラインしたリードを解析する。ゲノム全体に対するこのようなアライメントは、計算コストが高くつく。
【0005】
計算上より効率的で改善された方法、システム、および装置を提供することが望まれる。
【発明の概要】
【0006】
実施形態により、ターゲットシーケンシングより得られたシーケンシングリードの正確かつ迅速なマッピングを提供できる。例えば、標的領域を選択したら、該標的領域に十分に類似するゲノムの代替領域が同定できる。シーケンシングリードが、代替領域よりも標的領域に類似する場合、そのリードは該標的領域にアラインするとして決定できる。次に該標的領域にアラインするリードを解析して変異が標的領域内に存在するか否かを決定できる。従って、シーケンシングリードをゲノム全体ではなく標的領域と対応する代替領域に対し比較することにより計算効率が向上する。
【0007】
一実施形態によれば、本方法は、生物の試料ゲノムの標的領域におけるバリアントを検出するものである。複数のシーケンスリードを受け取る。生物から得られた試料中のゲノムセグメントをシーケンシングすることによりシーケンスリードが得られる。ここで、該シーケンシングは該標的領域由来のゲノムセグメントを標的とすることを含む。参照ゲノムの標的領域由来のバリエーションの第1数をそれぞれ有する1つまたは複数の代替領域を同定する。上記各第1数は、1よりも大きく、第1閾値数よりも小さい。コンピュータシステムにより、該複数のシーケンスリードについて該参照ゲノムの標的領域に対するアラインメントを実行し、バリエーションの第2閾値数よりも小さい数で、参照ゲノムの標的領域にアラインするシーケンスリードのセットを同定する。第3閾値数よりも小さいバリエーションの第2数を有する1つの代替領域とアラインするシーケンスリードを該セットから除外してもよい。該セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定する。
【0008】
別の実施形態は、本明細書に記載の方法に関連するシステム、装置、およびコンピュータ可読媒体に関する。
【0009】
以下の詳細な説明および添付の図面を参照することにより本発明の性質および利点がより良く理解できるだろう。
【0010】
定義
本明細書で使用する「生物試料」は、その試料が得られた生物のゲノム由来の核酸分子を含む。また、例えば、試料には、染色体中にコードされたゲノムを含有する細胞も含み得る。「ゲノムセグメント」は、生物のゲノム由来の分子であり、全部または一部の配列がシーケンシングされた核酸分子である。このセグメントは、ゲノムを大きく断片化する、例えば、細胞に音波処理を施すことなどにより作成できる。ゲノムセグメントをシーケンシングして「シーケンシングリード」(「配列リード」又は単に「リード」とも呼ぶ)を作成できる。シーケンシングリードは、ゲノムセグメント全体または該セグメントの一部のみであってもよい。
【0011】
「標的領域」とは、断片がプライマーおよび増幅プロセスにより増殖された、またはプローブを用いて濃縮されたゲノムの領域のことである。「代替領域」とは、標的領域に類似する領域のことであり、例えば、バリエーションが特定数よりも少ないもののことであるが、配列の全塩基における割合として特定してもよい。「参照ゲノム」(単に「参照」とも呼ぶ)とは、シーケンスリードをアラインする任意の既知配列のことである。参照ゲノムは、生物のゲノムの全部または一部のみに対応するものであってもよい。参照ゲノムは、複数の生物のゲノムを含み得る。例えば、シーケンスリードを、該生物試料中に存在するウイルスといったウイルスのデータベースと比較することもできる。
【0012】
バリエーション(variation)は、バリアント(variant)または変異(mutation)とも呼ばれ、二つの配列間の差異を指す。例えば、シーケンスリードと参照ゲノムの標的領域間の差異をカウントし、変異を同定してもよい(例えば、シーケンスリードが変異を十分に示す場合)。バリエーションは、例えば、1塩基から1つまたは複数の別の塩基への置換、1つまたは複数の塩基の挿入、あるいは1つまたは複数の塩基の欠失であり得る。バリエーションは、一方または両方の染色体に発生することがある。実施形態を用いて、シーケンスリードが変異を表しているのか、あるいは実はゲノムの類似する部分由来のゲノムセグメントであるかを決定してもよい。
【図面の簡単な説明】
【0013】
図1図1は、生物の試料ゲノムの標的領域におけるバリアントを検出する方法100を示すフローチャートである。
【0014】
図2A図2Aは、ゲノムの標的領域に対する参照配列(配列番号1)を示す。
【0015】
図2B図2Bは、本発明の実施形態に係るMCFによりフィルタリングして除外されたシーケンスリード(配列番号2)を示す。
【0016】
図3図3は、本発明の実施形態に係る、標的配列(すなわち標的領域)320(配列番号4)に対するシーケンスリード310(配列番号3)の比較を示す。
【0017】
図4図4は、本発明の実施形態に係る、標的配列(すなわち標的領域)420(配列番号4)に対するシーケンスリード410(配列番号3)の比較を示す。
【0018】
図5図5は、本発明の実施形態に係る、標的配列(すなわち標的領域)520(配列番号4)に対するシーケンスリード510(配列番号3)の比較を示す。
【0019】
図6図6は、本発明の実施形態に係る、生物の試料ゲノムの標的領域におけるバリアントを検出する方法を示すフローチャートである。
【0020】
図7図7は、本発明の実施形態に係る、標的領域に対応する代替領域を同定する方法700のフローチャートである。
【0021】
図8図8は、本発明の実施形態に係る、システムおよび方法と共に使用可能なコンピュータシステム800の例を示すブロック図である。
【0022】
図9-1】図9−1〜図9−4は、本発明の実施形態に係る、複数の試料および複数のランにおいて現れる複合変異を示す表である。
図9-2】図9−1〜図9−4は、本発明の実施形態に係る、複数の試料および複数のランにおいて現れる複合変異を示す表である。
図9-3】図9−1〜図9−4は、本発明の実施形態に係る、複数の試料および複数のランにおいて現れる複合変異を示す表である。
図9-4】図9−1〜図9−4は、本発明の実施形態に係る、複数の試料および複数のランにおいて現れる複合変異を示す表である。
【発明を実施するための形態】
【0023】
ターゲットシーケンシングを用いてゲノムの特定の領域を効率的に解析できる。例えば、標的領域に対応するセグメントをクローニングする(例えば、ポリメラーゼ連鎖反応(PCR)などの増幅プロセスにおいてプライマーを用いる)ことによって、および/または標的領域に対応するセグメントを優先的に捕捉するプローブを用いることによって、生物試料のゲノムセグメントの割合を増加できる。標的領域内で可能性のある変異を調べるために、標的が増加した試料(生物試料の一例)内のゲノムセグメントを、シーケンシングおよび解析できる。
【0024】
標的領域のみに関心がある場合、シーケンスリードを標的領域にのみアラインさせることができる。これにより、リードを参照ゲノム全体に対しアラインさせるよりも計算量が減少するだろう。しかし、このようなプロセスがエラーを引き起こす可能性がある。例えば、増幅または濃縮工程の後に高スループット次世代シーケンシングを用いるバリアントの検出において、アンプリコン/濃縮ライブラリー(標的が増加した試料)が偽陽性リード、すなわち意図する標的領域に対応しないゲノムセグメントに対応するリードを含んでしまう可能性がある。これらのリードにより、誤った変異の報告、製品開発において誤解を招くような情報の提供、または間違った診断につながり得る。偽陽性は、プライマーの適切な設計や忠実度が高い酵素の開発等の様々な方法によって減少させることができる。しかし、偽陽性は未だ残存する。
【0025】
ある実施形態では、効率的な方法で偽陽性リードを除外する手段を提供できる。一例として、標的と大きく異なるリードについては、変異数フィルタ(MCF)を用いて同定および除外する。別の例では、標的領域と類似する代替領域に対応する偽陽性リードを同定する。
【0026】
一実施形態では、ゲノムの代替(非標的)領域を特異的に同定する。代替領域と標的領域との間のバリエーションを特に記録する。シーケンスリードが、同定された代替領域に特徴的な特定数のバリエーション以外で標的領域にマッチする場合、そのシーケンスリードを標的領域の解析から除外できる。このように、シーケンスリードは、標的領域にアラインさせるのみでよくなり、偽陽性が除外される。
【0027】
代替領域を、事前に同定してデータベースに保存してもよい。標的領域を選択したら、代替領域を読み込むことができる。同定された領域を決定する実行において、複合変異(例えば、標的領域に対する複数のバリエーション)の報告を使用して、複数のランおよび/または複数の試料に表示されるバリアントの組み合わせを見つけることができる。複合変異の配列が共通する(すなわち、十分な回数で検出される)場合、複合変異の配列を参照ゲノムにアラインさせてそれが代替領域に対応するかどうかを同定できる。したがって、特定のバリアントの組み合わせ(すなわち、標的領域に対する代替により特定されたバリアントの組み合わせ)に対応するリードを、標的領域の変異解析から除外できる。
【0028】
いくつかの実施形態では、複数の標的領域を同時に解析できる。このような実施形態において、シーケンシングリードは、標的領域および対応する代替領域のすべてと比較できる。しかし、複数の領域であっても、参照ゲノム全体と比較すれば小さいので、アライメントは効率的なままである。例えば、癌に関連する12個の遺伝子について最大60個のアンプリコンを用いる癌遺伝子パネルプロジェクトのデータにおいて実施形態が正常に用いられる。
【0029】
I.標的シーケンシング
シーケンシングランにより、何百万ものリードが生成され得る。全部のリードを全ゲノムについてマッッピングすることは、計算時間およびメモリリソースの面で非常に大変である。標的が増加したラン(例えば、増幅または濃縮)では、主な関心は、標的領域に対しマッッピングするリードである(例えば、遺伝子の特定の領域または全遺伝子)。しかし、コンピュータシステムがこれらの標的領域のみにおいて参照に対してマッッピングをすると、ゲノムの他の部分に対しより良好にマッピングされる可能性があるいくつかのリードを考慮に入れていないので、標的領域をカバーするリードを多く見積もっている可能性がある。しかし、全ゲノムに対しマッピングするのは、高価である。従って、ある実施形態では、正確な結果を提供しつつゲノムの特定の部分のみにマッピングすることができる。
【0030】
図1は、生物の試料ゲノムの標的領域におけるバリアントを検出する方法100を示すフローチャートである。他の方法と同様に、ある実施形態では、記載の工程の全部または一部を含み得て、そしていくつかの工程は、コンピュータシステムを用いて行い得る。方法100の結果は、医師が生物の診断を決定する際に使用してもよい。
【0031】
ブロック110において、生物試料を受けとる。生物試料はDNAを含み、DNAは、染色体のゲノムセグメントまたは染色体そのものの形態であってもよい。例えば、ゲノムの特定の領域における変異について検査対象の患者から取得可能な細胞もある。細胞は、癌について検査する腫瘍の生検から得てもよい。
【0032】
試料のDNAは、例えば、より小さなゲノムセグメントを得るために、超音波処理または他の適切な方法によって断片化できる。例えば、200〜500塩基長のゲノムセグメントを得ることができる。特定のシーケンシング手順では、この程度の長さのゲノムセグメントが好ましい。しかし、ある実施形態では、任意の長さのゲノムセグメントを使用できる。
【0033】
ゲノムセグメントは、バーコードまたは多重識別子(MID)でマークできる。例えば、10塩基の配列を、ゲノムセグメントの末端に加えることができる(例えば、リガーゼを用いて)。このように、種々の試料由来のセグメントを、IDを多重に用いた同じシーケンシングにおいて並行してシーケンシングできる。IDをシーケンスリードの一部として読み込み、同じIDを持つリードを同じ試料に帰属させ、グループとして解析してもよい。異なる試料は、異なる人物由来でも、同じ人物(例えば、異なる生検)由来であってよく、そして異なる実験条件を使用してもよい。
【0034】
ブロック120において、試料における標的領域由来のゲノムセグメントの割合を増加させる。種々の実施形態では、割合は、ゲノムの1つまたは複数の標的領域由来のDNAについて試料を増幅および/または濃縮することによって増加できる。得られた試料は、標的が増加した試料と呼ばれ得る。一般的に、標的領域は、例えば、任意の癌関連変異が存在するかどうかをチェックするためといった診断上の関係性を有する。
【0035】
例として、標的領域は、例えば、約数百塩基、例えば、150〜250塩基、150〜400塩基、または200〜600塩基であり得る。試料特異的IDを加えるのは、異なるタイミングで行ってもよい。例えば、増幅/濃縮し、そして試料を混合した後にIDを加えてもよい。このように、異なる試料が、異なる標的領域について増幅または濃縮され得る。一実施態様では、約60個の標的領域が使用される。
【0036】
一実施形態では、フォワードおよびリバースプライマーを使用して、標的領域を増幅できる。これらのフォワードおよびリバースプライマーは、例えば、約15〜30塩基など、様々な長さのものであってよい。理想的には、プライマーは、ゲノムの一部のみを増幅する。しかし、これは、約15塩基の長さだと常に可能ではない。30塩基でさえ、特異的な増幅が常にできるわけではない。より長いプライマーを使用してもよいが、より長いプライマーだと効率的にハイブリダイズしないことがある。
【0037】
別の実施形態では、プローブを使用して、標的領域に対応するゲノムセグメントを捕捉できる。例えば、標的領域にハイブリダイズするように設計されたプローブを、表面上に載置できる。そして、ゲノムセグメントを表面上に載置し、標的領域のセグメントが優先的にハイブリダイズするようにする。例えば、プローブを有するマイクロアレイを構築でき、そのマイクロアレイ上でセグメントを洗浄する。プローブの特異性について、増幅用のプライマーと同じ問題を有することがある。いくつかのプローブは、300塩基長の標的領域に対して70塩基の長さであり得る。プローブがゲノムセグメントの一端を捕捉できるように、セグメントは、例えば、最大250塩基のゲノムセグメントに対し300塩基〜約550塩基の領域であることもある。別の実施形態では、増幅および濃縮を両方行ってもよい。
【0038】
プライマーが十分に特異的ではなくゲノムの他のいくつかの領域も濃縮プローブとハイブリダイズする可能性がある場合、標的領域由来のセグメントの割合を増加させるべきなのに、かかるゲノムの他の地域も増幅されることがある。プライマー設計における特異性が不完全なため、実験の生化学により他の領域も増幅される可能性がある。
【0039】
ブロック130において、試料中のゲノムセグメントからシーケンスリードを決定する。シーケンシングプロセスにおいて、増幅工程で作成したのと同じセグメントのクローンの配列を別々に決定(その後カウント)してもよい。いくつかの実施態様では、試料あたり約3,000個のリードが得られる。リードの数は、試料のサイズ、標的を増加させる手段の一部としてどのくらい増幅が行われたか、そしてシーケンシングプロセスの範囲(すなわち、装置がどの程度のシーケンシング用に設定されているのか、例えば、ビーズをいくつ使用したか)に依存し得る。従って、試料中のすべてのセグメントがシーケンシングされてないことがある。一実施形態では、リードは約150〜250塩基長である。当業者は、シーケンシングを行うのに利用可能な様々な技術を理解するであろう。
【0040】
シーケンシングプロセスは、様々な技術により行うことができる。一実施形態では、シーケンシングの一部として、断片を増幅してもよい。標的が増加した試料を作成するために増幅を用いる場合、この増幅は第2の増幅工程となる。第2の増幅により、第2の増幅を行わない場合よりも強い信号(例えば、特定の塩基:A、C、G、またはTに対応する蛍光シグナル)をもたらし得る。そして、アンプリコンが異なっていても、シーケンスリードがにはならない。
【0041】
シーケンシングプロセスの一例において、(例えば、増幅が溶液内で起こる)工程120から得た各増幅断片をビーズに結合させることができる。結合した断片をビーズ上で増幅することができ、各ビーズから1つのシーケンスリードを得ることができる。表面を使用する実施形態では、断片を表面に結合させた後、表面上に単一のクラスタを作成するように増幅することができる。各クラスタについて単一のシーケンスリードを得ることができる。シーケンスリードは、ゲノムセグメントの全長、一端の一部、または両端の一部であり得る。
【0042】
シーケンシングリードは、実際のセグメントに対応する塩基、試料固有IDに対応する塩基、およびシーケンシングの一部として使用できる特定のタグ(例えば、25塩基長)を含み得る。特定のタグは、ユニバーサルプライマーを受けとるための断片の末端に連結されたアダプタの一部を含み得て、このアダプタの一部をシーケンシングにおいて読み込むことができる。
【0043】
一態様では、シーケンシングは、濃縮された試料における任意のゲノムセグメントで実施することができる(そのセグメントが標的ではない場合であっても)。これらのゲノムセグメントのいくつかは、元々試料中にあり、非標的セグメントに対応するものであってもよい。シーケンシングされている非標的セグメントの中には、ゲノムの意図しない部分の増幅または捕捉に起因し得るものもある。
【0044】
ブロック140において、複数のシーケンスリードを参照ゲノムの標的領域に対しアラインさせる。アラインさせることにより、このプロセスでシーケンスリードを標的領域と比較してシーケンスリードと標的領域との間のバリエーションの数を決定できる。完全にマッチするとバリエーションが全く示されないはずである。取得したシーケンスリードの一部又は全部をアライメントプロセスで使用してもよい。例えば、リードの長さが短すぎるまたは長すぎる場合、アライメントの前に除外してもよい。
【0045】
シーケンスリードと標的領域との間のバリエーションの数を最小にするようにアライメントを行うことができる。シーケンスリードが標的領域より小さくても大きくてもよいことに留意されたい。シーケンスリードの方が大きい場合、バリエーションの数は、標的領域内のみでカウントし得る。
【0046】
実施形態では、リードは、標的領域のみにアラインされるので、計算量を抑えることができる。アライメントは、1つ以上の標的領域のみに特異的であればよいので、全ゲノムを検索する必要がなくアライメントを迅速にできる。また、標的領域に対応するセグメントの割合が増加するので、実質的な数のリードが標的領域に良好にマッチする(例えば、バリエーションの数が比較的少ない)はずである。
【0047】
一実施形態では、複数の標的領域を用いる場合、シーケンスリードを全ての標的領域と比較することができ、最良のアライメントをもたらす標的領域を同定できる。例えば、異なる標的領域は、一の遺伝子と異なる遺伝子または異なるエキソンであり得る。このように、最良のアライメントを有するエキソンを同定することができるだろう。
【0048】
バーコードまたはIDを使用する場合は、アライメントの前に除外することができる。1つのグループ内の特定の試料に対し全リードを整理するためにIDを使用してもよい。このように、他の試料由来の変異は、現在の試料の解析に影響することがない。このグループ化は、逆多重化と呼ばれる。各試料は、異なる参照ゲノムまたは当該参照ゲノムの異なる部分にアラインさせることができる。異なる試料は、異なる標的領域を有しうるので、IDを使用して参照ゲノムのどの標的領域を比較してアライメントに用いるかを決定できる。
【0049】
工程150において、バリエーションの閾値数よりも大きい数で標的領域とは異なるシーケンスリードを標的領域の解析から除外する。バリエーションの数がこの閾値より大きい場合リードが違いすぎるので、このゲノムセグメントは標的領域由来ではないシーケンスリードに対応することを示す。しかし、いくつかのバリエーションについての幾分の余地があるだろうから、後で解析をして変異の同定を行い見逃さないようにしてもよい。
【0050】
閾値の例として、5〜10塩基がある。一実施形態では、閾値は、標的領域のサイズに依存する。例えば、標的領域が200塩基である場合、バリエーションの数は20個、つまり10%が上限であり得る。標的領域が150塩基である場合、閾値は15塩基であり得る。
【0051】
各標的領域について、閾値より少ない(そして潜在的に同等な)リードを、例えば、グループとして、同定できる。このリードのグループを、標的領域に関連させてさらに解析し得る。いくつかの実施形態では、あるリードが複数の標的領域について閾値の基準を満たす場合、双方のグループに追加できる。このようなリードは、最終的に複数の標的領域に対する変異としてカウントされないように追跡できる。
【0052】
ブロック160において、残りのシーケンスリードが標的領域由来であるか、または前に同定したゲノムの代替領域由来であるかを決定する。例えば、リードと標的領域との間のバリエーションの数、及びリードと代替領域との間のバリエーションの数を使用してどちらがより良好にマッチするかを決定してもよい。直接リードを代替領域にアラインさせることによって、あるいは標的領域と代替領域との間の既知のバリエーションを用いることによって、リードと代替領域との間のバリエーションの数を決定できる。いずれの場合でも、代替領域がすでに同定されているので、余分な作業の量は、全ゲノムをアライメントする場合に比べて比較的少ない。
【0053】
代替領域は、例えば、バリエーションの数が閾値の範囲内である標的領域と類似する領域として同定できる。このような閾値は、ブロック150で使用される閾値より少ないことがあり得る。代替領域を同定するための技術の例を、以下、より詳細に説明する。
【0054】
残りのシーケンスリードが標的領域由来であるかまたはゲノムの代替領域由来であるのかを決定することに加えて、普遍的な変異に関する既知のデータベースと比較することにより、変異が普遍的な変異であるか否かを決定することもできる。これらの変異は、同じ標的領域についてのものであり得る。このような普遍的な変異は、使用される参照ゲノムとは異なるヒトの特定集団または亜集団について起こることもある。また、代替領域は、異なるゲノム由来、例えば、生物試料内に偶然存在していただけであるだろうウイルスのゲノムデータベース由来であることもある。
【0055】
ブロック170において、標的領域における変異を同定するために標的領域由来のシーケンスリードを使用する。この工程の一部として、各バリエーションの頻度を決定できる。例えば、標的領域内の特定の位置について、通常のAの代わりにGが現れる変異の回数をカウントできる。G変異が見られる回数の割合は、その位置にアラインした全リードから決定できる。一実施形態では、特定の変異の割合は、実際の変異と考えられる閾値(存在フィルタ)よりも大きい必要があり得る。一緒に起こるバリエーションを同定でき、そして同じ変異の一部として分類してもよい。
【0056】
医師は、同定された変異を見て、癌の素因を診断するか、または腫瘍が癌性であると同定するために使用することができる。例えば、変異は、癌に関連するものとして同定されている様々な領域についての変異に類似したものであってもよい。既知の変異が除外された後に同定された変異は、新しい変異であろう。腫瘍が癌性であることが分かった場合、これらの新しい変異は、癌に関連しているとすることができる。
【0057】
変異数フィルタ(MCF)
シーケンスリードを特定の標的領域にアラインする際、標的領域と大きく異なるリードもある。これは、いくつかの標的領域が同時に解析されているため、浮遊ゲノムセグメントが濃縮中にプローブによって捕捉されているため、クローニングされていないゲノムセグメントをシーケンシングしてしまったため、またはその他の理由のため、と考えられる。上述のように、1つのフィルタは、変異数フィルタ(MCF)である。このフィルタは、標的と大きく異なるシーケンスリードを除外する。
【0058】
リードが標的と大きく異なる場合、多くのバリアントがあるということを示す。MCFフィルタはこのような状況で使用することができる。バリエーションの総数に関する閾値を用いてもよいし、または特定の種類のバリエーションの数に関する閾値を用いてもよい。両方の種類の閾値を一緒に使用してもよい。
【0059】
いくつかの実施形態では、認識されたプライマーと共に、全てのリードについて以下のパラメータを用いてこのフィルタを使用できる:置換数>6、またはホモポリマーインデルの数>5、または他の単純変異の数>5、または単純変異の総数>10。他の実施形態では、以下のパラメータを用いる:置換数>12、ホモポリマーインデルの数>10、または他の単純変異の数>12、または単純変異の総数>2。
【0060】
図2Aは、ゲノムの標的領域に対する参照配列200を示す。小文字は、遺伝子特異的プライマーを示し、大文字は、対象のゲノム標的領域を示す。図示の例では、フォワードプライマーは15塩基、リバースプライマーは15塩基を有する。具体的に、この配列は、CDKN2A_Exon_l由来である。
【0061】
図2Bは、本発明の実施形態に係るMCFによってフィルタリングして除外されたシーケンスリード250を示す。1の実験では、シーケンスリード250と同じパターンを有する325個のフォワードリードおよび252個のリバースリードがあった。記号「/」は、フォワードプライマー内のマッチ塩基を示し、記号「\」は、リバースプライマー内のマッチ塩基を示し、点は、標的内のマッチ塩基を示し、小文字は、挿入塩基を示し、大文字は、置換塩基を示す。
【0062】
ここに見られるように、プライマーが完全にマッチしていても、多くのバリエーションがある。多くの変異があるため、これらのリードは、MCFによってフィルタリングにより除外され、変異集計に使用されない。一実施態様では、変異集計(mutation tally)とは、標的領域に対応すると決定されたシーケンスリード内に現れる標的領域の各位置にある変異の数のことである。集計は、同じシーケンスリード上に発生する傾向がある変異を含み得る。
【0063】
調査の結果、シーケンスリード250が、第20染色体上のカドヘリン4プレプロタンパク質とほぼ完全にアラインすることが判明した(CDKN2A遺伝子は第9染色体上にあることに留意)。よって、これらの誤ったリードは、ゲノムの異なる領域、すなわち、標的領域以外の領域の意図しない増幅によるものであり得る。(プライマー領域における)クエリ配列の5’末端における1つの追加塩基およびクエリ配列の3’末端における4つの追加塩基を除いてアライメントはほぼ完璧である。本研究により、MCFが標的と大きく異なるゲノムセグメントを除外できることが示唆される。また、標的領域のみを増幅できる忠実度が高い酵素の開発が重要であることも示唆される。
【0064】
III.代替領域
増幅に用いたプライマーがあまり特異的ではないことがあり得て、ゲノムの他の領域の一部または全部が標的領域に類似しているとき(例えば、他の領域は5箇所で異なる場合)、当該他の領域が増幅されることがあり得る。したがって、シーケンシングの前の標的化手順において、図2Aおよび2Bに示すようなゲノムの意図しない部分が増幅されることがある。同様に、標的を捕捉するための濃縮プローブがあまり特異的ではないこともあり得る。
【0065】
このような類似配列は、標的領域の変異リードとして同定されることがあっても、実際には単にゲノムの別の部分由来の野生型配列である。よって、ゲノムの別部分由来のこれらの配列が偽陽性の結果になり得る(すなわち、誤って変異として同定され得る)。得られた非標的シーケンスリードは標的領域とは非常に異なるので、変異数フィルター(MCF)が使用できる。しかし、その違いがあまり大きくない場合があり、増幅および/または捕捉されたゲノムの他の部分由来のリードが存在したままであることがある。これらのリードは、標的、例えば、3〜7個のバリエーションのみを持つものと非常に類似することもある。これらのリードは、標的領域と類似するが、標的ではないので、標的遺伝子の変異の集計から除外すべきである。
【0066】
図3は、本発明の実施形態に係る、標的配列(すなわち標的領域)320(配列番号4)に対するシーケンスリード310(配列番号3)の比較を示す。シーケンスリード310を5つの列の各上部に示し、標的配列320を5つの列の各下部に示す。シーケンスリード310の位置をラベル311で示す。0ベースのアンプリコン座標系を使用して1番上の行は第1〜60位を示し、上から2番目の行は第61〜120位を示し、3番目の行は第121〜180位を示し、4番目の行は第181〜239位を示し、5番目の行は第240〜248位を示す。第1〜24位はフォワードプライマーに対応し、末端26位はリバースプライマーに対応し、これらの間に標的領域がある。
【0067】
BLAST(Basic Local Alignment Search Tool)では、シーケンスリード310は第22染色体上の偽遺伝子と完全にマッチし、標的配列320は第3染色体上のPIK3CA_Exon_10に対応していた。BLASTを用いた標的配列320に対するシーケンスリード310のアライメントを図3の比較に示す。シーケンスリード310および標的配列320で対応する位置の間の垂直線はそれぞれマッチを示し、垂直線が無い場合はミスマッチを示す。シーケンスリード310は、標的領域320の代替領域の例である。
【0068】
アライメントにより3つのバリアントが存在すること、つまり、1つのバリアント331がプライマー領域の第6位にあり(C→Tの置換)そして残り2つのバリアント332および333が標的領域にあることが示される。バリアント332は第174位にあり、A→Cの置換を示す。バリアント333は、第198〜199位における2つの置換、つまりGT→Cの置換(ここで、Tは削除される)から成る。別の実施形態では、バリアント333は、2つの異なるバリエーションとしてカウントされる。プライマー領域の第6位にあるバリアント331により、プライマーにミスマッチがある場合でもバイブリダイズし得ること、プライマーが生化学的に変化してゲノムの異なる部分にハイブリダイズし得ることが示される。比較的長い配列内で2つのバリエーションのみしかないということは、真陽性は2つ以上のバリエーションを有し得るので、MCFは全ての偽陽性を除外しておらず、MCFのカットオフに依存し得ることが示される。
【0069】
これらの2つのバリアント332および333(変異の組み合わせの一例)の存在は、第3染色体上のPIK3CA_Exon_10の変異として分類すべきではなく、実際は第22染色体上の偽遺伝子に相当するのであろう。従って、コンピュータシステムが、シーケンスリード内に偽遺伝子とマッチする2つのバリアント332および33を発見した場合、これらのシーケンスリードを最終集計にカウントするべきではない。本明細書に詳述するように、これと同じアプローチを、標的領域320と類似する他の代替領域および別の標的領域に適用することができる。
【0070】
図4は、本発明の実施形態に係る、標的配列(すなわち標的領域)420に対するシーケンスリード410の比較の別の例を示す。標的配列420を3つの列の各上部に示し、シーケンスリード410におけるバリアントを3つの列の各下部に示す。標的配列420とシーケンスリード410間のマッチを点「.」で示し、バリエーションを異なる塩基で示す。
【0071】
シーケンスリード410はCDKN2Bに相当し、標的配列420はCDKN2A_Exon_2.1に相当する。図に見られるように、CDKN2BとCDKN2A_Exon_2.1は類似している。3つのバリアント431、432、および439がプライマー領域にある。バリアント431および432はフォワードプライマー内にあり、バリアント439はリバースプライマー内にある。
【0072】
標的領域には6つの変異(バリアント)がある。バリアント433は第54位にあり、AからCの置換を示す。バリアント434は第99位にあり、C→Aの置換を示す。バリアント435は第105位にあり、C→Tの置換を示す。バリアント436は第123位にあり、C→Gの置換を示す。バリアント437は第129位にあり、C→Tの置換を示す。バリアント438は第123位にあり、C→Tの置換を示す。バリアントの組み合わせを使用して、CDKN2BのリードをCDKN2A_Exon_2.1の変異集計から除外できる。CDKN2Bの変異の確率を考えると、一実施形態では、シーケンスリードがバリアントの数(この例では、バリアントは4つ以上)の半分超を有する場合、このシーケンスリードをCDKN2A_Exon_2.1の集計から除外できる。
【0073】
図5は、本発明の実施形態に係る、標的配列(すなわち標的領域)520に対するシーケンスリード510の比較の別の例を示す。標的配列520を3つの列の各上部に示し、シーケンスリード510におけるバリアントを3つの列の各下部に示す。標的配列520とシーケンスリード510間のマッチを点「.」で示し、バリエーションを異なる塩基で示す。
【0074】
標的配列520はPTEN_Exon_5.1.2に相当し、シーケンスリード410は類似するゲノムセグメント(すなわち、代替領域)に相当する。1つのバリアント531はプライマー領域にあり、3つのバリアント532〜534は標的領域内にある。バリアント532はG→Aの置換を示す。バリアント533はA→Tの置換を示す。バリアント534はG→Aの置換を示す。標的領域におけるバリアントの組み合わせを使用して、これらのリードをPTEN_Exon_5.1.2.の変異集計から除外できる。代替領域を同定するために、種々の方法、例えば、本明細書に記載の実施形態を使用できる。
【0075】
IV.標的および代替領域の間の区別
上記に示すように、ゲノム(例えば、ヒトゲノム)の一部がゲノムの他の部分と類似することがある。その結果、ターゲットシーケンシングプロセス(例えば、ユニバーサルアダプターを使用したシーケンシング後に続く増幅または濃縮)から得られたシーケンスリードが標的領域に類似していても、実際にはゲノムの他の部分由来であることがある。例えば、一対の増幅プライマーが、ゲノムのある1つの箇所より多くの箇所を増幅することがある。プライマーをうまく設計すると、このような意図しない増幅を低減し、または避けることが可能なこともあるが、必ず可能というわけではない。
【0076】
ゲノムセグメントが実際は非標的領域由来であることを同定するために、アルゴリズムにより、シーケンスリードを全ゲノムにアラインさせベストマッチを見つけることはできる。しかし、全ゲノムに配列をアラインさせるのは、計算時間の点で非常に高くつく。特に、全ヒトゲノムに対し大量のリードをマッピングすることは、計算する時間および資源の点で大変である。
【0077】
いくつかの実施形態では、代替領域に関する情報をほとんど又は全く有さない場合にマッピングプロセスを促進するために以下のことができる:(1)対象の参照遺伝子に類似する代替シーケンスセグメントを同定する、(2)リードを対象の参照遺伝子に対しマッピングする、(3)リードを代替セグメントに対しマッピングする、そして(4)(1)および(3)から最良のマッピングを見つける。リードは、いくつかの検査領域にアラインさせてもよい。この場合、アラインメントの品質(例えば、ミスマッチの数)によりベストマッチを決定できる。
【0078】
ある実施形態では、計算速度を向上させ、コンピュータのメモリ要件を削減できる。また、ある実施形態では、さらに高速な計算を行うために、並列計算を利用することができる。実施形態は、シーケンシングに限定されない。例えば、シークエンシングを用いてPCRおよび濃縮の結果を解析できるので、実施形態は、PCR検査および濃縮ベースの検査における偽陽性の原因として可能性があるものを同定するために用いることができる。
【0079】
図6は、本発明の実施形態に係る、生物の試料ゲノムの標的領域におけるバリアントを検出する方法を示すフローチャートである。方法600は、癌に関連し得るバリアントを検出するために用いるプロセスの一部として使用することができる。代替領域は、前に実行したプロセスで同定済みであってもよく、あるいはバリアントを検出するために使用される同じプロセスの一部として(例えば、同じシーケンシングの結果を使用して)同定してもよい。
【0080】
ブロック610において、複数のシーケンスリードを受け取る。シーケンスリードは、生物(例えば、ヒトまたは動物)から得られた試料中の複数のゲノムセグメントをシーケンシングすることから得られる。シーケンシングは標的領域由来のゲノムセグメントを標的化することを含む。例えば、増幅または濃縮工程を行って、試料中の1つまたは複数の標的領域由来のゲノムセグメントの割合を増加させることができる。そうすると、シークエンシングを行う際に、(例えば、ユニバーサルアダプターを使用して)標的領域由来のゲノムセグメントをシーケンシングする確率が増大する。一実施形態では、試料当たり約3,000個のシーケンスリードを受け取る。他の実施形態では、それより多いまたは少ない数を受け取ることもある。
【0081】
ブロック620において、参照ゲノムの標的領域由来のバリエーションの第1数をそれぞれ有する1つまたは複数の代替領域を同定する。それぞれの各第1数は、1より大きく、第1閾値数よりも小さい。例えば、第1領域が、参照ゲノムの標的領域と異なる5つのバリエーション有することがある。第1閾値数が5超である場合、当該第1領域が第1代替領域として同定できる。
【0082】
複数の代替領域が存在する場合、異なる代替領域は、標的領域に対するバリエーションの数が異なっていてもよく、したがって、それぞれの各第1数が異なっていてもよい。第1閾値数の例としては、実数(すなわち、整数のみではない)を含む、6〜10の間の値である。代替領域は、既知の変異や他のゲノム由来の領域を含み得る。例えば、代替領域は、ウイルスゲノムまたは他の埋め込み配列に対応し得る。
【0083】
一実施形態では、代替領域は、以前に標的領域に対応するものとして同定した代替領域を保存するデータベースにアクセスすることによって同定できる。例えば、標的領域は、対応する識別子を有してもよく、その識別子を、標的領域に対応する1つまたは複数の代替領域を相互参照するのに使用できる。よって、ユーザがソフトウェアに特定の標的領域を入力すると、ソフトウェアが、現在のシーケンシングランの結果を解析するのに使用するための代替領域をメモリから取り出すことができる。別の実施形態では、代替領域は、現在のシーケンシングランからのデータを使用して同定できる。
【0084】
ブロック630において、バリエーションの第2閾値数より小さい数で参照ゲノムの標的領域へアラインするシーケンスリードのセットを同定する。例えば、BLASTの使用といった適切なプロセスにより、複数のシーケンスリードが、参照ゲノムの標的領域にアラインすることがある。バリエーションの数は、塩基が異なる位置の数としてカウントできる。別の実施形態では、隣接位置に差異が存在する場合、1つのバリエーションとして扱うことができる(1つの連続体を1つの位置特異的な数とする)。
【0085】
第2閾値数は任意の値であり得る。一実施形態では、第2閾値数は、第1の閾値数の半分に1を加えたものである。例えば、第1閾値数が10である場合、第2の閾値数は6として選択し得る。そのような選択の理由を、以下に説明する。第2閾値数は第1閾値数と同じかそれ以上の場合もあるが、本明細書に記載の理由のために、値がより小さいほうがより効率的な結果を提供できるからである。
【0086】
1つの試料を、同時に複数の標的領域について検査できる。したがって、アライメントを、標的領域それぞれに対して行うことができる。しかし、標的がメモリから既に同定されて得られていれば、検査対象である標的領域に対するアライメントしか行う必要がない。したがって、試料を第1標的領域および第2標的領域について検査する場合、シーケンスリードは第1標的領域および第2標的領域のみに対しアラインしてもよい。
【0087】
ブロック640において、第3閾値数よりも小さいバリエーション数である第2数で代替領域の1つとアラインするシーケンスリードを、セットから除外することができる。一実施形態では、第3閾値数は対応するバリエーションの第1数の半分で、セットから除外する。例えば、第1代替領域は、標的領域に対し6つのバリエーションを有するとする。この場合、対応するバリエーションの第1数は6である。第1シーケンスリードが、第1代替領域に対し2つのバリエーション(そしておそらく標的領域と異なるバリエーションが4つ)を有する場合、当該第1シーケンスリードを除外する。第1シーケンスリードが第1の代替領域により類似する場合、標的領域の変異ではなく、代替領域の変異の結果であると推定できる。代替領域に対しより良好にアラインするそのような配列のすべては、典型的には除外するが、特定の基準によりかかるシーケンスリードの一部を維持するような例外を設けてもよい。
【0088】
別の実施形態では、より厳しいまたはより厳しくない第3閾値数、すなわち、対応するバリエーションの第1数の半分よりも小さいまたは大きい数を使用することができる。例えば、第3閾値数は、1と等しい(バリエーション無)ことがあり得る。しかし、異なる患者から代替領域が決定されメモリから取得された場合、現在の試料内の代替領域に対し変異となってしまうようなリードもセット内に生じてしまう。このような問題に対処するために、シーケンスリードは、シーケンスリードが代替領域にアラインするレベルを示すようにマークすることができる。例えば、代替閾値と異なる1または2つのバリエーションを有するシーケンスリードを保持するものの、代替領域と類似しているものとしてマークできる。代替領域のバリエーションの第1数が十分に大きい(例えば、10)場合、シーケンスリードの差異レベルについての他の基準値も、より大きな数(例えば、3または4)であり得る。
【0089】
代替領域に対するシーケンスリードのアラインメントは、標的領域に対するアラインメントと同一または類似のプロセスを使用して行うことができる。例えば、BLASTが使用できる。別の実施形態では、代替領域に対するシーケンスリードのアライメントは、標的領域と代替領域と間のバリエーションおよび標的領域に対するアライメントの知識を用いて達成することができる。例えば、標的領域と代替領域との間に5つの特定のバリエーション(例えば、特定の位置における塩基の違い)があることが分かっている場合、標的領域に対するシーケンスリードのアラインメントが5つの特異的なバリエーションのうち4つを示すので、代替領域に対するアライメントは5番目の特異的なバリエーションを有することになる。これにより、標的領域と代替領域との間のバリエーションの知識を用いない生のアライメント手順を直接使用するよりアライメントが迅速になる。
【0090】
ブロック650において、セットの残りのシーケンスリードを解析して試料ゲノムの標的領域におけるバリアントを決定する。例えば、残りの配列のバリエーションをカウントできる。一実施形態では、特定の位置における各バリエーションがカウントされる。バリエーションが(例えば、ある絶対数と比較、またはセットにおける全リードの割合と比較して)十分な回数で起こる場合、そのバリエーションを変異として分類できる。実施形態のカバー効率および感度を、全ゲノムをマッピングしてベストマッチを同定する計算集約的な技術と比較して評価できる。
【0091】
V.代替領域の同定
標的領域に対するバリエーションの第1閾値数よりも小さい数の1つまたは複数の代替領域の同定は、種々の方法で行うことができる。1つの方法は、データベース全体を検索して類似の配列を見つけることである。しかし、このアプローチは、時間がかかり、類似する配列が実験ではどのように増幅されるのかについての情報を欠くこともある。
【0092】
他のアプローチとして、同じシーケンスリードに生じる複合変異(例えば、変異の組み合わせ)を利用することがある。2つ以上の単純変異の組み合わせによる共同的な頻度を示す報告を作成できる。十分な量(例えば、少なくとも1%)で生じる変異の組み合わせだと、その変異が本当に代替領域の存在を示すことになる。このような代替ゲノムセグメントは、標的領域に共通する変異由来のものであることもある。例えば、異なる集団間(例えば、ヨーロッパ系対アジア系)で共通の変異が起こり得るが、ここで1つの集団のセグメントを異なる集団のセグメントの代替として考えることもできる。
【0093】
一実施態様では、変異集計に大きな影響を与える代替ゲノムセグメントとなる単純変異の組み合わせについて、特定の条件を用いることができる。条件の例は以下の通りである。第1に、組み合わせ変異は、複数の試料およびトレーニングデータセットの複数回のランに現れなくてはならない。第2に、試料内の組み合わせ変異の頻度は無視できるものであってはならない(例えば、1%超)。第3に、対応する配列は、標的と異なるゲノムセグメントとほぼ完全に一致しいなくてはならない(例えば、1つまたは2つのミスマッチのみ)。
【0094】
図7は、本発明の実施形態に係る、標的領域に対応する代替領域を同定する方法700のフローチャートである。方法700は、1つまたは複数の検査試料に対する初期プロセスとして実行でき、特定の標的領域に対応するものとして同定された代替領域(単数または複数)を、保存したりまたはソフトウェアとしてエンドユーザ(例えば、ラボ)に提供できる。このように、エンドユーザが代替領域を同定する必要がない。よって、ユーザがソフトウェア内の特定の標的領域を入力した後、このソフトウェアにより、現前に同定されたこれらの代替領域をメモリから取得して在のシーケンシングランの結果の解析に使用できる。
【0095】
ブロック710において、複数のシーケンシングリードを得る。本明細書に記載するように、シーケンシングプロセスは、1つまたは複数の標的領域を標的とすることを含む。一実施形態では、方法700は、変異を同定するために使用する検査シーケンスランの前に実施される初期シーケンシングランから得られるシーケンシング結果を用いて行うことができる。この初期シーケンシングランでは、変異について検査する対象の試料と異なる調査用試料を用いることができる。調査用試料は、同じ生物または異なる生物由来であり得る。この初期シーケンシングランで、同様の量のリード(例えば、2,000〜3,000個)を得ることができる。このような初期シーケンシングランを使用して、他の患者のために今後検査を実行するのに使用し得る代替領域を同定し得る。別の実施形態では、変異を同定するのに使用したシーケンスリードと同じリードの少なくとも一部を用いて、代替領域を同定できる。したがって、同一のシーケンシングランを用いてもよい。
【0096】
ブロック720において、同じ複数の位置で参照ゲノムの標的領域と異なるシーケンスリードの数をカウントする。標的領域に対し同一のバリエーションを有するシーケンスリードは同一の代替領域に関するものであり得るので、同じ代替グループに割り当てることができる。バリエーションが同じなので、これらのリードは、ゲノム内の代替領域であることを示唆し得る。例えば、100個のシーケンスリードが、全く同じ6つのバリエーションについて標的領域と異なる場合がある。これらの100個のシーケンスリードを同定し、100のカウントを保存および追跡できる。
【0097】
これらのシーケンスリードは、連続する領域、例えば、標的領域と比較される領域内で互いに同一であり得る。しかし、いくつかの実施形態では、シーケンスリードは、かかる連続する領域内で同一である必要はない。例えば、シーケンスリードは、ある中間の領域で異なっていてもよい。代替配列におけるこのような差異は、絶対値または割合として設定されている特定数より小さいことが必要なことがある。例えば、代替グループのシーケンスリードは、これらのバリエーションの少なくともX%(例えば、70%、80%、または90%)が共通していなくてはならない場合がある。代替グループにおけるこのような差異は、二つのゲノムセグメントが同じ代替領域由来であるが異なる染色体由来であるヘテロ接合変異によるものであることもある。
【0098】
一実施形態では、シーケンスリードは、代替グループのシーケンスリード間で差異があっても許容されている場合、クラスタ化することができる。座標は、各位置での基準値にすることができる。クラスタの重心を同定することができ(例えば、最も共通する配列)。そして塩基の特定の数で異なる配列を含めることもできる。
【0099】
一実施形態では、代替グループの共通するバリエーションの数は、指定された値を上限とすることができる。例えば、バリエーションの閾値数(例えば、方法600から得た第1の閾値)よりも多く標的領域とは異なるリードを、代替グループへ追加するか否かの考慮から除外できる。この閾値は、MCF手順に使用したものと同じであり得る。このようなリードは通常のランで除外されるので、リードをカウントしない代替領域を決定するのはあまり意味がないかもしれない。
【0100】
一実施形態では、代替グループに追加するためのシーケンスリードを検討するための閾値は、MCFの閾値より大きいことがあり得る。例えば、いくつかのシーケンスリードはMCFより小さいが代替領域により類似しているので(例えば、代替領域についてのMCFが10で、第1の閾値が14であり、代替領域により類似するシーケンスリードが8)、このような代替領域(すなわち、MCFより多くのバリエーション)が有用なことがある。したがって、この閾値は、MCFの値の2倍であることもある。別の実施形態では、代替グループに追加するためのシーケンスリードを検討するための閾値は、代替領域におけるバリエーションの数についての最終的な閾値要件よりも大きいことがある。例えば、代替領域のシーケンスリードが互いに同一でなくてもよい場合、許容される共通バリエーションの数に関する閾値より大きい数を有するシーケンスリードもある。
【0101】
ブロック730において、指定量(カットオフ値)よりも大きいカウント数のシーケンスリード(例えば、代替グループ)を決定する。また、この指定量は、フィルタが沢山あるようなものと考えることができる。例えば、指定量は、絶対数(例えば、200または300)、あるいはリードの合計の割合(例えば、1%)であり得る。一態様では、変異の組み合わせがゲノムの実際の部分由来である場合、このような小さいカウントは起こらないと仮定する。
【0102】
一緒に起こると判断されたバリエーションについての複数の代替グループが出力される。この方法だと、ほんの少数のリードが変異を有する場合、バリエーションは人工的なもので、ゲノムの実際の部分とは関係ないものである可能性がある。また、このようなリードは、多くのフィルタに通すと残らないであろうから、あまり利点がないこともある。
【0103】
ブロック740において、標的領域についての既知の変異に対応している代替グループを除外できる。この工程は、他の方法の別工程であってもよく、任意である。データベースにより、発生するのがわかっている変異、または医学的に意味のある変異を検索し得るが、病気に関係が無い変異であることもある。後者の場合、このような既知の変異が、ある集団において有意な割合で発生する可能性がある。参照は試料と同じ集団から選択することができるし、あるいは単純に既知変異がその集団の特有の既知変異を含んでいてもよい。シーケンシングデータが実際の検査試料についてのものである場合、このように既知変異に対応しているときに試料の変異を呼び出すことになり得る。
【0104】
ブロック750において、残りの代替グループのシーケンスリード(すなわち、数が指定量より大きいリード)を参照ゲノムにアラインできる。代替グループのリード間でのバリエーションの任意の位置を、独立してアラインさせることができる(例えば、SNPの各対立遺伝子に対し2回アラインさせる)。例えば、2つのサブクラスタを、複数の類似する配列(例えば、SNPその他の多型により異なる)を有する1つのクラスタとして同定してもよく、両方のサブクラスタをアラインさせてもよい。
【0105】
ブロック760において、そのグループのリードの第1領域に対するアライメントが標的領域に対するアライメントよりバリエーション数が少ない場合、その第1領域を代替領域として同定できる。したがって、このアライメントにより、最も良くマッチする領域を提供できる。標的領域により良くマッチする(または、潜在的に同じである)別の領域がある場合、その領域を代替領域として同定し得る。その場合、これらの代替領域がメモリに格納されて、該標的領域を将来のランで用いるときに使用できるようにアクセスし得る。例えば、ユーザがコンピュータへ標的領域を入力でき、コンピュータが代替領域を同定するためにデータベースを検索できる。
【0106】
一実施形態では、代替領域が見つからない(すなわち、より良くマッチする別の領域がない)場合、これら複数のバリエーションが標的領域の複数の変異であるとして同定できる。かかる変異は、既知の変異に関するデータベースに格納され、上記の方法で使用することができる。
【0107】
一例として、シーケンシングランから得たリードのアライメントにより、第2237〜2248位でのEGFRエキソン19における新しい変異が示された。この変異は、AATTAAGAGAAG→CCCの置換(配列番号9および10)であった。第2250位(A→G)における置換が同様の頻度で現れることが発見されたので、この変異は組み合わせ変異であり共同的に発生したことが示唆される。この変異が同じリードで発生することが確認された。よって、この変異は、2つの単純変異の組み合わせである第2237〜2250位におけるAATTAAGAGAAGCA→CCCCGへの置換(配列番号11および12)であるはずだ。複合変異を報告することは、2つ以上の単純変異が同様の頻度であることを単に同定するよりも優れている、というのはそれらが同じリード内に現れず、共同的に発生する頻度が低いこともあるからである。また、組み合わせのサブセットが高い共同的頻度であらわれ、全体の組み合わせの頻度が不均一になることもあり得る。
【0108】
従って、複合変異に関する報告を用いる実施形態では、標的に対し2つ以上の単純なバリアントを有する代替ゲノムセグメントを効率的に見つけることができる。代替ゲノムセグメントが、標的に対し0または1のバリアントを含有することもある。一実施形態では、プライマーの設計において、異なるゲノム位置由来で同一のセグメントを除外するための努力がされてきた。差異が1つしかない単純なバリアントである場合、単純なバリアントに関する報告を上述の実施形態と共に用いて、標的とは1つのみが異なる単純なバリアントを有する偽陽性リードを同定し除外できる。
【0109】
図9の表は、複数の試料および複数のラン中に現れる複合変異(単純変異の組み合わせ)を示す。複合変異は、図3〜5の実施例に対応する。データベース検索により、代替ヒトゲノムセグメントに対応するように正規化した。前述のように、この検索はウイルスなどの他の生物に拡張できる。
【0110】
濃縮では、標的領域と類似する代替シーケンスセグメントの同定を次のように進めることができる。いくつかの実施形態では、異なる目的に応じて、対象の標的遺伝子は、スプライシング部位に隣接する標的エキソンを含み得るか、あるいはプロモーター、5’−UTR、3’−UTR、イントロン、エキソンを含み得る。標的配列を重複する小さなセグメントに分割することができ、例えば、1つのセグメントが150塩基長で、2つの重複セグメントが75塩基の重複を有することもある。これらのセグメントをリードとして扱い、類似度の高い代替セグメントを見つけるために全ゲノムにマッピングしてもよい。これらの代替セグメントは、1つまたは複数のファイルに含めてもよい。新たなマークをつけることもでき、新たな参照配列の座標を元のゲノム座標に関連付ける、例えば、標的領域に対する代替領域を同定する工程の一部として関連付けることもできる。
【0111】
VI.コンピュータシステム
本明細書に記載のコンピュータシステムは、任意の適切な数のサブシステムを用いることができる。コンピュータ装置800内におけるかかるサブシステムの例を、図8に示す。いくつかの実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、ここで、サブシステムがコンピュータ装置の構成要素となる。別の実施形態では、コンピュータシステムは複数のコンピュータ装置を含み得て、それぞれのサブシステムは内部構成要素を有する。
【0112】
図8に示すサブシステムは、システムバス875を介して相互に接続されている。プリンタ874、キーボード878、記憶装置879、およびディスプレイアダプタ882に接続されたモニタ876等の追加サブシステム等を示す。周辺機器及びI/Oコントローラ871につながっている入力/出力(I/O)装置は、例えば、シリアルポート877等、当技術分野で公知の任意の数の手段でコンピュータシステムに接続することができる。例えば、シリアルポート877または外部インタフェース881(例えば、イーサネット(登録商標)、Wi−Fiなど)を使用して、コンピュータシステム800をインターネットなどのワイドエリアネットワーク、マウス入力装置、またはスキャナに接続できる。システムバス875を介する相互接続により、中央プロセッサ873と各サブシステムとを通信させ、システムメモリ872または記憶装置879(例えば、固定ディスク)からの命令の実行を制御すること、ならびにサブシステム間で情報の交換をすることが可能になる。システムメモリ872及び/又は記憶装置879により、コンピュータ可読媒体を具現化できる。本明細書に記載の任意の値を、一つの構成要素から別の構成要素に出力することもでき、ユーザに出力することもできる。
【0113】
コンピュータシステムは、例えば、外部インタフェース881によってまたは内部インタフェースによって互いに接続されている複数の同じ構成要素またはサブシステムを含んでもよい。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワークを介して通信できる。かかる例では、一つのコンピュータをクライアント、そして別のコンピュータをサーバと考え、それぞれを同じコンピュータシステムの一部とすることができる。クライアントとサーバは、それぞれの複数のシステム、サブシステム、または構成要素を含み得る。
【0114】
なお、本発明の任意の実施形態は、ハードウェア(例えば、アプリケーションに特異的な集積回路またはフィールドプログラマブルゲートアレイ)および/またはコンピュータソフトウェアを用いた制御ロジックの形態で、一般にプログラム可能なプロセッサと共に、モジュール式または集積的に実施可能であることが理解されるべきである。本明細書では、ユーザとしてのプロセッサとして、同一の集積チップ上のマルチコアプロセッサ、または単一の回路基板上もしくはネットワーク化された複数の処理ユニットが挙げられる。本明細書で提供される開示および教示に基づき、当業者は、ハードウェアやハードウェアとソフトウェアとの組み合わせを用いて本発明の実施形態を実施する他の手段および/または方法を知り理解するであろう。
【0115】
本出願に記載されているソフトウェアの構成要素または機能のいずれかを、例えば、従来技術またはオブジェクト指向技術などを用いて、例えば、Java(登録商標)、C++、またはPerlといった任意の適切なコンピュータ言語を使用するプロセッサにより実行されるソフトウェアコードとして実現してもよい。ソフトウェアコードを、一連の命令又はコマンドとして保存および/または送信用のコンピュータ可読媒体に保存でき、適切な媒体としては、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードドライブまたはフロッピー(登録商標)ディスクといった磁気媒体、コンパクトディスク(CD)またはDVD(デジタル多用途ディスク)といった光媒体、フラッシュメモリ等が挙げられる。コンピュータ可読媒体は、かかる保存または伝送装置の任意の組み合わせであってもよい。
【0116】
このようなプログラムを、インターネットを含む種々のプロトコルに従った有線、光、および/または無線ネットワークを介した送信用に合わせたキャリア信号を用いてコード化し送信してもよい。このように、本発明の実施形態に係るコンピュータ可読媒体は、プログラムを用いてコード化されたデータ信号を使用して作成できる。プログラムコードを用いてコード化されたコンピュータ可読媒体を互換性のあるデバイスと共にパッケージングしてもよいし、または他のデバイスと別個に(例えば、インターネットダウンロードを介して)設けてもよい。かかる任意のコンピュータ可読媒体を、単一のコンピュータプログラム製品(例えば、ハードドライブ、CD、またはコンピュータシステム全体)上または内部に設けてもよいし、システムまたはネットワーク内の異なるコンピュータプログラム製品内に設けてもよい。本明細書における任意の結果をユーザに提供するためのモニタ、プリンタ、または他の適切なディスプレイを、コンピュータシステムに含めてもよい。
【0117】
本明細書に記載の任意の方法は、各工程を実行するように構成できる1つまたは複数のプロセッサを含むコンピュータシステムを用いて全体的にまたは部分的に実行できる。したがって、ある実施形態では、本明細書に記載の任意の方法の工程を実行するように構成されたコンピュータシステムに関するものであってもよいし、これを各工程または各工程群を実行する別の構成要素と共に用いてもよい。工程に番号を付して示しているが、本明細書に係る方法における工程は、同時に行ってもよいしあるいは異なる順序で行ってもよい。さらに、これらの工程の一部を、他の方法の別工程の一部と共に用いてもよい。また、工程の全部または一部が任意であってよい。加えて、これらの方法の工程のいずれかを、これらの工程を実行するためのモジュール、回路、または他の手段で行ってもよい。
【0118】
特定の実施形態の具体的な詳細事項は、本発明の実施形態の精神および範囲から逸脱することなく、任意の適切な方法で組み合わせることができる。しかしながら、本発明の他の実施形態は、個々の態様に関する具体的な実施形態、またはこれらの個々の態様の具体的な実施形態の組み合わせに関するものであってもよい。
【0119】
本発明の例示的な実施形態についての上記の説明は、例示および説明の目的のために示すものである。本発明を網羅する、あるいは説明した記載そのものに限定するという意図ではなく、多くの改変および変形が上記の教示に照らして可能である。ある実施形態では、当業者が実施形態を種々改変して考えられる特定の用途に適する形で本発明を利用できるように、本発明の原理及びその実際の応用を最も良く説明するために選択され記載されている。
【0120】
「a」、「an」または「the」は、特に反対の指示が無い限り、「1つまたは複数」を意味する意図である。
図1
図2A
図2B
図3
図4
図5
図6
図7
図8
図9-1】
図9-2】
図9-3】
図9-4】
【配列表】
[この文献には参照ファイルがあります.J-PlatPatにて入手可能です(IP Forceでは現在のところ参照ファイルは掲載していません)]