(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024001120
(43)【公開日】2024-01-09
(54)【発明の名称】シーケンスリードの独立したアラインメントおよびペアリングによって高度に相同なシーケンスにおける遺伝的変異を検出するための方法
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20231226BHJP
C12Q 1/686 20180101ALI20231226BHJP
C12M 1/00 20060101ALI20231226BHJP
【FI】
C12Q1/6869 Z
C12Q1/686 Z
C12M1/00 A
【審査請求】有
【請求項の数】38
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023171957
(22)【出願日】2023-10-03
(62)【分割の表示】P 2021527023の分割
【原出願日】2019-07-26
(31)【優先権主張番号】62/711,454
(32)【優先日】2018-07-27
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/730,479
(32)【優先日】2018-09-12
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】515015023
【氏名又は名称】ミリアド・ウィメンズ・ヘルス・インコーポレーテッド
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100196243
【弁理士】
【氏名又は名称】運 敬太
(72)【発明者】
【氏名】グローマン,ピーター
(72)【発明者】
【氏名】グールド,ジュヌビエーブ
(72)【発明者】
【氏名】マジー,デール
(57)【要約】 (修正有)
【課題】ゲノムの相同な領域における遺伝的変異を検出する改善された方法を提供する。
【解決手段】本明細書に記載の方法は、そのシーケンスがゲノムの1つまたは複数の他の領域に対して高度に相同である対象のゲノムにおけるゲノム領域の構造を解明する実験によるアプローチと分析によるアプローチを組み合わせる。例えば、ゲノム領域は遺伝子であってもよく、高度に相同な他の領域は偽遺伝子であってもよい。本方法は、遺伝的変異を特定するために、ゲノム領域および高度に相同な他の領域からのシーケンスリードの独立したアラインメント、ペアリング、および分析を含む。このような方法に対するコンピュータ補助法も本明細書に記載される。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが、目的物の高度に相同な第1の領域および第2の領域を含み、前記方法が、
(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、前記ステップと、
(b)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、前記ステップと、
(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、
(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、
(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップと
を含む、前記方法。
【請求項2】
ステップ(b)の前に、基準ゲノムに対して第1のリードおよび第2のリードをアラインするステップであって、アライナーが、第1のリードおよび第2のリードの各ペアについて、目的物の第1の領域または第2の領域に対して最良の可能なペアエンドアラインメントを発し、かつ目的物の第1の領域または第2の領域に対するトップアラインメントスコアに関連するペアエンドリードのみが、ステップ(b)において別々にアラインされる前記ステップを含む、請求項1に記載の方法。
【請求項3】
シーケンスリードが、目的物の多数の部位のダイレクトターゲットシーケンシング(DTS)によって得られ、第1のリードがゲノムシーケンスリードを含み、第2のリードが目的物の部位と関連したプローブシーケンスリードを含む、請求項1に記載の方法。
【請求項4】
ステップ(b)において、シーケンスリードが、Burrows-Wheeler Aligner(BWA)アルゴリズムを使用してアラインされる、請求項1に記載の方法。
【請求項5】
ステップ(b)において、アライナーが、目的物の第1の領域および第2の領域に関する最小のアラインメントスコアを満たすアラインメントのみを発する、請求項1に記載の方法。
【請求項6】
目的物の第1の領域に対する第1のリードおよび第2のリードのアラインメントが、互いに一定数の塩基の範囲内にある場合にのみ、第1のリードおよび第2のリードが、ステップ(d)においてペアリングされる、請求項1に記載の方法。
【請求項7】
目的物の第1の領域に対する第1のリードおよび第2のリードのアラインメントが、約100bp、約200bp、約200bp、約300bp、約400bp、約500bp、約600bp、約700bp、約800bp、約900bp、約1000bp、約1100bp、約1200bp、約1300bp、約1400bp、約1500bp、または1500bp超の範囲内の場合にのみ、第1のリードおよび第2のリードが、ステップ(d)においてペアリングされる、請求項1に記載の方法。
【請求項8】
ステップ(d)において、多数のペアアラインメントを生じるステップと、多数のペアアラインメントのそれぞれについてアラインメントスコアを計算するステップと、最も高いアラインメントスコアを有するものとしてトップペアアラインメントを特定するステップとを含む、請求項1に記載の方法。
【請求項9】
ステップ(d)におけるトップペアアラインメントが、最も小さな鋳型長を有するものとして選択される、請求項1に記載の方法。
【請求項10】
遺伝的変異が、SNP、インデル、逆位、および/またはCNVを含む、請求項1に記載の方法。
【請求項11】
ステップ(e)における検出するステップが、SNP、インデル、逆位、および/またはCNVをコールするステップを含む、請求項1に記載の方法。
【請求項12】
ステップ(e)における検出するステップが、コピー数を決定するための隠れマルコフモデル(HMM)コーラーを使用するステップを含む、請求項1に記載の方法。
【請求項13】
ステップ(e)における検出するステップが、2という予測倍数性に基づく、請求項1に記載の方法。
【請求項14】
ステップ(e)における検出するステップが、4という予測倍数性に基づく、請求項1に記載の方法。
【請求項15】
遺伝的変異がステップ(e)において検出される場合、対象のゲノムの一部がロングレンジPCRによって増幅され、マルチプレックスライゲーション依存性プローブ増幅(MLPA)によってアッセイされる、請求項1に記載の方法。
【請求項16】
遺伝的変異がステップ(e)において検出される場合、目的物の第1の領域の一部がロングレンジPCRによって増幅され、産物またはその部分がサンガーシーケンシングまたはNGSによってシーケンシングされる、請求項1に記載の方法。
【請求項17】
遺伝的変異がステップ(e)において検出される場合、対象のゲノムDNAは、マルチプレックスライゲーション依存性プローブ増幅(MLPA)によってアッセイされる、請求項1に記載の方法。
【請求項18】
シーケンスリードが、30~50bpまたは100~200bpの長さである、請求項1に記載の方法。
【請求項19】
目的物の高度に相同な第1の領域および第2の領域が、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または99%より高いパーセンテージで同一である、請求項1に記載の方法。
【請求項20】
シーケンスリードが、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンから得られる、請求項1に記載の方法。
【請求項21】
シーケンスリードが、目的物の第1の領域および/または第2の領域内の1つまたは複
数のイントロンから得られる、請求項1に記載の方法。
【請求項22】
シーケンスリードが、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンおよびイントロンから得られる、請求項1に記載の方法。
【請求項23】
シーケンスリードが、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンおよびイントロンから得られ、イントロンが、エクソンの付近に存在する、請求項1に記載の方法。
【請求項24】
シーケンスリードが、目的物の第1の領域および/または第2の領域と関連した1つまたは複数の臨床的に取り扱うことが可能な領域から得られる、請求項1に記載の方法。
【請求項25】
目的物の第1の領域が遺伝子を含み、目的物の第2の領域が偽遺伝子を含む、請求項1に記載の方法。
【請求項26】
目的物の第1の領域が偽遺伝子を含み、目的物の第2の領域が遺伝子を含む、請求項1に記載の方法。
【請求項27】
目的物の第1の領域が、2つの対立遺伝子を含む、請求項1に記載の方法。
【請求項28】
目的物の第2の領域が、2つの対立遺伝子を含む、請求項1に記載の方法。
【請求項29】
遺伝子が、PMS2である、請求項25~28のいずれか一項に記載の方法。
【請求項30】
偽遺伝子が、PMS2CLである、請求項25~28のいずれか一項に記載の方法。
【請求項31】
目的物の多数の部位が、対象のゲノムのPMS2のエクソンおよび別の部分のエクソン内に存在する、請求項1に記載の方法。
【請求項32】
目的物の多数の部位は、PMS2のエクソンおよびPMS2CLのエクソン内に存在する、請求項1に記載の方法。
【請求項33】
目的物の多数の部位が、PMS2のエクソン11、12、13、14、および/または15ならびにPMS2CLのエクソン2、3、4、5、および/または6内に存在する、請求項1に記載の方法。
【請求項34】
対象はヒトであり、シーケンスリードはヒト基準ゲノムに対してアラインされる、請求項1に記載の方法。
【請求項35】
コンピュータにより実装される、請求項1に記載の方法。
【請求項36】
基準ゲノムが、目的物の第1の相同な領域または第2の相同な領域のマスク部分または改変部分を含まない、請求項1に記載の方法。
【請求項37】
請求項1を実施するためのコンピュータ実行可能命令を含む非一時的なコンピュータ可読記憶媒体。
【請求項38】
(a)1つまたは複数のプロセッサー、
(b)メモリ、および
(c)1つまたは複数のプログラム
を含むシステムであって、1つまたは複数のプログラムが、メモリに記憶され、1つまたは複数のプロセッサーによって実行されるよう構成され、1つまたは複数のプログラムは、請求項1を実行するための命令を含む、前記システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
[0001]本出願は、2018年7月27日に出願された米国仮出願第62/711,454号、および2018年9月12日に出願された米国仮出願第62/730,479号に対する優先権を主張し、これらはそれぞれ、すべての表、図面、および請求項を含む全体が本明細書に組み込まれる。
【0002】
[0002]以下の開示は、全体として、遺伝的変異を決定すること、より詳細には、ゲノムにおける目的物の高度に相同な領域において、例えば、遺伝子および偽遺伝子を含むゲノム領域において、遺伝的変異を決定することに関する。
【背景技術】
【0003】
[0003]生殖系列を通じて遺伝した個々のゲノムバリアントは、がんのおよそ5%から10%のパーセントを占める[1~3]。この遺伝性成分は、ある範囲の組織[4、5](例えば、乳房、結腸直腸、膵臓、および前立腺)にわたって、悪性腫瘍のリスクを増加させ得、100を超える遺伝子において病原体バリアントと関連している[6]。このようながんに関する患者のリスクを評価するために、遺伝性がんスクリーニング(HSC)は、典型的には、ターゲット次世代シーケンシング(NGS)を使用し、コード領域において関連バリアントを検出し、多重遺伝子試験パネルにおける非コード領域を選択する。
【0004】
[0004]HSCパネルによって調査されたほとんどのゲノム領域では、高い感度および特異性を得るのにNGS単独で十分であり[7、8]、試験の結果は、患者に、患者の臨床管理の決定を変更するよう促すので、HSCにとって、高い精度は重要である[9、10]。しかし、少数の領域では、短いDNA断片を捕捉およびシーケンシングするためにハイブリダイゼーションを使用する標準NGS戦略は、遺伝子型を不正確にしか特定することができなかった。特定の課題を有する遺伝子は、遺伝子それ自体と一緒に捕捉およびシーケンシングされるゲノムの他の箇所に相同なシーケンス(例えば、偽遺伝子)を有することが多く、アラインメントおよび遺伝子に特異的なバリアントの特定を複雑にする。
【0005】
[0005]よって、ゲノムの相同な領域における遺伝的変異を検出する改善された方法が依然として必要とされる。
【発明の概要】
【0006】
[0006]高度に相同な遺伝子および対応するホモログに関する遺伝子型の決定を可能にする現在の技術は、時間と労力を要し、ならびに費用もかかり、広範な臨床的使用に不適当となっている。
【0007】
[0007]本開示の方法は、費用が手ごろでハイスループットな方式で実践することができる。よって、かなりの時間、労力および費用の節約となる。さらに、本方法は、遺伝子またはそれらのホモログに対するNGSリードのユニークアラインメントが損なわれる領域における構造/コピー数/遺伝子型を解明するという課題を克服する。
【0008】
[0008]一態様では、目的物の遺伝子に関する個体のゲノム構造(すなわち、遺伝子型)を決定するための方法であって、目的物の遺伝子が、高度に相同なホモログ、例えば、偽遺伝子を有する、方法が本明細書において提供される。
【0009】
[0009]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第1の領域および第2の領域を含み、方法が、(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、(b)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメント(top paired alignment)を生じるステップと、(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。別の実施形態では、本方法は、ステップ(b)の前に、基準ゲノムに対して第1のリードおよび第2のリードをアラインするステップであって、アライナーが、第1のリードおよび第2のリードの各ペアについて、目的物の第1の領域または第2の領域に対して最良の可能なペアエンドアラインメント発し、かつ目的物の第1の領域または第2の領域に対するトップアラインメントスコアに関連するペアエンドリードのみが、ステップ(b)において別々にアラインされる、ステップを含む。一実施形態では、基準ゲノムは、目的物の第1の相同な領域または第2の相同な領域のマスク部分または改変部分を含まない。一実施形態では、本方法は、コンピュータにより実装される。
【0010】
[0010]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが、目的物の高度に相同な第1の領域および第2の領域を含み、方法が、目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含み、シーケンスリードが、目的物の多数の部位のダイレクトターゲットシーケンシング(DST)によって得られ、および第1のリードがゲノムシーケンスを含み、かつ第2のリードが目的物の部位に関連したプローブシーケンスリードを含む、ステップを含む、方法が提供される。
【0011】
[0011]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第1の領域および第2の領域を含み、方法が、(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、(b)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、シーケンスリードは、Burrows-Wheeler Aligner(BWA)アルゴリズムを使用してアラインされる。一実施形態では、アライナーは、目的物の第1の領域および第2の領域に対する最小アラインメントスコアを満たすアラインメントのみを発する。一実施形態では、第1のリードおよび第2のリードがペアリングされ、目的物の第1の領域に対する第1のリードおよび第2のリードのアラインメントが、互いに一定数の塩基の範囲内にある場合にのみ、トップペアアラインメントを生じる。一実施形態では、第1のリードおよび第2
のリードがペアリングされ、目的物の第1の領域に対する第1のリードおよび第2のリードのアラインメントが、約100bp、約200bp、約200bp、約300bp、約400bp、約500bp、約600bp、約700bp、約800bp、約900bp、約1000bp、約1100bp、約1200bp、約1300bp、約1400bp、約1500bp、または1500bp超の範囲内の場合にのみ、トップペアアラインメントを生じる。
【0012】
[0012]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第1の領域および第2の領域を含み、方法が、(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、(b)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、本方法は、ステップ(d)において、多数のペアアラインメントを生じるステップと、多数のペアアラインメントのそれぞれについてアラインメントスコアを計算するステップと、最も高いアラインメントスコアを有するトップペアアラインメントを特定するステップとを含む。一実施形態では、ステップ(d)におけるトップペアアラインメントは、最も小さな鋳型長を有するものとして選択される。
【0013】
[0013]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第1の領域および第2の領域を含み、方法が、(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、(b)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、遺伝的変異は、SNP、インデル、逆位、および/またはCNVを含む。一実施形態では、ステップ(e)における検出するステップは、SNP、インデル、逆位、および/またはCNVをコールするステップを含む。一実施形態では、ステップ(e)における検出するステップは、コピー数を決定するための隠れマルコフモデル(HMM)コーラーを使用するステップを含む。一実施形態では、ステップ(e)における検出するステップは、2という予測倍数性に基づく。一実施形態では、ステップ(e)における検出するステップは、4という予測倍数性に基づく。一実施形態では、遺伝的変異がステップ(e)において検出される場合、対象のゲノムの一部がロングレンジPCRによって増幅され、マルチプレックスライゲーション依存性プローブ増幅(MLPA)によってアッセイされる。一実施形態では、遺伝的変異がステップ(e)において検出される場合、目的物の第1の領域の一部がロングレンジPCRによって増幅され、産物またはその部分がサンガーシーケンシングまたはNGSに
よってシーケンシングされる。一実施形態では、遺伝的変異がステップ(e)において検出される場合、対象のゲノムDNAは、マルチプレックスライゲーション依存性プローブ増幅(MLPA)によってアッセイされる。
【0014】
[0014]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第1の領域および第2の領域を含み、方法が、(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、(b)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、シーケンスリードは、30~50bpまたは100~200bpの長さである。一実施形態では、目的物の高度に相同な第1の領域および第2の領域は、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または99%より高いパーセンテージで同一である。一実施形態では、シーケンスリードは、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンから得られる。一実施形態では、シーケンスリードは、目的物の第1の領域および/または第2の領域内の1つまたは複数のイントロンから得られる。一実施形態では、シーケンスリードは、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンおよびイントロンから得られる。一実施形態では、シーケンスリードは、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンおよびイントロンから得られ、イントロンは、エクソンの付近に存在する。一実施形態では、シーケンスリードは、目的物の第1の領域および/または第2の領域と関連した1つまたは複数の臨床的に取り扱うことが可能な領域から得られる。一実施形態では、目的物の第1の領域は遺伝子を含み、目的物の第2の領域は偽遺伝子を含む。一実施形態では、目的物の第1の領域は偽遺伝子を含み、目的物の第2の領域は遺伝子を含む。一実施形態では、目的物の第1の領域は、2つの対立遺伝子を含む。一実施形態では、目的物の第2の領域は、2つの対立遺伝子を含む。一実施形態では、遺伝子は、PMS2である。一実施形態では、偽遺伝子は、PMS2CLである。一実施形態では、目的物の多数の部位は、対象のゲノムのPMS2のエクソンおよび別の部分のエクソン内に存在する。一実施形態では、目的物の多数の部位は、PMS2のエクソンおよびPMS2CLのエクソン内に存在する。一実施形態では、目的物の多数の部位は、PMS2のエクソン11、12、13、14、および/または15ならびにPMS2CLのエクソン2、3、4、5、および/または6内に存在する。一実施形態では、対象はヒトであり、シーケンスリードはヒト基準ゲノムに対してアラインされる。
【0015】
[0015]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第1の領域および第2の領域を含み、方法が、(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、(b)基準
ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、本明細書に記載の方法を実行するためのコンピュータ実行可能命令を含む非一時的なコンピュータ可読記憶媒体が提供される。一実施形態では、(a)1つまたは複数のプロセッサー、(b)メモリ、および(c)1つまたは複数のプログラムを含むシステムであって、1つまたは複数のプログラムが、メモリに記憶され、1つまたは複数のプロセッサーによって実行されるよう構成され、1つまたは複数のプログラムは、本明細書に記載の方法を実行するための命令を含む、システムが提供される。
【0016】
[0016]一実施形態では、本明細書に記載の方法を実行するための命令を実行するよう構成されたコンピュータシステムが提供される。
【0017】
[0017]本発明の他の目的、特徴および利点は、以下の詳細な説明から明らかとなるであろう。しかしながら、詳細な説明および具体的実施例は、本発明の好ましい実施形態を示すが、本発明の範囲および趣旨の範囲内での様々な変更および修正が、この詳細な説明から当業者にとって明らかとなることから、例示のために与えられるに過ぎないことが理解されるべきである。
【図面の簡単な説明】
【0018】
【
図1A】[0018]
図1A~1Dは、PMS2およびPMS2CLにおける天然の遺伝的変異のデータセットを構築するためのLR-PCR戦略を示す。
図1A:遺伝子(青色)および偽遺伝子(赤色)を起源とするNGSハイブリッド-捕捉データからのショートリードが高い相同性に起因して遺伝子と偽遺伝子の両方に対してアラインする。
【
図1B】
図1A~1Dは、PMS2およびPMS2CLにおける天然の遺伝的変異のデータセットを構築するためのLR-PCR戦略を示す。
図1B:遺伝子または偽遺伝子に対して特異的であるLR-PCR、それに続いて断片化およびバーコーディングを使用して(
図1B)、得られたNGSショートリードが、遺伝子または偽遺伝子に対してアサインされ得る(
図1C)。
【
図1C】
図1A~1Dは、PMS2およびPMS2CLにおける天然の遺伝的変異のデータセットを構築するためのLR-PCR戦略を示す。
図1C:遺伝子または偽遺伝子に対して特異的であるLR-PCR、それに続いて断片化およびバーコーディングを使用して(
図1B)、得られたNGSショートリードが、遺伝子または偽遺伝子に対してアサインされ得る(
図1C)。
【
図1D】
図1A~1Dは、PMS2およびPMS2CLにおける天然の遺伝的変異のデータセットを構築するためのLR-PCR戦略を示す。
図1D:hg19基準ゲノム(灰色)に基づき、LR-PCR試料(黒色)から得た天然の遺伝的変異を考慮に入れた後の、PMS2エクソン11~15に関する遺伝子と偽遺伝子の間のパーセント同一性。
【
図2A】[0019]
図2A~2Bは、PMS2の最終エクソンにおけるバリアント特定のためのリフレックスワークフロー(reflex workflow)を示す。
図2A:PMS2の5つの最終エクソンに関するシーケンシングおよび分析ワークフローの概要。色付けした節点は、
図2Bのボックスに対応する。
【
図2B】
図2A~2Bは、PMS2の最終エクソンにおけるバリアント特定のためのリフレックスワークフローを示す。
図2B:
図2Aのワークフローのステップに対応する詳細;各ボックスの詳細は、方法および結果に記載される。「報告なし」は、バリアントが患者の報告に現れないことを意味する。「リフレックス」は、試料がLR-PCRに基づく曖昧性除去に送られ、バリアントが遺伝子または偽遺伝子に局在化するかどうかを決定することを意味する。
【
図3A】[0020]
図3A~3Cは、ハイブリッド-捕捉およびLR-PCRが、SNVおよびインデルに対応していることを示す。
図3A:ハイブリッド捕捉とLR-PCRデータの比較のための対応表を記載する仮想例。すべての例は、基準塩基がAであり、代替(「alt」)塩基がTであると仮定する。(i)alt対立遺伝子がPMS2CLに存在する真の陽性(濃青色)の例。(ii)PMS2CLがalt対立遺伝子に対してホモ接合性であるが、ハイブリッド捕捉が2つの代わりに1つのalt対立遺伝子しかコールしない、許容されるドーセッジの誤差(淡青色)の例。(iii)ハイブリッド捕捉のみがalt対立遺伝子を検出した、偽陽性(淡橙色)の例。(iv)PMS2CLにおけるalt対立遺伝子がハイブリッド捕捉によって捉えられなかった、偽陰性(濃橙色)の例。右の影付きの行列は、真の陽性、許容されるドーセッジの誤差、偽陽性および偽陰性を表す細胞を示す。軸の数は、ハイブリッド捕捉データまたはPMS2/PMS2CL LR-PCRデータのいずれかにおけるalt対立遺伝子の総数を示す。
【
図3B】
図3A~3Cは、ハイブリッド-捕捉およびLR-PCRが、SNVおよびインデルに対応していることを示す。
図3B:二倍体のSNVおよびインデルは、PMS2のエクソン11に対応する。軸の数は、0が0/0に等しく、1が0/1に等しく、かつ2が1/1に等しいalt対立遺伝子の数を示す。括弧内は95%信頼区間。
【
図3C】
図3A~3Cは、ハイブリッド-捕捉およびLR-PCRが、SNVおよびインデルに対応していることを示す。
図3C:4つのコピーのSNVおよびインデルは、
図3Aにおいて説明したように、PMS2/PMS2CLのエクソン12~15に対応する。
【
図4A】[0021]
図4A~4Bは、シミュレーションされたインデルが、インデル感度における信頼性を増加させることを示す。
図4A:2つの二倍体の試料からのシーケンシングデータを合わせることによって、四倍体のインデルをシミュレーションする概略図。
【
図4B】
図4A~4Bは、シミュレーションされたインデルが、インデル感度における信頼性を増加させることを示す。
図4B:
図3Aと同じ形式での四倍体のインデルのシミュレーション結果。
【
図5A】[0022]
図5A~5Dは、ハイブリッド捕捉、LR-PCR、およびMLPAがCNVに対応することを示す。
図5A:ハイブリッド捕捉データおよび対応する直交する確認データにおいてコールされたすべてのCNV。
【
図5B】
図5A~5Dは、ハイブリッド捕捉、LR-PCR、およびMLPAがCNVに対応することを示す。
図5B:エクソン13~14が欠失した患者試料に関するハイブリッド捕捉データは、遺伝子座(ビン)にわたるコピー数の推定値を示す。灰色の領域は、PMS2の4つの最終エクソンを示す。白色の領域は、イントロンを示す。黄色のボックスは、CNVコールの領域を示す。
【
図5C】
図5A~5Dは、ハイブリッド捕捉、LR-PCR、およびMLPAがCNVに対応することを示す。
図5C:エクソン13~14が欠失した患者試料に関するMLPAデータ。PMS2に特異的なMLPAプローブ(青色の塗りつぶし)、PMS2CLに特異的なMLPAプローブ(赤色の塗りつぶし)、およびPMS2/PMS2CLが変性したMLPAプローブ(青色と赤色のストライプ)は、PMS2CLのエクソン13~14において欠失を示す。
【
図5D】
図5A~5Dは、ハイブリッド捕捉、LR-PCR、およびMLPAがCNVに対応することを示す。
図5D:PMS2(青色、上)およびPMS2CL(赤色、下)に関する遺伝子座(ビン)にわたるコピー数の推定値を示すエクソン13~14欠失試料に関するLR-PCRデータ。灰色の領域はPMS2のエクソン11~15を示し、白色の領域は
図5Bにおけるようなイントロンを示す。
【
図6】[0023]
図6は、ハイブリッド捕捉アッセイを構築するために使用される直交するデータセットを示す。示されているように、
図6は、PMS2の5つの最終エクソンに関するハイブリッド捕捉アッセイを構築するために使用されるアッセイ、データセット、アルゴリズム、および分析を実証する図である。Coriell試料(1b)は、受託番号PRJEB27948において提供されるLR-PCRを繰り返すことなく、他の研究者らによって使用され得る。ゲノムDNA(gDNA)。
【
図7】[0024]
図7A~7Cは、PMS2のエクソン11~15基準遺伝子型(PolarisおよびGIABからの)は、PMS2 LR-PCRと一致しないことを示す。
図7A:LR-PCRバリアントコールとPolarisバリアント細胞の間の一致。
図7B:LR-PCRバリアント細胞と5つのGIAB試料すべてに対するGIAB複数試料のコールセット(高い信頼性とフィルタリングされたバリアント細胞を含む)の間の一致。
図7C:LR-PCRバリアントコールと4つのGIAB試料に対して利用可能な10×Genomicsハプロタイプのコールセットの間の一致。
【
図8A】[0025]
図8A~8Bは、RNAデータが、ハイブリッド捕捉およびLR-PCRデータを裏付けることを示す。
図8A:ハイブリッド捕捉データとPMS2およびPMS2CLに関するRT-PCRの間の一致。
【
図8B】
図8A~8Bは、RNAデータが、ハイブリッド捕捉およびLR-PCRデータを裏付けることを示す。
図8B:ハイブリッド捕捉データとPMS2およびPMS2CLに関するLR-PCRの間の一致。
【
図9】[0026]
図9は、目的物の領域からの第1のDTSリードおよび第2のDTSリードの「曖昧なアラインメント」を含む、本明細書に記載の方法の実施形態を示すチャートである。
【
図10】[0027]
図10は、本発明の様々な実施形態が動作し得る例示的なシステムおよび環境を例示する図である。
【
図11】[0028]
図11は、例示的な計算システムを例示する図である。
【発明を実施するための形態】
【0019】
[0029]この特許のファイルは、少なくとも1つのカラーの図面を含む。カラーの図面を有するこの特許または特許公報のコピーは、申請および必要な手数料の支払いに際し、特許庁より提供されるであろう。
【0020】
[0030]本発明は、ここで、以下の定義および例を使用することによって、参照としてのみ詳細に記載される。本明細書において言及される、このような特許および公報内に開示されるすべてのシーケンスを含む、すべての特許および公報は、参照によって明示的に組み込まれる。
【0021】
[0031]その他の点で本明細書に定義されていなければ、本明細書において使用されるすべての技術用語および科学用語は、この発明が属する技術分野の当業者によって通常理解されるものと同じ意味を有する。Singletonら、Dictionary of Microbiology and Molecular Biology、第2版、John Wiley and Sons、New York (1994)、ならびにHaleおよびMarham、The Harper Collins Dictionary of Biology、Harper Perennial、NY (1991)は、当業者に、本発明において使用される用語の多くについての一般的辞書を提供する。本明細書に記載のものに類似するかまたは等しいいずれの方法および材料も、本発明の実践または試験において使用することができるが、好ましい方法および材料について記載されている。特に、専門家は、当技術分野の定義および用語について、Sambrookら、1989、およびAusubel FMら、1993に注意を向ける。記載された特定の方法論、プロトコール、および試薬は、変化し得るため、本発明は、これらに限定されないことが理解されるべきである。
【0022】
[0032]数値範囲は、範囲を定義する数値を含む。用語「約(about)」は、値のプラスまたはマイナス10パーセント(10%)を意味するために本明細書において使用される。例えば、「約100」は、90から110の間の任意の数値を指す。
【0023】
[0033]他に示されていなければ、それぞれ、核酸は、左から右へ、5’から3’の方向に書かれ、アミノ酸シーケンスは、左から右へ、アミノからカルボキシの方向へ書かれる。
【0024】
[0034]本明細書において提供される見出しは、本明細書を全体として参照して有され得る、本発明の様々な態様または実施形態の限定ではない。したがって、すぐ下に定義される用語は、本明細書を全体として参照してより十分に定義される。
[0035]参照される任意の表(例えば、表S1、表S2など)を含む補充データは、申請すれば入手可能となるであろう。本特許出願に関する科学論文のバージョンは、本出願と共に添付文書として提供される。
【0025】
I.定義
[0036]本明細書で使用される場合、「精製された」およびその派生語は、分子が、分子が含有される試料の、少なくとも90重量%、95重量%、または少なくとも98重量%の濃度で試料中に存在することを意味する。
【0026】
[0037]用語「単離された」およびその派生語は、本明細書で使用される場合、通常、例えば、自然環境で付随している少なくとも1つの他の分子から分離されている分子を指す。単離された核酸分子は、通常その核酸分子を発現する細胞内に元々含有されている核酸分子を含むが、その核酸分子は、染色体外またはその本来の染色体位置とは異なる染色体位置に存在する。
【0027】
[0038]用語「%同一性」およびその派生語は、本明細書において、シーケンスアラインメントプログラムを使用して、例えば、Basic Local Alignment Search Toolアルゴリズムを使用して、シーケンスがアラインされる、別の核酸シーケンスまたは任意の他のポリペプチド、またはポリペプチドのアミノ酸シーケンスの間の核酸またはアミノ酸シーケンスの同一性のレベルを指すために、用語「%相同性」およびその派生語と交換可能に使用される。核酸の場合には、この用語は、イントロン領域および/または遺伝子間領域にも適用する。
【0028】
[0039]例えば、本明細書で使用される場合、80%相同性は、定義されたアルゴリズムによって決定される80%シーケンス同一性と同じことを意味し、したがって、所与のシーケンスのホモログまたは高度に相同なシーケンスは、所与のシーケンスの長さに対して80%より高いパーセンテージのシーケンス同一性を有する。シーケンス同一性の例示的なレベルは、以下に限定されないが、所与のシーケンス、例えば、記載されたように、本発明のポリペプチドのいずれか1つに対するコードシーケンスに対して、80、85、90、95、98%またはそれより高いパーセンテージのシーケンス同一性を含む。
【0029】
[0040]本明細書で使用される場合、「高度に相同な」およびその派生語は、少なくとも2つの異なるヌクレオチドシーケンスの間の%相同性または%同一性が70%を超えることを意味する。シーケンスは、それらのシーケンス同一性が同等の長さに対して70%を超える場合に、「高度に相同な」と言及される。
【0030】
[0041]2つのシーケンス間の同一性を決定するために使用することができる例示的なコンピュータプログラムとしては、以下に限定されないが、一連のBLASTプログラム、例えば、BLASTN、BLASTX、およびTBLASTX、BLASTPおよびTB
LASTN、ならびにインターネットで公に利用可能なBLASTが挙げられる。Altschulら、1990およびAltschulら、1997も参照されたい。
【0031】
[0042]シーケンス検索は、典型的には、GenBankのDNAシーケンスおよび他の公のデータベースにおける核酸シーケンスに対して、所与の核酸シーケンスを評価する場合に、BLASTNプログラムを使用して実行される。BLASTXプログラムは、GenBankのタンパク質シーケンスおよび他の公のデータベースにおけるアミノ酸シーケンスに対して、すべてのリーディングフレームで翻訳された核酸シーケンスを検索するために好ましい。BLASTNとBLASTXは両方、オープンギャップペナルティが11.0、および伸長ギャップペナルティが1.0のデフォルトパラメーターを使用して実行され、BLOSUM-62行列を利用する。(例えば、Altschul, S. F.ら、Nucleic Acids Res. 25:3389~3402頁、1997を参照されたい)。
【0032】
[0043]2つ以上のシーケンス間の「%同一性」を決定するための、選択されたシーケンスの好ましいアラインメントは、例えば、MacVector バージョン13.0.7においてCLUSTAL-Wプログラムを使用して実施され、オープンギャップペナルティが10.0、伸長ギャップペナルティが0.1、およびBLOSUM 30類似性行列を含む、デフォルトパラメーターを用いて操作される。
【0033】
[0044]「シーケンスリード」およびその派生語は、ヌクレオチドシーケンス内で、30ntから400nt、50ntから250nt、50ntから150nt、または100ntから200ntの範囲である。
【0034】
[0045]用語「突然変異」は、本明細書で使用される場合、以下に限定されないが、個体間の変化、または個体のシーケンスと基準シーケンスの間の変化を含む、自然なシーケンスの変化と遺伝によるシーケンスの変化の両方を指す。例示的な突然変異としては、以下に限定されないが、SNP、インデル(挿入または欠失バリアント)、コピー数のバリアント、逆位、転座、染色体融合などが挙げられる。
【0035】
[0046]用語「小ヌクレオチド多型」または「SNP」およびその派生語は、単一ヌクレオチドバリアント(SNV)、マルチヌクレオチドバリアント(MNV)、または約100塩基ペア以下のインデルバリアントを指す。
【0036】
[0047]用語「ホモログ」およびその派生語は、本明細書で使用される場合、対象のゲノムの他の箇所に位置するヌクレオチドシーケンスと同一であるかまたはほぼ同一であるヌクレオチドシーケンスを指す。ホモログは、対象のゲノムの他の箇所に位置するヌクレオチドシーケンスに対して高度に相同である。ホモログは、別の遺伝子である「偽遺伝子」または遺伝子の一部ではないシーケンスのセグメントのいずれかであってもよい。
【0037】
[0048]「偽遺伝子」およびその派生語は、本明細書で使用される場合、DNAシーケンスにおける遺伝子に非常に似ているが、遺伝子を機能不全にする少なくとも1つの変化を有するDNAシーケンスである。変化は、単一の残基の突然変異であってもよい。変化は、スプライスバリアントを生じてもよい。変化は、翻訳の早期終了をもたらしてもよい。偽遺伝子は、機能性遺伝子に対して機能不全である。偽遺伝子は、公知の遺伝子(すなわち、目的物の遺伝子)に対する相同性と非機能性の組合せによって特徴付けられる。
【0038】
[0049]遺伝子に対する偽遺伝子の数は、本明細書において数え上げたものに限定されない。偽遺伝子は、ますます認識されている。したがって、当業者は、シーケンス相同性に基づき、または例えば、GeneCards(genecards.org)、pseu
dogenes.orgなどのような精選されたデータベースを参照して、シーケンスが偽遺伝子であるかどうかを決定することができる。
【0039】
[0050]本明細書で使用される場合、「目的の遺伝子」およびその派生語は、遺伝子型を決定することが望ましい遺伝子である。全体として、目的の遺伝子は、それぞれが目的の遺伝子のコピーを有する2つの染色体により、2つの機能性コピーを有する。用語「目的の遺伝子」および「遺伝子」は、本明細書において交換可能に使用することができる。
【0040】
[0051]本明細書で使用される場合、「目的の領域」およびその派生語は、対象のゲノム内の任意の領域であってもよい。本明細書で使用される場合、目的の領域は、全体として、対象のゲノムにおいて高度に相同なシーケンスである。
【0041】
II.プロセス
[0052]本明細書に記載の方法によってポリヌクレオチドが分析される試料は、同じ個体からの多数の試料、異なる個体からの多数の試料、またはそれらの組合せに由来し得る。一部の実施形態では、試料は、単一の個体からの複数のポリヌクレオチドを含む。一部の実施形態では、試料は、2つ以上の個体からの複数のポリヌクレオチドを含む。例えば、試料は、妊婦に由来し、妊婦およびその胎児からのポリヌクレオチドを含む。個体は、ポリヌクレオチドが由来し得る任意の生物またはその部分であり、その非限定的な例として、植物、動物、真菌、原生生物、モネラ界の生物、ウイルス、ミトコンドリア、およびクロロプラストが挙げられる。試料ポリヌクレオチドは、対象、例えば、培養細胞株、生検、血液試料、頬スワブ、細胞を含有する流体試料(例えば、唾液)を含む、細胞試料、組織試料、流体試料、またはそれらに由来する器官試料(またはこれらのいずれかに由来する細胞培養物)などから単離され得る。対象は、以下に限定されないが、ウシ、ブタ、マウス、ラット、ニワトリ、ネコ、イヌなどを含む動物であってもよく、通常、哺乳動物、例えば、ヒトである。試料は、化学合成によってなど、人工的に由来してもよい。一部の実施形態では、試料は、DNAを含む。一部の実施形態では、試料は、対象の血漿から抽出された無細胞DNAを含む。一部の実施形態では、試料は、ゲノムDNAを含む。一部の実施形態では、試料は、ミトコンドリアDNA、クロロプラストDNA、プラスミドDNA、細菌の人工染色体、酵母の人工染色体、オリゴヌクレオチドタグ、試料が得られる対象以外の生物(例えば、細菌、ウイルス、または真菌)からのポリヌクレオチドまたはそれらの組合せを含む。一部の実施形態では、抽出された核酸は、妊婦の母体血漿からの無細胞DNAを含む。
【0042】
[0053]核酸の抽出および精製のための方法は、当技術分野で周知である。例えば、核酸は、TRIzolおよびTriReagentを含む、フェノール、フェノール/クロロホルム/イソアミルアルコール、または同様の製剤を含む有機抽出物によって精製することができる。抽出技法の他の非限定的な例は、(1)有機抽出に続く、自動核酸抽出器、例えば、Applied Biosystemsから入手可能なModel 341 DNA Extractor(Foster City、Calif.)を使用してまたは使用せずに、例えば、フェノール/クロロホルム有機試薬(Ausubelら、1993)を使用するエタノール沈殿;(2)固定相吸着法(米国特許第5,234,809号;Walshら、1991);および(3)典型的には、「塩析」方法と称される沈澱法などの、塩で誘導された核酸沈澱法(Millerら、(1988))が挙げられる。核酸の単離および/または精製の別の例は、磁性粒子の使用を含み、核酸は特異的または非特異的に磁性粒子に結合し、その後、磁石を使用してビーズを単離し、洗浄し、ビーズから核酸を溶出することができる(例えば、米国特許第5,705,628号を参照されたい)。一部の実施形態では、上記の単離方法は、試料から不要なタンパク質を取り除くのに役立つ酵素消化ステップ、例えば、プロテイナーゼK、または他の類似のプロテアーゼによる消化によって進められてもよい。例えば、米国特許第7,001,724号を参照さ
れたい。好ましい実施形態では、抽出されたDNAは、対象のゲノムを含む。
【0043】
[0054]一部の実施形態では、複数の核酸分子を含むライブラリー(例えば、DNAライブラリー)は、抽出された核酸から調製される。一部の実施形態では、複数の核酸分子中の核酸は、分子バーコードおよび/または1つもしくは複数のアダプターオリゴヌクレオチド(「アダプター」とも称される)を含む場合のある、組み込まれたオリゴヌクレオチドを含む。
【0044】
[0055]一部の実施形態では、抽出された核酸の一部は、例えば、以下に限定されないが、ポリメラーゼ連鎖反応(PCR)、逆転写、およびそれらの組合せを含む、プライマーとDNAポリメラーゼの任意の好適な組合せを使用するプライマー伸長反応によって増幅される。プライマー伸長反応に関する鋳型がRNAである場合、逆転写産物は、相補的DNA(cDNA)と称される。プライマー伸長反応において有用なプライマーは、1つまたは複数の標的に特異的なシーケンス、ランダムシーケンス、部分的にランダムなシーケンス、およびそれらの組合せを含んでもよい。プライマー伸長反応に好適な反応条件は、当技術分野で公知である。一部の実施形態では、抽出されたDNAは、特異的プライマー、例えば、遺伝子特異的プライマーを使用するロングレンジPCR(LR-PCR)によって増幅される。
【0045】
[0056]抽出された核酸はシーケンシングされる。核酸をシーケンシングするための方法は、当技術分野で周知である。一実施形態では、抽出された核酸は、サンガーシーケンシングによってシーケンシングされる。抽出された核酸は、好ましくは、ハイスループット次世代シーケンシング(NGS)を使用してシーケンシングされる。原則として、任意のペアエンドシーケンシング法が、抽出されたDNAをシーケンシングするために使用され得る。好ましい実施形態では、ダイレクトターゲットシーケンシング(DTS)が用いられ、ここで、可能な場合には、捕捉およびシーケンシングされた断片が、ターゲットシーケンスを他の捕捉されたシーケンスから識別する少なくとも1つのシーケンスを含有するように設計されているハイブリッド-捕捉プローブまたはPCRプライマーを用いて、目的物の領域からのシーケンスが濃縮される。一部の実施形態では、目的物の1つまたは多数の部位のDTSによって得られたペアエンドリードは、ゲノムリードを含む第1のシーケンスリードおよび対象のゲノムにおいて、目的物の部位と関連したプローブリードを含む第2のシーケンスリードを含む。一部の実施形態では、シーケンシングリードは、30~50bpである。他の実施形態では、シーケンシングリードは、100~200bpの長さである。好ましい実施形態では、シーケンスリードは、約40bpである。一部の実施形態では、DTSは、参照によりその全体が本明細書に組み込まれる、米国特許第9,092,401号に記載されているように使用される。
【0046】
[0057]例えば、ハイブリッド-捕捉プローブは、目的物の異なる部位間で異なる少数の塩基(「diff塩基」)に隣接してアニールするように設計されてもよい。このような識別シーケンスが稀である場合、多数のプローブを使用して、識別可能な断片を捕捉し、それぞれ特定のプローブのシーケンスに固有の傾向の作用を減らしてもよい。
【0047】
[0058]核酸シーケンスは、遺伝的変異を検出するために、基準ゲノムに対してアラインされてもよい。好ましい実施形態では、対象はヒトであり、シーケンスリードはヒト基準ゲノムに対してアラインされる。例えば、シーケンス操作およびアラインメントの手順(「パイプライン」)は、ゲノム分析器、例えば、Genome Analyzer IIx(GAIIx)またはHiSeqシーケンサー(Illumina;San Diego、Calif.)からの生データで始まり、患者試料から遺伝子型を推定し、メトリックスを計算してもよい。目的物の領域からのシーケンシングデータは、本発明の方法に従って、フローセルレーンごとの多重化(例えば、12×)構造におけるバーコード付加試
料の多数回の実行から得ることができる。シーケンサーの生データは、ベースコール(BCLファイル)ならびに様々な品質管理および較正のメトリックスを含み得る。生のベースコールおよびメトリックスは、最初にQSEQファイルにコンパイルされ、次いでフィルタリングされ、マージされ、かつ試料特異的なFASTQファイルに(バーコードシーケンスに基づき)脱多重化され得る。FASTQリードは、基準ゲノム、例えば、HG19ゲノムにアラインされ、初期BAMファイルを作成することができる。一部の場合には、各ペアエンドFASTQファイルは、基準ゲノムに対してアラインされ得る。他の場合には、各シングルエンドFASTQファイルはゲノムに対して別々にアラインし、「曖昧なアラインメント」、および各リードに対するいくつかのトップアラインメントの報告を可能にし得る。さらに他の実施形態では、全体的なアラインメントプロセスは、フォワードおよびリバースペアエンドNGSリードの単一アラインメントを含んでもよく、ならびに/またはフォワードおよびリバースシングルエンドNGSリード(例えば、「曖昧なアラインメント」)のアラインメントもしくはリアラインメントを分離してもよい。得られるBAMファイルは、いくつかの変換を受けて、アラインメントをフィルタリング、クリップ、およびリファインすることができ、かつ品質のメトリックスを再較正することができる。最終のBAMファイルを使用して、公知のバリアントに関する遺伝子型を推定し、コールセットを生じる新規のバリアントを発見することができる。次いで、コールセット(VCFファイル)は、様々なコールメトリックスを使用してフィルタリングされ、試料ごとに信頼性の高い(例えば、約80%、85%、90%、95%、99%、もしくはそれより高いパーセンテージの信頼度または約80%、85%、90%、95%、99%、もしくはそれより高いパーセンテージを超える信頼度)バリアントコールの最終セットを生じ得る。最終的に、様々なメトリックスを試料、レーン、およびバッチごとに計算することができ、可視化、再調査、および最終報告の作成のために、コールおよびメトリックスが実験室情報管理システム(HMS)中にロードされる。パイプラインは、局所的におよび/またはアマゾンクラウドにおけるようなクラウドコンピューティングを使用して実行され得る(全体的または部分的に)。ユーザーは、任意の好適な通信機構を使用してパイプラインと相互作用することができる。例えば、相互作用は、Djangoの管理コマンド(Django Software Foundation、Lawrence、Kans.)、パイプラインの各ステップを実行するためのシェルスクリプト、または好適なプログラミング言語で書かれたアプリケーションプログラミングインターフェース(例えば、PHP、Ruby on Rails、Django、またはAmazon EC2のようなインターフェース)を介するものであってもよい。この例のパイプラインの操作の概要は、参照によりその全体が本明細書に組み込まれる、米国特許第9,092,401号の
図10および11に示されている。
【0048】
[0059]一部の実施形態では、本発明によるアラインメントは、コンピュータプログラムを使用して実施される。BWTアプローチを実装する1つの例示的なアラインメントプログラムは、Geeknet(Fairfax、Va.)によって維持されるSourceForgeウェブサイトから入手可能なBurrows-Wheeler Aligner(BWA)である。アラインメントの質は、アラインメントスコアを計算することによって評価および/または比較され得る。例えば、アラインメントの質は、Heng Li
(2013) 「Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM」(arXiv:1303.3997v2[q-bio.GN])に記載されているアラインメントスコアを計算することによって、評価および/または比較され得る。各リードまたはリードのペアに関するアラインメントスコアを使用して、シングルエンドリードまたはペアエンドリードのコレクションに関する単一のトップアラインメントまたは多数のトップアラインメントを特定することができる。一部の場合には、アライナーは、目的物の領域、例えば、第1、第2、またはそれ以降の目的物の領域に関する最小アラインメントスコアを満たすアラインメントを発するに過ぎない。
【0049】
[0060]本明細書において提供されるのは、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な領域を含み、検出された遺伝的変異が目的物の高度に相同な領域のうちの1つまたは複数内にある、方法である。一部の実施形態では、高度に相同な領域は、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%を超えるシーケンス同一性を有する。一部の場合には、本方法は、ゲノム内の2つ以上の高度に相同な領域の間の遺伝的変異を検出するのに有効である。高度に相同な領域は、高度に類似する任意の2つ以上の領域を含んでもよい。相同な領域は、高度に類似する2つ以上の遺伝子を含んでもよい。一部の場合には、相同な領域は、1つまたは複数の遺伝子およびその遺伝子の1つまたは複数のホモログを含んでもよい。例えば、ホモログは、1つまたは複数の偽遺伝子を含んでもよい。各高度に相同な領域内の短いDNA断片を捕捉およびシーケンシングするためにハイブリダイゼーションを使用する標準的なターゲットNGS戦略を用いる高度に相同な領域などの遺伝子型判定は、領域間の比較的短いリード長および高い相同性により、シーケンスリードが特異的領域に対して明確にアラインされ得ないという事実によって複雑化されている。例えば、PMS2は、通常、リンチ症候群との関連により、HCSパネルに含まれる[11~15]。その近くの偽遺伝子であるPMS2CLは、PMS2の3’末端におけるエクソン11から15における正確なNGSリードアラインメントおよびバリアントの特定を複雑化し(
図1A):コードシーケンスは、PMS2CLと98%のシーケンス同一性を共有することが以前に報告された[16]。さらに、2つの領域間のシーケンス交換および遺伝子変換は十分に頻度が高く、基準ゲノム(hg19)における数少ない非同一塩基さえも、遺伝子または偽遺伝子に確実に帰属することができない[17、18]。エクソン10における遺伝子特異的プライマーを使用するロングレンジPCR(LR-PCR)は、PMS2を特異的に増幅し(
図1B)、次いで、PMS2の末端の5つのエクソンにおけるバリアントは、サンガーシーケンシング[19~21]またはNGS[22]によって特定され得る(
図1C)。PMS2のコピー数バリアント(CNV)の特定は、LR-PCRおよびサンガーシーケンシングから可能であるが、それは簡単ではなく、大きな欠失および重複を検出するために、マルチプレックスライゲーション依存性プローブ増幅(MLPA)の並行使用の動機付けとなった[19~24]。
【0050】
[0061]ゲノム、例えば、PMS2における高度に相同な領域に対して、高い感度および特異性を達成することができる多数の試験戦略が存在するが([18~20、22、25、26]、それぞれは品質管理のモニタリングを必要とする。例えば、PMS2の5つの最終エクソンでは、スクリーニングされた各試料における、LR-PCR、MLPA、およびハイブリッド-捕捉NGSは、小さなコホートについて以前に発表されたが[22]、より大きな患者集団にこの組合せを適用することは、リソース集約的かつ複雑なワークフローロジスティクスとなる。Hermanら[26]は、PMS2またはPMS2CLの末端のエクソンにおけるCNV(SNVまたはインデルではないが)を特定するための方法を近年提示した[26]。この方法は、LR-PCR試験を追跡するための試料を特定し、最終的に、遺伝子または偽遺伝子にCNVを局在化させた。著者は、CNV偽陽性率が6.8%であることを指摘した。このことは、CNV陰性試料のかなりの部分が、不必要に追跡試験を受けることを意味する。
【0051】
[0062]ショートリードNGS試験後の高いリフレックス率(例えば、10%を超える)は、患者の報告の正確さのためには許容されるが、試験機関において管理不能なロジスティクスオーバーヘッドを生じ得る。リフレックスレートは、それぞれ異なるソースと制約を有する2つのコンポーネント、つまり、1つの生物学的コンポーネントおよび1つの技術的コンポーネントを有する。生物学的コンポーネントは、リフレックスレートの床とし
ての役割を果たし、アッセイが十分な分析特異性(すなわち、ゼロ偽陽性)および臨床精度(すなわち、VUSを含まない正確な分類)を有した場合、次いで、それにもかかわらず、PMS2のエクソン12~15および曖昧性除去を必要とする対応するPMS2CL領域における病原体バリアントの存在により、リフレックスレートがゼロにはならない。したがって、この生物学的コンポーネントは、曖昧領域にわたる病原体バリアントの累積集団頻度を主に反映する。リフレックスレートの技術的コンポーネントは、対照的に、バリアント病原性の不十分な分析特異性および不完全な知識から生じる。実施例1ではより高い(99.7%)が、CNVに対する分析特異性は、Hermanらでは93.7%であり[26]、このことは、この研究におけるリフレックスレートの技術的コンポーネントは、少なくとも6.3%であった(技術的コンポーネントの変化し得る性質を強調している)ことを意味した。また、本明細書に記載のワークフローにおけるVUSによる技術的リフレックスは、試料の4%において必要とされ、これは、PMS2のさらなるスクリーニング、およびその結果得られる、VUSを再分類する能力により下降することが予測される占有率である。
【0052】
[0063]したがって、ゲノムにおける相同な領域間の変化を検出するためのリフレックス方法が本明細書において開示される。本方法の目的物は、PMS2バリアントの検出を最大限にするのに十分高感度であり、リフレックス負荷を最小限にするのに十分特異的である、ワークフローの最初の試験相(すなわち、リフレックスの上流)を有することである。一実施形態では、本方法は、ハイブリッド-捕捉NGSをすべての試料に、かつリフレックスアッセイとしてLR-PCR/MLPAのみを適用する。一部の実施形態では、本明細書に記載のワークフローは、高い分析精度を有する(すなわち、特異的領域におけるシーケンスバリアントを検出することが可能である)が、試料の10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、または1%未満に対してのみリフレックス試験を必要とする。一実施形態では、本明細書に記載のワークフローは、高い分析精度を有するが、試料の約8%に対してのみリフレックス試験を必要とする。PMS2の5つの最終エクソンにおけるSNV、インデル、およびCNVの検出のための方法の例示的な実施形態は、実施例1において記載される。
【0053】
[0064]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の第1の高度に相同な領域および第2の高度に相同な領域を含む、方法は、(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、(b)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む。好ましい実施形態では、リードは基準ゲノムに対してアラインされ、基準ゲノムは、目的物の第1の相同な領域または第2の相同な領域のマスク部分または改変部分を含まず、目的物の第1の相同な領域および/または第2の相同な領域は、本明細書に記載の遺伝的変異を検出するために分析される。ステップ(b)のアラインメントは、各シングルエンドシーケンスリードが基準ゲノムに対して別々にアラインされ、多数のリードのアラインメントが(c)において特定されるため、「曖昧なアラインメント」と称される。「曖昧なアラインメント」プロセスによる本方法の実装例は、
図9に示される。
【0054】
[0065]別の実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の第1の高度に相同な領域および第2の高度に相同な領域を含む、方法は、(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、(b)基準ゲノムに対して第1のリードおよび第2のリードをアラインするステップであって、アライナーが第1のリードおよび第2のリードの各ペアについて、目的物の第1の領域または第2の領域に対して最良の可能なペアエンドアラインメント発し、かつ目的物の第1の領域または第2の領域に対するトップアラインメントスコアに関連するペアエンドリードのみが、ステップ(c)において別々にアラインされる、ステップと、(c)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、(d)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、(e)ステップ(d)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、(f)ステップ(e)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む。好ましい実施形態では、リードは基準ゲノムに対してアラインされ、基準ゲノムは、目的物の第1の相同な領域または第2の相同な領域のマスク部分または改変部分を含まず、目的物の第1の相同な領域および/または第2の相同な領域は、本明細書に記載の遺伝的変異を検出するために分析される。よって、一部の実施形態では、標準的ペアエンドアラインメントは、目的物の領域に対してアラインするリードを選択するために最初に実施され、典型的には、トップアラインメントスコアを有するペアエンドリードのみが選択される。次に、選択されたペアエンドリードはパーティショニングされ、基準ゲノムに対して別々にアラインされ、各リード(例えば、「曖昧なアラインメント」)に対する多数のトップシングルエンドアラインメントを特定することができる。
【0055】
[0066]各リードについて、アライナーによって発せられた多数のトップシングルエンドアラインメントは、個々にペアリングされて、トップペアアラインメントを生じる。例えば、トップペアエンドリードは、例えば、samtool[28]を使用してBAMファイルにパーティショニングされ、BAMファイルは、例えば、Picard(Broad
Institute)を使用して2つのアラインされていないFASTQファイル(2つのファイルのうちの1つに構文解析されたリードペアの各数)に変換され、各シングルエンドFASTQファイルは基準ゲノムに対して別々にリアラインされ、「曖昧なアラインメント」、および各リードに対するいくつかのトップアラインメントの報告を可能にする。このようなトップアラインメントをペアリングステップにおいて使用して、トップペアアラインメントを特定することができる。
【0056】
[0067]「曖昧なアラインメント」から選択されたシングルエンドリードを使用して、選択ステップを通じてトップペアエンドアラインメントを生じ得る。シングルエンドアラインメントを使用して、以下の場合にトップペアエンドアラインメントを生じ得る:1)両方のシングルエンドリードが同じリード名を有する、2)両方のシングルエンドリードが、上記のように「曖昧なアラインメント」によってシングルエンドリードを特定するために使用される、目的物の領域にわたる領域に対してマッピングされる、および/または3)両方のシングルエンドリードが互いに一定数の塩基の範囲内にアラインする。好ましい実施形態では、ペアリング基準(1)~(3)のすべてを満たすリードのみがペアリングされる。一部の実施形態では、上記のように「曖昧なアラインメント」によってシングルエンドリードを特定するために使用される、目的物の領域における第1のリードおよび第2のリードのアラインメントが、約100bp、約200bp、約200bp、約300
bp、約400bp、約500bp、約600bp、約700bp、約800bp、約900bp、約1000bp、約1100bp、約1200bp、約1300bp、約1400bp、約1500bp、または1500bp超の範囲内の場合にのみ、リードがペアリングされる。一部の場合には、多数の推定上のペアが、所与のリード名に関する上記条件を満たす場合、最も高いアラインメントスコアを有するペアが選択される。一部の場合には、トップペアエンドアラインメントは、最も小さな鋳型長を有するものとして選択される。上記のように適当なペアを形成することができないリードは破棄される。得られるペアエンドBAMファイルは、「曖昧なアラインメント」によってシングルエンドリードを特定するために使用される目的物の領域に対してマッピングされた、目的物の両方の相同な領域を起源とするリードを含有する。トップペアエンドアラインメントは、分析されて、目的物の1つまたは複数の相同な領域におけるバリアントを特定またはコールすることができる。
【0057】
[0068]例えば、PMS2について、得られるシングルエンドアラインメントが使用され、以下の基準を満たす場合に、ペアエンドアラインメントを生じ得る:1)両方のシングルエンドリードが同じリード名を有する、2)両方のシングルエンドリードが、PMS2のエクソン12~15にわたる領域に対してマッピングされる、3)両方のシングルエンドリードが互いに1000bpの範囲内にアラインする、4)多数の推定上のペアが、所与のリード名に関する上記条件を満たす場合、最も高いアラインメントスコアを有するペアが選択される、および5)上記のように適当なペアを形成することができないリードは破棄される。得られるペアエンドBAMファイルは、PMS2シーケンスに対してマッピングされた、PMS2リードとPMS2CLリードの両方を起源とするリードを含有する。
【0058】
[0069]一実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、1つまたは複数のSNPを含む。別の実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、1つまたは複数のCNVを含む。別の実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、1つまたは複数のインデルを含む。別の実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、1つまたは複数の逆位を含む。別の実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、SNP、インデル、逆位、および/またはCNVの組合せを含む。
【0059】
[0070]一実施形態では、本明細書に記載されている対象のゲノムにおける遺伝的変異を検出するために、ゲノムは、目的物の第1の領域および第2の領域を含む高度に相同な領域を含み、シーケンスリードは、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンから得られる。シーケンスリードは、目的物の第1の領域および/または第2の領域内の1つまたは複数のイントロンから得ることができる。シーケンスリードは、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンおよびイントロンから得ることができる。シーケンスリードは、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンおよびイントロンから得ることができ、イントロンはエクソンの付近に存在する。エクソンの付近に存在するイントロンは、エクソンの+/-1~100nt、例えば、+/-20nt内に存在し得る。シーケンスリードは、目的物の第1の領域および/または第2の領域と関連した1つまたは複数の臨床的に取り扱うことが可能な領域から得ることができる。目的物の第1の領域および/または第2の領域と関連したこのような領域は、ゲノムの任意の領域を含んでもよい。例えば、臨床的に取り扱うことが可能な領域は、プロモーター、エンハンサー、および/または非翻訳領域を含んでもよい。一部の場合には、目的物の第1の領域は遺伝子を含み、目的物の第2の領域は偽遺伝子を含む。他の場合には、目的物の第1の領域は偽遺伝子を含んでもよく、目的物の第2の領域は遺伝子を含む。目的物の第1の領域は、2つの対立遺伝子を含んでもよい。目的物の第2の領域は、2つの対立遺伝子を含んでもよい。
【0060】
[0071]一実施形態では、遺伝的変異が本明細書に記載の方法によって対象のゲノムにおける目的物の高度に相同な領域において検出される場合、対象のゲノムの一部は、ロングレンジPCRによって増幅され、マルチプレックスライゲーション依存性プローブ増幅(MLPA)によってアッセイされる。別の実施形態では、遺伝的変異が本明細書に記載の方法によって対象のゲノムにおける目的物の高度に相同な領域において検出される場合、目的物の第1の領域の一部は、ロングレンジPCRによって増幅され、産物またはその部分はサンガーシーケンシングによってシーケンシングされる。別の実施形態では、遺伝的変異が本明細書に記載の方法によって対象のゲノムにおける目的物の高度に相同な領域において検出される場合、目的物の第1の領域の一部はロングレンジPCRによって増幅され、産物またはその部分はNGSによってシーケンシングされる。別の実施形態では、遺伝的変異が本明細書に記載の方法によって対象のゲノムにおける目的物の高度に相同な領域において検出される場合、対象のゲノムDNAはマルチプレックスライゲーション依存性プローブ増幅(MLPA)によってアッセイされる。
【0061】
[0072]一実施形態では、遺伝子はPMS2であり、偽遺伝子はPMS2CLまたはPMS2に関するいくつかの他の偽遺伝子のうちの1つである。PMS2のエクソン9および11~15に関する偽遺伝子は、以下に限定されないが、PMS2CLから選択されてもよい。PMS2のすべて、特にPMS2のエクソン1~5に関する偽遺伝子は、以下に限定されないが、15またはそれより多い/それより少ない偽遺伝子から選択されてもよい。実施形態では、変更されたコピー数の存在ならびに/または遺伝子および偽遺伝子の方向を変更する逆位(例えば、偽遺伝子の一部を遺伝子と融合させ、よって、遺伝子の機能を損なうもの)は、対象が、疾患であるリンチ症候群に対するリスクを増加させたことを示し得る。
【0062】
[0073]一実施形態では、ペアエンドリードが得られる高度に相同な領域における目的物の多数の部位は、PMS2のエクソンおよび対象のゲノムの別の部分のエクソン内に存在する。別の実施形態では、目的物の多数の部位は、PMS2のエクソンおよびPMS2CLのエクソン内に存在する。別の実施形態では、目的物の多数の部位は、PMS2のエクソン11、12、13、14、および/または15ならびにPMS2CLのエクソン2、3、4、5、および/または6内に存在する。
【0063】
[0074]一実施形態では、遺伝子はSMN1であり、偽遺伝子はSMN2である。実施形態では、SMN1の変更されたコピー数の存在は、対象が、疾患である脊髄性筋萎縮症(SMA)に対するキャリアであり得ることを示す。
【0064】
[0075]別の実施形態では、遺伝子はCYP21A2であり、偽遺伝子はCYP21A1Pである。実施形態では、CYP21A2の変更されたコピー数の存在は、対象が、疾患である先天性副腎過形成(CAH)に対するキャリアであり得ることを示す。
【0065】
[0076]実施形態では、遺伝子はHBA1であり、ホモログはHBA2である(または逆もまた同様である)。実施形態では、HBA1またはHBA2のいずれかの変更されたコピー数の存在は、対象が、疾患であるアルファサラセミアに対するキャリアであり得ることを示す。
【0066】
[0077]さらなる実施形態では、遺伝子はGBAであり、偽遺伝子はGBAPである。実施形態では、GBAの変更されたコピー数の存在は、対象が、疾患であるゴーシェ病に対するキャリアであり得ることを示す。
【0067】
[0078]実施形態では、遺伝子はCHEK2であり、いくつかの偽遺伝子を有する。20
14年12月現在、7つの偽遺伝子が存在した。偽遺伝子は、以下に限定されないが、精選されたデータベースにおいて列挙されるCHEK2偽遺伝子から選択されてもよい。実施形態では、その偽遺伝子との組換えから生じる突然変異、例えば、偽遺伝子に由来するフレームシフト突然変異の存在は、対象が、他の疾患の中でもとりわけ、疾患である乳がんに対するリスクを増加させたことを示し得る。7つの偽遺伝子のうちの1つだけが命名されたこと、およびリスクが1つの突然変異、すなわち1100delCに主に関連していることは、当技術分野で周知である。しかし、他の突然変異は、疾患のリスクにも寄与する。患者は、リー・フラウメニ症候群および他の遺伝性がんに対するリスクを有する。
【0068】
[0079]実施形態では、遺伝子はSDHAであり、偽遺伝子は、その偽遺伝子のいずれか1つ、例えば、SDHAP1、SDHAP2、SDHAP3である。
【0069】
III.バリアントコール
[0080]一部の実施形態では、バリアントは、コンピュータにより実装されるコーラーアルゴリズムで検出される。原則として、例えば、SNP、インデル、逆位、およびCNVを検出するために、任意のバリアントコーラーが利用され得る。一部の場合には、遺伝的変異、例えば、欠失が検出される場合に、ブレークポイントを検出/解明することが可能であるコーラーが使用される。例えば、コーラーは、Tattini, L.ら、Front Bioeng Biotechnol. 2015; 3: 92頁に記載されたコーラーから選択することができる。一部の場合には、バリアントは、0~7、または0~8という予測倍数性に基づいて特定される。一部の場合には、バリアントは、2という予測倍数性に基づいて特定される。他の場合には、バリアントは、6という予測倍数性に基づいて特定される。他の場合には、バリアントは、4という予測倍数性に基づいて特定される。例えば、SNVおよびインデルは、4に設定された(例えば、四倍体PMS2のエクソン12~15領域に対して)試料-倍数性オプションを有するGATK 4.0 HaplotypeCaller[29]を使用して特定され得る。他の場合には、SNVおよび短いインデルは、2に設定された(例えば、二倍体PMS2のエクソン11領域に対して)試料-倍数性オプションを有するGATK 1.6[30]およびFreeBayes[31]を使用して特定され得る。LR-PCRデータにおける二倍体SNVコーリングでは、GATK 1.6が同様に使用され得る。
【0070】
[0081]好ましい実施形態では、隠れマルコフモデル(HMM)コーラーが使用され、コピー数を決定する。コピー数を決定するために使用される好ましいコーラーは、参照によりその全体が本明細書に組み込まれる、米国仮特許出願第62/681,517号に記載されたHMMコーラーである。一部の実施形態では、好ましいHMMコーラーは、2という予測倍数性に設定される。他の実施形態では、好ましいHMMコーラーは、4という予測倍数性に設定される。他の実施形態では、好ましいHMMコーラーは、6という予測倍数性に設定される。
【0071】
[0082]一部の実施形態では、コピー数バリアントモデルの試料特異的性能を評価する方法、目的物の領域内の調査されたセグメントのコピー数を決定するための方法、および目的物の領域内のコピー数バリアント異常を決定するための方法が、参照によりその全体が本明細書に組み込まれる、米国仮特許出願第62/681,517号に記載されているように利用される。
【0072】
[0083]一部の実施形態では、コピー数バリアントモデルを含むコピー数バリアントコーラーの試料特異的性能を評価する方法であって、試験試料からの、目的物の領域内のセグメントに対してマッピングされた実際の数のシーケンシングリードに基づき、コピー数バリアントモデルをパラメーター化し、1つまたは複数のコピー数バリアントモデルパラメーターを決定するステップと、複数の合成コピー数バリアントを生成するステップであっ
て、各合成コピー数バリアントが、セグメントの1つまたは複数の合成コピー数を含み、各合成コピー数が、試験試料からの対応するセグメントに関する実際の数のシーケンシングリードに基づき、合成のシーケンシングリード数によって表される、ステップと、コピー数バリアントモデルを使用して、合成コピー数バリアントに関する1つまたは複数のセグメントのコピー数、および1つまたは複数の決定されたコピー数バリアントモデルパラメーターをコーリングするステップと、コーリングされたコピー数と合成コピー数バリアントにおける合成コピー数の間の差に基づき、コピー数バリアントコーラーに関する試料特異的性能統計値を決定するステップと、試料特異的性能統計値に基づき、コピー数バリアントコーラーの試料特異的性能を評価するステップとを含む方法が利用される。
【0073】
[0084]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、1つまたは複数のセグメントに関する合成のシーケンシングリード数は、1つまたは複数のセグメントの所定数のコピーに比例して、試験試料からの対応するセグメントに関する実際のシーケンシングリード数を増加させるか、減少させるか、または維持することによって得られる。一部の実施形態では、所定数のコピーは、整数のコピーである。一部の実施形態では、所定数のコピーは、整数ではないコピーである。
【0074】
[0085]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、合成のシーケンシングリード数は、m/xに等しい成功確率と試験試料からの対応するセグメントにおける実際のシーケンシングリード数と等しい試験数とに関する二項分布をサンプリングするステップであって、mが、合成コピー数バリアントにおけるセグメントの合成コピー数であり、かつxが、試験試料からの対応するセグメントの仮定コピー数である、ステップによって得られる。
【0075】
[0086]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、合成のシーケンシングリード数は、m/xに等しい成功確率と試験試料からの対応するセグメントにおける実際のシーケンシングリード数と等しい成功数とに関するネガティブ二項分布として、シーケンシングリードの数をサンプリングするステップであって、mが、合成コピー数バリアントにおけるセグメントの合成コピー数であり、かつxが、試験試料からの対応するセグメントの仮定コピー数である、ステップと、サンプリングされたシーケンシングリード数を試験試料からの対応するセグメントに関する実際のシーケンシングリード数に付加するステップとによって得られる。一部の実施形態では、合成のシーケンシングリード数は、ネガティブ二項分布の予想として、シーケンシングリード数をサンプリングすることによって得られる。
【0076】
[0087]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルは、隠れマルコフモデルである。一部の実施形態では、隠れマルコフモデルは:(i)調査されたセグメントまたは調査されたセグメント内の複数の下位セグメントに対応するコピー数を含む1つまたは複数の隠れ状態、(ii)調査されたセグメントに関する実際のシーケンシングリード数または合成のシーケンシングリード数を含む観察状態、(iii)調査されたセグメントに関する実際のシーケンシングリードまたは合成シーケンシングリードの予測数に基づくコピー数尤度モデルを含む。一部の実施形態では、本方法は、コピー数尤度モデルを決定するステップを含む。一部の実施形態では、隠れマルコフモデルをパラメーター化するステップは、コピー数尤度モデルを調整して、試験試料からの、調査されたセグメントに対してマッピングされたシーケンシングリードの実際の数に適合させるステップを含む。一部の実施形態では、コピー数尤度モデルは、2つ以上のコピー数の状態に対する分布を含む。一部の実施形態では、コピー数尤度モデルは、ネガティブ二項分布を含み、ここで、ネガティブ二項分布はポアソン分布ではない。一部の実施形態では、実際のシーケンシングリードまたは合成シーケンシングリードの予測数は、複数の試料にわたって調査されたセグメントに対応するセグメン
トにおいてマッピングされたシーケンシングリードの平均数、および試験試料内のセグメントにわたってマッピングされたシーケンシングリードの平均数に基づき、複数の試料にわたって調査されたセグメントに対応するセグメントにおいてマッピングされたシーケンシングリードの平均数または試験試料内の複数のセグメントにわたってマッピングされたシーケンシングリードの平均数は正規化された平均である。一部の実施形態では、コピー数尤度モデルは、GC含量の偏りの存在を考慮に入れるよう調整される。一部の実施形態では、隠れマルコフモデルは、空間的に近接するセグメントの所与のコピー数に関して調査されたセグメントのコピー数の遷移確率を含む。一部の実施形態では、隠れマルコフモデルは、空間的に近接する下位セグメントの所与のコピー数に関して調査されたセグメント内の複数の下位セグメントにおける下位セグメントのコピー数の複数の遷移確率を含む。一部の実施形態では、遷移確率は、コピー数バリアントの平均長を考慮に入れる。一部の実施形態では、遷移確率は、調査されたセグメントまたは空間的に近接するセグメントにおけるコピー数バリアントの以前の確率を考慮に入れる。一部の実施形態では、コピー数バリアントの平均長または調査されたセグメントにおけるコピー数バリアントの確率は、ヒト集団における観察に基づいて決定される。
【0077】
[0088]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルをパラメーター化するステップは、1つまたは複数の偽捕捉プローブを考慮に入れるステップを含む。一部の実施形態では、1つまたは複数の偽捕捉プローブを考慮に入れるステップは、偽捕捉プローブインジケーターを含む複数の観察状態において、1つまたは複数の観察状態を重み付けるステップを含む。一部の実施形態では、偽捕捉プローブインジケーターは、ベルヌーイのプロセスを使用して決定される。一部の実施形態では、偽の捕捉プローブのうちの1つまたは複数を考慮に入れるステップは、期待値最大化を使用するステップを含む。一部の実施形態では、捕捉プローブが偽であると決定される場合、その捕捉プローブからのシーケンシングリードは、コピー数バリアントモデルにおいて無視される。
【0078】
[0089]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルをパラメーター化するステップは、マッピングされたシーケンシングリード数のノイズを考慮に入れるステップを含む。
【0079】
[0090]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルは、第1の誘導体の解析的勾配および1つまたは複数のコピー数バリアントモデルパラメーターの第2の誘導体のヘッセ行列を使用してパラメーター化される。
【0080】
[0091]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルは、信頼領域ニュートン共役勾配アルゴリズムを解明することによってパラメーター化される。
【0081】
[0092]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルは、期待値最大化を使用して反復的にパラメーター化される。
【0082】
[0093]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、本方法は、試験試料からの実際のシーケンシングリードを目的物の領域内のセグメントに対してマッピングするステップと、セグメントに対してマッピングされたシーケンシングリードの実際の数を決定するステップとを含む。
【0083】
[0094]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態
では、試験試料は、1つまたは複数のダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される。
【0084】
[0095]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、本方法は、1つまたは複数のセグメントのコピー数を試験試料に対してコーリングするステップを含む。
【0085】
[0096]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、セグメントは、空間的に近接するセグメントを含む。
【0086】
[0097]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、試料特異的性能統計値は、検出、感度、特異性、正確さ、リコール、精度、陽性適中率、または陰性適中率の限界である。
【0087】
[0098]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、試料特異的性能統計値は、感度または精度である。
【0088】
[0099]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、本方法は、コピー数バリアントモデルの試料特異的性能が所望の性能閾値未満である場合、試験試料を不合格とするステップを含む。
【0089】
[0100]目的物の領域内で調査されたセグメントのコピー数を決定するための方法であって、(a)試験シーケンシングライブラリーから生じた複数のシーケンシングリードを調査されたセグメントに対してマッピングするステップであって、試験シーケンシングライブラリーが1つまたは複数のダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、(b)調査されたセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、(c)調査されたセグメントに対してマッピングされたシーケンシングリードの予測数に基づき、コピー数尤度モデルを決定するステップと、(d)(i)調査されたセグメントまたは調査されたセグメント内の複数の下位セグメントに対応するコピー数を含む1つまたは複数の隠れ状態、(ii)調査されたセグメントに対してマッピングされたシーケンシングリードの数を含む観察状態、および(iii)コピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、(e)コピー数尤度モデルを調整して、調査されたセグメントに対してマッピングされたシーケンシングリードの所定数に適合させることによって隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第1の誘導体の解析的勾配およびコピー数尤度モデルにおける1つまたは複数のパラメーターの第2の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、(f)パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップとを含む方法も本明細書において記載される。
【0090】
[0101]目的物の領域内で調査されたセグメントのコピー数を決定するための方法であって、(a)試験シーケンシングライブラリーから生じた複数のシーケンシングリードを複数の空間的に近接するセグメントに対してマッピングするステップであって、複数の空間的に近接するセグメントが調査されたセグメントを含み、試験シーケンシングライブラリーが複数の空間的に近接するダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、(b)各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、(c)空間的に近接するセグメントにおいてマッピングされたシーケンシングリードの予測数に基づき、各空間的に近接するセグメントに関するコピー数尤度モデルを決定するステップと、(d)(i)空間的に近接するセグメントのそれぞれまたは空間的に近接するセグメントのそれぞれの内におけ
る複数の下位セグメントのそれぞれに関するコピー数を含む複数の隠れ状態、(ii)各空間的に近接するセグメント対してマッピングされたシーケンシングリードの数を含む複数の観察状態、および(iii)各空間的に近接するセグメントに関するコピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、(e)各コピー数尤度モデルを調整して、各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの所定数に適合させることを含む隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第1の誘導体の解析的勾配およびコピー数尤度モデルにおける1つまたは複数のパラメーターの第2の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、(f)パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップとを含む方法が本明細書においてさらに記載される。
【0091】
[0102]目的物の領域内のコピー数バリアント異常を決定するための方法であって、(a)試験シーケンシングライブラリーから生じた複数のシーケンシングリードを目的物の領域内の調査されたセグメントに対してマッピングするステップであって、試験シーケンシングライブラリーが1つまたは複数のダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、(b)調査されたセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、(c)調査されたセグメントに対してマッピングされたシーケンシングリードの予測数に基づき、コピー数尤度モデルを決定するステップと、(d)(i)調査されたセグメントまたは調査されたセグメント内の複数の下位セグメントに対応するコピー数を含む1つまたは複数の隠れ状態、(ii)調査されたセグメントに対してマッピングされたシーケンシングリードの数を含む観察状態、および(iii)コピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、(e)コピー数尤度モデルを調整して、調査されたセグメントに対してマッピングされたシーケンシングリードの所定数に適合させることによって隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第1の誘導体の解析的勾配およびコピー数尤度モデルにおける1つまたは複数のパラメーターの第2の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、(f)パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップと、(g)調査されたセグメントの最も可能なコピー数に基づき、コピー数バリアント異常を決定するステップとを含む方法も本明細書において記載される。
【0092】
[0103]目的物の領域内のコピー数バリアント異常を決定するための方法であって、(a)試験シーケンシングライブラリーから生じた複数のシーケンシングリードを複数の空間的に近接するセグメントに対してマッピングするステップであって、複数の空間的に近接するセグメントが調査されたセグメントを含み、試験シーケンシングライブラリーが複数の空間的に近接するダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、(b)各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、(c)空間的に近接するセグメントにおいてマッピングされたシーケンシングリードの予測数に基づき、各空間的に近接するセグメントに関するコピー数尤度モデルを決定するステップと、(d)(i)空間的に近接するセグメントのそれぞれまたは空間的に近接するセグメントのそれぞれの内における複数の下位セグメントのそれぞれに関するコピー数を含む複数の隠れ状態、(ii)各空間的に近接するセグメント対してマッピングされたシーケンシングリードの数を含む複数の観察状態、および(iii)各空間的に近接するセグメントに関するコピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、(e)各コピー数尤度モデルを調整して、各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの所定数に適合させることを含む隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第1の誘導体の解析的勾配およびコピー数尤度モデルにおける1つまたは複数のパラメーターの第2の誘導体のヘッセ行列を使用してパラメーター化される
、ステップと、(f)パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップと、(g)調査されたセグメントの最も可能なコピー数に基づき、コピー数バリアント異常を決定するステップとを含む方法が本明細書においてさらに記載される。
【0093】
[0104]目的物の領域内で調査されたセグメントのコピー数を決定するための方法であって、(a)試験シーケンシングライブラリーから生じた複数のシーケンシングリードを調査されたセグメントに対してマッピングするステップであって、試験シーケンシングライブラリーが1つまたは複数の捕捉プローブを使用して濃縮される、ステップと、(b)調査されたセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、(c)調査されたセグメントに対してマッピングされたシーケンシングリードの予測数に基づき、コピー数尤度モデルを決定するステップと、(d)(i)調査されたセグメントまたは調査されたセグメント内の複数の下位セグメントに対応するコピー数を含む1つまたは複数の隠れ状態、(ii)調査されたセグメントに対してマッピングされたシーケンシングリードの数を含む観察状態、および(iii)コピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、(e)コピー数尤度モデルを調整し、調査されたセグメントに対してマッピングされたシーケンシングリードの所定数に適合させること、および1つまたは複数の偽捕捉プローブを考慮に入れることによって隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第1の誘導体の解析的勾配およびコピー数尤度モデルにおける1つまたは複数のパラメーターの第2の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、(f)パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップとを含む方法も本明細書において記載される。
【0094】
[0105]目的物の領域内で調査されたセグメントのコピー数を決定するための方法であって、(a)試験シーケンシングライブラリーから生じた複数のシーケンシングリードを複数の空間的に近接するセグメントに対してマッピングするステップであって、複数の空間的に近接するセグメントが調査されたセグメントを含み、試験シーケンシングライブラリーが複数の空間的に近接するダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、(b)各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、(c)空間的に近接するセグメントにおいてマッピングされたシーケンシングリードの予測数に基づき、各空間的に近接するセグメントに関するコピー数尤度モデルを決定するステップと、(d)(i)空間的に近接するセグメントのそれぞれまたは空間的に近接するセグメントのそれぞれの内における複数の下位セグメントのそれぞれに関するコピー数を含む複数の隠れ状態、(ii)各空間的に近接するセグメント対してマッピングされたシーケンシングリードの数を含む複数の観察状態、および(iii)各空間的に近接するセグメントに関するコピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、(e)各コピー数尤度モデルを調整して、各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの所定数に適合させること、および1つまたは複数の偽捕捉プローブを考慮に入れることを含む隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第1の誘導体の解析的勾配およびコピー数尤度モデルにおける1つまたは複数のパラメーターの第2の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、(f)パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップとを含む方法が本明細書においてさらに記載される。
【0095】
[0106]上記方法の一部の実施形態では、コピー数尤度モデルの1つまたは複数のパラメーターは、セグメントに対するいくつかのマッピングされたシーケンシングリードの分散(di)、セグメントに対するマッピングされたシーケンシングリードの平均数(μi)、試験シーケンシングライブラリー内のセグメントに対するいくつかのマッピングされた
シーケンシングリードの分散(dj)、または試験シーケンシングライブラリー内のセグメントに対するマッピングされたシーケンシングリードの平均数(μj)を含む。
【0096】
[0107]上記方法の一部の実施形態では、本方法は、目的物の領域内のセクションの最も可能なコピー数を決定するステップであって、セクションが、調査されたセグメントを含む複数の空間的に近接するセグメントを含む、ステップをさらに含む。
【0097】
[0108]上記方法の一部の実施形態では、コピー数尤度モデルは、2つ以上のコピー数状態に対する分布を含む。
【0098】
[0109]上記方法の一部の実施形態では、コピー数尤度モデルは、ポアソン分布ではないネガティブ二項分布を含む。
【0099】
[0110]上記方法の一部の実施形態では、シーケンシングリードの予測数は、正規化された平均である、複数のシーケンシングライブラリーにわたる対応するセグメントにおいてマッピングされたシーケンシングリードの平均数および試験シーケンシングライブラリー内の目的物の複数のセグメントにわたるマッピングされたシーケンシングリードの平均数に基づく。
【0100】
[0111]上記方法の一部の実施形態では、コピー数尤度モデルは、GC含量の偏りの存在を考慮に入れるよう調整される。一部の実施形態では、調整は、調査されたセグメントに対応する捕捉プローブのGC含量または調査されたセグメントのGC含量に応じて変わる。
【0101】
[0112]上記方法の一部の実施形態では、隠れマルコフモデルは、空間的に近接するセグメントの所与のコピー数に対する調査されたセグメントのコピー数の遷移確率を含む。一部の実施形態では、遷移確率は、コピー数バリアントの平均長を考慮に入れる。一部の実施形態では、遷移確率は、調査されたセグメントまたは空間的に近接するセグメントにおけるコピー数バリアントの以前の確率を考慮に入れる。一部の実施形態では、コピー数バリアントの平均長または調査されたセグメントにおけるコピー数バリアントの確率は、ヒト集団における観察に基づいて決定される。
【0102】
[0113]上記方法の一部の実施形態では、隠れマルコフモデルは、空間的に近接する下位セグメントの所与のコピー数に対する調査されたセグメント内の複数の下位セグメントにおける下位セグメントのコピー数の複数の遷移確率を含む。一部の実施形態では、遷移確率は、コピー数バリアントの平均長を考慮に入れる。一部の実施形態では、遷移確率は、調査されたセグメントまたは空間的に近接するセグメントにおけるコピー数バリアントの以前の確率を考慮に入れる。一部の実施形態では、コピー数バリアントの平均長または調査されたセグメントにおけるコピー数バリアントの確率は、ヒト集団における観察に基づいて決定される。
【0103】
[0114]上記方法の一部の実施形態では、隠れマルコフモデルをパラメーター化するステップは、1つまたは複数の偽捕捉プローブを考慮に入れるステップを含む。一部の実施形態では、1つまたは複数の偽捕捉プローブを考慮に入れるステップは、偽捕捉プローブインジケーターを含む複数の観察状態において、1つまたは複数の観察状態を重み付けるステップを含む。一部の実施形態では、偽捕捉プローブインジケーターは、ベルヌーイのプロセスを使用して決定される。一部の実施形態では、偽の捕捉プローブのうちの1つまたは複数を考慮に入れるステップは、期待値最大化を使用するステップを含む。一部の実施形態では、捕捉プローブが偽であると決定される場合、その捕捉プローブからの尤度情報は、コピー数尤度モデルにおいて無視される。
【0104】
[0115]上記方法の一部の実施形態では、隠れマルコフモデルをパラメーター化するステップは、マッピングされたシーケンシングリード数のノイズを考慮に入れるステップを含む。
【0105】
[0116]上記方法の一部の実施形態では、マッピングされたシーケンシングリード数のノイズを考慮に入れるステップは、コピー数尤度モデルを調整するステップを含む。一部の実施形態では、コピー数尤度モデルを調整してノイズを考慮に入れるステップは、期待値最大化ステップを含む。一部の実施形態では、期待値最大化ステップは、試験シーケンシングライブラリーからのマッピングされたシーケンシングリード数のノイズのレベルを重み付けするステップを含む。一部の実施形態では、調査されたセグメントの最も可能なコピー数は、マッピングされたシーケンシングリード数のノイズが所定の閾値を超えている場合にはコールされない。
【0106】
[0117]上記方法の一部の実施形態では、重複する捕捉プローブからのシーケンシングリードはマージされる。
【0107】
[0118]上記方法の一部の実施形態では、ビタビアルゴリズム、準ニュートンソルバー、またはマルコフ連鎖モンテカルロ法を使用して、調査されたセグメントの最も可能なコピー数を決定する。
【0108】
[0119]上記方法の一部の実施形態では、本方法は、セグメントの最も可能なコピー数の信頼性を決定するステップをさらに含む。
【0109】
[0120]上記方法の一部の実施形態では、コピー数尤度モデルの1つまたは複数のパラメーターは、セグメントに対するいくつかのマッピングされたシーケンシングリードの分散(di)、セグメントに対するマッピングされたシーケンシングリードの平均数(μi)、試験シーケンシングライブラリー内のセグメントに対するいくつかのマッピングされたシーケンシングリードの分散(dj)、または試験シーケンシングライブラリー内のセグメントに対するマッピングされたシーケンシングリードの平均数(μj)を含む。
【0110】
[0121]上記方法の一部の実施形態では、第1の誘導体の解析的勾配およびコピー数尤度モデルにおける1つまたは複数のパラメーターの第2の誘導体の解析的ヘッセ行列は、信頼領域ニュートン共役勾配アルゴリズムを使用して解決される。
【0111】
[0122]上記方法のいずれか1つを実行するための命令を含むコンピュータ可読媒体を含むコンピュータシステムも本明細書において記載される。
【0112】
IV.例示的アーキテクチャおよび処理環境
[0123]好ましい実施形態では、本明細書に記載の方法の一部は、コンピュータにより実装される。本明細書に記載のシステムおよびプロセスのある特定の態様および例が動作し得る例示的環境およびシステム。
図10に示されるように、一部の例では、システムは、クライアントサーバーモデルに従って実装可能である。システムは、ユーザーデバイス102上で実行されるクライアントサイドの部分と、サーバーシステム110上で実行されるサーバーサイド部分とを含み得る。ユーザーデバイス102は、任意の電子デバイス、例えば、デスクトップ型コンピュータ、ラップトップ型コンピュータ、タブレット型コンピュータ、PDA、携帯電話(例えば、スマートホン)などを含み得る。
【0113】
[0124]ユーザーデバイス102は、インターネット、イントラネット、または任意の他の有線もしくは無線のパブリックネットワークもしくはプライベートネットワークを含み
得る、1つまたは複数のネットワーク108を通じて、サーバーシステム110と通信し得る。ユーザーデバイス102上の例示的システムのクライアントサイド部分は、クライアントサイドの機能性、例えば、ユーザー対面入力および出力処理ならびにサーバーシステム110との通信を提供することができる。サーバーシステム110は、それぞれのユーザーデバイス102上に常駐する任意の数のクライアントのためにサーバーサイドの機能性を提供することができる。さらに、サーバーシステム110は、クライアント対面I/Oインターフェース122、1つまたは複数の処理モジュール118、データおよびモデル記憶装置120、ならびに外部サービスに対するI/Oインターフェース116を含み得る1つ以上のコーラーサーバー114を含むことができる。クライアント対面I/Oインターフェース122は、コーラーサーバー114のためのクライアント対面入力および出力処理を容易にすることができる。1つまたは複数の処理モジュール118は、本明細書に記載されている様々な問題および候補のスコアリングモデルを含むことができる。一部の例では、コーラーサーバー114は、タスク完了または情報取得のためのネットワーク108を通じて、外部サービス124、例えば、テキストデータベース、加入サービス、政府記録サービスなどと通信することができる。外部サービスに対するI/Oインターフェース116は、このような通信を容易にすることができる。
【0114】
[0125]サーバーシステム110は、1つまたは複数のスタンドアロンデータ処理デバイスまたは分散型コンピュータネットワーク上で実装可能である。一部の例では、サーバーシステム110は、第3者サービスプロバイダ(例えば、第3者クラウドサービスプロバイダー)の様々な仮想デバイスおよび/またはサービスを用いて、サーバーシステム110の基本的な計算リソースおよび/またはインフラストラクチャリソースを提供することができる。
【0115】
[0126]コーラーサーバー114の機能性は、クライアントサイド部分とサーバーサイド部分の両方を含むものとして
図10に示されているが、一部の例では、本明細書に記載の特定の機能(例えば、ユーザーインターフェースフィーチャおよびグラフィック要素に関する)を、ユーザーデバイス上にインストールされたスタンドアロンアプリケーションとして実装することができる。さらに、システムのクライアントおよびサーバー部分の間の機能性の分割は、異なる例において変動し得る。例えば、一部の例では、ユーザーデバイス102上で実行されるクライアントは、ユーザー対面入力および出力処理機能のみを提供し、システムの他の機能性をすべてバックエンドサーバーに委託するシンクライアントであってもよい。
【0116】
[0127]サーバーシステム110およびクライアント102がさらに、例えば、処理ユニット、メモリ(本明細書に記載の機能の一部またはすべてを行なうための論理またはソフトウェアを含み得る)、および通信インターフェース、ならびに他の従来のコンピュータコンポーネント(例えば、キーボード/タッチスクリーンなどの入力デバイス、およびディスプレーなどの出力デバイス)を有する様々なタイプのコンピュータデバイスのうちのいずれか1つを含み得ることに留意されたい。さらに、サーバーシステム110およびクライアント102の一方または両方は、概して、論理(例えば、httpウェブサーバー論理)を含むかまたはローカルもしくはリモートデータベースもしくは他のデータソースおよびコンテンツソースからアクセスされてデータをフォーマティングするようにプログラミングされている。この目的物で、サーバーシステム110は、情報を提示し、クライアント102からの入力を受信するため、共通ゲートウェイインターフェース(CGI)プロトコールおよび付随するアプリケーション(または「スクリプト」)、Java(登録商標)「サーブレット」、すなわちサーバーシステム110上で実行するJava(登録商標)のアプリケーションなどの様々なウェブデータインターフェース技法を利用し得る。サーバーシステム110は、本明細書において単数で記載されているものの、実際には、本明細書に記載の機能の一部またはすべてを実施するために(有線および/または無
線で)通信し協働する複数のコンピュータ、デバイス、データベース、付随するバックエンドデバイスなどを含んでもよい。サーバーシステム110はさらに、アカウントサーバー(例えば、Eメールサーバー)、モバイルサーバー、メディアサーバーなどを含むかまたはこれらと通信してもよい。
【0117】
[0128]さらに、本明細書に記載の例示的方法およびシステムは、様々な機能を実施するための別々のサーバーおよびデータベースシステムの使用を説明しているが、説明されている機能性が実施される限り、設計上の選択の問題として単一のデバイスまたは多数のデバイスの任意の組合せによって、説明された機能をひき起こすように動作するソフトウェアまたはプログラミングを記憶することによって、他の実施形態を実装することが可能である、ということに留意されたい。同様に、説明されたデータベースシステムを、単一のデータベース、分散型データベース、分散型データベースのコレクション、冗長なオンラインもしくはオフラインバックアップまたは他の冗長性を伴うデータベースなどとして実装することも可能であり、分散型データベースまたは記憶装置ネットワークおよび付随するプロセッシングインテリジェンスを含むことができる。図には示されていないが、サーバーシステム110(および本明細書に記載の他のサーバーおよびサービス)は概して、以下に限定されないが、プロセッサー、RAM、ROM、クロック、ハードウェアドライバ、付随する記憶装置などを含めた、サーバーシステム内に通常見出されるような当技術分野において認識されるコンポーネントを含む(例えば、以下で論述する
図11を参照されたい)。さらに、説明されている機能および論理を、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組合せの中に含み入れてもよい。
【0118】
[0129]
図11は、様々なコールおよびスコアリングモデルを含む、上記プロセスのうちのいずれか1つを実施するように構成された例示的計算システム1400を示す。この状況において、計算システム1400は、例えば、プロセッサー、メモリ、記憶装置、および入力/出力デバイス(例えば、モニター、キーボード、ディスクドライブ、インターネット接続など)を含んでもよい。しかしながら、計算システム1400は、プロセスの一部のまたはすべての態様を実行するための回路または他の専用ハードウェアを含み得る。一部の動作環境内では、計算システム1400は、各々がソフトウェア、ハードウェア、またはそれらのいくつかの組合せのいずれかにおいてプロセスの一部の態様を実行するように構成されている、1つまたは複数のユニットを含むシステムとして構成され得る。
【0119】
[0130]
図11は、上記プロセスを実施するために使用され得るいくつかのコンポーネントを伴う計算システム1400を示す。主要システム1402は、入力/出力(「I/O」)セクション1406、1つまたは複数の中央処理ユニット(「CPU」)1408、およびそれに関連したフラッシュメモリカード1412を有し得るメモリセクション1410を有するマザーボード1404を含む。I/Oセクション1406は、ディスプレー1424、キーボード1414、ディスク記憶ユニット1416、およびメディアドライブユニット1418に接続されている。メディアドライブユニット1418は、プログラム1422および/またはデータを格納することができるコンピュータ可読媒体1420の読出し/書込みを行なうことができる。
【0120】
[0131]上記プロセスの結果に基づく少なくともいくつかの値は、その後の使用のために保存可能である。さらに、コンピュータによって上記プロセスのうちのいずれか1つを実施するための1つまたは複数のコンピュータプログラムを記憶(例えば、明白に具体化する)ために、非一時的なコンピュータ可読記憶媒体を使用することができる。コンピュータプログラムは、例えば、汎用プログラミング言語(例えば、Pascal、C、C++、Python、Java)または一部の専用アプリケーション特化言語で書き込まれ得る。
【0121】
[0132]様々な例示的実施形態が本明細書において記載される。非限定的な意味でこれらの実施例が参照される。これらは、開示された技術のより広く応用可能な態様を例示するために提供されている。様々な変更を加えてよく、様々な実施形態の真の趣旨および範囲から逸脱することなく、均等物を代用してもよい。さらに、特定の状況、材料、物質の組成、プロセス、目標へのプロセス行為またはステップ、様々な実施形態の趣旨または範囲を適応させるために、多くの修正が行なわれ得る。さらに、当業者であれば認識するように、本明細書において記載および例示された個別の変形形態のそれぞれは、様々な実施形態の範囲または趣旨から逸脱することなく、他のいくつかの実施形態のいずれかの実施形態の特徴から容易に分離され得るか、またはこれらの特徴と組み合わされ得る個別の構成要素および特徴を有する。このような修正はすべて、本開示に関連する請求項の範囲内にあることが意図される。
【実施例0122】
[0133]本発明は、請求されている本発明の範囲をいかなる形であれ限定するように意図されていない以下の実施例の中で、さらに詳述される。添付図は、本発明の仕様および説明の不可欠な部分とみなされることを意味する。引用されているすべての参考文献は、その中に記載されているすべてについて参照により本明細書に具体的に組み込まれる。以下の実施例は、請求対象の発明を限定するものではなく、例示するために提供される。
【0123】
実施例1
PMS2の3’エクソンにおいて臨床的に取り扱うことが可能なバリアントの検出
[0134]この実施例は、PMS2の3’エクソンにおけるSNV、インデル、およびCNVの検出のための戦略を示す。この研究は、西部治験審査委員会(Western Institutional Review Board)による免除として検討および指定され、医療保険の携行と責任に関する法律(Health Insurance Portability and Accountability Act)(HIPAA)に従った。
【0124】
材料および方法
研究試料:
[0135]付属の表S1は、いずれの試料セットを特定のアッセイおよび分析のために使用したかを示す。細胞株DNAは、Coriell Cell Repositories(Camden、NJ)(付属の表S2)から購入した。患者試料DNAは、匿名化された血液または唾液試料から抽出した。既知陽性を有するDNA試料は、Invitae Corporationからの寄贈であった。
【0125】
LR-PCR:
[0136]DNAを抽出し、1×SPRIビーズとのインキュベーションによりさらに精製し、続いて、80%エタノールで洗浄し、TE(10mMのTris-HCl、1mMのEDTA、pH8.0)中に溶出した。およそ300ngの溶出したDNAは、以下の最終濃度を有する別々の遺伝子および偽遺伝子特異的LR-PCR反応における鋳型としての役割を果たした:1xLongAmp Taq Reaction Buffer(New England Biolabs、NEB)、0.3mM dNTPs、1μMの遺伝子または偽遺伝子特異的フォワードプライマー、1μMの共通リバースプライマーLRPCR_Unv_R(付属の表S3におけるすべてのプライマーシーケンス)、0.25%のホルムアミド、および5ユニットのLongAmp Hot Start Taq
DNA Polymerase(NEB)。遺伝子特異的フォワードプライマーPMS2_LRPCR_Fを含む反応により、PMS2のエクソン11~15にわたる約17kbのアンプリコンが得られ(フォワードプライマー標的エクソン10)、一方、偽遺伝子特異的フォワードプライマーPMS2CL_Fの使用によって、PMS2CL(エクソン
6からPMS2CLの上流の領域にわたる)から約18kbを増幅させた。サーマルサイクリングは、94℃で5分、続いて94℃で30秒間および65℃で18.5分の30サイクルの初期変性を含んだ。最終伸長は、65℃で18.5分であり、続いて4℃で保持した。LR-PCRアンプリコンの質は、0.5%アガロースゲル電気泳動を使用して評価し、広範囲Qubitアッセイキット(Thermo Fisher)により定量した。
【0126】
[0137]2つの異なるライブラリーprep戦略を使用して、NGSに関するLR-PCRアンプリコンを調製した。第一に、患者試料に適用するために、LR-PCRアンプリコンを2μLのNEBNext dsDNA FragmentaseおよびNEBNext dsDNA Fragmentase Reaction Buffer v2(1×最終、NEB)を残りのLR-PCR反応体積に添加することによって断片化し、次いで、37℃で25分間インキュベートした。100mMのEDTAの添加により反応を停止させ、1.5×SPRIビーズを用いて精製し、続いて、80%エタノールで洗浄し、TE中に溶出した。断片化の質をHigh Sensitivity DNAキットを用いてBioanalyzer(Agilent)によって評価した。NGSライブラリーprepには、末端修復、Aテイル化、およびアダプターライゲーションが含まれた。以下のサーマルサイクリングにより、バーコード付加プライマーを含むKAPA HiFi HotStart PCR Kit(Kapa Biosystems)を用いて8~10サイクル試料をPCR増幅させた:95℃で5分間、続いて、98℃で20秒間、60℃で30秒間、および72℃で30秒間のサイクルの初期変性。最終伸長は、72℃で5分間であり、続いて4℃で保持した。ライブラリーの質は、High Sensitivity DNAキットを用いてBioanalyzerによって評価し、濃度は、マイクロプレートリーダー(Tecan Infinite M200 PRO)により吸光度で測定した。
【0127】
[0138]NGSのためにLR-PCRアンプリコンを調製するための第2のアプローチは、155種の細胞株の試料に適用され、タグメンテーションにより、アダプターをLR-PCRアンプリコンへと断片化および挿入することを伴った。2つの二本鎖アダプターを、一本鎖オリゴヌクレオチドをアニーリングすることによって作製した:一方の二本鎖アダプターは、Oligo AにアニーリングしたUnv_Tn5_オリゴ(表S3におけるすべてのプライマーシーケンス)を有し;他方の二本鎖アダプターは、Oligo BにアニーリングしたUnv_Tn5_オリゴを有した。2つの別々のアニーリングミックスは、二本鎖と1×アニーリング緩衝液(10mMのTris-HCl、50mMのNaCl、1mMのEDTA、pH8.0)中にそれぞれ25μMのオリゴヌクレオチドを含んだ。反応物を95℃で2分間変性させ、80℃で60分間インキュベートし、20℃に到達するまで1分ごとに1度温度を下降させ、次いで、4℃に保った。0.15ユニットのRobust Tn5 Transposase(Creative Biogeneからのキット)、1.25μMの各アダプター、および1×TPS緩衝液を用いて、アダプターを37℃で30分のインキュベーションの間にTn5酵素中にロードした。LR-PCRアンプリコンをTn5アダプター構築物とのタグメンテーションに供した。各LR-PCR反応からの0.5μLのロードしたTn5および1~2ngのDNAを用い、タグメンテーション反応を、1×LM緩衝液中56℃で10分間タグメンテーション反応を生じさせた。インキュベートした後、SDS(最終0.02%)を各反応物に添加し、5分間インキュベートして、Tn5をDNAから分離した。1×SPRIビーズとのタグメンテーション精製により、分子バーコード付加およびPCRによる増幅が進行し、NGSライブラリーを作成した。PCR反応は、1ユニットのKapa HiFi Polymerase(Kapa Biosystems)、1×HiFi緩衝液、375μMのdNTP、0.5μMの各プライマー、および精製タグメンテーションされた試料を含んだ。サイクリングは72℃で3分間のギャップ充填により開始し、続いて、98℃で30秒
の変性、63℃で30秒のアニーリング、および72℃で3分間の伸長を10サイクル行った。NGSライブラリーの精製は、1×SPRIビーズを用いて実施した。
【0128】
[0139]患者試料について、HiSeq 2500(Illumina)の急速実行モード(ペアエンド、それぞれ150サイクル)で、LR-PCRライブラリーをシーケンシングした。細胞株試料について、LR-PCRライブラリーをNextSeq 550(Illumina)で500リードの最小深度までシーケンシングした(シングルエンド、150サイクル)。
【0129】
ハイブリッド捕捉およびシーケンシング:
[0140]以前に記載されたように、ターゲットNGSを実施した[7、8]。簡潔には、患者の血液または唾液試料からDNAを単離し、色素ベースの蛍光アッセイによって定量し、次いで、超音波処理によって200~1000bpに断片化した。断片化されたDNAを末端修飾、Aテイル化、およびアダプターライゲーションによってNGSライブラリーに変換した。次いで、試料をバーコード付加プライマーを用いるPCRによって増幅させ、多重化させ、PMS2とPMS2CLの間に共通の領域に相補的な40マーのオリゴヌクレオチド(Integrated DNA Technologies)を用いて、ハイブリッド捕捉に基づく濃縮に供した。全パネルについて平均シーケンシング深度が約500×のHiSeq 2500(PMS2における被覆率は約1000×)で、NGSを実施した。すべての標的ヌクレオチドは、20リードの最小深度で被覆される必要がある。
【0130】
リードアラインメント:
[0141]ハイブリッド捕捉データでは、基準ゲノムのPMS2遺伝子座におけるPMS2およびPMS2CLを起源とするリードを集計するために、ペアエンドNGSリードをBWA-MEM[27]を使用して、hg19ヒト基準ゲノムに対して最初にアラインさせた。PMS2のエクソン11におけるアラインメントを遺伝子と偽遺伝子の間の既知の差の部位で重複するリードのみを含むようにフィルタリングした。PMS2のエクソン12~15に対してアラインしたリードおよびPMS2CLのエクソン3~6に対してアラインしたリードをsamtool[28]を使用してBAMファイル中にパーティショニングした。BAMファイルをPicard(Broad Institute)を使用して、2つのアラインされていないFASTQファイル(2つのファイルのうちの1つに構文解析されたリードペアの各数)に変換した。各シングルエンドFASTQファイルはhg19ゲノムに対して別々にリアラインされ、曖昧なアラインメント、および各リードに対するいくつかのトップアラインメントの報告を可能にした。得られたシングルエンドアラインメントを使用して、以下の方式でペアエンドアラインメントを生じさせた:1)両方のシングルエンドリードは同じリード名を有した、2)両方のシングルエンドリードが、PMS2のエクソン12~15にわたる領域に対してマッピングされた、3)両方のシングルエンドリードが互いに1000bpの範囲内にアラインされた、および4)多数の推定上のペアが、所与のリード名に関する上記条件を満たし、最も高いアラインメントスコアを有するペアが選択された。上記のように適当なペアを形成することができないリードは破棄された。得られたペアエンドBAMファイルは、PMS2シーケンスに対してマッピングされたPMS2とPMS2CLの両方に起源するリードを含有した。
【0131】
[0142]RT-PCRデータ(以下に記載される)およびLR-PCRデータについて、NGSリードをPMS2CLシーケンスが除去されたhg19ゲノムシーケンスに対してアラインし、それによって、PMS2における遺伝子リードおよび偽遺伝子リードを集計した。
【0132】
SNVおよびインデルのコール:
[0143]PMS2とPMS2CLからのリードがマッピングされた(上記を参照されたい)PMS2領域では、SNVおよび短いインデルを4に設定し、max-reads-per-alignment-startオプションをオフにし、およびmin-pruningオプションを1に設定した試料倍数性オプションを有するGATK 4.0 HaplotypeCaller[29]を使用して特定した。二倍体PMS2のエクソン11領域では、GATK 1.6[30]およびFreeBayes[31]を使用して、SNVおよび短いインデルを特定した。LR-PCRデータにおける二倍体SNVコールでは、GATK 1.6を同様に使用した。本発明者らが対立遺伝子のドロップアウトを疑ったLR-PCR試料では(Discussionを参照されたい)、Integrative Genomics ViewerにおけるNGSデータの目視検査によってABを決定した[32]。
【0133】
CNVのコール:
[0144]ハイブリッド捕捉断片のショートリードNGSでは、PMS2のエクソン11におけるCNVは、以前に記載したアルゴリズム[7]を使用して、ターゲット位置における相対的NGSリード深度を測定することによって決定した。PMS2およびPMS2CLに起源するリードがPMS2シーケンスに位置するBAMファイルから、PMS2のエクソン12~15におけるCNVをコールするために(上記「リードアラインメント」を参照されたい)、CNVコールアルゴリズムに対する2つの改変がなされた:1)予測した野生型コピー数を2から4のコピーに変更した、および2)どの程度の可能性でHMMが野生型からCNV状態に遷移するかを決定するパラメーターであるPCNVを0.01に設定し、経験的データから高いCNV感度および特異性を得た。
【0134】
[0145]LR-PCRデータからのCNVのコールとして、リード深度をアンプリコンを並べる等しいサイズのビン(50bp)で計数した。各試料に対するビンの計数を試料のビン深度のメジアンで正規化し、次に、各ビンの値をビンのメジアンで正規化した。同じビンをPMS2とPMS2CLの対応する領域に対して使用した。得られたビン化および正規化したデータを以前に記載したアルゴリズム[7]を使用してCNVに関して検索した。CNVのコールがないものは手動で再調査し、陽性または陰性として状態を解明した。
【0135】
CNVのシミュレーション:
[0146]単一コピーの複製および欠失を、以前に記載したように[33]、試料の所与のバッチのCNV陰性試料のうちの1つにおいて観察されたリード数を改変することによって導入した。ベースラインコピー数が4であったPMS2のエクソン12~15では、単一コピーの欠失および複製を、それぞれ、リードを75%までサブサンプリングするかまたはリード数を125%で増加させることによって導入した。PMS2の4つの最終エクソンにおけるすべての可能なエクソンの連続する組合せについて、シミュレートしたCNVを作成した。各CNVのサイズおよび位置について、2186個の試料をシミュレートし、CNVコールアルゴリズムによって試験し、感度を、正確に検出された合成CNVのパーセンテージとして計算した。偽遺伝子リードは遺伝子シーケンスからフィルタリングされるため、CNVを、2というベースラインコピー数を有したPMS2のエクソン11において別々にシミュレートした。
【0136】
四倍体インデルのシミュレーション:
[0147]四倍体バックグラウンド(遺伝子および偽遺伝子を起源とするリードが再度マッピングされた、PMS2のエクソン12~15に関連する)におけるインデルをシミュレーションして、GATK4を使用してインデルコールの感度をよりよく試験した。2つの二倍体アルゴリズムであって、そのうちの少なくとも1つが、インデルを含有することがCounsyl Reliant HCSパネルによって以前に決定された、2つの二倍
体アルゴリズムをマージして、四倍体アラインメントを作成した。試料のうちの1つがインデルの中央に位置する100bpの領域において、他の試料よりも多くのリードを有する場合、各マージされた二倍体試料がアラインされたリードとおよそ同じ数を有するように、リードを二項式によりダウンサンプリングした。次いで、上記セクションSNVおよびインデルのコールにおいて記載したように、GATK4を使用して、これらの合成四倍体アラインメントからインデルをコールした。
【0137】
バリアントの精選
[0148]PMS2の5つの最終エクソンにおけるすべてのバリアントについて、5段階分類カテゴリーシステム(良性、良性である可能性が高い、病的意義が不明なバリアント、病原性である可能性が高い、病原性)[34]を使用するAmerican College of Medical Genetics and Genomics(ACMG)基準に従って、バリアント解釈を実施した。公開された文献および公的に利用可能なデータベースにおいて入手可能なエビデンスを使用して分類を行った。集団データベースにおけるPMS2バリアントの特定は不正確な可能性があるため、対立遺伝子頻度に基づく規則は使用しなかった。バリアントの分類は、委員会が認定した検査室統括責任者らによって再調査および承認された。
【0138】
MLPA:
[0149]製造業者のプロトコールに従って、MLPAを実施した(MRC Holland、12/11/17に発行されたprobemix P008-C1 PMS2プロトコールおよび3/23/18に発行されたMLPA General Protocol)。全体として、ゲノムDNAをミネラルオイルで被覆して、ハイブリダイゼーションおよびライゲーションの間の蒸発を低減させ、次に、DNAを98℃で5分間変性させ、次いで25℃に保持した。ハイブリダイゼーション試薬およびプローブミックスを試料に添加し、95℃で1分間、次いで、60℃で16~20時間インキュベートした。近接する位置にあるターゲットDNAに結合するプローブペアを54℃で15分間ライゲーションし、次いで、PCRにより35サイクル増幅させた。増幅したプローブをROXラダーおよびホルムアミドと混合し、次いで、キャピラリー電気泳動機器で分離した。Coffalyser software(MRC Holland)により、PMS2プローブの強度を基準プローブの強度に対して、最初は各試料内で、次いで試料間で正規化した。各試料の正規化したプローブ強度を基準試料の平均強度と比較し、Coffalyserはその領域でCNVコールを発した。
【0139】
リフレックスレートの評価:
[0150]LR-PCRデータおよびハイブリッド捕捉データからSNV、インデル、およびCNV特異的リフレックスレートを使用し、次に、pymc[35]を用いるMarkov Chain Monte Carloシミュレーションを使用して、大きなコホートサイズまで外挿し、リフレックスレートを推定した。
【0140】
塩基分析の識別:
[0151]PMS2およびPMS2CL由来のLR-PCRアンプリコンからのNGSリードをPMS2に対してアラインし、GATK UniversalGenotyperを用いてバリアントをコールした。バリアントが、試料の100%において、PMS2特異的アンプリコンにおける基準対立遺伝子に対してホモ接合性であり、かつPMS2CL特異的アンプリコンにおける(PMS2に対してアラインされたように)代替の対立遺伝子に対してホモ接合性である場合に、部位を信頼性ありとみなした。
【0141】
RNA試験:
RNA抽出および逆転写:
[0152]製造業者の説明書に従い、400μLの全血から、Agencourt RNAdvance Bloodキット(Beckman Coulter)を用いて、33種の試料からRNAを抽出した。採血を実施した後の7日以内に、RNAを血液チューブから抽出した。抽出の質をRNA 6000 Nanoキット(Agilent)により評価した。Qubit HS RNA Assayキット(Thermo Fisher)によりRNAを定量した。
【0142】
[0153]プライマーとしてオリゴ-dTとランダムヘキサマーを用いてSuperscript II Reverse Transcriptaseを使用して、RNAを逆転写した(Thermo Fisherからのキット)。反応は以下のように実施した:全体で0.1~1.0μgのRNA、ランダムヘキサマーとオリゴdTプライマーの両方で1.25μM、0.8mMのdNTP、および水で、最終体積を12μLとした。反応物を65℃で5分間加熱し、次いで、氷上で5分間冷やした。1×ファーストストランド緩衝液および0.01MのDTTを各反応物に添加し、42℃で2分間インキュベートした。10U/μLのSuperscript II Reverse Transcriptaseを各反応物に添加し、42℃で50分間インキュベートし、次いで、72℃で15分間、熱失活させた。プールしたmRNA(Stratagene、カタログ番号750500-41)の陽性対照を各逆転写反応で使用した。
【0143】
[0154]逆転写後、1NのNaOH 2μLでRNAを加水分解し、95℃で5分間加熱した。1MのTris-HCL(pH7.5) 4μLを使用して、下流での処理のために反応物を中和した。Qubit ssDNA Assayキット(Thermo Fisher)を使用して、cDNAを定量した。
【0144】
PCR:
[0155]各試料について、2つの反応物を設定した:1)フォワードプライマーPMS2_RNA_FおよびリバースプライマーRNA_Unv_RはcDNAから1.5kbのPMS2を増幅させた、および2)フォワードプライマーPMS2CL_FおよびリバースプライマーRNA_Unv_RはcDNA(付属の表S3におけるプライマーシーケンス)から1.5kbのPMS2CLを増幅させた。PCR反応は、1x LongAmp
Taq Reaction Buffer(NEB)、0.3mMのdNTP、フォワードプライマーとリバースプライマーをそれぞれ1μM、20~70ngのcDNA、0.1U/μLのLongAmp Taq DNAポリメラーゼ(NEB)を含有し、水で25μLとした。サーマルサイクリングは以下の通りであった:94℃で5分間、94℃で30秒間を30サイクル、PMS2については52℃で、PMS2CLについては55℃でアニーリング、65℃で2分間、続いて、65℃で10分間最終伸長、次いで、4℃で保持。PCR産物を1.2×SPRIビーズで精製した。2%アガロースゲルまたはDNA7500キット(Agilent)でアンプリコンを可視化した。
【0145】
シーケンシング:
[0156]各アンプリコン50~100ngをBioruptor(Diagenode)を用い、30秒オンおよび90秒オフの12サイクルで50μL体積に断片化した。断片化は、High Sensitivity DNAキット(Agilent)で可視化した。すべての断片化材料をライブラリー調製の入力に使用した。KAPA Hyper Prepキット(Kapa Biosystems)をライブラリー調製に使用し、製造業者の説明書に従った。アダプターをPMS2については15μMおよびPMS2CLについては3μMに希釈した。濃縮PCRを9サイクル実施した。吸光度測定(Tecan
M200)を使用して試料を定量し、10nMに正規化し、1つの反応物に統一した。KAPA Library Quantification Kit(Kapa Biosystems)を使用するqPCRで最終ライブラリーを定量し、二重インデックスを
有するシングルリードをNextSeq 550 System(Illumina)で75サイクルシーケンシングした。
【0146】
アラインメント:
[0157]ベースコールファイルをbcl2fastq(Illumina)を使用してFASTQファイルに変換した。FASTQファイルをSTAR[36]を使用してアラインした。
【0147】
分析メトリックス:
[0158]メトリックスを以下のように定義した:感度=TP/(TP+FN);特異性=TN/(TN+FP)。ClopperおよびPearson[37]の方法によってCIを計算した。SNVおよびインデルでは、真の陰性を、使用したコホートにおいて多型であると判明した部位(本発明者らが、少なくとも1つの試料において非基準塩基を観察した位置)で観察された一致した陰性結果と定義した。
【0148】
結果
ゼロヌクレオチドは、PMS2のエクソン12~15をPMS2CLと確実に識別することができる:
[0159]短いDNA断片のNGSは、断片自体が遺伝子または偽遺伝子に対して明確にアラインされ得る場合にのみ、5つの最終エクソンにおけるPMS2特異的バリアントを特定することができるであろう。偽遺伝子の妨害を克服するために、ユニークマッピングは、PMS2とPMS2CLの間で異なる塩基に依拠することになる。hg19基準ゲノムでは、これらの識別塩基は稀であり(
図1D、左のバー):PMS2(20ntのイントロンシーケンスで埋められた)の5つの最終エクソンのそれぞれにおけるシーケンス同一性は97%を超え、差は、それぞれ、エクソン11から15において26、0、1、1、および0個の塩基を含むに過ぎない。さらに、以前の報告では、自然変異は、基準ゲノムにおいて表されるこれらの識別塩基の信頼性を抑制し得る[17、18]。
【0149】
[0160]基準ゲノムの信頼性を試験するために、PMS2のエクソン11~15およびPMS2CLにおける対応する領域における一連の自然変異をアセンブルした。様々な自己申告された民族的帰属(付属の表S4)を有する使用されたコホート(表1)の707個の患者試料に関する遺伝子および偽遺伝子特異的LR-PCRアンプリコンに関して、NGSを実施した。PMS2のエクソン11における26の予測された位置のうちの7つは、遺伝子および偽遺伝子に別個の対立遺伝子を有し、それらを信頼性の高い識別塩基としたことが見出された。対照的に、エクソン11における19の位置およびエクソン12~15における2つの位置について、hg19からの表面上PMS2に特異的な対立遺伝子が、PMS2CL LR-PCRデータにおいて少なくとも1回観察され、逆もまた同様であった(対立遺伝子頻度に関する付属の表S4を参照されたい)。したがって、遺伝子および偽遺伝子における自然変異を考慮に入れた後、PMS2のエクソン12~15には信頼性の高い識別塩基は存在せず(すなわち、100%のシーケンス同一性)、エクソン11には7つの識別塩基が存在する(
図1D、濃いバー)。まとめると、これらのデータは、ショートリードのNGS単独によるバリアントの特定は、エクソン11では十分であるが、エクソン12~15では異なるアプローチが必要とされることを示唆する。
【0150】
【0151】
ショートリードNGSで発見された曖昧性除去バリアントに対するリフレックスワークフロー:
[0161]その根拠としてショートリードNGSを使用し、臨床的に必要とされる場合にのみ、バリアントが遺伝子起源であるか偽遺伝子起源であるかを明確にするための直交アッセイを含むリフレックス試験を実施する、PMS2の3’エクソンに関するワークフローの妥当性を評価した(
図2A)。試験のショートリードNGS段階では、分子アプローチは、PMS2の5つの最終エクソンにわたり一致する。患者試料からのLR-PCRデータにおいて、PMS2とPMS2CLの間で変化することが示された位置を特異的に回避する捕捉プローブを設計することによって、それらが遺伝子起源であるか偽遺伝子起源であるかが曖昧な方式で、DNA断片を捕捉する(
図2B、紫色のボックス)。
【0152】
[0162]ワークフローは、PMS2のエクソン11およびエクソン12~15の群に関して、様々なバイオインフォマティクス戦略を用いる(
図2B、青色のボックス)。エクソン11では、PMS2特異的バリアントを、遺伝子および偽遺伝子識別塩基に基づいて、PMS2またはPMS2CL対するリードをパーティショニングするためのリード-アラインメントソフトウェアを調整することによって特定する。対照的に、PMS2のエクソン12~15では、各リードがその最良の遺伝子位置およびその最良の偽遺伝子位置に対してアラインするように、許容される設定でリードがアラインされる(方法を参照されたい)。PMS2およびPMS2CLについてそれぞれ2つのコピーを有する典型的な試料では、このアプローチは、4つのコピーに対応する、各位置におけるリード深度を効果的にもたらす。SNV、インデル、およびCNVを特定するために、バリアントコールソフトウェアを、エクソン11において2つおよびエクソン12~15において4つのベースライン倍数性が予期されるように調整する(
図2B、青色と緑色のボックス)。
【0153】
[0163]リフレックス試験による曖昧性除去は、それらのタイプおよび臨床的解釈に基づき、バリアントのサブセットに対して必要とされるに過ぎない(
図2B、橙色のボックス)。このように、バリアント解釈は、リフレックス試験の前に実施される。良性バリアントは、リフレックス試験されないかまたは患者に報告されない。病原性、病原性である可能性が高い、または病的意義が不明なバリアント(VUS)と分類されるPMS2の5つの最終エクソンのいずれかにおいてCNVを有する試料は、曖昧性除去のためにリフレックス試験を受ける。エクソン12~15において非良性SNVまたはインデルを含む試料
は、曖昧性除去のためにリフレックス試験されるが、エクソン11においてこのようなバリアントを有する試料は、そのエクソン内のユニークリードマッピングによって、リフレックスなしに報告されるだけである。SNV、インデル、およびCNVに関する曖昧性除去試験は、LR-PCR、続いて、バリアントがPMS2に由来するかまたはPMS2CLに由来するかを決定するためのシーケンシングによって実施され得る;MLPAは、CNVの分解を補助することができる[20]。
【0154】
[0164]提案されたワークフローを実行することによって、ショートリードNGSのみを用いる大多数の試料に関して、PMS2の5つの最終エクソンに関連するがんリスクが解明される。LR-PCRを受けた707個の患者試料のそれぞれについて(表1)、その結果に関してバリアント分類を実施し、ほぼ93%がリフレックス試験を受けなくてもよいことが判明した。残りの約7%は、確信できるPMS2のスクリーニング結果を得るために、次の試験を必要とした(
図2A)。このリフレックスレートのSNVおよびインデル特異的コンポーネントは41/707(5.8%)であり、CNVコールおよびコールなしによるリフレックスレートは、それぞれ2/707(0.3%)および1/144(0.7%)であった。シミュレーションを使用して(方法を参照されたい)、13,000名の患者の大きなコホートに関するリフレックスレートを7.7%(95%CI:5.4~10.7%)と推定した。CNVコールなしの試料からのリフレックスレートに対して0.7%の寄与は上界推定値であると予測され、これは、このような試料をショートリードNGSに関して少なくとも1回再試験するという標準的な実践で確信できる陰性コールが得られ(データは示さず)、それによってリフレックス試験は回避されるためである。したがって、提案されたワークフローの全体的リフレックスレート(
図6を参照されたい)は、8%未満であると期待される。
【0155】
ショートリードNGSは、SNVおよびインデルに関するリフレックス試験を必要とする試料を正確に特定した:
[0165]本明細書に記載のリフレックスワークフローは、ショートリードNGS試験(
図2)が(1)PMS2のエクソン11におけるバリアントを特定する、および(2)PMS2/PMS2CL起源の曖昧性を有するエクソン12~15においてバリアントに関するリフレックス試験を必要とする試料を知らせる、高い分析感度および特異性を有する場合にのみ、臨床的に実行可能である。SNVおよびインデルに関するショートリードNGS試験の精度を評価するために、その結果を144個の患者試料および155種の細胞株に関するLR-PCRで観察されたものと比較した(
図3)。エクソン12~15における遺伝子型一致を測定することによって不規則な混同行列が必要され、これは、ショートリードNGS遺伝子型が四倍体であると報告され(方法を参照されたい)、一方、LR-PCRは、遺伝子と偽遺伝子の両方に関する二倍体遺伝子型コールを返すためである(
図3Aはいくつかの例を強調する)。行列は、代替対立遺伝子の存在が適当に検出されるが、代替対立遺伝子の数が一致しない「許容されるドーセッジの誤差」を含む;このような誤差は、ショートリードNGSにおける代替対立遺伝子の存在がリフレックス試験を誘発し、訂正されるのに十分であるため、許容されると考えられる。真の集合としてLR-PCR用いる1,678部位において比較した場合、ショートリードNGS試験は、エクソン11において100%の分析感度と100%の分析特異性を有し(
図3B)、エクソン12~15において99.9%の分析感度と100%の分析特異性を有した(
図3C)。
【0156】
[0166]使用した患者コホートおよび細胞株(全体で17)におけるインデルコールの不足は、臨床的ゲノム適用のために四倍体-バックグラウンドモードのバリアントコールソフトウェアの稀な使用とも相まって、PMS2のエクソン12~15におけるインデルコール効率のより深い調査の動機付けとなった。予測されるNGSデータを、異なる対立遺伝子ドーセッジ(1、2、3、または4コピー)のインデルが集まった四倍体ゲノムバックグラウンドを有する試料についてシミュレーションした。このような試料を構築するた
めに、PMS2以外で使用されるHCS試験の領域における2つの試料(少なくとも1つはインデルを含有する)から、二倍体NGSデータをマージした(
図4A、方法を参照されたい)。2つの試料のそれぞれの遺伝子型は、マージされた試料の予測された遺伝子型をもたらし、例えば、ホモ接合性の代替試料(2つのインデル対立遺伝子)とヘテロ接合性試料(1つのインデル対立遺伝子)を組み合わせることは、予測される、3のインデルドーセッジを与えることになる。
図4Bは、シミュレーションされた四倍体バックグラウンドにおけるインデルについて99.6%の感度を示し、これは、使用されるリードアラインメントとバリアントコール戦略によって四倍体バックグラウンドがもたらされるPMS2のエクソン12~15では感度が比較的高いことを示唆する。
図3Cの経験的データは、エクソン12~15におけるインデルに関して100%の特異性を実証するため、特異性は、シミュレーションにおいてさらに評価されなかった。
【0157】
[0167]まとめると、LR-PCRとショートリードNGSの間のSNVコールとインデルコールの比較は、本明細書に記載の提案されたワークフローのプレリフレックスステップが臨床用途として考えられる十分な分析感度と特異性を実現することを示唆する。
【0158】
CNVリフレックス試験を必要とする試料のショートリードNGSに関する正確な検出
[0168]PMS2の5つの最終エクソンにおけるCNVに関するショートリードNGSの感度および特異性を評価するために、患者試料、細胞株、既知陽性、およびシミュレーションした陽性を有する試料を試験した。SNVおよびインデルと同様に、上記CNV検出アルゴリズムを、PMS2のエクソン11について2つおよびエクソン12~15において4つのコピー数ベースラインを使用するために、適応させた(
図2B、青色のボックス;方法を参照されたい)。5つの最終エクソンにおいてCNVを有する3つの既知陽性試料を予測されたエクソンを包含するCNVを有するとして正確に特定した(
図5A)。細胞株のうちの4つおよび臨床試料のうちの1つにおけるエクソン13~14の欠失をさらに観察した;臨床試料では、ショートリードNGSは、四倍体バックグラウンドからのシグナル低下を特定し(
図5B)、MLPAは、同様の欠失の存在を確認し(
図5C)、かつLR-PCRアンプリコンにおけるNGSは、欠失は、PMS2よりもむしろPMS2CLにおいて存在することを明らかにした(
図5D)。興味深いことに、この領域の2つのコピーのうちの1つだけがPMS2CLにおいて欠失するが、LR-PCRプロファイルは、欠失した領域において75%のシグナル低下を示す。LR-PCRの間、これは、より短い欠失を保有する対立遺伝子の優先的増幅から生じることが推測される。したがって、LR-PCRデータは、曖昧性除去をもたらす点で特有であったが、ショートリードNGSおよびMLPAデータは、解釈可能なコピー数値をより容易に有した。
【0159】
[0169]大きな一連のCNV陽性試料の非存在により、ショートリードNGSに関するPMS2 CNVコールの感度の完全かつ直接的な特徴付けは、数千の試料の盲検試験を必要とすることになる。代わりに、多数のCNV陰性患者からのシーケンシングデータを、所与の長さおよび位置のCNVを導入するシミュレーションにおけるサブストレートとして使用した(方法を参照されたい)。2186個のシミュレーションした試料に関して、上記のCNV検出アルゴリズムを実行することによって、1から5エクソン長の範囲のCNVに関する分析感度を測定した(表2;付属の表S6における細胞株試料に関するシミュレーションデータ)。多数のエクソンの欠失に関する感度は、全体として、99.2%を超え、単一エクソンの欠失に関する感度は、約89%であった。PMS2の5つの最終エクソンにおけるCNV長の観察された頻度分布によってシミュレーションされた感度を重み付けることによって[21、23、24]、この複雑なゲノム領域におけるCNV感度の総計は、96.7%であると推定される。
【0160】
【0161】
[0170]CNVに関する高感度は、低特異性という犠牲を伴ってはらない。このことは、使用された大きなコホートのCNV偽陽性率の測定の契機となる。302個の試料の302のハイブリッド捕捉コホートでは、コールなしが1つ存在し、これは、偽陽性として処理される。したがって、試料-レベル特異性は、99.7%(95%CI:98.2~100%)である。
【0162】
[0171]これらの分析に基づいて、ショートリードNGS(説明されたワークフローにおいて最適化された)は、PMS2の5つの末端エクソンにおいてCNVを含む試料を検出するための>96%の感度および>99%の特異性を達成し得ると結論付けられた。
共通の細胞株に関する遺伝子および偽遺伝子特異的バリアント情報:
【0163】
[0172]既知の遺伝子型を有する基準細胞株は、新規分子診断方法の開発および評価を容易にするが、PMS2領域における高品質遺伝子型を有する試料は、概して領域の複雑な性質により利用不能である。上記で特徴付けられたワークフローの開発および試験の過程では、高品質のゲノムシーケンスが約30×深度を有する全ゲノムシーケンシング(Illumina Polaris 1 Diversity Panel)またはBottle(GIAB) ConsortiumにおけるGenome[38,39]からアセンブルされた細胞株におけるハイブリッド捕捉断片とLR-PCRアンプリコンの両方について、NGSを実施した。重要なことに、
図7は、観察された遺伝子特異的遺伝子型が、PolarisおよびGIABデータと異なったことを示す(GIAB試料に関する位相データを含む;
図7C)。原則として、このような差は、例えば、生物学的夾雑、非特異的増幅、非特異的シーケンスアラインメント、または選択された遺伝子型決定ソフトウェアによる技術的処理エラーにより、部分的に、いずれかのデータセットにおけるエラーによって生じ得る。直交ハイブリッド捕捉とLR-PCRアッセイの間の一致は、本発明において報告された遺伝子型は正しいことを示唆するが、第3の直交方法として、LR-PCR試料のうちの33個から抽出されたRNAから、PMS2およびPMS2CLの遺伝子型決定を行った(方法を参照されたい)。RNA由来の遺伝子型は、LR-PCRデータと一致し(
図8)、本発明者らが、正確な遺伝子および偽遺伝子特異的遺伝子型を明確にしたことを強く示唆した。PMS2およびそのリンチ症候群における役割についての科学的研究および臨床開発を補助するために、遺伝子および偽遺伝子特異的バリアント情報が共有される。患者試料では、患者の同意およびPHIコンプライアンスに留意しながら、有価値データを共有するために、バリアント頻度が与えられる(付属の表S4)。細胞株に関しては、バリアント頻度ならびにPMS2およびPMS2CLの5つの最終エクソンにわたるLR-PCRアンプリコンに関するBAMおよびVCFファイルが共有され
る(付属の表S5およびENA受託番号PRJEB27948)。
【0164】
例示的な実施形態
[0173]以下の実施形態は例示的であり、本発明を限定することを意図しない。
【0165】
[0174]実施形態1.対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが、目的物の高度に相同な第1の領域および第2の領域を含み、方法が、
(a)目的物の第1の領域および第2の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第1のリードおよび第2のリードを含む、ステップと、
(b)基準ゲノムに対してシーケンスリードをアラインするステップであって、第1のリードおよび第2のリードが基準ゲノムに対して別々にアラインされ、アライナーが第1のリードおよび第2のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、
(c)目的物の第1の領域に対してアラインする第1のリードおよび第2のリードを特定するステップと、
(d)ステップ(c)において特定されたリードから第1のリードおよび第2のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、
(e)ステップ(d)で生じたトップペアアラインメントにおける遺伝的変異を検出するステップと
を含む、方法。
【0166】
[0175]実施形態2.ステップ(b)の前に、基準ゲノムに対して第1のリードおよび第2のリードをアラインするステップであって、アライナーが、第1のリードおよび第2のリードの各ペアについて、目的物の第1の領域または第2の領域に対して最良の可能なペアエンドアラインメント発し、かつ目的物の第1の領域または第2の領域に対するトップアラインメントスコアに関連するペアエンドリードのみが、ステップ(b)において別々にアラインされる、ステップを含む、実施形態1に記載の方法。
【0167】
[0176]実施形態3.シーケンスリードが、目的物の多数の部位のダイレクトターゲットシーケンシング(DTS)によって得られ、第1のリードがゲノムシーケンスリードを含み、第2のリードが目的物の部位と関連したプローブシーケンスリードを含む、実施形態1に記載の方法。
【0168】
[0177]実施形態4.ステップ(b)において、シーケンスリードが、Burrows-Wheeler Aligner(BWA)アルゴリズムを使用してアラインされる、実施形態1に記載の方法。
【0169】
[0178]実施形態5.ステップ(b)において、アライナーが、目的物の第1の領域および第2の領域に関する最小のアラインメントスコアを満たすアラインメントのみを発する、実施形態1に記載の方法。
【0170】
[0179]実施形態6.目的物の第1の領域に対する第1のリードおよび第2のリードのアラインメントが、互いに一定数の塩基の範囲内にある場合にのみ、第1のリードおよび第2のリードが、ステップ(d)においてペアリングされる、実施形態1に記載の方法。
【0171】
[0180]実施形態7.目的物の第1の領域に対する第1のリードおよび第2のリードのアラインメントが、約100bp、約200bp、約200bp、約300bp、約400bp、約500bp、約600bp、約700bp、約800bp、約900bp、約1000bp、約1100bp、約1200bp、約1300bp、約1400bp、約1
500bp、または1500bp超の範囲内の場合にのみ、第1のリードおよび第2のリードが、ステップ(d)においてペアリングされる、実施形態1に記載の方法。
【0172】
[0181]実施形態8.ステップ(d)において、多数のペアアラインメントを生じるステップと、多数のペアアラインメントのそれぞれについてアラインメントスコアを計算するステップと、最も高いアラインメントスコアを有するトップペアアラインメントを特定するステップとを含む、実施形態1に記載の方法。
【0173】
[0182]実施形態9.ステップ(d)におけるトップペアアラインメントが、最も小さな鋳型長を有するものとして選択される、実施形態1に記載の方法。
【0174】
[0183]実施形態10.遺伝的変異が、SNP、インデル、逆位、および/またはCNVを含む、実施形態1に記載の方法。
【0175】
[0184]実施形態11.ステップ(e)における検出するステップが、SNP、インデル、逆位、および/またはCNVをコールするステップを含む、実施形態1に記載の方法。
【0176】
[0185]実施形態12.ステップ(e)における検出するステップが、コピー数を決定するための隠れマルコフモデル(HMM)コーラーを使用するステップを含む、実施形態1に記載の方法。
【0177】
[0186]実施形態13.ステップ(e)における検出するステップが、2という予測倍数性に基づく、実施形態1に記載の方法。
【0178】
[0187]実施形態14.ステップ(e)における検出するステップが、4という予測倍数性に基づく、実施形態1に記載の方法。
【0179】
[0188]実施形態15.遺伝的変異がステップ(e)において検出される場合、対象のゲノムの一部がロングレンジPCRによって増幅され、マルチプレックスライゲーション依存性プローブ増幅(MLPA)によってアッセイされる、実施形態1に記載の方法。
【0180】
[0189]実施形態16.遺伝的変異がステップ(e)において検出される場合、目的物の第1の領域の一部がロングレンジPCRによって増幅され、産物またはその部分がサンガーシーケンシングまたはNGSによってシーケンシングされる、実施形態1に記載の方法。
【0181】
[0190]実施形態17.遺伝的変異がステップ(e)において検出される場合、対象のゲノムDNAは、マルチプレックスライゲーション依存性プローブ増幅(MLPA)によってアッセイされる、実施形態1に記載の方法。
【0182】
[0191]実施形態18.シーケンスリードが、30~50bpまたは100~200bpの長さである、実施形態1に記載の方法。
【0183】
[0192]実施形態19.目的物の高度に相同な第1の領域および第2の領域が、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または99%より高いパーセンテージで同一である、実施形態1に記載の方法。
【0184】
[0193]実施形態20.シーケンスリードが、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンから得られる、実施形態1に記載の方法。
【0185】
[0194]実施形態21.シーケンスリードが、目的物の第1の領域および/または第2の領域内の1つまたは複数のイントロンから得られる、実施形態1に記載の方法。
【0186】
[0195]実施形態22.シーケンスリードが、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンおよびイントロンから得られる、実施形態1に記載の方法。
【0187】
[0196]実施形態23.シーケンスリードが、目的物の第1の領域および/または第2の領域内の1つまたは複数のエクソンおよびイントロンから得られ、イントロンが、エクソンの付近に存在する、実施形態1に記載の方法。
【0188】
[0197]実施形態24.シーケンスリードが、目的物の第1の領域および/または第2の領域と関連した1つまたは複数の臨床的に取り扱うことが可能な領域から得られる、実施形態1に記載の方法。
【0189】
[0198]実施形態25.目的物の第1の領域が遺伝子を含み、目的物の第2の領域が偽遺伝子を含む、実施形態1に記載の方法。
【0190】
[0199]実施形態26.目的物の第1の領域が偽遺伝子を含み、目的物の第2の領域が遺伝子を含む、実施形態1に記載の方法。
【0191】
[0200]実施形態27.目的物の第1の領域が、2つの対立遺伝子を含む、実施形態1に記載の方法。
【0192】
[0201]実施形態28.目的物の第2の領域が、2つの対立遺伝子を含む、実施形態1に記載の方法。
【0193】
[0202]実施形態29.遺伝子が、PMS2である、実施形態25~28のいずれか1つに記載の方法。
【0194】
[0203]実施形態30.偽遺伝子が、PMS2CLである、実施形態25~28のいずれか1つに記載の方法。
【0195】
[0204]実施形態31.目的物の多数の部位が、対象のゲノムのPMS2のエクソンおよび別の部分のエクソン内に存在する、実施形態1に記載の方法。
【0196】
[0205]実施形態32.目的物の多数の部位は、PMS2のエクソンおよびPMS2CLのエクソン内に存在する、実施形態1に記載の方法。
【0197】
[0206]実施形態33.目的物の多数の部位が、PMS2のエクソン11、12、13、14、および/または15ならびにPMS2CLのエクソン2、3、4、5、および/または6内に存在する、実施形態1に記載の方法。
【0198】
[0207]実施形態34.対象はヒトであり、シーケンスリードはヒト基準ゲノムに対してアラインされる、実施形態1に記載の方法。
【0199】
[0208]実施形態35.コンピュータにより実装される、実施形態1に記載の方法。
【0200】
[0209]実施形態36.基準ゲノムが、目的物の第1の相同な領域または第2の相同な領域のマスク部分または改変部分を含まない、実施形態1に記載の方法。
【0201】
[0210]実施形態37.実施形態1を実施するためのコンピュータ実行可能命令を含む非一時的なコンピュータ可読記憶媒体。
【0202】
[0211]実施形態38.
(a)1つまたは複数のプロセッサー、
(b)メモリ、および
(c)1つまたは複数のプログラム
を含むシステムであって、1つまたは複数のプログラムが、メモリに記憶され、1つまたは複数のプロセッサーによって実行されるよう構成され、1つまたは複数のプログラムは、実施形態1を実行するための命令を含む、システム。
【0203】
[0212]参照文献
1. Nagy R, Sweet K, Eng C. Highly penetrant hereditary cancer syndromes. Oncogene. 2004;23: 6445-6470.
2. Lu KH, Wood ME, Daniels M, Burke C, Ford J, Kauff ND, et al. American Society of Clinical Oncology Expert Statement: collection and use of a cancer family history for oncology providers. J Clin Oncol. 2014;32: 833-840.
3. Mucci LA, Hjelmborg JB, Harris JR, Czene K, Havelick DJ, Scheike T, et al. Familial Risk and Heritability of Cancer Among Twins in Nordic Countries. JAMA. 2016;315: 68-76.
4. Foulkes WD. Inherited Susceptibility to Common Cancers. N Engl J Med. 2008;359: 2143-2153.
5. Garber JE, Offit K. Hereditary cancer predisposition syndromes. J Clin Oncol. 2005;23: 276-292.
6. Vogelstein B, Papadopoulos N, Velculescu VE, Zhou S, Diaz LA, Kinzler KW. Cancer Genome Landscapes. Science. 2013;339: 1546-1558.
7. Vysotskaia VS, Hogan GJ, Gould GM, Wang X, Robertson AD, Haas KR, et al. Development and validation of a 36-gene sequencing assay for hereditary cancer risk
assessment. PeerJ. 2017;5: e3046.
8. Kang HP, Maguire JR, Chu CS, Haque IS, Lai H, Mar-Heyming R, et al. Design and validation of a next generation sequencing assay for hereditary BRCA1 and BRCA2 mutation testing. PeerJ. 2016;4: e2162.
9. Bunnell AE, Garby CA, Pearson EJ, Walker SA, Panos LE, Blum JL. The Clinical
Utility of Next Generation Sequencing Results in a Community-Based Hereditary Cancer Risk Program. J Genet Couns. 2017;26: 105-112.
10. Desmond A, Kurian AW, Gabree M, Mills MA, Anderson MJ, Kobayashi Y, et al. Clinical Actionability of Multigene Panel Testing for Hereditary Breast and Ovarian Cancer Risk Assessment. JAMA Oncol. 2015;1: 943-951.
11. Lynch HT, Smyrk T, Lynch J, Fitzgibbons R Jr, Lanspa S, McGinn T. Update on
the differential diagnosis, surveillance and management of hereditary non-polyposis colorectal cancer. Eur J Cancer. 1995;31A: 1039-1046.
12. Blount J, Prakash A. The changing landscape of Lynch syndrome due to PMS2 mutations. Clin Genet. 2018;94: 61-69.
13. Sijmons RH, Hofstra RMW. Review: Clinical aspects of hereditary DNA Mismatch repair gene mutations. DNA Repair . 2016;38: 155-162.
14. Tiwari AK, Roy HK, Lynch HT. Lynch syndrome in the 21st century: clinical perspectives. QJM. 2016;109: 151-158.
15. Lynch HT, Fusaro RM, Lynch JF. Cancer Genetics in the New Era of Molecular Biology. Ann N Y Acad Sci. 1997;833: 1-28.
16. De Vos M, Hayward BE, Picton S, Sheridan E, Bonthron DT. Novel PMS2 pseudogenes can conceal recessive mutations causing a distinctive childhood cancer syndrome. Am J Hum Genet. 2004;74: 954-964.
17. Hayward BE, De Vos M, Valleley EMA, Charlton RS, Taylor GR, Sheridan E, et al. Extensive gene conversion at the PMS2 DNA mismatch repair locus. Hum Mutat. 2007;28: 424-430.
18. van der Klift HM, Tops CMJ, Bik EC, Boogaard MW, Borgstein A-M, Hansson KBM, et al. Quantification of sequence exchange events between PMS2 and PMS2CL provides a basis for improved mutation scanning of Lynch syndrome patients. Hum Mutat. 2010;31: 578-587.
19. Vaughn CP, Robles J, Swensen JJ, Miller CE, Lyon E, Mao R, et al. Clinical analysis of PMS2: mutation detection and avoidance of pseudogenes. Hum Mutat. 2010;31: 588-593.
20. Vaughn CP, Hart KJ, Samowitz WS, Swensen JJ. Avoidance of pseudogene interference in the detection of 3' deletions in PMS2. Hum Mutat. 2011;32: 1063-1071.
21. van der Klift HM, Mensenkamp AR, Drost M, Bik EC, Vos YJ, Gille HJJP, et al. Comprehensive Mutation Analysis of PMS2 in a Large Cohort of Probands Suspected of Lynch Syndrome or Constitutional Mismatch Repair Deficiency Syndrome. Hum Mutat. 2016;37: 1162-1179.
22. Li J, Dai H, Feng Y, Tang J, Chen S, Tian X, et al. A Comprehensive Strategy for Accurate Mutation Detection of the Highly Homologous PMS2. J Mol Diagn. 2015;17: 545-553.
23. Vaughn CP, Baker CL, Samowitz WS, Swensen JJ. The frequency of previously undetectable deletions involving 3’ Exons of the PMS2 gene. Genes Chromosomes Cancer. 2013;52: 107-112.
24. Espenschied CR, LaDuca H, Li S, McFarland R, Gau C-L, Hampel H. Multigene Panel Testing Provides a New Perspective on Lynch Syndrome. J Clin Oncol. 2017;35: 2568-2575.
25. Etzler J, Peyrl A, Zatkova A, Schildhaus H-U, Ficek A, Merkelbach-Bruse S, et al. RNA-based mutation analysis identifies an unusual MSH6 splicing defect and circumvents PMS2 pseudogene interference. Hum Mutat. 2008;29: 299-305.
26. Herman DS, Smith C, Liu C, Vaughn CP, Palaniappan S, Pritchard CC, et al. Efficient Detection of Copy Number Mutations in PMS2 Exons with a Close Homolog. J Mol Diagn. 2018;20: 512-521.
27. Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM [Internet]. 2013. Available: arxiv.org/abs/1303.3997
28. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009;25: 2078-2079.
29. Poplin R, Ruano-Rubio V, DePristo MA, Fennell TJ, Carneiro MO, Van der Auwera GA, et al. Scaling accurate genetic variant discovery to tens of thousands of
samples [Internet]. 2017. doi:10.1101/201178
30. Garrison E, Marth G. Haplotype-based variant detection from short-read sequencing [Internet]. arXiv [q-bio.GN]. 2012. Available: arxiv.org/abs/1207.3907
31. McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, et al.
The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res. 2010;20: 1297-1303.
32. Home | Integrative Genomics Viewer [Internet]. [cited 7 Sep 2018]. Available: www.broadinstitute.org/igv
33. Hogan GJ, Vysotskaia VS, Beauchamp KA, Seisenberger S, Grauman PV, Haas KR,
et al. Validation of an Expanded Carrier Screen that Optimizes Sensitivity via Full-Exon Sequencing and Panel-wide Copy Number Variant Identification. Clin Chem. 2018;64: 1063-1073.
34. Richards S, Aziz N, Bale S, Bick D, Das S, Gastier-Foster J, et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus
recommendation of the American College of Medical Genetics and Genomics and the
Association for Molecular Pathology. Genet Med. 2015;17: 405-424.
35. Salvatier J, Wiecki TV, Fonnesbeck C. Probabilistic programming in Python using PyMC3. PeerJ Comput Sci. PeerJ Inc.; 2016;2: e55.
36. Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. STAR:
ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29: 15-21.
37. Clopper CJ, Pearson ES. The Use of Confidence or Fiducial Limits Illustrated in the Case of the Binomial. Biometrika. 1934;26: 404.
38. Zook JM, Catoe D, McDaniel J, Vang L, Spies N, Sidow A, et al. Extensive sequencing of seven human genomes to characterize benchmark reference materials. Sci Data. 2016;3: 160025.
39. Zook JM, Chapman B, Wang J, Mittelman D, Hofmann O, Hide W, et al. Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls. Nat Biotechnol. 2014;32: 246-251.
[0213]本明細書に記載の実施例および実施形態は、例示のみを目的物とし、それらを考慮した様々な修正または変化は、当技術分野の当業者に示唆されることになり、本出願の趣旨および範囲ならびに添付の特許請求の範囲の範囲内に含まれるべきであることが理解される。本明細書で引用されたすべての刊行物、特許、および特許出願は、参照によりすべての目的物のためにその全体が本明細書に組み込まれる。