【実施例】
【0076】
以下に、上記記載に従って実行した例を記載する。
【0077】
(実施例1)
座D18S51のアライメント
この例は、一実施形態に従った、座D18S51のアライメントについて記載する。一部の座は、複雑度が低く、STR反復配列に似たフランキング配列を有する。これは、フランキング配列を(時にSTR配列自体に)誤って整列させ、そのためアレルが誤ってコールされる可能性がある。問題となる座の例はD18S51である。反復モチーフは[AGAA]n AAAG AGAGAGである。隣接配列を下記に示し、複雑度の低い「問題のある」配列に下線を引く。
【表1】
【0078】
STRに直ぐ隣接するフランキング領域を用いて、アライメントをシードした場合、GAAAG, AAAGAA, AGAGAAA などのk-merが生成するだろう。これをSTR配列にマッピングする。これは、多くの可能性がシーディングから得られることから動作を抑制するが、最も重大なのは、アプローチが
図5に示すようなミスアライメントを生成することである。
図5に示す配列では、真のSTR配列を強調し、ミスアライメントから生じるSTR配列には下線を引き、リードエラーは太字で示す。
【0079】
これらの複雑度の低いフランクでは、シーディング領域をSTR配列からさらに押しやることにより、確実に、該シーディング領域が複雑度の低い領域にないようにする。これにはSTRをコールするためのより長いリードが必要だが、それは高い正確性を保証し、フランキング領域のSTR配列(またはフランクの他の部分)へのミスアライメントを防ぐ。複雑度の低いフランクをなおリードに整列させてSTRの末端位置を見つけるが、アライメントが複雑度の高い配列とともにシードされることから、それは、正しい位置にあるはずである。
【0080】
(実施例2)
短いSTR配列を加えることによる、座Penta-Dのアライメント
予想より1nt短い、STRを有する傾向のあるPenta-D配列の組。さらなる検査で、両フランクがpoly-A伸長を含み、シーケンシング/増幅エラーがしばしばその伸長のAの1つを取り除くことが発見された。下記の配列に示すように、ホモポリマーAの伸長が両フランクに見られる。
【表2】
【0081】
第1フランクの欠失を引き起こすリードエラーは、2つの等しく存続可能なアライメントに負けるだろう。
【表3】
【0082】
STRに最も近い塩基がマッチするように強制することは、STRの1つのフランクの1つが、その中にSNPを有することになるため、機能しなかった。STR配列のたった2つのヌクレオチドを加えることが問題を解決することが発見された。
【表4】
【0083】
(実施例3)
DNAサンプルの混合物の解析
サンプル混合物を、本明細書で提供する方法を用いて、法医学STRのパネルにおいて各座のコールを行った。各座では、各アレルおよび該アレルの異なる配列それぞれに対応するリード数をカウントした。
【0084】
典型的な結果を
図6A〜6Dに示す。示すように、各対の右のバーは得られた実際のデータを表し、各アレルのリード比率を示す。異なる暗色が、異なる配列を表す。座のリードカウントが0.1%未満であるアレルと、アレルカウントが1%未満である配列を削除する。各対の左側のバーは理論的な比率(スタッターなし)を表す。異なる暗色は、凡例に示されるように、インプット中の異なる対照DNAを表す。
図6A〜6Dでは、X軸はアレルの順であり、Y軸は指定のアレルでのリード比率を示す。
【0085】
図に示すように、本明細書で提示する方法を用いたSTRコーリングアプローチは、驚くべきことに、パネルにおいて各アレルの正確なコールを達成した。
【0086】
(実施例4)
法医学STRパネルの解析
15個の異なる座のパネルを5つの異なるサンプルにおいて解析した。サンプルはPromega Corpから入手し、サンプル9947A、K562、2800M、NIST:AおよびB(SRM 2391c)が含まれた。座をCODIS STR法医学的マーカーから選択し、本明細書で提示するアライメント法を用いて、座にはCSF1PO、D3S1358、D7S820、D16S539、D18S51、FGA、PentaE、TH01、vWA、D5S818、D8S1179、D13S317、D21S11、PentaD、およびTPOXが含まれた。簡潔に言うと、Krenke, et al. (2002) J. Forensic Sci. 47(4): 773-785(これは参照によりその全体が組み込まれる)に記載されているように、マーカーを標準プライマーを用いて増幅した。アンプリコンをプールし、MiSeq sequencing instrument(カリフォルニア州サンディエゴ、Illumina)を1×460サイクル用いてシーケンシングデータを得た。
【0087】
アライメントを本明細書に提示する方法に従い実行した。
図7に示すように、これらの対照サンプルについて、100%の整列が対照データと比較して示された。加えて、この方法は、マーカーD8S1179のサンプルの1つにおいて、これまで未知のSNPを同定し、さらに、本明細書で提供するアライメント法と組み合わせた場合に、配列に基づくSTR解析の強力なツールをさらに実証した。
【0088】
図8は、スタッター産物を同定する方法160を示す。割り当てリード内のROIを同定した後、本明細書に記載の実施形態は、162で、ROIの配列に基づきROI(または割り当てリード)を分類することができる。上記のように、ある状況では、アライメントプロトコルは、反復セグメントの配列に加え、フランキング領域の一方または両方の一部を解析する場合がある。従って、ある実施形態では、162での分類には、反復セグメントとの配列およびフランキング領域の一方または両方のサブ配列に基づき、分類することが含まれ得る。例として、分類には、反復セグメントと、反復セグメントから伸長するフランキング領域のそれぞれの数ヌクレオチドを解析することが含まれる場合がある。他の実施形態では、162での分類には、反復セグメントの配列のみを含むROIに基づく分類が含まれる場合がある。
【0089】
ROI(または反復セグメント)を分類し、その結果、異なる配列を有するROI(または反復セグメント)が潜在的な(または疑わしい)アレルとして指定されるようにすることができる。例えば、各潜在的アレルは固有のサンプル配列および/または固有の長さを有する場合がある。具体的には各潜在的アレルはROIもしくは反復セグメントの固有配列、および/または、ROIもしくは反復セグメントの固有の長さを有し得る。下記のように、一部の実施形態では、反復セグメントをCEアレル名に基づいて順に並べることができる。
【0090】
162での分類は、各指定座について行うことができる。サンプルリードを対応する遺伝子座に割り当てた後、各遺伝子座は該遺伝子座に関連する、複数の割り当てリードを有し得る。例えば、一部の実施形態では、1つまたは複数の遺伝子座が、数百の割り当てリードを有し得、これらは互いにグループ化される、またはビンに区切られる。既知のように、既知のSTR座などの対応する遺伝子座は複数のアレルを有し得、ここでは各アレルが異なる配列を含む。共通の遺伝子座に由来すると同定された複数の割り当てリードを一括して解析することにより、複数の割り当てリードを解析して、一個体または複数の個体に遺伝子型コールを提供することができる。
【0091】
方法160にはまた、共通の配列を有する共通遺伝子座の割り当てリードを164でカウントする(または、合計する)ステップが含まれ得る。164でのカウントには、本明細書で記載するように、カウントスコアを求めることが含まれ得る。例として、
図9はD1S1656座の潜在的アレルを含む表190を含み、
図10はCEアレルの分布を示すグラフ192を含む。CEアレルには慣習に従って名前が付けられるが、該CEアレルには
図10に示すようにスタッター産物が含まれる可能性がある。本例では、単一ソースに由来する核酸をシーケンシングした後、サンプルリードを解析してD1S1656座のROI(例えば、反復セグメント)を同定した。ROIを分類およびカウントして、D1S1656座内の、いくつかの潜在的アレルを同定した。本例では、D1S1656座の割り当てリード総数の1%未満だったカウントを有するアレルは、考慮しなかった。
図9に示すように、フィルタリングした割り当てリードには全部で4つの固有配列が含まれ、これはD1S1656座の潜在的アレルと考えることができる。解析後、下記のように、座の遺伝子型コールはヘテロ接合型12/13である。
【0092】
一部の実施形態では、遺伝子座の潜在的アレルのカウントスコアに基づき、遺伝子座の遺伝子型をコールすることが可能である。しかしながら、一部実施形態では、さらなる配列解析を行うことができる。例えば、方法160には、166で、潜在的アレルの配列を解析して、第1アレルが第2アレルのスタッター産物であることが疑われるか否かを判断するステップが含まれ得る。スタッターは、核酸、特に、STRアレル内に見られるような、1つまたは複数の反復モチーフ連続を含む核酸を増幅する間に起き得る現象である。スタッター産物は、典型的には真のアレルよりサイズの小さい(または、サイズの大きい)1つまたは複数の反復モチーフである、配列を有する。核酸配列の複製中に、二本の鎖がSTRに沿ってばらばらになり得る。各反復モチーフが同一であるため、二本の鎖は適切に再アニールすることができ、その結果、該二本の鎖が1つまたは複数の反復モチーフでオフセットされる。したがって、結果として生じる産物はさらに増幅され得るが、これは1つまたは複数の反復モチーフにより真の配列とは異なる。
【0093】
スタッター産物は真のアレルとほぼ同じサイズであることから、スタッター産物が遺伝子座の真のアレルであるのか、隣接アレルのスタッター産物であるか否かを判断することは困難な場合がある。したがって、スタッター産物は遺伝子型コールの信頼度を低減する可能性がある。ある状況下では、スタッター産物は、遺伝子型コールが提供されないようにする、または、誤った遺伝子型コールを招く可能性がある。スタッター産物は、複数のソースを含むサンプルについての遺伝子型コールを特に困難にし得る。
【0094】
166での解析により、第1アレルは第2アレルのスタッター産物であることが疑われるか否かを判断することができる。一部の実施形態では、解析には、1つまたは複数のルールまたは条件を第1アレルおよび第2アレルに適用することが含まれる。例えば、171で、k個の反復モチーフが第1アレルと第2アレルの間で付加された、または欠失したと判断された場合、第1アレルは第2アレルのスタッター産物であると疑われ得る。数字kは整数である。特定の実施形態では、数字kは1または2である。スタッター産物は典型的には1つ少ない反復モチーフを含むが、スタッター産物は、2つ少ない反復モチーフ、または、1つ多い反復モチーフを含む場合もある。スタッター産物はまた、反復モチーフで他の違いを含む可能性がある。166での解析には、遺伝子座に関連する各潜在的アレルを、同じ遺伝子座の他の潜在的アレルと互いに比較することが含まれ得る。
【0095】
一部の実施形態では、166での解析には、172で、付加された、または欠失した反復モチーフを同定することが含まれ得る。172で、付加された、または欠失した反復モチーフを同定することには、2アレルの2配列をROIまたは反復セグメントに沿って整列させて、反復モチーフがいつ付加されたか、または欠失したかを判断することが含まれ得る。例えば、配列を一末端で互いに整列させて、反復モチーフがいつ付加されたか、または欠失したかを判断することができる。
【0096】
あるいは、または、上記に加え、解析には、173で、第1アレルおよび第2アレルの反復セグメントの長さを比較して、第1アレルおよび第2アレルの反復セグメントの長さが、一反復モチーフまたは多数の反復モチーフの長さと異なるか否かを判断することが含まれ得る。例えば、
図9に示す例では、反復モチーフはTAGAであり、これは4つのヌクレオチドを有するテトラヌクレオチドである。標的アレルの配列長さを
図9に示す。アレル1およびアレル2はそれぞれ62ヌクレオチドを有し、アレル3およびアレル4はそれぞれ58ヌクレオチドを有する。したがって、アレル1の配列長さはアレル3の配列およびアレル4の配列とは4ヌクレオチド分、言い換えると、反復モチーフの長さ分異なる。同様に、アレル2の配列長さは、アレル3の配列およびアレル4の配列とは反復モチーフの長さ分異なる。
【0097】
一部の実施形態では、166での解析には、174で、付加された、または欠失した反復モチーフが、同じ配列の隣接反復モチーフと同一であるか否かを判断することが含まれ得る。上記のように、付加された、または欠失した反復モチーフは、アレル配列を整列させて、付加された、または欠失した反復モチーフを同定することにより決定することができる。配列を整列させた後、付加された/欠失した反復モチーフが、それに隣接する反復モチーフと同一であると判断することができる。一部の実施形態では、アライメントは貪欲法を用いて達成することができる。
【0098】
第1アレル(または、スタッター産物であると疑われるアレル)には、典型的には、第2アレルのリードカウント(またはカウントスコア)より少ないリードカウント(または、カウントスコア)が含まれる。サンプルがマイナーコントリビュータを含むといったある状況下では、これは当てはまらない場合がある。一部の場合では、アレルのスタッター産物は、指定のスタッター閾値未満であるか、または、座および/もしくはアレルについての所定の範囲内に収まり得る。スタッター閾値は、例えば、第2アレルのいくつかのリードカウント、対応する座および/もしくはアレルのヒストリカルデータ、ならびに/または、アッセイ中の対応する座および/もしくはアレルの観測に基づき得る。ヒストリカルデータまたはアレルの観測について例を提供するため、アレルが通常予想されるより大きいまたは小さい所定量のスタッターを提供するということを、指定アッセイに関する経験を通じて判断することができる。このデータおよび/または観察を用いて、閾値を修正することができる。アレルについての知識がスタッター閾値に影響を与え得る別の例としては、平均してより長いアレルが、より大きい比率のスタッター産物を提供し得る。したがって、スタッターの閾値は、アレルの長さに基づき変更することができる。
【0099】
一部の実施形態では、166での解析には、175で、第1アレルのカウントスコアが第2アレルのカウントスコアの所定範囲に収まるか否かを判断することが含まれ得る。例えば、第1アレルのカウントスコア(例えば、リードカウント)が第2アレルのカウントスコア(例えば、リードカウント)の所定のパーセンタイル範囲内にある場合、第1アレルはスタッター産物であることが疑われ得る。所定のパーセンタイル範囲は、約5%〜約40%とすることができる。特定の実施形態では、所定のパーセンタイル範囲は、約10%〜約30%、または、約10%〜約25%とすることができる。所定のパーセンタイル範囲は、ヒストリカルデータ、またはアッセイ中の対応するSTR座についての観察を用いて計算または獲得することができる。同様に、第1アレルのカウントスコアが第2アレルのカウントスコアに基づく指定のスタッター閾値未満だった場合、第1アレルはスタッター産物であることが疑われ得る。例としては、指定のスタッター閾値は、第2アレルのカウントスコアの所定の割合に基づき得る。例えば、所定の割合は、約20%、25%、30%、35%、または40%とすることができる。所定の割合は、対応するSTRのヒストリカルデータまたはアッセイ中の対応するSTR座についての観察を用いて、決定または獲得することができる。
【0100】
一部の実施形態では、潜在的アレルのカウントスコアを用いて、スタッター基準(またはスタッタースコア)を求めることができる。スタッター基準は、第1アレルのカウントスコアに基づく値または関数であり得る。スタッター基準はまた、第2アレルのカウントスコアに基づき得る。スタッター基準を指定のスタッター閾値と比較して、対応する潜在的アレルがスタッター産物であることが疑われるか否かを判断することができる。スタッター基準が指定のスタッター閾値未満である場合、第1アレルは、第2アレルのスタッター産物であると疑われ得る。スタッター基準が指定のスタッター閾値以上である場合、第1アレルは潜在的アレルと考えることができる。この場合、第1アレルと第2アレルはそれぞれ、座の真のアレルであり得る。
【0101】
追加の条件を適用して、あるアレルが別のアレルのスタッター産物であるか否かを判断することができる。例えば、166での解析には、176で、第1アレルと第2アレルの間に他のミスマッチがないと判断することが含まれる。ROI、具体的には反復セグメントを解析して、それぞれの配列間の任意のミスマッチを同定することができる。例えば、一方の配列のヌクレオチドがもう一方の配列のヌクレオチド(付加された/欠失した反復モチーフ以外)とマッチしなかった場合、該配列はスタッター産物ではあり得ない。
【0102】
他の実施形態では、疑わしいスタッター産物が第2アレルのスタッター産物ではないと判断することができる。その代りに、疑わしいスタッター産物は別のコントリビュータに由来する、または、シーケンシングエラーにより引き起こされる場合がある。例えば、1つまたは複数の実施形態は、第1アレルのスタッター基準(例えば、カウントスコアまたはカウントスコアに基づく他の関数)が指定のスタッター閾値よりも大きい場合、疑わしいスタッター産物は別のコントリビュータに由来すると判断することができる。指定閾値は、ヒストリカルデータおよび/または対象のアッセイ内のデータに基づき得る、第2アレルのカウントスコアおよび所定のスタッター関数に基づき得る。第1アレルのスタッター基準がベースライン値未満である場合、1つまたは複数の実施形態が、疑わしいスタッター産物がシーケンシングエラーであると判断することができる。ベースライン値は、ヒストリカルデータおよび/または対象のアッセイ内のデータに基づき得る、第2アレルのカウントスコアと所定のスタッター関数に基づき得る。例として、ある座は、歴史的に、10〜30%のスタッター範囲を有し得る。ある座の第2アレルのリードカウントが100である場合、第1アレルはリードカウントが10未満であればシーケンシングエラーであり得る。リードカウントが30超である場合、別のコントリビュータに由来する可能性がある。
【0103】
特定の実施形態では、(A)第1アレルおよび第2アレルのアレル配列の長さがk反復モチーフ分異なる場合、(B)欠失した、または付加された反復モチーフが隣接反復モチーフと同一である場合、(C)2つのアレル(例えば、ROIまたは反復セグメント)間で他のミスマッチがない場合、および、オプションとして、(D)第1アレルのスタッター基準が、第2アレルのスタッター基準の所定のスタッター範囲内にある(または、指定のスタッター閾値未満である)場合に、第1アレルは第2アレルのスタッター産物であると考えられる。
【0104】
図9に示す例に戻ると、D1S1656座の真の2つのアレルの配列は、アレル12が[TAGA]11[TAGG]1[TG]5、アレル13が[TAGA]13[TG]5である。アレル12は最後の「TAGA」反復ユニットでSNPを有する。ここから、アレル12の配列[TAGA]12[TG]5は、実際、アレル13の−1スタッターであり、アレル13の配列[TAGA]12[TAGG]1[TG]5はアレル12の+1スタッターであると判断することが可能である。分かるように、本明細書に記載の実施形態は、CEシステムよりも有利であり得る。具体的には、CEシステムは、アレル12の配列[TAGA]12[TG]5はアレル13の−1スタッターであり、アレル13の配列[TAGA]12[TAGG]1[TG]5はアレル12の+1スタッターであると判断することはできないだろう。
【0105】
図11は、実施形態に従いシーケンシングデータを解析する方法200を示す。方法200には、本明細書に記載の他の実施形態を組み込むことができる。方法200は、202で、遺伝子座の組に対応するように構成された複数のサンプルリードを含むシーケンシングデータを受信するステップを含む、遺伝子座の組は、科学捜査または親子鑑定など、所定の遺伝子アプリケーション向けに構成することができる。サンプルリードは対応するアンプリコンのリード対を形成することができ、ここで各リード対には、対応するアンプリコンの第1リードおよび第2リードが含まれる。例えば、第1リードおよび第2リードの対は、ペアエンドシーケンシングから、特定の実施形態では非対称ペアエンドシーケンシングから、得ることができる。第1リードおよび第2リードはそれぞれ、各々の配列を有し得、該配列を以後、リード配列という。各リード配列には、例えば、同定配列(例えば、プライマー配列)、および、SNPまたはSTRなどの配列変異を含む配列が含まれ得る。
【0106】
方法200は、204で、サンプルリードの1つまたは複数の潜在的遺伝子座を同定するステップを含む。同定する動作は、
図2について上記した、154での割り当てと類似し得る。例えば、204では、リード対の第1リードについての1つまたは複数の遺伝子座を暫定的に同定することができる。各リード対の第1リードを比較して、データベース(例えば、参照テーブル)の配列を選択することができる。データベースの選択配列はそれぞれ、遺伝子座の組の指定の遺伝子座に対応し得る。第1リードのリード配列が1つまたは複数の選択配列と実質的にマッチする場合、第1リードは選択配列に対応する遺伝子座に暫定的にコールされ得る。例えば、第1リードの同定配列に由来するnヌクレオチド(例えば、最初のnヌクレオチド)連続が1つまたは複数の選択配列と実質的にマッチする場合、第1リードは、それらの対応する遺伝子座に暫定的にコールされ得る。対応する遺伝子座は、暫定的に指定座ということができる。
【0107】
第1リードが選択配列の何れにも実質的にマッチしない場合、非割り当てリードは破棄される場合がある。オプションとして、第1リードおよび/または対応する第2リードであり得る非割り当てリードを、他の非割り当てリードとともに集める、または集約することができる。206では、非割り当てリードを品質管理のために解析することができる。例えば、第1リードのリード配列を解析して、なぜ該第1リードが割り当てられなかったかを明らかにすることができる。
【0108】
方法200はまた、208で、潜在的遺伝子座を有する第1リードそれぞれについて、第1リードが潜在的遺伝子座の1つまたは複数の基準配列と整列するか否かを判断するステップを含み得る。208での判断は、1つまたは複数のアライメントプロトコルを用いてなされ得る。例えば、208での判断には、
図3〜7に関し上記したように、第1リードを潜在的遺伝子座の対応する基準配列に整列させることが含まれ得る。第1リードが1つのみの遺伝子座の基準配列と整列する場合、第1リードをその1つの遺伝子座の正当なリードとして暫定的に指定することができ、方法はステップ210へと進むことができる。他の実施形態では、第1リードをその1つの遺伝子座の正当なリードとして指定することができ、方法はステップ212へと進むことができる。
【0109】
しかしながら、第1リードが2つ以上の基準配列と実質的に整列する場合は、208での判断には、第1リードが最も良く整列する、または、最も多く整列する基準配列を同定することが含まれ得る。具体的には、第1リードは多数の基準配列と実質的に整列するが、1つのアライメントが他のアライメントより良好な場合がある。簡単な一例として、アライメント解析は第1リードを解析し、第1リードを、204で同定された3つの潜在的遺伝子座に関連する基準配列である3つの基準配列、Ref Seq A、Ref Seq B、およびRef Seq Cに整列させることができる。アライメント解析により、第1リードが、Ref Seq Aと第1リードの間に合計3つの相違がありながら、Ref Seq Aと実質的に整列すると判断することができる。アライメント解析により、第1リードが、Ref Seq Bと第1リードの間に合計4つの相違がありながら、Ref Seq Bと実質的に整列すると判断することができる。アライメント解析により、第1リードとRef Seq Cは互いに整列しないと判断することができる。例えば、過剰な数の相違(例えば、10超)が第1リードとRef Seq Cの間に存在し得る。別の例として、過剰な相違比率または相違割合(例えば、リードまたは基準配列における合計ヌクレオチド数に対する相違数)が、第1リードとRef Seq Cの間に存在し得る。このデータに基づき、本方法は、第1リードがRef Seq BよりもRef Seq Aとより良好に整列すると判断し得る。したがって、第1リードを、Ref Seq Aに対応する遺伝子座の正当なリードとして暫定的に指定することができる。
【0110】
一部の実施形態では、どの基準配列が最も良く第1リードと整列するかを決定することに、基準配列それぞれのアライメントスコアを計算することが含まれ得、ここでアライメントスコアは相違数に基づく。上記のように、アライメントスコアは生の数字データ(例えば、相違数)とすることができる。他の実施形態では、アライメントスコアは、相違の数および/または種類の関数とすることができる。例えば、インデルとミスマッチは異なるようにスコア付けすることができる。
【0111】
オプションとして、方法200は、210で、第2リードを解析して、第1リードが暫定的に指定の遺伝子座にコールされるべきであることを確かめるステップを含む。第2リードを、対応するリード対の第1リードと同様に解析することができる。第2リードを解析して、第2リードの同定配列がデータベースの1つまたは複数の選択配列に実質的にマッチするか否かを判断することができる、第2リードの同定配列が1つのみの選択配列に実質的にマッチする場合、本方法は、その1つの選択配列に対応する遺伝子座を同定するステップを含み得る。該遺伝子座が、第1リードが暫定的に指定された遺伝子座と同じである場合、該遺伝子座は第1リードの遺伝子座ということができ、第1リードを212で、遺伝子座の正当なリードとして指定することができる。
【0112】
しかしながら、第2リードの同定配列が多数の選択配列と実質的にマッチする場合、本方法は、該多数の選択配列に対応する遺伝子座を同定するステップを含み得る。これらの遺伝子座の1つが、第1リードが暫定的に指定の遺伝子座と同じである場合、該遺伝子座は第1リードの遺伝子座であるといえ、該第1リードを、212で、該遺伝子座の正当なリードとして指定することができる。
【0113】
210での解析で、第2リードが第1リードの暫定的に指定された座に対応することが確かめられなかった場合、方法200は、対応する第1リードを未確認リードとして指定するステップを含み得る。未確認リードを集め、オプションとして214で品質管理のためにさらに解析することができる。例えば、暫定的に指定された座の第1選択配列と実質的にマッチするが、暫定的に指定された座の第2選択配列とは実質的にマッチしないリード対は、アッセイ内の問題を示す場合がある。未確認リードは1つまたは複数の標的外アンプリコンを示す場合がある。リード対を214で解析して、例えば、アッセイに関し品質管理の問題が存在するか、またはアレルのドロップアウトを示すか否かを判断することができる。
【0114】
しかしながら、第1リードが208で潜在的遺伝子座の基準配列と整列しない場合、本方法は、216で、第1リードを非整列リードとして指定するステップを含み得る。非整列リードは、フィルタリング段階を一つ通過したが、基準配列と整列し得なかった第1リードを表し得る。特に、非整列リードは、1つまたは複数の選択配列と実質的にマッチしたが、基準配列とは整列し得なかった同定配列を有することが確かめられた、第1リードであり得る。
【0115】
オプションとして、方法200は、218で、各非整列リードを解析して、対応する非整列リードの最適な遺伝子座を決定するステップを含み得る。上記のように、同定配列は2つ以上の選択配列と実質的にマッチし得る。218での解析には、非整列リードの同定配列を、204で事前に同定された選択配列と比較することが含まれ得る。最適な遺伝子座は、非整列リードの同定配列と最も良く、または最も多くマッチする選択配列に対応する遺伝子座であり得る。したがって、218において、前記方法は、多数の選択配列のうちどの選択配列が同定配列と最も良くマッチするかを判断する。例えば、最適な遺伝子座は、同定配列との相違が最も少ない選択配列に対応する遺伝子座であり得る。一部の実施形態では、218での解析には、同定配列に関し、選択配列それぞれのマッチングスコアを求めることが含まれ得る。最も高いマッチングスコアで選択配列に対応する遺伝子座を、最適遺伝子座として指定することができる。
【0116】
220では、非整列リード(つまり、第1リード)と関連する第2リードを解析して、第2リードにより、218で同定された最適座が確かめられるか否かを明らかにすることができる。第2リードを解析して、第2リードの同定配列が1つまたは複数の選択配列と実質的にマッチするか否かを判断することができる。第2リードの同定配列が選択配列と実質的にマッチし、その選択配列が最適遺伝子座に対応する場合、非整列リードは222でtwo-on-target非整列リード(pair-on-target非整列リードともいう)として指定され得る。two-on-target非整列リードは、非整列リードの両末端近くにデータベースの選択配列と実質的にマッチする配列を有する非整列リードを表し得る。2つの選択配列と実質的にマッチするにも関わらず、非整列リードのROIは基準配列と整列し得なかった。
【0117】
しかしながら、第2リードの同定配列が最適遺伝子座に対応する選択配列と実質的にマッチしない場合、該非整列リードは224でone-on-target非整列リードとされ得る。one-on-target非整列リードは、データベースの選択配列と実質的にマッチする同定配列を1つのみ有する非整列リードを表し得る。
【0118】
two-on-target非整列リードおよびone-on-target非整列リードの両方を、226および228それぞれで品質管理を目的に解析することができる。226または228での解析には、非整列リードの総数(または比較可能スコア)を解析すること、および/または、非整列リードのROIの配列を解析することが含まれ得る。例えば、one-on-target非整列リードを228で解析して、アッセイの調子を判断することができる。具体的には、one-on-target非整列リードを解析して、キメラが存在するか否か、および/または、プライマーダイマーが存在するか否かを判断することができる。過剰な数のキメラおよび/またはプライマーダイマーは、アッセイが不良であること(例えば、増幅の問題)、または、サンプルDNAの質が低いことを示し得る。オプションとして、228での解析には、214の未確認リードを解析して、アッセイの調子を判断することが含まれ得る。228での解析には、未確認リードとone-on-target非整列リードを一括して解析することが含まれ得る。あるいは、228での解析には、未確認リードとone-on-target非整列リードを別々に解析することが含まれ得る。
【0119】
two-on-target非整列リードについて、そのようなリードが過剰な数であることは、アレルのドロップアウトの可能性を示し得る。一部の実施形態では、226での解析には、two-on-target非整列リードの数が指定座の合計リードの割合を超えるか否かを判断し、超えた場合、指定座に問題があると判断し得ると判断できることが含まれ得る。指定座の「合計リード」は、212で指定された正当なリードおよび216で指定された非整列リードの関数とすることができる。例えば、合計リードを、正当なリードと非整列リードの合計と等しいとすることができる。他の実施形態では、合計リードは未確認リードの関数でもあり得る。226では、two-on-target非整列リードの数(または、比較可能スコア)を閾値と比較して、問題(例えば、アレルのドロップアウト)が指定座で存在するか否かを判断することができる。
【0120】
230では、アッセイの質および/または遺伝子プロファイルの信頼度に関し通知が提供され得る。例えば、通知はユーザに非整列リードの数を知らせ得る。特定の実施形態では、通知はユーザにone-on-target非整列リードの数および/またはtwo-on-target非整列リードの数を知らせ得る。一部の場合、本方法は、非整列リードの数(もしくは比較可能なスコア)、one-on-target非整列リードの数(もしくは比較可能なスコア)、および/またはtwo-on-target非整列リードの数(もしくは比較可能なスコア)を、指定閾値と比較する場合がある。数またはスコアが閾値を超える場合、通知にはユーザへの特異的な警告または特異的なガイダンスが含まれ得る。例えば、通知により、ユーザに、サンプルの質が低かった、および/またはサンプルの量が少なかったことが証拠により示されることを知らせることができる。通知は全体としてアッセイを対象とするか、または、特定の座に対し特異的とすることができる。具体的には、過剰な数のone-on-target非整列リードはアッセイの問題を示唆し得、一方、過剰な数のtwo-on-target非整列リードは、アレルのドロップアウトを示唆し得る。
【0121】
232では、正当なリードを分類して、指定座のリード分布を形成することができる、リード分布には、典型的には、多数のフィルタリング段階を通過し、指定座に割り当てられた非常に多くのサンプルリードが含まれる。例えば、リード分布には、指定座に割り当てられた、数十、数百、または数千の第1リードが含まれ得る。リード分布はファイル(例えば、「分布ファイル」)に集めることができ、該リード分布には、異なる潜在的アレル、アレル配列、および各潜在的アレルのカウントスコア(例えば、リードカウントまたはリードカウントに基づいた他の値/関数)といった、サンプルリード分布に関する情報が含まれ得る。例えば、正当なリードをリード分布に分類する場合、正当なリードは配列に基づいて分離され得る。正当なリードは、異なってはいるが、指定座に割り当てられた、いくつかの異なる配列を有し得る。異なる配列はそれぞれ、指定座の潜在的アレルを表す。1つまたは複数の配列はノイズ(例えば、シーケンシングエラー)であり得、1つまたは複数の配列はスタッター産物であり得、そして、1つまたは複数の配列は真のアレルであり得る。
【0122】
正当なリードは、同じ配列を有する他の正当なリードと集約することができる。同じ配列を有する正当なリードの数を、特定の配列ごとにカウントすることができる。例えば、1000の正当なリードが割り当てられた遺伝子座を仮定すると、リード分布は8つの異なる配列が存在することを示す場合がある。正当なリードは8つの異なる配列間で分布し得る。例えば、アレル1は10個の正当なリードを有し得、アレル2は20個の正当なリードを有し得、アレル3は10個の正当なリードを有し得、アレル4は400個の正当なリードを有し、アレル5は15個の正当なリードを有し得、アレル6は500個の正当なリードを有し得、アレル7は25個の正当なリードを有し得、アレル8は20個の正当なリードを有し得る。下記のように、さらなる解析により、アレルの一部がノイズおよび/またはスタッター産物であると判断することができる。
【0123】
一部の実施形態では、潜在的アレルにCEアレル名を提供することができ、これはCEにおける慣習的な名づけ手法に基づく。潜在的アレルのCEアレル名は、部分的に、配列内の反復モチーフ数に基づき得る。CEアレルの名づけはまた、歴史的な慣習に基づき得る。一部の実施形態では、潜在的アレルを、CEアレル名に基づきリード分布内で順に並べる。例えば、CEアレル名には、典型的には数値が含まれる。数値に基づき、潜在的アレルを順に並べることができる。一例として、
図10に示すグラフ192は、1つのリード分布を示す。示すように、潜在的アレルには、11、11.2、12、13、および14が含まれる。グラフ192に示す遺伝子座のリード分布は、11、11.2、12、および13と順に並べることができる。
【0124】
一部の状況下では、2つの異なる潜在的アレルが同じCEアレル名を持つ場合がある。例えば、慣習的な名づけ手法に基づき、潜在的アレルは同じCEアレル名を与えられる場合がある。一部の実施形態では、リード分布は、2つの異なる配列が同じCEアレル名を有することを示す場合がある。例えば、リード分布は、CEアレル名(例えば、13)を示し、次に、同じCEアレル名に対応する異なる配列を列記する場合がある。
【0125】
リードを分類しリード分布を形成した後、リード分布は異なる解析のために伝達され得る。例えば、SNPを含むことが知られている遺伝子座は、SNP解析を介して方向づけられ得る。STRで知られている遺伝子座は、STR解析を介して方向づけられ得る。SNPおよびSTRの解析には異なるステップが含まれ得るが、解析はまた、同様のステップも含み得る。
【0126】
図12は、実施形態に従いシーケンシングデータを解析する方法240を示す。特に、方法240は、指定座のリード分布を解析するステップを含む。リード分布は、STR座、SNP座、または配列変異に関連する他の座であってよい。方法240は、242で、指定座のリード分布を受信するステップを含む。以下のステップに関し、各ステップは少なくとも部分的に指定座に基づき得る。例えば、種々の関数(例えば、閾値)を適用することができるが、これらの関数は指定座に基づく。具体的には、ある遺伝子座についての関数は、別の遺伝子座の関数と同じではない場合がある。
【0127】
オプションとして、方法240は、244で、指定の遺伝子座の潜在的アレルそれぞれのカウントスコアを求めるステップを含む。カウントスコアは、潜在的アレルのリードカウントに基づき得る。リードカウントは、共通の配列を含む正当なリードの数を表す。一部の実施形態では、カウントスコアは、潜在的アレルのリードカウントと等しい値である。例えば、リードカウントが300である場合、カウントスコアは300であり得る。他の実施形態では、潜在的アレルのカウントスコアは遺伝子座のリードカウントおよびリード総数に基づき得る。リード総数は、例えば、全潜在的アレルのリード分布内のリード総数であり得る。一部の実施形態では、潜在的アレルのカウントスコアは、遺伝子座のリードカウントおよび該遺伝子座について事前に得たデータに基づき得る。特定の実施形態では、カウントスコアは所定の数の間(例えば、0および1)の正規化スコアであり得る。正規化スコアは、遺伝子座のリード総数に基づき得る。オプションとして、正規化スコアは、他の座のリードカウントおよび/または他のサンプルのリードカウントの関数である。カウントスコアは、また、サンプルの他の座のリードカウントの関数、または、対象のサンプルと同時にランを行った他のサンプルに由来するリードカウントの関数であり得る。カウントスコアはまた、ヒストリカルデータの関数であり得る。例えば、異なる種類のアッセイのランを行い、リードカウントを得ることができる。一部の実施形態では、カウントスコアは特定のアッセイに関するヒストリカルデータに基づく。
【0128】
方法240はまた、245で、1つまたは複数の潜在的アレルのカウントスコアが解釈閾値を上回るか否かを判断するステップを含む。解釈閾値は所定の値とすることができる、または、複数のファクタに基づく関数とすることができる。例えば、解釈閾値は指定座に対応するリード総数に基づき得る。リード総数には座内の全ての潜在的アレルの正当なリードが含まれ得る。一部の実施形態では、リード総数には、座の正当なリードおよび座の非整列リードが含まれ得る。特定の実施形態では、リード総数には、座の正当なリード、非整列リード、および未確認リードが含まれ得る。カウントスコアの1つが245で解釈閾値を上回る場合、方法240はステップ246または別の後続のステップに進み得る。一部の実施形態では、解釈閾値はサンプルのリード総数に基づき得る。一部の実施形態では、解釈閾値は複数のサンプルのリード総数に基づき得る。
【0129】
カウントスコアが全て、245で解釈閾値を上回らない場合、方法240は、248で、指定座に関する警告、または他の通知を提供し得る。例えば、警告はユーザに、指定座のカバレッジが低いことを知らせ得る。具体的には、警告はユーザに、指定座に関するデータ量が遺伝子型コールを提供するのに不十分な場合があることを知らせ得る。
【0130】
特定の実施形態では、方法240は、リード分布内で最大のリードカウント(または、アレルカウント)を有する潜在的アレルを同定するステップを含む。リードカウントは共通の配列を含む正当なリードの数を表す。STRについては、リードカウントは、ROIまたは反復セグメントの共通配列を含む、正当なリードの数を表し得る。方法240はまた、最大リードカウントを、解釈閾値と比較するステップを含み得る。245で、最大リードカウントが解釈閾値を上回る場合、方法240はステップ246または別の後続ステップに進み得る。最大アレルカウントが解釈閾値を上回らない場合、方法240は、248で、上記のように、指定座に関する警告または他の通知を提供する場合がある。
【0131】
他の実施形態では、カウントスコアを下記の解析閾値といった別の閾値と比較することができる。解析閾値は、典型的には、解釈閾値より上回ることが易しい。潜在的アレルが解析閾値を上回るカウントスコアを持たない場合、遺伝子座のカバレッジは低いと判断することができる。遺伝子座のカバレッジが十分であるか否かを判断する別の例としては、遺伝子座のリード(例えば正当なリード)の総数を、リード閾値と比較することができる。リード閾値は、サンプルのリード総数および/またはヒストリカルデータに基づき得る。遺伝子座のリード総数がリード閾値を上回らない場合、遺伝子座のカバレッジは低いと判断することができる。他の実施形態では、上記のようなステップの1つまたは複数の組み合わせを用いて、遺伝子座のカバレッジが低いか否かを判断することができる。
【0132】
オプションとして、246で、カウントスコアまたはリード分布内の対応するリードカウントをそれぞれ、解析閾値と比較することができる。解釈閾値のように、解析閾値は所定の値、または、座のリード総数(例えば、正当なリードの総数)および/もしくは指定座の歴史的な知識といった複数のファクタに基づく関数であり得る。解析閾値は、解釈閾値より厳しくない(例えば、上回ることが易しい)場合がある。具体的には、解釈閾値を超えるには、解析閾値よりも多くのリードカウントが必要な場合がある。
【0133】
246で解析閾値を上回った後、方法240は、247で、潜在的アレルがスタッター産物と疑われるか否かを判断するステップを含み得る。潜在的アレルがスタッター産物と疑われるか否かを判断するために、種々のルールまたは条件を適用することができる。例えば、
図8に関する、上記の1つまたは複数のファクタ171〜175を適用することができる。特定の実施形態では、247の判断には、第1アレルが、第2アレルに対し、付加された、または欠失した反復モチーフを有するか否かを判断することが含まれる。
【0134】
潜在的アレルがスタッター産物であることが疑われない場合、潜在的アレルは、250で、座の指定アレル、またはコールされたアレルとして指定される。潜在的アレルがスタッター産物であると疑われる場合、方法240は、249で、第1アレルのカウントスコアが指定閾値より少ないか否かを判断するステップを含む。カウントスコアは、リードカウント、またはリードカウントに基づく関数とすることができる。指定閾値は、第2アレルのカウントスコアに基づき得る。特定の実施形態では、249での判断には、第1アレルのカウントスコアが、第2アレルのカウントスコアの所定の範囲(例えば10%〜30%)内にあるか否かを判断することが含まれ得る。
【0135】
図12には示さないが、潜在的アレルが指定閾値よりも少ない、または、所定の範囲内にある場合、潜在的アレルを第2アレルのスタッター産物として指定することができる。スタッター産物は座の遺伝子型コールとともに言及され得る。例えば、サンプルレポートには、スタッター産物が存在するという指摘とともに、座の遺伝子型が含まれ得る。スタッター産物に関する情報(例えば、第2アレルの配列および割合)がサンプルレポート内で提供され得る。しかしながら、カウントスコアまたはリードカウントが指定閾値を上回る(または、所定の範囲内にある)場合、潜在的アレルは、250で、遺伝子座の指定アレルとして指定され得る。
【0136】
一部の実施形態では、ノイズアレルのカウントスコアが、252で集められる。ノイズアレルには、246で解析閾値を上回らなかった潜在的アレルが含まれ得る。一部の実施形態では、ノイズアレルにはまた、非整列リードに由来するカウントスコアと、オプションとして上記の未確認リードが含まれ得る。ノイズアレルのカウントスコアを252で集め、254で解析して、過剰な数のリードが、対応する座の潜在的問題を示すか否かを判断することができる。例えば、全てのノイズアレルのカウントスコアを合計し、所定のノイズ閾値と比較することができる。ノイズ閾値は、リードの総数および/またはヒストリカルデータに基づき得る。ノイズ閾値を254で上回った場合、座が過剰な量のノイズを有するという警告が256で提供され得る。
【0137】
一部の実施形態では、ノイズアレルを258で品質管理のために解析することができる。特定の実施形態では、STR座のノイズアレルは、コールされたアレルと同じ長さの配列を有するノイズアレルと、コールされたアレルと同じ長さではない配列を有するノイズアレルにさらに分けることができる。ノイズアレルの分割は、なぜ過剰なノイズが対応する座で存在するか否かについて追加の情報を提供し得る。
【0138】
250で指定アレルを決定した後、方法240は、さらに、指定座の遺伝子型コールを作成する前に指定アレルの解析を含み得る。遺伝子型コールは、典型的には、ヘテロ接合型コール(つまり、2つの異なるアレル)またはホモ接合型コール(つまり、1つの観察されるアレル)を含むだろう。ヘテロ接合型コールでは、データは、典型的には、リードが実質的に均一に配分されていることを裏付けるだろう。2つのアレルが、データにおいて、実質的に等しいと表されない場合、座に問題が存在し得る。したがって、一部の実施形態では、方法240は、260で、コールされたアレルを解析して、コールされたアレルの均衡がとれているか、または釣り合っているか否かを判断するステップを含み得る。例えば、コールされたアレルの比率を計算して、比率が均衡閾値を満たしているか否かを判断することができる。ほんの一例として、あるアレルのカウントスコア(例えば、リードカウント)が別のアレルのカウントスコア(例えば、リードカウント)の50%未満または75%未満である場合、アレルは不均衡であると指定することができる。したがって、アレル比率の警告が262で提供され得、アレルが不均衡であることを示唆する。以下で論じるように、アレル比率警告を他の証拠(例えば、他の警告)とともに解析して、サンプルが複数のソースを含むか否かを判断することができる。
【0139】
一部の実施形態では、方法240は、264で、座のコピー数がコピー閾値を超えるか否かを判断するステップを含み得る。常染色体座では、コピー数は、典型的には多くて2つである。X座またはY座などの非常染色体座では、コピー数は異なり得る。例えば、Y座のコピー数は多くて1つであり得る。X座のコピー数は多くて2つであり得る。以下に記載するように、一部の場合では、サンプルの性別を予測でき、複数のソースがサンプル内に存在するか否かを照会する際にサンプルの性別を用いることができる。
【0140】
したがって、264での判断には、指定座のコピー数(例えば、0、1、または2)を得ること、および、指定座の、コールされたアレルの数をコピー数と比較することが含まれ得る。コールされたアレルの数がコピー数を超える場合、266で、座が過剰な数のアレルを含むというアレル数警告が提供され得る。以下に記載するように、アレル数警告を他の証拠(例えば、他の警告)とともに解析して、サンプルが複数のソースを含むか否かを判断することができる。
【0141】
268では、座の遺伝子型がコールされ得る。遺伝子型コールは、250で指定されたアレルに基づき、典型的には1つまたは2つのアレルであるだろう。しかしながら、一部の実施形態では、遺伝子型コールは3つ以上のアレルを含むだろう。3つ以上のアレルを有する遺伝子型コールには、問題が座またはサンプル全般に存在し得ることを示唆する通知が含まれ得る。270では、可能であれば所定の組の遺伝子座についての遺伝子型コールを含むサンプルレポートが生成され得る。サンプルレポートにはまた、方法240または方法200(
図11)により同定されたいくつかの通知(例えば、警告)が含まれ得る。一部の実施形態では、座の遺伝子型コールは、座に関する潜在的問題(例えば、カバレッジ、ノイズ、アレルドロップアウト、スタッターなど)を読者に通知するインジケータに沿って提供され得る。他の実施形態では、遺伝子座についてある警告が同定された場合(例えば、カバレッジまたはノイズ)、遺伝子型コールは該遺伝子座に対し提供されない。一部の実施形態では、サンプルレポートには、コールされたアレルの配列、ならびに、オプションとして、スタッター産物および/または他の同定された潜在的アレルの配列が含まれ得る。一部の実施形態では、サンプルレポートには、サンプル全体に関する信頼度スコアが含まれ得る。例えば、多数のone-on-target非整列リードが存在する場合、サンプルレポートは、サンプルの質が低い可能性があることを示し得る。
【0142】
図13は、サンプルのソースの性別を予測する方法300を示すフローチャートである。方法300は、サンプルが単一ソースに由来すると仮定する。サンプルが、以下に記載するように多数のソースに由来すると十分に判断される場合、性別予測を取り消すことができる。一部の実施形態では、サンプルに多数のソースが含まれると判断した後、方法は、サンプルのソースが全て、単一の性別、例えば男性であると予測することができる。
【0143】
方法300には、方法240(
図12)を組み込むことができる。方法300は、遺伝子座の組に由来する各遺伝子座の指定アレルを決定した後、実行することができる。例えば、方法300は、
図12のステップ250が、遺伝子座の組内の複数の遺伝子座(または、組内の全ての遺伝子座)の複数のアレル全てについて行われた後、実行することができる。方法300は、302で、複数の遺伝子座の座データを受信するステップを含む。座データには、対応する遺伝子座についての1つまたは複数の指定された(または、コールされた)アレルが含まれ得る。複数の遺伝子座は、サンプルの性別に基づき異なる数のアレルを有すると予想される座であり得る。言い換えると、座データはX座およびY座に対応し得る。X座には、X染色体上の既知のSNP座またはSTR座が含まれ得る。Y座には、Y染色体上の既知のSNP座またはSTR座が含まれ得る。
【0144】
方法300は、304で、各Y座の指定アレルの数を、サンプルが男性である場合の予想数、および/または、サンプルが女性である場合の予想数と比較するステップを含み得る。予想数は、ヒストリカルデータに基づく予め設定された数であり得る。男性サンプルの場合の指定アレルの予想数は、座またはアレルがY染色体に現れる回数に基づき得る。これは典型的には1だが、2以上(例えば2)の場合がある。Y座内の女性サンプルの場合の指定アレルの予想数は0である。
【0145】
オプションとして、方法300は、306で、各X座の指定アレルの数を、サンプルが男性である場合の予想数、および/または、サンプルが女性である場合の予想数と比較するステップを含み得る。X座内の男性サンプルの指定アレルの予測数は、典型的には1だが、座またはアレルがX染色体上に2回以上現れる場合は2以上であり得る。X座内の女性サンプルの指定アレルの予想数は典型的には2だが、座/アレルがX染色体上に2回以上現れる場合はより多い場合がある。
【0146】
方法300はまた、308で、304での比較の結果および/または306での比較の結果に基づき、サンプルの性別を予測するステップを含む。理想的には、サンプルが男性であった場合は、Y座にはそれぞれ、1つの指定アレルが含まれ、サンプルが女性であった場合は含まれる指定アレルは0個だろう。同様に、X座にはそれぞれ、理想的には、サンプルが男性であった場合は1つの指定アレルが含まれ、サンプルが女性だった場合は1つまたは2つの指定アレルが含まれよう。しかしながら、シーケンシングエラー、汚濁、不適切な解析などのために、X座およびY座がサンプルの性別予測において一貫性を持たない可能性がある。ある場合では、解析は多数の遺伝子座を考慮することができる。例えば、約5〜約10のY座と、約20〜約30のX座があってよい。したがって、サンプルは男性であり得るが、1つまたは複数のY座の指定アレルが0である可能性がある。同様に、サンプルは女性であり得るが、1つまたは複数のY座が指定アレルを有する可能性がある。
【0147】
したがって、サンプルの性別を予測するための解析には、証拠の全体を解析してサンプルの性別を予測することが含まれ得る。例えば、解析には、(i)サンプルが男性であることと合致するY座の数、(ii)サンプルが女性であることと合致するY座の数、(iii)サンプルが男性であることと合致するX座の数、または(iv)サンプルが男性であることと合致するX座の数のうち、少なくとも1つをカウントすることが含まれ得る。ある実施形態では、Y座の数のみが308での解析で考慮されるか、または、X座の数のみが考慮される場合がある。一部の実施形態では、X座とY座の両方の数が、308での解析で考慮され得る。一部の実施形態では、1つもしくは複数のX座および/または1つもしくは複数のY座が、他の座よりも重要視され得る。
【0148】
一例として、解析は10個のY座をレビューすることができる。10個のうち9個のY座に指定アレルが含まる場合、これはサンプルが男性であることと合致し、サンプルの性別は男性であると予測することができる、10個のうち1個のY座に指定アレルが含まれる場合、サンプルの性別は女性であると予測することができる。一部の実施形態では、解析により、サンプルが混合物を含むと判断される場合がある。例えば、308での解析が、Y座の数およびX座の数が男性サンプルと女性サンプルの両方を支持すると判断する場合、ソースの混合物が予測され得る。
【0149】
図14は、サンプルがソースの混合物を含むか否かを検出する方法320を示すフローチャートである。方法320には、方法240(
図12)を組み込むことができ、オプションとして、サンプルの性別を予測した後に実行することができる。方法300には、322で、遺伝子座の組の各遺伝子座の、座データを受信するステップが含まれる。座データには、対応する遺伝子座の、1つまたは複数の指定アレルまたはコールされたアレルが含まれ得る。座データには、指定アレルのカウントスコア(例えば、リードカウント)、ノイズアレルのカウントスコア、およびスタッター産物のカウントスコアが含まれ得る。カウントスコアは本明細書に記載のように得ることができる。
【0150】
各遺伝子座について、方法320は、324で、遺伝子座のコピー数が最大許容可能アレル数(以後、「最大アレル数」という)を超えるか否かを判断するステップを含み得る。上記のように、常染色体の座の最大アレル数は、典型的には2である。X座またはY座の最大アレル数は、サンプル(単一ソースサンプルであると仮定する)が男性であるか、女性であるかに基づく。サンプルが男性である場合、Y座の最大アレル数は1であり、X座の最大アレル数は1である。サンプルが女性である場合、Y座の最大アレル数は0であり、Xの最大アレル数は2である。サンプルは、上記の方法300に基づき、男性または女性であると予測することができる。
【0151】
したがって、324での判断には、遺伝子座の最大アレル数(例えば、0、1、2)を得ること、および、各遺伝子座のコピー数(つまり、指定アレルの数)を対応する最大アレル数と比較することが含まれ得る。コピー数が最大アレル数を超える場合、アレル数警告またはアレル数フラグが該遺伝子座について提供され得る。
【0152】
各遺伝子座について、方法300はまた、326で、指定アレルのアレル比率が不均衡であるか否かを判断するステップを含み得る。上記のように、遺伝子座のアレル比率は第1指定アレルのカウントスコア(例えば、リードカウント)および第2指定アレルのカウントスコア(例えば、リードカウント)に基づき得る。単一ソースのサンプルが遺伝子座でホモ接合型である、または、遺伝子座でヘテロ接合型であると予想することができる。ヘテロ接合型の場合、アレル比率は約1:1の比率であろうことが予想され得る。実質的に不均衡な比率は、遺伝子座がヘテロ接合型ではないこと、またはサンプルが2つ以上のソースを含むことを示唆し得る。具体的には、計算された比率が1:1から離れているほど、遺伝子座がホモ接合型であるか、サンプルが全体としてソースの混合物を含む、何れかである可能性が高い。以下に記載するように、サンプルがソースの混合物を含むと判断することは、多数の遺伝子座(例えば、コールされた全ての遺伝子座)の解析に基づく。
【0153】
一部の実施形態では、326での判断には、遺伝子座の2つの指定アレル間のカウントスコアの比率に基づく、均衡スコアを計算することが含まれ得る。均衡スコアが0.8:1.0〜約1.2:1.0などの指定の範囲内にない場合、均衡スコアは、アレル比率が不均衡であることを示唆し得る。遺伝子座アレル比率が不均衡であると判断される場合、アレル比率警告が遺伝子座に対し生成され得る。一部の実施形態では、均衡スコアを指定閾値と比較して、アレル比率が不均衡であるか否かを判断することができる。
【0154】
方法320はまた、328で、324での判断および326での判断の結果を解析して、複数のソースがサンプル内に存在するか否かを判断するステップを含み得る。328での解析は、遺伝子座の組に対するアレル数警告の数およびアレル比率警告の数に基づき得る。一実施形態では、警告の総数を計算することができる。警告の総数が混合物閾値を超える場合、サンプルには、複数のソースを有し得るとしてフラグが立てられ得る。混合物閾値は、解析した遺伝子座の数(つまり、遺伝子座の組の遺伝子座の数)に基づき得る。特定の実施形態では、混合物閾値は、コールされた遺伝子の数に基づき得る。一部の実施形態では、混合物閾値は、特定のアッセイに関するヒストリカルデータまたは知識に基づく。
【0155】
一部の実施形態では、遺伝子座の組には、例えば、10、20、30、40、50、60、70、80、90、または100以上の遺伝子座が含まれ得る。特定の実施形態では、遺伝子座の組には、120、140、160、180、または200以上の遺伝子座が含まれ得る。より特定の実施形態では、遺伝子座の組には、250、300、または350以上の遺伝子座が含まれ得る。
【0156】
一部の実施形態では、混合物閾値は所定の値であり、これは組内の遺伝子座の所定の割合と等しい。所定の割合は、少なくとも、例えば、5%、10%、15%、20%、25%、30%、35%、40%、50%、60%、または70%以上であり得る。
【0157】
一部の実施形態では、アレル数警告には、指定アレルの数に基づくアレル数スコアが含まれ得る。具体的には、遺伝子座の最大許容可能アレル数を超える指定アレルの数が増えるほど、サンプルが混合物を含む可能性が高まる。説明のため、第1遺伝子座の指定アレルの数が3であり、第2遺伝子座の指定アレルの数が4である場合、第2遺伝子座のアレル数スコアには、混合物が存在するか否かを判断する際に、第1遺伝子座のアレル数スコアよりも大きい値(または、大きい重み)が割り当てられ得る。
【0158】
一部の実施形態では、アレル比率警告には、遺伝子座の指定アレルの比率に基づくアレル比率スコアが含まれ得る。具体的には、指定アレルの比率がより不均衡になると、サンプルが混合物を含む可能性が高まり得る。例えば、第1遺伝子座のアレル比率が1.3:1.0であり、第2遺伝子座のアレル比率が2.0:1.0であった場合、混合物が存在するか否かを判断する際に、第2遺伝子座のアレル数スコアは、第1遺伝子座のアレル比率スコアよりもより大きい値(または、より大きい重み)が割り当てられ得る。
【0159】
一部の実施形態では、サンプルレポートには混合物警告が含まれ得、これはユーザに、サンプルが複数のソースを含む疑いがあることを知らせる。一部の実施形態では、混合物警告には、混合物警告における信頼度のレベルをユーザに知らせる信頼度スコアが伴い得る。信頼度スコアは、アレル数警告の数、アレル数警告に関連するアレル数スコア、アレル比率警告の数、および、アレル比率警告に関するアレル比率スコアのうち少なくとも1つに基づき得る。
【0160】
図15は、一部の実施形態に従って形成されたシステム400を示し、これを用いて本明細書に記載の種々の方法を実行することができる。例えば、システム400を用いて、方法100(
図1)、方法150(
図1)、方法160(
図8)、方法200(
図11)、方法240(
図12)、方法300(
図13)、および方法340(
図14)のうち1つまたは複数を実行することができる。シーケンシングなどの種々のステップがシステム400により自動化され得る一方、1つまたは複数のステップを手動で実行でき、さもなければユーザの相互作用を必要とする場合がある。特定の実施形態では、ユーザは、サンプル(例えば、血液、唾液、髪、精液など)を提供することができ、システム400はサンプルを自動的に調製し、シーケンシングし、解析して、サンプルのソースの遺伝子プロファイルを提供することができる。一部の実施形態では、システム400は一か所に置かれた、一体型の独立システムである。他の実施形態では、システムの1つまたは複数の構成要素は互いに離れて位置付けられる。
【0161】
示すように、システム400には、サンプルジェネレータ402、シーケンサ404、およびサンプルアナライザ406が含まれる。サンプルジェネレータ402は、指定のシーケンシングプロトコル用のサンプルを調製することができる。例えば、サンプルジェネレータはSBS用のサンプルを調製することができる。シーケンサ404は、シーケンシングを実行して、シーケンシングデータを生成することができる。上記のように、シーケンシングデータには複数のサンプルリードが含まれ得る。各サンプルリードにはサンプル配列が含まれ得る。特定の実施形態では、サンプルリードは、ペアエンドシーケンシング、具体的には非対称ペアエンドシーケンシングから生成されるリード対を形成する。
【0162】
サンプルアナライザ406は、シーケンサ404からシーケンシングデータを受信することができる。
図15には、一実施形態に従って形成されたサンプルアナライザ406のブロック図が含まれる。サンプルアナライザ406を用いて、例えば、シーケンシングデータを解析し、特定の座の遺伝子型コールを提供する、または、サンプルの遺伝子プロファイルを生成することができる。サンプルアナライザ406には、システムコントローラ412とユーザインターフェース414が含まれる。システムコントローラ412は、ユーザインターフェース414に通信可能に連結し、また、シーケンサ404および/またはサンプルジェネレータ402とも通信可能に連結する。
【0163】
例示的な実施形態では、システムコントローラ412には、本明細書に記載の1つまたは複数の方法に従いシーケンシングデータを処理し、オプションとして解析するように構成された、1つまたは複数のプロセッサ/モジュールが含まれる。例えば、システムコントローラ412には、1つまたは複数の記憶素子に記憶された一組の指示(例えば、信号を除く、有形および/または非一時的なコンピュータの可読記憶媒体に記憶される指示)を実行してシーケンシングデータを処理するように構成された、1つまたは複数のモジュールが含まれ得る。命令の組には種々のコマンドが含まれ、これは処理機であるシステムコントローラ412に、本明細書で記載するワークフロー、プロセス、および方法などの特定の動作を実行するように指示する。例として、サンプルアナライザ406は、デスクトップコンピュータ、ラップトップ型、ノート型パソコン、タブレットコンピュータ、またはスマートフォンであるか、またはそれらを含むことができる。ユーザインターフェース414には、ハードウェア、ファームウェア、ソフトウェア、またはその組み合わせが含まれ得、これは個人(例えば、ユーザ)が、システムコントローラ412およびその種々の構成要素の動作を直接的または間接的に制御することを可能にする。示すように、ユーザインターフェース414には、オペレータ用ディスプレイ410が含まれる。
【0164】
図示する実施形態では、システムコントローラ412は、システムコントローラ412の動作を制御する複数のモジュールまたはサブモジュールを含む。例えば、システムコントローラ412には、モジュール421〜426、およびモジュール421〜426の少なくとも一部と通信する記憶システム426が含まれ得る。モジュールには、第1フィルタモジュール421、アライナモジュール422、第2フィルタモジュール423、スタッターモジュール424、検出器モジュール425、および解析モジュール426が含まれる。システム400には、本明細書に記載の動作を実行するように構成された他のモジュールまたは該モジュールのサブモジュールが含まれ得る。第1フィルタモジュール421は、サンプルリードを解析して、本明細書に記載するように、サンプルリードが指定座の確認リードであるか否かを判断するように構成される。アライナ―モジュール422は、確認リードを解析して、本明細書に記載するように、該確認リードが指定座の整列リードであるか否かを判断するように構成される。第2フィルタモジュール423は、正当なリードを受信し、本明細書に記載するように、該正当なリードが対応する座の潜在アレルを表すか否かを判断するように構成される。スタッターモジュール424は、本明細書に記載するように、正当なリードが別のアレルのスタッター産物であるか否かを判断するように構成される。検出器モジュール425は、本明細書に記載するように、任意のエラーまたは警告が対応する座に対し示されるべきか否かを判断するように構成される。例えば、検出器モジュール425は、座が、過剰な数の非整列リード、低いカバレッジ、過剰な数のノイズアレル、不均衡なアレル、および/または、異なるソースに由来するアレルの混合物を有すると判断し得る。解析モジュール426は、本明細書で記載するように、遺伝子座の遺伝子型を決定するように構成される。
【0165】
本明細書で用いる場合、「モジュール」、「システム」、または「システムコントローラ」という用語には、ハードウェアシステムおよび/またはソフトウェアシステム、ならびに、動作して1つまたは複数の機能を実行する回路が含まれる。例えば、モジュール、システム、またはシステムコントローラは、コンピュータメモリなどの、有形で非一時的なコンピュータの可読記憶媒体に記憶される指示に基づき動作を実行する、コンピュータプロセッサ、コントローラ、または他の論理系装置を備え得る。あるいは、モジュール、システム、またはシステムコントローラは、ハードワイヤードロジックおよび回路に基づき動作を実行する、ハードワイヤード装置を備え得る。添付の図面に示す、モジュール、システム、またはシステムコントローラは、ハードウェア、および、ソフトウェアもしくはハードワイヤード指示に基づき動作する回路、ハードウェアを指示して動作を実行するソフトウェア、またはその組み合わせを表し得る。モジュール、システム、またはシステムコントローラは、1つもしくはコンピュータマイクロプロセッサなどの1つもしくは複数のプロセッサを備える、および/または、該プロセッサと接続する、ハードウェア回路もしくは回路を備える、または、表すことが可能である。
【0166】
本明細書で用いる場合、用語「ソフトウェア」および「ファームウェア」は互換性があり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、および不揮発性RAM(NVRAM)メモリを含む、コンピュータによる実行のためのメモリに記憶された任意のコンピュータプログラムを備える。上記のメモリの種類は単なる例示であり、したがって、コンピュータプログラムの記憶に使用できるメモリの種類を限定しない。
【0167】
一部の実施形態では、タスクまたは動作を実行するように「構成」されたプロセシングユニット、プロセッサ、モジュール、またはコンピューティングシステムは、タスクまたは動作を実行するように特に構築されている(例えば、1つもしくは複数のプログラムもしくは指示が記憶されている、または、タスクまたは動作を実行するように調整もしくは意図されたそれと共に用いられる1つもしくは複数のプログラムもしくは指示を有する、および/または、タスクまたは動作を実行するように調整もしくは意図されたプロセッシング回路の配置を有する)と理解することができる。明確性のため、および疑いを避けることを目的に、(適切にプログラミングされればタスクまたは動作を実行するように「構成」され得る)汎用コンピュータは、タスクもしくは動作を実行するように特にプログラミングされる、もしくは構造的に修正されなければ、または、そのようにプログラミングされる、もしくは構造的に修正されるまで、タスクまたは動作を実行するように「構成」されない。
【0168】
図16A、16B、および17A〜17Fは、本明細書に記載の実施形態により生成することができるサンプルレポート500、520を示す。サンプルレポート500、520は1つまたは複数のファイルに保存し、通信ネットワークを介して送ることができる。サンプルレポート500、520は、例えば、スクリーンに表示する、または、紙に印刷することができる。
図16Aおよび16Bは、全サンプルレポート500の一部のみを示す。示すように、サンプルレポート500には、単一ソースサンプルであると初めは思われていたものの概要または概略解析が含まれ得る。サンプルレポート500には、STR解析用の第1セクション511およびSNP解析用の第2セクション512が含まれる。サンプルレポート500は、フラグまたはインジケータ510を用い、サンプルが単一ソースであることを確かめることができる。
【0169】
サンプルレポート500には、コールボックス504のアレイ502が含まれる。各コールボックス504は、指定の遺伝子座に相互に関連し得る。例えば、コールボックス504Aは遺伝子座Amelogeninに対応し、コールボックス504Bは遺伝子座TPOXに対応する。コールボックス504にはそれぞれ、遺伝子座の遺伝子型コール506が含まれる。Amelogeninの遺伝子型コール506はX、Yであり、TPOXの遺伝子型コールはアレル11、11である。アレル名は、慣習的な名づけに基づくか、または、他の名づけプロトコル(例えば、プロプライエタリ・プロトコル)により決定され得る。
【0170】
コールボックス504はそれぞれ、フラグまたは通知が遺伝子座と関連するか否かを示し得る。例えば、
図16では、コールボックス504を色分けし、フラグまたは通知が存在するか否かを示す。コールボックス504Aは灰色であり、コールボックス504Cはオレンジ色または赤色である。他の表示法を代替の実施形態で用いることができる。
図16では、色分けしたカラーボックス504にはそれぞれフラグ508が含まれる。フラグ508は、フラグ508を定義する凡例516において上記で言及されている。例えば、サンプルレポート500には、「スタッター」、「アレルカウント」、「不均衡」、「低カバレッジ」、「解釈閾値」、および「ユーザ修正済み」のフラグ508が含まれる。これらのフラグ508は、例えば、本明細書に記載の解析後、コールボックス504に割り当てることができる。
【0171】
図17A〜17Fは、遺伝子座についてのより詳細な解析を提供する。一部の実施形態では、サンプルレポート520は、サンプルレポート500(
図16)の一部であり得る。示すように、遺伝子座にはそれぞれグラフ522が割り当てられ、これは対応する遺伝子座データを視覚的に表現する。図示する実施形態では、グラフ522は棒グラフだが、他のグラフを用いてデータを視覚的に表現することができる。グラフ522は、異なるアレルに対するリード強度を特に示す。リード強度はカウントスコアとすることができる、または、上記のようにカウントスコアに基づき得る。一部の実施形態では、リード強度/カウントスコアはリードカウントである。
【0172】
グラフ522は、リード強度(または、カウントスコア)に関する解釈閾値および解析閾値を示し得る。例えば、D2S441座は、解釈閾値530および解析閾値532を有する。解釈閾値530および解析閾値532は、上記の解釈閾値および解析閾値と似ている。
図17に示すように、座が異なれば解釈閾値および解析閾値も異なり得る。例えば、D21S11座は、PentaE座の解釈閾値551より大きい解釈閾値550を有する。上記のように、解釈閾値および/または解析閾値は、指定座に対応するリード総数に基づき得る(つまり、該リード総数の関数であり得る)。オプションとして、解釈閾値および/または解析閾値は、特定の座のリードカウントの関数であり得、他の座のリードカウントおよび/または他のサンプルのリードカウントの関数でもあり得る。
【0173】
一部の実施形態では、グラフ522はまた、スタッター産物を示し得る。グラフ522は視覚的に、スタッター産物を真のアレルから区別することができる。例えば、D1S1656座には、D1S1656のCEアレル11、12、13それぞれと相互に関連する棒541〜543が含まれる。棒541〜543は、各アレルのリード強度(または、カウントスコア)を示し得る。
図17に示すD1S1656座のアレルは、歴史的にCEデータに基づき、慣例により11、12、および13とラベル付けされている。
図17の異なる色(例えば、青色および茶色)で示すように、D1S1656座のアレルはスタッター産物を含み得る。具体的には、棒541はスタッター産物であり、D1S1656座の解釈閾値555を超えない、棒542は棒部546、547を備える。棒部546、547はそれぞれ、視覚的にリード強度を表す。棒部546、547に対応するリードの配列は同じ長さだが、棒部546、547に対応するリードの配列は異なる。棒部546はスタッター産物を表す。しかしながら、上記のように、棒部546で表されるスタッター産物は、CEアレル13など、別のアレルである場合がある。したがって、色分け(または、スタッター産物および真のアレルを区別する他のインジケータ)によりユーザに通知または警告し、CEアレル11、12、13の異なる配列を解析してより確信のある遺伝子コールの決定を提供できるようにする。
図17では、D1S1656座の遺伝子コールは12/13である。しかしながら、他の場合では、スタッター産物の配列の解析により遺伝子コールは変更され得る。具体的には、一部の場合で、既知のCEプロセスを用いる遺伝子コールは正しくない場合がある。本明細書に記載の実施形態は、正しい遺伝子コールを提供可能であり得る。
【0174】
サンプルレポート520はまた、異なる遺伝子座についてのフラグまたは通知を提供する。凡例524は通知を定義する。一例として、D21S11座は「不均衡」および「アレルカウント」のフラグを有する。言い換えると、サンプルレポート520は、閲覧者に、アレルの数が予想されないこと、およびアレルの均衡が予想されないことを示す。閲覧者は、D21S11座に関するデータをさらに調査することを望み得る。
【0175】
一実施形態では、方法を提供する。方法には、対応するヌクレオチド配列を有する複数のサンプルリードを含むシーケンシングデータを受信するステップを含む。前記方法はまた、ヌクレオチド配列に基づき、サンプルリードを指定座に割り当てるステップを含み、ここにおいて対応する指定座に割り当てられるサンプルリードは、対応する指定座の割り当てリードである。前記方法はまた、各指定座の割り当てリードを解析して、割り当てリード内の対応する関心領域(ROI)を同定するステップを含む。ROIはそれぞれ1つまたは複数の反復モチーフ連続を有し、対応する連続の各反復モチーフは、同一のヌクレオチド組を含む。前記方法はまた、多数の割り当てリードを有する指定座について、ROIの配列に基づき割り当てリードを分類し、その結果、異なる配列を有するROIが異なる潜在的アレルとして割り当てられるようにする、ステップを含む。各潜在的アレルは、指定座内の他の潜在的アレルの配列とは異なる配列を有する。前記方法はまた、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、潜在的アレルの第1アレルが潜在的アレルの第2アレルのスタッター産物であると疑われるか否かを判断するステップを含む。対応する配列内のk(kは整数)個の反復モチーフが第1アレルと第2アレルの間で付加された、または欠失した場合に、第1アレルは第2アレルのスタッター産物であると疑われる。オプションとして、kは1または2と等しい。
【0176】
一態様では、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、第1アレルが第2アレルのスタッター産物であると疑われるか否かを判断するステップには、第1アレルと第2アレルのROIの長さを比較して、第1アレルと第2アレルのROIの長さが、1反復モチーフまたは多数の反復モチーフにより異なるか否かを判断するステップが含まれ得る。
【0177】
別の態様では、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、第1アレルが第2アレルのスタッター産物であると疑われるか否かを判断するステップには、付加された、または欠失した反復モチーフを同定し、前記付加された、または欠失した反復モチーフが、対応する配列において隣接反復モチーフと同一であるか否かを判断するステップが含まれ得る。
【0178】
別の態様では、第1アレルと第2アレルのROIの配列間に他のミスマッチがない場合、第1アレルは第2アレルのスタッター産物であり得る。
【0179】
別の態様では、前記方法はまた、少なくとも複数の指定座の遺伝子型をコールする遺伝子型プロファイルを生成するステップを含み得、疑わしいスタッター産物を有する指定座は、疑わしいスタッター産物を有することが示される。
【0180】
別の態様では、前記方法はまた、少なくとも複数の指定座に遺伝子型コールを提供するステップを含み得、遺伝子型コールの少なくとも1つは、少なくとも1つの遺伝子型コールの指定座に疑わしいスタッター産物が存在することを示す。
【0181】
別の態様では、前記方法はまた、多数の潜在的アレルを有する各指定座について、潜在的アレルに対しコールされたサンプルリードの総数をカウントするステップを含むことができる。第1アレルのサンプルリードが、第2アレルのサンプルリードの指定の閾値未満である場合、第1アレルは第2アレルのスタッター産物である場合がある。オプションとして、指定閾値は第2アレルのサンプルリードの約40%である。オプションとして、第1アレルのサンプルリードが第2アレルのサンプルリードの所定の割合を超える場合、疑わしいスタッター産物は別のコントリビュータに由来すると指定される。オプションとして、第1アレルのサンプルリードが第2アレルのサンプルリードの所定の割合未満である場合、疑わしいスタッター産物はノイズとして指定される。
【0182】
別の態様では、割り当てリードは第1保存フランキング領域と第2保存フランキング領域を含み、その間に対応する反復セグメントが位置する。各割り当てリードについて、前記方法は、(a)第1保存フランキング領域と第2保存フランキング領域を含む基準配列を提供するステップと、(b)基準配列の第1フランキング領域の一部を対応する割り当てリードに整列させるステップと、(c)基準配列の第2フランキング領域の一部を対応する割り当てリードに整列させるステップと、(d)反復セグメントの長さおよび/または配列を求めるステップとを含み得る。
【0183】
オプションとして、ステップ(b)またはステップ(c)の一方または両方でフランキング領域の一部を整列させるステップには、(i)反復セグメントに重なる、または隣接するシーディング領域の正確なk-merマッチングを用いることにより、対応する保存フランキング領域の割り当てリード上での位置を決定するステップと、(ii)フランキング領域を割り当てリードに整列させるステップとが含まれる。
【0184】
オプションとして、シーディング領域には、保存されたフランキング領域の複雑度の高い領域が含まれる。例えば、複雑度の高い領域には、ミスアライメント防ぐために反復セグメントとは十分に異なる配列が含まれ得る。別の例として、複雑度の高い領域にはヌクレオチドの多様な混合物を有する配列が含まれ得る。
【0185】
オプションとして、シーディング領域は、対応する保存されたフランキング領域の複雑度の低い領域を避ける。例えば、複雑度の低い領域は、複数の反復モチーフと実質的に似た配列を有し得る。
【0186】
オプションとして、シーディング領域は反復セグメントに直接隣接するか、シーディング領域には反復セグメントの一部が含まれ得るか、または、シーディング領域は反復セグメントからオフセットしている。
【0187】
別の態様では、サンプルリードは、フォワードプライマー配列およびリバースプライマー配列を有するPCRアンプリコンであり得る。
【0188】
別の態様では、サンプルリードを指定座に割り当てるステップには、PCRアンプリコンのプライマー配列に対応するサンプルリードの配列を同定するステップが含まれ得る。
【0189】
別の態様では、シーケンシングデータは、合成によるシーケンシング(SBS)アッセイに由来し得る。
【0190】
別の態様では、ROIにはショートタンデムリピート(STR)が含まれる。オプションとして、STRは、CODIS常染色体STR座、CODIS Y-STR座、EU常染色体STR座、またはEU Y-STR座の少なくとも1つから選択される。
【0191】
一実施形態では、遺伝子座の組に対応するアンプリコンの複数のサンプルリードを有するシーケンシングデータを受信するステップを含む方法を提供する。サンプルリードはリード対を含み、対応するアンプリコンの各リード対は対応するアンプリコンの第1リードおよび第2リードを含む。第1リードおよび第2リードはそれぞれ、各々のリード配列を有する。前記方法はまた、第1リードの潜在的遺伝子座を、第1リードのリード配列の解析に基づき同定するステップを含む。潜在的遺伝子座は遺伝子座の組に由来する。前記方法はまた、少なくとも1つの潜在的座を有する第1リードそれぞれについて、第1リードが潜在的遺伝子座それぞれの基準配列と整列するか否かを判断するステップを含む。第1リードが1つの遺伝子座のみの基準配列と整列する場合、前記方法は第1リードがその1つの遺伝子座の潜在的アレルを含むと判断するステップを含む。第1リードが2つ以上の基準配列と整列する場合、前記方法は、第1リードが、該第1リードと最もよく整列する基準配列を有する遺伝子座の潜在的アレルを含むと判断するステップを含む。第1リードが基準配列と整列しない場合、前記方法は第1リードを非整列リードとして指定し、非整列リードを解析して該非整列リードと最も合う遺伝子座を潜在的遺伝子座から同定するステップを含む。前記方法はまた、少なくとも複数の遺伝子座について、コールされた遺伝子型を含む遺伝子プロファイルを生成するステップを含み、コールされた遺伝子型は、対応する遺伝子座の潜在的アレルに基づく。遺伝子プロファイルはまた、非整列リードを有する遺伝子座についての1つまたは複数の通知を含む。
【0192】
一態様では、少なくとも1つの通知は、対応する遺伝子座と関連する信頼度スコアを含む。信頼度スコアは、対応する遺伝子座と最も合う非整列リードの数に基づき得、より大きい数の非整列リードは、コールされた遺伝子型の信頼度がより低いことを示す。
【0193】
別の態様では、非整列リードを解析して該非整列リードと最も合う遺伝子座を潜在的遺伝子座から同定するステップには、非整列リードの同定サブ配列を解析して、同定サブ配列と最も合う遺伝子座を同定するステップが含まれ得る。
【0194】
別の態様では、同定サブ配列にはプライマー配列の少なくとも一部が含まれる。
【0195】
別の態様では、第1リードの潜在的遺伝子座を同定するステップには、第1リードのプライマー配列が、潜在的遺伝子座に関連する配列に実質的にマッチすると判断するステップが含まれる。
【0196】
別の態様では、シーケンシングデータは、非対称ペアエンドシーケンシングを介して生成される。
【0197】
別の態様では、前記方法はまた、非整列リードを解析して、潜在的アレルのドロップアウトが存在するか否かを判断するステップを含み得る。
【0198】
別の態様では、前記方法はまた、非整列リードを解析してアッセイの調子を判断するステップを含み得る。
【0199】
別の態様では、前記方法はまた、非整列リードを解析して、非整列リードがキメラを示すか否かを判断するステップを含み得る。
【0200】
別の態様では、前記方法はまた、非整列リードを解析してプライマーダイマーの数を決定するステップを含み得る。
【0201】
別の態様では、第1リードに遺伝子座の潜在的アレルが含まれると判断するステップには、第1リードに対応する第2リードも前記遺伝子座と相互に関連することを確かめるステップが含まれ得る。
【0202】
別の態様では、前記方法はまた、非整列リードを解析して、該非整列リードがone-on-targetリードであるかpair-on-targetリードであるかを判断するステップが含まれ得る。pair-on-targetリードは、データベースの第1選択配列および第2選択配列と実質的にマッチする第1同定サブ配列および第2同定サブ配列を有し得る。one-on-targetリードは、データベースの第1選択配列と実質的にマッチする第1同定サブ配列のみを有し得る。
【0203】
一実施形態では、遺伝子座の組に対応するアンプリコンの複数のサンプルリードを有するシーケンシングデータを受信するステップを含む方法を提供する。サンプルリードはリード対を含み、対応するアンプリコンの各リード対は、対応するアンプリコンの第1リードおよび第2リードを含む。第1リードおよび第2リードはそれぞれ、各々のリード配列を有する。前記方法はまた、第1リードの潜在的遺伝子座を、第1リードのリード配列の解析に基づき同定するステップを含む。潜在的遺伝子座は遺伝子座の組に由来する。前記方法はまた、少なくとも1つの潜在的座を有する第1リードそれぞれについて、第1リードが潜在的遺伝子座それぞれの基準配列と整列するか否かを判断するステップを含む。前記方法はまた、基準配列と整列しない第1リードを非整列リードとして指定するステップを含む。前記方法はまた、非整列リードを解析して、非整列リードと最も合う遺伝子座を、潜在的遺伝子座から同定するステップを含む。前記方法はまた、非整列リードを解析して、最も合う遺伝子座について、潜在的アレルのドロップアウトが存在するか否かを判断するステップを含む。
【0204】
一態様では、前記方法はまた、非整列リードを解析して、該非整列リードがone-on-targetリードであるかpair-on-targetリードであるかを判断するステップを含み得る。pair-on-targetリードは、データベースの第1選択配列および第2選択配列と実質的にマッチする第1同定サブ配列および第2同定サブ配列を有し得る。one-on-targetリードは、データベースの第1選択配列と実質的にマッチする第1同定サブ配列のみを有し得る。非整列リードを解析して、最も合う遺伝子座について潜在的アレルのドロップアウトが存在するか否かを判断するステップは、pair-on-targetリードの数に基づき得る。
【0205】
一実施形態では、複数の遺伝子座の各遺伝子座についてのリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とリードカウントを有する。リードカウントは、潜在的アレルを含むと判断された、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、複数の遺伝子座の各遺伝子座について、リード分布のうち、最大リードカウントを有する潜在的アレルの1つを同定するステップを含み得る。前記方法はまた、複数の遺伝子座の各遺伝子座について、最大リードカウントが解釈閾値を超えるか否かを判断するステップを含み得る。最大リードが解釈閾値を超える場合、前記方法は、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含む。最大リードが解釈閾値未満である場合、前記方法は、遺伝子座のカバレッジが低いという警告を生成するステップを含む。前記方法はまた、遺伝子型がコールされた遺伝子座それぞれの遺伝子型と、カバレッジの低い遺伝子座についての警告とを含む、遺伝子プロファイルを生成するステップを含む。
【0206】
一態様では、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップには、また、各遺伝子座の潜在的アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、潜在的アレルの数が所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとが含まれ得る。
【0207】
別の態様では、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップには、また、遺伝子座の複数の潜在的アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップが含まれ得る。
【0208】
別の態様では、前記方法はまた、複数の遺伝子座の各遺伝子座について、潜在的アレルのリードカウントが解析閾値を上回るか否かを判断するステップを含み得る。解析閾値は解釈閾値より上回ることが易しい場合がある。
【0209】
別の態様では、解釈閾値を上回らないリードカウントを有する潜在的アレルはノイズアレルとして指定され、前記方法はさらに、ノイズアレルのリードカウントの合計をノイズ閾値と比較し、合計がノイズ閾値を超える場合、遺伝子座は過剰なノイズを含むという警告を生成するステップをさらに含む。
【0210】
オプションとして、遺伝子座にはタンデムショートリピート(STR)座と一塩基多型(SNP)座が含まれる。
【0211】
一実施形態では、(a)遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とカウントスコアを有する。カウントスコアは、潜在的アレルを含むことが明らかにされた、シーケンシングデータのサンプルリードの数に基づく。前記方法はまた、(b)もう1つの潜在的アレルのカウントスコアに基づき、遺伝子座のカバレッジが低いが否かを判断するステップを含む。遺伝子座のカバレッジが低い場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含む。遺伝子座のカバレッジが低くない場合、前記方法は、潜在的アレルのカウントスコアを解析して遺伝子座の遺伝子型を決定するステップを含む。前記方法はまた、(d)遺伝子座の遺伝子型または遺伝子座のカバレッジが低いという警告を含む、遺伝子プロファイルを生成するステップを含む。
【0212】
一態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、潜在的アレルの1つまたは複数のカウントスコアが、解釈閾値を上回るか否かを判断するステップが含まれ得る。カウントスコアの少なくとも1つが解釈閾値を上回る場合、前記方法はまた、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含み得る。カウントスコアがいずれも解釈閾値を上回らない場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。
【0213】
別の態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、潜在的アレルの1つまたは複数のカウントスコアが解析閾値を上回るか否かを判断するステップが含まれる。カウントスコアの少なくとも1つが解析閾値を上回る場合、前記方法はまた、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含み得る。カウントスコアがいずれも解析閾値を上回らない場合、前記方法はまた、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。
【0214】
別の態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、遺伝子座の整列リード総数をリード閾値と比較するステップが含まれる。整列リード総数がリード閾値を上回る場合、前記方法は、対応する遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップを含み得る。整列リード総数がリード閾値を上回らない場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。
【0215】
別の態様では、カウントスコアはそれぞれ、対応する潜在的アレルのリードカウントに等しい値である。
【0216】
別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよびリード総数に基づく関数である。
【0217】
別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよび該遺伝子座について事前に得られたデータに基づく関数である。
【0218】
別の態様では、カウントスコアはそれぞれ、サンプルの他の遺伝子座のリードカウントに基づく関数である。
【0219】
別の態様では、カウントスコアはそれぞれ、他のサンプルの遺伝子座のリードカウントに基づく関数である。
【0220】
別の態様では、遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップには、遺伝子座の潜在的アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、潜在的アレルの数が所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップも含まれる。
【0221】
別の態様では、遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップには、遺伝子座の複数の潜在的アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという通知を生成するステップも含まれ得る。
【0222】
別の態様では、前記方法はまた、潜在的アレルのカウントスコアが解析閾値を上回るか否かを判断するステップを含み得る。解析閾値は解釈閾値よりも上回ることが易しい場合がある。オプションとして、解析閾値を上回らないカウントスコアを有する潜在的アレルはノイズアレルとして指定される。前記方法はまた、ノイズスコアをノイズ閾値と比較するステップと、ノイズスコアがノイズ閾値を上回る場合、遺伝子座は過剰なノイズを含むという警告を生成するステップとを含み得る。ノイズスコアはノイズアレルのカウントスコアに基づき得る。
【0223】
オプションとして、遺伝子座は、ショートタンデムリピート(STR)座または一塩基多型(SNP)座の一方である。
【0224】
別の態様では、前記方法は、複数の遺伝子座について、(a)〜(c)を反復するステップを含み、遺伝子プロファイルを生成するステップには、遺伝子座それぞれの遺伝子型をコールするステップ、または、カバレッジの低い遺伝子座それぞれについての通知を提供するステップが含まれる。
【0225】
一実施形態では、遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とリードカウントを有する。リードカウントは、遺伝子座に割り当てられた、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、潜在的アレルそれぞれのカウントスコアを求めるステップを含み得る。カウントスコアは潜在的アレルのリードカウントに基づき得る。前記方法はまた、潜在的アレルのカウントスコアが解析閾値を上回るか否かを判断するステップを含み得る。対応する潜在的アレルのカウントスコアが解析閾値を上回らない場合、前記方法は、対応する潜在的アレルを破棄するステップを含む。対応する潜在的アレルのカウントスコアが解析閾値を上回る場合、前記方法は、潜在的アレルを遺伝子座の指定アレルとして指定するステップを含む。
【0226】
一態様では、対応する潜在的アレルを破棄するステップには、潜在的アレルをノイズアレルとして指定するステップが含まれる。前記方法はまた、ノイズアレルのカウントスコアが一括してノイズ閾値を上回るか否かを判断するステップを含む。カウントスコアが一括してノイズ閾値を上回る場合、前記方法は、遺伝子座は過剰なノイズを有するという警告を生成するステップを含み得る。
【0227】
別の態様では、カウントスコアはそれぞれ、対応する潜在的アレルのリードカウントと等しい値である。
【0228】
別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよびリード総数に基づく関数である。
【0229】
別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよび該遺伝子座について事前に得たデータに基づく関数である。
【0230】
別の態様では、前記方法はまた、指定アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、指定アレルの数が、所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとを含み得る。
【0231】
別の態様では、前記方法はまた、遺伝子座の複数の指定アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップを含む。
【0232】
オプションとして、遺伝子座にはショートタンデムリピート(STR)座と一塩基多型(SNP)座が含まれる。
【0233】
一実施形態では、遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルはアレル配列とリードカウントを有する。リードカウントは、遺伝子座に割り当てられた、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、リードカウントが解析閾値を超えるか否かを判断するステップを含む。対応する潜在的アレルのリードカウントが解析閾値未満である場合、前記方法は、対応する潜在的アレルをノイズアレルとして指定するステップを含む。対応する潜在的アレルのリードカウントが解析閾値を上回る場合、前記方法は、潜在的アレルを遺伝子座のアレルとして指定するステップを含む。前記方法はまた、ノイズアレルのリードカウントの合計がノイズ閾値を超えるか否かを判断するステップを含む。合計がノイズ閾値を超える場合、前記方法は、遺伝子座は過剰なノイズを有するという警告を生成するステップを含む。
【0234】
一態様では、前記方法はまた、指定アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、指定アレルの数が、所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとを含み得る。
【0235】
別の態様では、前記方法はまた、遺伝子座の複数の指定アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップを含み得る。
【0236】
オプションとして、遺伝子座にはショートタンデムリピート(STR)座と一塩基多型(SNP)座が含まれる。
【0237】
一実施形態では、複数の遺伝子座の各遺伝子座の座データを受信するステップを含む方法を提供する。座データは対応する遺伝子座について1つまたは複数の指定アレルを含む。各指定アレルは、シーケンシングデータから得られたリードカウントに基づく。前記方法はまた、複数の遺伝子座の各遺伝子座について、対応する遺伝子座の指定アレルの数が、対応する遺伝子座の所定の最大許容可能アレル数より大きいか否かを判断するステップを含む。前記方法は、指定アレルの数が所定の最大許容可能アレル数を超える場合、アレル数警告を生成するステップを含み得る。前記方法はまた、複数の遺伝子座の各遺伝子座について、指定アレルのアレル比率が不十分であるか否かを判断するステップを含む。アレル比率は指定アレルのリードカウントに基づき得る。前記方法はまた、アレル比率が不均衡である場合、アレル比率警告を生成するステップを含み得る。前記方法はまた、遺伝子座の組のアレル数警告とアレル比率警告の数に基づき、サンプルが複数のソースの混合物を含むと判断するステップを含み得る。
【0238】
一態様では、サンプルが複数のソースの混合物を含むと判断するステップには、警告の総数が混合物閾値を上回ると判断するステップが含まれる。オプションとして、混合物閾値は、遺伝子座の組における遺伝子座の数に基づく。オプションとして、混合物閾値は、組内の遺伝子座の所定の割合に等しい所定値である。
【0239】
別の態様では、アレル数警告を生成するステップには、指定アレルの数に基づくアレル数スコアを提供するステップが含まれる。サンプルが複数のソースの混合物を含むと判断するステップには、アレル数スコアを解析するステップが含まれ得る。オプションとして、サンプルが混合物を含む可能性は、最大許容可能アレル数を超える指定アレルの数が増えるほど高まる。
【0240】
別の態様では、アレル比率警告を生成するステップには、アレル比率に基づくアレル比率スコアを提供するステップが含まれる。サンプルが複数のソースの混合物を含むと判断するステップには、アレル比率スコアを解析するステップが含まれる。オプションとして、サンプルが混合物を含む可能性は、アレル間の不均衡が増すほど高まる。
【0241】
オプションとして、遺伝子座にはショートタンデムリピート(STR)座と一塩基多型(SNP)座が含まれる。
【0242】
一実施形態において、複数のY座の座データを受信するステップを含む方法を提供する。座データにはY座の指定アレルが含まれる。各指定アレルはシーケンシングデータから得られるリードカウントに基づく。前記方法はまた、各Y座の指定アレルの数を、Y座の予想アレル数と比較するステップを含む。前記方法はまた、比較動作の結果に基づき、サンプルが男性または女性であるという予測を生成するステップを含む。オプションとして、遺伝子座にはショートタンデムリピート(STR)座と一塩基多型(SNP)座が含まれる。
【0243】
1つまたは複数の実施形態において、本明細書に記載の、1つまたは複数の請求項を実行するように構成されたサンプルアナライザを含むシステムを提供する。
【0244】
本出願を通して、種々の刊行物、特許、および/または特許出願が言及されている。これらの刊行物の開示は、その全体が、参照により本出願に組み込まれる。
【0245】
本明細書で用いる場合、「含み(comprising)」、「含み(including)」、および「有し(having)」などの用語は非限定的であり、言及された要素だけでなく、場合により追加の要素を包含する。
【0246】
上記記載は例示のためであり、限定することを意図しないことが理解されるべきである。例えば、上記実施形態(および/またはその態様)は互いに組み合わせて用いることができる。加えて、多くの修正を加えて、特定の状況または物質を本明細書の趣旨から離れることなく、その教示に適合させることができる。本明細書に記載の、寸法、物質の種類、種々の構成要素の向き、ならびに、種々の構成要素の数および位置は、ある実施形態のパラメータを定義することを意図し、決して限定するものではなく、単なる例示的な実施形態である。特許請求の趣旨および範囲内にある多くの他の実施形態および修正が、上記記載をレビューする際、当業者には明らかであろう。そのため、本発明の範囲は、添付の特許請求の範囲に照らし、そのような特許請求の範囲が権利を持つ対応特許の全範囲に沿って、決定されるべきである。
【0247】
本記載で用いる場合、「例示的な実施形態において」、「一部の実施形態において」、および「特定の実施形態において」という句は、記載される実施形態が、本出願に従って形成または実行され得る実施形態の例であることを意味する。該句は、発明の主題を該実施形態に限定することを意図しない。具体的には、発明の主題の他の実施形態は、特定の実施形態を用いて記載される、言及された特徴または構造を含まない場合がある。
【0248】
添付の特許請求の範囲において、「含み(including)」および「ここにおいて(in which)」という用語は、「含み(comprising)」および「ここにおいて(wherein)」という各用語の平易な英語の同義語として用いられる。さらに、以下の特許請求の範囲では、「第1」、「第2」、「第3」などの用語は単なるラベルとして用いられ、数値的要件をその対象に課すことを意図しない。さらに、以下の特許請求の範囲の限定は、ミーンズ・プラス・ファンクション形式(means-plus-function format)では書かれず、そのような特許請求の範囲の限定が、追加的な構造を含まない機能の陳述が後続する「means for」フレーズを明白に使用しない限り、かつ、使用するまで、米国特許法第112条(f)に従って解釈されることを意図しない。
【0249】
以下の特許請求の範囲は本出願の1つまたは複数の実施形態に言及し、該特許請求の範囲はそれにより本出願の記載に組み込まれる。