特許第6883905号(P6883905)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ティーゲルクー アクチエボラグの特許一覧

特許6883905ヌクレオチド配列バリアントの頻度分布の測定
<>
  • 特許6883905-ヌクレオチド配列バリアントの頻度分布の測定 図000003
  • 特許6883905-ヌクレオチド配列バリアントの頻度分布の測定 図000004
  • 特許6883905-ヌクレオチド配列バリアントの頻度分布の測定 図000005
  • 特許6883905-ヌクレオチド配列バリアントの頻度分布の測定 図000006
  • 特許6883905-ヌクレオチド配列バリアントの頻度分布の測定 図000007
  • 特許6883905-ヌクレオチド配列バリアントの頻度分布の測定 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6883905
(24)【登録日】2021年5月13日
(45)【発行日】2021年6月9日
(54)【発明の名称】ヌクレオチド配列バリアントの頻度分布の測定
(51)【国際特許分類】
   G16B 30/10 20190101AFI20210531BHJP
【FI】
   G16B30/10
【請求項の数】10
【全頁数】22
(21)【出願番号】特願2020-555889(P2020-555889)
(86)(22)【出願日】2019年4月2日
(65)【公表番号】特表2021-511820(P2021-511820A)
(43)【公表日】2021年5月13日
(86)【国際出願番号】SE2019050299
(87)【国際公開番号】WO2019199218
(87)【国際公開日】20191017
【審査請求日】2020年11月24日
(31)【優先権主張番号】1850405-0
(32)【優先日】2018年4月11日
(33)【優先権主張国】SE
【早期審査対象出願】
(73)【特許権者】
【識別番号】520390140
【氏名又は名称】ティーゲルクー アクチエボラグ
(74)【代理人】
【識別番号】100102978
【弁理士】
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100102118
【弁理士】
【氏名又は名称】春名 雅夫
(74)【代理人】
【識別番号】100160923
【弁理士】
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【弁理士】
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【弁理士】
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【弁理士】
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【弁理士】
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【弁理士】
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【弁理士】
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【弁理士】
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100121072
【弁理士】
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】ユドビッチ ダヴィド
(72)【発明者】
【氏名】ラーション ヨナス
【審査官】 山内 裕史
(56)【参考文献】
【文献】 特表2017−520821(JP,A)
【文献】 特開2017−146928(JP,A)
【文献】 特表2017−521078(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 − 99/00
(57)【特許請求の範囲】
【請求項1】
ヌクレオチド配列サンプル(101、410、500)の複数のヌクレオチド配列バリアント(501、502、503)の頻度分布を測定するための方法であって、
該複数のヌクレオチド配列バリアントが、ヌクレオチド参照配列(501)を含み、かつ
該ヌクレオチド参照配列と同一ではない各ヌクレオチド配列バリアント(502、503)が、該ヌクレオチド参照配列と、少なくとも1つの中間部分(504、505)に関して異なり、かつ、該ヌクレオチド参照配列と、該ヌクレオチド参照配列の少なくとも2つの部分(506)に関して一致しており、
前記方法が、
- 前記複数のヌクレオチド配列バリアントのうちの独特なヌクレオチド配列バリアント(511、512、513)を含む、配列参照バリアントの参照バリアントリスト(430、510)、を作成する段階(110);
- 該参照バリアントリストの各配列参照バリアントに対して複数回の参照配列読取りを実施すること(432)によって配列リードデータの参照セット(440、520)を作成する段階(120)であって、各参照配列リードが読取り開始部位RSS(521)を有する、前記段階;
- 各RSSについて、かつ各配列参照バリアントの中間部分について、
前記参照バリアントリストに対する対応する参照配列リードのアライメントに基づいて、該対応する参照配列リードを用いて中間部分が検出可能であるか否か
を判定する段階(130、442);
- 前記ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアント断片のそれぞれに対して1回または複数回のサンプル配列読取りを実施すること(464)により、配列リードデータのサンプルセット(470、630)を作成する段階(140、414、464)であって、各サンプル配列リードが、参照配列リードに対応し、かつ対応するRSS(621、622)を有する、前記段階;
- 各RSSについて、かつ各配列参照バリアントの中間部分について、前記参照バリアントリストに対する対応するサンプル配列リードのアライメントに基づいて、配列リードデータの前記サンプルセットにおける総出現数(480、640)を測定する段階(150、435);ならびに
- 各RSSについての前記総出現数および前記中間部分が検出可能か否かの判定に基づいて、前記複数のヌクレオチド配列バリアントの頻度分布(499)を測定する段階(180、497)
を含む、前記方法。
【請求項2】
ヌクレオチド参照配列を定める段階をさらに含む、請求項1記載の方法。
【請求項3】
前記中間部分が、挿入、欠失、改変、および転座のうちの1つまたは複数である、請求項1〜2のいずれか一項記載の方法。
【請求項4】
RSSについて、かつ配列参照バリアントの中間部分について、対応する参照配列リードを用いて中間部分が検出可能であるか否かを判定する段階が、
アライメントにより、RSSについての、該対応する参照配列リードと配列参照バリアントとの検出相関値を求めること;
該検出相関値が検出閾値を上回る場合、該対応する参照配列リードを用いて該RSSにおいて中間部分が検出可能であると判定すること;および
該検出相関値が該検出閾値を上回らない場合、該対応する参照配列リードを用いて該RSSにおいて該中間部分が検出可能ではないと判定すること
を含む、請求項1〜3のいずれか一項記載の方法。
【請求項5】
RSSについて、かつ配列参照バリアントの中間部分について、サンプルセットにおける総出現数を測定する段階が、
アライメントにより、RSSについての、対応するサンプル配列リードと配列参照バリアントとのサンプル相関値を求めること;
該サンプル相関値が出現数閾値を上回る場合、出現数を数えること;および
該サンプル相関値が該出現数閾値を上回らない場合、出現数を数えないこと
を含む、請求項1〜4のいずれか一項記載の方法。
【請求項6】
複数のヌクレオチド配列バリアントおよびヌクレオチド参照配列のうちの1つまたは複数を示す入力信号を受信する段階をさらに含む、請求項1〜5のいずれか一項記載の方法。
【請求項7】
頻度分布を示す報告信号をユーザーインターフェースに転送する段階をさらに含む、請求項1〜6のいずれか一項記載の方法。
【請求項8】
非一時的コンピューター可読媒体(300)を含み、そこに、プログラム命令を含むコンピュータープログラムを有する、コンピュータープログラム製品であって、該コンピュータープログラムが、データ処理ユニットに搭載可能であり、かつ該データ処理ユニットによって該コンピュータープログラムが実行された場合に、請求項1〜7のいずれか一項記載の方法の実行をもたらすように構成されている、前記コンピュータープログラム製品。
【請求項9】
ヌクレオチド配列サンプル(101、410、500)の複数のヌクレオチド配列バリアント(501、502、503)の頻度分布を測定するための装置であって、
該複数のヌクレオチド配列バリアントが、ヌクレオチド参照配列(501)を含み、かつ
該ヌクレオチド参照配列と同一ではない各ヌクレオチド配列バリアント(502、503)が、該ヌクレオチド参照配列と、少なくとも1つの中間部分(504、505)に関して異なり、かつ、該ヌクレオチド参照配列と、該ヌクレオチド参照配列の少なくとも2つの部分(506)に関して一致しており、
前記装置が、
- 前記複数のヌクレオチド配列バリアントのうちの独特なヌクレオチド配列バリアント(511、512、513)を含む、配列参照バリアントの参照バリアントリスト(430、510)、の作成;
- 該参照バリアントリストの各配列参照バリアントに対して複数回の参照配列読取りを実施すること(432)による、配列リードデータの参照セット(440、520)の作成であって、各参照配列リードが読取り開始部位RSS(521)を有する、前記作成;
- 各RSSについての、かつ各配列参照バリアントの中間部分についての、
前記参照バリアントリストに対する対応する参照配列リードのアライメントに基づいて、該対応する参照配列リードを用いて中間部分が検出可能であるか否か
の判定;
- 前記ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアント断片のそれぞれに対して1回または複数回のサンプル配列読取りを実施すること(464)による、配列リードデータのサンプルセット(470、630)の作成であって、各サンプル配列リードが、参照配列リードに対応し、かつ対応するRSS(621、622)を有する、前記作成;
- 各RSSについての、かつ各配列参照バリアントの中間部分についての、前記参照バリアントリストに対する対応するサンプル配列リードのアライメントに基づく、配列リードデータの前記サンプルセットにおける総出現数(480、640)の測定;ならびに
- 各RSSについての前記総出現数および前記中間部分が検出可能か否かの判定に基づく、前記複数のヌクレオチド配列バリアントの頻度分布(499)の測定
をもたらすように構成されている制御回路(200)を含む、前記装置。
【請求項10】
請求項9記載の装置を含む、サーバーノード。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、全体として、ヌクレオチド配列サンプルを解析する分野に関する。より具体的には、本開示は、このようなサンプルにおけるヌクレオチド配列バリアントの頻度分布の測定に関する。
【背景技術】
【0002】
背景
ヌクレオチド配列サンプル、例えば、デオキシリボ核酸(DNA)サンプルまたはリボ核酸(RNA)サンプルを解析する場合、サンプルにおけるヌクレオチド配列バリアントの頻度分布の正確な測定を実現できることが望ましい場合がある。特に、サンプルにおける関心対象の特定部位の周辺のヌクレオチド配列バリアントの頻度分布の正確な測定を実現できることが望ましい場合がある。本開示の残りの部分は、関心対象のこのような特定部位(標的部位または標的位置とも呼ばれる)の周辺のヌクレオチド配列バリアントに関する。
【0003】
本明細書において言及する場合、ヌクレオチド配列は、任意の適切な長さを有してよく、かつ1つまたは複数のヌクレオチド配列実体を含んでよい。例えば、ヌクレオチド配列は、全ゲノム、あるゲノムの1つもしくは複数の染色体、または1つもしくは複数の染色体の1つもしくは複数の部分(例えば遺伝子)からなってよい。
【0004】
例えば、何らかの目的のために元のヌクレオチド配列を改変する場合、例えば、特定部位を遺伝子編集方法における意図的変化(例えばCre組合せと比較されたい)に供する場合、ヌクレオチド配列サンプルは、改変されたヌクレオチド配列の集団を含み得る。このような例において、改変されたヌクレオチド配列のうちの何個に、どの改変が起こったのかを正確に特定できることに、関心が持たれ得る。サンプルにおけるヌクレオチド配列バリアントの頻度分布を正確に測定できれば、そのような結果が得られるはずである。
【0005】
配列バリアントの頻度分布を推定するために現在使用されているアプローチは、少なくともある程度、不正確であることが証明されている場合がある。
【0006】
したがって、配列バリアントの頻度分布を測定するための代替えアプローチが必要とされている。好ましくは、このようなアプローチは、精度の上昇、すなわち精度の向上を提供するべきである。
【発明の概要】
【0007】
概要
用語「含む(comprises)/含むこと(comprising)」は、本明細書において使用される場合、記載される特徴、整数、段階、または構成要素の存在を明記するために使用されるが、1つまたは複数の他の特徴、整数、段階、構成要素、またはそれらの群の存在も追加も除外しないことが強調されるべきである。本明細書において使用される場合、単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、文脈において特に指示がない限り、複数形も同様に含むものとする。
【0008】
本明細書で言及される場合、用語「測定(determination)」は、該当する場合には、いくつかの態様による推定を含み得ることに留意すべきである。
【0009】
上記または他の不都合な点のうちの少なくともいくつかを解決もしくは軽減、緩和、または解消することが、いくつかの態様の目的である。
【0010】
第1の局面によれば、第1の局面は、ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアントの頻度分布を測定するための方法によって実現され、ここで、複数のヌクレオチド配列バリアントは、ヌクレオチド参照配列を含み、かつ(該ヌクレオチド参照配列と同一ではない)各ヌクレオチド配列バリアントは、該ヌクレオチド参照配列と、少なくとも1つの中間部分に関して異なり、かつ、該ヌクレオチド参照配列と、該ヌクレオチド参照配列の少なくとも2つの部分に関して一致している。
【0011】
該方法は、複数のヌクレオチド配列バリアントのうちの独特なヌクレオチド配列バリアントを含む、配列参照バリアントの参照バリアントリストを作成する段階、および参照バリアントリストの各配列参照バリアントに対して複数回の参照配列読取りを実施することによって配列リードデータの参照セットを作成する段階であって、各参照配列リードが読取り開始部位(RSS)を有する、前記段階、を含む。
【0012】
該方法はまた、(各RSSについて、かつ各配列参照バリアントの中間部分について)、参照バリアントリストに対する対応する参照配列リードのアライメントに基づいて、対応する参照配列リードを用いて中間部分が検出可能であるか否か、を判定する段階も含む。
【0013】
さらに、該方法は、ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアント断片のそれぞれに対して1回または複数回のサンプル配列読取りを実施することにより、配列リードデータのサンプルセットを作成する段階であって、各サンプル配列リードが、参照配列リードに対応し、かつ対応するRSSを有する、前記段階も含む。
【0014】
該方法はまた、(各RSSについて、かつ各配列参照バリアントの中間部分について)、参照バリアントリストに対する対応するサンプル配列リードのアライメントに基づいて、配列リードデータのサンプルセットにおける総出現数を測定する段階も含む。
【0015】
該方法は、各RSSについての総出現数および中間部分が検出可能か否かの判定に基づいて、複数のヌクレオチド配列バリアントの頻度分布を測定する段階もさらに含む。
【0016】
本明細書において言及されるヌクレオチド配列バリアントは、ヌクレオチド参照配列における関心対象の1つの特定部位の周辺のヌクレオチド配列バリアントであることに留意すべきである。様々な態様において、本明細書のアプローチを一般化して、関心対象の複数の特定部位に関して頻度分布を測定することができる。
【0017】
典型的には、RSSは、関心対象の特定部位との関係によって決まる。
【0018】
いくつかの態様において、該方法は、(ヌクレオチド参照配列を含まない、配列参照バリアントの各ペアについて)、1つのRSSについて測定した該ペアの各配列参照バリアントの出現数に基づいて、該ペアの配列参照バリアント間の相対的出現比率を測定する段階であって、該ペアの配列参照バリアントのそれぞれについて、中間部分が検出可能である、前記段階、および該相対的出現比率に基づいて複数のヌクレオチド配列バリアントの頻度分布を測定する段階、を含んでよい。
【0019】
いくつかの態様において、該方法は、ヌクレオチド参照配列を定める段階をさらに含む。
【0020】
いくつかの態様において、中間部分は、挿入、欠失、改変、および転座のうちの1つまたは複数である。
【0021】
いくつかの態様において、(RSSについて、かつ配列参照バリアントの中間部分について)、対応する参照配列リードを用いて中間部分が検出可能であるか否かを判定する段階は、アライメントにより、RSSについての、該対応する参照配列リードと配列参照バリアントとの検出相関値を求めること;該検出相関値が検出閾値を上回る場合、該対応する参照配列リードを用いてRSSにおいて中間部分が検出可能であると判定すること;および該検出相関値が検出閾値を上回らない場合、該対応する参照配列リードを用いてRSSにおいて中間部分が検出可能ではないと判定すること、を含む。
【0022】
いくつかの態様において、(RSSについて、かつ配列参照バリアントの中間部分について)、サンプルセットにおける総出現数を測定する段階は、アライメントにより、RSSについての、対応するサンプル配列リードと配列参照バリアントとのサンプル相関値を求めること;該サンプル相関値が出現数閾値を上回る場合、出現数を数えること;および該サンプル相関値が出現数閾値を上回らない場合、出現数を数えないこと、を含む。
【0023】
いくつかの態様において、該方法は、複数のヌクレオチド配列バリアントおよびヌクレオチド参照配列のうちの1つまたは複数を示す入力信号を受信する段階をさらに含む。
【0024】
いくつかの態様において、該方法は、頻度分布を示す報告信号をユーザーインターフェースに転送する段階をさらに含む。
【0025】
第2の局面は、非一時的コンピューター可読媒体を含み、そこに、プログラム命令を含むコンピュータープログラムを有する、コンピュータープログラム製品である。コンピュータープログラムは、データ処理ユニットに搭載可能であり、かつ該データ処理ユニットによって該コンピュータープログラムが実行された場合に、第1の局面に記載の方法の実行をもたらすように構成されている。
【0026】
第3の局面は、ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアントの頻度分布を測定するための装置であり、ここで、複数のヌクレオチド配列バリアントは、ヌクレオチド参照配列を含み、かつ(該ヌクレオチド参照配列と同一ではない)各ヌクレオチド配列バリアントは、該ヌクレオチド参照配列と、少なくとも1つの中間部分に関して異なり、かつ、該ヌクレオチド参照配列と、該ヌクレオチド参照配列の少なくとも2つの部分に関して一致している。
【0027】
該装置は、複数のヌクレオチド配列バリアントのうちの独特なヌクレオチド配列バリアントを含む、配列参照バリアントの参照バリアントリストの作成、および参照バリアントリストの各配列参照バリアントに対して複数回の参照配列読取りを実施することによる、配列リードデータの参照セットの作成であって、各参照配列リードが読取り開始部位(RSS)を有する、前記作成、をもたらすように構成されている制御回路を含む。
【0028】
該制御回路はまた、(各RSSについて、かつ各配列参照バリアントの中間部分について)、参照バリアントリストに対する対応する参照配列リードのアライメントに基づいて、対応する参照配列リードを用いて中間部分が検出可能であるか否か、の判定をもたらすようにも構成されている。
【0029】
さらに、該制御回路は、ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアント断片のそれぞれに対して1回または複数回のサンプル配列読取りを実施することによる、配列リードデータのサンプルセットの作成であって、各サンプル配列リードが、参照配列リードに対応し、かつ対応するRSSを有する、前記作成、をもたらすようにも構成されている。
【0030】
該制御回路はまた、(各RSSについて、かつ各配列参照バリアントの中間部分について)、参照バリアントリストに対する対応するサンプル配列リードのアライメントに基づく、配列リードデータのサンプルセットにおける総出現数の測定をもたらすようにも構成されている。
【0031】
さらに、該制御回路は、各RSSについての総出現数および中間部分が検出可能か否かの判定に基づく、複数のヌクレオチド配列バリアントの頻度分布の測定をもたらすようにも構成されている。
【0032】
いくつかの態様において、該制御回路は、(ヌクレオチド参照配列を含まない、配列参照バリアントの各ペアについて)、1つのRSSについて測定した該ペアの各配列参照バリアントの出現数に基づく、該ペアの配列参照バリアント間の相対的出現比率の測定であって、該ペアの配列参照バリアントのそれぞれについて、中間部分が検出可能である、前記測定、および該相対的出現比率に基づく複数のヌクレオチド配列バリアントの頻度分布の測定、をもたらすように構成されていてよい。
【0033】
第4の局面は、第3の局面の装置を含むサーバーノードである。
【0034】
いくつかの態様において、上記の局面のいずれかは、他の局面のいずれかについて上記に説明した様々な特徴のうちのいずれかと同一である特徴または対応する特徴をさらに有してよい。
【0035】
いくつかの態様の利点は、頻度分布の精度が高められることである。これは、バリアントの中間部分の相対的出現数が、該中間部分が検出可能である読取り開始部位との関係のみから測定されるためである。
【0036】
いくつかの態様の他のいくつかの利点には、以下のうちの1つまたは複数が含まれる:
- はるかに大きなバリアントの定量が可能であること(典型的には、±300塩基対(bp)の挿入および/または欠失;これに対して、先行技術のアプローチが適用される場合は±50塩基対(bp)である)、
- 片側のみ一致している配列、例えば転座を有するバリアントの定量が可能であること、
- (計算はすべて、分散推定値と共に報告され得るため)結果として生じるバリアント頻度分布の統計学的品質評価を実現することができ、その結果、(報告される測定値に対するユーザーの信頼性を高める)再現性の指標が与えられること、ならびに
- 断片化の偏り(およびその修正)の記述が可能であること。
【図面の簡単な説明】
【0037】
さらに別の目的、特徴、および利点は、態様についての以下の詳細な説明および添付図面の参照により、明らかになるであろう。これらの図面は必ずしも一定の縮尺ではなく、その代わりに例示的な態様を説明することに重点を置いている。
図1】いくつかの態様による例示的な方法の段階を説明するフローチャートである。
図2】いくつかの態様による例示的な装置を説明する模式的ブロック図である。
図3】いくつかの態様による例示的なコンピューター可読媒体を説明する概略図である。
図4】いくつかの態様による例示的な方法の段階を説明するフローチャートである。
図5】いくつかの態様による工程の例示的な部分を説明する概略図である。
図6】いくつかの態様による工程の例示的な部分を説明する概略図である。
【発明を実施するための形態】
【0038】
詳細な説明
既に前述したように、用語「含む(comprises)/含むこと(comprising)」は、本明細書において使用される場合、記載される特徴、整数、段階、または構成要素の存在を明記するために使用されるが、1つまたは複数の他の特徴、整数、段階、構成要素、またはそれらの群の存在も追加も除外しないことが強調されるべきである。本明細書において使用される場合、単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、文脈において特に指示がない限り、複数形も同様に含むものとする。
【0039】
本開示の態様を、添付図面を参照して、より十分に下記に説明し例示する。しかし、本明細書において開示する解決法は、多くの異なる形態で実現することができ、本明細書において説明する態様に限定されると解釈されるべきではない。
【0040】
下記に、ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアントの頻度分布を測定する態様を説明する。
【0041】
これらの複数のヌクレオチド配列バリアントは、ヌクレオチド参照配列を含む。ヌクレオチド参照配列は、予め定められ、頻度分布測定工程への入力データとして受信されてよい。あるいは、ヌクレオチド参照配列は、頻度分布測定工程の最初の段階として測定/特定されてもよい。例えば、遺伝子編集において、元のヌクレオチド配列をヌクレオチド参照配列として使用してもよく、または改変したヌクレオチド配列をヌクレオチド参照配列として使用してもよい。
【0042】
複数のヌクレオチド配列バリアントは、ヌクレオチド参照配列以外の他のヌクレオチド配列バリアントをさらに含む。他のヌクレオチド配列バリアントは、ヌクレオチド参照配列と同一であるか、またはヌクレオチド参照配列とは異なる。
【0043】
ヌクレオチド参照配列と同一ではない各ヌクレオチド配列バリアントは、該ヌクレオチド参照配列と、少なくとも1つの中間部分に関して異なり、かつ、該ヌクレオチド参照配列と、該ヌクレオチド参照配列の少なくとも2つの部分に関して一致している。各中間部分は、例えば、挿入、欠失、または改変であってよい。中間部分の別の例は、転座である。後者は、例えば、ヌクレオチド参照配列が全ゲノムであり、かつ2本の染色体がそれぞれ切断され、誤って交差して再結合した場合に起こり得る。
【0044】
図1は、ヌクレオチド配列サンプル101の複数のヌクレオチド配列バリアントの頻度分布を測定するための、いくつかの態様による例示的な方法100を示す。いくつかの態様において、該方法は、複数のヌクレオチド配列バリアントおよび/またはヌクレオチド参照配列を示す入力信号を受信することによって開始される。
【0045】
配列参照バリアントの参照バリアントリストが、段階110で作成される。参照バリアントリストは、複数のヌクレオチド配列バリアントのうちの独特なヌクレオチド配列バリアントを含む(例えば、それらからなる)。例えば、参照バリアントリストは、複数のヌクレオチド配列バリアントのうちの独特なヌクレオチド配列バリアントのすべて、またはその部分集合からなってよい。したがって、該複数のヌクレオチド配列バリアントのなかに2つまたはそれより多い同一のヌクレオチド配列バリアントが存在する場合、それらのうちの1つだけが参照バリアントリストに入れられるのが通常である。
【0046】
参照バリアントリストは、任意の適切なアプローチを用いて作成してよい。例えば、参照バリアントリストは、NGSリードデータを得るための次世代シーケンシング(NGS)、およびすべての中間部分を同定するための、ヌクレオチド参照配列に対するNGSリードデータのデノボアライメント、それに続く、参照バリアントリストを提供するためのクリーンアップ工程を実施することにより、ヌクレオチド配列サンプル101から作成することができる。
【0047】
段階120において、参照バリアントリストの各配列参照バリアントに対して複数回の参照配列読取りを実施することによって、配列リードデータの参照セットが作成される。各参照配列リードは、配列参照バリアント中のどこで読取りが開始するかを示す読取り開始部位(RSS)を有する。読取り開始部位は、例えば、配列参照バリアントの中間部分の位置との関係で定まり得る。あるいは、読取り開始部位は、配列参照バリアントの別の位置(例えば、開始または終了)との関係で定まり得る。
【0048】
典型的な態様において、各参照配列リードはまた、1つの長さおよび/または1つの方向を有する。この長さによって、例えば、1つのリード中で処理され得るヌクレオチド配列単位(例えば塩基対)の数、または1つのリード中のヌクレオチド参照配列に一致するヌクレオチド配列単位(例えば塩基対)の数が定まり得る。長さは、典型的にはすべての参照配列リードにおいて等しいものである得るが、それは必ずしも必要ではない。方向は、順方向および逆方向のうちの1つであってよい。
【0049】
典型的な例において、段階120は、参照バリアントリストの各配列参照バリアントに対して、該配列参照バリアントの存在し得る各RSSに対する1回の順方向参照配列読取りおよび該配列参照バリアントの存在し得る各RSSに対する1回の逆方向配列読取りを実施する段階を含む。
【0050】
段階130において、(各RSSについて、かつ各配列参照バリアントの中間部分について)、対応する参照配列リード(すなわち、そのRSSから始まる、配列参照バリアントの参照配列リード)を用いて中間部分が検出可能であるか否かが判定される。
【0051】
典型的には、中間部分全体に及ぶ参照配列リードは数個だけである(または、1つもない)。しかし、中間部分の開始点または終点(バリアントの一致部分とバリアントの中間部分との間をつなぐ箇所)を超えて範囲が及ぶ参照配列リードの場合は中間部分が検出可能であり得、その結果、中間部分を一意的に認識することができる。
【0052】
この判定は、参照バリアントリストに対する対応する参照配列リードのアライメントに基づいている。アライメントは、任意の適切なアライメントツールを用いて実現してよい。典型的には、アライメントは、各参照配列リードに対する検出測定値(例えば、検出相関または検出品質スコア)を与えることができ、その際、検出測定値は、その参照配列リードが参照バリアントリストの特定の部分(バリアントおよびRSS)にどれくらいよく一致するかを示す。
【0053】
さらに、検出閾値が定められてもよく、これは、不変であってもよく、または動的に変化してもよい。
【0054】
典型的には、検出測定値が大きいことは、良好に一致していることを示す。その場合、段階130は、検出測定値が検出閾値を上回る場合、対応する参照配列リードを用いてRSSにおいて中間部分を検出することができると判定すること;およびそうでない場合は、対応する参照配列リードを用いてRSSにおいて中間部分を検出することはできないと判定すること、を含み得る。
【0055】
他の態様においては、検出測定値が小さいことが、良好に一致していることを示し、その場合、段階130は、検出測定値が検出閾値を下回る場合、対応する参照配列リードを用いてRSSにおいて中間部分を検出することができると判定すること;およびそうでない場合は、対応する参照配列リードを用いてRSSにおいて中間部分を検出することはできないと判定すること、を含み得る。
【0056】
アライメントに基づいて検出可能性を判定することは、マッピングと呼んでよい。
【0057】
段階140において、ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアント断片のそれぞれに対して1回または複数回のサンプル配列読取りを実施することにより、配列リードデータのサンプルセットが作成される。
【0058】
これらのヌクレオチド配列サンプルの複数のヌクレオチド配列バリアント断片は、任意の適切な方法で作製され得る。例えば、ヌクレオチド配列サンプルを、サンプル調製工程における増幅とそれに続くNGSライブラリー断片化および標識に供してよい。
【0059】
各サンプル配列リードは、参照配列リードに対応し、かつ断片中のどこで読取りが開始するかを示す対応するRSSを有する。前述したのと同じく、各サンプル配列リードもまた、1つの長さおよび/または1つの方向を有してよい。
【0060】
典型的には、各ヌクレオチド配列バリアント断片に対する1つまたは複数のサンプル配列リードは、該断片の開始点からの順方向リードおよび/または該断片の終点からの逆方向リードを含んでよい。
【0061】
段階150において、各RSSについて、かつ各配列参照バリアントの中間部分について、サンプルセットにおける総出現数、すなわち、各RSSについてサンプルセット中に各配列参照バリアントが何回出現するか、が測定される。
【0062】
この測定は、参照バリアントリストに対する対応するサンプル配列リードのアライメントに基づいている。アライメントは、任意の適切なアライメントツールを用いて実現され得る。典型的には、アライメントは、各サンプル配列リードに対するサンプル測定値(例えば、サンプル相関またはサンプル品質スコア)を与えることができ、その際、サンプル測定値は、そのサンプル配列リードが参照バリアントリストの特定の部分(バリアントおよびRSS)にどれくらいよく一致するかを示す。
【0063】
さらに、出現数閾値が定められてもよく、これは、不変であってもよく、または動的に変化してもよい。
【0064】
典型的には、サンプル測定値が大きいことは、良好に一致していることを示す。その場合、段階150は、サンプル測定値が出現数閾値を上回る場合、出現数を数えること;およびそうでない場合は、出現数を数えないこと、を含み得る。
【0065】
他の態様においては、サンプル測定値が小さいことが、良好に一致していることを示し、その場合、段階150は、サンプル測定値が出現数閾値を下回る場合、出現数を数えること;およびそうでない場合は、出現数を数えないこと、を含み得る。
【0066】
アライメントに基づいて総出現数を測定することもまた、マッピングと呼んでよい。
【0067】
図1に示すように、段階120および段階130は、段階140および段階150と並行して実施され得る。しかし、これは限定することを意図しておらず、他の態様においては、段階140および段階150のうちの1つまたは複数を、段階120および段階130のうちの1つまたは複数と順番に実施してもよい。例えば、いくつかの態様によれば、段階120、段階130、段階140、および段階150のすべてを順番に実施してよい。
【0068】
段階180において、各RSSについての総出現数および中間部分が検出可能か否かの判定に基づいて、複数のヌクレオチド配列バリアントの頻度分布が測定される。例えば、この測定は、下記に例示する任意の段階170および175によって実施され得る。
【0069】
段階170において、ヌクレオチド参照配列を含まない、配列参照バリアントの各ペアについて、相対的出現比率が求められる。この比率は、1つのRSSについて測定された該ペアの各配列参照バリアントの出現数に基づいて求められ、ここで、該ペアの配列参照バリアントのそれぞれについて、中間部分は検出可能である。
【0070】
例えば、第1の配列参照バリアントおよび第2の配列参照バリアントからなるペアの場合、以下の工程を段階170において実施してよい:
- 各RSSについて、第1の配列参照バリアントおよび第2の配列参照バリアントの中間部分が該RSSにおいて検出可能であるか調べる。
- 一方または両方が該RSSにおいて検出不可能である場合、該RSSにおける中間部分の相対的出現比率は決定されない。
- 両方が検出可能である場合、該RSSについての中間部分の相対的出現比率を、第1の配列参照バリアントの総出現数と第2の配列参照バリアントの総出現数との比率として計算する。
- 該ペアの相対的出現比率は、両方が検出可能であるRSSについての中間部分の相対的出現比率の(おそらくは重み付きの)平均と定義されるものとする。
【0071】
段階175において、複数のヌクレオチド配列バリアントの頻度分布が、相対的出現比率に基づいて測定される。
【0072】
いくつかの態様において、方法はまた、頻度分布を示す報告信号をユーザーインターフェースに転送する段階も含んでよい。
【0073】
図2は、いくつかの態様による例示的な装置210を模式的に示す。装置210は、例えば、サーバーノード中に含まれてよい。さらに、装置210は、図1に関連して説明したような、方法の1つまたは複数の段階の実行をもたらすように改造されてもよい。例えば、装置210は、図1に関連して説明したような、方法の1つまたは複数の段階を実行するように改造されてもよい。
【0074】
この装置は、ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアントの頻度分布を測定するためのものであり、ここで、複数のヌクレオチド配列バリアントは、ヌクレオチド参照配列を含み、かつ(該ヌクレオチド参照配列と同一ではない)各ヌクレオチド配列バリアントは、該ヌクレオチド参照配列と、少なくとも1つの中間部分に関して異なり、かつ、該ヌクレオチド参照配列と、該ヌクレオチド参照配列の少なくとも2つの部分に関して一致している。
【0075】
装置210は、制御回路(CNTR;例えば、1つまたは複数のプロセッサー)200を含む。装置210はまた、メモリ回路(MEM)220も含んでよく、このメモリ回路(MEM)220は、制御回路200に接続されていてもよく、または別の方法で結合していてよい。さらに、装置210は、ユーザーインターフェース回路および/またはユーザーインターフェース装置(UI)230を含んでもよく、またはそれに結合(例えば接続)されていてもよい。
【0076】
制御回路200は、複数のヌクレオチド配列バリアントのうちの独特なヌクレオチド配列バリアントを含む、配列参照バリアントの参照バリアントリストの作成(図1の段階110と比較されたい)、および参照バリアントリストの各配列参照バリアントに対して複数回の参照配列読取りを実施することによる、配列リードデータの参照セットの作成であって、各参照配列リードが読取り開始部位を有する、前記作成(図1の段階120と比較されたい)、をもたらすように構成されている。制御回路200はまた、ヌクレオチド配列サンプルの複数のヌクレオチド配列バリアント断片のそれぞれに対して1回または複数回のサンプル配列読取りを実施することによる、配列リードデータのサンプルセットの作成であって、各サンプル配列リードが、参照配列リードに対応し、かつ対応する読取り開始部位を有する、前記作成、をもたらすようにも構成されている(図1の段階140と比較されたい)。
【0077】
このために、制御回路200は、参照バリアントリスト、参照セット、およびサンプルセットのうちの1つまたは複数を作成するように構成されている作成回路(GEN;例えば作成器)201を含んでもよく、またはさもなければそれと連携していてもよい。
【0078】
制御回路200はさらに、(各RSSについて、かつ各配列参照バリアントの中間部分について)、参照バリアントリストに対する対応する参照配列リードのアライメントに基づいて、対応する参照配列リードを用いて中間部分が検出可能であるか否か、の判定(図1の段階130と比較されたい)、および参照バリアントリストに対する対応するサンプル配列リードのアライメントに基づく、配列リードデータのサンプルセットにおける総出現数の測定(図1の段階150と比較されたい)をもたらすようにも構成されている。
【0079】
このために、制御回路200は、中間部分の検出可能性および総出現数のうちの1つまたは複数を測定するように構成されている測定回路(DET;例えば測定器)202を含んでもよく、またはさもなければそれと連携していてもよい。
【0080】
制御回路200はまた、各RSSについての総出現数および中間部分が検出可能か否かの判定に基づく、複数のヌクレオチド配列バリアントの頻度分布の測定をもたらすようにも構成されている(図1の段階180と比較されたい)。
【0081】
このために、制御回路200は、相対的出現比率および頻度分布のうちの1つまたは複数を測定するように構成されている頻度測定回路(FD;例えば測定器)203を含んでもよく、またはさもなければそれと連携していてもよい。
【0082】
メモリ回路220は、複数のヌクレオチド配列バリアント、ヌクレオチド参照配列、頻度分布、および本明細書において説明される任意の中間情報または結果のうちの1つまたは複数を記憶するように構成されていてよい。
【0083】
ユーザーインターフェース回路/装置230は、複数のヌクレオチド配列バリアントおよび/またはヌクレオチド参照配列を含む情報をユーザーから取得し、該情報を示す入力信号を介して、受信した情報を装置210に転送するように構成されていてよい。
【0084】
様々な態様において、ユーザーインターフェース回路/装置230はまた、解析が実施される対象の標的位置(標的部位、関心対象の部位)をユーザーから取得するように構成されていてもよい。
【0085】
いくつかの態様において、ユーザーインターフェース回路/装置230はまた、他の様々な解析選択パラメーターをユーザーから取得するように構成されていてもよい。このようなパラメーターの例には、以下が含まれる:
- 1つまたは複数の閾値(例えば、アライメントの質についての閾値の値)、
- 検出可能領域の端から端までに及ぶ安全境界の長さ、
- 正規化のタイプおよび正規化段階の数、ならびに
- 他の頑健性パラメーター。
【0086】
あるいはまたはさらに、ユーザーインターフェース回路/装置230は、頻度分布を示す報告信号を装置210から受信し、ユーザーによるアクセス向けに頻度分布を表示するために該報告信号を処理するように構成されていてもよい。
【0087】
通常、ユーザーインターフェース回路/装置230は、他の適切なインターフェース回路/装置に置き換えてもよく、該回路/装置によって補完してもよく、または一般化して該回路/装置にしてもよい。例えば、頻度分布は、ユーザーインターフェース回路230を介してユーザーに直接的に提供されない可能性があるが、代わりに、頻度分布を使用するための他の回路に提供されてよい。あるいはまたはさらに、頻度分布は、ユーザーインターフェース回路230を介してユーザーに直接的に提供されてよく、かつ該ユーザーによって他の回路に提供されてもよい。
【0088】
いくつかの典型的な例において、他の回路は、頻度分布をパラメーターとして使用する計算/処理回路、頻度分布に基づいて選択するように構成されている選択回路、および頻度分布に基づいて工程を適応させるように構成されている適応回路のうちの1つまたは複数であってよい。
【0089】
通常、頻度分布は、様々な生物学的用途に関係する処理/選択/適応のために使用され得る。このような用途のいくつかの例示的な例を下記に示す。
【0090】
第1の例では、適用分野としての遺伝子編集研究の範囲で、所与のサンプルの配列多様性の関係を階層化することが目標である。この例では、入力は、サンプルの総バリアント分布であってよく、手順は、下記の指標を用いて、元の(第1の)参照配列頻度と比べて、元とは異なる参照配列バリアントの頻度を測定する段階を含んでよい:
1 関心対象の位置における、合計の配列多様性の程度(20%またはユーザーが定めた他のパラメータである、低い、中ぐらい、および高い区間で、変化率(%)が、閾値10%を上回るかどうか)。
2 該位置における配列不可欠性の程度(10%またはユーザーが定めた他のパラメータである、低い、中ぐらい、および高い程度で、オープンリーディングフレーム(ORF)切断率(%)が70%を上回る場合、不可欠性はなく、またはORF切断率(%)が70%を下回る場合、不可欠性がある)。
3 参照配列バリアントの多様性の程度(バリアントの数が、[それぞれ、5種類未満、5〜15種類、15種類超]またはユーザーが定めた他のパラメータである区画で、少ないか、中くらいか、もしくは多いか)。
4 好ましい参照配列バリアントが存在するかどうか(参照バリアントの相対的頻度が、参照バリアントの合計頻度の10%またはユーザーが定めた別のパラメータを上回るかどうか)。
5 1つの好ましい参照配列バリアントが存在する場合、(a)ユーザーに対する中間部分改変配列をユーザーのために印刷する、(b)それはバリアント参照配列全体の印刷物を伴う。ユーザーが、タンパク質コード配列と元の参照配列との相関を提供していた場合―(c)中間部分バリアントコード配列に由来する新しい改変タンパク質コード配列の印刷物を提供する。
【0091】
第2の例では、適用分野としての遺伝子編集研究の範囲で、所与のサンプルについての好ましい参照配列バリアントを階層化することが目標である。例えば、
1 実験計画に応答する、解析した参照配列における不可欠なタンパク質コード領域の同定
2 実験計画に応答する、解析した参照配列における不可欠な調節領域の同定
である。
【0092】
この例では、入力データは、サンプルまたはサンプルセットの総バリアント分布であってよく、手順は、下記の指標を用いて、元の(第1の)参照配列頻度と比べて、元とは異なる参照配列バリアントの頻度を測定する段階を含んでよい:
1 1つまたは複数の好ましい参照配列バリアント(その参照バリアントの相対的頻度が、参照バリアントの合計頻度の10%またはユーザーが定めた別のパラメータを上回る)が存在する場合、該好ましい参照配列バリアントを必ず分離しかつユーザーに対して印刷して、好ましい各参照配列バリアントについて以下を示す:
a 好ましい参照配列バリアントの中間部分配列、および完全長参照配列バリアント。
b 現在の、相対的参照配列バリアント頻度および絶対的参照配列バリアント頻度。
c ユーザーが参照配列タンパク質コード配列を提供していた場合は、予測される、参照配列バリアントをコードするタンパク質コード配列の印刷物。
d ユーザーが、調節認識部位をアノテートした元の参照配列を提供していた場合は、好ましい参照配列バリアントの中間部分配列に独特であり、好ましくない参照配列バリアントの中間部分配列の一覧には現れない、影響を受けると予測される調節部位の印刷物。
2 より多くのサンプルのうちの1つが、好ましい参照配列バリアント(その参照バリアントの相対的頻度が、参照バリアントの合計頻度の10%またはユーザーが定めた別のパラメータを上回る)を含む、複数のサンプルのセットが存在し、その際に1つまたは複数のサンプルが異なる実験計画に供されている場合、各サンプルについて、該好ましい参照配列バリアントを必ず分離しかつユーザーに対して印刷して、好ましい各参照配列バリアントについて、以下を示す:
a 好ましい参照配列バリアントの中間部分配列、および完全長参照配列バリアント。
b 現在の、相対的参照配列バリアント頻度および絶対的参照配列バリアント頻度。
c ユーザーが、参照配列タンパク質コード配列を提供していた場合は、予測される、参照配列バリアントをコードするタンパク質コード配列の印刷物。
d ユーザーが、調節認識部位をアノテートした元の参照配列を提供していた場合は、好ましい参照配列バリアントの中間部分配列に独特であり、好ましくない参照配列バリアントの中間部分配列の一覧には現れない、影響を受けると予測される調節部位の印刷物。
e ユーザーが、いくつかのサンプルが2つまたはそれより多いグループを構成するようにサンプルの比較グループを提供していた場合、ユーザーは、異なるグループ中に存在する好ましい参照配列バリアントタイプの印刷物を、以下の存在し得る下位区分と共に、受け取ることができる:
i 各グループに特有の参照配列バリアントならびにそれらの相対的頻度および絶対的頻度。
ii 全グループに共通の参照配列バリアント、ならびにグループごとのそれらの相対的頻度および絶対的頻度。
iii グループの特定の2つ1組の組合せにおいて共有されている参照配列バリアント、ならびにグループごとのそれらの相対的頻度および絶対的頻度。
【0093】
第3の例では、適用分野としての遺伝子編集研究の範囲で、サンプルのセットの場合の実験計画を階層化することが目標である。例えば、以下である:
1 CRISPR編集実験のために最も適切なsgRNA(例えば、sgRNA1、sgRNA2、またはsgRNA3)の選択。
2 遺伝子編集実験における最良の編集時間の選択(例えば、細胞解凍直後、細胞解凍後24時間目、または細胞解凍後48時間目)。
3 最良の編集様式の選択(例えば、Cas9タンパク質をsgRNAと共に使用、またはCas9 mRNAをsgRNAと共に使用)。
【0094】
この例では、入力データは、逐次的に(または複数のコンピューター計算ノード/機械において並行して)解析できる、ユーザーによって提示されたいくつかのサンプルの総バリアント分布であってよく、手順は、下記の指標を用いて、参照配列バリアントの総分布頻度をサンプル間で比較することを含んでよい:
1 サンプルが、異なる実験条件を比較するものである場合、それらのサンプルが成功裡に変化したか(変化率(%)が閾値10%またはユーザーが定めた別のパラメータを上回っているかどうか)をユーザーに示す。
2 実験計画の順位付け(例えば、サンプルのうちの1つまたは複数が成功裡に変化した場合、成功サンプルと不成功サンプルとを分け、全変化に対する割合(%)によって成功サンプルを順位付けおよび印刷し、次いで、最も優れた実験計画をユーザーに示す)。成功を導く実験計画の順位付けは、ユーザーが定めたパラメータ、例えば、配列多様性の合計、配列不可欠性の程度、バリアント多様性の程度、好ましいバリアントの数、または好ましいバリアントの独自性に基づいて実施することができる。
【0095】
第4の例では、適用分野としての遺伝子サンプルの臨床的解析の範囲内で、サンプルの多様性の程度を階層化することが目標である。例えば、以下である:
1 治療結果の試験または検証のための、個々の参照バリアント頻度の低下についての評価。
2 任意の参照配列バリアントの頻度の増加をモニターするための、治療の追跡調査。
【0096】
この例では、入力データは、サンプルの総バリアント分布であってよく、手順は、下記の指標を用いて、元の(第1の)参照配列頻度と比べて、元とは異なる参照配列バリアントの頻度を評価することを含んでよい:
1 ユーザーが、サンプルバリアントの以前のセットも予測されるセットも入力しなかった場合、かつサンプル配列多様性を合計した程度が、ユーザーが定めた閾値(例えば、0.1%またはユーザーが定めた別のパラメータ)を上回る場合、発見された任意のバリアントがサンプル中に存在する程度(例えば、1%を下回れば低度、1%〜5%であれば中程度、および5%を上回れば高度、またはユーザーが定めた他のパラメータ)が、ユーザーに知らされる。
2 ユーザーが、サンプルバリアントの以前のセットまたは予測されるセットを入力し、かつ比較において、この入力セットと比べて、解析の終了時に、任意の前もって同定されたバリアントの相対的バリアント頻度が変化していた(ユーザーが定めた閾値レベル、例えば2%を上回るか、または下回る)場合、改変された参照配列バリアントを必ずユーザーに対して別々に印刷して、改変された各参照配列バリアントについて、以下を示す:
a 参照配列バリアントの中間部分配列、およびユーザーが参照タンパク質コード配列を提供していた場合には、バリアントをコードする予測されるタンパク質コード配列。
b 以前の、相対的参照配列バリアント頻度および絶対的参照配列バリアント頻度。
c 現在の、相対的参照配列バリアント頻度および絶対的参照配列バリアント頻度。
3 ユーザーが、サンプルバリアントの以前のセットまたは予測されるセットを入力し、かつ比較して、この入力セットに、解析の終了時に、(ユーザーが定めた閾値レベル、例えば0.1%を上回って)配列バリアントが増加または減少している場合、無くなった参照配列バリアントおよび新しく発見された参照配列バリアントを必ずユーザーに対して別々に印刷して、各参照配列バリアントについて、以下を示す:
a 参照配列バリアントの中間部分配列、およびユーザーが参照タンパク質コード配列を提供していた場合には、バリアントをコードする予測されるタンパク質コード配列。
b 以前の、相対的参照配列バリアント頻度および絶対的参照配列バリアント頻度。
c 現在の、相対的参照配列バリアント頻度および絶対的参照配列バリアント頻度。
【0097】
解析時に実行してよい、その他のデータ階層化ポイント:
1 アライメント後、かつマッピングの条件として、以下についてリードを個別に試験する:
a ユーザーが指定した長さ(例えば151塩基)を上回るリード長。長さが同一であるリードのみが、さらに処理される。
b ユーザーが指定したスコア(例えば、10またはユーザーが定めた別のパラメータ)を上回るリードアライメント品質。適切な品質スコアを有するリードのみが、さらに処理される。
c リードアライメントマッチングが、ユーザーに指定される(例えば、「151M」またはユーザーが定めた別のパラメータ)。適切なアライメントを有するリードのみが、さらに処理される。
2 解析後、参照配列バリアントのサンプルにおける絶対頻度を、ユーザーが定めた閾値パラメータと比較して評価する。このユーザーが定めた閾値パラメータを下回る場合、その参照配列バリアントは混入物とみなされ、最終的な品質解析に合格せず、ユーザーによって報告されるバリアントの最終セットから除かれる。
【0098】
いくつかの態様によれば、コンピュータープログラム製品は、コンピューター可読媒体、例えば、ユニバーサルシリアルバス(USB)メモリ、プラグインカード、埋め込み型ドライブ、または読み出し専用メモリ(ROM)を含む。図3は、コンパクトディスク(CD)ROM300の形態の、例示的なコンピューター可読媒体を示す。コンピューター可読媒体は、プログラム命令を含むコンピュータープログラムをそこに記憶している。コンピュータープログラムは、データ処理装置(PROC)320に搭載可能であり、この装置は、例えば、サーバーノード310に含まれてもよく、またはクラウドベースの実装においていくつかのサーバーノードにわたって配置されてもよい。データ処理ユニットに搭載される場合、コンピュータープログラムは、該データ処理ユニットと連結しているか、またはそれに含まれるメモリ(MEM)330に記憶されてよい。いくつかの態様によれば、コンピュータープログラムは、データ処理ユニットに搭載され実行されると、例えば図1に示すか、または本明細書において別の様式で説明をした方法の段階のうちの1つまたは複数に従って、方法の段階を実行させることができる。
【0099】
図4は、いくつかの態様による例示的な方法400を例示し、図5および図6の模式的図解と合わせて、説明される。図4〜6は、図1の方法を実行するための例示的な方法とみなしてよい。下記において、ヌクレオチド配列の例としてDNAを使用する。
【0100】
方法400は、DNAサンプルの複数のDNAバリアントの頻度分布を測定するために、DNAサンプル410、500に対して実行される。簡潔にするために、3種のDNAバリアント(A、B、C)501、502、503のみをそれぞれ示している。DNAサンプル中には、DNAバリアントのそれぞれについて1つまたは複数の例が存在し得る。
【0101】
DNAバリアント(A、B、C)501、502、503は、参照配列の標的位置「0」に関連している。標的位置は、その周辺で解析が実施される位置であり、これは、参照配列の定義の一部である。配列リードデータのサンプルセットは、任意の適切な工程に従って作成する(図1の段階140と比較されたい)。例えば、サンプル調製414(ポリメラーゼ連鎖反応(PCR)を含む可能性が高い)によって、増幅された標的領域を提供することができ、NGSライブラリー断片化によって、NGS断片ライブラリー460を提供することができ、このNGS断片ライブラリー460は、ライブラリー標識後、NGSライブラリー(複数のヌクレオチド配列バリアント断片)と呼ばれる。NGSライブラリーの順方向読取りおよび逆方向読取り(サンプル配列読取り)を含む、次世代シーケンシング(NGS)464によって、サンプルセットの例としてのNGSリードデータ470、630を提供することができる。
【0102】
これらの複数のDNAバリアントは、参照DNA(すなわち、ヌクレオチド参照配列)として使用されるDNAバリアント(A)420、501を含む。ヌクレオチド参照配列はまた、第1の参照ヌクレオチド配列または第1の参照配列とも呼ばれる。前述したように、第1の参照ヌクレオチド配列は、(例えばユーザーによって)予め定められてもよく、または任意の段階412によって示されるように方法400の一環として定められてもよい。
【0103】
参照DNAと同一ではない各DNAバリアント(すなわち、B、502、およびC、503)は、参照DNAと、少なくとも1つの中間部分504、505に関して異なり、かつ、参照DNAと、参照DNAの少なくとも2つの部分506に関して一致している。前述したように、中間部分は、例えば、挿入欠失、挿入、欠失、改変、または転座であってよい。簡潔にするために、この例において、中間部分は欠失として示す。方法は、サンプルのすべての中間部分を、または定められた一部の中間部分のみを研究する段階を含んでよい。どの中間部分を含めるかは、(例えばユーザーによって)予め定められてもよく、または任意の段階422によって示されるように方法400の一環として定められてもよい。
【0104】
どの中間部分を含めるかが決定されると、配列参照バリアントの参照バリアントリスト430、510が作成される(図1の段階110と比較されたい)。典型的には、参照バリアントリストは、複数のDNAバリアント501、502、503の独特なDNAバリアント511、512、513;例えば、すべての独特なDNAバリアント、または(例えば段階422で)定められた中間部分に対応する独特なDNAバリアント(のうちの1つの、およびただ1つの例)を含む。参照バリアントリスト430は、例えば、段階475によって示されるNGSリードデータに基づくデノボのアセンブリ/アライメント(クリーンアップを含む)によって作成してよい。
【0105】
配列リードデータの参照セット(参照バリアントリードデータセット)440、520は、段階432において示されるように参照バリアントリストの各配列参照バリアントに対して複数の参照配列読取りを実施することによって(人工リードデータセット作成)、作成する(図1の段階120と比較されたい)。先に詳しく述べたように、各参照配列リードは、読取り開始部位(RSS)521を有する。
【0106】
段階442によって示すように、参照バリアントリストに対する参照配列リードのアライメントおよびマッピングを介して、各RSSについて、かつ各配列参照バリアントの中間部分について、対応する参照配列リードを用いてアライメントにより中間部分が検出可能であるか否かを判定する(図1の段階130と比較されたい)。この工程により、バリアント検出限界データセット450、540が得られ、これは、各RSSおよび中間部分について、中間部分がRSSにおいて検出可能であるか(図5、540において「x」の印をつけて示している)または否か(図5、540において空欄として示している)を示す。図5、540の太線の四角は、DNAバリアントBの検出限界と呼ぶことができる。
【0107】
段階435によって示すように、参照バリアントリスト430に対するサンプル配列リード(NGSリードデータ)470のアライメントおよびマッピングを介して、各RSSについて、かつ各配列参照バリアントの中間部分について、総出現数(RSS計数データセット)、480、640を測定する(図1の段階150と比較されたい)。図6、640において、当然ながら、「1」は、記録された出現数に合致する任意の正の整数で置き換えることができる。任意で、RSS計数データセットを、段階484によって示すように正規化して、正規化されたRSS計数データセット490を得てもよい。正規化は、例えば、各RSSに対して、または各配列参照バリアントに対して行ってよい。
【0108】
参照DNAを含まないDNAバリアントの各ペアについて、相対的バリアント頻度分布(相対的出現比率)495を、段階452において測定する(図1の段階170と比較されたい)。図5および図6の例の場合、BとCの相対的出現比率は、次のようにして測定することができる:
- RSS(-3、+2、+3):BもCも検出不可能であるため、中間部分の相対的出現比率は決定されない(540を参照されたい)。
- RSS(-2):Cが検出不可能であるため、中間部分の相対的出現比率は決定されない(540を参照されたい)。
- RSS(-1、+1):BもCも検出可能である。中間部分の相対的出現比率は、1/(1+1)=50%と定められる。
【0109】
当然、定められる中間部分相対的出現比率は、一般的な事例では異なり得る。そうである場合、DNAバリアントのペアについての相対的出現比率は、(各RSSについての出現数に関して重み付けされる可能性が高い)定められた中間部分相対的出現比率のRSSについての平均として求めることができる。
【0110】
次に、頻度分布499が、段階497で示したようにして測定される(図1の段階180と比較されたい)。第1に、参照DNAの中間部分相対頻度を、詳しく前述したように、任意の非参照配列バリアントが検出可能である各RSSについて測定してよい。次に、参照DNAの相対頻度を、(各RSSについての出現数に関して重み付けされる可能性が高い)RSSについての平均として定義してよい。頻度分布は、各ペアの相対的出現比率および参照DNAの相対頻度に基づいて、決定してよい。
【0111】
頻度分布の測定へのアプローチについての別の説明は、以下のように説明することができる:
- BおよびCの両方が検出可能である各RSSについて、XB/XCを計算し(式中、XBは、バリアント配列Bの総出現数を表し、XCは、バリアント配列Cの総出現数を表す)、参照バリアント配列Aではないバリアントの全ペアについて繰り返す。
- 個々の各バリアント配列i(例えば、B、Cなど)に対してセットを正規化する(Xi/XB、Xi/XC・・・)。
- 正規化したセットすべてを対象として平均して、各バリアントの相対頻度推定値を求める。
【0112】
頻度分布の測定へのアプローチについてのさらに別の説明は、以下のように説明することができる:
1 所与のRSS計数データセット。
2 参照配列バリアントリスト中の各バリアント(例えばバリアントA)について、参照配列バリアント(例えばA〜Z)リスト中の別のバリアント(例えばバリアントB)のRSSベクトルによってバリアントAのRSSベクトルを割る。その際、割り算の結果は、両方のバリアント(例えばAおよびB)が検出可能である場合のみ、記録されるようにする。この出力ベクトルから、自明な結果または定まらない結果(典型例:非数、0、1、負の無限大、正の無限大)をすべて取り除いて、AをBと比較するための推定量点のセットを得、このセットの平均を記録する。列セット(全種類/A)が完了するまで、参照配列バリアントリスト中の他のすべてのバリアント(例えばバリアントC〜Z)を用いて続ける。次に、項目2の工程全体を全種類のバリアント(例えばB〜Z)に対して繰り返す。
3 各列セット(例えば、全種類/A、全種類/Bなど)について、最初の列セット(全種類/A)で各列セットを割って、セットの相対的換算係数を求める。換算された列セットを得るために、換算係数で列セットを割る。
4 すべての列セットを第1の列セット(全種類/A)に換算したら、次に、各行平均が個々のバリアントの相対的平均となる(行1がバリアントAの平均頻度であり、行2がバリアントBの平均頻度である、など)ように、換算したデータセットのあらゆる行を平均する。各行の平均は、その行当たりの観察されたゼロ以外のデータ点のみの相対的平均であることに留意されたい。
5 最終的に観察されたバリアント頻度の列を100%に対して正規化して、その列の観察されたバリアントの合計計数値に基づいて各バリアントに相対的頻度が与えられるようにする。
6 正規化する間、
- バリアントがその検出可能範囲中に他の任意のベクトル割り算相手を有していないか、または他の割り算相手とのベクトル割り算当たりの推定量点の数が非常に少ない(例えば5未満)である場合、
- それを単離バリアントと呼ぶ
であるように、バリアント1つにつき平均する点の数を記録する。次に、上記の総合的な非単離バリアントの頻度正規化の後に、元の(最初の)参照配列バリアントベクトル相手のみを用いて、他のバリアントが検出不可能である領域でのみ割り算が起こるように、単離バリアントのベクトル割り算を行う。
7 次に、前と同じように単離バリアントの割り算の結果を求め(項目2を参照されたい)、先に計算した100%の総合的な非単離バリアント頻度に追加して、バリアントの以前の分布にそれを加え(例えば、非単離100%+新規単離10%=110%)、続いて、新たな100%の相対的参照配列バリアント頻度分布に対して再正規化する。
8 相対的頻度分布が決定されたら、第1の元の参照配列ベクトルを計算し、各RSSについて、次のようにして、第1の参照配列の計数値が第1の参照配列頻度に変換されるようにする:
9 次いで、第1の参照配列ベクターを平均して、第1の参照配列の最終的絶対的頻度を求め、これと、先に計算した残りの調整されたバリアント頻度分布(項目7を参照されたい)を合わせて、バリアントの絶対的頻度分布が完成する。
【0113】
前述したように、配列バリアントの頻度分布を推定するために現在使用されているアプローチは、少なくともある程度、不正確であることが証明されている場合がある。例えば、多くの既存のアプローチは、(常に真実であるとは限らない場合がある)以下の想定のうちの1つまたは複数を立てる:
- ゲノムDNAからのPCR増幅には偏りがない。
- 増幅されたDNAのライブラリー断片化(例えばタグ付断片化)は均一である。
- すべてのバリアント型が、すべてのリードによって検出される。
- すべてのバリアント型のバリアントアライメント(品質スコア)は均一である。
【0114】
上記の想定のもとで、仮説は、
すべての事象(挿入欠失の検出)の尤度は同じである、したがって、
検出されたすべての挿入および欠失(挿入欠失)ならびにすべての野生型(WT)リードを合計することにより、その位置における局所的な挿入欠失分布の平均が得られる
というものであり得る。
【0115】
本明細書において提示する態様は、上記の想定のうちの1つまたは複数が不完全である状況に合わせられる。例えば、ライブラリー断片化は、通常は均一ではなく、偏りを生じることが多い。
【0116】
説明した態様およびそれらの等価物は、ソフトウェアもしくはハードウェアまたはそれらの組合せにおいて実現することができる。これらの態様は、汎用回路によって実施することができる。汎用回路の例には、デジタルシグナルプロセッサー(DSP)、中央処理装置(CPU)、コプロセッサー装置、フィールドプログラマブルゲートアレイ(FPGA)、および他のプログラム可能なハードウェアが含まれる。あるいはまたはさらに、これらの態様は、特定用途向け集積回路(ASIC)のような特殊回路によって実施することもできる。例えば、汎用回路および/または特殊回路は、サーバーノードのような装置と連結しているか、またはそれに含まれていてよい(例えば、クラウドベースの実装においていくつかのサーバーノードにわたって配置されてもよい)。
【0117】
態様は、本明細書において説明する態様のいずれかに記載の装置、配置、回路、および/または論理を含む電子装置(例えばサーバーノード)内で現れてもよい。あるいはまたはさらに、本明細書において説明する態様のいずれかに記載の方法を実施するように、電子装置を構成してもよい。
【0118】
通常、本明細書において使用される用語はすべて、異なる意味がはっきりと与えられない限り、かつ/またはその用語が使用される文脈から、異なる意味が暗示されない限り、関連する技術分野での普通の意味に基づいて解釈されるべきである。
【0119】
本明細書において、様々な態様に言及してきた。しかし、それでもなお特許請求の範囲に含まれるであろう、説明した態様の多数の変形例を、当業者は認識すると思われる。
【0120】
例えば、本明細書において説明する方法の態様は、特定の順序で実施される段階によって例示的な方法を開示するものである。しかし、これらの一連の事象は、特許請求の範囲から逸脱することなく、別の順序で行われてよいことが認識される。さらに、方法のいくつかの段階は、順に実施されるものとしてそれらが説明されていたとしても、同時に実施してもよい。したがって、ある段階を別の段階の後または前に行うと明確に説明されている場合、および/またはある段階を別の段階の後または前に行わなければならないことが暗に示されている場合を除いて、本明細書において開示する任意の方法の段階は、開示される厳密な順序で実施する必要はない。
【0121】
同様に、態様の説明において、機能ブロックを特定のユニットに分割することは、限定することを決して意図していないことに留意すべきである。反対に、これらの分割は、例にすぎない。1つのユニットとして本明細書において説明する機能ブロックは、2つまたはそれより多いユニットに分けてもよい。さらに、2つまたはそれより多いユニットとして実装されるものとして本明細書において説明する機能ブロックは、もっと少ない数の(例えば単一の)ユニットにまとめてもよい。
【0122】
本明細書において開示する態様のいずれかの任意の特徴は、適切な場合はいつでも、他の任意の態様にも適用され得る。同様に、態様のいずれかの任意の利点も、他の任意の態様に当てはまることができ、逆もまた同じである。
【0123】
それゆえ、説明した態様の詳細は、例示を目的として持ち出した例にすぎないこと、および特許請求の範囲に収まる変形例はすべて、その中に包含されるものとすることを理解すべきである。
図1
図2
図3
図4
図5
図6