IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

特表2024-535663ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定
<>
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図1
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図2
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図3
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図4
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図5
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図6A
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図6B
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図6C
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図7A
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図7B
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図7C
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図8
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図9A
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図9B
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図10
  • 特表-ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-02
(54)【発明の名称】ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定
(51)【国際特許分類】
   G16B 30/00 20190101AFI20240925BHJP
【FI】
G16B30/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023579811
(86)(22)【出願日】2022-08-22
(85)【翻訳文提出日】2024-02-13
(86)【国際出願番号】 US2022075287
(87)【国際公開番号】W WO2023044229
(87)【国際公開日】2023-03-23
(31)【優先権主張番号】63/245,639
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】トーマス・グロス
(72)【発明者】
【氏名】ゾーイ・ウェイ・チェスニー
(57)【要約】
配列決定データから塩基コールエラーの痕跡又はパターンを正確かつ効率的に特定して、塩基コールエラーの痕跡又はパターンに寄与する障害ソースを決定するための方法、システム、及び非一時的コンピュータ可読媒体が開示される。例えば、開示されるシステムは、参照ゲノムを利用して、配列決定パイプラインのラン内のヌクレオチド固有のエラーを決定することができる。異なるヌクレオチド固有のエラーの同時発生に基づいて、開示されるシステムは、塩基コールエラーの痕跡を決定することができる。開示されるシステムは、塩基コールエラーの痕跡に相関する試料配列決定ランから1つ以上の試料エラーの痕跡を更に決定することができる。相関に基づいて、かつ統計モデルを利用することによって、開示されるシステムは、塩基コールエラーの痕跡内のヌクレオチド固有のエラーに寄与する障害ソースを特定することができる。
【特許請求の範囲】
【請求項1】
システムであって、
少なくとも1つのプロセッサと、
非一時的コンピュータ可読媒体であって、前記少なくとも1つのプロセッサによって実行されると、前記システムに、
配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムにおける参照塩基とは異なる塩基コールエラー率を決定することと、
塩基コールエラータイプに従ってグループ化された前記塩基コールエラー率から1つ以上の塩基コールエラーパターンを検出することと、
前記1つ以上の塩基コールエラーパターンに基づいて、前記配列決定パイプラインに対応する1つ以上の配列決定パイプラインを利用する1つ以上の試料配列決定ランについて1つ以上の試料塩基コールエラーパターンを特定することと、
前記1つ以上の塩基コールエラーパターンと前記1つ以上の試料塩基コールエラーパターンとの間の相関に基づいて、前記配列決定パイプラインに対応する塩基コールエラータイプについて障害ソースを決定することと、を行わせる命令を含む、非一時的コンピュータ可読媒体と、を含む、システム。
【請求項2】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照塩基とは異なるヌクレオチド固有のエラー率を決定することによって、前記塩基コールエラー率を決定することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記塩基コールエラータイプ及び不正確なヌクレオチド塩基コールにそれぞれ隣接する異なる隣接ヌクレオチド塩基に従ってグループ化された前記塩基コールエラー率を決定することと、
前記塩基コールエラータイプ及び前記異なる隣接ヌクレオチド塩基に従ってグループ化された前記塩基コールエラー率から前記1つ以上の塩基コールエラーパターンを検出することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項4】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記配列決定パイプラインからの塩基コールエラーに対する配列決定パイプライン材料の寄与を示す寄与メトリックを決定することと、
前記寄与メトリックに基づいて、前記塩基コールエラータイプについて前記障害ソースを決定することと、によって、前記配列決定パイプラインに対応する前記障害ソースを決定することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記配列決定パイプラインからの前記塩基コールエラーに寄与する前記配列決定パイプライン材料についての割り当て可能な原因のバリエーションを決定することによって、前記寄与メトリックを決定することを行わせる命令を更に含む、請求項4に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記配列決定パイプラインに関連付けられたコンピューティング装置上に表示するための、前記障害ソースを示す通知を提供することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項7】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、消耗品、配列決定機械の一部、ソフトウェアアプリケーション若しくは機能、又はヌクレオチド試料スライドの一部を、前記配列決定パイプラインにおける配列決定バリエーションに対する寄与因子として特定することによって、前記障害ソースを決定することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項8】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、混同行列を利用することによって前記塩基コールエラー率を決定することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項9】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
製造識別データに基づいて、類似の製造材料を利用する試料配列決定ランから試料配列決定ランのセットを分類することと、
前記試料配列決定ランのセットについて異なる試料塩基コールエラーパターンを検出することと、
前記1つ以上の塩基コールエラーパターンと前記1つ以上の試料塩基コールエラーパターンとの間の前記相関に基づいて、前記試料配列決定ランのセットについて前記異なる試料塩基コールエラーパターンの中から前記1つ以上の試料塩基コールエラーパターンを特定することと、によって、前記1つ以上の試料配列決定ランについて前記1つ以上の試料塩基コールエラーパターンを特定することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項10】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記試料配列決定ランについての試料ヌクレオチド断片リードを集約することと、
試料ヌクレオチド塩基コールが前記参照塩基とは異なる試料ヌクレオチド固有のエラー率を決定することと、
前記塩基コールエラータイプ及び不正確なヌクレオチド塩基コールにそれぞれ隣接する異なる隣接ヌクレオチド塩基に従って前記試料ヌクレオチド固有のエラー率をグループ化することと、によって、前記異なる試料塩基コールエラーパターンを検出することを行わせる命令を更に含む、請求項9に記載のシステム。
【請求項11】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記製造識別データを短縮することと、
同じ短縮された製造識別データを共有する閾値数の配列決定ランをグループ化することによって配列決定ランのセットを生成することと、によって、類似の製造材料を利用する前記試料配列決定ランのセットを分類することを行わせる命令を更に含む、請求項9に記載のシステム。
【請求項12】
非一時的コンピュータ可読媒体であって、少なくとも1つのプロセッサによって実行されると、コンピューティング装置に、
配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムにおける参照塩基とは異なる塩基コールエラー率を決定することと、
塩基コールエラータイプに従ってグループ化された前記塩基コールエラー率から1つ以上の塩基コールエラーパターンを検出することと、
前記1つ以上の塩基コールエラーパターンに基づいて、前記配列決定パイプラインに対応する1つ以上の配列決定パイプラインを利用する1つ以上の試料配列決定ランについて1つ以上の試料塩基コールエラーパターンを特定することと、
前記1つ以上の試料塩基コールエラーパターンに対応する前記1つ以上の塩基コールエラーパターンの確率に基づいて、前記配列決定パイプラインに対応する塩基コールエラータイプについて障害ソースを決定することと、を行わせる命令を含む、非一時的コンピュータ可読媒体。
【請求項13】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
統計モデルを利用して、前記配列決定パイプラインからの塩基コールエラーに寄与する配列決定パイプライン材料の確率を示す寄与メトリックを決定することと、
前記寄与メトリックに基づいて、前記塩基コールエラータイプについて前記障害ソースを決定することと、によって、前記配列決定パイプラインに対応する前記障害ソースを決定することを行わせる命令を更に含む、請求項12に記載の非一時的コンピュータ可読媒体。
【請求項14】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、分散成分モデルを利用して、前記塩基コールエラーに寄与する前記配列決定パイプライン材料についての割り当て可能な原因のバリエーションのパーセンテージを生成することによって、前記統計モデルを利用して、前記寄与メトリックを決定することを行わせる命令を更に含む、請求項13に記載の非一時的コンピュータ可読媒体。
【請求項15】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記1つ以上の試料配列決定ランについての既存の試料塩基コールエラーパターンを特定すること、又は前記1つ以上の試料配列決定ランについての新しい試料塩基コールエラーパターンを検出することによって、前記1つ以上の試料配列決定ランについて前記1つ以上の試料塩基コールエラーパターンを特定することを行わせる命令を更に含む、請求項12に記載の非一時的コンピュータ可読媒体。
【請求項16】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、特定のタイプのヌクレオチド塩基コールについての正確なヌクレオチド塩基コールの合計に基づいて、塩基コールエラーデータを含む混同行列を正規化することによって、前記塩基コールエラー率を決定することを行わせる命令を更に含む、請求項12に記載の非一時的コンピュータ可読媒体、請求項12に記載の非一時的コンピュータ可読媒体。
【請求項17】
コンピュータ実装方法であって、
配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムにおける参照塩基とは異なる塩基コールエラー率を決定することと、
塩基コールエラータイプに従ってグループ化された前記塩基コールエラー率から1つ以上の塩基コールエラーパターンを検出することと、
前記1つ以上の塩基コールエラーパターンに基づいて、前記配列決定パイプラインに対応する1つ以上の配列決定パイプラインを利用する1つ以上の試料配列決定ランについて1つ以上の試料塩基コールエラーパターンを特定することと、
前記1つ以上の塩基コールエラーパターンと前記1つ以上の試料塩基コールエラーパターンとの間の相関に基づいて、前記配列決定パイプラインに対応する塩基コールエラータイプについて障害ソースを決定することと、を含む、コンピュータ実装方法。
【請求項18】
不正確なヌクレオチド塩基コールに隣接する異なる隣接ヌクレオチド塩基に従ってグループ化された前記塩基コールエラー率を決定することと、
前記異なる隣接ヌクレオチド塩基に従ってグループ化された前記塩基コールエラー率から前記1つ以上の塩基コールエラーパターンを検出することと、を更に含む、請求項17に記載のコンピュータ実装方法。
【請求項19】
前記塩基コールエラー率を決定することが、特定のタイプのヌクレオチド塩基コールについての正確なヌクレオチド塩基コールの合計、及び塩基コールエラーについてのサイクル、時間、又はヌクレオチドリードのうちの1つ以上に基づいて、塩基コールエラーデータを含む混同行列を正規化することを含む、請求項17に記載のコンピュータ実装方法。
【請求項20】
分散成分モデルを利用して、前記塩基コールエラータイプの塩基コールエラーに寄与する配列決定パイプライン材料についての割り当て可能な原因のバリエーションのパーセンテージを決定することによって、前記1つ以上の塩基コールエラーパターンと前記1つ以上の試料塩基コールエラーパターンとの間の前記相関を決定することを更に含む、請求項17に記載のコンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本。本出願は、2021年9月17日に出願された「AUTOMATICALLY IDENTIFYING FAILURE SOURCES IN NUCLEOTIDE SEQUENCING FROM BASE-CALL-ERROR PATTERNS」と題する米国仮出願第63/245,639号の利益及び優先権を主張し、その内容は、その全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
近年、バイオテクノロジー企業及び研究機関は、ヌクレオチド塩基の配列又は全ゲノムを決定するために、ハードウェア及びソフトウェアのプラットフォームを改善してきた。例えば、いくつかの既存の核酸配列決定プラットフォームは、既存のサンガー配列決定又は合成による配列決定(sequencing-by-synthesis、SBS)を使用することによって、配列内の個々のヌクレオチド塩基を決定する。SBSを使用する場合、既存のプラットフォームは、ヌクレオチド塩基コールを決定するために、並行して合成される数万又はそれ以上のオリゴヌクレオチドをモニターすることができる。例えば、SBSプラットフォームにおけるカメラは、そのようなオリゴヌクレオチドに組み込まれたヌクレオチド塩基からの照射された蛍光タグの画像を捕捉することができる。画像を捕捉した後、既存のSBSプラットフォームは、塩基コールデータ(又は画像データ)を、配列決定データ分析ソフトウェアを備えたコンピューティング装置に送信し、ヌクレオチドリードを参照ゲノムとアライメントさせる。アライメントされたヌクレオチド断片リードに基づいて、既存のSBSプラットフォームは、ゲノム領域についてヌクレオチド塩基コールを決定し、試料の核酸配列内のバリアントを特定することができる。
【0003】
配列決定の進歩にもかかわらず、既存のヌクレオチド塩基配列決定プラットフォーム及び配列決定データ分析ソフトウェア(合わせて、以下、既存の配列決定システム)は、ゲノム全体にわたる位置で、又は配列決定ラン中に、しばしば不正確なヌクレオチド塩基コールを決定するが、このような不正確なヌクレオチド塩基コールの系統的又はランダムな原因を正確に又は効率的に検出することができない。実際、既存の配列決定システムは、複雑なハードウェア障害(failure)、互いに若しくはヌクレオチドと相互作用する不完全な試薬、又はヌクレオチドリード若しくは他の塩基コールデータを不正確に分析する洗練されたソフトウェアのために、不正確な塩基コールを決定するか、又は配列決定ランにおける塩基コールの収率を遅延若しくは停止させる可能性がある。いくつかの既存の配列決定システムは、配列決定機械の管類又は他の部分内にセンサを含むが、そのような機械内センサは、ハードウェア又は試薬の障害の比較的小さいサブセットのみを検出することができ、ソフトウェアエラーを完全に検出することができない場合がある。機械内センサに加えて、いくつかの既存のシステムは、ソフトウェアトリミングツールを利用して、ヌクレオチド断片リードの末端又はより低い品質スコアを有する入力データの他の部分を除外する。しかしながら、ヌクレオチド断片リード長を短縮することによって、従来のトリミングツールは、多くの場合、カバレッジバイアスを悪化させ、それによって、系統的エラーの検出に他の複雑さを導入する。更に、多くの従来のエラー訂正ツール、例えば、エラー訂正のためのベイズクラスタリング、ブルームフィルタ訂正(Bloom Filter Correction、BFC)、高スループット配列決定リードのためのブルームフィルタベースのエラー訂正ソリューション(BLESS)、及び他のツールは、一般的なリードエラーを訂正するか、又は特定のリードを拡張するように設計されているが、そのようなエラーの根本的な原因をほとんど又は全く示さない。化学、機械、又はソフトウェアには多くの潜在的な障害ポイントがあるため、既存の配列決定システムは、しばしば、塩基コールのデータ品質又は収率に寄与する根本的な要因を正確に特定することができない。
【0004】
不正確な又は存在しない障害の検出に加えて、既存の配列決定システムは、しばしば、非効率的な又はかさばる検出センサ又はアルゴリズムを使用して系統的エラーを検出することしかできない。例えば、既存のシステムは、配列決定においてエラーソースを正確又は不正確に特定するために、追加の処理、計算、記憶リソース、及び時間を費やすことが多い。従来のシステムは、ゲノムを分析し、エラーを訂正するための方法及びアルゴリズムを利用することが多い。そのような方法及びアルゴリズムは、計算コストが高い。一例では、既存のシステムは、リードペアを分析し、リードペア間の類似性スコアを生成することによって、ルーヴァンコミュニティ検出アルゴリズムを利用する。各リード対について類似性スコアを生成する計算コストを削減するために、いくつかの既存のシステムは、配列の特定のセグメントを分析し、他のセグメントを無視しなければならない。しかし、各リードペア間の類似性スコアを計算することは、多くの場合、計算集約的かつ時間集約的である。既存のシステムは、障害ソースを効率的に特定できないことが多いので、問題の特定に成功するまでに、ユーザが配列決定ランを複数回繰り返す必要があることが多い。
【0005】
計算集約的なエラー検出を超えて、いくつかの既存の配列決定システムは、特定のタイプのエラーしか柔軟に対処しない。一般に、配列決定プラットフォームは、既存のシステムで発生する広範囲の潜在的な障害ソースを特定するために必要なインフラストラクチャを欠いている。例えば、既存の配列決定システムは、しばしば、Phredアルゴリズムを利用して、個々の塩基コールが不正確である尤度を推定する品質スコアを決定する。既存のシステムは、個々の塩基コールエラーを推定することができるが、典型的には、そのような塩基コールエラーの根本的な原因を特定することができない。例示すると、既存のシステムは、典型的には、特定のエラーが機械、試薬、化学、又はソフトウェアの欠陥に起因するかどうかを示すことができない。
【0006】
これらは、更なる問題及び課題とともに、既存の配列決定システムに存在する。
【発明の概要】
【課題を解決するための手段】
【0007】
本開示は、上記で説明した問題のうちの1つ以上を解決するか、又は当該技術分野に勝る他の利点を提供する、システム、方法、及び非一時的コンピュータ可読記憶媒体の1つ以上の実施形態を説明する。特に、開示されたシステムは、配列決定パイプラインの配列決定データから塩基コールエラーの痕跡又はパターンを正確かつ効率的に特定し、塩基コールエラーの痕跡又はパターンに寄与する障害ソースを決定することができる。例えば、開示されるシステムは、参照ゲノムを利用して、配列決定パイプラインの配列決定ラン内のヌクレオチド固有のエラーを決定することができる。ヌクレオチド固有のエラーの異なる大きさ又は組み合わせに基づいて、開示されるシステムは、配列決定パイプラインの塩基コールデータの中から塩基コールエラーの痕跡を更に特定することができる。開示されるシステムは更に、同じ又は類似の配列決定パイプラインを使用して、試料配列決定ランからのデータを分析し、統計モデルを適用して、塩基コールエラーの痕跡に相関する、試料配列決定ランからの試料塩基コールエラーの痕跡を特定することができる。配列決定パイプラインのデータからの塩基コールエラーの痕跡と、1つ以上の対応する試料塩基コールエラーの痕跡との間の相関に基づいて、開示されるシステムは、塩基コールエラーの痕跡の中のヌクレオチド固有のエラーに寄与する障害ソースを特定することができる。例えば、開示されたシステムは、ハードウェア、化学、又はソフトウェアにおける障害ソースを特定することができる。
【0008】
本開示の1つ以上の実施形態の追加の特徴及び利点は、以下の説明に記載され、一部は説明から明らかになるか、又はかかる例示的な実施形態の実施によって習得され得る。
【0009】
詳細な説明では、以下に要約される添付の図面の使用を通して、更に具体的かつ詳細に様々な実施形態を説明する。
【図面の簡単な説明】
【0010】
図1】本開示の1つ以上の実施形態による、バリエーションソース特定システムが動作し得る環境を図示する。
図2】本開示の1つ以上の実施形態による、配列決定パイプラインの配列決定データから塩基コールエラーパターンを検出し、塩基コールエラーパターンに基づいて障害ソースを決定するバリエーションソース特定システムの概要図を図示する。
図3】本開示の1つ以上の実施形態による、塩基コールエラー率を決定するバリエーションソース特定システムを図示する。
図4】本開示の1つ以上の実施形態による、グループ化された塩基コールエラー率から塩基コールエラーパターンを検出するバリエーションソース特定システムを示す。
図5】本開示の1つ以上の実施形態による、1つ以上の試料配列決定ランのための試料塩基コールエラーパターンを特定するバリエーションソース特定システムを図示する。
図6A】本開示の1つ以上の実施形態による、配列決定パイプラインからの塩基コールエラーに対する配列決定パイプライン材料の寄与を示す寄与メトリックを決定するバリエーションソース特定システムを図示する。
図6B】本開示の1つ以上の実施形態による、配列決定パイプラインからの塩基コールエラーに対する配列決定パイプライン材料の寄与を示す寄与メトリックを決定するバリエーションソース特定システムを図示する。
図6C】本開示の1つ以上の実施形態による、配列決定パイプラインからの塩基コールエラーに対する配列決定パイプライン材料の寄与を示す寄与メトリックを決定するバリエーションソース特定システムを図示する。
図7A】本開示の1つ以上の実施形態による、塩基コールエラーに寄与する障害ソースの特定の一部として、バリエーションソース特定システムによって生成される一連の例示的分散成分分析の出力を図示する。
図7B】本開示の1つ以上の実施形態による、塩基コールエラーに寄与する障害ソースの特定の一部として、バリエーションソース特定システムによって生成される一連の例示的分散成分分析の出力を図示する。
図7C】本開示の1つ以上の実施形態による、塩基コールエラーに寄与する障害ソースの特定の一部として、バリエーションソース特定システムによって生成される一連の例示的分散成分分析の出力を図示する。
図8】本開示の1つ以上の実施形態による、挿入及び欠失(インデル)の長さのバリエーションに寄与する配列決定パイプライン材料についての例示的なパーセント割り当て可能な原因のバリエーションを示す。
図9A】本開示の1つ以上の実施形態による、障害モード通知を含むバリエーションソース特定システムからの通知グラフィカルユーザインターフェースと、エラーパターン分析グラフィカルユーザインターフェースとを含む例示的な一連のグラフィカルユーザインターフェースを図示する。
図9B】本開示の1つ以上の実施形態による、障害モード通知を含むバリエーションソース特定システムからの通知グラフィカルユーザインターフェースと、エラーパターン分析グラフィカルユーザインターフェースとを含む例示的な一連のグラフィカルユーザインターフェースを図示する。
図10】本開示の1つ以上の実施形態による、配列決定パイプラインの配列決定データからの塩基コールエラーパターンを検出し、塩基コールエラーパターンに基づいて塩基コールエラータイプの障害ソースを決定するための一連の動作を図示する。
図11】本開示の1つ以上の実施形態による、例示的なコンピューティング装置のブロック図を図示する。
【発明を実施するための形態】
【0011】
本開示は、配列決定パイプラインの配列決定データから塩基コールエラーパターンを特定し、塩基コールエラーパターンに基づいて障害ソースを決定するバリエーションソース特定システムの1つ以上の実施形態を説明する。1つ以上の実施形態では、バリエーションソース特定システムは、個々の塩基についての塩基コールエラー率を決定するために、参照ゲノムについての塩基コールを生成する。バリエーションソース特定システムは、更に、塩基コールエラー率に基づいて塩基コールエラーパターンを特定することができる。比較のポイントとして、バリエーションソース特定システムは更に、塩基コールエラーパターンに対応する試料塩基コールエラーパターンを特定する。塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて、バリエーションソース特定システムは、配列決定パイプラインについての配列決定データ内のバリエーションについての障害ソースを(例えば、パーセント割り当て可能な原因のバリエーションに基づいて)決定することができる。
【0012】
例示すると、1つ以上の実施形態では、バリエーションソース特定システムは、配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムにおける参照塩基と異なる塩基コールエラー率を決定する。バリエーションソース特定システムは、塩基コールエラータイプに従ってグループ化された塩基コールエラー率から塩基コールエラーパターンを検出することができる。いくつかの実施形態では、バリエーションソース特定システムは、塩基コールエラーパターンに基づいて、配列決定パイプラインに対応する1つ以上の配列決定パイプラインを利用する1つ以上の試料配列決定ランについて、試料塩基コールエラーパターンを特定する。バリエーションソース特定システムは更に、塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて、配列決定パイプラインに対応する塩基コールエラータイプについての障害ソースを決定することができる。
【0013】
言及したように、バリエーションソース特定システムは、ヌクレオチド塩基コールが参照塩基と異なる塩基コールエラー率を決定することができる。特に、バリエーションソース特定システムは、参照塩基の既知の配列を有する参照ゲノムを利用することができる。いくつかの実施形態では、バリエーションソース特定システムは、配列決定ランの正確な塩基コール及び不正確な塩基コールを示すために混同行列を利用する。更に、1つ以上の実施形態では、バリエーションソース特定システムは、混同行列からのデータを更に正規化する。いずれの場合も、バリエーションソース特定システムは、参照ゲノムを利用して、配列決定パイプラインによって生成された正確な塩基コール及び不正確な塩基コールを正確に特定することができる。
【0014】
バリエーションソース特定システムは、塩基コールエラータイプに従ってグループ化された塩基コールエラー率から塩基コールエラーパターンを更に検出することができる。特に、バリエーションソース特定システムは、正確な塩基コール及び不正確な塩基コールを示す塩基コールエラータイプを特定することができる。例えば、バリエーションソース特定システムは、正確なグアニン(guanine、G)塩基コールが不正確なアデノシン(adenosine、A)塩基コールとして誤って特定された回数を決定することができる。更に、いくつかの実施形態では、バリエーションソース特定システムは、異なる隣接ヌクレオチド塩基に基づいて不正確な塩基コールをグループ化することによって、より詳細な塩基コールエラーパターンを生成することができる。例えば、バリエーションソース特定システムは、A及びシトシン(cytosine、C)とは対照的に、両側にAヌクレオチドが隣接している場合、G塩基コールが誤ってAと呼ばれるときを決定することができる。一般に、バリエーションソース特定システムは、塩基コールエラーのタイプ及び異なる隣接ヌクレオチド塩基の群を含む塩基コールエラーパターンを生成することができる。
【0015】
配列決定パイプラインの配列決定データからの塩基コールエラーパターンに基づいて、バリエーションソース特定システムは、配列決定パイプラインに対応する1つ以上の配列決定パイプラインを利用する1つ以上の試料配列決定ランについての試料塩基コールエラーパターンを更に特定することができる。一般に、バリエーションソース特定システムは、分散成分分析(Variance Components Analysis、VCA)などの統計モデルを利用して、試料配列決定ラン及び製造データを分析して、様々な因子の変動性を推定する。一例では、バリエーションソース特定システムは、製造識別データに基づいて、類似の製造材料を利用する試料配列決定ランのセットを定義することができる。バリエーションソース特定システムは、試料配列決定ランのセットについて試料塩基コールエラーパターンを検出し、統計モデルを利用して、試料塩基コールエラーに寄与する配列決定パイプライン材料、化学、又はソフトウェアについての割り当て可能な原因の変動を決定する。
【0016】
配列決定パイプラインのデータからの塩基コールエラーパターンと、試料配列決定ランからの試料塩基コールエラーパターンとの間の相関に基づいて、バリエーションソース特定システムは、塩基コールエラータイプについての障害ソースを更に決定することができる。言及したように、いくつかの場合では、バリエーションソース特定システムは、統計モデルを利用して、配列決定ランデータに対するハードウェア、化学、及びソフトウェアの影響を推定する。塩基コールエラーパターンに対応する試料塩基コールエラーパターンを特定することによって、バリエーションソース特定システムは、塩基コールエラータイプに対する障害ソースを決定することができる。
【0017】
障害ソースを特定すると、1つ以上の実施形態では、バリエーションソース特定システムは、配列決定パイプラインに関連付けられたコンピューティング装置上に表示するための障害ソースを示す通知を提供する。例えば、バリエーションソース特定システムは、配列決定ランに悪影響を及ぼす1つ以上の障害ソースを示す通知を提供することができる。バリエーションソース特定システムはまた、通知を介して、潜在的な障害ソースの内訳、及び潜在的な障害ソースが配列決定ランに悪影響を及ぼしている確率を提供することができる。
【0018】
バリエーションソース特定システムは、既存の配列決定システムと比較して、いくつかの技術的利点を提供する。特に、バリエーションソース特定システムは、既存の配列決定システムと比較して、系統的エラーソースを検出する精度を改善することができる。より具体的には、バリエーションソース特定システムは、参照ゲノムについての塩基コールエラー率を利用して、配列決定ランに悪影響を及ぼす特定の障害ソースを推測する。個々の塩基コールが不正確である尤度を推定する品質スコアを決定するためにPhredアルゴリズムに依存する既存のシステムとは対照的に、バリエーションソース特定システムは、配列決定パイプラインに沿った様々な部分に由来する系統的エラーソースを正確に特定することができる。例えば、バリエーションソース特定システムは、機械、試薬、化学、又はソフトウェアにおける障害ソースを特定することができる。更に、ヌクレオチド配列に新しいエラーを導入する従来のエラー訂正ツールとは対照的に、バリエーションソース特定システムは、リード長又はカバレッジバイアスに悪影響を及ぼすことなく、塩基コールデータを分析する。
【0019】
バリエーションソース特定システムはまた、既存の配列決定システムと比較して、配列決定障害ソースを検出する効率を改善することができる。障害ソースを効率的に特定するために配列決定塩基コールデータを利用することによって、バリエーションソース特定システムは、高品質のデータを達成するために複数の配列決定サイクルを実行及び再実行する必要性を排除し、それによって、既存の配列決定システムよりも効率的に化学試薬を使用する。いくつかの実施形態では、バリエーションソース特定システムはまた、潜在的な障害ソースの通知(例えば、エラーコードのグラフィカル表示)をリアルタイムで提供することによって、効率を改善することができる。例えば、多くの既存のシステムは、所与のセグメント内の個々のリードペア間の類似性スコアを生成するために、Louvianコミュニティ検出アルゴリズムなどのアルゴリズムに依存するが、バリエーションソース特定システムは、ヌクレオチド配列全体の塩基コールデータをレビューして、障害ソースを正確に特定することができる。したがって、配列決定エラーを特定及び修正するために過剰な計算リソースを必要とする多くの既存のシステムとは異なり、バリエーションソース特定システムは、潜在的な障害ソースを特定及び修正するための効率的なインターフェースを提供することができる。
【0020】
したがって、障害ソースのタイムリーな通知を提供することによって、バリエーションソース特定システムは、特定されたエラーを伴う配列決定ランにおける無駄な試薬の量を低減し、配列決定パイプライン内の障害ソースをトラブルシューティング(及び修正)することができる。塩基コールエラーパターンの特定された障害ソースを用いて、バリエーションソース特定システムは、将来産生される原材料を修正又は改善するために、原材料及びプロセスを標的化することができる。同様に、バリエーションソース特定システムは、特定された障害ソースを修正し、それによって、現在のサイクル又はランの試薬を保存するために、配列決定サイクル又は配列決定ランを早期に終了させることができる。配列決定パイプラインについての障害ソースが修復されると、修復された配列決定パイプラインを使用して試料ゲノム(又は他の核酸ポリマー)の配列を決定する配列決定システムは、以前の配列決定ランよりも塩基コールエラー率を改善することができる。製造データ及びフィールドデータの両方において新しい塩基コールエラーパターンを特定することによって、バリエーションソース特定システムはまた、塩基コールエラー率及び将来の配列決定ランで予測される障害ソースの精度を改善することができる。
【0021】
精度及び効率の改善に加えて、バリエーションソース特定システムは、既存の配列決定システムと比較して、柔軟性を改善する。従来の機械内センサとは異なり、いくつかの実施形態では、バリエーションソース特定システムは、プラットフォーム非依存的であり、追加のハードウェアの使用を必要としない。特に、バリエーションソース特定システムは、多数の配列決定プラットフォームに容易にアクセス可能な配列決定された参照ゲノムについての塩基コールエラー率を柔軟に利用する。更に、バリエーションソース特定システムは、単一の参照ゲノムに限定されず、むしろ、バリエーションソース特定システムは、任意の既知の参照ゲノムからの配列決定を柔軟に利用して、配列決定ランのための塩基コールエラーパターンを生成することができる。したがって、バリエーションソース特定システムは、追加のハードウェアを必要とせずに、既存の配列決定プラットフォームによって実装及び利用することができる。
【0022】
前述の議論によって示されるように、本開示は、バリエーションソース特定システムの特徴及び利点を説明するために、種々の用語を利用する。ここで、かかる用語の意味に関して更なる詳細を提供する。例えば、本明細書で使用される場合、「塩基コールエラー率」という用語は、不正確なヌクレオチド塩基コールが決定される割合、頻度、パーセンテージ、又は他の部分の指標を指す。特に、塩基コールエラー率は、配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムにおける参照塩基と異なる割合、頻度、又はパーセンテージを示し得る。一例では、塩基コールエラー率は、配列決定パイプラインが不正確なヌクレオチド塩基コール(例えば、グアニン塩基と誤ってアデニン塩基を呼び出す)を生成したインスタンス数を含む。
【0023】
本明細書で使用される場合、「ヌクレオチド塩基コール」(又は単に「塩基コール」)という用語は、配列決定サイクル中の試料ゲノムのゲノム座標又はオリゴヌクレオチドについての特定のヌクレオチド塩基(又はヌクレオチド塩基対)の決定又は予測を指す。特に、ヌクレオチド塩基コールは、(i)ヌクレオチド試料スライド上のオリゴヌクレオチド内に組み込まれたヌクレオチド塩基のタイプの決定若しくは予測(例えば、リードベースのヌクレオチド塩基コール)、又は(ii)デジタル出力ファイルにおけるバリアントコール若しくは非バリアントコールを含む、ゲノム内のゲノム座標若しくは領域に存在するヌクレオチド塩基のタイプの決定若しくは予測を示すことができる。いくつかの場合では、ヌクレオチド断片リードについて、ヌクレオチド塩基コールは、(例えば、フローセルのウェル内の)ヌクレオチド試料スライドのオリゴヌクレオチドに付加された蛍光タグ付きヌクレオチドから生じる強度値に基づくヌクレオチド塩基の決定又は予測を含む。代替的に、ヌクレオチド塩基コールは、ヌクレオチド試料スライドのナノポアを通過するヌクレオチドから生じるクロマトグラムピーク又は電流変化からのヌクレオチド塩基の決定又は予測を含む。対照的に、ヌクレオチド塩基コールはまた、ゲノム座標に対応するヌクレオチド断片リードに基づく、バリアントコールファイル又は他の塩基コール出力ファイルについての、試料ゲノムのゲノム座標でのヌクレオチド塩基の最終予測を含むことができる。したがって、ヌクレオチド塩基コールは、ゲノム座標及び参照ゲノムに対応する塩基コール、例えば、参照ゲノムに対応する特定の位置でのバリアント又は非バリアントの表示を含むことができる。実際、ヌクレオチド塩基コールは、一塩基多型(single nucleotide polymorphism、SNP)、挿入若しくは欠失(インデル)、又は構造バリアントの一部である塩基コールを含むがこれらに限定されないバリアントコールを指すことができる。例えば、単一のヌクレオチド塩基コールは、アデニン(adenine、A)コール、シトシン(C)コール、グアニン(G)コール、又はチミン(thymine、T)コールを含むことができる。
【0024】
本明細書で使用される場合、「障害ソース(failure source)」という用語は、所与の塩基コールエラー、塩基コールエラー率、又は塩基コールエラータイプの原因を指す。特に、障害ソースとは、ヌクレオチド塩基コーリングに悪影響を及ぼす配列決定パイプライン内の様々な構成要素で見出される特定の課題を指す。例えば、障害ソースは、誤って呼び出されたヌクレオチド塩基などのエラーを引き起こすハードウェア、化学、又はソフトウェアに影響を及ぼす課題又は問題を含むことができる。ハードウェアに見られる障害ソースの例としては、配列決定機械の不完全な部品、及び劣化した、又はそうでなければ不完全な消耗品が挙げられ得る。化学において見出される障害ソースの例としては、他の消耗品、環境、又は配列決定機の部品と相互作用するときに悪影響を受ける消耗品を挙げることができる。ソフトウェアに見出される障害ソースは、配列決定パイプライン内で利用されるコンピューティングプロセスから生じるコンピューティングエラー又は他の不規則性を含むことができる。
【0025】
本明細書で使用される場合、「参照ゲノム」という用語は、ある生物についての遺伝子の代表例(複数可)としてアセンブルされたデジタル核酸配列を指す。配列長にかかわらず、いくつかの場合では、参照ゲノムは、特定の種の生物の代表として科学者又は統計モデルによって決定されたデジタル核酸配列における遺伝子の例示的なセット又は核酸配列のセットを表す。例えば、参照ゲノムは、PhiXゲノムを含むことができる。更なる例として、直鎖状ヒト参照ゲノムは、Genome Reference ConsortiumからのGRCh38又は他のバージョンの参照ゲノムであり得る。参照ゲノムは、参照塩基の既知の配列から構成される。本明細書で使用される場合、「参照塩基」という用語は、参照ゲノムを構成するヌクレオチド塩基を指す。特に、参照塩基の配列は、配列決定ランのための対照として使用することができる。
【0026】
本明細書で使用される場合、「配列決定パイプライン」という用語は、核酸ポリマー又は全ゲノムの配列を決定するために使用される様々な物理的要素及びソフトウェアを指す。特に、配列決定パイプラインは、核酸配列抽出方法並びに対応する試薬及び対応する抽出装置、配列決定装置並びに配列決定ランにおいて利用される対応する試薬、機器、及び/又は反応、並びに配列分析ソフトウェアを含むことができる。例えば、配列決定パイプラインは、特定のモデルの配列決定装置、及びヌクレオチド塩基配列を生成するために配列決定装置が一連の事象内で利用する対応する試薬を含むことができる。
【0027】
本明細書で使用される場合、「類似の製造材料」という用語は、共通の特性を有する1つ以上の配列決定パイプライン内で利用される材料を指す。特に、類似の製造材料は、共通の特性を有する同じタイプ又は同じ若しくは重複するクレート若しくは製造識別子の2つの材料を含むことができる。以下に説明するように、いくつかの場合では、バリエーションソース特定システムは、類似の製造材料を識別するために、配列決定装置、配列決定装置部品、消耗品、ヌクレオチド試料スライド、及び他の材料の製造識別データを短縮する。したがって、類似の製造材料は、配列決定装置部品、消耗品、ヌクレオチド試料スライド、及び組成又は構築が同じ又は類似の他の材料を含むことができる。いくつかの実施形態では、類似の製造材料は、同じ原材料を使用して、同じプロセスを通して、同時に作成される、同じタイプの2つの試薬を含むことができる。
【0028】
本明細書で使用される場合、「塩基コールエラーパターン」という用語は、塩基コールエラーの特有又は固有の組み合わせを指す。特に、塩基コールエラーパターンは、1つ以上の配列決定ランにわたるシグネチャ又は特有の一連の種々の塩基コールエラーを含むことができる。例えば、塩基コールエラーパターンは、1つ以上の配列決定ランにわたる各塩基コールエラータイプの塩基コールエラーの量を示すシグネチャを指すことができる。更に、塩基コールエラーパターンは、異なる隣接ヌクレオチド塩基に従って組織化された特定のタイプの塩基コールエラー(例えば、Tの代わりにAを誤ってコールする)の量を示すパターンを含み得る。
【0029】
本明細書で更に使用される場合、「試料配列決定ラン」という用語は、配列決定パイプラインからの既知の変数を用いたヌクレオチド配列決定ランを指す。特に、試料配列決定ランは、1つ以上の配列決定パイプラインについての既知の製造データを利用することによって、試料配列決定データを生成する。いくつかの実施形態では、試料配列決定ランは、既知の製造識別データを有する製造材料を利用する試験配列決定ランを含む。例えば、試料配列決定ランは、核酸配列抽出方法、配列決定装置、又は配列分析ソフトウェアが対応する品質標準に合格することを確実にするために、核酸配列抽出方法、配列決定装置、又は配列分析ソフトウェアを使用して実施される品質試験ランを含むことができる。
【0030】
同様に、本明細書で使用される場合、「試料塩基コールエラーパターン」という用語は、1つ以上の試料配列決定ラン内に存在する塩基コールエラーの特有又は固有の組み合わせを指す。特に、試料塩基コールエラーパターンは、試料配列決定ラン中に配列決定パイプラインによって作製されたシグネチャ又は特有の一連の塩基コールエラーを指すことができる。一例では、試料塩基コールエラーパターンは、配列決定装置又は配列分析ソフトウェアが試料データを分析しているときの様々な塩基コールエラーの量を示す。
【0031】
本明細書で使用される場合、「塩基コールエラータイプ」という用語は、塩基コールエラーのカテゴリーを指す。特に、塩基コールエラータイプは、正確な塩基コールの代わりに決定された特定の誤った塩基コールを示す。例えば、塩基コールエラータイプは、配列決定システムによってGとして誤って呼び出されたA塩基(例えば、ここでは、正確な塩基コールはAである)を含むことができる。対照的に、異なる塩基コールエラータイプは、配列決定システムによってTとして誤って呼び出されたA塩基を含むことができる。一例では、塩基コールエラータイプは、参照塩基の既知の配列をヌクレオチド塩基コールと比較することによって決定される。
【0032】
ここで、バリエーションソース特定システムの例示的な実施形態及び実装形態を示す例示的な図に関連して、バリエーションソース特定システムに関して更なる詳細を提供する。例えば、図1は、バリエーションソース特定システム106が1つ以上の実施形態に従って動作するシステム環境(又は「環境」)100の概略図を示す。図示されるように、環境100は、ネットワーク112を介してユーザクライアント装置108及び配列決定装置114に接続された1つ以上のサーバ装置102を含む。図1はバリエーションソース特定システム106の一実施形態を示すが、代替的な実施形態及び構成が可能である。
【0033】
図1に更に示されるように、サーバ装置102、ユーザクライアント装置108、及び配列決定装置114は、ネットワーク112を介して接続される。環境100の構成要素の各々は、ネットワーク112を介して通信することができる。ネットワーク112は、コンピューティング装置が通信することができる任意の適切なネットワークを含む。例示的なネットワークを、図11に関連して以下で更に詳細に説明する。
【0034】
図1に示されるように、環境100は、配列決定装置114を含む。配列決定装置114は、核酸ポリマー又は全ゲノムを配列決定するための装置を含む。いくつかの実施形態では、配列決定装置114は、試料を分析して、配列決定装置114上で直接的又は間接的のいずれかで本明細書に記載されるコンピュータ実装方法及びシステムを利用して、データを生成する。1つ以上の実施形態では、配列決定装置114は、合成による配列決定(SBS)を利用して、核酸ポリマーを配列決定する。示されるように、いくつかの実施形態では、配列決定装置114は、ネットワーク112を迂回し、ユーザクライアント装置108と直接通信する。
【0035】
図1によって更に示されるように、環境100は、サーバ装置102を含む。サーバ装置102は、核酸ポリマーを配列決定するためのデータなどの電子データを生成、受信、分析、記憶、受信、及び送信することができる。サーバ装置102は、配列決定装置114からデータを受信することができる。例えば、サーバ装置102は、ヌクレオチド塩基コールデータ、品質データ、及び核酸ポリマーの配列決定に関連する他のデータを含む配列決定データを収集及び/又は受信することができる。サーバ装置102は、ユーザクライアント装置108とも通信することができる。特に、サーバ装置102は、核酸ポリマー配列、エラーデータ、及び他の情報をユーザクライアント装置108に送信することができる。いくつかの実施形態では、サーバ装置102は、分散型サーバを含み、サーバ装置102は、ネットワーク112にわたって分散され、異なる物理的場所に位置する、いくつかのサーバ装置を含む。サーバ装置102は、コンテンツサーバ、アプリケーションサーバ、通信サーバ、ウェブホスティングサーバ、又は別のタイプのサーバを含むことができる。
【0036】
図1に更に示されるように、サーバ装置102は、配列決定システム104を含むことができる。概して、配列決定システム104は、配列決定装置114から受信した配列決定データを分析して、核酸ポリマーについてのヌクレオチド配列を決定する。例えば、配列決定システム104は、配列決定装置114から生データ(例えば、ヌクレオチド断片リードの塩基コールデータ)を受信し、試料の核酸配列を決定することができる。例示すると、配列決定システム104は、配列決定装置114からヌクレオチド断片リードを受信することができ、配列決定システム104は、ヌクレオチド断片リードからゲノムのヌクレオチド塩基コールを生成する。いくつかの実施形態では、配列決定システム104は、DNA及び/又はRNAにおける核酸塩基の配列を決定する。核酸ポリマーについての配列を処理及び決定することに加えて、配列決定システム104はまた、配列決定データを分析し、個々又は複数の配列決定サイクルにおける不規則性を検出する。例えば、配列決定システム104は、参照ゲノムのヌクレオチド塩基コールを参照ゲノムの既知の参照塩基と比較することによって、配列決定ラン内の塩基コールエラーを検出することができる。
【0037】
図1に図示されるように、配列決定システム104は、バリエーションソース特定システム106を含む。一般に、バリエーションソース特定システム106は、配列決定装置114からのデータを分析して、配列決定装置114に関連付けられた配列決定ランの障害ソースを決定する。より具体的には、いくつかの実施形態では、バリエーションソース特定システム106は、配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムにおける参照塩基とは異なる塩基コールエラー率を決定する。更に、バリエーションソース特定システム106は、塩基コールエラータイプに従ってグループ化された塩基コールエラー率から、塩基コールエラーパターンを検出することができる。塩基コールエラーパターンに基づいて、バリエーションソース特定システム106は、配列決定パイプラインに対応する1つ以上の配列決定パイプラインを利用する1つ以上の試料配列決定ランについて、試料塩基コールエラーパターンを特定することができる。塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて、バリエーションソース特定システム106は、配列決定パイプラインに対応する塩基コールエラータイプについての障害ソースを決定することができる。
【0038】
図1に図示される環境100は、ユーザクライアント装置108を更に含む。ユーザクライアント装置108は、デジタルデータを生成、記憶、受信、及び送信することができる。特に、ユーザクライアント装置108は、配列決定装置114から配列決定データを受信することができる。更に、ユーザクライアント装置108は、サーバ装置102と通信して、ヌクレオチド塩基コール、ヌクレオチド配列、及びヌクレオチド塩基コールにおけるエラーの潜在的な障害ソースを示す通知などの配列決定ラン内の不規則性の報告を受信することができる。ユーザクライアント装置108は、配列決定データ及び障害ソースの通知を、ユーザクライアント装置108に関連付けられたユーザに提示することができる。
【0039】
図1に図示されるユーザクライアント装置108は、様々なタイプのクライアント装置を含むことができる。例えば、いくつかの実施形態では、ユーザクライアント装置108は、デスクトップコンピュータ若しくはサーバ、又は他のタイプのクライアント装置等の非モバイル装置を含む。更に他の実施形態では、ユーザクライアント装置108は、ラップトップ、タブレット、携帯電話、スマートフォンなどのモバイル装置を含む。ユーザクライアント装置108に関する更なる詳細は、図11に関して以下で説明される。
【0040】
図1に更に図示されるように、ユーザクライアント装置108は、配列決定アプリケーション110を含む。配列決定アプリケーション110は、ユーザクライアント装置108上のウェブアプリケーション又はネイティブアプリケーション(例えば、モバイルアプリケーション、デスクトップアプリケーションなど)であってもよい。配列決定アプリケーション110は、(実行されると)ユーザクライアント装置108に、バリエーションソース特定システム106からのデータを受信し、配列決定データを提示することを行わせる命令を含むことができる。更に、配列決定アプリケーション110は、(実行されると)ユーザクライアント装置108に、配列決定ランに影響を及ぼす潜在的な障害ソースを示す通知を提供することを行わせる命令を含むことができる。
【0041】
図1に更に図示されるように、バリエーションソース特定システム106は、配列決定アプリケーション110の一部として、ユーザクライアント装置108上に位置してもよい。図示されるように、いくつかの実施形態では、バリエーションソース特定システム106は、ユーザクライアント装置108上に(例えば、完全に又は部分的に位置して)実装される。更に他の実施形態では、バリエーションソース特定システム106は、環境100の1つ以上の他の構成要素によって実装される。特に、バリエーションソース特定システム106は、サーバ装置102、ユーザクライアント装置108、及び配列決定装置114にわたって様々な異なる方法で実装することができる。
【0042】
図1は、ネットワーク112を介して通信する環境100の構成要素を図示しているが、いくつかの実施形態では、環境100の構成要素は、ネットワークを迂回して互いに直接通信する。例えば、前述したように、ユーザクライアント装置108は、配列決定装置114と直接通信することができる。更に、ユーザクライアント装置108は、ネットワーク112を迂回して、バリエーションソース特定システム106と直接通信することができる。更に、バリエーションソース特定システム106は、サーバ装置102又は環境100内の他の場所に収容された1つ以上のデータベースにアクセスすることができる。
【0043】
前述したように、バリエーションソース特定システム106は、配列決定パイプラインに対応する塩基コールエラータイプの障害ソースを決定することができる。以下の図及び段落は、いくつかの実施形態による、バリエーションソース特定システム106が1つ以上の障害ソースを決定する方法に関する更なる詳細を提供する。図2及び対応する段落は、1つ以上の実施形態による、バリエーションソース特定システム106が障害ソースを決定することの一部として実行する動作の一般的な概要を提供する。図2に示されるように、バリエーションソース特定システム106は、組み合わされた不正確な塩基コールに基づいて、不正確な塩基コール及び塩基コールエラーパターンを決定する。バリエーションソース特定システム106は、更に、塩基コールエラーパターンを試料塩基コールエラーパターンと比較して、対応する試料塩基コールエラーパターンを特定する。対応する試料塩基コールエラーパターンに基づいて、バリエーションソース特定システム106は、障害ソースを決定することができる。
【0044】
図2に図示されるように、一連の動作200は、コールデータを受信する動作202を含む。特に、バリエーションソース特定システム106は、配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムにおける参照塩基とは異なる塩基コールエラー率を決定する。一般に、バリエーションソース特定システム106は、配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムの既知の参照塩基とは異なるエラー率を決定する。いくつかの実施形態では、バリエーションソース特定システム106は、(ヌクレオチド断片リードからの配列決定パイプラインによって決定される)参照ゲノムについてのヌクレオチド塩基コールを、参照ゲノムの参照塩基と比較する。ヌクレオチド塩基コールと参照塩基との比較に基づいて、バリエーションソース特定システム106は、配列決定パイプラインによって生成された不正確なヌクレオチド塩基コールと正確なヌクレオチド塩基コールとの両方を特定する。例えば、図2に図示されるように、バリエーションソース特定システム106は、配列決定システムが、参照塩基を表すAの正確なヌクレオチド塩基コールの代わりにTの不正確なヌクレオチド塩基コールを誤って生成するときのインスタンスを決定することができる。
【0045】
バリエーションソース特定システム106は、不正確な塩基コールについてのエラー率を更に決定する。いくつかの実施形態では、バリエーションソース特定システム106は、配列決定パイプラインにおける配列決定システムが不正確なヌクレオチド塩基コールを生成するインスタンスの数を決定する。例えば、図2に図示されるように、バリエーションソース特定システム106は、配列決定パイプラインが6798個のインスタンスにおいてAヌクレオチド塩基コールを正確に予測したことを決定する。対照的に、配列決定パイプラインは、349個のインスタンスではT、112個のインスタンスではC、及び103個のインスタンスではGとして不正確にA塩基を不正確に呼び出した。上記で示唆したように、いくつかの実施形態では、バリエーションソース特定システム106は更に、正規化された塩基コールエラー率を決定して、塩基コールエラー率を標準化する。
【0046】
図2は、A塩基についての不正確なヌクレオチド塩基コールを示すが、バリエーションソース特定システム106は、ヌクレオチド配列内の全ての塩基に対する塩基コールエラー率を決定する。図3及び対応する段落は、1つ以上の実施形態による、塩基コールエラー率を決定することに関する追加の詳細を提供する。
【0047】
図2に更に図示されるように、バリエーションソース特定システム106は、塩基コールエラー率から1つ以上の塩基コールエラーパターンを検出する動作204を実行する。一般に、バリエーションソース特定システム106は、塩基コールエラー率をグループ化し、グループ化された塩基コールエラー率に基づいて塩基コールエラーパターンを決定する。いくつかの実施形態では、例えば、バリエーションソース特定システム106は、単に、塩基コールエラータイプに従って、塩基コールエラーパターンをグループ化する。例えば、バリエーションソース特定システム106は、Aの代わりに不正確なヌクレオチド塩基コールT(例えば、A→T)を、単一の塩基コールエラータイプとして指定することができる。追加的に、又は代替的に、バリエーションソース特定システム106は、塩基コールエラー率を、異なる隣接ヌクレオチド塩基によってグループ化する。例示すると、バリエーションソース特定システム106は、塩基コールエラータイプA→Tについて、隣接ヌクレオチド塩基に基づいてグループ化を更に区別することができる。例えば、A→T塩基コールエラータイプは、A及びAによって隣接され得る(すなわち、A_A)。
【0048】
図2は、配列決定パイプラインの塩基コールエラーパターンを表す3次元チャートを図示する。3次元チャートは、塩基コールエラータイプ及び隣接ヌクレオチド塩基の両方によってグループ化された塩基コールエラー率を表す。以下で更に説明されるように、図4及び対応する説明は、1つ以上の実施形態による、塩基コールエラーパターンの検出に関する追加の詳細を提供する。
【0049】
図2はまた、1つ以上の試料配列決定ランについて1つ以上の試料塩基コールエラーパターンを特定する動作206を実行するバリエーションソース特定システム106を図示する。一般に、バリエーションソース特定システム106は、塩基コールエラーパターンとの閾値類似性内に入る試料塩基コールエラーパターンを特定する。特に、バリエーションソース特定システム106は、試料配列決定ランを使用して試料塩基コールエラーパターンを生成する。バリエーションソース特定システム106は更に、統計的方法及び試料配列決定ランに関連付けられた製造データを利用して、配列決定ラン内のバリエーションの障害ソースを決定する。例えば、図2に図示されるように、バリエーションソース特定システム106は、試料塩基コールエラーパターン212が塩基コールエラーパターン210の閾値類似性内にあることを決定する。
【0050】
図2に図示される一連の動作200の一部として、バリエーションソース特定システム106は、障害ソースを決定する動作208を実行する。塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて、バリエーションソース特定システム106は、配列決定パイプラインに対応する塩基コールエラータイプについての障害ソースを決定する。いくつかの実施形態では、バリエーションソース特定システム106は、統計モデルを利用して、配列決定パイプラインからの塩基コールエラーに寄与する配列決定パイプライン材料の確率を示す寄与メトリックを決定する。バリエーションソース特定システム106は更に、寄与メトリックに基づいて、塩基コールエラータイプについての障害ソースを決定することができる。
【0051】
そのような統計モデルの一例として、いくつかの実施形態では、バリエーションソース特定システム106は、分散成分モデルを利用して、配列決定パイプラインに起因する塩基コールエラーに寄与する配列決定パイプライン材料についての割り当て可能な原因のバリエーションを決定する。図6A図6C及び対応する段落は、配列決定パイプラインに対応する塩基コールエラータイプについて障害ソースを決定するバリエーションソース特定システム106に関する更なる詳細を提供する。
【0052】
図2は、配列決定パイプラインに対応する1つ以上の障害ソースを決定するためにバリエーションソース特定システム106が実行する動作の一般的な概要を提供する。以下の図及び段落は、図2に図示される一連の動作内の動作に関する更なる詳細を提供する。例えば、図3及び対応する段落は、1つ以上の実施形態による、塩基コールエラー率を決定するバリエーションソース特定システム106に関する追加の詳細を提供する。
【0053】
図3に図示されるように、バリエーションソース特定システム106は、配列決定装置306を利用して、参照ゲノム302のヌクレオチド断片リード308を生成する。バリエーションソース特定システム106は、配列決定システム310(例えば、配列決定システム104)を更に利用して、ヌクレオチド断片リード308に基づいて、ヌクレオチド塩基コール312を生成する。バリエーションソース特定システム106は、混同行列314を生成及び利用して、ヌクレオチド塩基コール312を参照ゲノム302の参照塩基304と比較する。バリエーションソース特定システム106は更に、エラー率を正規化する動作322を実行して、正規化されたエラー率324を生成することによって、混同行列314によって出力された混同行列データ320を処理する。
【0054】
図3に更に図示されるように、バリエーションソース特定システム106は、参照塩基304を含む参照ゲノム302を利用して、ヌクレオチド塩基コール312を生成する。一般に、参照ゲノム302は、参照塩基304の既知の配列を含有する。バリエーションソース特定システム106は、ヌクレオチド塩基コールの精度を測定するための対照として参照ゲノム302を利用する。いくつかの実施形態では、例えば、参照ゲノム302は、PhiXゲノムを含む。PhiXは、一本鎖DNAを有する正二十面体型の非尾部バクテリオファージである。いくつかの実施形態では、バリエーションソース特定システム106は、参照ゲノム302として他の対照ゲノムを利用する。例えば、参照ゲノム302は、スパイクインゲノムDNA、又は変異誘発を示すか若しくはシミュレートする変異配列を含むことができる。
【0055】
図3に更に図示されるように、バリエーションソース特定システム106は、配列決定装置306及び配列決定システム310を利用して、参照ゲノム302についてのヌクレオチド塩基コール312を生成する。一般に、配列決定装置306は、参照ゲノム302内からの様々な断片の配列を示すヌクレオチド断片リード308を生成する。配列決定システム310は、ヌクレオチド断片リード308を参照ゲノム302とアライメントさせて、ヌクレオチド塩基コール312を生成する。ヌクレオチド断片リード308は、不正確なヌクレオチド塩基コールを含み得るため、ヌクレオチド断片リード308は、参照ゲノム302と良好にアライメントしない場合がある。例えば、ヌクレオチド断片リード308からのいくつかのヌクレオチド塩基コールは、参照ゲノム302と一致せず、閾値メトリックを下回る(例えば、相対MAPQスコアを下回る、又はMAPQ 40を下回る)マッピング品質メトリックが得られる場合がある。同様に、配列決定装置306又は配列決定パイプラインの他の部分は、不完全な部分、試薬、又はソフトウェアを含むので、配列決定システム104は、ヌクレオチド塩基コール312の一部として不正確なヌクレオチド塩基コールを生成する場合がある。
【0056】
図3に更に図示されるように、バリエーションソース特定システム106は、混同行列314を利用して、ヌクレオチド塩基コール312内のエラーを検出する。一般に、混同行列314は、配列決定装置306及び配列決定システム310の性能を評価する。いくつかの実施形態では、混同行列314は、図3に図示されるような表を含む。この表は、予測塩基コール316及び実際の塩基318についての異なるクラスを含む。予測された塩基コール316は、ヌクレオチド塩基コール312からの塩基コールを表す。実際の塩基318は、既知である参照塩基304を表す。
【0057】
バリエーションソース特定システム106は、配列決定パイプラインがヌクレオチド塩基コールを正確に予測した各インスタンスのカウントを生成することによって、混同行列314を利用する。バリエーションソース特定システム106はまた、混同行列314を利用して、不正確なヌクレオチド塩基コールに関する詳細を提供する。例えば、バリエーションソース特定システム106は、混同行列314を利用して、実際の塩基及び不正確なヌクレオチド塩基コールを示すことができる。例えば、バリエーションソース特定システム106は、混同行列314を利用して、配列決定パイプラインが実際のA塩基に対して不正確なC塩基コールを決定する単一のインスタンスを決定する。
【0058】
上で示唆されたように、バリエーションソース特定システム106は、混同行列314を利用して、混同行列データ320を生成する。混同行列データ320は、配列決定パイプラインが正確なヌクレオチド塩基コール及び不正確なヌクレオチド塩基コールを生成したインスタンスの数を示す。混同行列314中の数は、配列決定システム310が正確なヌクレオチド塩基コール又は不正確なヌクレオチド塩基コールを生成したインスタンスの数を示す。
【0059】
例えば、混同行列314は、配列決定システム310が、87個のインスタンスではA塩基、88個のインスタンスではT塩基、85個のインスタンスではG塩基、及び79個のインスタンスではC塩基を正確に特定したことを示す。対照的に、バリエーションソース特定システム106は、混同行列314を利用して、実際の塩基Tに対して、配列決定システム310が3つのインスタンスで不正確なA塩基コールを生成したことを決定する。同様に、バリエーションソース特定システム106は、1つのA→Cコール、1つのT→Gコール、2つのG→Cコール、及び4つのC→Tコールを特定する。図3に図示される混同行列データ320は、実際のA塩基に特化した混同行列データを含む。
【0060】
いくつかの実施形態では、図3に図示されるように、バリエーションソース特定システム106は、エラー率を正規化する動作322を実行する。動作322を実行することによって、バリエーションソース特定システム106は、ヌクレオチド塩基コールの数にかかわらず、ある配列決定ランの結果を別の配列決定ランと正確に比較することができる。バリエーションソース特定システム106は、異なる正規化方法を利用して、動作322を実行することができる。例えば、いくつかの実施形態では、バリエーションソース特定システム106は、特定のエラーのインスタンスの数を、対応する正確なヌクレオチド塩基コールのインスタンスの数で割ることによって、動作322を実行する。
【0061】
そのような正規化を示すために、図3に図示されるバリエーションソース特定システム106は、A→Cエラーのインスタンスを正確なA→Aコールのインスタンスの数で割ることによって、正規化されたパーセントエラーを計算する。この例では、バリエーションソース特定システム106は、1(A→Cエラー)を87(A→A正確なコール)で割る。他の実施形態では、バリエーションソース特定システム106は、範囲へのスケーリング、対数スケーリング、及び他の方法などの異なる正規化方法を利用して、エラー率を正規化する動作322を実行する。
【0062】
図3は、正規化されたエラー率324を更に図示する。バリエーションソース特定システム106は、上記の方法に従って、各特定のエラーを正規化する。一般に、そして図3に図示されるように、配列決定サイクル内のエラー率は、ヌクレオチド固有のである傾向がある。バリエーションソース特定システム106は、実際のヌクレオチド塩基及び不正確なヌクレオチド塩基に基づいて正規化されたエラー率を決定することによって、エラー率のヌクレオチド特異性を考慮に入れる。例えば、図3に図示されるように、A→Tエラーは、他の塩基コールエラータイプよりも一般的なエラー率に大きく寄与する。
【0063】
更に、いくつかの実施形態では、バリエーションソース特定システム106は、各配列決定サイクルのエラー率を正規化する。図3に図示されるグラフは、配列決定サイクルにわたる各塩基コールエラータイプについての正規化されたエラー率を示す。例えば、バリエーションソース特定システム106は、A→T塩基コールエラータイプが配列決定サイクル150と200との間で劇的に増加していることを決定する。
【0064】
図3及び対応する段落は、1つ以上の実施形態による、正規化されたエラー率を生成することによって塩基コールエラー率を決定するバリエーションソース特定システム106を説明する。前述したように、バリエーションソース特定システム106は、更に、塩基コールエラータイプに従ってグループ化された塩基コールエラー率から塩基コールエラーパターンを更に検出することができる。図4及び対応する説明は、1つ以上の実施形態による、塩基コールエラーパターンを検出するバリエーションソース特定システム106に関する更なる詳細を提供する。図4に示されるように、バリエーションソース特定システム106は、各不正確なヌクレオチド塩基コールについて、塩基コールエラータイプ及び隣接ヌクレオチド塩基を決定する。更に、バリエーションソース特定システム106は、不正確なヌクレオチド塩基コールを、隣接ヌクレオチド塩基及び塩基コールエラータイプに従ってグループ化し、グループ化された不正確な塩基コールに基づいて塩基コールエラーパターンを検出する。
【0065】
図4に図示されるように、一連の動作400は、塩基コールエラータイプ及び異なる隣接ヌクレオチド塩基に従ってグループ化された塩基コールエラー率を決定する動作402を含む。前述したように、A→Tなどの特定の塩基コールエラータイプは、他の塩基コールエラータイプよりも一般的なエラー率に大きく寄与する場合がある。更に、混同行列データは、特定の塩基コールエラータイプがより高いエラー率を有することを示し得るが、隣接ヌクレオチドもまた、一般的なエラー率に対する主要な寄与因子であり得る。一般に、バリエーションソース特定システム106は、塩基コールエラー率のグループを決定し、決定されたグループに基づいて塩基コールエラーパターンを決定する。上で言及したように、塩基コールエラータイプは、正確なヌクレオチド塩基コールの特定タイプの代わりに、不正確なヌクレオチド塩基コールの特定タイプを決定することを含むことができる。例えば、バリエーションソース特定システム106は、実際の塩基Aに対して、不正確なヌクレオチド塩基コールTを示すA→Tの塩基コールエラータイプを決定する。バリエーションソース特定システム106は、各不正確なヌクレオチド塩基コールに対して塩基コールエラータイプを決定し、塩基コールエラータイプに従って塩基コールエラー率をグループ化する。
【0066】
追加的に、又は代替的に、バリエーションソース特定システム106は、異なる隣接ヌクレオチド塩基に従って、塩基コールエラー率をグループ化する。特に、バリエーションソース特定システム106は、可能な隣接上流及び下流ヌクレオチド塩基の各組み合わせについてグループを決定する。いくつかの実施形態では、バリエーションソース特定システム106は、単一の上流隣接ヌクレオチド塩基及び単一の下流隣接ヌクレオチド塩基に基づいて、グループを決定する。例えば、図4に図示されるように、バリエーションソース特定システム106は、上流T及び下流T(すなわち、T_T)が隣接する不正確なヌクレオチド塩基コールを含むグループを決定することができる。一例では、バリエーションソース特定システム106は、塩基コールエラータイプとは無関係に、隣接ヌクレオチド塩基に基づいてグループを決定する。他の実施形態では、バリエーションソース特定システム106は、塩基コールエラータイプと隣接ヌクレオチド塩基との両方の組み合わせに基づいて、グループを決定する。
【0067】
例示すると、バリエーションソース特定システム106は、特定の塩基コールエラータイプの塩基コールエラー率を、隣接するヌクレオチド塩基に従ってグループに割り当てることができる。例えば、バリエーションソース特定システム106は、A→T塩基コールエラータイプの塩基コールエラー率を、隣接するヌクレオチド塩基に従ってグループ化する。塩基コールエラータイプと異なる隣接ヌクレオチド塩基との両方に従って塩基コールエラー率をグループ化することによって、バリエーションソース特定システム106は、塩基コールエラー率のより詳細なグループを生成する。
【0068】
図4は、2つの隣接ヌクレオチド塩基(1つの上流塩基及び1つの下流塩基)に従って、塩基コールエラー率をグループ化することが図示されているが、バリエーションソース特定システム106は、より多くの隣接ヌクレオチド塩基に従って塩基コールエラー率をグループ化することができる。例えば、バリエーションソース特定システム106は、4つの隣接ヌクレオチド塩基(例えば、2つの上流塩基及び2つの下流塩基)、6つの隣接ヌクレオチド塩基(例えば、3つの上流塩基及び3つの下流塩基)、又はそれ以上を考慮に入れることによって、より多くのグループを描写することができる。
【0069】
図4に更に図示されるように、バリエーションソース特定システム106は、グループ化された塩基コールエラー率から塩基コールエラーパターンを検出する動作404を実行する。一般に、塩基コールエラーパターンは、一緒に移動又は発生する正規化されたヌクレオチド固有のエラーのセットを含む。より具体的には、バリエーションソース特定システム106は、塩基コールエラー率のどのグループが互いに一致して増加するかを追跡する。例えば、1つ以上の実施形態では、バリエーションソース特定システム106は、単に、塩基コールエラーパターンとして、塩基コールエラータイプ及び/又は隣接ヌクレオチド塩基に従ってグループ化された正規化されたエラー率を使用する。
【0070】
図4に図示される3次元チャートは、例示的な塩基コールエラーパターンを表す。図示されるように、バリエーションソース特定システム106は、T_Aが隣接する場合はC→Aで、C_Tグループ化が隣接する場合はA→Cで、より多くの数の塩基コールエラー率又は単一ヌクレオチドバリアント(Single Nucleotide Variant、SNV)を特定する。
【0071】
いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラーパターンの一部として塩基コールエラー率をカウントするための閾値エラー値を決定する。一般に、配列決定ランは、ベースラインエラーを受ける。いくつかの例では、バリエーションソース特定システム106は、閾値エラー値を利用することによって、塩基コールエラーパターンのその検出においてベースラインエラーを無視することを決定する。特に、いくつかの実施形態では、バリエーションソース特定システム106は、予想されるベースラインエラーを利用して、閾値エラー値を決定する。バリエーションソース特定システム106は、配列決定システムからの品質データ又は他のエラー予測方法を利用することによって、ユーザ入力に基づいて予想されるベースラインエラーを決定する。
【0072】
1つ以上の例では、バリエーションソース特定システム106は、予想されるベースラインエラーの倍率を決定することによって閾値エラー値を決定する。例えば、少なくとも1つの実施形態では、バリエーションソース特定システム106は、閾値エラー値が予想されるベースラインエラーの2倍であると決定する。いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラー率の全てのグループにわたって同じ閾値エラー値を利用する。例えば、バリエーションソース特定システム106は、予想されるベースラインエラー率が0.1%であると決定し、それに応じて、閾値エラー値を0.2%エラー率として設定する。したがって、バリエーションソース特定システム106は、塩基コールエラーパターンを検出する場合、0.2%未満の塩基コールエラー率を無視する。いくつかの実施形態では、バリエーションソース特定システム106は、予想されるベースラインエラーの異なる倍率を閾値エラー値として利用する。例えば、バリエーションソース特定システム106は、閾値エラー値を決定するために、予想ベースラインエラーを2.5倍、3倍などに拡大することができる。いくつかの実施形態では、バリエーションソース特定システム106は、PhiXなどの参照ゲノムを配列決定する過去の配列決定ランに基づいて、予想されるベースラインエラー率を予め決定する。
【0073】
いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラー率の各グループに対応する複数の閾値エラー率を決定する。バリエーションソース特定システム106は、塩基コールエラー率の各グループについて予想されるベースラインエラーを決定する。例えば、バリエーションソース特定システム106は、各塩基コールエラータイプについて予想されるベースラインエラーを決定することができる。追加的に、又は代替的に、バリエーションソース特定システム106は、異なる隣接ヌクレオチド塩基について予想されるベースラインエラーを決定することができる。例示すると、バリエーションソース特定システム106は、A→Tのベースラインエラー率が0.1%に等しく、T→Cのベースラインエラー率が0.05%に等しいと決定することができる。したがって、バリエーションソース特定システム106は、A→Tの閾値エラー値が0.2%(0.1%×2)に等しく、T→Cの閾値エラー値が0.1%(0.05%×2)に等しいと決定する。言及したように、バリエーションソース特定システム106は、隣接ヌクレオチド塩基のグループ、又は塩基コールエラータイプと隣接ヌクレオチド塩基との組み合わせについて追加の閾値エラー値を決定することができる。
【0074】
図4は、1つ以上の実施形態による、塩基コールエラーパターンを検出するバリエーションソース特定システム106を図示する。言及したように、バリエーションソース特定システム106は、塩基コールエラーパターンに相関する試料塩基コールエラーパターンを特定する。試料塩基コールエラーパターンは、既知の製造データを用いた試料配列決定ランからのものである。いくつかの実施形態では、試料配列決定ラン及び製造データを分析することによって、バリエーションソース特定システム106は、試料配列決定ランに対応する障害ソースを予測することができる。
【0075】
図5及び対応する議論は、1つ以上の実施形態による、1つ以上の試料配列決定ランについて試料塩基コールエラーパターンを特定するバリエーションソース特定システム106を説明する。図5に図示されるように、バリエーションソース特定システム106は、1つ以上の試料配列決定ランについて試料塩基コールエラーパターンを特定する動作500を実行する。特に、バリエーションソース特定システム106は、配列決定パイプラインに対応する1つ以上の配列決定パイプラインを利用する1つ以上の試料配列決定ランについて試料塩基コールエラーパターンを特定する。より具体的には、バリエーションソース特定システム106は、特定の配列決定パイプラインに対応する試料塩基コールエラーパターンを検索する。例えば、塩基コールエラー率が配列決定装置のモデルx及び一連の消耗品yを利用する第1の試料配列決定パイプラインによって生成されるとバリエーションソース特定システム106が決定する場合、バリエーションソース特定システム106は、配列決定装置のモデルx(又は同様のモデル)及び一連の消耗品y(又は同様のモデル)を利用する試料配列決定ランから1つ以上の試料塩基コールエラーパターンを特定する。例示すると、そのような試料塩基コールエラーパターンを特定するために、バリエーションソース特定システム106は、類似の製造材料を利用する試料配列決定ランのセットを分類する動作508、試料配列決定ランのセットについて異なる試料塩基コールエラーパターンを検出する動作510、及び塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて試料塩基コールエラーパターンを特定する動作512を含む、一連の動作を実行する。
【0076】
図5は、類似の製造材料を利用する試料配列決定ランのセットを分類する動作508を実行するバリエーションソース特定システム106を図示する。一般に、試料配列決定ラン内の障害ソースを特定することの一部として、バリエーションソース特定システム106は、類似の製造材料を伴う試料配列決定ランのセットを定義する。言及したように、バリエーションソース特定システム106は、ハードウェア、化学、及びソフトウェアを含む、配列決定パイプライン内の様々なタイプの障害ソースを特定することができる。ハードウェアは、配列決定装置を構成する機器、並びに配列決定装置が配列決定中に利用するヌクレオチド試料スライド(例えば、フローセル)などのいくつかの消耗品の両方を必要とする。化学は、試薬及び試薬間の相互作用又は消耗品と試薬との間の相互作用、並びに試薬と配列決定装置のハードウェア部分との間の相互作用を含む。ソフトウェアは、配列決定パイプラインによって利用されるプログラム及び動作情報を含む。例えば、ソフトウェアは、Illumina,Inc.によって提供されるDRAGENなどの配列分析ソフトウェアを含むことができる。
【0077】
いくつかの実施形態では、バリエーションソース特定システム106は、類似の消耗品を利用する試料配列決定ランのセットを特定する。例えば、図5に図示されるように、バリエーションソース特定システム106は、試料配列決定ランのセット502及び試料配列決定ランのセット504を定義する。図示されるように、セット502は、ロット1からの試薬Aを利用する試料配列決定ランを含むが、セット504は、ロット2からの試薬Aを利用する試料配列決定ランを含む。図5は、試薬に基づいてセットを分類するバリエーションソース特定システム106を図示するが、バリエーションソース特定システム106は、同様の機器又はソフトウェアを利用する試料配列決定ランに基づいてセットを分類することができる。
【0078】
セットを分類することの一部として、バリエーションソース特定システムは、単一の試料配列決定ランをいくつかのセットに割り当てることができる。例えば、バリエーションソース特定システム106は、特定の試料配列決定ランがロット1からの試薬Aを利用するという決定に基づいて、特定の試料配列決定ランをセット502に割り当てることができる。バリエーションソース特定システム106は、特定のロットからのヌクレオチド試料スライドを利用する特定の試料配列決定ランに基づいて、特定の試料配列決定ランを第2のセットに更に割り当てることができる。
【0079】
図5に更に図示されるように、バリエーションソース特定システム106は、試料配列決定ランのセットについて異なる試料塩基コールエラーパターンを検出する動作510を実行する。一般に、バリエーションソース特定システム106は、図3図4に描写されたものと同様の動作を実行して、試料配列決定ランのセットについて異なる試料塩基コールエラーパターンを検出する。いくつかの実施形態では、バリエーションソース特定システム106は、試料配列決定ランのセット内の各試料配列決定ランについて試料塩基コールエラーパターンを生成し、試料塩基コールエラーパターンを集約する。いくつかの実施形態では、バリエーションソース特定システム106は、試料配列決定ランのセット内の試料配列決定ランにわたって統計的に有意な試料エラー率を決定することができる。
【0080】
例えば、図5に図示されるように、バリエーションソース特定システム106は、セット502及びセット504についての試料塩基コールエラーパターンを決定する。図5は、塩基コールエラータイプに基づいて試料塩基コールエラー率をグループ化する試料塩基コールエラーパターンを生成するバリエーションソース特定システム106を示す。いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラータイプ及び/又は隣接ヌクレオチド塩基に基づいて、試料塩基コールエラー率をグループ化する。図6A及び対応する説明は、試料配列決定ランのセットについて異なる試料塩基コールエラーパターンを検出することに関する更なる詳細を提供する。
【0081】
図5に更に図示されるように、バリエーションソース特定システム106は、塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて、試料塩基コールエラーパターンを特定する動作512を実行する。特に、動作512は、塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて、試料配列決定ランのセットについての異なる試料塩基コールエラーパターンの中から試料塩基コールエラーパターンを特定することを含む。いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラーパターンと同じである試料塩基コールエラーパターンを特定する。いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラーパターンに類似する1つ以上の試料塩基コールエラーパターンを特定する。
【0082】
例示すると、図5において、バリエーションソース特定システム106は、塩基コールエラーパターン514を用いて、セット502とセット504との間の類似性を特定する。例えば、バリエーションソース特定システム106は、塩基コールエラーパターン514の上昇したA→T及びT→Cパーセントエラーに対応する、上昇したA→Tパーセントエラーを含むセット502を検出し、上昇したT→Cパーセントエラーを含むセット504を検出する。
【0083】
図5は、試料配列決定ランのセットについて塩基コールエラーパターンを比較するバリエーションソース特定システム106を示すが、いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラーパターン514を、障害固有の試料塩基コールエラーパターン又は個々の試料塩基コールエラーパターンと比較する。特に、障害固有の試料塩基コールエラーパターンを決定するために、バリエーションソース特定システム106は、単一の障害モードに対応する試料塩基コールエラーパターンを生成する。特に、いくつかの実施形態では、バリエーションソース特定システム106は、特定の障害ソースとともに増加する障害固有の試料塩基コールエラー率を特定する。例えば、バリエーションソース特定システム106は、隣接ヌクレオチド塩基としてT_Tを伴うA→C塩基コールエラータイプの試料塩基コールエラー率の増加が、フローセルロット課題と直接相関することを決定することができる。いくつかの実施形態では、バリエーションソース特定システム106は、図6Aに対応する段落において以下で更に詳細に説明される統計モデルを利用することによって、障害固有の試料塩基コールエラーパターンを生成する。
【0084】
したがって、追加的に又は代替的に、塩基コールエラーパターン514に対応する試料配列決定ランのセットから試料塩基コールエラーパターンを特定することに加えて、又はその代わりに、バリエーションソース特定システム106は、塩基コールエラーパターン514に対応する1つ以上の障害固有の試料塩基コールエラーパターンを特定する。例えば、塩基コールエラーパターン514がA→T塩基コールエラー率の上昇したパーセントエラーを含むと決定することに基づいて、バリエーションソース特定システム106は、対応するA→T障害固有の試料塩基コールエラーパターンを特定する。同様に、バリエーションソース特定システム106は、塩基コールエラーパターン514内の上昇したT→C及びG→C塩基コールエラー率に対応する上昇したT→C及びG→Cパーセントエラーの組み合わせを含む第2の障害固有の試料塩基コールエラーパターンを特定することができる。
【0085】
いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラーパターン514に対応する個々の試料塩基コールエラーパターンを特定する。特に、セット内の試料配列決定ランについての試料塩基コールエラーパターンを集約する代わりに、バリエーションソース特定システム106は、塩基コールエラーパターン514に対応する個々の塩基コールエラーパターンを選択する。
【0086】
1つ以上の実施形態では、バリエーションソース特定システム106は、機械学習モデルを利用して、塩基コールエラーパターン514に類似する試料塩基コールエラーパターンを特定することによって、塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて、試料塩基コールエラーパターンを特定する動作512を実行する。例えば、バリエーションソース特定システム106は、K平均クラスタリング、多変量k平均クラスタリング、又は他のタイプのクラスタリングアルゴリズムなどのクラスタリングアルゴリズムを利用することができる。一例では、バリエーションソース特定システム106は、試料塩基コールエラーパターンを利用して、クラスタリングアルゴリズムを訓練する。特に、バリエーションソース特定システム106は、試料塩基コールエラーパターンを利用して、どの試料配列決定ランが同様の試料障害ソースをもたらしたかを予測することができる。バリエーションソース特定システム106は、訓練されたクラスタリングアルゴリズムを塩基コールエラーパターンに適用して、どの1つ以上の試料塩基コールエラーパターンが塩基コールエラーパターンに最も類似しているかを特定する。
【0087】
いくつかの実施形態では、バリエーションソース特定システム106は、ユーザ入力を利用して、上記の機械学習モデルを更に訓練する。例えば、バリエーションソース特定システム106は、ユーザに表示するために、予測された障害ソースを確認するオプションを提供することができる。予測された障害ソースを障害ソースとして確認するクライアント装置からのデータ指示に基づいて、バリエーションソース特定システム106は、障害ソースに関連付けられた確率を更に検証することができる。対照的に、予測された障害ソースの拒否を受信することに基づいて、バリエーションソース特定システム106は、機械学習モデルのパラメータを調整して、将来により正確な予測(例えば、寄与メトリック)を提供することができる。
【0088】
いくつかの実施形態では、及び図5に図示されるように、バリエーションソース特定システム106は、1つ以上の試料配列決定ランについて既存の試料塩基コールエラーパターンを特定する。特に、バリエーションソース特定システム106は、試料塩基コールエラーパターンのリポジトリからの塩基コールエラーパターンと同じ又は類似する既存の試料塩基コールエラーパターンを特定することができる。より具体的には、バリエーションソース特定システム106は、上記のクラスタリングアルゴリズムを利用して、塩基コールエラーパターンのリポジトリから類似の既存の試料塩基コールエラーパターンを決定することができる。例えば、バリエーションソース特定システム106は、塩基コールエラーパターンが、C_G隣接ヌクレオチドを有するC→G塩基コールエラータイプ及びA_T隣接ヌクレオチドを有するA→T塩基コールエラータイプのエラー率の上昇を示すと決定することができる。バリエーションソース特定システム106は、C_G隣接ヌクレオチドを有するC→G塩基コールエラータイプの同じ上昇したエラー率を有する第1の既存の試料塩基コールエラーパターンと、A_T隣接ヌクレオチドを有するA→T塩基コールエラータイプの同様の上昇したエラー率を有する第2の既存の試料塩基コールエラーパターンとを特定することができる。したがって、A_T隣接ヌクレオチドを有するA→T塩基コールエラータイプは、塩基コールエラーパターンと第1及び第2の既存の試料塩基コールエラーパターンとの間の相関を決定する。
【0089】
塩基コールエラーパターンと試料塩基コールエラーパターンとの間の相関に基づいて、試料塩基コールエラーパターンを特定する動作512を実行することの一部として、いくつかの場合では、バリエーションソース特定システム106は、塩基コールエラーパターンと相関しない試料塩基コールエラーパターンをフィルタ除去する。例えば、いくつかの実施形態では、塩基コールエラーパターンが1つ以上の試料塩基コールエラーパターンに対応すると決定することに基づいて、バリエーションソース特定システム106は、1つ以上の試料塩基コールエラーパターンに対応しない、類似しない試料塩基コールエラーパターンのセットをフィルタ除去する。類似しない試料塩基コールエラーパターンを除外することによって、バリエーションソース特定システム106は、問題の塩基コールエラーパターンに対する最良の対応又は一致について、残りの試料塩基コールエラーパターンを分析することができる。
【0090】
追加的に、又は代替的に、バリエーションソース特定システム106は、1つ以上の試料配列決定ランについての新しい試料塩基コールエラーパターンを検出する。特に、いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラーパターンが既存の試料塩基コールエラーパターンに対応しないと決定する。そのような場合、バリエーションソース特定システム106は、塩基コールエラーパターンに基づいて、新しい試料塩基コールエラーパターンを特定することができる。例えば、バリエーションソース特定システム106は、塩基コールエラーパターンを新しい試料塩基コールエラーパターンとして指定し、統計モデルを利用して、新しい試料塩基コールエラーパターンを、新しい試料塩基コールエラーパターンに対応する製造データとともに分析することができる。他の実施形態では、バリエーションソース特定システム106は、塩基コールエラーパターンに類似する試料塩基コールエラーパターンの組み合わせを集約することによって、新しい試料塩基コールエラーパターンを検出する。
【0091】
一般に、前述したように、バリエーションソース特定システム106は、1つ以上の試料塩基コールエラーパターンと塩基コールエラーパターンとの間の相関を決定する。バリエーションソース特定システム106は、1つ以上の試料塩基コールエラーパターンに対応する障害ソースを特定することによって、塩基コールエラーパターンについての障害ソースを更に特定する。図5及び対応する段落は、塩基コールエラーパターンに対応する1つ以上の試料塩基コールエラーパターンを特定するバリエーションソース特定システム106を説明するが、図6A図6C及び対応する説明は、試料塩基コールエラーパターンと障害ソースとの間の相関を決定するバリエーションソース特定システム106を説明する。言及したように、バリエーションソース特定システム106は、配列決定パイプラインからの塩基コールエラーに寄与する配列決定パイプライン材料の確率を示す寄与メトリックを決定する。
【0092】
図6A図6C及び対応する段落は、1つ以上の実施形態による、試料塩基コールエラーパターン及び/又は塩基コールエラーパターンに対応する障害ソースを決定する、バリエーションソース特定システム106に関する詳細を提供する。概して、図6A図6Cは、配列決定パイプラインからの塩基コールエラーに寄与する配列決定パイプライン材料620の確率を示す寄与メトリック622を決定するために、統計モデル614を利用して、バリエーションソース特定システム106が処理する入力を図示する。概要として、バリエーションソース特定システム106は、統計モデル614を利用して、試料配列決定データ616及び製造データ618を処理する。
【0093】
図6Aに示されるように、バリエーションソース特定システム106は、統計モデル614への入力として使用するために試料配列決定データ616を処理する。特に、図6Aは、試料ヌクレオチド断片リードを集約する動作602、正規化された試料エラー率を決定する動作604、並びに塩基コールエラータイプ及び異なる隣接ヌクレオチド塩基に従って正規化された試料エラー率をグループ化する動作608を含む、試料配列決定データ616を処理するためのいくつかの動作を示す。図6Aは、製造データ618を処理するためのいくつかの動作を更に図示する。特に、バリエーションソース特定システム106は、製造識別データを短縮する動作610、及び閾値数の配列決定ランをグループ化することによって配列決定ランのセットを生成する動作612を実行する。
【0094】
上で示したように、バリエーションソース特定システム106は、配列決定装置を利用して、参照ゲノムについての試料ヌクレオチド塩基コールを生成することができる。いくつかの実施形態では、試料ヌクレオチド断片リードを集約する動作602を実行する前に、バリエーションソース特定システム106は、試料配列決定データ616の品質を改善するために追加の前処理動作を実行する。例えば、バリエーションソース特定システム106は、合格した試料配列決定ランを特定する追加の動作、及びアライメントエラーを除去する追加の動作を実行することができる。いくつかの実施形態では、試料配列決定ランは、配列決定装置が閾値エラー標準を実行することを確実にするための品質保証手段の一部である。したがって、特定の配列決定装置からのいくつかの試料配列決定ランは、閾値エラー標準を超えるエラー率を含む。したがって、いくつかの実施形態では、バリエーションソース特定システム106は、正常な配列決定バリエーションのより現実的な表現を提供するために、合格しない試料配列決定ランを除去する。
【0095】
試料ヌクレオチド断片リードを集約する動作602を実行することの一部として、いくつかの実施形態では、バリエーションソース特定システム106は、バリアントコールフォーマット(Variant Call Format、VCF)ファイルなどのバリアントコールファイルからのデータを処理する。一般に、バリアントコールファイルは、参照ゲノムにおける特定の位置又はゲノム座標で見出されるバリアントについての情報を含む。したがって、動作602を実行することの一部として、バリエーションソース特定システム106は、各配列決定ランについて、リード1フォワード(read one forward、R1F)、リード1リバース(read one reverse、R1R)、リード2フォワード(read two forward、R2F)、及びリード2リバース(read two reverse、R2R)のVCFデータを集約する。集約されたVCFデータは、正常な配列決定バリエーションの表現を提供することができる。様々なリードについてVCFデータを集約することによって、いくつかの場合では、バリエーションソース特定システム106は、集約リード1(read one、R1)及び集約リード2(read two、R2)のVCFデータを生成する。
【0096】
更に、前述したように、バリエーションソース特定システム106は、時に、試料配列決定データ616内のアライメントエラーを除去する追加の前処理ステップを実行する。特に、バリエーションソース特定システム106は、閾値バリアント頻度を超えて生じるアライメントエラーを特定し、特定されたアライメントエラーを除去することができる。例えば、アライメントエラーが60%の閾値バリアント頻度を超えて生じると決定することに基づいて、バリエーションソース特定システム106は、参照ゲノムのアライメントエラーを除去する。
【0097】
図6Aに更に図示されるように、バリエーションソース特定システム106は、試料ヌクレオチド断片リードを集約する動作602を実行する。一般に、バリエーションソース特定システム106は、単一の配列決定ランからの複数のリードを集約して、試料配列決定データを統合する。特に、配列決定システムは、典型的には、参照ゲノムから抽出されたオリゴヌクレオチドからの数千~数百万のヌクレオチド断片リードを決定する。更に、配列決定システムは、フォワードヌクレオチド断片リード及びリバースヌクレオチド断片リードの両方を決定することもできる。例えば、いくつかの実施形態では、配列決定システムは、各試料配列決定ランについて、R1F、R1R、R2F、及びR2Rを生成する。
【0098】
ヌクレオチド断片リードを決定した後、バリエーションソース特定システム106は、ヌクレオチド断片リードを参照ゲノムとアライメントさせる。より具体的には、バリエーションソース特定システム106は、R1F及びR2Fリードを参照ゲノムのフォワード部分にアライメントさせ、バリエーションソース特定システム106は、R1R及びR2Rのリードを参照ゲノムの逆相補鎖にアライメントさせる。いくつかの実施形態では、バリエーションソース特定システム106は、フォワードリードとリバースリードとを組み合わせて、データを更に単純化する。
【0099】
図6Aによって示唆されるように、ヌクレオチド断片リードをアライメントさせた後、バリエーションソース特定システム106は、アライメントされたヌクレオチド断片リードを分析して、試料ヌクレオチド塩基コールを決定する。バリエーションソース特定システム106は更に、試料ヌクレオチド塩基コールを参照ゲノムの参照塩基と比較して、正確な試料ヌクレオチド塩基コール及び不正確な試料ヌクレオチド塩基コールを特定することができる。例えば、いくつかの実施形態では、バリエーションソース特定システム106は、図3に図示される混同行列を利用して、試料ヌクレオチド固有のエラー率を決定する。
【0100】
図6Aに更に図示されるように、バリエーションソース特定システム106は、正規化された試料エラー率を決定する動作604を実行する。一般に、バリエーションソース特定システム106は、混同行列を利用して、試料塩基コールエラー率を生成することができる。バリエーションソース特定システム106は、図3に関連して上述したように、バリエーションソース特定システム106が塩基コールエラー率を正規化する方法と同様の様式で、試料塩基コールエラー率を正規化する。いくつかの実装形態では、バリエーションソース特定システム106は、パーセントエラーが、特定のエラーのカウントを正確なコールのカウントで割ったものに等しいと決定する。バリエーションソース特定システム106が塩基コールエラー率を正規化する方法を説明する上記の開示と一致して、バリエーションソース特定システム106は、特定の塩基コールエラータイプ及び/又は隣接ヌクレオチド塩基について、正規化された試料塩基コールエラー率を決定することができる。
【0101】
図6Aに更に示されるように、正規化された試料エラー率を決定する動作604を実行した後、バリエーションソース特定システム106は、正規化された試料エラー率を、塩基コールエラータイプ及び異なる隣接ヌクレオチド塩基に従ってグループ化する動作608を実行する。特に、バリエーションソース特定システム106は、図4に関連して上述したように、バリエーションソース特定システム106が正規化された塩基コールエラー率をグループ化する方法と同様の様式で、正規化された試料エラー率をグループ化することによって、試料塩基コールエラーパターンを生成する。1つ以上の実施形態では、バリエーションソース特定システム106は、試料塩基コールエラーパターンを、統計モデル614への入力として利用する。
【0102】
図6Aは、バリエーションソース特定システム106が、統計モデル614による分析のために試料配列決定データ616を前処理及び処理する例示的な一連の動作を図示する。特に、図6Aは、正規化された試料エラー率及び試料エラー率のグループを、統計モデル614への入力として利用することを示す。追加的に、又は代替的に、バリエーションソース特定システム106は、他の試料配列決定データを、統計モデル614への入力として利用する。例示すると、いくつかの実施形態では、バリエーションソース特定システム106は、配列決定ランエラー率、品質スコア、アライメントメトリック、リード深度、及び配列決定パイプラインから得られた他の一次又は二次メトリックにアクセスすることができる。
【0103】
図6Aに更に図示されるように、バリエーションソース特定システム106は、統計モデル614を利用して、製造データ618を分析する。一般に、バリエーションソース特定システム106は、製造データ618を処理して、同様の製造材料、他のハードウェア、化学、及び/又はソフトウェアを利用する試料配列決定ランのセットを特定する。製造データは、一般に、配列決定ランにおいて使用される材料、ハードウェア、化学、及び/又はソフトウェアの識別及び様々な特性を示すデータを含む。特に、製造データは、ハードウェア、消耗品、又はソフトウェアの一部に関連する汎用、識別、製造番号、又は他の識別情報を含むことができる。例えば、製造データは、試薬、部品、又はソフトウェアバージョンに関連するロット番号又は製造日若しくは発売日を含むことができる。いくつかの実施形態では、バリエーションソース特定システム106は、製造識別データを短縮する動作610及び閾値数の配列決定ランをグループ化することによって配列決定ランのセットを生成する動作612を実行することによって、製造データ618を処理する。
【0104】
いくつかの実施形態では、図6Aに図示されるように、バリエーションソース特定システム106は、製造識別データを短縮する動作610を実行する。多くの場合、障害ソースは、同じ若しくは類似のロットからの製造材料、又は同じ若しくは類似の時間枠内に生産された製造材料に限定される。例えば、ある製造材料において明らかな生産エラーは、同じ生産ロットからの同様の製造材料に影響を与える可能性が高い。バリエーションソース特定システム106が類似の製造材料を特定する1つの方法は、製造識別データを短縮する動作610を実行することによる。製造識別データは、バーコードID又は他の製造識別コードを含むことができる。図示されるように、バリエーションソース特定システム106は、7桁の製造識別番号を4桁の短縮された製造IDに短縮することができる。
【0105】
図6Aに更に図示されるように、バリエーションソース特定システム106は、閾値数の配列決定ランをグループ化することによって、配列決定ランのセットを生成する動作612を実行する。特に、バリエーションソース特定システム106は、短縮された製造識別データを共有する閾値数の配列決定ランをグループ化することによって配列決定ランのセットを生成することによって、動作612を実行する。図示するように、バリエーションソース特定システム106は、製造識別番号1234567、1234566、1234565、及び1234564に対応する配列決定ランを、それらが同じ短縮された製造識別データ1234を共有することに基づいてグループ化する。いくつかの実施形態では、バリエーションソース特定システム106はまた、配列決定ランのセットに割り当てられる配列決定ランの目標パーセンテージを設定する。例えば、バリエーションソース特定システム106は、配列決定ランの少なくとも80%を、少なくとも10回以上の配列決定ランを含むセットにグループ化することを対象とすることができる。
【0106】
図6Aは、1つ以上の実施形態による、製造データ618を処理するための特定の一連の動作を実行するバリエーションソース特定システム106を示す。バリエーションソース特定システム106は、統計モデル614への入力のための製造データ618を処理するための追加又は代替の方法を利用することができる。例えば、製造識別データを利用する代わりに、バリエーションソース特定システム106は、ベンダ、ハードウェアタイプ若しくは識別、ソフトウェアタイプ若しくは識別、又は化学タイプ若しくは識別によって、試料配列決定ランのセットを生成することができる。
【0107】
図6Aに図示されるように、バリエーションソース特定システム106は、統計モデル614を利用して、試料配列決定データ616及び製造データ618を分析する。特に、バリエーションソース特定システム106は、統計モデル614を利用して、配列決定パイプラインからの塩基コールエラーに寄与する配列決定パイプライン材料の確率を示す寄与メトリックを決定する。少なくとも1つの実施形態では、統計モデル614は、分散成分モデルを含む。バリエーションソース特定システム106は、分散成分モデルを利用して、塩基コールエラーに寄与する配列決定パイプライン材料についての割り当て可能な原因のバリエーションのパーセンテージを生成する。特に、バリエーションソース特定システム106は、分散成分モデルを利用して、所与の配列決定パイプライン材料がバリエーションソース又は他の障害ソースである確率を示すパーセンテージを決定することができる。
【0108】
追加的に、又は代替的に、統計モデル614は、他のタイプの統計モデル又はアルゴリズムを含む。例えば、1つ以上の実施形態では、統計モデル614は、連続データに対する境界値分析及び等価分割試験を含む。より具体的には、バリエーションソース特定システム106は、製造識別データを短縮する代わりに、製造識別データ全体を利用することができる。バリエーションソース特定システム106は、等価分割試験を利用して、短縮されていない製造識別データに基づいて、類似の試料配列決定データを有する等価分割又は等価配列決定ランのグループを特定する。いくつかの実施形態では、バリエーションソース特定システム106は、等価分割間の境界を試験するために境界分析試験を更に利用する。
【0109】
図6Aに更に図示されるように、バリエーションソース特定システム106は、統計モデル614を利用して、試料配列決定データ616及び試料配列決定データ616に関連付けられた製造データ618を分析する。1つ以上の実施形態では、バリエーションソース特定システム106は、統計モデル614を利用して、任意の他の配列決定データを分析する。例えば、いくつかの実施形態では、試料配列決定データ616は、製造データ618が管理されているか又は既知である内部品質試験データを表す。バリエーションソース特定システム106はまた、試料配列決定データではない配列決定データを収集することができる。例えば、いくつかの実施形態では、バリエーションソース特定システム106は、配列決定装置を利用して、配列決定データを、各配列決定ランの製造データとともに収集する。
【0110】
図6Bは、統計モデル614を利用してバリエーションソース特定システム106によって生成される例示的な出力を図示する。特に、図6Bは、配列決定パイプラインからの塩基コールエラーに寄与する配列決定パイプライン材料620の確率を示す例示的な寄与メトリック622を図示する。より具体的には、図6Bは、塩基コールエラーに寄与する配列決定パイプライン材料について、バリエーションソース特定システム106によって生成された割り当て可能な原因のバリエーションのパーセンテージを図示する。いくつかの実施形態では、バリエーションソース特定システム106は、分散成分モデルを利用することによって、パーセント割り当て可能な原因のバリエーションを生成する。一般に、パーセント割り当て可能な原因のバリエーションは、所与の配列決定パイプライン材料が特定の塩基コールエラータイプの原因である確率を表す。例えば、隣接ヌクレオチドC_Tを有するエラータイプG→Aについて、バリエーションソース特定システム106は、クラスタリング試薬HCXE2が、変性剤であるLDR(Ligase Detection Reaction)と同様に影響があると決定する。図6Bに図示されるグラフにおける各バーは、特定のヌクレオチドに対する特定のドライバが、その隣接ヌクレオチドとともに変化する確率を示す。
【0111】
図6Bに図示される配列決定パイプライン材料620は、配列決定パイプラインに寄与する様々な構成要素を示す。例えば、配列決定パイプライン材料620は、消耗品、配列決定機械の部品、又はヌクレオチド試料スライドの部品を含むことができる。いくつかの実施形態では、配列決定パイプライン材料620は、追加の構成要素を含む。一般に、配列決定パイプライン材料620は、配列決定パイプラインに寄与するハードウェア、化学、又はソフトウェアの任意の部分を含むことができる。
【0112】
言及したように、バリエーションソース特定システム106は、配列決定パイプライン材料についてのパーセント割り当て可能な原因のバリエーションを生成することができる。いくつかの実施形態では、バリエーションソース特定システム106は、パーセント割り当て可能な原因のバリエーションに基づいてランク付けされたリストを生成する。例えば、バリエーションソース特定システム106は、割り当て可能な原因の最大パーセンテージから最低パーセンテージまで、配列決定パイプライン材料をランク付けする。したがって、ランク付けは、どの配列決定パイプライン材料がエラーのシフトに対して最も可能性の高い顕著な相関を有するかを示す。更に、バリエーションソース特定システム106は、生成されたパーセント割り当て可能な原因のバリエーションに基づいて、1つ以上の障害ソースを決定することができる。例えば、いくつかの場合では、バリエーションソース特定システム106は、一次障害ソースが、最大のパーセント割り当て可能な原因のバリエーションに関連付けられた配列決定パイプライン材料であると決定する。
【0113】
図6A図6Bに関連して記載されるように、バリエーションソース特定システム106は、障害ソースと塩基コールエラーパターンとの間の相関を決定するために、塩基コールエラータイプ及び異なる隣接ヌクレオチド塩基に従ってグループ化された試料エラー率を活用する。図6Cは、塩基コールエラータイプごとに編成された塩基コールエラーのパーセンタイル発生率を表す棒グラフ624を図示する。一般に、棒グラフ624は、塩基コールエラー率が塩基コールエラータイプにわたって不均一に分布していることを示している。例えば、図6Cに図示されるように、T→A塩基コールエラータイプの塩基コールエラーは、T→G塩基コールエラータイプの塩基コールエラーよりもはるかに頻繁に発生する。更に、図6Cに図示されるように、(T→Aピーク、T→Cピーク、及びA→Tピークによって見られるように)Tを含むエラーがより一般的である。
【0114】
図6Cの棒グラフ624における影付きボックスによって更に図示されるように、塩基コールエラー率はまた、ヌクレオチド断片リードにわたって不均一に分布することができる。例えば、リード2(R2)は、おそらくR1とR2との間のシグナルの減衰に起因して、リード1(R1)よりも多くのエラーを経験する傾向がある。したがって、いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラータイプ及び異なる隣接ヌクレオチド塩基に従って正規化された試料エラー率をグループ化することに加えて、又はその代わりに、リード数(例えば、R1及びR2)に従って正規化された試料エラー率をグループ化することができる。
【0115】
図6A図6Cは、1つ以上の実施形態による、配列決定パイプラインからの塩基コールエラーに対する配列決定パイプライン材料の寄与を示す寄与メトリックを決定するために統計モデルを利用するバリエーションソース特定システム106を図示する。図7A図7Cは、1つ以上の実施形態による、バリエーションソース特定システム106が1つ以上の統計モデルを利用して障害ソースを階層的に絞り込んで寄与メトリックを生成する方法を表す一連の棒グラフを図示する。簡単な概要として、図7Aは、1つ以上の実施形態による、一般的なアセンブリ分析に基づいて割り当て可能な原因の割合を示す一般的なアセンブリの棒グラフ700を図示する。図7Bは、1つ以上の実施形態による、潜在的な障害ソースのより小さいサブセットに関して追加の詳細を提供するために、サブアセンブリに対する統計モデルを利用するバリエーションソース特定システム106から得られるサブアセンブリ構成要素の棒グラフ702を示す。図7Cは、1つ以上の実施形態による、塩基コールエラータイプの棒グラフ704を生成するために、(図7A図7Bで利用される単純な一次メトリックの代わりに)ヌクレオチド固有のエラーを使用するバリエーションソース特定システム106を図示する。
【0116】
図7A図7Cの導入として、いくつかの実施形態では、バリエーションソース特定システム106は、製造データ内の数百の変数又は潜在的な障害ソースを特定することができる。バリエーションソース特定システム106は、VCAなどの統計モデルによってより効率的に分析される階層的な様式で数百の変数を処理することができる。いくつかの実施形態では、統計モデルは、潜在的な障害ソースのセットを一度に正確かつ効率的に処理することができる。例えば、統計モデルは、一度に32個の潜在的な障害ソースを処理することに限定され得る。したがって、バリエーションソース特定システム106は、高レベルの一般的なアセンブリ障害ソース(32個の潜在的な障害ソースに限定される)の分析を開始し、次いで、詳細なサブアセンブリ原材料(再び32個の潜在的な障害ソースに限定される)を分析することができる。図7A図7Cは、1つ以上の実施形態によるこの階層的手法を図示する。図7A図7Cは、VCAを利用するバリエーションソース特定システム106によって生成されたパーセント割り当て可能な原因を含むが、バリエーションソース特定システム106は、代替的な統計モデルを利用して潜在的な障害ソースを階層的な様式で分析することができる。
【0117】
特に、図7Aは、一次メトリック708のバリエーションについての潜在的な一般的なアセンブリ障害ソース706に起因するパーセント割り当て可能な原因を表す一般的なアセンブリの棒グラフ700を図示する。図7Aに図示されるように、バリエーションソース特定システム106は、VCAを利用して、潜在的な一般的なアセンブリ障害ソース706を処理する。例えば、潜在的な一般的なアセンブリ障害ソース706は、SBSロット、ヌクレオチド試料スライド(例えば、フローセル)ロット、クラスタロット、Mach Short、及び緩衝液ロットを含む。他の実施形態では、バリエーションソース特定システム106は、VCAを利用して、一般的なソフトウェア又は計算障害ソース及び配列決定装置部品などの他の潜在的な一般的なアセンブリ障害ソースを処理する。
【0118】
図7Aに更に図示されるように、バリエーションソース特定システム106は、潜在的な一般的なアセンブリ障害ソース706に関連付けられた一次メトリック708におけるバリエーションのパーセント割り当て可能な原因を決定する。例えば、図7Aに図示されるように、バリエーションソース特定システム106は、一次メトリック708の変動の最も可能性の高い原因である潜在的な一般的なアセンブリ障害ソース706を決定する。いくつかの場合では、一次メトリック708は、R1及びR2について、エラー率(error rate、ER)、Phred品質スコア(Q30)、プリフェージング(pre-phasing、PP)、フェージング(phasing、Ph)、チャネル強度(channel intensity、CnInt)、再合成(resynthesis、Resynth)、及び収率を含む。他の実施形態では、バリエーションソース特定システム106は、クラスタの数、エラー評価されたサイクルの数、フィルタリングを通過したクラスタの割合、クラスタの密度、タイルの数、及び他の一次メトリックを含むがそれらに限定されない、異なる一次メトリックのパーセント割り当て可能な原因を生成する。更に他の実施形態では、図7Cに関連して以下で説明されるように、バリエーションソース特定システム106は、塩基コールエラータイプ及び隣接ヌクレオチド塩基を含む、二次メトリックについてのパーセント割り当て可能な原因を生成する。
【0119】
バリエーションソース特定システム106は、潜在的な一般的アセンブリ障害ソース706を評価して、一次メトリック708の中から、どれが目的の配列決定変数の最大のバリエーションソースを引き起こしているかを決定する。図7Aに図示されるように、バリエーションソース特定システム106は、SBSロットがプリフェージングに最も影響を与え、クラスタロットが再合成に最も影響を与えると決定する。図7Aに更に描写されるように、フローセルロットは、強度、エラー率、Phredスコア、及びフェージングに不均衡に影響を与える。バリエーションソース特定システム106は更に、潜在的な一般的なアセンブリ障害ソース706のうちのいずれか1つを分析して、潜在的なサブアセンブリ障害ソースを評価することができる。例えば、バリエーションソース特定システム106は、フローセルの潜在的な一般的なアセンブリ障害ソースをサブアセンブリ障害ソースに分解することができる。
【0120】
特に、上で言及したように、バリエーションソース特定システム106は、任意の潜在的な一般的なアセンブリ障害ソースを更に分析して、そのサブアセンブリ障害ソースを評価することができる。いくつかの場合では、バリエーションソース特定システム106は、フローセルの潜在的な一般的なアセンブリ障害ソースを以下のサブアセンブリ障害ソース:試薬カートリッジロット、ガラスロット、プラスチックロット、プライマーロット、ヒドロゲルロットなどに分解する。そうするために、バリエーションソース特定システム106は、潜在的なサブアセンブリ障害ソースから生じる変動性をより具体的に特定するために、他のアセンブリ変数を高レベルで保持する(又は対照として設定する)。例えば、バリエーションソース特定システム106は、SBSロット、クラスタロット、machshort、及び緩衝液ロットが塩基コールエラーにほとんど又は全く寄与していないことが見出される配列決定ランを分析し、次いで、潜在的なサブアセンブリ障害ソースを分析する。いくつかの実施形態では、バリエーションソース特定システム106は、一般的なアセンブリの棒グラフ700と類似しているが、潜在的なサブアセンブリ障害ソースを示すサブアセンブリの棒グラフを生成する。
【0121】
統計モデルを利用することによって、バリエーションソース特定システム106は、潜在的なサブアセンブリ障害ソースを分析して、サブアセンブリ構成要素の特定の寄与を特定することによって、より細かいレベルで分析することができる。例えば、バリエーションソース特定システム106は、VCAを利用して、試薬カートリッジサブアセンブリに固有の寄与を評価することができる。バリエーションソース特定システム106は、他のサブアセンブリ変数を高レベルで保持して(又は対照として設定して)、サブアセンブリ構成要素から生じる変動性をより正確に特定する。例えば、図7Bは、一次メトリック712について潜在的なサブアセンブリ構成要素の障害ソース710を評価するバリエーションソース特定システム106を図示する。より具体的には、図7Bは、試薬カートリッジ構成要素の寄与についてのパーセント割り当て可能な原因のバリエーションを反映するサブアセンブリ構成要素の棒グラフ702を図示する。
【0122】
上記のように、図7A図7Bは、VCAを利用して、エラー率、Q30スコアなどの一次メトリックに対する潜在的な障害ソースのパーセント割り当て可能な原因のバリエーションを生成するバリエーションソース特定システム106を図示する。いくつかの実施形態では、バリエーションソース特定システム106は、VCAを利用して、ヌクレオチド固有のエラーを含む他のメトリックに対する潜在的な障害ソースの寄与を測定する。図7Cは、ヌクレオチド固有のエラーにおけるバリエーションに対する様々な潜在的な障害ソースの寄与を決定するバリエーションソース特定システム106を図示する。特に、図7Cは、二次メトリック716におけるバリエーションに対する潜在的な障害ソース714の寄与を示す塩基コールエラータイプの棒グラフ704を図示する。
【0123】
図7Cに図示されるように、バリエーションソース特定システム106は、塩基コールエラー率への最大又は最高の寄与を有する全ての一般的なアセンブリ障害ソースにわたって潜在的な障害ソース714を試験する。塩基コールエラータイプの棒グラフ704に示されるように、潜在的な障害ソース714は、緩衝液ロット番号(BufferLotNbr)、PhiXライブラリ調製日(PhiXLibPrepDate)、機械グループ、フローセルバーコード(fcBarcodeShort)、並びに消耗品(例えば、試薬、酵素、ヌクレオチド構造など)を含む。図7Cで測定された二次メトリック716は、リード数(R1又はR2)並びに塩基コールエラータイプを含む。例えば、ACは、塩基コールエラータイプA→Cを示し、AGは、塩基コールエラータイプA→Gを示す、などである。
【0124】
上で言及したように、バリエーションソース特定システム106は、異なるタイプの試料配列決定データを製造データとともに利用して、寄与メトリックを決定することができる。図8は、バリエーションソース特定システム106が、配列決定データとして挿入又は欠失(インデル)長を利用して、配列決定パイプラインからの塩基コールエラーに対する配列決定パイプライン材料の寄与を示す寄与メトリックを決定する、例示的な実施形態を図示する。
【0125】
一般に、塩基コールエラー率のバリエーションを駆動することに加えて、配列決定パイプライン材料はまた、インデル長のバリエーションを駆動することができる。したがって、バリエーションソース特定システム106は、統計モデルを利用して、インデル長を分析し、配列決定パイプラインで検出されたインデル長に基づいて、配列決定パイプライン材料802についてパーセント割り当て可能な原因のバリエーションを決定することができる。例えば、図8に図示されるように、より短いインデル(挿入又は欠失されるセグメントが9ヌクレオチド以下)は、主にハードウェア及び流体工学によって駆動される。より具体的には、バレルポンプ、プランジャ、及びウェルプレート配列決定パイプライン材料を含むフローセル及び流体の差異は、インデル長のバリエーションに寄与する可能性がより高い。対照的に、より長いインデル(挿入又は欠失されるセグメントが9ヌクレオチド以上)は、フローセル及びインコーポレーションミックスによってより強く駆動される。より具体的には、SBS色素試薬(例えば、WIM2)及びクラスタリング試薬(例えば、HCXE2)は、より長いインデルのバリエーションに寄与する際のより顕著なドライバである。
【0126】
上で示したように、いくつかの実施形態では、バリエーションソース特定システム106は、配列決定パイプラインに関連付けられたコンピューティング装置上に表示するための、1つ以上の障害ソースを示す通知を提供する。図9A図9Bは、障害モード通知及び特定された障害ソースに関する追加情報を含む一連のグラフィカルユーザインターフェースを図示する。概要として、図9Aは、1つ以上の実施形態による、障害モード通知を含む例示的な通知グラフィカルユーザインターフェースを図示する。対照的に、図9Bは、障害モード通知からの情報に対する追加の分析を提供する例示的なエラーパターン分析グラフィカルユーザインターフェースを図示する。
【0127】
特に、図9Aは、ユーザクライアント装置108(例えば、ユーザクライアント装置900)のスクリーン902上の通知グラフィカルユーザインターフェース904を示す。通知グラフィカルユーザインターフェース904は、障害モード要素908、確率要素910、及びバリエーションソースグラフ要素912を含む障害モード通知906を含む。
【0128】
図9Aに図示されるように、障害モード通知906は、障害モード要素908を含む。障害モード要素908は、バリエーションソース特定システム106が潜在的な障害モードとして特定した1つ以上の配列決定パイプライン材料を示す。いくつかの実施形態では、バリエーションソース特定システム106は、障害モード要素908内に表示すべき潜在的な障害ソースの閾値数を決定する。例えば、バリエーションソース特定システム106は、3つ以下の潜在的な障害ソースを表示することを決定する。1つ以上の実施形態では、バリエーションソース特定システム106は、閾値パーセント尤度に基づいて、潜在的な障害ソースの閾値数を決定する。少なくとも1つの例では、バリエーションソース特定システム106は、確率閾値を超えるパーセント割り当て可能な原因のバリエーションを有する潜在的な障害ソースを表示することを決定する。例示すると、バリエーションソース特定システム106は、3%以上のパーセント割り当て可能な原因のバリエーションに関連付けられた障害ソースを表示することを決定する。潜在的な障害ソースを説明する本文に加えて、又はその代わりに、ある特定の実施形態では、バリエーションソース特定システム106は、通知グラフィカルユーザインターフェース904上に表示するためのエラーコードを生成及び提供し、それによって、障害ソースをコードで示す。
【0129】
図9Aに更に示されるように、障害モード通知906は、確率要素910も含む。確率要素910は、対応する配列決定パイプライン材料が、配列決定パイプラインに対応する塩基コールエラータイプについての障害ソースである確率を示す。いくつかの実施形態では、確率要素910は、決定されたパーセント割り当て可能な原因のバリエーションに等しい。
【0130】
図9Aは、バリエーションソースグラフ要素912を含む障害モード通知906を更に示す。バリエーションソースのグラフ要素912とのユーザ対話を検出することに基づいて、いくつかの実施形態では、ユーザクライアント装置900は、パーセント割り当て可能な原因のバリエーションを示すグラフを表示するように、通知グラフィカルユーザインターフェース904を更新する。特定の実装形態では、バリエーションソース特定システム106は、通知グラフィカルユーザインターフェース904を介して表示するための、図6Bに図示されるグラフを提供する。追加的に、又は代替的に、バリエーションソース特定システム106は、通知グラフィカルユーザインターフェース904を介して表示するために、図6Bに図示されるグラフから特定のバーを選択する。具体的には、特定システム106は、特定の塩基コールエラータイプ及び/又は塩基コールエラー率を有する隣接ヌクレオチド塩基に対応するバーを表示することを決定する。バリエーションソース特定システム106は、バリエーションソースのグラフ要素912のユーザ選択に基づいて、様々なタイプのグラフ及びビジュアルを提供することができる。例えば、バリエーションソース特定システム106は、図3に図示されるグラフを提示することができる。
【0131】
いくつかの実施形態では、バリエーションソース特定システム106は、障害モード通知906内に、障害ソースを確認するための要素を提供する。特に、ユーザクライアント装置900は、障害モード通知906を提示し、障害モード通知906で特定された製造材料を確認するユーザ選択を検出することができる。例えば、ユーザは、バレルポンプカートリッジをチェックし、ユーザクライアント装置900上の選択可能オプションを選択することを介して、バレルポンプカートリッジ内の気泡又は他の故障の存在を確認することができる。いくつかの実施形態では、障害モード通知906は、予測された障害ソースを確認するための選択可能なオプションを含む。例えば、障害モード通知906は、バレルポンプカートリッジ障害ソースを確認するためのオプションを含むことができる。別の例では、障害モード通知906は、各々異なる障害ソースに関連付けられたいくつかの選択可能なオプションを含む。例えば、障害モード通知906は、バレルポンプカートリッジ、ウェルプレートカートリッジ、及び試薬1の各々に関連付けられた選択可能なオプションを含むことができる。バリエーションソース特定システム106は、所与の障害ソースのユーザ選択に基づいて、所与の障害ソースの存在を確認することができる。上で言及したように、バリエーションソース特定システム106は、障害ソースを確認するために、要素とのユーザ対話に基づいて、機械学習モデルのパラメータを更に修正することができる。
【0132】
いくつかの実施形態では、バリエーションソース特定システム106は、塩基コールエラーパターンを検出すると、リアルタイム(又はほぼリアルタイム)で表示するための障害モード通知906を提供する。したがって、バリエーションソース特定システム106は、所与の配列決定材料が配列決定パイプライン内で障害を引き起こしている可能性が高いという通知をタイムリーに提供することができる。
【0133】
言及したように、図9Bは、障害モード通知からの追加情報を含む例示的なエラーパターン分析グラフィカルユーザインターフェースを図示する。特に、図9Bは、ユーザクライアント装置900のスクリーン902上のエラーパターン分析グラフィカルユーザインターフェース914を図示する。特に、エラーパターン分析グラフィカルユーザインターフェース914は、配列決定ラン要素916、視覚化修正要素918、変数要素920、及びエラー視覚化要素922を含む。一般に、エラーパターン分析グラフィカルユーザインターフェース914は、塩基コールエラーパターンの視覚化を提供する。いくつかの実施形態では、バリエーションソース特定システム106は、図9Aに図示されるバリエーションソースグラフ要素912のユーザ選択の指示を受信することに基づいて、表示のためのエラーパターン分析グラフィカルユーザインターフェース914を提供する。他の実施形態では、バリエーションソース特定システム106は、図9Aに図示されていない追加のユーザインターフェース要素のユーザ選択に基づいて、エラーパターン分析グラフィカルユーザインターフェース914を提供する。
【0134】
図9Bは、エラー視覚化要素922を含むエラーパターン分析グラフィカルユーザインターフェース914を図示する。エラー視覚化要素922を提供することによって、バリエーションソース特定システム106は、1つ以上の配列決定ランについての塩基コールエラーパターンのグラフィカル視覚化を生成する。例えば、図9Bに図示されるエラー視覚化要素922は、塩基ごとに編成された正確なコール内の全体的なエラー率(エラー率)及びパターンを示すボックスプロットを含む。図示されるように、エラー視覚化要素922は、正確なAコール(A A)、正確なCコール(C C)、正確なGコール(G G)、及び正確なTコール(T T)の表示を含む。
【0135】
他の実施形態では、エラー視覚化要素922は、塩基コールエラータイプに従って編成された塩基コールエラー率を表示する。例えば、エラー視覚化要素922は、A→C塩基コールエラー、C→T塩基コールエラーなどを含むことができる。更に、エラー視覚化要素922は、様々なタイプの視覚化を含むことができる。例えば、言及したように、エラー視覚化要素922は、ボックスプロット、棒グラフ、カラムグラフ、ヒストグラム、折れ線グラフ、散布図、及び他のタイプのグラフ又はチャートを含むことができる。
【0136】
図9Bに更に図示されるように、エラーパターン分析グラフィカルユーザインターフェース914は、配列決定ラン要素916を含む。配列決定ラン要素916は、エラー視覚化要素922によって描写される1つ以上の配列決定ランを示す。例えば、図9Bに図示されるように、バリエーションソース特定システム106は、ユーザクライアント装置900から、配列決定ラン要素916に列挙される配列決定ランとのユーザ対話の指示を受信することができる。ユーザクライアント装置900は、配列決定ラン要素916を更新して、例えば、選択された配列決定ランを強調表示することによって、選択された配列決定ランを示すことができる。
【0137】
配列決定ラン要素916に加えて、エラーパターン分析グラフィカルユーザインターフェース914は、変数要素920も含む。特に、変数要素920は、エラー視覚化要素922内で視覚化された変数を示す。例示すると、ユーザクライアント装置900からの変数要素920とのユーザ対話の指示に基づいて、バリエーションソース特定システム106は、塩基コールエラータイプ及び隣接ヌクレオチド塩基に基づいて、エラーを視覚化することを決定することができる。例えば、図9Bに図示されるように、ユーザクライアント装置900は、C_Aが隣接する場合、正確なC→C塩基コールのユーザ選択を示すデータを受信する。そのようなユーザ選択の検出に基づいて、ユーザクライアント装置900は、選択された塩基コールエラータイプ及び隣接ヌクレオチド塩基の視覚化を含むようにエラー視覚化要素922を更新することができる。
【0138】
変数要素920に加えて、エラーパターン分析グラフィカルユーザインターフェース914は、視覚化修正要素918を更に含む。視覚化修正要素918とのユーザ対話に基づいて、例えば、ユーザクライアント装置900は、エラー視覚化要素922内に表示される視覚化をカスタマイズすることができる。具体的には、視覚化修正要素918は、エラー視覚化要素922内に表示されたチャートの各々について、ジッター値修正要素、外れ値要素、ボックスタイプ要素、ボックススタイル要素、5数要約要素、応答軸要素、及び変数表示要素を含む。視覚化修正要素918内の要素のいずれかとのユーザ対話に基づいて、ユーザクライアント装置900は、エラー視覚化要素922をカスタマイズすることができる。例えば、外れ値要素を選択解除することによって、ユーザクライアント装置900は、エラー視覚化要素922から全ての外れ値を除去することができる。別の例では、ユーザクライアント装置900は、視覚化修正要素918との検出されたユーザ対話に基づいて、他のタイプのグラフ及びチャートを含むようにエラー視覚化要素922を更新することができる。
【0139】
図1図9B、対応する本文、及び実施例は、バリエーションソース特定システム106のいくつかの異なる方法、システム、装置、及び非一時的コンピュータ可読媒体を提供する。上記に加えて、1つ以上の実施形態はまた、図10に示される動作のフローチャート等の、特定の結果を達成するための動作を含むフローチャートに関して説明することができる。更に、本明細書で説明される動作は、互いに並行して、又は同じ若しくは同様の動作の異なる出現と並行して、繰り返されるか、又は実行され得る。
【0140】
図10は、塩基コールエラータイプについて障害ソースを決定するための一連の動作1000のフローチャートを図示する。図10は、一実施形態による動作を図示するが、代替実施形態は、図10に示される動作のいずれかを省略、追加、再配列、及び/又は修正してもよい。図10の動作は、方法の一部として実行することができる。代替的に、非一時的コンピュータ可読媒体は、1つ以上のプロセッサによって実行されると、コンピューティング装置に図10の動作を実行させる命令を含むことができる。いくつかの実施形態では、システムは、図10の動作を実行することができる。
【0141】
1つ以上の実施形態では、一連の動作1000は、図11に図示されるコンピューティング装置などの1つ以上のコンピューティング装置上で実施される。加えて、いくつかの実施形態では、一連の動作1000は、核酸ポリマーを配列決定するためのデジタル環境において実施される。図10に例示されるように、一連の動作1000は、塩基コールエラー率を決定する動作1002、塩基コールエラー率から塩基コールエラーパターンを決定する動作1004、1つ以上の試料配列決定ランについて試料塩基コールエラーパターンを特定する動作1006、及び塩基コールエラータイプについての障害ソースを決定する動作1008を含む。
【0142】
図10に図示される一連の動作1000は、塩基コールエラー率を決定する動作1002を含む。特に、動作1002は、配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照ゲノムにおける参照塩基とは異なる塩基コールエラー率を決定することを含む。いくつかの実施形態では、動作1002は、配列決定パイプラインによって生成されたヌクレオチド塩基コールが参照塩基とは異なるヌクレオチド固有のエラー率を決定することによって、塩基コールエラー率を決定することを更に含む。1つ以上の実施形態では、動作1002は、混同行列を利用することによって、塩基コールエラー率を決定することを更に含む。いくつかの実施形態では、動作1002は、特定のタイプのヌクレオチド塩基コールについての正確なヌクレオチド塩基コールの合計に基づいて、塩基コールエラーデータを含む混同行列を正規化することによって、塩基コールエラー率を決定することを更に含む。更に、いくつかの実施形態では、動作1002は、特定のタイプのヌクレオチド塩基コールについての正確なヌクレオチド塩基コールの合計、及び塩基コールエラーについてのサイクル、時間、又はヌクレオチドリードのうちの1つ以上に基づいて、塩基コールエラーデータを含む混同行列を正規化することを更に含む。
【0143】
一連の動作1000は、塩基コールエラータイプに従ってグループ化された塩基コールエラー率から1つ以上の塩基コールエラーパターンを検出する動作1004を含む。特に、動作1004は、塩基コールエラータイプに従ってグループ化された塩基コールエラー率から塩基コールエラーパターンを検出することを含む。いくつかの実施形態では、動作1004は、塩基コールエラータイプ及び不正確なヌクレオチド塩基コールにそれぞれ隣接する異なる隣接ヌクレオチド塩基に従ってグループ化された塩基コールエラー率を決定すること、並びに塩基コールエラータイプ及び異なる隣接ヌクレオチド塩基に従ってグループ化された塩基コールエラー率から1つ以上の塩基コールエラーパターンを検出することを含む。
【0144】
一連の動作1000は、1つ以上の試料配列決定ランについての1つ以上の試料塩基コールエラーパターンを特定する動作1006を含む。特に、動作1006は、塩基コールエラーパターンに基づいて、1つ以上の塩基コールエラーパターンに基づいて、配列決定パイプラインに対応する1つ以上の配列決定パイプラインを利用する1つ以上の試料配列決定ランについて1つ以上の試料塩基コールエラーパターンを特定することを含む。いくつかの実施形態では、動作1006は、1つ以上の試料配列決定ランについての1つ以上の試料塩基コールエラーパターンを、製造識別データに基づいて、類似の製造材料を利用する試料配列決定ランから試料配列決定ランのセットを分類することと、試料配列決定ランのセットについて異なる試料塩基コールエラーパターンを検出することと、1つ以上の塩基コールエラーパターンと1つ以上の試料塩基コールエラーパターンとの間の相関に基づいて、試料配列決定ランのセットについての異なる試料塩基コールエラーパターンの中から1つ以上の試料塩基コールエラーパターンを特定することと、によって特定することを含む。更に、動作1006は、試料配列決定ランについて試料ヌクレオチド断片リードを集約することと、試料ヌクレオチド塩基コールが参照塩基とは異なる試料ヌクレオチド固有のエラー率を決定することと、塩基コールエラータイプ及び不正確なヌクレオチド塩基コールにそれぞれ隣接する異なる隣接ヌクレオチド塩基に従って、試料ヌクレオチド固有のエラー率をグループ化することと、によって、異なる試料塩基コールエラーパターンを検出することを更に含むことができる。いくつかの実施形態では、動作1006は、類似の製造材料を利用する試料配列決定ランのセットを、製造識別データを短縮することと、同じ短縮された製造識別データを共有する閾値数の配列決定ランをグループ化することによって、配列決定ランのセットを生成することと、によって分類することを更に含む。
【0145】
更に、いくつかの実施形態では、動作1006は、1つ以上の試料配列決定ランについての既存の試料塩基コールエラーパターンを特定すること、又は1つ以上の試料配列決定ランについての新しい試料塩基コールエラーパターンを検出することによって、1つ以上の試料配列決定ランについての1つ以上の試料塩基コールエラーパターンを特定することを更に含む。
【0146】
図10に更に図示されるように、一連の動作1000はまた、塩基コールエラータイプについての障害ソースを決定する動作1008を含む。特に、動作1008は、1つ以上の塩基コールエラーパターンと1つ以上の試料塩基コールエラーパターンとの間の相関に基づいて、配列決定パイプラインに対応する塩基コールエラータイプについての障害ソースを決定することを含む。いくつかの実施形態では、動作1008は、1つ以上の試料塩基コールエラーパターンに対応する1つ以上の塩基コールエラーパターンの確率に基づいて、配列決定パイプラインに対応する塩基コールエラータイプについての障害ソースを決定することを含む。いくつかの実施形態では、動作1008は、配列決定パイプラインからの塩基コールエラーに対する配列決定パイプライン材料の寄与を示す寄与メトリックを決定することによって、配列決定パイプラインに対応する障害ソースを決定すること、及び寄与メトリックに基づいて塩基コールエラータイプの障害ソースを決定することを更に含む。更に、いくつかの実施形態では、動作1008は、配列決定パイプラインからの塩基コールエラーに寄与する配列決定パイプライン材料についての割り当て可能な原因のバリエーションを決定することによって寄与メトリックを決定することを更に含む。いくつかの実施形態では、動作1008は、消耗品、配列決定機械の一部、ソフトウェアアプリケーション若しくは機能、又はヌクレオチド試料スライドの一部を、配列決定パイプラインにおける配列決定バリエーションに対する寄与因子として特定することによって、障害ソースを決定することを更に含む。
【0147】
いくつかの実施形態では、動作1008は、統計モデルを利用して、配列決定パイプラインからの塩基コールエラーに寄与する配列決定パイプライン材料の確率を示す寄与メトリックを決定することと、寄与メトリックに基づいて、塩基コールエラータイプの障害ソースを決定することと、によって、配列決定パイプラインに対応する障害ソースを決定することを更に含む。更に、動作1008は、分散成分モデルを利用して、塩基コールエラーに寄与する配列決定パイプライン材料についての割り当て可能な原因のバリエーションのパーセンテージを生成することによって、統計モデルを利用して、寄与メトリックを決定することを含むことができる。いくつかの実施形態では、動作1008は、分散成分モデルを利用して、塩基コールエラータイプの塩基コールエラーに寄与する配列決定パイプライン材料についての割り当て可能な原因のバリエーションのパーセンテージを決定することによって、1つ以上の塩基コールエラーパターンと1つ以上の試料塩基コールエラーパターンとの間の相関を決定することを含む。
【0148】
いくつかの実施形態では、一連の動作1000は、配列決定パイプラインに関連付けられたコンピューティング装置上に表示するための、障害ソースを示す通知を提供する追加の動作を含む。
【0149】
本明細書に記載の方法は、様々な核酸配列決定技術と併せて使用することができる。特に適用可能な技術は、核酸を、それらの相対的位置が変化しないようにアレイ内の固定位置に付着させ、アレイが繰り返し撮像されるものである。例えば、1つのヌクレオチド塩基型を別のヌクレオチド塩基型と区別するために使用される異なる標識と一致する異なる色チャネルで画像が得られる実施形態は、特に適用可能である。いくつかの実施形態では、標的核酸のヌクレオチド配列を決定するプロセスは、自動化プロセスであり得る。好ましい実施形態は、合成による配列決定(SBS)技術を含む。
【0150】
SBS技術は、一般に、鋳型鎖に対するヌクレオチドの反復的付加による、新生核酸鎖の酵素的伸長を伴う。SBSの従来の方法では、単一のヌクレオチドモノマーが、各送達においてポリメラーゼの存在下で標的ヌクレオチドに提供され得る。しかしながら、本明細書に記載の方法では、送達中のポリメラーゼの存在下で、複数のタイプのヌクレオチドモノマーを標的核酸に提供することができる。
【0151】
以下に記載されるSBS技術は、シングルリード配列決定又はペアエンド配列決定を利用することができる。シングルリード配列決定において、配列決定装置は、塩基対の配列を生成するために、一方の末端から他方の末端まで断片を読み取る。対照的に、ペアエンド配列決定中、配列決定装置は、1つのリードで開始し、同じ方向で指定されたリード長さのリードを終了し、断片の反対端から別のリードを開始する。
【0152】
SBSは、ターミネータ部分を有するヌクレオチドモノマー、又は任意のターミネータ部分を欠くヌクレオチドモノマーを利用することができる。ターミネータを欠くヌクレオチドモノマーを利用する方法としては、例えば、以下に更に詳細に記載されるように、γ-リン酸標識ヌクレオチドを使用するピロ配列決定及び配列決定が挙げられる。ターミネータを含まないヌクレオチドモノマーを使用する方法では、各サイクルに添加されるヌクレオチドの数は、概ね可変であり、テンプレート配列及びヌクレオチド送達のモードに依存する。ターミネータ部分を有するヌクレオチドモノマーを利用するSBS技術では、ターミネータは、ジデオキシヌクレオチドを利用する従来のSanger配列決定の場合のように使用される配列決定条件下で有効に不可逆的であり得るか、又はターミネータは、Solexa(現Illumina)によって開発された配列決定方法の場合のように可逆的であり得る。
【0153】
SBS技術は、標識部分を有するヌクレオチドモノマー、又は標識部分を欠くヌクレオチドモノマーを使用することができる。したがって、標識の蛍光などの標識の特性、分子量又は電荷などのヌクレオチドモノマーの特性、ピロリン酸の放出などのヌクレオチドの組み込みの副生成物などに基づいて、組み込みイベントを検出することができる。2つ以上の異なるヌクレオチドが配列決定試薬中に存在する実施形態では、異なるヌクレオチドは、互いに区別可能であり得るか、又は代替的に、2つ以上の異なる標識は、使用される検出技術の下で区別可能であり得る。例えば、配列決定試薬中に存在する異なるヌクレオチドは、異なる標識を有することができ、それらは、Solexa(現Illumina)によって開発された配列決定方法によって例示される適切な光学系を使用して区別することができる。
【0154】
好ましい実施形態としては、パイロシークエンシング(パイロ配列決定)技術が挙げられる。パイロシークエンシングは、特定のヌクレオチドが新生鎖に組み込まれるときに無機ピロリン酸塩(PPi)の放出を検出する(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.and Nyren,P.(1996)「Real-time DNA sequencing using detection of pyrophosphate release.」Analytical Biochemistry 242(1),84-9、Ronaghi,M.(2001)「Pyrosequencing sheds light on DNA sequencing.」Genome Res.11(1),3-11、Ronaghi,M.、Uhlen,M.、及びNyren,P.(1998の)「A sequencing method based on real-time pyrophosphate.」Science 281(5375),363、米国特許第6,210,891号、同第6,258,568号及び同第6,274,320号、参照によりその開示の全体が本明細書に組み込まれる)。パイロシークエンシングにおいて、放出されたPPiは、ATPスルフラーゼによってアデノシン三リン酸(adenosine triphosphate、ATP)に即座に変換されることによって検出することができ、生成されたATPのレベルはルシフェラーゼで生成された光子を介して検出される。配列決定される核酸は、アレイ中の特徴に結合させることができ、アレイは、アレイの特徴にヌクレオチドを組み込むことにより生成される化学発光シグナルを捕捉するために画像化することができる。アレイを特定のヌクレオチド型(例えば、T、C、又はG)で処理した後に、画像を得ることができる。各ヌクレオチド型の添加後に得られる画像は、アレイ内のどの特徴が検出されるかに関して異なる。画像内のこれらの差異は、アレイ上の特徴の異なる配列コンテンツを反映する。しかしながら、各特徴の相対的な位置は、画像内で変わらないままである。画像は、本明細書に記載の方法を使用して記憶、処理、及び分析することができる。例えば、アレイを各異なるヌクレオチド型で処理した後に得られる画像は、可逆的ターミネータベースの配列決定方法についての異なる検出チャネルから得られる画像について、本明細書に例示されるものと同じ方法で処理することができる。
【0155】
別の例示的な種類のSBSでは、サイクル配列決定は、例えば、その開示が参照により組み込まれる、国際公開第04/018497号及び米国特許第7,057,026号に記載されているような切断可能な又は光漂白可能な色素標識を含む可逆的ターミネータヌクレオチドを段階的に付加することによって達成される。この手法は、Solexa(現Illumina Inc.)によって商品化されており、国際公開第91/06678号及び同第07/123,744号にも記載されており、これらのそれぞれは、参照により本明細書に組み込まれる。終端の両方を逆転させることができ、蛍光標識が開裂された蛍光標識ターミネータの可用性は、効率的な循環可逆的終端(cyclic reversible termination、CRT)配列決定を容易にする。ポリメラーゼはまた、これらの修飾されたヌクレオチドを効率的に組み込み、かつそこから伸長するように共操作することもできる。
【0156】
好ましくは、可逆的ターミネータベースの配列決定実施形態では、標識は、SBS反応条件下での伸長を実質的に阻害しない。しかしながら、検出標識は、例えば、開裂又は分解によって除去可能であり得る。画像は、アレイ化された核酸特徴への標識の組み込み後に撮影することができる。特定の実施形態では、各サイクルは、アレイへの4つの異なるヌクレオチド型の同時送達を伴い、各ヌクレオチド型は、スペクトル的に異なる標識を有する。次に、4つの異なる標識の1つに選択的な検出チャネルをそれぞれ使用して、4つの画像を得ることができる。代替的に、異なるヌクレオチド型を順次追加することができ、各追加ステップの間にアレイの画像を得ることができる。このような実施形態では、各画像は、特定の型のヌクレオチドを組み込んだ核酸特徴を示す。各特徴の配列コンテンツが異なるため、様々な画像に様々な特徴が存在するか、存在しない。しかしながら、特徴の相対的な位置は、画像内で変わらないままである。このような可逆的ターミネータ-SBS方法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。画像撮影ステップに続いて、標識を除去することができ、その後のヌクレオチド添加及び検出のサイクルについて可逆的ターミネータ部分を除去することができる。特定のサイクルで検出された後、及び後続のサイクルの前に標識を除去すると、サイクル間のバックグラウンド信号及びクロストークを低減できるという利点がある。有用な標識及び除去方法の例を以下に記載する。
【0157】
特定の実施形態では、ヌクレオチドモノマーの一部又は全ては、可逆的ターミネータを含むことができる。このような実施形態では、可逆的ターミネータ/開裂可能な蛍光体は、3’エステル結合を介してリボース部分に結合した蛍光体を含むことができる(Metzker,Genome Res.15:1767-1776(2005)、これは参照により本明細書に組み込まれる)。他の手法は、ターミネータの化学を蛍光標識の切断から分離している(参照によりその全体が本明細書に組み込まれる、Ruparel et al.,Proc Natl Acad Sci USA 102:5932-7(2005))。Ruparelらは、少量の3’アリル基を使用して伸長をブロックするが、パラジウム触媒で短時間処理することにより容易に脱ブロックすることができる可逆性ターミネータの開発について説明している。フルオロフォアは、長波長UV光への30秒の曝露によって容易に開裂することができる光開裂可能リンカーを介して基に付着された。したがって、ジスルフィド還元又は光開裂のいずれかを開裂可能なリンカーとして使用することができる。可逆的終端への別の手法は、dNTP上に嵩高な染料を配置した後に続く自然終端の使用である。dNTP上の帯電した嵩高な染料の存在は、立体障害及び/又は静電障害を介して効果的なターミネータとして作用することができる。1つの組み込みイベントの存在は、染料が除去されない限り、それ以上の結合を防止する。染料の開裂は、蛍光体を除去し、終端を効果的に逆転させる。修飾ヌクレオチドの例はまた、米国特許第7,427,673号及び米国特許第7,057,026,号に記載されており、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0158】
本明細書に記載の方法及びシステムとともに利用することができる追加の例示的なSBSシステム及び方法は、米国特許出願公開第2007/0166705号、米国特許出願公開第2006/0188901号、米国特許第7,057,026号、米国特許出願公開第2006/0240439号、米国特許出願公開第2006/0281109号、国際公開第05/065814号、米国特許出願公開第2005/0100900号、国際公開第06/064199号、国際公開第07/010,251号、米国特許出願公開第2012/0270305号、及び米国特許出願公開第2013/0260372号に記載されており、これらの開示は、参照によりその全体が本明細書に組み込まれる。
【0159】
いくつかの実施形態は、4つ未満の異なる標識を使用する4つの異なるヌクレオチドの検出を利用することができる。例えば、SBSは、組み込まれた資料である米国特許出願公開第2013/0079232号に記載される方法及びシステムを使用して実施することができる。第1の例として、ヌクレオチド型の対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。第2の例として、4つの異なるヌクレオチド型のうちの3つを特定の条件下で検出することができ、一方、第4のヌクレオチド型は、それらの条件下で検出可能な標識がないか、又はそれらの条件下で最小限に検出される(例えば、バックグラウンド蛍光による最小限の検出など)。最初の3つのヌクレオチド型を核酸に組み込むことは、それらの対応するシグナルの存在に基づいて決定することができ、第4のヌクレオチド型を核酸に組み込むことは、任意のシグナルの不在又は最小限の検出に基づいて決定することができる。第3の例として、1つのヌクレオチド型は、2つの異なるチャネルで検出される標識を含むことができ、一方、他のヌクレオチド型は、チャネルのうちの1つ以下で検出される。前述の3つの例示的な構成は、相互に排他的であるとはみなされず、様々な組み合わせで使用することができる。3つ全ての例を組み合わせた例示的な実施形態は、第1のチャネルで検出される第1のヌクレオチド型(例えば、第1の励起波長によって励起されたときに第1のチャネルで検出される標識を有するdATP)、第2のチャネルで検出される第2のヌクレオチド型(例えば、第2の励起波長によって励起されたときに第2のチャネルで検出される標識を有するdCTP)、第1及び第2のチャネルの両方において検出される第3のヌクレオチド型(例えば、第1及び/又は第2の励起波長によって励起されたときに両方のチャネルで検出される少なくとも1つの標識を有するdTTP)、及びいずれのチャネルでも検出されないか、又は最小限に検出される標識を欠く第4のヌクレオチド型(例えば、標識のないdGTP)を使用する蛍光ベースのSBS方法である。
【0160】
更に、組み込まれた資料である米国特許出願公開第2013/0079232号に記載のように、配列決定データは、単一のチャネルを使用して得ることができる。このようないわゆる1つの染料配列決定方法では、第1のヌクレオチド型は標識されるが、第1の画像が生成された後に標識が除去され、第2のヌクレオチド型は、第1の画像が生成された後にのみ標識される。第3のヌクレオチド型は、第1及び第2の画像の両方においてその標識を保持し、第4のヌクレオチド型は、両方の画像において標識されていないままである。
【0161】
いくつかの実施形態は、ライゲーション技術による配列決定を利用することができる。このような技術は、DNAリガーゼを利用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組み込みを識別する。オリゴヌクレオチドは、典型的には、オリゴヌクレオチドがハイブリダイズする配列中の特定のヌクレオチドの同一性と相関する異なる標識を有する。他のSBS方法と同様に、標識された配列決定試薬で核酸特徴のアレイを処理した後、画像を得ることができる。各画像は、特定の型の標識を組み込んだ核酸特徴を示す。各特徴の配列コンテンツが異なるため、様々な画像に様々な特徴が存在するか、存在しないが、特徴の相対的な位置は、画像内で変わらないままである。ライゲーションベースの配列決定方法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。本明細書に記載の方法及びシステムとともに利用することができる例示的なSBSシステム及び方法は、米国特許第6,969,488号、米国特許第6,172,218号、及び米国特許第6,306,597号に記載されており、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0162】
いくつかの実施形態は、ナノ細孔配列決定を利用することができる(Deamer,D.W.& Akeson,M.「Nanopores and nucleic acids:prospects for ultrarapid sequencing.」Trends Biotechnol.18,147-151(2000)、Deamer,D.and D.Branton,「Characterization of nucleic acids by nanopore analysis」.Acc.Chem.Res.35:817-825(2002)、Li,J.,M.Gershow,D.Stein,E.Brandin,and J.A.Golovchenko,「DNA molecules and configurations in a solid-state nanopore microscope」Nat.Mater.2:611-615(2003)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。そのような実施形態では、標的核酸はナノ細孔を通過する。ナノ細孔は、α-ヘモリジンなどの合成孔又は生体膜タンパク質であり得る。標的核酸がナノ細孔を通過するとき、各塩基対は、細孔の電気コンダクタンスの変動を測定することによって識別することができる。(米国特許第7,001,792号、Soni,G.V.& Meller,「A.Progress toward ultrafast DNA sequencing using solid-state nanopores.」Clin.Chem.53,1996-2001(2007)、Healy,K.「Nanopore-based single-molecule DNA analysis.」Nanomed.2,459-481(2007)、Cockroft,S.L.,Chu,J.,Amorin,M.& Ghadiri,M.R.「A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution.」J.Am Chem.Soc.130,818-820(2008)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。ナノ細孔配列決定から得られるデータは、本明細書に記載されるように、保存、処理、及び分析することができる。具体的には、データは、本明細書に記載される光学画像及び他の画像の例示的な処理に従って、画像として処理することができる。
【0163】
いくつかの実施形態は、DNAポリメラーゼ活性のリアルタイムモニタリングを伴う方法を利用することができる。ヌクレオチドの組み込みは、例えば、各々が参照により本明細書に組み込まれる、米国特許第7,329,492号及び米国特許第7,211,414号に記載されているようなフルオロフォア含有ポリメラーゼとγ-ホスフェート標識ヌクレオチドとの間の蛍光共鳴エネルギー移動(fluorescence resonance energy transfer、FRET)相互作用を介して検出することができ、又はヌクレオチドの組み込みは、例えば、参照により本明細書に組み込まれる米国特許第7,315,019号に記載されているようなゼロモード導波路、並びに、例えば、各々が参照により本明細書に組み込まれる、米国特許第7,405,281号及び米国特許出願公開第2008/0108082号に記載されているような蛍光ヌクレオチド類似体及び操作ポリメラーゼを使用して検出することができる。照明は、蛍光標識されたヌクレオチドの組み込みが低バックグラウンドで観察され得るように、表面繋留ポリメラーゼの周囲のゼプトリットルスケールの体積に制限することができる(Levene,M.J.et al.「Zero-mode waveguides for single-molecule analysis at high concentrations.」Science,299,682-686(2003)、Lundquist,P.M.et al.「Parallel confocal detection of single molecules in real time.」Opt.Lett.33,1026-1028(2008)、Korlach,J.et al.「Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures.」Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。このような方法から得られる画像は、本明細書に記載されるように、記憶、処理、及び分析することができる。
【0164】
いくつかのSBS実施形態は、伸長産物へのヌクレオチドの組み込み時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づく配列決定は、Ion Torrent(Guilford,CT、Life Technologiesの子会社)から市販されている電気検出器及び関連技術を使用し得る、又は、米国特許出願公開第2009/0026082(A1)号、同第2009/0127589(A1)号、同第2010/0137143(A1)号、若しくは同第2010/0282617(A1)号に記載されている配列決定方法及びシステムであり、これらの各々は、参照により本明細書に組み込まれる。動力学的除外を使用して標的核酸を増幅するための本明細書に記載の方法は、プロトンを検出するために使用される基質に容易に適用することができる。より具体的には、本明細書に記載の方法を使用し、プロトンを検出するために使用されるアンプリコンのクローン集団を産生することができる。
【0165】
上記のSBS方法は、複数の異なる標的核酸が同時に操作されるように、多重形式で有利に実施することができる。特定の実施形態では、異なる標的核酸は、共通の反応容器又は特定の基質の表面上で処理することができる。これにより、配列決定試薬の簡便な送達、未反応試薬の除去、及び取り込み事象の検出が多重方式で可能になる。表面結合された標的核酸を使用する実施形態では、標的核酸は、アレイ形式であり得る。アレイ形式では、標的核酸は、典型的には、空間的に区別可能な方式で表面に結合され得る。標的核酸は、直接共有結合、ビーズ若しくは他の粒子への結合、又は表面に結合したポリメラーゼ若しくは他の分子への結合によって結合され得る。アレイは、各部位(特徴とも称される)における標的核酸の単一コピーを含むことができ、又は同じ配列を有する複数のコピーは、各部位若しくは特徴に存在することができる。複数のコピーは、以下で更に詳細に記載されるブリッジ増幅又はエマルジョンPCRなどの増幅方法によって生成することができる。
【0166】
本明細書に記載の方法は、例えば、少なくとも約10個の特徴/cm、100個の特徴/cm、500個の特徴/cm、1,000個の特徴/cm、5,000個の特徴/cm、10,000個の特徴/cm、50,000個の特徴/cm、100,000個の特徴/cm、1,000,000個の特徴/cm、5,000,000個の特徴/cm、又はそれ超を含む、様々な密度のいずれかの特徴を有するアレイを使用することができる。
【0167】
本明細書に記載の方法の利点は、複数の標的核酸の迅速かつ効率的な検出を並行して提供することである。したがって、本開示は、上記で例示されるものなどの当該技術分野において既知の技術を使用して核酸を調製及び検出することができる統合システムを提供する。したがって、本開示の統合システムは、増幅試薬及び/又は配列決定試薬を1つ以上の固定化されたDNA断片に送達することができる流体コンポーネントを含むことができ、システムは、ポンプ、弁、リザーバ、流体ラインなどのコンポーネントを含む。フローセルは、標的核酸を検出するための統合システムで構成及び/又は使用することができる。例示的なフローセルは、例えば、米国特許第2010/0111768(A1)号及び米国特許出願第13/273,666号に記載され、これらの各々は、参照により本明細書に組み込まれる。フローセルについて例示されるように、統合システムの流体コンポーネントの1つ以上を増幅方法及び検出方法に使用することができる。核酸配列決定の実施形態を一例として取ると、統合システムの流体コンポーネントの1つ以上を、本明細書に記載の増幅方法、及び上記に例示したような配列決定方法における配列決定試薬の送達に使用することができる。代替的に、統合システムは、増幅方法を実施し、検出方法を実施するための別々の流体システムを含み得る。増幅された核酸を作成し、また核酸の配列を決定することができる統合配列決定システムの例としては、MiSeq(商標)プラットフォーム(Illumina Inc.、San Diego,CA)、及び参照により本明細書に組み込まれる、米国特許出願第13/273,666号に記載の装置が挙げられるが、これらに限定されない。
【0168】
上記の配列決定システムは、配列決定装置によって受け取られた試料中に存在する核酸ポリマーを配列決定する。本明細書で定義されるように、「試料」及びその誘導体は、最も広い意味で使用され、標的を含むことが疑われる任意の試料、培養物などを含む。いくつかの実施形態では、試料は、DNA、RNA、PNA、LNA、キメラ又はハイブリッド形態の核酸を含む。試料は、1以上の核酸を含有する任意の生物学的試料、臨床試料、外科試料、農業試料、大気試料又は水試料を含むことができる。この用語はまた、任意の単離された核酸試料、例えば、ゲノムDNA、新鮮凍結又はホルマリン固定パラフィン包埋核酸試料を含む。試料は、単一個体、遺伝的に関連するメンバーからの核酸試料のコレクション、遺伝的に関連しないメンバーからの核酸試料、腫瘍試料及び正常組織試料のような単一個体からの核酸試料(適合)、又は母体被験体から得られた母体及び胎児DNAのような遺伝物質の2つの異なる形態を含む単一供給源からの試料、又は植物又は動物DNAを含む試料中の混入細菌DNAの存在に由来し得ることも想定される。いくつかの実施形態では、核酸物質の供給源は、例えば新生児スクリーニングに典型的に使用されるような新生児から得られた核酸を含むことができる。
【0169】
核酸試料は、ゲノムDNA(genomic DNA、gDNA)などの高分子量物質を含むことができる。試料は、FFPE又は保管されたDNA試料から得られた核酸分子などの低分子量物質を含むことができる。別の実施形態では、低分子量物質は、酵素的又は機械的に断片化されたDNAを含む。試料は、無細胞循環DNAを含むことができる。いくつかの実施形態では、試料は、生検、腫瘍、擦過物、スワブ、血液、粘液、尿、血漿、精液、毛髪、レーザ捕捉顕微解剖、外科的切除、及び他の臨床的又は実験室で得られた試料から得られた核酸分子を含むことができる。いくつかの実施形態では、試料は、疫学、農業、法医学又は病原性の試料であり得る。いくつかの実施形態では、試料は、ヒト又は哺乳動物源などの動物から得られた核酸分子を含むことができる。別の実施形態では、試料は、植物、細菌、ウイルス又は真菌などの非哺乳類源から得られた核酸分子を含むことができる。いくつかの実施形態では、核酸分子の供給源は、保存された又は絶滅した試料若しくは種であり得る。
【0170】
更に、本明細書中に開示される方法及び組成物は、法医学試料からの分解及び/又は断片化されたゲノムDNAなどの低品質核酸分子を有する核酸試料を増幅するのに有用であり得る。一実施形態では、法医学試料は、犯罪現場から得られた核酸、行方不明者DNAデータベースから得られた核酸、法医学調査と関連した研究所から得られた核酸を含むことができ、又は法執行機関、1つ以上のミリタリーサービス若しくはそのような隊員によって得られた法医学試料を含むことができる。核酸試料は、例えば、口腔スワブ、紙、布、又は唾液、血液、若しくは他の体液で含浸され得る他の基質に由来する、精製された試料又は溶解物を含む粗DNAであり得る。したがって、いくつかの実施形態では、核酸試料は、ゲノムDNAなどの、少量のDNA又は断片化されたDNAの部分を含むことができる。いくつかの実施形態では、標的配列は、限定されるものではないが、血液、痰、血漿、精液、尿及び血清を含む1つ以上の体液に存在し得る。いくつかの実施形態では、標的配列は、犠牲者の毛髪、皮膚、組織試料、剖検又は遺体から得ることができる。いくつかの実施形態では、1つ以上の標的配列を含む核酸は、死亡した動物又はヒトから得ることができる。いくつかの実施形態では、標的配列は、微生物、植物又は昆虫学的DNAなど非ヒトDNAから得られた核酸を含むことができる。いくつかの実施形態では、標的配列又は増幅された標的配列は、ヒト同定を目的とする。いくつかの実施形態では、本開示は、概して、法医学試料の特徴を同定するための方法に関する。いくつかの実施形態では、本開示は、概して、本明細書に開示された1つ以上の標的特異的プライマー、又は本明細書に概説されたプライマー設計基準を用いて設計された1以上の標的特異的プライマーを使用するヒト同定方法に関する。一実施形態では、少なくとも1つの標的配列を含む法医学試料又はヒト同定試料は、本明細書に開示された標的特異的プライマーのいずれか1つ以上を用いて、又は本明細書に概説されたプライマー基準を用いて増幅することができる。
【0171】
バリエーションソース特定システム106の構成要素は、ソフトウェア、ハードウェア、又はその両方を含むことができる。例えば、バリエーションソース特定システム106の構成要素は、非一時的コンピュータ可読記憶媒体上に記憶され、1つ以上のコンピューティング装置(例えば、ユーザクライアント装置108)のプロセッサによって実行可能な1つ以上の命令を含むことができる。1つ以上のプロセッサによって実行されると、バリエーションソース特定システム106のコンピュータ実行可能命令は、コンピューティング装置に、本明細書で説明される障害ソース特定方法を実行させることができる。代替的に、バリエーションソース特定システム106の構成要素は、特定の機能又は機能群を実行するための専用処理装置などのハードウェアを含むことができる。追加的に、又は代替的に、バリエーションソース特定システム106の構成要素は、コンピュータ実行可能命令及びハードウェアの組み合わせを含むことができる。
【0172】
更に、バリエーションソース特定システム106に関して本明細書で説明される機能を実行するバリエーションソース特定システム106の構成要素は、例えば、スタンドアロンアプリケーションの一部として、アプリケーションのモジュールとして、アプリケーションのプラグインとして、他のアプリケーションによって呼び出され得るライブラリ関数(複数可)として、及び/又はクラウドコンピューティングモデルとして実装され得る。したがって、バリエーションソース特定システム106の構成要素は、パーソナルコンピューティング装置又はモバイル装置上のスタンドアロンアプリケーションの一部として実装され得る。追加的に、又は代替的に、バリエーションソース特定システム106の構成要素は、限定するものではないが、Illumina BaseSpace、Illumina DRAGEN、又はIllumina TruSightソフトウェアを含む、配列決定サービスを提供する任意のアプリケーションにおいて実装されてもよい。「Illumina」、「BaseSpace」、「DRAGEN」、及び「TruSight」は、米国及び/又は他の国におけるIllumina,Inc.の登録商標又は商標である。
【0173】
本開示の実施形態は、以下でより詳細に論じられるように、例えば、1つ以上のプロセッサ及びシステムメモリ等のコンピュータハードウェアを含む、専用又は汎用コンピュータを含み、又は利用してもよい。本開示の範囲内の実施形態はまた、コンピュータ実行可能命令及び/又はデータ構造を搬送又は記憶するための物理的及び他のコンピュータ可読媒体を含む。特に、本明細書で説明されるプロセスのうちの1つ以上は、非一時的コンピュータ可読媒体において具現化され、1つ以上のコンピューティング装置(例えば、本明細書で説明されるメディアコンテンツアクセス装置のうちのいずれか)によって実行可能な命令として少なくとも部分的に実装されてもよい。概して、プロセッサ(例えば、マイクロプロセッサ)は、非一時的コンピュータ可読媒体(例えば、メモリなど)から命令を受信し、それらの命令を実行し、それによって、本明細書で説明するプロセスのうちの1つ以上を含む、1つ以上のプロセスを実行する。
【0174】
コンピュータ可読媒体は、汎用コンピュータシステム又は専用コンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ実行可能命令を記憶するコンピュータ可読媒体は、非一時的コンピュータ可読記憶媒体(装置)である。コンピュータ実行可能命令を搬送するコンピュータ可読媒体は、伝送媒体である。したがって、限定ではなく例として、本開示の実施形態は、少なくとも2つの明確に異なる種類のコンピュータ可読媒体、すなわち非一時的コンピュータ可読記憶媒体(装置)及び伝送媒体を含むことができる。
【0175】
非一時的コンピュータ可読記憶媒体(装置)は、RAM、ROM、EEPROM、CD-ROM、(例えば、RAMに基づく)ソリッドステートドライブ(solid state drive、SSD)、フラッシュメモリ、相変化メモリ(phase-change memory、PCM)、他のタイプのメモリ、他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶装置、又はコンピュータ実行可能命令若しくはデータ構造の形態で所望のプログラムコード手段を記憶するために使用することができ、汎用若しくは専用コンピュータによってアクセスすることができる任意の他の媒体を含む。
【0176】
「ネットワーク」は、コンピュータシステム及び/又はモジュール及び/又は他の電子装置間の電子データの移送を可能にする1つ以上のデータリンクとして定義される。情報が、ネットワーク又は別の通信接続(ハードワイヤード、ワイヤレス、又はハードワイヤード若しくはワイヤレスの組み合わせのいずれか)を介してコンピュータに転送又は提供されるとき、コンピュータは、その接続を伝送媒体として適切に認識する。伝送媒体は、コンピュータ実行可能命令又はデータ構造の形態で所望のプログラムコード手段を搬送するために使用することができ、汎用又は専用コンピュータによってアクセスすることができるネットワーク及び/又はデータリンクを含むことができる。上記の組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。
【0177】
更に、様々なコンピュータシステム構成要素に到達すると、コンピュータ実行可能命令又はデータ構造の形態のプログラムコード手段は、伝送媒体から非一時的コンピュータ可読記憶媒体(装置)に(又はその逆に)自動的に転送され得る。例えば、ネットワーク又はデータリンクを介して受信されたコンピュータ実行可能命令又はデータ構造は、ネットワークインターフェースモジュール(例えば、NIC)内のRAMにバッファリングされ、次いで、最終的に、コンピュータシステムRAM及び/又はコンピュータシステムにおけるより揮発性の低いコンピュータ記憶媒体(装置)に転送され得る。したがって、非一時的コンピュータ可読記憶媒体(装置)は、伝送媒体も(又は更に主に)利用するコンピュータシステム構成要素に含まれ得ることを理解されたい。
【0178】
コンピュータ実行可能命令は、例えば、プロセッサで実行されると、汎用コンピュータ、専用コンピュータ、又は専用処理装置に、ある機能又は機能群を実行させる命令及びデータを含む。いくつかの実施形態では、コンピュータ実行可能命令は、汎用コンピュータ上で実行され、汎用コンピュータを、本開示の要素を実装する専用コンピュータに変える。コンピュータ実行可能命令は、例えば、バイナリ、アセンブリ言語などの中間フォーマット命令、又は更にソースコードであってもよい。主題は、構造的特徴及び/又は方法論的動作に特有の言語で説明されているが、添付の特許請求の範囲において定義される主題は、説明された特徴又は上述の動作に必ずしも限定されないことを理解されたい。むしろ、説明された特徴及び動作は、特許請求の範囲を実装する例示的な形態として開示される。
【0179】
当業者は、本開示が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベース又はプログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、PDA、タブレット、ページャ、ルータ、スイッチなどを含む、多くのタイプのコンピュータシステム構成を有するネットワークコンピューティング環境で実施され得ることを理解するであろう。本開示はまた、ネットワークを介して(ハードワイヤードデータリンク、ワイヤレスデータリンク、又はハードワイヤード及びワイヤレスデータリンクの組み合わせのいずれかによって)リンクされたローカル及びリモートコンピュータシステムが両方ともタスクを実行する分散システム環境において実施され得る。分散システム環境では、プログラムモジュールは、ローカルメモリ記憶装置及びリモートメモリ記憶装置の両方に位置することができる。
【0180】
本開示の実施形態は、クラウドコンピューティング環境において実装することもできる。本明細書では、「クラウドコンピューティング」は、構成可能なコンピューティングリソースの共有プールへのオンデマンドネットワークアクセスを可能にするためのモデルとして定義される。例えば、クラウドコンピューティングは、構成可能なコンピューティングリソースの共有プールへのユビキタスで便利なオンデマンドアクセスを提供するために、市場で使用され得る。構成可能なコンピューティングリソースの共有プールは、仮想化を介して迅速に設定され、低い管理労力又はサービスプロバイダ対話で公開され、次いで、それに応じて拡大縮小され得る。
【0181】
クラウドコンピューティングモデルは、例えば、オンデマンドセルフサービス、広域ネットワークアクセス、リソースプーリング、迅速な弾力性、測定されたサービス等の種々の特性から構成することができる。クラウドコンピューティングモデルはまた、例えば、Software as a Service(SaaS)、Platform as a Service(PaaS)、及びInfrastructure as a Service(IaaS)などの様々なサービスモデルを公開することができる。クラウドコンピューティングモデルは、プライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウドなどの異なる展開モデルを使用して展開することもできる。本明細書及び特許請求の範囲において、「クラウドコンピューティング環境」は、クラウドコンピューティングが採用される環境である。
【0182】
図11は、上記で説明したプロセスのうちの1つ以上を実行するように構成され得るコンピューティング装置1100のブロック図を図示する。コンピューティング装置1100などの1つ以上のコンピューティング装置が、バリエーションソース特定システム106及び配列決定システム104を実装することができることが理解されよう。図11によって示されるように、コンピューティング装置1100は、プロセッサ1102、メモリ1104、記憶装置1106、I/Oインターフェース1108、及び通信インターフェース1111を含むことができ、これらは、通信インフラストラクチャ1111によって通信可能に結合され得る。ある特定の実施形態では、コンピューティング装置1100は、図11に示されるものよりも少ない又は多い構成要素を含むことができる。以下の段落は、図11に示されるコンピューティング装置1100の構成要素を更に詳細に説明する。
【0183】
1つ以上の実施形態では、プロセッサ1102は、コンピュータプログラムを構成する命令などの命令を実行するためのハードウェアを含む。限定ではなく、例として、ワークフローを動的に修正するための命令を実行するために、プロセッサ1102は、内部レジスタ、内部キャッシュ、メモリ1104、又は記憶装置1106から命令を取り出し(又はフェッチし)、それらを復号して実行することができる。メモリ1104は、データ、メタデータ、及びプロセッサによる実行のためのプログラムを記憶するために使用される揮発性又は不揮発性メモリであってもよい。記憶装置1106は、本明細書に記載の方法を実行するためのデータ又は命令を記憶するための、ハードディスク、フラッシュディスクドライブ、又は他のデジタル記憶装置などの記憶装置を含む。
【0184】
I/Oインターフェース1108は、ユーザが、コンピューティング装置1100に入力を提供し、コンピューティング装置1100から出力を受信し、そうでなければコンピューティング装置1100にデータを転送し、コンピューティング装置1100からデータを受信することを可能にする。I/Oインターフェース1108は、マウス、キーパッド若しくはキーボード、タッチスクリーン、カメラ、光学スキャナ、ネットワークインターフェース、モデム、他の既知のI/O装置、又はかかるI/Oインターフェースの組み合わせを含むことができる。I/Oインターフェース1108は、限定はしないが、グラフィックスエンジン、ディスプレイ(例えば、ディスプレイスクリーン)、1つ以上の出力ドライバ(例えば、ディスプレイドライバ)、1つ以上のオーディオスピーカ、及び1つ以上のオーディオドライバを含む、ユーザに出力を提示するための1つ以上の装置を含むことができる。ある特定の実施形態では、I/Oインターフェース1108は、ユーザに提示するためにグラフィカルデータをディスプレイに提供するように構成される。グラフィカルデータは、1つ以上のグラフィカルユーザインターフェース及び/又は特定の実装に役立ち得る任意の他のグラフィカルコンテンツを表してもよい。
【0185】
通信インターフェース1111は、ハードウェア、ソフトウェア、又はその両方を含むことができる。いずれにしても、通信インターフェース1111は、コンピューティング装置1100と1つ以上の他のコンピューティング装置又はネットワークとの間の通信(例えば、パケットベースの通信など)のための1つ以上のインターフェースを提供することができる。限定ではなく例として、通信インターフェース1111は、Ethernet(イーサネット)(登録商標)若しくは他の有線ベースのネットワークと通信するためのネットワークインターフェースコントローラ(network interface controller、NIC)若しくはネットワークアダプタ、又はWi-Fiなどのワイヤレスネットワークと通信するためのワイヤレスNIC(wireless NIC、WNIC)若しくはワイヤレスアダプタを含むことができる。
【0186】
更に、通信インターフェース1111は、様々なタイプの有線又は無線ネットワークとの通信を容易にすることができる。通信インターフェース1111はまた、様々な通信プロトコルを使用して、通信を容易にすることもできる。通信インフラストラクチャ1111はまた、コンピューティング装置1100の構成要素を互いに結合するハードウェア、ソフトウェア、又はその両方を含むことができる。例えば、通信インターフェース1111は、1つ以上のネットワーク及び/又はプロトコルを使用して、特定のインフラストラクチャによって接続された複数のコンピューティング装置が互いに通信して、本明細書で説明するプロセスの1つ以上の態様を実行することを可能にすることができる。例示すると、配列決定プロセスは、複数の装置(例えば、クライアント装置、配列決定装置、及びサーバ装置)が配列決定データ及びエラー通知などの情報を交換することを可能にすることができる。
【0187】
前述の明細書において、本開示は、その特定の例示的な実施形態を参照して説明された。本開示の様々な実施形態及び態様は、本明細書で論じられる詳細を参照して説明され、添付の図面は様々な実施形態を図示する。上記の説明及び図面は、本開示の例示であり、本開示を限定するものとして解釈されるべきではない。本開示の様々な実施形態の完全な理解を提供するために、多数の特定の詳細が説明される。
【0188】
本開示は、その趣旨又は本質的な特徴から逸脱することなく、その他の特定の形態で具現化されてもよい。記載された実施形態は、全ての点において、例示的なものに過ぎず、限定的ではないとみなされるべきである。例えば、本明細書で説明される方法は、より少ない又はより多いステップ/動作を用いて行われてもよく、又はステップ/動作は、異なる順序で行われてもよい。更に、本明細書で説明されるステップ/動作は、互いに並行して、又は同じ若しくは同様の動作の異なる出現と並行して、繰り返されるか、又は実行され得る。したがって、本願の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示される。特許請求の範囲の意味及び均等範囲内に含まれる全ての変更は、それらの範囲内に包含されるものである。
【符号の説明】
【0189】
100 システム環境
102 サーバ装置
104 配列決定システム
106 バリエーションソース特定システム
108 ユーザクライアント装置
110 配列決定アプリケーション
112 ネットワーク
114 配列決定装置
150 配列決定サイクル
210 塩基コールエラーパターン
212 試料塩基コールエラーパターン
302 参照ゲノム
304 参照塩基
306 配列決定装置
308 ヌクレオチド断片リード
310 配列決定システム
312 ヌクレオチド塩基コール
314 混同行列
316 予測塩基コール
318 塩基
320 混同行列データ
324 エラー率
502 セット
504 セット
514 塩基コールエラーパターン
614 統計モデル
616 試料配列決定データ
618 製造データ
620 配列決定パイプライン材料
622 寄与メトリック
624 棒グラフ
700 棒グラフ
702 棒グラフ
704 棒グラフ
706 アセンブリ障害ソース
708 一次メトリック
710 障害ソース
712 一次メトリック
714 障害ソース
716 二次メトリック
802 配列決定パイプライン材料
900 ユーザクライアント装置
902 スクリーン
904 通知グラフィカルユーザインターフェース
906 障害モード通知
908 障害モード要素
910 確率要素
912 バリエーションソースグラフ要素
914 エラーパターン分析グラフィカルユーザインターフェース
916 配列決定ラン要素
918 視覚化修正要素
920 変数要素
922 エラー視覚化要素
1100 コンピューティング装置
1102 プロセッサ
1104 メモリ
1106 記憶装置
1108 I/Oインターフェース
1111 通信インターフェース
図1
図2
図3
図4
図5
図6A
図6B
図6C
図7A
図7B
図7C
図8
図9A
図9B
図10
図11
【国際調査報告】