(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-05
(54)【発明の名称】ベースコールシステムの品質スコア較正
(51)【国際特許分類】
G16B 30/00 20190101AFI20240829BHJP
C12Q 1/6869 20180101ALI20240829BHJP
C12M 1/00 20060101ALI20240829BHJP
【FI】
G16B30/00
C12Q1/6869 Z
C12M1/00 Z
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023579782
(86)(22)【出願日】2022-07-28
(85)【翻訳文提出日】2023-12-26
(86)【国際出願番号】 US2022038729
(87)【国際公開番号】W WO2023009758
(87)【国際公開日】2023-02-02
(32)【優先日】2021-07-28
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-06-13
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ロハン・ポール
(72)【発明者】
【氏名】ドルナ・カシフハギギ
(72)【発明者】
【氏名】ジョン・エス・ヴィエチェリ
(72)【発明者】
【氏名】アンドリュー・ドッジ・ヘイバーグ
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029AA23
4B029BB20
4B029FA12
4B029FA15
4B063QA13
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QS39
4B063QX02
(57)【要約】
ベースコーラーによるベースコールを生成する方法が開示される。本方法は、フローセルから複数のセンサデータを受信するステップであって、複数のセンサデータが第1の範囲内にある、ステップと、複数のセンサデータの少なくとも閾値割合が第2の範囲内にあるように、第2の範囲を識別する、ステップを含む。第2の範囲内にある複数のセンサデータの少なくともサブセットは、第3の範囲にマッピングされ、それによって複数の正規化されたセンサデータを生成する。複数の正規化されたセンサデータは、複数の正規化されたセンサデータについて、1つ以上の対応する塩基をコールするために、ベースコーラーにおいて処理される。
【特許請求の範囲】
【請求項1】
ベースコーラーによってベースコールを生成するコンピュータ実施方法であって、
フローセルから複数のセンサデータを受信するステップであって、前記複数のセンサデータが、第1の範囲内にある、ステップと、
第2の範囲を識別するステップであって、前記複数のセンサデータのうちの少なくとも閾値割合が、前記第2の範囲内にあるようにする、ステップと、
前記第2の範囲内にある前記複数のセンサデータの少なくともサブセットを第3の範囲にマッピングし、それによって、複数の正規化されたセンサデータを生成するステップと、
前記複数の正規化されたセンサデータについて、1つ以上の対応する塩基をコールするために、前記複数の正規化されたセンサデータをベースコーラーにおいて処理するステップと
を含む、コンピュータ実施方法。
【請求項2】
前記第2の範囲が、前記第1の範囲内に完全に包含される、請求項1に記載の方法。
【請求項3】
前記第1の範囲内の1つ以上の外れ値センサデータが、前記第2の範囲のセンサデータに存在しない、請求項1又は2に記載の方法。
【請求項4】
前記第2の範囲を識別するステップが、
前記第1の範囲内で、前記複数のセンサデータの低い閾値割合が、低値よりも低い値になるように、前記低値を識別するステップと、
前記第1の範囲内で、前記複数のセンサデータの高い閾値割合が、高値よりも高い値になるように、前記高値を識別するステップと
を含み、
前記第2の範囲が、前記低値及び前記高値によって画定される、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記低い閾値割合、又は前記高い閾値割合のうちの少なくとも一方が、0.5%以下である、請求項4に記載の方法。
【請求項6】
前記低い閾値割合又は前記高い閾値割合のうちの少なくとも一方が、1.0%以下である、請求項4又は5に記載の方法。
【請求項7】
前記低い閾値割合及び前記高い閾値割合の各々が、0.5%以下である、請求項4~6のいずれか一項に記載の方法。
【請求項8】
前記低い閾値割合及び前記高い閾値割合の各々が、1%以下である、請求項4~7のいずれか一項に記載の方法。
【請求項9】
(i)前記低値よりも低い前記複数のセンサデータのうちの第1の外れ値センサデータ、及び(ii)前記高値よりも高い前記複数のセンサデータのうちの第2の外れ値センサデータを識別するステップと、
前記マッピングするステップの前に、前記低値を前記第1の外れ値センサデータに割り当て、前記高値を前記第2の外れ値センサデータに割り当てるステップであって、前記第1の外れ値センサデータ及び前記第2の外れ値センサデータが、前記割り当ての後に前記第2の範囲内にあるようにする、ステップと
を更に含む、請求項4~8のいずれか一項に記載の方法。
【請求項10】
(i)前記低値よりも低い前記複数のセンサデータのうちの第1の外れ値センサデータ、及び(ii)前記高値よりも高い前記複数のセンサデータのうちの第2の外れ値センサデータを識別するステップと、
前記第1の外れ値センサデータ及び前記第2の外れ値センサデータが、前記第3の範囲にマッピングされないように、前記第2の範囲外であるために、前記マッピングするステップ中に前記複数のセンサデータの前記サブセットから前記第1の外れ値センサデータ及び前記第2の外れ値センサデータを除外するステップと
を更に含む、請求項4~9のいずれか一項に記載の方法。
【請求項11】
前記複数のセンサデータの少なくともサブセットをマッピングするステップが、
前記サブセット内の第1のセンサデータを、前記第2の範囲内にある第1の値から前記第3の範囲内にある第2の値にマッピングするステップと、
前記サブセット内の第2のセンサデータを、前記第2の範囲内にある第3の値から前記第3の範囲内にある第4の値にマッピングするステップと
を含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記第2の範囲の少なくとも一部が、前記第3の範囲と非重複である、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記複数のセンサデータの個々のセンサデータが、前記フローセルから生成された画像の対応するセクションの対応する強度を含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
各ベースコールについて、コールされた塩基がAである確率を示す第1の品質スコアと、コールされた塩基がCである確率を示す第2の品質スコアと、コールされた塩基がTである確率を示す第3の品質スコアと、コールされた塩基がGである確率を示す第4の品質スコアと、を割り当てるために、ベースコーラーおける前記複数の正規化されたセンサデータを処理するステップ
を更に含む、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記第1の品質スコア、前記第2の品質スコア、前記第3の品質スコア、及び前記第4の品質スコアを含む複数の品質スコアを割り当てるステップと、
前記複数の品質スコアの少なくともサブセットの各々を、対応する再マッピングされた品質スコアに再マッピングするステップと
を更に含む、請求項14に記載の方法。
【請求項16】
複数の再マッピングされた品質スコアの各々を、複数の量子化され再マッピングされた品質スコアのうちの対応する1つに量子化するステップ
を更に含む、請求項15に記載の方法。
【請求項17】
コンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令が、プロセッサ上で実行されると、
フローセルから複数の強度値を受信するステップであって、個々の強度値が、前記フローセルのターゲットクラスタ、又は前記ターゲットクラスタのすぐ近傍を示し、前記ターゲットクラスタが、未知の検体でポピュレートされる、ステップと、
前記複数の強度値の少なくとも閾値割合を含む第2の範囲を識別するステップと、
前記複数の強度値の前記閾値割合を、前記第2の範囲とは異なる第3の範囲にマッピングするステップと、
前記マッピングするステップに続いて、前記未知の検体が、A、C、T、又はGである尤度を生成するために、前記複数の強度値の前記閾値割合を処理するステップと
を含む方法を実施する、非一時的コンピュータ可読記憶媒体。
【請求項18】
前記第2の範囲が、前記第1の範囲内に完全に包含される、請求項17に記載の非一時的コンピュータ可読記憶媒体。
【請求項19】
前記第1の範囲内の1つ以上の外れ値強度値が、前記複数の強度値の前記閾値割合に存在しない、請求項17又は18に記載の非一時的コンピュータ可読記憶媒体。
【請求項20】
前記第2の範囲を識別するステップが、
前記第1の範囲内で、前記複数の強度値の低い閾値割合が、低値よりも低い値になるように、前記低値を識別するステップと、
前記第1の範囲内で、前記複数の強度値の高い閾値割合が、高値よりも高い値になるように、前記高値を識別するステップであって、前記閾値割合が、前記低い閾値割合と前記高い閾値割合との合計である、ステップと
を含み、
前記第2の範囲が、前記低値及び前記高値によって画定される、請求項17~19のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項21】
前記低い閾値割合又は前記高い閾値割合のうちの少なくとも一方が、0.5%以下である、請求項20に記載の非一時的コンピュータ可読記憶媒体。
【請求項22】
前記低い閾値割合及び前記高い閾値割合の各々が、1.0%以下である、請求項20又は21に記載の非一時的コンピュータ可読記憶媒体。
【請求項23】
(i)前記低値よりも低い前記複数の強度値のうちの第1の外れ値強度値、及び(ii)前記高値よりも高い前記複数の強度値のうちの第2の外れ値強度値を識別するステップと、
前記マッピングするステップの前に、前記低値を前記第1の外れ値強度値に割り当て、前記高値を前記第2の外れ値強度値に割り当てるステップであって、前記第1の外れ値強度値及び前記第2の外れ値強度値が、前記割り当ての後に前記第2の範囲内にあるようにする、ステップと
を更に含む、請求項20~22のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項24】
(i)前記低値よりも低い前記複数の強度値のうちの第1の外れ値強度値、及び(ii)前記高値よりも高い前記複数の強度値のうちの第2の外れ値強度値を識別するステップと、
前記第1の外れ値強度値及び前記第2の外れ値強度値が、前記第3の範囲にマッピングされないように、前記第2の範囲外であるために、前記マッピングするステップ中に前記複数の強度値のサブセットから前記第1の外れ値強度値及び前記第2の外れ値強度値を除外するステップと
を更に含む、請求項20~23のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項25】
前記マッピングするステップが、
第1の強度値を、前記第2の範囲内にある第1の値から前記第3の範囲内にある第2の値にマッピングするステップと、
第2の強度値を、前記第2の範囲内にある第3の値から前記第3の範囲内にある第4の値にマッピングするステップと
を含む、請求項17~24のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項26】
前記第2の範囲の少なくとも一部が、前記第3の範囲と非重複である、請求項17~25のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【請求項27】
ベースコールのためのシステムであって、
検体のセットの元の強度発光を示す画像を記憶するメモリであって、前記元の強度発光が、配列決定実行の配列決定サイクル中に前記検体のセット中の検体によって生成される、メモリと、
再マッピングされた強度発光が前記元の強度発光に対して異なる強度値を有するように、前記元の強度発光を受信し、前記元の強度発光を再マッピングして再マッピングされた強度発光を生成するように構成される正規化モジュールと、
前記再マッピングされた強度発光を処理して、前記検体のセットに対するベースコールを生成するように構成されるベースコーラーと
を備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権出願)
本出願は、2022年6月13日に出願された「Quality Score Calibration of Basecalling Systems」と題する米国非仮特許出願第17/839,387号(代理人整理番号ILLM 1045-2/IP-2093-US)の優先権を主張し、これは、2021年7月28日に出願された「Quality Score Calibration of Basecalling Systems」と題する米国仮特許出願第63/226,707号(代理人整理番号ILLM 1045-1/IP-2093-PRV)の利益を主張する。優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
【0002】
(発明の分野)
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースのシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジー論理システム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。
【0003】
(組み込み)
以下は、本明細書に完全に記載されているかのように参照により組み込まれる。
【0004】
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES」と題する米国特許仮出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANY BASE CALLING」と題する米国特許仮出願第62/979,414号(代理人整理番号ILLM1016-1/IP-1858-PRV)、
2020年3月20日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許非仮出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED GENERATION OF SEQUENCING METADATA」と題する米国特許非仮出願第16/825,991号(代理人整理番号ILLM1008-17/IP-1741-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国特許非仮出願第16/826,126号(代理人整理番号ILLM1008-18/IP-1744-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国特許非仮出願第16/826,134号(代理人整理番号ILLM1008-19/IP-1747-US)、及び
2020年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許出願第16/826,168号(代理人整理番号ILLM 1008-20/IP-1752-PRV-US)。
【背景技術】
【0005】
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実装形態に対応し得る。
【0006】
計算能力の急速な改善により、近年、多くのコンピュータビジョンタスクにおいて、深層畳み込みニューラルネットワーク(Convolution Neural Network、CNN)が、著しく改善された精度で、大成功を収めることが可能となった。推論段階中、多くのアプリケーションは、厳密な電力消費要件を伴う、1つの画像の低遅延の処理を必要とし、これにより、グラフィックス処理ユニット(Graphics Processing Unit、GPU)及び他の汎用プラットフォームの効率が低下し、深層学習アルゴリズムの推論に固有のデジタル回路をカスタマイズすることによって、例えば、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)の特定のアクセレレーションハードウェアに好機をもたらす。しかしながら、携帯型及び埋め込み式システムにCNNを配備することは、大きいデータ量、集中的な計算、様々なアルゴリズム構造、及び頻繁なメモリアクセスのために依然として困難である。
【0007】
畳み込みが、CNNにおけるほとんどの演算に寄与するので、畳み込みアクセレレーションスキームは、ハードウェアCNNアクセラレータの効率及び性能に大きく影響を及ぼすことになる。畳み込みは、カーネル及び特徴マップに沿ってスライドする4つのレベルのループを伴う、積和(multiply and accumulate、MAC)演算を含む。第1のループレベルは、カーネルウィンドウ内のピクセルのMACを計算する。第2のループレベルは、様々な異なる入力特徴マップにわたるMACの積の和を累積する。第1及び第2のループレベルを完了した後、バイアスを追加することにより、出力特徴マップ内の最終出力要素が得られる。第3のループレベルは、入力特徴マップ内で、カーネルウィンドウをスライドさせる。第4のループレベルは、様々な異なる出力特徴マップを発生させる。
【0008】
FPGAは、それらの(1)高度な再構成可能性、(2)CNNの急速な進化に追いつくための特定用途向け集積回路(ASIC)と比較して速い開発時間、(3)良好な性能、及び(4)GPUと比較して優れたエネルギー効率のために、推論タスクを加速するために特に関心及び人気が高まっている。FPGAの高い性能及び高い効率性は、特定の計算のためにカスタマイズされた回路を合成して、カスタマイズされたメモリシステムで数十億回の演算を直接処理することによって実現することができる。例えば、現代のFPGAにおける数百から数千のデジタル信号処理(digital signal processing、DSP)ブロックは、コア畳み込み演算、例えば、高度の並列処理を伴う積和演算をサポートする。外部オンチップメモリとオンチッププロセッシングエンジン(processing engine、PE)と間の専用データバッファは、フィールドプログラマブルゲートアレイ(FPGA)チップ上に、数十メガバイトのオンチップブロックランダムアクセスメモリ(block random access memory、BRAM)を構成することにより、優先データフローを実現するように設計することができる。
【0009】
高性能を達成するためにリソース利用を最大化しながら、データ通信を最小限に抑えるために、CNNアクセレレーションの効率的なデータフロー及びハードウェアアーキテクチャが望まれている。アクセレレーションハードウェア上の様々なCNNアルゴリズムの推論プロセスを加速化し、高い性能、高い効率、及び高い柔軟性を実現するための方法論及びフレームワークを設計するための好機が生じることとなる。
【0010】
深層ニューラルネットワークは、それらの広範な適用性及び強化された予測力のために、バイオインフォマティクス研究に対して極めて有望である。畳み込みニューラルネットワークは、モチーフ発見、病原性変異体識別、及び遺伝子発現推測などのゲノミクスにおける配列に基づく問題を解決するために採用されている。畳み込みニューラルネットワークは、DNAを研究するのに特に有用な重み共有戦略を使用するが、これは、短い配列モチーフを捕捉することができ、この配列モチーフは、有意な生物学的機能を有すると推定されるDNA中の局所的パターンを再現する。ニューラルネットワークは、タンパク質又はDNA配列など、様々な長さの連続的データにおける長距離依存性を捉えることができる。したがって、原則的な深層学習ベースのフレームワークをベースコールに使用する機会が生じる。
【0011】
(例えば、任意の及び全ての動物、植物、微生物又は他の生物学的種若しくは集団のゲノム特性評価のための)ゲノミクス、薬理ゲノミクス、トランスクリプトミクス、診断、予後診断、生物医学的リスク評価、臨床及び研究遺伝学、個別化医療、薬効及び薬物相互作用評価、獣医学、農業、進化的生物多様性研究、水産養殖、林業、海洋学、生態学的管理及び環境管理、並びに他の目的を含む、広く様々な用途のために、迅速かつ費用効果的に取得され得る核酸配列データの質及び量を向上させる必要性が残っている。例えば、深層学習ネットワークモデル又は他の適切なモデルを使用して、広く様々なゲノミクスのための配列決定データを生成してもよい。
【0012】
そのようなモデルは、ベースコールを生成することに加えて、対応する品質スコアも生成する。一般的に言えば、品質スコアは、塩基がアデニン(A)、チミン(T)、グアニン(G)、又はシトシン(C)とコールされる確率を対数目盛で示す。例えば、塩基の品質スコアQ(A)は、塩基がAである確率の指標を提供する。塩基についての品質スコアQ(C)は、塩基がCである確率の指標を提供し、以下同様である。
【0013】
多くの場合、品質スコアは、重要な医療決定などの重要な決定を行うために使用される。例えば、医療環境において、ヒト組織サンプルの塩基を検出することに関連する品質スコアは、健康状態を処置するためのアプローチに影響を及ぼす場合がある。したがって、ベースコールのために生成される品質スコアは、比較的正確であり、信頼できることが望ましい。例えば、ベースコールのために生成された品質スコアは、経験的に決定された品質スコア(真の品質スコアを表す)に対し好適に位置合わせされることが望ましい。
【図面の簡単な説明】
【0014】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実装形態が、以下の図面を参照して説明される。
【
図1】様々な実施形態で使用することができるバイオセンサの断面図を示す。
【
図2】そのタイル内にクラスタを含むフローセルの一実装形態を示す。
【
図3】8つのレーンを有する例示的なフローセルを示し、1つのタイル及びそのクラスタ及びそれらの周囲の背景のズームインも示す。
【
図4】ベースコールセンサ出力など、配列決定システムからのセンサデータの分析のためのシステムの簡略ブロック図である。
【
図5】ホストプロセッサによって実行されるランタイムプログラムの機能を含む、ベースコール動作の態様を示す簡略図である。
【
図6】
図4の構成可能なプロセッサなど、構成可能なプロセッサの構成の簡略図である。
【
図7】本明細書に記載のように構成された構成可能又は再構成可能なアレイを使用して実行することができるニューラルネットワークアーキテクチャの図である。
【
図8A】
図7のもののようなニューラルネットワークアーキテクチャによって使用されるセンサデータのタイルの組織の簡略図である。
【
図8B】
図7のもののようなニューラルネットワークアーキテクチャによって使用されるセンサデータのタイルのパッチの簡略図である。
【
図9】フィールドプログラマブルゲートアレイ(FPGA)などの構成可能又は再構成可能なアレイ上の
図7のもののようなニューラルネットワークの構成の一部を示す。
【
図10】本明細書に記載のように構成された構成可能又は再構成可能なアレイを使用して実行することができる別の代替のニューラルネットワークアーキテクチャの図である。
【
図11】異なる配列決定サイクルでデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラーの専用アーキテクチャの一実装形態を示す。
【
図12】各々が畳み込みを含み得る、分離された層の一実装形態を示す。
【
図13A】各々が畳み込みを含み得る、組み合わせ層の一実装形態を示す。
【
図13B】各々が畳み込みを含み得る、組み合わせ層の別の実装形態を示す。
【
図14A】コールされる様々な塩基についてA、C、T、及びGに対応する品質スコアを生成するベースコールシステムを示す。
【
図14B】確率スコアと、品質スコアと、対応するエラー確率と、対応するエラー率との間の関係を示す表を示す。
【
図14C】
図14Aのベースコールシステムによって予測された予測品質スコアと真の(例えば、経験的に計算された)品質スコアとの間の比較動作を示す。
【
図14D】
図14Cの真の(例えば、経験的に決定された)品質スコアの決定を示す。
【
図15A】予測品質スコアと真の品質スコアとの間の比較を示すグラフを示す。
【
図15B】予測品質スコアと真の品質スコアとの間の別の比較を示す別のグラフを示す。
【
図16】予測品質スコアと真の品質スコアとの間の比較を示す別のグラフを示す。
【
図17A】ベースコーラーによって受信されるセンサデータを正規化するための正規化モジュールを含むベースコールシステムを示す。
【
図17B】
図17Aのベースコールシステムの正規化モジュールによって実施されるセンサデータに対する正規化動作を示す2つのグラフを示す。
【
図17C】センサデータが
図17Cのグラフのためのデータを生成している間に、
図17Aのベースコールシステムの正規化モジュールによって正規化されている、予測品質スコアと真の品質スコアとの間の比較を示すグラフを示す。
【
図17D】入力正規化を有するベースコールシステムに対してそのような入力正規化を欠く別のベースコールシステムについての予想較正誤差(ECE)を示すプロットを示す。
【
図17E】正規化前のセンサデータと正規化されたセンサデータとの間の色比較を示す。
【
図17F】センサデータを正規化し、正規化されたセンサデータをベースコール動作に使用するための例示的な方法を示すフローチャートを示す。
【
図18A】ベースコールシステムのベースコーラーによって予測された品質スコアを選択的に再マッピングするための品質スコア再マッピングモジュールを含むベースコールシステムを示す。
【
図18B1】組み合わせて、品質スコア再マッピング及び量子化の例を示す。
【
図18B2】組み合わせて、品質スコア再マッピング及び量子化の例を示す。
【
図18B3】組み合わせて、品質スコア再マッピング及び量子化の例を示す。
【
図18B4】組み合わせて、品質スコア再マッピング及び量子化の例を示す。
【
図18B5】組み合わせて、品質スコア再マッピング及び量子化の例を示す。
【
図18C1】品質スコア再マッピング及び量子化の2つの更なる例を示す。
【
図18C2】品質スコア再マッピング及び量子化の2つの更なる例を示す。
【
図19】いくつかの特定の塩基配列について、(i)特定の塩基配列の品質スコアの平均と、(ii)例えば、
図18B2の一般的なルックアップテーブル(LUT)に従って再マッピングが実施される、特定の塩基配列の再マッピングされた品質スコアの平均と、の間の偏差を示す表を示す。
【
図20A】特定の塩基配列の予測品質スコアを再マッピングされた品質スコアに再マッピングするために使用可能なLUTを示す。
【
図20B】
図20AのLUTを使用した特定の塩基配列についての予測品質スコアの再マッピングを示す。
【
図21】1つ以上の特定の塩基配列に対する損失に選択的にペナルティを付与するための損失ペナルティ付与モジュールを含むベースコールシステムを示す。
【
図22A】組み合わせて、特定の塩基配列の検出に応答した、損失関数のペナルティ付与(例えば、損失ペナルティ付与モジュール2106による)を示す。
【
図22B】組み合わせて、特定の塩基配列の検出に応答した、損失関数のペナルティ付与(例えば、損失ペナルティ付与モジュール2106による)を示す。
【
図22C】組み合わせて、特定の塩基配列の検出に応答した、損失関数のペナルティ付与(例えば、損失ペナルティ付与モジュール2106による)を示す。
【
図22D】組み合わせて、特定の塩基配列の検出に応答した、損失関数のペナルティ付与(例えば、損失ペナルティ付与モジュール2106による)を示す。
【
図22E】組み合わせて、特定の塩基配列の検出に応答した、損失関数のペナルティ付与(例えば、損失ペナルティ付与モジュール2106による)を示す。
【
図22F】特定の塩基配列の中央塩基に関連する損失への特殊化された重みの適用を示す。
【
図22G】損失にペナルティを付与しないベースコールシステムに対して特定の塩基配列について損失にペナルティを付与するベースコールシステムの性能を比較する2つのグラフを示す。
【
図23】(i)
図17Aのベースコールシステムの正規化モジュールと、(ii)
図18Aのベースコールシステムの品質スコア再マッピングモジュール及び品質スコア量子化モジュールと、(iii)
図21のベースコールシステムの損失ペナルティ付与モジュールと、を含むベースコールシステムを示す。
【
図24】一実装形態によるベースコールシステムのブロック図である。
【
図25】
図24のシステムで使用することができるシステムコントローラのブロック図である。
【
図26】開示される技術を実装するために使用することができるコンピュータシステムの簡略ブロック図である。
【発明を実施するための形態】
【0015】
本明細書で使用する場合、「ポリヌクレオチド」又は「核酸」という用語は、デオキシリボ核酸(deoxyribonucleic acid、DNA)を指し、しかしながら、適切な場合には、当業者は、本明細書のシステム及びデバイスをリボ核酸(ribonucleic acid、RNA)とともに利用し得ることを認識するであろう。これらの用語は、同等物として、ヌクレオチド類似体から作製されるDNA又はRNAのいずれかの類似体を含むと理解されるべきである。本明細書で使用するこの用語はまた、例えば逆転写酵素の作用によって、RNA鋳型から生成される相補的又はコピーDNAであるcDNAも包含する。
【0016】
本明細書のシステム及びデバイスによって配列決定される一本鎖ポリヌクレオチド分子は、DNA若しくはRNAとして一本鎖形態で起源を有し得るか、又は二本鎖DNA(dsDNA)形態(例えば、ゲノムDNA断片、PCR及び増幅産物など)で起源を有することができる。したがって、一本鎖ポリヌクレオチドは、ポリヌクレオチド二重鎖のセンス鎖又はアンチセンス鎖であり得る。標準的な技術を使用した本開示の方法における使用に好適な一本鎖ポリヌクレオチド分子の調製方法は、当該技術分野で既知である。一次ポリヌクレオチド分子の正確な配列は、一般に、本開示に重要ではなく、既知又は未知であり得る。一本鎖ポリヌクレオチド分子は、イントロンとエクソン配列(コード配列)との両方、並びにプロモーター配列及びエンハンサー配列などの非コード調節配列を含む、ゲノムDNA分子(例えば、ヒトゲノムDNA)を表すことができる。
【0017】
特定の実施形態では、本開示の使用により配列決定される核酸は、基材(例えば、フローセル内の基材、又はフローセルなどの基材上の1つ以上のビーズなど)に固定化される。本明細書で使用される「固定化された」という用語は、明示的又は文脈によって別途示されない限り、直接的又は間接的な、共有付着又は非共有付着を包含することを意図する。特定の実施形態では、共有付着が好まれ得るが、一般的に、必要とされるのは、例えば、核酸配列決定を必要とする用途において、支持体を使用することが意図される条件下で、分子(例えば、核酸)が、支持体に固定化されたままである又は付着したままであるということである。
【0018】
「固体支持体」(又は特定の用途では「基材」)の用語は、本明細書で使用する場合、例えば、ガラス表面、プラスチック表面、ラテックス、デキストラン、ポリスチレン表面、ポリプロピレン表面、ポリアクリルアミドゲル、金表面、及びシリコンウェハなどの、核酸を付着し得る任意の不活性基材又はマトリックスを指す。多くの実施形態では、固体支持体は、ガラス表面(例えば、フローセルチャネルの平面)である。特定の実施形態では、固体支持体は、例えば、ポリヌクレオチドなど、分子への共有付着を可能にする反応性基を含む中間材料の層又はコーティングを適用することによって、「官能化」されている不活性基基材はマトリックスを含んでもよい。非限定的な例として、そのような支持体は、ガラスなどの不活性基材上に支持されたポリアクリルアミドヒドロゲルを含んでもよい。そのような実施形態では、分子(ポリヌクレオチド)は、中間材料(例えば、ヒドロゲル)に直接共有付着してもよいが、中間材料は、それ自体が基材又はマトリックス(例えば、ガラス基材)に非共有付着してもよい。固体支持体への共有付着は、このタイプの配置を包含するように適宜解釈されるべきである。
【0019】
上記のように、本開示は、核酸を配列決定するための新規のシステム及びデバイスを備える。当業者に明らかであるように、特定の核酸配列への本明細書における言及は、コンテキストに依存して、このような核酸配列を備える核酸分子にもまた言及する場合がある。標的断片の配列決定は、塩基の時系列順の読み取りが確立されることを意味する。読み取られる塩基は、連続している必要もなく、配列決定中に全断片上の全ての塩基が配列決定される必要もない、ことが好ましい。配列決定は、任意の適切な配列決定技術を使用して実行することができ、ヌクレオチド又はオリゴヌクレオチドは、遊離3’ヒドロキシル基に連続的に添加され、5’から3’方向でのポリヌクレオチド鎖の合成をもたらす。付加されたヌクレオチドの性質は、好ましくは、各ヌクレオチド付加後に決定される。全ての連続塩基が配列決定されるわけではないライゲーションによる配列決定を使用する配列決定技術、及び表面上の鎖に塩基が付加されるのではなく鎖から塩基が除去される超並列シグネチャー配列決定(MPSS)などの技術も、本開示のシステム及びデバイスとともに、使用に適している。
【0020】
特定の実施形態では、本開示は、合成による配列決定(Sequencing-By-Synthesis、SBS)を開示する。SBSでは、4つの蛍光標識された修飾ヌクレオチドが、基材(例えば、フローセル)の表面上に存在する増幅されたDNAの高密度クラスタ(おそらく数百万のクラスタ)を配列決定するために使用される。本明細書のシステム及びデバイスとともに利用され得る、SBS手順及び方法に関する様々な付加的態様は、例えば、国際公開第04018497、国際公開第04018493及び米国特許第7,057,026号(ヌクレオチド)、国際公開第05024010及び国際公開第06120433(ポリメラーゼ)、国際公開第05065814(表面付着技法)、並びに国際公開第9844151、国際公開第06064199及び国際公開第07010251に開示されており、その各々の内容は、参照することによってその全体として本明細書に組み込まれる。
【0021】
本明細書中のシステム/デバイスの特定の使用において、配列決定のための核酸サンプルを含むフローセルは、適切なフローセルホルダー内に配置される。配列決定のためのサンプルは、単一分子、クラスタの形態の増幅された単一分子、又は核酸の分子を含むビーズの形態をとることができる。核酸を、未知の標的配列に隣接するオリゴヌクレオチドプライマーを備えるように調製することができる。第1のSBS配列決定サイクルを開始するために、1つ以上の異なって標識されたヌクレオチド、及びDNAポリメラーゼなどが、流体フローサブシステム(その様々な実施形態を本明細書に記載する)によってフローセル内に/フローセルを通って流される。単一のヌクレオチドを一度に追加することができるか、又は配列決定手順で使用されるヌクレオチドを、可逆終端特性を有するように特別に設計することができ、したがって、配列決定反応の各サイクルが、4個の全ての標識ヌクレオチド(A、C、T、G)の存在下で同時に生じることを可能にする。4個のヌクレオチドが一緒に混合される場合、ポリメラーゼは、正しい塩基を選択して組み込むことができ、各配列は、単一の塩基によって伸長される。システムを使用するそのような方法では、4個の全ての選択肢の間の自然な競合は、1つのヌクレオチドのみが反応混合物中に存在する場合(したがって、配列の大部分が正しいヌクレオチドに曝露されない場合)よりも高い精度をもたらす。特定の塩基が次々に繰り返される配列(例えば、ホモポリマー)は、任意の他の配列と同様に、高い精度で対処される。
【0022】
流体フローサブシステムはまた、ブロックされた3’末端(適切な場合)を、及び各組み込まれた塩基からフルオロフォアを、除去するために、適切な試薬を流す。4個のブロックされたヌクレオチドの第2のラウンド、又は任意選択で、異なる個々のヌクレオチドを用いた第2のラウンドのいずれかに、基材を曝露することができる。次いで、このようなサイクルが繰り返され、各クラスタの配列は、複数の化学サイクルにわたって読み取られる。本開示のコンピュータ態様は、任意選択で、長いポリマーなどの配列を決定するために、各単一分子、クラスタ又はビーズから収集された配列データを位置合わせすることができる。あるいは、画像処理及び位置合わせは、別個のコンピュータ上で実施され得る。
【0023】
システムの加熱/冷却構成要素は、フローセルチャネル及び試薬貯蔵領域/容器(並びに任意選択でカメラ、光学系、及び/又は他の構成要素)内の反応条件を調節する一方で、流体流構成要素により、組み込まれなかった試薬が洗い流される間に、基材表面は、組み込みに適した試薬(例えば、組み込まれる適切な蛍光標識ヌクレオチド)に曝露され得る。フローセルが配置される任意の可動ステージは、フローセルが基材のレーザー(又は他の光)励起のために適切に方向付けられることを可能にし、任意選択で、基材の異なる領域の読み取りを可能にするために対物レンズに対して移動されることを可能にする。加えて、システムの他の構成要素(例えば、カメラ、対物レンズ、ヒータ/クーラなど)もまた、任意選択で、移動可能/調整可能である。レーザー励起中に、基材上の核酸から、発光された蛍光の画像/位置は、カメラ構成要素によって捕捉され、それによって、コンピュータ構成要素において、各単一分子、クラスタ又はビーズについての第1の塩基の識別情報を記録する。
【0024】
本明細書に記載される実施形態は、学術分析又は商業的分析のための様々な生物学的又は化学的プロセス及びシステムにおいて使用されてもよい。より具体的には、本明細書に記載される実施形態は、所望の反応を示すイベント、特性、品質、又は特性を検出することが望ましい様々なプロセス及びシステムにおいて使用されてもよい。例えば、本明細書に記載される実施形態としては、カートリッジ、バイオセンサ、及びそれらの構成要素、並びにカートリッジ及びバイオセンサとともに動作するバイオアッセイシステムが挙げられる。特定の実施形態では、カートリッジ及びバイオセンサは、実質的に単一の構造で一緒に結合されたフローセル及び1つ以上のセンサ、ピクセル、光検出器、又はフォトダイオードを含む。
【0025】
特定の実施形態の以下の詳細な説明は、添付の図面と併せて読むと、より良く理解され得る。図が様々な実施形態の機能ブロックの図を示す限りにおいて、機能ブロックは、必ずしもハードウェア回路間の分割を示すものではない。したがって、例えば、機能ブロック(例えば、プロセッサ又はメモリ)のうちの1つ以上は、1つのハードウェア(例えば、汎用信号プロセッサ又はランダムアクセスメモリ、ハードディスクなど)で実装されてもよい。同様に、プログラムは、スタンドアロンプログラムであってもよく、オペレーティングシステム内のサブルーチンとして組み込まれてもよく、インストールされたソフトウェアパッケージ内の機能であってもよい、など。様々な実施形態は、図面に示された配置及び手段に限定されないことを理解されたい。
【0026】
本明細書で使用する際、単数形で記載され、かつ単語「a」又は「an」に続く要素又は工程は、かかる除外が明示的に記載されていない限り、複数のこれらの要素又は工程を除外しないものとして理解されるべきである。更に、「一実施形態」への言及は、列挙された特徴をまた組み込む追加の実施形態の存在を除外するものとして解釈されることを意図するものではない。更に、反対に明示的に述べられていない限り、特定の特性を有する要素又は複数の要素を「備える」又は「有する」又は「含む」実施形態は、それらがその特性を有するかどうかにかかわらず、追加の要素を含み得る。
【0027】
本明細書で使用するとき、「所望の反応」は、対象となる検体の化学的、電気的、物理的、又は光学的特性(又は品質)のうちの少なくとも1つの変化を含む。特定の実施形態では、所望の反応は、正の結合事象である(例えば、蛍光標識された生体分子の対象となる検体への組み込み)。より一般的には、所望の反応は、化学変換、化学変化、又は化学的相互作用であってもよい。所望の反応はまた、電気特性の変化であってもよい。例えば、所望の反応は、溶液内のイオン濃度の変化であってもよい。例示的な反応としては、還元、酸化、付加、脱離、再配列、エステル化、アミド化、エーテル化、環化、又は置換などの化学反応、第1の化学物質が第2の化学物質に結合する結合相互作用、2つ以上の化学物質が互いに分離する解離反応、蛍光、発光、生物発光、化学発光、並びに核酸複製、核酸増幅、核酸ハイブリダイゼーション、核酸ライゲーション、リン酸化、酵素触媒、受容体結合、又はリガンド結合などの生体反応、が挙げられるが、これらに限定されない。所望の反応はまた、例えば、周囲の溶液又は環境のpHの変化として検出可能である、プロトンの添加又は除去であってもよい。追加の所望の反応は、膜(例えば、天然又は合成二層膜)を横切るイオンの流れの検出であることができ、例えば、イオンが膜を通って流れるとき、電流が乱れ、この乱れが検出され得る。
【0028】
特定の実施形態では、所望の反応は、検体への蛍光標識分子の組み込みを含む。検体は、オリゴヌクレオチドであってもよく、蛍光標識分子は、ヌクレオチドであってもよい。所望の反応は、励起光が標識ヌクレオチドを有するオリゴヌクレオチドに方向付けられ、かつ蛍光団が検出可能な蛍光信号を発するときに、検出され得る。代替の実施形態では、検出された蛍光は、化学発光又は生物発光の結果である。所望の反応はまた、例えば、ドナーフルオロフォアをアクセプタ蛍光団に近接させることによって蛍光団(又はForster)共鳴エネルギー移動(Fluorescence Resonance Energy Transfer、FRET)を増加させることができ、ドナーとアクセプタ蛍光団とを離すことによってFRETを減少させ、消光剤をフルオロフォアから離すことによって蛍光を増加させるか、又は消光剤及び蛍光団を共局在させることによって蛍光団を減少させることができる。
【0029】
本明細書で使用するとき、「反応成分」又は「反応物質」は、所望の反応を得るために使用され得る任意の物質を含む。例えば、反応成分としては、試薬、酵素、サンプル、他の生体分子、及び緩衝液が挙げられる。反応成分は、典型的には、溶液中の反応部位に送達され、及び/又は反応部位で固定される。反応成分は、対象となる検体などの別の物質と直接又は間接的に相互作用し得る。
【0030】
本明細書で使用するとき、用語「反応部位」は、所望の反応が生じ得る局所的領域である。反応部位は、物質がその上に固定され得る基材の支持表面を含んでもよい。例えば、反応部位は、その上に核酸のコロニーを有するフローセルのチャネル内に実質的に平面状の表面を含んでもよい。常にではないが、典型的には、コロニー中の核酸は、同じ配列を有し、例えば、一本鎖又は二本鎖テンプレートのクローンコピーである。しかしながら、いくつかの実施形態では、反応部位は、例えば、一本鎖又は二本鎖形態で、単一の核酸分子のみを含有してもよい。更に、複数の反応部位は、支持表面に沿って不均一に分布してもよく、又は所定の様式で(例えば、マイクロアレイなどのマトリックス内で並列に)配置されてもよい。反応部位はまた、所望の反応を区画化するように構成された空間領域又は容積を少なくとも部分的に画定する反応チャンバ(又はウェル)を含むことができる。
【0031】
本出願は、用語「反応チャンバ」及び「ウェル」を互換的に使用する。本明細書で使用するとき、用語「反応チャンバ」又は「ウェル」は、フローチャネルと流体連通している空間領域を含む。反応チャンバは、周囲環境又は他の空間領域から少なくとも部分的に分離されてもよい。例えば、複数の反応チャンバは、共有された壁によって互いに分離されてもよい。より具体的な例として、反応チャンバは、ウェルの内面によって画定された空洞を含み、空洞がフローチャネルと流体連通しているように開口部又はアパーチャを有してもよい。そのような反応チャンバを含むバイオセンサは、2011年10月20日に出願された国際出願第US2011/057111号により詳細に記載されており、その全体は参照により本明細書に組み込まれる。
【0032】
いくつかの実施形態では、反応チャンバは、固体がその中に完全に又は部分的に挿入され得るように、固体(半固体を含む)に対してサイズ及び形状を定められる。例えば、反応チャンバは、ただ1つの捕捉ビーズを収容するようにサイズ及び形状を定められ得る。捕捉ビーズは、クローン的に増幅されたDNA又はその上の他の物質を有してもよい。あるいは、反応チャンバは、おおよその数のビーズ又は固体基材を受容するようにサイズ及び形状を定められ得る。別の例として、反応チャンバはまた、反応チャンバに流入し得る拡散又はフィルタ流体を制御するように構成された多孔質ゲル又は物質で充填されてもよい。
【0033】
いくつかの実施形態では、センサ(例えば、光検出器、フォトダイオード)は、バイオセンサのサンプル表面の対応するピクセル領域に関連付けられている。したがって、ピクセル領域は、1つのセンサ(又はピクセル)のバイオセンサのサンプル表面上の領域を表す幾何学的構築物である。ピクセル領域に関連付けられたセンサは、関連するピクセル領域の上にある反応部位又は反応チャンバで所望の反応が生じたとき、関連するピクセル領域から収集された発光を検出する。平坦な表面の実施形態では、ピクセル領域は重なり合うことができる。いくつかの場合には、複数のセンサは、単一の反応部位又は単一の反応チャンバに関連付けられ得る。他の場合には、単一のセンサは、反応部位のグループ又は反応チャンバのグループに関連付けられ得る。
【0034】
本明細書で使用するとき、「バイオセンサ」は、複数の反応部位及び/又は反応チャンバ(若しくはウェル)を有する構造を含む。バイオセンサは、ソリッドステート撮像デバイス(例えば、CCD又はCMOSイメージャ)及び、任意選択的に、それに取り付けられたフローセルを含んでもよい。フローセルは、反応部位及び/又は反応チャンバと流体連通している少なくとも1つのフローチャネルを含み得る。1つの特定の例として、バイオセンサは、バイオアッセイシステムに流体的かつ電気的に結合するように構成される。バイオアッセイシステムは、所定のプロトコル(例えば、合成による配列決定)に従って反応部位及び/又は反応チャンバに反応物質を送達し、複数の撮像イベントを実行してもよい。例えば、バイオアッセイシステムは、反応部位及び/又は反応チャンバに沿って流れるように溶液を方向付けることができる。溶液のうちの少なくとも1つは、同じ又は異なる蛍光標識を有する4タイプのヌクレオチドを含んでもよい。ヌクレオチドは、反応部位及び/又は反応チャンバに位置する対応するオリゴヌクレオチドに結合し得る。次いで、バイオアッセイシステムは、励起光源(例えば、発光ダイオード又はLEDなどのソリッドステート光源)を使用して反応部位及び/又は反応チャンバを照明することができる。励起光は、波長の範囲を含む所定の波長又は複数の波長を有してもよい。励起された蛍光標識は、センサによって捕捉され得る発光信号を提供する。
【0035】
代替の実施形態では、バイオセンサは、他の識別可能な特性を検出するように構成された電極又は他のタイプのセンサを含み得る。例えば、センサは、イオン濃度の変化を検出するように構成され得る。別の例では、センサは、膜を横切るイオン電流の流れを検出するように構成され得る。
【0036】
本明細書で使用するとき、「クラスタ」は、類似又は同一の分子又はヌクレオチド配列又はDNA鎖のコロニーである。例えば、クラスタは、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施形態では、クラスタは、サンプル表面上の物理的領域を占有する任意の要素又は要素群であり得る。実施形態では、クラスタは、ベースコールサイクル中に反応部位及び/又は反応チャンバに固定化される。
【0037】
本明細書で使用するとき、用語「固定化された」は、生体分子又は生物学的物質若しくは化学物質に関して使用されるとき、生体分子又は生物学的物質若しくは化学物質を分子レベルで表面に実質的に付着させることを含む。例えば、生体分子又は生物学的物質若しくは化学物質は、非共有結合(例えば、静電力、ファンデルワールス、及び疎水性界面の脱水)を含む吸着技術、並びに官能基又はリンカーが生体分子の表面への付着を促進する共有結合技術を含む吸着技術を用いて、基材物質の表面に固定化されてもよい。生体分子又は生物学的物質若しくは化学物質を基材物質の表面に固定化することは、基材表面の特性、生体分子又は生物学的物質若しくは化学物質を担持する液体媒体、並びに生体分子又は生物学的物質若しくは化学物質自体の特性に基づいてもよい。場合によっては、基材表面は、生体分子(又は生物学的物質又は化学物質)を表面に固定化するのを容易にするために、基材表面を官能化(例えば、化学的又は物理的に修飾)してもよい。基材表面は、表面に結合した官能基を有するように最初に修飾されてもよい。次いで、官能基は、生体分子又は生物学的物質若しくは化学物質に結合して、それらをその上に固定化し得る。物質は、例えば、参照により本明細書に組み込まれる米国特許出願公開第2011/0059865(A1)号に記載されているように、ゲルを介して表面に固定化され得る。
【0038】
いくつかの実施形態では、核酸は表面に付着され、ブリッジ増幅を使用して増幅することができる。有用なブリッジ増幅法は、例えば、米国特許第5,641,658号、国際公開第2007/010251号、米国特許第6,090,592号、米国特許出願公開第2002/0055100(A1)号、米国特許第7,115,400号、米国特許出願公開第2004/0096853(A1)号、米国特許出願公開第2004/0002090(A1)号、米国特許出願公開第2007/0128624(A1)号、及び米国特許出願公開第2008/0009420(A1)号に記載されており、これらの各々は、その全体が本明細書に組み込まれる。表面上の核酸を増幅するための別の有用な方法は、例えば、以下で更に詳細に説明する方法を使用する、ローリングサークル増幅(Rolling Circle Amplification、RCA)である。いくつかの実施形態では、核酸は、表面に付着され、1つ以上のプライマー対を使用して増幅され得る。例えば、プライマーのうちの1つは溶液中であってもよく、他のプライマーは、表面上に固定化され得る(例えば、5’-付着)。例として、核酸分子は、表面上のプライマーのうちの1つにハイブリダイズし、続いて固定化プライマーを伸長させて、核酸の第1のコピーを生成することができる。溶液中のプライマーは、次いで、核酸の第1のコピーをテンプレートとして使用して伸長させることができる核酸の第1のコピーにハイブリダイズする。任意選択的に、核酸の第1のコピーが生成された後、元の核酸分子は、表面上の第2の固定化プライマーにハイブリダイズすることができ、同時に、又は溶液中のプライマーが伸長された後に伸長され得る。任意の実施形態では、固定化プライマー及び溶液中のプライマーを使用する伸長の反復ラウンド(例えば、増幅)は、核酸の複数のコピーを提供する。
【0039】
特定の実施形態では、本明細書に記載されるシステム及び方法によって実行されるアッセイプロトコルは、天然ヌクレオチド、及び天然ヌクレオチドと相互作用するように構成された酵素の使用を含む。天然ヌクレオチドとしては、例えば、リボヌクレオチド(RNA)又はデオキシリボヌクレオチド(DNA)が挙げられる。天然ヌクレオチドは、一リン酸、二リン酸、又は三リン酸形態であってよく、アデニン(A)、チミン(T)、ウラシル(U)、グアニン(G)、又はシトシン(C)から選択される塩基を有することができる。しかしながら、上記ヌクレオチドの非天然ヌクレオチド、修飾ヌクレオチド、又は類似体を使用することができることが理解されるであろう。有用な非天然ヌクレオチドのいくつかの例は、合成方法による可逆的ターミネータベースの配列決定に関して以下に記載されている。
【0040】
反応チャンバを含む実施形態では、物品又は固体物質(半固体物質を含む)が、反応チャンバ内に配置され得る。配置される場合、物品又は固体は、干渉嵌合、接着、又は閉じ込めを介して反応チャンバ内に物理的に保持又は固定化され得る。反応チャンバ内に配置され得る例示的な物品又は固体としては、ポリマービーズ、ペレット、アガロースゲル、粉末、量子ドット、又は反応チャンバ内で圧縮及び/又は保持され得る他の固体が挙げられる。特定の実施形態では、DNAボールなどの核酸超構造は、例えば、反応チャンバの内面に取り付けることによって、又は反応チャンバ内に液体中に滞留することによって、反応チャンバ内に又は反応チャンバに配置することができる。DNAボール又は他の核酸超構造を事前成形し、次いで、反応チャンバ内に又は反応チャンバに配置することができる。あるいは、DNAボールは、反応チャンバにおいてその場で合成することができる。DNAボールは、ローリングサークル増幅によって合成して、特定の核酸配列のコンカテマーを生成することができ、コンカテマーは、比較的コンパクトなボールを形成する条件で処理することができる。DNAボール及びそれらの合成のための方法は、例えば、米国特許出願公開第2008/0242560(A1)号又は同第2008/0234136(A1)号に記載されており、それらの各々は、その全体が本明細書に組み込まれる。反応チャンバ内に保持又は配置された物質は、固体、液体、又は気体状態であり得る。
【0041】
本明細書で使用するとき、「ベースコール」は、核酸配列中のヌクレオチド塩基を識別する。ベースコールは、特定のサイクルにおいてあらゆるクラスタのベースコール(A、C、G、T)を決定するプロセスを指す。一例として、ベースコールは、米国特許出願公開第2013/0079232号の組み込まれた資料に記載されている4チャネル、2チャネル又は1チャネル方法及びシステムを利用して実行することができる。特定の実施形態では、ベースコールサイクルは、「サンプリングイベント」と呼ばれる。1色素及び2チャネル配列決定プロトコルでは、サンプリングイベントは、各段階でピクセル信号が発生するように、時系列で2つの照明段階を含む。第1の照明段階は、ATピクセル信号においてヌクレオチド塩基A及びTを示す所与のクラスタからの照明を誘導し、第2の照明段階は、CTピクセル信号においてヌクレオチド塩基C及びTを示す所与のクラスタからの照明を誘導する。
【0042】
開示した技術、例えば、開示したベースコーラーは、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、粗粒化された再構成可能アーキテクチャ(CGRA)、特定用途向け集積回路(ASIC)、特定用途向け命令セットプロセッサ(ASIP)、及びデジタル信号プロセッサ(DSP)のようなプロセッサで実施されてもよい。
【0043】
バイオセンサ
図1は、様々な実施形態で使用することができるバイオセンサ100の断面図を示す。バイオセンサ100は、ベースコールサイクル中に2つ以上のクラスタ(例えば、ピクセル領域当たり2つのクラスタ)をそれぞれ保持することができるピクセル領域106’、108’、110’、112’、及び114’を有する。示されるように、バイオセンサ100は、サンプリングデバイス104上に取り付けられたフローセル102を含み得る。図示の実施形態では、フローセル102は、サンプリングデバイス104に直接固定される。しかしながら、代替の実施形態では、フローセル102は、サンプリングデバイス104に取り外し可能に結合され得る。サンプリングデバイス104は、官能化され得る(例えば、所望の反応を起こすのに好適な様式で化学的又は物理的に修飾され得る)サンプル表面134を有する。例えば、サンプル表面134は、官能化されてもよく、ベースコールサイクル中に2つ以上のクラスタをそれぞれ保持することができる(例えば、それに固定化された対応するクラスタ対106A、106B、クラスタ対108A、108B、クラスタ対110A、110B、クラスタ対112A、112B、及びクラスタ対114A、114Bをそれぞれ有する)複数のピクセル領域106’、108’、110’、112’、及び114’を含み得る。各ピクセル領域は、対応するセンサ(又はピクセル若しくはフォトダイオード)106、108、110、112、及び114に関連付けられ、したがって、ピクセル領域によって受信された光は、対応するセンサによって捕捉される。反応部位106”から発光された光が、ピクセル領域106’によって受信され、対応するセンサ106によって捕捉されるように、ピクセル領域106’を、クラスタ対を保持するサンプル表面134上の対応する反応部位106”に更に関連付けることができる。この感知構造の結果として、ベースコールサイクル中に特定のセンサのピクセル領域に2つ以上のクラスタが存在する(例えば、対応するクラスタ対をそれぞれ有する)場合、そのベースコールサイクルにおけるピクセル信号は、2つ以上のクラスタの全てに基づく情報を搬送する。結果として、本明細書に記載の信号処理は、特定のベースコールサイクルの所与のサンプリングイベントにおいてピクセル信号より多くのクラスタが存在する、各クラスタを区別するために使用される。
【0044】
図示の実施形態では、フローセル102は、側壁138、125、及び側壁138、125によって支持されるフローカバー136を含む。側壁138、125は、サンプル表面134に結合され、フローカバー136とサンプル表面134との間に延在する。いくつかの実施形態では、側壁138、125は、フローカバー136をサンプリングデバイス104に接合する硬化性接着剤層から形成される。
【0045】
側壁138、125は、フローカバー136とサンプリングデバイス104との間にフローチャネル144が存在するようにサイズ及び形状を定められる。フローカバー136は、バイオセンサ100の外部からフローチャネル144に伝搬する励起光101に対して透明な材料を含み得る。一例では、励起光101は、非直交角度でフローカバー136に近づく。
【0046】
また図示のように、フローカバー136は、他のポート(図示せず)に流体的に係合するように構成された入口ポート及び出口ポート142、146を含み得る。例えば、これらの他のポートは、カートリッジ又はワークステーションからのものであり得る。フローチャネル144は、サンプル表面134に沿って流体を方向付けるようにサイズ及び形状を定められる。フローチャネル144の高さH1及び他の寸法は、サンプル表面134に沿って流体の実質的に均一な流れを維持するように構成され得る。フローチャネル144の寸法はまた、気泡形成を制御するように構成され得る。
【0047】
例として、フローカバー136(又はフローセル102)は、ガラス又はプラスチックなどの透明材料を含み得る。フローカバー136は、平面状の外面と、フローチャネル144を画定する平面状の内面とを有する、実質的に長方形のブロックを構成し得る。ブロックは、側壁138、125上に取り付けられ得る。あるいは、フローセル102をエッチングして、フローカバー136及び側壁138、125を画定することができる。例えば、凹部が、透明材料にエッチングされ得る。エッチングされた材料がサンプリングデバイス104に取り付けられると、凹部はフローチャネル144になり得る。
【0048】
サンプリングデバイス104は、例えば、複数のスタック基材層120~126を備える集積回路と同様であり得る。基材層120~126は、ベース基材120、ソリッドステートイメージャ122(例えば、CMOS画像センサ)、フィルタ又は光管理層124、並びにパッシベーション層126を含み得る。上記は単なる例示であり、他の実施形態はより少ない又は追加の層を含み得ることに留意されたい。更に、基材層120~126の各々は、複数の副層を含み得る。サンプリングデバイス104は、CMOS画像センサ及びCCDなどの集積回路を製造する際に使用されるものと同様のプロセスを使用して製造され得る。例えば、基材層120~126又はそれらの一部は、サンプリングデバイス104を形成するために成長、堆積、エッチングなどを行うことができる。
【0049】
パッシベーション層126は、フローチャネル144の流体環境からフィルタ層124を遮蔽するように構成されている。場合によっては、パッシベーション層126はまた、生体分子又は他の対象となる検体がその上に固定化されることを可能にする固体表面(すなわち、サンプル表面134)を提供するように構成されている。例えば、反応部位の各々は、サンプル表面134に固定化された生体分子のクラスタを含み得る。したがって、パッシベーション層126は、反応部位がそれに固定化されることを可能にする材料から形成され得る。パッシベーション層126はまた、所望の蛍光に対して少なくとも透明である材料を含み得る。例として、パッシベーション層126は、窒化ケイ素(Si2N4)及び/又はシリカ(SiO2)を含み得る。しかしながら、他の好適な材料を使用することができる。図示の実施形態では、パッシベーション層126は、実質的に平面状であり得る。しかしながら、代替の実施形態では、パッシベーション層126は、ピット、ウェル、溝などの凹部を含み得る。図示の実施形態では、パッシベーション層126は、約150~200nm、より具体的には約170nmの厚さを有する。
【0050】
フィルタ層124は、光の透過に影響を及ぼす様々な特徴を含み得る。いくつかの実施形態では、フィルタ層124は、複数の機能を実行することができる。例えば、フィルタ層124は、(a)励起光源からの光信号など、不要な光信号をフィルタリングするか、(b)反応部位からの発光信号を、反応部位からの発光信号を検出するように構成された対応するセンサ106、108、110、112、及び114に向かって方向付けるか、又は(c)隣接する反応部位からの不要な発光信号の検出を遮断若しくは防止するように構成され得る。したがって、フィルタ層124は光管理層とも呼ばれ得る。図示の実施形態では、フィルタ層124は、約1~5μm、より具体的には約2~4μmの厚さを有する。代替の実施形態では、フィルタ層124は、マイクロレンズ又は他の光学構成要素のアレイを含み得る。マイクロレンズの各々は、関連する反応部位からの発光信号をセンサに方向付けるように構成され得る。
【0051】
いくつかの実施形態では、ソリッドステートイメージャ122及びベース基材120は、以前に構成されたソリッドステート撮像デバイス(例えば、CMOSチップ)として一緒に提供され得る。例えば、ベース基材120は、シリコンのウェハであってもよく、ソリッドステートイメージャ122は、その上に取り付けられてもよい。ソリッドステートイメージャ122は、半導体材料(例えば、シリコン)の層、並びにセンサ106、108、110、112、及び114を含む。図示の実施形態では、センサは、光を検出するように構成されたフォトダイオードである。他の実施形態では、センサは、光検出器を備える。ソリッドステートイメージャ122は、CMOSベースの製造プロセスを介して単一のチップとして製造され得る。
【0052】
ソリッドステートイメージャ122は、フローチャネル144内からの又はフローチャネル144に沿った所望の反応を示すアクティビティを検出するように構成されたセンサ106、108、110、112、及び114の高密度アレイを含み得る。いくつかの実施形態では、各センサは、約1~2平方マイクロメートル(μm2)であるピクセル領域(又は検出領域)を有する。アレイは、500,000個のセンサ、500万個のセンサ、1000万個のセンサ、又は更に1億2000万個のセンサを含むことができる。センサ106、108、110、112、及び114は、所望の反応を示す所定の光の波長を検出するように構成することができる。
【0053】
いくつかの実施形態では、サンプリングデバイス104は、参照によりその全体が本明細書に組み込まれる米国特許第7,595,882号に記載されているマイクロ回路配置などのマイクロ回路配置を含む。より具体的には、サンプリングデバイス104は、センサ106、108、110、112、及び114の平面アレイを有する集積回路を備え得る。サンプリングデバイス104内に形成された回路は、信号増幅、デジタル化、記憶、及び処理のうちの少なくとも1つのために構成され得る。回路は、検出された蛍光を収集及び分析し、検出データを信号プロセッサに通信するためのピクセル信号(又は検出信号)を発生させることができる。回路はまた、サンプリングデバイス104において追加のアナログ及び/又はデジタル信号処理を実行し得る。サンプリングデバイス104は、信号ルーティングを実行する(例えば、ピクセル信号を信号プロセッサに送信する)導電ビア130を含み得る。ピクセル信号を、サンプリングデバイス104の電気接点を通って更に送信することができる。
【0054】
サンプリングデバイス104は、本明細書に完全に記載されているかのように参照により組み込まれる、2020年5月14日に出願された「Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing」と題する米国特許非仮出願第16/874,599号(代理人整理番号ILLM1011-4/IP-1750-US)に関して更に詳細に論じられている。サンプリングデバイス104は、上述されたような上記の構成又は使用に限定されない。代替の実施形態では、サンプリングデバイス104は、他の形態をとってもよい。例えば、サンプリングデバイス104は、フローセルに結合されているか、又は反応部位をその中に有するフローセルとインターフェース接続するように移動される、CCDカメラなどのCCDデバイスを備え得る。
【0055】
図2は、そのタイル内にクラスタを含むフローセル200の一実装形態を示す。フローセル200は、
図1のフローセル102に対応し、例えば、フローカバー136なしである。更に、フローセル200の描写は、本質的に記号的であり、フローセル200は、その中に様々な他の構成要素を示すことなく、その中に様々なレーン及びタイルを記号的に示している。
図2は、フローセル200の上面図を示している。
【0056】
一実施形態では、フローセル200は、レーン202a、202b、...、202P、すなわち、P個のレーンなど、複数のレーンに分けられるか又は分割される。
図2の例では、フローセル200は、8つのレーンを含むように、すなわち、この例ではP=8であるように示されているが、フローセル内のレーンの数は、実装形態固有である。
【0057】
一実施形態では、個々のレーン202は、「タイル」212と呼ばれる非重複領域に更に分割される。例えば、
図2は、例示的なレーンのセクション208の拡大図を示している。セクション208は、複数のタイル212を含むように示されている。
【0058】
一例では、各レーン202は、1つ以上のタイル列を含む。例えば、
図2では、各レーン202は、拡大セクション208内に示されているように、2つの対応するタイル列212を含む。各レーン内の各タイル列内のタイルの数は、実装形態固有であり、一例では、各レーン内の各タイル列に50個のタイル、60個のタイル、100個のタイル、又は別の適切な数のタイルが存在し得る。
【0059】
各タイルは、対応する複数のクラスタを含む。配列決定手順中、タイル上のクラスタ及びそれらの周囲の背景が撮像される。例えば、
図2は、例示的なタイル内の例示的なクラスタ216を示している。
【0060】
図3は、8つのレーンを有する例示的なIllumina GA-IIx(商標)フローセルを示し、1つのタイル及びそのクラスタ及びそれらの周囲の背景のズームインも示す。例えば、Illumina Genome Analyzer IIのレーン当たり100タイル、及びIllumina HiSeq2000内のレーン当たり68個のタイルが存在する。タイル212は、数十万~数百万個のクラスタを保持する。
図3では、明るい斑点として示されているクラスタを有するタイルから発生した画像は、308に示されており(例えば、308は、タイルの拡大画像図であり)、例示的なクラスタ304は標識されている。クラスタ304は、テンプレート分子の約千個の同一のコピーを含むが、クラスタはサイズ及び形状が異なる。クラスタは、配列決定実行前に、入力ライブラリのブリッジ増幅によって、テンプレート分子から成長させる。増幅及びクラスタ成長の目的は、撮像デバイスが単一の蛍光団を確実に感知できないため、放出された信号の強度を増大させることである。しかしながら、クラスタ304内のDNAフラグメントの物理的距離は小さいため、撮像デバイスは、フラグメントのクラスタを単一のスポット304として知覚する。
【0061】
クラスタ及びタイルは、2020年3月20日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許非仮出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)に関して更に詳細に論じられている。
【0062】
図4は、ベースコールセンサ出力など、配列決定システムからのセンサデータの分析のためのシステムの簡略ブロック図である(例えば、
図1を参照)。
図4の例では、システムは、配列決定マシン400及び構成可能なプロセッサ450を含む。構成可能なプロセッサ450は、中央処理ユニット(central processing unit、CPU)402などのホストプロセッサによって実行されるランタイムプログラムと協調して、ニューラルネットワークベースのベースコーラーを実行することができる。配列決定マシン400は、(例えば、
図1~
図3に関して論じられた)ベースコールセンサ及びフローセル401を備える。フローセルは、
図1~
図3に関して論じられたように、遺伝物質のクラスタが、クラスタ内の反応を引き起こして遺伝物質中の塩基を識別するために使用される検体フローの配列に曝露される1つ以上のタイルを含むことができる。センサは、タイルデータを提供するために、フローセルの各タイルにおける配列の各サイクルの反応を感知する。この技術の実施例は、以下により詳細に記載される。遺伝的配列決定は、データ集約的動作であり、このデータ集約的動作は、ベースコールセンサデータを、ベースコール動作中に感知された遺伝物質の各クラスタについてベースコールの配列に変換する。
【0063】
この実施例のシステムは、ベースコール動作を調整するランタイムプログラムを実行するCPU402と、タイルデータのアレイの配列、ベースコール動作によって生成されたベースコール読み取り、及びベースコール動作で使用される他の情報を記憶するメモリ403と、を含む。また、この図では、システムは、構成ファイル(又は複数のファイル)、例えば、FPGAビットファイル、及び構成可能なプロセッサ450を構成及び再構成し、かつニューラルネットワークを実行するために使用されるニューラルネットワークのモデルパラメータを記憶するメモリ404を含む。配列決定マシン400は、構成可能なプロセッサを構成するためのプログラムを含み、いくつかの実施形態では、ニューラルネットワークを実行する再構成可能なプロセッサを含んでもよい。
【0064】
配列決定マシン400は、バス405によって、構成可能なプロセッサ450に結合される。バス405は、PCI-SIG規格(PCI Special Interest Group)によって現在維持及び開発されているPCIe規格(Peripheral Component Interconnect Express)と互換性のある1つの例示的なバス技術などの高スループット技術を使用して実装することができる。また、この実施例では、メモリ460は、バス461によって、構成可能なプロセッサ450に結合される。メモリ460は、構成可能なプロセッサ450を有する回路基板上に配置されたオンボードメモリであってもよい。メモリ460は、ベースコール動作で使用される作業データの構成可能なプロセッサ450による高速アクセスに使用される。バス461はまた、PCIe規格と互換性のあるバス技術などの高スループット技術を使用して実装することもできる。
【0065】
フィールドプログラマブルゲートアレイ(FPGA)、粗粒化された再構成可能アレイ(Coarse Grained Reconfigurable Array、CGRA)、及び他の構成可能かつ再構成可能なデバイスを含む、構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実装するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと呼ばれる構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。
【0066】
構成ファイルは、データフローパターンを、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットを設定するように回路を構成することにより、構成可能なプロセッサによって実行される論理機能を定義する。構成可能なプロセッサは、構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性SRAM要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Xilinx Alveo(商標)U200、Xilinx Alveo(商標)U250、Xilinx Alveo(商標)U280、Intel/Altera Stratix(商標)GX2800、Intel/Altera Stratix(商標)GX2800、及びIntel Stratix(商標)GX10Mなどの市販の製品が挙げられる。いくつかの実施例では、ホストCPUは、構成可能なプロセッサと同じ集積回路上に実装することができる。
【0067】
本明細書に記載の実施形態は、構成可能なプロセッサ450を使用して、マルチサイクルニューラルネットワークを実装する。構成可能なプロセッサの構成ファイルは、高レベルの記述言語(high-level description language、HDL)又はレジスタ転送レベル(register transfer level、RTL)言語仕様を使用して実行される論理機能を指定することによって実装することができる。本明細書は、選択された構成可能なプロセッサが構成ファイルを発生させるように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を発生させる目的で、同じ又は類似の仕様をコンパイルすることができる。
【0068】
したがって、本明細書に記載される全ての実施形態における構成可能なプロセッサの代替例は、本明細書に記載されるニューラルネットワークベースのベースコール動作を実行するように構成された、特定用途向けASIC又は専用集積回路又は集積回路のセット、あるいはシステムオンチップSOCデバイスを含む、構成されたプロセッサを含む。
【0069】
一般に、ニューラルネットワークの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと呼ばれる。
【0070】
構成可能なプロセッサ450は、この実施例では、CPU402によって実行されるプログラムを使用してロードされた構成ファイルによって、又は構成可能なプロセッサ450上の構成可能な要素のアレイを構成してベースコール機能を実行する他のソースによって、構成される。この実施例では、構成は、バス405及び461に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分配する機能を実行するデータフロー論理451を含む。
【0071】
また、構成可能なプロセッサ450は、マルチサイクルニューラルネットワークを実行するためにベースコール実行論理452を用いて構成されている。論理452は、複数のマルチサイクル実行クラスタ(例えば、453)を含み、これは、この実施例では、マルチサイクルクラスタ1からマルチサイクルクラスタXを含む。マルチサイクルクラスタの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能なプロセッサ上の利用可能なリソースに従って選択することができる。
【0072】
マルチサイクルクラスタは、構成可能なプロセッサ上の構成可能な相互接続及びメモリリソースを使用して実装されるデータフロー経路454によってデータフロー論理451に結合される。また、マルチサイクルクラスタは、例えば、構成可能なプロセッサ上の構成可能な相互接続及びメモリリソースを使用して実装された制御経路455によってデータフロー論理451に結合され、利用可能なクラスタを示す制御信号と、ニューラルネットワークの動作の実行のための入力ユニットを利用可能なクラスタに提供する準備ができていることと、ニューラルネットワークの訓練されたパラメータを提供する準備ができていることと、ベースコール分類データの出力パッチを提供する準備ができていることと、ニューラルネットワークの実行に使用される他の制御データと、提供する。
【0073】
構成可能なプロセッサは、訓練されたパラメータを使用してマルチサイクルニューラルネットワークの動作を実行して、ベースフロー動作の感知サイクルに関する分類データを生成するように構成されている。ニューラルネットワークの動作を実行して、ベースコール動作の被験者感知サイクルの分類データを生成する。ニューラルネットワークの動作は、N個の感知サイクルのそれぞれの感知サイクルからのタイルデータのアレイの数Nを含む配列に対して動作し、N個の感知サイクルは、本明細書に記載される実施例では、時系列における動作ごとに1つの塩基位置に対する異なるベースコール動作のセンサデータを提供する。任意選択的に、N個の感知サイクルのうちのいくつかは、実行される特定のニューラルネットワークモデルに従って必要に応じて、配列から出ることができる。数Nは、1を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、N個の感知サイクルの感知サイクルは、時系列で、被験者感知サイクルに先行する少なくとも1つの感知サイクル、及び被験者サイクルに後続する少なくとも1つの感知サイクルについての感知サイクルのセットを表す。本明細書では、数Nが5以上の整数である実施例が記載される。
【0074】
データフロー論理451は、N個のアレイの空間的に位置合わせされたパッチのタイルデータを含む所与の動作のための入力ユニットを使用して、ニューラルネットワークの動作のために、メモリ460から、構成可能なプロセッサに、タイルデータ、及びモデルの少なくともいくつかの訓練されたパラメータを移動させるように構成されている。入力ユニットは、1回のDMA動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。
【0075】
本明細書に記載される感知サイクルのタイルデータは、1つ以上の特徴を有するセンサデータのアレイを含むことができる。例えば、センサデータは、DNA、RNA、又は他の遺伝物質の遺伝的配列における塩基位置で4塩基のうちの1つを識別するために分析される2つの画像を含むことができる。タイルデータはまた、画像及びセンサに関するメタデータを含むことができる。例えば、ベースコール動作の実施形態では、タイルデータは、タイル上の遺伝物質群の中心からのセンサデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスタとの画像の位置合わせに関する情報を含むことができる。
【0076】
以下に記載されるようなマルチサイクルニューラルネットワークの実行中に、タイルデータはまた、中間データと呼ばれる、マルチサイクルニューラルネットワークの実行中に生成されたデータを含むことができ、これは、マルチサイクルニューラルネットワークの実行中に再計算されるのではなく再利用され得る。例えば、マルチサイクルニューラルネットワークの実行中に、データフロー論理は、タイルデータのアレイの所与のパッチのセンサデータの代わりに、中間データをメモリ460に書き込むことができる。このような実施形態は、以下により詳細に記載される。
【0077】
図示されているように、ベースコール動作の感知サイクルからタイルのセンサデータを含むタイルデータを記憶するランタイムプログラムによってアクセス可能なメモリ(例えば、460)を含む、ベースコールセンサ出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能なプロセッサ450などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの動作を実行して、感知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの動作は、被験者サイクルを含むN個の感知サイクルのそれぞれの感知サイクルからタイルデータのN個のアレイの配列で動作して、被験者サイクルの分類データを生成する。データフロー論理451は、N個の感知サイクルのそれぞれの感知サイクルからのN個のアレイの空間的に位置合わせされたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。
【0078】
また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスタを含み、複数の実行クラスタ内の実行論理クラスタがニューラルネットワークを実行するように構成されているシステムも説明される。データフロー論理は、メモリへのアクセス、及び複数の実行クラスタ内のクラスタを実行して、複数の実行クラスタ内の利用可能な実行クラスタにタイルデータの入力ユニットを提供し、入力ユニットは、それぞれの感知サイクルからタイルデータのアレイの空間的に位置合わせされたパッチの数Nを含む、入力ユニットと、被験者感知サイクルを含み、N個の空間的に位置合わせされたパッチをニューラルネットワークに適用して、被験者感知サイクルの空間的に位置合わせされたパッチの分類データの出力パッチを生成させるように、実行クラスタに、ニューラルネットワークにN個の空間的に位置合わせされたパッチを適用させることと、を含み、Nは1より大きい。
【0079】
図5は、ホストプロセッサによって実行されるランタイムプログラムの機能を含む、ベースコール動作の態様を示す簡略図である。この図では、(
図1及び
図2に示されたものなどの)フローセルからの画像センサの出力は、ライン500上で画像処理スレッド501に提供され、画像処理スレッド501は、個々のタイルのセンサデータのアレイの再サンプリング、位置合わせ及び配置などの画像に対するプロセスを実行することができ、フローセル内の各タイルのタイルクラスタマスクを計算するプロセスによって使用することができ、フローセルの対応するタイル上の遺伝物質のクラスタに対応するセンサデータのアレイ内のピクセルを識別するプロセスによって使用することができる。クラスタマスクを計算するために、1つの例示的なアルゴリズムは、ソフトマックス出力から導出されたメトリックを使用して、初期配列決定サイクルで信頼できないクラスタを検出するプロセスに基づいており、次いで、それらのウェル/クラスタからのデータは廃棄され、それらのクラスタの出力データは生成されない。例えば、プロセスは、最初のN1個の(例えば、25個の)ベースコール中に信頼性が高いクラスタを識別し、他のクラスタを拒否することができる。拒否されたクラスタは、基準によるとポリクローナル又は非常に弱い強度又は不明瞭であり得る。この手順は、ホストCPUで実行することができる。代替の実装形態では、潜在的にこの情報を使用して、CPUに戻されるべき対象となる必要なクラスタを識別し、それにより、中間データに必要なストレージを制限し得る。
【0080】
画像処理スレッド501の出力は、ライン506上でCPU内のディスパッチ論理510に提供され、ディスパッチ論理510は、ベースコール動作の状態に従って、タイルデータのアレイを、高速バス507上でデータキャッシュ504に、又は高速バス505上で
図4の構成可能なプロセッサなどのマルチクラスタニューラルネットワークプロセッサハードウェア520に、ルーティングする。ハードウェア520は、ニューラルネットワークによって出力された分類データをディスパッチ論理510に返し、ディスパッチ論理510は、情報をデータキャッシュ504に、又はライン511上でスレッド502に渡し、それは、分類データを使用してベースコール及び品質スコア計算を実行し、ベースコール読み取りのための標準フォーマットでデータを配置することができる。ベースコール及び品質スコア計算を実行するスレッド502の出力は、ライン512上でスレッド503に提供され、それは、ベースコール読み取りを集約し、データ圧縮などの他の動作を実行し、結果として得られたベースコール出力を顧客による利用のために指定された宛先に書き込む。
【0081】
いくつかの実施形態では、ホストは、ニューラルネットワークをサポートするハードウェア520の出力の最終処理を実行する、スレッド(図示せず)を含むことができる。例えば、ハードウェア520は、マルチクラスタニューラルネットワークの最終層から分類データの出力を提供することができる。ホストプロセッサは、ベースコール及び品質スコアスレッド502によって使用されるデータを設定するために、分類データを超えて、ソフトマックス関数などの出力起動機能を実行することができる。また、ホストプロセッサは、ハードウェア520に入力する前に、タイルデータの再サンプリング、バッチ正規化又は他の調整などの入力動作(図示せず)を実行することができる。
【0082】
図6は、
図4の構成可能なプロセッサなど、構成可能なプロセッサの構成の簡略図である。
図6では、構成可能なプロセッサは、複数の高速PCIeインターフェースを有するFPGAを備える。FPGAは、
図1を参照しながら記載されたデータフロー論理を含むラッパー600を用いて構成されている。ラッパー600は、CPU通信リンク609を介してCPU内のランタイムプログラムとのインターフェース及び調整を管理し、DRAM通信リンク610を介してオンボードDRAM602(例えば、メモリ460)との通信を管理する。ラッパー600内のデータフロー論理は、数Nのサイクルのために、オンボードDRAM602上のタイルデータのアレイをクラスタ601まで横断することによって取得されたパッチデータを提供し、クラスタ601からプロセスデータ615を取得して、オンボードDRAM602に配信する。ラッパー600はまた、タイルデータの入力アレイと、分類データの出力パッチの両方について、オンボードDRAM602とホストメモリとの間のデータの転送を管理する。ラッパーは、ライン613上でパッチデータを、割り当てられたクラスタ601に転送する。ラッパー600は、クラスタ601に、ライン612上で、オンボードDRAM602から取得された重みやバイアスなど、訓練されたパラメータを提供する。ラッパー600は、クラスタ601に、ライン611上で、CPU通信リンク609を介してホスト上のランタイムプログラムから提供されるか、又はそれに応答して生成された構成及び制御データを提供する。クラスタはまた、タイルデータのアレイの横断を管理して空間的に位置合わせされたパッチデータを提供し、かつクラスタ601のリソースを使用してパッチデータ上でマルチサイクルニューラルネットワークを実行するために、ホストからの制御信号と協働して使用される状態信号を、ライン616上でラッパー600に提供することができる。
【0083】
上述のように、タイルデータの複数のパッチのうちの対応するパッチ上で実行するように構成されたラッパー600によって管理される単一の構成可能なプロセッサ上に複数のクラスタが存在し得る。各クラスタは、本明細書に記載される複数の感知サイクルのタイルデータを使用して、被験者感知サイクルにおけるベースコールの分類データを提供するように構成することができる。
【0084】
システムの例では、フィルタ重み及びバイアスのようなカーネルデータを含むモデルデータをホストCPUから構成可能なプロセッサに送信することができ、その結果、モデルは、サイクル数の関数として更新され得る。ベースコール動作は、代表的な例では、数百の感知サイクルの順序で含むことができる。ベースコール動作は、いくつかの実施形態では、対の端部読み取りを含むことができる。例えば、モデル訓練されたパラメータは、20サイクルごと(又は他の数のサイクル)ごとに、又は特定のシステム及びニューラルネットワークモデルに実装される更新パターンに従って更新されてもよい。タイル上の遺伝的クラスタ内の所与のストリングのための配列が、ストリングの第1の端部から下方に(又は上方に)延在する第1の部分と、ストリングの第2の端部から上方に(又は下方に)に延在する第2の部分とを含む、対の端部読み取りを含むいくつかの実施形態では、訓練されたパラメータは、第1の部分から第2の部分への遷移で更新され得る。
【0085】
いくつかの実施例では、タイルのための感知データの複数サイクルの画像データは、CPUからラッパー600に送信されてもよい。ラッパー600は、任意選択的に、感知データの一部の前処理及び変換を行い、その情報をオンボードDRAM602に書き込むことができる。各感知サイクルの入力タイルデータは、タイル当たり感知サイクル当たり4000x3000ピクセル以上を含むセンサデータのアレイを含むことができ、2つの特徴はタイルの2つの画像の色を表し、1ピクセル当たり1又は2バイトを含むセンサデータのアレイを含むことができる。数Nが、マルチサイクルニューラルネットワークの各動作において使用される3回の感知サイクルである一実施形態では、マルチサイクルニューラルネットワークの各動作のためのタイルデータのアレイは、数当たり数百メガバイトの数で消費することができる。システムのいくつかの実施形態では、タイルデータはまた、タイルごとに1回記憶されたDFCデータのアレイ、又はセンサデータ及びタイルに関する他のタイプのメタデータも含む。
【0086】
動作中、マルチサイクルクラスタが利用可能である場合、ラッパーは、パッチをクラスタに割り当てる。ラッパーは、タイルの横断面にタイルデータの次のパッチをフェッチし、適切な制御及び構成情報とともに割り当てられたクラスタに送信する。クラスタは、構成可能なプロセッサ上の十分なメモリを用いて構成されて、パッチを含むデータのパッチを、定位置に処理されているいくつかのシステム内で複数サイクルから保持するのに十分なメモリを有するように構成することができ、様々な実施形態では、ピンポンバッファ技術又はラスタ走査技術を使用して処理される。
【0087】
割り当てられたクラスタが、現在のパッチのニューラルネットワークのその動作を完了し、出力パッチを生成すると、それはラッパーに信号を送る。ラッパーは、割り当てられたクラスタから出力パッチを読み出すか、あるいは割り当てられたクラスタは、データをラッパーにプッシュする。次いで、ラッパーは、DRAM602内の処理されたタイルのための出力パッチを組み立てることになる。タイル全体の処理が完了し、データの出力パッチがDRAMに転送されると、ラッパーは、処理された出力アレイを、特定のフォーマットでホスト/CPUに返送する。いくつかの実施形態では、オンボードDRAM602は、ラッパー600内のメモリ管理論理によって管理される。ランタイムプログラムは、リアルタイム分析を提供するために連続フローで動作する全てのサイクルについての全てのタイルデータのアレイの分析を完了するために、配列決定動作を制御することができる。
【0088】
図7は、本明細書に記載のシステムを使用して実行することができるマルチサイクルニューラルネットワークモデルの図である。
図7に示される例は、5サイクル入力、1サイクル出力ニューラルネットワークと呼ばれ得る。マルチサイクルニューラルネットワークモデルへの入力は、所与のタイルの5つの感知サイクルのタイルデータアレイからの、5つの空間的に位置合わせされたパッチ(例えば、700)を含む。空間的に位置合わせされたパッチは、セット内の他のパッチと同じ位置合わせされた行及び列の寸法(x、y)を有し、その結果、情報は、配列サイクルにおけるタイル上の遺伝物質の同じクラスタに関連する。この例では、被験者パッチは、サイクルKのタイルデータのアレイからのパッチである。5つの空間的に位置合わせされたパッチのセットは、2サイクルだけ被験者パッチに先行するサイクルK-2からのパッチと、1サイクルだけ被験者パッチに先行するサイクルK-1からのパッチと、1サイクルだけ被験者サイクルからパッチに後続するサイクルK+1からのパッチと、2つのサイクルだけ被験者サイクルからパッチに後続するサイクルK+2からのパッチと、を含む。
【0089】
モデルは、入力パッチの各々に対して、ニューラルネットワークの層の分離されたスタック701を含む。したがって、スタック701は、サイクルK+2からのパッチのタイルデータを入力として受信し、それらが入力データ又は中間データを共有しないようにスタック702、703、704、及び705から分離される。いくつかの実施形態では、スタック710~705の全ては、同一のモデル、及び同一の訓練されたパラメータを有することができる。他の実施形態では、モデル及び訓練されたパラメータは、異なるスタックにおいて異なり得る。スタック702は、サイクルK+1からのパッチのタイルデータを入力として受信する。スタック703は、サイクルKからのパッチのタイルデータを入力として受信する。スタック704は、サイクルK-1からのパッチのタイルデータを入力として受信する。スタック705は、サイクルK-2からのパッチのタイルデータを入力として受信する。分離されたスタックの層は各々、層の入力データにわたって複数のフィルタを含むカーネルの畳み込み動作を実行する。上記の例のように、パッチ700は、3つの特徴を含み得る。層710の出力は、10~20個の特徴など、より多くの特徴を含み得る。同様に、層711~716の各々の出力は、特定の実装形態に好適な任意の数の特徴を含むことができる。フィルタのパラメータは、重み及びバイアスなど、ニューラルネットワークの訓練されたパラメータである。スタック701~705の各々からの出力特徴セット(中間データ)は、複数のサイクルからの中間データが組み合わされる時間的組み合わせ層の逆階層720への入力として提供される。例示される例では、逆階層720は、分離されたスタックのうちの3つから中間データをそれぞれ受信する、3つの組み合わせ層721、722、723を含む第1の層と、3つの時間層721、722、723から中間データを受信する、1つの組み合わせ層730を含む最終層と、を含む。
【0090】
最終組み合わせ層730の出力は、サイクルKから、タイルの対応するパッチに位置するクラスタの分類データの出力パッチである。出力パッチは、サイクルKのタイルについて分類データの出力アレイに組み立てることができる。いくつかの実施形態では、出力パッチは、入力パッチとは異なるサイズ及び寸法を有してもよい。いくつかの実施形態では、出力パッチは、クラスタデータを選択するためにホストによってフィルタリングされ得るピクセルごとのデータを含んでもよい。
【0091】
次いで、出力分類データを、特定の実装形態に応じて、ホストによって、又は構成可能なプロセッサ上で任意選択的に実行されるソフトマックス関数740(又は他の出力起動機能)に適用することができる。ソフトマックスとは異なる出力関数を使用することができる(例えば、最大出力に従ってベースコール出力パラメータを作製し、次いで、コンテキスト/ネットワーク出力を使用して学習された非線形マッピングを使用して、ベース品質を与える)。
【0092】
最後に、ソフトマックス関数740の出力は、サイクルKのベースコール確率(750)として提供され、その後の処理で使用されるホストメモリに記憶され得る。他のシステムは、出力確率計算のために別の関数、例えば、別の非線形モデルを使用することができる。
【0093】
ニューラルネットワークは、複数の実行クラスタを有する構成可能なプロセッサを使用して実施され、1つの感知サイクルの時間間隔の持続時間内に、又は時間間隔の持続時間の近くで1つのタイルサイクルの評価を完了し、リアルタイムで出力データを効果的に提供することができる。データフロー論理は、タイルデータ及び訓練されたパラメータの入力ユニットを実行クラスタに分配するように、かつメモリでのアグリゲーションのために出力パッチを分配するように構成することができる。
【0094】
図7のものと同様の5サイクル入力、1サイクル出力ニューラルネットワークのデータの入力ユニットは、2チャネルセンサデータを使用したベースコール動作について
図8A及び
図8Bを参照しながら説明される。例えば、遺伝的配列における所与の塩基について、ベースコール動作は、検体の2つの流れ及び2つの反応を実行することができ、これは、画像などの信号の2つのチャネルを発生させ、これは、遺伝物質の各クラスタについて遺伝的配列の現在の位置に4つの塩基のうちのどの1つが位置するかを識別するように処理され得る。他のシステムでは、感知データの異なる数のチャネルが利用され得る。例えば、ベースコールは、1チャネル方法及びシステムを利用して実行することができる。米国特許出願公開第2013/0079232号の組み込まれた資料は、1チャネル、2チャネル、又は4チャネルなど、様々な数のチャネルを使用してベースコールを論じている。
【0095】
図8Aは、5サイクル入力、1サイクル出力ニューラルネットワークを実行する目的で使用される、所与のタイル、タイルMのための5つのサイクルのタイルデータのアレイを示す。この実施例における5サイクル入力タイルデータは、データフロー論理によってアクセスされ得るシステム内のオンボードDRAM又は他のメモリに書き込まれ、サイクルK-2のために、チャネル1のアレイ801及びチャネル2のアレイ811を含み、サイクルK-1のために、チャネル1のアレイ802及びチャネル2のアレイ812を含み、サイクルKのために、チャネル1のアレイ803及びチャネル2のアレイ813を含み、サイクルK+1のために、チャネル1のアレイ804及びチャネル2のアレイ814を含み、サイクルK+2のために、チャネル1のアレイ805及びチャネル2のアレイ815を含むことができる。また、タイルのメタデータのアレイ820は、メモリに1回書き込むことができ、この場合、各サイクルとともにニューラルネットワークへの入力として使用するために含まれるDFCファイルが含まれる。
【0096】
図8Aは2チャネルベースコール動作を論じているが、2つのチャネルを使用することは単なる例であり、ベースコールは、任意の他の適切な数のチャネルを使用して実行することができる。例えば、米国特許出願公開第2013/0079232号の組み込まれた資料は、1チャネル、2チャネル、又は4チャネル、又は別の適切な数のチャネルなど、様々な数のチャネルを使用してベースコールを論じている。
【0097】
データフロー論理は、入力パッチ上でニューラルネットワークの実行を実行するように構成された各実行クラスタについてタイルデータのアレイの空間的に位置合わせされたパッチを含むタイルデータの、
図8Bを参照して理解され得る入力ユニットを構成する。割り当てられた実行クラスタの入力ユニットは、5つの入力サイクルのためのタイルデータのアレイ801~805、811、815、820の各々からの空間的に位置合わせされたパッチ(例えば、851、852、861、862、870)を読み取り、それらを、データ経路(概略的には850)を介して、割り当てられた実行クラスタが使用するために構成された構成可能なプロセッサ上のメモリに送達することによって、データフロー論理によって構成される。割り当てられた実行クラスタは、5サイクル入力/1サイクル出力ニューラルネットワークの実行を実行し、被験者サイクルKのタイルの同じパッチについて分類データの被験者サイクルKの出力パッチを送達する。
【0098】
図9は、
図7のもの(例えば、701及び720)のようなシステムで使用可能なニューラルネットワークのスタックの簡略化された表現である。この例では、ニューラルネットワークのいくつかの機能(例えば、900、902)は、ホスト上で実行され、ニューラルネットワークの他の部分(例えば、901)は、構成可能なプロセッサ上で実行される。
【0099】
一例では、第1の機能は、CPU上に形成されたバッチ正規化(層910)であり得る。しかしながら、別の例では、機能としてのバッチ正規化は、1つ以上の層に融合されてもよく、別個のバッチ正規化層は存在しなくてもよい。
【0100】
いくつかの空間的な分離された畳み込み層は、構成可能なプロセッサについて上記で論じられたように、ニューラルネットワークの畳み込み層の第1のセットとして実行される。この例では、畳み込み層の第1のセットは、空間的に2D畳み込みを適用する。
【0101】
図9に示されるように、各スタック内の空間的に分離されたニューラルネットワーク層の数L/2に対して(Lは
図7を参照しながら説明された)、第1の空間畳み込み921が実行され、続いて第2の空間畳み込み922が実行され、続いて第3の空間畳み込み923が実行され、以下同様である。923Aに示されるように、空間層の数は、任意の実際的な数であり得、これは、コンテキストにおいて、異なる実施形態では、数個~20超の範囲であり得る。
【0102】
SP_CONV_0の場合、カーネル重みは、この層に3つの入力チャネルがあるため、例えば(1、6、6、3、L)構造で記憶される。この実施例では、この構造の「6」は、変換されたWinogradドメインに係数を記憶することによるものである(カーネルサイズは空間ドメインでは3×3であるが、変換ドメインでは拡張する)。
【0103】
他のSP_CONV層の場合、カーネル重みは、これらの層の各々についてK(=L)個の入力及び出力があるため、この実施例では(1、6、6L)構造で記憶される。
【0104】
空間層のスタックの出力は、FPGA上で実行される畳み込み層924、925を含めて、時間層に提供される。層924及び925は、サイクルにわたって1D畳み込みを適用する畳み込み層であり得る。924Aに示されるように、時間層の数は、任意の実際的な数であり得、これは、コンテキストにおいて、異なる実施形態では、数個~20超の範囲であり得る。
【0105】
第1の時間層、TEMP_CONV_0層824は、
図7に示すように、サイクルチャネルの数を5から3に減少させる。第2の時間層、層925は、
図7に示すようにサイクルチャネルの数を3から1に減少させ、特徴マップの数を、各ベースコールの信頼性を表すピクセルごとの4つの出力に減少させる。
【0106】
時間層の出力は、出力パッチに蓄積され、ホストCPUに送達されて、例えば、ソフトマックス関数930、又は他の関数を適用して、ベースコール確率を正規化する。
【0107】
図10は、ベースコール動作のために実行することができる10入力、6出力ニューラルネットワークを示す代替の実装形態を示す。この例では、サイクル0~9の空間的に位置合わせされた入力パッチのタイルデータは、サイクル9のスタック1001など、空間層の分離されたスタックに適用される。分離されたスタックの出力は、時間スタック1020の逆階層配置に適用され、出力1035(2)~1035(7)は、被験者サイクル2~7のベースコール分類データを提供する。
【0108】
図11は、異なる配列決定サイクルでデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラーの専用アーキテクチャ(例えば、
図7)の一実装形態を示す。上記の専用アーキテクチャを使用する動機をまず説明する。
【0109】
ニューラルネットワークベースのベースコーラーは、現在の配列決定サイクル、1つ以上の先行する配列決定サイクル、及び1つ以上の連続する配列決定サイクルでデータを処理する。追加の配列決定サイクルのデータは、配列固有のコンテキストを提供する。ニューラルネットワークベースのベースコーラーは、訓練中に配列固有のコンテキストを学習し、それらをベースコールする。更に、事前及び事後配列決定サイクルのデータは、プレフェージング及びフェージング信号の二次の寄与を現在の配列決定サイクルに提供する。
【0110】
異なる配列決定サイクルで、かつ異なる画像チャネル内に捕捉される画像は、位置合わせ不良であり、互いに残留位置合わせ誤差を有する。この位置合わせ不良を考慮するために、専用アーキテクチャは、配列決定サイクル間では情報を混合せず、同一の配列決定サイクル内でのみ情報を混合する、空間畳み込み層を含む。
【0111】
空間畳み込み層は、畳み込みの「専用の非共有」配列を介して複数の配列決定サイクルの各々に対して独立してデータを処理することによって分離を操作する、いわゆる「分離された畳み込み」を使用する。分離された畳み込みは、任意の他の配列決定サイクルのデータ及び得られた特徴マップ上で畳み込むことなく、所与の配列決定サイクル、すなわち、サイクル内のみのデータ及び得られた特徴マップ上で畳み込む。
【0112】
例えば、入力データが、(i)ベースコールされる現在の(時間t)配列決定サイクルに対する現在のデータと、(ii)以前の(時間t-1)配列決定サイクルに対する以前のデータと、(iii)次の(時間t+1)配列決定サイクルに対する次のデータと、を含むと考える。次いで、専用アーキテクチャは、3つの別個のデータ処理パイプライン(又は畳み込みパイプライン)、すなわち、現在のデータ処理パイプライン、以前のデータ処理パイプライン、及び次のデータ処理パイプラインを開始する。現在のデータ処理パイプラインは、現在の(時間t)配列決定サイクルに対する現在のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「現在の空間畳み込み表現」を生成する。以前のデータ処理パイプラインは、以前の(時間t-1)配列決定サイクルに対する以前のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「以前の空間畳み込み表現」を生成する。次のデータ処理パイプラインは、次の(時間t+1)配列決定サイクルに対する次のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「次の空間畳み込み表現」を生成する。
【0113】
いくつかの実装形態では、現在のパイプライン、1つ以上の以前のパイプライン、及び1つ以上の次の処理パイプラインは、並列に実行される。
【0114】
いくつかの実装形態では、空間畳み込み層は、専用アーキテクチャ内の空間畳み込みネットワーク(又はサブネットワーク)の一部である。
【0115】
ニューラルネットワークベースのベースコーラーは、配列決定サイクル間、すなわち、サイクル間で情報を混合する時間畳み込み層を更に含む。時間畳み込み層は、空間畳み込みネットワークからそれらの入力を受信し、それぞれのデータ処理パイプラインに対して最終空間畳み込み層によって生成される空間畳み込み表現で動作する。
【0116】
時間畳み込み層のサイクル間動作性自由度は、空間畳み込みネットワークへの入力として供給される画像データ内に存在する位置合わせ不良特性が、空間畳み込み層の配列によって実行される、分離された畳み込みのスタック又はカスケードによって空間畳み込み表現からパージされるという事実から生じる。
【0117】
時間畳み込み層は、スライディングウィンドウベースでの後続の入力で入力チャネル上でグループごとに畳み込む、いわゆる「組み合わせ畳み込み」を使用する。一実装形態では、後続の入力は、以前の空間畳み込み層又は以前の時間畳み込み層によって生成される後続の出力である。
【0118】
いくつかの実装形態では、時間畳み込み層は、専用アーキテクチャ内の時間畳み込みネットワーク(又はサブネットワーク)の一部である。時間畳み込みネットワークは、空間畳み込みネットワークからその入力を受信する。一実装形態では、時間畳み込みネットワークの第1の時間畳み込み層は、配列決定サイクル間の空間畳み込み表現をグループごとに組み合わせる。別の実装形態では、時間畳み込みネットワークの後続の時間畳み込み層は、以前の時間畳み込み層の連続する出力を組み合わせる。
【0119】
最終時間畳み込み層の出力は、出力を生成する出力層に供給される。出力は、1つ以上の配列決定サイクルで1つ以上のクラスタをベースコールするために使用される。
【0120】
前方伝搬の間、専用アーキテクチャは、2つの段階で複数の入力からの情報を処理する。第1の段階では、分離された畳み込みは、入力間の情報の混合を防止するために使用される。第2の段階では、組み合わせ畳み込みは、入力間の情報を混合するために使用される。第2の段階からの結果は、複数の入力に対して単一の推論を行うために使用される。
【0121】
これは、バッチモード技術とは異なり、畳み込み層は、バッチ内の複数の入力を同時に処理し、バッチ内の各入力に対して対応する推測を行う。対照的に、専用アーキテクチャは、複数の入力を単一の推論にマッピングする。単一の推論は、4つの塩基(A、C、T、及びG)の各々に対する分類スコアなどの2つ以上の予測を含み得る。
【0122】
一実装形態では、入力は、各入力が異なる時間ステップで発生し、かつ複数の入力チャネルを有するように、時間的順序付けを有する。例えば、複数の入力は、以下の3つの入力、すなわち、時間ステップ(t)で現在の配列決定サイクルによって発生する現在の入力と、時間ステップ(t-1)で以前の配列決定サイクルによって発生する以前の入力と、時間ステップ(t+1)で次の配列決定サイクルによって発生する次の入力と、を含み得る。別の実装形態では、各入力は、1つ以上の以前の畳み込み層によって現在の、以前の、及び次の入力からそれぞれ導出され、k個の特徴マップを含む。
【0123】
一実装形態では、各入力は、以下の5つの入力チャネル、すなわち、赤色画像チャネル(赤色)と、赤色距離チャネル(黄色)と、緑色画像チャネル(緑色)と、緑色距離チャネル(紫色)と、スケーリングチャネル(青色)と、を含み得る。別の実装形態では、各入力は、赤色チャネル及び緑色チャネルの代わりに、又はそれに加えて、青色チャネル及び紫色チャネル(又は1つ以上の他の適切な色チャネル)内にあってもよい。別の実装形態では、各入力は、赤色チャネル、緑色チャネル、紫色チャネル、及び/又は黄色チャネルの代わりに、又はそれに加えて、青色チャネル及び紫色チャネル内にあってもよい。別の実装形態では、各入力は、以前の畳み込み層によって生成されるk個の特徴マップを含み得、各特徴マップは、入力チャネルとして処理される。更に別の例では、各入力は、単に1つのチャネル、2つのチャネル、又は別の異なる数のチャネルを有することができる。米国特許出願公開第2013/0079232号の組み込まれた資料は、1チャネル、2チャネル、又は4チャネルなど、様々な数のチャネルを使用してベースコールを論じている。
【0124】
図12は、各々が畳み込みを含み得る、分離された層の一実装形態を示す。分離された畳み込みは、畳み込みフィルタを各入力に並行して適用することによって、複数の入力を一度に処理する。分離された畳み込みでは、畳み込みフィルタは、同じ入力内で入力チャネルを組み合わせ、異なる入力内で入力チャネルを組み合わせない。一実装形態では、同じ畳み込みフィルタは、各入力に並行して適用される。別の実装形態では、異なる畳み込みフィルタは、各入力に並行して適用される。いくつかの実装形態では、各空間畳み込み層は、k個の畳み込みフィルタのバンクを含み、その各々は、各入力に並行して適用される。
【0125】
図13Aは、各々が畳み込みを含み得る、組み合わせ層の一実装形態を示す。
図13Bは、各々が畳み込みを含み得る、組み合わせ層の別の実装形態を示す。組み合わせ畳み込みは、異なる入力の対応する入力チャネルをグループ化し、畳み込みフィルタを各グループに適用することによって、異なる入力間で情報を混合する。対応する入力チャネルのグループ化及び畳み込みフィルタの適用は、スライディングウィンドウベースで生じる。このコンテキストでは、ウィンドウは、例えば、2つの連続する配列決定サイクルに対する出力を表す、2つ以上の連続する入力チャネルに及ぶ。ウィンドウがスライドウィンドウであるため、最も多くの入力チャネルは、2つ以上のウィンドウで使用される。
【0126】
いくつかの実装形態では、異なる入力は、先行する空間又は時間畳み込み層によって生成される出力配列から生じる。出力配列では、異なる入力は、連続する出力として配置され、したがって、連続する入力として次の時間畳み込み層によって観察される。次いで、次の時間畳み込み層では、組み合わせ畳み込みは、連続する入力内の対応する入力チャネルのグループに畳み込みフィルタを適用する。
【0127】
一実装形態では、連続する入力は、現在の入力が時間ステップ(t)で現在の配列決定サイクルによって発生し、以前の入力が時間ステップ(t-1)で以前の配列決定サイクルによって発生し、次の入力が時間ステップ(t+1)で次の配列決定サイクルによって発生するように、時間的順序付けを有する。別の実装形態では、各連続する入力は、1つ以上の以前の畳み込み層によって現在の、以前の、及び次の入力からそれぞれ導出され、k個の特徴マップを含む。
【0128】
一実装形態では、各入力は、以下の5つの入力チャネル、すなわち、赤色画像チャネル(赤色)と、赤色距離チャネル(黄色)と、緑色画像チャネル(緑色)と、緑色距離チャネル(紫色)と、スケーリングチャネル(青色)と、を含み得る。別の実装形態では、各入力は、以前の畳み込み層によって生成されるk個の特徴マップを含み得、各特徴マップは、入力チャネルとして処理される。
【0129】
畳み込みフィルタの深さBは、対応する入力チャネルがスライディングウィンドウベースで畳み込みフィルタによってグループごとに畳み込まれる、連続する入力の数に依存する。言い換えると、深さBは、各スライディングウィンドウ及びグループサイズ内の連続する入力の数と等しい。
【0130】
図13Aでは、各スライディングウィンドウ内で2つの継続的な入力からの対応する入力チャネルが組み合わされており、したがって、B=2である。
図13Bでは、3つの連続する入力からの対応する入力チャネルは、各スライディングウィンドウ内で組み合わされ、したがってB=3である。
【0131】
一実装形態では、スライディングウィンドウは、同じ畳み込みフィルタを共有する。別の実装形態では、異なる畳み込みフィルタが、各スライディングウィンドウに対して使用される。いくつかの実装形態では、各時間畳み込み層は、k個の畳み込みフィルタのバンクを含み、その各々は、スライディングウィンドウベースの連続する入力に適用される。
【0132】
図4~
図10の更なる詳細及びその変形形態は、本明細書に完全に記載されているかのように参照により組み込まれる、2021年2月15日に出願された「HARDWARE EXECUTION AND ACCELERATION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER」と題する同時係属中の米国特許非仮出願第17/176,147号(代理人整理番号ILLM1020-2/IP-1866-US)に見出すことができる。
【0133】
品質スコアを生成するベースコールシステム
図14Aは、コールされる様々な塩基についてA、C、T、及びGに対応する品質スコアを生成するベースコールシステム1400を示す。
【0134】
図14Aの例では、ベースコールシステム1400は、
図4の配列決定マシン400などの配列決定マシン1404を備える。一実施形態では、配列決定マシン1404は、
図1のバイオセンサ100のフローセル102と同様のフローセル1405を備えるバイオセンサ(
図14Aには図示せず)を含む。
【0135】
図2、
図3、及び
図6に関して論じたように、システム1400のフローセル1405は、複数のタイル1406を備え、各タイルは、複数の対応するクラスタ1407を備える。例えば、フローセル1405は、タイルの複数のレーンを備え、各タイルは、
図2に関して論じたように、対応する複数のクラスタを含む。
図14Aにおいて、フローセル1405は、例示的なタイルのいくつかのそのような例示的なクラスタ1407を含むように示す。ベースコールプロセス中に、特定の配列決定サイクルにおける全てのクラスタについてのベースコール(A、C、G、T)が、本明細書において更に詳細に論じるように、対応する確率スコア1424及び/又は品質スコア1432を伴って予測される。
【0136】
本明細書で以前に論じたように、配列決定マシン1404は、センサデータ1412を生成する。例えば、個々のクラスタ及び個々の配列決定サイクルについてのセンサデータが、生成される。特定のクラスタ及び特定の配列決定サイクルについてのセンサデータは、特定の配列決定サイクルについて特定のクラスタをポピュレートする塩基を示す。
【0137】
システム1400は、ベースコーラー1416を備える。センサデータ1412に基づいて、ベースコーラー1416は、クラスタにロードされた配列の塩基をコールする。例えば、ベースコールサイクル中に、ベースコーラー1416は、個々のクラスタ内の核酸配列内のヌクレオチド塩基を識別する。ベースコールは、特定のサイクルにおいてあらゆるクラスタのベースコール(A、C、G、T)を決定するプロセスを指す。一例として、ベースコールは、米国特許出願公開第2013/0079232号の組み込まれた資料に記載されている4チャネル、2チャネル又は1チャネル方法及びシステムを利用して実行することができる。
【0138】
画像データであるセンサデータ1412
配列決定マシン1404によって生成されるセンサデータ1412のタイプは、使用される配列決定マシン1404のタイプに基づく。例えば、本明細書で論じられる配列決定マシンのうちのいくつかは、本明細書で以前に論じたように、フローセル内のセンサによって捕捉された画像の形態でセンサデータ1412を生成する。例えば、そのような画像データは、配列決定実行中に配列決定マシンのシーケンサによって生成された配列決定画像から導出される。例えば、センサデータ1412は、検体のセットの強度発光を示し、強度発光は、画像として捕捉される(例えば、強度情報を含む画像については、
図17E参照)。論じたように、強度発光は、配列決定実行の配列決定サイクル中に検体のセット内の検体によって生成される。メモリは、センサデータ1412の強度発光を含む画像を記憶する。
【0139】
一実装形態では、画像データは、配列決定画像から抽出されるn×nの画像パッチを含み、nは、1から10,000の範囲又は別の適切な範囲の任意の数である。配列決定実行は、対応するm個の画像チャネルについて配列決定サイクルごとにm個の画像を生成し、画像パッチは、m個の画像の各々から抽出されて、特定の配列決定サイクルで画像データを調製する。4-チャネル化学、2-チャネル化学及び1-チャネル化学のような異なる実装形態においては、mは4又は2である。他の実装形態では、mは1、3、又は4より大きい。入力画像データは、いくつかの実装形態では、光学ピクセルドメイン内にあり、他の実装形態では、アップサンプリングされたサブピクセルドメイン内にある。画像データは、複数の配列決定サイクル(例えば、現在の配列決定サイクル、1つ以上の先行する配列決定サイクル、及び1つ以上の連続する配列決定サイクル)のデータを含む。一実装形態では、画像データは、ベースコールされる現在の(時間t)配列決定サイクルのデータが、(i)左隣接/コンテキスト/以前の/先行する/前の(時間t-1)配列決定サイクルのデータ、及び(ii)右隣接/コンテキスト/次の/連続する/後続の(時間t+1)配列決定サイクル(例えば、
図7及び
図10参照)のデータを伴うように、3回の配列決定サイクルのデータを含む。他の実装形態では、画像データは、単一の配列決定サイクルのデータを含む。画像データは、1つ以上のクラスタ及びそれらの周囲の背景の強度発光を示す。一実装形態では、単一のターゲットクラスタがベースコールされるとき、各画像パッチがその中心ピクセル内にターゲットクラスタの中心を含むような方法で、画像パッチは、配列決定画像から抽出され、概念は、本明細書で「ターゲットクラスタ中心のパッチ抽出」と呼ばれる。画像データは、強度チャネル(画像チャネルとも呼ばれる)を使用して入力データで符号化される。特定の配列決定サイクルのためにシーケンサから取得されたm個の画像の各々に対して、別個の画像チャネルを使用して、その強度データを符号化する。例えば、配列決定実行が、各配列決定サイクルで赤色画像及び緑色画像を生成する2-チャネル化学を使用すると考え、次いで、入力データは、(i)赤色画像内で捕捉される1つ以上のクラスタ及びそれらの周囲の背景の強度発光を示す、n×nのピクセルを有する第1の赤色画像チャネルと、(ii)緑色画像内で捕捉される1つ以上のクラスタ及びそれらの周囲の背景の強度発光を示す、n×nのピクセルを有する第2の緑色画像チャネルと、を含む。
【0140】
一例では、バイオセンサは、光センサのアレイを備える。光センサは、バイオセンサの検出表面上の対応するピクセル領域(例えば、反応部位/ウェル/ナノセル)からの情報を感知するように構成される。ピクセル領域内に配置された検体は、ピクセル領域、すなわち、関連する検体に関連付けられると言われる。配列決定サイクルでは、ピクセル領域に対応する光センサは、関連する検体からの発光/光子を検出/捕捉/感知するように構成され、それに応じて、画像化されたチャネルごとにピクセル信号を生成するように構成される。一実装形態では、各撮像チャネルは、複数のフィルタ波長帯域のうちの1つに対応する。別の実装形態では、各撮像チャネルは、配列決定サイクルで複数の撮像イベントのうちの1つに対応する。更に別の実装形態では、各撮像チャネルは、特定のレーザーを用いた照明と特定の光学フィルタを通した撮像との組み合わせに対応する。光センサからのピクセル信号は、(例えば、通信ポートを介して)バイオセンサに結合された信号プロセッサに伝達される。各配列決定サイクル及び各撮像チャネルについて、信号プロセッサは、ピクセルが対応する光センサから得られるピクセル信号をそれぞれ描写/含有/示す/表す/特徴付ける画像を生成する。これは、(i)ピクセルによって示されるピクセル信号を生成したバイオセンサの光センサと、(ii)対応する光センサによって発光が検出され、ピクセル信号に変換された関連検体と、(iii)関連検体を保持するバイオセンサの検出表面上のピクセル領域と、に対応する。例えば、配列決定実行が2つの異なる撮像チャネル:赤色チャネル及び緑色チャネルを使用すると考える。次いで、各配列決定サイクルにおいて、信号プロセッサは、赤色画像及び緑色画像を生成する。このようにして、配列決定実行の一連のk個の配列決定サイクルについて、赤色画像及び緑色画像のk個の対を有する配列が出力として生成される。赤色画像及び緑色画像(すなわち、異なる撮像チャネル)内のピクセルは、配列決定サイクル内で1対1の対応を有する。これは、一対の赤色画像及び緑色画像内の対応するピクセルが、異なる撮像チャネル内にある同じ関連する検体の強度データを示すことを意味する。同様に、赤色画像及び緑色画像の対にわたるピクセルは、配列決定サイクル間に1対1の対応を有する。これは、赤色画像及び緑色画像の異なる対内の対応するピクセルが、配列決定実行の異なる獲得イベント/時間ステップ(配列決定サイクル)に関して、同じ関連する検体の強度データを示すことを意味する。赤色画像及び緑色画像(すなわち、異なる撮像チャネル)内の対応するピクセルは、第1の赤色チャネル及び第2の緑色チャネル内の強度データを表す、「サイクルごとの画像」のピクセルと見なすことができる。ピクセルがピクセルエリアのサブセットのピクセル信号を示すサイクルごとの画像、すなわち、バイオセンサの検出表面の領域(タイル)は、「サイクルごとのタイル画像」と呼ばれる。サイクルごとのタイル画像から抽出されたパッチは、「サイクルごとの画像パッチ」と呼ばれる。一実装形態では、パッチ抽出は、入力準備者によって実行される。画像データは、配列決定実行の一連のk個の配列決定サイクルのために生成された一連のサイクルごとの画像パッチを含む。サイクルごとの画像パッチ内のピクセルは、関連する検体のための強度データを含み、強度データは、関連付けられた検体からの発光を検出するように構成された対応する光センサによって、1つ以上の撮像チャネル(例えば、赤色チャネル及び緑色チャネル)のために取得される。一実装形態では、単一のターゲットクラスタがベースコールされる場合、サイクルごとの画像パッチは、標的関連検体及び非中心ピクセルに関する強度データを含む中心ピクセルで中心に置かれ、サイクルごとの画像パッチ内の非中心ピクセルは、標的関連検体に隣接する関連する検体の強度データを含む。一実装形態では、画像データは、入力準備者によって調製される。
【0141】
画像データであるセンサデータ1412の例の更なる詳細は、参照により本明細書に組み込まれる、2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国非仮特許出願第16/826,134号(代理人整理番号ILLM 1008-19/IP-1747-US)に見出すことができる。
【0142】
非画像データであるセンサデータ1412
更に別の例では、センサデータ1412は、予測された塩基を示す化学特性(pHレベルなど)を示すことができる。例えば、このようなpH変化は、分子伸長中の水素イオンの放出によって誘導されてみもよい。pH変化は検出され、組み込まれた塩基の数に比例する電圧変化に変換される(例えば、Ion Torrentの場合)。
【0143】
別の例では、センサデータ1412は、フローセル1405が生成する電気信号(例えば、電流又は電圧)の形態であってもよい。
【0144】
更に別の実施例では、センサデータ1412は、塩基の識別情報を決定する間に、検体がナノ細孔を、又はそのアパーチャ付近を、通過するときに、電流の破壊を測定するためにバイオセンサを使用するナノ細孔感知から構築される。例えば、Oxford Nanopore Technologies(ONT)配列決定は、以下の概念に基づく:ナノ細孔を介して膜を介してDNA(又はRNA)の単一鎖を通過させ、膜にわたって電位差を印加する。細孔内に存在するヌクレオチドは、細孔の電気抵抗に影響を及ぼし、そのため、経時的な電流測定は、細孔を通過するDNA塩基の配列を示すことができる。この電流信号(プロットされたときにその外観に起因する「押しつぶし」)は、ONTシーケンサによって収集された生データである。これらの測定値は、4kHz周波数(例えば)でとられた16ビットの整数データ取得(Data Acquisition、DAC)値として記憶される。1秒当たり約450塩基対のDNA鎖速度を用いて、これは、平均して、塩基当たり約9つの生観察を与える。次いで、この信号を処理して、個々の読み取りに対応する開孔信号の破断を識別する。これらの生信号の伸長は、DAC値をDNA塩基の配列に変換するプロセスを通して、ベースコールされる。いくつかの実装形態では、センサデータ1412は、正規化又はスケーリングされたDAC値を含む。
【0145】
ベースコーラー1416
ベースコーラー1416は、任意の適切なタイプのベースコーラーとすることができる。一例では、ベースコーラー1416は、
図7~
図13Bに関して論じた、本明細書では「深層学習」ベースのベースコーラーとも呼ばれる、ニューラルネットワークベースのベースコーラーであってもよい。別の例では、ベースコーラーは、少なくとも部分的に線形である非ニューラルネットワークモデルを含む「RTA」ベースのベースコーラーである。深層学習ベースのベースコーラー及びRTAベースコーラーの例は、2020年3月20日に出願された「Artificial Intelligence-Based Base Calling」と題する米国非仮特許出願第16/826,126号(代理人整理番号ILLM 1008-18/IP-1744-US)において論じられており、これは、本明細書に完全に記載されているかのように、あらゆる目的のために参照により組み込まれる。本開示の原理は、ベースコールを生成するために使用されるベースコーラーのタイプに限定されない。例えば、ベースコーラー1416は、本明細書で以前に論じた画像及び/又は非画像タイプのセンサデータなど、任意の適切なタイプのセンサデータを処理し得る、何らかの他の適切なタイプであってもよい。
【0146】
一例において、ベースコーラー1416は、配列決定マシン1404に対してローカルである。したがって、ベースコーラー1416及び配列決定マシン1404は、近位に位置しており(例えば、同じハウジング内、又は2つの近位に位置するハウジング内)、ベースコーラー1416は、配列決定マシン1404から直接的にセンサデータ1412を受信する。
【0147】
別の例では、ベースコーラー1416は、配列決定マシン1404に対して遠隔に位置し、これは、いわゆるクラウドベースのベースコーラーの例である。したがって、ベースコーラー1416は、インターネットなどのコンピュータネットワークを介して配列決定マシン1404からセンサデータ1412を受信する。
【0148】
確率スコア
一例では、使用されるベースコーラーの位置及び/又はタイプにかかわらず、ベースコーラー1416は、コールされた塩基の確率スコアを生成するための出力層1420を含む。例えば、出力層1420は、現在の配列決定サイクルにおける単一のターゲットクラスタに組み込まれた塩基がA、C、T、及びGのうちの1つであることの尤度(分類スコア)を生成し、これらの尤度に基づいて塩基をA、C、T、又はGのうちの1つとして分類する(例えば、最大尤度を有する塩基が選択される)。そのような実装形態では、尤度は、ソフトマックス分類層によって生成される、指数関数的に正規化されたスコアであり、1になる。したがって、例えばソフトマックス層を含み得る出力層1420は、コールされた塩基及び対応する確率P(A)、P(C)、P(T)、P(G)を予測する。
【0149】
例えば、特定のクラスタに対応するコールされる特定の塩基について、対応する確率スコア1424が生成される。2つの例示的なクラスタ1407a及び1407bについての例示的な確率スコアが
図14Aに示されている。単なる例として、クラスタ1407aについて、特定の配列決定サイクルのためにコールされた塩基がAである確率は、P(A)=0.9であり、特定の配列決定サイクルのためにコールされた塩基がCである確率は、P(C)=0.02であり、特定の配列決定サイクルのためにコールされた塩基がTである確率は、P(T)=0.04であり、特定の配列決定サイクルのためにコールされた塩基がGである確率は、P(G)=0.04である。
【0150】
単なる例として、他のクラスタ1407bについて、特定の配列決定サイクルのためにコールされた塩基がAである確率は、P(A)=0.01であり、特定の配列決定サイクルのためにコールされた塩基がCである確率は、P(C)=0.03であり、特定の配列決定サイクルのためにコールされた塩基がTである確率は、P(T)=0.01であり、特定の配列決定サイクルのためにコールされた塩基がGである確率は、P(G)=0.95である。
【0151】
所与のクラスタについて、及び所与の配列決定サイクルについて、確率スコアP(A)+P(C)+P(T)+P(G)の合計は1、であることに留意されたい、すなわち、確率スコアは正規化される(例えば、出力層1420内の、又はそれに続くソフトマックス関数を使用する)。
【0152】
一例では、確率スコア1424は、本明細書では、尤度スコア、ソフトマックススコア、信頼スコアなどとも呼ばれる。確率スコア1424は、配列決定実行の各クラスタ及び各配列決定サイクルについて生成される。
【0153】
一実施形態では、確率スコア1424に加えて、ベースコーラー1416はまた、塩基をコールしてもよい。単なる例として、クラスタ1407aについて、ベースコーラー1416は、確率スコアP(A)が閾値よりも高いことに基づいて、及び/又は確率スコアP(A)がP(C)、P(T)、若しくはP(G)の各々よりも高いことに基づいて、塩基をAであるとコールしてもよい。同様に、クラスタ1407bについて、ベースコーラー1416は、確率スコアP(G)が閾値よりも高いことに基づいて、及び/又は確率スコアP(G)がP(A)、P(C)、若しくはP(T)の各々よりも高いことに基づいて、塩基をGであるとコールしてもよい。
【0154】
品質スコア1432
一実施形態では、ベースコールシステム1400は、確率スコア1424を、対応する品質スコア1432に変換するように構成される品質スコア生成モジュール1428を更に備える。例えば、品質スコアQは、以下のように、対応する確率スコアPに関連付けられる:
Q=-10×log10(1-P)。 式1
【0155】
したがって、所与のクラスタ及び所与の配列決定サイクルについて、並びに塩基A、C、T、及びGについて、対応する品質スコアは、以下のように与えられる:
Q(A)=-10×log10(1-P(A))
Q(C)=-10×log10(1-P(C))
Q(T)=-10×log10(1-P(T))
Q(G)=-10×log10(1-P(G))。 式2
【0156】
なお、P(A)、P(C)、P(T)、P(G)は、それぞれ、コールされた塩基がA、C、T、又はGである確率である。E(A)が、Aとコールされた塩基に関連付けられたエラー確率であり、E(C)が、Cとコールされた塩基に関連付けられたエラー確率であり、E(T)が、Tとコールされた塩基に関連付けられたエラー確率であり、E(G)が、Gとコールされた塩基に関連付けられたエラー確率であると仮定する。したがって、E(A)=1-P(A)、E(C)=1-P(C)、などである。そのような例では、品質スコアは、以下のように書き換えることもできる:
【0157】
Q(A)=-10×log10(1-E(A))
Q(C)=-10×log10(1-E(C))
Q(T)=-10×log10(1-E(T))
Q(G)=-10×log10(1-E(G))。 式3
【0158】
式2及び式3を参照すると、品質スコアは、ベースコール確率スコアP又はベースコールエラー確率スコアEに対数的に関連する特性として定義される。したがって、品質スコアQ(A)は、コールされた塩基がAである尤度の対数スケールの尤度である品質スコアQ(C)は、コールされた塩基がCである尤度の対数スケールでの尤度である。
【0159】
多くの場合、品質スコアQは、「Phred」スコアとも呼ばれ、配列決定マシン1404などの自動DNA配列決定マシンによって生成される核酸塩基の識別の品質の尺度である。
【0160】
図14Aは、例示的なクラスタ1407a及び1407bの確率スコア1424に対応する例示的な品質スコア1422を示す。例えば、クラスタ1407aは、確率スコアP(A)=0.9と、対応する品質スコアQ(A)=10(式2を使用して計算される)と、を有し、確率スコアP(C)=0.02と、対応する品質スコアQ(C)=0.087と、を有する、などである。一例では、概して、品質スコアは、
図14Bに示されるように、例えば、閾値よりも高い確率スコア(例えば、0.9を超える)など、比較的高い確率スコアについて計算される。
【0161】
図14Bは、確率スコア1424と、品質スコア1432と、対応するエラー確率と、対応するエラー率との間の関係を示す表1460を示す。表14Bは、式1、2、及び3から導出される。テーブル1460は自明である。
【0162】
品質スコアの確率的な解釈は、変異体コール及び配列アセンブリなどの下流分析での異なる配列決定読み取りの公平な統合を可能にする。論じたように、品質スコアは、ベースコールでの配列決定エラーの確率の尺度である。品質スコアの比較的高い値は、ベースコールが、信頼性が高く、不正確である可能性が低いことを意味し、その逆も同様である。例えば、表1460に見られるように、塩基の品質スコアが30である場合、この塩基が誤ってコールされる確率は0.001である。これはまた、ベースコール精度が99.9%であることを示す。
【0163】
本開示は、品質スコア生成モジュール1428などの様々なモジュールについて論じていることに留意されたい。一例において、特に言及しない限り、これらのモジュールの各々は、プロセッサ(例えば、CPU402及び/又は構成可能なプロセッサ450、
図4参照)によって実行される。したがって、例えば、そのようなプロセッサによって実行可能なコンピュータ可読命令は、これらのモジュールの実装形態を引き起こす。
【0164】
予測品質スコア1432に対する真の品質スコア1440
図14Cは、
図14Aのベースコールシステム1400によって予測された予測品質スコア1432と、真の(例えば、経験的に計算された)品質スコア1440との間の比較動作を示す。例えば、真の品質スコア生成モジュール1448は、真の(例えば、経験的に計算された)品質スコア1440を生成する。品質スコア比較モジュール1436は、ベースコールシステム1400によって予測された予測品質スコア1432を受信する。
図14Aの品質スコア1432は、これらの品質スコアを真の品質スコア1440から好適に区別するために、
図14Cでは予測品質スコア1432と呼ばれることに留意されたい。品質スコア比較モジュール1436はまた、真の品質スコア1440を受信し、品質スコア比較結果1444を生成するために、真の品質スコア1440を予測品質スコア1432と比較する。
【0165】
真の(例えば、経験的に決定された)品質スコア1440
図14Dは、
図14Cの真の(例えば、経験的に決定された)品質スコア1440の決定を示す。例えば、真の(例えば、経験的に計算された)品質スコア生成モジュール1448は、例えば、品質スコアに関連付けられた真の尤度を表す高い可能性がある品質スコアを経験的に計算することによって、真の品質スコアを決定する。
【0166】
図14Dの例では、
図14Aのベースコーラー1416が、センサデータ1412である1,000個の入力x1、x2、...、x1000を受信すると仮定する。なお、1000個のサンプル数は、一例であり、これに限定しない。また、ベースコーラー1416が、確率スコアP1、P2、...、P1000などの1,000個の確率スコア1424を生成すると仮定する。これらの確率スコアの各々は、A、C、T、又はGのうちの対応する1つを、コールされる対応する塩基に関連付けられる。単に例として、
図14Dに示されるように、P2が、Tとコールされた塩基の確率P2(T)であり、0.992の値を有すると仮定し、P33が、Aとコールされた塩基の確率P33(A)であり、0.21の値を有すると仮定する。一例では、塩基数2について、関連する確率が、P2(A)、P2(C)、P2(T)、及びP2(G)であると仮定する。また、P2(A)、P2(C)、P2(T)、P2(G)のうち、P2(T)が最も高いと仮定する。したがって、
図14Bの例では、P2は、単にP2(T)であると仮定される(P2(A)、P2(C)、又はP2(G)ではない)。すなわち、P2は、塩基数2について、関連付けられた4個の確率スコアの中で最も高い。同様に、P33は、塩基数33について、関連付けられた4個の確率スコアの中で最も高く、以下同様である。
【0167】
また、入力x1、x2、...、x1000に対して、真の又はグランドトゥルースの塩基標識y1、y2、...、y1000が、それぞれ、真の品質スコア生成モジュール1448によって受信されると仮定する(すなわち、真の塩基標識y1は、入力x1に対するものであり、真の塩基標識y2は、入力x2に対するものであり、以下同様である)。真の塩基標識は、コールされる塩基について実際のグランドトゥルースの塩基標識である。例えば、特定の配列決定サイクルについて特定のクラスタで生成された入力x1について、ベースコール確率P(A)、P(C)、P(T)、及びP(G)が予測されると仮定する。真の塩基標識y1は、そのクラスタ中、及びその配列決定サイクルについて、実際の塩基である(A、C、T、又はGのうちの1つであり得る)。一例では、真の塩基標識y1,...,y1000は、例えば、既知の塩基配列を配列決定することによって、先験的に既知である。
【0168】
図14Dにおいて、各予測確率スコア1424は、いくつかの予め指定されたビンのうちの対応する1つに割り当てられる。単なる例として、予測確率スコア1424は、
図14Dに示されるように、以下の予め指定されたビン:[0,0.1)、[0.1,0.2)、...、[0.9,1.0]のうちの対応する1つに割り当てられる。
【0169】
例えば、P33が、0.21であるので、予測確率スコアP33は、ビン[0.2,0.3)に割り当てられ、P2が、0.992であるので、予測確率スコアP2は、ビン[0.9,1.0]に割り当てられる。単に例として、予測確率スコアP33、P500、...、P904が、ビン[0.2,0.3)に割り当てられ、予測確率スコアP1、P48、...、P997が、ビン[0.8,0.9)に割り当てられ、予測確率スコアP2、P50、...、P909が、ビン[0.9,1.0]に割り当てられる。
【0170】
予測確率スコア1424を対応するビンに割り当てた後、真の品質スコア生成モジュール1448は、個々のビンの精度又は「真の経験的尤度」を計算する。P2=0.992が、Tの予測であると仮定する。次いで、真の品質スコア生成モジュール1448は、対応する真の塩基標識y2が、Tであるか否かをチェックする。y2が実際にTである場合、予測P2は正しい。
【0171】
この妥当性検査(又は検証)プロセスは、例えば、各ビンの真の確率を計算するために、各予測について、及び各ビンについて繰り返される。例えば、ビン[0.8,0.9)内に50個の確率P1、P48、...、P907が存在し、それらの確率のうちの42個が、それらの対応する真の塩基標識y1、y48、...、y907とそれぞれ整合すると決定したと仮定する。次いで、そのビンについての「真」又は経験的に決定した確率は、42/50又は0.84である。そのビン内のエントリに対する真の品質スコア1440は、式1を使用して決定される。具体的には、そのビン内のエントリに対する真の品質スコア1440は、-10×log10(1-0.84)又は7.9588である。したがって、ビン[0.8,0.9)内の確率P1、P48、...、P907には、7.9588の真の品質スコアが割り当てられる。
【0172】
対照的に、単なる例として、ビン[0.8,0.9)に割り当てられる予測確率P997が、0.81であると仮定すると、これは、-10×log10(1-0.81)又は7.2124の品質スコアに対応する。
【0173】
したがって、P997の場合、予測品質スコア1432は、7.2124であり、真の品質スコア1440は、7.9588である。したがって、P997の予測品質スコア1432と真の品質スコア1440との間に不整合が存在する。
【0174】
一例では、品質スコア比較モジュール1436は、真の品質スコア1440を、予測品質スコア1432と比較する品質スコア比較結果1444を出力し、これについては本明細書において後で順に論じる。
【0175】
図14Dに示されるビニングは、単に過度に簡略化された例であることに留意されたい。例えば、
図14Dにおいて、予測確率は、単に10個のビンの間で割り当てられる。しかしながら、別の例では、予測確率が割り当てられるビンの数を多くすることができる。例えば、単一のビン[0.9,1.0]を、[0.9,0.91)、[0.91,0.92)、...、[0.99,1.0]など、複数のビンに再分割することができる。
【0176】
一例では、(
図14Dに示されるように)予測確率をビニングする代わりに、予測品質スコア1432をビニングしてもよい。例えば、予測品質スコア1432は、対応するビンに割り当てられる。また、個々のビンに対する真の品質スコアは、上述した方法で計算される。次に、品質スコア比較モジュール1436は、真の品質スコア1440を予測品質スコア1432と直接比較することができる。
【0177】
図15Aは、予測品質スコア1432と真の品質スコア1440との間の比較を示すグラフ1500aを示し、
図15Bは、予測品質スコア1432と真の品質スコア1440との間の別の比較を示す別のグラフ1500bを示す。
【0178】
グラフ1500aは、1の傾きである破線1505aを有する。したがって、線1505a上の任意の点は、予測品質スコア1432及び真の品質スコア1440の等しい値を有する。同様に、グラフ1500bは、1の傾きである破線1505bを有する。したがって、線1505b上の任意の点は、予測品質スコア1432及び真の品質スコア1440の等しい値を有する。
【0179】
本明細書に提示される後続のグラフの多くは、1の傾きである破線を有することに留意されたい。本開示の目的のために、そのような線は、本明細書では「傾き1の線」又は「傾き1を有する線」とも呼ばれる。
【0180】
図15Aのグラフ1500aは、ベースコーラーの特定の実装形態について、予測品質スコア1432(X軸)と真の品質スコア1440(Y軸)との間の関係を示す線1510aを有する。
図15Aに見られるように、予測スコア1432の高い値について、予測スコア1432は、対応する真のスコア1440よりも通常大きい。例えば、45の予測品質スコアは、約32の真の品質スコア1440におおよそ対応する。したがって、品質スコアQが
図15Aのベースコーラーによって45であると予測されるとき、それは経験的に約32であるはずである。したがって、ベースコーラーは、対応する真の又は経験的に計算された品質スコアよりも高い品質スコアを予測している。したがって、
図15Aのグラフ1500aを生成するベースコーラーは、品質スコアの予測に関して「過剰な信頼」である。
【0181】
図15Bのグラフ1500bは、ベースコーラーの別の特定の実装形態について、予測品質スコア1432と真の品質スコア1440との間の関係を示す線1510bを有する。
図15Bに見られるように、予測スコア1432は、対応する真のスコア1440より通常小さい。例えば、45の予測品質スコアは、約50の真の品質スコア1440におおよそ対応する。したがって、品質スコアQが
図15Bのベースコーラーによって45であると予測されるとき、それは経験的に約50であるはずである。したがって、ベースコーラーは、対応する真の又は経験的に計算された品質スコアよりも低い品質スコアを予測している。したがって、
図15Bのグラフ1500bを生成するベースコーラーは、品質スコアの予測に関して「過少な信頼」である。
【0182】
したがって、
図15A及び15Bに見られるように、ベースコーラーは、品質スコアを予測するときに、過剰な信頼又は過小な信頼であり得る。理想的には、ベースコーラーによって予測された品質スコアは、真の品質スコアと完全に、又は少なくとも実質的に(例えば、1%又は5%以下の閾値内)で整合するべきである。傾き1の線(例えば、
図15A及び15Bの線1505a及び1505b)内の任意の点は、予測品質スコア1432及び真の品質スコア1440の等しい値を有することに留意されたい。したがって、予測品質スコアに対する真の品質スコアのグラフは、傾き1の線に重複すべきであるか、又は傾き1の線に密接に従う(又は密接に位置合わせする)べきであることが望ましい。しかしながら、
図15A及び15Bに見られるように、ベースコーラーによって予測された品質スコアは、必ずしも真の品質スコアと整合しない可能性があり(すなわち、グラフ上の点が傾き1の線上にない可能性があり)、それによって、完全に正確でない品質スコアがベースコーラーによって生成されることになる。
【0183】
対角不整合領域1625及び過剰な信頼(又は飽和)領域1620
図16は、予測品質スコア1432(X軸)と真の品質スコア1440(Y軸)との間の比較を示す別のグラフ1600を示す。
図15A及び
図15Bと同様に、
図16のグラフ1600も、1の傾きを有する「傾き1」の線1605を含む。グラフ1600は、例えば、アシネトバクターバウマニ(A.バウマニ)細菌、セレウス菌(B.セレウス)細菌、エクソームのゲノム、バグプールゲノムなど、ヒトゲノム、及び様々な他のタイプのゲノムに対応する複数のサンプリング点を有する。
【0184】
図16のグラフ1600では、(点線を使用して大まかに示す)2つの主要領域1620及び1625が識別され、領域の各々は、複数のグラフサンプリング点と傾き1の線との間に不整合がある。論じたように、予測品質スコア132と真の品質スコア1440との間の密接な整合のために、グラフサンプリング点が、傾き1の線と密接に重複又は位置合わせすることが望ましいことに留意されたい。
【0185】
例えば、本明細書では対角不整合領域1625とも呼ばれる領域1625は、グラフの対角領域(例えば、傾き1の線上にある領域上)における予測品質スコア132と真の品質スコア1440との間の不整合を識別する。
図16のこの特定の例では、対角不整合領域1625は主に、約15~40の真の品質スコア間にある。この領域では、サンプリング点は、傾き1の線の周りに分散しており、多くのサンプリング点は、傾き1の線に対して、ずれているか、又は位置合わせ不良である。例えば、領域1625の実質的に最も広いセクションは、L1の幅を有する。この場合も、理想的には、この幅は0に近くなければならず、全てのサンプリング点は傾き1の線に近い。
【0186】
領域1620は、ベースコーラー1416がこの領域において過剰な信頼であるため、本明細書では過剰な信頼領域1620(又は飽和領域1620)とも呼ばれる。例えば、この領域1620内にあるサンプリング点について、対応する予測品質スコアは、対応する真の品質スコアよりも高い。例えば、この領域1620内のサンプリング点の真の品質スコアは、約35~40の間である。しかしながら、この領域1620内のサンプリング点の予測品質スコアは、40を上回る。例えば、この領域1620内の例示的なサンプリング点は、70という高い予測品質スコアを有するが、約38という真の品質スコアを有する。したがって、領域1620では、ベースコーラー1416は、その品質スコア予測を過剰に信頼している。
【0187】
図示のように、過剰な信頼領域1620では、予測品質スコアが飽和する。すなわち、過剰な信頼1620では、予測品質スコアの増加は、真の品質スコアの対応する有意な増加をもたらさない。したがって、過剰な信頼領域1620は、飽和領域とも呼ばれる。
【0188】
真の確率品質スコア1440は、一例では約40(これは、0.9999の確率スコア及び0.01%のエラー率に変換される)である閾値真のスコアを超えないことに留意されたい。これは、増幅、調製、ブリッジPCR、又は他の理由に起因して生じ得る、配列決定マシン1404及び/又はベースコールシステムにおけるエラーのためであり得る。例えば、以前に論じた増幅プロセス中に、増幅エラーが発生する可能性がある。例えば、ライブラリ調製エラーは、増幅プロセス中に、入力ライブラリの調製について発生する可能性がある。エラーの別の例は、ブリッジPCRに関連する。そのようなエラーは、最大達成可能な真の品質スコアに制限を課す。例えば、これらのエラーに起因して、適切に訓練されたベースコーラーであっても、閾値品質スコアを真に上回る品質スコアを予測しない可能性がある。別の制限は、使用されるデータ量による制限に関連付けられる。例えば、各ビンは、品質スコアが比較的良好に較正されているか否かを決定するために、適切な数のベースコールを有するべきである。単なる例として、ビンQ40(すなわち、40の品質スコアを含むビン)については、少なくとも、例えば、10,000個のベースコールが存在しなければならないが、エラー率を確実に決定するためには、更に多く存在する必要性が高い。この問題は、Qスコアが比較的高い場合に悪化するが、これは、ベースコーラーが、その高いスコアを有する十分な塩基を予測しない場合があるからである。したがって、比較的高い品質スコアを良好に較正する能力も制限される。
図16の例における閾値品質スコアは、約40又は45である。したがって、過剰な信頼ベースコーラーは60又は70の品質スコアを予測するが、
図16に示されるように、真の品質スコアは、依然として40の閾値品質スコア内にある。
【0189】
真の品質スコア1440と予測品質スコア1432との間の不整合の補正
グラフ16Aのサンプリング点は、例えば、領域1620と1625との両方において、傾き1の線に密接に従うことが望ましい場合がある。例えば、予測品質スコア1432が真の品質スコア1440に密接に位置合わせすることが望ましい。この目的を少なくとも部分的に達成し得る様々なアプローチが、本明細書において後で順に論じられる。このようなアプローチは、大きく3つのカテゴリーに分類することができる。
1.入力正規化
2.品質スコア再マッピング
3.損失ペナルティ付与
【0190】
これらのアプローチの各々を、以下で更に詳細に論じる。
【0191】
入力正規化
図17Aは、ベースコーラー1416によって受信されるセンサデータを正規化するための正規化モジュール1704を含むベースコールシステム1700を示す。
図17Aのベースコールシステム1700は、
図14Aのベースコールシステム1400と少なくとも部分的に類似しており、2つのシステムにおける類似の構成要素は、同じ標識を使用して標識付けされる。例えば、
図14Aのベースコールシステム1400と同様に、
図17Aのベースコールシステム1700は、フローセル1405を備える配列決定マシン1404を含み、フローセル1405は、センサデータ1412を生成する。また、
図14Aのベースコールシステム1400と同様に、
図17Aのベースコールシステム1700は、ベースコーラー1416と、品質スコア生成モジュール1428と、を含む。
【0192】
一実施形態では、
図14Aのベースコールシステム1400とは異なり、
図17Aのベースコールシステム1700は、センサデータ1412を受信し、センサデータ1412を正規化して正規化されたセンサデータ1712を生成し、正規化されたセンサデータ1712をベースコーラー1416に提供するように構成される正規化モジュール1704を含む。したがって、センサデータ1412に対して動作する代わりに(
図14Aのシステム1400に関して論じたように)、
図17Aのシステム1700のベースコーラー1416は、ここでは正規化されたセンサデータ1712に対して動作する。
【0193】
図17Bは、
図17Aのベースコールシステムの正規化モジュール1704によって実施される、センサデータに対する正規化動作を示す、2つのグラフ1701及び1711を示す。具体的には、
図17Bの第1のグラフ1701は、センサデータ1412に関連付けられたヒストグラムを示し、
図17Bの第2のグラフ1711は、正規化されたセンサデータ1712に関連付けられた別のヒストグラムを示す。
【0194】
ここで、
図17Bの第1のグラフ1701を参照すると、センサデータ1412の強度の分布を示すヒストグラムを示している。なお、この例では、センサデータ1412は、特定の強度を有するクラスタの画像であると仮定する。しかしながら、そのような仮定は、本開示の範囲を限定しない。例えば、本開示の教示は、センサデータが電気信号(電圧又は電流など)、化学的特性(例えば、pHレベル)などによって表されるときなど、他のタイプのセンサデータにも適用可能である。
【0195】
グラフ1701のX軸における画像強度は、約220~約820の範囲であり、これは、グラフ1701において第1の範囲1702として標識付けされ、画像強度は、任意の適切な単位を有する。したがって、第1の範囲1702は、対応する低い強度220と、対応する高い強度820とによって画定される。本明細書で以前に論じたように、強度は、フローセル内の画像センサによって捕捉され、本明細書で以前に論じたように、配列決定サイクル中にクラスタから捕捉された画像強度は、その配列決定サイクルのためにそのクラスタに対してコールされる塩基を示す。
【0196】
グラフ1701の強度に対する周波数プロットに見られるように、強度の大部分(例えば、99.0%)は、第2の強度範囲1706内にあり、第2の強度範囲1706は、約240から760の間である。例えば、強度値240は、低い0.5
thパーセンタイルを表し、強度の0.5%のみが240未満であり、残りの99.5%の強度は240を上回る。同様に、強度値820は上位99.5
thパーセンタイルを表し、99.5%の強度が820未満であり、0.5%の強度のみが820を上回る。すなわち、強度の99%は、強度範囲240から820の間にあり、これは
図17Bにおいて第2の範囲1706として標識付けされる。なお、本明細書で使用した0.5%の例は一例に過ぎず、他の例では、他の適切な割合(0.05%や1%など)を使用してもよい。したがって、第2の範囲1706は、240の低い強度と、760の高い強度とによって画定される。見られるように、第2の範囲1706は、第1の範囲1702によって完全に包含される。
【0197】
一例では、この第2の範囲1706の外側の強度は、いくつかの例では、真の品質スコアに整合する予測品質スコアの生成に役立たない可能性がある外れ値強度である。言い換えれば、外れ値強度は、予測品質スコアと真の品質スコアとの間に何らかの不整合をもたらす。したがって、一実施形態では、これらの外れ値は正規化プロセス中に除去される。
【0198】
例えば、正規化プロセス中に、第2の範囲1706より低い強度(低い外れ値強度とも呼ばれる)には、第2の範囲1706の低い強度に対応する値が割り当てられる。したがって、
図17Bの例では、低い外れ値強度(すなわち、220と240との間にある強度)は、240の強度が割り当てられる。240未満であり、240の強度が割り当てられる、わずか0.5%の低い外れ値強度が存在することに留意されたい。しかしながら、別の例では、240の強度を低い外れ値強度に割り当てる代わりに、低い外れ値強度は、正規化プロセス中に考慮対象から単純に除去される。
【0199】
同様に、正規化プロセス中に、第2の範囲1706より高い強度(高い外れ値強度とも呼ばれる)には、第2の範囲1706の高い強度に対応する値が割り当てられる。したがって、
図17Bの例では、高い外れ値強度(すなわち、760と820との間にある強度)は、760の強度が割り当てられる。760を超える強度のわずか0.5%が存在し、760の強度が割り当てられることに留意されたい。しかしながら、別の例では、760の強度を高い外れ値強度に割り当てる代わりに、高い外れ値強度は、正規化プロセス中に考慮対象から単純に除去される。
【0200】
したがって、低い外れ値強度及び高い外れ値強度を処理した後に(例えば、第2の範囲1706の低い強度及び高い強度をこれらの外れ値強度にそれぞれ割り当てることによって、又は単にこれらの外れ値強度を無視することによって)、強度は、ここでは第2の範囲1706内のみにある。すなわち、ここでは外れ値強度は存在しない。続いて、第2の範囲1706内の強度は、
図17Bのグラフ1711に示すように、強度の第3の範囲1722にマッピングされる。
【0201】
図17Bの例では、第3の範囲1722は、0の低い強度及び255の高い強度によって画定される。したがって、第3の範囲1722内の強度は、8ビットデータを使用して表すことができる。他の例では、第3の範囲1722の他の高い強度及び低い強度を使用することができる。
【0202】
一例では、第3の範囲は第2の範囲よりも小さい。例えば、第2の範囲は、強度240~760、すなわち、520の強度範囲である。対照的に、第3の範囲は、強度0~255、すなわち、256の強度範囲である。すなわち、第2の範囲内の強度が絞られ、第3の範囲にマッピングされる。
【0203】
マッピングプロセス中に、第2の範囲1706内の第1の強度値を有するセンサデータは、第3の範囲1722内の第2の強度値を有するようにマッピングされる。例えば、第2の範囲は、強度240及び760によって、すなわち、(760-240)=520の強度範囲を有するように画定される。第3の範囲は、強度0及び255によって、すなわち、256の強度範囲を有するように画定される。したがって、単に例として、第2の範囲1706内の240と242との間の強度は、第3の範囲1722内の強度0にマッピングされ、第2の範囲1706内の242と244の間の強度は、第3の範囲1722内の強度1にマッピングされ、第2の範囲1706内の758と760との間の強度は、第3の範囲1722における強度255にマッピングされ、以下同様である。したがって、グラフ1701及び1711における2つのヒストグラムは、いくらか同じ形状を有する。一例では、グラフ1701のヒストグラム内の全てのバーの合計と、グラフ1701のヒストグラム内の全てのバーの合計とは、実質的に同じである。一例では、第2の範囲1706内の(グラフ1701に関連付けられた)第1のヒストグラムの下でカバーされる面積と、第3の範囲1722内の(グラフ1711に関連付けられた)第2のヒストグラムの下でカバーされる面積とは、実質的に等しい。
【0204】
外れ値強度及びマッピングの処理を含む正規化は、異なる配列決定実行及び異なる配列決定実行準備プロセスからの画像間の変動性を低下させ、知識は、センサデータの画像間で更に移転可能である。
【0205】
正規化結果
図17Cは、予測品質スコア1432と真の品質スコア1440との間の比較を示すグラフ1710を示し、センサデータ1412は、
図17Cのグラフのためのデータを生成している間に、
図17Aのベースコールシステム1700の正規化モジュール1704によって正規化されている。
図16と同様に、
図17Cのグラフ1710も、1の傾きを有する「傾き1」の線1785を含む。グラフ1710は、
図16のグラフ1600と同様に、例えば、アシネトバクターバウマニ(A.バウマニ)細菌、セレウス菌(B.セレウス)細菌、エクソームのゲノム、バグプールゲノムなど、ヒトゲノム、及び様々な他のタイプのゲノムに対する複数のサンプリング点を有する。
【0206】
したがって、
図16のグラフ1600は、センサデータ1412を正規化しないベースコールシステム(例えば、
図14Aのベースコールシステム1400)によって生成される一方で、
図17Cのグラフ1710は、センサデータ1412を正規化し、正規化されたセンサデータをベースコールに使用するベースコールシステム(例えば、
図17Aのベースコールシステム1700)によって生成される。
【0207】
図16のグラフ1600の過剰な信頼領域1620と
図17Cのグラフ1710の同様の過剰な信頼領域1720とを比較すると、2つのグラフの過剰な信頼領域に実質的な変化がないことが分かる。すなわち、正規化プロセスは、過剰な信頼領域1720における性能の改善に著しく寄与しない可能性がある。
【0208】
図16のグラフ1600の対角不整合領域1625と
図17Cのグラフ1710の同様の対角不整合領域1725とを比較すると、著しい性能改善が認められる。例えば、以前に論じたように、対角不整合領域は、グラフの対角領域(例えば、傾き1の線上にある領域上)における予測品質スコア132と真の品質スコア1440との間の不整合を識別する。主に対角不整合領域は、真の品質スコア15~40の間である。この領域では、サンプリング点は、傾き1の線の周りに分散しており、多くのサンプリング点が傾き1の線から外れている。
【0209】
例えば、
図16のグラフ1600における領域1625の実質的に最も広いセクションは、L1の幅を有する。この場合も、理想的には、この幅は0に近くなければならず、全てのサンプリング点は傾き1の線に近い。
【0210】
図17Cのグラフ1710における領域1725の対応する実質的に最も広いセクションは、L2の幅を有する。見られるように、
図17CのL2は、
図16のL1よりも実質的に狭い(すなわち、L2<L1)。すなわち、
図17Cのグラフ1710では、正規化プロセスに起因して、サンプリング点は、例えば、
図16のグラフ1600におけるサンプリング点の分散及び位置合わせと比較して、狭く分散され、傾き1の線に好適に位置合わせされる。したがって、本開示の発明者らは、約15と40との間の真の品質スコアについて、正規化プロセスが、(例えば、正規化を伴わないシナリオと比較して)予測品質スコア1432が真の品質スコア1440に対して好適な位置合わせを助けることを見出した。
【0211】
図17Dは、入力正規化を有するベースコールシステムに対して、そのような入力正規化を欠く別のベースコールシステムについての予想較正誤差(ECE)を示すプロットを示す。見られるように、入力正規化は、本発明者らによって実験されたゲノムのほとんどのタイプについてECEを改善する。
【0212】
図17Eは、正規化前のセンサデータ1412と正規化されたセンサデータ1712との間の色比較を示す。例えば、第1の画像1790aは、任意の正規化の前にフローセルから捕捉されたセンサデータ1412を示す。基準の位置は、楕円形を使用して画像1790aに示されている。生物学的試料が画像化される固体支持体は、固体支持体に付着されたプローブに対する試料又はその画像の方向の決定を容易にするために、そのような基準マーカーを含むことができる。例示的な基準としては、限定しないが、ビーズ(蛍光部分、又は標識プローブが結合することができる核酸などの部分を有するか又は有さない)、既知の又は決定可能な特徴に付着した蛍光分子、あるいは形態学的形状を蛍光部分と組み合わせる構造が挙げられる。例示的な基準は、参照により本明細書に組み込まれる米国特許出願公開第2002/0150909号に記載されている。標識付けされていないが、複数(数十万、又は数百万など)のクラスタが、
図17Eの図に含まれている。クラスタ上及びクラスタ周辺の画像データを分析して、クラスタのベースコールを行う。
図17Bに関して論じたように、画像1790aの強度スケールは、0から2000であり、約200から800の強度が主に存在することに留意されたい。
【0213】
第2の画像1790bは、例えば、センサデータ1412に対して正規化が実施された後の正規化されたセンサデータ1712を示す。クラスタの位置は、楕円形を使用して画像1790aに示されている。クラスタ上及びクラスタ周辺の画像データを分析して、クラスタのベースコールを行う。画像1790bにおける強度スケールは、例えば、正規化の結果として、0から255であることに留意されたい。
【0214】
正規化方法
図17Fは、センサデータを正規化し、正規化されたセンサデータをベースコール動作に使用するための例示的な方法1750を示すフローチャートを示す。
【0215】
方法1750の1755において、フローセルから(例えば、
図17Aの正規化モジュール1704によって)複数のセンサデータが受信され、複数のセンサデータは、第1の範囲(例えば、第1の範囲1702)内にある。例えば、
図17Bは、複数のセンサデータが第1の範囲1702内にある複数の強度値を含む例を示す。
【0216】
1760において、第2の範囲は、複数のセンサデータの少なくとも閾値割合が第2の範囲内にあるように、(例えば、
図17Aの正規化モジュール1704によって)識別される。例えば、
図17Bは、センサデータの99.0%がこの範囲内にあるような、第2の範囲1706の例を示す。99.0%は、単なる例として使用され、他の閾値割合もまた、本開示の教示に基づいて、当業者によって想定され得ることに留意されたい。
【0217】
1765において、外れ値センサデータ、例えば、第2の範囲外にあるセンサデータが、(例えば、
図17Aの正規化モジュール1704によって)処理される。本明細書で以前に論じたように、一例では、低い外れ値センサデータ(例えば、
図17Bの220と240との間の強度)は、
図17Bに関して論じたように、第2の範囲の最低値(例えば、240)に対応する強度が割り当てられる。同様に、一例では、高い外れ値センサデータ(例えば、
図17Bにおいて760と820との間にある強度)は、
図17Bに関しても論じたように、第2の範囲の最高値(例えば、760)に対応する強度が割り当てられる。別の例では、外れ値センサデータは、単に無視されるか、又は考慮対象から除外される。
【0218】
1770において、例えば、第2の範囲内にある複数のセンサデータの少なくともサブセットは、複数の正規化されたセンサデータ1770を生成するために、(例えば、
図17Aの正規化モジュール1704によって)第3の範囲にマッピングされる。例えば、
図17Bに示すように、グラフ1701における第2の範囲内の強度は、グラフ1711における第3の範囲内の対応する強度にマッピングされる。一例では、外れ値センサデータが考慮対象から除外される場合、そのような外れ値センサデータは、1770においてマッピングされず、第2の範囲内にある複数のセンサデータのサブセットのみが、第3の範囲にマッピングされる。
【0219】
1775において、複数の正規化されたセンサデータは、ベースコーラーにおいて処理されて、複数の正規化されたセンサデータの各々について、対応する塩基をコールする。例えば、
図17Aのベースコーラー1416は、正規化されたセンサデータ1712を受信し、対応するベースコールを生成する。
【0220】
品質スコア再マッピング及び量子化
図18Aは、ベースコーラー1416によって予測された品質スコア1432を選択的に再マッピングするための品質スコア再マッピングモジュール1804を含むベースコールシステム1800を示す。
図18Aのベースコールシステム1800は、
図14Aのベースコールシステム1400と少なくとも部分的に類似しており、2つのシステムにおける類似の構成要素は、同じ標識を使用して標識付けされる。例えば、
図14Aのベースコールシステム1400と同様に、
図18Aのベースコールシステム1800は、フローセル1405を備える配列決定マシン1404を含み、フローセル1405は、センサデータ1412を生成する。また、
図14Aのベースコールシステム1400と同様に、
図18Aのベースコールシステム1800は、ベースコーラー1416と、品質スコア生成モジュール1428と、を含む。
【0221】
図示していないが、一例では、
図18Aのシステム1800は、
図17Aの正規化モジュール1704を含むことができる。そのような例では、ベースコーラー1416は、正規化されたセンサデータ1712に対して動作する。しかしながら、別の例では、
図18Aのシステム1800は、そのような正規化モジュール1704を欠いている。
【0222】
一実施形態では、
図14Aのベースコールシステム1400とは異なり、
図18Aのベースコールシステム1800は、本明細書において以下で論じるように、品質スコア生成モジュール1428によって生成された品質スコア1432を選択的に再マッピングするように構成される品質スコア再マッピングモジュール1804を含む。
【0223】
一実施形態では、品質スコアを再マッピングすることに加えて、ベースコールシステム1800はまた、再マッピングされた品質スコア1832を量子化して、量子化され再マッピングされた品質スコア1836を生成する品質スコア量子化モジュール1812を含んでもよい。一例では、品質スコア量子化モジュール1812は任意選択であり、したがって、
図18Aでは破線を使用して示されている。一実施形態では、システム1800は、品質スコア再マッピングモジュール1804にアクセス可能なメモリに記憶された1つ以上のルックアップテーブル(LUT)1808を更に備える。
【0224】
品質スコア再マッピング及び量子化の例
図18B1、
図18B2、
図18B3、
図18B4、及び
図18B5を組み合わせて、品質スコア再マッピング及び量子化の例を示す。
図18B1を参照すると、ベースコーラー1416によって出力された予測品質スコア1432をX軸に、対応する真の品質スコア1440をY軸に示すグラフ1828aを示す。
図16に関して論じたように、過剰な信頼領域1820(更なる詳細については
図16を参照)では、予測品質スコアは、対応する真のスコアよりも高い。
【0225】
例えば、特定のクラスタの特定の塩基に対応するサンプリング点1827(過剰な信頼領域1820内)は、56の予測品質スコアと、19の真の品質スコアと、を有する。したがって、一例では、再マッピングモジュール1804は、56の値を有する品質スコア1432を、19の値を有する再マッピングされた品質スコアにマッピングする。
【0226】
グラフ1828aは、較正点と、動作点と、の2つのタイプのサンプリング点を含むことに留意されたい。較正点は、既知のグランドトゥルースのベースコールと、既知の真の品質スコア1440と、を有する。較正点は、再マッピングのためのLUTを生成するために使用され(
図18B2参照)、その後、動作点は、新規の品質スコアに再マッピングされるためにLUTを使用する。本明細書では、較正点を使用して生成された再マッピングLUTが動作点にも適用可能であると仮定する。
【0227】
次に、
図18B2を参照すると、予測品質スコア1432と真の品質スコア1440との間のマッピングデータを記憶する例示的な再マッピングLUT1808aを示している。例えば、
図18B1に関して論じたように、56の予測品質スコアは、再マッピングLUT1808aの第1の行に示しているように、実際には19の真の品質スコアに対応する。再マッピングLUT1808aの他の行も同様にポピュレートされる。
【0228】
LUT1808aは、本開示の教示を示すために、過度に簡略化された再マッピングLUTであることに留意されたい。実際の実装形態では、再マッピングLUTは、様々な予測品質スコア1432を対応する真の品質スコア1440に再マッピングするために、多くの行を有する可能性が高い。
【0229】
図18B3を参照すると、
図18B1のグラフ1828aの動作点について再マッピングされた品質スコアを示すグラフ1828cを示している。
図18B3に示されるように、品質スコアが再マッピングされた後、品質スコアに対応するサンプリング点は、ここで、傾き1を有する線と(例えば、
図18B1の位置合わせに対して)好適に位置合わせする。したがって、
図18B3の再マッピングされた品質スコアは、ここで、それらのそれぞれの真の品質スコアに(例えば、
図18B1の位置合わせに対して)実質的に近い(等しい)。再マッピングは、過剰な信頼領域1820における位置合わせに役立つことに留意されたい。
【0230】
図18B4は、再マッピングされた品質スコアを量子化するためのLUT1808bを示す。
図18B4の例では、各再マッピングされた品質スコアは、LUT1808bの3つの行に対応する3つの量子化された品質スコアのうちの1つに割り当てられる。しかしながら、そのような量子化された品質スコアの数は、単なる例であり、本開示の範囲を限定しない。例えば、別の例では、各再マッピングされた品質スコアを、LUTのQ個の行に対応するQ個の量子化された品質スコアのうちの1つに割り当てることができ、ここで、Qは、2、4、又はそれ以上であってもよい。
【0231】
図18B4の例では、再マッピングされた品質スコアは、3つのビン[0,18)、[18,30)、及び[30、無限大)(LUT1808bの第1の列を参照)に割り当てられるか又はグループ化されるが、ビンの範囲は単なる例であり、本開示の範囲を限定しない。LUT1808bの第2列は、各ビンに対応する例示的な量子化され再マッピングされた品質スコアを示す。例えば、ビン[0,18)に含まれる再マッピングされた品質スコアは、9.550の量子化され再マッピングされた品質スコアが割り当てられ、ビン[18,30)に含まれる再マッピングされた品質スコアは、22.840の量子化され再マッピングされた品質スコアが割り当てられ、ビン[30,無限大)に含まれる再マッピングされた品質スコアは、37.382の量子化され再マッピングされた品質スコアが割り当てられる。
【0232】
量子化された品質スコア9.550、22.840、及び37.382は、LUTにおいて事前指定される。一例では、これらの数は、対応するビンに割り当てられた較正サンプリング点(
図18B1参照)の真の品質スコアを平均化することによって生成される。例えば、300個の較正サンプリング点がビン[0,18)に割り当てられると仮定する。ビン[0,18)に割り当てられたこれら300個の較正サンプリング点の真の品質スコアの平均は、9.550であると決定される。したがって、ビン[0,18)は、このビンに含まれる較正サンプリング点の真の品質スコアの平均である9.550の再マッピングされ量子化された品質スコアが割り当てられる。
【0233】
LUT1808bの第3列は、それぞれのビンにおける元の平均(すなわち、再マッピングされない)品質スコアを示す。例えば、300個の較正サンプリング点がビン[0,18)に割り当てられる上記の例に続いて、再マッピング前のそれらの品質スコアの平均は9.347である。したがって、LUTの第2列と第3列とを比較することによって、再マッピングが品質スコアをどれだけ変化又は逸脱させるかを把握することができる。別の言い方をすれば、所与の行(すなわち、所与の品質スコアビン)について、LUTの第2の列と第3の列との間の偏差は、再マッピングによる平均品質スコアの変化を示すものである。
【0234】
図18B5は、量子化されたスコアを示すグラフ1828dである。例えば、
図18B5は、
図18B3のグラフ1828cに少なくとも部分的に類似している。しかしながら、
図18B3のグラフ1828cとは異なり、
図18B5のグラフでは、LUT18B4の3つの量子化されたスコアが、再マッピングされた品質スコアとともに示されている。したがって、一例では、システム1800は、(例えば、再マッピングされた品質スコアの代わりに)、量子化され再マッピングされた品質スコア1836を出力する。
【0235】
図18C1及び
図18C2は、品質スコア再マッピング及び量子化の2つの更なる例を示す。例えば、配列決定読み取りサイクル1(読み取り1と称される)、及び配列決定読み取りサイクル2(読み取り2と称される)のための品質スコア再マッピング及び量子化を示す。
【0236】
読み取り1の例を参照すると、(i)再マッピング及び量子化を示す上のグラフ1840aと、(ii)ヒストグラムである下のグラフ1840bと、の2つのグラフを読み取り1の下に示す。例えば、グラフ1840aでは、赤色のサンプリングドットに見られるように、約40を上回る品質スコアは、傾き1を有する線から逸脱する。品質スコアは再マッピングされ、青色ドットを使用して示す。見られるように、再マッピングされた品質スコアは、(例えば、再マッピング前の品質スコアに対して)傾き1の線と好適に位置合わせされる。ヒストグラム1840bは、元の品質スコアを赤色で再マッピングされた品質スコアを、青色で示す。図示のように、元のスコアは、65又は70程度の高さであり得るが、再マッピングされた品質スコアは約52未満である。
【0237】
ここで、読み取り2の例を参照すると、(i)再マッピング及び量子化を示す上のグラフ1840cと、(ii)ヒストグラムである下のグラフ1840dと、の2つのグラフを読み取り2の下に示し、これらのグラフの各々は、読み取り1のグラフに関する上記の説明に基づいて明らかになる。
【0238】
特定の塩基配列に対する品質スコアの再マッピング及び量子化
いくつかの実装形態では、ベースコーラー1416は、右配列決定サイクル及び左配列決定サイクルによってコンテキスト化された現在の配列決定サイクルを含む複数の配列決定サイクルの配列決定画像のウィンドウを処理することによって、現在の配列決定サイクルのベースコールを行う。一例において、塩基「G」は、配列決定画像において暗状態又はオフ状態によって示す。したがって、一例において、塩基「G」の反復パターンは、誤ったベースコールの高い尤度をもたらすことができる。このような誤ったベースコールはまた、現在の配列決定サイクルが非G塩基(例えば、塩基「T」)についてであるが、Gによって左右に隣接されるときに発生する可能性がある。
【0239】
一例では、ベースコールにおけるエラーの確率が比較的高いいくつかの特定のベースコール配列パターンが存在する。例えば、ホモポリマー(例えば、GGGGG)、又は隣接ホモポリマー(例えば、GGTGG)の塩基配列の場合、ベースコールにおけるエラーの確率は比較的高い。他の特定のベースコール配列パターン、例えば、GGTCGが存在する可能性があり、ベースコールにおけるエラーの確率もまた、比較的高い。一例では、そのような特定のベースコール配列パターンは、複数のG、例えば、配列の少なくとも最初及び最後のG、及びおそらく5塩基配列中の2つの末端Gの間の第3のGを有する。このような特定のベースコール配列の他の例としては、GGXGG、GXGGG、GGGXG、GXXGG、及びGGXXGが挙げられ、ここで、Xは、A、C、T、又はGのいずれかであり得る。
【0240】
図19は、いくつかの特定の塩基配列について、(i)特定の塩基配列の品質スコアの平均と、(ii)特定の塩基配列の再マッピングされた品質スコアの平均との間の偏差を示す表を示し、ここで、再マッピングは、例えば、
図18B2の一般的なLUTに従って実施される。
図19の表は、分割されていない表を示すためのスペースの制限のために、2つのセクション1901a及び1901bに分割されていることに留意されたい。表に示す特定の配列は、ACGGC、TCGAGなどであり、最後にGGGGG、GGTGGなどである。様々な特定の塩基配列に対する読み取り配列1及び読み取り配列2の偏差を示している。アシネトバクターバウマニ(A.バウマニ)細菌、ヒトゲノム、セレウス菌(B.セレウス)細菌、及びロドバクターなどの様々なタイプのゲノムを使用している。ゲノムの各タイプについて、塩基配列の対応するカウント、及び対応する偏差を使用している。最後に、様々な特定の塩基配列についての平均偏差を、
図19の表のセクション1901bの最後の列に列挙している。
図19に提示する偏差は、生成目的LUT(
図18B2等)を再マッピングのために使用するとき、平均品質スコアが再マッピングプロセスに起因して変化する量を表す。
【0241】
図19のセクション1901bの第2の列(すなわち、特定の塩基配列)、及び最後の列(すなわち、平均偏差)を参照すると、特定の塩基配列に関して、特定の塩基配列のうちの少なくともいくつかに関する偏差が有意であることが分かる。例えば、GGGGGの読み取り2についての平均偏差は、7.51であり、GGTGGの読み取り2についての平均偏差は、6であり、(例えば、ACGGCの読み取り1についての3.37の平均偏差と比較して)これらは有意である。したがって、一般的な塩基配列に対して機能する再マッピングは、特定の塩基配列の少なくともいくつかに対して適切に機能しない可能性がある。
【0242】
図20Aは、特定の塩基配列(例えば、GGGGGのホモポリマー配列)の予測品質スコアを再マッピングされた真の品質スコアに再マッピングするために使用可能なLUT2000を示す。LUT2000は、特にGGGGGのホモポリマー配列のためのものであり、これは、GGGGGのホモポリマー配列を用いて繰り返し試験し、予測された塩基配列についての真の品質スコアを生成することによって導き出され得ることに留意されたい。より具体的には、LUT2000は、GGGGGの配列の中央Gの予測品質スコアを再マッピングするためのものである。例えば、LUT2000の丸で囲まれたエントリを参照すると、GGGGGの特定の配列の中央Gについて、27の予測品質スコアを30の真の品質スコアに再マッピングすることができる。
【0243】
図20Bは、
図20AのLUT2000を使用した、特定の塩基配列(例えば、GGGGGのホモポリマー配列)に対する予測品質スコアの再マッピングを示す。例えば、
図20Bにおいて、G、A、C、G、G、G、G、G、Tの塩基配列は、
図20Bの表の最初の2行に示されるように、予測された配列上の個々の塩基についてのQ25、Q23、Q25、Q27、Q37、Q27、Q27、Q32、及びQ27の対応する予測されたそれぞれの品質スコアとともに、ベースコーラーによって出力される。すなわち、配列内の第1のGは、25の予測品質スコアに関連付けられ、配列内の第2のAは、23の予測品質スコアに関連付けられ、以下同様である。ベースコールにおけるGGGGGの特定のホモポリマー配列の存在に留意されたい。
【0244】
図20Bに示されるように、GGGGGのホモポリマー配列の中央Gを除く全ての塩基についての予測品質スコアは、
図18B2のLUT1808b(又は別の類似の「汎用」LUT)を使用して再マッピングされる。
図18B2のLUT1808bは、このLUTが一般的な塩基配列を再マッピングするために使用されるので、本明細書では「汎用」再マッピングLUTと呼ばれることに留意されたい。
【0245】
対照的に、
図20AのLUT2000は、GGGGGの特定の塩基配列の中央塩基に特に専用である「塩基配列特異的」LUTである。したがって、
図20Bのこの配列の中央Gの予測品質中央Q27は、LUT2000の点線で囲まれたエントリに従って置き換えられる。
【0246】
なお、
図20Bの配列における4番目のG塩基、6番目のG塩基、及び9番目のT塩基の品質スコアの各々は、Q27である。4番目のG塩基、及び9番目のT塩基についてのQ27の品質スコアは、例えば、汎用LUTを使用して同様に再マッピングされ得るが、6番目のG塩基(これは、特定の塩基配列の中央塩基)は、例えば、塩基配列特異的LUTを使用して異なるように再マッピングされる。したがって、3つの塩基全てがQ27の同じ品質スコアを有するが、単なる例として、4番目のG塩基、及び9番目のT塩基は、汎用LUTに従ってQ32の再マッピングされた品質スコアに再マッピングされ、6番目のG塩基(これは、特定の塩基配列の中央塩基)を、
図20Aの塩基配列特異的LUT2000に従ってQ30に再マッピングすることができる。
【0247】
図20A及び20Bは、特定のホモポリマー配列GGGGGに関する。同様の特異的LUTを、GGTGG、GGTCG、GGXGG、GXGGG、GGGXG、GXXGG、GGXXGなどの他の特定のホモポリマー又は隣接ホモポリマー配列について生成することができ、ここで、Xは、A、C、T、又はGのいずれかであってもよい。
【0248】
損失ペナルティ付与
図21は、1つ以上の特定の塩基配列に対する損失に選択的にペナルティを付与するための損失ペナルティ付与モジュール2106を含むベースコールシステム2100を示す。
図21のベースコールシステム2100は、
図14Aのベースコールシステム1400と少なくとも部分的に類似しており、2つのシステムにおける類似の構成要素は、同じ標識を使用して標識付けされる。例えば、
図14Aのベースコールシステム1400と同様に、
図21のベースコールシステム2100は、フローセル1405を備える配列決定マシン1404を含み、フローセル1405は、センサデータ1412を生成する。また、
図14Aのベースコールシステム1400と同様に、
図21のベースコールシステム2100は、ベースコーラー1416と、品質スコア生成モジュール1428と、を含む。
【0249】
一実施形態では、
図21に示すように、ベースコーラー1416は、ニューラルネットワークモデルのフォワードパスセクション2108、バックプロパゲーションパスセクション2112、損失生成モジュール2104、及び損失ペナルティ付与モジュール2106を含む。損失生成モジュール2104は、フォワードパスセクションの出力(例えば、予測されたベースコール)、及びグランドトゥルース(例えば、グランドトゥルース塩基配列)を受信し、フォワードパスセクション2108の出力とグランドトゥルース2105との比較に基づいて損失関数2109を生成する。損失ペナルティ付与モジュール2106は、損失関数2109にペナルティを付与して、ペナルティ付与された損失関数2111を生成する。一実施形態では、ペナルティ付与された損失関数2111は、入力勾配及び/又は重み勾配を生成するためにバックプロパゲーションセクション2112によって使用され、入力勾配及び/又は重み勾配は、ニューラルネットワークモデルの重みを適応させ、それによってニューラルネットワークモデルを訓練するために使用される。損失ペナルティ付与モジュール2106は、例えば、特定の塩基配列(例えば、XがA、C、T、又はGのいずれかであるGGXGGなどのホモポリマー又は隣接ホモポリマー)が検出された場合、損失関数2109に選択的にペナルティを付与する。
【0250】
例えば、深層ニューラルネットワーク(ベースコーラー1416のニューラルネットワークモデルなど)を訓練する目標は、フォワードパスの各層における重みパラメータの最適化であり、これは、最も適切な階層表現がデータから学習され得るように、単純な特徴を複雑な特徴に徐々に組み合わせる。最適化プロセスの単一サイクルは、以下のように構成される。まず、訓練データセットが与えられると、フォワードパスセクションは、各層内の出力を順次計算し、ネットワークを通して機能信号を順方向に伝搬する。フォワードパスセクションの最終層において、(例えば、損失生成モジュール2104によって生成される)目的損失関数は、推論された出力と所与の標識との間の誤差を測定する。損失ペナルティ付与モジュール2106は、損失関数2109にペナルティを付与して、ペナルティ付与された損失関数2111を生成する。訓練エラーを最小化するために、バックプロパゲーションパスは、連鎖ルールを使用して、エラー信号(例えば、ペナルティ付与された損失関数2111)を逆伝搬し、ニューラルネットワーク全体の全ての重みに対する勾配を計算する。最後に、勾配降下に基づいて最適化アルゴリズムを使用して重みパラメータが更新される。バッチ勾配降下が完全データセットごとにパラメータ更新するのに対し、確率的勾配降下は、データ例の各々の小さいセットについて更新を実行することによって確率的近似値を提供する。いくつかの最適化アルゴリズムは確率的勾配降下に由来する。例えば、訓練アルゴリズムは、それぞれ、各パラメータの更新頻度及び勾配のモーメントに基づいて、学習率を適応的に修正しつつ、確率的勾配降下を実施する場合がある。損失生成モジュール2104によって生成された損失関数は、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの任意の適切なタイプであってもよい。フォワードパスセクション、バックプロパゲーションセクション、及び損失生成モジュールを備えるニューラルネットワークモデルを含むベースコーラーは、参照により本明細書に組み込まれる、2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国非仮特許出願第16/826,134号(代理人整理番号ILLM 1008-19/IP-1747-US)において更に詳細に論じられている。
【0251】
図22A~
図22Eは、組み合わせて、特定の塩基配列の検出に応答して、(例えば、損失ペナルティ付与モジュール2106によって)損失関数のペナルティ付与を示す。
図22A~22Eの例に関して論じられる特定の塩基配列は、GGXGGであり、「X」は、A、C、T、又はGのいずれかであってもよい。しかしながら、本開示の教示は、任意の特定の「特定の塩基配列」に限定されず、
図19、20A、及び20Bに関して本明細書で論じられる、任意のホモポリマー、隣接ホモポリマー、及び/又は任意の他の特定の塩基配列に適用することができる。
【0252】
図22Aを参照すると、損失関数2109の損失行列であるクロスエントロピー行列2204aのセクションを示している。ペナルティ付与行列2208aも示している。一例では、ペナルティ付与行列2208aは、クロスエントロピー行列2204aの損失関数に選択的にペナルティを付与する。
図22Aのクロスエントロピー行列2204a及びペナルティ付与行列2208aは、配列決定サイクル(t-2)のためのものである。クロスエントロピー行列2204a及びペナルティ付与行列2208aの各々は、アレイ形式で配置された複数の要素を有し、フローセルからの様々なクラスタについて生成された1つ以上の画像のピクセル(又はサブピクセル)に対応することに留意されたい。
【0253】
一実施形態では、クロスエントロピー行列2204aとペナルティ付与行列2208aとの要素ごとの乗算が実施される。例えば、クロスエントロピー行列2204aの位置(1,1)の要素は、ペナルティ付与行列2208aの位置(1,1)の要素に乗算される。クロスエントロピー行列2204aの位置(1,2)の要素は、ペナルティ付与行列2208aの位置(1,2)の要素に乗算され、一般的に言えば、クロスエントロピー行列2204aの位置(i,j)の要素は、ペナルティ行列2208aの位置(i,j)の要素に乗算される。
図22Aにおいて、クロスエントロピー行列2204aとペナルティ付与行列2208aとのそのような乗算は、配列決定サイクル(t-2)のためのペナルティ付与された損失関数2111を生成する。
【0254】
一般に、ペナルティ付与行列2208aの要素の各々は、w1の重み又はペナルティを有し、w1は、例えば、1であってもよい。したがって、ペナルティ付与行列2208aの要素についてw1=1である場合、ペナルティ付与行列2208aの要素は、クロスエントロピー行列2204aの対応する要素にペナルティを課さない(又は1のペナルティを課す)。
図22Aの例では、ペナルティ付与行列2208aの全ての要素は、w1=1の等しいペナルティを有し、したがって、クロスエントロピー行列2204aとペナルティ付与行列2208aとの乗算によって生成されたペナルティ付与された損失関数2111は、単にクロスエントロピー行列2204aである。したがって、本質的に、ペナルティ付与行列2208aは、
図22Aにおいてペナルティを課さない。
【0255】
クロスエントロピー行列2204aにおける斜め縞模様のエントリと、重み行列2208aにおける対応する重みw1とを示す。
図22Aの配列決定サイクル(t-2)について、斜め縞模様のボックスに対応するグランドトゥルース塩基がGであると仮定する。
【0256】
次に
図22Bを参照すると、損失関数2109の損失行列であるクロスエントロピー行列2204bのセクションと、配列決定サイクル(t-1)のペナルティ付与行列2208bとを示す。クロスエントロピー行列2204b内の斜め縞模様のエントリも示す。また、
図22Bの配列決定サイクル(t-1)について、斜め縞模様のボックスに対応する塩基がGのグランドトゥルースを有すると仮定する。この場合も、ペナルティ付与行列2208bの全てのエントリはw1=1であり、したがって、事実上、ペナルティ付与行列2208bは、
図22Bにおいてペナルティを課さない。
【0257】
次に
図22Cを参照すると、損失関数2109の損失行列であるクロスエントロピー行列2204cのセクションと、配列決定サイクル(t-1)のペナルティ付与行列2208cとを示す。クロスエントロピー行列2204c内の斜め縞模様のエントリも示す。また、
図22Cの配列決定サイクル(t)について、斜め縞模様のボックスに対応する塩基がXのグランドトゥルースを有すると仮定し、ここで、Xは、A、C、T、又はGのいずれかであってもよい。
図22Dの配列決定サイクル(t+1)について、斜め縞模様のボックスに対応する塩基がGのグランドトゥルースを有すると仮定し、
図22Eの配列決定サイクル(t+2)について、斜め縞模様のボックスに対応する塩基がGのグランドトゥルースを有すると仮定する。したがって、
図22A~
図22Eのクロスエントロピー行列2204a、2204b、2204c、2204d、及び2204eの(3,4)位置はそれぞれ、GGXGGの特定の塩基配列に関連付けられる。したがって、この特定の塩基配列の中央塩基は、対応するペナルティ付与行列2208cによってペナルティ付与される。
【0258】
例えば、特定の塩基配列の中央Xに関連付けられた損失によって乗算される(すなわち、クロスエントロピー行列2204cの(3,4)要素によって乗算される)
図22Cのペナルティ付与行列2208cの(3,4)位置に対応するペナルティは、W2であり、W2は、w1よりも大きい(すなわち、W2>w1)。例えば、W2は、w1の値の少なくとも2倍である。例えば、W2は、2より大きく、w1は、1である。一例では、W2=20以上である。ペナルティ付与行列2208cの残りの要素は、依然としてw1である。
【0259】
したがって、事実上、ペナルティ付与行列2208cは、重みW2によってペナルティ付与されるクロスエントロピー行列2204cの(3,4)要素を除いて、
図22Cのクロスエントロピー行列2204cの要素のいずれにもペナルティを課さない。
【0260】
次に
図22Dを参照すると、損失関数2109の損失行列であるクロスエントロピー行列2204dのセクションと、配列決定サイクル(t+1)のペナルティ付与行列2208dとを示す。クロスエントロピー行列2204d内の斜め縞模様のエントリも示す。以前に論じたように、
図22Dの配列決定サイクル(t+1)について、斜め縞模様のボックスに対応する塩基がGのグランドトゥルースを有すると仮定する。この場合も、ペナルティ付与行列2208dの全てのエントリは、w1=1であり、したがって、事実上、ペナルティ付与行列2208dは、
図22Dにおいてペナルティを課さない。
【0261】
次に
図22Eを参照すると、損失関数2109の損失行列であるクロスエントロピー行列2204eのセクションと、配列決定サイクル(t+2)のペナルティ付与行列2208eとを示す。クロスエントロピー行列2204e内の斜め縞模様のエントリも示す。以前に論じたように、
図22Eの配列決定サイクル(t+2)について、斜め縞模様のボックスに対応する塩基がGのグランドトゥルースを有すると仮定する。この場合も、ペナルティ付与行列2208eの全てのエントリは、w1=1であり、したがって、事実上、ペナルティ付与行列2208eは、
図22Eにおいてペナルティを課さない。
【0262】
したがって、
図22A~22Eに示す5つの連続したベースコールサイクルにおいて、斜め縞模様のボックスは、(例えば、Xの値に基づいて)ホモポリマー又は隣接ホモポリマーである塩基配列GGXGGと関連付けられる。一実施形態では、この特定の塩基配列についての中央X(例えば、両側にGが隣接する)についての損失は、配列の他の塩基及び他の一般的な塩基配列についての損失のペナルティとは異なってペナルティ付与される。例えば、この特定の塩基配列についての中央Xについての損失は、1より大きいW2(すなわち、W2>1)の対応するペナルティの対応する増幅によって増幅される。
【0263】
損失ペナルティ付与モジュール2106がグランドトゥルースデータ内に特定の塩基配列を検出すると、損失ペナルティ付与モジュール2106は、そのような特定の塩基配列の1つ以上の塩基に特殊増幅重み又はペナルティを適用する。したがって、例えば、
図22Cのペナルティ付与行列2208cのペナルティW2は、様々なペナルティ付与行列2208の様々な他のペナルティとは異なる(例えば、増幅される、又は高くなる)。例えば、
図22CのW2は、
図22A、22B、22D、及び/又は22Eのw1とは異なる(例えば、増幅される、又は高くなる)。
【0264】
損失ペナルティ付与は、ニューラルネットワークベースのベースコーラーの訓練フェーズ中に実施されることに留意されたい。訓練フェーズ中に、例えば、
図22A~
図22Eに関して論じた乗算の前に、グランドトゥルース塩基配列は、先験的に知られている。したがって、ニューラルネットワークモデルは、特定の塩基配列が処理されるべきか否かを予め知っている。したがって、特定の塩基配列の中央塩基に対応するペナルティW2は、本明細書で論じたように、
図22Cにおいて(例えば、
図22D及び
図22Eにおける動作を実施し、特定の塩基配列に対して最後の2つの塩基を処理する前であっても)高くすることができる。
【0265】
一例では、メモリが、損失ペナルティ付与行列2208a、2208b、...、2208eを記憶する。ニューラルネットワークモデルが特定の塩基配列を予測する場合、
図22Cに関して論じたように、特定の塩基配列の中央塩基に対応するペナルティW2が変更される(例えば、高くされる)。
【0266】
特定の塩基配列GGXGGの中央塩基に他の塩基よりも(例えば、W2を相対的に高くすることによって)相対的に多いペナルティを付与することは、特定の塩基配列GGXGGの中央塩基に関連する損失を増幅する。例えば、ペナルティ付与された損失関数2111から生成された勾配は、特定の塩基配列GGXGGの中央塩基についての増幅された損失を含む。これは、この特定のベースコールについての勾配降下のステップサイズを変化させ、これは、ニューラルネットワークモデルがそのような特定の塩基配列を認識し、そのような特定の塩基配列についての特別な重みを適合させることを容易にする。
【0267】
図22Fは、特定の塩基配列の中央塩基に関連する損失への特殊化された重みの適用を示す。ここで、特定の塩基配列は、GGXGGであり、「X」は、A、C、T、又はGのいずれかであってもよい。しかしながら、本開示の教示は、任意の特定の「特定の塩基配列」に限定されず、
図19、20A、及び20Bに関して本明細書で論じられる、任意のホモポリマー、隣接ホモポリマー、又は任意の他の特定の塩基配列に適用することができる。見られるように、一定のペナルティw1(これは、任意の適切な重み選択スキームに従って予め指定及び選択することができ、例えば、w1=1である)が、特定の塩基配列の中央塩基に関連する損失を除いて、全ての塩基に関連する損失に適用される。特定の塩基配列の中央塩基について、W2のペナルティが、対応する損失に適用され、ここで、W2は、一定の重みとは異なる(例えば、高くなる)。
【0268】
損失ペナルティ付与結果
図22Gは、損失にペナルティを付与しないベースコールシステムに対して、特定の塩基配列について損失にペナルティを付与するベースコールシステムの性能を比較する2つのグラフ2280及び2284を示している。これらのグラフで使用される特定の塩基配列は、GGGGGである。これらのプロットの各々におけるX軸は、予測品質スコア1432であり、これらのプロットの各々におけるY軸は、真の品質スコア1440である。
【0269】
グラフ2280は、特定の塩基配列GGGGGについての損失に特にペナルティを付与しないベースコールシステムについてのものである。見られるように、グラフ2280における特定の配列のベースコールは、6.4979%のエラーを有する。
【0270】
グラフ2284は、特定の塩基配列GGGGGの中央塩基に20のペナルティを割り当てるベースコールシステムについてのものである。見られるように、グラフ2284における特定の配列のベースコールは、1.9941%のエラーを有する。
【0271】
したがって、グラフ2284における20のペナルティは、エラーを6.4979から1.9941に劇的に改善する。したがって、損失ペナルティ付与は、本明細書で論じられるように、例えば、品質スコアを真の(又は経験的に決定された)品質スコアに好適に位置合わせすることによって、品質スコアを改善する。
【0272】
品質スコア較正の適用例
本開示は、例えば、較正された品質スコアが真の品質スコアに好適に位置合わせされるように、品質スコアの較正のための様々なアプローチを論じる。品質スコアは、基礎となるベースコールを変化させても、変化させなくてもよい。
【0273】
例えば、較正なしで、塩基に関連する品質スコアがQ(A)=70であり、Q(C)、Q(T)及びQ(G)の各々が、1未満である、と仮定する。較正なしでコールされている塩基はAである。本明細書で論じられる較正アプローチのうちの1つ以上(例えば、入力正規化、スコア再マッピング、及び/又は損失ペナルティ付与)を使用するとき、較正された品質スコアは、Q(A)=10であり、Q(C)、Q(T)及びQ(G)の各々が、2未満である、と仮定する。較正を用いてコールされている塩基は、依然としてAである。したがって、較正は、基礎となるベースコールを変更しない。しかしながら、較正は、基礎となるベースコールを変化させても、変化させなくてもよいが、正確な品質スコア及び基礎となる正確な信頼レベルを提供することは、多くの実用的な用途において重要である。例えば、多くの場合、品質スコアは、重要な医療決定を行うために使用される。例えば、医療設定において、ヒト組織サンプルの塩基を検出することに関連する信頼スコアは、健康状態を処置するためのアプローチに影響を及ぼし得る。例えば、サンプルの複数の塩基における高い品質スコア(すなわち、高い信頼レベル)は、がんの高い確率を示すことができるが、サンプルの複数の塩基における低い品質スコア(すなわち、低い信頼レベル)は、がんの治療決定の疑わしい確率を示し、したがって、品質スコアレベルに基づいて変化することができる。したがって、品質スコアを較正し、較正された品質スコアを報告することは、品質スコアのレベルに関連付けられる医療決定を場合によっては含み得る様々な下流タスクの決定の際に役立つ。
【0274】
正規化、再マッピング及び量子化、並びに損失ペナルティ付与を実装する組み合わされたベースコールシステム
図23は、(i)
図17Aのベースコールシステム1700の正規化モジュール1704と、(ii)
図18Aのベースコールシステム1800の品質スコア再マッピングモジュール1804及び品質スコア量子化モジュール1812と、(iii)
図21のベースコールシステム2100の損失ペナルティ付与モジュール2106と、を含むベースコールシステム2300を示す。したがって、ベースコールシステム2300は、本開示全体を通して論じられるように、入力正規化、品質スコア再マッピング及び量子化、並びに/又は損失ペナルティ付与のうちの1つ以上を実施することができる。
【0275】
ベースコールアーキテクチャ
図24は、一実装形態による、ベースコールシステム2400のブロック図である。ベースコールシステム2400は、生物学的物質又は化学物質のうちの少なくとも1つに関連する任意の情報又はデータを得るように動作することができる。いくつかの実装形態では、ベースコールシステム2400は、ベンチトップデバイス又はデスクトップコンピュータと同様であり得るワークステーションである。例えば、所望の反応を実施するためのシステム及び構成要素の大部分(又は全て)は、共通のハウジング2416内にあってもよい。
【0276】
特定の実装形態では、ベースコールシステム2400は、de novo sequencing、全ゲノム又は標的ゲノム領域の再配列、及びメタゲノミクスを含むがこれらに限定されない、様々な用途のために構成された核酸配列決定システム(又はシーケンサ)である。シーケンサはまた、DNA又はRNA分析に使用されてもよい。いくつかの実装形態では、ベースコールシステム2400はまた、バイオセンサ内に反応部位を発生させるように構成されてもよい。例えば、ベースコールシステム2400は、サンプルを受容し、サンプル由来のクローン的に増幅された核酸の表面付着クラスタを発生させるように構成され得る。各クラスタは、バイオセンサ内の反応部位を構成するか、又はその一部であってもよい。
【0277】
例示的なベースコールシステム2400は、バイオセンサ2402と相互作用して、バイオセンサ2402内で所望の反応を行うように構成されたシステム受け部又はインターフェース2412を含んでもよい。
図24に関して以下の説明では、バイオセンサ2402はシステム受け部2412内に装填される。しかしながら、バイオセンサ2402を含むカートリッジは、システム受け部2412に挿入されてもよく、一部の状態では、カートリッジは一時的又は永久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。
【0278】
特定の実装形態では、ベースコールシステム2400は、バイオセンサ2402内で多数の平行反応を行うように構成されている。バイオセンサ2402は、所望の反応が生じ得る1つ以上の反応部位を含む。反応部位は、例えば、バイオセンサの固体表面に固定化されてもよく、又はバイオセンサの対応する反応チャンバ内に位置するビーズ(又は他の可動基材)に固定化されてもよい。反応部位は、例えば、クローン的に増幅された核酸のクラスタを含むことができる。バイオセンサ2402は、ソリッドステート撮像デバイス(例えば、CCD又はCMOSイメージャ)及びそれに取り付けられたフローセルを含んでもよい。フローセルは、ベースコールシステム2400から溶液を受容し、溶液を反応部位に向かって方向付ける1つ以上のフローチャネルを含んでもよい。任意選択的に、バイオセンサ2402は、熱エネルギーをフローチャネルの内外に伝達するための熱要素と係合するように構成することができる。
【0279】
ベースコールシステム2400は、相互に相互作用して、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行する、様々な構成要素、アセンブリ、及びシステム(又はサブシステム)を含んでもよい。例えば、ベースコールシステム2400は、ベースコールシステム2400の様々な構成要素、アセンブリ、及びサブシステムと通信してもよく、またバイオセンサ2402も含む、システムコントローラ2404を含む。例えば、システム受け部2412に加えて、ベースコールシステム2400はまた、ベースコールシステム2400及びバイオセンサ2402の流体ネットワーク全体にわたる流体の流れを制御するための流体制御システム2406と、バイオアッセイシステムによって使用され得る全ての流体(例えば、流体、ガス又は液体)を保持するように構成された流体貯蔵システム2408と、流体ネットワーク、流体貯蔵システム2408、及び/又はバイオセンサ2402内の流体の温度を調整し得る温度制御システム2410、並びにバイオセンサ2402を照明するように構成された照明システム2409と、を含み得る。上述のように、バイオセンサ2402を有するカートリッジがシステム受け部2412内に装填される場合、カートリッジはまた、流体制御及び流体貯蔵構成要素を含んでもよい。
【0280】
また、ベースコールシステム2400は、ユーザと対話するユーザインターフェース2414を含んでもよい。例えば、ユーザインターフェース2414は、ユーザから情報を表示又は要求するディスプレイ2413と、ユーザ入力を受け取るためのユーザ入力デバイス2415とを含むことができる。いくつかの実装形態では、ディスプレイ2413及びユーザ入力デバイス2415は、同じデバイスである。例えば、ユーザインターフェース2414は、個々のタッチの存在を検出し、またディスプレイ上のタッチの位置を識別するように構成されたタッチ感知ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナ、音声認識システム、動き認識システムなどの他のユーザ入力デバイス2415が使用されてもよい。以下でより詳細に説明するように、ベースコールシステム2400は、所望の反応を実行するために、バイオセンサ2402(例えば、カートリッジの形態)を含む様々な構成要素と通信してもよい。ベースコールシステム2400はまた、バイオセンサから得られたデータを分析して、ユーザに所望の情報を提供するように構成されてもよい。
【0281】
システムコントローラ2404は、マイクロコントローラ、低減命令セットコンピュータ(Reduced Instruction Set Computer、RISC)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、論理回路、及び本明細書に記載される機能を実行することができる任意の他の回路又はプロセッサを使用するシステムを含む、任意のプロセッサベース又はマイクロプロセッサベースのシステムを含み得る。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び/又は意味を制限することを意図するものではない。例示的な実装形態では、システムコントローラ2404は、検出データを取得し分析する少なくとも1つのために、1つ以上の記憶要素、メモリ、又はモジュール内に記憶された命令のセットを実行する。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサ(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。記憶要素は、ベースコールシステム2400内の情報源又は物理メモリ要素の形態であってもよい。
【0282】
命令セットは、本明細書に記載される様々な実装形態の方法及びプロセスなどの特定の動作を実行するようにベースコールシステム2400又はバイオセンサ2402に指示する様々なコマンドを含んでもよい。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(non-volatile RAM、NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリのタイプに限定されない。
【0283】
ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部分の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、ユーザ入力に応じて処理されたベースコールシステム2400によって自動的に処理されてもよく、又は別の処理マシン(例えば、通信リンクを介したリモート要求)によって行われる要求に応じて処理されてもよい。図示の別の実装形態では、システムコントローラ2404は、(
図25に示される)分析モジュール2538を含む。他の別の実装形態では、システムコントローラ2404は分析モジュール2538を含まず、代わりに分析モジュール2538へのアクセスを有する(例えば、分析モジュール2538は、クラウド上で別個にホスティングされ得る)。
【0284】
システムコントローラ2404は、通信リンクを介して、バイオセンサ2402及びベースコールシステム2400の他の構成要素に接続されてもよい。システムコントローラ2404はまた、オフサイトシステム又はサーバに通信可能に接続されてもよい。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ2404は、ユーザインターフェース2414及びユーザ入力デバイス2415からユーザ入力又はコマンドを受信してもよい。
【0285】
流体制御システム2406は、流体ネットワークを含み、流体ネットワークを通る1つ以上の流体の流れを方向付けるように構成されている。流体ネットワークは、バイオセンサ2402及び流体貯蔵システム2408と流体連通していてもよい。例えば、流体貯蔵システム2408から流体を選択し、制御された方法でバイオセンサ2402に方向付けてもよく、又は流体は、バイオセンサ2402から引き出され、例えば、流体貯蔵システム2408内の廃棄物リザーバに方向付けられてもよい。図示されていないが、流体制御システム2406は、流体ネットワーク内の流体の流量又は圧力を検出する流量センサを含んでもよい。センサは、システムコントローラ2404と通信してもよい。
【0286】
温度制御システム2410は、流体ネットワーク、流体貯蔵システム2408及び/又はバイオセンサ2402の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム2410は、バイオセンサ2402と相互作用し、バイオセンサ2402内の反応部位に沿って流れる流体の温度を制御する熱循環器を含んでもよい。温度制御システム2410はまた、ベースコールシステム2400又はバイオセンサ2402の中実要素又は構成要素の温度を調節してもよい。図示されていないが、温度制御システム2410は、流体又は他の構成要素の温度を検出するためのセンサを含んでもよい。センサは、システムコントローラ2404と通信してもよい。
【0287】
流体貯蔵システム2408は、バイオセンサ2402と流体連通しており、所望の反応を行うために使用される様々な反応成分又は反応物質を貯蔵してもよい。流体貯蔵システム2408はまた、流体ネットワーク及びバイオセンサ2402を洗浄又はクリーニングし、反応物質を希釈するための流体を貯蔵してもよい。例えば、流体貯蔵システム2408は、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液などを保存するための様々なリザーバを含んでもよい。更に、流体貯蔵システム2408はまた、バイオセンサ2402から廃棄物を受容するための廃棄物リザーバを含んでもよい。カートリッジを含む実装形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの1つ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ以上は、カートリッジ又は他のバイオセンサを介してバイオアッセイシステムと取り外し可能に係合され得る。
【0288】
照明システム2409は、バイオセンサを照明するための光源(例えば、1つ以上のLED)及び複数の光学構成要素を含んでもよい。光源の例としては、レーザー、アークランプ、LED、又はレーザーダイオードが挙げられる。光学構成要素は、例えば、反射器、偏光板、ビームスプリッタ、コリメータ、レンズ、フィルタ、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実装形態では、照明システム2409は、励起光を反応部位に方向付けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約532nmであり得る。一実装形態では、照明システム2409は、バイオセンサ2402の表面の表面法線に平行な照明を生成するように構成されている。別の実装形態では、照明システム2409は、バイオセンサ2402の表面の表面法線に対してオフアングルである照明を生成するように構成されている。更に別の実装形態では、照明システム2409は、いくつかの平行照明及びある程度のオフアングル照明を含む複数の角度を有する照明を生成するように構成されている。
【0289】
システム受け部又はインターフェース2412は、機械的、電気的、及び流体的な方法のうちの少なくとも1つにおいてバイオセンサ2402と係合するように構成される。システム受け部2412は、バイオセンサ2402を所望の配向に保持して、バイオセンサ2402を通る流体の流れを容易にすることができる。システム受け部2412はまた、バイオセンサ2402と係合するように構成された電気接点を含んでもよく、それにより、ベースコールシステム2400は、バイオセンサ2402と通信してもよく、及び/又はバイオセンサ2402に電力を供給することができる。更に、システム受け部2412は、バイオセンサ2402と係合するように構成された流体ポート(例えば、ノズル)を含んでもよい。いくつかの実装形態では、バイオセンサ2402は、電気的に、また流体方式で、システム受け部2412に取り外し可能に連結される。
【0290】
加えて、ベースコールシステム2400は、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム2400と通信してもよい。バイオアッセイシステム2400によって得られた検出データは、リモートデータベースに記憶されてもよい。
【0291】
図25は、
図24のシステムで使用することができるシステムコントローラ2404のブロック図である。一実装形態では、システムコントローラ2404は、互いに通信することができる1つ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム(例えば、有形及び/又は非一時的コンピュータ可読記憶媒体上に記憶された命令)又はサブアルゴリズムを含んでもよい。システムコントローラ2404は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、DSP、プロセッサなどの任意の組み合わせを利用して実装されてもよい。あるいは、システムコントローラ2404は、単一のプロセッサ又は複数のプロセッサを備えた既製のPCを使用して実装されてもよく、機能動作はプロセッサ間に分散される。更なるオプションとして、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実行されるハイブリッド構成を利用して実装されてもよく、残りのモジュール式機能は、既製のPCなどを利用して実行される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてもよい。
【0292】
動作中、通信ポート2520は、バイオセンサ2402(
図24)及び/又はサブシステム2406、2408、2410(
図24)から情報(例えば、データ)に情報(例えば、コマンド)を送信してもよい。実装形態では、通信ポート2520は、ピクセル信号の複数の配列を出力することができる。通信ポート2520は、ユーザインターフェース2414からユーザ入力を受信し(
図24)、ユーザインターフェース2414にデータ又は情報を送信してもよい。バイオセンサ2402又はサブシステム2406、2408、2410からのデータは、バイオアッセイセッション中に、システムコントローラ2404によってリアルタイムで処理されてもよい。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作より遅く処理されてもよい。
【0293】
図25に示すように、システムコントローラ2404は、主制御モジュール2530と通信する複数のモジュール2531~2539を含んでもよい。主制御モジュール2530は、ユーザインターフェース2414と通信してもよい(
図24)。モジュール2531~2539は、主制御モジュール2530と直接通信するものとして示されているが、モジュール2531~2539はまた、互いに、ユーザインターフェース2414と、及びバイオセンサ2402と直接通信してもよい。また、モジュール2531~2539は、他のモジュールを介して主制御モジュール2530と通信してもよい。
【0294】
複数のモジュール2531~2539は、サブシステム2406、2408、2410及び2409とそれぞれ通信するシステムモジュール2531~2533、2539を含む。流体制御モジュール2531は、流体ネットワークを通る1つ以上の流体の流れを制御するために、流体制御システム2406と通信して、流体ネットワークの弁及び流量センサを制御してもよい。流体貯蔵モジュール2532は、流体が低い場合、又は廃棄物リザーバが満タン容量又はほぼ満タン容量にあるときにユーザに通知することができる。流体貯蔵モジュール2532はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール2533と通信してもよい。照明モジュール2539は、所望の反応(例えば、結合事象)が生じた後など、プロトコル中に指定された時間で反応部位を照明するために、照明システム2409と通信してもよい。いくつかの実装形態では、照明モジュール2539は、照明システム2409と通信して、指定された角度で反応部位を照明することができる。
【0295】
複数のモジュール2531~2539はまた、バイオセンサ2402と通信するデバイスモジュール2534と、バイオセンサ2402に関連する識別情報を決定する識別モジュール2535とを含んでもよい。デバイスモジュール2534は、例えば、システム受け部2412と通信して、バイオセンサがベースコールシステム2400との電気的及び流体的接続を確立したことを確認することができる。識別モジュール2535は、バイオセンサ2402を識別する信号を受信してもよい。識別モジュール2535は、バイオセンサ2402の識別情報を使用して、他の情報をユーザに提供してもよい。例えば、識別モジュール2535は、ロット番号、製造日、又はバイオセンサ2402で動作することが推奨されるプロトコルを決定し、その後表示してもよい。
【0296】
複数のモジュール2531~2539はまた、バイオセンサ2402から信号データ(例えば、画像データ)を受信及び分析する分析モジュール2538(信号処理モジュール又は信号プロセッサとも呼ばれる)も含む。分析モジュール2538は、検出データを記憶するためのメモリ(例えば、RAM又はフラッシュ)を含む。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサ(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶されてもよく、又はユーザインターフェース2414に送信されて、所望の情報をユーザに表示することができる。いくつかの実装形態では、信号データは、分析モジュール2538が信号データを受信する前に、ソリッドステートイメージャ(例えば、CMOS画像センサ)によって処理され得る。
【0297】
分析モジュール2538は、複数の配列決定サイクルのそれぞれにおいて、光検出器から画像データを取得するように構成されている。画像データは、光検出器によって検出された発光信号から導出され、ニューラルネットワーク(例えば、ニューラルネットワークベースのテンプレート発生器2548、ニューラルネットワークベースのベースコーラー2558(例えば、
図7、
図9、及び
図10を参照)、並びに/あるいはニューラルネットワークベースの品質スコアラー2568)を通して複数の配列決定サイクルの各々について画像データを処理し、複数の配列決定サイクルの各々において検体のうちの少なくとも一部のためのベースコールを生成する。
【0298】
プロトコルモジュール2536及び2537は、主制御モジュール2530と通信して、所定のアッセイプロトコルを実施する際にサブシステム2406、2408及び2410の動作を制御する。プロトコルモジュール2536及び2537は、所定のプロトコルに従って特定の動作を実行するようにベースコールシステム2400に指示するための命令セットを含み得る。図示のように、プロトコルモジュールは、配列決定ごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、合成による配列決定(Sequencing-By-Synthesis、SBS)モジュール2536であってもよい。SBSにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を決定する。下にある化学プロセスは、重合(例えば、ポリメラーゼ酵素により触媒される)又はライゲーション(例えば、リガーゼ酵素により触媒される)であり得る。特定のポリマー系SBSの実装形態では、プライマーに付加されるヌクレオチドの順序及びタイプの検出を使用してテンプレートの配列を決定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー(それによってプライマーを伸長させる)に添加する。例えば、第1のSBSサイクルを開始するために、1つ以上の標識されたヌクレオチド、DNAポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に/それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像イベントを通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム2409は、反応部位に励起光を提供することができる。任意選択的に、ヌクレオチドは、ヌクレオチドがプライマーに付加されると、更なるプライマー伸長を終結する可逆的終結特性を更に含むことができる。例えば、脱ブロック作用因子が送達されてその部分を除去するまで、その後の伸長が起こらないように、可逆的ターミネータ部分を有するヌクレオチド類似体をプライマーに付加することができる。したがって、可逆終端を使用する別の実装形態では、フローセル(検出が生じる前又は後)にデブロッキング試薬を送達するために、コマンドを与えることができる。1つ以上のコマンドは、様々な送達ステップ間の洗浄をもたらすために与えられ得る。次いで、サイクルをn回繰り返してプライマーをnヌクレオチドだけ伸長させ、それによって長さnの配列を検出することができる。例示的な配列決定技術は、例えば、Bentleyら、Nature 456:53-59(2008)、国際公開第04/018497号、米国特許第7,057,026号、国際公開第91/06678号、同第07/123744号、米国特許第7,329,492号、米国特許第7,211,414号、米国特許第7,315,019号、及び米国特許第7,405,281号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
【0299】
SBSサイクルのヌクレオチド送達ステップでは、単一のタイプのヌクレオチドのいずれかを一度に送達することができ、又は複数の異なるヌクレオチドタイプ(例えば、A、C、T、及びGを一緒に)を送達することができる。一度に単一のタイプのヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに付着された異なる蛍光標識に基づいて区別することができる。例えば、4つの異なる蛍光団のうちの1つをそれぞれ有する4つの異なるヌクレオチドを使用することができる。一実装形態では、4つの異なる蛍光団は、スペクトルの4つの異なる領域における励起を使用して区別することができる。例えば、4つの異なる励起放射線源を使用することができる。あるいは、4つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。
【0300】
いくつかの実装形態では、4つ未満の異なる色を、4つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他のメンバーについて検出された信号と比較して明らかな信号を出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。4個未満の色の検出を使用して4個の異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第61/538,294号及び同第61/619,878号に記載されており、それらの全体が参照により本明細書に組み込まれる。2012年9月21日に出願された米国特許出願第13/624,200号は、その全体が参照により組み込まれる。
【0301】
複数のプロトコルモジュールはまた、バイオセンサ2402内の製品を増幅するための流体制御システム2406及び温度制御システム2410にコマンドを発行するように構成されたサンプル調製(又は発生)モジュール2537を含んでもよい。例えば、バイオセンサ2402は、ベースコールシステム2400に係合されてもよい。増幅モジュール2537は、バイオセンサ2402内の反応チャンバに必要な増幅成分を送達するために、流体制御システム2406に命令を発行することができる。他の実装形態では、反応部位は、テンプレートDNA及び/又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール2537は、既知の増幅プロトコルに従って異なる温度段階を通して温度制御システム2410にサイクルするように指示し得る。いくつかの実装形態では、増幅及び/又はヌクレオチドの取り込みは、等温的に実行される。
【0302】
SBSモジュール2536は、クローン性アンプリコンのクラスタがフローセルのチャネル内の局所領域上に形成されるブリッジPCRを実行するコマンドを発行することができる。ブリッジPCRを介してアンプリコンを発生させた後、アンプリコンを「線形化」して、一本鎖テンプレートDNAを作製してもよく、sstDNA及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネータ系配列決定を、上記のように又は以下のように使用することができる。
【0303】
各ベースコール又は配列決定サイクルは、例えば、修飾DNAポリメラーゼ及び4タイプのヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってsstDNAを延長することができる。異なるタイプのヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネータを更に有し得る。単一の塩基をsstDNAに添加した後、励起光が反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネータは、sstDNAから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、SBSモジュール2536は、バイオセンサ2402を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム2406に指示することができる。本明細書に記載される装置及び方法とともに利用することができる例示的な可逆性ターミネータベースのSBS方法は、米国特許出願公開第2007/0166705(A1)号、米国特許出願公開第2006/0188901(A1)号、米国特許第7,057,026号、米国特許出願公開第2006/0240439(A1)号、米国特許出願公開第2006/02814714709(A1)号、国際公開第05/065814号、国際公開第06/064199号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれる。可逆性ターミネータベースのSBSの例示的な試薬が、米国特許第7,541,444号、米国特許第7,057,026号、米国特許第7,427,673号、米国特許第7,566,537号、及び米国特許第7,592,435号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれる。
【0304】
いくつかの実装形態では、増幅及びSBSモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。
【0305】
ベースコールシステム2400はまた、ユーザがアッセイプロトコルを再構成することを可能にし得る。例えば、ベースコールシステム2400は、決定されたプロトコルを修正するために、ユーザインターフェース2414を通じてユーザにオプションを提供することができる。例えば、バイオセンサ2402が増幅のために使用されると決定された場合、ベースコールシステム2400は、アニーリングサイクルの温度を要求し得る。更に、ベースコールシステム2400は、選択されたアッセイプロトコルに対して一般的に許容されないユーザ入力をユーザが提供した場合に、ユーザに警告を発行し得る。
【0306】
実装形態では、バイオセンサ2402は、センサ(又はピクセル)のミリオンを含み、それらのそれぞれは、連続するベースコールサイクルにわたって複数のピクセル信号の配列を発生させる。分析モジュール2538は、センサのアレイ上のセンサの行方向及び/又は列方向の位置に従って、ピクセル信号の複数の配列を検出し、それらを対応するセンサ(又はピクセル)に属させる。
【0307】
センサのアレイ内の各センサは、フローセルのタイルのセンサデータを生成することができ、ここで、遺伝物質のクラスタがベースコール動作中に配置されるフローセル上の領域内のタイル。センサデータは、ピクセルのアレイ内の画像データを含むことができる。所与のサイクルについて、センサデータは、2つ以上の画像を含むことができ、タイルデータとしてピクセルごとに複数の特徴を生成する。
【0308】
図26は、開示される技術を実装するために使用することができるコンピュータ2600システムの簡略ブロック図である。コンピュータシステム2600は、バスサブシステム2655を介して複数の周辺デバイスと通信する少なくとも1つの中央処理ユニット(CPU)2672を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム2636を含む記憶サブシステム2610と、ユーザインターフェース入力デバイス2638と、ユーザインターフェース出力デバイス2676と、ネットワークインターフェースサブシステム2674と、を含んでもよい。入力デバイス及び出力デバイスは、コンピュータシステム2600とのユーザ対話を可能にする。ネットワークインターフェースサブシステム2674は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0309】
ユーザインターフェース入力デバイス2638は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム2600に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0310】
ユーザインターフェース出力デバイス2676は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含んでもよい。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム2600からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0311】
記憶サブシステム2610は、本明細書に記載されるモジュール及び方法の一部又は全部の機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ2678によって実行される。
【0312】
一実装形態では、ニューラルネットワークは、深層学習プロセッサ2678を使用して実装され、構成可能で再構成可能なプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、並びに/あるいは粗粒化された再構成可能アーキテクチャ(CGRA)及びグラフィック処理ユニット(GPU)他の構成されたデバイスであり得る。深層学習プロセッサ2678は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。深層学習プロセッサ2678の例には、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX149 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、MicrosoftのStratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、富士通のDPI(商標)、ARMのDynamicIQ(商標)、IBMのTrueNorth(商標)などが含まれる。
【0313】
記憶サブシステム2610で使用されるメモリサブシステム2622は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)2634と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)2632と、を含む複数のメモリを含むことができる。ファイル記憶サブシステム2636は、プログラム及びデータファイル用の永続的記憶を提供し、ハードディスクドライブ、関連するリムーバブルメディアとともにフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、又はリムーバブルメディアカートリッジを含んでもよい。特定の実装形態の機能を実施するモジュールを、記憶サブシステム2610内のファイル記憶サブシステム2636によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。
【0314】
バスサブシステム2655は、コンピュータシステム2600の様々な構成要素及びサブシステムを、意図したように互いに通信させるための機構を提供する。バスサブシステム2655は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実装形態は、複数のバスを使用することができる。
【0315】
コンピュータシステム2600自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、
図26に示されるコンピュータシステム2600の説明は、本発明の好ましい実装形態を例示する目的のための特定の例としてのみ意図される。コンピュータシステム2600の多くの他の構成は、
図26に示されるコンピュータシステムより多くの又は少ない構成要素を有することができる。
【0316】
項目
以下の項目は、本開示の一部である。
【0317】
項目セット1(入力正規化)
1.ベースコーラーによってベースコールを生成するコンピュータ実施方法であって、
フローセルから複数のセンサデータを受信するステップであって、複数のセンサデータが、第1の範囲内にある、ステップと、
第2の範囲を識別するステップであって、複数のセンサデータのうちの少なくとも閾値割合が、第2の範囲内にあるようにする、ステップと、
第2の範囲内にある複数のセンサデータの少なくともサブセットを第3の範囲にマッピングし、それによって、複数の正規化されたセンサデータを生成するステップと、
複数の正規化されたセンサデータについて、1つ以上の対応する塩基をコールするために、複数の正規化されたセンサデータをベースコーラーにおいて処理するステップと
を含む、コンピュータ実施方法。
【0318】
2.第2の範囲が、第1の範囲内に完全に包含される、項目1に記載の方法。
【0319】
3.第1の範囲内の1つ以上の外れ値センサデータが、センサデータの第2の範囲に存在しない、項目1に記載の方法。
【0320】
4.第2の範囲を識別するステップが、
第1の範囲内で、複数のセンサデータの低い閾値割合が、低値よりも低い値になるように、低値を識別するステップと、
第1の範囲内で、複数のセンサデータの高い閾値割合が、高値よりも高い値になるように、高値を識別するステップと
を含み、
第2の範囲が、低値及び高値によって画定される、項目1に記載の方法。
【0321】
5.低い閾値割合又は高い閾値割合の少なくとも一方が、0.5%以下である、項目4に記載の方法。
【0322】
6.低い閾値割合又は高い閾値割合の少なくとも一方が、1.0%以下である、項目4に記載の方法。
【0323】
7.低い閾値割合及び高い閾値割合の各々が、0.5%以下である、項目4に記載の方法。
【0324】
8.低い閾値割合及び高い閾値割合の各々が、1%以下である、項目4に記載の方法。
【0325】
9.(i)低値よりも低い複数のセンサデータのうちの第1の外れ値センサデータ、及び(ii)高値よりも高い複数のセンサデータのうちの第2の外れ値センサデータを識別するステップと、
マッピングするステップの前に、低値を第1の外れ値センサデータに割り当て、高値を第2の外れ値センサデータに割り当てるステップであって、第1の外れ値センサデータ及び第2の外れ値センサデータが、割り当ての後に第2の範囲内にあるようにする、ステップと
を更に含む、項目4に記載の方法。
【0326】
10.(i)低値よりも低い複数のセンサデータのうちの第1の外れ値センサデータ、及び(ii)高値よりも高い複数のセンサデータのうちの第2の外れ値センサデータを識別するステップと、
第1の外れ値センサデータ及び第2の外れ値センサデータが、第3の範囲にマッピングされないように、第2の範囲外であるために、マッピングするステップ中に複数のセンサデータのサブセットから第1の外れ値センサデータ及び第2の外れ値センサデータを除外するステップと
を更に含む、項目4に記載の方法。
【0327】
11.複数のセンサデータの少なくともサブセットをマッピングするステップが、
サブセット内の第1のセンサデータを、第2の範囲内にある第1の値から第3の範囲内にある第2の値にマッピングするステップと、
サブセット内の第2のセンサデータを、第2の範囲内にある第3の値から第3の範囲内にある第4の値にマッピングするステップと
を含む、項目1に記載の方法。
【0328】
12.第2の範囲の少なくとも一部が、第3の範囲と非重複である、項目1に記載の方法。
【0329】
13.複数のセンサデータの個々のセンサデータが、フローセルから生成された画像の対応するセクションの対応する強度を含む、項目1に記載の方法。
【0330】
14.各ベースコールについて、コールされた塩基がAである確率を示す第1の品質スコアと、コールされた塩基がCである確率を示す第2の品質スコアと、コールされた塩基がTである確率を示す第3の品質スコアと、コールされた塩基がGである確率を示す第4の品質スコアと、を割り当てるために、ベースコーラーおける複数の正規化されたセンサデータを処理するステップ
を更に含む、項目1に記載の方法。
【0331】
15.第1の品質スコア、第2の品質スコア、第3の品質スコア、及び第4の品質スコアを含む複数の品質スコアを割り当てるステップと、
複数の品質スコアの少なくともサブセットの各々を、対応する再マッピングされた品質スコアに再マッピングするステップと
を更に含む、項目14に記載の方法。
【0332】
16.複数の再マッピングされた品質スコアの各々を、複数の量子化され再マッピングされた品質スコアのうちの対応する1つに量子化するステップ
を更に含む、項目15に記載の方法。
【0333】
17.コンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、コンピュータプログラム命令が、プロセッサ上で実行されると、
フローセルから複数の強度値を受信するステップであって、個々の強度値が、フローセルのターゲットクラスタ、又はターゲットクラスタのすぐ近傍を示し、ターゲットクラスタが、未知の検体でポピュレートされる、ステップと、
複数の強度値の少なくとも閾値割合を含む第2の範囲を識別するステップと、
複数の強度値の閾値割合を、第2の範囲とは異なる第3の範囲にマッピングするステップと、
マッピングするステップに続いて、未知の検体が、A、C、T、又はGである尤度を生成するために、複数の強度値の閾値割合を処理するステップと
を含む方法を実施する、非一時的コンピュータ可読記憶媒体。
【0334】
18.第2の範囲が、第1の範囲内に完全に包含される、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0335】
19.第1の範囲内の1つ以上の外れ値強度値が、複数の強度値の閾値割合に存在しない、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0336】
20.第2の範囲を識別するステップが、
第1の範囲内で、複数の強度値の低い閾値割合が、低値よりも低い値になるように、低値を識別するステップと、
第1の範囲内で、複数の強度値の高い閾値割合が、高値よりも高い値になるように、高値を識別するステップであって、閾値割合が、低い閾値割合と高い閾値割合との合計である、ステップと
を含み、
第2の範囲が、低値及び高値によって画定される、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0337】
21.低い閾値割合又は高い閾値割合のうちの少なくとも一方が、0.5%以下である、項目20に記載の非一時的コンピュータ可読記憶媒体。
【0338】
22.低い閾値割合及び高い閾値割合の各々が、1.0%以下である、項目20に記載の非一時的コンピュータ可読記憶媒体。
【0339】
23.(i)低値よりも低い複数の強度値のうちの第1の外れ値強度値、及び(ii)高値よりも高い複数の強度値のうちの第2の外れ値強度値を識別するステップと、
マッピングするステップの前に、低値を第1の外れ値強度値に割り当て、高値を第2の外れ値強度値に割り当てるステップであって、第1の外れ値強度値及び第2の外れ値強度値が、割り当ての後に第2の範囲内にあるようにする、ステップと
を更に含む、項目20に記載の非一時的コンピュータ可読記憶媒体。
【0340】
24.(i)低値よりも低い複数の強度値のうちの第1の外れ値強度値、及び(ii)高値よりも高い複数の強度値のうちの第2の外れ値強度値を識別するステップと、
第1の外れ値強度値及び第2の外れ値強度値が、第3の範囲にマッピングされないように、第2の範囲外であるために、マッピングするステップ中に複数の強度値のサブセットから第1の外れ値強度値及び第2の外れ値強度値を除外するステップと
を更に含む、項目20に記載の非一時的コンピュータ可読記憶媒体。
【0341】
25.マッピングするステップが、
第1の強度値を、第2の範囲内にある第1の値から第3の範囲内にある第2の値にマッピングするステップと、
第2の強度値を、第2の範囲内にある第3の値から第3の範囲内にある第4の値にマッピングするステップと
を含む、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0342】
26.第2の範囲の少なくとも一部が、第3の範囲と非重複である、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0343】
27.ベースコールのためのシステムであって、
検体のセットの元の強度発光を示す画像を記憶するメモリであって、元の強度発光が、配列決定実行の配列決定サイクル中に検体のセット中の検体によって生成される、メモリと、
再マッピングされた強度発光が元の強度発光に対して異なる強度値を有するように、元の強度発光を受信し、元の強度発光を再マッピングして再マッピングされた強度発光を生成するように構成される正規化モジュールと、
再マッピングされた強度発光を処理して、検体のセットに対するベースコールを生成するように構成されるベースコーラーと
を備える、システム。
【0344】
項目セット2(品質スコア再マッピング)
1.ベースコーラーによって生成された品質スコアを較正するコンピュータ実施方法であって、
複数の確率スコアを生成するために、ベースコーラーにおけるセンサデータを処理するステップであって、塩基がA、C、T、又はGのうちの対応する1つである対応する尤度を、複数の確率スコアの各々が識別する、ステップと、
各確率スコアを、対応する品質スコアに変換し、それによって、複数の確率スコアに対応する複数の品質スコアを生成するステップであって、塩基がA、C、T、又はGのうちの対応する1つである対応する尤度を、複数の品質スコアの各々が、対数目盛で示す、ステップと、
対応する複数の再マッピングされた品質スコアを生成するために、複数の品質スコアのうちの1つ以上を再マッピングするステップと
を含む、コンピュータ実施方法。
【0345】
2.複数の品質スコアのうちの第1の品質スコアが、複数の再マッピングされた品質スコアのうちの第1の再マッピングされた品質スコアに再マッピングされ、
第1の品質スコアが、対応する第1の塩基がXである第1の尤度を示し、Xが、A、C、T、及びGのうちの1つであり、
第1の再マッピングされた品質スコアが、対応する第1の塩基がXである第1の再マッピングされた尤度を示し、
対応する第1の塩基がXである経験的に決定された尤度に対する、第1の再マッピングされた尤度の位置合わせと比較して、第1の再マッピングされた尤度が、経験的に決定された尤度により多く位置合わせされる、項目1に記載の方法。
【0346】
3.第1の品質スコアが、対数スケールで第1の尤度を示し、第1の再マッピングされた品質スコアが、対数スケールで第1の再マッピングされた尤度を示す、項目2に記載の方法。
【0347】
4.第1の再マッピングされた尤度と経験的に決定された尤度との間の差が、第1の尤度と経験的に決定された尤度との間の差よりも小さい、項目2に記載の方法。
【0348】
5.再マッピングするステップが、
複数の品質スコアのうちの第1の品質スコアが第1の再マッピングされた品質スコアに再マッピングすることを、ルックアップテーブル(LUT)から、識別するステップと、
第1の再マッピングされた品質スコアを第1の品質スコアに割り当て、それによって、第1の品質スコアを複数の再マッピングされた品質スコアのうちの第1の再マッピングされた品質スコアに再マッピングするステップと
を含む、項目1に記載の方法。
【0349】
6.再マッピングするステップが、
複数の品質スコアのうちの1つ以上を再マッピングして、対応する複数の再マッピングされた品質スコアを生成するために、ルックアップテーブル(LUT)を使用するステップ
を含む、項目1に記載の方法。
【0350】
7.LUTが、1つ以上の品質スコアについて、対応する1つ以上の再マッピングされた品質スコアを識別する、項目6に記載の方法。
【0351】
8.各確率スコアを、対応する品質スコアに変換するステップが、
式:Q=-10×log10(1-P)を使用することによって、確率スコアPを対応する品質スコアQに変換するステップ
を含む、項目1に記載の方法。
【0352】
9.複数の品質スコアに関連付けられた信頼レベルに対してベースコールにおける信頼レベルの正確な指示を提供する、複数の再マッピングされた品質スコアを報告するステップ
を更に含む、項目1に記載の方法。
【0353】
10.複数のグループのうちの第1のグループが、複数の再マッピングされた品質スコアの第1のサブセットを含み、複数のグループのうちの第2のグループが、複数の再マッピングされた品質スコアの第2のサブセットを含むように、複数の再マッピングされた品質スコアの各々を複数のグループのうちの対応する1つに含めるステップと、
第1のグループに含まれる複数の再マッピングされた品質スコアの第1のサブセットの各々に、第1の量子化された品質スコアを割り当てるステップと、
第2のグループに含まれる複数の再マッピングされた品質スコアの第2のサブセットの各々に、第2の量子化された品質スコアを割り当てるステップと
を更に含む、項目1に記載の方法。
【0354】
11.複数の再マッピングされた品質スコアの各々を複数のグループのうちの対応する1つに含めるステップが、
複数のグループの各グループに、再マッピングされた品質スコアの対応する範囲を割り当てるステップと、
第1の再マッピングされた品質スコアが第1のグループに割り当てられた第1の範囲内にあることに応答して、第1の再マッピングされた品質スコアを第1のグループに含めるステップと、
第2の再マッピングされた品質スコアが第2のグループに割り当てられた第2の範囲内にあることに応答して、第2の再マッピングされた品質スコアを第2のグループに含めるステップと
を含む、項目10に記載の方法。
【0355】
12.複数の量子化された品質スコアを生成するために、複数の再マッピングされた品質スコアの各々を量子化するステップ
を更に含む、項目1に記載の方法。
【0356】
13.センサデータを処理するステップが、
ベースコールの配列を生成するために、ベースコーラーにおいてセンサデータを処理するステップと、
(i)ベースコールの配列内の第1のベースコール配列、及び(ii)ベースコールの配列内の第2のベースコール配列を識別し、第2のベースコール配列が特定の塩基配列パターンを有することを更に識別するステップと
を含み、
複数の品質スコアのうちの1つ以上を再マッピングするステップが、第2のベースコール配列が特定の塩基配列パターンを有することを識別するステップに応答して、
(i)第1のベースコール配列の各塩基、及び(ii)第2のベースコール配列の塩基の第1のサブセット、に関連付けられた品質スコアを再マッピングするために、第1のルックアップテーブル(LUT)を使用するステップと、
第2のベースコール配列の塩基の第2のサブセットに関連付けられた品質スコアを再マッピングするために、第2のLUTを使用するステップと
を含む、項目1に記載の方法。
【0357】
14.第1のベースコール配列の第1の塩基、第2のベースコール配列の塩基の第1のサブセットの第2の塩基、及び第2のベースコール配列の塩基の第2のサブセットの第3の塩基の各々が、Q1の品質スコアを有し、
第1のベースコール配列の第1の塩基、及び第2のベースコール配列の塩基の第1のサブセットの第2の塩基の各々が、第1のLUTを使用して、Q2の再マッピングされた品質スコアに再マッピングされ、
第2のベースコール配列の塩基の第2のサブセットの第3の塩基が、第2のLUTを使用して、Q3の再マッピングされた品質スコアに再マッピングされ、
Q2の再マッピングされた品質スコア、Q3の再マッピングされた品質スコア、及びQ1の品質スコアが、互いに異なる、項目13に記載の方法。
【0358】
15.第2のベースコール配列の塩基の第2のサブセットが、第2のベースコール配列の塩基のうちの中央塩基を含み、
第2のベースコール配列の塩基の第1のサブセットが、第2のベースコール配列の塩基のうちの中央塩基を除く、第2のベースコール配列の全ての塩基を含む、項目13に記載の方法。
【0359】
16.第1のLUTが、第2のベースコール配列の中央塩基を除く、全ての塩基の品質スコアに適用可能な汎用LUTであり、
第2のLUTが、第2のベースコール配列の中央塩基の品質スコアに特に適用可能な塩基配列特異的LUTである、項目13に記載の方法。
【0360】
17.特定の塩基配列パターンが、ホモポリマーパターン又は隣接ホモポリマーパターンを含む、項目13に記載の方法。
【0361】
18.特定の塩基配列パターンが、5つの塩基を含み、少なくとも最初と最後の塩基がGである、項目13に記載の方法。
【0362】
19.特定の塩基配列パターンが、少なくとも5つの塩基を含み、特定の塩基配列パターンの少なくとも3つの塩基が、Gである、項目13に記載の方法。
【0363】
20.特定の塩基配列パターンが、GGXGG、GXGGG、GGGXG、GXXGG、GGXXGのいずれかを含み、Xが、A、C、T、又はGのいずれかである、項目13に記載の方法。
【0364】
21.特定の塩基配列パターンが、少なくとも5つの塩基を含み、特定の塩基配列パターンの少なくとも3つの塩基が、センサデータ内の暗周期に関連付けられる、項目13に記載の方法。
【0365】
22.コンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、コンピュータプログラム命令が、プロセッサ上で実行されると、
複数の出力を生成するためにベースコーラーを通して複数の検体についてのセンサデータを処理するステップであって、複数の出力の各々が、A、C、T、又はGのうちの対応する1つである検体のうちの特定の1つに組み込まれた塩基の対応する尤度を識別する、ステップと、
対応する複数の再マッピングされた出力を生成するために、複数の出力のうちの1つ以上を再マッピングするステップと
を含む方法を実施する、非一時的コンピュータ可読記憶媒体。
【0366】
23.
複数の出力のうちの第1の出力が、対応する第1の検体がA、C、T、又はGのうちの1つである第1の尤度を提供し、
対応する第1の検体がA、C、T、又はGのうちの1つである第2の尤度を提供する第1の再マッピングされた出力を生成するために、第1の出力が、再マッピングされ、
第1の尤度が、第2の尤度と異なる、項目22に記載の非一時的コンピュータ可読記憶媒体。
【0367】
24.第1の出力、及び第1の再マッピングされた出力の各々が、第1の尤度、及び第1の再マッピングされた尤度を対数目盛でそれぞれ表す、項目23に記載の非一時的コンピュータ可読記憶媒体。
【0368】
25.第2の尤度が、第1の尤度と、経験的に決定された尤度との位置合わせよりも、経験的に決定された尤度と良好に位置合わせされ、
経験的に決定された尤度が、対応する第1の検体がA、C、T、又はGのうちの1つである経験的に決定された尤度である、項目23に記載の非一時的コンピュータ可読記憶媒体。
【0369】
26.再マッピングするステップが、
複数の出力のうちの第1の出力が第1の再マッピングされた出力に再マッピングされることであることを、ルックアップテーブル(LUT)から識別するステップと、
LUTに基づいて、第1の出力を第1の再マッピングされた出力に修正するステップと
を含む、項目22に記載の非一時的コンピュータ可読記憶媒体。
【0370】
27.複数の量子化された出力を生成するために、複数の再マッピングされた出力の各々を量子化するステップ
を更に含む、項目22に記載の非一時的コンピュータ可読記憶媒体。
【0371】
28.コンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、コンピュータプログラム命令が、プロセッサ上で実行されると、
ベースコールの配列、及びベースコールの配列の塩基に関連付けられた複数の品質スコアを予測するために、配列決定マシンのフローセルのセンサデータを処理するステップと、
(i)ベースコールの配列内の第1のベースコール配列、及び(ii)ベースコールの配列内の第2のベースコール配列を識別し、第2のベースコール配列が特定の塩基配列パターンを有することを更に識別するステップと、
対応する複数の再マッピングされた品質スコアを生成するために、複数の品質スコアを再マッピングするステップであって、再マッピングするステップが、第2のベースコール配列が特定の塩基配列パターンを有することを識別するステップに応答して、
(i)第1のベースコール配列の各塩基、及び(ii)第2のベースコール配列の塩基の第1のサブセット、に関連付けられた品質スコアを再マッピングするために、第1のルックアップテーブル(LUT)を使用するステップと、
第2のベースコール配列の塩基の第2のサブセットに関連付けられた品質スコアを再マッピングするために、第2のLUTを使用するステップと
を含む方法を実施する、非一時的コンピュータ可読記憶媒体。
【0372】
29.第1のベースコール配列の第1の塩基、第2のベースコール配列の塩基の第1のサブセットの第2の塩基、及び第2のベースコール配列の塩基の第2のサブセットの第3の塩基の各々が、Q1の品質スコアを有し、
第1のベースコール配列の第1の塩基、及び第2のベースコール配列の塩基の第1のサブセットの第2の塩基の各々が、第1のLUTを使用して、Q2の再マッピングされた品質スコアに再マッピングされ、
第2のベースコール配列の塩基の第2のサブセットの第3の塩基が、第2のLUTを使用して、Q3の再マッピングされた品質スコアに再マッピングされ、
Q2の再マッピングされた品質スコア、Q3の再マッピングされた品質スコア、及びQ1の品質スコアが、互いに異なる、項目28に記載の非一時的コンピュータ可読記憶媒体。
【0373】
30.第2のベースコール配列の塩基の第2のサブセットが、第2のベースコール配列の塩基のうちの中央塩基を含み、
第2のベースコール配列の塩基の第1のサブセットが、第2のベースコール配列の塩基のうちの中央塩基を除く、第2のベースコール配列の全ての塩基を含む、項目29に記載の非一時的コンピュータ可読記憶媒体。
【0374】
31.第1のLUTが、第2のベースコール配列の中央塩基を除く、全ての塩基の品質スコアに適用可能な汎用LUTであり、
第2のLUTが、第2のベースコール配列の中央塩基の品質スコアに特に適用可能な塩基配列特異的LUTである、項目28に記載の非一時的コンピュータ可読記憶媒体。
【0375】
32.特定の塩基配列パターンが、ホモポリマーパターン又は隣接ホモポリマーパターンを含む、項目28に記載の非一時的コンピュータ可読記憶媒体。
【0376】
33.特定の塩基配列パターンが、5つの塩基を含み、少なくとも最初と最後の塩基がGである、項目28に記載の非一時的コンピュータ可読記憶媒体。
【0377】
34.特定の塩基配列パターンが、少なくとも5つの塩基を含み、特定の塩基配列パターンの少なくとも3つの塩基が、Gである、項目28に記載の非一時的コンピュータ可読記憶媒体。
【0378】
35.特定の塩基配列パターンが、GGXGG、GXGGG、GGGXG、GXXGG、GGXXGのいずれかを含み、Xが、A、C、T、又はGのいずれかである、項目28に記載の非一時的コンピュータ可読記憶媒体。
【0379】
36.特定の塩基配列パターンが、少なくとも5つの塩基を含み、特定の塩基配列パターンの少なくとも3つの塩基が、センサデータ内の暗周期に関連付けられる、項目28に記載の非一時的コンピュータ可読記憶媒体。
【0380】
37.コンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、コンピュータプログラム命令が、プロセッサ上で実行されると、方法が、
複数の品質スコアを生成するために、フローセルによって生成されたセンサデータを処理するステップであって、複数の品質スコアの各品質スコアが、コールされる対応する塩基がA、C、T、又はGのうちの対応する1つである確率を示す、ステップと、
対応する個々の修正された品質スコアを生成するために、個々の品質スコアを修正し、それによって、複数の修正された品質スコアを生成するステップと
を含む、ベースコールを生成するための方法を実施する非一時的コンピュータ可読記憶媒体。
【0381】
項目セット3(特定の塩基配列に対する損失ペナルティ付与)
1.ベースコールに使用されるニューラルネットワークモデルを訓練するコンピュータ実施方法であって、
ベースコーラーのニューラルネットワークモデルの訓練フェーズ中に、ベースコールを予測するために、ニューラルネットワークモデルのフォワードパスセクションにおいてセンサデータを処理するステップと、
予測されたベースコール及びグランドトゥルースベースコールに基づいて、損失関数を生成するステップと、
ペナルティ付与された損失関数を生成するために、特定の塩基配列を示すグランドトゥルースベースコールに少なくとも部分的に基づいて、損失関数にペナルティを付与するステップと、
ニューラルネットワークモデルのバックプロパゲーションセクションにおいて、ニューラルネットワークモデルの重みを適応させるために、ペナルティ付与された損失関数を処理し、それによって、ベースコールのためにニューラルネットワークモデルを訓練するステップと
を含む、コンピュータ実施方法。
【0382】
2.グランドトゥルースベースコールから、(i)第1の塩基、及び(ii)第1の塩基に隣接する1つ以上の第2の塩基、を有する特定の塩基配列を識別するステップ
を更に含み、
損失関数にペナルティを付与するステップが、
(i)第1の塩基に関連付けられた損失関数の第1の要素に第1のペナルティを、(ii)第1の塩基に隣接する1つ以上の第2の塩基にそれぞれ関連付けられた損失関数の1つ以上の第2の要素の各々に、第1のペナルティとは異なる第2のペナルティを、ペナルティ付与するステップを含む、項目1に記載の方法。
【0383】
3.グランドトゥルースベースコールから、特定塩基配列に含まれない1つ以上の第3の塩基を識別するステップ
を更に含み、
損失関数にペナルティを付与するステップが、
1つ以上の第3の塩基にそれぞれ関連付けられた、損失関数の1つ以上の第3の要素の各々に、第2ペナルティをペナルティ付与するステップを含む、項目2に記載の方法。
【0384】
4.第1のペナルティが、第2のペナルティより大きい、項目2に記載の方法。
【0385】
5.第2のペナルティが、1の値を有する、項目2に記載の方法。
【0386】
6.第1のペナルティが、1と異なる値を有する、項目2に記載の方法。
【0387】
7.第1のペナルティが、1より大きい値を有する、項目2に記載の方法。
【0388】
8.第1のペナルティが、第2のペナルティの少なくとも2倍である、項目2に記載の方法。
【0389】
9.損失関数にペナルティを付与するステップが、
対応するペナルティを有する損失関数の複数の個々の要素を含む、項目1に記載の方法。
【0390】
10.損失関数にペナルティを付与するステップが、
ペナルティ行列の対応する個々の要素を有する損失関数行列の複数の個々の要素を含む、項目1に記載の方法。
【0391】
11.特定の塩基配列が、GGXGGを含み、Xが、A、C、T、又はGのいずれかである、項目1に記載の方法。
【0392】
12.特定の塩基配列が、ホモポリマーパターン又は隣接ホモポリマーパターンを含む、項目1に記載の方法。
【0393】
13.特定の塩基配列が、5つの塩基を含み、少なくとも最初及び最後の塩基がGである、項目1に記載の方法。
【0394】
14.特定の塩基配列が、少なくとも5つの塩基を含み、特定の塩基配列パターンの少なくとも3つの塩基が、Gである、項目1に記載の方法。
【0395】
15.特定の塩基配列が、GGXGG、GXGGG、GGGXG、GXXGG、GGXXGのいずれかを含み、Xが、A、C、T、又はGのいずれかである、項目1に記載の方法。
【0396】
16.ペナルティ付与された損失関数を処理するステップが、
入力勾配を生成するために、ペナルティ付与された損失関数を処理するステップであって、入力勾配が、ニューラルネットワークモデルの重みを適応させるために使用され、それによって、ベースコールのためにニューラルネットワークモデルを訓練する、ステップ、を含む、項目1に記載の方法。
【0397】
17.コンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、コンピュータプログラム命令が、プロセッサ上で実行されると、方法が、
ベースコーラーのニューラルネットワークモデルの訓練フェーズ中に、ベースコールを予測するために、ニューラルネットワークモデルのフォワードパスセクションにおいてセンサデータを処理するステップと、
予測されたベースコール及びグランドトゥルースベースコールに基づいて、損失関数を生成するステップと、
ペナルティ付与された損失関数を生成するために、特定の塩基配列を示すグランドトゥルースベースコールに少なくとも部分的に基づいて、損失関数にペナルティを付与するステップと、
ニューラルネットワークモデルのバックプロパゲーションセクションにおいて、ニューラルネットワークモデルの重みを適応させるために、ペナルティ付与された損失関数を処理し、それによって、ベースコールのためにニューラルネットワークモデルを訓練するステップと
を含む、ベースコールのために使用されるニューラルネットワークモデルを訓練する方法を実施する非一時的コンピュータ可読記憶媒体。
【0398】
18.
グランドトゥルースベースコールから、(i)第1の塩基、及び(ii)第1の塩基に隣接する1つ以上の第2の塩基、を有する特定の塩基配列を識別するステップ
を更に含み、
損失関数にペナルティを付与するステップが、
(i)第1の塩基に関連付けられた損失関数の第1の要素に第1のペナルティを、(ii)第1の塩基に隣接する1つ以上の第2の塩基にそれぞれ関連付けられた、損失関数の1つ以上の第2の要素の各々に、第1のペナルティとは異なる第2のペナルティを、ペナルティ付与するステップを含む、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0399】
19.
グランドトゥルースベースコールから、特定塩基配列に含まれない1つ以上の第3の塩基を識別するステップ
を更に含み、
損失関数にペナルティを付与するステップが、
1つ以上の第3の塩基にそれぞれ関連付けられた損失関数の1つ以上の第3の要素の各々に、第2ペナルティをペナルティ付与するステップを含む、項目18に記載の非一時的コンピュータ可読記憶媒体。
【0400】
20.第1のペナルティが、第2のペナルティよりも高い、項目18に記載の非一時的コンピュータ可読記憶媒体。
【0401】
21.第2のペナルティが、1の値を有する、項目18に記載の非一時的コンピュータ可読記憶媒体。
【0402】
22.第1のペナルティが、1と異なる値を有する、項目21に記載の非一時的コンピュータ可読記憶媒体。
【0403】
23.第1のペナルティが、1より大きい値を有する、項目21に記載の非一時的コンピュータ可読記憶媒体。
【0404】
24.第1のペナルティが、第2のペナルティの少なくとも2倍である、項目21に記載の非一時的コンピュータ可読記憶媒体。
【0405】
25.損失関数にペナルティを付与するステップが、
対応するペナルティを有する損失関数の複数の個々の要素を含む、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0406】
26.損失関数にペナルティを付与するステップが、
ペナルティ行列の対応する個々の要素を有する損失関数行列の複数の個々の要素を含む、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0407】
27.特定の塩基配列が、GGXGGを含み、Xが、A、C、T、又はGのいずれかである、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0408】
28.特定の塩基配列が、ホモポリマーパターン又は隣接ホモポリマーパターンを含む、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0409】
29.特定の塩基配列が、5つの塩基を含み、少なくとも最初及び最後の塩基が、Gである、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0410】
30.特定の塩基配列が、少なくとも5つの塩基を含み、特定の塩基配列パターンの少なくとも3つの塩基が、Gである、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0411】
31.特定の塩基配列が、GGXGG、GXGGG、GGGXG、GXXGG、GGXXGのいずれかを含み、Xが、A、C、T、又はGのいずれかである、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0412】
32.ペナルティ付与された損失関数を処理するステップが、
入力勾配を生成するために、ペナルティ付与された損失関数を処理するステップであって、入力勾配が、ニューラルネットワークモデルの重みを適応させるために使用され、それによって、ベースコールのためにニューラルネットワークモデルを訓練する、ステップ、を含む、項目17に記載の非一時的コンピュータ可読記憶媒体。
【0413】
33.ベースコールのためのシステムであって、
センサデータを記憶するメモリと、
センサデータに基づいて塩基をコールするように構成されるニューラルネットワークモデルを備えるベースコーラーであって、ニューラルネットワークモデルが、
ベースコールを予測するために、センサデータを処理するように構成されるフォワードパスセクションと、
損失関数を生成するために、予測されたベースコールとグランドトゥルースベースコールとを比較するように構成される損失生成モジュールと、
ペナルティを付与された損失関数を生成するために、損失関数に選択的にペナルティを付与するように構成される損失ペナルティ付与モジュールと、
ペナルティを付与された損失関数を処理して、ニューラルネットワークモデルの重みの適応を容易にし、それによって、ベースコールのためにニューラルネットワークモデルを訓練するバックプロパゲーションセクションと
を備える、ベースコーラーと
を備える、システム。
【0414】
我々は以下のように特許請求する。
【手続補正書】
【提出日】2024-02-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ベースコーラーによってベースコールを生成するコンピュータ実施方法であって、
フローセル
の領域内の複数のクラスタから
、異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタを表す複数のセンサデータを受信するステップであって、前記複数のセンサデータが第1の範囲内にある、ステップと、
第2の範囲を識別するステップであって、前記複数のセンサデータのうちの少なくとも閾値割合が、前記第2の範囲内にあるようにする、ステップと、
前記第2の範囲内にあ
り、前記フローセルの前記領域から、異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタのサブセットを表す、前記複数のセンサデータの少なくともサブセットを、第3の範囲にマッピングし、それによって、
前記複数のクラスタのうちのターゲットクラスタについて複数の正規化されたセンサデータを生成するステップと、
前記
ターゲットクラスタについて、
ベースコール
、及び前記ベースコールに対応する複数の品質スコアを決定するために、前記複数の正規化されたセンサデータをベースコーラーにおいて処理するステップと
、
前記複数の品質スコアの少なくともサブセットの各々を、前記ベースコールの再マッピングされた品質スコアに再マッピングするステップと
を含む、コンピュータ実施方法。
【請求項2】
前記第2の範囲が、前記第1の範囲内に完全に包含される、請求項1に記載の
コンピュータ実施方法。
【請求項3】
前記第1の範囲内の1つ以上の外れ値センサデータが、前記第2の範囲のセンサデータに存在しない、請求項1又は2に記載の
コンピュータ実施方法。
【請求項4】
前記第2の範囲を識別するステップが、
前記第1の範囲内で、前記複数のセンサデータの低い閾値割合が、低値よりも低い値になるように、前記低値を識別するステップと、
前記第1の範囲内で、前記複数のセンサデータの高い閾値割合が、高値よりも高い値になるように、前記高値を識別するステップと
を含み、
前記第2の範囲が、前記低値及び前記高値によって画定される、請求項1~3のいずれか一項に記載の
コンピュータ実施方法。
【請求項5】
前記低い閾値割合又は前記高い閾値割合のうちの少なくとも一方が、0.5%以下である、請求項4に記載の
コンピュータ実施方法。
【請求項6】
前記低い閾値割合又は前記高い閾値割合のうちの少なくとも一方が、1.0%以下である、請求項4に記載の
コンピュータ実施方法。
【請求項7】
前記低い閾値割合及び前記高い閾値割合の各々が、0.5%以下である、請求項4~6のいずれか一項に記載の
コンピュータ実施方法。
【請求項8】
前記低い閾値割合及び前記高い閾値割合の各々が、1%以下である、請求項4~6のいずれか一項に記載の
コンピュータ実施方法。
【請求項9】
(i)
前記低値よりも低い異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタを表す前記複数のセンサデータのうちの第1の外れ値センサデータ、及び(ii)
前記高値よりも高い異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタを表す前記複数のセンサデータのうちの第2の外れ値センサデータを識別するステップと、
前記マッピングするステップの前に、前記低値を前記第1の外れ値センサデータに割り当て、前記高値を前記第2の外れ値センサデータに割り当てるステップであって、前記第1の外れ値センサデータ及び前記第2の外れ値センサデータが、前記割り当ての後に前記第2の範囲内にあるようにする、ステップと
を更に含む、請求項4~8のいずれか一項に記載の
コンピュータ実施方法。
【請求項10】
(i)
前記低値よりも低い異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタを表す前記複数のセンサデータのうちの第1の外れ値センサデータ、及び(ii)
前記高値よりも高い異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタを表す前記複数のセンサデータのうちの第2の外れ値センサデータを識別するステップと、
前記第1の外れ値センサデータ及び前記第2の外れ値センサデータが、前記第3の範囲にマッピングされないように、前記第2の範囲外であるために、前記マッピングするステップ中に
異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタの前記サブセットを表す前記複数のセンサデータの前記サブセットから前記第1の外れ値センサデータ及び前記第2の外れ値センサデータを除外するステップと
を更に含む、請求項4~9のいずれか一項に記載の
コンピュータ実施方法。
【請求項11】
異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタの前記サブセットを表す前記複数のセンサデータの少なくともサブセットをマッピングするステップが、
前記サブセット内の第1のセンサデータを、前記第2の範囲内にある第1の値から前記第3の範囲内にある第2の値にマッピングするステップと、
前記サブセット内の第2のセンサデータを、前記第2の範囲内にある第3の値から前記第3の範囲内にある第4の値にマッピングするステップと
を含む、請求項1~10のいずれか一項に記載の
コンピュータ実施方法。
【請求項12】
異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタを表す前記複数のセンサデータの個々のセンサデータが、前記フローセルから生成された画像の対応するセクションの対応する強度を含む、請求項1~
11のいずれか一項に記載の
コンピュータ実施方法。
【請求項13】
前記ターゲットクラスタについてコールされた対応する塩基に、
対応する塩基がAである
第1の確率を示す第1の品質スコアと、
対応する塩基がCである
第2の確率を示す第2の品質スコアと、
対応する塩基がTである
第3の確率を示す第3の品質スコアと、
対応する塩基がGである
第4の確率を示す第4の品質スコアと、を割り当てるために、ベースコーラーにおける前記複数の正規化されたセンサデータを処理するステップ
を更に含む、請求項1~
12のいずれか一項に記載の
コンピュータ実施方法。
【請求項14】
前記ベースコールに対応する前記複数の品質スコアが、前記第1の品質スコア、前記第2の品質スコア、前記第3の品質スコア、及び前記第4の品質スコアを
含む、請求項
13に記載の
コンピュータ実施方法。
【請求項15】
複数の再マッピングされた品質スコアの各々を、複数の量子化され再マッピングされた品質スコアのうちの対応する1つに量子化するステップ
を更に含む、請求項
14に記載の
コンピュータ実施方法。
【請求項16】
コンピュータプログラム命令を備える非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令が、プロセッサ上で実行されると、コンピュータデバイスに、
フローセルの領域内の複数のクラスタから、異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタを表す複数のセンサデータを受信することであって、前記複数のセンサデータが第1の範囲内にある、受信することと、
第2の範囲を識別することであって、前記複数のセンサデータのうちの少なくとも閾値割合が、前記第2の範囲内にあるようにする、識別することと、
前記第2の範囲内にあり、前記フローセルの前記領域から、異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタのサブセットを表す、前記複数のセンサデータの少なくともサブセットを、第3の範囲にマッピングし、それによって、前記複数のクラスタのうちのターゲットクラスタについて複数の正規化されたセンサデータを生成することと、
前記ターゲットクラスタについて、ベースコール、及び前記ベースコールに対応する複数の品質スコアを決定するために、前記複数の正規化されたセンサデータをベースコーラーにおいて処理することと、
前記複数の品質スコアの少なくともサブセットの各々を、前記ベースコールの再マッピングされた品質スコアに再マッピングすることと
を実施させる、非一時的コンピュータ可読記憶媒体。
【請求項17】
前記第2の範囲を識別することが、
前記第1の範囲内で、前記複数のセンサデータの低い閾値割合が、低値よりも低い値になるように、前記低値を識別することと、
前記第1の範囲内で、前記複数のセンサデータの高い閾値割合が、高値よりも高い値になるように、前記高値を識別することであって、前記第2の範囲が、前記低値及び前記高値によって画定される、識別することと
を含む、請求項16に記載の非一時的コンピュータ可読記憶媒体。
【請求項18】
前記プロセッサ上で実行されると、前記コンピュータデバイスに、複数の再マッピングされた品質スコアの各々を複数の量子化され再マッピングされた品質スコアのうちの対応する1つに量子化させるコンピュータプログラム命令を更に備える、請求項17に記載の非一時的コンピュータ可読記憶媒体。
【請求項19】
システムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
フローセルの領域内の複数のクラスタから、異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタを表す複数のセンサデータを受信することであって、前記複数のセンサデータが第1の範囲内にある、受信することと、
第2の範囲を識別することであって、前記複数のセンサデータのうちの少なくとも閾値割合が、前記第2の範囲内にあるようにする、識別することと、
前記第2の範囲内にあり、前記フローセルの前記領域から、異なる標識を有する異なるヌクレオチド塩基を組み込む前記複数のクラスタのサブセットを表す、前記複数のセンサデータの少なくともサブセットを、第3の範囲にマッピングし、それによって、前記複数のクラスタのターゲットクラスタについて複数の正規化されたセンサデータを生成することと、
前記ターゲットクラスタについて、ベースコール、及び前記ベースコールに対応する複数の品質スコアを決定するために、前記複数の正規化されたセンサデータをベースコーラーにおいて処理することと、
前記複数の品質スコアの少なくともサブセットの各々を、前記ベースコールの再マッピングされた品質スコアに再マッピングすることと
を実施させる、命令を備える、非一時的コンピュータ可読記憶媒体と
を備える、システム。
【請求項20】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、複数の再マッピングされた品質スコアの各々を複数の量子化され再マッピングされた品質スコアのうちの対応する1つに量子化させる命令を更に備える、請求項19に記載のシステム。
【国際調査報告】