IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

特表2024-532004ベースコールのための補間及び適合による強度抽出
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-04
(54)【発明の名称】ベースコールのための補間及び適合による強度抽出
(51)【国際特許分類】
   G16B 30/00 20190101AFI20240828BHJP
   G16B 40/20 20190101ALI20240828BHJP
   G06V 20/69 20220101ALI20240828BHJP
【FI】
G16B30/00
G16B40/20
G06V20/69
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023579791
(86)(22)【出願日】2022-07-14
(85)【翻訳文提出日】2024-01-12
(86)【国際出願番号】 US2022037219
(87)【国際公開番号】W WO2023003757
(87)【国際公開日】2023-01-26
(31)【優先権主張番号】63/223,408
(32)【優先日】2021-07-19
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/511,483
(32)【優先日】2021-10-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アブデ・アリ・フナイド・カガルワーラ
(72)【発明者】
【氏名】エリック・ジョン・オジャード
(72)【発明者】
【氏名】ラミ・メヒオ
(72)【発明者】
【氏名】ギャヴィン・デレク・パーナビー
(72)【発明者】
【氏名】ニティン・ウドパ
(72)【発明者】
【氏名】ボ・ル
(72)【発明者】
【氏名】ジョン・エス・ヴィエチェリ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA14
5L096CA17
5L096EA05
5L096EA14
5L096EA33
5L096EA39
5L096FA32
5L096FA62
5L096FA66
5L096GA10
5L096GA32
5L096GA55
5L096HA11
5L096JA11
(57)【要約】
開示される技術は、ベースコールのための配列決定画像からの空間クロストークを減衰させる。開示される技術は、バイオセンサによって出力される画像のセクションにアクセスし、画像のセクションが、バイオセンサ内の複数のクラスタからの、及び複数のクラスタに隣接するバイオセンサ内の場所からの強度放射値を示す複数のピクセルを含む。複数のクラスタが、標的クラスタを含む。画像のセクションが畳み込みカーネルで畳み込まれて、対応する複数の特徴値を有する複数の特徴を含む特徴マップを生成する。重み付けされた特徴値が標的クラスタに割り当てられ、重み付けされた特徴値が特徴マップの複数の特徴値のうちの1つ以上の特徴値に基づく。標的クラスタに割り当てられた重み付けされた特徴値が、処理されて標的クラスタをベースコールする。
【特許請求の範囲】
【請求項1】
ベースコールのコンピュータ実装方法であって、前記方法は、
バイオセンサによって出力される画像のセクションにアクセスすることであって、前記画像の前記セクションが、前記バイオセンサ内の複数のクラスタからの、及び複数のクラスタに隣接する前記バイオセンサ内の場所からの強度放射値を示す複数のピクセルを含み、前記複数のクラスタが、標的クラスタを含む、アクセスすることと、
前記画像の前記セクションを畳み込みカーネルで畳み込んで、対応する複数の特徴値を有する複数の特徴を含む特徴マップを生成することと、
重み付けされた特徴値を標的クラスタに割り当てることであって、前記重み付けされた特徴値が、前記特徴マップの前記複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
前記標的クラスタに割り当てられた前記重み付けされた特徴値を処理して、前記標的クラスタをベースコールすることと、を含む、方法。
【請求項2】
前記画像の前記セクションが、前記バイオセンサのフローセルの第1の部分から生成される第1のセクションであり、前記畳み込みカーネルが、第1の畳み込みカーネルであり、前記複数のクラスタが、第1の複数のクラスタであり、前記複数のピクセルが、第1の複数のピクセルであり、前記特徴マップが、第1の特徴マップであり、前記複数の特徴値が、第1の複数の特徴値であり、前記標的クラスタが、第1の標的クラスタであり、前記重み付けされた特徴値が、第1の重み付けされた特徴値であり、前記方法が、
前記バイオセンサの前記フローセルの第2の部分によって出力される前記画像の第2のセクションにアクセスすることであって、前記画像の前記第2のセクションが、前記バイオセンサ内の第2の複数のクラスタからの、及び前記第2の複数のクラスタに隣接する前記バイオセンサ内の場所からの強度放射値を示す第2の複数のピクセルを含み、前記第2の複数のクラスタが、第2の標的クラスタを含む、アクセスすることと、
前記画像の前記第2のセクションを前記第1の畳み込みカーネルとは異なる第2の畳み込みカーネルで畳み込んで、対応する第2の複数の特徴値を有する第2の複数の特徴を含む第2の特徴マップを生成することと、
第2の重み付けされた特徴値を前記第2の標的クラスタに割り当てることであって、前記第2の重み付けされた特徴値が、前記第2の特徴マップの前記第2の複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
前記第2の標的クラスタに割り当てられた前記第2の重み付けされた特徴値を処理して、前記第2の標的クラスタをベースコールすることと、を更に含む、請求項1に記載の方法。
【請求項3】
前記バイオセンサの前記フローセルのタイルが、k×k個の部分に分割され、kが、正の整数であり、前記第1の部分及び前記第2の部分が、前記タイルの前記k×k個の部分のうちの2つの部分である、請求項2に記載の方法。
【請求項4】
全自動画像捕捉システム、線走査画像捕捉システム、及び/又は1つ以上のCMOS(相補的金属酸化物半導体)センサを使用して、前記バイオセンサ内の前記画像を捕捉することを更に含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記バイオセンサの前記フローセルのタイルが、1×k個の部分に分割され、kが、正の整数であり、前記第1の部分及び前記第2の部分が、前記タイルの前記1×k個の部分のうちの2つの部分である、請求項2に記載の方法。
【請求項6】
前記バイオセンサの前記フローセルのタイルが、複数の部分に分割され、前記複数の部分が、第1のタイプの部分及び第2のタイプの部分を含み、前記第2のタイプの部分が、前記第1のタイプの部分内に周期的にインターリーブされ、
前記第1の部分が、前記第1のタイプの部分のうちの1つであり、
前記第2の部分が、前記第2のタイプの部分のうちの1つである、請求項2~5のいずれか一項に記載の方法。
【請求項7】
前記バイオセンサの前記フローセルのタイルが、前記第1の部分、前記第2の部分、及び第3の部分を含む複数の部分に分割され、
前記フローセルの前記タイルの前記第1の部分から生成された前記画像の前記第1のセクションが、前記第1の畳み込みカーネルで畳み込まれ、
前記フローセルの前記タイルの前記第2の部分から生成された前記画像の前記第2のセクションが、前記第2の畳み込みカーネルで畳み込まれ、
前記フローセルの前記タイルの前記第3の部分から生成された前記画像の第3のセクションが、前記第1の畳み込みカーネル及び前記第2の畳み込みカーネルの各々とは異なる第3の畳み込みカーネルで畳み込まれる、請求項2~6のいずれか一項に記載の方法。
【請求項8】
前記画像の前記セクションが、フローセルの第1の部分からの第1の色チャネルについて生成される第1のセクションであり、前記畳み込みカーネルが、第1の畳み込みカーネルであり、前記複数のピクセルが、第1の複数のピクセルであり、前記特徴マップが、第1の特徴マップであり、前記複数の特徴値が、第1の複数の特徴値であり、前記重み付けされた特徴値が、第1の重み付けされた特徴値であり、前記方法が、
前記フローセルの前記第1の部分からの第2の色チャネルについて生成される前記画像の第2のセクションにアクセスすることであって、前記画像の前記第2のセクションが、前記バイオセンサ内の前記複数のクラスタからの、及び前記複数のクラスタに隣接する前記バイオセンサ内の場所からの強度放射値を示す第2の複数のピクセルを含む、アクセスすることと、
前記画像の前記第2のセクションを前記第1の畳み込みカーネルとは異なる第2の畳み込みカーネルで畳み込んで、対応する第2の複数の特徴値を有する第2の複数の特徴を含む第2の特徴マップを生成することと、
第2の重み付けされた特徴値を前記標的クラスタに割り当てることであって、前記第2の重み付けされた特徴値が、前記第2の特徴マップの前記第2の複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
前記標的クラスタに割り当てられた前記第1の重み付けされた特徴値及び前記第2の重み付けされた特徴値を処理して、前記標的クラスタをベースコールすることと、を更に含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記重み付けされた特徴値を前記標的クラスタに割り当てることが、
前記標的クラスタのサブピクセル位置又はサブ特徴位置に基づいて、前記重み付けされた特徴値を前記標的クラスタに割り当てることを含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記標的クラスタの前記サブピクセル位置が、前記標的クラスタが位置するピクセルの境界又は前記ピクセルの中心に対する前記標的クラスタの中心の位置を含む、請求項9に記載の方法。
【請求項11】
前記標的クラスタの前記サブ特徴位置が、前記標的クラスタが位置する特徴の境界又は前記特徴の中心に対する前記標的クラスタの中心の位置を含む、請求項9又は10に記載の方法。
【請求項12】
前記重み付けされた特徴値を前記標的クラスタに割り当てることが、
前記画像の前記セクション内の隣接するピクセルの座標場所に対する前記標的クラスタの中心の座標場所に基づいて、前記重み付けされた特徴値を前記標的クラスタに割り当てることを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記重み付けされた特徴値を前記標的クラスタに割り当てることが、
前記特徴マップ内の隣接する特徴の座標場所に対する前記標的クラスタの中心の座標場所に基づいて、前記重み付けされた特徴値を前記標的クラスタに割り当てることを含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記重み付けされた特徴値を前記標的クラスタに割り当てることが、
前記標的クラスタに関連付けられた1つ以上の中心間距離に基づいて、前記重み付けされた特徴値を前記標的クラスタに割り当てることを含む、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記標的クラスタに関連付けられた前記1つ以上の中心間距離を判定することであって、前記1つ以上の中心間距離が、(i)前記標的クラスタの中心と、前記画像の前記セクションの前記複数のピクセルのうちの第1のピクセルの中心との間の第1の中心間距離であって、前記標的クラスタが、前記第1のピクセル内にある、第1の中心間距離と、(ii)前記標的クラスタの前記中心と、前記複数のピクセルのうちの第2のピクセルの中心との間の第2の中心間距離であって、前記第2のピクセルが、前記画像の前記セクション内の前記第1のピクセルに隣接する、第2の中心間距離と、を含む、判定することを更に含む、請求項14に記載の方法。
【請求項16】
前記標的クラスタに関連付けられた前記1つ以上の中心間距離を判定することであって、前記標的クラスタに関連付けられた前記1つ以上の中心間距離が、(i)前記標的クラスタの中心と前記特徴マップの前記複数の特徴のうちの第1の特徴の中心との間の第1の中心間距離と、(ii)前記標的クラスタの前記中心と前記複数の特徴のうちの第2の特徴の中心との間の第2の中心間距離であって、前記第2の特徴が、前記特徴マップ内の前記第1の特徴に隣接する、第2の中心間距離と、を含む、判定することを更に含む、請求項14又は15に記載の方法。
【請求項17】
前記重み付けされた特徴値を前記標的クラスタに割り当てることが、
前記標的クラスタの中心に最も近い前記複数の特徴のうちの1つ以上の特徴を選択することと、
前記選択された1つ以上の特徴に対応する前記1つ以上の特徴値を補間して、前記重み付けされた特徴値を前記標的クラスタに割り当てることと、を含む、請求項1~16のいずれか一項に記載の方法。
【請求項18】
ベースコールを実施するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されると、
配列決定動作の複数の配列決定サイクルのうちの第1の配列決定サイクル中にフローセルによって出力される第1の画像にアクセスすることであって、前記第1の画像が、前記フローセル内の複数のクラスタからの強度放射値を示す第1の複数のピクセルを含む、アクセスすることと、
前記第1の配列決定サイクル中に出力される前記第1の画像を処理して、畳み込みカーネルの係数を更新することと、
前記配列決定動作の前記複数の配列決定サイクルのうちの第2の配列決定サイクル中に前記フローセルによって出力される第2の画像にアクセスすることであって、前記第2の画像が、前記複数のクラスタからの強度放射値を示す第2の複数のピクセルを含む、アクセスすることと、
前記第2の画像を前記畳み込みカーネルの前記更新された係数で畳み込んで、対応する複数の特徴値を有する複数の特徴を含む特徴マップを生成することと、
前記特徴マップの1つ以上の特徴の1つ以上の特徴値を補間して、標的クラスタについての重み付けされた特徴値を生成することと、
前記標的クラスタに割り当てられた前記重み付けされた特徴値を処理して、前記標的クラスタをベースコールすることと、を含む、方法を実装する、非一時的コンピュータ可読記憶媒体。
【請求項19】
係数を更新するために前記第1の画像を処理することが、
前記第1の画像内の標的クラスタのグラウンドトゥルースにアクセスすることであって、前記標的クラスタの前記グラウンドトゥルースが、関連付けられたグラウンドトゥルース特徴値を有する、アクセスすることと、
前記係数の以前の値を使用して前記第1の画像を処理することに基づいて、前記標的クラスタについての出力特徴値を生成することと、
前記グラウンドトゥルース特徴値と前記出力特徴値との間の差に基づいて、前記係数を更新することと、を含む、請求項18に記載の非一時的コンピュータ可読記憶媒体。
【請求項20】
前記畳み込みカーネルが、第1の畳み込みカーネルであり、前記第1の画像を処理することが、
(i)前記第1の配列決定サイクル中にフローセルのタイルの第1のセクションによって出力される前記第1の画像の第1のセクションを処理して、前記第1の畳み込みカーネルの係数を更新し、(ii)前記第1の配列決定サイクル中に前記タイルの第2のセクションによって出力される前記第1の画像の第2のセクションを処理して、第2の畳み込みカーネルの係数を更新することを含む、請求項18又は19に記載の非一時的コンピュータ可読記憶媒体。
【請求項21】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリは、ベースコールを実施するためのコンピュータ命令がロードされ、前記命令は、前記プロセッサ上で実行されると、
標的クラスタからの、及び前記標的クラスタに隣接する場所からの第1の色チャネル及び第2の色チャネルについての強度放射をピクセルが示す画像にアクセスすることと、
前記画像内の前記第1の色チャネルについての前記ピクセルの前記強度放射で第1のマスクを畳み込んで、第1の特徴マップを作り出し、前記画像内の前記第2の色チャネルについての前記ピクセルの前記強度放射で第2のマスクを畳み込んで、第2の特徴マップを作り出すことと、
(i)前記第1の特徴マップの1つ以上の特徴の1つ以上の特徴値を補間して、前記標的クラスタについての第1の重み付けされた特徴値を生成し、(ii)前記第2の特徴マップの1つ以上の特徴の1つ以上の特徴値を補間して、前記標的クラスタについての第2の重み付けされた特徴値を生成することと、
前記標的クラスタに割り当てられた前記第1の重み付けされた特徴値及び前記第2の重み付けされた特徴値を処理して、前記標的クラスタをベースコールすることと、を含むアクションを実装する、システム。
【請求項22】
ベースコールを実施するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されると、
バイオセンサによって出力される画像のセクションにアクセスすることであって、前記画像の前記セクションが、前記バイオセンサ内の複数のクラスタからの、及び前記複数のクラスタに隣接する前記バイオセンサ内の場所からの強度放射値を示す複数のピクセルを含み、前記複数のクラスタが、標的クラスタを含む、アクセスすることと、
前記画像の前記セクションを畳み込みカーネルで畳み込んで、対応する複数の特徴値を有する複数の特徴を含む特徴マップを生成することと、
重み付けされた特徴値を前記標的クラスタに割り当てることであって、前記重み付けされた特徴値が、前記特徴マップの前記複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
前記標的クラスタに割り当てられた前記重み付けされた特徴値を処理して、前記標的クラスタをベースコールすることと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
優先権出願
本出願は、2021年7月19日に出願された「Specialist Signal Profilers for Base Calling」と題する米国仮特許出願第63/223,408号(代理人整理番号ILLM 1041-1/IP-2063-PRV)の利益及び優先権を主張するものである。優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
【0002】
また、本出願は、2021年10月26日に出願された「Intensity Extraction with Crosstalk Attenuation Using Interpolation and Adaptation Calling」と題する米国非仮特許出願第17/511,483号(代理人整理番号ILLM 1053-1/IP-2214-US)の利益及び優先権も主張するものである。
【0003】
共同所有権の記載
35 USC§102(b)(2)(C)及びMPEP§2146.02(I)に従って、本出願人は、本出願、米国仮特許出願第63/020,449号、及び米国非仮特許出願第17/308,035号が、本出願の有効出願日までに、同じ人(Illumina,Inc.)によって所有されたか、又は同じ人(Illumina,Inc.)への譲渡の義務を受けたこと、並びに本出願で指定された出願人及び譲受人であるIllumina Software,Inc.が、Illumina,Inc.の完全に所有された子会社であることを本明細書に記載する。
【0004】
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースのシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジー論理システム)、適合システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。
【0005】
組み込み
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
【0006】
2018年3月26日に出願された「Detection Apparatus Having a Microfluorometer,a Fluidic System,and a Flow Cell Latch Clamp Module」と題する米国特許非仮出願第15/936,365号、
2019年9月11日に出願された「Flow Cells and Methods Related to Same」と題する米国特許非仮出願第16/567,224号、
2019年6月12日に出願された「Device for Luminescent Imaging」と題する米国特許非仮出願第16/439,635号、
2017年5月12日に出願された「Integrated Optoelectronic Read Head and Fluidic Cartridge Useful for Nucleic Acid Sequencing」と題する米国特許非仮出願第15/594,413号、
2019年3月12日に出願された「Illumination for Fluorescence Imaging Using Objective Lens」と題する米国特許非仮出願第16/351,193号、
2009年12月15日に出願された「Dynamic Autofocus Method and System for Assay Imager」と題する米国特許非仮出願第12/638,770号、
2013年3月1日に出願された「Kinetic Exclusion Amplification of Nucleic Acid Libraries」と題する米国特許非仮出願第13/783,043号、
2011年1月13日に出願された「Data Processing System and Methods」と題する米国特許非仮出願第13/006,206号、
2014年10月31日に出願された「Image Analysis Useful for Patterned Objects」と題する米国特許非仮出願第14/530,299号、
2014年12月3日に出願された「Methods and Systems for Analyzing Image Data」と題する米国特許非仮出願第15/153,953号、
2013年9月6日に出願された「Centroid Markers for Image Analysis of High Density Clusters In Complex Polynucleotide Sequencing」と題する米国特許非仮出願第14/020,570号、
2014年10月31日に出願された「Image Analysis Useful for Patterned Objects」と題する米国特許非仮出願第14/530,299号、
2009年9月23日に出願された「Method and System for Determining the Accuracy of DNA Base Identifications」と題する米国特許非仮出願第12/565,341号、
2007年3月30日に出願された「Systems and Devices for Sequence by Synthesis Analysis」と題する米国特許非仮出願第12/295,337号、
2008年1月28日に出願された「Image Data Efficient Genetic Sequencing Method and System」と題する米国特許非仮出願第12/020,739号、
2013年3月15日に出願された「Biosensors for Biological or Chemical Analysis and Systems and Methods for Same」と題する米国特許非仮出願第13/833,619号(代理人整理番号IP-0626-US)、
2016年6月7日に出願された「Biosensors for Biological or Chemical Analysis and Methods of Manufacturing the Same」と題する米国特許非仮出願第15/175,489号(代理人整理番号IP-0689-US)、
2013年4月26日に出願された「Microdevices and Biosensor Cartridges for Biological or Chemical Analysis and Systems and Methods for the Same」と題する米国特許非仮出願第13/882,088号(代理人整理番号IP-0462-US)、
2012年9月21日に出願された「Methods and Compositions for Nucleic Acid Sequencing」と題する米国特許非仮出願第13/624,200号(代理人整理番号IP-0538-US)、
2019年3月21日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許仮出願第62/821,602号(代理人整理番号ILLM1008-1/IP-1693-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Generation of Sequencing Metadata」と題する米国特許仮出願第62/821,618号(代理人整理番号ILLM1008-3/IP-1741-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/821,681号(代理人整理番号ILLM1008-4/IP-1744-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Quality Scoring」と題する米国特許仮出願第62/821,724号(代理人整理番号ILLM1008-7/IP-1747-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許仮出願第62/821,766号(代理人整理番号ILLM1008-9/IP-1752-PRV)、
2019年6月14日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する蘭国特許出願第2023310号(代理人整理番号ILLM1008-11/IP-1693-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Generation of Sequencing Metadata」と題する蘭国特許出願第2023311号(代理人整理番号ILLM1008-12/IP-1741-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Base Calling」と題する蘭国特許出願第2023312号(代理人整理番号ILLM1008-13/IP-1744-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Quality Scoring」と題する蘭国特許出願第2023314号(代理人整理番号ILLM1008-14/IP-1747-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Sequencing」と題する蘭国特許出願第2023316号(代理人整理番号ILLM1008-15/IP-1752-NL)、
2020年3月20日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)、
2020年3月20日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/825,991号(代理人整理番号ILLM1008-17/IP-1741-US)、
2020年3月20日に出願された「Artificial Intelligence-Based Base Calling」と題する米国特許非仮出願第16/826,126号(代理人整理番号ILLM1008-18/IP-1744-US)、
2020年3月20日に出願された「Artificial Intelligence-Based Quality Scoring」と題する米国特許非仮出願第16/826,134号(代理人整理番号ILLM1008-19/IP-1747-US)、
2020年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/826,168号(代理人整理番号ILLM1008-20/IP-1752-PRV)、
2019年5月16日に出願された「Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing」と題する米国特許仮出願第62/849,091号(代理人整理番号ILLM1011-1/IP-1750-PRV)、
2019年5月16日に出願された「Base Calling Using Convolutions」と題する米国特許仮出願第62/849,132号(代理人整理番号ILLM1011-2/IP-1750-PR2)、
2019年5月16日に出願された「Base Calling Using Compact Convolutions」と題する米国特許仮出願第62/849,133号(代理人整理番号ILLM1011-3/IP-1750-PR3)、
2020年2月20日に出願された「Artificial Intelligence-Based Base Calling of Index Sequences」と題する米国特許仮出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された「Artificial Intelligence-Based Many-To-Many Base Calling」と題する米国特許仮出願第62/979,414号(代理人整理番号ILLM1016-1/IP-1858-PRV)、
2020年2月20日に出願された「Knowledge Distillation-Based Compression of Artificial Intelligence-Based Base Caller」と題する米国特許仮出願第62/979,385号(代理人整理番号ILLM1017-1/IP-1859-PRV)、
2020年2月20日に出願された「Multi-Cycle Cluster Based Real Time Analysis System」と題する米国特許仮出願第62/979,412号(代理人整理番号ILLM1020-1/IP-1866-PRV)、
2020年2月20日に出願された「Data Compression for Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/979,411号(代理人整理番号ILLM1029-1/IP-1964-PRV)、
2020年5月5日に出願された「Equalization-Based Image Processing and Spatial Crosstalk Attenuator」と題する米国特許非仮出願第63/020,449号(代理人整理番号ILLM 1032-1/IP-1991-PRV)、
2021年5月4日に出願された「Equalization-Based Image Processing and Spatial Crosstalk Attenuator」と題する米国特許非仮出願第17/308,035号(代理人整理番号ILLM 1032-2/IP-1991-US)、及び
2020年2月20日に出願された「Squeezing Layer for Artificial Intelligence-Based Base Calling」と題する米国特許仮出願第62/979,399号(代理人整理番号ILLM1030-1/IP-1982-PRV)。
【背景技術】
【0007】
本セクションで論じられる主題は、単に本セクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、本セクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。本セクションの主題は、単に異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0008】
計算能力の急速な改善により、近年、多くのコンピュータビジョンタスクにおいて、深層畳み込みニューラルネットワーク(Convolution Neural Network、CNN)が、著しく改善された精度で、大成功を収めることが可能となった。推論段階の間、多くのアプリケーションは、厳密な電力消費要件を伴う、1つの画像の低遅延の処理を必要とし、これにより、グラフィックス処理ユニット(Graphics Processing Unit、GPU)及び他の汎用プラットフォームの効率が低下し、そのことは、特定のアクセレレーションハードウェア、例えば、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)にとっては、深層学習アルゴリズムの推論に特に効果的となるようにデジタル回路をカスタマイズすることによって、好機をもたらすこととなる。しかしながら、携帯型及び埋め込み式システムにCNNを配備することは、大きいデータ量、集中的な計算、様々なアルゴリズム構造、及び頻繁なメモリアクセスのために依然として困難である。
【0009】
畳み込みが、CNNにおけるほとんどの演算を提供するので、畳み込みアクセレレーションスキームが、ハードウェアCNNアクセラレータの効率及び性能に大きく影響することになる。畳み込みは、カーネル及び特徴マップに沿ってスライドする4つのレベルのループを伴う、積和(multiply and accumulate、MAC)演算を含む。第1のループレベルは、1つのカーネルウィンドウ内のピクセルのMACを計算する。第2のループレベルは、様々な異なる入力特徴マップにわたるMACの積の和を累積する。第1及び第2のループレベルを完了した後、バイアスを追加することにより、出力特徴マップ内の最終出力要素が得られる。第3のループレベルは、入力特徴マップ内で、カーネルウィンドウをスライドさせる。第4のループレベルは、様々な異なる出力特徴マップを発生させる。
【0010】
FPGAは、特に、推論タスクを加速化するために、より多くの関心を集め、より広く普及してきた。それは、FPGAが、(1)再構成可能性が高く、(2)CNNの急速な進化にキャッチアップするために必要な開発時間の速さという点で、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)と比較して優れており、(3)良好な性能を有し、(4)GPUと比較して、エネルギー効率が優れている、ということに起因する。FPGAの高い性能及び高い効率性は、特定の計算のためにカスタマイズされた回路を合成して、カスタマイズされたメモリシステムで数十億回の演算を直接処理することによって実現することができる。例えば、現代のFPGAにおける数百から数千のデジタル信号処理(digital signal processing、DSP)ブロックは、コア畳み込み演算、例えば、高度の並列処理を伴う積和演算をサポートする。外部オンチップメモリとオンチッププロセッシングエンジン(processing engine、PE)と間の専用データバッファは、フィールドプログラマブルゲートアレイ(FPGA)チップ上に、数十メガバイトのオンチップブロックランダムアクセスメモリ(block random access memory、BRAM)を構成することにより、優先データフローを実現するように設計することができる。
【0011】
高性能を達成するためにリソース利用を最大化しながら、データ通信を最小限に抑えるために、CNNアクセレレーションの効率的なデータフロー及びハードウェアアーキテクチャが望まれている。アクセレレーションハードウェア上の様々なCNNアルゴリズムの推論プロセスを加速化し、高い性能、高い効率、及び高い柔軟性を実現するための方法論及びフレームワークを設計するための好機が生じることとなる。CNNアルゴリズム及び他の機械学習アルゴリズムは、生物学的配列決定マシンを使用した未知のヌクレオチドのベースコール(例えば、A、C、T、又はG)を含む、様々なアプリケーション領域に適用することができる。
【0012】
生物学的又は化学的研究における様々なプロトコルは、局所支持体表面上又は所定の反応チャンバ内で多数の制御された反応を実施することを含む。次いで、所望の反応を観察又は検出することができ、その後の分析は、反応に関与する化学物質の特性を同定又は明らかにするのに役立ち得る。例えば、いくつかの多重アッセイにおいて、識別可能な標識(例えば、蛍光標識)を有する未知の分析物は、制御された条件下で何千もの既知のプローブに曝露され得る。各既知のプローブは、マイクロプレートの対応するウェル内に堆積させることができる。既知のプローブとウェル内の未知の分析物との間で起こる任意の化学反応を観察することは、分析物の特性を同定又は明らかにするのを補助することができる。そのようなプロトコルの他の例としては、合成による配列決定又は環状アレイ配列決定などの、既知のDNA配列決定プロセスが挙げられる。環状アレイ配列決定において、DNA特徴部(例えば、テンプレート核酸)の高密度アレイは、酵素的操作の反復サイクルを通して配列決定される。各サイクルの後、画像を捕捉し、続いて、他の画像を用いて分析して、DNA特徴の配列を判定することができる。
【0013】
より具体的な例として、1つの既知のDNA配列決定システムは、パイロ配列決定プロセスを使用し、数百万のウェルを有する融合光ファイバフェースプレートを有するチップを含む。目的のゲノムからクローン的に増幅されたsstDNAを有する単一捕捉ビーズを各ウェルに沈着させる。捕獲ビーズがウェル中に堆積された後、特異的ヌクレオチドを含む溶液をフェースプレートに沿って流すことによって、ヌクレオチドがウェルに連続的に添加される。ウェル内の環境は、特定のウェルを通って流れるヌクレオチドが対応する捕獲ビーズ上のDNA鎖を相補する場合、ヌクレオチドがDNA鎖に付加されるようなものである。DNA鎖のコロニーはクラスタと呼ばれる。クラスタへのヌクレオチドの取り込みは、最終的に化学発光信号を生成するプロセスを開始する。システムは、フェースプレートに直接隣接して位置決めされ、ウェル中のDNAクラスタからの光信号を検出するように構成されたCCDカメラを含む。パイロ配列決定プロセス全体を通して得られた画像のその後の分析により、目的のゲノムの配列を判定することができる。
【0014】
しかしながら、上記パイロ配列決定システムは、他のシステムに加えて、特定の制限を有し得る。例えば、光ファイバのフェースプレートは酸エッチングされ、何百万もの小さいウェルを形成する。ウェルは、互いにほぼ間隔を置いて配置され得るが、他の隣接するウェルに関してウェルの正確な場所を知ることは困難である。CCDカメラがフェースプレートに直接隣接して位置決めされる場合、ウェルはCCDカメラのピクセルに沿って均等に分布されず、したがって、ウェルはピクセルと既知の様式では位置合わせされない。空間クロストークは、隣接するウェル間のウェル間クロストークであり、対象のウェルからの真の光信号と他の不要な光信号とを後続の分析において区別することを困難にする。また、蛍光発光は実質的に等方性である。分析物の密度が増加するにつれて、隣接する分析物からの望ましくない発光(例えば、クロストーク)を管理又は説明することはますます困難になる。結果として、配列決定サイクルの間に記録されたデータは注意深く分析する必要がある。
【0015】
ベースコール精度は、高処理能力DNA配列決定及びリードマッピング及びゲノムアセンブリなどの下流分析にとって極めて重要である。隣接クラスタ間の空間クロストークは、配列決定誤差の大部分を説明する。したがって、クラスタ強度データにおける空間クロストークを補正することにより、DNA配列決定誤差を減少させ、ベースコール精度を改善する機会が生じる。
【図面の簡単な説明】
【0016】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様は、以下の図面を参照して記載される。
図1】様々な実施形態で使用することができるバイオセンサの断面図を示す。
図2】そのタイル内にクラスタを含むフローセルの一実施態様を示す。
図3】8つのレーンを有する例示的なフローセルを示し、1つのタイル及びそのクラスタ及びそれらの周囲の背景のズームインも示す。
図4】ベースコールセンサ出力など、配列決定システムからのセンサデータの分析のためのシステムの簡略ブロック図である。
図5】ホストプロセッサによって実行されるランタイムプログラムの機能を含む、ベースコール動作の態様を示す簡略図である。
図6図4の構成可能なプロセッサなど、構成可能なプロセッサの構成の簡略図である。
図7】鮮鋭化マスクを生成及び/又は更新するシステムを示す。
図8A】フローセルの対応する領域に対して生成された配列決定画像の対応するセクションに使用される複数の鮮鋭化マスクを示し、フローセルの各タイルは3×3のサブタイル領域に分割され、各サブタイル領域は、1つ以上の対応する鮮鋭化マスクを割り当てられる。
図8B】フローセルの対応する領域に対して生成された配列決定画像の対応するセクションに使用される複数の鮮鋭化マスクを示し、フローセルの各タイルは1×9のサブタイル領域に分割され、各サブタイル領域は、1つ以上の対応する鮮鋭化マスクを割り当てられる。
図8C】フローセルの対応する領域に対して生成された配列決定画像の対応するセクションに使用される複数の鮮鋭化マスクを示し、フローセルの各タイルは複数の周期的に生じるサブタイル領域に分割され、タイル内に周期的に生じる同様のサブ領域には、1つ以上の対応する鮮鋭化マスクを割り当てられる。
図9A】訓練中の誤差計算のためのグラウンドトゥルース値として使用される塩基ごとの標的を中心に含む塩基ごとのガウスフィットの一実施態様を示す。
図9B】ベースコーラーを訓練するために使用することができる適合技法の一実施態様を示す。
図10A】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10B】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10C】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10D】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10E】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10F】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10G】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10H】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10I】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10J】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図10K】訓練された鮮鋭化マスクを使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。
図11A】1つ以上の重み付けされた特徴値をクラスタに割り当てるための、配列決定画像の少なくとも1つのセクションの畳み込み及び後続の補間に基づくベースコール、並びに割り当てられた1つ以上の重み付けされた特徴値に基づくクラスタのベースコールの方法を示す。
図11B】鮮鋭化マスクを使用する開示される強度抽出技法と、ベースコールに関連付けられた様々な他の強度抽出技法の性能結果の比較を示す。
図11C】鮮鋭化マスクを使用する開示される技法と、ベースコールの様々な他の技法との他の性能結果の比較を示す。
図12】1つ以上の重み付けされた特徴値をクラスタに割り当てるための、配列決定画像の少なくとも1つのセクションの畳み込み及び後続の補間に基づくベースコール、並びに割り当てられた1つ以上の重み付けされた特徴値に付けされた特徴値に基づくクラスタのベースコールの方法を示し、鮮鋭化マスクの係数は、配列決定動作中に適合的に更新される。
図13】強度抽出に使用される鮮鋭化マスクの係数の適合を示す。
図14】鮮鋭化マスク及び適合を使用する開示される強度抽出技法と、適合を使用しない別の強度抽出技法の性能結果の比較を示す。
図15】鮮鋭化マスク及び適合を使用する開示される強度抽出技法と、適合を使用しない別の強度抽出技法の性能結果の比較を示す。
図16】開示される技術を実装するために使用され得るコンピュータシステムである。
【発明を実施するための形態】
【0017】
以下の説明は、典型的には、特定の構造的実施態様及び方法を参照して行われる。本技術を具体的に開示された実施態様及び方法に限定する意図はないが、本技術は他の特徴、要素、方法及び実施態様を用いて実施することができることを理解されたい。好ましい実施態様は、特許請求の範囲によって定義される範囲を限定するためではなく、本技術を説明するために記載される。当業者は、以下の説明に対する様々な等価な変形を認識するであろう。
【0018】
本明細書で使用するとき、「ポリヌクレオチド」又は「核酸」という用語は、デオキシリボ核酸(deoxyribonucleic acid、DNA)を指し、しかしながら、適切な場合には、当業者は、本明細書のシステム及びデバイスをリボ核酸(ribonucleic acid、RNA)とともに利用することもできることを認識するであろう。これらの用語は、同等物として、ヌクレオチド類似体から作製されるDNA又はRNAのいずれかの類似体を含むと理解されるべきである。本明細書で使用する用語はまた、例えば逆転写酵素の作用によって、RNAテンプレートから作り出される相補的又はコピーDNAであるcDNAも包含する。
【0019】
本明細書のシステム及びデバイスによって配列決定される一本鎖ポリヌクレオチド分子は、DNA若しくはRNAとして一本鎖形態で起源を有するか、又は二本鎖DNA(dsDNA)形態(例えば、ゲノムDNA断片、PCR及び増幅産物など)で起源を有することができる。したがって、一本鎖ポリヌクレオチドは、ポリヌクレオチド二重鎖のセンス鎖又はアンチセンス鎖であり得る。標準的な技法を使用した本開示の方法における使用に好適な一本鎖ポリヌクレオチド分子の調製方法は、当該技術分野で既知である。一次ポリヌクレオチド分子の正確な配列は、一般に、本開示に重要ではなく、既知又は不明であり得る。一本鎖ポリヌクレオチド分子は、イントロン及びエクソン配列(コード配列)の両方、並びにプロモーター及びエンハンサー配列などの非コード調節配列を含む、ゲノムDNA分子(例えば、ヒトゲノムDNA)を表すことができる。
【0020】
特定の実施形態では、現在の開示の使用により配列決定される核酸は、基材(例えば、フローセル内の基材又はフローセルなどの基材上の1つ以上のビーズなど)に固定化される。本明細書で使用する用語「固定化された」は、明示的又は文脈によって別途示されない限り、直接的又は間接的な、共有付着又は非共有付着を包含することを意図する。特定の実施形態では、共有結合が好ましいことがあるが、一般的に、必要とされるのは、例えば、核酸配列決定を必要とする用途において、支持体を使用することが意図される条件下で、分子(例えば、核酸)が、支持体に固定化されたままである又は結合したままであるということである。
【0021】
本明細書で使用する用語「固体支持体」(又は特定の使用法では「基材」)は、例えば、ガラス表面、プラスチック表面、ラテックス、デキストラン、ポリスチレン表面、ポリプロピレン表面、ポリアクリルアミドゲル、金表面、及びシリコンウェハなどの、核酸が付着し得る任意の不活性基材又はマトリックスを指す。多くの実施形態では、固体支持体は、ガラス表面(例えば、フローセルチャネルの平面)である。特定の実施形態では、固体支持体は、例えば、ポリヌクレオチドなどの分子への共有付着を可能にする反応性基を含む中間材料の層又はコーティングを適用することによって、「官能化」されている不活性基材又はマトリックスを含み得る。非限定的な例として、そのような支持体は、ガラスなどの不活性基材上に支持されたポリアクリルアミドヒドロゲルを含むことができる。そのような実施形態では、分子(ポリヌクレオチド)は、中間材料(例えば、ヒドロゲル)に直接共有付着され得るが、中間材料は、それ自体が基材又はマトリックス(例えば、ガラス基材)に非共有結合することができる。固体支持体への共有結合は、このタイプの構成を包含するように適宜解釈されるべきである。
【0022】
上記のように、本開示は、核酸を配列決定するための新規のシステム及びデバイスを含む。当業者に明らかであるように、特定の核酸配列への本明細書の言及は、文脈に依存して、このような核酸配列を含む核酸分子もまた指し得る。標的断片の配列決定は、塩基の時系列順の読み取りが確立されることを意味する。読み取られる塩基は、連続している必要はなく、これが好ましいが、配列決定中に全断片上の全ての塩基が配列決定される必要もない。配列決定は、任意の好適な配列決定技法を使用して実行され得、ヌクレオチド又はオリゴヌクレオチドは、遊離3’ヒドロキシル基に連続的に添加され、5’から3’方向でのポリヌクレオチド鎖の合成をもたらす。付加されたヌクレオチドの性質は、好ましくは、各ヌクレオチド付加後に判定される。全ての連続塩基が配列決定されるわけではないライゲーションによる配列決定を使用する配列決定技法、及び表面上の鎖に塩基が付加されるのではなく鎖から塩基が除去される超並列シグネチャー配列決定(MPSS)などの技法も、本開示のシステム及びデバイスとともに使用するのに修正可能である。
【0023】
特定の実施形態では、本開示は、合成による配列決定(sequencing-by-synthesis、SBS)を開示する。SBSでは、4つの蛍光標識された修飾ヌクレオチドを使用して、基材(例えば、フローセル)の表面上に存在する増幅されたDNAの高密度クラスタ(おそらく数百万のクラスタ)を配列決定する。本明細書のシステム及びデバイスとともに利用され得るSBS手順及び方法に関する様々な付加的態様は、例えば、国際公開第0号4018497、国際公開第04018493号及び米国特許第7,057,026号(ヌクレオチド)、国際公開第05024010号及び国際公開第06120433号(ポリメラーゼ)、国際公開第05065814号(表面付着技法)、並びに国際公開第9844151号、国際公開第06064199号及び国際公開第07010251号に開示されており、これらの各々の内容は、参照することによってその全体として本明細書に組み込まれる。
【0024】
本明細書のシステム/デバイスの特定の使用において、配列決定のための核酸試料を含有するフローセルは、適切なフローセルホルダー内に置かれる。配列決定のための試料は、単一分子、クラスタの形態の増幅された単一分子、又は核酸の分子を含むビーズの形態をとることができる。核酸は、未知の標的配列に隣接するオリゴヌクレオチドプライマーを含むように調製される。第1のSBS配列決定サイクルを開始するために、1つ以上の異なって標識されたヌクレオチド、及びDNAポリメラーゼなどが、流体フローサブシステム(その様々な実施形態が本明細書に記載されている)によってフローセル内に/フローセルを通って流される。単一のヌクレオチドが一度に追加され得るか、又は配列決定手順で使用されるヌクレオチドが可逆終端特性を有するように特別に設計され得、したがって、配列決定反応の各サイクルが、全ての4個の標識されたヌクレオチド(例えば、A、C、T、G)の存在下で同時に生じることを可能にする。4個のヌクレオチドが一緒に混合される場合、ポリメラーゼは、正しい塩基を選択して組み込むことができ、各配列は、単一の塩基によって伸長される。システムを使用するそのような方法では、4つ全ての選択肢の間の自然な競合は、1つのヌクレオチドのみが反応混合物中に存在する場合(したがって、配列の大部分が正しいヌクレオチドに曝露されない場合)よりも高い精度をもたらす。特定の塩基が次々に繰り返される配列(例えばホモポリマー)は、任意の他の配列と同様に、高い精度で対処される。
【0025】
流体フローサブシステムはまた、ブロックされた3’末端(適切な場合)及びフルオロフォアを各組み込まれた塩基から除去するために、適切な試薬を流す。基材は、4つのブロックされたヌクレオチドの第2ラウンド、又は任意選択的に、異なる個々のヌクレオチドを用いた第2ラウンドのいずれかに曝露され得る。次いで、このようなサイクルが繰り返され、各クラスタの配列が複数の化学サイクルにわたって読み取られる。本開示のコンピュータ態様は、任意選択的に、各単一分子、クラスタ又はビーズから収集された配列データを位置合わせして、より長いポリマーなどの配列を判定することができる。あるいは、画像処理及び位置合わせは、別個のコンピュータ上で実行することができる。
【0026】
システムの加熱/冷却構成要素が、フローセルチャネル及び試薬貯蔵領域/容器(並びに任意選択的にカメラ、光学系、及び/又は他の構成要素)内の反応条件を調節する一方、流体流構成要素は、取り込まれなかった試薬が洗い流される間に、基材表面が取り込みに好適な試薬(例えば、取り込まれる適切な蛍光標識されたヌクレオチド)に曝露されることを可能にする。フローセルが置かれる任意選択的に移動可能なステージは、フローセルが基材のレーザ(又は他の光)励起のために適切な配向にされることを可能にし、任意選択的に、基材の異なる領域の読み取りを可能にするために対物レンズに対して移動されることを可能にする。追加的に、システムの他の構成要素もまた、任意選択的に移動可能/調整可能である(例えば、カメラ、対物レンズ、加熱器/冷却器など)。レーザ励起の間、基材上の核酸から放出された蛍光の画像/場所は、カメラ構成要素によって捕捉され、それによって、コンピュータ構成要素において、各単一分子、クラスタ又はビーズについての第1の塩基の同一性を記録する。
【0027】
本明細書に記載される実施形態は、学術分析又は商業的分析のための様々な生物学的又は化学的プロセス及びシステムにおいて使用されてもよい。より具体的には、本明細書に記載される実施形態は、所望の反応を示すイベント、特性、品質、又は特性を検出することが望ましい様々なプロセス及びシステムにおいて使用されてもよい。例えば、本明細書に記載される実施形態としては、カートリッジ、バイオセンサ、及びそれらの構成要素、並びにカートリッジ及びバイオセンサとともに動作するバイオアッセイシステムが挙げられる。特定の実施形態では、カートリッジ及びバイオセンサは、実質的に単一の構造で一緒に結合されたフローセル及び1つ以上のセンサ、ピクセル、光検出器、又はフォトダイオードを含む。
【0028】
特定の実施形態の以下の詳細な説明は、添付の図面と併せて読むと、より良く理解され得る。図が様々な実施形態の機能ブロックの図を示す限りにおいて、機能ブロックは、必ずしもハードウェア回路間の分割を示すものではない。したがって、例えば、機能ブロック(例えば、プロセッサ又はメモリ)のうちの1つ以上は、1つのハードウェア(例えば、汎用信号プロセッサ又はランダムアクセスメモリ、ハードディスクなど)で実装されてもよい。同様に、プログラムは、スタンドアロンプログラムであってもよく、オペレーティングシステム内のサブルーチンとして組み込まれてもよく、インストールされたソフトウェアパッケージ内の機能であってもよい、など。様々な実施形態は、図面に示された配置及び手段に限定されないことを理解されたい。
【0029】
本明細書で使用するとき、単数形で記載され、かつ単語「a」又は「an」に続く要素又は工程は、かかる除外が明示的に記載されていない限り、複数のこれらの要素又は工程を除外しないものとして理解されるべきである。更に、「一実施形態」への言及は、列挙された特徴をまた組み込む追加の実施形態の存在を除外するものとして解釈されることを意図するものではない。更に、反対に明示的に述べられていない限り、特定の特性を有する要素又は複数の要素を「備える」又は「有する」又は「含む」実施形態は、それらがその特性を有するかどうかに関わらず、追加の要素を含み得る。
【0030】
本明細書で使用するとき、「所望の反応」は、対象となる分析物の化学的、電気的、物理的、又は光学的特性(又は品質)のうちの少なくとも1つの変化を含む。特定の実施形態では、所望の反応は、正の結合事象である(例えば、蛍光標識された生体分子の対象となる分析物への組み込み)。より一般的には、所望の反応は、化学変換、化学変化、又は化学的相互作用であってもよい。所望の反応はまた、電気特性の変化であってもよい。例えば、所望の反応は、溶液内のイオン濃度の変化であってもよい。例示的な反応としては、還元、酸化、付加、脱離、再配列、エステル化、アミド化、エーテル化、環化、又は置換などの化学反応、第1の化学物質が第2の化学物質に結合する結合相互作用、2つ以上の化学物質が互いに分離する解離反応、蛍光、発光、生物発光、化学発光、並びに核酸複製、核酸増幅、核酸ハイブリダイゼーション、核酸ライゲーション、リン酸化、酵素触媒、受容体結合、又はリガンド結合などの生体反応、が挙げられるが、これらに限定されない。所望の反応はまた、例えば、周囲の溶液又は環境のpHの変化として検出可能である、プロトンの添加又は除去であってもよい。追加の所望の反応は、膜(例えば、天然又は合成二層膜)を横切るイオンの流れの検出であることができ、例えば、イオンが膜を通って流れるとき、電流が乱れ、この乱れが検出され得る。
【0031】
特定の実施形態では、所望の反応は、分析物への蛍光標識分子の組み込みを含む。分析物は、オリゴヌクレオチドであってもよく、蛍光標識分子は、ヌクレオチドであってもよい。所望の反応は、励起光が標識ヌクレオチドを有するオリゴヌクレオチドに方向付けられ、かつ蛍光団が検出可能な蛍光信号を発するときに、検出され得る。代替の実施形態では、検出された蛍光は、化学発光又は生物発光の結果である。所望の反応はまた、例えば、ドナーフルオロフォアをアクセプタ蛍光団に近接させることによって蛍光団(又はForster)共鳴エネルギー移動(fluorescence resonance energy transfer、FRET)を増加させることができ、ドナーとアクセプタ蛍光団とを離すことによってFRETを減少させ、消光剤をフルオロフォアから離すことによって蛍光を増加させるか、又は消光剤及び蛍光団を共局在させることによって蛍光団を減少させることができる。
【0032】
本明細書で使用するとき、「反応成分」又は「反応物質」は、所望の反応を得るために使用され得る任意の物質を含む。例えば、反応成分としては、試薬、酵素、サンプル、他の生体分子、及び緩衝液が挙げられる。反応成分は、典型的には、溶液中の反応部位に送達され、及び/又は反応部位で固定される。反応成分は、対象となる分析物などの別の物質と直接又は間接的に相互作用し得る。
【0033】
本明細書で使用するとき、用語「反応部位」は、所望の反応が生じ得る局所的領域である。反応部位は、物質がその上に固定され得る基材の支持表面を含んでもよい。例えば、反応部位は、その上に核酸のコロニーを有するフローセルのチャネル内に実質的に平面状の表面を含んでもよい。常にではないが、典型的には、コロニー中の核酸は、同じ配列を有し、例えば、一本鎖又は二本鎖テンプレートのクローンコピーである。しかしながら、いくつかの実施形態では、反応部位は、例えば、一本鎖又は二本鎖形態で、単一の核酸分子のみを含有してもよい。更に、複数の反応部位は、支持表面に沿って不均一に分布してもよく、又は所定の様式で(例えば、マイクロアレイなどのマトリックス内で並列に)配置されてもよい。反応部位はまた、所望の反応を区画化するように構成された空間領域又は容積を少なくとも部分的に画定する反応チャンバ(又はウェル)を含むことができる。
【0034】
本出願は、用語「反応チャンバ」及び「ウェル」を互換的に使用する。本明細書で使用するとき、用語「反応チャンバ」又は「ウェル」は、フローチャネルと流体連通している空間領域を含む。反応チャンバは、周囲環境又は他の空間領域から少なくとも部分的に分離されてもよい。例えば、複数の反応チャンバは、共有された壁によって互いに分離されてもよい。より具体的な例として、反応チャンバは、ウェルの内面によって画定された空洞を含み、空洞がフローチャネルと流体連通しているように開口部又はアパーチャを有してもよい。そのような反応チャンバを含むバイオセンサは、2011年10月20日に出願された国際出願PCT/US2011/057111号により詳細に記載されており、その全体は参照により本明細書に組み込まれる。
【0035】
いくつかの実施形態では、反応チャンバは、固体がその中に完全に又は部分的に挿入され得るように、固体(半固体を含む)に対してサイズ及び形状を定められる。例えば、反応チャンバは、ただ1つの捕捉ビーズを収容するようにサイズ及び形状を定められ得る。捕捉ビーズは、クローン的に増幅されたDNA又はその上の他の物質を有してもよい。あるいは、反応チャンバは、おおよその数のビーズ又は固体基材を受容するようにサイズ及び形状を定められ得る。別の例として、反応チャンバはまた、反応チャンバに流入し得る拡散又はフィルタ流体を制御するように構成された多孔質ゲル又は物質で充填されてもよい。
【0036】
いくつかの実施形態では、センサ(例えば、光検出器、フォトダイオード)は、バイオセンサのサンプル表面の対応するピクセル領域に関連付けられている。したがって、ピクセル領域は、1つのセンサ(又はピクセル)のバイオセンサのサンプル表面上の領域を表す幾何学的構築物である。ピクセル領域に関連付けられたセンサは、関連するピクセル領域の上にある反応部位又は反応チャンバで所望の反応が生じたとき、関連するピクセル領域から収集された発光を検出する。平坦な表面の実施形態では、ピクセル領域は重なり合うことができる。いくつかの場合には、複数のセンサは、単一の反応部位又は単一の反応チャンバに関連付けられ得る。他の場合には、単一のセンサは、反応部位のグループ又は反応チャンバのグループに関連付けられ得る。
【0037】
本明細書で使用するとき、「バイオセンサ」は、複数の反応部位及び/又は反応チャンバ(若しくはウェル)を有する構造を含む。バイオセンサは、ソリッドステート撮像デバイス(例えば、CCD又はCMOSイメージャ)及び、任意選択的に、それに取り付けられたフローセルを含んでもよい。フローセルは、反応部位及び/又は反応チャンバと流体連通している少なくとも1つのフローチャネルを含み得る。1つの特定の例として、バイオセンサは、バイオアッセイシステムに流体的かつ電気的に結合するように構成される。バイオアッセイシステムは、所定のプロトコル(例えば、合成による配列決定)に従って反応部位及び/又は反応チャンバに反応物質を送達し、複数の撮像イベントを実行してもよい。例えば、バイオアッセイシステムは、反応部位及び/又は反応チャンバに沿って流れるように溶液を方向付けることができる。溶液のうちの少なくとも1つは、同じ又は異なる蛍光標識を有する4タイプのヌクレオチドを含んでもよい。ヌクレオチドは、反応部位及び/又は反応チャンバに位置する対応するオリゴヌクレオチドに結合し得る。次いで、バイオアッセイシステムは、励起光源(例えば、発光ダイオード又はLEDなどのソリッドステート光源)を使用して反応部位及び/又は反応チャンバを照明することができる。励起光は、波長の範囲を含む所定の波長又は複数の波長を有してもよい。励起された蛍光標識は、センサによって捕捉され得る発光信号を提供する。
【0038】
代替の実施形態では、バイオセンサは、他の識別可能な特性を検出するように構成された電極又は他のタイプのセンサを含み得る。例えば、センサは、イオン濃度の変化を検出するように構成され得る。別の例では、センサは、膜を横切るイオン電流の流れを検出するように構成され得る。
【0039】
本明細書で使用するとき、「クラスタ」は、類似又は同一の分子又はヌクレオチド配列又はDNA鎖のコロニーである。例えば、クラスタは、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施形態では、クラスタは、サンプル表面上の物理的領域を占有する任意の要素又は要素群であり得る。実施形態では、クラスタは、ベースコールサイクル中に反応部位及び/又は反応チャンバに固定化される。
【0040】
本明細書で使用するとき、用語「固定化された」は、生体分子又は生物学的物質若しくは化学物質に関して使用されるとき、生体分子又は生物学的物質若しくは化学物質を分子レベルで表面に実質的に付着させることを含む。例えば、生体分子又は生物学的物質若しくは化学物質は、非共有結合(例えば、静電力、ファンデルワールス、及び疎水性界面の脱水)を含む吸着技法、並びに官能基又はリンカーが生体分子の表面への付着を促進する共有結合技法を含む吸着技術を用いて、基材物質の表面に固定化されてもよい。生体分子又は生物学的物質若しくは化学物質を基材物質の表面に固定化することは、基材表面の特性、生体分子又は生物学的物質若しくは化学物質を担持する液体媒体、並びに生体分子又は生物学的物質若しくは化学物質自体の特性に基づいてもよい。場合によっては、基材表面は、生体分子(又は生物学的物質又は化学物質)を表面に固定化するのを容易にするために、基材表面を官能化(例えば、化学的又は物理的に修飾)してもよい。基材表面は、表面に結合した官能基を有するように最初に修飾されてもよい。次いで、官能基は、生体分子又は生物学的物質若しくは化学物質に結合して、それらをその上に固定化し得る。物質は、例えば、参照により本明細書に組み込まれる米国特許出願公開第2011/0059865(A1)号に記載されているように、ゲルを介して表面に固定化され得る。
【0041】
いくつかの実施形態では、核酸は表面に付着され、ブリッジ増幅を使用して増幅することができる。有用なブリッジ増幅法は、例えば、米国特許第5,641,658号、国際公開第2007/010251号、米国特許第6,090,592号、米国特許出願公開第2002/0055100(A1)号、米国特許第7,115,400号、米国特許出願公開第2004/0096853(A1)号、米国特許出願公開第2004/0002090(A1)号、米国特許出願公開第2007/0128624(A1)号、及び米国特許出願公開第2008/0009420(A1)号に記載されており、これらの各々は、その全体が本明細書に組み込まれる。表面上の核酸を増幅するための別の有用な方法は、例えば、以下で更に詳細に説明する方法を使用する、ローリングサークル増幅(Rolling Circle Amplification、RCA)である。いくつかの実施形態では、核酸は、表面に付着され、1つ以上のプライマー対を使用して増幅され得る。例えば、プライマーのうちの1つは溶液中にあってもよく、他のプライマーは、表面上に固定化され得る(例えば、5’-付着)。例として、核酸分子は、表面上のプライマーのうちの1つにハイブリダイズし、続いて固定化プライマーを伸長させて、核酸の第1のコピーを作り出すことができる。溶液中のプライマーは、次いで、核酸の第1のコピーをテンプレートとして使用して伸長させることができる核酸の第1のコピーにハイブリダイズする。任意選択的に、核酸の第1のコピーが作り出された後、元の核酸分子は、表面上の第2の固定化プライマーにハイブリダイズすることができ、同時に、又は溶液中のプライマーが伸長された後に伸長され得る。任意の実施形態では、固定化プライマー及び溶液中のプライマーを使用する伸長の反復ラウンド(例えば、増幅)は、核酸の複数のコピーを提供する。
【0042】
特定の実施形態では、本明細書に記載されるシステム及び方法によって実行されるアッセイプロトコルは、天然ヌクレオチド、及び天然ヌクレオチドと相互作用するように構成された酵素の使用を含む。天然ヌクレオチドとしては、例えば、リボヌクレオチド(RNA)又はデオキシリボヌクレオチド(DNA)が挙げられる。天然ヌクレオチドは、一リン酸、二リン酸、又は三リン酸形態であってよく、アデニン(A)、チミン(T)、ウラシル(U)、グアニン(G)、又はシトシン(C)から選択される塩基を有することができる。しかしながら、上記ヌクレオチドの非天然ヌクレオチド、修飾ヌクレオチド、又は類似体を使用することができることが理解されるであろう。有用な非天然ヌクレオチドのいくつかの例は、合成方法による可逆的ターミネーターベースの配列決定に関して以下に記載されている。
【0043】
反応チャンバを含む実施形態では、物品又は固体物質(半固体物質を含む)が、反応チャンバ内に配設され得る。配設される場合、物品又は固体は、干渉嵌合、接着、又は閉じ込めを介して反応チャンバ内に物理的に保持又は固定化され得る。反応チャンバ内に配設され得る例示的な物品又は固体としては、ポリマービーズ、ペレット、アガロースゲル、粉末、量子ドット、又は反応チャンバ内で圧縮及び/又は保持され得る他の固体が挙げられる。特定の実施形態では、DNAボールなどの核酸超構造は、例えば、反応チャンバの内面に取り付けることによって、又は反応チャンバ内に液体中に滞留することによって、反応チャンバ内に又は反応チャンバに配設することができる。DNAボール又は他の核酸超構造を事前成形し、次いで、反応チャンバ内に又は反応チャンバに配設することができる。あるいは、DNAボールは、反応チャンバにおいてその場で合成することができる。DNAボールは、ローリングサークル増幅によって合成して、特定の核酸配列のコンカテマーを作り出すことができ、コンカテマーは、比較的コンパクトなボールを形成する条件で処理することができる。DNAボール及びそれらの合成のための方法は、例えば、米国特許出願公開第2008/0242560(A1)号又は同第2008/0234136(A1)号に記載されており、それらの各々は、その全体が本明細書に組み込まれる。反応チャンバ内に保持又は配設された物質は、固体、液体、又は気体状態であり得る。
【0044】
本明細書で使用するとき、「ベースコール」は、核酸配列中のヌクレオチド塩基を識別する。ベースコールは、特定のサイクルにおいてあらゆるクラスタのベースコール(A、C、G、T)を判定するプロセスを指す。一例として、ベースコールは、米国特許出願公開第2013/0079232号の組み込まれた資料に記載されている4チャネル、2チャネル又は1チャネル方法及びシステムを利用して実行することができる。特定の実施形態では、ベースコールサイクルは、「サンプリングイベント」と呼ばれる。1色素及び2チャネル配列決定プロトコルでは、サンプリングイベントは、各段階でピクセル信号が発生するように、時系列で2つの照明段階を含む。第1の照明段階は、ATピクセル信号においてヌクレオチド塩基A及びTを示す所与のクラスタからの照明を誘導し、第2の照明段階は、CTピクセル信号においてヌクレオチド塩基C及びTを示す所与のクラスタからの照明を誘導する。
【0045】
開示される技術、例えば開示されるベースコーラーは、中央処理ユニット(Central Processing Unit、CPU)、グラフィック処理ユニット(Graphics Processing Unit、GPU)、フィールドプログラマブルゲートアレイ(FPGA)、粗粒度再構成可能アーキテクチャ(Coarse-Grained Reconfigurable Architecture、CGRA)、特定用途向け集積回路(ASIC)、特定用途向け命令セットプロセッサ(Application Specific Instruction-set Processor、ASIP)、及びデジタル信号プロセッサ(DSP)のようなプロセッサ上で実装することができる。
【0046】
バイオセンサ
図1は、様々な実施形態で使用することができるバイオセンサ100の断面図を示す。バイオセンサ100は、ベースコールサイクル中に2つ以上のクラスタ(例えば、ピクセル領域当たり2つのクラスタ)をそれぞれ保持することができるピクセル領域106’、108’、110’、112’、及び114’を有する。示されるように、バイオセンサ100は、サンプリングデバイス104上に取り付けられたフローセル102を含み得る。図示の実施形態では、フローセル102は、サンプリングデバイス104に直接固定される。しかしながら、代替の実施形態では、フローセル102は、サンプリングデバイス104に取り外し可能に結合され得る。サンプリングデバイス104は、官能化され得る(例えば、所望の反応を起こすのに好適な様式で化学的又は物理的に修飾され得る)サンプル表面134を有する。例えば、サンプル表面134は、官能化されてもよく、ベースコールサイクル中に2つ以上のクラスタをそれぞれ保持することができる(例えば、それに固定化された対応するクラスタ対106A、106B、クラスタ対108A、108B、クラスタ対110A、110B、クラスタ対112A、112B、及びクラスタ対114A、114Bをそれぞれ有する)複数のピクセル領域106’、108’、110’、112’、及び114’を含み得る。各ピクセル領域は、対応するセンサ(又はピクセル若しくはフォトダイオード)106、108、110、112、及び114に関連付けられ、したがって、ピクセル領域によって受信された光は、対応するセンサによって捕捉される。ピクセル領域106’はまた、クラスタ対を保持する反応表面134上の対応する反応部位106”に関連付けられ得、したがって、反応部位106”から発光された光は、ピクセル領域106’によって受信され、対応するセンサ106によって捕捉される。この感知構造の結果として、ベースコールサイクル中に特定のセンサのピクセル領域に2つ以上のクラスタが存在する(例えば、対応するクラスタ対をそれぞれ有する)場合、そのベースコールサイクルにおけるピクセル信号は、2つ以上のクラスタの全てに基づく情報を搬送する。結果として、本明細書に記載の信号処理は、特定のベースコールサイクルの所与のサンプリングイベントにおいてピクセル信号より多くのクラスタが存在する、各クラスタを区別するために使用される。
【0047】
図示の実施形態では、フローセル102は、側壁138、125、及び側壁138、125によって支持されるフローカバー136を含む。側壁138、125は、サンプル表面134に結合され、フローカバー136と側壁138、125との間に延在する。いくつかの実施形態では、側壁138、125は、フローカバー136をサンプリングデバイス104に接合する硬化性接着剤層から形成される。
【0048】
側壁138、125は、フローカバー136とサンプリングデバイス104との間にフローチャネル144が存在するようにサイズ及び形状を定められる。フローカバー136は、バイオセンサ100の外部からフローチャネル144に伝搬する励起光101に対して透明な材料を含み得る。一例では、励起光101は、非直交角度でフローカバー136に近づく。
【0049】
また図示のように、フローカバー136は、他のポート(図示せず)に流体的に係合するように構成された入口ポート及び出口ポート142、146を含み得る。例えば、これらの他のポートは、カートリッジ又はワークステーションからのものであり得る。フローチャネル144は、サンプル表面134に沿って流体を方向付けるようにサイズ及び形状を定められる。フローチャネル144の高さH及び他の寸法は、サンプル表面134に沿って流体の実質的に均一な流れを維持するように構成され得る。フローチャネル144の寸法はまた、気泡形成を制御するように構成され得る。
【0050】
例として、フローカバー136(又はフローセル102)は、ガラス又はプラスチックなどの透明材料を含み得る。フローカバー136は、平面状の外面と、フローチャネル144を画定する平面状の内面とを有する、実質的に長方形のブロックを構成し得る。ブロックは、側壁138、125上に取り付けられ得る。あるいは、フローセル102をエッチングして、フローカバー136及び側壁138、125を画定することができる。例えば、凹部が、透明材料にエッチングされ得る。エッチングされた材料がサンプリングデバイス104に取り付けられると、凹部はフローチャネル144になり得る。
【0051】
サンプリングデバイス104は、例えば、複数のスタック基材層120~126を備える集積回路と同様であり得る。基材層120~126は、ベース基材120、ソリッドステートイメージャ122(例えば、CMOS画像センサ)、フィルタ又は光管理層124、並びにパッシベーション層126を含み得る。上記は単なる例示であり、他の実施形態はより少ない又は追加の層を含み得ることに留意されたい。更に、基材層120~126の各々は、複数の副層を含み得る。サンプリングデバイス104は、CMOS画像センサ及びCCDなどの集積回路を製造する際に使用されるものと同様のプロセスを使用して製造され得る。例えば、基材層120~126又はそれらの一部は、サンプリングデバイス104を形成するために成長、堆積、エッチングなどを行うことができる。
【0052】
パッシベーション層126は、フローチャネル144の流体環境からフィルタ層124を遮蔽するように構成されている。場合によっては、パッシベーション層126はまた、生体分子又は他の対象となる分析物がその上に固定化されることを可能にする固体表面(すなわち、サンプル表面134)を提供するように構成されている。例えば、反応部位の各々は、サンプル表面134に固定化された生体分子のクラスタを含み得る。したがって、パッシベーション層126は、反応部位がそれに固定化されることを可能にする材料から形成され得る。パッシベーション層126はまた、所望の蛍光に対して少なくとも透明である材料を含み得る。例として、パッシベーション層126は、窒化ケイ素(Si)及び/又はシリカ(SiO)を含み得る。しかしながら、他の好適な材料を使用することができる。図示の実施形態では、パッシベーション層126は、実質的に平面状であり得る。しかしながら、代替の実施形態では、パッシベーション層126は、ピット、ウェル、溝などの凹部を含み得る。図示の実施形態では、パッシベーション層126は、約150~200nm、より具体的には約170nmの厚さを有する。
【0053】
フィルタ層124は、光の透過に影響を及ぼす様々な特徴を含み得る。いくつかの実施形態では、フィルタ層124は、複数の機能を実行することができる。例えば、フィルタ層124は、(a)励起光源からの光信号など、不要な光信号をフィルタリングするか、(b)反応部位からの発光信号を、反応部位からの発光信号を検出するように構成された対応するセンサ106、108、110、112、及び114に向かって方向付けるか、又は(c)隣接する反応部位からの不要な発光信号の検出を遮断若しくは防止するように構成され得る。したがって、フィルタ層124は光管理層とも呼ばれ得る。図示の実施形態では、フィルタ層124は、約1~5μm、より具体的には約2~4μmの厚さを有する。代替の実施形態では、フィルタ層124は、マイクロレンズ又は他の光学構成要素のアレイを含み得る。マイクロレンズの各々は、関連する反応部位からの発光信号をセンサに方向付けるように構成され得る。
【0054】
いくつかの実施形態では、ソリッドステートイメージャ122及びベース基材120は、以前に構成されたソリッドステート撮像デバイス(例えば、CMOSチップ)として一緒に提供され得る。例えば、ベース基材120は、シリコンのウェハであってもよく、ソリッドステートイメージャ122は、その上に取り付けられてもよい。ソリッドステートイメージャ122は、半導体材料(例えば、シリコン)の層、並びにセンサ106、108、110、112、及び114を含む。図示の実施形態では、センサは、光を検出するように構成されたフォトダイオードである。他の実施形態では、センサは、光検出器を備える。ソリッドステートイメージャ122は、CMOSベースの製造プロセスを介して単一のチップとして製造され得る。
【0055】
ソリッドステートイメージャ122は、フローチャネル144内からの又はフローチャネル144に沿った所望の反応を示すアクティビティを検出するように構成されたセンサ106、108、110、112、及び114の高密度アレイを含み得る。いくつかの実施形態では、各センサは、約1~2平方マイクロメートル(μm)であるピクセル領域(又は検出領域)を有する。アレイは、500,000個のセンサ、500万個のセンサ、1000万個のセンサ、又は更に1億2000万個のセンサを含むことができる。センサ106、108、110、112、及び114は、所望の反応を示す所定の光の波長を検出するように構成することができる。
【0056】
いくつかの実施形態では、サンプリングデバイス104は、参照によりその全体が本明細書に組み込まれる米国特許第7,595,882号に記載されているマイクロ回路装置などのマイクロ回路装置を含む。より具体的には、サンプリングデバイス104は、センサ106、108、110、112、及び114の平面アレイを有する集積回路を備え得る。サンプリングデバイス104内に形成された回路は、信号増幅、デジタル化、記憶、及び処理のうちの少なくとも1つのために構成され得る。回路は、検出された蛍光を収集及び分析し、検出データを信号プロセッサに通信するためのピクセル信号(又は検出信号)を発生させることができる。回路はまた、サンプリングデバイス104において追加のアナログ及び/又はデジタル信号処理を実行し得る。サンプリングデバイス104は、信号ルーティングを実行する(例えば、ピクセル信号を信号プロセッサに送信する)導電ビア130を含み得る。ピクセル信号はまた、サンプリングデバイス104の電気接点132を通って送信され得る。
【0057】
サンプリングデバイス104は、本明細書に完全に記載されているかのように参照により組み込まれる、2020年5月14日に出願された「Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing」と題する米国特許非仮出願第16/874,599号に関して更に詳細に論じられている。サンプリングデバイス104は、上述されたような上記の構成又は使用に限定されない。代替の実施形態では、サンプリングデバイス104は、他の形態をとってもよい。例えば、サンプリングデバイス104は、フローセルに結合されているか、又は反応部位をその中に有するフローセルとインターフェース接続するように移動される、CCDカメラなどのCCDデバイスを備え得る。
【0058】
図2は、そのタイル内にクラスタを含むフローセル200の一実施態様を示す。フローセル200は、図1のフローセル102に対応し、例えば、フローカバー136なしである。更に、フローセル200の描写は、本質的に記号的であり、フローセル200は、その中に様々な他の構成要素を示すことなく、その中に様々なレーン及びタイルを記号的に示している。図2は、フローセル200の上面図を示している。
【0059】
一実施形態では、フローセル200は、レーン202a、202b、...、202P、すなわち、P個のレーンなど、複数のレーンに分けられるか又は分割される。図2の例では、フローセル200は、8つのレーンを含むように、すなわち、この例ではP=8であるように示されているが、フローセル内のレーンの数は、実施態様に固有である。
【0060】
一実施形態では、個々のレーン202は、「タイル」212と呼ばれる非重なり合い領域に更に分割される。例えば、図2は、例示的なレーンのセクション208の拡大図を示している。セクション208は、複数のタイル212を含むように示されている。
【0061】
一例では、各レーン202は、1つ以上のタイル列を含む。例えば、図2では、各レーン202は、拡大セクション208内に示されているように、2つの対応するタイル列212を含む。各レーン内の各タイル列内のタイルの数は、実施態様に固有であり、一例では、各レーン内の各タイル列に50個のタイル、60個のタイル、100個のタイル、又は別の適切な数のタイルが存在し得る。
【0062】
各タイルは、対応する複数のクラスタを含む。配列決定手順中、タイル上のクラスタ及びそれらの周囲の背景が撮像される。例えば、図2は、例示的なタイル内の例示的なクラスタ216を示している。
【0063】
図3は、8つのレーンを有する例示的なIllumina GA-IIx(商標)フローセルを示し、1つのタイル及びそのクラスタ及びそれらの周囲の背景のズームインも示す。例えば、Illumina Genome Analyzer IIのレーン当たり100タイル、及びIllumina HiSeq2000内のレーン当たり68個のタイルが存在する。タイル212は数十万~数百万個のクラスタを保持する。図3では、明るい斑点として示されているクラスタを有するタイルから発生した画像は、308に示されており(例えば、308は、タイルの拡大画像図であり)、例示的なクラスタ304は標識されている。クラスタ304は、テンプレート分子の約千個の同一のコピーを含むが、クラスタはサイズ及び形状が異なる。クラスタは、配列決定動作前に、入力ライブラリのブリッジ増幅によって、テンプレート分子から成長させる。増幅及びクラスタ成長の目的は、撮像デバイスが単一の蛍光団を確実に感知できないため、放出された信号の強度を増大させることである。しかしながら、クラスタ304内のDNAフラグメントの物理的距離は小さいため、撮像デバイスは、フラグメントのクラスタを単一のスポット304として知覚する。
【0064】
クラスタ及びタイルは、2020年3月20日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/825,987号に関して更に詳細に論じられている。
【0065】
図4は、ベースコールセンサ出力など、配列決定システムからのセンサデータの分析のためのシステムの簡略ブロック図である(例えば、図1を参照)。図4の例では、システムは、配列決定マシン400及び構成可能なプロセッサ450を含む。構成可能なプロセッサ450は、中央処理ユニット(CPU)402などのホストプロセッサによって実行されるランタイムプログラムと協調して、ニューラルネットワークベースのベースコーラー及び/又は非ニューラルネットワークベースのベースコーラー(本明細書において更に詳細に論じられる)を実行することができる。配列決定マシン400は、(例えば、図1図3に関して論じられた)ベースコールセンサ及びフローセル401を備える。フローセルは、図1図3に関して論じられたように、遺伝物質のクラスタが、クラスタ内の反応を引き起こして遺伝物質中の塩基を識別するために使用される分析物フローの配列に曝露される1つ以上のタイルを含むことができる。センサは、タイルデータを提供するために、フローセルの各タイルにおける配列の各サイクルの反応を感知する。この技術の実施例は、以下により詳細に記載される。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサデータを、ベースコール動作中に感知された各遺伝物質群のベースコールの配列に変換する。
【0066】
この実施例のシステムは、ベースコール動作を調整するランタイムプログラムを実行するCPU402と、タイルデータのアレイの配列、ベースコール動作によって作り出されたベースコール読み取り、及びベースコール動作で使用される他の情報を記憶するメモリ403と、を含む。また、この図では、システムは、構成ファイル(又は複数のファイル)、例えば、FPGAビットファイル、及び構成可能なプロセッサ450を構成及び再構成し、かつニューラルネットワークを実行するために使用されるニューラルネットワークのモデルパラメータを記憶するメモリ404を含む。配列決定マシン400は、構成可能なプロセッサを構成するためのプログラムを含むことができ、いくつかの実施形態では、ニューラルネットワークを実行する再構成可能なプロセッサを含むことができる。
【0067】
配列決定マシン400は、バス405によって、構成可能なプロセッサ450に結合される。バス405は、PCI-SIG規格(PCI Special Interest Group)によって現在維持及び開発されているPCIe規格(Peripheral Component Interconnect Express)と互換性のあるバス技術などの高スループット技術を使用して実装することができる。また、この実施例では、メモリ460は、バス461によって、構成可能なプロセッサ450に結合される。メモリ460は、構成可能なプロセッサ450を有する回路基板上に配設されたオンボードメモリであってもよい。メモリ460は、ベースコール動作で使用される作業データの構成可能なプロセッサ450による高速アクセスに使用される。バス461はまた、PCIe規格と互換性のあるバス技術などの高スループット技術を使用して実装することもできる。メモリ460は、ゲノムデータ、例えばバリアントコールフォーマット(variant call format、VCF)ファイルを記憶することができる。
【0068】
フィールドプログラマブルゲートアレイ(FPGA)、粗粒化された再構成可能アレイ(Coarse Grained Reconfigurable Array、CGRA)、及び他の構成可能かつ再構成可能なデバイスを含む、構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実装するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと呼ばれる構成ファイルを作り出すために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。
【0069】
構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性SRAM要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。いくつかの実施例では、ホストCPUは、構成可能なプロセッサと同じ集積回路上に実装することができる。
【0070】
本明細書に記載の実施形態は、構成可能なプロセッサ450を使用して、マルチサイクルニューラルネットワークを実装する。構成可能なプロセッサの構成ファイルは、高レベルの記述言語(high-level description language、HDL)又はレジスタ転送レベル(register transfer level、RTL)言語仕様を使用して実行される論理機能を指定することによって実装することができる。本明細書は、選択された構成可能なプロセッサが構成ファイルを発生させるように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を発生させる目的で、同じ又は類似の仕様をコンパイルすることができる。
【0071】
したがって、本明細書に記載される全ての実施形態における構成可能なプロセッサの代替例は、本明細書に記載されるニューラルネットワークベースのベースコール動作を実行するように構成された、特定用途向けASIC又は専用集積回路又は集積回路のセット、あるいはシステムオンチップSOCデバイスを含む、構成されたプロセッサを含む。
【0072】
一般に、ニューラルネットワークの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと呼ばれる。別の例では、非ニューラルネットワークベースのベースコーラーの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書では非ニューラルネットワークプロセッサと呼ばれる。一般に、構成可能なプロセッサ及び構成されたプロセッサは、本明細書で後に論じられるように、ニューラルネットワークベースのベースコーラー及び非ニューラルネットワークベースのベースコーラーの一方又は両方を実装するために使用することができる。
【0073】
構成可能なプロセッサ450は、この実施例では、CPU402によって実行されるプログラムを使用してロードされた構成ファイルによって、又は構成可能なプロセッサ454上の構成可能な要素のアレイを構成してベースコール機能を実行する他のソースによって構成されている。この実施例では、構成は、バス405及び461に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分配する機能を実行するデータフロー論理451を含む。
【0074】
また、構成可能なプロセッサ450は、マルチサイクルニューラルネットワークを実行するためにベースコール実行論理452を用いて構成されている。論理452は、複数のマルチサイクル実行クラスタ(例えば、453)を含み、これは、この実施例では、マルチサイクルクラスタ1からマルチサイクルクラスタXを含む。マルチサイクルクラスタの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能なプロセッサ上の利用可能なリソースに従って選択することができる。
【0075】
マルチサイクルクラスタは、構成可能なプロセッサ上の構成可能な相互接続及びメモリリソースを使用して実装されるデータフロー経路454によってデータフロー論理451に結合される。また、マルチサイクルクラスタは、例えば構成可能なプロセッサ上の構成可能な相互接続及びメモリリソースを使用して実装された制御経路455によってデータフロー論理451に結合されている。それは、利用可能なクラスタ、ニューラルネットワークの動作の実行のための入力ユニットを利用可能なクラスタに提供する準備ができていること、ニューラルネットワークの訓練されたパラメータを提供する準備ができていること、ベースコール分類データの出力パッチを提供する準備ができていること、及びニューラルネットワークの実行に使用される他の制御データを示す、制御信号を提供する。
【0076】
構成可能なプロセッサは、訓練されたパラメータを使用してマルチサイクルニューラルネットワークの動作を実行して、ベースコール動作の感知サイクルに関する分類データを作り出すように構成されている。ニューラルネットワークの動作を実行して、ベースコール動作の被験者感知サイクルの分類データを作り出す。ニューラルネットワークの動作は、N個の感知サイクルのそれぞれの感知サイクルからのタイルデータのアレイの数Nを含む配列に対して動作し、N個の感知サイクルは、本明細書に記載される実施例では、時系列における動作ごとに1つの塩基位置に対する異なるベースコール動作のセンサデータを提供する。任意選択的に、N個の感知サイクルのうちのいくつかは、実行されている特定のニューラルネットワークモデルに従って必要に応じて、配列から外れることができる。数Nは、1を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、N個の感知サイクルの感知サイクルは、時系列で、被験者感知サイクルに先行する少なくとも1つの感知サイクル、及び被験者サイクルに後続する少なくとも1つの感知サイクルについての感知サイクルのセットを表す。本明細書では、数Nが5以上の整数である実施例が記載される。
【0077】
データフロー論理451は、N個のアレイの空間的に位置合わせされたパッチのタイルデータを含む所与の動作のための入力ユニットを使用して、ニューラルネットワークの動作のために、メモリ460から、構成可能なプロセッサに、タイルデータ、及びモデルの少なくともいくつかの訓練されたパラメータを移動させるように構成されている。入力ユニットは、1回のDMA動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。
【0078】
本明細書に記載される感知サイクルのタイルデータは、1つ以上の特徴を有するセンサデータのアレイを含むことができる。例えば、センサデータは、DNA、RNA、又は他の遺伝物質の遺伝的配列における塩基位置で4塩基のうちの1つを識別するために分析される2つの画像を含むことができる。タイルデータはまた、画像及びセンサに関するメタデータを含むことができる。例えば、ベースコール動作の実施形態では、タイルデータは、タイル上の遺伝物質群の中心からのセンサデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスタとの画像の位置合わせに関する情報を含むことができる。
【0079】
以下に記載されるようなマルチサイクルニューラルネットワークの実行中に、タイルデータはまた、中間データと呼ばれる、マルチサイクルニューラルネットワークの実行中に作り出されたデータを含むことができ、これは、マルチサイクルニューラルネットワークの実行中に再計算されるのではなく再利用され得る。例えば、マルチサイクルニューラルネットワークの実行中に、データフロー論理は、タイルデータのアレイの所与のパッチのセンサデータの代わりに、中間データをメモリ460に書き込むことができる。このような実施形態は、以下により詳細に記載される。
【0080】
図示されているように、ベースコール動作の感知サイクルからタイルのセンサデータを含むタイルデータを記憶するランタイムプログラムによってアクセス可能なメモリ(例えば、460)を含む、ベースコールセンサ出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能なプロセッサ450などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの動作を実行して、感知サイクルのための分類データを作り出すように構成される。本明細書に記載されるように、ニューラルネットワークの動作は、被験者サイクルを含むN個の感知サイクルのそれぞれの感知サイクルからタイルデータのN個のアレイの配列で動作して、被験者サイクルの分類データを作り出す。データフロー論理451は、N個の感知サイクルのそれぞれの感知サイクルからのN個のアレイの空間的に位置合わせされたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。
【0081】
また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスタを含み、複数の実行クラスタ内の実行論理クラスタがニューラルネットワークを実行するように構成されているシステムも説明される。データフロー論理は、メモリへのアクセス、及び複数の実行クラスタ内のクラスタを実行して、複数の実行クラスタ内の利用可能な実行クラスタにタイルデータの入力ユニットを提供し、入力ユニットは、それぞれの感知サイクルからタイルデータのアレイの空間的に位置合わせされたパッチの数Nを含む、入力ユニットと、被験者感知サイクルを含み、N個の空間的に位置合わせされたパッチをニューラルネットワークに適用して、被験者感知サイクルの空間的に位置合わせされたパッチの分類データの出力パッチを作り出させるように、実行クラスタに、ニューラルネットワークにN個の空間的に位置合わせされたパッチを適用させることと、を含み、Nは1より大きい。
【0082】
図5は、ホストプロセッサによって実行されるランタイムプログラムの機能を含む、ベースコール動作の態様を示す簡略図である。この図では、(図1及び図2に示されたものなどの)フローセルからの画像センサの出力は、ライン500上で画像処理スレッド501に提供され、画像処理スレッド501は、個々のタイルのセンサデータのアレイの再サンプリング、位置合わせ及び配置などの画像に対するプロセスを実行することができ、フローセル内の各タイルのタイルクラスタマスクを計算するプロセスによって使用することができ、フローセルの対応するタイル上の遺伝物質のクラスタに対応するセンサデータのアレイ内のピクセルを識別するプロセスによって使用することができる。クラスタマスクを計算するために、1つの例示的なアルゴリズムは、ソフトマックス出力から導出されたメトリックを使用して初期配列決定サイクルで信頼できないクラスタを検出するプロセスに基づいており、次いで、それらのウェル/クラスタからのデータは廃棄され、それらのクラスタの出力データは作り出されない。例えば、プロセスは、最初のN1個の(例えば、25個の)ベースコール中に信頼性が高いクラスタを識別し、他のクラスタを拒否することができる。拒否されたクラスタは、基準によるとポリクローナル又は非常に弱い強度又は不明瞭であり得る。この手順は、ホストCPUで実行することができる。代替の実施態様では、潜在的にこの情報を使用して、CPUに戻されるべき対象となる必要なクラスタを識別し、それにより、中間データに必要なストレージを制限し得る。
【0083】
画像処理スレッド501の出力は、ライン502上でCPU内のディスパッチ論理510に提供され、ディスパッチ論理510は、ベースコール動作の状態に従って、タイルデータのアレイを、高速バス503上でデータキャッシュ504に、又は高速バス505上で、図4の構成可能なプロセッサなどのハードウェア520にルーティングする。ハードウェア520は、ニューラルネットワークベースのベースコーラーを実行するためのマルチクラスタニューラルネットワークプロセッサであり得るか、又は本明細書で後に論じられるように、非ニューラルベースのベースコーラーを実行するためのハードウェアとすることができる。
【0084】
ハードウェア520は、(例えば、ニューラルネットワークベースのコーラー及び/又は非ニューラルネットワークベースのコーラーによって出力された)分類データをディスパッチ論理510に返し、ディスパッチ論理510は、情報をデータキャッシュ504に、又はライン511上でスレッド502に渡し、それは、分類データを使用してベースコール及び品質スコア計算を実行し、ベースコール読み取りのための標準フォーマットでデータを配置することができる。ベースコール及び品質スコア計算を実行するスレッド502の出力は、ライン512上でスレッド503に提供され、それは、ベースコール読み取りを集約し、データ圧縮などの他の動作を実行し、結果として得られたベースコール出力を顧客による利用のために指定された宛先に書き込む。
【0085】
いくつかの実施形態では、ホストは、ニューラルネットワークをサポートするハードウェア520の出力の最終処理を実行する、スレッド(図示せず)を含むことができる。例えば、ハードウェア520は、マルチクラスタニューラルネットワークの最終層から分類データの出力を提供することができる。ホストプロセッサは、ベースコール及び品質スコアスレッド502によって使用されるデータを設定するために、分類データを超えて、ソフトマックス関数などの出力起動機能を実行することができる。また、ホストプロセッサは、ハードウェア520に入力する前に、タイルデータの再サンプリング、バッチ正規化又は他の調整などの入力動作(図示せず)を実行することができる。
【0086】
図6は、図4の構成可能なプロセッサなど、構成可能なプロセッサの構成の簡略図である。図6では、構成可能なプロセッサは、複数の高速PCIeインターフェースを有するFPGAを備える。FPGAは、図1を参照しながら記載されたデータフロー論理を含むラッパー600を用いて構成されている。ラッパー600は、CPU通信リンク609を介してCPU内のランタイムプログラムとのインターフェース及び調整を管理し、DRAM通信リンク610を介してオンボードDRAM602(例えば、メモリ460)との通信を管理する。ラッパー600内のデータフロー論理は、数Nのサイクルのために、オンボードDRAM602上のタイルデータのアレイをクラスタ601まで横断することによって取得されたパッチデータを提供し、クラスタ601からプロセスデータ615を取得して、オンボードDRAM602に配信する。ラッパー600はまた、タイルデータの入力アレイと、分類データの出力パッチの両方について、オンボードDRAM602とホストメモリとの間のデータの転送を管理する。ラッパーは、ライン613上でパッチデータを、割り当てられたクラスタ601に転送する。ラッパーは、クラスタ601に、ライン612上で、オンボードDRAM602から取得された重みやバイアスなどの訓練されたパラメータを提供する。ラッパーは、クラスタ601に、ライン611上で、CPU通信リンク609を介してホスト上のランタイムプログラムから提供されるか又はそれに応答して発生した構成及び制御データを提供する。クラスタはまた、タイルデータのアレイの横断を管理して空間的に位置合わせされたパッチデータを提供し、かつクラスタ601のリソースを使用してパッチデータ上で、ベースコールのためのマルチサイクルニューラルネットワーク及び/又は非ニューラルネットワークベースのベースコールのための動作を実行するために、ホストからの制御信号と協働して使用される状態信号を、ライン616上でラッパー600に提供することができる。
【0087】
上述のように、タイルデータの複数のパッチのうちの対応するパッチ上で実行するように構成されたラッパー600によって管理される単一の構成可能なプロセッサ上に複数のクラスタが存在し得る。各クラスタは、本明細書に記載される複数の感知サイクルのタイルデータを使用して、被験者感知サイクルにおけるベースコールの分類データを提供するように構成することができる。
【0088】
システムの例では、フィルタ重み及びバイアスのようなカーネルデータを含むモデルデータをホストCPUから構成可能なプロセッサに送信することができ、その結果、モデルは、サイクル数の関数として更新され得る。ベースコール動作は、代表的な例では、数百の感知サイクルの順序で含むことができる。ベースコール動作は、いくつかの実施形態では、ペア端部読み取りを含むことができる。例えば、モデル訓練されたパラメータは、20サイクルごと(又は他の数のサイクル)ごとに、又は特定のシステムに対して実装される更新パターンに従って更新されてもよい。タイル上の遺伝的クラスタ内の所与のストリングのための配列が、ストリングの第1の端部から下方に(又は上方に)延在する第1の部分と、ストリングの第2の端部から上方に(又は下方に)に延在する第2の部分とを含む、ペア端部読み取りを含むいくつかの実施形態では、訓練されたパラメータは、第1の部分から第2の部分への遷移で更新され得る。
【0089】
いくつかの実施例では、タイルのための感知データの複数サイクルの画像データは、CPUからラッパー600に送信され得る。ラッパー600は、任意選択的に、感知データの一部の前処理及び変換を行い、その情報をオンボードDRAM602に書き込むことができる。各感知サイクルの入力タイルデータは、タイル当たり感知サイクル当たり4000×3000ピクセル以上を含むセンサデータのアレイを含むことができ、2つの特徴はタイルの2つの画像の色を表し、1ピクセル当たり1つ又は2つのバイトを含むセンサデータのアレイを含むことができる。数Nが、マルチサイクルニューラルネットワークの各動作において使用される3回の感知サイクルである実施形態では、マルチサイクルニューラルネットワークの各動作のためのタイルデータのアレイは、数当たり数百メガバイトの数で消費することができる。システムのいくつかの実施形態では、タイルデータはまた、タイルごとに1回記憶されたDFCデータのアレイ、又はセンサデータ及びタイルに関する他のタイプのメタデータも含む。
【0090】
動作中、マルチサイクルクラスタが利用可能である場合、ラッパーは、パッチをクラスタに割り当てる。ラッパーは、タイルの横断面にタイルデータの次のパッチをフェッチし、適切な制御及び構成情報とともに割り当てられたクラスタに送信する。クラスタは、構成可能なプロセッサ上の十分なメモリを用いて構成されて、パッチを含むデータのパッチを、定位置に処理されているいくつかのシステム内で複数サイクルから保持するのに十分なメモリを有するように構成することができ、様々な実施形態では、ピンポンバッファ技法又はラスタ走査技法を使用して処理される。
【0091】
割り当てられたクラスタが、現在のパッチのニューラルネットワークのその動作を完了し、出力パッチを作り出すと、それはラッパーに信号を送る。ラッパーは、割り当てられたクラスタから出力パッチを読み出すか、あるいは割り当てられたクラスタは、データをラッパーにプッシュする。次いで、ラッパーは、DRAM602内の処理されたタイルのための出力パッチを組み立てることになる。タイル全体の処理が完了し、データの出力パッチがDRAMに転送されると、ラッパーは、処理された出力アレイを、特定のフォーマットでホスト/CPUに返送する。いくつかの実施形態では、オンボードDRAM602は、ラッパー600内のメモリ管理論理によって管理される。ランタイムプログラムは、リアルタイム分析を提供するために連続フローで動作する全てのサイクルについての全てのタイルデータのアレイの分析を完了するために、配列決定動作を制御することができる。
【0092】
鮮鋭化マスク生成
図7は、ベースコーラー704を訓練することによって、鮮鋭化マスク706を生成及び/又は更新するシステム700を示す。システム700は、例えば、最小二乗推定を使用してベースコーラー704を訓練する訓練器714を含む。本明細書で使用するとき、「鮮鋭化マスク」は、雑音によって妨害される信号の信号対雑音比を最大化する。鮮鋭化マスクは、所望の方法でデータを修正するためにデータに適用される値又は関数であり得る。例えば、データを修正して、特定の状況に関してその精度、関連性、又は適用性を高めることができる。鮮鋭化マスクは、限定はしないが、加算、減算、除算、乗算、又はそれらの組み合わせを含む、様々な数学的操作のいずれかによってデータに適用することができる。鮮鋭化マスクは、数式、論理関数、コンピュータ実装アルゴリズムなどとすることができる。データは、画像データ、電気データ、又はそれらの組み合わせとすることができる。一実施態様では、鮮鋭化マスクは、等化器(例えば、空間等化器)である。等化器は、(例えば、最小二乗推定、適合等化アルゴリズムを使用して)配列決定画像におけるクラスタ強度データの信号対雑音比を改善及び/又は最大化するように訓練することができる。いくつかの実施態様では、等化器は、訓練から学習される係数を含む。畳み込み演算の一実施態様では、訓練は、信号対ノイズ比を最大化するように、ベースコールされる標的クラスタからの強度放射及び1以上の隣接クラスタからの強度放射を表すピクセルの強度値を混合/結合するように構成されている等化器係数を作り出す。信号対ノイズ比において最大化された信号は、標的クラスタからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接するクラスタからの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを(例えば、背景強度放射を説明するために)加えたものである。等化器係数は重みとして使用され、混合/結合は、等化器係数とピクセルの強度値との間で要素ごとの乗算を実行して、ピクセルの強度値の重み付き和、すなわち畳み込み演算を計算することを含む。更に、画像データが複数の色チャネルにまたがる場合、等化器係数のセットは、各色チャネルに対して生成される(例えば、1つのチャネル、3つのチャネル、4つのチャネルなど)。
【0093】
配列決定画像702は、図1に関して論じられるバイオセンサ100を含む配列決定機器などの配列決定機器によって実行される配列決定動作中に生成される。そのような配列決定機器の例としては、IlluminaのiSeq、HiSeqX、HiSeq3000、HiSeq4000、HiSeq2500、NovaSeq6000、NextSeq550、NextSeq1000、NextSeq2000、NextSeqDx、MiSeq、及びMiSeqDxが挙げられる。一実施態様では、Illuminaシーケンサは、ベースコールのために環状可逆終端(cyclic reversible termination、CRT)化学を使用する。このプロセスは、新たに添加された各ヌクレオチドの放出信号を追跡しながら、蛍光標識されたヌクレオチドを有するテンプレート鎖に相補的な新生鎖を伸長させることに依存する。蛍光標識されたヌクレオチドは、ヌクレオチド型のフルオロフォア信号をアンカーする3’除去可能ブロックを有する。
【0094】
配列決定は、反復サイクルで行われ、各々は3つの工程、つまり、(a)蛍光標識されたヌクレオチドを添加することによる出現鎖の伸長と、(b)配列決定機器の光学システムの1以上のレーザを使用してフルオロフォアを励起させ、光学システムの異なるフィルタを通した撮像によって配列決定画像を生成することと、(c)次の配列決定サイクルに備えてフルオロフォアを切断し、3’ブロックを除去することと、の3つの工程を各々含む反復サイクルで行われる。取り込み及び撮像サイクルは、指定された数の配列決定サイクルまで繰り返され、リード長を定義する。このアプローチを使用して、各サイクルはテンプレート鎖に沿って新しい位置を照合する。
【0095】
Illuminaシーケンサの膨大な能力は、数百万又は更には数十億もの分析物(例えば、クラスタ)のCRT反応を同時に実施及び感知する能力に起因する。クラスタは、テンプレート鎖の約1000個の同一のコピーを含むが、クラスタのサイズ及び形状は様々である。クラスタは、配列決定ラン前に、入力ライブラリのブリッジ増幅又は排除増幅によって、テンプレートストランドから成長させる。増幅及びクラスタ伸長の目的は、撮像デバイスが一本鎖のフルオロフォア信号を確実に感知することができないため、放出される信号の強度を増加させることである。しかしながら、クラスタ内の鎖の物理的距離は小さいため、撮像デバイスは鎖のクラスタを単一のスポットとして知覚する。
【0096】
配列決定は、フローセル、つまり入力鎖を保持する小さいガラススライド内で生じる(例えば、図2を参照)。フローセルは、顕微鏡撮像、励起レーザ、及び蛍光フィルタを含む光学システムに接続される。フローセルは、レーンと呼ばれる複数のチャンバを含む。レーンは互いに物理的に分離されており、試料の交差汚染なしに区別可能な異なるタグ付き配列決定ライブラリを含むことができる。いくつかの実施態様では、フローセルは、パターン化された表面を含む。「パターン化された表面」は、固体支持体の露出層内又はその上における、異なる領域の配列を指す。例えば、領域のうちの1つ以上は、1つ以上の増幅プライマーが存在する特徴であり得る。この特徴は、増幅プライマーが存在しない間質領域によって分離され得る。いくつかの実施態様では、パターンは、行及び列にある特徴のx-yフォーマットであり得る。いくつかの実施態様では、パターンは、特徴及び/又は間質領域の反復配列であり得る。いくつかの実施態様では、パターンは、特徴及び/又は間質領域のランダム配列であり得る。本明細書に記載される方法及び組成物において使用することができる例示的なパターン付き表面は、米国特許第8,778,849号、米国特許第9,079,148号、米国特許第8,778,848号、及び米国特許出願公開第第2014/0243224号、に記載されており、その各々は参照により本明細書に組み込まれる。
【0097】
いくつかの実施態様では、フローセルは、表面におけるウェル又は窪みのアレイを含む。これは、フォトリソグラフィ、スタンピング技法、成形技法、及びマイクロエッチング技法を含むがこれらに限定されない様々な技法を使用して、当該技術分野において一般的に既知であるように加工することができる。当該技術分野において理解されるように、使用される技法は、アレイ基材の組成物及び形状に依存する。
【0098】
パターン付き表面内の特徴は、ガラス、シリコン、プラスチック、又はポリ(N-(5-アジドアセトアミジルペンチル)アクリルアミド-co-アクリルアミド)(PAZAM、例えば、各々、参照によりその全体が本明細書に組み込まれる米国特許出願公開第2013/184796号、国際公開第2016/066586号及び同第2015-002813号を参照)などのパターン化された共有結合ゲルを有する他の好適な固体支持体上のウェル(例えば、マイクロウェル又はナノウェル)のアレイにおけるウェルであってもよい。このプロセスは、配列決定のために使用されるゲルパッドを作成し、これは、多数のサイクルで配列決定動作にわたって安定であり得る。ポリマーをウェルに共有結合することは、様々な用途の間に、構造化基材の寿命全体にわたってゲルを構造化特徴部に維持するのに有用である。しかしながら、多くの実施態様では、ゲルは、ウェルに共有結合される必要はない。例えば、いくつかの条件では、構造化基材のどの部分にも共有結合されていないシランフリーのアクリルアミド(SFA、例えば、米国特許第8,563,477号を参照、その全体が参照により本明細書に組み込まれる)をゲル材料として使用することができる。
【0099】
特定の別の実施態様では、構造化基材は、ウェル(例えば、マイクロウェル又はナノセル)を用いて固体支持材料をパターニングし、パターン化された支持体をゲル材料(例えば、PAZAM、SFA、又はその化学修飾された変異体)でコーティングすることによって作製することができ、SFA(アジド-SFA)のアジド化バージョンなど、及びゲルコーティングされた支持体を、例えば化学研磨又は機械研磨によって研磨し、それによって、ウェル内にゲルを保持するが、ウェル間の構造化基材の表面上の間隙領域から実質的に全てのゲルを除去又は不活性化する。ゲル材料にプライマー核酸を付着させることができる。次いで、標的核酸(例えば、フラグメント化されたヒトゲノム)の溶液を、個々の標的核酸がゲル材料に付着したプライマーとの相互作用を介して個々のウェルに播種するように、研磨された基材と接触させることができる。しかしながら、ゲル材料の不在又は不活性に起因して、標的核酸は、間質領域を占有しない。標的核酸の増幅は、間質領域内のゲルの不在又は非活性が、増殖する核酸コロニーの外向きの移動を防止するため、ウェルに限定されるであろう。このプロセスは、製造可能であり、スケーラブルであり、従来のマイクロ又はナノ製造方法を利用する。
【0100】
配列決定機器の撮像デバイス(例えば、電荷結合素子(charge-coupled device、CCD)又は相補的金属酸化物半導体(complementary metal-oxide-semiconductor、CMOS)センサなどの固体撮像素子)は、タイルと呼ばれる一連の非重なり合い領域において、レーンに沿った複数の場所でスナップショットを取る。例えば、レーン当たり64個又は96個のタイルが存在し得る。タイルは数十万~数百万個のクラスタを保持する。
【0101】
配列決定ランの出力は配列決定画像であり、各々がクラスタ及びその周囲の背景の強度放射を示す。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する分析物/クラスタ及びそれらの周囲の背景から生じる。
【0102】
配列決定画像702は、複数の配列決定機器、配列決定動作、サイクル、フローセル、タイル、ウェル、及びクラスタから供給される。一実施態様では、配列決定画像は、撮像チャネルベースでベースコーラー704によって処理される。配列決定ランは、m個の撮像チャネルに対応する配列決定サイクル当たりm個の画像を作り出す。一実施態様では、各撮像チャネル(色チャネルとも呼ばれる)は複数のフィルタ波長帯域のうちの1つに対応する。別の実施態様では、各撮像チャネルは、配列決定サイクルにおける複数の撮像イベントの1つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザによる照射と特定の光学フィルタを通した撮像との組み合わせに対応する。4-チャネル化学、2-チャネル化学及び1-チャネル化学のような異なる実施態様においては、mは4又は2である。他の実施態様では、mは1、3、又は4より大きい。
【0103】
別の実施態様では、入力データは、分子伸長中の水素イオンの放出によって誘発されるpH変化に基づく。pH変化は検出され、組み込まれた塩基の数に比例する電圧変化に変換される(例えば、Ion Torrentの場合)。更に別の実施態様では、入力データは、生体センサを使用して、分析物がナノ細孔を通過するとき、又はその開口部付近を通過する際に電流の破壊を測定するためにバイオセンサを使用するナノ細孔検知から構築される。例えば、Oxford Nanopore Technologies(ONT)配列決定は、以下の概念に基づく:ナノ細孔を介して膜を介してDNA(又はRNA)の単一鎖を通過させ、膜にわたって電位差を印加する。細孔内に存在するヌクレオチドは、細孔の電気抵抗に影響を及ぼし、そのため、経時的な電流測定は、細孔を通過するDNA塩基の配列を示すことができる。この電流信号(プロットされたときにその外観に起因する「押しつぶし」)は、ONTシーケンサによって収集された生データである。これらの測定値は、4kHz周波数(例えば)で取られた16ビットの整数データ取得(data acquisition、DAC)値として記憶される。1秒当たり約450塩基対のDNA鎖速度を用いて、これは、平均して、塩基当たり約9つの生観察を与える。次いで、この信号を処理して、個々の読み取りに対応する開孔信号の破断を識別する。これらの生信号の伸長は、ベースコールされ、DAC値をDNA塩基の配列に変換するプロセスである。いくつかの実施態様では、入力データは、正規化又はスケーリングされたDAC値を含む。非画像ベースの配列データに関する追加情報は、2020年5月16日に出願された「Base Calling Using Convolutions」と題する米国特許仮出願第62/849,132号、2019年5月16日に出願された「Base Calling Using Compact Convolutions」と題する米国特許仮出願第62/849,133号、及び2019年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/826,168号に見出すことができる。
【0104】
空間的に変化する鮮鋭化マスク
特定の鮮鋭化マスク/マスク/畳み込みカーネルは、データの特定のカテゴリ/タイプ/構成/特性/クラス/ビンの信号対雑音比を改善及び/又は改善及び/又は最大化するように構成/訓練され得る。同様に、それぞれの鮮鋭化マスクは、データのそれぞれのインスタンス/カテゴリ/タイプ/構成/特性/クラス/ビンの信号対雑音比を改善及び/又は改善及び/又は最大化するように構成され得る。様々な鮮鋭化マスクを開示する。例えば、「表面固有スペシャリスト鮮鋭化マスク」は、特定の表面又は特定の表面タイプ/カテゴリ/クラス(例えば、フローセルの上面又は底面又は表面1~N)上に位置するクラスタの配列決定データの信号対雑音比を改善及び/又は最大化するように構成/訓練される。同様に、「レーン固有スペシャリスト鮮鋭化マスク」は、特定のレーン又は特定のレーンタイプ/カテゴリ/クラス(例えば、フローセルの中央レーン又は周辺レーン又はレーン1~N)上に位置するクラスタの配列決定データの信号対雑音比を改善及び/又は最大化するように構成/訓練される。また、「タイル固有スペシャリスト鮮鋭化マスク」は、特定のタイル又は特定のタイルタイプ/カテゴリ/クラス(例えば、フローセルの中央タイル又は周辺タイル又はタイル1~N)上に位置するクラスタの配列決定データの信号対雑音比を改善及び/又は最大化するように構成/訓練される。また、「サブタイル固有スペシャリスト鮮鋭化マスク」は、特定のサブタイル又は特定のサブタイルタイプ/カテゴリ/クラス(例えば、フローセルの中央サブタイル又は周辺サブタイル又はサブタイル1~N)上に位置するクラスタの配列決定データの信号対雑音比を改善及び/又は最大化するように構成/訓練される。いくつかの実施態様では、単一の鮮鋭化マスクは、各スペシャリスト係数セットが、データの特定のカテゴリ/タイプ/構成/特性/クラス/ビンの信号対雑音比を改善及び/又は最大化するように構成/訓練されるように、複数のスペシャリスト係数セットを含むことができる。いくつかの実施態様では、単一の鮮鋭化マスクは、様々なスペシャリスト係数セットを含むことができる。例えば、「表面固有スペシャリスト係数セット」は、特定の表面又は特定の表面タイプ/カテゴリ/クラス(例えば、フローセルの上面又は底面又は表面1~N)上に位置するクラスタの配列決定データの信号対雑音比を改善及び/又は最大化するように構成/訓練される。同様に、「レーン固有スペシャリスト係数セット」は、特定のレーン又は特定のレーンタイプ/カテゴリ/クラス(例えば、フローセルの中央レーン又は周辺レーン又はレーン1~N)上に位置するクラスタの配列決定データの信号対雑音比を改善及び/又は最大化するように構成/訓練される。また、「タイル固有スペシャリスト係数セット」は、特定のタイル又は特定のタイルタイプ/カテゴリ/クラス(例えば、フローセルの中央タイル又は周辺タイル又はタイル1~N)上に位置するクラスタの配列決定データの信号対雑音比を改善及び/又は最大化するように構成/訓練される。また、「サブタイル固有スペシャリスト係数セット」は、特定のサブタイル又は特定のサブタイルタイプ/カテゴリ/クラス(例えば、フローセルの中央サブタイル又は周辺サブタイル又はサブタイル1~N)上に位置するクラスタの配列決定データの信号対雑音比を改善及び/又は最大化するように構成/訓練される。開示されるスペシャリスト鮮鋭化マスクは、フローセルのパターン化された表面及びパターン化されていない表面の両方に位置するクラスタに適用可能である。パターン化されていない表面では、クラスタはフローセル上にランダムに分散している。ランダムに分散されたクラスタ及びそのためのデータ(例えば、画像)は、空間的に、時間的に、信号的に、又はそれらの任意の組み合わせによってビニングされ得る。したがって、スペシャリスト鮮鋭化マスクは、異なってビニングされランダムに分散されたクラスタの異なる構成のために構成され訓練され得る。パターン化された表面では、クラスタは、固定場所を有するパターン化されたウェル上に位置する。パターン化されたウェル及び構成要素クラスタは、空間的に、時間的に、信号的に、又はそれらの任意の組み合わせによってビニングされ得る。したがって、スペシャリスト鮮鋭化マスクは、異なってビニングされパターン化されたクラスタの異なる構成のために構成され訓練され得る。開示されるスペシャリスト鮮鋭化マスクは、配列決定動作の異なる構成に対して生成される画像データの信号対雑音比を改善及び/又は最大化するように訓練される、構成固有鮮鋭化マスクである。これらの構成は、フローセル上の異なる領域に関連する空間的構成、配列決定動作の異なる配列決定/撮像サイクルに関連する時間的構成、撮像データにおいて観察/符号化される信号プロファイルの異なる分散/パターンに関連する信号分散構成、又はそれらの組み合わせであり得る。本開示によって包含される構成の他の例は、撮像タイプ、色チャネルタイプ、レーザタイプ、光学系タイプ、レンズタイプ、光学フィルタタイプ、照明タイプ、ライブラリタイプ、試料タイプ、インデックスタイプ(第1のインデックス読み取り対第2のインデックス読み取り)、読み取りタイプ(順方向リード対逆方向リード)、試料の物理的特性、ノイズタイプ(例えば、バブル)、及び試薬タイプによって、配列決定データをセグメント化し、対応するスペシャリスト鮮鋭化マスクを訓練することを含む。
【0105】
図8Aは、フローセルの対応する領域に対して生成された配列決定画像の対応するセクションに使用される複数の鮮鋭化マスク820を示し、フローセルの各タイルは3×3のサブタイル領域に分割され、各サブタイル領域は、1つ以上の対応する鮮鋭化マスクを割り当てられる。
【0106】
例えば、図8Aでは、フローセルの2つの例示的なタイル812及び814が示されており(タイル及びフローセルの更なる考察については図2を参照)、フローセルは、図7の配列決定画像702を生成する。タイル812は、図示されるように、3×3のサブタイル領域812a、812b、...、812iに分割される。同様に、タイル814は、図示されるように、3×3のサブタイル領域814a、814b、...、814iに分割される。同様に、フローセルの他のタイルも、対応する3×3のサブタイル領域に分割されてもよい。単なる例として、タイルが対応する画像内に9000×9000ピクセルを有する場合、画像は、各サブタイル領域が3000×3000ピクセルを有するようにサブタイル領域に分割される。
【0107】
各タイルは、複数のクラスタを含む。例えば、画像の各3000×3000ピクセルサブタイル領域は、対応する複数のクラスタの画像を含む。
【0108】
タイルの各サブタイル領域には、1つ以上の対応する鮮鋭化マスクが割り当てられる。例えば、図8Aの例では、2つの色チャネル802A、802Bが単に一例として想定されているが、任意の異なる数の色チャネルがあってもよい。例えば、鮮鋭化マスク820Axは色チャネル802Aに対応し、鮮鋭化マスク820Bxは色チャネル802Bに対応し、鮮鋭化マスク820Axにおける「A」は、これらのマスクが色チャネル802Aの画像を処理するためのものであることを示唆し、鮮鋭化マスク820Bxにおける「B」は、これらのマスクが色チャネル802Bの画像を処理するためのものであることを示唆する。
【0109】
更に、マスク820Ax及び820Bxにおけるインデックス「x」は、マスクが使用されるべき対応するサブタイル812x、814xに関連付けられる。例えば、マスク820Aaは、タイル812のサブタイル812aから生成された配列決定画像702のセクションに対して使用され、かつタイル814のサブタイル814aに対しても使用され、マスク820Baは、タイル812のサブタイル812aから生成された配列決定画像702のセクションに対して使用され、かつタイル814のサブタイル814aに対しても使用され、マスク820Abは、タイル812のサブタイル812bから生成された配列決定画像702のセクションに対して使用され、かつタイル814のサブタイル814bに対しても使用されるなどである。
【0110】
したがって、要約すると、例えば、マスク820Aaは、色チャネル802Aに対応する配列決定画像702のセクションに対して、かつサブタイル領域812a及び814aに対して使用される。マスク820Baは、色チャネル802Bに対応する配列決定画像702のセクションに対して、かつサブタイル領域812a及び814aに対して使用され、マスク820Abは、色チャネル802Aに対応する配列決定画像702のセクションに対して、かつサブタイル領域812b及び814bに対して使用され、マスク820Bbは、色チャネル802Bに対応する配列決定画像702のセクションに対して、かつサブタイル領域812b及び814bに対して使用されるなどである。
【0111】
同じ鮮鋭化マスクが、複数のタイルの対応するサブタイル領域に使用されることに留意されたい。例えば、鮮鋭化マスク802Aa及び802Baは、フローセルの複数又は全てのタイルの左上サブタイルに使用され、鮮鋭化マスク802Ae及び802Beは、フローセルの複数又は全てのタイルの中央サブタイルに使用されるなどである。
【0112】
したがって、各タイルが3×3のサブタイル領域に分割され、2つの色チャネルが想定される図8Aの例では、92、又は18個の鮮鋭化マスクがある。一般に、各タイルがN個のサブタイル領域に分割され、M個の色チャネルが想定される場合、M×N個の鮮鋭化マスクがある。
【0113】
一例では、タイルのk×k(3×3など)のサブディビジョンは、全自動画像捕捉システムが配列決定画像を捕捉するために使用されるシナリオのために使用されてもよい。例えば、全自動画像捕捉システムでは、タイルの中心は、例えば歪み効果、タイルの異なるセクションへの異なる合焦などに起因して、タイルのエッジとはわずかに異なって捕捉されてもよい。したがって、タイルのエッジは、図8Aに示すように、タイルの中心とは異なる鮮鋭化マスクを有することができる。更に、フローセルに対する光学系の傾きなどの要因により、タイルの異なるエッジからの画像もわずかに異なる可能性もある(すなわち、各エッジが画像内で同様に表されないことがある)。したがって、図8Aの例では、9個のサブタイルの各々は、異なる関連付けられた鮮鋭化マスクを有することができる。
【0114】
図8Bは、フローセルの対応する領域に対して生成された配列決定画像の対応するセクションに使用される複数の鮮鋭化マスク840を示し、フローセルの各タイルは1×9のサブタイル領域に分割され、各サブタイル領域は、1つ以上の対応する鮮鋭化マスクを割り当てられる。
【0115】
例えば、図8Bでは、フローセルの2つの例示的なタイル832及び834が示されており(タイル及びフローセルの更なる考察については図2を参照)、フローセルは、図7の配列決定画像702を生成する。タイル832は、図示されるように、1×9のサブタイル領域832a、832b、...、832iに分割される。同様に、タイル834は、図示されるように、1×9のサブタイル領域834a、834b、...、834iに分割される。同様に、フローセルの他のタイルも、対応する1×9のサブタイル領域に分割されてもよい。
【0116】
単なる例として、タイルが対応する画像内に9000×9000ピクセルを有する場合、画像は、各サブタイル領域が9000×1000ピクセルを有するようにサブタイル領域に分割される。画像の各9000×1000ピクセルサブタイル領域は、対応する複数のクラスタの画像を含む。
【0117】
タイルの各サブタイル領域には、1つ以上の対応する鮮鋭化マスクが割り当てられる。例えば、図8Bの例(図8Aの例と同様)では、2つの色チャネル804A、804Bが単に一例として想定されているが、任意の異なる数の色チャネルがあってもよい。例えば、鮮鋭化マスク840Axは色チャネル804Aに対応し、鮮鋭化マスク840Bxは色チャネル804Bに対応し、鮮鋭化マスク840Axにおける「A」は、これらのマスクが色チャネル804Aの画像を処理するためのものであることを示唆し、鮮鋭化マスク840Bxにおける「B」は、これらのマスクが色チャネル804Bの画像を処理するためのものであることを示唆する。
【0118】
更に、マスク840Ax及び840Bxにおけるインデックス「x」は、マスクが使用されるべき対応するサブタイル832x、834xに関連付けられる。例えば、マスク840Aaは、タイル832のサブタイル832aから生成された配列決定画像702のセクションに対して使用され、かつタイル834のサブタイル834aに対しても使用され、マスク840Baは、タイル832のサブタイル832aから生成された配列決定画像702のセクションに対して使用され、かつタイル834のサブタイル834aに対しても使用され、同様に、マスク840Ab及び840Bbは、タイル832のサブタイル832bから生成された配列決定画像702のセクションに対して使用され、かつタイル834のサブタイル834bに対しても使用される。
【0119】
マスク840Aaは、色チャネル804Aに対応する配列決定画像702のセクションに対して、かつサブタイル領域832a及び834aに対して使用され、マスク840Baは、色チャネル804Bに対応する配列決定画像702のセクションに対して、かつサブタイル領域832a及び834aに対して使用され、マスク840Abは、色チャネル804Aに対応する配列決定画像702のセクションに対して、かつサブタイル領域832b及び834bに対して使用され、マスク840Bbは、色チャネル804Bに対応する配列決定画像702のセクションに対して、かつサブタイル領域832b及び834bに対して使用されるなどである。
【0120】
したがって、各タイルが1×9のサブタイル領域に分割され、2つの色チャネルが想定される図8Bの例では、92、又は18個の鮮鋭化マスクがある。一般に、各タイルがN個のサブタイル領域に分割され、M個の色チャネルが想定される場合、M×N個の鮮鋭化マスクがある。
【0121】
一例では、タイルの1×k(1×9など)のサブディビジョンは、線走査画像捕捉システムが配列決定画像を捕捉するために使用されるシナリオのために使用されてもよい。例えば、線走査画像捕捉システムでは、画像の様々な垂直サブ領域が異なって捕捉され得る。したがって、画像は、図8Bに示されるように、異なる垂直サブ領域に分割され、各サブ領域には、それ自体の対応する鮮鋭化マスクが割り当てられる。
【0122】
図8Cは、フローセルの対応する領域に対して生成された配列決定画像の対応するセクションに使用される複数の鮮鋭化マスク860を示し、フローセルの各タイルは複数のサブタイル領域に分割され、タイル内に周期的に生じる同様のサブ領域には、1つ以上の対応する鮮鋭化マスクが割り当てられる。
【0123】
例えば、図8Cでは、フローセルの2つの例示的なタイル852及び854が示されており、フローセルは、図7の配列決定画像702を生成する。タイル852は、3×3のサブタイル領域に分割され、各サブタイルの角領域は、灰色の陰影を使用して示される。タイル852及び858の様々なサブタイルにおける陰影領域は、陰影領域855aとして標識され、タイル852及び858の様々なサブタイルにおける非陰影領域は、非陰影領域855bとして標識される。
【0124】
図8Cの例では、陰影領域855aは、特定の周期性(例えば、各サブタイルの左上隅)で生じるが、これは一例にすぎず、陰影領域855aは、任意の他のタイプの周期性でも生じることができる。例えば、タイルのピクセルの2つの水平ラインは、陰影領域855aに含まれ得、その後に、ピクセルの5つの水平ラインを含む非陰影領域855bが続き、このパターンが繰り返され得る。したがって、この例では、陰影領域855aのピクセルの2つのラインと、非陰影領域855bのピクセルの5つのラインとがインターリーブされ、繰り返しパターンで生じる。陰影領域855a及び非陰影領域855bの任意の他のパターンも可能であり得る。単に一例として、1つおきのピクセル(第4行)とピクセル(第5列及び第6列)との交点を陰影領域855aに含めることができ、陰影領域のこのパターンを画像全体にわたって繰り返すことができる。
【0125】
一例では、図8Cに示される陰影領域及び非陰影領域の繰り返しパターンの使用は、CMOS(相補的金属酸化物半導体)画像捕捉センサが配列決定画像を捕捉するために使用されるシナリオに使用することができる。例えば、いくつかの配列決定プラットフォームは、埋め込みCMOSセンサを有するフローセルを使用する。配列決定化学は、CMOSセンサの上で直接実施され、次いで、センサ上の蛍光分子を励起するLEDの助けを借りて撮像される。一例では(例えば、撮像及び化学の両方を満たす設計及びコスト要件に起因して)、CMOSセンサ読み出し回路は、「暗ピクセル」の繰り返し行及び列としてセンサ自体に埋め込まれ、そのような暗ピクセルの周期的パッチは、図8Cの陰影領域855aとして象徴的に表される。この設計パターンは、図8Cに関して論じたように、特定の周期性で異なる抽出カーネルの使用を必要とする固有の強度抽出チャレンジを作成する。フローセル内に埋め込まれたCMOSセンサの使用は、本明細書に完全に記載されているかのように参照により組み込まれる、国際公開第2020/236945号に見出されてもよい。
【0126】
タイルの各陰影領域855aには、1つ以上の対応する鮮鋭化マスクが割り当てられる。例えば、図8Cの例(図8Aの例と同様)では、2つの色チャネル806A、806Bが単に一例として想定されているが、任意の異なる数の色チャネルがあってもよい。例えば、鮮鋭化マスク860Axは色チャネル806Aに対応し、鮮鋭化マスク860Bxは色チャネル806Bに対応し、鮮鋭化マスク840Bxにおける「A」は、これらのマスクが色チャネル806Aの画像を処理するためのものであることを示唆し、鮮鋭化マスク860Bxにおける「B」は、これらのマスクが色チャネル806Bの画像を処理するためのものであることを示唆する。
【0127】
更に、マスク860Ax及び860Bxにおけるインデックス「x」は、マスクが使用されるべき対応する陰影/非陰影領域855xに関連付けられる。例えば、マスク860Aa及び860Baは、様々なタイルの陰影領域855aから生成された配列決定画像702のセクションに使用される。同様に、マスク860Ab及び860Bbは、様々なタイルの陰影領域855bから生成された配列決定画像702のセクションに使用される。
【0128】
したがって、マスク860Aaは、色チャネル806Aに対応する配列決定画像702のセクションに対して、かつ陰影領域855aに対して使用され、マスク860Baは、色チャネル806Bに対応する配列決定画像702のセクションに対して、かつ陰影領域855aに対して使用され、マスク860Abは、色チャネル806Aに対応する配列決定画像702のセクションに対して、かつ非陰影領域855bに対して使用され、マスク860Bbは、色チャネル806Bに対応する配列決定画像702のセクションに対して、かつ非陰影領域855bに対して使用される。
【0129】
したがって、各タイルが陰影領域及び非陰影領域に分割され、2つの色チャネルが想定される図8Cの例では、22、又は4個の鮮鋭化マスクがある。
【0130】
訓練
再び図7を参照すると、ベースコーラー704は、配列決定画像702を鮮鋭化するために使用される1つ以上の鮮鋭化マスク706(例えば、図8A図8Cに関して論じられた鮮鋭化マスクなど)を生成する(鮮鋭化動作については、図10A図10K及び図11に関して更に詳細に論じられる)。鮮鋭化動作は、対応する特徴マップを生成するための配列決定画像からの強度抽出と、本明細書において後で更に詳細に論じられるように、クラスタのサブピクセル場所に基づいて、様々なクラスタの重み付けされた特徴値を割り当てるための後続の補間動作と、を含む。次いで、対応する割り当てられた重み付けされた特徴値を有するクラスタが、ベースコールされる。
【0131】
一実施態様では、ベースコーラー704によって生成される鮮鋭化マスク706の数は、図8A図8Cに関して論じられるように、実施態様固有であってもよい。例えば、各色チャネルは、対応する鮮鋭化マスク706を有してもよい。別の例では、配列決定画像702が生成されるフローセルのタイルは、図8A図8Cに関して更に詳細に論じられるように、タイルの個々のセクションのための専用鮮鋭化マスクを用いて、2つ以上のセクションに分割されてもよい。
【0132】
更に詳細に論じられるように(例えば、本明細書の後の図10Fでは)、鮮鋭化マスク706は、畳み込みカーネルとして作用し、鮮鋭化マスクは、画像の対応するセクションと畳み込まれる。単なる一例として、図8Aを参照すると、鮮鋭化マスク820Aaは、色チャネル802Aのサブタイル812aによって生成される配列決定画像702のセクションと畳み込まれる。訓練の一実施態様では、各鮮鋭化マスク706の係数は、画像の対応するセクションからのデータの対応するサブセットに対する最小二乗推定を使用して判定される。したがって、再び図7及び図8Aを参照すると、例えば、色チャネル802Aに対するサブタイル812aからのデータは、鮮鋭化マスク820aを生成及び/又は訓練するために使用される。
【0133】
図7に示すように、ベースコーラー704への入力は、フローセルの様々なタイルからの配列決定画像の生のセンサピクセルである。各鮮鋭化マスク706は、訓練から学習された複数の係数を有する。一実施態様では、鮮鋭化マスクにおける係数の数は、クラスタをベースコールするために使用されるセンサピクセルの数に対応する。一例では、鮮鋭化マスクは、k×k個の係数を有する正方行列であり、kは、3、5、7、9などの適切な正の整数である。したがって、各鮮鋭化マスク706は、k個の係数を有する。
【0134】
訓練は、信号対ノイズ比を最大化するように、ベースコールされるクラスタからの強度放射及び1つ以上の隣接クラスタからの強度放射を表すピクセルの強度値を混合/結合するように構成されている鮮鋭化マスク係数を作り出す。信号対ノイズ比において最大化された信号は、標的クラスタからの強度放射であり、信号対ノイズ比において最小化されたノイズは、隣接するクラスタからの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを(例えば、背景強度放射を説明するために)加えたものである。鮮鋭化マスク係数は重みとして使用され、混合/結合は、鮮鋭化マスク係数とピクセルの強度値との間の要素ごとの乗算を実行して、ピクセルの強度値の重み付けされた和(例えば、特徴マップ内の特徴、図10E及び図10Fを参照)を計算することを含む。
【0135】
訓練中に、ベースコーラー704は、一実施態様によれば、最小二乗推定によって信号対ノイズ比を最大化することを学習する。最小二乗推定を使用して、ベースコーラー704は、対象ウェル周辺のピクセル強度と所望の出力とから共有鮮鋭化マスク係数を推定するように訓練される。最小二乗推定は、二乗誤差を最小にし、ノイズ増幅の効果を考慮した係数を出力するので、この目的に適している。
【0136】
所望の出力は、強度チャネルがオンである場合にはウェル(すなわち、クラスタ)場所(点源)におけるインパルスであり、強度チャネルがオフである場合には背景レベルである。いくつかの実施態様では、グラウンドトゥルース712が、所望の出力を生成するために使用される。一例では、グラウンドトゥルース712は、グラウンドトゥルースベースコールを含む。追加的に又は代替的に、いくつかの例では、グラウンドトゥルースは、図9Aに示されるように、及び本明細書において更に詳細に論じられるように、各塩基に対するクラウドの中心(又は平均)を含む。
【0137】
いくつかの実施態様において、グラウンドトゥルース712は、ウェル当たりのDCオフセット、増幅係数、ポリクローナル性の程度、及び最小二乗推定に含まれるゲインオフセットパラメータを説明するように修正される。一実施態様では、訓練中に、DCオフセット、すなわち固定オフセットが最小二乗推定値の一部として計算される。推論の間、DCオフセットはバイアスとして各鮮鋭化マスク計算に加算される。
【0138】
一実施態様では、所望の出力は、Illuminaのリアルタイム分析(Real-time Analysis、RTA)ベースコーラーを使用して推定される。RTAに関する詳細は、米国特許出願第13/006,206号に見出すことができ、これは、本明細書に完全に記載されているかのように参照により組み込まれる。ベースコール誤差は、多くの訓練例で平均化される。別の実施態様では、グラウンドトゥルース712は、位置合わせされたゲノムデータを使用して供給されるが、位置合わせされたゲノムデータは、ノイズを平均化するための複数の配列決定プラットフォーム及び配列決定動作から得られた知識を組み込んだ参照ゲノム及び真実情報を使用することができるので、より良い品質を有する。
【0139】
グラウンドトゥルース712は、それぞれ、塩基A、C、G、及びTの強度プロファイルを確実に表す塩基固有の強度値(又は本明細書で後で論じられる特徴値)である。RTAのようなベースコーラーは、配列決定画像702を処理し、ベースコールごとに色ごとの強度値/出力を作り出すことによってクラスタをベースコールする。色ごとの強度値は、塩基ごとの強度値とみなすことができる。これは、化学のタイプ(例えば、2色化学又は4色化学)に応じて、色が塩基A、C、G、及びTの各々にマップされるためである。最も近い強度プロファイルが一致する塩基が呼び出される。
【0140】
図9Aは、訓練中の誤差計算のためのグラウンドトゥルース値として使用される塩基ごとの標的を中心に含む塩基ごとのガウスフィットの一実施態様を示す。訓練データ(例えば、数十、数百、数千、又は数百万のベースコール)内の多数のベースコールに対してベースコーラーによって作り出された塩基ごとの強度出力は、塩基ごとの強度分布を作り出すために使用される。図9Aは、それぞれ、塩基A、C、G、Tの塩基ごとの強度出力の確率分布である4つのガウス雲のチャートを示している。4つのガウス雲の中心における強度値は、それぞれ、塩基A、C、G、及びTに対するグラウンドトゥルース712のグラウンドトゥルース強度標的(又は特徴値標的)として使用され、本明細書において標的(例えば、強度又は特徴値標的)と呼ばれる。
【0141】
訓練中に、ベースコーラー704に供給される入力画像データは、グラウンドトゥルースベースコールとして塩基「A」で注釈されることを考慮する。グラウンドトゥルース712は、それぞれ、塩基A、C、G、及びTの強度プロファイルを確実に表すベース固有の強度値も含む。したがって、例えば、グラウンドトゥルース712は、図9Aに示されるように、塩基Aに対して、塩基Aについての平均強度又は平均特徴値の座標(すなわち、図9Aの緑クラウドの中心)も含む(特徴値は、本明細書において後で論じられる)。次いで、ベースコーラー704の標的/所望の出力は、図9Aの緑クラウドの中心における強度値又は特徴値、すなわち、塩基Aに対する強度標的である。同様に、塩基「C」に対して、グラウンドトゥルースは、図9Aの青クラウドの中心における強度値又は特徴値、すなわち、座標(Cx,Cy)を有する塩基Cに対する強度標的(又は特徴値標的)を含む。同様に、塩基「T」に対して、グラウンドトゥルースは、図9Aの赤クラウドの中心における強度値又は特徴値、すなわち、座標(Tx,Ty)を有する塩基Tに対する強度標的(又は特徴値標的)を含む。また、塩基「G」に対して、グラウンドトゥルースは、図9Aの茶色の雲の中心における強度値又は特徴値すなわち、座標(Gx,Gy)を有する基数Gに対する強度標的(又は特徴値標的)を含む。
【0142】
したがって、ベースコーラー704の訓練中の標的又は所望の出力は、訓練データにおいて平均化された後の各塩基A、C、G及びTに対する平均強度(又は平均特徴値)である。一実施態様では、訓練器714は最小二乗推定を使用して鮮鋭化マスク706の係数を適合させ、出力誤差をこれらの強度標的に向けて最小化する。
【0143】
一実施態様では、訓練中に、ベースコーラー704は、所与の鮮鋭化マスク内の係数を、所与の塩基で標識された配列決定画像のピクセルに適用する。これは、係数をピクセルの強度値を用いて要素ごとに乗算し、特徴マップの強度値の重み付き和を生成することを含み、係数は重みとして機能し/作用し/使用される。特徴マップは、対応する特徴値を有する様々な特徴を含む。クラスタの中心は、配列決定画像702のピクセルの中心と位置合わせされなくてもよいことに留意されたい。そのようなずれを説明するために、配列決定画像702から生成された特徴マップにおいて(特徴マップは、鮮鋭化マスクを画像の対応するセクションと畳み込むことによって生成される)、クラスタに割り当てられた重み付けされた特徴値は、バイリニア補間によって生成され、例えば、クラスタに対応する重み付けされた特徴値を生成するために隣接する特徴が補間され、これについては本明細書において更に詳細に論じられる。次いで、クラスタに対応する補間された特徴値は、そのクラスタについてのベースコーラー704の予測された出力となる。次に、コスト/誤差関数(例えば、二乗誤差の和(sum of squared errors、SSE))に基づいて、(例えば、所与の塩基に対して観測された平均強度として対応する強度ガウスフィットの中心からの)補間された重み付き特徴値と所与の塩基に対して判定された強度標的と間の誤差(例えば、最小二乗誤差、最小平均二乗誤差)が計算される。SSEのようなコスト関数は、適合的アプローチを用いて鮮鋭化マスク係数を推定するために使用される微分可能な関数であり、したがって、係数に関する誤差の導関数を評価することができ、これらの導関数を用いて、誤差を最小化する値で係数を更新する。このプロセスは、更新された係数が誤差を減少させなくなるまで繰り返される。他の実施態様では、ベースコーラー704を訓練するためにバッチ最小二乗法が使用される。
【0144】
例えば、図9Aの緑クラウドの中心、すなわち、塩基Aに対する強度標的が、塩基Aベースコールのための標的又は所望の出力(例えば、標的特徴値)である(Ax、Ay)であると想定する。配列決定動作中に、クラスタ904が座標(Ix,Iy)で表される重み付けされた特徴値を有すると想定する。一実施形態では、ベースコーラー704は、所与の鮮鋭化マスクにおける係数を更新し、そのため、クラスタ904の強度が座標(Ix,Iy)から座標(Ax,Ay)に転置される。したがって、訓練は、座標(Ax,Ay)と座標(Ix,Iy)との間の距離を最小化又は低減することを目的とする。
【0145】
他の例では、図9Aに示す塩基ごとの強度分布/ガウス雲は、ウェルごとに生成され、DCオフセット、増幅係数、及び/又はフェージングパラメータを追加することによってノイズを補正することができる。このようにして、特定のウェルのウェル場所に応じて、対応する塩基ごとのガウス雲を使用して、その特定のウェル(又はウェルに対応するクラスタ)に対する標的強度値を生成することができる。
【0146】
一実施態様では、バイアス項が、ベースコーラー704の出力を作り出すドット積に加算される。訓練中、バイアスパラメータは、鮮鋭化マスク、すなわち、最小二乗又は最小平均二乗(least mean squares、LMS)を学習するために使用される同様のアプローチを使用して推定することができる。いくつかの実施態様では、バイアスパラメータの値は、1に等しい一定値であり、すなわち、入力ピクセル強度とともに変化しない値である。係数セットごとに1つのバイアスがある。バイアスは訓練中に学習され、その後、推論中に使用するために固定される。学習されたバイアスは、各鮮鋭化マスクの学習係数とともに、推論中の全ての計算で使用されるDCオフセットを表す。このバイアスは、異なるクラスタサイズ、異なる背景強度、変化する刺激応答、変化する焦点、変化するセンサ感度、及び変化するレンズ収差によって引き起こされるランダムノイズを説明する。
【0147】
更に他の決定指向の実施態様では、ベースコーラー704の出力は、訓練目的に対して正しいと推定される。
【0148】
訓練器714は、ベースコーラー704を訓練し、複数の訓練技法を使用して、鮮鋭化マスク706の訓練された係数を生成することができる。訓練技法の例として、最小二乗推定、最小二乗法、最小平均二乗、及び再帰的最小二乗が挙げられる。最小二乗技法では、残差の二乗和が最小になるように、関数のパラメータがデータセットに最も適合するように調整される。他の実施態様では、他の推定アルゴリズム及び適合アルゴリズムを使用してベースコーラー704を訓練することができる。
【0149】
ベースコーラー704は、適合のオフラインモード又はオンラインモードで訓練され得る。一実施態様によれば、ベースコーラー704の訓練された係数は、以下のバッチ最小二乗論理を使用して生成及び/又は更新される。
【0150】
【数1】
【0151】
上記の式において、鮮鋭化マスク係数は、ベータハット
【0152】
【数2】
である。例えば、鮮鋭化マスク706がk×kの寸法を有する場合、ベータハット
【0153】
【数3】
は、(k×k)の寸法を有するベクトルである。したがって、3×3の寸法の鮮鋭化マスクの場合、ベータハット
【0154】
【数4】
は、サイズ9のベクトルである。
【0155】
Xは、サイズm×k×kのピクセル値、すなわち、m行及び(k×k)列を有する行列であり、mは、適切な正の整数である。行列Xの各行は、1つのクラスタに対応し、各列は、サブピクセル補間のために調整した後の画像ピクセルの値である。
【0156】
yは、各クラスタの重心場所に対応するサイズmのベクトルである。例えば、yは、全ての訓練例に対する標的出力であり、すなわち、各値は、訓練例の真に依存するオン/オフクラウドの強度中心である。そして、ベータハットは、二乗残差の和を最小化する係数のセットである。
【0157】
一例では、ベースコーラー704をオンラインモードで訓練して、鮮鋭化マスク706の係数を適合させて、例えば、配列決定マシンが動作し、配列決定動作が周期的に進行している間に、温度(例えば、光学歪み)、焦点、化学、機械固有の変動などの変化を追跡することもできる。オンラインモードでは、鮮鋭化マスク706の訓練された係数は、適合技法を使用して更新される。オンラインモードでは、確率的勾配降下法の一形態である最小平均二乗法を訓練アルゴリズムとして使用する。鮮鋭化マスク706の係数のオンライン適合に関する更なる詳細は、例えば図12及び図13に関して、本明細書において後で論じられる。
【0158】
最小平均二乗法では、各係数に対する二乗誤差の勾配を用いて、二乗誤差の期待値であるコスト関数を最小化する方向に係数を移動させる。これは非常に低い計算コストを有し、係数当たりの乗算及び累算演算のみが実行される。係数を除いて、長期保存は必要ない。最小平均二乗法は、大量のデータを処理するのに適している(例えば、何十億ものクラスタからのデータを並列処理する)。最小平均二乗法の拡張には、正規化最小平均二乗法及び周波数領域最小平均二乗法が含まれ、これらもここで使用することができる。いくつかの実施態様では、最小平均二乗法は、本発明者らの決定が正しいと仮定する決定指向の方法、すなわち、本発明者らのエラー率が非常に低く、小さいmu値が不正確なベースコールによる妨害された更新をフィルタリングする方法で適用することができる。
【0159】
図9Bは、例えばオフライン又はオンラインモードを使用して、ベースコーラー104を訓練するために使用され得る適合技法の一実施態様を示す。ここで、論理は、y=x.h+dであり、xは、入力ピクセル強度、hは、鮮鋭化マスク係数、dは、DCオフセットである。一実施態様では、x及びhはそれぞれ、長さ81を有する行及び列ベクトルである。このベクトルモデルは,入力ピクセルと係数を表す9×9行列の内積に相当する。コストは二乗誤差の期待値である。勾配の更新により、誤差二乗の期待値を減少させる方向に各係数が移動する。これにより、次の更新が行われる。
【0160】
【数5】
【0161】
ほとんどのシステムでは、期待値関数E{x(n)e(n)}を近似しなければならない。これは、以下の非バイアス推定器を用いて行うことができる。
【0162】
【数6】
【0163】
Nは、推定するサンプルの数を示す。最も単純な場合は、N=1である。
【0164】
【数7】
【0165】
この単純なケースの場合、更新アルゴリズムは以下のようである。
【0166】
【数8】
【0167】
実際、これは、LMSフィルタに対する更新アルゴリズムを構成する。
【0168】
上記の式において、hは、鮮鋭化マスク係数のベクトルであり、xは、入力強度のベクトルであり、eは、xにおける値を使用して実施された計算の誤差であり、すなわち、出力ごとにただ1つの誤差項である。
【0169】
この更新を適用すると、係数の新しい推定値が生成される。この推定値は、平均二乗誤差(mean squared error、MSE)を低減する方向に(平均して)係数を移動する。いくつかの実施態様では、Muは、適合レート/収束速度を変更するために使用される小さい定数である。DC項の更新は、同様の方式で計算することができる。ゲイン項の更新も同様の方式で計算することができる。
【0170】
いくつかの実施態様では、線形補間が係数セットに適用されるので、更新は、以下の様式でわずかに異なって適用される。
h(q,n+1)=h(q,n)+lambda_q.mu.x(n).e(n)
【0171】
上式において、h(q,n)はサイクルnにおける重みqであり、lambda_qは係数の特定のセットに対する線形補間重みであり、二次元における線形補間による出力当たり4回の更新を含むことができる。
【0172】
再帰最小二乗法は、最小二乗法を再帰アルゴリズムに拡張したものである。
【0173】
空間クロストーク減衰器
図10A図10Kは、図7図8Cの訓練された鮮鋭化マスク706を使用して、センサピクセルからの空間クロストークを減衰させ、クロストーク補正されたセンサデータを使用してクラスタをベースコールする様々な実施態様を共同で示す。具体的には、図10Aは、タイルのサブタイル(例えば、タイル812のサブタイル812a、図8Aを参照)からの配列決定画像702のセクション1000を示し、様々なクラスタ中心が対応するピクセルの中心に対してオフセットされている。
【0174】
サブタイルは、配列決定画像706の多数のピクセルを生成する可能性が高いが、サブタイルに対応する図10Aのセクション1000は、簡略化のために、数個のピクセルのみを含む。
【0175】
図10Aは、サブタイル内の複数のクラスタの中心を更に示しており、クラスタの中心は、配列決定画像706のセクション1000上に重畳されている。また、図10に表示されたセクション1000は、特定の色チャネルについてのものであると仮定する。2つの異なる撮像チャネル、すなわち赤色チャネル及び緑色チャネルを使用するシーケンサの光学システムを考える(ただし、シーケンサは、1、3、4、又はそれ以上など、任意の異なる数の色チャネルを生成してもよい)。次いで、各配列決定サイクルにおいて、光学システムは、赤色チャネル強度を有する赤色画像及び緑色チャネル強度を有する緑色画像を作り出し、これらは一緒になって(典型的な色画像のRGBチャネルのように)単一の配列決定画像を形成する。一例では、図10に示されるピクセルは、特定の色チャネルについてのものである。
【0176】
図10Aでは、クラスタのいくつかは、その中心が黒いドットを使用して示されており、標識されている。例えば、X-Y座標平面において、クラスタ1011は、場所(x1,y1)に配設された中心を有し、クラスタ1012は、場所(x2,y2)に配設された中心を有し、クラスタ1013は、場所(x3,y3)に配設された中心を有し、クラスタ1014は、場所(x4,y4)に配設された中心を有し、クラスタ1015は、場所(x5,y5)に配設された中心を有する。
【0177】
一例では、タイル上のクラスタの場所(例えば、座標)は、基準マーカーを使用して識別される。生物学的検体が撮像される固体支持体は、固体支持体に付着されたプローブに対する検体又はその画像の配向の判定を容易にするために、そのような基準マーカーを含むことができる。例示的な基準としては、限定されないが、ビーズ(蛍光部分又は標識されたプローブが結合することができる核酸などの部分を有するか又は有さない)、既知の又は判定可能な特徴に結合した蛍光分子、又は形態学的形状を蛍光部分と組み合わせる構造が挙げられる。例示的な基準は、参照により本明細書に組み込まれる米国特許出願公開第2002/0150909号に記載されている。したがって、一例では、基準マーカーを使用して、配列決定画像706のセクション1000に対するクラスタの場所、及び図10Aに示すクラスタの座標を判定する。
【0178】
クラスタの中心は、対応するピクセルの中心と一致しなくてもよいことに留意されたい。例えば、クラスタ1011の中心は、ピクセル1001内にあるが、中心から外れており、クラスタ1012の中心は、ピクセル1002内にあるが、中心から外れており、クラスタ1013の中心は、ピクセル1003内にあるが、中心から外れており、クラスタ1014の中心は、ピクセル1004内にあるが、中心から外れており、クラスタ1015の中心は、ピクセル1005内にあるが、中心から外れている。
【0179】
図10Bは、クラスタ対ピクセル信号1033の一例を可視化している。一実施態様では、センサピクセルはピクセル平面内にある。空間クロストークは、試料平面(例えば、フローセル)におけるクラスタの周期的な分布1037によって引き起こされる。一実施態様では、クラスタは、フローセル上に菱形形状で周期的に分布され、フローセルのウェル上に固定化される。別の実施態様では、クラスタは、六角形状のフローセル上に周期的に分布され、フローセルのウェル上に固定化される。クラスタからの信号コーン1035は、少なくとも1つのレンズ(例えば、オーバヘッド又は隣接するCCDカメラの1つ以上のレンズ)を介して、センサピクセルのローカルグリッドに光学的に結合される。
【0180】
クラスタは、菱形及び六角形の他に、正方形、菱状形、三角形などの他の規則的な形状に配置することができる。更に他の実施態様では、クラスタは、ランダムで非周期的な配置で試料平面上に配置される。当業者は、クラスタが、特定の配列決定の実施態様によって必要とされるように、任意の配置で試料平面上に配置され得ることを理解する。
【0181】
図10Cは、クラスタ対ピクセル信号重なり合いの一例を可視化する。信号コーン1035(図10Bを参照)は、重なり合ってセンサピクセルに衝突し、空間クロストーク1037を作成する。
【0182】
図10Dは、クラスタ信号パターンの一例を可視化する。一実施態様では、クラスタ信号パターンは、減衰パターン1039に従う。この場合、クラスタ信号は、クラスタ中心で最も強く、クラスタ中心から遠ざかって伝播するにつれて減衰する。
【0183】
図10Eは、畳み込み演算1030Aaを示し、鮮鋭化マスク820Aaは、配列決定画像の対応するセクションと畳み込まれて、対応する特徴マップを生成する。図10Eの例では、k×k(この例ではk=3であるが、kは別の適切な正の整数とすることができる)鮮鋭化マスク820Aa(図8Aを参照)が、色チャネル802Aについて、タイル812のサブタイル812aからの配列決定画像702のセクション1000とともに畳み込まれる(セクション1000を示す図10Aを参照)。図10Aと同様に、黒いドットのクラスタ中心は、配列決定画像702のセクション1000上に重畳されている。
【0184】
特徴マップ1042Aaは、畳み込み演算の結果として生成される。特徴マップ1042Aaは、タイル812のサブタイル812aに固有であり、色チャネル802Aについて固有であることに留意されたい。繰り返しになるが、黒いドットのクラスタ中心が特徴マップ1042Aa上に重畳されている。
【0185】
セクション1000は、w×hの寸法を有し、w(幅)及びh(高さ)は、サブタイル812aのサイズに応じて、例えば100,000又はそれ以上の大きさとすることができる。したがって、w及びhは、タイルを異なるサブタイルに区分することに基づく。一実施態様では、畳み込み1030Aaに起因して、特徴マップ1042Aaの次元数は、セクション1000の次元数とは異なる(例えば、それよりも小さくなる)ことができる。別の実施態様では、次元は、例えば、畳み込み1030Aaの前にセクション1000を適切にパディングすることによって、又は畳み込み演算の後に特徴マップ1042Aを適切にパディングすることによって、保存され得る。
【0186】
特徴マップ1042Aaは、複数の特徴を含み、各特徴は、配列決定画像702のセクション1000内のそれぞれのピクセルに対応する。単なる例として、特徴マップ1042Aaの特徴1051は、セクション1000のピクセル1001に対応する。例えば、畳み込み1030Aaの間、鮮鋭化マスク820Aaはセクション1000にわたって移動され、乗算及び加算演算が鮮鋭化マスク820Aaの各位置で実施される。特徴1051は、例えば鮮鋭化マスク820Aaがピクセル1001を中心とするセクション1000のパッチと畳み込まれるとき、乗算及び加算演算に起因して生成され、したがって、特徴1051はピクセル1001に対応する。同様に、特徴マップ1042Aaの他の特徴は、セクション1000のそれぞれのピクセルに対応する(すなわち、セクション1000のピクセルと特徴マップ1042Aaの特徴との間の1対1の位置マッピング)。
【0187】
図10Eの例では、クラスタの場所が、特徴マップ1042Aaの特徴上にも重畳されている。例えば、図10Aに示されるように、1つ以上のクラスタのクラスタ中心は、対応するピクセルの中心に対して中心から外れている。同様に、図10Eでは、1つ以上のクラスタのクラスタ中心も、対応する特徴の中心に対して中心から外れている。
【0188】
図10Fは、複数の畳み込み演算を示し、複数の鮮鋭化マスクの各々は、複数の特徴マップのうちの対応する1つを生成するために、配列決定画像702の複数のセクションのうちの対応するセクションと畳み込まれる。例えば、図8A及び図10Fを参照すると、鮮鋭化マスク820Aaは、色チャネル802Aについて、サブタイル812a対応する配列決定画像702のセクション1000と畳み込まれて、対応する特徴マップ1042Aaを生成し、この畳み込み演算は、図10Eに関して更に詳細に論じられる。同様に、鮮鋭化マスク820Abは、色チャネル802Aについて、サブタイル812bに対応する配列決定画像702のそれぞれのセクションと畳み込まれて、対応する特徴マップ1042Abを生成する。同様に、鮮鋭化マスク820Aiは、色チャネル802Aについて、サブタイル812iに対応する配列決定画像702のそれぞれのセクションと畳み込まれて、対応する特徴マップ1042Aiを生成する。一般的に言えば、鮮鋭化マスク820Axは、色チャネル802Aについて、サブタイル812xに対応する配列決定画像702のそれぞれのセクションと畳み込まれて、対応する特徴マップ1042Axを生成し、x=a、...、iである。図10Fの左側の畳み込み演算1030Ax(x=a、...、i)は、例示的な色チャネル802Aについてのものである。
【0189】
図10Fの右側の畳み込み演算1030By(y=a、...、i)は、例示的な色チャネル802Bについてのものである。例えば、鮮鋭化マスク820Baは、色チャネル802Bについて、サブタイル812aに対応する配列決定画像702のそれぞれのセクションと畳み込まれて、対応する特徴マップ1042Baを生成する。同様に、鮮鋭化マスク820Bbは、色チャネル802Bについて、サブタイル812bに対応する配列決定画像702のそれぞれのセクションと畳み込まれて、対応する特徴マップ1042Bbを生成するなどである。一般的に言えば、鮮鋭化マスク820Bxは、色チャネル802Bについて、サブタイル812yに対応する配列決定画像702のそれぞれのセクションと畳み込まれて、対応する特徴マップ1042Byを生成し、y=a、...、iである。
【0190】
また前で論じたように、2つの色チャネル802A及び802Bは単なる例であり、シーケンサは、1つの色チャネル、又は3つ以上の色チャネルなど、任意の異なる数の色チャネルを含むことができる。
【0191】
図10Gは、図10Eの特徴マップ1042Aaを更に詳細に示しており、特徴のいくつか及びクラスタの中心が標識されている。例えば、クラスタ1011は、場所(x1,y1)に中心を有し、特徴1051内にあり、クラスタ1012は、場所(x2,y2)に中心を有し、特徴1052内にあるなどである(配列決定画像のセクション1000におけるクラスタ中心座標については図10Aも参照)。
【0192】
図10Hは、図10E及び図10Gの特徴マップ1042Aaを示しており、標的クラスタ1011を含む特徴マップ1042Aaの部分1029が、拡大ビューで更に詳細に示されている。例えば、特徴マップ1042Aaの部分1029のビューは、拡大又はズームインされ、場所(x1,y1)におけるクラスタ1011の中心は、特徴マップ1042Aaの部分1029上に重畳される。
【0193】
論じたように、クラスタ1011は、特徴1051(図10Hにおいて1051eと標識されている)内にあるが、特徴1051eの中心に対して中心から外れている。特徴1051eを囲む8つの隣接する特徴1051a、...、1051d、1051f、...、1051iも標識されている。
【0194】
各特徴の中心は、図10H及びいくつかの後続の図において黒い正方形を使用して表される。図10Hに示すように、特徴1051aの中心は座標(xa,ya)を有し、特徴1051bの中心は座標(xb,yb)を有するなどであり、特徴1051iの中心は座標(xi,yi)を有する。
【0195】
図10Eに関して論じたように、図10Hの各特徴1051(a,e)は、畳み込み1030Aaによって生成される対応する特徴値を有する。図10Hを参照すると、一例では、クラスタ1011に重み付けされた特徴値が割り当てられ、重み付けされた特徴値は、適切な補間技法に基づいて割り当てられる。例えば、クラスタ1011の中心が特徴1051eの中心と一致する場合、特徴1051eの特徴値がクラスタ1011に割り当てられ得る。しかしながら、図10Hの例では、クラスタ1011の中心が特徴1051eの中心と一致しないので、クラスタ1011に割り当てられる重み付けされた特徴値は、特徴1051eだけでなく、特徴1051eに隣接する1つ以上の特徴によっても影響を受ける。
【0196】
一実施形態では、適切な補間技法を使用して、重み付けされた特徴値をクラスタ1011に割り当てるが、これは、例えば、(i)クラスタ1011の中心が存在する特徴1051eの特徴値、(ii)クラスタ1011の中心から閾値距離内にある1つ以上の隣接する特徴の特徴値、(iii)クラスタ中心と特徴中心との間の中心間距離、(iv)クラスタ中心とピクセル中心との間の中心間距離、及び(v)クラスタに関連付けられた中心間距離に基づく。
【0197】
図10Hは、特徴マップドメイン内にありすなわち、クラスタ1011が特徴マップ上に重畳された特徴マップ1042Aを示すことに留意されたい。特徴の中心及びクラスタ1011の中心の座標も示されている。名前が示すように、クラスタ中心と特徴中心との間の中心間距離は、クラスタの中心と特徴の中心との間の距離を指し、クラスタと特徴との間の中心間距離とも呼ばれる。例えば、クラスタ1011と特徴1051eとの間の中心間距離d1は、座標(x1,y1)と座標(xe,ye)との間の距離であり、例えば、以下のように判定される。
【0198】
【数9】
【0199】
同様に、クラスタ1011と任意の他の特徴との間の中心間距離も判定され得る。
【0200】
一方、クラスタ中心とピクセル中心との間の中心間距離(クラスタとピクセルとの間の中心間距離とも呼ばれる)は、クラスタの中心とピクセルの中心との間の距離を指す。例えば、図10Aを参照すると、配列決定画像702のセクション1000が示されている。図10Hと同様に、様々なピクセルの中心の座標を判定することができ、したがって、クラスタ1011と様々なピクセルとの間の中心間距離も判定することができる。
【0201】
例えば、図10Iは、図10Eの畳み込み演算1030Aaを示し、クラスタ1011とピクセル1011との間の中心間距離d2、並びにクラスタ1011と特徴1051eとの間の中心間距離d1を更に示す。図10Eに関して論じたように、特徴1051eはピクセル1011に対応することに留意されたい。例えば、畳み込み1030Aaの間、鮮鋭化マスク820Aaはセクション1000にわたって移動され、乗算及び加算演算が鮮鋭化マスク820Aaの各位置で実施される。特徴1051eは、例えば鮮鋭化マスク820Aaがピクセル1001を中心とするセクション1000のパッチと畳み込まれるとき、乗算及び加算演算に起因して生成され、したがって、特徴1051はピクセル1001に対応する。したがって、ピクセル1001の中心に対するクラスタ1011の位置は、特徴1051eの中心に対するクラスタ1011の位置と同じである。すなわち、距離d1及び距離d2は、同じである。
【0202】
本明細書において後で論じられる補間演算の少なくともいくつかでは、(i)クラスタとピクセルとの間の中心間距離、又は(ii)クラスタと特徴との間の中心間距離のいずれかが使用されてもよい。例えば、一実施態様は、クラスタとピクセルとの間の中心間距離を使用することができ、別の実施態様は、クラスタと特徴との間の中心間距離を使用することができ、これらの2つの中心間距離は数値的に同じである。
【0203】
本明細書において後で論じられる補間例のいくつかは、クラスタと特徴との間の中心間距離を論じるしかしながら、当業者によって容易に理解されるように、クラスタとピクセルとの間の中心間距離が代わりに使用されてもよい。
【0204】
本開示の目的のために、他に言及されない限り、クラスタに関連付けられた中心間距離は、クラスタと対応するピクセルとの間の中心間距離、又はクラスタと対応する特徴との間の中心間距離を示唆する。
【0205】
一例では、クラスタのサブピクセル位置は、クラスタが位置するピクセルの境界又はピクセルの中心に対するクラスタの中心の位置を含む。例えば、図10Iのピクセル1001が3×3のサブピクセルのグリッドに分割される場合、クラスタ1011は、ピクセル1001の右上のサブピクセル内に含まれる可能性が高い。
【0206】
一例では、クラスタのサブ特徴位置は、クラスタが位置する特徴の境界又は特徴の中心に対するクラスタの中心の位置を含む。例えば、図10Iの特徴1051eが3×3のサブ特徴のグリッドに分割される場合、クラスタ1011は、ピクセル1001の右上のサブ特徴内に含まれる可能性が高い。
【0207】
標的クラスタの重み付けされた特徴値を判定するための補間
図10Hに関して上記で論じたように、任意の適切な補間技法を使用して、重み付けされた特徴値をクラスタ1011に割り当てることができ、これは、例えば(i)クラスタ1011の中心が存在する特徴1051eの特徴値と、(ii)クラスタ1011の中心から閾値距離内にある1つ以上の隣接する特徴の特徴値とに基づいてもよい。いくつかのそのような補間技法が、本明細書で以下に論じられる。以下で論じられる補間技法のリストは排他的なものではなく、当業者に知られている別の適切な補間技法を使用することもできることに留意されたい。
【0208】
A.最近傍補間
この補間技法では、クラスタ1011に最も近い特徴が判定され、最も近い特徴の特徴値がクラスタ1011に割り当てられる。図10Hに示されるように、場所(xe,ye)における特徴1051eの中心は、クラスタ1011の中心(x1,y1)に最も近い。したがって、クラスタ1011には、特徴1051eの特徴値が割り当てられる。
【0209】
したがって、この技法は、中心間距離を判定することを伴い、例えば、クラスタ1011の中心(すなわち、座標(x1,y1))と近傍特徴の中心との間の中心間距離が判定される(ただし、クラスタとピクセルとの間の中心間距離も使用することができる)。最も近い中心間距離に対応する特徴が、最近傍として選択され、最も近い特徴の特徴値がクラスタに割り当てられる。補間は、クラスタのサブピクセル又はサブ特徴場所にも基づくことに留意されたい。
【0210】
B.最近傍補間の平均
別の例示的な補間技法は、n個の最近傍ピクセルの特徴値を平均化することを伴い、nは、1、4、9などの適切な整数である。例えば、n=4と想定すると、クラスタ1011に割り当てられた重み付けされた特徴値は、図10Hの例では特徴1051b、1051c、1051e、及び1051fである4つの最近傍特徴の特徴値の平均である。したがって、この技法は、クラスタ1011の中心(すなわち、座標(x1,y1))と近傍特徴の中心との間の中心間距離を判定することを伴う(ただし、クラスタと近傍ピクセルとの間の中心間距離も使用することができる)。4つの最も近い特徴が選択され、それらの強度が平均されて、クラスタ1011に割り当てられる重み付けされた特徴値を判定する。したがって、補間は、クラスタのサブピクセル又はサブ特徴場所にも基づく。n=4は単なる例であり、本開示の教示に基づいて当業者によって容易に理解されるように、nは、任意の他の適切な値であり得ることに留意されたい。
【0211】
C.バイリニア補間
一実施形態では、バイリニア補間を使用して、隣接する特徴の特徴値に基づいて、クラスタ1011に割り当てられる重み付けされた特徴値を判定してもよい。
【0212】
バイリニア補間は、直線的2Dグリッド上の2つの変数(例えば、x及びy)の関数を補間するための線形補間の拡張である。バイリニア補間は、線形補間を使用して、最初に一方向に、次いで、再び他方向に実施される。各ステップは、サンプリングされた値及び位置に線形であるが、全体としての補間は、線形ではなく、むしろサンプル場所で二次である。バイリニア補間は、コンピュータビジョン及び画像処理における基本的なリサンプリング技法のうちの1つであり、バイリニアフィルタリング又はバイリニアテクスチャマッピングとも呼ばれる。
【0213】
図10Jは、バイリニア補間を示す例示的なスキームを示す。図10Jでは、4つの特徴1051b、1051e、1051c、及び1051fは、クラスタ1011の中心への最も近い4つの特徴であり(更なる詳細については図10Hを参照)、特徴1051b、1051e、1051c、及び1051fの特徴値は、クラスタ1011の重み付けされた特徴値を生成するためにバイリニア補間されることになる。
【0214】
図10Jに示すように、特徴1051bの中心の座標が(x1,y2)であり、特徴1051eの中心の座標が(x1,y1)であり、特徴1051cの中心の座標が(x2,y2)であり、特徴1051fの中心の座標が(x2,y1)であり、クラスタ1011の中心の座標は(x,y)であると想定する。座標のそのような標識は、図10Hの標識と反対であることに留意されたい。中心の座標は、簡略化のために図10Jにおいてこのように標識されている。
【0215】
特徴1051b、1051e、1051c、及び1051fが、上記に論じた座標に基づいて、それぞれQ12、Q11、Q22、及びQ21と標識されると想定する。したがって、特徴1051b、1051e、1051c、及び1051fの特徴値は、それぞれf(Q12)、f(Q11)、f(Q22)、及びf(Q21)と標識され、これらは既知である。例えば、図10Eに関して論じられた畳み込み演算中に、特徴値f(Q12)、f(Q11)、f(Q22)、及びf(Q21)が判定される。
【0216】
バイリニア補間は、特徴値f(Q12)、f(Q11)、f(Q22)、及びf(Q21)を(x,y)におけるクラスタ中心に補間して、重み付けされた特徴値をクラスタ1011に割り当てることを目的とする。
【0217】
まず、座標(x,y1)、(x,y2)に対してx方向の線形補間が以下のように実施される。
【0218】
【数10】
【0219】
次いで、座標(x,y)に対してy方向の線形補間が以下のように実施される。
【0220】
【数11】
【0221】
したがって、f(x,y)は、バイリニア補間を使用して、クラスタ1011の中心である座標(x,y)における重み付けされた特徴を提供する。したがって、f(x,y)は、クラスタ1011に割り当てられた重み付けされた特徴である。
【0222】
D.バイキュービック補間
数学において、バイキュービック補間は、2次元の規則的なグリッド上のデータポイントを補間するためのキュービック補間の拡張である。補間された表面は、バイリニア補間又は最近傍補間によって取得された対応する表面よりも滑らかである。バイキュービック補間は、ラグランジュ多項式、三次スプライン、又は三次畳み込みアルゴリズムのいずれかを使用して達成することができる。一例では、バイキュービック補間は、処理速度が問題でない場合、画像リサンプリングにおいて、バイリニア補間又は最近傍補間よりも選択されることがある。
【0223】
クラスタ1011に対する重み付けされた特徴値を決定するときに4つの隣接する特徴を考慮に入れる上記に論じられたバイリニア補間とは対照的に、バイキュービック補間は、(クラスタ1011の中心を囲む4×4の特徴のグリッドにおけるような)16個の特徴値を考慮する。例えば、クラスタ中心に最も近い特徴の4×4グリッドを選択するために、クラスタ中心と特徴中心(又は本明細書で上記に論じられたようにピクセル中心)との間の中心間距離が考慮される。次いで、4×4グリッドの特徴の特徴値を使用して、例えばバイキュービック補間に従ってクラスタ1011の重み付けされた特徴値を判定する。
【0224】
E.重み付けされた領域カバレッジに基づく補間
別の補間技法は、図10Kに示されるように、中心クラスタの周囲のカバレッジ領域に基づいて、重み付けされた特徴値をクラスタ1011に割り当てる。例えば、図10Kに示すように、クラスタ1011の中心とカバレッジAの領域の中心とが一致するように、クラスタ1011の周囲にカバレッジAの領域が描かれる。一例では、カバレッジAの領域は正方形の形状を有する。一例では、カバレッジAの領域は、単に一例として、特徴のサイズに等しいサイズを有する。例えば、カバレッジAのエリアが、特徴1051bのWb%、特徴1051cのWc%、特徴1051fのWf%、及び特徴1051eのWe%をカバーすると仮定する。すると、クラスタ1011に割り当てられる重み付けされた特徴値は、以下のようになる。
【0225】
【数12】
【0226】
図10Kは、カバレッジAの領域が特徴のサイズに等しいサイズを有すると仮定することに留意されたい。別の例では、カバレッジAの領域は、例えば、特徴のサイズの2倍又は3倍に等しいサイズを有してもよいし、特徴の非整数倍(例えば、特徴のサイズの例えば、1.5倍)であってもよい。そのような例では、クラスタ1011の重み付けされた特徴値は、本開示の教示に基づいて当業者によって容易に理解されるように、4つより多くの特徴の特徴値に基づくことができる。
【0227】
F.他の例示的な補間技法
補間技法のいくつかの例は、本明細書において上記で論じられる。一実施形態では、任意の他の適切な補間技法を使用されてもよい。例えば、Lanczosリサンプリング又はLanczos補間を補間のために使用して、クラスタ1011に割り当てられるべき重み付けされた特徴値を判定してもよい。Lanczosフィルタリング及びLanczosリサンプリングは、数式の2つのアプリケーションであり、デジタル信号の値をそのサンプル間で滑らかに補間するために使用することができる。例えば、この技法は、所与の信号の各サンプルを、第2のより長いsinc関数の中心ローブによってウィンドウ化されたsinc関数であるLanczosカーネルの変換されスケーリングされたコピーにマッピングする。次に、これらの変換されスケーリングされたカーネルの合計が、所望の点で評価される。このフィルタは、その発明者であるCornelius Lanczosにちなんで名付けられた。
【0228】
別の例示的なタイプの補間技法はHanningウィンドウを使用し、Hanningウィンドウは、クラスタ1011に割り当てられるべき重み付けされた特徴値を判定するための補間に使用することができる。信号処理及び統計では、ウィンドウ関数は、ある選択された間隔の外側で0値であり、通常は間隔の中央の周りで対称であり、通常は中央の最大値の近くにあり、通常は中央から離れるにつれて次第に小さくなる数学関数である。0位相バージョンのためにレイズドコサインとしても知られているHanningウィンドウは、ウィンドウ関数の一例である。Hammingウィンドウとは異なり、Hanningウィンドウのエンドポイントは0に接触するだけである。一実施形態では、補間のために別の適切なウィンドウ関数が使用され得る。
【0229】
ベースコール
本明細書において上で論じられた補間に続いて、クラスタの重み付けされた特徴値は、そのクラスタのベースコールを作り出すために、ベースコーラー704への入力として供給される。ベースコーラー704は、非ニューラルネットワークベースのベースコーラー又はニューラルネットワークベースのベースコーラーとすることができ、両方の例は、米国特許出願第62/821,766号及び米国特許出願第16/826,168号のような参照により本明細書に組み込まれる出願に記載されている。
【0230】
論じられたように、クラスタへの重み付けされた特徴値の割り当ては、信号対雑音比を最大化又は増大させ、隣接するクラスタ間の空間クロストークを低減する。例えば、畳み込み(図10Eを参照)及び補間により、隣接するクラスタ間の空間クロストークが低減又は除去される。例えば、鮮鋭化マスク820の係数は、信号対雑音比を最大化又は増加させるようにチューニングされる。信号対ノイズ比において最大化又は増大された信号は、標的クラスタからの強度放射であり、信号対ノイズ比において最小化又は低減されたノイズは、隣接するクラスタからの強度放射、すなわち、空間クロストークにいくつかのランダムノイズを(例えば、背景強度放射を説明するために)加えたものである。
【0231】
重み付けされた特徴値がクラスタに割り当てられると、ベースコールが、クラスタに割り当てられた重み付けされた特徴値に基づいて、ベースコーラーによってクラスタに対して行われる。したがって、複数の配列決定サイクルを含む配列決定動作について、配列決定画像702は、各配列決定サイクルについて生成される。配列決定画像702は、所与の配列決定サイクルについて、複数のクラスタ及び1つ以上の色チャネルについての画像を含む。
【0232】
例えば、論じられたように、特定の配列決定サイクルについて、第1の重み付けされた特徴値を第1の色チャネルについて特定のクラスタに割り当てることができ、第2の重み付けされた特徴値を第2の色チャネルについて特定のクラスタに割り当てることができる(例えば、2つの色チャネルがあると想定しているが、1つ、3つ、又は任意の他のより多くの数の色チャネルがあってもよい)。そのような例では、特定のクラスタ及び特定の配列決定サイクルについてのベースコールは、第1の重み付けされた特徴及び第2の重み付けされた特徴に基づくことができる。ベースコールの更なる詳細は、米国特許出願第62/821,766号及び米国特許出願第16/826,168号のような参照により本明細書に組み込まれる出願に記載されている。
【0233】
畳み込み及び補間を使用するベースコール方法及び性能結果
図11Aは、1つ以上の重み付けされた特徴値をクラスタに割り当てるための、配列決定画像の少なくとも1つのセクションの畳み込み及び後続の補間に基づくベースコール、並びに割り当てられた1つ以上の重み付けされた特徴値に基づくクラスタのベースコールの方法1100を示す。
【0234】
方法1100の1104において、配列決定動作の特定の配列決定サイクルについて、対応する配列決定サイクル中にフローセル(例えば、図1に関して論じられたフローセル)によって出力された配列決定画像(例えば、図7の配列決定画像702)が、図7のベースコーラー704などのベースコーラーによってアクセスされる。
【0235】
1108において、フローセルの色チャネル及び/又は空間部分に基づいて、配列決定画像を複数のセクションに区分し、配列決定画像の各セクションは、対応する色チャネルについて、複数のクラスタを含む。
【0236】
例えば、図8Aでは、フローセルの各タイルは、3×3の空間部分に分割され、したがって、特定の色チャネルのためのタイルから生成された配列決定画像は、対応する3×3のセクションに区分される。更に、図8Aでは、本開示の範囲を限定することなく、単に一例として、2つの色チャネルが想定される。したがって、特定のタイルについて、配列決定画像は、第1の色チャネルについては第1の3×3セクションに区分され、第2の色チャネルについては第2の3×3セクションに区分される。
【0237】
同様に、図8Bの例では、フローセルの各タイルは、1×9の部分に分割され、したがって、特定の色チャネルについてタイルから生成された配列決定画像は、第1の色チャネルについて対応する第1の1×9セクション及び第2の色チャネルについて第2の1×9セクションに区分される(すなわち、2つの色チャネルを想定している)。
【0238】
当業者であれば、本開示の教示に基づいて、例えば、タイルの異なる例示的な分割及び異なる数の色チャネルについて、配列決定画像の他の例示的な区分も想定することができる。
【0239】
方法1100は、次いで、1112に進み、配列決定画像の各セクションを対応する鮮鋭化マスクで畳み込んで、対応するセクションについて対応する特徴マップを生成し、そのため、複数のセクションについて複数の特徴マップが生成される。例えば、図8A及び図8Bに関して論じられたように、配列決定画像の各セクションは、対応する鮮鋭化マスクを有する。図10Fに示すように、配列決定画像の各セクションは、対応する鮮鋭化マスクで畳み込まれて、対応する特徴マップを生成する。図10Eは、配列決定画像の特定のセクションについての畳み込み演算を示す。
【0240】
配列決定画像の各セクションは、対応する複数のクラスタを有することに留意されたい。例えば、配列決定画像の第1のセクション及び第2のセクションがそれぞれ第1の色チャネル及び第2の色チャネルについて生成され、タイルの同じ第1のサブタイル部分から生成されると想定する。したがって、第1のセクション及び第2のセクションの両方が同じ第1の複数のクラスタを有することになる。別の例では、配列決定画像の第3のセクション及び第4のセクションが、それぞれ第1の色チャネル及び第2の色チャネルについて生成され、タイルの同じ第2のサブタイル部分から生成されると想定する。したがって、第3のセクション及び第4のセクションの両方は、第1の複数のクラスタとは異なる同じ第2の複数のクラスタを有することになる。
【0241】
方法1100は、次いで、1116に進み、各特徴マップ内の各クラスタについて、適切な補間技法に基づいて重み付けされた特徴値を割り当て、そのため、各クラスタが1つ以上の色チャネルに対して1つ以上の対応する重み付けされた特徴値を有する。例えば、2つの色チャネルの例を想定すると、各クラスタには、2つの色チャネルに対応する2つの重み付けされた特徴値が割り当てられる。いくつかの例示的な補間技法が本明細書で前に論じられているが、本明細書で論じられていない任意の他の補間技法も使用されてもよい。
【0242】
方法1100は、次いで、1120に進み、ベースコーラーは、対応するクラスタについての対応する1つ以上の重み付けされた特徴値に基づいて、各クラスタをベースコールする。例えば、クラスタの重み付けされた特徴値は、そのクラスタについてのベースコールを作り出すために、ベースコーラー704への入力として供給される。ベースコーラー704は、非ニューラルネットワークベースのベースコーラー又はニューラルネットワークベースのベースコーラーとすることができ、両方の例は、米国特許出願第62/821,766号及び米国特許出願第16/826,168号のような参照により本明細書に組み込まれる出願に記載されている。
【0243】
次いで、方法1100は、1124に進み、方法1100は、配列決定動作の次の配列決定サイクルに進み、方法1100は、1104にループバックする。方法1100のこの反復は、配列決定動作の全ての配列決定サイクルが完了するまで継続する。
【0244】
図11Bは、鮮鋭化マスクを使用する開示される強度抽出技法と、ベースコールに関連付けられた様々な他の強度抽出技法の性能結果の比較を示す。図11BのプロットのX軸は、配列決定サイクルを表し、プロットのY軸は、ベースコールについてのエラー率を表す。例えば、プロット中の赤色の線は、強度抽出のために鮮鋭化マスクを使用しないベースコールについてのであり、プロット中の緑色の線は、「Equalization-Based Image Processing and Spatial Crosstalk Attenuator」と題する同時係属中の米国特許出願第17/308,035号に開示されているような等化器技法を使用した鮮鋭化マスクによるベースコールについてのものであり、この出願は、本明細書に完全に記載されているかのように、あらゆる目的のために参照により組み込まれる。プロット中の青色の線は、図7図11Aに関して本明細書で論じられる技法を使用した鮮鋭化マスクによるベースコールについてのものである。見られるように、プロット中の青色の線(論じられる技法を使用する鮮鋭化マスクによるベースコールについてのもの)は、プロット中の赤色の線(強度抽出のために鮮鋭化マスクを使用しないベースコールについてのもの)よりも実質的に低いエラー率を有する。
【0245】
図11Bはまた、ベースコールについての平均エラー率及び平均パスフィルタパーセンテージを示すテーブルを示す。パスフィルタパーセンテージは、良好な品質のベースコール(例えば、閾値パーセンテージを上回る信頼レベルを有するベースコール)を有し、ベースコールされるクラスタの割合を表す。したがって、より高いパスフィルタパーセンテージはスループットを改善する。見られるように、本明細書で論じられる技法を使用する鮮鋭化マスクによるベースコール(テーブルの第3の列に表される)は、鮮鋭化マスクを使用しないシナリオ(テーブルの第1の列に表される)よりも低いエラー率及び良好なパスフィルタパーセンテージを有する。更に、本明細書で論じられる技法を使用する鮮鋭化マスクによるベースコール(テーブルの第3の列に表される)は、「Equalization-Based Image Processing and Spatial Crosstalk Attenuator」と題され、本明細書では「等化器技術を使用する鮮鋭化マスクを使用するシナリオ」とも呼ばれる、同時係属中の米国特許出願第17/308,035号に開示されるような、等化器技法を使用する鮮鋭化マスクを使用するシナリオに対して、わずかに低いエラー率及びわずかに高いパスフィルタパーセンテージを有する。図11Cに関して本明細書で論じられるように、本明細書で論じられる技法を使用する鮮鋭化マスクによるベースコールは、等化器技法を使用する鮮鋭化マスクを使用するシナリオと比較して、より少ない数の鮮鋭化マスクを使用し、より速い実行時間を有することに留意されたい。
【0246】
図11Cは、鮮鋭化マスクを使用する開示された技法と、ベースコールの様々な他の技法との性能結果の別の比較を示す。具体的には、図11Cでは、様々なシナリオに対するベースコールの速度(又はベースコール実行時間)が比較されている。
【0247】
2つのプロット、プロット1100c1及び1100c2が示されている。プロット1100c1は、開発中の新しい配列決定プラットフォームからの配列決定データを使用して生成され、プロット1100c2は、Illumina NextSeq 1000/NextSeq 2000シーケンサからの配列決定データを使用して生成される。更に、プロット1100c1では、ピクセル当たりのウェル又はクラスタの数は0.3であり、カーネル(又は鮮鋭化マスク)サイズは7×7で使用される。プロット1100c2では、ピクセル当たりのウェル又はクラスタの数は0.1であり、カーネル(又は鮮鋭化マスク)サイズは9×9で使用される。したがって、プロット1100c1は、プロット1100c2と比較してより高いクラスタ密度を有する。
【0248】
プロット1100c2に見られるように、本明細書で論じられる技法を使用する鮮鋭化マスクによるベースコール(緑色で表される)は、等化器技法を使用する鮮鋭化マスクを使用するシナリオよりも12.5%速い。性能の改善は、より高いクラスタ密度を有するプロット1100c1において更により顕著である。例えば、プロット1100c1に見られるように、本明細書で論じられる技法を使用する鮮鋭化マスクによるベースコール(緑色で表される)は、等化器技法を使用する鮮鋭化マスクを使用するシナリオよりも49.8%速い。
【0249】
レギュラーキャッシュアクセス
(「Equalization-Based Image Processing and Spatial Crosstalk Attenuator」と題する同時係属中の米国特許出願第17/308,035号に開示されるような)等化器技法を使用する鮮鋭化マスクを使用するシナリオは、例えば、ピクセルの中心に対するクラスタのサブピクセル場所に応じて、異なるクラスタに対して異なる鮮鋭化マスクを使用する。したがって、例えば、フローセルのタイル上の3つの隣接するクラスタは、ほぼ間違いなく3つの異なる鮮鋭化マスクを使用することができる。
【0250】
対照的に、本開示で開示される強度抽出技法の場合(例えば、図7図11Aに関して)、タイルのサブタイル領域全体上のクラスタは、同じ鮮鋭化マスクを使用する。例えば、図8Aを参照すると、サブタイル812a上の全てのクラスタは、色チャネル802Aについて同じ鮮鋭化マスク820Aaを使用する。したがって、一例では、色チャネル802Aについてサブタイル812a上のクラスタを処理するときに、対応する鮮鋭化マスク820Aaがキャッシュにロードされ、同じ鮮鋭化マスク820Aaが、図10Fの畳み込み演算1030Aa中にキャッシュから繰り返しアクセスされる。別の例では、鮮鋭化マスク820Aaがキャッシュから処理ユニットにロードされると、同じ鮮鋭化マスク820Aaが畳み込み演算1030Aaの全体に使用される。これは、キャッシュアクセスパターンを改善し、これは、比較的より規則的であり(すなわち、規則的なキャッシュアクセスパターン)であり、キャッシュミスがより少なくなるか、又は全くなくなることをもたらす。
【0251】
対照的に、論じられるように、(「Equalization-Based Image Processing and Spatial Crosstalk Attenuator」と題する同時係属中の米国特許出願第17/308,035号に開示されるような)等化器技法を使用する鮮鋭化マスクを使用するシナリオの場合、フローセルのタイル上の異なる隣接クラスタは、対応する異なる鮮鋭化マスクを使用することができ、これは、比較的不規則なキャッシュアクセスパターン及びより多くのキャッシュミスをもたらす。したがって、本開示で開示される強度抽出技法(例えば、図7図11Aに関して)は、図11Cにも反映されるように、同時係属中の米国特許出願第17/308,035号で開示される等化器ベースの強度抽出技法よりも比較的高速である。
【0252】
鮮鋭化マスクの係数のオンライン適合化
配列決定画像の対応するセクションの畳み込みに使用される各鮮鋭化マスクは、k×k行列であり、kは、3、5、7、9、又はそれ以上などの適切な正の整数であることに留意されたい。「m」個の色チャネルがあると想定すると(mは、1、2、又はそれ以上などの正の整数である)、タイルの各サブタイルに対して、m×k×k個の係数がある。タイルが「n」個の部分にサブ分割されると想定すると(例えば、図8A及び図8Bを参照)、訓練プロセス中に更新されるべきn×m×k×k個の係数がある。n、m、及びkの比較的低い値のために、更新されるべき係数の数は著しく高くない。単に一例として、2つの色チャネルが想定され、鮮鋭化マスクが3×3の寸法を有すると想定され、各タイルが、3×3又は9個のサブタイルに分割される場合、全ての鮮鋭化マスクの係数の総数は、2×9×3×3=162である。
【0253】
本明細書で前に論じられたオフライン訓練に加えて、一実施形態では、鮮鋭化マスクの係数はまた、配列決定動作中に適合的に更新される。例えば、上記に論じられた例では、全ての鮮鋭化マスクの係数は162個しかなく、例えば、配列決定動作が進行中であるときに、162個の係数をオンラインで適合させることは比較的容易である(ただし、数162は単なる一例であることに留意されたい)。対照的に、(「Equalization-Based Image Processing and Spatial Crosstalk Attenuator」と題する同時係属中の米国特許出願第17/308,035号に開示されるような)等化器技法を使用する鮮鋭化マスクは、(一例では4050などの)より多くの数の鮮鋭化マスクのパラメータを有してもよい。
【0254】
図12は、1つ以上の重み付けされた特徴値をクラスタに割り当てるための、配列決定画像の少なくとも1つのセクションの畳み込み及び後続の補間に基づくベースコール、並びに割り当てられた1つ以上の重み付けされた特徴値に付けされた特徴値に基づくクラスタのベースコールの方法1200を示し、鮮鋭化マスクの係数は、配列決定動作中に適合的に更新される。
【0255】
一例では、鮮鋭化マスクの係数のオンライン適合は、配列決定マシンが動作し、配列決定動作が周期的に進行している間に、係数が、温度、焦点(例えば、光学歪み)、化学、機械固有の変動の変化などの配列決定動作の動作パラメータの変化を追跡することを可能にする。例えば、温度(例えば、光学歪み)、焦点、化学的性質、及び/又は機械固有の変動は、鮮鋭化マスク係数のオフライン訓練を少なくとも部分的に無効にしてもよい。例えば、配列決定動作が周期的に進行しているときに、係数のオンライン適合は、係数をトラックに戻して、配列決定動作に影響を及ぼす任意のパラメータに対する任意の変化に適合させることができる。
【0256】
方法1200及び方法1100は、2つの図において同じ標識を使用して標識された様々な共通の動作を共有する。例えば、両方の図におけるブロック1104、1108、1112、1116、1120、及び1124は、同じであり、同じく標識されており、これらのブロックの動作は、図12に関して再び論じない。
【0257】
図11Aに関して論じられる)ブロック1104~1120に関して論じられる動作を完了した後、図12の方法1200は1204に進み、鮮鋭化マスクの係数が、現在の配列決定サイクルのデータを使用して更新/訓練されるべきかどうかが判定される。例えば、鮮鋭化マスクの係数は、配列決定動作の配列決定サイクルごとに更新されなくてもよい。むしろ、一例では、鮮鋭化マスクの係数は、配列決定動作の1つ以上の選択された配列決定サイクル(必ずしも全てではない)の間に更新されてもよい(ただし、別の例では、係数は、各配列決定サイクルの間に更新されてもよい)。
【0258】
例えば、係数が更新されるべき配列決定サイクルは、実装固有であり得、ユーザ構成可能なパラメータであってもよい。例えば、本明細書において後で図14に見られるように、結果は、鮮鋭化マスク係数が配列決定サイクル10及び30の間に更新されるシナリオについて提示される。
【0259】
1204において「No」である(すなわち、係数が現在の配列決定動作中に更新されない)場合、方法1200は、1124に進み、次いで、図11Aの方法1100に関して論じられたように、1104にループバックする。
【0260】
1204において「はい」である(すなわち、係数が現在の配列決定動作中に更新されるべきである)場合、方法1200は、1208に進み、現在の配列決定サイクルCからのデータを使用して、鮮鋭化マスクの係数が更新又は適合される。一例では、鮮鋭化マスクの更新された係数は、配列決定サイクル(C+2)及び後続の配列決定サイクル中に強度抽出のために適用される。適合又は更新プロセスは、式1並びに図9A及び図9Bに関して、本明細書で更に詳細に前で論じられている。次いで、方法は、ブロック1124に進み、次いで、ブロック1104にループバックする。
【0261】
一例では、図12には示されていないが、配列決定サイクルCからのデータを使用する鮮鋭化マスクの係数の更新又は適合は、ブロック1104~1102の動作のうちの少なくともいくつかの次の反復時に少なくとも部分的に生じる。すなわち、ベースコーラーが配列決定サイクル(C+1)からのデータを処理している間、ベースコーラーは、配列決定サイクルCからのデータを使用して係数の更新を並行して実施してもよい。したがって、一例では、更新された係数は、配列決定サイクル(C+1)の画像に適用されなくてもよく、配列決定サイクル(C+2)の画像に適用されてもよい。
【0262】
現在の配列決定サイクルCをベースコールするために、配列決定サイクル(C+1)の強度が最初に抽出されなければならないことに留意されたい。例えば、配列決定サイクル(C+1)の強度は、配列決定サイクルCのプリフェージング/フェージングを補正するために使用される。フェージング及びプリフェージングに関する更なる詳細は、「Base Calling Using Multiple Base Caller Models」と題する同時係属中の米国仮特許出願第63/228,954号で論じられており、これは、本明細書に完全に記載されているかのように、あらゆる目的のために参照することによって組み込まれる。
【0263】
図13は、強度抽出に使用される鮮鋭化マスクの係数の適合を示す。例えば、1304において、ベースコーラーは、配列決定サイクル(C+1)についてフローセルから配列決定画像を受信し、本明細書に開示される技法を使用して強度を抽出する(例えば、畳み込みを使用した後に補間を行う)。配列決定サイクルCなどのより早いサイクルについての強度抽出は、配列決定サイクル(C+1)について動作1304が実行されるときにすでに完了していると想定されることに留意されたい。
【0264】
1308において、ベースコーラーはサイクル(C+1)の位相誤差を補正する。1312において、ベースコーラーは、例えば、配列決定サイクル(C+1)の抽出された(及びフェージング補正された)強度を使用して、配列決定サイクルCのプリフェージング誤差を補正する。1316において、ベースコーラーは、配列決定サイクルCについて様々なクラスタの塩基をコールする。1320において、ベースコーラーは、配列決定サイクルCからのデータを使用して、鮮鋭化マスクの係数を適合又は更新する。最後に、鮮鋭化マスクの更新された係数は、配列決定サイクル(C+2)以降に使用される。実際の適合又は更新プロセスは、式1並びに図9A及び図9Bに関して、本明細書で前に論じられている。
【0265】
図14は、鮮鋭化マスク及び適合を使用する開示される強度抽出技法と、適合を使用しない別の強度抽出技法の性能結果の比較を示す。図14のプロット及び表は、NextSeq 1000/NextSeq 2000シーケンサからの配列決定データに基づいて生成された。図14のプロットのX軸は、配列決定サイクルを表し、プロットのY軸は、ベースコールについてのエラー率を表す。例えば、プロット中の赤色の点線は、強度抽出のために鮮鋭化マスクの適合を使用しないベースコールについてのものであり、プロット中の青色の線は、本開示に開示されるような鮮鋭化マスクの適合ありのベースコールについてのものである(図12を参照)。図14のテーブルは、2つのシナリオについてエラー率とパスフィルタパーセンテージとを比較している。テーブルに見られるように、鮮鋭化マスクに適合が使用されるとき、平均エラー率は約9.4%改善する。図14の例では、適合は、非インデックスリードの配列決定サイクル10及び30に対して実施される。配列決定サイクル150及びその後のグラフにおける不連続性は、それらの配列決定サイクル中に生じるインデックスリードに起因する。インデックスリードについての更なる詳細は、2020年2月20日に出願された「Artificial Intelligence-Based Base Calling of Index Sequences」と題する米国仮特許出願第62/979,384号に見出すことができ、これは、参照により本明細書に組み込まれる。
【0266】
図15は、鮮鋭化マスク及び適合を使用する開示される強度抽出技法と、適合を使用しない別の強度抽出技法の性能結果の比較を示す。図15のプロット及びテーブルは、Illumina,Inc.(San Diego,Calif.)によって開発中の新しい配列決定プラットフォームからの配列決定データに基づいて生成された。図15のプロットのX軸は、配列決定サイクルを表し、プロットのY軸は、ベースコールについてのエラー率を表す。例えば、プロット内の赤色の線は、本開示に開示されるような強度抽出のために鮮鋭化マスクの適合を使用するベースコールについてのものであり(例えば、図12を参照)、プロット中の青色の線は、鮮鋭化マスクの適合なしのベースコールについてのものである。図15のテーブルは、2つの強度抽出技法についてエラー率とパスフィルタパーセンテージとを比較している。テーブルに見られるように、鮮鋭化マスクに適合が使用されるときに、平均エラー率は約23%改善し、パスフィルタパーセンテージもいくらか改善する。配列決定サイクル150及びその後のグラフにおける不連続性は、それらの配列決定サイクル中に生じるインデックスリードに起因する。インデックスリードについての更なる詳細は、2020年2月20日に出願された「Artificial Intelligence-Based Base Calling of Index Sequences」と題する米国仮特許出願第62/979,384号に見出すことができ、これは、参照により本明細書に組み込まれる。
【0267】
本出願において、用語「クラスタ」、「ウェル」、「試料」及び「蛍光試料」は、ウェルが対応するクラスタ/試料/蛍光試料を含有するので、交換可能に使用される。本明細書中で定義されるように、「試料」及びその誘導体は、最も広い意味で使用され、標的を含むことが疑われる任意の検体、培養物などを含む。いくつかの実施態様において、試料は、DNA、RNA、PNA、LNA、キメラ又はハイブリッド形態の核酸を含む。試料は、1以上の核酸を含有する任意の生物学的試料、臨床試料、外科試料、農業試料、大気検体又は水検体を含むことができる。この用語はまた、任意の単離された核酸試料、例えば、ゲノムDNA、新鮮凍結又はホルマリン固定パラフィン包埋核酸検体を含む。試料は、単一個体、遺伝的に関連するメンバーからの核酸試料のコレクション、遺伝的に関連しないメンバーからの核酸試料、腫瘍試料及び正常組織試料のような単一個体からの核酸試料(適合)、又は母体被験体から得られた母体及び胎児DNAのような遺伝物質の2つの異なる形態を含む単一供給源からの試料、又は植物又は動物DNAを含む試料中の混入細菌DNAの存在に由来し得ることも想定される。いくつかの実施態様において、核酸物質の供給源は、例えば新生児スクリーニングに典型的に使用されるような新生児から得られた核酸を含むことができる。
【0268】
核酸試料は、ゲノムDNA(genomic DNA、gDNA)などの高分子量物質を含むことができる。試料は、FFPE又は保管されたDNA試料から得られた核酸分子などの低分子量物質を含むことができる。別の実施態様では、低分子量物質は、酵素的又は機械的にフラグメント化されたDNAを含む。試料は、無細胞循環DNAを含むことができる。いくつかの実施態様において、試料は、生検、腫瘍、擦過物、スワブ、血液、粘液、尿、血漿、精液、毛髪、レーザ捕捉顕微解剖、外科的切除、及び他の臨床的又は実験室で得られた試料から得られた核酸分子を含み得る。いくつかの実施態様において、試料は、疫学的、農業的、法医学又は病原性試料であり得る。いくつかの実施態様において、試料は、ヒト又は哺乳動物源などの動物から得られた核酸分子を含むことができる。別の実施態様では、試料は、植物、細菌、ウイルス又は真菌などの非哺乳類源から得られた核酸分子を含むことができる。いくつかの実施態様において、核酸分子の供給源は、保存又は絶滅した試料又は種であり得る。
【0269】
更に、本明細書中に開示される方法及び組成物は、法医学試料からの分解及び/又はフラグメント化されたゲノムDNAなどの低品質核酸分子を有する核酸試料を増幅するのに有用であり得る。一実施態様では、法医学試料は、犯罪現場から得られた核酸、行方不明者DNAデータベースから得られた核酸、法医学調査と関連した研究所から得られた核酸を含むことができ、又は法執行機関、1以上の軍隊若しくはそのような要員によって得られた法医学試料を含むことができる。核酸試料は、例えば、口腔スワブ、紙、布、又は唾液、血液、若しくは他の体液で含浸され得る他の基材に由来する、精製された試料又は溶解物を含む粗DNAであり得る。それ自体、いくつかの実施態様において、核酸試料は、ゲノムDNAのようなDNAの少量又はフラグメント化された部分を含み得る。いくつかの実施態様において、標的配列は、限定されるものではないが、血液、痰、血漿、精液、尿及び血清を含む1つ以上の体液に存在し得る。いくつかの実施態様において、標的配列は、毛髪、皮膚、組織試料、剖検又は犠牲者の遺体から得ることができる。いくつかの実施態様において、1つ以上の標的配列を含む核酸は、死亡した動物又はヒトから得ることができる。いくつかの実施態様において、標的配列は、微生物、植物細胞又は昆虫学的のような非ヒトから得られた核酸を含むことができる。いくつかの実施態様において、標的配列又は増幅された標的配列は、ヒト同定を対象とする。いくつかの実施態様において、本開示は、一般に、法医学試料の特徴を同定するための方法に関する。いくつかの実施態様において、本開示は、一般に、本明細書に開示された1つ以上の標的特異的プライマー、又は本明細書に概説されたプライマー設計基準を用いて設計された1以上の標的特異的プライマーを使用するヒト同定方法に関する。一実施態様において、少なくとも1つの標的配列を含む法医学試料又はヒト同定試料は、本明細書に開示された標的特異的プライマーのいずれか1つ以上を用いて、又は本明細書に概説されたプライマー基準を用いて増幅することができる。
【0270】
本明細書で使用するとき、用語「隣接する」は、2つの反応部位に関して使用される場合、2つの反応部位の間に他の反応部位が存在しないことを意味する。用語「隣接する」は、隣接する検出経路及び隣接する光検出器に関して使用される場合、同様の意味を有し得る(例えば、隣接する光検出器はその間に他の光検出器を有さない)。場合によっては、反応部位は他の反応部位に隣接していなくてもよいが、依然として他の反応部位の直近に存在していてもよい。第1の反応部位からの蛍光発光信号が第2の反応部位と関連する光検出器によって検出される場合、第1の反応部位は第2の反応部位の直近にあってもよい。より具体的には、第1の反応部位は、第2の反応部位と関連する光検出器が、例えば、第1の反応部位からのクロストークを検出する場合、第2の反応部位のすぐ近くにあってもよい。隣接する反応部位は、互いに隣接するように連続していてもよく、又は隣接部位は、間に介在スペースを有する非連続であってもよい。
【0271】
アップサンプリングされた実施態様
一実施態様では、画像は、例えば、1つ以上の補間技法又は転置畳み込み技法を使用することによってアップサンプリングされて、アップサンプリング画像を生成することができる。いくつかの実施態様では、画像は、ピクセル解像度を有することができ、アップサンプリングされた画像は、サブピクセル解像度を有することができる。一実施態様では、畳み込みカーネル/鮮鋭化マスク/マスクは、例えば、1つ以上の補間技法又は転置畳み込み技法を使用することによってアップサンプリングされて、アップサンプリングされた畳み込みカーネル/鮮鋭化マスク/マスクを生成することができる。いくつかの実施態様では、畳み込みカーネル/鮮鋭化マスク/マスクは、ピクセル解像度を有することができ、アップサンプリングされた畳み込みカーネル/鮮鋭化マスク/マスクはサブピクセル解像度を有することができる。次いで、アップサンプリングされた畳み込みカーネル/鮮鋭化マスク/マスクは、アップサンプリングされた特徴を生成するためにアップサンプリングされた画像に適用される。いくつかの実施態様では、特徴は、ピクセル解像度を有することができ、アップサンプリングされた特徴は、サブピクセル解像度を有することができる。次いで、アップサンプリングされた特徴は、ベースコール標的クラスタに対するピクセルごとの対応に関して分析され得る。他の実施態様では、次いで、アップサンプリングされた特徴は、ベースコール標的クラスタへのクラスタごとの対応に関して分析され得る。
【0272】
技術的な改善及び用語
特許、特許出願、記事、書籍、論文、及びウェブページが挙げられるがこれらに限定されない、本出願において引用された全ての文献及び類似材料は、そうした文献及び類似材料の形式に関わりなく、それらの全体が参照により明示的に組み込まれる。組み込まれた文献及び類似の材料のうちの1つ以上が、以下に限定するわけではないが、定義された用語、用語使用、記載された技法などで、本出願とは異なる、又は矛盾する場合には、本出願が優越する。用語に関する更なる情報は、2019年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許非仮出願第16/826,168号及び2020年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許仮出願第62/821,766号に見出すことができる。
【0273】
開示される技術は、核酸テンプレート又はその相補体、例えば、DNA若しくはRNAポリヌクレオチド又は他の核酸試料などの核酸試料から得ることができる核酸配列情報の品質及び量を改善するためにニューラルネットワークを使用する。したがって、開示される技術の特定の実施は、以前に利用可能な方法と比較して、より高いスループットのポリヌクレオチド配列決定、例えば、より高いDNA又はRNA配列データの収集速度、配列データ収集におけるより高い効率、及び/又はそのような配列データを得る低コストを提供する。
【0274】
開示される技術は、ニューラルネットワークを使用して、固相核酸クラスタの中心を識別し、そのようなクラスタの配列決定中に生成される光信号を解析して、隣接する、隣接する、又は重なり合うクラスタ間で曖昧さなく区別して、単一の離散したソースクラスタに配列決定信号を割り当てる。したがって、これら及び関連する実施態様は、高密度クラスタアレイの領域からの、配列データなどの有意義な情報の回収を可能にし、有用な情報は、重なり合う又は非常に近接して離間配置された隣接クラスタの影響を混乱させることに起因して、そのような領域から以前に得られなかった場合がある。重なり合う信号の効果(例えば、核酸配列決定において使用されるような)の効果を含む。
【0275】
以下により詳細に記載されるように、特定の実施態様では、本明細書で提供されるように、1つ又は複数の核酸クラスタに固定化された固体支持体を含む組成物が提供される。各クラスタは、同じ配列の複数の固定化された核酸を含み、本明細書で提供されるような検出可能な中心標識を有する識別可能な中心を有し、識別可能な中心は、クラスタ内の周囲領域において固定化された核酸と区別可能である。また、識別可能な中心を有するこのようなクラスタを作製及び使用するための方法も本明細書に記載される。
【0276】
本開示の実施態様は、多数の状況での使用が見出され、その利点は、クラスタ内の実質的に中心の場所の位置を識別、決定、アノテーション、記録、ないしは別の方法で割り当てる能力から得られる、多くの状況において使用が見出されるであろう。ハイスループット核酸配列決定、光学的又は他の信号を個別のソースクラスタに割り当てるための画像解析アルゴリズムの開発、及び固定化された核酸クラスタの中心の認識が望ましい及び有益である他の用途が望ましい。
【0277】
特定の実施態様では、本発明は、核酸配列決定(例えば、「配列決定」)などのハイスループット核酸分析に関連する方法を企図する。例示的なハイスループット核酸解析としては、非限定的に、デノボ配列決定、再配列決定、全ゲノム配列決定、遺伝子発現解析、遺伝子発現モニタリング、エピジェネティクス分析、ゲノムメチル化分析、対立遺伝子特異的プライマー伸長(allele specific primer extension、APSE)、遺伝的多様性プロファイリング、全ゲノム多型発見及び解析、単一ヌクレオチド多型解析、ハイブリダイゼーション系配列決定法などが挙げられる。当業者は、様々な異なる核酸が、本発明の方法及び組成物を使用して分析され得ることを理解するであろう。
【0278】
本発明の実施は核酸配列決定に関連して記載されているが、それらは、異なる時点で取得された画像データ、空間場所、又は他の時間的若しくは物理的観点で取得された画像データが分析される任意の分野において適用可能である。例えば、本明細書に記載される方法及びシステムは、マイクロアレイ、生物学的検体、細胞、生物などからの画像データが取得され、異なる時点又は視点で取得され、分析される、分子生物学及び細胞生物学の分野において有用である。画像は、蛍光顕微鏡法、光学顕微鏡法、共焦点顕微鏡法、光学画像化法、磁気共鳴画像化法、トモグラフィ走査などが挙げられるが、これらに限定されない、当該技術分野において既知の任意の数の技法を使用して得ることができる。別の例として、本明細書に記載される方法及びシステムは、監視、空中、又は衛星撮像技術などによって取得された画像データが、異なる時点又は視点で取得され、分析される場合に適用することができる。本方法及びシステムは、視野内で取得された画像を分析するのに特に有用であり、この視野内で、観察される分析物は、視野内の互いに対して同じ場所に留まる。しかしながら、分析物は、別個の画像で異なる特性を有してもよく、例えば、分析物は、視野の別々の画像において異なるように見える場合がある。例えば、分析物は、異なる画像で検出された所与の分析物の色とは異なるように見える場合があり、異なる画像内の所与の分析物のために検出された信号の強度の変化、又は更には、1つの画像中の所与の分析物の信号の外観、及び別の画像内の分析物の信号の消失を示し得る。
【0279】
本明細書で使用するとき、用語「分析物」は、相対的な場所に従って他の点又は領域と区別することができるパターンの点又は領域を意味することを意図する。個々の分析物は、特定のタイプの1つ以上の分子を含むことができる。例えば、分析物は、特定の配列を有する単一の標的核酸分子を含むことができ、又は分析物は、同じ配列(及び/又はその相補的配列)を有するいくつかの核酸分子を含むことができる。パターンの異なる分析物である異なる分子は、パターン内の分析物の場所に従って互いに分化させることができる。例示的な分析物としては、基材中のウェル、基材中又は基材上のビーズ(又は他の粒子)、基材からの突出部、基材上の隆起部、基材上のゲル材料のパッド、又は基材内のチャネルが挙げられる。
【0280】
検出、特徴付け、又は識別される様々な標的分析物のいずれも、本明細書に記載される装置、システム、又は方法で使用することができる。例示的な分析物としては、限定するものではないが、核酸(例えば、DNA、RNA又はそれらの類似体)、タンパク質、多糖類、細胞、抗体、エピトープ、受容体、リガンド、酵素(例えば、キナーゼ、ホスファターゼ又はポリメラーゼ)、小分子薬物候補、細胞、ウイルス、生物などが挙げられるが、これらに限定されない。
【0281】
用語「分析物」、「核酸」、「核酸分子」、及び「ポリヌクレオチド」は、本明細書において互換的に使用される。様々な実施態様では、核酸は、特定のタイプの核酸分析のために、本明細書で提供されるようなテンプレート(例えば、核酸テンプレート、又は核酸テンプレートに相補的な核酸相補体)として使用されてもよく、核酸増幅、核酸発現解析、及び/又は核酸配列決定、又はこれらの好適な組み合わせが挙げられるが、これらに限定されない。特定の実施における核酸としては、例えば、3’-5’ホスホジエステル中のデオキシリボヌクレオチドの直鎖ポリマー、又はデオキシリボ核酸(deoxyribonucleic acid、DNA)、例えば、一本鎖及び二本鎖DNA、ゲノムDNA、コピーDNA若しくは相補的DNA(complementary DNA、cDNA)、組換えDNA、又は任意の形態の合成DNA若しくは修飾DNAが挙げられる。他の実施態様では、核酸としては、例えば、3’-5’ホスホジエステル中のリボヌクレオチドの直鎖ポリマー、又はリボ核酸(ribonucleic acid、RNA)などの他の結合、例えば、一本鎖及び二本鎖RNA、メッセンジャー(mRNA)、コピーRNA又は相補的RNA(complementary RNA、cRNA)、代替的に、スプライシングされたmRNA、リボソームRNA、小核RNA(small nucleolar RNA、snoRNA)、マイクロRNA(microRNA、miRNA)、低干渉RNA(small interfering RNA、sRNA)、ピウイRNA(piwi RNA、piRNA)、又は任意の形態の合成若しくは修飾RNA。本発明の組成物及び方法において使用される核酸は、長さが変化してもよく、無傷又は完全長の分子若しくはフラグメント、又はより大きい核酸分子のより小さい部分であってもよい。特定の実施態様では、核酸は、本明細書の他の箇所に記載されるように、1つ以上の検出可能な標識を有してもよい。
【0282】
用語「分析物」、「クラスタ」、「核酸クラスタ」、「核酸コロニー」、及び「DNAクラスタ」は互換的に使用され、固体支持体に結合された核酸テンプレート及び/又はその相補体の複数のコピーを指す。典型的には、特定の好ましい実施態様では、核酸クラスタは、それらの5’末端を介して固体支持体に結合されたテンプレート核酸及び/又はその相補体の複数のコピーを含む。核酸クラスタを構成する核酸鎖のコピーは、一本鎖又は二本鎖形態であってもよい。クラスタ内に存在する核酸テンプレートのコピーは、例えば、標識部分の存在に起因して、互いに異なる対応する位置にヌクレオチドを有することができる。対応する位置はまた、異なる化学構造を有するが、ウラシル及びチミンの場合など、類似のWatson-Crick塩基対形成特性を有するアナログ構造を含むことができる。
【0283】
核酸のコロニーはまた、「核酸クラスタ」と称されることもある。核酸コロニーは、本明細書の他の箇所で更に詳細に記載されるように、クラスタ増幅又はブリッジ増幅技法によって任意選択的に作成することができる。標的配列の複数の反復は、ローリングサークル増幅手順を使用して作成された混乱剤などの単一の核酸分子中に存在し得る。
【0284】
本発明の核酸クラスタは、使用される条件に応じて、異なる形状、サイズ、及び密度を有することができる。例えば、クラスタは、実質的に円形、多面、ドーナツ形、又はリング形状の形状を有することができる。核酸クラスタの直径は、約0.2μm~約6μm、約0.3μm~約4μm、約0.4μm~約3μm、約0.5μm~約2μm、約0.75μm~約1.5μm、又は任意の介在直径であるように設計することができる。特定の実施態様において、核酸クラスタの直径は、約0.5μm、約1μm、約1.5μm、約2μm、約2.5μm、約3μm、約4μm、約5μm、又は約6μmである。核酸クラスタの直径は、クラスタの産生において実施される増幅サイクルの数、核酸テンプレートの長さ、又はクラスタが形成される表面に付着したプライマーの密度を含むが、これらに限定されない多数のパラメータによって影響され得る。核酸クラスタの密度は、典型的には、0.1/mm、1/mm、10/mm、100/mm、1,000/mm、10,000/mm~100,000/mmの範囲であるように設計することができる。本発明は、一部では、より高密度の核酸クラスタ、例えば、100,000/mm~1,000,000/mm、及び1,000,000/mm~10,000,000/mmを更に企図する。
【0285】
本明細書で使用するとき、「分析物」は、検体又は視野内の対象領域である。マイクロアレイデバイス又は他の分子分析デバイスに関連して使用される場合、分析物は、類似又は同一の分子によって占有される領域を指す。例えば、分析物は、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施態様では、分析物は、検体上の物理的領域を占有する任意の要素又は要素群であり得る。例えば、分析物は、ランドのパセル、水の本体などであってもよい。分析物が撮像されると、各分析物は、一部の領域を有する。したがって、多くの実施態様では、分析物は、単に1つのピクセルではない。
【0286】
分析物間の距離は、任意の数の方式で説明することができる。いくつかの実施態様では、分析物間の距離は、1つの分析物の中心から別の分析物の中心まで説明することができる。他の実施態様では、距離は、1つの分析物の縁部から別の分析物の縁部まで、又は各分析物の最も外側の識別可能な点間に記載することができる。分析物の縁部は、チップ上の理論的若しくは実際の物理的境界、又は分析物の境界内のいくつかの点として説明することができる。他の実施態様では、距離は、検体上の固定点、又は検体の画像に関して説明することができる。
【0287】
一般に、分析方法に関して、いくつかの実施態様が本明細書に記載される。自動又は半自動化方式で方法を実行するためのシステムも提供されることが理解されるであろう。したがって、本開示は、ニューラルネットワークベースのテンプレート生成及びベースコールシステムを提供し、システムは、プロセッサと、記憶デバイスと、画像分析のためのプログラムと、を含み、プログラムは、本明細書に記載の方法のうちの1つ以上を実行するための命令を含む。したがって、本明細書に記載される方法は、例えば、本明細書に記載されるか又は当該技術分野において既知の構成要素を有するコンピュータ上で実行することができる。
【0288】
本明細書に記載される方法及びシステムは、様々な物体のうちのいずれかを分析するのに有用である。特に有用な物体は、固体担体又は付着した分析物を有する固相表面である。本明細書に記載される方法及びシステムは、xy平面における分析物の繰り返しパターンを有する物体とともに使用される場合、利点を提供する。一例は、細胞、ウイルス、核酸、タンパク質、抗体、炭水化物、小分子(薬物候補など)、生物学的活性分子、又は他の対象分析物の集合を有するマイクロアレイである。
【0289】
核酸及びポリペプチドなどの生物学的分子を有する分析物を有するアレイの用途の数が増えてきた。このようなマイクロアレイは、典型的には、デオキシリボ核酸(DNA)又はリボ核酸(RNA)プローブが挙げられる。これらは、ヒト及び他の生物に存在するヌクレオチド配列に特異的である。特定の用途では、例えば、個々のDNA又はRNAプローブをアレイの個々の分析物に取り付けることができる。既知のヒト又は生物からのものなどの試験試料は、標的核酸(例えば、遺伝子フラグメント、mRNA、又はアンプリコン)が配列中のそれぞれの分析物で相補的プローブにハイブリダイズするように、アレイに曝露することができる。プローブは、標的特異的プロセス(例えば、標的核酸上に存在する標識に起因して、又は分析物においてハイブリダイズした形態で存在するプローブ又は標的の酵素標識に起因して)標識することができる。次いで、分析物の上の特定の光の周波数を走査して、どの標的核酸が試料中に存在するかを識別することによって検査することができる。
【0290】
生物学的マイクロアレイは、遺伝子配列決定及び類似の用途に使用され得る。一般に、遺伝子配列決定は、DNA又はRNAのフラグメントなどの標的核酸の長さのヌクレオチドの順序を決定することを含む。比較的短い配列は、典型的には、各分析物において配列決定され、得られた配列情報は、様々な生物情報科学法において使用されて、フラグメントが由来する多くの広範な長さの遺伝物質の配列を確実に決定するために、様々な生物情報科学法において使用されてもよい。特徴的フラグメントの自動化されたコンピュータベースのアルゴリズムが開発されており、ゲノムマッピング、遺伝子の識別、及びそれらの機能などにおいて、より最近使用されてきた。マイクロアレイは、多数の変異体が存在するため、ゲノム含有量を特徴付けるのに特に有用であり、このことは、個々のプローブ及び標的に対して多くの実験を実施する代替物であるため、ゲノム含有量を特徴付けるのに特に有用である。マイクロアレイは、実用的な様式でこのような調査を実施するための理想的なフォーマットである。
【0291】
当該技術分野において既知の様々な分析物アレイ(「マイクロアレイ」とも称される)のいずれも、本明細書に記載される方法又はシステムにおいて使用することができる。典型的なアレイは、各々が個々のプローブ又はプローブの集団を有する分析物を含む。後者の場合、各分析物におけるプローブの集団は、典型的には、単一種のプローブを有する均質である。例えば、核酸配列の場合、各分析物は、各々、共通の配列を有する複数の核酸分子を有することができる。しかしながら、いくつかの実施態様では、アレイの各分析物における集団は、不均質であり得る。同様に、タンパク質配列は、単一のタンパク質又はタンパク質の集団を有する分析物を有することができ、典型的には、同じアミノ酸配列を有するが、必ずしもそうではない。プローブは、例えば、プローブを表面に共有結合することによって、又はプローブと表面との非共有相互作用を介して、アレイの表面に取り付けることができる。いくつかの実施態様では、核酸分子などのプローブは、ゲル層を介して表面に付着させることができ、例えば、米国特許出願第13/784,368号及び米国特許出願公開第2011/0059865(A1)号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
【0292】
例示的なアレイとしては、限定するものではないが、Illumina,Inc(San Diego,Calif.)から入手可能なBeadChipアレイ又は他のもの、例えば、プローブが、表面上に存在するビーズ(例えば、表面上のウェル内のビーズ)に取り付けられる、以下、米国特許第6,266,459号、同第6,355,431号、同第6,770,441号、同第6,859,570号、若しくは米国特許第7,622,294号、又は国際公開第00/63437号に、記載されたものなどの他のものが挙げられ、これらの各々は、参照により本明細書に組み込まれる。使用することができる市販のマイクロアレイの更なる例としては、例えば、VLSIPS(商標)(Very Large Scale Immobilized Polymer Synthesis)技術と称されることがある技法に従って合成されたAffymetrix(登録商標)GeneChip(登録商標)マイクロアレイ又は他のマイクロアレイが挙げられる。スポッティングされたマイクロアレイはまた、本開示のいくつかの実施態様による方法又はシステムにおいて使用することができる。例示的なスポッティングされたマイクロアレイは、Amersham Biosciencesから入手可能なCodeLink(商標)Arrayである。有用な別のマイクロアレイは、Agilent Technologiesから入手可能なSurePrint(商標)Technologyなどのインクジェット印刷法を使用して製造されるものである。
【0293】
他の有用な配列としては、核酸配列決定用途で使用されるものが挙げられる。例えば、ゲノムフラグメント(多くの場合、クラスタと称される)のアンプリコンを有するアレイは、Bentley et al.,Nature 456:53-59(2008)、国際公開第04/018497号、同第91/06678号、同第07/123744号、米国特許第7,329,492号、同第7,211,414号、同第7,315,019号、米国特許7,405,281号若しくは米国特許7,057,026号、又は米国特許出願公開第2008/0108082(A1)号に記載されており、これらの各々は、参照により本明細書に組み込まれる。核酸配列決定に有用な別のタイプの配列は、エマルションPCR技法から作り出される粒子の配列である。実施例は、Dressman et al.,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003)、国際公開第05/010145号、米国特許出願公開第2005/0130173号、又は米国特許出願公開第2005/0064460号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれる。
【0294】
核酸配列に使用される配列は、多くの場合、核酸分析物のランダムな空間パターンを有する。例えば、Illumina Incから入手可能なHiSeq又はMiSeq配列決定プラットフォーム(San Diego,Calif.)は、核酸配列がランダム播種、続いてブリッジ増幅によって形成されるフローセルを利用する。しかしながら、パターン化されたアレイは、核酸配列決定又は他の分析用途にも使用することができる。パターン化されたアレイの例、それらの製造方法及びその使用方法は、米国特許出願第13/787,396号、米国特許出願第13/783,043号、米国特許出願第13/784,368号、米国特許出願公開第2013/0116153(A1)号、及び米国特許出願公開第2012/0316086(A1)号に記載されており、これらの各々は、参照により本明細書に組み込まれる。このようなパターン化された配列の分析物を使用して、単一の核酸テンプレート分子を捕捉して、例えば、ブリッジ増幅を介して、均質なコロニーの後続の形成を行うことができる。このようなパターン化されたアレイは、核酸配列決定用途に特に有用である。
【0295】
アレイ(又は本明細書の方法又はシステムで使用される他の物体)上の分析物のサイズは、特定の用途に適するように選択することができる。例えば、いくつかの実施態様では、アレイの分析物は、単一の核酸分子のみを収容するサイズを有することができる。このサイズ範囲の複数の分析物を有する表面は、単一分子分解能で検出するための分子の配列を構築するのに有用である。このサイズ範囲の分析物もまた、核酸分子のコロニーをそれぞれ含む分析物を有するアレイでの使用にも有用である。したがって、アレイの分析物は各々、約1mm以下、約500μm以下、約100μm以下、約10μm以下、約1μm以下、約500nm以下、又は約100nm以下、約10nm以下、約5nm以下、又は約1nm以下の面積を有することができる。代替的に又は追加的に、アレイの分析物は、約1mm以上、約500μm以上、約100μm以上、約10μm以上、約1μm以上、約500nm以上、約100nm以上、約10nm以上、約5nm以上、又は約1nm以上である。実際に、分析物は、上記に例示したものから選択される上限と下限との間の範囲内の大きさを有することができる。表面の分析物のいくつかのサイズ範囲が核酸及び核酸のスケールに関して例示されてきたが、これらのサイズ範囲の分析物は、核酸を含まない用途に使用され得ることが理解されるであろう。分析物のサイズは、核酸用途に使用されるスケールに必ずしも限定される必要はないことが更に理解されるであろう。
【0296】
分析物のアレイなどの複数の分析物を有する物体を含む実施例では、分析物は、互いの間の空間で分離されている、別個のものとすることができる。本発明において有用なアレイは、最大で100μm、50μm、10μm、5μm、1μm、0.5μm以下の縁部から縁部までの距離によって分離される分析物を有することができる。代替的に又は追加的に、アレイは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm以上の縁部から縁部までの距離によって分離される分析物を有することができる。これらの範囲は、分析物の平均縁部間隔及び縁部間隔、並びに最小又は最大間隔に適用することができる。
【0297】
いくつかの実施態様では、アレイの分析物は、別個である必要はなく、代わりに、隣接する分析物は互いに当接することができる。分析物が別個であるか否かに関わらず、分析物及び/又は分析物のピッチの大きさは、アレイが所望の密度を有することができるように変化し得る。例えば、規則的なパターンにおける平均分析物ピッチは、最大で100μm、50μm、10μm、5μm、1μm、0.5μm以下であり得る。代替的に又は追加的に、規則的なパターンにおける平均分析物ピッチは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm以上であり得る。これらの範囲は、規則的なパターンの最大ピッチ又は最小ピッチにも適用することができる。例えば、規則的なパターンの最大分析物ピッチは、100μm以下、50μm以下、10μm以下、5μm以下、1μm以下、0.5μm以下とすることができ、かつ/又は規則的なパターンにおける最小分析物ピッチは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm以上であり得る。
【0298】
アレイ内の分析物の密度は、単位面積当たりに存在する分析物の数に関しても理解され得る。例えば、アレイに関する分析物の平均密度は、少なくとも約1×10個の分析物/mm、1×10個の分析物/mm、1×10個の分析物/mm、1×10検/mm、1×10個の分析物/mm、1×10個の分析物/mm、又は1×10個の分析物/mm以上であり得る。代替的に又は追加的に、アレイに関する分析物の平均密度は、最大で約1×10個の分析物/mm、1×10個の分析物/mm、1×10個の分析物/mm、1×10個の分析物/mm、1×10個の分析物/mm、1×10個の分析物/mm、又は1×10個の分析物/mm以下であり得る。
【0299】
上記の範囲は、例えば、分析物のアレイの全て又は一部を含む規則的なパターンの全て又は一部に適用することができる。
【0300】
パターン内の分析物は、様々な形状のいずれかを有することができる。例えば、アレイの表面上などの二次元平面で観察される場合、分析物は、丸みを帯びた、円形、楕円形、矩形、正方形、対称、非対称、三角形、多角形などに見える場合がある。分析物は、例えば六角形又は直線パターンを含む規則的な繰り返しパターンで配置することができる。パターンは、所望のレベルのパッキングを達成するように選択され得る。例えば、円形分析物は、六角形の配置で最適に充填される。当然のことながら、他のパッキング構成もまた、円形分析物のために使用することができ、逆もまた同様である。
【0301】
パターンは、パターンの最小幾何学的単位を形成するサブセット内に存在する分析物の数に関して特徴付けることができる。サブセットは、例えば、少なくとも約2、3、4、5、6、10個以上の分析物を含み得る。分析物のサイズ及び密度に応じて、幾何学的単位は、1mm、500μm、100μm、50μm、10μm、1μm、500nm、100nm、50nm、10nm以下の面積を占めることができる。代替的に又は追加的に、幾何学的単位は、10nm、50nm、100nm、500nm、1μm、10μm、50μm、100μm、500μm、1mm以上の面積を占めることができる。形状、サイズ、ピッチなどの幾何学的単位における分析物の特性は、アレイ又はパターンの分析物に関して、より一般的に本明細書に記載されるものから選択することができる。
【0302】
分析物の規則的なパターンを有するアレイは、分析物の相対的な場所に対して順序付けられるが、各分析物の1つ以上の他の特性に対してランダムであってもよい。例えば、核酸配列の場合、核酸分析物は、それらの相対的な場所に関して規則的であるが、任意の特定の分析物に存在する核酸種に関する配列の知識に関してランダムであってもよい。より具体的な例として、テンプレート核酸を有する分析物の反復パターンを播種し、各分析物でテンプレートを増幅して、分析物においてテンプレートのコピーを形成することによって形成される核酸配列(例えば、クラスタ増幅又はブリッジ増幅を介して、核酸分析物の規則的なパターンを有するが、配列にわたる核酸の配列の分布に関してランダムであろう。したがって、アレイ上の核酸材料の存在の検出は、分析物の繰り返しパターンをもたらすことができるのに対し、配列特異的検出は、アレイにわたる信号の非反復分布をもたらすことができる。
【0303】
本明細書におけるパターン、順序、ランダム性などの説明は、アレイ上の分析物などの物体上の分析物にも関するだけでなく、画像中の分析物にも関連することが理解されるであろう。したがって、パターン、順序、ランダム性などは、限定するものではないが、グラフィカルユーザインターフェース又は他の出力デバイスなどのコンピュータ可読媒体又はコンピュータ構成要素を含むがこれらに限定されない、画像データを記憶、操作、又は通信するために使用される様々なフォーマットのうちのいずれかに存在することができる。
【0304】
本明細書で使用するとき、用語「画像」は、物体の全て又は一部の表現を意味することを意図する。表現は、光学的に検出された再現であり得る。例えば、蛍光、発光、散乱、又は吸収信号から画像を得ることができる。画像内に存在する物体の部分は、物体の表面又は他のxy面であり得る。典型的には、画像は二次元表現であるが、場合によっては、画像内の情報は、3つ以上の次元から導出することができる。画像は、光学的に検出された信号を含む必要はない。非光信号を代わりに存在させることができる。画像は、本明細書の他の箇所に記載されるもののうちの1つ以上などの、コンピュータ可読フォーマット又は媒体に提供することができる。
【0305】
本明細書で使用するとき、「画像」は、検体又は他の物体の少なくとも一部分の再現又は表現を指す。いくつかの実施態様では、再現は、例えばカメラ又は他の光学検出器によって作り出される光再現である。再現は、非光学的再現、例えば、ナノ細孔分析物のアレイから得られる電気信号の表現、又はイオン感応性CMOS検出器から得られた電気信号の表現であり得る。特定の実施態様では、非光学的再現性は、本明細書に記載される方法又は装置から除外され得る。画像は、例えば、100μm、50μm、10μm、5μm、1μm、又は0.5μm未満離れたものを含む、様々な間隔のいずれかで存在する検体の分析物を区別することができる解像度を有することができる。
【0306】
本明細書で使用するとき、「取得」、「取得」、及び同様の用語は、画像ファイルを取得するプロセスの任意の部分を指す。いくつかの実施態様では、データ取得は、検体の画像を生成することと、検体内の信号を探すことと、信号の画像を探すか又は生成するように検出デバイスに指示することと、画像ファイルの更なる分析又は変換のための命令、及び画像ファイルの任意の数の変換又は操作のための命令を与えることと、を含むことができる。
【0307】
本明細書で使用するとき、用語「テンプレート」は、信号又は分析物間の場所又は関係の表現を指す。したがって、いくつかの実施態様では、テンプレートは、検体中の分析物に対応する信号の表現を有する物理的グリッドである。いくつかの実施態様では、テンプレートは、チャート、テーブル、テキストファイル、又は分析物に対応する場所を示す他のコンピュータファイルであり得る。本明細書に提示される実施態様では、異なる基準点で捕捉された検体の画像のセットにわたって検体の分析物の場所を追跡するためにテンプレートが生成される。例えば、テンプレートは、x、y座標のセット、又は別の分析物に対する1つの分析物の方向及び/若しくは距離を記述する値のセットであり得る。
【0308】
本明細書で使用するとき、用語「検体」は、画像が取り込まれる物体又は物体の領域を指すことができる。例えば、画像が土壌の表面から撮影される実施例では、ランドのパセルは、検体であり得る。生体分子の分析がフローセル内で実施される他の実施態様では、フローセルは、任意の数のサブディビジョンに分割されてもよく、これらの各々が検体であってもよい。例えば、フローセルは、様々な流路又はレーンに分割されてもよく、各レーンは、画像化される2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、140、160、180、200、400、600、800、1000個以上の別個の領域に更に分割され得る。フローセルの一例は8つのレーンを有し、各レーンは120個の検体又はタイルに分割されている。別の実施態様では、検体は、複数のタイル、又は更にはフローセル全体で作製されてもよい。したがって、各検体の画像は、撮像されるより大きい表面の領域を表すことができる。
【0309】
本明細書に記載される範囲及び連続数リストへの言及は、列挙された数だけではなく、列挙された数字間の全ての実数を含むことが理解されるであろう。
【0310】
本明細書で使用するとき、「参照点」は、画像間の任意の時間的又は物理的区別を指す。好ましい別の実施態様では、基準点は時間点である。より好ましい実施態様では、参照点は、配列決定反応中の時点又はサイクルである。しかしながら、用語「基準点」は、画像を区別又は分離することができる、角度、回転、時間、又は他の態様などの画像を区別又は分離する他の態様を含むことができる。
【0311】
本明細書で使用するとき、「画像のサブセット」は、セット内の画像のグループを指す。例えば、サブセットは、画像のセットから選択される1、2、3、4、6、8、10、12、14、16、18、20、30、40、50、60又は任意の数の画像を含んでもよい。特定の別の実施態様では、サブセットは、1、2、3、4、6、8、10、12、14、16、18、20、30、40、50、60以下、又は画像のセットから選択される任意の数の画像を含んでもよい。好ましい別の実施態様では、画像は、各サイクルに相関する4つの画像を有する1つ以上の配列決定サイクルから得られる。したがって、例えば、サブセットは、4サイクルにわたって取得された16画像のグループであり得る。
【0312】
塩基は、ヌクレオチド塩基又はヌクレオチド、(アデニン)、C(シトシン)、T(チミン)、又はG(グアニン)を指す。本出願は、「塩基」及び「ヌクレオチド」を互換的に使用する。
【0313】
用語「染色体」は、DNA及びタンパク質成分(特にヒストン)を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを指す。従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。
【0314】
「部位」という用語は、参照ゲノム上の固有の位置(例えば、染色体ID、染色体位置及び配向)を指す。いくつかの実施態様では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。用語「遺伝子座」は、参照染色体上の核酸配列又は多型の特定の場所を指すために使用されてもよい。
【0315】
本明細書における用語「試料」は、典型的には、配列決定及び/又はフェーズドされる核酸を含有する生物液、細胞、組織、器官、又は生物に由来する試料、又は配列決定及び/又はフェーズドされる核酸配列を少なくとも1つ含有する核酸の混合物に由来する試料を指す。このような試料としては、痰/口腔流体、羊水、血液、血液画分、細針生検試料(例えば、外科生検、針生検など)、尿、腹膜流体、胸膜流体、組織外植片、臓器培養物、及びこれらの任意の他の組織若しくは細胞調製物、又はこれらの画分若しくは誘導体が挙げられるが、これらに限定されない。試料は、多くの場合、ヒト被験者(例えば、患者)から採取されるが、試料は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。試料は、生物学的源から得られるように、又は試料の特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法には、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸フラグメント化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。
【0316】
用語「配列」は、互いに結合されたヌクレオチドの鎖を含むか、又はそれを表す。ヌクレオチドは、DNA又はRNAに基づくことができる。1つの配列は、複数のサブ配列を含んでもよいことを理解されたい。例えば、単一の配列(例えば、PCRアンプリコン)は、350ヌクレオチドを有してもよい。試料読み取りは、これらの350ヌクレオチド内に複数のサブ配列を含んでもよい。例えば、試料読み取りは、例えば、20~50ヌクレオチドを有する第1及び第2のフランキングサブ配列を含んでもよい。第1及び第2の隣接するサブ配列は、対応するサブ配列(例えば、40~100ヌクレオチド)を有する反復セグメントの両側に位置してもよい。隣接するサブ配列の各々は、プライマーサブ配列(例えば、10~30ヌクレオチド)を含んでもよい(又はその一部分を含み得る)。読み取りを容易にするために、用語「サブ配列」は「配列」と称されるが、2つの配列は、共通のストランド上で互いに別個である必要はないことが理解される。本明細書に記載の様々な配列を区別するために、配列は、異なる標識(例えば、標的配列、プライマー配列、隣接配列、参照配列など)を与えられてもよい。「対立遺伝子」などの他の用語は、同様の物体を区別するために異なるラベルを与えられてもよい。アプリケーションは、「読み取り」及び「配列読み取り」を互換的に使用する。
【0317】
用語「ペアエンド配列決定(paired end sequencing)」は、標的フラグメントの両端を配列する配列決定方法を指す。ペアエンド配列決定は、ゲノム再構成及び反復セグメントの検出、並びに遺伝子融合及び新規転写物の検出を容易にし得る。ペアエンド配列決定の方法は、国際公開第07010252号、国際出願第GB2007/003798号、及び米国特許出願公開第2009/0088327号に記載されており、これらは各々参照により本明細書に組み込まれる。一実施例では、一連の動作は、以下のように実施され得る。(a)核酸のクラスタを生成し、(b)核酸を線形化し、(c)上記のように、第1の配列決定プライマーをハイブリダイズし、伸長、走査及びデブロッキングのサイクルを繰り返し実行し、(d)相補的なコピーを合成することによって、フローセル表面上の標的核酸を「反転」させ、(e)再合成された鎖を線形化し、(f)上記のように、第2の配列決定プライマーをハイブリダイズし、伸長、走査及びデブロッキングのサイクルを繰り返し実行する。反転操作は、ブリッジ増幅の単一サイクルについて上述した試薬を送達することができる。
【0318】
用語「参照ゲノム」又は「参照配列」は、対象からの識別された配列を参照するために使用され得る任意の生物の部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くのその他の生物が、National Center for Biotechnology Information(ncbi.nlm.nih.gov)で見出される。「ゲノム」とは、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を意味する。ゲノムは、DNAの遺伝子及び非コード配列の両方を含む。参照配列は、それに位置合わせされたリードよりも大きくてもよい。例えば、参照配列は、少なくとも約100倍大きい、又は少なくとも約1000倍大きい、又は少なくとも約10,000倍大きい、又は少なくとも約105倍大きい、又は少なくとも約106倍大きい、又は少なくとも約107倍大きい場合がある。一実施例では、参照ゲノム配列は、完全長ヒトゲノムのものである。別の例では、参照ゲノム配列は、染色体13などの特定のヒト染色体に限定される。いくつかの実施態様では、参照染色体は、ヒトゲノムバージョンhg19からの染色体配列である。このような配列は、染色体参照配列と称される場合があるが、用語参照ゲノムは、そのような配列を網羅することを意図している。参照配列の他の例としては、その他の種のゲノム、並びに任意の種の染色体、部分染色体領域(ストランドなど)などが挙げられる。様々な実施態様では、参照ゲノムは、複数の個体に由来するコンセンサス配列又は他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。他の実施態様では、「ゲノム」はまた、ゲノム配列の特定の記憶形式及び表現を使用するいわゆる「グラフゲノム」も被覆する。一実施態様では、グラフゲノムは、線形ファイルにデータを記憶する。別の実施態様では、グラフゲノムは、代替的な配列決定(例えば、小さい差異を有する染色体の異なるコピー)がグラフ内の異なる経路として記憶されている表現を指す。グラフゲノムの実装に関する追加情報は、https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf.にて参照することができ、その内容は、その全体が参照により本明細書に組み込まれる。
【0319】
用語「読み取り」は、ヌクレオチド試料又は参照のフラグメントを記述する配列データの集合を指す。用語「読み取り」は、試料読み取り及び/又は参照読み取りを指し得る。典型的には、必ずしもそうではないが、読み取りは、試料又は参照における連続的な塩基対の短い配列を表す。読み取りは、試料又は参照フラグメントのベース対配列(ATCG)によって記号的に表されてもよい。読み取りが参照配列と一致するか、又は他の基準を満たすかを判定するために、メモリデバイスに記憶され、適切に処理されてもよい。リードは、シーケンシング装置から直接、又は試料に関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きい配列又は領域を識別するために使用することができる十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
【0320】
次世代配列決定法としては、例えば、合成技術(Illumina)、ピロ配列決定(454)、イオン半導体技術(Ion Torrent sequencing)、一分子リアルタイム配列決定(Pacific Biosciences)及びライゲーションによる配列決定(SOLiD配列決定)が挙げられる。配列決定法に応じて、各読み取りの長さは、約30bp~10,000bpを超えて変化し得る。例えば、SOLiDシーケンサを用いたDNA配列決定法は、約50bpの核酸リードを生成する。別の例では、Ion Torrent Sequencingは、最大400bpの核酸リードを生成し、454のピロ配列は、約700bpの核酸リードを生成する。更に別の例では、単分子リアルタイム配列決定法は、10,000bp~15,000bpのリードを生成し得る。したがって、特定の実施態様では、核酸配列のリードは、30~100bp、50~200bp、又は50~400bpの長さを有する。
【0321】
用語「試料読み取り」、「試料配列」又は「試料フラグメント」は、試料から対象とするゲノム配列に関する配列データを指す。例えば、試料読み取りは、順方向及び逆方向プライマー配列を有するPCRアンプリコンからの配列データを含む。配列データは、任意の選択配列方法論から得ることができる。試料の読み取りは、例えば、合成による配列決定(sequencing-by-synthesis、SBS)反応、配列決定・ライゲーション反応、又は反復要素の長さ及び/若しくは同一性を決定することが望ましい任意の他の好適な配列決定方法論であり得る。試料読み取りは、複数の試料読み取りに由来するコンセンサス(例えば、平均又は加重)配列であり得る。特定の実施態様では、参照配列を提供することは、PCRアンプリコンのプライマー配列に基づいて目的の遺伝子座を識別することを含む。
【0322】
用語「生フラグメント」は、試料読み取り又は試料フラグメント内の対象とする指定位置又は二次位置に少なくとも部分的に重なり合う、対象とするゲノム配列の一部の配列データを指す。生フラグメントの非限定的な例としては、二重ステッチされたフラグメント、単純なステッチされたフラグメント、及び単純な非ステッチのフラグメントが挙げられる。用語「生」は、生フラグメントが試料読み取りにおける配列データとのいくつかの関係を有する配列データを含むことを示すために使用され、生フラグメントが、試料読み取りにおける潜在的変異体に対応し、かつそれを認証又は確認する支持変異体を示すかどうかに関わらず、使用される。用語「生フラグメント」は、フラグメントが、試料読み取りにおける変異型コールを検証する支持変異体を必ずしも含むことを示すものではない。例えば、試料読み取りが、第1の変異体を呈するために、変異型コールアプリケーションによって判定されるとき、この変異型コールアプリケーションは、1つ以上の生フラグメントが、試料読み取りにおける変異体を考慮して、そうでなければ発生することが予想され得る、対応するタイプの「支持」変異体を欠くと判定することができる。
【0323】
用語「マッピング」、「位置合わせされた」、「位置合わせ」、又は「位置合わせする」という用語は、読み取り又はタグを参照配列と比較し、それによって、参照配列が読み取り配列を含むかどうかを判定するプロセスを指す。参照配列が読み取られた場合、読み取りは参照配列にマップされてもよく、又は特定の別の実施態様では、参照配列内の特定の場所にマッピングされてもよい。いくつかの場合において、位置合わせは、リードが特定の参照配列のメンバーであるか否か(すなわち、リードが参照配列中に存在するか又は存在していないか)を単に伝える。例えば、ヒト染色体13についての参照配列に対するリードの位置合わせは、染色体13の参照配列中にリードが存在するかどうかを伝える。本情報を提供するツールは、セットメンバーシップテスタ(set membership tester)と呼ばれる場合がある。場合によっては、位置合わせは、読み取り又はタグマップがある参照配列内の場所を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、位置合わせは、染色体13上にリードが存在することを示してもよく、更に、リードが染色体13の特定の鎖及び/又は部位にあることを更に示してもよい。
【0324】
用語「インデル」は、生物のDNA中の塩基の挿入及び/又は欠失を指す。マイクロインデルは、1~50ヌクレオチドの正味変化をもたらすインデルを表す。インデルの長さが3の倍数でない限り、ゲノムの領域をコードする際に、フレームシフト変異が生じる。インデルは、点突然変異と対比することができる。インデル挿入物は、配列からヌクレオチドを欠失させるが、点変異は、DNA中の全体的な数を変えることなくヌクレオチドのうちの1つを置き換える置換の形態である。インデルはまた、隣接するヌクレオチドにおける置換として定義され得るTandem Base変異(Tandem Base Mutation、TBM)と対比することもできる(主に2つの隣接するヌクレオチドで置換されるが、隣接する3つのヌクレオチドでの置換が観察された。
【0325】
用語「変異体」は、核酸参照とは異なる核酸配列を指す。典型的な核酸配列変異体としては、限定するものではないが、単一のヌクレオチド多型(Single Nucleotide Polymorphism、SNP)、短い欠失及び挿入多型(Indel)、コピー数変動(Copy Number Variation、CNV)、マイクロ衛星マーカー、又は短いタンデム反復及び構造変異が挙げられる。体細胞変異体コールは、DNA試料中に低頻度で存在する変異体を識別するための努力である。体細胞変異体のコーリングは、癌治療の文脈において対象となる。癌は、DNAにおける変異の蓄積によって引き起こされる。腫瘍由来のDNA試料は、一般的に不均質であり、いくつかの正常細胞、癌進行の早期段階(より少ない突然変異を伴う)、及び一部の後期細胞(より多くの変異を有する)を含む。この不均一性のため、腫瘍を配列決定するとき(例えば、FFPE試料から)、体細胞変異は、多くの場合、低頻度で現れる。例えば、SNVは、所与の塩基を被覆するリードの10%のみに見られ得る。変異体分類子によって体細胞又は生殖細胞系として分類される変異体は、本明細書では「試験中の変異体」とも称される。
【0326】
用語「ノイズ」は、配列決定プロセス及び/又は変異型コールアプリケーションにおける1つ以上の誤差から生じる、誤りのある変異型コールを指す。
【0327】
用語「変異体頻度」は、集団内の特定の遺伝子座における対立遺伝子(遺伝子の変異体)の相対頻度を表し、分画又は割合として表される。例えば、分画又は割合は、その対立遺伝子を保有する集団中の全ての染色体の割合であってもよい。一例として、試料変異体頻度は、個体から対象となるゲノム配列について得られたリード及び/又は試料の数に対応する「集団」にわたって、対象とするゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表す。別の例として、ベースライン変異体頻度は、1つ以上のベースラインゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表し、ここで、1つ以上のベースラインゲノム配列について得られた、1つ以上のベースラインゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表す。
【0328】
用語「変異型対立遺伝子頻度(Variant Allele Frequency、VAF)」は、変異体を標的位置での全体的な被覆率で割った、配列決定されたリードの割合を指す。VAFは、変異体を保有する配列決定されたリードの割合の尺度である。
【0329】
用語「位置」、「指定位置」、及び「遺伝子座」は、ヌクレオチド配列内の1つ以上のヌクレオチドの場所又は座標を指す。用語「位置」、「指定位置」、及び「遺伝子座」はまた、ヌクレオチドの配列における1つ以上の塩基対の場所又は座標を指す。
【0330】
用語「ハプロタイプ」は、互いに遺伝する染色体上の隣接する部位における対立遺伝子の組み合わせを指す。ハプロタイプは、存在する場合、座の所与のセットの間に生じた組換えイベントの数に応じて、1つの遺伝子座、いくつかの座、又は染色体全体であってもよい。
【0331】
本明細書における「閾値」という用語は、試料、核酸、又はその一部(例えば、読み取り)を特徴付けるためのカットオフとして使用される数値又は数値を指す。閾値は、経験的分析に基づいて変化してもよい。閾値は、そのような値を生じさせる源が特定の様式で分類されるべきかどうかを判定するために、測定値又は計算値と比較することができる。閾値は、経験的又は分析的に識別することができる。閾値の選択は、ユーザが分類を行う必要があることを望む信頼度に依存する。閾値は、特定の目的(例えば、感度及び選択性のバランスのために)選択されてもよい。本明細書で使用するとき、用語「閾値」は、分析の過程が変化し得る点、及び/又はアクションがトリガされ得る点を示す。閾値は、所定の数である必要はない。その代わりに、閾値は、例えば、複数の因子に基づく関数であってもよい。閾値は、状況に適合し得る。更に、閾値は、上限、下限、又は限界間の範囲を示し得る。
【0332】
いくつかの実施態様では、配列決定データに基づく指標又はスコアは、閾値と比較され得る。本明細書で使用するとき、用語「メトリック」又は「スコア」は、配列決定データから決定された値又は結果を含んでもよく、又は配列決定データから決定された値又は結果に基づく関数を含んでもよい。閾値と同様に、指標又はスコアは、状況に適合し得る。例えば、指標又はスコアは、正規化された値であってもよい。スコア又はメトリックの例として、1つ以上の実施態様は、データを分析する際にカウントスコアを使用することができる。計数スコアは、試料読み取りの数に基づいてもよい。試料読み取りは、試料読み取りが少なくとも1つの共通の特性又は品質を有するように、1つ以上のフィルタリング段階を経ていてもよい。例えば、計数スコアを決定するために使用される試料読み取りの各々は、参照配列と位置合わせされていてもよく、又は潜在的な対立遺伝子として割り当てられてもよい。共通の特性を有する試料読み取りの数をカウントして、リードカウントを決定することができる。カウントスコアは、読み取りカウントに基づいてもよい。いくつかの実施態様では、計数スコアは、リードカウントと等しい値であってもよい。他の実施例では、計数スコアは、リードカウント及び他の情報に基づいてもよい。例えば、計数スコアは、遺伝子座の特定の対立遺伝子のリードカウント、及び遺伝子座の合計リード数に基づいてもよい。いくつかの実施態様では、計数スコアは、遺伝子座のリードカウント及び以前に得られたデータに基づいてもよい。いくつかの実施態様では、計数スコアは、所定の値間の正規化スコアであってもよい。計数スコアはまた、試料の他の遺伝子座からのリードカウントの関数、又は対象となる試料と同時に動作された他の試料からのリードカウントの関数であってもよい。例えば、計数スコアは、特定の対立遺伝子の読み取りカウント及び試料中の他の遺伝子座の読み取りカウント、及び/又は他の試料からのリードカウントの関数であってもよい。一例として、他の遺伝子座からのリードカウント及び/又は他の試料からのリードカウントを使用して、特定の対立遺伝子についての計数スコアを正規化してもよい。
【0333】
用語「被覆率」又は「フラグメント被覆率」は、配列の同じフラグメントに対する多数の試料読み取りの計数又は他の尺度を指す。リードカウントは、対応するフラグメントをカバーするリードの数のカウントを表し得る。代替的に、被覆率は、履歴知識、試料の知識、遺伝子座の知識などに基づく指定された因子を、リードカウントに掛けることによって決定されてもよい。
【0334】
用語「読み取り深さ」(従来、「×」が続く数)は、標的位置における重なり合うアライメントを伴う配列決定されたリードの数を指す。これは、多くの場合、間隔のセット(エキソン、遺伝子、又はパネルなど)のカットオフを超える平均又は百分率として表現される。例えば、臨床報告は、パネル平均被覆率が、標的化されたベースカバー>100×の98%を有する1,105×であると言うことができる。
【0335】
用語「ベースコール品質スコア」又は「Qスコア」は、単一の配列決定された塩基が正しい確率に反比例する0-50からの範囲のPHREDスケールされた確率を指す。例えば、20のQを有するTベースコールは、99.99%の確率で正しいと考えられる。Q<20での任意のベースコールは、低品質であるとみなされるべきであり、変異体を支持する配列決定されたリードのかなりの割合が低い場合に識別される任意の変異体は、潜在的に偽陽性であるとみなされるべきである。
【0336】
用語「変異体リード」又は「変異体リード番号」は、変異体の存在を支持する配列決定されたリードの数を指す。
【0337】
「撚れ性(strandedness)」(又はDNA撚れ性)に関して、DNA中の遺伝的メッセージは、文字A、G、C、及びTの文字、例えば、5’-AGGACA-3’として表すことができる。多くの場合、配列は、本明細書に示される方向、すなわち、5’端を左に、3’端を右に書き込む。DNAは、(特定のウイルスのように)一本鎖分子として生じる場合があるが、通常、二本鎖単位としてDNAを見つける。これは、2つの抗平行ストランドを有する二重螺旋構造を有する。この場合、「逆平行」という語は、2つのストランドが平行に動作するが、反対の極性を有することを意味する。二本鎖DNAは、塩基とペアリングによって一緒に保持され、ペアリングは、アデニン(A)対がチミン(T)及びシトシン(C)対とグアニン(G)との対となるように、常に保持される。このペアリングは相補性と称され、1本のDNA鎖は、他方の相補体であると言われる。したがって、二本鎖DNAは、5’-AGGACA-3’及び3’-TCCTGT-5’と同様に、2つのストリングとして表され得る。2つのストランドは、反対の極性を有することに留意されたい。したがって、2つのDNA鎖のストランド性は、基準ストランド及びその補体、順方向及び逆方向ストランド、トップ及びボトムストランド、センス及びアンチセンスストランド、又はワトソン及びクリックストランドと称され得る。
【0338】
リードアライメント(リードマッピングとも呼ばれる)は、ゲノム中の配列が由来する場合に、参照するプロセスである。位置合わせが実施されると、所与の読み取りの「マッピング品質」又は「マッピング品質スコア(mapping quality score、MAPQ)」は、ゲノム上のその位置が正しい確率を定量化する。マッピング品質は、位相スケールで符号化され、Pはアライメントが正しくない確率である。確率はP=10(-MAQ/10)のように計算され、MAPQはマッピング品質である。例えば、-4の電力に対する40=10のマッピング品質は、読み取りが不正確に位置合わせされた0.01%の機会が存在することを意味する。したがって、マッピング品質は、読み取りの基本品質、参照ゲノムの複雑性、及びペアエンド情報などのいくつかの位置合わせ因子と関連付けられる。最初に、読み取りの基本品質が低い場合、観察された配列が誤っている可能性があり、したがってそのアライメントが誤っていることを意味する。第2に、マッピング能力はゲノムの複雑さを指す。反復領域は、これらの領域に含まれるマップ及びリードをマッピングすることがより困難であり、通常、マッピング品質が低くなる。この文脈では、MAPQは、リードが一意的に位置合わせされておらず、それらの実際の原点を決定することができないという事実を反映する。第3に、パリッドエンド配列決定データの場合、コンコダント対は、より良好に位置合わせされる可能性が高い。マッピング品質が高いほど、アライメントがより良好である。良好なマッピング品質と整合された読み取りは、通常、読み出し配列が良好であり、高いマッピング可能領域内ではわずかな不一致と位置合わせされたことを意味する。MAPQ値は、アライメント結果の品質管理として使用することができる。20よりも高いMAPQと位置合わせされたリードの割合は、通常、下流分析のためである。
【0339】
本明細書で使用するとき、「信号」は、例えば画像内の発光、好ましくは発光などの検出可能なイベントを指す。したがって、好ましい別の実施態様では、信号は、画像内に捕捉された任意の検出可能な発光(すなわち、「スポット」)を表すことができる。したがって、本明細書で使用するとき、「信号」は、検体の分析物からの実際の放出の両方を指すことができ、実際の分析物と相関しない擬似発光を指すことができる。したがって、信号はノイズから生じ得、検体の実際の分析物を代表しないように後に廃棄することができる。
【0340】
本明細書で使用するとき、用語「クランプ」は、一群の信号を指す。特定の実施態様では、信号は、異なる分析物に由来する。好ましい別の実施態様では、信号クランプは、一緒にクラスタ化する信号群である。より好ましい実施態様では、信号クランプは、1つの増幅オリゴヌクレオチドによって覆われた物理的領域を表す。各信号クランプは、理想的には、いくつかの信号(テンプレートサイクル当たり1つ、恐らくはクロストークによってより多く)として観察されるべきである。したがって、2つ(以上)の信号が同じ信号のクランプからテンプレートに含まれる、重複する信号が検出される。
【0341】
本明細書で使用するとき、「最小」、「最大」、「最小化」、「最大化」、及びその文法的変異形などの用語は、絶対最大値又は最小値ではない値を含むことができる。いくつかの実施態様では、値は、最大値及び最小値付近を含む。他の実施例では、値は、局所的最大値及び/又は局所最小値を含むことができる。いくつかの実施態様では、値は、絶対最大値又は最小値のみを含む。
【0342】
本明細書で使用するとき、「クロストーク」は、別個の画像においても検出される1つの画像内の信号の検出を指す。好ましい別の実施態様では、クロストークは、放射された信号が2つの別個の検出チャネルで検出されるときに発生し得る。例えば、放射された信号が1つの色で発生する場合、その信号の放射スペクトルは、別の色で別の放射された信号と重なり合ってもよい。好ましい実施態様では、ヌクレオチド塩基A、C、G、及びTの存在を示すために使用される蛍光分子は、別個のチャネルで検出される。しかし、A及びCの発光スペクトルは重なり合うため、色チャネルを使用した検出中に、C色信号の一部が検出され得る。したがって、A信号とC信号との間のクロストークにより、1つのカラー画像からの信号が他のカラー画像に現れることを可能にする。いくつかの実施態様では、G及びTクロストークがある。いくつかの実施態様では、チャネル間のクロストークの量は非対称である。チャネル間のクロストークの量は、とりわけ、適切な放射スペクトルを有する信号分子の選択、並びに検出チャネルのサイズ及び波長範囲の選択によって制御され得ることが理解されるであろう。
【0343】
本明細書で使用するとき、「整合させる(register)」、「整合させる(registering)」、「整合(registration)」、及び同様の用語は、画像又はデータセット内の信号を、別の時点又は視点からの画像又はデータセット内の信号と相関させるための任意のプロセスを指す。例えば、整合を使用して、画像のセットからの信号を位置合わせしてテンプレートを形成することができる。別の例では、整合を使用して、他の画像からの信号をテンプレートに位置合わせすることができる。1つの信号は、別の信号に直接又は間接的に整合されてもよい。例えば、画像「S」からの信号は、画像「G」に直接整合されてもよい。別の例として、画像「N」からの信号は、画像「G」に直接整合されてもよく、代替的に、画像「N」からの信号は、以前に画像「G」に整合された画像「S」に整合されてもよい。すなわち、画像「N」からの信号は、間接的に画像「G」に整合される。
【0344】
本明細書で使用するとき、用語「基準」は、物体内又は物体上の区別可能な基準点を意味することを意図する。基準点は、例えば、マーク、第2の物体、形状、縁部、領域、不規則性、チャネル、ピット、ポストなどであり得る。基準点は、物体の画像内に、又は物体を検出することに由来する別のデータセット内に存在することができる。基準点は、物体の平面内のx及び/又はy座標によって指定することができる。代替的に又は追加的に、基準点は、例えば、物体と検出器との相対的な場所によって定義される、xy平面に直交するz座標によって指定することができる。基準点に対する1つ以上の座標は、物体の1つ以上の他の分析物、又は物体に由来する画像又は他のデータセットに対して指定することができる。
【0345】
本明細書で使用するとき、用語「光信号」は、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。光信号は、紫外線(ultraviolet、UV)範囲(約200~390nm)、可視(visible、VIS)範囲(約391~770nm)、赤外線(infrared、IR)範囲(約0.771~25マイクロメートル)、又は電磁スペクトルの他の範囲で検出することができる。これらの範囲のうちの1つ以上の全て又は一部を除外する方式で、光信号を検出することができる。
【0346】
本明細書で使用するとき、用語「信号レベル」は、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量又は量を意味することを意図する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの1つ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。
【0347】
本明細書で使用するとき、用語「シミュレートする」は、物又はアクションの特性を予測する物又はアクションの表現又はモデルを作成することを意味することを意図する。表現又はモデルは、多くの場合、物又はアクションと区別可能であり得る。例えば、表現又はモデルは、色、被加工、サイズ、又は形状の全て又は一部から検出される信号の強度などの1つ以上の特性に対するものと区別することができる。特定の実施態様では、表現又はモデルは、物又はアクションと比較して、理想化、誇張、ミュート、又は不完全であり得る。したがって、いくつかの実施態様では、モデルの表現は、例えば、上記の特性のうちの少なくとも1つに関して表すものであることを表すものであることができる。表現又はモデルは、本明細書の他の箇所に記載されるもののうちの1つ以上などの、コンピュータ可読フォーマット又は媒体に提供され得る。
【0348】
本明細書で使用するとき、用語「特定の信号」は、背景エネルギー又は情報などの他のエネルギー又は情報にわたって選択的に観察される、検出されたエネルギー又は符号化情報を意味することを意図する。例えば、特定の信号は、特定の強度、波長、又は色で検出された光信号;特定の周波数、電力、又は電界強度で検出された電気信号;又は分光法及び分析検出に関連する当該技術分野で既知の他の信号であり得る。
【0349】
本明細書で使用するとき、用語「スワス(swath)」は、物体の矩形部分を意味することを意図する。スワスは、ストリップの最長寸法に平行な方向に、物体と検出器との間の相対移動によって走査される細長いストリップであり得る。一般に、矩形部分又はストリップの幅は、その全長に沿って一定である。物体の複数のスワスは、互いに平行であってもよい。物体の複数のスワスは、互いに重なり合い、互いに隣接するか、又は間質領域によって互いに分離され得る。
【0350】
本明細書で使用するとき、用語「分散」は、予想される差、及び観察される差、又は2つ以上の観測結果間の差を意味することを意図する。例えば、分散は、期待値と測定値との間の不一致であり得る。標準偏差、標準偏差の二乗、変動係数などの統計関数を使用して、分散を表すことができる。
【0351】
本明細書で使用するとき、用語「xy座標」は、xy平面内の場所、サイズ、形状、及び/又は向きを指定する情報を意味することを意図する。情報は、例えば、デカルト座標系における数値座標であり得る。座標は、x軸及びy軸の一方又は両方に対して提供することができ、又はxy平面内の別の場所に対して提供することができる。例えば、物体の分析物の座標は、対象物の基準又は他の検体の場所に対する検体の場所を指定することができる。
【0352】
本明細書で使用するとき、用語「xy平面」は、直線軸x及びyによって画定される二次元領域を意味することを意図する。検出器及び検出器によって観察される物体を参照して使用される場合、領域は検出器と検出されている物体との間の観測方向に直交するように更に指定することができる。
【0353】
本明細書で使用するとき、用語「z座標」は、xy平面に直交する軸に沿った点、線、又は領域の場所を指定する情報を意味することを意図する。特定の実施態様では、z軸は、検出器によって観察される物体の領域に直交する。例えば、光学系の焦点の方向は、z軸に沿って指定されてもよい。
【0354】
いくつかの実施態様では、獲得された信号データは、アフィン変換を用いて変換される。いくつかのそのような実施態様では、テンプレートの生成は、色チャネル間のアフィン変換が動作間に一貫しているという事実を使用する。この一貫性のため、検体中の分析物の座標を決定する際に、デフォルトオフセットのセットを使用することができる。例えば、デフォルトオフセットファイルは、Aチャネルなどの1つのチャネルに対する異なるチャネルに対する相対変換(シフト、スケール、スキュー)を含むことができる。しかしながら、他の実施態様では、動作中及び/又は動作間の色チャネルドリフト間のオフセットは、オフセット駆動型テンプレート生成を困難にする。このような実施例では、本明細書で提供される方法及びシステムは、オフセットしたテンプレート生成を利用することができ、これについては以下で更に説明する。
【0355】
上記の実施態様のいくつかの態様では、システムはフローセルを含み得る。いくつかの態様では、フローセルは、レーン、又は他の構成のタイルを含み、タイルの少なくとも一部は、1つ以上の分析物群を含む。いくつかの態様では、分析物は、核酸などの複数の分子を含む。特定の態様では、フローセルは、標識されたヌクレオチド塩基を核酸の配列に送達し、それによって、核酸を含む分析物に対応する信号を作り出すように、分析物内の核酸にハイブリダイズするプライマーを伸長させるように構成される。好ましい実施態様では、分析物内の核酸は、互いに同一又は実質的に同一である。
【0356】
本明細書に記載される画像解析システムのいくつかにおいて、画像のセット内の各画像は、色信号を含み、異なる色は、異なるヌクレオチド塩基に対応する。いくつかの態様では、画像のセットの各画像は、少なくとも4つの異なる色から選択される単一の色を有する信号を含む。いくつかの態様では、画像のセット内の各画像は、4つの異なる色から選択される単一の色を有する信号を含む。本明細書に記載されるシステムのいくつかにおいて、核酸は、4つの異なる画像を作り出すように、4つの異なる標識ヌクレオチド塩基を分子の配列に提供することにより、核酸を配列決定することができ、各画像は単一の色を有する信号を含み、信号色が、4つの異なる画像の各々に対して異なることにより、核酸内の特定の位置に存在する4つの可能なヌクレオチドに対応する4つのカラー画像のサイクルを作り出す。特定の態様では、システムは、追加の標識ヌクレオチド塩基を分子の配列に送達するように構成されているフローセルを含み、それによって複数のカラー画像のサイクルを作り出す。
【0357】
好ましい実施態様形態では、本明細書で提供される方法は、プロセッサがアクティブにデータを収集しているか、又はプロセッサが低活動状態にあるかどうかを判定することを含み得る。多数の高品質画像を収集及び記憶することは、典型的には、大量の記憶容量を必要とする。更に、収集され記憶されると、画像データの分析はリソース集約的になり得、追加の画像データの収集及び記憶などの他の機能の処理能力を妨げる可能性がある。したがって、本明細書で使用するとき、用語「低活動状態」は、所与の時間におけるプロセッサの処理能力を指す。いくつかの実施態様では、低活動状態は、プロセッサがデータを収集及び/又は記憶していないときに生じる。いくつかの実施態様では、一部のデータ収集及び/又は記憶が行われる場合には、低いアクティビティ状態が生じるが、他の機能に干渉することなく画像解析が同時に生じ得るように、追加の処理能力が残る。
【0358】
本明細書で使用するとき、「競合を識別する」とは、複数のプロセスがリソースに対して競合する状況を識別することを指す。いくつかのそのような実施態様では、1つのプロセスは、別のプロセスに対して優先度を与えられる。いくつかの実施態様では、競合は、時間、処理能力、記憶能力、又は優先度が与えられる任意の他のリソースの割り当てに対する優先度を与える必要性に関連し得る。したがって、いくつかの実施態様では、処理時間又は容量が、データセットを分析し、データセットを取得及び/又は記憶するかのいずれかなどの2つのプロセス間に分散される場合、2つのプロセス間の不一致が存在し、プロセスのうちの1つに優先度を与えることによって解決することができる。
【0359】
本明細書では、画像解析を実施するためのシステムも提供される。システムは、プロセッサと、記憶容量と、画像解析用のプログラムと、を含むことができ、プログラムは、記憶のための第1のデータセット及び分析のための第2のデータセットを処理するための命令を含み、処理は、記憶装置上の第1のデータセットを取得及び/又は記憶することと、プロセッサが第1のデータセットを取得していないときに第2のデータセットを解析することと、を含む。特定の態様では、プログラムは、第1のデータセットを収集及び/又は記憶することと、第2のデータセットを解析することとの間の競合の少なくとも1つのインスタンスを識別するための命令を含み、第1のデータセットを収集及び/又は記憶することが優先度を与えられるように、画像データを取得及び/又は記憶することが優先される。特定の態様では、第1のデータセットは、光学撮像デバイスから収集された画像ファイルを含む。特定の態様では、システムは、光学撮像デバイスを更に備える。いくつかの態様では、光学撮像デバイスは、光源と検出デバイスとを備える。
【0360】
本明細書で使用するとき、用語「プログラム」は、タスク又はプロセスを実施するための命令又はコマンドを指す。用語「プログラム」は、用語「モジュール」と互換的に使用され得る。特定の実施態様では、プログラムは、同じコマンドセットの下で実行される様々な命令のコンパイルであり得る。他の実施態様では、プログラムは、別個のバッチ又はファイルを参照することができる。
【0361】
以下に記載されるのは、本明細書に記載される画像解析を実施するための方法及びシステムを利用する驚くべき効果の一部である。いくつかの配列決定の実現例では、配列決定システムの有用性の重要な尺度は、その全体的な効率である。例えば、1日当たりに作り出されるマッピング可能なデータの量、並びに機器の設置及び動作の総コストは、経済的な配列決定ソリューションの重要な態様である。マッピング可能なデータを生成し、システムの効率を高めるための時間を短縮するために、リアルタイムのベースコールを機器コンピュータ上で有効にすることができ、配列決定ケミストリ及び画像化と並行して動作することができる。これにより、配列決定ケミストリ仕上げの前に、データ処理及び分析が完了することを可能にする。更に、中間データに必要な記憶を低減し、ネットワークを横切って移動する必要があるデータの量を制限することができる。
【0362】
配列出力が増加している間、本明細書で提供されるシステムからネットワークに転送された動作ごとのデータ、及び二次分析処理ハードウェアは、実質的に減少している。機器コンピュータ(取得コンピュータ)上でデータを変換することにより、ネットワークロードが劇的に低減される。これらのオン機器、オフネットワークデータ低減技法を伴わずに、DNA配列決定機器のフレットの画像出力は、ほとんどのネットワークをクリップルするであろう。
【0363】
ハイスループットDNA配列決定機器の広範な採用は、使用の容易さ、用途の範囲に対する支持、及び実質的に任意のラボ環境に対する適合性によって、部分的に駆動されてきた。本明細書に提示される高度に効率的なアルゴリズムは、配列決定機器を制御することができる単純なワークステーションに、有意な分析機能を加えることを可能にする。計算ハードウェアの必要条件のこの低減は、配列決定出力レベルが増加し続けるにつれて、更に重要となる、いくつかの実用的な利点を有する。例えば、単純なタワー、熱生成、実験室設置面積、及び電力消費を最小限に抑えるために、画像解析及びベースコールを実施することによって、最小に保たれる。対照的に、他の商業的な配列決定技術は、1次分析のために、最大5回の処理電力で、そのコンピューティングインフラストラクチャを最近ランプアップして、熱出力及び電力消費の増加を開始する。したがって、いくつかの実施態様では、本明細書で提供される方法及びシステムの計算効率は、サーバハードウェアを最小限に抑えながら、それらの配列決定スループットを増加させることを可能にする。
【0364】
したがって、いくつかの実施態様では、本明細書に提示される方法及び/又はシステムは、状態マシンとして機能し、各検体の個々の状態の追跡を保ち、試料が次の状態に進む準備ができていることを検出すると、適切な処理を行い、検体をその状態に前進させる。状態マシンがファイルシステムを監視して、好ましい実施態様に従って検体が次の状態に進む準備ができているかを判定する方法のより詳細な例が、以下に記載されている。
【0365】
好ましい実施態様では、本明細書で提供される方法及びシステムは、マルチスレッドであり、構成可能な数のスレッドと協働することができる。したがって、例えば、核酸配列決定の文脈において、本明細書で提供される方法及びシステムは、リアルタイム分析のためのライブ配列決定動作中に背景において作用することができ、又はオフライン分析のために既存の画像データセットを使用して動作することができる。特定の好ましい実施態様では、方法及びシステムは、各スレッドを、それが関与する検体のそれ自体のサブセットを与えることによって、マルチスレッドを取り扱う。これにより、スレッド保持の可能性が最小限に抑えられる。
【0366】
本開示の方法は、検出装置を使用して物体の標的画像を取得する工程を含むことができ、この画像は、物体上の分析物の繰り返しパターンを含む。表面の高解像度撮像が可能な検出装置が特に有用である。特定の実施態様では、検出装置は、本明細書に記載される密度、ピッチ、及び/又は分析物サイズにおける分析物を区別するのに十分な分解能を有するであろう。表面から画像又は画像データを得ることができる検出装置が特に有用である。例示的な検出器は、物体と検出器とを静的関係に維持しつつ、面積画像を取得するように構成されたものである。走査装置も使用することができる。例えば、連続領域画像を取得する装置(例えば、「工程及びショット」検出器と呼ばれる)を使用することができる。また、物体の表面上の点又は線を連続的に走査して、表面の画像を構築するためにデータを蓄積するデバイスも有用である。点走査検出器は、表面のx-y平面内のラスタ運動を介して物体の表面上の点(すなわち、小さい検出領域)を走査するように構成することができる。線走査検出器は、物体の表面のy寸法に沿った線を走査するように構成することができ、この線の最長寸法は、x寸法に沿って生じる。検出デバイス、物体、又はその両方を移動させて、走査検出を達成することができることが理解されるであろう。例えば核酸配列決定用途において特に有用な検出装置は、米国特許出願公開第2012/0270305(A1)号、第2013/0023422(A1)号及び同第2013/0260372(A1)号、並びに米国特許第5,528,050号、同第5,719,391号、米国特許第8,158,926号、及び米国特許第8,241,573号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
【0367】
本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを作り出すためのプログラミング技法又は工学技法を使用して、製造方法、装置、システム、又は物品として実装されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実装されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)、粗粒度再構成可能構造(coarse grained reconfigurable architecture、CGRA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、複合プログラマブル論理デバイス(complex programmable logic device、CPLD)、プログラマブルロジックアレイ(programmable logic array、PLA)、マイクロプロセッサ、又は他の同様の処理装置が挙げられるが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。
【0368】
特定の実施態様形態では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間、リアルタイムで発生することができる。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実施するのに有益であり得る一方で、他のデータ収集又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Illumina,Inc(San Diego,Calif)から市販されており、及び/又は、参照により本明細書に組み込まれる米国特許出願公開第2012/0020537(A1)号に記載されているMiSeq及びHiSeq配列決定機器に使用されるものである。
【0369】
1つ以上のプログラムされたコンピュータによって形成され、本明細書に記載される方法の1つ以上の工程を実行するために実行されるコードを有するプログラミングが、1つ以上の機械可読媒体上に記憶されている、例示的データ分析システム。一実施態様では、例えば、システムは、標的物体からデータを取得するように構成されている1つ以上の検出システム(例えば、光学撮像システム)へのシステムのネットワーキングを可能にするように設計されたインターフェースを含む。インターフェースは、適切な場合には、データを受信及び条件することができる。特定の実施態様では、検出システムは、例えば、アレイ又は他の物体の画像を一緒に形成する個々の画像要素又はピクセルを表す画像データを出力する。プロセッサは、処理コードによって定義された1つ以上のルーチンに従って、受信した検出データを処理する。処理コードは、様々なタイプのメモリ回路に記憶されてもよい。
【0370】
現時点で企図される実施態様によれば、検出データ上で実行される処理コードは、検出データを分析して、データ内で可視又は符号化された個々の分析物の場所、及び分析物が検出されない場所(すなわち、分析物が存在しないか、又は、既存の分析物から有意な信号が検出されない場所)及びメタデータを判定するように設計されたデータ分析ルーチンを含む。特定の実施態様では、アレイ内の分析物場所は、典型的には、撮像された分析物に付着した蛍光染料の存在に起因して、非分析物場所よりも明るく見える。分析物は、例えば、分析物におけるプローブの標的が検出されているアレイ内に存在しない場合、分析物は、それらの周囲領域よりも明るく見える必要はないことが理解されるであろう。個々の分析物が現れる色は、使用される染料、並びに撮像目的のために撮像システムによって使用される光の波長の関数であり得る。標的が結合されていない、又は特定のラベルを有さない分析物は、マイクロアレイ内の予想される場所などの他の特性に従って識別することができる。
【0371】
データ分析ルーチンがデータ中に個々の分析物を配置すると、値割り当てが実行され得る。一般に、値割り当ては、対応する場所における検出器構成要素(例えば、ピクセル)によって表されるデータの特性に基づいて、各分析物にデジタル値を割り当てる。すなわち、例えば、画像化データが処理されるとき、値割り当てルーチンは、特定の場所で特定の色又は波長の光が特定の場所で検出されたことを認識するように設計されてもよい。典型的なDNA画像化用途では、例えば、4つの共通ヌクレオチドは、4つの別個の区別可能な色によって表される。次いで、各色は、そのヌクレオチドに対応する値を割り当てられてもよい。
【0372】
本明細書で使用するとき、用語「モジュール」、「システム」、又は「システムコントローラ」は、1つ以上の機能を実施するように動作するハードウェア及び/又はソフトウェアシステム及び回路を含み得る。例えば、モジュール、システム、又はシステムコントローラは、コンピュータメモリなどの有形及び非一時的コンピュータ可読記憶媒体上に記憶された命令に基づいて動作を実施する、コンピュータプロセッサ、コントローラ、又は他のログベースのデバイスを含んでもよい。代替的に、モジュール、システム、又はシステムコントローラは、有線論理及び回路に基づいて動作を実施する、有線デバイスを含んでもよい。添付の図面に示されるモジュール、システム、又はシステムコントローラは、ソフトウェア又は結線命令に基づいて動作するハードウェア及び回路、ハードウェアに動作を実施させるように命令するソフトウェア、又はそれらの組み合わせを表し得る。モジュール、システム、又はシステムコントローラは、1つ又はコンピュータマイクロプロセッサなどの1つ以上のプロセッサを含む、及び/又はそれと接続されるハードウェア回路又は回路を含むか、又は表すことができる。
【0373】
本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは単なる例であり、コンピュータプログラムの記憶に使用可能なメモリのタイプに限定されるものではない。
【0374】
分子生物学分野では、使用中の核酸配列決定のためのプロセスの1つは、配列番号合成である。この技法は、非常に平行な配列決定プロジェクトに適用することができる。例えば、自動プラットフォームを使用することにより、数百万の配列決定反応を同時に行うことが可能である。したがって、本発明の実施態様の1つは、核酸配列決定中に生成された画像データを収集、記憶、及び分析するための機器及び方法に関する。
【0375】
収集及び記憶することができるデータ量の莫大なゲインは、合理化された画像解析方法を更により有益にする。例えば、本明細書に記載される画像解析方法は、設計者及びエンドユーザの両方が、既存のコンピュータハードウェアの効率的な使用を行うことを可能にする。したがって、本明細書では、迅速に増加するデータ出力の面における処理データの計算量を低減する方法及びシステムが本明細書に提示される。例えば、DNA配列決定の分野では、収率は最近の過程で15倍に拡大され、DNA配列決定デバイスの単一の動作において何百ギガーゼに達する可能性がある。計算インフラストラクチャの要件が比例的に増加した場合、大規模なゲノム規模の実験は、ほとんどの研究者に到達していない。したがって、より多くの生配列データの生成は、二次分析及びデータ記憶の必要性を増加させ、データ輸送及び記憶の最適化を非常に有益にする。本明細書に提示される方法及びシステムのいくつかの実施態様は、使用可能な配列データを作り出すために必要な時間、ハードウェア、ネットワーキング、及び実験室インフラストラクチャ要件を低減することができる。
【0376】
本開示は、方法を実行するための様々な方法及びシステムを説明する。方法のいくつかの例は、一連の工程として記載される。しかしながら、実施態様は、本明細書に記載される特定の工程及び/又は工程の順序に限定されないことを理解されたい。工程は省略されてもよく、工程は修正されてもよく、及び/又は他の工程が追加されてもよい。更に、本明細書に記載される工程を組み合わせることができ、工程は同時に実施されてもよく、工程は同時に実施されてもよく、工程は複数のサブ工程に分割されてもよく、工程は、異なる順序で実施されてもよく、又は工程(又は一連の工程)は、反復的に再実施されてもよい。加えて、本明細書には異なる方法が記載されているが、他の実施態様では、異なる方法(又は異なる方法の工程)を組み合わせてもよいことを理解されたい。
【0377】
いくつかの実施態様では、タスク又は動作を実施するように「構成された」処理ユニット、プロセッサ、モジュール、又はコンピューティングシステムは、タスク又は動作を実行するように特に構造化されていると理解され得る(例えば、タスク又は動作を実施するように調整又は意図された、及び/又はタスク若しくは動作を実施するように調整若しくは意図された1つ以上のプログラム又は命令を有すること、及び/又はタスク若しくは動作を実施するように調整又は意図された処理回路の配置を有する)。明確さ及び疑義の回避のために、汎用コンピュータ(適切にプログラムされた場合にタスク又は動作を実施するように構成された」となり得る)汎用コンピュータは、タスク又は動作を実施するために具体的にプログラム又は構造的に変更されない限り、タスク又は動作を実施するように「構成されている」ように構成されていない)。
【0378】
更に、本明細書に記載される方法の操作は、操作が、商業的に妥当な時間期間内に、当業者には、平均的なヒト又は当業者によって実施されることができないように、十分に複雑であり得る。例えば、本方法は、そのような人が商業的に妥当な時間内で方法を完了することができないように、比較的複雑な計算に依存し得る。
【0379】
本出願全体を通して、様々な刊行物、特許、又は特許出願が参照されている。これらの出版物の全体の開示は、本発明が属する技術分野の状態をより完全に説明するために、本出願において参照により本明細書に組み込まれる。
【0380】
用語「含む(comprising)」は、本明細書では、列挙された要素のみならず、任意の追加の要素を更に包含する、オープンエンドであることが意図される。
【0381】
本明細書で使用するとき、用語「各々」は、項目の集合を参照して使用されるとき、集合内の個々の項目を識別することを意図しているが、必ずしも集合内の全ての項目を指すものではない。明示的な開示又は文脈がそうでないことを明確に指示する場合、例外が生じ得る。
【0382】
上記の実施例を参照して本発明を説明してきたが、本発明から逸脱することなく様々な修正を行うことができることを理解されたい。
【0383】
本出願のモジュールは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかは、異なるプロセッサ若しくはコンピュータ上に実装されてもよく、又は多数の異なるプロセッサ若しくはコンピュータの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。また、本明細書で使用するとき、用語「モジュール」は、モジュールを構成するために本明細書で考慮することができる、「サブモジュール」を含むことができる。モジュールとして指定された図のブロックはまた、方法におけるフローチャート工程と考えることができる。
【0384】
本明細書で使用するとき、情報項目の「識別」は、その情報の項目の直接仕様を必ずしも必要としない。情報は、単に、一方向の1つ以上の層を通じた実際の情報を単に参照することによって、又は情報の実際の項目を決定するのに十分である異なる情報の1つ以上のアイテムを識別することによって、フィールド内で「識別され得る」ことができる。加えて、用語「指定する」は、本明細書では、「識別する」と同じであることを意味する。
【0385】
本明細書で使用するとき、所与の信号、イベント又は値は、「前デセサー信号、イベント又は前デセサー信号の値、所与の信号、イベント、又は値によって影響されるイベント又は値に依存する。介在処理要素、工程又は期間が存在する場合、所与の信号、イベント、又は値は、「前デセサー信号、イベント又は値」に依存して「存在する」ことができる。介在処理要素又は工程が2つ以上の信号、イベント、又は値を組み合わせる場合、処理要素又は工程の信号出力は、信号、イベント、又は値入力の各々「に依存している」とみなされる。所与の信号、イベント又は値が前デセサー信号、イベント又は値と同じである場合、これは単に、所与の信号、イベント、又は値が「前デセサー信号、イベント又は値」に依存して「依存して」又は「依存して」又は「ベースデセサー信号、イベント又は値」に基づいて、「依存して」又は「依存する」とみなされる。別の信号、イベント又は値に対する所与の信号、イベント、又は値の「応答性」は、同様に定義される。
【0386】
本明細書で使用するとき、「並行して」又は「並行して」は、正確な同時性を必要としない。個人の1人の評価が、個人の別の評価が完了する前に開始する場合に十分である。
【0387】
コンピュータシステム
図16は、開示された技術を実施するために使用することができるコンピュータシステム1600である。コンピュータシステム1600は、バスサブシステム1655を介して多数の周辺デバイスと通信する少なくとも1つの中央処理ユニット(CPU)1672を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム1636を含む記憶サブシステム1610、ユーザインターフェース入力デバイス1638、ユーザインターフェース出力デバイス1676、並びにネットワークインターフェースサブシステム1674を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム1600とのユーザ相互作用を可能にする。ネットワークインターフェースサブシステム1674は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0388】
一実施態様では、ベースコーラー704は、記憶サブシステム1610及びユーザインターフェース入力デバイス1638に通信可能にリンクされる。
【0389】
ユーザインターフェース入力デバイス1638は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム1600に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0390】
ユーザインターフェース出力デバイス1676は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(cathode ray tube、CRT)、液晶ディスプレイ(liquid crystal display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム1600からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0391】
記憶サブシステム1610は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ1678によって実行される。
【0392】
プロセッサ1678は、グラフィック処理ユニット(graphics processing unit、GPU)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、及び/又は粗粒度再構成可能構造(coarse-grained reconfigurable architecture、CGRA)であることができる。プロセッサ1678は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ1678の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX16 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
【0393】
記憶サブシステム1610で使用されるメモリサブシステム1622は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)1632と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)1634とを含む多数のメモリを含むことができる。ファイル記憶サブシステム1636は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、記憶サブシステム1610内のファイル記憶サブシステム1636によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。
【0394】
バスサブシステム1655は、コンピュータシステム1600の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム1655は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実施態様は、複数のバスを使用することができる。
【0395】
コンピュータシステム1600自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、図16に示されるコンピュータシステム1600の説明は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。コンピュータシステム1600の多くの他の構成は、図16に示されるコンピュータシステムより多くの又は少ない構成要素を有することができる。
【0396】
項目
開示された技術は、鮮鋭化マスクベースの画像処理技法を使用してセンサピクセルからの空間クロストークを減衰させる。開示された技術は、システム、方法、又は製品として実施することができる。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施態様の各々に参照することにより本明細書に組み込まれる。
【0397】
一実施態様では、開示された技術は、センサピクセルからの空間クロストークを減衰させるコンピュータ実装方法を提案する。
【0398】
開示された技術は、システム、方法、又は製品として実施することができる。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施態様の各々に参照することにより本明細書に組み込まれる。
【0399】
開示される技術、又はその要素の1つ以上の実施態様及び条項は、示された方法ステップを実施するためのコンピュータが使用可能なプログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装することができる。更に、開示される技術、又はその要素の1つ以上の実施態様及び条項は、メモリと、メモリに結合され、例示的な方法ステップを実施するように動作する少なくとも1つのプロセッサと、を含む装置の形態で実装することができる。更に、別の態様では、開示される技術又はその要素の1つ以上の実施態様及び条項は、本明細書に記載の方法ステップのうちの1つ以上を実行するための手段の形態で実装することができ、この手段は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技法を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。
【0400】
このセクションで記載される条項は、特徴として組み合わせることができる。簡潔性の目的で、特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、このセクションで記載される条項で識別された特徴が、本出願の他のセクションにおける実施態様として識別された基本特徴のセットと容易に組み合わせることができる方法を理解するであろう。これらの条項は、相互排他的、網羅的、又は制限的であることを意味せず、開示される技術は、これらの条項に限定されず、むしろ、特許請求の範囲に記載される技術及びその均等物の範囲内の全ての可能な組み合わせ、修正、及び変形を包含する。
【0401】
このセクションで記載される条項の他の実施態様は、このセクションで記載される条項のうちのいずれかを実施するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで記載される条項の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して、このセクションで記載される条項のいずれかを実施するように動作可能な1つ以上のプロセッサと、を含むシステムを含むことができる。
【0402】
本発明者らは、以下の項目を開示する。
1.ベースコールのコンピュータ実装方法であって、方法は、
バイオセンサによって出力される画像のセクションにアクセスすることであって、画像のセクションが、バイオセンサ内の複数のクラスタからの、及び複数のクラスタに隣接するバイオセンサ内の場所からの強度放射値を示す複数のピクセルを含み、複数のクラスタが、標的クラスタを含む、アクセスすることと、
画像のセクションを畳み込みカーネルで畳み込んで、対応する複数の特徴値を有する複数の特徴を含む特徴マップを生成することと、
重み付けされた特徴値を標的クラスタに割り当てることであって、重み付けされた特徴値が、特徴マップの複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
標的クラスタに割り当てられた重み付けされた特徴値を処理して、標的クラスタをベースコールすることと、を含む方法を実装する、方法。
2.画像のセクションが、バイオセンサのフローセルの第1の部分から生成される第1のセクションであり、畳み込みカーネルが、第1の畳み込みカーネルであり、複数のクラスタが、第1の複数のクラスタであり、複数のピクセルが、第1の複数のピクセルであり、特徴マップが、第1の特徴マップであり、複数の特徴値が、第1の複数の特徴値であり、標的クラスタが、第1の標的クラスタであり、重み付けされた特徴値が、第1の重み付けされた特徴値であり、方法は、
バイオセンサのフローセルの第2の部分によって出力される画像の第2のセクションにアクセスすることであって、画像の第2のセクションが、バイオセンサ内の第2の複数のクラスタからの、及び第2の複数のクラスタに隣接するバイオセンサ内の場所からの強度放射値を示す第2の複数のピクセルを含み、第2の複数のクラスタが、第2の標的クラスタを含む、アクセスすることと、
画像の第2のセクションを第1の畳み込みカーネルとは異なる第2の畳み込みカーネルで畳み込んで、対応する第2の複数の特徴値を有する第2の複数の特徴を含む第2の特徴マップを生成することと、
第2の重み付けされた特徴値を第2の標的クラスタに割り当てることであって、第2の重み付けされた特徴値が、第2の特徴マップの第2の複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
第2の標的クラスタに割り当てられた第2の重み付けされた特徴値を処理して、第2の標的クラスタをベースコールすることと、を更に含む、条項1に記載の方法。
3.
バイオセンサのフローセルのタイルが、k×k個の部分に分割され、kが、正の整数であり、第1の部分及び第2の部分が、タイルのk×k個の部分のうちの2つの部分である、条項2に記載の方法。
4.kが、3、5、又は9のうちの1つである、条項3に記載の方法。
5.
全自動画像捕捉システムを使用して、バイオセンサ内の画像を捕捉することを更に含む、条項1~4のいずれか一項に記載の方法。
6.
バイオセンサのフローセルのタイルが、1×k個の部分に分割され、kが、正の整数であり、第1の部分及び第2の部分が、タイルの1×k個の部分のうちの2つの部分である、条項2に記載の方法。
7.
線走査画像捕捉システムを使用して、バイオセンサ内の画像を捕捉することを更に含む、条項1~6のいずれか一項に記載の方法。
8.
バイオセンサのフローセルのタイルが、複数の部分に分割され、複数の部分が、第1のタイプの部分及び第2のタイプの部分を含み、第2のタイプの部分が、第1のタイプの部分内に周期的にインターリーブされ、
第1の部分が、第1のタイプの部分のうちの1つであり、
第2の部分が、第2のタイプの部分のうちの1つである、条項2~7のいずれか一項に記載の方法。
9.
1つ以上のCMOS(相補的金属酸化物半導体)センサを使用して、バイオセンサ内の画像を捕捉することを更に含む、条項1~8のいずれか一項に記載の方法。
10.
バイオセンサのフローセルのタイルが、第1の部分、第2の部分、及び第3の部分を含む複数の部分に分割され、
フローセルのタイルの第1の部分から生成される画像の第1のセクションが、第1の畳み込みカーネルで畳み込まれ、
フローセルのタイルの第2の部分から生成される画像の第2のセクションが、第2の畳み込みカーネルで畳み込まれ、
フローセルのタイルの第3の部分から生成される画像の第3のセクションが、第1の畳み込みカーネル及び第2の畳み込みカーネルの各々とは異なる第3の畳み込みカーネルで畳み込まれる、条項2~9のいずれか一項に記載の方法。
11.画像のセクションが、フローセルの第1の部分からの第1の色チャネルについて生成される第1のセクションであり、畳み込みカーネルが、第1の畳み込みカーネルであり、複数のピクセルが、第1の複数のピクセルであり、特徴マップが、第1の特徴マップであり、複数の特徴値が、第1の複数の特徴値であり、重み付けされた特徴値が、第1の重み付けされた特徴値であり、方法が、
フローセルの第1の部分からの第2の色チャネルについて生成される画像の第2のセクションにアクセスすることであって、画像の第2のセクションが、バイオセンサ内の複数のクラスタからの、及び複数のクラスタに隣接するバイオセンサ内の場所からの強度放射値を示す第2の複数のピクセルを含む、アクセスすることと、
画像の第2のセクションを第1の畳み込みカーネルとは異なる第2の畳み込みカーネルで畳み込んで、対応する第2の複数の特徴値を有する第2の複数の特徴を含む第2の特徴マップを生成することと、
第2の重み付けされた特徴値を標的クラスタに割り当てることであって、第2の重み付けされた特徴値が、第2の特徴マップの第2の複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
標的クラスタに割り当てられた第1の重み付けされた特徴値及び第2の重み付けされた特徴値を処理して、標的クラスタをベースコールすることと、を更に含む、条項1~9のいずれか一項に記載の方法。
12.
第1の色チャネルについての画像の第1のセクションが、第1の畳み込みカーネルで畳み込まれ、
第2の色チャネルについての画像の第2のセクションが、第2の畳み込みカーネルで畳み込まれ、
第3の色チャネルについての画像の第3のセクションが、第1の畳み込みカーネル及び第2の畳み込みカーネルの各々とは異なる第3の畳み込みカーネルで畳み込まれる、条項11に記載の方法。
13.重み付けされた特徴値を標的クラスタに割り当てることが、
標的クラスタのサブピクセル位置又はサブ特徴位置に基づいて、重み付けされた特徴値を標的クラスタに割り当てることを含む、条項1~12のいずれか一項に記載の方法。
14.標的クラスタのサブピクセル位置が、標的クラスタが位置するピクセルの境界又はピクセルの中心に対する標的クラスタの中心の位置を含む、条項13に記載の方法。
15.標的クラスタのサブ特徴位置が、標的クラスタが位置する特徴の境界又は特徴の中心に対する標的クラスタの中心の位置を含む、条項13又は14に記載の方法。
16.重み付けされた特徴値を標的クラスタに割り当てることが、
画像のセクション内の隣接するピクセルの座標場所に対する標的クラスタの中心の座標場所に基づいて、重み付けされた特徴値を標的クラスタに割り当てることを含む、条項1~15のいずれか一項に記載の方法。
17.重み付けされた特徴値を標的クラスタに割り当てることが、
特徴マップ内の隣接する特徴の座標場所に対する標的クラスタの中心の座標場所に基づいて、重み付けされた特徴値を標的クラスタに割り当てることを含む、条項1~16のいずれか一項に記載の方法。
18.重み付けされた特徴値を標的クラスタに割り当てることが、
標的クラスタに関連付けられた1つ以上の中心間距離に基づいて、重み付けされた特徴値を標的クラスタに割り当てることを含む、条項1~17のいずれか一項に記載の方法。
19.
標的クラスタに関連付けられた1つ以上の中心間距離を判定することであって、1つ以上の中心間距離が、(i)標的クラスタの中心と、画像のセクションの複数のピクセルのうちの第1のピクセルの中心との間の第1の中心間距離であって、標的クラスタが、第1のピクセル内にある、第1の中心間距離と、(ii)標的クラスタの中心と、複数のピクセルのうちの第2のピクセルの中心との間の第2の中心間距離であって、第2のピクセルが、画像のセクション内の第1のピクセルに隣接する、第2の中心間距離と、を含む、判定することを更に含む、条項18に記載の方法。
20.
標的クラスタに関連付けられた1つ以上の中心間距離を判定することであって、標的クラスタに関連付けられた1つ以上の中心間距離が、(i)標的クラスタの中心と特徴マップの複数の特徴のうちの第1の特徴の中心との間の第1の中心間距離と、(ii)標的クラスタの中心と複数の特徴のうちの第2の特徴の中心との間の第2の中心間距離であって、第2の特徴が、特徴マップ内の第1の特徴に隣接する、第2の中心間距離と、を含む、判定することを更に含む、条項18又は19に記載の方法。
21.重み付けされた特徴値を標的クラスタに割り当てることが、
標的クラスタの中心に最も近い複数の特徴のうちの1つ以上の特徴を選択することと、
選択された1つ以上の特徴に対応する1つ以上の特徴値を補間して、重み付けされた特徴値を標的クラスタに割り当てることと、を含む、条項1~20のいずれか一項に記載の方法。
22.選択された1つ以上の特徴に対応する1つ以上の特徴値を補間して、重み付けされた特徴値を標的クラスタに割り当てることが、
バイリニア保管、バイキュービック補間、重み付けされた領域カバレッジに基づく補間、ランチョス補間、又はHanningウィンドウに基づく補間のうちの1つを使用することを含む、条項21に記載の方法。
23.
畳み込みカーネルの係数を生成及び/又は更新するためにベースコーラーを訓練することを更に含む、条項1~22のいずれか一項に記載の方法。
24.ベースコーラーを訓練することが、
係数を生成及び/又は更新するために、最小二乗推定、通常最小二乗、最小平均二乗、及び再帰的最小二乗のうちの少なくとも1つを使用して、ベースコーラーを訓練することを含む、条項23に記載の方法。
25.ベースコーラーを訓練することが、
畳み込みカーネルの係数を更新するために、配列決定動作中にベースコーラーを訓練することを含む、条項23又は24に記載の方法。
26.配列決定動作中にベースコーラーを訓練することが、
配列決定動作の1つ以上の配列決定サイクルからのデータを使用して、ベースコーラーを訓練して、畳み込みカーネルの係数を更新することと、
配列決定動作の後続の1つ以上の配列決定サイクル中に生成される画像の畳み込みについて畳み込みカーネルの更新された係数を使用することと、を含む、条項23~25のいずれか一項に記載の方法。
27.配列決定動作中にべースコーラーを訓練することが、
配列決定動作の第1の配列決定サイクルからのデータを使用して、ベースコーラーを訓練して、畳み込みカーネルの係数を更新することと、
配列決定動作の第2の配列決定サイクル及び1つ以上の後続の配列決定サイクル中に生成される画像の畳み込みについて畳み込みカーネルの更新された係数を使用することと、を含む、条項23~26のいずれか一項に記載の方法。
28.
訓練データ内の画像の以前のベースコール中に生成された4つの塩基A、C、G、及びTの各々の塩基ごとの特徴値分布にアクセスすることと、
塩基ごとの特徴値分布のそれぞれの中心を、対応する色チャネルについての塩基ごとのグラウンドトゥルース標的として選択することと、
ベースコーラーを訓練するために塩基ごとのグラウンドトゥルース標的を使用することと、を更に含む条項23~27のいずれか一項に記載の方法。
29.ベースコールを実施するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
配列決定動作の複数の配列決定サイクルのうちの第1の配列決定サイクル中にフローセルによって出力される第1の画像にアクセスすることであって、第1の画像が、フローセル内の複数のクラスタからの強度放射値を示す第1の複数のピクセルを含む、アクセスすることと、
第1の配列決定サイクル中に出力される第1の画像を処理して、畳み込みカーネルの係数を更新することと、
配列決定動作の複数の配列決定サイクルのうちの第2の配列決定サイクル中にフローセルによって出力される第2の画像にアクセスすることであって、第2の画像が、複数のクラスタからの強度放射値を示す第2の複数のピクセルを含む、アクセスすることと、
第2の画像を畳み込みカーネルの更新された係数で畳み込んで、対応する複数の特徴値を有する複数の特徴を含む特徴マップを生成することと、
特徴マップの1つ以上の特徴の1つ以上の特徴値を補間して、標的クラスタについての重み付けされた特徴値を生成することと、
標的クラスタに割り当てられた重み付けされた特徴値を処理して、標的クラスタをベースコールすることと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
30.係数を更新するために第1の画像を処理することが、
第1の画像内の標的クラスタのグラウンドトゥルースにアクセスすることであって、標的クラスタのグラウンドトゥルースが、関連付けられたグラウンドトゥルース特徴値を有する、アクセスすることと、
係数の以前の値を使用して第1の画像を処理することに基づいて、標的クラスタについての出力特徴値を生成することと、
グラウンドトゥルース特徴値と出力特徴値との間の差に基づいて、係数を更新して、差を低減することと、を含む、条項29に記載の非一時的コンピュータ可読記憶媒体。
31.第2の配列決定サイクルがm第1の配列決定サイクルの後であり、第1の配列決定サイクルと第2の配列決定サイクルとの間に少なくとも1つの配列決定サイクルが存在する、条項29又は30に記載の非一時的コンピュータ可読記憶媒体。
32.畳み込みカーネルが、第1の畳み込みカーネルであり、第1の画像を処理することが、
(i)第1の配列決定サイクル中にフローセルのタイルの第1のセクションによって出力される第1の画像の第1のセクションを処理して、第1の畳み込みカーネルの係数を更新し、(ii)第1の配列決定サイクル中にタイルの第2のセクションによって出力される第1の画像の第2のセクションを処理して、第2の畳み込みカーネルの係数を更新することを含む、条項29~31のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
33.第1の画像を処理することが、
第1の配列決定サイクル中にタイルの第3のセクションによって出力される第1の画像の第3のセクションを処理して、第3の畳み込みカーネルの係数を更新することを更に含む、条項32に記載の非一時的コンピュータ可読記憶媒体。
34.特徴マップの1つ以上の特徴の1つ以上の特徴値を補間することが、
バイリニア補間、バイキュービック補間、又は重み付けされた領域カバレッジに基づく補間のうちの1つを使用して、特徴マップの1つ以上の特徴の1つ以上の特徴値を補間して、重み付けされた特徴値を標的クラスタに割り当てることを含む、条項29~33のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
35.特徴マップ内で、特徴マップの複数の特徴のうちの1つ以上の特徴の中心が、標的クラスタの中心に最も近い、条項29~34のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
36.メモリに結合された1つ以上のプロセッサを含むシステムであって、メモリは、ベースコールを実施するためのコンピュータ命令がロードされ、命令は、プロセッサ上で実行されると、
標的クラスタからの、及び標的クラスタに隣接する場所からの第1の色チャネル及び第2の色チャネルについての強度放射をピクセルが示す画像にアクセスすることと、
画像内の第1の色チャネルについてのピクセルの強度放射で第1のマスクを畳み込んで、第1の特徴マップを作り出し、画像内の第2の色チャネルについてのピクセルの強度放射で第2のマスクを畳み込んで、第2の特徴マップを作り出すことと、
(i)第1の特徴マップの1つ以上の特徴の1つ以上の特徴値を補間して、標的クラスタについての第1の重み付けされた特徴値を生成し、(ii)第2の特徴マップの1つ以上の特徴の1つ以上の特徴値を補間して、標的クラスタについての第2の重み付けされた特徴値を生成することと、
標的クラスタに割り当てられた第1の重み付けされた特徴値及び第2の重み付けされた特徴値を処理して、標的クラスタをベースコールすることと、を含むアクションを実装する、システム。
37.ベースコールを実施するためのコンピュータプログラム命令を記憶している非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
バイオセンサによって出力される画像のセクションにアクセスすることであって、画像のセクションが、バイオセンサ内の複数のクラスタからの、及び複数のクラスタに隣接するバイオセンサ内の場所からの強度放射値を示す複数のピクセルを含み、複数のクラスタが、標的クラスタを含む、アクセスすることと、
画像のセクションを畳み込みカーネルで畳み込んで、対応する複数の特徴値を有する複数の特徴を含む特徴マップを生成することと、
重み付けされた特徴値を標的クラスタに割り当てることであって、重み付けされた特徴値が、特徴マップの複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
標的クラスタに割り当てられた重み付けされた特徴値を処理して、標的クラスタをベースコールすることと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
38.画像のセクションが、バイオセンサのフローセルの第1の部分から生成される第1のセクションであり、畳み込みカーネルが、第1の畳み込みカーネルであり、複数のクラスタが、第1の複数のクラスタであり、複数のピクセルが、第1の複数のピクセルであり、特徴マップが、第1の特徴マップであり、複数の特徴値が、第1の複数の特徴値であり、標的クラスタが、第1の標的クラスタであり、重み付けされた特徴値が、第1の重み付けされた特徴値であり、方法が、
バイオセンサのフローセルの第2の部分によって出力される画像の第2のセクションにアクセスすることであって、画像の第2のセクションが、バイオセンサ内の第2の複数のクラスタからの、及び第2の複数のクラスタに隣接するバイオセンサ内の場所からの強度放射値を示す第2の複数のピクセルを含み、第2の複数のクラスタが、第2の標的クラスタを含む、アクセスすることと、
画像の第2のセクションを第1の畳み込みカーネルとは異なる第2の畳み込みカーネルで畳み込んで、対応する第2の複数の特徴値を有する第2の複数の特徴を含む第2の特徴マップを生成することと、
第2の重み付けされた特徴値を第2の標的クラスタに割り当てることであって、第2の重み付けされた特徴値が、第2の特徴マップの第2の複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
第2の標的クラスタに割り当てられた第2の重み付けされた特徴値を処理して、第2の標的クラスタをベースコールすることと、を含む、条項37に記載の非一時的コンピュータ可読記憶媒体。
39.
バイオセンサのフローセルのタイルが、k×k個の部分に分割され、kが、正の整数であり、第1の部分及び第2の部分が、タイルのk×k個の部分のうちの2つである、条項38に記載の非一時的コンピュータ可読記憶媒体。
40.kが、3、5、又は9のうちの1つである、条項39に記載の非一時的コンピュータ可読記憶媒体。
41.
全自動画像捕捉システムを使用して、バイオセンサ内の画像を捕捉することを更に含む、条項37~40のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
42.
バイオセンサのフローセルのタイルが、1×k個の部分に分割され、kが、正の整数であり、第1の部分及び第2の部分が、タイルの1×k個の部分のうちの2つである、条項38に記載の非一時的コンピュータ可読記憶媒体。
43.
線走査画像捕捉システムを使用して、バイオセンサ内の画像を捕捉することを更に含む、条項37~42のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
44.
バイオセンサのフローセルのタイルが、複数の部分に分割され、複数の部分が、第1のタイプの部分及び第2のタイプの部分を含み、第2のタイプの部分が、第1のタイプの部分内に周期的にインターリーブされ、
第1の部分が、第1のタイプの部分のうちの1つであり、
第2の部分が、第2のタイプの部分のうちの1つである、条項38に記載の非一時的コンピュータ可読記憶媒体。
45.
1つ以上のCMOS(相補的金属酸化物半導体)センサを使用して、バイオセンサ内の画像を捕捉することを更に含む、条項37~44のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
46.
バイオセンサのフローセルのタイルが、第1の部分、第2の部分、及び第3の部分を含む複数の部分に分割され、
フローセルのタイルの第1の部分から生成された画像の第1のセクションが、第1の畳み込みカーネルで畳み込まれ、
フローセルのタイルの第2の部分から生成される画像の第2のセクションが、第2の畳み込みカーネルで畳み込まれ、
フローセルのタイルの第3の部分から生成される画像の第3のセクションが、第1の畳み込みカーネル及び第2の畳み込みカーネルの各々とは異なる第3の畳み込みカーネルで畳み込まれる、条項38に記載の非一時的コンピュータ可読記憶媒体。
47.画像のセクションが、フローセルの第1の部分からの第1の色チャネルについて生成される第1のセクションであり、畳み込みカーネルが、第1の畳み込みカーネルであり、複数のピクセルが、第1の複数のピクセルであり、特徴マップが、第1の特徴マップであり、複数の特徴値が、第1の複数の特徴値であり、重み付けされた特徴値が、第1の重み付けされた特徴値であり、方法が、
バイオセンサのフローセルの第1の部分からの第2の色チャネルについて生成される画像の第2のセクションにアクセスすることであって、画像の第2のセクションが、バイオセンサ内の複数のクラスタからの、及び複数のクラスタに隣接するバイオセンサ内の場所からの強度放射値を示す第2の複数のピクセルを含む、アクセスすることと、
画像の第2のセクションを第1の畳み込みカーネルとは異なる第2の畳み込みカーネルで畳み込んで、対応する第2の複数の特徴値を有する第2の複数の特徴を含む第2の特徴マップを生成することと、
第2の重み付けされた特徴値を標的クラスタに割り当てることであって、第2の重み付けされた特徴値が、第2の特徴マップの第2の複数の特徴値のうちの1つ以上の特徴値に基づく、割り当てることと、
標的クラスタに割り当てられた第1の重み付けされた特徴値及び第2の重み付けされた特徴値を処理して、標的クラスタをベースコールすることと、を更に含む、条項37~46のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
48.重み付けされた特徴値を標的クラスタに割り当てることが、
標的クラスタに関連付けられた1つ以上の中心間距離に基づいて、重み付けされた特徴値を標的クラスタに割り当てることを含む、条項37~47のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
49.
標的クラスタに関連付けられた1つ以上の中心間距離を判定することであって、1つ以上の中心間距離が、(i)標的クラスタの中心と、画像のセクションの複数のピクセルのうちの第1のピクセルの中心との間の第1の中心間距離であって、標的クラスタが、第1のピクセル内にある、第1の中心間距離と、(ii)標的クラスタの中心と、複数のピクセルのうちの第2のピクセルの中心との間の第2の中心間距離であって、第2のピクセルが、画像のセクション内の第1のピクセルに隣接する、第2の中心間距離と、を含む、判定することを更に含む、条項48に記載の非一時的コンピュータ可読記憶媒体。
50.
標的クラスタに関連付けられた1つ以上の中心間距離を判定することであって、標的クラスタに関連付けられた1つ以上の中心間距離が、(i)標的クラスタの中心と特徴マップの複数の特徴のうちの第1の特徴の中心との間の第1の中心間距離と、(ii)標的クラスタの中心と複数の特徴のうちの第2の特徴の中心との間の第2の中心間距離であって、第2の特徴が、特徴マップ内の第1の特徴に隣接する、第2の中心間距離と、を含む、判定することを更に含む、条項48又は49に記載の非一時的コンピュータ可読記憶媒体。
51.重み付けされた特徴値を標的クラスタに割り当てることが、
標的クラスタの中心に最も近い複数の特徴のうちの1つ以上の特徴を選択することと、
選択された1つ以上の特徴に対応する1つ以上の特徴値を補間して、重み付けされた特徴値を標的クラスタに割り当てることと、を含む、条項37~50のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
52.選択された1つ以上の特徴に対応する1つ以上の特徴値を補間して、重み付けされた特徴値を標的クラスタに割り当てることが、
バイリニア補間、バイキュービック補間、又は重み付けされた領域カバレッジに基づく補間のうちの1つを使用して、重み付けされた特徴値を標的クラスタに割り当てることを含む、条項51に記載の非一時的コンピュータ可読記憶媒体。
53.
畳み込みカーネルの係数を生成及び/又は更新するためにベースコーラーを訓練することを更に含む、条項37~52のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
54.ベースコーラーを訓練することが、
係数を生成及び/又は更新するために、最小二乗推定、通常最小二乗、最小平均二乗、及び再帰的最小二乗のうちの少なくとも1つを使用して、ベースコーラーを訓練することを含む、条項53に記載の非一時的コンピュータ可読記憶媒体。
55.ベースコーラーを訓練することが、
畳み込みカーネルの係数を更新するために、配列決定動作中にベースコーラーを訓練することを含む、条項53又は54に記載の非一時的コンピュータ可読記憶媒体。
56.配列決定動作中にベースコーラーを訓練することが、
配列決定動作の1つ以上の配列決定サイクルからのデータを使用して、ベースコーラーを訓練して、畳み込みカーネルの係数を更新することと、
配列決定動作の後続の1つ以上の配列決定サイクル中に生成される画像の畳み込みについて畳み込みカーネルの更新された係数を使用することと、を含む、条項53~55のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
57.配列決定動作中にベースコーラーを訓練することが、
配列決定動作の第1の配列決定サイクルからのデータを使用して、ベースコーラーを訓練して、畳み込みカーネルの係数を更新することと、
配列決定動作の第2の配列決定サイクル及び1つ以上の後続の配列決定サイクル中に生成される画像の畳み込みについて畳み込みカーネルの更新された係数を使用することと、を含む、条項53~56のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
58.
訓練データ内の画像の以前のベースコール中に生成された4つの塩基A、C、G、及びTの各々の塩基ごとの強度分布にアクセスすることと、
塩基ごとの強度分布のそれぞれの中心を、対応する色チャネルについての塩基ごとのグラウンドトゥルース標的として選択することと、
ベースコーラーを訓練するために塩基ごとのグラウンドトゥルース標的強度を使用することと、を更に含む条項53~57のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【0403】
本発明は、上述の好ましい実施態様及び実施例を参照して開示されているが、これらの実施例は、限定的な意味でではなく例示的な意味で意図されていることが理解されるべきである。当業者であれば、変更及び組み合わせが容易に生じ、その変更及び組み合わせは、本発明の趣旨及び以下の特許請求の範囲の範囲内にあると考えられる。
【符号の説明】
【0404】
1600 コンピュータシステム
1610 記憶サブシステム
1622 メモリサブシステム
1634 専用メモリ(read only memory、ROM)
1636 ファイル記憶サブシステム
1638 ユーザインターフェース入力デバイス
1655 バスサブシステム
1672 中央処理ユニット(CPU)
1674 ネットワークインターフェースサブシステム
1676 ユーザインターフェース出力デバイス
1678 プロセッサ
図1
図2
図3
図4
図5
図6
図7
図8A
図8B
図8C
図9A
図9B
図10A
図10B
図10C
図10D
図10E
図10F
図10G
図10H
図10I
図10J
図10K
図11A
図11B
図11C
図12
図13
図14
図15
図16
【国際調査報告】