(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-10
(54)【発明の名称】クラスターごとの強度補正及びベースコールのためのシステム及び方法
(51)【国際特許分類】
G16B 40/10 20190101AFI20231102BHJP
【FI】
G16B40/10
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2022580968
(86)(22)【出願日】2021-10-26
(85)【翻訳文提出日】2022-12-27
(86)【国際出願番号】 US2021056711
(87)【国際公開番号】W WO2022093865
(87)【国際公開日】2022-05-05
(32)【優先日】2020-10-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】エリック・ジョン・オジャード
(72)【発明者】
【氏名】アブデ・アリ・フナイド・カガルワーラ
(72)【発明者】
【氏名】ラミ・メヒオ
(72)【発明者】
【氏名】ニティン・ウドパ
(72)【発明者】
【氏名】ギャヴィン・デレク・パーナビー
(72)【発明者】
【氏名】ジョン・エス・ヴィエチェリ
(57)【要約】
開示された技術は、改善されたベースコールのために、クラスター別に変動補正係数を生成して、クラスター間強度プロファイル変動を補正する。増幅係数は、スケール変動を補正する。チャネル固有のオフセット係数は、それぞれの強度チャネルに沿ったシフト変動を補正する。ターゲットクラスターについての変動補正係数は、配列決定ランの先行する配信決定サイクルでターゲットクラスターについて生成された履歴強度データの分析と、配列決定ランの現在の配列決定サイクルでターゲットクラスターについて生成された現在の強度データの分析との組み合わせに基づいて生成される。次いで、変動補正係数を使用して、配列決定ランの次の配列決定サイクルでターゲットクラスターについて生成された次の強度データが補正される。次いで、補正された次の強度データを使用して、次の配列決定サイクルでターゲットクラスターがベースコールされる。
【特許請求の範囲】
【請求項1】
ターゲットクラスターをベースコールするコンピュータ実装方法であって、前記方法は、
前記ターゲットクラスターについて、
配列決定ランの現在の配列決定サイクルに登録された現在のチャネル固有の強度を、前記現在の配列決定サイクルで前記ターゲットクラスターがベースコールされる塩基固有の強度分布から読み取ることと、
前記塩基固有の強度分布の重心から現在のチャネル固有の分布強度を読み取ることと、
前記現在のチャネル固有の強度及び前記現在のチャネル固有の分布強度に基づいて、前記現在の配列決定サイクルに対する現在の強度補正パラメータのセットを決定することと、
前記配列決定ランの先行する配列決定サイクルについての前記現在の強度補正パラメータのセット及び先行する累積強度補正パラメータのセットを累積することによって、前記現在の配列決定サイクルについての現在の累積強度補正パラメータのセットを決定することと、
前記現在の累積強度補正パラメータのセットに基づいて、前記現在の配列決定サイクルに対する現在の増幅係数及び現在のチャネル固有のオフセット係数を決定することと、
前記現在の増幅係数及び前記現在のチャネル固有のオフセット係数を使用して、前記配列決定ランの次の配列決定サイクルに登録された次のチャネル固有の強度を補正し、前記次の配列決定サイクルに対して補正された次のチャネル固有の強度を生成することと、
前記補正された次のチャネル固有の強度に基づいて、前記次の配列決定サイクルで前記ターゲットクラスターをベースコールすることと、を含む、コンピュータ実装方法。
【請求項2】
前記現在の強度補正パラメータのセットは、前記現在のチャネル固有の分布強度と、現在のチャネル固有の強度誤差と、現在の分布重心から原点の距離と、現在の分布強度対強度誤差の類似性測定と、を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記現在のチャネル固有の強度誤差は、前記現在のチャネル固有の強度と前記現在のチャネル固有の分布強度との間のチャネル単位の差である、請求項1~2のいずれか一項に記載のコンピュータ実装方法。
【請求項4】
前記現在の分布重心から原点の距離は、前記重心と、前記塩基固有の強度分布を含む多次元空間の原点との間のユークリッド距離である、請求項1~3のいずれか一項に記載のコンピュータ実装方法。
【請求項5】
前記多次元空間は、デカルト空間、極空間、円筒空間、及び球状空間のうちの少なくとも1つである、請求項1~4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記現在の分布強度対強度誤差の類似性測定は、前記現在のチャネル固有の分布強度と前記現在のチャネル固有の強度誤差との間のチャネル単位のドット積の総和である、請求項1~5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
前記現在の累積強度補正パラメータのセットは、前記現在の強度補正パラメータのセット内の現在の強度補正パラメータと、前記先行する累積強度補正パラメータのセット内の先行する累積強度補正パラメータとの強度補正パラメータ単位の和である、請求項1~6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
前記現在の累積強度補正パラメータのセットは、前記現在の強度補正パラメータ及び前記先行する累積強度補正パラメータの強度補正パラメータ単位の平均である、請求項1~7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
前記先行する累積強度補正パラメータのセット及び前記現在の累積強度補正パラメータのセットは、量子化された固定ビット幅フォーマットで記憶される、請求項1~8のいずれか一項に記載のコンピュータ実装方法。
【請求項10】
前記現在のチャネル固有のオフセット係数は、同一であるように構成されている、請求項1~9のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
前記現在の累積強度補正パラメータのセット内の現在の累積強度補正パラメータは、前記現在のチャネル固有の分布強度についての第1の共通の現在の累積強度補正パラメータと、前記現在のチャネル固有の強度誤差についての第2の共通の現在の累積強度補正パラメータと、を含む、請求項1~10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
前記現在のチャネル固有のオフセット係数は、次のチャネル固有のシフト強度を生成するために前記次のチャネル固有の強度からチャネル単位で減算され、前記次のチャネル固有のシフト強度は、前記補正された次のチャネル固有の強度を生成するために前記現在の増幅係数で除算される、請求項1~11のいずれか一項に記載のコンピュータ実装方法。
【請求項13】
重み付け関数を使用して、初期増幅係数を前記現在の増幅係数と組み合わせ、初期のチャネル固有のオフセット係数を前記現在のチャネル固有のオフセット係数と組み合わせて、前記現在の配列決定サイクルに対する重み付けされた現在の増幅係数及び重み付けされた現在のチャネル固有のオフセット係数を生成することを更に含む、請求項1~12のいずれか一項に記載のコンピュータ実装方法。
【請求項14】
前記重み付け関数は、最小重み(w
min)を初期増幅係数及び前記初期のチャネル固有のオフセット係数に適用し、最大重み(w
max)を前記現在の増幅係数及び前記現在のチャネル固有のオフセット係数に適用し、w
min=(1-w
max)である、請求項1~13のいずれか一項に記載のコンピュータ実装方法。
【請求項15】
前記最大重み(w
max)は、(c-p)/cとして定義され、cは前記現在の配列決定サイクルのインデックスであり、pは2~7の数値である、請求項1~14のいずれか一項に記載のコンピュータ実装方法。
【請求項16】
前記重み付けされた現在の増幅係数及び前記重み付けされた現在のチャネル固有のオフセット係数を使用して、前記次のチャネル固有の強度を補正し、前記補正された次のチャネル固有の強度を生成することを更に含む、請求項1~15のいずれか一項に記載のコンピュータ実装方法。
【請求項17】
最尤法を使用して、前記現在の配列決定サイクルについて、前記現在の増幅係数及び前記現在のチャネル固有のオフセット係数のそれぞれの現在の最尤重みを生成することと、
前記現在の最尤重みを前記現在の増幅係数及び前記現在のチャネル固有のオフセット係数にそれぞれ適用して、前記現在の配列決定サイクルについて最尤重みが付けられた現在の増幅係数及び最尤重みが付けられた現在のチャネル固有のオフセット係数を生成することと、
前記最尤重みが付けられた現在の増幅係数及び前記最尤重みが付けられた現在のチャネル固有のオフセット係数を使用して、前記次のチャネル固有の強度を補正し、前記補正された次のチャネル固有の強度を生成することと、を更に含む、請求項1~16のいずれか一項に記載のコンピュータ実装方法。
【請求項18】
減衰因子を前記現在の強度補正パラメータに適用して、前記現在の配列決定サイクルについて減衰された現在の強度補正パラメータを生成することと、
前記減衰された現在の強度補正パラメータと前記先行する累積強度補正パラメータとを強度補正パラメータ単位で累積することによって、前記現在の累積強度補正パラメータを決定することと、を更に含む、請求項1~17のいずれか一項に記載のコンピュータ実装方法。
【請求項19】
前記減衰因子は、前記配列決定ランの特定の数の配列決定サイクルに対して固定されており、その後、減衰ロジックに基づいて指数関数的に減衰される、請求項1~18のいずれか一項に記載のコンピュータ実装方法。
【請求項20】
前記減衰ロジックは1-1/tauであり、tauは事前定義された数値である、請求項1~19のいずれか一項に記載のコンピュータ実装方法。
【請求項21】
前記配列決定ランの連続する配列決定サイクルで前記ターゲットクラスターについて前記読み取ること、前記読み取ること、前記決定すること、前記決定すること、前記決定すること、前記使用すること、及び前記ベースコールすることを繰り返すことを更に含む、請求項1~20のいずれか一項に記載のコンピュータ実装方法。
【請求項22】
複数のクラスターについて前記読み取ること、前記読み取ること、前記決定すること、前記決定すること、前記決定すること、前記使用すること、及び前記ベースコールすることを並行して実行することを更に含む、請求項1~21のいずれか一項に記載のコンピュータ実装方法。
【請求項23】
前記現在の強度補正パラメータのセット、前記現在の累積強度補正パラメータのセット、前記現在の増幅係数、及び前記現在のチャネル固有のオフセット係数の閉形式の式は、最小二乗法を使用して決定される、請求項1~22のいずれか一項に記載のコンピュータ実装方法。
【請求項24】
前記現在のチャネル固有の強度は、強度チャネルにそれぞれ対応する、請求項1~23のいずれか一項に記載のコンピュータ実装方法。
【請求項25】
前記現在のチャネル固有のオフセット係数は、前記現在のチャネル固有の強度と前記現在のチャネル固有の分布強度との間の前記チャネル単位の差である、請求項1~24のいずれか一項に記載のコンピュータ実装方法。
【請求項26】
ターゲットクラスターをベースコールするコンピュータ実装方法であって、前記方法は、
前記ターゲットクラスターについて、
現在の強度データ及び履歴強度データにアクセスすることであって、
前記現在の強度データは、配列決定ランの現在の配列決定サイクルに対するものであり、
前記履歴強度データは、前記配列決定ランの1つ以上の先行する配列決定サイクルに対するものである、ことと、
前記現在の強度データ及び前記履歴強度データに基づいて、スケール補正係数及びチャネル固有のシフト補正係数を決定することと、
前記スケール補正係数及び前記チャネル固有のシフト補正係数を使用して、次の強度データを補正し、補正された次の強度データを生成することであって、
前記次の強度データは、前記配列決定ランの次の配列決定サイクルに対するものである、ことと、
前記補正された次の強度データに基づいて、前記次の配列決定サイクルで前記ターゲットクラスターをベースコールすることと、を含む、コンピュータ実装方法。
【請求項27】
ターゲットクラスターをベースコールするコンピュータ実装方法であって、前記方法は、
前記ターゲットクラスターについて、
現在の強度データ及び履歴強度データにアクセスすることであって、
前記現在の強度データは、配列決定ランの現在の配列決定サイクルに対するものであり、
前記履歴強度データは、前記配列決定ランの1つ以上の先行する配列決定サイクルに対するものである、ことと、
前記現在の強度データ及び前記履歴強度データを使用して、次の強度データを補正し、補正された次の強度データを生成することであって、
前記次の強度データは、前記配列決定ランの次の配列決定サイクルに対するものである、ことと、
前記補正された次の強度データに基づいて、前記次の配列決定サイクルで前記ターゲットクラスターをベースコールすることと、を含む、コンピュータ実装方法。
【請求項28】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリは、ターゲットクラスターをベースコールするためのコンピュータ命令がロードされ、前記命令は、前記プロセッサ上で実行されると、請求項1に記載の命令を実施する、システム。
【請求項29】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリは、ターゲットクラスターをベースコールするためのコンピュータ命令がロードされ、前記命令は、前記プロセッサ上で実行されると、請求項26に記載の命令を実施する、システム。
【請求項30】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリは、ターゲットクラスターをベースコールするためのコンピュータ命令がロードされ、前記命令は、前記プロセッサ上で実行されると、請求項27に記載の命令を実施する、システム。
【発明の詳細な説明】
【技術分野】
【0001】
優先権出願
本出願は、2020年10月27日に出願された「Systems and Methods for Per-Cluster Intensity Correction and Base Calling」と題する米国特許仮出願第63/106,256号の優先権を主張する。
【0002】
開示された技術は、画像の自動分析又はパターンの認識のための装置及び対応する方法に関する。本明細書には、(a)認識前にその視覚的品質を向上させることと、(b)センサ又は記憶されたプロトタイプに対して画像を位置決めして位置合わせすること、又は無関係なデータを廃棄することによって画像データの量を減少させることと、(c)画像の有意な特性を測定することと、を目的として画像を変換するシステムが含まれる。特に、開示された技術は、画像データにおけるクラスター間強度プロファイルの変動を補正するための変動補正係数を生成することに関する。
【0003】
組み込み
2020年5月5日に出願された「EQUALIZATION-BASED IMAGE PROCESSING AND SPATIAL CROSSTALK ATTENUATOR」と題する米国特許仮出願第63/020,449号(代理人整理番号ILLM1032-1/IP-1991-PRV)、
2018年3月26日に出願された「DETECTION APPARATUS HAVING A MICROFLUOROMETER,A FLUIDIC SYSTEM,AND A FLOW CELL LATCH CLAMP MODULE」と題する米国特許非仮出願第15/936,365号、
2019年9月11日に出願された「FLOW CELLS AND METHODS RELATED TO SAME」と題する米国特許非仮出願第16/567,224号、
2019年6月12日に出願された「DEVICE FOR LUMINESCENT IMAGING」と題する米国特許非仮出願第16/439,635号、
2017年5月12日に出願された「INTEGRATED OPTOELECTRONIC READ HEAD AND FLUIDIC CARTRIDGE USEFUL FOR NUCLEIC ACID SEQUENCING」と題する米国特許非仮出願第15/594,413号、
2019年3月12日に出願された「ILLUMINATION FOR FLUORESCENCE IMAGING USING OBJECTIVE LENS」と題する米国特許非仮出願第16/351,193号、
2009年12月15日に出願された「DYNAMIC AUTOFOCUS METHOD AND SYSTEM FOR ASSAY IMAGER」と題する米国特許非仮出願第12/638,770号、
2013年3月1日に出願された「KINETIC EXCLUSION AMPLIFICATION OF NUCLEIC ACID LIBRARIES」と題する米国特許非仮出願第13/783,043号、
2011年1月13日に出願された「DATA PROCESSING SYSTEM AND METHODS」と題する米国特許非仮出願第13/006,206号、
2014年10月31日に出願された「IMAGE ANALYSIS USEFUL FOR PATTERNED OBJECTS」と題する米国特許非仮出願第14/530,299号、
2014年12月3日に出願された「METHODS AND SYSTEMS FOR ANALYZING IMAGE DATA」と題する米国特許非仮出願第15/153,953号、
2013年9月6日に出願された「CENTROID MARKERS FOR IMAGE ANALYSIS OF HIGH DENSITY CLUSTERS IN COMPLEX POLYNUCLEOTIDE SEQUENCING」と題する米国特許非仮出願第14/020,570号、
2014年10月31日に出願された「IMAGE ANALYSIS USEFUL FOR PATTERNED OBJECTS」と題する米国特許非仮出願第14/530,299号、
2009年9月23日に出願された「METHOD AND SYSTEM FOR DETERMINING THE ACCURACY OF DNA BASE IDENTIFICATIONS」と題する米国特許非仮出願第12/565,341号、
2007年3月30日に出願された「SYSTEMS AND DEVICES FOR SEQUENCE BY SYNTHESIS ANALYSIS」と題する米国特許非仮出願第12/295,337号、
2008年1月28日に出願された「IMAGE DATA EFFICIENT GENETIC SEQUENCING METHOD AND SYSTEM」と題する米国特許非仮出願第12/020,739号、
2013年3月15日に出願された「BIOSENSORS FOR BIOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR SAME」と題する米国特許非仮出願第13/833,619号(代理人整理番号IP-0626-US)、
2016年6月7日に出願された「BIOSENSORS FOR BIOLOGICAL OR CHEMICAL ANALYSIS AND METHODS OF MANUFACTURING THE SAME」と題する米国特許非仮出願第15/175,489号(代理人整理番号IP-0689-US)、
2013年4月26日に出願された「MICRODEVICES AND BIOSENSOR CARTRIDGES FOR BIOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR THE SAME」と題する米国非特許非仮出願第13/882,088号(代理人整理番号IP-0462-US)、
2012年9月21日に出願された「METHODS AND COMPOSITIONS FOR NUCLEIC ACID SEQUENCING」と題する米国特許非仮出願第13/624,200号(代理人整理番号IP-0538-US)、
2019年3月21日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許仮出願第62/821,602号(代理人整理番号ILLM1008-1/IP-1693-PRV)、
2019年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED GENERATION OF SEQUENCING METADATA」と題する米国特許仮出願第62/821,618号(代理人整理番号ILLM1008-3/IP-1741-PRV)、
2019年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国特許仮出願第62/821,681号(代理人整理番号ILLM1008-4/IP-1744-PRV)、
2019年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国特許仮出願第62/821,724号(代理人整理番号ILLM1008-7/IP-1747-PRV)、
2019年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許仮出願第62/821,766号(代理人整理番号ILLM1008-9/IP-1752-PRV)、
2019年6月14日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する蘭国特許出願第2023310号(代理人整理番号ILLM1008-11/IP-1693-NL)、
2019年6月14日に出願された「ARTIFICIAL INTELLIGENCE-BASED GENERATION OF SEQUENCING METADATA」と題する蘭国特許出願第2023311号(代理人整理番号ILLM1008-12/IP-1741-NL)、
2019年6月14日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する蘭国特許出願第2023312号(代理人整理番号ILLM1008-13/IP-1744-NL)、
2019年6月14日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する蘭国特許出願第2023314号(代理人整理番号ILLM1008-14/IP-1747-NL)、及び
2019年6月14日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する蘭国特許出願第2023316号(代理人整理番号ILLM1008-15/IP-1752-NL)。
2020年3月20日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許非仮出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)、
2020年3月20日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許非仮出願第16/825,991号(代理人整理番号ILLM1008-17/IP-1741-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国特許非仮出願第16/826,126号(代理人整理番号ILLM1008-18/IP-1744-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国特許非仮出願第16/826,134号(代理人整理番号ILLM1008-19/IP-1747-US)、
2020年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許非仮出願第16/826,168号(代理人整理番号ILLM1008-20/IP-1752-PRV)、
2019年5月16日に出願された「SYSTEMS AND DEVICES FOR CHARACTERIZATION AND PERFORMANCE ANALYSIS OF PIXEL-BASED SEQUENCING」と題する米国特許仮出願第62/849,091号(代理人整理番号ILLM1011-1/IP-1750-PRV)、
2019年5月16日に出願された「BASE CALLING USING CONVOLUTIONS」と題する米国特許仮出願第62/849,132号(代理人整理番号ILLM1011-2/IP-1750-PR2)、
2019年5月16日に出願された「BASE CALLING USING COMPACT CONVOLUTIONS」と題する米国特許仮出願第62/849,133号(代理人整理番号ILLM1011-3/IP-1750-PR3)、
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES」と題する米国特許仮出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANY BASE CALLING」と題する米国特許仮出願第62/979,414号(代理人整理番号ILLM1016-1/IP-1858-PRV)、
2020年2月20日に出願された「KNOWLEDGE DISTILLATION-BASED COMPRESSION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER」と題する米国特許仮出願第62/979,385号(代理人整理番号ILLM1017-1/IP-1859-PRV)、
2020年2月20日に出願された「MULTI-CYCLE CLUSTER BASED REAL TIME ANALYSIS SYSTEM」と題する米国特許仮出願第62/979,412号(代理人整理番号ILLM1020-1/IP-1866-PRV)、
2020年2月20日に出願された「DATA COMPRESSION FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国特許仮出願第62/979,411号(代理人整理番号ILLM1029-1/IP-1964-PRV)、及び
2020年2月20日に出願された「SQUEEZING LAYER FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国特許仮出願第62/979,399号(代理人整理番号ILLM1030-1/IP-1782-PRV)。
【背景技術】
【0004】
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0005】
本開示は、配列決定ラン中に、画像データを分析してクラスターをベースコールすることに関する。画像データの分析による1つの課題は、ベースコールされるクラスター集団におけるクラスターの強度プロファイルの変動である。これは、配列決定ラン中のデータスループットの低下及び誤差率の増加を引き起こす。
【0006】
クラスター間強度プロファイルの変動には多くの潜在的な理由がある。該変動は、クラスター集団の断片長分布によって引き起こされるクラスター輝度の違いに起因し得る。該変動は、クラスター内の分子がいくつかの配列決定サイクルでヌクレオチドを取り込まず、他の分子より遅れているとき、又は分子が単一の配列決定サイクルで2つ以上のヌクレオチドを取り込むときに生じる位相誤差に起因し得る。該変動は、退色、すなわち、配列決定ランが進行する際の、過剰な洗浄及びレーザ露光による配列決定サイクル数の関数としてのクラスターの信号強度の指数関数的減衰に起因し得る。該変動は、発育不良クラスターコロニー、すなわち、パターン化されたフローセル上に空又は部分的にしか充填されないウェルを生成する小さなクラスターサイズに起因し得る。該変動は、非排他的な増幅によって引き起こされるクラスターコロニーの重複に起因し得る。該変動は、例えば、クラスターがフローセルの縁部に位置することによる、照明不足又は不均一な照明に起因し得る。該変動は、放出された信号を不明確化するフローセル上の不純物に起因し得る。該変動は、多クローン性クラスター、すなわち、複数のクラスターが同一のウェルに堆積される場合に起因し得る。
【0007】
クラスター間強度プロファイルの変動を補正する機会が生じる。結果として、配列決定ラン中のベースコールスループットの改善及びベースコール誤差率の低減が得られ得る。
【図面の簡単な説明】
【0008】
特許又は出願ファイルは、カラーで創作された少なくとも1つの図面を含む。カラー図面(単数又は複数)を有するこの特許又は特許出願公開のコピーは、必要な料金の要求及び支払いの際に、庁によって提供される。カラー図面はまた、補足コンテンツタブを介してPAIR(patent application information retrieval:特許出願情報検索)で利用可能であり得る。
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。
【
図1】開示された技術によって発見され補正されたクラスター間強度プロファイルの変動の一例を示す。
【
図2】本明細書に開示された変動補正ロジックを実装するベースコールパイプラインの一例を示す。
【
図3】本明細書に開示された最小二乗法を実装する最小二乗法決定器を示す。
【
図4】現在の配列決定サイクルでターゲットクラスターについてチャネル固有の分布強度がどのように測定されるかを表す例を示す。
【
図5】現在の配列決定サイクルでターゲットクラスターについてチャネル固有の強度誤差がどのように計算されるかを表す例を示す。
【
図6】現在の配列決定サイクルでターゲットクラスターについて分布重心から原点の距離がどのように計算されるかを表す例を示す。
【
図7】変動補正ロジックを実装するベースコールパイプラインの別の例を示す。
【
図8】本明細書に記載の重み付け関数の一実施態様を示す。
【
図9】最尤重みを変動補正係数に直接適用する一実施態様を示す。
【
図10】指数関数的減衰因子を変動補正係数に適用する一実施態様を示す。
【
図11】チャネル固有のオフセット係数を決定する別の実施態様を示す。
【
図12】3つのアプローチ、すなわち、スケーリングのみの解法、オフセットのみの解法(
図11で論じられる)、及び最小二乗法(
図3で論じられる)の実行を比較する。
【
図13】3つのアプローチ、すなわち、スケーリングのみの解法、オフセットのみの解法(
図11で論じられる)、及び最小二乗法(
図3で論じられる)の実行を比較する。
【
図14】3つのアプローチ、すなわち、スケーリングのみの解法、オフセットのみの解法(
図11で論じられる)、及び最小二乗法(
図3で論じられる)の実行を比較する。
【
図15】開示された技術を実装するために使用され得るコンピュータシステムである。
【発明を実施するための形態】
【0009】
以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
【0010】
序論
開示された技術の開発は、配列決定ラン中にベースコールされるクラスター集団内のクラスターの強度プロファイルの分析を開始した。分析により、クラスター集団内のクラスターの強度プロファイルは同様の形態(例えば、台形)を取るが規模は異なり、多次元空間100の原点132からシフトすることが明らかとなった。これを「クラスター間強度プロファイル変動」と称する。多次元空間100は、デカルト空間、極空間、円筒空間、又は球状空間であり得る。
【0011】
図1は、開示された技術によって発見され補正されたクラスター間強度プロファイルの変動の一例を示す。
図1は、クラスター集団におけるクラスター1、2、及び3の強度プロファイル112、122、及び132をそれぞれ示す。ターゲットクラスターの強度プロファイルは、配列決定ランの複数の配列決定サイクル(例えば、150)でのターゲットクラスターへのヌクレオチドの取り込みに起因して生成された化学発光信号を捕捉する強度値を含む。
【0012】
図1に示される実施態様では、強度値は、複数の配列決定サイクルの中のそれぞれの配列決定サイクルでシーケンサによって生成された2つの異なる色/強度チャネル配列決定画像から抽出される。シーケンサの例としては、IlluminaのiSeq、HiSeqX、HiSeq3000、HiSeq4000、HiSeq2500、NovaSeq6000、NextSeq550、NextSeq1000、NextSeq2000、NextSeqDx、MiSeq、及びMiSeqDxが挙げられる。
【0013】
一実施態様では、シーケンサは、配列決定画像を生成するための合成による配列決定(sequencing by synthesis、SBS)を使用する。SBSは、新たに添加されたそれぞれのヌクレオチドの放出信号を追跡しながら、蛍光標識されたヌクレオチドを有するクラスター鎖に相補的な新生鎖を伸長させることに依存する。蛍光標識されたヌクレオチドは、ヌクレオチド型のフルオロフォアシグナルをアンカーする、3′の取り外し可能なブロックを有する。SBSは、反復配列決定サイクルで行われ、それぞれは、(a)蛍光標識されたヌクレオチドを添加することによって出現鎖を伸長させることと、(b)シーケンサの光学システムの1つ以上のレーザを使用してフルオロフォアを励起させ、光学システムの異なるフィルタを通した撮像によって配列決定画像を生成することと、(c)次の配列決定サイクルに備えてフルオロフォアを切断し、3’ブロックを除去することと、の3つの工程を含む。取り込み及び撮像サイクルは、指定された数の配列決定サイクルまで繰り返され、リード長を定義する。このアプローチを使用して、それぞれの配列決定サイクルはクラスター鎖に沿って新しい位置を照合する。
【0014】
【0015】
【0016】
記号は、クラスター1の強度値を表し、
【0017】
【0018】
記号は、クラスター2の強度値を表し、
【0019】
【0020】
記号は、クラスター3の強度値を表す。4つの異なるヌクレオチドタイプ/塩基A、C、T、及びGの同一性は、2つのカラー画像、すなわち、第1及び第2の強度チャネルにおける強度値の組み合わせとして符号化される。例えば、核酸は、第1の強度チャネル(多次元空間100のx軸)で検出される第1のヌクレオチドタイプ(例えば、塩基T)、第2の強度チャネル(多次元空間100のy軸)で検出される第2のヌクレオチドタイプ(例えば、塩基C)、第1及び第2の強度チャネルの両方で検出される第3のヌクレオチドタイプ(例えば、塩基A)、並びにいずれの強度チャネルでも検出されないか、又は最小限しか検出されない、標識を欠く第4のヌクレオチドタイプ(例えば、塩基G)を提供することによって配列決定され得る。
【0021】
いくつかの実施態様では、強度プロファイルは、4つの強度分布(例えば、ガウス分布)が、第1及び第2の強度チャネルでの強度値に反復的に適合されることによって生成される。4つの強度分布は、4つの塩基A、C、T、及びGに対応する。強度プロファイルでは、第1の強度チャネルでの強度値は、第2の強度チャネルでの強度値に対して(例えば、散布図として)プロットされ、強度値は4つの強度分布に分離される。
【0022】
強度プロファイルは、任意の形状をとることができる(例えば、台形、正方形、矩形、菱形など)。4つの強度分布がベースコールの強度値にどのように適合されるかについての追加の詳細は、米国特許出願公開第2018/0274023(A1)号に見出すことができ、その開示は参照によりその全体が本明細書に組み込まれる。
【0023】
一実施態様では、それぞれの強度チャネルは、光学システムによって使用される複数のフィルタ波長帯域のうちの1つに対応する。別の実施態様では、それぞれの強度チャネルは、配列決定サイクルにおける複数の撮像事象のうちの1つに対応する。更に別の実施態様では、それぞれの強度チャネルは、特定のレーザによる照射と光学システムの特定の光学フィルタを通した撮像との組み合わせに対応する。
【0024】
開示された技術は、1チャネルの実施態様、4チャネルの実施態様などを使用して生成された配列決定画像に同様に適用され得ることは、当業者には明らかであろう。例えば、4チャネルの実施態様の場合、4チャネル固有のオフセット係数が、それぞれ4つの強度チャネルのシフト変動を補正するために決定される。
【0025】
変動補正ロジック
クラスター集団内の多数(例えば、数千個、数百万個、数億個など)のクラスターの強度プロファイルにおけるクラスター間強度プロファイル変動は、ベースコールスループットの低下及びベースコール誤差率の増加を引き起こす。クラスター間強度プロファイル変動を補正するために、クラスター別に変動補正係数を生成する変動補正ロジックを開示する。
【0026】
2チャネルの実施態様では、変動補正係数は、クラスター間強度プロファイル変動におけるスケール変動を考慮する増幅係数と、クラスター間強度プロファイル変動における第1及び第2の強度チャネルに沿ったシフト変動をそれぞれ考慮する2チャネル固有のオフセット係数と、を含む。別の実装態様では、シフト変動は、異なる強度チャネル(例えば、第1及び第2の強度チャネル)に共通のオフセット係数を使用することによって考慮される。
【0027】
ターゲットクラスターの変動補正係数は、配列決定ランの先行する配列決定サイクルでターゲットクラスターについて決定された履歴強度統計量の分析と、現在の配列決定サイクルでターゲットクラスターについて決定された現在の強度統計の分析との組み合わせに基づいて、配列決定ランの現在の配列決定サイクルで生成される。変動補正係数は、配列決定ランの次の配列決定サイクルでターゲットクラスターに登録された次の強度読み取り値を補正するために使用される。補正された次の強度読み取り値は、次の配列決定サイクルでターゲットクラスターをベースコールするために使用される。配列決定ランの連続する配列決定サイクルでそれぞれのクラスターのそれぞれの強度プロファイルにそれぞれの変動補正係数を繰り返し適用した結果、強度プロファイルは一致するようになり、原点132に(例えば、台形の下側隅にある)固定される。
【0028】
図2は、変動補正ロジックを実装するベースコールパイプライン200の例を示す。
【0029】
現在の配列決定サイクル
現在の配列決定サイクルiにおいて、シーケンサは配列決定画像202を生成する。配列決定画像202は、クラスター集団内の複数のクラスターに登録された現在の強度データ202を含むと共に、現在の配列決定サイクルiでターゲットクラスターに登録された現在の強度データ202tを含む。現在の強度データ202tの「t」は、ターゲットクラスターを指す。
【0030】
現在の強度データ202tは、ベースコーラー212に提供される。ベースコーラー212は、現在の強度データ202tを処理し、現在の配列決定サイクルiでターゲットクラスターについての現在のベースコール222を生成する。ベースコーラー212の例としては、IlluminaのReal-Time Analysis(RTA)ソフトウェア、Illuminaのニューラルネットワークベースのベースコーラー(例えば、米国特許公開第2020/0302297(A1)号に記載されている)、及びIlluminaのイコライザーベースのベースコーラー(例えば、米国仮特許出願第63/020,449号に記載されている)が挙げられる。
【0031】
現在の配列決定サイクルiでは、ターゲットクラスターの強度プロファイルは、現在の強度データ202tと、現在の配列決定サイクルiに先行する配列決定ランの配列決定サイクル、すなわち、先行する配列決定サイクル1~iー1でターゲットクラスターに登録された現在の履歴強度データと、を含む。現在の強度データ202t及び現在の履歴強度データを総称して、現在の利用可能な強度データとする。
【0032】
強度プロファイルでは、4つの強度分布は、4つの塩基A、C、T、及びGに対応する。一実施態様では、現在のベースコール222は、4つの強度分布のうち、現在の強度データ202tが属する強度分布を決定することによって行われる。いくつかの実施態様では、これは、期待値最大化アルゴリズムを使用することによって達成される。期待値最大化アルゴリズムは、現在利用可能な強度データに最も適合する平均(重心)及び分布(共分散)を観測する尤度を繰り返し最大化する。
【0033】
期待値最大化アルゴリズムを使用することによって、現在の配列決定サイクルiで4つの強度分布が決定されると、4つの強度分布のそれぞれに属する現在の強度データ202tの尤度が計算される。最も大きい尤度が現在のベースコール222を与える。一例として、「m,n」が、それぞれ、第1及び第2の強度チャネルにおける現在の強度データ202tの強度値であるとする。期待値最大化アルゴリズムは、4つの強度分布のそれぞれに属する「m,n」の強度値の尤度を表す4つの値を生成する。4つの値の最大値は、呼び出された塩基を識別する。
【0034】
他の実施態様では、k-meansクラスタリングアルゴリズム、k-means様クラスタリングアルゴリズム、ヒストグラムベースの方法などがベースコールに使用され得る。
【0035】
次の配列決定サイクル
次の配列決定サイクルi+1で、強度補正パラメータ決定器232は、現在のベースコール222に基づいて、ターゲットクラスターについての強度補正パラメータ242を決定する。2チャネルの実施態様では、強度補正パラメータ242は、第1の強度チャネルにおける分布強度、第2の強度チャネルにおける分布強度、第1の強度チャネルにおける強度誤差、第2の強度チャネルにおける強度誤差、分布重心から原点の距離、及び分布強度対強度誤差の類似性測定を含む。
【0036】
強度補正パラメータ242のそれぞれを以下のように定義する。
【0037】
1)第1の強度チャネルにおける分布強度は、現在の配列決定サイクルiでターゲットクラスターが属する塩基固有の強度分布の重心での第1の強度チャネルにおける強度値である。塩基固有の強度分布は、現在のベースコール222を呼び出すための基礎であることに留意されたい。
【0038】
2)第2の強度チャネルにおける分布強度は、塩基固有の強度分布の重心での第2の強度チャネルにおける強度値である。
【0039】
3)第1の強度チャネルにおける強度誤差は、第1の強度チャネルにおける現在の強度データ202tの測定強度値と第1の強度チャネルにおける分布強度との間の差である。
【0040】
4)第2の強度チャネルにおける強度誤差は、第2の強度チャネルにおける現在の強度データ202tの測定強度値と第2の強度チャネルにおける分布強度との間の差である。
【0041】
5)分布重心から原点の距離は、塩基固有の強度分布の重心と、塩基固有の強度分布が(例えば、期待値最大化アルゴリズムを使用することによって)適合された多次元空間100の原点132との間のユークリッド距離である。他の実施態様では、マハラノビス距離及び最小共分散行列式(minimum covariance determinant、MCD)距離などの距離メトリック、並びにそれらの関連する重心推定値が使用され得る。
6)分布強度対強度誤差の類似性測定は、第1及び第2の強度チャネルにおける分布強度と強度誤差との間のチャネル単位のドット積の総和である。
【0042】
累積強度補正パラメータ決定器252は、先行する配列決定サイクルi-1からの履歴累積強度補正パラメータ254と共に強度補正パラメータ242を累積して、累積強度補正パラメータ262を決定する。累積の例としては、合計及び平均化が挙げられる。
【0043】
変動補正係数決定器272は、決定された累積強度補正パラメータ262に基づいて、変動補正係数282を決定する。
【0044】
次の配列決定サイクルi+1で、シーケンサは配列決定画像294を生成する。配列決定画像294は、クラスター集団内の複数のクラスターに登録された次の強度データ294を含むと共に、次の配列決定サイクルi+1でターゲットクラスターに登録された次の強度データ294tを含む。次の強度データ294tの「t」は、ターゲットクラスターを指す。
【0045】
強度補正器292は、変動補正係数282を次の強度データ294tに適用して、補正された次の強度データ296tを生成する。補正された次の強度データ296tの「t」は、ターゲットクラスターを指す。
【0046】
次の配列決定サイクルi+1では、ターゲットクラスターの強度プロファイルは、補正された次の強度データ296tと、次の配列決定サイクルi+1に先行する配列決定ランの配列決定サイクル、すなわち、先行する配列決定サイクル1~iでターゲットクラスターに登録された次の履歴強度データと、を含む。補正された次の強度データ296t及び次の履歴強度データを総称して、次の利用可能な強度データとする。
【0047】
補正された次の強度データ296tは、ベースコーラー212に提供される。ベースコーラー212は、補正された次の強度データ296tを処理し、次の配列決定サイクルi+1でターゲットクラスターについて次のベースコール298を生成する。次のベースコール298を生成するために、期待値最大化アルゴリズムは、次の利用可能な強度データに最も適合するように、補正された次の強度データ296tに基づいて、平均(重心)及び分布(共変量)を観察する。
【0048】
期待値最大化アルゴリズムを使用することによって、次の配列決定サイクルi+1で4つの強度分布が決定されると、4つの強度分布のそれぞれに属する補正された次の強度データ296tの尤度が計算される。最も大きい尤度が次のベースコール298を与える。
【0049】
ベースコールパイプライン200は、クラスター別に実行され、クラスター集団内の複数のクラスターについて並行して実行されることに留意されたい。また、ベースコールパイプライン200は、配列決定ランの連続する配列決定サイクルに対して(例えば、ペアエンドの配列決定ランにおいてリード1の連続する150の配列決定サイクル及びリード2の別の連続する150の配列決定サイクルに対して)繰り返し実行される。
【0050】
最小二乗法
図3は、本明細書に開示された最小二乗法300を実装する最小二乗法決定器を示す。最小二乗法300は、累積強度補正パラメータ262及び変動補正係数282の閉形式の式を決定する。最小二乗法決定器302は、強度モデラー312及び最小化器322を含む。
【0051】
強度モデル312は、以下の式に従って、ターゲットクラスターの測定強度と変動補正係数282との間の関係をモデル化する。
【0052】
yC,i=axC,i+di+nC,i等式(1)
【0053】
式中、
aは、ターゲットクラスターの増幅係数である。
diは、強度チャネルiのチャネル固有のオフセット係数である。
xC,iは、現在の配列決定サイクルCでのターゲットクラスターについての強度チャネルiにおける分布強度である。
yC,iは、現在の配列決定サイクルCでのターゲットクラスターについての強度チャネルiにおける測定強度である。
nC,iは、現在の配列決定サイクルCでのターゲットクラスターについての強度チャネルiの加法性ノイズである。
【0054】
最小化器322は、最小二乗法300を使用して、以下の式を最小化する。
【0055】
【0056】
式中、
errorfはエラー関数である。
【0057】
【0058】
は、ターゲットクラスターの増幅係数である。
【0059】
【0060】
は、強度チャネルiのチャネル固有のオフセット係数である。
Cは、現在の配列決定サイクルである。
【0061】
チェーンルールを使用して、最小化器322は、増幅係数
【0062】
【0063】
及びチャネル固有のオフセット係数
【0064】
【0065】
に対する誤差関数の2つの偏微分を計算する。誤差関数を最小限に抑えるために、偏微分は等式2をゼロに設定する。
【0066】
【0067】
チャネル固有の強度誤差ec,iは、以下のように定義される。
【0068】
eC,i=yC,i-xC,i等式(5)
【0069】
閉形式の式
第1の偏微分は、以下のように増幅係数
【0070】
【0071】
の閉形式の式を決定する。
【0072】
【0073】
累積強度補正パラメータ262の閉形式の式
【0074】
【0075】
は、以下のように等式9を再特性化する。
【0076】
【0077】
式中、
【0078】
【0079】
累積強度補正パラメータ262のそれぞれを以下のように定義する。
1)第1の累積強度補正パラメータ
【0080】
【0081】
は、先行する配列サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて測定された第1の強度チャネルにおける分布強度の和である。
2)第2の累積強度補正パラメータ
【0082】
【0083】
は、先行する配列決定サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて測定された第2の強度チャネルにおける分布強度の和である。
3)第3の累積強度補正パラメータ
【0084】
【0085】
は、先行する配列決定サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて計算された第1の強度チャネルにおける強度誤差の和である。
4)第4の累積強度補正パラメータ
【0086】
【0087】
は、先行する配列決定サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて計算された第2の強度チャネルにおける強度誤差の和である。
5)第5の累積強度補正パラメータ
【0088】
【0089】
は、先行する配列決定サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて計算された分布重心から原点の距離の和である。
6)第6の累積強度補正パラメータ
【0090】
【0091】
は、先行する配列決定サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて計算された分布強度対強度誤差の類似性測定の和である。
【0092】
第2の偏微分は、オフセット係数
【0093】
【0094】
の閉形式の式を以下のように決定する。
【0095】
【0096】
次いで、それぞれの強度チャネルについて:
【0097】
【0098】
第1の強度チャネル、すなわち、i =1について:
【0099】
【0100】
式中、
【0101】
【0102】
は、第1の強度チャネルのオフセット係数である。
【0103】
第2の強度チャネル、すなわち、i =2について:
【0104】
【0105】
式中、
【0106】
【0107】
は、第2の強度チャネルに対するオフセット係数である。
【0108】
等式17及び18の等式11への代入:
【0109】
【0110】
式中、
【0111】
【0112】
は、ターゲットクラスターについての増幅係数である。
【0113】
別の実装態様では、クラスターごとのメモリ要件を低減するために、異なる強度チャネル(例えば、第1及び第2の強度チャネル)に対する共通オフセット係数は、制約
【0114】
【0115】
を導入することによって以下のように決定される。
【0116】
【0117】
最小二乗法300は、閉形式の式の決定するために配列決定ランの前に実行されることが当業者には明らかであろう。決定されると、閉形式の式は、配列決定ランのそれぞれの配列決定サイクルで反復的に、クラスターごとに配列決定ラン中に生成された強度値に適用される。
【0118】
強度補正パラメータ
以下の考察では、6つの強度補正パラメータ、すなわち、第1の強度チャネルにおける分布強度、第2の強度チャネルにおける分布強度、第1の強度チャネルにおける強度誤差、第2の強度チャネルにおける強度誤差、分布重心から原点の距離、及び分布強度対強度誤差の類似性測定が、現在の配列決定サイクルでターゲットクラスターについてどのように決定されるかに焦点を当てる。
【0119】
強度補正パラメータの数が強度チャネルの数に応じて変化することは、当業者には明らかであろう。例えば、4チャネルの実施態様の場合、4チャネル固有の分布強度及び4チャネル固有の強度誤差が、それぞれ4つの強度チャネルについて計算される。
【0120】
図4は、現在の配列決定サイクルiでターゲットクラスターについてチャネル固有の分布強度がどのように測定されるかを表す例400を示す。
図4では、
【0121】
【0122】
記号は、現在の配列決定サイクルi及び先行する配列決定サイクル1~i-1でクラスター1に登録された第1及び第2の強度チャネルの強度値を表す。
【0123】
図4では、4つの強度分布C402、A406、G462、及びT466が接続されて、クラスター1のコンステレーション102を形成している。
図4では、「
*」記号は、現在の配列決定サイクルiでクラスター1に登録された第1及び第2の強度チャネルにおける測定強度「m,n」422を表す。測定強度「m,n」422は、強度分布C402の重心414に最も近いため、クラスター1は、強度分布C402に属し、したがって、現在の配列決定サイクルiでベースコールCに割り当てられる。
【0124】
更に、クラスター1はC強度分布402に属するため、重心414の強度値「a,b」は、現在の配列決定サイクルiでのクラスター1についての分布強度である。また、「a」は、第1の強度チャネルのチャネル固有の分布強度であり、「b」は、第2の強度チャネルのチャネル固有の分布強度である。
【0125】
図5は、現在の配列決定サイクルiでターゲットクラスターについてチャネル固有の強度誤差がどのように計算されるかを表す例500を示す。第1の強度チャネルにおける強度誤差
【0126】
【0127】
532は、第1の強度チャネルにおけるチャネル固有の測定強度(m)と第1の強度チャネルにおけるチャネル固有の分布強度(a)との差として、現在の配列決定サイクルiでクラスター1について計算される。
【0128】
【0129】
第2の強度チャネルにおける強度誤差
【0130】
【0131】
502は、第2の強度チャネルにおけるチャネル固有の測定強度(n)と第2の強度チャネルにおけるチャネル固有の分布強度(b)との差として、現在の配列決定サイクルiでクラスター1について計算される。
【0132】
【0133】
図6は、現在の配列決定サイクルiでターゲットクラスターについて分布重心から原点の距離がどのように計算されるかを表す例600を示す。クラスター1は、C強度分布402に属し、重心414の強度値「a,b」は、現在の配列決定サイクルiでのクラスター1についての分布強度である。
【0134】
分布重心から原点の距離は、重心414と原点132「x,y」との間のユークリッド距離(d)652として、現在の配列決定サイクルiでクラスター1について計算される。
【0135】
【0136】
分布強度対強度誤差の類似性測定は、チャネル固有の分布強度とチャネル固有の強度誤差との間のチャネル単位のドット積の総和として、現在の配列決定サイクルiでクラスター1について計算される。
【0137】
【0138】
式中、
・は、ドット積演算子である。
【0139】
ベースコールパイプライン
図7は、変動補正ロジックを実装するベースコールパイプライン700の別の例を示す。現在の配列決定サイクルiが、配列決定ランの第25の配列決定サイクル、すなわち、i=25であるとする。先行する配列決定サイクルi-1は、配列決定ランの第24の配列決定サイクル、すなわち、i-1=24である。次の配列決定サイクルi+1は、配列決定ランの第26の配列決定サイクル、すなわち、i+1=26である。後続の配列決定サイクルi+2は、配列決定ランの第27の配列決定サイクル、すなわち、i+2=27である。
【0140】
先行する配列決定サイクル
第1~24の配列決定サイクルのそれぞれにおいて、累積強度補正パラメータのそれぞれのセットは、強度補正パラメータのそれぞれのセットから決定される。ターゲットクラスターについての先行する累積強度補正パラメータ702は、24セットの強度補正パラメータの強度補正パラメータ単位の累積である。2チャネルの実施態様では、24セットの強度補正パラメータのうちのそれぞれは、6つの強度補正パラメータ、すなわち、第1の強度チャネルにおける分布強度、第2の強度チャネルにおける分布強度、第1の強度チャネルにおける強度誤差、第2の強度チャネルにおける強度誤差、分布重心から原点の距離、及び分布強度対強度誤差の類似性を含む。24セットの累積強度補正パラメータのうちのそれぞれは、6つの累積強度補正パラメータ
【0141】
【0142】
を含む。
【0143】
先行する累積強度補正パラメータ702は、基礎となる先行する強度値及びそれらが計算される先行する強度補正パラメータに関するメタデータ(又は統計)である。結果として、基礎となる先行強度値及び先行強度補正パラメータと比較して、先行する累積強度補正パラメータ702は、はるかに小さいメモリフットプリントを有する。先行する累積強度補正パラメータ702は、配列決定ラン中にメモリにキャッシュされ、ターゲットクラスターについての現在の強度補正パラメータ732と共に累積されて、三角形734によって示されるように、ターゲットクラスターについての現在の累積強度補正パラメータ742を生成する。
【0144】
一実装態様では、先行する累積強度補正パラメータ702は、量子化された固定ビット幅フォーマットで記憶される。例えば、1つ又は2つのバイトを使用して、先行する累積強度補正パラメータ702にそれぞれの先行する累積強度補正パラメータが記憶され得る。
【0145】
現在の配列決定サイクル
ターゲットクラスターの現在の測定強度712は、第25の配列決定サイクルでターゲットクラスターに登録された強度値を含む。現在の測定強度712に基づいて、現在のベースコール722は、第25の配列決定サイクルでターゲットクラスターについて呼び出される(例えば、期待値最大化アルゴリズムを使用することによる)。
【0146】
次の配列決定サイクル
現在のベースコール722に基づいて、現在の強度補正パラメータ732がターゲットクラスターについて決定される。現在の累積強度補正パラメータ742は、三角形734によって示されるように、現在の強度補正パラメータ732と共に先行する累積強度補正パラメータ702を累積することに基づいて、ターゲットクラスターについて計算される。累積の一例は合計である。合計の実施態様では、現在の累積強度補正パラメータ742は、(上記の中間項1~6に示されるように)強度補正パラメータ別に先行する累積強度補正パラメータ702と現在の強度補正パラメータ732との合計によって計算される。
【0147】
累積の別の例は平均化である。
【0148】
【0149】
式中、Cは、現在の配列決定サイクルiのインデックスである。すなわち、本明細書で論じられる例では、C=25である。
【0150】
中間項1.2~6.2に基づいて、累積強度補正パラメータのそれぞれを以下のように定義する。
1)第1の累積強度補正パラメータ
【0151】
【0152】
は、先行する配列決定サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて測定された第1の強度チャネルにおける分布強度の平均である。
2)第2の累積強度補正パラメータ
【0153】
【0154】
は、先行する配列サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて測定された第2の強度チャネルにおける分布強度の平均である。
3)第3の累積強度補正パラメータ
【0155】
【0156】
は、先行する配列サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて計算された第1の強度チャネルにおける強度誤差の平均である。
4)第4の累積強度補正パラメータ
【0157】
【0158】
は、先行する配列サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて計算された第2の強度チャネルにおける強度誤差の平均である。
5)第5の累積強度補正パラメータ
【0159】
【0160】
は、先行する配列サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて計算された分布重心から原点の距離の平均である。
6)第6の累積強度補正パラメータ
【0161】
【0162】
は、先行する配列サイクル1~i-1のそれぞれ、及び現在の配列決定サイクルiでターゲットクラスターについて計算された分布強度対強度誤差の類似性測定の平均である。
【0163】
コンパクト表現
一実施態様では、先行する累積強度補正パラメータ702は、コンパクト表現(例えば、合計された表現又は平均化された表現)で記憶される。平均化の実施態様では、先行する累積強度補正パラメータ702は、それらの平均化された表現に記憶され、最初に、それらが累積される配列決定サイクルの数が乗算されて、平均化前表現が取り出される。すなわち、本明細書で論じられる実施例においては、24が乗数である。
【0164】
次いで、乗算の結果、すなわち、平均化前表現が、強度補正パラメータ別に現在の強度補正パラメータ732と合計される。次いで、和の結果が、現在の配列決定サイクルiのインデックスC(C=25)で除算されて、現在の累積強度補正パラメータ742が決定される。
【0165】
【0166】
が、第24の配列決定サイクルについての第1の累積強度補正パラメータであるとする。x25
C,1が、第25の配列決定サイクルについての第1の強度チャネルにおける分布強度であるとする。
【0167】
【0168】
が、第25の配列決定サイクルに対する第1の累積強度補正パラメータであり、第26の配列決定サイクルについて測定された強度を補正するために使用されるとする。この場合、以下のようになる。
【0169】
【0170】
【0171】
が、第24の配列決定サイクルに対する第2の累積強度補正パラメータであるとする。x25
C,2が、第25の配列決定サイクルについての第2の強度チャネルにおける分布強度であるとする。
【0172】
【0173】
が、第25の配列決定サイクルについての第2の累積強度補正パラメータであり、第26の配列決定サイクルについて測定された強度を補正するために使用されるとする。この場合、以下のようになる。
【0174】
【0175】
【0176】
が、第24の配列決定サイクルについての第3の累積強度補正パラメータであるとする。e25
C,1が、第25の配列決定サイクルについての第1の強度チャネルにおける強度誤差であるとする。
【0177】
【0178】
が、第25の配列決定サイクルについての第3の累積強度補正パラメータであり、第26の配列決定サイクルについて測定された強度を補正するために使用されるとする。この場合、以下のようになる。
【0179】
【0180】
【0181】
が、第24の配列決定サイクルについての第4の累積強度補正パラメータであるとする。e25
C,2が、第25の配列決定サイクルについての第2の強度チャネルにおける強度誤差であるとする。
【0182】
【0183】
が、第25の配列決定サイクルについての第4の累積強度補正パラメータであり、第26の配列決定サイクルについて測定された強度を補正するために使用されるとする。この場合、以下のようになる。
【0184】
【0185】
【0186】
が、第24の配列決定サイクルについての第5の累積強度補正パラメータであるとする。
【0187】
【0188】
が、第25の配列決定サイクルについての分布重心から原点の距離であるとする。
【0189】
【0190】
が、第25の配列決定サイクルについての第5の累積強度補正パラメータであり、第26の配列決定サイクルについて測定された強度を補正するために使用されるとする。この場合、以下のようになる。
【0191】
【0192】
【0193】
が、第24の配列決定サイクルについての第6の累積強度補正パラメータであるとする。
【0194】
【0195】
が、第25の配列決定サイクルについての分布強度対強度誤差の類似性測定であるとする。
【0196】
【0197】
が、第25の配列決定サイクルについての第6の累積強度補正パラメータであり、第26の配列決定サイクルについて測定された強度を補正するために使用されるとする。この場合、以下のようになる。
【0198】
【0199】
現在の累積強度補正パラメータ742は、現在の測定強度712及び現在の強度補正パラメータ732に関するメタデータ(又は統計)である。結果として、現在の測定強度712及び現在の強度補正パラメータ732と比較して、現在の累積強度補正パラメータ742は、はるかに小さいメモリフットプリントを有する。現在の累積強度補正パラメータ742は、配列決定ラン中にメモリにキャッシュされ、三角形784によって示されるように、ターゲットクラスターについての次の累積強度補正パラメータ796を生成するために、ターゲットクラスターについての次の強度補正パラメータ794と共に累積される。
【0200】
一実装態様では、現在の累積強度補正パラメータ742は、量子化された固定ビット幅形式で記憶される。例えば、1つ又は2つのバイトを使用して、現在の累積強度補正パラメータ742にそれぞれの先行する累積強度補正パラメータが記憶され得る。
【0201】
現在の累積強度補正パラメータ742は、ターゲットクラスターについての現在の増幅係数752を決定するために使用される。これは、現在の累積強度補正パラメータ742に応じて、等式23において閉形式の式を実行することを含む。
【0202】
現在の累積強度補正パラメータ742及び現在の増幅係数752は、ターゲットクラスターについての現在のチャネル固有のオフセット係数762を決定するために使用される。これは、現在の累積強度補正パラメータ742及び増幅係数752に応じて、等式17及び18において閉形式の式を実行することを含む。
【0203】
現在の増幅係数752及び現在のチャネル固有のオフセット係数762を使用して、第26の配列決定サイクルでターゲットクラスターについて測定された次の測定強度772が補正される。一実施態様では、補正することは、次の測定強度772から現在のチャネル固有のオフセット係数762をチャネル単位で減算して次のシフト強度を生成することと、次のシフト強度を現在の増幅係数752で除算してターゲットクラスターについての次の補正された測定強度782を生成することと、を含む。
【0204】
次いで、次のベースコール792は、次の補正された測定強度782を使用して、第26の配列決定サイクルでターゲットクラスターについて呼び出される。これは、次の補正された測定強度782を入力としてベースコーラー212に提供することによって達成される(例えば、期待値最大化アルゴリズムを使用することによる)。
【0205】
後続の配列決定サイクル
コントローラ(図示せず)は、動作794、796、798、及び799によって例示されるように、配列決定ランの連続する配列決定サイクルについてベースコールパイプライン700を繰り返す。例えば、第27の配列決定サイクルについて、現在の累積強度補正パラメータ742は、三角形784によって示されるように、先行する累積強度補正パラメータ702として機能する。ベースコールパイプライン700は、クラスター別に実行され、クラスター集団内の複数のクラスターについて並行して実行されることに留意されたい。
【0206】
重み付けされた最小二乗法
図8は、本明細書に記載の重み付け関数800の一実施態様を示す。最小二乗法300は、収束するまで数回の配列決定サイクルを必要とし得るため、重み付け関数800は、配列決定ランの初期配列決定サイクルで変動補正係数を減衰させ、配列決定ランの後の配列決定サイクルで変動補正係数を増幅させるために使用される。
【0207】
重み付け関数800は、以下のように作用する。最初に、初期増幅係数802並びに初期オフセット係数822及び832が初期化される。一実施態様では、初期増幅係数802は、所定の値(例えば、「1」)を用いて配列決定ランの第1の配列決定サイクルで初期化され、初期オフセット係数822及び832は、所定の値(例えば、「0」)を用いて第1の配列決定サイクルで初期化される。重み付け関数800は、初期増幅係数802を増幅係数806(最小二乗法300によって決定される)と組み合わせ(例えば、合計して)、初期の第1及び第2のオフセット係数822及び832を第1及び第2のオフセット係数826及び836(最小二乗法300によって決定される)と組み合わせ、その結果、増幅係数806並びに第1及び第2のオフセット係数826及び836は、初期配列決定サイクルで減衰し、後の配列決定サイクルで増幅する。
【0208】
一実施態様では、重み付け関数800は、初期の最小重み(inimin重み)804を初期増幅係数802並びに初期の第1及び第2のオフセット係数822及び832に、また、最小二乗法による最大重み(lsqmax重み)808を増幅係数806並びに第1及び第2のオフセット係数826及び836に適用(例えば、乗算)し、その結果、以下のようになる。
【0209】
【0210】
式中、
cは、現在の配列決定サイクルのインデックスである。
pは2~7の数値である。
【0211】
第1の配列決定サイクル、すなわち、c=1の場合、及びp=2の場合、式
【0212】
【0213】
は「-1」に等しい。次いで、「0」と「-1」との間で、lsqmax重み808は、2つの値のうちの最大値、すなわち、0を選択する。式
【0214】
【0215】
は、「2」に等しい。次いで、「1」と「2」との間で、inimin重み804は、2つの値のうちの最小値、すなわち、1を選択する。
【0216】
引き続き、lsqmax重み808からの0に増幅係数806並びに第1及び第2のオフセット係数826及び836が乗算され、inimin重み804からの1に、初期増幅係数802並びに初期の第1及び第2のオフセット係数822及び832が乗算される。2つの乗算の結果が合計されて、重み付けされた増幅係数810並びに重み付けされた第1及び第2のオフセット係数820及び830が生成される。
【0217】
配列決定ランが進行し、インデックス「c」の値が増分すると、lsqmax重み808及びinimin重み804の値も変化し、同様に適用され、その結果、増幅係数806並びに第1及び第2のオフセット係数826及び836(最小二乗法300から学習される)は、それぞれの連続する配列決定サイクルで漸進的に増幅する。
【0218】
重み付け関数800は、重み付けされた増幅係数810並びに重み付けされた第1及び第2のオフセット係数820及び830を生成し、これらを使用して、次の配列決定サイクルi+1でターゲットクラスターについて測定強度が補正され、次の配列決定サイクルi+1でターゲットクラスターをベースコールするために補正された測定強度が生成される。
【0219】
【0220】
式中、
Wは、重みである。
【0221】
最尤法
図9は、最尤重み906、908、及び910を変動補正係数に直接適用する一実施態様を示す。最尤重み906、908、及び910は、最尤法900を、以前の配列決定ランで変動補正係数について観察された履歴値の確率分布902に適用することによって生成される。
図9はまた、累積強度補正パラメータ904を示す。
【0222】
最尤重み906、908、及び910は、インデックス「C」で表されるように、現在の配列決定サイクルの関数である。最尤重み906、908、及び910は、インデックスCに依存して、配列決定サイクル別に変化する。最尤重み906、908、及び910はまた、文字「n」で表されるように、加法性ノイズの関数である。シグマ項「σ」は、それぞれの変動補正係数、すなわち、分散(σ2)について観察された履歴値の変動範囲を表す。いくつかの実施態様では、加法性ノイズに対するシグマ項は、最尤法900を使用して推定され得るか、又はユーザ指定され得る。増幅係数、チャネル固有のオフセット係数、及び加法性ノイズのシグマ項は、配列決定ラン別に決定され、配列決定ランの全ての配列決定サイクルに対して固定されたままである。シグマ項には、変動補正係数で観察された不確実性に関する事前の知識を組み込まれる。
【0223】
シグマ項のいくつかの例示的な値は、以下のとおりである。
【0224】
‘ml_chanest_sigma_a’, 0.15
‘ml_chanest_sigma_d1’, 0.1
‘ml_chanest_sigma_d2’, 0.02
‘ml_chanest_sigma_n’, 0.14
【0225】
一実施態様では、増幅係数の確率分布の中心/初期/平均値は、「1」に設定され、チャネル固有のオフセット係数の確率分布の中心/初期/平均値は、「0」に設定される。
【0226】
最尤重み906、908、及び910における増幅係数及びチャネル固有のオフセット係数のシグマ項のより小さい値は、それぞれの履歴値における低変動を示す。これにより、最尤重み906、908、及び910の値が高くなる。これは次いで、特に早期の配列決定サイクルにおいて、中心値1を優先して重み付けされる、重み付けされた増幅係数920チャネルと、中心値0を優先して重み付けされる、重み付けされたチャネル固有のオフセット係数930及び940と、をもたらす。
【0227】
逆に、最尤重み906、908、及び910における増幅係数及びチャネル固有のオフセット係数のシグマ項のより大きい値は、それぞれの履歴値における高変動を示す。これにより、最尤重み906、908、及び910の値が低くなる。これは次いで、特に後期の配列サイクルにおいて、最小二乗法300(例えば、等式23)の出力を優先して重み付けされる、重み付けされた増幅係数920と、最小二乗法300(例えば、等式17及び18)の出力を優先して重み付けされる、重み付けされたチャネル固有のオフセット係数930及び940と、をもたらす。
【0228】
最尤重み906、908、及び910は、それぞれ、重み付けされた増幅係数920並びに重み付けされたチャネル固有のオフセット係数930及び940を計算するために直接組み込まれる。
【0229】
指数関数的減衰因子法
図10は、指数関数的減衰因子を変動補正係数に適用する一実施態様を示す。指数関数的減衰ロジック1000は、いわゆる「tau」及び「stats.cycle」に基づく。「stats.cycle」という用語は、現在の配列決定サイクルを指す。
【0230】
tauは、強度補正パラメータで観察された時間分散の程度に応じて所定の値に設定される。強度補正パラメータが時間不変である場合、tauは無限に設定され得る。強度補正パラメータが急速に時間変化する場合、tauは小さい値に設定され得る。一実施態様では、tauは32に設定される。
【0231】
tauが32であるとする。次いで、ステートメント1002、1004、及び1006によれば、減衰因子は、配列サイクル1~31については「1」であり、これは、累積強度補正パラメータの減衰をもたらさない。配列決定サイクル32以上については、ステートメント1008に基づき、減衰因子は32に対して31である。指数関数的減衰特性は、ステートメント1010、1012、1014、1016、1018、及び1020において、以下に示すように、それぞれの連続する配列決定サイクルで累積強度補正パラメータのそれぞれに減衰因子が乗算されるという事実に由来する。
【0232】
配列決定サイクル32、減衰因子
【0233】
【0234】
の場合
【0235】
【0236】
配列決定サイクル33、減衰因子
【0237】
【0238】
の場合
【0239】
【0240】
図10では、累積強度補正パラメータは、和演算を使用して累積される。指数関数的減衰因子の平均化の実施態様では、累積強度補正パラメータは、平均演算を使用して累積される。指数関数的減衰因子の平均化の実施態様では、中間項1.2~6.2における除数「C」は、配列決定ランのtau数の配列決定サイクルの後、すなわち、配列決定ランの第32の配列決定サイクルの後に固定されたままである。
【0241】
いくつかの実施態様では、重み付けされた最小二乗法(
図8)、最尤法(
図9)、及び指数関数的減衰因子法(
図10)を組み合わせて、配列決定ランのそれぞれの配列決定サイクルで重み付けされた変動補正係数が生成される。
【0242】
チャネル固有のオフセット係数
図11は、チャネル固有のオフセット係数を決定する別の実施態様を示す。2チャネルの実施態様では、第1の強度チャネルに対する、及び現在の配列決定サイクルでのターゲットクラスターについての第1のチャネル固有のオフセット係数(「Δx」)が、現在の配列決定サイクルでのターゲットクラスターについての第1の強度チャネルにおける測定強度(「p」)と、(例えば、期待値最大化アルゴリズムによって決定されるように)現在の配列決定サイクルでターゲットクラスターが属する塩基固有の強度分布A1102の重心1104での第1の強度チャネルにおける強度値(「u」)との間の差として計算される。
【0243】
2チャネルの実施態様では、第2の強度チャネルに対する、及び現在の配列決定サイクルでのターゲットクラスターについての第2のチャネル固有のオフセット係数(「Δy」)が、現在の配列決定サイクルでのターゲットクラスターについての第2の強度チャネルにおける測定強度(「q」)と、現在の配列決定サイクルでターゲットクラスターが属する塩基固有の強度分布A1102の重心1104での第2の強度チャネルにおける強度値(「v」)との間の差として計算される。
【0244】
一実施態様では、第1のチャネル固有のオフセット係数(「Δx」)及び第2のチャネル固有のオフセット係数(「Δy」)は、配列決定ランのそれぞれの配列決定サイクルで決定される。いくつかの実施態様では、構成可能な数の配列決定サイクル(例えば、10又は20の配列決定サイクル)後に、第1のチャネル固有のオフセット係数(「Δx」)及び第2のチャネル固有のオフセット係数(「Δy」)が所定の値(例えば、「0」)で初期化される。
【0245】
ローリング平均の実施態様では、平均は、構成可能な数の配列決定サイクル後に、第1のオフセットチャネル固有の係数(「Δx」)及び第2のチャネル固有のオフセット係数(「Δy」)について計算される。次いで、平均は、次の平均が構成可能な数の配列決定サイクルの次のセットについて計算されるまで、第1のオフセットチャネル固有の係数(「Δx」)及び第2のチャネル固有のオフセット係数(「Δy」)の代用として使用される。
【0246】
いくつかの実装態様では、第1のチャネル固有のオフセット係数(「Δx」)及び第2のチャネル固有のオフセット係数(「Δy」)は、ターゲットクラスターがA、C、及びT塩基固有の強度分布に属するときのみ計算され、ターゲットクラスターがG(暗い)塩基固有の強度分布に属するときは計算されない。配列決定ランが、ペアエンドリードを含む場合の実施態様では、第1のチャネル固有のオフセット係数(「Δx」)及び第2のチャネル固有のオフセット係数(「Δy」)は、第2のリードに対して、第1のリードの最後に利用可能な値で初期化されるが、その後、構成可能な数の配列決定サイクルのそれぞれのセットで更新される。
【0247】
実行結果
図12、
図13、及び
図14は、3つのアプローチ、すなわち、スケーリングのみの解法、オフセットのみの解法(
図11で論じられる)、及び最小二乗法300の実行を比較する。3つのアプローチは、IlluminaのシーケンサNextSeq2000からの20個のデータセットにわたってIlluminaのReal-Time Analysis(RTA)ソフトウェアを使用して生成された強度データに適用される。
【0248】
図12では、スケーリングのみの解法(青色)、オフセットのみの解法(オレンジ)、及び最小二乗法(灰色)の実行が、RTAの2チャネルチャスティティフィルターを通過するクラスターのパーセンテージについて比較プロットされている。比較は、20個のデータセット(x軸として示される)にわたって行われる。3つ全てのアプローチが2チャネルチャスティティフィルターを通過する>65%のクラスターを達成し、20件中の16件(80%)は、75%より高い通過率を記録し、8/20(又は20%)は>80%の通過率を記録している。最小二乗法300の実行が最良であることに留意されたい。
【0249】
図13では、スケーリングのみの解法(青色)、オフセットのみの解法(オレンジ)、及び最小二乗法(灰色)の実行が、低多様性試料における誤差率について比較プロットされている。比較は、既知のファージゲノム(PhiX)をスパイクした20個の低多様性データセット(x軸として示される)にわたって行われる。20件のうちの17件(17/20又は68%)が、<35%の誤差率を達成し、大多数は25%未満の誤差率を享受している。最小二乗法300の実行が最良であることに留意されたい。
【0250】
図14では、スケーリングのみの解法(青色)、オフセットのみの解法(オレンジ)、及び最小二乗法(灰色)の実行が、Q30(すなわち、ベースコール誤差<10^(-30/10)又は0.1%)を超える品質スコアを有する配列決定データのパーセンテージについて比較プロットされている。比較は、同じ20個のデータセット(x軸として示される)にわたって行われる。3つ全てのアプローチは、高Q30品質スコア(例えば、80%超)を獲得している一方、20件中の16件(80%)は75%より高い通過率を記録し、8/20(又は20%)は>80%の通過率を記録している。最小二乗法300は、他の解法より>2%ポイント優れていることに留意されたい。
【0251】
コンピュータシステム
図15は、開示された技術を実施するために使用することができるコンピュータシステム1500である。コンピュータシステム1500は、バスサブシステム1555を介して多数の周辺デバイスと通信する少なくとも1つの中央処理装置(central processing unit、CPU)1572を含む。これらの周辺デバイスとしては、例えば、メモリデバイス及びファイル記憶サブシステム1536を含む記憶サブシステム1510、ユーザインターフェース入力デバイス1538、ユーザインターフェース出力デバイス1576、並びにネットワークインターフェースサブシステム1574が挙げられ得る。入力デバイス及び出力デバイスは、コンピュータシステム1500とのユーザ対話を可能にする。ネットワークインターフェースサブシステム1574は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0252】
一実施態様では、最小二乗法決定器302は、記憶サブシステム1510及びユーザインターフェース入力デバイス1538に通信可能にリンクされる。
【0253】
ユーザインターフェース入力デバイス1538は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含んでもよい。一般に、用語「入力デバイス」の使用は、コンピュータシステム1500に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0254】
ユーザインターフェース出力デバイス1576は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム1500からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0255】
記憶サブシステム1510は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ1578によって実行される。
【0256】
プロセッサ1578は、グラフィック処理ユニット(graphics processing unit、GPU)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、及び/又は粗粒化再構成可能構造(coarse-grained reconfigurable architecture、CGRA)であり得る。プロセッサ1578は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ1578の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX15 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
【0257】
記憶サブシステム1510で使用されるメモリサブシステム1522は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)1532と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)1534とを含む多数のメモリを含むことができる。ファイル記憶サブシステム1536は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、これには、ハードディスクドライブ、関連する取り外し可能な媒体を伴うフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジが挙げられ得る。特定の実施態様の機能を実装するモジュールは、ファイル記憶サブシステム1536によって記憶サブシステム1510内に、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。
【0258】
バスサブシステム1555は、コンピュータシステム1500の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム1555は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。
【0259】
コンピュータシステム1500自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの広く分散されたセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、
図15に示されるコンピュータシステム1500の説明は、本発明の好ましい実施態様を例示する目的のための特定の実施例としてのみ意図される。コンピュータシステム1500の多くの他の構成は、
図15に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
【0260】
プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム(例えば、有形及び/又は非一時的コンピュータ可読記憶媒体上に記憶された命令)又はサブアルゴリズムを含んでもよい。変動補正器232は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、DSP、プロセッサなどの任意の組み合わせを利用して実装されてもよい。あるいは、変動補正器232は、単一のプロセッサ又は複数のプロセッサを備えた既製のPCを利用して実装されてもよく、機能動作はプロセッサ間に分散される。更なる選択肢として、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実施されるハイブリッド構成を利用して実装されてもよく、残りのモジュール式機能は、既製のPCなどを利用して実施される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてもよい。
【0261】
本明細書(例えば、
図9)に記載の方法の様々なプロセス及び工程は、コンピュータを使用して行われ得る。コンピュータは、検出デバイスの一部であるか、コンピュータによって処理されるデータを取得するために使用される検出デバイスとネットワーク化されているか、又は検出デバイスから分離しているプロセッサを含み得る。いくつかの実施態様では、情報(例えば、画像データ)は、本明細書に開示されるシステムの構成要素間で直接又はコンピュータネットワークを介して送信され得る。ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)は、システムを含むコンピュータ及びコンピューティングデバイスが接続されている、インターネットへのアクセスを含む企業コンピューティングネットワークであり得る。一実施態様では、LANは、伝送制御プロトコル/インターネットプロトコル(TCP/IP)業界標準に準拠する。場合によっては、情報(例えば、画像データ)は、入力デバイス(例えば、ディスクドライブ、コンパクトディスクプレーヤ、USBポートなど)を介して本明細書に開示されるシステムに入力される。場合によっては、情報は、例えば、ディスク又はフラッシュドライブなどの記憶デバイスから情報をロードすることによって受信される。
【0262】
本明細書に記載されるアルゴリズム又は他のプロセスを実行するために使用されるプロセッサは、マイクロプロセッサを含み得る。マイクロプロセッサは、Intel Corporation製のPentium(商標)プロセッサなどの任意の従来の汎用シングルチップ又はマルチチップマイクロプロセッサであり得る。特に有用なコンピュータは、128GBのRAM、及び2TBのソリッドステートディスクドライブを有する、Intel Ivybridge dual-12コアプロセッサ、LSI RAIDコントローラを利用し得る。更に、プロセッサは、デジタル信号プロセッサ又はグラフィックスプロセッサなどの任意の従来の専用プロセッサを含み得る。プロセッサは、典型的には、従来のアドレスライン、従来のデータライン、及び1つ以上の従来の制御ラインを有する。
【0263】
本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するための標準的なプログラミング技術又は工学技術を使用して、方法(例えば、
図2及び
図7)、装置、システム、又は物品として実装されてもよい。本明細書で使用するとき、用語「物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実装されるコード又はロジックを指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、複合プログラマブル論理デバイス(Complex Programmable Logic Device、CPLD)、プログラマブルロジックアレイ(Programmable Logic Array、PLA)、マイクロプロセッサ、又は他の同様の処理装置が挙げられ得るが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。
【0264】
特定の実施態様では、本明細書に記載される(例えば、(
図11で論じされる))コンピュータ実装の方法は、物体の複数の画像が取得されている間に、リアルタイムで行われ得る。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ収集又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Illumina, Inc(San Diego, Calif)から市販されており、及び/又は、参照により本明細書に組み込まれる米国特許出願公開第2012/0020537(A1)号に記載されているMiSeq及びHiSeq配列決定機器に使用されるものである。
【0265】
本出願において、用語「クラスター」、「ウェル」、「試料」、「検体」、及び「蛍光試料」は、ウェルが対応するクラスター/試料/検体/蛍光試料を含有するので、交換可能に使用される。本明細書中で定義されるように、「試料」及びその誘導体は、最も広い意味で使用され、標的を含むことが疑われる任意の試料、培養物などを含む。いくつかの実施態様において、試料は、DNA、RNA、PNA、LNA、キメラ又はハイブリッド形態の核酸を含む。試料は、1つ以上の核酸を含有する任意の生物学的試料、臨床試料、外科試料、農業試料、大気試料又は水試料を含むことができる。この用語はまた、任意の単離された核酸試料、例えば、ゲノムDNA、新鮮凍結又はホルマリン固定パラフィン包埋核酸試料を含む。試料は、単一個体、遺伝的に関連するメンバーからの核酸試料のコレクション、遺伝的に関連しないメンバーからの核酸試料、腫瘍試料及び正常組織試料のような単一個体からの核酸試料(適合)、又は母体被験体から得られた母体及び胎児DNAのような遺伝物質の2つの異なる形態を含む単一供給源からの試料、又は植物又は動物DNAを含む試料中の汚染細菌DNAの存在に由来し得ることも想定される。いくつかの実施態様において、核酸物質の供給源は、例えば新生児スクリーニングに典型的に使用されるような新生児から得られた核酸を含むことができる。
【0266】
核酸試料は、ゲノムDNA(genomic DNA、gDNA)などの高分子量物質を含むことができる。試料は、FFPE又は保管されたDNA試料から得られた核酸分子などの低分子量物質を含むことができる。別の実施態様では、低分子量物質は、酵素的又は機械的にフラグメント化されたDNAを含む。試料は、無細胞循環DNAを含むことができる。いくつかの実施態様において、試料は、生検、腫瘍、擦過物、スワブ、血液、粘液、尿、血漿、精液、毛髪、レーザ捕捉顕微解剖、外科的切除、及び他の臨床的又は実験室で得られた試料から得られた核酸分子を含み得る。いくつかの実施態様において、試料は、疫学的、農業的、法医学又は病原性試料であり得る。いくつかの実施態様において、試料は、ヒト又は哺乳動物源などの動物から得られた核酸分子を含むことができる。別の実施態様では、試料は、植物、細菌、ウイルス又は真菌などの非哺乳類源から得られた核酸分子を含むことができる。いくつかの実施態様において、核酸分子の供給源は、保存又は絶滅した試料又は種であり得る。
【0267】
更に、本明細書中に開示される方法及び組成物は、法医学試料からの分解及び/又はフラグメント化されたゲノムDNAなどの低品質核酸分子を有する核酸試料を増幅するのに有用であり得る。一実施態様では、法医学試料は、犯罪現場から得られた核酸、行方不明者DNAデータベースから得られた核酸、法医学調査と関連した研究所から得られた核酸を含むことができ、又は法執行機関、1以上の軍隊若しくはそのような要員によって得られた法医学試料を含むことができる。核酸試料は、例えば、口腔スワブ、紙、布、又は唾液、血液、若しくは他の体液で含浸され得る他の基質に由来する、精製された試料又は溶解物を含む粗DNAであり得る。それ自体、いくつかの実施態様において、核酸試料は、ゲノムDNAのようなDNAの少量又はフラグメント化された部分を含み得る。いくつかの実施態様において、標的配列は、限定されるものではないが、血液、痰、血漿、精液、尿及び血清を含む1つ以上の体液に存在し得る。いくつかの実施態様において、標的配列は、毛髪、皮膚、組織試料、剖検又は犠牲者の遺体から得ることができる。いくつかの実施態様において、1つ以上の標的配列を含む核酸は、死亡した動物又はヒトから得ることができる。いくつかの実施態様において、標的配列は、微生物、植物細胞又は昆虫学的のような非ヒトから得られた核酸を含むことができる。いくつかの実施態様において、標的配列又は増幅された標的配列は、ヒト同定を対象とする。いくつかの実施態様において、本開示は、一般に、法医学試料の特徴を同定するための方法に関する。いくつかの実施態様において、本開示は、一般に、本明細書に開示された1つ以上の標的特異的プライマー、又は本明細書に概説されたプライマー設計基準を用いて設計された1以上の標的特異的プライマーを使用するヒト同定方法に関する。一実施態様において、少なくとも1つの標的配列を含む法医学試料又はヒト同定試料は、本明細書に開示された標的特異的プライマーのいずれか1つ以上を用いて、又は本明細書に概説されたプライマー基準を用いて増幅することができる。
【0268】
開示された技術は、画像データのクラスター間強度プロファイルの変動を補正するための変動補正係数を生成する。開示された技術は、システム、方法、又は製品として実施することができる。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施態様の各々に参照することにより本明細書に組み込まれる。
【0269】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0270】
別の実施態様では、変動補正は、非強度データ、例えば、分子伸長中の水素イオンの放出によって誘発されるpH変化に対して実行される。pH変化は検出され、組み込まれた塩基の数に比例する電圧変化に変換される(例えば、Ion Torrentの場合)。
【0271】
更に別の実施態様では、非強度データは、塩基の同一性を決定すると同時に、分析物がナノ細孔を通過する際、又はその開口部付近を通過する際に電流の破壊を測定するためにバイオセンサを使用するナノ細孔検知から構築される。例えば、Oxford Nanopore Technologies(ONT)配列決定は、以下の概念に基づく:ナノ細孔を介して膜を介してDNA(又はRNA)の単一鎖を通過させ、膜にわたって電位差を印加する。細孔内に存在するヌクレオチドは、細孔の電気抵抗に影響を及ぼし、そのため、経時的な電流測定は、細孔を通過するDNA塩基の配列を示すことができる。この電流信号(プロットされたときにその外観に起因する「押しつぶし」)は、ONTシーケンサによって収集された生データである。これらの測定値は、4kHz周波数(例えば)で取られた16ビットの整数データ取得(Data Acquisition、DAC)値として記憶される。1秒当たり~450塩基対のDNA鎖速度を用いて、これは、平均して、塩基当たり約9つの生観察を与える。次いで、この信号を処理して、個々の読み取りに対応する開孔信号の破断を識別する。これらの生信号の伸長は、ベースコールされ、DAC値をDNA塩基の配列に変換するプロセスである。いくつかの実施態様では、非強度データは、正規化又はスケーリングされたDAC値を含む。
【0272】
開示される技術、又はその要素の1つ以上の実施態様は、示された方法ステップを実行するためのコンピュータ使用可能なプログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装することができる。更に、開示される技術、又はその要素の1つ以上の実施態様は、メモリと、メモリに結合され、例示的な方法ステップを実行するように動作する少なくとも1つのプロセッサと、を含む装置の形態で実装することができる。更に、別の態様では、開示される技術又はその要素の1つ以上の実施態様は、本明細書に記載の方法ステップのうちの1つ以上を実行するための手段の形態で実装することができ、この手段は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。
【0273】
本出願は、「累積強度補正パラメータ(複数可)」及び「中間項(複数可)」という用語を互換的に使用する。
【0274】
本出願は、「純粋な強度(複数可)」及び「分布強度(複数可)」という用語を互換的に使用する。
【0275】
本出願は、「強度プロファイル(複数可)」及び「コンステレーション(複数可)」という用語を互換的に使用する。
【0276】
本出願は、「変動補正係数(複数可)」及び「強度補正係数(複数可)」という用語を互換的に使用する。
【0277】
本出願は、「増幅係数」及び「スケール因子」という用語を互換的に使用する。
【0278】
本出願は、「オフセット係数(複数可)」及び「オフセット(複数可)」という用語を互換的に使用する。
【0279】
本出願は、「ターゲットクラスター」及び「特定のクラスター」という用語を互換的に使用する。
【0280】
本出願は、「次の」、「後続の」、及び「連続する」という用語を互換的に使用する。
【0281】
本出願は、「ヌクレオチド(複数可)」及び「塩基(複数可)」という用語を互換的に使用する。
【0282】
本出願は、「累積強度補正パラメータ決定器」及び「アキュムレータ」という用語を互換的に使用する。
【0283】
本出願は、「累積強度補正パラメータ決定器」及び「アキュムレータ」という用語を互換的に使用する。
【0284】
項目
1.ターゲットクラスターをベースコールするコンピュータ実装方法であって、方法は、
ターゲットクラスターについて、
配列決定ランの現在の配列決定サイクルに登録された現在のチャネル固有の強度を、現在の配列決定サイクルでターゲットクラスターがベースコールされる塩基固有の強度分布から読み取ることと、
塩基固有の強度分布の重心から現在のチャネル固有の分布強度を読み取ることと、
現在のチャネル固有の強度及び現在のチャネル固有の分布強度に基づいて、現在の配列決定サイクルに対する現在の強度補正パラメータのセットを決定することと、
配列決定ランの先行する配列決定サイクルについての現在の強度補正パラメータのセット及び先行する累積強度補正パラメータのセットを累積することによって、現在の配列決定サイクルについての現在の累積強度補正パラメータのセットを決定することと、
現在の累積強度補正パラメータのセットに基づいて、現在の配列決定サイクルに対する現在の増幅係数及び現在のチャネル固有のオフセット係数を決定することと、
現在の増幅係数及び現在のチャネル固有のオフセット係数を使用して、配列決定ランの次の配列決定サイクルに登録された次のチャネル固有の強度を補正し、次の配列決定サイクルに対して補正された次のチャネル固有の強度を生成することと、
補正された次のチャネル固有の強度に基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含む、コンピュータ実装方法。
【0285】
2.現在の強度補正パラメータのセットは、現在のチャネル固有の分布強度と、現在のチャネル固有の強度誤差と、現在の分布重心から原点の距離と、現在の分布強度対強度誤差の類似性測定と、を含む、項目1に記載のコンピュータ実装方法。
【0286】
3.現在のチャネル固有の強度誤差は、現在のチャネル固有の強度と現在のチャネル固有の分布強度との間のチャネル単位の差である、項目2に記載のコンピュータ実装方法。
【0287】
4.現在の分布重心から原点の距離は、重心と、塩基固有の強度分布を含む多次元空間の原点との間のユークリッド距離である、項目2に記載のコンピュータ実装方法。
【0288】
5.多次元空間は、デカルト空間、極空間、円筒空間、及び球状空間のうちの少なくとも1つである、項目4に記載のコンピュータ実装方法。
【0289】
6.現在の分布強度対強度誤差の類似性測定は、現在のチャネル固有の分布強度と現在のチャネル固有の強度誤差との間のチャネル単位のドット積の総和である、項目2に記載のコンピュータ実装方法。
【0290】
7.現在の累積強度補正パラメータのセットは、現在の強度補正パラメータのセット内の現在の強度補正パラメータと、先行する累積強度補正パラメータのセット内の先行する累積強度補正パラメータとの強度補正パラメータ単位の和である、項目1に記載のコンピュータ実装方法。
【0291】
8.現在の累積強度補正パラメータのセットは、現在の強度補正パラメータ及び先行する累積強度補正パラメータの強度補正パラメータ単位の平均である、項目7に記載のコンピュータ実装方法。
【0292】
9.先行する累積強度補正パラメータのセット及び現在の累積強度補正パラメータのセットは、量子化された固定ビット幅フォーマットで記憶される、項目1に記載のコンピュータ実装方法。
【0293】
10.現在のチャネル固有のオフセット係数は、同一であるように構成されている、項目1に記載のコンピュータ実装方法。
【0294】
11.現在の累積強度補正パラメータのセット内の現在の累積強度補正パラメータは、現在のチャネル固有の分布強度についての第1の共通の現在の累積強度補正パラメータと、現在のチャネル固有の強度誤差についての第2の共通の現在の累積強度補正パラメータと、を含む、項目10に記載のコンピュータ実装方法。
【0295】
12.現在のチャネル固有のオフセット係数は、次のチャネル固有のシフト強度を生成するために次のチャネル固有の強度からチャネル単位で減算され、次のチャネル固有のシフト強度は、補正された次のチャネル固有の強度を生成するために現在の増幅係数で除算される、項目1に記載のコンピュータ実装方法。
【0296】
13.重み付け関数を使用して、初期増幅係数を現在の増幅係数と組み合わせ、初期のチャネル固有のオフセット係数を現在のチャネル固有のオフセット係数と組み合わせて、現在の配列決定サイクルに対する重み付けされた現在の増幅係数及び重み付けされた現在のチャネル固有のオフセット係数を生成することを更に含む、項目1に記載のコンピュータ実装方法。
【0297】
14.重み付け関数は、最小重み(wmin)を初期増幅係数及び初期のチャネル固有のオフセット係数に適用し、最大重み(wmax)を現在の増幅係数及び現在のチャネル固有のオフセット係数に適用し、wmin=(1-wmax)である、項目13に記載のコンピュータ実装方法。
【0298】
15.最大重み(wmax)は、(c-p)/cとして定義され、cは現在の配列決定サイクルのインデックスであり、pは2~7の数値である、項目14に記載のコンピュータ実装方法。
【0299】
16.重み付けされた現在の増幅係数及び重み付けされた現在のチャネル固有のオフセット係数を使用して、次のチャネル固有の強度を補正し、補正された次のチャネル固有の強度を生成することを更に含む、項目15に記載のコンピュータ実装方法。
【0300】
17.
最尤法を使用して、現在の配列決定サイクルについて、現在の増幅係数及び現在のチャネル固有のオフセット係数のそれぞれの現在の最尤重みを生成することと、
現在の最尤重みを現在の増幅係数及び現在のチャネル固有のオフセット係数にそれぞれ適用して、現在の配列決定サイクルについて最尤重みが付けられた現在の増幅係数及び最尤重みが付けられた現在のチャネル固有のオフセット係数を生成することと、
最尤重みが付けられた現在の増幅係数及び最尤重みが付けられた現在のチャネル固有のオフセット係数を使用して、次のチャネル固有の強度を補正し、補正された次のチャネル固有の強度を生成することと、を更に含む、項目1に記載のコンピュータ実装方法。
【0301】
18.
減衰因子を現在の強度補正パラメータに適用して、現在の配列決定サイクルについて減衰された現在の強度補正パラメータを生成することと、
減衰された現在の強度補正パラメータと先行する累積強度補正パラメータとを強度補正パラメータ単位で累積することによって、現在の累積強度補正パラメータを決定することと、を更に含む、項目1に記載のコンピュータ実装方法。
【0302】
19.減衰因子は、配列決定ランの特定の数の配列決定サイクルに対して固定されており、その後、減衰ロジックに基づいて指数関数的に減衰される、項目18に記載のコンピュータ実装方法。
【0303】
20.減衰ロジックは1-1/tauであり、tauは事前定義された数値である、項目19に記載のコンピュータ実装方法。
【0304】
21.配列決定ランの連続する配列決定サイクルでターゲットクラスターについて読み取ること、読み取ること、決定すること、決定すること、決定すること、使用すること、及びベースコールすることを繰り返すことを更に含む、項目1に記載のコンピュータ実装方法。
【0305】
22.複数のクラスターについて読み取ること、読み取ること、決定すること、決定すること、決定すること、使用すること、及びベースコールすることを並行して実行することを更に含む、項目1に記載のコンピュータ実装方法。
【0306】
23.現在の強度補正パラメータのセット、現在の累積強度補正パラメータのセット、現在の増幅係数、及び現在のチャネル固有のオフセット係数の閉形式の式は、最小二乗法を使用して決定される、項目1に記載のコンピュータ実装方法。
【0307】
24.現在のチャネル固有の強度は、強度チャネルにそれぞれ対応する、項目1に記載のコンピュータ実装方法。
【0308】
25.現在のチャネル固有のオフセット係数は、現在のチャネル固有の強度と現在のチャネル固有の分布強度との間のチャネル単位の差である、項目1に記載のコンピュータ実装方法。
【0309】
26.ターゲットクラスターをベースコールするためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
ターゲットクラスターについて、
配列決定ランの現在の配列決定サイクルに登録された現在のチャネル固有の強度を、現在の配列決定サイクルでターゲットクラスターがベースコールされる塩基固有の強度分布から読み取ることと、
塩基固有の強度分布の重心から現在のチャネル固有の分布強度を読み取ることと、
現在のチャネル固有の強度及び現在のチャネル固有の分布強度に基づいて、現在の配列決定サイクルに対する現在の強度補正パラメータのセットを決定することと、
配列決定ランの先行する配列決定サイクルについての現在の強度補正パラメータのセット及び先行する累積強度補正パラメータのセットを累積することによって、現在の配列決定サイクルについての現在の累積強度補正パラメータのセットを決定することと、
現在の累積強度補正パラメータのセットに基づいて、現在の配列決定サイクルに対する現在の増幅係数及び現在のチャネル固有のオフセット係数を決定することと、
現在の増幅係数及び現在のチャネル固有のオフセット係数を使用して、配列決定ランの次の配列決定サイクルに登録された次のチャネル固有の強度を補正し、次の配列決定サイクルに対して補正された次のチャネル固有の強度を生成することと、
補正された次のチャネル固有の強度に基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
【0310】
27.最終的に項目1に従属するそれぞれの項目を実装する、項目26に記載の非一時的コンピュータ可読記憶媒体。
【0311】
28.メモリに結合された1つ以上のプロセッサを含むシステムであって、メモリは、ターゲットクラスターをベースコールするためのコンピュータ命令がロードされ、命令は、プロセッサ上で実行されると、
ターゲットクラスターについて、
配列決定ランの現在の配列決定サイクルに登録された現在のチャネル固有の強度を、現在の配列決定サイクルでターゲットクラスターがベースコールされる塩基固有の強度分布から読み取ることと、
塩基固有の強度分布の重心から現在のチャネル固有の分布強度を読み取ることと、
現在のチャネル固有の強度及び現在のチャネル固有の分布強度に基づいて、現在の配列決定サイクルに対する現在の強度補正パラメータのセットを決定することと、
配列決定ランの先行する配列決定サイクルについての現在の強度補正パラメータのセット及び先行する累積強度補正パラメータのセットを累積することによって、現在の配列決定サイクルについての現在の累積強度補正パラメータのセットを決定することと、
現在の累積強度補正パラメータのセットに基づいて、現在の配列決定サイクルに対する現在の増幅係数及び現在のチャネル固有のオフセット係数を決定することと、
現在の増幅係数及び現在のチャネル固有のオフセット係数を使用して、配列決定ランの次の配列決定サイクルに登録された次のチャネル固有の強度を補正し、次の配列決定サイクルに対して補正された次のチャネル固有の強度を生成することと、
補正された次のチャネル固有の強度に基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含むアクションを実装する、システム。
【0312】
29.最終的に項目1に従属するそれぞれの項目を実装する、項目28に記載のシステム。
【0313】
30.ターゲットクラスターをベースコールするコンピュータ実装方法であって、方法は、
ターゲットクラスターについて、
現在の強度データ及び履歴強度データにアクセスすることであって、
現在の強度データは、配列決定ランの現在の配列決定サイクルに対するものであり、
履歴強度データは、配列決定ランの1つ以上の先行する配列決定サイクルに対するものである、ことと、
現在の強度データ及び履歴強度データに基づいて、スケール補正係数及びチャネル固有のシフト補正係数を決定することと、
スケール補正係数及びチャネル固有のシフト補正係数を使用して、次の強度データを補正し、補正された次の強度データを生成することであって、
次の強度データは、配列決定ランの次の配列決定サイクルに対するものである、ことと、
補正された次の強度データに基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含む、コンピュータ実装方法。
【0314】
31.最終的に項目1に従属するそれぞれの項目を実装する、項目30に記載のコンピュータ実装方法。
【0315】
32.ターゲットクラスターをベースコールするためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
ターゲットクラスターについて、
現在の強度データ及び履歴強度データにアクセスすることであって、
現在の強度データは、配列決定ランの現在の配列決定サイクルに対するものであり、
履歴強度データは、配列決定ランの1つ以上の先行する配列決定サイクルに対するものである、ことと、
現在の強度データ及び履歴強度データに基づいて、スケール補正係数及びチャネル固有のシフト補正係数を決定することと、
スケール補正係数及びチャネル固有のシフト補正係数を使用して、次の強度データを補正し、補正された次の強度データを生成することであって、
次の強度データは、配列決定ランの次の配列決定サイクルに対するものである、ことと、
補正された次の強度データに基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
【0316】
33.最終的に項目1に従属するそれぞれの項目を実装する、項目32に記載の非一時的コンピュータ可読記憶媒体。
【0317】
34.メモリに結合された1つ以上のプロセッサを含むシステムであって、メモリは、ターゲットクラスターをベースコールするためのコンピュータ命令がロードされ、命令は、プロセッサ上で実行されると、
ターゲットクラスターについて、
現在の強度データ及び履歴強度データにアクセスすることであって、
現在の強度データは、配列決定ランの現在の配列決定サイクルに対するものであり、
履歴強度データは、配列決定ランの1つ以上の先行する配列決定サイクルに対するものである、ことと、
現在の強度データ及び履歴強度データに基づいて、スケール補正係数及びチャネル固有のシフト補正係数を決定することと、
スケール補正係数及びチャネル固有のシフト補正係数を使用して、次の強度データを補正し、補正された次の強度データを生成することであって、
次の強度データは、配列決定ランの次の配列決定サイクルに対するものである、ことと、
補正された次の強度データに基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含むアクションを実装する、システム。
【0318】
35.最終的に項目1に従属するそれぞれの項目を実装する、項目34に記載のシステム。
【0319】
36.ターゲットクラスターをベースコールするコンピュータ実装方法であって、方法は、
ターゲットクラスターについて、
現在の強度データ及び履歴強度データにアクセスすることであって、
現在の強度データは、配列決定ランの現在の配列決定サイクルに対するものであり、
履歴強度データは、配列決定ランの1つ以上の先行する配列決定サイクルに対するものである、ことと、
現在の強度データ及び履歴強度データを使用して、次の強度データを補正し、補正された次の強度データを生成することであって、
次の強度データは、配列決定ランの次の配列決定サイクルに対するものである、ことと、
補正された次の強度データに基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含む、コンピュータ実装方法。
【0320】
37.最終的に項目1に従属するそれぞれの項目を実装する、項目36に記載のコンピュータ実装方法。
【0321】
38.ターゲットクラスターをベースコールするためにコンピュータプログラム命令が記憶された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
ターゲットクラスターについて、
現在の強度データ及び履歴強度データにアクセスすることであって、
現在の強度データは、配列決定ランの現在の配列決定サイクルに対するものであり、
履歴強度データは、配列決定ランの1つ以上の先行する配列決定サイクルに対するものである、ことと、
現在の強度データ及び履歴強度データを使用して、次の強度データを補正し、補正された次の強度データを生成することであって、
次の強度データは、配列決定ランの次の配列決定サイクルに対するものである、ことと、
補正された次の強度データに基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
【0322】
39.最終的に項目1に従属するそれぞれの項目を実装する、項目38に記載の非一時的コンピュータ可読記憶媒体。
【0323】
40.メモリに結合された1つ以上のプロセッサを含むシステムであって、メモリは、ターゲットクラスターをベースコールするためのコンピュータ命令がロードされ、命令は、プロセッサ上で実行されると、
ターゲットクラスターについて、
現在の強度データ及び履歴強度データにアクセスすることであって、
現在の強度データは、配列決定ランの現在の配列決定サイクルに対するものであり、
履歴強度データは、配列決定ランの1つ以上の先行する配列決定サイクルに対するものである、ことと、
現在の強度データ及び履歴強度データを使用して、次の強度データを補正し、補正された次の強度データを生成することであって、
次の強度データは、配列決定ランの次の配列決定サイクルに対するものである、ことと、
補正された次の強度データに基づいて、次の配列決定サイクルでターゲットクラスターをベースコールすることと、を含む、アクションを実装する、システム。
【0324】
41.最終的に項目1に従属するそれぞれの項目を実装する、項目40に記載のシステム。
【0325】
本発明は、上述の好ましい実施形態及び実施例を参照して開示されているが、これらの実施例は、限定的な意味でではなく例示的な意味で意図されていることが理解されるべきである。当業者であれば、変更及び組み合わせが容易に生じ、その変更及び組み合わせは、本発明の趣旨及び以下の特許請求の範囲の範囲内にあると考えられる。
【符号の説明】
【0326】
1 クラスター
2 クラスター
3 クラスター
302 最小二乗法決定器
312 強度モデラー
322 最小化器
1500 コンピュータシステム
1510 記憶サブシステム
1522 メモリサブシステム
1532 RAM
1534 ROM
1536 ファイル記憶サブシステム
1538 ユーザインターフェース入力デバイス
1555 バスサブシステム
1572 CPU
1574 ネットワークインターフェースサブシステム
1576 ユーザインターフェース出力デバイス
1578 プロセッサ
【国際調査報告】