IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ナノストリング テクノロジーズ,インコーポレイティドの特許一覧

特表2023-546034配列データを処理する方法、システム、及びデバイス
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-01
(54)【発明の名称】配列データを処理する方法、システム、及びデバイス
(51)【国際特許分類】
   G16B 30/10 20190101AFI20231025BHJP
【FI】
G16B30/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023521627
(86)(22)【出願日】2021-10-08
(85)【翻訳文提出日】2023-06-01
(86)【国際出願番号】 US2021054215
(87)【国際公開番号】W WO2022076847
(87)【国際公開日】2022-04-14
(31)【優先権主張番号】63/089,432
(32)【優先日】2020-10-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
(71)【出願人】
【識別番号】513322707
【氏名又は名称】ナノストリング テクノロジーズ,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(74)【代理人】
【識別番号】100170852
【弁理士】
【氏名又は名称】白樫 依子
(72)【発明者】
【氏名】ピーター アスコビッチ
(57)【要約】
本開示の実施形態は、配列決定データファイルに含有される複数のリードからDNA断片の同一性を決定するために配列決定データを処理するシステム、装置、デバイス、及び方法を対象とする。
【特許請求の範囲】
【請求項1】
配列決定データファイルに含有される複数のリードからDNA断片の同一性を決定するのを補助する配列決定データ処理方法であって、前記方法は、複数のアダプタトリミングパスを行うことを含み、前記アダプタトリミングパスは少なくとも、
各配列決定リードについて、既知のインサート長さよりも1塩基長いbpで始まる第1のトリミングパスであって、限定された複数の可能性のあるオーバーラップを考慮して配列内の一致を見出すようにアダプタの第1の所定数のbpを使用することを含む、配列からアダプタbpを除去することを含む、第1のトリミングパスと、
前記第1のトリミングパスの後、前記リードが所定数のbpよりも長い場合、前のトリミングパスからの所定数の追加のbpをプラス又はマイナスした前記アダプタの第1の所定数のbpで1つ以上のアダプタをマッチングさせることを各々含む限定された数の第2のトリミングパスを前記リードに沿って任意の場所で行うことであって、
前記限定された数のトリミングパスにより、結果として、各シングルエンドリードは最終的に、シングルエンドの特定数のbpにトリミングされ、各ペアエンドリードは最終的に、ペアエンドの特定数のbpにトリミングされる、ということと、
任意で、1つ以上のトリミングパスからの情報を使用してインサートbpを再びラベル付けすることと、
を含む、方法。
【請求項2】
前記第1のトリミングパスは、bp27で開始される、請求項1に記載の方法。
【請求項3】
前記第1のトリミングパスは、前記リード/あるリードが少なくとも36bpの長さである場合にのみ行われる、請求項1~2のいずれかに記載の方法。
【請求項4】
前記第1のトリミングパスについて、前記アダプタの第1の所定数のbpは、10bpを備える、請求項1~3のいずれかに記載の方法。
【請求項5】
前記所定数の追加のbpは、1~2bpを備える、請求項1~4のいずれかに記載の方法。
【請求項6】
1つ以上の配列決定データファイル(「SDF」)から複数の配列決定リードを読み取ることを更に含む、請求項1~5のいずれかに記載の方法。
【請求項7】
前記複数の配列決定リードは、複数のシングルエンドリードと、複数のペアエンドリードと、を備え、
各シングルエンドリードは、単一のSDF(「R1」)を備え、各ペアエンドリードは、2つのSDF(「R1」、「R2」)を備え、
ペアエンドリードについて、前記2つのSDFのうちの第1のR1は、前記ペアエンドリードの順方向のリードを備え、前記2つのSDFのうちの第2のR2は、前記ペアエンドリードの逆方向のリードを備え、
各SDFは、4行の情報を含み、前記情報の第2の行は、配列決定データを含み、前記情報の第4の行は、前記配列決定データについてのクオリティスコアを含み、
各リードの前記配列決定データは、インサート(すなわち、DNA断片)の塩基対(「bp」)に関連するインサートデータと、前記インサートの端での関連するアダプタのbpに関連する第2のアダプタデータと、を含み、及び/又は
ペアエンドについて、R1の配列ラインは、塩基対(「bp」)1から最後のbpまでであり、R2の配列ラインは、前記最後のbpからbp1までである、請求項6に記載の方法。
【請求項8】
前記複数の配列決定リードに対して少なくとも1つの追加の処理ステップを行うことを更に含む、請求項1~7のいずれかに記載の方法。
【請求項9】
前記少なくとも1つの追加の処理ステップは、スティッチング、抽出、第1のマッチング、重複排除、及び第2のマッチングからなる群から選択される、請求項8に記載の方法。
【請求項10】
スティッチングは、
各ペアエンドリードについて、前記ペアエンドリードの第1の配列決定リード(R1)を前記ペアエンドリードの第2の配列決定リード(R2)とオーバーラップさせ、前記オーバーラップする部分を比較することと、
前記リードが一致していない場合、より高いクオリティスコアを有するR1及びR2のうちの一方を選択するか、又は前記クオリティスコアが等しい場合、
R1及びR2のうちの一方がより高いクオリティスコアを有するまで、R1及びR2について少なくとも1つの領域スコアを漸進的に計算することであって、R1及びR2の各々について、一致していないbp、一致していないbpの1bp左、及び1bp右のクオリティスコア値を加えることを含む、計算することと、より高い総クオリティスコアを有するリードを選択することと、
R1からの番号付けを使用して、前記選択されたリードを所定数のbp(例えば、26bp)にトリミングすることと、
を含む、請求項9に記載の方法。
【請求項11】
抽出は、各リードを固有分子識別子(「UMI」)及びバーコードに分離することを含む、請求項9に記載の方法。
【請求項12】
第1のマッチングは、所与のエラー率で、予想されるバーコードのライブラリ(例えば、ハッシュテーブル)に対して各リードをマッチングさせることを含む、請求項9に記載の方法。
【請求項13】
第1のマッチングに関して、
リードからのバーコードが短くされる場合、最後のbpは、「N」として与えられるため、残りの所定数のbpは、前記ライブラリ内の識別子に正確に一致し、
バーコードについての正確な一致が規定される場合、リードの前記所定数のbpの照合は行われず、
一致が見出されない場合、前記リードはメモリに保存される、請求項12に記載の方法。
【請求項14】
第2のマッチングは、アライメントマッチングを介して一致していない各バーコード(「NMBC」)について、アライメントマッチングを介して以前に一致したバーコードのUMI間で前記NMBCのUMIをマッチングさせることを含み、UMIが見出される場合、前記NMBCを、前記見出されたUMIのバーコードと比較し、複数の不一致のbpを許容して、一致を確認する、請求項9に記載の方法。
【請求項15】
配列決定データファイルに含有される複数のリードからDNA断片の同一性を決定するのを補助する配列決定データ処理方法であって、前記方法は、スティッチングプロセスを含み、前記スティッチングプロセスは、
各ペアエンドリードについて、ペアエンドリードの第1の配列決定リード(R1)をペアエンドリードの第2の配列決定リード(R2)とオーバーラップさせ、前記オーバーラップする部分を比較することと、
前記リードが一致していない場合、より高いクオリティスコアを有するR1及びR2のうちの一方を選択するか、又は前記クオリティスコアが等しい場合、
R1及びR2のうちの一方がより高いクオリティスコアを有するまで、R1及びR2について少なくとも1つの領域スコアを漸進的に計算することであって、R1及びR2の各々について、一致していないbp、一致していないbpの1bp左、及び1bp右のクオリティスコア値を加えることを含む、計算することと、より高い総クオリティスコアを有するリードを選択することと、
R1からの番号付けを使用して、前記選択されたリードを所定数のbp(例えば、26bp)にトリミングすることと、
を含む、方法。
【請求項16】
前記複数の配列決定リードに対して少なくとも1つの追加の処理ステップを行うことを更に含む、請求項15に記載の方法。
【請求項17】
前記複数の処理ステップは、アダプタトリミング、抽出、第1のマッチング、重複排除、及び第2のマッチングからなる群から選択される、請求項16に記載の方法。
【請求項18】
アダプタトリミングは少なくとも、
各配列決定リードについて、既知のインサート長さよりも1塩基長いbpで始まる第1のトリミングパスであって、限定された複数の可能性のあるオーバーラップを考慮して配列内の一致を見出すようにアダプタの第1の所定数のbpを使用することを含む、配列からアダプタbpを除去することを含む、第1のトリミングパスと、
前記第1のトリミングパスの後、前記リードが所定数のbpよりも長い場合、前のトリミングパスからの所定数の追加のbpをプラス又はマイナスした前記アダプタの第1の所定数のbpで1つ以上のアダプタをマッチングさせることを各々含む限定された数の第2のトリミングパスを前記リードに沿って任意の場所で行うことであって、
前記限定された数のトリミングパスにより、結果として、各シングルエンドリードは最終的に、シングルエンドの特定数のbpにトリミングされ、各ペアエンドリードは最終的に、ペアエンドの特定数のbpにトリミングされる、ということと、
任意で、1つ以上のトリミングパスからの情報を使用して前記インサートbp/あるインサートbpを再びラベル付けすることと、
を含む、請求項16に記載の方法。
【請求項19】
前記第1のトリミングパスは、bp27で開始される、請求項18に記載の方法。
【請求項20】
前記第1のトリミングパスは、前記リード/あるリードが少なくとも36bpの長さである場合にのみ行われる、請求項18~19のいずれかに記載の方法。
【請求項21】
前記第1のトリミングパスについて、前記アダプタの第1の所定数のbpは、10bpを備える、請求項18~20のいずれかに記載の方法。
【請求項22】
前記所定数の追加のbpは、1~2bpを備える、請求項18~21のいずれかに記載の方法。
【請求項23】
1つ以上の配列決定データファイル(「SDF」)から複数の配列決定リードを読み取ることを更に含む、請求項18~22のいずれかに記載の方法。
【請求項24】
前記複数の配列決定リードは、複数のシングルエンドリードと、複数のペアエンドリードと、を備え、
各シングルエンドリードは、単一のSDF(「R1」)を備え、各ペアエンドリードは、2つのSDF(「R1」、「R2」)を備え、
ペアエンドリードについて、前記2つのSDFのうちの第1のR1は、前記ペアエンドリードの順方向のリードを備え、前記2つのSDFのうちの第2のR2は、前記ペアエンドリードの逆方向のリードを備え、
各SDFは、4行の情報を含み、前記情報の第2の行は、配列決定データを含み、前記情報の第4の行は、前記配列決定データについてのクオリティスコアを含み、
各リードの前記配列決定データは、インサート(すなわち、DNA断片)の塩基対(「bp」)に関連するインサートデータと、前記インサートの端での関連するアダプタのbpに関連する第2のアダプタデータと、を含み、及び/又は
ペアエンドについて、R1の配列ラインは、塩基対(「bp」)1から最後のbpまでであり、R2の配列ラインは、前記最後のbpからbp1までである、請求項23に記載の方法。
【請求項25】
抽出は、各リードを固有分子識別子(「UMI」)及びバーコードに分離することを含む、請求項17に記載の方法。
【請求項26】
第1のマッチングは、所与のエラー率で、予想されるバーコードのライブラリ(例えば、ハッシュテーブル)に対して各リードをマッチングさせることを含む、請求項17に記載の方法。
【請求項27】
第1のマッチングに関して、
リードからのバーコードが短くされる場合、最後のbpは、「N」として与えられるため、残りの所定数のbpは、前記ライブラリ内の識別子に正確に一致し、
バーコードについての正確な一致が規定される場合、リードの前記所定数のbpの照合は行われず、
一致が見出されない場合、前記リードはメモリに保存される、請求項26に記載の方法。
【請求項28】
第2のマッチングは、アライメントマッチングを介して一致していない各バーコード(「NMBC」)について、アライメントマッチングを介して以前に一致したバーコードのUMI間で前記NMBCのUMIをマッチングさせることを含み、UMIが見出される場合、前記NMBCを、前記見出されたUMIのバーコードと比較し、複数の不一致のbpを許容して、一致を確認する、請求項17に記載の方法。
【請求項29】
配列決定データファイルに含有される複数のリードからDNA断片の同一性を決定する配列決定データ処理方法であって、前記方法は、
1つ以上の配列決定データファイル(「SDF」)から複数の配列決定リードを読み取ることであって、
前記複数の配列決定リードは、複数のシングルエンドリードと、複数のペアエンドリードと、を備え、
各シングルエンドリードは、単一のSDF(「R1」)を備え、各ペアエンドリードは、2つのSDF(「R1」、「R2」)を備え、
ペアエンドリードについて、前記2つのSDFのうちの第1のR1は、前記ペアエンドリードの順方向のリードを備え、前記2つのSDFのうちの第2のR2は、前記ペアエンドリードの逆方向のリードを備え、
各SDFは、4行の情報を含み、前記情報の第2の行は、配列決定データを含み、前記情報の第4の行は、前記配列決定データについてのクオリティスコアを含み、
各リードの前記配列決定データは、インサート(すなわち、DNA断片)の塩基対(「bp」)に関連するインサートデータと、前記インサートの端での関連するアダプタのbpに関連する第2のアダプタデータと、を含み、
ペアエンドについて、R1の配列ラインは、塩基対(「bp」)1から最後のbpまでであり、R2の配列ラインは、前記最後のbpからbp1までである、ということと、
前記複数の配列決定リードに対して複数の処理ステップを行うことと、
を含み、前記複数の処理ステップは、トリミング、スティッチング、抽出、第1のマッチング、重複排除、及び第2のマッチングからなる群から選択され、
トリミングは、
複数のアダプタトリミングパスを行うことであって、前記アダプタトリミングパスは、
既知のインサート長さよりも1塩基長いbpで始まる第1のトリミングパスであって、限定された複数の可能性のあるオーバーラップを考慮して配列内の一致を見出すようにアダプタの第1の所定数のbpを使用することを含む、配列からアダプタbpを除去することを含む、第1のトリミングパスと、
前記第1のトリミングパスの後、前記リードが所定数のbpよりも長い場合、前のトリミングパスからの所定数の追加のbpをプラス又はマイナスした前記アダプタの第1の所定数のbpで1つ以上のアダプタをマッチングさせることを各々含む限定された数の第2のトリミングパスを前記リードに沿って任意の場所で行うことと、を含み、
前記限定された数のトリミングパスにより、結果として、各シングルエンドリードは最終的に、シングルエンドの特定数のbpにトリミングされ、各ペアエンドリードは最終的に、ペアエンドの特定数のbpにトリミングされる、ということと、
任意で、1つ以上のトリミングパスからの情報を使用してインサートbpを再びラベル付けすることと、
を含み、
スティッチングは、
ペアエンドリードのR1を前記ペアエンドリードのR2とオーバーラップさせ、前記オーバーラップする部分を比較することと、
前記リードが一致していない場合、
より高いクオリティスコアを有するR1及びR2のうちの一方を選択するか、又は
前記クオリティスコアが等しい場合、
R1及びR2のうちの一方がより高いクオリティスコアを有するまで、R1及びR2について少なくとも1つの領域スコアを漸進的に計算することであって、R1及びR2の各々について、一致していないbp、一致していないbpの1bp左、及び1bp右のクオリティスコア値を加えることを含む、計算することと、より高い総クオリティスコアを有するリードを選択することと、
R1からの番号付けを使用して、前記選択されたリードを26bpにトリミングすることと、
を含み、
抽出は、各リードを固有分子識別子(「UMI」)及びバーコードに分離することを含み、
第1のマッチングは、所与のエラー率で、予想されるバーコードのライブラリ(例えば、ハッシュテーブル)に対して各リードをマッチングさせることを含み、
リードからのバーコードが短くされる場合、最後のbpは、「N」として与えられるため、残りの所定数のbpは、前記ライブラリ内の識別子に正確に一致し、
バーコードについての正確な一致が規定される場合、リードの前記所定数のbpの照合は行われず、
一致が見出されない場合、前記リードはメモリに保存され、
前記複数のリードを重複排除し、
第2のマッチングは、アライメントマッチングを介して一致していない各バーコード(一致していないバーコード又は「NMBC」)について、アライメントマッチングを介して以前に一致したバーコードのUMI間で前記NMBCのUMIをマッチングさせることを含み、
UMIが見出される場合、前記NMBCを、前記見出されたUMIのバーコードと比較し、複数の不一致のbpを許容して、一致を確認する、方法。
【請求項30】
前記第1のトリミングパスは、bp27で開始される、請求項29に記載の方法。
【請求項31】
前記第1のトリミングパスは、リードが少なくとも36bpの長さである場合にのみ行われる、請求項29又は30のいずれかに記載の方法。
【請求項32】
前記第1のトリミングパスについて、前記アダプタの第1の所定数のbpは、10bpを備える、請求項29~31のいずれかに記載の方法。
【請求項33】
前記所定数の追加のbpは、1~2bpを備える、請求項29~32のいずれかに記載の方法。
【請求項34】
第1のマッチング中、前記残りの数のbpは、11bpを備える、請求項29~33のいずれかに記載の方法。
【請求項35】
第2のマッチング中、前記複数の許容された不一致のbpは、1bp又は2bpを備える、請求項29~34のいずれかに記載の方法。
【請求項36】
請求項1~35に記載の方法のうちのいずれかを行うシステム又はデバイス。
【請求項37】
請求項1~35のいずれかに記載の方法のうちのいずれかをサーバに行わせるように構成されたコンピュータ命令にアクセスする、少なくとも1つのコンピュータプロセッサ。
【請求項38】
請求項1~35に記載の方法のいずれかを1つ以上のプロセッサに行わせるために、前記1つ以上のプロセッサ上で動作するデータ及び/又はコンピュータ命令を記憶するデータ記憶デバイス又はシステムであって、前記コンピュータ命令は、アプリケーションプログラムに動作可能に含まれる、データ記憶デバイス又はシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本開示は、2020年10月8日に出願された米国仮特許出願第63/089,432号の利益及び優先権を主張し、その開示全体が参照により完全に本明細書に援用される。
【0002】
本開示の実施形態は、特に、配列を決定するシステム、装置、及び方法、より具体的には、例えば、配列決定リードを処理してアダプタデータを除去することを含んで、遺伝子断片の配列を決定するシステム、装置、及び方法を対象とする。
【0003】
配列リストの参照による援用
本出願は、EFS-Webを介してASCII形式で提出された配列リストを含有しており、その全体が参照により本明細書に援用される。上記ASCIIのコピーは2021年10月8日に作成され、名前は「NATE-050_001WO_SeqList_ST25.txt」であり、サイズは約14キロバイトである。
【背景技術】
【0004】
遺伝子データの処理は、時間がかかり且つ困難なタスクである。配列決定リードにより、大量のデータが結果として生じ、当該大量のデータは、所望の遺伝子配列(例えば、遺伝子断片の配列)を決定するための結果として生ずるデータを生成するために処理される必要がある。したがって、より高速な結果を提供するために、このようなデータの処理の速度を上げるプロセスが望ましい。
【発明の概要】
【0005】
本明細書に開示される実施形態は、遺伝子データの処理の処理速度の増加(一部の実施形態では、大幅な増加)、及びその結果の特異性の改善を可能にする。
【0006】
したがって、一部の実施形態では、配列決定データファイルに含有される複数の配列決定リードからDNA(一部の実施形態では、DNAの断片)の同一性を決定するのを補助する配列決定データ処理方法が提供される。当該方法は、複数のアダプタトリミングパス(adapter trimming passes)を行うことを含む。アダプタトリミングパスは少なくとも、各配列決定リードについて、既知のインサート長さよりも1塩基長い(一部の実施形態では、少なくとも1塩基長く、一部の実施形態では、所定数の塩基長い)塩基対(「bp」)で始まる第1のトリミングパスであって、限定された複数の可能性のあるオーバーラップ(overlaps)を考慮して配列内の一致(match)を見出すようにアダプタの第1の所定数のbpが使用される、配列からアダプタbpが除去され得る、第1のトリミングパスと、第1のトリミングパスの後、リードが所定数のbpよりも長い場合、前のトリミングパスからの所定数の追加のbpをプラス又はマイナスしたアダプタの第1の所定数のbpで1つ以上のアダプタをマッチングさせることを各々含む限定された数の第2のトリミングパスをリードに沿って任意の場所で行うことと、を含む。限定された数のトリミングパスにより、結果として、各シングルエンドリードは最終的に、シングルエンドの特定数のbpにトリミングされ、各ペアエンドリードは最終的に、ペアエンドの特定数のbpにトリミングされる。一部の実施形態では、当該方法はまた、任意で、1つ以上のトリミングパスからの情報を使用して当該インサートbp/あるインサートbp(the/an insert bps)を再びラベル付けすることを含み得る。
【0007】
このような実施形態では、以下の追加の特徴、機能、機能性、ステップ、及び/又は解明(clarifications)のうちの1つ及び/又は別のもの(一部の実施形態では、複数、大多数、実質的に全て、一部の実施形態では、全て)は、本開示の更なる実施形態を生み出し、
-第1のトリミングパスは、特定のbp(一部の実施形態では、bp27)で開始され得、
-第1のトリミングパスは、当該リード/あるリード(the/a read)が少なくとも36bpの長さ(一部の実施形態では、少なくとも所定の長さのbp又は所定の範囲の長さのbp)であり得る場合にのみ行われ、
-第1のトリミングパスについて、アダプタの第1の所定数のbpは、10bp(一部の実施形態では、所定数のbp)を備え、
-所定数の追加のbpは、1~2bp(一部の実施形態では、所定数の追加のbp)を備え、
-1つ以上の配列決定データファイル(「SDF」)からの複数の配列決定リードであって、
・複数の配列決定リードは、複数のシングルエンドリードと、複数のペアエンドリードと、を備え、
・各シングルエンドリードは、単一のSDF(「R1」)を備え、各ペアエンドリードは、2つのSDF(「R1」、「R2」)を備え、
・ペアエンドリードについて、2つのSDFのうちの第1のR1は、ペアエンドリードの順方向のリードを備え、2つのSDFのうちの第2のR2は、ペアエンドリードの逆方向のリードを備え、
・各SDFは、所定数の行(一部の実施形態では、複数行の情報、一部の実施形態では、少なくとも4行の情報、一部の実施形態では、4行の情報)を備え、その第2の行は、配列決定データを含み、その第4の行は、配列決定データについてのクオリティスコアを含み、
・各リードの配列決定データは、インサート(すなわち、DNA断片)の塩基対(「bp」)に関連するインサートデータと、インサートの端での関連するアダプタのbpに関連する第2のアダプタデータと、を含み、及び/又は
・ペアエンドについて、R1の配列行は、bp1から最後のbpまでであり得、R2の配列行は、最後のbpからbp1までであり得、
-複数の配列決定リードに対して、スティッチング(stitching)、抽出、第1のマッチング、重複排除(deduplication)、及び第2のマッチングからなる群から選択される少なくとも1つの追加の処理ステップを行い、
-以下のうちの1つ以上(好ましくは、全て)を含むスティッチングのステップを行い、
・各ペアエンドリードについて、ペアエンドリードの第1の配列決定リード(R1)をペアエンドリードの第2の配列決定リード(R2)とオーバーラップさせ、オーバーラップする部分を比較することと、
・リードが一致していない場合、より高いクオリティスコアを有するR1及びR2のうちの一方を選択するか、又はクオリティスコアが等しい場合、
・R1及びR2のうちの一方がより高いクオリティスコアを有するまで、R1及びR2について少なくとも1つの領域スコアを漸進的に計算することであって、R1及びR2の各々について、一致していないbp、一致していないbpの1bp左、及び1bp右のクオリティスコア値を加えることを含む、計算することと、より高い総クオリティスコアを有するリードを選択することと、
・R1からの番号付けを使用して、選択されたリードを所定数のbp(例えば、26bp)にトリミングすること。
-各リードを固有分子識別子(unique molecular identifier)(「UMI」)及びバーコードに分離することを含む抽出のステップを行い、
-所与のエラー率で、予想されるバーコードのライブラリ(例えば、ハッシュテーブル)に対して各リードをマッチングさせることを含む第1のマッチングのステップを行い、
・リードからのバーコードが短くされる場合、最後のbpは、「N」として与えられるため、残りの所定数のbpは、ライブラリ内の識別子に正確に一致し、
・バーコードについての正確な一致が規定される場合、リードの所定数のbpの照合(match)は行われず、
・一致が見出されない場合、リードはメモリに保存され、
-第1のマッチングを介して一致していない各バーコード(「NMBC」)について、第1のマッチングを介して以前に一致したバーコードのUMI間でNMBCのUMIをマッチングさせることを含む第2のマッチングのステップを行い、UMIが見出される場合、NMBCを、見出されたUMIのバーコードと比較し、複数の不一致のbpを許容して、一致を確認する。
【0008】
一部の実施形態では、配列決定データファイルに含有される複数のリードからDNA断片の同一性を決定するのを補助する配列決定データ処理方法が提供され、各ペアエンドリードについて、ペアエンドリードの第1の配列決定リード(R1)をペアエンドリードの第2の配列決定リード(R2)とオーバーラップさせ、オーバーラップする部分を比較することを含む。リードが一致していない場合、より高いクオリティスコアを有するR1及びR2のうちの一方を選択するか、又はクオリティスコアが等しい場合、R1及びR2のうちの一方がより高いクオリティスコアを有するまで、R1及びR2について少なくとも1つの領域スコアを漸進的に計算し、計算は、R1及びR2の各々について、一致していないbp、一致していないbpの1bp左、及び1bp右のクオリティスコア値を加えることを含み、より高い総クオリティスコアを有するリードを選択し、R1からの番号付けを使用して、選択されたリードを所定数のbp(例えば、26bp)にトリミングする。
【0009】
このような実施形態では、以下の追加の特徴、機能、機能性、ステップ、及び/又は解明のうちの1つ及び/又は別のもの(一部の実施形態では、複数、大多数、実質的に全て、一部の実施形態では、全て)は、本開示の更なる実施形態を生み出し、
-複数の配列決定リードに対して、アダプタトリミング、抽出、第1のマッチング、重複排除、及び第2のマッチングからなる群から選択される少なくとも1つの追加の処理ステップを行い、
-アダプタトリミングを行うことは、各配列決定リードについて、既知のインサート長さよりも1塩基長い場合があるbpで始まる第1のトリミングパスであって、限定された複数の可能性のあるオーバーラップを考慮して配列内の一致を見出すようにアダプタの第1の所定数のbpを使用することを含む、配列からアダプタbpを除去することを含む、第1のトリミングパスを含み、
-任意で、第1のトリミングパスの後、リードが所定数のbpよりも長い場合、前のトリミングパスからの所定数の追加のbpをプラス又はマイナスしたアダプタの第1の所定数のbpで1つ以上のアダプタをマッチングさせることを各々含む限定された数の第2のトリミングパスをリードに沿って任意の場所で行い、限定された数のトリミングパスにより、結果として、各シングルエンドリードは最終的に、シングルエンドの特定数のbpにトリミングされ得、各ペアエンドリードは最終的に、ペアエンドの特定数のbpにトリミングされ得、任意で、1つ以上のトリミングパスからの情報を使用してインサートbpを再びラベル付けし、
-第1のトリミングパスは、bp27(一部の実施形態では、所定のbp)で開始され得、
-第1のトリミングパスは、リードが少なくとも36bpの長さ(一部の実施形態では、所定の長さのbp)である場合にのみ行われ、
-第1のトリミングパスについて、アダプタの第1の所定数のbpは、10bp(一部の実施形態では、所定数のbp)を備え、
-所定数の追加のbpは、1~2bp(一部の実施形態では、所定の範囲のbp)を備え、
-1つ以上の配列決定データファイル(「SDF」)から複数の配列決定リードを読み取り、
・複数の配列決定リードは、複数のシングルエンドリードと、複数のペアエンドリードと、を備え、
・各シングルエンドリードは、単一のSDF(「R1」)を備え、各ペアエンドリードは、2つのSDF(「R1」、「R2」)を備え、
・ペアエンドリードについて、2つのSDFのうちの第1のR1は、ペアエンドリードの順方向のリードを備え、2つのSDFのうちの第2のR2は、ペアエンドリードの逆方向のリードを備え、
・各SDFは、所定数の行(一部の実施形態では、複数行の情報、一部の実施形態では、少なくとも4行の情報、一部の実施形態では、4行の情報)を備え、その第2の行は、配列決定データを含み、その第4の行は、配列決定データについてのクオリティスコアを含み、
・各リードの配列決定データは、インサート(すなわち、DNA断片)の塩基対(「bp」)に関連するインサートデータと、インサートの端での関連するアダプタのbpに関連する第2のアダプタデータと、を含み、及び/又は
・ペアエンドについて、R1の配列行は、塩基対(「bp」)1から最後のbpまでであり得、R2の配列行は、最後のbpからbp1までであり得、
-抽出は、各リードを固有分子識別子(「UMI」)及びバーコードに分離することを含み、
-所与のエラー率で、予想されるバーコードのライブラリ(例えば、ハッシュテーブル)に対して各リードをマッチングさせることを含む第1のマッチングを行い、
・リードからのバーコードが短くされる場合、最後のbpは、「N」として与えられるため、残りの所定数のbpは、ライブラリ内の識別子に正確に一致し、
・バーコードについての正確な一致が規定される場合、リードの所定数のbpの照合は行われず、
・一致が見出されない場合、リードはメモリに保存され、
-第1のマッチングを介して一致していない各バーコード(「NMBC」)について、第1のマッチングを介して以前に一致したバーコードのUMI間でNMBCのUMIをマッチングさせることを含む第2のマッチングを行い、UMIが見出される場合、NMBCを、見出されたUMIのバーコードと比較し、複数の不一致のbpを許容して、一致を確認する。
【0010】
一部の実施形態では、配列決定データファイルに含有される複数のリードからDNA断片の同一性を決定する配列決定データ処理方法が提供され、1つ以上の配列決定データファイル(「SDF」)から複数の配列決定リードを読み取ることを含む。複数の配列決定リードは、複数のシングルエンドリードと、複数のペアエンドリードと、を備え、各シングルエンドリードは、単一のSDF(「R1」)を備え、各ペアエンドリードは、2つのSDF(「R1」、「R2」)を備える。ペアエンドリードについて、2つのSDFのうちの第1のR1は、ペアエンドリードの順方向のリードを備え、2つのSDFのうちの第2のR2は、ペアエンドリードの逆方向のリードを備える。各SDFは、4行の情報を含み、その第2の行は、配列決定データを含み、その第4の行は、配列決定データについてのクオリティスコアを含む。各リードの配列決定データは、インサート(すなわち、DNA断片)の塩基対(「bp」)に関連するインサートデータと、インサートの端での関連するアダプタのbpに関連する第2のアダプタデータと、を含み、ペアエンドについて、R1の配列行は、塩基対(「bp」)1から最後のbpまでであり得、R2の配列行は、最後のbpからbp1までであり得る。
【0011】
当該方法は、複数の配列決定リードに対して複数の処理ステップを行うことを更に含み、複数の処理ステップは、トリミング、スティッチング、抽出、第1のマッチング、重複排除、及び第2のマッチングからなる群から選択され得る。
【0012】
一部の実施形態では、トリミングは、複数のアダプタトリミングパスを行うことを含み、アダプタトリミングパスは、既知のインサート長さよりも1塩基長い場合があるbpで始まる第1のトリミングパスであって、限定された複数の可能性のあるオーバーラップを考慮して配列内の一致を見出すようにアダプタの第1の所定数のbpを使用することを含む、配列からアダプタbpを除去することを含む、第1のトリミングパスを含む。トリミングはまた、第1のトリミングパスの後、リードが所定数のbpよりも長い場合、前のトリミングパスからの所定数の追加のbpをプラス又はマイナスしたアダプタの第1の所定数のbpで1つ以上のアダプタをマッチングさせることを各々含む限定された数の第2のトリミングパスをリードに沿って任意の場所で行うことを含む。
【0013】
一部の実施形態では、限定された数のトリミングパスにより、結果として、各シングルエンドリードは最終的に、シングルエンドの特定数のbpにトリミングされ、各ペアエンドリードは最終的に、ペアエンドの特定数のbpにトリミングされる。任意で、インサートbpは、1つ以上のトリミングパスからの情報を使用して再びラベル付けされ得る。
【0014】
一部の実施形態では、スティッチングは、ペアエンドリードのR1をペアエンドリードのR2とオーバーラップさせ、オーバーラップする部分を比較して、リードが一致していない場合、より高いクオリティスコアを有するR1及びR2のうちの一方を選択することを含む。しかしながら、一部の実施形態では、クオリティスコアが等しい場合、R1及びR2のうちの一方がより高いクオリティスコアを有するまで、R1及びR2について少なくとも1つの領域スコアが漸進的に計算され得る。一部の実施形態では、計算は、R1及びR2の各々について、一致していないbp、一致していないbpの1bp左、及び1bp右のクオリティスコア値を加え、より高い総クオリティスコアを有するリードを選択することを含む。その後、選択されたリードは、R1からの番号付けを使用して26bpにトリミングされ得る。
【0015】
一部の実施形態では、当該方法は、抽出を更に含み、当該抽出は、各リードを固有分子識別子(「UMI」)及びバーコードに分離することを含む。
【0016】
一部の実施形態では、当該方法は、所与のエラー率で、予想されるバーコードのライブラリ(例えば、ハッシュテーブル)に対して各リードをマッチングさせることを含む第1のマッチングを更に含む。リードからのバーコードが短くされる場合、最後のbpは、「N」として与えられるため、残りの所定数のbpは、ライブラリ内の識別子に正確に一致する。バーコードについての正確な一致が規定される場合、リードの所定数のbpの照合は行われず、一致が見出されない場合、リードはメモリに保存される。
【0017】
一部の実施形態では、当該方法はまた、複数のリードを重複排除することを含む。
【0018】
一部の実施形態では、当該方法はまた、第1のマッチングを介して一致していない各バーコード(「NMBC」)について、第1のマッチングを介して以前に一致したバーコードのUMI間でNMBCのUMIをマッチングさせることを含む第2のマッチングを含む。UMIが見出される場合、NMBCを、見出されたUMIのバーコードと比較し、複数の不一致のbpを許容して、一致を確認し得る。
【0019】
このような実施形態では、以下の追加の特徴、機能、機能性、ステップ、及び/又は解明のうちの1つ及び/又は別のもの(一部の実施形態では、複数、大多数、実質的に全て、一部の実施形態では、全て)は、本開示の更なる実施形態を生み出し、
-第1のトリミングパスは、bp27(一部の実施形態では、所定のbp)で開始され得、
-第1のトリミングパスは、当該リード/あるリードが少なくとも36bpの長さ(一部の実施形態では、少なくとも所定の長さのbp又は所定の範囲の長さのbp)である場合にのみ行われ、
-第1のトリミングパスについて、アダプタの第1の所定数のbpは、10bp(一部の実施形態では、所定数のbp)を備え、
-所定数の追加のbpは、1~2bp(一部の実施形態では、所定数の追加のbp)を備え、
-第1のマッチング中、残りの数のbpは、11bpを備え、
-第2のマッチング中、複数の許容された不一致のbpは、1bp又は2bp(一部の実施形態では、所定数のbp)を備える。
【0020】
一部の実施形態では、上記で記載される/本明細書に開示される方法のいずれかを行うシステム及び/又はデバイスが提供される。このようなシステム/デバイスは、上記で記載される/本明細書に開示される方法の実施形態のいずれかをシステム/デバイスに行わせるように構成された(1つ以上のアプリケーションプログラムの形態であり得る)アプリケーション及び/又はコンピュータ命令をシステム/デバイス上で動作させる、サーバ、デスクトップ、ラップトップ、スマートフォン、タブレット、及び/又は同種のものであり得る少なくとも1つのコンピュータを備え得る。
【0021】
したがって、一部の実施形態では、システム/デバイスは、システム/デバイス上で動作するように、且つ上記で記載される/本明細書に開示される方法のいずれかをシステム/デバイスに行わせるように構成されたコンピュータ命令にアクセスする少なくとも1つのプロセッサを含む。
【0022】
一部の実施形態では、上記で記載される/本明細書に開示される方法のいずれかを1つ以上のプロセッサに行わせるために、1つ以上のプロセッサ上で動作する(1つ以上のアプリケーションプログラムの形態であり得る)データ及び/又はコンピュータ命令を記憶するデータ記憶デバイス又はシステムが提供される。
【0023】
以上の概念及び本明細書に開示される追加の概念の任意の組合せ及び全ての組合せは(このような概念が互いに矛盾しない前提で)、本明細書に開示される本発明の主題の一部として想定されることを理解されたい。特に、本開示の終わりに現れる特許請求の主題の全ての組合せは、本明細書に開示される本発明の主題の一部として想定される。参照により援用される任意の開示で現れる場合もある、本明細書で明示的に採用される術語には、本明細書に開示される特有の概念と最も整合した意味が与えられるべきであることも理解されたい。
【0024】
上述の実施形態は、以下の詳細な説明及び添付の図面を参照することによってより一層明らかになるであろう。
【0025】
当業者であれば、本開示の図面は、主に例示のためであり、本明細書に記載される発明の主題の範囲を限定することを意図していないことを理解するであろう。
【図面の簡単な説明】
【0026】
図1図1は、一部の実施形態に係る、データ配列決定ファイル(例えば、fastq)からの10個の配列決定リード(例えば、ペアエンドリード)から読み出された配列決定データであり、描写された配列は、配列番号3~22に対応する。
【0027】
図2A図2Aは、一部の実施形態に係る、図1からの10個の配列決定リードのペアエンドリードの第1のリードに適用されたトリミングプロセスの結果であり、描写された配列は、配列番号23~32に対応する。
【0028】
図2B図2Bは、一部の実施形態に係る、図1からの10個の配列決定リードのペアエンドリードの第2のリードに適用されたトリミングプロセスの結果であり、描写された配列は、配列番号33~42に対応する。
【0029】
図3図3は、一部の実施形態に係る、図1からの10個の配列決定リードに適用されたスティッチングプロセスの結果であり、描写された配列は、配列番号43~52に対応する。
【0030】
図4図4は、一部の実施形態に係る、図1からのリードの第1のマッチングプロセスの結果であり、描写された配列は、配列番号53~64に対応する。
【0031】
図5図5は、一部の実施形態に係る配列決定データ処理を行うための好ましいシステム及びその構成要素である。
【発明を実施するための形態】
【0032】
本開示の実施形態は、配列決定データを処理する方法、システム、及びデバイス、特に、配列決定リードに対して様々なプロセスを行う方法、システム、及びデバイスを対象とする。したがって、一部の実施形態では、配列決定データファイルに含有される複数のリードからDNA断片の同一性を決定する配列決定データ処理方法が提供される。
【0033】
本開示の実施形態の少なくとも一部の顕著な特徴の1つは、配列決定リードの既知の断片/インサートのサイズを利用していることであり、それにより、配列決定データ処理方法の少なくとも一部の実施形態の少なくともいくつかの処理ステップの速度を上げることができ、このため、先行技術よりも高速な配列決定データの処理が結果として生じる。
【0034】
最初に、複数の配列決定リードは、例えばfastqファイルであり得る1つ以上の配列決定データファイル(「SDF」)から読み取られる。fastqファイルは、生物学的配列(例えば、ヌクレオチド配列)及び対応するクオリティスコアの両方を記憶するためのテキストベースの形式を含む。したがって、配列字及び関連するクオリティスコアは各々、単一のASCII字を用いて符号化される。fastqファイルは、ハイスループット配列決定機器の出力を記憶するために通常使用される形式である。このような配列決定機器の例には、イルミナ株式会社(カリフォルニア州、サンディエゴ)のMiSeq(商標)、NovaSeq(商標)、NextSeq(商標)550、及びNexSeq(商標)2K機器が含まれる。
【0035】
複数の配列決定リードは、複数のシングルエンドリード及び複数のペアエンドリードのうちの少なくとも一方、好ましくは両方を備える。各シングルエンドリードは、(本明細書で「R1」と称される)単一のSDFを備え、各ペアエンドリードは、(本明細書で「R1」、「R2」とそれぞれ称される)2つのSDFを備える。したがって、ペアエンドリードについて、2つのSDF(R1及びR2)のうちの第1のR1は、ペアエンドリードの順方向のリードを備え、2つのSDFのうちのR2は、ペアエンドリードの逆方向のリードを備える。図1は、このような配列決定リード(例えば、10個のペアエンド配列決定リード)の例示である。
【0036】
一部の実施形態では、各SDFは、4つ(4)行の情報で構成されており、SDFのある行(例えば、第2の行)は、配列決定データを含み、SDFの別の行(例えば、第4の行)は、配列決定データについての関連するクオリティスコアで構成されている。各リードの配列決定データ/行はまた、インサート(例えば、DNA断片)の塩基対(「bp」)に関連するインサートデータと、インサートの端での関連するアダプタのbpに関連するアダプタデータと、を含む。ペアエンドについて、R1の配列行は、塩基対(「bp」)1から最後のbpまでであり得、R2の配列行は、最後のbpからbp1までであり得る。
【0037】
一部の実施形態では、当該方法は、少なくとも1つの配列決定リードにおいて、好ましくは複数の配列決定リードにおいて、少なくとも1つの処理ステップ、一部の実施形態では複数の処理ステップを行うことを更に含む。このような処理ステップは、例えば、トリミングと、スティッチングと、抽出と、第1のマッチングと、重複排除と、第2のマッチングと、を含む。
【0038】
一部の実施形態では、トリミングは、例えば、1つ以上の配列決定リードからのインサート情報からアダプタ情報を除去するために使用され得る。一部の実施形態では、このようなトリミングは、複数のアダプタトリミングパスを行うことを含む。例えば、一部の実施形態では、第1のトリミングパスは、既知のインサート長さよりも1塩基長い場合があるbpで始まって実施され得る(一部の実施形態では、第1のトリミングパスは、既知のインサート長さよりも、例えば、2つ、3つ、4つ長いか又は短い異なる塩基位置で開始され得る)。一部の実施形態では、第1のトリミングパスは、bp27で開始され得る。更に、一部の実施形態では、第1のトリミングパスは、リードが少なくとも所定数のbpの長さ、例えば、少なくとも36bpの長さである場合にのみ行われる。
【0039】
一部の実施形態では、第1のトリミングパスは、限定された複数の可能性のあるオーバーラップを考慮して配列内の一致を見出すようにアダプタの第1の所定数のbpを使用して、配列リードからアダプタbpを除去する。一部の実施形態では、第1の所定数のbpは、10bpを備える。一部の実施形態では、第1のトリミングパスの後、結果として生ずるリードが所定数のbpよりも長い場合、限定された数の第2のトリミングパスがリードに沿って任意の場所で行われ得る。各第2のトリミングパスでは、1つ以上のアダプタは、前のトリミングパスからの所定数の追加のbpをプラス又はマイナスしたアダプタの第1の所定数のbpで一致し得る。一部の実施形態では、所定数の追加のbpは、1~2bpを備える。図2A及び図2Bは、このような本開示の実施形態に係る、図1のリードのトリミング処理の結果の例示である。
【0040】
一部の実施形態では、限定された数のトリミングパスにより、結果として、各シングルエンドリードは最終的に、シングルエンドの特定数のbpにトリミングされ、各ペアエンドリードは最終的に、ペアエンドの特定数のbpにトリミングされる。任意で、インサートbpは、1つ以上のトリミングパスからの情報を使用して再びラベル付けされ得る。
【0041】
したがって、一部の実施形態では、アダプタのトリミングの後、配列決定データ処理方法はまた、配列決定リードのスティッチングを含み得る。一部の実施形態では、スティッチングは、ペアエンドリードのR1をペアエンドリードのR2とオーバーラップさせ、次いで、オーバーラップする部分を比較することを含む。リードが一致していない場合、スティッチングプロセスは、より高いクオリティスコアを有する(R1及びR2の)リードを選択することを含む。
【0042】
しかしながら、クオリティスコアが等しい場合、一部の実施形態では、スティッチングプロセスは、リード(R1及びR2)のうちの一方が他方よりも高いクオリティスコアを有するまで、R1及びR2について少なくとも1つの領域スコアを漸進的に計算することを含む。一部の実施形態では、このような計算は、R1及びR2の各々について、一致していないbp、一致していないbpの所定数のbp(例えば、1bp)左、及び右のクオリティスコア値を加え、次いで、より高い総クオリティスコアが結果として生じるリードを選択することを含む。その後、選択されたリードは、R1からの番号付けを使用して26bpにトリミングされ得る。図3は、図1のリードのスティッチングプロセスの結果の例示である。
【0043】
例えば、以下に示されるように、2つ(2)のリード、すなわちR1及びR2について、R1はそのまま使用される一方、R2は逆相補として使用される(他方のストランドであるため)。配列の上及び下の字は、各リードについての対応するクオリティスコアである。したがって、ここで、Fは、:よりも大きい(37対25)。
FFFFFFFFFFFFF:FFFFFFFFFF:F
R1 ATTTGTAACCGACTTATGGAGCGAAG(配列番号1)
R2 ATTTGTAACCGACTAATGGAGCGAAG(配列番号2)
FFFFFFFFFFFFFFFFFFFFFFFFFF
【0044】
位置15で、R1はbp Tを含み、同じ所でR2にはAが存在し、両方の塩基は同じクオリティスコア(37)を含む。どのリードを使用するかを決定するために、各リードの領域スコアは、問題のbp(すなわち、bp15)の1bp左及び当該bpの1bp右のクオリティスコア値を加えることによって計算される。
R1=:FF=25+37+37=99
R2=FFF=37+37+37=111
【0045】
この例では、計算された領域スコアが大きい(111対99)ため、R2が勝っている。このため、結果として生ずる最終的な配列は、ATTTGTAACCGACTAATGGAGCGAAG(配列番号2)である。
【0046】
隣接するbp(例えば、-1及び+1)のクオリティスコアを加えても依然、同じスコアが生じる場合、一部の実施形態では、異なる結果がリード間で得られるまで、更に遠くの他のbp(例えば、-2及び+2)のクオリティスコアが加えられる。したがって、上記で述べたように、上記の領域スコアリングプロセスは、配列決定リードを選択するように、他のそれぞれのスコアリング及び同種のものの他の「計算」に関して更に修正され得る。
【0047】
一部の実施形態では、配列決定データ処理方法は、抽出プロセスを更に含んでもよく、当該抽出プロセスは、各リードを固有分子識別子(「UMI」)及びバーコードに分離することを含む。
【0048】
一部の実施形態では、当該方法は、第1のマッチングステップを更に含み得る。第1のマッチングステップは、所与のエラー率で、予想されるバーコードのライブラリ(例えば、ハッシュテーブル及び/又は同種のもの)に対して各リードをマッチングさせることを含む。したがって、このプロセスでは、リードからのバーコードが「短くされる」場合、最後のbpは、任意の塩基であり得る「N」として与えられる。一部の実施形態では、マッチングは、1つの(1)エラー(すなわち、不一致)を伴って生ずることを許容され得る。したがって、最後の塩基が(配列が短いことにより)欠けている場合、「N」が加えられ得る。「N」は、A、C、G、又はTのうちのいずれでもないため一致していない。次いでその後、正確な一致が残りの11bpから必要とされ得る。このため、残りの所定数のbpは、ライブラリ内の識別子に正確に一致する。一部の実施形態では、バーコードについての正確な一致が規定される場合、リードの所定数のbpの照合は行われず、及び/又は一致が見出されない場合、リードはメモリに保存され得る。一部の実施形態では、第1のマッチング中、残りの数のbpは、例えば、11bpを備える。図4は、トリミング(図2A図2B)後の図1のリードについてのこのようなマッチングプロセスの例示である。
【0049】
一部の実施形態では、当該方法はまた、複数のリードを重複排除することを含む(例えば、以降、参照により援用される、Smith、T.S.ら、UMIツール:定量化の精度を改善するための固有分子識別子の配列決定エラーのモデル化、Cold Spring Harbor Laboratory Press(2017年1月18日)を参照)。
【0050】
一部の実施形態では、当該方法はまた、第2のマッチングを含む。一部の実施形態では、第2のマッチングは、第1のマッチングを介して一致していない各バーコード(一致していないバーコード「NMBC」)について、第2のマッチングが、(第1のマッチングを介して一致した)以前に一致したバーコードのUMI間でNMBCのUMIに一致させるというプロセスである。したがって、UMIが見出される場合、NMBCを、見出されたUMIのバーコードと比較し、複数の不一致のbpを許容して、一致を確認し得る。一部の実施形態では、第2のマッチング中、複数の許容された不一致のbpは、(例えば)1bp又は2bpを備え得る。この目的のために、本明細書に開示された方法及びシステムの実施形態の少なくとも一部は、米国特許出願公開第2019/0249248号に記載された実施形態と共に使用されて、そこに記載されたプローブからの増幅産物の配列を組み立て、それによって、識別子オリゴヌクレオチドを確かめて標的検体を空間的に検出し得る。
【0051】
配列決定データ処理システム及びソフトウェア
上述のプロセスの実施形態(及び/又はそのステップ)のうちの1つ及び/又は別のものは、1つ以上のコンピューティングデバイス/システム(及び/又はその構成要素)において遂行されてもよく、その一例が図5で見出され得る。示されるように、システム500は、例えば、アクセスデバイス510と、プラットフォーム550と、ネットワーク520と、を含み得る。このようなシステム、デバイス、及びプラットフォームは、1つ以上のプロセッサ511、552(例えば、マイクロプロセッサ、CPU、GPUなど)、1つ以上のコンピュータ可読RAM、1つ以上のコンピュータ可読ROM、1つ以上のコンピュータ可読記憶媒体(前述のもの全てがメモリ515、560と称され得るが、別々の構造、例えば、システム500と通信し及び/又はシステム500の構成要素と通信するリモートのデータ記憶設備であってもよい)を含み得る。他の構成要素/機能性は、デバイスドライバ、読み取り/書き込みドライブ、インターフェース(例えば、512、556)、ネットワークアダプタ又はインターフェースを含み、全てが、(例えば、ネットワークアダプタと称され得る514、558を介して)通信ネットワーク520上で相互に接続され得る。ネットワークアダプタは、ネットワーク520と通信し、通信ネットワークは、(マイクロプロセッサ、通信、及びネットワークプロセッサなどの)プロセッサ、システムメモリ、周辺デバイス、並びにシステム内の任意の他のハードウェア構成要素間でデータを渡し及び/又は情報を制御するように設計された任意のアーキテクチャを用いて実装され得る。
【0052】
配列決定データプラットフォーム550上にあり得る、1つ以上のオペレーティングシステム、及び本開示の実施形態に係る配列決定データ処理アプリケーションなどの1つ以上のアプリケーションプログラム(例えば、554)は、(通常、キャッシュメモリを含む)それぞれのRAMのうちの1つ以上を介したプロセッサのうちの1つ以上による実行のために、コンピュータ可読記憶媒体のうちの1つ以上に記憶され得る。一部の実施形態では、コンピュータ可読記憶媒体の各々は、内部ハードドライブの磁気ディスク記憶デバイスか、CD-ROMか、DVDか、メモリスティックか、磁気テープか、磁気ディスクか、光ディスクか、RAM、ROM、EPROM、フラッシュメモリなどの半導体記憶デバイスか、又はコンピュータプログラム及びデジタル情報を記憶し得る任意の他のコンピュータ可読媒体(例えば、有形記憶デバイス)であり得る。
【0053】
ユーザデバイス及び/又は配列決定データ処理システム/プラットフォームはまた、1つ以上のポータブルコンピュータ可読記憶媒体(又はクラウドベースのデータ記憶装置)からの読み取り及びそこへの書き込みを行うための読み取り/書き込み(R/W)ドライブ又はインターフェースを含み得る。視聴デバイス及び/又はユーザデバイス(例えば、510)上のアプリケーションプログラムは、ポータブルコンピュータ可読記憶媒体のうちの1つ以上に記憶され、それぞれのR/Wドライブ又はインターフェースを介して読み取られ、それぞれのコンピュータ可読記憶媒体にロードされ得る。ユーザデバイス及び/又は配列決定データ処理システム/プラットフォームはまた、伝送制御プロトコル(TCP)/インターネットプロトコル(IP)アダプタカード又は(直交周波数分割多重アクセス(OFDMA)技術を使用した4G、5G無線通信アダプタなどの)無線通信アダプタなどのネットワークアダプタ又はインターフェースを含み得る。例えば、アプリケーションプログラムは、ネットワーク(例えば、520、インターネット、ローカルエリアネットワーク若しくは他のワイドエリアネットワーク、又は無線ネットワーク)及びネットワークアダプタ又はインターフェースを介して、外部コンピュータ又は外部記憶デバイスからコンピューティングデバイスにダウンロードされ得る。プログラムは、ネットワークアダプタ又はインターフェースからコンピュータ可読記憶媒体上にロードされ得る。ネットワークは、銅線/ケーブル、光ファイバ/ケーブル、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/又はエッジサーバを含み得る。ユーザデバイス及び/又は配列決定データ処理システム/プラットフォームはまた、1つ以上の出力デバイス又はインターフェース(例えば、ディスプレイスクリーン)と、1つ以上の入力デバイス又はインターフェース(例えば、キーボード、キーパッド、マウス、又はポインティングデバイス、タッチパッド)と、を含み得る。例えば、デバイスドライバは、撮像のための出力デバイス又はインターフェース、及び(例えば、圧力又は容量感知を介した)ユーザ入力又はユーザ選択のための入力デバイス又はインターフェースなどにインターフェース接続し得る。デバイスドライバ、R/Wドライブ又はインターフェース、及びネットワークアダプタ又はインターフェースは、ハードウェアと、(コンピュータ可読記憶媒体及び/又はROM上に記憶された)ソフトウェアと、を含み得る。
【0054】
一部の実施形態では、配列決定データ処理システム/プラットフォーム(及びその手法)は、スタンドアロンネットワークサーバであり得るか、又は1つ以上のネットワークシステムに統合された機能性を表し得る。ユーザデバイス510及び/又は配列決定データ処理システム/プラットフォーム550は、ラップトップコンピュータ、デスクトップコンピュータ、専用コンピュータサーバ、又は当技術分野で既知の任意の他のコンピュータシステムであり得る。一部の実施形態では、配列決定データ処理システムは、LAN、WAN、又はその2つの組合せなどのネットワーク(例えば、520)を通じてアクセスされるときにシームレスな単一のリソースプールとして機能するために、クラスタ化されたコンピュータ及び構成要素を使用したコンピュータシステムを表す。本実施形態は、特に、データセンタ及びクラウドコンピューティングアプリケーションで所望され得る。概して、ユーザデバイス及び/又は配列決定データ処理システムは、本開示の実施形態による任意のプログラム可能な電子デバイスであり得るか、又はこのようなデバイスの任意の組合せであり得る。
【0055】
本明細書に記載されるプログラムは、特定の実施形態又は本開示の実施形態で当該プログラムが実装されるアプリケーションに基づいて識別される。しかし、本明細書における任意の特有のプログラム命名法は便宜上使用されるのみであり、このため、実施形態及び本開示の実施形態は、このような命名法によって識別及び/又は示唆される任意の特定のアプリケーションのみで使用されることに限定されるべきではない。
【0056】
本開示の実施形態は、可能性のある任意の技術的詳細の水準で統合された、デバイス、システム、方法(例えば、上記を参照)、及び/又はコンピュータ可読媒体のうちの1つ以上であり得るか、又はそれらを使用し得る。コンピュータ可読媒体は、プロセッサに本開示の1つ以上の態様を遂行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(又は媒体(複数))を含み得る。コンピュータ可読(記憶)媒体は、命令実行デバイスによって使用される命令を保持及び記憶し得る有形デバイスであり得る。コンピュータ可読媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は以上の任意の好適な組合せを含む非一時的記憶媒体であり得るが、これらに限定されない。コンピュータ可読記憶媒体のより特定の例の非網羅的なリストは、以下、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去及びプログラム可能な読み取り専用メモリ(EPROM又はフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、メモリスティック、フロッピディスク、命令が記録されたパンチカード又は溝内の隆起構造などの機械的に符号化されたデバイス、及び以上の任意の好適な組合せを含む。本明細書で使用されるコンピュータ可読記憶媒体は、本開示の実施形態による、電波若しくは他の自由に伝播する電磁波、導波路若しくは他の伝送媒体を通じて伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又はワイヤを通じて伝送される電気信号などの、一時的な信号自体であると解釈されるべきではない。
【0057】
上述のように、本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/若しくは無線ネットワークを介して外部コンピュータ若しくは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅線/ケーブル、光ファイバ/ケーブル、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/又はエッジサーバを備え得る。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
【0058】
本開示の動作を遂行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路についての構成データ、又は、Smalltalk、C++、若しくは同種のものなどのオブジェクト指向プログラミング言語、及び「C」プログラミング言語若しくは同様のプログラミング言語などの手続き型プログラミング言語を含む1つ以上のプログラミング言語の任意の組合せで書かれたソースコード若しくはオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行され得るか、ユーザのコンピュータ上で部分的に実行され得るか、スタンドアロンソフトウェアパッケージとして実行され得るか、ユーザのコンピュータ上で部分的に且つリモートコンピュータ上で部分的に実行され得るか、又はリモートコンピュータ若しくはサーバ上で完全に実行され得る。後者の展開において、リモートコンピュータは、ローカルエリアネットワーク(LAN)若しくはワイドエリアネットワーク(WAN)を含む任意の種類のネットワーク(例えば、520)を通じてユーザのコンピュータに接続され得るか、又は(例えば、インターネットサービスプロバイダを使用してインターネットを通じて)外部コンピュータへの接続が行われ得る。一部の実施形態では、例えば、プログラム可能なロジック回路、フィールドプログラム可能なゲートアレイ(FPGA)、又はプログラム可能なロジックアレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによってコンピュータ可読プログラム命令を実行して、本開示の様々な態様を行い得る。
【0059】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特殊目的コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに提供されて、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、(開示された任意の方法の実施形態について)本開示で規定される機能/行為/ステップ/プロセスを実装するための手段を作成するような機械又はシステム(例えば、上記を参照)を生じ得る。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラム可能なデータ処理装置、及び/又は他のデバイスに特有の方式で機能するように指示し得るコンピュータ可読記憶媒体に記憶されてもよく、命令が記憶されたコンピュータ可読記憶媒体は、本開示の実施形態による、本明細書で規定される機能/行為の態様を実装する命令を含む製造物品を含む。
【0060】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、又は他のデバイス上にロードされて、コンピュータ、他のプログラム可能な装置、又は他のデバイス上で一連の動作ステップを実行させ、コンピュータ実装プロセスを生じ、コンピュータ、他のプログラム可能な装置、又は他のデバイス上で実行される命令は、本明細書で規定される機能/行為を実装する。
【0061】
本明細書に開示された様々な発明の概念は、(以上のように述べた)1つ以上の方法として具現化されてもよく、その少なくとも1つの例が提供されている。当該方法の一部として行われる行為は、任意の好適なやり方で順序付けられ得る。したがって、示されたものと異なる順序で行為が行われる実施形態が構築されてもよく、例示の実施形態で連続する行為として示されていたとしても、一部の行為を同時に行うことを含んでもよい。
【0062】
本出願の任意の場所で提示される特許、特許出願、論文、ウェブページ、書籍などを含むがこれらに限定されない刊行物及び他の文書に対する任意の全ての参照の全体が参照により本明細書に援用される。
【0063】
他の場所で述べられるように、開示された発明の実施形態は、例示の目的でのみ記載されており、限定されない。他の実施形態が可能であり且つ本開示によって包含され、それは、本明細書に含有される教示から明らかである。このため、本開示の広さ及び範囲は、上記の実施形態のいずれにも限定されるべきでなく、本開示及びその均等物によってサポートされる特許請求の範囲のみにより定められるべきである。その上、主題の開示の実施形態は、事象決定のシステム、デバイス、及び方法の結合に対応する任意の全ての要素を含む、開示された任意の他の方法、システム、及びデバイスからの任意の全ての要素を更に含み得る方法、システム、及び装置/デバイスを含み得る。換言すれば、開示された一実施形態又は別の実施形態からの要素は、開示された他の実施形態からの要素と交換可能であり得る。加えて、開示された実施形態の1つ以上の特徴/要素が除去され得、依然、特許可能な主題が結果として生じ得る(このため、主題の開示の更なる実施形態が結果として生じる)。また、一部の実施形態は、従来技術の教示と比較して、(適用可能な)1つの及び/又は別の要素、構造、及び/又はステップを具体的に欠如したシステム、デバイス、及び方法に対応し、その結果、特許可能な主題を表し、従来技術と区別可能である(すなわち、このような実施形態を対象とする特許請求の範囲は、1つ以上の特徴の従来技術の教示の欠如を記した負の限定を含有し得る)。
【0064】
本明細書で定められて使用される全ての定義は、辞書の定義、参照により援用される文書における定義、及び/又は定められた用語の通常の意味に優先して管理されるように理解されるべきである。
【0065】
本明細書及び特許請求の範囲で使用される不定冠詞「a」及び「an」は、逆であるように明確に示されない限り、「少なくとも1つ」を意味すると理解されるべきである。
【0066】
「~できる(can)」及び「~し得る(may)」という用語は、本開示で交換可能に使用され、参照される要素、構成要素、構造、機能、機能性、目的、利点、動作、ステップ、プロセス、装置、システム、デバイス、結果、又は解明が、用語が特有の実施形態について使用される(又は参照される)記述で示される提案について、使用されるか、含まれるか、若しくは生じるか、又は他の場合には、表されることが可能であることを示す。
【0067】
本明細書及び特許請求の範囲で使用される「及び/又は」という表現は、そのように結合される要素の「いずれか又は両方」を意味する、すなわち、一部の場合には結合的に存在し、他の場合には選言的に存在する要素を意味すると理解されるべきである。「及び/又は」で列挙される複数の要素は、同じ様式で解釈されるべきである、すなわち、要素の「1つ以上」がそのように結合される。「及び/又は」の事項によって具体的に識別された要素以外の他の要素は、具体的に識別されたそれらの要素に関連するか関連しないかに関わらず、任意で存在し得る。このため、非限定的な例として、「A及び/又はB」に対する参照は、「備える」などのオープンエンドの言語と共に使用されるとき、一実施形態ではAのみ(任意でB以外の要素を含む)、別の実施形態ではBのみ(任意でA以外の要素を含む)、更に別の実施形態では、A及びBの両方(任意で他の要素を含む)などを指し得る。
【0068】
本明細書及び特許請求の範囲で使用されるとき、「又は」は、上記で定められるように「及び/又は」と同じ意味を有すると理解されるべきである。例えば、リスト内の項目を分離するとき、「又は」又は「及び/又は」は、包括的であると解される、すなわち、多くの要素又は要素のリストの少なくとも1つだけでなく、2つ以上、任意で、列挙されていない追加の項目も含む、と解されるべきである。「~のうちの1つのみ」若しくは「~のうちのちょうど1つ」、又は特許請求の範囲で使用される場合には「~から成る」などの、逆であるように明確に示される用語のみが、多くの要素又は要素のリストのうちのちょうど1つの要素を含むことを指す。概して、本明細書で使用される「又は」という用語は、「いずれか」、「~のうちの1つ」、「~のうちの1つのみ」、又は「~のうちのちょうど1つ」などの排他的な用語が先行するときのみ、排他的選択肢(すなわち、「一方又は他方であるが両方でない」)を示すものとして解されるべきである。特許請求の範囲で使用される場合の「本質的に~から成る」は、特許法の分野で使用される通常の意味を有するべきである。
【0069】
本明細書及び特許請求の範囲で使用されるとき、1つ以上の要素のリストに対する参照における「少なくとも1つ」という表現は、要素のリスト内の要素のうちのいずれか1つ以上から選択される少なくとも1つの要素を意味するが、要素のリスト内で具体的に列挙された各要素及び全ての要素のうちの少なくとも1つを必ずしも含むものではなく、要素のリスト内の要素の任意の組合せを排除するものではないと理解されるべきである。この定義はまた、「少なくとも1つ」という表現が指す要素のリスト内で具体的に識別された要素以外の要素が、具体的に識別されたそれらの要素に関連するか関連しないかに関わらず、任意で存在し得ることを可能にする。このため、非限定的な例として、「A及びBのうちの少なくとも1つ」(言い換えると「A又はBのうちの少なくとも1つ」、言い換えると「A及び/又はBのうちの少なくとも1つ」)は、一実施形態では、少なくとも1つの、任意で2つ以上のAを含み、Bは存在しない(任意でB以外の要素を含む)ことを指していてもよく、別の実施形態では、少なくとも1つの、任意で2つ以上のBを含み、Aは存在しない(任意でA以外の要素を含む)ことを指していてもよく、更に別の実施形態では、少なくとも1つの、任意で2つ以上のA、及び少なくとも1つの、任意で2つ以上のBを含む(任意で他の要素を含む)ことなどを指していてもよい。
【0070】
特許請求の範囲及び上記の明細書では、「備える」、「含む」、「保有する」、「有する」、「含有する」、「関与する」、「保持する」、「~で構成される」、及び同種のものなどの全ての移行句は、オープンエンドであるように、すなわち、あるものを含むがそれに限定されないことを意味するように理解されるべきである。米国特許庁特許審査手続便覧第2111.03章に記載されているように、「~から成る」及び「本質的に~から成る」という移行句のみが、それぞれ閉鎖的又は半閉鎖的移行句となるべきである。
図1-1】
図1-2】
図2A
図2B
図3
図4
図5
【配列表】
2023546034000001.app
【国際調査報告】