IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

特表2023-515111インデックス配列の人工知能ベースのベースコール
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-12
(54)【発明の名称】インデックス配列の人工知能ベースのベースコール
(51)【国際特許分類】
   G16B 30/20 20190101AFI20230405BHJP
   G16B 40/20 20190101ALI20230405BHJP
【FI】
G16B30/20
G16B40/20
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2022550207
(86)(22)【出願日】2021-02-16
(85)【翻訳文提出日】2022-08-22
(86)【国際出願番号】 US2021018258
(87)【国際公開番号】W WO2021167911
(87)【国際公開日】2021-08-26
(31)【優先権主張番号】62/979,384
(32)【優先日】2020-02-20
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/175,546
(32)【優先日】2021-02-12
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】キショール・ジャガナタン
(72)【発明者】
【氏名】アミラリ・キア
(57)【要約】
開示される技術は、インデックス配列の人工知能ベースのベースコールに関する。開示される技術は、配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスする。インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す。開示される技術は、現在のインデックス配列決定サイクルからのインデックス画像を、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて正規化する。開示される技術は、ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成する。
【特許請求の範囲】
【請求項1】
インデックス配列をベースコールするための人工知能ベースの方法であって、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、前記インデックス画像は、前記配列決定ラン中の前記インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
前記インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して前記インデックス画像の正規化されたバージョンを処理し、前記インデックス配列決定サイクルの各々についてベースコールを生成することによって、前記インデックス配列のインデックスリードを生成することと、
を含む、方法。
【請求項2】
前記正規化関数は、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイル、並びに、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルを、
前記インデックス画像の前記正規化されたバージョンにおいて、
第1の割合の正規化された強度値が前記下位パーセンタイルを下回り、
第2の割合の前記正規化された強度値が前記上位パーセンタイルを上回り、
第3の割合の前記正規化された強度値が前記下位パーセンタイルと前記上位パーセンタイルとの間となる、
ように計算する、請求項1に記載の人工知能ベースの方法。
【請求項3】
前記現在のインデックス配列決定サイクル、前記先行するインデックス配列決定サイクル、及び前記後続のインデックス配列決定サイクルからの前記インデックス画像によって示されるヌクレオチドが、全体として、
前記現在のインデックス配列決定サイクルからの前記インデックス画像のみによって示されるヌクレオチドよりも累積的に多様である、
請求項1に記載の人工知能ベースの方法。
【請求項4】
前記先行するインデックス配列決定サイクル及び前記後続のインデックス配列決定サイクルからの前記インデックス画像のうちの少なくとも1つのインデックス画像が、検出可能な信号状態の1つ以上のヌクレオチドを示す、請求項3に記載の人工知能ベースの方法。
【請求項5】
前記現在のインデックス配列決定サイクルからの前記インデックス画像によって示される前記ヌクレオチドは、4つの塩基A、C、T、及びGのうちのいくつかが全ての前記ヌクレオチドの15%、10%、又は5%未満の頻度で表される複雑性の低いパターンである、請求項3に記載の人工知能ベースの方法。
【請求項6】
前記現在のインデックス配列決定サイクル、前記先行するインデックス配列決定サイクル、及び前記後続のインデックス配列決定サイクルからの前記インデックス画像によって示される前記ヌクレオチドは、全体として、前記4つの塩基A、C、T、及びGの各々が全ての前記ヌクレオチドの少なくとも20%、25%、又は30%の頻度で表される複雑性の高いパターンを累積的に形成する、請求項5に記載の人工知能ベースの方法。
【請求項7】
前記ニューラルネットワークベースのベースコーラの訓練中及び推論中に前記正規化関数を使用して前記インデックス画像を前処理することを更に含む、請求項1に記載の人工知能ベースの方法。
【請求項8】
インデックス画像の増強されたバージョンを、前記インデックス画像の強度値にスケーリング係数を乗算し、前記乗算の結果にオフセット値を加算することによって生成する増強関数を使用して、前記インデックス画像を前処理することと、
前記ニューラルネットワークベースのベースコーラを介して前記インデックス画像の増強されたバージョンを処理し、前記インデックス配列決定サイクルの各々についてベースコールを生成することによって、前記インデックス配列のインデックスリードを生成することと、
を更に含む、請求項1に記載の人工知能ベースの方法。
【請求項9】
前記ニューラルネットワークベースのベースコーラの前記推論中ではなく、前記訓練中にのみ前記増強関数を使用して前記インデックス画像を前処理することを更に含む、請求項8に記載の人工知能ベースの方法。
【請求項10】
前記インデックス画像を、
(i)1つ以上の非現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)前記現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて前記現在のインデックス配列決定サイクルからの前記インデックス画像の前記正規化されたバージョンを生成する前記正規化関数を使用して前処理すること、
を更に含む、請求項1に記載の人工知能ベースの方法。
【請求項11】
前記非現在のインデックス配列決定サイクルは、前記配列決定の初期インデックス配列決定サイクルを含む、請求項10に記載の人工知能ベースの方法。
【請求項12】
前記非現在のインデックス配列決定サイクルは、前記配列決定の中間インデックス配列決定サイクルを含む、請求項10に記載の人工知能ベースの方法。
【請求項13】
前記非現在のインデックス配列決定サイクルは、前記配列決定の終期インデックス配列決定サイクルを含む、請求項10に記載の人工知能ベースの方法。
【請求項14】
前記非現在のインデックス配列決定サイクルは、前記初期インデックス配列決定サイクル、前記中間インデックス配列決定サイクル、及び前記終期インデックス配列決定サイクルの組み合わせを含む、請求項13に記載の人工知能ベースの方法。
【請求項15】
前記非現在のインデックス配列決定サイクルからの少なくとも1つのインデックス画像が、前記検出可能な信号状態の1つ以上のヌクレオチドを示す、請求項10に記載の人工知能ベースの方法。
【請求項16】
配列決定ランのインデックス配列決定サイクルで検体をベースコールする人工知能ベースの方法であって、
前記インデックス配列決定サイクル中に生成されたインデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
前記現在のインデックス配列決定サイクルでベースコールされている特定の検体について、
インデックス画像パッチを、前記現在のインデックス配列決定サイクル、前記先行するインデックス配列決定サイクル、及び前記後続のインデックス配列決定サイクルからの前記インデックス画像の正規化されたバージョンから、
各正規化されたインデックス画像パッチが、前記現在のインデックス配列決定サイクル中の前記特定の検体及びいくつかの隣接する検体の対応するインデックス配列におけるヌクレオチド取り込みの結果として生成された、前記特定の検体、前記隣接する検体、及びそれらの周囲の背景の強度放射を示すように抽出することと、
前記正規化されたインデックス画像パッチを、畳み込みニューラルネットワークを介して畳み込み、畳み込み表現を生成することと、
前記畳み込み表現に基づいて、前記現在のインデックス配列決定サイクルで前記特定の検体をベースコールすることと、
を含む、方法。
【請求項17】
標的配列及びインデックス配列をベースコールする人工知能ベースの方法であって、前記標的配列は複数の試料に由来し、前記インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は前記複数の試料のそれぞれの試料と一意に関連付けられており、前記標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、前記標的配列は前記配列決定ランの標的配列決定サイクル中に配列決定され、前記インデックス配列は前記配列決定ランのインデックス配列決定サイクル中に配列決定される、方法において、前記方法は、
前記標的配列決定サイクル中に前記標的配列について生成された標的画像にアクセスすることであって、前記標的画像は、前記標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
前記標的画像を、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを前記標的画像の強度値のみに基づいて生成する第1の正規化関数を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して前記標的画像の正規化されたバージョンを処理し、前記標的配列決定サイクルの各々についてベースコールを生成することによって、前記標的配列の標的リードを生成することと、
前記インデックス配列決定サイクル中に前記インデックス配列について生成されたインデックス画像にアクセスすることであって、前記インデックス画像は、前記インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
前記インデックス画像を、第2の正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、第2の正規化関数、を使用して前処理することと、
前記ニューラルネットワークベースのベースコーラを介して前記インデックス画像の正規化されたバージョンを処理し、前記インデックス配列決定サイクルの各々についてベースコールを生成することによって、前記インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、前記標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、前記複数の試料中の特定の試料に属するものとして分類することと、
を含む、方法。
【請求項18】
前記第1の正規化関数は、
前記標的画像の前記強度値の下位パーセンタイルと、
前記標的画像の前記強度値の上位パーセンタイルとを、
前記標的画像の前記正規化されたバージョンにおいて、
第1の割合の正規化された強度値が前記下位パーセンタイルを下回り、
第2の割合の前記正規化された強度値が前記上位パーセンタイルを上回り、
第3の割合の前記正規化された強度値が前記下位パーセンタイルと前記上位パーセンタイルとの間となる、
ように計算する、請求項17に記載の人工知能ベースの方法。
【請求項19】
標的配列及びインデックス配列をベースコールする人工知能ベースの方法であって、前記標的配列は複数の試料に由来し、前記インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は前記複数の試料のそれぞれの試料と一意に関連付けられており、前記標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、前記標的配列は前記配列決定ランの標的配列決定サイクル中に配列決定され、前記インデックス配列は前記配列決定ランのインデックス配列決定サイクル中に配列決定される、方法において、前記方法は、
前記標的配列決定サイクル中に前記標的配列について生成された標的画像にアクセスすることであって、前記標的画像は、前記標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、正規化関数であって、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
前記インデックス配列決定サイクル中に前記インデックス配列について生成されたインデックス画像にアクセスすることであって、前記インデックス画像は、前記インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して前記標的画像の正規化されたバージョンを処理し、前記標的配列決定サイクルの各々についてベースコールを生成することによって、前記標的配列の標的リードを生成することと、
前記ニューラルネットワークベースのベースコーラを介して前記インデックス画像の正規化されたバージョンを処理し、前記インデックス配列決定サイクルの各々についてベースコールを生成することによって、前記インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、前記標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、前記複数の試料中の特定の試料に属するものとして分類することと、
を含む、方法。
【請求項20】
前記正規化関数は、
(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、の下位パーセンタイル、並びに、
(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、の上位パーセンタイルを、
前記標的画像の前記正規化されたバージョンにおいて、
第1の割合の正規化された強度値が前記下位パーセンタイルを下回り、
第2の割合の前記正規化された強度値が前記上位パーセンタイルを上回り、
第3の割合の前記正規化された強度値が前記下位パーセンタイルと前記上位パーセンタイルとの間となる、
ように計算する、請求項19に記載の人工知能ベースの方法。
【発明の詳細な説明】
【技術分野】
【0001】
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースのシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジー論理システム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。
【0002】
優先権出願
本PCT出願は、2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES」と題する米国仮特許出願第62/979,384号(代理人整理番号ILLM 1015-1/IP-1857-PRV)及び、2021年2月12日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES」と題する米国特許出願第17/175,546号(代理人整理番号ILLM 1015-2/IP-1857-US)の優先権及び利益を主張する。優先権出願は、本明細書に完全に記載されているかのように、全ての目的のために参照により本明細書に組み込まれる。
組み込み
【0003】
以下は、本明細書に完全に記載されているかのように参照により組み込まれる。
【0004】
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANY BASE CALLING」と題する米国仮特許出願第62/979,414号(代理人整理番号ILLM 1016-1/IP-1858-PRV)、
【0005】
2020年2月20日に出願された「KNOWLEDGE DISTILLATION-BASED COMPRESSION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER」と題する米国仮特許出願第62/979,385号(代理人整理番号ILLM 1017-1/IP-1859-PRV)、
【0006】
2020年8月28日に出願された「DETECTING AND FILTERING CLUSTERS BASED ON ARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS」と題する米国仮特許出願第63/072,032号(代理人整理番号ILLM 1018-1/IP-1860-PRV)、
【0007】
2020年2月20日に出願された「MULTI-CYCLE CLUSTER BASED REAL TIME ANALYSIS SYSTEM」と題する米国特許仮出願第62/979,412号(代理人整理番号ILLM 1020-1/IP-1866-PRV)、
【0008】
2020年2月20日に出願された「DATA COMPRESSION FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国仮特許出願第62/979,411号(代理人整理番号ILLM 1029-1/IP-1964-PRV)、
【0009】
2020年2月20日に出願された「SQUEEZING LAYER FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国仮特許出願第62/979,399号(代理人整理番号ILLM 1030-1/IP-1982-PRV)、
【0010】
2020年3月20日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許出願第16/825,987号(代理人整理番号ILLM 1008-16/IP-1693-US)、
【0011】
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED GENERATION OF SEQUENCING METADATA」と題する米国仮特許出願第16/825,991号(代理人整理番号ILLM 1008-17/IP-1741-US)、
【0012】
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国特許出願第16/826,126号(代理人整理番号ILLM 1008-18/IP-1744-US)、
【0013】
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国特許出願第16/826,134号(代理人整理番号第ILLM 1008-19/IP-1747-US)、及び
【0014】
2020年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許出願第16/826,168号(代理人整理番号ILLM 1008-20/IP-1752-PRV-US)。
【背景技術】
【0015】
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0016】
次世代配列決定(NGS)技術の改善により、配列決定速度及びデータ出力が大幅に増加し、現在の配列決定プラットフォームの大量の試料スループットがもたらされた。およそ10年前、Illumina Genome Analyzer(商標)は、1回のランあたり最大1ギガバイトの配列データを生成することができた。今日、Illumina NovaSeq(商標)シリーズのシステムは、2日間で最大2テラバイトのデータを生成することができ、これは2000倍を超える能力の増加を表す。
【発明の概要】
【課題を解決するための手段】
【0017】
この能力の増加を利用する鍵は多重化であり、多重化は、ライブラリ調製中に各DNA断片に固有のインデックス配列(「バーコード」)を付加することによって、単一の配列決定ラン中に複数のライブラリのプーリングと配列決定とを同時に行うことを可能にする。配列決定リードは、逆多重化中にそれぞれの試料にソートされ、適切な位置合わせを可能にする。
【0018】
インデックス配列をベースコールするために人工知能及びニューラルネットワークを使用する機会が生じる。より高いベースコールスループット及びより高いベースコール精度が結果として生じ得る。
【0019】
特許又は出願ファイルは、カラーで創作された少なくとも1つの図面を含む。カラー図面(単数又は複数)を有するこの特許又は特許出願公開のコピーは、必要な料金の要求及び支払いの際に、庁によって提供される。カラー図面はまた、補足コンテンツタブを介してPAIR(patent application information retrieval:特許出願情報検索)で利用可能であってもよい。
【0020】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様が、以下の図面を参照して説明される。
【図面の簡単な説明】
【0021】
図1】インデックス付きライブラリからのポリヌクレオチドの配列決定の一実施態様を示す図である。
図2】標的リードを生成するために標的配列を配列決定し、インデックスリードを生成するためにインデックス配列を配列決定する一実施態様を示す図である。
図3】インデックス画像の正規化の一実施態様を示す図である。
図4】正規化されたインデックス画像をベースコールのためにニューラルネットワークベースのベースコーラを介して処理する一実施態様を示す図である。
図5】インデックス画像の正規化を非現在のインデックス配列決定サイクルに拡張する一実施態様を示す図である。
図6】検出可能な信号状態の1つ以上のヌクレオチドを示す少なくとも1つのインデックス画像を使用したインデックス画像の正規化の一実施態様を示す図である。
図7】標的配列及びインデックス配列のベースコールの一実施態様を示す図である。
図8】増強を使用する前処理の一実施態様を示す図である。
図9】第1の標的リード(リード1)の2つの標的配列決定サイクル(サイクル1及び151)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図10】第1の標的リード(リード1)の2つの標的配列決定サイクル(サイクル1及び151)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図11】第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図12】第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図13】第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図14】第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図15】第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図16】第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図17】第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図18】第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図19】第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図20】第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図21】第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図22】第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図23】第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図24】第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図25】第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図26】第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図27】第2の標的リード(リード2)の2つの標的配列決定サイクル(サイクル168及び169)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図28】第2の標的リード(リード2)の2つの標的配列決定サイクル(サイクル168及び169)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す図である。
図29】4つの試料を多重化するために4つのインデックス配列を使用する配列決定ランにおいて、インデックス画像が正規化されていない場合、ニューラルネットワークベースのベースコーラのインデックスベースコール性能が低下することを示す図である。
図30】2つの試料を多重化するために2つのインデックス配列を使用する配列決定ランにおいて、インデックス画像が正規化されていない場合、ニューラルネットワークベースのベースコーラのインデックスベースコール性能が低下することを示す図である。
図31】単一の試料を配列決定するために単一のインデックス配列を使用する配列決定ランにおいて、インデックス画像が正規化されていない場合、ニューラルネットワークベースのベースコーラのインデックスベースコール性能が低下することを示す図である。
図32】開示される技術を実施するために使用され得るコンピュータシステムである。
図33】標的配列及びインデックス配列のベースコールの別の実施態様を示す図である。
図34】配列決定ランのインデックス配列決定サイクルで検体をベースコールする人工知能ベースの方法のフローチャートの一実施態様である。
図35】標的配列及びインデックス配列をベースコールする人工知能ベースの方法のフローチャートの一実施態様である。
【発明を実施するための形態】
【0022】
以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
【0023】
多重化
図1は、インデックス付きライブラリからのポリヌクレオチドの配列決定の一実施態様を示す。異なるライブラリからのポリヌクレオチドが配列決定のためにプール又は多重化される場合、各ライブラリからのポリヌクレオチドは、ライブラリ特異的インデックス配列を含むように修飾される。配列決定中、インデックス配列は、ライブラリからの標的ポリヌクレオチド配列と共に配列決定される。インデックス配列は、標的配列が由来するライブラリを同定することができるように、標的ポリヌクレオチド配列と関連付けられている。
【0024】
多重化、インデックス配列、及び逆多重化に関する更なる詳細は、Illumina、「Indexed Sequencing Overview Guide」、文書番号15057455、v.5、2019年3月、並びにInluminaの米国特許出願公開第2018/0305751号明細書、第2018/0334712号明細書、第2016/0110498号明細書、第2018/0334711号明細書、及び国際公開第2019/090251号パンフレットに見出すことができ、それらの各々は、参照により本明細書に組み込まれる。
【0025】
パネルAは、インデックス付きライブラリ102を示す。ここで、一意のインデックス配列(「インデックス」)が、ライブラリ調製中に2つの異なるライブラリに付加される。第1のインデックス配列(インデックス1)は、「CATTCG」のバーコードを有する。第2のインデックス配列(インデックス2)は、「AACTGA」のバーコードを有する。
【0026】
パネルBは、プーリング104を示す。ここで、インデックス付きライブラリ102は一緒にプールされ、同じフローセルレーンにロードされる。
【0027】
パネルCは、配列決定106及び配列決定出力116を示す。ここで、インデックス付きライブラリ102は、機器の単一のランの間に一緒に配列決定される。次いで、全ての配列が出力ファイル116にエクスポートされる。出力ファイル116は、対応するインデックスリード(青色及びマゼンタ)に結合された配列リード(緑色)を含む。
【0028】
パネルDは、逆多重化108を示す。ここで、逆多重化アルゴリズムは、配列リードをそれらのインデックスに従って異なるファイルにソートする。
【0029】
パネルEは、位置合わせ110を示す。ここで、逆多重化された配列リードの各セットは、適切な参照配列に位置合わせされる。
【0030】
標的配列及びインデックス配列
図2は、標的配列222を配列決定して標的リード202(「GTCCGATA」)を生成し、インデックス配列232を配列決定してインデックスリード204(「AACTGA」)を生成する一実施態様を示す。インデックス配列232は、テンプレート調製ステップ中に標的配列222に結合されたヌクレオチドの合成配列であり得る。標的配列222は、天然に存在するDNA、RNA、又はいくつかの他の生物学的分子であり得る。インデックス配列232の長さは、2~20個のヌクレオチドの範囲であり得る。例えば、インデックス配列232は、1~10ヌクレオチド長又は4~6ヌクレオチド長であり得る。4ヌクレオチドインデックス配列は、同じアレイ上で256個の試料を多重化することを可能にする。6ヌクレオチドインデックス配列は、同じアレイ上で4096個の試料を処理することを可能にする。
【0031】
配列決定106中、標的プライマー212は標的配列222を横断して標的リード202(「GTCCGATA」)を生成し、インデックスプライマー224はインデックス配列232を横断してインデックスリード204(「AACTGA」)を生成する。いくつかの実施態様では、配列決定106は、Illuminaの単一インデックス付き配列決定である。他の実施態様では、配列決定106は、Illuminaの二重インデックス付き配列決定である。
【0032】
ベースコールは、標的配列222及びインデックス配列232のヌクレオチド組成物を決定するプロセス、すなわち、標的リード202(「GTCCGATA」)及びインデックスリード204(「AACTGA」)を生成するプロセスである。ベースコールは、画像データの分析、すなわち、IlluminaのiSeq、HiSeqX、HiSeq 3000、HiSeq 4000、HiSeq 2500、NovaSeq 6000、NextSeq、NextSeqDx、MiSeq、及びMiSeqDxなどの配列決定機器による配列決定106中に生成された配列決定画像を分析することを含む。以下の説明は、一実施態様に従って、配列決定画像がどのように生成され、それらが何を描写するのかを概説する。
【0033】
ベースコールは、配列決定機器の生信号、すなわち、配列決定画像から抽出された強度データをヌクレオチド配列にデコードする。一実施態様では、Illuminaプラットフォームは、ベースコールのための環状可逆終端(Cyclic Reversible Termination、CRT)化学を採用する。このプロセスは、新たに添加された各ヌクレオチドの放出信号を追跡しながら、蛍光標識されたヌクレオチドを有するテンプレート鎖に相補的な新生鎖を伸長させることに依存する。蛍光標識されたヌクレオチドは、ヌクレオチド型のフルオロフォア信号をアンカーする3’除去可能ブロックを有する。
【0034】
配列決定106は、(a)蛍光標識ヌクレオチドを添加することによって新生鎖(例えば、標的配列222、インデックス配列232)を伸長させることと、(b)配列決定機器の光学システムの1つ以上のレーザを使用してフルオロフォアを励起させ、光学システムの異なるフィルタを通した撮像によって配列決定画像を生成することと、(c)次の配列決定サイクルに備えてフルオロフォアを切断し、3’ブロックを除去することと、の3つのステップを各々含む反復サイクルで行われる。取り込み及び撮像サイクルは、指定された数の配列決定サイクルまで繰り返され、リード長を定義する。このアプローチを使用して、各サイクルはテンプレート鎖に沿って新しい位置を照合する。
【0035】
Illuminaプラットフォームの膨大な能力は、数百万又は更には数十億もの検体(例えば、クラスター)のCRT反応を同時に実施及び感知する能力に起因する。クラスターは、テンプレート鎖の約1000個の同一のコピーを含むが、クラスターのサイズ及び形状は様々である。クラスターは、配列決定ランの前に、入力ライブラリのブリッジ増幅によってテンプレート鎖から伸長される。増幅及びクラスター伸長の目的は、撮像デバイスが一本鎖のフルオロフォア信号を確実に感知することができないため、放出される信号の強度を増加させることである。しかしながら、クラスター内の鎖の物理的距離は小さいため、撮像デバイスは鎖のクラスターを単一のスポットとして知覚する。
【0036】
配列決定106は、入力鎖を保持する小さなガラススライドであるフローセルで生じる。フローセルは、顕微鏡撮像、励起レーザ、及び蛍光フィルタを含む光学システムに接続される。フローセルは、レーンと呼ばれる複数のチャンバを含む。レーンは互いに物理的に分離されており、試料の交差汚染なしに区別可能な異なるタグ付き配列決定ライブラリを含むことができる。配列決定機器の撮像デバイス(例えば、電荷結合素子(CCD)又は相補型金属酸化膜半導体(CMOS)センサなどの固体イメージャ)は、タイルと呼ばれる一連の非重複領域のレーンに沿った複数の位置でスナップショットを撮像する。例えば、IlluminaのGenome Analyzer IIにはレーン当たり100個のタイル、IlluminaのHiSeq2000にはレーン当たり68個のタイルが存在する。タイルは数十万~数百万個のクラスターを保持する。
【0037】
配列決定106の出力は配列決定画像であり、各々がクラスター及びその周囲の背景の強度放射を示す。標的配列222を配列決定する配列決定106の配列決定サイクルは、「標的配列決定サイクル」と呼ばれ、インデックス配列232を配列決定する配列決定106の配列決定サイクルは、「インデックス配列決定サイクル」と呼ばれる。標的配列決定サイクル中に生成された配列決定画像は「標的画像」と呼ばれ、インデックス配列決定サイクル中に生成された配列決定画像は「インデックス画像」と呼ばれる。
【0038】
標的画像は、配列決定106中の標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す。インデックス画像は、配列決定106中のインデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す。強度放射は、関連する検体及びそれらの周囲の背景からのものである。
【0039】
(ニューラルネットワークベースのベースコール)
ここで説明は、ニューラルネットワーク、すなわちニューラルネットワークベースのベースコーラ430が、配列決定画像をベースコール432にマッピングするように訓練される、ニューラルネットワークベースのベースコールに移る。
【0040】
説明は、以下のように構成される。まず、一実施態様に従って、ニューラルネットワークベースのベースコーラ430への入力を説明する。次いで、ニューラルネットワークベースのベースコーラ430の構造及び形態の例を示す。最後に、一実施態様による、ニューラルネットワークベースのベースコーラ430の出力が説明される。
【0041】
ニューラルネットワークベースのベースコーラ430に関する更なる詳細は、参照により本明細書に組み込まれる、2019年3月21日出願の「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国仮特許出願第62/821,766号(代理人整理番号ILLM 1008-9/IP-1752-PRV)に見出すことができる。
【0042】
一実施態様では、画像パッチが標的画像及びインデックス画像から抽出される。抽出された画像パッチは、ベースコールのための「入力画像データ」として、ニューラルネットワークベースのベースコーラ430に提供される。画像パッチは、寸法w×hを有し、w(幅)及びh(高さ)は、1から10,000の範囲の任意の数(例えば、3×3、5×5、7×7、10×10、15×15、25×25)である。いくつかの実施態様では、wとhとは同じである。他の実施態様では、wとhとは異なる。
【0043】
配列決定106は、対応するm個の画像チャネルについて、配列決定サイクルごとにm個の画像を生成する。一実施態様では、各画像チャネルは、複数のフィルタ波長帯域のうちの1つに対応する。別の実施態様では、各画像チャネルは、配列決定サイクルにおける複数の撮像事象のうちの1つに対応する。更に別の実施態様では、各画像チャネルは、特定のレーザによる照射と特定の光学フィルタを通した撮像との組み合わせに対応する。
【0044】
特定の配列決定サイクルのための入力画像データを準備するために、m個の画像の各々から画像パッチが抽出される。4-、2-、及び1-チャネル化学などの異なる実施態様では、mは、4又は2である。他の実施態様では、mは、1、3、又は4よりも大きい。入力画像データは、いくつかの実施態様では、光学ピクセルドメイン内にあり、他の実施態様では、アップサンプリングされたサブピクセルドメイン内にある。
【0045】
例えば、配列決定106が2つの異なる画像チャネル、すなわち赤色チャネル及び緑色チャネルを使用する場合を考える。この場合、各配列決定サイクルにおいて、配列決定106は赤色画像及び緑色画像を生成する。このようにして、一連のk回の配列決定サイクルについて、k対の赤色画像及び緑色画像を有する配列が出力として生成される。
【0046】
入力画像データは、配列決定ランの一連のk回の配列決定サイクルについて生成されたサイクルごとの画像パッチの配列を含む。サイクルごとの画像パッチは、1つ以上の画像チャネル(例えば、赤色チャネル及び緑色チャネル)の関連する検体及びそれらの周囲の背景についての強度データを含む。一実施態様では、単一の標的検体(例えば、クラスター)がベースコールされる場合、サイクルごとの画像パッチは、標的関連検体の強度データを含む中心ピクセルを中心とし、サイクルごとの画像パッチの中心以外のピクセルは、標的関連検体に隣接する関連検体の強度データを含む。
【0047】
入力画像データは、複数の配列決定サイクル(例えば、現在の配列決定サイクル、1つ以上の先行する配列決定サイクル、及び1つ以上の連続する配列決定サイクル)のデータを含む。一実施態様では、入力画像データは、ベースコールされる現在の(時点t)配列決定サイクルのデータが、(i)左隣接/コンテキスト/以前の/先行する/前の(時点t-1)配列決定サイクルのデータ、及び(ii)右隣接/コンテキスト/次の/連続する/後続の(時点t+1)配列決定サイクルのデータを伴うように、3回の配列決定サイクルのデータを含む。他の実施態様では、入力画像データは、単一の配列決定サイクルのデータを含む。更に他の実施態様では、入力画像データは、58、75、92、130、168、175、209、225、230、275、318、325、330、525、又は625配列決定サイクルのデータを含む。
【0048】
一実施態様では、ニューラルネットワークベースのベースコーラ430は、多層パーセプトロン(Multilayer Perceptron、MLP)である。別の実施態様では、ニューラルネットワークベースのベースコーラ430は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラ430は、完全に接続されたニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースのベースコーラ430は、完全畳み込みニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラ430は、セマンティックセグメンテーションニューラルネットワークである。
【0049】
一実施態様では、ニューラルネットワークベースのベースコーラ430は、複数の畳み込み層を有する畳み込みニューラルネットワーク(CNN)である。別の実施態様では、それは、長い短期メモリネットワーク(LSTM)、双方向LSTM(Bi-LSTM)、又はゲートされた反復単位(GRU)などの反復ニューラルネットワーク(RNN)である。更に別の実施態様では、ニューラルネットワークベースのベースコーラは、CNN及びRNNの両方を含む。
【0050】
更に他の実施態様では、ニューラルネットワークベースのベースコーラ430は、1D畳み込み、2D畳み込み、3D畳み込み、4D畳み込み、5D畳み込み、拡張又は膨張畳み込み、転置畳み込み、深さ毎に分離可能な畳み込み、点毎の畳み込み、1x1畳み込み、グループ畳み込み、平坦化(flattened)畳み込み、空間及びクロスチャネル(spatial and cross-channel)畳み込み、シャッフルグループ化(shuffled grouped)畳み込み、空間的に分離可能な畳み込み、並びに逆畳み込みを使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ又はそれ以上の損失関数を使用することができる。ニューラルネットワークベースのベースコーラは、TFRecords、圧縮符号化(例えば、PNG)、シャーディング、マップ変換に対する並列コール、バッチング、プリフェッチング、モデル並列性、データ並列性、及び同期/非同期SGDなどの、任意の並列性、効率性、及び圧縮方式を使用することができる。ニューラルネットワークベースのベースコーラは、アップサンプリング層、ダウンサンプリング層、回帰接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残差ブロック、残差接続、ハイウェイ接続、スキップ接続、覗き穴結合、活性化関数(例えば、正規化線形ユニット(ReLU)、Leaky ReLU、指数関数的線形ユニット(ELU)、シグモイド及び双曲線正接関数(tanh)などの非線形変換関数)、バッチ正規化層、正規化層、ドロップアウト、プーリング層(例えば、最大又は平均プーリング)、グローバル平均プーリング層、及び注意機構を含むことができる。
【0051】
一実施態様では、ニューラルネットワークベースのベースコーラ430は、特定の配列決定サイクルで単一の標的検体に対するベースコールを出力する。別の実施態様では、ニューラルネットワークベースのベースコーラは、特定の配列決定サイクルで複数の標的検体の各標的検体に対するベースコールを出力する。更に別の実施態様では、ニューラルネットワークベースのベースコーラは、複数の配列決定サイクルの各配列決定サイクルで複数の標的検体の各標的検体に対するベースコールを出力することによって、各標的検体に対するベースコール配列を生成する。
【0052】
前処理
一実施態様では、標的画像及びインデックス画像からの画像データは、ニューラルネットワークベースのベースコーラ430への入力として直接供給されない。代わりに、標的画像及びインデックス画像は、最初に前処理される。しかしながら、インデックス画像は、標的画像とは異なる方法で前処理される。
【0053】
本明細書に記載のベースコール論理は、インデックス画像が、4つの塩基A、C、T、及びGのうちのいくつかが全てのヌクレオチドの15%、10%、又は5%未満の頻度で表される複雑性の低いパターンを有するヌクレオチドを示すという観察結果を説明する。これは、任意の所与のインデックス配列決定サイクルについて、1つのインデックス画像が、(1)同じ試料に由来し、同じインデックス配列を共有する複数の検体の強度放射、及び(2)異なる試料に属し、異なるインデックス配列を有する検体の強度放射を示すためである。
【0054】
第1のタイプの検体は、インデックス配列決定サイクルごとに同じインデックス塩基を有する。結果として、インデックス画像は、複数の検体について同じヌクレオチドを示す。これにより、インデックス画像のヌクレオチド多様性が低下する。
【0055】
インデックス画像のヌクレオチド多様性は、第2のタイプの検体が、特定のインデックス配列決定サイクルに対して同じインデックス塩基を有するものである場合に更に低くなる。これは、2つの理由で起こる。第1に、インデックス配列は、2~20個のインデックス塩基を有する短い配列であり、したがって、異なるインデックス配列間に有意なミスマッチを生じ得る位置を十分に有さない。第2に、多くの場合、同時配列決定のために最大20個の試料がプールされる。結果として、1つのインデックス画像によって描写され得る異なるインデックス配列の数は、実質的ではない。これらの要因は、同じ位置に一致するインデックス塩基を有する異なるインデックス配列をもたらし(塩基衝突)、これにより、異なるインデックス配列を有する検体が、特定のインデックス配列決定サイクルに対して同じインデックス塩基を有するようになる。
【0056】
インデックス画像におけるヌクレオチド多様性が低いことにより、信号多様性(コントラスト)を欠く強度パターンが作り出される。一方、標的画像は、4つの塩基A、C、T、及びGの各々が全てのヌクレオチドの少なくとも20%、25%、又は30%の頻度で表される、複雑性の高いパターンを有するヌクレオチドを示す。これは、標的配列がしばしば(例えば、150塩基など)長く、また元の試料にかかわらず各検体に固有であるためである。したがって、インデックス画像とは異なり、標的画像は適切な信号多様性を有する。
【0057】
ニューラルネットワークベースのベースコーラ430の畳み込みカーネル及びフィルタは、主に標的画像上で訓練される。このため、推論中に、訓練されたニューラルネットワークベースのベースコーラ430に、前処理を受けていないインデックス画像(生のインデックス画像)が提示されると、その畳み込みカーネル及びフィルタがコントラストに基づいて強度パターンを検出するように訓練されるため、インデックスリードのベースコール精度が低下する。
【0058】
大量の生のインデックス画像でニューラルネットワークベースのベースコーラ430を訓練して信号多様性を導入することによって前処理をバイパスすることは、非常に多くのインデックス配列のみが公開され、公に入手可能とされるため、実行可能ではない。また、ユーザはしばしば、カスタムインデックス配列を設計し、それらを公開されたインデックス配列の代わりに使用する。そのため、ニューラルネットワークベースのベースコーラ430は、生のインデックス画像のみで訓練されると、推論中に十分に一般化せず、オーバーフィッティングする傾向がある。
【0059】
1つの解決策は、正規化を使用してインデックス画像を前処理することである。現在のインデックス配列決定サイクルからのインデックス画像は、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて正規化される。
【0060】
強度値は、ヌクレオチドの取り込みに起因して生成された化学発光信号を測定する。強度値は「画像」に符号化され、「特定の信号」を含む「光信号」を表す。本明細書で使用するとき、用語「画像」は、物体の全て又は一部の表現を意味することを意図する。表現は、光学的に検出された再現であり得る。例えば、蛍光、発光、散乱、又は吸収信号から画像を得ることができる。画像内に存在する物体の部分は、物体の表面又は他のxy面であり得る。画像は二次元表現であるが、場合によっては、画像内の情報は、3つ以上の次元から導出することができる。画像は、光学的に検出された信号を含む必要はない。光以外の信号が代わりに存在し得る(電圧、pH、又はイオンデータなど)。画像は、本明細書の他の箇所に記載されるもののうちの1つ以上などの、コンピュータ可読フォーマット又は媒体に提供することができる。本明細書で使用するとき、用語「光信号」は、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。光信号は、紫外線(Ultraviolet、UV)範囲(約200~390nm)、可視(Visible、VIS)範囲(約391~770nm)、赤外線(Infrared、IR)範囲(約0.771~25マイクロメートル)、又は電磁スペクトルの他の範囲で検出することができる。これらの範囲のうちの1つ以上の全て又は一部を除外する方法で、光信号を検出することができる。本明細書で使用するとき、用語「特定の信号」は、背景エネルギー又は情報などの他のエネルギー又は情報にわたって選択的に観察される、検出されたエネルギー又は符号化情報を意味することを意図する。例えば、特定の信号は、特定の強度、波長、又は色で検出された光信号;特定の周波数、電力、又は電界強度で検出された電気信号;又は分光法及び分析検出に関連する当該技術分野で公知の他の信号であり得る。一実施態様では、強度値は、2つの異なる色/強度チャネル配列決定画像から抽出される。4つの異なるヌクレオチドタイプ/塩基A、C、T、及びGの同一性は、2つのカラー画像、すなわち、第1及び第2の強度チャネルにおける強度値の組み合わせとして符号化される。例えば、核酸は、第1の強度チャネルで検出される第1のヌクレオチドタイプ(例えば、塩基T)、第2の強度チャネルで検出される第2のヌクレオチドタイプ(例えば、塩基C)、第1及び第2の強度チャネルの両方で検出される第3のヌクレオチドタイプ(例えば、塩基A)、並びにいずれの強度チャネルでも検出されないか、又は最小限しか検出されない、標識を欠く第4のヌクレオチドタイプ(例えば、塩基G)を提供することによって配列決定され得る。いくつかの実施態様では、4つの強度分布(例えば、ガウス分布)が、第1及び第2の強度チャネルでの強度値に反復的に適合される。4つの強度分布は、4つの塩基A、C、T、及びGに対応する。第1の強度チャネルでの強度値は、第2の強度チャネルでの強度値に対して(例えば、散布図として)プロットされ、強度値は4つの強度分布に分離される。
【0061】
インデックス配列決定サイクルにわたる正規化はまた、インデックス配列決定サイクルの画像データ内の画像チャネルにわたる正規化を含む。例えば、3つのインデックス配列決定サイクル、すなわち、第1のインデックス配列決定サイクル、第2のインデックス配列決定サイクル、及び第3のインデックス配列決定サイクルがある場合を考える。また、第1、第2、及び第3のインデックス配列決定サイクルの各々は、第1の画像チャネル(例えば、赤色チャネル)の第1のインデックス画像(例えば、赤色インデックス画像)及び第2の画像チャネル(例えば、緑色チャネル)の第2のインデックス画像(例えば、緑色インデックス画像)の2つのインデックス画像を有する場合を考える。第2のインデックス配列決定サイクルからの赤色インデックス画像は、(i)第1のインデックス配列決定サイクルからの赤色画像及び緑色画像の強度値、(ii)第3のインデックス配列決定サイクルからの赤色画像及び緑色画像の強度値、及び(iii)第2のインデックス配列決定サイクルからの赤色画像及び緑色画像の強度値、に基づいて正規化される。第2のインデックス配列決定サイクルからの緑色インデックス画像は、(i)第1のインデックス配列決定サイクルからの赤色画像及び緑色画像の強度値、(ii)第3のインデックス配列決定サイクルからの赤色画像及び緑色画像の強度値、及び(iii)第2のインデックス配列決定サイクルからの赤色画像及び緑色画像の強度値、に基づいて正規化される。
【0062】
正規化は、隣接インデックス配列決定サイクルからのインデックス画像を含むが、これは、現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、及び後続のインデックス配列決定サイクルからのインデックス画像によって示されるヌクレオチドが、全体として、現在のインデックス配列決定サイクルからのインデックス画像のみによって示されるヌクレオチドよりも累積的に多様であるためである。隣接インデックス配列決定サイクルからインデックス画像への正規化の拡張はまた、検出可能な信号状態の1つ以上のヌクレオチドを示す先行するインデックス配列決定サイクル及び/又は後続のインデックス配列決定サイクルからの少なくとも1つのインデックス画像を含む。更なる詳細を以下に記載する。
【0063】
インデックス画像の正規化
図3は、インデックス画像の正規化344の一実施態様を示す。
【0064】
パーセンタイル計算部302が、(i)先行する(時点t-1)インデックス配列決定サイクルからのインデックス画像322、332の強度値、(ii)後続の(時点t+1)インデックス配列決定サイクルからのインデックス画像326、336の強度値、及び(iii)現在の(時点t)インデックス配列決定サイクルからのインデックス画像324、334の強度値、の下位パーセンタイルを計算する(312)。
【0065】
パーセンタイル計算部302は、画像のパーセンタイル強度値を計算するためのパーセンタイル計算論理で構成されている。パーセンタイル計算部302は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェアモジュールとソフトウェアモジュールとの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。
【0066】
上述のように、各インデックス配列決定サイクルは、2つ、3つ、4つ、又はそれ以上のインデックス画像を有することができる。したがって、先行する(時点t-1)インデックス配列決定サイクル、後続の(時点t+1)インデックス配列決定サイクル、及び現在の(時点t)インデックス配列決定サイクルの各々からのそれぞれのインデックス画像セット内のインデックス画像の強度値は、現在の(時点t)インデックス配列決定サイクルからのインデックス画像セット内のインデックス画像の強度値を正規化するために使用される。
【0067】
図示の実施態様では、各インデックス配列決定サイクルは、一方は第1の画像チャネル(例えば、赤色チャネル)、他方は第2の画像チャネル(例えば、緑色チャネル)の2つのインデックス画像を有する。
【0068】
好ましい実施態様では、第1の画像チャネル(例えば、赤色チャネル)のインデックス画像の正規化は、第1の画像チャネルのインデックス画像及び、他の画像チャネル(例えば、緑色チャネル)の1つ以上のインデックス画像も使用する。
【0069】
他の実施態様では、特定の画像チャネルのインデックス画像の正規化は、その特定の画像チャネルのインデックス画像のみを使用し、異なる画像チャネルのインデックス画像を使用しない。例えば、そのような実施態様では、第1のチャネル364の現在の正規化されたインデックス画像は、第1のチャネル322の先行するインデックス画像の強度値及び第1のチャネル326の後続インデックス画像の強度値のみから生成される。同様に、第2のチャネル374の現在の正規化されたインデックス画像は、第2のチャネル332の先行するインデックス画像の強度値及び第2のチャネル336の後続のインデックス画像の強度値のみから生成される。
【0070】
パーセンタイル計算部302はまた、(i)先行する(時点t-1)インデックス配列決定サイクルからのインデックス画像322、332の強度値、(ii)後続の(時点t+1)インデックス配列決定サイクルからのインデックス画像326、336の強度値、及び(iii)現在の(時点t)インデックス配列決定サイクルからのインデックス画像324、334の強度値、の上位パーセンタイルを計算する(312)。
【0071】
次に、画像正規化部354が、下位パーセンタイル及び上位パーセンタイルに基づいて、第1の割合の正規化された強度値が下位パーセンタイルを下回り、第2の割合の正規化された強度値が上位パーセンタイルを上回り、第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となるように、インデックス画像324、334の正規化されたバージョン364、374を生成する。
【0072】
一例では、下位パーセンタイルは5パーセンタイルであってもよく、上位パーセンタイルは95パーセンタイルであってもよい。5パーセンタイルの正規化された強度値はゼロであってもよく、95パーセンタイルの正規化された強度値は1であってもよい。したがって、インデックス画像324、334の正規化されたバージョン364、374では、(i)正規化された強度値の5パーセントがゼロ未満であり、(ii)正規化された強度値の別の5パーセントが1より大きく、(iii)正規化された強度値の残りの90パーセントがゼロと1との間である。強度値は、ピクセル強度値、サブピクセル強度値、又はスーパーピクセル強度値とすることができる。
【0073】
正規化関数は、次のように数学的に表すことができる:
【数1】
【0074】
したがって、一例では、強度値が95パーセンタイルの強度値である場合、正規化された強度値は1であり、強度値が5パーセンタイルの場合、正規化された強度値はゼロである。
【0075】
他の実施態様では、下位パーセンタイルは10パーセンタイルであってもよく、上位パーセンタイルは90パーセンタイルであってもよい。更に他の実施態様では、下位パーセンタイルは、1と100との間の任意の数であってもよく、上位パーセンタイルは、100-下位パーセンタイルであってもよい。下位パーセンタイル及び上位パーセンタイルに割り当てられる正規化された強度値も、-1~1、0.5~1、1~10、1~99など、異なっていてもよい。
【0076】
図4は、正規化されたインデックス画像をベースコールのためにニューラルネットワークベースのベースコーラ430を介して処理する一実施態様を示す。
【0077】
一実施態様では、現在の(時点t)インデックス配列決定サイクルからの正規化インデックス画像404、414は、先行する(時点t-1)インデックス配列決定サイクルからの正規化インデックス画像402、412及び後続の(時点t+1)インデックス配列決定サイクルからの正規化インデックス画像406、416を伴う。これらのインデックス画像は、上述のように、対応する隣接インデックス配列決定サイクルにおけるインデックス画像の強度値及びそれら自体のそれぞれの強度値に基づいて正規化される。
【0078】
一実施態様によれば、ニューラルネットワークベースのベースコーラ430は、その畳み込み層を介して正規化されたインデックス画像402、412、404、414、406、416を処理し、代替表現を生成する。次いで、代替表現は、現在の(時点t)インデックス配列決定サイクルのみ、又はインデックス配列決定サイクルの各々、すなわち、現在の(時点t)インデックス配列決定サイクル、先行する(時点t-1)インデックス配列決定サイクル、及び後続の(時点t+1)インデックス配列決定サイクルについてベースコールを生成するために、出力層(例えば、ソフトマックス層)によって使用される。生成されたベースコールはインデックスリードを形成する。
【0079】
一実施態様では、パッチ抽出プロセス424が、正規化されたインデックス画像402、412、404、414、406、416からパッチを抽出し、上述のように入力画像データ426を生成する。次いで、入力画像データ426内の抽出された画像パッチは、入力としてニューラルネットワークベースのベースコーラ430に提供される。
【0080】
一実施態様では、インデックス画像は、ニューラルネットワークベースのベースコーラ430の訓練中及び推論中に正規化される。
【0081】
ニューラルネットワークベースのベースコーラ430がベースコール及びパッチ抽出プロセス424を実行する方法に関する更なる詳細は、参照により本明細書に組み込まれる、2019年3月21日出願の「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国仮特許出願第62/821,766号(代理人整理番号ILLM 1008-9/IP-1752-PRV)に見出すことができる。
【0082】
図5は、インデックス画像の正規化を非現在のインデックス配列決定サイクルに拡張する一実施態様を示す。
【0083】
他の実施態様では、現在のインデックス配列決定サイクルからのインデックス画像は、(i)1つ以上の非現在のインデックス配列決定サイクルからのインデックス画像の強度値、及び(ii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて正規化することができる。非現在のインデックス配列決定サイクルからのインデックス画像は、画像選択部522によって選択され、正規化のためにパーセンタイル計算部302及び画像正規化部354に提供され得る。
【0084】
すなわち、正規化344は、単なる隣接インデックス配列決定サイクルを超えて拡張することができ、必ずしも直前又は直後のインデックス配列決定サイクルを使用する必要はない。例えば、非現在のインデックス配列決定サイクルは、初期インデックス配列決定サイクル502(例えば、最初の2、3、5、10、20インデックス配列決定サイクル)を含むことができる。非現在のインデックス配列決定サイクルは、中間インデックス配列決定サイクル512(例えば、中間の2、3、5、10、20インデックス配列決定サイクル)を含むことができる。非現在のインデックス配列決定サイクルは、終期インデックス配列決定サイクル532(例えば、最後の2、3、5、10、20インデックス配列決定サイクル)を含むことができる。
【0085】
更に、非現在のインデックス配列決定サイクルは、初期インデックス配列決定サイクル、中間インデックス配列決定サイクル、及び終期インデックス配列決定サイクルの組み合わせ(例えば、第1及び第5のインデックス配列決定サイクル、第15及び第23のインデックス配列決定サイクル、並びに第18及び第149のインデックス配列決定サイクル)を含むことができる。
【0086】
図6は、検出可能な信号状態(すなわち、オン/検出可能)の1つ以上のヌクレオチドを示す少なくとも1つのインデックス画像を使用したインデックス画像の正規化の一実施態様を示す。
【0087】
検出可能な信号状態に関して、1つの蛍光色素(又は同じ若しくは同様の励起/発光スペクトルの2つ以上の色素)を使用する配列決定反応におけるヌクレオチド取り込みを検出するための異なる戦略を区別する1つの手段は、配列決定サイクル中に発生する蛍光遷移の存在又は相対的な欠如、又はその間のレベルに関して組み込みを特徴付けることによるものである。したがって、配列決定戦略は、配列決定サイクルに対するそれらの蛍光プロファイルによって例示することができる。本明細書に開示される戦略の場合、「1」又は「オン」及び「0」又は「オフ」は、ヌクレオチドが(例えば、蛍光によって検出可能な)「検出可能な信号状態」にある蛍光状態(1/オン)、あるいはヌクレオチドが(例えば、撮像ステップで検出されないか、又は最小限にしか検出されない)暗状態にある蛍光状態(0/オフ)を示す。「0」又は「オフ」状態は、必ずしも信号の完全な欠如又は不在を指すとは限らない。しかしながら、いくつかの実施態様では、信号(例えば、蛍光)が完全に欠如しているか、又は存在しない場合があり得る。最小の又は減少した蛍光信号(例えば、背景信号)もまた、第1の画像から第2の画像へ(又はその逆)の蛍光の変化を確実に区別することができる限り、「0」又は「オフ」状態の範囲に含まれると考えられる。
【0088】
図6の図示された2チャネル実施態様では、ヌクレオチド「G」は、両方のインデックス画像で暗/オフであり、ヌクレオチド「A」は、両方のインデックス画像でオン/検出可能であり、ヌクレオチド「C」は、第1のインデックス画像では暗/オフであり、第2のインデックス画像ではオン/検出可能であり、ヌクレオチド「T」は、第1のインデックス画像ではオン/検出可能であり、第2のインデックス画像では暗/オフである。
【0089】
一実施態様では、画像選択部522は、検出可能な信号状態にある非現在のインデックス配列決定サイクルからインデックス画像を選択し(622)、これをパーセンタイル計算部302及び画像正規化部354に渡して、正規化された画像632を生成する。オン/検出可能なインデックス画像は、全てのインデックス画像が検出可能な信号状態にある非現在のインデックス配列決定サイクル(例えば、t+3インデックス配列決定サイクル)、又は一部のインデックス画像のみが検出可能な信号状態にある非現在のインデックス配列決定サイクル(例えば、t-2インデックス配列決定サイクル)に由来し得る。
【0090】
いくつかの実施態様では、検出可能な信号状態の多くのインデックス画像を使用して、インデックス画像を正規化することができる。
【0091】
好ましい実施態様では、第1の画像チャネル(例えば、赤色チャネル)のインデックス画像が、第1の画像チャネルの1つ以上のオン/検出可能なインデックス画像と、他の画像チャネル(例えば、緑色チャネル)の1つ以上のオン/検出可能なインデックス画像とを使用して正規化されるように、複数のチャネルにわたってオン/検出可能なインデックス画像が選択される。
【0092】
他の実施態様では、オン/検出可能なインデックス画像は、特定の画像チャネルのインデックス画像が、異なる画像チャネルではなくその特定の画像チャネルのみの1つ以上のオン/検出可能なインデックス画像を使用して正規化されるように、チャネルごとに選択される。例えば、第1の画像チャネルのインデックス画像604は、第1の画像チャネルのオン/検出可能なインデックス画像602を使用して正規化することもできる(t-3インデックス配列決定サイクル)。同様に、第2の画像チャネルのインデックス画像614は、第2の画像チャネルのオン/検出可能なインデックス画像612を使用して正規化することもできる(t-2インデックス配列決定サイクル)。
【0093】
標的画像の正規化
図7は、標的配列及びインデックス配列のベースコールの一実施態様を示す。標的配列は、複数の試料に由来し、インデックス配列に結合されて標的インデックス配列を形成する。各インデックス配列は、複数の試料のそれぞれの試料と一意に関連付けられている。標的インデックス配列は、配列決定ラン702中に配列決定のためにプールされる。標的配列は、配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は、配列決定ランのインデックス配列決定サイクル中に配列決定される。
【0094】
開示される技術は、インデックス画像を正規化するのとは異なる方法で、標的画像を正規化する。標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す。インデックス画像は、インデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す。
【0095】
開示される技術は、標的画像714を前処理するために、現在の標的配列決定サイクルからの標的画像714の正規化されたバージョン734を標的画像714の強度値のみに基づいて生成する第1の正規化関数724を使用する。第1の正規化関数724は、標的画像714の強度値の下位パーセンタイル、及び標的画像714の強度値の上位パーセンタイルを算出する。標的画像714の正規化されたバージョン734では、第1の割合の正規化された強度値は下位パーセンタイル未満であり、第2の割合の正規化された強度値は上位パーセンタイルを超え、第3の割合の正規化された強度値は下位パーセンタイルと上位パーセンタイルとの間にある。
【0096】
開示される技術は、インデックス画像712を前処理するために、現在のインデックス配列決定サイクルからのインデックス画像712の正規化されたバージョン732を、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する第2の正規化関数722を使用する。
【0097】
第2の正規化関数722は、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイルと、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルと、を計算する。インデックス画像712の正規化されたバージョン732では、第1の割合の正規化された強度値は下位パーセンタイル未満であり、第2の割合の正規化された強度値は上位パーセンタイルを超え、第3の割合の正規化された強度値は下位パーセンタイルと上位パーセンタイルとの間にある。
【0098】
開示される技術は、ニューラルネットワークベースのベースコーラ430を介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成する。
【0099】
開示される技術は、ニューラルネットワークベースのベースコーラ430を介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成する。
【0100】
開示される技術は、標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することによって、逆多重化742を行う。
【0101】
増強
図8は、増強を使用する前処理の一実施態様を示す。画像増強部812が、増強関数を使用してインデックス画像802及び標的画像804を処理する。一実施態様では、画像増強部812は、インデックス画像802及び標的画像804の強度値にスケーリング係数を乗算し、乗算結果にオフセット値を加算する。別の実施態様では、画像増強部812は、インデックス画像802と標的画像804とのコントラストを変化させる。更に別の実施態様では、画像増強部812は、インデックス画像802及び標的画像804の焦点を変化させる。
【0102】
画像増強部812は、画像の強度値にスケーリング係数を乗算し、乗算演算の結果にオフセット値を加算する画像増強論理で構成される。画像増強部812は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェアとソフトウェアモジュールとの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。
【0103】
一実施態様では、インデックス画像802及び標的画像804の増強は、ニューラルネットワークベースのベースコーラの訓練中にのみ実行され、推論中には行われない。
【0104】
増強されたインデックス画像822及び増強された標的画像824は、ニューラルネットワークベースのベースコーラ830を介して処理されて、各インデックス配列決定サイクルのためのベースコールを生成することによってインデックス配列のインデックスリードを生成し、また、各標的配列決定サイクルのためのベースコールを生成することによって標的配列の標的リードを生成する。
【0105】
開示される技術は、標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することによって、逆多重化832を行う。
【0106】
前処理結果の例
図9及び図10は、第1の標的リード(リード1)の2つの標的配列決定サイクル(サイクル1及び151)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す。
【0107】
図11、12、13、14、15、16、17、及び18は、第1のインデックスリード(インデックスリード1)の8つのインデックス配列決定サイクル(サイクル152、153、154、155、156、157、158、及び159)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す。
【0108】
図19、20、21、22、23、24、25、及び26は、第2のインデックスリード(インデックスリード2)の8つのインデックス配列決定サイクル(サイクル160、161、162、163、164、165、166、及び167)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す。
【0109】
図27及び図28は、第2の標的リード(リード2)の2つの標的配列決定サイクル(サイクル168及び169)の赤色画像及び緑色画像のピクセル強度ヒストグラムを示す。
【0110】
そのため、リード1の後にインデックスリード1が続き、その後にインデックスリード2が続き、その後にリード2が続く。
【0111】
ここで、各図は、所与の標的配列決定サイクル又はインデックス配列決定サイクルについて、一方は赤色画像(左側)、他方は緑色画像(右側)についての2つのピクセル強度ヒストグラムを有する。ピクセル強度ヒストグラムのx軸は、ピクセル強度を示す。ピクセル強度ヒストグラムのy軸は、ピクセル数又はピクセル密度を示す。したがって、例えば、画像が10,000ピクセルを有する場合、対応するピクセル強度ヒストグラムは、特定のピクセル強度が画像内で見つかる頻度を示す。
【0112】
凡例は、7つの異なる配列決定ラン(例えば、A00240_0175、A00276_0125、A00675_0021など)の名称を、それらの対応するカラーコードと共に指す。カラーコードは、ピクセル強度分布が異なる配列決定ランにわたってどのように変化するかを伝える。
【0113】
図9図28の一連のピクセル強度ヒストグラムは、標的配列決定サイクル及びインデックス配列決定サイクルにわたるピクセル強度分布が大幅には変動しないことを示している。これは、ピクセル強度値が適切な値から大きくは逸脱していないという確実性をもってピクセル強度値を混合して正規化パラメータを計算することができることを意味する。
発明性の客観的指標としての技術的効果及び性能結果
【0114】
以下の説明は、インデックス画像を正規化及び増強することにより、インデックス配列に対するニューラルネットワークベースのベースコーラ430のベースコール精度が改善されることを示す。特に、以下の性能結果は、ニューラルネットワークベースのベースコーラ430が開示される正規化技術及び増強技術を使用する場合と比較して、ニューラルネットワークベースのベースコーラ430が開示される正規化技術及び増強技術を使用しない場合ではベースコール誤差が増加する、開示される技術の進歩性の客観的な指標を提供する。
【0115】
図29図30、及び図31に示すグラフは、シアン色の線、黄色の線、緑色の線、及び黒色の線の4種類の線を有する。
【0116】
シアン色の線は、インデックス画像が正規化されていない場合のニューラルネットワークベースのベースコーラ430のインデックスベースコール性能を表す(「DeepRTA(正規化なし)」)。
【0117】
黄色の線は、インデックス画像が正規化されている場合のニューラルネットワークベースのベースコーラ430のインデックスベースコール性能を表す(「DeepRTA(正規化)」)。
【0118】
緑色の線は、インデックス画像が増強されている場合のニューラルネットワークベースのベースコーラ430のインデックスベースコール性能を表す(「DeepRTA(増強)」)。
【0119】
黒色の線は、リアルタイム分析(「RTA」)と呼ばれるIlluminaの非ニューラルネットワークベースのベースコーラのインデックスベースコール性能を表す。RTAに関する更なる詳細は、参照により本明細書に組み込まれる、2011年1月13日出願の「DATA PROCESSING SYSTEM AND METHODS」と題する米国特許出願公開第2012/0020537号明細書(代理人整理番号ILLINC.174A)に見出すことができる。
【0120】
RTAは、インデックス配列に対して良好なベースコール精度を有することが知られており、したがって、比較のためにベースラインとして使用することができる。
【0121】
また、グラフにおいて、x軸は、ベースコール精度の指標である誤差割合を表し、y軸は、インデックス配列決定サイクルのサイクル数を表す。更に、グラフは、各々が7つのインデックス配列決定サイクルを有する2つのインデックスリードであるリード:1及びリード:2を示す。
【0122】
図29は、4つの試料を多重化するために4つのインデックス配列を使用する配列決定ランにおいて、インデックス画像が正規化されていない場合(例えば、インデックスリード:2のシアン色の線)、ニューラルネットワークベースのベースコーラ430のインデックスベースコール性能が低下することを示す。
【0123】
誤差割合は、点線の矩形によって示すように、インデックス画像が正規化されている場合(黄色の線)及び増強されている場合(緑色の線)には比較的低い。更に、正規化及び増強の実施態様の誤差割合は、RTAの誤差割合の線に沿っている。
【0124】
図30は、2つの試料を多重化するために2つのインデックス配列を使用する配列決定ランにおいて、インデックス画像が正規化されていない場合(例えば、インデックスリード:2のシアン色の線)、ニューラルネットワークベースのベースコーラ430のインデックスベースコール性能が低下することを示す。
【0125】
誤差割合は、インデックス画像が正規化されている場合(黄色の線)及び増強されている場合(緑色の線)には比較的低い。更に、正規化及び増強の実施態様の誤差割合は、RTAの誤差割合の線に沿っている。
【0126】
図31は、単一の試料を配列決定するために単一のインデックス配列を使用する配列決定ランにおいて、インデックス画像が正規化されていない場合(例えば、インデックスリード:2のシアン色の線)、ニューラルネットワークベースのベースコーラ430のインデックスベースコール性能が低下することを示す。
【0127】
誤差割合は、インデックス画像が正規化されている場合(黄色の線)及び増強されている場合(緑色の線)には比較的低い。更に、正規化及び増強の実施態様の誤差割合は、RTAの誤差割合の線に沿っている。
【0128】
標的画像及びインデックス画像を使用したベースコール
図7は、標的配列及びインデックス配列のベースコールの一実施態様を示す。標的配列は、複数の試料に由来し、インデックス配列に結合されて標的インデックス配列を形成する。各インデックス配列は、複数の試料のそれぞれの試料と一意に関連付けられている。標的インデックス配列は、配列決定ラン702中に配列決定のためにプールされる。標的配列は、配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は、配列決定ランのインデックス配列決定サイクル中に配列決定される。
【0129】
別の実施態様では、開示される技術は、標的画像及びインデックス画像を同じ方法で正規化する。標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す。インデックス画像は、インデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す。
【0130】
開示される技術は、インデックス画像712を前処理するために、現在のインデックス配列決定サイクルからのインデックス画像712の正規化されたバージョン732を、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する第2の正規化関数722を使用する。
【0131】
第2の正規化関数722は、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイルと、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルと、を計算する。インデックス画像712の正規化されたバージョン732では、第1の割合の正規化された強度値は下位パーセンタイル未満であり、第2の割合の正規化された強度値は上位パーセンタイルを超え、第3の割合の正規化された強度値は下位パーセンタイルと上位パーセンタイルとの間にある。
【0132】
開示される技術はまた、標的画像714を前処理するために、現在の標的配列決定サイクルからの標的画像714の正規化されたバージョン732を、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する第2の正規化関数722を使用する。
【0133】
第2の正規化関数722は、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、の下位パーセンタイルと、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、の上位パーセンタイルと、を計算する。標的画像714の正規化されたバージョン732では、第1の割合の正規化された強度値は下位パーセンタイル未満であり、第2の割合の正規化された強度値は上位パーセンタイルを超え、第3の割合の正規化された強度値は下位パーセンタイルと上位パーセンタイルとの間にある。
【0134】
一実施態様では、標的配列決定サイクルにわたる正規化はまた、標的配列決定サイクルの画像データ内の画像チャネルにわたる正規化を含む。例えば、3つの標的配列決定サイクル、すなわち、第1の標的配列決定サイクル、第2の標的配列決定サイクル、及び第3の標的配列決定サイクルがある場合を考える。また、第1、第2、及び第3の標的配列決定サイクルの各々は、第1の画像チャネル(例えば、赤色チャネル)の第1の標的画像(例えば、赤色標的画像)及び第2の画像チャネル(例えば、緑色チャネル)の第2の標的画像(例えば、緑色標的画像)の2つの標的画像を有する場合を考える。第2の標的配列決定サイクルからの赤色標的画像は、(i)第1の標的配列決定サイクルからの赤色画像及び緑色画像の強度値、(ii)第3の標的配列決定サイクルからの赤色画像及び緑色画像の強度値、並びに(iii)第2の標的配列決定サイクルからの赤色画像及び緑色画像の強度値、に基づいて正規化される。第2の標的配列決定サイクルからの緑色標的画像は、(i)第1の標的配列決定サイクルからの赤色画像及び緑色画像の強度値、(ii)第3の標的配列決定サイクルからの赤色画像及び緑色画像の強度値、並びに(iii)第2の標的配列決定サイクルからの赤色画像及び緑色画像の強度値、に基づいて正規化される。
【0135】
開示される技術は、ニューラルネットワークベースのベースコーラ430を介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成する。
【0136】
開示される技術は、ニューラルネットワークベースのベースコーラ430を介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成する。
【0137】
一実施態様では、第2の正規化関数722を使用した標的画像及びインデックス画像の前処理は、ニューラルネットワークベースのベースコーラの訓練中及び推論中に行われる。
【0138】
開示される技術は、標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することによって、逆多重化742を行う。
【0139】
(コンピュータシステム)
図32は、開示される技術を実施するために使用することができるコンピュータシステム3200である。コンピュータシステム3200は、バスサブシステム3255を介して多数の周辺デバイスと通信する、少なくとも1つの中央処理装置(CPU)3272を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム3236を含む記憶サブシステム3210、ユーザインターフェース入力デバイス3238、ユーザインターフェース出力デバイス3276、並びにネットワークインターフェースサブシステム3274を含むことができる。入力デバイス及び出力デバイスは、コンピュータシステム3200とのユーザ対話を可能にする。ネットワークインターフェースサブシステム3274は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0140】
一実施態様では、パーセンタイル計算部302、画像正規化部354、及びニューラルネットワークベースのベースコーラ430は、記憶サブシステム3210及びユーザインターフェース入力デバイス3238に通信可能にリンクされている。
【0141】
ユーザインターフェース入力デバイス3238は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含んでもよい。一般に、用語「入力デバイス」の使用は、コンピュータシステム3200に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0142】
ユーザインターフェース出力デバイス3276は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム3200からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方法を含むことを意図している。
【0143】
記憶サブシステム3210は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ3278によって実行される。
【0144】
深層学習プロセッサ3278は、グラフィック処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又は粗粒化再構成可能構造(CGRAs)であり得る。深層学習プロセッサ3278は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。深層学習プロセッサ3278の例には、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX32 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、MicrosoftのStratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、富士通のDPI(商標)、ARMのDynamicIQ(商標)、IBMのTrueNorth(商標)などが含まれる。
【0145】
記憶サブシステム3210で使用されるメモリサブシステム3222は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(RAM)3232と、固定命令が記憶された読み取り専用メモリ(ROM)3234とを含む多数のメモリを含むことができる。ファイル記憶サブシステム3236は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実装するモジュールは、記憶サブシステム3210内のファイル記憶サブシステム3236によって、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。
【0146】
バスサブシステム3255は、コンピュータシステム3200の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム3255は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。
【0147】
コンピュータシステム3200自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩く分散した一組の緩くネットワーク化されたコンピュータ、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークの変化の性質により、図32に示されるコンピュータシステム3200の説明は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。コンピュータシステム3200の多くの他の構成は、図32に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
【0148】
特定の実施態様
インデックス配列の人工知能ベースのベースコールの様々な実施態様を説明する。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。
【0149】
一実施態様では、インデックス配列をベースコールするための人工知能ベースの方法を開示する。この方法は、配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることを含む。インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す。
【0150】
この方法は、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する正規化関数を使用して、インデックス画像を前処理することを含む。
【0151】
この方法は、ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することを更に含む。
【0152】
開示されるこのセクション及び技術の他のセクションに記載される方法は、開示される追加の方法に関連して説明される以下の特徴及び/又は特徴のうちの1つ以上を含むことができる。簡潔性の目的で、本出願に開示される特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、これらの実施態様において識別された特徴が、他の実施態様で特定される基本特徴のセットとといかにして容易に組み合わせ可能かを理解するであろう。
【0153】
一実施態様では、正規化関数は、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイル、並びに、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルを、インデックス画像の正規化されたバージョンにおいて、第1の割合の正規化された強度値が下位パーセンタイルを下回り、第2の割合の正規化された強度値が上位パーセンタイルを上回り、第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となるように計算する。
【0154】
一実施態様では、現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、及び後続のインデックス配列決定サイクルからのインデックス画像によって示されるヌクレオチドは、全体として、現在のインデックス配列決定サイクルからのインデックス画像のみによって示されるヌクレオチドよりも累積的に多様である。いくつかの実施態様では、先行するインデックス配列決定サイクル及び後続のインデックス配列決定サイクルからのインデックス画像のうちの少なくとも1つのインデックス画像は、検出可能な信号状態の1つ以上のヌクレオチドを示す。
【0155】
一実施態様では、現在のインデックス配列決定サイクルからのインデックス画像によって示されるヌクレオチドは、4つの塩基A、C、T、及びGのうちのいくつかが全てのヌクレオチドの15%、10%、又は5%未満の頻度で表される複雑性の低いパターンである。
【0156】
一実施態様では、現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、及び後続のインデックス配列決定サイクルからのインデックス画像によって示されるヌクレオチドは、全体として、4つの塩基A、C、T、及びGの各々が全てのヌクレオチドの少なくとも20%、25%、又は30%の頻度で表される複雑性の高いパターンを累積的に形成する。
【0157】
一実施態様では、本方法は、ニューラルネットワークベースのベースコーラの訓練中及び推論中に正規化関数を使用してインデックス画像を前処理することを含む。
【0158】
一実施態様では、本方法は、インデックス画像の増強されたバージョンを、インデックス画像の強度値にスケーリング係数を乗算し、乗算の結果にオフセット値を加算することによって生成する増強関数を使用して、インデックス画像を前処理することを含む。本方法は、ニューラルネットワークベースのベースコーラを介してインデックス画像の増強されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することを更に含む。
【0159】
一実施態様では、本方法は、ニューラルネットワークベースのベースコーラの推論中ではなく、訓練中にのみ増強関数を使用してインデックス画像を前処理することを含む。
【0160】
一実施態様では、本方法は、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の非現在のインデックス配列決定サイクルからのインデックス画像の強度値、及び(ii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する正規化関数を使用して、インデックス画像を前処理することを含む。いくつかの実施態様では、非現在のインデックス配列決定サイクルは、配列決定の初期インデックス配列決定サイクルを含む。他の実施態様では、非現在のインデックス配列決定サイクルは、配列決定の中間インデックス配列決定サイクルを含む。いくつかの他の実施態様では、非現在のインデックス配列決定サイクルは、配列決定の終期インデックス配列決定サイクルを含む。更に他の実施態様では、非現在のインデックス配列決定サイクルは、初期インデックス配列決定サイクル、中間インデックス配列決定サイクル、及び終期インデックス配列決定サイクルの組み合わせを含む。
【0161】
一実施態様では、非現在のインデックス配列決定サイクルからの少なくとも1つのインデックス画像は、検出可能な信号状態の1つ以上のヌクレオチドを示す。
【0162】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0163】
図34は、配列決定ランのインデックス配列決定サイクルで検体をベースコールする人工知能ベースの方法のフローチャートの一実施態様である。この方法は、動作3402で、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する正規化関数を使用して、インデックス配列決定サイクル中に生成されたインデックス画像を前処理することを含む。
【0164】
この方法は、動作3412で、現在のインデックス配列決定サイクルでベースコールされている特定の検体について、インデックス画像パッチを、現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、後続のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンから、各正規化されたインデックス画像パッチが、現在のインデックス配列決定サイクル中の特定の検体及びいくつかの隣接する検体の対応するインデックス配列におけるヌクレオチド取り込みの結果として生成された、特定の検体、隣接する検体、及びそれらの周囲の背景の強度放射を示すように抽出することを含む。
【0165】
この方法は、動作3422で、正規化されたインデックス画像パッチを、畳み込みニューラルネットワークを介して畳み込み、畳み込み表現を生成することを更に含む。
【0166】
この方法は、動作3432で、畳み込み表現に基づいて、現在のインデックス配列決定サイクルで特定の検体をベースコールすることを更に含む。
【0167】
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で特定される基本特徴のセットとといかにして容易に組み合わせ可能かを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0168】
図35は、標的配列及びインデックス配列をベースコールする人工知能ベースの方法のフローチャートの一実施態様である。標的配列は、複数の試料に由来し、インデックス配列に結合されて標的インデックス配列を形成する。各インデックス配列は、複数の試料のそれぞれの試料と一意に関連付けられている。標的インデックス配列は、配列決定ラン中に配列決定のためにプールされる。標的配列は、配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は、配列決定ランのインデックス配列決定サイクル中に配列決定される。
【0169】
この方法は、動作3502で、標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることを含む。標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す。
【0170】
この方法は、動作3512で、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを標的画像の強度値のみに基づいて生成する第1の正規化関数を使用して、標的画像を前処理することを更に含む。
【0171】
この方法は、動作3522で、ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することを更に含む。
【0172】
この方法は、動作3532で、インデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることを更に含む。インデックス画像は、インデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す。
【0173】
この方法は、動作3542で、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する第2の正規化関数を使用して、インデックス画像を前処理することを更に含む。
【0174】
この方法は、動作3552で、ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することを更に含む。
【0175】
この方法は、動作3562で、標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することを更に含む。
【0176】
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で特定される基本特徴のセットとといかにして容易に組み合わせ可能かを理解するであろう。
【0177】
一実施態様では、第1の正規化関数は、標的画像の強度値の下位パーセンタイル及び標的画像の強度値の上位パーセンタイルを、標的画像の正規化されたバージョンにおいて、第1の割合の正規化された強度値が下位パーセンタイルを下回り、第2の割合の正規化された強度値が上位パーセンタイルを上回り、第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となるように計算する。
【0178】
一実施態様では、第2の正規化関数は、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイル、並びに、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルを、インデックス画像の正規化されたバージョンにおいて、第1の割合の正規化された強度値が下位パーセンタイルを下回り、第2の割合の正規化された強度値が上位パーセンタイルを上回り、第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となるように計算する。
【0179】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0180】
本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するための標準的なプログラミング技術又は工学技術を使用して、製造方法、装置、システム、又は物品として具現化されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実装されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、複合プログラマブル論理デバイス(Complex Programmable Logic Device、CPLD)、プログラマブルロジックアレイ(Programmable Logic Array、PLA)、マイクロプロセッサ、又は他の同様の処理装置が挙げられるが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。
【0181】
開示される技術、又はその要素の1つ以上の実施態様は、示された方法ステップを実行するためのコンピュータ使用可能なプログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装することができる。更に、開示される技術、又はその要素の1つ以上の実施態様は、メモリと、メモリに結合され、例示的な方法ステップを実行するように動作する少なくとも1つのプロセッサと、を含む装置の形態で実装することができる。更に、別の態様では、開示される技術又はその要素の1つ以上の実施態様は、本明細書に記載の方法ステップのうちの1つ以上を実行するための手段の形態で実装することができ、この手段は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。
【0182】
本明細書で使用するとき、用語「検体」は、相対位置に従って他の点又は領域と区別することができるパターンの点又は領域を意味することを意図する。個々の検体は、特定の種類の1つ以上の分子を含むことができる。例えば、検体は、特定の配列を有する単一の標的核酸分子を含むことができ、又は検体は、同じ配列(及び/又はその相補的配列)を有するいくつかの核酸分子を含むことができる。パターンの異なる検体である異なる分子は、パターン内の検体の場所に従って互いに分化させることができる。例示的な検体としては、基材中のウェル、基材中又は基材上のビーズ(又は他の粒子)、基材からの突出部、基材上の隆起部、基材上のゲル材料のパッド、又は基材内のチャネルが挙げられる。
【0183】
検出、特徴付け、又は識別される様々な標的検体のいずれも、本明細書に記載される装置、システム、又は方法で使用することができる。例示的な検体としては、限定するものではないが、核酸(例えば、DNA、RNA又はそれらの類似体)、タンパク質、多糖類、細胞、抗体、エピトープ、受容体、リガンド、酵素(例えば、キナーゼ、ホスファターゼ又はポリメラーゼ)、小分子薬物候補、細胞、ウイルス、生物などが挙げられるが、これらに限定されない。
【0184】
用語「検体」、「核酸」、「核酸分子」、及び「ポリヌクレオチド」は、本明細書において互換的に使用される。様々な実施態様では、核酸は、特定の種類の核酸分析のために、本明細書で提供されるようなテンプレート(例えば、核酸テンプレート、又は核酸テンプレートに相補的な核酸相補体)として使用されてもよく、核酸増幅、核酸発現解析、及び/又は核酸配列決定、又はこれらの好適な組み合わせが挙げられるが、これらに限定されない。特定の実施態様における核酸としては、例えば、3’-5’ホスホジエステル中のデオキシリボヌクレオチドの直鎖ポリマー、又はデオキシリボ核酸(DNA)、例えば、一本鎖及び二本鎖DNA、ゲノムDNA、コピーDNA若しくは相補的DNA(cDNA)、組み換えDNA、又は任意の形態の合成DNA若しくは修飾DNAが挙げられる。他の実施態様では、核酸としては、例えば、3’-5’ホスホジエステル中のリボヌクレオチドの直鎖ポリマー、又はリボ核酸(RNA)などの他の結合、例えば、一本鎖及び二本鎖RNA、メッセンジャー(mRNA)、コピーRNA又は相補的RNA(cRNA)、選択的にスプライシングされたmRNA、リボソームRNA、小核RNA(snoRNA)、マイクロRNA(miRNA)、低干渉RNA(sRNA)、piwi RNA(piRNA)、又は任意の形態の合成RNA若しくは修飾RNAが挙げられる。本発明の組成物及び方法において使用される核酸は、長さが変化してもよく、無傷又は完全長の分子若しくは断片、又はより大きい核酸分子のより小さい部分であってもよい。特定の実施態様では、核酸は、本明細書の他の箇所に記載されるように、1つ以上の検出可能な標識を有してもよい。
【0185】
用語「検体」、「クラスター」、「核酸クラスター」、「核酸コロニー」、及び「DNAクラスター」は互換的に使用され、固体支持体に結合された核酸テンプレート及び/又はその相補体の複数のコピーを指す。典型的には、特定の好ましい実施態様では、核酸クラスターは、それらの5’末端を介して固体支持体に結合されたテンプレート核酸及び/又はその相補体の複数のコピーを含む。核酸クラスターを構成する核酸鎖のコピーは、一本鎖又は二本鎖形態であってよい。クラスター内に存在する核酸テンプレートのコピーは、例えば、標識部分の存在に起因して、互いに異なる対応する位置にヌクレオチドを有することができる。対応する位置はまた、異なる化学構造を有するが、ウラシル及びチミンの場合など、類似のWatson-Crick塩基対形成特性を有するアナログ構造を含むことができる。
【0186】
核酸のコロニーは、「核酸クラスター」とも呼ばれ得る。核酸コロニーは、本明細書の他の箇所で更に詳細に記載されるように、クラスター増幅又はブリッジ増幅技術によって任意に作成することができる。標的配列の複数の反復は、ローリングサークル増幅手順を使用して作成されたコンカテマーなど、単一の核酸分子中に存在し得る。
【0187】
本発明の核酸クラスターは、使用される条件に応じて、異なる形状、サイズ、及び密度を有することができる。例えば、クラスターは、実質的に円形、多面、ドーナツ形、又はリング形状の形状を有することができる。核酸クラスターの直径は、約0.2μm~約6μm、約0.3μm~約4μm、約0.4μm~約3μm、約0.5μm~約2μm、約0.75μm~約1.5μm、又は任意の介在直径であるように設計することができる。特定の実施態様において、核酸クラスターの直径は、約0.5μm、約1μm、約1.5μm、約2μm、約2.5μm、約3μm、約4μm、約5μm、又は約6μmである。核酸クラスターの直径は、クラスターの産生において実施される増幅サイクルの数、核酸テンプレートの長さ、又はクラスターが形成される表面に付着したプライマーの密度を含むが、これらに限定されない多数のパラメータによって影響され得る。核酸クラスターの密度は、典型的には、0.1/mm2、1/mm2、10/mm2、100/mm2、1,000/mm2、10,000/mm2~100,000/mm2の範囲であるように設計することができる。本発明は、一部では、より高密度の核酸クラスター、例えば、100,000/mm2~1,000,000/mm2、及び1,000,000/mm2~10,000,000/mm2を更に企図する。
【0188】
本明細書で使用するとき、「検体」は、検体又は視野内の対象領域である。マイクロアレイデバイス又は他の分子分析デバイスに関連して使用される場合、検体は、類似又は同一の分子によって占有される領域を指す。例えば、検体は、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施態様では、検体は、試料上の物理的領域を占有する任意の要素又は要素群であり得る。例えば、検体は、ランドのパセル、水の本体などであってもよい。検体が撮像されると、各検体は、一部の領域を有する。したがって、多くの実施態様では、検体は、単に1つのピクセルではない。
【0189】
検体間の距離は、任意の数の方法で説明することができる。いくつかの実施態様では、検体間の距離は、1つの検体の中心から別の検体の中心までであると説明することができる。他の実施態様では、距離は、1つの検体の縁部から別の検体の縁部まで、又は各検体の最も外側の識別可能な点間に記載することができる。検体の縁部は、チップ上の理論的若しくは実際の物理的境界、又は検体の境界内のいくつかの点として説明することができる。他の実施態様では、距離は、試料上の固定点、又は試料の画像に関して説明することができる。
【0190】
項目
以下の項目は、本開示の一部である。
インデックスリード
1.インデックス配列をベースコールするための人工知能ベースの方法であって、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を含む、方法。
2.正規化関数は、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイル、並びに、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルを、
インデックス画像の正規化されたバージョンにおいて、
第1の割合の正規化された強度値が下位パーセンタイルを下回り、
第2の割合の正規化された強度値が上位パーセンタイルを上回り、
第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となる、
ように計算する、項目1に記載の人工知能ベースの方法。
3.
現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、及び後続のインデックス配列決定サイクルからのインデックス画像によって示されるヌクレオチドが、全体として、
現在のインデックス配列決定サイクルからのインデックス画像のみによって示されるヌクレオチドよりも累積的に多様である、
項目1に記載の人工知能ベースの方法。
4.先行するインデックス配列決定サイクル及び後続のインデックス配列決定サイクルからのインデックス画像のうちの少なくとも1つのインデックス画像が、検出可能な信号状態の1つ以上のヌクレオチドを示す、項目3に記載の人工知能ベースの方法。
5.現在のインデックス配列決定サイクルからのインデックス画像によって示されるヌクレオチドは、4つの塩基A、C、T、及びGのうちのいくつかが全てのヌクレオチドの15%、10%、又は5%未満の頻度で表される複雑性の低いパターンである、項目3に記載の人工知能ベースの方法。
6.現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、及び後続のインデックス配列決定サイクルからのインデックス画像によって示されるヌクレオチドは、全体として、4つの塩基A、C、T、及びGの各々が全てのヌクレオチドの少なくとも20%、25%、又は30%の頻度で表される複雑性の高いパターンを累積的に形成する、項目5に記載の人工知能ベースの方法。
7.
ニューラルネットワークベースのベースコーラの訓練中及び推論中に正規化関数を使用してインデックス画像を前処理することを更に含む、項目1に記載の人工知能ベースの方法。
8.
インデックス画像の増強されたバージョンを、インデックス画像の強度値にスケーリング係数を乗算し、乗算の結果にオフセット値を加算することによって生成する増強関数を使用して、インデックス画像を前処理することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の増強されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を更に含む、項目1に記載の人工知能ベースの方法。
9.
ニューラルネットワークベースのベースコーラの推論中ではなく、訓練中にのみ増強関数を使用してインデックス画像を前処理することを更に含む、項目8に記載の人工知能ベースの方法。
10.
インデックス画像を、
(i)1つ以上の非現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを生成する正規化関数を使用して前処理することを更に含む、項目1に記載の人工知能ベースの方法。
11.非現在のインデックス配列決定サイクルは、配列決定の初期インデックス配列決定サイクルを含む、項目10に記載の人工知能ベースの方法。
12.非現在のインデックス配列決定サイクルは、配列決定の中間インデックス配列決定サイクルを含む、項目10に記載の人工知能ベースの方法。
13.非現在のインデックス配列決定サイクルは、配列決定の終期インデックス配列決定サイクルを含む、項目10に記載の人工知能ベースの方法。
14.非現在のインデックス配列決定サイクルは、初期インデックス配列決定サイクル、中間インデックス配列決定サイクル、及び終期インデックス配列決定サイクルの組み合わせを含む、項目13に記載の人工知能ベースの方法。
15.非現在のインデックス配列決定サイクルからの少なくとも1つのインデックス画像が、検出可能な信号状態の1つ以上のヌクレオチドを示す、項目10に記載の人工知能ベースの方法。
16.配列決定ランのインデックス配列決定サイクルで検体をベースコールする人工知能ベースの方法であって、
インデックス配列決定サイクル中に生成されたインデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
現在のインデックス配列決定サイクルでベースコールされている特定の検体について、
インデックス画像パッチを、現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、及び後続のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンから、
各正規化されたインデックス画像パッチが、現在のインデックス配列決定サイクル中の特定の検体及びいくつかの隣接する検体の対応するインデックス配列におけるヌクレオチド取り込みの結果として生成された、特定の検体、隣接する検体、及びそれらの周囲の背景の強度放射を示すように抽出することと、
正規化されたインデックス画像パッチを、畳み込みニューラルネットワークを介して畳み込み、畳み込み表現を生成することと、
畳み込み表現に基づいて、現在のインデックス配列決定サイクルで特定の検体をベースコールすることと、
を含む、方法。
17.標的配列及びインデックス配列をベースコールする人工知能ベースの方法であって、標的配列は複数の試料に由来し、インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は複数の試料のそれぞれの試料と一意に関連付けられており、標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、標的配列は配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は配列決定ランのインデックス配列決定サイクル中に配列決定される、方法において、方法は、
標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを標的画像の強度値のみに基づいて生成する第1の正規化関数を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
インデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、第2の正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、第2の正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することと、
を含む、方法。
18.第1の正規化関数は、
標的画像の強度値の下位パーセンタイルと、
標的画像の強度値の上位パーセンタイルとを、
標的画像の正規化されたバージョンにおいて、
第1の割合の正規化された強度値が下位パーセンタイルを下回り、
第2の割合の正規化された強度値が上位パーセンタイルを上回り、
第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となる、
ように計算する、項目17に記載の人工知能ベースの方法。
19.第2の正規化関数は、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイル、並びに、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルを、
インデックス画像の正規化されたバージョンにおいて、
第1の割合の正規化された強度値が下位パーセンタイルを下回り、
第2の割合の正規化された強度値が上位パーセンタイルを上回り、
第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となる、
ように計算する、項目17に記載の人工知能ベースの方法。
インデックスリード及び通常リード
20.標的配列及びインデックス配列をベースコールする人工知能ベースの方法であって、標的配列は複数の試料に由来し、インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は複数の試料のそれぞれの試料と一意に関連付けられており、標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、標的配列は配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は配列決定ランのインデックス配列決定サイクル中に配列決定される、方法、において、方法は、
標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、正規化関数であって、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
インデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することと、
を含む、方法。
21.正規化関数は、
(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、の下位パーセンタイル、並びに、
(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、の上位パーセンタイルを、
標的画像の正規化されたバージョンにおいて、
第1の割合の正規化された強度値が下位パーセンタイルを下回り、
第2の割合の正規化された強度値が上位パーセンタイルを上回り、
第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となる、
ように計算する、項目20に記載の人工知能ベースの方法。
22.正規化関数は、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイル、並びに、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルを、
インデックス画像の正規化されたバージョンにおいて、
第1の割合の正規化された強度値が下位パーセンタイルを下回り、
第2の割合の正規化された強度値が上位パーセンタイルを上回り、
第3の割合の正規化された強度値が下位パーセンタイルと上位パーセンタイルとの間となる、
ように計算する、項目20に記載の人工知能ベースの方法。
23.
ニューラルネットワークベースのベースコーラの訓練中及び推論中に正規化関数を使用して標的画像及びインデックス画像を前処理することを更に含む、項目20に記載の人工知能ベースの方法。
24.
標的画像の増強されたバージョンを、標的画像の強度値にスケーリング係数を乗算し、乗算の結果にオフセット値を加算することによって生成する増強関数を使用して、標的画像を前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の増強されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
を更に含む、項目20に記載の人工知能ベースの方法。
25.
インデックス画像の増強されたバージョンを、インデックス画像の強度値にスケーリング係数を乗算し、乗算の結果にオフセット値を加算することによって生成する増強関数を使用して、インデックス画像を前処理することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の増強されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を更に含む、項目20に記載の人工知能ベースの方法。
26.
ニューラルネットワークベースのベースコーラの推論中ではなく、訓練中にのみ増強関数を使用して標的画像及びインデックス画像を前処理することを更に含む、項目20に記載の人工知能ベースの方法。
27.ベースコール配列の人工知能ベースの方法であって、
配列決定ランの標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、正規化関数であって、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、を含む、方法。
【0191】
上述の方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行して上記の方法のいずれかを実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
28.ベースコール配列の人工知能ベースの方法であって、
配列決定ランの標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
ニューラルネットワークベースのベースコーラを介して標的画像を処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像を処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を含む、方法。
29.メモリに結合された1つ以上のプロセッサを含むシステムであって、インデックス配列をベースコールするためのコンピュータ命令がメモリにロードされており、命令は、プロセッサ上で実行されると、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を含む動作を実行する、システム。
30.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目29に記載のシステム。
31.メモリに結合された1つ以上のプロセッサを含むシステムであって、配列決定ランのインデックス配列決定サイクルで検体をベースコールするためのコンピュータ命令がメモリにロードされており、命令は、プロセッサ上で実行されると、
インデックス配列決定サイクル中に生成されたインデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
現在のインデックス配列決定サイクルでベースコールされている特定の検体について、
インデックス画像パッチを、現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、及び後続のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンから、
各正規化されたインデックス画像パッチが、現在のインデックス配列決定サイクル中の特定の検体及びいくつかの隣接する検体の対応するインデックス配列におけるヌクレオチド取り込みの結果として生成された、特定の検体、隣接する検体、及びそれらの周囲の背景の強度放射を示すように抽出することと、
正規化されたインデックス画像パッチを、畳み込みニューラルネットワークを介して畳み込み、畳み込み表現を生成することと、
畳み込み表現に基づいて、現在のインデックス配列決定サイクルで特定の検体をベースコールすることと、
を含む動作を実行する、システム。
32.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目31に記載のシステム。
33.メモリに結合された1つ以上のプロセッサを含むシステムであって、標的配列及びインデックス配列をベースコールするためのコンピュータ命令がメモリにロードされており、標的配列は複数の試料に由来し、インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は複数の試料のそれぞれの試料と一意に関連付けられており、標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、標的配列は配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は配列決定ランのインデックス配列決定サイクル中に配列決定される、システムにおいて、命令は、プロセッサ上で実行されると、
標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを標的画像の強度値のみに基づいて生成する第1の正規化関数を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
インデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、第2の正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、第2の正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することと、
を含む動作を実行する、システム。
34.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目33に記載のシステム。
35.メモリに結合された1つ以上のプロセッサを含むシステムであって、標的配列及びインデックス配列をベースコールするためのコンピュータ命令がメモリにロードされており、標的配列は複数の試料に由来し、インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は複数の試料のそれぞれの試料と一意に関連付けられており、標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、標的配列は配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は配列決定ランのインデックス配列決定サイクル中に配列決定される、システムにおいて、命令は、プロセッサ上で実行されると、
標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、正規化関数であって、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
インデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することと、
を含む動作を実行する、システム。
36.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目35に記載のシステム。
37.メモリに結合された1つ以上のプロセッサを含むシステムであって、配列をベースコールするためのコンピュータ命令がメモリにロードされており、命令は、プロセッサ上で実行されると、
配列決定ランの標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、正規化関数であって、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を含む動作を実行する、システム。
38.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目37に記載のシステム。
39.メモリに結合された1つ以上のプロセッサを含むシステムであって、配列をベースコールするためのコンピュータ命令がメモリにロードされており、命令は、プロセッサ上で実行されると、
配列決定ランの標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
ニューラルネットワークベースのベースコーラを介して標的画像を処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像を処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を含む動作を実行する、システム。
40.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目39に記載のシステム。
41.インデックス配列をベースコールするためのコンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を含む方法を実行する、非一時的コンピュータ可読記憶媒体。
42.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目41に記載の非一時的コンピュータ可読記憶媒体。
43.配列決定ランのインデックス配列決定サイクルで検体をベースコールするためのコンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
インデックス配列決定サイクル中に生成されたインデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
現在のインデックス配列決定サイクルでベースコールされている特定の検体について、
インデックス画像パッチを、現在のインデックス配列決定サイクル、先行するインデックス配列決定サイクル、及び後続のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンから、
各正規化されたインデックス画像パッチが、現在のインデックス配列決定サイクル中の特定の検体及びいくつかの隣接する検体の対応するインデックス配列におけるヌクレオチド取り込みの結果として生成された、特定の検体、隣接する検体、及びそれらの周囲の背景の強度放射を示すように抽出することと、
正規化されたインデックス画像パッチを、畳み込みニューラルネットワークを介して畳み込み、畳み込み表現を生成することと、
畳み込み表現に基づいて、現在のインデックス配列決定サイクルで特定の検体をベースコールすることと、
を含む方法を実行する、非一時的コンピュータ可読記憶媒体。
44.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目43に記載の非一時的コンピュータ可読記憶媒体。
45.標的配列及びインデックス配列をベースコールするためのコンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、標的配列は複数の試料に由来し、インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は複数の試料のそれぞれの試料と一意に関連付けられており、標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、標的配列は配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は配列決定ランのインデックス配列決定サイクル中に配列決定される、非一時的コンピュータ可読記憶媒体において、命令は、プロセッサ上で実行されると、
標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを標的画像の強度値のみに基づいて生成する第1の正規化関数を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
インデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、第2の正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、第2の正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することと、
を含む方法を実行する、非一時的コンピュータ可読記憶媒体。
46.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目45に記載の非一時的コンピュータ可読記憶媒体。
47.標的配列及びインデックス配列をベースコールするためのコンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、標的配列は複数の試料に由来し、インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は複数の試料のそれぞれの試料と一意に関連付けられており、標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、標的配列は配列決定ランの標的配列決定サイクル中に配列決定され、インデックス配列は配列決定ランのインデックス配列決定サイクル中に配列決定される、非一時的コンピュータ可読記憶媒体において、命令は、プロセッサ上で実行されると、
標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、正規化関数であって、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
インデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、複数の試料中の特定の試料に属するものとして分類することと、
を含む方法を実行する、非一時的コンピュータ可読記憶媒体。
48.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目47に記載の非一時的コンピュータ可読記憶媒体。
49.配列をベースコールするためのコンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
配列決定ランの標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、正規化関数であって、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して標的画像の正規化されたバージョンを処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像の正規化されたバージョンを処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を含む方法を実行する、非一時的コンピュータ可読記憶媒体。
50.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目49に記載の非一時的コンピュータ可読記憶媒体。
51.配列をベースコールするためのコンピュータプログラム命令が付与された非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサ上で実行されると、
配列決定ランの標的配列決定サイクル中に標的配列について生成された標的画像にアクセスすることであって、標的画像は、標的配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
配列決定ランのインデックス配列決定サイクル中にインデックス配列について生成されたインデックス画像にアクセスすることであって、インデックス画像は、配列決定ラン中のインデックス配列へのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
ニューラルネットワークベースのベースコーラを介して標的画像を処理し、標的配列決定サイクルの各々についてベースコールを生成することによって、標的配列の標的リードを生成することと、
ニューラルネットワークベースのベースコーラを介してインデックス画像を処理し、インデックス配列決定サイクルの各々についてベースコールを生成することによって、インデックス配列のインデックスリードを生成することと、
を含む方法を実行する、非一時的コンピュータ可読記憶媒体。
52.項目1、16、17、20、及び27に最終的に従属する項目の各々を実施する、項目51に記載の非一時的コンピュータ可読記憶媒体。
【符号の説明】
【0192】
102 インデックス付きライブラリ
104 プーリング
106 配列決定
108 逆多重化
110 位置合わせ
116 出力ファイル
202 標的リード
204 インデックスリード
212 標的プライマー
222 標的配列
224 インデックスプライマー
232 インデックス配列
302 パーセンタイル計算部
322 第1の画像チャネルのインデックス画像
324 第1の画像チャネルのインデックス画像
326 第1の画像チャネルのインデックス画像
332 第2の画像チャネルのインデックス画像
334 第2の画像チャネルのインデックス画像
336 第2の画像チャネルのインデックス画像
344 正規化
354 画像正規化部
364 第1の画像チャネルで正規化されたインデックス画像
374 第2の画像チャネルで正規化されたインデックス画像
402 第1の画像チャネルで正規化されたインデックス画像
404 第1の画像チャネルで正規化されたインデックス画像
406 第1の画像チャネルで正規化されたインデックス画像
412 第2の画像チャネルで正規化されたインデックス画像
414 第2の画像チャネルで正規化されたインデックス画像
416 第2の画像チャネルで正規化されたインデックス画像
424 パッチ抽出プロセス
426 入力画像データ
430 ニューラルネットワークベースのベースコーラ
432 ベースコール
502 初期インデックス配列決定サイクル
512 中間インデックス配列決定サイクル
522 画像選択部
532 終期インデックス配列決定サイクル
602 インデックス画像
604 インデックス画像
612 インデックス画像
614 インデックス画像
632 正規化された画像
702 配列決定ラン
712 インデックス画像
714 標的画像
722 第2の正規化関数
724 第1の正規化関数
732 正規化されたインデックス画像
734 正規化された標的画像
742 逆多重化
802 インデックス画像
804 標的画像
812 画像増強部
822 増強されたインデックス画像
824 増強された標的画像
830 ニューラルネットワークベースのベースコーラ
832 逆多重化
3200 コンピュータシステム
3210 記憶サブシステム
3222 メモリサブシステム
3232 メインランダムアクセスメモリ(RAM)
3234 専用メモリ(ROM)
3236 ファイル記憶サブシステム
3238 ユーザインターフェース入力デバイス
3255 バスサブシステム
3272 中央処理装置(CPU)
3274 ネットワークインターフェースサブシステム
3276 ユーザインターフェース出力デバイス
3278 深層学習プロセッサ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
【手続補正書】
【提出日】2022-08-23
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
インデックス配列をベースコールするためのコンピュータに実装された人工知能ベースの方法であって、
配列決定ランのインデックス配列決定サイクル中にインデックス配列についてクラスターから生成されたインデックス画像にアクセスすることであって、前記インデックス画像は、前記配列決定ラン中の前記クラスターの前記インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
前記インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して前記インデックス画像の正規化されたバージョンを処理し、前記インデックス配列決定サイクルの各々についてベースコールを生成することによって、前記インデックス配列のインデックスリードを生成することと、
を含む、方法。
【請求項2】
前記正規化関数は、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の下位パーセンタイル、並びに、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、の上位パーセンタイルを、
前記インデックス画像の前記正規化されたバージョンにおいて、
第1の割合の正規化された強度値が前記下位パーセンタイルを下回り、
第2の割合の前記正規化された強度値が前記上位パーセンタイルを上回り、
第3の割合の前記正規化された強度値が前記下位パーセンタイルと前記上位パーセンタイルとの間となる、
ように計算する、請求項1に記載のコンピュータに実装された人工知能ベースの方法。
【請求項3】
前記現在のインデックス配列決定サイクル、前記先行するインデックス配列決定サイクル、及び前記後続のインデックス配列決定サイクルからの前記インデックス画像によって示されるヌクレオチドが、全体として、
前記現在のインデックス配列決定サイクルからの前記インデックス画像のみによって示されるヌクレオチドよりも累積的に多様であり、
前記先行するインデックス配列決定サイクル及び前記後続のインデックス配列決定サイクルからの前記インデックス画像のうちの少なくとも1つのインデックス画像が、検出可能な信号状態の1つ以上のヌクレオチドを示す、
請求項1に記載のコンピュータに実装された人工知能ベースの方法。
【請求項4】
前記現在のインデックス配列決定サイクルからの前記インデックス画像によって示される前記ヌクレオチドは、4つの塩基A、C、T、及びGのうちのいくつかが全ての前記ヌクレオチドの15%、10%、又は5%未満の頻度で表される複雑性の低いパターンである、請求項3に記載のコンピュータに実装された人工知能ベースの方法。
【請求項5】
前記現在のインデックス配列決定サイクル、前記先行するインデックス配列決定サイクル、及び前記後続のインデックス配列決定サイクルからの前記インデックス画像によって示される前記ヌクレオチドは、全体として、4つの塩基A、C、T、及びGの各々が全ての前記ヌクレオチドの少なくとも20%、25%、又は30%の頻度で表される複雑性の高いパターンを累積的に形成する、請求項3または4に記載のコンピュータに実装された人工知能ベースの方法。
【請求項6】
前記ニューラルネットワークベースのベースコーラの訓練中及び推論中に前記正規化関数を使用して前記インデックス画像を前処理することを更に含む、請求項1から5のいずれか一項に記載のコンピュータに実装された人工知能ベースの方法。
【請求項7】
インデックス画像の増強されたバージョンを、前記インデックス画像の強度値にスケーリング係数を乗算し、前記乗算の結果にオフセット値を加算することによって生成する増強関数を使用して、前記インデックス画像を前処理することと、
前記ニューラルネットワークベースのベースコーラを介して前記インデックス画像の増強されたバージョンを処理し、前記インデックス配列決定サイクルの各々についてベースコールを生成することによって、前記インデックス配列のインデックスリードを生成することと、
前記ニューラルネットワークベースのベースコーラの推論中ではなく、訓練中にのみ前記増強関数を使用して前記インデックス画像を前処理することと、
を更に含む、請求項1から5のいずれか一項に記載のコンピュータに実装された人工知能ベースの方法。
【請求項8】
前記インデックス画像を、
(i)1つ以上の非現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)前記現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて前記現在のインデックス配列決定サイクルからの前記インデックス画像の前記正規化されたバージョンを生成する前記正規化関数を使用して前処理すること、
を更に含み、
前記非現在のインデックス配列決定サイクルからの少なくとも1つのインデックス画像が、前記検出可能な信号状態の1つ以上のヌクレオチドを示す、請求項1から7のいずれか一項に記載のコンピュータに実装された人工知能ベースの方法。
【請求項9】
前記非現在のインデックス配列決定サイクルは、前記配列決定の初期インデックス配列決定サイクル、前記配列決定の中間インデックス配列決定サイクル、及び前記配列決定の終期インデックス配列決定サイクルのうち1つ以上を含む、請求項に記載のコンピュータに実装された人工知能ベースの方法。
【請求項10】
前記非現在のインデックス配列決定サイクルは、初期インデックス配列決定サイクル、中間インデックス配列決定サイクル、及び終期インデックス配列決定サイクルの組み合わせを含む、請求項に記載のコンピュータに実装された人工知能ベースの方法。
【請求項11】
前記現在のインデックス配列決定サイクルでベースコールされている特定の検体について、
インデックス画像パッチを、前記現在のインデックス配列決定サイクル、前記先行するインデックス配列決定サイクル、及び前記後続のインデックス配列決定サイクルからの前記インデックス画像の正規化されたバージョンから、
各正規化されたインデックス画像パッチが、前記現在のインデックス配列決定サイクル中の前記特定の検体及びいくつかの隣接する検体の対応するインデックス配列におけるヌクレオチド取り込みの結果として生成された、前記特定の検体、前記隣接する検体、及びそれらの周囲の背景の強度放射を示すように抽出することと、
前記正規化されたインデックス画像パッチを、畳み込みニューラルネットワークを介して畳み込み、畳み込み表現を生成することと、
前記畳み込み表現に基づいて、前記現在のインデックス配列決定サイクルで前記特定の検体をベースコールすることと、
を更に含む、請求項1から10のいずれか一項に記載のコンピュータに実装された人工知能ベースの方法。
【請求項12】
標的配列及びインデックス配列をベースコールするコンピュータに実装された人工知能ベースの方法であって、前記標的配列は複数の試料に由来し、前記インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は前記複数の試料のそれぞれの試料と一意に関連付けられており、前記標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、前記標的配列は前記配列決定ランの標的配列決定サイクル中に配列決定され、前記インデックス配列は前記配列決定ランのインデックス配列決定サイクル中に配列決定される、方法において、前記方法は、
前記標的配列決定サイクル中に前記標的配列についてクラスターから生成された標的画像にアクセスすることであって、前記標的画像は、前記標的配列の前記クラスターへのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
前記標的画像を、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを前記標的画像の強度値のみに基づいて生成する第1の正規化関数を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して前記標的画像の正規化されたバージョンを処理し、前記標的配列決定サイクルの各々についてベースコールを生成することによって、前記標的配列の標的リードを生成することと、
前記インデックス配列決定サイクル中に前記インデックス配列について生成されたインデックス画像にアクセスすることであって、前記インデックス画像は、前記インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
前記インデックス画像を、第2の正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、
(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値と、
(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値と、
(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値と、
に基づいて生成する、第2の正規化関数、を使用して前処理することと、
前記ニューラルネットワークベースのベースコーラを介して前記インデックス画像の正規化されたバージョンを処理し、前記インデックス配列決定サイクルの各々についてベースコールを生成することによって、前記インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、前記標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、前記複数の試料中の特定の試料に属するものとして分類することと、
を含む、方法。
【請求項13】
前記第1の正規化関数は、
前記標的画像の前記強度値の下位パーセンタイルと、
前記標的画像の前記強度値の上位パーセンタイルとを、
前記標的画像の前記正規化されたバージョンにおいて、
第1の割合の正規化された強度値が前記下位パーセンタイルを下回り、
第2の割合の前記正規化された強度値が前記上位パーセンタイルを上回り、
第3の割合の前記正規化された強度値が前記下位パーセンタイルと前記上位パーセンタイルとの間となる、
ように計算する、請求項12に記載のコンピュータに実装された人工知能ベースの方法。
【請求項14】
標的配列及びインデックス配列をベースコールするコンピュータに実装された人工知能ベースの方法であって、前記標的配列は複数の試料に由来し、前記インデックス配列に結合して標的インデックス配列を形成し、各インデックス配列は前記複数の試料のそれぞれの試料と一意に関連付けられており、前記標的インデックス配列は配列決定ラン中に配列決定のためにプールされ、前記標的配列は前記配列決定ランの標的配列決定サイクル中に配列決定され、前記インデックス配列は前記配列決定ランのインデックス配列決定サイクル中に配列決定される、方法において、前記方法は、
前記標的配列決定サイクル中に前記標的配列についてクラスターから生成された標的画像にアクセスすることであって、前記標的画像は、前記標的配列の前記クラスターへのヌクレオチド取り込みの結果として生成された強度放射を示す、ことと、
標的画像を、正規化関数であって、現在の標的配列決定サイクルからの標的画像の正規化されたバージョンを、(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
前記インデックス配列決定サイクル中に前記インデックス配列について生成されたインデックス画像にアクセスすることであって、前記インデックス画像は、前記インデックス配列へのヌクレオチドの取り込みの結果として生成された強度放射を示す、ことと、
インデックス画像を、正規化関数であって、現在のインデックス配列決定サイクルからのインデックス画像の正規化されたバージョンを、(i)1つ以上の先行するインデックス配列決定サイクルからのインデックス画像の強度値、(ii)1つ以上の後続のインデックス配列決定サイクルからのインデックス画像の強度値、及び(iii)現在のインデックス配列決定サイクルからのインデックス画像の強度値、に基づいて生成する、正規化関数、を使用して前処理することと、
ニューラルネットワークベースのベースコーラを介して前記標的画像の正規化されたバージョンを処理し、前記標的配列決定サイクルの各々についてベースコールを生成することによって、前記標的配列の標的リードを生成することと、
前記ニューラルネットワークベースのベースコーラを介して前記インデックス画像の正規化されたバージョンを処理し、前記インデックス配列決定サイクルの各々についてベースコールを生成することによって、前記インデックス配列のインデックスリードを生成することと、
標的配列の各標的リードを、前記標的配列に結合されたインデックス配列の対応するインデックスリードに基づいて、前記複数の試料中の特定の試料に属するものとして分類することと、
を含む、方法。
【請求項15】
前記正規化関数は、
(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、の下位パーセンタイル、並びに、
(i)1つ以上の先行する標的配列決定サイクルからの標的画像の強度値、(ii)1つ以上の後続の標的配列決定サイクルからの標的画像の強度値、及び(iii)現在の標的配列決定サイクルからの標的画像の強度値、の上位パーセンタイルを、
前記標的画像の前記正規化されたバージョンにおいて、
第1の割合の正規化された強度値が前記下位パーセンタイルを下回り、
第2の割合の前記正規化された強度値が前記上位パーセンタイルを上回り、
第3の割合の前記正規化された強度値が前記下位パーセンタイルと前記上位パーセンタイルとの間となる、
ように計算する、請求項14に記載のコンピュータに実装された人工知能ベースの方法。
【国際調査報告】