(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-12
(54)【発明の名称】人工知能ベースの多対多ベースコール
(51)【国際特許分類】
G16B 40/00 20190101AFI20230405BHJP
C12Q 1/6869 20180101ALN20230405BHJP
【FI】
G16B40/00
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2022550204
(86)(22)【出願日】2021-02-19
(85)【翻訳文提出日】2022-08-22
(86)【国際出願番号】 US2021018910
(87)【国際公開番号】W WO2021168353
(87)【国際公開日】2021-08-26
(32)【優先日】2020-02-20
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-02-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アニンディタ・ダッタ
(72)【発明者】
【氏名】ジェリー・ベッセル
(72)【発明者】
【氏名】ドルナ・カシフハギギ
(72)【発明者】
【氏名】キショール・ジャガナタン
(72)【発明者】
【氏名】アミラリ・キア
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ41
4B063QS34
4B063QX02
(57)【要約】
開示される技術は、人工知能ベースのベースコールに関する。開示される技術は、配列決定動作のための配列サイクルについて生成されたサイクルごとの検体チャネルセットのプログレッションにアクセスすることと、ニューラルネットワークベースのベースコーラ(network-based base caller、NNBC)が、配列決定動作のための配列決定サイクルの被験者ウィンドウのプログレッションにおけるサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、配列決定サイクルの被験者ウィンドウ内の3つ又はそれ以上の配列決定サイクルに対する暫定ベースコール予測を生成するように、NNBCを介して、配列決定動作のための配列決定サイクルのウィンドウのプログレッション内のサイクルごとの検体チャネルセットのウィンドウを処理することと、特定の配列サイクルが異なる位置で出現した複数のウィンドウから、NNBCを使用して、特定の配列決定サイクルに対する暫定ベースコール予測を生成することと、複数のベースコール予測に基づいて特定の配列決定サイクルに対するベースコールを判定することと、に関する。
【特許請求の範囲】
【請求項1】
ベースコールのための人工知能ベースのシステムであって、前記システムが、
少なくとも右隣接入力、中心入力、及び左隣接入力を処理し、少なくとも右隣接出力、中心出力、及び左隣接出力を作り出す、ニューラルネットワークベースのベースコーラであって、
前記右隣接入力が、配列決定動作のための現在の配列決定サイクルに対する現在の画像データを含み、前記現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データで補足されており、前記右隣接出力が、前記現在の配列決定サイクルに対する右隣接ベースコール予測及び前記以前の配列決定サイクルに対するベースコール予測を含み、
前記中心入力が、前記現在の画像データを含み、前記以前の画像データ及び前記現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データで補足されており、前記中心出力が、前記現在の配列決定サイクルに対する中心ベースコール予測並びに前記以前の配列決定サイクル及び前記後続の配列決定サイクルに対するベースコール予測を含み、
前記左隣接入力が、前記現在の画像データを含み、前記後続の画像データで補足されており、前記左隣接出力が、前記現在の配列決定サイクルに対する左隣接ベースコール予測及び前記後続の配列決定サイクルに対するベースコール予測を含む、ニューラルネットワークベースのベースコーラと、前記ニューラルネットワークベースのベースコーラに結合され、かつ、
前記現在の配列決定サイクルに対する前記右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測に基づいて、前記現在の配列決定サイクルに対するベースコールを生成するように構成されているベースコールジェネレータと、を備える、人工知能ベースのシステム。
【請求項2】
前記現在の配列決定サイクルに対する前記現在の画像データが、前記現在の配列決定サイクルにおいて取り込まれた検体及びそれらの周囲の背景の強度放射を描写する、請求項1に記載の人工知能ベースのシステム。
【請求項3】
前記現在の配列決定サイクルに対する前記右隣接ベースコール予測、前記中心ベースコール予測、及び前記左隣接ベースコール予測が、前記現在の配列決定サイクルにおいて前記検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する、請求項2に記載の人工知能ベースのシステム。
【請求項4】
前記ベースコールジェネレータが、アベレイジャを含むように更に構成されており、
前記アベレイジャが、前記現在の配列決定サイクルに対する前記右隣接ベースコール予測、前記中心ベースコール予測、及び前記左隣接ベースコール予測にわたる前記尤度を塩基ごとに合計することと、
前記塩基ごとの合計に基づいて塩基ごとの平均を判定することと、
前記塩基ごとの平均のうちの最も高い平均に基づいて、前記現在の配列決定サイクルに対する前記ベースコールを生成することと、を行う、請求項3に記載の人工知能ベースのシステム。
【請求項5】
前記ベースコールジェネレータが、コンセンサーを含むように更に構成されており、
前記コンセンサーが、前記尤度のうちの最も高い尤度に基づいて、前記現在の配列決定サイクルに対する、前記右隣接ベースコール予測、前記中心ベースコール予測、及び前記左隣接ベースコール予測の各々について予備ベースコールを判定し、それによって予備ベースコールの配列を作り出すことと、
前記予備ベースコールの配列の中の最も一般的なベースコールに基づいて、前記現在の配列決定サイクルに対する前記ベースコールを生成することと、を行う、請求項3に記載の人工知能ベースのシステム。
【請求項6】
前記ベースコールジェネレータが、
重み付きコンセンサーを含むように更に構成されており、前記重み付きコンセンサーが、前記尤度のうちの最も高い尤度に基づいて、前記現在の配列決定サイクルに対する、前記右隣接ベースコール予測、前記中心ベースコール予測、及び前記左隣接ベースコール予測の各々について予備ベースコールを判定し、それによって予備ベースコールの配列を生成することと、
前記予備ベースコールの配列の中の前記予備ベースコールのそれぞれ予備ベースコールに塩基ごとの重みを適用し、重み付き予備ベースコールの配列を作り出すことと、
前記重み付き予備ベースコールの配列の中の最も重い重み付きベースコールに基づいて、前記現在の配列決定サイクルに対する前記ベースコールを生成することと、を行う、請求項3に記載の人工知能ベースのシステム。
【請求項7】
前記尤度が、ソフトマックス層によって作り出される指数関数的に正規化されたスコアである、請求項3に記載の人工知能ベースのシステム。
【請求項8】
訓練中に、
前記ニューラルネットワークベースのベースコーラの前記右隣接出力、前記中心出力、及び前記左隣接出力に基づいて、前記現在の配列決定サイクル、前記以前の配列決定サイクル、及び前記後続の配列決定サイクルについて前記ベースコールジェネレータによって生成されたベースコールと、グラウンドトゥルースベースコールと間の誤差を計算することと、
前記誤差に基づいて、前記現在の配列決定サイクル、前記以前の配列決定サイクル、及び前記後続の配列決定サイクルに対する勾配を判定することと、前記勾配を逆伝搬することによって、前記ニューラルネットワークベースのベースコーラのパラメータを更新することと、を行うトレーナを含むように更に構成されている、請求項1に記載の人工知能ベースのシステム。
【請求項9】
前記現在の配列決定サイクルに対する前記右隣接ベースコール予測が、前記現在の配列決定サイクルと前記以前の配列決定サイクルとの間のプレフェージング効果を考慮に入れる、請求項1に記載の人工知能ベースのシステム。
【請求項10】
前記現在の配列決定サイクルに対する前記中心ベースコール予測が、前記現在の配列決定サイクルと前記以前の配列決定サイクルとの間の前記プレフェージング効果、及び前記現在の配列決定サイクルと前記後続の配列決定サイクルとの間のフェージング効果を考慮に入れる、請求項9に記載の人工知能ベースのシステム。
【請求項11】
前記現在の配列決定サイクルに対する前記左隣接ベースコール予測が、前記現在の配列決定サイクルと前記後続の配列決定サイクルとの間の前記フェージング効果を考慮に入れる、請求項10に記載の人工知能ベースのシステム。
【請求項12】
ベースコールするための人工知能ベースのシステムであって、前記システムが、
ホストプロセッサと、
前記ホストプロセッサによってアクセス可能な、配列決定動作のための配列決定サイクルに対する画像データを記憶するメモリであって、前記配列決定動作のための現在の配列決定サイクルに対する現在の画像データが、前記現在の配列決定サイクルにおいて取り込まれた検体及びそれらの周囲の背景の強度放射を描写する、メモリと、
前記メモリへのアクセス権を有する構成可能なプロセッサであって、前記構成可能なプロセッサが、
複数の実行クラスタであって、前記複数の実行クラスタ内の前記実行クラスタが、ニューラルネットワークを実行するように構成されている、複数の実行クラスタと、
前記メモリへのアクセス権及び前記複数の実行クラスタ内の前記実行クラスタへのアクセス権を有するデータフロー論理であって、前記現在の画像データと、前記現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データと、前記現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データとを、前記複数の実行クラスタ内の利用可能な実行クラスタに提供するように構成されており、前記実行クラスタに、前記現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測を作り出すために、前記現在の画像データ、前記以前の画像データ、及び前記後続の画像データの異なるグルーピングを前記ニューラルネットワークに適用することと、前記第1のベースコール予測、前記第2のベースコール予測、及び前記第3のベースコール予測に基づいて前記現在の配列決定サイクルに対するベースコールを生成するのに使用するために、前記現在の配列決定サイクルに対する前記第1のベースコール予測、前記第2のベースコール予測、及び前記第3のベースコール予測を前記メモリにフィードバックすることと、を行わせる、データフロー論理と、を含む、構成可能なプロセッサと、を備える、人工知能ベースのシステム。
【請求項13】
前記異なるグルーピングが、前記現在の画像データ及び前記以前の画像データを含む第1のグルーピング、前記現在の画像データ、前記以前の画像データ、及び前記後続の画像データを含む第2のグルーピング、並びに前記現在の画像データ及び前記後続の画像データを含む第3のグルーピングを含む、請求項12に記載の人工知能ベースのシステム。
【請求項14】
前記実行クラスタが、前記第1のグルーピングを前記ニューラルネットワークに適用して前記第1のベースコール予測を作り出し、前記第2のグルーピングを前記ニューラルネットワークに適用して前記第2のベースコール予測を作り出し、前記第3のグルーピングを前記ニューラルネットワークに適用して前記第3のベースコール予測を作り出す、請求項13に記載の人工知能ベースのシステム。
【請求項15】
前記現在の配列決定サイクルに対する前記第1のベースコール予測、前記第2のベースコール予測、及び前記第3のベースコール予測が、前記現在の配列決定サイクルにおいて前記検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する、請求項12に記載の人工知能ベースのシステム。
【請求項16】
前記データフロー論理が、前記現在の配列決定サイクルに対する前記ベースコールを生成するように更に構成されており、前記生成することが、前記現在の配列決定サイクルに対する前記第1のベースコール予測、前記第2のベースコール予測、及び前記第3のベースコール予測にわたる前記尤度を塩基ごとに合計することと、
前記塩基ごとに合計することに基づいて、塩基ごとの平均を判定することと、
前記塩基ごとの平均のうちの最も高い平均に基づいて、前記現在の配列決定サイクルに対する前記ベースコールを生成することと、によって行われる、請求項15に記載の人工知能ベースのシステム。
【請求項17】
ベースコールのための人工知能ベースの方法であって、前記方法が、
配列決定動作のための現在の配列決定サイクルに対する現在の画像データ、前記現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データ、及び前記現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データにアクセスすることと、
ニューラルネットワークベースのベースコーラを介して、前記現在の画像データ、前記以前の画像データ、及び前記後続の画像データの異なるグルーピングを処理し、前記現在の配列決定サイクルに対する複数のコール予測を作り出すことと、
前記複数のベースコール予測に基づいて、前記現在の配列決定サイクルに対するベースコールを生成することと、を含む、人工知能ベースの方法。
【請求項18】
ベースコールするための人工知能ベースの方法であって、前記方法が、
ベースコールのそれぞれの反復を実行することに応答して、特定の配列決定サイクルに対するそれぞれのベースコールを生成することを含み、
前記それぞれの反復が、配列サイクルのそれぞれのウィンドウのそれぞれの入力セットを処理し、
前記配列決定サイクルのそれぞれのウィンドウが、前記特定の配列決定サイクルを、少なくとも1つの重複サイクル、及び1つ又はそれ以上の非重複サイクルとして有する、人工知能ベースの方法。
【請求項19】
前記特定の配列決定サイクルが、前記配列サイクルのそれぞれのウィンドウ内の異なる位置に出現する、請求項18に記載の人工知能ベースのシステム。
【請求項20】
前記特定の配列決定サイクルが、配列サイクルの2つのウィンドウ間の同じ位置に出現する、請求項18に記載の人工知能ベースのシステム。
【発明の詳細な説明】
【技術分野】
【0001】
開示される技術は、人工知能タイプのコンピュータ及びデジタルデータ処理システム、並びにインテリジェンス(すなわち、知識ベースシステム、推論システム、及び知識獲得システム)の模倣(emulation)のための対応するデータ処理方法及び製品に関し、不確実性における推論のためのシステム(例えば、ファジィ論理システム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。
【0002】
(優先権出願)
本出願は、2020年2月20日に出願された、「ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANY BASE CALLING」と題する米国仮特許出願第62/979,414号(代理人整理番号第ILLM1016-1/IP-1858-PRV)、及び2021年2月19日に出願された、「ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANY BASE CALLING」と題する米国特許出願第17/180,542号(代理人整理番号ILLM1016-2/IP-1858-US)の優先権及び利益を主張する。優先権出願は、本明細書に完全に記載されているかのように、全ての目的のために参照により本明細書に組み込まれる。
【0003】
(組み込み)
以下は、本明細書に完全に記載されているかのように、参照により組み込まれる。
【0004】
2020年2月20日に出願された、「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES」と題する米国仮特許出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された、「KNOWLEDGE DISTILLATION-BASED COMPRESSION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER」と題する米国仮特許出願第62/979,385号(代理人整理番号ILLM1017-1/IP-1859-PRV)、
2020年8月28日に出願された、「DETECTING AND FILTERING CLUSTERS BASED ON ARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS」と題する米国仮特許出願第63/072,032号(代理人整理番号ILLM1018-1/IP-1860-PRV)、
2020年2月20日に出願された、「MULTI-CYCLE CLUSTER BASED REAL TIME ANALYSIS SYSTEM」と題する米国特許仮出願第62/979,412号(代理人整理番号ILLM1020-1/IP-1866-PRV)、
2020年2月20日に出願された、「DATA COMPRESSION FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国仮特許出願第62/979,411号(代理人整理番号ILLM1029-1/IP-1964-PRV)、
2020年2月20日に出願された、「SQUEEZING LAYER FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国仮特許出願第62/979,399号(代理人整理番号ILLM1030-1/IP-1982-PRV)、
2020年3月20日に出願された、「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国非仮特許出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)、
2020年3月20日に出願された、「ARTIFICIAL INTELLIGENCE-BASED GENERATION OF SEQUENCING METADATA」と題する米国非仮特許出願第16/825,991号(代理人整理番号ILLM1008-17/IP-1741-US)、
2020年3月20日に出願された、「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国非仮特許出願第16/826,126号(代理人整理番号ILLM1008-18/IP-1744-US)、
2020年3月20日に出願された、「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国非仮特許出願第16/826,134号(代理人整理番号第ILLM1008-19/IP-1747-US)、及び
2020年3月21日に出願された、「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING,」と題する米国非仮特許出願第16/826,168号(代理人整理番号ILLM1008-20/IP-1752-PRV-US)。
【背景技術】
【0005】
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0006】
深層ニューラルネットワーク(Deep neural networks)は、高レベル機能を連続的にモデル化するために、複数の非線形及び複雑な変換層を使用する、人工ニューラルネットワークの類である。深層ニューラルネットワークは、観測された出力と予測出力との間の差を伝達してパラメータを調整する逆伝搬を介してフィードバックを提供する。深層ニューラルネットワークは、大きな訓練データセットの利用可能性、並列分散コンピューティングの能力、及び高度な訓練アルゴリズムと共に進化している。深層ニューラルネットワークは、コンピュータビジョン、音声認識、及び自然言語処理などの多数のドメインにおける主な進歩を促進している。
【0007】
畳み込みニューラルネットワーク(Convolutional neural network、CNN)及び反復ニューラルネットワーク(Recurrent Neural Network、RNN)は、深層ニューラルネットワークの構成要素である。畳み込みニューラルネットワークは、特に、畳み込み層、非線形層、及びプーリング層を含む構造で画像認識に成功してきた。反復ニューラルネットワークは、パーセプトロン、長い短期メモリユニット、及びゲートされた反復単位のような構成単位間の周期的接続を有する入力データの連続的な情報を利用するように設計される。加えて、多くの他の新興の深層ニューラルネットワークが、深層時空間ニューラルネットワーク、多次元反復ニューラルネットワーク、及び畳み込み自動エンコーダなどの限定された状況に関して提案されてきた。
【0008】
深層ニューラルネットワークの訓練の目標は、各層における重みパラメータの最適化であり、このことは、より好適な階層表現がデータから学習され得るように、より単純な特徴を複雑な特徴に徐々に組み合わせる。最適化プロセスの単一サイクルは、以下のように構成される。まず、訓練データセットと仮定すると、前方へのパスは、各層内の出力を順次計算し、ネットワークを通って機能信号を順方向に伝搬する。最終出力層において、客観的な損失関数は、推測された出力と所与のラベルとの間の誤差を測定する。訓練誤差を最小化するために、後方へのパスは、連鎖ルールを使用して、誤差信号を逆伝搬し、ニューラルネットワーク全体の全ての重みに対する勾配を計算する。最後に、確率勾配降下に基づいて最適化アルゴリズムを使用して確率パラメータが更新される。バッチ勾配降下が完全データセットごとにパラメータ更新するのに対し、確率的勾配降下は、データ例の各々の小さいセットについて更新を実行することによって確率的近似値を提供する。いくつかの最適化アルゴリズムは確率的勾配降下に由来する。例えば、Adagrad and Adam訓練アルゴリズムは、それぞれ、各パラメータの更新頻度及び勾配のモーメントに基づいて学習率を適応的に修正しながら、確率的勾配降下を実行する。
【0009】
深層ニューラルネットワークの訓練における別のコア要素は規則化であり、規則化は、過剰適合を回避し、したがって良好な一般化性能を達成することを意図する戦略を指す。例えば、重み減衰は、重みパラメータがより小さい絶対値に収束するように、客観的損失関数にペナルティ項を追加する。ドロップアウトは、訓練中にニューラルネットワークから隠れたユニットをランダムに除去し、可能なサブネットワークの集合体とみなすことができる。ドロップアウトの能力を向上させるために、新たな起動関数、maxout、及びrnnDropと呼ばれる反復性ニューラルネットワークに対するドロップアウトのバリアントが提案されている。更に、バッチ正規化は、ミニバッチ内の各アクティブ化に関するスカラ特徴の正規化を介した新たな規則化方法を提供し、各々の平均及び分散をパラメータとして学習する。
【0010】
配列データが多次元及び高次元であると仮定すると、深層ニューラルネットワークは、それらの広範な適用性及び強化された予測能力により、生物情報科学研究のためにかなり有望である。畳み込みニューラルネットワークは、モチーフ発見、病原性変異体識別、及び遺伝子発現推測などのゲノミクスにおける配列に基づく問題を解決するために採用されている。畳み込みニューラルネットワークは、有意な生物学的機能を有すると推定されるデオキシリボ核酸(deoxyribonucleic acid、DNA)中の短い反復する局所的パターンである配列モチーフを取り込むことができるため、DNAを研究するのに特に有用な重み共有戦略を使用する。畳み込みニューラルネットワークの顕著な特徴は、畳み込みフィルタの使用である。
【0011】
精巧に設計され、手動で巧妙に作り上げられた特徴に基づく従来の分類アプローチとは異なり、畳み込みフィルタは、知識の情報表現に生入力データをマッピングするプロセスに類似した特徴の適応学習を実行する。この意味では、畳み込みフィルタは、そのようなフィルタのセットが入力内の関連するパターンを認識し、訓練手順中にそれ自体を更新することができるため、一連のモチーフスキャナーとして機能する。反復ニューラルネットワークは、タンパク質又はDNA配列などの様々な長さの連続的データにおける長距離依存性を捉えることができる。
【0012】
したがって、テンプレートの生成及びベースコールのための、理にかなった深層学習ベースの枠組みを使用する機会が生じる。
【0013】
ハイスループット技術の時代では、努力ごとに最も低いコストで解釈可能なデータの最高収率を蓄積することは、重大な課題を残している。クラスタ形成のためにブリッジ増幅を利用するものなどの核酸配列決定のクラスタベースの方法は、核酸配列決定のスループットを増加させる目的に有益な貢献をしている。これらのクラスタベースの方法は、固体支持体上に固定化された核酸の密集した集団を配列決定することに依存し、典型的には、固体支持体上の別個の場所に位置する複数のクラスタを同時に配列決定する過程で生成される光信号を抑制するための画像解析ソフトウェアの使用を伴う。
【0014】
しかしながら、このような固相核酸クラスタベースの配列決定技術は、達成することができるスループットの量を制限する相当な障害に直面している。例えば、クラスタベースの配列決定方法では、空間的に分解されるには互いに物理的に近接し過ぎる、又は実際には、固体支持体上で物理的に重なり合う2つ以上のクラスタの核酸配列を決定することは障害物をもたらす可能性がある。例えば、現在の画像解析ソフトウェアは、2つの重複クラスタのうちのどれから光信号が発せられたかを判定するための貴重な時間及び計算リソースを必要とする場合がある。結果として、得られ得る核酸配列情報の量及び/又は質に関して、様々な検出プラットフォームにとって妥協が不可避である。
【0015】
高密度核酸凝集体ベースのゲノミクス法は、ゲノム分析の他の領域にも同様に延在する。例えば、核酸クラスタベースのゲノミクスは、配列決定用途、診断及びスクリーニング、遺伝子発現分析、エピジェネティクス分析、多型の遺伝分析などに使用することができる。これらの核酸クラスタベースのゲノミクス技術のそれぞれは、厳密に近接して又は空間的に重複する核酸クラスタから生成されたデータを分解する能力がない場合に制限される。
【0016】
明らかに、ゲノミクス(例えば、任意の及び全ての動物、植物、微生物又は他の生物学的種又若しくは集団のゲノム特性評価のための)、薬理ゲノミクス、トランスクリプトミクス、診断、予後診断、生物医学的リスク評価、臨床及び研究遺伝学、個別化医療、薬効及び薬物相互作用評価、獣医学、農業、進化的生物多様性研究、水産養殖、林業、海洋学、生態学的管理及び環境管理、並びに他の目的を含む、様々な用途のために、迅速かつ費用効果的に取得され得る核酸配列データの質及び量を向上させる必要性が残っている。
【0017】
開示される技術は、ハイスループット核酸配列決定技術におけるスループットのレベルを増加させることを含めて、これら及び同様のニーズに対処するニューラルネットワークベースの方法及びシステムを提供すると共に、他の関連する利点を提供する。
【発明の概要】
【課題を解決するための手段】
【0018】
段落[0176]-段落[0177]を参照。
【0019】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様が、以下の図面を参照して説明される。
【図面の簡単な説明】
【0020】
【
図1D】開示される多対多ベースコールの異なる例を例示する。
【
図1E】開示される多対多ベースコールの異なる例を例示する。
【
図2】ベースコールジェネレータの異なる実施態様を示す。
【
図3】ベースコールジェネレータの異なる実施態様を示す。
【
図4】ベースコールジェネレータの異なる実施態様を示す。
【
図5】開示される多重サイクル勾配逆伝搬の一実施態様を示す。
【
図6】開示される技術の一実施態様のフローチャートである。
【
図7】開示される技術の技術的効果及び利点を例示する。
【
図8A】配列決定システムの一実施態様を描写する。配列決定システムは、構成可能なプロセッサを含む。
【
図8B】配列決定システムの一実施態様を描写する。配列決定システムは、構成可能なプロセッサを含む。
【
図9】ベースコールセンサー出力など、配列決定システムからのセンサーデータの分析のためのシステムの簡略ブロック図である。
【
図10】ホストプロセッサによって実行されるランタイムプログラムの機能を含む、ベースコール動作の態様を示す簡略図である。
【
図11】
図9の構成可能なプロセッサなどの構成可能プロセッサの構成の簡略図である。
【
図12】本明細書に開示されるベースコール技術を実装するために、開示される配列決定システムによって使用され得るコンピュータシステムである。
【発明を実施するための形態】
【0021】
以下の考察は、当業者が、開示される技術を制作及び使用することを可能にするために提示され、特定の用途及びその要件の文脈おいて提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。これにより、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
【0022】
配列決定画像
ベースコールは、配列のヌクレオチド組成を判定するプロセスである。ベースコールは、IlluminaのiSeq、HiSeqX、HiSeq3000、HiSeq4000、HiSeq2500、NovaSeq6000、NextSeq550、NextSeq1000、NextSeq2000、NextSeqDx、MiSeq、及びMiSeqDxなどの配列決定機器によって実行される配列決定動作(又は配列決定反応)中に作り出される画像データ、すなわち、配列決定画像を分析することを伴う。
【0023】
以下の考察は、一実施態様による、配列決定画像がどのように生成されるか、及びそれが何を描写するかを概説する。
【0024】
ベースコールは、配列決定画像に符号化された強度データをヌクレオチド配列に復号(decode)する。一実施態様では、Illumina配列決定プラットフォームは、ベースコールのための周期的可逆的ターミネーション(Cyclic Reversible Termination、CRT)化学を採用する。このプロセスは、蛍光標識されたヌクレオチドを有するテンプレート鎖に相補的な新生鎖を成長させる一方で、新たに付加された各ヌクレオチドの発せられたシグナルを追跡することに依拠する。蛍光標識されたヌクレオチドは、ヌクレオチドタイプの蛍光団信号を固定する3’除去可能ブロックを有する。
【0025】
配列決定は、繰り返されるサイクルの中で生じ、各サイクルは3つのステップ、(a)蛍光標識されたヌクレオチドを付加することによって新生鎖を伸長させること、(b)配列決定器具の光学システムの1つ又はそれ以上のレーザを使用して蛍光団を励起して、光学システムの異なるフィルタを通して画像化し、配列決定画像を得ること、(c)次の配列決定サイクルに備えて蛍光団を切断し、3’ブロックを除去すること、を含む。組み込みサイクル及び撮像サイクルが、指定された数の配列決定サイクルまで繰り返し、リード長さを画定する。このアプローチを使用して、各サイクルはテンプレート鎖に沿って新しい位置を問い合わせる。
【0026】
Illuminaシーケンサの途方もない能力は、CRT反応を受ける数百万のクラスタ又は更には数十億のクラスタ(「検体」とも呼ばれる)を同時に実行及び感知するそれらの能力に由来する。クラスタは、テンプレート鎖の約千個の同一のコピーを含むが、クラスタはサイズ及び形状が異なる。配列決定動作前に、入力ライブラリのブリッジ増幅又は排除増幅によって、テンプレート鎖からクラスタを成長させる。増幅及びクラスタ成長の目的は、撮像デバイスが単一鎖の蛍光団信号を確実に感知することができないため、発せられたシグナルの強度を増大させることである。しかしながら、クラスタ内の鎖の物理的距離は小さいため、撮像デバイスは、鎖のクラスタを単一スポットとして知覚する。
【0027】
配列決定は、フローセル(又はバイオセンサー)-入力鎖を保持する小さなガラススライドにおいて生じる。フローセルは、顕微鏡撮像、励起レーザ、及び蛍光フィルタを含む光学システムに接続される。フローセルは、レーンと呼ばれる複数のチャンバを含む。レーンは、互いに物理的に分離されており、試料交差汚染なしに区別可能である、異なるタグ付き配列決定ライブラリを含有し得る。いくつかの実施態様では、フローセルは、パターン化された表面を備える。「パターン化された表面」は、固体支持体の露出層内又はその上の異なる領域の配置を指す。
【0028】
配列決定器具の撮像デバイス(例えば、電荷結合素子(Charge-Coupled Device、CCD)又は相補的金属酸化膜半導体(Complementary Metal-Oxide-Semiconductor、CMOS)センサーなどの固体イメージャ)は、タイルと呼ばれる一連の非重複領域内のレーンに沿った複数の場所でスナップショットを取る。例えば、レーン当たり64又は96個のタイルが存在し得る。タイルは、数十万~数百万のクラスタを保持する。
【0029】
配列決定動作の出力は、配列決定画像である。配列決定画像は、ピクセル化ユニット(例えば、ピクセル、スーパーピクセル、サブピクセル)のグリッド(又はアレイ)を使用して、クラスタ及びそれらの周囲の背景の強度放射を示す。強度放射は、ピクセル化ユニットの強度値として記憶される。配列決定画像は、ピクセル化ユニットのグリッドの寸法w×hを有し、w(幅)及びh(高さ)は、1~100,000の範囲の任意の数(例えば、115×115、200×200、1800×2000、2200×25000、2800×3600、4000×400)である。いくつかの実施態様では、w及びhは同じである。他の実施態様では、wとhとは異なる。配列決定画像は、配列決定動作中にヌクレオチド配列にヌクレオチドを組み込む結果として生成される強度放射を描写する。強度放射は、関連するクラスタ及びそれらの周囲の背景からのものである。
【0030】
ニューラルネットワークベースのベースコール
以下の考察は、本明細書に記載のニューラルネットワークベースのベースコーラ102に焦点を当てている。まず、一実施態様による、ニューラルネットワークベースのベースコーラ102への入力について説明される。次いで、ニューラルネットワークベースのベースコーラ102の構造及び形態の例が提供される。最後に、一実施態様による、ニューラルネットワークベースのベースコーラ102の出力について説明される。
【0031】
データフロー論理は、ベースコールのために、ニューラルネットワークベースのベースコーラ102に配列決定画像を提供する。ニューラルネットワークベースのベースコーラ102は、パッチごとに(又はタイルごとに)配列決定画像にアクセスする。パッチの各々は、配列決定画像を形成するピクセル化ユニットのグリッド内のピクセル化ユニットのサブグリッド(又はサブアレイ)である。パッチは、ピクセル化ユニットのサブグリッドの寸法qxrを有し、q(幅)及びr(高さ)は、1~10000の範囲の任意の数(例えば、3×3、5×5、7×7、10×10、15×15、25×25、64×64、78×78、115×115)である。いくつかの実施態様では、qとrとは同じである。他の実施態様では、qとrとは異なる。いくつかの実施態様では、配列決定画像から抽出されたパッチは、同じサイズである。他の実施態様では、パッチは、異なるサイズである。いくつかの実施態様では、パッチは、重複するピクセル化単位を(例えば、エッジ上に)有することができる。
【0032】
配列決定は、対応するm画像チャネルの配列決定サイクルごとにm配列決定画像を作り出す。すなわち、配列決定画像の各々は、1つ又はそれ以上の画像(又は強度)チャネル(カラー画像の赤、緑、青(RGB)チャネルに類似する)を有する。一実施態様では、各画像チャネルは、複数のフィルタ波長帯域のうちの1つに対応する。別の実施態様では、各画像チャネルは、配列決定サイクルにおける複数の撮像イベントのうちの1つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザによる照明と特定の光学フィルタを通した撮像との組み合わせに対応する。画像パッチは、特定の配列決定サイクルに対するm画像チャネルの各々からタイル化(又はアクセス)される。4-、2-、及び1-チャネル化学などの異なる実施態様では、mは、4又は2である。他の実施態様では、mは、1、3、又は4よりも大きい。
【0033】
例えば、配列決定動作が2つの異なる画像チャネル、すなわち、青色チャネル及び緑色チャネルを使用して実装されると考える。次いで、各配列決定サイクルにおいて、配列決定動作は、青色画像及び緑色画像を作り出す。このようにして、配列決定動作のための一連のk配列決定サイクルに対して、k対の青色画像及び緑色画像の配列が出力として作り出され、配列決定画像として記憶される。これによって、一連のk対の青色画像バッチ及び緑色画像パッチの配列が、ニューラルネットワークベースのベースコーラ102によってパッチレベル処理のために生成される。
【0034】
ベースコールの単一の反復(又は順方向パスの単一のインスタンス若しくは単一の順方向トラバーサル)のニューラルネットワークベースのベースコーラ102への入力画像データは、複数の配列決定サイクルのスライディングウィンドウのデータを含む。スライディングウィンドウは、例えば、現在の配列決定サイクル、1つ又はそれ以上の先行する配列決定サイクル、及び1つ又はそれ以上の後続の配列決定サイクルを含むことができる。
【0035】
一実施態様では、画像データは、3つの配列決定サイクルに対するデータを含むため、ベースコールされる現在(時間t)の配列決定サイクルに対するデータは、(i)左隣接/コンテキスト/以前の/先行する/前の(時間t-1)配列決定サイクルに対するデータ、及び(ii)右隣接/コンテキスト/次の/後続の/その後の(時間t+1)配列決定サイクルに対するデータを伴う。
【0036】
別の実施態様では、入力画像データが5つの配列決定サイクルに対するデータを含むため、ベースコールされる現在(時間t)の配列決定サイクルに対するデータは、(i)第1の左隣接/コンテキスト/以前の/先行する/前の(時間t-1)配列決定サイクルに対するデータ、(ii)第2の左隣接/コンテキスト/以前の/先行する/前の(時間t-2)配列決定サイクルに対するデータ、(iii)第1の右隣接/コンテキスト/次の/後続の/その後の(時間t+1)のデータ、及び(iv)第2の右隣接/コンテキスト/次の/後続の/その後の(時間t+2)配列決定サイクルに対するデータを伴う。
【0037】
更に別の実施態様では、入力画像データが7つの配列決定サイクルに対するデータを含むため、ベースコールされる現在(時間t)配列決定サイクルに対するデータは、(i)第1の左隣接/コンテキスト/以前の/先行する/前の(時間t-1)配列決定サイクルに対するデータ、(ii)第2の左隣接/コンテキスト/以前の/先行する/前の(時間t-2)配列決定サイクルに対するデータ、(iii)第3の左隣接/コンテキスト/以前の/先行する/前の(時間t-3)に対するデータ、(iv)第1の右隣接/コンテキスト/次の/後続の/その後の(時間t+1)配列決定サイクルに対するデータ、(v)第2の右隣接/コンテキスト/次の/後続の/その後の(時間t+2)配列決定サイクルに対するデータ、及び(vi)第3の右隣接/コンテキスト/次の/後続の/その後の(t+3)配列決定サイクルに対するデータを伴う。他の実施態様では、入力画像データは、単一の配列決定サイクルに対するデータを含む。更に他の実施態様では、入力画像データは、10、15、20、30、58、75、92、130、168、175、209、225、230、275、318、325、330、525、又は625の配列決定サイクルに対するデータを含む。
【0038】
一実施態様によれば、ニューラルネットワークベースのベースコーラ102は、その畳み込み層を通して画像パッチを処理し、代替表現を作り出す。次いで、代替表現は、出力層(例えば、ソフトマックス層)によって使用されて、現在(時間t)の配列決定サイクル又は配列決定サイクルの各々、すなわち、現在(時間t)の配列決定サイクル、第1及び第2の先行する(時間t-1、時間t-2)配列決定サイクル、並びに第1及び第2の後続の(時間t+1、時間t+2)配列決定サイクル、のいずれかに対するベースコールを生成する。結果として得られたベースコールは、配列決定リードを形成する。
【0039】
一実施態様では、ニューラルネットワークベースのベースコーラ102は、特定の配列決定サイクルに対する単一のターゲットクラスタのベースコールを出力する。別の実施態様では、ニューラルネットワークベースのベースコーラ102は、特定の配列決定サイクルに対する複数のターゲットクラスタ内の各ターゲットクラスタのベースコールを出力する。更に別の実施態様では、ニューラルネットワークベースのベースコーラ102は、複数の配列決定サイクル内の各配列決定サイクルに対する複数のターゲットクラスタ内の各ターゲットクラスタのベースコールを出力し、それによって、各ターゲットクラスタのベースコール配列を作り出す。
【0040】
一実施態様では、ニューラルネットワークベースのベースコーラ102は、多層パーセプトロン(Multilayer Perceptron、MLP)である。別の実施態様では、ニューラルネットワークベースのベースコーラ102は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラ102は、完全結合ニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースのベースコーラ102は、完全畳み込みニューラルネットワークである。また更なる実施態様では、ニューラルネットワークベースのベースコーラ102は、セマンティックセグメンテーションニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラ102は、敵対的生成ネットワーク(generative adversarial network、GAN)である。
【0041】
一実施態様では、ニューラルネットワークベースのベースコーラ102は、複数の畳み込み層を有する畳み込みニューラルネットワーク(convolution neural network、CNN)である。別の実施態様では、ニューラルネットワークベースのベースコーラ102は、長短期メモリネットワーク(long short-term memory network、LSTM)、双方向LSTM(bi-directional LSTM、Bi-LSTM)、又はゲート付き反復ユニット(gated recurrent unit、GRU)などの反復ニューラルネットワーク(recurrent neural network、RNN)である。更に別の実施態様では、ニューラルネットワークベースのベースコーラ102は、CNN及びRNNの両方を含む。
【0042】
更に他の実施態様では、ニューラルネットワークベースのベースコーラ102は、1D畳み込み、2D畳み込み、3D畳み込み、4D畳み込み、5D畳み込み、拡張又は単調畳み込み、転置畳み込み、深さ方向分離可能畳み込み、点畳み込み、1x1畳み込み、グループ畳み込み、平坦化畳み込み、空間及びクロスチャネル畳み込み、シャッフルされたグループ化畳み込み、空間分離可能畳み込み、並びに逆畳み込みを使用することができる。ニューラルネットワークベースのベースコーラ102は、ロジスティック回帰/ログ損失、多重クラスクロスエントロピー/ソフトマックス損失、バイナリクロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ又はそれ以上の損失関数を使用することができる。ニューラルネットワークベースのベースコーラ102は、TFRecord、圧縮符号化(例えば、PNG)、シャーディング、マップ変換のための並列コール、バッチング、プリフェッチ、モデル並列処理、データ並列処理、及び同期/非同期の確率的勾配降下(stochastic gradient descent、SGD)など、任意の並列処理、効率性、及び圧縮のスキームを使用することができる。ニューラルネットワークベースのベースコーラ102は、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲート付きメモリユニット(LSTM又はGRUなど)、残存ブロック、残存接続、ハイウェイ接続、スキップ接続、ピープホール接続、アクティブ化関数(例えば、整流線形ユニット(rectifying linear unit、ReLU)、リーキーReLU、指数線形ユニット(exponential liner unit、ELU)、シグモイド及び双曲線正接(hyperbolic tangent、tanh)などの非線形変換関数)、バッチ正規化層、正則化層、ドロップアウト、プーリング層(例えば、最大又は平均プーリング)、グローバル平均プーリング層、及びアテンションメカニズムを含むことができる。
【0043】
ニューラルネットワークベースのベースコーラ102は、逆伝搬ベースの勾配更新技術を使用して訓練される。ニューラルネットワークベースのベースコーラ102を訓練するために使用することができる例示的な勾配降下技術として、確率的勾配降下、バッチ勾配降下、及びミニバッチ勾配降下が挙げられる。ニューラルネットワークベースのベースコーラ102を訓練するために使用することができる勾配降下最適化アルゴリズムのいくつかの例は、Momentum、Nesterov加速勾配、Adagrad、Adadelta、RMSprop、AdaMax、Nadam、及びAMSGradである。
【0044】
一実施態様では、ニューラルネットワークベースのベースコーラ102は、異なる配列決定サイクルに対するデータの処理を分離するために専用構造を使用する。専用構造を使用する動機は、最初に説明される。上述のように、ニューラルネットワークベースのベースコーラ102は、現在の配列決定サイクル、1つ又はそれ以上の先行する配列決定サイクル、及び1つ又はそれ以上の後続の配列決定サイクルに対する画像パッチを処理する。追加の配列決定サイクルに対するデータは、配列固有のコンテキストを提供する。ニューラルネットワークベースのベースコーラ102は、訓練中に配列固有のコンテキストを学習し、それらをベースコールする。更に、事前及び事後配列決定サイクルに対するデータは、プレフェージング及びフェージング信号の2次の寄与を現在の配列決定サイクルに提供する。
【0045】
しかしながら、異なる配列決定サイクルにおいて、かつ異なる画像チャネル内に取り込まれる画像は、位置合わせ不良であり、互いに対して残存位置決め誤差を有する。この位置合わせ不良を考慮するために、専用構造は、配列決定サイクル間で情報を混合せず、配列決定サイクル内で情報を混合するだけである、空間畳み込み層を含む。
【0046】
空間畳み込み層(又は空間論理)は、畳み込みの「専用非共有」配列を通して複数の配列決定サイクルの各々に対するデータを独立して処理することによって分離を操作可能にする、いわゆる「分離畳み込み」を使用する。分離畳み込みは、任意の他の配列決定サイクルのデータ及び結果として得られた特徴マップを畳み込むことなく、所与の配列決定サイクル、すなわち、サイクル内のみのデータ及び結果として得られた特徴マップを畳み込む。
【0047】
例えば、入力画像データが、(i)ベースコールされる現在の(時間t)配列決定サイクルに対する現在の画像パッチ、(ii)以前(時間t-1)の配列決定サイクルに対する以前の画像パッチ、及び(iii)次(時間t+1)の配列決定サイクルに対する次の画像パッチを含むと考える。次いで、専用構造は、3つの別個の畳み込みパイプライン、すなわち、現在の畳み込みパイプライン、以前の畳み込みパイプライン、及び次の畳み込みパイプラインを開始する。現在のデータ処理パイプラインは、現在(時間t)の配列決定サイクルに対する現在の画像パッチを入力として受信し、複数の空間畳み込み層を通してそれを独立して処理して、いわゆる「現在の空間畳み込み表現」を最終空間畳み込み層の出力として作り出す。以前の畳み込みパイプラインは、以前(時間t-1)の配列決定サイクルに対する以前の画像パッチを入力として受信し、複数の空間畳み込み層を通してそれを独立して処理して、いわゆる「以前の空間畳み込み表現」を最終空間畳み込み層の出力として作り出す。次の畳み込みパイプラインは、次(時間t+1)の配列決定サイクルに対する次の画像パッチを入力として受信し、複数の空間畳み込み層を通してそれを独立して処理して、いわゆる「次の空間畳み込み表現」を最終空間畳み込み層の出力として作り出す。
【0048】
いくつかの実施態様では、現在の、以前の、及び次の畳み込みパイプラインは、並行して実行される。いくつかの実施態様では、空間畳み込み層は、専用構造内の空間畳み込みネットワーク(又はサブネットワーク)の一部である。
【0049】
ニューラルネットワークベースのベースコーラ102は、配列決定サイクル間、すなわち、サイクル間で情報を混合する時間的畳み込み層(又は時間論理)を更に含む。時間的畳み込み層は、空間畳み込みネットワークからそれらの入力を受信し、それぞれのデータ処理パイプラインに対して最終空間畳み込み層によって作り出される空間畳み込み表現で動作する。
【0050】
時間的畳み込み層のサイクル間動作自由度は、空間畳み込みネットワークへの入力として供給される画像データ内に存在する位置合わせ不良特性が、空間畳み込み層の配列によって実行される分離畳み込みのスタック又はカスケードによって空間畳み込み表現から除去されるという事実から生じる。
【0051】
時間的畳み込み層は、スライディングウィンドウベースでの後続の入力で入力チャネル上でグループごとに畳み込む、いわゆる「組み合わせの畳み込み」を使用する。一実施態様では、後続の入力は、以前の空間畳み込み層又は以前の時間的畳み込み層によって生成される後続の出力である。
【0052】
いくつかの実施態様では、時間的畳み込み層は、専用構造内の時間的畳み込みネットワーク(又はサブネットワーク)の一部である。時間的畳み込みネットワークは、空間畳み込みネットワークからその入力を受信する。一実施態様では、時間的畳み込みネットワークの第1の時間的畳み込み層は、配列決定サイクル間の空間畳み込み表現をグループごとに組み合わせる。別の実施態様では、時間的畳み込みネットワークのその後の時間的畳み込み層は、以前の時間的畳み込み層の後続の出力を組み合わせる。最終時間的畳み込み層の出力は、出力を生成する出力層に供給される。出力は、1つ又はそれ以上の配列決定サイクルで1つ又はそれ以上のクラスタをベースコールするために使用される。
【0053】
データフロー論理は、サイクルごとのクラスタデータをニューラルネットワークベースのベースコーラ102に提供する。サイクルごとのクラスタデータは、複数のクラスタに対するものであり、配列決定動作のための配列決定サイクルの第1のサブセットに対するものである。例えば、配列決定動作が150配列決定サイクルを有すると考える。次いで、配列決定サイクルの第1のサブセットは、150配列決定サイクルのうちの任意のサブセット、例えば、150サイクル配列決定動作のうちの最初の5、10、15、25、35、40、50、又は100の配列決定サイクルを含むことができる。また、各配列決定サイクルは、複数のクラスタ内のクラスタの強度放射を描写する配列決定画像を作り出す。このように、複数のクラスタに対する、及び配列決定動作のための配列決定サイクルの第1のサブセットに対するサイクルごとのクラスタデータは、150サイクル配列決定動作のための最初の5、10、15、25、35、40、50、又は100の配列決定サイクルに対してのみ配列決定画像を含み、150サイクル配列決定動作のための残りの配列決定サイクルに対する配列画像を含まない。
【0054】
ニューラルネットワークベースのベースコーラ102は、配列決定サイクルの第1のサブセット内の各配列決定サイクルにおいて複数のクラスタ内の各クラスタをベースコールする。そうするために、ニューラルネットワークベースのベースコーラ102は、サイクルごとのクラスタデータを処理し、サイクルごとのクラスタデータの中間表現を生成する。次いで、ニューラルネットワークベースのベースコーラ102は、出力層を通して中間表現を処理し、各クラスタに対してクラスタごとの確率四重鎖を、及び各配列決定サイクルに対してサイクルごとの確率四重鎖を作り出す。出力層の例としては、ソフトマックス関数、ログ-ソフトマックス関数、アンサンブル出力平均関数、多重レイヤパーセプトロン不確実関数、ベイズガウス分布関数、及びクラスタ強度関数が挙げられる。クラスタごと、サイクルごとの確率四重鎖は、確率四重鎖として記憶され、4つのヌクレオチド塩基A、C、T、及びGがあるため、本明細書では「塩基ごとの尤度」と称される。
【0055】
ソフトマックス関数は、多重クラス分類のための好ましい関数である。ソフトマックス関数は、全ての可能なターゲットクラスにわたって各ターゲットクラスの確率を計算する。ソフトマックス関数の出力範囲は、ゼロ~1であり、全ての確率の合計は1に等しい。ソフトマックス関数は、所与の入力値の指数及び全ての入力値の指数値の合計を計算する。入力値の指数と指数値の合計との比は、ソフトマックス関数の出力であり、本明細書では「指数正規化」と称される。
【0056】
形式的には、いわゆるソフトマックス分類器を訓練することは、クラスを返さず、むしろ各クラスの尤度の信頼性予測を返すため、真の分類器ではなくクラス確率への回帰である。ソフトマックス関数は、値のクラスを取り、1になる確率にそれらを変換する。ソフトマックス関数は、任意の実数値のn次元ベクトルを0~1の範囲内の実数値のn次元ベクトルにスカッシュする。したがって、ソフトマックス関数を使用することは、出力が有効で指数関数的に正規化された確率質量関数(非負及び1になる)であることを確実にする。
【0057】
直観的に、ソフトマックス関数は、最大関数の「ソフト」バージョンである。「ソフト」という用語は、ソフトマックス関数が連続的であり区別可能であるという事実に由来する。1つの最大要素を選択する代わりに、ベクトルを全体の部分に分割し、最大入力要素が比例してより大きな値を得て、他方が値のより小さい割合を得る。確率分布を出力する特性は、ソフトマックス関数を分類タスクにおける確率的解釈に適したものにする。
【0058】
zをソフトマックス層への入力のベクトルとして考える。ソフトマックス層ユニットは、ソフトマックス層内のノードの数であり、したがって、zベクトルの長さは、ソフトマックス層内のユニットの数である(10個の出力ユニットを有する場合、10個のz要素が存在する)。
【0059】
n-次元ベクトルZ=[z
1,z
2,...z
n]に対して、ソフトマックス関数は、指数正規化(exp)を使用して、範囲[0、1]内の正規化された値を有する別のn-次元ベクトルp(Z)を作り出し、それを1に加算する。
【数1】
【0060】
例えば、ソフトマックス関数は、
【数2】
として3つのクラスに適用される。3つの出力は常に、1になることに留意されたい。したがって、それらは、離散確率質量関数を定義する。
【0061】
特定のクラスタごと、サイクルごとの確率四重鎖は、特定の配列決定サイクルで特定のクラスタに組み込まれた塩基がA、C、T、及びGである確率を識別する。ニューラルネットワークベースのベースコーラ102の出力層がソフトマックス関数を使用する場合、クラスタごと、サイクルごとの確率四重鎖の確率は、合計して1になる指数関数的に正規化された分類スコアである。
【0062】
一実施態様では、本方法は、出力層を介して畳み込み表現を処理して、A、C、T、及びGである、現在の配列決定サイクルでターゲット検体に組み込まれる塩基の尤度を生成することと、尤度に基づいて、塩基をA、C、T、又はGと分類することと、を含む。一実施態様では、尤度は、ソフトマックス層によって生成される、指数関数的に正規化されたスコアである。
【0063】
一実施態様では、本方法は、出力から、現在の配列決定サイクルでターゲット検体に組み込まれる塩基がA、C、T、又はGであることのクラスラベルを識別するターゲット検体に対する出力ペアを導出することと、クラスラベルに基づいて、ターゲット検体をベースコールすることと、を含む。一実施態様では、1、0のクラスラベルは、A塩基を識別し、0、1のクラスラベルは、C塩基を識別し、1、1のクラスラベルは、T塩基を識別し、0、0のクラスラベルは、G塩基を識別する。別の実施態様では、1、1のクラスラベルは、A塩基を識別し、0、1のクラスラベルは、C塩基を識別し、0.5、0.5のクラスラベルは、T塩基を識別し、0、0のクラスラベルは、G塩基を識別する。更に別の実施態様では、1、0のクラスラベルは、A塩基を識別し、0、1のクラスラベルは、C塩基を識別し、0.5、0.5のクラスラベルは、T塩基を識別し、0、0のクラスラベルは、G塩基を識別する。更に更なる実施態様では、1、2のクラスラベルは、A塩基を識別し、0、1のクラスラベルは、C塩基を識別し、1、1のクラスラベルは、T塩基を識別し、0、0のクラスラベルは、G塩基を識別する。一実施態様では、本方法は、出力から、現在の配列決定サイクルでターゲット検体に組み込まれる塩基がA、C、T、又はGであることを識別するターゲット検体に対するクラスラベルを導出することと、クラスラベルに基づいて、ターゲット検体をベースコールすることと、を含む。一実施態様では、0.33のクラスラベルは、A塩基を識別し、0.66のクラスラベルは、C塩基を識別し、1のクラスラベルは、T塩基を識別し、0のクラスラベルは、G塩基を識別する。別の実施態様では、0.50のクラスラベルは、A塩基を識別し、0.75のクラスラベルは、C塩基を識別し、1のクラスラベルは、T塩基を識別し、0.25のクラスラベルは、G塩基を識別する。一実施態様では、本方法は、出力から単一の出力値を導出することと、塩基A、C、T、及びGに対応するクラス値範囲に対して単一の出力値を比較することと、比較に基づいて、単一の出力値を特定のクラス値範囲に割り当てることと、割り当てに基づいて、ターゲット検体をベースコールすることと、を含む。一実施態様では、単一の出力値は、シグモイド関数を使用して導出され、単一の出力値は、0~1の範囲である。別の実施態様では、0~0.25のクラス値範囲は、A塩基を表し、0.25~0.50のクラス値範囲は、C塩基を表し、0.50~0.75のクラス値範囲は、T塩基を表し、0.75~1のクラス値範囲は、G塩基を表す。
【0064】
ニューラルネットワークベースのベースコーラ102に関する追加の詳細は、2019年3月21日に出願された、「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国仮特許出願第62/821,766号(代理人整理番号ILLM1008-9/IP-1752-PRV)に見出すことができ、当該米国仮特許出願は、参照により本明細書に組み込まれる。
【0065】
多対多ベースコール
開示される技術は、一実施態様に従って、ニューラルネットワークベースのベースコーラ102に、所与の入力のウィンドウについて、中心配列決定サイクルに対してのみではなく、隣接配列決定サイクルに対してもベースコールを生成させる。すなわち、一実装形態では、開示される技術は、所与の入力ウィンドウについて、サイクルN、サイクルN+1、サイクルN-1、サイクルN+2、サイクルN-2などのベースコールを同時に生成する。すなわち、ニューラルネットワークベースのベースコーラ102の単一の順方向伝搬/トラバース/ベースコール反復は、配列決定サイクルの入力ウィンドウ内の複数の配列決定サイクルに対するベースコールを生成し、これは本明細書では「多対多ベースコール」と称される。
【0066】
次いで、開示される技術は、開示される多対多ベースコールを使用して、入力の複数のスライドウィンドウにわたって出現した同じターゲット配列決定サイクルに対する複数のベースコールを生成する。例えば、ターゲット配列決定サイクルは、入力の複数のスライディングウィンドウ内の異なる位置で出現し得る(例えば、第1のスライドウィンドウ内の位置N+2で開始し、第2のスライドウィンドウ内の位置N+1に進み、第3のスライドウィンドウ内の位置Nで終了する)。
【0067】
ターゲット配列決定サイクルを複数回ベースコールすることにより、ターゲット配列決定サイクルに対する正確なベースコールの複数の候補が作り出される。開示される技術は、正確なベースコールの複数の候補を集合体として評価し、ターゲット配列決定サイクルに対する最終ベースコールを判定する。ターゲット配列決定サイクルに対する最終ベースコールは、平均化、コンセンサス、及び重み付きコンセンサスのような集計分析技術を使用して選択することができる。
【0068】
図1A、
図1B、及び
図1Cは、開示される多対多ベースコール100を示している。ニューラルネットワークベースのベースコーラ102(すなわち、ベースコーラ102)は、開示される技術の一実施態様に従って、少なくとも右隣接入力、中心入力、及び左隣接入力を処理し、少なくとも右隣接出力、中心出力、及び左隣接出力を作り出す。
【0069】
多対多ベースコール100は、ベースコーラ102への入力としてn回の配列決定サイクル対してデータを提供し、ベースコールの1回の反復(すなわち、1つの順方向パスインスタンス)において、n回のサイクルにおける任意の数のサイクルに対するベースコールを生成するように構成されている。ターゲット配列決定サイクル108は、n回ベースコールされ得、ベースコール反復のうちのn回において様々な位置で出現/発生/消滅し得る。
【0070】
ターゲット配列決定サイクル108は、いくつかのベースコール反復における中心配列決定サイクル(
図1B)であり得る。他の反復では、ターゲット配列決定サイクル108は、中心配列決定サイクルに近接する右隣接/コンテキスト配列決定サイクル(
図1A)であり得るか、又は中心配列決定サイクルに近接する左隣接/コンテキスト配列決定サイクル(
図1C)であり得る。中心配列決定サイクルからの右オフセット又は左オフセットも変化し得る。すなわち、ベースコール反復のn回におけるターゲット配列決定サイクル108は、中心位置で、中心位置のすぐ右で、中心位置のすぐ左で、中心位置の右への任意のオフセットで、中心位置の左への任意のオフセットで、又はベースコール反復のn回における任意の他の位置で、のいずれかで消滅し得る。ターゲット配列決定サイクルに対するベースコール反復は、配列決定サイクルの所与の入力ウィンドウにおいて、様々な長さの配列決定サイクルの入力を有することができ、また様々な長さの配列決定サイクルに対する複数のベースコール出力を有することができる。
【0071】
一実装態様では、開示される技術は、配列決定動作のための配列サイクルに対して生成されたサイクルごとの検体チャネルセットのプログレッションにアクセスすることと、ニューラルネットワークベースのベースコーラ102が、配列決定動作のための配列決定サイクルの被験者ウィンドウのプログレッション中にサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、配列決定サイクルの被験者ウィンドウ内の3つ又はそれ以上の配列決定サイクルの暫定ベースコール予測を生成するように、ニューラルネットワークベースのベースコーラ102を介して、配列決定動作のための配列決定サイクルのウィンドウのプログレッション中のサイクルごとの検体チャネルセットのウィンドウを処理することと、特定の配列決定サイクルが異なる位置に出現した複数のウィンドウから、ニューラルネットワークベースのベースコーラ102を使用して、特定の配列決定サイクルの暫定ベースコール予測を生成することと、暫定的ベースコール予測に基づいて、特定の配列決定サイクルのベースコールを判定することと、を含む。
【0072】
一実装形態では、開示される技術は、配列決定動作のための配列サイクルに対して生成された一連のサイクルごとの検体チャネルセットにアクセスすることと、ニューラルネットワークベースのベースコーラ102が、配列決定動作のための配列決定サイクルの被験者ウィンドウのシリーズにおいてサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、配列決定サイクルの被験者ウィンドウ内の2つ又はそれ以上の配列決定サイクルのベースコール予測を生成するように、ニューラルネットワークベースのベースコーラ102を介して、配列決定動作のための配列決定サイクルのウィンドウのシリーズのサイクルごとの検体チャネルセットのウィンドウを処理することと、ニューラルネットワークベースのベースコーラ102を通して、配列決定動作のための配列決定サイクルの複数のウィンドウのシリーズにおいてサイクルごとの検体チャネルセットの複数のウィンドウを処理することと、複数のウィンドウ内の各ウィンドウの出力を生成することと、を含む。
【0073】
複数のウィンドウ内の各ウィンドウは、配列決定動作のための特定の配列決定サイクルに対する特定のサイクルごとの検体チャネルセットを含むことができる。複数のウィンドウ内の各ウィンドウの出力は、(i)特定の配列決定サイクルに対するベースコール予測、及び(ii)配列決定動作のための1つ又はそれ以上の追加の配列決定サイクルに対する1つ又はそれ以上の追加のベースコール予測を含み、それにより、複数のウィンドウにわたる特定の配列決定サイクルに対する複数のベースコール予測を生成する(例えば、出力層によって並列又は同時に生成される)。最後に、開示される技術は、複数のベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを判定することを含む。
【0074】
右隣接入力132は、配列決定動作のための現在の配列決定サイクル(例えば、サイクル4)に対する現在の画像データ108を含み、現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクル(例えば、サイクル2及び3)に対する以前の画像データ104及び106で補足されている。右隣接出力142は、現在の配列決定サイクルに対する右隣接ベースコール予測114、並びに以前の配列決定サイクルに対するベースコール予測110及び112を含む。
【0075】
中心入力134は、現在の画像データ108を含み、以前の画像データ106(例えば、サイクル3)、及び現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクル(例えば、サイクル5)の後続の画像データ116で補足されている。中心出力144は、現在の配列決定サイクルに対する中心ベースコール予測120、並びに以前の配列決定サイクル及び後続の配列決定サイクルに対するベースコール予測118及び122を含む。
【0076】
左隣接入力136は、現在の画像データ108を含み、後続の画像データ116及び124で補足されている。左隣接出力146は、現在の配列決定サイクルに対する左隣接ベースコール予測126、並びに後続の配列決定サイクルに対するベースコール予測128及び130(例えば、サイクル5及び6)を含む。
【0077】
図1D及び
図1Eは、開示される多対多ベースコールの異なる例を例示している。
図1D及び
図1Eでは、青色のボックスは、特定の配列決定サイクル又はターゲット配列決定サイクル(若しくはそのためのデータ)を表す。特定の配列決定サイクルはまた、現在の配列決定サイクルとみなされ、開示される技術の様々な実装態様である。オレンジ色のボックスは、特定の配列決定サイクルとは異なる配列決定サイクル(又はそのためのデータ)を表している。緑色の円は、特定の配列決定サイクルに対して生成された1つ又はそれ以上のベースコールを表している。ベースコールは、IlluminaのReal-Time Analysis(RTA)ソフトウェア又は開示されるニューラルネットワークベースのベースコーラ102など、任意のベースコーラによって生成され得る。配列決定サイクルに対するデータは、電流読み取り値、電圧変化、pHスケールデータなどの画像又はいくつかの他のタイプの入力データであり得る。
【0078】
図1Dを参照すると、第1の多対多ベースコール例180は、3つのベースコール反復180a、180b、及び180c、並びに配列決定サイクルの対応する3つの入力ウィンドウ/グループw1、w2、及びw3(又は、そのためのデータ)を示している。一実施態様では、ベースコール反復は、配列決定サイクルの対応する入力ウィンドウ内の各配列決定サイクルに対するベースコールを作り出す。別の実施態様では、ベースコール反復は、配列決定サイクルの対応する入力ウィンドウ内の配列決定サイクルのうちのいくつかのみ(例えば、特定の配列決定サイクルのみ)に対するベースコールを作り出す。また、特定の配列決定サイクルは、配列決定サイクルの入力ウィンドウ/グループw1、w2、及びw3内の異なる位置に出現し得る。他の実施態様(図示せず)では、配列決定サイクルの2つ又はそれ以上の入力ウィンドウ/グループは、同じ位置に特定の配列決定サイクルを有し得る。更に、配列決定サイクルの入力ウィンドウ/グループw1、w2、及びw3は、特定の配列決定サイクルを少なくとも1つの重複サイクルとして有し、また、1つ又はそれ以上の非重複サイクルを有する。すなわち、配列決定サイクルの異なる入力ウィンドウ/グループの異なる位置にあるオレンジ色のボックスは、異なる非重複サイクルを表している。最後に、3つのベースコール反復180a、180b、及び180cは、特定の配列決定サイクルに対する3つのベースコール(すなわち、3つの緑色の円)を生成し、これは、暫定ベースコールと考えられ得、続いて、特定の配列決定サイクルに対する最終的なベースコールを作り上げるために集合体として分析され得る。分析の異なる例は、
図2、
図3、及び
図4において後述される。
【0079】
多対多ベースコール181及び182の第2及び第3の例は、特定の配列決定サイクルが配列決定サイクルの入力ウィンドウ/グループ内の任意の位置にあり得、任意の数の右及び左の隣接サイクルを有するか、又は隣接サイクルを全く有さないことを例示している(例えば、第3の多対多ベースコール例182における第3のウィンドウ(w3))。3つのベースコール反復181a、181b、及び181cは、特定の配列決定サイクルに対する3つのベースコール(すなわち、3つの緑色の円)を生成し、これは、暫定ベースコールと考えられ得、続いて、特定の配列決定サイクルに対する最終的なベースコールを作り上げるために集合体として分析され得る。分析の異なる例は、
図2、
図3、及び
図4において後述される。3つのベースコール反復182a、182b、及び182cは、特定の配列決定サイクルに対する3つのベースコール(すなわち、3つの緑色の円)を生成し、これは、暫定ベースコールと考えられ得、続いて、特定の配列決定サイクルに対する最終的なベースコールを作り上げるために集合体として分析され得る。分析の異なる例は、
図2、
図3、及び
図4において後述される。
【0080】
図1Eは、5つのベースコール反復183a~183eを有する多対多ベースコール例183を例示しており、その各々は、特定の配列決定サイクルに対するデータが異なる位置で生じる入力データの5つのそれぞれのウィンドウ/セット/グループを処理することによって、特定の配列決定サイクルに対するベースコール予測を生成する。5つのベースコール反復183a~183eは、特定の配列決定サイクルに対して5つのベースコール(すなわち、5つの緑色の円)を生成し、これは、暫定ベースコールと考えられ得、続いて、特定の配列決定サイクルに対する最終的なベースコールを作り上げるために集合体として分析さ得る。分析の異なる例は、
図2、
図3、及び
図4において後述される。
【0081】
図2、
図3、及び
図4は、ベースコールジェネレータの異なる実施態様を示している。(例えば、ホストプロセッサ上で実行する)ベースコールジェネレータ202は、(例えば、チップ上で実行する)ニューラルネットワークベースのベースコーラ102に(例えば、PCIバス又はEthernet又はInfiniBand(IB)を介して)結合され、現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測に基づいて、現在の配列決定サイクル(例えば、サイクル4)に対するベースコールを生成するように構成されている。
【0082】
現在の配列決定サイクルに対する現在の画像データは、現在の配列決定サイクルにおいて取り込まれた検体及びそれらの周囲の背景の強度放射を描写している。現在の配列決定サイクル(例えば、サイクル4)に対する右隣接114ベースコール予測、中心120ベースコール予測、及び左隣接126ベースコール予測は、現在の配列決定サイクルにおける検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する。一実施態様では、尤度は、ベースコーラ102によって出力層として使用されるソフトマックス層によって作り出される指数関数的に正規化されたスコアである。
【0083】
一実施態様では、現在の配列決定サイクルに対する右隣接ベースコール予測114は、現在の配列決定サイクル(例えば、サイクル4)と以前の配列決定サイクルとの間のプレフェージング効果を考慮に入れる。一実装形態では、現在の配列決定サイクル(例えば、サイクル4)に対する中心ベースコール予測120は、現在の配列決定サイクルと以前の配列決定サイクルとの間のプレフェージング効果、及び現在の配列決定サイクルと後続の配列サイクルとの間のフェージング効果を考慮に入れる。一実装形態では、現在の配列決定サイクル(例えば考慮に入れる、サイクル4)の左隣接ベースコール予測126は、現在の配列決定サイクルと後続の配列決定サイクルとの間のフェージング効果を。
【0084】
図2に示されるように、ベースコールジェネレータは、アベレイジャ204を含むように更に構成されており、アベレイジャ204は、現在の配列決定サイクル(例えば、サイクル4)に対する右隣接114ベースコール予測、中心120ベースコール予測、及び左隣接126ベースコール予測にわたる尤度を塩基ごとに合計し、塩基ごとの合計に基づいて塩基ごとの平均212を判定し、塩基ごとの平均(例えば、0.38)のうちの最も高い平均に基づいて現在の配列決定サイクル(例えば、サイクル4)に対するベースコール214を生成する。
【0085】
図3に示されるように、ベースコールジェネレータは、コンセンサー304を含むように更に構成されており、コンセンサー304は、尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクル(例えば、サイクル4)に対する右隣接114ベースコール予測、中心120ベースコール予測、及び左隣接126ベースコール予測の各々の予備ベースコールを判定し、それによって予備ベースコールの配列306を生成し、予備ベースコールの配列の中の最も一般的なベースコール308に基づいて、現在の配列決定サイクルに対するベースコールを生成する。
【0086】
図4に示されるように、ベースコールジェネレータは、重み付きコンセンサー404を含むように更に構成されており、重み付きコンセンサー404は、尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測の各々の予備ベースコールを判定し、それによって、予備ベースコールの配列406を生成し、予備ベースコールの配列の中の予備ベースコールのそれぞれの予備ベースコールに塩基ごとの重み408を適用して、重み付き予備ベースコールの配列410を作り出し、重み付き予備ベースコールの配列の中の最も重い重み付きベースコール412に基づいて、現在の配列決定サイクル(例えば、サイクル4)に対するベースコールを生成する。いくつかの実施態様では、塩基ごとの重み408は、例えば、サイクルごとに事前設定される。他の実施態様では、塩基ごとの重み408は、例えば、最小二乗法を使用して学習される。
【0087】
図6に例示される一実装形態では、開示される技術は、配列決定動作のための現在の配列決定サイクルに対する現在の画像データ、現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データ、及び現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データにアクセスすること(アクション602)と、ニューラルネットワークベースのベースコーラを通して、現在の画像データ、以前の画像データ、及び後続の画像データの異なるグルーピングを処理し、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測を生成すること(アクション612)と、第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測に基づいて、現在の配列決定サイクルに対するベースコールを生成すること(アクション622)と、を含む。
【0088】
一実施態様では、異なるグルーピングは、現在の画像データ及び以前の画像データを含む第1のグルーピング、現在の画像データ、以前の画像データ、及び後続の画像データを含む第2のグルーピング、並びに現在の画像データ及び後続の画像データを含む第3のグルーピングを含む。
【0089】
一実装形態では、開示される技術は、ニューラルネットワークベースのベースコーラを通して第1のグルーピングを処理して第1のベースコール予測を作り出すことと、ニューラルネットワークベースのベースコーラを通して第2のグルーピングを処理して第2のベースコール予測を作り出すことと、ニューラルネットワークベースのベースコーラを通して第3のグルーピングを処理して第3のベースコール予測を作り出すことと、を含む。
【0090】
一実施態様では、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測は、現在の配列決定サイクルにおいて1つ又はそれ以上の検体に組み込まれた塩基がA、C、T、及びGである尤度を識別する。
【0091】
一実施態様では、開示される技術は、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測にわたって尤度を塩基ごとに合計することと、塩基ごとの合計に基づいて塩基ごとの平均を判定することと、塩基ごとの平均のうちの最も高い平均に基づいて、現在の配列決定サイクルに対するベースコールを生成することによって、現在の配列決定サイクルに対するベースコールを生成することを含む。
【0092】
一実装形態では、開示される技術は、尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測の各々の予備ベースコールを判定し、それによって予備ベースコールの配列を作り出し、予備ベースコールの配列内の中の最も一般的なベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することによって、現在の配列決定サイクルに対するベースコールを生成することを含む。
【0093】
一実装形態では、開示される技術は、尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測の各々の予備ベースコールを判定すること、それによって、予備ベースコールの配列の中の予備ベースコールのそれぞれの予備ベースコールに塩基ごとの重みを適用して、重み付き予備ベースコールの配列を作り出すことと、重み付き予備ベースコールの配列の中の最も重い重み付きベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することによって、現在の配列決定サイクルに対するベースコールを生成することを含む。
【0094】
「多重サイクル訓練、単一サイクル推論」と呼ばれる一実施態様では、ベースコーラ102は、トレーニング中にベースコーラジェネレータを使用して2つ又はそれ以上の配列決定サイクルに対する2つ又はそれ以上のベースコール予測を作り出すように訓練されるが、推論中には、単一の配列決定サイクルに対してのみベースコール予測を作り出す。
【0095】
「多重サイクル訓練、多重サイクル推論」と呼ばれる一実施態様では、ベースコーラ102は、訓練中に2つ又はそれ以上の配列決定サイクルに対して2つ又はそれ以上のベースコール予測を作り出し、推論中にベースコーラジェネレータ202を使用して同じことを行うように訓練される。
【0096】
多重サイクル勾配逆伝搬
図5は、開示される「多重サイクル勾配逆伝搬500」の一実施態様を示している。
図5に示されるように、多対多ベースコール100は、トレーナを含むように更に構成されており、トレーナは、
ニューラルネットワークベースのベースコーラ102の右隣接506出力、中央504出力、及び左隣接502出力、並びにそれぞれのグラウンドトゥルースベースコール554、534、及び514に基づいて、現在の配列決定サイクル(例えば、サイクル3)、以前の配列決定サイクル(例えば、サイクル2)、及び後続の配列決定サイクル(例えば、サイクル4)に対する、ベースコールジェネレータ202によって生成されたベースコール間の誤差512、532、及び552を計算し、
誤差に基づいて、現在の配列決定サイクル、以前の配列決定サイクル、及び後続の配列決定サイクルに対するそれぞれの勾配542、522、及び562を判定し、勾配を逆伝搬することによって、ニューラルネットワークベースのベースコーラのパラメータを更新する。
【0097】
技術的効果/利点
図7は、開示される技術の技術的効果及び利点を例示している。
【0098】
「多重サイクル訓練、単一サイクル推論」実施態様は、
図7において「DL 3C中間」と呼ばれ、従来の非ニューラルネットワークベースのリアルタイム分析ベースコールソフトウェアに対してベースコール誤差レートを8%改善する。
【0099】
「多重サイクルトレーニング、多重サイクル推論」実施態様は、
図7において「DL 3C平均」と呼ばれ、DL 3C中間実施態様に対してベースコール誤差レートを更に8%改善する。
【0100】
複数回のベースコール配列決定サイクルにより、ベースコール精度が改善され、ベースコール不一致及び曖昧なベースコールが検出され、解決される。
【0101】
多重サイクル勾配逆伝搬はまた、ベースコーラ102の勾配及びベースコールの訓練タスクに対するそのベースコール精度を改善する。
【0102】
配列決定システム
図8A及び
図8Bは、配列決定システム800Aの一実施態様を描写している。配列決定システム800Aは、構成可能プロセッサ846を備える。構成可能プロセッサ846は、本明細書に開示されるベースコール技術を実装する。配列決定システムは、「シーケンサ」とも称される。
【0103】
配列決定システム800Aは、生物学的物質又は化学物質のうちの少なくとも一方に関連する任意の情報又はデータを取得するように動作することができる。いくつかの実施態様では、配列決定システム800Aは、ベンチトップデバイス又はデスクトップコンピュータと類似であり得るワークステーションである。例えば、所望の反応を導くためのシステム及び構成要素の大部分(又は全て)は、共通のハウジング802内にあってもよい。
【0104】
特定の実施態様では、配列決定システム800Aは、これらに限定されないが、デノボ配列決定、全ゲノム領域又はターゲットゲノム領域の再配列決定、及びメタゲノミクスを含む、様々な用途のために構成された核酸配列決定システムである。シーケンサはまた、DNA又はRNA分析に使用されてもよい。いくつかの実施態様では、配列決定システム800Aはまた、バイオセンサー内に反応部位を生成するように構成され得る。例えば、配列決定システム800Aは、試料を受け取り、試料に由来するクロノウイルス増幅核酸の表面結合クラスタを生成するように構成され得る。各クラスタは、バイオセンサー内の反応部位を構成するか、又はその一部であってもよい。
【0105】
例示的な配列決定システム800Aは、バイオセンサー812内で所望の反応を実行するためにバイオセンサー812と相互作用するように構成されているシステムレセプタクル又はインターフェース810を含み得る。
図8Aに関する以下の説明では、バイオセンサー812は、システムレセプタクル810内に装填される。しかしながら、バイオセンサー812を含むカートリッジは、システムレセプタクル810に挿入されてもよく、いくつかの状態では、カートリッジは一時的又は恒久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。
【0106】
特定の実施態様では、配列決定システム800Aは、バイオセンサー812内で多数の並行反応を実行するように構成されている。バイオセンサー812は、所望の反応が生じ得る1つ又はそれ以上の反応部位を含む。反応部位は、例えば、バイオセンサーの固体表面に固定化されてもよく、又はバイオセンサーの対応する反応チャンバ内に位置するビーズ(又は他の可動基材)に固定化されてもよい。反応部位は、例えば、クロノウイルス増幅核酸のクラスタを含むことができる。バイオセンサー812は、固体撮像デバイス(例えば、CCD又はCMOSイメージャ)及びそれに取り付けられたフローセルを含み得る。フローセルは、配列決定システム800Aから溶液を受け取り、溶液を反応部位に向けて方向付ける1つ又はそれ以上のフローチャネルを含み得る。任意選択的に、バイオセンサー812は、熱エネルギーをフローチャネルの内外に伝達するための熱要素に係合するように構成され得る。
【0107】
配列決定システム800Aは、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行するために互いに相互作用する様々な構成要素、アセンブリ、及びシステム(又はサブシステム)を含み得る。例えば、配列決定システム800Aは、配列決定システム800Aの様々な構成要素、アセンブリ、及びサブシステム、並びにバイオセンサー812とも通信し得るシステムコントローラ806を含む。例えば、システムレセプタクル810に加えて、配列決定システム800Aはまた、配列決定システム800A及びバイオセンサー812の流体ネットワーク全体にわたる流体の流れを制御するための流体制御システム808、バイオアッセイシステムによって使用され得る全ての流体(例えば、ガス又は液体)を保持するように構成されている流体貯蔵システム814、流体ネットワーク、流体貯蔵システム814、及び/又はバイオセンサー812内の流体の温度を調節し得る温度制御システム804、並びにバイオセンサー812を照明するように構成されている照明システム816を含み得る。上述のように、バイオセンサー812を有するカートリッジがシステムレセプタクル810内に装填される場合、カートリッジはまた、流体制御構成要素及び流体貯蔵構成要素を含み得る。
【0108】
また示されるように、配列決定システム800Aは、ユーザと相互作用するユーザインターフェース818を含み得る。例えば、ユーザインターフェース818は、ユーザからの情報を表示又は要求するためのディスプレイ820、及びユーザ入力を受信するためのユーザ入力デバイス822を含み得る。いくつかの実施態様では、ディスプレイ820及びユーザ入力デバイス822は、同じデバイスである。例えば、ユーザインターフェース818は、個々のタッチの存在を検出し、またディスプレイ上のタッチの場所を識別するように構成されたタッチ感知式ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナー、音声認識システム、動作認識システムなどの他のユーザ入力デバイス822が使用されてもよい。以下でより詳細に考察ざれるように、配列決定システム800Aは、所望の反応を実行するために、バイオセンサー812(例えば、カートリッジの形態の)を含む様々な構成要素と通信し得る。配列決定システム800Aはまた、ユーザに所望の情報を提供するために、バイオセンサーから取得されたデータを分析するように構成され得る。
【0109】
システムコントローラ806は、マイクロコントローラ、縮小命令セットコンピュータ(Reduced Instruction Set Computer、RISC)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、粗粒度再構成可能構造(Coarse-Grained Reconfigurable Architecture、CGRA)、論理回路、及び本明細書に記載の機能を実行することが可能である任意の他の回路若しくはプロセッサを含み得る。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び/又は意味を制限することを意図するものではない。例示的な実施態様では、システムコントローラ806は、検出データの取得及び分析のうちの少なくとも一方を行うために、1つ又はそれ以上の記憶要素、メモリ、又はモジュール内に記憶されている命令のセットを実行する。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。記憶要素は、配列決定システム800A内の情報源又は物理メモリ要素の形態であってもよい。
【0110】
命令のセットは、本明細書に記載の様々な実施態様の方法及びプロセスなどの特定の動作を実行するように配列決定システム800A又はバイオセンサー812に命令する様々なコマンドを含み得る。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されない。
【0111】
ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部分の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、配列決定システム800Aによって自動的に処理され得るか、ユーザ入力に応答して処理され得るか、又は別の処理マシンによってなされた要求(例えば、通信リンクを通したリモート要求)に応答して処理され得る。例示される別の実施態様では、システムコントローラ806は、分析モジュール844を含む。他の実施態様では、システムコントローラ806は分析モジュール844を含まず、代わりに分析モジュール844へのアクセス権を有する(例えば、分析モジュール844は、クラウド上で別個にホスティングされてもよい)。
【0112】
システムコントローラ806は、通信リンクを介して、バイオセンサー812及び配列決定システム800Aの他の構成要素に接続され得る。システムコントローラ806はまた、オフサイトシステム又はサーバに通信可能に接続され得る。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ806は、ユーザインターフェース818及びユーザ入力デバイス822からユーザ入力又はコマンドを受信し得る。
【0113】
流体制御システム808は、流体ネットワークを含み、流体ネットワークを通る1つ又はそれ以上の流体の流れを方向付け、調節するように構成されている。流体ネットワークは、バイオセンサー812及び流体貯蔵システム814と流体連通していてもよい。例えば、選択した流体は、流体貯蔵システム814から引き出され、制御された方法でバイオセンサー812に向けられてもよく、又は流体は、バイオセンサー812から引き出され、例えば、流体貯蔵システム814内の廃棄物リザーバに向けられてもよい。図示されていないが、流体制御システム808は、流体ネットワーク内の流体の流量又は流体圧力を検出する流量センサーを含み得る。センサーは、システムコントローラ806と通信し得る。
【0114】
温度制御システム804は、流体ネットワーク、流体貯蔵システム814及び/又はバイオセンサー812の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム804は、バイオセンサー812とインターフェース接続し、バイオセンサー812内の反応部位に沿って流れる流体の温度を制御するサーモサイクラーを含んでもよい。温度制御システム804はまた、配列決定システム800A又はバイオセンサー812の固体要素又は構成要素の温度を調節し得る。図示されていないが、温度制御システム804は、流体又は他の構成要素の温度を検出するためのセンサーを含んでもよい。センサーは、システムコントローラ806と通信し得る。
【0115】
流体貯蔵システム814は、バイオセンサー812と流体連通しており、所望の反応を導くために使用される様々な反応構成要素又は反応物質を貯蔵し得る。流体貯蔵システム814はまた、流体ネットワーク及びバイオセンサー812を洗浄又は浄化するため、並びに反応物質を希釈するために流体を貯蔵し得る。例えば、流体貯蔵システム814は、試料、試薬、酵素、他の生体分子、緩衝溶液、水溶液、及び非極性溶液などを貯蔵するための様々なリザーバを含み得る。更に、流体貯蔵システム814はまた、バイオセンサー812から廃棄物を受け取るための廃棄物リザーバを含み得る。カートリッジを含む実施態様形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ又はそれ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの1つ又はそれ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ又はそれ以上は、カートリッジ又は他のバイオセンサーを介してバイオアッセイシステムと取り外し可能に係合され得る。
【0116】
照明システム816は、バイオセンサーを照明するために、光源(例えば、1つ又はそれ以上の発光ダイオード(Light-Emitting Diode、LED))及び複数の光学部品を含み得る。光源の例としては、レーザ、アークランプ、LED、又はレーザダイオードを挙げることができる。光学部品は、例えば、反射器、偏光板、ビームスプリッタ、コリメータ、レンズ、フィルタ、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実施態様では、照明システム816は、励起光を反応部位に方向付けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約532nmであり得る。一実施態様では、照明システム816は、バイオセンサー812の表面の表面法線に平行な照明を作り出すように構成されている。別の実施態様では、照明システム816は、バイオセンサー812の表面の表面法線に対してオフアングルである照明を作り出すように構成されている。更に別の実施態様では、照明システム816は、いくつかの平行照明及びある程度のオフアングル照明を含む、複数の角度を有する照明を作り出すように構成されている。
【0117】
システムレセプタクル又はインターフェース810は、機械的、電気的、及び流体的な方法のうちの少なくとも1つでバイオセンサー812に係合するように構成されている。システムレセプタクル810は、バイオセンサー812を通る流体の流れを容易にするために、バイオセンサー812を所望の向きに保持し得る。システムレセプタクル810はまた、配列決定システム800Aが、バイオセンサー812と通信し得、及び/又はバイオセンサー812に電力を提供し得るように、バイオセンサー812に係合するように構成されている電気接点を含み得る。更に、システムレセプタクル810は、バイオセンサー812に係合するように構成されている流体ポート(例えば、ノズル)を含み得る。いくつかの実施態様では、バイオセンサー812は、機械的方式で、電気的方式で、また流体的方式で、システムレセプタクル810に取り外し可能に結合されている。
【0118】
加えて、配列決定システム800Aは、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム800Aと通信し得る。バイオアッセイシステム800Aによって取得された検出データは、リモートデータベースに記憶され得る。
【0119】
図8Bは、
図8Aのシステムで使用することができるシステムコントローラ806のブロック図である。一実施態様では、システムコントローラ806は、互いに通信することができる1つ又はそれ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム(例えば、有形及び/又は非一時的コンピュータ可読記憶媒体上に記憶された命令)又はサブアルゴリズムを含み得る。システムコントローラ806は、モジュールの集合として概念的に例示されているが、専用ハードウェアボード、DSP、プロセッサなどの任意の組み合わせを利用して実装され得る。代替的に、システムコントローラ806は、単一のプロセッサ又は複数のプロセッサを有する既製のPCを利用して実装されてもよく、機能動作はプロセッサ間に分散される。更なる選択肢として、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実施されるハイブリッド構成を利用して実装されてもよく、残りのモジュール式機能は、既製のPCなどを利用して実施される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてもよい。
【0120】
動作中、通信ポート850は、バイオセンサー812(
図8A)及び/又はサブシステム808、814、804(
図8A)に情報(例えば、コマンド)を送信し、そこから情報(例えば、データ)を受信し得る。実施態様では、通信ポート850は、ピクセル信号の複数の配列を出力し得る。通信リンク834は、ユーザ入力をユーザインターフェース818から受信し(
図8A)、データ又は情報をユーザインターフェース818に送信し得る。バイオセンサー812又はサブシステム808、814、804からのデータは、バイオアッセイセッション中に、システムコントローラ806によってリアルタイムで処理され得る。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作よりも遅く処理されてもよい。
【0121】
図8Bに示されるように、システムコントローラ806は、中央処理装置(Central Processing Unit、CPU)852と共に主制御モジュール824と通信する複数のモジュール824~848を含み得る。主制御モジュール824は、ユーザインターフェース818と通信し得る(
図8A)。モジュール824~848は、主制御モジュール824と直接通信するものとして示されているが、モジュール824~848はまた、互いに、ユーザインターフェース818と、及びバイオセンサー812と直接通信し得る。また、モジュール824~848は、他のモジュールを通して主制御モジュール824と通信し得る。
【0122】
複数のモジュール824~848は、サブシステム808、814、804及び816とそれぞれ通信するシステムモジュール828~832、826を含む。流体制御モジュール828は、流体ネットワークを通る1つ又はそれ以上の流体の流れを制御するために、流体制御システム808と通信して、流体ネットワークの弁及び流量センサーを制御し得る。流体貯蔵モジュール830は、流体が少ないとき、又は廃棄物リザーバが最大容量若しくは最大容量に近いとき、ユーザに通知し得る。流体貯蔵モジュール830はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール832と通信し得る。照明モジュール826は、所望の反応(例えば、結合イベント)が生じた後など、プロトコル中の指定された時間に反応部位を照明するために、照明システム816と通信し得る。いくつかの実施態様では、照明モジュール826は、指定された角度で反応部位を照明するために、照明システム816と通信し得る。
【0123】
複数のモジュール824~848はまた、バイオセンサー812と通信するデバイスモジュール836と、バイオセンサー812に関する識別情報を判定する識別モジュール838とを含み得る。デバイスモジュール836は、例えば、バイオセンサーが配列決定システム800Aとの電気的及び流体的接続を確立したことを確認するために、システムレセプタクル810と通信し得る。識別モジュール838は、バイオセンサー812を識別する信号を受信し得る。識別モジュール838は、バイオセンサー812の識別情報を使用して、他の情報をユーザに提供し得る。例えば、識別モジュール838は、ロット番号、製造日、又はバイオセンサー812で動作することが推奨されているプロトコルを判定し、次いで、表示し得る。
【0124】
複数のモジュール824~848はまた、バイオセンサー812から信号データ(例えば、画像データ)を受信及び分析する分析モジュール844(信号処理モジュール又は信号プロセッサとも呼ばれる)を含む。分析モジュール844は、検出/画像データを記憶するために、メモリ(例えば、RAM又はFlash)を含む。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶され得、又は所望の情報をユーザに表示するためにユーザインターフェース818に送信され得る。いくつかの実施態様では、信号データは、分析モジュール844が信号データを受信する前に、固体イメージャ(例えば、CMOS画像センサー)によって処理され得る。
【0125】
分析モジュール844は、複数の配列決定サイクルの各々において光検出器から画像データを取得するように構成されている。画像データは、光検出器によって検出される発光信号から導出され、ベースコーラ102を通して複数の配列決定サイクルの各々に対する画像データを処理し、複数の配列決定サイクルの各々において検体のうちの少なくともいくつかに対するベースコールを作り出す。光検出器は、1つ又はそれ以上のオーバーヘッドカメラ(例えば、バイオセンサー812上のクラスタの画像を上部から撮影するIlluminaのGAIIxのCCDカメラ)の一部であり得、又はバイオセンサー812自体の一部(例えば、バイオセンサー812上のクラスタの下にあり、底部からクラスタの画像を撮影するIlluminaのiSeqのCMOS画像センサー)であり得る。
【0126】
光検出器の出力は、それぞれクラスタの強度放射及びそれらの周囲背景を示す配列決定画像である。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する検体及びそれらの周囲の背景からのものである。配列決定画像は、メモリ848に記憶される。
【0127】
プロトコルモジュール840及び842は、所定のアッセイプロトコルを実施するときにサブシステム808、814及び804の動作を制御するために、主制御モジュール824と通信する。プロトコルモジュール840及び842は、所定のプロトコルに従って特定の動作を実行するように、配列決定システム800Aに命令するための命令のセットを含み得る。示されるように、プロトコルモジュールは、配列決定ごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、合成による配列決定(Sequencing-By-Synthesis、SBS)モジュール840であってもよい。SBSにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を決定する。基礎となる化学プロセスは、重合(例えば、ポリメラーゼ酵素によって触媒される)又はライゲーション(例えば、リガーゼ酵素によって触媒される)であり得る。特定のポリマー系SBSの実施態様では、プライマーに付加されるヌクレオチドの順序及び種類の検出を使用してテンプレートの配列を決定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー(それによってプライマーを伸長させる)に添加する。例えば、第1のSBSサイクルを開始するために、1つ又はそれ以上の標識されたヌクレオチド、DNAポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に/それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像事象を通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム816は、励起光を反応部位に提供し得る。任意選択的に、ヌクレオチドは、ヌクレオチドがプライマーに付加されると、更なるプライマー伸長を終結する可逆的終結特性を更に含むことができる。例えば、可逆的ターミネーター部分を有するヌクレオチド類似体をプライマーに付加して、デブロッキング作用因子が送達されてその部分を除去するまで、その後の伸長が起こらないようにすることができる。したがって、可逆終端を使用する別の実施態様では、フローセル(検出前又は検出後)にデブロッキング試薬を送達するために、コマンドを与えることができる。1つ又はそれ以上のコマンドは、様々な送達工程間の洗浄をもたらすために与えられ得る。次いで、サイクルをn回繰り返してプライマーをnヌクレオチドだけ伸長させ、それによって長さnの配列を検出することができる。例示的な配列決定技術は、例えば、Bentleyら、Nature456:53-59(2008)、国際公開第04/018497号、米国特許第7,057,026号、国際公開第91/06678号、国際公開第07/123744号、米国特許第7,329,492号、米国特許第7,211,414号、米国特許第7,315,019号、米国特許第7,405,281号、及び米国特許第2008/014708082号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
【0128】
SBSサイクルのヌクレオチド送達工程では、単一のタイプのヌクレオチドを一度に送達することができるか、又は複数の異なるヌクレオチドタイプ(例えば、A、C、T、及びG)を送達することができるか、のいずれかである。一度に単一の種類のヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに結合された異なる蛍光標識に基づいて区別することができる。例えば、4つの異なる蛍光団のうちの1つをそれぞれ有する4つの異なるヌクレオチドを使用することができる。一実施態様では、4つの異なるフルオロフォアは、スペクトルの4つの異なる領域における励起を使用して区別することができる。例えば、4つの異なる励起放射線源を使用することができる。あるいは、4つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。
【0129】
いくつかの実施態様では、4つ未満の異なる色を、4つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出され得るが、対のうちの一方のメンバーの、対の他方と比較した、強度の差に基づいて、又は、対の他方のメンバーについて検出された信号と比較して明らかな信号を出現又は消失させる、対の一方のメンバーに対する変化(例えば、化学修飾、光化学修飾、又は物理的修飾を介して)に基づいて区別され得る。4色未満の検出を使用して4つの異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第61/538,294号及び同第61/619,878号に記載されており、これらの全体が参照により本明細書に組み込まれる。2012年9月21日に出願された米国出願第13/624, 200号も、その全体が参照により組み込まれる。
【0130】
複数のプロトコルモジュールはまた、バイオセンサー812内の生成物を増幅するために、流体制御システム808及び温度制御システム804にコマンドを発行するように構成された試料調製(又は生成)モジュール842を含んでもよい。例えば、バイオセンサー812は、配列決定システム800Aに係合され得る。増幅モジュール842は、必要な増幅成分をバイオセンサー812内の反応チャンバに送達するために、流体制御システム808に命令を発行し得る。他の実施態様では、反応部位は、テンプレートDNA及び/又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール842は、温度制御システム804に、既知の増幅プロトコルに従って異なる温度段階を通してサイクルするように命令し得る。いくつかの実施態様では、増幅及び/又はヌクレオチドの取り込みは、等温的に実施される。
【0131】
SBSモジュール840は、クローンアンプリコンのクラスタがフローセルのチャネル内の局所領域上に形成されるブリッジPCRを実行するためにコマンドを発行し得る。ブリッジPCRを介してアンプリコンを生成した後、アンプリコンを「線形化」して、一本鎖テンプレートDNAを作製してもよく、sstDNA及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネーター系配列決定を、上記のように又は以下のように使用することができる。
【0132】
各ベースコール又は配列決定サイクルは、例えば、修飾DNAポリメラーゼ及び4種類のヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってsstDNAを延長することができる。異なる種類のヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネーターを更に有し得る。sstDNA,励起光に単一の塩基を添加した後、反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネーターは、sstDNAから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、SBSモジュール840は、バイオセンサー812を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム808に命令し得る。本明細書に記載される装置及び方法と共に利用することができる例示的な可逆性ターミネーターベースのSBS方法は、米国特許出願公開第2007/0166705(A1)号、米国特許出願公開第2006/0188901(A1)号、米国特許第7,057,026号、米国特許出願公開第2006/0240439(A1)号、米国特許出願公開第2006/02814714709(A1)号、国際公開第05/065814号、米国特許出願公開第2005/014700900(A1)号、国際公開第06/08B199号及び国際出願公開第07/01470251号(それぞれ参照によりその全体が本明細書に組み込まれる)に記載されている。可逆性ターミネーターベースのSBSのための例示的な試薬は、米国特許7,541,444号、米国特許第7,057,026号、米国特許第7,414,14716号、米国特許第7,427,673号、米国特許第7,566,537号、米国特許第7,592,435号、及び国際公開第07/14835368号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
【0133】
いくつかの実施態様では、増幅及びSBSモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。
【0134】
配列決定システム800Aはまた、ユーザがアッセイプロトコルを再構成することを可能にし得る。例えば、配列決定システム800Aは、判定されたプロトコルを修正するために、ユーザインターフェース818を通してユーザに選択肢を提案し得る。例えば、バイオセンサー812が増幅のために使用されるべきであると判定される場合、配列決定システム800Aは、アニーリングサイクルのための温度を要求し得る。更に、配列決定システム800Aは、ユーザが、選択されたアッセイプロトコルに対して一般的に許容されないユーザ入力を提供した場合、ユーザに警告を発行し得る。
【0135】
実施態様では、バイオセンサー812は、数百万のセンサー(又はピクセル)を含み、センサーのそれぞれは、後続のベースコールサイクルにわたってピクセル信号の複数の配列を生成する。分析モジュール844は、ピクセル信号の複数の配列を検出し、それらを、センサーのアレイ上のセンサーの行方向及び/又は列方向の位置に従って、対応するセンサー(又はピクセル)に帰属させる。
【0136】
図9は、ベースコールセンサー出力などの配列決定システム800Aからのセンサーデータの分析のためのシステムの簡略ブロック図である。
図9の例では、システムは構成可能プロセッサ846を含む。構成可能プロセッサ846は、中央処理ユニット(central processing unit、CPU)852(すなわち、ホストプロセッサ)によって実行されるランタイムプログラムと協調して、ベースコーラ(例えば、ニューラルネットワークベースのベースコーラ102)を実行することができる。配列決定システム800Aは、バイオセンサー812及びフローセルを含む。フローセルは、遺伝物質のクラスタが、遺伝物質中の塩基を識別するためにクラスタ内の反応を引き起こすために使用される一連の検体フローに曝露される1つ又はそれ以上のタイルを含み得る。センサーは、タイルデータを提供するために、フローセルの各タイルにおける配列の各サイクルの反応を検知する。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサーデータを、ベースコール動作中に感知された各遺伝物質群のベースコールの配列に変換する。
【0137】
この例におけるシステムは、ベースコール動作を調整するためにランタイムプログラムを実行するCPU852と、タイルデータのアレイの配列、ベースコール動作によって作り出されるベースコールリード、及びベースコール動作において使用される他の情報とを記憶するためのメモリ848Bとを含む。また、この例示では、システムは、FPGAビットファイルなどの構成ファイル(又はファイル)、並びに構成可能プロセッサ846を構成及び再構成し、ニューラルネットワークを実行するために使用されるニューラルネットワークのモデルパラメータを記憶するためのメモリ848Aを含む。配列決定システム800Aは、構成可能プロセッサを、いくつかの実施形態では、ニューラルネットワークを実行する再構成可能なプロセッサを構成するためのプログラムを含むことができる。
【0138】
配列決定システム800Aは、バス902によって構成可能プロセッサ846に結合されている。バス902は、一例では、PCI-SIG規格(PCI Special Interest Group)によって現在維持及び開発されているPCIe規格(Peripheral Component Interconnect Express)と互換性のあるバス技術など、高スループット技術を使用して実装され得る。また、この例では、メモリ848Aは、バス906によって構成可能プロセッサ846に結合されている。メモリ848Aは、構成可能プロセッサ846を有する回路基板上に配設されたオンボードメモリであり得る。メモリ848Aは、ベースコール動作で使用される作業データの、構成可能プロセッサ846による高速アクセスのために使用される。バス906はまた、PCIe規格と互換性のあるバス技術などの高スループット技術を使用して実装され得る。
【0139】
フィールドプログラマブルゲートアレイFPGA、粗いグレー構成可能な再構成可能アレイCGRAs、並びに他の構成可能かつ再構成可能なデバイスを含む構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実装するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと称される構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性SRAM要素内に、不揮発性読み書きメモリ要素内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Googleのテンソル処理ユニット(TPU)(商標)、GX4 Rackmount Series(商標)、GX9 Rackmount Series(商標)、NVIDIA DGX-1(商標)、Microsoft’Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、QualcommのZeroth Platform(商標)(Snapdragon processors(商標)、NVIDIA Volta(商標)、NVIDIAのドライブPX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、アームのDynamicIQ(商標)、IBM TrueNorth(商標)、Lambda GPU Server with Testa V100s(商標)、Xilinx Alveo(商標)U200、Xilinx Alveo(商標)U250、Xilinx Alveo(商標)U280、Intel/Altera Stratix(商標)GX2800、Intel/Altera Stratix(商標)GX2800、及びIntel Stratix(商標)GX10M、が含まれる。いくつかの実施例では、ホストCPUは、構成可能プロセッサと同じ集積回路上に実装することができる。
【0140】
本明細書に記載の実施形態は、構成可能プロセッサ846を使用してニューラルネットワークベースのベースコーラ102を実装する。構成可能プロセッサ846の構成ファイルは、高レベル記述言語(high level description language)HDL又はレジスタ転送レベル(register transfer level)RTL言語仕様を使用して実行される論理機能を指定することによって実装され得る。本明細書は、選択された構成可能プロセッサが構成ファイルを生成するように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を生成する目的で、同じ又は類似の仕様をコンパイルすることができる。
【0141】
したがって、構成可能プロセッサ構成可能プロセッサ846の代替例は、本明細書に記載される全ての実施形態において、本明細書に記載のニューラルネットワークベースのベースコール動作を実行するように構成された、特定用途向けASIC又は専用集積回路若しくは集積回路のセット、又はシステムオンチップSOCデバイス、又はグラフィック処理ユニット(graphics processing unit、GPU)プロセッサ若しくは粗粒化再構成可能構造(CGRA)プロセッサを備える、構成されたプロセッサを含む。
【0142】
一般に、ニューラルネットワークの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと称される。
【0143】
構成可能プロセッサ846は、この例では、CPU852によって実行されるプログラムを使用して又は他のソースによってロードされる構成ファイルによって構成されており、構成ファイルは、構成可能要素916(例えば、ルックアップテーブル(Look Up Table、LUT)などの構成論理ブロック(Configuration Logic Block、CLB)、フリップフロップ、計算処理ユニット(compute processing unit、PMU)、及び計算メモリユニット(Compute Memory Unit、CMU)、構成可能なI/Oブロック、プログラマブル相互接続)のアレイを構成可能プロセッサ上に構成して、ベースコール機能を実行する。この例では、構成は、バス902及び906に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分散するための機能を実行するデータフロー論理908を含む。
【0144】
また、構成可能なプロセッサ846は、ベースコール実行データフロー論理908が、ニューラルネットワークベースのベースコーラ102を実行するように構成されている。データフロー論理908は、多重サイクル実行クラスタ(例えば、914)を含み、この例では、実行クラスタ1~実行クラスタXを含む。多重サイクル実行クラスタの数は、動作の所望のスループット、及び構成可能プロセッサ846上の利用可能なリソースを含むトレードオフに従って選択され得る。
【0145】
多重サイクル実行クラスタは、構成可能なプロセッサ846上の構成可能相互接続及びメモリリソースを使用して実装されるデータフローパス910によってデータフロー論理908に結合されている。また、多重サイクル実行クラスタは、構成可能相互接続及びメモリリソースを使用して、例えば構成可能プロセッサ846上で実装される制御パス912によってデータフロー論理908に結合されており、利用可能な実行クラスタ、ニューラルネットワークベースのベースコーラ102の動作の実行のための入力ユニットを提供する準備ができていること、ニューラルネットワークベースのベースコーラ102の訓練されたパラメータを提供する準備ができていること、ベースコール分類データの出力パッチ、及びニューラルネットワークベースのベースコーラ102の実行に使用される他の制御データを提供する準備ができていること、を示す制御信号を提供する。
【0146】
構成可能プロセッサ846は、ベースコール動作の検知サイクルに関する分類データを作り出すために、訓練されたパラメータを使用してニューラルネットワークベースのベースコーラ102の動作を実行するように構成されている。ニューラルネットワークベースのベースコーラ102の動作は、ベースコール動作の被験者検知サイクルの分類データを作り出すために実行される。ニューラルネットワークベースのベースコーラ102の動作は、N個の検知サイクルのそれぞれの検知サイクルからのタイルデータの数Nのアレイを含む配列で動作し、N個の検知サイクルは、本明細書に記載される例において、時間配列における動作ごとに1つの塩基位置の異なるベースコール動作に対してセンサーデータを提供する。任意選択的に、N個の感知サイクルのうちのいくつかは、実行される特定のニューラルネットワークモデルに従って必要に応じて、配列から出ることができる。数Nは、1を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、N個の検知サイクルの検知サイクルは、被験者の検知サイクルに先行する少なくとも1つの検知サイクル、及び被験者サイクルの後の少なくとも1回の検知サイクルについての検知サイクルのセットを表す。本明細書では、数Nが5以上の整数である、実施例が記載される。
【0147】
データフロー論理908は、N個のアレイの空間的に位置合わせされたパッチのタイルデータを含む所与の動作のための入力ユニットを使用して、ニューラルネットワークベースのベースコーラ102の動作のために、タイルデータ及びモデルパラメータの少なくともいくつかの訓練されたパラメータをメモリ848Aから構成可能プロセッサ846に移動させるように構成されている。入力ユニットは、1回のDMA動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。
【0148】
本明細書に記載される感知サイクルのタイルデータは、1つ又はそれ以上の特徴を有するセンサーデータのアレイを含むことができる。例えば、センサーデータは、DNA、RNA、又は他の遺伝物質の遺伝的配列における塩基位置で4塩基のうちの1つを識別するために分析される2つの画像を含むことができる。タイルデータはまた、画像及びセンサーに関するメタデータを含むことができる。例えば、ベースコール動作の実施形態では、タイルデータは、タイル上の遺伝物質群の中心からのセンサーデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスタとの画像の位置合わせに関する情報を含むことができる。
【0149】
以下に記載されるようなニューラルネットワークベースのベースコーラ102の実行中、タイルデータはまた、中間データと称される、ニューラルネットワークベースのベースコーラ102の実行中に作り出されるデータを含むことができ、中間データは、ニューラルネットワークベースのベースコーラ102の動作中に再計算されるのではなく再利用され得る。例えば、ニューラルネットワークベースのベースコーラ102の実行中、データフロー論理908は、タイルデータのアレイの所与のパッチのセンサーデータの代わりに、中間データをメモリ848Aに書き込むことができる。このような実施形態は、以下により詳細に記載される。
【0150】
例示されるように、システムは、ベースコールセンサー出力の分析のために記載されており、ベースコール動作の検知サイクルからのタイルのセンサーデータを含むタイルデータを記憶する、ランタイムプログラムによってアクセス可能なメモリ(例えば、848A)を含む。また、システムは、メモリへのアクセス権を有する構成可能プロセッサ846など、ニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの動作を実行して、検知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの動作は、被験者サイクルを含むN個の感知サイクルのそれぞれの感知サイクルからタイルデータのN個のアレイの配列で動作して、被験者サイクルの分類データを生成する。データフロー論理908は、N個の感知サイクルのそれぞれの感知サイクルからのN個のアレイの空間的に整合されたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。
【0151】
また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスタを含み、ニューラルネットワークを実行するように構成された複数の実行クラスタ内の実行クラスタを含むシステムも説明される。データフロー論理908は、複数の実行クラスタ内の利用可能な実行クラスタにタイルデータの入力ユニットを提供するために、メモリ及び複数の実行クラスタ内のクラスタへのアクセス権を有し、入力ユニットは、被験者検知サイクルを含む、それぞれの感知サイクルからのタイルデータの数Nのアレイの空間的に位置合わせされたパッチを含み、被験者検知サイクルの空間的に位置合わせされたパッチの分類データの出力パッチを作り出すために、実行クラスタにN個の、Nは1より大きい、空間的に位置合わせされたパッチをニューラルネットワークに適用させる。
【0152】
図9及び
図10に示されるように、一実施態様では、開示される技術は、ベースコールのための人工知能ベースのシステムを含む。システムは、ホストプロセッサと、配列決定動作のための配列決定サイクルに対する画像データを記憶する、ホストプロセッサによってアクセス可能なメモリであって、配列決定動作のための現在の配列決定サイクルに対する現在の画像データが、現在の配列決定サイクルで取り込まれた検体及びその周囲の背景の強度放射を描写する、メモリと、メモリへのアクセス権を有する構成可能プロセッサであって、構成可能プロセッサが、複数の実行クラスタを含み、複数の実行クラスタ内の実行クラスタが、ニューラルネットワークを実行するように構成されている、構成可能プロセッサと、メモリ及び複数の実行クラスタ内の実行クラスタへのアクセス権を有するデータフロー論理であって、複数の実行クラスタ内の利用可能な実行クラスタに、現在の画像データ、現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データ、及び現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データを提供し、実行クラスタに、現在の画像データ、以前の画像データ、及び後続の画像データの異なるグルーピングをニューラルネットワークに適用させて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測を作り出し、第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測に基づいて現在の配列決定サイクルに対するベースコールを生成するのに使用するために、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測をメモリにフィードバックさせるように構成されている、データフロー論理と、を備える。
【0153】
一実施態様では、異なるグルーピングは、現在の画像データ及び以前の画像データを含む第1のグルーピング、現在の画像データ、以前の画像データ、及び後続の画像データを含む第2のグルーピング、及び現在の画像データ及び後続の画像データを含む第3のグルーピングを含む。
【0154】
一実施態様では、実行クラスタは、第1のグルーピングをニューラルネットワークに適用して第1のベースコール予測を作り出し、第2のグルーピングをニューラルネットワークに適用して第2のベースコール予測を作り出し、第3のグルーピングをニューラルネットワークに適用して第3のベースコール予測を作り出す。
【0155】
一実施態様では、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測は、現在の配列決定サイクルにおいて1つ又はそれ以上の検体に組み込まれた塩基がA、C、T、及びGである尤度を識別する。
【0156】
一実装形態では、データフロー論理は、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測にわたって尤度を塩基ごとに合計し、塩基ごとの合計に基づいて塩基の平均を判定し、塩基ごとの平均のうちの最も高い平均に基づいて現在の配列決定サイクルに対するベースコールを生成することによって、現在の配列決定サイクルに対するベースコールを生成するように更に構成されている。
【0157】
一実装形態では、データフロー論理は、尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測の各々についての予備ベースコールを判定し、それによって予備ベースコールの配列を作り出し、予備ベースコールの配列の中の最も一般的なベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することによって、現在の配列決定サイクルに対するベースコールを生成するように更に構成されている。
【0158】
一実装形態では、データフロー論理は、尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測の各々についての予備ベースコールを判定し、それによって、予備ベースコールの配列の中の予備ベースコールのそれぞれの予備ベースコールに塩基ごとの重みを適用して、重み付き予備ベースコールの配列を作り出し、重み付き予備ベースコールの配列の中の最も重い重み付きベースコールに基づいて現在の配列決定サイクルに対するベースコールを生成することによって、現在の配列決定サイクルに対するベースコールを生成するように更に構成されている。
【0159】
図10は、ホストプロセッサによって実行されるランタイムプログラムの機能を含む、ベースコール動作の態様を示す簡略図である。この図では、フローセルからの画像センサーの出力は、ライン1000上で画像処理スレッド1001に提供され、画像処理スレッド1001は、個々のタイルのセンサーデータのアレイ内の位置合わせ及び配置、及び画像の再サンプリングなどの画像上のプロセスを実行することができ、フローセル内の各タイルのタイルクラスタマスクを計算するプロセスによって使用することができ、これにより、フローセルの対応するタイル上の遺伝物質のクラスタに対応するセンサーデータのアレイ内のピクセルを識別する。画像処理スレッド1001の出力は、ライン1002上でCPU内のディスパッチ論理1010に提供され、ディスパッチ論理1010は、ベースコール動作の状態に従って、タイルデータのアレイを、高速バス1003上データキャッシュ1004(例えば、SSDストレージ)に、又は高速バス1005上で、
図9の構成可能プロセッサ846などのニューラルネットワークプロセッサハードウェア1020にルーティングする。処理され、変換された画像は、以前に使用されたサイクルを感知するために、データキャッシュ1004上に記憶され得る。ハードウェア1020は、ニューラルネットワークによって出力された分類データをディスパッチ論理1010に返し、ディスパッチ論理1010は、情報をデータキャッシュ1004に渡すか、又はライン1011上で、分類データを使用してベースコール及び品質スコア計算を実行しスレッド1002に渡し、ベースコールリードのための標準フォーマットでデータを配置することができる。ベースコール及び品質スコア計算を実行するスレッド1002の出力は、ライン1012上でスレッド1003に提供され、スレッド1003は、ベースコールリードを集約し、データ圧縮などの他の動作を実行し、結果として得られるベースコール出力を、顧客による利用のために指定された宛先に書き込む。
【0160】
いくつかの実施形態では、ホストは、ニューラルネットワークを支持するハードウェア1020の出力の最終処理を実行するスレッド(図示せず)を含むことができる。例えば、ハードウェア1020は、多重クラスタニューラルネットワークの最終層から分類データの出力を提供することができる。ホストプロセッサは、ベースコール及び品質スコアスレッド1002による使用のためにデータを構成するために、分類データに対してソフトマックス関数などの出力アクティブ化機能を実行することができる。また、ホストプロセッサは、ハードウェア1020への入力の前にタイルデータのバッチ正規化などの入力動作(図示せず)を実行することができる。
【0161】
図11は、
図9の構成など、構成可能プロセッサ846の構成の簡略図である。
図11では、構成可能プロセッサ846は、複数の高速PCIeインターフェースを有するFPGAを備える。FPGAは、
図9を参照して記載されるデータフロー論理908を含むラッパー1100を用いて構成される。ラッパー1100は、CPU通信リンク1109を介してCPU内のランタイムプログラムとのインターフェース及び調整を管理し、DRAM通信リンク1110を介してオンボードDRAM1102(例えば、メモリ848A)との通信を管理する。ラッパー1100内のデータフロー論理908は、数Nのサイクルの間、オンボードDRAM1102上のタイルデータのアレイをトラバースすることによって取得されたパッチデータをクラスタ1101に提供し、オンボードDRAM1102に送り返すためにクラスタ1101からプロセスデータ1115を取り出す。ラッパー1100はまた、タイルデータの入力アレイ、及び分類データの出力パッチの両方について、オンボードDRAM1102とホストメモリとの間のデータの転送を管理する。ラッパーは、ライン1113上のパッチデータを割り当てられたクラスタ1101に転送する。ラッパーは、重み及びバイアスなどの訓練されたパラメータを、ライン1112上で、クラスタ1101に提供し、オンボードDRAM1102から取り出される。ラッパーは、CPU通信リンク1109を介してホスト上のランタイムプログラムから提供されるか、又はそれに応答して生成される構成及び制御データをライン1111上でクラスタ1101に提供する。クラスタはまた、ライン1116上のステータス信号をラッパー1100に提供することができ、ステータス信号は、タイルデータのアレイのトラバーサルを管理して、空間的に位置合わせされたパッチデータを提供し、クラスタ1101のリソースを使用してパッチデータ上で多重サイクルニューラルネットワークを実行するために、ホストからの制御信号と協働して使用される。
【0162】
上述のように、タイルデータの複数のパッチのうちの対応するパッチ上で実行するように構成されたラッパー1100によって管理される単一の構成可能プロセッサ上に複数のクラスタが存在し得る。各クラスタは、本明細書に記載される複数の感知サイクルのタイルデータを使用して、被験者検知サイクルにおけるベースコールの分類データを提供するように構成することができる。
【0163】
システムの例では、フィルタ重み及びバイアスのようなカーネルデータを含むモデルデータをホストCPUから構成可能プロセッサに送信することができ、その結果、モデルは、サイクル数の関数として更新され得る。ベースコール動作は、代表的な例では、数百の感知サイクルの順序で含むことができる。ベースコール動作は、いくつかの実施形態では、ペアリングされた端部読み取りを含むことができる。例えば、モデル訓練されたパラメータは、20サイクルごと(又は他の数のサイクル)ごとに、又は特定のシステム及びニューラルネットワークモデルに実装される更新パターンに従って更新されてもよい。タイル上の遺伝的クラスタ内の所与のストリングのための配列が、ストリングの第1の端部から下方に(又は上方に)延在する第1の部分と、ストリングの第2の端部から上方に(又は下方に)に延在する第2の部分とを含む、ペアリングされた端部リードを含むいくつかの実施形態では、訓練されたパラメータは、第1の部分から第2の部分への遷移で更新され得る。
【0164】
いくつかの実施例では、タイルの感知データの複数サイクルに対する画像データは、CPUからラッパー1100に送信され得る。ラッパー1100は、任意選択的に、感知データの何らかの前処理及び変換を行い、その情報をオンボードDRAM1102に書き込むことができる。各感知サイクルの入力タイルデータは、タイル当たり4000×3000ピクセル/タイル以上を含むセンサーデータのアレイを含むことができ、2つの特徴はタイルの2つの画像の色を表し、1ピクセル当たり1つ又は2つのバイトを含むセンサーデータのアレイを含むことができる。数Nが、多重サイクルニューラルネットワークの各動作において使用される3回の検知サイクルである実施形態では、多重サイクルニューラルネットワークの各動作のためのタイルデータのアレイは、数当たり数百メガバイトの数で消費することができる。システムのいくつかの実施形態では、タイルデータはまた、タイルごとに1回記憶されたDFCデータのアレイ、又はセンサーデータ及びタイルに関する他のタイプのメタデータも含む。
【0165】
動作中、多重サイクルクラスターが利用可能である場合、ラッパーは、パッチをクラスタに割り当てる。ラッパーはタイルの横断面にタイルデータの次のパッチをフェッチし、適切な制御及び構成情報と共に割り当てられたクラスタに送信する。クラスタは、構成可能プロセッサ上の十分なメモリを用いて構成されて、パッチを含むデータのパッチを、定位置に処理されているいくつかのシステム内で複数サイクルから保持するのに十分なメモリを有するように構成することができ、様々な実施形態では、ピンポンバッファ技術又はラスタ走査技術を使用して処理される。
【0166】
割り当てられたクラスタが、現在のパッチのニューラルネットワークのその動作を完了し、出力パッチを生成すると、それはラッパーに信号を送る。ラッパーは、割り当てられたクラスタから出力パッチを読み出すか、あるいは割り当てられたクラスタは、データをラッパーにプッシュする。次いで、ラッパーは、DRAM1102内の処理されたタイルに対する出力パッチをアセンブルする。タイル全体の処理が完了し、データの出力パッチがDRAMに転送されると、ラッパーは、処理された出力アレイを、特定のフォーマットでホスト/CPUに返送する。いくつかの実施形態では、オンボードDRAM1102は、ラッパー1100内のメモリ管理論理によって管理される。実行時プログラムは、リアルタイム分析を提供するために連続フローで動作する全てのサイクルについての全てのタイルデータのアレイの分析を完了するために、配列決定動作を制御することができる。
【0167】
コンピュータシステム
図12は、本明細書に開示されるベースコール技術を実装するために、配列決定システム800Aによって使用され得るコンピュータシステム1200である。コンピュータシステム1200は、バスサブシステム1255を介していくつかの周辺デバイスと通信する、少なくとも1つの中央処理装置(central processing unit、CPU)1272を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイルストレージサブシステム1236、ユーザインターフェース入力デバイス1238、ユーザインターフェース出力デバイス1276及びネットワークインターフェースサブシステム1274を含む、ストレージサブシステム1210を含むことができる。入力デバイス及び出力デバイスにより、ユーザがコンピュータシステム1200と相互作用することが可能になる。ネットワークインターフェースサブシステム1274は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
【0168】
一実施態様では、システムコントローラ806は、ストレージサブシステム1210及びユーザインターフェース入力デバイス1238に通信可能にリンクされている。
【0169】
ユーザインターフェース入力デバイス1238は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、「入力デバイス」という用語の使用は、コンピュータシステム1200に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0170】
ユーザインターフェース出力デバイス1276は、ディスプレイサブシステム、プリンタ、ファックス機、又はオーディオ出力デバイスなどの非視覚表示を含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、「出力デバイス」という用語の使用は、コンピュータシステム1200からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための全ての可能なタイプのデバイス及び方法を含むことを意図している。
【0171】
ストレージサブシステム1210は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構造を記憶する。これらのソフトウェアモジュールは、一般に、深層学習プロセッサ1278によって実行される。
【0172】
深層学習プロセッサ1278は、グラフィック処理ユニット(graphics processing unit、GPU)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、及び/又は粗粒化再構成可能構造(coarse-grained reconfigurable architecture、CGRAs)であり得る。深層学習プロセッサ1278は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングされ得る。深層学習プロセッサ1278の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX12 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Serverなどを含む。
【0173】
ストレージサブシステム1210で使用されるメモリサブシステム1222は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)1232、及び固定命令が記憶された読み取り専用メモリ(read only memory、ROM)1234を含む、いくつかのメモリを含むことができる。ファイルストレージサブシステム1236は、プログラム及びデータファイルのための永続的ストレージを提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体を伴うフロッピーディスク、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。ある特定の実施態様の機能性を実装するモジュールは、ファイルストレージサブシステム1236によってストレージサブシステム1210内に、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。
【0174】
バスサブシステム1255は、コンピュータシステム1200の様々な構成要素及びサブシステムを、意図されるように互いに通信するための機構を提供する。バスサブシステム1255は、単一のバスとして概略的に示されているが、バスサブシステムの代替的な実施態様は、複数のバスを使用することができる。
【0175】
コンピュータシステム1200自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、広く分散した一組の疎にネットワーク化されたコンピュータ、又は任意の他のデータ処理システム若しくはユーザデバイスを含む、様々なタイプのものであり得る。コンピュータ及びネットワークの性質は絶えず変化しているため、
図12に描写されているコンピュータシステム1200の記載は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。
図12に示されるコンピュータシステムよりも多く又は少ない構成要素を有する、コンピュータシステム1200の多くの他の構成が可能である。
【0176】
項目
本発明者らは、以下の項目を開示する。
【0177】
1.ベースコールのための人工知能ベースのシステムであって、本システムが、
少なくとも右隣接入力、中心入力、及び左隣接入力を処理し、少なくとも右隣接出力、中心出力、及び左隣接出力を作り出す、ニューラルネットワークベースのベースコーラであって、
右隣接入力が、配列決定動作のための現在の配列決定サイクルに対する現在の画像データを含み、現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データで補足されており、右隣接出力が、現在の配列決定サイクルに対する右隣接ベースコール予測及び以前の配列決定サイクルに対するベースコール予測を含み、
中心入力が、現在の画像データを含み、以前の画像データ及び現在の配列決定サイクルに続く1つ又はそれ以上の後続配列サイクルに対する後続の画像データで補足されており、中心出力が、現在の配列決定サイクルに対する中心ベースコール予測及び以前の配列決定サイクル及び後続の配列決定サイクルに対するベースコール予測を含み、
左隣接入力が、現在の画像データを含み、後続の画像データで補足されており、左隣接出力が、現在の配列決定サイクルに対する左隣接ベースコール予測及び後続の配列決定サイクルに対するベースコール予測を含む、ニューラルネットワークベースのベースコーラと、
ニューラルネットワークベースのベースコーラに結合され、かつ、現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測に基づいて、現在の配列決定サイクルに対するベースコールを生成するように構成されたベースコールジェネレータと、を含む、人工知能ベースのシステム。
2.現在の配列決定サイクルに対する現在の画像データが、現在の配列決定サイクルにおいて取り込まれた検体及びそれらの周囲の背景の強度放射を描写する、条項1に記載の人工知能ベースのシステム。
3.現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測が、現在の配列決定サイクルにおいて検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する、条項2に記載の人工知能ベースのシステム。
4.ベースコールジェネレータがアベレイジャを含むように更に構成されており、アベレイジャが、
現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測にわたる尤度を塩基ごとに合計することと、
塩基ごとの合計に基づいて塩基ごとの平均を判定することと、
塩基ごとの平均のうちの最も高い平均に基づいて、現在の配列決定サイクルに対するベースコールを生成することと、を行う、条項3に記載の人工知能ベースのシステム。
5.ベースコールジェネレータが、コンセンサーを含むように更に構成されており、コンセンサーが、
尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測の各々について予備ベースコールを判定し、それによって予備ベースコールの配列を生成することと、
予備ベースコールの配列の中の最も一般的なベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することと、を行う、条項3に記載の人工知能ベースのシステム。
6.ベースコールジェネレータが、重み付きコンセンサーを含むように更に構成されており、重み付きコンセンサーが、
尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する、右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測の各々について予備ベースコールを判定し、それによって予備ベースコールの配列を生成することと、
予備ベースコールの配列の中の予備ベースコールのそれぞれの予備ベースコールに塩基ごとの重みを適用し、重み付き予備ベースコールの配列を作り出すことと、
重み付き予備ベースコールの配列の中の最も重い重み付きベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することと、を行う、条項3に記載の人工知能ベースのシステム。
7.尤度が、ソフトマックス層によって作り出される指数関数的に正規化されたスコアである、条項3に記載の人工知能ベースのシステム。
8.訓練中に、
ニューラルネットワークベースのベースコーラの右隣接出力、中心出力、及び左隣接出力に基づいて、現在の配列決定サイクル、以前の配列決定サイクル、及び後続の配列決定サイクルについてベースコールジェネレータによって生成されたベースコールと、グラウンドトゥルースベースコールと間の誤差を計算することと、
誤差に基づいて、現在の配列決定サイクル、以前の配列決定サイクル、及び後続の配列決定サイクルに対する勾配を判定することと、
勾配を逆伝搬することによって、ニューラルネットワークベースのベースコーラのパラメータを更新することと、を行うトレーナを含むように更に構成されている、条項1に記載の人工知能ベースのシステム。
9.現在の配列決定サイクルに対する右隣接ベースコール予測が、現在の配列決定サイクルと以前の配列決定サイクルとの間のプレフェージング効果を考慮に入れる、条項1に記載の人工知能ベースのシステム。
10.現在の配列決定サイクルに対する中心ベースコール予測が、現在の配列決定サイクルと以前の配列決定サイクルとの間のプレフェージング効果、及び現在の配列決定サイクルと後続の配列サイクルとの間のフェージング効果を考慮に入れる、条項9に記載の人工知能ベースのシステム。
11.現在の配列決定サイクルに対する左隣接ベースコール予測が、現在の配列決定サイクルと後続の配列決定サイクルとの間のフェージング効果を考慮に入れる、条項10に記載の人工知能ベースのシステム。
12.ベースコールのための人工知能ベースのシステムであって、本システムが、
ホストプロセッサと、
ホストプロセッサによってアクセス可能な、配列決定動作のための配列決定サイクルに対する画像データを記憶するメモリであって、配列決定動作のための現在の配列決定サイクルに対する現在の画像データが、現在の配列決定サイクルにおいて取り込まれた検体及びそれらの周囲の背景の強度放射を描写する、メモリと、
メモリへのアクセス権を有する構成可能なプロセッサであって、構成可能なプロセッサが、
複数の実行クラスタであって、複数の実行クラスタ内の実行クラスタが、ニューラルネットワークを実行するように構成されている、複数の実行スラスターと、
メモリへのアクセス権及び複数の実行クラスタ内の実行クラスタへのアクセス権を有するデータフロー論理であって、現在の画像データと、現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データと、現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データとを、複数の実行クラスタ内の利用可能な実行クラスタに提供するように構成されており、実行クラスタに、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測を作り出すために、現在の画像データ、以前の画像データ、及び後続の画像データの異なるグルーピングをニューラルネットワークに適用することと、第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測に基づいて現在の配列決定サイクルに対するベースコールを生成するのに使用するために、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測をメモリにフィードバックすることと、を行わせる、データフロー論理と、を含む、構成可能なプロセッサと、を備える、人工知能ベースのシステム。
13.異なるグルーピングが、現在の画像データ及び以前の画像データを含む第1のグループ、現在の画像データ、以前の画像データ、及び後続の画像データを含む第2のグルーピング、並びに現在の画像データ及び後続の画像データを含む第3のグルーピングを含む、条項12に記載の人工知能ベースのシステム。
14.実行クラスタが、第1のグルーピングをニューラルネットワークに適用して第1のベースコール予測を作り出し、第2のグルーピングをニューラルネットワークに適用して第2のベースコール予測を作り出し、第3のグルーピングをニューラルネットワークに適用して第3のベースコール予測を作り出す、条項13に記載の人工知能ベースのシステム。
15.現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測が、現在の配列決定サイクルにおいて検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する、条項12に記載の人工知能ベースのシステム。
16.データフロー論理が、現在の配列決定サイクルに対するベースコールを生成するように更に構成されており、生成することが、
現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測にわたる尤度を塩基ごとに合計することと、
塩基ごとに合計することに基づいて、塩基ごとの平均を判定することと、
塩基ごとの平均のうちの最も高い平均に基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって行われる、条項15に記載の人工知能ベースのシステム。
17.データフロー論理が、現在の配列決定サイクルに対するベースコールを生成するように更に構成されており、生成することが、
尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測の各々についての予備ベースコールを判定し、それによって予備ベースコールの配列を生成することと、
予備ベースコールの配列の中の最も一般的なベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって行われる、条項15に記載の人工知能ベースのシステム。
18.データフロー論理が、現在の配列決定サイクルに対するベースコールを生成するように更に構成されており、生成することが、
尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測の各々についての予備ベースコールを判定し、それによって予備ベースコールの配列を生成することと、
予備ベースコールの配列の中の予備ベースコールのそれぞれの予備ベースコールに塩基ごとの重みを適用し、重み付き予備ベースコールの配列を作り出すことと、
重み付き予備ベースコールの配列の中の最も重い重み付きベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって行われる、条項15に記載の人工知能ベースのシステム。
19.ベースコールのための人工知能ベースの方法であって、本方法が、
配列決定動作のための現在の配列決定サイクルに対する現在の画像データ、現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データ、及び現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データにアクセスすることと、
ニューラルネットワークベースのベースコーラを介して、現在の画像データ、以前の画像データ、及び後続の画像データの異なるグルーピングを処理し、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測を作り出すことと、
第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測に基づいて、現在の配列決定サイクルに対するベースコールを生成することと、を含む、方法。
20.異なるグルーピングが、
現在の画像データ及び以前の画像データを含む第1のグルーピングと、
現在の画像データ、以前の画像データ、及び後続の画像データを含む第2のグルーピングと、
現在の画像データ及び後続の画像データを含む第3のグルーピングと、を含む、条項19に記載の人工知能ベースの方法。
21.第1のベースコール予測を作り出すために、ニューラルネットワークベースのベースコーラを通して第1のグルーピングを処理することと、
第2のベースコール予測を作り出すために、ニューラルネットワークベースのベースコーラを通して第2のグルーピングを処理することと、
第3のベースコール予測を作り出すために、ニューラルネットワークベースのベースコーラを通して第3のグルーピングを処理することと、を更に含む、条項20に記載の人工知能ベースの方法。
22.現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測が、現在の配列決定サイクルにおいて検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する、条項19に記載の人工知能ベースの方法。
23.現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測にわたる尤度を塩基ごとに合計することと、
塩基ごとに合計することに基づいて、塩基ごとの平均を判定することと、
塩基ごとの平均のうちの最も高い平均に基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって、現在の配列決定サイクルに対するベースコールを生成することを更に含む、条項22に記載の人工知能ベースのシステム。
24.尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測の各々についての予備ベースコールを判定し、それによって予備ベースコールの配列を作り出すことと、
予備ベースコールの配列の中の最も一般的なベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって、現在の配列決定サイクルに対するベースコールを生成することを更に含む、条項22に記載の人工知能ベースのシステム。
25.尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測の各々についての予備ベースコールを判定し、それによって予備ベースコールの配列を作り出すことと、
予備ベースコールの配列の中の予備ベースコールのそれぞれの予備ベースコールに塩基ごとの重みを適用し、重み付き予備ベースコールの配列を作り出すことと、
重み付き予備ベースコールの配列の中の最も重い重み付きベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって、現在の配列決定サイクルに対するベースコールを生成することを更に含む、条項22に記載の人工知能ベースのシステム。
26.ベースコールのための人工知能ベースの方法であって、本方法が、
ニューラルネットワークベースのベースコーラを通して、少なくとも右隣接入力、中心入力、及び左隣接入力を処理して、少なくとも右隣接出力、中心出力、及び左隣接出力を生成することであって、
右隣接入力が、配列決定動作のための現在の配列決定サイクルに対する現在の画像データを含み、現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データで補足されており、右隣接出力が、現在の配列決定サイクルに対する右隣接ベースコール予測及び以前の配列決定サイクルに対するベースコール予測を含み、
中心入力が、現在の画像データを含み、以前の画像データ及び現在の配列決定サイクルに対する後続の画像データで補足されており、中心出力が、現在の配列決定サイクルに対する中心ベースコール予測及び以前の配列決定サイクル及び後続の配列決定サイクルに対するベースコール予測を含み、
左隣接入力が、現在の画像データを含み、後続の画像データで補足されており、左隣接出力が、現在の配列決定サイクルに対する左隣接ベースコール予測及び後続の配列決定サイクルに対するベースコール予測を含む、生成することと、
現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測に基づいて、現在の配列決定サイクルに対するベースコールを生成することと、を含む、人工知能ベースの方法。
27.現在の配列決定サイクルに対する現在の画像データが、現在の配列決定サイクルにおいて取り込まれた検体及びそれらの周囲の背景の強度放射を描写する、条項26に記載の人工知能ベースの方法。
28.現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測が、現在の配列決定サイクルにおいて検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する、条項26に記載の人工知能ベースの方法。
29.現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測にわたる尤度を塩基ごとに合計することと、
塩基ごとに合計することに基づいて、塩基ごとの平均を判定することと、
塩基ごとの平均のうちの最も高い平均に基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって、現在の配列決定サイクルに対するベースコールを生成することを更に含む、条項28に記載の人工知能ベースのシステム。
30.尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測の各々について予備ベースコールを判定し、それによって予備ベースコールの配列を作り出すことと、
予備ベースコールの配列の中の最も一般的なベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって、現在の配列決定サイクルに対するベースコールを生成することを更に含む、条項28に記載の人工知能ベースのシステム。
31.尤度のうちの最も高い尤度に基づいて、現在の配列決定サイクルに対する右隣接ベースコール予測、中心ベースコール予測、及び左隣接ベースコール予測の各々について予備ベースコールを判定し、それによって予備ベースコールの配列を作り出すことと、
予備ベースコールの配列の中の予備ベースコールのそれぞれの予備ベースコールに塩基ごとの重みを適用し、重み付き予備ベースコールの配列を作り出すことと、
重み付き予備ベースコールの配列の中の最も重い重み付きベースコールに基づいて、現在の配列決定サイクルに対するベースコールを生成することと、によって、現在の配列決定サイクルに対するベースコールを生成することを更に含む、条項28に記載の人工知能ベースのシステム。
32.尤度が、ソフトマックス層によって作り出される指数関数的に正規化されたスコアである、条項28に記載の人工知能ベースの方法。
33.訓練中に、
ニューラルネットワークベースのベースコーラの右隣接出力、中心出力、及び左隣接出力に基づいて、現在の配列決定サイクル、以前の配列決定サイクル、及び後続の配列決定サイクルについてベースコールジェネレータによって生成されたベースコールと、グラウンドトゥルースベースコールと間の誤差を計算することと、
誤差に基づいて、現在の配列決定サイクル、以前の配列決定サイクル、及び後続の配列決定サイクルに対する勾配を判定することと、
勾配を逆伝搬することによって、ニューラルネットワークベースのベースコーラのパラメータを更新することと、を更に含む、条項26に記載の人工知能ベースの方法。
34.現在の配列決定サイクルに対する右隣接ベースコール予測が、現在の配列決定サイクルと以前の配列決定サイクルとの間のプレフェージング効果を考慮に入れる、条項26に記載の人工知能ベースの方法。
35.現在の配列決定サイクルに対する中心ベースコール予測が、現在の配列決定サイクルと以前の配列決定サイクルとの間のプレフェージング効果及び現在の配列決定サイクルと後続の配列サイクルとの間のフェージング効果を考慮に入れる、条項34に記載の人工知能ベースの方法。
36.現在の配列決定サイクルに対する左隣接ベースコール予測が、現在の配列決定サイクルと後続の配列決定サイクルとの間のフェージング効果を考慮に入れる、条項35に記載の人工知能ベースの方法。
37.ベースコールのための人工知能ベースの方法であって、本方法が、
ニューラルネットワークベースのベースコーラを通して少なくとも第1の入力、第2の入力、及び第3の入力を処理して、少なくとも第1の出力、第2の出力、及び第3の出力を生成することであって、
第1の入力が、配列決定動作のための特定の配列決定サイクルの特定の画像データを含み、1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データで補足されており、第1の出力が、特定の配列決定サイクルに対する第1のベースコール予測及び以前の配列決定サイクルに対するベースコール予測を含み、
第2の入力が、特定の画像データを含み、以前の画像データ及び特定の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データで補足されており、第2の出力が、特定の配列決定サイクルに対する第2のベースコール予測及び以前の配列決定サイクル及び後続の配列決定サイクルに対するベースコール予測を含み、
第3の入力が、特定の画像データを含み、後続の画像データで補足されており、第3の出力が、特定の配列決定サイクルに対する第3のベースコール予測及び後続の配列決定サイクルに対するベースコール予測を含む、生成することと、
特定の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを生成することと、を含む、人工知能ベースの方法。
38.最終的に条項1に従属する条項の各々を実装する、条項37に記載の人工知能ベースの方法。
39.人工知能ベースのベースコールを実行するためのコンピュータプログラム命令が刻印された非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されると、
配列決定動作のための現在の配列決定サイクルに対する現在の画像データ、現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データ、及び現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データにアクセスすることと、
ニューラルネットワークベースのベースコーラを介して、現在の画像データ、以前の画像データ、及び後続の画像データの異なるグルーピングを処理し、現在の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測を作り出すことと、
第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測に基づいて、現在の配列決定サイクルに対するベースコールを生成することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
40.最終的に条項1に従属する条項の各々を実装する、条項39に記載の非一時的コンピュータ可読記憶媒体。
41.人工知能ベースのベースコールを実行するためのコンピュータプログラム命令が刻印された非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されると、
ニューラルネットワークベースのベースコーラを通して少なくとも第1の入力、第2の入力、及び左入力を処理して、少なくとも第1の出力、第2の出力、及び左出力を作り出すことであって、
第1の入力が、配列決定動作のための特定の配列決定サイクルの特定の画像データを含み、1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データで補足されており、第1の出力が、特定の配列決定サイクルに対する第1のベースコール予測及び以前の配列決定サイクルに対するベースコール予測を含み、
第2の入力が、特定の画像データを含み、以前の画像データ及び特定の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データで補足されており、第2の出力が、特定の配列決定サイクルに対する第2のベースコール予測及び以前の配列決定サイクル及び後続の配列決定サイクルに対するベースコール予測を含み、
左入力が、特定の画像データを含み、後続の画像データで補足されており、左出力が、特定の配列決定サイクルに対する左ベースコール予測及び後続の配列決定サイクルに対するベースコール予測を含む、作り出すことと、
特定の配列決定サイクルに対する第1のベースコール予測、第2のベースコール予測、及び左ベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを生成することと、を含む、非一時的コンピュータ可読記憶媒体。
44.最終的に条項1に従属する条項の各々を実装する、条項43に記載の非一時的コンピュータ可読記憶媒体。
45.ベースコールのための人工知能ベースの方法であって、本方法が、
配列決定動作のための配列決定サイクルに対して生成されたサイクルごとの検体チャネルセットのプログレッションにアクセスすることと、
ニューラルネットワークベースのベースコーラが、
配列決定動作のための配列決定サイクルの被験者ウィンドウのプログレッション中にサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、
配列決定サイクルの被験者ウィンドウ内の3つ又はそれ以上の配列決定サイクルの暫定ベースコール予測を生成するように、
ニューラルネットワークベースのベースコーラを使用して、配列決定動作のための配列決定サイクルのウィンドウのプログレッション中のサイクルごとの検体チャネルセットのウィンドウを処理することと、特定の配列決定サイクルが異なる位置に出現した複数のウィンドウから、特定の配列決定サイクルに対する暫定ベースコール予測を生成することと、
複数のベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを判定することと、を含む、人工知能ベースの方法。
46.最終的に条項1に従属する条項の各々を実装する、条項45に記載の人工知能ベースの方法。
47.メモリに結合された1つ又はそれ以上のプロセッサを含むシステムであって、メモリには、人工知能ベースのベースコールを実行するためのコンピュータ命令がロードされ、命令が、プロセッサ上で実行されると、
配列決定動作のための配列決定サイクルに対して生成されたサイクルごとの検体チャネルセットのプログレッションにアクセスすることと、
ニューラルネットワークベースのベースコーラが、
配列決定動作のための配列決定サイクルの被験者ウィンドウのプログレッション中にサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、
配列決定サイクルの被験者ウィンドウ内の3つ又はそれ以上の配列決定サイクルの暫定ベースコール予測を生成するように、
ニューラルネットワークベースのベースコーラを介して、配列決定動作のための配列決定サイクルのウィンドウのプログレッション中のサイクルごとの検体チャネルセットのウィンドウを処理することと、特定の配列決定サイクルが異なる位置に出現した複数のウィンドウから、特定の配列決定サイクルに対する暫定ベースコール予測を生成することと、
複数のベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを判定することと、を含む動作を実装する、システム。
48.最終的に条項1に従属する条項の各々を実装する、条項47に記載のシステム。
49.人工知能ベースのベースコールを実行するためのコンピュータプログラム命令が刻印された非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されると、
配列決定動作のための配列決定サイクルに対して生成されたサイクルごとの検体チャネルセットのプログレッションにアクセスすることと、
ニューラルネットワークベースのベースコーラが、
配列決定動作のための配列決定サイクルの被験者ウィンドウのプログレッション中にサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、
配列決定サイクルの被験者ウィンドウ内の3つ又はそれ以上の配列決定サイクルの暫定ベースコール予測を生成するように、
ニューラルネットワークベースのベースコーラを介して、配列決定動作のための配列決定サイクルのウィンドウのプログレッション中のサイクルごとの検体チャネルセットのウィンドウを処理することと、特定の配列決定サイクルが異なる位置に出現した複数のウィンドウから、ニューラルネットワークベースのベースコールを使用して、特定の配列決定サイクルの暫定ベースコール予測を生成することと、
複数のベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを判定することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
50.最終的に条項1に従属する条項の各々を実装する、条項49に記載の非一時的コンピュータ可読記憶媒体。
51.ベースコールのための人工知能ベースの方法であって、本方法が、
配列決定動作のための配列決定サイクルに対して生成された一連のサイクルごとの検体チャネルセットにアクセスすることと、
ニューラルネットワークベースのベースコーラが、
配列決定動作のための配列決定サイクルの被験者ウィンドウのシリーズにおいてサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、配列決定サイクルの被験者ウィンドウ内の2つ又はそれ以上の配列決定サイクルのベースコール予測を生成するように、
ニューラルネットワークベースのベースコーラを介して、配列決定動作のための配列決定サイクルのサイクルごとの検体チャネルセットのウィンドウを処理することと、
ニューラルネットワークベースのベースコーラを通して、
配列決定動作のための配列決定サイクルの複数のウィンドウのシリーズにおいてサイクルごとの検体チャネルセットの複数のウィンドウを処理することと、
複数のウィンドウ内の各ウィンドウの出力を生成することであって、
複数のウィンドウ内の各ウィンドウが、配列決定動作のための特定の配列決定サイクルに対する特定のサイクルごとの検体チャネルセットを含み、
複数のウィンドウ内の各ウィンドウの出力は、
(i)特定の配列決定サイクルに対するベースコール予測、及び
(ii)配列決定動作のための1つ又はそれ以上の追加の配列決定サイクルに対する1つ又はそれ以上の追加のベースコール予測を含み、それにより、複数のウィンドウにわたる特定の配列決定サイクルに対する複数のベースコール予測を生成する、生成することと、
複数のベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを判定することと、を含む、人工知能ベースの方法。
52.メモリに結合された1つ又はそれ以上のプロセッサを含むシステムであって、メモリには、人工知能ベースのベースコールを実行するためのコンピュータ命令がロードされ、命令が、プロセッサ上で実行されると、
配列決定動作のための配列決定サイクルに対して生成された一連のサイクルごとの検体チャネルセットにアクセスすることと、
ニューラルネットワークベースのベースコーラが、
配列決定動作のための配列決定サイクルの被験者ウィンドウのシリーズにおいてサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、配列決定サイクルの被験者ウィンドウ内の2つ又はそれ以上の配列決定サイクルのベースコール予測を生成するように、
ニューラルネットワークベースのベースコーラを介して、配列決定動作のための配列決定サイクルのウィンドウのシリーズのサイクルごとの検体チャネルセットのウィンドウを処理することと、
ニューラルネットワークベースのベースコーラを介して、
配列決定動作のための配列決定サイクルの複数のウィンドウのシリーズにおいてサイクルごとの検体チャネルセットの複数のウィンドウを処理することと、
複数のウィンドウ内の各ウィンドウの出力を生成することであって、
複数のウィンドウ内の各ウィンドウが、配列決定動作のための特定の配列決定サイクルに対する特定のサイクルごとの検体チャネルセットを含み、
複数のウィンドウ内の各ウィンドウの出力は、
(i)特定の配列決定サイクルに対するベースコール予測、及び
(ii)配列決定動作のための1つ又はそれ以上の追加の配列決定サイクルに対する1つ又はそれ以上の追加のベースコール予測を含み、それにより、複数のウィンドウにわたる特定の配列決定サイクルに対する複数のベースコール予測を生成する、生成することと、
複数のベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを判定することと、を含む、システム。
53.最終的に条項1に従属する条項の各々を実装する、条項52に記載のシステム。
54.人工知能ベースのベースコールを実行するためのコンピュータプログラム命令が刻印された非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されると、
配列決定動作のための配列決定サイクルに対して生成された一連のサイクルごとの検体チャネルセットにアクセスすることと、
ニューラルネットワークベースのベースコーラが、
配列決定動作のための配列決定サイクルの被験者ウィンドウのシリーズにおいてサイクルごとの検体チャネルセットの被験者ウィンドウを処理し、配列決定サイクルの被験者ウィンドウ内の2つ又はそれ以上の配列決定サイクルのベースコール予測を生成するように、
ニューラルネットワークベースのベースコーラを介して、配列決定動作のための配列決定サイクルのウィンドウのシリーズのサイクルごとの検体チャネルセットのウィンドウを処理することと、
ニューラルネットワークベースのベースコーラを介して、
配列決定動作のための配列決定サイクルの複数のウィンドウのシリーズにおいてサイクルごとの検体チャネルセットの複数のウィンドウを処理することと、
複数のウィンドウ内の各ウィンドウの出力を生成することであって、
複数のウィンドウ内の各ウィンドウが、配列決定動作のための特定の配列決定サイクルに対する特定のサイクルごとの検体チャネルセットを含み、
複数のウィンドウ内の各ウィンドウの出力は、
(i)特定の配列決定サイクルに対するベースコール予測、及び
(ii)配列決定動作のための1つ又はそれ以上の追加の配列決定サイクルに対する1つ又はそれ以上の追加のベースコール予測を含み、それにより、複数のウィンドウにわたる特定の配列決定サイクルに対する複数のベースコール予測を生成する、生成することと、
複数のベースコール予測に基づいて、特定の配列決定サイクルに対するベースコールを判定することと、を含む、方法を実装する、非一時的コンピュータ可読記憶媒体。
55.最終的に条項1に従属する条項の各々を実装する、条項54に記載の非一時的コンピュータ可読記憶媒体。
【0178】
上述の方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
【符号の説明】
【0179】
800A 配列決定システム
802 共通のハウジング
804 温度制御システム
806 システムコントローラ
808 流体制御システム
810 システムレセプタクル又はインターフェース
812 バイオセンサー
814 流体貯蔵システム
816 照明システム
818 ユーザインターフェース
820 ディスプレイ
822 ユーザ入力デバイス
【図】
【手続補正書】
【提出日】2022-08-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ベースコールのための人工知能ベースのシステムであって、前記システムが、
クラスタ及びそれらの周囲の背景を描写する画像の少なくとも右隣接入力、中心入力、及び左隣接入力を処理し、
現在の配列決定サイクルにおける前記クラスタのための少なくとも右隣接出力、中心出力、及び左隣接出力を作り出す
ようにそれぞれ訓練された並列畳み込みニューラルネットワーク
パイプラインを含むニューラルネットワークベースのベースコーラであって、
前記右隣接入力が、配列決定動作のための
前記現在の配列決定サイクルに対する現在の画像データを含み、前記現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データで補足されており、前記右隣接出力が、前記現在の配列決定サイクルに対する右隣接ベースコール予測及び前記以前の配列決定サイクルに対するベースコール予測を含み、
前記中心入力が、前記現在の画像データを含み、前記以前の画像データ及び前記現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データで補足されており、前記中心出力が、前記現在の配列決定サイクルに対する中心ベースコール予測並びに前記以前の配列決定サイクル及び前記後続の配列決定サイクルに対するベースコール予測を含み、
前記左隣接入力が、前記現在の画像データを含み、前記後続の画像データで補足されており、前記左隣接出力が、前記現在の配列決定サイクルに対する左隣接ベースコール予測及び前記後続の配列決定サイクルに対するベースコール予測を含
み、
前記訓練された並列畳み込みニューラルネットワークパイプラインの訓練が、前記現在の配列決定サイクルにおけるクラスタのグラウンドトゥルースベースコールとともに、クラスタ及びそれらの周囲の背景を描写する画像の前記右隣接入力、前記中心入力、及び前記左隣接入力の訓練データセットを提供すること、及び逆伝搬ベースの勾配更新を適用することを含む、ニューラルネットワークベースのベースコーラと、
前記ニューラルネットワークベースのベースコーラに結合され、かつ、前記現在の配列決定サイクルに対する前記右隣接ベースコール予測、
前記中心ベースコール予測、及び
前記左隣接ベースコール予測に基づいて、前記現在の配列決定サイクル
における前記クラスタに対するベースコールを生成するように構成されているベースコールジェネレータと、を備える、人工知能ベースのシステム。
【請求項2】
前記現在の配列決定サイクルに対する前記現在の画像データが、前記現在の配列決定サイクルにおいて取り込まれた検体及びそれらの周囲の背景の強度放射を描写する、請求項1に記載の人工知能ベースのシステム。
【請求項3】
前記現在の配列決定サイクルに対する前記右隣接ベースコール予測、前記中心ベースコール予測、及び前記左隣接ベースコール予測が、前記現在の配列決定サイクルにおいて前記検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する、請求項
1または2に記載の人工知能ベースのシステム。
【請求項4】
前記ベースコールジェネレータが、アベレイジャを含むように更に構成されており、
前記アベレイジャが、前記現在の配列決定サイクルに
おけるクラスタに適用可能な前記右隣接ベースコール予測、前記中心ベースコール予測、及び前記左隣接ベースコール予測にわたる前記尤度を塩基ごとに合計することと、
前記塩基ごとの合計に基づいて塩基ごとの平均を判定することと、
前記塩基ごとの平均のうちの最も高い平均に基づいて、前記現在の配列決定サイクルに対する前記ベースコールを生成することと、を行う、請求項
1から3
のうちのいずれか一項に記載の人工知能ベースのシステム。
【請求項5】
前記ベースコールジェネレータが、コンセンサーを含むように更に構成されており、
前記コンセンサーが、前記尤度のうちの最も高い尤度に基づいて、前記現在の配列決定サイクルに
おけるクラスタに適用可能な前記右隣接ベースコール予測、前記中心ベースコール予測、及び前記左隣接ベースコール予測の各々について予備ベースコールを判定し、それによって予備ベースコールの配列を作り出すことと、
前記予備ベースコールの配列の中の最も一般的なベースコールに基づいて、前記現在の配列決定サイクルに対する
前記クラスタに適用可能な前記ベースコールを生成することと、を行う、請求項
1から4のうちのいずれか一項に記載の人工知能ベースのシステム。
【請求項6】
前記ベースコールジェネレータが、
重み付きコンセンサーを含むように更に構成されており、前記重み付きコンセンサーが、前記尤度のうちの最も高い尤度に基づいて、前記現在の配列決定サイクルに対する、前記右隣接ベースコール予測、前記中心ベースコール予測、及び前記左隣接ベースコール予測の各々について予備ベースコールを判定し、それによって予備ベースコールの配列を生成することと、
前記予備ベースコールの配列の中の前記予備ベースコールのそれぞれ予備ベースコールに塩基ごとの重みを適用し、重み付き予備ベースコールの配列を作り出すことと、
前記重み付き予備ベースコールの配列の中の最も重い重み付きベースコールに基づいて、前記現在の配列決定サイクルに対する前記ベースコールを生成することと、を行う、
請求項1から5のうちのいずれか一項に記載の人工知能ベースのシステム。
【請求項7】
前記尤度が、ソフトマックス層によって作り出される指数関数的に正規化されたスコアである、請求項
3から6のうちのいずれか一項に記載の人工知能ベースのシステム。
【請求項8】
訓練中に、
前記ニューラルネットワークベースのベースコーラの前記右隣接出力、前記中心出力、及び前記左隣接出力に基づいて、前記現在の配列決定サイクル、前記以前の配列決定サイクル、及び前記後続の配列決定サイクルについて前記ベースコールジェネレータによって生成されたベースコールと、グラウンドトゥルースベースコールと間の誤差を計算することと、
前記誤差に基づいて、前記現在の配列決定サイクル、前記以前の配列決定サイクル、及び前記後続の配列決定サイクルに対する勾配を判定することと、
前記勾配を逆伝搬することによって、前記ニューラルネットワークベースのベースコーラのパラメータを更新することと、を行うトレーナを含むように更に構成されている、請求項
1から7のうちのいずれか一項に記載の人工知能ベースのシステム。
【請求項9】
前記現在の配列決定サイクルに対する前記右隣接ベースコール予測が、前記現在の配列決定サイクルと前記以前の配列決定サイクルとの間のプレフェージング効果を考慮に入れ、
前記現在の配列決定サイクルに対する前記中心ベースコール予測が、前記現在の配列決定サイクルと前記以前の配列決定サイクルとの間の前記プレフェージング効果、及び前記現在の配列決定サイクルと前記後続の配列決定サイクルとの間のフェージング効果を考慮に入れ、
前記現在の配列決定サイクルに対する前記左隣接ベースコール予測が、前記現在の配列決定サイクルと前記後続の配列決定サイクルとの間の前記フェージング効果を考慮に入れる、請求項
1から8のうちのいずれか一項に記載の人工知能ベースのシステム。
【請求項10】
ベースコールするための人工知能ベースのシステムであって、前記システムが、
ホストプロセッサと、
前記ホストプロセッサによってアクセス可能な、配列決定動作のための配列決定サイクルに対する
クラスタ及びそれらの周囲の背景を描写する画像データを記憶するメモリであって、前記配列決定動作のための現在の配列決定サイクルに対する現在の画像データが、前記現在の配列決定サイクルにおいて取り込まれた検体及びそれらの周囲の背景の強度放射を描写する、メモリと、
前記メモリへのアクセス権を有する構成可能なプロセッサであって、前記構成可能なプロセッサが、
複数の実行クラスタであって、前記複数の実行クラスタ内の前記実行クラスタが、ニューラルネットワークを実行するように構成されている、複数の実行クラスタと、
前記メモリへのアクセス権及び前記複数の実行クラスタ内の前記実行クラスタへのアクセス権を有するデータフロー論理であって、
前記現在の画像データと、前記現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データと、前記現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データとを、前記複数の実行クラスタ内の利用可能な実行クラスタに提供
し、
前記実行クラスタに、
前記現在の画像データ、前記以前の画像データ、及び前記後続の画像データの異なるグルーピングを
、前記ニューラルネットワークにおける並列畳み込みニューラルネットワークパイプラインに適用
することであって、
前記ニューラルネットワークが、前記現在の配列決定サイクルにおけるクラスタのグラウンドトゥルースベースコールとともに、ウィンドウ内の異なる位置に出現する前記現在の配列決定サイクルを有するサイクルの前記ウィンドウの訓練データセットを用いて、逆伝搬ベースの勾配更新を適用することで訓練されており、前記グルーピングが、前記ウィンドウ内の異なる位置に出現する前記現在の配列決定サイクルを有するサイクルの前記ウィンドウを備えることと、
前記現在の配列決定サイクルに対する前記クラスタに適用可能な第1のベースコール予測、第2のベースコール予測、及び第3のベースコール予測を前記グルーピングから作り出すことと、
前記第1のベースコール予測、前記第2のベースコール予測、及び前記第3のベースコール予測に基づいて前記現在の配列決定サイクルに対する
前記クラスタに適用可能なベースコールを生成するのに使用するために、前記現在の配列決定サイクルに対する前記第1のベースコール予測、前記第2のベースコール予測、及び前記第3のベースコール予測を前記メモリにフィードバックすることと、を行わせる
ように構成されている、データフロー論理と、を含む、構成可能なプロセッサと、を備える、人工知能ベースのシステム。
【請求項11】
前記異なるグルーピングが、前記現在の画像データ及び前記以前の画像データを含む第1のグルーピング、前記現在の画像データ、前記以前の画像データ、及び前記後続の画像データを含む第2のグルーピング、並びに前記現在の画像データ及び前記後続の画像データを含む第3のグルーピングを含
み、
前記実行クラスタが、前記第1のグルーピングを前記ニューラルネットワークに適用して前記第1のベースコール予測を作り出し、前記第2のグルーピングを前記ニューラルネットワークに適用して前記第2のベースコール予測を作り出し、前記第3のグルーピングを前記ニューラルネットワークに適用して前記第3のベースコール予測を作り出す、請求項
10に記載の人工知能ベースのシステム。
【請求項12】
前記現在の配列決定サイクルに対する前記第1のベースコール予測、前記第2のベースコール予測、及び前記第3のベースコール予測が、前記現在の配列決定サイクルにおいて前記検体のうちの1つ又はそれ以上に組み込まれた塩基がA、C、T、及びGである尤度を識別する、請求項
10または11に記載の人工知能ベースのシステム。
【請求項13】
前記データフロー論理が、前記現在の配列決定サイクルに対する前記ベースコールを生成するように更に構成されており、前記生成することが、前記現在の配列決定サイクルに対する前記第1のベースコール予測、前記第2のベースコール予測、及び前記第3のベースコール予測にわたる前記尤度を塩基ごとに合計することと、
前記塩基ごとに合計することに基づいて、塩基ごとの平均を判定することと、
前記塩基ごとの平均のうちの最も高い平均に基づいて、前記現在の配列決定サイクルに対する前記ベースコールを生成することと、によって行われる、請求項
12に記載の人工知能ベースのシステム。
【請求項14】
ベースコールのための人工知能ベースの方法であって、前記方法が、
配列決定動作のための現在の配列決定サイクルに対する
クラスタ及びそれらの周囲の背景を描写する現在の画像データ、前記現在の配列決定サイクルに先行する1つ又はそれ以上の以前の配列決定サイクルに対する以前の画像データ、及び前記現在の配列決定サイクルに後続する1つ又はそれ以上の後続の配列決定サイクルに対する後続の画像データにアクセスすることと、
それぞれ訓練された並列畳み込みニューラルネットワークパイプラインを含むニューラルネットワークベースのベースコーラを介して、前記現在の画像データ、前記以前の画像データ、及び前記後続の画像データの異なるグルーピングを処理
し、前記現在の配列決定サイクルに対する
前記クラスタに適用可能な複数のベースコール予測を作り出すこと
であって、
前記グルーピングが、ウィンドウ内の異なる位置に出現する前記現在の配列決定サイクルを有するサイクルの前記ウィンドウを備え、
前記訓練された並列畳み込みニューラルネットワークパイプラインの訓練が、前記現在の配列決定サイクルにおけるクラスタのグラウンドトゥルースベースコールとともに、クラスタ及びそれらの周囲の背景を描写する画像の右隣接入力、中心入力、及び左隣接入力の訓練データセットを提供すること、及び逆伝搬ベースの勾配更新を適用することを含む、作り出すことと、
前記クラスタに対する前記複数のベースコール予測に基づいて、前記現在の配列決定サイクルに対する
クラスタに適用可能なベースコールを生成することと、を含む、人工知能ベースの方法。
【請求項15】
ベースコールするための人工知能ベースの方法であって、前記方法が、
ベースコールのそれぞれの反復を実行することに応答して、特定の配列決定サイクルに
おけるクラスタ及びそれらの周囲の背景を描写する画像に対するそれぞれのベースコールを生成することを含み、
前記それぞれの反復が、
ウィンドウ内の異なる位置に出現する前記特定の配列決定サイクルを有する配列サイクルのそれぞれの
前記ウィンドウのそれぞれの入力セットを処理し、
配列決定サイクルのそれぞれの
前記ウィンドウが、前記特定の配列決定サイクルを、少なくとも1つの重複サイクル、及び1つ又はそれ以上の非重複サイクルとして有する、人工知能ベースの方法。
【国際調査報告】