IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

特表2023-515110人工知能ベースのベースコーラの知識蒸留及び勾配プルーニングに基づく圧縮
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-12
(54)【発明の名称】人工知能ベースのベースコーラの知識蒸留及び勾配プルーニングに基づく圧縮
(51)【国際特許分類】
   G16B 40/20 20190101AFI20230405BHJP
   C12Q 1/6869 20180101ALN20230405BHJP
   C12M 1/00 20060101ALN20230405BHJP
【FI】
G16B40/20
C12Q1/6869 Z
C12M1/00 A
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2022550206
(86)(22)【出願日】2021-02-17
(85)【翻訳文提出日】2022-08-22
(86)【国際出願番号】 US2021018422
(87)【国際公開番号】W WO2021168014
(87)【国際公開日】2021-08-26
(31)【優先権主張番号】62/979,385
(32)【優先日】2020-02-20
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/176,151
(32)【優先日】2021-02-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アニンディタ・ダッタ
(72)【発明者】
【氏名】ジェリー・ベッセル
(72)【発明者】
【氏名】ドルナ・カシフハギギ
(72)【発明者】
【氏名】キショール・ジャガナタン
(72)【発明者】
【氏名】アミラリ・キア
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA23
4B029BB20
4B063QA01
4B063QA13
4B063QQ42
4B063QQ52
4B063QS39
(57)【要約】
開示される技術は、より大きい教師ベースコーラをより小さい生徒ベースコーラに圧縮する。生徒ベースコーラは、教師ベースコーラよりも少ない処理モジュール及びパラメータを有する。教師ベースコーラは、ハードラベル(例えば、ワンホットエンコーディング)を使用して訓練される。訓練された教師ベースコーラを使用して、推論段階中に出力確率としてソフトラベルを生成する。ソフトラベルは、生徒ベースコーラを訓練するために使用される。
【特許請求の範囲】
【請求項1】
ベースコールの人工知能ベースの方法であって、前記方法が、
訓練データとしてクラスター画像の第1のセットを使用して、第1のベースコーラを訓練することであって、クラスター画像の前記第1のセットが、離散値ラベルを使用して正しいベースコールを識別する第1のグラウンドトゥルースデータでアノテーションされることと、
訓練された前記第1のベースコーラをクラスター画像の第2のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の前記第2のセットを評価することであって、
前記ベースコール予測が、予測されたベースコールを識別する連続値化された重みによって表される、評価することと、
クラスター画像の前記第2のセットを訓練データとして使用して、第2のベースコーラを訓練することであって、
クラスター画像の前記第2のセットが、
(i)前記離散値ラベルと、
(ii)前記連続値化された重みと、に基づいて正しいベースコールを識別する第2のグラウンドトゥルースデータでアノテーションされ、
前記第2のベースコーラが、前記第1のベースコーラよりも少ない処理モジュール及びパラメータを有する、訓練することと、
訓練された前記第2のベースコーラをクラスター画像の第3のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の前記第3のセットを評価することと、を含む、人工知能ベースの方法。
【請求項2】
前記離散値ラベルが、正しい塩基に対しては1の値で、かつ誤った塩基に対してはゼロの値でワンホットエンコードされている、請求項1に記載の人工知能ベースの方法。
【請求項3】
前記離散値ラベルが、前記正しい塩基に対しては1に近い値を有し、かつ前記誤った塩基に対してはゼロに近い値を有する、請求項2に記載の人工知能ベースの方法。
【請求項4】
前記連続値化された重みが、アデニン(A)、シトシン(C)、チミン(T)、及びグアニン(G)である正しい塩基の確率分布の一部である、請求項1に記載の人工知能ベースの方法。
【請求項5】
前記処理モジュールのうちの1つが、ニューラルネットワーク層である、請求項1に記載の人工知能ベースの方法。
【請求項6】
前記パラメータのうちの1つが、前記ニューラルネットワーク層間の相互接続である、請求項5に記載の人工知能ベースの方法。
【請求項7】
前記処理モジュールのうちの1つが、ニューラルネットワークフィルターである、請求項1に記載の人工知能ベースの方法。
【請求項8】
前記処理モジュールのうちの1つが、ニューラルネットワークカーネルである、請求項1に記載の人工知能ベースの方法。
【請求項9】
前記パラメータのうちの1つが、乗算演算及び加算演算である、請求項1に記載の人工知能ベースの方法。
【請求項10】
クラスター画像の前記第2のセットを訓練データとして使用して、前記第2のベースコーラを訓練することを更に含み、
クラスター画像の前記第2のセットが、
(i)前記連続値化された重みに基づいて前記正しいベースコールを識別する前記第2のグラウンドトゥルースデータでアノテーションされる、
請求項1に記載の人工知能ベースの方法。
【請求項11】
クラスター画像が、クラスターの強度放射を示し、かつ
前記強度放射が、配列決定実行の配列決定サイクル中に捕捉される、請求項1に記載の人工知能ベースの方法。
【請求項12】
前記クラスター画像が、前記クラスターの周囲の背景の強度放射を更に示す、請求項11に記載の人工知能ベースの方法。
【請求項13】
クラスター画像の前記第1のセット、クラスター画像の前記第2のセット、及びクラスター画像の前記第3のセットが、1つ以上の共通クラスター画像を共有する、請求項1に記載の人工知能ベースの方法。
【請求項14】
クラスター画像の前記第1のセットを訓練データとして使用して、前記第1のベースコーラのアンサンブルを訓練することであって、
クラスター画像の前記第1のセットが、前記離散値ラベルを使用して前記正しいベースコールを識別する前記第1のグラウンドトゥルースデータでアノテーションされ、かつ前記アンサンブルが、前記第1のベースコーラの2つ以上のインスタンスを含む、訓練することと、
訓練された前記第1のベースコーラをクラスター画像の前記第2のセットに適用し、前記ベースコール予測を生成することによって、推論データとしてクラスター画像の前記第2のセットを評価することであって、
前記ベースコール予測が、前記予測されたベースコールを識別する前記連続値化された重みによって表される、評価することと、
クラスター画像の前記第2のセットを訓練データとして使用して、前記第2のベースコーラを訓練することであって、
クラスター画像の前記第2のセットが、
(i)前記離散値ラベルと、
(ii)前記連続値化された重みと、に基づいて前記正しいベースコールを識別する前記第2のグラウンドトゥルースデータでアノテーションされ、
前記第2のベースコーラが、前記第1のベースコーラの前記アンサンブルよりも少ない処理モジュール及びパラメータを有する、訓練することと、
訓練された前記第2のベースコーラをクラスター画像の前記第3のセットに適用し、前記ベースコール予測を生成することによって、推論データとしてクラスター画像の前記第3のセットを評価することと、
を更に含む、請求項1に記載の人工知能ベースの方法。
【請求項15】
リアルタイムベースコールのための配列決定機器の1つ以上の並列プロセッサ上に、訓練された前記第2のベースコーラを実装すること、
を更に含む、請求項1に記載の人工知能ベースの方法。
【請求項16】
人工知能ベースのベースコールのためのシステムであって、
クラスター画像について訓練されたベースコーラであって、前記クラスター画像が、
(i)別のベースコーラを訓練するために使用されるグラウンドトゥルースデータの離散値ラベル、及び
(ii)推論中に前記クラスター画像について前記別のベースコーラによって生成されたベースコール予測値の連続値化された重みに基づいて正しいベースコールを識別するグラウンドトゥルースデータでアノテーションされている、ベースコーラを含み、
前記ベースコーラが、前記別のベースコーラよりも少ない処理モジュール及びパラメータを有し、かつ
前記ベースコーラが、追加のクラスター画像を評価し、前記追加のクラスター画像について、ベースコール予測を生成するように構成されている、システム。
【請求項17】
前記離散値ラベルが、正しい塩基に対しては1の値で、かつ誤った塩基に対してはゼロの値でワンホットエンコードされている、請求項16に記載のシステム。
【請求項18】
前記連続値化された重みが、アデニン(A)、シトシン(C)、チミン(T)、及びグアニン(G)である正しい塩基の確率分布の一部である、請求項16に記載のシステム。
【請求項19】
前記処理モジュールのうちの1つが、ニューラルネットワーク層であり、
前記パラメータのうちの1つが、前記ニューラルネットワーク層間の相互接続であり、
前記処理モジュールのうちの1つが、ニューラルネットワークフィルターであり、
前記処理モジュールのうちの1つが、ニューラルネットワークカーネルであり、
前記パラメータのうちの1つが、乗算演算及び加算演算である、請求項16に記載のシステム。
【請求項20】
人工知能ベースのベースコールのためのシステムであって、
第2のベースコーラによって生成されたベースコール予測に基づいて、正しいベースコールを識別するグラウンドトゥルースデータでアノテーションされたクラスター画像について訓練された第1のベースコーラ、を含む、システム。
【発明の詳細な説明】
【技術分野】
【0001】
開示された技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能のエミュレーション(すなわち、知識ベースシステム、推論システム、及び知識獲得システム)のための対応するデータ処理方法及び製品に関するものであり、不確実性を伴う推論のためのシステム(例えば、ファジー論理システム)、適応システム、機械学習システム及び人工ニューラルネットワークを含むシステムを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。
【0002】
優先権出願
本PCT出願は、2020年2月20日に出願された「KNOWLEDGE DISTILLATION-BASED COMPRESSION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER」と題する米国仮特許出願第62/979,385号(代理人整理番号ILLM1017-1/IP-1859-PRV)、及び2021年2月15日に出願された「KNOWLEDGE DISTILLATION-BASED COMPRESSION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER」と題する米国特許出願第17/176,151号(代理人整理番号ILLM1017-2/IP-1859-US)の優先権及び利益を主張する。優先権出願は、本明細書に完全に記載されているかのように、全ての目的のために参照により本明細書に組み込まれる。
【0003】
組み込み
以下は、本明細書に完全に記載されているかのように、参照により組み込まれる。
【0004】
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES」と題する米国仮特許出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANY BASE CALLING」と題する米国仮特許出願第62/979,414号(代理人整理番号ILLM1016-1/IP-1858-PRV)、
2020年8月28日に出願された「DETECTING AND FILTERING CLUSTERS BASED ON ARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS」と題する米国仮特許出願第63/072,032号(代理人整理番号ILLM1018-1/IP-1860-PRV)、
2020年2月20日に出願された「MULTI-CYCLE CLUSTER BASED REAL TIME ANALYSIS SYSTEM」と題する米国特許仮出願第62/979,412号(代理人整理番号ILLM1020-1/IP-1866-PRV)、
2020年2月20日に出願された「DATA COMPRESSION FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国仮特許出願第62/979,411号(代理人整理番号ILLM1029-1/IP-1964-PRV)、
2020年2月20日に出願された「SQUEEZING LAYER FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国仮特許出願第62/979,399号(代理人整理番号ILLM1030-1/IP-1982-PRV)、
2020年3月20日に出願された「TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED GENERATION OF SEQUENCING METADATA」と題する米国特許出願第16/825,991号(代理人整理番号 ILLM 1008-17/IP-1741-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED BASE CALLING」と題する米国特許出願第16/826,126号(代理人整理番号ILLM1008-18/IP-1744-US)、
2020年3月20日に出願された「ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING」と題する米国特許出願第16/826,134号(代理人整理番号第ILLM1008-19/IP-1747-US)、及び
2020年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国特許出願第16/826,168号(代理人整理番号ILLM1008-20/IP-1752-PRV-US)。
【背景技術】
【0005】
このセクションで考察される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0006】
モバイルデバイス上で効率的な深層ニューラルネットワークを展開するために、学術界及び産業界は、いくつかのモデル圧縮方法を提唱している。圧縮方法は、パラメータ共有、ネットワークプルーニング、低階数因数分解、及び知識蒸留の4つのカテゴリに分類され得る。知識蒸留では、教師モデルとして知られている複雑なモデルに埋め込まれた知識を蒸留して、生徒モデルと呼ばれるより小さいモデルの訓練に誘導する。生徒モデルは、異なるアーキテクチャ及びより少ないパラメータを有するが、複雑なモデルの挙動を模倣することによって同等の性能を達成することができる。量子化及び低階数因数分解のような他の圧縮方法は、知識蒸留に相補的であり、生徒モデルのサイズを更に小さくするために使用することも可能である。
【0007】
知識蒸留を使用して人工知能ベースのベースコールを加速する機会が生じる。
【0008】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺どおりではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様が、以下の図面を参照して説明される。
【発明の概要】
【課題を解決するための手段】
【0009】
段落[0380]-段落[0381]を参照。
【図面の簡単な説明】
【0010】
図1】人工知能ベースのベースコールのための開示された知識蒸留を使用する様々な態様を示す図である。
図2A】離散値ラベル(ワンホットエンコーディング)を使用して正しいベースコールを識別するために、第1のグラウンドトゥルースデータでアノテーションされたクラスター画像の第1のセットを使用して、教師ベースコーラを訓練する一実施態様を示す図である。
図2B】離散値ラベル(ソフト化されたワンホットエンコーディング)を使用して正しいベースコールを識別するために、第1のグラウンドトゥルースデータでアノテーションされたクラスター画像の第1のセットを使用して、教師ベースコーラを訓練する別の実施態様を示す図である。
図3】訓練された教師ベースコーラをクラスター画像の第2のセット上に適用し、連続値化された重みによって表されるベースコール予測を生成する一実施態様を示す図である。
図4A】離散値ラベルと連続値化された重みとの組み合わせを使用した、いわゆる「ハイブリッドグラウンドトゥルースデータ」生成の一実施態様を示す図である。
図4B】離散値ラベルと連続値化された重みとの組み合わせを使用した、いわゆる「ハイブリッドグラウンドトゥルースデータ」生成の一実施態様を示す図である。
図5】離散値ラベル及び連続値化された重みに基づいて正しいベースコールを識別するハイブリッドグラウンドトゥルースデータでアノテーションされたクラスター画像の第2のセットを使用して、生徒ベースコーラを訓練する一実施態様の図である。
図6】訓練された生徒ベースコーラをクラスター画像の第3のセットに適用し、ベースコール予測を生成する一実施態様を示す図である。
図7】教師及び生徒ベースコーラによるデータ処理の一実施態様を示す図である。
図8A】生徒ベースコーラをベースコールに使用する配列決定の一実施態様を示す図である。
図8B】生徒ベースコーラをベースコールに使用する配列決定の一実施態様を示す図である。
図8C】ベースコールセンサー出力などの、配列決定システムからのセンサーデータの分析のためのシステムの簡略ブロック図である。
図8D】ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。
図8E図8Cの構成などの構成可能プロセッサ846の構成の簡略図である。
図9】開示される技術を実施するように使用され得るコンピュータシステムの簡略ブロック図である。
図10A】クラスター強度画像を介して第1のベースコーラを訓練し、第1の訓練されたベースコーラを生成する一実施態様を示す図である。
図10B】クラスター強度画像をベースコール予測にマッピングする第1の訓練されたベースコーラの一実施態様を示す図である。
図11A】計算効率的なベースコールを実行するために開示された技術によって実装されるループの様々な態様を示す図である。
図11B】計算効率的なベースコールを実行するために開示された技術によって実装されるループの様々な態様を示す図である。
図12】クラスター特徴マップの寄与度スコアを生成する一実施態様を示す図である。
図13】計算効率的なベースコールを実行する人工知能ベースの方法の一実施態様を示す図である。
図14】計算効率的なベースコールを実行する人工知能ベースの方法の別の実施態様を示す図である。
図15A】開示された技術が計算効率的なベースコールを実施することを実証する性能結果を示す図である。
図15B】開示された技術が計算効率的なベースコールを実施することを実証する性能結果を示す図である。
図15C】開示された技術が計算効率的なベースコールを実施することを実証する性能結果を示す図である。
図15D】開示された技術が計算効率的なベースコールを実施することを実証する性能結果を示す図である。
図15E】開示された技術が計算効率的なベースコールを実施することを実証する性能結果を示す図である。
図15F】開示された技術が計算効率的なベースコールを実施することを実証する性能結果を示す図である。
図16】総パラメータ数251,220の大規模な教師ベースコーラの一実施態様を示す図である。
図17】開示された技術を使用して、図16のより大きい教師ベースコーラから蒸留された総パラメータ数12,970のより小さい生徒ベースコーラの一実施態様を示す図である。
図18】より大きい教師ベースコーラのベースコール性能に対する、より小さい生徒ベースコーラのベースコール性能を示す図である。
図19】蒸留ベースコーラのためのプルーニングされた畳み込み重みを生成する、開示された技術の一実施態様のためのボックス及び箱ひげ図を示す図である。
図20】蒸留ベースコーラのためのプルーニングされた畳み込みバイアスを生成する、開示された技術の一実施態様のためのボックス及び箱ひげ図を示す図である。
図21】正則化が畳み込み重みと畳み込みバイアスとの両方に適用される、蒸留ベースコーラのためのプルーニングされた畳み込み重みを生成する、開示された技術の一実施態様のためのボックス及び箱ひげ図を示す図である。
図22】正則化が畳み込み重みと畳み込みバイアスとの両方に適用されている、蒸留ベースコーラのためのプルーニングされた畳み込みバイアスを生成する、開示された技術の一実施態様のためのボックス及び箱ひげ図を示す図である。
【発明を実施するための形態】
【0011】
以下の考察は、開示された技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
【0012】
序論
【0013】
開示された技術は、より大きい教師ベースコーラをより小さく蒸留された生徒ベースコーラに圧縮する。生徒ベースコーラは、教師ベースコーラよりも少ない処理モジュール及びパラメータを有する。より大きい教師ベースコーラは、より大きい教師ベースコーラのアンサンブルを含むことができる。教師ベースコーラは、ハードラベル(例えば、ワンホットエンコーディング)を使用して訓練される。訓練された教師ベースコーラを使用して、推論段階中に出力確率としてソフトラベルを生成する。ソフトラベルは、生徒ベースコーラを訓練するために使用される。
【0014】
ハードラベルはワンホットベクトルであり、正しいクラスに対応する1つのエントリを除いて、すべてのエントリが0に設定される。対照的に、ソフトラベルは、可能性のあるクラスにわたって確率分布を形成する。これは、クラスター画像が、2つ以上のクラスに関する情報が含まれているという考え方(例えば、ベースコール「A」のクラスター画像は他のベースコール「A」のクラスター画像とよく似ているが、ベースコール「C」のクラスター画像にも似ている)である。ソフトラベルを使用すると、関連付けられたクラスター画像に関するより多くの情報を伝えることができ、クラスター画像内のクラスター間の境界を検出するのに特に有用である。
【0015】
本出願は、教師ベースコーラを第1のベースコーラ、より大きいエンジン、及びより大きいモデルとして指す。本出願は、生徒ベースコーラを第2のベースコーラ、より小さいエンジン、及びより小さいモデルとして指す。本出願は、ハードラベルを離散値ラベルと指す。本出願は、ソフトラベルを連続値化された重みと指す。生徒ベースコーラは、ベースコールがサイクルごとの基底上でリアルタイムで生成されるオンラインモデルで、配列決定動作を実行するために使用することができるので、生徒ベースコーラが現在の配列決定サイクルについて着信画像を処理し、現在の配列決定サイクルについてベースコールを生成し、次の配列決定サイクルについて着信画像を処理し、次の配列決定サイクルについてベースコールを生成することを繰り返すことになる。
【0016】
ベースコーラ
【0017】
本考察は、教師ベースコーラ110及び生徒ベースコーラ124によるデータ処理から開始し、これは、配列決定画像をベースコールにマッピングするように訓練される。図7では、データ処理の例示の目的のために、ベースコーラ730は、教師ベースコーラ110及び生徒ベースコーラ124の両方を表す。しかしながら、生徒ベースコーラ124は、教師ベースコーラ110よりも少ない処理モジュール及びパラメータを有する。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワーク層である。一実施態様では、パラメータのうちの1つは、ニューラルネットワーク層間の相互接続である。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワークフィルターである。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワークカーネルである。一実施態様では、パラメータのうちの1つは、乗算演算及び加算演算である。
【0018】
ベースコールは、配列のヌクレオチド組成を決定するプロセスである。ベースコールは、画像データを分析すること、すなわち、Illumina製のiSeq、HiSeqX、HiSeq3000、HiSeq4000、HiSeq2500、NovaSeq6000、NextSeq、NextSeqDx、MiSeq、及びMiSeqDxなどの配列決定機器によって行われる配列決定反応中に生成された配列決定画像を伴う。以下の考察は、一実施態様に従って、配列決定画像データがどのように生成されるか、及びそれらを描写するものを概説する。
【0019】
ベースコールは、配列決定機器の生信号、すなわち、配列決定画像から抽出された強度データをヌクレオチド配列にデコードするものである。一実施態様では、Illuminaプラットフォームは、ベースコールのための環状可逆終端(Cyclic Reversible Termination、CRT)化学を採用する。このプロセスは、新たに添加された各ヌクレオチドの放出シグナルを追跡しながら、蛍光標識されたヌクレオチドを有するテンプレート鎖に相補的な成長した出現鎖上に依存する。蛍光標識されたヌクレオチドは、ヌクレオチド型のフルオロフォアシグナルをアンカーする3’の取り外し可能なブロックを有する。
【0020】
配列決定は、反復サイクルで行われ、各々は3つの工程、つまり、(a)蛍光標識されたヌクレオチドを添加することによる出現鎖の伸長と、(b)配列決定機器の光学系の1つ以上のレーザーによる蛍光体の励起と光学系の異なるフィルターによる画像化、配列決定画像の生成と、(c)フルオロフォアの切断及び次の配列決定サイクルの調製における3’ブロックの除去と、を含む。組み込み及び撮像サイクルを、指定された数の配列決定サイクルに繰り返し、読み取り長さを規定する。このアプローチを使用して、各サイクルはテンプレートストランドに沿って新しい位置を問い合わせる。
【0021】
Illuminaプラットフォームのトレメントパワーは、CRT反応を受ける数百万の又は更には数十億の検体(例えば、クラスター)を同時に実行及び感知する能力に起因する。クラスターは、テンプレート鎖の約千個の同一のコピーを含むが、クラスターはサイズ及び形状が異なる。クラスターは、配列決定動作前に、入力ライブラリのブリッジ増幅によって、テンプレート鎖から成長させる。増幅及びクラスター成長の目的は、撮像装置が単一の鎖の蛍光シグナルを確実に感知できないため、放出されたシグナルの強度を増大させることである。しかしながら、クラスター内の鎖の物理的距離は小さいため、撮像装置は、単一のスポットとして鎖のクラスターを知覚する。
【0022】
配列決定は、フローセル、つまり入力鎖を保持する小さいガラススライドの中で行われる。フローセルは、顕微鏡画像、励起レーザー、及び蛍光フィルターを含む光学システムに接続される。フローセルは、レーンと呼ばれる複数のチャンバを含む。レーンは、互いに物理的に分離され、異なるタグ付けされた配列決定ライブラリを含んでもよく、試料交差汚染なしで区別可能である。配列決定機器の撮像装置(例えば、電荷結合素子(Charge-Coupled Device、CCD)又は相補的金属酸化物半導体(Complementary Metal-Oxide-Semiconductor、CMOS)センサーなどの固体撮像素子)は、タイルと呼ばれる一連の非重複領域において、レーンに沿った複数の場所でスナップショットを取る。例えば、Illumina製Genome Analyzer IIのレーンごとに100個のタイル、及びIllumina製HiSeq 2000内のレーンごとに68個のタイルが存在する。タイルは、数十万~数百万個のクラスターを保持する。
【0023】
配列決定の出力は、それぞれクラスターの強度放射及びそれらの周囲背景を示す配列決定画像である。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する検体及びそれらの周囲の背景からのものである。
【0024】
下記考察は、以下のように構成される。まず、一実施態様による、ベースコーラ730への入力が記載される。次いで、ベースコーラ730の構造及び形態の例が提供される。最後に、一実施態様による、ベースコーラ730の出力が記載される。
【0025】
ベースコーラ730に関する追加の詳細は、2019年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国仮特許出願第62/821,766号(代理人整理番号ILLM 1008-9/IP-1752-PRV)に見出すことができる。
【0026】
一実施形態では、画像パッチは、配列決定画像から抽出される。抽出された画像パッチは、ベースコールのために「入力された画像データ」726としてベースコーラ730に提供される。画像パッチは、寸法w×hを有し、ここでは、w(幅)及びh(高さ)は、1~10,000の範囲の任意の数(例えば、3×3、5×5、7×7、10×10、15×15、25×25)である。いくつかの実施態様では、wとhとは同じである。他の実施態様では、wとhとは異なる。
【0027】
配列決定は、対応するm個の撮像チャネルについて配列決定サイクルごとにm個の画像を生成する。一実施態様では、各撮像チャネルは、複数のフィルター波長帯域のうちの1つに対応する。別の実施態様では、各撮像チャネルは、配列決定サイクルで複数の撮像イベントのうちの1つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザーを用いた照明と特定の光学フィルターを通した撮像との組み合わせに対応する。
【0028】
画像パッチは、m個の各画像から抽出されて、特定の配列決定サイクルの入力された画像データ726を準備する。4-、2-、及び1-チャネル化学などの異なる実施態様では、mは、4又は2である。他の実施態様では、mは、1、3、又は4よりも大きい。入力された画像データ726は、いくつかの実施態様では、光学ピクセルドメイン内にあり、他の実施態様では、アップサンプリングされたサブピクセルドメイン内にある。
【0029】
例えば、配列決定が2つの異なる画像チャネル、つまり赤色チャネル及び緑色チャネルを使用すると考える。次いで、各配列決定サイクルにおいて、信号決定は、赤色画像及び緑色画像を生成する。このようにして、一連のk配列決定サイクルについて、赤色画像及び緑色画像のk対を有する配列が出力として生成される。
【0030】
入力された画像データ726は、配列決定動作の一連のk配列決定サイクルのために生成された一連のサイクルごとの画像パッチを含む。サイクルごとの画像パッチは、関連する検体及びそれらの周囲の背景についての強度データを1つ以上の画像チャネル内に含有する(例えば、赤色チャネル及び緑色チャネル)。一実施態様では、単一のターゲット検体(例えば、クラスター)がベースコールされる場合、サイクルごとの画像パッチは、標的関連検体及び非中心ピクセルに関する強度データを含む中心ピクセルで中心に置かれ、サイクルごとの画像パッチ内の非中心ピクセルは、標的関連検体に隣接する関連する検体の強度データを含む。
【0031】
入力された画像データ726は、複数の配列決定サイクル(例えば、現在の配列決定サイクル、1つ以上の先行する配列決定サイクル、及び1つ以上の連続する配列決定サイクル)のデータを含む。一実施態様では、入力された画像データ726は、3回の配列決定サイクルのデータを含み、そのため、ベースコールされる現在の(時間t)配列決定サイクルのデータは、(i)左側のフランキング/コンテキスト/以前の/先行する/前の(時間t-1)配列決定サイクルのデータ、及び(ii)右側のフランキング/コンテキスト/次の/連続する/後続の(時間t+1)配列決定サイクルのデータを伴う。他の実施態様では、入力画像データ726は、単一の配列決定サイクルのデータを含む。更に他の実装では、入力された画像データ726は、58、75、92、130、168、175、209、225、230、275、318、325、330、525、又は625の配列決定サイクルのデータを含む。
【0032】
一実施態様では、ベースコーラ730は、多層パーセプトロン(Multilayer Perceptron、MLP)である。別の実施態様では、ベースコーラ730は、順伝播型(feedforward)ニューラルネットワークである。更に別の実施態様では、ベースコーラ730は、全結合(fully-connected)ニューラルネットワークである。更なる実施態様では、ベースコーラ730は、全層畳み込み(fully convolutional)ニューラルネットワークである。更に更なる実施態様では、ベースコーラ730は、領域分類(semantic segmentation)ニューラルネットワークである。更に別の更なる実装では、ベースコーラ730は、敵対的生成ネットワーク(generative adversarial network、GAN)である。
【0033】
一実施態様では、ベースコーラ730は、複数の畳み込み層を有する畳み込みニューラルネットワーク(CNN)である。別の実施態様では、それは、長い短期メモリネットワーク(LSTM)、双方向LSTM(Bi-LSTM)、又はゲートされた反復単位(GRU)などの再帰型ニューラルネットワーク(RNN)である。更に別の実施態様では、それは、CNN及びRNNの両方を含む。
【0034】
更に他の実施態様では、ベースコーラ730は、1D畳み込み、2D畳み込み、3D畳み込み、4D畳み込み、5D畳み込み、拡張又は膨張畳み込み、転置畳み込み、奥行分離可能な畳み込み、pointwise畳み込み、1x1畳み込み、グループ畳み込み、扁平畳み込み、空間及びクロスチャネルの畳み込み、シャッフルされたグループ化畳み込み、空間的な分離可能な畳み込み、並びに逆畳み込みを使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ以上の損失機能を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期確率的勾配降下法(stochastic gradient descent、SGD)のような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプルーニング層、ダウンサンプルーニング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU、指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、正則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含み得る。
【0035】
一実施態様では、ベースコーラ730は、特定の配列決定サイクルで単一のターゲット検体のためのベースコールを出力する。別の実施態様では、それは、特定の配列決定サイクルで複数のターゲット検体内の各ターゲット検体のためのベースコールを出力する。更に別の実施態様では、それは、複数の配列決定サイクル内の各配列決定サイクルで複数のターゲット検体内の各ターゲット検体のためのベースコールを出力し、それによって、各ターゲット検体のためのベースコール配列を生成する。
【0036】
一実施態様では、現在の(時間t)配列決定サイクルからの配列決定画像704、714は、先行する(時間t-1)の配列決定サイクルからの配列決定画像702、712、及び後続する(時間t+1)配列決定サイクルからの配列決定画像706、716を伴う。ベースコーラ730は、一実施態様によれば、その畳み込み層を介して配列決定画像702、712、704、714、706、及び716を処理し、代替表現を生成する。代替表現は、次に、出力層(例えば、ソフトマックス層)によって、現在の(時間t)配列決定サイクルだけ、又は配列決定サイクルの各々、すなわち、現在の(時間t)配列決定サイクル、先行する(時間t-1)の配列決定サイクル、及び後続する(時間t+1)配列決定サイクルのいずれかについてのベースコールを生成するために使用される。得られたベースコール732は、配列決定リードを形成する。
【0037】
一実施態様では、パッチ抽出プロセス724は、配列決定画像702、712、704、714、706、及び716からパッチを抽出し、入力された画像データ726を生成する。次いで、入力された画像データ726内の抽出された画像パッチは、入力としてベースコーラ730に提供される。
【0038】
教師ベースコーラ110及び生徒ベースコーラ124は、誤差逆伝搬法ベースの勾配更新技術を使用して訓練される。教師ベースコーラ110及び生徒ベースコーラ124を訓練するために使用することができるいくつかのタイプの勾配降下技術は、確率的勾配降下、バッチ勾配降下、及びミニバッチ勾配降下である。教師ベースコーラ110及び生徒ベースコーラ124を訓練するために使用することができる勾配降下最適化アルゴリズムのいくつかの例は、Momentum、Nestorv加速勾配法、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam、及びAMSGradである。
【0039】
知識蒸留
【0040】
図1は、人工知能ベースのベースコールのための開示された知識蒸留を使用する様々な態様を示す図である。開示された知識蒸留は、
・「ハードラベル」を使用して、訓練データ上で教師ベースコーラを訓練する。
・訓練した教師ベースコーラを推論データに適用して「ソフトラベル」を生成する。
・ハードラベルとソフトラベルとの「組み合わせ」、すなわち「ハイブリッド」なグラウンドトゥルースデータを用いた訓練データで、生徒ベースコーラを訓練させる。
【0041】
生徒ベースコーラ124は、教師ベースコーラ110よりも少ない処理モジュール及びパラメータを有する。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワーク層である。一実施態様では、パラメータのうちの1つは、ニューラルネットワーク層間の相互接続である。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワークフィルターである。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワークカーネルである。一実施態様では、パラメータのうちの1つは、乗算演算及び加算演算である。
【0042】
教師ベースコーラを訓練する
【0043】
訓練102中、教師ベースコーラ110は、第1のクラスター画像のセット104を含む訓練データで訓練される。第1のクラスター画像のセット104は、離散値ラベル108を使用するグラウンドトゥルースデータでアノテーションされる。
【0044】
一実施態様では、クラスター画像106は、正しい塩基に対しては1の値、かつ誤った塩基に対してはゼロの値でワンホットエンコーディングされる、離散値ラベル108でアノテーションされる。以下は、4つのヌクレオチド塩基に対するワンホットエンコーディングの例である。
【表1】
【0045】
図2Aは、離散値ラベル216(ワンホットエンコーディング218)を使用して正しいベースコールを識別するために、第1のグラウンドトゥルースデータ214でアノテーションされた第1のクラスター画像のセット104を使用して、教師ベースコーラ110を訓練する、訓練200Aの一実施態様を示す図である。順伝播206の間、教師ベースコーラ110への入力は、クラスター204A、204B、204C、及び204Dの強度及びそれらの周囲の背景を示すクラスター画像202である。
【0046】
一実施態様では、クラスター画像202は、距離チャネル及びスケーリングチャネルなどの補助データ224を伴う。補助データ224に関する追加の詳細は、2019年3月21日に出願された「ARTIFICIAL INTELLIGENCE-BASED SEQUENCING」と題する米国仮特許出願第62/821,766号(代理人整理番号ILLM 1008-9/IP-1752-PRV)に見出すことができる。
【0047】
クラスター画像202の処理に応答して、教師ベースコーラ110は、出力208を生成する。出力208に基づいて、教師ベースコーラ110によって塩基A、C、T、及びGの各々に割り当てられた信頼度スコアを識別するベースコール予測210が行われる。
【0048】
次いで、誤差212が、ベースコール予測210と離散値ラベル216との間、例えば、ワンホットエンコーディング218、すなわち、[1,0,0,0]で計算される。逆伝播220は、誤差212に基づいて、教師ベースコーラ110の重み及びパラメータを更新する。
【0049】
このプロセスは、教師ベースコーラ110が検証データセット上で所望のベースコール精度に収束するまで繰り返される。訓練は、逆伝播ベースの勾配更新技術(上述のものなど)を使用して訓練器222によって動作可能(実装)となる。
【0050】
別の実施態様では、クラスター画像106は、本明細書では「ソフト化されたワンホットエンコーディング」と称され、正しい塩基に対しては1に近い値を有し、かつ誤った塩基に対してはゼロに近い値を有する、離散値ラベル108でアノテーションされる。以下は、4つのヌクレオチド塩基に対するソフト化されたワンホットエンコーディングの例である。
【表2】
【0051】
図2Bは、離散値ラベル216(ソフト化されたワンホットエンコーディング228)を使用して正しいベースコールを識別するために、第1のグラウンドトゥルースデータ226でアノテーションされた第1のクラスター画像のセット104を使用して、教師ベースコーラ110を訓練する、訓練200Bの別の実施態様を示す図である。ここで、誤差212は、ベースコール予測210とソフト化されたワンホットエンコーディング228との間、すなわち、[0.95,0.02,0.017,0.013]で計算される。
【0052】
ソフトラベルの生成
【0053】
推論112中、訓練された教師ベースコーラ110は、第2のクラスター画像のセット114を含む推論データに適用される。訓練された教師ベースコーラ110は、第2のクラスター画像のセット114を処理し、出力としてベースコール予測を生成する。ベースコール予測は、予測されたベースコールを識別する連続値化された重み118(ソフトラベル)によって表される。連続値化された重み118は、アデニン(A)、シトシン(C)、チミン(T)、及びグアニン(G)である正しい塩基の確率分布の一部である。一実施態様では、連続値化された重み118は、ソフトマックススコア、すなわち、事後確率である。
【0054】
一実施態様では、クラスター画像116は、訓練された教師ベースコーラ110への入力として供給される。それに応答して、訓練された教師ベースコーラ110は、A、C、T、及びGである現在の配列決定サイクルでクラスター画像116によって示されるクラスターに組み込まれた基部の指数関数的に正規化された尤度を生成する。
【0055】
以下は、連続値化された重み118の例である。
【表3】
【0056】
図3は、第2のクラスター画像のセット114上に訓練された教師ベースコーラ110を適用し、連続値化された重み310によって表されるベースコール予測312を生成する、適用300の一実施態様を示す。順伝播306の間、訓練された教師ベースコーラ110への入力は、クラスター304A、304B、304C、及び304Dの強度及びそれらの周囲の背景を示すクラスター画像302である。一実施態様では、クラスター画像302は、距離チャネル及びスケーリングチャネルなどの補助データ316を伴う。
【0057】
クラスター画像302の処理に応答して、訓練された教師ベースコーラ110は、出力308を生成する。出力308に基づいて、訓練された教師ベースコーラ110によって割り当てられた信頼度スコアを塩基A(0.175)、C(0.024)、T(0.475)、及びG(0.326)の各々に識別するベースコール予測310が生成される。これらの信頼度スコアは、連続値、すなわち、連続値化された重み310として表される。
【0058】
このプロセスは、各評価されたクラスター画像に対して連続値化された重みのセットが生成されるように、第2のクラスター画像のセット114の多数の画像にわたって繰り返される。評価は、テスタ314によって動作可能(実装)である。
【0059】
ハイブリッドグラウンドトゥルースデータの生成
【0060】
図4A及び図4Bは、離散値ラベル216と連続値化された重み310との組み合わせを使用した、いわゆる「ハイブリッドグラウンドトゥルースデータ」生成400A及び400Bの一実施態様を示す図である。
【0061】
一実施態様では、離散値ラベル216及び連続値化された重み310は、同じクラスター画像302に対してアクセスされ、組み合わされて、クラスター画像302に対するハイブリッドグラウンドトゥルースデータを生成する。いくつかの実施態様では、離散値ラベル216は、連続値化された重み310と合計402される。別の実施態様では、離散値ラベル216は、連続値化された重み310と乗算される。いくつかの別の実施態様では、離散値ラベル216は、連続値化された重み310と連結される。
【0062】
一実施態様では、離散値ラベル216及び連続値化された重み310は、クラスごとに組み合わされる。すなわち、ベースコールAの離散値ラベルは、ベースコールAに対して連続値化された重みで加算、乗算されるか、又は連結され、ベースコールCの離散値ラベルは、ベースコールCに対して連続値化された重みで加算、乗算されるか、又は連結され、ベースコールTの離散値ラベルは、ベースコールTに対して連続値化された重みで加算、乗算されるか、又は連結され、かつベースコールGの離散値ラベルは、ベースコールGに対して連続値化された重みで加算、乗算されるか、又は連結される。
【0063】
いくつかの実施態様では、離散値ラベル216と組み合わされる前に、連続値化された重み310は、修正パラメータ(λ)404を使用して修正される。一実施態様では、修正パラメータ(λ)404は、検証データセットを介して生徒ベースコーラ124の性能に基づいて反復的に学習される。修正パラメータ(λ)404が連続値化された重み310に適用された後、結果として得られるのは、修正された連続値化された重み406である。
【0064】
一実施態様では、離散値ラベル216は、修正されて連続値化された重み406と組み合わされて、クラスター画像302についての未正規化グラウンドトゥルースデータ408を生成する。次いで、未正規化グラウンドトゥルースデータ408を正規化して、クラスター画像302に対する正規化されたグラウンドトゥルースデータ412を生成する。いくつかの実施態様では、指数関数的正規化器410(例えば、ソフトマックス)を使用して、正規化されたグラウンドトゥルースデータ412を生成する。
【0065】
一実施態様では、未正規化グラウンドトゥルースデータ408は、クラスター画像302に対するハイブリッドグラウンドトゥルースデータ414と見なされる。別の実施態様では、正規化されたグラウンドトゥルースデータ412は、クラスター画像302のハイブリッドグラウンドトゥルースデータ416と見なされる。
【0066】
生徒ベースコーラを訓練する
【0067】
訓練120の間、生徒ベースコーラ124は、第2のクラスター画像のセット114を含む訓練データで訓練される。第2のクラスター画像のセット114は、(i)離散値ラベル122及び(ii)連続値化された重み118に基づいて、正しいベースコールを識別するグラウンドトゥルースデータ414/416でアノテーションされる。
【0068】
図5は、離散値ラベル216及び連続値化された重み310に基づいて正しいベースコールを識別するハイブリッドグラウンドトゥルースデータ414/416でアノテーションされた第2のクラスター画像のセット114を使用して、生徒ベースコーラ124を訓練する一実施態様の図である。順伝播506の間、生徒ベースコーラ124への入力は、クラスター304A、304B、304C、及び304Dの強度及びそれらの周囲の背景を示すクラスター画像302である。一実施態様では、クラスター画像302は、距離チャネル及びスケーリングチャネルなどの補助データ316を伴う。
【0069】
クラスター画像302の処理に応答して、生徒ベースコーラ124は、出力508を生成する。出力508に基づいて、生徒ベースコーラ124によって塩基A、C、T、及びGの各々に割り当てられた信頼度スコアを識別するベースコール予測510が行われる。
【0070】
次いで、ベースコール予測510とハイブリッドグラウンドトゥルースデータ414/416との間で誤差512が計算される。逆伝播514は、誤差512に基づいて、生徒ベースコーラ124の重み及びパラメータを更新する。
【0071】
このプロセスは、生徒ベースコーラ124が検証データセット上で所望のベースコール精度に収束するまで繰り返される。訓練は、逆伝播ベースの勾配更新技術(上述のものなど)を使用して訓練器222によって動作可能(実装)となる。
【0072】
訓練された生徒ベースコーラを適用する
【0073】
推論126中、訓練された生徒ベースコーラ124は、第3のクラスター画像のセット128を含む推論データに適用される。訓練された生徒ベースコーラ124は、第3のクラスター画像のセット128を処理し、出力としてベースコール予測126を生成する。
【0074】
一実施態様では、クラスター画像130は、訓練された生徒ベースコーラ124への入力として供給される。それに応答して、訓練された生徒ベースコーラ124は、A、C、T、及びGである現在の配列決定サイクルでクラスター画像130によって示されるクラスターに組み込まれた塩基の指数関数的に正規化された尤度を生成する。
【0075】
図6は、訓練された生徒ベースコーラ124を第3のクラスター画像128のセット上に適用し、ベースコール予測610を生成する、適用600の1つの実施態様を示す図である。順伝播606の間、訓練された生徒ベースコーラ124への入力は、クラスター604A、604B、及び604Cの強度及びそれらの周囲の背景を示すクラスター画像602である。一実施態様では、クラスター画像602は、距離チャネル及びスケーリングチャネルなどの補助データ612を伴う。
【0076】
クラスター画像602の処理に応答して、訓練された生徒ベースコーラ124は、出力608を生成する。出力608に基づいて、訓練された生徒ベースコーラ124によって割り当てられた信頼度スコアを塩基A(0.1)、C(0.1)、T(0.2)、及びG(0.6)の各々に識別するベースコール予測610が生成される。
【0077】
このプロセスは、各評価されたクラスター画像に対してベースコール予測が生成されるように、第3のクラスター画像のセット128の多数の画像にわたって繰り返される。評価は、テスタ314によって動作可能(実装)である。
【0078】
技術的効果/利点
【0079】
高度に訓練されたモデルを、リソースの豊富なプラットフォームからコンパクトなプラットフォームへ移動させるという、教師及び生徒アプローチは、技術的に大きな利点をもたらす。開示された技術は、モデルを効果的に収縮させ、特定の入力を分析するために必要な実行時間及びリソースを効果的に収縮させる。
【0080】
収縮の程度は、ほとんどすべての割合でかなりのものとなる。図16図17は、フィルター深さが64から14に低減することを示す図である。縮小されたモデル(より小さい生徒ベースコーラ)は、リソースの豊富なプラットフォームの大きいモデル(より大きい教師ベースコーラ)と比較すると、21.9パーセントにあたるフィルター数を有する。パラメータの低減はより劇的で、フィルターの深さの低減と略2次関数の関係となる。図16図17は、訓練可能なパラメータ数が250,060からわずか12,710に減少していることを表している。収縮されたモデルは、大きいモデルと比較すると、5.1%に相当する訓練可能なパラメータを有する。実行リソースについては、20分の1に削減した計算リソースでコア計算を同時に行うことができ、計算量はパラメータ数に対して略線形に増加するため、パラメータ数が5.1%であれば、同じ入力の処理に必要な計算量も5.1%になる。また、メモリ使用量も低減される。
【0081】
Xilinx社製のFPGAなど、少なくとも市販の計算用アクセラレータを使用する場合、必要なリソースを削減することが可能である。一般に、FPGAは、制限されたオンボードメモリ及びプログラム可能なフットプリントを有する。図16のモデルは、Xilinx Alveo U200、Xilinx Alveo U250、Xilinx Alveo U280、Intel/Altera Stratix GX2800、Intel/Altera Stratix GX2800、及びIntel Stratix GX10Mなどの市販のFPGA製品では実行されないが、図17のモデルでは実行可能である。
【0082】
結果の精度を落とすことなく、必要なリソースと実行時間の短縮を実現した。図18は、大きいモデルに対する縮小モデルを実行することを達成した結果を示すグラフである。全てのモデルにおいて、複数サイクルにわたって誤差が蓄積されると、誤差率が目に見えて上昇する。120のサイクルで、大きいモデルの誤差率は、最大0.2%(誤差率0.002)にまで上昇している。
【0083】
新しいクラスのコンパクトな機械が、大きいモデルを実行するのに十分なリソースを有する機械よりも、より低いコストで結果を得ることができる。結果は、サーバベースの計算によって遅延していたのが、リアルタイムで利用可能になる。技術的な改善は明らかである。
【0084】
図16は、総パラメータ数251,220を備えた大きい教師ベースコーラの一実施態様を示す図である。より大きい教師ベースコーラは、畳み込み層ごとに64のフィルターを含有する畳み込み層を有する。
【0085】
図17は、開示された技術を使用して、図16のより大きい教師ベースコーラから蒸留された総パラメータ数12,970を有するより小さい生徒ベースコーラの一実施態様を示す図である。より小さい生徒ベースコーラは、畳み込み層ごとに14のフィルターを含有する畳み込み層を有する。
【0086】
図17に示すように、より小さい生徒ベースコーラは、より大きい教師ベースコーラと比較して、総パラメータの約5.1%を有する。他の実施態様では、より大きい教師ベースコーラがより大きい教師ベースコーラのアンサンブルを含む場合、より小さい生徒ベースコーラは、より大きい教師ベースコーラ中の、より大きい教師ベースコーラのアンサンブルとして、総パラメータの約1%~3%を有する。このようにモデルパラメータの総数を大幅に削減することで、より小さい生徒ベースコーラは、FPGA、GPU、ASIC、CGRAなどのオンチッププロセッサでの実行に非常に適している。
【0087】
図18は、より大きい教師ベースコーラのベースコール性能に対する、より小さい生徒ベースコーラのベースコール性能を示す図である。y軸は、ベースコール誤差率(誤差%)を表し、x軸は、配列決定実行の配列決定サイクルを表す。紫色の線は、より大きい教師ベースコーラを表し、これは、畳み込み層ごとに64の畳み込みフィルターを有する、4つのより大きい教師ベースコーラのアンサンブルを含む。シアン色の線は、より小さい生徒ベースコーラを表し、畳み込み層ごとに14の畳み込みフィルターを有することを含む。より小さい生徒ベースコーラ(シアン色の線)は、開示された技術を使用して、より大きい教師ベースコーラ(紫色の線)から蒸留される。
【0088】
示されるように、より小さい生徒ベースコーラ(シアン色の線)は、4つのより大きい教師ベースコーラのアンサンブルを備える、より大きい教師ベースコーラのベースコールの誤差率(紫色の線)に近いベースコール誤差率を有している。したがって、開示された技術の技術的利点及び技術的効果は、より小さい生徒ベースコーラが、より大きい教師ベースコーラよりもはるかに小さい計算フットプリントを有するが、ベースコール精度においては同等/引けを取らないということにある。これにより、FPGA、GPU、ASIC、及びCGRAのようなオンチッププロセッサ上で推論中の、より小さい生徒ベースコーラの効率的な実行が可能になる。これはまた、ベースコールの速度を改善し、待ち時間を低減させる。これはまた、計算リソースの節約にもつながる。
【0089】
更に重要なことは、教師モデルの蒸留バージョンである生徒モデルは、教師モデルから派生した係数ではなく、独立に学習された同じアーキテクチャの別のモデルよりも優れていることにある。
【0090】
配列決定システム
【0091】
図8A及び図8Bは、配列決定システム800Aの一実施態様を示す図である。配列決定システム800Aは、構成可能プロセッサ846を含む。構成可能プロセッサ846は、本明細書に開示されるベースコール技術を実施する。配列決定システムは、「シーケンサ」とも称される。
【0092】
配列決定システム800Aは、生物学的物質又は化学物質のうちの少なくとも1つに関連する任意の情報又はデータを得ることができる。いくつかの実施態様では、配列決定システム800Aは、ベンチトップデバイス又はデスクトップコンピュータと同様であり得るワークステーションである。例えば、所望の反応を実施するためのシステム及び構成要素の大部分(又は全て)は、共通のハウジング802内にあってもよい。
【0093】
特定の実施態様では、配列決定システム800Aは、de novo sequencing、全ゲノム又は標的ゲノム領域の再配列、及びメタゲノミクスを含むがこれらに限定されない、様々な用途のために構成された核酸配列決定システムである。シーケンサはまた、DNA又はRNA分析に使用されてもよい。いくつかの実施態様では、配列決定システム800Aはまた、バイオセンサー内に反応部位を生成するように構成されてもよい。例えば、配列決定システム800Aは、サンプルを受容し、サンプル由来のクローン的に増幅された核酸の表面結合クラスターを生成するように構成され得る。各クラスターは、バイオセンサー内の反応部位を構成するか、又はその一部であってもよい。
【0094】
例示的な配列決定システム800Aは、バイオセンサー812と相互作用して、バイオセンサー812内で所望の反応を行うように構成されたシステム容器又はインターフェース810を含んでもよい。図8Aに関して以下の説明では、バイオセンサー812は、システム受け部810内に装填される。しかしながら、バイオセンサー812を含むカートリッジは、システム受け部810に挿入されてもよく、一部の状態では、カートリッジは一時的又は永久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。
【0095】
特定の実施態様では、配列決定システム800Aは、バイオセンサー812内で多数の平行反応を行うように構成されている。バイオセンサー812は、所望の反応が生じ得る1つ以上の反応部位を含む。反応部位は、例えば、バイオセンサーの固体表面に固定化されてもよく、又はバイオセンサーの対応する反応チャンバ内に位置するビーズ(又は他の可動基材)に固定化されてもよい。反応部位は、例えば、クローン的に増幅された核酸のクラスターを含むことができる。バイオセンサー812は、固体撮像装置(例えば、CCD又はCMOSイメージャ)及びそれに取り付けられたフローセルを含んでもよい。フローセルは、配列決定システム800Aから溶液を受容し、溶液を反応部位に向けて方向付ける1つ以上の流路を含んでもよい。任意選択的に、バイオセンサー812は、熱エネルギーを流路の内外に伝達するための熱要素と係合するように構成することができる。
【0096】
配列決定システム800Aは、相互に相互作用して、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行する、様々な構成要素、アセンブリ、及びシステム(又はサブシステム)を含んでもよい。例えば、配列決定システム800Aは、配列決定システム800Aの様々な構成要素、アセンブリ、及びサブシステムと通信してもよく、またバイオセンサー812も含むシステムコントローラ806を含む。例えば、システム受け部810に加えて、配列決定システム800Aはまた、配列決定システム800A及びバイオセンサー812の流体ネットワーク全体にわたる流体の流れを制御するための流体制御システム808、バイオアッセイシステムによって使用され得る全ての流体(例えば、流体、ガス又は液体)を保持するように構成された流体貯蔵システム814、流体ネットワーク、流体貯蔵システム814、及び/又はバイオセンサー812内の流体の温度を調整し得る温度制御システム804、並びにバイオセンサー812を照明するように構成された照明システム816と、を含み得る。上述のように、バイオセンサー812を有するカートリッジがシステム受け部810内に装填される場合、カートリッジはまた、流体制御及び流体貯蔵構成要素を含んでもよい。
【0097】
また、配列決定システム800Aは、ユーザーと対話するユーザーインターフェース818を含んでもよい。例えば、ユーザーインターフェース818は、ユーザーから情報を表示又は要求するディスプレイ820と、ユーザー入力を受け取るためのユーザー入力デバイス822とを含むことができる。いくつかの実施態様では、ディスプレイ820及びユーザー入力デバイス822は、同じデバイスである。例えば、ユーザーインターフェース818は、個々のタッチの存在を検出し、またディスプレイ上のタッチの場所を識別するように構成されたタッチ感知ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナー、音声認識システム、動き認識システムなどの他のユーザー入力デバイス822が使用されてもよい。以下でより詳細に説明するように、配列決定システム800Aは、所望の反応を実施するために、バイオセンサー812(例えば、カートリッジの形態)を含む様々な構成要素と通信してもよい。配列決定システム800Aはまた、バイオセンサーから得られたデータを分析して、ユーザーに所望の情報を提供するように構成されてもよい。
【0098】
システムコントローラ806は、マイクロコントローラ、低減命令セットコンピュータ(Reduced Instruction Set Computer、RISC)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、粗粒化再構成可能構造(Coarse-Grained Reconfigurable Architecture、CGRA)、論理回路、及び本明細書に記載される機能を実行することができる任意の他の回路又はプロセッサと、を備える。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び/又は意味を制限することを意図するものではない。例示的実施態様では、システムコントローラ806は、検出データを取得し分析する少なくとも1つのために、1つ以上の記憶要素、メモリ、又はモジュール内に記憶された命令のセットを実行する。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。記憶要素は、配列決定システム800A内の情報源又は物理メモリ要素の形態であってもよい。
【0099】
命令セットは、本明細書に記載される様々な実施態様の方法及びプロセスなどの特定の動作を実行するように配列決定システム800A又はバイオセンサー812に指示する様々なコマンドを含んでもよい。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(non-volatile RAM、NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されない。
【0100】
ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部分の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、ユーザー入力に応じて処理された配列決定システム800Aによって自動的に処理されてもよく、又は別の処理マシン(例えば、通信リンクを介したリモート要求)によって行われる要求に応じて処理されてもよい。図示の別の実施態様では、システムコントローラ806は、分析モジュール844を含む。他の別の実施態様では、システムコントローラ806は、分析モジュール844を含まず、代わりに分析モジュール844へのアクセスを有する(例えば、分析モジュール844は、クラウド上で別個にホスティングされ得る)。
【0101】
システムコントローラ806は、通信リンクを介して、バイオセンサー812及び配列決定システム800Aの他の構成要素に接続されてもよい。システムコントローラ806はまた、オフサイトシステム又はサーバに通信可能に接続されてもよい。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ806は、ユーザーインターフェース818及びユーザー入力デバイス822からユーザー入力又はコマンドを受信してもよい。
【0102】
流体制御システム808は、流体ネットワークを含み、流体ネットワークを通る1つ以上の流体の流れを方向付けるように構成されている。流体ネットワークは、バイオセンサー812及び流体貯蔵システム814と流体連通していてもよい。例えば、流体貯蔵システム814から流体を選択し、制御された方法でバイオセンサー812に向けてもよく、又は流体は、バイオセンサー812から引き出され、例えば、流体貯蔵システム814内の廃棄物リザーバに向けられてもよい。図示されていないが、流体制御システム808は、流体ネットワーク内の流体の流量又は圧力を検出する流量センサーを含んでもよい。センサーは、システムコントローラ806と通信してもよい。
【0103】
温度制御システム804は、流体ネットワーク、流体貯蔵システム814及び/又はバイオセンサー812の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム804は、バイオセンサー812と相互作用し、バイオセンサー812内の反応部位に沿って流れる流体の温度を制御する熱循環器を含んでもよい。温度制御システム804はまた、配列決定システム800A又はバイオセンサー812の中実要素又は構成要素の温度を調節してもよい。図示されていないが、温度制御システム804は、流体又は他の構成要素の温度を検出するためのセンサーを含んでもよい。センサーは、システムコントローラ806と通信してもよい。
【0104】
流体貯蔵システム814は、バイオセンサー812と流体連通しており、所望の反応を行うために使用される様々な反応成分又は反応物質を貯蔵してもよい。流体貯蔵システム814はまた、流体ネットワーク及びバイオセンサー812を洗浄(washing)又は洗浄(cleaning)し、反応物質を希釈するための流体を貯蔵してもよい。例えば、流体貯蔵システム814は、試料、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液などを保存するための様々なリザーバを含んでもよい。更に、流体貯蔵システム814はまた、バイオセンサー812から廃棄物を受容するための廃棄物リザーバを含んでもよい。カートリッジを含む実施態様形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの1つ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ以上は、カートリッジ又は他のバイオセンサーを介してバイオアッセイシステムと取り外し可能に係合され得る。
【0105】
照明システム816は、バイオセンサーを照明するための光源(例えば、1つ以上の発光ダイオード(Light-Emitting Diode、LED))及び複数の光学構成要素を含んでもよい。光源の例としては、レーザー、アークランプ、LED、又はレーザーダイオードが挙げられる。光学部品は、例えば、反射器、偏光板、ビームスプリッタ、コリメータ、レンズ、フィルター、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実施態様では、照明システム816は、励起光を反応部位に向けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約532nmであり得る。一実施態様では、照明システム816は、バイオセンサー812の表面の表面法線に平行な照明を生成するように構成されている。別の実施態様では、照明システム816は、バイオセンサー812の表面の表面法線に対してオフアングルである照明を生成するように構成されている。更に別の実施態様では、照明システム816は、いくつかの平行照明及びある程度のオフアングル照明を含む複数の角度を有する照明を生成するように構成されている。
【0106】
システム容器又はインターフェース810は、機械的、電気的、及び流体的な方法のうちの少なくとも1つにおいてバイオセンサー812と係合するように構成される。システム受け部810は、バイオセンサー812を所望の配向に保持して、バイオセンサー812を通る流体の流れを容易にすることができる。システム受け部810はまた、バイオセンサー812と係合するように構成された電気接点を含んでもよく、それにより、配列決定システム800Aは、バイオセンサー812と通信してもよく、及び/又はバイオセンサー812に電力を供給することができる。更に、システム容器810は、バイオセンサー812と係合するように構成された流体ポート(例えば、ノズル)を含んでもよい。いくつかの実施態様では、バイオセンサー812は、電気的に、また流体方式で、システム受け部810に取り外し可能に連結される。
【0107】
加えて、配列決定システム800Aは、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム800Aと通信してもよい。バイオアッセイシステム800Aによって得られた検出データは、リモートデータベースに記憶されてもよい。
【0108】
図8Bは、図8Aのシステムで使用することができるシステムコントローラ806のブロック図である。一実施態様では、システムコントローラ806は、互いに通信することができる1つ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム(例えば、有形及び/又は非一時的コンピュータ可読記憶媒体上に記憶された命令)又はサブアルゴリズムを含んでもよい。システムコントローラ806は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、DSP、プロセッサなどの任意の組み合わせを利用して実装されてもよい。あるいは、システムコントローラ806は、単一のプロセッサ又は複数のプロセッサを備えた既製のPCを使用して実装されてもよく、機能動作はプロセッサ間に分散される。更なる選択肢として、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実施されるハイブリッド構成を利用して実装されてもよく、残りのモジュール式機能は、既製のPCなどを利用して実施される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてもよい。
【0109】
動作中、通信ポート850は、バイオセンサー812(図8A)及び/又はサブシステム808、814、804(図8A)から情報(例えば、データ)に情報(例えばコマンド)を送信してもよい。実施態様では、通信ポート850は、ピクセル信号の複数の配列を出力することができる。通信リンク834は、ユーザーインターフェース818からユーザー入力を受信し(図8A)、ユーザーインターフェース818にデータ又は情報を送信してもよい。バイオセンサー812又はサブシステム808、814、804からのデータは、バイオアッセイセッション中に、システムコントローラ806によってリアルタイムで処理されてもよい。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作よりも遅く処理されてもよい。
【0110】
図8Bに示すように、システムコントローラ806は、中央処理装置(CPU)852と共に主制御モジュール824と通信する複数のモジュール828~844を含んでもよい。主制御モジュール824は、ユーザーインターフェース818と通信してもよい(図8A)。モジュール828~844は、主制御モジュール824と直接通信するものとして示されているが、モジュール828~844はまた、互いに、ユーザーインターフェース818と、及びバイオセンサー812と直接通信してもよい。また、モジュール828~844は、他のモジュールを介して主制御モジュール824と通信してもよい。
【0111】
複数のモジュール828~844は、サブシステム808、814、804及び816とそれぞれ通信するシステムモジュール828~832、826を含む。流体制御モジュール828は、流体ネットワークを通る1つ以上の流体の流れを制御するために、流体制御システム808と通信して、流体ネットワークの弁及び流量センサーを制御してもよい。流体貯蔵モジュール830は、流体が低い場合、又は廃棄物リザーバが満タン容量又はほぼ満タン容量にあるときにユーザーに通知することができる。流体貯蔵モジュール830はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール832と通信してもよい。照明モジュール826は、所望の反応(例えば、結合事象)が生じた後など、プロトコル中に指定された時間で反応部位を照明するために、照明システム816と通信してもよい。いくつかの実施態様では、照明モジュール826は、照明システム816と通信して、指定された角度で反応部位を照明することができる。
【0112】
複数のモジュール828~844はまた、バイオセンサー812と通信する装置モジュール836と、バイオセンサー812に関連する識別情報を判定する識別モジュール838とを含んでもよい。装置モジュール836は、例えば、システム容器810と通信して、バイオセンサーが配列決定システム800Aとの電気的及び流体的接続を確立したことを確認することができる。識別モジュール838は、バイオセンサー812を識別する信号を受信してもよい。識別モジュール838は、バイオセンサー812の識別情報を使用して、他の情報をユーザーに提供してもよい。例えば、識別モジュール838は、ロット番号、製造日、又はバイオセンサー812で動作することが推奨されるプロトコルを決定し、その後表示してもよい。
【0113】
複数のモジュール828~844はまた、バイオセンサー812から信号データ(例えば、画像データ)を受信及び分析する分析モジュール844(信号処理モジュール又は信号プロセッサとも呼ばれる)も含む。分析モジュール844は、検出/画像データを記憶するためのメモリ(例えば、RAM又はフラッシュ)を含む。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー(又はピクセル)のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶されてもよく、又はユーザーインターフェース818に送信されて、所望の情報をユーザーに表示することができる。いくつかの実施態様では、信号データは、分析モジュール844が信号データを受信する前に、固体撮像素子(例えば、CMOS画像センサー)によって処理され得る。
【0114】
分析モジュール844は、複数の配列決定サイクルのそれぞれにおいて、光検出器から画像データを取得するように構成される。画像データは、光検出器によって検出される発光信号から導出され、生徒ベースコーラ124を介して、複数の配列決定サイクルの各々に対して画像データを処理し、複数の配列決定サイクルの各々で検体のうちの少なくともいくつかに対するベースコールを生成する。光検出器は、1つ以上のオーバーヘッドカメラ(例えば、バイオセンサー812上のクラスターの画像を上から撮影するIlluminaのGAIIxのCCDカメラ)の一部であってもよく、又はバイオセンサー812自体の一部(例えば、バイオセンサー812上のクラスターの下にあり、底部からのクラスターの画像を取るIlluminaのiSeqのCMOS画像センサー)であってもよい。
【0115】
光検出器の出力は、それぞれクラスターの強度放射及びそれらの周囲背景を示す配列決定画像である。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する検体及びそれらの周囲の背景からのものである。配列決定画像は、メモリ848に記憶される。
【0116】
プロトコルモジュール840及び842は、メイン制御モジュール824と通信して、所定のアッセイプロトコルを実施する際にサブシステム808、814及び804の動作を制御する。プロトコルモジュール840及び842は、所定のプロトコルに従って特定の動作を実行するように配列決定システム800Aに指示するための命令セットを含み得る。図示のように、プロトコルモジュールは、配列決定ごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、合成による配列決定(Sequencing-By-Synthesis、SBS)モジュール840であってもよい。SBSにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を決定する。下にある化学プロセスは、重合(例えば、ポリメラーゼ酵素により触媒される)又はライゲーション(例えば、リガーゼ酵素により触媒される)であり得る。特定のポリマー系SBSの実施態様では、プライマーに付加されるヌクレオチドの順序及び種類の検出を使用してテンプレートの配列を決定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー(それによってプライマーを伸長させる)に添加する。例えば、第1のSBSサイクルを開始するために、1つ以上の標識されたヌクレオチド、DNAポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に/それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像事象を通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム816は、反応部位に励起光を提供することができる。任意選択的に、ヌクレオチドは、ヌクレオチドがプライマーに付加されると、更なるプライマー伸長を終結する可逆的終結特性を更に含むことができる。例えば、可逆的ターミネーター部分を有するヌクレオチド類似体をプライマーに付加して、デブロッキング作用因子が送達されてその部分を除去するまで、その後の伸長が起こらないようにすることができる。したがって、可逆終端を使用する別の実施態様では、フローセル(検出前又は検出後)にデブロッキング試薬を送達するために、コマンドを与えることができる。1つ以上のコマンドは、様々な送達工程間の洗浄(複数可)をもたらすために与えられ得る。このサイクルをn回繰り返すことにより、プライマーがnヌクレオチド分伸長し、それによって長さnの配列を検出することができる。例示的な配列決定技術は、例えば、Bentley et al.,Nature 456:53-59(2008)、国際公開第04/018497号、米国特許第7,057,026号、国際公開第91/06678号、国際公開第07/123744号、米国特許第7,329,492号、米国特許第7,211,414号、米国特許第7,315,019号、米国特許第7,405,281号、及び米国特許第2008/014708082号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
【0117】
SBSサイクルのヌクレオチド送達工程では、単一の種類のヌクレオチドのいずれかを一度に送達することができ、又は複数の異なるヌクレオチドタイプ(例えば、A、C、T、及びG)を送達することができる。一度に単一の種類のヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに結合された異なる蛍光標識に基づいて区別することができる。例えば、4つの異なる蛍光団のうちの1つをそれぞれ有する4つの異なるヌクレオチドを使用することができる。一実施態様では、4つの異なるフルオロフォアは、スペクトルの4つの異なる領域における励起を使用して区別することができる。例えば、4つの異なる励起放射線源を使用することができる。あるいは、4つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。
【0118】
いくつかの実施態様では、4つ未満の異なる色を、4つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出されたシグナルと比較して明らかなシグナルを出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。4個未満の色の検出を使用して4個の異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第61/538294号明細書及び同第61/619,878号明細書に記載されており、それらの全体が参照により本明細書に組み込まれる。2012年9月21日に出願された米国特許出願第13/624,200号は、その全体が参照により組み込まれる。
【0119】
複数のプロトコルモジュールはまた、バイオセンサー812内の製品を増幅するための流体制御システム808及び温度制御システム804にコマンドを発行するように構成された試料調製(又は生成)モジュール842を含んでもよい。例えば、バイオセンサー812は、配列決定システム800Aに係合されてもよい。増幅モジュール842は、バイオセンサー812内の反応チャンバに必要な増幅成分を送達するために、流体制御システム808に命令を発行することができる。他の実施態様では、反応部位は、テンプレートDNA及び/又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール842は、既知の増幅プロトコルに従って異なる温度段階を通して温度制御システム804にサイクルするように指示し得る。いくつかの実施態様では、増幅及び/又はヌクレオチドの取り込みは、等温的に実施される。
【0120】
SBSモジュール840は、クローン性アンプリコンのクラスターがフローセルのチャネル内の局所領域上に形成されるブリッジPCRを実行するコマンドを発行することができる。ブリッジPCRを介してアンプリコンを生成した後、アンプリコンを「線形化」して、一本鎖テンプレートDNAを作製してもよく、sstDNA及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネーター系配列決定を、上記のように又は以下のように使用することができる。
【0121】
各ベースコール又は配列決定サイクルは、例えば、修飾DNAポリメラーゼ及び4種類のヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってsstDNAを延長することができる。異なる種類のヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネーターを更に有し得る。単一の塩基がsstDNAに添加された後、励起光が反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネーターは、sstDNAから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、SBSモジュール840は、バイオセンサー812を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム808に指示することができる。本明細書に記載される装置及び方法と共に利用することができる例示的な可逆性ターミネーターベースのSBS方法は、米国特許出願公開第2007/0166705(A1)号、米国特許出願公開第2006/0188901(A1)号、米国特許第7,057,026号、米国特許出願公開第2006/0240439(A1)号明細書、米国特許出願公開第2006/02814714709(A1)号明細書、国際公開第05/065814号、米国特許出願公開第2005/014700900(A1)号明細書、国際公開第06/08B199号及び国際公開第07/01470251号(それぞれ参照によりその全体が本明細書に組み込まれる)に記載されている。可逆性ターミネーターベースのSBSの例示的な試薬が、米国特許第7,541,444号、米国特許第7,057,026号、米国特許7,414,14716号、米国特許第7,427,673号、米国特許第7,566,537号、米国特許第7,592,435号、及び国際公開第07/14835368号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
【0122】
いくつかの実施態様では、増幅及びSBSモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。
【0123】
配列決定システム800Aはまた、ユーザーがアッセイプロトコルを再構成することを可能にし得る。例えば、決定システム800Aは、決定されたプロトコルを修正するために、ユーザーインターフェース818を通じてユーザーにオプションを提供することができる。例えば、バイオセンサー812が増幅のために使用されると判定された場合、配列決定システム800Aは、アニーリングサイクルの温度を要求し得る。更に、配列決定システム800Aは、選択されたアッセイプロトコルに対して一般的に許容されないユーザー入力をユーザーが提供した場合に、ユーザーに警告を発行し得る。
【0124】
実施態様形態では、バイオセンサー812は、センサー(又はピクセル)のミリオンを含み、それらのそれぞれは、連続するベースコールサイクルにわたって複数のピクセル信号の配列を生成する。分析モジュール844は、センサーのアレイ上のセンサーの行方向及び/又は列方向の位置に従って、ピクセル信号の複数の配列を検出し、それらを対応するセンサー(又はピクセル)に属させる。
【0125】
図8Cは、ベースコールセンサー出力などの配列決定システム800Aからのセンサーデータの分析のためのシステムの簡略ブロック図である。図8Cの例では、システムは、構成可能プロセッサ846を含む。構成可能プロセッサ846は、中央処理ユニット(CPU)852(すなわち、ホストプロセッサ)によって実行される実行時プログラムと協調して、ベースコーラ(例えば、生徒ベースコーラ124)を実行することができる。配列決定システム800Aは、バイオセンサー812及びフローセルを含む。フローセルは、遺伝物質のクラスターが、遺伝物質中の塩基を識別するためにクラスター内の反応を引き起こすために使用される一連の検体フローに曝露される1つ以上のタイルを含み得る。センサーは、タイルデータを提供するために、フローセルの各タイルにおける配列の各サイクルの反応を感知する。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサーデータを、ベースコール動作中に感知された各遺伝物質群のベースコールの配列に変換する。
【0126】
本実施例のシステムは、ベースコール動作を調整するための実行時プログラムを実行するCPU852と、タイルデータのアレイのシーケンスを記憶するメモリ848Bと、ベースコール動作によって生成されたベースコールリードと、ベースコール動作で使用される他の情報とを記憶する。また、この図では、システムは、構成ファイル(又はファイル)、例えば、FPGAビットファイル、並びに構成可能プロセッサ846を構成及び再構成するために使用されるニューラルネットワークのモデルパラメータなどの構成ファイル(又はファイル)を記憶するメモリ848Aを含む。配列決定システム800Aは、構成可能プロセッサを構成するためのプログラムを含むことができ、いくつかの実施形態では、ニューラルネットワークを実行する再構成可能プロセッサを含み得る。
【0127】
配列決定システム800Aは、バス854によって構成可能プロセッサ846に結合される。バス854は、PCI-SIG規格(PCI Special Interest Group)によって現在維持及び開発されているPCIe規格(Peripheral Component Interconnect Express)と互換性のあるバス技術などの高スループット技術を使用して実装することができる。また、この例では、メモリ848Aは、バス856によって構成可能プロセッサ846に結合される。メモリ848Aは、構成可能プロセッサ846を有する回路基板上に配置されたオンボードメモリであってもよい。メモリ848Aは、ベースコール動作で使用される作業データの構成可能プロセッサ846による高速アクセスに使用される。バス856はまた、PCIe規格と互換性のあるバス技術などの高スループット技術を使用して実装することもできる。
【0128】
フィールドプログラマブルゲートアレイFPGA、粗いグレー構成可能な再構成可能アレイCGRAs、並びに他の構成可能かつ再構成可能なデバイスを含む構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実装するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと称される構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性SRAM要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Googleのテンソル処理ユニット(TPU)(商標)、GX4 Rackmount Series(商標)、GX9 Rackmount Series(商標)、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、QualcommのZeroth Platform(商標)(Snapdragon processors(商標)、NVIDIA Volta(商標)、NVIDIAのドライブPX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、Intel’s NirvanaTM、Movidius VPU(商標)、Fujitsu DPI(商標)、アームDynamicIQ(商標)、IBM TrueNorth(商標)、Lambda GPU Server with Testa V100s(商標)、Xilinx Alveo(商標)U200、Xilinx Alveo(商標)U250、Xilinx Alveo(商標)U280、Intel/Altera Stratix(商標)GX2800、Intel/Altera Stratix(商標)GX2800、及びIntel Stratix(商標)GX10M、が含まれる。いくつかの実施例では、ホストCPUは、構成可能プロセッサと同じ集積回路上に実装することができる。
【0129】
本明細書に記載の実施形態は、構成可能プロセッサ846を使用して、生徒ベースコーラ124を実装する。構成可能プロセッサ846の構成ファイルは、高レベルの記述言語HDL又はレジスタ転送レベルRTL言語仕様を使用して実行されるロジック機能を指定することによって実装することができる。本明細書は、選択された構成可能プロセッサが構成ファイルを生成するように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を生成する目的で、同じ又は類似の仕様をコンパイルすることができる。
【0130】
したがって、本明細書に記載される全ての実施形態における構成可能プロセッサ構成可能プロセッサ846の代替例は、特定用途向けASIC又は専用集積回路又は集積回路のセットを含む構成されたプロセッサを含み、又はシステムオンチップSOCデバイス、又は本明細書に記載されるようなニューラルネットワークベースのベースコール動作を実行するように構成された、システムオンチップSOCデバイス、又はグラフィック処理ユニット(GPU)プロセッサ若しくは粗粒化再構成可能構造(Coarse-Grained Reconfigurable Architecture、CGRA)プロセッサである。
【0131】
一般に、ニューラルネットワークの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと称される。
【0132】
構成可能プロセッサ846は、この例では、CPU852によって実行されるプログラムを使用して、又は構成可能要素866のアレイを構成する他のソースによってロードされた構成ファイルによって構成される(例えば、構成論理ブロック(Configuration Logic Block、CLB)、例えばルックアップテーブル(Look Up Table、LUT)、フリップフロップ、演算処理ユニット(PMU)、及び計算メモリユニット(Compute Memory Unit、CMU)、構成可能なI/Oブロック、プログラマブル相互接続)を計算して、ベースコール機能を実行する。この例では、構成は、バス854及び856に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分散する機能を実行するデータフローロジック862を含む。
【0133】
また、構成可能プロセッサ846は、生徒ベースコーラ124を実行するためにベースコール実行論理862を用いて構成される。論理862は、マルチサイクル実行クラスター(例えば、864)を含み、この実施例では、実行クラスターXを介した実行クラスター1を含む。マルチサイクル実行クラスターの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能プロセッサ846上の利用可能なリソースに従って選択することができる。
【0134】
マルチサイクル実行クラスターは、構成可能プロセッサ846上の構成可能な相互接続及びメモリリソースを使用して実装されるデータ流路858によってデータフローロジック862に結合される。また、マルチサイクル実行クラスターは、構成可能な相互接続及びメモリリソースを使用して、例えば構成可能プロセッサ846上で実施される制御経路860によってデータフローロジック862に結合されている。それは、利用可能な実行クラスターを示す制御信号を提供し、生徒ベースコーラ124の動作の実行のための入力ユニットを利用可能な実行クラスターに提供する準備ができており、生徒ベースコーラ124の訓練されたパラメータを提供する準備ができており、ベースコール分類データの出力パッチ、及び生徒ベースコーラ124の実行に使用される他の制御データを提供する準備ができている。
【0135】
構成可能プロセッサ846は、訓練されたパラメータを使用し生徒ベースコーラ124の動作を実行して、ベースコール動作の感知サイクルに関する分類データを生成するように構成されている。生徒ベースコーラ124の動作を実行して、ベースコール動作の被験者感知サイクルの分類データを生成する。生徒ベースコーラ124の動作は、N個の感知サイクルのそれぞれの感知サイクルからのタイルデータのアレイの数Nを含む配列で動作し、N個の感知サイクルは、本明細書に記載される例での時間配列における動作ごとの1つの塩基位置に対する異なるベースコール動作のためのセンサーデータを提供する。任意選択的に、N個の感知サイクルのうちのいくつかは、実行される特定のニューラルネットワークモデルに従って必要に応じて、配列から出ることができる。数Nは、1を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、N個の検知サイクルの検知サイクルは、被験者の検知サイクルに先行する少なくとも1つの検知サイクル、及び被験者サイクルの後の少なくとも1回の検知サイクルについての検知サイクルのセットを表す。本明細書では、数Nが5以上の整数である、実施例が記載される。
【0136】
データフローロジック862は、N個のアレイの空間的に位置合わせされたパッチのタイルデータを含む所与の動作のための入力ユニットを使用して、生徒ベースコーラ124の動作のために、メモリ848Aから構成可能プロセッサ846に、タイルデータ及びモデルパラメータの少なくともいくつかの訓練されたパラメータを移動させるように構成されている。入力ユニットは、1回のDMA動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。
【0137】
本明細書に記載される感知サイクルのタイルデータは、1つ以上の特徴を有するセンサーデータのアレイを含むことができる。例えば、センサーデータは、DNA、RNA、又は他の遺伝物質の遺伝的配列における塩基位置で4塩基のうちの1つを識別するために分析される2つの画像を含むことができる。タイルデータはまた、画像及びセンサーに関するメタデータを含むことができる。例えば、ベースコール動作の実施形態では、タイルデータは、タイル上の遺伝物質群の中心からのセンサーデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスターとの画像の位置合わせに関する情報を含むことができる。
【0138】
以下に記載されるような生徒ベースコーラ124の実行中に、タイルデータはまた、中間データと呼ばれる生徒ベースコーラ124の実行中に生成されたデータを含むことができ、これは、生徒ベースコーラ124の実行中に再計算されるのではなく再利用され得る。例えば、生徒ベースコーラ124の実行中に、データフローロジック862は、タイルデータのアレイの所与のパッチのセンサーデータの代わりに、中間データをメモリ848Aに書き込むことができる。このような実施形態は、以下により詳細に記載される。
【0139】
図示されているように、ベースコール動作の感知サイクルからタイルのセンサーデータを含むタイルデータを記憶する実行時プログラムによってアクセス可能なメモリ(例えば、848A)を含む、ベースコールセンサー出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能プロセッサ846などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの動作を実行して、感知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの動作は、被験者サイクルを含むN個の感知サイクルのそれぞれの感知サイクルからタイルデータのN個のアレイの配列で動作して、被験者サイクルの分類データを生成する。データフローロジック862は、N個の感知サイクルのそれぞれの感知サイクルからのN個のアレイの空間的に整合されたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。
【0140】
また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスターを含み、ニューラルネットワークを実行するように構成された複数の実行クラスター内の実行クラスターを含むシステムも説明される。データフローロジック862は、メモリへのアクセス、及び複数の実行クラスター内のクラスターを実行して、複数の実行クラスター内の利用可能な実行クラスターにタイルデータの入力ユニットを提供し、入力ユニットは、それぞれの感知サイクルからタイルデータのアレイの空間的に整列されたパッチの数Nを含む、入力ユニットと、被験者感知サイクルを含み、N個の空間的に整合されたパッチをニューラルネットワークに適用して、被験者感知サイクルの空間的に整合されたパッチの分類データの出力パッチを生成させるように、実行クラスターに、ニューラルネットワークにN個の空間的に整列されたパッチを適用させることと、を含み、Nは1より大きい。
【0141】
図8Dは、ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。この図では、フローセルからの画像センサーの出力は、ライン868上で画像処理スレッド869に提供され、画像処理スレッド869は、個々のタイルのセンサーデータのアレイ内の位置合わせ及び配置、及び画像の再サンプリングなどの画像上のプロセスを実行することができ、フローセル内の各タイルのタイルクラスターマスクを計算するプロセスによって使用することができ、フローセルの対応するタイル上の遺伝子材料のクラスターに対応するセンサーデータのアレイ内のピクセルを識別するプロセスによって使用することができる。画像処理スレッド869の出力は、CPU内のディスパッチロジック877に、ライン870上に提供され、それは、高速バス871上又は高速バス873上のデータキャッシュ872(例えば、SSD記憶装置)に、ベースコール動作の状態に従って、図8Cの構成可能プロセッサ846などのニューラルネットワークプロセッサハードウェア874にタイルデータのアレイを転送する。処理され、変換された画像は、以前に使用されたサイクルを感知するために、データキャッシュ872上に記憶され得る。ハードウェア874は、ニューラルネットワークによって出力された分類データをディスパッチロジック877に返し、ディスパッチロジック877は、情報をデータキャッシュ872に、又はライン875上でスレッド870に渡し、分類データを使用してベースコール及び品質スコア計算を実行し、ベースコール読み取りのための標準フォーマットでデータを配置することができる。ベースコール及び品質スコア計算を実行するスレッド870の出力は、ベースコールリードを集約するスレッド871に、ライン876上に提供され、データ圧縮などの他の動作を実行し、結果として得られるベースコール出力を顧客による利用のために指定された宛先に書き込む。
【0142】
いくつかの実施形態では、ホストは、ニューラルネットワークを支持するハードウェア874の出力の最終処理を実行する、スレッド(図示せず)を含むことができる。例えば、ハードウェア874は、マルチクラスターニューラルネットワークの最終層から分類データの出力を提供することができる。ホストプロセッサは、ベースコール及び品質スコアスレッド870によって使用されるデータを設定するために、分類データを超えて、ソフトマックス関数などの出力起動機能を実行することができる。また、ホストプロセッサは、ハードウェア874への入力前のタイルデータのバッチ正規化などの入力動作(図示せず)を実行することができる。
【0143】
図8Eは、図8Cの構成などの構成可能プロセッサ846の構成の簡略図である。図8Eでは、構成可能プロセッサ846は、複数の高速PCIeインターフェースを有するFPGAを含む。FPGAは、図8Cを参照して説明されるデータフローロジック862を含むラッパー880を用いて構成されている。ラッパー880は、CPU通信リンク878を介してCPU内の実行時プログラムとのインターフェース及び調整を管理し、DRAM通信リンク881を介してオンボードDRAM879(例えば、メモリ848A)との通信を管理する。ラッパー880内のデータフローロジック862は、数Nのサイクルのために、オンボードDRAM879上のタイルデータのアレイをクラスター884まで横断することによって取得されたパッチデータを提供し、クラスター884からプロセスデータ882を取得して、オンボードDRAM879に配信する。ラッパー880はまた、タイルデータの入力アレイ、及び分類データの出力パッチの両方について、オンボードDRAM879とホストメモリとの間のデータの転送を管理する。ラッパーは、ライン887上のパッチデータを割り当てられたクラスター884に転送する。ラッパーは、オンボードDRAM302から取得されたクラスター884にライン886の重みやバイアスなどの訓練されたパラメータを提供する。ラッパーは、CPU通信リンク878を介してホスト上の実行時プログラムから提供されるか、又はそれに応答して生成されるクラスター884に、ライン885上の構成及び制御データを提供する。クラスターはまた、ホストからの制御信号と協働して使用されて、空間的に整列したパッチデータを提供し、クラスター884のリソースを使用して、パッチデータを介してマルチサイクルニューラルネットワークをパッチデータの上で実行するために、ホストからの制御信号と協働して使用されるラッパー880に、ライン883上の状態信号を提供することができる。
【0144】
上述のように、タイルデータの複数のパッチのうちの対応するパッチ上で実行するように構成されたラッパー880によって管理される単一の構成可能プロセッサ上に複数のクラスターが存在し得る。各クラスターは、本明細書に記載される複数の感知サイクルのタイルデータを使用して、被験者感知サイクルにおけるベースコールの分類データを提供するように構成することができる。
【0145】
システムの例では、フィルター重み及びバイアスのようなカーネルデータを含むモデルデータをホストCPUから構成可能プロセッサに送信することができ、その結果、モデルは、サイクル数の関数として更新され得る。ベースコール動作は、代表的な例では、数百の感知サイクルの順序で含むことができる。ベースコール動作は、いくつかの実施形態では、ペアリングされた端部読み取りを含むことができる。例えば、モデル訓練されたパラメータは、20サイクルごと(又は他の数のサイクル)ごとに、又は特定のシステム及びニューラルネットワークモデルに実装される更新パターンに従って更新されてもよい。タイル上の遺伝的クラスター内の所与のストリングのための配列が、ストリングの第1の端部から下方に(又は上方に)延在する第1の部分と、ストリングの第2の端部から上方に(又は下方に)に延在する第2の部分とを含む、ペアリングされた端部リードを含むいくつかの実施形態では、訓練されたパラメータは、第1の部分から第2の部分への遷移で更新され得る。
【0146】
いくつかの実施例では、タイルのための感知データの複数サイクルの画像データは、CPUからラッパー880に送信され得る。ラッパー880は、任意選択的に、感知データの一部の前処理及び変換を行い、その情報をオンボードDRAM879に書き込むことができる。各感知サイクルの入力タイルデータは、タイル当たり4000 x 3000ピクセル/タイル以上を含むセンサーデータのアレイを含むことができ、2つの特徴はタイルの2つの画像の色を表し、1ピクセル当たり1つ又は2つのバイトを含むセンサーデータのアレイを含むことができる。数Nが、マルチサイクルニューラルネットワークの各動作において使用される3回の検知サイクルである実施形態では、マルチサイクルニューラルネットワークの各動作のためのタイルデータのアレイは、数当たり数百メガバイトの数で消費することができる。システムのいくつかの実施形態では、タイルデータはまた、タイルごとに1回記憶されたDFCデータのアレイ、又はセンサーデータ及びタイルに関する他のタイプのメタデータも含む。
【0147】
動作中、マルチサイクルクラスターが利用可能である場合、ラッパーは、パッチをクラスターに割り当てる。ラッパーはタイルの横断面にタイルデータの次のパッチをフェッチし、適切な制御及び構成情報と共に割り当てられたクラスターに送信する。クラスターは、構成可能プロセッサ上の十分なメモリを用いて構成されて、パッチを含むデータのパッチを、定位置に処理されているいくつかのシステム内で複数サイクルから保持するのに十分なメモリを有するように構成することができ、様々な実施形態では、ピンポンバッファ技術又はラスタ走査技術を使用して処理される。
【0148】
割り当てられたクラスターが、現在のパッチのニューラルネットワークのその動作を完了し、出力パッチを生成すると、それはラッパーに信号を送る。ラッパーは、割り当てられたクラスターから出力パッチを読み出すか、あるいは割り当てられたクラスターは、データをラッパーにプッシュする。次いで、ラッパーは、DRAM879内の処理されたタイルのための出力パッチを組み立てることになる。タイル全体の処理が完了し、データの出力パッチがDRAMに転送されると、ラッパーは、処理された出力アレイを、特定のフォーマットでホスト/CPUに返送する。いくつかの実施形態では、オンボードDRAM879は、ラッパー880内のメモリ管理論理によって管理される。実行時プログラムは、リアルタイム分析を提供するために連続フローで動作する全てのサイクルについての全てのタイルデータのアレイの分析を完了するために、配列決定動作を制御することができる。
【0149】
本明細書で使用される場合、「論理」(例えば、データフローロジック)は、本明細書に記載の方法工程を実行するためにコンピュータが使用可能なプログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装され得る。「論理」は、メモリと、当該メモリに結合され、例示的な方法工程を実行するように動作する少なくとも1つのプロセッサと、を含む装置の形態で実装され得る。「論理」は、本明細書に記載の方法工程のうちの1つ以上を実行するための手段の形態で実装され得る。手段は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェア及びソフトウェアモジュールの組み合わせを含むことができ、(i)~(iii)のいずれかは、本明細書に記載される特定の技術を実装し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。一実施態様では、論理は、データ処理機能を実装する。論理は、機能を指定するコンピュータプログラムを備えた汎用、シングルコア又はマルチコアのプロセッサ、コンピュータプログラムを備えたデジタル信号プロセッサ、構成ファイルを有するFPGAなどの構成可能論理、ステートマシンなどの特殊目的回路、又はこれらの任意の組合せであり得る。また、コンピュータプログラム製品は、論理のコンピュータプログラム及び構成ファイル部分を具現化することができる。
【0150】
(コンピュータシステム)
【0151】
図9は、本明細書に開示されるベースコール技術を実施するために配列決定システム800Aによって使用され得るコンピュータシステム900である。コンピュータシステム900は、バスサブシステム955を介して多数の周囲デバイスと通信する、少なくとも1つの中央処理装置(CPU)972を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイルストレージサブシステム936、ユーザーインターフェース入力デバイス938、ユーザーインターフェース出力デバイス976及びネットワークインターフェースサブシステム974を含む記憶サブシステム858を含むことができる。入力及び出力デバイスは、コンピュータシステム900とのユーザー対話を可能にする。ネットワークインターフェースサブシステム974は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0152】
一実施態様では、システムコントローラ806は、記憶サブシステム858及びユーザーインターフェース入力デバイス938に通信可能にリンクされている。
【0153】
ユーザーインターフェース入力デバイス938は、キーボードと、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含んでもよい。一般に、用語「入力デバイス」の使用は、コンピュータシステム900に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0154】
ユーザーインターフェース出力デバイス976は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム900からユーザー又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方法を含むことを意図している。
【0155】
記憶サブシステム858は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ978によって実行される。
【0156】
深層学習プロセッサ978は、グラフィック処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又は粗粒化再構成可能構造(CGRAs)であり得る。深層学習プロセッサ978は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。深層学習プロセッサ978の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX9 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
【0157】
記憶サブシステム858で使用されるメモリサブシステム922は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(RAM)932と、固定命令が記憶された読み取り専用メモリ(ROM)934とを含む多数のメモリを含むことができる。ファイル記憶サブシステム936は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実装するモジュールは、ストレージサブシステム858内のファイル記憶サブシステム936によって、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。
【0158】
バスサブシステム955は、コンピュータシステム900の様々な構成要素及びサブシステムを、意図されるように互いに通信するための機構を提供する。バスサブシステム955は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。
【0159】
コンピュータシステム900自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩く分散した一組の緩くネットワーク化されたコンピュータ、又は任意の他のデータ処理システム若しくはユーザーデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークの変化の性質により、図9に示されるコンピュータシステム900の説明は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。コンピュータシステム900の多くの他の構成は、図9に示されるコンピュータシステムよりも多く又は少ない構成要素を有することができる。
【0160】
プルーニング
【0161】
本発明者らは、計算効率的なベースコールを実行する人工知能ベース技術をも開示する。図10Aは、クラスター強度画像1002を介して第1のベースコーラ1006を訓練し、第1の訓練されたベースコーラ1006を生成する、訓練1004の一実施態様を示す図である。図10Bは、クラスター強度画像1002(例えば、クラスター画像1008)をベースコール予測1010にマッピングする、第1の訓練されたベースコーラ1006の一実施態様を示す図である。
【0162】
図11A及び図11Bは、計算効率的なベースコールを実行するために開示された技術によって実装されるループの様々な態様を示す図である。
【0163】
コントローラ1148は、第1の訓練されたベースコーラ1006から開始し、各反復が訓練され始動しているベースコーラ1112を入力として使用し、訓練されプルーニングされたベースコーラ1142を出力として生成するループ1102を実行する。訓練されプルーニングされたベースコーラ1142は、訓練され始動しているベースコーラ1112よりも処理要素が少ない。一実施態様では、第1の訓練されたベースコーラ1006は、ニューラルネットワークであり、処理要素は、ニューラルネットワークのニューロンである。別の実施態様では、第1の訓練されたベースコーラ1006は、畳み込みニューラルネットワークであり、処理要素は、畳み込みニューラルネットワークの畳み込みフィルターである。更に別の実施態様では、処理要素は、畳み込みニューラルネットワークの畳み込みカーネルである。更に更なる実施態様では、処理要素は、畳み込みニューラルネットワークの畳み込みカーネルの重みである。別の実施態様では、第1の訓練されたベースコーラ1006は、再帰型ニューラルネットワークであり、処理要素は、再帰型ニューラルネットワークのゲートの重みである。
【0164】
更に更なる実施態様では、第1の訓練されたベースコーラ1006は、全結合ニューラルネットワークである。
【0165】
更に更なる実施態様では、処理要素は、クラスター特徴マップである。クラスター特徴マップは、第1の訓練されたベースコーラ1006が畳み込みニューラルネットワークである場合、畳み込み特徴又は畳み込み表現であり得る。クラスター特徴マップは、第1の訓練されたベースコーラ1006が再帰型ニューラルネットワークであるとき、隠れた状態特徴又は隠れた状態表現であり得る。
【0166】
畳み込みフィルターがクラスター画像(又はクラスター強度画像)を介して畳み込まれるとき、結果として生じる出力は、クラスター特徴マップと呼ばれる。同様に、畳み込みフィルターが別の畳み込み層(例えば、先行する畳み込み層)で生成されたクラスター特徴マップを介して畳み込まれる場合、結果として生じる出力はまた、クラスター特徴マップと呼ばれる。一実施態様では、クラスター特徴マップは、畳み込みフィルター(ニューロン)の要素に、クラスター強度画像の対応する要素(例えば、強度値)、又は別の畳み込み層(例えば、先行する畳み込み層)で生成されたクラスター特徴マップの要素を要素ごとに乗算し、要素ごとの乗算の結果を合計して生成することにより、クラスター特徴マップが生成される。
【0167】
クラスター特徴マップ生成器1150は、各反復において、順伝播1108中に、訓練され始動しているベースコーラ1112の処理要素を介してクラスター強度画像のサブセット1106(例えば、クラスター画像1110)を処理し、各処理要素を使用して1つ以上のクラスター特徴マップ1114を生成し、クラスター特徴マップ1114に基づいてベースコール予測1116を生成する。これが、クラスター特徴マップ生成工程1104と見なされる。
【0168】
勾配決定器1152は、各反復において、逆伝播1126の間、ベースコール予測1116とグラウンドトゥルースベースコール1120との間の誤差1122に基づいて、クラスター特徴マップ1114の勾配1124を決定する。これが、勾配決定工程1118と見なされる。
【0169】
寄与度測定器1154は、各反復において、クラスター特徴マップ1114のそれぞれのものに勾配1124を適用し、クラスター特徴マップ1114の各々について、ベースコール予測1116にどの程度寄与したかを識別する寄与度スコア1130を生成する。これが、寄与度測定工程1128と見なされる。
【0170】
図12は、クラスター特徴マップの寄与度スコアを生成する一実施態様を示す図である。一実施態様では、クラスター特徴マップ1202のための寄与度スコア1214は、クラスター特徴マップ1202内の特徴値1204の各々を勾配1206のそれぞれ1つと乗算して中間特徴値1208を生成し、中間特徴値1208に絶対関数1210を適用して絶対中間特徴値1212を生成し、絶対中間特徴値1212を合計してクラスター特徴マップ1202の寄与度スコア1214を生成することによって生成される。
【0171】
別の実施態様では、クラスター特徴マップ1202の寄与度スコア1214は、勾配1206を使用せずに生成される。これは、絶対関数1210をクラスター特徴マップ1202内の特徴値(重み)1204に適用し、絶対特徴値を生成し、絶対特徴値を合計して、クラスター特徴マップ1202の寄与度スコア1214を生成することを含む。
【0172】
各反復において、プルーナ-1156は、それらの寄与度スコア1130に基づいてクラスター特徴マップのサブセット1134を選択し、訓練され始動しているベースコーラ1112から、順伝播1108中にクラスター特徴マップの選択されたサブセット1134を生成するために使用されたそれらの処理要素1138を除去することによって、訓練されプルーニングされたベースコーラ1142を生成する。これが、プルーニング工程1132と見なされる。
【0173】
再訓練器1158は、各反復において、クラスター強度画像1002を介して訓練されプルーニングされたベースコーラ1142を更に訓練し、訓練されプルーニングされたベースコーラ1142を訓練され始動しているベースコーラ1112として連続的な反復に使用できるようにする。
【0174】
ターミネーター1160は、n回の反復後にループ1102を終了させ、n回目の反復によって生成された訓練されプルーニングされたベースコーラ1142を更なるベースコールに使用する。
【0175】
一実施態様では、各反復は、順伝播中に、訓練され始動しているベースコーラの処理要素を通じて、クラスター強度画像のサブセットをバッチ内で処理する。このような実施態様では、クラスター特徴マップの勾配はバッチごとに決定され、クラスター特徴マップについての絶対中間特徴値はバッチごとに生成され、クラスター特徴マップの寄与度スコアはバッチの各々の絶対中間特徴値を合計することによって生成される。
【0176】
一実施態様では、Lp正規化が、第1のベースコーラ1106の訓練に使用される。このLpの正規化は、L-1正規化、L-2正規化、及びL-無限大正規化であり得る。一実施態様では、第1の反復について、Lpの正規化は、寄与度スコアがゼロであるクラスター特徴マップのサブセットを生成する。第1の反復について、プルーニング工程1132は、まず、第1の訓練されたベースコーラ1006から、Lp正規化により寄与度スコアがゼロであるクラスター特徴マップの生成に使用された処理要素を除去し、次に、第1の訓練されたベースコーラ1006から、順伝播中にクラスター特徴マップの選択済みサブセット1134を生成するために使用された処理要素を除去する。
【0177】
正規化の他の例としては、L-0正規化、絶対値正規化、ユークリッド正規化、Taxicab又はManhattan正規化、p-正規化、最大正規化、無限正規化、均一正規化、上限(supremum)正規化、及びゼロ正規化、が挙げられる。正規化技術についての追加情報及び実施例は、Wikipedia(https://en.wikipedia.org/wiki/Norm_(mathematics)-1/15/2029,9:54 AM)にて参照できる。
【0178】
いくつかの実施態様では、各畳み込みフィルターは、畳み込みフィルター内のピクセルのカウントによって正規化され得る。正規化は、空間的及び/又は時間的次元に沿うものであり得る。すなわち、空間層1におけるサイズ115×115の入力クラスター強度画像について、結果として得られた特徴量マップのピクセル/特徴値/単位/サイズ/次元のカウントは、113×113であり得るが、時間層7においては101x101であり得る。結果として生じる絶対値のドット積の和は、フィルターサイズによって正規化され得る。また、ベースコーラの時間層は、正規化に利用することができる、様々な時間成分の次元を有する。
【0179】
一実施態様では、クラスター特徴マップのサブセット1106は、最も低い寄与度スコアを有するクラスター特徴マップのパーセンテージに基づいて選択される。いくつかの実施態様では、パーセンテージは2%~5%の範囲である。
【0180】
一実施態様では、訓練されプルーニングされたベースコーラ1142を更に訓練するために再訓練工程1144で使用されるエポックの数は、第1のベースコーラ1006の訓練1004に使用されるエポックの数よりも少ない。例えば、訓練されプルーニングされたベースコーラ1142を更に訓練するために再訓練工程1144で使用されるエポックの数は15であり、第1のベースコーラ10006の訓練1004で使用されるエポック数は50である。
【0181】
一実施態様では、クラスター特徴マップ生成工程1104で使用されるクラスター強度画像のサブセット1106は、第1のベースコーラ1006の訓練1004に使用されるクラスター強度画像1002の15%~30%であり、各反復でランダムに選択される。他の実施態様では、クラスター特徴マップ生成工程1104で使用されるクラスター強度画像のサブセット1106は、クラスター強度画像1002の15%未満及び30%超、又は15%~30%であり得る。
【0182】
図13は、計算効率的なベースコールを実行する人工知能ベースの方法の一実施態様を示す図である。
【0183】
アクション1302において、方法は、クラスター強度画像を介して第1のベースコーラを訓練することと、クラスター強度画像をベースコール予測にマッピングする第1の訓練されたベースコーラを生成することと、を含む。
【0184】
アクション1312において、方法は、第1の訓練されたベースコーラで開始することと、各反復が、訓練され始動しているベースコーラを入力として使用し、訓練されプルーニングされたベースコーラを出力として生成するループを実行することと、を含み、訓練されプルーニングされたベースコーラは、訓練され始動しているベースコーラよりも少ない処理要素を有している。
【0185】
各反復は、(i)クラスター特徴マップ生成工程、(ii)勾配決定工程、(iii)寄与度測定工程、(iv)プルーニング工程、及び(v)再訓練工程を含む。
【0186】
アクション1322において、クラスター特徴マップ生成工程は、順伝播中に、訓練され始動しているベースコーラの処理要素を通じてクラスター強度画像のサブセットを処理し、各処理要素を使用して1つ以上のクラスター特徴マップを生成し、クラスター特徴マップに基づいてベースコール予測を生成する。
【0187】
アクション1332において、勾配決定工程は、逆伝播中に、ベースコール予測とグラウンドトゥルースベースコールとの間の誤差に基づいて、クラスター特徴マップの勾配を決定する。
【0188】
アクション1342において、寄与度測定工程は、クラスター特徴マップのそれぞれのものに勾配を適用し、クラスター特徴マップの各々について、ベースコール予測にどの程度寄与したかを識別する寄与度スコアを生成する。
【0189】
アクション1352において、プルーニング工程は、それらの寄与度スコアに基づいてクラスター特徴マップのサブセットを選択し、訓練され始動しているベースコーラから、順伝播中にクラスター特徴マップの選択されたサブセットを生成するために使用されたそれらの処理要素を除去することによって、訓練されプルーニングされたベースコーラを生成する。
【0190】
アクション1362において、再訓練工程は、クラスター強度画像を介して訓練されプルーニングされたベースコーラを更に訓練し、訓練されプルーニングされたベースコーラを訓練され始動しているベースコーラとして連続的な反復に使用できるようにする。
【0191】
アクション1372において、方法は、n回の反復後にループを終了させ、n回目の反復によって生成された、訓練されプルーニングされたベースコーラを更なるベースコールに使用することを含む。
【0192】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
【0193】
図14は、計算効率的なベースコールを実行する人工知能ベースの方法の別の実施態様を示す図である。
【0194】
アクション1402において、方法は、クラスター強度画像を介して第1のベースコーラを訓練することと、クラスター強度画像をベースコール予測にマッピングする第1の訓練されたベースコーラを生成することと、を含む。
【0195】
アクション1412において、方法は、第1の訓練されたベースコーラで開始することと、各反復が、訓練され始動しているベースコーラを入力として使用し、訓練されプルーニングされたベースコーラを出力として生成するループを実行することと、を含み、訓練されプルーニングされたベースコーラは、訓練され始動しているベースコーラよりも少ない処理要素を有している。
【0196】
各反復は、(i)クラスター特徴マップ生成工程、(ii)寄与度測定工程、(iv)プルーニング工程、及び(v)再訓練工程を含む。
【0197】
アクション1422において、クラスター特徴マップ生成工程は、順伝播中に、訓練され始動しているベースコーラの処理要素を通じてクラスター強度画像のサブセットを処理し、各処理要素を使用して1つ以上のクラスター特徴マップを生成し、クラスター特徴マップに基づいてベースコール予測を生成する。
【0198】
アクション1432において、寄与度測定工程は、クラスター特徴マップの各々について、ベースコール予測にどの程度寄与したかを識別する寄与度スコアを生成する。
【0199】
アクション1442において、プルーニング工程は、それらの寄与度スコアに基づいてクラスター特徴マップのサブセットを選択し、訓練され始動しているベースコーラから、順伝播中にクラスター特徴マップの選択されたサブセットを生成するために使用されたそれらの処理要素を除去することによって、訓練されプルーニングされたベースコーラを生成する。
【0200】
アクション1452において、再訓練工程は、クラスター強度画像を介して訓練されプルーニングされたベースコーラを更に訓練し、訓練されプルーニングされたベースコーラを訓練され始動しているベースコーラとして連続的な反復に使用できるようにする。
【0201】
アクション1462において、方法は、n回の反復後にループを終了させ、n回目の反復によって生成された訓練されプルーニングされたベースコーラを更なるベースコールに使用することを含む。
【0202】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
【0203】
図15A図15B図15C図15D図15E及び図15Fは、開示された技術が計算効率的なベースコールを実施することを実証する性能結果を示す図である。
【0204】
以下のプロットは、開示される技術の反復プルーニングプロセス出力を示す。本発明者らは、第1の訓練されたベースコーラ1006が、各々48のフィルターを有する7つの空間層、及び各々96のフィルターを有する2つの時間的畳み込み層を有する、本発明者らの標準Multiclusterアルゴリズムから始める。本発明者らは、L1ノルム正則化基準を追加し疎なフィルターセットを取得することで、多くの畳み込みカーネルが全て0に設定されたものを含んでいる、初期訓練されたモデル(接尾辞で「_tf2_human」を有する第1のプロットの青色モデル)を得る。L1正則化パラメータをより高くすることで、この初期訓練されたモデルにおいて、より多くのフィルターがすべて0に設定されることになる。
【0205】
このモデルから始動して、プルーニング反復のラウンドを始め、その間、訓練セットのランダムな15%についてプルーニング基準を計算する。この基準に従ってフィルターをランク付けした後、最も重要でないと判断されたフィルター(通常、各反復でモデル全体の2%のフィルターを排除)を排除し、微調整のためにモデルを再訓練する。各反復におけるプルーニングと微調整の結果得られた各モデルは、以下のプロットにおいて接尾辞「prunedxx_human」、この場合xxは00~35の間の数字である、に従ってラベル付けされている。
【0206】
最初に、新しいプルーニングの反復ごとに、反復14(「pruned13_human」モデル)まで、モデルの性能が向上していることが分かった。これは、学習率アニーリングアプローチ(高い学習率で訓練し、徐々に学習率を下げる)によるモデルの再訓練によるものと思われる。周期的な学習率訓練スケジュール(高学習率から低学習率へ訓練エポックを増やし、その後高学習率から低学習率へ訓練エポックを増やすと、より良いモデルになるという文献がある)の使用。
【0207】
その後、モデルが更にトリミングされたときの反復14以降では、モデルの不一致率が徐々に低下していることに気づいた。
【0208】
パイプラインの出力ログから、訓練反復24(「_pruned23_human」モデル)が、良好な候補であることが分かり、当該モデルは以下のフィルターを有する。
・損失0.029168058224022388から0.022608762811869382まで微調整されたモデル
・プルーニング反復24/35
・空間的補正畳み込みスタック
・L1保持14/14フィルター
・L2保持14/14フィルター
・L3保持11/12フィルター
・L4保持16/16フィルター
・L5保持15/15フィルター
・L6保持18/18フィルター
・L7保持6/6フィルター
・時間的補正畳み込みスタック
・L8保持12/13フィルター
・L9保持17/18フィルター
【0209】
これらのフィルターカウントをパッチあたりの演算数に換算すると、295813196回となり、これは、本発明者らの標準的なK=14モデルよりも8%演算数が減少している。
【0210】
興味深いことに、本発明者らはまた、空間畳み込みスタックにおける最後のフィルターが6フィルターまで絞られていることに気づいた。これは、空間的補正層と時間的畳み込み層の間でデータを大幅に圧縮できるという本発明者らの発見(米国仮特許出願第62/979、411号で開示されている)を裏付ける。
【0211】
以下のプロットの各々は、異なるモデルが反復的にプルーニングされ、微調整されることを示す。プルーニングセッションは、x軸に沿った各周期で実行されており、したがって、異なる周期におけるポイント間の線は、ここでは、同じプルーニング反復にある独立したモデルのみをリンクするためのものでしかない。
【0212】
これらのプロットでは凡例が部分的に隠されており、色は上から順に(凡例では)青、オレンジ、緑、赤、黒である。黒の適合線は、Illumina製のリアルタイム分析(RTA)ソフトウェア(本明細書ではベースラインモデルとして使用される)によって、開示された深層学習モデルと同じクラスターで測定された性能を表す。
【0213】
図19は、蒸留ベースコーラのためのプルーニングされた畳み込み重みを生成する、開示された技術の一実施態様のためのボックス及び箱ひげ図を示す図である。
【0214】
図20は、蒸留ベースコーラのためのプルーニングされた畳み込みバイアスを生成する、開示された技術の一実施態様のためのボックス及び箱ひげ図を示す図である。
【0215】
図21は、正則化が畳み込み重みと畳み込みバイアスとの両方に適用される、蒸留ベースコーラのためのプルーニングされた畳み込み重みを生成する、開示された技術の一実施態様のためのボックス及び箱ひげ図を示す図である。
【0216】
図22は、正則化が畳み込み重みと畳み込みバイアスとの両方に適用されている、蒸留ベースコーラのためのプルーニングされた畳み込みバイアスを生成する、開示された技術の一実施態様のためのボックス及び箱ひげ図を示す図である。
【0217】
いくつかの実施態様では、開示される技術は、より高い学習率から始まり、より良好な蒸留モデルをもたらす代替学習スケジューラを使用する。図19図22は、モデルを蒸留する際に、カーネル正則化及びバイアス正則化の両方として、異なる正則化パラメータとl2(0.00001)上での収束とを図示している。こうすることで、蒸留モデルの精度は影響を受けないが、重み及びバイアスは、FPGAに収容可能な範囲に低減される。
【0218】
用語及び追加の実施態様
【0219】
ベースコールは、蛍光標識されたタグを検体と共に組み込む又は取り付けることを含む。検体は、ヌクレオチド又はオリゴヌクレオチドであってよく、タグは、特定のヌクレオチド型(A、C、T、又はG)であってもよい。励起光は、タグを有する検体に向けられ、タグは検出可能な蛍光シグナル又は強度発光を発する。強度発光は、検体に化学的に結合された励起タグによって放出される光子を示す。
【0220】
特許請求の範囲を含む本出願全体を通して、「画像、画像データ、又は検体及びそれらの周囲背景の強度放射を示す画像領域が使用されるとき、それらは、検体に取り付けられたタグの強度放射を指す。当業者であれば、取り付けられたタグの強度放射は、タグが取り付けられている検体の強度放射を表すか、又はそれに相当し、したがって互換的に使用されることを理解するであろう。同様に、検体の特性は、検体に取り付けられたタグ、又は取り付けられたタグからの強度放射の特性を指す。例えば、検体の中心とは、検体に取り付けられたタグによって放出される強度放射の中心を指す。別の実施例では、検体の周囲の背景とは、検体に取り付けられたタグによって放出される強度放射の周囲の背景を指す。
【0221】
特許、特許出願、記事、書籍、論文、及びウェブページが挙げられるがこれらに限定されない、本出願において引用された全ての文献及び類似材料は、そうした文献及び類似材料の形式に関わりなく、その全体が参照により明示的に組み込まれる。組み込まれた文献及び類似の材料のうちの1つ以上が、以下に限定するわけではないが、定義された用語、用語使用、記載された技術などで、本出願とは異なる、又は矛盾する場合には、本出願が優越する。
【0222】
開示される技術は、核酸テンプレート又はその相補体、例えば、DNA若しくはRNAポリヌクレオチド又は他の核酸サンプルなどの核酸サンプルから得ることができる核酸配列情報の品質及び量を改善するためにニューラルネットワークを使用する。したがって、開示される技術の特定の実施は、以前に利用可能な方法と比較して、より高いスループットのポリヌクレオチド配列決定、例えば、より高いDNA又はRNA配列データの収集速度、配列データ収集におけるより高い効率、及び/又はそのような配列データを得る低コストを提供する。
【0223】
開示される技術は、ニューラルネットワークを使用して、固相核酸クラスターの中心を識別し、そのようなクラスターの配列決定中に生成される光信号を解析して、隣接する(adjacent)、隣接する(abutting)又は重複するクラスター間で曖昧さなく区別して、単一の離散したソースクラスターに配列決定シグナルを割り当てる。したがって、これら及び関連する実施態様は、高密度クラスターレイの領域からの、配列データなどの有意義な情報の回収を可能にし、有用な情報は、重複する又は非常に近接して離間配置された隣接クラスターの影響を混乱させることに起因して、そのような領域から以前に得られなかった場合がある。重複するシグナルの効果(例えば、核酸配列決定において使用されるような)の効果を含む。
【0224】
以下により詳細に記載されるように、特定の実施態様では、本明細書で提供されるように、1つ又は複数の核酸クラスターに固定化された固体支持体を含む組成物が提供される。各クラスターは、同じ配列の複数の固定化された核酸を含み、本明細書で提供されるような検出可能な中心標識を有する識別可能な中心を有し、識別可能な中心は、クラスター内の周囲領域において固定化された核酸と区別可能である。また、識別可能な中心を有するこのようなクラスターを作製及び使用するための方法も本明細書に記載される。
【0225】
本開示の実施態様は、多数の状況での使用が見出され、その利点は、クラスター内の実質的に中心の位置の位置を識別、決定、アノテーション、記録、ないしは別の方法で割り当てる能力から得られる、多くの状況において使用が見出されるであろう。ハイスループット核酸配列決定、光学的又は他のシグナルを個別のソースクラスターに割り当てるための画像解析アルゴリズムの開発、及び固定化された核酸クラスターの中心の認識が望ましい及び有益である他の用途が望ましい。
【0226】
特定の実施態様では、本発明は、核酸配列決定(例えば、「配列決定」)などのハイスループット核酸分析に関連する方法を企図する。例示的なハイスループット核酸解析としては、非限定的に、デノボ配列決定、再配列決定、全ゲノム配列決定、遺伝子発現解析、遺伝子発現モニタリング、エピジェネティクス分析、ゲノムメチル化分析、対立遺伝子特異的プライマー伸長(Allele Specific Primer Extension、APSE)、遺伝的多様性プロファイリング、全ゲノム多型発見及び解析、単一ヌクレオチド多型解析、ハイブリダイゼーション系配列決定法などが挙げられる。当業者は、様々な異なる核酸が、本発明の方法及び組成物を使用して分析され得ることを理解するであろう。
【0227】
本発明の実施は核酸配列決定に関連して記載されているが、それらは、異なる時点で取得された画像データ、空間位置、又は他の時間的若しくは物理的観点で取得された画像データが分析される任意の分野において適用可能である。例えば、本明細書に記載される方法及びシステムは、マイクロアレイ、生物学的検体、細胞、生物などからの画像データが取得され、異なる時点又は視点で取得され、分析される、分子生物学及び細胞生物学の分野において有用である。画像は、蛍光顕微鏡法、光学顕微鏡法、共焦点顕微鏡法、光学画像化法、磁気共鳴画像化法、トモグラフィー走査などが挙げられるが、これらに限定されない、技術分野において既知の任意の数の技術を使用して得ることができる。別の例として、本明細書に記載される方法及びシステムは、監視、空中、又は衛星撮像技術などによって取得された画像データが、異なる時点又は視点で取得され、分析される場合に適用することができる。本方法及びシステムは、視野内で取得された画像を分析するのに特に有用であり、この視野内で、観察される検体は、視野内の互いに対して同じ場所に留まる。しかしながら、検体は、別個の画像で異なる特性を有してもよく、例えば、検体は、視野の別々の画像において異なるように見える場合がある。例えば、検体は、異なる画像で検出された所与の検体の色とは異なるように見える場合があり、異なる画像内の所与の検体のために検出された信号の強度の変化、又は更には、1つの画像中の所与の検体の信号の外観、及び別の画像内の検体の信号の消失を示し得る。
【0228】
本明細書に記載される例は、学術分析又は商業的分析のための様々な生物学的又は化学的プロセス及びシステムにおいて使用されてもよい。より具体的には、本明細書に記載される例は、指定された反応を示すイベント、特性、品質、又は特性を検出することが望ましい様々なプロセス及びシステムにおいて使用されてもよい。例えば、本明細書に記載される例としては、光検出デバイス、バイオセンサー、及びそれらの構成要素、並びにバイオセンサーと共に動作するバイオアッセイシステムが挙げられる。いくつかの実施例では、装置、バイオセンサー、及びシステムは、フローセルと、実質的に一体型構造で一緒に(取り外し可能に又は固定的に)結合された1つ以上の光センサーと、を含み得る。
【0229】
装置、バイオセンサー、及びバイオアッセイシステムは、個別に又は集合的に検出され得る複数の指定された反応を実施するように構成されてもよい。装置、バイオセンサー、及びバイオアッセイシステムは、複数の指定された反応が並行して生じる多数のサイクルを実行するように構成されてもよい。例えば、装置、バイオセンサー、及びバイオアッセイシステムを使用して、酵素操作及び光又は画像検出/捕捉の反復サイクルを通して、DNA特徴の高密度配列を配列することができる。したがって、デバイス、バイオセンサー、及びバイオアッセイシステム(例えば、1つ以上のカートリッジを介した)は、試薬又は他の反応成分を反応溶液中に送達する1つ以上のマイクロ流体チャネル、バイオセンサー、及びバイオアッセイシステムを含んでもよい。いくつかの実施例では、反応溶液は、約5以下、又は約4以下、又は約3以下のpHを含むなど、実質的に酸性であってもよい。いくつかの他の実施例では、反応溶液は、約8以上、又は約9以上、又は約10以上のpHを含むなど、実質的にアルカリ性/塩基性であってもよい。本明細書で使用するとき、用語「酸性」及びその文法的変異体は、約7未満のpH値を指し、用語「塩基性」、「アルカリ性」及びその文法的変異型は、約7を超えるpH値を指す。
【0230】
いくつかの実施例では、反応部位は、均一又は反復パターンなどの所定の方法で提供又は離間される。いくつかの他の実施例では、反応部位はランダムに分布している。反応部位のそれぞれは、関連する反応部位からの光を検出する1つ以上の光ガイド及び1つ以上の光センサーと関連付けることができる。いくつかの実施例では、反応部位は、指定された反応を少なくとも部分的に区画化し得る反応凹部又はチャンバ内に位置する。
【0231】
本明細書で使用するとき、「指定された反応」は、対象となる検体などの対象となる化学物質又は生物学的物質の化学的、電気的、物理的、又は光学的特性(又は品質)のうちの少なくとも1つの変化を含む。特定の実施例では、指定された反応は、例えば、蛍光標識生体分子を対象とする蛍光標識生体分子の組み込みなどの正の結合事象である。より一般的には、指定された反応は、化学変換、化学変化、又は化学的相互作用であってもよい。指定された反応はまた、電気特性の変化であってもよい。特定の実施例では、指定された反応は、検体と蛍光標識された分子を組み込むことを含む。検体はオリゴヌクレオチドであってもよく、蛍光標識分子はヌクレオチドであってもよい。励起光が標識ヌクレオチドを有するオリゴヌクレオチドに向けられ、蛍光団が検出可能な蛍光シグナルを発するときに、指定された反応が検出され得る。代替例では、検出された蛍光は、化学発光又は生物発光の結果である。指定された反応はまた、例えば、ドナーフルオロフォアをアクセプタ蛍光団に近接させることによって蛍光(又はForster)共鳴エネルギー移動(Fluorescence Resonance Energy Transfer、FRET)を増加させることができ、ドナーとアクセプタ蛍光団とを離すことによってFRETを減少させ、消光剤をフルオロフォアから離すことによって蛍光を増加させるか、又は消光剤及び蛍光団を共局在させることによって蛍光を減少させることができる。
【0232】
本明細書で使用するとき、「反応溶液」、「反応成分」又は「反応物質」は、少なくとも1つの指定された反応を得るために使用され得る任意の物質を含む。例えば、潜在的な反応成分としては、例えば、試薬、酵素、サンプル、他の生体分子、及び緩衝液が挙げられる。反応成分は、溶液中の反応部位に送達されてもよく、及び/又は反応部位で固定されてもよい。反応成分は、反応部位で固定化された対象検体などの別の物質と直接又は間接的に相互作用し得る。上記のように、反応溶液は、実質的に酸性であってもよい(すなわち、比較的高い酸性度を含む)(例えば、約5以下のpH、約4以下のpHを含む)、又は約3以下のpH、又は実質的にアルカリ性/塩基性(すなわち、比較的高いアルカリ性/塩基性を含む)(例えば、約8以上のpH、約9以上のpH、又は約10以上のpHを含む)。
【0233】
本明細書で使用するとき、用語「反応部位」は、少なくとも1つの指定された反応が生じ得る局所的領域である。反応部位は、物質がその上に固定され得る反応構造又は基材の支持表面を含んでもよい。例えば、反応部位は、その上に反応成分、例えば、その上に核酸のコロニーを有する反応構造(フローセルのチャネル内に配置され得る)の表面を含んでもよい。いくつかのこのような実施例では、コロニー中の核酸は同じ配列を有し、例えば、一本鎖又は二本鎖テンプレートのクローンコピーである。しかしながら、いくつかの実施例では、反応部位は、例えば、一本鎖又は二本鎖形態で、単一の核酸分子のみを含有してもよい。
【0234】
複数の反応部位は、反応構造に沿ってランダムに分布してもよく、又は所定の様式で配置されてもよい(例えば、マイクロアレイなどのマトリックス内の並列)。反応部位はまた、指定された反応を区画化するように構成された空間領域又は容積を少なくとも部分的に画定する反応室又は凹部を含むことができる。本明細書で使用するとき、用語「反応チャンバ」又は「反応凹部」は、支持構造体の画定された空間領域(多くの場合、流路と流体連通している)を含む。反応凹部は、周囲環境又は空間領域から少なくとも部分的に分離されてもよい。例えば、複数の反応凹部は、検出表面などの共有された壁によって互いに分離されてもよい。より具体的な例として、反応凹部は、検出表面の内面によって画定された窪み、ウェル、溝、空洞、又は窪みを含むナノセルであってもよく、ナノセルが流路と流体連通することができるように、開口部又は開口部(すなわち、開側面である)を有することができる。
【0235】
いくつかの実施例では、反応構造の反応凹部は、固体がその中に完全に又は部分的に挿入され得るように、固体(半固体を含む)に対してサイズ及び形状を定められる。例えば、反応凹部は、捕捉ビーズを収容するような大きさ及び形状であってもよい。捕捉ビーズは、クローン的に増幅されたDNA又はその上の他の物質を有してもよい。あるいは、反応凹部は、およその数のビーズ又は固体基材を受容するような大きさ及び形状であってもよい。別の例として、反応凹部は、拡散又はフィルター流体又は反応凹部に流入し得る溶液を制御するように構成された多孔質ゲル又は物質で充填されてもよい。
【0236】
いくつかの実施例では、光センサー(例えば、フォトダイオード)は、対応する反応部位と関連付けられる。反応部位に関連する光センサーは、関連する反応部位において指定された反応が生じたときに、少なくとも1つの光ガイドを介して、関連する反応部位からの光放射を検出するように構成されている。いくつかの場合では、複数の光センサー(例えば、光検出又はカメラデバイスのいくつかのピクセル)は、単一の反応部位に関連付けられてもよい。他の場合では、単一の光センサー(例えば、単一のピクセル)は、単一の反応部位に、又は反応部位の群と関連付けられてもよい。バイオセンサーの光センサー、反応部位、及び他の特徴は、光の少なくとも一部が反射されることなく光センサーによって直接検出されるように構成されてもよい。
【0237】
本明細書で使用するとき、「生物学的又は化学物質」は、生体分子、対象試料、対象検体、及び他の化学化合物を含む。生物学的物質又は化学物質を使用して、他の化学化合物を検出、識別、若しくは分析するか、又は他の化学化合物を研究又は分析するための仲介として機能してもよい。特定の実施例では、生物学的物質又は化学物質は、生体分子を含む。本明細書で使用するとき、「生体分子」は、バイオポリマー、ヌクレオチド、核酸、ポリヌクレオチド、オリゴヌクレオチド、タンパク質、酵素、ポリペプチド、抗体、抗原、リガンド、受容体、多糖類、炭水化物、ポリリン酸、細胞、組織、生物、若しくはそれらの断片、又は前述の種の類似体若しくは模倣体などの任意の他の生物学的に活性な化学化合物のうちの少なくとも1つを含む。更なる例では、生物学的若しくは化学物質又は生体分子は、酵素又は試薬などの別の反応の生成物、例えば、ピロ配列決定反応においてピロリン酸を検出するために使用される酵素又は試薬などの酵素又は試薬の生成物を検出する。ピロホスフェート検出に有用な酵素及び試薬は、例えば、参照によりその全体が組み込まれる米国特許公開第2005/0244870号に記載されている。
【0238】
生体分子、試料、及び生物学的物質又は化学物質は、天然に存在しても合成であってもよく、反応凹部又は領域内の溶液又は混合物中に懸濁されてもよい。生体分子、試料、及び生物学的物質又は化学物質もまた、固体相又はゲル材料に結合されてもよい。生体分子、試料、及び生物学的物質又は化学物質はまた、医薬組成物を含んでもよい。場合によっては、対象とする生体分子、試料、及び生物学的物質又は化学物質は、標的、プローブ、又は検体と呼ばれる場合がある。
【0239】
本明細書で使用するとき、「バイオセンサー」は、反応部位又は反応部位に近接して生じる指定された反応を検出するように構成された複数の反応部位を有する反応構造を含む装置を含む。バイオセンサーは、固体光検出装置又は「撮像」デバイス(例えば、CCD又はCMOS光検出デバイス)、及び任意選択的に、それに取り付けられたフローセルを含んでもよい。フローセルは、反応部位と流体連通する少なくとも1つの流路を含み得る。1つの特定の例として、バイオセンサーは、生物学的アッセイシステムに流体的かつ電気的に結合するように構成される。バイオアッセイシステムは、所定のプロトコル(例えば、配列番号合成)に従って反応部位に反応溶液を送達し、複数の撮像事象を実施してもよい。例えば、バイオアッセイシステムは、反応溶液を反応部位に沿って流すことができる。反応溶液のうちの少なくとも1つは、同じ又は異なる蛍光標識を有する4種類のヌクレオチドを含んでもよい。ヌクレオチドは、反応部位の対応するオリゴヌクレオチドなどに結合してもよい。次いで、バイオアッセイシステムは、励起光源(例えば、発光ダイオード(LED)などの固体光源)を使用して反応部位を照明することができる。励起光は、波長の範囲を含む所定の波長又は複数の波長を有してもよい。入射励起光によって励起された蛍光標識は、光センサーによって検出され得る発光信号(例えば、励起光とは異なる波長又は波長の光、及び潜在的に互いに異なる)を提供することができる。
【0240】
本明細書で使用するとき、用語「固定化された」は、生体分子又は生物学的物質又は化学物質に関して使用されるとき、生体分子又は生物学的物質又は化学物質を、光検出デバイス又は反応構造の検出表面などの表面に実質的に付着させることを含む。例えば、生体分子又は生物学的物質又は化学物質は、非共有結合(例えば、静電力、ファンデルワールス、及び疎水性界面の脱水)を含む吸着技術、並びに官能基又はリンカーが生体分子の表面への結合を促進する共有結合技術を含む吸着技術を用いて、反応構造の表面に固定化されてもよい。生体分子又は生物学的物質若しくは化学物質を表面に固定化することは、表面の特性、生体分子又は生物学的物質若しくは化学物質を担持する液体媒体、並びに生体分子又は生物学的物質若しくは化学物質自体の特性に基づいてもよい。いくつかの場合において、表面は、生体分子(又は生物学的物質又は化学物質)を表面に固定化するのを容易にするために、表面を官能化(例えば、化学的又は物理的に修飾)してもよい。
【0241】
いくつかの実施例では、核酸は、その反応凹部の表面などの反応構造に固定化することができる。特定の実施例では、本明細書に記載される装置、バイオセンサー、バイオアッセイシステム及び方法は、天然ヌクレオチド、及び天然ヌクレオチドと相互作用するように構成された酵素の使用を含んでもよい。天然ヌクレオチドとしては、例えば、リボヌクレオチド又はデオキシリボヌクレオチドが挙げられる。天然ヌクレオチドは、一リン酸、二リン酸、又は三リン酸形態であってよく、アデニン(A)、チミン(T)、ウラシル(U)、グアニン(G)、又はシトシン(C)から選択される塩基を有することができる。しかしながら、上記ヌクレオチドの非天然ヌクレオチド、修飾ヌクレオチド、又は類似体を使用することができることが理解されるであろう。
【0242】
上記のように、生体分子又は生物学的物質又は化学物質は、反応構造の反応凹部内の反応部位に固定されてもよい。このような生体分子又は生物学的物質は、干渉嵌め、接着、共有結合、又は捕捉によって、反応凹部内に物理的に保持又は固定化されてもよい。反応凹部内に配置され得る物品又は固体の例としては、ポリマービーズ、ペレット、アガロースゲル、粉末、量子ドット、又は反応チャンバ内で圧縮及び/又は保持され得る他の固体が挙げられる。特定の実施態様では、反応凹部は、DNAオリゴヌクレオチドに共有結合することができるヒドロゲル層でコーティング又は充填されてもよい。特定の実施例では、DNAボールなどの核酸超構造は、例えば、反応凹部の内面に取り付けることによって、又は反応凹部内に液体中に滞留することによって、反応凹部内又は反応凹部に配置することができる。DNAボール又は他の核酸超構造を実施することができ、次いで、反応凹部内又は反応凹部に配置することができる。あるいは、DNAボールは、反応凹部においてその場で合成することができる。反応凹部内に固定された物質は、固体、液体、又は気体状態であり得る。
【0243】
本明細書で使用するとき、用語「検体」は、相対位置に従って他の点又は領域と区別することができるパターンの点又は領域を意味することを意図する。個々の検体は、特定の種類の1つ以上の分子を含むことができる。例えば、検体は、特定の配列を有する単一の標的核酸分子を含むことができ、又は検体は、同じ配列(及び/又はその相補的配列)を有するいくつかの核酸分子を含むことができる。パターンの異なる検体である異なる分子は、パターン内の検体の場所に従って互いに分化させることができる。例示的な検体としては、基材中のウェル、基材中又は基材上のビーズ(又は他の粒子)、基材からの突出部、基材上の隆起部、基材上のゲル材料のパッド、又は基材内のチャネルが挙げられる。
【0244】
検出、特徴付け、又は識別される様々な標的検体のいずれも、本明細書に記載される装置、システム、又は方法で使用することができる。例示的な検体としては、限定するものではないが、核酸(例えば、DNA、RNA又はそれらの類似体)、タンパク質、多糖類、細胞、抗体、エピトープ、受容体、リガンド、酵素(例えば、キナーゼ、ホスファターゼ又はポリメラーゼ)、小分子薬物候補、細胞、ウイルス、生物などが挙げられるが、これらに限定されない。
【0245】
用語「検体」、「核酸」、「核酸分子」、及び「ポリヌクレオチド」という用語は、本明細書において互換的に使用される。様々な実施態様では、核酸は、特定の種類の核酸分析のために、本明細書で提供されるようなテンプレート(例えば、核酸テンプレート、又は核酸テンプレートに相補的な核酸相補体)として使用されてもよく、核酸増幅、核酸発現解析、及び/又は核酸配列決定、又はこれらの好適な組み合わせが挙げられるが、これらに限定されない。特定の実施における核酸としては、例えば、3’-5’ホスホジエステル中のデオキシリボヌクレオチドの直鎖ポリマー、又はデオキシリボ核酸(DeoxyriboNucleic Acid、DNA)、例えば、一本鎖及び二本鎖DNA、ゲノムDNA、コピーDNA若しくは相補的DNA(complementary DNA、cDNA)、組み換えDNA、又は任意の形態の合成DNA若しくは修飾DNAが挙げられる。他の実施態様では、核酸としては、例えば、3’-5’ホスホジエステル中のリボヌクレオチドの直鎖ポリマー、又はリボ核酸(RiboNucleic Acid、RNA)などの他の結合、例えば、一本鎖及び二本鎖RNA、メッセンジャー(mRNA)、コピーRNA又は相補的RNA(complementary RNA、cRNA)、あるいはスプライシングされたmRNA、リボソームRNA、小核RNA(small nucleolar RNA、snoRNA)、マイクロRNA(microRNA、miRNA)、低干渉RNA(small interfering RNA、sRNA)、ピウイRNA(piwi RNA、piRNA)、又は任意の形態の合成若しくは修飾RNA。本発明の組成物及び方法において使用される核酸は、長さが変化してもよく、無傷又は完全長の分子若しくは断片、又はより大きい核酸分子のより小さい部分であってもよい。特定の実施態様では、核酸は、本明細書の他の箇所に記載されるように、1つ以上の検出可能な標識を有してもよい。
【0246】
用語「検体」、「クラスター」、「核酸クラスター」、「核酸コロニー」、及び「DNAクラスター」は互換的に使用され、固体支持体に結合された核酸テンプレート及び/又はその相補体の複数のコピーを指す。典型的には、特定の好ましい実施態様では、核酸クラスターは、それらの5’末端を介して固体支持体に結合されたテンプレート核酸及び/又はその相補体の複数のコピーを含む。核酸クラスターを構成する核酸鎖のコピーは、一本鎖又は二本鎖形態であってよい。クラスター内に存在する核酸テンプレートのコピーは、例えば、標識部分の存在に起因して、互いに異なる対応する位置にヌクレオチドを有することができる。対応する位置はまた、異なる化学構造を有するが、ウラシル及びチミンの場合など、類似のワトソンクリック塩基対形成特性を有するアナログ構造を含むことができる。
【0247】
核酸のコロニーはまた、「核酸クラスター」と呼ばれることもある。核酸コロニーは、本明細書の他の箇所で更に詳細に記載されるように、クラスター増幅又はブリッジ増幅技術によって任意に作成することができる。標的配列の複数の反復は、ローリングサークル増幅手順を使用して作成された混乱剤などの単一の核酸分子中に存在し得る。
【0248】
本発明の核酸クラスターは、使用される条件に応じて、異なる形状、サイズ、及び密度を有することができる。例えば、クラスターは、実質的に円形、多面、ドーナツ形、又はリング形状の形状を有することができる。核酸クラスターの直径は、約0.2μm~約6μm、約0.3μm~約4μm、約0.4μm~約3μm、約0.5μm~約2μm、約0.75μm~約1.5μm、又は任意の介在直径であるように設計することができる。特定の実施態様において、核酸クラスターの直径は、約0.5μm、約1μm、約1.5μm、約2μm、約2.5μm、約3μm、約4μm、約5μm、又は約6μmである。核酸クラスターの直径は、クラスターの産生において実施される増幅サイクルの数、核酸テンプレートの長さ、又はクラスターが形成される表面に付着したプライマーの密度を含むが、これらに限定されない多数のパラメータによって影響され得る。核酸クラスターの密度は、典型的には、0.1/mm、1/mm、10/mm、100/mm、1,000/mm、10,000/mm~100,000/mmの範囲であるように設計することができる。本発明は、一部では、より高密度の核酸クラスター、例えば、100,000/mm~1,000,000/mm、及び1,000,000/mm~10,000,000/mmを更に企図する。
【0249】
本明細書で使用するとき、「検体」は、検体又は視野内の対象領域である。マイクロアレイデバイス又は他の分子分析デバイスに関連して使用される場合、検体は、類似又は同一の分子によって占有される領域を指す。例えば、検体は、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施態様では、検体は、試料上の物理的領域を占有する任意の要素又は要素群であり得る。例えば、検体は、ランドのパセル、水の本体などであってもよい。検体が撮像されると、各検体は、一部の領域を有する。したがって、多くの実施態様では、検体は、単に1つのピクセルではない。
【0250】
検体間の距離は、任意の数の方法で説明することができる。いくつかの実施態様では、検体間の距離は、1つの検体の中心から別の検体の中心まで説明することができる。他の実施態様では、距離は、1つの検体の縁部から別の検体の縁部まで、又は各検体の最も外側の識別可能な点間に記載することができる。検体の縁部は、チップ上の理論的若しくは実際の物理的境界、又は検体の境界内のいくつかの点として説明することができる。他の実施態様では、距離は、試料上の固定点、又は試料の画像に関して説明することができる。
【0251】
一般に、分析方法に関して、いくつかの実施態様が本明細書に記載される。自動又は半自動化方法で方法を実行するためのシステムも提供されることが理解されるであろう。したがって、本開示は、ニューラルネットワークベースのテンプレート生成及びベースコールシステムを提供し、システムは、プロセッサと、記憶デバイスと、画像分析のためのプログラムと、を含み、プログラムは、本明細書に記載の方法のうちの1つ以上を実行するための命令を含む。したがって、本明細書に記載される方法は、例えば、本明細書に記載されるか又は技術分野において既知の構成要素を有するコンピュータ上で実行することができる。
【0252】
本明細書に記載される方法及びシステムは、様々なオブジェクトのうちのいずれかを分析するのに有用である。特に有用な物体は、固体担体又は付着した検体を有する固相表面である。本明細書に記載される方法及びシステムは、xy平面における検体の繰り返しパターンを有する物体と共に使用される場合、利点を提供する。一例は、細胞、ウイルス、核酸、タンパク質、抗体、炭水化物、小分子(薬物候補など)、生物学的活性分子、又は他の対象検体の集合を有するマイクロアレイである。
【0253】
核酸及びポリペプチドなどの生物学的分子を有する検体を有するアレイの用途の数が増えてきた。このようなマイクロアレイは、典型的には、デオキシリボ核酸(DNA)又はリボ核酸(RNA)プローブが挙げられる。これらは、ヒト及び他の生物に存在するヌクレオチド配列に特異的である。特定の用途では、例えば、個々のDNA又はRNAプローブをアレイの個々の検体に取り付けることができる。既知のヒト又は生物からのものなどの試験サンプルは、標的核酸(例えば、遺伝子断片、mRNA、又はアンプリコン)が配列中のそれぞれの検体で相補的プローブにハイブリダイズするように、アレイに曝露することができる。プローブは、標的特異的プロセス(例えば、標的核酸上に存在する標識に起因して、又は検体においてハイブリダイズした形態で存在するプローブ又は標的の酵素標識に起因して)標識することができる。次いで、検体の上の特定の光の周波数を走査して、どの標的核酸が試料中に存在するかを識別することによって検査することができる。
【0254】
生物学的マイクロアレイは、遺伝子配列決定及び類似の用途に使用され得る。一般に、遺伝子配列決定は、DNA又はRNAの断片などの標的核酸の長さのヌクレオチドの順序を決定することを含む。比較的短い配列は、典型的には、各検体において配列決定され、得られた配列情報は、様々な生物情報科学法において使用されて、フラグメントが由来する多くの広範な長さの遺伝物質の配列を確実に決定するために、様々な生物情報科学法において使用されてもよい。特徴的断片の自動化されたコンピュータベースのアルゴリズムが開発されており、ゲノムマッピング、遺伝子の識別、及びそれらの機能などにおいて、より最近使用されてきた。マイクロアレイは、多数の変異体が存在するため、ゲノム含有量を特徴付けるのに特に有用であり、このことは、個々のプローブ及び標的に対して多くの実験を実施する代替物であるため、ゲノム含有量を特徴付けるのに特に有用である。マイクロアレイは、実用的な方法でこのような調査を実施するための理想的なフォーマットである。
【0255】
技術分野において既知の様々な検体アレイ(「マイクロアレイ」とも呼ばれる)のいずれも、本明細書に記載される方法又はシステムにおいて使用することができる。典型的なアレイは、それぞれが個々のプローブ又はプローブの集団を有する検体を含む。後者の場合、各検体におけるプローブの集団は、典型的には、単一種のプローブを有する均質である。例えば、核酸配列の場合、各検体は、それぞれ共通の配列を有する複数の核酸分子を有することができる。しかしながら、いくつかの実施態様では、アレイの各検体における集団は、不均質であり得る。同様に、タンパク質配列は、単一のタンパク質又はタンパク質の集団を有する検体を有することができ、典型的には、同じアミノ酸配列を有するが、必ずしもそうではない。プローブは、例えば、プローブを表面に共有結合することによって、又はプローブと表面との非共有相互作用(複数可)を介して、アレイの表面に取り付けることができる。いくつかの実施態様では、核酸分子などのプローブは、ゲル層を介して表面に付着させることができ、例えば、米国特許出願第13/784,368号及び米国特許出願公開第2011/0059865(A1)号に記載されており、これらは参照により本明細書に組み込まれる。
【0256】
例示的なアレイとしては、限定するものではないが、Illumina,Inc(San Diego,Calif.)から入手可能なBeadChipアレイ又は他のもの、例えば、プローブが、表面上に存在するビーズ(例えば、表面上のウェル内のビーズ)に取り付けられる、以下、米国特許第6,266,459号、米国特許第6,355,431号、米国特許第6,770,441号米国特許第6,859,570号、若しくは米国特許第7,622,294号、又は国際公開第00/63437号に、記載されたものなどの他のものが挙げられ、これらの各々は、参照により本明細書に組み込まれる。使用することができる市販のマイクロアレイの更なる例としては、例えば、VLSIPS(商標)(Very Large Scale Immobilized Polymer Synthesis)技術と呼ばれることがある技術に従って合成されたAffymetrix(登録商標)GeneChip(登録商標)マイクロアレイ又は他のマイクロアレイが挙げられる。スポットされたマイクロアレイはまた、本開示のいくつかの実施態様による方法又はシステムにおいて使用することができる。例示的なスポッティングされたマイクロアレイは、Amersham Biosciencesから入手可能なCodeLink(商標)Arrayである。有用な別のマイクロアレイは、Agilent Technologiesから入手可能なSurePrintTM Technologyなどのインクジェット印刷法を使用して製造されるものである。
【0257】
他の有用な配列としては、核酸配列決定用途で使用されるものが挙げられる。例えば、ゲノムフラグメント(多くの場合、クラスターと称される)のアンプリコンを有するアレイは、Bentley et al.,Nature 456:53-59(2008)、国際公開第04/018497号、国際公開第91/06678号、国際公開第07/123744号、米国特許第7,329,492号、米国特許第7,211,414号米国特許第7,315,019号米国特許7,405,281号若しくは米国特許7,057,026号、又は米国特許出願公開第2008/0108082(A1)号に記載されており、これらは参照により本明細書に組み込まれる。核酸配列決定に有用な別の種類の配列は、エマルションPCR技術から生成される粒子の配列である。実施例は、Dressman et al.,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003)、国際公開第05/010145号、米国特許出願公開第2005/0130173号明細書又は米国特許出願公開第2005/0064460号に記載されており、これらの各々は、その全体が参照により本明細書に組み込まれる。
【0258】
核酸配列に使用される配列は、多くの場合、核酸検体のランダムな空間パターンを有する。例えば、Illumina Incから入手可能なHiSeq又はMiSeq配列決定プラットフォーム(San Diego,Calif.)は、核酸配列がランダム播種、続いてブリッジ増幅によって形成されるフローセルを利用する。しかしながら、パターン化された配列は、核酸配列又は他の分析用途にも使用することができる。パターン化されたアレイの例、それらの製造方法及びその使用方法は、米国特許出願第13/787,396号、米国特許第13/783,043号、米国特許第13/784,368号、米国特許出願公開第2013/0116153(A1)号明細書、及び米国特許出願公開第2012/0316086(A1)号明細書に記載されており、これらは参照により本明細書に組み込まれる。このようなパターン化された配列の検体を使用して、単一の核酸テンプレート分子を捕捉して、例えば、ブリッジ増幅を介して、均質なコロニーの後続の形成を行うことができる。このようなパターン化された配列は、核酸配列決定用途に特に有用である。
【0259】
アレイ(又は本明細書の方法又はシステムで使用される他の物体)上の検体のサイズは、特定の用途に適するように選択することができる。例えば、いくつかの実施態様では、アレイの検体は、単一の核酸分子のみを収容するサイズを有することができる。このサイズ範囲の複数の検体を有する表面は、単一分子分解能で検出するための分子の配列を構築するのに有用である。このサイズ範囲の検体もまた、核酸分子のコロニーをそれぞれ含む検体を有するアレイでの使用にも有用である。したがって、アレイの検体はそれぞれ、約1mm以下、約500μm以下、約100μm以下、約10μm以下、約1μm以下、約500nm以下、又は約100nm以下、約10nm以下、約5nm以下、又は約1nm以下の面積を有することができる。代替的に又は追加的に、アレイの検体は、約1mm以上、約500μm以上、約100μm以上、約10μm以上、約1μm以上、約500nm以上、約100nm以上、約10nm以上、約5nm以上、又は約1nm以上である。実際に、検体は、上記に例示したものから選択される上限と下限との間の範囲内の大きさを有することができる。表面の検体のいくつかのサイズ範囲が核酸及び核酸のスケールに関して例示されてきたが、これらのサイズ範囲の検体は、核酸を含まない用途に使用できることが理解されるであろう。検体のサイズは、核酸用途に使用されるスケールに必ずしも限定される必要はないことが更に理解されるであろう。
【0260】
検体のアレイなどの複数の検体を有する物体を含む実施例では、検体は、互いの間の空間で分離されている、別個のものとすることができる。本発明において有用なアレイは、最大で100μm、50μm、10μm、5μm、1μm、0.5μm以下の縁部から縁部までの距離によって分離される検体を有することができる。代替的に又は追加的に、アレイは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm、以上の縁部から縁部までの距離によって分離される検体を有することができる。これらの範囲は、検体の平均縁部間隔及び縁部間隔、並びに最小又は最大間隔に適用することができる。
【0261】
いくつかの実施態様では、アレイの検体は、別個である必要はなく、代わりに、隣接する検体は互いに当接することができる。検体が別個であるか否かに関わらず、検体及び/又は検体のピッチの大きさは、アレイが所望の密度を有することができるように変化し得る。例えば、規則的なパターンにおける平均検体ピッチは、最大で100μm、50μm、10μm、5μm、1μm、0.5μm以下であり得る。代替的に又は追加的に、規則的なパターンにおける平均検体ピッチは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm、以上であり得る。これらの範囲は、規則的なパターンの最大ピッチ又は最小ピッチにも適用することができる。例えば、規則的なパターンの最大検体ピッチは、100μm以下、50μm以下、10μm以下、5μm以下、1μm以下、0.5μm以下とすることができ、かつ/又は規則的なパターンにおける最小検体ピッチは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm、以上であり得る。
【0262】
アレイ内の検体の密度は、単位面積当たりに存在する検体の数に関しても理解され得る。例えば、アレイに関する検体の平均密度は、少なくとも約1x10検体/mm、1x10検体/mm、1x10検体/mm、1x10検体/mm、1x10検体/mm、1x10検体/mm、1x10検体/mm、又は1x10検体/mm以上であり得る。あるいは、又はそれに加えて、アレイに関する検体の平均密度は、最大で約1x10検体/mm、1x10検体/mm、1x10検体/mm、1x10検体/mm、1x10検体/mm、1x10検体/mm、又は1x10検体/mm以下であり得る。
【0263】
上記の範囲は、例えば、検体のアレイの全て又は一部を含む規則的なパターンの全て又は一部に適用することができる。
【0264】
パターン内の検体は、様々な形状のいずれかを有することができる。例えば、アレイの表面上などの2次元平面で観察される場合、検体は、丸みを帯びた、円形、楕円形、矩形、正方形、対称、非対称、三角形、多角形などに見える場合がある。検体は、例えば六角形又は直線パターンを含む規則的な繰り返しパターンで配置することができる。パターンは、所望のレベルのパッキングを達成するように選択され得る。例えば、円形検体は、六角形の配置で最適に充填される。当然のことながら、他の包装構成もまた、円形検体のために使用することができ、逆もまた同様である。
【0265】
パターンは、パターンの最小幾何学的単位を形成するサブセット内に存在する検体の数に関して特徴付けることができる。サブセットは、例えば、少なくとも約2、3、4、5、6、10以上の検体を含み得る。検体のサイズ及び密度に応じて、幾何学的単位は、1mm、500μm、100μm、50μm、10μm、1μm、500nm、100nm、50nm、10nm以下の面積を占めることができる。代替的に又は追加的に、幾何学的単位は、10nm、50nm、100nm、500nm、1μm、10μm、50μm、100μm、500μm、1mm以上の面積を占めることができる。形状、サイズ、ピッチなどの幾何学的単位における検体の特性は、アレイ又はパターンの検体に関して、より一般的に本明細書に記載されるものから選択することができる。
【0266】
検体の規則的なパターンを有するアレイは、検体の相対的な場所に対して順序付けられるが、各検体の1つ以上の他の特性に対してランダムであってもよい。例えば、核酸配列の場合、核酸検体は、それらの相対的な位置に関して規則的であるが、任意の特定の検体に存在する核酸種に関する配列の知識に関してランダムであってもよい。より具体的な例として、テンプレート核酸を有する検体の反復パターンを播種し、各検体でテンプレートを増幅して、検体においてテンプレートのコピーを形成することによって形成される核酸配列(例えば、クラスター増幅又はブリッジ増幅を介して)は、核酸検体の規則的なパターンを有するが、配列にわたる核酸の配列の分布に関してランダムであろう。したがって、アレイ上の核酸材料の存在の検出は、検体の繰り返しパターンをもたらすことができるのに対し、配列特異的検出は、アレイにわたる信号の非反復分布をもたらすことができる。
【0267】
本明細書におけるパターン、順序、ランダム性などの説明は、アレイ上の検体などの物体上の検体にも関するだけでなく、画像中の検体にも関連することが理解されるであろう。したがって、パターン、順序、ランダム性などは、限定するものではないが、グラフィカルユーザーインターフェース又は他の出力デバイスなどのコンピュータ可読媒体又はコンピュータ構成要素を含むがこれらに限定されない、画像データを記憶、操作、又は通信するために使用される様々なフォーマットのうちのいずれかに存在することができる。
【0268】
本明細書で使用するとき、用語「画像」は、オブジェクトの全て又は一部の表現を意味することを意図する。表現は、光学的に検出された再現であり得る。例えば、蛍光、発光、散乱、又は吸収信号から画像を得ることができる。画像内に存在するオブジェクトの部分は、物体の表面又は他のxy面であり得る。典型的には、画像は2次元表現であるが、場合によっては、画像内の情報は、3つ以上の次元から導出することができる。画像は、光学的に検出された信号を含む必要はない。非光信号を代わりに存在させることができる。画像は、本明細書の他の箇所に記載されるもののうちの1つ以上などの、コンピュータ可読フォーマット又は媒体に提供することができる。
【0269】
本明細書で使用するとき、「画像」は、試料又は他の物体の少なくとも一部分の再現又は表現を指す。いくつかの実施態様では、再現は、例えばカメラ又は他の光学検出器によって生成される光再現である。再現は、非光学的再現、例えば、ナノ細孔検体のアレイから得られる電気信号の表現、又はイオン感応性CMOS検出器から得られた電気信号の表現であり得る。特定の実施態様では、非光学的再現性は、本明細書に記載される方法又は装置から除外され得る。画像は、例えば、100μm、50μm、10μm、5μm、1μm、又は0.5μm未満離れたものを含む、様々な間隔のいずれかで存在する検体の検体を区別することができる解像度を有することができる。
【0270】
本明細書で使用するとき、「取得」、「取得」、及び同様の用語は、画像ファイルを取得するプロセスの任意の部分を指す。いくつかの実施態様では、データ取得は、標本の画像を生成することと、標本内の信号を探すことと、信号の画像を探すか又は生成するように検出デバイスに指示することと、画像ファイルの更なる分析又は変換のための命令、及び画像ファイルの任意の数の変換又は操作のための命令を与えることと、を含むことができる。
【0271】
本明細書で使用するとき、用語「テンプレート」は、信号又は検体間の場所又は関係の表現を指す。したがって、いくつかの実施態様では、テンプレートは、検体中の検体に対応する信号の表現を有する物理的グリッドである。いくつかの実施態様では、テンプレートは、チャート、テーブル、テキストファイル、又は検体に対応する場所を示す他のコンピュータファイルであり得る。本明細書に提示される実施態様では、異なる基準点で捕捉された試料の画像のセットにわたって検体の場所を追跡するためにテンプレートが生成される。例えば、テンプレートは、別の検体に対する1つの検体の方向及び/又は距離を記述するx、y座標、又は一連の値であり得る。
【0272】
本明細書で使用するとき、用語「標本」は、画像が取り込まれる物体又は物体の領域を指すことができる。例えば、画像が土壌の表面から撮影される実施例では、ランドのパセルは、標本であり得る。生体分子の分析がフローセル内で行われる他の実施態様では、フローセルは、任意の数のサブディビジョンに分割されてもよく、これらのそれぞれは検体であってもよい。例えば、フローセルは、様々な流路又はレーンに分割されてもよく、各レーンは、画像化される2、3、4、5、6、7、8、9、10、20、30、40、50、60 70、80、90、100、110、120、140、160、180、200、400、600、800、1000個以上の別個の領域に更に分割され得る。フローセルの一例は8つのレーンを有し、各レーンは、120個の標本又はタイルに分割されている。別の実施態様では、試料は、複数のタイル、又は更にはフローセル全体で作製されてもよい。したがって、各検体の画像は、撮像されるより大きい表面の領域を表すことができる。
【0273】
本明細書に記載される範囲及び連続数リストへの言及は、列挙された数だけではなく、列挙された数字間の全ての実数を含むことが理解されるであろう。
【0274】
本明細書で使用するとき、「参照点」は、画像間の任意の時間的又は物理的区別を指す。好ましい別の実施態様では、基準点は時間点である。より好ましい実施態様では、参照点は、配列決定反応中の時点又はサイクルである。しかしながら、用語「基準点」は、画像を区別又は分離することができる、角度、回転、時間、又は他の態様などの画像を区別又は分離する他の態様を含むことができる。
【0275】
本明細書で使用するとき、「画像のサブセット」は、セット内の画像のグループを指す。例えば、サブセットは、画像のセットから選択される1、2、3、4、6、8、10、12、14、16、18、20、30、40、50、60又は任意の数の画像を含んでもよい。特定の別の実施態様では、サブセットは、1、2、3、4、6、8、10、12、14、16、18、20、30、40、50、60以下、又は画像のセットから選択される任意の数の画像を含んでもよい。好ましい別の実施態様では、画像は、各サイクルに相関する4つの画像を有する1つ以上の配列決定サイクルから得られる。したがって、例えば、サブセットは、4サイクルにわたって取得された16画像のグループであり得る。
【0276】
塩基は、ヌクレオチド塩基又はヌクレオチド、(アデニン)、C(シトシン)、T(チミン)、又はG(グアニン)を指す。本出願は、「塩基(複数可)」及び「ヌクレオチド(複数可)」を互換的に使用する。
【0277】
用語「染色体」は、DNA及びタンパク質成分(特にヒストン)を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを指す。従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。
【0278】
「部位」という用語は、参照ゲノム上の固有の位置(例えば、染色体ID、染色体位置及び配向)を指す。いくつかの実施態様では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。用語「遺伝子座」は、参照染色体上の核酸配列又は多型の特定の位置を指すために使用されてもよい。
【0279】
本明細書における用語「試料」は、典型的には、配列決定及び/又はフェーズドされる核酸を含有する生物液、細胞、組織、器官、又は生物に由来するサンプル、又は配列決定及び/又はフェーズドされる核酸配列を少なくとも1つ含有する核酸の混合物に由来するサンプルを指す。このような試料としては、痰/口腔流体、羊水、血液、血液画分、細針生検試料(例えば、外科生検、針生検など)、尿、腹膜流体、胸膜流体、組織外植片、臓器培養物、及びこれらの任意の他の組織若しくは細胞調製物、又はこれらの画分若しくは誘導体が挙げられるが、これらに限定されない。サンプルは、多くの場合、ヒト被験者(例えば、患者)から採取されるが、試料は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。試料は、生物学的源から得られるように、又は試料の特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法には、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。
【0280】
用語「配列」は、互いに結合されたヌクレオチドの鎖を含むか、又はそれを表す。ヌクレオチドは、DNA又はRNAに基づくことができる。1つの配列は、複数のサブ配列を含んでもよいことを理解されたい。例えば、単一の配列(例えば、PCRアンプリコン)は、350ヌクレオチドを有してもよい。サンプル読み取りは、これらの350ヌクレオチド内に複数のサブ配列を含んでもよい。例えば、サンプル読み取りは、例えば、20-50ヌクレオチドを有する第1及び第2のフランキングサブ配列を含んでもよい。第1及び第2の隣接するサブ配列は、対応するサブ配列(例えば、40-100ヌクレオチド)を有する反復セグメントの両側に位置してもよい。隣接するサブ配列のそれぞれは、プライマーサブ配列(例えば、10-30ヌクレオチド)を含んでもよい(又はその一部を含み得る)。読み取りを容易にするために、用語「サブ配列」は「配列」と称されるが、2つの配列は、共通のストランド上で互いに別個である必要はないことが理解される。本明細書に記載の様々な配列を区別するために、配列は、異なる標識(例えば、標的配列、プライマー配列、隣接配列、参照配列など)を与えられてもよい。「対立遺伝子」などの他の用語は、同様の物体を区別するために異なるラベルを与えられてもよい。アプリケーションは、「読み取り(単数又は複数)」及び「配列読み取り(単数又は複数)」を互換的に使用する。
【0281】
用語「ペアエンド配列決定(paired end sequencing)」は、標的フラグメントの両端を配列する配列決定方法を指す。ペアエンド配列決定は、ゲノム再構成及び反復セグメントの検出、並びに遺伝子融合及び新規転写物の検出を容易にし得る。ペアエンド配列決定の方法は、国際公開第07010252号、PCT出願第PCTGB2007/003798号、及び米国特許出願公開第2009/0088327号に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。一実施例では、一連の動作は、以下のように実行され得る。(a)核酸のクラスターを生成し、(b)核酸を線形化し、(c)上記のように、第1の配列決定プライマーをハイブリダイズし、伸長、走査及びデブロッキングのサイクルを繰り返し実行し、(d)相補的なコピーを合成することによって、フローセル表面上の標的核酸を「反転」させ、(e)再合成された鎖を線形化し、(f)上記のように、第2の配列決定プライマーをハイブリダイズし、伸長、走査及びデブロッキングのサイクルを繰り返し実行する。反転操作は、ブリッジ増幅の単一サイクルについて上述した試薬を送達することができる。
【0282】
用語「参照ゲノム」又は「参照配列」は、対象からの識別された配列を参照するために使用され得る任意の生物の部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くのその他の生物が、National Center for Biotechnology Information at ncbi.nlm.nih.govで見出される。「ゲノム」とは、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を意味する。ゲノムは、DNAの遺伝子及び非コード配列の両方を含む。参照配列は、それに位置合わせされたリードよりも大きくてもよい。例えば、それは、少なくとも約100倍大きい、又は少なくとも約1000倍大きい、又は少なくとも約10,000倍大きい、又は少なくとも約105倍大きい、又は少なくとも約106倍大きい、又は少なくとも約107倍大きい場合がある。一実施例では、参照ゲノム配列は、完全長ヒトゲノムのものである。別の例では、参照ゲノム配列は、13番染色体などの特定のヒト染色体に限定される。いくつかの実施態様では、参照染色体は、ヒトゲノムバージョンhg19からの染色体配列である。このような配列は、染色体参照配列と呼ばれる場合があるが、用語参照ゲノムは、そのような配列を網羅することを意図している。参照配列のその他の例としては、その他の種のゲノム、並びに任意の種の染色体、部分染色体領域(ストランドなど)等が挙げられる。様々な実施態様では、参照ゲノムは、複数の個体に由来するコンセンサース配列又は他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。他の実施態様では、「ゲノム」はまた、ゲノム配列の特定の記憶形式及び表現を使用するいわゆる「グラフゲノム」も被覆する。一実施態様では、グラフゲノムは、線形ファイルにデータを記憶する。別の実施態様では、グラフゲノムは、代替的な配列決定(例えば、小さい差異を有する染色体の異なるコピー)がグラフ内の異なる経路として記憶されている表現を指す。グラフゲノムの実装に関する追加情報は、https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf.にて参照することができ、その内容は、その全体が参照により本明細書に組み込まれる。
【0283】
用語「読み取り」は、ヌクレオチドサンプル又は参照のフラグメントを記述する配列データの集合を指す。用語「読み取り」は、サンプル読み取り及び/又は参照読み取りを指し得る。典型的には、必ずしもそうではないが、読み取りは、サンプル又は参照における連続的な塩基対の短い配列を表す。読み取りは、サンプル又は参照フラグメントのベース対配列(ACTG)によって記号的に表されてもよい。読み取りが参照配列と一致するか、又は他の基準を満たすかを判定するために、メモリデバイスに記憶され、適切に処理されてもよい。読み取りは、シーケンシング装置から直接、又はサンプルに関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きな配列又は領域を識別するために使用することができる十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
【0284】
次世代配列決定法としては、例えば、合成技術(Illumina)、ピロ配列決定(454)、イオン半導体技術(Ion Torrent sequencing)、一分子リアルタイム配列決定及びライゲーションによる配列決定(SOLiD配列決定)が挙げられる。配列決定法に応じて、各読み取りの長さは、約30bp~10,000bpを超えて変化し得る。例えば、SOLiDシーケンサを用いたDNA配列決定法は、約50bpの核酸リードを生成する。別の例では、Ion Torrent Sequencingは、最大400bpの核酸リードを生成し、454のピロ配列は、約700bpの核酸リードを生成する。更に別の例では、単分子リアルタイム配列決定法は、10,000bp~15,000bpのリードを生成し得る。したがって、特定の実施態様では、核酸配列のリードは、30-100bp、50-200bp、又は50-400bpの長さを有する。
【0285】
用語「サンプル読み取り」、「サンプル配列」又は「サンプル断片」は、サンプルから対象とするゲノム配列に関する配列データを指す。例えば、サンプル読み取りは、順方向及び逆方向プライマー配列を有するPCRアンプリコンからの配列データを含む。配列データは、任意の選択配列手順から得ることができる。サンプルの読み取りは、例えば、配列単位合成(SBS)反応、配列決定・ライゲーション反応、又は反復要素の長さ及び/若しくは同一性を決定することが望ましい任意の他の好適な配列決定方法であり得る。サンプル読み取りは、複数のサンプル読み取りに由来するコンセンサース(例えば、平均又は加重)配列であり得る。特定の実施態様では、参照配列を提供することは、PCRアンプリコンのプライマー配列に基づいて目的の遺伝子座を識別することを含む。
【0286】
用語「生フラグメント」は、サンプル読み取り又はサンプル断片内の対象とする指定位置又は二次位置に少なくとも部分的に重なり合う、対象とするゲノム配列の一部の配列データを指す。生産物断片の非限定的な例としては、二重ステッチされた断片、単純なステッチされたフラグメント、及び単純な非ステッチの断片が挙げられる。用語「生」は、生のフラグメントがサンプル読み取りにおける配列データとのいくつかの関係を有する配列データを含むことを示すために使用され、生のフラグメントが、サンプル読み取りにおける潜在的変異体に対応し、かつそれを認証又は確認する支持変異体を示すかどうかに関わらず、使用される。用語「生フラグメント」は、フラグメントが、サンプル読み取りにおける変異型コールを検証する支持変異体を必ずしも含むことを示すものではない。例えば、サンプル読み取りが、第1の変異体を呈するために、変異型コールアプリケーションによって判定されるとき、この変異型コールアプリケーションは、1つ以上の生のフラグメントが、サンプル読み取りにおける変異体を考慮して、そうでなければ発生することが予想され得る、対応する種類の「支持」変異体を欠くと判定することができる。
【0287】
用語「マッピング」、「整列された」、「整列している」、又は「整列する」という用語は、読み取り又はタグを参照配列と比較し、それによって、参照配列が読み取り配列を含むかどうかを判定するプロセスを指す。参照配列が読み取られた場合、読み取りは参照配列にマップされてもよく、又は特定の別の実施態様では、参照配列内の特定の位置にマッピングされてもよい。いくつかの場合において、整列は、リードが特定の参照配列のメンバーであるか否か(すなわち、リードが参照配列中に存在するか又は存在していないか)を単に伝える。例えば、ヒト染色体13についての参照配列に対するリードの位置合わせは、13番染色体の参照配列中にリードが存在するかどうかを伝える。本情報を提供するツールは、セットメンバーシップテスタ(set membership tester)と呼ばれる場合がある。場合によっては、位置合わせは、読み取り又はタグマップがある参照配列内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、整列は、染色体13上にリードが存在することを示してもよく、更に、リードが染色体13の特定の鎖及び/又は部位にあることを更に示してもよい。
【0288】
用語「インデル」は、生物のDNA中の塩基の挿入及び/又は欠失を指す。マイクロインデルは、1~50ヌクレオチドの正味変化をもたらすインデルを表す。インデルの長さが3の倍数でない限り、ゲノムの領域をコードする際に、フレームシフト変異が生じる。インデルは、点突然変異と対比することができる。インデル挿入物は、配列からヌクレオチドを欠失させるが、点変異は、DNA中の全体的な数を変えることなくヌクレオチドのうちの1つを置き換える置換の形態である。インデルはまた、隣接するヌクレオチドにおける置換として定義され得るTandem Base変異(Tandem Base Mutation、TBM)と対比することもできる(主に2つの隣接するヌクレオチドで置換されるが、隣接する3つのヌクレオチドでの置換が観察された。
【0289】
用語「変異体」は、核酸参照とは異なる核酸配列を指す。典型的な核酸配列変異体としては、限定するものではないが、単一のヌクレオチド多型(Single Nucleotide Polymorphism、SNP)、短い欠失及び挿入多型(Indel)、コピー数変動(Copy Number Variation、CNV)、マイクロ衛星マーカー、又は短いタンデム反復及び構造変異が挙げられる。体細胞変異体コールは、DNAサンプル中に低頻度で存在する変異体を識別するための努力である。体細胞変異体のコーリングは、癌治療の文脈において対象となる。癌は、DNAにおける変異の蓄積によって引き起こされる。腫瘍由来のDNAサンプルは、一般的に不均質であり、いくつかの正常細胞、癌進行の早期段階(より少ない突然変異を伴う)、及び一部の後期細胞(より多くの変異を有する)を含む。この不均一性のため、腫瘍を配列決定するとき(例えば、FFPEサンプルから)、体細胞変異は、多くの場合、低頻度で現れる。例えば、SNVは、所与の塩基を被覆するリードの10%のみに見られ得る。変異体分類子によって体細胞又は生殖細胞系として分類される変異体は、本明細書では「試験中の変異体」とも称される。
【0290】
用語「ノイズ」は、配列決定プロセス及び/又は変異型コールアプリケーションにおける1つ以上の誤差から生じる、誤りのある変異型コールを指す。
【0291】
用語「変異体頻度」は、集団内の特定の遺伝子座における対立遺伝子(遺伝子の変異体)の相対頻度を表し、分画又は割合として表される。例えば、分画又は割合は、その対立遺伝子を保有する集団中の全ての染色体の割合であってもよい。一例として、サンプル変異体頻度は、個体から対象となるゲノム配列について得られたリード及び/又はサンプルの数に対応する「集団」にわたって、対象とするゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表す。別の例として、ベースライン変異体頻度は、1つ以上のベースラインゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表し、ここで、1つ以上のベースラインゲノム配列について得られた、1つ以上のベースラインゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表す。
【0292】
用語「変異型対立遺伝子頻度(Variant Allele Frequency、VAF)」は、変異体を標的位置での全体的な被覆率で割った、配列決定されたリードの割合を指す。VAFは、変異体を保有する配列決定されたリードの割合の尺度である。
【0293】
用語「位置」、「指定位置」、及び「遺伝子座」は、ヌクレオチド配列内の1つ以上のヌクレオチドの位置又は座標を指す。用語「位置」、「指定位置」、及び「遺伝子座」はまた、ヌクレオチドの配列における1つ以上の塩基対の位置又は座標を指す。
【0294】
用語「ハプロタイプ」は、互いに遺伝する染色体上の隣接する部位における対立遺伝子の組み合わせを指す。ハプロタイプは、存在する場合、所与の座の組の間に生じた組み換え事象の数に応じて、1つの遺伝子座、いくつかの座、又は染色体全体であってもよい。
【0295】
本明細書における「閾値」という用語は、サンプル、核酸、又はその一部(例えば、読み取り)を特徴付けるためのカットオフとして使用される数値又は非数値を指す。閾値は、経験的分析に基づいて変化してもよい。閾値は、そのような値を生じさせる源が特定の方法で分類されるべきかどうかを判定するために、測定値又は計算値と比較することができる。閾値は、経験的又は分析的に識別することができる。閾値の選択は、ユーザが分類を行う必要があることを望む信頼度に依存する。閾値は、特定の目的(例えば、感度及び選択性のバランスのために)選択されてもよい。本明細書で使用するとき、用語「閾値」は、分析の過程が変化し得る点、及び/又はアクションがトリガされ得る点を示す。閾値は、所定の数である必要はない。その代わりに、閾値は、例えば、複数の因子に基づく関数であってもよい。閾値は、状況に適応し得る。更に、閾値は、上限、下限、又は限界間の範囲を示し得る。
【0296】
いくつかの実施態様では、配列決定データに基づく指標又はスコアは、閾値と比較され得る。本明細書で使用するとき、用語「メトリック」又は「スコア」は、配列決定データから決定された値又は結果を含んでもよく、又は配列決定データから決定された値又は結果に基づく関数を含んでもよい。閾値と同様に、指標又はスコアは、状況に適応し得る。例えば、指標又はスコアは、正規化された値であってもよい。スコア又はメトリックの例として、1つ以上の実施態様は、データを分析する際にカウントスコアを使用することができる。計数スコアは、サンプル読み取りの数に基づいてもよい。サンプル読み取りは、サンプル読み取りが少なくとも1つの共通の特性又は品質を有するように、1つ以上のフィルターリング段階を経ていてもよい。例えば、計数スコアを決定するために使用されるサンプル読み取りのそれぞれは、参照配列と整列されていてもよく、又は潜在的な対立遺伝子として割り当てられてもよい。共通の特性を有するサンプル読み取りの数をカウントして、リードカウントを決定することができる。カウントスコアは、読み取りカウントに基づいてもよい。いくつかの実施態様では、計数スコアは、リードカウントと等しい値であってもよい。他の実施例では、計数スコアは、リードカウント及び他の情報に基づいてもよい。例えば、計数スコアは、遺伝子座の特定の対立遺伝子のリードカウント、及び遺伝子座の合計リード数に基づいてもよい。いくつかの実施態様では、計数スコアは、遺伝子座のリードカウント及び以前に得られたデータに基づいてもよい。いくつかの実施態様では、計数スコアは、所定の値間の正規化スコアであってもよい。計数スコアはまた、サンプルの他の遺伝子座からのリードカウントの関数、又は対象となるサンプルと同時に動作された他のサンプルからのリードカウントの関数であってもよい。例えば、計数スコアは、特定の対立遺伝子の読み取りカウント及びサンプル中の他の遺伝子座の読み取りカウント、及び/又は他のサンプルからのリードカウントの関数であってもよい。一例として、他の遺伝子座からのリードカウント及び/又は他のサンプルからのリードカウントを使用して、特定の対立遺伝子についての計数スコアを正規化してもよい。
【0297】
用語「被覆率」又は「断片被覆率」は、配列の同じフラグメントに対する多数のサンプル読み取りの計数又は他の尺度を指す。リードカウントは、対応するフラグメントをカバーするリードの数のカウントを表し得る。あるいは、被覆率は、履歴知識、サンプルの知識、遺伝子座の知識などに基づく指定された因子を、リードカウントに掛けることによって決定されてもよい。
【0298】
用語「読み取り深さ」(従来、「x」が続く数)は、標的位置における重複アラインメントを伴う配列決定されたリードの数を指す。これは、多くの場合、1組の間隔(エキソン、遺伝子、又はパネルなど)のカットオフを超える平均又は百分率として表現される。例えば、臨床報告は、パネル平均被覆率が、標的化されたベースカバー>100xの98%を有する1,105xであると言うことができる。
【0299】
用語「ベースコール品質スコア」又は「Qスコア」は、単一の配列決定された塩基が正しい確率に反比例する0-50からの範囲のPHREDスケールされた確率を指す。例えば、20のQを有するTベースコールは、99.99%の確率で正しいと考えられる。Q<20での任意のベースコールは、低品質であると見なされるべきであり、変異体を支持する配列決定されたリードのかなりの割合が低い場合に識別される任意の変異体は、潜在的に偽陽性であると見なされるべきである。
【0300】
用語「変異体リード」又は「変異体リード番号」は、変異体の存在を支持する配列決定されたリードの数を指す。
【0301】
「撚れ性(strandedness)」(又はDNA撚れ性)に関して、DNA中の遺伝的メッセージは、文字A、G、C、及びTの文字、例えば、5’-AGGACA-3’として表すことができる。多くの場合、配列は、本明細書に示される方向、すなわち、5’端を左に、3’端を右に書き込む。DNAは、(特定のウイルスのように)一本鎖分子として生じる場合があるが、通常、二本鎖単位としてDNAを見つける。これは、2つの抗平行ストランドを有する二重螺旋構造を有する。この場合、「逆平行」という語は、2つのストランドが平行に動作するが、反対の極性を有することを意味する。二本鎖DNAは、塩基とペアリングによって一緒に保持され、ペアリングは、アデニン(A)対がチミン(T)及びシトシン(C)対とグアニン(G)との対となるように、常に保持される。このペアリングは相補性と呼ばれ、1本のDNA鎖は、他方の相補体であると言われる。したがって、二本鎖DNAは、5’-AGGACA-3’及び3’-TCCTGT-5’と同様に、2つのストリングとして表され得る。2つのストランドは、反対の極性を有することに留意されたい。したがって、2つのDNA鎖のストランド性は、基準ストランド及びその補体、順方向及び逆方向ストランド、トップ及びボトムストランド、センス及びアンチセンスストランド、又はワトソン及びクリックストランドと呼ぶことができる。
【0302】
リードアライメント(リードマッピングとも呼ばれる)は、ゲノム中の配列が由来する場合に、参照するプロセスである。アライメントが行われると、所与の読み取りの「マッピング品質」又は「マッピング品質スコア(MAPQ)」は、ゲノム上のその位置が正しい確率を定量化する。マッピング品質は、位相スケールで符号化され、Pはアライメントが正しくない確率である。確率は、P=10(-MAQ/10)のように計算され、式中MAPQはマッピング品質である。例えば、-4の電力に対する40=10のマッピング品質は、読み取りが不正確に位置合わせされた0.01%の機会が存在することを意味する。したがって、マッピング品質は、読み取りの基本品質、参照ゲノムの複雑性、及びペアエンド情報などのいくつかの位置合わせ因子と関連付けられる。最初に、読み取りの基本品質が低い場合、観察された配列が誤っている可能性があり、したがってそのアライメントが誤っていることを意味する。第2に、マッピング能力はゲノムの複雑さを指す。反復領域は、これらの領域に含まれるマップ及びリードをマッピングすることがより困難であり、通常、マッピング品質が低くなる。この文脈では、MAPQは、リードが一意的に整列されておらず、それらの実際の原点を決定することができないという事実を反映する。第3に、パリッドエンド配列決定データの場合、コンコダント対は、より良好に整列される可能性が高い。マッピング品質が高いほど、アライメントがより良好である。良好なマッピング品質と整合された読み取りは、通常、読み出し配列が良好であり、高いマッピング可能領域内ではわずかな不一致と位置合わせされたことを意味する。MAPQ値は、アライメント結果の品質管理として使用することができる。20よりも高いMAPQと位置合わせされたリードの割合は、通常、下流分析のためである。
【0303】
本明細書で使用するとき、「信号」は、例えば画像内の発光、好ましくは発光などの検出可能な事象を指す。したがって、好ましい別の実施態様では、信号は、画像内に捕捉された任意の検出可能な発光(すなわち、「スポット」)を表すことができる。したがって、本明細書で使用するとき、「信号」は、検体の検体からの実際の放出の両方を指すことができ、実際の検体と相関しない擬似発光を指すことができる。したがって、信号はノイズから生じ得、試験片の実際の検体を代表しないように後に廃棄することができる。
【0304】
本明細書で使用するとき、用語「クランプ」は、一群の信号を指す。特定の実施態様では、信号は、異なる検体に由来する。好ましい別の実施態様では、信号クランプは、一緒にクラスター化する信号群である。より好ましい実施態様では、信号クランプは、1つの増幅オリゴヌクレオチドによって覆われた物理的領域を表す。各信号クランプは、理想的には、いくつかの信号(テンプレートサイクル当たり1つ、恐らくはクロストークによってより多く)として観察されるべきである。したがって、2つ(以上)の信号が同じ信号のクランプからテンプレートに含まれる、重複する信号が検出される。
【0305】
本明細書で使用するとき、「最小」、「最大」、「最小化」、「最大化」、及びその文法的変異形などの用語は、絶対最大値又は最小値ではない値を含むことができる。いくつかの実施態様では、値は、最大値及び最小値付近を含む。他の実施例では、値は、局所的最大値及び/又は局所最小値を含むことができる。いくつかの実施態様では、値は、絶対最大値又は最小値のみを含む。
【0306】
本明細書で使用するとき、「クロストーク」は、別個の画像においても検出される1つの画像内の信号の検出を指す。好ましい別の実施態様では、クロストークは、放射された信号が2つの別個の検出チャネルで検出されるときに発生し得る。例えば、放射された信号が1つの色で発生する場合、その信号の放射スペクトルは、別の色で別の放射された信号と重なってもよい。好ましい実施態様では、ヌクレオチド塩基A、C、G、及びTの存在を示すために使用される蛍光分子は、別個のチャネルで検出される。しかし、A及びCの発光スペクトルは重複するため、色チャネルを使用した検出中に、C色信号の一部が検出され得る。したがって、A信号とC信号との間のクロストークにより、1つのカラー画像からの信号が他のカラー画像に現れることを可能にする。いくつかの実施態様では、G及びTクロストークがある。いくつかの実施態様では、チャネル間のクロストークの量は非対称である。チャネル間のクロストークの量は、とりわけ、適切な放射スペクトルを有する信号分子の選択、並びに検出チャネルのサイズ及び波長範囲の選択によって制御され得ることが理解されるであろう。
【0307】
本明細書で使用するとき、「位置合わせする(register)」、「位置合わせすること(registereing)」、「位置合わせ(registration)」、及び同様の用語は、画像又はデータセット内の信号を、別の時点又は視点からの画像又はデータセット内の信号と相関させるための任意のプロセスを指す。例えば、位置合わせを使用して、画像のセットからの信号を整列させてテンプレートを形成することができる。別の例では、位置合わせを使用して、他の画像からの信号をテンプレートに位置合わせすることができる。1つの信号は、別の信号に直接又は間接的に位置合わせされてもよい。例えば、画像「S」からの信号は、画像「G」に直接位置合わせされてもよい。別の例として、画像「N」からの信号は、画像「G」に直接位置合わせされてもよく、あるいは、画像「N」からの信号は、以前に画像「G」に位置合わせされた画像「S」に位置合わせされてもよい。したがって、画像「N」からの信号は、画像「G」に間接的に位置合わせされる。
【0308】
本明細書で使用するとき、用語「基準」は、物体内又は物体上の区別可能な基準点を意味することを意図する。基準点は、例えば、マーク、第2の物体、形状、縁部、領域、不規則性、チャネル、ピット、ポストなどであり得る。基準点は、オブジェクトの画像内に、又はオブジェクトを検出することに由来する別のデータセット内に存在することができる。基準点は、物体の平面内のx及び/又はy座標によって指定することができる。代替的に又は追加的に、基準点は、例えば、物体と検出器との相対位置によって定義される、xy平面に直交するz座標によって指定することができる。基準点に対する1つ以上の座標は、オブジェクトの1つ以上の他の検体、又はオブジェクトに由来する画像又は他のデータセットに対して指定することができる。
【0309】
本明細書で使用するとき、用語「光信号」は、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。光信号は、紫外線(Ultraviolet、UV)範囲(約200~390nm)、可視(Visible、VIS)範囲(約391~770nm)、赤外線(Infrared、IR)範囲(約0.771~25マイクロメートル)、又は電磁スペクトルの他の範囲で検出することができる。これらの範囲のうちの1つ以上の全て又は一部を除外する方法で、光信号を検出することができる。
【0310】
本明細書で使用するとき、用語「信号レベル」は、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量又は量を意味することを意図する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの1つ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。
【0311】
本明細書で使用するとき、用語「シミュレートする」は、物理又は行動の特性を予測する物理的又は行動の表現又はモデルを作成することを意味することを意図する。表現又はモデルは、多くの場合、そのもの又は行動と区別可能であり得る。例えば、表現又はモデルは、色、被加工、サイズ、又は形状の全て又は一部から検出される信号の強度などの1つ以上の特性に対するものと区別することができる。特定の実施態様では、表現又はモデルは、何か又は行為と比較して、理想化、誇張、ミュート、又は不完全であり得る。したがって、いくつかの実施態様では、モデルの表現は、例えば、上記の特性のうちの少なくとも1つに関して表すものであることを表すものであることができる。表現又はモデルは、本明細書の他の箇所に記載されるもののうちの1つ以上などのコンピュータ可読フォーマット又は媒体に提供され得る。
【0312】
本明細書で使用するとき、用語「特定の信号」は、背景エネルギー又は情報などの他のエネルギー又は情報にわたって選択的に観察される、検出されたエネルギー又は符号化情報を意味することを意図する。例えば、特定の信号は、特定の強度、波長、又は色で検出された光信号、特定の周波数、電力、又は磁場強度で検出された電気信号、又は分光法及び分析検出に関連する当該技術分野で既知の他の信号であり得る。
【0313】
本明細書で使用するとき、用語「スワス(swath)」は、物体の矩形部分を意味することを意図する。スワスは、ストリップの最長寸法に平行な方向に、物体と検出器との間の相対移動によって走査される細長いストリップであり得る。一般に、矩形部分又はストリップの幅は、その全長に沿って一定である。物体の複数のスワスは、互いに平行であってもよい。物体の複数のスワスは、互いに重なり合い、互いに隣接するか、又は間質領域によって互いに分離され得る。
【0314】
本明細書で使用するとき、用語「分散」は、予想される差、及び観察される差、又は2つ以上の観測結果間の差を意味することを意図する。例えば、分散は、期待値と測定値との間の不一致であり得る。標準偏差、標準偏差の二乗、変動係数などの統計関数を使用して、分散を表すことができる。
【0315】
本明細書で使用するとき、用語「xy座標」は、xy平面内の位置、サイズ、形状、及び/又は向きを指定する情報を意味することを意図する。情報は、例えば、デカルト座標系における数値座標であり得る。座標は、x軸及びy軸の一方又は両方に対して提供することができ、又はxy平面内の別の場所に対して提供することができる。例えば、物体の検体の座標は、対象物の基準又は他の検体の位置に対する検体の場所を指定することができる。
【0316】
本明細書で使用するとき、用語「xy平面」は、直線軸x及びyによって画定される2次元領域を意味することを意図する。検出器及び検出器によって観察される物体を参照して使用される場合、検出器と検出されている物体との間の観測方向に直交するように更に指定することができる。
【0317】
本明細書で使用するとき、用語「z座標」は、xy平面に直交する軸に沿った点、線、又は領域の位置を指定する情報を意味することを意図する。特定の実施態様では、z軸は、検出器によって観察される物体のエリアに直交する。例えば、光学系の焦点の方向は、z軸に沿って指定されてもよい。
【0318】
いくつかの実施態様では、獲得された信号データは、アフィン変換を用いて変換される。いくつかのそのような実施態様では、テンプレートの生成は、色チャネル間のアフィン変換が動作間に一貫しているという事実を使用する。この一貫性のため、標本中の検体の座標を決定する際に、デフォルトオフセットのセットを使用することができる。例えば、デフォルトオフセットファイルは、Aチャネルなどの1つのチャネルに対する異なるチャネルに対する相対変換(シフト、スケール、スキュー)を含むことができる。しかしながら、他の実施態様では、動作中及び/又は動作間の色チャネルドリフト間のオフセットは、オフセット駆動型テンプレート生成を困難にする。このような実施例では、本明細書で提供される方法及びシステムは、オフセットしたテンプレート生成を利用することができ、これについては以下で更に説明する。
【0319】
上記の実施態様のいくつかの実施態様では、システムはフローセルを含み得る。いくつかの実施態様では、フローセルは、レーン、又は他の構成のタイルを含み、タイルの少なくとも一部は、1つ以上の検体群を含む。いくつかの実施態様では、検体は、核酸などの複数の分子を含む。特定の態様では、フローセルは、標識されたヌクレオチド塩基を核酸の配列に送達し、それによって、核酸を含む検体に対応するシグナルを生成するように、検体内の核酸にハイブリダイズするプライマーを伸長させるように構成される。好ましい実施態様では、検体内の核酸は、互いに同一又は実質的に同一である。
【0320】
本明細書に記載される画像解析システムのいくつかにおいて、画像のセット内の各画像は、色信号を含み、異なる色は、異なるヌクレオチド塩基に対応する。いくつかの実施態様では、画像のセットの各画像は、少なくとも4つの異なる色から選択される単一の色を有する信号を含む。いくつかの実施態様では、画像のセット内の各画像は、4つの異なる色から選択される単一の色を有する信号を含む。本明細書に記載されるシステムのいくつかにおいて、核酸は、4つの異なる画像を生成するように、4つの異なる標識ヌクレオチド塩基を分子の配列に提供することにより、核酸を配列決定することができ、各画像は単一の色を有するシグナルを含み、信号色が、4つの異なる画像のそれぞれに対して異なることにより、核酸内の特定の位置に存在する4つの可能なヌクレオチドに対応する4つのカラー画像のサイクルを生成する、方法。特定の態様では、システムは、追加の標識ヌクレオチド塩基を分子の配列に送達するように構成されたフローセルを含み、それによって複数のカラー画像のサイクルを生成する。
【0321】
好ましい実施態様形態では、本明細書で提供される方法は、プロセッサがアクティブにデータを収集しているか、又はプロセッサが低活動状態にあるかどうかを判定することを含み得る。多数の高品質画像を収集及び記憶することは、典型的には、大量の記憶容量を必要とする。更に、収集され記憶されると、画像データの分析はリソース集約的になり得、追加の画像データの収集及び記憶などの他の機能の処理能力を妨げる可能性がある。したがって、本明細書で使用するとき、用語「低活動状態」は、所与の時間におけるプロセッサの処理能力を指す。いくつかの実施態様では、低活動状態は、プロセッサがデータを収集及び/又は記憶していないときに生じる。いくつかの実施態様では、一部のデータ収集及び/又は記憶が行われる場合には、低いアクティビティ状態が生じるが、他の機能に干渉することなく画像解析が同時に生じ得るように、追加の処理能力が残る。
【0322】
本明細書で使用するとき、「競合を識別する」とは、複数のプロセスがリソースに対して競合する状況を識別することを指す。いくつかのそのような実施態様では、1つのプロセスは、別のプロセスに対して優先度を与えられる。いくつかの実施態様では、競合は、時間、処理能力、記憶能力、又は優先度が与えられる任意の他のリソースの割り当てに対する優先度を与える必要性に関連し得る。したがって、いくつかの実施態様では、処理時間又は容量が、データセットを分析し、データセットを取得及び/又は記憶するかのいずれかなどの2つのプロセス間に分散される場合、2つのプロセス間の不一致が存在し、プロセスのうちの1つに優先度を与えることによって解決することができる。
【0323】
本明細書では、画像解析を実行するためのシステムも提供される。システムは、プロセッサと、記憶容量と、画像解析用のプログラムと、を含むことができ、プログラムは、記憶のための第1のデータセット及び分析のための第2のデータセットを処理するための命令を含み、処理は、記憶装置上の第1のデータセットを取得及び/又は記憶することと、プロセッサが第1のデータセットを取得していないときに第2のデータセットを解析することと、を含む。特定の態様では、プログラムは、第1のデータセットを収集及び/又は記憶することと、第2のデータセットを解析することとの間の競合の少なくとも1つのインスタンスを識別するための命令を含み、第1のデータセットを収集及び/又は記憶することが優先度を与えられるように、画像データを取得及び/又は記憶することが優先される。特定の態様では、第1のデータセットは、光学撮像装置から収集された画像ファイルを含む。特定の態様では、システムは、光学撮像装置を更に備える。いくつかの実施態様では、光学撮像装置は、光源と検出デバイスとを備える。
【0324】
本明細書で使用するとき、用語「プログラム」は、タスク又はプロセスを実行するための命令又はコマンドを指す。用語「プログラム」は、用語「モジュール」と互換的に使用され得る。特定の実施態様では、プログラムは、同じコマンドセットの下で実行される様々な命令のコンパイルであり得る。他の実施態様では、プログラムは、別個のバッチ又はファイルを参照することができる。
【0325】
以下に記載されるのは、本明細書に記載される画像解析を実行するための方法及びシステムを利用する驚くべき効果の一部である。いくつかの配列決定の実現例では、配列決定システムの有用性の重要な尺度は、その全体的な効率である。例えば、1日当たりに生成されるマッピング可能なデータの量、並びに器具の設置及び動作の総コストは、経済的な配列決定ソリューションの重要な態様である。マッピング可能なデータを生成し、システムの効率を高めるための時間を短縮するために、リアルタイムのベースコールを機器コンピュータ上で有効にすることができ、配列決定ケミストリー及び画像化と並行して動作することができる。これにより、配列決定ケミストリー仕上げの前に、データ処理及び分析が完了することを可能にする。更に、中間データに必要な記憶を低減し、ネットワークを横切って移動する必要があるデータの量を制限することができる。
【0326】
配列出力が増加している間、本明細書で提供されるシステムからネットワークに転送された動作ごとのデータ、及び二次分析処理ハードウェアは、実質的に減少している。機器コンピュータ(取得コンピュータ)上でデータを変換することにより、ネットワークロードが劇的に低減される。これらのオン機器、オフネットワークデータ低減技術を伴わずに、DNA配列決定機器のフレットの画像出力は、ほとんどのネットワークをクリップルするであろう。
【0327】
ハイスループットDNA配列決定機器の広範な採用は、使用の容易さ、用途の範囲に対する支持、及び実質的に任意のラボ環境に対する適合性によって、部分的に駆動されてきた。本明細書に提示される高度に効率的なアルゴリズムは、配列決定インスツルメントを制御することができる単純なワークステーションに、有意な分析機能を加えることを可能にする。計算ハードウェアの必要条件のこの低減は、配列決定出力レベルが増加し続けるにつれて、更に重要となる、いくつかの実用的な利点を有する。例えば、単純なタワー、熱生成、実験室設置面積、及び電力消費を最小限に抑えるために、画像解析及びベースコールを行うことによって、最小に保たれる。対照的に、他の商業的な配列決定技術は、1次分析のために、最大5回の処理電力で、そのコンピューティングインフラストラクチャを最近ランプアップして、熱出力及び電力消費の増加を開始する。したがって、いくつかの実施態様では、本明細書で提供される方法及びシステムの計算効率は、サーバハードウェアを最小限に抑えながら、それらの配列決定スループットを増加させることを可能にする。
【0328】
したがって、いくつかの実施態様では、本明細書に提示される方法及び/又はシステムは、状態マシンとして機能し、各試料の個々の状態の追跡を保ち、試料が次の状態に進む準備ができていることを検出すると、適切な処理を行い、試料をその状態に前進させる。状態マシンがファイルシステムを監視して、好ましい実施例に従って試料が次の状態に進む準備ができているかを判定する方法のより詳細な例が、以下の実施例1に記載されている。
【0329】
好ましい実施態様では、本明細書で提供される方法及びシステムは、マルチスレッドであり、構成可能な数のスレッドと協働することができる。したがって、例えば、核酸配列決定の文脈において、本明細書で提供される方法及びシステムは、リアルタイム分析のためのライブ配列決定動作中に背景において作用することができ、又はオフライン分析のために既存の画像データセットを使用して動作することができる。特定の好ましい実施態様では、方法及びシステムは、それぞれのスレッドを、それが関与する検体のそれ自体のサブセットを与えることによって、マルチスレッドを取り扱う。これにより、スレッド保持の可能性が最小限に抑えられる。
【0330】
本開示の方法は、検出装置を使用して物体の標的画像を取得する工程を含むことができ、この画像は、オブジェクト上の検体の繰り返しパターンを含む。表面の高解像度撮像が可能な検出装置が特に有用である。特定の実施態様では、検出装置は、本明細書に記載される密度、ピッチ、及び/又は検体サイズにおける検体を区別するのに十分な分解能を有するであろう。表面から画像又は画像データを得ることができる検出装置が特に有用である。例示的な検出器は、物体と検出器とを静的関係に維持しつつ、面積画像を取得するように構成されたものである。走査装置も使用することができる。例えば、連続領域画像を取得する装置(例えば、「工程及びショット」検出器と呼ばれる)を使用することができる。また、物体の表面上の点又は線を連続的に走査して、表面の画像を構築するためにデータを蓄積するデバイスも有用である。点走査検出器は、表面のx-y平面内のラスタ運動を介してオブジェクトの表面上の点(すなわち、小さい検出領域)を走査するように構成することができる。線走査検出器は、物体の表面のy次元に沿った線を走査するように構成することができ、この線の最長寸法は、x次元に沿って生じる。検出デバイス、物体、又はその両方を移動させて、走査検出を達成できることが理解されるであろう。例えば核酸配列決定用途において特に有用な検出装置は、米国特許出願公開第2012/0270305(A1)号、第2013/0023422(A1)号及び同第2013/0260372(A1)号、並びに米国特許第5,528,050号、米国特許第5,719,391号米国特許第8,158,926号、及び米国特許第8,241,573号に記載されており、これらの各々は、参照により本明細書に組み込まれる。
【0331】
本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するためのプログラミング技術又は工学技術を使用して、製造方法、装置、システム、又は物品として実装されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実施態様されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ(FPGA)、粗粒度再構成可能構造(CGRA)、特定用途向け集積回路(ASIC)、複合プログラマブル論理デバイス(Complex Programmable Logic Device、CPLD)、プログラマブルロジックアレイ(Programmable Logic Array、PLA)、マイクロプロセッサ、又は他の同様の処理装置が挙げられるが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。
【0332】
特定の実施態様形態では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間、リアルタイムで発生することができる。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ収集又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Illumina,Inc(San Diego,Calif)から市販されており、及び/又は、参照により本明細書に組み込まれる米国特許出願公開第2012/0020537号明細書に記載されているMiSeq及びHiSeq配列決定機器に使用されるものである。
【0333】
1つ以上のプログラムされたコンピュータによって形成され、本明細書に記載される方法の1つ以上の工程を実行するために実行されるコードを有するプログラミングが、1つ以上の機械可読媒体上に記憶されている、例示的データ分析システム。一実施態様では、例えば、システムは、標的オブジェクトからデータを取得するように構成された1つ以上の検出システム(例えば、光学撮像システム)へのシステムのネットワーキングを可能にするように設計されたインターフェースを含む。インターフェースは、適切な場合には、データを受信及び条件することができる。特定の実施態様では、検出システムは、例えば、アレイ又は他の物体の画像を一緒に形成する個々の画像要素又はピクセルを表す画像データを出力する。プロセッサは、処理コードによって定義された1つ以上のルーチンに従って、受信した検出データを処理する。処理コードは、様々な種類のメモリ回路に記憶されてもよい。
【0334】
現時点で企図される実施態様によれば、検出データ上で実行される処理コードは、検出データを分析して、データ内で可視又は符号化された個々の検体の場所、及び検体が検出されない場所(すなわち、検体が存在しないか、又は、既存の検体から有意な信号が検出されない場所)及びメタデータを判定するように設計されたデータ分析ルーチンを含む。特定の実施態様では、アレイ内の検体位置は、典型的には、撮像された検体に付着した蛍光染料の存在に起因して、非検体位置よりも明るく見える。検体は、例えば、検体におけるプローブの標的が検出されているアレイ内に存在しない場合、検体は、それらの周囲領域よりも明るく見える必要はないことが理解されるであろう。個々の検体が現れる色は、使用される染料、並びに撮像目的のために撮像システムによって使用される光の波長の関数であり得る。標的が結合されていない、又は特定のラベルを有さない検体は、マイクロアレイ内の予想される場所などの他の特性に従って識別することができる。
【0335】
データ分析ルーチンがデータ中に個々の検体を配置すると、値割り当てが実行され得る。一般に、値割り当ては、対応する場所における検出器構成要素(例えば、ピクセル)によって表されるデータの特性に基づいて、各検体にデジタル値を割り当てる。すなわち、例えば、画像化データが処理されるとき、値割り当てルーチンは、特定の場所で特定の色又は波長の光が特定の場所で検出されたことを認識するように設計されてもよい。典型的なDNA画像化用途では、例えば、4つの共通ヌクレオチドは、4つの別個の区別可能な色によって表される。次いで、各色は、そのヌクレオチドに対応する値を割り当てられてもよい。
【0336】
本明細書で使用するとき、用語「モジュール」、「システム」、又は「システムコントローラ」は、1つ以上の機能を実行するように動作するハードウェア及び/又はソフトウェアシステム及び回路を含み得る。例えば、モジュール、システム、又はシステムコントローラは、コンピュータメモリなどの有形及び非一時的コンピュータ可読記憶媒体上に記憶された命令に基づいて動作を実行する、コンピュータプロセッサ、コントローラ、又は他のログベースのデバイスを含んでもよい。あるいは、モジュール、システム、又はシステムコントローラは、有線論理及び回路に基づいて動作を実行する、有線デバイスを含んでもよい。添付の図面に示されるモジュール、システム、又はシステムコントローラは、ソフトウェア又は結線命令に基づいて動作するハードウェア及び回路、ハードウェアを動作させるように命令するソフトウェア、又はそれらの組み合わせを表し得る。モジュール、システム、又はシステムコントローラは、1つ又はコンピュータマイクロプロセッサなどの1つ以上のプロセッサを含む、及び/又はそれと接続されるハードウェア回路又は回路を含むか、又は表すことができる。
【0337】
本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(non-volatile RAM、NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは単なる例であり、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されるものではない。
【0338】
分子生物学分野では、使用中の核酸配列決定のためのプロセスの1つは、合成による配列決定(sequencing-by-synthesis)である。この技術は、非常に平行な配列決定プロジェクトに適用することができる。例えば、自動プラットフォームを使用することにより、数百万の配列決定反応を同時に行うことが可能である。したがって、本発明の実施態様の1つは、核酸配列決定中に生成された画像データを収集、記憶、及び分析するための器具及び方法に関する。
【0339】
収集及び記憶することができるデータ量の莫大なゲインは、合理化された画像解析方法を更により有益にする。例えば、本明細書に記載される画像解析方法は、設計者及びエンドユーザーの両方が、既存のコンピュータハードウェアの効率的な使用を行うことを可能にする。したがって、本明細書では、迅速に増加するデータ出力の面における処理データの計算量を低減する方法及びシステムが本明細書に提示される。例えば、DNA配列決定の分野では、収率は最近の過程で15倍に拡大され、DNA配列決定デバイスの単一の動作において何百ものギガベースに達する可能性がある。計算インフラストラクチャの要件が比例的に増加した場合、大規模なゲノム規模の実験は、ほとんどの研究者に到達していない。したがって、より多くの生配列データの生成は、二次分析及びデータ記憶の必要性を増加させ、データ輸送及び記憶の最適化を非常に有益にする。本明細書に提示される方法及びシステムのいくつかの実施態様は、使用可能な配列データを生成するために必要な時間、ハードウェア、ネットワーキング、及び実験室インフラストラクチャ要件を低減することができる。
【0340】
本開示は、方法を実行するための様々な方法及びシステムを説明する。方法のいくつかの例は、一連の工程として記載される。しかしながら、実施態様は、本明細書に記載される特定の工程及び/又は工程の順序に限定されないことを理解されたい。工程は省略されてもよく、工程は修正されてもよく、及び/又は他の工程が追加されてもよい。更に、本明細書に記載される工程を組み合わせることができ、工程は同時に実行されてもよく、工程は同時に実行されてもよく、工程は複数のサブ工程に分割されてもよく、工程は、異なる順序で実行されてもよく、又は工程(又は一連の工程)は、反復的に再実行されてもよい。加えて、本明細書には異なる方法が記載されているが、他の実施態様では、異なる方法(又は異なる方法の工程)を組み合わせてもよいことを理解されたい。
【0341】
いくつかの実施態様では、タスク又は動作を実行するように「構成された」処理ユニット、プロセッサ、モジュール、又はコンピューティングシステムは、タスク又は動作を実行するように特に構造化されていると理解され得る(例えば、タスク又は動作を実行するように調整又は意図された、及び/又はタスク若しくは動作を実行するように調整若しくは意図された1つ以上のプログラム又は命令を有すること、及び/又はタスク若しくは動作を実行するように調整又は意図された処理回路の配置を有する)。明確さ及び疑義の回避のために、汎用コンピュータ(適切にプログラムされた場合にタスク又は動作を実行するように「構成された」となり得る)は、タスク又は動作を実行するために具体的にプログラム又は構造的に変更されない限り、タスク又は動作を実行するように「構成されて」いない)。
【0342】
更に、本明細書に記載される方法の操作は、操作が、商業的に妥当な時間期間内に、当業者には、平均的なヒト又は当業者によって実施されることができないように、十分に複雑であり得る。例えば、本方法は、そのような人が商業的に妥当な時間内で方法を完了できないように、比較的複雑な計算に依存し得る。
【0343】
本出願全体を通して、様々な刊行物、特許、又は特許出願が参照されている。これらの出版物の全体の開示は、本発明が属する技術分野の状態をより完全に説明するために、本出願において参照により本明細書に組み込まれる。
【0344】
用語「含む(comprising)」は、本明細書では、列挙された要素のみならず、任意の追加の要素を更に包含する、オープンエンドであることが意図される。
【0345】
本明細書で使用するとき、用語「それぞれ」は、項目の集合を参照して使用されるとき、集合内の個々の項目を識別することを意図しているが、必ずしも集合内の全ての項目を指すものではない。明示的な開示又は文脈がそうでないことを明確に指示する場合、例外が生じ得る。
【0346】
上記の実施例を参照して本発明を説明したが、本発明から逸脱することなく様々な修正を行うことができることを理解されたい。
【0347】
本出願のモジュールは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかは、異なるプロセッサ若しくはコンピュータ上に実装されてもよく、又は多数の異なるプロセッサ若しくはコンピュータの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。また、本明細書で使用するとき、用語「モジュール」は、モジュールを構成するために本明細書で考慮することができる、「サブモジュール」を含むことができる。モジュールとして指定された図のブロックはまた、方法におけるフローチャート工程と考えることができる。
【0348】
本明細書で使用するとき、情報項目の「識別」は、その情報の項目の直接仕様を必ずしも必要としない。情報は、単に、一方向の1つ以上の層を通じた実際の情報を単に参照することによって、又は情報の実際の項目を決定するのに十分である異なる情報の1つ以上のアイテムを識別することによって、フィールド内で「識別され得る」ことができる。加えて、用語「指定する」は、本明細書では、「識別する」と同じであることを意味する。
【0349】
本明細書で使用するとき、所与の信号、イベント又は値は、「先行する信号、イベント又は先行する信号の値、所与の信号、イベント、又は値によって影響されるイベント又は値に依存する。介在処理要素、工程又は期間が存在する場合、所与の信号、イベント、又は値は、「先行する信号、イベント又は値」に依存して「存在する」ことができる。介在処理要素又は工程が2つ又はそれ以上の信号、イベント、又は値を組み合わせる場合、処理要素又は工程の信号出力は、「信号、イベント、又は値入力のそれぞれ」に依存していると見なされる。所与の信号、イベント又は値が先行する信号、イベント又は値と同じである場合、これは単に、所与の信号、イベント、又は値が「先行する信号、イベント又は値」に「依存して(in dependence upon)若しくは(dependent on)」又は先行する信号、イベント又は値に「基づいて」いると見なされる。別の信号、イベント又は値に対する所与の信号、イベント、又は値の「応答性」は、同様に定義される。
【0350】
本明細書で使用するとき、「並行して」又は「並行して」は、正確な同時性を必要としない。個人の1人の評価が、個人の別の評価が完了する前に開始する場合に十分である。
【0351】
本出願は、「クラスター画像」及び「クラスター強度画像」を互換的に指す。
特定の実施態様
【0352】
本発明者らは、知識蒸留技術を使用して人工知能ベースのベースコールの様々な実施態様を考察する。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザーを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。
【0353】
本発明者らは、ベースコールの人工知能ベースの方法を開示する。本方法は、訓練データとしてクラスター画像の第1のセットを使用して、教師(第1の、大きい)ベースコーラを訓練することを含む。クラスター画像の第1のセットは、離散値ラベルを使用して正しいベースコールを識別する第1のグラウンドトゥルースデータでアノテーションされる。一実施態様においては、離散値ラベルが、正しい塩基に対しては1の値で、かつ誤った塩基に対してはゼロの値でワンホットエンコードされている。一実施態様では、離散値ラベルは、正しい塩基に対しては1に近い値を有し、かつ誤った塩基に対してはゼロに近い値を有する。
【0354】
本方法は、訓練された教師(第1の、より大きい)ベースコーラをクラスター画像の第2のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の第2のセットを評価することを含む。ベースコール予測は、予測されたベースコールを識別する連続値化された重みによって表される。一実施態様では、連続値化された重みは、アデニン(A)、シトシン(C)、チミン(T)、及びグアニン(G)である正しい塩基の確率分布の一部である。
【0355】
本方法は、クラスター画像の第2のセットを訓練データとして使用して、生徒(第2の、より小さい)ベースコーラを訓練することを含む。クラスター画像の第2のセットは、(i)離散値ラベル及び(ii)連続値化された重みに基づいて、正しいベースコールを識別する第2のグラウンドトゥルースデータがアノテーションされる。
【0356】
生徒(第2の、より小さい)ベースコーラは、教師(第1の、より大きい)ベースコーラよりも少ない処理モジュール及びパラメータを有する。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワーク層である。一実施態様では、パラメータのうちの1つは、ニューラルネットワーク層間の相互接続である。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワークフィルターである。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワークカーネルである。一実施態様では、パラメータのうちの1つは、乗算演算及び加算演算である。
【0357】
本方法は、訓練された生徒(第2の、より小さい)ベースコーラを、クラスター画像の第3のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の第3のセットを評価することを含む。
【0358】
開示されるこのセクション及び技術の他のセクションに記載される方法は、開示される追加の方法に関連して説明される以下の特徴及び/又は特徴のうちの1つ以上を含むことができる。簡潔性の目的で、本出願に開示される特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。
【0359】
一実施態様では、本方法は、クラスター画像の第2のセットを訓練データとして使用して、生徒(第2の、より小さい)ベースコーラを訓練することを含む。クラスター画像の第2のセットは、連続値化された重みに基づいて正しいベースコールを識別する第2のグラウンドトゥルースデータがアノテーションされる。
【0360】
一実施態様では、クラスター画像は、クラスターの強度放射を示す。強度放射は、配列決定実行の配列決定サイクル中に捕捉される。一実施態様では、クラスター画像は、クラスターの周囲背景の強度放射を更に示す。
【0361】
一実施態様では、クラスター画像の第1のセット、クラスター画像の第2のセット、及びクラスター画像の第3のセットが、1つ以上の共通クラスター画像を共有する。
【0362】
一実施態様では、本方法は、クラスター画像の第1のセットを訓練データとして使用して、教師(第1の、より大きい)ベースコーラのアンサンブルを訓練することを含む。クラスター画像の第1のセットは、離散値ラベルを使用して正しいベースコールを識別する第1のグラウンドトゥルースデータでアノテーションされる。アンサンブルは、教師(第1の、より大きい)ベースコーラの2つ以上のインスタンスを含む。
【0363】
本方法は、訓練された教師(第1の、より大きい)ベースコーラをクラスター画像の第2のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の第2のセットを評価することを含む。ベースコール予測は、予測されたベースコールを識別する連続値化された重みによって表される。
【0364】
本方法は、クラスター画像の第2のセットを訓練データとして使用して、生徒(第2の、より小さい)のベースコーラを訓練することを含む。クラスター画像の第2のセットは、(i)離散値ラベル及び(ii)連続値化された重みに基づいて、正しいベースコールを識別する第2のグラウンドトゥルースデータがアノテーションされる。生徒(第2の、より小さい)ベースコーラは、教師(第1の、より大きい)ベースコーラのアンサンブルよりも少ない処理モジュール及びパラメータを有する。
【0365】
本方法は、訓練された生徒(第2の、より小さい)ベースコーラをクラスター画像の第3のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の第3のセットを評価することを含む。
【0366】
一実施態様では、本方法は、リアルタイムベースコールのための配列決定機器の1つ以上の並列プロセッサ上で訓練された生徒(第2のより小さい)のベースコーラを実装することを含む。
【0367】
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
【0368】
別の実施態様では、人工知能ベースのベースコールのためのシステムを開示する。システムは、クラスター画像について訓練されたベースコーラ(生徒、第2の、より小さいベースコーラ/エンジン)を含み、当該クラスター画像は、(i)別のベースコーラを訓練するために使用されるグラウンドトゥルースデータの離散値ラベル、及び(ii)推論中にクラスター画像について別のベースコーラ(教師、第1の、より大きいベースコーラ/エンジン)によって生成されたベースコール予測値の連続値化された重みに基づいて、正しいベースコールを識別するグラウンドトゥルースデータでアノテーションされている。
【0369】
ベースコーラ(生徒、第2の、より小さいベースコーラ/エンジン)は、別のベースコーラ(教師、第1の、より大きいベースコーラ/エンジン)よりも少ない処理モジュール及びパラメータを有する。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワーク層である。一実施態様では、パラメータのうちの1つは、ニューラルネットワーク層間の相互接続である。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワークフィルターである。一実施態様では、処理モジュールのうちの1つは、ニューラルネットワークカーネルである。一実施態様では、パラメータのうちの1つは、乗算演算及び加算演算である。
【0370】
ベースコーラ(生徒、第2の、より小さいベースコーラ/エンジン)は、追加のクラスター画像を評価し、追加のクラスター画像について、ベースコール予測を生成するように構成されている。
【0371】
離散値ラベルは、正しい塩基に対しては1の値で、かつ誤った塩基に対してはゼロの値でワンホットエンコードされている。連続値化された重みは、アデニン(A)、シトシン(C)、チミン(T)、及びグアニン(G)である正しい塩基の確率分布の一部である。
【0372】
更に別の実施態様では、人工知能ベースのベースコールのためのシステムを開示する。システムは、生徒(第2の、より小さい)ベースコーラによって生成されたベースコール予測に基づいて、正しいベースコールを識別するグラウンドトゥルースデータでアノテーションされたクラスター画像について訓練された教師(第1の、より大きい)ベースコーラを含む。
【0373】
更に別の実施態様では、本発明者らはベースコールの人工知能ベースの方法を開示する。この方法は、訓練データとしてクラスター画像の第1のセットを使用して、教師(第1の、大きい)ベースコーラを訓練することを含む。クラスター画像の第1のセットは、離散値ラベルを使用して正しいベースコールを識別する第1のグラウンドトゥルースデータでアノテーションされる。一実施態様においては、離散値ラベルが、正しい塩基に対しては1の値で、かつ誤った塩基に対してはゼロの値でワンホットエンコードされている。一実施態様では、離散値ラベルは、正しい塩基に対しては1に近い値を有し、かつ誤った塩基に対してはゼロに近い値を有する。
【0374】
本方法は、訓練された教師(第1の、より大きい)ベースコーラをクラスター画像の第2のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の第2のセットを評価することを含む。ベースコール予測は、予測されたベースコールを識別する連続値化された重みによって表される。一実施態様では、連続値化された重みは、アデニン(A)、シトシン(C)、チミン(T)、及びグアニン(G)である正しい塩基の確率分布の一部である。
【0375】
本方法は、クラスター画像の第2のセットを訓練データとして使用して、生徒(第2の、より小さい)ベースコーラを訓練することを含む。クラスター画像の第2のセットは、(i)離散値ラベル及び(ii)連続値化された重みに基づいて、正しいベースコールを識別する第2のグラウンドトゥルースデータがアノテーションされる。
【0376】
いくつかの実施態様では、教師ベースコーラ(第1の、より大きいエンジン/モデル)は、ニューラルネットワークベースのベースコーラである。一実施態様では、教師ベースコーラ(第1の、より大きいエンジン/モデル)は、複数の畳み込み層を有する畳み込みニューラルネットワーク(CNN)である。別の実施態様では、それは、長い短期メモリネットワーク(LSTM)、双方向LSTM(Bi-LSTM)、又はゲートされた反復単位(GRU)などの再帰型ニューラルネットワーク(RNN)である。更に別の実施態様では、それは、CNN及びRNNの両方を含む。
【0377】
更に他の実施態様では、教師ベースコーラ(第1の、より大きいエンジン/モデル)は、1D畳み込み、2D畳み込み、3D畳み込み、4D畳み込み、5D畳み込み、拡張又は膨張畳み込み、転置畳み込み、奥行分離可能な畳み込み、pointwise畳み込み、1x1畳み込み、グループ畳み込み、扁平畳み込み、空間及びクロスチャネルの畳み込み、シャッフルされたグループ化畳み込み、空間的な分離可能な畳み込み、並びに逆畳み込みを使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ以上の損失機能を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期確率的勾配降下法(stochastic gradient descent、SGD)のような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプルーニング層、ダウンサンプルーニング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU,指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、規則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含み得る。
【0378】
いくつかの実施態様では、生徒ベースコーラ(第2の、より小さいエンジン/モデル)は、ニューラルネットワークベースのベースコーラである。一実施態様では、生徒ベースコーラ(第2の、より小さいエンジン/モデル)は、複数の畳み込み層を有する畳み込みニューラルネットワーク(CNN)である。別の実施態様では、それは、長い短期メモリネットワーク(LSTM)、双方向LSTM(Bi-LSTM)、又はゲートされた反復単位(GRU)などの再帰型ニューラルネットワーク(RNN)である。更に別の実施態様では、それは、CNN及びRNNの両方を含む。
【0379】
更に他の実施態様では、生徒ベースコーラ(第2の、より小さいエンジン/モデル)は、1D畳み込み、2D畳み込み、3D畳み込み、4D畳み込み、5D畳み込み、拡張又は膨張畳み込み、転置畳み込み、奥行分離可能な畳み込み、pointwise畳み込み、1x1畳み込み、グループ畳み込み、扁平畳み込み、空間及びクロスチャネルの畳み込み、シャッフルされたグループ化畳み込み、空間的な分離可能な畳み込み、並びに逆畳み込みを使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ以上の損失機能を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期確率的勾配降下法(stochastic gradient descent、SGD)のような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプルーニング層、ダウンサンプルーニング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU,指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、正則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含み得る。
【0380】
項目
【0381】
本発明者らは、以下の項目を開示する。
36.計算効率的なベースコールを実行する人工知能ベースの方法であって、方法は、
クラスター強度画像を介して第1のベースコーラを訓練し、かつクラスター強度画像をベースコール予測にマッピングする第1の訓練されたベースコーラを生成することと、
第1の訓練されたベースコーラで開始すること、及び各反復が、訓練され始動しているベースコーラを入力として使用し、訓練されプルーニングされたベースコーラを出力として生成するループを実行すること、であって、訓練されプルーニングされたベースコーラは、訓練され始動しているベースコーラよりも少ない処理要素を有し、
各反復が、(i)ベースコール予測工程、(ii)寄与度測定工程、(iii)プルーニング工程、及び(iv)再訓練工程を含み、
ベースコール予測工程が、順伝播中に、訓練され始動しているベースコーラの処理要素を通じてクラスター強度画像のサブセットを処理し、ベースコール予測を生成し、
寄与度測定工程が、ベースコール予測に寄与された処理要素の量を識別する処理要素の各々について寄与度スコアを生成し、
プルーニング工程が、それらの寄与度スコアに基づいて処理要素のサブセットを選択し、訓練され始動しているベースコーラから、処理要素の選択されたサブセットを除去することによって、訓練されプルーニングされたベースコーラを生成し、
再訓練工程が、クラスター強度画像を介して訓練されプルーニングされたベースコーラを更に訓練し、訓練されプルーニングされたベースコーラを訓練され始動しているベースコーラとして連続的な反復に使用できるようする、ことと、
n回の反復後にループを終了させ、n回目の反復によって生成された訓練されプルーニングされたベースコーラを更なるベースコールに使用することと、を含む。
37.処理要素の寄与度スコアが、
処理要素の重みに絶対関数を適用し、絶対重み値を生成することと、
絶対重み値を合計し、処理要素についての寄与度スコアを生成することと、によって生成される、項目36に記載の人工知能ベースの方法。
38.項目1及び項目27に最終的に依拠する項目の各々を実装する、項目36に記載の人工知能ベースの方法。
39.計算効率的なベースコールを実行する人工知能ベースの方法であって、方法は、
クラスター強度画像を介して第1のベースコーラを訓練し、かつクラスター強度画像をベースコール予測にマッピングする第1の訓練されたベースコーラを生成することと、
第1の訓練されたベースコーラで開始すること、及び各反復が、訓練され始動しているベースコーラを入力として使用し、訓練されプルーニングされたベースコーラを出力として生成するループを実行すること、であって、訓練されプルーニングされたベースコーラは、訓練され始動しているベースコーラよりも少ない処理要素を有し、
各反復が、(i)クラスター特徴マップ生成工程、(ii)勾配決定工程、(ii)中間特徴値生成工程、(iv)特徴和生成工程、(v)サブセット出力生成工程、(viii)サブセット選択工程、(vii)プルーニング工程、(viii)クラスター特徴マップ識別工程、及び(ix)再訓練工程を含み、
クラスター特徴マップ生成工程が、順伝播中に、訓練され始動しているベースコーラの処理要素を通じてクラスター強度画像のサブセットを処理し、各処理要素を使用して1つ以上のクラスター特徴マップを生成し、クラスター特徴マップに基づいてベースコール予測を生成し、
勾配決定工程が、逆伝播中に、ベースコール予測とグラウンドトゥルースベースコールとの間の誤差に基づいて、クラスター特徴マップの勾配を決定し、
中間特徴値生成工程が、クラスター特徴マップ内の特徴値と勾配のそれぞれ1つとを乗算して、クラスター特徴マップの各々についての中間特徴値のセットを生成し、
特徴和生成工程が、中間特徴値のセット内の中間特徴値を合計し、クラスター特徴マップの各々の特徴和を生成し、それによって、訓練され始動しているベースコーラの特徴和のセットを生成し、
サブセット出力生成工程が、特徴のセット内の特徴のサブセットを合計し、サブセットの各々のサブセット出力を生成し、
サブセット選択工程が、特徴和のセット内の1つ以上の特徴和に対してそれぞれのサブセット出力を評価することに基づいて、特徴和のサブセットのうちの1つ以上を選択し、
クラスター特徴マップ識別工程が、その特徴和が、特徴和の選択されたサブセットの一部であるこれらのクラスター特徴マップを識別し、
プルーニング工程が、訓練され始動しているベースコーラから、順伝播中に識別されたクラスター特徴マップを生成するために使用されたそれらの処理要素を除去することによって、訓練されプルーニングされたベースコーラを生成し、
再訓練工程が、クラスター強度画像を介して訓練されプルーニングされたベースコーラを更に訓練し、訓練されプルーニングされたベースコーラを訓練され始動しているベースコーラとして連続的な反復に使用できるようする、ことと、
n回の反復後にループを終了させ、n回目の反復によって生成された訓練されプルーニングされたベースコーラを更なるベースコールに使用することと、を含む。
40.特徴和のサブセットについてのサブセット出力が、サブセット内の特徴和の追加和に基づく、項目39に記載の人工知能ベースの方法。
41.特徴和のサブセットについてのサブセット出力が、サブセット内の特徴和の平均に基づく、項目40に記載の人工知能ベースの方法。
42.特徴和のサブセットについてのサブセット出力が、サブセット内の特徴和の指数和に基づく、項目41に記載の人工知能ベースの方法。
43.特徴和のサブセットについてのサブセット出力が、サブセット内の特徴和の乗法的相互作用に基づく、項目42に記載の人工知能ベースの方法。
44.サブセット選択工程が、特徴和のセットにおける特徴和の最も低いものに対してそれぞれのサブセット出力を評価し、そのサブセット出力が特徴和のセットにおける特徴和の最も低いものよりも低い特徴和のそれらのサブセットを選択することに基づいて、特徴和のサブセットを選択する、項目43記載の人工知能ベースの方法。
45.サブセット選択工程が、特徴和のセットにおける複数の特徴和の最も低いものに対してそれぞれのサブセット出力を評価し、そのサブセット出力が特徴和のセットにおける複数の特徴和の最も低いものよりも低い特徴和のそれらのサブセットを選択することに基づいて、特徴和のサブセットを選択する、項目44記載の人工知能ベースの方法。
46.サブセット選択工程が、サブセット出力がゼロである特徴和のサブセットを選択する、項目45に記載の人工知能ベースの方法。
47.サブセット選択工程が、サブセット出力がゼロに最も近い特徴和のサブセットを選択する、項目46に記載の人工知能ベースの方法。
48.計算効率的なベースコールを実行する人工知能ベースの方法であって、方法は、
クラスター強度画像を介して第1のベースコーラを訓練し、かつクラスター強度画像をベースコール予測にマッピングする第1の訓練されたベースコーラを生成することと、
第1の訓練されたベースコーラで開始すること、及び反復が、訓練され始動しているベースコーラを入力として使用し、訓練されプルーニングされたベースコーラを出力として生成するループを実行すること、であって、訓練されプルーニングされたベースコーラは、訓練され始動しているベースコーラよりも少ない処理要素を有し、
反復が、(i)ベースコール予測工程、(ii)寄与度測定工程、及び(iii)プルーニング工程を含み、
ベースコール予測工程が、順伝播中に、訓練され始動しているベースコーラの処理要素を通じて1つ以上のクラスター強度画像を処理し、ベースコール予測を生成し、
寄与度測定工程が、ベースコール予測に寄与された処理要素の量を識別する処理要素の各々について寄与度スコアを決定し、及び
プルーニング工程が、それらの寄与度スコアに基づいて処理要素のサブセットを選択し、訓練され始動しているベースコーラから、処理要素の選択されたサブセットを除去することによって、訓練されプルーニングされたベースコーラを生成する、ことと、を含む。
49.処理要素の各々についての寄与度スコアが、それらの対応する特徴マップに基づいて決定される、請求項48に記載の人工知能ベースの方法。
50.ループが、1つ以上の反復を含む、請求項48に記載の人工知能ベースの方法。
51.処理要素が、フィルターである、請求項48に記載の人工知能ベースの方法。
52.処理要素が、畳み込みフィルターである、請求項51に記載の人工知能ベースの方法。
53.処理要素が、カーネルである、請求項48に記載の人工知能ベースの方法。
54.処理要素が、畳み込みカーネルである、請求項53に記載の人工知能ベースの方法。
55.処理要素が、層である、請求項48に記載の人工知能ベースの方法。
56.処理要素が、畳み込み層である、請求項55に記載の人工知能ベースの方法。
【0382】
上述された方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
【符号の説明】
【0383】
800A 配列決定システム
802 共通のハウジング
804 温度制御システム
806 システムコントローラ
808 流体制御システム
810 システム容器又はインターフェース
812 バイオセンサー
814 流体貯蔵システム
816 照明システム
818 ユーザーインターフェース
820 ディスプレイ
822 ユーザー入力デバイス
図1
図2A
図2B
図3
図4A
図4B
図5
図6
図7
図8A
図8B
図8C
図8D
図8E
図9
図10A
図10B
図11A
図11B
図12
図13
図14
図15A
図15B
図15C
図15D
図15E
図15F
図16
図17
図18
図19
図20
図21
図22
【手続補正書】
【提出日】2022-08-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ベースコールの人工知能ベースの方法であって、前記方法が、
訓練データとしてクラスター画像の第1のセットを使用して、第1のニューラルネットワークベースコーラを訓練することであって、
クラスター画像が、配列決定実行の配列決定サイクル中に基材上の関連する検体のクラスターにおけるヌクレオチドの組み込みの結果として生成される強度放射を示し、
クラスター画像の前記第1のセットが、離散値ラベルを使用して正しいベースコールを識別する第1のグラウンドトゥルースデータでアノテーションされる、訓練することと、
訓練された前記第1のニューラルネットワークベースコーラをクラスター画像の第2のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の前記第2のセットを評価することであって、
前記ベースコール予測が、予測されたベースコールを識別する連続値化された重みによって表される、評価することと、
クラスター画像の前記第2のセットを訓練データとして使用して、第2のニューラルネットワークベースコーラを訓練することであって、
クラスター画像の前記第2のセットが、
(i)前記離散値ラベルと、
(ii)前記連続値化された重みと、に基づいて正しいベースコールを識別する第2のグラウンドトゥルースデータでアノテーションされ、
前記第2のニューラルネットワークベースコーラが、前記第1のニューラルネットワークベースコーラよりも少ない処理モジュール及びパラメータを有する、訓練することと、
訓練された前記第2のニューラルネットワークベースコーラをクラスター画像の第3のセットに適用し、ベースコール予測を生成することによって、推論データとしてクラスター画像の前記第3のセットを評価することと、を含む、人工知能ベースの方法。
【請求項2】
前記離散値ラベルが、正しい塩基に対しては1の値で、かつ誤った塩基に対してはゼロの値でワンホットエンコードされている、請求項1に記載の人工知能ベースの方法。
【請求項3】
前記離散値ラベルが、前記正しい塩基に対しては1に近い値を有し、かつ前記誤った塩基に対してはゼロに近い値を有する、請求項2に記載の人工知能ベースの方法。
【請求項4】
前記連続値化された重みが、アデニン(A)、シトシン(C)、チミン(T)、及びグアニン(G)である正しい塩基の確率分布の一部である、請求項1から3のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項5】
前記処理モジュールのうちの1つが、ニューラルネットワーク層であ前記パラメータのうちの1つが、前記ニューラルネットワーク層間の相互接続である、請求項1から4のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項6】
前記処理モジュールのうちの1つが、ニューラルネットワークフィルターである、請求項1から5のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項7】
前記処理モジュールのうちの1つが、ニューラルネットワークカーネルである、請求項1から6のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項8】
前記パラメータのうちの1つが、乗算演算及び加算演算である、請求項1から7のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項9】
クラスター画像が、クラスターの強度放射を示し、
前記強度放射が、配列決定実行の配列決定サイクル中に捕捉され、
前記クラスター画像が、前記クラスターの周囲の背景の強度放射を更に示す、
請求項1から8のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項10】
クラスター画像の前記第1のセット、クラスター画像の前記第2のセット、及びクラスター画像の前記第3のセットが、1つ以上の共通クラスター画像を共有する、請求項1から9のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項11】
クラスター画像の前記第1のセットを訓練データとして使用して、前記第1のニューラルネットワークベースコーラのアンサンブルを訓練することであって、
クラスター画像の前記第1のセットが、前記離散値ラベルを使用して前記正しいベースコールを識別する前記第1のグラウンドトゥルースデータでアノテーションされ、かつ
前記アンサンブルが、前記第1のニューラルネットワークベースコーラの2つ以上のインスタンスを含む、訓練することと、
訓練された前記第1のニューラルネットワークベースコーラをクラスター画像の前記第2のセットに適用し、前記ベースコール予測を生成することによって、推論データとしてクラスター画像の前記第2のセットを評価することであって、
前記ベースコール予測が、前記予測されたベースコールを識別する前記連続値化された重みによって表される、評価することと、
クラスター画像の前記第2のセットを訓練データとして使用して、前記第2のニューラルネットワークベースコーラを訓練することであって、
クラスター画像の前記第2のセットが、
(i)前記離散値ラベルと、
(ii)前記連続値化された重みと、に基づいて前記正しいベースコールを識別する前記第2のグラウンドトゥルースデータでアノテーションされ、
前記第2のニューラルネットワークベースコーラが、前記第1のニューラルネットワークベースコーラの前記アンサンブルよりも少ない処理モジュール及びパラメータを有する、訓練することと、
訓練された前記第2のニューラルネットワークベースコーラをクラスター画像の前記第3のセットに適用し、前記ベースコール予測を生成することによって、推論データとしてクラスター画像の前記第3のセットを評価することと、
を更に含む、請求項1から10のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項12】
リアルタイムベースコールのための配列決定機器の1つ以上の並列プロセッサ上に、訓練された前記第2のニューラルネットワークベースコーラを実装すること、
を更に含む、請求項1から11のうちのいずれか一項に記載の人工知能ベースの方法。
【請求項13】
人工知能ベースのベースコールのためのシステムであって、
クラスター画像について訓練されたニューラルネットワークベースコーラであって、
前記クラスター画像が、
(i)別のニューラルネットワークベースコーラを訓練するために使用されるグラウンドトゥルースデータの離散値ラベル、及び
(ii)推論中に前記クラスター画像について前記別のニューラルネットワークベースコーラによって生成されたベースコール予測値の連続値化された重みに基づいて正しいベースコールを識別するグラウンドトゥルースデータでアノテーションされている、ニューラルネットワークベースコーラを含み、
前記ニューラルネットワークベースコーラが、前記別のニューラルネットワークベースコーラよりも少ない処理モジュール及びパラメータを有し、かつ
前記ニューラルネットワークベースコーラが、追加のクラスター画像を評価し、前記追加のクラスター画像について、ベースコール予測を生成するように構成されている、システム。
【請求項14】
前記離散値ラベルが、正しい塩基に対しては1の値で、かつ誤った塩基に対してはゼロの値でワンホットエンコードされて、
前記連続値化された重みが、アデニン(A)、シトシン(C)、チミン(T)、及びグアニン(G)である正しい塩基の確率分布の一部である、請求項13に記載のシステム。
【請求項15】
前記処理モジュールのうちの1つが、ニューラルネットワーク層であり、
前記パラメータのうちの1つが、前記ニューラルネットワーク層間の相互接続であり、
前記処理モジュールのうちの1つが、ニューラルネットワークフィルターであり、
前記処理モジュールのうちの1つが、ニューラルネットワークカーネルであり、
前記パラメータのうちの1つが、乗算演算及び加算演算である、請求項13または14に記載のシステム。
【国際調査報告】