IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ライフ テクノロジーズ コーポレーションの特許一覧

特許7230208サンガーシーケンシングの深層ベースコーラ
<>
  • 特許-サンガーシーケンシングの深層ベースコーラ 図1
  • 特許-サンガーシーケンシングの深層ベースコーラ 図2
  • 特許-サンガーシーケンシングの深層ベースコーラ 図3
  • 特許-サンガーシーケンシングの深層ベースコーラ 図4
  • 特許-サンガーシーケンシングの深層ベースコーラ 図5
  • 特許-サンガーシーケンシングの深層ベースコーラ 図6
  • 特許-サンガーシーケンシングの深層ベースコーラ 図7
  • 特許-サンガーシーケンシングの深層ベースコーラ 図8
  • 特許-サンガーシーケンシングの深層ベースコーラ 図9
  • 特許-サンガーシーケンシングの深層ベースコーラ 図10
  • 特許-サンガーシーケンシングの深層ベースコーラ 図11
  • 特許-サンガーシーケンシングの深層ベースコーラ 図12
  • 特許-サンガーシーケンシングの深層ベースコーラ 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-17
(45)【発行日】2023-02-28
(54)【発明の名称】サンガーシーケンシングの深層ベースコーラ
(51)【国際特許分類】
   G06N 3/0442 20230101AFI20230220BHJP
   G06N 3/08 20230101ALI20230220BHJP
   C12M 1/34 20060101ALI20230220BHJP
   C12Q 1/6869 20180101ALI20230220BHJP
【FI】
G06N3/0442
G06N3/08
C12M1/34 Z
C12Q1/6869 Z
【請求項の数】 17
(21)【出願番号】P 2021533298
(86)(22)【出願日】2019-12-10
(65)【公表番号】
(43)【公表日】2022-02-02
(86)【国際出願番号】 US2019065540
(87)【国際公開番号】W WO2020123552
(87)【国際公開日】2020-06-18
【審査請求日】2021-08-06
(31)【優先権主張番号】62/777,429
(32)【優先日】2018-12-10
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502221282
【氏名又は名称】ライフ テクノロジーズ コーポレーション
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100098475
【弁理士】
【氏名又は名称】倉澤 伊知郎
(74)【代理人】
【識別番号】100130937
【弁理士】
【氏名又は名称】山本 泰史
(74)【代理人】
【識別番号】100144451
【弁理士】
【氏名又は名称】鈴木 博子
(74)【代理人】
【識別番号】100123630
【弁理士】
【氏名又は名称】渡邊 誠
(72)【発明者】
【氏名】チュ ヨン
(72)【発明者】
【氏名】シュナイダー ステファニー
(72)【発明者】
【氏名】シェイファー ライラン
(72)【発明者】
【氏名】ウー デヴィッド
【審査官】杉浦 孝光
(56)【参考文献】
【文献】特許第5408380(JP,B1)
【文献】TENG, Haotian, et al.,"Chiron: translating nanopore raw signal directly into nucleotide sequence using deep learning",GIGASCIENCE,英国,2018年04月10日,Vol. 7, issue. 5,pp.1-9,[online] [検索日:2022.06.28] <URL: https://academic.oup.com/gigascience/article/7/5/giy037/4966989>
【文献】MOHAMMED, Omniyah G., et al.,"Novel algorithms for accurate DNA base-calling",JOURNAL OF BIOMEDICAL SCIENCE AND ENGINEERING,米国,2013年02月,vol.6, no.2,pp.165-174,[online] [検索日:2022.06.28] <URL: https://www.scirp.org/journal/paperinformation.aspx?paperid=28309>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
C12M 1/00- 3/10
C12Q 1/00- 3/00
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワーク制御システムであって、
サンガーシーケンサに結合され、生体サンプルのトレースを生成するトレースジェネレータと、
前記トレースをスキャンウィンドウに分割するセグメンタと、
前記スキャンウィンドウをシフトするアライナと、
トレーニングで使用する標的の注釈付きベースコールを生成するために、前記スキャンウィンドウの各々に関連付けられた注釈付きベースコールを判定するロジックと、
双方向回帰型ニューラルネットワーク(BRNN)であって、
少なくとも1つの長・短期記憶(LSTM)または一般的な回帰型ユニット(GRU)層と、
スキャンウィンドウ内のすべてのスキャンのスキャン標識確率を出力するように構成された出力層と、
前記出力スキャン標識確率と前記標的の注釈付きベースコールとの間の損失を計算するCTC損失関数と、を含む、双方向回帰型ニューラルネットワーク(BRNN)と、
前記BRNNへの閉ループフィードバック制御として、前記BRNNの重みを更新して、各トレーニングステップで前記標的の注釈付きベースコールからランダムに選択されたトレーニングサンプルのミニバッチに対する損失を最小化するように構成された勾配降下オプティマイザと、
前記トレースにノイズ、スパイク、又は色素ブロブアーティファクトを注入するように構成された、少なくとも1つの敵対的生成ネットワークと、を含む、システム。
【請求項2】
250スキャンずつシフトした500スキャンを含む、前記スキャンウィンドウの各々をさらに含む、請求項1に記載のシステム。
【請求項3】
トレース全体の標識確率を生成するために、すべてのスキャンウィンドウの前記標識確率を集めるアグリゲータをさらに含む、請求項1に記載のシステム。
【請求項4】
前記CTC損失関数と前記ベースコールの出力に基づいて、前記ベースコールのスキャン位置を識別する大ファインダアルゴリズムをさらに含む、請求項3に記載のシステム。
【請求項5】
前記トレース全体の前記標識確率を前記生体サンプルのベースコールに変換するプレフィックスビーム検索デコーダをさらに含む、請求項3に記載のシステム。
【請求項6】
前記ベースコールが前記生体サンプルの5’および3’末端にある、請求項5に記載のシステム。
【請求項7】
前記トレースが、生の色素RFUのシーケンスである、請求項1に記載のシステム。
【請求項8】
前記トレースが、1つ以上のキャピラリ電気泳動遺伝子解析装置から収集された生のスペクトルデータである、請求項1に記載のシステム。
【請求項9】
プロセス制御方法であって、
生体サンプルのトレースを生成するために、サンガーシーケンサを操作することと、
前記トレースをスキャンウィンドウに分割することと、
前記スキャンウィンドウをシフトすることと、
標的の注釈付きベースコールを生成するために、前記スキャンウィンドウの各々に関連付けられた注釈付きベースコールを判定することと、
前記スキャンウィンドウを双方向回帰型ニューラルネットワーク(BRNN)に入力することであって、双方向回帰型ニューラルネットワーク(BRNN)が、
少なくとも1つの長・短期記憶(LSTM)または一般的な回帰型ユニット(GRU)層と、
スキャンウィンドウ内のすべてのスキャンのスキャン標識確率を出力するように構成された出力層と、
前記出力スキャン標識確率と前記標的の注釈付きベースコールとの間の損失を計算するCTC損失関数と、
1つ以上のノイズ、スパイク、または色素ブロブアーティファクトを前記トレースに注入するように構成された、少なくとも1つの敵対的生成ネットワークと、
を含む、入力することと、
前記BRNNへの閉ループフィードバック制御として、前記BRNNの重みを更新して、各トレーニングステップで前記標的の注釈付きベースコールからランダムに選択されたトレーニングサンプルのミニバッチに対する損失を最小化するように構成された勾配降下オプティマイザを介して、前記損失を適用することと、を含む、方法。
【請求項10】
250スキャンずつシフトした500スキャンを含む、前記スキャンウィンドウの各々をさらに含む、請求項に記載の方法。
【請求項11】
前記トレース全体の標識確率を生成するために、すべてのスキャンウィンドウの前記標識確率を集めることをさらに含む、請求項に記載の方法。
【請求項12】
前記CTC損失関数と前記ベースコールの出力に基づいて、前記ベースコールのスキャン位置を識別することをさらに含む、請求項11に記載の方法。
【請求項13】
前記トレース全体の前記標識確率を前記生体サンプルのベースコールにデコードすることをさらに含む、請求項11に記載の方法。
【請求項14】
前記ベースコールが前記生体サンプルの5’および3’末端にある、請求項13に記載の方法。
【請求項15】
前記トレースが、生の色素RFUの1つのシーケンスまたは1つ以上のキャピラリ電気泳動遺伝子解析装置から収集された生のスペクトルデータである、請求項に記載の方法。
【請求項16】
シーケンシングベースコールのシーケンスの品質評価方法であって、
複数のサンプルのスキャン標識確率、ベースコール、およびスキャン位置を受信することと、
前記複数のサンプル内の各サンプルに対する各ベースコールの中心スキャン位置の周りの前記スキャン標識確率を使用して、前記複数のサンプルに基づいて複数のトレーニングサンプルを生成することと、
前記複数のトレーニングサンプルの各サンプルの各ベースコールにカテゴリを割り当てることであって、前記カテゴリが、正確であるか不正確であるかのいずれかに対応し、
複数の反復の各々について:
i)前記複数のトレーニングサンプルのサブセットをランダムに選択すること、
ii)ニューラルネットワークによって、前記複数のトレーニングサンプルの前記選択されたサブセットを受信することであって、前記ニューラルネットワークが、
1つ以上の隠れ層と、
出力層と、
複数のネットワーク要素であって、各ネットワーク要素が重みに関連付けられている、複数のネットワーク要素と、を含む、受信すること、
iii)前記出力層によって、仮説関数を使用して前記スキャン標識確率に基づいて予測されたエラー確率を出力すること、
iv)前記複数のトレーニングサンプルの前記サブセットの各サンプルの各ベースコールについて、前記予測されたエラー確率と割前記割り当てられたカテゴリとの間の損失を計算すること、
v)ネットワークオプティマイザを使用して、前記複数のトレーニングサンプルの前記選択されたサブセットに対する前記損失を最小化するために、前記複数のネットワーク要素の前記重みを更新すること、
vi)前記ニューラルネットワークをトレーニングされたネットワークとして複数のトレーニングされたネットワークに記憶すること、および
vii)所定数のトレーニングステップに達する、または、検証の損失もしくはエラーがこれ以上改善することができなくなるまで、ステップi)に戻ること、を行う、割り当てることと、
前記トレーニングサンプルの選択されたサブセットに含まれなかった複数のサンプルの独立したサブセットを使用して、前記複数のトレーニングされたネットワーク内の各トレーニングされたネットワークの評価損失またはエラー率を計算することと、
前記複数のトレーニングされたネットワークから最良のトレーニングされたネットワークを選択することであって、前記最良のトレーニングされたネットワークが最小の評価損失またはエラー率を有する、選択することと、を含む、方法。
【請求項17】
入力サンプルのベースコール位置の周りのスキャン標識確率を受信することと、
前記入力サンプルのベースコール位置の周りの前記スキャン標識確率を前記選択されたトレーニングされたネットワークに提供することによって、前記入力サンプルのエラー確率を出力することと、
前記出力されたエラー確率に基づいて複数の品質スコアを判定することと、
前記複数の品質スコアを出力することと、をさらに含む、請求項16に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、ベースコーリングのためのシステム、デバイス、および方法に関し、より具体的には、サンガーシーケンシング解析において深層機械学習を使用するベースコーリングのためのシステム、デバイス、および方法に関する。
【背景技術】
【0002】
キャピラリ電気泳動(CE)遺伝子解析装置を使用したサンガーシーケンシングは、ゴールドスタンダードDNAシーケンシングテクノロジであり、高度な精度、長時間読み取り機能、および多くの研究分野での多様なアプリケーションをサポートする柔軟性を提供する。CE遺伝子解析装置上のサンガーシーケンシングのベースコールおよび品質値(QV)の精度は、シーケンシングプロジェクトを成功させるために不可欠である。従来のベースコーラは、シーケンシングプラットフォームおよびアプリケーションをサポートする完全な統合ベースコーリングソリューションを提供するために開発された。これは、もともと長いプラスミドクローン(純粋な塩基)をベースコールするように設計されており、その後、変異体の識別をサポートするためにベースコール混合塩基データに拡張された。
【0003】
しかしながら、明らかな混合塩基は、予測QVが高くても純粋塩基と呼ばれることがあり、純粋塩基が誤って混合塩基と呼ばれる偽陽性もまた、色素ブロブなどのシーケンシングアーティファクト、ポリメラーゼスリッページおよびプライマの不純物によるn-1ピーク、移動度シフトなどによっても比較的頻繁に発生する。明らかに、一塩基多型(SNP)およびヘテロ接合挿入欠失変異体(hetインデル)などの変異体を識別するためのシーケンシングアプリケーションをサポートするために、混合塩基のベースコーリングおよびQV精度を改善する必要がある。5’および3’末端での従来のベースコーラのベースコーリングの精度も、移動度シフトならびに5’および3’末端での低分解能のため、比較的低くなる。従来のベースコーラはまた、長さが150塩基対(bps)よりも短い、特に100bpsよりも短いアンプリコンをベースコールするのに苦労し、平均ピーク間隔、平均ピーク幅、間隔曲線、および/または幅曲線を推定できず、エラー率が増加する場合がある。
【0004】
したがって、混合塩基ならびに5’および3’末端のベースコーリング精度の改善は非常に望ましく、その結果、ベースコーリングアルゴリズムはサンガーシーケンシングデータの忠実度を高め、変異体の識別を改善し、読み取り長を増加させ、また、シーケンシングアプリケーションのシーケンシングコストを節約できる。
【0005】
キャピラリ電気泳動の変性は、当業者に周知である。概観すると、核酸サンプルはキャピラリの入口末端でキャピラリ内の変性分離媒体に注入され、キャピラリの末端に電界が印加される。サンプル、例えば、ポリメラーゼ連鎖反応(PCR)混合物または他のサンプル中の異なる核酸成分は、それらの電気泳動特性の違いにより、異なる速度で検出器ポイントに移動する。その結果、それらは異なる時間に検出器(通常は紫外線(UV)または蛍光検出器)に到達する。結果は一連の検出されたピークとして表示され、各ピークは、理想的にはサンプルの1つの核酸成分または種を表す。ピーク面積および/またはピーク高さは、混合物中の成分の初期濃度を示す。
【0006】
アーティファクトピークを含む任意の所与のピークの大きさは、ほとんどの場合、核酸、例えば、DNAによるUV吸収、または核酸に関連付けられた1つ以上の標識からの蛍光発光のいずれかに基づいて光学的に判定される。核酸CE検出に適用可能なUVおよび蛍光検出器は、当技術分野で周知である。
【0007】
CEキャピラリ自体は石英であることが多いが、当業者に既知である他の材料を使用することもできる。単一および複数のキャピラリ機能の両方を有するいくつかのCEシステムが市販されている。本明細書に記載の方法は、核酸サンプルのCEを変性するための任意のデバイスまたはシステムに適用可能である。
【0008】
電荷対摩擦抵抗比は、遊離溶液中の異なるサイズのポリヌクレオチドで同じであるため、電気泳動分離にはふるい(すなわち、分離)媒体の存在が必要である。適用可能なCE分離マトリックスは、核酸CEの変性に必要な変性剤の存在に適合し、その一般的な例は8M尿素である。
【発明の概要】
【0009】
システムおよび方法は、ベースコーリングアプリケーションにおける、例えば、マイクロ流体分離(ガラス、シリコンまたは他の基板にエッチングされたマイクロチャネルを通じて分離が行われる)、または単一もしくは複数の円筒形のキャピラリチューブを使用するキャピラリ電気泳動による分離に基づいたベースコーリングシステムにおける使用について説明される。
【0010】
任意の特定の要素または行為の考察を容易に識別するために、参照番号における最上位桁(複数可)は、その要素が最初に導入された、図の番号を指す。
【図面の簡単な説明】
【0011】
図1】一実施形態による、CEデバイス100を示す。
図2】一実施形態による、CEシステム200を示す。
図3】一実施形態による、CEプロセス300を示す。
図4】一実施形態による、CEプロセス400を示す。
図5】一実施形態による、基本的な深層ニューラルネットワーク500を示す。
図6】一実施形態による、人工ニューロン600を示す。
図7】一実施形態による、回帰型ニューラルネットワーク700を示す。
図8】一実施形態による、双方向回帰型ニューラルネットワーク800を示す。
図9】一実施形態による、長・短期記憶900を示す。
図10】一実施形態による、ベースコーラシステム1000を示す。
図11】一実施形態による、スキャン標識モデルトレーニング方法1100を示す。
図12】一実施形態による、QVモデルトレーニング方法1200を示す。
図13】本発明の実施形態を組み込むことができるコンピューティングデバイス1300の例示的なブロック図である。
【発明を実施するための形態】
【0012】
本明細書で使用される用語は、特に明示的にまたは文脈によって示されない限り、当技術分野のその通常の意味と一致するべきである。
【0013】
この文脈での「品質値」は、所与のベースコールがエラーになる可能性の推定(または予測)を指す。通常、品質値はPhredプログラムによって確立された規則に従ってスケーリングされ、QV=-10log10(Pe)であり、Peはコールがエラーである推定確率を表す。品質値は、ベースコーリングアルゴリズムおよびコンセンサスコーリングアルゴリズムの確実性の尺度である。値が大きいほど、アルゴリズムエラーの可能性が低くなる。サンプル品質値は、サンプルのべースごとの品質値を指し、コンセンサス品質値はコンセンサスごとの品質値である。
【0014】
この文脈での「シグモイド関数」は、f(x)=1/(exp(-x))の形態の関数を指す。シグモイド関数は、人工ニューラルネットワークにおける活性化関数として使用される。広範囲の入力値を0~1、場合によっては-1~1の範囲にマッピングする特性がある。
【0015】
この文脈における「キャピラリ電気泳動遺伝子解析装置」は、サンプルがロードされたキャピラリに電界を印加して、負に帯電したDNAフラグメントが正電極に向かって移動するようにする機器を指す。DNAフラグメントが媒体を移動する速度は、その分子量に反比例する。電気泳動のこのプロセスは、1塩基の分解能でサイズによって伸長産物を分離することができる。
【0016】
この文脈における「画像信号」は、データ実行中に塩基を同定するために使用される色素の1つからの蛍光の強度の読み取りを指す。信号強度の数値は、サンプルファイルの注釈ビューに表示される。
【0017】
この文脈における「例示的な市販のCEデバイス」は、とりわけ、Applied Biosystems,Inc.(ABI)の遺伝子解析装置モデル310(単一キャピラリ)、3130(4キャピラリ)、3130xL(16キャピラリ)、3500(8キャピラリ)、3500xL(24キャピラリ)、3730(48キャピラリ)、および3730xL(96キャピラリ)、Agilent7100デバイス、Prince Technologies,Inc.のPrinCE(商標)キャピラリ電気泳動システム、Lumex,Inc.のCapel-105(商標)CEシステム、ならびにBeckman CoulterのP/ACE(商標)MDQシステムを含む。
【0018】
この文脈における「塩基対」は、DNAシーケンス中の相補的ヌクレオチドを指す。チミン(T)は、アデニン(A)と相補的であり、グアニン(G)は、シトシン(C)と相補的である。
【0019】
この文脈における「ReLU」は、int入力の正の部分として定義された活性化関数である整流関数を指す。これは、ランプ関数としても既知であり、電気信号理論の半波整流に類似している。ReLUは、深層ニューラルネットワークにおける一般的な活性化関数である。
【0020】
この文脈における「ヘテロ接合体挿入欠失変異体」は、一塩基多型を指す。
【0021】
この文脈における「移動度シフト」は、異なる標識反応伸長産物に関連付けられた異なる蛍光色素分子の存在によって課せられる電気泳動移動度の変化を指す。
【0022】
この文脈における「変異体」は、コンセンサスシーケンスが、提供される参照シーケンスと異なる塩基を指す。
【0023】
この文脈における「ポリメラーゼスリッページ」は、DNA複製中にトリヌクレオチドまたはジヌクレオチドの拡張または収縮のいずれかをもたらす突然変異の形態を指す。スリッページイベントは、通常、反復ヌクレオチドのシーケンス(タンデムリピート)が複製部位で見つかったときに発生する。タンデムリピートは、ヌクレオチドの挿入および欠失が頻繁に起こり得るゲノムの不安定な領域である。
【0024】
この文脈における「アンプリコン」は、PCR反応の生成物を指す。通常、アンプリコンはDNAの短い断片である。
【0025】
この文脈における「ベースコール」は、蛍光信号の各ピーク(A、C、G、T、またはN)にヌクレオチド塩基を割り当てることを指す。
【0026】
この文脈における「生データ」は、4つの蛍光色素の各々について収集された蛍光強度(信号)を表示する多色グラフを指す。
【0027】
この文脈での「ベース間隔」は、1つのピークから次のピークまでのデータポイントの数を指す。負の間隔値または赤で表示された間隔値は、サンプルおよび/または解析パラメータに問題があることを示している。
【0028】
この文脈における「分離またはふるい媒体」は、ゲルを含むことを指すが、線状ポリアクリルアミド、ヒドロキシアルキルセルロース(HEC)、アガロース、および酢酸セルロースなどの非ゲル液体ポリマーも使用することができる。キャピラリ電気泳動に使用することができる他の分離媒体には、とりわけ、ポリ(N,N’-ジメチルアクリルアミド)(PDMA)、ポリエチレングリコール(PEG)、ポリ(ビニルピロリドン)(PVP)、ポリエチレンオキシド、多糖類、およびプルロニック(登録商標)ポリオールなどの水溶性ポリマー、各種ポリビニルアルコール(PVAL)系ポリマー、ポリエーテル水混合物、リオトロピックポリマー液晶が含まれるが、これらに限定されない。
【0029】
この文脈における「Adamオプティマイザ」は、古典的な確率的勾配降下法の代わりに使用できる最適化アルゴリズムを指し、トレーニングデータに基づいてネットワークの重みを反復的に更新する。確率的勾配降下法は、すべての重みの更新に対して単一の学習率(アルファと呼ばれる)を維持し、学習率はトレーニング中に変化しない。学習率は、ネットワークの重み(パラメータ)ごとに維持され、学習が進むにつれて個別に適応される。Adamは、確率的勾配降下法の他の2つの拡張の利点を組み合わせている。具体的には、スパース勾配の問題(例えば、自然言語およびコンピュータビジョンの問題)に対するパフォーマンスを改善させるパラメータごとの学習率を維持する適応勾配アルゴリズム(AdaGrad)、および、これも重みの勾配の最近の大きさの平均(例えば、それがどれだけ速く変化しているか)に基づいて適応されるパラメータごとの学習率を維持する二乗平均平根伝搬(RMSProp)である。これは、アルゴリズムがオンラインおよび非定常の問題(例えば、ノイズ)に対してうまく機能することを意味する。Adamは、AdaGradとRMSPropの両方の利点を認識している。Adamは、RMSPropのように平均一次モーメント(平均)に基づいてパラメータ学習率を適応させる代わりに、勾配の二次モーメントの平均(中心のない分散)も利用する。具体的には、アルゴリズムは勾配と二乗勾配の指数移動平均を計算し、パラメータのベータ1およびベータ2はこれらの移動平均の減衰率を制御する。移動平均の初期値と、1.0(推奨)に近いベータ1およびベータ2の値により、モーメント推定値がゼロに向かってバイアスされる。このバイアスは、最初にバイアスされた推定値を計算してから、バイアス補正された推定値を計算することによって克服される。
【0030】
この文脈における「双曲線正接関数」は、tanh(x)=sinh(x)/cosh(x)の形態の関数を指す。tanh関数は、人工ニューラルネットワークにおける一般的な活性化関数である。シグモイドと同様に、tanh関数もシグモイド(「s」字型)であるが、代わりに(-1,1)の範囲の値を出力する。したがって、tanhへの強い負の入力は、負の出力にマッピングされる。追加的に、ゼロ値の入力のみがゼロに近い出力にマッピングされる。これらの特性により、トレーニング中にネットワークが「スタック」する可能性が低くなる。
【0031】
この文脈における「相対蛍光単位」は、DNA解析などの電気泳動法における測定を指す。「相対蛍光単位」は、蛍光検出を用いる解析に使用される測定単位である。
【0032】
この文脈における「CTC損失関数」は、タイミングが可変であるシーケンスの問題に取り組むためにLSTMネットワークなどの回帰型ニューラルネットワーク(RNN)をトレーニングするための、コネクショニスト時間分類、ニューラルネットワーク出力のタイプ、および関連付けられたスコアリング関数を指す。CTCネットワークには連続出力(例えば、Softmax)があり、標識の確率をモデル化するためのトレーニングを通じて適合される。CTCは、境界およびタイミングの学習を試みない。標識シーケンスは、空白を無視して、配置のみが異なる場合、同等であると見なされる。同等の標識シーケンスは様々な方法で発生する可能性があり、これにより、スコアリングは重要なタスクになる。幸いなことに、そのための効率的な順方向および逆方向アルゴリズムがある。次に、CTCスコアをバックプロパゲーションアルゴリズムとともに使用して、ニューラルネットワークの重みを更新できる。CTCに適合したニューラルネットワークへの代替的なアプローチには、隠れマルコフモデル(HMM)が含まれる。
【0033】
この文脈における「ポリメラーゼ」は、重合を触媒する酵素を指す。DNAおよびRNAポリメラーゼは、別の一本鎖DNAまたはRNAをテンプレートとして使用して、遊離ヌクレオチドから一本鎖DNAまたはRNAを(それぞれ)構築する。
【0034】
この文脈での「サンプルデータ」は、シーケンシング機器の単一レーンまたはキャピラリの出力を指す。サンプルデータは、Sequencing Analysis、SeqScape、および他のシーケンシング解析ソフトウェアに入力される。
【0035】
この文脈における「プラスミド」は、染色体とは独立して複製できる細胞内の遺伝子構造、典型的には細菌または原生動物の細胞質内の小さな環状DNA鎖を指す。プラスミドは、実験室での遺伝子操作によく使用される。
【0036】
この文脈における「ビーム検索」は、限られたセットの中で最も有望なノードを展開することによってグラフを探索するヒューリスティック検索アルゴリズムを指す。ビーム検索は、メモリ要件を削減する最良優先探索の最適化である。最良優先探索は、何らかのヒューリスティックに従ってすべての部分解(状態)を順序付けるグラフ検索である。ただし、ビーム検索では、所定数の最良の部分解のみが候補として保持される。したがって、これは欲張り法である。ビーム検索では、幅優先探索を使用して検索ツリーを構築する。ツリーの各レベルで、現在のレベルの状態のすべての後続を生成し、ヒューリスティックコストの昇順で並べ替える。しかしながら、各レベル(ビーム幅と呼ばれる)で最良な状態の所定数βのみが記憶される。次に、それらの状態のみが展開される。ビーム幅が大きいほど、プルーニングされる状態は少なくなる。ビーム幅が無限大の場合、状態はプルーニングされず、ビーム検索は幅優先探索と同じである。ビーム幅は、検索の実施に必要なメモリを制限する。ゴール状態は潜在的にプルーニングされる可能性があるため、ビーム検索は完全性(解が存在する場合、アルゴリズムが解をもって終了するという保証)を犠牲にする。ビーム検索は最適ではない(すなわち、最良な解が見出される保証はない)。一般に、ビーム検索は最初に見出された解を返す。機械翻訳のビーム検索は異なるケースである。構成された最大検索深度(つまり、翻訳長)に達すると、アルゴリズムは様々な深度で検索中に見出された解を評価し、最良のもの(最も確率が高いもの)を返す。ビーム幅は固定または可変のいずれかであり得る。可変ビーム幅を使用する1つのアプローチは、最小の幅から始まる。解が見出されない場合は、ビームが広げられ、手順が繰り返される。
【0037】
この文脈における「サンガーシーケンサ」は、DNAポリメラーゼの能力を利用して、ホスホジエステル結合形成に不可欠な3’-ヒドロキシル基を欠く2’,3’-ジデオキシヌクレオチド-ヌクレオチド塩基類似体を組み込むDNAシーケンシングプロセスを指す。サンガージデオキシシーケンシングには、DNAテンプレート、シーケンシングプライマ、DNAポリメラーゼ、デオキシヌクレオチド(dNTP)、ジデオキシヌクレオチド(ddNTP)、および反応バッファが必要である。4つの別々の反応が設定され、それぞれが放射性標識ヌクレオチド、ddA、ddC、ddG、またはddTのいずれかを含む。アニーリング、標識、および終端ステップは、個別のヒートブロックで実行される。DNA合成は、DNAポリメラーゼが最適な酵素活性を有する温度である37°Cで行われる。DNAポリメラーゼは、鎖伸長の各ステップでデオキシヌクレオチドまたは対応する2’,3’-ジデオキシヌクレオチドを付加する。デオキシヌクレオチドまたはジデオキシヌクレオチドのどちらを追加するかは、両方の分子の相対濃度に依存する。デオキシヌクレオチド(A、C、G、またはT)が3’末端に付加されると、鎖伸長が継続できる。しかしながら、ジデオキシヌクレオチド(ddA、ddC、ddG、またはddT)が3’末端に付加されると、キャピラリによる鎖伸長4DNAシーケンシングが終了する。サンガージデオキシシーケンシングの結果、3’末端がジデオキシヌクレオチドで終わる様々な長さの伸長産物が形成される。
【0038】
この文脈における「一塩基多型」は、DNAシーケンスにおける単一の塩基対における変異を指す。
【0039】
この文脈における「混合塩基」は、2、3、または4塩基を含む1塩基の位置を指す。これらの塩基には、適切なIUBコードが割り当てられる。
【0040】
この文脈における「Softmax関数」は、f(xi)=exp(xi)/sum(exp(x))の形態の関数を指し、合計はxのセットに対して取得される。Softmaxは、人工ニューラルネットワークの異なる層(多くの場合、出力層)で使用され、それらの層への入力の分類を予測する。Softmax関数は、「n」個の異なるイベントにわたるイベントxiの確率分布を計算する。一般的な意味で、この関数は、考えられるすべての標的クラスに対する各標的クラスの確率を計算する。計算された確率は、標的クラスが入力で表されていることを予測するのに役立つ。Softmaxを使用する主な利点は、出力確率の範囲である。範囲は0から1になり、すべての確率の合計は1に等しくなる。複数分類モデルに使用されるSoftmax関数の場合、各クラスの確率が返され、標的クラスの確率が高くなる。この式は、所与の入力値の指数(e-power)、および入力内のすべての値の指数値の合計を計算する。次に、入力値の指数関数と指数値の合計の比率がSoftmax関数の出力になる。
【0041】
この文脈における「ノイズ」は、各色素の平均バックグラウンド蛍光強度を指す。
【0042】
「バックプロパゲーション」は、人工ニューラルネットワークで使用されるアルゴリズムを指し、ネットワークで使用される重みの計算に必要な勾配を計算する。これは一般に、2つ以上の隠れ層を有するニューラルネットワークを指す用語である深層ニューラルネットワークをトレーニングするために使用される。バックプロパゲーションの場合、損失関数は、ケースがネットワークを介して伝播した後、ネットワーク出力とその予期される出力との間の差を計算する。
【0043】
この文脈での「デキュー最大ファインダ」は、両端キューを利用して最大値を判定するアルゴリズムを指す。
【0044】
「ゲート付き回帰型ユニット(GRU)」は、回帰型ニューラルネットワークのゲート機構を指す。GRUは、LSTMよりも小さいデータセットに対して優れたパフォーマンスを示す場合がある。出力ゲートがないため、LSTMよりもパラメータが少なくなる。https://en.wikipedia.org/wiki/Gated_recurrent_unitを参照されたい。
【0045】
この文脈での「純粋塩基」は、ベースコーラが変数の代わりに位置にA、C、G、およびTを判定する、ベースコーラの割り当てモードを指す。
【0046】
この文脈における「プライマ」は、PCR反応においてDNAポリメラーゼのプライミング部位として機能するDNAの短い一本鎖を指す。
【0047】
この文脈での「損失関数」は、コスト関数またはエラー関数(ガウスエラー関数と混同しないように)とも称され、1つ以上の変数の値をそれらの値に関連付けられた何らかの「コスト」を直感的に表す実数にマッピングする関数である。
【0048】
図1を参照すると、一実施形態におけるCEデバイス100は、電圧バイアス源102、キャピラリ104、本体114、検出器106、サンプル注入ポート108、ヒーター110、および分離媒体112を含む。サンプルは、ヒーター110によって周囲より高い温度に維持されたサンプル注入ポート108に注入される。注入されると、サンプルは分離媒体112と係合し、成分分子に分割される。成分は、電圧バイアス源102によって確立された電界の影響下でキャピラリ104を通って移動し、検出器106に到達する。
【0049】
図2を参照すると、一実施形態におけるCEシステム200は、最初は蛍光標識サンプル220を含むソースバッファ218、キャピラリ222、宛先バッファ226、電源228、プロセッサ208を含むコンピューティングデバイス202、ベースコーラアルゴリズム204を含むメモリ206、および制御装置212を含む。ソースバッファ218は、キャピラリ222を介して、宛先バッファ226と流体連通している。電源228は、ソースバッファ218および宛先バッファ226に電圧を印加し、ソースバッファ218のアノード230および宛先バッファ226のカソード232を介して電圧バイアスを生成する。電源228によって印加される電圧は、コンピューティングデバイス202によって操作される制御装置212によって構成される。ソースバッファ218の近くの蛍光標識サンプル220は、電圧勾配によってキャピラリ222を通して引き込まれ、サンプル内のDNAフラグメントの光学的に標識されたヌクレオチドは、光学センサ224を通過するときに検出される。蛍光標識サンプル220内の異なるサイズのDNAフラグメントは、それらのサイズのために異なる時間にキャピラリを通して引き込まれる。光学センサ224は、ヌクレオチド上の蛍光標識を画像信号として検出し、画像信号をコンピューティングデバイス202に通信する。コンピューティングデバイス202は、画像信号をサンプルデータとして集約し、メモリ206に記憶されたベースコーラアルゴリズム204を利用して、ニューラルネットワーク210を操作してサンプルデータを処理済みデータに変換し、表示デバイス214に表示されるエレクトロフェログラム216を生成する。
【0050】
図3を参照すると、CEプロセス300は、電源306によってバッファ302に印加される電圧を制御するために、構成制御318を制御装置308に通信するコンピューティングデバイス312を伴う。調製された蛍光標識サンプルがソースバッファに加えられた後、制御装置308は、動作制御320を電源306に通信して、電圧322をバッファに印加し、電圧バイアス/電気勾配を生成する。印加電圧により、蛍光標識サンプル324は、バッファ302間のキャピラリ304を通って移動し、光学センサ310を通過する。光学センサ310は、キャピラリを通過するDNAフラグメントのヌクレオチド上の蛍光標識を検出し、画像信号326をコンピューティングデバイス312に通信する。コンピューティングデバイス312は、画像信号326を集約して、さらなる処理のためにニューラルネットワーク314に通信されるサンプルデータ328を生成する。ニューラルネットワーク314は、サンプルデータ328(例えば、信号値)を処理して、コンピューティングデバイス312に返送される処理済みデータ330(例えば、クラス)を生成する。次に、コンピューティングデバイス312は、表示デバイス316にエレクトロフェログラムを表示するための表示コントロール332を生成する。
【0051】
図4を参照すると、CEプロセス400は、少なくとも1つの蛍光標識サンプルをシーケンスするためにキャピラリ電気泳動機器の動作パラメータを構成することを伴う(ブロック402)。機器の構成には、一連のサンプルを実行するためのプレート設定を作成することまたはインポートすること、および収集された画像データの処理を支援するためにプレートサンプルに標識を割り当てることが含まれる場合がある。このプロセスは、構成制御を制御装置に通信して、所定の時間に電圧の印加を開始することも含むことができる。ブロック404において、CEプロセス400は、蛍光標識サンプルを機器にロードする。サンプルが機器にロードされた後、機器はサンプルをプレートウェルからキャピラリチューブに移し、次いでキャピラリ電気泳動プロセスの開始時にキャピラリチューブを開始バッファに位置決めする。ブロック406では、CEプロセス400は、サンプルがキャピラリにロードされた後、機器の実行を開始し、キャピラリの両端に位置付けられたバッファ溶液に電圧を印加し、電気勾配を形成して、蛍光標識サンプルのDNAフラグメントを開始バッファから宛先バッファに輸送し、光学センサを横断させる。ブロック408において、CEプロセス400は、DNAフラグメントが光学センサを介して宛先バッファに向かって移動するときに、DNAフラグメントのヌクレオチド上の個々の蛍光信号を検出し、画像信号をコンピューティングデバイスに通信する。ブロック410において、CEプロセス400は、光学センサからの画像信号をコンピューティングデバイスに集約し、ヌクレオチドDNAフラグメントの蛍光強度に対応するサンプルデータを生成する。ブロック412において、CEプロセス400は、ニューラルネットワークを利用してサンプルデータを処理し、特定の時点で、DNAフラグメントで呼び出された塩基を識別するのを助ける。ブロック414において、CEプロセス400は、表示デバイスを介してエレクトロフェログラムを介して処理されたデータを表示する。
【0052】
基本的な深層ニューラルネットワーク500は、生物の脳内のニューロンを大まかにモデル化する人工ニューロンと呼ばれる接続されたユニットまたはノードの集合に基づいている。各接続は、生物の脳のシナプスのように、ある人工ニューロンから別の人工ニューロンに信号を送信できる。信号を受信した人工ニューロンは、信号を処理し、次いでそれに接続された追加の人工ニューロンに信号を送信できる。
【0053】
一般的な実装形態では、人工ニューロン間の接続での信号は実数であり、各人工ニューロンの出力は、入力の合計の何らかの非線形関数(活性化関数)によって計算される。人工ニューロン間の接続は、「エッジ」または軸索と呼ばれる。人工ニューロンおよびエッジには通常、学習が進むにつれて調整される重みがある。重みは、接続での信号の強度を増減する。人工ニューロンには、集約信号がその閾値を超えた場合にのみ信号が送信されるように、閾値(トリガー閾値)が設定されている場合がある。通常、人工ニューロンは層に集約される。異なる層は、入力に対して異なる種類の変換を実施してもよい。信号は、最初の層(入力層502)から、場合によっては、隠れ層504と呼ばれる1つ以上の中間層を通過した後、最後の層(出力層506)に進む。
【0054】
図6を参照すると、先行ニューロンからの入力を受信する人工ニューロン600は、以下の成分からなる。
・入力xi
・入力に適用される重みwi
・学習関数によって変更されない限り固定されたままであるオプションの閾値(b)、
・もしあれば、先行ニューロン入力からの出力および閾値を計算する活性化関数602。
【0055】
入力ニューロンには先行ニューロンがないが、ネットワーク全体の入力インターフェースとして機能する。同様に、出力ニューロンには後続ニューロンがないため、ネットワーク全体の出力インターフェースとして機能する。
【0056】
ネットワークには接続が含まれ、各接続はある層のニューロンの出力を次の層のニューロンの入力に転送する。各接続は、入力xを保持し、重みwが割り当てられる。
【0057】
活性化関数602は、先行ニューロンの入力の重み値の積の合計の形態であることが多い。
【0058】
学習ルールは、ネットワークへの所与の入力が好ましい出力を生成するために、ニューラルネットワークのパラメータを変更するルールまたはアルゴリズムである。通常、この学習プロセスには、ネットワーク内のニューロンおよび接続の重みおよび閾値の変更が伴う。
【0059】
図7は、回帰型ニューラルネットワーク700(RNN)を示している。変数x[t]は、ステージtでの入力である。例えば、x[1]は、文の2番目の単語に対応するone-hotベクトルである可能性がある。変数s[t]は、ステージtで隠れ状態である。それは、ネットワークの「メモリ」である。変数s[t]は、前の隠れ状態および現在のステージでの入力に基づいて計算される:s[t]=f(Ux[t]+Ws[t-1])。活性化関数fは通常、tanhまたはReLUなどの非線形性である。第1の隠れ状態を計算するために必要な入力s(-1)は、通常、すべてゼロに初期化される。変数o[t]は、ステージtでの出力である。例えば、文の次の単語を予測するには、語彙全体の確率のベクトル:o[t]=softmax(Vs[t])になる。
【0060】
図8は、双方向回帰型ニューラルネットワーク800(BRNN)を示す。BRNNは、あるステージでの出力がシーケンス内の前の入力だけでなく、将来の要素にも依存し得る状況のために設計されている。例えば、シーケンス内の欠落している単語を予測するために、BRNNは左右の文脈の両方を考慮する。BRNNは、出力YがRNNと入力Xの両方の隠れ状態Sに基づいて計算される2つのRNNとして実装することができる。図8に示す双方向回帰型ニューラルネットワーク800において、各ノードAは通常、それ自体がニューラルネットワークである。深層BRNNはBRNNに似ているが、ノードAごとに複数の層がある。実際には、これにより学習能力が高くなり得るが、単一層ネットワークよりも多くのトレーニングデータが必要になる。
【0061】
図9は、長・短期記憶900(LSTM)を有するRNNアーキテクチャを示している。
【0062】
すべてのRNNは、繰り返しノードのチェーンの形態であり、各ノードはニューラルネットワークである。標準のRNNでは、この繰り返しノードは、tanh活性化関数を有する単一層のような構造になる。これを上の図に示す。LSTMもこのチェーンのような設計であるが、繰り返しノードAは通常のRNNとは異なる構造である。単一のニューラルネットワーク層を有する代わりに、通常4つの層があり、層は特定の方法で相互作用する。
【0063】
LSTMでは、各パスは、1つのノードの出力から他のノードの入力まで、ベクトル全体を伝送する。点線のボックスの外側にある丸で囲まれた関数は、ベクトル加算などの点ごとの演算を表し、点線のボックスの内側のシグモイドボックスおよびtanhボックスは、学習済みニューラルネットワーク層である。線のマージは連結を示し、線の分岐は値がコピーされ、コピーが異なる場所に移動することを示す。
【0064】
LSTMの重要な特徴は、セル状態Ctであり、長・短期記憶900(下の図)の上部を通る水平線である。セルの状態はベルトコンベアのようなものである。それはチェーン全体を通り、いくつかのマイナーな線形相互作用のみが発生する。信号が変わらないままそれに沿って流れる可能性は十分にある。LSTMには、ゲートと呼ばれる構造によって慎重に制御され、セルの状態に情報を削除する、または追加する機能がある。ゲートは、任意選択的にセルに情報を通す方法である。それらは通常、シグモイドニューラルネット層と点ごとの乗算演算を使用して形成される。
【0065】
シグモイド層は、0~1の数値を出力し、各成分をどれだけ通過させる必要があるかを示す。値0は「何も通過させない」ことを意味し、値1は「すべて通過させる」ことを意味する。LSTMには、セルの状態を保護し、かつ制御するために、これらのシグモイドゲートが3つある。
【0066】
図10を参照すると、ベースコーラシステム1000は、入力セグメンタ1002、スキャン標識モデル1004、アセンブラ1006、デコーダ1008、品質値モデル1010、およびシーケンサ1012を含む。
【0067】
入力セグメンタ1002は、入力トレースシーケンス、ウィンドウサイズ、およびストライド長を受信する。入力トレースシーケンスは、キャピラリ電気泳動(CE)機器から収集された色素相対蛍光ユニット(RFU)のシーケンス、またはCE機器で直接収集された生のスペクトルデータであり得る。入力トレースシーケンスは、いくつかのスキャンを含む。ウィンドウサイズは、スキャン標識モデル1004への入力ごとのスキャン数を判定する。ストライド長は、スキャン標識モデル1004へのウィンドウまたは入力の数を判定する。入力セグメンタ1002は、入力トレースシーケンス、ウィンドウサイズ、およびストライド長を利用して、スキャン標識モデル1004に送信される入力スキャンウィンドウを生成する。
【0068】
スキャン標識モデル1004は、入力スキャンウィンドウを受信し、すべてのスキャンウィンドウに対するスキャン標識確率を生成する。スキャン標識モデル1004は、1つ以上のトレーニングされたモデルを含んでもよい。モデルは、スキャン標識確率を生成するために利用するように選択することができる。モデルは、LSTMまたはGRU(ゲート付き回帰型ユニット)などの同様のユニットの1つ以上の層を有するBRNNである場合がある。モデルは、図8図9(削除)、および図9に示されているものと同様の構造を有する場合がある。モデルは、入力スキャンウィンドウ内のすべてのスキャンの標識確率を出力する、LSTM BRNNの出力層としてSoftmax層をさらに利用することができる。スキャン標識モデル1004は、図11に示すプロセスに従ってトレーニングすることができる。次に、スキャン標識確率がアセンブラ1006に送信される。
【0069】
アセンブラ1006は、スキャン標識確率を受信し、すべてのスキャンウィンドウの標識確率を一緒に集めて、シーケンシングサンプルのトレース全体に対する標識確率を構築する。次に、集められたスキャンウィンドウのスキャン標識確率は、デコーダ1008および品質値モデル1010に送信される。
【0070】
デコーダ1008は、集められたスキャンウィンドウのスキャン標識確率を受信する。次に、デコーダ1008は、スキャン標識確率を入力トレースシーケンスのベースコールにデコードする。デコーダ1008は、シーケンシングサンプルのベースコールを見つけるために、集められた標識確率に対してプレフィックスビーム検索または他のデコーダを利用することができる。入力トレースシーケンスおよび集められたスキャンウィンドウのベースコールは、次にシーケンサ1012に送信される。
【0071】
品質値モデル1010は、集められたスキャンウィンドウのスキャン標識確率を受信する。次に、品質値モデル1010は、推定されたベースコーリングエラー確率を生成する。推定されたベースコーリングエラー確率は、次の式によってPhredスタイルの品質スコアに変換できる:QV=-10xlog(エラーの確率)。品質値モデル1010は、畳み込みニューラルネットワークであり得る。品質値モデル1010は、ロジスティック回帰層を伴ういくつかの隠れ層を有することができる。シグモイド関数などの仮説関数をロジスティック回帰層で利用して、入力スキャン確率に基づいて推定エラー確率を予測することができる。品質値モデル1010は、利用するために選択され得る1つ以上のトレーニングされたモデルを含み得る。選択は、最小評価損失またはエラー率に基づく場合がある。品質値モデル1010は、図12に示すプロセスに従ってトレーニングすることができる。次に、推定されたベースコーリングエラーの確率は、集められたスキャンウィンドウのベースコールに関連付けられる。
【0072】
シーケンサ1012は、入力トレースシーケンスのベースコール、集められたスキャンウィンドウ、および推定されたベースコールエラー確率を受信する。次に、シーケンサ1012は、CTCネットワークからの出力標識確率およびデコーダからのベースコールに基づいて、ベースコールのスキャン位置を見つける。シーケンサ1012は、デキュー最大ファインダアルゴリズムを利用することができる。したがって、シーケンサ1012は、出力ベースコールシーケンスおよび推定エラー確率を生成する。
【0073】
いくつかの実施形態では、ノイズ、スパイク、色素ブロブ、もしくは他のデータアーティファクト、またはシミュレートされたシーケンシングトレースの追加などのデータ増強技術を利用することができる。これらの技術は、ベースコーラシステム1000の堅牢性を改善させることができる。敵対的生成ネット(GAN)は、これらの技術を実装するために利用できる。
【0074】
図11を参照すると、スキャン標識モデルトレーニング方法1100は、データセットを受信する(ブロック1102)。データセットには、純粋塩基データセットと混合塩基データセットが含まれる場合がある。例えば、純粋塩基データセットは約4,900万のベースコールを含んでもよく、混合塩基データセットは約1,340万のベースコールを含んでもよい。混合塩基データセットは、主に純粋塩基と時折混合塩基で構成されている場合がある。データセット内の各サンプルについて、トレース全体がスキャンウィンドウに分割される(ブロック1104)。各スキャンウィンドウは、500スキャンを有し得る。トレースは、前処理された色素RFUのシーケンスであり得る。さらに、各サンプルのスキャンウィンドウを250スキャンずつシフトして、トレーニング時のスキャン位置の偏りを最小化することができる。次に、注釈付きベースコールが各スキャンウィンドウに対して判定される(ブロック1106)。これらは、トレーニング中に標的シーケンスとして利用される。次に、トレーニングサンプルが構築される(ブロック1108)。それらの各々は、500スキャン含むスキャンウィンドウおよびそれぞれの注釈付きベースコールを含んでもよい。LSTMの1つ以上の層を有するBRNNが初期化される(ブロック1110)。BRNNは、ゲート付き回帰型ユニット(GRU)など、LSTMに類似した他のユニットを利用する場合がある。Softmax層は、入力スキャンウィンドウ内のすべてのスキャンの標識確率を出力する、LSTM BRNNの出力層として利用できる。次に、トレーニングサンプルがBRNNに適用される(ブロック1112)。入力スキャンウィンドウ内のすべてのスキャンの標識確率が出力される(ブロック1114)。出力スキャン標識の確率と標的の注釈付きベースコール間の損失が計算される。コネクショニスト時間分類(CTC)損失関数を利用して、出力スキャン標識確率と標的の注釈付きベースコールとの間の損失を計算することができる。次に、トレーニングサンプルのミニバッチが選択される(ブロック1118)。ミニバッチは、各トレーニングステップでトレーニングデータセットからランダムに選択できる。ネットワークの重みは、トレーニングサンプルのミニバッチに対するCTC損失を最小化するように更新される(ブロック1120)。Adamオプティマイザまたは他の勾配降下オプティマイザを利用して、重みを更新することができる。次に、ネットワークがモデルとして保存される(ブロック1122)。いくつかの実施形態では、モデルは特定のトレーニングステップ中に保存される。次に、スキャン標識モデルトレーニング方法1100は、所定数のトレーニングステップに達したかどうかを判定する(決定ブロック1124)。そうでない場合、スキャン標識モデルトレーニング方法1100は、更新された重みを有するネットワークを利用して、ブロック1112から再実行される(すなわち、ネットワークの次の反復)。所定数のトレーニングステップが実行されると、保存されたモデルが評価される(ブロック1126)。評価は、トレーニングプロセスに含まれていない検証データセット内のサンプルの独立したサブセットを利用して実行できる。次に、最良のトレーニングされたモデルは、トレーニングされたモデルからの最小評価損失またはエラー率に基づいて選択される。これらのモデル(複数可)は、ベースコーラシステム1000によって利用され得る。
【0075】
いくつかの実施形態では、ノイズ、スパイク、色素ブロブ、もしくは他のデータアーティファクト、または敵対的生成ネット(GAN)によってシミュレートされたシーケンシングトレースの追加などのデータ増強技術を利用して、モデルの堅牢性を改善することができる。トレーニング中に、ドロップアウトまたは重み減衰などの他の技術を使用して、モデルの一般性を改善させることができる。
【0076】
図12を参照すると、QVモデルトレーニング方法1200は、トレーニングされたネットワークおよびデコーダを利用して、スキャン標識確率、ベースコール、およびそれらのスキャン位置を計算する(ブロック1202)。トレーニングされたネットワークおよびデコーダは、図10に示されているものであり得る。トレーニングサンプルは、QVトレーニングのために構築される(ブロック1204)。各ベースコールの中心スキャン位置周辺のスキャン確率を利用することができ、すべてのベースコールは、正確なベースコールまたは不正確なベースコールという2つのカテゴリに割り当てることができる。ロジスティック回帰層を有するいくつかの隠れ層を有する畳み込みニューラルネットワーク(CNN)を利用して、トレーニングを行うことができる(ブロック1206)。CNNおよびロジスティック回帰層は初期化され得る。入力スキャン確率に基づいて、推定エラー確率を予測することができる(ブロック1208)。シグモイド関数などの仮説関数をロジスティック回帰層で利用して、入力スキャン確率に基づいて推定エラー確率を予測することができる。次に、予測されたエラー確率とベースコールカテゴリとの間の損失が計算される(ブロック1210)。ロジスティック損失(または交差エントロピー損失と呼ばれる)などのロジスティック回帰のコスト関数を使用して、予測エラー確率とベースコールカテゴリとの間の損失を計算できる。
【0077】
次に、トレーニングサンプルのミニバッチが選択される(ブロック1212)。ミニバッチは、各トレーニングステップでトレーニングデータセットからランダムに選択できる。ネットワークの重みは、トレーニングサンプルのミニバッチに対するロジスティック損失を最小化するように更新される(ブロック1214)。Adamオプティマイザまたは他の勾配降下オプティマイザを利用して、重みを更新することができる。次に、ネットワークがモデルとして保存される(ブロック1216)。いくつかの実施形態では、モデルは特定のトレーニングステップ中に保存される。次に、QVモデルトレーニング方法1200は、所定数のトレーニングステップに達したかどうかを判定する(決定ブロック1218)。そうでない場合、QVモデルトレーニング方法1200は、更新された重みを有するネットワークを利用してブロック1206から再実行される(すなわち、ネットワークの次の反復)。所定数のトレーニングステップが実行されると、保存されたモデルが評価される(ブロック1220)。モデルは、トレーニングプロセスに含まれていない検証データセット内のサンプルの独立したサブセットによって評価されてもよい。選択されたトレーニングされたモデルは、評価損失またはエラー率が最小のものであり得る。
【0078】
図13は、本発明の実施形態を組み込むことができるコンピューティングデバイス1300の例示的なブロック図である。図13は、本明細書に記載の技術的プロセスの態様を実行するための機械システムの単なる例示であり、特許請求の範囲を限定するものではない。当業者は、他の変形、修正、および代替を認識するであろう。一実施形態では、コンピューティングデバイス1300は、典型的には、モニタまたはグラフィカルユーザインターフェース1302、データ処理システム1320、通信ネットワークインターフェース1312、入力デバイス(複数可)1308、出力デバイス(複数可)1306などを含む。
【0079】
図13に示されるように、データ処理システム1320は、バスサブシステム1318を介していくつかの周辺デバイスと通信する1つ以上のプロセッサ(複数可)1304を含み得る。これらの周辺デバイスは、入力デバイス(複数可)1308、出力デバイス(複数可)1306、通信ネットワークインターフェース1312、ならびに揮発性メモリ1310および不揮発性メモリ1314などの記憶サブシステムを含み得る。
【0080】
揮発性メモリ1310および/または不揮発性メモリ1314は、コンピュータ実行可能命令を記憶することができ、したがって、プロセッサ(複数可)1304に適用され、かつそれによって実行されると、本明細書に開示されるプロセスの実施形態を実装するロジック1322を形成する。
【0081】
入力デバイス(複数可)1308は、データ処理システム1320に情報を入力するためのデバイスおよび機構を含む。これらは、キーボード、キーパッド、モニタまたはグラフィカルユーザインターフェース1302に組み込まれたタッチスクリーン、音声認識システム、マイクロフォンなどの音声入力デバイス、および他のタイプの入力デバイスを含み得る。様々な実施形態では、入力デバイス(複数可)1308は、コンピュータマウス、トラックボール、トラックパッド、ジョイスティック、ワイヤレスリモート、描画タブレット、音声コマンドシステム、視線追跡システムなどとして具体化することができる。入力デバイス(複数可)1308は、典型的には、ユーザが、ボタンのクリックなどのコマンドを介して、モニタまたはグラフィカルユーザインターフェース1302に表示されるオブジェクト、アイコン、制御領域、テキストなどを選択することを可能にする。
【0082】
出力デバイス(複数可)1306は、データ処理システム1320から情報を出力するためのデバイスおよび機構を含む。これらは、当技術分野でよく理解されているように、モニタまたはグラフィカルユーザインターフェース1302、スピーカ、プリンタ、赤外線LEDなどを含み得る。
【0083】
通信ネットワークインターフェース1312は、通信ネットワーク(例えば、通信ネットワーク1316)およびデータ処理システム1320の外部デバイスにインターフェースを提供する。通信ネットワークインターフェース1312は、他のシステムからデータを受信し、他のシステムにデータを送信するためのインターフェースとして機能し得る。通信ネットワークインターフェース1312の実施形態は、Ethernetインターフェース、モデム(電話、衛星、ケーブル、ISDN)、(非同期)デジタル加入者線(DSL)、FireWire、USB、BluetoothまたはWi-Fiなどの無線通信インターフェース、近距離通信無線インターフェース、セルラーインターフェースなどを含み得る。
【0084】
通信ネットワークインターフェース1312は、アンテナ、ケーブルなどを介して通信ネットワーク1316に結合され得る。いくつかの実施形態では、通信ネットワークインターフェース1312は、データ処理システム1320の回路基板上に物理的に統合され得るか、または場合によっては、「ソフトモデム」などのソフトウェアまたはファームウェアにおいて実装され得る。
【0085】
コンピューティングデバイス1300は、HTTP、TCP/IP、RTP/RTSP、IPX、UDPなどのプロトコルを使用してネットワークを介した通信を可能にするロジックを含み得る。
【0086】
揮発性メモリ1310および不揮発性メモリ1314は、本明細書に記載のプロセスの態様を実装するためのコンピュータ可読データおよび命令を記憶するように構成された有形媒体の例である。他のタイプの有形媒体には、リムーバブルメモリ(例えば、プラグイン式USBメモリデバイス、モバイルデバイスSIMカード)、CD-ROM、DVDなどの光記憶媒体、フラッシュメモリなどの半導体メモリ、非一時的な読み取り専用メモリ(ROM)、バッテリバックアップされた揮発性メモリ、ネットワーク化された記憶デバイスなどが含まれる。揮発性メモリ1310および不揮発性メモリ1314は、本発明の範囲に該当する開示されたプロセスおよび他の実施形態の機能を提供する基本的なプログラミングおよびデータ構築を記憶するように構成され得る。
【0087】
本発明の実施形態を実装するロジック1322は、コンピュータ読み取り可能命令を記憶する揮発性メモリ1310および/または不揮発性メモリ1314によって形成され得る。上述の命令は、揮発性メモリ1310および/または不揮発性メモリ1314から読み取られ、プロセッサ(複数可)1304によって実行され得る。揮発性メモリ1310および不揮発性メモリ1314はまた、ロジック1322によって使用されるデータを記憶するためのリポジトリを提供し得る。
【0088】
揮発性メモリ1310および不揮発性メモリ1314は、プログラム実行中に命令およびデータを記憶するためのメインランダムアクセスメモリ(RAM)および読み取り専用の非一時的な命令が記憶される読み取り専用メモリ(ROM)を含むいくつかのメモリを含み得る。揮発性メモリ1310および不揮発性メモリ1314は、プログラムおよびデータファイルのための永続的(不揮発性)記憶を提供するファイル記憶サブシステムを含み得る。揮発性メモリ1310および不揮発性メモリ1314は、取り外し可能なフラッシュメモリなどの取り外し可能な記憶システムを含み得る。
【0089】
バスサブシステム1318は、データ処理システム1320の様々な構成要素およびサブシステムが意図されたように互いに通信することを可能にするための機構を提供する。通信ネットワークインターフェース1312は、単一のバスとして概略的に示されているが、バスサブシステム1318のいくつかの実施形態は、複数の別個のバスを利用することができる。
【0090】
コンピューティングデバイス1300が、スマートフォン、デスクトップコンピュータ、ラップトップコンピュータ、ラックマウント型コンピュータシステム、コンピュータサーバ、またはタブレットコンピュータデバイスなどのデバイスであり得ることは、当業者には容易に明らかであろう。当技術分野で一般に既知であるように、コンピューティングデバイス1300は、複数のネットワーク化されたコンピューティングデバイスの集合として実装され得る。さらに、コンピューティングデバイス1300は、典型的には、そのタイプおよび性質が当技術分野で周知であるオペレーティングシステムロジック(図示せず)を含むであろう。
【0091】
例示的な実施形態
新しい深層学習ベースのベースコーラである深層ベースコーラは、特に5’および3’末端の混合ベースコーリングの精度および純粋なベースコーリングの精度を改善し、キャピラリ電気泳動機器のサンガーシーケンシングデータの読み取り長を増加させるために開発された。
【0092】
長・短期記憶(LSTM)ユニットを有する双方向回帰型ニューラルネットワーク(BRNN)は、CE機器から収集された色素RFU(相対蛍光ユニット)の入力シーケンスをベースコールの出力シーケンスに変換することによって、サンガーシーケンシングデータをベースコールするように正常に設計されている。純粋塩基データセットの最大4,900万のベースコールと混合塩基データセットの最大1,340万のベースコールを含む大規模な注釈付きサンガーシーケンシングデータセットを使用して、新しい深層学習ベースのベースコーラをトレーニングし、かつテストした。
【0093】
以下は、深層ベースコーラに使用されるアルゴリズムの例示的なワークフローである。
1.トレーニングの純粋または混合塩基データセットの各サンプルについて、解析されたトレース全体、前処理された色素RFU(相対蛍光ユニット)のシーケンスを、長さ500スキャンのスキャンウィンドウに分割する。各サンプルのスキャンウィンドウを250スキャンずつシフトして、トレーニング時のスキャン位置の偏りを最小化することができる。
2.トレーニング中の標的シーケンスとして、各スキャンウィンドウの注釈付きベースコールを判定する。
3.トレーニングサンプルを構築し、各サンプルは、500スキャンのスキャンウィンドウとそれぞれの注釈付きベースコールで構成される。
4.トレーニングするネットワークとして、LSTMまたはGRU(ゲート付き回帰型ユニット)などの同様のユニットの1つ以上の層を有する双方向回帰型ニューラルネットワーク(BRNN)を使用する。
5.Softmax層を、入力スキャンウィンドウ内のすべてのスキャンの標識確率を出力するLSTM BRNNの出力層として使用する。
6.コネクショニスト時間分類(CTC)損失関数を適用して、出力スキャン標識確率と標的の注釈付きベースコールとの間の損失を計算する。
7.勾配降下オプティマイザを使用して上述のネットワークの重みを更新し、各トレーニングステップでトレーニングデータセットからランダムに選択されたトレーニングサンプルのミニバッチに対するCTC損失を最小化する。
8.予め定められたトレーニングステップ数に達するまでトレーニングプロセスを継続し、特定のトレーニングステップごとにトレーニングされたネットワークを保存する。
9.トレーニングプロセス中に保存されたトレーニングされたモデルを、トレーニングプロセスには含まれていない検証データセット内のサンプルの独立したサブセットによって評価する。最良のトレーニングされたモデルとして、評価損失またはエラー率が最小のトレーニングされたモデルを選択する。
10.シーケンシングサンプルについて、トレース全体を250スキャンずつシフトした500スキャンのスキャンウィンドウに分割する。選択されたトレーニングされたモデルをそれらのスキャンウィンドウに適用して、すべてのスキャンウィンドウのスキャン標識確率を出力する。
11.すべてのスキャンウィンドウの標識確率を集めて、シーケンシングサンプルのトレース全体の標識確率を構築する。
12.シーケンシングサンプルのベースコールを見つけるために、集められた標識確率に対してプレフィックスビーム検索または他のデコーダを使用する。
13.デキュー最大ファインダアルゴリズムを使用して、CTCネットワークからの出力標識確率およびデコーダからのベースコールに基づいて、すべてのベースコールのスキャン位置を見つける。
14.上記の深層学習モデルは、生のトレース(生の色素RFUのシーケンス)またはCE機器で収集された生のスペクトルデータに直接適用してから、ベースコーラ(KBベースコーラなど)による処理を行うことができる。
15.ノイズ、スパイク、色素ブロブ、他のデータアーティファクト、または敵対的生成ネットワーク(GAN)によるシミュレートされたシーケンシングトレースの追加などのデータ拡張技術を使用して、トレーニングされた深層ベースコーラの堅牢性を改善することができる。
16.トレーニング中に、ドロップアウトまたは重み減衰などの技術を使用して、トレーニングされた深層ベースコーラの一般性を改善させることができる。
【0094】
以下は、深層ベースコーラの品質値(QV)アルゴリズムに関する例示的な詳細である。
1.トレーニングセット内のすべてのサンプルにトレーニングされたCTCネットワークおよびデコーダを適用して、スキャン標識の確率、ベースコール、およびそれらのスキャン位置を取得/計算する。
2.各ベースコールの中心スキャン位置の周りのスキャン確率を使用して、QVトレーニングのトレーニングサンプルを構築し、すべてのベースコールを2つのカテゴリ:正確なベースコールまたは不正確なベースコールに割り当てる。
3.トレーニングするネットワークとして、ロジスティック回帰層を有するいくつかの隠れ層を有する畳み込みニューラルネットワークを使用する。
4.シグモイド関数などの仮説関数をロジスティック回帰層で使用して、入力スキャン確率に基づいて推定エラー確率を予測することができる。ロジスティック損失(または交差エントロピー損失と呼ばれる)などのロジスティック回帰のコスト関数を使用して、予測エラー確率とベースコールカテゴリとの間の損失を計算できる。
5.Adamオプティマイザまたは他の勾配降下オプティマイザを使用して上述のネットワークの重みを更新し、各トレーニングステップでトレーニングデータセットからランダムに選択されたトレーニングサンプルのミニバッチに対するロジスティック損失を最小化する。
6.予め定められたトレーニングステップ数に達するまでトレーニングプロセスを継続し、特定のトレーニングステップのトレーニングされたネットワークを保存する。
7.トレーニングプロセス中に保存されたトレーニングされたモデルを、トレーニングプロセスには含まれていない検証データセット内のサンプルの独立したサブセットによって評価する。最良のトレーニングされたモデルとして、評価損失またはエラー率が最小のトレーニングされたモデルを選択する。
8.トレーニングされたQVモデルは、ベースコール位置の周りのスキャン確率を入力として取得し、推定されたベースコーリングエラー確率を出力し、これは、次の方程式によってPhredスタイルの品質スコアに変換できる。
QV=-10 x log(エラーの確率)。
【0095】
深層ベースコーラは、上記の深層学習アプローチを使用して、スキャン確率、スキャン位置および品質値を含むベースコールを生成し得る。
【0096】
代替的な実施形態
LSTM BRNN、またはアテンション機構を有する、または有しないエンコーダ-デコーダモデルなどのシーケンスツーシーケンスアーキテクチャを有するGRU BRNNなどの類似のネットワークも、サンガーシーケンスデータをベースコールするために使用され得る。
【0097】
セグメント回帰型ニューラルネットワーク(SRNN)も深層ベースコーラに使用できる。このアプローチでは、双方向回帰型ニューラルネットワークを使用して、入力トレースまたは入力トレースセグメントの連続するサブシーケンスの「セグメント埋め込み」を計算し、これは、出力ベースコールとの互換性スコアを定義するために使用できる。次に、互換性スコアが統合され、セグメントの入力およびベースコールのセグメンテーションに対する同時確率分布が出力される。
【0098】
音声認識におけるメル周波数ケプストラム係数(MFCC)に類似した、重複したスキャンセグメントの周波数データは、深層ベースコーラの入力として使用できる。単純な畳み込みニューラルネットワークまたは他の単純なネットワークを重複したスキャンセグメントで使用して、ローカル特徴を学習でき、これらは、LSTM BRNNまたは類似のネットワークの入力として使用され、深層ベースコーラをトレーニングする。
【0099】
スキャンおよびベースコールが調整されているか、トレーニングデータセットのベースコールのスキャン境界が既知である場合、Softmax交差エントロピー損失関数などのCTC損失以外の損失関数をLSTM BRNNまたは同様のネットワークで使用でき、そのようなネットワークは、スキャンをベースコールに分類するようにトレーニングできる。代替的に、R-CNN(領域ベースの畳み込みニューラルネットワーク)などの畳み込みニューラルネットワークをトレーニングして、スキャンをセグメント化し、次いで各スキャンセグメントをベースコールすることもできる。
【0100】
実装形態および追加の用語
本明細書で使用される用語は、関連技術におけるそれらの通常の意味、または文脈におけるそれらの使用によって示される意味と一致するべきであるが、明示的な定義が提供される場合、その意味が制御する。
【0101】
この文脈における「回路」は、少なくとも1つの個別の電気回路を有する電気回路、少なくとも1つの集積回路を有する電気回路、少なくとも1つの特定用途向け集積回路を有する電気回路、コンピュータプログラムによって構成される汎用コンピューティングデバイス(例えば、本明細書に記載のプロセスもしくはデバイスを少なくとも部分的に実行するコンピュータプログラムによって構成される汎用コンピュータ、または本明細書に記載のプロセスもしくはデバイスを少なくとも部分的に実行するコンピュータプログラムによって構成されるマイクロプロセッサ)を形成する回路、(例えば、ランダムアクセスメモリの形態)メモリデバイスを形成する回路、または通信デバイス(例えば、モデム、通信スイッチ、または光電気機器)を形成する回路を指す。
【0102】
この文脈における「ファームウェア」は、読み取り専用メモリまたは媒体に記憶されたプロセッサ実行可能命令として具現化されたソフトウェアロジックを指す。
【0103】
この文脈における「ハードウェア」は、アナログまたはデジタル回路として具現化されたロジックを指す。
【0104】
この文脈における「ロジック」は、その材料および/または材料エネルギー構成経由で、デバイスの動作に影響を与えるように適用され得る、制御および/もしくは手順信号、ならびに/または設定および値(例えば、抵抗、インピーダンス、静電容量、インダクタンス、電流/電圧定格など)を含む、機械メモリ回路、非一時的機械可読媒体、および/または回路を指す。磁気媒体、電子回路、電気および光メモリ(揮発性および不揮発性の両方)、ならびにファームウェアは、ロジックの例である。ロジックは、具体的には、純粋な信号またはソフトウェア自体を除外する(ししながら、ソフトウェアを含み、それによって事柄の構成を形成するマシンメモリは除外しない)。
【0105】
この文脈における「ソフトウェア」は、マシンメモリ内のプロセッサ実行可能命令(例えば、揮発性または不揮発性メモリまたは媒体を読み取る/書き込む)として実装されるロジックを指す。
【0106】
本明細書において、「1つの実施形態」または「一実施形態」への言及は、そういう場合もあるが、必ずしも同じ実施形態を指すとは限らない。文脈が明確に別様に要求しない限り、説明および特許請求の範囲全体を通して、「含む(comprise)」、「含む(comprising)」などの語は、排他的または網羅的な意味ではなく、包括的な意味、つまり、「含むがこれに限定されない」という意味で解釈されるべきである。単数形または複数形を使用する語は、明示的に単一のものまたは複数のものに限定されない限り、それぞれ複数形または単数形も含む。追加的に、「本明細書に」、「上記に」、「以下に」という語および同様の意味の語は、本出願で使用される場合、本出願全体を指し、本出願の任意の特定の部分を指すものではない。請求項が2つ以上の項目の列挙を参照して「または」という語を使用する場合、その語は、明示的に一方または他方に限定されない限り、その語の以下の解釈のすべてを網羅する:列挙内の項目のうちのいずれか、列挙内の項目のすべて、および列挙内の項目の任意の組み合わせ。本明細書で明示的に定義されていない任意の用語は、関連技術の当業者(複数可)によって一般的に理解されるような従来の意味を有する。
【0107】
本明細書に記載の様々な論理機能動作は、その動作または機能を反映する名詞または名詞句を使用して参照されるロジックで実装され得る。例えば、関連付け動作は、「アソシエータ」または「コリレータ」によって実行され得る。同様に、スイッチングは、「スイッチ」によって、選択は「セレクタ」によって実行され得るなどがある。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13