IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オックスフォード ナノポール テクノロジーズ リミテッドの特許一覧

特開2023-126856機械学習技術を使用するナノ細孔シグナルの分析
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023126856
(43)【公開日】2023-09-12
(54)【発明の名称】機械学習技術を使用するナノ細孔シグナルの分析
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20230905BHJP
   C12M 1/00 20060101ALI20230905BHJP
   C12N 15/09 20060101ALN20230905BHJP
【FI】
C12Q1/6869 Z
C12M1/00 A
C12N15/09 Z
【審査請求】有
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2023106581
(22)【出願日】2023-06-29
(62)【分割の表示】P 2021525061の分割
【原出願日】2019-11-26
(31)【優先権主張番号】1819378.9
(32)【優先日】2018-11-28
(33)【優先権主張国・地域又は機関】GB
(71)【出願人】
【識別番号】511252899
【氏名又は名称】オックスフォード ナノポール テクノロジーズ ピーエルシー
(74)【代理人】
【識別番号】100092783
【弁理士】
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100120134
【弁理士】
【氏名又は名称】大森 規雄
(74)【代理人】
【識別番号】100141025
【弁理士】
【氏名又は名称】阿久津 勝久
(72)【発明者】
【氏名】マッシンガム,ティモシー,リー
(57)【要約】      (修正有)
【課題】DNA又はRNAなどのポリヌクレオチドの配列決定の分野で、ポリヌクレオチドなどのナノ細孔に対するポリマーの転位中のポリマーによって生じるシグナルを分析する方法を提供する。
【解決手段】ポリマーによって生じるシグナルをナノ孔に対するポリマーの転位中に分析する方法であって、ポリマーが、可能なポリマー単位タイプのセットに属する一連のポリマー単位を含み、方法が、一連の重み分布を出力する機械学習技術を使用してシグナルを分析するステップであって、各重み分布が、可能なポリマー単位タイプを表すラベルを含む、ラベルのセットにわたるラベル間の遷移に関する重みを含む、ステップと、重み分布から一連のポリマー単位の推定値を導出するステップとを含む、方法とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
ポリマーによって生じるシグナルをナノ細孔に対する前記ポリマーの転位中に分析する
方法であって、前記ポリマーが、可能なポリマー単位タイプのセットに属する一連のポリ
マー単位を含み、
前記方法が、
一連の重み分布を出力する機械学習技術を使用して前記シグナルを分析するステップ
であって、各重み分布が、前記可能なポリマー単位タイプを表すラベルを含む、ラベルの
セットにわたるラベル間の遷移に関する重みを含む、ステップと、
前記重み分布から前記一連のポリマー単位の推定値を導出するステップと
を含む、前記方法。
【請求項2】
ラベル間の少なくとも1つの遷移が許容されておらず、他の遷移が許容されており、前
記重み分布がそれぞれ、許容されている遷移に関する重みを含む、請求項1に記載の方法
【請求項3】
前記重み分布がそれぞれ、許容されていない遷移に関するヌル重みを含む、請求項2に
記載の方法。
【請求項4】
前記一連のポリマー単位の推定値を導出するステップは、ラベル間の遷移が許容されて
いるか許容されていないかを表す遷移行列を考慮に入れる、請求項2または3に記載の方
法。
【請求項5】
前記ラベルのセットが、各ポリマー単位タイプに関する第1のラベルおよび第2のラベ
ルを含み、前記第1のラベルが、前記ポリマー単位タイプのインスタンスの開始を表し、
前記第2のラベルが、前記ポリマー単位タイプの前記インスタンスにおけるステイを表し

各第1のラベルから任意の他のポリマー単位タイプの前記第1のラベルへの遷移が許容
されており、
各第1のラベルから同じポリマー単位タイプの前記第1のラベルへの遷移が許容されて
おり、
各第1のラベルから同じポリマー単位タイプの前記第2のラベルへの遷移が許容されて
おり、
各第1のラベルから任意の他のポリマー単位タイプの前記第2のラベルへの遷移が許容
されておらず、
各第2のラベルから同じポリマー単位タイプの前記第1のラベル、または任意の他のポ
リマー単位タイプの前記第1のラベルへの遷移が許容されており、
各第2のラベルから同じポリマー単位タイプの前記第2のラベルへの遷移が許容されて
おり、
各第2のラベルから任意の他のポリマー単位タイプの前記第2のラベルへの遷移が許容
されていない、請求項2~4のいずれか一項に記載の方法。
【請求項6】
前記可能なポリマー単位タイプのセットが、ポリマー単位の既知の配列で常に現れるポ
リマー単位タイプを含み、前記既知の配列に従った遷移が許容されており、前記既知の配
列に反した遷移が許容されていない、請求項2~5のいずれか一項に記載の方法。
【請求項7】
前記一連のポリマー単位における同じタイプのポリマー単位の連続的インスタンスが符
号化形式で表される、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記ラベルが、各ポリマー単位タイプに関する複数のラベルを含み、各ポリマー単位タ
イプに関する前記複数のラベルが、前記一連のポリマー単位における前記ポリマー単位タ
イプの連続的インスタンスを表す、請求項7に記載の方法。
【請求項9】
各ポリマー単位タイプの前記複数のラベルが、所定の周期的順序を有し、それによって
、ラベル間のいくつかの遷移が、前記所定の周期的順序によって許容されており、間の他
の遷移が、前記所定の周期的順序によって許容されておらず、前記重み分布が各々、前記
所定の周期的順序によって許容されている遷移に関する重みを含む、請求項8に記載の方
法。
【請求項10】
各ポリマー単位タイプの前記複数のラベルが、各ポリマー単位タイプの2つのラベルで
ある、請求項8または9に記載の方法。
【請求項11】
前記一連のポリマー単位における同じポリマー単位タイプの連続するインスタンスが、
ランレングス符号化形式で表される、請求項7に記載の方法。
【請求項12】
前記ラベルが、各ポリマー単位タイプの異なるランレングスに関する複数のラベルを含
む、請求項11に記載の方法。
【請求項13】
前記ラベルが、各ポリマー単位タイプに関するラベルを含み、
前記重み分布が、各ポリマー単位タイプの同じポリマー単位タイプの連続的インスタン
スの可能な長さにわたるさらなる重みを含む、請求項11に記載の方法。
【請求項14】
前記さらなる重みが、各ポリマー単位タイプの同じポリマー単位タイプの連続的インス
タンスの可能な長さのセットにわたる重みのカテゴリカル分布を含む、請求項13に記載
の方法。
【請求項15】
前記さらなる重みが、各ポリマー単位タイプの同じポリマー単位タイプの連続的インス
タンスの可能な長さにわたる、パラメータ化された分布のパラメータを含む、請求項13
に記載の方法。
【請求項16】
前記重み分布が、(a)所与のポリマー単位タイプおよび先行するポリマー単位タイプ
の可能な対の、(b)所与のポリマー単位タイプおよび後続のポリマー単位タイプの可能
な対の、または(c)所与のポリマー単位タイプ、先行するポリマー単位タイプ、および
後続のポリマー単位タイプの可能なトリプレットの同じポリマー単位タイプの連続的イン
スタンスの可能な長さにわたるさらなる重みを含む、請求項13~15のいずれか一項に
記載の方法。
【請求項17】
前記可能なポリマー単位タイプが、非修飾形態および修飾形態を有するポリマー単位タ
イプを含む、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記ラベルのセットが、非修飾形態および修飾形態を有する前記ポリマー単位タイプに
関するラベルを含む、請求項17に記載の方法。
【請求項19】
各重み分布が、前記非修飾形態および修飾形態を有する各前記ポリマー単位タイプの前
記非修飾形態および修飾形態のさらなる重みを含む、請求項18に記載の方法。
【請求項20】
前記ラベルのセットが、各ポリマー単位タイプを表す少なくとも1つのラベルを含む、
請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記ラベルのセットが、前記一連のポリマー単位におけるブランクおよび/またはステ
イを表す少なくとも1つのラベルをさらに含む、請求項1~20のいずれか一項に記載の
方法。
【請求項22】
前記機械学習技術が、少なくとも1つの再帰層を含むニューラルネットワークである、
請求項1~21のいずれか一項に記載の方法。
【請求項23】
前記少なくとも1つの再帰層が、双方向再帰層である、請求項22に記載の方法。
【請求項24】
前記ニューラルネットワークが、前記一連の重み分布にわたるラベルのすべての経路に
わたって前記重み分布のグローバル正規化を適用する、請求項22または23に記載の方
法。
【請求項25】
前記ニューラルネットワークが、前記少なくとも1つの再帰層の前に配置され、前記シ
グナルのウィンドウ化セクションの畳み込みを実行する、少なくとも1つの畳み込み層を
含む、請求項22~24のいずれか一項に記載の方法。
【請求項26】
前記重みが事後確率を表す、請求項1~25のいずれか一項に記載の方法。
【請求項27】
前記重み分布から前記一連のポリマー単位の推定値を導出するステップが、コネクショ
ニスト時間分類を使用して実行される、請求項1~26のいずれか一項に記載の方法。
【請求項28】
前記重み分布からポリマー単位の推定値を導出する前記ステップが、それぞれの重み分
布に関するラベルを導出することと、前記導出されたラベルをランレングス圧縮すること
とを含む、請求項1~27のいずれか一項に記載の方法。
【請求項29】
前記重み分布から前記一連のポリマー単位の推定値を導出する前記ステップが、前記重
み分布を基準にして前記一連の重み分布にわたるラベルの最も可能性の高い経路を推定す
ることと、最も可能性が高いと推定されたラベルの前記経路から前記一連のポリマー単位
の前記推定値を導出することと、を含む、請求項1~28のいずれか一項に記載の方法。
【請求項30】
前記重み分布から前記一連のポリマー単位の推定値を導出する前記ステップが、各重み
分布に関する最も可能性が高い前記ラベルを推定することと、前記一連の重み分布にわた
るラベルのフォワード経路とバックワードの経路を考慮に入れることと、最も可能性が高
いと推定された前記ラベルから前記一連のポリマー単位の前記推定値を導出することと、
を含む、請求項1~28のいずれか一項に記載の方法。
【請求項31】
前記ナノ細孔がタンパク質細孔である、請求項1~30のいずれか一項に記載の方法。
【請求項32】
前記ポリマーがポリヌクレオチドであり、前記ポリマー単位がヌクレオチドである、請
求項1~31のいずれか一項に記載の方法。
【請求項33】
前記シグナルが、イオン電流、インピーダンス、トンネリング特性、電界効果トランジ
スタ電圧、および光学特性のうちの1つ以上の特性の測定値から導出される、請求項1~
32のいずれか一項に記載の方法。
【請求項34】
前記方法が、コンピュータ装置で実行される、請求項1~33のいずれか一項に記載の
方法。
【請求項35】
ナノ細孔に対する前記ポリマーの転位中に前記ポリマーから前記シグナルを得ることを
さらに含む、請求項1~34のいずれか一項に記載の方法。
【請求項36】
ポリマーによって生じるシグナルをナノ細孔に対する前記ポリマーの転位中に分析する
ための分析装置であって、前記ポリマーが、可能なポリマー単位タイプのセットに属する
一連のポリマー単位を含み、
前記分析装置は、
前記シグナルに対して機械技術を実行し、一連の重み分布を出力するように構成され
た機械学習ユニットであって、各重み分布が、前記可能なポリマー単位タイプを表すラベ
ルを含むラベルのセットにわたるラベル間の遷移に関する重みを含む、前記機械学習ユニ
ットと、
前記重み分布から前記一連のポリマー単位の推定値を導出するように構成された推定ユ
ニットと、を含む、前記分析装置。
【請求項37】
ポリマーによって生じるシグナルをナノ細孔に対する前記ポリマーの転位中に導出する
ように構成された測定デバイスと、
請求項36に記載の分析装置と
を含むナノ細孔測定および分析システム。
【請求項38】
ポリマーによって生じるシグナルをナノ細孔に対する前記ポリマーの転位中に分析する
方法であって、前記ポリマーが、可能なポリマー単位タイプのセットに属する一連のポリ
マー単位を含み、
前記方法は、
一連の重み分布を出力する機械学習技術を使用して前記シグナルを分析するステップ
であって、各重み分布が、前記可能なポリマー単位タイプを表すラベルを含むラベルのセ
ットにわたるラベルに関する重みを含む、ステップと、
前記重み分布から前記一連のポリマー単位の推定値を導出するステップと
を含み、
前記一連のポリマー単位の推定値を導出するステップは、ラベル間の遷移が許容される
か許容されないかを表す遷移行列を考慮に入れ、ラベル間の少なくとも1つの遷移が許容
されないものとして表され、他の遷移が許容されるものとして表される、前記方法。
【請求項39】
ポリマーによって生じるシグナルをナノ細孔に対する前記ポリマーの転位中に分析する
ための分析装置であって、前記ポリマーが、可能なポリマー単位タイプのセットに属する
一連のポリマー単位を含み、
前記分析装置は、
前記シグナルに対して機械技術を実行し、一連の重み分布を出力するように構成され
た機械学習ユニットであって、各重み分布が、可能なポリマー単位タイプを表すラベルを
含むラベルのセットにわたるラベルに関する重みを含む、前記機械学習ユニットと、
前記重み分布から前記一連のポリマー単位の推定値を導出するように構成された推定
ユニットと
を含み、
前記推定ユニットは、ラベル間の遷移が許容されるか許容されないかを表す遷移行列を
考慮に入れるように構成され、ラベル間の少なくとも1つの遷移が許容されないものとし
て表され、他の遷移が許容されるものとして表される、分析装置。
【請求項40】
ポリマーによって生じるシグナルをナノ細孔に対する前記ポリマーの転位中に分析する
方法であって、前記ポリマーが、可能なポリマー単位タイプのセットに属する一連のポリ
マー単位を含み、
前記方法は、
一連の重み分布を出力する機械学習技術を使用してシグナルを分析するステップであ
って、各重み分布が、前記可能なポリマー単位タイプを表すラベルを含むラベルのセット
にわたるラベルに関する重みを含み、前記一連のポリマー単位における同じポリマー単位
タイプの連続的インスタンスが、ランレングス符号化形式で表される、ステップと、
前記重み分布から前記一連のポリマー単位の推定値を導出するステップと
を含む、前記方法。
【請求項41】
ポリマーによって生じるシグナルをナノ細孔に対する前記ポリマーの転位中に分析する
ための分析装置であって、前記ポリマーが、可能なポリマー単位タイプのセットに属する
一連のポリマー単位を含み、
前記分析装置は、
前記シグナルに対して機械技術を実行し、一連の重み分布を出力するように構成され
た機械学習ユニットであって、各重み分布が、前記可能なポリマー単位タイプを表すラベ
ルを含むラベルのセットにわたるラベルに関する重みを含み、前記一連のポリマー単位に
おける同じポリマー単位タイプの連続的インスタンスが、ランレングス符号化形式で表さ
れる、前記機械学習ユニットと、
前記重み分布から前記一連のポリマー単位の推定値を導出するように構成された推定
ユニットと
を含む前記分析装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、限定されるものではないが、例えばポリヌクレオチドなどのナノ細孔に対す
るポリマーの転位中のポリマーによって生じるシグナルの分析に関する。
【0002】
ポリマーがナノ細孔に対して転位するナノ細孔を使用して、ポリマー中のポリマー単位
の標的配列を推定するための測定システムは、既知である。システムのいくつかの特性は
、ナノ細孔のポリマー単位に依存し、その特性の測定値が得られる。この特性は、ナノ細
孔に対して転位するポリマー単位の一致度に依存しており、そのため、経時的なシグナル
で、ポリマー単位のシーケンスが推定されることを可能にする。各ポリマー単位は、細孔
の寸法と比較して非常に小さいものであり得、複数のポリマー単位が所与の期間でシグナ
ルに影響を及ぼすことを可能にする。ポリマー鎖とナノ細孔との相互作用、巻き取りやス
タッキングなどの鎖内の特性、またはポリマー単位とそれらの移動を制御するために使用
されるいずれかのシステムとの間の相互作用により、より長距離の影響も存在し得る。シ
グナルはリードを形成し、これは基礎となるポリマー単位を推定するために復号される必
要がある。
【0003】
このようなナノ細孔測定システムは、ヌクレオチドが数百~数十万(および場合によっ
てはそれ超)にも及ぶようなポリヌクレオチドの長い連続リードを表すシグナルを提供す
ることができる。ナノ細孔を使用するこのタイプの測定システムは、特にDNAまたはR
NAなどのポリヌクレオチドの配列決定の分野で非常に効果的であることが示されており
、最新の開発対象になっている。
【0004】
しかしながら、ポリマー単位の推定の精度は、測定システムの感度が極端に高いために
制限される。実際の問題として、高精度の推定は機械学習技術を必要とし、本発明は、推
定精度を高めるためにそのような分析を改善することに関する。
【0005】
初期の分析手法は、連続するポリマー単位のグループで構成される可能なk-merを
明確にモデル化する隠れマルコフモデル(HMM)が使用された。より最近では、リカレ
ントニューラルネットワーク(RNN)を使用する手法が開発されている。RNNを使用
することで、長距離情報を考慮することが可能になり、精度を向上することができる。読
み取り速度が向上し、その結果、HMMのような明示的なシグナルモデリングアプローチ
の基礎となる仮定の有効性が低くなることから、RNNは特に有用である。例として、T
eng et al,“Chiron:Translating nanopore r
aw signal directly into nucleotide seque
nce using deep learning”,Gigascience,201
8年5月1日;7(5)[参考文献1]は、生シグナルが入力されるRNNを使用してポ
リマーヌクレオチドを配列決定する方法を開示する。RNNは、4つの可能性のある塩基
タイプとブランクを表すラベルに関する事後確率を含む一連の事後確率分布を出力する。
これらは、コネクショニスト時間分類(connectionist temporal
classification)デコーダによって復号され、事後確率から最も可能性
の高いポリマー単位を推定することによって、一連のポリマー単位の推定値を導出する。
【0006】
本発明の第1の態様によれば、ポリマーによって生じるシグナルをナノ細孔に対するポ
リマーの転位中に分析する方法が提供されており、ポリマーは、可能なポリマー単位タイ
プのセットに属する一連のポリマー単位を含んでおり、本方法は、一連の重み分布を出力
する機械学習技術を使用してシグナルを分析することであって、各重み分布が、可能なポ
リマー単位タイプを表すラベルを含んだラベルのセットにわたるラベル間の遷移に関する
重みを含んでいることと、重み分布から一連のポリマー単位の推定値を導出することと、
を含む。
【0007】
ラベルのセットは、ブランクおよび/またはステイを表すラベルを含むことができる。
言い換えると、このセットは、可能なポリマー単位タイプを表すと言うことができる。
【0008】
この遷移は、あるラベルと別のラベルとの間のものであり得る。この遷移は、連続する
ラベル間のものであり得る。
【0009】
したがって、本方法は、k個のポリマー単位を含むk-merを表すのではなく、可能
なポリマー単位タイプを表すラベルを示す重みを提供する。しかしながら、本方法は、ラ
ベル自体に関する重みではなく、ラベル間の遷移に関する重みを導出する。そのような方
法は、可能なポリマー単位タイプを表すラベルを含むラベルのセットにわたるラベルに関
する一連の重みを導出する比較法よりも利点をもたらす。ラベルのセットにわたるラベル
間の遷移に関する重みを提供することにより、より正確な様式で一連のポリマー単位の推
定を可能にする追加情報が提供される。これは、重みがラベルの可能な経路に関する情報
を提供するのに対し、ラベルに関する重みは提供しないためである。
【0010】
例えば、ラベルに関する重みによって予測される特定の位置について、ラベルが正しく
ない状況があるが、一方で、その位置を通るラベルの経路を考慮することで、正しい別の
ラベルが予測され得る。このようにして、追加情報が推定に供給され、それによって精度
を向上させる。
【0011】
例として、この技術は、例えば、ホモポリマーなど、1つ以上のポリマー単位の短い配
列が繰り返される領域を含む反復配列の領域の、より良好な推定を可能にする。
【0012】
好ましくは、ラベル間の少なくとも1つの遷移が許容されておらず、他の遷移が許容さ
れており、重み分布は各々、許容されている遷移に関する重みを含んでいる。その場合、
重み分布は各々、許容されてない遷移に関するヌル重みを含むことができ、または一連の
ポリマー単位の推定値を導出するステップは、ラベル間の遷移が許容されるか許容されな
いかを表す遷移行列を考慮に入れることができる。
【0013】
表現の1つのタイプでは、ラベルのセットは、各ポリマー単位タイプに関する第1およ
び第2のラベルを含むことができ、第1のラベルはポリマー単位タイプのインスタンスの
開始を表し、第2のラベルはポリマー単位タイプのインスタンスにおけるステイを表して
おり、各第1のラベルから任意の他のポリマー単位タイプの第1のラベルへの遷移が許容
されており、各第1のラベルから同じポリマー単位タイプの第1のラベルへの遷移が許容
されており、各第1のラベルから同じポリマー単位タイプの第2のラベルへの遷移が許容
されており、各第1のラベルから任意の他のポリマー単位タイプの第2のラベルへの遷移
が許容されておらず、各第2のラベルから同じポリマー単位タイプの第1のラベル、また
は任意の他のポリマー単位タイプの第1のラベルへの遷移が許容されており、各第2のラ
ベルから同じポリマー単位タイプの第2のラベルへの遷移が許容されており、各第2のラ
ベルから任意の他のポリマー単位タイプの第2のラベルへの遷移が許容されていない。
【0014】
「ステイ」は、本方法が、ラベルが変化しないと判断する状況を表し、このことは、ポ
リマー単位の同じインスタンスに対応する2つの重み分布と見なされ得る。
【0015】
可能なポリマー単位タイプのセットは、ポリマー単位の既知の配列で常に現れるポリマ
ー単位タイプを含むことができ、既知の配列に従った遷移が許容されており、既知の配列
に反した遷移が許容されていない。
【0016】
一連のポリマー単位の中で同じポリマー単位タイプの連続的インスタンスが、符号化形
式で表されることができる。
【0017】
ラベルが、各ポリマー単位タイプに関する、例えば2つのラベルなどの複数のラベルを
含むことができ、各ポリマー単位タイプに関する複数のラベルが、一連のポリマー単位に
おけるポリマー単位タイプの連続的インスタンスを表す。
【0018】
各ポリマー単位タイプに関する複数のラベルは、所定の周期的順序を有することができ
、それにより、ラベル間のいくつかの遷移が、所定の周期的順序によって許容されており
、ラベル間の他の遷移が、所定の周期的順序によって許容されておらず、重み分布が、所
定の周期的順序によって許容されている遷移に関する重みを含む。
【0019】
一連のポリマー単位内の同じポリマー単位タイプの連続するインスタンスは、ランレン
グス符号化形式で表される。
【0020】
これらのラベルは、各ポリマー単位タイプの異なるランレングスに関する複数のラベル
を含み得る。
【0021】
これらのラベルは、各ポリマー単位タイプに関する1つのラベルを含むことができ、重
み分布が、各ポリマー単位タイプについて、同じポリマー単位タイプの連続的インスタン
スの可能な長さにわたるさらなる重みを含むことができる。
【0022】
さらなる重みは、各ポリマー単位タイプについて、同じポリマー単位タイプの連続的イ
ンスタンスの可能な長さのセットにわたる重みのカテゴリカル分布を含むことができる。
【0023】
さらなる重みは、各ポリマー単位タイプについて、同じタイプのポリマー単位の連続す
るインスタンスの可能な長さにわたるパラメータ化された分布のパラメータを含むことが
できる。
【0024】
可能なポリマー単位タイプは、非修飾および修飾の形態を有するポリマー単位タイプを
含む場合、ラベルのセットが、非修飾形態および修飾形態を有するポリマー単位タイプを
表すラベルを含み得、各重み分布は、非修飾形態および修飾形態を有する少なくとも1つ
のポリマー単位タイプの各々の非修飾形態および修飾形態について、さらなる重みを含み
得る。ポリマー単位の非修飾形態は、カノニカルポリマー単位として説明され得、ポリマ
ー単位の修飾形態は、非カノニカルポリマー単位として説明され得る。修飾(または非カ
ノニカル)ポリマー単位は、通常、対応する非修飾(カノニカル)ポリマー単位とは異な
る形でシグナルに影響を及ぼす。
【0025】
いくつかの実施形態において、1つ以上の非カノニカルポリマー単位を含むポリマーは
、参照が行われ、参照により本明細書に組み込まれている2019年9月4日に出願され
た国際特許出願第PCT/GB2019/052456号に詳細に記載されるように調製
され、続いて分析され得る。一例では、ある割合のカノニカルポリマー単位(例えば、ア
ミノ酸)は、非決定論的な方法で、例えば、化学変換または酵素変換によって、対応する
非カノニカルポリマー単位(例えば、アミノ酸)に変換され得る。その場合、一連のポリ
マー単位の推定値を導出(「呼び出し」)するとき、非カノニカル塩基は、対応するカノ
ニカル塩基であると推定(「呼び出される」)されることができる。このように、非カノ
ニカルポリマー単位の分析においてカノニカルポリマー単位として認識することにより、
初期変換は、例えば、シグナルの分析に存在するいずれかの誤差が非体系的になる結果に
なるなど、シグナルにより多くの情報を提供する方法を提供することができ、それによっ
て、推定精度の向上をもたらす。
【0026】
ラベルのセットは、各ポリマー単位タイプに関する少なくとも1つのラベル、および一
連のポリマー単位内のブランクに関する少なくとも1つのラベルを含み得る。
【0027】
機械学習技術は、双方向回帰層であり得る少なくとも1つの回帰層を含むニューラルネ
ットワークであり得る。
【0028】
ニューラルネットワークは、一連の重み分布を通るすべての経路にわたって重み分布の
グローバル正規化を適用することができる。
【0029】
ニューラルネットワークは、回帰層の前に配置され、シグナルのウィンドウ化されたセ
クションの畳み込みを実行する複数の畳み込み層を含み得る。
【0030】
これらの重みは事後確率を表し得る。
【0031】
重み分布から一連のポリマー単位の推定値を導出するステップは、コネクショニスト時
間分類を使用して実行することができる。
【0032】
重み分布から一連のポリマー単位の推定値を導出するステップは、各重み分布に関する
ラベルを導出すること、および導出されたラベルをランレングス圧縮することを含み得る
【0033】
重み分布から一連のポリマー単位の推定値を導出するステップが、重み分布を基準にし
て一連の重み分布を通るラベルの最も可能性の高い経路を推定することを含み得、一連の
ポリマー単位の推定値は、最も可能性が高いと推定されたラベルの経路から導出される。
【0034】
代替的に、重み分布から一連のポリマー単位の推定値を導出するステップが、各重み分
布に関する最も可能性が高いラベルを推定すること、および一連の重み分布を通るラベル
のフォワードとバックワードの経路を考慮に入れることを含み得、一連のポリマー単位の
推定値が、最も可能性が高いと推定されたラベルから導出される。
【0035】
本発明の第2の態様によれば、ポリマーによって生じるシグナルをナノ細孔に対するポ
リマーの転位中に分析する方法が提供されており、本方法は、一連の重み分布を出力する
機械学習技術を使用してシグナルを分析することであって、各重み分布が、可能なポリマ
ー単位タイプを表すラベルを含むラベルのセットにわたるラベルに関する重みを含んでい
ることと、重み分布から一連のポリマー単位の推定値を導出することと、を含み、ここで
、一連のポリマー単位の推定値を導出するステップは、ラベル間の遷移が許容されるか許
容されないかを表す遷移行列を考慮に入れ、ラベル間の少なくとも一方の遷移は、許容さ
れないものとして表されており、他方の遷移は、許容されたものとして表される。
【0036】
本発明の第3の態様によれば、ポリマーによって生じるシグナルをナノ細孔に対するポ
リマーの転位中に分析する方法が提供されており、ポリマーは、可能なポリマー単位タイ
プのセットに属する一連のポリマー単位を含み、本方法は、一連の重み分布を出力する機
械学習技術を使用してシグナルを分析することであって、各重み分布が、可能なポリマー
単位タイプを表すラベルを含むラベルのセットにわたるラベルに関する重みを含み、一連
のポリマー単位内の同じポリマー単位タイプの連続的インスタンスがランレングス符号化
形式で表されていることと、重み分布から一連のポリマー単位の推定値を導出することと
、を含む。
【0037】
第1の態様のいずれかの特徴は、本発明の第2および第3の態様に任意の組み合わせで
適用することができる。
【0038】
さらに、本発明によれば、本方法は、コンピュータ装置で実行されるコンピュータプロ
グラムによって実施されてもよく、または同様の方法を、本発明のいずれかの態様に実施
するように構成された分析装置が提供されてもよい。
【0039】
さらに本発明によれば、ナノ細孔測定および分析システムが提供され得、ナノ細孔に対
するポリマーの転位中にポリマーからシグナルを導出するように構成された測定システム
と組み合わせられたような分析装置を含む。
【0040】
より良好な理解を可能にするために、本発明の実施形態は、添付の図面を参照して非限
定的な例としてここで説明される。
【図面の簡単な説明】
【0041】
図1】ナノ細孔測定および分析システムの概略図である。
図2】時間の経過に伴う典型的なシグナルのプロットである。
図3】分析システムにおけるニューラルネットワークの図である。
図4】ニューラルネットワークのウィンドウィングセクションの動作を示すシグナルの一部のプロットである。
図5】RNNの再帰層の図である。
図6】非再帰層の図である。
図7】一方向層の図である。
図8】「フォワード」と「バックワード」の再帰層を組み合わせた双方向再帰層の図である。
図9】「フォワード」と「バックワード」の再帰層を交互に組み合わせた代替双方向再帰層の図である。
図10】4つのタイプのポリヌクレオチドを表すラベル間の遷移に関する重み分布の表である。
図11】4つのタイプのポリヌクレオチドとブランクを表すラベル間の遷移に関する重み分布の表である。
図12】5つのタイプのポリヌクレオチド(そのうちの1つはメチル化C)とブランクを表すラベル間の遷移に関する重み分布の表である。
図13】重みが4つのタイプのポリヌクレオチドの各々について2つのラベルを含むラベル間の遷移に関する、重み分布の表である。
図14】重みがフリップフロップ表現を使用してホモポリマーを表している、重み分布の表である。
図15】6-merのシグナルモデルと、読み取りヘッドおよびシステムの他のコンポーネントに対するおおよその位置を使用する、4つの塩基の残留電流のプロットである。
図16】重みがランレングス符号化表現を使用してホモポリマーを表す重み分布の表である。
図17】重みが、ランレングス符号化表現の異なる定式化を使用してホモポリマーを表す重み分布の表である。
図18】重み分布のさらなる重みの表であり、各可能なホモポリマータイプについて、可能な長さのセットにわたるカテゴリ分布を表す。
図19】重み分布のさらなる重みの表であり、各可能なホモポリマータイプについて、可能な長さにわたるパラメータ化された分布を表す。
図20】平均および分散パラメータの異なる値によって表される2つの分布のプロットである。
図21】ホモポリマーを表すために使用することができる可能な分布の表である。
図22】重み分布のさらなる重みの表であり、各可能なポリマー単位の対について、可能な長さのセットにわたるカテゴリ分布を表す。
図23】重み分布のさらなる重みの表であり、各ポリマー単位の可能なトリプレットについて、可能な長さのセットにわたるカテゴリ分布を表す。
図24】ラベルのセットが、修飾ポリマー単位に関するラベルを含むように拡張された重み分布の表である。
図25】修飾の因数分解された表現における、ポリマー単位タイプの非修飾形態および修飾形態のさらなる重みの表である。
図26】5-塩基の表現について、シグナルのプロットおよびそこから推定されたポリマー単位である。
図27】ニューラルネットワークのデコーダによって実行される方法のフロー図である。
図28】様々な復号アルゴリズムの定義である。
図29】様々な復号アルゴリズムの定義である。
図30】様々な復号アルゴリズムの定義である。
図31】さらなる復号アルゴリズムの定義である。
図32】フリップフロップ表現のための目的遷移行列を構築するためのアルゴリズムの定義である。
図33】すべての経路にわたるトレーニングのための目的関数の定義である。
図34】マルチステイ表現のための目的遷移行列を構築するためのアルゴリズムの定義である。
図35】ランレングス符号化表現のための目的遷移行列を構築するためのアルゴリズムの定義である。
図36】シグナルのプロットおよびそこから推定されるポリマー単位であり、長いホモポリマーの例を示している。
図37】最良経路をトレーニングするための目的関数の定義である。
図38】ファンクターの表である。
図39】シグナルのプロットおよびそこから推定されるポリマー単位であり、フリップフロップ表現がシャープニングを使用してトレーニングされる一例を示している。
図40】シャープニングを用いずにトレーニングされた表現、およびシャープニングを用いてトレーニングされた表現について、推定された一連のポリマー単位の基準に対する整列を示す表である。
【0042】
図1は、測定システム2および分析システム3を含むナノ細孔測定および分析システム
1を示す。測定システム2は、ナノ細孔に対するポリマーの転位中に、一連のポリマー単
位を含むポリマーからのシグナルを導出する。分析システム3は、一連のポリマー単位の
推定値を導出するためのシグナル分析の方法を実行する。
【0043】
一般に、ポリマーは、任意のタイプ、例えば、ポリヌクレオチド(または核酸)、タン
パク質などのポリペプチド、または多糖であり得る。ポリマーは、天然または合成であり
得る。ポリヌクレオチドは、ホモポリマー領域を含み得る。ホモポリマー領域は、5~1
5ヌクレオチドを含み得る。
【0044】
ポリヌクレオチドまたは核酸の場合、ポリマー単位はヌクレオチドであり得る。ポリヌ
クレオチドは、典型的には、デオキシリボ核酸(DNA)、リボ核酸(RNA)、cDN
A、または、当該技術分野で既知の任意の合成核酸、例えば、ペプチド核酸(PNA)、
グリセロール核酸(GNA)、トレオース核酸(TNA)、ロックド核酸(LNA)、も
しくはヌクレオチド側鎖を有する他の合成ポリマーであり得る。PNA骨格は、ペプチド
結合によって連結した繰り返しN-(2-アミノエチル)-グリシン単位で構成される。
GNA骨格は、ホスホジエステル結合によって連結した繰り返しグリコール単位で構成さ
れる。TNA骨格は、ホスホジエステル結合によって共に連結した繰り返しトレオース糖
で構成される。LNAは、上で考察されたように、リボース部分における2’酸素および
4’炭素を接続する余分な架橋を有するリボヌクレオチドから形成される。核酸は、一本
鎖、二本鎖、または一本鎖領域および二本鎖領域の両方を含み得る。ポリヌクレオチドは
、DNAの1本の鎖にハイブリダイズされたRNAの一本鎖を含み得る。典型的には、c
DNA、RNA、GNA、TNA、またはLNAは一本鎖である。
【0045】
ポリマー単位は、任意のタイプのヌクレオチドであり得る。ヌクレオチドは、天然に存
在しても人工であってもよい。例えば、本方法を使用して、製造されたオリゴヌクレオチ
ドの配列を確かめることができる。ヌクレオチドは、典型的には、核酸塩基、糖、および
少なくとも1つのリン酸基を含む。核酸塩基および糖は、ヌクレオシドを形成する。核酸
塩基は、典型的には、複素環である。好適な核酸塩基には、プリンおよびピリミジン、よ
り具体的にはアデニン、グアニン、チミン、ウラシル、およびシトシンが含まれる。糖は
、典型的には、五炭糖である。好適な糖には、リボース、およびデオキシリボースが含ま
れるが、これらに限定されない。ヌクレオチドは、典型的には、リボヌクレオチドまたは
デオキシリボヌクレオチドである。ヌクレオチドは、典型的には、一リン酸、二リン酸、
または三リン酸を含む。
【0046】
ヌクレオチドは、損傷した塩基または後成的塩基などの修飾された塩基であり得る。例
えば、ポリヌクレオチドは、ピリミジンダイマーを含み得る。かかるダイマーは、典型的
には、紫外線による損傷に関連付けられ、皮膚メラノーマの主因である。ヌクレオチドは
、明確なシグナルを有するマーカーとして機能するようにラベリングまたは修飾されるこ
とができる。この技術は、例えば、ポリヌクレオチド中の無塩基単位またはスペーサーで
ある塩基の不在を同定するために使用されることができる。本方法はまた、あらゆるタイ
プのポリマーにも適用することができる。
【0047】
ポリペプチドの場合、ポリマー単位は、天然に存在するかまたは合成されるアミノ酸で
あり得る。
【0048】
多糖の場合、ポリマー単位は単糖であり得る。
【0049】
特に、測定システム2がナノ細孔を含み、ポリマーがポリヌクレオチドを含む場合、ポ
リヌクレオチドは長く、例えば、少なくとも5kB(キロ-塩基)、すなわち少なくとも
5000ヌクレオチド、または少なくとも30kB(キロ-塩基)、すなわち少なくとも
30,000ヌクレオチド、または少なくとも100kB(キロ-塩基)、すなわち少な
くとも100,000ヌクレオチドであり得る。
【0050】
測定システム2の特性と得られたシグナルは以下の通りである。
【0051】
測定システム2は、1つ以上のナノ細孔を含むナノ細孔システムである。単純なタイプ
では、測定システム2は単一のナノ細孔しか有さないが、より実用的な測定システム2は
、情報の並列収集を提供するために、典型的にはアレイ内の多くのナノ細孔を使用する。
【0052】
シグナルは、通常はナノ細孔を通る、ポリマーのナノ細孔に対する転位中に記録され得
る。
【0053】
ナノ細孔は、典型的にはナノメートルのオーダーのサイズを有する細孔であり、そこを
通るポリマーの通過を可能にし得る。
【0054】
ナノ細孔は、タンパク質細孔または固体細孔であり得る。細孔の寸法は、一度に1つの
ポリマーのみが細孔を転位することができるようなものであり得る。
【0055】
ナノ細孔がタンパク質細孔である場合には以下の特性を有し得る。
【0056】
生物学的細孔は、膜貫通タンパク質細孔であり得る。本発明に従って使用するための膜
貫通タンパク質細孔は、βバレル細孔またはαヘリックスバンドル細孔から誘導され得る
。β-バレル細孔は、β鎖から形成されるバレルまたはチャネルを含む。好適なβ-バレ
ル細孔としては、α-溶血毒、炭疽毒素、およびロイコシジンなどのβ-毒素、ならびに
Mycobacterium smegmatisポリン(Msp)、例えばMspA、
MspB、MspC、またはMspD、リセニン、外膜ポリンF(OmpF)、外膜ポリ
ンG(OmpG)、外膜ホスホリパーゼAおよびNeisseriaオートトランスポー
ターリポタンパク質(NalP)などの細菌の外膜タンパク質/ポリンなどの他の細孔が
挙げられるが、これらに限定されない。α-ヘリックスバンドル細孔は、α-ヘリックス
から形成されるバレルまたはチャネルを含む。好適なα-ヘリックスバンドル細孔は、内
膜タンパク質およびα外膜タンパク質、例えばWZAおよびClyA毒素を含むが、これ
らに限定されない。膜貫通孔は、Mspまたはα-溶血素(α-HL)に由来し得る。膜
貫通孔はリセニンに由来してもよい。リセニン由来の好適な細孔は、WO2013/15
3359に開示されている。MspA由来の好適な細孔は、WO2012/107778
に開示されている。細孔は、WO‐2016/034591に開示されているように、C
sgGに由来し得る。この細孔は、DNA折り紙細孔であり得る。
【0057】
タンパク質細孔は、天然に存在する細孔であり得、または変異体細孔であり得る。典型
的な細孔は、WO-2010/109197、Stoddart D et al.,P
roc Natl Acad Sci,12;106(19):7702-7、Stod
dart D et al.,Angew Chem Int Ed Engl.201
0;49(3):556-9、Stoddart D et al.,Nano Let
t.2010 Sep 8;10(9):3633-7、Butler TZ et a
l.,Proc Natl Acad Sci 2008;105(52):20647
-52、およびWO-2012/107778に記載される。
【0058】
タンパク質細孔は、WO-2015/140535に記載されているタイプのタンパク
質細孔の1つであり得、そこに開示されている配列を有し得る。
【0059】
タンパク質細孔は、生体膜などの両親媒性層、例えば脂質二重層に挿入することができ
る。両親媒性層は、親水および親油特性の両方を有する、リン脂質などの両親媒性分子か
ら形成された層である。両親媒性層は、単分子層または二重層であり得る。両親媒性層は
、Gonzalez‐Perez et al.,Langmuir,2009,25,
10447‐10450またはWO2014/064444に開示されているような共ブ
ロックポリマーであってもよい。代替的に、タンパク質細孔は、例えば、WO2012/
005857に開示されているように、固体層に設けられた開口に挿入され得る。
【0060】
ナノ細孔のアレイを提供するための好適な装置は、WO-2014/064443に開
示されている。ナノ細孔は、各ウェルを横切って提供され得、電極は、各ナノ細孔を通る
電流の流れを測定するためのASICと電気的に接続された各ウェルに提供される。好適
な電流測定装置は、WO-2016/181118に開示されるような電流感知回路を含
み得る。
【0061】
ナノ細孔は、固体層に形成された開口を含み得、これは、固体細孔と呼ばれ得る。開口
は、分析物が通過することがある、またはそこに入ることができる固体層に提供されるウ
ェル、ギャップ、チャネル、トレンチ、またはスリットであり得る。このような固体層は
、生物学的起源のものではない。換言すれば、固体層は、有機体または細胞等の生物学的
環境、もしくは生物学的に利用可能な構造の合成的に製造されたバージョンに由来しない
か、またはそれらから単離されない。固体層は、マイクロ電子材料、Si3N4、A12
03およびSiOなどの絶縁材料、ポリアミドなどの有機および無機ポリマー、テフロン
(登録商標)などのプラスチックまたは二成分付加硬化型シリコーンゴムなどのエラスト
マー、ならびにガラスを含むがこれらに限定されない有機材料および無機材料の両方から
形成することができる。固体層はグラフェンから形成されてもよい。好適なグラフェン層
は、WO‐2009/035647、WO‐2011/046706、またはWO‐20
12/138357に開示されている。固体細孔のアレイを準備するための好適な方法は
、WO‐2016/187519に開示されている。
【0062】
そのような固体細孔は、典型的には、固体層の開口である。開口は、ナノ細孔としての
特性を強化するために、化学的またはその他の方法で変更することができる。固体細孔は
、トンネル電極(Ivanov AP et al.,Nano Lett.2011
Jan 12;11(1):279-85)、または電界効果トランジスタ(FET)デ
バイス(例えば、WO-2005/124888に開示されている)などのポリマーの代
替または追加の測定を提供する追加のコンポーネントと組み合わせて使用することができ
る。固体細孔は、例えば、WO-00/79257に記載されているものを含む既知のプ
ロセスによって形成され得る。
【0063】
ナノ細孔は、固体細孔とタンパク質細孔のハイブリッドであり得る。
【0064】
測定システム2は、細孔に対して転位するポリマー単位に依存する特性の一連の測定を
行う。一連の測定はシグナルから測定され得る。
【0065】
測定された特性は、ポリマーと細孔の間の相互作用に関連付けられ得る。このような相
互作用は、細孔の狭窄領域で発生する可能性がある。
【0066】
測定システム2の1つのタイプでは、測定される特性は、ナノ細孔を通って流れるイオ
ン電流であり得る。これらの、および他の電気的測定は、Stoddart D et
al.,Proc Natl Acad Sci,12;106(19):7702-7
、Lieberman KR et al,J Am Chem Soc.2010;1
32(50):17961-72、およびWO-2000/28312に記載されている
ような標準の単一チャネル記録装置を使用して行うことができる。代替的に電気的特性の
測定は、例えば、WO-2009/077734、WO-2011/067559、また
はWO-2014/064443に記載されているようなマルチチャネルシステムを使用
して実行されてもよい。
【0067】
イオン性溶液は、膜または固体層のいずれかの側に提供され得、これらのイオン性溶液
は、それぞれの区画に存在し得る。目的のポリマー分析物を含むサンプルを膜の片側に追
加し、例えば電位差または化学勾配の下で、ナノ細孔に対して移動することを可能にする
。シグナルは、ポリマーの細孔に対する移動中に導出されることができ、例えば、ナノ細
孔を通るポリマーの転位中に得られ得る。ポリマーは、ナノ細孔を部分的に転位し得る。
【0068】
ポリマーがナノ細孔を通って転位するときに測定値を得ることを可能にするために、転
位の速度は、ポリマー結合部分によって制御することができる。典型的には、部分は、適
用された電場と共に、またはそれに対して、ナノ細孔を通してポリマーを移動することが
できる。いくつかの実施形態では、部分は、例えば、部分が酵素、酵素活性である場合、
または分子ブレーキとして使用する分子モーターであり得る。ポリマーがポリヌクレオチ
ドであるいくつかの実施形態では、ポリヌクレオチド結合酵素の使用を含む、転位の速度
を制御するために提案されたいくつかの方法がある。ポリヌクレオチドの転位の速度を制
御するための好適な酵素には、ポリメラーゼ、ヘリカーゼ、エキソヌクレアーゼ、一本鎖
および二本鎖結合タンパク質、ならびにジャイレースなどのトポイソメラーゼが含まれる
が、これらに限定されない。他のポリマータイプの場合、そのポリマータイプと相互作用
する部分をいくつかの実施形態で使用することができる。いくつかの実施形態では、ポリ
マー相互作用部分は、WO-2010/086603、WO-2012/107778、
およびLieberman KR et al,J Am Chem Soc.2010
;132(50):17961-72)、ならびに電圧ゲート方式(Luan B et
al.,Phys Rev Lett.2010;104(23):238103)に
開示されるいずれかであり得る。
【0069】
いくつかの実施形態では、ポリマー結合部分は、ポリマーの動きを制御するためにいく
つかの方法で使用することができる。部分は、適用された電場と共に、またはそれに対し
て、ナノ細孔を通してポリマーを移動することができる。いくつかの実施形態では、部分
は、例えば、部分が酵素、酵素活性である場合、または分子ブレーキとして使用する分子
モーターであり得る。いくつかの実施形態では、ポリマーの転位は、細孔を通るポリマー
の移動を制御する分子ラチェットによって制御され得る。いくつかの実施形態では、分子
ラチェットは、ポリマー結合タンパク質であり得る。ポリヌクレオチドに関して、ポリヌ
クレオチド結合タンパク質は、好ましくは、ポリヌクレオチドハンドリング酵素である。
ポリヌクレオチドハンドリング酵素は、ポリヌクレオチドの少なくとも1つの特性と相互
作用すること、かつそれを修飾することができるポリペプチドである。酵素は、個々のヌ
クレオチドまたはヌクレオチドのより短い鎖、例えばジ-またはトリヌクレオチドを形成
するために、ポリヌクレオチドを切断することによってポリヌクレオチドを修飾してもよ
い。酵素は、それを配向するか、またはそれを特定の位置に移動させることによって、ポ
リヌクレオチドを修飾してもよい。ポリヌクレオチドハンドリング酵素は、それが、標的
ポリヌクレオチドに結合し、かつ細孔を通るその移動を制御することができる限り、酵素
活性を提示する必要がない。例えば、酵素を、その酵素活性を除去するために修飾しても
よく、または酵素として作用することを防ぐ条件下で使用してもよい。そのような条件は
以下でより詳しく考察される。
【0070】
いくつかの実施形態では、好ましいポリヌクレオチドハンドリング酵素は、ポリメラー
ゼ、エキソヌクレアーゼ、ヘリカーゼ、およびトポイソメラーゼ、例えば、ジャイレース
である。いくつかの実施形態では、ポリヌクレオチドハンドリング酵素は、例えば、WO
-2015/140535またはWO-2010/086603に記載されているタイプ
のポリヌクレオチドハンドリング酵素のうちの1つであり得る。
【0071】
ナノ細孔を介したポリマーの転位は、印加された電位の有無にかかわらず、シスからト
ランスまたはトランスからシスのいずれかで発生してもよい。転位は、転位を制御する可
能性のある印加電位下で発生する可能性がある。
【0072】
二本鎖DNA上で進行的または前進的に作用するエキソヌクレアーゼを細孔のシス側に
使用して、印加された電位下で、または逆電位下のトランス側で、残りの一本鎖を貫通接
続することができる。同様に、二本鎖DNAを巻き戻すヘリカーゼも類似の様式で使用す
ることができる。印加電位に対する鎖転位を必要とする配列決定用途の可能性もあるが、
DNAは最初に逆電位または非電位下で酵素によって「捕捉され」なければならない。そ
の後、結合に続いて電位が戻されると、鎖は、細孔をシスからトランスへと通り、電流に
よって拡張された立体構造で保持されることになる。一本鎖DNAエキソヌクレアーゼま
たは一本鎖DNA依存性ポリメラーゼは分子モーターとして作用して、印加された電位に
対して、新たに転位した一本鎖を、制御された様式で細孔を通ってトランスからシスへと
引き戻すことができる。代替的に、一本鎖DNA依存性ポリメラーゼは、細孔を通るポリ
ヌクレオチドの動きを遅らせる分子ブレーキとして作用することができる。WO-201
2/107778またはWO-2012/033524に記載されている任意の部分、技
術または酵素を使用して、ポリマーの動きを制御することができる。
【0073】
しかしながら、測定システム2は、1つ以上のナノ細孔を含む代替のタイプのものであ
り得る。
【0074】
同様に、測定される特性は、イオン電流以外のタイプのものであることがある。代替タ
イプの特性のいくつかの例には、電気的特性および光学特性が含まれるが、これらに限定
されない。蛍光の測定を含む好適な光学的方法は、J.Am.Chem.Soc.200
9,131 1652-1653によって開示されている。可能な電気的特性には、イオ
ン電流、インピーダンス、トンネリング特性、例えば、トンネリング電流(例えば、Iv
anov AP et al.,Nano Lett.2011 Jan 12;11(
1):279-85に開示されている)、およびFET(電界効果トランジスタ)電圧(
例えば、WO2005/124888に開示されている)が含まれる。1つ以上の光学特
性が使用されることができ、任意選択で電気特性と組み合わせられる(Soni GV
et al.,Rev Sci Instrum.2010 Jan;81(1):01
4301)。この特性は、ナノ細孔を流れるイオン電流などの膜貫通電流であり得る。イ
オン電流は典型的には、DCイオン電流であってもよいが、原則として、代替案は、AC
電流フロー(すなわち、AC電圧の印加下で流れるAC電流の大きさ)を使用することも
できる。
【0075】
いくつかのタイプの測定システム2では、このシグナルは、一連のイベントからの測定
値を含むものとして特徴付けられることができ、各イベントは測定値の群を提供する。図
2は、電流を測定する場合のそのようなシグナル10の典型的な例を示す。各イベントの
測定値の群のレベルは類似しているが、多少の差異はある。これは、各ステップがイベン
トに対応するノイズの多いステップ波と考えることができる。イベントは、例えば、測定
システム2の所与の状態または相互作用から生じる生化学的重要性を有し得る。これは、
場合によっては、ラチェット様式で発生するナノ細孔を介したポリマーの転位から生じる
可能性がある。しかしながら、このタイプのシグナルは、すべてのタイプの測定システム
によって生成されるわけではなく、本明細書で説明される方法は、シグナルのタイプには
依存しない。例えば、転位速度が測定サンプリング速度に近づくと、例えば、ポリマー単
位の転位速度の1倍、2倍、5倍、または10倍で測定が行われる場合、イベントは、よ
り遅い配列決定速度、またはより速いサンプリングレートと比較して、より顕在化しない
か、または存在しないことがある。
【0076】
さらに、イベントが存在する場合、通常、群内の測定数に関する先験的な知識はなく、
これは予測不能に変動する。これら変動および測定値の数の知識不足が要因で、一部の群
を区別することが困難になる場合があり、これらは、例えば、群が短い場合、および/ま
たは2つの連続する群の測定値のレベルが互いに近接している場合などである。
【0077】
各イベントに対応する測定値の群は、典型的には、イベントの時間スケールにわたって
一貫したレベルを持っているが、ほとんどのタイプの測定システム2では、短い時間スケ
ールで変動し得る。このような変動は、例えば電気回路およびシグナル処理から生じる測
定ノイズ、特に電気生理学の特定の場合の増幅器から生じ得る。測定される特性の程度が
小さいため、このような測定ノイズは避けられない。このような変動は、測定システム2
の基礎となる物理的または生物学的システムの固有の変動または広がり、例えば、ポリマ
ーのコンフォメーション変化によって引き起こされる可能性のある相互作用の変化からも
生じ得る。
【0078】
ほとんどのタイプの測定システム2は、多かれ少なかれ、そのような固有の変動を経験
するであろう。所与のタイプの測定システム2について、両方の変動源が寄与するか、ま
たはこれらのノイズ源の1つが支配的であり得る。
【0079】
ポリマー単位がナノ細孔に対して転位する速度である配列決定速度の増加に伴い、イベ
ントはあまり目立たなくなり、したがって同定が困難になるか、または消える可能性があ
る。したがって、そのようなイベント検出に依存する分析方法は、配列決定速度が増すに
つれて効率が低下し得る。
【0080】
しかしながら、本明細書に開示される方法は、そのようなイベントの検出に依存しない
。以下に説明する方法は、比較的速い配列決定速度でも有効であり、この配列決定速度に
は、ポリマー転位が少なくとも毎秒10ポリマー単位、好ましくは毎秒100ポリマー単
位、より好ましくは毎秒500ポリマー単位、またはより好ましくは毎秒1000ポリマ
ー単位であるものが含まれる。
【0081】
サンプルレートとは、シグナルにおける測定値の速度である。通常、サンプルレートは
配列決定速度よりも速くなる。例えば、サンプルレートは、100Hz~30kHzの範
囲であり得るが、これは限定的ではない。実際には、サンプルレートは測定システム2の
性質に依存し得る。
【0082】
場合によっては、本方法は、関連する一連のポリマー単位の測定値である複数の一連の
測定値を使用することができる。例えば、複数の一連の測定値は、関連する配列を有する
別個のポリマーの一連の測定値であり得、または関連する配列を有する同一ポリマーの異
なる領域の一連の測定値であり得る。
【0083】
ポリヌクレオチドの場合、複数の一連のポリマー単位は相補的であることによって関係
し得るので、一連のポリマー単位の1つはテンプレートと呼ばれ、それに対して相補的で
ある他の一連のポリマー単位は相補体と呼ばれる。この場合、テンプレートおよび相補体
の測定値は、任意の適切な技術を使用して取得することができ、例えば、ポリヌクレオチ
ド結合タンパク質を使用して、またはポリヌクレオチドサンプル調製を介して順次取得さ
れる。好適な方法には、WO-2010/086622またはWO-2013/0144
51に記載されている方法が含まれる。
【0084】
単一の一連のポリマー単位に関連する本明細書で開示された方法のいずれも、例えば、
WO-2010/086622またはWO-2013/014451に記載される方法を
使用することによって、テンプレートおよび相補体などの複数の一連の測定値に適用され
得る。
【0085】
一連の測定値は、分析システム3によって分析される生シグナルを形成する。生シグナ
ルは、分析システム3に供給される前に、または分析システム3での初期段階として、例
えばノイズを低減するためにフィルタリングされる前に、測定システム2で前処理され得
る。このような場合には、以下の分析は、前処理されたシグナルに対して実行される。
【0086】
分析システム3は、測定システム2に物理的に関連付けられてもよく、測定システム2
に制御シグナルを提供することもできる。その場合、測定システム2および分析システム
3を含むナノ細孔測定および分析システム1は、WO-2008/102210、WO-
2009/07734、WO-2010/122293、WO-2011/067559
、またはWO2014/04443のいずれかに開示されるように構成され得る。
【0087】
代替的に、分析システム3は、別個の装置に実装され得、その場合、測定値の列は、任
意の好適な手段、典型的にはデータネットワークによって、測定システム2から分析シス
テム3に転送される。例えば、1つの便利なクラウドベースの実装は、分析システム3が
、インターネットを介して入力シグナル11が供給されるサーバーになることである。
【0088】
分析システム3は、コンピュータプログラムを実行するコンピュータ装置によって実装
されてもよく、専用のハードウェアデバイス、またはそれらの任意の組み合わせによって
実装されてもよい。いずれの場合も、この方法で使用されるデータは、分析システム3の
メモリに記憶される。
【0089】
コンピュータプログラムを実行するコンピュータ装置の場合、コンピュータ装置は、任
意のタイプのコンピュータシステムであり得るが、典型的には、従来の構造である。コン
ピュータプログラムは、任意の好適なプログラミング言語で書くことができる。コンピュ
ータプログラムは、任意のタイプであり得るコンピュータ可読記憶媒体に記憶され得る。
例えば、コンピューティングシステムのドライブに挿入可能であり、磁気的、光学的また
は光磁気的に情報を記憶し得る記録媒体、ハードドライブなどのコンピュータシステムの
固定記録媒体、またはコンピュータのメモリであり得る。
【0090】
コンピュータ装置が専用のハードウェアデバイスによって実装されている場合、任意の
好適なタイプのデバイス、例えば、FPGA(フィールドプログラマブルゲートアレイ)
またはASIC(特定用途向け集積回路)を使用することができる。好ましい実施形態で
は、コンピュータプログラムの一部は、グラフィックスプロセッシングユニット(GPU
)などの並列計算に適したハードウェアを使用して実装され得る。
【0091】
ナノ細孔測定および分析システム1を使用する方法は、以下のように実行される。
【0092】
最初に、シグナル10は、測定システム2を使用して導出される。例えば、ポリマーは
、例えば細孔を通って、細孔に対して転位させられ、ポリマーが転位する間にシグナルが
導出される。ポリマーの転位を可能にする条件を提供することにより、ポリマーを細孔に
対して転位させることができ、その結果、転位が自発的に起こり得る。転位する間にシグ
ナル10が導出される。
【0093】
次に、分析システム3は、次に説明するように、シグナル10の分析方法を実行する。
【0094】
分析システム3は、ニューラルネットワーク20を使用してシグナルを分析する。再帰
型ニューラルネットワーク20のパラメータは、以下でさらに説明するトレーニング中に
値を取得するが、このように再帰型ニューラルネットワークは、いずれかの特定形式の測
定値、または独自の特性を有する測定システム2に依存しない。例えば、再帰型ニューラ
ルネットワークは、k-merに依存する測定値に依存しない。
【0095】
好適なニューラルネットワーク20の一例が図3に示されており、ウィンドウイングユ
ニット30、CNN(畳み込みニューラルネットワーク)40、RNN(リカレントニュ
ーラルネットワーク)50、およびデコーダ80を含み、これらは以下のようにシグナル
を連続的に処理する。
【0096】
ウィンドウイングユニット30は、例えば図4に示されるように、シグナル10の連続
的なウィンドウセクション31を導出するためにシグナル10をウィンドウ化する。ウィ
ンドウ化セクション11は、CNN40に供給される。
【0097】
ウィンドウ化セクション31は、長さ32、および連続的なウィンドウ化セクション3
1間のストライド33を有し、これらは両方とも、時間またはシグナル10のサンプル数
でカウントされることができる。ストライド33は、単一のサンプルか、または複数のサ
ンプルであってもよい。ストライド33が単一のサンプルである場合、エッジ効果を無視
すると、シグナル10内のサンプルと同数のウィンドウ化セクション31が存在する。ス
トライド33が単一のサンプルよりも大きい場合、ウィンドウイングユニット30はダウ
ンサンプリングを実行し、シグナル10内のサンプルよりもウィンドウ化セクション31
が少なくなる。典型的には、ストライド33は長さ32よりも短く、ウィンドウ化セクシ
ョン10はシグナル10内でオーバーラップするようになっている。
【0098】
例として、長さ32は4.75ミリ秒であり得、ストライドは0.5ミリ秒であり得る
【0099】
さらなる例として、長さは19個のサンプルであり得、ストライドは2個のサンプルで
あり得る。
【0100】
CNN40は、少なくとも1つの畳み込み層を含む。少なくとも1つの畳み込み層は、
各ウィンドウ化セクション11の畳み込みを実行して、各ウィンドウ化セクション31に
関する特徴ベクトル41を導出する。これは、シグナル内で明らかになり得るイベントに
関係なく行われるため、そのようなイベントが明らかであるか、または明らかでないシグ
ナルにも、もしくは前処理中にイベントが提供されているシグナルにも同様に適用可能に
なっている。特徴ベクトル41は、RNN50に供給される。
【0101】
CNN40は、以下で考察されるようにRNN50と一緒にトレーニングされる。
【0102】
CNN40は、任意の形態をとることができる。
【0103】
一例では、CNN40は、重みWおよびバイアスb、ならびにアクティベーション関数
gを有するアフィン変換によって画定される単一の畳み込み層であり得る。ここでIt-
j:t+kが、両端を含む、t-j~t+kの測定値を含む生シグナル20の測定ウィン
ドウを表し、Oは、出力特徴ベクトルである。
=AIt-j:t+k+b アフィン変換
=g(y) アクティベーション
【0104】
双曲線正接は好適なアクティベーション関数であるが、正規化線形単位(ReLU)、
指数線形単位(ELU)、ソフトプラス単位、およびシグモイド単位を含むがこれらに限
定されない、より多くの代替案が当該技術分野で知られている。複数の畳み込み層もまた
、使用されることができる。
【0105】
別の例では、CNN40は、参考文献1のCNNと同じ形式をとることができる。
【0106】
説明したように、真っ直ぐな畳み込みネットワークには、生のシグナルで検出された特
徴の正確な位置に依存するという欠点があり、これは特徴間の間隔にも依存することを意
味する。依存性は、最初の畳み込みによって生成された特徴ベクトルの出力配列を、その
入力の順序統計に作用する第2の「プーリング」ネットワークへの入力として使用するこ
とで軽減できる。
【0107】
例として、プーリングネットワークが単層ニューラルネットワークである場合、次の方
程式は、出力が入力ベクトルにどのように関連するかを示す。fを入力特徴のインデック
スとすると、Aは特徴fの重み行列であり、Sをその入力の順序統計の一部またはすべ
てを返すファンクターとする。
【数1】
【0108】
このような層の有用でありながら計算効率の高い例の1つは、入力特徴の数と同じサイ
ズの特徴ベクトルを返すものである。その要素は、それぞれの特徴ごとに取得される最大
値である。ファンクターSに最後の順序統計のみを返させると、その入力で取得された
最大値であり、そしてUを、その(f、1)要素の単位値以外ゼロで完全に構成され(
単一の列)行列とする。
【数2】
【0109】
行列Uが非常にスパースであるため、計算効率の理由のために、行列乗算は、暗黙的
に実行されることができ:ここでΣの効果は、出力特徴ベクトルxの要素f
を設定することである。
【0110】
畳み込みおよび/またはプーリングは、n番目の位置(nのストライド)ごとにそれら
の出力を計算するだけで実行できるため、出力をダウンサンプリングする。ダウンサンプ
リングは、同様の精度を達成するためにネットワークの残りの部分がより少ないブロック
(より高速な計算)を処理する必要があるため、計算の観点から有利であり得る。
【0111】
畳み込み層のスタックを追加すると、上記の問題の多くが解決される。畳み込みによっ
て学習された特徴検出は、システムについて追加の仮定を作製することなく、ナノ細孔固
有の特徴検出器および要約統計量の両方として機能することができる。機能の不確実性は
、様々な機能の相対的な重みによってネットワークの残りの部分に渡されるため、さらに
処理することでこの情報を考慮に入れて、不確実性のより正確な予測および定量化を行う
ことができる。
【0112】
RNN50は、一連の重み分布を出力する。RNN50は、少なくとも1つの回帰層5
2を含み、この回帰層または各回帰層の後にフィードフォワード層53が続いている。図
5は、単一の回帰層52の場合のRNNを示しているが、一般に、任意の複数の回帰層5
2およびその後のフィードフォワード層53が存在し得る。このことは単位アーキテクチ
ャの柔軟な選択をもたらす。これらの層は、異なるパラメータを有し得、異なるサイズで
あり得、または様々な単位タイプでも構成され得る。
【0113】
この回帰層または各回帰層52は、双方向であることが好ましく、各入力特徴ベクトル
の影響がRNNを介して両方向に伝播することを可能にする。代替の好ましい実施形態は
、交互の方向に配置された複数の一方向回帰層、例えば、リバース、フォワード、リバー
ス、フォワード、リバースの連続的方向に配置された層を含む。これらの双方向アーキテ
クチャにより、RNN50が、HMMでは利用できない様式で情報を蓄積および伝播する
ことを可能にする。回帰層の追加的利点は、モデル化するために、例えば、反復手順を介
して、シグナルからモデルに(またはその逆に)正確なスケーリングを必要としないこと
である。
【0114】
フィードフォワード層53でのサブサンプリングについて、個別のアフィン変換が各列
のフォワード層とバックワード層の出力ベクトルに適用され、その後に積算が行われ、こ
のことは、入力と出力の連結によって形成されたベクトルにアフィン変換を適用すること
と等しくなっている。次いで、アクティベーション関数が要素ごとに結果の行列に適用さ
れる。
【0115】
再帰層52は、ここで説明されるように、いくつかのタイプのニューラルネットワーク
単位を使用することができる。単位のタイプは、「再帰」であるかどうかに応じて、2つ
の一般的なカテゴリに分類される。非再帰単位は配列の各ステップを独立して処理するが
、再帰単位は配列で使用され、あるステップから次のステップに状態ベクトルを渡すよう
に設計される。
【0116】
非再帰単位と再帰単位の違いを図式的に示すために、図6は非再帰単位61の非再帰層
60を示し、図7~9はそれぞれの非再帰単位64~66の3つの異なる層62~64を
示す。図6図9の各々で、矢印はベクトルが渡される接続を示し、分割された矢印は複
製されたベクトルであり、結合された矢印は連結されたベクトルである。
【0117】
図6の非再帰層60では、非再帰単位61は、分割または連結されない別個の入力およ
び出力を有する。
【0118】
図7の再帰層62は、再帰単位65の出力ベクトルが分割され、再帰層内の次の再帰単
位65に一方向に渡される一方向の再帰層である。
【0119】
それ自体は個別の単位ではないが、図8および9の双方向再帰層63および64は各々
、より単純な再帰単位66および67からそれぞれ作られた繰り返し単位のような構造を
有する。
【0120】
図8の双方向再帰層において、双方向再帰層63は、再帰単位66の2つのサブ層68
および69からなり、図7の一方向再帰層62と同じ構造を有するフォワードサブ層68
と、図7の一方向再帰層62から時間が逆転したかのように逆転して状態ベクトルを1つ
の単位66から前の単位66に渡す構造を有するバックワードサブ層69になっている。
フォワードおよびバックワードのサブ層68および69の両方が同じ入力を受け取り、対
応する単位66からのそれらの出力が一緒に連結されて、双方向再帰層63の出力を形成
する。フォワードサブ層68内の単位66とバックワードサブ層69内の単位との間に接
続がないことに留意されたい。
【0121】
図9の代替双方向再帰層64は、同様に、再帰単位67の2つのサブ層70および71
からなり、図7の一方向再帰層62と同じ構造を有するフォワードサブ層68、ならびに
図7の単方向再帰層62から時間が逆転したかのように逆転するバックワードサブ層6
9である。同様に、フォワードサブ層68およびバックワードサブ層69は、同じ入力を
受け取るが、図8の双方向再帰層63とは対照的に、フォワードサブ層68の出力は、バ
ックワードサブ層69の入力であり、バックワードサブ層69の出力は、双方向再帰層6
4の出力を形成する(フォワードサブ層68およびバックワードサブ層69は逆転される
ことができる)。
【0122】
図9に示す双方向再帰層64の一般化は、複数の「フォワード」および「バックワード
」再帰サブ層で構成される再帰層のスタックとなり、ここでは各層の出力は次の層の入力
になっている。
【0123】
RNN50の双方向再帰層52は、図8の双方向再帰層63および図9の双方向再帰層
64のいずれかの形態をとることができる。一般に、図3の双方向再帰層34は、非再帰
層、例えば、図6の非再帰層60、または一方向再帰層、例えば、図7の再帰層62によ
って置き換えることができる。しかしながら、双方向の再帰層34を使用することにより
、パフォーマンスが向上する。
【0124】
次に、フィードフォワード層53について説明する。
【0125】
フィードフォワード層53は、それぞれのベクトルを処理するフィードフォワード単位
54を備える。フィードフォワード単位54は、古典的なニューラルネットワークの標準
的な単位であり、すなわち、アフィン変換が入力ベクトルに適用され、次に、非線形関数
が要素ごとに適用される。フィードフォワード層53はすべて、非線形関数に双曲線正接
を使用するが、ネットワークの全体的な精度をほとんど変化させずに他の多くの層を使用
することができる。
【0126】
ステップtにおける入力ベクトルがIである場合、アフィン変換のための重み行列お
よびバイアスはそれぞれAおよびbであり、出力ベクトルOは以下である。
=AI+b アフィン変換
=tanh(y) 非線形性
【0127】
RNN50の重み分布は、グローバルに正規化される。これは、以下でより詳しく考察
される。
【0128】
非再帰単位62および再帰単位65~67は、各イベントを独立して扱うが、次に説明
するような形態を有する長短期記憶単位に置き換えることができる。
【0129】
長短期記憶(LSTM)単位は、Hochreiter and Schmidhub
er,Long short-term memory,Neural Computa
tion,9 (8):1735-1780,1997で紹介された。LSTM単位は再
帰単位であるため、配列の1つのステップから次のステップに状態ベクトルを渡す。LS
TMは、単位がメモリセルであるという表記に基づく。メモリの内容を含む隠れ状態は、
あるステップから次のステップに渡され、メモリの更新方法を制御する一連のゲートを介
して操作される。1つのゲートは、メモリの各要素をワイプ(忘れる)するかどうかを制
御し、別のゲートは、新しい値に置き換えるかどうかを制御し、最後のゲートは、メモリ
のリードと出力を決定する。メモリセルを微分可能にするのは、概念的なコンピュータメ
モリセルのバイナリオン/オフ論理ゲートが、シグモイド関数によって生成される概念的
な確率に置き換えられ、メモリセルの内容が期待値を表すことである。
【0130】
第1にLSTMの標準実装について説明し、次いで基本的な方法で実際に使用される「
のぞき穴」の変更について説明する。
【0131】
標準的なLSTMは次の通りである。
【0132】
LSTM単位の様々な操作に関連する確率は、次の一連の方程式によって定義される。
を、ステップtの入力ベクトルであるとし、Oを出力ベクトルとし、バイアスb
と、それぞれ入力と前の出力に対する重み行列WxIおよびWxOを有する、xでインデ
ックス付けされたアフィン変換を行うと、σは非線形シグモイド変換である。
=σ(WfI+WfOt-1+b) 忘却確率
=σ(WuI+WuOt-1+b) 更新確率
=σ(WoI+WoOt-1+b) 出力確率
【0133】
上で定義された更新ベクトルがあり、演算子が要素ごとの(アダマール)乗算を表す
とすると、内部状態Sを更新し、新しい出力を決定する数式は次のようになる。
【数3】
【0134】
のぞき穴の変更は次の通りである。
【0135】
「のぞき穴」の変更(Gers and Schmidhuber,2000)は、L
STMアーキテクチャにいくつかの追加接続を追加し、メモリセルの隠れ状態を「のぞき
見」(通知)するための確率の忘却、更新、および出力を可能にする。ネットワークの更
新式は上記の通りであるが、Pを隠れ状態に等しい長さの「のぞき見」ベクトルとする
と、確率ベクトルの3つの式は次のようになる。
【数4】
【0136】
代替的に、非再帰単位62および再帰単位65~67は、以下のような形態を有するゲ
ート付き再帰単位に置き換えることができる。
【0137】
ゲート付き再帰単位(GRU)は実行が速いことがわかっているが、最初は精度が低く
なっている。GRUのアーキテクチャは、LSTMほど直感的ではなく、隠れ状態と出力
の分離が不要で、「忘却」ゲートと「入力ゲート」も組み合わされている。
【数5】
【0138】
イベントと同じ数の列が出力されるが、双方向レイヤーの存在のためにその内容がイベ
ントの入力セット全体によって通知される可能性があるため、ネットワークへの入力で各
列が単一のイベントで同定されると想定するのは正しくない。入力イベントと出力列の間
の対応は、トレーニングセット内のシンボルでラベル付けされる方法によって行われる。
【0139】
別の例では、RNN50は、参考文献1のRNNと同じ形式をとることができる。
【0140】
ここで、RNN50によって出力される一連の重み分布51について考察する。
【0141】
重み分布51は、一連の重み分布を形成するために、連続する時間ステップに関して出
力されている。時間ステップは、原則として、シグナル10のサンプル周期と同じ長さで
あり得るが、ニューラルネットワーク20におけるオーバーサンプリングのために、通常
、シグナル10のサンプル周期よりも長い。しかしながら、規則的長さの時間ステップは
、例えば、ウィンドウイングユニット30のストライド13に対応しており、これは、イ
ベント呼び出しが実行されるシステムとは対照的であり、したがって、連続する重み分布
51間の時間ステップは、可変である連続して検出されたイベントの長さに対応する。
【0142】
一般に、重み分布51は、連続的なポリマー単位がナノ細孔に対して転位する速度より
も速い速度で出力されており、すなわち、ポリマー単位よりも多くの重み分布51が存在
する。各一連のポリマー単位に対応する複数の重み分布51は、先験的には未知である。
【0143】
各重み分布51は、複数の重みを含む。重みは事後確率を表す。重みは実際の事後確率
であり得、または、より一般的には、実際の確率ではないが事後確率を表す重みであり得
る。一般に、重みが実際の確率ではない場合、重みの正規化を考慮して、原則として事後
確率が、そこから決定され得る。
【0144】
RNN50は、可能なポリマー単位タイプを表すラベルを含むラベルのセットにわたっ
てラベル間の遷移に関する重みを出力する。したがって、遷移に関する重みは、それらの
遷移の事後確率を表す。ポリマー単位よりも多くの重み分布51があることから、いくつ
かの表現では、ラベルから同じラベルへの遷移が可能であり、したがって、重み分布51
は、そのような遷移に関する重みを含むこと、すなわち、「遷移」という単語が、ラベル
を変更する必要があることでも、追加のポリマー単位を放出する必要があることを意味す
るものでもないことが理解される。
【0145】
RNN50によって出力される重み分布51の様々な例が、以下に示される。これらの
例の各々は、ポリマー単位がポリヌクレオチドであり、ポリマー単位タイプが4つの塩基
A、C、GおよびTである場合を指している。上で考察されたように、本発明の方法は、
より多くのタイプのポリヌクレオチドおよび/またはヌクレオチドではないポリマー単位
に等しく適用可能であり、そのためこれらの例はそれに応じて汎用化されることができる
。例の各々において、重み分布51は、ラベル間の遷移を表す重みを含む。したがって、
重みはWijと表記されており、iは、そこから遷移が発生するラベルのためのインデッ
クスであり、jは、そこへの遷移が発生するラベルのためのインデックスである。したが
って、重みWijは、ラベルiからラベルjへの遷移の重みである。図面のそれぞれにお
いて、行はそこから遷移が発生するラベルiに対応しており、列はそこへの遷移が発生す
るラベルjに対応する。
【0146】
このような構成の一例は、生成される重み分布の重みの数に等しい、出力(最終)層内
のフィードフォワード要素の数で構成されたRNNである。図7~9はまた、RNNのユ
ニットからの出力の数を示す例を提供しており、これらの構成のいずれか1つ以上がRN
N内に存在し得、出力の数が生成される重み分布の重みの数に等しくなるようになること
が理解される。
【0147】
図10および11は、RNN50によって出力され得る重み分布51の2つの例を示す
【0148】
図10の例では、A、C、G、Tとして示されている4つの塩基の各々に関する単一の
ラベルがある。すべての遷移が許容され、それにより、ラベルの各々からラベルの各々へ
の16の遷移に関する合計16の重みwijがある。
【0149】
図10の例は、ホモポリマーの適切な表現を提供しておらず、これは一連のポリマー単
位内の同じタイプの複数のポリマー単位の連続である。これは、あるラベルから同じラベ
ルへの移行が、特定のポリマー単位タイプの同じインスタンスと特定のポリマー単位タイ
プのさらなるインスタンスとを区別しないことからである。結果として、あるラベルから
同じラベルへの一連の遷移は、一連のポリマー単位(すなわち、単一のポリマー単位とい
ずれかの長さの同じポリマー単位タイプのホモポリマーとの両方)の任意数(1つ以上)
のインスタンスを表す。
【0150】
しかしながら、図11は、図10の表現を拡張することでホモポリマーの表現を改善す
る一例であり、ラベルのセットが、(i)4つの塩基の異なる1つを各々表す単一ラベル
、および(ii)一連のポリマー単位内のブランクを表すラベルを含むようになっている
。許容されたすべての遷移が図11の例に示されており、それにより、各ラベルから各ラ
ベルへの25の遷移に関する合計25の重みwijがある。この表現では、ブランクラベ
ルは、それらが同じタイプであっても、一連の塩基(ポリマー単位)の2つのインスタン
ス間の分離を表す。
【0151】
言い換えると、ポリマー単位の配列では、データ測定値のウィンドウが分析されること
があり得るが、そのデータウィンドウではポリマー単位間の遷移は存在しない。この場合
、遷移は、前のラベルから「ブランク」ラベルへの遷移として表され得、これは、ポリマ
ー単位の新規インスタンスがウィンドウ内で遷移されなかったことを表す。
【0152】
いくつかの実施形態では、ポリマー単位が分離しているようにブランクのいずれかの側
のポリマー単位を取り扱うために、ポリマー単位の決定された配列内でブランクが存在し
なければならないという点で、ブランクは強制的なものとして扱われ得る。例えば、次の
ように生成されたラベルの配列が、ブランクが「-」で表される:AAA---Aの場合
、これはポリマー単位の実際のシーケンスは、=AAとして決定される。最初の3つのイ
ンスタンスの各々の「A」ラベルは、同じ実際のポリマー単位「A」のインスタンスとし
て扱われるが、最後の「A」ラベルは、最初の3つの「A」から2つのブランクラベルで
区切られるため、別個のものとして扱われる。
【0153】
いくつかの実施形態では、ブランクが、ポリマー単位の間のスペーサーおよびラベルの
繰り返しを表すという点で、ブランクは任意選択のものとして扱われ得る。例えば、次の
ようなブランクが「-」で表される生成されたラベルの配列:AAA---Aの場合、こ
れはポリマー単位の実際のシーケンス=AAAAに決定される。「A」ラベルの最初の3
つのインスタンスのそれぞれが、別個のポリマー単位として扱われ、ブランクのラベルは
、これらのユニットと最後の「A」ラベルとの間のスペーサーとして機能する。
【0154】
ラベル間の遷移に関する重みを使用したRNN50の出力におけるこの表現は、参考文
献1とは対照的であり、RNNが、4つのタイプのポリヌクレオチド(つまり、塩基C、
G、A、およびT)の各々を表す4つのラベルで構成されるラベルのセットにわたるラベ
ル、およびブランクを表すラベルに関する事後確率(重みの特定的な例)を出力する。ラ
ベル間の遷移に関する重みを使用する表現は、一連のポリマー単位の推定の精度を向上さ
せる追加情報が提供されるため、ラベルに関する重みを使用する表現よりも利点をもたら
す。これは、重みが一連のポリマー単位を通る可能な経路に関する情報を提供するのに対
し、ラベル自体に関する重みは、さらなる分析を目的とした他のラベルとの関係に関する
情報を失うためである。したがって、追加情報がポリマー単位を推定するステップに提供
され、このことが復号の精度を向上させている。
【0155】
さらに、この表現は、許容された遷移と許容されていない遷移を表現できる。つまり、
ラベルは、ラベル間の1つ以上の遷移が許容されず、他の遷移が許容される様式で、可能
なポリマー単位タイプを表すことができる。その場合、重み分布51は、許容された遷移
に関する重みを含む。重み分布51は、許容されない遷移に関するヌル重みを含み得る。
【0156】
ヌル重みは、RNN50によって出力された重み分布51において、重みがないことに
なり得る。図面に示されている例では、ヌル重みは重みがないことで示されているが、代
わりに以下の代替方法が適用され得る。
【0157】
代替的に、ヌル重みは、RNN50の実装を容易にするために、RNN50によって出
力される重み分布51内に存在する重みであり得るが、公称値を有している。そのような
公称値は、ゼロ値または意味のない大きさを有する値であり得、以下に説明するように、
デコーダ80によって実行される推定に影響を与えるようになっている。代替的に、その
ような公称値は、RNNによって出力された重み分布51内に存在するが、例えば、以下
に説明するような遷移行列を使用することによってデコーダ80によって無視される値で
あり得る。
【0158】
このいくつかの例は以下の通りである。
【0159】
許容遷移と非許容遷移が発生する第1の例は、可能なポリマー単位タイプのセットに、
ポリマー単位の既知のシーケンスに常に現れるポリマー単位タイプが含まれる場合である
。この場合、既知のシーケンスに従った遷移は許容され、既知のシーケンスに反する遷移
は許容されていない。ポリヌクレオチドについて、この一例は、脊椎動物の5-メチルシ
トシンがグアニンに先行するシトシン(「CpG」)でのみ発生し、このことが、可能な
遷移をさらに制限するために使用されることができ、それにより、より少ないRNN50
からの重みが必要とされる。つまり、CpGメチル化は、メチル化C(Cとして本明細
書で表される)に常にGが続くことになり、そのためCが既知の配列CGで常に生じ
る。図12は、これを表すために使用される重み分布51の例である。重み分布51は、
図11の重み分布から適合されており、メチル化Cを表すラベルを、4つのタイプのポリ
ヌクレオチド(すなわち、塩基C、G、AおよびT)を表す4つのラベルとブランクを表
すラベルに追加する。この場合には、CからA、CまたはTへの遷移が許容されず、そ
れにより、これらの遷移にはヌル重みがあり、つまり、重みW61、W62、およびW
は、重み分布でヌルになっている。これにより、RNNはメチル化C塩基に関するより
良い情報をもたらすことができ、このことがメチル化C塩基の推定の精度を向上させる。
【0160】
任意選択で、CからCへの遷移の重みがヌルにされることができる。このことはス
テイの場合にあり得る。これは、測定中に同定され得るが、この遷移はCpGメチル化が
メチル化CにGが常に続き、つまりCG配列になることから、配列の一部を形成しない
。このことのさらなる例は、以下で説明するフリップフロップ表現であり、ここで、改変
されたフリップまたは改変されたフロップからグアニンまたは改変されたフロップのラベ
ルへの遷移は、RNN50から必要な重みの数を60から52に減らすことができる(す
べての可能性のある遷移に必要な100の重みを参照のこと)。必要とされるネットワー
ク出力の量の低減は別として、可能であるこれらに遷移を制限することは、本方法が、推
定における誤差と誤検出の改変呼び出しの両方である不可能なコンテキストでの改変を伴
ったポリマー単位タイプの推定を生成することを防止する。
【0161】
第2の例は、ラベルのセットが改変され、各ポリマータイプが、単一ラベルの代わりに
複数のラベルで表される表現である。例えば、ラベルのセットは、各ポリマー単位タイプ
に関する、第1および第2のラベルを含むことができ、ここで、第1のラベルは、ポリマ
ー単位タイプのインスタンスの開始を表し、第2のラベルは、ポリマー単位タイプのイン
スタンス内のステイを表している。上述のように、「ステイ」は、本方法が、連続する重
み分布に関連するラベルが変化しないと判断する状況を表し、このことは、ポリマー単位
の同じインスタンスに対応する2つの重み分布と見なされ得る。本明細書では、この例を
「マルチステイ」と称することにする。ステイは異なるラベルで表されるため、このこと
は表現を改善する。このことはポリマー単位の推定精度を改善する。
【0162】
このマルチステイ表現は、一部の遷移が許容され、一部が許容されないという結果をも
たらす。例えば、第1のラベル、例えば「A」は、同じポリマー単位タイプに関して、第
2のラベル、例えばA内に、または異なるポリマー単位タイプの第1のラベル内にのみ
遷移することが許容される。具体的には、以下の遷移が許容され、また許容されておらず
、それらは以下の通りである。
a)各第1のラベルから任意の他のポリマー単位タイプの第1のラベルへの遷移が許容
され、各第1のラベルから同じポリマー単位タイプの第1のラベルへの遷移が許容されて
いない。
b)各第1のラベルから同じポリマー単位タイプの第2のラベルへの遷移が許容されて
いる。
c)各第1のラベルから任意の他のポリマー単位タイプの第2のラベルへの遷移が許容
されていない。
d)各第2のラベルから同じポリマー単位タイプの第1のラベルへ、または任意の他の
ポリマー単位タイプの第1ラベルへの遷移が許容されている。
e)各第2のラベルから同じポリマー単位タイプの第2のラベルへの遷移が許容されて
いる。
f)各第2のラベルから任意の他のポリマー単位タイプの第2のラベルへの遷移が許容
されていない。
【0163】
上述の例示的なマルチステイ表現スキームは、ブランクが上述のように強制的または任
意選択であると見なされ得る図11のスキームと同様の様式で「強制的」スキームである
と見なされ得る。そのために、上記と同様のスキームが、第1のラベルが同じ第1のラベ
ルに遷移することが許容されるマルチステイ表現について想定され得ることが理解される
であろう。かかるスキームは、「任意選択の」マルチステイ表現スキームと見なすことが
できる。
【0164】
図13は、このタイプの表現を実装するために図10のものから適合された重み分布5
1の一例を示している。したがって、図13では、ラベルのセットは、A、C、G、およ
びTとして示される4つのタイプの塩基に関する4つの第1のラベル、ならびにA、C
、GおよびTとして示される4つのタイプの塩基に関する4つの第2のラベルを含
む。本明細書では、上付き文字S(「ステイ」を意味する)は、塩基の同じタイプに関し
て第2のラベルを第1のラベルから区別するために使用され、ステイを表している。図1
3に示すように、許容される遷移と許容されない遷移を考慮すると、以下の重みが存在す
るか、またはヌルになっており、それらは以下の通りである。
a)各第1のラベル(例えば、A)から任意の他のポリマー単位タイプ(例えば、C、
G、およびT)の第1のラベルへの遷移が許容され、各第1のラベル(例えば、A)から
同じポリマー単位タイプの第1のラベルへの遷移が許容されており、そのため、左上の象
限内にすべての重みが存在している。
b)各第1のラベル(例えば、A)から同じポリマー単位タイプ(例えば、A)第2
のラベルへの遷移が許容されており、そのため、右上の象限の重みにW15、W26、W
37、およびW48が存在している。
c)各第1のラベル(例えば、A)から任意の他のポリマー単位タイプ(例えば、C
、G、T)の第2のラベルへの遷移が許容されておらず、そのため、W15、W26
、W37、およびW48を除いた右上の象限の重みがヌルになっている。
d)各第2のラベル(例えば、A)から同じポリマー単位タイプ(例えば、A)第1
のラベルへの遷移、または任意の他のポリマー単位タイプ(例えば、C、G、T)の第1
のラベルへの遷移が許容されており、そのため、左下の象限内にすべての重みが存在して
いる。
e)各第2のラベル(例えば、A)から同じポリマー単位タイプ(例えば、A)の
第2のラベルへの遷移が許容されており、右下象限の重みにW55、W66、W77、お
よびW88が存在している。
f)各第2のラベル(例えば、A)から任意の他のポリマー単位タイプ(例えば、C
、GおよびT)の第2のラベルへの遷移が許容されておらず、そのため、W55
66、W77、およびW88を除いた右下の象限内の重みがヌルになっている。
【0165】
マルチステイ表現は、上記のメチル化Cの表現、または実際には、既知のポリマー単位
の配列で常に現れるポリマー単位タイプの同様の表現と組み合わせることができる。
【0166】
ここでホモポリマーの表現を検討する。ホモポリマーは、一連のポリマー単位内の同じ
タイプのポリマー単位の連続したインスタンスの配列である。
【0167】
第2のラベル(例えば、A)からポリマー単位(例えば、A)の同じタイプの第1の
ラベルへの遷移は、ポリマー単位の同じタイプの第2のインスタンスを表現することから
、ホモポリマーは上で考察されたマルチステイ表現によって適切に表現される。例えば、
一連のラベルAAAAAAAAは、長さが4ポリマー単位
のホモポリマーを表現し、連続するラベルAまたはAの数は任意であり、実際には変化
している。しかしながら、推定の精度は、表現を適合させることによって改善されること
ができ、例えば以下のように、ラベルが符号化形式でホモポリマーを表すようになってい
る。
【0168】
符号化形式のホモポリマーの第1の表現は、「フリップフロップ」表現と呼ばれ、以下
のようになっている。
【0169】
分析方法の出力が固定長フラグメントをオーバーラップすることの利点の1つは、オー
バーラップの量を使用して、ポリマー単位の遷移が発生したかどうか、そしてその場合に
発生した回数を判断できることである。オーバーラップに依存する分析方法は、ホモポリ
マーのようなポリマーの複雑度の低い領域では失敗し、この領域では、オーバーラップが
曖昧になり得(例えば、AAA->AAAは、0、1、2、またはそれ以上のAホモポリ
マーの遷移となり得る)、異なる表現が望ましい。フリップフロップ表現では、ラベルは
、各ポリマー単位タイプについての複数のラベルを含むことによってホモポリマーを表し
、各ポリマー単位タイプについての複数のラベルは、一連のポリマー単位内のポリマー単
位タイプの連続するインスタンスを表す。通常、ポリマー単位タイプごとに2つのラベル
があり、参照しやすいように「フリップ」および「フロップ」と称され得る。
【0170】
したがって、固定長フラグメントに復号するのではなく、復号のフリップフロップ方式
は、ポリマー単位の配列を「フリップ」と「フロップ」のラベルの配列として表すが、次
の制限があり、ホモポリマーは「フリップ」ラベルで開始する必要があり、次いで、「フ
リップ」と「フロップ」のラベル間で終了するまで交互に切り替わる。フリップフロップ
表現は、隣接するラベルと同じラベルがないことを確実にし、ホモポリマーを使用した1
つのユニットの転位(フリップからフロップへの変更、またはその逆)は、転位なし(フ
リップからフリップへ、またはフロップからフロップへ)と常に区別可能になっている。
例として、一連のポリマー単位CAATACCTTTAAAAAAAAGAAACTTT
TAGCTCは、CAATACCTTTAAAAAAAAGAAACT
TTとして表され、ここで、ポリマー単位XのフリップラベルはXで表されており
、対応するフロップラベルはXで表される。
【0171】
フリップフロップ符号化の下では、1つの転位は常に転位がないものと区別可能であり
、より多くのポリマー単位の転位は、依然として曖昧であり得る。したがって、連続する
重み分布51によって表されるラベルに関して、塩基Aの2つのラベルがA(フリップで
ある)およびA(フロップである)である場合、一連のラベルAAAAAAA
AAAは、長さが3ポリマー単位のホモポリマーを表し、連続するラベルAまたは
の数は任意であり、実際には変動している。原則として、ポリマー単位タイプごとに
3つ以上のラベルが存在する場合があるが、2つのラベルで十分である。
【0172】
ポリマー単位の各タイプの複数のラベルは、所定の周期的順序を有し得る。ポリマー単
位の各タイプ、フリップとフロップの2つのラベルの一例では、所定の周期的順序は、第
1のポリマー単位が常にフリップとなり、その後、フリップとフロップが交互になるもの
であり得る。したがって、ラベル間のいくつかの遷移は、所定の周期的順序によって許容
されており、間の他の遷移は、所定の周期的順序によって許容されていない。重み分布に
おいて所定の周期的順序で許容されていない遷移についてヌル重みがあるが、一方で当然
のこととして、所定の周期的順序で許容されている遷移についての重みがある。
【0173】
所定の周期的順序が、最初のポリマー単位が常にフリップされ、その後フリップとフロ
ップが交互に行われるような上記の例では、ポリマー単位のいずれか所与のタイプのフリ
ップからポリマーの他のタイプのフロップへの遷移が許容されておらず、同様に、ポリマ
ー単位のいずれか所与のタイプのフロップからポリマーのいずれかの他のタイプのフロッ
プへの遷移は許容されていない。
【0174】
図14は、このタイプのフリップフロップ表現の重み分布51の一例を示す。したがっ
て、図14では、ラベルのセットは、A、C、G、およびTとして示されている4つのタ
イプの塩基に関する4つの第1のラベル(フリップ)、ならびにA、C、Gおよび
として示されている4つのタイプの塩基に関する4つの第2のラベル(フロップ)を
含む。図14に示すように、許容される遷移と許容されない遷移を考慮すると、以下の重
みが存在するか、またはヌルになっており、それらは以下の通りである。
a)各第1のラベル(フリップ、例えば、A)からポリマー単位(例えば、A、C、G
、およびT)のすべてのタイプの第1のラベル(フリップ)への遷移が許容されており、
そのため、左上の象限内にはすべての重みが存在している。
b)各第1のラベル(フリップ、例えば、A)からポリマー単位の同じタイプ(フリッ
プ、例えば、A)の第2のラベルへの遷移が許容されており、そのため、右上の象限に
はW15、W26、W37、およびW48が存在している。
c)各第1のラベル(フリップ、例えば、A)からポリマー単位の任意の他のタイプ(
例えば、C、G、T)の第2のラベルへの遷移は許容されておらず、そのため、右
上の象限ではW15、W26、W37、およびW48を除いた重みはヌルになっている。
d)各第2のラベル(フロップ、例えばA)からポリマー単位のすべてのタイプ(フ
リップ、例えばA、C、G、およびT)の第1のラベルへの遷移は許容されており、左下
の象限にはすべての重みが存在している。
e)各第2のラベル(フロップ、例えば、A)からポリマー単位の同じタイプ(フロ
ップ、例えば、A)の第2のラベルへの遷移は許容されており、そのため、右下の象限
にはW55、W66、W77、およびW88が存在している。
f)各第2のラベル(フロップ、例えば、A)からポリマー単位の任意の他のタイプ
(フロップ、例えば、C、GおよびT)の第2のラベルへの遷移は許容されておら
ず、そのため、右下の象限ではW55、W66、W77、およびW88を除いた重みはヌ
ルになっている。
【0175】
ポリマー単位の転位速度に対する測定が行われる速度に応じて、ポリマーが測定と測定
の間に複数の回数で転位する場合、複数の単位の明白な転位が観察される場合がある。こ
れが発生する可能性が高い場合は、各ポリマー単位の追加の冗長ラベル(「フラップ」、
「フラップ」、「フレップ」など)が加えられることができ、追加的単位の存在を表わさ
れることができ、例えば、フリップからフラップへ移る配列は、中間フロップラベルの存
在を意味している。
【0176】
符号化形式のホモポリマーの第2の表現は、ランレングス符号化表現と呼ばれており、
以下の通りである。
【0177】
フリップフロップ表現は、長いホモポリマーを介して呼び出すことができるが、交互の
ラベルのパスとして実行し、複数の接続された呼び出しを行う必要がある。より長いホモ
ポリマーの場合、観察されたシグナルの平坦化は、ポリマーがナノ細孔に対して転位して
、ラベル内の各変化の位置がより恣意的になることから、シグナルが変化するときに明確
な時間がもはやないことを意味し得る。図15は、T‐フリップとTーフロップの両方の
累積的な証拠が高いにもかかわらず、重みがT‐フリップまたはT‐フロップの間で分割
されている一例示的領域に対するこの特異性の喪失の例を示す。
【0178】
このように、ホモポリマーを交互のラベルの列として表すのではなく、代わりに、ホモ
ポリマー全体が、ポリマー単位タイプに関してラベルで表されることができる。したがっ
て、カノニカル配列またはそのフリップフロップ符号化を呼び出すようにRNN50をト
レーニングするのではなく、RNN50は、一連のポリマー単位のランレングス符号化を
呼び出すようにトレーニングされている。例えば、カノニカル配列TAATTCAAAC
TTTTTTTCTGATAAGCTGGTのランレングス符号化は、TACA
CTCTGATAGCTGTであり、ランレングスはこの塩基に従い、1つの長さ
は暗黙的である。可能な限り最長での実行が常に行われるため、同じ塩基での実行で隣接
する実行はない。
【0179】
ランレングス符号化表現の第1の定式化では、ラベルは、各ポリマー単位タイプの異な
るランレングスのラベルを含む。図16は、このような重み分布の一例を示している。こ
の例では、A、C、G、Tとして示されている4つの塩基に関して、およびA、A
どとして示されている各塩基のホモポリマーに関して単一のラベルがある。ホモポリマー
のすべての可能な長さを収容するためには多数のラベルがあり、1つのタイプの塩基のホ
モポリマーに関するラベルから同じタイプの塩基のホモポリマーであるが異なる長さのも
のへの遷移を除いて、すべての遷移が許容されており、そのため、ラベルの数の二乗にほ
ぼ等しい数のラベル間のほとんどの遷移に関する多数の多数の重みwijがあり(他の可
能な遷移スキームも代替的に実装され得る)、扱いが困難になっている。
【0180】
大きなゲノムの長いホモポリマーは、偶然に予想されるよりも頻繁に発生するため、定
型化した配列の間に遭遇する可能性のあるすべてのホモポリマーの長さを表すために必要
なラベルの数は非常に多くなっている。ネットワークによって出力される重みは、ホモポ
リマーラベル間の遷移を明示的にパラメータ化するため、トレーニングする必要のあるパ
ラメータの数が多いことと、それらが弱く結合されていることの両方の理由からデータの
トレーニングが問題になる。ラベルの中でラベルをシャッフルすると(例えば、A6→A
3、T2→T7、G8→G1)、同じ性能にトレーニングされる同等のモデルが得られる
ため、長さ4および6のホモポリマーのトレーニング例は、長さ5のホモポリマーについ
てモデルに通知しない。
【0181】
ランレングス符号化の代替的な好ましい定式化は、重み分布51をいくつかの従属分布
に因数分解することである。したがって、ラベルは、各ポリマー単位タイプに関するラベ
ルを含み、重み分布51は、遷移に関する重みに加えて、各ポリマー単位タイプのランレ
ングス圧縮ホモポリマーの可能な長さにわたるさらなる重みを含む。遷移重みは、RNN
50によって出力され、ランレングス圧縮シーケンス全体の分布、つまり、すべての長さ
が削除されたランレングス符号化配列、およびポリマー単位が指定された実行(ラン)の
長さ(レングス)の条件付き分布の個別のセットを記述する。
【0182】
ランレングス符号化のこの好ましい定式化では、RNNによって出力される重み分布5
1は、異なるポリマー単位タイプ間の遷移を表すために、図10に示される形式の重みを
含み得る。上で考察されたように、この場合、ラベルから同じラベルへの一連の遷移は、
ポリマー単位(すなわち、任意の長さの同じポリマー単位タイプの単一のポリマー単位ま
たはホモポリマー)の一連の任意の数のインスタンスを表す。
【0183】
RNNによって出力される重み分布51の代替として、ランレングス符号化のこの好ま
しい定式化は、各ポリマータイプが、単一のラベルではなく第1および第2のラベルによ
って表されるラベルのセット、例えば、第一のポリマー単位タイプに関するラベルAとラ
ベルAに対して定義され得る。したがって、上付き文字Hは、同じポリマー単位タイプ
に関して第1のラベルから第2のラベルを区別するために使用され、「ホールド」を効果
的に表している。
【0184】
これは、以下の点を除いて、図13に示すマルチステイ表現に類似している。上述のよ
うに、マルチステイ表現では、第2のタイプのラベルから第1のタイプのラベルへの遷移
(例えば、AからAへ)が許容され、同じポリマー単位タイプのさらなるインスタンス
の発生を表している。結果として、ホモポリマーは、一連のラベルによって表されており
、そこでは、AAAAAAAAが、長さ3のポリマー単位
のホモポリマーを表す上の例にあるように、第1のタイプのラベルが繰り返されている。
対照的に、現在の表現では、許容された遷移が異なるため、第2のタイプのラベルから第
1のタイプのラベルへの遷移(例えば、AからAへ)は許容されていない。結果として
、1つのポリマー単位タイプの単一のインスタンスおよびポリマー単位の同タイプの任意
の長さのホモポリマーはすべて、第1のタイプのラベルおよび任意数の第2のタイプのラ
ベルを含む一連のラベルによって表されている。例えば、AA
は、単一の塩基Aまたは塩基Aのホモポリマーを表し得る。具体的には、
このことは以下のように達成されている。
a)各第1のラベルから任意の他のポリマー単位タイプの第1のラベルへの遷移は許容
されているが、各第1のラベルから同じポリマー単位タイプの第1のラベルへの遷移は許
容されていない。
b)各第1のラベルから同じポリマー単位タイプの第2のラベルへの遷移が許容されて
いる。
c)各第1のラベルから任意の他のポリマー単位タイプの第2のラベルへの遷移が許容
されていない。
d)各第2のラベルから同じポリマー単位タイプの第1のラベルへの遷移は許容されて
いない。
e)各第2のラベルから他のポリマー単位タイプの第1のラベルへの遷移は許容されて
いる。
f)各第2のラベルから同じポリマー単位タイプの第2のラベルへの遷移は許容されて
いる。
g)各第2のラベルから他のポリマー単位タイプの第2のラベルへの遷移は許容されて
いない。
【0185】
図17は、図10の重み分布からこのタイプの表現を実施するために適合された、かか
る重み分布51の一例を示している。したがって、図17では、ラベルのセットは、A、
C、G、およびTとして示される4つのタイプの塩基に関する4つの第1のラベル、なら
びにA、C、GおよびTとして示される4つのタイプの塩基に関する4つの第2
のラベルを含む。図17に示すように、許容される遷移と許可されない遷移を考慮して、
以下の重みが存在するか、ヌルになっている。
a)各第1のラベル(例えば、A)から任意の他のポリマー単位タイプ(例えば、C、
G、およびT)の第1のラベルへの遷移は許容されるが、各第1のラベル(例えば、A)
から同じポリマー単位タイプ(例えば、A)の第1のラベルへの遷移は許容されておらず
、そのため、W11、W22、W33、およびW44を除いて2つの左上象限内にある重
みはヌルになっている。
b)各第1のラベル(例えば、A)から同じポリマー単位タイプの第2のラベル(例え
ば、A)への遷移は許容されており、そのため、右上象限内の重みにはW15、W26
、W37、およびW48が存在している。
c)各第1のラベル(例えば、A)から任意の他のポリマー単位タイプ(例えば、C
、G、T)の第2のラベルへの遷移は許容されておらず、そのため、W15、W26
、W37、およびW48を除いて右上象限にある重みはヌルになっている。
d)各第2のラベル(例えば、A)から同じポリマー単位タイプの第1のラベル(例
えば、A)への遷移は許容されておらず、そのため、右上象限にある重みW51、W62
、W73、およびW84はヌルになっている。
e)各第2のラベル(例えば、A)から任意の他のポリマー単位タイプ(例えば、C
、G、およびT)の第1のラベルへの遷移は許容されており、そのため左下象限にある重
みは、W51、W62、W73、およびW84を除いたものが存在している。
f)各第2のラベル(例えば、A)から同じポリマー単位タイプ(例えば、A)の
第2のラベルへの遷移は許容されており、そのため、右下象限内の重みにはW55、W
、W77およびW88が存在している。
g)各第2のラベル(例えば、A)から任意の他のポリマー単位タイプ(例えば、C
、G、T)の第2のラベルへの遷移は許容されておらず、そのため、W55、W
、W77、およびW88を除いて右下象限にある重みはヌルになっている。
【0186】
したがって、所与のポリマー単位タイプの一連のラベルは、常に第1のラベルの単一の
インスタンスで始まり、次いで第2のラベルの1つ以上のインスタンスで始まる。例えば
、一連のラベルA、AA、AAなどのいずれか(任意の数のラベルAを伴う)
は、任意数のポリマー単位のインスタンスの列(つまり、単一のポリマー単位または任意
長の同じポリマー単位タイプのホモポリマー)を表す。
【0187】
上述のように、図10の例はホモポリマーの適切な表現を提供せず、同じことが図17
の例にも当てはまるる。しかしながら、ホモポリマーは、ランレングス圧縮ホモポリマー
の可能な長さにわたるさらなる重みによって表されている。ここでは、そのようなさらな
る重みのいくつかの可能性が説明され、それらのそれぞれは、図10の形式または図17
の形式の重みと組み合わせて適用され得る。
【0188】
さらなる重みについての第1の可能性は、それらが、可能なポリマー単位タイプのごと
に、ホモポリマーの可能な長さのセットにわたる重みのカテゴリカル分布を含むことであ
る。可能な長さはカテゴリであり、RNN50出力は各カテゴリに重みを割り当てる。一
般に、各カテゴリは単一のホモポリマーの長さを表すことができ、またはカテゴリの一部
またはすべてがホモポリマーの長さの範囲を表すことができる。カテゴリは、所定長さを
超えるすべてのホモポリマーを表すカテゴリを含むことができる。カテゴリは等間隔であ
る必要はない。
【0189】
図18は、この第1の可能性に従ったそのようなさらなる重みの一例を示している。こ
の例では、4つの塩基A、C、G、Tのそれぞれの可能な長さごとに重みlijがあり、
これら塩基はインデックスiによってインデックス付され、長さはインデックスjによっ
てインデックス付けされている。この例では、各カテゴリは単一の長さに対応しているが
、代わりに、各カテゴリを長さの範囲に対応させて、カテゴリの数を減らすこともできる
図18に示されるさらなる重みは、ラベル間の遷移のための重みと共に重み分布51の
一部を形成し、これは、例えば、図10~13のいずれかに示されるような、上述のよう
な形式をとることができる。
【0190】
カテゴリ分布は、すべてのホモポリマーラベル間の遷移を完全に指定するよりも少ない
パラメータを必要とし、基礎となるランレングス圧縮ゲノムが推定され得るようにするが
、依然としてトレーニングデータを十分に活用しない弱い結合の問題があり、長いホモポ
リマーのトレーニングを困難にしている。
【0191】
さらなる重みの第2の可能性は、それらが可能なポリマー単位タイプごとに、ホモポリ
マーの可能な長さにわたるパラメータ化された分布のパラメータを含むことである。所与
のポリマー単位のホモポリマーが所与の長さのいずれかとなる確率を計算するために、こ
のようなパラメータが使用され得る。
【0192】
図19は、この第2の可能性に従ったそのようなさらなる重みの一例を示している。こ
の例では、A、C、G、Tとして示された塩基の4つのタイプそれぞれにインデックスi
でインデックス付けされた重みpijがある。これら重みは、分布のj個のパラメータで
あるP、P、…、Pを示しており、パラメータはインデックスjによってインデッ
クス付けされている。パラメータは、分布を表すいずれかのパラメータであり得る。一般
に、分布に応じて、jはいずれかの複数の値を有することができる。図19に示されるさ
らなる重みは、ラベル間の遷移のための重みと共に、重み分布51の一部を形成し、これ
は上述のような、例えば、図10~13のいずれかに示されるような形をとることができ
る。
【0193】
例として、図20は、平均と分散の2つのパラメータの異なる値によってそれぞれ表さ
れるホモポリマーの長さの2つの異なる分布の例を示している。
【0194】
ホモポリマーの長さにわたってパラメータ化された分布を使用する利点は、分布がホモ
ポリマーの長さの事後分布として解釈され得ることであり、推定された長さに信頼を置く
ことができる。例えば、図20では、両方の分布がホモポリマーの長さの同じ事後平均推
定値を示すが、信頼度は異なり、分散が大きい分布(左)は、分散が小さい分布(右)よ
りも信頼度が低くなっている。
【0195】
異なるホモポリマーの長さの予測は、すべて同じネットワーク出力のセットを介して行
われるため、この予測は以前よりもはるかに緊密に結合され、ネットワークが1つのホモ
ポリマーの例から同様の長さの例に一般化することを可能にしている。
【0196】
ネットワークの出力と組み合わせて、多くの異なる確率分布が使用され得る。発生する
可能性のあるホモポリマーの長さを表すことができる分布を選択することは有利であり、
そのため、この分布は、潜在的な長さの大きなセット、または半無限のセットにわたって
サポートする必要がある。所与のホモポリマーの長さにおいて高い信頼度(低分散)と低
い信頼度(高分散)の両方を表すパラメータの値が存在することも望ましい。負の二項分
布または幾何分布が使用されることがあり、信頼性の高いケースと低いケースを区別する
ことができない。
【0197】
幾何分布の分散は平均の関数であり、負の二項には追加の自由度があり、その分散は常
に平均より大きくなければならない。これらの両方の基準を満たす分布は、[0,∞]に
わたってサポートする連続分布を離散化することで見つけることができる。離散化の1つ
の方法は、ホモポリマーが長さLである確率を、L~L+1までの密度関数の積分に設定
するか、代替的にL=0を適切に処理してL-0.5~L+0.5に設定する。
【0198】
好ましくは、離散化された分布は、明示的な累積密度関数を有する。このような密度の
例は、ワイブル分布、対数ロジスティック分布、対数正規分布、ガンマ分布であるが、こ
れらに限定されない。使用されるパラメトリック分布またはその離散化された対応物の平
均、最頻値、分散の明示的な表現がある場合は、有利であるが、必須ではない。
【0199】
図21は、すべてが
【数6】

上でサポートを有している、ホモポリマーの長さを表すためのいくつかの適切な離散分布
を示している。Γ(α)はガンマ関数、γ(α、β)は不完全ガンマ関数、Φ(x)は標
準正規分布の累積分布である。
【0200】
第1および第2の可能性のそれぞれにおいて、さらなる重みは、可能なポリマー単位タ
イプごと、すなわち、ホモポリマーの可能なポリマー単位タイプごとに定義される。これ
は効果的であるが、さらなる改善が変更によってもたらされることができ、この変更には
、(a)所与のポリマー単位タイプおよび先行するポリマー単位タイプの可能な対につい
てのさらなる重み、(b)所与のポリマー単位タイプおよび後続のポリマー単位タイプの
可能な対についてのさらなる重み、または(c)所与のポリマー単位タイプ、先行するポ
リマー単位タイプ、および後続のポリマー単位タイプの可能なトリプレットについてのさ
らなる重みがある。
【0201】
この変更により、重みは、例えば、第1の可能性に応じたホモポリマーの可能な長さの
セットにわたる重みのカテゴリ分布、または第2の可能性に応じたホモポリマーの可能な
長さにわたるパラメータ化された分布のパラメータ、など同じ形式を取るが、重みの数は
増加する。ケース(a)および(b)について、重みの数が3倍に増やされ、それにより
、各可能なポリマー単位タイプの代わりにそれぞれの可能な対のための分布を設定し、例
えば、4つのタイプの塩基{A、C、G、T}の代わりに、12の対の塩基{(A、C)
、(A、G)、(A、T)、(C、A)、(C、T)、(C、G)、(G、A)、(G、
C)、(G、T)、(T、A)、(T、C)、(T、G)}の分布を設定する。例として
図22は、そのようなさらなる重みの一例を示しており、これは、各ポリマー単位タイ
プの対に対して設定されたホモポリマーの可能な長さにわたるパラメータ化された分布の
パラメータを含んでいる。これは、ケース(a)および(b)に対応し、この対は、ケー
ス(a)では、所与のポリマー単位および先行するポリマー単位タイプであり、ケース(
b)では、所与のポリマー単位タイプおよび後続のポリマー単位タイプである。パラメー
タの形式自体は、図19の場合と同じであり、特定のポリマー単位のホモポリマーが任意
の長さであるという確率を計算するために同様に使用されることができる。
【0202】
同様に、ケース(c)の場合、重みの数を9倍に増やして、各可能なトリプレットにつ
いての分布、例えば、4つのタイプの塩基ではなく36個の塩基のトリプレットを設定す
る。例として、図23は、そのようなさらなる重みの例を示しており、これはポリマー単
位タイプの各トリプレットに対して設定されたホモポリマーの可能な長さにわたるパラメ
ータ化された分布のパラメータを含む。これはケース(c)に対応しており、トリプレッ
トは、特定のポリマー単位、先行するポリマー単位タイプ、および後続のポリマー単位タ
イプになっている。パラメータの形式自体は、図19の場合と同じであり、特定のポリマ
ー単位のホモポリマーが任意の長さであるという確率を計算するために同様に使用される
ことができる。
【0203】
この変更は、長いホモポリマーのエッジを識別する能力が、先行および/または後続の
ポリマー単位に依存して変化する可能性があるという認識に基づいて、精度を向上させる
。例えば、塩基Tから塩基Aのホモポリマーへの遷移は、塩基Cから塩基Aのホモポリマ
ーへの遷移よりもはるかに識別が容易である。したがって、様々な対またはトリプレット
の分布を表す異なるさらなる重みを提供することは、ポリマー単位をより正確に推定する
ことができる表現をもたらす。
【0204】
重み分布51のいくつかの従属分布への同様の因数分解を使用して、ポリマーの他の特
性を表すことができる。一例は、非修飾形態および修飾形態を有するポリマー単位タイプ
、例えば、塩基の1つのタイプおよび同じ塩基の修飾されたタイプを含み得るポリヌクレ
オチドの表現である。
【0205】
DNAの天然鎖には、例えば、5-メチルシトシンや6-メチルアデニンなどの修飾塩
基が含まれており、それらの存在と位置は、一連のナノ細孔測定を使用して検出できる。
フリップフロップおよび他の表現は、容易に一般化して、ラベルのセットを塩基A、C、
GおよびTから拡張することによって修飾を喚起することができるようになり、修飾塩基
を表すための追加のラベル(例えば、Cは修飾されたCを表す)を含む。
【0206】
図24は、重み分布の一例を示しており、ラベルのセットが、修飾塩基に関してラベル
を追加的に含むように拡張されている。同様に、追加のラベルCは、図10、12
~14、または16に示される重み分布51のいずれかでラベルのセットに追加され得る
【0207】
ラベルのアルファベットのこの拡張は、当技術分野で説明された以前の方法でも使用で
き、これは特定時間のシグナルが塩基の固定長フラグメントによって表されることができ
ると仮定するが、これらは、考慮される修飾の数が増えるにつれて、ネットワークには、
固定長の各塩基間の可能な遷移について出力が必要であることから尺度が正しくない。例
えば、追加の修飾塩基が許容されると、4つのカノニカル塩基、3125(=5)で構
成される長さ5の断片については、1024の可能な組み合わせ(4)があり、2つの
修飾が許容されると、7776(=6)の可能な組み合わせがある。RNAには100
を超える既知の修飾があり、そのため、フラグメントベースモデルは急速に増加する処理
量を要する。
【0208】
ポリマー単位の非修飾形態は、カノニカルポリマー単位として説明され得、ポリマー単
位の修飾形態は、非カノニカルポリマー単位として説明され得る。修飾(または非カノニ
カル)ポリマー単位は、通常、対応する非修飾(カノニカル)ポリマー単位とは異なる形
でシグナルに影響を及ぼす。
【0209】
参照が行われ、参照により本明細書に組み込まれる、2019年9月4日に出願された
国際特許出願第PCT/GB2019/052456号には、カノニカルおよび非カノニ
カル塩基に関する教示が含まれており、これは本明細書に開示される本発明の方法のいず
れかに適用され得る。
【0210】
国際特許出願第PCT/GB2019/052456号は、本発明の方法のいずれかに
適用され得る非カノニカル塩基の例を開示する。
【0211】
国際特許出願第PCT/GB2019/052456号はまた、本発明の方法のいずれ
かと組み合わせて使用され得る1つ以上の非カノニカルポリマー単位を含むポリマーを調
製および分析する方法を開示する。
【0212】
非限定的な例として、本発明の方法のいずれかと組み合わせて使用され得る国際特許出
願第PCT/GB2019/052456号に開示される方法は、カノニカルポリマー単
位(例えば、アミノ酸)の比率を対応する非カノニカルポリマー単位(例えば、アミノ酸
)に、例えば、化学変換または酵素変換によって、非決定論的な方法で変換する。その場
合、一連のポリマー単位の推定値を導出(「呼び出し」)するとき、非カノニカル塩基は
、対応するカノニカル塩基であると推定(「呼び出される」)されることができる。これ
には、国際特許出願第PCT/GB2019/052456号の図18b~18kを参照
して説明された方法が含まれる。
【0213】
カノニカルおよび非カノニカルのポリマー単位がターゲットポリマーに非決定論的に組
み込まれることから、ポリマー単位の基本的な配列は不明であり、鎖ごとに異なる。各鎖
が代替的塩基を含む場合でも、依然として関連するカノニカル配列があり、任意の代替物
のタイプと場所を推測するのではなく、これを直接呼び出す利点がある。言い換えれば、
ターゲットポリマーに追加のポリマー単位があるにもかかわらず、分析はカノニカル値の
みをシグナルに帰属させ決定された配列がA、C、G、およびTの群からの塩基で構成さ
れるようになっている。このように、非カノニカルポリマー単位を分析においてカノニカ
ルポリマー単位として認識することにより、初期変換は、例えば、シグナルの分析に存在
するいずれかの誤差が非体系的になるなど、シグナルにより多くの情報を提供する方法を
提供することができ、それによって、推定精度の向上をもたらす。
【0214】
フリップフロップおよび同様の表現ははるかに扱いやすく、それは、遷移重みをパラメ
ータ化するために、各時点でRNN50から出力される必要な重みの数は、フラグメント
の長さに等しい累乗としてではなく、修飾の数で2次関数的に定められるためである(4
0は4つのカノニカル塩基を出力し、60は1つの追加の修飾された塩基を出力し、84
は2つの追加の修飾された塩基を出力する、など)。
【0215】
ニューラルネットワーク10がフリップフロップ表現を使用する場合、正しい配列の確
率を最大化するためにトレーニングが実行され、各リードに対して、推定配列を生成する
ためにさらに復号されなければならない条件付き確率場を生成する。使用される復号の方
法は、リードと呼ばれる塩基の総数やその構成の要約統計量など、バルクメトリックで明
らかになる不要なバイアスを最終呼び出しに導入することができる。同じ配列を有するか
、または共通のサブ配列を含む鎖のリードから推定された配列が集合的に考慮される場合
、さらなるバイアスが明らかになることがある。
【0216】
この問題を低減するために、ペナルティ項がトレーニング済みのニューラルネットワー
ク10に組み込まれ、その出力を調整して対象のメトリックのパフォーマンスを向上させ
ることができ、例えば、新しいポリマー単位を放出しないことに対応するすべての重み(
同じ塩基内のフリップ-フリップ、またはフロップ-フロップ遷移)から定数を減算する
ことは、呼び出されるポリマー単位の数を増やす一方で、特定のポリマー単位の比率は、
そのアイデンティティの新しいポリマー単位を放出することになるすべての遷移に定数を
追加することによって増やされることができる。
【0217】
使用されるペナルティ項の値は、値のグリッド上の代表的なリードのセットの対象とな
るメトリックを計算することによって調整されることができ、代替的に、シンプレックス
法などのより正式な最適化方法、または当技術分野で既知である他の多くの方法が使用さ
れ得る。ペナルティ項は、固定定数よりむしろ、リードに関する事前情報の関数であるこ
とがある。
【0218】
ペナルティ項は、任意の層でニューラルネットワーク10に組み込まれることができる
が、可能であれば最終層に組み込むことが好ましく、放出される遷移重みに直接影響し、
これが最終的な推定シーケンスへの影響を直感的に理解できるという利点があり、そのた
め、フォームにペナルティを導く。
【0219】
ニューラルネットワーク10の出力の解釈を確率モデルとして保持するために、必須で
はないが、「グローバル正規化」が実行される前にペナルティが組み込まれることが望ま
しい。
【0220】
多くの場合、カノニカル塩基の配列といずれかの修飾の存在の両方を正確に決定するこ
とは重要であり、修飾を推定しようとして、基になるカノニカル配列の推定に悪影響を与
えることは望ましくない。これがどのように生じ得るかの一例は、カノニカルなシトシン
と5-メチルシトシンの間の重みの分割であり、そのため、別の塩基が最も可能性の高い
推定値になる。
【0221】
重み分割動作を防ぐために、RNNによって出力された重み分布51は、2つの従属分
布に含められることができる。この場合、第1の分布は、上述の形態のいずれかをとる重
み分布51であり、単一のラベルが非修飾および修飾形態を有するポリマー単位タイプを
表し、第2の分布は、条件付き分布であり、非修飾および修飾形態のさらなる重みを含む
。この表現は、任意の数の修飾形態について、かつ、いずれかの可能なポリマー単位タイ
プの修飾形態について拡張され得る。
【0222】
図25は、塩基Cの非修飾形態および同じ塩基Cの修飾形態を表すためのさらなる重
みの一例を示す。この場合、さらなる重みは、塩基Cの非修飾形態に関する重みmと、
塩基Cの修飾形態に関する重みmである。これは、図24に示されたタイプの重み分
布51の代わりに適用され得る。さらなる重みは、ラベル間の遷移の重みと共に、重み分
布51の一部を形成し、これは例えば、図10~14、16のいずれかに示されるように
、上述のような形をとることができる。
【0223】
この因数分解された表現は、修飾が存在しないかのようにカノニカル配列が決定され得
、その後に修飾の場所が決定され得ることを意味する。修飾の条件付き分布自体は、おそ
らく以前の生物学的期待を反映して因数分解され得る。例えば、一方の分布は、シトシン
が修飾されているかどうかを表す可能性があり、他方の分布は、修飾が存在する場合、そ
の修飾が5-メチルシトシン(5mC)であるか5-ヒドロキシメチルシトシンであるか
を表す可能性がある。
【0224】
例として、図26は、この様式で拡張された4つの塩基のフリップフロップ表現を使用
して修飾された塩基5mCを検出した場合に、RNN50の出力によって予測された塩基
を示す。この例では、修飾された塩基5mCは、外部予測と一致する場所の3つの位置で
推定される。
【0225】
上述したように、RNN50の重み分布は、グローバルに正規化される。このようなグ
ローバル正規化は、一連の重み分布を通るラベルのすべての経路で行われる可能性がある
ため、すべての可能性のある経路の合計は1つである。グローバル正規化は、重みが事後
確率と見なすことができるように、出力空間にわたることができる。
【0226】
グローバル正規化は、ローカル正規化よりも厳密に表現力があり、「ラベルバイアス問
題」として当該技術分野で知られている問題を回避する。
【0227】
ローカル正規化よりもグローバル正規化を使用することの利点は、条件付き確率場(L
afferty et al.,Conditional Random Fields
:Probabilistic Models for Segmenting and
Labelling Sequence Data,Proceedings of
the International Conference on Machine
Learning,June2001)が、最大エントロピーマルコフモデル(McCa
llum et al.,Maximum Entropy Markov Model
s for Information Extraction and Segment
ation,Proceedings of ICML2000,591-598.St
anford,California,2000)より優位にあることに類似する。ラベ
ルバイアス問題は、ポリマー配列の拡張のような、ラベル間の許容された遷移の行列がス
パースであるモデルに影響する。
【0228】
グローバル正規化は、配列全体を正規化することでこの問題を軽減し、異なる時間の遷
移を相互に交換ることを可能にする。グローバル正規化は、ホモポリマーおよびその他の
複雑度の低い配列の偏った推定を回避するのに特に有利である。これらの配列は、他の配
列と比較して許容される遷移の数が異なり得るためである(モデルによっては多くまたは
少なくあり得る)。
【0229】
デコーダ80をここで考察する。
【0230】
デコーダ80は、重み分布51から一連のポリマー単位の推定値を導出する。これは、
例えば、Graves et al.,“Connectionist tempora
l classification labelling unsegmented s
equence data with recurrent neural netwo
rks”,In Proceedings of the 23rd internat
ional conference on Machine learning,369
-376(ACM,2006)において開示されているように、コネクショニスト時間分
類を使用して行うことができる。
【0231】
デコーダ80は、図27に示すように、以下の3つのステップを実行する。
【0232】
ステップS1において、ラベルの推定値は、ぞれぞれの重み分布51に関して導出され
る。この推定値については、以下でさらに考察される。
【0233】
ステップS2では、ステップS1で導出されたラベルは、一連のポリマー単位の推定値
を導出するためにランレングス圧縮(これは、復号化とも呼ばれる)される。ポリマー単
位よりも多くの重み分布51があるために、これが必要となる。上述のように、同じラベ
ルの連続的配列が、RNN50に固有のポリマーの表現において同じポリマー単位を表す
ことから、ランレングス圧縮はポリマー単位の推定値を生成する。
【0234】
ステップS2はまた、所与のポリマー単位タイプを表すために複数のラベルが使用され
る表現を考慮に入れる。例えば、上述のマルチステイ表現では、第2のラベルは、同じポ
リマー単位タイプに関して第1のラベルに圧縮される。同様に、上述のフリップフロップ
表現では、第1のラベル(フリップ)の連続的インスタンスは単一のポリマー単位に圧縮
され、第1のラベル(フロップ)の連続的インスタンスは別の単一のポリマー単位に圧縮
され、その後も同様の圧縮が行われ、それにより、ホモポリマーの推定値を提供する。
【0235】
例えば、図11のスキームでは、同じポリマー単位のインスタンスを区別するためにブ
ランクを復号することは、ステップS2で実行され得る。上で考察されたように、「任意
選択的」および「強制的」スキームは、ブランクに対して考慮されることができ、ステッ
プS2は、2つのスキームのどちらが後に続くかに応じて、ラベルの配列AAA--Aを
AAAAまたはAAのいずれかに復号することができる。
【0236】
フリップフロップ方式の場合、ステップS2は、同じラベルの複数の実行を単一の対応
するポリマー単位に折り畳むことを含み得る。例えば、ラベルの配列CAATACC
TTは、ステップS2で一連のポリマー単位CAATACCTTに復号され得る。
【0237】
マルチステイスキームに関して、ステップS2は、同じタイプの異なるポリマー単位と
して同じラベルの連続した配列を識別することによる復号を含み得る。例えば、ラベルの
配列AATTCAAは、ステップS2で一連のポリマー単位ATCAに
復号され得る。
【0238】
ランレングス符号化スキームに関して、ステップS2は、同じラベルの実行を折り畳む
こと(および、スキームにおいて必要に応じてブランクをドロップすること)による復号
化を含み得る。例えば、ラベルの配列TACAは、ステップS2で、一連のポリ
マー単位TAATTCAAAを表すことができる。
【0239】
ステップS3は、重み分布51が従属分布に因数分解される場合に実行されるが、それ
以外の場合は省略される。この場合、ステップS1およびS2は、遷移に関する重みを使
用して実行され、ステップS3では、それによって表されるポリマー単位の品質を推定す
るために、さらなる重みが使用される。例えば、上述のランレングス符号化表現では、ホ
モポリマーの長さを推定するためにさらなる重みが使用される。同様に、上述の修飾され
た形態の因数分解された表現では、ポリマー単位が非修飾形態であるか修飾形態であるか
を推定するために、さらなる重みが使用される。
【0240】
ここで、ステップS1におけるラベルの推定について考察する。重みはそれぞれの遷移
の事後確率を表すため、重み分布51を介してラベルのいずれか任意経路の事後確率を導
出するために重みが使用されることができ、これは問題の経路に対応する一連の遷移の重
みで表される事後確率を組み合わせることによる。このことは、重みが、異なる経路の可
能性が考慮されることを可能にすることを意味し、これが推定精度を向上させる。したが
って、ステップS1では、重み分布51を通るラベルの経路に関する遷移のための、組み
合わされた重みの考慮に基づいた技術を利用する。
【0241】
(上で考察されたように)1つ以上の遷移が許容されない場合、ステップS1でデコー
ダによって実行される推定は、ラベル間の遷移が許容されるか許容されないかを表す遷移
行列を考慮に入れることができる。
【0242】
「最良経路」と「最良ラベル」と呼ばれる2つの異なる手法が可能である。
【0243】
最良経路手法では、ラベルの最も可能性の高い経路が、重み分布51を基準にして一連
の重み分布51を通っている。この場合、それぞれの重み分布51に関してステップS1
で導出されたラベルは、その最も可能性の高い経路のラベルである。
【0244】
重み分布51は遷移にわたる重みであるため、配列を推定するための復号化の1つの方
法は、重みの最大合計を有する経路を見つけることである。このような経路は、例えば動
的プログラムアルゴリズムを使用して、遷移重みから効率的な様式で見つけられ得る。ビ
タビアルゴリズムが使用され得る。
【0245】
例えば、図28は、最良経路アルゴリズムを示し、ここでRNN50は、w jkの重
みをブロックiにおけるラベルjからラベルkへの遷移に出力する。ベクトルtは、ト
レースバック情報を格納し、これは、特定の現在のラベルから得られる最良のラベルであ
り、スコアSと最良経路Pを決定するために使用されている。
【0246】
ランレングス符号化の場合、検出される最適経路はランレングス圧縮配列用であり、各
実行の長さは、RNN50によって出力される適切な条件付き分布から決定される必要が
ある。最良経路が新しいポリマー単位が発生したことを示す場合、実行の長さは、そのポ
リマー単位に対応する条件付き分布から推定される。この推定を行う適切な方式には、条
件付き分布の平均値(四捨五入あり)、最頻値、または中央値を見つけることが含まれ、
好適な事前確率が与えられれば、最大ベイズ因子を有する長さも使用されることもある。
ネットワークが、存在している可能性のある塩基修飾を表す条件付き分布を出力する場合
、修飾は順序ではなくカテゴリであるため、事後平均と中央値は好適な推定量ではないが
、それらの存在で最良経路をマークアップするプロセスは同様に進行する。
【0247】
ランレングス符号化の場合、ランレングスバイアス補正が適用され得る。このモデルは
実際のリードからトレーニングされるため、学習されてモデルの重みに組み込まれたラン
レングスの事前分布がいくつかある。ランダム鎖または実際の(例えば、ゲノム)鎖から
派生したリードの場合、トレーニングデータが含むことになる様々な長さ(レングス)の
実行(ラン)の比率には顕著な偏りがあり、例えば、長い実行は非常に稀である。このこ
とは、方法が長い実行を呼び出す機能に影響を及ぼす。実行の長さには曖昧さがあり、短
い呼び出しは、長い呼び出しよりも正しいことが多く、そのため、単一リードの精度を最
大化すると、実行の呼び出しが短くなる傾向がある。そのため、比較的短いランレングス
にバイアス補正を適用することには利点がある。
【0248】
最も可能性の高い経路を見つけた場合、カノニカル塩基の配列を導出する必要がある。
フリップフロップ表現の場合、ラベルの隣接する繰り返しは、他のCTCのようなモデル
のブランクラベルと同じ間隔の役割を果たし、次いで各ラベルのフリップフロップアイデ
ンティティがスクラブされて、カノニカル塩基が残るためにマージされる。ランレングス
符号化の場合、ブランクラベルが削除され、各実行が適切な数の塩基に拡張される。
【0249】
最良ラベル手法についてここで考察するが、最良経路手法は、正しいラベルが最も可能
性の高い経路上にない場合に、いくつかの特定のラベルを不正確に誤って推定し得ること
に注意されたい。RNN50からの重み分布51は、ラベルのすべての可能な経路にわた
る確率分布、ラベルを位置に割り当てる一貫した方法、および一連のラベルに対応し、そ
れにより、ポリマー単位に対応する((同じ配列をもたらす多くの経路があるので)この
対応は一意ではないが)各経路を有効に規定する。最良ラベル手法は、最も可能性の高い
一連のラベル(したがってポリマー単位)を推定することにより、最良経路手法よりも改
善されている。つまり、最良経路を見つけるのではなく、タイムステップiの後に経路が
ラベルjにあったという事後確率は、この条件を満たすすべての経路を合計することで見
つけることができる。これは、一連の重み分布51を通るラベルのフォワードおよびバッ
クワード経路を考慮に入れることができる。この場合、それぞれの重み分布51に関して
ステップS1で導出されたラベルは、このように最も可能性が高いラベルとして導出され
る。
【0250】
動的計画法を時間のフォワードとバックワードの両方で使用することで、この計算が、
最良経路の場合と同様の再帰を使用して効率的に実行されることを可能にしており、最良
経路アルゴリズムがビタビ復号法の形式と見なされ得る場合、事後確率の計算は、フォワ
ードおよびバックワードアルゴリズムの形式と見なされ得る。同様に、タイムステップi
でラベルの変更があった事後確率は、この遷移を満たすすべての経路を合計することで計
算されることができ、この計算はまた、効率的な方法で実行されることができる。
【0251】
事後確率は、各位置での可能性のあるラベルについての情報を提供するが、ほとんど同
じようなラベルを選択して復号すると一貫性がない経路になり、配列も一貫性がなくなる
可能性がある。遷移行列Tを1つのラベルから、遷移が許容されているかどうかに応じて
エントリが1または0のいずれかになる別のラベルへと定義することにより、最良経路復
号アルゴリズムがこれらの事後確率に適用され、すべての一貫性のある経路の中から、そ
のラベルの事後確率の合計を最大化する経路を見つけることができる。
【0252】
この一例として、図29は、そのようなアルゴリズムが位置iにあるラベルKであるこ
との事後確率P に適用されることを示す。ベクトルtiは、トレースバック情報を格
納し、これは、特定の現在のラベルから得られる最良ラベルであり、スコアSと最良経路
Pを決定するために使用されている。
【0253】
代替的に、すべての一貫した経路にわたってラベルの事後確率の対数の合計を最大化す
る経路を見つけるために、最良経路アルゴリズムが事後確率の対数に適用されることがで
きる。これは、すべての一貫した経路にわたってラベルの事後確率の積を最大化する経路
を見つけることと同じである。
【0254】
この一例として、図30は、位置iにあるラベルkである対数事後確率p にそのよ
うな最良経路アルゴリズムが適用されることを示す。ベクトルtは、トレースバック情
報を格納し、これは、特定の現在のラベルから得られる最良ラベルであり、スコアSと最
良経路Pを決定するために使用されている。
【0255】
代替的に、重み分布51は遷移にわたって定義されることから、各位置にあるラベルで
はなく、位置間で取られる遷移の事後確率を計算するために、フォワードアルゴリズムお
よびバックワードアルゴリズムが使用されることができる。
【0256】
この一例として、図31は、すべての経路を合計した事後確率の計算を示す。これらの
重みは遷移にわたっていることから、遷移行列と同じ形状を有し、その対数が、一貫した
経路を見つけるために、遷移重みの代わりに図28で定義された数式に入力されることが
できる。
【0257】
ゲノムの同じ領域をカバーする多数のシグナルからコンセンサス配列を生成するための
より成功した手法の1つは、「ポリシング」と呼ばれており、いくつかの出版物に記載さ
れている。コンセンサス配列のポリシングは反復プロセスであり、ドラフトコンセンサス
配列への候補の変更は、すべてのリードがそれらにどの程度一致しているかによってスコ
アリングされ、高いスコアの変更が保持され、1つのリードによって引き起こされた間違
いが他のリードによって修正されることを可能としており、この手順がスコアの高い変更
が見つからなくなるまで繰り返される。
【0258】
ポリシングがシングルリードへの適用にも有益であり得るかは、明らかではない。前の
項で説明したポリマー単位を推定するためのすべての手法は、ネットワーク出力を介して
塩基配列が抽出され得る適切な経路を見つけることを目的としているが、単一経路を適切
であると識別するのではなく、レジストレーションのないトレーニング目標が特定の配列
のすべての経路にわたって合計される。トレーニング基準と一致させるために、RNN5
0からの出力が、最も可能性の高い配列を見つけて、最も可能性の高い経路ではなく、同
じ配列になるすべての経路にわたり合計して復号されるのが理想的である。特定の配列の
すべての経路を合計することは、候補の変更が適切かどうかを評価するためにポリシング
が使用する基準であり、そのため、ポリシングは、最も可能性の高い配列を見つけるため
の、反復ヒューリスティック、貪欲山登り法の変形として考えることができる。
【0259】
関連する一連のポリマー単位の測定値である複数の一連の測定値を分析する場合、この
方法は基本的に同じであるが、複数の一連の測定値からの測定値は、複数のそれぞれの次
元で配置されるものとして扱われている。このことは次元を増加させるが、ニューラルネ
ットワーク10の形態は、それ以外は上で説明したものと同じである。この場合に適用で
きるいくつかのさらなる考慮事項は以下の通りである。
【0260】
ペナルティ項を使用する場合、すべての遷移に対して一定になっている放出しないペナ
ルティの代替として、ペナルティは、遷移に応じて異なる値を取るか、完全に存在しない
可能性がある。例えば、一部の遷移は状態に変化をもたらさず、他のリードでの失われた
状態を意味しないことから、自由であり得るか、わずかなペナルティを有し得る。
【0261】
使用される1つまたは複数のペナルティは、各リードに対して同じである必要はなく、
なぜ2つのリードが異なる特性を持ち得るかという、適切な生物物理学的な理由があるこ
とがある。例えば、一方のリードはモーターの上で二本鎖であった分子からのものである
のに対し、他方は一本鎖であった分子からのものであり得、あるいは、2つのリードは異
なるモーターを備えた鎖であり得、一方のリードがDNAであるのに対し、他方のリード
がRNAである可能性がある、あるいは、2つのリードは、同じフォワード-リバース相
補鎖の第1と第2の部分であり得、配列決定中のこれら2つの間のハイブリダイゼーショ
ンが反応速度を変化させる。
【0262】
使用される1つまたは複数のペナルティは、時間に依存する可能性がある。使用される
1つまたは複数のペナルティは、リードのローカル統計に依存する可能性がある。これら
例には、速度、失速の存在、またはノイズが含まれる。使用される1つまたは複数のペナ
ルティは、他のモデルまたは手法を使用したリード分析の出力、例えば、スリップ(塩基
の欠落)の可能性の予測など、に依存する可能性がある。
【0263】
フリップフロップ表現とランレングス符号化(RLE)表現の両方の状態遷移モデルに
は時間順序があり、状態順序を逆にすることは、有効な状態の配列ではないことがある。
つまり、RLE表現では、塩基は留まる前に放出される必要があり、フリップフロップ表
現では、繰り返しの最初の塩基が「フリップ」である必要がある。この結果、一方のリー
ドが逆補数または逆である他方リードの鎖(または鎖の一部)からのものである場合、分
析前に一方のリードを逆にして同じ手順を2つのフォワードリードのものとして適用する
だけでは不十分である。
【0264】
2つの異なる方向のリードを組み合わせ、両方のリードの状態をペアとして監視するた
めに、より複雑な手順を使用することもできるが、一方のリードと他方のリードで標準モ
デルを使用することが好都合であり、ここで他方のリードは、「バックワード」にトレー
ニングされたものとなっている(トレーニング中にはリードからのシグナルとターゲット
配列が逆になっている(場合によっては補完されている))。このようなモデルの対を使
用すると、フォワードリードとリバースリードの両方がモデルの状態を同じ順序で通過す
るため、これら両方がフォワードリードであるかのように組み合わせることができる。
【0265】
ニューラルネットワーク10は、例えば以下のように、従来技術を使用してトレーニン
グされることができる。
【0266】
ニューラルネットワーク10は、ラベルの経路上の確率を表す重みを表す分布(ラベル
による測定の一貫したラベリング)を出力し、これは次に、ポリマー単位の配列の推定値
に復号される。ニューラルネットワーク10は、この推定値の誤差比率が低いことを確実
にすることを目的とした基準でトレーニングされている。
【0267】
遷移重みを使用して経路全体の確率分布を規定する重要な側面は、すべての経路の合計
が1になるように重みを正規化する必要があることである。遷移重みのセットが与えられ
ると、正規化係数は、上で考察された事後確率の計算で使用されるようにフォワードアル
ゴリズム(またはバックワードアルゴリズム)を適用することにより、動的計画法を使用
して計算され得る。1に正規化されるのは、各時点でのネットワークの出力ではなく、す
べての可能な経路の合計であるため、この手法はグローバル正規化と呼ばれ、各経路のス
コアが確率(の対数)としての判読を有することを確実にする。一貫したラベルを有する
すべての経路は、確率に対応しており、これらの確率はすべての経路に分布を形成する。
【0268】
グローバル正規化とは対照的に、ニューラルネットワーク10を正規化して、すべての
時点での出力の合計が1になるようにすることは、ローカル正規化と呼ばれる。各経路の
スコアは計算でき、確率の形式を有するが、確率質量の合計が1未満であるため、分布を
形成しない。ローカル正規化は、ラベルが一貫した経路を形成するかどうかに関係なく、
ラベルのすべての配列に確率を割り当てる。
【0269】
配列ラベリングのトレーニングは、入力シグナルの対であるトレーニング例、それに対
応するラベルの配列、およびトレーニング例を最適化するための目的関数を必要とする。
ナノ細孔測定値とポリマー単位の配列との間の真のレジストレーションは不明であるため
、Graves et al(2006)に記載されているようなレジストレーションの
ないトレーニング方法が好まれている。レジストレーションのあるトレーニング方法では
、測定配列の各要素にラベルを付ける必要があるが、レジストレーションのない方法では
、ポリマー単位の真の配列のみを知ることが必要とされている。リードについてのポリマ
ー単位の真の配列は、ナノ細孔デバイスで既知の配列のポリマーを測定するか、もしくは
、リードを基準配列または既知の配列を有する測定値のセットと比較することで決定され
得る。
【0270】
既知の配列の測定値の例は、小さなゲノムが含むことができ、ここではラムダファージ
(50キロ塩基)のような単一リードにおいて完全なゲノムを配列決定することが可能に
なっている。制限消化もまた使用されることができ、フラグメントはその長さで識別され
る。別の例では、既知のフラグメントを実行に順次追加する必要があり、これはしたがっ
て、フラグメントがデータに表示される時間によって識別できる。シグナルリードに配列
を割り当てることができる任意の方法が使用され得ることは明らかになる。
【0271】
ニューラルネットワーク10をトレーニングする場合、様々な状況で様々な実験にわた
って各ポリマー単位にまたがる測定を行うことが有益であり、そのため、ネットワークは
通常の実行状態で遭遇するあらゆる変動の多くにさらされている。理想的には、ナノ細孔
によって読み取られるとニューラルネットワーク10は、完全なリード、すなわち、全長
ポリマーを網羅するシグナルと配列の対を使用してトレーニングされる。しかしながら、
実際的な考慮事項(計算時間、メモリ)については、シグナルと配列の小さなチャンクで
操作するのが一般的である。
【0272】
反復型、畳み込み型、注意型のニューラルネットワークユニットには時間順序の概念が
あり、トレーニングで提示される測定ウィンドウのサイズによって、学習できるコンテキ
ストが制限されている。各ポリマー単位が有することができる影響の範囲が広いため、ト
レーニングするための測定の大きなウィンドウをニューラルネットワーク10に提示する
ことは有益である。使用されるウィンドウのサイズは、ニューラルネットワーク10が、
細孔、ポリマー鎖、および他のシステム構成要素間の相互作用の適切な内部表現を作成で
きるようにする十分に大きな一連の測定値を提示することと、利用可能な計算処理量との
間のバランスである。理想的には、各リード全体が使用されるが、実際には、固定サイズ
の測定のチャンクが適切な妥協点を提示する。適切なチャンクのサイズは、ナノ細孔と鎖
の移動速度に依存するが、約200~約300塩基に対応するチャンクサイズが適切であ
ることが証明されている。例えば、このことは、CsgGナノ細孔に適していることを証
明している。
【0273】
一例示的なトレーニングセットのサイズは、シグナルおよび配列の約300塩基チャン
クの約100万セットを含み得る。数千チャンクのより小さなトレーニングセットで十分
になることができ、100万チャンクを超えるより大きなトレーニングセットは、トレー
ニングの多様性をもたらすことができる。
【0274】
ニューラルネットワークをトレーニングする多くの技術、または他の機械学習方法が、
当技術分野で知られており、ここで適用されることができる。様々な実験的実行に一般化
するための方法による能力により、ポリマー配列がトレーニングデータの大規模なセット
から恩恵を受け、グラフィックプロセッシングユニット(GPU)またはその他の特殊な
ハードウェアで計算を実行することが好ましいため、目的関数の方向を最大化しようとす
ることは、メモリに制限があることから、多くの場合、非現実的である。データの完全な
セット全体にわたり目的関数を直接最大化するのではなく、確率的勾配降下法(SGD)
または関連する手法を使用して、完全なトレーニングセットのサブセット(「ミニバッチ
」)を使用して反復的に目的関数を概ね最大化することが好ましい。推奨されるミニバッ
チサイズは、使用する計算デバイスで利用可能なメモリと、ミニバッチの各要素の測定数
に依存する。
【0275】
確率的勾配降下法(SGD)の多くの変形が当技術分野で知られており、それらは例え
ば、SGD、モメンタムSGD、ネステロフモメンタムSGD、RMSprop、Ada
Max、Adamなどである。Adamの変形である、「Adamski」では、反復N
のモメンタムがモメンタムランピング係数rによって0からその中の最大値μに増加して
おり、μ=μ(1-e-rN)が好ましい。Adamskiには、学習率、2つの平滑
化パラメータ(当技術分野ではdecay1およびdecay2と呼ばれることが多い)
、およびモメンタム傾斜率がある。これらのパラメータの多くの選択が有益になっている
。好ましいパラメータ化は、10-3の初期学習率、0.9および0.999の平滑化パ
ラメータ、ならびに0.005のモメンタム傾斜係数を有している。0.95および0.
99の平滑化パラメータはまた、初期学習率を10-4に下げるのと同様に、すでにトレ
ーニングされたモデルを改良するためにも効果的であることが証明されている。
【0276】
SGDおよび関連する手法は反復的に進行し、各反復は次のステップで構成される。
1.完全なトレーニングデータのサブセットを選択する。
2.このサブセットの目的関数を計算する。
3.逆伝搬法を使用して、すべてのネットワークパラメータの勾配を計算する。
4.SGDまたはその変形を使用してネットワークパラメータを更新する。
5.1に進む(次の反復を開始する)。
【0277】
ステップ4における更新のサイズは、学習率と呼ばれる係数でスケーリングされる。学
習率が高いということは、パラメータが急速に変化できることを意味しており、そのため
最大化がより迅速に進むことができ、各ミニバッチの効果が大きくなることができ、モデ
ルが収束に近いときの更新は、ミニバッチ間の変動によって影響を受けることを意味する
。反復ごとに学習率をゆっくりと低減することが好ましく、この低減は動的であることが
でき、バッチごとの目的関数の変化と変動性に従って、または所定のスケジュールに従っ
て学習率に調整される。選択のために、ある初期学習率Rとミニバッチ数Kに対して、N
thミニバッチの学習率がR/(1+(N/K))である双曲線減衰が使用される。
【0278】
合計を使用して、ミニバッチの各構成要素のスコアを組み合わせてミニバッチのスコア
としたが、他の組み合わせ方法も可能である。合計は、その構成要素のスコアの平均に比
例するミニバッチスコアとなり、中心的な傾向の他の測定値に対応する組み合わせもまた
、好ましい特性を有している。中央値、トリミングされた平均値、または加重平均などの
組み合わせ、もしくはM推定量のフィッティングが、目標の感度を孤立値を有するミニバ
ッチ要素に変更するために使用され得る。
【0279】
ミニバッチの各要素から合計スコアへの寄与は、すべての一貫した経路にわたって合計
された真の配列の事後確率(の対数)である。フリップフロップ表現の場合、フリップか
らフリップまたはフロップからフロップの遷移は、配列の同じ位置に留まっていることを
表すが、一方で、他のすべての遷移には位置の移動が含まれる。各時点でRNN50から
出力されたラベル間の遷移を表す重みが与えられると、これらは既知の配列の位置間の遷
移重みに変換されることができる。
【0280】
図32は、ラベルS、S、...、Sのフリップフロップの符号化配列の各時点
iに対する目的遷移行列miの要素をどのように構築するかを示す。図33で説明されて
いる目的関数は、この目的遷移行列を使用して、ミニバッチの各要素のスコアを計算する
【0281】
目的関数の遷移行列は非常にスパースであり、対角(ステイ)と超対角(位置に移動)
に非ゼロ要素のみを有しており、この計算の好ましい実施形態では、ゼロ要素のみを無視
し、象限から線形までの真の配列の長さの観点から、各ステップの見かけ上の複雑性を低
減する。
【0282】
マルチステイ表現の目的関数は、構造的にはフリップフロップの目的に類似しているが
、同じ位置にとどまることを表す状態が異なる。ステイ状態または非ステイ状態からいず
れかの非ステイ状態への遷移は、位置の変更を意味しており、ステイ状態へのいずれかの
遷移は意味しない。マルチステイ表現の場合、新しい位置にとどまる(塩基からステイへ
の遷移)と古い位置にとどまる(ステイからステイへの遷移)を表す遷移は区別されてお
り、目的関数の効率的な計算には、「残りの」位置のための真の配列の複製:S、R
、S、R…、S、Rの使用が必要とされる。
【0283】
図34は、この例について目的遷移行列の要素をどのように構築するかを示す。目的遷
移行列を形成することを目的として、元の位置は1…Nと列挙されるが、一方で対応する
複製位置はN+1…2Nと列挙される。
【0284】
図33で説明される目的関数は、この目的遷移行列を使用して、ミニバッチの各要素の
スコアを計算する。目的遷移行列はスパースであり、目的計算の好ましい実施形態は、こ
のスパース性を利用している。
【0285】
各スコアは、目的関数で使用される前に重みで乗算でき、この重みは、トレーニングプ
ロセスに対応するミニバッチの要素の値を表すことができる。重みは、例えば、異常な配
列構成を有する要素、または以前にトレーニングされたネットワークのテスト中に検出さ
れることがある塩基呼び出しエラーに関与することが知られている要素の場合に大きくな
り得る。ミニバッチの要素の重みを決定する1つの方法は、それを最も希少なホモポリマ
ーの頻度の逆数に等しく設定することであり、この頻度は、トレーニングデータのセット
全体から、または他の外部基準から決定される。
【0286】
ランレングス符号化の目的は、マルチステイモデルの目的と同様に定義されているが、
新しい配列位置が遷移するたびに追加の要素が組み込まれ、ネットワークによって出力さ
れる対応する条件付き分布によって、実行(ラン)の長さ(レングス)がどれだけ適切に
予測されるかを表している。ランレングス圧縮配列にわたる目的遷移行列の形式は、多く
のステイ目的の場合と同じ形式を有し、いずれの塩基も位置間で許容された遷移に暗黙的
になっている同じ塩基に続くことができないが、ネットワークがその組成を与えられた各
位置でホモポリマーの長さに割り当てる対数確率からの追加的構成要素を備えている。
【0287】
トレーニングデータのホモポリマー含有量が偏っていることが明らかである場合、他の
データセットを表していないことがあるため、ネットワークがこの偏りを学習することは
多くの用途で望ましくないことがある。ネットワークがトレーニング目標で直接その組成
を与えられた各位置でホモポリマーの長さに割り当てる対数確率を使用する代わりに、最
初に別の分布と組み合わせられることができ、この他の分布は、トレーニングデータ(「
分布前のトレーニング」)からホモポリマーの頻度を集計することによって取得され得る
。この方法でトレーニングすることにより、ネットワークは、トレーニングの事前分布の
期待を克服する対数確率を割り当てることを学習する必要がある。
【0288】
ベースコールの目的で、トレーニングデータからの事前分布、またはホモポリマーの長
さの他の期待値が、「ベイズの定理」などの標準的な方法を使用してネットワークによっ
て割り当てられた対数確率と組み合わせられ、ホモポリマーの長さに関する外部情報によ
って通知される新しい対数確率を生成し、代替的にネットワークからの対数確率が、バイ
アスのない呼び出しに直接使用されることもできる。
【0289】
図35は、この例について目的遷移行列の要素をどのように構築するかを示している。
測定の時間ステップiにおける配列の位置jについて、ネットワークが長さLの実行に
組成Sを割り当てる確率の対数が、r:Lとなるようにする。図33で説明さ
れる目的関数は、この目的遷移行列を使用して、ミニバッチの各要素のスコアを計算する
【0290】
レジストレーションを用いない様式でベースコールモデルをトレーニングすることの利
点は数多くあるが、提示されるほとんどの復号アルゴリズムと使用されるトレーニング目
標の間には乖離がある。モデルトレーニングの目的関数は、塩基の真の配列の確率を最大
化し、それを表す可能性のあるすべての個々の経路の確率を合計することであるが、一方
で上述のポリシング以外のすべての復号ルーチンは、高いスコアの経路を見つけに行くこ
とである。図36は、この乖離によって引き起こされる問題の1つを示す。特に、図36
は、2410~2600の回数の間に長いホモポルマー領域がある場合のフリップフロッ
プ表現の例として時間経過と共に特定のラベルに存在するシグナル(上)と事後確率(下
)を示しており、ここではモデルが、T-フリップ状態(赤い実線)と交互になるのでは
なく、T-フロップ状態(赤い破線)にとどまっている。長いホモポリマーに入った後、
領域の開始と終了の前後で推定が行われるが、フリップとフロップの状態はすぐに不明瞭
になり、事後確率は均一になる。領域を通る複数の経路があり、この領域は、フリップ塩
基とフロップ塩基のレジストレーションがわずかに異なり、事後確率がこのアンサンブル
の平均を反映する。
【0291】
考えられる代替案の1つは、すべての経路を合計するのではなく、トレーニングの目的
として最良経路のスコアを使用することであり、これは、レジストレーションが明示的に
定義されておらず、ラベル付けとは異なって、最良のレジストレーションがモデルが行う
ように変化し得ることから、依然としてレジストレーションを用いない方法となる。最良
経路へのトレーニングは直感的であるように見えるが、最初の貧弱なモデルには悪い最良
経路があり、トレーニングプロセスがそれを強化することにより、モデルを何もない状態
からトレーニングする場合、この手法は大きく失敗することになる。
【0292】
シャープニングは、他のすべての可能性を考慮しながら、レジストレーションを事前に
指定することなく、トレーニングを単一の経路に集中させる方法である。初めに、すべて
の経路の合計のスコア(図33)と最良経路のスコア(図37)を計算するためのアルゴ
リズムを検討する。これらの両方がそれぞれファンクターlogΣexpとmax
適用し、遷移重みと以前の前方ベクトルを共に組み合わせる。シャープニングの目標は、
このファンクターを、すべての可能な経路を合計するが、スコアの高い経路を高く重み付
けするファンクターに置き換えることである。
【0293】
図38は、フォワードベクトルと遷移またはマッピング重みを組み合わせるために使用
される関数であり得るいくつかのファンクターを示す。図38で「すべての経路をシャー
プニング」と呼ばれるファンクターが好ましいが、他の多くのファンクターが使用される
ことができ、実際には、組み合わせられて新規のファンクターを作成する。
【0294】
最初からシャープニングを有効にしてトレーニングするよりも、全経路目的関数を使用
してトレーニングを開始し、次に、良好なモデルが見つかると、シャープニング係数(a
)を1からより高い値に増やし、場合により、さらに高いシャープニングの値で繰り返す
方が有利であることが分かった。この多段階プロセスはまた、モデルが最良経路目標を使
用してトレーニングすることを可能にする。最初にすべての経路の目的に対してトレーニ
ングを行うと、良好なモデルが見つかり、最良経路が良好であり、次に、さらにトレーニ
ングを行うことで、この経路が強化されるようになる。
【0295】
図39は、図36に示した同じ領域の例で、フリップフロップ表現をシャープニングす
る効果を示す。図39は、この例では経時的に特定の状態にあるが、シャープニングを使
用したトレーニングを行った場合のシグナル(上)と事後確率(下)を示す。概して、2
400~2620回の間には、長い領域があり、ホモポリマーが発生し、モデルは、塩基
の配列を呼び出すために、T-フロップ状態とT-フリップ状態を交互に繰り返している
。個々の呼び出しはより明確であり、ホモポリマー領域全体でT-フリップとT-フロッ
プの間で交互になっていることが分かる。
【0296】
このモデルを復号すると、シャープニングされていないモデルよりもポリマー単位の推
定が優れたものになる。これは、図40に示す例に示されており、ここでは、シャープニ
ングされていないモデルとシャープニングされたモデルからのポリマー単位の推定(ベー
スコール)が基準配列と比較される。シャープニングされていない呼び出しは、8個のT
塩基のみを呼び出するが、シャープニングされた呼び出しは、基準にある27個のT塩基
と一致している。
【0297】
最良経路またはシャープニングを使用すると、トレーニング対象が置き換えられるが、
それらを使用して、それを補強し、テスト中に見つかった望ましくない動作からネットワ
ークをトレーニングすることもできる。そのような望ましくない動作の1つは、ホモポリ
マーの長さを過小評価する傾向になる可能性があり、このことは、トレーニングデータが
短いホモポリマーに大きく偏っている場合に発生することがあり、トレーニング対象にペ
ナルティを追加することで修正され得る。そのようなペナルティの1つは、ホモポリマー
が呼び出される位置を見つけるために最良経路を使用し、そして、その真の長さを、その
位置でネットワークによって割り当てられた対数確率に基づいた推定値と比較することに
よって見つけることができ、この比較は、絶対差の合計を使用して実行することができ、
この比較は、差の二乗和を使用して実行することができ、他の多くの比較方法が当技術分
野で知られている。ペナルティはトレーニング目標に追加される可能性があり、ペナルテ
ィは、トレーニング目標に対する重要性を変更するために、所定の係数によって追加的に
重み付けされる可能性がある。
【0298】
ペナルティ項を重み付けする係数は、所定のものではなくラグランジュ乗数として扱わ
れることもある。トレーニングは、ラグランジュ乗数の停留点を見つけながら、トレーニ
ング目標を最適化することによって進行する。これらのポイントにおいて、またはその近
くでは、ペナルティは概ねゼロであり、ネットワークは、ペナルティ条件の保持に従って
トレーニングされており、ペナルティが真の長さと推定された長さの絶対差の合計である
例の場合、ネットワーク呼び出しは平均した補正長さになる。
【0299】
例えば、ホモポリマーの長さごとに1つのトレーニング目標を強化するために複数のペ
ナルティ項が使用されることができ、各ペナルティは、所定の係数で重み付けされるか、
ラグランジュ乗数として扱われることができる。
【0300】
上述の説明は、重み分布51がラベルのセット間の遷移を表す場合を考慮している。代
替策として、本明細書に記載の方法は、重み分布51がラベルのセット内のラベルを表す
場合に適合され得る。
【0301】
この場合、重み分布51がラベルのセット内のラベルを表しており、デコーダ80は、
遷移行列を使用して、ラベル間の遷移が許容されるか許容されないかを表すことができる
。遷移行列は、重み分布51の重みの行列と同様の形式を有することができるが、許容さ
れるかまたは許可されない遷移を示すバイナリ要素を有する。遷移行列は、少なくとも1
つの遷移を許容されていないものとして表し、他の遷移を許容されているものとして表す
ことができる。デコーダ80は、この遷移行列を使用して、遷移行列に従って許容される
ラベルを通る異なる経路の可能性を考慮に入れて、ラベルを表す重み分布51から一連の
ポリマー単位の推定値を導出することができる。
【0302】
同様に、この場合、重み分布51がラベルのセット内のラベルを表しており、一連のポ
リマー単位内の同じポリマー単位タイプの連続するインスタンスは、例えば、フリップフ
ロップ表現、またはランレングス符号化表現を使用して、上述のように符号化形式で表す
ことができる。
【0303】
上述の説明は、RNN50を含むニューラルネットワーク10に関連しているが、上述
の形式および復号化を有する重み分布は、他の形式の機械学習技術、例えば、HMMに等
しく適用されることができる。
【0304】
本発明の第2の態様によれば、以下の条項で規定される方法が提供される。
【0305】
条項1.ポリマーによって生じるシグナルをナノ細孔に対するポリマーの転位中に分析
する方法であって、ポリマーが、可能なポリマー単位タイプのセットに属する一連のポリ
マー単位を含み、方法が、一連の重み分布を出力する機械学習技術を使用してシグナルを
分析することであって、各重み分布が、可能なポリマー単位タイプを表すラベルを含むラ
ベルのセットにわたるラベルに関する重みを含んでいることと、重み分布から一連のポリ
マー単位の推定値を導出することと、を含み、一連のポリマー単位の推定値を導出するス
テップは、ラベル間の遷移が許容されるか許容されないかを表す遷移行列を考慮に入れ、
ラベル間の少なくとも一方の遷移は、許容されないものとして表されており、他方の遷移
は、許容されたものとして表されている、方法。
【0306】
条項2.ラベル間の少なくとも1つの遷移が許容されておらず、他の遷移が許容されて
おり、重み分布がそれぞれ、許容されているラベルに関する重みを含む、条項1に記載の
方法。
【0307】
条項3.重み分布が各々、許容されていないラベルに関するヌル重みを含む、条項2に
記載の方法。
【0308】
条項4.一連のポリマー単位の推定値を導出する前記ステップが、ラベル間の遷移が許
容されているか許容されていないかを表す遷移行列を考慮に入れる、条項2または3に記
載の方法。
【0309】
条項5ラベルのセットが、各ポリマー単位タイプに関する第1のラベルおよび第2のラ
ベルを含み、第1のラベルが、ポリマー単位タイプのインスタンスの開始を表し、第2の
ラベルが、ポリマー単位タイプのインスタンスにおけるステイを表し、各第1のラベルか
ら任意の他のポリマー単位タイプの第1のラベルへの遷移が許容されており、各第1のラ
ベルから同じポリマー単位タイプの第1のラベルへの遷移が許容されており、各第1のラ
ベルから同じポリマー単位タイプの第2のラベルへの遷移が許容されており、各第1のラ
ベルから任意の他のポリマー単位タイプの第2のラベルへの遷移が許容されておらず、各
第2のラベルから同じポリマー単位タイプの第1のラベル、または任意の他のポリマー単
位タイプの第1のラベルへの遷移が許容されており、各第2のラベルから同じポリマー単
位タイプの第2のラベルへの遷移が許容されており、各第2のラベルから任意の他のポリ
マー単位タイプの第2のラベルへの遷移が許容されていない、条項2~4のいずれか一項
に記載の方法。
【0310】
条項6.可能なポリマー単位タイプのセットが、ポリマー単位の既知の配列で常に現れ
るポリマー単位タイプを含み、前記既知の配列に従った遷移が許容されており、前記既知
の配列に反した遷移が許容されていない、条項2~5のいずれか一項に記載の方法。
【0311】
条項7.一連のポリマー単位における同じポリマー単位タイプの連続的インスタンスが
符号化形式で表される、条項2~6のいずれか一項に記載の方法。
【0312】
条項8.ラベルが、各ポリマー単位タイプに関する複数のラベルを含み、各ポリマー単
位タイプに関する複数のラベルが、一連のポリマー単位におけるポリマー単位タイプの連
続的インスタンスを表す、条項7に記載の方法。
【0313】
条項9.ポリマー単位の各タイプのための複数のラベルが、所定の周期的順序を有し、
それにより、ラベル間のいくつかの遷移が、所定の周期的順序によって許容されており、
間の他の遷移が、所定の周期的順序によって許容されておらず、重み分布がそれぞれ、所
定の周期的順序によって許容されている遷移に関する重みを含む、条項8に記載の方法。
【0314】
条項10.各ポリマー単位タイプの複数のラベルが、各ポリマー単位タイプの2つのラ
ベルである、条項8または9に記載の方法。
【0315】
条項11.一連のポリマー単位内の同じポリマー単位タイプの連続するインスタンスが
、ランレングス符号化された形式で表されている、条項7に記載の方法。
【0316】
条項12.ラベルが、各ポリマー単位タイプの異なるランレングスに関する複数のラベ
ルを含む、条項11に記載の方法。
【0317】
条項13.ラベルが、各ポリマー単位タイプに関するラベルを含み、重み分布が、各ポ
リマー単位タイプの同じポリマー単位タイプの連続的インスタンスの可能な長さにわたる
さらなる重みを含む、条項11に記載の方法。
【0318】
条項14.さらなる重みが、各ポリマー単位タイプの同じポリマー単位タイプの連続的
インスタンスの可能な長さのセットにわたる重みのカテゴリカル分布を含む、条項3に記
載の方法。
【0319】
条項15.さらなる重みが、各ポリマー単位タイプの同じポリマー単位タイプの連続的
インスタンスの可能な長さにわたるパラメータ化された分布のパラメータを含む、条項1
3に記載の方法。
【0320】
条項16.可能なポリマー単位タイプが、非修飾形態および修飾形態を有するポリマー
単位タイプを含む、条項2~15のいずれか一項に記載の方法。
【0321】
条項17.ラベルのセットが、非修飾形態および修飾形態を有する前記ポリマー単位タ
イプに関するラベルを含む、条項16に記載の方法。
【0322】
条項18.各重み分布が、非修飾形態および修飾形態を有する各ポリマー単位タイプの
非修飾形態および修飾形態のさらなる重みを含む、条項17に記載の方法。
【0323】
条項19.ラベルのセットが、各ポリマー単位タイプを表す少なくとも1つのラベルを
含む、条項2~18のいずれか一項に記載の方法。
【0324】
条項20.ラベルのセットが、一連のポリマー単位におけるブランクおよび/またはス
テイを表す少なくとも1つのラベルをさらに含む、条項1~19のいずれか一項に記載の
方法。
【0325】
条項21.機械学習技術が、少なくとも1つの再帰層を含むニューラルネットワークで
ある、条項1~20のいずれか一項に記載の方法。
【0326】
条項22.少なくとも1つの再帰層が、双方向再帰層である、条項21に記載の方法。
【0327】
条項23.ニューラルネットワークが、一連の重み分布を介してラベルのすべての経路
にわたって重み分布のグローバル正規化を適用する、条項21または22に記載の方法。
【0328】
条項24.ニューラルネットワークが、少なくとも1つの再帰層の前に配置され、シグ
ナルのウィンドウ化セクションの畳み込みを実行する、少なくとも1つの畳み込み層を含
む、条項21~23のいずれか一項に記載の方法。
【0329】
条項25.重みが事後確率を表す、条項1~24のいずれか一項に記載の方法。
【0330】
条項26.重み分布から一連のポリマー単位の推定値を導出するステップが、コネクシ
ョニスト時間分類を使用して実行される、条項1~25のいずれか一項に記載の方法。
【0331】
条項27.重み分布からポリマー単位の推定値を導出するステップが、それぞれの重み
分布に関するラベルを導出することと、導出されたラベルをランレングス圧縮することと
を含む、条項1~26のいずれか一項に記載の方法。
【0332】
条項28.重み分布から一連のポリマー単位の推定値を導出するステップが、重み分布
を基準にして一連の重み分布を通るラベルの最も可能性の高い経路を推定することと、最
も可能性が高いと推定されたラベルの経路から一連のポリマー単位の推定値を導出するこ
とと、を含む、条項1~27のいずれか一項に記載の方法。
【0333】
条項29.重み分布から一連のポリマー単位の推定値を導出するステップが、各重み分
布に関して最も可能性が高いラベルを推定することと、一連の重み分布を通るラベルのフ
ォワードとバックワードの経路を考慮に入れることと、最も可能性が高いと推定されたラ
ベルから一連のポリマー単位の推定値を導出することと、を含む、条項1~28のいずれ
か一項に記載の方法。
【0334】
条項30.ナノ細孔がタンパク質細孔である、条項1~29のいずれか一項に記載の方
法。
【0335】
条項31.ポリマーがポリヌクレオチドであり、ポリマー単位がヌクレオチドである、
条項1~30のいずれか一項に記載の方法。
【0336】
条項32.シグナルが、イオン電流、インピーダンス、トンネリング特性、電界効果ト
ランジスタ電圧、および光学特性のうちの1つ以上の特性の測定値から導出されている、
条項1~31のいずれか一項に記載の方法。
【0337】
条項33.方法が、コンピュータ装置で実行されている、条項1~32のいずれか一項
に記載の方法。
【0338】
条項34.ナノ細孔に対するポリマーの転位中にポリマーからシグナルを導出すること
をさらに含む、条項1~33のいずれか一項に記載の方法。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
図39
図40
【手続補正書】
【提出日】2023-07-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ポリマーによって生じるシグナルをナノ細孔に対する前記ポリマーの転位中に分析する方法であって、前記ポリマーが、可能なポリマー単位タイプのセットに属する一連のポリマー単位を含み、
前記方法が、
一連の重み分布を出力する機械学習技術を使用して前記シグナルを分析することであって、各重み分布が、前記可能なポリマー単位タイプを表すラベルを含む、ラベルのセットにわたるラベル間の遷移に関する重みを含むことと、
前記重み分布から前記一連のポリマー単位の推定値を導出することと、を含む、方法。