(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-19
(54)【発明の名称】ポリマー単位の標的及び参照配列のアラインメント
(51)【国際特許分類】
G16B 30/00 20190101AFI20240312BHJP
【FI】
G16B30/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023554372
(86)(22)【出願日】2022-03-15
(85)【翻訳文提出日】2023-09-06
(86)【国際出願番号】 GB2022050655
(87)【国際公開番号】W WO2022195268
(87)【国際公開日】2022-09-22
(32)【優先日】2021-03-16
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】511252899
【氏名又は名称】オックスフォード ナノポール テクノロジーズ ピーエルシー
(74)【代理人】
【識別番号】100092783
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100120134
【氏名又は名称】大森 規雄
(74)【代理人】
【識別番号】100196966
【氏名又は名称】植田 渉
(72)【発明者】
【氏名】エヴァンズ,アラン ケネス
(72)【発明者】
【氏名】シュトイバー,マーカス フダク
(72)【発明者】
【氏名】マッシンガム,ティモシー リー
(57)【要約】
アラインメントなどの、標的ポリマー(10)におけるポリマー単位の標的配列と参照ポリマーにおけるポリマー単位(20)の参照配列との間の関係(30)は、標的配列に沿って順序付けられた標的ポリマー(10)の部分から、測定システムによって測定されたシグナルレベルを含む測定された標的シグナル(11)から決定される。測定された標的シグナル(10)はセグメント化され、標的シグナルシンボル(13)の配列が導出され、各々はそれぞれのセグメントのシグナルレベルから導出された量子化されたシグナルレベルを表す。測定システムによって参照ポリマー(20)の参照配列から測定される測定システムモデルによって予測されたモデル化された参照シグナルレベルの配列の量子化されたシグナルレベルを表す参照シグナルシンボル(23)の配列もまた使用される。標的シグナルシンボル(13)の配列は参照シグナルシンボル(23)の配列と整列して、標的配列と参照配列との間の関係(30)が導出される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
標的ポリマー(10)におけるポリマー単位の標的配列とポリマー単位の参照配列との間の関係(30)を決定する方法であって、
前記標的配列に沿って順序付けられた前記標的ポリマー(10)の部分から、測定システムによって測定されたシグナルレベルを含む測定された標的シグナル(11)を受け取ることと、
前記測定された標的シグナル(10)をセグメントにセグメント化し、標的シグナルシンボル(13)の配列を導出することであって、各標的シグナルシンボルは、それぞれのセグメントの前記シグナルレベルから導出された量子化されたシグナルレベルを表す、セグメント化及び導出すること(ステップT1、T2)と、
前記測定システムによって前記ポリマー単位の参照配列から測定される測定システムモデルによって予測されたモデル化された参照シグナルレベルの配列の量子化されたシグナルレベルを表す参照シグナルシンボル(23)の配列を使用し、前記標的シグナルシンボル(13)の配列を前記参照シグナルシンボル(23)の配列と比較して(ステップA1)、前記標的配列と前記参照配列との間の前記関係(30)を決定することと、を含む、方法。
【請求項2】
(ステップT3)前記標的シグナルシンボル(13、14)の配列が、前記標的シグナルシンボル(13)の配列を前記参照シグナルシンボル(23)の配列と比較するステップ(ステップA1)の前に、ランレングス圧縮される、請求項1に記載の方法。
【請求項3】
(ステップR3)前記参照シグナルシンボル(23、24)の配列が、前記標的シグナルシンボル(13)の配列を前記参照シグナルシンボル(23)の配列と比較する前記ステップ(ステップA1)の前に、ランレングス圧縮される、請求項1又は2に記載の方法。
【請求項4】
前記測定された標的シグナルをセグメントにセグメント化するステップ(ステップT1)が、前記測定された標的シグナル(11)の前記シグナルレベルの遷移を検出し、前記測定された標的シグナル(11)を前記遷移の間に規定されたセグメントにセグメント化することを含む、先行請求項のいずれか一項に記載の方法。
【請求項5】
前記測定された標的シグナルをセグメントにセグメント化する前記ステップ(ステップT1)が、前記測定された標的シグナル(11)の前記シグナルレベルの遷移を検出する前に、前記測定された標的シグナル(11)を平滑化することを更に含む、請求項4に記載の方法。
【請求項6】
前記測定された標的シグナル(11)を平滑化するステップが、全変動ノイズ除去によって実行される、請求項5に記載の方法。
【請求項7】
標的シグナルシンボル(13)の配列を導出するステップが、
各セグメントの前記シグナルレベルから平均シグナルレベル(12)を導出すること(ステップT1)、
各セグメントに関する前記平均シグナルレベルを量子化することによって前記標的シグナルシンボルを導出すること(ステップT2)を含む、先行請求項のいずれか一項に記載の方法。
【請求項8】
前記標的シグナルシンボル(13)及び前記参照シグナルシンボル(14)が、各シンボルにおいて等しい集団を提供する量子化で量子化されたシグナルレベルを表す、先行請求項のいずれか一項に記載の方法。
【請求項9】
参照配列(22)から前記参照シグナルシンボル(23)の配列を導出すること(ステップR2)であって、前記参照シグナルシンボル(23)の前記モデル化された参照シグナルレベルは、前記測定システムによって前記参照配列(22)から測定される前記測定システムモデルによって予測される、導出することを更に含む、先行請求項のいずれか一項に記載の方法。
【請求項10】
前記参照配列に沿って順序付けられた参照ポリマー(20)の部分から、測定システムによって測定されたシグナルレベルを含む測定された参照シグナル(21)を受け取ることと、
前記測定システムモデルを使用して前記測定された参照シグナルから前記参照配列を推定すること(ステップR1)であって、前記参照配列から前記参照シグナルシンボル(23)の配列を導出する前記ステップにおいて使用される前記参照配列(22)が、前記推定された参照配列(22)である、推定することと、を更に含む、請求項9に記載の方法。
【請求項11】
前記参照配列が、メモリ中に記憶される、請求項9に記載の方法。
【請求項12】
前記ポリマー単位の参照配列が、参照ポリマーの全体又は領域に対応する、先行請求項のいずれか一項に記載の方法。
【請求項13】
前記ポリマー単位の標的配列が、前記標的ポリマーの全体又は領域に対応する、先行請求項のいずれか一項に記載の方法。
【請求項14】
前記ポリマー単位の参照配列が、前記標的ポリマーと同じポリマーである参照ポリマーの領域に対応する、先行請求項のいずれか一項に記載の方法。
【請求項15】
前記標的シグナルシンボル(13)の配列を前記参照シグナルシンボル(23)の配列と比較するステップ(ステップA1)が、前記標的シグナルシンボル(13)及び前記参照シグナルシンボル(23)によって表される前記量子化されたレベルの間の差異を考慮に入れる重み行列を使用して実行される、先行請求項のいずれか一項に記載の方法。
【請求項16】
前記決定された関係が、前記標的配列と前記参照配列との間のアラインメントを含む、先行請求項のいずれか一項に記載の方法。
【請求項17】
前記標的配列と前記参照配列との間の前記決定された関係(30)から前記参照配列(22)の全部又は一部が前記標的配列において存在するか又は存在しないかを決定すること(ステップA2)を更に含む、先行請求項のいずれか一項に記載の方法。
【請求項18】
前記方法が、複数の参照配列(22)を用いて繰り返される、先行請求項のいずれか一項に記載の方法。
【請求項19】
前記複数の参照配列が、複数の異なる参照ポリマーに、又は同じ参照ポリマーの異なる領域に対応する、請求項18に記載の方法。
【請求項20】
前記標的配列と前記参照配列との間の前記決定された関係から前記参照配列(22)のいずれかの全部又は一部が前記標的配列において存在するか又は存在しないかを決定すること(ステップA2)を更に含む、請求項18又は19に記載の方法。
【請求項21】
前記決定された関係が、前記標的配列と前記参照配列との間の類似性の尺度を含む、先行請求項のいずれか一項に記載の方法。
【請求項22】
前記決定された関係が、別の標的ポリマーの測定を支持する前記標的ポリマーを拒絶するために使用される、請求項21に記載の方法。
【請求項23】
前記ポリマーが、ポリヌクレオチドであり、前記ポリマー単位が、ヌクレオチドである、先行請求項のいずれか一項に記載の方法。
【請求項24】
前記測定システムが、ナノポアを含み、前記測定された標的シグナル(11)が、前記ナノポアに関しての前記ポリマーの転位の間に前記測定システムによって測定されたシグナルレベルを含む、先行請求項のいずれか一項に記載の方法。
【請求項25】
前記ナノポアが、タンパク質ポアである、請求項24に記載の方法。
【請求項26】
前記類似性の尺度に応じて転位の間に前記ナノポアから前記ポリマーを排出するステップを更に含む、請求項24又は25に記載の方法。
【請求項27】
前記シグナルレベルが、イオン電流、インピーダンス、トンネリング特性、電界効果トランジスタ電圧及び光学特性のうちの1つ以上を表す、先行請求項のいずれか一項に記載の方法。
【請求項28】
前記測定システムによって前記シグナルレベルを測定することによって前記測定された標的シグナルを導出すること(ステップTM)を更に含む、先行請求項のいずれか一項に記載の方法。
【請求項29】
コンピュータ装置による実行が可能であり、実行時に、前記コンピュータ装置に、請求項1~27のいずれか一項に記載の方法を実行させるように構成された、コンピュータプログラム。
【請求項30】
請求項29に記載のコンピュータプログラムを記憶する、コンピュータ可読記憶媒体。
【請求項31】
標的ポリマー(10)におけるポリマー単位の標的配列とポリマー単位の参照配列との間の関係を決定するように配置された分析装置であって、前記分析装置は、前記標的配列に沿って順序付けられた前記標的ポリマー(10)の部分から、測定システムによって測定されたシグナルレベルを含む測定された標的シグナル(11)を受け取るように配置されており、前記分析装置は、
前記測定された標的シグナル(10)をセグメントにセグメント化し、標的シグナルシンボル(13)の配列を導出するように配置された標的シグナル処理機能ブロック(ステップT1、T2)であって、各標的シグナルシンボルは、それぞれのセグメントの前記シグナルレベルから導出された量子化されたシグナルレベルを表す、標的シグナル処理機能ブロックと、
前記測定システムによって前記ポリマー単位の参照配列から測定される測定システムモデルによって予測されたモデル化された参照シグナルレベルの配列の量子化されたシグナルレベルを表す参照シグナルシンボル(23)の配列を使用し、前記標的シグナルシンボル(13)の配列を前記参照シグナルシンボル(23)の配列と比較して、前記標的配列と前記参照配列との間の前記関係(30)を決定するように配置された分析機能ブロック(ステップA1)と、を含む、分析装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、標的ポリマーにおけるポリマー単位の標的配列に沿って順序付けられた標的ポリマーの部分から、測定システムによって測定されたシグナルレベルを含む測定された標的シグナルを使用する標的ポリマーの分析に関する。
【背景技術】
【0002】
標的ポリマーを測定するための高感度の測定システムの多くの開発が存在し、例えば、ナノポアを含む測定システムの場合、シグナルレベルは、ナノポアに関してのポリマーの転位の間に測定システムによって測定され得る。ポリマーは、例えば、ポリヌクレオチド又はタンパク質であり得る。測定システムは、例えば、ベースコールされていないシグナルデータの分析をサポートするUS2019/0154655、及び試料がもはや目的のものではないときに拒絶シグナルを実装するUS2017/0233804から知られており、これらの両方は、参照によりそれらの全体が本明細書に組み込まれる。既知の参照と「コールされない」参照とを比較するための技術は知られている、Kovaka et al.,“Targeted nanopore sequencing by real-time mapping of raw electrical signal with UNCALLED”,Nat Biotechnol(2020)。しかしながら、この技術は、シグナルによって表され得るk-merを確率的に考慮し、次いで、Ferragina-Manziniインデックス内に符号化された参照に基づいて候補を取り除く。この技術は、k-merに基づいており、計算が高価であると考えられている。
【0003】
本発明は、ポリマー単位の標的配列と参照配列との間の関係、例えば、標的配列と参照配列との間のアラインメント又は標的配列と参照配列との間の類似性の尺度の決定に関する。そのような関係の決定は、測定システムの結果としての標的の測定されたシグナルの複雑さに起因して些細でないタスクであり、典型的には、複雑なプロセスを実装するためにコンピュータ処理の使用を必要とする。
【0004】
標的配列と参照配列との間のそのような関係をスピーディーに決定することの重要な必要性が存在する。例えば、決定されたアラインメントは、標的シグナルが参照配列のいずれかの部分を表すかどうか、及びそうである場合、どの部分かを決定するために使用され得る。適用の数は莫大である。決して限定的ではないいくつかの例は、生体試料がウイルスを含有するかどうかを決定すること、環境試料が生物を含有するかどうかを決定すること、多重化された試料を異なる「バーコード」に分離すること、測定システムの動作を制御するために現在測定されているポリマーの速い表示を得て、例えば、測定を継続するか、又は別の標的ポリマーの測定を支持する標的ポリマーを拒絶することである。多くのそのような適用では、例えば、コストを低下させる及び/若しくはスループットを増加させるために、又は分析が遠隔位置において実行されることから、コンピュータリソースの使用を最小化することが重要である。
【0005】
標的配列と参照配列との間のアラインメントを決定するいくつかの既知の方法は以下のとおりである。
【0006】
標準的な技術は、測定された標的シグナルから標的ポリマーの標的配列を推定(コール)し、推定された標的配列を参照配列と整列させることである。概念的には、これはストレートである。ポリマー単位の配列のアラインメントを導出するためのプロセスは十分に開発されており、この段階は、数十年にわたるソフトウェアの最適化、及び離散したシンボルスペースにおいて適用され得るアルゴリズムトリックの開発の故に速い。しかしながら、測定された標的シグナルからの標的ポリマーの標的配列の推定(コーリング)の初期段階は、著しい計算リソース及び時間を必要とし、それによって技術のコスト及び利用可能性に影響を与える。それは、例えば、扱いやすいが複雑である機械学習アプローチを使用する、測定システムのモデルを含み得る。
【0007】
例えば、Loose et al:Real-time selective sequencing using nanopore technology,Nature methods13,751(2016)に開示される別の既知の技術は、参照配列における各ポリマー単位についてシグナルレベルを導出するための測定システムのモデルを使用することである。この場合では、測定された標的シグナルは、それをシグナルレベルにセグメント化するイベント検出を使用して分析され得、これにより、イベント検出の有効性に応じてポリマー単位当たりおよそ1つのシグナルレベルがもたらされる。次いで、標的シグナルレベルと参照シグナルレベルとの間のアラインメントが、例えば、動的時間伸縮法などの動的プログラミング方法を使用して導出され得る。
【0008】
これは、シグナルレベルを導出する(ポリマー単位からシグナルレベル)測定システムのモデルが、一般に、標的ポリマーの標的配列を推定する(シグナルレベルからポリマー単位)測定システムのモデルよりも、構築が容易であり、単純であり、適用が速いという点で、上述の標準的な技術を上回る利点を有する。別の利点は、この推定が参照配列に一度適用される必要があるのみであり、全ての測定された標的シグナルについて実行される必要がある標準的な技術におけるモデル化とは対照的に、参照配列が予め知られている場合に事前に行われ得ることである)。
【0009】
しかしながら、第2の既知の技術は、アラインメントの導出が著しくより遅いという重大な欠点を有する。これは、比較的少数の可能な同一性を有するポリマー単位ではなく、連続的な範囲の可能な値を有するシグナルレベルを整列させる必要性のためである。例えば、E coli参照である参照配列に対する数千個のショットガンリードのアラインメントの導出は、典型的には、この方法を用いて数日及び最大1週間かかり得、一方、標準的な技術における同等のアラインメント段階は数分で実行され得る。
【0010】
Joshi et al.,“QAlign:aligning nanopore reads accurately using current-level modelling”,Bioinformatics,11 Dec 2020は、著者らがQAlignと呼ぶ異なる技術を開示する。QAlignは、上記の標準的な技術と同様に、測定された標的シグナルから標的ポリマーの標的配列を推定(コール)する。次いで、QAlignは、推定された標的配列における各ポリマー単位についてシグナルレベルを導出するために、具体的には6merモデルを使用する、測定システムのモデル化を使用し、参照配列における各ポリマー単位についてシグナルレベルを導出するために同じモデルを使用する。標的及び参照シグナルレベルの配列は、各々、等しく投入された分位数に量子化されて、量子化されたシグナルレベルを表す標的及び参照シグナルシンボルの配列が導出される。最後に、標的及び参照シグナルシンボルの配列を、標的配列と参照配列との間のアラインメントを導出するために整列させる。
【0011】
Joshi et al.は、上記の標準的な技術と比較して、QAlignが、測定された標的シグナルからの標的ポリマーの標的配列の推定(コーリング)におけるモデル化エラーに対するロバストネスを提供すると主張する。しかしながら、QAlignは、測定された標的シグナルからの標的ポリマーの標的配列の推定(コーリング)の初期段階が著しい計算リソース及び時間を必要とし、それによって技術のコスト及び利用可能性に影響を与えるという、上述の標準的な技術と同じ問題を被る。
【発明の概要】
【0012】
既知の技術についてのこれらの問題のうちの少なくともいくつかを緩和することが所望される。
【0013】
本発明の第1の態様によれば、標的ポリマーにおけるポリマー単位の標的配列とポリマー単位の参照配列との間の関係を決定する方法であって、標的配列に沿って順序付けられた標的ポリマーの部分から、測定システムによって測定されたシグナルレベルを含む測定された標的シグナルを受け取ることと、測定された標的シグナルをセグメントにセグメント化し、標的シグナルシンボルの配列を導出することであって、各標的シグナルシンボルは、それぞれのセグメントのシグナルレベルから導出された量子化されたシグナルレベルを表す、セグメント化及び導出することと、測定システムによってポリマー単位の参照配列から測定される測定システムモデルによって予測されたモデル化された参照シグナルレベルの配列の量子化されたシグナルレベルを表す参照シグナルシンボルの配列を使用し、標的シグナルシンボルの配列を参照シグナルシンボルの配列と比較して、標的配列と参照配列との間の関係を決定することと、を含む、方法が提供される。
【0014】
この方法は、標的及び参照シグナルシンボルの配列の比較を使用する標的配列と参照配列との間の関係の決定を提供する。比較ステップは、比較が、比較的少数の可能な同一性を有する標的及び参照シグナルシンボルの配列の間であることから、広範囲の可能な値を有するシグナルレベルを整列させる上記の第2の既知の技術よりもずっとより迅速に、著しく少ない計算リソースを用いて実行され得る。例えば、関係がアラインメントである場合では、比較は、「ポリマー単位スペース」(又はポリヌクレオチドの場合では「塩基スペース」)で動作する既知のツールを使用して実行され得る。例として、例えば、数千個のショットガンリードの、E coli参照である参照配列に対するアラインメントの導出にかかるのは、上述されるような、第2の既知の技術についてのような多くの日ではなく、分のオーダーである。
【0015】
更に、これは、推定された標的配列における各ポリマー単位についてシグナルレベルを導出するための測定システムのモデル化を使用する必要性なしに達成される。この利点は、測定された標的シグナルをセグメント化し、標的シグナルシンボルの配列を導出することによって達成され、ここで、各標的シグナルシンボルは、それぞれのセグメントのシグナルレベルから導出された量子化されたシグナルレベルを表す。
【0016】
驚くべきことに、測定されたシグナルのセグメント化及び量子化は、シンボルの数が低下した「測定スペース」において比較が実行されることを可能にし、それによって、シグナルを「ポリマー単位スペース」に変換するために測定システムをモデル化し、次いでシンボルの数が低下した「測定スペース」にシグナルを変換し直すために測定システムを再度モデル化する必要性を回避する。そのような基礎をなす標的及び参照配列が、標的配列の推定を導出することなしにこのように比較され得ることは直感に反するが、この方法は有効に機能することが実証されている。
【0017】
方法は、ポリマー単位の参照配列から測定される測定システムモデルによって予測されたモデル化された参照シグナルレベルの配列の量子化されたシグナルレベルを表す参照シグナルシンボルの配列を使用する。したがって、方法は、シグナルレベルを導出する(ポリマー単位からシグナルレベル)測定システムのモデル化に基づいているが、これは、標的ポリマーの標的配列を推定する(シグナルレベルからポリマー単位)測定システムのモデルよりも、構築が容易であり、単純であり、適用が速い。そのようなモデルは、比較的少量のデータに対して容易に訓練され得、新たな測定システム、例えば、ナノポアを含む測定システムのために好都合である。
【0018】
更に、参照配列に関するこの推定は、特定の測定された標的シグナルへの方法の適用の前に実行され得る。そのような場合では、方法には、参照シグナルシンボルの事前に導出された配列が供給され、推定は、測定された標的シグナルの処理にかかる必要とされる計算リソース又は時間に影響を与えない。
【0019】
これらの利点により、方法は、以下のようないくつかの例における広範囲の適用に好適なものになっている。
【0020】
方法は、例えば、診断のための又は生態系をサンプリングするためのモバイルツールに好適である。なぜなら、参照ポリマーに関する事前のモデル化は、少量の処理のみが現場で必要であることを意味するからである。実用的な観点から、これらの動作は、ベースコーリングに必要なリソースなしにモバイルデバイス上で実行され得る。
【0021】
方法は、ナノポアを通したポリマーの翻訳の間に標的ポリマーと参照ポリマーとの間の類似性を決定し、類似性の尺度に応じて、例えば、測定されるポリマーが目的のものでない場合に、ナノポアからポリマーを排出することに特に好適である。ポリマーは、典型的には、ポリマーが測定の間にナノポアを転位させる速度よりも速い速度でポリマーから排出される。このようにして、測定プロセスは、目的のものではないと決定されたポリマーについての更なる測定なしにナノポアからポリマーを排出し、それによって、後続のポリマーを測定するためにナノポアを解放することによってスピードアップされ得る。そのような方法は、US10689697に記載されており、これは参照によりその全体が本明細書に組み込まれる。同様に、方法は、多重化のためにリアルタイムで適用され得る。
【0022】
ヒトへの適用におけるデータセキュリティ及びプライバシーについての利点もまた存在する。例えば、個体のポリヌクレオチド、例えば、DNAを含む標的ポリマーの標的配列の場合では、その標的配列の推定は導出されないか、又は記憶される必要がない。
【0023】
いくつかの場合では、方法は、参照ポリマーから測定された参照シグナルから導出される参照配列に適用され得る。この参照シグナルは、参照配列に沿って順序付けられた参照ポリマーの部分から、測定システム(これは、標的配列を導出するために使用された測定システムと同じであり得るか又は異なり得る)によって測定されたシグナルレベルを含み得る。参照配列は、参照ポリマー全部又は参照ポリマーの領域から測定され得る。その場合では、方法は、測定システムモデルを使用して、測定された参照シグナルから参照配列を推定することを含み得る。
【0024】
他の場合では、方法は、メモリ中に記憶されている参照配列に適用され得る。この場合では、参照配列は、任意の好適なソース、例えば、ライブラリから得られ得る。そのような記憶された参照配列は、参照ポリマーから測定された参照シグナルから導出されることが知られていてもよい。あるいは、そのような記憶された参照配列は、例えば、多くの以前の実験からのコンセンサスである、未知の導出を有し得るが、それにもかかわらず、既知のタイプの参照ポリマーに対応すると考えられ得る。
【0025】
一般に、ポリマー単位の参照配列は、参照ポリマーの全体又は領域に対応し得る。
【0026】
同様に、標的配列は、標的ポリマーの全体又は領域に対応し得る。
【0027】
いくつかの場合では、ポリマー単位の参照配列は、標的ポリマーと同じポリマーである参照ポリマーの領域に対応し得る。
【0028】
方法は、複数の参照配列を用いて繰り返され得る。この場合では、複数の参照配列は、複数の異なる参照ポリマーに、又は同じ参照ポリマーの異なる領域に対応し得る。
【0029】
決定された関係は、一般に、標的配列と参照配列との間の任意の関係であり得る。
【0030】
適用の1つの重要なクラスでは、決定された関係は、標的配列と参照配列との間のアラインメントである。そのようなアラインメントは、例えば、参照配列の全部又は一部が標的配列において存在するか又は存在しないかを決定するために使用され得る。
【0031】
他の適用では、標的配列と参照配列との間の決定された関係は、標的配列と参照配列との間の類似性の尺度であり得る。
【0032】
本発明の更なる態様によれば、コンピュータ装置に、本発明の第1の態様に対応する方法を実行させるための、コンピュータ装置における実行が可能なコンピュータプログラム、そのようなコンピュータプログラムを記憶するコンピュータ可読記憶媒体、又は本発明の第1の態様と同様の方法を実装するように配置された分析装置が提供され得る。
【図面の簡単な説明】
【0033】
より良い理解を可能にするために、本発明の実施形態をここで添付の図面を参照して非限定的な例として説明する。
【0034】
【
図1】分析単位において実行される、標的配列と参照配列との間の関係を決定する方法のフローチャートである。
【
図2】
図1の方法のセグメント化ステップの例のフローチャートである。
【
図3】セグメント化プロセスの結果を示す、測定された標的シグナルの例のプロットである。
【
図4】各シンボルにおいて等しい集団を提供する、量子化されたシグナルレベルの分位数の導出を示す、測定されたシグナルの例のプロットである。
【
図5】標的の測定されたシグナルを処理するための代替案を示す図のセットである。
【発明を実施するための形態】
【0035】
図1は、標的ポリマー10におけるポリマー単位の標的配列と参照ポリマー20におけるポリマー単位20の参照配列との間の関係30を決定する方法を示す。方法は以下のように実行される。
【0036】
ステップTMにおいて、標的測定システム1は、ポリマー単位の標的配列を有する標的ポリマー10を測定して、測定された標的シグナル11を導出する。標的測定システム2は、標的配列に沿って順序付けられた標的ポリマー10の部分からのシグナルレベルを順次測定するタイプのものであり、測定された標的シグナル11は、標的ポリマー10の連続した部分に対応する一連のシグナルレベルを含む。標的シグナル11及び標的配列は、標的ポリマー10の全体又は領域に対応し得る。
【0037】
標的測定システム1は、任意の好適なタイプのものであり得、いくつかの非限定的な例は以下のとおりである。
【0038】
標的測定システム1は、ナノポアを含み得る。この場合では、測定された標的シグナル11は、ナノポアに関してのポリマーの転位の間に測定されたシグナルレベルを含み得る。これは、典型的には、標的配列に沿って順序付けられた標的ポリマー20の部分からのものであり得る。ナノポアは、タンパク質ポアであり得るか、又は固体ポアであり得る。この場合では、標的測定システム1は、任意のタイプの次世代ナノポアシーケンシング装置であり得、イオン電流、インピーダンス、トンネリング特性、電界効果トランジスタ電圧及び光学特性のいずれか1つ以上を表すシグナルレベルを測定し得る。
【0039】
標的測定システム1は、光学測定を使用するシーケンシングシステムであり得る。そのような測定の例としては、全反射照明蛍光(例えば、Soni et al.,Review of Scientific Instruments81.014301(2010)に開示されるような)及び共焦点顕微鏡(例えば、Fiori et al.,“Optoelectronic control of surface charge and translocation dynamics in solid-state nanopores”,Nature Nanotech8,946-951(2013)に開示されるような)、及びPacific Biosciencesシーケンシングデバイスにおいて使用されるようなゼロモード導波路励起(例えば、Rhoads et al.,“Pacbio sequencing and its applications”Genom.Proteom.Bioinform.2015;13:278-289に開示されるような)が挙げられる。
【0040】
測定システム1は、例えば、US-7,939,259に開示される、例えば、「エキスパンドマー(expandomer)」アプローチにおけるように、ヌクレオチド又は他のポリマー単位が、測定プロセスの精度を改善するように他の単位によって体系的に置換されている標的ポリマーに適用され得る。
【0041】
標的測定システム1は、WO-2020/109773に開示される測定システムのタイプのいずれかであり得る。
【0042】
標的ポリマー及び参照ポリマーは、各々、ポリマー単位の配列を含み、標的測定システム1のタイプにおける測定に好適な任意のタイプのポリマーであり得る。適用の重要なクラスでは、ポリマーは、ポリヌクレオチドであり、ポリマー単位は、ヌクレオチドである。しかしながら、ポリマーは、他のタイプのもの、例えば、タンパク質又は多糖であり得る。ポリマーは、WO-2020/109773に開示されるポリマーのタイプのいずれかであり得る。
【0043】
ナノポアを通したポリマーの転位の速度は、ナノポアを横切る電位差の制御、酵素分子ブレーキ、又はWO2020/016573及びWO2019/006214によって開示されるような方法によるなど、様々な手段によって制御され得る。転位の速度を制御するための方法には、ポリヌクレオチドなどのポリマーについては、WO2014/013260及びWO2015/055981に記載されるような、ヘリカーゼなどのポリヌクレオチド結合タンパク質の使用が含まれる。
【0044】
標的測定システム1による測定された標的シグナル11出力は、分析装置5に供給される。標的測定システム1は、分析装置5と物理的に結合され得るか、又は分析装置5から遠隔に位置し得る。データの供給は、任意の好適なデータ接続を通じて、例えば、ネットワークを通じて生じ得る。
【0045】
同様に、ステップRMにおいて、参照測定システム2は、ポリマー単位の標的配列を有する参照ポリマー10を測定して、測定された参照シグナル21を導出する。参照測定システム2は、参照配列に沿って順序付けられた参照ポリマー20の部分からのシグナルレベルを順次測定するタイプのものであり、測定された参照シグナル21は、参照ポリマー20の連続した部分に対応する一連のシグナルレベルを含む。参照シグナル21及び参照配列は、参照ポリマー20の全体又は領域に対応し得る。
【0046】
いくつかの適用では、参照測定システム2は、標的測定システム1と同じタイプの測定システムであり得るか、又は同じ測定システムでさえあり得る。他の適用では、参照測定システム2は、標的測定システム1とは異なるタイプの測定システムであり得る。標的測定システム1とは異なるタイプのものの場合でさえ、参照測定システム2は、それにもかかわらず、標的測定システム1について上記したタイプのいずれかのものであり得る。
【0047】
参照測定システム2による測定された参照シグナル21出力は、分析装置5に供給される。参照測定システム2は、分析装置5と物理的に結合され得るか、又は分析装置5から遠隔に位置し得る。データの供給は、任意の好適なデータ接続を通じて、例えば、ネットワークを通じて生じ得る。
【0048】
とはいえ、ステップRMは任意選択であり、代替の実装では、分析装置5には、以前に測定されていた、方法の一部としてではない、測定された参照シグナル21が供給される。
【0049】
ステップRMがとにかく実行される場合、典型的には、これは、標的ポリマー10を測定するステップTMの前である。
【0050】
方法の残りのステップは、分析装置5によって受け取られる測定された標的シグナル11及び測定された参照シグナル21を使用して分析装置5において実行される。
図1に示されるように、方法のステップは、接頭辞T(標的(Target)に対する)、A(分析(Analysis)に対する)、又はR(参照(Reference)に対する)での標識を有する分析装置5の機能ブロック(
図1において長方形として示される)において実行される。これもまた
図1に示されるように、機能ブロックは、以下で詳細に説明される様々なシグナル及び情報を表すデータ(
図1において平行四辺形として示される)を処理する。例えば、関係30は、データによって表される。そのようなデータは、分析装置5の記憶デバイス中に記憶され得る。
【0051】
分析装置5は、コンピュータプログラムを実行するコンピュータ装置として実装され得る。この場合では、コンピュータプログラムは、コンピュータ装置による実行が可能であり、実行時に、コンピュータ装置に、機能ブロックのステップを含む方法を実行させるように構成される。そのようなコンピュータ装置は、任意のタイプのコンピュータシステムであり得るが、典型的には、従来の構造のものである。コンピュータプログラムは、任意の好適なプログラミング言語で書かれ得る。
【0052】
コンピュータプログラムは、任意のタイプのもの、例えば、計算システムのドライブ中に挿入可能であり、磁気的、光学的若しくは光磁気的に情報を記憶し得る記録媒体、ハードドライブなどのコンピュータシステムの固定記録媒体、又はコンピュータメモリであり得る、コンピュータ可読記憶媒体上に記憶され得る。いくつかの実施形態では、コンピュータプログラムの一部は、グラフィックス処理ユニット(GPU)などの算出の並列化を受け入れるハードウェアを使用して実装され得る。
【0053】
あるいは、分析装置5は、専用のハードウェアデバイスによって、又はハードウェアとソフトウェアとの組み合わせによって実装され得る。そのような場合では、任意の好適なタイプのハードウェアデバイス、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)が使用され得る。
【0054】
測定された参照シグナル21は、以下のように分析装置5において処理される。
【0055】
ブロックR1~R3は、一緒に参照シグナル処理機能ブロックを形成し、以下のように動作する。
【0056】
ブロックR1において、測定された参照シグナル21は処理されて、この例では参照ポリマー20の参照配列の推定である参照配列22が導出される。このステップは、参照測定システム2の参照測定システムモデルを使用する。モデルは、入力シグナルから配列を推定するように構成される。したがって、モデルは、測定された参照シグナル21から参照配列22を推定(コール)するために使用される。
【0057】
ブロックR1は、典型的には機械学習技術を必要とする、任意の好適な技術、例えば、ニューラルネットワークを実装し得る。非限定的な例として、ブロックR1は、WO2013/041878、WO2018/203084、又はWO2020/109773のいずれかに開示される技術を実装し得る。
【0058】
いくつかの適用では、ポリマー単位の参照配列は、標的ポリマー10と同じポリマーである参照ポリマー20の領域に対応し得る。
【0059】
ブロックR1において実行されるステップは任意選択である。代替案として、分析装置5は、参照シグナル21をまったく使用しなくてもよく、代わりに、メモリ中に記憶されている参照配列22を使用してもよい。この場合では、参照配列22は、以前に分析装置5に供給されていてもよい。この場合では、参照配列22は、参照測定システム2を使用して測定されていてもよいが、その事実は方法において使用されず、参照測定システム2の性質は知られていなくてもよい。この代替案では、参照配列22は、適用に応じて、配列ライブラリなどの任意の好適なソースから取られ得る。特に、参照配列22は、上記の測定システムのタイプなどの、任意の測定システムによって導出される必要はない。
【0060】
多くの適用では、参照配列は、任意の単一の測定システムから直接導出されていなくてもよいが、長年にわたる科学コミュニティにおける累積的研究の結果であってもよく、単一の測定動作から導出されなくてもよい。これは、多くの参照配列に当てはまる。これの良い例は、E.coli.であり、これは、例えば、生体試料におけるE.coli.感染の証拠を探すために、参照配列として使用され得る。典型的なE.coli.参照配列は、数十年にわたる科学コミュニティにおける累積的研究の結果である。それにもかかわらず、この場合では、参照配列は、既知のタイプの参照ポリマー20に対応すると考えられ得る。
【0061】
参照シグナル21が分析装置5によって受け取られ、ブロックR1のステップが実行される場合、このステップは、比較的時間がかかり、下記の測定された標的シグナル11の分析よりも著しく多くの計算リソースを必要とする。なぜなら、同様のシグナルレベルを生成し得る異なるポリマー単位を分解することが必要とされるからである。
【0062】
しかしながら、参照シグナル21は、典型的には、測定された標的シグナル11の分析の前に、分析装置5によって受け取られ、ブロックR1のステップは、同様に、標的シグナル11の繰り返されるインスタンスでの使用のために、1回だけ参照配列22を導出するために事前に実行され得る。したがって、ブロックR1のステップの実行は、測定された標的シグナル11の分析に影響を与えない。
【0063】
ブロックR2において、参照配列22は処理されて、参照シグナルシンボル23の配列が導出される。このステップは、標的測定システム1の標的測定システムモデルを使用する。モデルは、標的測定システム1によって概念的に測定されていた場合、参照配列22から測定される標的測定システムモデルによって予測される量子化されたシグナルレベルを導出するように構成される。
【0064】
特に、もちろん標的測定システム1と参照測定システム2とが同じタイプのものであるという上記で考察した場合を除いて、ブロックR2で使用したモデルは、ブロックR1においてモデル化された参照測定システム2とは異なる標的測定システム1をモデル化することに留意されたい。
【0065】
出力シグナルレベルの量子化は別として、ブロックR2のステップで使用したモデルは、概念的には、ブロックR1のステップにおいて使用されるモデルと同様である。しかしながら、それは、著しく構築が容易で、より単純で、適用がより速い。これは、ポリマー単位の配列からのシグナルレベルのモデル化が、ポリマー単位に対するシグナルレベルのより単純な依存性に起因して本質的により容易であるからである。
【0066】
参照シグナルシンボル23の量子化は、標的シグナル11の分析において使用される量子化と同じであり、以下で更に考察される。
【0067】
ブロックR2において実行されるステップは任意選択である。代替案として、分析装置5は、参照配列22をまったく使用しなくてもよく、代わりに、記憶されているシグナルを参照シンボル23の配列として使用してもよい。この代替案では、参照シンボル23の配列は、他所で導出され、分析装置5に供給されていてもよい。
【0068】
しかしながら、使用されるときに、参照シグナル21又は参照配列22は、典型的には、測定された標的シグナル11の分析の前に、分析装置5によって受け取られ、ブロックR2において実行されるステップは、同様に、標的シグナル11の繰り返されるインスタンスでの使用のために、1回だけ参照配列22を導出するために事前に実行され得る。したがって、ブロックR2のステップの実行は、測定された標的シグナル11の分析に影響を与えない。
【0069】
ブロックR3において、参照シグナルシンボル23の配列は、ランレングス圧縮されて、参照シグナルシンボル24の圧縮された配列が提供される(これは以下で更に考察されるように任意選択であるが)。
【0070】
参照シグナルシンボル23のランレングス圧縮(RLC)は、標的シグナル11の分析において使用されるランレングス圧縮と同じであり、以下で更に考察される。
【0071】
要約すると、したがって、参照シグナルシンボル24の圧縮された配列は、参照ポリマー20の参照配列から標的測定システム1によって測定されるブロックR2において実装された標的測定システムモデルによって予測されたモデル化された参照シグナルレベルの配列の量子化されたシグナルレベルを表す。参照シグナルシンボル24のこの圧縮された配列は、以下で考察されるようにブロックA1における比較プロセスにおいて使用される。
【0072】
この参照と比較される標的ポリマー10の標的配列に関するシグナルを導出するために、測定された標的シグナル11は、ここで説明されるように、分析装置5において処理される。要約すると、標的の測定されたシグナル11は、標的測定システム1のモデルを適用することなしに使用される。これは、標的測定システム1のモデルが、参照シグナルシンボル23を推定するためにブロックR2において実装され得る参照配列の処理とは対照的である。言い換えると、標的ポリマーの配列は明示的には識別されない。既知のアラインメント技術は、アラインメントの前にベースコーリング(すなわち、シグナルからの推定された配列の導出)を含む。これは計算が高価である。なぜなら、それはベースコーリングモデルが確立されることを必要とするからである(例えば、Q-align方法は6merモデルを使用する)。一方で、本明細書で教示される本方法は、推定された配列を参照との比較の前に標的シグナル11から導出せず、それによって計算の複雑さを低下させる。
【0073】
ブロックT1~T3は、一緒に標的シグナル処理機能ブロックを形成し、以下のように動作する。
【0074】
ブロックT1において、測定された標的シグナル11は、一連のセグメントにセグメント化されて、セグメントに関する一連のシグナルレベル12が導出される。
【0075】
図2は、以下のように、シグナルレベルの遷移を識別することにより同様の値のセグメントを検出することによってセグメント化が実行されるブロックT1の例を示す。
【0076】
ブロックT1-1において、測定された標的シグナル11は、平滑化される。目的は、誤って遷移として検出され得るノイズを除去することである。任意の好適な平滑化技術が使用され得る。最も単純な場合では、平滑化は線形フィルタを使用し得る。一例では、平滑化は、全変動ノイズ除去によって実行される。全変動ノイズ除去はよく知られた方法である。全変動ノイズ除去のための好適な高速アルゴリズムは、Condat,“A Direct Algorithm for 1D Total Variation Denoising”,2012,hal-00675043v1に開示されている。他の一般的なアプローチには、中央値フィルタリング及びバイラテラルフィルタリングが含まれる。
【0077】
ブロックT1-2において、平滑化された測定された標的シグナル11は、平滑化された測定された標的シグナル11のシグナルレベルの遷移を検出するために処理され、測定された標的シグナル11は、遷移の間に規定されたセグメントにセグメント化される。これは、シグナル内の離散したレベルを検出することによって行われ得る。最も単純な方法は、ステップのための閾値を新たなレベルに適用する。別のアプローチは、新たなレベルが作成されるべきかどうかを決定するために、t検定のような統計量を適用することである。一般に、それについての多くの変形が知られているナノポアを含む測定システムからの測定されたシグナル内のイベントを検出するために適用されている技術を適用することが可能である。
【0078】
ブロックT1-3において、平均シグナルレベルは、各セグメントのシグナルレベルから導出され、それによって一連のシグナルレベル12が生成される。
【0079】
図3は、
図2のセグメント化プロセスの結果を示す、測定された標的シグナル11の例を示す。
図3において、一連の水平方向の線は、検出されたセグメントの長さ及び平均シグナルレベルを表す。見られ得るように、セグメントは、同様の値を有する測定された標的シグナル11の連続した部分に対応する。
【0080】
ナノポアに関してのポリマーの転位を徐々に動かす(ratchet)ナノポアを含む典型的な測定システムについて、
図2のセグメント化プロセスによって検出されたセグメントは、概念的には、kポリマー単位(k-mer)(ここで、kは複数の整数である)の連続した基に対応すると考えられ得る。この場合では、連続したk-merから生じるシグナルの間で区別する能力次第で、ポリマー単位当たりおよそ1つのセグメントが存在する。しかしながら、これは理解のための有用な概念であるが、それは全ての測定システムの正確な説明ではない場合があり、セグメント化において必要でないか又は使用されない。
【0081】
しかしながら、
図2は単に例であり、ブロックT2のセグメント化ステップは他の方法で実行され得る。単純な代替案では、以下に記載される後続のランレングス圧縮に対する影響を有するであろうが、ブロックT2のセグメント化ステップは、単純に、同一の長さのセグメントへの測定された標的シグナル11のセグメント化を含み得る。
【0082】
ブロックT2において、一連のシグナルレベル12は、量子化されて、標的シグナルシンボル13の配列が導出される。各セグメントに関する平均シグナルレベルが量子化される。その結果、各標的シグナルシンボルは、それぞれのセグメントのシグナルレベルから導出された量子化されたシグナルレベルを表す。
【0083】
ブロックT2及びR2における量子化の性質は、以下のとおりである。
【0084】
典型的には、シンボルの数は、比較的低く、例えば、10以下、好ましくは、6以下である。多くの適用では、ポリマー単位のタイプと同じ数のシンボルが、例えば、ポリマーがヌクレオチドであり、ポリマー単位がヌクレオチド(塩基)C、G、A及びTである場合では、4つのシンボルが存在し得る。しかしながら、これは概念的には有用であるが、シンボルの数とポリマー単位の数との間に何らかの関連が存在することは必要でない。したがって、異なる数が存在し得、方法は、2つほど低い数のシンボルを用いて機能し得る。
【0085】
単純な例では、量子化は、典型的なアナログ-デジタルコンバータ(ADC)の場合のように、等しい幅のビンに対応するシンボルを用いて実行され得る。典型的なADCでは、いかなる任意のシグナル使用をも表すことが所望されることから、多数のシンボル(ビン)が存在する。そのようなアプローチはここで機能するが、シンボルの数はずっとより少ないことから、いくつかのシンボルが他よりも著しく多く使用されるリスクが存在する。したがって、精度は、バンド幅をより効率的に利用することによって改善され得る。したがって、より好ましくは、量子化は、標的の測定されたシグナル11自体又は標的測定システム1からの典型的な測定されたシグナルを考慮して、各シンボルにおいて等しい集団を提供するように選択される等しくない幅の分位数に対応するシンボルを用いて実行され得る。
【0086】
これを達成するために、標的の測定されたシグナル11自体の又は典型的な測定されたシグナルに対するヒストグラムが、等しい集団を有する分位数を選択するために使用され得る。
図4は、分位数の導出を示す、そのような測定されたシグナルの例(中央値ゼロ及び約1の分散を有するようにy軸上で移動させスケール調整した)を示す。
図4において、左側の陰影は、測定されたシグナル全体についてのシグナルレベルのヒストグラムであり、水平方向の黒色の線は、分位数の間の境界であり、陰影を付したブロックは、セグメントのシンボルへの量子化を示す。
図4の例において見られ得るように、分位数が等しい幅のものである場合、ほぼ全てのデータは中央の2つの分位数中にある。
【0087】
ブロックT3において、標的シグナルシンボル13の配列は、ランレングス圧縮されて、標的シグナルシンボル14の圧縮された配列が提供される(これは以下で更に考察されるように任意選択であるが)。
【0088】
ブロックR3及びT3のランレングス圧縮は、以下のように実行され得る。
【0089】
ランレングス圧縮は、繰り返されるシンボルのランのランレングスを低下させる。
【0090】
1つのアプローチでは、繰り返されるシンボルの各ランは、単一のシンボルに圧縮され得る。このアプローチの例として、シンボルACCCCGTTTGの配列は、ACGTGになる。
【0091】
別のアプローチでは、圧縮は、予め決定された長さを超える繰り返されるシンボル、例えば、t個のシンボル(ここで、tは複数の整数であり、例えば、3である)の各ランを切り捨てることによって生じ得る。t=3であるこのアプローチの例として、シンボルAAAAACCGTTTTTTの配列は、AAACCGTTTになる。
【0092】
このステップは、標的シグナルシンボル14及び参照シグナルシンボル24の数を、それぞれ標的配列及び参照配列におけるポリマー単位の数に近づけることによって、後続の比較の精度を増加させる。概念的には、ランレングス圧縮は、正しくない位置で生じるステップT1のセグメント化によって引き起こされる問題を低下させると考えられ得る。これは通常、分位数内で発生する。ランレングス圧縮を適用することによって、この誤セグメント化(mis-segmentation)によって引き起こされる参照との不一致は除去される。
【0093】
ブロックA1及びA2は、分析機能ブロックを形成し、以下のように動作する。
【0094】
ブロックA1において、標的シグナルシンボル14の圧縮された配列は、参照シグナルシンボル24の圧縮された配列と比較されて、標的配列と参照配列との間の関係30が決定される。
【0095】
ブロックA1において決定される関係30は、一般に、標的配列と参照配列との間の任意の関係であり得る。後述されるように、関係30は、例えば、マッチ、差異、類似性の程度、差異の程度、及び関連のレベルのいずれか1つ以上の、標的配列と参照配列との間としての、後続の決定を可能にするものであり得る。関連のレベルの後者の場合は、例えば、閾値レベルを使用するものであり得る。
【0096】
適用の1つの重要なクラスでは、関係30は、標的配列と参照配列との間のアラインメントである。そのようなアラインメントは、標的配列のポリマー単位と参照配列のポリマー単位との間のマッピングを含む。そのようなアラインメントは、マッピングの品質を表すスコアを更に含み得る。そのような品質スコアは、類似性の尺度であり得る。いくつかの場合では、アラインメントは、それぞれの品質スコアを用いた複数の異なるマッピングを含み得る。
【0097】
この場合では、ブロックA1において実行される比較は、「ポリマー単位スペース」(又は、ポリヌクレオチドの場合は「塩基スペース」)において動作する既知のツールを使用するアラインメントプロセスであり得る。アラインメントを実行するための好適なツールの一例は、Li,“Minimap2:pairwise alignment for nucleotide sequences”,Bioinformatics,34(18),15 Sep 2018,3094-3100(2018)に開示されるようなMinimap2である。多くの他の好適なツール、例えば、Kielbasa et al.,“Adaptive seeds tame genomic sequence comparison”,Genome research21(3),487(2011)に開示されるLASTもまた存在する。
【0098】
いくつかの適用では、標的配列と参照配列との間の決定された関係は、標的配列と参照配列との間の類似性の尺度であり得る。そのような類似性の尺度は、標的配列のポリマー単位と参照配列のポリマー単位との間のマッピングを示さないスコアであり得る。この場合では、ブロックA1において実行される比較は、2つの配列の間のアラインメントの提供を試みないが、単に類似性の尺度又はサブ配列類似性を提供するツールを使用して実行され得る。例は、Altschul et al.”Basic local alignment search tool”,Journal of Molecular Biology.215(3),403(1990)に開示されるようなBLASTである。
【0099】
この文脈において、「類似性の尺度」という用語は、類似性の増加とともに増加する尺度、及び標的配列と参照配列との間の差異の増加とともに増加する尺度(これは、差異の尺度とも称され得る)を包含するように使用される。
【0100】
比較が、「シグナルスペース」においてであるが、可能なシンボルの比較的小さなセットを用いて実行されていることから、そのような比較は、基礎をなすシグナル自体の比較を試みることと比較して、高速で、比較的少ない計算リソースを用いて実行され得る。しかしながら、これは、シグナルを「ポリマー単位スペース」に変換するために測定システムをモデル化し、次いでシンボルの数が低下した「測定スペース」にシグナルを変換し直すために測定システムを再度モデル化する必要性なしに達成される。比較が標的配列と参照配列との間の関係の正確な決定を提供することをセグメント化が可能にすることは驚くべきことであるが、結果はこれが可能であることを示す。
【0101】
ブロックA2において、ブロックA1において実行された比較からの関係30出力は、分析されて、標的配列と参照配列との間の関係に関する更なる情報31が導出され得る。非限定的な例として、ブロックA2における分析は、マッチ、差異、類似性の程度、差異の程度、及び関連のレベルのいずれか1つ以上を、標的配列と参照配列との間として、決定し得る。関連のレベルの後者の場合は、例えば、閾値レベルを使用し得る。
【0102】
適用に応じて、決定された関係30は、いくつかの用途を有し得る。
【0103】
決定された関係30が標的配列と参照配列との間のアラインメントである場合に適用可能である、
図1に示される1つのオプションは、決定された関係30からブロックA2において導出された更なる情報31が、参照配列22の全部又は一部が標的配列において存在するか又は存在しないかどうかであることである。
【0104】
いくつかの適用では、
図1に示される方法は、複数の参照配列22を用いて繰り返され得る。複数の参照配列は、例えば、複数の異なる参照ポリマー20に、又は同じ参照ポリマー20の異なる領域に対応し得る。
【0105】
複数の参照配列22の場合では、決定された関係30からブロックA2において導出された更なる情報31は、参照配列22のいずれかの全部又は一部が標的配列において存在するか又は存在しないかどうかであり得る。例として、それぞれ参照シンボル23又はRLC参照シンボル24と比較され得る標的シンボル13又はRLC標的シンボルが識別された後、方法は、分析A2を使用してそれらがマッチするかどうかを決定し得る。それらがマッチしない場合、標的シンボル13、14は、参照シンボル23、24の別のセットと比較され得、プロセスは繰り返される。
【0106】
ブロックA2における分析のレベルは、高次のレベルでなされ得る。例えば、標的ポリマーが肉の試料から得られており、複数の参照ポリマーが異なる動物に由来しており、更なる情報31が、肉が起源とする動物のタイプであり得る場合。
【0107】
中間レベルでの分析は、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)などのウイルスの参照ポリマーから参照シンボルを得ることと、血液試料などの試料から得られた標的シンボル13とのマッチを決定することとを含み得る。
【0108】
ブロックA2における分析は、標的ポリマーから得られた標的シンボル内の特定のコンポーネントの存在の同一性である更なる情報31を提供するために実行され得る。例えば、参照シンボルは、複数の参照ポリマーからのシンボルのサブセットを含み得る。シンボルのサブセットは、例えば、カノニカル及び非カノニカル塩基を含み得る、目的のポリヌクレオチドの配列を含み得る。サブセットは、例えば、の存在を表す参照シンボルを含み得る。
Minimapなどのツールを使用する技術は、分析プロセスをスピードアップさせ得、ここで、参照における全てのk-merにインデックスが付される。
【0109】
適用に応じて、標的ポリマー10の性質、参照ポリマー20の性質及びブロックA2において検出されるマッチは変動し得る。適用並びに結果としての標的ポリマー10の性質、参照ポリマー20の性質及びブロックA2において検出されるマッチのいくつかの非限定的な例を表1に示す。
【表1】
【0110】
図1に示され、上記される方法に対する多数の変形が可能である。可能な変形のいくつかの非限定的な例は、以下のとおりであり、これは、任意の組み合わせで適用され得る。
【0111】
第1の可能な変形は以下のとおりである。ブロックA1によって実行されるステップにおいて、標的シグナルシンボル14の圧縮された配列の、参照シグナルシンボル24の圧縮された配列との比較は、標的シグナルシンボル14及び参照シグナルシンボル24によって表される量子化されたレベルの間の差異を考慮する重み行列を使用して実行される。そのような重み行列の使用は、以下のように精度を増加させ得る。
【0112】
重み行列の使用の非存在下では、標的シグナルシンボル14と参照シグナルシンボル24とが異なる全てのマッピングは、等しく不良であると考えられる。例えば、シンボルA、C、G、Tが順序分位数(例えば、順序シグナルレベル1、2、3、4に対応する)を表すと仮定し、表2は、等しく近いとみなされる2つのマッピングを示す。なぜなら、それらの両方が第2の位置で異なるからである。
【表2】
【0113】
しかしながら、マッピング1は、中央のシンボルの異なるシグナルレベルが隣接する分位数(3、4)中にあるという意味でより近いと考えられるべきであり、一方、マッピング2において、中央のシンボルの異なるシグナルレベルは分位数(3、1)中にあり、2つの離れた分位数である。標的シグナルシンボル14及び参照シグナルシンボル24によって表される量子化されたレベルの間の差異を考慮する重み行列の使用は、マッピング1をマッピング2よりも近いものとして重み付けすることによってこの課題に対処する。そのような重み行列とともに使用され得る様々な高速なシンボルベースのマッピングツール、例えば、LASTツール(http://last.cbrc.jp/、http://last.cbrc.jp/doc/last-matrices.htmlで考察されるような)が存在する。
【0114】
上記で言及するように、ブロックR3及びT3のランレングス圧縮は、比較の前の、標的配列及び/又は参照配列の処理における任意選択である。
【0115】
したがって、第2の可能な変形は、ブロックR3において実行される参照シグナルシンボル23の配列のランレングス圧縮を省略することである。この場合では、ブロックA1によって実行されるステップは、参照シグナルシンボル24の圧縮された配列の代わりに、参照シグナルシンボル23の配列に対して実行される。
【0116】
同様に、第3の可能な変形は、ブロックT3において実行される標的シグナルシンボル13の配列のランレングス圧縮を省略することである。この場合では、ブロックA1によって実行されるステップは、標的シグナルシンボル14の圧縮された配列の代わりに、標的シグナルシンボル13の配列に対して実行される。
【0117】
典型的には、ブロックR3及びT3のランレングス圧縮が両方とも実行されるか、又は両方が省略されるかのいずれかであるが、ブロックR3及びT3のランレングス圧縮のうちの一方が実行され、他方が省略される実施形態が存在し得る。ランレングス圧縮は、ステップT1におけるセグメント化によって生成されたシグナルレベルの数が、参照配列22におけるポリマー単位の数と等しくない場合に、方法をより有効にする。この差は、例えば、セグメント化におけるエラーの結果であり得る。それはまた、ポリマー単位が繰り返されるときにシグナルレベルが変化せず、ポリマー単位が測定デバイスを通過する時間が可変性であることから、生じ得る。この場合では、例えば、いかなるセグメント化アルゴリズムも、2つの同一のポリマー単位のランと3つの同一のポリマー単位のランとを区別することは可能でない場合があり得るからである。ステップT1においてセグメント化によって生成されたシグナルレベルの数が、参照配列におけるポリマー単位の数と等しいことが知られている場合では、ランレングス圧縮は必要ではないが、それは、シンボル配列の長さを低下させ、処理をスピードアップさせるために使用され得る。
【0118】
ブロックT3において実行される標的シグナルシンボル13の配列のランレングス圧縮は、任意選択であり、ブロックA1によって実行される比較は、それなしで実行され得る。しかしながら、標的シグナルシンボル13の配列のランレングス圧縮は、ブロックT1において実行される測定された標的シグナル11のセグメント化に応じて、いくらかの精度の増加を提供し得る。これは、セグメント化とランレングス圧縮が一緒に機能して、出力(すなわち、一連の標的シンボル13)を与え、目的は、その出力の特徴をブロックA1における参照(すなわち、一連の参照シンボル13又は圧縮された一連の参照シンボル14)にマッチさせることであるからである。
【0119】
したがって、ブロックT3におけるランレングス圧縮は、セグメント化プロセスの一部分であると考えられ得る。なぜなら、結果は、いくつかのシグナルレベルを、分位数シンボルになる単一の単位に一緒にグループ化することであるからである。したがって、異なるセグメント化方法の使用は、ランレングス圧縮の必要性を除去し得る。
【0120】
これを示す非限定的な例を
図5に示し、ここで説明する。
【0121】
比較例として、
図5(a)~(d)は、ランレングス圧縮を含む
図1の方法における測定された標的シグナル11の処理を示す。
【0122】
図5(a)は、測定された標的シグナル11の例及びシンボルに対応する2つの分位数の間の境界及び遷移を検出するために使用される遷移レベルεを示す。
【0123】
図5(b)は、ブロックT1におけるセグメント化によって生成され、遷移レベルεよりも大きく異なる測定された標的シグナルレベル11の部分に対応する一連のシグナルレベル12を示す。この例では、遷移レベルεは、測定された標的シグナルを分析して、ポリマー単位の配列を識別するための既知の方法(例えば、ベースコーリング)においてイベント検出のために選択されるものと同等である。
【0124】
図5(c)は、ブロックT2における量子化によって得られた標的シンボル13の配列を示す。
【0125】
図5(d)は、ブロックT3におけるランレングス圧縮によって得られた標的シンボル14の圧縮された配列を示す。
【0126】
図5(e)及び(f)は、ランレングス圧縮なしの代替案における
図5(a)に示される測定された標的シグナル11の処理を示す。
【0127】
この代替案では、増加した遷移レベル2εが使用され、
図5(e)は、ブロックT1におけるセグメント化によって生成され、増加した遷移レベル2εよりも大きく異なる測定された標的シグナルレベル11の部分に対応する一連のシグナルレベル12を示す。この代替案では、遷移レベル2εは、測定された標的シグナルを分析して、ポリマー単位の配列を識別するための既知の方法(例えば、ベースコーリング)においてイベント検出のために選択されるものよりも大きい。
【0128】
セグメント化の変化は、ランレングス圧縮において続いて一緒に圧縮されたセグメントを有効に一緒に連結することをもたらすことが見られ得る。
【0129】
図5(f)は、ブロックT2における量子化によって得られた標的シンボル13の配列を示し、比較例における標的シンボル14の圧縮された配列と同じである。したがって、この代替案では、ブロックT3におけるランレングス圧縮は不要であり、省略される。
【0130】
ブロックT1におけるセグメント化に対する他の変更は、ランレングス圧縮と同様の効果を達成するために実行され得る。1つの可能性は、ブロックT1おけるセグメント化における遷移レベルε自体が変更されず、代わりに、ブロックT2における量子化の前に、その中央値レベルが予め決定された閾値未満である、そのシグナルレベルの範囲が重複する、又はそのシグナルレベルの範囲が予め決定された閾値未満によって分離されるセグメントを連結する、余分のステップを導入することである。これらの可能性は、ブロックT1におけるセグメント化における遷移レベルεの増加に有利であり得る。なぜなら、それは本質的に、セグメント化をシグナルレベルの変動に対してより感受性でなくするからである。
【0131】
ブロックT3におけるランレングス圧縮が不要であり得、省略され得る別の状況は、標的測定システム1の性質が、測定された標的シグナル11が、異なるポリマー単位に対応する測定された標的シグナル11の部分の間の明確な境界を提供し、その結果、ブロックT1におけるセグメント化が、それらの境界を正確に検出し得るというものである。
【0132】
対照的に、ブロックT1のセグメント化ステップが、測定された標的シグナル11の、同一の長さのセグメントへのセグメント化を含むという上述の代替案では、ブロックT3におけるランレングス圧縮の実行は、より重要であり得る。
【0133】
第4の可能な変形は、ブロックT1のセグメント化ステップとT2の量子化ステップとを組み合わせて、それぞれの分位数内のシグナルレベルのグループを検出し(望ましくは、平滑な遷移へのフィルタリングを用いて)、標的シンボル13の配列を直接出力することである。例えば、これは、測定されたシグナルレベルの分位数への割り当て、短いスパイクを除去するためのフィルタリング、任意選択で、3試料より短いランの除去、次いで標的シンボル13を導出するためのランレングス圧縮を含み得る。
【0134】
比較例との比較のために、標的配列と参照配列との間のアラインメントを導出する以下の方法を実行した。これらの方法を、比較のために使用した試験機であった、2.20GHzでランする40-cpu Intel(登録商標)Xeon(登録商標)CPU E5-2630 v4を使用して実行した。
【0135】
試験セットとして、標的シグナル11は、R9.41ポアを使用するONT Minionデバイス上のPCR増幅したSCS110 E coli DNAの試験試料から記録した5000個のリードについての生データであった。リードを、ベースコールし、ベースコールをE coli染色体に対してマッピングし、マッピングされなかったものを除去することによって事前選択した。生データにおいて、各リードは、4kHzでサンプリングされた、現在の値のベクトルを含み、リードにおける現在の試料の総数は、3億5千万であった。
【0136】
SCS110は、DNAが他の株よりも少ない化学修飾を有するE coliのバリアントであり、このことは、それをPCR増幅に特に好適なものにしている。試料は、標準的な参照ヌクレオチド配列とともに、商業的に利用可能である。
【0137】
比較例のために、これらのリードを、ONTのGuppyパッケージを使用してベースコールした。CPUモードで40個のプロセッサコア(10個のコーラー、コーラー当たり4個のスレッド)を使用し、試験機上でこれに3時間18分かかった。これは、GPUを使用すればずっとより速かったであろうが、このエクササイズの目的は、GPUにまだ実装されていない、本明細書に開示される方法と計時を比較することであった。上述のように、リードが参照DNA配列の例を含むかどうかを見ることを試験するための通常の方法は、リードをベースコールし、次いで、参照に対してリード配列のアラインメント又はインデックス検索を実行することである。したがって、3時間より長いこの時間は、そのような方法に必要な時間に下限を提供する。
【0138】
次いで、ベースコールを、minimap2を使用して、SCS110 E coli染色体参照に対してマッピングし、これには分のオーダーがかかった。この方法による染色体上の各リードの推定された開始及び終了位置を記録した。
【0139】
次いで、
図1に示される方法を、同じ標的シグナル11及び参照配列22について試験した(すなわち、ステップRM及びR1は必要ではなく、実行しなかった)。
【0140】
これらの例では、ステップT1及びR2において適用した量子化プロセスは、その入力として、数のベクトルを有し、その出力として、入力と同じ長さを有する文字のリストを有する。量子化手順は、次のステップを有した。
【0141】
1.入力ベクトルのための3つの分位数境界q1、q2、q3を算出する。分位数境界は、データポイントの4分の1がq1未満の値を有し、4分の1がq1<=v<q2となるような値vを有し、4分の1が値q2<=v<q3を有し、4分の1が値v>=q3を有するように規定される。
【0142】
2.入力ベクトルにおける各々の数をその分位数によって置き換える。q1未満の数は1になり、範囲(q1、q2)中の数は2になる、など。
【0143】
3.コード1->A、2->C、3->G、4->Tを使用して、分位数を塩基文字によって置き換える。
【0144】
ステップR2における使用のために、ポアレベルのニューラルネットワークモデルを、PCR DNAデータ上で、SCS110 E coli参照配列に対して訓練した。モデルを、ステップR2において適用し、このモデルの出力は、参照配列における各塩基について1つのレベルで、推定される現在のレベルのベクトルであった。レベルベクトルを、上記で与えられる手順を使用して量子化して、参照シンボル23の配列を提供し、これをステップ23においてランレングス圧縮して、参照シンボルの圧縮された配列24を提供した。
【0145】
試料におけるリードのいくつかは、E coli参照に関して逆相補されると予想されたことから、本発明者らはまた、同じ方法を使用したが、逆相補されたE coli参照を用いて開始して、別々の参照シンボル配列を作成した。
【0146】
E coli参照配列22からの参照シンボル24の圧縮された配列の生成は、試験機上で単一のプロセッサコアを使用して61秒かかった。これの速度を、複数のコアを使用する並列化によって増加させ得る。
【0147】
生の標的シグナル11を処理して、標的シンボル14の圧縮された配列を生成した。
【0148】
図1の方法を、以下のパラメータを使用して、標的シグナル11の各リードに別々に適用した。
【0149】
1.入力試料データを、定数を掛け、次いで定数を差し引くことによって正規化し、それが中央値0及び中央値の絶対偏差1を有するようにした。
【0150】
2.ウィンドウサイズ5の中央値フィルタリングを適用した。
【0151】
3.データを、ステップT1において、一連のシグナルレベル12にセグメント化した。標的シグナル11の(中央値フィルタリングされた)試料のベクトルを通して順次移動して、次の試料値と現在のレベルにおける全ての試料の中央値との間の差が0.2を超えるときはいつも、新たなレベルが開始される。
【0152】
4.各シグナルレベルについての現在の値を、レベルに含まれる全ての試料値の中央値として推定した。
【0153】
5.次いで、レベル値を、参照シンボル23の配列のために使用したのと同じ方法を使用して、ステップT2において量子化した。
【0154】
6.標的シンボル13の配列を、ステップT3においてランレングス圧縮して、標的シンボル14の圧縮された配列を提供した。
【0155】
7.ステップA1において、標的シンボル14の圧縮された配列を、参照シンボル24の圧縮された配列に対してマッピングした。
【0156】
全てのこれらのステップをプログラミング言語pythonで実装し、ステップ7はminimapへのインターフェースを提供するオープンソースpythonライブラリ「mappy」を使用した。ベースコーリングとの直接比較のために、同じ機械上で40個のコアを使用して、全てのリードに対してステップ1~7が実施されるのにかかる時間は58秒であった。
【0157】
したがって、方法の実行のための総時間は数分であり、これは、上記のように、標的シグナル11のベースコーリングに3時間より長くかかる比較方法に対して著しい節約である。
【0158】
ステップA1におけるマッピングから導出される、参照配列22におけるリードの位置を、ベースコールのマッピングから導出された位置と比較した。
図1の方法から導出された位置は、リードの99.7%においてベースコール導出された位置と重複した(5000個のうち4986個)。
【国際調査報告】