(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-03-24
(54)【発明の名称】生物学的配列決定
(51)【国際特許分類】
G16B 30/20 20190101AFI20220316BHJP
【FI】
G16B30/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021545985
(86)(22)【出願日】2020-02-07
(85)【翻訳文提出日】2021-08-04
(86)【国際出願番号】 EP2020053222
(87)【国際公開番号】W WO2020161345
(87)【国際公開日】2020-08-13
(32)【優先日】2019-02-07
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2019-08-08
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】521345936
【氏名又は名称】バイオクルー ビーブイ
(74)【代理人】
【識別番号】100114775
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】ヴァン ハイフテ,ダーク
(72)【発明者】
【氏名】ヴァン ハイフテ,アルノウト
(72)【発明者】
【氏名】ブランズ,イングリッド
(72)【発明者】
【氏名】ヴァン ハイフテ,エバルト
(57)【要約】
第1の態様では、本発明は、フィンガープリントデータストリングのリポジトリに含まれる情報を考慮して、バイオポリマーまたはバイオポリマー断片を配列決定するための方法に関し、この方法は、(a)シーケンサを使用して、当該バイオポリマーまたはバイオポリマー断片の少なくとも1つのリードを得ることと、(b)(b1)フィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの1つ以上の出現についてリードを検索すること、および(b2)各出現について、特徴的な生物学的部分配列に連続する配列ユニットがリポジトリ内の組み合わせデータに適合するか否かを判定することによって、リードを検証するか、または拒否すること、ならびに/または(b1’)フィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの1つの出現についてリードの先頭部および/または尾部を検索すること、および(b2’)リポジトリ内の組み合わせデータからリードに対する1つ以上の連続した配列ユニットを予測すること、のコンピュータ実装ステップによってリードを処理することと、を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
生物学的配列データベースのフィンガープリントデータストリングのリポジトリ(100)に含まれる情報を考慮に入れて、バイオポリマーまたはバイオポリマー断片(500)を配列決定するための方法であって、
各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、前記生物学的配列データベースに、それが利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の前記組み合わせ数は、前記生物学的配列データベース中に前記生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義され、
前記リポジトリは、前記生物学的配列データベース中に対応する前記特徴的な生物学的部分配列の連続した配列単位として現れる前記異なる配列単位を表す組み合わせデータをさらに含み、
前記方法は、
a.シーケンサを使用して前記バイオポリマーまたはバイオポリマー断片の少なくとも1つのリードを得ることと、
b.
b1.前記フィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列のうちの1つ以上の出現について前記リードを検索すること、および
b2.前記特徴的な生物学的部分配列に連続する配列単位が前記リポジトリ内の前記組み合わせデータに適合するか否かを判定することによって、前記リードを検証するか、または拒否すること、ならびに/または
b1’.前記フィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列のうちの1つの出現について、前記リードの先頭部および/または尾部を検索すること、および
b2’.前記リポジトリの前記組み合わせデータからの前記リードに対する1つ以上の連続した配列単位を予測すること、のコンピュータ実装ステップによって前記リードを処理することと、を含む、方法。
【請求項2】
前記リポジトリは、少なくとも
-第1の長さの第1の特徴的な生物学的部分配列を表す第1のフィンガープリントデータストリングと、
-第2の長さの第2の特徴的な生物学的部分配列を表す第2のフィンガープリントデータストリングと、を含み、
前記第1の長さおよび前記第2の長さは、4以上に等しく、前記第1の長さと前記第2の長さとは、互いに異なる、請求項1に記載の方法。
【請求項3】
ステップaは、前記バイオポリマーまたはバイオポリマー断片の複数のリードを得ることを含み、ステップbは、前記バイオポリマーまたはバイオポリマー断片のすべてのリードが得られる前に開始される、請求項1または2に記載の方法。
【請求項4】
ステップb2および/またはb2’は、
-前記特徴的な生物学的部分配列がバイオポリマーに存在する場合、前記特徴的な生物学的部分配列の二次構造、および/もしくは三次構造、および/もしくは四次構造に関連するデータ、ならびに/または
-前記特徴的な生物学的部分配列と1つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータ、ならびに/または
-前記フィンガープリントデータストリングに関する間隔に関連するデータ、ならびに/または
-前記フィンガープリントデータストリングの方向に関連するデータの使用を含む、請求項1~3のいずれかに記載の方法。
【請求項5】
前記フィンガープリントデータストリングは、本質的に方向付けられ、位置情報を含み、前記方法は、ステップb1および/またはb1’で識別された前記特徴的な生物学的部分配列を使用して、前記処理されたリードを有向グラフと整列させるさらなるステップを含む、請求項1~4のいずれかに記載の方法。
【請求項6】
前記整列は、可能な配列のバリエーションを識別することを含む、請求項5に記載の方法。
【請求項7】
前記方法は、前記処理されたリードを、それらをソートすることによって折り畳むことをさらに含む、請求項1~6のいずれかに記載の方法。
【請求項8】
前記方法は、前記得られたデータをサブリードグラフおよび/またはリードグラフに変換することをさらに含む、請求項1~7のいずれかに記載の方法。
【請求項9】
前記方法は、デッドエンドおよび/またはループを除去することのうちのいずれかをさらに含む、請求項1~8のいずれかに記載の方法。
【請求項10】
前記方法は、前記処理および/または整列から得られた情報に基づいて、前記配列決定を動的に適合させることを含む、請求項1~9のいずれかに記載の方法。
【請求項11】
前記動的に適合させることは、前記配列決定システムを使用して得られる必要があるリードの数に関するフィードバックを提供することを含み、および/または前記処理および/または整列から得られた情報に基づいて誤ったリードとして破棄されるリードに関するフィードバックを提供することを含み、および/または前記方法は、リードに向けてまたはリードまでバックトラックすることを含む、請求項10に記載の方法。
【請求項12】
請求項1~11のいずれかに記載の方法のステップaを実行するように適合されたシーケンサ(350)。
【請求項13】
請求項1~11のいずれかに記載の方法を実行するように適合された、請求項12に記載のシーケンサ(350)。
【請求項14】
前記リードをデータ処理システムに送信するように適合された、請求項12に記載のシーケンサ(350)。
【請求項15】
前記データ処理システムからのフィードバックを受信するように適合された、請求項14に記載のシーケンサ(350)。
【請求項16】
システムであって、
i.請求項14または15に記載のシーケンサ(350)と、
ii.データ処理システムであって、
-前記シーケンサ(350)から前記リードを受信し、および
-請求項1~11のいずれかに記載の方法のステップbを実行することによって前記リードを処理するように適合された、データ処理システムと、を含む、システム。
【請求項17】
コンピュータによって実行された場合、前記コンピュータに、請求項1~11のいずれかに記載の方法を実行させる命令を含む、コンピュータプログラムまたはコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生物学的配列情報の取り扱いに関し、より具体的には、当該生物学的配列情報を、例えば、配列決定および/または配列アセンブリによって生成することに関する。配列決定プロセス中に生物学的配列情報を生成するためのシステムおよび方法が提供される。
【背景技術】
【0002】
生物学的配列決定は、過去数十年間に目のくらむような速さで進化しており、これまでにヒトゲノムプロジェクトが可能になり、すでに15年以上も前に、ヒトゲノムの完全な配列決定が達成された。この進化を促進するために、試料調製および配列決定方法の進歩から、データの取得、処理、および分析に至るまで、十分な技術的進歩が必要とされてきた。同時に、ゲノミクス、プロテオミクス、バイオインフォマティクスなどの新しい科学分野が生まれ、発展してきた。
【0003】
ポストゲノム時代にデータの取得が重視されてきたことで、この進化により、膨大な量の配列データの蓄積がもたらされた。しかしながら、この配列を整理し、分析し、解釈して、そこから生物学的に関連する情報を抽出する能力が、遅れをとっている。この問題は、依然として日常的に生成されている新しい配列情報の規模によって、さらに複雑になっている。Muirらは、これがパラダイムシフトを引き起こしていることを観察し、結果として変化する配列決定のためのコスト構造および他の関連するハードルについてコメントしている(MUIR,Paul,et al.The real cost of sequencing:scaling computation to keep pace with data generation.Genome biology,2016,17.1:53.)。
【0004】
現在、最も頻繁に用いられる配列決定方法は、いわゆる「ハイスループット」または「次世代配列決定」(NGS)のものである。第1の世代の配列決定とは対照的に、NGSは、典型的には、高スケーラブルであり、ゲノム全体を一度に配列決定することを可能にすることを特徴とする。典型的には、これは、より大きな配列をより小さな断片に断片化し、断片について無作為にサンプリングし、それを配列決定することによって達成される。異なる断片を配列決定した後、配列アセンブリを使用して元の配列を再構築することができ、配列断片は、それらの重複領域に基づいて整列および融合される。
【0005】
しかしながら、シーケンサは完璧ではなく、特にハイスループットが求められる場合には、配列決定エラー(挿入、置換、および欠失など)が常に発生する可能性がある。構築された配列断片がエラーを含む場合、対応する領域が重複しなくなり得るため、これは、明らかに元の配列の再構築を複雑にする。さらに、エラーは、例えば、誤ったバリアントコーリングの結果として、最終配列に伝播し得る。これらの配列決定エラーに対処するためのいくつかの戦略が開発されており、例えば、Shmiloviciらによって開示されている(SHMILOVICI,Armin;BEN-GAL,Irad.Using a VOM model for reconstructing potential coding regions in EST sequences.Computational Statistics,2007,22.1:49-69.)。しかしながら、(断片)配列が正しいかどうか、またはそれが1つ以上の配列エラーを含むかどうかを直接検証する効率的な方法は現在知られていない。
【0006】
ゲノムグラフは、単一リードからの配列再構築のための参照として使用され、かかる配列は、典型的には、より短いDNAまたはRNAの配列である。それによって、線形参照は、1つの単一ゲノムの表現である。完全に表現するためには、標本が有し得るすべてのバリエーションを見つけるために、複数のゲノムを組み合わせる必要がある。
【0007】
パンゲノムグラフ(pangenome graph)を正確に構築するには、複数の問題が発生する。第一に、最良に構築された参照ゲノムでさえ、ギャップとエラーが含まれる。第二に、グラフマッピングのプロセスが実行される場合、後で生じる問題に対応するために、必要なすべての情報を包含するのに好適なグラフ表現を見つけることができない。ド・ブラウングラフ、有向グラフ、または双向グラフでも、鎖を正確に表すことができない。第三に、現在の技術を使用して参照コホートを作成することが可能であるように思われるが、構造座標が欠如しているため、実践では、構築されたコホートが本質的に使用不可能である。
【0008】
さらに、グラフは、運用サイトの定義を欠いている。対数複雑性のため、繰り返し領域は、既知のk-merベースの技術を使用して表すことがさらに困難である。結論として、最先端技術を使用してすべての必要なデータを保持することが不可能であるために、1つの種についてのグラフ構造におけるバリエーションのコホートを構築することはほぼ不可能であり、ましてや、すべての生物種についてのグラフを構築することは不可能である。
【0009】
構造的バリアントは、癌および他の疾患の発達において重要な役割を果たすが、読み取られたデータからの信頼性の高い同定が欠如しているため、単一ヌクレオチドバリエーションよりも十分に研究されていない。k-merの技術を使用する場合、バリエーションの検出ウィンドウは、定義ごとに、k-merの全長よりも小さくなる。k-merウィンドウの問題を克服するためのアルゴリズムを使用すると、構造的分散を効果的に識別することができない。わずか1つの構造バリエーションの証拠を見つけるにも、高いカバレッジが必要である。したがって、k-merの使用は、ノイズおよび読み取りエラーから実際の変動が効果的に識別され得る前に、大きなプールを必要とする。k-merを整列する動的アルゴリズムが欠如しているため、k-merの多くが困難な計算上の問題につながる。動的プログラミングの使用のために問題が生じ、この動的アプローチの非実現性は、ヒューリスティクスの固有の使用につながる。これは、検索空間を縮小するためのヒューリスティクスまたはパラメータ化の必要性を例示している。それにもかかわらず、後者は必然的なエラーの蓄積をもたらし、これはk-merが統合された空間パターンには効果的でないことを示している。現時点では、これは厳密に一次元である構文的(syntactic)な方法でのみ解決されている。
【0010】
マッピングおよび構築プロセスのNP困難な性質により、貪欲アルゴリズムは、典型的には、これらの問題を解決するために使用され、それによって、拡張マトリックスが特定の入力から適切な結果を計算するために使用される。
【0011】
動的プログラミングが用いられているが、それに伴う問題は、ソースデータ(位置、リードIDなどのパラメータ)が失われ、バックトラッキングが不可能になっていることである。
【0012】
上記の問題はすべて、効率的かつ正確なグラフの折り畳みをほぼ不可能にしている。これによって、使用可能なパンゲノムグラフを構築するために必要な精度または位置データを提供することが不可能になる。さらに、k-merの使用は、遺伝子情報における多次元パラメータを区別するための特異性を欠く。これが、現在のゲノムグラフの非効率的な構築にさらに加わり、構造的分散、バイアスを呼び出すことができないこと、または高度な反復領域を効果的に包含することができないこと、によって示される。
【0013】
したがって、当該技術分野では、配列決定および配列アセンブリのさらなる改善が依然として必要とされている。
【発明の概要】
【0014】
生物学的配列(biological sequence)情報を生成するための優れた方法を提供することが、本発明の目的である。この目的は、本発明による方法、デバイス、およびデータ構造によって達成される。
【0015】
第1の態様では、本発明は、フィンガープリントデータストリングのリポジトリに含まれる情報を考慮して、バイオポリマーまたはバイオポリマー断片を配列決定するための方法に関し、この方法は、(a)シーケンサを使用して、当該バイオポリマーまたはバイオポリマー断片の少なくとも1つのリードを得ることと、(b)(b1)フィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの1つ以上の出現についてリードを検索すること、および(b2)各出現について、特徴的な生物学的部分配列に連続する配列ユニットがリポジトリ内の組み合わせデータに適合するか否かを判定することによって、リードを検証するか、または拒否すること、ならびに/または(b1’)フィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの1つの出現についてリードの先頭部および/または尾部を検索すること、および(b2’)リポジトリ内の組み合わせデータからリードに対する1つ以上の連続した配列ユニットを予測すること、のコンピュータ実装ステップによってリードを処理することと、を含む。本明細書では、フィンガープリントデータストリングのリポジトリは、生物学的配列データベースのためのものであり、各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースに、それが利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベース中に生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義され、リポジトリは、生物学的配列データベース中に対応する特徴的な生物学的部分配列の連続した配列単位として現れる異なる配列単位を表す組み合わせデータをさらに含む。
【0016】
本発明の実施形態の利点は、システムおよび方法が得られ、複雑性の低減が提供される。
【0017】
本発明の実施形態の利点は、決定論的、すなわち、所与の解決策につながるシステムおよび方法が得られることである。
【0018】
本発明の実施形態の利点は、バイオポリマーおよびバイオポリマー断片の配列決定が、フィンガープリントデータストリングのリポジトリに含まれる情報に依拠することによって改善され得る(例えば、エラーの尤度を低減することによって、またはプロセスを高速化することによって)ことである。
【0019】
本発明の実施形態の利点は、暫定的に提案された生物学的配列を検証するか、または拒絶することができることである。本発明の実施形態の利点は、配列決定中に生じるエラーを低減することができることである。
【0020】
本発明の実施形態の利点は、配列中の次の単位を予測することによって、またはそのための選択肢の数を制限することによって、配列決定の速度を改善することができることである。
【0021】
本発明の実施形態の利点は、システムおよび方法が、決定論的文字を有する、すなわち、方法およびシステムが、バイオポリマーまたはバイオポリマー断片の配列の識別/特徴付けのための特定の解決策の決定をもたらすことである。
【0022】
本発明の実施形態の利点は、システムおよび方法が、リードIDの追跡を続けることを可能にすることである。システムおよび方法は、バックトラッキング、例えば、リードに対するエラーまたは不確実性のバックトラッキングを可能にする。
【0023】
本発明の実施形態の利点は、本発明の実施形態において、最先端のシステムの少なくとも大部分とは対照的に、配列決定が依然として実行中であっても、生成された各リードが瞬時に分析され得ることである。このようにして、本発明の少なくとも一部の実施形態によれば、例えばサブグラフの構築などの、データ処理は、配列決定開始中に第1のリードを受信するときに、瞬時に開始することができ、したがって、このデータ処理は、累進プロセスであり得る。それは、リードの収集と並行して実行され得る。本発明の実施形態のさらなる利点は、配列決定されている生物学的配列が、完全な配列決定が完了する前に十分に識別されたと判定されるとき、配列決定を早期に終了することができることである。
【0024】
第2の態様では、本発明は、第1の態様の任意の実施形態による方法のステップaを実行するように適合されたシーケンサに関する。
【0025】
第3の態様では、本発明は、システムであって、(i)第2の態様によるシーケンサと、(ii)シーケンサからリードを受信し、かつ第1の態様の任意の実施形態による方法のステップbを実行することによってリードを処理するように適合されたデータ処理システムと、を含むシステムに関する。
【0026】
本発明の実施形態の利点は、用途に応じて、コンピュータベースのシステムまたはシーケンサなどの様々なシステムおよびデバイスによって本方法のステップが実装され得ることである。本発明の実施形態のさらなる利点は、本方法が、クラウドベースのシステムを含むコンピュータベースのシステムによって実装され得ることである。
【0027】
第4の態様では、本発明は、コンピュータプログラムであって、プログラムがコンピュータによって実行された場合、コンピュータに、第1の態様の任意の実施形態による方法を実行させる命令を含むコンピュータプログラムに関する。
【0028】
第5の態様では、本発明は、コンピュータ可読媒体であって、コンピュータによって実行された場合、コンピュータに、第1の態様の任意の実施形態による方法を実行させる命令を含むコンピュータ可読媒体に関する。
【0029】
本発明の特定の好ましい態様は、添付の独立したおよび従属する特許請求の範囲に記載される。従属する特許請求の範囲からの特徴は、独立した特許請求の範囲の特徴と組み合わされてもよく、他の従属する特許請求の範囲の特徴と組み合わされてもよく、単に特許請求の範囲に明示的に記載されているようなものではない。
【0030】
この分野では、デバイスの改善、変更、および進化が絶えず行われてきたが、本概念は、従来の慣行からの逸脱を含めて、実質的に新しい、新規の改善を表すと考えられ、この性質のより効率的で、安定した、信頼性の高いデバイスの提供をもたらす。
【0031】
本発明の原理を例示する付属の図面と併せて、以下の詳細な説明から、本発明の上記および他の特性、特徴および利点が明らかになるであろう。この説明は、本発明の範囲を限定することなく、例示のためにのみ与えられる。以下に引用される参考図は、添付の図面を参照する。
【図面の簡単な説明】
【0032】
【
図1-2】本発明の実施形態によって可能になる、期待される進歩を示すグラフである。
【
図3-6】本発明の実施形態による、システムを示す図である。
【
図7】本発明のある実施形態による配列決定するための方法において実行され得る処理ステップの概略図を例示している。
【
図8-11】本発明による実施形態で使用され得るいくつかのステップの概略表現である。
【
図12-16】本発明の実施形態による、処理されたタンパク質データバンク(PDB)の分析に関する様々な指標を示すチャートである。
【
図17】2つの異なるマッチング戦略を使用してPDBデータベースで見出されたHYFT(商標)マッチ数を互いに対してプロットするチャートである。
【
図18】一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果の全長を比較するグラフである。
【
図19】一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果のレーベンシュタイン距離を比較するグラフである。
【
図20】一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果の最長の共通サブストリングを比較するグラフである。
【
図21】一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果の全長を比較するグラフである。
【
図22】一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果のレーベンシュタイン距離を比較するグラフである。
【
図23】一方は、先行技術の方法(点線)、および他方は、本発明の例示的な実施形態による方法(実線)を使用して、検索結果の最長の共通サブストリングを比較するグラフである。
【0033】
異なる図では、同じ参照符号は、同じまたは類似の要素を指す。
【発明を実施するための形態】
【0034】
本発明は、特定の実施形態に関して、および特定の図面に関して説明されるが、本発明はそれに限定されず、特許請求の範囲のみによって説明される。記載される図面は、概略のみであり、非限定的である。図面では、要素の一部のサイズは誇張的であり得、例示の目的で、スケール通りに描かれていない。寸法および相対寸法は、本発明の実施に対する実際の縮小に対応していない。
【0035】
さらに、説明および特許請求の範囲における第1、第2、第3などの用語は、類似の要素間を区別するために使用され、時間的、空間的、ランク付け、または任意の他の方法で配列を記述するために必ずしも使用されない。このように使用される用語は、適切な状況下で交換可能であり、本明細書に記載される本発明の実施形態は、本明細書に記載または例示される以外の配列で動作可能であることを理解されたい。
【0036】
さらに、説明および特許請求の範囲における「前」、「後」などの用語は、説明のために使用され、必ずしも相対的な位置を説明するために使用されない。このように使用される用語は、適切な状況下でそれらの対義語と交換可能であり、本明細書に記載される本発明の実施形態は、本明細書に記載または例示される以外の方向で動作可能であることを理解されたい。
【0037】
特許請求の範囲で使用される「含む(comprising)」という用語は、その後に列挙される手段に限定されるものと解釈されるべきではなく、他の要素またはステップを除外しないことに留意されたい。したがって、記載された特徴、整数、ステップまたは構成要素の存在を特定するものと解釈されるべきであるが、1つ以上の他の特徴、整数、ステップまたは構成要素、またはそれらのグループの存在または追加を排除しない。したがって、用語「含む」は、記載された特徴のみが存在する状況と、これらの特徴および1つ以上の他の特徴が存在する状況とを包含する。したがって、「手段AおよびBを含むデバイス」という表現の範囲は、構成要素AおよびBのみからなるデバイスに限定されるものと解釈されるべきではない。これは、本発明に関して、デバイスの関連する構成要素がAおよびBのみであることを意味する。
【0038】
本明細書全体を通して、「一実施形態」または「ある実施形態」への言及は、その実施形態に関連して記載される特定の特徴、構造、または特性が、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体を通した様々な箇所での「一実施形態では」または「ある実施形態では」という語句の出現は、必ずしもすべて同じ実施形態を指しているわけではないが、そのような場合もある。さらに、特定の特徴、構造、または特性は、1つ以上の実施形態では、本開示から当業者には明らかなように、任意の好適な様式で組み合わされてもよい。
【0039】
同様に、本発明の例示的な実施形態の説明では、本発明の様々な特徴が、時には、本開示を合理化し、様々な本発明の態様のうちの1つ以上の理解を助ける目的で、単一の実施形態、図面、またはその説明に一緒にまとめられることがあることを理解されたい。しかしながら、この開示の方法は、特許請求される発明が、各特許請求の範囲で明示的に列挙されたものよりも多くの特徴を必要とするという意図を反映しているものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、前述の単一の開示された実施形態のすべての特徴よりも少ない特徴にある。したがって、詳細な説明に続く特許請求の範囲は、ここに、この詳細な説明に明示的に組み込まれ、各特許請求の範囲は、本発明の別個の実施形態として、それ自体で成り立っている。
【0040】
さらに、本明細書に記載される一部の実施形態は、他の実施形態に含まれるいくつかの(しかし、その他ではない)特徴を含むが、当業者に理解されるように、異なる実施形態の特徴の組み合わせは、本発明の範囲内であり、異なる実施形態を形成することを意味する。例えば、以下の特許請求の範囲では、特許請求される実施形態のいずれかは、任意の組み合わせで使用され得る。
【0041】
さらに、実施形態のいくつかは、方法として、または方法の要素の組み合わせとして、本明細書に記載され、コンピュータシステムのプロセッサによって、またはその機能を実行する他の手段によって、実装され得る。したがって、かかる方法または方法の要素を実行するために必要な命令を有するプロセッサは、方法または方法の要素を実行する手段を形成する。さらに、装置の実施形態の本明細書に記載される要素は、本発明を実施する目的のための要素によって行われる、機能を実行するための手段の一例である。
【0042】
本明細書に提供される説明では、多数の特定の詳細が記載される。しかしながら、本発明の実施形態は、これらの特定の詳細なしに実施され得ることを理解されたい。他の場合、周知の方法、構造、および技術は、この説明の理解を曖昧にしないために詳細に示されていない。
【0043】
以下の用語は、本発明の理解を助けるためにのみ提供される。
【0044】
本明細書で使用される場合、生物学的配列は、少なくともバイオポリマーの一次構造を定義するバイオポリマーの配列である。バイオポリマーは、例えば、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはタンパク質であり得る。バイオポリマーは典型的には、バイオモノマー(例えば、ヌクレオチドまたはアミノ酸)のポリマーであるが、場合によっては、1つ以上の合成モノマーをさらに含み得る。
【0045】
本明細書で使用される場合、生物学的配列における「配列単位」は、生物学的配列がタンパク質に関連する場合はアミノ酸であり、生物学的配列がDNAまたはRNAに関連する場合はコドンである。
【0046】
本明細書で使用される場合、生物学的部分配列(subsequence)は、生物学的配列の一部であり、完全長の生物学的配列よりも小さい。生物学的部分配列は、例えば、100配列単位以下、好ましくは50以下、さらにより好ましくは20以下の全長を有してもよい。
【0047】
本明細書で使用される場合、「特徴的な生物学的部分配列」(または「(HYFT(商標))フィンガープリント」)、「(HYFT(商標))フィンガープリントデータストリング」および「(HYFT(商標))フィンガープリントマーカー」の区別がなされる。1つ目は、特定の特徴を有する部分配列であり、以下でより詳細に説明されている。2つ目は、そのようなHYFT(商標)フィンガープリントのデータ表現であり、任意選択的に、追加のデータ(以下を参照)と組み合わされ、これは、例えば、対応するリポジトリに記憶され得る。一部の実施形態では、1つのHYFT(商標)フィンガープリントデータストリングは、複数の同等のHYFT(商標)フィンガープリントを同時に表すことができる(例えば、同じアミノ酸をコードする複数のコドンの場合など、同じ結果のコード化を通して同等であり得るか、または翻訳を通して同等であり得る、以下を参照)。3つ目は、HYFT(商標)フィンガープリントが配置され得るメモリアドレスなどのHYFT(商標)フィンガープリントへのポインタであり、そこに、HYFT(商標)フィンガープリントが位置され得るか、またはフィンガープリントデータストリングのリポジトリにおいてHYFT(商標)フィンガープリントを見つけることを可能にする参照であり得る。それにもかかわらず、それらの密接な関係を考慮すると(これらの3つの用語間の厳密な区別が引き出される必要がない場合、または文脈上で意味が明確である場合)、これらは、本明細書では単に「HYFT(商標)」と称され得る。
【0048】
本明細書で使用される場合、「生物学的配列」と「処理された生物学的配列」と間の区別が行われる。前者は、当該技術分野で広く知られている生物学的配列であり、一方、後者は、本発明のHYFT(商標)フィンガープリントと関連付けられたフィンガープリントマーカーを含む再構築された/書き換えられた生物学的配列である。
【0049】
HYFT(商標)フィンガープリントデータストリングも、処理された生物学的配列も、これらを記憶するリポジトリも、認知データとみなすことはできず、それらが(ヒト)ユーザーを対象としていないことは明らかであろう。代わりに、それらは、コンピュータ(または、同様の技術システム)によって、様々なコンピュータ実装方法における機能データとして使用されることが意図され、その効果を発揮するように構成される。例えば、リポジトリは、関係データベース(例えば、SQLに基づく)またはNoSQLデータベース(例えば、XMLデータベースなどのドキュメント指向データベース)としての構造であり得る。同様に、HYFT(商標)フィンガープリントデータストリングおよび/または処理された生物学的配列は、かかるデータベースに好適なエントリとして構成され得る。
【0050】
本明細書で使用される場合、一部の概念は、タンパク質に関する実施例で例示され、考えられるモノマー配列単位は、20個の正規(または「標準」)アミノ酸であると仮定される。しかしながら、これは単に例示を簡略化するためのものに過ぎず、同様に、類似の実施形態は、拡張された数のアミノ酸(例えば、非正規アミノ酸、またはさらには合成化合物を付加する)と共に、またはDNAもしくはRNAに関連して定式化することができることは明らかである。DNAまたはRNAの場合、DNAまたはRNAとタンパク質との間の関連は、コドンとアミノ酸との間の対応を通して容易に作成することができる。
【0051】
本明細書で使用される場合、「二次/三次/四次」は、「二次、および/または三次、および/または四次」を指す。
【0052】
以前、生物学的配列の一次構造は、本質的に独立した配列単位の選択からなり、その結果、例えば、m個の可能な配列単位に基づく長さがnの生物学的配列ではmn個(例えば、20個の正規アミノ酸に基づくと、20n個)が、原理的に存在すると想定されていたが、驚くべきことに、本発明の中で、これが事実上観察されないことに気付いた。確かに、特定の長さ以降から、あらゆる理論的な組み合わせが見られるわけではないことが発見された。一例のみを挙げると、タンパク質の部分配列「MCMHNQA」は、公開データベースのいずれのタンパク質にも見られない。これは、データベース内の単なる欠落ではなく、この不在が物理的および/または化学的起源を有することが考えられてきた。理論に拘束されるものではないが、1つの可能な効果を挙げると、隣接アミノ酸(例えば、上記の例における「MCMHNQ」)の立体障害は、1つ以上の他のアミノ酸(例えば、上記の例における「A」)との結合を禁止し得る。したがって、不在の部分配列が特定されると、計算研究を使用して、この部分配列が潜在的に出現し得るかどうか、またはその存在が物理的にありえないのかどうか(もしくは、ありそうにないのかどうか、例えば、化学的に不安定であるため)を検証することができる。上で言及された「特定の長さ」は、検討されているデータセットに依存するが、例えば、公的に利用可能なタンパク質配列データベースの場合、約5個または6個のアミノ酸に対応する(これは、自然界で見られる全多様性を実質的に反映する)。より限定されたセット(例えば、特定の基準に基づいてフィルタリングされたセット、または特定の生物学的配列データベース、例えば、特定のドメインのために定式化されたセット)の場合、mn組み合わせの理論上の最大値未満が、約4または5の長さについて既に見出されている。
【0053】
同時に、部分配列「MCMHNQA」は存在しないため、部分配列「MCMHNQ」は単に5個のアミノ酸の無造作な組み合わせではなく、追加の重要性を獲得し、かかる部分配列は、「特徴的な生物学的部分配列」または「(HYFT(商標))フィンガープリント」とさらに称されることになる。これらのHYFT(商標)フィンガープリントの追加の意義または意味のため、本発明は、より意味的な様式で生物学的配列情報を取り扱うことが考慮され得る。一般に、特徴的な部分配列は、その連続した配列単位(すなわち、それに直接続くか、または先行する配列単位)に対して、配列単位の最大数(すなわち、それのために利用可能な異なる配列単位の総数、例えば、20個未満の正規アミノ酸)よりも可能性が小さい選択肢(すなわち、より少ない組み合わせ数)を有することを特徴とし、言い換えれば、配列単位のうちの少なくとも1つは、それに続く(または先行する)ことができない。しかしながら、より厳密な定義を選択することが可能である(例えば、おそらくそれに続き得る15以下の配列単位、または10以下、5以下、3、2、さらには1配列単位を有する部分配列のみ)。さらに、HYFT(商標)フィンガープリントとして、かかる各部分配列を考慮するように選択され得るか、または(すなわち、非冗長である)別のHYFT(商標)フィンガープリントをまだ含んでいないHYFT(商標)フィンガープリントとして、それらの部分配列のみを考慮するように選択され得る。例えば、「MCMHNQ」をHYFT(商標)フィンガープリントとすると、「MCMHNQ」を含む部分配列が長くなり、それに続く(または先行する)ことができる理論的な配列単位の数よりも少なくなる。その場合、長い配列と「MCMHNQ」の両方をHYFT(商標)フィンガープリントと見なすか、「MCMHNQ」のみをHYFT(商標)フィンガープリントと見なすかの選択肢がある。後者のアプローチは、典型的には、HYFT(商標)データストリングのリポジトリのサイズを保ちながら、それに関連する方法を高速化するのに好ましい場合がある。実際、ストリングと一致する生物学的配列を検索することは、典型的には、ストリングの長さが増すにつれて、よりリソースが集中し、より遅くなる。さらに、HYFT(商標)データストリングのリポジトリのサイズが増加するにつれて、特定のHYFT(商標)データストリングの検索および取得は、通常、より長い時間がかかる。この非冗長アプローチでは、組み合わせの可能性が限定されたより長い部分配列は、依然として識別され得るが、次いでHYFT(商標)のパターンとして(間隔の有無にかかわらず)識別することができる。そのため、このアプローチによって提供される利点は、必ずしも対応する情報の損失を伴わない。上記にもかかわらず、前者のアプローチはなおも可能であり、そうすれば、従来技術よりも有利であり続けることに留意されたい。
【0054】
次いで、驚くべきことに、限られたセットの特徴的な生物学的部分配列が同定され得ることを見出した。さらに、これらの特徴的な生物学的部分配列は、一方では、十分に特異的であるため、あらゆる特徴的な生物学的部分配列が、あらゆる生物学的配列に見出されることはなく、他方では、十分に共通しているため、既知の生物学的配列が、典型的には、これらのHYFT(商標)フィンガープリントのうちの少なくとも1つを含むという、これらの間のバランスをとることが観察された。
【0055】
上記のアカウントのうち、HYFT(商標)フィンガープリントを識別し、対応するHYFT(商標)データストリングのリポジトリ(または「HYFT(商標)リポジトリ」)を構築するためのプロトコルを定式化することができる。実際、目的は、生物学的配列データベース内の組み合わせの可能性が限定されているそれらの部分配列を識別することであるため、その中に現れない部分配列について、当該生物学的配列データベースを発掘することで十分である。かかる非発生部分配列(例えば、「MCMHNQA」)が識別されると、1つの配列単位だけ短い部分配列(例えば、「MCMHNQ」)は、HYFT(商標)フィンガープリントに対応する(ただし、より短い部分配列が現れるものとする)。識別されると、HYFT(商標)フィンガープリント上の追加データを得ることができる。例えば、組み合わせ数は、識別されたHYFT(商標)フィンガープリントと他の配列単位との組み合わせ(例えば、「MCMHNQA」の「A」を毎回他の可能なアミノ酸のうちの1つと置き換える)について、生物学的配列データベースを検索し、出現することが見出される組み合わせの数をカウントすることによって得ることができる。任意選択的に、見つからない組み合わせも、別個に記憶してもよく、これらを、例えば、エラー検出用に使用してもよい。さらに、DNA、RNA、およびタンパク質間の対応は、典型的には、適用可能なコドン表を通して知られているので、特定のタイプのHYFT(商標)フィンガープリントが識別されると(例えば、タンパク質HYFT(商標))、それは、異なるタイプの対応するHYFT(商標)フィンガープリント(例えば、DNAおよび/またはRNA HYFT(商標))に翻訳され得る。上記のプロセスを繰り返し、少なくとも識別されたHYFT(商標)を好適なフォーマットで記憶することによって、任意選択的に追加データおよび翻訳されたHYFT(商標)-HYFT(商標)フィンガープリントデータストリングのリポジトリと共に、最適に構築することができる。あるいは、またはそれと相補的に、少なくともいくつかのHYFT(商標)フィンガープリントは、例えば、様々な部分配列を合成もしくはモデリングした後、検討中の生物学的配列データベースの文脈に出現し得ないか、または出現する可能性が非常に低い部分配列を識別することを通して、実験的もしくは計算的な方法によって見出され得る。
【0056】
上記において、生物学的配列データベースは、タンパク質データバンク(PDB)などの公的に利用可能なデータベース、または独自のデータベースであってもよい。実施形態では、生物学的配列データベースは、複数の個々のデータベースの組み合わせであってもよい。例えば、HYFT(商標)フィンガープリントデータストリングのリポジトリは、アクセスできる限り多くの(信頼できる)生物学的配列データベースを組み合わせた生物学的配列データベースから定式化することができ、それによって、自然界で見出されるすべての生物学的配列を実質的に表すHYFT(商標)フィンガープリントデータストリングの一般的なリポジトリになることが求められる。逆に、特定のドメインでは、その特定のドメインを表す生物学的配列データベースに基づいて、HYFT(商標)フィンガープリントデータストリングの特定のリポジトリを構築することが実りあるものとわかる。かかる特定のリポジトリは、実施形態では、HYFT(商標)を含んでもよく、それらが自然界に現れるものの、この特定のドメインには現れないため、一般的なリポジトリには存在しない。同様に、HYFT(商標)フィンガープリントデータストリングのリポジトリは、合成配列について構築され得、それ自体の特定の内容を有する。
【0057】
上記の発見に基づいて、異なるが相互に関連するそのすべての段階において、生物学的配列情報を取り扱うための新しいアプローチが、定式化され得る。これらのアプローチは、配列のより語彙的な分析に類似していると見なすことができる。
図1に、結果が概略的に示され、配列単位数(n)の増加に伴う、生物学的配列情報の複雑性のスケーリングを示す。この複雑さは、配列単位の可能な組み合わせの総数であり得るが、それは、次いで、それを取り扱うために(例えば、類似性検索を実行するために)必要な計算量(例えば、時間およびメモリ)にも関連する。実線の曲線は、すべての配列単位が独立して選択されると仮定した、理論的な組み合わせの数、m
nとしてのスケーリングを示し、現在知られているアルゴリズムのスケーリングにも対応する。破線の曲線は、自然界で見出される(本発明内で観察される)実際の組み合わせの数を示し、曲線は、約5または6配列単位でm
nから出発し、大きなnに対して漸近的に平坦になる。点線は、それに続き得る配列単位の数が1に等しい特徴的な配列に初めて対応する配列の数を示し、ここで、「初めて」とは、より長い配列が、すでにカウントされたHYFT(商標)フィンガープリントを含む場合に、カウントされないことを意味する。したがって、後者は、(本発明において観察されるような)長さnのHYFT(商標)フィンガープリントの数に対応し、このとき、その定義は、それに潜在的に続き得る、かつ別の(より短い)HYFT(商標)フィンガープリントを既に含まない(上記を参照)1つの配列単位のみを有する部分配列として選択される。
【0058】
図2は、本発明の予測される利点を時間で示し、横軸上のマークは、現在を示す。曲線1は、ムーアの法則を参照する。曲線2は、取得した配列決定データの総量を示す。曲線3は、当該配列決定データの処理および維持の総コストを示す。本発明において提案される生物学的配列情報の取り扱いによって、データを配列決定するために必要な総記憶容量およびデータ処理および維持の総コストは、それぞれ曲線4および曲線5で示されるように低下することが予想される。
【0059】
HYFT(商標)フィンガープリントデータストリングのリポジトリは、典型的には、特定の生物学的配列データベース(または、それらの組み合わせ)に関して構築されるが、これは、HYFT(商標)フィンガープリントデータストリングが、その特定の生物学的配列データベースにおける生物学的配列の取り扱いにのみ好適であることを意味しないことに留意されたい。実際、HYFT(商標)フィンガープリントデータストリングの一般的なリポジトリは、例えば、より特異的な生物学的配列の処理に使用され得る。他の場合、HYFT(商標)フィンガープリントデータストリングの特定のリポジトリは、リポジトリを定式化するために使用されるデータベースの範囲外にある生物学的配列の文脈で使用され得る。どちらの場合も、依然として有利な結果を得ることができる。いずれの場合も、HYFT(商標)フィンガープリントデータストリングの既存のリポジトリを特定の用途に使用することができるかどうか、または、それに専用のHYFT(商標)フィンガープリントデータストリングのリポジトリを用いて、より良い結果が得られるかどうかを、試行錯誤によって常に判断することができる。同様に、HYFT(商標)フィンガープリントデータストリングのリポジトリは、生物学的配列データベースにおいて発見され得るすべてのHYFT(商標)フィンガープリントを厳密に包含する必要はない。実際、部分リポジトリは、既に有益な結果を生み出している。かかる部分リポジトリは、例えば、選択された長さのHYFT(商標)フィンガープリントに関連するものであり得る(すなわち、任意の長さのHYFT(商標)フィンガープリントとは対照的である)。
【0060】
本発明は、フィンガープリントデータストリングのリポジトリを利用する。したがって、生物学的配列データベースのためのフィンガープリントデータストリングのリポジトリが記載され、各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースに、それが利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベース中に生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義される。
図4に、フィンガープリントデータストリング100のリポジトリ(例えば、データベース)が概略的に示されており、以下により詳細に説明される。
【0061】
本発明の実施形態の利点は、特徴的な生物学的部分配列に対応するフィンガープリントデータストリングのリポジトリを提供することができることである。本発明の実施形態のさらなる利点は、生物学的部分配列が単一の長さ(例えば、k-merのような場合)である必要がないことである。
【0062】
本発明の実施形態の利点は、さらなるデータ(例えば、メタデータ)、例えば、特徴的な生物学的部分配列に連続し得る(すなわち、直後または直前に続く)配列単位に関するデータ、特徴的な生物学的部分配列の二次/三次/四次構造に関するデータ(例えば、当該特徴的な生物学的部分配列がバイオポリマー内に存在する場合)、フィンガープリント間の関係に関するデータ(例えば、特徴的な生物学的部分配列と1つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータ)などをリポジトリに含めることができることである。
【0063】
実施形態では、リポジトリは、第1の長さの第1の特徴的な生物学的部分配列を表す第1のフィンガープリントデータストリングと、第2の長さの第2の特徴的な生物学的部分配列を表す第2のフィンガープリントデータストリングとを、少なくとも含み得、第1の長さおよび第2の長さは4以上に等しく、第1の長さと第2の長さとは、互いに異なる。
【0064】
実施形態では、長さは、配列単位の数に対応し得る。実施形態では、長さは、最大500以下、例えば、最大100以下、好ましくは50以下、さらにより好ましくは20以下であり得る。実施形態では、第1および第2の長さは、5以上、好ましくは6以上であり得る。実施形態では、特徴的な生物学的部分配列は、4~20、好ましくは5~15、さらにより好ましくは6~12の長さを有し得る。
【0065】
実施形態では、フィンガープリントデータストリングのリポジトリは、互いに長さが異なる少なくとも3つのフィンガープリントデータストリング、好ましくは少なくとも4つ、さらにより好ましくは少なくとも5つ、最も好ましくは少なくとも6つのフィンガープリントデータストリングを含み得る。特徴的な生物学的部分配列は、それらの長さによって定義されるのではなく、それに続く(または先行する)可能な配列単位の数によって定義されるため、特徴的な生物学的部分配列のセットは、典型的には、様々な長さの部分配列を有利に含む。本発明におけるフィンガープリントデータストリングのリポジトリは、それが(当該技術分野で知られているように)様々な長さの生物学的部分配列を含む点で、例えば、k-merの集合とは異なる。さらに、k-merの集合は、典型的には、固定長がkのあらゆる置換(すなわち、配列単位のすべての可能な組み合わせ)を含み、これは、フィンガープリントデータストリングの本リポジトリには当てはまらない。
【0066】
実施形態では、フィンガープリントデータストリングは、タンパク質フィンガープリントデータストリング、DNAフィンガープリントデータストリング、またはRNAフィンガープリントデータストリング、またはそれらの組み合わせであり得る。複数の実施形態では、特徴的な生物学的部分配列は、特徴的なタンパク質部分配列、特徴的なDNA部分配列、または特徴的なRNA部分配列であり得る。実施形態では、フィンガープリントデータストリングのリポジトリは、タンパク質フィンガープリントデータストリング、DNAフィンガープリントデータストリング、RNAフィンガープリントデータストリング、またはこれらのうちの1つ以上の組み合わせを含み得る(例えば、それらからなる)。特徴的なタンパク質部分配列は、複数の実施形態では、特徴的なDNAもしくはRNAの部分配列に翻訳され得るか、またはその逆であり得る。この翻訳は、周知のDNAおよびRNAのコドン表に基づいてもよい。同様に、タンパク質フィンガープリントデータストリングは、DNAまたはRNAのフィンガープリントデータストリングに翻訳され得る。実施形態では、DNAまたはRNAフィンガープリントデータストリングのリポジトリは、等価なコドン(すなわち、同じアミノ酸をコードするコドン)に関する情報を含み得る。等価なコドンに関するこの情報は、そのようにフィンガープリントデータストリングに含まれ得るか、または、それとは別個にリポジトリに記憶され得る。特定の実施形態では、フィンガープリントデータストリングは、配列非依存的である形式であってもよく、フィンガープリントデータストリングならびに周囲のシステムおよびプロセスが、それらがDNA、RNA、およびタンパク質配列と迅速に比較され得るような形式であることを意味する。これは、例えば、フィンガープリントデータストリングを使用する方法に、実行中に、必要な翻訳を行わせることによって達成され得る。かかるフィンガープリントデータストリングは、有利には、配列型にわたって普遍的に適用可能であるデータストリングの単一のリポジトリを定式化することを可能にする。
【0067】
実施形態では、フィンガープリントデータストリングのリポジトリは、フィンガープリントデータストリングのうちの少なくとも1つについての追加データをさらに含み得る。好ましい実施形態では、当該データは、フィンガープリントデータストリングに含まれ得る。代替的な実施形態では、当該データは、フィンガープリントデータストリングとは別個に記憶され得る。実施形態では、追加データは、組み合わせデータ、構造データ、関係データ、位置データ、および方向データのうちの1つ以上を含み得る。
【0068】
実施形態では、組み合わせデータは、特徴的な生物学的部分配列が生物学的配列に存在する場合、当該特徴的な生物学的部分配列に連続的であり得る(例えば、それらの組み合わせが安定であるように、それが直前または直後に現実的に現れ得る)1つ以上の配列単位に関連するデータであってもよい。実施形態では、組み合わせデータは、可能な配列単位の数、そのような可能な配列単位、各配列単位の尤度(例えば、確率)などを含み得る。
【0069】
実施形態では、構造データは、フィンガープリントデータストリングに埋め込まれた構造情報および/または空間形状情報(例えば、特徴的な生物学的部分配列がバイオポリマーに存在する場合、特徴的な生物学的部分配列の二次/三次/四次構造に関連するデータ)であってもよい。複数の施形態では、構造データは、可能な構造の数、そのような可能な構造、各構造の尤度(例えば、確率)などを含み得る。所与の特徴的な生物学的部分配列に対する複数の可能な二次/三次/四次構造の場合、リポジトリは、実施形態では、特徴的な生物学的部分配列および関連する二次/三次/三次構造の各組み合わせに対する別個のエントリを含んでもよい。代替的な実施形態では、リポジトリは、特徴的な生物学的部分配列と、その関連する複数の二次/三次/四次構造とを含む、1つのエントリを含んでもよい。実施形態では、二次/三次/四次構造(特に、四次構造)は、DNAおよびRNAよりもタンパク質に関連してもよい。
【0070】
実施形態では、関係データは、特徴的な生物学的部分配列と1つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータであり得る。実施形態では、関係データは、その近傍に通常現れるさらなる特徴的な生物学的部分配列、その近傍に現れるさらなる特徴的な生物学的部分配列の尤度、互いに近接して現れるこれらの特徴的な生物学的部分配列の特定の有意性(例えば、形質または二次/三次/四次構造などの生物学的に関連する意味)などを含んでもよい。実施形態では、関係は、2つ以上の特徴的な生物学的部分配列間の経路の形態で表現されてもよい。実施形態では、関係は、特徴的な生物学的部分配列の順序および/またはそれらの間隔(interdistance)を含んでもよい。実施形態では、追加のデータはまた、当該経路を構築するのに有用なメタデータを含み得る。
【0071】
実施形態では、位置データは、フィンガープリントデータストリングに関して(例えば、それらが表す特徴的な生物学的配列間の)間隔に関連するデータであってもよい。
【0072】
実施形態では、方向データは、フィンガープリントデータストリング(例えば、それらが表す特徴的な生物学的配列)の方向(例えば、固有の方向)に関連するデータであってもよい。
【0073】
一部の実施形態では、追加のデータは、既知のデータセットから取得されている場合があり、例えば、いくつかの生物学的配列の二次/三次/四次構造は、当該技術分野で利用可能である。他の実施形態では、追加のデータは、以下に記載されるように、処理された生物学的配列から抽出され得るか、または以下に記載されるように、処理された生物学的配列のリポジトリから抽出され得る。例えば、以下に記載されるように生物学的配列を処理した(または以下に記載されるように、処理された生物学的配列のリポジトリを構築した)後、特徴的な生物学的部分配列間の関係(例えば、経路)を抽出し、フィンガープリントデータストリングのリポジトリに追加してもよく、これは、
図4に、処理された生物学的配列210および処理された生物学的配列のリポジトリ220からフィンガープリントデータストリングのリポジトリ100までを指す破線の矢印によって概略的に示されている。
【0074】
実施形態では、フィンガープリントデータストリングは、本質的に方向付けされてもよい。実施形態では、フィンガープリントデータストリングは、方向を含み得る(すなわち、明示的に方向を含み得る)。HYFT(商標)フィンガープリントは、バイオポリマーまたはバイオポリマー断片で生じる実際の断片に基づいて定義されるため、バイオポリマーに生じる組み合わせの可能性についての自然界で生じる固有の物理的、化学的、および構造的な制限は、HYFT(商標)に本質的に存在する。ここで、「本質的に存在する」の下では、かかる情報が、追加のデータとしてリポジトリに明示的に含まれていなくても、HYFT(商標)に暗黙的に関連付けられている(または、少なくとも可能である)ことが理解される。したがって、そのような生物学的配列は、通常、固有の方向性を有する(すなわち、DNA/RNAにおける5’から3’への方向、およびタンパク質におけるN末端からC末端への方向に従う)ため、この同じ方向性が、HYFT(商標)に本質的に存在する。実際の断片とのこの関連は、HYFT(商標)の最後の文字の後、または最初の文字の前に続き得るバイオポリマー断片の最大量における制限をさらに定義する。後者はまた、次のまたは前の可能な組み合わせの総量を表すパラメータ(すなわち、組み合わせ数)によって明示的に表現され得る。これにより、HYFT(商標)は、固有の(厳密な)方向を持つことになる。
【0075】
実施形態では、フィンガープリントデータストリングは、位置情報を含んでもよい。HYFT(商標)ならびにHYFT(商標)間の文字は、構文レベルで相互に関連しているため、それら間または異なるHYFT(商標)間の間隔を定義することができる。そのような位置または間隔は、HYFT(商標)に本質的に存在し得る位置情報に属する。
【0076】
実施形態では、フィンガープリントデータストリングはまた、構造的および/または空間形状情報を含んでもよい。また、特定のHYFT(商標)またはHYFT(商標)の組み合わせの可能な構造および/または空間形状は、固有の物理的、化学的、および構造的制限のために制限されている。かかる情報は、HYFT(商標)または相互に関連するHYFT(商標)のセットにも本質的に存在する。
【0077】
第1の態様では、本発明は、フィンガープリントデータストリングのリポジトリに含まれる情報を考慮して、バイオポリマーまたはバイオポリマー断片を配列決定するための方法に関し、この方法は、(a)シーケンサを使用して、当該バイオポリマーまたはバイオポリマー断片の少なくとも1つのリードを得ることと、(b)(b1)フィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの1つ以上の出現についてリードを検索すること、および(b2)各出現について、特徴的な生物学的部分配列に連続する配列ユニットがリポジトリ内の組み合わせデータに適合するか否かを判定することによって、リードを検証するか、または拒否すること、ならびに/または(b1’)フィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの1つの出現についてリードの先頭部および/または尾部を検索すること、および(b2’)リポジトリ内の組み合わせデータからリードに対する1つ以上の連続した配列ユニットを予測すること、のコンピュータ実装ステップによってリードを処理することと、を含む。本明細書では、フィンガープリントデータストリングのリポジトリは、生物学的配列データベースのためのものであり、各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースに、それが利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベース中に生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義され、リポジトリは、生物学的配列データベース中に対応する特徴的な生物学的部分配列の連続した配列単位として現れる異なる配列単位を表す組み合わせデータをさらに含む。
図3は、フィンガープリントデータストリング100のリポジトリに含まれる情報を使用してバイオポリマー(断片)500を配列決定するシーケンサ350を概略的に示す。
【0078】
実施形態では、得られたリードは、初期(例えば、暫定的または部分的)生物学的配列であり得る。
【0079】
実施形態では、ステップb1および/またはステップb1’における検索は、以下に記載される生物学的配列を処理するための方法のステップbについて記載される通りであってもよい。
【0080】
ステップb2に関して、リポジトリは、後続のHYFT(商標)フィンガープリントの(例えば、前または後に)現れ得る配列単位に関する組み合わせデータを含むため、この情報を、リードがそれと一致しているかどうかを検証するために有利に使用することができる。そうでない場合、暫定的な生物学的配列を、拒否し、やり直すことができる。あるいは、同じことを、リードをHYFT(商標)フィンガープリントとマッチングさせるのではなく、それを、見つからなかった生物学的配列と直接マッチングさせることによって達成することができる(上記を参照)。さらに、この一致の検証は、構造データ、関係データ、位置データ、および/または方向データなどの追加のデータの使用と組み合わせることができる(上記を参照)。かかる組み合わせは、例えば、既知のHYFT(商標)フィンガープリントに一致するが、追加のデータによって設定された文脈では一致しないリードを拒否することを可能にすることができる。
【0081】
ステップb2’に関して、同じ組み合わせデータに基づいて、いくつかのHYFT(商標)フィンガープリント(またはHYFT(商標)フィンガープリントの組み合わせ)は、非常に限定された組み合わせ可能性を有することが知られているであろう(すなわち、低い組み合わせ数に対応する)。例えば、組み合わせ番号が1のHYFT(商標)フィンガープリントの場合、次の配列ユニットは既知である。この情報は、その配列単位をリードに直接付加することによって、配列決定を高速化するために有利に使用することができ、それによって、実際の配列決定が、当該配列単位を超えてスキップすることを可能にする。実施形態では、リポジトリは、特定のHYFT(商標)フィンガープリントの後に現れるための唯一の可能な選択肢である、2つ、3つ、またはそれより多い配列単位のシリーズに関するデータを含んでもよい。この場合、シリーズ全体が有利に、リードに直接付加され得、それによって、実際の配列決定がこれらの単位をスキップすることが可能になる。同様に、リポジトリが、観察されたHYFT(商標)フィンガープリントについて、限定された数の(ただし、2つ以上の)選択肢が、さらなる配列単位(例えば、2つまたは3つの選択肢)として可能であることを示す場合、この情報は、依然として、シーケンサが、本インスタンスにおける特異的な配列単位をより迅速に識別することを可能にすることができる。さらに、組み合わせの数が少ないかかるHYFT(商標)フィンガープリントについては、この場合の可能性の数は、組み合わせのデータを追加のデータの使用と組み合わせることによって、1に減少させることができる(または、したがって、少なくとも可能性は、所定の閾値を超える可能性がある)。同様に、かかる組み合わせは、組み合わせの可能性のいくつかを拒否することを可能にする文脈を設定することができ、それによって、例えば、残りの数を1に低減し、それにより、後続の配列単位を明らかにする。
【0082】
実施形態では、ステップb2および/またはb2’は、したがって、フィンガープリントデータストリングのリポジトリに関して上述したように、構造データ、関係データ、位置データ、および方向データのうちの1つ以上の使用を含み得る。
【0083】
実施形態では、配列決定は、シーケンサ(例えば、配列決定システム)を使用して、当該バイオポリマーまたはバイオポリマー断片の複数のリードを得ることを含み得る。実施形態では、ステップbは、バイオポリマーまたはバイオポリマー断片のすべてのリードが得られる前に開始され得る。
【0084】
実施形態では、ステップbは、例えば、以下に記載される生物学的配列を処理するための方法に従って、リードを解析すること(例えば、フィンガープリントデータストリングのリポジトリの情報を使用すること)を含み得る。実施形態では、ステップbは、バイオポリマーまたはバイオポリマー断片についてのすべてのリードが得られる前に、複数のリードのうちの少なくとも1つを解析することを含み得る。
【0085】
実施形態では、本方法は、例えば、以下に記載される生物学的配列を比較するための方法に従って整列させ、および/または構築することにより、処理されたリードを整列させる(例えば、マッチングさせる)さらなるステップ(例えば、ステップbに含まれる)を含み得る。実施形態では、整列は、ステップb1および/またはb1’で識別される特徴的な生物学的部分配列を使用することを含み得る。実施形態では、フィンガープリントデータストリングは、本質的に方向付けされてもよいし、位置情報を含んでもよい。実施形態では、当該整列は、処理されたリードを有向グラフと整列させることを含み得る。実施形態では、本方法は、バイオポリマーまたはバイオポリマー断片についてのすべてのリードが得られる前に、複数の処理されたリードのうちの少なくとも1つを整列させることを含み得る。少なくとも一部の実施形態では、当該整列は、処理されたリードを、有向非巡回グラフと整列させることであり得る。
【0086】
一部の実施形態では、整列は、ナバロ・レーベンシュタイン・マッチングを使用して行われ得る。ナバロ・レーベンシュタイン・マッチングのより詳細な説明は、例えば、Navarro,Theoretical Computer Science 237(2000)455-463.に見出すことができる。上述のデータ処理ステップのうちの1つ以上における結果に基づいて、フィードバック情報が、配列決定に関して生成され得る。かかる情報は、配列決定プロセスを制御するために、または対応するデータ処理を制御するために使用され得る。かかる制御は、例えば、利用可能である十分な情報が出現する場合に、配列決定プロセスを終了すること、1つ以上のリードを誤りであると識別すること、およびさらなるデータ処理においてこれらを無視すること、...を含み得る。
【0087】
従来技術では、典型的には、アセンブリステップは、配列決定が完全に完了した後にのみ開始することができるが、この配列決定は、例えば、すべてのリード情報が利用可能であるときにのみ構築することができる必要なk-merテーブルを定義するため、本発明の実施形態による方法およびシステムは、サブグラフを構築し、リードを得る漸進的かつ平行なプロセスを可能にする。このようにして、例えば配列決定が依然として実行中であり、すべてのリードがまだ利用可能ではないとしても、生成されたリードの瞬時の分析を有利に実行することができる。後者は、データのオンザフライ分析を可能にし、それによってデータ生成中、例えば配列データ生成中に、データ分析が実行される。一部の実施形態では、配列データ分析は、データ生成、例えば配列データ生成、と並行することができるであろう。それにもかかわらず、あるいは、データ解析を、データ生成とは別個に実行することができることに留意されたい。
【0088】
上記の原理は、高速なデータ分析システムおよび方法をもたらす。さらに、上記の原理は、配列決定マシン(すなわち、シーケンサ、以下を参照)に配列分析を直接組み込むことを可能にし、したがって、任意選択的にインライン分析であっても、高速な配列データの生成および分析を可能にする。このようにして、関連する出力をシーケンサで生成してしまうことができる。あるいは、同様の利点を、例えば分散コンピューティング環境で、ストリーミングデータ接続(以下を参照)を介してシーケンサをデータ処理システムと接続することによって達成することができる。
【0089】
実施形態では、本方法は、さらに、構築された生物学的配列のバリエーション、例えば、インデル、欠失、挿入、および/または反復を識別することを含み得る。
【0090】
実施形態では、本方法は、処理されたリードを、それらをソートすることによって折り畳むことをさらに含み得る。本発明の実施形態における折り畳みステップは、動的プログラミングに基づかないことに留意されたい。あらゆるHYFT(商標)に、シャノンエントロピーを介して低下/最適化することができる特定の量のビットがある。HYFT(商標)および添付されたリードは、それらが保有する情報量(ビット)によってランク付けまたは分類できる。これはあらゆるHYFT(商標)について等しくはないことから、次の組み合わせ数が最大n-1であり得るため、非常に少ないビット量を有するHYFT(商標)および対応するリードパターンと、より多量のビットを必要とするHYFT(商標)およびリードパターンがあることになる。したがって、ソート機構では、グローバルビット閾値を設置して、計算プロセス中のあらゆる時点で使用されるビットの量を最適化することができる。これらの所与のタスクを実行するために並列化を通じて使用する必要があるハードウェアを最大限に活用することができる。このようにして、並列化を実行することができ、加速および真の最適化をもたらす。一部の実施形態では、ソートは、長さに基づいて実行され得る。実施形態では、分類は、リードにおけるHYFT(商標)の位置に基づいて実行され得る。
【0091】
実施形態では、本方法は、得られたデータを、サブリードグラフおよび/またはリードグラフに変換することをさらに含み得る。
【0092】
実施形態では、本方法は、デッドエンドおよび/またはループを除去することのうちのいずれかをさらに含み得る。
【0093】
実施形態では、本方法は、当該処理および/または整列から得られた情報に基づいて、当該配列決定を動的に適合させることを含み得る。実施形態では、当該動的に適合させることは、配列決定システムを使用して得られる必要があるリードの数に関するフィードバックを提供することを含み得る。実施形態では、当該動的に適合させることは、当該処理および/または整列から得られた情報に基づいて、誤ったリードとして破棄されるリードに関するフィードバックを提供することを含み得る。
【0094】
実施形態では、本方法は、リードに向けてまたはリードまでバックトラックすることを含み得る。実施形態では、本方法は、例えばリードIDなどのメタデータを捕捉することと、プロセスを通じてこれを保持することと、をさらに含み得る。これは、バックトラッキング、例えば、リードに対するエラーまたは不確実性をバックトラックすることを有利に容易にし得る。
【0095】
本発明の実施形態によれば、サブグラフの構築および対応する処理を、別個のスレッドで実行することができる。これは、例えば、本発明による実施形態で本質的に導入され得るオートコンプリート機能によってさらに促進され得る。グラフまたはサブグラフの構築で一定の信頼閾値に達した(十分なカバレッジに匹敵する)場合、元のストリング再構築を完了するためにさらなるリード情報は必要ない。かかる情報は、フィードバックとして使用されてもよく、かかる情報に基づいて、配列決定を終了することが決定されてもよい。後者は、ヒト介入に基づいて実行され得るが、自動化され得ることもあり、システムからのフィードバックは、いつ配列決定を終了すべきかを決定するためにコントローラによって使用され得る。
【0096】
本発明の実施形態によれば、本方法は、フィードバック情報を生成するステップと、フィードバック情報に基づいて配列決定を制御するステップと、を含み得る。配列決定を制御するかかるステップは、十分な情報が得られることに基づいて、いつ配列決定を終了することができるかを決定すること、検出されたエラーを考慮していくつかのリードを使用すべきではないことを決定すること、他のタイプまたは異なるタイプのリードを収集することを決定すること、…を含み得る。
【0097】
第2の態様では、本発明は、第1の態様の任意の実施形態による方法のステップaを実行するように適合されたシーケンサに関する。
図3は、フィンガープリントデータストリング100のリポジトリに含まれる情報を使用してバイオポリマー(断片)500を配列決定するシーケンサ350を概略的に示す。
【0098】
一部の実施形態では、シーケンサは、第1の態様の任意の実施形態による方法を実行する(例えば、ステップaおよびbを実行する)ように適合されてもよい。
【0099】
他の実施形態では、シーケンサは、リードをデータ処理システムに送信する(例えば、ステップbを実行するために)ように適合され得る。実施形態では、シーケンサは、データ処理システムからのフィードバックを受信するように(例えば、ステップbの後またはステップ中に)さらに適合され得る。受信されたフィードバックは、例えば、データ処理システムの出力であってもよいし、シーケンサに対する命令であってもよい。命令は、配列決定方法を動的に適合させること(上記を参照)に照らしてもよく、例えば、配列決定を終了するか否か、特定のリードを再び得るか否かなどに関するフィードバックを含み得る。
【0100】
実施形態では、シーケンサは、DNA、RNAシーケンサもしくはタンパク質シーケンサ、またはそれらの組み合わせであり得る。実施形態では、シーケンサは、アレイマシンであってもよい。例えば、シーケンサは、第1世代、次世代、または第3世代のDNA/RNAシーケンサ、マイクロアレイ、または質量分析デバイスであり得る。実施形態では、シーケンサは、遺伝子発現アレイでなど、複数の配列決定技術を組み合わせてもよい。
【0101】
シーケンサは、典型的には、より専用のデバイスであり、典型的には、配列決定を実行するためのさらなる技術的手段を含み得る。しかしながら、これは、シーケンサが1つ以上のさらなる方法(例えば、配列アセンブリ)も実行するように構成され得ることを排除するものではなく、その場合、シーケンサは、例えば、配列アセンブラとも称され得る。同様に、シーケンサは、分散コンピューティング環境(以下を参照)の一部であり得、例えば、クライアント側シーケンサは、物理的配列決定を実行し、クラウドベースのデータ処理システムと通信する。
【0102】
かかるシーケンサは、そのようなものとしてのシーケンサであってもよいし、シーケンサと配列アセンブラとの組み合わせであってもよい。実施形態では、シーケンサは、バイオポリマーまたはバイオポリマー断片のリードを得るために、およびすべてのリードが読み取られる前に、例えばさらなるリードの受信と同時に、リードを分析するために、適合され得る。実施形態では、シーケンサは、それのために、さらなるリードを得ることと同時に入力リードを処理するためのプロセッサを含み得る。さらに、一部の実施形態では、シーケンサは、リードを受信すること、および/またはデータを得られた結果の関数として処理すること、を制御するためのコントローラを含んでもよい。したがって、コントローラは、入力リードを処理するためにプロセッサから得られたフィードバックに基づいてシーケンサを制御するためのフィードバックループを含んでもよい。
【0103】
第3の態様では、本発明は、システムであって、(i)第2の態様によるシーケンサと、(ii)シーケンサからリードを受信し、かつ第1の態様の任意の実施形態による方法のステップbを実行することによってリードを処理するように適合されたデータ処理システムと、を含むシステムに関する。
【0104】
実施形態では、データ処理システムは、シーケンサに関してオンサイト(例えば、同じ部屋内)またはオフサイト(例えば、クラウド内)に配置され得る。
【0105】
第4の態様では、本発明は、コンピュータプログラムであって、プログラムがコンピュータによって実行された場合、コンピュータに、第1の態様の任意の実施形態による方法を実行させる命令を含むコンピュータプログラムに関する。
【0106】
第5の態様では、本発明は、コンピュータ可読媒体であって、コンピュータによって実行された場合、コンピュータに、第1の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含むコンピュータ可読媒体に関する。
【0107】
また、上述したようなフィンガープリントデータストリングのリポジトリを構築および/または更新するためのコンピュータ実装方法であって、(a)生物学的配列データベース内の特徴的な生物学的部分配列を識別することであって、特徴的な生物学的部分配列は、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される、特徴的な生物学的部分配列を識別することと、(b)任意選択的に、識別された特徴的な生物学的部分配列を、1つ以上のさらなる特徴的な生物学的部分配列に翻訳することと、(c)当該リポジトリに、識別された特徴的な生物学的部分配列および/または1つ以上のさらなる特徴的な生物学的部分配列を表す1つ以上のフィンガープリントデータストリングを入力することと、を含むコンピュータ実装方法が記載される。
【0108】
また、生物学的配列を処理するためのコンピュータ実装方法であって、(a)上述したようなフィンガープリントデータストリングのリポジトリから1つ以上のフィンガープリントデータストリングを得ることと、(b)生物学的配列を、1つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列の出現について検索することと、(c)ステップbにおける各出現について、生じる特徴的な生物学的部分配列を表すフィンガープリントデータストリングと関連付けられたフィンガープリントマーカーを含む処理された生物学的配列を構築することと、を含むコンピュータ実装方法が記載される。
図4は、フィンガープリントデータストリングのリポジトリ100を使用して生物学的配列200を処理し、それによって処理された生物学的配列210を得る配列処理ユニット310を概略的に示す。
【0109】
本発明の実施形態の利点は、生物学的配列が比較的容易にかつ効率的に処理することができることである。本発明の実施形態のさらなる利点は、生物学的配列を語彙的または意味的な様式で分析することができることである。
【0110】
本発明の実施形態の利点は、処理された生物学的配列が、識別された特徴的な生物学的部分配列を、対応するフィンガープリントデータストリングと関連付けられたマーカーによってその中で置き換えることによって構築され得ることである。
【0111】
本発明の実施形態の利点は、特徴的な生物学的部分配列の1つに対応しない生物学的配列の部分を様々な方法で取り扱うことができることである。一部の実施形態のさらなる利点は、生物学的配列が完全に可逆的な方法で処理され得ることである(すなわち、処理によって情報が失われることはない)。本発明の代替的な実施形態のさらなる利点は、生物学的配列が、より重要な情報がより圧縮された形式で蒸留されるように処理され得ることである。
【0112】
本発明の実施形態の利点は、処理された生物学的配列が、それらの未処理の対応物よりも少ない記憶空間を占めるように圧縮され得ることである。
【0113】
本発明の実施形態の利点は、生物学的配列の一部分を、特徴的な生物学的部分配列にマッチングすることは、単に一次構造に限定されず、二次/三次/四次構造も考慮され得ることである。
【0114】
本発明の実施形態の利点は、生物学的部分配列の二次/三次/四次構造が、それに含まれる特徴的な生物学的部分配列の既知の二次/三次/四次構造に基づいて、少なくとも部分的に解明され得ることである。本発明の実施形態のさらなる利点は、生物学的配列の設計(例えば、タンパク質の設計)が、支援または促進され得ることである。
【0115】
実施形態では、処理される生物学的配列は、第1の態様による配列決定方法によって得ることが可能な、生物学的ポリマー断片の生物学的配列であってもよい。
【0116】
一部の実施形態では、マーカーは、参照ストリングであってもよい。かかる参照ストリングは、例えば、リポジトリの対応するフィンガープリントデータストリングを指してもよい。他の実施形態では、マーカーは、そのようなフィンガープリントデータストリング、またはその一部であってもよい。
【0117】
実施形態では、生物学的配列は、(i)1つ以上の第1の部分であって、各第1の部分は、1つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの1つに対応する、第1の部分と、(ii)1つ以上の第2の部分であって、各第2の部分は、1つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちのいずれにも対応しない、第2の部分と、を含む。実施形態では、ステップcにおいて処理された生物学的配列を構築することは、対応するマーカーによって少なくとも1つの第1の部分を置き換えることを含み得る。実施形態では、ステップcにおいて処理された生物学的配列を構築することは、(例えば、マーカーに付加された)処理された生物学的配列に、当該第1の部分に関する位置情報を追加することを、さらに含み得る。実施形態では、ステップcにおいて処理された生物学的配列を構築することは、少なくとも1つの第2の部分を不変のままにすること、および/または少なくとも1つの第2の部分を当該第2の部分の長さの指標によって置き換えること、および/または少なくとも1つの第2の部分を完全に除去すること、を含み得る。第2の部分を不変のままにする場合、生物学的配列は、完全に可逆的な方法で有利に処理され得る。
【0118】
実施形態では、処理された生物学的配列は、圧縮形式で定式化され得る。例えば、特徴的な生物学的部分配列(すなわち、第1の部分)を参照ストリングで置き換えることによって、かつ/または第2の部分をその長さの指標で置き換えるか、もしくはそれを完全に除去するかのいずれかによって、元の(すなわち、未処理の)生物学的配列よりも少ない記憶空間を必要とする処理された生物学的配列が得られる。追加のデータの圧縮は、複数のフィンガープリントを相互関係によって表すことができる経路を利用することによって達成され得る。
【0119】
複数の実施形態では、1つ以上のフィンガープリントデータストリングは、生物学的配列(例えば、タンパク質対DNA対RNAの配列情報)とは異なる生物学的形式であり得、ステップbは、検索の前に特徴的な生物学的部分配列を翻訳または転写することをさらに含み得る。
【0120】
実施形態では、ステップbにおける検索は、部分マッチングまたは等価マッチング(例えば、等価のコドン、または同じ二次/三次/四次構造をもたらす異なるアミノ酸)を検索することを含み得る。実施形態では、ステップbにおける検索は、特徴的な生物学的部分配列の二次/三次/四次構造を考慮してもよい。二次、三次、および四次構造は、典型的には、より進化的に保存され(例えば、その活性部位の二次/三次/四次構造が実質的に保存されているため)、バイオポリマーの機能を変化させない一次構造の変動がしばしば生じる。したがって、二次/三次/四次構造は、完全にマッチングする一次構造を厳密に検索する場合に失われるであろうバイオポリマーに関する関連情報を明らかにし得る。
【0121】
好ましい実施形態では、ステップbにおける特徴的な生物学的部分配列の出現の検索は、特定の順序で実行され得る。実施形態では、順序は、特徴的な生物学的部分配列の長さおよび組み合わせ数に基づいてもよい。実施形態では、検索は、最も少ない組み合わせ数を有する最長の特徴生物学的配列から始まり、最も多い組み合わせ数を有する最短の特徴生物学的配列で終わるように、順番に実行してもよい。好ましい実施形態では、順序は、最長から最短への特徴的な生物学的部分配列であってもよく、同じ長さの特徴的な生物学的部分配列の場合、最小から最大への組み合わせ数であってもよい。他の実施形態では、順序は、最小から最大への組み合わせ数であってもよく、同じ組み合わせ数を有する特徴的な生物学的部分配列の場合、最長から最短への特徴的な生物学的部分配列であってもよい。実施形態では、順序は、文脈データなどの追加のデータをさらに考慮し得る(例えば、同じ長さで、同じ組み合わせ数を有する特徴的な生物学的部分配列のセット内で順序を決定するために)。
【0122】
実施形態では、本方法は、ステップcの後に、さらなるステップdを含んでもよく、上述したような構造データに基づいて、処理された生物学的部分配列の二次/三次/四次構造を、少なくとも部分的に推測する。二次/三次/四次構造のこの少なくとも部分的な解明は、生物学的配列の設計を支援および/または促進するのに役立ち得る。特徴的な生物学的部分配列の単一の一次構造が複数の二次または三次または四次構造に関連する実施形態では、二次/三次/四次構造は、特徴的な生物活性が見出される文脈(例えば、それが取り囲む特徴的な生物学的部分配列)に基づいて、曖昧性が解消され得る。かかる曖昧性解消に必要な情報は、例えば、上述したように、特徴的な生物学的部分配列と1つ以上のさらなる特徴的な生物学的部分配列との間の二次/三次/四次構造の観点での関係に関連するデータ(例えば、関係データ)の形態で、フィンガープリントデータストリングのリポジトリに見出すことができる。例えば、特定の第1のHYFT(商標)フィンガープリントは、二次構造としてヘリックスまたはターン立体配置のいずれかを採用することが知られているが、特定の第2のHYFT(商標)フィンガープリントが当該第1のHYFT(商標)から一定の間隔内に存在する場合、常にヘリックス立体配置を採用することが知られている。このような場合、HYFT(商標)フィンガープリントのHYFT(商標)パターンは、もし観察されると、第1のHYFT(商標)の二次構造を、曖昧性解消のために使用することができる。
【0123】
フィンガープリントデータストリングが本質的に方向づけされ、位置情報を含む実施形態では、ステップcは、処理された生物学的配列を有向グラフとして構築することを含み得る。実施形態では、有向グラフ(directional graph)は、有向非巡回グラフ(directional a cyclical graph)であり得る。非巡回グラフに言及するとき、これは、ループが出現し得ないことを意味するのではなく、むしろ全体のグラフが環状でないことを意味することに留意されたい。本発明の実施形態で得られる再構築配列についての結果として得られるグラフ表現は、HYFT(商標)グラフと称され得る。そのようなHYFT(商標)グラフは、普遍的なゲノムのグラフ表現を可能にし得る。
【0124】
実施形態では、処理された生物学的配列を構築することは、異なるフィンガープリントデータストリング間の間隔を考慮することを含み得、かつ/または有向グラフを構築するためのフィンガープリントデータストリングの方向(例えば、固有の方向)を考慮することを含み得る。
【0125】
実施形態では、処理された生物学的配列を構築することは、有向グラフを構築するためのフィンガープリントデータストリング内に埋め込まれた構造的および/もしくは空間形状情報を考慮することを含み得、かつ/またはフィンガープリントデータストリング内に埋め込まれた構文情報を考慮することを含み得る。
【0126】
実施形態では、ステップbにおける検索は、位置情報、特徴的な生物学的配列の異なる要素間の間隔情報、特徴的な生物学的部分配列の二次構造、および/もしくは三次構造、および/もしくは四次構造、ならびに/または特徴的な生物学的部分配列の構造的バリエーションのうちのいずれかを考慮し得る。
【0127】
例示として、本発明の実施形態は、これらに限定されないが、特定の配列をどのように検索することができるかという例を以下に示す。本方法は、第1のステップにおいて、検索される配列に存在するHYFT(商標)を識別することを含む。次いで、本方法は、そのHYFT(商標)も含む参照データベースのすべての配列を検索することによって、参照データベースを照会することをさらに含む。次に、見出された異なる配列を選別し、例えば、長さによって選別し、配列中のHYFT(商標)の位置を識別する。さらに、整列を行う。一部の実施形態では、整列は、ナバロ・レーベンシュタイン・マッチングを使用して行われ得る。ナバロ・レーベンシュタイン・マッチングのより詳細な説明は、例えば、Navarro,Theoretical Computer Science 237(2000)455-463.に見出すことができ、整列は、有向グラフ、例えば、有向非巡回グラフで行実行され得る。後者は、普遍的なゲノム参照グラフであってもよいが、実施形態はこれに限定されない。整列は、特定の配列に対するバリアントの識別を含み得る。上記のステップを実行するために、配列はさらに処理され得、それによって、例えば、デッドエンドおよびループが除去され得る。
【0128】
また、上述したような生物学的配列を処理するための、コンピュータ実装方法によって得ることが可能な、処理された生物学的配列が記載される。
図4に、処理された生物学的配列210が、概略的に示されている。
【0129】
また、処理された生物学的配列のリポジトリを構築および/または更新するためのコンピュータ実装方法であって、当該リポジトリに、上述したような処理された生物学的配列を入力することを含む、コンピュータ実装方法が記載される。
図4は、処理された生物学的配列210を、処理された生物学的配列のリポジトリ220に記憶するリポジトリ構築ユニット320を、模式的に示す。
【0130】
本発明の実施形態の利点は、処理された生物学的配列のリポジトリを構築し、記憶することができることである。
【0131】
また、上述したような処理された生物学的配列のリポジトリを構築および/または更新するためのコンピュータ実装方法によって得ることが可能な、処理された生物学的配列のリポジトリが記載される。
図4に、220のリポジトリが概略的に示されている。
【0132】
利点は、処理された生物学的配列のリポジトリが、迅速に検索され、ナビゲートされ得ることである。さらなる利点は、リポジトリの記憶サイズが、それに圧縮処理された生物学的配列を入力することによって、既知のデータベースと比較して、比較的小さくなり得ることである。
【0133】
実施形態では、処理された生物学的配列のリポジトリは、フィンガープリントデータストリングのリポジトリと組み合わせることができる。
【0134】
実施形態では、リポジトリは、処理された生物学的断片配列(すなわち、バイオポリマー断片の処理された生物学的配列)のリポジトリであってもよい。
【0135】
実施形態では、リポジトリは、データベースであり得る。一部の実施形態では、処理された生物学的配列のリポジトリは、インデックス化されたリポジトリであってもよい。リポジトリは、例えば、各処理された生物学的配列に存在するフィンガープリントマーカー(特徴的な生物学的部分配列に対応する)に基づいて、インデックス化され得る。他の実施形態では、リポジトリは、グラフリポジトリであってもよい。
【0136】
また、第1の生物学的配列を第2の生物学的配列と比較するためのコンピュータ実装方法であって、(a)上述したようなコンピュータ実装方法によって第1の生物学的配列を処理して、第1の処理された生物学的配列を得るか、または上述したような処理された生物学的配列のリポジトリから第1の処理された生物学的配列を得ることと、(b)上述したようなコンピュータ実装方法によって第2の生物学的配列を処理して、第2の処理された生物学的配列を得るか、または上述したような処理された生物学的配列のリポジトリから第2の処理された生物学的配列を得ることと、(c)第1の処理された生物学的配列の少なくともフィンガープリントマーカーを、第2の処理された生物学的配列のフィンガープリントマーカーと比較することと、を含むコンピュータ実装方法が記載される。
図5は、比較ユニット330を概略的に示し、少なくとも第1の生物学的配列211および第2の生物学的配列212を、出力結果400と比較する。
【0137】
本発明の実施形態の利点は、生物学的配列の比較が、NP完全またはNP困難な問題から多項式時間問題に変更され得ることである。発明の実施形態のさらなる利点は、比較が、大幅に短縮された時間で実施することができ、複雑性が増すと共に(例えば、生物学的配列の長さまたは数の増加)、良好に拡大することである。本発明の実施形態のさらなる利点は、必要な計算能力および記憶空間を削減することができることである。
【0138】
本発明の実施形態の利点は、生物学的配列間の類似性の程度を計算することができることである。本発明の実施形態のさらなる利点は、複数の生物学的配列がそれらの類似性の程度に基づいてランク付され得ることである。
【0139】
本発明の実施形態の利点は、配列類似性検索が迅速かつ容易に(例えば、多項式時間において)実行され得ることである。
【0140】
本発明の実施形態の利点は、比較された生物学的配列が、容易かつ迅速に(例えば、多項式時間で)整列され得ることである。
【0141】
実施形態の利点は、複数の配列も、容易かつ迅速に比較および整列され得ることである。実施形態のさらなる利点は、現在知られている方法(例えば、累進整列(progressive alignment)に基づく)の場合のように、整列中にエラーの蓄積がないことである。
【0142】
本発明の実施形態の利点は、バイオポリマー断片の配列が、元のバイオポリマー配列を再構築するために、容易かつ迅速に整列および融合され得ることである。
【0143】
本発明の実施形態による特徴的な生物学的部分配列を使用することによって(処理された生物学的配列内のフィンガープリントマーカーを介して)、配列を比較する問題は、NP完全またはNP困難な問題から多項式時間問題へと有利に再定式化される。実際、配列内のフィンガープリントを識別し、続いてこれらのフィンガープリントに基づいて配列を比較することは、語彙的アプローチと見なされ得るが、現在使用されているアルゴリズム(例えば、スライディングウィンドウアプローチに基づいて全配列を比較する)よりも計算上はるかに単純である。したがって、この比較は、より少ない計算能力および記憶空間を必要としながらも、著しく速く実行することができ、さらには、複雑性の増加(例えば、生物学的配列の長さまたは数の増加)に伴って良好にスケールする。
【0144】
実施形態では、第2の生物学的配列は、参照配列であり得る。
【0145】
実施形態では、ステップcは、第1の処理された生物学的配列の1つ以上の特徴的な生物学的部分配列(フィンガープリントマーカーによって表される)が、第2の処理された生物学的配列の1つ以上の特徴的な生物学的部分配列(フィンガープリントマーカーによって表される)と対応する(例えば、マッチングする)かどうかを識別することを含み得る。実施形態では、ステップcは、対応する特徴的な生物学的部分配列が、第1の処理された生物学的配列におけるものと、第2の処理された生物学的配列におけるものとで、同じ順序で現れるかどうかを識別することを含んでもよい。実施形態では、ステップcは、第1の処理された生物学的配列における特徴的な生物学的部分配列の1つ以上の対と、第2の処理された生物学的配列における特徴的な生物学的部分配列の1つ以上の対応する対とが、同じまたは類似の(例えば、1000配列単位未満、例えば、100配列単位未満、好ましくは50配列単位未満、さらにより好ましくは20配列単位未満、最も好ましくは10配列単位未満が異なる)間隔を有するかどうかを識別することを含んでもよい。
【0146】
実施形態では、ステップcは、第1の処理された生物学的配列の1つ以上の第2の部分を、第2の処理された生物学的配列の1つ以上の第2の部分と比較することをさらに含み得る。実施形態では、1つ以上の第2の部分を比較することは、対応する第2の部分を比較することを含み得る(すなわち、第1の処理された生物学的配列における特徴的な生物学的部分配列の隣接する対の間に現れる第2の部分と、第1の処理された生物学的配列における特徴的な生物学的部分配列の対応する隣接する対の間に現れる第2の部分)。
【0147】
実施形態では、ステップcは、第1の生物学的配列と第2の生物学的配列との間の類似性の程度(例えば、レーベンシュタイン距離)を表す尺度を計算することをさらに含み得る。実施形態では、類似性の程度は、構文類似性の尺度を構造類似性の尺度と組み合わせるなど、複数の変数に基づいて計算され得る。
【0148】
実施形態では、本方法は、照会配列(query sequence)を1つ以上の他の生物学的配列(例えば、検索される配列データベースに対応する。例えば、処理された生物学的配列のリポジトリの形態で)と比較することによって、配列類似性検索で使用され得る。実施形態では、類似性の程度は、他の生物学的配列の各々について計算され得る。実施形態では、本方法は、生物学的配列をランク付けする(例えば、類似性の程度の減少によって)さらなるステップを含み得る。実施形態では、本方法は、生物学的配列をフィルタリングすることを含み得る。フィルタリングは、ステップcの前および/または後に実行されてもよい。例えば、フィルタリングは、特定の基準に適合する生物学的配列のみを、例えば、それらが由来する生物または生物群(例えば、植物、動物、ヒト、微生物など)、二次/三次/四次構造が既知であるかどうか、その長さに基づいて、データベースから比較のために選択することによって実行されてもよい。あるいは、フィルタリングは、同じ基準に基づいて、または計算された類似性の程度に基づいて、比較が行われた後に実行されてもよい(例えば、類似性の特定の閾値を上回る配列のみが選択されてもよい)。従来技術における配列類似性検索(整列ステップが典型的に必要とされ、次いで類似性の尺度がそれから確立される)とは対照的に、整列は、実施形態による類似性検索のために厳密には必要ではない。実際、類似の配列は、整列なしで、同じフィンガープリントを有する配列を(任意選択的に、それらの順序およびそれらの間隔も考慮に入れて)検索することによって既に見つけることができ、ひいては、検索をさらに高速化することが可能になる。上記にもかかわらず、実施形態による整列(以下を参照)も、計算的に簡略化され、厳密には必要でなくても、とにかく整列を行うように選択することができる。
【0149】
したがって、本方法は、第1の生物学的配列と第2の生物学的配列との間の類似性を決定する(および、任意選択的に測定する)ことを可能にする。また、かかる比較は、整列および構築のための方法などの他の方法における基礎である(以下を参照)。
【0150】
実施形態では、本方法は、第1の生物学的配列を、第2の生物学的配列と整列させるためのものであってもよい。実施形態では、ステップcは、第1の処理された生物学的配列のフィンガープリントマーカーを、第2の処理された生物学的配列のフィンガープリントマーカーと整列させることをさらに含み得る。
図5は、生物学的配列がフィンガープリントマーカーによって整列される比較ユニット330(この場合、「整列ユニット330」と称される方がよい)からの出力結果400を概略的に示す。
【0151】
したがって、単にフィンガープリントを整列することによって良好な整列を既に得ることができるため、実施形態では、整列も簡略化される。再度、これによって問題の計算複雑性が著しく低減される。さらに、累進整列に基づくものなどの従来技術の方法では、整列エラーの蓄積があり、前の配列のうちの1つに対する誤整列が典型的に伝播し、後の配列におけるさらなる誤整列を引き起こす。逆に、1つの(複数の)整列内に整列される(または、少なくともそれが試みられる)フィンガープリントマーカーの同じ個別のセットが毎回あるため、そのようなエラーの伝播はない。
【0152】
実施形態では、本方法は、対応する第2の部分を、その後、整列させることをさらに含み得る。第2の部分の整列は、例えば、従来技術で既知の整列方法の1つを使用して行われ得る。実際、整列の「骨格」は、フィンガープリントマーカーを整列させることによってすでに提供されているため、これらのマーカー間の整列のみが後に肉付けされる。これらの第2の部分の各々は、典型的には、生物学的配列の全長と比較して比較的短いため、既知の方法は、典型的には、かかる整列を、比較的迅速かつ効率的に行うことができる。
【0153】
実施形態では、本方法は、複数の配列整列を行うためのものであってもよい(すなわち、本方法は、3つ以上の生物学的配列を整列することを含み得る)。実施形態では、本方法は、第3(または第4など)の処理された生物学的配列のフィンガープリントマーカーを、第1および/または第2の処理された生物学的配列のフィンガープリントマーカーと整列させることを含んでもよい。
図5に、これが概略的に示されており、整列ユニット330はまた、任意の数のさらなる処理された生物学的配列213~216を、比較および整列することができる。
【0154】
実施形態では、本方法は、バリアントコーリング(variant calling)において使用され得る。2つの生物学的配列間の配列整列の場合、バリアントコーリングは、照会配列と参照配列との間のバリアント(例えば、変異)を識別し得る。複数の配列整列の場合、バリアントコーリングは、任意選択的に、参照配列に関して、関連する配列のセットにおける可能なバリエーション(それらの出現頻度を決定することを含み得る)を識別し得る。さらに、バリアントを識別することは、一次構造に基づいて実行され得るが、二次/三次/四次構造も考慮してもよい。したがって、バリアントを識別することは、一次構造に基づいて、二次/三次/四次構造に基づいて、さらに配列内のHYFT(商標)に相関する距離のあらゆる可能な相互関係に基づいて、または以降のもしくは以前のHYFT(商標)に関する距離情報に基づいて、実行され得る。バリアントを同定することは、コドン表のバリエーションに基づいてもよく、したがって、同じバリアント分析において、DNA、RNA、およびアミノ酸のバリエーションに関するじかに得た情報を収集することができる。
【0155】
実施形態では、本方法は、配列アセンブリを実行するためのものであってもよい。実施形態では、本方法は、(a)第1の生物学的配列を提供することであって、第1の生物学的配列が、第1のバイオポリマー断片の生物学的配列である、第1の生物学的配列を提供することと、(b)第2の生物学的配列を提供することであって、第2の生物学的配列が、第2のバイオポリマー断片の生物学的配列であるか、または参照生物学的配列であるかのいずれかである、第2の生物学的配列を提供することと、(c)第1の生物学的配列を、第2の生物学的配列に整列させることと、(d)第1の生物学的配列を、第2の生物学的配列と融合させて、構築された生物学的配列を得ることと、を含む。
図6は、最初に(それらのフィンガープリントマーカーによって)整列させ、続いて(少なくとも、第1の生物学的配列501と第2の生物学的配列502とを含む)任意の数の生物学的配列500を融合することによって、構築された生物学的配列510を出力する配列構築ユニット340を、概略的に示す。
【0156】
実施形態では、本方法のステップa~dは、任意の数の生体ポリマー断片を、整列および融合させるために繰り返され得る。
【0157】
配列決定を容易にするために、個々の断片は、当該技術分野で知られているように、より速くかつより容易に配列決定されるため(例えば、それらは並列で配列決定され得る)、より長いバイオポリマーは、断片化され得る。次いで、配列アセンブリを使用して、典型的には、断片配列を整列および融合させて、元の配列を再構築する。これはまた、「リードマッピング(read mapping)」と称されてもよく、断片配列からの「リード(read)」は、第2のバイオポリマー配列に「マッピング」される。実行される配列アセンブリの種類、例えば、デノボアセンブリ対マッピングアセンブリに応じて、第2のバイオポリマー配列は、適宜、第2のバイオポリマー断片または参照配列であるように選択され得る。本明細書では、デノボアセンブリは、テンプレート(例えば、骨格配列)を使用せずに、一からのアセンブリである。逆に、マッピングアセンブリは、1つ以上のバイオポリマー断片配列を既存の骨格配列(例えば、参照配列)にマッピングすることによるアセンブリであり、これは典型的には、将来再構築される配列と類似しているが、必ずしも同一ではない。参照配列は、例えば、完全なゲノムまたはトランスクリプトーム(の部分)に基づいてもよく、または以前のデノボアセンブリから得られたものであってもよい。
【0158】
実施形態では、本方法は、ステップdの後に、さらなるステップeを含んでもよく、上に記載のように、構築された生物学的配列を第2の生物学的配列に整列させる。この追加の整列は、第2の生物学的配列(例えば、参照配列)に関して構築された生物学的配列のバリアントコーリングを実行するために使用され得る。
【0159】
実施形態では、フィンガープリントデータストリングは、位置情報を含んでもよい。
【0160】
実施形態では、本方法は、さらに、例えば、インデル、欠失、挿入、および/または反復(実施形態はこれらに限定されない)のような変形を検出することを含み得る。
【0161】
実施形態では、第1の生物学的配列および/または第2の生物学的配列を提供することは、上述した方法を使用して実行され得る。
【0162】
また、上述したようなフィンガープリントデータストリングのリポジトリ、および/または上述したような処理された生物学的配列のリポジトリを含む記憶デバイスが記載される。
【0163】
さらに、処理システムであって、かかる記憶デバイスを含み、記憶デバイスからフィンガープリントデータストリングを得るため、および/または記憶デバイスにフィンガープリントデータストリングを記憶するため、および/または記憶デバイスのフィンガープリントデータストリングを検索するために適合されたプロセッサを含む処理システムが記載される。
【0164】
また、上述したようなコンピュータ実装方法のうちのいずれかを実行するように適合された(例えば、そのための手段を含む)データ処理システムが記載される。
【0165】
システムは、典型的には、それが実行することが意図される方法に応じて、異なる形態をとってもよい。実施形態では、システムは、配列処理ユニット、バリアントコーリングユニット、リポジトリ構築ユニット、比較ユニット、整列ユニット、または配列構築ユニットであってもよく、またはそれを含んでもよい。実施形態では、汎用データ処理手段(例えば、パーソナルコンピュータまたはスマートフォン)または分散計算環境(例えば、クラウドベースのシステム)は、これらの機能のうちの1つ以上を実行するように構成され得る。分散計算環境は、例えば、サーバデバイスおよびネットワーク化されたクライアントデバイスを含み得る。本明細書では、サーバデバイスは、1つ以上の方法の大部分を実行することができ、フィンガープリントデータストリングのリポジトリおよび処理された生物学的配列のリポジトリを記憶することが含まれる。他方、ネットワーク化されたクライアントデバイスは、命令(例えば、照会配列などの入力、および検索プリファレンスなどの設定)をサーバデバイスと通信してもよく、方法の出力を受信してもよい。
【0166】
また、コンピュータプログラム(製品)であって、プログラムがコンピュータ(システム)によって実行された場合、コンピュータに、上述したようなコンピュータ実装方法のうちのいずれかを実行させる命令を含む、コンピュータプログラム(製品)が記載される。
【0167】
また、プログラムがコンピュータシステムによって実行された場合、コンピュータシステムに、フィンガープリントデータストリングのリポジトリから、リポジトリで、またはリポジトリに、それぞれ、フィンガープリントデータストリングを得ること、検索すること、または記憶することを実行させる命令を含むコンピュータプログラム製品に関するコンピュータプログラム製品が記載される。
【0168】
また、コンピュータ可読媒体であって、コンピュータ(システム)によって実行された場合、コンピュータに、上述したようなコンピュータ実装方法のうちのいずれかを実行させる命令を含むコンピュータ可読媒体が記載される。
【0169】
また、バイオポリマーまたはバイオポリマー断片を配列決定すること、配列アセンブリを実行すること、生物学的配列を処理すること、処理された生物学的配列のリポジトリを構築すること、第1の生物学的配列と第2の生物学的配列とを比較すること、第1の生物学的配列と第2の生物学的配列とを整列させること、複数の配列整列を実行すること、配列類似性検索を実行すること、およびバリアントコーリングを実行することから選択される1つ以上のための、上述したようなフィンガープリントデータストリングのリポジトリの使用が記載される。
【0170】
また、第1の生物学的配列と第2の生物学的配列との比較、第1の生物学的配列と第2の生物学的配列との整列、複数の配列整列の実施、配列類似性検索の実施、およびバリアントコーリングの実施から選択される1つ以上のための、上述の処理された生物学的配列または上述の処理された生物学的配列のリポジトリの使用が記載される。
【0171】
実施形態では、上記の態様のうちのいずれかの任意の実施形態の任意の特徴は、独立して、他の態様または他の記載される主題のうちのいずれかの任意の実施形態について、対応して記載される通りであり得る。
【0172】
ここで、一部の実施形態の態様を、いくつかの実施形態の詳細な説明によって記載する。本発明の他の実施形態は、本発明の真の技術的教示から逸脱することなく、当業者の知識に従って構成され得、実施形態が、添付の特許請求の範囲の用語によってのみ限定されることは明らかである。
【0173】
実施例1:本発明の実施形態による配列決定
例示として、本発明の実施形態は、これらに限定されないが、可能な配列決定の実装形態の例を
図7に示す。本図は、本発明の一実施形態による、配列決定方法の異なる可能な方法ステップを示す。本方法は、バイオポリマーまたはバイオポリマー断片についての少なくとも第1のリードを得た後と、典型的には、HYFT(商標)と称される、フィンガープリントを有する、入力リード、例えば受信されるリードを解析してバイオポリマーまたはバイオポリマー断片を配列決定するためにリードをさらに受信する間と、を含む。解析後、バイオポリマーまたはバイオポリマー断片の配列を表すグラフを得るために、整列(例えば、マッチング)が実行され得る。整列は、有向グラフ、例えば、有向非巡回グラフで実行され得る。後者は、普遍的なゲノム参照グラフであってもよいが、実施形態はこれに限定されない。整列は、特定の配列に対するバリアントの識別を含み得る。それにもかかわらず、概要グラフを構築するなどの中間ステップが実行されてもよく、それにより、処理された(例えば、解析された)配列は、概要グラフ内でのソートによってデータを折り畳むように、処理された配列間で共通であるかまたはリンクされている1つ以上のフィンガープリントの周りにグループ化される。かかる折り畳みは、1文字ずつ実行され得、ノードは、文字が異なるときに分割され得る。この方法はまた、サブリードグラフを形成することを含んでもよく、それによって、このステップでは、典型的には、デッドエンドまたはバブルが除去される。あるいはまたはさらに、デッドエンドおよび/またはバブルを除去することは、本方法の他のステップで実行され得ることに留意されたい。本方法はさらに、リードグラフの形成を含み得、サブリードグラフが組み合わされる。さらに、例示として、本発明の実施形態は、これらに限定されないが、異なるステップを
図8~
図11に示す。
図7は、HYFT(商標)で入力リードを解析するステップを例示している。図面に示される配列の一部は、それ自体、本発明の一部を形成するのではなく、かかるデータの処理を例示するためにのみ導入されることに留意されたい。リポジトリの特定のフィンガープリント、すなわちHYFT(商標)の出現は、リードで識別される。
図8は、概要グラフの構築を例示しており、それによって、異なる処理された配列が、見出されるリンクされたHYFT(商標)の周りにグループ化される。
図9は、概要グラフの構築を、それをソートすることによって折り畳むことを例示している。後者は、1文字ずつ、および文字が異なるときにノードを分割することによって、実行され得る。さらに、トラックは、ノードの上にある配列を保持し得る。典型的には、HYFT(商標)フィンガープリントから開始され、典型的には、1つの方向(例えば、右側)に移動し得る。
図11は、緩んだ端部が除去されるクリーニングステップを例示している。あるいは、またはそれに加えて、バブルまたは小さな内部ループも解決され得る。
【0174】
実施例2:タンパク質データバンクの処理
実施例2a:タンパク質データバンクの分析-そこで発見されたHYFT(商標)フィンガープリントに関して
生物学的配列データベースにおけるHYFT(商標)フィンガープリントの広範な存在を例示するために、タンパク質データバンク(PDB)を、大規模で一般に利用可能な生物学的配列データベースの例として取り上げ、本発明に従って、上に記載のように得られたフィンガープリントデータストリングのリポジトリを使用して、処理した。様々な指標に関して結果を分析し、その選択を以下に提示する。
【0175】
図12および
図13は、それぞれ、長さが最大50および長さが5000超の処理されたタンパク質配列のHYFT(商標)カバレッジ率(%)を示す。ここで、カバレッジ率は、配列単位がHYFT(商標)フィンガープリントに起因する配列の全長の一部である。言い換えると、カバレッジ率は、1つ以上の第1の部分の長さの合計を、配列の全長で割ったものである。
【0176】
逆統計(inverse statistic)、すなわち、HYFT(商標)フィンガープリントによってカバーされない配列の全長の一部(または、1つ以上の第2の部分の長さの合計を配列の全長で割ったもの)が、長さが5000超場までの場合について、
図14に示されている。
【0177】
上記に関連して、
図15は、度数分布の形態で処理された配列あたりの取得されたHYFT(商標)の数の概要を示す。
【0178】
注目すべきことに、これらのチャートは、少なくとも1つのHYFT(商標)フィンガープリントがすべての処理された生物学的配列において見出されたことを示している。実際、1つ以上のHYFT(商標)でカバーされていないPDB配列は1つもなかった。さらに、長い配列は、HYFT(商標)パターンによって幅広くカバーされ、カバレッジの広がりは、配列の長さが増加するにつれて、一般に薄くなる。平均で、80%に近いカバレッジ率が達成されている。
【0179】
図16に、観察された典型的な間隔が示され、HYFT(商標)フィンガープリントの前後に現れる第2の部分の長さの度数分布が示されている。
【0180】
全体として、上記の結果は、事実上すべてのタンパク質配列(および伸長DNAおよび/またはRNA配列)が、本発明によるHYFT(商標)フィンガープリントデータストリングのリポジトリに基づいて、1つ以上のHYFT(商標)(すなわち、HYFT(商標)パターン)のストリングとして書き換えられ得ることを支持する。さらに、一般的に達成される良好なカバレッジ率のため、処理された配列は依然として、それらの未処理の対応物の本質的な特徴を依然として保持しており、特に、識別されたHYFT(商標)だけが保持されるのではなく、これは、識別されたHYFT(商標)の前、間、および後の間隔(すなわち、第2の部分の長さ)などの追加のデータ(上記を参照)で拡張される。HYFT(商標)パターンに基づく高性能なインデックス化が、ほぼ完璧な取得率で達成され得る。
【0181】
実施例2b:使用されたマッチング戦略の効果
本発明に従って生物学的配列を処理する際に異なる戦略を用いることができるため、2つの異なるアプローチの違いを調べた。第1のアプローチでは、PDBデータベースの生物学的配列を、HYFT(商標)フィンガープリントの重複を含むHYFT(商標)フィンガープリントのすべての出現について、HYFT(商標)フィンガープリントが重要でなくなる順序で、検索した。第2のアプローチでは、PDBデータベースの生物学的配列を、より厳密な様式を使用して検索した。検索は、最長から最短へのHYFT(商標)フィンガープリントの順序で、同じ長さの場合、最小から最大への組み合わせ数の順序で実行され、HYFT(商標)の重複は許されない(すなわち、HYFT(商標)に対応していることが見出される部分は、その後、さらなるHYFT(商標)の検索では除外される)。第2のアプローチの目標は、オーバーラップを許容せず、余り厳しくないHYFT(商標)(すなわち、組み合わせ数がより大きく、長さがより短い)に対して、よりもより厳しいHYFT(商標)(すなわち、組み合わせ数がより小さく、長さがより長い)を優先することによって、良好なカバレッジを確保しながら、処理された生物学的配列を記述する最小の数のHYFT(商標)を特定することである。
【0182】
図17に、生物学的配列あたりの見出された異なるマッチ数が、互いに対してプロットされている。観察されるように、概して線形の関係が見出され、実際、より厳しい第2のアプローチのマッチ数は、第1のアプローチのマッチ数よりも、概ね約5倍少ない。これらのより少ないマッチ数は、HYFT(商標)フィンガープリントを識別するためと、その後に処理された配列をさらなる方法で使用するための両方の処理時間の増加、および必要な記憶空間の増加につながるが、それでもなお、配列全体を十分に特徴付けている。したがって、第2のアプローチは最適なバランスを取ると考えられ、一般的に好ましい。
【0183】
しかし、上記にもかかわらず、第1のアプローチを使用して見出されるマッチの数および性質は、同等のk-merアプローチよりも低く、かつ良好であることに留意されたい。したがって、第2のアプローチは、第1のアプローチよりも概して好ましい場合があるが、それにもかかわらず、第1のアプローチは、既知の技術的方法よりも有利なままである。
【0184】
実施例3:従来技術で既知の配列検索と、本明細書に記載の配列検索と、の間の比較
実施例3a:短い検索ストリングを使用すること
検索ストリング「AVFPSIVGRPRHQGVMVGMGQKDSY」に基づいて、2つの別個の検索を行った。これは、25配列単位の長さを有する比較的短いタンパク質配列に対応し、例えば、タンパク質配列決定におけるタンパク質断片であり得る。かかる検索は、例えば、断片との配列アセンブリにおいて使用される好適な参照配列決定を識別することの一部として、断片の配列決定後に使用され得る。
【0185】
最初の検索は、BLAST(Basic Local Alignment Search Tool)、より具体的には、「Protein BLAST」(URL:https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthomeで利用可能)を使用して行った。次の検索パラメータを使用した。データベース=タンパク質データバンク(pdb)、アルゴリズム=blastp(タンパク質-タンパク質BLAST)、最大標的配列=1000、短いクエリ=短い入力配列のパラメータの自動調整、期待閾値=20000、単語サイズ=2、マトリックス=PAM30、組成調整=調整なし。BLASTは、この検索に30秒以上かかり、その後、604件の検索結果が返された。
【0186】
他方で、本発明の原理に基づいて、「IVGRPRHQGVM」は、上記の短いタンパク質配列に含まれる特徴的な生物学的部分配列(すなわち、「HYFT(商標)フィンガープリント」)であると判定された。したがって、第2の検索を、検索ストリング「IVGRPRHQGVM」に基づいて、処理された生物学的配列のリポジトリで行った。このリポジトリは、BLAST(すなわち、タンパク質データバンク、PDB)で使用されるものと同じタンパク質データベースに基づいており、フィンガープリントデータストリングのリポジトリ(上記を参照)を使用して以前に処理されていた。すなわち、フィンガープリントデータストリングによって表される特徴的な生物学的部分配列が識別され、公的に入手可能な生物学的配列のセットで標識された。この検索では、661件の結果が返された。BLASTとは対照的に、この場合、必要な時間枠はわずか196ミリ秒であった。したがって、このような比較的短い配列であっても、本発明の方法は、既知の方法と比較して、所要時間を150倍超短縮できることが観察された。
【0187】
ここで、
図18、
図19、および
図20を参照して、それらの全長(
図18)、それらのレーベンシュタイン距離(
図19)、および最長共通サブストリング(
図20)に関して、これらの探索の両方の結果を示す(BLAST=点線、本方法=実線)。各グラフについて、検索結果が、プロットされたパラメータ(すなわち、全長、レーベンシュタイン距離、または最長共通サブストリング)に関して、低いものから高いものへの順に示されている。さらに、検索結果のうちの1つ、つまり、タンパク質配列5NW4_V(すなわち、BLASTによって列挙された最初の結果)が参照として選択され、それに関して、レーベンシュタイン距離および最長共通サブストリングが計算された。これらの図から分かるように、本方法では、BLAST結果と比較して、検索結果の全範囲にわたって、全長のより小さな変動(結果のかなりの部分にまたがる相対的なプラトーによって特徴付けられる)、かなり短いレーベンシュタイン距離、およびかなり大きな最長共通サブストリングが得られた。これらの組み合わせは、本発明の方法が、実行される検索により関連性の高い結果を識別することができたことを示唆する。
【0188】
実施例3b:検索ストリングとして長いタンパク質を使用すること
前の実施例の繰り返しになるが、今度は、完全なタンパク質配列である3MN5_A(359配列単位の長さを有する)を検索した。
【0189】
BLASTを使用した最初の検索では、88件の検索結果が返された。
【0190】
一方、本発明の原理に基づいて、6つの特徴的な生物学的部分配列(すなわち、「HYFT(商標)フィンガープリント」)が、配列3MN5_Aに見出され得ることが決定されて、これらは、以下のように表された。
+4641474444415052415646_1、+495647525052485147564d_1、
+4949544e5744444d454b49_1、+494d464554464e5650414d_1、
+494b454b4c435956414c44_1、および+49474d4553414749484554_1。
ここで、例えば、「49474d4553414749484554」は、それぞれの16進数形式での部分配列に対応する。したがって、第2の検索は、前の実施例と同じ処理された生物学的配列のリポジトリにおいて、同じ順序で同じ6つの特徴的な生物学的部分配列を含むそれらのタンパク質配列を見つけるために実行された。この検索では、661件の結果が返された。
【0191】
ここで、
図21、
図22、および
図23を参照して、それらの全長(
図21)、それらのレーベンシュタイン距離(
図22)、および最長共通サブストリング(
図23)に関して、これらの探索の両方の結果を示す(BLAST=点線、本方法=実線)。各グラフについて、検索結果が、プロットされたパラメータ(すなわち、全長、レーベンシュタイン距離、または最長共通サブストリング)に関して、低いものから高いものへの順に示されている。この場合、元の照会配列3MN5_Aに関して、レーベンシュタイン距離および最長共通サブストリングが計算された。これらの図から分るように、両方の方法についての検索結果の特徴は、極値でも比較的同等である。しかしながら、本方法は、中間範囲で、全長の変動がほとんどなく、レーベンシュタイン距離が短く、最長共通サブストリングがかなり長い、プラトーの結果もたらした。これらの組み合わせは、本発明の方法がより多くの関連する結果を識別することができたことを示唆する。
【0192】
好ましい実施形態、特定の構造および構成、ならびに材料は、本発明によるデバイスについて本明細書で論じられてきたが、形態および詳細における様々な変更または修正は、本発明の範囲および技術的教示から逸脱することなく行われ得ることを理解されたい。例えば、上で与えられた任意の定式は、使用され得る手順の代表的なものにすぎない。機能は、ブロック図から追加または削除され得、操作は機能ブロック間で交換され得る。ステップが、本実施形態の範囲内で記載される方法に対して、追加または削除され得る。
【手続補正書】
【提出日】2021-09-16
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】配列表
【補正方法】追加
【補正の内容】
【配列表】
【国際調査報告】