特表2022-519686 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ バイオクルービーブイの特許一覧

特表2022-519686生物学的配列決定

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-03-24

(54)【発明の名称】生物学的配列決定

(51)【国際特許分類】

G16B 30/20 20190101AFI20220316BHJP

【ＦＩ】

G16B30/20

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2021545985

(86)(22)【出願日】2020-02-07

(85)【翻訳文提出日】2021-08-04

(86)【国際出願番号】 EP2020053222

(87)【国際公開番号】W WO2020161345

(87)【国際公開日】2020-08-13

(31)【優先権主張番号】19156086.1

(32)【優先日】2019-02-07

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】19190900.1

(32)【優先日】2019-08-08

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】521345936

【氏名又は名称】バイオクルービーブイ

(74)【代理人】

【識別番号】100114775

【弁理士】

【氏名又は名称】高岡亮一

(74)【代理人】

【識別番号】100121511

【弁理士】

【氏名又は名称】小田直

(74)【代理人】

【識別番号】100202751

【弁理士】

【氏名又は名称】岩堀明代

(74)【代理人】

【識別番号】100208580

【弁理士】

【氏名又は名称】三好玲奈

(74)【代理人】

【識別番号】100191086

【弁理士】

【氏名又は名称】高橋香元

(72)【発明者】

【氏名】ヴァンハイフテ，ダーク

(72)【発明者】

【氏名】ヴァンハイフテ，アルノウト

(72)【発明者】

【氏名】ブランズ，イングリッド

(72)【発明者】

【氏名】ヴァンハイフテ，エバルト

(57)【要約】

【特許請求の範囲】

【請求項1】

生物学的配列データベースのフィンガープリントデータストリングのリポジトリ（１００）に含まれる情報を考慮に入れて、バイオポリマーまたはバイオポリマー断片（５００）を配列決定するための方法であって、
各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、前記生物学的配列データベースに、それが利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の前記組み合わせ数は、前記生物学的配列データベース中に前記生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義され、
前記リポジトリは、前記生物学的配列データベース中に対応する前記特徴的な生物学的部分配列の連続した配列単位として現れる前記異なる配列単位を表す組み合わせデータをさらに含み、
前記方法は、
ａ．シーケンサを使用して前記バイオポリマーまたはバイオポリマー断片の少なくとも１つのリードを得ることと、
ｂ．
ｂ１．前記フィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列のうちの１つ以上の出現について前記リードを検索すること、および
ｂ２．前記特徴的な生物学的部分配列に連続する配列単位が前記リポジトリ内の前記組み合わせデータに適合するか否かを判定することによって、前記リードを検証するか、または拒否すること、ならびに／または
ｂ１’．前記フィンガープリントデータストリングによって表される前記特徴的な生物学的部分配列のうちの１つの出現について、前記リードの先頭部および／または尾部を検索すること、および
ｂ２’．前記リポジトリの前記組み合わせデータからの前記リードに対する１つ以上の連続した配列単位を予測すること、のコンピュータ実装ステップによって前記リードを処理することと、を含む、方法。

【請求項2】

前記リポジトリは、少なくとも
－第１の長さの第１の特徴的な生物学的部分配列を表す第１のフィンガープリントデータストリングと、
－第２の長さの第２の特徴的な生物学的部分配列を表す第２のフィンガープリントデータストリングと、を含み、
前記第１の長さおよび前記第２の長さは、４以上に等しく、前記第１の長さと前記第２の長さとは、互いに異なる、請求項１に記載の方法。

【請求項3】

ステップａは、前記バイオポリマーまたはバイオポリマー断片の複数のリードを得ることを含み、ステップｂは、前記バイオポリマーまたはバイオポリマー断片のすべてのリードが得られる前に開始される、請求項１または２に記載の方法。

【請求項4】

ステップｂ２および／またはｂ２’は、
－前記特徴的な生物学的部分配列がバイオポリマーに存在する場合、前記特徴的な生物学的部分配列の二次構造、および／もしくは三次構造、および／もしくは四次構造に関連するデータ、ならびに／または
－前記特徴的な生物学的部分配列と１つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータ、ならびに／または
－前記フィンガープリントデータストリングに関する間隔に関連するデータ、ならびに／または
－前記フィンガープリントデータストリングの方向に関連するデータの使用を含む、請求項１～３のいずれかに記載の方法。

【請求項5】

前記フィンガープリントデータストリングは、本質的に方向付けられ、位置情報を含み、前記方法は、ステップｂ１および／またはｂ１’で識別された前記特徴的な生物学的部分配列を使用して、前記処理されたリードを有向グラフと整列させるさらなるステップを含む、請求項１～４のいずれかに記載の方法。

【請求項6】

前記整列は、可能な配列のバリエーションを識別することを含む、請求項５に記載の方法。

【請求項7】

前記方法は、前記処理されたリードを、それらをソートすることによって折り畳むことをさらに含む、請求項１～６のいずれかに記載の方法。

【請求項8】

前記方法は、前記得られたデータをサブリードグラフおよび／またはリードグラフに変換することをさらに含む、請求項１～７のいずれかに記載の方法。

【請求項9】

前記方法は、デッドエンドおよび／またはループを除去することのうちのいずれかをさらに含む、請求項１～８のいずれかに記載の方法。

【請求項10】

前記方法は、前記処理および／または整列から得られた情報に基づいて、前記配列決定を動的に適合させることを含む、請求項１～９のいずれかに記載の方法。

【請求項11】

前記動的に適合させることは、前記配列決定システムを使用して得られる必要があるリードの数に関するフィードバックを提供することを含み、および／または前記処理および／または整列から得られた情報に基づいて誤ったリードとして破棄されるリードに関するフィードバックを提供することを含み、および／または前記方法は、リードに向けてまたはリードまでバックトラックすることを含む、請求項１０に記載の方法。

【請求項12】

請求項１～１１のいずれかに記載の方法のステップａを実行するように適合されたシーケンサ（３５０）。

【請求項13】

請求項１～１１のいずれかに記載の方法を実行するように適合された、請求項１２に記載のシーケンサ（３５０）。

【請求項14】

前記リードをデータ処理システムに送信するように適合された、請求項１２に記載のシーケンサ（３５０）。

【請求項15】

前記データ処理システムからのフィードバックを受信するように適合された、請求項１４に記載のシーケンサ（３５０）。

【請求項16】

システムであって、
ｉ．請求項１４または１５に記載のシーケンサ（３５０）と、
ｉｉ．データ処理システムであって、
－前記シーケンサ（３５０）から前記リードを受信し、および
－請求項１～１１のいずれかに記載の方法のステップｂを実行することによって前記リードを処理するように適合された、データ処理システムと、を含む、システム。

【請求項17】

コンピュータによって実行された場合、前記コンピュータに、請求項１～１１のいずれかに記載の方法を実行させる命令を含む、コンピュータプログラムまたはコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、生物学的配列情報の取り扱いに関し、より具体的には、当該生物学的配列情報を、例えば、配列決定および／または配列アセンブリによって生成することに関する。配列決定プロセス中に生物学的配列情報を生成するためのシステムおよび方法が提供される。

【背景技術】

【0002】

生物学的配列決定は、過去数十年間に目のくらむような速さで進化しており、これまでにヒトゲノムプロジェクトが可能になり、すでに１５年以上も前に、ヒトゲノムの完全な配列決定が達成された。この進化を促進するために、試料調製および配列決定方法の進歩から、データの取得、処理、および分析に至るまで、十分な技術的進歩が必要とされてきた。同時に、ゲノミクス、プロテオミクス、バイオインフォマティクスなどの新しい科学分野が生まれ、発展してきた。

【0003】

ポストゲノム時代にデータの取得が重視されてきたことで、この進化により、膨大な量の配列データの蓄積がもたらされた。しかしながら、この配列を整理し、分析し、解釈して、そこから生物学的に関連する情報を抽出する能力が、遅れをとっている。この問題は、依然として日常的に生成されている新しい配列情報の規模によって、さらに複雑になっている。Ｍｕｉｒらは、これがパラダイムシフトを引き起こしていることを観察し、結果として変化する配列決定のためのコスト構造および他の関連するハードルについてコメントしている（ＭＵＩＲ，Ｐａｕｌ，ｅｔａｌ．Ｔｈｅｒｅａｌｃｏｓｔｏｆｓｅｑｕｅｎｃｉｎｇ：ｓｃａｌｉｎｇｃｏｍｐｕｔａｔｉｏｎｔｏｋｅｅｐｐａｃｅｗｉｔｈｄａｔａｇｅｎｅｒａｔｉｏｎ．Ｇｅｎｏｍｅｂｉｏｌｏｇｙ，２０１６，１７．１：５３．）。

【0004】

現在、最も頻繁に用いられる配列決定方法は、いわゆる「ハイスループット」または「次世代配列決定」（ＮＧＳ）のものである。第１の世代の配列決定とは対照的に、ＮＧＳは、典型的には、高スケーラブルであり、ゲノム全体を一度に配列決定することを可能にすることを特徴とする。典型的には、これは、より大きな配列をより小さな断片に断片化し、断片について無作為にサンプリングし、それを配列決定することによって達成される。異なる断片を配列決定した後、配列アセンブリを使用して元の配列を再構築することができ、配列断片は、それらの重複領域に基づいて整列および融合される。

【0005】

しかしながら、シーケンサは完璧ではなく、特にハイスループットが求められる場合には、配列決定エラー（挿入、置換、および欠失など）が常に発生する可能性がある。構築された配列断片がエラーを含む場合、対応する領域が重複しなくなり得るため、これは、明らかに元の配列の再構築を複雑にする。さらに、エラーは、例えば、誤ったバリアントコーリングの結果として、最終配列に伝播し得る。これらの配列決定エラーに対処するためのいくつかの戦略が開発されており、例えば、Ｓｈｍｉｌｏｖｉｃｉらによって開示されている（ＳＨＭＩＬＯＶＩＣＩ，Ａｒｍｉｎ；ＢＥＮ－ＧＡＬ，Ｉｒａｄ．ＵｓｉｎｇａＶＯＭｍｏｄｅｌｆｏｒｒｅｃｏｎｓｔｒｕｃｔｉｎｇｐｏｔｅｎｔｉａｌｃｏｄｉｎｇｒｅｇｉｏｎｓｉｎＥＳＴｓｅｑｕｅｎｃｅｓ．ＣｏｍｐｕｔａｔｉｏｎａｌＳｔａｔｉｓｔｉｃｓ，２００７，２２．１：４９－６９．）。しかしながら、（断片）配列が正しいかどうか、またはそれが１つ以上の配列エラーを含むかどうかを直接検証する効率的な方法は現在知られていない。

【0006】

ゲノムグラフは、単一リードからの配列再構築のための参照として使用され、かかる配列は、典型的には、より短いＤＮＡまたはＲＮＡの配列である。それによって、線形参照は、１つの単一ゲノムの表現である。完全に表現するためには、標本が有し得るすべてのバリエーションを見つけるために、複数のゲノムを組み合わせる必要がある。

【0007】

パンゲノムグラフ（ｐａｎｇｅｎｏｍｅｇｒａｐｈ）を正確に構築するには、複数の問題が発生する。第一に、最良に構築された参照ゲノムでさえ、ギャップとエラーが含まれる。第二に、グラフマッピングのプロセスが実行される場合、後で生じる問題に対応するために、必要なすべての情報を包含するのに好適なグラフ表現を見つけることができない。ド・ブラウングラフ、有向グラフ、または双向グラフでも、鎖を正確に表すことができない。第三に、現在の技術を使用して参照コホートを作成することが可能であるように思われるが、構造座標が欠如しているため、実践では、構築されたコホートが本質的に使用不可能である。

【0008】

さらに、グラフは、運用サイトの定義を欠いている。対数複雑性のため、繰り返し領域は、既知のｋ－ｍｅｒベースの技術を使用して表すことがさらに困難である。結論として、最先端技術を使用してすべての必要なデータを保持することが不可能であるために、１つの種についてのグラフ構造におけるバリエーションのコホートを構築することはほぼ不可能であり、ましてや、すべての生物種についてのグラフを構築することは不可能である。

【0009】

構造的バリアントは、癌および他の疾患の発達において重要な役割を果たすが、読み取られたデータからの信頼性の高い同定が欠如しているため、単一ヌクレオチドバリエーションよりも十分に研究されていない。ｋ－ｍｅｒの技術を使用する場合、バリエーションの検出ウィンドウは、定義ごとに、ｋ－ｍｅｒの全長よりも小さくなる。ｋ－ｍｅｒウィンドウの問題を克服するためのアルゴリズムを使用すると、構造的分散を効果的に識別することができない。わずか１つの構造バリエーションの証拠を見つけるにも、高いカバレッジが必要である。したがって、ｋ－ｍｅｒの使用は、ノイズおよび読み取りエラーから実際の変動が効果的に識別され得る前に、大きなプールを必要とする。ｋ－ｍｅｒを整列する動的アルゴリズムが欠如しているため、ｋ－ｍｅｒの多くが困難な計算上の問題につながる。動的プログラミングの使用のために問題が生じ、この動的アプローチの非実現性は、ヒューリスティクスの固有の使用につながる。これは、検索空間を縮小するためのヒューリスティクスまたはパラメータ化の必要性を例示している。それにもかかわらず、後者は必然的なエラーの蓄積をもたらし、これはｋ－ｍｅｒが統合された空間パターンには効果的でないことを示している。現時点では、これは厳密に一次元である構文的（ｓｙｎｔａｃｔｉｃ）な方法でのみ解決されている。

【0010】

マッピングおよび構築プロセスのＮＰ困難な性質により、貪欲アルゴリズムは、典型的には、これらの問題を解決するために使用され、それによって、拡張マトリックスが特定の入力から適切な結果を計算するために使用される。

【0011】

動的プログラミングが用いられているが、それに伴う問題は、ソースデータ（位置、リードＩＤなどのパラメータ）が失われ、バックトラッキングが不可能になっていることである。

【0012】

上記の問題はすべて、効率的かつ正確なグラフの折り畳みをほぼ不可能にしている。これによって、使用可能なパンゲノムグラフを構築するために必要な精度または位置データを提供することが不可能になる。さらに、ｋ－ｍｅｒの使用は、遺伝子情報における多次元パラメータを区別するための特異性を欠く。これが、現在のゲノムグラフの非効率的な構築にさらに加わり、構造的分散、バイアスを呼び出すことができないこと、または高度な反復領域を効果的に包含することができないこと、によって示される。

【0013】

したがって、当該技術分野では、配列決定および配列アセンブリのさらなる改善が依然として必要とされている。

【発明の概要】

【0014】

生物学的配列（ｂｉｏｌｏｇｉｃａｌｓｅｑｕｅｎｃｅ）情報を生成するための優れた方法を提供することが、本発明の目的である。この目的は、本発明による方法、デバイス、およびデータ構造によって達成される。

【0015】

第１の態様では、本発明は、フィンガープリントデータストリングのリポジトリに含まれる情報を考慮して、バイオポリマーまたはバイオポリマー断片を配列決定するための方法に関し、この方法は、（ａ）シーケンサを使用して、当該バイオポリマーまたはバイオポリマー断片の少なくとも１つのリードを得ることと、（ｂ）（ｂ１）フィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの１つ以上の出現についてリードを検索すること、および（ｂ２）各出現について、特徴的な生物学的部分配列に連続する配列ユニットがリポジトリ内の組み合わせデータに適合するか否かを判定することによって、リードを検証するか、または拒否すること、ならびに／または（ｂ１’）フィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの１つの出現についてリードの先頭部および／または尾部を検索すること、および（ｂ２’）リポジトリ内の組み合わせデータからリードに対する１つ以上の連続した配列ユニットを予測すること、のコンピュータ実装ステップによってリードを処理することと、を含む。本明細書では、フィンガープリントデータストリングのリポジトリは、生物学的配列データベースのためのものであり、各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースに、それが利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベース中に生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義され、リポジトリは、生物学的配列データベース中に対応する特徴的な生物学的部分配列の連続した配列単位として現れる異なる配列単位を表す組み合わせデータをさらに含む。

【0016】

本発明の実施形態の利点は、システムおよび方法が得られ、複雑性の低減が提供される。

【0017】

本発明の実施形態の利点は、決定論的、すなわち、所与の解決策につながるシステムおよび方法が得られることである。

【0018】

本発明の実施形態の利点は、バイオポリマーおよびバイオポリマー断片の配列決定が、フィンガープリントデータストリングのリポジトリに含まれる情報に依拠することによって改善され得る（例えば、エラーの尤度を低減することによって、またはプロセスを高速化することによって）ことである。

【0019】

本発明の実施形態の利点は、暫定的に提案された生物学的配列を検証するか、または拒絶することができることである。本発明の実施形態の利点は、配列決定中に生じるエラーを低減することができることである。

【0020】

本発明の実施形態の利点は、配列中の次の単位を予測することによって、またはそのための選択肢の数を制限することによって、配列決定の速度を改善することができることである。

【0021】

本発明の実施形態の利点は、システムおよび方法が、決定論的文字を有する、すなわち、方法およびシステムが、バイオポリマーまたはバイオポリマー断片の配列の識別／特徴付けのための特定の解決策の決定をもたらすことである。

【0022】

本発明の実施形態の利点は、システムおよび方法が、リードＩＤの追跡を続けることを可能にすることである。システムおよび方法は、バックトラッキング、例えば、リードに対するエラーまたは不確実性のバックトラッキングを可能にする。

【0023】

本発明の実施形態の利点は、本発明の実施形態において、最先端のシステムの少なくとも大部分とは対照的に、配列決定が依然として実行中であっても、生成された各リードが瞬時に分析され得ることである。このようにして、本発明の少なくとも一部の実施形態によれば、例えばサブグラフの構築などの、データ処理は、配列決定開始中に第１のリードを受信するときに、瞬時に開始することができ、したがって、このデータ処理は、累進プロセスであり得る。それは、リードの収集と並行して実行され得る。本発明の実施形態のさらなる利点は、配列決定されている生物学的配列が、完全な配列決定が完了する前に十分に識別されたと判定されるとき、配列決定を早期に終了することができることである。

【0024】

第２の態様では、本発明は、第１の態様の任意の実施形態による方法のステップａを実行するように適合されたシーケンサに関する。

【0025】

第３の態様では、本発明は、システムであって、（ｉ）第２の態様によるシーケンサと、（ｉｉ）シーケンサからリードを受信し、かつ第１の態様の任意の実施形態による方法のステップｂを実行することによってリードを処理するように適合されたデータ処理システムと、を含むシステムに関する。

【0026】

本発明の実施形態の利点は、用途に応じて、コンピュータベースのシステムまたはシーケンサなどの様々なシステムおよびデバイスによって本方法のステップが実装され得ることである。本発明の実施形態のさらなる利点は、本方法が、クラウドベースのシステムを含むコンピュータベースのシステムによって実装され得ることである。

【0027】

第４の態様では、本発明は、コンピュータプログラムであって、プログラムがコンピュータによって実行された場合、コンピュータに、第１の態様の任意の実施形態による方法を実行させる命令を含むコンピュータプログラムに関する。

【0028】

第５の態様では、本発明は、コンピュータ可読媒体であって、コンピュータによって実行された場合、コンピュータに、第１の態様の任意の実施形態による方法を実行させる命令を含むコンピュータ可読媒体に関する。

【0029】

本発明の特定の好ましい態様は、添付の独立したおよび従属する特許請求の範囲に記載される。従属する特許請求の範囲からの特徴は、独立した特許請求の範囲の特徴と組み合わされてもよく、他の従属する特許請求の範囲の特徴と組み合わされてもよく、単に特許請求の範囲に明示的に記載されているようなものではない。

【0030】

この分野では、デバイスの改善、変更、および進化が絶えず行われてきたが、本概念は、従来の慣行からの逸脱を含めて、実質的に新しい、新規の改善を表すと考えられ、この性質のより効率的で、安定した、信頼性の高いデバイスの提供をもたらす。

【0031】

本発明の原理を例示する付属の図面と併せて、以下の詳細な説明から、本発明の上記および他の特性、特徴および利点が明らかになるであろう。この説明は、本発明の範囲を限定することなく、例示のためにのみ与えられる。以下に引用される参考図は、添付の図面を参照する。

【図面の簡単な説明】

【0032】

【図1-2】本発明の実施形態によって可能になる、期待される進歩を示すグラフである。

【図3-6】本発明の実施形態による、システムを示す図である。

【図7】本発明のある実施形態による配列決定するための方法において実行され得る処理ステップの概略図を例示している。

【図8-11】本発明による実施形態で使用され得るいくつかのステップの概略表現である。

【図12-16】本発明の実施形態による、処理されたタンパク質データバンク（ＰＤＢ）の分析に関する様々な指標を示すチャートである。

【図17】２つの異なるマッチング戦略を使用してＰＤＢデータベースで見出されたＨＹＦＴ（商標）マッチ数を互いに対してプロットするチャートである。

【図18】一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果の全長を比較するグラフである。

【図19】一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果のレーベンシュタイン距離を比較するグラフである。

【図20】一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果の最長の共通サブストリングを比較するグラフである。

【図21】一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果の全長を比較するグラフである。

【図22】一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果のレーベンシュタイン距離を比較するグラフである。

【図23】一方は、先行技術の方法（点線）、および他方は、本発明の例示的な実施形態による方法（実線）を使用して、検索結果の最長の共通サブストリングを比較するグラフである。

【0033】

異なる図では、同じ参照符号は、同じまたは類似の要素を指す。

【発明を実施するための形態】

【0034】

本発明は、特定の実施形態に関して、および特定の図面に関して説明されるが、本発明はそれに限定されず、特許請求の範囲のみによって説明される。記載される図面は、概略のみであり、非限定的である。図面では、要素の一部のサイズは誇張的であり得、例示の目的で、スケール通りに描かれていない。寸法および相対寸法は、本発明の実施に対する実際の縮小に対応していない。

【0035】

さらに、説明および特許請求の範囲における第１、第２、第３などの用語は、類似の要素間を区別するために使用され、時間的、空間的、ランク付け、または任意の他の方法で配列を記述するために必ずしも使用されない。このように使用される用語は、適切な状況下で交換可能であり、本明細書に記載される本発明の実施形態は、本明細書に記載または例示される以外の配列で動作可能であることを理解されたい。

【0036】

さらに、説明および特許請求の範囲における「前」、「後」などの用語は、説明のために使用され、必ずしも相対的な位置を説明するために使用されない。このように使用される用語は、適切な状況下でそれらの対義語と交換可能であり、本明細書に記載される本発明の実施形態は、本明細書に記載または例示される以外の方向で動作可能であることを理解されたい。

【0037】

特許請求の範囲で使用される「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、その後に列挙される手段に限定されるものと解釈されるべきではなく、他の要素またはステップを除外しないことに留意されたい。したがって、記載された特徴、整数、ステップまたは構成要素の存在を特定するものと解釈されるべきであるが、１つ以上の他の特徴、整数、ステップまたは構成要素、またはそれらのグループの存在または追加を排除しない。したがって、用語「含む」は、記載された特徴のみが存在する状況と、これらの特徴および１つ以上の他の特徴が存在する状況とを包含する。したがって、「手段ＡおよびＢを含むデバイス」という表現の範囲は、構成要素ＡおよびＢのみからなるデバイスに限定されるものと解釈されるべきではない。これは、本発明に関して、デバイスの関連する構成要素がＡおよびＢのみであることを意味する。

【0038】

本明細書全体を通して、「一実施形態」または「ある実施形態」への言及は、その実施形態に関連して記載される特定の特徴、構造、または特性が、本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通した様々な箇所での「一実施形態では」または「ある実施形態では」という語句の出現は、必ずしもすべて同じ実施形態を指しているわけではないが、そのような場合もある。さらに、特定の特徴、構造、または特性は、１つ以上の実施形態では、本開示から当業者には明らかなように、任意の好適な様式で組み合わされてもよい。

【0039】

同様に、本発明の例示的な実施形態の説明では、本発明の様々な特徴が、時には、本開示を合理化し、様々な本発明の態様のうちの１つ以上の理解を助ける目的で、単一の実施形態、図面、またはその説明に一緒にまとめられることがあることを理解されたい。しかしながら、この開示の方法は、特許請求される発明が、各特許請求の範囲で明示的に列挙されたものよりも多くの特徴を必要とするという意図を反映しているものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、前述の単一の開示された実施形態のすべての特徴よりも少ない特徴にある。したがって、詳細な説明に続く特許請求の範囲は、ここに、この詳細な説明に明示的に組み込まれ、各特許請求の範囲は、本発明の別個の実施形態として、それ自体で成り立っている。

【0040】

さらに、本明細書に記載される一部の実施形態は、他の実施形態に含まれるいくつかの（しかし、その他ではない）特徴を含むが、当業者に理解されるように、異なる実施形態の特徴の組み合わせは、本発明の範囲内であり、異なる実施形態を形成することを意味する。例えば、以下の特許請求の範囲では、特許請求される実施形態のいずれかは、任意の組み合わせで使用され得る。

【0041】

さらに、実施形態のいくつかは、方法として、または方法の要素の組み合わせとして、本明細書に記載され、コンピュータシステムのプロセッサによって、またはその機能を実行する他の手段によって、実装され得る。したがって、かかる方法または方法の要素を実行するために必要な命令を有するプロセッサは、方法または方法の要素を実行する手段を形成する。さらに、装置の実施形態の本明細書に記載される要素は、本発明を実施する目的のための要素によって行われる、機能を実行するための手段の一例である。

【0042】

本明細書に提供される説明では、多数の特定の詳細が記載される。しかしながら、本発明の実施形態は、これらの特定の詳細なしに実施され得ることを理解されたい。他の場合、周知の方法、構造、および技術は、この説明の理解を曖昧にしないために詳細に示されていない。

【0043】

以下の用語は、本発明の理解を助けるためにのみ提供される。

【0044】

本明細書で使用される場合、生物学的配列は、少なくともバイオポリマーの一次構造を定義するバイオポリマーの配列である。バイオポリマーは、例えば、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、またはタンパク質であり得る。バイオポリマーは典型的には、バイオモノマー（例えば、ヌクレオチドまたはアミノ酸）のポリマーであるが、場合によっては、１つ以上の合成モノマーをさらに含み得る。

【0045】

本明細書で使用される場合、生物学的配列における「配列単位」は、生物学的配列がタンパク質に関連する場合はアミノ酸であり、生物学的配列がＤＮＡまたはＲＮＡに関連する場合はコドンである。

【0046】

本明細書で使用される場合、生物学的部分配列（ｓｕｂｓｅｑｕｅｎｃｅ）は、生物学的配列の一部であり、完全長の生物学的配列よりも小さい。生物学的部分配列は、例えば、１００配列単位以下、好ましくは５０以下、さらにより好ましくは２０以下の全長を有してもよい。

【0047】

本明細書で使用される場合、「特徴的な生物学的部分配列」（または「（ＨＹＦＴ（商標））フィンガープリント」）、「（ＨＹＦＴ（商標））フィンガープリントデータストリング」および「（ＨＹＦＴ（商標））フィンガープリントマーカー」の区別がなされる。１つ目は、特定の特徴を有する部分配列であり、以下でより詳細に説明されている。２つ目は、そのようなＨＹＦＴ（商標）フィンガープリントのデータ表現であり、任意選択的に、追加のデータ（以下を参照）と組み合わされ、これは、例えば、対応するリポジトリに記憶され得る。一部の実施形態では、１つのＨＹＦＴ（商標）フィンガープリントデータストリングは、複数の同等のＨＹＦＴ（商標）フィンガープリントを同時に表すことができる（例えば、同じアミノ酸をコードする複数のコドンの場合など、同じ結果のコード化を通して同等であり得るか、または翻訳を通して同等であり得る、以下を参照）。３つ目は、ＨＹＦＴ（商標）フィンガープリントが配置され得るメモリアドレスなどのＨＹＦＴ（商標）フィンガープリントへのポインタであり、そこに、ＨＹＦＴ（商標）フィンガープリントが位置され得るか、またはフィンガープリントデータストリングのリポジトリにおいてＨＹＦＴ（商標）フィンガープリントを見つけることを可能にする参照であり得る。それにもかかわらず、それらの密接な関係を考慮すると（これらの３つの用語間の厳密な区別が引き出される必要がない場合、または文脈上で意味が明確である場合）、これらは、本明細書では単に「ＨＹＦＴ（商標）」と称され得る。

【0048】

本明細書で使用される場合、「生物学的配列」と「処理された生物学的配列」と間の区別が行われる。前者は、当該技術分野で広く知られている生物学的配列であり、一方、後者は、本発明のＨＹＦＴ（商標）フィンガープリントと関連付けられたフィンガープリントマーカーを含む再構築された／書き換えられた生物学的配列である。

【0049】

ＨＹＦＴ（商標）フィンガープリントデータストリングも、処理された生物学的配列も、これらを記憶するリポジトリも、認知データとみなすことはできず、それらが（ヒト）ユーザーを対象としていないことは明らかであろう。代わりに、それらは、コンピュータ（または、同様の技術システム）によって、様々なコンピュータ実装方法における機能データとして使用されることが意図され、その効果を発揮するように構成される。例えば、リポジトリは、関係データベース（例えば、ＳＱＬに基づく）またはＮｏＳＱＬデータベース（例えば、ＸＭＬデータベースなどのドキュメント指向データベース）としての構造であり得る。同様に、ＨＹＦＴ（商標）フィンガープリントデータストリングおよび／または処理された生物学的配列は、かかるデータベースに好適なエントリとして構成され得る。

【0050】

本明細書で使用される場合、一部の概念は、タンパク質に関する実施例で例示され、考えられるモノマー配列単位は、２０個の正規（または「標準」）アミノ酸であると仮定される。しかしながら、これは単に例示を簡略化するためのものに過ぎず、同様に、類似の実施形態は、拡張された数のアミノ酸（例えば、非正規アミノ酸、またはさらには合成化合物を付加する）と共に、またはＤＮＡもしくはＲＮＡに関連して定式化することができることは明らかである。ＤＮＡまたはＲＮＡの場合、ＤＮＡまたはＲＮＡとタンパク質との間の関連は、コドンとアミノ酸との間の対応を通して容易に作成することができる。

【0051】

本明細書で使用される場合、「二次／三次／四次」は、「二次、および／または三次、および／または四次」を指す。

【0052】

以前、生物学的配列の一次構造は、本質的に独立した配列単位の選択からなり、その結果、例えば、ｍ個の可能な配列単位に基づく長さがｎの生物学的配列ではｍ^ｎ個（例えば、２０個の正規アミノ酸に基づくと、２０^ｎ個）が、原理的に存在すると想定されていたが、驚くべきことに、本発明の中で、これが事実上観察されないことに気付いた。確かに、特定の長さ以降から、あらゆる理論的な組み合わせが見られるわけではないことが発見された。一例のみを挙げると、タンパク質の部分配列「ＭＣＭＨＮＱＡ」は、公開データベースのいずれのタンパク質にも見られない。これは、データベース内の単なる欠落ではなく、この不在が物理的および／または化学的起源を有することが考えられてきた。理論に拘束されるものではないが、１つの可能な効果を挙げると、隣接アミノ酸（例えば、上記の例における「ＭＣＭＨＮＱ」）の立体障害は、１つ以上の他のアミノ酸（例えば、上記の例における「Ａ」）との結合を禁止し得る。したがって、不在の部分配列が特定されると、計算研究を使用して、この部分配列が潜在的に出現し得るかどうか、またはその存在が物理的にありえないのかどうか（もしくは、ありそうにないのかどうか、例えば、化学的に不安定であるため）を検証することができる。上で言及された「特定の長さ」は、検討されているデータセットに依存するが、例えば、公的に利用可能なタンパク質配列データベースの場合、約５個または６個のアミノ酸に対応する（これは、自然界で見られる全多様性を実質的に反映する）。より限定されたセット（例えば、特定の基準に基づいてフィルタリングされたセット、または特定の生物学的配列データベース、例えば、特定のドメインのために定式化されたセット）の場合、ｍ^ｎ組み合わせの理論上の最大値未満が、約４または５の長さについて既に見出されている。

【0053】

同時に、部分配列「ＭＣＭＨＮＱＡ」は存在しないため、部分配列「ＭＣＭＨＮＱ」は単に５個のアミノ酸の無造作な組み合わせではなく、追加の重要性を獲得し、かかる部分配列は、「特徴的な生物学的部分配列」または「（ＨＹＦＴ（商標））フィンガープリント」とさらに称されることになる。これらのＨＹＦＴ（商標）フィンガープリントの追加の意義または意味のため、本発明は、より意味的な様式で生物学的配列情報を取り扱うことが考慮され得る。一般に、特徴的な部分配列は、その連続した配列単位（すなわち、それに直接続くか、または先行する配列単位）に対して、配列単位の最大数（すなわち、それのために利用可能な異なる配列単位の総数、例えば、２０個未満の正規アミノ酸）よりも可能性が小さい選択肢（すなわち、より少ない組み合わせ数）を有することを特徴とし、言い換えれば、配列単位のうちの少なくとも１つは、それに続く（または先行する）ことができない。しかしながら、より厳密な定義を選択することが可能である（例えば、おそらくそれに続き得る１５以下の配列単位、または１０以下、５以下、３、２、さらには１配列単位を有する部分配列のみ）。さらに、ＨＹＦＴ（商標）フィンガープリントとして、かかる各部分配列を考慮するように選択され得るか、または（すなわち、非冗長である）別のＨＹＦＴ（商標）フィンガープリントをまだ含んでいないＨＹＦＴ（商標）フィンガープリントとして、それらの部分配列のみを考慮するように選択され得る。例えば、「ＭＣＭＨＮＱ」をＨＹＦＴ（商標）フィンガープリントとすると、「ＭＣＭＨＮＱ」を含む部分配列が長くなり、それに続く（または先行する）ことができる理論的な配列単位の数よりも少なくなる。その場合、長い配列と「ＭＣＭＨＮＱ」の両方をＨＹＦＴ（商標）フィンガープリントと見なすか、「ＭＣＭＨＮＱ」のみをＨＹＦＴ（商標）フィンガープリントと見なすかの選択肢がある。後者のアプローチは、典型的には、ＨＹＦＴ（商標）データストリングのリポジトリのサイズを保ちながら、それに関連する方法を高速化するのに好ましい場合がある。実際、ストリングと一致する生物学的配列を検索することは、典型的には、ストリングの長さが増すにつれて、よりリソースが集中し、より遅くなる。さらに、ＨＹＦＴ（商標）データストリングのリポジトリのサイズが増加するにつれて、特定のＨＹＦＴ（商標）データストリングの検索および取得は、通常、より長い時間がかかる。この非冗長アプローチでは、組み合わせの可能性が限定されたより長い部分配列は、依然として識別され得るが、次いでＨＹＦＴ（商標）のパターンとして（間隔の有無にかかわらず）識別することができる。そのため、このアプローチによって提供される利点は、必ずしも対応する情報の損失を伴わない。上記にもかかわらず、前者のアプローチはなおも可能であり、そうすれば、従来技術よりも有利であり続けることに留意されたい。

【0054】

次いで、驚くべきことに、限られたセットの特徴的な生物学的部分配列が同定され得ることを見出した。さらに、これらの特徴的な生物学的部分配列は、一方では、十分に特異的であるため、あらゆる特徴的な生物学的部分配列が、あらゆる生物学的配列に見出されることはなく、他方では、十分に共通しているため、既知の生物学的配列が、典型的には、これらのＨＹＦＴ（商標）フィンガープリントのうちの少なくとも１つを含むという、これらの間のバランスをとることが観察された。

【0055】

上記のアカウントのうち、ＨＹＦＴ（商標）フィンガープリントを識別し、対応するＨＹＦＴ（商標）データストリングのリポジトリ（または「ＨＹＦＴ（商標）リポジトリ」）を構築するためのプロトコルを定式化することができる。実際、目的は、生物学的配列データベース内の組み合わせの可能性が限定されているそれらの部分配列を識別することであるため、その中に現れない部分配列について、当該生物学的配列データベースを発掘することで十分である。かかる非発生部分配列（例えば、「ＭＣＭＨＮＱＡ」）が識別されると、１つの配列単位だけ短い部分配列（例えば、「ＭＣＭＨＮＱ」）は、ＨＹＦＴ（商標）フィンガープリントに対応する（ただし、より短い部分配列が現れるものとする）。識別されると、ＨＹＦＴ（商標）フィンガープリント上の追加データを得ることができる。例えば、組み合わせ数は、識別されたＨＹＦＴ（商標）フィンガープリントと他の配列単位との組み合わせ（例えば、「ＭＣＭＨＮＱＡ」の「Ａ」を毎回他の可能なアミノ酸のうちの１つと置き換える）について、生物学的配列データベースを検索し、出現することが見出される組み合わせの数をカウントすることによって得ることができる。任意選択的に、見つからない組み合わせも、別個に記憶してもよく、これらを、例えば、エラー検出用に使用してもよい。さらに、ＤＮＡ、ＲＮＡ、およびタンパク質間の対応は、典型的には、適用可能なコドン表を通して知られているので、特定のタイプのＨＹＦＴ（商標）フィンガープリントが識別されると（例えば、タンパク質ＨＹＦＴ（商標））、それは、異なるタイプの対応するＨＹＦＴ（商標）フィンガープリント（例えば、ＤＮＡおよび／またはＲＮＡＨＹＦＴ（商標））に翻訳され得る。上記のプロセスを繰り返し、少なくとも識別されたＨＹＦＴ（商標）を好適なフォーマットで記憶することによって、任意選択的に追加データおよび翻訳されたＨＹＦＴ（商標）－ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリと共に、最適に構築することができる。あるいは、またはそれと相補的に、少なくともいくつかのＨＹＦＴ（商標）フィンガープリントは、例えば、様々な部分配列を合成もしくはモデリングした後、検討中の生物学的配列データベースの文脈に出現し得ないか、または出現する可能性が非常に低い部分配列を識別することを通して、実験的もしくは計算的な方法によって見出され得る。

【0056】

上記において、生物学的配列データベースは、タンパク質データバンク（ＰＤＢ）などの公的に利用可能なデータベース、または独自のデータベースであってもよい。実施形態では、生物学的配列データベースは、複数の個々のデータベースの組み合わせであってもよい。例えば、ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリは、アクセスできる限り多くの（信頼できる）生物学的配列データベースを組み合わせた生物学的配列データベースから定式化することができ、それによって、自然界で見出されるすべての生物学的配列を実質的に表すＨＹＦＴ（商標）フィンガープリントデータストリングの一般的なリポジトリになることが求められる。逆に、特定のドメインでは、その特定のドメインを表す生物学的配列データベースに基づいて、ＨＹＦＴ（商標）フィンガープリントデータストリングの特定のリポジトリを構築することが実りあるものとわかる。かかる特定のリポジトリは、実施形態では、ＨＹＦＴ（商標）を含んでもよく、それらが自然界に現れるものの、この特定のドメインには現れないため、一般的なリポジトリには存在しない。同様に、ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリは、合成配列について構築され得、それ自体の特定の内容を有する。

【0057】

上記の発見に基づいて、異なるが相互に関連するそのすべての段階において、生物学的配列情報を取り扱うための新しいアプローチが、定式化され得る。これらのアプローチは、配列のより語彙的な分析に類似していると見なすことができる。図１に、結果が概略的に示され、配列単位数（ｎ）の増加に伴う、生物学的配列情報の複雑性のスケーリングを示す。この複雑さは、配列単位の可能な組み合わせの総数であり得るが、それは、次いで、それを取り扱うために（例えば、類似性検索を実行するために）必要な計算量（例えば、時間およびメモリ）にも関連する。実線の曲線は、すべての配列単位が独立して選択されると仮定した、理論的な組み合わせの数、ｍ^ｎとしてのスケーリングを示し、現在知られているアルゴリズムのスケーリングにも対応する。破線の曲線は、自然界で見出される（本発明内で観察される）実際の組み合わせの数を示し、曲線は、約５または６配列単位でｍ^ｎから出発し、大きなｎに対して漸近的に平坦になる。点線は、それに続き得る配列単位の数が１に等しい特徴的な配列に初めて対応する配列の数を示し、ここで、「初めて」とは、より長い配列が、すでにカウントされたＨＹＦＴ（商標）フィンガープリントを含む場合に、カウントされないことを意味する。したがって、後者は、（本発明において観察されるような）長さｎのＨＹＦＴ（商標）フィンガープリントの数に対応し、このとき、その定義は、それに潜在的に続き得る、かつ別の（より短い）ＨＹＦＴ（商標）フィンガープリントを既に含まない（上記を参照）１つの配列単位のみを有する部分配列として選択される。

【0058】

図２は、本発明の予測される利点を時間で示し、横軸上のマークは、現在を示す。曲線１は、ムーアの法則を参照する。曲線２は、取得した配列決定データの総量を示す。曲線３は、当該配列決定データの処理および維持の総コストを示す。本発明において提案される生物学的配列情報の取り扱いによって、データを配列決定するために必要な総記憶容量およびデータ処理および維持の総コストは、それぞれ曲線４および曲線５で示されるように低下することが予想される。

【0059】

ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリは、典型的には、特定の生物学的配列データベース（または、それらの組み合わせ）に関して構築されるが、これは、ＨＹＦＴ（商標）フィンガープリントデータストリングが、その特定の生物学的配列データベースにおける生物学的配列の取り扱いにのみ好適であることを意味しないことに留意されたい。実際、ＨＹＦＴ（商標）フィンガープリントデータストリングの一般的なリポジトリは、例えば、より特異的な生物学的配列の処理に使用され得る。他の場合、ＨＹＦＴ（商標）フィンガープリントデータストリングの特定のリポジトリは、リポジトリを定式化するために使用されるデータベースの範囲外にある生物学的配列の文脈で使用され得る。どちらの場合も、依然として有利な結果を得ることができる。いずれの場合も、ＨＹＦＴ（商標）フィンガープリントデータストリングの既存のリポジトリを特定の用途に使用することができるかどうか、または、それに専用のＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリを用いて、より良い結果が得られるかどうかを、試行錯誤によって常に判断することができる。同様に、ＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリは、生物学的配列データベースにおいて発見され得るすべてのＨＹＦＴ（商標）フィンガープリントを厳密に包含する必要はない。実際、部分リポジトリは、既に有益な結果を生み出している。かかる部分リポジトリは、例えば、選択された長さのＨＹＦＴ（商標）フィンガープリントに関連するものであり得る（すなわち、任意の長さのＨＹＦＴ（商標）フィンガープリントとは対照的である）。

【0060】

本発明は、フィンガープリントデータストリングのリポジトリを利用する。したがって、生物学的配列データベースのためのフィンガープリントデータストリングのリポジトリが記載され、各フィンガープリントデータストリングは、配列単位から構成される特徴的な生物学的部分配列を表し、各特徴的な生物学的部分配列は、生物学的配列データベースに、それが利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベース中に生物学的部分配列の連続した配列単位として現れる異なる配列単位の数として定義される。図４に、フィンガープリントデータストリング１００のリポジトリ（例えば、データベース）が概略的に示されており、以下により詳細に説明される。

【0061】

本発明の実施形態の利点は、特徴的な生物学的部分配列に対応するフィンガープリントデータストリングのリポジトリを提供することができることである。本発明の実施形態のさらなる利点は、生物学的部分配列が単一の長さ（例えば、ｋ－ｍｅｒのような場合）である必要がないことである。

【0062】

本発明の実施形態の利点は、さらなるデータ（例えば、メタデータ）、例えば、特徴的な生物学的部分配列に連続し得る（すなわち、直後または直前に続く）配列単位に関するデータ、特徴的な生物学的部分配列の二次／三次／四次構造に関するデータ（例えば、当該特徴的な生物学的部分配列がバイオポリマー内に存在する場合）、フィンガープリント間の関係に関するデータ（例えば、特徴的な生物学的部分配列と１つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータ）などをリポジトリに含めることができることである。

【0063】

実施形態では、リポジトリは、第１の長さの第１の特徴的な生物学的部分配列を表す第１のフィンガープリントデータストリングと、第２の長さの第２の特徴的な生物学的部分配列を表す第２のフィンガープリントデータストリングとを、少なくとも含み得、第１の長さおよび第２の長さは４以上に等しく、第１の長さと第２の長さとは、互いに異なる。

【0064】

実施形態では、長さは、配列単位の数に対応し得る。実施形態では、長さは、最大５００以下、例えば、最大１００以下、好ましくは５０以下、さらにより好ましくは２０以下であり得る。実施形態では、第１および第２の長さは、５以上、好ましくは６以上であり得る。実施形態では、特徴的な生物学的部分配列は、４～２０、好ましくは５～１５、さらにより好ましくは６～１２の長さを有し得る。

【0065】

実施形態では、フィンガープリントデータストリングのリポジトリは、互いに長さが異なる少なくとも３つのフィンガープリントデータストリング、好ましくは少なくとも４つ、さらにより好ましくは少なくとも５つ、最も好ましくは少なくとも６つのフィンガープリントデータストリングを含み得る。特徴的な生物学的部分配列は、それらの長さによって定義されるのではなく、それに続く（または先行する）可能な配列単位の数によって定義されるため、特徴的な生物学的部分配列のセットは、典型的には、様々な長さの部分配列を有利に含む。本発明におけるフィンガープリントデータストリングのリポジトリは、それが（当該技術分野で知られているように）様々な長さの生物学的部分配列を含む点で、例えば、ｋ－ｍｅｒの集合とは異なる。さらに、ｋ－ｍｅｒの集合は、典型的には、固定長がｋのあらゆる置換（すなわち、配列単位のすべての可能な組み合わせ）を含み、これは、フィンガープリントデータストリングの本リポジトリには当てはまらない。

【0066】

実施形態では、フィンガープリントデータストリングは、タンパク質フィンガープリントデータストリング、ＤＮＡフィンガープリントデータストリング、またはＲＮＡフィンガープリントデータストリング、またはそれらの組み合わせであり得る。複数の実施形態では、特徴的な生物学的部分配列は、特徴的なタンパク質部分配列、特徴的なＤＮＡ部分配列、または特徴的なＲＮＡ部分配列であり得る。実施形態では、フィンガープリントデータストリングのリポジトリは、タンパク質フィンガープリントデータストリング、ＤＮＡフィンガープリントデータストリング、ＲＮＡフィンガープリントデータストリング、またはこれらのうちの１つ以上の組み合わせを含み得る（例えば、それらからなる）。特徴的なタンパク質部分配列は、複数の実施形態では、特徴的なＤＮＡもしくはＲＮＡの部分配列に翻訳され得るか、またはその逆であり得る。この翻訳は、周知のＤＮＡおよびＲＮＡのコドン表に基づいてもよい。同様に、タンパク質フィンガープリントデータストリングは、ＤＮＡまたはＲＮＡのフィンガープリントデータストリングに翻訳され得る。実施形態では、ＤＮＡまたはＲＮＡフィンガープリントデータストリングのリポジトリは、等価なコドン（すなわち、同じアミノ酸をコードするコドン）に関する情報を含み得る。等価なコドンに関するこの情報は、そのようにフィンガープリントデータストリングに含まれ得るか、または、それとは別個にリポジトリに記憶され得る。特定の実施形態では、フィンガープリントデータストリングは、配列非依存的である形式であってもよく、フィンガープリントデータストリングならびに周囲のシステムおよびプロセスが、それらがＤＮＡ、ＲＮＡ、およびタンパク質配列と迅速に比較され得るような形式であることを意味する。これは、例えば、フィンガープリントデータストリングを使用する方法に、実行中に、必要な翻訳を行わせることによって達成され得る。かかるフィンガープリントデータストリングは、有利には、配列型にわたって普遍的に適用可能であるデータストリングの単一のリポジトリを定式化することを可能にする。

【0067】

実施形態では、フィンガープリントデータストリングのリポジトリは、フィンガープリントデータストリングのうちの少なくとも１つについての追加データをさらに含み得る。好ましい実施形態では、当該データは、フィンガープリントデータストリングに含まれ得る。代替的な実施形態では、当該データは、フィンガープリントデータストリングとは別個に記憶され得る。実施形態では、追加データは、組み合わせデータ、構造データ、関係データ、位置データ、および方向データのうちの１つ以上を含み得る。

【0068】

実施形態では、組み合わせデータは、特徴的な生物学的部分配列が生物学的配列に存在する場合、当該特徴的な生物学的部分配列に連続的であり得る（例えば、それらの組み合わせが安定であるように、それが直前または直後に現実的に現れ得る）１つ以上の配列単位に関連するデータであってもよい。実施形態では、組み合わせデータは、可能な配列単位の数、そのような可能な配列単位、各配列単位の尤度（例えば、確率）などを含み得る。

【0069】

実施形態では、構造データは、フィンガープリントデータストリングに埋め込まれた構造情報および／または空間形状情報（例えば、特徴的な生物学的部分配列がバイオポリマーに存在する場合、特徴的な生物学的部分配列の二次／三次／四次構造に関連するデータ）であってもよい。複数の施形態では、構造データは、可能な構造の数、そのような可能な構造、各構造の尤度（例えば、確率）などを含み得る。所与の特徴的な生物学的部分配列に対する複数の可能な二次／三次／四次構造の場合、リポジトリは、実施形態では、特徴的な生物学的部分配列および関連する二次／三次／三次構造の各組み合わせに対する別個のエントリを含んでもよい。代替的な実施形態では、リポジトリは、特徴的な生物学的部分配列と、その関連する複数の二次／三次／四次構造とを含む、１つのエントリを含んでもよい。実施形態では、二次／三次／四次構造（特に、四次構造）は、ＤＮＡおよびＲＮＡよりもタンパク質に関連してもよい。

【0070】

実施形態では、関係データは、特徴的な生物学的部分配列と１つ以上のさらなる特徴的な生物学的部分配列との間の関係に関連するデータであり得る。実施形態では、関係データは、その近傍に通常現れるさらなる特徴的な生物学的部分配列、その近傍に現れるさらなる特徴的な生物学的部分配列の尤度、互いに近接して現れるこれらの特徴的な生物学的部分配列の特定の有意性（例えば、形質または二次／三次／四次構造などの生物学的に関連する意味）などを含んでもよい。実施形態では、関係は、２つ以上の特徴的な生物学的部分配列間の経路の形態で表現されてもよい。実施形態では、関係は、特徴的な生物学的部分配列の順序および／またはそれらの間隔（ｉｎｔｅｒｄｉｓｔａｎｃｅ）を含んでもよい。実施形態では、追加のデータはまた、当該経路を構築するのに有用なメタデータを含み得る。

【0071】

実施形態では、位置データは、フィンガープリントデータストリングに関して（例えば、それらが表す特徴的な生物学的配列間の）間隔に関連するデータであってもよい。

【0072】

実施形態では、方向データは、フィンガープリントデータストリング（例えば、それらが表す特徴的な生物学的配列）の方向（例えば、固有の方向）に関連するデータであってもよい。

【0073】

一部の実施形態では、追加のデータは、既知のデータセットから取得されている場合があり、例えば、いくつかの生物学的配列の二次／三次／四次構造は、当該技術分野で利用可能である。他の実施形態では、追加のデータは、以下に記載されるように、処理された生物学的配列から抽出され得るか、または以下に記載されるように、処理された生物学的配列のリポジトリから抽出され得る。例えば、以下に記載されるように生物学的配列を処理した（または以下に記載されるように、処理された生物学的配列のリポジトリを構築した）後、特徴的な生物学的部分配列間の関係（例えば、経路）を抽出し、フィンガープリントデータストリングのリポジトリに追加してもよく、これは、図４に、処理された生物学的配列２１０および処理された生物学的配列のリポジトリ２２０からフィンガープリントデータストリングのリポジトリ１００までを指す破線の矢印によって概略的に示されている。

【0074】

実施形態では、フィンガープリントデータストリングは、本質的に方向付けされてもよい。実施形態では、フィンガープリントデータストリングは、方向を含み得る（すなわち、明示的に方向を含み得る）。ＨＹＦＴ（商標）フィンガープリントは、バイオポリマーまたはバイオポリマー断片で生じる実際の断片に基づいて定義されるため、バイオポリマーに生じる組み合わせの可能性についての自然界で生じる固有の物理的、化学的、および構造的な制限は、ＨＹＦＴ（商標）に本質的に存在する。ここで、「本質的に存在する」の下では、かかる情報が、追加のデータとしてリポジトリに明示的に含まれていなくても、ＨＹＦＴ（商標）に暗黙的に関連付けられている（または、少なくとも可能である）ことが理解される。したがって、そのような生物学的配列は、通常、固有の方向性を有する（すなわち、ＤＮＡ／ＲＮＡにおける５’から３’への方向、およびタンパク質におけるＮ末端からＣ末端への方向に従う）ため、この同じ方向性が、ＨＹＦＴ（商標）に本質的に存在する。実際の断片とのこの関連は、ＨＹＦＴ（商標）の最後の文字の後、または最初の文字の前に続き得るバイオポリマー断片の最大量における制限をさらに定義する。後者はまた、次のまたは前の可能な組み合わせの総量を表すパラメータ（すなわち、組み合わせ数）によって明示的に表現され得る。これにより、ＨＹＦＴ（商標）は、固有の（厳密な）方向を持つことになる。

【0075】

実施形態では、フィンガープリントデータストリングは、位置情報を含んでもよい。ＨＹＦＴ（商標）ならびにＨＹＦＴ（商標）間の文字は、構文レベルで相互に関連しているため、それら間または異なるＨＹＦＴ（商標）間の間隔を定義することができる。そのような位置または間隔は、ＨＹＦＴ（商標）に本質的に存在し得る位置情報に属する。

【0076】

実施形態では、フィンガープリントデータストリングはまた、構造的および／または空間形状情報を含んでもよい。また、特定のＨＹＦＴ（商標）またはＨＹＦＴ（商標）の組み合わせの可能な構造および／または空間形状は、固有の物理的、化学的、および構造的制限のために制限されている。かかる情報は、ＨＹＦＴ（商標）または相互に関連するＨＹＦＴ（商標）のセットにも本質的に存在する。

【0077】

【0078】

実施形態では、得られたリードは、初期（例えば、暫定的または部分的）生物学的配列であり得る。

【0079】

実施形態では、ステップｂ１および／またはステップｂ１’における検索は、以下に記載される生物学的配列を処理するための方法のステップｂについて記載される通りであってもよい。

【0080】

ステップｂ２に関して、リポジトリは、後続のＨＹＦＴ（商標）フィンガープリントの（例えば、前または後に）現れ得る配列単位に関する組み合わせデータを含むため、この情報を、リードがそれと一致しているかどうかを検証するために有利に使用することができる。そうでない場合、暫定的な生物学的配列を、拒否し、やり直すことができる。あるいは、同じことを、リードをＨＹＦＴ（商標）フィンガープリントとマッチングさせるのではなく、それを、見つからなかった生物学的配列と直接マッチングさせることによって達成することができる（上記を参照）。さらに、この一致の検証は、構造データ、関係データ、位置データ、および／または方向データなどの追加のデータの使用と組み合わせることができる（上記を参照）。かかる組み合わせは、例えば、既知のＨＹＦＴ（商標）フィンガープリントに一致するが、追加のデータによって設定された文脈では一致しないリードを拒否することを可能にすることができる。

【0081】

ステップｂ２’に関して、同じ組み合わせデータに基づいて、いくつかのＨＹＦＴ（商標）フィンガープリント（またはＨＹＦＴ（商標）フィンガープリントの組み合わせ）は、非常に限定された組み合わせ可能性を有することが知られているであろう（すなわち、低い組み合わせ数に対応する）。例えば、組み合わせ番号が１のＨＹＦＴ（商標）フィンガープリントの場合、次の配列ユニットは既知である。この情報は、その配列単位をリードに直接付加することによって、配列決定を高速化するために有利に使用することができ、それによって、実際の配列決定が、当該配列単位を超えてスキップすることを可能にする。実施形態では、リポジトリは、特定のＨＹＦＴ（商標）フィンガープリントの後に現れるための唯一の可能な選択肢である、２つ、３つ、またはそれより多い配列単位のシリーズに関するデータを含んでもよい。この場合、シリーズ全体が有利に、リードに直接付加され得、それによって、実際の配列決定がこれらの単位をスキップすることが可能になる。同様に、リポジトリが、観察されたＨＹＦＴ（商標）フィンガープリントについて、限定された数の（ただし、２つ以上の）選択肢が、さらなる配列単位（例えば、２つまたは３つの選択肢）として可能であることを示す場合、この情報は、依然として、シーケンサが、本インスタンスにおける特異的な配列単位をより迅速に識別することを可能にすることができる。さらに、組み合わせの数が少ないかかるＨＹＦＴ（商標）フィンガープリントについては、この場合の可能性の数は、組み合わせのデータを追加のデータの使用と組み合わせることによって、１に減少させることができる（または、したがって、少なくとも可能性は、所定の閾値を超える可能性がある）。同様に、かかる組み合わせは、組み合わせの可能性のいくつかを拒否することを可能にする文脈を設定することができ、それによって、例えば、残りの数を１に低減し、それにより、後続の配列単位を明らかにする。

【0082】

実施形態では、ステップｂ２および／またはｂ２’は、したがって、フィンガープリントデータストリングのリポジトリに関して上述したように、構造データ、関係データ、位置データ、および方向データのうちの１つ以上の使用を含み得る。

【0083】

実施形態では、配列決定は、シーケンサ（例えば、配列決定システム）を使用して、当該バイオポリマーまたはバイオポリマー断片の複数のリードを得ることを含み得る。実施形態では、ステップｂは、バイオポリマーまたはバイオポリマー断片のすべてのリードが得られる前に開始され得る。

【0084】

実施形態では、ステップｂは、例えば、以下に記載される生物学的配列を処理するための方法に従って、リードを解析すること（例えば、フィンガープリントデータストリングのリポジトリの情報を使用すること）を含み得る。実施形態では、ステップｂは、バイオポリマーまたはバイオポリマー断片についてのすべてのリードが得られる前に、複数のリードのうちの少なくとも１つを解析することを含み得る。

【0085】

実施形態では、本方法は、例えば、以下に記載される生物学的配列を比較するための方法に従って整列させ、および／または構築することにより、処理されたリードを整列させる（例えば、マッチングさせる）さらなるステップ（例えば、ステップｂに含まれる）を含み得る。実施形態では、整列は、ステップｂ１および／またはｂ１’で識別される特徴的な生物学的部分配列を使用することを含み得る。実施形態では、フィンガープリントデータストリングは、本質的に方向付けされてもよいし、位置情報を含んでもよい。実施形態では、当該整列は、処理されたリードを有向グラフと整列させることを含み得る。実施形態では、本方法は、バイオポリマーまたはバイオポリマー断片についてのすべてのリードが得られる前に、複数の処理されたリードのうちの少なくとも１つを整列させることを含み得る。少なくとも一部の実施形態では、当該整列は、処理されたリードを、有向非巡回グラフと整列させることであり得る。

【0086】

一部の実施形態では、整列は、ナバロ・レーベンシュタイン・マッチングを使用して行われ得る。ナバロ・レーベンシュタイン・マッチングのより詳細な説明は、例えば、Ｎａｖａｒｒｏ，ＴｈｅｏｒｅｔｉｃａｌＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ２３７（２０００）４５５－４６３．に見出すことができる。上述のデータ処理ステップのうちの１つ以上における結果に基づいて、フィードバック情報が、配列決定に関して生成され得る。かかる情報は、配列決定プロセスを制御するために、または対応するデータ処理を制御するために使用され得る。かかる制御は、例えば、利用可能である十分な情報が出現する場合に、配列決定プロセスを終了すること、１つ以上のリードを誤りであると識別すること、およびさらなるデータ処理においてこれらを無視すること、．．．を含み得る。

【0087】

従来技術では、典型的には、アセンブリステップは、配列決定が完全に完了した後にのみ開始することができるが、この配列決定は、例えば、すべてのリード情報が利用可能であるときにのみ構築することができる必要なｋ－ｍｅｒテーブルを定義するため、本発明の実施形態による方法およびシステムは、サブグラフを構築し、リードを得る漸進的かつ平行なプロセスを可能にする。このようにして、例えば配列決定が依然として実行中であり、すべてのリードがまだ利用可能ではないとしても、生成されたリードの瞬時の分析を有利に実行することができる。後者は、データのオンザフライ分析を可能にし、それによってデータ生成中、例えば配列データ生成中に、データ分析が実行される。一部の実施形態では、配列データ分析は、データ生成、例えば配列データ生成、と並行することができるであろう。それにもかかわらず、あるいは、データ解析を、データ生成とは別個に実行することができることに留意されたい。

【0088】

上記の原理は、高速なデータ分析システムおよび方法をもたらす。さらに、上記の原理は、配列決定マシン（すなわち、シーケンサ、以下を参照）に配列分析を直接組み込むことを可能にし、したがって、任意選択的にインライン分析であっても、高速な配列データの生成および分析を可能にする。このようにして、関連する出力をシーケンサで生成してしまうことができる。あるいは、同様の利点を、例えば分散コンピューティング環境で、ストリーミングデータ接続（以下を参照）を介してシーケンサをデータ処理システムと接続することによって達成することができる。

【0089】

実施形態では、本方法は、さらに、構築された生物学的配列のバリエーション、例えば、インデル、欠失、挿入、および／または反復を識別することを含み得る。

【0090】

実施形態では、本方法は、処理されたリードを、それらをソートすることによって折り畳むことをさらに含み得る。本発明の実施形態における折り畳みステップは、動的プログラミングに基づかないことに留意されたい。あらゆるＨＹＦＴ（商標）に、シャノンエントロピーを介して低下／最適化することができる特定の量のビットがある。ＨＹＦＴ（商標）および添付されたリードは、それらが保有する情報量（ビット）によってランク付けまたは分類できる。これはあらゆるＨＹＦＴ（商標）について等しくはないことから、次の組み合わせ数が最大ｎ－１であり得るため、非常に少ないビット量を有するＨＹＦＴ（商標）および対応するリードパターンと、より多量のビットを必要とするＨＹＦＴ（商標）およびリードパターンがあることになる。したがって、ソート機構では、グローバルビット閾値を設置して、計算プロセス中のあらゆる時点で使用されるビットの量を最適化することができる。これらの所与のタスクを実行するために並列化を通じて使用する必要があるハードウェアを最大限に活用することができる。このようにして、並列化を実行することができ、加速および真の最適化をもたらす。一部の実施形態では、ソートは、長さに基づいて実行され得る。実施形態では、分類は、リードにおけるＨＹＦＴ（商標）の位置に基づいて実行され得る。

【0091】

実施形態では、本方法は、得られたデータを、サブリードグラフおよび／またはリードグラフに変換することをさらに含み得る。

【0092】

実施形態では、本方法は、デッドエンドおよび／またはループを除去することのうちのいずれかをさらに含み得る。

【0093】

実施形態では、本方法は、当該処理および／または整列から得られた情報に基づいて、当該配列決定を動的に適合させることを含み得る。実施形態では、当該動的に適合させることは、配列決定システムを使用して得られる必要があるリードの数に関するフィードバックを提供することを含み得る。実施形態では、当該動的に適合させることは、当該処理および／または整列から得られた情報に基づいて、誤ったリードとして破棄されるリードに関するフィードバックを提供することを含み得る。

【0094】

実施形態では、本方法は、リードに向けてまたはリードまでバックトラックすることを含み得る。実施形態では、本方法は、例えばリードＩＤなどのメタデータを捕捉することと、プロセスを通じてこれを保持することと、をさらに含み得る。これは、バックトラッキング、例えば、リードに対するエラーまたは不確実性をバックトラックすることを有利に容易にし得る。

【0095】

本発明の実施形態によれば、サブグラフの構築および対応する処理を、別個のスレッドで実行することができる。これは、例えば、本発明による実施形態で本質的に導入され得るオートコンプリート機能によってさらに促進され得る。グラフまたはサブグラフの構築で一定の信頼閾値に達した（十分なカバレッジに匹敵する）場合、元のストリング再構築を完了するためにさらなるリード情報は必要ない。かかる情報は、フィードバックとして使用されてもよく、かかる情報に基づいて、配列決定を終了することが決定されてもよい。後者は、ヒト介入に基づいて実行され得るが、自動化され得ることもあり、システムからのフィードバックは、いつ配列決定を終了すべきかを決定するためにコントローラによって使用され得る。

【0096】

本発明の実施形態によれば、本方法は、フィードバック情報を生成するステップと、フィードバック情報に基づいて配列決定を制御するステップと、を含み得る。配列決定を制御するかかるステップは、十分な情報が得られることに基づいて、いつ配列決定を終了することができるかを決定すること、検出されたエラーを考慮していくつかのリードを使用すべきではないことを決定すること、他のタイプまたは異なるタイプのリードを収集することを決定すること、…を含み得る。

【0097】

第２の態様では、本発明は、第１の態様の任意の実施形態による方法のステップａを実行するように適合されたシーケンサに関する。図３は、フィンガープリントデータストリング１００のリポジトリに含まれる情報を使用してバイオポリマー（断片）５００を配列決定するシーケンサ３５０を概略的に示す。

【0098】

一部の実施形態では、シーケンサは、第１の態様の任意の実施形態による方法を実行する（例えば、ステップａおよびｂを実行する）ように適合されてもよい。

【0099】

他の実施形態では、シーケンサは、リードをデータ処理システムに送信する（例えば、ステップｂを実行するために）ように適合され得る。実施形態では、シーケンサは、データ処理システムからのフィードバックを受信するように（例えば、ステップｂの後またはステップ中に）さらに適合され得る。受信されたフィードバックは、例えば、データ処理システムの出力であってもよいし、シーケンサに対する命令であってもよい。命令は、配列決定方法を動的に適合させること（上記を参照）に照らしてもよく、例えば、配列決定を終了するか否か、特定のリードを再び得るか否かなどに関するフィードバックを含み得る。

【0100】

実施形態では、シーケンサは、ＤＮＡ、ＲＮＡシーケンサもしくはタンパク質シーケンサ、またはそれらの組み合わせであり得る。実施形態では、シーケンサは、アレイマシンであってもよい。例えば、シーケンサは、第１世代、次世代、または第３世代のＤＮＡ／ＲＮＡシーケンサ、マイクロアレイ、または質量分析デバイスであり得る。実施形態では、シーケンサは、遺伝子発現アレイでなど、複数の配列決定技術を組み合わせてもよい。

【0101】

シーケンサは、典型的には、より専用のデバイスであり、典型的には、配列決定を実行するためのさらなる技術的手段を含み得る。しかしながら、これは、シーケンサが１つ以上のさらなる方法（例えば、配列アセンブリ）も実行するように構成され得ることを排除するものではなく、その場合、シーケンサは、例えば、配列アセンブラとも称され得る。同様に、シーケンサは、分散コンピューティング環境（以下を参照）の一部であり得、例えば、クライアント側シーケンサは、物理的配列決定を実行し、クラウドベースのデータ処理システムと通信する。

【0102】

かかるシーケンサは、そのようなものとしてのシーケンサであってもよいし、シーケンサと配列アセンブラとの組み合わせであってもよい。実施形態では、シーケンサは、バイオポリマーまたはバイオポリマー断片のリードを得るために、およびすべてのリードが読み取られる前に、例えばさらなるリードの受信と同時に、リードを分析するために、適合され得る。実施形態では、シーケンサは、それのために、さらなるリードを得ることと同時に入力リードを処理するためのプロセッサを含み得る。さらに、一部の実施形態では、シーケンサは、リードを受信すること、および／またはデータを得られた結果の関数として処理すること、を制御するためのコントローラを含んでもよい。したがって、コントローラは、入力リードを処理するためにプロセッサから得られたフィードバックに基づいてシーケンサを制御するためのフィードバックループを含んでもよい。

【0103】

【0104】

実施形態では、データ処理システムは、シーケンサに関してオンサイト（例えば、同じ部屋内）またはオフサイト（例えば、クラウド内）に配置され得る。

【0105】

【0106】

第５の態様では、本発明は、コンピュータ可読媒体であって、コンピュータによって実行された場合、コンピュータに、第１の態様の任意の実施形態によるコンピュータ実装方法を実行させる命令を含むコンピュータ可読媒体に関する。

【0107】

また、上述したようなフィンガープリントデータストリングのリポジトリを構築および／または更新するためのコンピュータ実装方法であって、（ａ）生物学的配列データベース内の特徴的な生物学的部分配列を識別することであって、特徴的な生物学的部分配列は、利用可能な異なる配列単位の総数よりも少ない組み合わせ数を有し、生物学的部分配列の組み合わせ数は、生物学的配列データベースで生物学的配列の連続した配列単位として現れる異なる配列単位の数として定義される、特徴的な生物学的部分配列を識別することと、（ｂ）任意選択的に、識別された特徴的な生物学的部分配列を、１つ以上のさらなる特徴的な生物学的部分配列に翻訳することと、（ｃ）当該リポジトリに、識別された特徴的な生物学的部分配列および／または１つ以上のさらなる特徴的な生物学的部分配列を表す１つ以上のフィンガープリントデータストリングを入力することと、を含むコンピュータ実装方法が記載される。

【0108】

また、生物学的配列を処理するためのコンピュータ実装方法であって、（ａ）上述したようなフィンガープリントデータストリングのリポジトリから１つ以上のフィンガープリントデータストリングを得ることと、（ｂ）生物学的配列を、１つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列の出現について検索することと、（ｃ）ステップｂにおける各出現について、生じる特徴的な生物学的部分配列を表すフィンガープリントデータストリングと関連付けられたフィンガープリントマーカーを含む処理された生物学的配列を構築することと、を含むコンピュータ実装方法が記載される。図４は、フィンガープリントデータストリングのリポジトリ１００を使用して生物学的配列２００を処理し、それによって処理された生物学的配列２１０を得る配列処理ユニット３１０を概略的に示す。

【0109】

本発明の実施形態の利点は、生物学的配列が比較的容易にかつ効率的に処理することができることである。本発明の実施形態のさらなる利点は、生物学的配列を語彙的または意味的な様式で分析することができることである。

【0110】

本発明の実施形態の利点は、処理された生物学的配列が、識別された特徴的な生物学的部分配列を、対応するフィンガープリントデータストリングと関連付けられたマーカーによってその中で置き換えることによって構築され得ることである。

【0111】

本発明の実施形態の利点は、特徴的な生物学的部分配列の１つに対応しない生物学的配列の部分を様々な方法で取り扱うことができることである。一部の実施形態のさらなる利点は、生物学的配列が完全に可逆的な方法で処理され得ることである（すなわち、処理によって情報が失われることはない）。本発明の代替的な実施形態のさらなる利点は、生物学的配列が、より重要な情報がより圧縮された形式で蒸留されるように処理され得ることである。

【0112】

本発明の実施形態の利点は、処理された生物学的配列が、それらの未処理の対応物よりも少ない記憶空間を占めるように圧縮され得ることである。

【0113】

本発明の実施形態の利点は、生物学的配列の一部分を、特徴的な生物学的部分配列にマッチングすることは、単に一次構造に限定されず、二次／三次／四次構造も考慮され得ることである。

【0114】

本発明の実施形態の利点は、生物学的部分配列の二次／三次／四次構造が、それに含まれる特徴的な生物学的部分配列の既知の二次／三次／四次構造に基づいて、少なくとも部分的に解明され得ることである。本発明の実施形態のさらなる利点は、生物学的配列の設計（例えば、タンパク質の設計）が、支援または促進され得ることである。

【0115】

実施形態では、処理される生物学的配列は、第１の態様による配列決定方法によって得ることが可能な、生物学的ポリマー断片の生物学的配列であってもよい。

【0116】

一部の実施形態では、マーカーは、参照ストリングであってもよい。かかる参照ストリングは、例えば、リポジトリの対応するフィンガープリントデータストリングを指してもよい。他の実施形態では、マーカーは、そのようなフィンガープリントデータストリング、またはその一部であってもよい。

【0117】

実施形態では、生物学的配列は、（ｉ）１つ以上の第１の部分であって、各第１の部分は、１つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちの１つに対応する、第１の部分と、（ｉｉ）１つ以上の第２の部分であって、各第２の部分は、１つ以上のフィンガープリントデータストリングによって表される特徴的な生物学的部分配列のうちのいずれにも対応しない、第２の部分と、を含む。実施形態では、ステップｃにおいて処理された生物学的配列を構築することは、対応するマーカーによって少なくとも１つの第１の部分を置き換えることを含み得る。実施形態では、ステップｃにおいて処理された生物学的配列を構築することは、（例えば、マーカーに付加された）処理された生物学的配列に、当該第１の部分に関する位置情報を追加することを、さらに含み得る。実施形態では、ステップｃにおいて処理された生物学的配列を構築することは、少なくとも１つの第２の部分を不変のままにすること、および／または少なくとも１つの第２の部分を当該第２の部分の長さの指標によって置き換えること、および／または少なくとも１つの第２の部分を完全に除去すること、を含み得る。第２の部分を不変のままにする場合、生物学的配列は、完全に可逆的な方法で有利に処理され得る。

【0118】

実施形態では、処理された生物学的配列は、圧縮形式で定式化され得る。例えば、特徴的な生物学的部分配列（すなわち、第１の部分）を参照ストリングで置き換えることによって、かつ／または第２の部分をその長さの指標で置き換えるか、もしくはそれを完全に除去するかのいずれかによって、元の（すなわち、未処理の）生物学的配列よりも少ない記憶空間を必要とする処理された生物学的配列が得られる。追加のデータの圧縮は、複数のフィンガープリントを相互関係によって表すことができる経路を利用することによって達成され得る。

【0119】

複数の実施形態では、１つ以上のフィンガープリントデータストリングは、生物学的配列（例えば、タンパク質対ＤＮＡ対ＲＮＡの配列情報）とは異なる生物学的形式であり得、ステップｂは、検索の前に特徴的な生物学的部分配列を翻訳または転写することをさらに含み得る。

【0120】

実施形態では、ステップｂにおける検索は、部分マッチングまたは等価マッチング（例えば、等価のコドン、または同じ二次／三次／四次構造をもたらす異なるアミノ酸）を検索することを含み得る。実施形態では、ステップｂにおける検索は、特徴的な生物学的部分配列の二次／三次／四次構造を考慮してもよい。二次、三次、および四次構造は、典型的には、より進化的に保存され（例えば、その活性部位の二次／三次／四次構造が実質的に保存されているため）、バイオポリマーの機能を変化させない一次構造の変動がしばしば生じる。したがって、二次／三次／四次構造は、完全にマッチングする一次構造を厳密に検索する場合に失われるであろうバイオポリマーに関する関連情報を明らかにし得る。

【0121】

好ましい実施形態では、ステップｂにおける特徴的な生物学的部分配列の出現の検索は、特定の順序で実行され得る。実施形態では、順序は、特徴的な生物学的部分配列の長さおよび組み合わせ数に基づいてもよい。実施形態では、検索は、最も少ない組み合わせ数を有する最長の特徴生物学的配列から始まり、最も多い組み合わせ数を有する最短の特徴生物学的配列で終わるように、順番に実行してもよい。好ましい実施形態では、順序は、最長から最短への特徴的な生物学的部分配列であってもよく、同じ長さの特徴的な生物学的部分配列の場合、最小から最大への組み合わせ数であってもよい。他の実施形態では、順序は、最小から最大への組み合わせ数であってもよく、同じ組み合わせ数を有する特徴的な生物学的部分配列の場合、最長から最短への特徴的な生物学的部分配列であってもよい。実施形態では、順序は、文脈データなどの追加のデータをさらに考慮し得る（例えば、同じ長さで、同じ組み合わせ数を有する特徴的な生物学的部分配列のセット内で順序を決定するために）。

【0122】

実施形態では、本方法は、ステップｃの後に、さらなるステップｄを含んでもよく、上述したような構造データに基づいて、処理された生物学的部分配列の二次／三次／四次構造を、少なくとも部分的に推測する。二次／三次／四次構造のこの少なくとも部分的な解明は、生物学的配列の設計を支援および／または促進するのに役立ち得る。特徴的な生物学的部分配列の単一の一次構造が複数の二次または三次または四次構造に関連する実施形態では、二次／三次／四次構造は、特徴的な生物活性が見出される文脈（例えば、それが取り囲む特徴的な生物学的部分配列）に基づいて、曖昧性が解消され得る。かかる曖昧性解消に必要な情報は、例えば、上述したように、特徴的な生物学的部分配列と１つ以上のさらなる特徴的な生物学的部分配列との間の二次／三次／四次構造の観点での関係に関連するデータ（例えば、関係データ）の形態で、フィンガープリントデータストリングのリポジトリに見出すことができる。例えば、特定の第１のＨＹＦＴ（商標）フィンガープリントは、二次構造としてヘリックスまたはターン立体配置のいずれかを採用することが知られているが、特定の第２のＨＹＦＴ（商標）フィンガープリントが当該第１のＨＹＦＴ（商標）から一定の間隔内に存在する場合、常にヘリックス立体配置を採用することが知られている。このような場合、ＨＹＦＴ（商標）フィンガープリントのＨＹＦＴ（商標）パターンは、もし観察されると、第１のＨＹＦＴ（商標）の二次構造を、曖昧性解消のために使用することができる。

【0123】

フィンガープリントデータストリングが本質的に方向づけされ、位置情報を含む実施形態では、ステップｃは、処理された生物学的配列を有向グラフとして構築することを含み得る。実施形態では、有向グラフ（ｄｉｒｅｃｔｉｏｎａｌｇｒａｐｈ）は、有向非巡回グラフ（ｄｉｒｅｃｔｉｏｎａｌａｃｙｃｌｉｃａｌｇｒａｐｈ）であり得る。非巡回グラフに言及するとき、これは、ループが出現し得ないことを意味するのではなく、むしろ全体のグラフが環状でないことを意味することに留意されたい。本発明の実施形態で得られる再構築配列についての結果として得られるグラフ表現は、ＨＹＦＴ（商標）グラフと称され得る。そのようなＨＹＦＴ（商標）グラフは、普遍的なゲノムのグラフ表現を可能にし得る。

【0124】

実施形態では、処理された生物学的配列を構築することは、異なるフィンガープリントデータストリング間の間隔を考慮することを含み得、かつ／または有向グラフを構築するためのフィンガープリントデータストリングの方向（例えば、固有の方向）を考慮することを含み得る。

【0125】

実施形態では、処理された生物学的配列を構築することは、有向グラフを構築するためのフィンガープリントデータストリング内に埋め込まれた構造的および／もしくは空間形状情報を考慮することを含み得、かつ／またはフィンガープリントデータストリング内に埋め込まれた構文情報を考慮することを含み得る。

【0126】

実施形態では、ステップｂにおける検索は、位置情報、特徴的な生物学的配列の異なる要素間の間隔情報、特徴的な生物学的部分配列の二次構造、および／もしくは三次構造、および／もしくは四次構造、ならびに／または特徴的な生物学的部分配列の構造的バリエーションのうちのいずれかを考慮し得る。

【0127】

例示として、本発明の実施形態は、これらに限定されないが、特定の配列をどのように検索することができるかという例を以下に示す。本方法は、第１のステップにおいて、検索される配列に存在するＨＹＦＴ（商標）を識別することを含む。次いで、本方法は、そのＨＹＦＴ（商標）も含む参照データベースのすべての配列を検索することによって、参照データベースを照会することをさらに含む。次に、見出された異なる配列を選別し、例えば、長さによって選別し、配列中のＨＹＦＴ（商標）の位置を識別する。さらに、整列を行う。一部の実施形態では、整列は、ナバロ・レーベンシュタイン・マッチングを使用して行われ得る。ナバロ・レーベンシュタイン・マッチングのより詳細な説明は、例えば、Ｎａｖａｒｒｏ，ＴｈｅｏｒｅｔｉｃａｌＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ２３７（２０００）４５５－４６３．に見出すことができ、整列は、有向グラフ、例えば、有向非巡回グラフで行実行され得る。後者は、普遍的なゲノム参照グラフであってもよいが、実施形態はこれに限定されない。整列は、特定の配列に対するバリアントの識別を含み得る。上記のステップを実行するために、配列はさらに処理され得、それによって、例えば、デッドエンドおよびループが除去され得る。

【0128】

また、上述したような生物学的配列を処理するための、コンピュータ実装方法によって得ることが可能な、処理された生物学的配列が記載される。図４に、処理された生物学的配列２１０が、概略的に示されている。

【0129】

また、処理された生物学的配列のリポジトリを構築および／または更新するためのコンピュータ実装方法であって、当該リポジトリに、上述したような処理された生物学的配列を入力することを含む、コンピュータ実装方法が記載される。図４は、処理された生物学的配列２１０を、処理された生物学的配列のリポジトリ２２０に記憶するリポジトリ構築ユニット３２０を、模式的に示す。

【0130】

本発明の実施形態の利点は、処理された生物学的配列のリポジトリを構築し、記憶することができることである。

【0131】

また、上述したような処理された生物学的配列のリポジトリを構築および／または更新するためのコンピュータ実装方法によって得ることが可能な、処理された生物学的配列のリポジトリが記載される。図４に、２２０のリポジトリが概略的に示されている。

【0132】

利点は、処理された生物学的配列のリポジトリが、迅速に検索され、ナビゲートされ得ることである。さらなる利点は、リポジトリの記憶サイズが、それに圧縮処理された生物学的配列を入力することによって、既知のデータベースと比較して、比較的小さくなり得ることである。

【0133】

実施形態では、処理された生物学的配列のリポジトリは、フィンガープリントデータストリングのリポジトリと組み合わせることができる。

【0134】

実施形態では、リポジトリは、処理された生物学的断片配列（すなわち、バイオポリマー断片の処理された生物学的配列）のリポジトリであってもよい。

【0135】

実施形態では、リポジトリは、データベースであり得る。一部の実施形態では、処理された生物学的配列のリポジトリは、インデックス化されたリポジトリであってもよい。リポジトリは、例えば、各処理された生物学的配列に存在するフィンガープリントマーカー（特徴的な生物学的部分配列に対応する）に基づいて、インデックス化され得る。他の実施形態では、リポジトリは、グラフリポジトリであってもよい。

【0136】

また、第１の生物学的配列を第２の生物学的配列と比較するためのコンピュータ実装方法であって、（ａ）上述したようなコンピュータ実装方法によって第１の生物学的配列を処理して、第１の処理された生物学的配列を得るか、または上述したような処理された生物学的配列のリポジトリから第１の処理された生物学的配列を得ることと、（ｂ）上述したようなコンピュータ実装方法によって第２の生物学的配列を処理して、第２の処理された生物学的配列を得るか、または上述したような処理された生物学的配列のリポジトリから第２の処理された生物学的配列を得ることと、（ｃ）第１の処理された生物学的配列の少なくともフィンガープリントマーカーを、第２の処理された生物学的配列のフィンガープリントマーカーと比較することと、を含むコンピュータ実装方法が記載される。図５は、比較ユニット３３０を概略的に示し、少なくとも第１の生物学的配列２１１および第２の生物学的配列２１２を、出力結果４００と比較する。

【0137】

本発明の実施形態の利点は、生物学的配列の比較が、ＮＰ完全またはＮＰ困難な問題から多項式時間問題に変更され得ることである。発明の実施形態のさらなる利点は、比較が、大幅に短縮された時間で実施することができ、複雑性が増すと共に（例えば、生物学的配列の長さまたは数の増加）、良好に拡大することである。本発明の実施形態のさらなる利点は、必要な計算能力および記憶空間を削減することができることである。

【0138】

本発明の実施形態の利点は、生物学的配列間の類似性の程度を計算することができることである。本発明の実施形態のさらなる利点は、複数の生物学的配列がそれらの類似性の程度に基づいてランク付され得ることである。

【0139】

本発明の実施形態の利点は、配列類似性検索が迅速かつ容易に（例えば、多項式時間において）実行され得ることである。

【0140】

本発明の実施形態の利点は、比較された生物学的配列が、容易かつ迅速に（例えば、多項式時間で）整列され得ることである。

【0141】

実施形態の利点は、複数の配列も、容易かつ迅速に比較および整列され得ることである。実施形態のさらなる利点は、現在知られている方法（例えば、累進整列（ｐｒｏｇｒｅｓｓｉｖｅａｌｉｇｎｍｅｎｔ）に基づく）の場合のように、整列中にエラーの蓄積がないことである。

【0142】

本発明の実施形態の利点は、バイオポリマー断片の配列が、元のバイオポリマー配列を再構築するために、容易かつ迅速に整列および融合され得ることである。

【0143】

本発明の実施形態による特徴的な生物学的部分配列を使用することによって（処理された生物学的配列内のフィンガープリントマーカーを介して）、配列を比較する問題は、ＮＰ完全またはＮＰ困難な問題から多項式時間問題へと有利に再定式化される。実際、配列内のフィンガープリントを識別し、続いてこれらのフィンガープリントに基づいて配列を比較することは、語彙的アプローチと見なされ得るが、現在使用されているアルゴリズム（例えば、スライディングウィンドウアプローチに基づいて全配列を比較する）よりも計算上はるかに単純である。したがって、この比較は、より少ない計算能力および記憶空間を必要としながらも、著しく速く実行することができ、さらには、複雑性の増加（例えば、生物学的配列の長さまたは数の増加）に伴って良好にスケールする。

【0144】

実施形態では、第２の生物学的配列は、参照配列であり得る。

【0145】

実施形態では、ステップｃは、第１の処理された生物学的配列の１つ以上の特徴的な生物学的部分配列（フィンガープリントマーカーによって表される）が、第２の処理された生物学的配列の１つ以上の特徴的な生物学的部分配列（フィンガープリントマーカーによって表される）と対応する（例えば、マッチングする）かどうかを識別することを含み得る。実施形態では、ステップｃは、対応する特徴的な生物学的部分配列が、第１の処理された生物学的配列におけるものと、第２の処理された生物学的配列におけるものとで、同じ順序で現れるかどうかを識別することを含んでもよい。実施形態では、ステップｃは、第１の処理された生物学的配列における特徴的な生物学的部分配列の１つ以上の対と、第２の処理された生物学的配列における特徴的な生物学的部分配列の１つ以上の対応する対とが、同じまたは類似の（例えば、１０００配列単位未満、例えば、１００配列単位未満、好ましくは５０配列単位未満、さらにより好ましくは２０配列単位未満、最も好ましくは１０配列単位未満が異なる）間隔を有するかどうかを識別することを含んでもよい。

【0146】

実施形態では、ステップｃは、第１の処理された生物学的配列の１つ以上の第２の部分を、第２の処理された生物学的配列の１つ以上の第２の部分と比較することをさらに含み得る。実施形態では、１つ以上の第２の部分を比較することは、対応する第２の部分を比較することを含み得る（すなわち、第１の処理された生物学的配列における特徴的な生物学的部分配列の隣接する対の間に現れる第２の部分と、第１の処理された生物学的配列における特徴的な生物学的部分配列の対応する隣接する対の間に現れる第２の部分）。

【0147】

実施形態では、ステップｃは、第１の生物学的配列と第２の生物学的配列との間の類似性の程度（例えば、レーベンシュタイン距離）を表す尺度を計算することをさらに含み得る。実施形態では、類似性の程度は、構文類似性の尺度を構造類似性の尺度と組み合わせるなど、複数の変数に基づいて計算され得る。

【0148】

実施形態では、本方法は、照会配列（ｑｕｅｒｙｓｅｑｕｅｎｃｅ）を１つ以上の他の生物学的配列（例えば、検索される配列データベースに対応する。例えば、処理された生物学的配列のリポジトリの形態で）と比較することによって、配列類似性検索で使用され得る。実施形態では、類似性の程度は、他の生物学的配列の各々について計算され得る。実施形態では、本方法は、生物学的配列をランク付けする（例えば、類似性の程度の減少によって）さらなるステップを含み得る。実施形態では、本方法は、生物学的配列をフィルタリングすることを含み得る。フィルタリングは、ステップｃの前および／または後に実行されてもよい。例えば、フィルタリングは、特定の基準に適合する生物学的配列のみを、例えば、それらが由来する生物または生物群（例えば、植物、動物、ヒト、微生物など）、二次／三次／四次構造が既知であるかどうか、その長さに基づいて、データベースから比較のために選択することによって実行されてもよい。あるいは、フィルタリングは、同じ基準に基づいて、または計算された類似性の程度に基づいて、比較が行われた後に実行されてもよい（例えば、類似性の特定の閾値を上回る配列のみが選択されてもよい）。従来技術における配列類似性検索（整列ステップが典型的に必要とされ、次いで類似性の尺度がそれから確立される）とは対照的に、整列は、実施形態による類似性検索のために厳密には必要ではない。実際、類似の配列は、整列なしで、同じフィンガープリントを有する配列を（任意選択的に、それらの順序およびそれらの間隔も考慮に入れて）検索することによって既に見つけることができ、ひいては、検索をさらに高速化することが可能になる。上記にもかかわらず、実施形態による整列（以下を参照）も、計算的に簡略化され、厳密には必要でなくても、とにかく整列を行うように選択することができる。

【0149】

したがって、本方法は、第１の生物学的配列と第２の生物学的配列との間の類似性を決定する（および、任意選択的に測定する）ことを可能にする。また、かかる比較は、整列および構築のための方法などの他の方法における基礎である（以下を参照）。

【0150】

実施形態では、本方法は、第１の生物学的配列を、第２の生物学的配列と整列させるためのものであってもよい。実施形態では、ステップｃは、第１の処理された生物学的配列のフィンガープリントマーカーを、第２の処理された生物学的配列のフィンガープリントマーカーと整列させることをさらに含み得る。図５は、生物学的配列がフィンガープリントマーカーによって整列される比較ユニット３３０（この場合、「整列ユニット３３０」と称される方がよい）からの出力結果４００を概略的に示す。

【0151】

したがって、単にフィンガープリントを整列することによって良好な整列を既に得ることができるため、実施形態では、整列も簡略化される。再度、これによって問題の計算複雑性が著しく低減される。さらに、累進整列に基づくものなどの従来技術の方法では、整列エラーの蓄積があり、前の配列のうちの１つに対する誤整列が典型的に伝播し、後の配列におけるさらなる誤整列を引き起こす。逆に、１つの（複数の）整列内に整列される（または、少なくともそれが試みられる）フィンガープリントマーカーの同じ個別のセットが毎回あるため、そのようなエラーの伝播はない。

【0152】

実施形態では、本方法は、対応する第２の部分を、その後、整列させることをさらに含み得る。第２の部分の整列は、例えば、従来技術で既知の整列方法の１つを使用して行われ得る。実際、整列の「骨格」は、フィンガープリントマーカーを整列させることによってすでに提供されているため、これらのマーカー間の整列のみが後に肉付けされる。これらの第２の部分の各々は、典型的には、生物学的配列の全長と比較して比較的短いため、既知の方法は、典型的には、かかる整列を、比較的迅速かつ効率的に行うことができる。

【0153】

実施形態では、本方法は、複数の配列整列を行うためのものであってもよい（すなわち、本方法は、３つ以上の生物学的配列を整列することを含み得る）。実施形態では、本方法は、第３（または第４など）の処理された生物学的配列のフィンガープリントマーカーを、第１および／または第２の処理された生物学的配列のフィンガープリントマーカーと整列させることを含んでもよい。図５に、これが概略的に示されており、整列ユニット３３０はまた、任意の数のさらなる処理された生物学的配列２１３～２１６を、比較および整列することができる。

【0154】

実施形態では、本方法は、バリアントコーリング（ｖａｒｉａｎｔｃａｌｌｉｎｇ）において使用され得る。２つの生物学的配列間の配列整列の場合、バリアントコーリングは、照会配列と参照配列との間のバリアント（例えば、変異）を識別し得る。複数の配列整列の場合、バリアントコーリングは、任意選択的に、参照配列に関して、関連する配列のセットにおける可能なバリエーション（それらの出現頻度を決定することを含み得る）を識別し得る。さらに、バリアントを識別することは、一次構造に基づいて実行され得るが、二次／三次／四次構造も考慮してもよい。したがって、バリアントを識別することは、一次構造に基づいて、二次／三次／四次構造に基づいて、さらに配列内のＨＹＦＴ（商標）に相関する距離のあらゆる可能な相互関係に基づいて、または以降のもしくは以前のＨＹＦＴ（商標）に関する距離情報に基づいて、実行され得る。バリアントを同定することは、コドン表のバリエーションに基づいてもよく、したがって、同じバリアント分析において、ＤＮＡ、ＲＮＡ、およびアミノ酸のバリエーションに関するじかに得た情報を収集することができる。

【0155】

実施形態では、本方法は、配列アセンブリを実行するためのものであってもよい。実施形態では、本方法は、（ａ）第１の生物学的配列を提供することであって、第１の生物学的配列が、第１のバイオポリマー断片の生物学的配列である、第１の生物学的配列を提供することと、（ｂ）第２の生物学的配列を提供することであって、第２の生物学的配列が、第２のバイオポリマー断片の生物学的配列であるか、または参照生物学的配列であるかのいずれかである、第２の生物学的配列を提供することと、（ｃ）第１の生物学的配列を、第２の生物学的配列に整列させることと、（ｄ）第１の生物学的配列を、第２の生物学的配列と融合させて、構築された生物学的配列を得ることと、を含む。図６は、最初に（それらのフィンガープリントマーカーによって）整列させ、続いて（少なくとも、第１の生物学的配列５０１と第２の生物学的配列５０２とを含む）任意の数の生物学的配列５００を融合することによって、構築された生物学的配列５１０を出力する配列構築ユニット３４０を、概略的に示す。

【0156】

実施形態では、本方法のステップａ～ｄは、任意の数の生体ポリマー断片を、整列および融合させるために繰り返され得る。

【0157】

配列決定を容易にするために、個々の断片は、当該技術分野で知られているように、より速くかつより容易に配列決定されるため（例えば、それらは並列で配列決定され得る）、より長いバイオポリマーは、断片化され得る。次いで、配列アセンブリを使用して、典型的には、断片配列を整列および融合させて、元の配列を再構築する。これはまた、「リードマッピング（ｒｅａｄｍａｐｐｉｎｇ）」と称されてもよく、断片配列からの「リード（ｒｅａｄ）」は、第２のバイオポリマー配列に「マッピング」される。実行される配列アセンブリの種類、例えば、デノボアセンブリ対マッピングアセンブリに応じて、第２のバイオポリマー配列は、適宜、第２のバイオポリマー断片または参照配列であるように選択され得る。本明細書では、デノボアセンブリは、テンプレート（例えば、骨格配列）を使用せずに、一からのアセンブリである。逆に、マッピングアセンブリは、１つ以上のバイオポリマー断片配列を既存の骨格配列（例えば、参照配列）にマッピングすることによるアセンブリであり、これは典型的には、将来再構築される配列と類似しているが、必ずしも同一ではない。参照配列は、例えば、完全なゲノムまたはトランスクリプトーム（の部分）に基づいてもよく、または以前のデノボアセンブリから得られたものであってもよい。

【0158】

実施形態では、本方法は、ステップｄの後に、さらなるステップｅを含んでもよく、上に記載のように、構築された生物学的配列を第２の生物学的配列に整列させる。この追加の整列は、第２の生物学的配列（例えば、参照配列）に関して構築された生物学的配列のバリアントコーリングを実行するために使用され得る。

【0159】

実施形態では、フィンガープリントデータストリングは、位置情報を含んでもよい。

【0160】

実施形態では、本方法は、さらに、例えば、インデル、欠失、挿入、および／または反復（実施形態はこれらに限定されない）のような変形を検出することを含み得る。

【0161】

実施形態では、第１の生物学的配列および／または第２の生物学的配列を提供することは、上述した方法を使用して実行され得る。

【0162】

また、上述したようなフィンガープリントデータストリングのリポジトリ、および／または上述したような処理された生物学的配列のリポジトリを含む記憶デバイスが記載される。

【0163】

さらに、処理システムであって、かかる記憶デバイスを含み、記憶デバイスからフィンガープリントデータストリングを得るため、および／または記憶デバイスにフィンガープリントデータストリングを記憶するため、および／または記憶デバイスのフィンガープリントデータストリングを検索するために適合されたプロセッサを含む処理システムが記載される。

【0164】

また、上述したようなコンピュータ実装方法のうちのいずれかを実行するように適合された（例えば、そのための手段を含む）データ処理システムが記載される。

【0165】

システムは、典型的には、それが実行することが意図される方法に応じて、異なる形態をとってもよい。実施形態では、システムは、配列処理ユニット、バリアントコーリングユニット、リポジトリ構築ユニット、比較ユニット、整列ユニット、または配列構築ユニットであってもよく、またはそれを含んでもよい。実施形態では、汎用データ処理手段（例えば、パーソナルコンピュータまたはスマートフォン）または分散計算環境（例えば、クラウドベースのシステム）は、これらの機能のうちの１つ以上を実行するように構成され得る。分散計算環境は、例えば、サーバデバイスおよびネットワーク化されたクライアントデバイスを含み得る。本明細書では、サーバデバイスは、１つ以上の方法の大部分を実行することができ、フィンガープリントデータストリングのリポジトリおよび処理された生物学的配列のリポジトリを記憶することが含まれる。他方、ネットワーク化されたクライアントデバイスは、命令（例えば、照会配列などの入力、および検索プリファレンスなどの設定）をサーバデバイスと通信してもよく、方法の出力を受信してもよい。

【0166】

また、コンピュータプログラム（製品）であって、プログラムがコンピュータ（システム）によって実行された場合、コンピュータに、上述したようなコンピュータ実装方法のうちのいずれかを実行させる命令を含む、コンピュータプログラム（製品）が記載される。

【0167】

また、プログラムがコンピュータシステムによって実行された場合、コンピュータシステムに、フィンガープリントデータストリングのリポジトリから、リポジトリで、またはリポジトリに、それぞれ、フィンガープリントデータストリングを得ること、検索すること、または記憶することを実行させる命令を含むコンピュータプログラム製品に関するコンピュータプログラム製品が記載される。

【0168】

また、コンピュータ可読媒体であって、コンピュータ（システム）によって実行された場合、コンピュータに、上述したようなコンピュータ実装方法のうちのいずれかを実行させる命令を含むコンピュータ可読媒体が記載される。

【0169】

また、バイオポリマーまたはバイオポリマー断片を配列決定すること、配列アセンブリを実行すること、生物学的配列を処理すること、処理された生物学的配列のリポジトリを構築すること、第１の生物学的配列と第２の生物学的配列とを比較すること、第１の生物学的配列と第２の生物学的配列とを整列させること、複数の配列整列を実行すること、配列類似性検索を実行すること、およびバリアントコーリングを実行することから選択される１つ以上のための、上述したようなフィンガープリントデータストリングのリポジトリの使用が記載される。

【0170】

また、第１の生物学的配列と第２の生物学的配列との比較、第１の生物学的配列と第２の生物学的配列との整列、複数の配列整列の実施、配列類似性検索の実施、およびバリアントコーリングの実施から選択される１つ以上のための、上述の処理された生物学的配列または上述の処理された生物学的配列のリポジトリの使用が記載される。

【0171】

実施形態では、上記の態様のうちのいずれかの任意の実施形態の任意の特徴は、独立して、他の態様または他の記載される主題のうちのいずれかの任意の実施形態について、対応して記載される通りであり得る。

【0172】

ここで、一部の実施形態の態様を、いくつかの実施形態の詳細な説明によって記載する。本発明の他の実施形態は、本発明の真の技術的教示から逸脱することなく、当業者の知識に従って構成され得、実施形態が、添付の特許請求の範囲の用語によってのみ限定されることは明らかである。

【0173】

実施例１：本発明の実施形態による配列決定
例示として、本発明の実施形態は、これらに限定されないが、可能な配列決定の実装形態の例を図７に示す。本図は、本発明の一実施形態による、配列決定方法の異なる可能な方法ステップを示す。本方法は、バイオポリマーまたはバイオポリマー断片についての少なくとも第１のリードを得た後と、典型的には、ＨＹＦＴ（商標）と称される、フィンガープリントを有する、入力リード、例えば受信されるリードを解析してバイオポリマーまたはバイオポリマー断片を配列決定するためにリードをさらに受信する間と、を含む。解析後、バイオポリマーまたはバイオポリマー断片の配列を表すグラフを得るために、整列（例えば、マッチング）が実行され得る。整列は、有向グラフ、例えば、有向非巡回グラフで実行され得る。後者は、普遍的なゲノム参照グラフであってもよいが、実施形態はこれに限定されない。整列は、特定の配列に対するバリアントの識別を含み得る。それにもかかわらず、概要グラフを構築するなどの中間ステップが実行されてもよく、それにより、処理された（例えば、解析された）配列は、概要グラフ内でのソートによってデータを折り畳むように、処理された配列間で共通であるかまたはリンクされている１つ以上のフィンガープリントの周りにグループ化される。かかる折り畳みは、１文字ずつ実行され得、ノードは、文字が異なるときに分割され得る。この方法はまた、サブリードグラフを形成することを含んでもよく、それによって、このステップでは、典型的には、デッドエンドまたはバブルが除去される。あるいはまたはさらに、デッドエンドおよび／またはバブルを除去することは、本方法の他のステップで実行され得ることに留意されたい。本方法はさらに、リードグラフの形成を含み得、サブリードグラフが組み合わされる。さらに、例示として、本発明の実施形態は、これらに限定されないが、異なるステップを図８～図１１に示す。図７は、ＨＹＦＴ（商標）で入力リードを解析するステップを例示している。図面に示される配列の一部は、それ自体、本発明の一部を形成するのではなく、かかるデータの処理を例示するためにのみ導入されることに留意されたい。リポジトリの特定のフィンガープリント、すなわちＨＹＦＴ（商標）の出現は、リードで識別される。図８は、概要グラフの構築を例示しており、それによって、異なる処理された配列が、見出されるリンクされたＨＹＦＴ（商標）の周りにグループ化される。図９は、概要グラフの構築を、それをソートすることによって折り畳むことを例示している。後者は、１文字ずつ、および文字が異なるときにノードを分割することによって、実行され得る。さらに、トラックは、ノードの上にある配列を保持し得る。典型的には、ＨＹＦＴ（商標）フィンガープリントから開始され、典型的には、１つの方向（例えば、右側）に移動し得る。図１１は、緩んだ端部が除去されるクリーニングステップを例示している。あるいは、またはそれに加えて、バブルまたは小さな内部ループも解決され得る。

【0174】

実施例２：タンパク質データバンクの処理
実施例２ａ：タンパク質データバンクの分析－そこで発見されたＨＹＦＴ（商標）フィンガープリントに関して
生物学的配列データベースにおけるＨＹＦＴ（商標）フィンガープリントの広範な存在を例示するために、タンパク質データバンク（ＰＤＢ）を、大規模で一般に利用可能な生物学的配列データベースの例として取り上げ、本発明に従って、上に記載のように得られたフィンガープリントデータストリングのリポジトリを使用して、処理した。様々な指標に関して結果を分析し、その選択を以下に提示する。

【0175】

図１２および図１３は、それぞれ、長さが最大５０および長さが５０００超の処理されたタンパク質配列のＨＹＦＴ（商標）カバレッジ率（％）を示す。ここで、カバレッジ率は、配列単位がＨＹＦＴ（商標）フィンガープリントに起因する配列の全長の一部である。言い換えると、カバレッジ率は、１つ以上の第１の部分の長さの合計を、配列の全長で割ったものである。

【0176】

逆統計（ｉｎｖｅｒｓｅｓｔａｔｉｓｔｉｃ）、すなわち、ＨＹＦＴ（商標）フィンガープリントによってカバーされない配列の全長の一部（または、１つ以上の第２の部分の長さの合計を配列の全長で割ったもの）が、長さが５０００超場までの場合について、図１４に示されている。

【0177】

上記に関連して、図１５は、度数分布の形態で処理された配列あたりの取得されたＨＹＦＴ（商標）の数の概要を示す。

【0178】

注目すべきことに、これらのチャートは、少なくとも１つのＨＹＦＴ（商標）フィンガープリントがすべての処理された生物学的配列において見出されたことを示している。実際、１つ以上のＨＹＦＴ（商標）でカバーされていないＰＤＢ配列は１つもなかった。さらに、長い配列は、ＨＹＦＴ（商標）パターンによって幅広くカバーされ、カバレッジの広がりは、配列の長さが増加するにつれて、一般に薄くなる。平均で、８０％に近いカバレッジ率が達成されている。

【0179】

図１６に、観察された典型的な間隔が示され、ＨＹＦＴ（商標）フィンガープリントの前後に現れる第２の部分の長さの度数分布が示されている。

【0180】

全体として、上記の結果は、事実上すべてのタンパク質配列（および伸長ＤＮＡおよび／またはＲＮＡ配列）が、本発明によるＨＹＦＴ（商標）フィンガープリントデータストリングのリポジトリに基づいて、１つ以上のＨＹＦＴ（商標）（すなわち、ＨＹＦＴ（商標）パターン）のストリングとして書き換えられ得ることを支持する。さらに、一般的に達成される良好なカバレッジ率のため、処理された配列は依然として、それらの未処理の対応物の本質的な特徴を依然として保持しており、特に、識別されたＨＹＦＴ（商標）だけが保持されるのではなく、これは、識別されたＨＹＦＴ（商標）の前、間、および後の間隔（すなわち、第２の部分の長さ）などの追加のデータ（上記を参照）で拡張される。ＨＹＦＴ（商標）パターンに基づく高性能なインデックス化が、ほぼ完璧な取得率で達成され得る。

【0181】

実施例２ｂ：使用されたマッチング戦略の効果
本発明に従って生物学的配列を処理する際に異なる戦略を用いることができるため、２つの異なるアプローチの違いを調べた。第１のアプローチでは、ＰＤＢデータベースの生物学的配列を、ＨＹＦＴ（商標）フィンガープリントの重複を含むＨＹＦＴ（商標）フィンガープリントのすべての出現について、ＨＹＦＴ（商標）フィンガープリントが重要でなくなる順序で、検索した。第２のアプローチでは、ＰＤＢデータベースの生物学的配列を、より厳密な様式を使用して検索した。検索は、最長から最短へのＨＹＦＴ（商標）フィンガープリントの順序で、同じ長さの場合、最小から最大への組み合わせ数の順序で実行され、ＨＹＦＴ（商標）の重複は許されない（すなわち、ＨＹＦＴ（商標）に対応していることが見出される部分は、その後、さらなるＨＹＦＴ（商標）の検索では除外される）。第２のアプローチの目標は、オーバーラップを許容せず、余り厳しくないＨＹＦＴ（商標）（すなわち、組み合わせ数がより大きく、長さがより短い）に対して、よりもより厳しいＨＹＦＴ（商標）（すなわち、組み合わせ数がより小さく、長さがより長い）を優先することによって、良好なカバレッジを確保しながら、処理された生物学的配列を記述する最小の数のＨＹＦＴ（商標）を特定することである。

【0182】

図１７に、生物学的配列あたりの見出された異なるマッチ数が、互いに対してプロットされている。観察されるように、概して線形の関係が見出され、実際、より厳しい第２のアプローチのマッチ数は、第１のアプローチのマッチ数よりも、概ね約５倍少ない。これらのより少ないマッチ数は、ＨＹＦＴ（商標）フィンガープリントを識別するためと、その後に処理された配列をさらなる方法で使用するための両方の処理時間の増加、および必要な記憶空間の増加につながるが、それでもなお、配列全体を十分に特徴付けている。したがって、第２のアプローチは最適なバランスを取ると考えられ、一般的に好ましい。

【0183】

しかし、上記にもかかわらず、第１のアプローチを使用して見出されるマッチの数および性質は、同等のｋ－ｍｅｒアプローチよりも低く、かつ良好であることに留意されたい。したがって、第２のアプローチは、第１のアプローチよりも概して好ましい場合があるが、それにもかかわらず、第１のアプローチは、既知の技術的方法よりも有利なままである。

【0184】

実施例３：従来技術で既知の配列検索と、本明細書に記載の配列検索と、の間の比較
実施例３ａ：短い検索ストリングを使用すること
検索ストリング「ＡＶＦＰＳＩＶＧＲＰＲＨＱＧＶＭＶＧＭＧＱＫＤＳＹ」に基づいて、２つの別個の検索を行った。これは、２５配列単位の長さを有する比較的短いタンパク質配列に対応し、例えば、タンパク質配列決定におけるタンパク質断片であり得る。かかる検索は、例えば、断片との配列アセンブリにおいて使用される好適な参照配列決定を識別することの一部として、断片の配列決定後に使用され得る。

【0185】

最初の検索は、ＢＬＡＳＴ（ＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ）、より具体的には、「ＰｒｏｔｅｉｎＢＬＡＳＴ」（ＵＲＬ：ｈｔｔｐｓ：／／ｂｌａｓｔ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／Ｂｌａｓｔ．ｃｇｉ？ＰＲＯＧＲＡＭ＝ｂｌａｓｔｐ＆ＰＡＧＥ＿ＴＹＰＥ＝ＢｌａｓｔＳｅａｒｃｈ＆ＬＩＮＫ＿ＬＯＣ＝ｂｌａｓｔｈｏｍｅで利用可能）を使用して行った。次の検索パラメータを使用した。データベース＝タンパク質データバンク（ｐｄｂ）、アルゴリズム＝ｂｌａｓｔｐ（タンパク質－タンパク質ＢＬＡＳＴ）、最大標的配列＝１０００、短いクエリ＝短い入力配列のパラメータの自動調整、期待閾値＝２００００、単語サイズ＝２、マトリックス＝ＰＡＭ３０、組成調整＝調整なし。ＢＬＡＳＴは、この検索に３０秒以上かかり、その後、６０４件の検索結果が返された。

【0186】

他方で、本発明の原理に基づいて、「ＩＶＧＲＰＲＨＱＧＶＭ」は、上記の短いタンパク質配列に含まれる特徴的な生物学的部分配列（すなわち、「ＨＹＦＴ（商標）フィンガープリント」）であると判定された。したがって、第２の検索を、検索ストリング「ＩＶＧＲＰＲＨＱＧＶＭ」に基づいて、処理された生物学的配列のリポジトリで行った。このリポジトリは、ＢＬＡＳＴ（すなわち、タンパク質データバンク、ＰＤＢ）で使用されるものと同じタンパク質データベースに基づいており、フィンガープリントデータストリングのリポジトリ（上記を参照）を使用して以前に処理されていた。すなわち、フィンガープリントデータストリングによって表される特徴的な生物学的部分配列が識別され、公的に入手可能な生物学的配列のセットで標識された。この検索では、６６１件の結果が返された。ＢＬＡＳＴとは対照的に、この場合、必要な時間枠はわずか１９６ミリ秒であった。したがって、このような比較的短い配列であっても、本発明の方法は、既知の方法と比較して、所要時間を１５０倍超短縮できることが観察された。

【0187】

ここで、図１８、図１９、および図２０を参照して、それらの全長（図１８）、それらのレーベンシュタイン距離（図１９）、および最長共通サブストリング（図２０）に関して、これらの探索の両方の結果を示す（ＢＬＡＳＴ＝点線、本方法＝実線）。各グラフについて、検索結果が、プロットされたパラメータ（すなわち、全長、レーベンシュタイン距離、または最長共通サブストリング）に関して、低いものから高いものへの順に示されている。さらに、検索結果のうちの１つ、つまり、タンパク質配列５ＮＷ４＿Ｖ（すなわち、ＢＬＡＳＴによって列挙された最初の結果）が参照として選択され、それに関して、レーベンシュタイン距離および最長共通サブストリングが計算された。これらの図から分かるように、本方法では、ＢＬＡＳＴ結果と比較して、検索結果の全範囲にわたって、全長のより小さな変動（結果のかなりの部分にまたがる相対的なプラトーによって特徴付けられる）、かなり短いレーベンシュタイン距離、およびかなり大きな最長共通サブストリングが得られた。これらの組み合わせは、本発明の方法が、実行される検索により関連性の高い結果を識別することができたことを示唆する。

【0188】

実施例３ｂ：検索ストリングとして長いタンパク質を使用すること
前の実施例の繰り返しになるが、今度は、完全なタンパク質配列である３ＭＮ５＿Ａ（３５９配列単位の長さを有する）を検索した。

【0189】

ＢＬＡＳＴを使用した最初の検索では、８８件の検索結果が返された。

【0190】

一方、本発明の原理に基づいて、６つの特徴的な生物学的部分配列（すなわち、「ＨＹＦＴ（商標）フィンガープリント」）が、配列３ＭＮ５＿Ａに見出され得ることが決定されて、これらは、以下のように表された。
＋４６４１４７４４４４４１５０５２４１５６４６＿１、＋４９５６４７５２５０５２４８５１４７５６４ｄ＿１、
＋４９４９５４４ｅ５７４４４４４ｄ４５４ｂ４９＿１、＋４９４ｄ４６４５５４４６４ｅ５６５０４１４ｄ＿１、
＋４９４ｂ４５４ｂ４ｃ４３５９５６４１４ｃ４４＿１、および＋４９４７４ｄ４５５３４１４７４９４８４５５４＿１。
ここで、例えば、「４９４７４ｄ４５５３４１４７４９４８４５５４」は、それぞれの１６進数形式での部分配列に対応する。したがって、第２の検索は、前の実施例と同じ処理された生物学的配列のリポジトリにおいて、同じ順序で同じ６つの特徴的な生物学的部分配列を含むそれらのタンパク質配列を見つけるために実行された。この検索では、６６１件の結果が返された。

【0191】

ここで、図２１、図２２、および図２３を参照して、それらの全長（図２１）、それらのレーベンシュタイン距離（図２２）、および最長共通サブストリング（図２３）に関して、これらの探索の両方の結果を示す（ＢＬＡＳＴ＝点線、本方法＝実線）。各グラフについて、検索結果が、プロットされたパラメータ（すなわち、全長、レーベンシュタイン距離、または最長共通サブストリング）に関して、低いものから高いものへの順に示されている。この場合、元の照会配列３ＭＮ５＿Ａに関して、レーベンシュタイン距離および最長共通サブストリングが計算された。これらの図から分るように、両方の方法についての検索結果の特徴は、極値でも比較的同等である。しかしながら、本方法は、中間範囲で、全長の変動がほとんどなく、レーベンシュタイン距離が短く、最長共通サブストリングがかなり長い、プラトーの結果もたらした。これらの組み合わせは、本発明の方法がより多くの関連する結果を識別することができたことを示唆する。

【0192】

好ましい実施形態、特定の構造および構成、ならびに材料は、本発明によるデバイスについて本明細書で論じられてきたが、形態および詳細における様々な変更または修正は、本発明の範囲および技術的教示から逸脱することなく行われ得ることを理解されたい。例えば、上で与えられた任意の定式は、使用され得る手順の代表的なものにすぎない。機能は、ブロック図から追加または削除され得、操作は機能ブロック間で交換され得る。ステップが、本実施形態の範囲内で記載される方法に対して、追加または削除され得る。

【図1】