特表2024-542222 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ラジャントヘルスインコーポレイテッドの特許一覧

特表2024-542222ＦａｓｔＱ／ＦａｓｔＡ圧縮システム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-13

(54)【発明の名称】ＦａｓｔＱ／ＦａｓｔＡ圧縮システム及び方法

(51)【国際特許分類】

G16B 50/50 20190101AFI20241106BHJP

【ＦＩ】

G16B50/50

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024529723

(86)(22)【出願日】2022-11-18

(85)【翻訳文提出日】2024-06-18

(86)【国際出願番号】 US2022080163

(87)【国際公開番号】W WO2023092086

(87)【国際公開日】2023-05-25

(31)【優先権主張番号】63/280,721

(32)【優先日】2021-11-18

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/409,993

(32)【優先日】2022-09-26

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＡＮＤＲＯＩＤ

２．ｉＯＳ

(71)【出願人】

【識別番号】524187449

【氏名又は名称】ラジャントヘルスインコーポレイテッド

(74)【代理人】

【識別番号】100107364

【弁理士】

【氏名又は名称】斉藤達也

(72)【発明者】

【氏名】ナザリ，フォード

(72)【発明者】

【氏名】パテル，スネー

(72)【発明者】

【氏名】マリー，エマケイ．

(72)【発明者】

【氏名】スキーナ，ギアナジェイ．

(57)【要約】

本発明は、ＦａｓｔＱ及び／又はＦａｓｔＡデータセットを分析し大量に圧縮するシステム及び方法を開示する。その方法論は、リードファイルの配列、品質スコア及び識別子を圧縮するアルゴリズムを含む。前記方法は、ユニークで最適な方式及びバイナリ形式でゲノムデータの次元及び冗長性を削減することによるものである。その方法論は、圧縮されたデータを損失ゼロで解凍する復号プロトコルも含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

配列塩基、品質スコア、及び識別子から構成されたデータファイルを受信するステップと、
前記品質スコア、前記配列塩基からの配列ｋ－ｍｅｒ、及び前記識別子に最適化アルゴリズムを適用するステップと、
前記配列塩基及び前記品質スコアのロングリードをより小さいセグメントに分割するステップと、
前記配列塩基及び前記品質スコアの重複及び半重複リードを削除するステップと、
前記配列塩基に対して次元削減を行うステップと、
前記データファイル全体で一貫した前記識別子のテンプレートを記憶するステップと、
前記データファイルをバイナリ形式で符号化するステップと、
前記データファイルを圧縮するステップであって、前記圧縮が可逆であるステップと、を含む、ゲノムデータのデータ圧縮方法。

【請求項2】

前記識別子は、配列決定実行データ及びクラスターデータから構成される、請求項１に記載の方法。

【請求項3】

前記品質スコアは前記配列塩基の品質値の配列を含む、請求項１に記載の方法。

【請求項4】

前記配列塩基は規則的な塩基及び不規則な塩基から構成される、請求項１に記載の方法。

【請求項5】

次元削減は、ｋ－ｍｅｒ辞書及び前記塩基配列からのバイナリラベルを使用して行う、請求項４に記載の方法。

【請求項6】

前記データファイルはＦａｓｔＱファイル又はＦａｓｔＡファイルである、請求項１に記載の方法。

【請求項7】

前記最適化アルゴリズムは、アルゴリズムハイパーパラメータ、前記塩基からの配列ｋ－ｍｅｒ、及び前記識別子を符号化する最適値を決定する、請求項１に記載の方法。

【請求項8】

前記最適化アルゴリズムは、前記データファイルのプロトコルハイパーパラメータ及び分布指数の関数である、請求項１に記載の方法。

【請求項9】

前記圧縮は参照不要である、請求項１に記載の方法。

【請求項10】

前記圧縮は前記データファイルの特徴に基づいて調整される、請求項１に記載の方法。

【請求項11】

コンピュータに、
配列塩基、品質スコア、及び識別子から構成されたデータファイルを受信するステップと、
前記品質スコア、前記配列塩基からの配列ｋ－ｍｅｒ、及び前記識別子に最適化アルゴリズムを適用するステップと、
前記配列塩基及び前記品質スコアのロングリードをより小さいセグメントに分割するステップと、
前記配列塩基及び前記品質スコアの重複及び半重複リードを削除するステップと、
前記配列塩基に対して次元削減を行うステップと、
前記データファイル全体で一貫した前記識別子のテンプレートを記憶するステップと、
前記データファイルをバイナリ形式で符号化するステップと、
前記データファイルを圧縮するステップであって、前記圧縮が可逆であるステップと、を含むプロセスを実行させるプログラムを記憶する、非一時的コンピュータ記憶媒体。

【請求項12】

前記識別子は、配列決定実行データ及びクラスターデータから構成される、請求項１１に記載の非一時的コンピュータ媒体。

【請求項13】

前記品質スコアは前記配列塩基の品質値の配列を含む、請求項１１に記載の非一時的コンピュータ媒体。

【請求項14】

前記配列塩基は規則的な塩基及び不規則な塩基から構成される、請求項１１に記載の非一時的コンピュータ媒体。

【請求項15】

次元削減は、ｋ－ｍｅｒ辞書及び前記規則的な塩基からのバイナリラベルを使用して行う、請求項１４に記載の非一時的コンピュータ媒体。

【請求項16】

前記データファイルはＦａｓｔＱファイル又はＦａｓｔＡファイルである、請求項１１に記載の非一時的コンピュータ媒体。

【請求項17】

前記最適化アルゴリズムは、前記品質スコア、前記塩基からの配列ｋ－ｍｅｒ、及び前記識別子の各々について最適ハイパーパラメータ値を決定する、請求項１１に記載の非一時的コンピュータ媒体。

【請求項18】

前記最適化アルゴリズムは、前記データファイルのプロトコルハイパーパラメータ及び分布指数の関数である、請求項１１に記載の非一時的コンピュータ媒体。

【請求項19】

前記圧縮は参照不要である、請求項１１に記載の非一時的コンピュータ媒体。

【請求項20】

前記圧縮は前記データファイルの特徴に基づいて調整される、請求項１１に記載の非一時的コンピュータ媒体。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、２０２１年１１月１８日に出願した米国仮出願第６３／２８０，７２１号、及び２０２２年９月２６日に出願した米国仮出願第６３／４０９，９９３号の優先権を主張し、両者の全ての内容が参照によって本出願に組み込まれる。

【背景技術】

【0002】

次世代配列決定（ＮＧＳ）技術の最近の進歩に伴い、大量のゲノムデータが高速且つ低コストで生成されている。今後１０年以内に２～４０エクサバイトのデータが生成されると推定される。しかし、記憶技術の進歩速度が遥かに遅く、ＮＧＳデータ記憶に技術的及び経済的課題をもたらす。また、これらの膨大なデータセットの送信も、非常にコストと時間がかかり、これらのデータセットの使用が遅れて制限される。

【0003】

汎用圧縮方法（例えば、Ｇｚｉｐ、Ｂｚｉｐ２）は、ゲノムデータ圧縮において実績があまり良くない。一方、既存のドメイン固有圧縮方法（例えば、ＳＰＲＩＮＧ、ＬＦａｓｔｑＣ、ＤＳＲＣ２、ＬＦＱＣ、ＳｅｑＳｑｕｅｅｚｅ１、Ｑｕｉｐ、ＦＱＺＣｏｍｐ）は、低い圧縮率、低い計算効率、非可逆圧縮、品質スコア－塩基配列符号化への依存性、不規則な非Ｎ塩基の無視、厳しいプロトコル等、固有の欠点がある。

【0004】

したがって、膨大な量のゲノムデータを保存・送信する要望と既存の圧縮方法の不十分さにより、ＮＧＳデータ圧縮のための効率的でドメイン固有の方法が求められる。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、上記従来の技術における課題を解決するためになされたものである。

【課題を解決するための手段】

【0006】

開示される実施形態は、より効率的で可逆な方式でゲノムデータを圧縮するシステムを提供する。特定の実施形態において、本発明のシステムは、配列塩基、品質スコア、及び識別子から構成されたデータファイルを受信し、前記品質スコア、前記配列塩基からの配列ｋ－ｍｅｒ、及び前記識別子に最適化アルゴリズムを適用する。前記システムは、前記配列塩基に対して次元削減を行い、前記品質スコアのマッピング及び順位付けをし、前記データファイル全体で一貫した前記識別子のテンプレートを記憶する。そして、前記システムは、前記ファイルの最適化されたデータをバイナリで符号化し、可逆形式で圧縮する。

【0007】

特定の実施形態において、前記識別子は、配列決定実行データ及びクラスターデータから構成される。

【0008】

他の実施形態において、前記品質スコアは、塩基配列の品質値の配列を含む。

【0009】

更に他の実施形態において、前記配列塩基は規則的な塩基及び不規則な塩基から構成される。

【0010】

他の実施形態において、前記データファイルはＦａｓｔＱファイル又はＦａｓｔＡファイルである。

【0011】

特定の他の実施形態において、前記最適化アルゴリズムは、前記品質スコア、前記塩基からの配列ｋ－ｍｅｒ、及び前記識別子の各々について最適ハイパーパラメータ値を決定する。

【図面の簡単な説明】

【0012】

添付の図面を考慮しながら以下の詳細な説明を参照することにより、本発明及びそれに付随する利点の多くは、より良く理解されることから、より完全に理解されるであろう。図面の説明を以下に記載する。

【図1】本発明のシステムのハードウェアの例示的な実施形態の図である。

【図2】本発明の例示的な実施形態に係る、ゲノムデータを圧縮するためのプロセスのフローチャートである。

【図3】本発明のシステムによって行われる重複除去の例を示す一連の表である。

【図4】本発明のシステムによって行われるｋ－ｍｅｒ除去の例を示す一連の表である。

【図5】ｋ－ｍｅｒコンパニオン方法の一環として行われるコンパニオン選択の例を示す表である。

【図6】最終ｋ－ｍｅｒ辞書の例を示す表である。

【図7】本発明のシステムによって類似のデータリードに対して半重複除去をどのように行うかの例を示す一連の表である。

【発明を実施するための形態】

【0013】

図面に示された本発明の好ましい実施形態を説明する際、明確にするために特定の用語が使用される。しかし、本発明はそのように選択された特定の用語に限定されることを意図するものではなく、各特定の用語は同様の目的を達成するために同様に動作する全ての技術的等価物を含むことが理解される。本発明のいくつかの好ましい実施形態は、例示の目的で説明され、本発明は図面に具体的に示されていない他の形態で具体化され得ることが理解される。

【0014】

次世代配列決定（ＮＧＳ）分析は、機械からの信号を有意味情報に変換するために、信号からデータへの変換、アノテーション又はカタログ化された情報、及び使える知識を含むバイオインフォマティクスを利用する。基本的な次世代配列決定プロセスは、ＤＮＡ／ＲＮＡを複数の断片に断片化すること、アダプターを付加すること、ライブラリを配列決定すること、ライブラリを再組み立てしてゲノム配列を形成することを含む。数百万又は数十億のＤＮＡ鎖を並行して配列決定することができるため、スループットが大幅に向上し、フラグメントクローニング法の必要性が最小限に抑えられる。ＮＧＳは、ヒトゲノム全体の配列決定を短期間で迅速に行うために使用できる。ＢｅｈｊａｔｉＳ，ＴａｒｐｅｙＰＳ．Ｗｈａｔｉｓｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ？．ＡｒｃｈＤｉｓＣｈｉｌｄＥｄｕｃＰｒａｃｔＥｄ．２０１３；９８（６）：２３６－２３８．ｄｏｉ：１０．１１３６／ａｒｃｈｄｉｓｃｈｉｌｄ－２０１３－３０４３４０を参照のこと。

【0015】

ＮＧＳにより、大量のゲノムデータが生成される。このため、現在の技術は、リードファイルの配列、品質スコア、及び識別子を、そのデータをより効率的に記憶可能な斬新な方式で圧縮するとともに、圧縮されたデータを実質的に損失ゼロで解凍する復号プロトコルも提供するように設計される。

【0016】

図１は、本発明のシステムの例示的な実施形態である。例示的なシステム１００において、１つ又は複数の周辺機器１１０がネットワーク１３０を介して１つ又は複数のコンピュータ１２０に接続される。周辺機器／位置１１０は、スマートフォン、タブレット、ウェアラブルデバイス、及びネットワーク上でデータを収集・送信する当分野で既知の任意の他の電子機器を含む。ネットワーク１３０は、インターネットのような広域ネットワーク、又はイントラネットのようなローカルエリアネットワークであり得る。ネットワーク１３０により、周辺機器１１０及びコンピュータ１２０の物理的位置は、本発明のハードウェア及びソフトウェアの機能性に影響することはない。本明細書で両方の実施とも説明され、特に断らない限り、周辺機器１１０及びコンピュータ１２０が同じ又は異なる物理的位置にあり得るよう意図される。システムのハードウェア間の通信は、多数の既知の方式で、例えば、モデム又はイーサネットアダプター等のようなネットワーク接続コンポーネントを使用することで、実現できる。周辺機器／位置１１０及びコンピュータ１２０は、両方とも通信機器を含むか又は通信機器に取り付けられる。通信は、ＨＴＴＰ又はＨＴＴＰＳ等のような業界標準プロトコルによって発生するように意図される。

【0017】

各コンピュータ１２０は、中央処理装置１２２、記憶媒体１２４、ユーザ入力装置１２６、及びディスプレイ１２８から構成される。使用され得るコンピュータの例としては、市販のパソコン、オープンソース計算装置（例えば、ＲａｓｐｂｅｒｒｙＰｉ）、市販のサーバ、及び市販の携帯装置（例えば、スマートフォン、スマートウォッチ、タブレット）が挙げられる。１つの実施形態において、システムの各周辺機器１１０及び各コンピュータ１２０は、システムに関連するソフトウェアがインストールされていてもよい。かかる実施形態において、システムデータは、ネットワーク接続されているコンピュータ１２０にローカルに記憶されてもよく、又は代替的に、ネットワーク１３０を介して周辺機器１１０又はネットワーク接続されているコンピュータ１２０のいずれかにアクセス可能な１つ又は複数の遠隔サーバ１４０に記憶されてもよい。代替実施形態において、ソフトウェアは周辺機器１１０上でアプリケーションとして実行され、ウェブベースのソフトウェア及びｉＯＳベースとＡｎｄｒｏｉｄベースのモバイルアプリケーションを含む。

【0018】

図２は、生のＦａｓｔＱ／Ａファイル２０２を圧縮して圧縮されたＦａｓｔＱ／Ａファイル２３６を生成するプロセスを図示するフロー図である。ＦａｓｔＡとは、ヌクレオチド配列又はアミノ酸（タンパク質）配列を表すテキストベースの形式を指し、この形式ではヌクレオチド又はアミノ酸が１文字コードで表される。ＦａｓｔＱとは、ヌクレオチド塩基配列、配列における各塩基の計算された信頼度、及びリードを起源からその配列決定プラットフォームのフローセル上の位置まで説明する情報を記憶するファイルの形式を指す。ＦａｓｔＡファイルは、生のＦａｓｔＱ／Ａファイル２０２の代わりに又はそれに加えて圧縮され得る。ＦａｓｔＡファイルは、識別子及び配列塩基のみを含む。プロセスは、ドメイン固有圧縮と通常の圧縮といった２つの主な段階から構成される。圧縮器は、ＦａｓｔＱ／Ａデータにおける冗長なパターン及び類似のパターンを認識してそれらをバイナリでのデータセットの可逆圧縮に使用することを目的としている。プロセスは、ＦａｓｔＱ／Ａリーダー２０３に送信されるＦａｓｔＱファイル２０２から開始し、このリーダーではファイル２０２がロードされ読み取られる。ＦａｓｔＱ／Ａファイルは、配列塩基２０４、品質スコア２０６、及び識別子２０８から構成される。識別子２０８は、配列決定実行及びクラスターに関する情報を含む。塩基２０４は、ベースコールの配列を含む。品質スコア２０６は、塩基配列の品質値の配列を含み、典型的には塩基２０４ごとに１つの品質値がある。ＦａｓｔＱ／Ａリーダー２０３は、ＦａｓｔＱ／Ａファイル２０２における塩基配列２０４、品質スコア配列２０６、及び識別子２０８をメモリにロードし読み込み、塩基配列、品質スコア配列、及び識別子リードを作成する。

【0019】

表１に示すように、ＤＮＡ／ＲＮＡにおいて、Ａ、Ｃ、Ｇ、Ｔ及びＵ以外のヌクレオチド、例えばＮ、Ｒ、Ｗが存在する。これらの塩基は不規則な塩基と知られている。この方法において、塩基２０４に関連する全ての不規則な塩基は、規則的な塩基における「Ａ」として一時的に記憶される。システムは、ＦａｓｔＱ／Ａデータセットにおける各不規則な塩基２１６のタイプ及び位置を検出し記憶する。ＦａｓｔＱデータセットにおいて不規則な塩基がなくなった場合、そのファイルを除外してもよい。品質スコア２０６から不規則な塩基への１対１又は多対１のマッピングがデータセットにおいて可能な場合、その品質スコア２０６を不規則な塩基の定位に使用してもよい。そうでなければ、そのファイルを作成する。そのファイルが作成される別のシナリオは、ＦａｓｔＡファイルが圧縮されている場合である。

【表1】

【0020】

システムは、サンプル／データセット全体で一貫した識別子２０８のテンプレートを記憶することを含むテンプレート比較を行う。次に、変数が符号化される。全ての変数がリードごとに変化するわけではない以上、テンプレート比較では、まず変数が変化したか否かを判定するようにチェックし、そして、変化したとすれば、前のリードとの変数の差を記憶する。

【0021】

オプティマイザ２１０は、品質スコア２０６、塩基２０４からの配列ｋ－ｍｅｒ、及び識別子変数２０８の各々の分布について統計分析を実行する。ｋ－ｍｅｒは、塩基配列に含有される長さｋの部分文字列である。特定の実施形態において、最適化アルゴリズムは、品質スコア２０６、塩基２０４からの配列ｋ－ｍｅｒ、及び識別子変数２０８の各々に別々に適用される。最適化変数は、下流のブロックのハイパーパラメータである。システムは、プロトコルハイパーパラメータ及びデータセット分布指数の関数であるオプティマイザ２１０の目的関数の符号化プロトコルに基づき、数学的定式化を採用する。その目的関数は、圧縮率に直接関係し、オプティマイザ２１０によって最小化される。その最適化プロセスの結果は、各データセットのプロトコルを適応的且つ最適に形成する。

【0022】

品質スコア、配列及び識別子変数の成分の統計的特徴は、データセットごとに変動する。冗長性ベースの圧縮器の実績は、冗長パターンの頻度と分布及びそれらの不均衡のレベルに依存する。（例として、品質スコア＝３０が１～４０の範囲内の全ての品質スコアの９０％である場合、品質スコアの分布は非常に不均衡であるが、４０個の可能な品質スコアの全てがデータセットの２．５％を占める場合、その分布は完全に均衡が取れている）。頻度ベースの圧縮器は、オプティマイザ２１０の場合のように、それ自体の分布に基づいてＦａｓｔＱ又はＦａｓｔＡデータセットごとにカスタマイズ又は調整されない限り、最適に実行できない。

【0023】

塩基２０４は本技術のシステムによって以下のように分析される。取得された最適ハイパーパラメータの値、分布特徴及びデータセット内の様々なタイプの不規則な記号の数等のような、データセットの配列部分の特徴に関するメタ情報が、ヘッダ２１８を使用して記憶される。ＤＮＡ塩基２０４を含む規則的な塩基２１４は、主に、アデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、及びチミン（Ｔ）からなり、ＲＮＡはアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、及びウラシル（Ｕ）を含む。各塩基をバイナリ形式で符号化するには、僅か２ビットが必要であることが好ましい。

【0024】

識別子２０８は識別子圧縮モジュール２１４に送信され、ここで識別子２０８は、例えば以下に概説されるアルゴリズムを使用して、符号化され圧縮される。符号化され圧縮された識別子は、識別子圧縮モジュール２１４から汎用圧縮器２３４に送信され、該汎用圧縮器２３４は、可逆汎用圧縮器（例えば、ｇｚｉｐ）を好適に使用して、圧縮ファイルを生成することを担当する。
入力：識別子
出力：圧縮された識別子（Ｉｄｅｎｔ＿ｃｈａｎｇｅ＿Ｉｎｄｅｘ，Ｉｄｅｎｔ＿ｃｈａｎｇｅ＿ｖａｌｕｅ）
１．最初のリードの識別子を記憶する
２．ｔｉｌｅ、ｘｐｏｓ及びｙｐｏｓの各々について、前のリードから変化したか否かを示すＩｄｅｎｔ＿ｃｈａｎｇｅ＿Ｉｎｄｅｘを計算する。（ｙ：１、ｎ：０）
３．ｔｉｌｅ、ｘｐｏｓ及びｙｐｏｓについて、（変化したものの）変化の量を示すＩｄｅｎｔ＿ｃｈａｎｇｅ＿ｖａｌｕｅを別々に計算する。

【0025】

品質スコア２０６及び配列塩基２０４は、それぞれ、第１リードスプリッタ２１０及び第２リードスプリッタ２１２に送信される。第１及び第２リードスプリッタ２１０、２１２は、データのロングリードをより小さいリード（セグメント）に分割する。セグメントが同じ長さである必要があるため、ｒｅａｄ＿ｌｅｎｇｔｈ（ＲＬ）及び所要のセグメント数に応じて、まずリードの末端から固定数のヌクレオチド又は品質スコア（名称：ｅｘｔｒａ＿ｌｅｎ）を分離してセグメントを同じ長さにする必要がある場合がある。分離された余分な部分はエクストラセグメントと呼ばれる。

【0026】

リードスプリッタ関数の例示的な実施形態は以下に記載する。
入力：塩基又は品質スコア配列
出力：（セグメント化された）塩基又は品質スコア配列
１．ｎｕｍ＿ｓｅｇ、ｓｅｇ＿ｌｅｎ、ｅｘｔｒａ＿ｌｅｎを計算する。

【数1】

【数2】

【数3】

注：ｉｄｅａｌ＿ｌｅｎは、セグメントの好適な長さを見つけるためのハイパーパラメータである。
２．各リードをｓｅｇ＿ｌｅｎのｎｕｍ＿ｓｅｇセグメントに分割する。
３．エクストラセグメントを一緒に連結し、長い配列を作成し、そしてエクストラセグメントを長さｓｅｇ＿ｌｅｎのセグメントに分割し、作成されたセグメントの末端に追加する。
注：この関数は識別子を改変しない。

【0027】

第１リードスプリッタ２１０及び第２リードスプリッタ２１２が品質スコア２０６及び配列塩基２０４のロングリードを分割した後、品質スコア２０６からの分割データは第１重複除去モジュール２１６に送信され、配列塩基２０４からの分割データは第２重複除去モジュール２１８に送信される。重複除去の例示的なプロセスは図３に示す。第１及び第２重複除去モジュール２１６、２１８は、以下の例示的なアルゴリズムに示すように、重複データエントリを除去する。
入力：塩基配列
出力：ｂａｓｅ＿ｓｅｑｕｅｎｃｅｓ（ＤＲ＿ｒｅｍａｉｎｉｎｇ＿ｒｅａｄｓ），ＤＲ補助情報（ＤＲ＿ｉｎｄｅｘ）
１．全ての入力リードをアルファベット順に並べ替えるが、それらのリード番号を保持する。
２．同一のリードを群分けする（単一メンバーの群があり、複数メンバーの群もある）。
３．入力ファイルにおける各リードについて、下記表から対応する指数を符号化し、ＤＲ＿ｉｎｄｅｘファイルと呼ぶ。
Ｓ単一メンバー群のメンバー
Ｍ複数メンバー群の最初のメンバー
Ｇｉ複数メンバー群のｉ番目の最初以外のメンバー
４．Ｓ及びＭの指数を有するリードのみを保持し（元の順序で）、ＤＲ＿ｒｅｍａｉｎｉｎｇ＿ｒｅａｄｓと呼び、その他を除去する。
注：複数メンバー群はアルファベット順にリストされる。

【0028】

品質スコア２０６に関連する重複データエントリが第１重複除去モジュール２１６によって除去されると、品質スコア２０６に関連するデータは汎用圧縮器２３４に送信され、該汎用圧縮器２３４は、可逆汎用圧縮器（例えば、ｇｚｉｐ）を使用して、圧縮ファイルを生成することを担当する。

【0029】

同様に、配列塩基２０４に関連する重複データエントリが第２重複除去モジュール２１８によって除去されると、配列塩基２０４に関連するデータは汎用圧縮器２３４に直接送信されてもよく、該汎用圧縮器２３４は、可逆汎用圧縮器（例えば、ｇｚｉｐ）を使用して、圧縮ファイルを生成することを担当する。

【0030】

特定の実施形態において、配列塩基２０４に関連するデータは、第２重複除去モジュール２１８から半重複除去モジュール２２０に送信され、該半重複除去モジュール２２０は、配列塩基２０４に関連するデータから類似のデータリードを除去する。半重複除去のプロセス例は図４に示す。半重複除去モジュール２２０によって使用される例示的なアルゴリズムは以下に概説する。
入力：塩基配列、デフォルトハイパーパラメータ（ＳＤＲ＿ｄｉｆｆ）
出力：ｂａｓｅ＿ｓｅｑｕｅｎｃｅｓ（ＳＤＲ＿ｒｅｍａｉｎｉｎｇ＿ｒｅａｄｓ），ＳＤＲ補助情報（ＳＤＲ＿ｒｅａｄ＿ｎｕｍｂｅｒｓ，ＳＤＲ＿ｃｈａｎｇｅ＿ｌｏｃ），ＳＤＲエクストラ塩基配列（ＳＤＲ＿ｃｈａｎｇｅ＿ｓｅｑ）
１．全ての入力リードをアルファベット順に並び替えるが、それらのリード番号を保持する。
２．半同一のリードを群分けする。ここで、半同一は、群の各メンバーと前のメンバーとの間の最初の差異が「ＳＤＲ＿ｄｉｆｆ」以下の位置にあることを意味する。よって、一部の群は単一メンバーであり、一部は複数メンバーである。ＳＤＲブロックにおいて、変化は、最初の差異から配列の末端までのサブ配列と見なされる。
例：ｓｅｑ１：ＡＡＡＡＡＡＡＡＡＡ、ｓｅｑ２：ＡＡＡＡＡＡＡＣＡＡ＝＞変化したｓｕｂ－ｓｅｑ＝ＣＡＡ
３．空の「ＳＤＲ＿ｃｈａｎｇｅ＿ｓｅｑ」文字列及び「ＳＤＲ＿ｃｈａｎｇｅ＿ｌｏｃｌｉｓｔ」を作成する。複数メンバー群の各メンバーと前のメンバーとの間の変化を「ＳＤＲ＿ｃｈａｎｇｅ＿ｓｅｑ」文字列に追加し、変化したｓｕｂ－ｓｅｑの長さを「ＳＤＲ＿ｃｈａｎｇｅ＿ｌｏｃ」に追加する。
４．第１群及び複数メンバー群の最初のメンバーをリストし、リード番号に基づいて並び替え、ＳＤＲ＿ｒｅｍａｉｎｉｎｇ＿ｒｅａｄｓと呼ぶ。
５．ｒｅａｄｎｕｍｂｅｒｓから前記群の最初のメンバーのリード番号を除去し、「ＳＤＲ＿ｒｅａｄ＿ｎｕｍｂｅｒｓ」と保存する。

【0031】

類似のデータリードが半重複除去モジュール２２０で除去されると、データは、可逆圧縮のために汎用圧縮器２３４に直接送信されてもよいし、データのランダムサブセットを生成するためにランダム配列発生器モジュール２２２に送信されてもよいし、又は辞書サブ配列除去モジュール２２６に送信されてもよい。ユーザ設定に応じて、ランダム配列発生器モジュール２２２は、システムの完全性を維持しながら計算リソースを保持するために、データのより小さな又はより大きなランダムサンプルを取ってもよい。ランダム配列発生器モジュール２２２によって使用される例示的なアルゴリズムは以下に概説する。
入力：配列塩基、デフォルトハイパーパラメータ（ｒａｎｄｏｍ＿ｓｕｂｓｅｔ＿ｐｅｒｃｅｎｔａｇｅ）
出力：ｒａｎｄｏｍ＿ｓｕｂｓｅｔ
１．ｒａｎｄｏｍ＿ｓｕｂｓｅｔ＿ｐｅｒｃｅｎｔ％塩基配列をランダムに選択する
注：ｒａｎｄｏｍ＿ｓｕｂｓｅｔ＿ｐｅｒｃｅｎｔ＝１００の場合、理想的な辞書が得られるが、より小さなサンプルの場合、より短い時間でかなり優れた辞書が得られる。

【0032】

ランダム配列発生器モジュール２２２がデータのランダムサンプルを生成していると、それはｋ－ｍｅｒ辞書を作成するサブ配列辞書オプティマイザモジュール２２４を通過する。

【0033】

塩基２０４に関連する高密度ｋ－ｍｅｒは、ｋ－ｍｅｒ辞書においてバイナリ形式でリストされラベル付けされる。ｋ－ｍｅｒ辞書における各ｋ－ｍｅｒについて、該ｋ－ｍｅｒをラベル付けする指数が存在する。これらの指数はバイナリで符号化される。データ圧縮プロセス中、実際のｋ－ｍｅｒ配列の代わりに、記録されているのはｋ－ｍｅｒの指数である。辞書におけるいくつかのｋ－ｍｅｒの最適値は、最適化問題を解決することで指定される。最適化問題の例示的な解決手段において、目的関数は、実際に圧縮することなくデータセットのランダムサブセットの圧縮サイズを大まかに見積もるために、圧縮アルゴリズムに基づいて開発される。次に、圧縮アルゴリズムのハイパーパラメータである最適化変数は指定される。最適化変数の値は、目的関数が最小化されるように、決定的又は確率的最適化アルゴリズムを使用して取得される。最後に、取得された最適値は、データセット全体の圧縮用のハイパーパラメータ値として使用される。

【0034】

次元削減も、ｋ－ｍｅｒ辞書及び塩基２０４に関連する規則的な塩基２１４からのバイナリラベルを使用して行われ得る。次元削減以外の技術を適用する機械学習アルゴリズムも利用され得、最近傍分析、ベイジアンモデリング、回帰モデリング、サポートベクターマシン、及びニューラルネットワークを含むが、それらに限定されない。

【0035】

特定の実施形態において、システムは、図５に示すように、ｋ－ｍｅｒの前及び後のもの（左及び右コンパニオン）を予測し、それらをｋ－ｍｅｒと共に辞書に記憶する、「ｋ－ｍｅｒコンパニオン（ｃｏｍｐａｎｉｏｎｏｆｋ－ｍｅｒｓ）」と呼ばれる操作を実行する。図５を参照すると、ｋ－ｍｅｒの辞書の作成中、本発明のシステムは、ファイル内で完全に一致する高頻度のサブ配列を検索する。しかし、コンパニオンについて、本発明のシステムは、ｋ－ｍｅｒの前又は後の高頻度の十分に類似するサブ配列（不完全一致）を検索する。そして、ｋ－ｍｅｒ及びコンパニオンは、アルゴリズム例に存在する統計的特徴に基づいて選択できる。辞書作成中、ｋ－ｍｅｒは、「完全一致」の場合に計数されるとともに、コンパニオンは、ｋ－ｍｅｒと比較してその位置で「優勢」且つ「統計的に有意」である場合に計数される。

【0036】

加えて、特定の実施形態において、システムは動的辞書作成プロセスを実行する。辞書に追加される各サブ配列（ｍｅｒ）について、ｋ－ｍｅｒ間でｋリストにおける各ｋ値に関して内部競合が存在する（例えば、ｋリスト＝［１０、１５、２０］の場合、ｋ値ごとに１つずつ、合計３つの内部競合が存在する）。その内部競合には、内部競合の勝者間（この例では、ベスト１０－ｍｅｒ、ベスト１５－ｍｅｒ及びベスト２０－ｍｅｒ）の外部競合が続く。外部競合の勝者は最終辞書に追加され、その例は図６に示す。最終辞書の長さは、最適化コスト関数に基づいて辞書作成プロセス中に指定される。動的辞書作成のための例示的なアルゴリズムは以下に概説する。
入力：配列のランダムサブセット、デフォルトハイパーパラメータ：（ｋリスト，ｅｘｉｓｔａｎｃｙ＿ｔｈｒｅｓｈｈｏｌｄ，ｄｏｍｉｎａｎｃｙ＿ｔｈｒｅｓｈｈｏｌｄ）。
出力：ｋ－ｍｅｒ辞書
計数：
１．ｐｒｅｌｉｍｉｎａｒｙ＿ｄｉｃｔと呼ばれる長さｌｅｎ（ｋ_ｌｉｓｔ）のアレイを作成し、ｋ_ｌｉｓｔにおける各ｋ値についてアレイ要素は以下のようなｋ－ｍｅｒ辞書になる。
［キー：ｋ－ｍｅｒ配列、値：ｋ－ｍｅｒ頻度］
初期化：
２．ｋリストにおける各ｋ値について
ａ．ｋ－ｍｅｒの頻度を計数する
ｂ．ｋ－ｍｅｒをそれらの頻度に基づいて並び替える
ｃ．第１位に並び替えられたｋ－ｍｅｒの次及び前（ＲＬ－ｋ）である位置１での各ヌクレオチド（Ａ、Ｃ、Ｇ及びＴ）の頻度を計数する
ｄ．第１位のｋ－ｍｅｒのｘ個ごとに、ｋ－ｍｅｒの右側及び左側の最初の（ｙ＿ｒｉｇｈｔ及びｙ＿ｌｅｆｔ）ヌクレオチドを、以下の２つの閾値を通過できるｐｒｅｌ＿ｃｏｍｐａｎｉｏｎ＿ｒｉｇｈｔ及びｐｒｅｌ＿ｃｏｍｐａｎｉｏｎ＿ｌｅｆｔと見なす。
ｅｘｉｓｔｅｎｃｙ＿ｒａｔｉｏ（ｋ－ｍｅｒ（ｉ），位置（ｊ，ＲＬ（右又は左）））＝（ｋ－ｍｅｒ（ｉ）及びｋ－ｍｅｒのＲＬ側の位置（ｊ）での任意のヌクレオチドを有するリードの数）／（ｋ－ｍｅｒ（ｉ）を有するリードの数）
ｄｏｍｉｎａｎｃｙ＿ｒａｔｉｏ（ｋ－ｍｅｒ（ｉ），位置（ｊ，ＲＬ（右又は左）））＝（ｋ－ｍｅｒ（ｉ）及びｋ－ｍｅｒのＲＬ側の位置（ｊ）での優勢ヌクレオチドを有するリードの数）／（ｋ－ｍｅｒ（ｉ）及びｋ－ｍｅｒ（ｉ）のＲＬ側の位置（ｊ）での任意のヌクレオチドを有するリードの数）
３．各ｋ値の全てのｋ－ｍｅｒのコンパニオンの初期化された長さと見なされる、（ｙ＿ｒｉｇｈｔ（ｋ－ｍｅｒ（ｉ））＋ｙ＿ｌｅｆｔ（ｋ－ｍｅｒ（ｉ）））の（ａｖｅｒａｇｅ＋２＊ｓｔａｎｄａｒｄ＿ｄｅｖｉａｔｉｏｎ）を計算する。
競合：
予備的辞書において、ｋ－ｍｅｒはｋ－ｍｅｒの頻度に基づいて並び替えられる。しかし、全てのｋ－ｍｅｒの初期化されたコンパニオンの長さが同じであるため、それらは実際にｋ－ｍｅｒ＋初期化されたコンパニオンにも基づいて並び替えられる。
４．ｒｅａｄ＿ｌｉｓｔと呼ばれる空リストを作成する。それには最終辞書ｋ－ｍｅｒを含有するリードのリード番号が記入される。
内部競合：
５．ｋリストにおける各ｋ値について、
ａ）全てのｋ－ｍｅｒのｉｎｔｅｒｎａｌ＿ｃｏｍｐｒｅｓｓｉｏｎ＿ｓｃｏｒｅを取得する。

【数4】

ｂ）ｋ－ｍｅｒの更新された頻度を取得する。更新された頻度＝初期頻度－ｒｅｄ＿ｌｉｓｔに含まれるリードにおけるｋ－ｍｅｒの頻度。
ｃ）ｅｘｉｓｔａｎｃｙ＿ｔｈｒｅｓｈｏｌｄ及びｄｏｍｉｎａｎｃｙ＿ｔｈｒｅｓｈｈｏｌｄに基づいて実際のコンパニオン（右及び左）を取得する。
ｄ）第１位のｋ－ｍｅｒのみについてｉｎｔｅｒｎａｌ＿ｃｏｍｐｒｅｓｓｉｏｎ＿ｓｃｏｒｅを更新し、それが第２位の現在のｉｎｔｅｒｎａｌ＿ｃｏｍｐｒｅｓｓｉｏｎ＿ｓｃｏｒｅより大きい場合、第１位のものがこのｋ値の内部競合の勝者として選択される。第１位のｋ－ｍｅｒのスコアが第２位より小さい場合、それらをスコアに基づいて再並び替えし、つまり、第１位のものは、その更新したスコアに基づいてその属する順位に並び替えられ、そして、そのスコアを超える全てのｋ－ｍｅｒは１位上にシフトされる。このステップは内部勝者が選択されるまで継続する。
外部競合
６．各ｋ値の内部競合の勝者は、ｅｘｔｅｒｎａｌ＿ｃｏｍｐｒｅｓｓｉｏｎ＿ｓｃｏｒｅに基づいて互いに競争すべきである。値がより高いｋ－ｍｅｒは最終辞書に追加される。
７．ｃｏｓｔ＿ｆｕｎｃｔｉｏｎを計算する。
注：下記式は、ＦＡＳＴＱ／Ａファイル内のｋ－ｍｅｒの既存の分布について、Ｓｉｚｅ_{ｃｏｍｐｒｅｓｓｅｄ＿ｓｅｑｓ}をｄｉｃｔ＿ｌｅｎの関数として与える。

【数5】

【数6】

【数7】

【数8】

【数9】

【数10】

【数11】

【数12】

【数13】

【数14】

【数15】

Ｅｘｉｓｔｅｎｃｅ：長さｎＲのベクターであり、ｆｉｎａｌ＿ｓｅｑ＿ｄｉｃｔｉｏｎａｒｙｋ－ｍｅｒ（値＝１）のいずれかを含むリード及び含まないリード（値＝０）を示す。
Ｄｉｃｔ＿Ｉｎｄｅｘ_ｋｍｅｒ：Ｅｘｉｓｔｅｎｃｅ＝１の各リードの辞書におけるｋ－ｍｅｒのバイナリ指数。
Ｌｏｃａｔｉｏｎ_ｋｍｅｒ：配列リードにおけるｋ－ｍｅｒの開始点のバイナリでの位置。
注：例えば、ｋ＝２０及びＲＬ＝５０の場合、ｋ－ｍｅｒの開始点が３１を越えることができないので、５ビットで符号化できるが、ｋ＝１８の場合、開始点が、バイナリで符号化するために６ビットを要する３３に増加するため、ｋ－ｍｅｒが大きいほど、その位置のサイズは小さくしてもよい。
ｄｉｃｔ＿ｌｅｎ：最終ｓｅｑ辞書におけるｋ－ｍｅｒの数
η^{ｐｅｎａｌｔｙ}：コンパニオンに一致しないヌクレオチドの画分のペナルティ係数である。このペナルティ係数は、符号化中にコンパニオン（複数可）が優勢コンパニオン（辞書におけるｃｏｍｐａｎｉｏｎ＿１ｓｔ）に一致しない場合に、正しいヌクレオチドのタイプを保存する必要があるだけでなく、変化の位置及び数を記憶する必要もあるという理由によるものである。このペナルティ係数は、コスト関数の計算にコンパニオンミスマッチのコストを含めるのに役立つ。
注：辞書オプティマイザは、Ｓｉｚｅ_{ｃｏｍｐｒｅｓｓｅｄ＿ｓｅｑｓ}を最小化するために最適なｄｉｃｔ＿ｌｅｎ値を取得する。
８．停止基準のいずれかが満たされる場合、最適な時点で最終の辞書をフリーズし、この関数を終了させる。そうでない場合、先に進む。
停止基準：
ａ）特定の反復数のコスト関数の増加（この場合、最適な辞書長さは、現在の反復数からｐａｔｉｅｎｔ＿ｆａｃｔｏｒを引いたものになる）。
ｂ）ｍａｘ＿ｄｉｃｔ＿ｌｅｎ反復に達する（この場合、最適な辞書長さは現在の反復数になる）。
９．ｒｅａｄ＿ｌｉｓｔが更新される。
外部競合の敗者は最上位として内部競合に返され（段階４）、そのスコアが更新される。

【0037】

サブ配列辞書オプティマイザモジュール２２４から生成されたデータは辞書サブ配列除去モジュール２２６に渡される。辞書サブ配列除去モジュール２２６は、図７に示すように、特定のｋ－ｍｅｒを辞書から除去することを担当する。辞書サブ配列除去モジュール２２６によって使用される例示的なアルゴリズムは以下に記載する。
入力：塩基配列、ｋ－ｍｅｒ辞書。
出力：ｂａｓｅ＿ｓｅｑｕｅｎｃｅｓ（ｕｎｔｏｕｃｈｅｄ＿ｓｅｑｓ），Ｄｒ補助情報（ｋ－ｍｅｒ＿ｄｉｃｔ＿ｅｘｉｓｔ，ｋ－ｍｅｒ＿ｄｉｃｔ＿ｉｎｄｅｘ，ｋ－ｍｅｒ＿ｄｉｃｔ＿ｌｏｃ，ｃｏｍｐ＿ｌｏｃ＿ｃｈａｎｇｅ，ｃｏｍｐ＿ｎｕｍ＿ｃｈａｎｇｅ，）ｋ－ｍｅｒ除去エクストラ配列（ｋ－ｍｅｒ＿ｄｉｃｔ＿ｒｅｍａｉｎ＿ｓｅｑｓ，ｃｏｍｐ＿ｔｙｐｅ＿ｃｈａｎｇｅ）ｋ－ｍｅｒｋ－ｍｅｒｋ－ｍｅｒｋ－ｍｅｒ
１．７つの空文字列を作成して、辞書ｋ－ｍｅｒを含む配列に関する情報を符号化する。
ｋ－ｍｅｒ＿ｄｉｃｔ＿ｅｘｉｓｔ（リードにおける辞書ｋ－ｍｅｒの存在を符号化する）
ｋ－ｍｅｒ＿ｄｉｃｔ＿ｉｎｄｅｘ（リードにおける辞書ｋ－ｍｅｒの指数を符号化する）
ｋ－ｍｅｒ＿ｄｉｃｔ＿ｌｏｃ（リードにおける辞書ｋ－ｍｅｒの開始位置を符号化する）
ｃｏｍｐ＿ｎｕｍ＿ｃｈａｎｇｅ（リードにおける辞書ｋ－ｍｅｒのコンパニオンとのミスマッチの数を符号化する）
ｃｏｍｐ＿ｌｏｃ＿ｃｈａｎｇｅ（リードにおける辞書ｋ－ｍｅｒのコンパニオンとのミスマッチの位置を符号化する）
ｃｏｍｐ＿ｔｙｐｅ＿ｃｈａｎｇｅ（リードにおける辞書ｋ－ｍｅｒのコンパニオンとのミスマッチについて正しいヌクレオチドタイプを符号化する）
ｋ－ｍｅｒ＿ｄｉｃｔ＿ｒｅｍａｉｎ＿ｓｅｑ（ｋ－ｍｅｒ及びコンパニオンを除去した後にリードの残りの部分を符号化する）
ｕｎｔｏｃｈｅｄ＿ｓｅｑｓ（辞書からのいずれのｋ－ｍｅｒも含まなかった配列）
２．リードごとに１ビットをｋ－ｍｅｒ＿ｄｉｃｔ＿ｅｘｉｓｔとして符号化する。０：リードが最終ｋ－ｍｅｒ辞書からのいずれのｋ－ｍｅｒも含まない場合。１：含む場合。
３．最終の辞書ｋ－ｍｅｒがリードに存在しない場合、
ａ．ｋ－ｍｅｒ＿ｄｉｃｔ＿ｉｎｄｅｘにおいてｋ－ｍｅｒの辞書指数を符号化する。
ｂ．ｋ－ｍｅｒ＿ｄｉｃｔ＿ｌｏｃにおいてリードにおけるｋ－ｍｅｒの最初の塩基の位置を符号化する。
ｃ．最終辞書予測コンパニオンとリードにおけるｋ－ｍｅｒの実際のコンパニオンとの間のミスマッチの数を見つけ、それをｃｏｍｐ＿ｎｕｍ＿ｃｈａｎｇｅにおいて符号化する。
ｄ．ｃｏｍｐ＿ｌｏｃ＿ｃｈａｎｇｅにおいて前のステップで検出された差異の位置を符号化する。
ｅ．ｃｏｍｐ＿ｌｏｃ＿ｔｙｐｅにおいてステップ３．ｃで検出された差異のヌクレオチドタイプを符号化する。
ｆ．ｋ－ｍｅｒ＿ｄｉｃｔ＿ｒｅｍａｉｎ＿ｓｅｑにおいてｋ－ｍｅｒ及びコンパニオンを除去した後にリードの残りの部分を符号化する。
注：圧縮技術のこのバージョンにおいて、リードごとに最大１つのｋ－ｍｅｒが考慮され、１つのリードにおいて１つより多く存在する場合、ｋ－ｍｅｒ＿ｄｉｃｔｉｏｎａｒｙにおいて順位がより高いものは、最終の圧縮率がより高いため、選択される。

【0038】

辞書サブ配列除去モジュール２２６から、変更されたデータは、上述したように、配列塩基２０４に関連するデータから類似のデータリードを除去する第２半重複除去モジュール２２８に送信される。特定の実施形態において、システムは、第１半重複除去モジュール２２０とプロセスが同じでパラメータ値が異なり配列順序が逆の第２半重複除去モジュール２２８を使用する。

【0039】

類似のデータリードがデータから除去されると、データは、不規則なヌクレオチドを符号化することを担当する配列レギュラライザモジュール２３０に送信される。不規則なヌクレオチドは、Ａ（アデノシン）、Ｃ（シトシン）、Ｇ（グアニン）、又はＴ（チロシン）でないものである。配列レギュラライザモジュール２３０によって使用される例示的なアルゴリズムは以下に記載する。
入力：塩基配列及び／又はエクストラ配列。
出力：：塩基配列及び／又はエクストラ配列、配列レギュラライザ補助情報（ｉｒｒｅｇｕｌａｒ＿ｒｅａｄｓ＿ｅｘｉｓｔｅｎｃｅ、ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｎｕｍｂｅｒ、ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｌｏｃａｔｉｏｎ、及びｎｏｎ＿Ｎ＿ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｉｎｆｏ）。
注意：不規則なヌクレオチドはＡ、Ｃ、Ｇ及びＴ以外の任意のヌクレオチドを意味する。
１．ｉｒｒｅｇｕｌａｒ＿ｒｅａｄｓ＿ｅｘｉｓｔａｎｃｅ、ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｎｕｍｂｅｒｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｌｏｃａｔｉｏｎ及びｎｏｎ＿Ｎ＿ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｉｎｆｏと呼ばれる空文字列を作成して不規則なヌクレオチドの存在、数、位置及び不規則な非Ｎヌクレオチドの情報を符号化する。
２．ｉｒｒｅｇｕｌａｒ＿ｒｅａｄｓ＿ｅｘｉｓｔｅｎｃｅでリードごとに１ビットを符号化する。０：このリードではヌクレオチドがない。１：少なくとも１つのヌクレオチドが存在する。
３．ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｎｕｍｂｅｒで不規則なリードごとに不規則なヌクレオチドを符号化する。
４．ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｌｏｃａｔｉｏｎで、リードにおける各不規則なヌクレオチドの位置を符号化する。
５．ｎｏｎ＿Ｎ＿ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｉｎｆｏで、デフォルトで全ての不規則なヌクレオチド文字は、Ｎ（最も一般的な不規則ヌクレオチド）と想定され、任意の不規則な非Ｎヌクレオチドが観察されれば、その情報は、ｎｏｎ＿Ｎ＿ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｉｎｆｏ（ｉｒｒｅｇｕｌａｒ＿ｒｅａｄ＿ｉｎｄｅｘ（ｉ番目の不規則なリード）、ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｌｏｃａｔｉｏｎｉｎｄｅｘ（その不規則なリードにおけるｉ番目の不規則なヌクレオチド）、タイプ）として符号化される。
６．ｎｏｎ＿Ｎ＿ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｉｎｆｏ＝［ｉｒｒｅｇｕｌａｒ＿ｒｅａｄ＿ｉｎｄｅｘ，ｉｒｒｅｇｕｌａｒ＿ｎｔ＿ｌｏｃａｔｉｏｎｉｎｄｅｘ，ｔｙｐｅ］

【0040】

不規則なヌクレオチドが配列レギュラライザモジュール２３０で符号化されと、データは、塩基配列２０４をバイナリで符号化することを担当する配列バイナリ符号化モジュール２３２に送信される。配列バイナリ符号化モジュール２３２によって使用される例示的なアルゴリズムは以下に記載する。
入力：塩基配列。
出力：ｂｉｎａｒｙ＿ｂａｓｅｓｅｑｕｅｎｃｅｓ
１．塩基配列は以下のハッシュテーブルを使用してバイナリで符号化される。
ヌクレオチドバイナリ符号化ハッシュテーブル

【表2】

注：不規則なヌクレオチドは、それらの情報が別々に記録されるため、一時的にＡ：［００］と記憶される。

【0041】

配列バイナリ符号化モジュール２３２からの符号化されたデータは汎用圧縮器２３４に送信される。汎用圧縮器２３４で、符号化されたバイナリデータセットは、可逆汎用圧縮器（例えば、ｇｚｉｐ）で再度圧縮される。結果は圧縮されたＦａｓｔＱ／Ａファイル２３６となる。様々な実施形態において、データは、第１半重複除去モジュール２２０、サブ配列辞書オプティマイザ２２４、辞書サブ配列除去モジュール２２６、第２半重複除去モジュール２２８、及び／又は配列レギュラライザモジュール２３０の１つ又は複数から汎用圧縮器２３４に直接送信されてもよい。汎用圧縮器のための例示的なアルゴリズムは以下に記載する。
入力：配列レギュラライザ補助情報、ｋ－ｍｅｒ除去補助情報、ｋ－ｍｅｒ辞書補助情報、ＳＤＲ補助情報、ＤＲ補助情報、品質スコア配列、バイナリ塩基配列、圧縮された識別子
出力：ｆｉｎａｌ＿ｃｏｍｐｒｅｓｓｅｄ＿ｆｉｌｅ
目標は、汎用圧縮器の前ではなく、その後で最大の圧縮を実現することである。したがって、ドメイン固有圧縮における更なる圧縮が可能であるが、それらは、最終のファイルに対する影響が小さい又は悪いから、プロセスに含まれない。
最適化に使用されるハイパーパラメータ：
ｋリスト
ｒａｎｄｏｍ＿ｓｕｂｓｅｔ＿ｐｅｒｃｅｎｔａｇｅ
ｅｘｉｓｔｅｎｃｙ＿ｔｈｒｅｓｈｈｏｌｄ
ｄｏｍｉｎａｎｃｙ＿ｔｈｒｅｓｈｈｏｌｄ
ｐａｔｉｅｎｔ＿ｆａｃｔｏｒ
ｍａｘ＿ｄｉｃｔ＿ｌｅｎ
η^{ｐｅｎａｌｔｙ}
ｉｄｅａｌ＿ｌｅｎ
Ｎ＊（１ｓｔＳＤＲｂｌｏｃｋ）
Ｎ＊（２ｎｄＳＤＲｂｌｏｃｋ）

【0042】

開示されるプロセスは、従来技術に比べて多数の利点を有する。これらの利点は以下を含む。

【0043】

（１）カスタマイズ圧縮：符号化プロトコルは厳しくない。代わりに、符号化プロトコル（及び対応する復号プロトコル）は各具体的なデータセットの特徴に基づいて最適に調整される。

【0044】

（２）圧縮率：開示される符号化プロトコルは、一般的な圧縮器及びゲノムデータ圧縮器より高い圧縮率が得られる。

【0045】

（３）参照不要：圧縮器は参照不要であり、配列を参照ゲノムにアライメントするという計算コストが高いプロセスを実行する必要がなくなる。

【0046】

（４）ゼロ損失：全符号化／復号プロセスは可逆である。

【0047】

（５）ＦａｓｔＡファイル：符号化アルゴリズムは、配列データを独立して圧縮できる。したがって、ＦａｓｔＱファイルに加えて、圧縮器はＦａｓｔＡファイルを圧縮するためにも使用できる。

【0048】

（６）不規則な非Ｎ塩基：不規則な塩基は、この方法の符号化プロセスにおいてＮに限定されない。

【0049】

（７）圧縮時間：開示される符号化プロトコルは、一般的な圧縮器及びゲノムデータ圧縮器より速く圧縮できる。

【0050】

上記の説明及び図面は、単に本発明の原理を例示するものに過ぎないと見なすべきである。本発明は、好ましい実施形態に限定されることを意図せず、当業者に自明な様々な方式で実施できる。本発明の多数の用途は、当業者に容易に想到し得る。したがって、本発明を開示された特定の実施例又は示され説明された特定の構造及び操作に限定することは望ましくない。むしろ、全ての適切な修正及び均等物は、本発明の範囲内に収まるように使用できる。本明細書に引用される全ての参考文献は、参照によって組み込まれる。

【図1】