(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-20
(45)【発行日】2022-06-28
(54)【発明の名称】バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム
(51)【国際特許分類】
G16B 50/50 20190101AFI20220621BHJP
【FI】
G16B50/50
(21)【出願番号】P 2019520450
(86)(22)【出願日】2016-10-11
(86)【国際出願番号】 EP2016074301
(87)【国際公開番号】W WO2018068828
(87)【国際公開日】2018-04-19
【審査請求日】2019-10-04
(73)【特許権者】
【識別番号】519130890
【氏名又は名称】ゲノムシス エスアー
【氏名又は名称原語表記】GENOMSYS SA
(74)【代理人】
【識別番号】100109380
【氏名又は名称】小西 恵
(74)【代理人】
【識別番号】100109036
【氏名又は名称】永岡 重幸
(72)【発明者】
【氏名】レンズィ,ダニエル
(72)【発明者】
【氏名】ゾワ,ジョルジョ
【審査官】田中 秀樹
(56)【参考文献】
【文献】米国特許出願公開第2015/0227686(US,A1)
【文献】特開2007-193708(JP,A)
【文献】特開2004-240975(JP,A)
【文献】特開2003-188735(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
参照配列にマッピングされるゲノムデータを圧縮する方法であって、前記方法は、ゲノムデータのファイルを、異なるタイプの
データユニットへ区分することを備え、
前記区分することにおいて、
第1のタイプの
データユニットが、エンコードされたデータをマッピングするために使用される参照配列の部分であるゲノムデータ、および前記参照配列の前記部分の第1の
ヌクレオチドの絶対位置を示す位置データを含み、
ここで、前記ゲノムデータは、他のタイプの
データユニットを参照せず、
第2のタイプの
データユニットが、
参照ゲノム上のマッピングに基づいて分類されホモジニアスデータのレイヤに構造化されるゲノムデータを備え、前記第2のタイプのデータユニットはさらに、前記第1のタイプの
データユニットに含まれる配列
の一部に完璧にマッチする
リードの位置に関連する情報と、前記第1のタイプの
データユニットに含まれるゲノム情報に対する逆相補情報を含み、
前記第2のタイプのデータユニット中の前記位置
に関連する情報は、第1のリードのマッピング位置が絶対位置として格納され、および他のすべての位置が前のリードの位置に対する差異として表現されて特定のレイヤに格納されるよう格納され、
前記位置に関連する情報および前記逆相補情報は、ホモジニアスデータの
それぞれ異なるレイヤに構造化され、特定の圧縮アルゴリズムを適用して圧縮される、
ことを特徴とする方法。
【請求項2】
前記第2のタイプの
データユニットはさらに、ゲノムリードペアリングおよび/またはリード長に関するさらなる情報を備える、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記ゲノムデータを異なるタイプの
データユニットへ前記区分することはさらに、シーケンシング装置がいずれのヌクレオチドも決定することができなかったミスマッチの位置に関する情報を含む、追加的タイプの
データユニットを備える、
ことを特徴とする請求項1または2に記載の方法。
【請求項4】
前記ゲノムデータを異なる
データユニットへ前記区分することはさらに、ミスマッチ位置およびミスマッチタイプに関する情報を含む、追加的タイプの
データユニットを備え、
前記ミスマッチは、前記第1のタイプの
データユニットに関するゲノムデータに関連する、
ことを特徴とする請求項1から3のいずれか1項に記載の方法。
【請求項5】
前記ゲノムデータを異なる
データユニットへ前記区分することはさらに、追加、削除およびミスマッチの位置、追加、削除およびミスマッチのタイプ、ソフトクリップされたヌクレオチドに関する情報、およびハードクリップされたヌクレオチドに関する情報に関する情報を含む、追加的タイプの
データユニットを備える、
ことを特徴とする請求項1から4のいずれか1項に記載の方法。
【請求項6】
前記区分することはさらに、メタデータおよび/またはクオリティスコアに関する情報と、および/または、前記
データユニットに関連付けられる注釈データを備える、さらに異なるタイプの
データユニットを備える、
ことを特徴とする請求項1から5のいずれか1項に記載の方法。
【請求項7】
前記区分することはさらに、注釈データを備える追加的な異なるタイプの
データユニットを備える、
ことを特徴とする請求項6に記載の方法。
【請求項8】
請求項1から7に記載の
データユニットのデータは、複数のレイヤに組織化され、
それぞれのレイヤは、異なるカテゴリー:位置データ、逆相補、オプションのペアリング、オプションのミスマッチ、およびオプションの注釈データ、に関連する情報を備える、
ことを特徴とする請求項7に記載の方法。
【請求項9】
前記データユニットは、ヘッダおよびペイロードデータを含む、
ことを特徴とする請求項1から8のいずれか1項に記載の方法。
【請求項10】
前記第2のタイプの
データユニットは、リードのペアリングに関する情報を備え、
そうした情報の存在は、
データユニットのヘッダで伝達される、
ことを特徴とする請求項1に記載の方法。
【請求項11】
第1のタイプの
データユニット中に備えられるリードの数は、入力構成パラメータにより設定される、
ことを特徴とする請求項1から10のいずれか1項に記載の方法。
【請求項12】
前記入力構成パラメータは、前記
データユニットのヘッダに格納される、
ことを特徴とする請求項11に記載の方法。
【請求項13】
前記
データユニットのコンテンツは、暗号化される、
ことを特徴とする請求項1から12のいずれか1項に記載の方法。
【請求項14】
参照配列にマッピングされるゲノムデータを圧縮する装置であって、前記装置は、プロセッサを備え、前記プロセッサは、ゲノムデータのファイルを、異なるタイプのデータユニットへ区分するよう構成され、
前記区分することにおいて、
第1のタイプのデータユニットが、エンコードされたデータをマッピングするために使用される参照配列の部分であるゲノムデータ、および前記参照配列の前記部分の第1のヌクレオチドの絶対位置を示す位置データを含み、
ここで、前記ゲノムデータは、他のタイプのデータユニットを参照せず、
第2のタイプのデータユニットが、参照ゲノム上のマッピングに基づいて分類されホモジニアスデータのレイヤに構造化されるゲノムデータを備え、前記第2のタイプのデータユニットはさらに、前記第1のタイプのデータユニットに含まれる配列の一部に完璧にマッチするリードの位置に関連する情報と、前記第1のタイプのデータユニットに含まれるゲノム情報に対する逆相補情報を含み、
前記第2のタイプのデータユニット中の前記位置に関連する情報は、第1のリードのマッピング位置が絶対位置として格納され、および他のすべての位置が前のリードの位置に対する差異として表現されて特定のレイヤに格納されるよう格納され、
前記位置に関連する情報および前記逆相補情報は、ホモジニアスデータのそれぞれ異なるレイヤに構造化され、特定の圧縮アルゴリズムを適用して圧縮される、
ことを特徴とする装置。
【請求項15】
請求項1から13のいずれか1項に記載の方法を実行するための命令セットを備えるプログラムがその上に記録されるコンピュータ可読媒体。
【請求項16】
請求項1から13のいずれか1項に記載の方法により生成された、
データユニット内に区分されるゲノムデータのファイルをコード変換する方法であって、
データが新たな参照ゲノムに対して再アライメントされる際に、アクセスデータのペイロード情報のみが、前記ファイルの全体をコード変換することなく、修正される、
ことを特徴とする方法。
【請求項17】
選択された
データユニットのみが修正される、
ことを特徴とする請求項16に記載の方法。
【請求項18】
前記選択された
データユニットは、前記第1のタイプである、
ことを特徴とする請求項17に記載の方法。
【請求項19】
前記選択された
データユニットは、いずれかのタイプ(290、300、310、320、321)である、
ことを特徴とする請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、バイオインフォマティクスデータ、特にゲノム配列データを効率的に格納、アクセス、および伝送するための新規な方法を提供する。
【背景技術】
【0002】
ゲノム配列データの適切な表現は、効率的なゲノムデータの処理、記憶、および伝送を可能にして、解析アプリケーション、例えば、ゲノム変異分類(命名)(calling)、および配列データおよびメタデータを処理することにより多様な目的で実行されるすべての他の解析を可能かつ容易にすることの基礎である。
今日、ゲノム配列情報は、定義された語彙からの文字列により表現されるヌクレオチド配列の形式(塩基としても知られる)で、高スループットシーケンシング(HTS)装置により生成される。
これらのシーケンシング装置は、ゲノムあるいは遺伝子の全体を読み出さずに、配列リードとして知られるヌクレオチド配列の短いランダムな断片(フラグメント)を生成する。
クオリティスコアは、配列リード中のそれぞれのヌクレオチドに関連付けられる。その数字は、ヌクレオチド配列の特定の場所で、特定のヌクレオチドのリードに対して装置により与えられる信頼水準を表す。
【0003】
NGS装置により生成されるこの生配列データは、通常、FASTQファイル(
図1参照)に格納される。
シーケンシング処理により取得されるヌクレオチドの配列を表す最も少ない語彙は、5つのシンボル:{A,C,G,T,N}から構成され、DNA中に存在するヌクレオチドの4つのタイプ、すなわち、アデニン、シトシン、グアニン、チミンを表す。プラス、シンボルNは、シーケンシング装置が十分な信頼水準でいずれの塩基も分類することができなかったこと、そうした位置の塩基のタイプが、読み取り処理において未確定のままであることを示す。RNAにおいて、チミンは、ウラシル(U)で置き換えられる。シーケンシング装置により生成されるヌクレオチド配列は、「リード(reads)」と呼ばれる。対のリードの場合、用語「テンプレート」は、リード対が抽出されたオリジナル配列を指定するために使用される。配列(sequence)リードは、数十から数千の多数のヌクレオチドにより構成されることができる。いくつかの技術は、リードを対で生成し、ここで、それぞれのリードは、2つのDNA鎖の一方から来ることができる。
【0004】
ゲノムシーケンシング分野において、用語「カバレッジ(coverage)」は、参照ゲノムに対して配列データ(sequence data)の冗長性のレベルを表現するのに使用される。例えば、ヒトゲノム上に(32億塩基長)30xのカバレッジに到達するために、シーケンシング装置は、トータルで約30x32億の塩基を生産しなければならず、これにより、参照上のそれぞれの位置は、平均で30回「カバー」される。
【0005】
従来技術における解決手段
最も使用されている配列(sequencing)データのゲノム情報表現は、FASTQおよびSAMフォーマットに基づき、これらはオリジナルのサイズを削減するため圧縮された(zipped)形式で通常利用可能である。従来使用されているファイルフォーマット、非アライメント(non-aligned)データおよびアライメント(aligned)配列データについてそれぞれFASTQおよびSAM、は、平文(plain text)文字から構成され、例えばLZ(最初のバージョンを公表した著作者LempelおよびZivに由来する)の体系(周知のzip、gzip等)等の汎用アプローチを使用することで、圧縮される。gzipのような汎用圧縮器が使用される場合、圧縮の結果は通常、バイナリデータの単一のブロブ(blob)である。そうしたモノリシック形式の情報は、特に、高スループットシーケンシングの場合のようにデータ量が極めて大きい場合に、アーカイブ、転送、および合成することが極めて困難である。
【0006】
シーケンシングの後、ゲノム情報処理パイプラインのそれぞれのステージは、実際には以前のステージに対して生成されたデータのうちごく一部のみが新しいという事実にも拘らず、完全に新たなデータ構造(ファイルフォーマット)により表されるデータを生成する。
図1は、典型的なゲノム情報処理パイプラインの主要なステージを、関連するファイルフォーマットを示しつつ、図示する。
【0007】
通常使用されている解決手段は、複数の欠点を示す:異なるファイルフォーマットがゲノム情報処理パイプラインのそれぞれのステージで使用されるという事実について、データのアーカイブ(保管)(archival)が非効率的であり、これは、データの複数回の複製と、結果的に要求される記憶スペースの急激な増加を示唆する。論理的に必要ではなく、非効率かつ不必要であり、そしてまたHTS装置によって生成されるデータ量の増加について持続可能でなくなるため、これはそれ自体、効率的でない。これは実際、利用可能な記憶スペースおよび発生するコストの意味において重大であり、また、ヘルスケアにおけるゲノム解析の利点を、人口の大部分から享受されることを妨げる。格納され解析されるべき配列データの指数関数的増加により発生するITコストのインパクトは、現在、科学コミュニティの主要な課題の1つであり、ヘルスケア産業が対峙しなければならない課題である(Scott D.Kahn “On the future of genomic data” -Science331、728(2011)、およびPavlichin,D.S.,Weissman,T.,G.Yona 2013 “The human genome contracts again” Bioinfomatics 29(17):2199-2202参照)。同時に、ゲノムシーケンシングをいくつかの選択された個体から大規模な集団にスケーリングすることを試みる複数の取り組みがある(Josh P.Roberts “Million Veterans Sequenced” -Nature Biotechnology 31,470(2013))。
【0008】
現在使用されているデータフォーマットが、数百ギガバイトまでのサイズのモノリシックファイルに組織化(編成)され、これが受信側で処理されるため全体的に転送される必要があるため、ゲノムデータの伝送は、遅く、非効率的である。これは、データの小さいセグメントの解析が、消費される帯域および待ち時間の意味において莫大なコストを伴うファイル全体の転送を必要とすることを示唆する。しばしば、オンライン転送は、大容量の転送すべきデータについて禁止され、データは、例えばハードディスクドライブやストレージサーバのような物理的に移動する記憶媒体によりある場所から他へと輸送される。
【発明の開示】
【発明が解決しようとする課題】
【0009】
従来技術のアプローチを採用した際に発生するこれらの制約は、本発明により克服される。情報が構造化されておらず、通常使用される解析アプリケーションにより要求されるデータおよびメタデータの異なるクラスの部分が、データ全体にアクセスする必要性なくして検索できないという事実において、データの処理は、遅く、非効率的である。この事実は、特定の解析目的に関連するデータの部分が非常に小さい場合であっても、大容量のデータを、アクセスのそれぞれのステージにおいて、構文解析し、およびフィルタリングする必要性があるため、通常の解析パイプラインが、貴重で高価な処理資源を浪費しながら、数日または数週間に亘り稼動しなければならないことを示唆する。
これらの制約は、ヘルスケア専門家が、タイムリーにゲノム解析レポートを取得し、迅速に疾病の大流行に対応することを妨げる。本発明は、このニーズに対する解決手段を提供する。
本発明により克服される他の技術的制約がある。
実際、本発明は、データを組織化および区分することにより、適切なゲノム配列データおよびメタデータ表現を提供し、これにより、データおよびメタデータの圧縮が最大化し、例えば選択的アクセスや漸進的(incremental)更新や多くの他のもののような複数の機能を効率的に可能にすることを目的とする。
【課題を解決するための手段】
【0010】
本発明の重要な態様は、適切なソースモデルにより表現され、特定のレイヤに構成されることによって別個にコード(すなわち、圧縮)されるべきデータおよびメタデータのクラスの特定の定義である。既存の方法に対する本発明の最も重要な達成は、以下を備える:
・データまたはメタデータのそれぞれのクラスのための効率的なモデルを提供することにより構成される情報ソースエントロピーの削減による、圧縮性能の向上;
・圧縮されたデータおよびメタデータの部分への、あらゆるさらなる処理目的のための選択的アクセスを実行する可能性;
・新たな配列データおよび/またはメタデータおよび/または新たな解析結果で、エンコードされたデータおよびメタデータを漸進的に更新する(再エンコーディングの必要なく)可能性
・シーケンシング装置またはアライメントツールにより生成されるとすぐに、シーケンシングまたはアライメント処理の終了を待つ必要がなく、効率的にデータを処理する可能性
【0011】
本出願は、構造化されたアクセスユニットのアプローチを採用することにより、非常に大容量のゲノム配列データの効率的な操作、格納、および伝送の課題に対処する方法およびシステムを開示する。
本出願は、ゲノムデータのアクセス可能性、データサブセットの効率的な処理、および効率的な圧縮と組み合わせられるストリーミング機能、の機能に関連する従来技術のアプローチのすべての制約を克服する。
【0012】
今日、ゲノムデータのための最も使用されている表現形式は、シーケンス・アライメント・マッピング(Sequence Alignment Mapping)(SAM)テキストフォーマットであり、バイナリでそれに対応するBAMである。SAMファイルは、人間が可読なASCIIテキストファイルであり、これに対して、BAMは、ブロックベースのgzipの変形(variant)を適用する。BAMファイルは、インデックス化されて、ランダムアクセスの限定的な様式(modality)を可能にする。これは、別個のインデックスファイルを生成することによりサポートされる。
BAMフォーマットは、以下の理由により、低い圧縮性能により特徴付けられる:
1.SAMファイルにより搬送(convey)される実際のゲノム情報を抽出することや圧縮のため適切なモデルを使用することよりも、非効率的で冗長なSAMフォーマットの圧縮に焦点を置いている。
2.それぞれのデータソース(ゲノム情報自体)の特定の性質を利用することよりも、例えばgzipのような汎用テキスト圧縮アルゴリズムを採用している。
3.ゲノムデータの特定のクラスへの選択的アクセスを可能にするであろうデータ分類に関する概念を欠く。
【0013】
あまり使用されていないがBAMより効率的であるゲノムデータ圧縮へのより洗練されたアプローチは、CRAMである(CRAM仕様書:https://samtools.github.io/hts-specs/CRAMv3.pdf)。CRAMは、既存の参照(reference)に対する差分エンコーディングを採用しているためより効率的な圧縮を提供するが(部分的にデータソースの冗長性を利用する)、未だ、漸進的(incremental)更新、ストリーミングのサポート、および圧縮されたデータの特定のクラスへの選択的アクセス等の特徴を欠く。
CRAMは、CRAMレコードの概念に依存する。それぞれのCRAMレコードは、それを再構成するのに必要なすべての要素をエンコードすることにより、単一のマッピングされたまたは非マッピング(unmapped)のリード(reads)をエンコードする。
【0014】
開示される本発明のCRAMアプローチに対する主要な相違は以下である:
1.CRAMで、データのインデックス化は仕様(specification)の範疇外であり(CRAM仕様v3.0のセクション12参照)、それは別個のファイルとして実装されている。本発明では、データインデックス化は、エンコーディング処理に統合され、インデックスは、エンコードされたビットストリーム内に埋め込まれる。
2.CRAMで、すべてのコアデータブロックは、あらゆるタイプのマッピングされたリード(完全にマッチするリード、置換(substitution)のみのリード、挿入または削除(indels)のリード)を含む。本発明において、参照配列に対するマッピングの結果に基づいた、クラスにおけるリードの分類およびグルーピングの概念はない。
3.開示される本発明において、それぞれのリードを再構成するために必要なデータは、「レイヤ」と呼ばれる複数のデータコンテナ間に散在するため、それぞれのリードをカプセル化するレコードの概念はない。これにより、それぞれのリード(そのブロック)をデコードしてその特徴を検査する必要なく、特定の生物学的特徴(例えば、置換があるがindelsがないリード、または完璧にマッピングされたリード)を有するリードのセットへのより効率的なアクセスが可能となる。
4.CRAMのレコードにおいて、それぞれのタイプのデータは、特定のフラグにより示される。本発明において、CRAMと異なり、データを示すフラグの概念は、データが属する「レイヤ」により本来的に定義されているため、存在しない。これは、大幅に削減された数の使用すべきシンボルと、情報ソースエントロピーの結果的な削減を示唆し、より効率的な圧縮をもたらす。これは、異なる「レイヤ」を使用することにより、エンコーダが、同じシンボルを、それぞれのレイヤに亘り異なる意味で再使用できるという事実によるものである。CRAMにおいては、コンテクストの概念がなく、それぞれのCRAMレコードはあらゆるタイプのデータを含むことができるため、それぞれのフラグは常に、同じ意味を持たなければならない。
5.CRAMにおいて、置換、挿入、および削除は、異なるシンタックス(構文)に基づいて表現され、一方、本発明は、置換、挿入、および削除のために単一のアルファベットとエンコーディングを使用する。これにより、エンコーディングおよびデコーディング処理が単純化され、そのコーディングが高圧縮性能で特徴付けられるビットストリームを生み出す、より低いエントロピーソースモデルを生産する。
【0015】
従来技術で使用されるゲノム圧縮アルゴリズムは、次のカテゴリーに分類することができる:
・変換ベース
・LZベース
・リード並び替え
・アセンブリ・ベース
・統計モデリング
【0016】
最初の2つのカテゴリーは、データソース(ゲノム配列リード)の特定の特徴を利用しないという欠点を共有するものであり、こうした種類の情報の特定の特徴(例えば、リード間の冗長性、既存の試料への参照)を考慮することなく、ゲノムデータを、圧縮すべきテキスト列として処理する。ゲノムデータ圧縮のための最も進んだツールキットのうちの2つ、すなわち、CRAMと、Goby(“Compression of structured high-throughput sequencing data”、F.Campagne,K.C.Dorff,N.Chambwe,J.T.Robinson,J.P.Mesirov,T.D.Wu)、は、これらが、黙示的に、データを、幾何学的分布により独立しかつ完全に同じように分布しているものとしてモデリングするため、演算コーディングを下手に使用するものである。Gobyは、すべてのフィールドを整数のリストに変換し、それぞれのリストがいずれのコンクキストも使用することなく、演算コーディングを使用して独立してエンコードされるため、僅かではあるがより洗練されている。最も効率的な動作モードにおいて、Gobyは、複数の整数リストに亘ってリスト間モデリングを実行して、圧縮を向上させることがきる。これらの従来技術の解決手段は、低い圧縮率と、一旦圧縮されると選択的にアクセスおよび操作することが、仮に不可能でないとしても困難であるデータ構造を生み出すものである。下流の解析ステージは、大容量でリジッドなデータ構造をハンドリングする必要性のため、単純な動作を実行しまたはゲノムデータセットの選択された領域にアクセスするものであっても、非効率的で非常に遅い結果となり得る。
【0017】
ゲノム処理パイプラインで使用されるファイルフォーマット間の関係の単純化されたバージョンは、
図1に示されている。この図において、ファイルの組み入れ(inclusion)は、入れ子のファイル構造の存在を意味するものではなく、それぞれのフォーマットにエンコードできる情報のタイプおよび量を表すものにすぎない(すなわち、SAMはFASTQ中にすべての情報を含むが、異なるファイル構造に組織化される)。CRAMは、SAM/BAMと同じゲノム情報を含むが、使用可能な圧縮のタイプについてより柔軟性を持ち、このため、SAM/BAMのスーパーセットとして表されている。
【0018】
複数のファイルフォーマットをゲノム情報の格納に使用することは、非常に非効率的でありコストが嵩む。ゲノム情報ライフサイクルの異なるステージで異なるファイルフォーマットを持つことは、増分の情報が最小限であったとしても、使用される記憶スペースのリニアな増加を意味する。先行技術の解決手段の更なる欠点は、以下にリストされる:
1.圧縮されたFastQファイルまたはその組み合わせ中に格納される生データへのアクセス、解析、または注釈の付加(annotations)(メタデータ)は、コンピュータリソースおよび時間の甚大な使用とともに、ファイル全体の展開(decompression)および再圧縮を必要とする。
2.BAMファイルに格納されるアライメントされたデータ中の情報の特定のサブセット、例えば、リードマッピング位置、リード変異 (variant)位置およびタイプ、indels(追加、削除)位置およびタイプ、または他のメタデータおよび注釈、は、それぞれのリードに関連付けられるデータ容量全体へのアクセスを必要とする。メタデータの単一のクラスへの選択的アクセスは、先行技術の解決手段では不可能である。
3.先行技術のファイルフォーマットは、ファイル全体が、処理開始前に、エンドユーザにおいて受信されることを必要とする。例えば、適切なデータ表現に依存してシーケンシング処理を完了する前に、リードのアライメントを開始することができる。シーケンシング、アライメント、および解析は、並行して、開始し、実行することができる。
4.先行技術の解決手段は、構造化をサポートせず、それらの特定の世代(generation)意味論(semantic)に基づいて、異なるシーケンシング処理により取得されるゲノムデータを識別することができない(例えば、同じ個体の異なる年代時点で取得されたシーケンシング)。同じ制約が、同じ個体の異なるタイプの生物学的試料により取得されるシーケンシングでも発生する。
5.データ全体のまたは選択された部分の暗号化は、先行技術の解決手段でサポートされない。例えば、以下の暗号化である:
a.選択されたDNA領域
b.変異を含む配列のみ
c.キメラ配列のみ
d.マッピングされていない配列のみ
e.特定のメタデータ(例えば、シーケンシングされた試料の起源、シーケンシングされた個体の識別子、試料のタイプ)
6.所与の参照にアライメントされたシーケンシングデータ(すなわち、SAM/BAMファイル)から新たな参照へのコード変換(transcoding)は、新たな参照が、以前の参照から単一のヌクレオチド位置のみで相違するものであったとしても、データ容量全体を処理する必要がある。
【0019】
このため、ゲノムデータ処理の異なるステージのすべてのレベルにおいて、効率的な圧縮、圧縮されたドメインへの選択的アクセス、圧縮されたドメインでのヘテロジニアス(異種)(heterogeneous)メタデータの漸進的(incremental)追加をサポートすることができる適切なゲノム情報格納レイヤ(ゲノムファイルフォーマット)が要請されている。
本発明は、添付クレームにより画定される方法、装置、およびコンピュータプログラムを採用することにより、先行技術の制約への解決手段を提供する。
【図面の簡単な説明】
【0020】
【
図1】
図1は、典型的なゲノムパイプラインの主要なステップおよび関連するファイルフォーマットを示す図である。
【
図2】
図2は、最も使用されるゲノムファイルフォーマット間の相互関係を示す図である。
【
図3】
図3は、ゲノム配列リードが、デノボ(de-novo)アセンブリまたは参照に基づくアライメントにより、どのようにゲノム全体またはその部分にアセンブルされるかを示す図である。
【
図4】
図4は、参照配列上のリードマッピング位置がどのように算出されるかを示す図である。
【
図5】
図5は、リードペアリング距離がどのように算出されるかを示す図である。
【
図6】
図6は、ペアリングエラーがどのように算出されるかを示す図である。
【
図7】
図7は、リードメイト(rad mate)対が異なる染色体にマッピングされた際に、ペアリング距離がどのようにエンコードされるかを示す図である。
【
図8】
図8は、配列リードが、どのように、ゲノムの第1または第2のDNA鎖から来るかを示す図である。
【
図9】
図9は、鎖2にマッピングされたリードが、どのように、鎖1上に対応する逆相補リードを持つかを示す図である。
【
図10】
図10は、リード対およびrcompレイヤでの対応するエンコーディングを構成する、リードの4つの可能な組み合わせを示す図である。
【
図11】
図11は、Nミスマッチがnmisレイヤにどのようにエンコードされるかを示す図である。
【
図12】
図12は、マッピングされたリード対での置換の例を示す図である。
【
図13】
図13は、置換位置が、どのように、絶対値または差分値として算出されるかを示す図である。
【
図14】
図14は、IUPACコードを使用せずに、置換をエンコードするシンボルがどのように算出されるかを示す図である。
【
図15】
図15は、置換タイプが、どのようにsnptレイヤにエンコードされるかを示す図である。
【
図16】
図16は、IUPACコードを使用して、置換をエンコードするシンボルがどのように算出されるかを示す図である。
【
図17】
図17は、位置のみがエンコードされ、置換タイプ当たり1つのレイヤが使用される場合の、置換えの代替的ソースモデルを示す図である。
【
図18】
図18は、IUPACコードが使用されない場合に、クラスIのリード対において、どのように、置換、挿入、および削除をエンコードするかを示す図である。
【
図19】
図19は、IUPACコードが使用される場合に、クラスIのリード対において、どのように、置換、挿入、および削除をエンコードするかを示す図である。
【
図20】
図20は、ゲノム情報データ構造のヘッダの構造を示す図である。
【
図21】
図21は、マスタインデックステーブルが、どのように、それぞれのアクセスユニット中に第1のリードの参照配列上の位置を含むかを示す図である。
【
図22】
図22は、クラスPのそれぞれのposAUにおける第1のリードのマッピング位置を示す部分MITの例を示す図である。
【
図23】
図23は、レイヤヘッダ中のローカルインデックステーブルが、どのように、ペイロード中のAUへのポインタのベクタであるかを示す図である。
【
図24】
図24は、ローカルインデックステーブルの例を示す図である。
【
図25】
図25は、マスタインデックステーブルとローカルインデックステーブルとの間の機能的関係を示す図である。
【
図26】
図26は、アクセスユニットが、複数のレイヤに属するデータブロックにより、どのように構成されるかを示す図である。レイヤは、パケットにさらに分割されるブロックにより構成される。
【
図27】
図27は、タイプ1のゲノムアクセスユニット(位置、ペアリング、逆相補、およびリード長の情報を含む)が、どのように、ゲノムデータ多重体(multiplex)にパケット化されカプセル化されるかを示す図である。
【
図28】
図28は、アクセスユニットが、ヘッダ、およびホモジニアスデータの1つまたは複数のレイヤに属する多重化ブロックにより、どのように構成されるかを示す図である。それぞれのブロックは、ゲノム情報の実際のディスクリプタを含む1つまたは複数のパケットにより構成されることができる。
【
図29】
図29は、アクセス、またはデコードおよびアクセスされるべき他のアクセスユニットから来るいずれの情報も参照する必要がない、タイプ0のアクセスユニットの構造を示す図である。
【
図30】
図30は、タイプ1のアクセスユニットの構造を示す図である。
【
図31】
図31は、タイプ1のアクセスユニットを参照するデータを含む、タイプ2のアクセスユニットの構造を示す図である。エンコードされたリードに、Nの位置がある。
【
図32】
図32は、タイプ1のアクセスユニットを参照するデータを含む、タイプ3のアクセスユニットの構造を示す図である。エンコードされたリード中にミスマッチの位置およびタイプがある。
【
図33】
図33は、タイプ1のアクセスユニットを参照するデータを含む、タイプ4のアクセスユニットの構造を示す図である。エンコードされたリード中にミスマッチの位置およびタイプがある。
【
図34】
図34は、アクセスユニットの最初の5つのタイプを示す図である。
【
図35】
図35は、タイプ1のアクセスユニットが、デコードされるべきタイプ0のアクセスユニットを参照することを示す。
【
図36】
図36は、タイプ2のアクセスユニットが、デコードされるべきタイプ0およびタイプ1のアクセスユニットを参照することを示す。
【
図37】
図37は、タイプ3のアクセスユニットが、デコードされるべきタイプ0およびタイプ1のアクセスユニットを参照することを示す。
【
図38】
図38は、タイプ4のアクセスユニットが、デコードされるべきタイプ0およびタイプ1のアクセスユニットを参照することを示す。
【
図39】
図39は、参照配列の第2のセグメント上にマッピングされるミスマッチを有する配列リードをデコードすることが要求されるアクセスユニットを示す図である(AU0-2)。
【
図40】
図40は、利用可能となる生ゲノム配列データが、どのように、事前にエンコードされたゲノムデータに、漸進的に追加されることができるかを示す図である。
【
図41】
図41は、アクセスユニットに基づくデータ構造が、どのように、シーケンシング処理が完了する前に、ゲノムデータ解析を開始することを可能にするかを示す図である。
【
図42】
図42は、既存のデータで実行される新たな解析が、どのように、リードがタイプ4のAUからタイプ3のAUへ移動したかを示唆するかを示す図である。
【
図43】
図43は、新たに生成された解析データが、どのように、新たなタイプ6のAU、およびMITに生成された対応するインデックスにカプセル化されるかを示す図である。
【
図44】
図44は、新たな参照配列(ゲノム)の公表により、どのようにデータをコード変換するかを示す図である。
【
図45】
図45は、よりよい質を持つ(例えば、indelsがない)新たなゲノム領域にマッピングされるリードが、どのように、タイプ4のAUからタイプ3のAUへ移動するかを示す図である。
【
図46】
図46は、新たなマッピング位置が発見された場合、(例えば、ミスマッチのより少ない)関連するリードが、どのように、あるAUから同じタイプの他のAUに移動することができるかを示す図である。
【
図47】
図47は、選択的暗号化が、どのように、保護されるべき合理的(sensible)情報を含むためのみで、タイプ4のアクセスユニットに適用されることができるかを示す図である。
【
図48】
図48は、生ゲノム配列データまたはアライメントされたゲノムデータが、どのように処理されて、ゲノムマルチプレクス(Genomic Multiplex)にカプセル化されるかを示す図である。アライメント、再アライメント、アセンブリのステージは、エンコード用のデータを準備するのに必要であり得る。生成されたレイヤは、アクセスユニットにカプセル化され、ゲノムマルチプレクサにより多重化される。
【
図49】
図49は、どのように、ゲノムデマルチプレクサ(501)が、ゲノムマルチプレクサからアクセスユニットレイヤを抽出するか、AUタイプごとに1つのデコーダ(502)が、その後多様なゲノムフォーマット、例えば、FASTQおよびSAM/BAM、にデコードされるゲノムディスクリプタを抽出するか、を示す図である。
【発明を実施するための形態】
【0021】
本発明は、分子を表すシンボルの配列(sequence)の形式で、ゲノム情報またはプロテオーム(proteome)情報を格納、伝送、アクセス、および処理するのに使用される多重化(multiplexing)ファイルフォーマットおよび関連するアクセスユニットを開示する。
これらの分子は、例えば、ヌクレオチド、アミノ酸、およびタンパク質を含む。シンボルのシーケンスとして表される最も重要な情報の1つは、高スループットゲノムシーケンシング装置により生成されるデータである。
あらゆる生物のゲノムは、通常、当該生物を特徴付ける核酸(塩基)の鎖を表現するシンボル列(string)として表現される。現在の技術水準のゲノムシーケンシング技術は、メタデータ(識別子、正確さのレベル等)に関連付けられる核酸の複数の(数十億まで)鎖の形式で、ゲノムの断片化された表現のみを生成することができる。こうした鎖(ストリング)は、通常、「配列リード(sequence reads)」または「リード」と呼ばれる。
ゲノム情報ライスサイクルの典型的なステップは、配列リードの抽出、マッピングおよびアライメント、変異検出、変異注釈付け、機能的および構造的解析を含む(
図1参照)。
配列リードの抽出は、生物学的試料を構成する分子を表すシンボルの配列の形式で、遺伝情報の断片(フラグメント)を表現する処理-人間のオペレータまたは機械のいずれかにより実行される-である。核酸の場合、こうした分子は、「ヌクレオチド」と呼ばれる。抽出により生成されたシンボルの配列(シーケンス)は、通常、「リード(reads)」として参照される。この情報は、通常、従来技術では、テキストヘッダとシーケンスされた分子を表すシンボルの配列を含むFASTAファイルにエンコードされる。
【0022】
生物学的試料がシーケンスされて、生物のDNAを抽出する場合、アルファベットは、シンボル(A,C,G,T,N)から成る。
生物学的試料がシーケンスされて、生物のRNAを抽出する場合、アルファベットは、シンボル(A,C,G,U,N)から成る。
シンボルのIUPAC拡張セットの場合、いわゆる「曖昧コード(ambiguity codes)」がまた、シーケンシング装置により生成され、リードを構成するシンボルに使用されるアルファベットは、(A,C,G,T,U,W,S,M,K,R,Y,B,D,H,V,N または-)である。
IUPAC曖昧コードが使用されない場合、クオリティスコアの配列は、それぞれの配列リードに関連付けられてよい。こうした場合、先行技術の解決手段は、結果的に得られる情報をFASTQファイルとしてエンコードする。
シーケンシング装置は、配列リードに以下のようなエラーをもたらし得る:
1.誤ったシンボルを同定して(すなわち、異なる核酸を表現すること)、シーケンスされた試料中に実際に存在する核酸を表現すること。これは通常「置換エラー」(ミスマッチ)と呼ばれる。
2.1つの配列リード中に、いずれの実際に存在する核酸をも参照しない追加的シンボルを挿入すること。これは通常「挿入エラー」と呼ばれる。
3.1つのシーケンスリードから、シーケンスされた試料中に実際に存在する核酸を表現するシンボルを削除すること。これは通常「削除エラー」と呼ばれる。
4.1つまたは複数のフラグメント(断片)の、オリジナル配列の実際を反映しない単一のフラグメントへの組み替え(recombination)
用語「カバレッジ」は、文言上、参照ゲノムやその部分が、利用可能な配列リードによりカバーされ得る程度を定量化するために使用される。カバレッジは、以下であると考えられている:
・参照ゲノムのある部分が、いかなる利用可能なシーケンスリードにもマッピングされない場合、部分的(1x未満)
・参照ゲノムのすべてのヌクレオチドが、シーケンスリード中の1つのそして1つのみのシンボルによりマッピングされる場合、シングル(1x)
・参照ゲノムのヌクレオチドのそれぞれが、複数回マッピングされる場合、多重(2x、3x、Nx)
【0023】
配列アライメントは、配列間の機能的、構造的、進化的関係の結果であり得る類似性の領域を見出すことにより、配列リードを整列させる(配列する)処理を参照する。「参照ゲノム」として参照される既存のヌクレオチド配列に対して、アライメントが実行される際、この処理を「マッピング」という。配列アライメントはまた、既存の配列(すなわち、参照ゲノム)なしに実行されることができ、この場合、この処理は、先行技術において、「デノボ(de novo)」アライメントとして知られている。先行技術の解決手段は、この情報を、SAM、BAM、またはCRAMファイルに格納する。配列をアライメントして、一部のまたは完全なゲノムを再構成する概念は、
図3に示されている。
【0024】
変異検出(変異分類(variant calling)としても知られている)は、ゲノムシーケンシング装置のアライメントされた出力を、他の既存の配列には見出せないまたはわずかな既存の配列のみに見出せるに過ぎないシーケンスされた生物の固有の特徴の要約に変換する処理である。これらの特徴は、調査対象の生物のゲノムと参照ゲノムとの間の相違を表現するものであるため、「変異(variant)」と呼ばれる。先行技術の解決手段は、この情報を、VCFファイルと呼ばれる特定のファイルフォーマットに格納する。
変異注釈付けは、変異分類の処理により同定されたゲノム変異に対して機能情報を割り当てる処理である。これは、ゲノム中のコーディング配列へのその関係に基づき、およびコーディング配列と遺伝子産物へのそのインパクトに基づき、変異体を分類することを意味する。これは、先行技術において、通常MAFファイルに格納される。
【0025】
DNA鎖(変異体、複製数変動(CNV)、メチル化等)を解析して、遺伝子(およびタンパク質)機能および構造との関係を定義する処理は、機能的または構造的解析と呼ばれる。このデータを格納するため、複数の異なる解決手段が、先行技術に存在する。
【0026】
ゲノムファイルフォーマット
本明細書に開示される本発明は、ゲノム配列データを表現し、処理し、操作し、および伝送するための圧縮データ構造の定義を備え、先行技術の解決手段と、少なくとも以下の点で相違する:
・先行技術のゲノム情報のいずれの表現フォーマット(すなわち、FASTQ、SAM)にも依存しない。
・ゲノムデータおよびメタデータの、その特定の特徴に基づく新規でオリジナルな分類を実装する。配列リードは、参照配列にマッピングされ、アライメント処理の結果に基づいて、区別可能なクラスにグループ化される。これにより、より少ない情報エントロピーを持ち、異なる特定の圧縮アルゴリズムを適用してより効率的にエンコードされることが可能なデータクラスがもたらされる。
・配列リードおよびアライメント情報を、下流の解析アプリケーションで処理されるのにより効率的な表現に伝達する、シンタックス要素および関連するエンコーディング/デコーディング処理
【0027】
マッピングの結果に基づいて分類し、レイヤ(位置レイヤ、メイト距離レイヤ、ミスマッチタイプレイヤ等)に格納すべきディスクリプタを使用してこれらをコードすることは、以下の利点をもたらす:
・異なるシンタックス要素が特定のソースモデルによりモデル化される場合の、情報エントロピーの削減
・下流の解析ステージのため特定の意味を持ち、分離独立してアクセスすることが可能なグループ/レイヤにすでに組織化されたデータへのより効率的なアクセス
・データコンテンツ全体をデコードする必要なく、要求される情報のみにアクセスすることにより、漸進的に(incrementally)更新することが可能なモジュール式データ構造の存在
・シーケンシング装置により生成されるゲノム情報は、情報自体の性質のため、およびシーケンシング処理に内在するエラーを軽減する必要のため、本質的に非常に冗長である。これは、同定および解析される必要がある関連遺伝情報(参照に対する差異)は生成されたデータのうちほんの僅かに過ぎないことを意味する。先行技術のゲノムデータ表現フォーマットは、所与の解析ステージで、有意義な情報を残りの情報から「分離」し、これにより解析アプリケーションを迅速に利用可能にすることを着想していない。
・本発明によりもたらされる解決手段は、ゲノムデータを、データのあらゆる関連する部分が、データ全体にアクセスしてこれを展開する必要なく、解析アプリケーションに容易に利用可能にするよう表現することであり、データの冗長性は、効率的な圧縮により、要求される記憶スペースと伝送帯域を最小化することで、効率的に低減される。
【0028】
本発明の重要な要素は以下である:
1.構造化され、圧縮された形式で、選択的にアクセス可能なデータ要素であるアクセスユニット(AU)を「含む(contains)」ファイルフォーマットの仕様。こうしたアプローチは、例えば、SAMおよびBAMのような、データが非圧縮形式で構造化され、その後ファイル全体が圧縮される先行技術のアプローチと対極的に見える。このアプローチの第1の明瞭な利点は、先行技術のアプローチでは不可能であるか極めて扱いづらかった、圧縮されたドメイン中のデータ要素への多様な形式での構造化された選択的アクセスを、効率的かつ自然に提供することができることである。
2.ゲノム情報を、ホモジニアス(同種)(homogeneous)データおよびメタデータに構造化することで、低いエントロピーで特徴付けられる情報ソースの異なるモデルの定義を可能にするという顕著な利点をもたらす。こうしたモデルは、レイヤ内の圧縮されたデータが、アクセスユニットに含まれるデータブロックに区分される場合に、レイヤ間で異なるだけでなく、それぞれのレイヤ内でも異なる。この構造化により、従来技術のアプローチに対するコーディング効率の顕著な向上を伴って、データまたはメタデータのそれぞれのクラスまたはその部分への最も適切な圧縮を使用することが可能となる。
3.情報がアクセスユニット(AU)に構造化されるので、ゲノム解析アプリケーションにより使用されるあらゆる関連するデータのサブセットが、適切なインタフェースにより、効率的かつ選択的にアクセス可能である。これらの特徴により、データへのより迅速なアクセスが可能となり、より効率的な処理をもたらす。
4.マスタインデックステーブルおよびローカルインデックステーブルの定義により、圧縮されたデータの全体容量をデコードする必要なく、エンコード(すなわち、圧縮)されたデータのレイヤにより担持される情報への選択的アクセスが可能となる。
5.すでにアライメントされ圧縮されたゲノムデータを、新たに公表された参照ゲノムに対して再アライメントする必要がある場合、圧縮されたドメイン中の選択されたデータ部分の効率的なコード変換(transcoding)を実行することにより、再アライメントする可能性。新たな参照ゲノムの頻繁なリリースは、現在、新たに公表された参照に対して、すでに圧縮され格納されたゲノムデータを再アライメントすることは、すべてのデータ量が処理されなければならないため、コード変換プロセスに資源消費と時間を要求するものである。
【0029】
本明細書に開示される方法は、ゲノムデータに関する利用可能な先験的(a-priori)知識を利用して、削減されたエントロピーで、シンタックス要素のアルファベットを定義することを目的とする。ゲノミクスにおいて、利用可能な知識は、通常、ただし必ずしもではないが、同じ種(species)の既存のゲノム配列により、処理されるべきものとして表される。一例として、異なる個体間のヒトゲノムは、わずか1%のみしか相違しない。一方、その少量のデータは、早期の診断、オーダーメイド医薬、カスタマイズされた医薬品合成等を可能にするのに十分な情報を含む。本発明は、関連する情報が効率的にアクセス可能かつ伝送可能であり、冗長な情報の負担が削減された、ゲノム情報表現フォーマットを定義することを目的とする。
【0030】
本発明の技術的特徴は以下である:
1.可能な限り情報エントロピーを削減するための、ゲノム情報のホモジニアス(同種)メタデータの「レイヤ」への分解
2.コードされた情報全体をデコードする必要なく、エンコードされた情報のレイヤへの選択的アクセスを可能にする、マスタインデックステーブルおよびローカルインデックステーブルの定義
3.点(ポイント)1で定義されるシンタックス要素をエンコードする、コンテクスト適応バイナリ演算コーディング(context adaptive binary arithmetic coding)の採用
4.不要な場合にすべてのレイヤをデコードする必要なく、データへの選択的なアクセスを可能にするレイヤ間の同期
5.エントロピーを削減するために修正されることが可能な、1つまたは複数の適応(adaptive)参照配列に対する差分エンコーディング。第1の参照に基づくエンコーディングの後、情報エントロピーをさらに削減するため、記録されたミスマッチは、参照配列を「適応/修正」するために使用することができる。これは、情報エントロピーの削減が有意義である限り、繰り返して実行することができる処理である。
【0031】
先行技術のすべての上記の課題を解決するため(ファイル中のランダム位置への効率的アクセス、効率的伝送および格納、効率的圧縮という意味において)、本出願は、よりホモジニアス(同種)であり、および/または、処理の容易のため意味的に(semantically)重要であるデータを、並び替え(re-orders)、パックする。
本発明はまた、アクセスユニットの概念に基づくデータ構造を取り入れる。
ゲノムデータは、異なるアクセスユニットに、構造化されエンコードされる。以下、異なるアクセスユニットに含まれるゲノムデータを説明する。
【0032】
ゲノムデータの分類
シーケンシング装置により生成される配列リードは、ここに開示される発明により、1つまたは複数の所与の参照配列またはゲノムに対するアライメントの結果に基づいて、5つの異なる「クラス」に分類される。
参照配列に対してヌクレオチドのDNA配列をアライメントする場合、可能性ある結果は、以下の5つである:
1.何のエラーもなく配列リードに一致する参照配列中の領域が発見される(完璧なマッピング)。そうしたヌクレオチド配列は、「完全にマッチするリード」として参照されるか、あるいは「クラスP」として示される。
2.シーケンシング装置がいずれの塩基(またはヌクレオチド)も分類(call)できなかった多数の位置により構成される多数のミスマッチを備える配列リードに一致する参照配列中の領域が発見される。こうした配列は、「Nミスマッチリード」または「クラスN」として参照される。
3.シーケンシング装置がいずれの塩基(またはヌクレオチド)も分類できなかった、または参照配列中でレポートされたものとは異なる塩基が分類された多数の位置により構成される多数のミスマッチを備える配列リードに一致する参照配列中の領域が発見される。こうしたタイプのミスマッチは、単一ヌクレオチド変異(variation)(SNV)または単一ヌクレオチド多型(polymorphism)(SNP)と呼ばれる。この配列は、「Mミスマッチリード」または「クラスM」として参照される。
4.第4のクラスは、クラスMと同じミスマッチ、プラス、挿入または削除(indelsとしても参照される)の存在を含むミスマッチタイプを表現する配列リードにより構成される。挿入は、参照に存在しないがリード配列に存在する1つまたは複数のヌクレオチドの配列により表現される。文言上、挿入された配列が、配列の端部である場合、「ソフトにクリップされる」ものとして参照される(すなわち、ヌクレオチドは、参照にマッチングしないがアライメントされたリード中に保持されており、これは「ハードにクリップされる」破棄されるヌクレオチドと逆である)。ヌクレオチドを保持または破棄することは、典型的には、アライメントツールの構成として実装されるユーザの決定である。削除は、参照に対してアライメントされたリード中の「穴(holes)」(欠落するヌクレオチド)である。そうした配列は、「Iミスマッチリード」または「クラスI」として参照される。
5.第5のクラスは、特定のアライメント制約に基づいて、参照ゲノム上に有効なマッピングをいま発見するすべてのリードを含む。こうした配列は、マッピングされていない(Unmapped)、かつ「クラスU」に属すると考えられる。
【0033】
マッピングされていないリードは、デノボ(de-novo)アセンブリアルゴリズムを使用して単一の配列内にアセンブルすることができる。一旦、新たにアセンブルされた参照配列が作成されると、マッピングされていないリードは、これに対してさらにマッピングされ、4つのクラスP,N,M、およびIのうちの1つに分類される。
【0034】
上記ゲノムデータのデータ構造は、デコーディングエンジンにより使用されるグローバルパラメータおよびメタデータの記憶領域を必要とする。これらのデータは、以下の表に記述されるメインヘッダ内に構造化される。
【0035】
【0036】
一旦、リードの分類がクラスの定義とともに完了すると、さらなる処理は、所与の参照配列上にマッピングされるものとして表現される場合、DNAリード配列の再構成を可能にする残りの情報を表現する区別可能なシンタックス要素のセットを定義することを含む。
所与の参照配列を参照するDNAセグメントは、次により完全に表現することができる:
・参照配列上の開始位置(pos)
・リードが、参照に対する逆相補(reverse complement)(rcomp)として考慮しなければならないか否かを伝達するフラグ
・ペアリングされたリード(対)の場合の対の片方(mate pair)への距離
・シーケンシング技術が可変長のリードを生成する場合、リード長の値。固定リード長の場合、各リードに関連付けられるリード長は、当然省略することができ、メインファイルヘッダ中に格納されることができる。
・それぞれのミスマッチに対して:
・ミスマッチ位置(クラスNはnmis、クラスMはsnpp、クラスIはindp)
・ミスマッチタイプ(クラスNには存在しない、クラスMはsnpt、クラスIはindt)
・配列リードの特定の特徴を示す例えば以下のようなフラグ:
・シーケンシングにおいて複数セグメントを有するテンプレート
・アライナーに基づいて正しくアライメントされたそれぞれのセグメント
・マッピングされていないセグメント
・マッピングされていないテンプレート中の次のセグメント
・最初または最後のセグメントのシグナル伝達
・クオリティコントロールの失敗
・PCRまたは光学的複製(duplicate)
・第2のアライメント
・追加的アライメント
・存在する場合、オプションであるソフトクリップされたヌクレオチド鎖(クラスIではindc)
この分類は、一義的に(univocally)ゲノム配列リードを表現するのに使用することのできるディスクリプタ(シンタックス要素)のグループを生成する。下記の表は、アライメントされたリードのそれぞれのクラスに必要なシンタックス要素を要約する。
【0037】
【0038】
クラスPに属するリードは、位置、逆相補情報、および、メイト対(mated pair)を生成するシーケンシング技術により取得された場合は対の片方同士(mates)の間のオフセット、いくつかのフラグ、およびリード長のみで特徴付けられ、完璧に再構成することができる。
次のセクションはさらに、これらのディスクリプタがどのように定義されるかを詳述する。
【0039】
位置ディスクリプタレイヤ
それぞれのアクセスユニットにおいて、最初にエンコードされたリードのマッピング位置のみが、参照ゲノム上の絶対値として、AUヘッダに記憶される。すべての他の位置は、以前の位置に対する差分として表現され、特定のレイヤに格納される。リード位置の配列により定義される情報ソースのそうしたモデリングは、一般的に、特に、高いカバレッジ結果を生むシーケンシング処理のために、削減されたエントロピーにより特徴付けられる。一旦、第1のアライメントの絶対位置が格納されると、他のリードのすべての位置は、第1のものに対する差分(距離)として表現される。
【0040】
例えば、
図4は、最初のアライメントの開始位置を参照配列上で位置「10000」としてエンコードした後、どのように、位置10180で第2のリードが開始する位置を、「180」として記述するかを示す。高いカバレッジデータ(>50x)で、位置ベクタのほとんどのディスクリプタは、例えば0や1のような低い値および他の小さい整数の非常に頻繁な発生を表す。
図4は、3つのリード対がposレイヤでどのように記述されるかを示す。
【0041】
同じソースモデルが、クラスN、M,およびIに属するリードの位置のため使用される。データへの選択的アクセスのすべての組み合わせを可能にするため、4つのクラスに属するリードの位置は、テーブル1に示されるように、別個のレイヤにエンコードされる。
【0042】
ペアリングディスクリプタレイヤ
ペアリングディスクリプタは、ペアレイヤに記憶される。こうしたレイヤは、採用されるシーケンシング技術がリードを対で生成する場合、当初の(originating)リード対を再構成するために必要となる情報をエンコードするディスクリプタを格納する。本発明の開示の時点で、シーケンシングデータの大半は、ペアのリードを生成する技術を使用して生成されるが、すべての技術について該当するわけではない。これは、考慮されるゲノムデータのシーケンシング技術がペアのリードの情報を生成しない場合、このレイヤの存在がすべてのシーケンシングデータの情報を再構成するのに必要なわけではないことの理由である。
【0043】
定義:
・メイトペア(mate pair):リード対中で他のリードに関連付けられるリード(例えば、
図4の例において、リード2は、リード1のメイトペア(対の片方)である)
・ペアリング距離:第1のリード中のある位置(ペアリングアンカー、例えば、第1のリードの最後のヌクレオチド)を第2のリード中のある位置(例えば、第2のリードの最初のヌクレオチド)から分離する、参照配列上のヌクレオチドの位置の数
・最確ペアリング距離(most probable paring distance)(MPPD):これは、ヌクレオチド位置の数の中で表される最も確度の高いペアリング距離である。
・位置ペアリング距離(PPD):PPDは、あるリードを特定の位置ディスクリプタレイヤに存在するその対応するメイト(片方)から分離するリードの数という意味で、ペアリング距離を表現する方法である。
・最確位置ペアリング距離(most probable position paring distance)(MPPPD):あるリードを特定の位置ディスクリプタレイヤに存在するそのメイトペア(対の片方)から分離する最も確度の高いリードの数である。
・位置ペアリングエラー(PPE):PPEは、MPPDまたはMPPPDと実際のメイトの位置との間の差分として定義される。
・ペアリングアンカー:参照として使用されて、ヌクレオチド位置の数またはリード位置の数という意味で、メイトペアの距離を算出するための、対における第1のリードの最後のヌクレオチドの位置。
【0044】
図5は、リード対間でペアリング距離がどのように算出されるかを示す。
ペアディスクリプタレイヤは、定義されたデコーディングペアリング距離に対して、対の第1のリードのメイトペアに到達するのにスキップされるべきリードの数として算出されるペアリングエラーのベクタである。
図6は、ペアリングエラーが、絶対値としておよび差分ベクトルの双方として、どのように算出されるかの例を示す(高いカバレッジのためのより低いエントロピーにより特徴付けられる)。
同じディスクリプタが、クラスN、M,P、およびIに属するリードのペアリング情報のために使用される。異なるデータクラスへの選択的アクセスを可能とするため、4つのクラスに属するリードのペアリング情報は、示されるように、異なるレイヤにエンコードされる。
【0045】
異なる参照上にマッピングされるリードの場合のペアリング情報
参照配列上に配列リードをマッピングする処理において、ある参照配列上に対の第1のリードがマッピングされ(例えば、染色体1)、異なる参照配列上に第2のリードがマッピングされる(例えば、染色体4)ことは、珍しいことではない。この場合、上記のペアリング情報は、リードの1つをマッピングするために使用される参照配列に関連する追加的情報により統合されなければならない。これは、以下のコーディングにより達成される:
1.対が2つの異なる配列上にマッピングされることを示す予約値(reserved value)(フラグ)(異なる値は、現在エンコードされていない配列上にリード1またはリード2がマッピングされているか否かを示す)。
2.表1に記述されるようなメインヘッダ構造にエンコードされる参照識別子を参照する固有の参照識別子。
3.第3の要素は、点2で同定され、最後にエンコードされた位置に対するオフセットとして表現される参照上のマッピング情報を含む。
【0046】
図7は、このシナリオの例を提供する。
図7において、リード4は、現在エンコードされている参照配列上にマッピングされていないため、ゲノムエンコーダは、この情報を、追加的ディスクリプタをペアレイヤ中に作り上げることにより、伝達する。
図7に示す例において、対2のリード4は、参照番号4にマッピングされ、一方、現在エンコードされている参照は、番号1である。この情報は、以下の3つのコンポーネントを使用してエンコードされる:
1)ある特定の予約値が、ペアリング距離としてエンコードされる(この場合、0xffffff)
2)第2のディスクリプタが、メインヘッダにリストされる参照IDを提供する(この場合、4)。
3)第3の要素は、考慮されている参照上のマッピング情報を含む(170)。
【0047】
逆相補ディスクリプタレイヤ
シーケンシング技術により生成されるリード対のそれぞれのリードは、シーケンスされた有機試料のいずれかのゲノム鎖から発生する(originated)ことができる。しかしながら、2つの鎖の1つのみが、参照配列として使用される。
図8は、リード対中で、どのように、あるリード(リード1)が1つの鎖から発生し、他方(リード2)が他方から発生するかを示す。
鎖1が参照配列として使用される場合、リード2は、鎖1上の対応するフラグメント(断片)の逆相補としてエンコードされることができる。これは、
図9に示されている。
結合した(coupled)リードの場合、4つが、正および逆相補メイト対の可能な組み合わせである。これは、
図10に示されている。このrcompレイヤは、4つの可能な生み合わせをエンコードする。
同じコーディングが、クラスN,M,およびIに属するリードの逆相補情報のために使用される。異なるデータクラスへの選択的アクセスを可能にするため、4つのクラスに属するリードの逆相補情報は、表2に示されるように異なるレイヤにコードされる。
【0048】
クラスNのミスマッチ
クラスNは、塩基分類(base call)に替えて「N」が存在するミスマッチを示すすべてのリードを含む。他のすべての塩基は、参照配列に完璧にマッチングする。
リード1の「N」の位置は、以下のとおりエンコードされる:
・リード1中の絶対位置、または
・同じリード中の以前の「N」に対する差分位置(いずれかより低いエントロピーを有する方)
リード2の「N」の位置は、以下のとおりエンコードされる:
・リード2中の絶対位置+リード1長、または
・以前のNに対する差分位置(いずれかより低いエントロピーを有する方)
nmisレイヤにおいて、それぞれのリード対のコーディングは、特定の「セパレータ」「S」シンボルによって終端する。これは、
図11に示されている。
【0049】
置換(ミスマッチまたはSNP)のエンコーディング
置換(substitution)は、マッピングされたリードにおいて、同じ位置で参照配列中に存在するものに対して、異なるヌクレオチド塩基の存在として定義される(
図12参照)。
それぞれの置換は、以下のようにエンコードされる:
・「位置」(snppレイヤ)および「タイプ」(snptレイヤ)。
図13、
図14、
図16、および
図15参照。または、
・「位置」のみであるが、ミスマッチタイプごと、1つのsnppレイヤを使用。
図17参照。
【0050】
置換位置
置換位置は、nmisレイヤの値に関して算出される、すなわち:
リード1において、置換は以下としてエンコードされる:
・リード1中の絶対位置として、または
・同じリードにおける以前の置換に対する差分位置。リード2で置換がエンコードされる。
リード2において、置換は以下としてエンコードされる:
・リード2中における絶対位置+リード1長、または
・以前の置換に対する差分位置。
図13は、置換位置が、どのようにレイヤsnppにエンコードされるかを示す。置換位置は、絶対値あるいは差分値のいずれかとして算出されることができる。
snppレイヤにおいて、それぞれのリード対のコーディングは、特定の「セパレータ」シンボルにより終端する。
【0051】
置換タイプディスクリプタ
クラスM(および、次のセクションに記載されるようにクラスI)について、ミスマッチは、参照中に存在する実際のシンボルから、リード{A,C,G,T,N,Z}中に存在する対応する置換シンボルへのインデックス(右から左へ移動する)によりコードされる。例えば、アライメントされたリードが、参照中の同じ位置に存在するTに替えてCを表す場合、ミスマッチインデックスは、「4」として示される。デコーディング処理は、エンコードされたシンタックス要素、および参照中の所与の位置のヌクレオチドを読み出し、左から右へ移動して、デコードされたシンボルを検索する。例えば、参照中にGが存在する位置のため受信された「2」は、「N」としてデコードされる。
図14は、IUPAC曖昧コードが使用されない場合の、すべての可能な置換およびそれぞれのエンコーディングシンボルを示し、
図15は、snptレイヤにおける置換タイプのエンコーディングの例を提供する。
IUPAC曖昧コードが存在する場合、置換は、変化を
図16に示すようにインデックス化する。
上記した置換タイプのエンコーディングが高い情報エントロピーを示す場合、置換エンコーディングの代替的方法は、別個のレイヤにミスマッチ位置のみを、ヌクレオチドごと1つ、
図17に示すように、格納することを含む。
【0052】
挿入および削除のコーディング
クラスIについて、ミスマッチおよび削除は、参照中に存在する実際のシンボルから、リード{A,C,G,T,N,Z}中に存在する対応する置換シンボルへのインデックス(右から左へ移動する)によりコードされる。例えば、アライメントされたリードが、参照中の同じ位置に存在するTに替えてCを表す場合、ミスマッチインデックスは、「4」として示される。リードが、参照中にAが存在する箇所の削除を表していれば、コードされるシンボルは、「5」である。デコーディング処理は、コードされたシンタックス要素、および参照中の所与の位置のヌクレオチドを読み出し、左から右へ移動して、デコードされたシンボルを検索する。例えば、参照中にGが存在する位置のため受信された「3」は、「Z」としてデコードされ、これは、配列リード中に削除が存在することを示す。
挿入は、挿入されるA,C,G,T,Nについて、それぞれ、6,7,8,9,10としてコードされる。
IUPAC曖昧コードの採用(adoption)の場合、置換メカニズムは、正確に同じ結果となり、しかしながら、置換ベクタは、以下として拡張される:
S={A,C,G,T,N,Z,M,R,W,S,Y,K,V,H,D,B}
図18および
図19は、クラスIのリード対中の置換、挿入、および削除を、どのようにエンコードするかの例を示す。
【0053】
ファイルフォーマットおよびアクセスユニットの以下の構造は、上記に開示されるコーディング要素を参照して説明される。しかしながら、アクセスユニット、ファイルフォーマット、および多重化(multiplexing)は、ソースモデリングおよびゲノムデータ圧縮の他の異なるアルゴリズムによってもまた、同様の技術的利点をもたらす。
【0054】
ファイルフォーマット:ゲノムデータの領域への選択的アクセス
マスタインデックステーブル
アライメントされた特定の領域への選択的アクセスをサポートするため、本明細書に開示されるデータ構造は、マスタインデックステーブル(Master Index Table:MIT)と呼ばれるインデックス化ツールを実装する。これは、使用される参照配列上に特定のリードをマッピングした部位(loci)を含む、多次元アレイである。MITに含まれる値は、それぞれのposレイヤ中の第1のリードのマッピング位置であり、これにより、それぞれのアクセスユニットへの順次アクセスがサポートされる。MITは、それぞれのデータのクラス(P,N,M、およびI)ごとに、およびそれぞれの参照配列ごとに、1つのセクションを含む。MITは、エンコードされたデータのメインヘッダに含まれる。
図20は、メインヘッダの全体的な(generic)構造を示し、
図21は、MITの全体的な視覚表現を示し、
図22は、エンコードされたデータのクラスPのMITの例を示す。
【0055】
図22に示すMITに含まれる値は、圧縮されたドメイン中の、関心領域(および対応するAU)に直接アクセスするのに使用される。
例えば、
図22を参照して、参照2上の位置150,000と250,000との間に構成される領域にアクセスすることが要求される場合、デコーディングアプリケーションは、MIT中の第2の参照をスキップして、2つの値k1およびk2を探すであろう。このため、k1<150,000かつk2>250,000である。ここで、k1およびk2は、MITから読み出されるインデックスである。
図22の例において、これは、MITの第2のベクタの位置3および4の結果となる。これらの戻り値は、その後、デコーディングアプリケーションにより使用されて、次のセクションで説明されるように、posレイヤローカルインデックステーブルから適切なデータの位置をフェッチする。
上記で説明されたゲノムデータの4つのクラスに属するデータを含むレイヤへのポインタとともに、MITは、そのライフサイクルの間、追加的メタデータ、および/またはゲノムデータに付加される注釈のインデックスとして使用される。
【0056】
ローカルインデックステーブル
上記のデータレイヤのそれぞれは、ローカルヘッダとして参照されるデータ構造が前に来る(プリフィックスされる)。ローカルヘッダは、レイヤの固有の識別子、それぞれの参照配列ごとのアクセスユニットのカウンタのベクタ、ローカルインデックステーブル(Local Index Table)(LIT)、およびオプションとしていくつかのレイヤ特有のメタデータを含む。LITは、レイヤペイロード中で、それぞれのAUに属するデータの物理的位置へのポインタのベクタである。
図23は、LITが非順次的に、エンコードされた特定の領域にアクセスするために使用される場合の、全般的なレイヤヘッダおよびペイロードを示す。
【0057】
以前の例において、参照配列no.2上にアライメントされたリードの150,000から250,000の領域にアクセスするため、デコーディングアプリケーションは、MITから位置3および4を検索した。これらの値は、デコーディング処理により、LITの対応するセクションの3番目および4番目の要素にアクセスするために使用される。
図24に示す例において、レイヤヘッダに含まれるトータルのアクセスユニットのカウンタが使用されて、参照1に関連するAUに関連するLITインデックスがスキップされる(例えば、5)。エンコードされたストリーム中要求されたAUの物理的位置を含むインデックスは、このため、次のように算出される:
要求されたAUに属するデータブロックの位置=スキップすべき参照1のAUに属するデータブロック+MITを使用して検索された位置、すなわち、
最初のブロック位置:5+3=8
最後のブロック位置:5+4=9
ローカルインデックステーブルと呼ばれるインデックス化メカニズムを使用して検索されるデータブロックは、要求されたアクセスユニットの部分である。
図26は、MITおよびLITを使用して検索されたデータブロックが、どのように、1つまたは複数のアクセスユニットを構成するかを示す。
【0058】
アクセスユニット
データクラスに分類され、圧縮または非圧縮レイヤに構造化されたゲノムデータは、異なるアクセスユニットに組織化される。
ゲノムアクセスユニット(AU)は、ヌクレオチド配列および/または関連するメタデータ、および/またはDNA/RNA配列(例えば、仮想参照)および/またはゲノムシーケンシング装置により生成された注釈データおよび/またはゲノム処理装置または解析アプリケーションを再構成するゲノムデータのセクション(圧縮または非圧縮の形式で)として定義される。
【0059】
アクセスユニットは、他のアクセスユニットから独立してグローバルに利用可能なデータ(例えば、デコーダ構成)のみを使用して、または他のアクセスユニットに含まれる情報を使用して、デコードすることができるデータのブロックである。アクセスユニットは、位置情報(絶対的および/または相対的)の形式でのゲノムデータに関連するデータ情報、逆相補および可能であればペアリングおよび追加的データに関する情報、を含む。
複数のアクセスユニットは、以下により識別される:
・タイプ、それらが担持するゲノムデータおよびデータセットの性質と、それらがアクセスされることができる方法で特徴付けられる
・順序、同じタイプが属するアクセスユニットへの固有の順序を提供する
【0060】
あらゆるタイプのアクセスユニットは、さらに異なる「カテゴリー」に分類することができる。
以下、ゲノムアクセスユニットの異なるタイプの定義の網羅的でないリストを示す:
1)タイプ0のアクセスユニットは、アクセスまたはデコードすべき他のアクセスユニットから来るいずれの情報も参照する必要がない(
図29参照)。これらが含むデータまたはデータセットにより担持される情報参照番号全体は、デコーディングデバイスまたは処理アプリケーションにより、独立して、読み出され、処理される。
2)タイプ1のアクセスユニットは、タイプ0のアクセスユニットにより担持されるデータを参照する(
図30参照)。タイプ1のアクセスユニットに含まれるデータを読み出し、デコード、および処理することは、1つまたは複数のタイプ0のアクセスユニットへのアクセスを要求する。
3)このタイプのアクセスユニットは、タイプ0のアクセスユニットに対してミスマッチングまたは非類似または非対応の情報を含むことができる。
4)タイプ2、3、および4のアクセスユニットは、タイプ1のアクセスユニットを参照するデータを含む(
図31、
図32、および
図33参照)。タイプ2,3、および4のアクセスユニットに含まれるデータを読み出し、デコード、および処理することは、タイプ0およびタイプ1のアクセスユニットへのアクセスを要求する。
5)タイプ2、3、および4のアクセスユニット間の相違は、これらが含む情報の性質にある。
6)タイプ5のアクセスユニットは、メタデータ(例えば、クオリティスコア)および/またはタイプ1のアクセスユニットに含まれるデータまたはデータセットに関連付けられる注釈データを含む。タイプ5のアクセスユニットは、異なるレイヤに分類およびラベリングされてよい。
7)タイプ6のアクセスユニットは、注釈データとして分類されるデータまたはデータセットを含む。タイプ6のアクセスユニットは、レイヤに分類およびラベリングされてよい。
8)追加的タイプのアクセスユニットは、ここに開示される構造およびメカニズムを拡張することができる。一例として、限定としてではなく、ゲノム変異分類、構造的および機能的解析は、新たなタイプのアクセスユニットにエンコードされることができる。ここに開示されるアクセスユニットのデータ編成は、アクセスユニットにカプセル化すべきあらゆるタイプのデータを、エンコードされたデータの性質に対して完全に透過なメカニズムであることを妨げない。
このタイプのアクセスユニットは、タイプ0のアクセスユニットに含まれる情報に対して、ミスマッチングまたは非類似または非対応の情報を含むことができる。
【0061】
図28は、アクセスユニットが、どのように、ヘッダ、および1つまたは複数のホモジニアス(同種)データから構成されるかを示す。それぞれのレイヤは、1つまたは複数のブロックにより構成される。それぞれのブロックは、複数のパケットを含み、パケットは、上記で導入されたディスクリプタの構造化配列であり、例えば、リード位置、ペアリング情報、逆相補情報、ミスマッチ位置およびタイプ、等を表す。
それぞれのアクセスユニットは、それぞれのブロックに異なる数のパケットを有することができるが、アクセスユニット内で、すべてのブロックは同じ数のパケットを有する。
それぞれのデータパケットは、3つの識別子XYZの組み合わせにより識別することができ、ここで:
・Xはそれが属するアクセスユニットを識別する
・Yはそれが属するブロックを識別する(すなわち、それがカプセル化するデータタイプ)
・Zは同じブロックの他のパケットに対するパケット順序を表す識別子である
【0062】
図28は、アクセスユニットとパケットラベリングの例を示す。
図34から
図38は、複数のタイプのアクセスユニットを示し、これらを示す共通のシンタックスは、次である:AU_T_Nは、識別子Nを有するタイプTのアクセスユニットであり、アクセスユニットのタイプに基づいて、順序の概念を意味してもしなくてもよい。識別子は、あるタイプのアクセスユニットを、担持されるゲノムデータを完全にデコードするのに必要な他のタイプのものに固有に関連付けるために使用される。
【0063】
あらゆるタイプのアクセスユニットは、異なるシーケンシングプロセスに基づいて、異なる「カテゴリー」に分類されラベリングされることができる。例えば、限定的ではなく、分類およりラベリングは以下の場合に発生してよい:
・同じ生物を異なるときにシーケンスする(アクセスユニットは、「一時的」の意味(connotation)でゲノム情報を含む)
・同じ生物の異なる性質の有機試料をシーケンスする(例えば、ヒト試料の皮膚、血液、毛髪)。これらは、「生物学的」の意味を持つアクセスユニットである。
【0064】
タイプ1、2、3、および4のアクセスユニットは、それらが参照するタイプ0のアクセスユニットにエンコードされる参照配列に対して、ゲノム配列フラグメント(断片)(リードとしても知られる)上に適用されたマッチング機能の結果に基づいて、構築される。
例えば、タイプ1のアクセスユニット(AUs)(
図30参照)は、マッチング機能がタイプ0のアクセスユニットにエンコードされる参照配列の特定の領域に適用される場合、完璧なマッチング(または選択されたマッチング機能に対応する最大の可能なスコア)の結果となるリードの位置および逆相補フラグを含んでよい。タイプ0のAUに含まれるデータとともに、こうしたマッチング機能情報は、タイプ1のアクセスユニットにより担持されるデータセットにより表現されるすべてのゲノム配列リードを完全に再構成するのに十分である。
本明細書ですでに説明したゲノムデータ分類を参照して、上記のタイプ1のアクセスユニットは、クラスP(完璧なマッチ)のゲノム配列リードに関連する情報を含むであろう。
【0065】
可変のリード長および対のリード(paired reads)の場合、上記の例で説明したタイプ1のAUに含まれるデータは、リード対関連を含むゲノムデータを完全に再構成することを可能とするため、リードのペアリングとリード長に関する情報を表すデータに統合されなければならない。本明細書において上記で導入されたデータ分類を参照して、pairレイヤとrlenレイヤが、タイプ1のAUにエンコードされるであろう。
タイプ1のアクセスユニットに対して適用されてタイプ2,3、および4のAUのコンテンツを分類するマッチング機能は、例えば以下のような結果を提供する:
・タイプ1のAUに含まれるそれぞれの配列が、特定された位置に対応してタイプ0のAUに含まれる配列に完璧にマッチする
・タイプ2のAUに含まれるそれぞれの配列が、タイプ2のAUの配列中に存在する「N」シンボルを除き(シーケンシング装置により分類されない塩基)、特定された位置に対応してタイプ0のAUに含まれる配列に完璧にマッチする
・タイプ3のAUに含まれるそれぞれの配列が、特定された位置に対応してタイプ0のAUに含まれる配列に対する、置き換えられたシンボル(変異)の形式の変異体を含む
・タイプ4のAUに含まれるそれぞれの配列が、特定された位置に対応してタイプ0のAUに含まれる配列に愛する、置き換えられたシンボル(変異)、挿入および/または削除の形式の変異を含む
【0066】
タイプ0のアクセスユニットは、順序付けられ(例えば、ナンバリングされ)るが、これらは、順序どおりに格納および/または伝送される必要はない(技術的利点:並行処理/並行ストリーミング、多重化)。
タイプ1、2、3、および4のアクセスユニットは、順序付けられる必要がなく、順序どおりに格納および/または伝送される必要がない(技術的利点:並行処理/並行ストリーミング)
それぞれのアクセスユニットに含まれる配列リードの数は、本発明に基づいてゲノムデータをエンコードする場合に、ユーザにより使用されるユーザインタフェースによって特定される構成パラメータである。この構成パラメータは、例えば、関連するアクセスユニットのヘッダで、送信されることができる。
【0067】
技術的効果
ここで開示されるアクセスユニット内にゲノム情報を構築する技術的利点は:
1.ゲノムデータが以下にアクセスするために選択的に検索できること:
・ゲノムデータまたはデータセットおよび/または関連するメタデータ全体を展開(解凍)する必要なく、データの特定の「カテゴリー」に(例えば、特定の一時的または生物学的意味とともに)
・ゲノムの他の領域を展開する必要なく、すべての「カテゴリー」、「カテゴリー」のサブセット、単一の「カテゴリー」(関連するメタデータとともにまたはメタデータなしで)のためのゲノムの特定の領域に
2.ゲノムデータが以下の場合に利用可能となる新たなデータで漸進的に更新されることができること:
・ゲノムデータまたはデータセットに新たな解析が実行される場合
・同じ生物(異なる生物学的試料、同じタイプの異なる生物学的試料、例えば、異なるときに収集された血液試料等)
3.ゲノムデータが以下の場合に新たなデータフォーマットに効率的にコード変換されることができること:
・新たな参照として使用されるべき新たなゲノムデータまたはデータセット(例えば、タイプ0のAUにより担持される新たな参照ゲノム)
・エンコーディングフォーマット仕様の更新
例えばSAM/BAM等の先行技術の解決手段を参照すると、上記の技術的特徴は、データ全体がエンコードされたフォーマットから検索され展開される場合に、アプリケーションレベルでデータフィルタリングが起きることを要求する課題に対処するものである。
以下は、アクセスユニット構造が、技術的な利点のために役立つアプリケーションシナリオの例を説明する。
【0068】
選択的アクセス
特に、異なるタイプのアクセスユニットに基づくここに開示されるデータ構造は、以下を可能とする:
・関連するメタデータ情報を展開する必要なく(現在の従来技術の制約:異なるカテゴリーまたはレイヤの間の区別さえもサポートしないSAM/BAM)、すべての「カテゴリー」またはサブセット(すなわち、1つまたは複数のレイヤ)または単一の「カテゴリー」の全てのシーケンシングのリード情報(データまたはデータセット)のみを抽出すること
・ゲノムの他の領域を展開する必要なく(現在の従来技術の制約:SAM/BAM)、すべてのカテゴリー、またはカテゴリーのサブセット、単一のカテゴリー(関連するメタデータとともに、またはメタデータなしで)のために仮定される参照配列の特定の領域上にアライメントされたすべてのリードを抽出すること
【0069】
図39は、参照配列の第2のセグメント上にマッピングされた、ミスマッチを有するゲノム情報(AU0-2)へのアクセスが、どのように、AU0-2、1-2、および3-2のみを要求するのみであるかを示す。これは、マッピング領域に関する基準(すなわち、参照配列上の位置)および参照配列に対してエンコードされた配列リードに適用されるマッチング機能に関する基準(例えば、この例のみでのミスマッチ)の双方に基づく、選択的アクセスの例である。
更なる技術的利点は、データへの検索は、データのアクセス可能性および実行スピードという意味において、遥かにより効率的であることであり、これは、アクセスおよびデコードが、適用された検索およびそのあらゆる組み合わせの基準にマッチする選択された「カテゴリー」のみ、すなわち、より長いゲノム配列の特定の領域およびタイプ1、2、3、4のアクセスユニットの特定のレイヤのみに対するものであるからである。
タイプ1、2、3、4のアクセスユニットのレイヤへの組織化により、以下のヌクレオチド配列の効率的な抽出が可能となる:
・1つまたは複数の参照ゲノムに対する特定の変異(例えば、ミスマッチ、挿入、削除)
・考慮される参照ゲノムのいずれにもマッピングしないもの
・1つまたは複数の参照ゲノム上に完璧にマッピングするもの
・1つまたは複数の精度レベルにマッピングするもの
【0070】
漸進的(incremental)更新
タイプ5および6のアクセスユニットにより、ファイル全体を非パケット化(depacketize)/デコード/展開する必要なく、注釈を容易に挿入することが可能となり、これにより、従来技術のアプローチでは制約であった、ファイルの効率的なハンドリングに付加される。既存の圧縮の解決手段は、所望のゲノムデータがアクセス可能となるまでに、大容量の圧縮データにアクセスし処理しなければならない。これは、非効率的なRAM帯域使用、およびハードウエア実装におけるより多くの電力消費を引き起こす。電力消費とメモリアクセスの問題は、ここに開示されるアクセスユニットに基づくアプローチを使用することにより軽減され得る。
マスタインデックスファイル(
図21参照)に記述されるデータインデックスメカニズムは、アクセスユニットの使用とともに、上記のようにエンコードされたコンテンツの漸進的更新を可能にする。
【0071】
追加的データの挿入
新たなゲノム情報は、いくつかの理由のため、既存のゲノムデータに周期的に追加され得る。例えば、以下の場合である:
・生物が異なる時点でシーケンスされる
・同じ個体の複数の異なる試料が同時にシーケンスされる
・シーケンシング処理(ストリーミング)により生成された新たなデータ
上記の状況において、ここに開示されるアクセスユニットを使用したデータおよびファイルフォーマットのセクションで開示されたデータ構造により、既存のデータを再度エンコードする必要なく、新たに生成されたデータの漸進的統合が可能となる。
漸進的更新処理は、以下のように実装される:
1.新たに生成されるAUが、ファイル中で、既存のAUに単純に連結されることができ、および
2.新たに生成されたデータまたはデータセットのインデックス化が、本明細書のファイルフォーマットのセクションで開示されるマスタインデックステーブルに含まれる。あるインデックスは、既存の参照配列上の新たに生成されたAUを位置付け、他のインデックスは、物理ファイル内新たに生成されたAUのポインタで構成されて、これらへの直接および選択的なアクセスを可能にする。
【0072】
このメカニズムは、
図40に示されており、ここで、タイプ1および4の3つのAUに、タイプ2から4のそれぞれごとにエンコードされる既存のデータは、例えば同じ個体で動作する新たな配列から来るエンコーディングデータで、タイプごとの3つのAUで更新される。
圧縮された形式でのゲノムデータおよびデータセットのストリーミングの特定のユースケースにおいて、既存のデータセットの漸進的更新は、実際のシーケンシングが完了する前にデータを生成されるや否やシーケンシング装置により解析する場合に、有用であり得る。エンコーディングエンジン(圧縮器)は、選択された参照配列の同じ領域上にマッピングする配列リードを「クラスタリング」することにより、複数のAUを並行してアセンブルすることができる。一旦、第1のAUが、事前に設定された閾値/パラメータを上回る多数のリードを含むと、AUは、解析アプリケーションにすぐに送られることができる。新たにエンコードされたアクセスユニットとともに、エンコーディングエンジン(圧縮器)は、新たなAUが依存するすべてのアクセスユニットが、受信側にすでに送信されたかあるいはそれとともに送信されることを確認すべきである。例えば、タイプ3のAUは、タイプ0およびタイプ1の適切なAUが、正確にデコードされるため受信側に存在することを要求する。
開示されるメカニズムにより、受信側の変異分類アプリケーションは、送信側でシーケンシング処理が完了する前に、受信されたAU上の変異の分類を開始することができるであろう。この処理の概要は、
図41に示されている。
【0073】
結果の新たな解析
ゲノム処理ライフサイクルの間、複数回の繰り返しのゲノム解析が、同じデータ上に適用される(例えば、異なる処理アルゴリズムを使用した異なる変異定義)。本明細書で定義されるAUおよび本明細書のファイルフォーマットのセクションで開示されるデータ構造を使用することで、既存の圧縮データの、新たな解析の結果での漸進的更新が可能になる。
例えば、既存の圧縮データで実行される新たな解析は、以下の場合に新たなデータを生成することができる:
1.新たな解析は、エンコードされたデータにすでに関連付けられている既存の結果を修正することができる。このユースケースは、
図42に示されており、1つのアクセスユニットのコンテンツをあるタイプから他へ、完全にまたは部分的に移動することにより、実装される。新たなAUが作成される必要がある場合(AUごと事前に定義された最大サイズに起因して)、マスタインデックステーブルの関連するインデックスが生成されなければならず、関連するベクタが必要な際にソートされる。
2.新たなデータは、新たな解析から生成され、既存のエンコードされたデータに関連付けられなければならない。この場合、タイプ5の新たなAUは、同じタイプのAUの既存のベクタを用いて、生成され、および連結されることができる。
【0074】
上記に開示されおよび
図42および
図43に示されるユースケースは、以下に可能となる:
1.低いマッピングクオリティのデータのみに直接アクセスする可能性(例えば、タイプ4のAU)
2.新たなタイプに属し得る新たなアクセスユニットを単純に作成することにより、リードを新たなゲノム領域に再度マッピングする可能性(例えば、タイプ4のAUに含まれるリードは、より少ないミスマッチ(タイプ2-3)で再度マッピングされることができ、新たに作成されたAUに含まれる。)
3.新たに生成された解析結果および/または関連する注釈のみを含むタイプ6のAUを作成する可能性。この場合、新たに作成されたAUは、これらが参照する既存のAUへの「ポインタ」を含むことが必要であるのみである。
【0075】
コード変換(transcoding)
圧縮されたゲノムデータは、例えば、以下の状況でコード変換が必要となり得る:
・新たな参照配列の公表
・異なるマッピングアルゴリズムの使用(再マッピング)
ゲノムデータが既存の公開された参照ゲノム上にマッピングされる場合、上記参照配列の新たなバージョンの公表または異なる処理アルゴリズムを使用してデータをマッピングする要求は、今日、再マッピングの処理を要求する。SAMやCRAMのような従来技術のファイルフォーマットを使用して圧縮データを再マッピングする場合、圧縮されたデータ全体が、その「生」形式に展開されて、新たに利用可能となった参照配列に対して、または異なるマッピングアルゴリズムを使用して、再度マッピングされなければならない。たとえ、新たに公表された参照が、以前のものから極僅かしか異ならない、あるいは使用される異なるマッピングアルゴリズムが、以前のマッピングに非常に近い(同一の)マッピングを生成するものであったとしても、当て嵌まる。
【0076】
ここに開示されるアクセスユニットを使用して構造化されるゲノムデータをコード変換する利点は、以下である:
1.新たな参照ゲノムに対するマッピングは、変更を有するゲノム領域上にマッピングするAUのデータを再エンコーディング(展開および圧縮)することを要求するのみである。さらに、ユーザは、たとえ、当初は変更された領域上にマッピングしないとしても、何らかの理由で再マッピングされる必要があるかもしれないこれらの圧縮されたリードを選択するかもしれない(これは、ユーザが以前のマッピングが低いクオリティと信じる場合に起き得る)。このユースケースは、
図44に示されている。
2.新たに公表された参照ゲノムが、異なるゲノムの部位(「loc」)にシフトした領域全体という意味においてのみ、以前のものと異なる場合、コード変換操作は、特に単純かつ効率的な結果となる。実際、マッピングされたすべてのリードを、「シフト」された領域に移動させるためには、関連するAUヘッダ(のセット)に含まれる絶対位置の値のみを変更すれば十分である。それぞれのAUヘッダは、AUに含まれる第1のリードが参照配列上にマッピングされた絶対位置を含み、一方、すべての他のリード位置は、第1のリードに対して異なるようにエンコードされる。このため、第1のリードの絶対位置」の値を単純に更新するのみで、AU中のすべてのリードが、それに応じて移動する。このメカニズムは、例えばCRAMおよびBAMのような従来技術のアプローチによっては実装することができない。なぜなら、ゲノムデータ位置は、圧縮されるペイロードにエンコードされ、このため、すべてのゲノムデータセットの完全な展開および再圧縮を必要とするからである。
3.異なるマッピングアルゴリズムが使用される場合、低いクオリティでマッピングされたと見做される圧縮されたリードの部分のみにそれを適用することが可能である。例えば、新たなマッピングアルゴリズムを、参照ゲノム上完璧にはマッチしなかったリードのみに適用することが適切であり得る。既存のフォーマットでは今日、そのマッピングクオリティに基づいて(すなわち、ミスマッチの存在と数)リードを抽出することは不可能である(またはいくつかの制約の下、部分的に可能であるのみ)。新たなマッピング結果が新たなマッピングツールに戻ると、関連するリードは、あるAUから同じタイプの他のAUへ(
図46)、またはあるタイプのあるAUから、他のタイプのAU(
図45)へ、コード変換され得る。
【0077】
さらに、先行技術の圧縮の解決手段は、所望のゲノムデータがアクセスされる前に、大容量の圧縮されたデータにアクセスし処理しなければならない。これにより、非効率的なRAM帯域使用、およびハードウエア実装の場合のより大きい電力消費が引き起こされる。電力消費とメモリアクセス問題は、ここに開示されるアクセスユニットに基づくアプローチを使用することにより軽減され得る。
ここに開示されるゲノムアクセスユニットの採用の更なる利点は、並行処理の利用とハードウエア実装における安定性である。例えばSAM/BAMおよびCRAMのような現在の解決手段は、単一のスレッドのソフトウエア実装のために着想された。
【0078】
選択的暗号化
本明細書に開示されるように、複数のタイプに組織化されるアクセスユニットおよびレイヤに基づくアプローチにより、先行技術のモノリシックの解決手段では不可能であった、コンテンツ保護メカニズムの実装が可能となる。
生物の遺伝プロファイルに関する遺伝情報の大部分は、既知の配列(例えば、参照ゲノムまたはゲノムの集団)に対する差異(変異)に依存することを、当業者は理解する。権限のないアクセスから保護すべき個体の遺伝プロファイルは、このため、本明細書に開示されるように、タイプ3および4のアクセスユニットにエンコードされる。シーケンシングおよび解析処理により生成される最も合理的なゲノム情報への制御されたアクセスの実装は、このため、タイプ3および4のAUのペイロードのみを暗号化することによって達成することができる(一例として
図47を参照)。資源を消費する暗号化処理が、データのサブセットのみに適用されるため、これは、処理パワーおよび帯域の双方の意味において、顕著な節約を生む。