特許第6788587号(P6788587)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

<>
  • 特許6788587-ゲノムデータの安全な転送 図000005
  • 特許6788587-ゲノムデータの安全な転送 図000006
  • 特許6788587-ゲノムデータの安全な転送 図000007
  • 特許6788587-ゲノムデータの安全な転送 図000008
  • 特許6788587-ゲノムデータの安全な転送 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6788587
(24)【登録日】2020年11月4日
(45)【発行日】2020年11月25日
(54)【発明の名称】ゲノムデータの安全な転送
(51)【国際特許分類】
   G16B 50/00 20190101AFI20201116BHJP
   G06F 21/60 20130101ALI20201116BHJP
【FI】
   G16B50/00
   G06F21/60 320
【請求項の数】4
【全頁数】13
(21)【出願番号】特願2017-527565(P2017-527565)
(86)(22)【出願日】2015年11月18日
(65)【公表番号】特表2018-503167(P2018-503167A)
(43)【公表日】2018年2月1日
(86)【国際出願番号】IB2015058912
(87)【国際公開番号】WO2016083949
(87)【国際公開日】20160602
【審査請求日】2018年11月16日
(31)【優先権主張番号】62/084,146
(32)【優先日】2014年11月25日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】KONINKLIJKE PHILIPS N.V.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】アグラワル,ヴァルティカ
(72)【発明者】
【氏名】ディミトロワ,ネヴェンカ
(72)【発明者】
【氏名】クラシンスキー,レイモンド ジェイ
【審査官】 梅岡 信幸
(56)【参考文献】
【文献】 特表2014−523589(JP,A)
【文献】 特表2007−506372(JP,A)
【文献】 Sebastian Deorowicz,Genome compression: a novel approach for large collections,BIOINFORMATICS Vol.29 no.20 2013,[online],2013年10月15日,p.2572-2578,[令和2年1月29日検索],インターネット<URl:htts://academic.oup.com/bioinformatics/article/29/20/2572/278528>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00−99/00
G06F 21/60−21/88
H03M 3/00− 9/00
(57)【特許請求の範囲】
【請求項1】
患者のゲノムからシーケンシングされ、処理されて変異コールファイル(VCF)になったデータを変換するコンピュータ実施の方法であって、
コンピュータプロセッサを設けるステップであって、前記コンピュータプロセッサが、
前記VCFを縮小して、前記VCFの非冗長的変異データを主に含む注釈されたVCFを生成し、前記注釈されたVCFの注釈はゲノムデータベースに格納されたゲノム座標データを含み、
前記注釈されたVCFの染色体番号及び染色体位置データをモジュラス値に基づいて環状座標系に変換することにより、前記注釈されたVCFをエンコードし、
エンコードされたVCFをコンピュータ読み取り可能有体媒体に格納するように構成される、ステップを含む、
方法。
【請求項2】
前記モジュラス値を暗号化し、前記暗号化されたモジュラス値および前記エンコードされたVCFファイルのネットワーク接続を介した第2の端末への転送を開始するステップをさらに含む、請求項に記載の方法。
【請求項3】
前記注釈されたVCFをエンコードすることは、デカルト座標系、極座標系、または線形座標系のうち一つを用いて、前記注釈されたVCFの染色体番号および染色体位置データを変換することを含む、
請求項に記載の方法。
【請求項4】
患者のゲノムからシーケンシングされ、処理されて変異コールファイル(VCF)になったデータを変換するコンピュータ実施の方法であって、
コンピュータプロセッサを設けるステップであって、前記コンピュータプロセッサが、
ゲノムデータベースに格納されたゲノム座標で注釈された、エンコードされたVCFを受信し、
短いゲノム変異(SNP)データの参照データベースを用いて参照および代替対立遺伝子データで、前記エンコードされたVCFをインフレーションさせ、
モジュラス値を用いて、前記エンコードされたVCFをデコードするように構成される、
ステップを含む、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、概して、安全なデータ転送に関し、より詳細には、安全ではないネットワークによる、プライバシー制限および他のセキュリティ上の懸念がある大量のデータを安全に転送するシステムおよび方法に関する。
【背景技術】
【0002】
ゲノムシーケンシングおよびSNP遺伝子型決定のようなシーケンシング技術は、大量のゲノムデータを生成し得る。例えば、染色体のシーケンシング変異からのデータを格納するために使用される変異コールファイル(variant call file)は、数百ギガバイトであり得る。
【0003】
研究者やヘルスケア提供者はしばしば、あるサイトから別の地理的に離れたサイトに、ゲノムデータを転送する必要がある。長距離にまたがる専用またはプライベートネットワークは非常に高価であるか、またはセキュリティ保護されていないスパン(unsecure spans)を含むことがあるため、データはしばしばセキュアでない(non−secure)ネットワークを介して転送される。ゲノムデータは特定の患者と関連している可能性があるため、プライバシーに関する懸念がある。実際に、転送(transfer)は、かかるデータの格納および転送に関連する法律および規制の対象となることがある。さらに、データが処理され患者固有の異常が特定されれば、情報はよりセンシティブになり、したがって、安全な転送機構の必要性が高まる。
【0004】
データの量および情報がセンシティブであることにより、ゲノムデータを安全に(securely)伝達するための効率的な技術を開発する必要がある。既存の技術は、変異データを含むゲノムデータの特性を必ずしも考慮しておらず、転送される具体的なデータの質も考慮していない。
【0005】
したがって、安全でないネットワーク上でゲノムデータを転送する効率的で安全なシステムが必要とされている。
【発明の概要】
【0006】
一般に、本明細書に記載されたシステム、方法、および装置の様々な態様は、転送前にデータを処理、縮小、エンコード、および暗号化する新規技術を通じて、安全でないネットワークを介して地理的に離れたサイト間でゲノムデータを転送するための改良されたシステムおよび方法に関する。一塩基変異多型(SNPs)からなる変異情報を転送するシステムを適用するための具体的な詳細が提示されているが、当業者であれば、本明細書に記載の実施形態はより広範な用途を有することを認識するであろう。
【0007】
本発明の一態様によると、ゲノムからシーケンシングされ、処理されて、変異コールファイル(VCF)に変換されたデータを変換するシステムは、コンピュータプロセッサおよびコンピュータ可読有形媒体をそれぞれ含む第1および第2処理モジュールを含む。第1の処理モジュールは、VCFを縮小して、参照データに基づいてVCFからの主として非冗長的な変異データを含む注釈されたVCFにし、注釈されたVCFをエンコードし、エンコードされたVCFを格納する。第2の処理モジュールは、エンコードされたVCFを受信し、エンコードされたVCFをインフレーションさせるように動作可能である。
【0008】
一実施形態では、参照データは、短いゲノム変異(SNP)のデータベースからの参照および代替対立遺伝子データを含む。一実施形態では、注釈されたVCFをエンコードすることは、数学的座標系を用いて、注釈されたVCFの染色体番号および染色体位置データを変換することを含む。
【0009】
本発明の他の一態様によると、患者のゲノムからシーケンシングされ処理されたデータを、変異コールファイル(VCF)に変換する、コンピュータプロセッサによって実行される方法が提供される。この方法は、VCFを縮小して、VCFの非冗長的変異データを主に含む注釈されたVCFを生成するステップと、注釈されたVCFをエンコードするステップと、エンコードされたVCFをコンピュータ読み取り可能有体媒体に格納するステップとを含む。
【0010】
一実施形態では、VCFを縮小することは、関連する品質データが所定の閾値を満たさない変異コールを削除することを含む。一実施形態では、VCFを縮小することは、短いゲノム変異(SNP)データの参照データベースを用いて、既知の変異を削除することを含む。既知の変異は、1つ以上の参照および代替対立遺伝子情報を含む。
【0011】
一実施形態では、注釈されたVCFをエンコードすることは、数学的座標系を用いて、注釈されたVCFの染色体番号および染色体位置データを変換することを含む。 数学的座標系を用いて、注釈されたVCFの染色体番号および染色体位置データを変換することは、注釈されたVCFの染色体番号および染色体位置データをモジュラス値に基づいて環状座標系に変換することを含む。本方法は、さらに、モジュラス値を暗号化し、暗号化されたモジュラス値およびエンコードされたVCFファイルのネットワーク接続を介した第2の端末への転送を開始するステップをさらに含む。
【0012】
一実施形態において、注釈されたVCFをエンコードすることは、デカルト座標系、極座標系、または線形座標系のうち一つを用いて、注釈されたVCFの染色体番号および染色体位置データを変換することを含む。一実施形態では、本発明は、注釈されたVCFをエンコードする前に、注釈されたVCFに周波数領域変換を適用するステップも含む。一実施形態では、本方法は、エンコードされたVCFを、ネットワーク接続を介して第2の端末に転送するステップをさらに含む。
【0013】
本発明の他の一態様によると、患者のゲノムからシーケンシングされ処理されたデータを、変異コールファイル(VCF)に変換する、コンピュータプロセッサによって実行される方法が提供される。この方法は、数学的座標系を用いてエンコードされたVCFを受信し、短いゲノム変異(SNP)データの参照データベースを用いて、参照および代替対立遺伝子データで、エンコードされたVCFをインフレーションさせるように構成される。
【0014】
一実施形態では、本発明は、モジュラス値を用いて、エンコードされたVCFをデコードするステップをさらに含む。
【0015】
本発明の前述およびその他の特徴および利点は、以下の説明、図面および特許請求の範囲からより明らかになるであろう。当業者は、本開示に基づき、本発明の他の態様および利点が存在することを理解するであろう。
【図面の簡単な説明】
【0016】
図中、同じ参照文字は、異なるビューであっても、概して同じパーツを指す。以下の説明では、次の図面を参照して、本発明の様々な実施形態を説明する。
【0017】
図1】本発明の例示的な一実施形態によるセキュア転送システムを示す図である。
【0018】
図2】本発明の例示的な一実施形態による送信ステーションを示す図である。
【0019】
図3】本発明の例示的な一実施形態による受信ステーションを示す図である。
【0020】
図4図2に示す送信ステーションの動作の一例を示すフローチャートである。
【0021】
図5図3に示す受信ステーションの動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0022】
本明細書に記載されるのは、本発明と一貫性のある方法およびシステムの様々な実施形態である。これらの実施形態は例示的なものであり、当業者が本発明に与える範囲を限定するものと解釈すべきではない。
【0023】
ゲノムデータは、当業者には知られたシーケンシングマシンから出力される。シーケンシングマシンから出力される生データの量は、サイズが数百ギガバイトになり得る。生データは、一般的に、参照ゲノムと比較され、整列(aligned)されて、アライメントファイル(alignment file)、例えば変異コールファイル(VCF)になるが、アライメントファイルは、生データよりも桁違いに小さいが、遠隔地に転送するには大きすぎる。
【0024】
安全ではないネットワークによるゲノムデータの安全な転送のためのシステムの例示的な一実施形態を図1に示す。転送システム1は、送信ステーション100と、受信ステーション200と、ネットワーク300と、データベース400とを含む。
【0025】
送信ステーション100は、処理モジュール110とI/Oユニット120とを含む。処理モジュール110は、典型的には送信ステーション100から離れた受信ステーション200への安全な転送のために、以下に説明するように、VCFファイルを処理して縮小ファイル(reduced file)を生成する。I/Oユニット120は、縮小ファイルの送信を処理する。縮小ファイルは、暗号化および/またはエンコーディングされていてもよい。
【0026】
受信ステーション200は、処理モジュール210とI/Oユニット220とを含む。I/Oユニット220は、縮小ファイルの受信を処理する。縮小ファイルは、暗号化および/またはエンコーディングされていてもよい。処理モジュール210は、縮小ファイルを処理し、元のVCFファイルまたは同様のものを復元する。
【0027】
転送システム1において、縮小され、エンコーディングされ、暗号化されたファイルが、少なくとも部分的にネットワーク300を介して送信される。ネットワーク300は、インターネット、イントラネット、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)のうちいずれか1つまたは複数より構成されていても、それらとインターフェースしていてもよい。
【0028】
データベース400は、アライメントファイルに関連し得るゲノムデータ情報、すなわち事前に参照ゲノムに対して整列された(aligned to a reference genome)データを含む。アライメントファイルからのデータのいずれかがデータベース400に存在する場合、アライメントファイルは、データベース400からの参照情報で注釈(annotated)され、注釈自体が、データベース400に格納され、受信ステーションによってアクセス可能なデータを置き換えても良い。
【0029】
例えば、1つの例示的な実施形態において、参照ゲノムデータに事前に整列されたファイルは、変異データ(variant data)の変異コールファイル(VCF)であり、データベース400は、既知の変異のリソース、例えば、SNPデータのデータベースである。SNPデータのデータベースは、当業者に知られており、例えば、国立衛生研究所の国立バイオテクノロジー情報センターによって維持されている。
【0030】
VCFの典型的なエントリーは、ゲノムの再構成に関連する以下の情報を含む:一塩基変異(single nucleotide variant)(または小さな挿入または欠失)が位置する染色体、染色体上の位置、参照塩基(A、C、G、T、またはN)、代替塩基(A、C、GまたはT)、変異コール(variant call)の品質、および変異コールの性質(ホモ接合型/ヘテロ接合型)。VCFのエントリーには、ここで説明する再構成プロセスに関係のないその他の情報が含まれている場合がある。
【0031】
VCFにおける既知の変異については、染色体上の位置のゲノム座標は、SNPデータのデータベースに格納された情報から変異に対する参照および代替の対立遺伝子データ(allele data)を決定するのに十分であり、VCFを減少させるために使用することができる。染色体座標は、染色体番号およびその染色体上の変異の位置を含む。
【0032】
データベース400は、検索可能なデータベースであってもよく、リレーショナルデータベースを有し、含み、またはインターフェースを有してもよい。クエリフォーマットデータベース、標準クエリ言語(SQL)フォーマットデータベース、または同様のデータストレージデバイス、クエリフォーマット、プラットフォームまたはリソースなどの他のデータベースを使用してもよい。データベース400は、単一のデータベースまたは複数のデータベースの集合でもよく、専用のものでもその他のものでもよい。一実施形態では、データベース400は、本明細書に記載されている様々なデータおよび情報を格納し、または格納する他のデータベースと協働することができる。いくつかの実施形態では、データベース400は、本明細書に記載のシステムおよび方法の様々な特徴および機能によって使用または生成されたデータおよび情報を格納および保持するファイル管理システム、プログラムまたはアプリケーションを含むことができる。
【0033】
送信ステーション100の例示的な一実施形態を図2に示す。処理モジュール110は、縮小モジュール111、エンコーディングモジュール112、暗号化モジュール113、および格納モジュール114を含む。縮小モジュール111は、例えば、データベースに格納された既知のゲノムに基づく注釈を用いて、または本明細書でより完全に説明される他の技術を用いて、事前に整列されたデータファイルまたはVCFを縮小する。
【0034】
エンコーディングモジュール112は、縮小ファイルをエンコーディングする。縮小されたVCFの例では、エンコーディングモジュール112は、以下に詳細を述べるように、(例えば、デカルト座標、極座標などの)座標系を用いてエンコーディングされたゲノム座標、すなわち染色体番号および位置で、変異データ(variant data)を置き換えることができる。暗号化モジュール113は、対称または非対称暗号など、本技術分野で知られている暗号化技術を用いてVCFを暗号化する。格納モジュール114は、縮小モジュール111、エンコーディングモジュール112、および暗号化モジュール113、ならびにそれらの中間ステップによって実行される縮小、エンコーディングおよび暗号化の結果を格納することができる。
【0035】
受信ステーション200の例示的な一実施形態を図3に示す。受信ステーション200の処理モジュール210は、復号(decrypting)モジュール211と、デコーディング(decoding)モジュール212と、インフレーションモジュール213と、格納モジュール214とを含む。復号モジュール211は、I/Oユニット220を介して受信した暗号化されたゲノムデータファイルを復号(decrypt)する。復号モジュール212は、送信ステーション100から受信したエンコードされたファイルを、エンコーディングプロセスで採用された座標方式を用いてデコードする。インフレーションモジュール213は、デコードされた縮小ファイルをインフレーション(inflate)させる。dbSNPに格納された既知の変異データを参照して縮小されたVCFの例では、同じデータベースまたは同じ情報を含むデータベースを用いて、縮小VCF中の注釈を対応するゲノムデータで置き換えることができる。例えば、代替および参照対立遺伝子データ(alternate and reference allele data)を、dbSNPで検索し、VCFエントリーに「再追加(re−added)」することができる。
【0036】
ここで、VCFを転送するための転送システム1の例示的な動作を、図4および図5を参照して説明する。送信ステーション100は、シーケンシングされたゲノムデータを受信する(ステップS100)。シーケンシングされたデータ(sequenced data)は、処理されていなくてもよく、または予め参照ゲノムに整列(previously aligned to a reference genome)されていてもよい。予め参照ゲノムに整列されていない場合、シーケンシングされたゲノムデータは処理され、参照ゲノムと整列される(ステップS101)。次に、縮小モジュール111がVCFを縮小する(ステップS102)。VCFを縮小するため、一般的には染色体でインデックスされている既知の変異のデータベース(dbSNP)が参照される。VCFの各データエントリーについて、変異が既にわかっている場合、そのエントリーの情報は、染色体およびその染色体上の変異の位置に縮小され得る。dbSNPに格納される情報が多くなればなるほど、VCFはより縮小され得る。
【0037】
例示的な一実施形態によれば、所定の品質閾値を満たさない変異データを削除することにより、VCF中の変異データをさらに縮小することができる。ゲノムの再構成は、変異コール(variant calls)がロバスト(robust)(高品質)であるときに、より信頼できる。この例示的な実施形態では、所定の品質閾値を満たす変異コールが保持され、転送のためのファイルの作成において、より低い品質の変異コールが削除されるか、またはスキップされる。当業者には言うまでもなく、変異の品質の閾値は、使用される変異コーラー(variant caller)のタイプに応じて変化し得る。例えば、Illuminaの次世代シーケンシングデータでは、SNPをカバーする少なくとも20回の読み取りが必要となる。
【0038】
次に、縮小VCFをエンコーディングして、ファイルのサイズをさらに小さくする(ステップS103)。1つの例示的な実施形態によれば、ゲノム座標、すなわち染色体番号および位置のエンコーディング(encoding)は、座標系を用いて実現され得る。任意の適切な座標系を使用することができるが、本明細書で説明する例示的な実施形態によれば、デカルト座標系、極座標系、線形座標系(linear coordinate system)、および環状座標系(cyclic coordinate system)が使用される。
【0039】
デカルト座標エンコーディング
ゲノム座標のデカルト座標への変換は、染色体の中心がx軸上にあるように、すなわち、各染色体の中心のy座標がゼロになるように、問題の染色体セット(例えば、24個の染色体セット)をx軸に配置することによって行われても良い。
【0040】
x座標の範囲は、例えば[1...24]であるが、y座標の範囲は[−α/2...α/2]であり、ここでαは染色体上に存在するヌクレオチド塩基の数である。各染色体について、軸座標y=0は、
【数1】
により新しい位置α´にシフトされる。
【0041】
極座標
ゲノム位置の長さ(半径)および角度を表す極座標(r、θ)は、上記のデカルト座標(x、y)からの変換によって、
【数2】
のように得ることができる。
【0042】
線形座標(linear coordinates)
線形座標は、その染色体への組織化(its organization into chromosomes)から、約30億塩基対(ヒトゲノム中の塩基対の数)の単一のストリングへのゲノムの翻訳によって得ることができる。この翻訳は、各染色体からのヌクレオチド塩基を、従来の染色体の順序(第1染色体・・・第22染色体とそれに続くX染色体とY染色体)で1つのストリングに連結することによって行うことができる。したがって、線形座標の範囲はa∈[1...3,209,286,105]になる。
【0043】
環状座標
環状座標(cyclic coordinates)を得るために、染色体位置は環状(円)座標系にマッピングされ、円上の点はヌクレオチド位置を表し、これらの点の角度距離は位置座標を表す。位置の数が1回転(2π)の範囲内で可能な表現の数を超える場合、モジュラー演算を使用して値を縮小することができる。
【0044】
例示的な一実施形態では、モジュラー演算値を使用して、環状座標系を用いてエンコードされたVCFの複雑さを低減してもよい。モジュラス(n)を用いて位置をラップ(wrap the positions around)すると、位置aの線形値は、
【数3】
のように円上の位置に変換され得る。
【0045】
変換された座標a´=f(n、q、r)であり、ここで、nはモジュラス値、qは除算の商、rは剰余である。VCFファイルの各位置について、エンコーディングされたファイルは次の情報を有する。すなわち、(i)モジュラス演算の商、(ii)角度として表されたモジュラス演算の剰余、(iii)その位置にある別の対立遺伝子。
【0046】
モジュラス値「n」は、VCF内の情報をデコードするための鍵となり得る。モジュラス値は、定数であってもよいし、乱数発生器によって計算されてもよい。モジュラス値は、VCFと共に送信されてもよいし、あるいは、別のチャネルを介して送信されてもよい。例示的な一実施形態では、他のチャネルは安全なチャネル(secure channel)である。安全なチャネルを使用して、例えば、患者識別情報を送信することもできる。
【0047】
モジュラス値は、当業者に知られている暗号化技術を用いて暗号化することができる。モジュラス値が利用されるこの例示的な実施形態では、患者の変異情報をデコードするために、遠隔サイトは、モジュラス値を復号(decrypt)し、次いで変異座標(variant coordinates)をデコードして、それにより2つのレベルの復号(decryption)をすることが要求される。
【0048】
縮小ステップとエンコーディングステップの後、圧縮されエンコードされたVCFは、暗号化モジュール113によって暗号化されてもよい(ステップS104)。任意の適切な暗号化技術を利用することができ、これには対称および非対称暗号化技術が含まれる。
【0049】
例示的な一実施形態では、暗号化ステップの前に、DNAスペクトル分析のステップを行うことができる。このステップでは、代替的対立遺伝子(alternative alleles)のA、C、GおよびT塩基を、例えば、フーリエ変換または他の周波数変換を用いて、スペクトル領域に変換される。受信すると、スペクトルDNAは変換され、代替的対立遺伝子のA、C、GおよびT塩基に戻される。
【0050】
図4に示す動作中、暗号化ステップ(ステップS105)の後も含めて、様々なステップの結果を格納してもよい。
【0051】
その後、処理されたファイルは、ネットワーク300を介して受信ステーション200に転送されてもよい。ネットワーク300は、安全でない、または安全でないスパンを含む可能性がある。本発明の例示的な一実施形態による受信ステーション200における元のファイルの復元について、図5を参照して説明する。復元のプロセスは、基本的に、送信されたファイルに適用された縮小、エンコーディングおよび暗号化のステップを逆に適用するプロセスである。
【0052】
ファイルが復号(decrypt)される場合、暗号化されたファイルは、復号モジュール211によって復号される(ステップS201)。スペクトル領域に周波数変換するステップを含む例示的な実施形態では、スペクトルDNA情報(spectral DNA information)は変換され、代替的対立遺伝子のA、C、G、T塩基に戻される。例示的な一実施形態では、暗号化モジュール113によって使用される暗号化スキームは、予め復号モジュール211に知られている。他の例示的な一実施形態では、暗号化スキームは、転送されるファイルと共に復号モジュール211に転送され、あるいはファイルの転送後に、同じチャネルまたは別のチャネルを用いて、転送される。
【0053】
暗号化プロセスでモジュラス値が使用された実施形態では、その値が復号され、暗号化VCFの復号(decryption)を実行するために復号モジュール211によって使用される。
【0054】
次に、復号モジュール212は、復号されたファイルをデコードする(ステップS202)。例示的な一実施形態では、エンコーディングモジュール112によって使用されたエンコーディングスキームは、予めデコーディングモジュール211に知られている。他の例示的な一実施形態では、暗号化スキームは、転送されるファイルと共にデコーディングモジュール212に転送され、あるいはファイルの転送後に、同じチャネルまたは別のチャネルを用いて、転送される。
【0055】
次に、インフレーションモジュール213は、既知の変異のデータベースを参照して、デコーディングされたファイルをインフレーション(inflate)させる(ステップS203)。図5に示す動作中、最後のインフレーションステップ(ステップS204)の後に、復元されたVCFを格納することを含む、様々なステップの結果を格納することができる。復元時、VCFは、さらなる処理のために必要に応じて転送されてもよい(ステップS205)。
【0056】
送信ステーション100および受信ステーション200は、人間のオペレータ、自動操作、またはその両方によって操作が開始されるコンピュータステーションに組み込まれてもよい。送信ステーション100は、転送されているVCFを識別し、本明細書で説明する例示的な動作を実行する機能を含むネットワークデバイス(サーバまたはルータなど)に組み込むこともできる。ネットワークデバイスは、配列データが転送されるネットワークを介して、シーケンシングされたゲノムデータが、本明細書に記載された例示的な実施形態に従って縮小され、エンコードされ、暗号化されるネットワークと、受信ステーション200を含むネットワークとの間でデータをルーティングするゲートウェイであってもよい。受信ステーション200はまた、本明細書に記載の例示的な実施形態に従って、縮小され、エンコードされ、暗号化されたVCFを識別し、ゲノムデータを復元する能力を含むネットワークデバイス(ネットワークゲートウェイなど)に含まれてもよい。
【0057】
図1図2及び図3に示すような転送システムには、コンピュータシステムが含まれていてもよい。転送システムは、コンピュータによって実行されるプログラムモジュールのようなコンピュータ実行可能命令の一般的な文脈で説明することができる。一般的に、プログラムモジュールには、あるタスクを実行し、またはある抽象的データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。
【0058】
当業者には言うまでもないが、本発明は、携帯電話またはタブレットなどのハンドヘルド無線デバイス、マルチプロセッサシステム、マイクロプロセッサベースのまたはプログラム可能な家庭用電子機器、ミニコンピュータ、メインフレームコンピュータなどを含む様々なコンピュータシステムで実施してもよい。本発明は、通信ネットワークを介してリンクされた遠隔処理装置によってタスクが実行される分散コンピューティング環境においても実施することができる。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカル及びリモートのコンピュータ記憶媒体の両方に配置できる。
【0059】
転送システムは、上述したようにメモリに格納され、本明細書で説明される方法で、プロセッサ上で実行される複数のソフトウェア処理モジュールを含むことができる。プログラムモジュールは、任意の適切なプログラミング言語の形態であってもよく、これは、機械語またはオブジェクトコードに変換され、プロセッサまたは複数のプロセッサが命令を実行することを可能にする。
【0060】
コンピュータシステムは、処理ユニットと、システムメモリと、システムメモリを含む様々なシステムコンポーネントを処理ユニットに結合するシステムバスとを含むコンピュータの形態の汎用コンピューティングデバイスを含むことができる。
【0061】
コマンドおよび命令を実行する処理ユニットは、汎用コンピュータであってもよいが、任意の他のデバイスまたは装置を含むことができ、それには専用コンピュータ、マイクロコンピュータ、ミニコンピュータ、メインフレームコンピュータ、プログラムされたマイクロプロセッサ、マイクロコントローラ、周辺集積回路素子(peripheral integrated circuit element)、CSIC(特定カスタマ集積回路)、ASIC(特定用途向け集積回路)、論理回路、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、PLD(プログラマブル(集積回路)、PLA(プログラマブルロジックアレイ)、RFID集積回路、スマートチップなどのプログラム可能ロジックデバイス、または本発明のプロセスのステップを実施することができる任意の他のデバイスや装置が含まれる。
【0062】
言うまでもなく、コンピュータシステムのプロセッサおよび/またはメモリは物理的に同じ位置にある必要はない。コンピュータシステムによって使用される各プロセッサおよび各メモリは、地理的に異なる場所にあってもよく、任意の適切な方法で互いに通信するように接続されてもよい。さらに、言うまでもなく、プロセッサおよび/またはメモリの各々は、異なる物理的な機器から構成されてもよい。
【0063】
コンピューティング環境は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体も含むことができる。
【0064】
以上、本発明の実施形態について説明した。しかし、本発明はこれらの実施形態に限定されるものではなく、本明細書に明示的に記載されたものに対する追加および修正も本発明の範囲内に含まれる。さらに、言うまでもなく、本明細書に記載された様々な実施形態の特徴は、互いに排他的ではなく、本発明の精神および範囲から逸脱することなく、様々な組み合わせまたは順列が本明細書において明示されていなくても、そのような組み合わせ及び順列として実施することができる。実際、本明細書に記載されているものの変形、修正、および他の実施が、本発明の精神および範囲から逸脱することなく当業者に思い浮かぶであろう。このように、本発明は、上記の例示的説明によってのみ定義されるものではない。
図1
図2
図3
図4
図5