(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-31
(54)【発明の名称】対象者の遺伝データを暗号化するための方法およびシステム
(51)【国際特許分類】
G16B 50/40 20190101AFI20230824BHJP
【FI】
G16B50/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023507752
(86)(22)【出願日】2021-08-02
(85)【翻訳文提出日】2023-02-27
(86)【国際出願番号】 EP2021071531
(87)【国際公開番号】W WO2022029059
(87)【国際公開日】2022-02-10
(32)【優先日】2020-08-03
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】517421563
【氏名又は名称】アシスタンス ピュブリック-オピト ドゥ マルセイユ
(71)【出願人】
【識別番号】511025226
【氏名又は名称】ユニヴェルシテ デクス-マルセイユ
【氏名又は名称原語表記】UNIVERSITE D’AIX-MARSEILLE
【住所又は居所原語表記】Jardin du Pharo, 58, Bld Charles Livon, F-13284 Marseille cedex 07, France
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】フレデリック・フィナ
(72)【発明者】
【氏名】アラン・ビアンコット
(72)【発明者】
【氏名】エリック・ペレグリノ
(72)【発明者】
【氏名】マエヴァ・デラボー
(72)【発明者】
【氏名】ニコラ・マカグノ
(72)【発明者】
【氏名】ドミニク・フィガレラ-ブランゲル
(57)【要約】
試料から取得された遺伝子情報の安全性を向上させると同時に、分析チェーン全体を通して追跡可能性および識別情報の警戒を保証する、生体試料のゲノムデータの暗号化のコンピュータ実装方法およびシステムが提供される。本明細書で開示されるコンピュータ実装方法およびシステムは、高レベルの識別情報の警戒、ラベリングおよび追跡可能性の改善を可能にし、ゲノムデータの高レベルの機密性を提供する。
【特許請求の範囲】
【請求項1】
対象者の遺伝データを暗号化するためのコンピュータ実装方法であって、
- ステップa) DNA合成装置によって、前記対象者に関係するコード化されたメタデータを含む外来性DNA配列を合成するステップであって、前記メタデータが少なくとも1つの暗号化キーを含み、前記暗号化キーが一意であって、前記対象者に関連している、合成するステップと、
- ステップb) サンプリング材料において前記対象者の生体試料を収集するステップであって、前記サンプリング材料が前記外来性DNA配列を含む、収集するステップと、
- ステップc) DNAシーケンサによって、前記生体試料から取得された前記対象者のDNAの配列を決定し、DNAシーケンサによって、コード化されたメタデータを含む前記外来性DNA配列の配列を決定するステップと、
- ステップd) 少なくとも1つの処理ユニットによって、前記対象者の前記配列を決定されたゲノムに対応するテキストベースのファイルを作成するステップであって、前記ゲノムが、関心の少なくとも1つの配列を含む、作成するステップ。
- ステップe) 前記少なくとも1つの処理ユニットによって、少なくとも暗号化キーを含むコード化されたメタデータを含む前記配列を決定された外来性DNA配列に対応するテキストベースのファイルを作成するステップと、
- ステップf) 前記少なくとも1つの処理ユニットを用いて、前記配列を決定された外来性DNA配列に対応する前記テキストベースのファイルから前記暗号化キーを引き出すステップと、
- ステップg) 関心の前記少なくとも1つの配列以外の、前記対象者に関連するステップf)からの前記暗号化キーを用いて、前記対象者の前記配列を決定されたゲノムに対応する前記テキストベースのファイルを、前記少なくとも1つの処理ユニットによって暗号化するステップと
を含む、方法。
【請求項2】
ステップaにおいて、前記メタデータが、少なくとも第2の暗号化キーを含み、ステップgにおいて、関心の前記少なくとも1つの配列が、前記第2の暗号化キーによって暗号化される、請求項1に記載の方法。
【請求項3】
ステップd)の前記テキストベースのファイルが、固定長の塩基対のブロックにおいて断片化される、請求項1または2に記載の方法。
【請求項4】
前記外来性DNA配列内の前記対象者に関連する個人データベースインデックス識別子をコード化するステップを含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記外来性DNA配列内の関心の前記少なくとも1つの配列を識別するために情報をコード化するステップを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記対象者が患者であり、前記外来性DNA配列内の前記対象者の健康記録をコード化するステップを含んでいる、請求項1から5のいずれか一項に記載の方法。
【請求項7】
4つのヌクレオチド塩基A、T、G、およびCの組合せに基づいてバイナリコードの形で、前記外来性DNA配列中のメタデータをコード化するステップを含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
第3の暗号化キーを用いて、前記外来性DNA配列内でコード化された前記メタデータを暗号化するステップを含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
対象者の遺伝データを暗号化するためのシステムであって、
(a) 前記対象者に関係するコード化されたメタデータを含む外来性DNA配列を合成するように構成されたDNA合成装置であって、前記メタデータが少なくとも1つの暗号化キーを含み、前記暗号化キーが一意であって、前記対象者に関連している、DNA合成装置と、
(b) 前記対象者に関係するコード化されたメタデータを含む前記外来性DNA配列の配列を決定するように構成され、かつ生体試料から取得された前記対象者のDNAの配列を決定するように構成された、DNAシーケンサと、
(c)
- 前記対象者の前記配列を決定されたゲノムに対応するテキストベースのファイルを作成するステップであって、前記ゲノムが、関心の少なくとも1つの配列を含む、作成するステップ、
- 前記配列を決定された外来性DNA配列に対応するテキストベースのファイルを作成するステップであって、前記外来性DNA配列の前記配列が、少なくとも暗号化キーを含むコード化されたメタデータを含む、作成するステップ、
- 前記配列を決定された外来性DNA配列に対応する前記テキストベースのファイルから前記暗号化キーを引き出すステップ、
- 前記暗号化キーを用いて、前記対象者の前記配列を決定されたゲノムに対応する前記テキストベースのファイルを暗号化するステップ
を行うように構成された少なくとも1つの処理ユニットと
を備える、システム。
【請求項10】
- 前記メタデータに対応する核酸配列を取得するために、少なくとも暗号化キーを含む前記メタデータを、4つのヌクレオチド塩基A、T、G、およびCの組合せに基づいてバイナリコードに変換するステップと、
- 前記暗号化キーを含むコード化されたメタデータを含む前記外来性DNA配列を取得するために、前記取得した核酸配列を前記DNAシーケンサに送信するステップと
を行うように構成された少なくとも1つの追加の処理ユニットを備える、請求項9に記載のシステム。
【請求項11】
前記少なくとも1つの処理ユニットが、固定長の塩基対のブロックにおいて前記対象者の前記配列を決定されたゲノムに対応する前記テキストベースのファイルを断片化するようにさらに構成された、請求項9または10に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、生体試料のゲノムデータの暗号化およびそれのDNAラベリングのコンピュータ実装方法およびシステムに関する。
【背景技術】
【0002】
過去数十年にわたるDNAシーケンシング技術の進化は、比較的低コストで対象者の全ゲノムの配列を決定することを可能にした。したがって数十万の対象者が、個人的な目的(たとえば、系統DNA検査)のために、または医学的な理由でもしくはトランスレーショナルリサーチのためにも、シーケンシング研究所に試料を提供した。
【0003】
個別化された医療がヘルスケアの未来である、というのも、全ゲノムシーケンシングが、個人の病気の個々のレベルおよび段階における治療を個別化する能力を与えるからである。
【0004】
薬理学および医薬品開発は人口調査に基づくので、現在の治療は、人口統計全体に画一化されている。しかしながら、病気および薬物療法に対する対象者の反応は、対象者の遺伝子的および後成的素因に関係している。
【0005】
ゲノムシーケンシングは、新生児医療での迅速鑑別診断が重要である単一遺伝子疾患において予後カウンセリングを加速した。しかしながら、医療と研究との間の区別がしばしば不鮮明であることは、これらの2つの領域間の機密保持に対処する方法を複雑にし得る。これらの2つの領域はしばしば異なるレベルの同意を必要とし、異なる国の方針を含むからである。さらに、これらの方針は、考え方が対象者のデータの保護に向かっている欧州と、考え方がデータの自由化および分配に向かっているアングロサクソン諸国との間で大いに異なる。
【0006】
実際、企業のプライバシーに関する方針は、特にアングロサクソン諸国では、しばしば国の管轄下になく、このために消費者は、消費者の遺伝データ(genetic data)と、家族歴、健康状態、人種、民族性、ソーシャルネットワークを含む、消費者が開示した消費者プロファイルの両方に関して、情報リスクにさらされる。たとえば、いつかの企業は、収集したゲノムデータを生産業者に売っているか、またはそれらを公開データベース、バイオバンク、リポジトリ(たとえば、UKバイオバンクおよび1000人ゲノムプロジェクト)で共有して、研究者および臨床医が、生体データ、すなわちDNA、RNA、およびタンパク質の構造および機能をより良く理解するために、生物医学研究を進めるのを支援している。
【0007】
消費者取引の性質により、これらの電子モデルが研究およびヘルスケアにおける伝統的形態の同意を回避することが可能になるとすれば、遺伝個人情報の保護に関する方針は、さらにより複雑化される。国際連携研究または生体資源センター(国際バイオバンク)、生体試料および遺伝子情報を記憶するデータベースを考えるとき、同じことが言える。
【0008】
加えて、研究およびヘルスケアは、正式な専門知識を必要とする唯一の領域ではなく、関心の他の領域は、刑事司法制度に含まれる領域、および個人的な、消費者向けゲノムシーケンシングに含まれる領域の遺伝情報のプライバシーを含む。
【0009】
製薬産業とともに、保険会社、雇用者、または潜在的には優生学的全体主義国家が、主な懸念の源である。消費者は、消費者の遺伝子配列をデジタル化し、記憶することの意味合いを十分に理解しない場合がある。したがって、データ侵害の場合に、対象者の個人ゲノムを戻すことができないことを強調することが重要である。優先事項はしたがって、どの方法がロバストであるか、およびどのようにして方針が遺伝プライバシーの継続を確保すべきかを決定することである。
【0010】
したがって、記憶、共有、移動、および計算中のゲノムデータのセキュリティおよびプライバシーについて深刻な懸念がある。実際には、国有または民間企業が、これらのデータバンクに記憶されているゲノムデータにアクセスできることを許可する法律を想像することができる。
【0011】
これらの懸念に対処するために、様々な暗号戦略が提案されている。たとえば、読取りマッピングを2つのタスクに分割することが提案されており、2つのタスクとは、パブリッククラウドで行うことができる配列決定データのマッチングと、プライベートクラウドで行われるこれらの読取りのアライメントと、である。しかしながら、アライメントプロセスは非常に大きく、多大な労力を要する傾向があるので、大部分のシーケンシングシステムは、依然として機能的に、クラウドなどのサードパートの計算動作を必要とし、これらがセキュリティの懸念をもたらす。
【0012】
他の研究が、準同型暗号および安全な完全比較を使用する技法を提案しており、機密を扱うデータを暗号化された形態で記憶し、処理することを勧めている。機密性を確保するために、記憶および処理ユニット(SPU)は、患者に観察されたすべての一塩基多型(single nucleotide polymorphism:SNP)を、潜在的SNPのセットからの冗長な内容とともに記憶する。別の解決策は、YaoのGarbled回路交差およびストリップアップグレードアルゴリズム(strip upgrade algorithm)を使用して、マウンティング距離(mounting distance)の計算を安全にする3つのプロトコルを開発した。しかしながら、この解決策の重大な欠点は、精度を維持しながら大規模な計算を実行できないことである。
【0013】
また、NGS分析では、タグまたはMIDと呼ばれる配列が、分析フェーズ中のライブラリ調製(library preparation)の時に追加される。これらの配列は、PCRプライマーによって3'に運ばれ、デマルチプレクス中に、取得した配列は、ターゲットゲノムの参照配列とアライメントされ、3'部分は、同じシーケンシング法(ラン)でアライメントされた各配列について試料を識別することを可能にする。これらのタグまたはMIDは、各新しいランで再利用され、次の分析シリーズ(新しいラン)において新しい試料をインデックス付けする。これらのタグまたはMIDは、一意ではなく、塩基配列においてコード化される数値データがない。
【0014】
現在まで、生体情報のシーケンシングによる読取りと、4つのATGC塩基を使用してコード化され、カスタム生成の核酸支持体(custom-produced nucleic acid support)上で暗号化されるデジタルデータであって、一意の変異を形成し、以下のタイプの情報、すなわちインデックス付けデータ、臨床データ、生体データ、個人データ、画像などを担持するデジタルデータと、を組み合わせる解決法がない。
【0015】
さらに、サードパートによる患者のゲノムデータの使用に関して患者に自律性(選択)を与えることが、現在可能ではない。また、厳密に分析に必要なゲノム情報のレベルに従って患者の同意を階層化することが困難である。
【発明の概要】
【課題を解決するための手段】
【0016】
本明細書で説明する実施形態は、対象者の遺伝データを暗号化するためのコンピュータ実装方法を提供し、この方法は、以下のステップを備える。
- ステップa) DNA合成装置によって、上記対象者に関係するコード化されたメタデータを含む外来性DNA配列(DNAタグ)を合成するステップであって、上記メタデータが少なくとも1つの暗号化キーを含み、上記暗号化キーが一意であって、上記対象者に関連している、合成するステップ。
- ステップb) サンプリング材料において上記対象者の生体試料を収集するステップであって、上記サンプリング材料が上記外来性DNA配列を含む、収集するステップ。
- ステップc) DNAシーケンサによって、上記生体試料から取得された上記対象者のDNAの配列を決定し、DNAシーケンサによって、コード化されたメタデータを含む上記外来性DNA配列の配列を決定するステップ。
- ステップd) 少なくとも1つの処理ユニットによって、対象者の配列を決定されたゲノムに対応するテキストベースのファイルを作成するステップであって、上記ゲノムが、関心の少なくとも1つの配列を含む、作成するステップ。
- ステップe) 上記少なくとも1つの処理ユニットによって、少なくとも暗号化キーを含むコード化されたメタデータを含む、配列を決定された外来性DNA配列に対応するテキストベースのファイルを作成するステップ。
- ステップf) 上記少なくとも1つの処理ユニットを用いて、配列を決定された外来性DNA配列に対応する上記テキストベースのファイルから暗号化キーを引き出すステップ。
- ステップg) 関心の少なくとも1つの配列以外の、上記対象者に関連するステップf)からの上記暗号化キーを用いて、対象者の配列を決定されたゲノムに対応する上記テキストベースのファイルを、上記少なくとも1つの処理ユニットによって暗号化するステップ。
方法は、以下の特徴のうちの1つおよび/または他のものを含んでもよい。
- ステップa)では、上記メタデータが、少なくとも第2の暗号化キーを含む。
- 関心の少なくとも1つの配列は、ステップg)において、上記第2の暗号化キーによって暗号化される。
- ステップd)のテキストベースのファイルは、固定長の塩基対のブロックにおいて断片化される。
- 外来性DNA配列内の上記対象者に関連する個人データベースインデックス識別子をコード化する。
- 外来性DNA配列内の関心の少なくとも1つの配列を識別するために情報をコード化する。
- 外来性DNA配列内の対象者の健康記録をコード化する。
- 4つのヌクレオチド塩基A、T、G、およびCの組合せに基づいて、バイナリコードの形で外来性DNA配列中のメタデータをコード化する。
- 第3の暗号化キーを用いて、外来性DNA配列内でコード化されたメタデータを暗号化する。
対象者の遺伝データを暗号化するためのシステムもまた提供され、このシステムは、
(a) 上記対象者に関係するコード化されたメタデータを含む外来性DNA配列を合成するように構成されたDNA合成装置であって、上記メタデータが少なくとも1つの暗号化キーを含み、上記暗号化キーが一意であって、上記対象者に関連している、DNA合成装置と、
(b) 上記対象者に関係するコード化されたメタデータを含む上記外来性DNA配列の配列を決定するように構成され、かつ生体試料から取得された上記対象者のDNAの配列を決定するように構成された、DNAシーケンサと、
(c) 以下のステップ、すなわち
- 対象者の配列を決定されたゲノムに対応するテキストベースのファイルを作成するステップであって、上記ゲノムが、関心の少なくとも1つの配列を含む、作成するステップ、
- 配列を決定された外来性DNA配列に対応するテキストベースのファイルを作成するステップであって、外来性DNA配列の配列が、少なくとも暗号化キーを含むコード化されたメタデータを含む、作成するステップ、
- 配列を決定された外来性DNA配列に対応するテキストベースのファイルから暗号化キーを引き出すステップ、
- 上記の暗号化キーを用いて対象者の配列を決定されたゲノムに対応するテキストベースのファイルを暗号化するステップ
を行うように構成された少なくとも1つの処理ユニットと
を備える。
システムは、以下の特徴のうちの1つおよび/または他のものをさらに含んでもよい。
- 少なくとも1つのさらなる処理ユニットが、以下のステップ、すなわち
- 上記メタデータに対応する核酸配列を取得するために、少なくとも1つの暗号化キーを含むメタデータを、4つのヌクレオチド塩基A、T、G、およびCの組合せに基づいてバイナリコードに変換するステップと、
- 少なくとも上記暗号化キーを含むコード化されたメタデータを含む外来性DNA配列を取得するために、取得した核酸配列をDNAシーケンサに送信するステップと
を行うように構成されること。
- 少なくとも1つの処理ユニットが、固定長の塩基対のブロックにおいて対象者の配列を決定されたゲノムに対応するテキストベースのファイルを断片化するように構成されること。
【0017】
これらの配置のために、方法およびシステムは、試料から取得される遺伝子情報のセキュリティを改善すると同時に、分析チェーン全体にわたる追跡可能性(traceability)および識別情報の警戒(identity-vigilance)を保証する。「識別情報の警戒」は、すべての対象者が分析プロセス全体にわたって(たとえば、対象者が患者であるとき、病院での、および医療および管理用データの交換時の患者のケア全体にわたって)正確に識別されることを確実にすることを目指す。正しい対象者に、正しい時間に、正しいケアを常に施すことができるように、ケアの全過程にわたって対象者の識別情報および書類を信頼できるものにすることが目的である。
【0018】
本明細書で開示する方法およびシステムは、高レベルの識別情報の警戒を可能にする。ラベルシーケンスが対象者の情報を含むので、またラベルシーケンスが、分析される試料と同じ管内にあるので、安全な方法で対象者の識別情報を決定し、したがってたとえば対象者が患者であるとき、誤診を避けることが可能であるからである。またそれは、従来デジタルフォーマットで記憶されたデータと比較することができ、したがってデータの品質管理を確実にする。
【0019】
さらに、ラベリングおよび追跡可能性が改善される。実際、ラベルシーケンスを試料と同じ管に有するという同じ原理に基づいて、試料のラベリングを数年後に所有することが可能である。したがって、試料と結びつけられるデータ損失の問題(ラベルの除去または退色)は、このようにして解決される。
【0020】
さらに、少なくとも暗号鍵を含むメタデータに対するこのDNAタグコーディングを通して、鍵の保持者(クライアント)または元の試料の保持者(ゲノムの配列決定を担当する研究所)のみが、実験室データバンクに記憶された対象者のゲノムを解読することができる。
【図面の簡単な説明】
【0021】
【
図1】本明細書で開示する方法のチャートフローを表す図である。
【
図2】生データ「FASTQ」ファイルのブロックによる暗号化方法の説明を表す図である。
【発明を実施するための形態】
【0022】
図面において、同じ参照符号は、同一の要素または同様の要素を示す。
【0023】
本明細書で開示する方法およびシステムは、性能の向上、および「識別情報の警戒」のための新しい使用法、ならびにたとえば健康データなどのデジタルデータを「コード化する」ための新しい使用法を提供する。生物学的データのセキュリティおよびプライバシーの改善もまた、本方法によってもたらされる。実際、識別情報の警戒は、分析チェーン全体にわたって通常使用される他の品質管理(QC)と組み合わせて、サンプリング時に始まる。
【0024】
また、コード化が、物理媒体上でプライベートデータとゲノムデータを組み合わせることを可能にする。コード化は、デジタルデータに加えて、これらのデータの物理媒体を、既存の(2000年以降の)デジタル媒体すべてを越えて、時間に非常にロバストに、再分析可能(re-analysable)に維持することを可能にする。
【0025】
加えて、暗号化は、人の個人的自律性を保護することを可能にし、すべての人間に自分自身の身体の所有権(J. Locke)および個々の選択の自由を与える。暗号化はまた、どんなゲノムデータも、これらのゲノムデータがどんな人、動物、細菌、酵母菌、または植物に由来していても、生物学的物質から保護することを可能にする。
【0026】
最後に、解読に対して、ゲノムの異なるレベルの機密性をインデックス付けすることは、ゲノムのサイズを削減し、したがって分析時間を削減する。
【0027】
そうするために、データが、4つのヌクレオチド塩基を使用して、コンピューティングで使用されるバイナリコーディングのように、たとえば、'00'='A'、'01'='T'、'01'='C'、'10'='G'のように、合成外来性DNA配列においてコード化される。外来性DNA配列は、たとえば、DNA合成装置によって合成される。データは、カスタムメイドであるこの一意のDNA分子(DNAタグまたはラベル)に記憶される。
【0028】
DNAタグは、生体試料および/またはそれの対象者を指す。対象者は、人、動物、細菌、酵母菌、あるいは植物であることがある。DNAタグは、対象者に関係するデジタル情報の物理的担体である。DNAラベルは、生体試料を物理的方法で永続的に添付し、生体試料から導出されたデータをデジタル方式で添付する。
【0029】
対象者に関係するどの種類のデータも、DNAタグ内でコード化され得る。上記データは、たとえば、対象者の識別情報(たとえば、名前、バーコード、データベース識別番号など)、試料収集条件(たとえば、日付および場所)、試料の性質(たとえば、特定の条件を有する患者から採られた血液試料)、あるいは患者の場合、患者の医療記録に関係する何らかの情報であることがある。
【0030】
DNAタグはさらに、少なくとも、試料から取得されたゲノムデータを暗号化するために使用される暗号鍵について、またはゲノムのどの部分が暗号化(crypt)されるべきかを示すメタデータ(MDD)について、コード化する。DNAタグ内でコード化された暗号鍵は公開鍵であり、秘密鍵に関連している。上記の秘密鍵は一意であり、対象者に関連し、機密であり、分析を指示しているクライアントのみが、それを所有する。
【0031】
一般的な方法では、対象者に関係するすべての情報が、個人的/機密を扱う情報のプライバシーを確保するために、DNAタグにコード化され得る。したがって、試料を所有し、DNAの配列を決定できる者のみが、これらの情報にアクセスすることができ、ラベルに書き込まれた通常の情報とは反する。
【0032】
本方法では、DNAタグは、試料の収集時に試料に付加される。したがってDNAタグは、試料に存在する、対象者のゲノムからの生体データとともに、シーケンサによって読み取られる。本方法のチャートフローは、
図1に示されている。
【0033】
DNAタグに存在するデータはしたがって、異なる目的を果たし、すなわち、識別情報を監視し、注釈を付けるとともに、暗号化キーの物理的支援として働くことによって試料のセキュリティを保護する。
【0034】
ラベルは、暗号公開鍵への物理的支援であり、異なるレベルの「リスク」をインデックス付けし、解読する。ラベルは、それ自体が現在のコンピュータシステムと同じ安全基準で暗号化された、対象者のゲノムを暗号化する物理的な鍵である。外来性配列は、分析を指示しているクライアント(たとえば、患者、農業生産業者、研究所など)によって選ばれた、第3の暗号化キーによって暗号化され得る。したがって、対象者に関係する情報の翻訳を取得するためには、クライアントによって保有される鍵を所有することが必要である。
【0035】
異なるレベルのリスクは、異なるレベルのリスクが、分析に関連するまたは関連しない配列に従って定義されるのに続いて定義される。たとえば、そのような分析に関連しない配列のみを暗号化することが、決定され得る。したがって、分析に関連する配列のみが、サードパートによって「読取り可能」であり、ゲノムの残りは保護される。関連する部分を第2の鍵によってコード化することが決定される場合もあり、第2の鍵は、解読のためにサードパート(たとえば、関心の配列の分析を担当している研究所)に通信される。
【0036】
したがって、DNAタグおよび/または秘密鍵を含む元の試料を所有する者のみが、対象者のゲノム全体を解読することができる。ラベルは、対象者のデータ上の「物理的」ロックであり、これらのゲノムおよび個人データのハッキング、盗難、または悪用から対象者のデータを守る。対象者に関係する情報の翻訳を取得するためには、クライアントによって保有される鍵を所有することが必要である。
【0037】
この方法は、分析の追跡可能性、プライバシーおよび識別情報の警戒を改善することを可能にする。対象者が人である場合、この方法はまた、医療専門家委員会によって定義され得る異なるレベルの「リスク」に対して階層化された方法で、ゲノムデータにアクセスできるかどうかに関するクライアントの自由意志および自律性が尊重されることを保証する。
【0038】
DNAラベルは、以下の少なくとも3つの機能のうちの少なくとも1つを所有することができる。
(1) 分析前処理の前にDNA配列(ラベル)を付加することによる生体試料のラベリング(識別情報の警戒)。このラベルは、多種多様なデータ、すなわち管番号、日付あるいは分析または生成チェーン全体を通して生体試料の識別情報の警戒および追跡可能性を可能にする何らかの簡単な関連情報を含むことができる。
(2) 患者の場合、ゲノムデータと同時に配列を決定される生体試料に付加される人工DNA配列の形態の物理媒体の製造による電子健康記録(EHR)患者データの注釈。
(3) 一意かつカスタムメイドである外来性DNA配列(ラベル)によるセキュリティ(暗号化)。DNAラベルは、暗号化キーの物理的担体である。DNAラベルは、収集時に生体試料に付加され、永続的にそれに結びつけられる。
【0039】
試料のDNAのシーケンシングは、対象者のゲノムの全部または一部の配列を含むテキストファイル(たとえば、「FASTQ」)ならびに関係する外来性DNA配列(タグ)をもたらす。この段階で、異なる配列間で見分けることは可能ではない。
【0040】
「FASTQ」フォーマットは、生物学的配列(通常ヌクレオチド配列)と、それの対応する品質スコアの両方を記憶するテキストベースのフォーマットである。配列文字と品質スコアの両方が、簡潔のために単一のASCII文字でコード化される。
【0041】
テキストファイル(たとえば、「FASTQ」)からの各断片が、基準ゲノム(たとえば、対象者が人間であるときは、ヒトゲノムデータベース)と比較される。断片は、基準配列(たとえば、「hg19」)とアライメントされ、いくつかの「ブロック」において断片化される。各ブロックは、そのブロックが分析に関連するデータを含むか否かに従って「リスク」のレベル/カテゴリとして記録される。各レベルは、DNAタグを使用してインデックス付けされ、分類され、圧縮され、暗号化キーで暗号化される基準配列のテキストベースのファイル(たとえば、BAMファイル)に相互参照される。
【0042】
したがって、特定の実施形態では、分析されるゲノムデータ(たとえば、関心の遺伝子の配列)を含むブロックは、暗号化されないが、関心の配列を含まないブロックは、DNAタグの暗号化キーによって暗号化される。別の特定の実施形態では、関連する配列を含むブロックは、DNAタグにコード化された、第2の暗号化キー(公開鍵)によって暗号化される。
【0043】
別の特定の実施形態では、ブロックが関心の配列(または関心の配列の一部)および暗号化される配列を含むとき、関心の配列を除いて、ブロックを暗号化するためにこのブロックの全配列上の位置を定義することが可能である。関心の配列は、関心のこの配列のみが解読されるように、第2の暗号化キーによってさらに暗号化され得る(
図2参照)。
【0044】
特定の実施形態では、ゲノムの暗号化は、たとえば、2要素認証インターフェース、スマートフォンアプリ、sms、電子メール、インターネットリンクなどによる、クライアントの事前同意に従っていてもよい。
【0045】
各対象者に対して、少なくともデータベースインデックス、少なくとも1つの公開鍵、および少なくとも1つの秘密鍵などの情報が、クライアントによって提供され、入力された鍵で暗号化されたファイルに記憶される。クライアントは、特定のソフトウェア(たとえば、KeePass)によって処理されるコンピュータファイルの形態でこの情報を保持する。インデックスは、たとえば対象者の識別情報、サンプリングの条件、医療記録、関心の配列などの情報を含むプライベートデータベースを指す。各インデックスは一意であり、特にこのデータベースのただ1人の対象者を指す。
【0046】
したがって、対象者の識別情報は守られる。サンプリング材料から直接導出できる識別情報はない。さらに、クライアントが内容を開示することを同意した配列のみが、サードパート(たとえば、分析を担当する研究所)に見え、ゲノムの残りは保護される。
【0047】
DNAラベルはしたがって、ゲノムがクライアントのニーズおよび選択に従って安全な方法でロック解除されることを可能にする物理的な、デジタル媒体である。
【0048】
上記で説明した方法を実装するためのシステムもまた提供される。上記システムは、上記で説明した方法のDNAタグに対応する外来性DNA配列を合成するように構成されたDNA合成装置を備える。したがって、DNAタグ上に上記対象者に関係するメタデータをコード化することが可能である。上記メタデータは、少なくとも暗号化キーを含み、上記暗号化キーは一意であって、上記対象者に関連している。
【0049】
システムはさらに、上記DNAタグの配列を決定するように構成されたDNAシーケンサを含む。したがって、収集された生体試料+DNAタグのDNAの配列を決定するときに、DNAタグにコード化された上記対象者に関係するメタデータ、および上記対象者のDNAの配列を決定することが可能である。
【0050】
システムはまた、(関心の少なくとも1つの配列を含む)対象者の配列を決定されたゲノムに対応するテキストベースのファイルを作成し、次いで、(少なくとも1つの暗号化キーを含む)配列を決定されたDNAタグに対応するテキストベースのファイルを作成し、次いで、DNAタグのテキストベースのファイルから暗号化キーを引き出し、最終的に、上記暗号化キーで対象者のゲノムのテキストベースのファイルを暗号化するように構成された少なくとも1つの処理ユニットをさらに含む。
【0051】
好ましくは、システムはさらに、(少なくとも暗号化キーを含む)メタデータを、上記メタデータに対応する核酸配列を取得するために4つのヌクレオチド塩基A、T、G、およびCの組合せに基づいてバイナリコードに変換し、取得した核酸配列を、(少なくとも上記暗号化キーを含むコード化されたメタデータを含む)対応する外来性DNA配列を生成するDNAシーケンサに送信するように構成された、少なくとも1つの追加の処理ユニットをさらに備える。
【0052】
より好ましくは、システムは、固定長の塩基対のブロックにおいて対象者の配列を決定されたゲノムに対応するテキストベースのファイルを断片化するように構成された少なくとも1つの処理ユニットをさらに備える。
【0053】
上述の処理ユニットの各々は、異なる処理ユニットまたは同じ処理ユニットとすることができる。
【0054】
(実施例)
本発明の特定の実施形態を、以下に提供する。
【0055】
患者が医者にかかり、医者がDNA分析を指示する。医者は、分析される配列に関する情報とともに、処方箋を会社Aに送る。
【0056】
会社Aは、患者のためにファイルを作成し、少なくとも識別のためのデータベースインデックス、および少なくとも公開/秘密暗号鍵のセットを患者に割り当てる。会社Aは、患者に少なくとも患者の個人的秘密鍵を提供する。会社Aは次いで、DNA合成装置によりその中にコード化されたメタデータ(MDD)を含むDNAタグを生成し、上記メタデータは、患者に結びつけられ、患者の生体試料を収集するよう意図されたサンプリング材料内に上記DNAタグを挿入する。
【0057】
DNAタグは、コンピューティングで使用されるバイナリコーディングのように、たとえば'00'='A'、'01'='T'、'01'='C'、'10'='G'のように、4つのヌクレオチド塩基を使用することによって、情報をコード化する。好ましくはDNAタグは、少なくとも、患者の識別情報、分析されるよう意図されたゲノムの配列(たとえば、少なくとも1つの遺伝子)の表示(データベースインデックス)および暗号の暗号化キー(cryptographic encryption key)(公開鍵)に関係する情報についてコード化する。DNAタグは、試料収集条件(たとえば、日付および場所)、試料の性質(たとえば、白血病の患者から採られた血液試料)、あるいは患者の医療記録に関係する情報をさらに含んでもよい。
【0058】
DNAタグを含むサンプリング材料は、次いで患者から生体試料の収集を担当する研究所Bに送られ、試料は、DNAタグを含む上記サンプリング材料に集められる。DNAタグは、このようにして患者からの試料を追って行き、その結果、処理全体をたどってそれの追跡可能性を確保する。生体試料およびDNAタグを含むサンプリング材料は、次いで配列を決定するために会社Aに送られる。
【0059】
サンプリング材料は、患者のゲノムに対応する生のテキストデータ(たとえば、「FASTQ」データ)を提供する会社AにおいてDNAシーケンサによって配列を決定される。「FASTQ」ファイルは、次いで、処理ユニットによって一定の長さのいくつかの「ブロック」に断片化される。処理ユニットはまた、どのブロックが研究所Cによって分析される少なくとも1つの配列を含むかを識別するために、DNAタグ内に含まれるインデックスを識別する。研究所Cは、研究所Bと同じまたは異なる研究所であることがある。処理ユニットは次いで、関心の少なくとも1つの配列以外の配列をすべて暗号化する。暗号化は、処理ユニットによってDNAタグ内で識別される暗号化キーを使用して行われる。
図2は、ブロックによる暗号化方法を表す。このステップは、リアルタイムで、たとえば、2要素認証インターフェース、スマートフォンアプリ、sms、電子メール、インターネットリンクなどにより、患者の事前同意に従っていてもよい。
【0060】
部分的に暗号化されたファイルは、次いで処理ユニットによって、ヒトゲノムの基準配列(たとえば、hg19)とアライメントされて、BAMファイル出力を取得し、それについて、暗号化されていない配列のみが、処理ユニットによって基準ゲノムとアライメントされる。
【0061】
部分的にアライメントされたBAMファイルは、次いで研究所Cに送信され、研究所Cは、関心の配列の病原性またはゲノム変異を分析するために、暗号化されていない配列にアクセスすることができる。したがって、研究所Cは、分析を行うために関心の少なくとも1つの配列にのみにアクセスでき、ゲノムの残りは暗号化されたままである。
【0062】
代替実施形態では、秘密鍵/公開鍵の第2のセットが提供され、上記第2の公開鍵は、DNAタグ内でコード化される。処理ユニットはその場合、関心の少なくとも1つの配列以外のすべての配列を第1の公開鍵で暗号化し、関心の配列を上記第2の公開鍵で暗号化する。したがって、サードパートに送信されるファイルは、全体的に暗号化され、転送中のハッキングからの保護を行い、上記サードパートは、関心の上記配列のみを解読することができるが、ゲノムの残りを解読することはできない。
【符号の説明】
【0063】
BAM バイナリアライメントマップ
DNA デオキシリボ核酸
HER 電子健康記録
HLA ヒト白血球抗原
QC 品質管理
MDD メタデータドキュメント
MID 多重識別子
NGS 次世代シーケンシング
PCR ポリメラーゼ連鎖反応
RNA リボ核酸
SNP 一塩基多型
SPU 記憶および処理ユニット
【国際調査報告】