(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-07
(45)【発行日】2022-03-15
(54)【発明の名称】疾病指向のゲノム匿名化
(51)【国際特許分類】
G16H 10/60 20180101AFI20220308BHJP
G16B 50/00 20190101ALI20220308BHJP
G06F 21/62 20130101ALI20220308BHJP
【FI】
G16H10/60
G16B50/00
G06F21/62 354
(21)【出願番号】P 2018565816
(86)(22)【出願日】2017-06-19
(86)【国際出願番号】 EP2017064863
(87)【国際公開番号】W WO2018001761
(87)【国際公開日】2018-01-04
【審査請求日】2020-06-19
(32)【優先日】2016-06-29
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】100122769
【氏名又は名称】笛田 秀仙
(74)【代理人】
【識別番号】100163809
【氏名又は名称】五十嵐 貴裕
(74)【代理人】
【識別番号】100145654
【氏名又は名称】矢ヶ部 喜行
(72)【発明者】
【氏名】プレテア ダニエル
(72)【発明者】
【氏名】ハルセン ティム
(72)【発明者】
【氏名】ファン デル リンデン ウィルヘルムス ペトルス マリア
(72)【発明者】
【氏名】ファン リースドンク ペーター
【審査官】関 博文
(56)【参考文献】
【文献】特開2012-073693(JP,A)
【文献】特開2014-191670(JP,A)
【文献】特開2002-215028(JP,A)
【文献】米国特許出願公開第2014/0236833(US,A1)
【文献】米国特許出願公開第2010/0063843(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
G16B 10/00-99/00
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
少なくとも1人の個人からの遺伝子データの匿名化のための
システムの作動方法であって、
前記システムは、データインタフェース及びプロセッサを有し、前記方法は、
前記データインタフェースにより、少なくとも1人の個人からの遺伝子データを提供するステップと、
前記プロセッサにより、調査されるべき疾病を選択するステップと、
前記プロセッサにより、前記調査されるべき疾病に直接に関連する遺伝子データの少なくとも1つのサブセットを決定するステップと、
前記プロセッサにより、前記調査されるべき疾病に直接には関連しない残りの遺伝子データを、前記調査されるべき疾病に直接に関連する遺伝子データに対する前記残りの遺伝子データの近接性に基づいて、1つ以上の層にグループ化された複数のサブセットへと分類するステップであって、前記近接性は好適には、前記遺伝子データに対応するゲノム経路ネットワークに基づいて確立されるステップと、
前記プロセッサにより、前記調査されるべき疾病に直接には関連しない遺伝子データのサブセットを含む前記1つ以上の層を匿名化するステップと、
を有する方法。
【請求項2】
前記プロセッサにより、前記調査されるべき疾病に関する遺伝子データを解析するステップを更に有する、請求項1に記載の方法。
【請求項3】
前記遺伝子データは、ヌクレオチド配列、増幅断片長多型(AFLP)、ランダム増幅多型DNA(PAPD)、制限酵素断片長多型(RFLP)、一塩基多型(SNP)、縦列型反復配列(STR)、可変反復配列(VNTR)、RNA、アミノ酸配列、ポリペプチド、タンパク質及び複製回数データから成る群から選択される、請求項1又は2に記載の方法。
【請求項4】
前記層の数は、2、3、4、5、6、7、8、9又は10である、請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記匿名化は、統計的匿名化、暗号化、セキュアマルチパーティ匿名化及びコンピュテーションから成る群から選択された少なくとも1つの手法を用いることにより実行される、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記統計的匿名化は、k-匿名性、l-多様性、t-近接性及びδ存在性から成る群から選択される、請求項5に記載の方法。
【請求項7】
前記暗号化は、同形暗号化、検索可能暗号化及び頑強性暗号化から成る群から選択される、請求項5に記載の方法。
【請求項8】
異なる前記層は、好適には前記調査されるべき疾病に直接に関連する遺伝子データのサブセットに対する、前記層のサブセットの距離に依存して、異なる手法により匿名化される、請求項1乃至7のいずれか一項に記載の方法。
【請求項9】
前記調査されるべき疾病に直接に関連する遺伝子データのサブセットは、前記調査されるべき疾病に直接に関連すると特定されたポリペプチドをコード化する遺伝子を定義する少なくとも1つのデータベースから選択される、請求項1乃至8のいずれか一項に記載の方法。
【請求項10】
遺伝子データの第1の層のサブセットの遺伝子データは、前記調査されるべき疾病に直接には関連しないが、前記遺伝子の1つと直接に相互作用することが既知であるポリペプチド、及び/又は前記調査されるべき疾病に直接に関連する遺伝子データの遺伝子の1つによりコード化されるポリペプチドをコード化する遺伝子の群から選択される、請求項1乃至9のいずれか一項に記載の方法。
【請求項11】
前記遺伝子のデータの第1の層のサブセットの少なくとも1つは、前記調査されるべき疾病に直接に関連すると決定された遺伝子データのサブセットに含められる、請求項10に記載の
方法。
【請求項12】
遺伝子データの所与のサブセットに対して直線上にある遺伝子データのサブセットは、前記調査されるべき疾病に直接に関連する遺伝子データに隣接する層に分類される、請求項11に記載の方法。
【請求項13】
コンピュータ上で実行されたときに、少なくとも1人の個人からの遺伝子データの匿名化のための方法の少なくとも1つのステップを前記コンピュータに実行させる命令を有する、遺伝子データを匿名化するためのコンピュータプログラム製品であって、前記方法は、
少なくとも1人の個人からの遺伝子データを提供するステップと、
調査されるべき疾病を選択するステップと、
前記調査されるべき疾病に直接に関連する遺伝子データの少なくとも1つのサブセットを決定するステップと、
前記調査されるべき疾病に直接には関連しない残りの遺伝子データを、前記調査されるべき疾病に直接に関連する遺伝子データに対する前記残りの遺伝子データの近接性に基づいて、1つ以上の層にグループ化された複数のサブセットへと分類するステップであって、前記近接性は好適には、前記遺伝子データに対応するゲノム経路ネットワークに基づいて確立されるステップと、
前記調査されるべき疾病に直接には関連しない遺伝子データのサブセットを含む前記1つ以上の層を匿名化するステップと、
を有する、コンピュータプログラム製品。
【請求項14】
遺伝子データを匿名化するためのシステムであって、前記システムは、
少なくとも1人の個人の遺伝子データを受信するよう構成されたデータインタフェースと、
調査されるべき疾病を選択するため、ユーザ入力装置からユーザ入力命令を受信するよう構成されたユーザ入力インタフェースと、
プロセッサと、
を有し、前記プロセッサは、
調査されるべき疾病を選択し、
前記調査されるべき疾病に直接に関連する、前記少なくとも1人の個人の遺伝子データからの遺伝子データのサブセットを決定し、
前記調査されるべき疾病に直接には関連しない前記遺伝子データのサブセットを、当該サブセットの、前記調査されるべき疾病に直接に関連する前記遺伝子データとの距離に基づいて、種々の層へと分類する
よう構成され、前記距離は好適には、前記遺伝子データに対応するゲノム経路ネットワークに基づいて確立され、前記プロセッサは更に、
前記調査されるべき疾病に直接には関連しない層、又は前記調査されるべき疾病に直接には関連しない層に存在する遺伝子データを匿名化する
よう構成された、システム。
【請求項15】
請求項1乃至12のいずれか一項に記載の方法、請求項13に記載のコンピュータプログラム製品、及び/又は請求項14に記載のシステムの、ゲノミクス、遺伝学、バイオインフォマティクス研究、転写学、プロテオミクス、システム生物学又は診断における使用。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遺伝子データの解析に関する。更に詳細には、本発明は、特定の疾病又は疾患に関する遺伝子データの解析に関する。
【背景技術】
【0002】
今日、患者の医療及び健康記録は臨床的なバイオインフォマティクス研究のため集められ利用されている。臨床データの他に、患者の画像データ又はバイオバンクデータ、更には患者の遺伝子データが集められ、遺伝子データの解析は、医療研究及び診断及び既往歴において大きな役割を果たしている。例えば、患者の遺伝子データは、種々の疾病に対する処置の発見又は改善のために解析される。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、患者の遺伝子データの解析は、例えば患者のプライバシーが侵害されるという、患者の遺伝子データを共有する患者に対する驚異をもたらし得る。該侵害は、人物のゲノムが、目の色や皮膚の色に関するものといったデータを含むという事実による。これらの遺伝子データは、人物のゲノムに含まれる他のデータとあわせて、遺伝子データを解析することにより該人物の特定に導き得る。個人のプライバシーを保護するため、医療バイオインフォマティクス研究及び解析のために遺伝子データが提供されるときには、人物のゲノムの特定の部分は匿名化される必要がある。
【0004】
バイオインフォマティクス研究におけるゲノムの匿名化のための既存の方法の幾つかは、研究されるべき疾病を考慮することなく、ゲノム全体を匿名化することを試みるものである。匿名化は情報の損失を意味するため、これら既存の方法は、研究されるべき疾病に直接関連する遺伝子に関する情報の損失にも導き、このことは望ましいものではない。
【0005】
ゲノムの匿名化のための他の方法は、本発明により対象とされるものとは異なるタイプの攻撃モデルである、法医学的な内容を考慮する。
【0006】
更に、遺伝子解析がより広く適用される場合、患者の同意が、該患者の遺伝子情報の収集を、柔軟な匿名化方法なしで、遺伝子のサブセットにのみ制限する。該遺伝子のサブセットは、後に、調査の間に、過度に制限されたものであることが分かり、関連する遺伝子が解析に有用である。遺伝子が疾病に関連するために人物が該関連する遺伝子の使用に同意を与え得る場合であっても、該遺伝子は既にその前のプライバシーに関する事項によりデータセットから失われている。
【0007】
更に、患者の遺伝子情報の幾分かを隠すとともに、匿名化手法は更に、疾病に関連する遺伝子のセットが変更される必要がある場合、特に疾病に関連する遺伝子のセットが拡大される必要がある場合を発見することを可能とするべきである。
【0008】
米国特許出願公開US2014/0236833A1は、個人の遺伝子アイデンティティに基づいて
個人と第三者との間のトランザクションを確立するための方法であって、該個人が、トランザクションの提供及び確立のために必要とされる遺伝子アイデンティティのサブセットのみしか第三者がアクセス及び解析することができないようにする方法を開示している。
【0009】
米国特許出願公開US2010/0063843A1は、繊細な個人情報にデータマスクが適用され、当該情報のマスクされていない部分は、製品、サービス及び消費者向けのサービス提供者の選択において利用されることができる、マスクされたデータ記録アクセスのためのコンピュータベースの方法及びシステムを開示している。
【課題を解決するための手段】
【0010】
以上に説明された問題に対処するため、関連する遺伝子データが、調査されるべき疾病に関連する遺伝子と、どれだけ密接に関連するかに基づいて、1人以上の個人のゲノムの遺伝子データが種々の層に分離される、方法が提案される。この関係は、ゲノムの経路ネットワークに基づいて確立される。調査されるべき疾病に直接に関連する遺伝子データ以外の遺伝子データの層を匿名化するため、種々の匿名化手法が次いで利用される。利用される匿名化手法は、推定される適合度に基づいて、遺伝子データの各層について選択される。調査されるべき疾病に直接に関連する遺伝子データは、匿名化されないままであり、解析のために利用されることができる。
【図面の簡単な説明】
【0011】
【
図1】疾病指向の匿名化のための遺伝子データの層化の模式的な図を表す。
【
図3】層化された疾病指向の匿名化の方法の実施例のステップを示すフロー図である。
【
図4】遺伝子データを匿名化するための方法を実装するためのコンピュータ実行可能なコードを保存するためのコンピュータ読み取り可能な媒体の例を示す。
【
図5】遺伝子データを匿名化するよう構成されたシステムの実施例を示す。
【発明を実施するための形態】
【0012】
第1の態様においては、本発明は、遺伝子データを匿名化するための方法を提供する。
【0013】
第2の態様においては、本発明は、遺伝子データの匿名化を提供するコンピュータプログラム製品を提供する。
【0014】
第3の態様においては、本発明は、遺伝子データを匿名化するためのシステムを提供する。
【0015】
第4の態様においては、本発明は、バイオインフォマティクス研究及び/又は診断のための該方法及び/又は該コンピュータプログラム製品の使用を提供する。
【0016】
本発明は、特定の実施例に関連して、及び図面を参照しながら説明されるが、本発明はこれらに限定されるものではなく、請求項に限定されるものである。記載される図面は、単に模式的なものであって、限定するものではない。図面において、説明の目的のため、要素の幾つかのサイズは誇張され、定縮尺で描かれていない場合がある。
【0017】
第1の態様によれば、本発明は、特定の疾病に関する少なくとも1人の個人からの遺伝子データの匿名化のための方法を提供する。遺伝子データの匿名化のための前記方法は、
少なくとも1人の個人からの遺伝子データを提供するステップと、
調査されるべき疾病を選択するステップと、
前記調査されるべき疾病に直接に関連する、前記少なくとも1人の個人の遺伝子データからの遺伝子データのサブセットを決定するステップと、
前記調査されるべき疾病に直接には関連しない前記遺伝子データのサブセットを、当該サブセットの、前記調査されるべき疾病に直接に関連する前記遺伝子データとの距離に基づいて、種々の層へと分類するステップと、
前記調査されるべき疾病に直接には関連しない層、又は前記調査されるべき疾病に直接には関連しない層に存在する遺伝子データを匿名化するステップと、
を有する。
該方法においては、少なくとも1人の個人からの遺伝子データが利用される。「遺伝子データ」なる用語は、いずれの種類の遺伝子情報をも指す。「遺伝子データ」なる用語は、該個人のゲノム又は該個人のゲノムの一部のヌクレオチド配列を含む。「遺伝子データ」はまた、例えば増幅断片長多型(AFLP)、ランダム増幅多型DNA(PAPD)、制限酵素断片長多型(RFLP)、一塩基多型(SNP)、縦列型反復配列(STR)及び可変反復配列(VNTR)といった、遺伝子マーカの存在又は不在についての情報のような、ヌクレオチド配列自体以外の遺伝子情報を含む。「遺伝子データ」なる用語はまた、RNA及びタンパク質に関連する情報を有する。従って、「遺伝子データ」なる用語は、核酸分子及び/又はタンパク質のヌクレオチド配列、アミノ酸配列、構造、活性、存在量及び/又は機能に関する情報を有する。更に、「遺伝子データ」は、遺伝子又はその他のヌクレオチド配列部分の複製回数についてのデータのような、複製回数データを有する。
【0018】
「個人」なる用語は、人間の対象を示す。該人間の対象は、調査されるべき疾病に影響を受けて/罹患していても良いし又はそうでなくても良い。それ故、「個人」、「人物」及び「患者」なる用語は、都度同義に用いられる。
【0019】
「遺伝子データを提供する」との表現は、少なくとも1人の個人の遺伝子データが、取得される必要があることと理解される。しかしながら、少なくとも1人の個人の遺伝子データは、該方法に直接関連して、又は該方法を実行するために、取得される必要はない。典型的には、少なくとも1人の個人の遺伝子データは、以前の時点に取得され、適切な電子記憶装置及び/又はデータベースに電子的に保存されている。該方法を実行するため、遺伝子データは、該記憶装置又はデータベースから取得されて利用されても良い。
【0020】
「調査されるべき疾病を選択する」との表現は、該方法が、いずれかの疾病、疾患又は医学的な状況を調査又は解析するために利用されることができることを示す。それ故、特定の疾病、疾患又は医学的な状況は、該疾病、疾患又は医学的な状況に直接に関連する遺伝子データのサブセット、及び該疾病、疾患又は医学的な状況に直接には関連しない遺伝子データを後に決定するために、選択又は定義される必要がある。
【0021】
遺伝子データのサブセットと調査されるべき疾病との関係について、「直接に関連する」なる用語は、該疾病を引き起こす遺伝子座及び/又は遺伝子を示すか、又は該疾病を引き起こす遺伝子座及び/又は遺伝子と直線上にあることを意味する。遺伝子座及び/又は遺伝子は、オープンリーディングフレームの上流又は下流に、タンパク質コード領域及びタンパク質非コード領域を有する。該遺伝子座及び/又は遺伝子はまた、調査されるべき疾病を引き起こす遺伝子の発現を調整することに直接に関わるものを有する。それ故、「直接に関連する」とは、調査されるべき疾病を引き起こすタンパク質又はポリペプチドをコード化する遺伝子のタンパク質コード領域、及び、該疾病を引き起こすタンパク質又はポリペプチドをコード化する遺伝子の発現を調節することに直接に関わる要素の、構造的特徴を含む。
【0022】
「層」なる用語は、調査されるべき疾病に直接は関連しない遺伝子データのサブグループを示す。1つの層は、遺伝子データの複数のサブセットを有しても良い。例えば、或る層は、直接に疾病に関連するコア遺伝子のいずれかに同じ距離を持つ遺伝子のサブセットであり、2つの異なる層は、2つの異なる斯かる距離を持つ。各層は、匿名化方法を割り当てられ、複数の層が、同じ匿名化方法を割り当てられても良い。
【0023】
一実施例においては、遺伝子データの匿名化のための方法は、バイオインフォマティクス手段によって、即ち、数学的及び統計学的手法を用いた生物学的なクエリのコンピュータでの解析における使用のためのソフトウェアツールを用いて、特定の疾病に対する適合度に関して生物学的データを解析及び解釈することによって、該特定の疾病を調査することを意図される。該実施例は典型的には、複数の個人の遺伝子情報の利用を必要とする。
【0024】
遺伝子データの匿名化のための方法の他の実施例においては、該方法は、診断における使用を意図され、個人の遺伝子情報は、該個人の特定の疾病又は疾患の遺伝的な性質及び/又は出現について解析される。
【0025】
該方法は、いずれの疾病、疾患又は医学的な状況にも適用され得る。調査されるべき疾病は、意図的に選択された特定の疾病である。一実施例においては、調査されるべき疾病は、特定の遺伝子型に関連する疾病であることが既知である。斯かる疾病の例は、癌、免疫系疾患、神経系疾患、心臓血管疾患、呼吸器疾患、内分泌及び代謝疾患、消化疾患、泌尿器系疾患、生殖器系疾患、筋骨格系疾患、皮膚疾患、代謝の先天的異常、及び前立腺癌、糖尿病、代謝異常又は精神疾患のような他の先天的異常である。
【0026】
該方法においては、前記少なくとも1人の個人の遺伝子データは、調査されるべき疾病に対する該遺伝子データの関係に基づいて、遺伝子情報のサブセット又は層にグループ化される。斯くして、調査されるべき疾病に直接に関連することが既知である遺伝子データは(コア疾病遺伝子)は、匿名化されないサブセットにグループ化される。
【0027】
調査されるべき疾病に直接に関連する「遺伝子データ」は、調査されるべき疾病に関連する遺伝子、マーカ、RNA及びタンパク質を有し、好適には、該遺伝子データの対象の配列、構造、活性、量及び/又は機能が、調査されるべき疾病を引き起こすか、又は調査されるべき疾病の直接の結果である。遺伝子データは、タンパク質コード領域内及び/又はタンパク質コード領域の外の、1つ以上の遺伝子のヌクレオチド配列に関連し得る。遺伝子データは、調節遺伝子にも関連し得る。調査されるべき疾病に直接に関連する遺伝子データは、「コア」と示され得るサブグループに入れられる。
【0028】
調査されるべき疾病に直接は関連しない遺伝子データは、少なくとも1つのサブセット又は層にグループ化される。理論的には、層の数は、x-1まで多くでも良く、xは所与のゲノムにおける遺伝子の数を表す。好適には、調査されるべき疾病に直接は関連しない遺伝子データは、該遺伝子データのコア疾病遺伝子の1つ以上からの距離の度合いに基づいて、2つ以上の層のうちの1つにグループ化され、ここで最も近い距離は、遺伝子データのサブセットが異なるコア疾病遺伝子に対して異なる距離を持つ場合に選択される。一実施例においては、サブセット又は層の数は、10以下であり、好適には、サブセット/層の数は、2、3、4、5、6、7、8、9又は10である。それ故、層の数が1である実施例においては、遺伝子データは、直接に疾病に関連するデータと、直接には疾病に関連しないデータ又は疾病に関連しないデータに分けられる。層の数が2である代替の実施例においては、遺伝子データは、直接に疾病に関連するデータと、直接には疾病に関連しないデータの幾つかのサブセットと、に分けられる。
【0029】
遺伝子データのサブセットの、調査されるべき疾病に対する関係、及び/又は調査されるべき疾病に直接に関連する遺伝子データのサブセットに対する相対距離を決定するため、ゲノム経路ネットワークが利用される。
【0030】
ゲノム経路ネットワークは、例えば前立腺癌(http://www.genome.jp/dbget-bin/www_bget?pathway:map05215)、2型糖尿病(http://www.genome.jp/dbget-bin/www_bget?pathway:map04930)又はパーキンソン病(http://www.genome.jp/dbget-bin/www_bget?pathway:map05012)のような特定の疾病について、インターネット上のデータベースを介して利用可能及びアクセス可能であり、確立されることができる。
【0031】
更なる実施例及び/又は代替の実施例においては、ゲノム経路ネットワークは、特定の疾患に関して確立されない。斯かる包括的なゲノム経路ネットワークデータベースの例は、「Reactome open-source curated and peer reviewed pathway database」(www.reactome.org)、「BioCyc Database Collection of Pathway/Genome Databases 」(www.biocyc.org)、「the Pathway Commons pathway information database」 (www.pathwaycommons.org)及び「the Gene Ontology Consortium」のデータベース (www.geneontology.org)である。
【0032】
更なる実施例及び/又は代替の実施例においては、STRINGデータベース(https://www.string-db.org)が利用される。STRINGは、既知の及び予測されるタンパク質間相互作用のデータベースである。該相互作用は、直接的な(物理的な)関連及び間接的な(機能的な)関連を含み、計算的な予測、組織間の知識の伝達、及び他の(一次的な)データベースから収集された相互作用に起因する。STRINGデータベースにおける相互作用は、遺伝的なコンテキスト予測、高性能検査実験、遺伝子の(保存)共発現、自動化されたテキストマイニング、及びデータベース中の以前の知識から導出される。STRINGデータベースは、2016年6月末時点で、2031の組織からの9643763個のタンパク質をカバーしている。STRINGデータベースは、Swiss Institute of Bioinformatics、the CPR-NNF Center for Protein Research及びthe European Molecular Biology Laboratoryを含むSTRINGコンソーシアムにより運営されている。
【0033】
調査されるべき疾病に直接に関連する、コア層に存在する遺伝子データは、匿名化されず、それ故制約なしで解析のために利用可能となる。
【0034】
調査されるべき疾病に直接は関連しない遺伝子データ及び/又は遺伝子データの層は、統計的匿名化、暗号化、セキュアマルチパーティ匿名化及びコンピュテーションから成る群から選択された手法を用いることにより、匿名化される。
【0035】
これらの匿名化手法は、データに対する解析を可能とするが、当該解析は、その特性のために制約される。統計的匿名化は、情報の損失を伴うが、人間が読むことができる形に情報の残りを保つ。このことは、データに対する解析が実行されることを可能とするが、結果は当初からの情報の損失のために制限を受ける。暗号化手法は、情報を失わないが、当該情報は利用可能ではない。しかしながら、暗号化情報が研究に必要であるという何らかの示唆があれば、プライバシーオフィサーが、当該セットを復号化することによりコア疾病情報を拡張することが可能である。
【0036】
暗号化されたデータに対する同形暗号化、マルチパーティコンピュテーション及び/又はその他の動作が、暗号化された層にコア疾病セットを結合するために利用される、中間的な方法も存在する。これらの状況においては、プライバシーが問題となる情報は秘密のままとなり、これらの動作の結果が、プライバシーオフィサーにより開示されることができる。これらの手法は、解析に待ち時間をもたらし、それ故データに対して実行され得る可能な解析を制限する。
【0037】
一実施例においては、統計的匿名化は、k-匿名性、l-多様性、t-近接性及びδ存在性から成る群から選択される。
【0038】
k-匿名性は、L. Sweeneyにより生成されたプライバシーの形式化モデルである。最終目的は、データを特定するための試みが為された場合、各記録を、定義された数(k)の他の記録から区別できなくすることである。属性の所与のセットを持つ任意のデータ記録について、これらの属性に合致する少なくともk-1個の他の記録がある場合、データのセットがk-匿名化される(J. Sedayaoによる「Enhancing Cloud Security Using Data Anonymization,」(2012年6月 [Online]、 http://www.intel.nl/content/dam/www/public/us/en/documents/best-practices/enhancing-cloud-security-using-data-anonymization.pdf(2015年1月26日にアクセス))、及びL. Sweeneyによる「K-anonymity: A Model for Protecting Privacy」(Int. J. Uncertain. Fuzziness Knowl.-Based Syst.、vol. 10、no. 5、557-570頁、2002年)。kの典型的な値は3である(M. Templ、B. Meindl、A. Kowarik及びS. Chen,による「Introduction to Statistical Disclosure Control (SDC)」(2014年8月[Online].、http://www.ihsn.org/HOME/sites/default/ files/resources/ihsn-working-paper-007-Oct27.pdf(2015年1月26日にアクセス))。l-多様性は、k-匿名性が提供するものを超えて匿名化を改善する。これら2つの間の差は、k-匿名性が、準識別子の各組み合わせがk個のエントリを持つことを必要とするのに対し、l-多様性は、準識別子の各組み合わせについてl個の異なる感度値があることを必要とする点である(J. Sedayaoによる「Enhancing Cloud Security Using Data Anonymization」(2012年6月 [Online]、http://www.intel.nl/content/dam/www/ public /us/en/documents/best-practices/enhancing-cloud-security-using-data-anonymization.pdf.(2015年1月26日にアクセス))。
【0039】
t-近接性は、表全体において属性の分布にいずれかの等価クラスにおける感度属性の分布が近い(即ち2つの分布間の距離が閾値T以下である)ことを必要とする(N. Li、T. Li及びS. Venkatasubramanianによる「t-Closeness: Privacy Beyond k-Anonymity and l-Diversity」(Data Engineering、2007年、ICDE 2007、IEEE 23rd International Conference on 2007)。l-多様性の要件は、各グループにおいて感度値の「多様性」を確実にするが、これらの値の意味的な近接性を考慮に入れない。このことはt-近接性により為される。
【0040】
δ-存在性は、プライバシーの既知データの生成に基づいて表における個人を特定するリスクを評価するための基準である。δ-存在性は、個人を知ることがデータベースにおいてプライバシーのリスクとなるようなデータベースについて好適な基準である(M. E. Nergiz、M. Atzori及びC. Cliftonによる「Hiding the Presence of Individuals from Shared Databases」(Proceedings of the 2007 ACM SIGMOD International Conference on Management of Data、Beijing、中国、2007年)。
【0041】
「検索可能暗号化」、「同形暗号化」及び「セキュアマルチパーティコンピュテーション」といった暗号化手法は、暗号化されたデータの復号化が、実際には必須ではなく、暗号化されたドメインにおけるデータ処理を実行することが可能であるという利点を持つ。これらの手法の間の相違は、トレードオフの選択である。検索可能暗号化は、単純なキーワード照合に処理を制限する。完全同形暗号化は、いずれの種類の処理も実行できるが、非常に大きな暗号文サイズを持ち、計算量が非常に多い。マルチパーティコンピュテーションは、スケールが好適だが、処理を実行するために非共同コンピュータがともに動作することを必要とする。
【0042】
更なる及び/又は代替の実施例においては、調査されるべき疾病に直接は関連しない遺伝子データ及び/又は遺伝子データの層は、好適には同形暗号化、検索可能暗号化及び頑強性暗号化から成る群から選択された、暗号化により匿名化される。
【0043】
遺伝子除去と比べて、頑強性暗号化は、データが失われず、特定のゲノムの方向においてより多くのデータの存在を統計家が気づくことができるという利点を持つ。更に、特定のゲノムがコア疾病遺伝子としてカテゴライズされるべきであったことに気づいた場合、ゲノムの新たな層化が生成されることができ、コア疾病遺伝子の新たなセットに従ってゲノムが再匿名化されることができる。
【0044】
更なる及び/又は代替の実施例においては、匿名化は、コア疾病に近い遺伝子データを含む層が、あまり情報を失わず従って依然として幾分かの解析を可能とする手法を用いて匿名化される点において、コアに対する層内の遺伝子データの近接性を考慮する。
【0045】
更なる及び/又は代替の実施例においては、異なる層は、好適には調査されるべき疾病に直接に関連する遺伝子データのサブセットに対する、層のサブセットの距離に依存して、異なる手法により匿名化される。異なる層を異なる手法により匿名化することは、遺伝子データを意図せず復号化することがより困難になるため、データの安全性を改善する。
【0046】
ここで開示される方法により匿名化される遺伝子情報の特性は検出可能であり、その理由は、少なくとも1つのサブセット(コア層)が人間によって読むことができるからである。統計的に匿名化されたデータである遺伝子データのサブセットは、人間により読むことができる。加えて、統計的に匿名化されたデータは、データが2-匿名性のような特性を持つことを確認するツールを用いることにより、検出されることができる。一実施例においては、該ツールは、ARX-Anonymization Tool、UTD Anonymization Toolbox、μ-Argus、R-Package sdcMicro、Cornell Anonymization Toolkit、PARAT、CATS de-identification platform, IRI FieldShield、Gedis Studio Anonymization、SAFELINK、ANU Data Mining Group、Data Swapping Toolkit、Rubyデータ匿名化ツール及びReversible log匿名化ツールから成る群から選択される。
【0047】
ARX Data Anonymization Tool(http://arx.deidentifier.org/ anonymization-tool/)は、データがCSV形式である場合には異ならない、出力と入力とを比較することにより、データが適切に匿名化されているか否かをチェックするために用いられることができる。UTD Anonymization Toolbox(http://cs.utdallas.edu/dspl/cgi-bin/toolbox/index.php)は、k-匿名性、l-多様性、t-近接性の匿名化モデルをカバーする。このツールは、ARX Data Anonymization Toolと同様に用いられることができる。
【0048】
μ-Argus(Anti-Re-Identification General Utility System)は、Statistics Netherlands(http://neon.vb.cbs.nl/casc/Software/MuManual4.2.pdf)において開発されたソフトウェアパッケージである。当該ソフトウェアパッケージは、リスク手法、ポストランダム化(PRAM)、数値的ミクロアグリゲーション、ランクスワッピングを提供する。コードは、http://neon.vb.cbs.nl/casc/mu.htmにおいて利用可能である。
【0049】
R-Package sdcMicroは、Rパッケージツールである。該ツールは、匿名化されたマイクロデータの生成のために用いられることができる。該ツールは、http://cran.r-project.org/web/packages/sdcMicro/からダウンロードされることができる。は、カテゴリ別の変数及び連続的な変数の両方の匿名化のための略全ての普及している方法を含む。該ツールは、GPLライセンスを利用している。
【0050】
Cornell Anonymization Toolkit(CAT)(http://sourceforge.net/projects/anony-toolkit/)は、l-多様性及びt-近接性の2つのプライバシー基準を実装する。特定のプライバシー基準に対して、データ一般化、データスワッピング、データ擾乱等のような、当該基準を達成するための幾つかの匿名化戦略がある。CATは現在、データ一般化機構のみをサポートしている。
【0051】
PARAT(http://www.privacyanalytics.ca/software/)は、健康データに焦点を当てた統合された非特定化及びマスキングソフトウェアである。PARATは商用的に利用可能である。PARATは、構造化データ及び非構造化データに対処することができ、直接識別子、準識別子のような、種々のタイプの変数についてのマスキング、非特定化といった、種々の保護方法を利用している。
【0052】
CATS(Custodix Anonymisation Services)非特定化プラットフォーム(https://www.custodix.com/ index.php/cats)は、データの非特定化のためのサービス指向のプラットフォームである。CATSは、包括的で拡張可能な態様で種々のタイプのデータ(CSV、XML、HL7、DICOM)の匿名化をサポートする。該プラットフォームは、自動化されたデータフローに組み込まれても良いし、又は手動の非特定化のために用いられても良い。
【0053】
IRI FieldShield(http://www.iri.com/solutions/data-masking/de-identification/anonymize)は、非特定化、エンコード、暗号化、データマスキング、ランダム化及び仮名化のための機能を提供する。
【0054】
Gedis Studio Anonymization(http://www.gedis-studio.com/ anonymization.html)は、データの暗号化及びスクランブル化のみならず、データマスキングを用いた匿名化を提供する。データマスキングは、データ分散を考慮に入れながら実行されることができる。
【0055】
SAFELINK(https://www.uni-due.de/soziologie/schnell_forschung_safelink_ software.php)は、暗号ハッシュ(鍵付きHMAC)を用いるプライバシー保存記録リンク手順の規定及び実装である。
【0056】
ANU Data Mining Group(http://datamining.anu.edu.au/ projects/linkage.html)は、一方向ハッシュ及び/又は暗号化に基づいて、目隠し型記録リンクのための手法を開発することを目的としている。
【0057】
Data Swapping Toolkitは、http://www.niss.org/sites/default/files/dstk-afk.pdfで見つけることができる。
【0058】
Rubyデータ匿名化ツール(https://www.ruby-toolbox.com/projects/ data-anonymization)は、直接識別子の除去に対処するためホワイトリスト及びブラックリスト概念を利用している。コードは、https://github.com/sunitparekh/data-anonymizationで見つけることができる。
【0059】
Reversibleログ匿名化ツール(http://blog.cassidiancyber-security.com/post/2014/01/Reversible-log-anonymization-tool)は、ルックアップテーブルを生成しつつ、匿名化された値を持つ顧客のログにおける感度フィールドを交換するため設計されたツールである。更なる実施例及び/又は代替の実施例においては、暗号化されたデータのサブセットは、暗号文における比較を可能として、それ故調査されるべき疾病の解析において用いられることができる情報の公開を可能とする。暗号化されたデータの解析は、
-データベースデータ取得解析を介して(データベースからの暗号化されたデータが選択され、該暗号化されたに対する動作を実行するシステムの他の部分において局所的に利用される)、及び/又は
-局所的なものとは異なるマシン上で実行されたマルチパーティコンピュテーションを公開するトラフィック解析を介して、
検出されることができる。
【0060】
該方法は、柔軟な匿名化のため有利である。該方法は、遺伝子データの非匿名化及び再匿名化を可能とする。研究の進行に基づいて、以前に匿名化された遺伝子データが、最初の匿名化を実行したものと同じ処理及びエンティティによって、又は第三者によって、回復され新たに分類されることができる。
【0061】
代替の実施例及び/又は更なる実施例においては、該方法は更に、調査されるべき疾病に直接に関連する遺伝子データを解析することを有する。典型的には、調査されるべき疾病に関する遺伝子データの解析は、遺伝子データを匿名化するエンティティとは別のエンティティにより実行される必要がある。
【0062】
図1を参照すると、層化された疾病指向の遺伝子データの匿名化が示されている。本実施例においては、遺伝子データは遺伝子とみなされる。各遺伝子は、丸によって表されている。調査されるべき疾病に直接に関連する遺伝子は、コア遺伝子(1、2、3)であり、コア(100)に表されている。これらのコア遺伝子は、黒丸として示されている。調査されるべき疾病に直接は関連しない遺伝子を含む、3つの層(200、300、400)が提供されている。調査されるべき疾病に直接は関連しない遺伝子は、白丸として示されている。遺伝子11及び12は、それぞれの遺伝子を表す丸の間の実勢により示された、コア遺伝子1への直線上にある。遺伝子11及び12は、コア遺伝子に対して最も近いが、調査されるべき疾病に直接は関連しない遺伝子を含む、層1(200)にグループ化されている。遺伝子111及び112は、遺伝子11への直線上にあるが、コア遺伝子1とはそれほど近くは関連していない。それ故、遺伝子111及び112は、コア遺伝子に対する直線上の遺伝子よりもコア遺伝子とは遠く関連している遺伝子を含む、層2に入れられている。層200、300、400及びこれら層に含まれる遺伝子は匿名化され、コア100及びコア疾病遺伝子1、2、3は匿名化されない。
【0063】
図2は、調査されるべき疾病に直接に関連するコア遺伝子として遺伝子21を含めるための、非匿名化及び再匿名化の後の、
図1に示される層化された疾病指向の匿名化を示す。
図1に示されるように、遺伝子21は最初に、コア遺伝子2に対して直線上にある遺伝子であるが、調査されるべき疾病に直接に関連するものではないとみなされる。遺伝子21が、研究及び開発における進行により、調査されるべき疾病に直接に関連すると理解されるであろう場合には、
図2に示されるようにコア1に含められる。加えて、遺伝子21に対して直線上にある遺伝子211もまた、コアに隣接する層に移動させられ、即ち層300から層200に移動し、ここで層200、300、400及びこれら層に含まれる遺伝子は匿名化されるが、コア疾病遺伝子1、2、3、21は匿名化されない。それ故、所与の遺伝子に対して直線上にある任意の遺伝子、即ち他の遺伝子と直接に相互作用する遺伝子によりコード化される遺伝子若しくはポリペプチド、又は該他の遺伝子によりコード化されるポリペプチドは、該所与の遺伝子がコア疾病遺伝子であると決定された場合、コアに隣接する1つの層である層に分類される。コアに隣接する1つの層である層への、該所与の遺伝子と直線上にある該他の遺伝子の分類は、遺伝子及び/又は該遺伝子によりエンコードされるポリペプチドの直接の相互作用によって起きる。
【0064】
図3は、遺伝子データの疾病指向の匿名化のための方法の実施例を示す模式的なフロー図を表し、ステップ500は、1人以上の個人の遺伝子データの収集及び保存を表す。ステップ510において、調査されるべき疾病が選択される。次いで、ステップ520において、コア疾病遺伝子が決定され、ゲノム経路ネットワーク及び遺伝子のコア疾病遺伝子に対する近接性に基づいて、遺伝子が種々の層に分類される。ステップ540において、コア層以外の層に存在する遺伝子データが匿名化される。
【0065】
第2の態様によれば、本発明は、遺伝子データを匿名化するためのコンピュータプログラム製品を提供する。該コンピュータプログラム製品は、コンピュータ上で実行されたときに、少なくとも1人の個人からの遺伝子データの匿名化のための方法の少なくとも1つのステップを前記コンピュータに実行させる命令を有し、前記方法は、
少なくとも1人の個人からの遺伝子データを提供するステップと、
調査されるべき疾病を選択するステップと、
前記調査されるべき疾病に直接に関連する遺伝子データの少なくとも1つのサブセットを決定するステップと、
前記調査されるべき疾病に直接には関連しない残りの遺伝子データを、前記調査されるべき疾病に直接に関連する遺伝子データに対する前記残りの遺伝子データの近接性に基づいて、1つ以上の層にグループ化された複数のサブセットへと分類するステップであって、前記近接性は好適には、前記遺伝子データに対応するゲノム経路ネットワークに基づいて確立されるステップと、
前記調査されるべき疾病に直接には関連しない遺伝子データのサブセットを含む前記1つ以上の層を匿名化するステップと、
を有する。
【0066】
一実施例においては、該コンピュータプログラム製品は、実行されたときに、調査されるべき疾病に直接には関連しない遺伝子データのサブセットを含む1つ以上の層を匿名化する命令を有する。本発明の第1の態様に関して以上に説明されたように、該1つ以上の層の匿名化は、統計的匿名化、暗号化、セキュアマルチパーティ匿名化及びコンピュテーションから成る群から選択された少なくとも1つの手法を用いることにより実行される。
【0067】
更なる及び/又は代替の実施例においては、該コンピュータプログラム製品は、実行されたときに、調査されるべき疾病に直接には関連しない残りの遺伝子データを、1つ以上のサブセット及び1つ以上の層に、調査されるべき疾病に直接に関連する遺伝子データに対するこれらサブセットの近接性に基づいて、分類する命令を有する。
【0068】
更なる及び/又は代替の実施例においては、該コンピュータプログラム製品は、実行されたときに、調査されるべき疾病に直接に関連する遺伝子データの少なくとも1つのサブセットを決定する命令を有する。
【0069】
一実施例においては、
図3に示された方法は、コンピュータ実装された方法、専用のハードウェア、又は双方の組み合わせとして、コンピュータ上で実装されても良い。
図4に示されるように、例えば実行可能なコードのような、コンピュータのための命令が、例えば一連の機械読み取り可能なマーク480の形で、及び/又は例えば磁気又はこう学的な特性又は値のような異なる電気的特性又は値を持つ一連の要素として、コンピュータ読み取り可能な媒体470に保存されても良い。実行可能なコードは、持続的な態様又は非持続的な態様で保存されても良い。コンピュータ読み取り可能な媒体の例は、メモリ装置、光記憶装置、集積回路、サーバ、オンラインソフトウェア等を含む。
図4は、光ディスク470を示す。
【0070】
本発明は、コンピュータプログラム、特に本発明を実行するように構成された、担体上又は担体中のコンピュータプログラムにも適用されることは、理解されるであろう。該プログラムは、ソースコード、オブジェクトコード、部分的にコンパイルされた形態のようなコード中間ソース及びオブジェクトコード、又は本発明による方法の実装における使用に適した他のいずれかの形態であっても良い。斯かるプログラムは、多くの異なる構造的な設計を持ち得ることも理解されるであろう。例えば、本発明による方法又はシステムの機能を実装するプログラムコードは、1つ以上のサブルーチンに分割されても良い。これらサブルーチンに機能を分散させる多くの方法が、当業者には明らかであろう。これらサブルーチンは、1つの実行可能ファイルに合わせて保存され、内蔵型プログラムを形成しても良い。斯かる実行可能ファイルは、例えばプロセッサ命令及び/又はインタプリタ命令(例えばJava(登録商標)インタプリタ命令)のような、コンピュータ実行可能な命令を有しても良い。代替として、これらサブルーチンの1つ以上又は全てが、少なくとも1つの外部のライブラリファイルに保存され、例えば実行時に、静的又は動的にメインプログラムとリンクされても良い。メインプログラムは、これらサブルーチンの少なくとも1つに対する少なくとも1つの呼び出しを含む。また、これらサブルーチンは、互いに対する関数呼び出しを有しても良い。コンピュータプログラムに関連する実施例は、開示された方法の少なくとも1つの処理ステップの各々に対応するコンピュータ実行可能な命令を有する。これら命令はサブルーチンに分割されても良く、及び/又は静的又は動的にリンクされ得る1つ以上のファイルに保存されても良い。コンピュータプログラムに関連する他の実施例は、開示されたシステム及び/又はコンピュータプログラムの少なくとも1つの手段の各々に対応するコンピュータ実行可能な命令を有する。これら命令はサブルーチンに分割されても良く、及び/又は静的又は動的にリンクされ得る1つ以上のファイルに保存されても良い。
【0071】
コンピュータプログラムの担体は、該プログラムを担持することが可能ないずれのエンティティ又は装置であっても良い。例えば、該担体は、例えばCD-ROM若しくは半導体ROMといったROMのような記憶媒体、又は例えばハードディスクのような磁気記録媒体を含んでも良い。更に、該担体は、電気若しくは光ケーブル、無線、又はその他の手段を介して搬送され得る、電気又は光信号のような、送信可能な媒体であっても良い。該プログラムが斯かる信号において実施化される場合には、該担体は斯かるケーブル又はその他の装置若しくは手段により構成されても良い。代替として、該担体は、関連する方法を実行するように又は関連する方法の実行における使用のために構成された、該プログラムが組み込まれた集積回路であっても良い。
【0072】
本発明の第3の態様によれば、本発明は、遺伝子データを匿名化するためのシステムを提供する。前記システムは、
少なくとも1人の個人の遺伝子データを受信するよう構成されたデータインタフェースと、
調査されるべき疾病を選択するため、ユーザ入力装置からユーザ入力命令を受信するよう構成されたユーザ入力インタフェースと、
プロセッサと、
を有し、前記プロセッサは、
調査されるべき疾病を選択し、
前記調査されるべき疾病に直接に関連する、前記少なくとも1人の個人の遺伝子データからの遺伝子データのサブセットを決定し、
前記調査されるべき疾病に直接には関連しない前記遺伝子データのサブセットを、当該サブセットの、前記調査されるべき疾病に直接に関連する前記遺伝子データとの距離に基づいて、種々の層へと分類する
よう構成され、前記距離は好適には、前記遺伝子データに対応するゲノム経路ネットワークに基づいて確立され、前記プロセッサは更に、
前記調査されるべき疾病に直接には関連しない層、又は前記調査されるべき疾病に直接には関連しない層に存在する遺伝子データを匿名化する
よう構成される。
【0073】
図5は、遺伝子データを匿名化するよう構成されたシステム600を示す。システム600は、少なくとも1人の個人の遺伝子データ624にアクセスするよう構成されたデータインタフェース620を有する。データインタフェース620は更に、ゲノム経路ネットワーク632のデータベース634と通信する。
図6の例においては、データインタフェース620は、少なくとも1人の個人の遺伝子データ624を有する適切な電子記憶装置及び/又はデータベースのような外部リポジトリ622に接続されて示されている。データインタフェース620は更に、ゲノム経路ネットワーク632に接続される。代替としては、少なくとも1人の個人の遺伝子データ624及びデータベース634は、システム600の内部データ記憶部からアクセスされても良い。一般的に、データインタフェース620は、例えばインターネット、内部又は外部データ記憶部に対する記憶インタフェース等のような、ローカル又はワイドエリアネットワークへのネットワークインタフェースのような、種々の形をとり得る。
【0074】
更に、システム600は、ユーザ入力装置740からユーザ入力命令742を受信し、特定の疾病、疾患又は医療状況を選択又は定義して、該疾病、疾患又は医療状況に直接に関連する遺伝子データのサブセット、及び該疾病、疾患又は医療状況に直接には関連しない遺伝子データを後続して決定し、選択された遺伝子データに対応するゲノム経路ネットワーク632を選択することのような、ユーザ入力をユーザが提供することを可能とするよう構成された、ユーザ入力インタフェース640を有するものとして示されている。ユーザ入力装置740は、限定するものではないが、コンピュータのマウス、タッチ画面、キーボード等を含む、種々の形をとり得る。一般的に、ユーザ入力インタフェース640は、ユーザ入力装置740のタイプに対応するタイプのものであっても良く、即ちそれに対応するユーザ装置インタフェースであっても良い。
【0075】
システム600は更に、調査されるべき疾病に直接に関連する遺伝子データ624の少なくとも1つのサブセット100を決定し、調査されるべき疾病に直接に関連する遺伝子データに対するサブセットの近接性に基づいて、調査されるべき疾病に直接には関連しない残りの遺伝子データを、1つ以上のサブセット及び1つ以上の層(200、300、400)に分類し、調査されるべき疾病に直接には関連しない遺伝子データのサブセットを含む該1つ以上の層を匿名化するよう構成された、プロセッサ660を有するものとして示されている。
【0076】
プロセッサ660は、ゲノム経路ネットワーク632を利用することにより、遺伝子データのサブセットの、調査されるべき疾病に対する関係、及び/又は調査されるべき疾病に直接に関連する遺伝子データのサブセットに対する相対距離を決定するよう構成される。
【0077】
ゲノム経路ネットワーク632は、インターネット上のデータベースを介して利用可能及びアクセス可能であり、例えば前立腺癌、2型糖尿病又はパーキンソン病といった特定の疾病について確立されても良い。
【0078】
一例においては、受信されたユーザ入力命令742に基づいて、プロセッサ660は、少なくとも1人の個人の遺伝子データ624を、データインタフェース620を介して、選択されたゲノム経路ネットワーク632に送信しても良い。これに対して、プロセッサ660は、遺伝子データのサブセットの、調査されるべき疾病に対する関係、及び/又は調査されるべき疾病に直接に関連する遺伝子データのサブセットに対する相対距離を示す結果を、ゲノム経路ネットワーク632から受信しても良い。続いて、プロセッサ660は更に、調査されるべき疾病に対する遺伝子データの関係を示す受信された結果に基づいて、該少なくとも1人の個人の遺伝子データを、遺伝子情報のサブセット又は層にグループ化しても良い。斯くして、調査されるべき疾病に直接に関連することが既知であるこれら遺伝子データ(コア疾病遺伝子)は、プロセッサ660により、サブセット100にグループ化される。調査されるべき疾病に直接には関連しない遺伝子データ及び/又は遺伝子データの層(200、300、400)は、調査されるべき疾病に直接に関連する遺伝子データのサブセットに対する相対距離に基づいて、後続してグループ化される。ここで、2つの遺伝子間の「距離」は、幾つかのタイプの相互作用により決定される。斯かる相互作用は、共出現、タンパク質間相互作用、コパブリケーション又はこれらの組み合わせであり得る。例えば、STRINGデータベースは、相互作用の幾つかの可能性を列記している(http://www.string-db.org/help/getting_started/#evidence)。
【0079】
プロセッサ600は更に、統計的匿名化、暗号化、セキュアマルチパーティ匿名化及びコンピュテーションから成る群から1つ以上のアルゴリズムを選択することにより、調査されるべき疾病に直接には関連しない遺伝子データ及び/又は遺伝子データの層(200、300、400)を匿名化するよう構成される。アルゴリズムの群は、メモリ670(
図5には図示されていない)に保存される。
【0080】
好適な例においては、データベース634はシステム600に含まれても良い。従って、受信されたユーザ入力命令742に基づいて、プロセッサ600は、外部リポジトリ622から少なくとも1人の個人の遺伝子データ624を受信しても良い。プロセッサ660は更に、データベース634に関連する遺伝子データのサブセットを決定しても良い。続いて、該プロセッサは、調査されるべき疾病に直接には関連しない遺伝子データのサブセットを、調査されるべき疾病に直接に関連する遺伝子データに対する該サブセットの距離に基づいて、種々の層に分類しても良い。その後、プロセッサ660は、調査されるべき疾病に直接には関連しない層、又は調査されるべき疾病に直接には関連しない層に存在する遺伝子データを、匿名化しても良い。遺伝子データのサブセットがどのように分類され匿名化されるかを示す詳細な例は、以下に見出され得る。
【0081】
プロセッサ600は更に、ディスプレイのような出力装置760に対する匿名化された遺伝子データ662を生成するよう構成される。代替としては、ディスプレイ760は、システム600の内部の一部であっても良い。
【0082】
代替としては、プロセッサ600は、後続する特定の疾患、疾病又は医療状態に直接に関連する遺伝子データのサブセット、及び該疾患、疾病又は医療状態に直接には関連しない遺伝子データの決定のため、該特定の疾患、疾病又は医療状態を自動的に選択又は定義し、また、選択された遺伝子データに対応するゲノム経路ネットワーク632を自動的に選択するよう、構成されても良い。
【0083】
第4の態様によれば、本発明は、バイオインフォマティクス研究における及び/又は診断における、該方法及び/又はコンピュータプログラム製品の使用に関する。
【0084】
一実施例においては、バイオインフォマティクス研究における該方法及び/又はコンピュータプログラム製品の使用は、複数の個人の遺伝子データを取得することを有する。バイオインフォマティクス研究における該方法及び/又はコンピュータプログラム製品の使用が適用され、第4の態様により包含される、バイオインフォマティクスにおける研究分野の例は、ゲノミクス、遺伝学、転写学、プロテオミクス及びシステム生物学である。
【0085】
代替の実施例においては、該方法及び/又はコンピュータプログラム製品は、診断に用いられ、個人の遺伝子データが、該個人が特定の疾病の影響を受けているか否か、又は該疾病を患う若しくは該疾病により影響を受けるリスクがあるか否かを解析するために用いられる。
【0086】
本発明は、診断ドメイン及びゲノミクスドメインに適用されることができ、その場合、個人の遺伝子データが、更なる解析のために即座に利用可能なデータのコアセット、及び暗号化されたデータによる計算において見出され又は利用され得る感度を増大する層を持つ階層に組織化される。本発明は、個人の該個人及びデータの所有者についての同意収集過程を改善する。個人は、該個人の遺伝子データが適切に匿名化されていることを確認でき、一方で研究の進展において実行される再匿名化を可能とする。これにより、解析又は調査されるべき疾病についての研究を実行するために重要な遺伝子データへのアクセスを可能とすることにより、個人の同意を定義することが容易となる。
【0087】
単数を参照するときに例えば「1つの(a、an)」、「その(the)」といった不定冠詞又は定冠詞が用いられる場合、このことは特に言及されない限り、複数の当該名詞を含む。更に、本明細書及び請求項における第1、第2、第3等の用語は、類似する要素間を区別するために用いられるものであり、必ずしも連続的又は時系列的な順序を示すものではない。そのように用いられる用語は、適切な状況の下で相互に交換可能であり、ここで説明される本発明の実施例は、ここで説明された又は示されたものとは異なる順序での動作が可能であることは、理解されるべきである。更に、本明細書及び請求項における上端、底部、上、下、超える等の用語は、説明の目的のために用いられるものであり、必ずしも相対的な位置を記述するものではない。そのように用いられる用語は、適切な状況の下で相互に交換可能であり、ここで説明される本発明の実施例は、ここで説明された又は示されたものとは異なる向きでの動作が可能であることは、理解されるべきである。本明細書及び請求項において用いられる「有する(comprising)」なる用語は、その後に列記される手段に限定されるものとして解釈されるべきではなく、他の要素又はステップを除外するものではないことに留意されたい。従って、「手段A及びBを有する装置」なる表現の範囲は、要素A及びBのみから成る装置に限定されるべきではない。該表現は、本発明に関しては単に重要な要素が装置A及びBであること意味している。
【0088】
上述の実施例は本発明を限定するものではなく説明するものであって、当業者は添付する請求項の範囲から逸脱することなく多くの代替実施例を設計することが可能であろうことは留意されるべきである。請求項において、括弧に挟まれたいずれの参照記号も、請求の範囲を限定するものとして解釈されるべきではない。本発明は、幾つかの別個の要素を有するハードウェアによって、及び適切にプログラムされたコンピュータによって実装されても良い。幾つかの手段を列記した装置請求項において、これら手段の幾つかは同一のハードウェアのアイテムによって実施化されても良い。特定の手段が相互に異なる従属請求項に列挙されているという単なる事実は、これら手段の組み合わせが有利に利用されることができないことを示すものではない。
例
前立腺癌に関する疾病指向のゲノム匿名化
【0089】
第1のステップにおいて、前立腺癌経路についてのKEGG経路データベース(http://www.genome.jp/dbget-bin/www_bget?pathway:map05215)を探すことにより、コア前立腺癌遺伝子のリストが取得された。
【0090】
当該経路の一部である合わせて70個の遺伝子が、KEGGオーソロジーを用いて取得されたが、これは当該データベースが、複数の種に属する全ての遺伝子をオーソロジー群にグループ化し、いずれの冗長性をも消去するからである。これら70個の遺伝子は全て、前立腺癌に直接に関連するとみなされる遺伝子である。これら70個の遺伝子が、「コア」にグループ化された。これらの遺伝子は、以下のとおりである。
【0091】
PIK3C=ホスファチジルイノシトール-4,5-ビスホスファート3キナーゼ[EC:2.7.1.153];PTEN=ホスファチジルイノシトール-3,4,5-トリフォスファート3-フォスファターゼ;KLK3=セメノフェラーゼ[EC:3.4.21.77];CTNNB1=カテニンベータ1;BAD=細胞死のBcl-2-拮抗;BCL2=アポトーシス調節Bcl-2;CDK2 =サイクリン依存性キナーゼ2[EC:2.7.11.22];NFKB1=核内因子NF-kappa-B p105サブユニット;TCF7=転写因子7;PIK3R=ホスホイノシチド-3-キナーゼ調節サブユニット;HRAS=GTPアーゼHras;GSK3B=グリコーゲンシンターゼキナーゼ3ベータ[EC:2.7.11.26];SOS=「son of sevenless」;htpG,HSP90A=分子シャペロンHtpG;EGF=表皮成長因子;PDGFA=血小板由来成長因子サブユニットA;EGFR,ERBB1=表皮成長因子受容体[EC:2.7.10.1];FGFR1=線維芽細胞成長因子受容体1[EC:2.7.10.1];PDGFRA=血小板由来成長因子受容体アルファ[EC:2.7.10.1];GRB2=成長因子受容体結合タンパク質2;BRAF=B-Rafプロト癌遺伝子セリン/トレオニンタンパク質キナーゼ[EC:2.7.11.1];RAF1=RAFプロト癌遺伝子セリン/トレオニンタンパク質キナーゼ [EC:2.7.11.1];MAP2K1,MEK1=分裂促進因子活性化タンパク質キナーゼ1[EC:2.7.12.2];MAP2K2,MEK2=分裂促進因子活性化タンパク質キナーゼ2[EC:2.7.12.2];MAPK1_3=分裂促進因子活性化タンパク質キナーゼ1/3[EC:2.7.11.24];ATF4,CREB2=サイクリックAMP依存性転写因子ATF-4; CASP9=カスパーゼ9[EC:3.4.22.62];TP53,P53=腫瘍タンパク質p53;AKT=RACセリン/トレオニンタンパク質キナーゼ[EC:2.7.11.1];IKBKA,IKKA,CHUK=核因子カッパBキナーゼサブユニットアルファ阻害[EC:2.7.11.10];TCF7L1=転写因子7様1;TCF7L2=転写因子7様2;LEF1=リンパ系エンハンサー結合因子1;EP300,CREBBP,KAT3=E1A/CREB結合タンパク質[EC:2.3.1.48];CCND1=サイクリンD1;INS=インスリン;NFKBIA=NFカッパB阻害アルファ;RELA=転写因子p65;ERBB2,HER2=受容体チロシンタンパク質キナーゼerbB-2[EC:2.7.10.1]; INSRR=インスリン受容体関連受容体[EC:2.7.10.1];IGF1R=インスリン様成長因子1受容体[EC:2.7.10.1];PDGFRB=血小板由来成長因子受容体ベータ[EC:2.7.10.1];FGFR2=線維芽細胞成長因子受容体2[EC:2.7.10.1];PDGFC_D=血小板由来成長因子C/D;IGF1=インスリン様成長因子1;CREB1=サイクリックAMP応答領域結合タンパク質1;PDPK1=3-ホスホイノシチド依存性タンパク質キナーゼ1[EC:2.7.11.1];RB1=網膜芽細胞腫関連タンパク質;E2F3=転写因子E2F3;CDKN1B,P27,KIP1=サイクリン依存性キナーゼ阻害1B;CDKN1A,P21,CIP1=サイクリン依存性キナーゼ阻害1A;CCNE=サイクリンE;MDM2=E3ユビキチンタンパク質リガーゼMdm2[EC:2.3.2.27];FOXO1== フォークヘッドボックスタンパク質O1;MTOR,FRAP,TOR=セリン/トレオニンタンパク質キナーゼmTOR[EC:2.7.11.1];IKBKB,IKKB=核因子カッパBキナーゼサブユニットベータ阻害[EC:2.7.11.10];IKBKG,IKKG,NEMO=核因子カッパBキナーゼサブユニットガンマ阻害;KRAS,KRAS2=GTPアーゼKras;NRAS=GTPアーゼNras;NR3C4,AR=アンドロゲン受容体;TGFA=形質転換成長因子アルファ;ARAF,ARAF1=A-Rafプロト癌遺伝子セリン/トレオニンタンパク質キナーゼ[EC:2.7.11.1];CREB5,CREBPA=サイクリックAMP応答領域結合タンパク質5;CREB3=サイクリックAMP応答領域結合タンパク質3;NKX3-1=ホメオボックスタンパク質Nkx-3.1;E2F2=転写因子E2F2;HSP90B,TRA1=熱ショックタンパク質90kDaベータ;SRD5A2=3-オキソ-5-アルファステロイド4-デヒドロゲナーゼ2[EC:1.3.1.22];PDGFB=血小板由来成長因子サブユニットB;及びE2F1=転写因子E2F1。
【0092】
後続するステップにおいて、コア前立腺癌ネットワークが生成され、コア前立腺癌遺伝子のリストが、STRINGデータベース検索ページ(http://string-db.org/cgi/input.pl?input_page_active_form=multiple_identifiers)へとコピーアンドペーストされ、ネットワークhttp://bit.ly/28XP7HTが生成された(71個の遺伝子、「最小限必要とされる相互作用スコア」の選択肢、低信頼度(0.150)、「ネットワークバブル内の構造プレビューをディスエーブルにする」の選択肢がスイッチオンされる)。
【0093】
その後、前立腺癌ネットワークの第1の層が生成された。
【0094】
第1の層を生成するため、フィールド「2番目のシェル」:「20以下の相互作用子」における「データ設定」が選択された。追加されていた遺伝子は、第1の層の一部となった(91遺伝子-71遺伝子=20遺伝子)。
【0095】
次のステップにおいて、前立腺癌ネットワークの第2の層及び外部層が生成された。
【0096】
第2の層を生成するため、これらの遺伝子がSTRINGデータベース検索ページに入力され、選択肢「2番目のシェル」:「50以下の相互作用子」について再び選択された。ポップアップした全ての新たな遺伝子が、第2の層の一部となった(50遺伝子)。
【0097】
本例においては、第3の層(又は本例においては外側層)は、コア又は第1の層のいずれの一部でもない人間のゲノムにおける全ての遺伝子から成る。
【0098】
後続するステップにおいて、遺伝子データが匿名化された。匿名化のため、100人の個人の完全なゲノム(STRINGデータベースによる20457個の遺伝子)について遺伝子データ(例えば発現データ)を持つデータセットが利用された。
【0099】
71個の遺伝子のコアは匿名化されなかったが、これはこれらの前立腺癌関連の遺伝子からの全ての情報が必要とされるからである。
【0100】
20個の遺伝子の第1の層は統計的匿名化により匿名化されたが、これはこれらの遺伝子からの情報は重要であり得るからである。より正確にはこのことは、選択されたk(例えばk=2)及びl(例えばl=3)についてk-匿名性及びl-多様性を達成するため、これらの遺伝子の値を一般化表す抑制することにより実行された。
【0101】
50個の遺伝子の第2の層は、同形暗号化を用いて匿名化されたが、これはこれらの遺伝子からの情報が依然として重要であり得るからである。当該方法は、層が多くの数の遺伝子(例えば50以上)を持つ場合に、適用することが便利となり得る。
【0102】
20316個の遺伝子の外側層は頑強性暗号化により匿名化されたが、これはこれらの遺伝子からの情報は前立腺癌についての特定の検査には重要ではないからである。