特許第6373977号(P6373977)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

<>
  • 特許6373977-DNA配列の高速かつ安全な検索 図000012
  • 特許6373977-DNA配列の高速かつ安全な検索 図000013
  • 特許6373977-DNA配列の高速かつ安全な検索 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6373977
(24)【登録日】2018年7月27日
(45)【発行日】2018年8月15日
(54)【発明の名称】DNA配列の高速かつ安全な検索
(51)【国際特許分類】
   G06F 19/22 20110101AFI20180806BHJP
   C12N 15/00 20060101ALI20180806BHJP
   C12Q 1/68 20180101ALI20180806BHJP
【FI】
   G06F19/22
   C12N15/00
   C12Q1/68
【請求項の数】15
【全頁数】16
(21)【出願番号】特願2016-514498(P2016-514498)
(86)(22)【出願日】2014年4月30日
(65)【公表番号】特表2016-524749(P2016-524749A)
(43)【公表日】2016年8月18日
(86)【国際出願番号】IB2014061098
(87)【国際公開番号】WO2014188290
(87)【国際公開日】20141127
【審査請求日】2017年4月24日
(31)【優先権主張番号】61/826,619
(32)【優先日】2013年5月23日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】KONINKLIJKE PHILIPS N.V.
(74)【代理人】
【識別番号】100122769
【弁理士】
【氏名又は名称】笛田 秀仙
(74)【代理人】
【識別番号】100163809
【弁理士】
【氏名又は名称】五十嵐 貴裕
(72)【発明者】
【氏名】イグナテンコ ターニャ
【審査官】 塩田 徳彦
(56)【参考文献】
【文献】 米国特許出願公開第2004/0068332(US,A1)
【文献】 Z. Dawy ea al,Mutual information based distance measures for classification and content recognition with applications to genetics ,Communications, 2005. ICC 2005. 2005 IEEE International Conference on,IEEE,2005年 5月16日,pages 820-824,DOI: 10.1109/ICC.2005.1494466,
【文献】 Kertesz-Farkas A,The Application of Data Compression-Based Distances to Biological Sequences,Springer, Boston, MA,2009年,pp 83-100,DOI: https://doi.org/10.1007/978-0-387-84816-7_4, Print ISBN: 978-0-387-84815-0, Online ISBN: 978-0-387-84816-7
(58)【調査した分野】(Int.Cl.,DB名)
G06F 19/10 − 19/28
C12N 15/00
C12Q 1/68
(57)【特許請求の範囲】
【請求項1】
データベースに記憶されたデオキシリボ核酸(DNA)又はリボ核酸(RNA)配列に対する配列モデルを有する配列指標を生成するステップであって、当該生成するステップは、有限記憶木ソースモデル及び前記有限記憶木ソースモデルに対するパラメータとして前記データベースに記憶された各DNA又はRNA配列に対する前記配列モデルを計算するステップを含み、前記配列モデルが、文脈木重み付け(CTW)を使用して計算される、ステップと、
クエリDNA又はRNA配列に前記配列モデルを適用すること、並びにどれだけ良好に各配列モデルが前記クエリDNA又はRNA配列にフィットするかを決定することに基づいて前記クエリDNA又はRNA配列に最も類似しているものとして前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップと、
を含む方法を実行するように電子データ処理装置により実行可能な命令を記憶する非一時的記憶媒体。
【請求項2】
前記識別するステップが、
有限記憶木ソースモデル及び前記有限記憶木ソースモデルに対するパラメータとして前記クエリDNA又はRNA配列に対するクエリモデルを計算するステップであって、前記クエリモデルが、文脈木重み付け(CTW)を使用して計算される、ステップと、
前記クエリモデルを使用して達成可能な前記クエリDNA又はRNA配列の圧縮の量を測定する圧縮計量の基準値を計算するステップと、
を含み、
前記クエリDNA又はRNA配列に前記配列モデルを適用することが、前記圧縮計量の前記基準値と、前記配列モデルを使用して前記クエリDNA又はRNA配列の圧縮率を測定する前記圧縮計量の値との間の差に基づいて各配列モデルに対する情報利得を推定することを含む、
請求項1に記載の非一時的記憶媒体。
【請求項3】
前記識別するステップが、前記配列モデルを使用し、前記データベースに記憶された前記DNA又はRNA配列を使用しない、請求項1乃至2のいずれか一項に記載の非一時的記憶媒体。
【請求項4】
前記クエリDNA又はRNA配列に前記配列モデルを適用することが、
各配列モデルに対して、前記配列モデルを使用して前記クエリDNA又はRNA配列に対する符号語長を計算する、
ことを含む、請求項1に記載の非一時的記憶媒体。
【請求項5】
前記識別するステップが、
CTWを使用して有限記憶木ソースモデル及び前記有限記憶木ソースモデルに対するパラメータとして前記クエリDNA又はRNA配列に対するクエリモデルを計算するステップと、
前記クエリモデルを使用して前記クエリDNA又はRNA配列に対する基準符号語長を計算するステップと、
を含み、
前記クエリDNA又はRNA配列に前記配列モデルを適用することが、前記基準符号語長と、前記配列モデルを使用して前記クエリDNA又はRNA配列に対して計算された符号語長との間の差に基づいて各配列モデルに対する情報利得を推定することを含む、
請求項1に記載の非一時的記憶媒体。
【請求項6】
前記データベースに記憶された前記DNA又はRNA配列が、DNA染色体配列であり、
前記クエリDNA又はRNA配列が、染色体より小さいクエリDNA配列フラグメントである、
請求項1乃至5のいずれか一項に記載の非一時的記憶媒体。
【請求項7】
データベースに記憶されたデオキシリボ核酸(DNA)又はリボ核酸(RNA)配列に対する文脈木重み付け(CTW)モデル{SxSx}を有する配列指標を生成するステップであって、Sxが前記DNA又はRNA配列xに対する前記文脈木重み付けモデルを示し、ΘSxが文脈木モデルSxのパラメータを示す、当該生成するステップと、
クエリDNA又はRNA配列yに前記CTWモデル{SxSx}を適用すること、並びにどれだけ良好に各CTWモデルが前記クエリDNA又はRNA配列yにフィットするかを決定することに基づいて前記クエリDNA又はRNA配列yに最も類似しているものとして前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップと、
を有し、
前記生成するステップ及び前記識別するステップが、電子データ処理装置により実行される、方法。
【請求項8】
前記識別するステップが、前記CTWモデル{SxSx}を使用し、前記データベースに記憶された前記DNA又はRNA配列xを使用しない、請求項7に記載の方法。
【請求項9】
前記識別するステップが、
前記クエリDNA又はRNA配列yに対するCTWモデル{SySy}を計算するステップであって、Syが前記クエリDNA又はRNA配列yに対する文脈木モデルを示し、ΘSyが前記文脈木モデルSyのパラメータを示す、当該計算するステップと、
前記クエリDNA又はRNA配列yに対する前記CTWモデル{SySy}を使用して前記クエリDNA又はRNA配列yの圧縮率を測定する圧縮計量の基準値を計算するステップと、
を含み、
前記クエリDNA又はRNA配列yに前記CTWモデル{SxSx}を適用することが、前記圧縮計量の前記基準値と、前記CTWモデル{SxSx}を使用して前記クエリDNA又はRNA配列yの圧縮率を測定する前記圧縮計量の値との間の差に基づいて各CTWモデル{SxSx}に対する情報利得を推定することを含む、
請求項7乃至8のいずれか一項に記載の方法。
【請求項10】
前記識別するステップが、
前記クエリDNA又はRNA配列yに対するCTWモデル{SySy}を計算するステップであって、Syが前記クエリDNA又はRNA配列yに対する文脈木モデルを示し、ΘSyが文脈木モデルSyのパラメータを示す、当該計算するステップと、
前記クエリDNA又はRNA配列yに対するCTWモデル{SySy}を使用して前記クエリDNA又はRNA配列yに対する基準符号語長を計算するステップと、
を含み、
前記クエリDNA又はRNA配列yに前記CTWモデル{SxSx}を適用することが、前記基準符号語長と、前記CTWモデル{SxSx}を使用して前記クエリDNA又はRNA配列yに対して計算される符号語長との間の差に基づいて各CTWモデル{SxSx}に対する情報利得を推定することを含む、
請求項7乃至8のいずれか一項に記載の方法。
【請求項11】
前記クエリDNA又はRNA配列yに前記CTWモデル{SxSx}を適用することが、
各CTWモデル{SxSx}に対して、前記CTWモデル{SxSx}を使用して前記クエリDNA又はRNA配列yに対する符号語長を計算する、
ことを含み、前記識別するステップが好適には、
前記クエリDNA又はRNA配列yに最も類似しているものとして、前記CTWモデル{SxSx}を使用して、前記クエリDNA又はRNA配列yに対する最も短い符号語長を持つ前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップ、
を含む、
請求項7乃至8のいずれか一項に記載の方法。
【請求項12】
データベースに記憶されたデオキシリボ核酸(DNA)又はリボ核酸(RNA)配列をモデル化する配列指標から文脈木重み付け(CTW)モデル{SxSx}を検索するステップであって、Sxが前記DNA又はRNA配列xに対する文脈木モデルを示し、ΘSxが前記文脈木モデルSxのパラメータを示す、当該検索するステップと、
クエリDNA又はRNA配列に前記検索されたCTWモデル{SxSx}を適用すること、並びにどれだけ良好に各CTWモデルが前記クエリDNA又はRNA配列yにフィットするかを決定することに基づいて前記クエリDNA又はRNA配列に最も類似しているものとして前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップと、
を含む方法を実行するようにプログラムされた電子データ処理装置、
を有する装置。
【請求項13】
前記識別するステップが、前記データベースに記憶された前記DNA又はRNA配列を使用しない、請求項12に記載の装置。
【請求項14】
前記クエリDNA又はRNA配列yに前記検索されたCTWモデル{SxSx}を適用することが、
各CTWモデル{SxSx}に対して、前記CTWモデル{SxSx}を使用して前記クエリDNA又はRNA配列yに対する符号語長を計算する、
ことを含む、請求項12に記載の装置。
【請求項15】
前記識別するステップが、前記識別された1以上のDNA又はRNA配列をモデル化する前記CTWモデル{SxSx}を使用して前記クエリDNA又はRNA配列yに対して計算された最も短い符号語長を持つことに基づいて、前記DNA又はRNA配列yに最も類似しているものとして、前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップを含む、請求項14に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下は、ゲノム配列指標付け(indexing)、記憶、検索(retrieval)、処理、ラベル付け、及び関連するタスク、並びに患者プライバシ及び医療データセキュリティのような態様並びに医療診断及び医療スクリーニング等のような応用に関する。例示的にデオキシリボ核酸(DNA)配列を参照して記載されているが、以下は、DNA配列、及びリボ核酸(RNA)配列等のようなゲノム配列と連動した応用を見つける。
【背景技術】
【0002】
DNAシークエンシングは、がん及び他の病気の診断、遺伝性疾患に対する医療スクリーニング、個人用医療、個人用薬物設計、遺伝人類学及び進化研究、系譜的研究、及び法医学人物同定等のような、多くの既存の及び期待される商業的、医療的及び科学的応用を持つ。医療分野において、臨床試験及びゲノムワイド関連研究は、特定の治療、薬物の有効性を評価し、DNAパターンと疾病との間の従属関係等を決定する典型的なツールである。臨床試験において、試験に含める適格性基準は、同様の表現型(例えば人種)及び機能性(例えば遺伝子がオン又はオフである)を持つDNA配列を持つ患者を含むことができる。ゲノムワイド関連研究において、試験を行うために、症例群(例えば突然変異を含む配列)及び対照群(突然変位を含まない配列)に分割されることができるDNA配列が、選択される。遺伝人類学において、ゴールは、一般に、人口移動を追跡する、又は経時的な遺伝的多様性を研究する等のために基準DNAサンプル(又は基準DNAサンプルプール)と強い類似性を持つDNAサンプルを識別することである。これらは、DNA配列比較を使用する応用の単なる例示的な例である。
【0003】
人間のDNAゲノムは、約30000の遺伝子を集合的に暗号化するおおよそ3.2×109のヌクレオチドからなる。動物、植物及び他の生命体に対するゲノムは、幅広く異なることができるが、典型的には、同等の桁である。臨床試験に対して適格な患者、又は研究目的に対するDNA配列等を見つけるために、巨大なデータベースが、処理される必要がありうる。したがって、同様なDNA配列を位置特定する迅速な手順は、有利である。このような検索は、DNAゲノムの純粋なサイズ並びにギャップ、アライメントエラー、合計配列長の差、及び様々なタイプのノイズを含むことができる実験的に取得されたDNA配列の時々断片的な性質のような多くの問題により複雑にされる。
【0004】
人間のDNAに対処する場合、他の検討事項は、対象のプライバシである。DNA配列は、遺伝的記録全体を暗号化しており、特定の疾患に対するリスク素因及び祖先情報等のような医療的に又は個人的にセンシティブな情報を明らかにすることができる。DNA配列は、(一卵性の双生児を例外として)人間のユニーク識別子でもある。同様の検討事項は、競走馬及び作物等のような商業的に価値のある生命体の非人間ゲノム配列データを処理する際にも生じることができる。このような情報の制御に関する関心は、米国における医療保険会社及び雇用主による個人のDNAから得られた健康情報に基づく差別を禁止することを意図される、2008年の遺伝情報差別禁止法(GINA)により示される。しかしながら、GINAは、生命保険、身体障害保険及び長期ケア保険をカバーしていない。また、DNA配列は、他のタイプの個人医療データと比較してユニークな検討事項を関与させる。人間のゲノムは、全体的に理解されるには程遠く、したがって、DNAから新しい個人的にセンシティブな情報を抽出する新しい技術に対する進行中の可能性が存在する。また、他の医療情報とは異なって、DNA配列は、これら自体が識別子であるので、匿名化されることができない。したがって、DNAマッチングは、好ましくは、データセキュリティを強化する形で行われるべきである。
【発明の概要】
【発明が解決しようとする課題】
【0005】
以下は、前述の制限等を克服する改良された装置及び方法を検討する。
【課題を解決するための手段】
【0006】
1つの例示的態様によると、不揮発性記憶媒体は、データベースに記憶されたDNA又はRNA配列に対する配列モデルを有する配列指標を生成するステップであって、有限記憶木ソースモデル及び前記有限記憶木ソースモデルに対するパラメータとして前記データベースに記憶される各DNA又はRNA配列に対する前記配列モデルを計算するステップを含む当該生成するステップと、クエリDNA又はRNA配列に対する前記配列モデルのフィッティングの結果に基づいて前記クエリDNA又はRNA配列に最も類似しているものとして前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップとを含む方法を実行するように電子データ処理装置により実行可能な命令を記憶する。
【0007】
他の例示的態様によると、方法は、データベースに記憶されたDNA又はRNA配列に対する文脈木重み付け(CTW、context tree weighting)モデル{SxSx}を有する配列指標を生成するステップであって、Sxは、前記DNA又はRNA配列xに対する文脈木モデルを示し、ΘSxは、文脈木モデルSxのパラメータを示す、当該生成するステップと、クエリDNA又はRNA配列yに対するCTWモデル{SxSx}のフィッティングに基づいてクエリDNA又はRNA配列yに最も類似しているものとして前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップとを有する。前記生成するステップ及び前記識別するステップは、電子データ処理装置により適切に実行される。
【0008】
他の例示的態様によると、装置は、データベースに記憶されたDNA又はRNA配列をモデル化する配列モデルを配列指標から検索するステップであって、前記データベースに記憶された各DNA又はRNA配列に対する前記検索された配列モデルが、有限記憶木ソースモデル及び前記有限記憶木ソースモデルに対するパラメータを有する、当該検索するステップと、クエリDNA又はRNA配列に対する前記検索された配列モデルのフィッティングに基づいて前記クエリDNA又はRNA配列に最も類似しているものとして前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップとを含む方法を実行するようにプログラムされた電子データ処理装置を有する。
【0009】
1つの利点は、ゲノム配列の高速比較を提供することにある。
【0010】
他の利点は、匿名性を維持しながら高速比較を提供する形でゲノム配列に指標付けする指標付け方法を提供することにある。
【0011】
他の利点は、指標記録とのクエリゲノム配列の高速比較を容易化するように計算済み有限記憶木ソースモデル及びモデルパラメータを含む前記指標記録を使用してゲノム配列に指標付けする指標付け方法を提供することにある。
【0012】
多くの追加の利点及び利益は、以下の詳細な記載を読むと当業者に明らかになる。
【0013】
本発明は、様々なコンポーネント及びコンポーネントの構成並びに様々な処理オペレーション及び処理オペレーションの構成の形を取り得る。図面は、好適な実施例を例示する目的のみであり、本発明を限定すると解釈されるべきではない。
【図面の簡単な説明】
【0014】
図1】DNA配列を記憶及び指標付けするシステムを概略的に示す。
図2】クエリDNA配列に類似したDNA配列を識別するように図1のシステムにより生成されるDNA配列指標を検索するシステムを概略的に示す。
図3】囲みボックスにより示される各クエリ染色体に対する最大相互情報量を持つ、例示的な実際に実行されるDNA検索オペレーションからの相互情報量に対する推定値の表を示す。
【発明を実施するための形態】
【0015】
ここに開示されるのは、(例えば固定又は可変次数)マルコフモデル又は文脈木重み付け(CTW)モデル(ここで使用される例示的アプローチ)等のような有限記憶木ソースモデルを使用してDNA配列(又は、より一般的に、ゲノム配列、例えばDNA配列又はRNA配列等)を指標付けするアプローチである。前記DNA配列に対する指標記録が、構築され、前記モデル及びパラメータを含む。この場合、CTWを使用してクエリDNA配列の直接的なモデル化により推定される符号語長と比較される、クエリDNA配列に対して同じ有限記憶木モデルを使用して得られる推定符号語長は、前記クエリ及び指標DNA配列の類似性を定量的に評価する比較計量として機能する。前記符号長比較は、例えば、エントロピ又は情報利得(IG)又は同様の手段のような相互情報計量を使用して計算される。
【0016】
このアプローチは、前記有限記憶木ソースモデル及びパラメータのみが、プレーンテキストで、すなわち暗号化されずに記憶されるので、DNA配列がデータベースに記憶される患者のプライバシを保護する。有限長の部分配列の使用は、結果として生じるモデル及びパラメータが元のDNA配列より大幅に少ない情報を含むので、患者プライバシを保証し、前記有限記憶木ソースモデルの出力は、実際に本質的に統計的である。前記指標づけされたDNA配列(のセット)に対する前記モデル及びそのパラメータは、事前に計算されるので、検索は高速である。開示された類似性計量は、相互情報量が検索基準として使用されるので、編集又は設定距離のような他の軽量より柔軟かつ表現豊かである。ここに開示されるように、相互情報量は、ゲノム配列の時間的構造を探索する順次的なユニバーサル圧縮方法に基づいて適切に推定される。
【0017】
図1を参照すると、DNA配列を記憶及び指標付けする例示的システムが、記載される。(ここでxTとして示され、上付き文字TがDNA配列長を示す)指標付けされるべきDNA配列10は、DNA配列10の代表的有限記憶木ソースモデルを生成するように処理される。この実例において、前記有限記憶木ソースモデルは、CTW方法を使用して計算される文脈木重み付け(CTW)モデルである。DNA配列xTに適用されるモデル化モジュール12の出力14は、前記有限記憶木ソースモデル及びそのパラメータである。例示的なCTWモデル化において、前記文脈木モデル(すなわち文脈又は部分配列)は、Sxとして(又はモデル化されたDNA配列xTのアイデンティティが明らかである場合に、より単純にSとして)示され、前記パラメータは、ここでΘSxとして(又はモデル化されたDNA配列xTのアイデンティティが明らかである場合に、より単純にSとして)示される、条件付き確率を有する。好ましくは、記述的注釈が、匿名アノテータ16を介して提供される。患者プライバシが重要である応用において、前記注釈は、匿名であるべきであるが、DNA配列10のソースの関連する記述を構成すべきであり、例えばデモグラフィック情報、又は臨床情報等により前記ソースを記述する。前記応用が、匿名性を必要としない場合、アノテータ16は、前記注釈に対象識別子を含めてもよい。指標記録フォーマッタ18は、前記モデル及びパラメータ14並びに前記注釈を含む指標記録を構築し、前記指標記録は、電子健康記録(EHR)、又は学問上の目的で採用されるDNAリポジトリ指標等のような、データベース20に記憶される。
【0018】
前記指標記録は、例えばDNA配列xTに対する(SxSx)として表されるモデル及びパラメータ14を含む。これは、DNA配列xTを表すが、近似的表現であり、DNA配列xTが導出された対象を識別するには不十分である。したがって、DNA配列xTは、適切に安全なフォーマットで別に記憶される。このために、図1の例示的な実施例において、高度暗号規格(AES暗号)に適合する暗号化アルゴリズムを採用する暗号化モジュール24は、DNA配列10を暗号化する。前記暗号化モジュールは、セキュリティ暗号化を実行し、オプションとして、結合された圧縮/暗号化アルゴリズムにより統合的に又は別のオペレーションのいずれかでロスレス圧縮を実行する。データベース記録フォーマッタ26は、暗号化された(及びオプションとして圧縮された)DNA配列をフォーマット化し、これを暗号化DNA配列データベース28に記憶する。
【0019】
図1を参照し続けると、前記指標付けシステムは、以下のように適切に物理的に実現される。コンピュータ30又は他の電子データ処理装置(例えばコンピュータ、又はセキュア暗号化伝送プロトコルによりリンクされたインターネットベースのサーバ等)は、データ処理モジュール12、18、24、26を実施するように適切にプログラムされる。匿名アノテータ16は、例えば、EHR又は他のデータベースからデモグラフィック又は他の関連情報を抽出する完全自動化システムとして、様々な形で実施されえ、当該情報の匿名化を適切に、又は人間のオペレータが前記関連情報を入力することを可能にするのにユーザインタフェース(例えば例示的なディスプレイ32及びキーボード34)を採用する半自動化システムとして、実行する。DNA配列指標データベース20は、磁気ディスク、個別ディスクの冗長アレイ(RAID)、又は光ディスク等のような非一時的記憶媒体36上で適切に実施される。同様に、暗号化DNA配列データベース28は、磁気ディスク、個別ディスクの冗長アレイ(RAID)、又は光ディスク等のような非一時的記憶媒体38上で適切に実施される。
【0020】
例示的な図1において、同じコンピュータ30が、指標付けモジュール12、18及びアノテータ16又はその自動化された部分、並びに配列暗号化及び記憶モジュール24、26の両方を実施するのに対し、物理的に離れたデータ記憶媒体36、38が、指標20及びデータベース28をそれぞれ記憶する。このアプローチは、(単一のコンピュータ30が適切に使用されるように)ワークフローブロックとして記憶及び指標付けされるべきDNA配列に対して典型的であり、指標20及びデータベース28を別の媒体上で保持することがセキュリティを強化することができるので、有利であることができる。このアプローチにおいて、DNA配列10に対する指標記録は、データベース28に記憶された暗号化DNA配列記録に対するリンクを記憶する(データベース記録フォーマッタ26を指標記録フォーマッタ18に接続し、前記指標記録における包含のために前記リンクを後者に伝えることを示す点線矢印により図1に概略的に示される)。
【0021】
代替的な物理的実施が可能であると理解される。例えば、別々のコンピュータが、それぞれ、指標付けオペレーション12、16、18及び暗号化/記憶オペレーション24、26を実施するのに使用されることができる。加えて又は代わりに、前記暗号化されたDNA配列及び対応する指標記録は、同じ物理的非一時的記憶媒体に記憶されることができる。他の変形例として、前記指標記録の要素として前記暗号化されたDNA配列を含めることにより指標20及び暗号化DNA配列データベース28を結合することが考えられる。これは、AES又は他の暗号化プロトコルが十分に安全であると見なされる場合に適切でありうる。(いかなる事象においても、復号鍵は、別々に、又は何らかの他の安全な形で記憶されるべきである)。
【0022】
以下に、例示的なCTWモデル化モジュール12のオペレーションが、更に記載される。
【0023】
前記文脈木重み付け(CTW)方法(Willems et al., The Context Tree Weighting Method: Basic Properties, IEEE transactions on Information theory, 1995)は、深度が指定された最大深度Dを超過しない全ての木モデルに対応する符号化分布(coding distribution)を計算する。前記分布は、算術的符号化技術を使用して観測されたDNA配列10を圧縮するのに使用されることができ、これは、結果として小さな冗長性を持つ符号語を生じる。実際に、実際の圧縮は、実行される必要がなく、むしろ、ここに開示された技術は、前記DNA配列を圧縮するのに前記モデルを使用して得られる圧縮の量を示す符号語長を推定する。ソース配列の長さにより除算される符号語長は、エントロピの良好な推定値を与える。
【0024】
DNA配列構造は、アミノ酸に対して及び後で順次的な形でタンパク質に対して符号化するようなものである。xTが観測されたDNA配列10を示すとする。(より一般的には、xTは、同じ文脈木モデル及びパラメータにより一緒にモデル化される配列のセットを示すことができる)。この場合、CTWは、P(xT)を推定するのに使用されることができ、ここでxTは、アルファベットA={1,2,3,4}からの値を持つベクトルとして適切に表される。(DNAアルファベットが、典型的には{A,T,G,C}として表され、Aがアデニンを示し、Tがチミンを示し、Gがグアニンを示し、Cがシトシンを示すのに対し、RNAアルファベットは、典型的には{A,U,G,C}であり、チミンがウラシルを表すUにより置き換えられることに注意する。アルファベットA={1,2,3,4}は、一般性を失うことなしにここで使用される。例えばメチル化のような情報を取得するように、4つより多いシンボルを持つアルファベットを採用することも考えられる。)xTで、観測された配列xT内の位置tにおけるアルファベットAからのシンボルを示す。前記DNA配列に対する統計モデルは、前記文脈木を構築し、前記CTWアルゴリズムを使用して分布P(xT)を、P(xt|{xt-b,b∈B})として推定することにより推定され、ここでBは、適切な整数のセットである。「文脈」{xt-b,b∈B}は、xTの|B|の異なる場所から得られたアルファベットAからの値のセットからなる。典型的には、Bは、(最大深度Dまでの)xTに先行する値のセットとして記される。(前記観測されたDNA配列において実際に生じた)全ての可能な文脈は、確率分布P(xt|{xt-b,b∈B})と一緒に、それぞれ、文脈木(モデル)及びパラメータを構成する。
【0025】
前記CTWアルゴリズムの出力は、前記文脈木モデル及び条件付き確率{S,ΘS}である。所定のDNA配列に対して、前記DNA配列が{S,ΘS}を使用して圧縮された場合に得られる圧縮の量は、推定された符号語長Lにより特徴づけられることができる。ここに開示されるように、前記CTW方法は、ツーパスアプローチで使用されることもでき、第1のステップにおいて、統計モデル{S,ΘS}が、観測されたDNA配列に対して算出され、第2のステップにおいて、前記モデルを使用して達成可能な前記DNA配列の圧縮の量を示す前記符号語長が、推定される。前記推定は、第1のパスにおいて得られる{S,ΘS}により提供される固定の条件付き確率に基づき、比較すると、従来の(単一パス)CTWにおいて、前記符号語長は、各シンボルが処理されると常に更新されている確率に基づいて計算される。ここに更に開示されるように、このツーパスアプローチは、1つのDNA配列(一般に一緒にモデル化された基準又は指標配列のセットでありうる、基準又は指標付けされた配列)に前記第1のステップを実行し、次いで、結果として生じるモデルを、第2の(クエリ)DNA配列に対する符号語長を推定するのに使用することにより、2つの異なるDNA配列に対する類似性計量を規定するように拡張されることができる。前記モデルは、前記指標付けされたDNA配列から算出されたので、これは、前記指標付けされたDNA配列に対する最適に短い符号語長を生成すべきである。他方で、前記モデルが、前記クエリDNA配列に適用される場合、前記符号語長は、前記クエリDNA配列が前記指標付けされたDNA配列にどれだけ類似しているかに依存する。これらが類似している場合、前記モデルは、良好に「フィット」し、短い推定符号語長に対応する高い度合の圧縮を提供する。他方で、これらが類似していない場合、フィットが貧弱であり、前記クエリ配列に対する推定符号語長は、最適なモデルに対して得られるものより長い。前記クエリ配列から算出されたモデルに対して得られた符号語長は、適切な基準長さを提供する。例示的な定量的定式化は、以下のとおりである。
【0026】
観測されたDNA配列xTを検討する。{S,ΘS}は、Dより大きくない深度の木ソースを記述するモデル(文脈)及びパラメータセット(条件付き確率)であると仮定する。この例において、{S,ΘS}が必ずしもxTから算出されないことに注意する。パラメータ{S,ΘS}を持つモデルが、DNA配列xTを圧縮するのに使用される場合、圧縮された配列の長さは、
により与えられ、式(1)において、
は、Sから文脈への
のマッピングであり、
は、部分配列
がxTにおいて観測された後に生じるシンボルxTの確率である。{S,ΘS}が、xTを生成した実際のソースを記述する場合(例えば、上の例において、xTが前記指標付けされたDNA配列である場合)、L(xT|x1-D,S,ΘS)は、最小の符号語長である理想的な符号語長に対応する。しかしながら、{S,ΘS}が、何らかの他のソースを記述する場合(例えば、上の例において、xTが前記クエリ配列である場合)、L(xT|x1-D,S,ΘS)は、(少なくとも一般的には)前記モデルが他のDNA配列に対して算出され、観測されたDNA配列xTを効果的に記述しないので、前記理想的な符号語長より大幅に大きい。前記CTW方法が、観測された(DNA)配列のモデル及びパラメータを推定するのに使用される場合、結果として生じる符号語長は、前記理想的な符号語長から最小の距離(冗長性)を持つ。
【0027】
類似性計量は、前記符号語長が、どれだけ良好に前記モデルが前記DNA配列にフィットするかを示し、前記DNA配列の符号語長が、式(1)の符号語長推定を使用して推定されるという、この概念を使用して規定されることができる。yN及びxTが、必ずしも同じ長さではない2つの観測されたDNA配列であると仮定する。前の例に対する類推において、xTが長さTの指標付けされたDNA配列であるとし、yNが長さNのクエリDNA配列であるとする。{SxSx}が、前記CTW方法を使用してxTに対して算出されたモデル及びパラメータセットであるとする。有利には、{SxSx}は、指標付けされたDNA配列xT10に対して事前に計算され、図1を参照して記載されるようにDNA指標20に記憶されてもよい。更に、Lctw(yN)が、前記CTW方法を使用して推定される(クエリ)DNA配列yNに対する符号語長であるとする。換言すると、Lctw(yN)は、クエリDNA配列yNに対して算出されたモデル{SySy}を使用して得られる符号語長である。したがって、Lctw(yN)は、前記CTW方法を使用してyNに対して取得可能な最適な(すなわち最短の)符号語長である。この場合、差
が、計算されることができる。式(2)の差は、xTの分布がyNを記述(圧縮)するためにyNの代わりに使用される場合に、どれだけが得られることができるかを示すことが見られる。利得が高い場合、{SxSx}は、yNに良好にフィットするソースを記述し、したがって、我々は、yN及びxTの両方が同じソースにより生成されることを仮定し、これらが類似していると見なすことができる。利得が低い場合、{SxSx}を使用して推定されるyNに対する符号語長は、非常に高い冗長性を持ち、{SxSx}は、yNを圧縮する助けにならず、これは、他のタイプの(DNA)配列を生成する他のソースに対応することを意味する。したがって、我々は、yN及びxTが異なるソースにより生成され、これが類似していないと言うことができる。一般に、利得が高いほど、モデル及びパラメータセット{SxSx}が、配列yNを、より良好に記述する。したがって、{SxSx}を持つソースがyNを生成したことは、更にもっともらしい。
【0028】
前記CTW方法を使用して推定されたソースシンボルごとの符号語長は、前記DNAソース配列のエントロピの推定値を与える。したがって、式(2)の類似性計量は、DNA配列yNとDNA配列xTを生成したDNAソースとの間の相互情報量の推定値でもある。式(2)により提供される相互情報量の推定値は、過小評価である。これは、相互情報量が真に非負であるので、見られることができる。対照的に、式(2)は、最適な(最小の)符号語長であるLctw(yN)と、非最適な(したがってより大きい)符号語長であるL(yN|SxSx)との間の(1/Nによりスケーリングされた)差を取る。後に続くのは、式(2)が、一般的に、厳密に非負の真の相互情報値より一般的に小さい、負の値を取り上げることができる。式(2)により与えられる相互情報量の過小評価は、部分的に、第2項の符号化冗長性の結果として生じる。前記過小評価は、類似性計量としての式(2)の有用性を否定しないが、しかしながら、より高い類似性(すなわちより大きな情報利得)が、式(2)の類似性計量により出される「より小さい負」値により示される。
【0029】
先行する記載の観点から、クエリDNA配列yNと、モデル及びパラメータセット{SxSx}が事前に計算され、指標データベース20に記憶される、指標付けされたDNA配列xTとの間の類似性を測定する類似性計量Iは、式(2)を使用して適切に計算される、又は換言するとI(yN;xT, {SxSx})は、式(2)を使用して適切に推定される。
【0030】
一例として、クエリDNA配列yNに最も類似しているDNA配列指標20内の指標付けされたDNA配列xTを見つける問題を検討する。これは、
を見つけることになる。{SxSx}が、xTの関数である場合、データ処理不等式、
による。{SxSx}が、yNを生成したソースにマッチする場合、前記不等式は、等式になる。最も類似している指標付けされたDNA配列は、I(YN; {SxSx})を最大化するものである。
【0031】
ここで図2を参照すると、クエリDNA配列yNに類似しているDNA配列を識別するように図1のシステムにより生成されたDNA配列指標20を検索するシステムが、記載される。クエリDNA配列yN40が、受け取られる。文脈木重み付け(CTW)モジュール12(図1の指標付けシステムと併せて既に記載されている)は、クエリDNA配列yNに対するモデル及びパラメータ{SySy}を算出するのに使用され(これはツーパスバージョンのCTWの第1のパスである)、符号語長推定器モジュール42は、{SySy}を使用して得られた最適な(最小の)符号語長Lctw(yN)を推定するのに式(1)を使用する。
【0032】
各指標付けされたDNA配列xTは、次いで、現在試験下の指標付けされたDNA配列xTに対する指標エントリを検索する検索モジュール52を起動することにより開始する、試験ループ50の反復により試験される。この指標エントリは、CTWを使用して(すなわち、図1を参照して記載されたCTWモジュール12により)xTに対して算出されたモデル及びパラメータセット{SxSx}を提供する。オペレーション54において、式(1)は、xTに対して算出されたモデル及びパラメータセット{SxSx}を使用してモデル化されたクエリ配列yNに対して(非最適、及び一般的により大きい)符号語長L(yN|SxSx)を推定するのに再び使用される。換言すると、オペレーション54は、ツーパスCTWアルゴリズムの第2のパスを実行するが、xTに対して算出されたモデル及びパラメータセット{SxSx}を使用する。試験ループ50は、相互情報量の推定値(1/N)Lctw(yN)−(1/N)L(yN|SxSx)を計算することにより終了する。
【0033】
代案として、オペレーション54は、省略されることができ、式(2)の最後の表現が、(1/N)Lctw(yN)−(1/N)L(yN|SxSx)を直接的に計算するのに、代わりに使用されることができる。
【0034】
試験ループ50は、試験下の各指標付けされたDNA配列xTに対して繰り返される。(これは、DNA指標20において指標付けされたあらゆるDNA配列であってもよく、又は代わりに、匿名化された注釈に基づいてフィルタリングすることにより生成される前記指標のサブセットであってもよい)。セレクタモジュール60は、次いで、クエリDNA配列yNに最も類似している1つ(又はそれ以上)の指標付けされたDNA配列を選択する。これは、例えば式(3)により、単一の最も類似している指標付けされたDNA配列を選択してもよく、又は「上位K」の最も類似している指標付けされたDNA配列が、選択されてもよく(すなわち、最も高い相互情報量を持つKの指標付けされたDNA配列)、「上位K」の最も類似している指標付けされたDNA配列は、相互情報計量により測定される類似性によりランク付けされ、又は閾値が使用されてもよく、例えば相互情報計量が閾値を超過する全ての指標付けされたDNA配列が、選択される、又はその他である。出力モジュール62は、次いで、セレクタモジュール60により選択された前記1以上の最も類似している指標付けされたDNA配列を表示する又は他の形で人間知覚可能形式で提示する。
【0035】
図2の説明的な例において、処理コンポーネント12、42、50、60、62は、処理コンポーネント12、42、50、60、62の機能を実施する適切なソフトウェアにより、指標付けモジュール12、18、24、26を実施する同じコンピュータ30又は他の電子データ処理装置により実施される。代わりに、異なるコンピュータが、それぞれ図1及び2のシステムにより実行される指標付け及び検索オペレーションに対して使用されてもよい。出力モジュール62は、前記選択された指標付けされたDNA配列に関する情報をディスプレイ32上に表示してもよく、又はこの情報を他のコンピュータ(例えば暗号化DNA配列データベース28に対するアクセスを制御するリポジトリコンピュータ)に送信してもよく、又は(プリンタ又は他のマーキングエンジンと連動して)印刷されたレポートを生成してもよく、又はその他であってもよい。これが、データセキュリティ及び対象プライバシを危険にさらすので、出力モジュール62が、典型的には、実際の指標付けされたDNA配列を実際に符号及び提供しないと理解されるべきである。むしろ、前記出力モジュールは、(クエリDNA配列yNに対する類似性に基づいて)関心配列を識別子、実際の配列は、適切なセキュリティ検査処理が実行された後に復号され、認可された個人に提供される。
【0036】
DNA配列指標付けモジュール12、18、24、26及び/又はDNA配列検索モジュール12、42、50、60、62が、指標付けモジュール12、18、24、26及び/又は検索モジュール12、42、50、60、62の機能を実行するようにコンピュータ30により実行可能な命令(すなわちソフトウェア)を符号化する非一時的記憶媒体として実施されうるとも理解されるべきである。前記非一時的記憶媒体は、例えば、ハードディスクドライブ又は他の磁気記憶媒体、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、フラッシュメモリ又は他の電子記憶媒体、光ディスク又は他の光記憶媒体、又はこれらの様々な組み合わせ等の1以上を有してもよい。
【0037】
簡潔な総括のために、図1の例示的な指標付けシステムの実施例は、DNA配列(のセット)xiTi,i=1,2,...,nのDNAデータベース28及び対応する匿名化されたDNA配列指標20を作成することを含む指標付けを実行する。これを行うために、モデル及びパラメータ{SxiSxi}は、前記CTW方法を適用することにより各DNA配列(のセット)xiTi,i=1,2,...,nに対して推定され、{SxiSxi}セットは、他の関連情報(すなわち、注釈、オプションとして匿名化される)と一緒に指標データベース20に記憶される。
【0038】
図2の検索プロセスは、クエリ(例)DNA配列yN40を与えられる。前記CTWアルゴリズムが、適用され、ソースシンボルごとの符号語長(1/N)Lctw(yN)が、モジュール12、42を使用してyNに対して推定される。指標データベース20内の各DNA指標記録i,i=1,2,...,nに対して、前記符号語長は、{SxiSxi}を仮定して、yN内の部分配列をSxiからの文脈にマッピングし、対応するパラメータを使用して
を計算する(CTW第2パスモジュール54)ことによりyNに対して推定される。(yNからのある部分配列に対するSxi内に文脈が存在しない場合、対応するパラメータは、1/2のような何らかの適切な値に適切にセットされる。)情報利得推定値(1/N)Lctw(yN)−(1/N)L(yN|SxiSxi)を最大化するDNA配列を指標付けする記録
が、選択され(モジュール60)、前記関連情報が、クエリを行っているパーティに返される(モジュール62)。
【0039】
指標データベース20において、DNA配列(のセット)に対応するモデル及びパラメータセット{SxiSxi}を記憶することのみを必要とすることが理解される。この情報は、実際の配列を生成したソースの確率的特徴のみを提供するので、単独では、前記DNA配列を再構成するのに使用されることができない。
【0040】
図3を参照すると、開示された検索プロセスの説明的な例が、記載される。この例は、GenBankからの14のDNA配列を使用する。ゴールは、染色体ごとにデータベースを構成することである。この例において、前記CTW方法は、各染色体、すなわち本例において染色体1,2,3,5,8,9,10,14に対して前記モデル及びパラメータセットを推定するのに深度D=9(3つのコドンに対応する)を使用する。これらのモデル及びパラメータセットは、前記指標データベースに記憶される。前記クエリDNA配列は、人間のDNA配列フラグメントであり、ゴールは、これがいずれの染色体から来るのかを決定することである。染色体1,2,3,5,8,9,10,14に対応する前記指標付けされたDNA配列とともに図2の検索システムを使用して、前記クエリDNA配列フラグメントと異なる(指標付けされた)染色体に対応する前記モデル及びパラメータとの間の相互情報計量の推定値が、計算され、前記相互情報計量を最大化する染色体が、返される。図3は、複数のクエリ配列に対するこのような推定値の結果を提示する。図3において観測されるのは、提案された方法が、DNAのクエリピースがいずれの染色体からくるのかを正しく検出したことである。注意すべきは、前記クエリDNAフラグメントが、完全な染色体ではなく、むしろ、DNA配列長NのクエリフラグメントyNが、長さTの指標付けされた(完全な染色体)DNA配列xTの小さな一部であることである。
【0041】
例示的な実施例は、例として意図され、多くの変形例が考えられる。例えば、CTWが、例示的実施例において採用されているが、様々な有限長マルコフ連鎖モデル又は可変次数マルコフモデルのような、他の有限記憶木ソースモデルが、採用されることができる。一般に、前記アプローチは、(好ましくは暗号化された)データベース28に記憶されたDNA(又はRNA)配列に対する配列モデルを有する配列指標20を生成する。データベース28に記憶された各DNA(又はRNA)配列に対する配列モデルは、有限記憶木ソースモデル及び前記有限記憶木ソースモデルに対するパラメータを有する。説明用の例において、各指標付けされたDNA配列xTに対する前記配列モデルは、CTWを使用してxTから算出されたモデル及びパラメータセット{SxiSxi}である。
【0042】
検索フェーズにおいて、データベース28に記憶された1以上のDNA(又はRNA)配列は、クエリDNA(又はRNA)配列40に対する前記配列モデルのフィッティングに基づいて前記クエリDNA(又はRNA)配列に最も類似しているとして識別される。例示的な実施例において、符号語長は、前記クエリDNA配列に対する前記配列モデルのフィッティングを評価するのに使用される。より一般的には、前記有限記憶木ソースモデルを使用して達成可能な前記クエリDNA配列の圧縮の量を測定するいかなる圧縮計量も、モデルフィットを評価するのに使用されることができる。前記圧縮計量が、より高いレベルの圧縮が前記クエリDNA(又はRNA)配列に前記モデルを適用することにより達成可能であることを示す場合に、前記配列モデルは、前記クエリDNA(又はRNA)配列に、より良好にフィットする。
【0043】
例示的な類似性(又は比較)計量は、(近似)情報利得(又は、同等に、相互情報量又はエントロピの変化)表現として定式化される。式(2)は、一例である。しかしながら、これらは、場合により単純化されることができる。例えば、Nによる正規化は、1つのクエリDNA配列のみが存在する(したがってNが全ての場合において同じである)場合には、式(2)において省略されてもよい。実際に、1つのクエリDNA配列のみが、前記検索において採用されている場合、前記類似性計量は、Lctw(yN)項がこの場合に一定のオフセットであるので、L(yN|SxiSxi)単独で与えられる推定符号語(すなわち圧縮計量)にされることができる。近似情報利得を得るために、前記類似性又は比較計量は、前記クエリDNA(又はRNA)配列から算出された有限記憶木ソースモデルを使用して前記クエリDNA(又はRNA)配列を圧縮するために得られた(CTW符号語長推定値のような)圧縮計量の値(これは説明的な例において(1/N)Lctw(yN)である)を、前記データベースの前記DNA(又はRNA)配列から算出された前記配列モデルを使用して前記クエリDNA(又はRNA)配列に対して得られた前記比較計量の値(これらは説明定な例において(1/N)L(yN|SxiSxi)である)と適切に比較する。
【0044】
本発明は、好適な実施例を参照して記載されている。明らかに、修正例及び変更例は、先行する詳細な記載を読み、理解すると他者が思いつく。本発明が、添付の請求項又はその同等物の範囲内に入る限り、全てのこのような修正例及び変更例を含むと解釈されるべきである。
図1
図2
図3