【文献】
Z. Dawy ea al,Mutual information based distance measures for classification and content recognition with applications to genetics ,Communications, 2005. ICC 2005. 2005 IEEE International Conference on,IEEE,2005年 5月16日,pages 820-824,DOI: 10.1109/ICC.2005.1494466,
【文献】
Kertesz-Farkas A,The Application of Data Compression-Based Distances to Biological Sequences,Springer, Boston, MA,2009年,pp 83-100,DOI: https://doi.org/10.1007/978-0-387-84816-7_4, Print ISBN: 978-0-387-84815-0, Online ISBN: 978-0-387-84816-7
(58)【調査した分野】(Int.Cl.,DB名)
データベースに記憶されたデオキシリボ核酸(DNA)又はリボ核酸(RNA)配列に対する配列モデルを有する配列指標を生成するステップであって、当該生成するステップは、有限記憶木ソースモデル及び前記有限記憶木ソースモデルに対するパラメータとして前記データベースに記憶された各DNA又はRNA配列に対する前記配列モデルを計算するステップを含み、前記配列モデルが、文脈木重み付け(CTW)を使用して計算される、ステップと、
クエリDNA又はRNA配列に前記配列モデルを適用すること、並びにどれだけ良好に各配列モデルが前記クエリDNA又はRNA配列にフィットするかを決定することに基づいて前記クエリDNA又はRNA配列に最も類似しているものとして前記データベースに記憶された1以上のDNA又はRNA配列を識別するステップと、
を含む方法を実行するように電子データ処理装置により実行可能な命令を記憶する非一時的記憶媒体。
前記識別するステップが、前記配列モデルを使用し、前記データベースに記憶された前記DNA又はRNA配列を使用しない、請求項1乃至2のいずれか一項に記載の非一時的記憶媒体。
【発明を実施するための形態】
【0015】
ここに開示されるのは、(例えば固定又は可変次数)マルコフモデル又は文脈木重み付け(CTW)モデル(ここで使用される例示的アプローチ)等のような有限記憶木ソースモデルを使用してDNA配列(又は、より一般的に、ゲノム配列、例えばDNA配列又はRNA配列等)を指標付けするアプローチである。前記DNA配列に対する指標記録が、構築され、前記モデル及びパラメータを含む。この場合、CTWを使用してクエリDNA配列の直接的なモデル化により推定される符号語長と比較される、クエリDNA配列に対して同じ有限記憶木モデルを使用して得られる推定符号語長は、前記クエリ及び指標DNA配列の類似性を定量的に評価する比較計量として機能する。前記符号長比較は、例えば、エントロピ又は情報利得(IG)又は同様の手段のような相互情報計量を使用して計算される。
【0016】
このアプローチは、前記有限記憶木ソースモデル及びパラメータのみが、プレーンテキストで、すなわち暗号化されずに記憶されるので、DNA配列がデータベースに記憶される患者のプライバシを保護する。有限長の部分配列の使用は、結果として生じるモデル及びパラメータが元のDNA配列より大幅に少ない情報を含むので、患者プライバシを保証し、前記有限記憶木ソースモデルの出力は、実際に本質的に統計的である。前記指標づけされたDNA配列(のセット)に対する前記モデル及びそのパラメータは、事前に計算されるので、検索は高速である。開示された類似性計量は、相互情報量が検索基準として使用されるので、編集又は設定距離のような他の軽量より柔軟かつ表現豊かである。ここに開示されるように、相互情報量は、ゲノム配列の時間的構造を探索する順次的なユニバーサル圧縮方法に基づいて適切に推定される。
【0017】
図1を参照すると、DNA配列を記憶及び指標付けする例示的システムが、記載される。(ここでx
Tとして示され、上付き文字TがDNA配列長を示す)指標付けされるべきDNA配列10は、DNA配列10の代表的有限記憶木ソースモデルを生成するように処理される。この実例において、前記有限記憶木ソースモデルは、CTW方法を使用して計算される文脈木重み付け(CTW)モデルである。DNA配列x
Tに適用されるモデル化モジュール12の出力14は、前記有限記憶木ソースモデル及びそのパラメータである。例示的なCTWモデル化において、前記文脈木モデル(すなわち文脈又は部分配列)は、S
xとして(又はモデル化されたDNA配列x
Tのアイデンティティが明らかである場合に、より単純にSとして)示され、前記パラメータは、ここでΘ
Sxとして(又はモデル化されたDNA配列x
Tのアイデンティティが明らかである場合に、より単純にSとして)示される、条件付き確率を有する。好ましくは、記述的注釈が、匿名アノテータ16を介して提供される。患者プライバシが重要である応用において、前記注釈は、匿名であるべきであるが、DNA配列10のソースの関連する記述を構成すべきであり、例えばデモグラフィック情報、又は臨床情報等により前記ソースを記述する。前記応用が、匿名性を必要としない場合、アノテータ16は、前記注釈に対象識別子を含めてもよい。指標記録フォーマッタ18は、前記モデル及びパラメータ14並びに前記注釈を含む指標記録を構築し、前記指標記録は、電子健康記録(EHR)、又は学問上の目的で採用されるDNAリポジトリ指標等のような、データベース20に記憶される。
【0018】
前記指標記録は、例えばDNA配列x
Tに対する(S
x,Θ
Sx)として表されるモデル及びパラメータ14を含む。これは、DNA配列x
Tを表すが、近似的表現であり、DNA配列x
Tが導出された対象を識別するには不十分である。したがって、DNA配列x
Tは、適切に安全なフォーマットで別に記憶される。このために、
図1の例示的な実施例において、高度暗号規格(AES暗号)に適合する暗号化アルゴリズムを採用する暗号化モジュール24は、DNA配列10を暗号化する。前記暗号化モジュールは、セキュリティ暗号化を実行し、オプションとして、結合された圧縮/暗号化アルゴリズムにより統合的に又は別のオペレーションのいずれかでロスレス圧縮を実行する。データベース記録フォーマッタ26は、暗号化された(及びオプションとして圧縮された)DNA配列をフォーマット化し、これを暗号化DNA配列データベース28に記憶する。
【0019】
図1を参照し続けると、前記指標付けシステムは、以下のように適切に物理的に実現される。コンピュータ30又は他の電子データ処理装置(例えばコンピュータ、又はセキュア暗号化伝送プロトコルによりリンクされたインターネットベースのサーバ等)は、データ処理モジュール12、18、24、26を実施するように適切にプログラムされる。匿名アノテータ16は、例えば、EHR又は他のデータベースからデモグラフィック又は他の関連情報を抽出する完全自動化システムとして、様々な形で実施されえ、当該情報の匿名化を適切に、又は人間のオペレータが前記関連情報を入力することを可能にするのにユーザインタフェース(例えば例示的なディスプレイ32及びキーボード34)を採用する半自動化システムとして、実行する。DNA配列指標データベース20は、磁気ディスク、個別ディスクの冗長アレイ(RAID)、又は光ディスク等のような非一時的記憶媒体36上で適切に実施される。同様に、暗号化DNA配列データベース28は、磁気ディスク、個別ディスクの冗長アレイ(RAID)、又は光ディスク等のような非一時的記憶媒体38上で適切に実施される。
【0020】
例示的な
図1において、同じコンピュータ30が、指標付けモジュール12、18及びアノテータ16又はその自動化された部分、並びに配列暗号化及び記憶モジュール24、26の両方を実施するのに対し、物理的に離れたデータ記憶媒体36、38が、指標20及びデータベース28をそれぞれ記憶する。このアプローチは、(単一のコンピュータ30が適切に使用されるように)ワークフローブロックとして記憶及び指標付けされるべきDNA配列に対して典型的であり、指標20及びデータベース28を別の媒体上で保持することがセキュリティを強化することができるので、有利であることができる。このアプローチにおいて、DNA配列10に対する指標記録は、データベース28に記憶された暗号化DNA配列記録に対するリンクを記憶する(データベース記録フォーマッタ26を指標記録フォーマッタ18に接続し、前記指標記録における包含のために前記リンクを後者に伝えることを示す点線矢印により
図1に概略的に示される)。
【0021】
代替的な物理的実施が可能であると理解される。例えば、別々のコンピュータが、それぞれ、指標付けオペレーション12、16、18及び暗号化/記憶オペレーション24、26を実施するのに使用されることができる。加えて又は代わりに、前記暗号化されたDNA配列及び対応する指標記録は、同じ物理的非一時的記憶媒体に記憶されることができる。他の変形例として、前記指標記録の要素として前記暗号化されたDNA配列を含めることにより指標20及び暗号化DNA配列データベース28を結合することが考えられる。これは、AES又は他の暗号化プロトコルが十分に安全であると見なされる場合に適切でありうる。(いかなる事象においても、復号鍵は、別々に、又は何らかの他の安全な形で記憶されるべきである)。
【0022】
以下に、例示的なCTWモデル化モジュール12のオペレーションが、更に記載される。
【0023】
前記文脈木重み付け(CTW)方法(Willems et al., The Context Tree Weighting Method: Basic Properties, IEEE transactions on Information theory, 1995)は、深度が指定された最大深度Dを超過しない全ての木モデルに対応する符号化分布(coding distribution)を計算する。前記分布は、算術的符号化技術を使用して観測されたDNA配列10を圧縮するのに使用されることができ、これは、結果として小さな冗長性を持つ符号語を生じる。実際に、実際の圧縮は、実行される必要がなく、むしろ、ここに開示された技術は、前記DNA配列を圧縮するのに前記モデルを使用して得られる圧縮の量を示す符号語長を推定する。ソース配列の長さにより除算される符号語長は、エントロピの良好な推定値を与える。
【0024】
DNA配列構造は、アミノ酸に対して及び後で順次的な形でタンパク質に対して符号化するようなものである。x
Tが観測されたDNA配列10を示すとする。(より一般的には、x
Tは、同じ文脈木モデル及びパラメータにより一緒にモデル化される配列のセットを示すことができる)。この場合、CTWは、P(x
T)を推定するのに使用されることができ、ここでx
Tは、アルファベットA={1,2,3,4}からの値を持つベクトルとして適切に表される。(DNAアルファベットが、典型的には{A,T,G,C}として表され、Aがアデニンを示し、Tがチミンを示し、Gがグアニンを示し、Cがシトシンを示すのに対し、RNAアルファベットは、典型的には{A,U,G,C}であり、チミンがウラシルを表すUにより置き換えられることに注意する。アルファベットA={1,2,3,4}は、一般性を失うことなしにここで使用される。例えばメチル化のような情報を取得するように、4つより多いシンボルを持つアルファベットを採用することも考えられる。)x
Tで、観測された配列x
T内の位置tにおけるアルファベットAからのシンボルを示す。前記DNA配列に対する統計モデルは、前記文脈木を構築し、前記CTWアルゴリズムを使用して分布P(x
T)を、P(x
t|{x
t-b,b∈B})として推定することにより推定され、ここでBは、適切な整数のセットである。「文脈」{x
t-b,b∈B}は、x
Tの|B|の異なる場所から得られたアルファベットAからの値のセットからなる。典型的には、Bは、(最大深度Dまでの)x
Tに先行する値のセットとして記される。(前記観測されたDNA配列において実際に生じた)全ての可能な文脈は、確率分布P(x
t|{x
t-b,b∈B})と一緒に、それぞれ、文脈木(モデル)及びパラメータを構成する。
【0025】
前記CTWアルゴリズムの出力は、前記文脈木モデル及び条件付き確率{S,Θ
S}である。所定のDNA配列に対して、前記DNA配列が{S,Θ
S}を使用して圧縮された場合に得られる圧縮の量は、推定された符号語長Lにより特徴づけられることができる。ここに開示されるように、前記CTW方法は、ツーパスアプローチで使用されることもでき、第1のステップにおいて、統計モデル{S,Θ
S}が、観測されたDNA配列に対して算出され、第2のステップにおいて、前記モデルを使用して達成可能な前記DNA配列の圧縮の量を示す前記符号語長が、推定される。前記推定は、第1のパスにおいて得られる{S,Θ
S}により提供される固定の条件付き確率に基づき、比較すると、従来の(単一パス)CTWにおいて、前記符号語長は、各シンボルが処理されると常に更新されている確率に基づいて計算される。ここに更に開示されるように、このツーパスアプローチは、1つのDNA配列(一般に一緒にモデル化された基準又は指標配列のセットでありうる、基準又は指標付けされた配列)に前記第1のステップを実行し、次いで、結果として生じるモデルを、第2の(クエリ)DNA配列に対する符号語長を推定するのに使用することにより、2つの異なるDNA配列に対する類似性計量を規定するように拡張されることができる。前記モデルは、前記指標付けされたDNA配列から算出されたので、これは、前記指標付けされたDNA配列に対する最適に短い符号語長を生成すべきである。他方で、前記モデルが、前記クエリDNA配列に適用される場合、前記符号語長は、前記クエリDNA配列が前記指標付けされたDNA配列にどれだけ類似しているかに依存する。これらが類似している場合、前記モデルは、良好に「フィット」し、短い推定符号語長に対応する高い度合の圧縮を提供する。他方で、これらが類似していない場合、フィットが貧弱であり、前記クエリ配列に対する推定符号語長は、最適なモデルに対して得られるものより長い。前記クエリ配列から算出されたモデルに対して得られた符号語長は、適切な基準長さを提供する。例示的な定量的定式化は、以下のとおりである。
【0026】
観測されたDNA配列x
Tを検討する。{S,Θ
S}は、Dより大きくない深度の木ソースを記述するモデル(文脈)及びパラメータセット(条件付き確率)であると仮定する。この例において、{S,Θ
S}が必ずしもx
Tから算出されないことに注意する。パラメータ{S,Θ
S}を持つモデルが、DNA配列x
Tを圧縮するのに使用される場合、圧縮された配列の長さは、
により与えられ、式(1)において、
は、Sから文脈への
のマッピングであり、
は、部分配列
がx
Tにおいて観測された後に生じるシンボルx
Tの確率である。{S,Θ
S}が、x
Tを生成した実際のソースを記述する場合(例えば、上の例において、x
Tが前記指標付けされたDNA配列である場合)、L(x
T|x
1-D,S,Θ
S)は、最小の符号語長である理想的な符号語長に対応する。しかしながら、{S,Θ
S}が、何らかの他のソースを記述する場合(例えば、上の例において、x
Tが前記クエリ配列である場合)、L(x
T|x
1-D,S,Θ
S)は、(少なくとも一般的には)前記モデルが他のDNA配列に対して算出され、観測されたDNA配列x
Tを効果的に記述しないので、前記理想的な符号語長より大幅に大きい。前記CTW方法が、観測された(DNA)配列のモデル及びパラメータを推定するのに使用される場合、結果として生じる符号語長は、前記理想的な符号語長から最小の距離(冗長性)を持つ。
【0027】
類似性計量は、前記符号語長が、どれだけ良好に前記モデルが前記DNA配列にフィットするかを示し、前記DNA配列の符号語長が、式(1)の符号語長推定を使用して推定されるという、この概念を使用して規定されることができる。y
N及びx
Tが、必ずしも同じ長さではない2つの観測されたDNA配列であると仮定する。前の例に対する類推において、x
Tが長さTの指標付けされたDNA配列であるとし、y
Nが長さNのクエリDNA配列であるとする。{S
x,Θ
Sx}が、前記CTW方法を使用してx
Tに対して算出されたモデル及びパラメータセットであるとする。有利には、{S
x,Θ
Sx}は、指標付けされたDNA配列x
T10に対して事前に計算され、
図1を参照して記載されるようにDNA指標20に記憶されてもよい。更に、L
ctw(y
N)が、前記CTW方法を使用して推定される(クエリ)DNA配列y
Nに対する符号語長であるとする。換言すると、L
ctw(y
N)は、クエリDNA配列y
Nに対して算出されたモデル{S
y,Θ
Sy}を使用して得られる符号語長である。したがって、L
ctw(y
N)は、前記CTW方法を使用してy
Nに対して取得可能な最適な(すなわち最短の)符号語長である。この場合、差
が、計算されることができる。式(2)の差は、x
Tの分布がy
Nを記述(圧縮)するためにy
Nの代わりに使用される場合に、どれだけが得られることができるかを示すことが見られる。利得が高い場合、{S
x,Θ
Sx}は、y
Nに良好にフィットするソースを記述し、したがって、我々は、y
N及びx
Tの両方が同じソースにより生成されることを仮定し、これらが類似していると見なすことができる。利得が低い場合、{S
x,Θ
Sx}を使用して推定されるy
Nに対する符号語長は、非常に高い冗長性を持ち、{S
x,Θ
Sx}は、y
Nを圧縮する助けにならず、これは、他のタイプの(DNA)配列を生成する他のソースに対応することを意味する。したがって、我々は、y
N及びx
Tが異なるソースにより生成され、これが類似していないと言うことができる。一般に、利得が高いほど、モデル及びパラメータセット{S
x,Θ
Sx}が、配列y
Nを、より良好に記述する。したがって、{S
x,Θ
Sx}を持つソースがy
Nを生成したことは、更にもっともらしい。
【0028】
前記CTW方法を使用して推定されたソースシンボルごとの符号語長は、前記DNAソース配列のエントロピの推定値を与える。したがって、式(2)の類似性計量は、DNA配列y
NとDNA配列x
Tを生成したDNAソースとの間の相互情報量の推定値でもある。式(2)により提供される相互情報量の推定値は、過小評価である。これは、相互情報量が真に非負であるので、見られることができる。対照的に、式(2)は、最適な(最小の)符号語長であるL
ctw(y
N)と、非最適な(したがってより大きい)符号語長であるL(y
N|S
x,Θ
Sx)との間の(1/Nによりスケーリングされた)差を取る。後に続くのは、式(2)が、一般的に、厳密に非負の真の相互情報値より一般的に小さい、負の値を取り上げることができる。式(2)により与えられる相互情報量の過小評価は、部分的に、第2項の符号化冗長性の結果として生じる。前記過小評価は、類似性計量としての式(2)の有用性を否定しないが、しかしながら、より高い類似性(すなわちより大きな情報利得)が、式(2)の類似性計量により出される「より小さい負」値により示される。
【0029】
先行する記載の観点から、クエリDNA配列y
Nと、モデル及びパラメータセット{S
x,Θ
Sx}が事前に計算され、指標データベース20に記憶される、指標付けされたDNA配列x
Tとの間の類似性を測定する類似性計量Iは、式(2)を使用して適切に計算される、又は換言するとI(y
N;x
T, {S
x,Θ
Sx})は、式(2)を使用して適切に推定される。
【0030】
一例として、クエリDNA配列y
Nに最も類似しているDNA配列指標20内の指標付けされたDNA配列x
Tを見つける問題を検討する。これは、
を見つけることになる。{S
x,Θ
Sx}が、x
Tの関数である場合、データ処理不等式、
による。{S
x,Θ
Sx}が、y
Nを生成したソースにマッチする場合、前記不等式は、等式になる。最も類似している指標付けされたDNA配列は、I(Y
N; {S
x,Θ
Sx})を最大化するものである。
【0031】
ここで
図2を参照すると、クエリDNA配列y
Nに類似しているDNA配列を識別するように
図1のシステムにより生成されたDNA配列指標20を検索するシステムが、記載される。クエリDNA配列y
N40が、受け取られる。文脈木重み付け(CTW)モジュール12(
図1の指標付けシステムと併せて既に記載されている)は、クエリDNA配列y
Nに対するモデル及びパラメータ{S
y,Θ
Sy}を算出するのに使用され(これはツーパスバージョンのCTWの第1のパスである)、符号語長推定器モジュール42は、{S
y,Θ
Sy}を使用して得られた最適な(最小の)符号語長L
ctw(y
N)を推定するのに式(1)を使用する。
【0032】
各指標付けされたDNA配列x
Tは、次いで、現在試験下の指標付けされたDNA配列x
Tに対する指標エントリを検索する検索モジュール52を起動することにより開始する、試験ループ50の反復により試験される。この指標エントリは、CTWを使用して(すなわち、
図1を参照して記載されたCTWモジュール12により)x
Tに対して算出されたモデル及びパラメータセット{S
x,Θ
Sx}を提供する。オペレーション54において、式(1)は、x
Tに対して算出されたモデル及びパラメータセット{S
x,Θ
Sx}を使用してモデル化されたクエリ配列y
Nに対して(非最適、及び一般的により大きい)符号語長L(y
N|S
x,Θ
Sx)を推定するのに再び使用される。換言すると、オペレーション54は、ツーパスCTWアルゴリズムの第2のパスを実行するが、x
Tに対して算出されたモデル及びパラメータセット{S
x,Θ
Sx}を使用する。試験ループ50は、相互情報量の推定値(1/N)L
ctw(y
N)−(1/N)L(y
N|S
x,Θ
Sx)を計算することにより終了する。
【0033】
代案として、オペレーション54は、省略されることができ、式(2)の最後の表現が、(1/N)L
ctw(y
N)−(1/N)L(y
N|S
x,Θ
Sx)を直接的に計算するのに、代わりに使用されることができる。
【0034】
試験ループ50は、試験下の各指標付けされたDNA配列x
Tに対して繰り返される。(これは、DNA指標20において指標付けされたあらゆるDNA配列であってもよく、又は代わりに、匿名化された注釈に基づいてフィルタリングすることにより生成される前記指標のサブセットであってもよい)。セレクタモジュール60は、次いで、クエリDNA配列y
Nに最も類似している1つ(又はそれ以上)の指標付けされたDNA配列を選択する。これは、例えば式(3)により、単一の最も類似している指標付けされたDNA配列を選択してもよく、又は「上位K」の最も類似している指標付けされたDNA配列が、選択されてもよく(すなわち、最も高い相互情報量を持つKの指標付けされたDNA配列)、「上位K」の最も類似している指標付けされたDNA配列は、相互情報計量により測定される類似性によりランク付けされ、又は閾値が使用されてもよく、例えば相互情報計量が閾値を超過する全ての指標付けされたDNA配列が、選択される、又はその他である。出力モジュール62は、次いで、セレクタモジュール60により選択された前記1以上の最も類似している指標付けされたDNA配列を表示する又は他の形で人間知覚可能形式で提示する。
【0035】
図2の説明的な例において、処理コンポーネント12、42、50、60、62は、処理コンポーネント12、42、50、60、62の機能を実施する適切なソフトウェアにより、指標付けモジュール12、18、24、26を実施する同じコンピュータ30又は他の電子データ処理装置により実施される。代わりに、異なるコンピュータが、それぞれ
図1及び2のシステムにより実行される指標付け及び検索オペレーションに対して使用されてもよい。出力モジュール62は、前記選択された指標付けされたDNA配列に関する情報をディスプレイ32上に表示してもよく、又はこの情報を他のコンピュータ(例えば暗号化DNA配列データベース28に対するアクセスを制御するリポジトリコンピュータ)に送信してもよく、又は(プリンタ又は他のマーキングエンジンと連動して)印刷されたレポートを生成してもよく、又はその他であってもよい。これが、データセキュリティ及び対象プライバシを危険にさらすので、出力モジュール62が、典型的には、実際の指標付けされたDNA配列を実際に符号及び提供しないと理解されるべきである。むしろ、前記出力モジュールは、(クエリDNA配列y
Nに対する類似性に基づいて)関心配列を識別子、実際の配列は、適切なセキュリティ検査処理が実行された後に復号され、認可された個人に提供される。
【0036】
DNA配列指標付けモジュール12、18、24、26及び/又はDNA配列検索モジュール12、42、50、60、62が、指標付けモジュール12、18、24、26及び/又は検索モジュール12、42、50、60、62の機能を実行するようにコンピュータ30により実行可能な命令(すなわちソフトウェア)を符号化する非一時的記憶媒体として実施されうるとも理解されるべきである。前記非一時的記憶媒体は、例えば、ハードディスクドライブ又は他の磁気記憶媒体、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、フラッシュメモリ又は他の電子記憶媒体、光ディスク又は他の光記憶媒体、又はこれらの様々な組み合わせ等の1以上を有してもよい。
【0037】
簡潔な総括のために、
図1の例示的な指標付けシステムの実施例は、DNA配列(のセット)x
iTi,i=1,2,...,nのDNAデータベース28及び対応する匿名化されたDNA配列指標20を作成することを含む指標付けを実行する。これを行うために、モデル及びパラメータ{S
xi,Θ
Sxi}は、前記CTW方法を適用することにより各DNA配列(のセット)x
iTi,i=1,2,...,nに対して推定され、{S
xi,Θ
Sxi}セットは、他の関連情報(すなわち、注釈、オプションとして匿名化される)と一緒に指標データベース20に記憶される。
【0038】
図2の検索プロセスは、クエリ(例)DNA配列y
N40を与えられる。前記CTWアルゴリズムが、適用され、ソースシンボルごとの符号語長(1/N)L
ctw(y
N)が、モジュール12、42を使用してy
Nに対して推定される。指標データベース20内の各DNA指標記録i,i=1,2,...,nに対して、前記符号語長は、{S
xi,Θ
Sxi}を仮定して、y
N内の部分配列をS
xiからの文脈にマッピングし、対応するパラメータを使用して
を計算する(CTW第2パスモジュール54)ことによりy
Nに対して推定される。(y
Nからのある部分配列に対するS
xi内に文脈が存在しない場合、対応するパラメータは、1/2のような何らかの適切な値に適切にセットされる。)情報利得推定値(1/N)L
ctw(y
N)−(1/N)L(y
N|S
xi,Θ
Sxi)を最大化するDNA配列を指標付けする記録
が、選択され(モジュール60)、前記関連情報が、クエリを行っているパーティに返される(モジュール62)。
【0039】
指標データベース20において、DNA配列(のセット)に対応するモデル及びパラメータセット{S
xi,Θ
Sxi}を記憶することのみを必要とすることが理解される。この情報は、実際の配列を生成したソースの確率的特徴のみを提供するので、単独では、前記DNA配列を再構成するのに使用されることができない。
【0040】
図3を参照すると、開示された検索プロセスの説明的な例が、記載される。この例は、GenBankからの14のDNA配列を使用する。ゴールは、染色体ごとにデータベースを構成することである。この例において、前記CTW方法は、各染色体、すなわち本例において染色体1,2,3,5,8,9,10,14に対して前記モデル及びパラメータセットを推定するのに深度D=9(3つのコドンに対応する)を使用する。これらのモデル及びパラメータセットは、前記指標データベースに記憶される。前記クエリDNA配列は、人間のDNA配列フラグメントであり、ゴールは、これがいずれの染色体から来るのかを決定することである。染色体1,2,3,5,8,9,10,14に対応する前記指標付けされたDNA配列とともに
図2の検索システムを使用して、前記クエリDNA配列フラグメントと異なる(指標付けされた)染色体に対応する前記モデル及びパラメータとの間の相互情報計量の推定値が、計算され、前記相互情報計量を最大化する染色体が、返される。
図3は、複数のクエリ配列に対するこのような推定値の結果を提示する。
図3において観測されるのは、提案された方法が、DNAのクエリピースがいずれの染色体からくるのかを正しく検出したことである。注意すべきは、前記クエリDNAフラグメントが、完全な染色体ではなく、むしろ、DNA配列長Nのクエリフラグメントy
Nが、長さTの指標付けされた(完全な染色体)DNA配列x
Tの小さな一部であることである。
【0041】
例示的な実施例は、例として意図され、多くの変形例が考えられる。例えば、CTWが、例示的実施例において採用されているが、様々な有限長マルコフ連鎖モデル又は可変次数マルコフモデルのような、他の有限記憶木ソースモデルが、採用されることができる。一般に、前記アプローチは、(好ましくは暗号化された)データベース28に記憶されたDNA(又はRNA)配列に対する配列モデルを有する配列指標20を生成する。データベース28に記憶された各DNA(又はRNA)配列に対する配列モデルは、有限記憶木ソースモデル及び前記有限記憶木ソースモデルに対するパラメータを有する。説明用の例において、各指標付けされたDNA配列x
Tに対する前記配列モデルは、CTWを使用してx
Tから算出されたモデル及びパラメータセット{S
xi,Θ
Sxi}である。
【0042】
検索フェーズにおいて、データベース28に記憶された1以上のDNA(又はRNA)配列は、クエリDNA(又はRNA)配列40に対する前記配列モデルのフィッティングに基づいて前記クエリDNA(又はRNA)配列に最も類似しているとして識別される。例示的な実施例において、符号語長は、前記クエリDNA配列に対する前記配列モデルのフィッティングを評価するのに使用される。より一般的には、前記有限記憶木ソースモデルを使用して達成可能な前記クエリDNA配列の圧縮の量を測定するいかなる圧縮計量も、モデルフィットを評価するのに使用されることができる。前記圧縮計量が、より高いレベルの圧縮が前記クエリDNA(又はRNA)配列に前記モデルを適用することにより達成可能であることを示す場合に、前記配列モデルは、前記クエリDNA(又はRNA)配列に、より良好にフィットする。
【0043】
例示的な類似性(又は比較)計量は、(近似)情報利得(又は、同等に、相互情報量又はエントロピの変化)表現として定式化される。式(2)は、一例である。しかしながら、これらは、場合により単純化されることができる。例えば、Nによる正規化は、1つのクエリDNA配列のみが存在する(したがってNが全ての場合において同じである)場合には、式(2)において省略されてもよい。実際に、1つのクエリDNA配列のみが、前記検索において採用されている場合、前記類似性計量は、L
ctw(y
N)項がこの場合に一定のオフセットであるので、L(y
N|S
xi,Θ
Sxi)単独で与えられる推定符号語(すなわち圧縮計量)にされることができる。近似情報利得を得るために、前記類似性又は比較計量は、前記クエリDNA(又はRNA)配列から算出された有限記憶木ソースモデルを使用して前記クエリDNA(又はRNA)配列を圧縮するために得られた(CTW符号語長推定値のような)圧縮計量の値(これは説明的な例において(1/N)L
ctw(y
N)である)を、前記データベースの前記DNA(又はRNA)配列から算出された前記配列モデルを使用して前記クエリDNA(又はRNA)配列に対して得られた前記比較計量の値(これらは説明定な例において(1/N)L(y
N|S
xi,Θ
Sxi)である)と適切に比較する。
【0044】
本発明は、好適な実施例を参照して記載されている。明らかに、修正例及び変更例は、先行する詳細な記載を読み、理解すると他者が思いつく。本発明が、添付の請求項又はその同等物の範囲内に入る限り、全てのこのような修正例及び変更例を含むと解釈されるべきである。