特許第5746618号(P5746618)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5746618
(24)【登録日】2015年5月15日
(45)【発行日】2015年7月8日
(54)【発明の名称】スペクトルDNA解析
(51)【国際特許分類】
   G06F 19/26 20110101AFI20150618BHJP
【FI】
   G06F19/26
【請求項の数】14
【全頁数】20
(21)【出願番号】特願2011-514172(P2011-514172)
(86)(22)【出願日】2009年6月12日
(65)【公表番号】特表2011-525023(P2011-525023A)
(43)【公表日】2011年9月8日
(86)【国際出願番号】IB2009052517
(87)【国際公開番号】WO2009153722
(87)【国際公開日】20091223
【審査請求日】2012年6月8日
(31)【優先権主張番号】08158610.9
(32)【優先日】2008年6月19日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(72)【発明者】
【氏名】ブカール,アンカ イー デー
(72)【発明者】
【氏名】ファン レーウェン,ヤスペル イェー アー
(72)【発明者】
【氏名】ディミトロヴァ,ネヴェンカ
(72)【発明者】
【氏名】ミッタル,チェタン
【審査官】 松野 広一
(56)【参考文献】
【文献】 特開2006−259789(JP,A)
【文献】 SUSSILLO D ET AL,SPECTROGRAM ANALYSIS OF GENOMES,EURASIP JOURNAL ON APPLIED SIGNAL PROCESSING,米国,HINDAWI PUBLISHING CORPORATION,2004年 1月 1日,V2004 N1,P29-42
【文献】 ANASTASSIOU DIMITRIS,FREQUENCY-DOMAIN ANALYSIS OF BIOMOLECULAR SEQUENCES,BIOINFORMATICS,英国,OXFORD UNIVERSITY PRESS,2000年12月 1日,V16 N12,P1073-1081
【文献】 RENJUN Y ET AL,SPECTROGRAM ANALYSIS OF GENOME SMALL PATTERNS USING PSEUDO SMOOTHED WIGNER-VILLE DISTRIBUTION,5TH INTERNATIONAL CONFERENCE ON INFORMATION COMMUNICATIONS AND SIGNAL PROCESSING,米国,IEEE,2005年 1月 1日,P1044-1047
【文献】 SHARMA DEEPAK,SPECTRAL REPEAT FINDER(SRF):IDENTIFICATION OF REPETITIVE SEQUENCES USING FOURIER TRANSFORMATION,BIOINFORMATICS,英国,OXFORD UNIVERSITY PRESS,2004年 6月12日,V20 N9,P1405-1412
(58)【調査した分野】(Int.Cl.,DB名)
G06F 19/10−19/28
(57)【特許請求の範囲】
【請求項1】
コンピュータシステムによってDNA配列を解析する方法であって
前記コンピュータシステムのメモリによってDNA配列を読み出し、
前記コンピュータシステムのプロセッサによって、前記DNA配列を複数のバイナリインジケータ配列(BIS)に変換し、前記バイナリインジケータ配列を短時間フーリエ変換(STFT)に供し、それぞれのスペクトルが、対応する周波数(k)とフーリエ係数(Usk_X(k))とを含み、それぞれの種類のフーリエ係数がチャンネル(X)を構成して、
前記DNA配列に基づく複数のスペクトルを作成し、
前記プロセッサによって、周波数(K’)につきビニング関数(BF)を定義して、1又は2以上のチャンネル(X)について前記フーリエ係数(Usk_X(k))に対して適用可能とし、
前記プロセッサによって、前記ビニング関数(BF)を少なくとも一部の前記複数のスペクトルに適用し、それにより対応するフーリエ係数(Usk_X(k))を変更し、及び
前記プロセッサによって、実質的に等しい変更されたフーリエ係数(Usk_X(k))を、前記複数のスペクトルの前記部分で見出し及び
前記プロセッサによって、いかなる周波数及び/又はチャンネルにおける、最大数の前記実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組を持つスペクトル(S)の第1のグループが見出され、残りのスペクトルから分離され、残りのスペクトルは第2のグループを形成する、
ことを含む方法。
【請求項2】
前記複数のスペクトルの前記部分で、前記実質的に等しい変更されたフーリエ係数(Usk_X(k))を見出すことが、前記プロセッサによる、変更されたフーリエ係数(Usk_X(k))の分布の、前記ビニング関数(BF)に基づく定量的解析を含む、請求項1に記載の方法。
【請求項3】
前記コンピュータシステムによって、一組の周波数(K_i)につき繰り返される、請求項1に記載の方法。
【請求項4】
前記バイナリインジケータ配列の組が、前記プロセッサによって、結合関数を用いてより小さな一組のBISへ減少させられ、前記結合関数が、好ましくは、論理和(AND)関数である、請求項1に記載の方法。
【請求項5】
前記プロセッサによって、前記スペクトルの第2のグループ内で、前記最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組が見出され、分離される、請求項1に記載の方法。
【請求項6】
スペクトルの第1及び第2のグループへの分離が、先に見出された最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組を無視して、前記プロセッサによって繰り返される、請求項5に記載の方法。
【請求項7】
前記スペクトルの第1及び第2のグループへの分離が、
(i)最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組につき前もって決めてある閾値が見出されるまで、(ii)スペクトルの第1及び第2のグループへの分離が、前もって決めてある回数まで実施されるまで、又は(iii)前記スペクトルの第1及び/又は第2のグループが、単一の配列を有するまで、前記プロセッサによって繰り返される、請求項5又は6のいずれか1項に記載された方法。
【請求項8】
いかなる周波数及び/又はチャンネルの、最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組を持つスペクトル(S)の第1のグループが、前記プロセッサによって見出され、マークされる、請求項1又は3のいずれか1項に記載された方法。
【請求項9】
いかなる周波数及び/又はチャンネルの、最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組を持つスペクトルの第2のグループが、先に見出された最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組を無視して、前記プロセッサによって見出され、マークされる、請求項8に記載された方法。
【請求項10】
前記プロセッサによって、前記最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組が見出され、前記スペクトルのグループが、(i)最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組につき前もって決めてある閾値が見出されるまで、(ii)最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組の前もって決めてある数が見出されるまで、又は(iii)最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有する組が、単一の配列を有するまで、再順序付けされる、請求項8又は9のいずれか1項に記載された方法。
【請求項11】
第1の前もって決められた閾値(N_thres1)よりも上であることが見いだされた実質的に等しい変更されたフーリエ係数(Usk_X(k))の数を有するパターンを含むか又は、最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有するパターンk(kは整数)を含む、全てのグループのスペクトル(S)が、前記プロセッサによって見出され、そして残りのスペクトルと分離され、残りのスペクトルは第2のグループを形成する、請求項1又は3のいずれか1項に記載された方法。
【請求項12】
請求項11により分離されたスペクトルのそれぞれのグループが、パターンが有する実質的に等しい変更されたフーリエ係数(Usk_X(k))のについて第2の前もって決められた閾値(N_thre2)を用いて、又は最大数の実質的に等しい変更されたフーリエ係数(Usk_X(k))を有するパターンj(jはkと同じか又は異なる整数)を用いて、前記プロセッサによってさらに分離される、請求項11に記載された方法。
【請求項13】
スペクトルのグループへの分離が、
(i)パターンが有する実質的に等しい変更されたフーリエ係数(Usk_X(k))のにつき前もって決めてある閾値が見出されるまで、(ii)スペクトルの第1及び第2のグループへの分離が、前もって決めてある回数まで実施されるまで、又は(iii)前記スペクトルの第1及び/又は第2のグループが、単一の配列を有する変更されたフーリエ係数(Usk_X(k))の配列を含むまで、前記プロセッサによって繰り返される、請求項12に記載された方法。
【請求項14】
少なくとも1つのコンピュータを含むコンピュータシステムが、請求項1の方法を実施することができるように、適合された、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スペクトルDNA解析を実施する方法に関する。すなわち、DNA配列を、フーリエ変換を用いて、スペクトル空間に表現する。本発明はまた、対応する、コンピュータプログラムに関する。
【背景技術】
【0002】
DNA配列からDNAスペクトログラム法は過去に記載されている。例えばこのトピックにつき初期の参考文献としては、Benson等、Nucleic Acid Research. 18(21),p.6305−6310、及び18(10),3001−3006,1990がある。
【0003】
DNAスペクトログラムは、DNA配列をバイナリインジケータへ変換し、短時間フーリエ変換を施し、アウトプットを可視化するために色空間にマッピングすることで生成される。大多数の長い配列を、周波数ドメインで、系統学的、生物学的に比較することができるためには、これらの配列は、たとえ人の観察によってでも、類似性が(容易に)検出可能なように、可視化される必要がある。
【0004】
スペクトルドメインで、DNA解析を実施する利点は、従来のNスケールでの配列マッチングが避けられることである。ここで、Nは配列の核酸塩基の数である。US6,287,773には、すなわちスケールをNlog(N)として周波数ドメインに基づく比較方法が開示されており、これは長い配列、たとえば10,000核酸塩基のために、非常に有意に少ない計算時間ですむ方法である。
【0005】
DNA解析のための現在のスペクトル解析の利点をもってしても、データ量が巨大なために、いまだに、より速い及び/又はより効率的な解析ツールが必要とされている。例えば、ヒトゲノムの完全な染色体1は、2億4千700万核酸塩基長である。したがって、最近N.Dimitrova等により提案された「DNAスペクトログラムの解析及び可視化。ゲノム研究への可能性を開く」ACM MM、サンタバーバラ、CA、2006年10月、のような、いわゆるスペクトルビデオとしてDNAスペクトログラムを見ることもまた、時間のかかる退屈な仕事である。
【0006】
さらに、今日までの努力にもかかわらず、DNA配列情報の迅速解析を容易にする必要が残っている。また、類似のスペクトル特性を示す、構造的に又は成分組成的に類似パターンを同定するツールについての要求もある。
【0007】
配列並び替えに従来使われているクラスタアルゴリズムは、スペクトル解析には適しない。というのはこの方法では、個々の周波数で内容を解析する必要があるからである。標準のクラスタ方法ではグロ−バル距離メトリック(global distance metric)を含み、この場合、スペクトログラムに考慮される全ての周波数について適用されるものである。このような方法は、多くの周波数で強いパターンを検出することができるであろうが、その一方、個々の周波数での強いパターンを除いてしまうこともある。しかしながら、ある距離メトリックで考慮されるべき異なる周波数でのパターン間にはなんの関係もない。スペクトル解析において、単一の周波数での強い(長い)パターンは関係がある。
【0008】
それゆえ、DNA配列の改良された解析方法は有利となり、特により効率的及び/又は信頼できる方法は有利となろう。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は好ましくは、1又は2以上の上記説明した、1つの又はあらゆる組み合わせられる欠点を、軽減又は除去することを求めるものである。特に、本発明の目的として、上で説明したDNA配列の解析についての従来技術の問題を解決する方法を提供することである。
【課題を解決するための手段】
【0010】
この目的と、いくつかの他の目的は、DNA配列解析の方法を提供することにより、本発明の第一の側面により達成される。この方法は:
―DNA配列を提供し、
―前記DNA配列に基づき複数のスペクトルを作成し、DNA配列を複数のバイナリインジケータ配列(BIS)に変換、及び前記バイナリインジケータ配列を短時間フーリエ変換(STFT)に供し、それぞれのスペクトルが、対応する周波数(k)とフーリエ係数(Usk_X(k))を持ち、それぞれの種類のフーリエ係数がチャンネル(X)を構成し、
―周波数(K’)につきビニング関数(BF)を定義して、1又は2以上のチャンネル(X)について前記フーリエ係数(Usk_X(k))を適用可能とし、
−前記ビニング関数(BF)を、複数のスペクトルの少なくとも一部に適用し、それにより対応するフーリエ係数(Usk_X(k))を変更し及び
−前記複数のスペクトルの前記部分内で実質的に等しい変更されたフーリエ係数(Usk_X(k))を見出し、及び
いかなる周波数及び/又はチャンネルにおける、前記実質的に等しい変更されたフーリエ係数(Usk_X(k))の最大の一組を持つスペクトル(S)の第1グループが見出され、他のグループから分離され、他のグループは第2のグループを形成する、
すことを、含む。
【0011】
本発明は特に、しかしそれに限られず、使用者に、膨大な量のDNA配列データについて、特徴的な強いパターンを見出すための、非常に改良された能力を提供するという利点がある。さらに、個々の周波数の、又は一組の周波数、又は解析されるべきDNA配列の全ての周波数の全てのパターンについて、最も強いパターンであるパターン強度を抽出して評価することも可能である。
【0012】
本発明は、全てのDNA配列につき、完全に又は半自動化されたパターン検索で、かつ注釈と可視化環境を伴うパターン検索で、有益に実施されることができる。
【0013】
ビニング関数(BF)を使用することにより、「類似性」の測定に柔軟性をもたらすことができる。それにより、DNA配列における変動に対処する全ての関連するパターンを検出するために、データセットに適合させることができる。
【0014】
加えるに、本発明は、規模拡大可能であり、平行実施のために適している。それにより、異なる種のゲノムのような巨大なゲノムデータを通じて研究することを可能とする。
【0015】
この方法は、巨大なゲノム配列をそれらのスペクトルパターンに基づき、効率的かつ効果的に比較することができ、それにより遺伝子ホモロジ及びそれから系統的関連性を見出すことができる。
【0016】
配列間の共通するスペクトルパターンは、例えば、配列の核酸の周期的な繰り返しを同定することができるだろうし、及びコード領域又は非コード領域にある新規な繰り返し要素を発見することを助けるであろう。この他の方法では、核酸が周期的な間隔でランダムに配列された後は、特定の核酸だけの周期性のために「可視化」できないものであるからである。
【0017】
本発明の内容において、スペクトル解析についての他の方法もまた、有益に適用され得る。例えばPCT出願PH008112WO1(弁護士整理番号)、IB2008/051434(PCT出願番号)で記載されている方法である。
【0018】
ビニング関数は、切捨て、切り上げ、切り下げ、モジュラー関数及び/又は閾値関数、又はその他の関連するビニング関数であって熟練者に本発明と関連させて実施可能なものを含む。
【0019】
一般的に、ビニング関数(BF)は、全てのチャンネル(X)で定義される。そこでDNAチャンネルX={A,T,C,G}が変更され得る。しかし、あるいは、解析の要求によっては、チャンネルの一部分のセットだけを変更することもあり得る。
【0020】
有利には、複数のスペクトルの前記部分内で実質的に等しい変更されたフーリエ係数(Usk_X(k))を見出すことは、変更されたフーリエ係数(Usk_X(k))の、前記ビニング関数(BF)による分布の定量的解析を含む。従って、前記分布のプロッティング、すなわちヒストグラムのプロッティングを含む。これについて、又は他のグラフについては以下、より詳しく説明される。
【0021】
一般的に、本方法は、一組の周波数(K_i)について繰り返される。望ましい解析の要求に合わせて、例えば全周波数を、又はある間隔をもって連続的又は非連続的すなわちばらばらの周波数につき、繰り返される。
【0022】
次の点は注意されるべきである。すなわち、本方法は、DNA配列の代わりに、RNA配列にも又はアミノ酸配列の解析にも用いることができるということである。本発明の応用は、ゆえに、DNA配列解析に関する応用には限定されず、生化学において関連する類似の、RNAやアミノ酸配列のような配列にもまた適用できる。
【0023】
アミノ酸(20個)につきバイナリインジケータ表現を作成して、STFTを適用してBIS配列をフーリエ領域空間へ変換することができる。本発明の実施において残りの処理は同じとなるであろう。以下はアミノ酸のリストである:
alanine-ala-A
arginine-arg-R
asparagine-asn-N
aspartic acid-asp-D
cysteine-cys-C
glutamine-gln-Q
glutamic acid-glu-E
glycine-gly-G
histidine-his-H
isoleucine-ile-I
leucine-leu-L
lysine-lys-K
methionine-met-M
phenylalanine-phe-F
proline-pro-P
serine-ser-S
threonine-thr-T
tryptophane-trp-W
tyrocine-tyr-Y
valine-val-V
20個のアミノ酸は、赤(R)―緑(G)―青(B)(RGB)(又はHue 飽和値―HSV空間)で20個の異なる色でマッピングされ得る。これらの空間の1つは20の色に量子化―アミノ酸のそれぞれが1つ−され得る。このようにして本発明の教示は、DNA解析には限定されず、当該技術分野の熟練者により容易に認識できる関連する変法にもって、RNA及び/又はアミノ酸にも拡大適用可能である。
【0024】
好ましくは、一組のバイナリインジケータ配列は、より小さな組のBISに結合関数を用いて小さくされる。この結合関数は、好ましくは論理和(AND)関数である。
【0025】
複数のスペクトルの前記部分内で見出された、実質的に等しい変更されたフーリエ係数(Usk_X(k))は、ひとつのパターンを構成するように定義されることができる。「最大の一組」とは、再び生じる変更されたフーリエ係数の最大の数を有するグループの集団を意味する。さらに、実質的に等しい変更されたフーリエ係数(Usk_X(k))の最長の一組は、スペクトルの第2の中で、見出され、分離されることができる。さらにスペクトルの第1及び第2グループにスペクトルを分離するということは、先に見出された変更されたフーリエ係数(Usk_X(k))の最大の一組を考慮することなく、繰り返されそして次の最大の一組を見出すことができる。第1と第2のグループにスペクトルを分離することは次の場合にまで繰り返される。すなわち(i)変更されたフーリエ係数(Usk_X(k))の最長の一組につき前もって決めてある閾値が見出されるまで、(ii)スペクトルの第1及び第2のグループへの分離が、前もって決めてある回数まで実施されるまで、又は(iii)スペクトルの第1及び/又は第2のグループが、単一の配列を有し、分離の終了をもたらす、までである。
【0026】
他の実施態様では、いかなる配列及び/又はチャンネルにおいて、実質的に等しい変更されたフーリエ係数(Usk_X(k))の最大の一組を有するスペクトルの第1のグループ(S)が見出され、マークされることができる。そのセットは好ましくは、解析のために表示され得る。さらに、いかなる配列及び/又はチャンネルにおいて、実質的に等しい変更されたフーリエ係数(Usk_X(k))の最大の一組を有する第2のグループが見出され、先に見出された変更されたフーリエ係数(Usk_X(k))の最大の一組を考慮することなく、マークされ得る。その一組は好ましくは、使用者の解析のために表示され得る。加えて、スペクトルの第1及び/又は次のグループは再順序づけされてもよく、好ましくは、マーキングを考慮にいれて表示される。最後に、以下の場合になるまで、最大の一組が見出され、スペクトルグループが再順序づけされ得る。すなわち、(i)変更されたフーリエ係数(Usk_X(k))の最長の一組につき前もって決めてある閾値が見出されるまで、(ii)最長の一組の前もって決めてある数がみいだされるまで、又は(iii)最長の一組が、単一の配列を有し、この実施態様のプロセスの終了をもたらす、までである。
【0027】
他の実施態様においては、第1の前もって決められた閾値(N_thres1)よりも上であることが見いだされた変更されたフーリエ係数(Usk_X(k))のパターンの長さを有するか又は、最も長いパターンk(kは整数)を含む、スペクトル(S)の全てのグループが見出され、そして残りのグループと分離される。残りのスペクトルは第2のグループを形成する。選択されたスペクトルのグループは、かならずしも分離する必要なない。そのように分けられたスペクトルのグループは、さらに、変更されたフーリエ係数(Usk_X(k))のパターンの長さについて第2の前もって決められた閾値(N_thres2)を用いて、又は最長のパターンj(jはkと同じ又は異なる整数)を用いて、さらに分離してもよい。分離の終点を与えるために、スペクトルのグループへの分離は次の場合にまで繰り返される。すなわち(i)変更されたフーリエ係数(Usk_X(k))のパターンの長さについて前もって決められた閾値が見出されるまで、(ii)スペクトルの第1と第2のグループへの分離が、前もって決められた回数で行われるまで、又は(iii)又は第1の及び/又は第2のスペクトルのグループが、1に等しい長さの変更されたフーリエ係数(Usk_X(k))配列を含むまで、である。
【0028】
第2の側面において、本発明は、少なくとも1つのコンピュータを含むコンピュータシステムが、本発明の第1の側面による方法を実施することができる、コンピュータプログラムに関する。
【0029】
本発明のこの側面は、特に、しかし限定されることなく、以下の場合に有利である。本発明は、コンピュータプログラムにより、コンピュータシステムに、本発明の第2の側面の処理を行わせることである。そして次のことが期待される。知られたコンピュータシステムは、次のようにして、本発明によって処理できるように変更され得ることが考えられる。すなわち、コンピュータシステムにコンピュータプログラムをインストールし、前記光学記録装置を制御すること、による。そのようなコンピュータプログラムは、いかなる種類のコンピュータ読み取り可能な媒体上に提供されてもよい。例えば磁気又は光学に基づく媒体や、又はコンピュータによる例えばインターネットのようなネットワークを介してである。
【0030】
本発明は、ハードウエア、ソフトウエア又はこれらのいかなる組み合わせを含む適当な形で実施されてよい。本発明又は本発明のいくつかの構成は、1又は2以上のデータプロセッサ及び/又はデジタルシグナルプロセッサで実行される、コンピュータソフトウエアとして実施されてもよい。本発明の実施形態の要素又は部品は、物理的に、機能的に及び論理的に、いかなる適当な形でも実施することができる。実際、機能は、単一ユニット、複数ユニット、又は他の機能の一部として奏され得る。そこで本発明は、単一ユニットで、又は物理的に機能的に異なるユニット及びプロセッサ間に分けて実施されてもよい。
【0031】
本発明のこれら又の側面は、以下に記載する実施の態様を参照することで明らかになり、理解されるものとなる。本発明は、添付された図面を参照して、単なる例示という方法で、説明される。
【図面の簡単な説明】
【0032】
図1図1は、代表的なバイナリ配列(BIS)パターンを示す。
図2図2は、4つの核酸塩基A、T、C、Gの図1からの対応するBISパターンのプロットを示す。
図3図3は、それぞれの塩基の変換された周波数スペクトルである。
図4図4は、図3に類似する。右側には、それぞれの核酸塩基の周波数成分の程度で重み付けされた色マッピングベクトルの重ね合わせが得られることが、示されている。
図5図5は、DNA配列の一部の短時間フーリエ変換(STFT)から、単一の、色スペクトルの生成を模式的に示す。
図6図6は、図5と類似する。DNA配列に沿って、繰り返しSTFTによる複数のスペクトルの生成を示す。
図7図7は、本発明により、ビニング関数(BF)の適用の原理的略図を示す。
図8図8は、本発明による、種々の周波数でのスペクトルの模式図である。
図9図9は、図8と類似し、本発明のビニング関数(BF)を示す。
図10図10は、図8に類似する。本発明の他のビニング関数(BF’)を示す。
図11-I】図11は、図8に類似する。本発明による、ビニング関数の適用と、ヒストグラムへのプロッティングを模式的に示す。
図11-II】図11は、図8に類似する。本発明による、ビニング関数の適用と、ヒストグラムへのプロッティングを模式的に示す。
図12図12は、本発明による、いわゆるトップダウンヒエラルキーソート(top−down hierarchical sorting,TDHS)の一例を示す。
図13図13は、本発明による、いわゆるトップダウンヒエラルキーソート(top−down hierarchical sorting,TDHS)の一例を示す。
図14図14は、本発明による、いわゆるインデペンデントアイテラティブソート(independent iterative sorting,IIS)の一例を示す。
図15-I】図15は、本発明による、いわゆるインデペンデントアイテラティブソート(independent iterative sorting,IIS)の一例を示す。
図15-II】図15は、本発明による、いわゆるインデペンデントアイテラティブソート(independent iterative sorting,IIS)の一例を示す。
図16図16は、本発明による方法のフローチャートを示す。
【発明を実施するための形態】
【0033】
DNAスペクトログラムは、図1〜6を参照して、以下より詳しく説明するように、従来の方法でも生成することができる。例えば、DNAスペクトログラム生成の従来のアルゴリズム又は技術が使用されるが、これは次の5ステップを必要とする:
(i)4つの核酸塩基のバイナリインジケータ配列(BISs)、uA[n],uT[n],uC[n],uG[n]を形成すること。BISパターンの例は図1に示され、これはDNA配列10から生成されている。又はBIS値のプロットが図2に示される。
(ii)BISにディスクリートフーリエ変換(discrete Fourier Tranform,DFT)をすること。それぞれの塩基の周波数スペクトルは、式(1)を用いて対応するBISのDFTを計算することで得られる。
【0034】
【数1】
図3に示されるように、配列U[k]は、周波数kでの周波数内容の値を提供し、それはN/kサンプルの基礎をなす間隔と等しい。Nは、窓Wにある核酸塩基の全数である。図5,6を参照のこと。塩基数は、最大300核酸塩基であってもよく、好ましくは最大500、又はより好ましくは700核酸塩基である。あるいは、前記周期は最大3000核酸塩基、好ましくは5000核酸塩基、さらに好ましくは10000核酸塩基である。
(iii)DTF値のRGB色へマッピングすること。4つのDFT配列は、次の一組の線形式によりRGB空間での3つの配列に減少させる。
[k]=a[k]+t[k]+c[k]+g[k]
[k]=a[k]+t[k]+c[k]+g[k] (2)
[k]=a[k]+t[k]+c[k]+g[k]
ここで、(a,a,a),(t,t,t),(c,c,c)及び(g,g,g)は、核酸塩基A,T,C,Gのそれぞれについての色マッピングベクトルである。結果としてピクセル色(X[k],X[k],X[k])は、図4の右に示されるように、それぞれの核酸塩基の周波数成分の程度により重み付けされた、色マッピングベクトルの重ね合わせである。DFT値の色マッピングは、例えば単一スペクトルログラム20について図5で示され、図6ではいくつかのスペクトル20、すなわちスペクトログラム30が示されている。図5,6もともにグレートーンで表されているが、これは図面による説明の目的だけのためである。U値に基づく周波数領域の他の色空間マッピングもまた可能であり、例えば、HSV空間である。
(iv)ピクセル値をノーマライズすること。色づけされたスペクトログラム30を表現する前に、それぞれのピクセルのRGB値を一般的にノーマライズして0と1の間にくるようにする。本発明の一般的原理が理解されたなら、多くのノーマライズ手法が熟練者には容易に利用可能となる。
(v)短時間フーリエ変換(STFT)を行う。複数のDNAスペクトル20、すなわちスペクトログラム30は、個々のDNA配列スペクトル20(「ストリップ」)を繋ぎ合せて形成され、それぞれのストリップ又はスペクトルは一般的に、図6に示されるように、局所的DNA断片の周波数スペクトルを表す。短時間フーリエ変換(STFT)は、図6に示されるように、窓Wを持ち、この窓は5’から3’のDNA配列に沿ってシフトする。
【0035】
図6に示されるスペクトログラムは、長さ60の核酸塩基を有し、窓Wは一時に1塩基シフトする。スペクトログラム30の縦軸スケールで、周波数kは示され(下に向けて増加)、DNA配列10の出発位置P_iniは、スペクトログラム30の横軸スケールで示されている。
【0036】
スペクトログラム30の外見は、STFT窓Wのサイズ、隣り合った窓W間の重なった配列の長さ、及び色マッピングベクトル、の選択により大きく影響される。式(2)参照のこと。窓のサイズは、スペクトログラム30においてピクセル値の有効な範囲を決定する。より大きい窓は、より長いDNA断片から集めた統計を明らかにするスペクトログラムを与える結果となる。一般的に、窓Wのサイズは、興味の対象となる繰り返しパターンの長さの数倍は長くしなければならないし、興味あるパターンを含むドメインのサイズよりは小さくしなければならない。試験的目的で、ある範囲の窓のサイズを試みることを薦める。窓の重なりは、DNA断片の長さを、隣り合うSTFT窓に共通するように決定する。それゆえに重なりが大きくなるほど、ひとつのSTFT窓から次の窓への周波数スペクトルの移動はよりゆっくりとなる。より高いイメージ分解能は、イメージ処理又は目視での特徴抽出をより容易にする。
【0037】
大量の配列データを考察するためには、情報解析及び可視化の効果的方法を要求する。非常に多い配列から導かれるスペクトル、又は多くの小さな窓を含むスペクトルの考察を最適化するために、本発明により示されるように、;N.Dimitrova等によるビデオで表示することができる。「DNAスペクトログラムの解析及び可視化。ゲノム研究への可能性を開く」ACM MM、サンタバーバラ、CA、2006年10月、は、ここに本明細書に参照として取り込まれる。
【0038】
図7は、本発明による3つの相違する場合によるビニング関数の適用の原理概説である。図3と8(以下参照)を参照すると、4つのチャンネルA、T、C、Gであって、周波数kにより定義された相互的k−空間での3次元空間と、フーリエ係数(Usk_X(k))と、スペクトル数sを定義する。そのようにして、ひとつのチャンネルに対し、ひとつの周波数kが3次元のベクトルU_1,U_2,U_3,U_4又はU_5により表されている。本発明は、例えばひとつのチャンネルC(通常は1以上のチャンネルが研究される)についてひとつのビニング関数BFを定義することで操作される。ビニング関数BFの操作は、図7に点線矢印で模式的に示され、5つのベクトルU_1,U_2,U_3,U_4又はU_5が模式的に、U_1’,U_2’,U_3’,U_4’又はU_5’にそれぞれ変換される。
【0039】
Aの場合、ビニング関数BFは、U_1で示されるひとつの周波数に適用され、そのビニング関数の結果として、U_1のフーリエ係数(Usk_X(k))が変更され、変更されたベクトルが示されている。
【0040】
Bの場合、ビニング関数BFは、U_2、U_3で示される2つの周波数に適用され、そのビニング関数の結果として、U_2、U_3のフーリエ係数(Usk_X(k))がU_2’,U_3’にそれぞれ変更される。この特別な場合、ビニング関数は、U_2’がU_3’に等しいという効果を有する。これは例えば、強い切り下げ又はそれと同様に、有意に値を変えるビニング関数BFの場合であり得る。このように、情報は失われるが、より容易及び/又は改良された解析が実施されることができる。
【0041】
Cの場合、ビニング関数BFは、U_4、U_5で示される2つの周波数に適用され、そのビニング関数の結果として、U_4、U_5のフーリエ係数(Usk_X(k))がU_4’,U_5’にそれぞれ変更される。この特別な場合、ビニング関数BFは、2つのベクトルU_4、 U_5をベクトル空間で回転させる効果を有する。
【0042】
図8は、本発明の種々の周波数でのスペクトルを模式的に表す。特に異なったスペクトル20のフーリエ係数(Usk_X(k))を列記し、図の左部分に順に下向きにランイングインデックスsによって番号付けされている。又、周波数kは、図8の上に示されている。DFTの周波数は、フーリエ変換の、1から最大の周波数kmへ動かされる。同じように、4つの核酸塩基A、T、C、Gは、4つのチャンネルすなわちX=A,T,C,Gを構成する。通常1より多いチャンネルが研究され、それによってサーチテンプレートについての類似性は、1以上のチャンネル即ちX=A,T,C,Gでの変動の程度に基づくことができる。特に、類似性は、全てのチャンネルX=A,T,C,Gの変動の程度に基づくことが可能である。図8でのそれぞれのエントリーには4つの異なるチャンネルを含み、初めの行(s=1)でU1k_xと名づけられたエントリーは、大きく引き出され、全ての4つのチャンネルが図8の上部分に明記されている。
【0043】
図9は、図8と同じく、本発明のビニング関数BFを示す。複数のスペクトルsが、DNA配列10に基づき次のようにして得られる。DNA配列を複数のバイナリインジケータ配列(BIS)に変換し、短時間フーリエ変換(STFT)をそのバイナリインジケータ周波数につき行い、それぞれのスペクトルは、対応する周波数kとフーリエ係数(Usk_X(k))を持ち、それぞれのフーリエ係数の種類はチャンネルXを構成する。
【0044】
それゆえ周波数K’(ここでK’=2)についてビニング関数BFが定義され、関連するチャンネルXに関してフーリエ係数(Usk_X(k))に適用され得る。このようにして、ビニング関数には、例えば、切捨て、切り上げ、切り下げ、モジュール関数、及び/又は閾値関数、又は、本発明の目的に関連するその他の数学的関数が含まれる。一般的には、ビニング関数(BF)は、全てのチャンネルXで定義される、すなわち、X={A、T、C、G}である。しかしある応用においては、1つだけ、又はCとGのようなサブセットが解析されるべきチャンネルとされることができる。図9で、ビニング関数(BF)は、s=1からsの複数のスペクトルの部分に適用可能であり、それにより対応するフーリエ係数(Usk_X(k))を変更する。あるいは、ビニング関数(BF)は、より小さな部分に適用することも可能である。例えばs=1からs=2である。
【0045】
その後、複数のスペクトルの前記部分内、例えばs=1とその上方向で、実質的に等しい変更されたフーリエ係数(Usk_X(k))が見出され、さらなる解析のために、好ましくはマークされるかタグ付けされる。それを見て、変更されたフーリエ係数(Usk_X(k))のある値、例えば10を持つエントリーがいくつあるかを即座に数えるためである。「実質的に等しい」なる語は、ビニング関数BFを適用した後に導入される数値誤差を考慮することを意味する。
【0046】
図10は、図8と同じく、本発明による他のビニング関数を示す。方法は、一組の周波数K_iで同時又は順次に繰り返されることができる。一般的にはある間隔ではあるが、しかし周波数K_iの一組はまた、あるk値に飛ぶこともできる。ここで強調すべきことは次のことである。一組の周波数セット又は間隔K_iは、いくつかの別々の周波数間隔を有することが可能であるということである、すなわちK_iは、k=2、k=6又はk=2及びk=4を含むことができるということである。
【0047】
図11は、図8と同様に、ビニング関数の、複数のスペクトルではあるが、単純化のためだけであるが、ひとつの周波数kへの適用が示されている。ビニング関数BFを適用した後、この場合単純に切り捨てであるが、等しい値の変更されたフーリエ係数が見出され、結果がヒストグラムにプロットされる。例えば2つの事象Us1_G(k)と1つの事象Us1_G(k)=9等である。
【0048】
それぞれの周波数に、「類似」である値、すなわちビニング関数BFの適用により実質的に等しい値は、共にグループ化され、それぞれの評価箱にはいる値の数を示すヒストグラムが作られる。それぞれの周波数に対してA,C、G、Tの値は、独立して比較され、又は全ての4つの核酸について類似性を考慮して共通の尺度で結合されて、その周波数での類似性が見出される。図11は、どのようにビニング関数BFが適用され、ヒストグラムが作られるかを示す例を示す。その後、種々の周波数ソート又はクラスタ方法の実施態様が適用され得る。ビニング関数を用いて、「類似」値を示すヒストグラムがA,T,C,Gについて全ての周波数で作られる。
【0049】
次に、選択された方法に従って、それぞれの周波数について、1又は2以上のヒストグラムの階級箱(bin)(例えば最大)が選択される。以下、次の3つのそのような方法についてさらに説明する。すなわちトップダウンヒエラルキソート(Top Down Hierarchical Sorting,(TDHS))、インデペンデントアイテラティブソート(Independent Iterative Sorting, IIS)、 ラティスソート(Lattice Sorting,LS)についてである。しかし、本発明の内容及び教示の範囲内で、他の方法も熟練者には容易に利用可能である。これらの選択された方法に従い及びヒストグラムの階級箱を考慮して、ドメインは分割されてよく、そしてプロセスは、その分割されたサブドメインそれぞれにおいて停止判断に到達するまで繰り返される。
【0050】
例えば、最大の階級箱が選択される場合、最大数の配列が与えられ、それは核酸のひとつの特定の周波数でビニング関数による「類似」の値を共有する。全ての周波数(それぞれの周波数に単一のヒストグラムがある)に亘るヒストグラム階級箱で最大値の周波数は選択され、そのヒストグラムに寄与する配列が一緒にグループ化される。全配列ドメインは、このようにして、周波数において類似性を有する配列のグループとその残りに分割され、2つの「クラスタ」を得る(これはしかし、厳密な言葉でいうクラスタアルゴリズムではないけれど、この言葉が受け入れられる)。そして特定の選択と処理方法が、これらの2つのクラスタに適用される。次に、ヒストグラム値が再度構築されるか、又は計算されたヒストグラム階級箱がクラスタの分割を反映するように更新される。すなわち、最大長のヒストグラムが選択され、そのヒストグラムによりドメインが再び2つのクラスタに分離される。この繰り返しは、次の場合に停止する。すなわち、最長ヒストグラムが前もって決められた閾値よりも小さくなる場合、使用者が前もって決めている抽出された長いパターンサイズに到達した場合、又は2つのクラスタのそれぞれが単一の配列を含む場合である。他の停止判断基準もまた適用可能である。
【0051】
図12、13は、本発明による、いわゆるトップダウンヒエラルキーソート(TDHS)の例を示す。最長のパターンが見出されたならば、例えばk=1、Cチャンネル、値「8」が3回、TDHSアルゴリズムは窓又はスペクトルドメインを、最長パターンを含むものと、その他に分ける。この処理を説明するために、3つの選択されたチャンネルのヒストグラムが、右側に示される、即ち、k=1、A及びCチャンネル、及びk=2、Aチャンネルである。中間のヒストグラムにおいて、最長パターンが模式的に示される。
【0052】
次に、2つのクラスタ、又は第1の及び第2のグループのそれぞれにおいて、(次の)最長のパターンが見出され、そのクラスタはそれぞれ再び分離されるか、又は片方が分割されて最長のパターンを含むグループとその他に分離される。これは図13で示される。スペクトルs=1,2及び3の窓又はスペクトルは1つのグループを形成している。これを、最長パターンk=2、Aチャンネル階級箱値「10」を持つ1つのグループと、スペクトルs=2を持つグループに分離される。
【0053】
このヒエラルキソートは、「ソート3」により、図13の左下に2つの分岐点で示される。TDHソートの最初の枝は又、図12の左下にも示されている。
【0054】
このアルゴリズムは次の場合に停止する。最長パターンの閾値又はステップ回数の閾値に到達した場合、又は2つのクラスタ又はグループのそれぞれが、単一の配列を含む場合、例えば図13のスペクトルs=2の場合である。最後にパターンのヒエラルキーが得られる。両方のクラスタを分離するそれぞれのステップを表示することを選択することができるし、又は最長のパターンを有するクラスタ又はグループのみを表示することも選択できる。この方法は、長いパターンが、先のステップで分割される場合、長いパターンを見落とす可能性がある。TDHSのひとつの変法は、ツリーの左側―すでに最長のパターンを含んでいるーを分離することを停止することである。これにより複数の枝のあるツリー構造となる。
【0055】
図14,15は、本発明による、いわゆるインデペンデントアイテラティブソート(Independent Iterative Sorting, IIS)の例を示す。IISは、ドメインにある全てのパターンを、そのサイズの減少順で表示する。TDHSソートについて図12で示される最長のパターンを最初に選択し、後IISアルゴリズムは、最長のパターンをトップに含むクラスタを再配列させ、全てのドメインを表示する。次にIISは、最初のパターンとは独立した第2(区別された)最長のパターンを選択する。それは、図14では、k=1、Aチャンネル、2つの値「2」が階級付けされた2つの事象を持ち、実線円でヒストグラム中に示される(k=2、チャンネルAは又、値「10」に階級付けされた2つの事象を持つ)。そしてこれが全てのパターンが見出されるまで続けられる。そのように、図15では、第3の最長パターンが、k=2、Aチャンネル、値「10」で階級付けされた2つの事象であり、又ヒストグラムで実線円で示されている。この方法では、完全に共存するパターン(長いパターンに違いがない)、又は完全にばらばらのパターン(まったく共通の配列がない)が、常に明らかとなる。次の点もまた注意すべきである。すなわち、異なった繰り返しで得られたクラスタは、同じ(重なった)スペクトルを含むかもしれないことである。
【0056】
さらに、いわゆるラティスソート(LS)アルゴリズムが、本発明と関連して実施されることができる。最初に、与えられたサイズのN_thres1について(あるいは、k最長のパターンについて)、これらのパターンを含む行又はスペクトルを選択してクラスタを形成し、残りは捨てる。後、それぞれのクラスタについて同じ選択を、適当なパターンが見られなくなるまで繰り返し行う。即ち、全てのパターンがN_thres2よりも短くなるまで(又は全ての残るパターンが長さ1)、である。この方法で、クラスタは、重なり得るが、それぞれのクラスタはひとつの子供を有する。TDHS,LSとは異なり、長いパターンを見逃すことはない。又、この方法では、完全に共存するパターンは常に現れる。
【0057】
上のTDHS,IIS、及びLSの全ての方法は、それぞれのステップにおいて、パターンを可視化でき、使用者が、クラスタ又はグループのヒエラルキーのどの枝を探求するべきかを決定することができるという点で、双方向で実施することが可能である。
【0058】
次に、そのスペクトルを、図6で示されるようにソートされたビデオが呼び出された新たな表示において、それぞれの最も上にスタックし、表示することが可能である。使用者の好みにより、全てのクラスタ、又はそのアルゴリズム停止際の最長のパターンを含むクラスタだけを表示することが可能である。
【0059】
加えるに、本発明は、この技術において知られた他のクラスタ方法(例えばヒエラルキークラスタ法)とは異なり、平行して実施することに貢献する。ソートのために、ヒストグラムはそれぞれの周波数で構築され、そのことは、いくつかの処理の間のフーリエ値のドメインを分割することを容易にし、平行又は分配系、又グリッド系で、平行して実行することを容易にする。
【0060】
最後に、本発明は、可視化方法(図6に示すように)を提供する。これにより、生物学者又は医者にとって、結果を見て理解し、これらのパターンの類似性につきさらに説明を見出そうとすることを容易にする。このため、可能なゲノム的注釈、例えば遺伝子名、ゲノム要素、種、実験等が提供されてもよい。
【0061】
図16は、本発明による方法のフローチャートである。本発明は、
S1 DNA配列を提供し、
S2 前記DNA配列を複数のバイナリインジケータ配列(BIS)に変換し、前記バイナリインジケータ配列を短時間フーリエ変換(STFT)に供し、それぞれのスペクトルが、対応する周波数(k)とフーリエ係数(Usk_X(k))を含み、それぞれの種類のフーリエ係数がチャンネル(X)を構成して、
前記DNA配列に基づく複数のスペクトル20を作成し、
S3 周波数K’につきビニング関数(BF)を定義して、1又は2以上のチャンネルXについて前記フーリエ係数(Usk_X(k))を適用可能とし、
S4 前記ビニング関数(BF)を少なくとも一部の前記複数のスペクトルに適用し、それにより対応するフーリエ係数(Usk_X(k))を変更し及び
S5 実質的に等しい変更されたフーリエ係数(Usk_X(k))を、前記複数のスペクトルの前記部分で見出すことを含む。
【0062】
本発明は、ハードウエア、ソフトウエア又はこれらのいかなる組み合わせを含む適当な形で実施されてよい。本発明又は本発明のいくつかの構成は、1又は2以上のデータプロセッサ及び/又はデジタルシグナルプロセッサで実行される、コンピュータソフトウエアとして実施されてもよい。本発明の実施形態の要素又は部品は、物理的に、機能的に及び論理的に、いかなる適当な形でも実施することができる。実際、機能は、単一ユニット、複数ユニット、又の機能の一部として奏され得る。そこで本発明は、単一ユニットで、又は物理的に機能的に異なるユニット及びプロセッサ間に分けて実施されてもよい。
【0063】
本発明は、特定の実施態様と関連して説明されたが、これによりいかなる特定の態様にも限定する意図はない。むしろ、本発明の範囲は、クレームにのみ限定される。クレームにおいて、「含む」なる用語は、他の要素又はステップを排除するものではない。さらに個々の特徴が、異なったクレームに含まれ得るが、これらは効果的に組み合わせることが可能である。異なったクレームに含まれるからといって、これらの特徴の組み合わせが実施できないとか、効果を奏さないということを意味するものではない。さらに、単数を言及することは、複数を排除するものではない。「ひとつの」、「第1の」、「第2の」等は複数を排除するものではない。さらに、クレームの符号は、クレームの範囲を限定するものではない。
図1
図2
図3
図4
図5
図6
図7A
図7B
図7C
図8
図9
図10
図11-I】
図11-II】
図12
図13
図14
図15-I】
図15-II】
図16