(58)【調査した分野】(Int.Cl.,DB名)
前記生成された変異遺伝体シーケンスが、グラフィックイメージなどの視覚的コンテンツとしてディスプレイされることをさらに含んでなる、請求項1に記載の変異遺伝体シーケンス予測装置。
前記生成された変異遺伝体シーケンスが、グラフィックイメージなどの視覚的コンテンツとしてディスプレイされることを含んでなる、請求項10に記載の変異遺伝体シーケンス予測方法。
【発明を実施するための形態】
【0015】
本発明の他の目的、特徴及び利点は、添付の図面を参照した各実施例の詳細な説明を通じて明らかになるだろう。
【0016】
以下、添付の図面を参照して本発明の実施例の構成及びその作用を説明し、図面に図示され、また、これによって説明される本発明の構成及び作用は、少なくとも一つの実施例として説明されるものであり、これによって前記の本発明の技術的思想とその核心構成及び作用が制限されることはない。
【0017】
2009年に新たに発生した新種のインフルエンザAの起源は、ユーラシア型の鳥型豚インフルエンザ(H1N1)と北米の豚の間で流行した3重再集合体(triple―reassortant)ウイルスと知られている。
【0018】
新たな新種のインフルエンザAウイルスの遺伝子切片(genetic segments)は、北米の鳥ウイルスのPB2とPA遺伝子、ヒトのH3N2ウイルスのPB1遺伝子、伝統的な豚ウイルスのNS遺伝子、そして、ユーラシア型の鳥型豚インフルエンザウイルスのNA、M遺伝子などの多様なサブタイプ(subtype)から発生したものと知られている。
【0019】
特に、豚インフルエンザから由来したインフルエンザAウイルス(H1N1)は、人々にも影響を及ぼし、その結果、1979年にニュージャージーのフォートディックスで200人以上の軍人達が感染したこともあった。当時、感染は人と人との間の転移を通じて行われた。しかし、当時、米国の全国的なワクチンキャンペーンにより、豚起源のインフルエンザAウイルスは深刻な流行病の水準に悪化されなかった。
【0020】
このような新種のインフルエンザウイルスはH1N1と称することができる。H1N1において、Hは、ヘマグルチニン(hemagglutinin)の略字であり、Nは、ノイラミニダーゼ(neuraminidase)の略字である。
【0021】
ウイルスは、遺伝物質である核酸及びこれを取り囲むタンパク質の殻からなっており、遺伝物質を有してはいるが、これを発現できるシステムを有していないので、単独で存在するときは生命活動を全く行うことができない。しかし、適当な宿主(又はホスト)細胞に会うと、ウイルスは、宿主細胞内に侵入して生命活動を行うことができる。この場合、ウイルスは、その特性に合う特定種類の宿主細胞にのみ侵入することができ、宿主細胞に侵入するときは、ウイルスの表面に存在するタンパク質で構成されたHとNという二つの種類のフォークを用いることができる。
【0022】
前記のようなウイルスの表面に存在するタンパク質は、アミノ酸(Amino Acid)の連結体であり、生物体の主要な構成成分である。タンパク質は、各タンパク質を構成するアミノ酸の数、種類、結合順序によって変化可能であり、その種類は非常に多様である。アミノ酸の種類としては、合計20種が知られている。下記の表1は、アミノ酸の名称及び略字を示した表である。
【0024】
このようなアミノ酸の種類を指示する遺伝暗号の最小単位をコドン(Codon)という。
【0025】
図1は、mRNAを構成する塩基とコドンとの組み合わせを示した図である。
コドンは、タンパク質のアミノ酸種類を指示するmRNAの塩基組み合わせである。
図1に示したように、mRNAの塩基は、合計4つ、すなわち、ウラシル(Uracil)、アデニン(Adenine)、シトシン(Cytosine)、グアニン(Guanine)で構成されており、これらは、それぞれ英文字の大文字を使用してU、A、C、Gと表現することができる。
【0026】
コドンは、これら4つの塩基のうち3つの塩基の組み合わせからなり得る。例えば、
図1に示したように、コドン1はGCU、コドン2はACG、コドン3はGAC…で構成することができる。したがって、コドンは、組み合わせのための三つのサイトにそれぞれU、A、C、Gの4つの塩基が来ることができ、その組み合わせ数は4x4x4として合計64になり得る。
【0027】
しかし、64個のコドンのうち3個のコドンは、タンパク質の合成を阻止させるために使用することができ、残りの61個のコドンのみを、20種のアミノ酸の種類を決定又は指示するために使用することができる。しかし、コドンの種類がアミノ酸の種類より多いので、一つのコドンが一つのアミノ酸を指示する1対1の対応関係は成立されない。したがって、複数のコドンが重複的に同一のアミノ酸を指示することができる。このように同一のアミノ酸を指示する複数のコドンを同義コドンと言う。
【0028】
下記の表2は、コドンの種類及び各同義コドンが指示するアミノ酸を示した表である。
【表2】
【0029】
表2に示したように、コドンUUUとコドンUUCは、同一のアミノ酸であるPheを指示することができる。したがって、コドンUUCとコドンUUUは互いに同義コドンになり得る。
【0030】
本発明では、前記のような各同義コドン、すなわち、コドンUUUをPhe1、コドンUUCをPhe2と表示するように、各同義コドンが指定するアミノ酸の略字と数字で表示することを一実施例とすることができる。
【0031】
また、各アミノ酸は、デジェネラシー(degeneracy、又は縮退)傾向によって分類することができる。デジェネラシー傾向は、該当アミノ酸を指示するための同義コドンの個数で分類することができる。一般に、n―フォールドデジェネレートアミノ酸(n―fold amino acid)は、該当アミノ酸を指示するためのn個の同義コドンを有し得ることを意味する。本発明では、前記20個のアミノ酸をそれぞれ2―フォールドデジェネレートアミノ酸(2―fold degenerate amino acid)グループ、4―フォールドデジェネレートアミノ酸(4―fold degenerate amino acid)グループ及び6―フォールドデジェネレートアミノ酸(6―fold degenerate amino acid)グループに分類することを一実施例とする。
【0032】
2―フォールドデジェネレートアミノ酸グループには、アミノ酸Ile、Gln、His、Phe、Met、Cys、Tyr、Trp、Asn、Asp、Glu、Lysを含ませることができ、4―フォールドデジェネレートアミノ酸グループには、アミノ酸Pro、Ala、Val、Gly、Thrを含ませることができる。また、6―フォールドデジェネレートアミノ酸グループには、アミノ酸Leu、Ser、Argを含ませることができる。
【0033】
各生物種ごとに遺伝子塩基序列を集めて全てのコドンの出現頻度を解釈すると、同一のアミノ酸を指定するための同義コドンは均一に使用されなく、特定同義コドンが偏在して使用されることが分かる。
【0034】
このようなコドンの出現傾向又は使用傾向をコドン選好度(Codon―Usage)と言い、同義コドンの出現頻度数又は使用頻度数の差をコドン選好度バイアス(Codon―Usage Bias)と言う。
【0035】
したがって、別個の二つの生物種間で特定同義コドンの使用頻度が類似する場合、すなわち、コドン選好度バイアスが類似する場合、両生物種は進化上連関している可能性がある。また、ウイルスの表面に存在するタンパク質のコドン選好度を年度別に分析すると、ウイルス表面のタンパク質の進化パターンを分析することができ、今後のウイルスの進化方向を先に把握することができる。また、他のウイルス間の起源、連関性などをコドン単位で把握することができる。
このようなコドン選好度バイアスを用いて、各生物種間の進化パターン、ウイルスの進化パターン、起源などをコドン単位でより詳細に分析することができる。
【0036】
数年間、コドン選好度バイアス(Codon―Usage Bias)を試験するためにENC(effective number of codons)やRSCU(relative synonymous codon usage)などの多様な分析的なパラメータが開発されてきた。
【0037】
ENCは、コドン選好度パラメータとして最小20から最大61までの値を有することができる。一つのコドンのみが20種のアミノ酸を指定する場合であって、極端的なコドン選好度を示す場合、ENC値は20になり得る。また、全てのコドンが同一に20種のアミノ酸を指定するために使用される場合、ENC値は61になり得る。一般に、ENC値が40より大きい場合は、コドン選好度バイアスが低いと見なすことができる。一つのENC値は、対象になる遺伝体シーケンスごとに計算して求めることができ、アミノ酸グループの特性とは関係なく、コドン選好度バイアスの平均的なパターンを一つの代表値として示すことができるという特徴を有する。
【0038】
RSCUはコドン選好度パラメータであって、RSCU値は、対象になる遺伝体シーケンスに表れるコドンの出現頻度を出現頻度数の期待値で割って計算することができる。RSCU値は、次の数式1を通じて求めることができる。
【0040】
Xijは、i番目のアミノ酸を指示するコドンiの使用頻度を示し、niは、対象になるアミノ酸グループを指示できる全ての同義コドンの個数を示す。RSCU値は、ENC値に比べてアミノ酸グループの特性を反映できるという長所を有する。しかし、RSCU値は、各同義コドン間の相関可能性を排除し、単純に遺伝体シーケンスのコドン選好度バイアスのみを示すという短所を有する。
【0041】
したがって、本発明では、遺伝体内に含まれた各同義コドン間の可能な相関関係を計算する装置及び方法を提示しようとする。特に、各同義コドン間の相関関係を固有の色処理されたパターンでマトリックスに表示し、相関関係を可視的に示すコドンレベルの識別装置及び方法を提示しようとする。
【0042】
図2は、本発明の一実施例に係る遺伝体シーケンス内のコドン相関関係パターン計算装置のブロック図である。
本発明の入力データは、各遺伝子シーケンスになり、バイオテクノロジー情報のための国際センター(National Center for Biotechnology Information)のインフルエンザウイルス資料であることを一実施例とすることができる。また、本発明の入力データは、基本的なソースデータから明らかでない一つ又は複数のヌクレオチドシーケンスを除去し、カテゴリーによってパースされた必要なヌクレオチドシーケンスであることを一実施例とすることができる。また、本発明に係るカテゴリーは、引受番号、該当年度、遺伝子名、ホスト、サブタイプなどになり得る。本発明の必要なヌクレオチドシーケンスをパースする過程は、ジャバ(JAVA)プログラムを通じて行うことを一実施例とする。
【0043】
本発明では、入力データが、ヒトHINIウイルスのサブタイプのHA及びNA遺伝子に対する859個及び841個のシーケンス、鳥型HINIウイルスのサブタイプのHA及びNA遺伝子に対する159個及び147個のシーケンス、ヒトH3N2ウイルスのサブタイプのHA及びNA遺伝子に対する1178個及び1253個のシーケンスであることを一実施例とすることがでできる。
【0044】
図2に示したように、本発明の一実施例に係るコドン相関関係パターン計算装置は、データ入力モジュール2000、類似コドン探索モジュール2100、結果記録モジュール1200及びデータ変換モジュール2300を含むことができる。以下、各モジュールに対して説明する。
【0045】
対象データ入力モジュール2000は、一つのヌクレオチドシーケンスをそれぞれコドン単位、すなわち、3個の塩基序列の単位体に分け、これを序列の開始点から順序通りに類似コドン探索モジュール2100に出力する。
【0046】
類似コドン探索モジュール2100は、コドン選好度関連性を分析するために、対象データ入力モジュール2000から入力されたコドンから以後のコドンを順次スキャンし、現在入力されたコドンの同義コドンを探し、その種類を計算することができる。この場合、類似コドン探索モジュール2100は、現在入力されたコドンと最も隣接した位置にある同義コドンを探すことを一実施例とすることができる。本発明では、これを同義コドン関連性(synonymous codon associations(SCA))と称することができる。これについての具体的な内容は後で説明する。
【0047】
結果記録モジュール2200は、類似コドン探索モジュール2100から出力された探索結果を用いて、対象コドンとペアをなす同義コドンの種類及び探索結果による値を有することができる。結果記録モジュール2200は類似コドン探索モジュール2100内に含ませることができ、これは、設計者の意図によって変更可能である。
【0048】
本発明は、探索結果を61 by 61マトリックスに記録することを一実施例とする。このような61 by 61マトリックスを類似コドン関連性マトリックス(synonymous codon associations matrix、SCAM)と称することができる。
【0049】
SCAMの各行は対象コドンを意味し、行は、再び対象コドンが指示するアミノ酸単位で表示することができる。また、SCAMの列は同義コドンを意味し、列は、再び同義コドンが指示するアミノ酸単位で表示することができる。アミノ酸を指示するコドンの個数は合計61個であるので、行と列にはそれぞれ61個のコドンが表示される。したがって、SCAMは、61 by 61マトリックスの構造を有するようになる。
【0050】
その後、データ変換モジュール2300は、結果記録モジュール2200で生成されたSCAMのデータをそれぞれの行の和に対する相対値を示す連関性マトリックスに変換することができる。このように変換されたマトリックスを類似コドン遷移マトリックス(synonymous codon transition matrix、SCTM)と称することを一実施例とすることができる。これについての具体的な内容は後で説明する。
【0051】
図3は、本発明の一実施例に係る類似コドン探索モジュール2100でSCAを探索する過程を示した概念図である。
上述したように、対象データ入力モジュール2000は、一つの遺伝体シーケンス又は一つのヌクレオチドシーケンスをコドン単位に分け、順次的な順序で各コドンを類似コドン探索モジュール2100に出力することができる。類似コドン探索モジュール2100は、順次入力されたコドンに対してSCAを探索することができる。本発明では、SCAを探索するために指定されたコドンを対象コドン又はターゲットコドンと称することができる。その後、類似コドン探索モジュール2100は、対象コドン以後に順次入力される各コドンのうち最も隣接した位置にある対象コドンの同義コドンを探索することができる。
【0052】
図3の3―Aの(1)及び(2)は、対象コドンがLeu1である場合の探索過程を示した概念図で、
図3の3―Bの(1)及び(2)は、対象コドンがCys2である場合の探索過程を示した概念図である。以下、各概念図に対して説明する。
【0053】
図3の3―Aの(1)に示したように、類似コドン探索モジュール2100は、Leu1、Cys2、Ala4…のような順次的な順序で各コドンの入力を受けることができる。上述したように、Leu1コドンは、アミノ酸Leuを指定するコドンを意味し、Leu1の同義コドンはLeu2、Leu3…と称することができる。
【0054】
類似コドン探索モジュール2100は、1番目に入力されたコドンであるLeu1を1番目の対象コドンと指定し、Leu1以後に入力された各コドンのうち同義コドンがあるか否かを探索することができる。Leu1の次に入力されたコドンはCys2であって、アミノ酸Cysを指示するコドンであるので、Leu1の同義コドンではない。その後、類似コドン探索モジュール2100は、その次に入力されたコドンを継続して探索することができる。
【0055】
図3の3―Aの(2)に示したように、類似コドン探索モジュール2100は、Cys2以後のコドンを順次探索し、3番目の探索過程で同義コドンLeu5を発見することができる。この場合、同義コドンLeu5は、対象コドンと最も隣接した同義コドンであって、探索結果として発見された同義コドンLeu5の個数は1個であるので、結果記録モジュール2200のSCAMの該当セルの値は1になり得る。その後、類似コドン探索モジュール2100は、順次入力されるコドンを継続的に探索することができる。探索過程を通じて同義コドンLeu5が再び発見された場合は、SCAMの該当セルの値は1から2に変更することができる。また、探索過程で新たな同義コドンLeu4が発見された場合、SCAMの該当セルの値は1になり得る。
【0056】
対象コドンLeu1に対する全ての同義コドンの探索が終了すると、類似コドンモジュール2100は、2番目に入力されたコドンを新たな対象コドンと指定し、新たな同義コドンを探すための探索を開始することができる。
【0057】
図3の3―Bの(1)に示したように、類似コドン探索モジュール2100は、Leu1以後に入力されたコドンCys2を2番目の対象コドンと指定し、同義コドンを探索することができる。
【0058】
図3の3―Bの(2)に示したように、類似コドン探索モジュール2100は、5番目の探索で同義コドンであるCys1を発見することができる。上述したように、同義コドンのCys2の個数は1個であるので、SCAMの該当セルの値は1になり得る。その後、類似コドン探索モジュール2100の継続的な探索過程を通じて同義コドンCys1が再び発見された場合、SCAMの該当セルの値は1から2に変更することができる。対象コドンと同一のCys2が発見された場合、SCAMの該当セルの値は1になり得る。
【0059】
対象コドンCys2の全ての同義コドンの探索が終了すると、類似コドンモジュール2100は、3番目に入力されたAla4を3番目の対象コドンと指定し、上述した探索過程を行うことができる。
【0060】
このように、類似コドン探索モジュール2100は、順次入力された各コドンのうち20種のアミノ酸を指定するそれぞれのコドンのいずれか一つのコドンを対象コドンと指定し、入力された各コドンを全部探索し、同義コドンを発見する過程を行うことができる。
【0061】
図4は、本発明の一実施例に係るSCAMの一部分を示した図である。
上述したように、結果記録モジュール2200は、類似コドン探索モジュール2100から出力された探索結果を用いて、対象コドンとペアをなす同義コドンの種類及び探索結果による値を61 by 61マトリックスであるSCAMに記録することができる。
【0062】
SCAMの各セルには、対象コドンと探索で発見された同義コドンの種類を表示することができ、各セルは、類似コドン探索モジュール2100の探索結果による値を有することができる。
【0063】
図4は、本発明の一実施例に係るSCAMの一部分を拡大して示した図で、以下、これについて具体的に説明する。
図4に示したように、1番目の行に示したアミノ酸Alaを指示する同義コドンは、GCU、GCC、GCA、GCGの合計4つで構成することができる。上述したように、GCUはAla1と、GCCはAla2と、GCAはAla3と、GCGはAla4と称することができる。
【0064】
SCAMの1行1列のセルは、対象コドンがAla1であり、探索結果として発見された同義コドンもこれと同一のAla1である場合を意味する。この場合、セルは、C(Ala1,Ala1)又はCAla(1,1)と表現することができ、該当セルの値は、探索結果によって1、2…のいずれか一つの値になり得る。同様に、SCAMの1行2列は、対象コドンがAla1であり、探索結果として発見された同義コドンがAla2である場合であって、(Ala1,Ala2)と表現することができ、セル値は、探索結果によって1、2…のいずれか一つの値になり得る。
結果記録モジュール2200は、残りの対象コドンに対しても同一の方法で記録を行うことができる。
【0065】
上述したように、データ変換モジュール2300は、結果記録モジュール1200で生成されたSCAMのセル値をそれぞれの行の和に対する相対値を示すSCTMに変換することができる。SCTMは、SCAMと同一に61 by 61マトリックスで構成することができ、各行は対象コドンを示し、各行は、再び対象コドンが指示するアミノ酸別にグループ化(Grouping)して表示することができる。また、各列は、探索結果として表れた同義コドンを示し、各列は、再び同義コドンが指示するアミノ酸別にグループ化して表示することができる。すなわち、SCTMの各行及び列は、
図3に示したSCAMの各行及び列と同一である。
【0066】
本発明では、各対象コドン間の計算偏差を最小化するために、マルコフ理論(Markov theory)の変化確率コンセプトを用いてSCAMのセル値を計算し、これをSCTMに変換することを一実施例とする。
SCTMの各セルに表示される相対値PAA(i,j)は、次の数式2を通じて計算することができる。
【0068】
PAA(i,j)は、SCAMのi番目の行の対象コドンとj番目の列の同義コドンに対する相対値を意味し、AAは、各同義コドンによって指示されるそれぞれのアミノ酸の名称を意味する。例えば、
図2に示したSCAMの1行1列はアミノ酸アラニンのコドンであるので、相対値はPAla(1,1)と表現することができる。
【0069】
CAA(i,j)は、上述したように、SCAMの各セル値を意味し、その値は1、2、3…になり得る。また、SAA(i,)は、SCAMの各行の和を意味する。すなわち、PAA(i,j)は、下記の数式3及び4による属性を有することができる。
【0071】
そして、全てのiに対して、下記数式4を満足しなければならない。数式4のnは、各アミノ酸に対する同義コドンの総個数を意味する。
【数4】
【0072】
本発明では、各アミノ酸を指示する各同義コドン間の相関関係をより容易に説明するために、TTRというパラメータを使用することを一実施例とする。TTRは、TPAhomo/TPAhetero ratioの略字であり、TPAは、同義コドン相関関係の変化確率(transition probability of synonymous codon association)を意味する。TPAhomoは、対象コドンと探索された同義コドンとが同一のタイプである場合、すなわち、
図3の対象コドンがLeu1であり、探索された同義コドンも Leu1である場合のTPAの和を意味する。その一方、TPAheteroは、対象コドンと探索された同義コドンとが同一のタイプでない場合であって、
図3を参照して説明したように、対象コドンがLeu1で、探索された同義コドンがLeu5である場合のTPAの和を意味する。本発明に係るTPA値は、各アミノ酸グループに対するSCTMの変化確率、PAA(i,j)を使用して計算することを一実施例とする。
【0073】
本発明では、対象になる遺伝子内の同義コドン相関関係を決定するためにインフルエンザAウイルスのヌクレオチドシーケンスのSCAを全部計算することを一実施例とする。本発明の一実施例に係るSCTMは、ヒト起源のウイルスH1N1サブタイプのHA遺伝子及びNA遺伝子のSCTMであり、総数は189個であり得る。
【0074】
上述したように、
図2を参照して説明した遺伝体シーケンス内のコドン相関関係パターン計算装置及びそれに対応する方法に従う場合、コドンレベルで生物種別の特異性による遺伝体の分析は可能であるが、遺伝体の部位別に異なる変異程度が表れる生物学的特性を見出すことが難しい。
【0075】
したがって、本発明では、遺伝体の部位別に異なる変異程度が表れる生物学的特性を探すために、別個のグループに属する遺伝体シーケンス間の比較を通じて変異遺伝体シーケンスを予測する装置及び方法に対して説明する。
【0076】
図5は、本発明の一実施例に係る変異遺伝体シーケンス予測装置を示した図である。
本発明の一実施例に係る変異遺伝体シーケンス予測装置は、計算モジュール9000、パラメータ生成モジュール9100、シミュレーションモジュール9200及びディスプレイモジュール9300を含むことができる。以下、各モジュールの動作を中心に説明する。
【0077】
本発明の一実施例に係る変異遺伝体シーケンス予測装置の入力データは、年度別に測定された各塩基シーケンスになり得る。本発明の一実施例に係る入力データは、米国のNCBI(National Center for Biotechnology Information)、ヨーロッパのEBI(European Bioinformatics Institute)、及び日本のDDBJ(DNA Data Bank of Japan)などを始めとする全世界の研究者等によって明らかになった多様な塩基シーケンスになり得る。本発明の一実施例に係る遺伝体シーケンスグループは、年度別に測定された各遺伝体シーケンスの集合と同一である。したがって、本発明の一実施例に係る1999年度に測定された各遺伝体シーケンスの集合と2000年度に測定された各遺伝体シーケンスの集合は、それぞれ異なるグループとして取り扱うことができる。
【0078】
本発明の一実施例に係る計算モジュール9000は、分散処理技法を用いて遺伝体の変異有無を計算することができる。具体的に、本発明の一実施例に係る計算モジュール9000は、少なくとも二つ以上の遺伝体シーケンスグループを入力データとして受け、各遺伝体シーケンスグループを複数の地域(region)に分散し、各グループ内の同一の地域内の塩基シーケンスの変異有無を比較及び計算することができる。これについての具体的な内容は後で説明する。
【0079】
その後、本発明の一実施例に係るパラメータ生成モジュール9100は、計算モジュールの計算結果による遷移マトリックスを生成することができる。各遷移マトリックスは、遺伝体内の多重変異パラメータを含むことができる。遷移マトリックスは、61 by 61マトリックスになり得る。これについての具体的な内容は後で説明する。
【0080】
その後、本発明の一実施例に係るシミュレーションモジュール9200は、パラメータ生成モジュール9100から多重変異パラメータを受け、多重変異パラメータを用いてシード遺伝体シーケンスの特定位置ごとに変異コドンを生成することによって変異遺伝体シーケンスを生成することができる。これについての具体的な内容は後で説明する。その後、本発明の一実施例に係るディスプレイモジュール9300は、生成された変異遺伝体シーケンスをグラフィックなどを用いてディスプレイすることができる。
【0081】
図6は、本発明の一実施例に係る分散処理技法基盤の遺伝体変異計算過程を示した図である。
図5を参照して説明したように、本発明の一実施例に係る計算モジュールは、少なくとも二つ以上の遺伝体シーケンスグループの入力を受け、分散処理技法を用いて各遺伝体シーケンスグループ間の遺伝体の変異有無を計算することができる。具体的に、
図6に示したように、本発明の一実施例に係る計算モジュールは、初期年度(initial year)に測定された第1遺伝体シーケンスグループ10000と、最後の年度(final year)に測定された第2遺伝体シーケンスグループ10100とをそれぞれ第1地域10010、10110、第2地域10020、10120、及び第3地域10030、10130に分けることができる。入力された遺伝体シーケンスグループの個数、各遺伝体シーケンスグループ内に含まれた遺伝体シーケンスの個数、及び各遺伝体シーケンスグループを分ける地域の個数は、設計者の意図によって変更可能である。
【0082】
また、
図6に示したように、各遺伝体シーケンスを指示する遺伝体シーケンスの名称は、「>」の表示と共に表示することができる。このような形式の表示法をFASTA形式と称することができる。
【0083】
上述した第1地域10010、10110、第2地域10020、10120及び第3地域10030、10130は、各遺伝体シーケンスグループ間の変異有無を比較するための塩基シーケンスを含んでいる。本発明の一実施例に係る計算モジュールは、同一の地域名を有する各地域間の変異有無に対する比較を行うことができる。すなわち、
図6に示したように、本発明の一実施例に係る計算モジュールは、node(ノード)1で第1遺伝体シーケンスグループ10000の第1地域10010と第2遺伝体シーケンスグループ10100の第1地域10110内の各塩基シーケンスの変異有無を比較することができる。同一の方式で、本発明の一実施例に係る計算モジュールは、ノード2、ノード3で第2地域10020、10120及び第3地域10030、10130内の各塩基シーケンスの変異有無に対する比較を並列的に行うことができる。この場合、本発明の一実施例に係る計算モジュールは、最も小さい比較単位であるコドン単位で各地域内の塩基シーケンスの変異有無を計算することができる。
【0084】
その後、本発明の一実施例に係る計算モジュールは、ノード0でノード1〜ノード3で行われた計算結果を集めることができる。集められた結果は、
図5を参照して説明した本発明の一実施例に係るパラメータ生成モジュールに入力され、パラメータ生成モジュールは、計算モジュールの計算結果を用いて各遷移マトリックスを生成することができる。上述したように、各遺伝体シーケンスの変異有無に対する計算はコドン単位で行われるので、本発明の一実施例に係る遷移マトリックスは、遺伝体シーケンスの長さであるnを最小比較対象であるコドンの塩基シーケンス個数である3で割ったn/3個だけ生成することができる。
【0085】
結果的に、第1遺伝体シーケンスグループ10000内に属した遺伝体シーケンスの個数がmで、第2遺伝体シーケンスグループ10100内に属した遺伝体シーケンスの個数がpであると、本発明の一実施例に係る計算モジュールは、合計m x p回の各遺伝体シーケンス間の変異比較を行うことができる。したがって、本発明の一実施例に係る計算モジュールは、第1遺伝体シーケンスグループ10000と第2遺伝体シーケンスグループ10100との間に存在し得る全ての可能な変異組み合わせを計算することができる。
【0086】
図7は、本発明の一実施例に係る変異遺伝体シーケンス予測過程を示した図である。
図7の左側上部のブロック11000は、本発明の一実施例に係る計算モジュールの動作であって、
図6を参照して説明した本発明の一実施例に係る分散処理技法基盤の遺伝体変異計算過程を示したブロックである。上述したように、本発明の一実施例に係る計算モジュールは、複数の遷移マトリックスを生成するための比較結果を出力することができる。
図7の右側上部のブロック11100は、
図5を参照して説明した本発明の一実施例に係るパラメータ生成モジュールの動作であって、本発明の一実施例に係るパラメータ生成モジュールは、計算モジュールから出力した比較結果の入力を受け、複数の遷移マトリックスを生成することができる。上述したように、本発明の一実施例に係る遷移マトリックスは、遺伝体シーケンスの長さであるnを最小比較対象であるコドンの塩基シーケンス個数である3で割ったn/3個だけ生成することができる。すなわち、本発明の一実施例に係る遷移マトリックスは、最小比較単位であるコドン個数だけ生成することができ、各遷移マトリックスは対応するコドンの位置情報を含むことができる。
【0087】
また、本発明の比較対象になる各コドンの総個数がkである場合、最初開始コドンであるAUGは変異されないので、比較対象になるコドンの総個数はAUGを除いたk−1になる。したがって、本発明の一実施例に係るパラメータ生成モジュールは、合計k−1個の遷移マトリックスを生成することができる。
【0088】
本発明では、パラメータ生成モジュールで生成されたk−1個の遷移マトリックスを多重変異パラメータ又は変異パラメータと称することができ、これは、設計者の意図によって変更可能である。
【0089】
図7の下部のブロック11200は、
図5を参照して説明したシミュレーションモジュールの動作を示したブロックである。本発明の一実施例に係るシミュレーションモジュールは、特定遺伝体シーケンスをシードシーケンスと設定し、パラメータ生成モジュールから出力した多重変異パラメータを使用してシードシーケンス内の各コドンを変形させ、変異遺伝体シーケンスを出力することができる。シード遺伝体シーケンスは、第1又は第2遺伝体シーケンスグループに含まれた各遺伝体シーケンスのいずれか一つに該当し、これは、設計者の意図によって変更可能である。
【0090】
具体的に、
図7のブロック11200に示したように、本発明の一実施例に係るシミュレーションモジュールは、シミュレートするための対象遺伝体シーケンス(又はシード遺伝体シーケンスと称する。)を選定することができる。本発明の一実施例に係る遺伝体シーケンスは、遺伝体序列と称することができる。その後、本発明の一実施例に係るシミュレーションモジュールは、シード遺伝体シーケンスをコドン単位に分割し、各コドンの位置別に0から1までの任意の数(RN2、RN3…)を生成することができる。
【0091】
その後、本発明の一実施例に係るシミュレーションモジュールは、パラメータ生成モジュールから出力した多重変異パラメータを用いて、任意の数をそれぞれ任意の数の位置に対応するコドンと確率的に同一のコドン又は変異されたコドンに変換することができる。
【0092】
具体的に、本発明の一実施例に係る多重変異パラメータ、すなわち、遷移マトリックスは、各コドンの位置情報を含んでいる。したがって、本発明の一実施例に係るシミュレーションモジュールは、遷移マトリックスに含まれたコドンの位置情報を用いて各任意の数に対応する特定コドンの位置と各遷移マトリックスとのマッチング有無を確認することができる。その後、本発明の一実施例に係るシミュレーションモジュールは、遷移マトリックスを用いて各任意の数を任意の数に対応する特定コドンの同一のコドン又は変異されたコドンに変換することができる。
【0093】
その後、本発明の一実施例に係るシミュレーションモジュールは、任意の数が同一のコドン又は変異されたコドンに変換されると、シード遺伝体シーケンスの変換されていない各コドンと併合し、変異された遺伝体シーケンスを生成することができる。
【0094】
その後、
図7には示していないが、本発明の一実施例に係るディスプレイモジュールは、生成された変異遺伝体シーケンスを視覚的コンテンツを用いてディスプレイすることができる。
【0095】
図8は、本発明の一実施例に係る変異遺伝体シーケンス予測方法を示したフローチャートである。
上述したように、本発明の一実施例に係る変異遺伝体シーケンス予測装置の入力データは、年度別に測定された各塩基シーケンスになり得る。本発明の一実施例に係る入力データは、米国のNCBI(National Center for Biotechnology Information)、ヨーロッパのEBI(European Bioinformatics Institute)、及び日本のDDBJ(DNA Data Bank of Japan)などを始めとする全世界の研究者等によって明らかになった多様な塩基シーケンスになり得る。本発明の一実施例に係る遺伝体シーケンスグループは、年度別に測定された遺伝体シーケンスの集合と同一である。
【0096】
本発明の一実施例に係る計算モジュールは、第1及び第2遺伝体シーケンスグループの入力を受けることができる(S12000)。また、本発明の一実施例に係る計算モジュールは、少なくとも二つ以上の遺伝体シーケンスグループの入力を受けることもできる。これは、設計者の意図によって変更可能である。
【0097】
その後、本発明の一実施例に係る計算モジュールは、分散処理技法を用いて第1及び第2遺伝体シーケンスグループ間の遺伝体の変異有無を計算することができる(S12100)。上述したように、本発明の一実施例に係る計算モジュールは、第1遺伝体シーケンスグループと第2遺伝体シーケンスグループをそれぞれ第1地域、第2地域及び第3地域に分けることができる。各遺伝体シーケンスグループ内に含まれた遺伝体シーケンスの個数及び各遺伝体シーケンスグループを分ける地域の個数は、設計者の意図によって変更可能である。上述した第1地域、第2地域及び第3地域は、各遺伝体シーケンスグループ間の変異有無を比較するための塩基シーケンスを含んでいる。本発明の一実施例に係る計算モジュールは、同一の地域名を有する各地域間の変異有無に対する比較を行うことができる。この場合、本発明の一実施例に係る計算モジュールは、最も小さい比較単位であるコドン単位で各地域内の塩基シーケンスの変異有無を計算することができる。結果的に、第1遺伝体シーケンスグループ内に属した遺伝体シーケンスの個数がmで、第2遺伝体シーケンスグループ内に属した遺伝体シーケンスの個数がpであると、本発明の一実施例に係る計算モジュールは、合計m x p回の遺伝体シーケンス間の変異比較を行うことができる。したがって、本発明の一実施例に係る計算モジュールは、第1遺伝体シーケンスグループと第2遺伝体シーケンスグループとの間に存在し得る全ての可能な変異組み合わせを計算することができる。
【0098】
その後、本発明の一実施例に係るパラメータ生成モジュールは、計算結果を用いて多重変異パラメータを生成することができる(S12200)。上述したように、本発明の一実施例に係るパラメータ生成モジュールは、計算モジュールから出力した比較結果の入力を受け、複数の遷移マトリックスを生成することができる。本発明では、パラメータ生成モジュールで生成されたk−1個の遷移マトリックスを多重変異パラメータ又は変異パラメータと称することができ、これは、設計者の意図によって変更可能である。
【0099】
上述したように、遺伝体シーケンスの変異有無に対する計算はコドン単位で行われるので、本発明の一実施例に係る遷移マトリックスは、遺伝体シーケンスの長さであるnを最小比較対象であるコドンの塩基シーケンスの個数である3で割ったn/3個だけ生成することができる。
【0100】
すなわち、本発明の一実施例に係る遷移マトリックスは、最小比較単位であるコドンの個数だけ生成することができ、各遷移マトリックスは、対応するコドンの位置情報を含むことができる。
【0101】
また、本発明の比較対象になるコドンの総個数がkである場合、最初開始コドンであるAUGは変異されないので、比較対象になるコドンの総個数はAUGを除いたk−1になる。したがって、本発明の一実施例に係るパラメータ生成モジュールは、合計k−1個の遷移マトリックスを生成することができる。
【0102】
その後、本発明の一実施例に係るシミュレーションモジュールは、多重変異パラメータを用いてシード遺伝体シーケンスの変異遺伝体シーケンスを生成することができる(S12300)。本発明の一実施例に係るシミュレーションモジュールは、シミュレートするための対象遺伝体シーケンス(又はシード遺伝体シーケンスと称する。)を選定することができる。本発明の一実施例に係る遺伝体シーケンスは、遺伝体序列と称することができる。その後、本発明の一実施例に係るシミュレーションモジュールは、シード遺伝体シーケンスをコドン単位に分割し、各コドンの位置別に0から1までの任意の数を生成することができる。
【0103】
その後、本発明の一実施例に係るシミュレーションモジュールは、パラメータ生成モジュールから出力した多重変異パラメータを用いて、生成した任意の数を任意の数の位置に対応するコドンと確率的に同一のコドン又は変異されたコドンに変換することができる。
【0104】
具体的に、本発明の一実施例に係る多重変異パラメータ、すなわち、遷移マトリックスは各コドン別の位置情報を含んでいる。したがって、本発明の一実施例に係るシミュレーションモジュールは、遷移マトリックスに含まれたコドンの位置情報を用いて各任意の数に対応する既存のコドンの位置と各遷移マトリックスとのマッチング有無を確認することができる。その後、本発明の一実施例に係るシミュレーションモジュールは、遷移マトリックスを用いて各任意の数を任意の数に対応する特定コドンの同一のコドン又は変異されたコドンに変換することができる。
【0105】
その後、本発明の一実施例に係るシミュレーションモジュールは、変換されたコドンと既存のシード遺伝体シーケンス内のコドンとを併合し、変異された遺伝体シーケンスを生成することができる。
【0106】
その後、本発明の一実施例に係るディスプレイモジュールは、生成された変異遺伝体シーケンスをディスプレイすることができる(S12400)。上述したように、変異遺伝体シーケンスは、グラフィックイメージなどの視覚的コンテンツとして表現することができる。
【0107】
上述したように、発明の実施のための最善の形態で関連する事項を記述した。