IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7287005特定方法、特定プログラムおよび特定装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-29
(45)【発行日】2023-06-06
(54)【発明の名称】特定方法、特定プログラムおよび特定装置
(51)【国際特許分類】
   G16B 30/00 20190101AFI20230530BHJP
【FI】
G16B30/00
【請求項の数】 12
(21)【出願番号】P 2019036298
(22)【出願日】2019-02-28
(65)【公開番号】P2020140514
(43)【公開日】2020-09-03
【審査請求日】2021-11-09
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】片岡 正弘
(72)【発明者】
【氏名】夏目 浩太
(72)【発明者】
【氏名】北舘 智
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】国際公開第2005/034004(WO,A1)
【文献】特開平10-095796(JP,A)
【文献】特開2003-206246(JP,A)
【文献】米国特許出願公開第2006/0188887(US,A1)
【文献】中国特許出願公開第109360597(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
G06Q 10/00-99/00
G16Z 99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータが実行する特定方法であって、
複数のアミノ酸で構成される複数のタンパク質が配列されたタンパク質ファイルを取得し、
前記タンパク質ファイルに含まれるいずれかの位置を開始位置とする複数の一次構造の候補を特定し、
特定した複数の一次構造の候補において、一次構造および前記一次構造の終端に位置する各アミノ酸の組み合わせと、一次構造および前記一次構造の終端に位置するアミノ酸の所定の組み合わせの共起率を、異なる一次構造毎に対応付けた一次構造テーブルとに基づき、前記複数の一次構造の候補のうち、一つの一次構造を特定する
処理を実行することを特徴とする特定方法。
【請求項2】
前記特定する処理によって特定された一次構造と、一次構造および符号を対応付けた一次構造辞書とを基にして、前記タンパク質ファイルを一次構造単位で圧縮することで、一次構造圧縮ファイルを生成する処理を更に実行することを特徴とする請求項1に記載の特定方法。
【請求項3】
前記一次構造圧縮ファイルの先頭からのオフセットと、一次構造の種別とを対応付けた一次構造転置インデックスを生成する処理を更に実行することを特徴とする請求項2に記載の特定方法。
【請求項4】
コンピュータが実行する特定方法であって、
複数のコドンが配列されたコドンファイルを取得し、
前記コドンファイルに含まれるいずれかの位置を開始位置とする複数のタンパク質の候補を特定し、
特定した複数のタンパク質の候補に含まれる各タンパク質および前記開始位置の前のタンパク質の組み合わせと、コドン配列によって特定されるタンパク質において、あるタンパク質に後続するタンパク質の出現頻度が定義されたタンパク質テーブルとに基づき、前記複数のタンパク質の候補のうち、一つのタンパク質を特定する
処理を実行することを特徴とする特定方法。
【請求項5】
前記特定する処理により特定されたタンパク質と、タンパク質およびタンパク質の符号を対応付けたタンパク質辞書とを基にして、前記コドンファイルをタンパク質単位で圧縮することで、タンパク質圧縮ファイルを生成する処理を更に実行することを特徴とする請求項4に記載の特定方法。
【請求項6】
前記タンパク質圧縮ファイルの先頭からのオフセットと、タンパク質の種別とを対応付けたタンパク質転置インデックスを生成する処理を更に実行することを特徴とする請求項5に記載の特定方法。
【請求項7】
塩基配列を含む塩基ファイルと、複数の塩基配列で特定されるコドンの符号とを対応付けた変換テーブルを基にして、前記塩基ファイルをコドン単位で圧縮することで、前記コドンファイルを生成する処理を更に実行することを特徴とする請求項4、5または6に記載の特定方法。
【請求項8】
前記コドンファイルの先頭からのオフセットと、コドンの種別とを対応付けたコドン転置インデックスを更に生成する処理を更に実行することを特徴とする請求項7に記載の特定方法。
【請求項9】
コンピュータに、
複数のアミノ酸で構成される複数のタンパク質が配列されたタンパク質ファイルを取得し、
前記タンパク質ファイルに含まれるいずれかの位置を開始位置とする複数の一次構造の候補を特定し、
特定した複数の一次構造の候補において、一次構造および前記一次構造の終端に位置する各アミノ酸の組み合わせと、一次構造および前記一次構造の終端に位置するアミノ酸の所定の組み合わせの共起率を、異なる一次構造毎に対応付けた一次構造テーブルとに基づき、前記複数の一次構造の候補のうち、一つの一次構造を特定する
処理を実行させることを特徴とする特定プログラム。
【請求項10】
コンピュータに、
複数のコドンが配列されたコドンファイルを取得し、
前記コドンファイルに含まれるいずれかの位置を開始位置とする複数のタンパク質の候補を特定し、
特定した複数のタンパク質の候補に含まれる各タンパク質および前記開始位置の前のタンパク質の組み合わせと、コドン配列によって特定されるタンパク質において、あるタンパク質に後続するタンパク質の出現頻度が定義されたタンパク質テーブルとに基づき、前記複数のタンパク質の候補のうち、一つのタンパク質を特定する
処理を実行させることを特徴とする特定プログラム。
【請求項11】
複数のアミノ酸で構成される複数のタンパク質が配列されたタンパク質ファイルを取得する取得部と、
前記タンパク質ファイルに含まれるいずれかの位置を開始位置とする複数の一次構造の候補を特定し、特定した複数の一次構造の候補において、一次構造および前記一次構造の終端に位置する各アミノ酸の組み合わせと、一次構造および前記一次構造の終端に位置するアミノ酸の所定の組み合わせの共起率を、異なる一次構造毎に対応付けた一次構造テーブルとに基づき、前記複数の一次構造の候補のうち、一つの一次構造を特定する特定部と
を有することを特徴とする特定装置。
【請求項12】
複数のコドンが配列されたコドンファイルを取得する取得部と、
前記コドンファイルに含まれるいずれかの位置を開始位置とする複数のタンパク質の候補を特定し、特定した複数のタンパク質の候補に含まれる各タンパク質および前記開始位置の前のタンパク質の組み合わせと、コドン配列によって特定されるタンパク質において、あるタンパク質に後続するタンパク質の出現頻度が定義されたタンパク質テーブルとに基づき、前記複数のタンパク質の候補のうち、一つのタンパク質を特定する特定部と
を有することを特徴とする特定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特定方法等に関する。
【背景技術】
【0002】
近年、生物のDNA(Deoxyribonucleic Acid)およびRNA(Ribonucleic Acid)を構成するゲノムを解析することで、新型ウィルスの影響力を予測し、ワクチンなどが開発されている。また、ゲノムを基にして、癌などの突然変異(点突然変異)や遺伝子変異の遺伝子の異常を検出したり、病気の発生リスクを診断したりする研究が行われている。
【0003】
図24は、ゲノムを説明するための図である。ゲノム1は、複数のアミノ酸が連結する遺伝子情報である。ここで、アミノ酸は、複数の塩基、コドンによって決定される。また、ゲノム1には、タンパク質1aが含まれる。タンパク質1aは、20種類のアミノ酸が複数結合し、鎖状に多数が連結したものである。タンパク質1aの構造には、一次構造、二次構造、三次(高次)構造が存在する。タンパク質1bは、高次構造のタンパク質である。
【0004】
DNAおよびRNAの塩基は4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。また、3つの塩基配列がひとかたまりで、20種類のアミノ酸を決定する。それぞれのアミノ酸は、「A」~「Y」の記号で示される。図25は、アミノ酸と塩基、およびコドンとの関係を示す図である。3つの塩基配列のかたまりは「コドン」と呼ばれる。各塩基の並びで、コドンが決定され、コドンが決定されるとアミノ酸が決定される。
【0005】
図25に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このためコドンが決まると、アミノ酸が決まるが、アミノ酸が決まっても、コドンが一意に特定されるものではない。たとえば、アミノ酸「アラニン(Ala)」は、コドン「GCU」、「GCC」、「GCA」、または、「GCG」に対応付けられる。
【0006】
なお、ゲノムから所定の情報を検索するものとして、塩基やアミノ酸配列を、オリゴ配列の符号化によるインデックスを作成して比較し、データベース中から特異的オリゴ配列を検索する従来技術がある。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2003-256433号公報
【文献】特開2004-280614号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上述した従来技術では、ゲノムに含まれるタンパク質の一次構造を特定することができないという問題がある。
【0009】
たとえば、ゲノムに関する情報は、塩基単位の情報、コドン単位の情報、アミノ酸単位の情報等様々である。また、アミノ酸単位の情報を、コドン単位の情報に変換することは従来技術で行うことができない。このため、塩基、コドン、アミノ酸毎に、タンパク質の一次構造の情報を対応付けた辞書情報等を生成しておき、ゲノムと辞書情報との比較を行うことも考えられるが、辞書情報のデータ量が膨大となり、一次構造を特定するまでの速度が遅くなってしまう。
【0010】
1つの側面では、本発明は、ゲノムに含まれるタンパク質の一次構造を特定することができる特定方法、特定プログラムおよび特定装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
第1の案では、コンピュータは、次の処理を実行する。コンピュータは、複数のアミノ酸で構成される複数のタンパク質が配列されたタンパク質ファイルを取得する。コンピュータは、タンパク質ファイルに含まれるいずれかの位置を開始位置とする複数の一次構造の候補を特定する。コンピュータは、特定した複数の一次構造の候補において、一次構造および一次構造の終端に位置する各アミノ酸の組み合わせと、一次構造および一次構造の終端に位置するアミノ酸の所定の組み合わせの共起率を、異なる一次構造毎に対応付けた一次構造テーブルとに基づき、複数の一次構造の候補のうち、一つの一次構造を特定する。
【発明の効果】
【0012】
ゲノムに含まれるタンパク質の一次構造を特定することができる。
【図面の簡単な説明】
【0013】
図1図1は、本実施例1に係る特定装置の処理を説明するための図(1)である。
図2図2は、本実施例1に係る特定装置の処理を説明するための図(2)である。
図3図3は、本実施例1に係る特定装置の処理を説明するための図(3)である。
図4図4は、本実施例1に係る特定装置の処理を説明するための図(4)である。
図5図5は、本実施例1に係る特定装置の構成を示す機能ブロック図である。
図6図6は、変換テーブルのデータ構造の一例を示す図である。
図7図7は、コドン転置インデックスのデータ構造の一例を示す図である。
図8図8は、タンパク質辞書のデータ構造の一例を示す図である。
図9図9は、タンパク質HMMのデータ構造の一例を示す図である。
図10図10は、タンパク質転置インデックスのデータ構造の一例を示す図である。
図11図11は、コドン転置インデックスをハッシュ化する処理の一例を説明するための図である。
図12図12は、共起集計部の処理をコドン圧縮ファイルに含まれるタンパク質を特定する処理の一例を説明するための図である。
図13図13は、ハッシュ化されたビットマップを復元する処理を説明するための図である。
図14図14は、本実施例1に係る特定装置の処理手順を示すフローチャートである。
図15図15は、本実施例2に係る特定装置の処理を説明するための図(1)である。
図16図16は、本実施例2に係る特定装置の処理を説明するための図(2)である。
図17図17は、本実施例2に係る特定装置の処理を説明するための図(3)である。
図18図18は、本実施例2に係る特定装置の構成を示す機能ブロック図である。
図19図19は、一次構造辞書のデータ構造の一例を示す図である。
図20図20は、一次構造HMMのデータ構造の一例を示す図である。
図21図21は、一次構造転置インデックスのデータ構造の一例を示す図である。
図22図22は、本実施例2に係る特定装置の処理手順を示すフローチャートである。
図23図23は、本実施例に係る特定装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図24図24は、ゲノムを説明するための図である。
図25図25は、アミノ酸と塩基、およびコドンとの関係を示す図である。
【発明を実施するための形態】
【0014】
以下に、本願の開示する特定方法、特定プログラムおよび特定装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例1】
【0015】
図1図4は、本実施例1に係る特定装置の処理を説明するための図である。まず、図1について説明する。塩基ファイル150aは、複数の塩基が配列された情報を保持するファイルである。DNAおよびRNAの塩基は4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。
【0016】
特定装置の第1符号化部160bは、変換テーブル150bを基にして、塩基ファイル150aから、コドン圧縮ファイル150cと、コドン転置インデックス150dとを生成する。
【0017】
変換テーブル150bは、コドンと、コドンの符号とを対応付けるテーブルである。3つの塩基配列のかたまりは「コドン」と呼ばれる。
【0018】
第1符号化部160bは、塩基ファイル150aから、3つずつ塩基を取り出し、取り出した塩基と、変換テーブル150bとを比較して、3つの塩基(コドン)に対応する符号を特定し、3つの塩基(コドン)を符号に変換する。第1符号化部160bは、かかる処理を繰り返し実行することで、コドン圧縮ファイル150cを生成する。コドン圧縮ファイル150cは、コドン単位の符号が配列する情報となる。本実施例1では便宜上、符号の隣に、符号化前の塩基(コドン)を括弧書きで示す。たとえば、コドン「AUG」は、符号「63h」に変換されるが、変換された符号を「(AUG)63h」と表記する。「h」は16進数であることを示すものである。
【0019】
第1符号化部160bは、コドン圧縮ファイル150cを生成する際に、コドン転置インデックス150dを生成する。コドン転置インデックス150dは、コドン圧縮ファイル150cの先頭からのオフセットと、コドンの種別(コドンの符号)とを対応付ける情報である。
【0020】
図2の説明に移行する。特定装置の共起集計部160cは、コドン圧縮ファイル150cおよびコドン転置インデックス150dと、タンパク質辞書150eとを基にして、タンパク質HMM(Hidden Markov Model)150fおよび辞書インデックス150gを生成する。
【0021】
タンパク質辞書150eは、タンパク質の符号と、コドン符号配列とを対応付ける情報である。コドン符号配列は、複数のコドンの符号を配列した情報である。タンパク質の種類に応じてコドン(コドンの符号)の組み合わせはそれぞれ異なり、タンパク質に対応するコドンの数も一定ではない。
【0022】
共起集計部160cは、コドン転置インデックス150dを基にして、コドン圧縮ファイル150cに含まれるコドンの組み合わせを特定する。また、共起集計部160cは、コドンの組み合わせ(コドン符号配列)と、タンパク質辞書150eのコドン符号配列とを比較して、コドン圧縮ファイル150cに含まれるタンパク質の符号を特定する処理を繰り返し実行する。
【0023】
共起集計部160cは、上記処理を繰り返し実行していく過程で、コドン圧縮ファイル150cに含まれる各タンパク質に対応するコドン符号配列の「切れ目」を、辞書インデックス150gに設定する。たとえば、コドン符号配列「02h63h78h・・03h02h52h79h・03h」において、コドン符号配列「02h63h78h・・03h」が、タンパク質の符号「8000h」に対応するコドン符号配列であり、コドン配列「02h52h79h・・03h」が、タンパク質の符号「8001h」に対応するコドン配列である。この場合には、コドン符号配列「02h63h78h・・03h」と「02h52h79h・03h」との間が「切れ目」となる。辞書インデックス150gにおいて、各切れ目は、コドン圧縮ファイル150cの先頭からのオフセットで示される。本実施例1では一例として、切れ目を後続のコドン符号配列の先頭の符号のオフセットで示す。上記の例では後続の「02h52h79h・・03h」の先頭の符号<02h>のオフセットが、切れ目のオフセットとなる。
【0024】
なお、共起集計部160cが、上記処理を行う過程において、コドン圧縮ファイル150cのあるオフセットからのコドン符号配列が、タンパク質辞書150eに含まれる長さの異なる複数のコドン符号配列と一致する場合もある。
【0025】
たとえば、図3に示すように、コドン圧縮ファイル150cのある切れ目のオフセットPからオフセットNまでのコドン符号配列が、タンパク質Aの符号に対応し、かつ、オフセットPからオフセットNまでのコドンの符号配列が、タンパク質Bの符号と一致する場合がある。
【0026】
この場合には、共起集計部160cは、オフセットP~P+Nのコドンの符号をタンパク質Aの符号とし、オフセットP+N+1を切れ目として、上記処理を繰り返し実行する。また、共起集計部160cは、オフセットP~P+Nのコドンの符号をタンパク質Bの符号とし、オフセットP+N+1を切れ目として、上記処理を繰り返し実行する。
【0027】
共起集計部160cは、上記処理を繰り返し実行することで、あるタンパク質の符号に後続するタンパク質の符号の種別を集計し、あるタンパク質の符号との共起率を算出する。たとえば、タンパク質Aのコドン符号配列が、コドン圧縮ファイル150cにおいて、M回出現したとする。そして、タンパク質Aのコドン符号配列に後続する各種のタンパク質のうち、タンパク質Bのコドン符号配列がL回出現した場合には、タンパク質Aの符号と、タンパク質Bの符号との共起率は「L/M×100」となる。共起集計部160cは、各タンパク質について、共起率を算出する処理を繰り返し実行することで、タンパク質HMM150fを生成する。タンパク質HMM150fは、各タンパク質の組と、共起率とを定義した情報である。
【0028】
図4の説明に移行する。特定装置の第2符号化部160dは、コドン圧縮ファイル150c、コドン転置インデックス150d、タンパク質辞書150e、辞書インデックス150g、タンパク質HMM150fを基にして、タンパク質圧縮ファイル150hおよびタンパク質転置インデックス150iを生成する。第2符号化部160dは「特定部」の一例である。
【0029】
第2符号化部160dは、辞書インデックス150gを基にして、コドン圧縮ファイル150cに含まれる各タンパク質のコドン符号配列の切れ目を特定する。第2符号化部160dは、各切れ目の間のコドン符号配列と、タンパク質辞書150eとを基にして、各切れ目の間のコドン符号配列に対応するタンパク質の符号を特定し、コドン符号配列を、タンパク質の符号に変換する。
【0030】
第2符号化部160dは、タンパク質の符号(切れ目)に続くコドン符号配列が、複数のタンパク質の符号に該当する場合には、タンパク質HMM150fを基にして、該当する複数のタンパク質の符号のうち、最も共起率の高いタンパク質の符号を特定する。第2符号化部160dは、切れ目に続くコドン符号配列を、特定したタンパク質の符号に変換する。第2符号化部160dは、上記処理を繰り返し実行することで、タンパク質圧縮ファイル150hを生成する。
【0031】
第2符号化部160dは、タンパク質圧縮ファイル150hを生成する際に、タンパク質転置インデックス150iを生成する。タンパク質転置インデックス150iは、タンパク質圧縮ファイル150hの先頭からのオフセットと、タンパク質の符号とを対応付ける情報である。
【0032】
上記のように、本実施例1に係る特定装置は、コドン圧縮ファイル150cに含まれるタンパク質と、このタンパク質に後続するタンパク質の共起率を算出することで、タンパク質HMM150fを生成する。特定装置は、タンパク質HMM150fを用いることで、コドン圧縮ファイル150cのコドン符号配列を、正しいタンパク質単位で切り出すことができる。正しいタンパク質単位で切り出すことで、コドン圧縮ファイル150cをタンパク質単位で符号化したタンパク質圧縮ファイル150hを生成することができる。また、コドン圧縮ファイル150cに含まれるタンパク質の配列を特定できるので、タンパク質の一次構造を容易に特定可能となる。
【0033】
次に、本実施例1に係る特定装置100の構成の一例について説明する。図5は、本実施例1に係る特定装置の構成を示す機能ブロック図である。図5に示すように、この特定装置100は、通信部110と、入力部120と、表示部130と、記憶部150と、制御部160とを有する。
【0034】
通信部110は、ネットワークを介して他の外部装置(図示略)との間でデータ通信を実行する処理部である。たとえば、通信部110は、通信装置に対応する。たとえば、通信部110は、外部装置から、後述する塩基ファイル150a等を受信してもよい。
【0035】
入力部120は、特定装置100に各種の情報を入力するための入力装置である。たとえば、入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0036】
表示部130は、制御部160から出力される各種の情報を表示するための表示装置である。たとえば、表示部130は、液晶ディスプレイ、タッチパネル等に対応する。
【0037】
記憶部150は、塩基ファイル150a、変換テーブル150b、コドン圧縮ファイル150c、コドン転置インデックス150dを有する。記憶部150は、タンパク質辞書150e、タンパク質HMM150f、辞書インデックス150g、タンパク質圧縮ファイル150h、タンパク質転置インデックス150iを有する。記憶部150は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
【0038】
塩基ファイル150aは、複数の塩基が配列された情報を保持するファイルである。その他の塩基ファイル150aの説明は、図1で説明した塩基ファイル150aの説明と同様である。
【0039】
変換テーブル150bは、コドンと、コドンに対応する符号とを対応付けるテーブルである。図6は、変換テーブルのデータ構造の一例を示す図である。図6に示すように、各コドンと、各符号とが対応付けられる。たとえば、コドン「UUU」の符号は「40h(01000000)」となる。「h」は16進数を示すものである。
【0040】
コドン圧縮ファイル150cは、符号化された複数のコドンが配列された情報を保持するファイルである。コドン圧縮ファイル150cは、後述する第1符号化部160bにより生成される。その他のコドン圧縮ファイルの説明は、図1で説明したコドン圧縮ファイル150cの説明と同様である。
【0041】
コドン転置インデックス150dは、コドン圧縮ファイル150cの先頭からのオフセットと、コドンの種別(コドンの符号)とを対応付ける情報である。図7は、コドン転置インデックスのデータ構造の一例を示す図である。図7において、コドン転置インデックス150dの横軸は、オフセットに対応する軸である。コドン転置インデックス150dの縦軸は、コドンの種別(コドンの符号)に対応する軸である。コドン転置インデックス150dは、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
【0042】
たとえば、コドン圧縮ファイル150cの先頭のコドンの符号のオフセットを「0」とする。コドン圧縮ファイル150cの先頭から7番目の位置に、コドンの符号「(AUG)63h」が含まれる場合、コドン転置インデックス150dのオフセット「6」の列と、コドンの符号「(AUG)63h」の行とが交差する位置のビットが「1」となる。
【0043】
タンパク質辞書150eは、タンパク質の情報と、タンパク質に対応するコドン符号配列とを対応付ける情報である。図8は、タンパク質辞書のデータ構造の一例を示す図である。図8に示すように、このタンパク質辞書150eは、タンパク質情報と、アミノ酸符号配列と、コドン符号配列とを対応付ける。
【0044】
タンパク質情報には、タンパク質の「符号」と、タンパク質の属する「グループ」と、タンパク質の「名称」とが含まれる。アミノ酸符号配列は、タンパク質の符号(タンパク質の種別)に対応するアミノ酸の符号の配列である。コドン符号配列は、タンパク質の符号(タンパク質の種別)に対応するコドンの符号の配列である。
【0045】
たとえば、タンパク質「一型コラーゲン」は、グループ「コラーゲン」に属し、符号は「8000h」となる。符号「8000h」に対するアミノ酸符号配列は「02h46h59h・・・03h」となる。また、コドン符号配列は「02h63h78h・・・03h」となる。
【0046】
タンパク質HMM150fは、タンパク質とこのタンパク質に後続するタンパク質との共起率に関する情報を保持する。図9は、タンパク質HMMのデータ構造の一例を示す図である。図9に示すように、このタンパク質HMM150fは、タンパク質情報と、共起タンパク質情報とを対応付ける。
【0047】
タンパク質情報には、タンパク質の「符号」と、タンパク質の属する「グループ」と、タンパク質の「名称」とが含まれる。共起タンパク質情報には、タンパク質の符号と、共起率とがそれぞれ対応付けられる。たとえば、タンパク質HMM150fの1行目のレコードについて説明する。タンパク質の符号「8000h」の次に後続するタンパク質の符号が、符号「8028h」となる確率(共起率)は、「78%」である。タンパク質の符号「8000h」の次に後続するタンパク質の符号が、符号「8132h」となる確率(共起率)は、「63%」である。タンパク質の符号「8000h」の次に後続するタンパク質の符号が、符号「80F5h」となる確率(共起率)は、「51%」である。
【0048】
辞書インデックス150gは、コドン圧縮ファイル150cに含まれる各コドン符号配列(タンパク質に対応するコドン符号配列のかたまり)の切れ目のオフセットを保持する情報である。たとえば、辞書インデックス150gにおいて、各切れ目は、コドン圧縮ファイル150cの先頭からのオフセットで示される。本実施例1では一例として、切れ目を、後続のコドン符号配列の先頭のコドン符号のオフセットで示す。なお、コドン符号配列に加え、アミノ酸符号配列(以降省略)に対応付けてもよい。
【0049】
タンパク質圧縮ファイル150hは、複数のタンパク質の符号が配列された情報を保持するファイルである。タンパク質圧縮ファイル150hは、後述する第2符号化部160dにより生成される。その他のタンパク質圧縮ファイル150hの説明は、図1で説明したタンパク質圧縮ファイル150hの説明と同様である。
【0050】
タンパク質転置インデックス150iは、タンパク質圧縮ファイル150hの先頭からのオフセットと、タンパク質の種別(タンパク質の符号)とを対応付ける情報である。図10は、タンパク質転置インデックスのデータ構造の一例を示す図である。図10において、タンパク質転置インデックス150iの横軸は、オフセットに対応する軸である。タンパク質転置インデックス150iの縦軸は、タンパク質の種別(タンパク質の符号)に対応する軸である。タンパク質転置インデックス150iは、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
【0051】
たとえば、タンパク質圧縮ファイル150hの先頭のタンパク質の符号のオフセットを「0」とする。タンパク質圧縮ファイル150hの先頭から8番目の位置に、タンパク質の符号「8000h(一型コラーゲン)」が含まれる場合、タンパク質転置インデックス150iのオフセット「7」の列と、タンパク質の符号「8000h(一型コラーゲン)」の行とが交差する位置のビットが「1」となる。
【0052】
図5の説明に戻る。制御部160は、取得部160aと、第1符号化部160bと、共起集計部160cと、第2符号化部160dとを有する。制御部160は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部160は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
【0053】
取得部160aは、通信部110を介して、ネットワークに接続された外部装置(図示略)から、各種の情報を取得する処理部である。たとえば、取得部160aは、外部装置から、塩基ファイル150aを取得した場合、塩基ファイル150aを、記憶部150に格納する。なお、取得部160aは、塩基ファイル150aがZIP等で圧縮されている場合、圧縮された塩基ファイル150aを伸長する。
【0054】
第1符号化部160bは、塩基ファイル150aおよび変換テーブル150bを基にして、コドン圧縮ファイル150cを生成する処理部である。第1符号化部160bは、塩基ファイル150aから、3つずつ塩基を取り出し、取り出した3つの塩基と、変換テーブル150bとを比較して、3つの塩基(コドン)に対応する符号を特定し、3つの塩基を符号に変換する。たとえば、第1符号化部160bは、コドン「AUG」を符号「63h」に変換する。第1符号化部160bは、上記処理を繰り返し実行することで、コドン圧縮ファイル150cを生成する。
【0055】
第1符号化部160bは、コドン圧縮ファイル150cを生成する際に、コドン転置インデックス150dを生成する。たとえば、第1符号化部160bは、変換したコドンの符号と、コドン圧縮ファイル150cの符号のオフセットとに対応するコドン転置インデックス150dのビットマップに「1」を設定する。
【0056】
ここで、第1符号化部160bは、コドン転置インデックス150dを生成すると、情報量を削減するため、コドン転置インデックス150dをハッシュ化してもよい。図11は、コドン転置インデックスをハッシュ化する処理の一例を説明するための図である。
【0057】
図11で説明する例では、32ビットレジスタを想定し、「29」と「31」の素数(底)を基に、コドン転置インデックス150dの各行のビットマップをハッシュ化する。ここでは、一例として、ビットマップb1から、ハッシュ化ビットマップh11およびハッシュ化ビットマップh12を生成する場合について説明する。
【0058】
ビットマップb1は、コドン転置インデックス(たとえば、図7に示したコドン転置インデックス150d)のある行を抽出したビットマップを示すものとする。ハッシュ化ビットマップh11は、底「29」によりハッシュ化されたビットマップである。ハッシュ化ビットマップh12は、底「31」によりハッシュ化されたビットマップである。
【0059】
第1符号化部160bは、ビットマップb1の各ビットの位置を、1つの低で割った余りの値を、ハッシュ化ビットマップの位置と対応付ける。第1符号化部160bは、該当するビットマップb1のビットの位置に「1」が設定されている場合には、対応付けられたハッシュ化ビットマップの位置に「1」を設定する処理を行う。
【0060】
ビットマップb1から、底「29」のハッシュ化ビットマップh11を生成する処理の一例について説明する。はじめに、第1符号化部160bは、ビットマップb1の位置「0~28」の情報を、ハッシュ化ビットマップh11にコピーする。続いて、ビットマップb1のビットの位置「35」を、低「29」で割った余りは「6」となるので、ビットマップb1の位置「35」は、ハッシュ化ビットマップh11の位置「6」と対応付けられる。第1符号化部160bは、ビットマップb1の位置「35」に「1」が設定されているため、ハッシュ化ビットマップh11の位置「6」に「1」を設定する。
【0061】
ビットマップb1のビットの位置「42」を、低「29」で割った余りは「13」となるので、ビットマップb1の位置「42」は、ハッシュ化ビットマップh11の位置「13」と対応付けられる。第1符号化部160bは、ビットマップb1の位置「42」に「1」が設定されているため、ハッシュ化ビットマップh11の位置「13」に「1」を設定する。
【0062】
第1符号化部160bは、ビットマップb1の位置「29」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップh11を生成する。
【0063】
ビットマップb1から、底「31」のハッシュ化ビットマップh12を生成する処理の一例について説明する。はじめに、第1符号化部160bは、ビットマップb1の位置「0~30」の情報を、ハッシュ化ビットマップh12にコピーする。続いて、ビットマップb1のビットの位置「35」を、低「31」で割った余りは「4」となるので、ビットマップb1の位置「35」は、ハッシュ化ビットマップh12の位置「4」と対応付けられる。第1符号化部160bは、ビットマップb1の位置「35」に「1」が設定されているため、ハッシュ化ビットマップh12の位置「4」に「1」を設定する。
【0064】
ビットマップb1のビットの位置「42」を、低「31」で割った余りは「11」となるので、ビットマップb1の位置「42」は、ハッシュ化ビットマップh12の位置「11」と対応付けられる。第1符号化部160bは、ビットマップb1の位置「42」に「1」が設定されているため、ハッシュ化ビットマップh12の位置「11」に「1」を設定する。
【0065】
第1符号化部160bは、ビットマップb1の位置「31」以上の位置について、上記処理を繰り返し実行することで、ハッシュ化ビットマップh12を生成する。
【0066】
第1符号化部160bは、コドン転置インデックス150dの各行について上記の折り返し技術による圧縮を行うことで、コドン転置インデックス150dをハッシュ化する。なお、底「29」、「31」のハッシュ化ビットマップは、生成元のビットマップの行(符号化されたコドンの種別)の情報が付与される。
【0067】
共起集計部160cは、コドン圧縮ファイル150c、コドン転置インデックス150d、タンパク質辞書150eを基にして、タンパク質HMM150fおよび辞書インデックス150gを生成する処理部である。
【0068】
共起集計部160cは、コドン転置インデックス150dを基にして、コドン圧縮ファイル150cに含まれるタンパク質の種別および位置を特定する。タンパク質は、所定のコドンの組み合わせ(コドン符号配列)であり、タンパク質に対応するコドン符号配列は、タンパク質辞書150eに定義される。
【0069】
図12は、共起集計部の処理をコドン圧縮ファイルに含まれるタンパク質を特定する処理の一例を説明するための図である。ここでは一例として、コドン符号配列「(UUU)40h、(UCC)45h、(AAG)6Bh、(UCA)46h、(UGG)4Fh」に対応するタンパク質「ααα」の位置を特定する場合について説明する。
【0070】
共起集計部160cは、コドン転置インデックス150dを参照し、各コドン「(UUU)40h、(UCC)45h、(AAG)6Bh、(UCA)46h、(UGG)4Fh」に対応するビットマップを取得する。コドンの符号「(UUU)40h」のビットマップをビットマップb_UUUとする。コドンの符号「(UCC)45h」のビットマップをビットマップb_UCCとする。コドンの符号「(AAG)6Bh」のビットマップをビットマップb_AAGとする。コドンの符号「(UCA)46h」のビットマップをビットマップb_UCAとする。コドンの符号「(UGG)4Fh」のビットマップをビットマップb_UGGとする。
【0071】
共起集計部160cは、ビットマップb_UUUを取得し、ビットマップb_UUUを左シフトすることで、ビットマップb20を生成する。共起集計部160cは、ビットマップb_UCCを取得し、ビットマップb_UCCと、ビットマップb20とをAND演算することで、ビットマップb21を生成する。ビットマップb21のオフセット「8」に「1」が立っているため、オフセット7~8に、コドン「(UUU)40h、(UCC)45h」が含まれることが分かる。
【0072】
共起集計部160cは、ビットマップb21を左シフトすることで、ビットマップb22を生成する。共起集計部160cは、ビットマップb_AAGを取得し、ビットマップb_AAGと、ビットマップb22とをAND演算することで、ビットマップb23を生成する。ビットマップb23のオフセット「9」に「1」が立っているため、オフセット7~9に、コドン「(UUU)40h、(UCC)45h、(AAG)6Bh」が含まれることが分かる。
【0073】
共起集計部160cは、ビットマップb23を左シフトすることで、ビットマップb24を生成する。共起集計部160cは、ビットマップb_UCAを取得し、ビットマップb_UCAと、ビットマップb24とをAND演算することで、ビットマップb25を生成する。ビットマップb25のオフセット「10」に「1」が立っているため、オフセット7~10に、コドン「(UUU)40h、(UCC)45h、(AAG)6Bh、(UCA)46h」が含まれることが分かる。
【0074】
共起集計部160cは、ビットマップb25を左シフトすることで、ビットマップb26を生成する。共起集計部160cは、ビットマップb_UGGを取得し、ビットマップb_UGGと、ビットマップb26とをAND演算することで、ビットマップb27を生成する。ビットマップb25のオフセット「11」に「1」が立っているため、オフセット7~11に、コドン「(UUU)40h、(UCC)45h、(AAG)6Bh、(UCA)46h、(UGG)4Fh」が含まれることが分かる。
【0075】
共起集計部160cは、図12に示した処理を実行することで、コドン圧縮ファイル150cのオフセット「7~11」において、タンパク質αααに対応するコドン符号配列「(UUU)40h、(UCC)45h、(AAG)6Bh、(UCA)46h、(UGG)4Fh」が含まれると判定する。共起集計部160cは、他のタンパク質についても、上記処理を繰り返し実行することで、コドン圧縮ファイル150cに含まれる各タンパク質の種別および位置(オフセット)を特定する。
【0076】
続いて、共起集計部160cは、上記処理によって特定した、コドン圧縮ファイル150cに含まれる各タンパク質のオフセットを基にして、辞書インデックス150gを生成する。共起集計部160cは、コドン圧縮ファイル150cに含まれる各タンパク質に対応するコドン符号配列の「切れ目」を、辞書インデックス150gに設定する。たとえば、共起集計部160cは、辞書インデックス160gにおいて、切れ目に対応するオフセットにフラグ「1」を立てる。辞書インデックス160gの初期値は、各オフセットに対応するフラグが「0」となる。
【0077】
共起集計部160cが、上記処理を行う過程において、コドン圧縮ファイル150cのあるオフセットからのコドン符号配列が、タンパク質辞書150eに含まれる長さの異なる複数のコドン符号配列と一致する場合もある。
【0078】
たとえば、図3で説明したように、コドン圧縮ファイル150cのある切れ目のオフセットPからオフセットNまでのコドン符号配列が、タンパク質Aの符号に対応し、かつ、オフセットPからオフセットNまでのコドンの符号配列が、タンパク質Bの符号と一致する場合がある。
【0079】
この場合には、共起集計部160cは、オフセットP~P+Nのコドンの符号をタンパク質Aの符号とし、辞書インデックス150gのオフセットP+N+1にフラグ「1」を立てる。また、共起集計部160cは、オフセットP~P+Nのコドンの符号をタンパク質Bの符号とし、辞書インデックス150gのオフセットP+N+1にフラグ「1」を設定する。共起集計部160cは、上記処理を繰り返し実行することで、辞書インデックス150gを生成する。
【0080】
続いて、共起集計部160cが、タンパク質HMM150fを生成する処理の一例について説明する。共起集計部160cは、コドン圧縮ファイル150cに含まれる各タンパク質の符号を、タンパク質辞書150eを基にそれぞれ特定する。また、共起集計部160cは、あるタンパク質の符号に後続するタンパク質の符号の種別を集計し、あるタンパク質の符号との共起率を算出する。
【0081】
たとえば、タンパク質Aの符号が、コドン圧縮ファイル150cにおいて、M回出現したとする。そして、タンパク質Aの符号に後続する各種のタンパク質の符号うち、タンパク質Bの符号がL回出現した場合には、タンパク質Aの符号と、タンパク質Bの符号との共起率は「L/M×100」となる。共起集計部160cは、他のタンパク質の符号についても、共起率を算出する処理を繰り返し実行することで、タンパク質HMM150fを生成する。
【0082】
ところで、共起集計部160cは、コドン転置インデックス150dのビットマップがハッシュ化されている場合には、ハッシュ化されたビットマップを復元する。図13は、ハッシュ化されたビットマップを復元する処理を説明するための図である。ここでは一例として、共起集計部160cが、ハッシュ化ビットマップh11およびハッシュ化ビットマップh12を基にして、ビットマップb1を復元する場合について説明する。
【0083】
共起集計部160cは、底「29」のハッシュ化ビットマップh11から、中間ビットマップh11’を生成する。共起集計部160cは、ハッシュ化ビットマップh11の位置0~28の値を、中間ビットマップh11’の位置0~28にそれぞれ、コピーする。
【0084】
共起集計部160cは、中間ビットマップh11’の位置29以降の値については、「29」毎に、ハッシュ化ビットマップh11の位置0~28の値を、それぞれコピーする処理を繰り返し実行する。図13に示す例では、中間ビットマップh11’の位置29~43の位置に、ハッシュ化ビットマップh11の位置0~14の値を、コピーした例を示す。
【0085】
共起集計部160cは、底「31」のハッシュ化ビットマップh12から、中間ビットマップh12’を生成する。共起集計部160cは、ハッシュ化ビットマップh12の位置0~30の値を、中間ビットマップh12’の位置0~30にそれぞれ、コピーする。
【0086】
共起集計部160cは、中間ビットマップh12’の位置31以降の値については、「31」毎に、ハッシュ化ビットマップh12の位置0~30の値を、それぞれコピーする処理を繰り返し実行する。図13に示す例では、中間ビットマップh12’の位置31~43の位置に、ハッシュ化ビットマップh12の位置0~12の値を、コピーした例を示す。
【0087】
共起集計部160cは、中間ビットマップh11’と、中間ビットマップh12’とを生成すると、中間ビットマップh11’と、中間ビットマップh12’とをAND演算することで、ハッシュ化前のビットマップb1を復元する。共起集計部160cは、他のハッシュ化されたビットマップについても、同様の処理を繰り返し実行することで、コドンに対応する各ビットマップを復元する(コドン転置インデックス150dを復元する)ことができる。
【0088】
図5の説明に戻る。第2符号化部160dは、コドン圧縮ファイル150c、コドン転置インデックス150d、タンパク質辞書150e、辞書インデックス150g、タンパク質HMM150fを基にして、タンパク質圧縮ファイル150hおよびタンパク質転置インデックス150iを生成する。
【0089】
第2符号化部160dは、辞書インデックス150gを基にして、コドン圧縮ファイル150cに含まれる各タンパク質のコドン符号配列の切れ目を特定する。第2符号化部160dは、各切れ目の間のコドン符号配列と、タンパク質辞書150eとを基にして、各切れ目の間のコドン符号配列に対応するタンパク質の符号を特定し、コドン符号配列を、タンパク質の符号に変換する。
【0090】
第2符号化部160dは、タンパク質の符号(切れ目)に続くコドン符号配列が、複数のタンパク質の符号に該当する場合には、タンパク質HMM150fを基にして、該当する複数のタンパク質の符号のうち、最も共起率の高いタンパク質の符号を特定する。
【0091】
たとえば、タンパク質の符号「8000h」に続くタンパク質の符号が「8028h」または「8132h」となる場合の第2符号化部160dの処理について説明する。図9で説明したタンパク質HMM150fを参照すると、タンパク質の符号「8000h」と符号「8028h」との共起率は「78%」である。一方、タンパク質の符号「8000h」と符号「8132h」との共起率は「63%」である。第2符号化部160dは、符号「8000h」と符号「8028h」との共起率が、符号「8000h」と符号「8132h」との共起率よりも大きいため、タンパク質の符号「8000h」に続くタンパク質の符号を「8132h」と特定する。
【0092】
第2符号化部160dは、切れ目に続くコドン符号配列を、特定したタンパク質の符号に変換する。第2符号化部160dは、上記処理を繰り返し実行することで、タンパク質圧縮ファイル150hを生成する。
【0093】
第2符号化部160dは、タンパク質圧縮ファイル150hを生成する際に、タンパク質転置インデックス150iを生成する。タンパク質転置インデックス150iは、タンパク質圧縮ファイル150hの先頭からのオフセットと、タンパク質の符号とを対応付ける情報である。第2符号化部160dは、タンパク質転置インデックス150iを生成する場合に、タンパク質転置インデックス150iのビットマップをハッシュ化してもよい。タンパク質転置インデックス150iのビットマップをハッシュ化する処理は、共起集計部160cが、コドン転置インデックス150dのビットマップをハッシュ化する処理と同様である。
【0094】
次に、本実施例1に係る特定装置100の処理手順の一例について説明する。図14は、本実施例1に係る特定装置の処理手順を示すフローチャートである。図14に示すように、特定装置100の第1符号化部160bは、塩基ファイル150aをコドン単位で圧縮し、コドン圧縮ファイル150cおよびコドン転置インデックス150dを生成する(ステップS101)。
【0095】
共起集計部160cは、タンパク質辞書150eと、コドン転置インデックス150dとを基にして、コドン圧縮ファイル150cに含まれるタンパク質を特定する(ステップS102)。共起集計部160cは、コドン圧縮ファイル150cに含まれるタンパク質毎の切れ目を基にして、辞書インデックス150gを生成する(ステップS103)。
【0096】
共起集計部160cは、コドン圧縮ファイル150cに含まれるタンパク質と、このタンパク質に後続するタンパク質とを集計し、共起率を算出する(ステップS104)。共起集計部160cは、タンパク質HMM150fを生成する(ステップS105)。
【0097】
第2符号化部160dは、辞書インデックス150gを基にして、コドン圧縮ファイル150cから、タンパク質に対応するコドン符号配列を抽出する(ステップS106)。第2符号化部160dは、タンパク質辞書150eを基にして、コドン符号配列を、タンパク質の符号に変換する(ステップS107)。
【0098】
第2符号化部160dは、タンパク質圧縮ファイルおよびタンパク質転置インデックス150iを更新する(ステップS108)。第2符号化部160dは、コドン圧縮ファイル150cの終端に到達した場合には(ステップS109,Yes)、処理を終了する。第2符号化部160dは、コドン圧縮ファイル150cの終端に到達していない場合には(ステップS109,No)、タンパク質HMM150fを基にして、後続するタンパク質の符号(コドン符号配列)を特定し(ステップS110)、ステップS106に移行する。
【0099】
次に、本実施例1に係る特定装置100の効果について説明する。特定装置100は、コドン圧縮ファイル150cに含まれるタンパク質と、このタンパク質に後続するタンパク質の共起率を算出することで、タンパク質HMM150fを生成する。特定装置100は、タンパク質HMM150fを用いることで、コドン圧縮ファイル150cのコドン符号配列を、正しいタンパク質単位で切り出すことができる。正しいタンパク質単位で切り出すことで、コドン圧縮ファイル150cをタンパク質単位で符号化したタンパク質圧縮ファイル150hを生成することができる。また、コドン圧縮ファイル150cに含まれるタンパク質の配列を特定できるので、複数のタンパク質やアミノ酸で構成されるタンパク質の一次構造を容易に推定可能となる。
【0100】
特定装置100は、特定装置100は、タンパク質HMM150fを用いることで、コドン圧縮ファイル150cのコドン符号配列を、正しいタンパク質単位で切り出し、タンパク質単位の符号に変換することで、タンパク質圧縮ファイル150hを生成する。これによって、塩基ファイル150aを、タンパク質の単位で圧縮できるので、コドン圧縮ファイル150cと比較して、圧縮率を高めることができる。
【0101】
特定装置100は、塩基ファイル150aおよび変換テーブル150bを基にして、コドン圧縮ファイル150cおよびコドン転置インデックス150dを生成する。コドン転置インデックス150dを用いることで、コドン圧縮ファイル150cに含まれる各コドンの並びを、伸長することなく特定することができる。
【0102】
特定装置100は、タンパク質圧縮ファイル150hを生成する際に、タンパク質転置インデックス150iを生成する。このタンパク質転置インデックス150iを用いることで、タンパク質圧縮ファイル150hに含まれる各タンパク質の並びを、伸長することなく特定することができる。
【実施例2】
【0103】
図15図17は、本実施例2に係る特定装置の処理を説明するための図である。まず、図15について説明する。特定装置の共起集計部260cは、タンパク質圧縮ファイル150hおよびタンパク質転置インデックス150iと、一次構造辞書250aとを基にして、一次構造HMM250bおよび一次構造辞書インデックス250cを生成する。
【0104】
タンパク質圧縮ファイル150hおよびタンパク質転置インデックス150iに関する説明は、実施例1で説明したタンパク質圧縮ファイル150hおよびタンパク質転置インデックス150iに関する説明と同様である。
【0105】
一次構造辞書250aは、タンパク質の一次構造の符号と、タンパク質符号配列とを対応付ける情報である。以下の説明では、タンパク質の一次構造を、単に「一次構造」と表記する。タンパク質符号配列は、複数のタンパク質の符号を配列した情報である。タンパク質の一次構造に応じてタンパク質(タンパク質の符号)の組み合わせはそれぞれ異なり、一次構造に対応するタンパク質の数も一定ではない。
【0106】
共起集計部260cは、タンパク質転置インデックス150iを基にして、タンパク質圧縮ファイル150hに含まれるタンパク質の組み合わせを特定する。また、共起集計部260cは、タンパク質の組み合わせ(タンパク質符号配列)と、一次構造辞書250aのタンパク質符号配列とを比較して、タンパク質圧縮ファイル150hに含まれる一次構造の符号を特定する処理を繰り返し実行する。
【0107】
共起集計部260cは、上記処理を繰り返し実行していく過程で、タンパク質圧縮ファイル150hに含まれる各一次構造に対応するタンパク質符号配列の「切れ目」を、一次構造辞書インデックス250cに設定する。
【0108】
たとえば、タンパク質符号配列「02h8028h・・03h02h80F5h・03h」において、タンパク質符号配列「02h8028h・・03h」が、一次構造の符号「F00000h」に対応するタンパク質符号配列である。また、タンパク質符号配列「02h80F5h・03h」が、一次構造の符号「F00001h」に対応するタンパク質符号配列である。この場合には、タンパク質符号配列「02h8028h・・03h」と「02h80F5h・03h」との間が「切れ目」となる。一次構造辞書インデックス250cにおいて、各切れ目は、タンパク質圧縮ファイル150hの先頭からのオフセットで示される。本実施例2では一例として、切れ目を後続のタンパク質符号配列の先頭の符号のオフセットで示す。上記の例では後続の「02h80F5h・03h」の先頭の符号<02h>のオフセットが、切れ目のオフセットとなる。
【0109】
なお、共起集計部260cが、上記処理を行う過程において、タンパク質圧縮ファイル150hのあるオフセットからのタンパク質符号配列が、一次構造辞書250aに含まれる長さの異なる複数のタンパク質符号配列に一致する場合もある。
【0110】
たとえば、図16に示すように、タンパク質圧縮ファイル150hのある切れ目のオフセットPからオフセットNまでのタンパク質符号配列が、一次構造Cの符号に対応し、かつ、オフセットPからオフセットNまでのタンパク質符号配列が、一次構造Dの符号と一致する場合がある。
【0111】
この場合には、共起集計部260cは、オフセットP~P+Nのタンパク質符号配列を一次構造Cの符号とし、オフセットP+N+1を切れ目として、上記処理を繰り返し実行する。また、共起集計部260cは、オフセットP~P+Nのタンパク質符号配列をタンパク質Bの符号とし、オフセットP+N+1を切れ目として、上記処理を繰り返し実行する。
【0112】
共起集計部260cは、上記処理により特定した各一次構造(一次構造のタンパク質符号配列)について、一次構造の終端に含まれるアミノ酸の組み合わせを集計し、あるアミノ酸の組み合わせと、一次構造の符号との共起率を算出する。たとえば、あるアミノ酸の組み合わせEが、タンパク質圧縮ファイル150hにおいて、M回出現したとする。そして、アミノ酸の組み合わせEを終端とする一次構造のうち、一次構造Fの出現回数がL回の場合には、アミノ酸の組み合わせEと、一次構造Fとの共起率は「L/M×100」となる。共起集計部260cは、各アミノ酸の組み合わせについて、共起率を算出する処理を繰り返し実行することで、一次構造HMM250bを生成する。一次構造HMM250bは、一次構造の終端のアミノ酸の組み合わせと、一次構造との共起率を定義した情報である。
【0113】
なお、共起集計部260cは、図8に示したタンパク質辞書に定義されたタンパク質の符号と、アミノ酸符号配列との関係を基にして、一次構造の終端に含まれるアミノ酸の組み合わせを特定してもよい。
【0114】
図17の説明に移行する。特定装置の符号化部260dは、タンパク質圧縮ファイル150h、タンパク質転置インデックス150i、一次構造辞書250a、一次構造辞書インデックス250c、一次構造HMM250bを基にして、一次構造圧縮ファイル250dおよび一次構造転置インデックス250eを生成する。符号化部260dは「特定部」の一例である。
【0115】
符号化部260dは、一次構造辞書インデックス250cを基にして、タンパク質圧縮ファイル150hに含まれる各一次構造のタンパク質符号配列の切れ目を特定する。符号化部260dは、各切れ目の間のタンパク質符号配列と、一次構造辞書250aとを基にして、各切れ目の符号を先頭とするタンパク質符号配列に対応する一次構造の符号を特定し、タンパク質符号配列を、一次構造の符号に変換する。
【0116】
符号化部260dは、一次構造の(切れ目)に続くタンパク質符号配列が、複数の一次構造のタンパク質符号配列に該当する場合には、一次構造HMM250bを基にして、該当する複数の一次構造のうち、最も共起率の高い一次構造を特定する。符号化部260dは、切れ目に続くタンパク質符号配列を、特定した一次構造の符号に変換する。符号化部260dは、上記処理を繰り返し実行することで、一次構造圧縮ファイル250dを生成する。
【0117】
たとえば、符号化部260dの処理を、図16を用いて説明する。一例として、オフセットPを先頭とするタンパク質符号配列が、一次構造Cに対応するタンパク質符号配列と、一次構造Dに対応するタンパク質符号配列に対応するものとする。この場合、符号化部260dは、一次構造CのオフセットNを終端とするアミノ酸の組み合わせ、および、一次構造Cの共起率CO1と、一次構造DのオフセットNを終端とするアミノ酸の組み合わせ、および、一次構造Dの共起率CO2とを比較する。
【0118】
符号化部260dは、共起率CO1が、共起率CO2よりも大きい場合には、オフセットPを先頭とするタンパク質符号配列は、一次構造Cに対応するタンパク質符号配列であると特定し、オフセットP~Nまでのタンパク質符号配列を、一次構造Cの符号に変換する。符号化部260dは、オフセットNを先頭とするタンパク質符号配列について、上記処理を繰り返し実行する。
【0119】
一方、符号化部260dは、共起率CO2が、共起率CO1よりも大きい場合には、オフセットPを先頭とするタンパク質符号配列は、一次構造Dに対応するタンパク質符号配列であると特定し、オフセットP~Nまでのタンパク質符号配列を、一次構造Dの符号に変換する。符号化部260dは、オフセットNを先頭とするタンパク質符号配列について、上記処理を繰り返し実行する。
【0120】
符号化部260dは、一次構造圧縮ファイル250dを生成する際に、一次構造転置インデックス250eを生成する。一次構造転置インデックス250eは、一次構造圧縮ファイル250dの先頭からのオフセットと、一次構造の符号とを対応付ける情報である。
【0121】
上記のように、本実施例2に係る特定装置は、タンパク質圧縮ファイル150hに含まれる一次構造と、この一次構造の終端に含まれるアミノ酸の組み合わせとの共起率を算出することで、一次構造HMM250bを生成する。特定装置は、一次構造HMM250bを用いることで、タンパク質圧縮ファイル150hのタンパク質符号配列に含まれる各一次構造を適切に特定することができる。また、タンパク質圧縮ファイル150hに含まれる各一次構造を特定することで、タンパク質圧縮ファイル150hを、一次構造単位で符号化することができる。
【0122】
次に、本実施例2に係る特定装置200の構成の一例について説明する。図18は、本実施例2に係る特定装置の構成を示す機能ブロック図である。図18に示すように、この特定装置200は、通信部210、入力部220、表示部230、記憶部250、制御部260を有する。
【0123】
通信部210、入力部220、表示部230に関する説明は、実施例1で説明した通信部110、入力部120、表示部130に関する説明と同様である。
【0124】
記憶部250は、塩基ファイル150a、変換テーブル150b、コドン圧縮ファイル150c、コドン転置インデックス150dを有する。記憶部250は、タンパク質辞書150e、タンパク質HMM150f、辞書インデックス150g、タンパク質圧縮ファイル150h、タンパク質転置インデックス150iを有する。記憶部250は、一次構造辞書250a、一次構造HMM250b、一次構造辞書インデックス250c、一次構造圧縮ファイル250d、一次構造転置インデックス250eを有する。記憶部250は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
【0125】
塩基ファイル150a、変換テーブル150b、コドン圧縮ファイル150c、コドン転置インデックス150dに関する説明は、実施例1で説明したものと同様である。タンパク質辞書150e、タンパク質HMM150f、辞書インデックス150g、タンパク質圧縮ファイル150h、タンパク質転置インデックス150iに関する説明は、実施例1で説明したものと同様である。
【0126】
一次構造辞書250aは、一次構造の符号と、タンパク質符号配列とを対応付ける情報である。図19は、一次構造辞書のデータ構造の一例を示す図である。図19に示すように、この一次構造辞書250aは、一次構造情報と、タンパク質符号配列とを対応付ける。
【0127】
一次構造情報には、一次構造の「符号」と、一次構造の属する「グループ」と、一次構造の「名称」とが含まれる。タンパク質符号配列は、一次構造の符号(一次構造の種別)に対応する、タンパク質の符号の配列である。
【0128】
たとえば、一次構造「α一次配列」は、グループ「G1」に属し、符号は「F00000h」となる。また、符号「F00000h」に対応するタンパク質符号配列は「02h8028h・・・03h」となる。
【0129】
一次構造HMM250bは、一次構造の終端のアミノ酸の組み合わせと、一次構造との共起率を定義した情報である。図20は、一次構造HMMのデータ構造の一例を示す図である。図20に示すように、この一次構造HMM250bは、アミノ酸組み合わせ情報と、共起一次構造情報とを対応付ける。
【0130】
アミノ酸組み合わせ情報には、アミノ酸の組み合わせに対応する各「符号」と、アミノ酸の組み合わせに含まれる各アミノ酸の「名称」とを対応付ける。共起一次構造情報には、一次構造の符号と、共起率とがそれぞれ対応付けられる。たとえば、一次構造HMM250bの1行目のレコードについて説明する。終端のアミノ酸の組み合わせ「47h41h50h」と、一次構造の符号「F08028h」との共起率は「78%」である。終端のアミノ酸の組み合わせ「47h41h50h」と、一次構造の符号「F08132h」との共起率は「63%」である。終端のアミノ酸の組み合わせ「47h41h50h」と、一次構造の符号「F080F5h」との共起率は「51%」である。
【0131】
一次構造辞書インデックス250cは、タンパク質転置インデックス150iに含まれる各タンパク質符号配列(一次構造に対応するタンパク質符号配列のかたまり)の切れ目のオフセットを保持する情報である。たとえば、一次構造辞書インデックス250cにおいて、各切れ目は、タンパク質圧縮ファイル150hの先頭からのオフセットで示される。本実施例2では一例として、切れ目を、後続のタンパク質符号配列の先頭のタンパク質の符号のオフセットで示す。
【0132】
一次構造圧縮ファイル250dは、複数の一次構造の符号が配列された情報を保持するファイルである。一次構造圧縮ファイル250dは、後述する符号化部260dにより生成される。その他の一次構造圧縮ファイル250dの説明は、図17で説明した、一次構造圧縮ファイル250dの説明と同様である。
【0133】
一次構造転置インデックス250eは、一次構造圧縮ファイル250dの先頭からのオフセットと、一次構造の種別(一次構造の符号)とを対応付ける情報である。図21は、一次構造転置インデックスのデータ構造の一例を示す図である。図21において、一次構造転置インデックス250eの横軸は、オフセットに対応する軸である。一次構造転置インデックスの縦軸は、一次構造の種別(一次構造の符号)に対応する軸である。一次構造転置インデックス250eは、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
【0134】
たとえば、一次構造圧縮ファイル250dの先頭の一次構造の符号のオフセットを「0」とする。一次構造圧縮ファイル250dの先頭から9番目の位置に、一次構造の符号「F00000h(α一次配列)」が含まれる場合、一次構造転置インデックス250eのオフセット「8」の列と、一次構造の符号「F00000h(α一次配列)」の行とが交差する位置のビットが「1」となる。
【0135】
図18の説明に戻る。制御部260は、取得部260aと、前処理部260bと、共起集計部260cと、符号化部260dとを有する。制御部260は、CPUやMPUなどによって実現できる。また、制御部260は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
【0136】
取得部260aは、通信部210を介して、ネットワークに接続された外部装置(図示略)から、各種の情報を取得する処理部である。たとえば、取得部260aは、外部装置から、塩基ファイル150aを取得した場合、塩基ファイル150aを、記憶部250に格納する。なお、取得部260aは、塩基ファイル150aがZIP等で圧縮されている場合、圧縮された塩基ファイル150aを伸長する。
【0137】
前処理部260bは、実施例1で説明した第1符号化部160b、共起集計部160c、第2符号化部160dに対応する処理部である。前処理部260bが、第1符号化部160b、共起集計部160c、第2符号化部160dに対応する処理を実行することで、タンパク質圧縮ファイル150h、タンパク質転置インデックス150iを生成する。
【0138】
共起集計部260cは、タンパク質圧縮ファイル150h、タンパク質転置インデックス150i、一次構造辞書250aを基にして、一次構造HMM250b、一次構造辞書インデックス250cを生成する処理部である。
【0139】
共起集計部260cは、タンパク質転置インデックス150iを基にして、タンパク質圧縮ファイル150hに含まれる一次構造の種別および位置を特定する。一次構造は、所定のタンパク質の組み合わせ(タンパク質符号配列)であり、一次構造に対応するタンパク質符号配列は、一次構造辞書250aに定義される。
【0140】
共起集計部260cは、ある一次構造に含まれるタンパク質のビットマップを、タンパク質転置インデックス150iから抽出し、左シフト、AND演算を繰り返し実行することで、ある一次構造の位置を特定する。共起集計部260cが実行する左シフト、AND演算に関する説明は、実施例1で説明した共起集計部160cと同様である。共起集計部260cが、上記処理を繰り返し実行することで、タンパク質圧縮ファイル150hに含まれる各一次構造をそれぞれ特定する。
【0141】
共起集計部260cが、上記処理を行う過程において、タンパク質圧縮ファイル150hのあるオフセットからのタンパク質符号配列が、一次構造辞書250aに含まれる長さの異なる複数のタンパク質符号配列と一致する場合もある。
【0142】
たとえば、図16で説明したように、タンパク質圧縮ファイル150hのある切れ目のオフセットPからオフセットNまでのタンパク質符号配列が、一次構造Cの符号に対応し、かつ、オフセットPからオフセットNまでのタンパク質符号配列が、一次構造Dの符号と一致する場合がある。
【0143】
この場合には、共起集計部260cは、オフセットP~P+Nのタンパク質符号配列を一次構造Cの符号とし、一次構造辞書インデックス250cのオフセットP+N+1にフラグ「1」を立てる。また、共起集計部260cは、オフセットP~P+Nのタンパク質符号配列を一次構造Dの符号とし、一次構造辞書インデックス250cのオフセットP+N+1にフラグ「1」を設定する。共起集計部260cは、上記処理を繰り返し実行することで、一次構造辞書インデックス250cを生成する。
【0144】
続いて、共起集計部260cが、一次構造HMM250bを生成する処理の一例について説明する。共起集計部260cは、タンパク質圧縮ファイル150hに含まれる各一次構造の符号を、一次構造辞書を基にそれぞれ特定する。また、共起集計部260cは、一次構造毎に、一次構造の終端に含まれるアミノ酸の組み合わせを集計する。
【0145】
たとえば、あるアミノ酸の組み合わせEが、タンパク質圧縮ファイル150hにおいて、M回出現したとする。そして、アミノ酸の組み合わせEを終端とする一次構造のうち、一次構造Fの出現回数がL回の場合には、アミノ酸の組み合わせEと、一次構造Fとの共起率は「L/M×100」となる。共起集計部260cは、各アミノ酸の組み合わせについて、共起率を算出する処理を繰り返し実行することで、一次構造HMM250bを生成する。なお、共起集計部260cは、タンパク質辞書150eを基にして、タンパク質に対応するアミノ酸符号配列(アミノ酸の組み合わせ)を特定するものとする。
【0146】
共起集計部260cが、アミノ酸の組み合わせを特定する終端の部分は、終端から先頭の方向に所定数のアミノ酸までの部分とする。終端の部分は、予め設定されていてもよい。
【0147】
符号化部260dは、タンパク質圧縮ファイル150h、タンパク質転置インデックス150i、一次構造辞書250a、一次構造辞書インデックス250c、一次構造HMM250bを基にして、一次構造圧縮ファイル250hおよび一次構造転置インデックス250eを生成する。
【0148】
符号化部260dは、一次構造辞書インデックス250gを基にして、タンパク質圧縮ファイル150hに含まれる各一次構造のタンパク質符号配列の切れ目を特定する。符号化部260dは、各切れ目の間のタンパク質符号配列と、一次構造辞書250aとを基にして、各切れ目の間のタンパク質符号配列に対応する一次構造の符号を特定し、タンパク質符号配列を、一次構造の符号に変換する。
【0149】
符号化部260dは、一次構造の符号(切れ目)に続くタンパク質符号配列が、複数の一次構造の符号に該当する場合には、一次構造HMM250bを基にして、該当する複数の一次構造の符号のうち、最も共起率の高い一次構造を特定する。符号化部260dは、切れ目に続くタンパク質符号配列を、特定した一次構造の符号に変換する。符号化部260dは、上記処理を繰り返し実行することで、一次構造圧縮ファイル250dを生成する。
【0150】
たとえば、符号化部260dの処理を、図16を用いて説明する。オフセットPを先頭とするタンパク質符号配列が、一次構造Cに対応するタンパク質符号配列と、一次構造Dに対応するタンパク質符号配列に対応するものとする。この場合、符号化部260dは、一次構造CのオフセットNを終端とするアミノ酸の組み合わせ、および、一次構造Cの共起率CO1と、一次構造DのオフセットNを終端とするアミノ酸の組み合わせ、および、一次構造Dの共起率CO2とを比較する。
【0151】
符号化部260dは、共起率CO1が、共起率CO2よりも大きい場合には、オフセットPを先頭とするタンパク質符号配列は、一次構造Cに対応するタンパク質符号配列であると特定し、オフセットP~Nまでのタンパク質符号配列を、一次構造Cの符号に変換する。符号化部260dは、オフセットNを先頭とするタンパク質符号配列について、上記処理を繰り返し実行する。
【0152】
一方、符号化部260dは、共起率CO2が、共起率CO1よりも大きい場合には、オフセットPを先頭とするタンパク質符号配列は、一次構造Dに対応するタンパク質符号配列であると特定し、オフセットP~Nまでのタンパク質符号配列を、一次構造Dの符号に変換する。符号化部260dは、オフセットNを先頭とするタンパク質符号配列について、上記処理を繰り返し実行する。
【0153】
符号化部260dは、一次構造圧縮ファイル250dを生成する際に、一次構造転置インデックス250eを生成する。一次構造転置インデックス250eは、一次構造圧縮ファイル250dの先頭からのオフセットと、一次構造の符号とを対応付ける情報である。
【0154】
次に、本実施例2に係る特定装置200の処理手順の一例について説明する。図22は、本実施例2に係る特定装置の処理手順を示すフローチャートである。図22に示すように、特定装置200の前処理部260bは、前処理を実行することで、タンパク質圧縮ファイル150hおよびタンパク質転置インデックス150iを生成する(ステップS201)。ステップS201の前処理は、実施例1の図14で説明した処理に対応する。
【0155】
特定装置200の共起集計部260cは、一次構造辞書250aと、タンパク質圧縮ファイル150hに含まれるタンパク質符号配列とを基にして、タンパク質圧縮ファイル150hに含まれる一次構造を特定する(ステップS202)。
【0156】
共起集計部260cは、タンパク質圧縮ファイル150hにおいて、各一次構造の切れ目のオフセットを一次構造辞書250aに登録する(ステップS203)。共起集計部260cは、一次構造と、一次構造の終端に含まれるアミノ酸の組み合わせを集計する(ステップS204)。共起集計部260cは、集計結果を基にして、一次構造HMM250bを生成する(ステップS205)。
【0157】
特定装置200の符号化部260dは、一次構造辞書インデックス250cを基にして、タンパク質圧縮ファイル150hから、一次構造と、一次構造の終端(アミノ酸の組み合わせ)を特定する(ステップS206)。
【0158】
符号化部260dは、一次構造HMM250bを基にして、共起率が最大となる一次構造を特定する(ステップS207)。符号化部260dは、一次構造転置インデックス250eを更新する(ステップS208)。
【0159】
符号化部260dは、タンパク質圧縮ファイル150hの終端に到達した場合には(ステップS209,Yes)、処理を終了する。一方、符号化部260dは、タンパク質圧縮ファイル150hの終端に到達していない場合には(ステップS209,No)、ステップS206に移行する。
【0160】
次に、本実施例2に係る特定装置200の効果について説明する。特定装置200は、タンパク質圧縮ファイル150hに含まれる一次構造と、この一次構造の終端に含まれるアミノ酸の組み合わせとの共起率を算出することで、一次構造HMM250bを生成する。特定装置200は、一次構造HMM250bを用いることで、タンパク質圧縮ファイル150hのタンパク質符号配列に含まれる各一次構造を適切に特定することができる。また、タンパク質圧縮ファイル150hに含まれる各一次構造を特定することで、タンパク質圧縮ファイル150hを、一次構造単位で符号化することができる。
【0161】
次に、本実施例に示した特定装置200(100)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図23は、本実施例に係る特定装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0162】
図23に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置305とを有する。コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
【0163】
ハードディスク装置307は、取得プログラム307a、前処理プログラム307b、共起集計プログラム307c、符号化プログラム307dを有する。CPU301は、取得プログラム307a、前処理プログラム307b、共起集計プログラム307c、符号化プログラム307dを読み出してRAM306に展開する。
【0164】
取得プログラム307aは、取得プロセス306aとして機能する。前処理プログラム307bは、前処理プロセス306bとして機能する。共起集計プログラム307cは、共起集計プロセス306cとして機能する。符号化プログラム307dは、符号化プロセス306dとして機能する。
【0165】
取得プロセス306aの処理は、取得部260aの処理に対応する。前処理プロセス306bの処理は、前処理部260bの処理に対応する。前処理部260bの処理は、第1符号化部160b、共起集計部160c、第2符号化部160dの処理に対応する。共起集計プロセス306cの処理は、共起集計部260cの処理に対応する。符号化プロセス306dの処理は、符号化部260dの処理に対応する。
【0166】
なお、各プログラム307a~307dについては、必ずしも最初からハードディスク装置307に記憶させておかなくてもよい。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307dを読み出して実行するようにしてもよい。
【0167】
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0168】
(付記1)コンピュータが実行する特定方法であって、
複数のアミノ酸で構成される複数のタンパク質が配列されたタンパク質ファイルを取得し、
前記タンパク質ファイルに含まれるいずれかの位置を開始位置とする複数の一次構造の候補を特定し、
特定した複数の一次構造の候補において、一次構造および前記一次構造の終端に位置する各アミノ酸の組み合わせと、一次構造および前記一次構造の終端に位置するアミノ酸の所定の組み合わせの共起率を、異なる一次構造毎に対応付けた一次構造テーブルとに基づき、前記複数の一次構造の候補のうち、一つの一次構造を特定する
処理を実行することを特徴とする特定方法。
【0169】
(付記2)前記特定する処理によって特定された一次構造と、一次構造および符号を対応付けた一次構造辞書とを基にして、前記タンパク質ファイルを一次構造単位で圧縮することで、一次構造圧縮ファイルを生成する処理を更に実行することを特徴とする付記1に記載の特定方法。
【0170】
(付記3)前記タンパク質圧縮ファイルの先頭からのオフセットと、一次構造の種別とを対応付けた一次構造転置インデックスを生成する処理を更に実行することを特徴とする付記2に記載の特定方法。
【0171】
(付記4)コンピュータが実行する特定方法であって、
複数のコドンが配列されたコドンファイルを取得し、
前記コドンファイルに含まれるいずれかの位置を開始位置とする複数のタンパク質の候補を特定し、
特定した複数のタンパク質の候補に含まれる各タンパク質および前記開始位置の前のタンパク質の組み合わせと、コドン配列によって特定されるタンパク質において、あるタンパク質に後続するタンパク質の出現頻度が定義されたタンパク質テーブルとに基づき、前記複数のタンパク質の候補のうち、一つのタンパク質を特定する
処理を実行することを特徴とする特定方法。
【0172】
(付記5)前記特定する処理により特定されたタンパク質と、タンパク質およびタンパク質の符号を対応付けたタンパク質辞書とを基にして、前記コドンファイルをタンパク質単位で圧縮することで、タンパク質圧縮ファイルを生成する処理を更に実行することを特徴とする付記4に記載の特定方法。
【0173】
(付記6)前記タンパク質圧縮ファイルの先頭からのオフセットと、タンパク質の種別とを対応付けたタンパク質転置インデックスを生成する処理を更に実行することを特徴とする付記5に記載の特定方法。
【0174】
(付記7)塩基配列を含む塩基ファイルと、複数の塩基配列で特定されるコドンの符号とを対応付けた変換テーブルを基にして、前記塩基ファイルをコドン単位で圧縮することで、前記コドンファイルを生成する処理を更に実行することを特徴とする付記4、5または6に記載の特定方法。
【0175】
(付記8)前記コドンファイルの先頭からのオフセットと、コドンの種別とを対応付けたコドン転置インデックスを更に生成する処理を更に実行することを特徴とする付記7に記載の特定方法。
【0176】
(付記9)コンピュータに、
複数のアミノ酸で構成される複数のタンパク質が配列されたタンパク質ファイルを取得し、
前記タンパク質ファイルに含まれるいずれかの位置を開始位置とする複数の一次構造の候補を特定し、
特定した複数の一次構造の候補において、一次構造および前記一次構造の終端に位置する各アミノ酸の組み合わせと、一次構造および前記一次構造の終端に位置するアミノ酸の所定の組み合わせの共起率を、異なる一次構造毎に対応付けた一次構造テーブルとに基づき、前記複数の一次構造の候補のうち、一つの一次構造を特定する
処理を実行させることを特徴とする特定プログラム。
【0177】
(付記10)前記特定する処理によって特定された一次構造と、一次構造および符号を対応付けた一次構造辞書とを基にして、前記タンパク質ファイルを一次構造単位で圧縮することで、一次構造圧縮ファイルを生成する処理を更に実行することを特徴とする付記9に記載の特定プログラム。
【0178】
(付記11)前記タンパク質圧縮ファイルの先頭からのオフセットと、一次構造の種別とを対応付けた一次構造転置インデックスを生成する処理を更に実行することを特徴とする付記10に記載の特定プログラム。
【0179】
(付記12)コンピュータに、
複数のコドンが配列されたコドンファイルを取得し、
前記コドンファイルに含まれるいずれかの位置を開始位置とする複数のタンパク質の候補を特定し、
特定した複数のタンパク質の候補に含まれる各タンパク質および前記開始位置の前のタンパク質の組み合わせと、コドン配列によって特定されるタンパク質において、あるタンパク質に後続するタンパク質の出現頻度が定義されたタンパク質テーブルとに基づき、前記複数のタンパク質の候補のうち、一つのタンパク質を特定する
処理を実行させることを特徴とする特定プログラム。
【0180】
(付記13)前記特定する処理により特定されたタンパク質と、タンパク質およびタンパク質の符号を対応付けたタンパク質辞書とを基にして、前記コドンファイルをタンパク質単位で圧縮することで、タンパク質圧縮ファイルを生成する処理を更に実行することを特徴とする付記12に記載の特定プログラム。
【0181】
(付記14)前記タンパク質圧縮ファイルの先頭からのオフセットと、タンパク質の種別とを対応付けたタンパク質転置インデックスを生成する処理を更に実行することを特徴とする付記13に記載の特定プログラム。
【0182】
(付記15)塩基配列を含む塩基ファイルと、複数の塩基配列で特定されるコドンの符号とを対応付けた変換テーブルを基にして、前記塩基ファイルをコドン単位で圧縮することで、前記コドンファイルを生成する処理を更に実行することを特徴とする付記12、13または14に記載の特定プログラム。
【0183】
(付記16)前記コドンファイルの先頭からのオフセットと、コドンの種別とを対応付けたコドン転置インデックスを更に生成する処理を更に実行することを特徴とする付記15に記載の特定プログラム。
【0184】
(付記17)複数のアミノ酸で構成される複数のタンパク質が配列されたタンパク質ファイルを取得する取得部と、
前記タンパク質ファイルに含まれるいずれかの位置を開始位置とする複数の一次構造の候補を特定し、特定した複数の一次構造の候補において、一次構造および前記一次構造の終端に位置する各アミノ酸の組み合わせと、一次構造および前記一次構造の終端に位置するアミノ酸の所定の組み合わせの共起率を、異なる一次構造毎に対応付けた一次構造テーブルとに基づき、前記複数の一次構造の候補のうち、一つの一次構造を特定する特定部と
を有することを特徴とする特定装置。
【0185】
(付記18)前記特定部は、特定した一次構造と、一次構造および符号を対応付けた一次構造辞書とを基にして、前記タンパク質ファイルを一次構造単位で圧縮することで、一次構造圧縮ファイルを生成する処理を更に実行することを特徴とする付記17に記載の特定装置。
【0186】
(付記19)前記特定部は、前記タンパク質圧縮ファイルの先頭からのオフセットと、一次構造の種別とを対応付けた一次構造転置インデックスを生成する処理を更に実行することを特徴とする付記18に記載の特定装置。
【0187】
(付記20)複数のコドンが配列されたコドンファイルを取得する取得部と、
前記コドンファイルに含まれるいずれかの位置を開始位置とする複数のタンパク質の候補を特定し、特定した複数のタンパク質の候補に含まれる各タンパク質および前記開始位置の前のタンパク質の組み合わせと、コドン配列によって特定されるタンパク質において、あるタンパク質に後続するタンパク質の出現頻度が定義されたタンパク質テーブルとに基づき、前記複数のタンパク質の候補のうち、一つのタンパク質を特定する特定部と
を有することを特徴とする特定装置。
【0188】
(付記21)前記特定部は、前記特定する処理により特定されたタンパク質と、タンパク質およびタンパク質の符号を対応付けたタンパク質辞書とを基にして、前記コドンファイルをタンパク質単位で圧縮することで、タンパク質圧縮ファイルを生成する処理を更に実行することを特徴とする付記20に記載の特定装置。
【0189】
(付記22)前記特定部は、前記タンパク質圧縮ファイルの先頭からのオフセットと、タンパク質の種別とを対応付けたタンパク質転置インデックスを生成する処理を更に実行することを特徴とする付記21に記載の特定装置。
【0190】
(付記23)前記特定部は、塩基配列を含む塩基ファイルと、複数の塩基配列で特定されるコドンの符号とを対応付けた変換テーブルを基にして、前記塩基ファイルをコドン単位で圧縮することで、前記コドンファイルを生成する処理を更に実行することを特徴とする付記20、21または22に記載の特定装置。
【0191】
(付記24)前記特定部は、前記コドンファイルの先頭からのオフセットと、コドンの種別とを対応付けたコドン転置インデックスを更に生成する処理を更に実行することを特徴とする付記23に記載の特定装置。
【符号の説明】
【0192】
100,200 特定装置
110,210 通信部
120,220 入力部
130,230 表示部
150,250 記憶部
150a 塩基ファイル
150b 変換テーブル
150c コドン圧縮ファイル
150d コドン転置インデックス
150e タンパク質辞書
150f タンパク質HMM
150g 辞書インデックス
150h タンパク質圧縮ファイル
150i タンパク質転置インデックス
160 制御部
160a,260a 取得部
160b 第1符号化部
160c,260c 共起集計部
160d 第2符号化部
250a 一次構造辞書
250b 一次構造HMM
250c 一次構造辞書インデックス
250d 一次構造圧縮ファイル
250e 一次構造転置インデックス
260 制御部
260d 符号化部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25