IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7537609情報処理プログラム、情報処理方法および情報処理装置
<>
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図1
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図2
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図3
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図4
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図5
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図6
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図7
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図8
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図9
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図10
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図11
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図12
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図13
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図14
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図15
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図16
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図17
  • 特許-情報処理プログラム、情報処理方法および情報処理装置 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-13
(45)【発行日】2024-08-21
(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置
(51)【国際特許分類】
   G16B 30/10 20190101AFI20240814BHJP
【FI】
G16B30/10
【請求項の数】 6
(21)【出願番号】P 2023522033
(86)(22)【出願日】2021-05-18
(86)【国際出願番号】 JP2021018730
(87)【国際公開番号】W WO2022244089
(87)【国際公開日】2022-11-24
【審査請求日】2023-09-28
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】片岡 正弘
(72)【発明者】
【氏名】永浦 良平
(72)【発明者】
【氏名】茂櫛 薫
【審査官】鈴木 和樹
(56)【参考文献】
【文献】国際公開第2020/049748(WO,A1)
【文献】特表2015-524658(JP,A)
【文献】特開平8-77177(JP,A)
【文献】国際公開第2010/086990(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
同一のアミノ酸を示す塩基配列の異なる複数のコドンに関し、コドンファイル上の前記複数のコドンの位置を示す第1インデックスを基にして、前記コドンファイル上のアミノ酸の位置を示す第2インデックスを演算し、
前記第2インデックスを基にして、前記コドンファイルに繰り返し発現するアミノ酸配列の位置をそれぞれ特定し、
前記コドンファイルに繰り返し発現する各アミノ酸配列の位置に対応する各コドン配列を、それぞれが相同性を有するコドン配列として特定する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【請求項2】
前記コドンファイルに繰り返し発現するアミノ酸配列が、相同性を有するアミノ酸である否かを、アミノ酸同士の相同性の程度を定義したテーブルを基にして評価する処理を更に実行することを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記コドンファイルに繰り返し発現するアミノ酸配列に対して、アミノ酸配列の並び順が逆になる対称的なアミノ酸配列を、前記コドンファイルから特定し、特定した対称的なアミノ酸配列の位置に対応する各コドン配列を特定する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項4】
前記演算する処理は、前記複数のコドンに対応する第1インデックスのビットマップの論理和を実行することで、前記複数のコドンに対応するある一つのアミノ酸の第2インデックスのビットマップを演算することを特徴とする請求項1に記載の情報処理プログラム。
【請求項5】
コンピュータが実行する情報処理方法であって、
同一のアミノ酸を示す塩基配列の異なる複数のコドンに関し、コドンファイル上の前記複数のコドンの位置を示す第1インデックスを基にして、前記コドンファイル上のアミノ酸の位置を示す第2インデックスを演算し、
前記第2インデックスを基にして、前記コドンファイルに繰り返し発現するアミノ酸配列の位置をそれぞれ特定し、
前記コドンファイルに繰り返し発現する各アミノ酸配列の位置に対応する各コドン配列を、それぞれが相同性を有するコドン配列として特定する
処理を実行することを特徴とする情報処理方法。
【請求項6】
同一のアミノ酸を示す塩基配列の異なる複数のコドンに関し、コドンファイル上の前記複数のコドンの位置を示す第1インデックスを基にして、前記コドンファイル上のアミノ酸の位置を示す第2インデックスを演算する前処理部と、
前記第2インデックスを基にして、前記コドンファイルに繰り返し発現するアミノ酸配列の位置をそれぞれ特定し、前記コドンファイルに繰り返し発現する各アミノ酸配列の位置に対応する各コドン配列を、それぞれが相同性を有するコドン配列として特定する特定部と
を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム等に関する。
【背景技術】
【0002】
ヒトゲノムの塩基配列の研究が進められており、ヒトゲノムを構成するタンパク質の種類が3万種類であることが解明されている。一方で、微生物等のタンパク質の種類は無限であると考えられており、標的となる塩基配列から、繰り返し発現される特異なコドン配列が多数見つかっている。たとえば、繰り返し発現される特異なコドン配列は、ドメインやモチーフ等と呼ばれ、かかる特異なコドン配列を究明することが重要である。
【0003】
ドメインは、タンパク質の配列、構造の一部分で他の部分とは独立に進化し、機能を持った存在である。モチーフは、対称性を持ったコドン配列が特徴である。図17は、モチーフの一例を示す図である。図17に示すように、モチーフには、βヘアピン1a、グリークキー1b、βバレル1c(ポリンやリポカリン)等がある。フォールドは、タンパク質鎖がその本来の三次元構造、通常は生物学的に機能するコンホメーション(立体構造)を、迅速かつ再現性のある方法で獲得する物理的なプロセスである。
【0004】
たとえば、塩基配列から、モチーフを検索する技術として、ハミング距離を持つ置換塩基配列をキーとしてモチーフを検索する従来技術がある。また、DNA(deoxyribonucleic acid)配列の転写開始点の上流からオーソログ候補の複数の配列断面を抽出し、モチーフ候補を判定する従来技術がある。
【先行技術文献】
【特許文献】
【0005】
【文献】国際公開第2005/096208号
【文献】国際公開第2020/049748号
【文献】特開2014-112307号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来技術では、繰り返し発現するコドン配列の探索を効率よく行うことができないという問題がある。
【0007】
ここで、DNAおよびRNA(ribonucleic acid)の塩基は4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。また、3つの塩基配列がひとかたまりで、20種類のアミノ酸を決定する。それぞれのアミノ酸は、「A」~「Y」の記号で示される。図18は、アミノ酸と塩基、およびコドンとの関係を示す図である。3つの塩基配列のかたまりは「コドン」と呼ばれる。各塩基の並びで、コドンが決定され、コドンが決定されるとアミノ酸が決定される。
【0008】
図18に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。たとえば、アミノ酸「アラニン(Ala)」は、コドン「GCU」、「GCC」、「GCA」、「GCG」に対応付けられ、コドン「GCU」、「GCC」、「GCA」、「GCG」は実質的に同一のコドンである。しかしながら、従来技術では、かかるコドンの特性に対応できておらず、繰り返し発現するコドン配列の探索を効率よく行うことができていない。
【0009】
1つの側面では、繰り返し発現されるコドン配列の探索を効率よく行うことができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、同一のアミノ酸を示す塩基配列の異なる複数のコドンに関し、コドンファイル上の複数のコドンの位置を示す第1インデックスを基にして、コドンファイル上のアミノ酸の位置を示す第2インデックスを演算する。コンピュータは、第2インデックスを基にして、コドンファイルに繰り返し発現するアミノ酸配列の位置をそれぞれ特定する。コンピュータは、コドンファイルに繰り返し発現する各アミノ酸配列の位置に対応する各コドン配列を、それぞれが相同性を有するコドン配列として特定する。
【発明の効果】
【0011】
繰り返し発現するコドン配列の探索を効率良く行うことができる。
【図面の簡単な説明】
【0012】
図1図1は、本実施例1に係る情報処理装置の処理を説明するための図(1)である。
図2図2は、本実施例1に係る情報処理装置の処理を説明するための図(2)である。
図3図3は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。
図4図4は、スコアテーブルのデータ構造の一例を示す図である。
図5図5は、コドンファイルのデータ構造の一例を示す図である。
図6図6は、コドン転置インデックスのデータ構造の一例を示す図である。
図7図7は、アミノ酸転置インデックスのデータ構造の一例を示す図である。
図8図8は、特定部の処理を説明するための図(1)である。
図9図9は、特定部の処理を説明するための図(2)である。
図10図10は、特定部の処理を説明するための図(3)である。
図11図11は、特定部の処理を説明するための図(4)である。
図12図12は、探索結果情報のデータ構造の一例を示す図である。
図13図13は、本実施例1に係る情報処理装置の処理手順を示すフローチャートである。
図14図14は、本実施例2に係る情報処理装置の処理を説明するための図(1)である。
図15図15は、本実施例2に係る情報処理装置の処理を説明するための図(2)である。
図16図16は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図17図17は、モチーフの一例を示す図である。
図18図18は、アミノ酸と塩基、およびコドンとの関係を示す図である。
【発明を実施するための形態】
【0013】
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例1】
【0014】
本実施例1に係る情報処理装置の処理の一例について説明する。図1及び図2は、本実施例1に係る情報処理装置の処理を説明するための図である。
【0015】
図1について説明する。情報処理装置は、塩基配列の情報を含むコドンファイル141をコドン単位で走査して、コドン転置インデックス142を生成する。
【0016】
コドン転置インデックス142は、コドンの種類毎のビットマップを有する。コドンの種類は64種類であるため、コドン転置インデックス142には、64個のビットマップが登録される。コドン転置インデックス142の各ビットマップは、コドンの種類と、オフセットと、フラグとが対応付けられる。ビットマップのフラグ「1」が立ったオフセットにおいて、対応する種類のコドンが位置することを示す。ビットマップにおいて、フラグの立っていないオフセットには「0」が対応付けられる。
【0017】
たとえば、コドン「GCU」に対応するビットマップについて、オフセット「n」にフラグ「1」が対応付けられる場合には、コドンファイル141の先頭からn+1番目のコドンが、コドン「GCU」であることを示す。なお、本実施例1では、コドンファイル141の先頭のコドンのオフセットを「0」とする。
【0018】
情報処理装置は、コドン転置インデックス142と、定義テーブルT1とを基にして、アミノ酸転置インデックス143を生成する。定義テーブルT1は、アミノ酸と、コドンとの対応関係を定義するテーブルである。図18で説明したように、同一のアミノ酸に対して、複数種類のコドンが対応付けられる場合がある。
【0019】
アミノ酸転置インデックス143には、各アミノ酸に対応するビットマップが登録される。アミノ酸転置インデックス143の各ビットマップは、アミノ酸の種類と、オフセットと、フラグとが対応付けられる。ビットマップのフラグ「1」が立ったオフセットにおいて、対応する種類のアミノ酸が位置することを示す。ビットマップにおいて、フラグの立っていないオフセットには「0」が対応付けられる。
【0020】
情報処理装置が、アミノ酸転置インデックス143の各アミノ酸のビットマップのうち、アミノ酸「Ala」のビットマップを生成する場合について説明する。情報処理装置100は、定義テーブルT1を基にして、アミノ酸「Ala」に対応するコドンとして「GCU」、「GCC」、「GCA」、「GCG」を特定する。
【0021】
情報処理装置は、コドン転置インデックス142から、コドン「GCU」のビットマップ142-1、コドン「GCC」のビットマップ142-2、コドン「GCA」のビットマップ142-3、コドン「GCG」のビットマップ142-4を取得する。情報処理装置は、ビットマップ142-1~142-4に対してOR演算(論理和)を実行することで、アミノ酸「Ala」のビットマップ143-1を生成する。
【0022】
すなわち、情報処理装置は、ビットマップ142-1~142-1のオフセット「n」のいずれかのフラグが「1」となる場合に、ビットマップ143-1のオフセット「n」のフラグを「1」に設定する。一方、情報処理装置は、ビットマップ142-1~142-1のオフセット「n」のすべてに「0」が設定されている場合、ビットマップ143-1のオフセット「n」に「0」を設定する。情報処理装置は、各オフセットにおいて、上記処理を繰り返し実行する。
【0023】
情報処理装置は、他のアミノ酸のビットマップについても、アミノ酸「Ala」のビットマップ143-1と同様にして生成し、各アミノ酸のビットマップを、アミノ酸転置インデックス143に登録する。
【0024】
図2の説明に移行する。情報処理装置は、アミノ酸転置インデックス143を基にして、コドンファイル141のオフセットと、アミノ酸の種類との関係を特定し、繰り返し発現するアミノ酸配列の位置に対応するコドン配列を、それぞれ相同性を有するコドン配列として特定する。
【0025】
たとえば、図2に示す例では、アミノ酸配列「Leu、Lys、Asp、Gln、Ala」が、コドンファイル141のオフセット10~14,40~44等に繰り返し発現している。この場合、情報処理装置は、オフセット10~14に含まれるコドン配列「CUG、AAA、GAU、CAG、GCA」と、オフセット40~44に含まれるコドン配列「CUG、AAA、GAU、CAA、GCA」を、相同性を有するコドン配列として特定する。
【0026】
コドン配列「CUG、AAA、GAU、CAG、GCA」と、コドン配列「CUG、AAA、GAU、CAA、GCA」とを比較すると、コドンの粒度では、「CAG」と「CAA」とが異なる。しかし、「CAG」と「CAA」とは、同一のアミノ酸「Gln」に対応するため、コドン配列「CUG、AAA、GAU、CAG、GCA」と、コドン配列「CUG、AAA、GAU、CAA、GCA」とは相同性のコドン配列といえる。
【0027】
上記のように、本実施例1に係る情報処理装置によれば、同一のアミノ酸を示す塩基配列の異なるコドンのビットマップから、アミノ酸単位のビットマップを生成することで、アミノ酸転置インデックス143を生成する。情報処理装置は、生成したアミノ酸転置インデックス143を用いて、コドンファイル141上のアミノ酸の種類との関係を特定し、繰り返し発現するアミノ酸配列の位置に対応するコドン配列を、それぞれ相同性を有するコドン配列として特定する。これによって、繰り返し発現されるコドン配列の探索を効率良く行うことができる。
【0028】
次に、本実施例1に係る情報処理装置の構成の一例について説明する。図3は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。図3に示すように、この情報処理装置100は、通信部110、入力部120、表示部130、記憶部140、制御部150を有する。
【0029】
通信部110は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークに接続されていてもよい。
【0030】
入力部120は、各種の情報を、情報処理装置100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0031】
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。
【0032】
記憶部140は、定義テーブルT1、スコアテーブルT2、コドンファイル141、コドン転置インデックス142、アミノ酸転置インデックス143、探索結果情報144を有する。記憶部140は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
【0033】
定義テーブルT1は、アミノ酸と、コドンとの対応関係を定義するテーブルである。定義テーブルT1で定義されるアミノ酸と、コドンとの関係は、図18で説明したアミノ酸と塩基、およびコドンとの関係と同様である。
【0034】
スコアテーブルT2は、アミノ酸同士の類似性の程度を定義するテーブルである。図4は、スコアテーブルのデータ構造の一例を示す図である。図4に示すスコアテーブルT2の領域A1、A2に示す符号は、図18で説明したアミノ酸を一意に示す符号である。領域A3の数値は、アミノ酸置換確率を示すスコアであり、スコアが大きいほど、より類似性の程度が大きいことを示す。
【0035】
たとえば、図4のスコアテーブルT2によれば、アラニン「A(Ala)」とトレオニン「T(Thr)」とのスコアが「-4」である。また、アラニン「A(Ala)」とトリプトファン「W(Trp)」とのスコアが「1」である。このため、アラニンとトレオニンとの組よりも、アラニンとトリプトファンとの組の方が類似性の程度が大きいことを示す。
【0036】
コドンファイル141は、複数の塩基が並んだ塩基配列の情報を有する。図5は、コドンファイルのデータ構造の一例を示す図である。図5に示すように、コドンファイル141は、複数の塩基の記号が並んだ情報である。連続する3つの塩基の組が、一つのコドンに対応する。
【0037】
コドン転置インデックス142は、コドンファイル141の先頭からのオフセットと、コドンの種類とを対応付ける情報である。図6は、コドン転置インデックスのデータ構造の一例を示す図である。コドン転置インデックス142の横軸は、オフセットに対応する軸である。コドン転置インデックス142の縦軸は、コドンの種類に対応する軸である。
【0038】
たとえば、コドンファイル141の先頭のコドンのオフセットを「0」とする。コドンファイル141の先頭から7番目の位置に、コドン「AUG」が含まれる場合、コドン転置インデックス142のオフセット「6」の列と、コドン「AUG」の行とが交差する位置のビットが「1」となる。
【0039】
アミノ酸転置インデックス143は、コドンファイル141の先頭からのオフセットと、アミノ酸の種類とを対応付ける情報である。図7は、アミノ酸転置インデックスのデータ構造の一例を示す図である。アミノ酸転置インデックス143の横軸は、オフセットに対応する軸である。アミノ酸転置インデックス143の縦軸は、アミノ酸の種類に対応する軸である。
【0040】
たとえば、コドンファイル141の先頭のコドン(いずれかのアミノ酸に対応するコドン)のオフセットを「0」とする。コドンファイル141の先頭から7番目の位置に、アミノ酸「Ala」に対応するコドン「GCU」、「GCC」、「GCA」、「GCG」のいずれかが含まれる場合、アミノ酸転置インデックス143のオフセット「6」の列と、アミノ酸「Ala」の行とが交差する位置のビットが「1」となる。
【0041】
探索結果情報144は、コドンファイル141において繰り返し発現するアミノ酸配列(コドン配列)の情報を有する。たとえば、探索結果情報144は、繰り返し発現するアミノ酸配列と、かかるアミノ酸配列の位置との情報を対応付けて保持する。
【0042】
図3の説明に戻る。制御部150は、前処理部151と、特定部152とを有する。制御部150は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)により実現される。また、制御部150は、例えばASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実行されてもよい。
【0043】
前処理部151は、コドンファイル141および定義テーブルT1を基にして、コドン転置インデックス142、アミノ酸転置インデックス143を生成する。
【0044】
前処理部151が、コドン転置インデックス142を生成する処理の一例について説明する。前処理部151は、定義テーブルT1に含まれるコドンの種類から、ターゲットとなるコドンの種類を選択する。前処理部151は、コドンファイル141の先頭からコドンの粒度(3つの塩基配列をひとかたまりとする粒度)で走査して、選択したコドンの種類が出現するオフセットにフラグ「1」を設定する処理を繰り返し実行し、選択したコドンの種類に対応するビットマップを生成する。
【0045】
前処理部151は、他のコドンの種類についても同様にして、ビットマップをそれぞれ生成する。前処理部151は、各コドンの種類に対応するビットマップを、コドン転置インデックス142に設定することで、コドン転置インデックス142を生成する。
【0046】
続いて、前処理部151が、アミノ酸転置インデックス143を生成する処理の一例について説明する。前処理部151は、同一のアミノ酸に対応するコドンの種類を特定し、特定したコドンの種類に対応するビットマップを、コドン転置インデックス142から取得する。前処理部151は、取得した各コドンの種類のビットマップに対して、OR演算を実行することで、アミノ酸のビットマップを生成する。
【0047】
たとえば、前処理部151が、アミノ酸転置インデックス143の各アミノ酸のビットマップのうち、アミノ酸「Ala」のビットマップを生成する場合について説明する。図1で説明したように、前処理部151は、定義テーブルT1を基にして、アミノ酸「Ala」に対応するコドンとして「GCU」、「GCC」、「GCA」、「GCG」を特定する。
【0048】
前処理部151は、コドン転置インデックス142から、コドン「GCU」のビットマップ142-1、コドン「GCC」のビットマップ142-2、コドン「GCA」のビットマップ142-3、コドン「GCG」のビットマップ142-4を取得する。前処理部151は、ビットマップ142-1~142-4に対してOR演算(論理和)を実行することで、アミノ酸「Ala」のビットマップ143-1を生成する。
【0049】
前処理部151は、他のアミノ酸のビットマップについても、アミノ酸「Ala」のビットマップ143-1と同様にして生成し、各アミノ酸のビットマップを、アミノ酸転置インデックス143に設定することで、アミノ酸転置インデックス143を生成する。
【0050】
次に、特定部152の処理について説明する。特定部152は、アミノ酸転置インデックス143を基にして、コドンファイル141に繰り返し発現するアミノ酸配列の位置(オフセット)をそれぞれ特定する。特定部152は、コドンファイル141に繰り返し発現するアミノ酸配列の位置(オフセット)に対応する各コドン配列を、それぞれ相同性を有するコドン配列として特定する。
【0051】
特定部152は、アミノ酸転置インデックス143を基にして、アミノ酸配列の最長一致探索を実行し、最長一致するアミノ酸配列を特定する。特定部152は、最長一致するアミノ酸配列の発現回数が、予め設定される発現回数以上である場合に、かかるアミノ酸配列を、「アミノ酸配列候補」として検索する。
【0052】
たとえば、図2で説明したように、アミノ酸配列「Leu、Lys、Asp、Gln、Ala」が、コドンファイル141のオフセット10~14,40~44等に繰り返し発現し、発現回数が所定の発現回数以上とする。この場合、特定部152は、オフセット10~14に含まれるコドン配列「CUG、AAA、GAU、CAG、GCA」と、オフセット40~44に含まれるコドン配列「CUG、AAA、GAU、CAA、GCA」を、相同性を有するコドン配列として特定する。特定部152は、特定した相同性を有するコドン配列の情報を、探索結果情報144に登録する。
【0053】
ここで、特定部152がアミノ酸転置インデックス143を基にして、連続するアミノ酸配列を特定する処理の一例について説明する。図8は、特定部の処理を説明するための図(1)である。図8では一例として、アミノ酸配列「Leu、Lys、Asp、Gln」が、コドンファイル141に含まれているか否かを特定する場合について説明する。
【0054】
特定部152は、アミノ酸転置インデックス143から、アミノ酸「Leu」のビットマップ50を取得する。ビットマップ50には、オフセット「10」、「20」にフラグ「1」が設定されている。特定部152は、ビットマップ50の左シフトを実行することで、ビットマップ50sを生成する。ビットマップ50sには、オフセット「11」、「21」にフラグ「1」が設定されている。
【0055】
特定部152は、アミノ酸転置インデックス143から、アミノ酸「Lys」のビットマップ51を取得する。ビットマップ51には、オフセット「11」にフラグ「1」が設定されている。特定部152は、ビットマップ50sと、ビットマップ51とのAND演算を実行することで、ビットマップ52を生成する。
【0056】
図8に示す例では、ビットマップ52のオフセット「11」にフラグ「1」が設定されているため、コドンファイル141のオフセット「10~11」において、「Leu、Lys」が連続して存在していることが特定される。
【0057】
特定部152は、ビットマップ52の左シフトを実行することで、ビットマップ52sを生成する。ビットマップ52sでは、オフセット「12」にフラグ「1」が設定される。
【0058】
特定部152は、アミノ酸転置インデックス143から、アミノ酸「Asp」のビットマップ53を取得する。ビットマップ53には、オフセット「12」にフラグ「1」が設定されている。特定部152は、ビットマップ52sと、ビットマップ53とのAND演算を実行することで、ビットマップ54を生成する。
【0059】
図8に示す例では、ビットマップ54のオフセット「12」にフラグ「1」が設定されているため、コドンファイル141のオフセット「10~12」において、「Leu、Lys、Asp」が連続して存在していることが特定される。
【0060】
特定部152は、ビットマップ54の左シフトを実行することで、ビットマップ54sを生成する。ビットマップ54sでは、オフセット「13」にフラグ「1」が設定される。
【0061】
特定部152は、アミノ酸転置インデックス143から、アミノ酸「Gln」のビットマップ55を取得する。ビットマップ55には、オフセット「13」にフラグ「1」が設定されている。特定部152は、ビットマップ54sと、ビットマップ55とのAND演算を実行することで、ビットマップ56を生成する。
【0062】
図8に示す例では、ビットマップ56のオフセット「13」にフラグ「1」が設定されているため、コドンファイル141のオフセット「10~13」において、「Leu、Lys、Asp、Gln」が連続して存在していることが特定される。
【0063】
特定部152は、各アミノ酸配列について、上記処理を繰り返し実行することで、最長一致のアミノ酸配列を特定し、繰り返し発現するアミノ酸配列を特定する。特定部152は、他の技術を用いて、繰り返し発現するアミノ酸配列を特定してもよい。
【0064】
特定部152は、上記の処理によって、アミノ酸配列候補を検索した後に、スコアテーブルT2を用いて、各アミノ酸配列候補の相同性を評価する。図9は、特定部の処理を説明するための図(2)である。ここでは、アミノ酸配列候補60a,60bを用いて説明する。アミノ酸配列候補60a,60bは、「Leu、Lys、Asp、Gln、Ala」となる。また、図18の表(定義テーブルT1相当)を基にして、「Leu、Lys、Asp、Gln、Ala」を記号に変換すると「L(Leu)、K(Lys)、D(Asp)、Q(Gln)、A(Ala)」となる。
【0065】
特定部152は、スコアテーブルT2を基にして、各アミノ酸のスコアを特定し、累計することで、相同性のスコアを算出する。L(Leu)同士のスコアは、スコアテーブルT2に存在しないため「0」となる。K(Lys)同士のスコアは、スコアテーブルT2に基づき「-1」となる。D(Asp)同士のスコアは、スコアテーブルT2に基づき「-1」となる。Q(Gln)同士のスコアは、スコアテーブルT2に存在しないため「0」となる。A(Ala)同士のスコアは、スコアテーブルT2に基づき「5」となる。このため、特定部152は、アミノ酸配列候補60a,60bのスコアを累計値「3」を算出する。
【0066】
特定部152は、アミノ酸配列候補のスコアの累計値が閾値以上である場合に、アミノ酸配列候補を、相同性の関係となるアミノ酸配列として特定する。特定部152は、特定した結果を、探索結果情報144に登録する。閾値は、管理者によって予め設定される。
【0067】
ところで、特定部152は、相同性の関係となるアミノ酸配列を特定した後に、特定したアミノ酸配列と対称的に発現するアミノ酸配列を更に特定してもよい。図10は、特定部の処理を説明するための図(3)である。たとえば、特定部152は、上記の処理で特定した、アミノ酸配列「Leu、Lys、Asp、Gln、Ala」と、対称的に発現する「Ala、Gln、Asp、Lys、Leu」を、アミノ酸転置インデックス143を基にして特定する。図10に示す例では、特定部152は、コドンファイル141のオフセット「30~34」に存在するアミノ酸配列「Ala、Gln、Asp、Lys、Leu」を特定している。
【0068】
ここで、特定部152がアミノ酸転置インデックス143を基にして、対称性のアミノ酸配列を特定する処理の一例について説明する。図11は、特定部の処理を説明するための図(4)である。図11では一例として、対称的なアミノ酸配列「Ala、Gln、Asp(Lys、Leuについては省略)」が、コドンファイル141に含まれているか否かを特定する場合について説明する。
【0069】
特定部152は、アミノ酸転置インデックス143から、アミノ酸「Ala」のビットマップ60を取得する。ビットマップ60には、オフセット「24」にフラグ「1」が設定されている。特定部152は、ビットマップ60の右シフトを実行することで、ビットマップ60sを生成する。ビットマップ60sでは、オフセット「23」にフラグ「1」が設定されている。
【0070】
特定部152は、アミノ酸転置インデックス143から、アミノ酸「Gln」のビットマップ61を取得する。ビットマップ61には、オフセット「23」にフラグ「1」が設定されている。特定部152は、ビットマップ60sと、ビットマップ61とのAND演算を実行することで、ビットマップ62を生成する。
【0071】
図11に示す例では、ビットマップ62のオフセット「23」にフラグ「1」が設定されているため、コドンファイル141のオフセット「23~24」において、「Ala、Gln」が連続して存在していることが特定される。
【0072】
特定部152は、ビットマップ62の右シフトを実行することで、ビットマップ62sを生成する。ビットマップ62sでは、オフセット「22」にフラグ「1」が設定される。
【0073】
特定部152は、アミノ酸転置インデックス143から、アミノ酸「Asp」のビットマップ63を取得する。ビットマップ63は、オフセット「22」にフラグ「1」が設定される。特定部152は、ビットマップ62sと、ビットマップ63とのAND演算を実行することで、ビットマップ64を生成する。
【0074】
図11に示す例では、ビットマップ64のオフセット「22」にフラグ「1」が設定されているため、コドンファイル141のオフセット「22~24」において、「Ala、Gln、Asp」が連続して存在していることが特定される。
【0075】
特定部152は、上記処理を実行することで、対称的なアミノ酸配列を特定する。特定部152は、特定した結果を、探索結果情報144に登録する。特定部152は、探索結果情報144を、表示部130に出力して表示させてもよいし、通信部110を介して、外部装置に送信してもよい。
【0076】
図12は、探索結果情報のデータ構造の一例を示す図である。図12に示すように、この探索結果情報144は、アミノ酸配列、第1オフセット、第2オフセット、累計スコアを対応付ける。アミノ酸配列は、特定部152によって特定される相同性のアミノ酸配列である。第1オフセットは、相同性のアミノ酸配列に対応するコドン配列の存在するコドンファイル141のオフセットを示す。第2オフセットは、対称性のアミノ酸配列に対応するコドン配列の存在するコドンファイル141のオフセットを示す。累計スコアは、図9で説明したスコアの累計値である。
【0077】
図12では、アミノ酸配列「Leu、Lys、Asp、Gln、Ala」に対応する第1オフセットが、「10~14」、「40~44」となっている。このため、コドンファイル141のオフセット「10~14」に対応するコドン配列、オフセット「40~44」に対応するコドン配列が、相同性を有するコドン配列となる。
【0078】
また、アミノ酸配列「Leu、Lys、Asp、Gln、Ala」に対して対称的なアミノ酸配列「Ala、Gln、Asp、Lys、Leu」の第2オフセットが「30~34」となっている。このため、コドンファイル141のオフセット「30~34」に対応するコドン配列が、対称的なコドン配列となる。
【0079】
たとえば、探索結果情報の相同性のアミノ酸配列と、このアミノ酸配列と対称的なアミノ酸配列との間の部分は、モチーフに相当する部分といえる。すなわち、第1オフセット「10~14」と、第2オフセット「30~34」との間の部分は、モチーフ部分に相当する。
【0080】
次に、本実施例1に係る情報処理装置100の処理手順の一例について説明する。図13は、本実施例1に係る情報処理装置の処理手順を示すフローチャートである。図13に示すように、情報処理装置100の前処理部151は、コドンファイル141と定義テーブルT1とを基にして、コドン転置インデックス142を生成する(ステップS101)。
【0081】
前処理部151は、定義テーブルT1を基にして、同一のアミノ酸に対応する複数のコドンを特定する(ステップS102)。前処理部151は、特定した複数のコドンのビットマップに対してOR演算を実行し、アミノ酸のビットマップを生成して、アミノ酸転置インデックス143を生成する(ステップS103)。
【0082】
情報処理装置100の特定部152は、アミノ酸転置インデックス143を基にして、繰り返し発現するアミノ酸配列候補を特定する(ステップS104)。特定部152は、スコアテーブルT2を基にして、アミノ酸配列候補のスコアの累積値を算出する(ステップS105)。
【0083】
特定部152は、スコアの累積値を基にして、相同性のアミノ酸配列(相同性を有するコドン配列)を特定する(ステップS106)。特定部152は、相同性のアミノ酸配列と対称的なアミノ酸配列を特定する(ステップS107)。
【0084】
特定部152は、特定した結果を、探索結果情報144に登録する(ステップS108)。特定部152は、探索結果情報144を出力する(ステップS109)。
【0085】
次に、本実施例1に係る情報処理装置100の効果について説明する。情報処理装置100は、同一のアミノ酸を示す塩基配列の異なるコドンのビットマップから、アミノ酸単位のビットマップを生成することで、アミノ酸転置インデックス143を生成する。情報処理装置100は、生成したアミノ酸転置インデックス143を用いて、コドンファイル141のアミノ酸の種類との関係を特定し、繰り返し発現するアミノ酸配列の位置に対応するコドン配列を、それぞれ相同性を有するコドン配列として特定する。これによって、繰り返し発現されるコドン配列の探索を効率良く行うことができる。
【0086】
情報処理装置100は、コドンファイル141に繰り返し発現するアミノ酸配列が、相同性を有するアミノ酸である否かを、アミノ酸同士の相同性の程度を定義したスコアテーブルT2を基にして評価する。これによって、単なるアミノ酸の一致だけでなく、アミノ酸配列間の相同性の程度を評価することができる。
【0087】
情報処理装置100は、複数のコドンに対応するコドン転置インデックス142のビットマップの論理和を実行することで、複数のコドンに対応するある一つのアミノ酸のビットマップを演算する。これによって、容易に、複数のコドンに対応するアミノ酸のビットマップを生成して、アミノ酸転置インデックス143を生成することができる。
【実施例2】
【0088】
実施例1では、アミノ酸の粒度で、相同性を有するアミノ酸配列を特定し、特定したアミノ酸配列のオフセットを基にして、相同性のコドン配列を特定していたが、コドンの粒度で、相同性のコドン配列を特定してもよい。実施例2では、コドンの粒度で、相同性のコドン配列を特定する処理について説明する。
【0089】
図14は、本実施例2に係る情報処理装置の処理を説明するための図(1)である。情報処理装置は、コドン転置インデックス142を基にして、コドンファイル141のオフセットと、コドンの種類を特定し、繰り返し発現するコドン配列を特定する。コドン転置インデックス142の説明は、実施例1で説明したコドン転置インデックス142の説明と同様である。
【0090】
たとえば、図14に示す例では、コドン配列「CUG、AAA、GAU」がコドンファイル141のオフセット10~12,30~32、40~42等に繰り返し発現している。この場合、情報処理装置は、オフセット10~12,30~32、40~42のコドン配列を、相同性を有するコドン配列として特定する。情報処理装置は、相同性を有するコドン配列を特定した後に、実施例1で説明したように、アミノ酸の粒度で、相同性を有するアミノ酸配列を特定してもよい。
【0091】
図15は、本実施例2に係る情報処理装置の処理を説明するための図(2)である。情報処理装置は、相同性のコドン配列を特定した後に、コドンの粒度で、対称的なコドン配列を特定してもよい。たとえば、相同性を有するコドン配列を「CUG、AAA、GAU」とすると、情報処理装置は、対称的なコドン配列「GAU、AAA、CUG」を、コドンファイル141から特定する。図2に示す例では、情報処理装置は、オフセット23~25において、対称的なコドン配列「GAU、AAA、CUG」が発現していることを特定する。
【0092】
なお、本実施例2に係る情報処理装置が、転置インデックスを用いて、最長一致等のコドン配列を特定する処理は、実施例1で説明したアミノ酸転置インデックス143を用いて実行する処理と同様であるため、説明を省略する。
【0093】
また、本実施例2に係る情報処理装置の機能ブロック図は、図3に示した情報処理装置100の機能ブロック図に対応する。なお、図3に示した特定部152は、図14図15で説明した処理を追加的に実行するものとする。
【0094】
ところで、上述した情報処理装置100は、相同性のコドン配列、対称性のコドン配列を特定し、モチーフ等に相当する部分を特定していたが、これに限定されるものではなく、多重整列等を特定することができる。多重整列とは、DNAの塩基配列やタンパク質のアミノ酸配列について、3つ以上の配列間で対応する部分が並ぶように整列したもの、また整列することである。通常、整列する配列群は進化的類縁性を持っていることが仮定される。多重整列の結果に基づいて分子系統樹を推定することができる。
【0095】
次に、上記実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図16は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0096】
図16に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置304と、インタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
【0097】
ハードディスク装置307は、前処理プログラム307a、特定プログラム307bを有する。また、CPU301は、各プログラム307a~307dを読み出してRAM306に展開する。
【0098】
前処理プログラム307aは、前処理プロセス306aとして機能する。特定プログラム307bは、特定プロセス306bとして機能する。
【0099】
前処理プロセス306aの処理は、前処理部151の処理に対応する。特定プロセス306bの処理は、特定部152の処理に対応する。
【0100】
なお、各プログラム307a,307bについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a,307bを読み出して実行するようにしてもよい。
【符号の説明】
【0101】
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
150 制御部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18