【文献】
Birgit Eisenhaber et al,Prediction of Potential GPI-modification Sites inProprotein Sequences,Joournal of Molecular Biology,1999年,Vol.292,pp.741-758
【文献】
Niklaus fankhauser, Pascal Maser,Identification of GPI anchor attachment signals by a Kohonenself-organizing map,Bioinformatics,2005年,Vol.21 No.9,pp.1846-1852,URL,http://bioinformatics.oxfordjournals.org/content/21/9/1846.full.pdf+html
【文献】
Andrea Pierleoni et al,PredGPI: a GPI-anchor predictor,BMC Bioinformatics,2008年,Vol.9 No.392,pp.1-11,URL,http://www.biomedcentral.com/content/pdf/1471-2105-9-392.pdf
【文献】
新島 耕一,ゲノムデータ解析用の高速ニューラルネットワークの研究,ゲノム解析に伴う大量知識情報処理の研究 平成5年度研究成果報告書,日本,京都大学化学研究所,1994年 3月31日,pp.150−155
(58)【調査した分野】(Int.Cl.,DB名)
前記分類部は、既知のGPIアンカー型タンパク質の前記スコア数値列を入力した場合に、期待値として1を出力するように前記ノードの伝達関数の係数を変化させ、前記既知の非GPIアンカー型タンパク質の前記スコア数値列を入力した場合に、期待値として0を出力するように前記ノードの伝達関数の係数を変化させることで学習されたことを特徴とする請求項2に記載のGPIアンカー型タンパク質の判定装置。
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域として、前記アミノ酸配列情報のN末端から予め定められた残基数の領域を特定し、当該N末端側の高疎水性領域に対応する領域のアミノ酸残基を抽出し、前記N末端側の高疎水性領域に対応する領域のアミノ酸残基の疎水性値の平均化に用いる残基数であるN末端側疎水性特性抽出必要数を用いて、連続する当該N末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を、前記抽出したアミノ酸残基のそれぞれに対して1残基ずつずらしながら複数算出するN末端側疎水性値算出部と、
前記N末端側疎水性値算出部が算出した複数のN末端側平均疎水性値のうちの最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部と
を備え、
前記側鎖サイズ算出部、前記スコア数値列生成部、前記分類部、前記GPIアンカー型タンパク質判定部は、前記N末端側疎水性判定部が、前記N末端側疎水性値算出部の算出したN末端側平均疎水性値の最大値が前記N末端側疎水性閾値以上であると判定したアミノ酸配列情報に対して処理を行う
ことを特徴とする請求項1から請求項8の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域として、前記アミノ酸配列情報のN末端から予め定められた残基数の領域を特定し、当該N末端側の高疎水性領域に対応する領域以外のアミノ酸残基を抽出し、前記N末端側の高疎水性領域に対応する領域以外のアミノ酸残基の疎水性値の平均化に用いる残基数であるN末端外疎水性特性抽出必要数を用いて、連続する当該N末端外疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を、前記抽出したアミノ酸残基のそれぞれに対して1残基ずつずらしながら複数算出するN末端外疎水性値算出部と、
前記N末端外疎水性値算出部が算出した複数のN末端外平均疎水性値のうちの最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部と、
を備え、
前記側鎖サイズ算出部、前記スコア数値列生成部、前記分類部、前記GPIアンカー型タンパク質判定部は、前記N末端外疎水性判定部が、前記N末端外疎水性値算出部の算出したN末端外平均疎水性値の最大値が前記N末端外疎水性閾値以上であると判定したアミノ酸配列情報に対して処理を実行する
ことを特徴とする請求項1から請求項11の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域として、前記アミノ酸配列情報のC末端から予め定められた残基数のアミノ酸残基を特定し、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が当該特定した領域内にあるか否かを判定するC末端側最大疎水位置判定部
を備え、
前記側鎖サイズ算出部、前記スコア数値列生成部、前記分類部、前記GPIアンカー型タンパク質判定部は、前記C末端側最大疎水位置判定部が、前記N末端外疎水性値算出部の算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が前記既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあると判定したアミノ酸配列情報に対して処理を実行する
ことを特徴とする請求項12から請求項14の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したような従来のGPIアンカー型タンパク質判定方法は、GPIアンカー型タンパク質のアミノ酸出現確率や疎水性値、分子量を解析手段(ニューラルネットワーク、SVMなど)への入力値として用いている。そのため、非GPIアンカー型タンパク質らしさについての判定がなされず、新規のGPIアンカー型タンパク質を判定する感度及び選択性が十分ではない。そこで、より高い感度及び選択性で、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することへの要求がある。
本発明は、上記事情に鑑みてなされたものであって、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することが可能なGPIアンカー型タンパク質の判定装置、判定方法及び判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は上記の課題を解決するためになされたものであり、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置であって、前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部と、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域として、前記アミノ酸配列情報のC末端から予め定められた残基数の領域を特定し、当該プロペプチド領域を含む領域のアミノ酸残基を抽出し、当該抽出したアミノ酸残基のそれぞれに対して、当該プロペプチド領域を含む領域のアミノ酸残基の側鎖サイズの平均化に用いる残基数である側鎖サイズ特性抽出必要数を用いて、連続する当該側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを1残基ずつずらしながら複数算出する側鎖サイズ算出部と、既知のGPIアンカー型タンパク質の所定の領域内の位置に存在するアミノ酸
残基の種類の出現頻度と既知の非GPIアンカー型タンパク質の所定の領域内の位置に存在するアミノ酸
残基の種類の出現頻度とから求められる既知のGPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを取得し、当該位置特異的スコアに基づき、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする、当該基準位置からN末端側及びC末端側に連続する所定の残基数のアミノ酸残基からなる所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部と、前記スコア数値列生成部が生成したスコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力する分類部であって、既知のGPIアンカー型タンパク質の前記スコア数値列を入力とした場合に、期待値として1を出力し、既知の非GPIアンカー型タンパク質の前記スコア数値列を入力した場合に、期待値として0を出力するように学習された分類部と、前記分類部が出力した期待値が0.5未満であると判定した場合に、前記検査対象タンパク質がGPIアンカー型タンパク質でないと判定するGPIアンカー型タンパク質判定部と、を備えることを特徴とする。
【0008】
また、本発明は、前記分類部は、ニューラルネットワークであり、前記スコア数値列生成部が生成するスコア数値列の要素数と同数のノードで構成される入力層と、複数のノードで構成される隠れ層と、1つのノードで構成される出力層とを少なくとも含む階層型の構造を有し、前記入力層の各ノードは、前記スコア数値列のうち自身に対応づけられた要素が示す値を前記隠れ層のノードのそれぞれに出力し、前記隠れ層の各ノードは、前記入力層の各ノードが出力する値を所定の伝達関数に代入し、得られた値を前記出力層のノードに出力し、前記出力層のノードは、前記隠れ層の各ノードが出力する値を所定の伝達関数に代入し、得られた値を期待値として出力することを特徴とする。
【0009】
また、本発明において、前記分類部は、既知のGPIアンカー型タンパク質の前記スコア数値列を入力した場合に、期待値として1を出力するように前記ノードの伝達関数の係数を変化させ、前記既知の非GPIアンカー型タンパク質の前記スコア数値列を入力した場合に、期待値として0を出力するように前記ノードの伝達関数の係数を変化させることで学習されたことを特徴とする。
【0010】
また、本発明において、前記ノードのそれぞれは伝達関数としてシグモイド関数を用いることを特徴とする。
【0011】
また、本発明において、
前記側鎖サイズ特性抽出必要数は、当該側鎖サイズ特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質の小側鎖サイズ判定領域に対して平均側鎖サイズを算出した場合に、前記GPIアンカー型タンパク質から算出した平均側鎖サイズが最小となるアミノ酸残基のうち、当該アミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位であるものの個数が最大となるような値であることを特徴とする。
【0012】
また、本発明において、
前記小側鎖サイズ判定領域は、既知のGPIアンカー型タンパク質の前記平均側鎖サイズが最小となる位置が含まれる領域である、ことを特徴とする。
【0013】
また、本発明において、前記位置特異的スコアは、式(4)から算出されたものであることを特徴とする。
【0014】
また、本発明において、前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度は、式(3)から算出されたものであることを特徴とする。
【0015】
また、本発明は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域として、前記アミノ酸配列情報のN末端から予め定められた残基数の領域を特定し、当該N末端側の高疎水性領域に対応する領域のアミノ酸残基を抽出し、前記N末端側の高疎水性領域に対応する領域のアミノ酸残基の疎水性値の平均化に用いる残基数であるN末端側疎水性特性抽出必要数を用いて、連続する当該N末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を、前記抽出したアミノ酸残基のそれぞれに対して1残基ずつずらしながら複数算出するN末端側疎水性値算出部と、前記N末端側疎水性値算出部が算出した複数のN末端側平均疎水性値のうちの最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部とを備え、前記側鎖サイズ算出部、前記スコア数値列生成部、前記分類部、前記GPIアンカー型タンパク質判定部は、前記N末端側疎水性判定部が、前記N末端側疎水性値算出部の算出したN末端側平均疎水性値の最大値が前記N末端側疎水性閾値以上であると判定したアミノ酸配列情報に対して処理を行うことを特徴とする。
【0016】
また、本発明において、前記N末端側疎水性閾値は、予め既知の複数のGPIアンカー型タンパク質に対して前記N末端側平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値であることを特徴とする。
【0017】
また、本発明において、前記N末端側疎水性特性抽出必要数は、当該N末端側疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値の集合における最小値を抽出し、前記N末端側疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値であることを特徴とする。
【0018】
また、本発明は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域として、前記アミノ酸配列情報のN末端から予め定められた残基数の領域を特定し、当該N末端側の高疎水性領域に対応する領域以外のアミノ酸残基を抽出し、前記N末端側の高疎水性領域に対応する領域以外のアミノ酸残基の疎水性値の平均化に用いる残基数であるN末端外疎水性特性抽出
必要数を用いて、連続する当該N末端外疎水性特性抽出
必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を、前記抽出したアミノ酸残基のそれぞれに対して1残基ずつずらしながら複数算出するN末端外疎水性値算出部と、前記N末端外疎水性値算出部が算出した複数のN末端外平均疎水性値のうちの最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部と、を備え、前記側鎖サイズ算出部、前記スコア数値列生成部、前記分類部、前記GPIアンカー型タンパク質判定部は、前記N末端外疎水性判定部が、前記N末端外疎水性値算出部の算出したN末端外平均疎水性値の最大値が前記N末端外疎水性閾値以上であると判定したアミノ酸配列情報に対して処理を実行することを特徴とする。
【0019】
また、本発明において、前記N末端外疎水性閾値は、予め既知の複数のGPIアンカー型タンパク質に対して前記N末端外平均疎水性値の算出を行い、当該算出されたN末端外平均疎水性値の最大値の集合における最小値であることを特徴とする。
【0020】
また、本発明において、前記N末端外疎水性特性抽出必要数は、当該N末端外疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値の集合における最小値を抽出し、前記N末端外疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値であることを特徴とする。
【0021】
また、本発明において、前記既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域は、既知のGPIアンカー型タンパク質において、前記N末端側平均疎水性値が最大となる位置が含まれる領域である、ことを特徴とする。
【0022】
また、本発明は、既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域として、前記アミノ酸配列情報のC末端から予め定められた残基数のアミノ酸残基を特定し、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が当該特定した領域内にあるか否かを判定するC末端側最大疎水位置判定部を備え、前記側鎖サイズ算出部、前記スコア数値列生成部、前記分類部、前記GPIアンカー型タンパク質判定部は、前記C末端側最大疎水位置判定部が、前記N末端外疎水性値算出部の算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が前記既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあると判定したアミノ酸配列情報に対して処理を実行することを特徴とする。
【0023】
また、本発明において、前記既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域は、既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域において、前記N末端外平均疎水性値が最大となる位置が含まれる領域である、ことを特徴とする。
【0024】
また、本発明は、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を用いた判定方法であって、前記GPIアンカー型タンパク質の判定装置の配列取得部は、前記検査対象タンパク質のアミノ酸配列情報を取得し、前記GPIアンカー型タンパク質の判定装置の側鎖サイズ算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域として、前記アミノ酸配列情報のC末端から予め定められた残基数の領域を特定し、当該プロペプチド領域を含む領域のアミノ酸残基を抽出し、当該抽出したアミノ酸残基のそれぞれに対して、当該プロペプチド領域を含む領域のアミノ酸残基の側鎖サイズの平均化に用いる残基数である側鎖サイズ特性抽出必要数を用いて、連続する当該側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを1残基ずつずらしながら複数算出し、前記GPIアンカー型タンパク質の判定装置のスコア数値列生成部は、既知のGPIアンカー型タンパク質の所定の領域内の位置に存在するアミノ酸
残基の種類の出現頻度と既知の非GPIアンカー型タンパク質の所定の領域内の位置に存在するアミノ酸
残基の種類の出現頻度とから求められる既知のGPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを取得し、当該位置特異的スコアに基づき、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする、当該基準位置からN末端側及びC末端側に連続する所定の残基数のアミノ酸残基からなる所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成し、前記GPIアンカー型タンパク質の判定装置の分類部は、既知のGPIアンカー型タンパク質の前記スコア数値列を入力とした場合に、期待値として1を出力し、既知の非GPIアンカー型タンパク質の前記スコア数値列を入力した場合に、期待値として0を出力するように学習され、前記スコア数値列生成部が生成したスコア数値列を入力し、GPIアンカー型タンパク質であるか否かを示す0以上1以下の期待値を出力し、前記GPIアンカー型タンパク質の判定装置のGPIアンカー型タンパク質判定部は、前記分類部が出力した期待値が0.5未満であると判定した場合に、前記検査対象タンパク質がGPIアンカー型タンパク質でないと判定することを特徴とする。
【0025】
また、本発明は、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を、前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域として、前記アミノ酸配列情報のC末端から予め定められた残基数の領域を特定し、当該プロペプチド領域を含む領域のアミノ酸残基を抽出し、当該抽出したアミノ酸残基のそれぞれに対して、当該プロペプチド領域を含む領域のアミノ酸残基の側鎖サイズの平均化に用いる残基数である側鎖サイズ特性抽出必要数を用いて、連続する当該側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを1残基ずつずらしながら複数算出する側鎖サイズ算出部、既知のGPIアンカー型タンパク質の所定の領域内の位置に存在するアミノ酸
残基の種類の出現頻度と既知の非GPIアンカー型タンパク質の所定の領域内の位置に存在するアミノ酸
残基の種類の出現頻度とから求められる既知のGPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを取得し、当該位置特異的スコアに基づき、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする、当該基準位置からN末端側及びC末端側に連続する所定の残基数のアミノ酸残基からなる所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部、前記スコア数値列生成部が生成したスコア数値列を入力し、GPIアンカー型タンパク質であるか否かを示す0以上1以下の期待値を出力する分類部であって、既知のGPIアンカー型タンパク質の前記スコア数値列を入力とした場合に、期待値として1を出力し、既知の非GPIアンカー型タンパク質の前記スコア数値列を入力した場合に、期待値として0を出力するように学習された分類部、前記分類部が出力した期待値が0.5未満であると判定した場合に、前記検査対象タンパク質がGPIアンカー型タンパク質でないと判定するGPIアンカー型タンパク質判定部として機能させるための判定プログラムである。
【発明の効果】
【0026】
本発明によれば、PSSM(position specific scoring matrix;位置特異的スコアリングマトリックス)によって検査対象タンパク質のアミノ酸配列の各アミノ酸残基の位置特異的スコアを示すスコア数値列を生成する。そして、機械学習された分類部が当該スコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力することで検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。これにより、本発明によるGPIアンカー型タンパク質の判定装置は、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
【発明を実施するための形態】
【0028】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態によるGPIアンカー型タンパク質判定装置の構成を示す概略ブロック図である。
GPIアンカー型タンパク質判定装置100は、配列記憶部101、配列取得部102、疎水性指標値記憶部103、疎水性指標値特定部104、N末端側疎水性値算出部105、N末端側疎水性判定部106、N末端外疎水性値算出部107、N末端外疎水性判定部108、C末端側最大疎水位置判定部109、側鎖サイズ指標値記憶部110、側鎖サイズ指標値特定部111、側鎖サイズ算出部112、PSSM記憶部113、スコア数値列生成部114、ニューラルネットワーク115(分類部)、GPIアンカー型タンパク質判定部116を備える。
【0029】
配列記憶部101は、機能未知の哺乳類のタンパク質の完全長アミノ酸配列情報を記憶する。
配列取得部102は、配列記憶部101から検査対象となるタンパク質のアミノ酸配列情報を取得する。
疎水性指標値記憶部103は、アミノ酸残基に対応付けて当該アミノ酸残基の疎水性指標値を記憶する。
疎水性指標値特定部104は、配列取得部102が取得したアミノ酸配列の各アミノ酸残基それぞれの疎水性指標値を疎水性指標値記憶部103が記憶する疎水性指標値から特定し、アミノ酸残基毎の疎水性指標値を示す連続する数値列を生成する。
N末端側疎水性値算出部105は、疎水性指標値特定部104が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報が示すN末端側の連続するアミノ酸残基の平均疎水性値(N末端側平均疎水性値)を算出する。
N末端側疎水性判定部106は、N末端側疎水性値算出部105が算出した平均疎水性値の最大値がN末端側疎水性閾値以上であるか否かを判定する。ここで、N末端側疎水性閾値とは、既知のGPIアンカータンパク質におけるN末端側平均疎水性値の特性を示す閾値である。
【0030】
N末端外疎水性値算出部107は、疎水性指標値特定部104が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報のうち、N末端側疎水性値算出部105が平均疎水性値を算出した範囲以外の連続するアミノ酸残基の平均疎水性値(N末端外平均疎水性値)を算出する。
N末端外疎水性判定部108は、N末端外疎水性値算出部107が算出した平均疎水性値の最大値がN末端外疎水性閾値以上であるか否かを判定する。ここで、N末端外疎水性閾値とは、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示す閾値である。
C末端側最大疎水位置判定部109は、N末端外疎水性値算出部107が算出した平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定する。
【0031】
側鎖サイズ指標値記憶部110は、アミノ酸残基に対応付けて当該アミノ酸残基の側鎖サイズ指標値を記憶する。
側鎖サイズ指標値特定部111は、配列取得部102が取得したアミノ酸配列の各アミノ酸残基それぞれの側鎖サイズ指標値を、側鎖サイズ指標値記憶部110が記憶する側鎖サイズ指標値から特定し、アミノ酸残基毎の側鎖サイズ指標値を示す連続する数値列を生成する。
側鎖サイズ算出部112は、側鎖サイズ指標値特定部111が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報が示すC末端側のアミノ酸残基の平均残基サイズを算出する。
PSSM記憶部113は、GPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを保持するPSSMを記憶する。ここで、位置特異的スコアとは、GPIアンカー型タンパク質である可能性を示す値であり、当該値が大きいほどGPIアンカー型タンパク質である可能性が高いことを表す。
スコア数値列生成部114は、PSSM記憶部113が記憶するPSSMに基づいて、側鎖サイズ算出部112が算出した側鎖のサイズの平均が最小となるアミノ酸残基の位置を基準位置とする所定の領域におけるスコア数値列を生成する。ここで生成するスコア数値列とは、配列取得部102が取得した検査対象となるタンパク質の所定の領域のそれぞれのアミノ酸残基の位置特異的スコアを要素とする配列である。
ニューラルネットワーク115は、スコア数値列生成部114が生成したスコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力する。なお、ニューラルネットワーク115は、予め、既知のGPIアンカー型タンパク質のスコア数値列を入力とした場合に、期待値として1を出力し、既知の非GPIアンカー型タンパク質のスコア数値列を入力した場合に、期待値として0を出力するように学習されている。
GPIアンカー型タンパク質判定部116は、配列取得部102が取得した検査対象となるタンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【0032】
図2は、疎水性指標値記憶部が記憶する情報を示す図である。
疎水性指標値記憶部103は、
図2に示すように、アミノ酸残基の各々に対して、当該アミノ酸残基の疎水性を示す指標値を記憶している。なお、本実施形態では、疎水性指標値としてKYTJ820101(Kyte J.,Doolittle R.,「Journal of Molecular Biology」、1982年、vol.157、no.1、pp.105−132)で示される疎水性指標値を用いている。
図2において、アミノ酸残基の「A」はアラニンを示し、「R」はアルギニンを示し、「N」はアスパラギンを示し、「D」はアスパラギン酸を示し、「C」はシステインを示し、「Q」はグルタミンを示し、「E」はグルタミン酸を示し、「G」はグリシンを示し、「H」はヒスチジンを示し、「I」はイソロイシンを示し、「L」はロイシンを示し、「K」はリシンを示し、「M」はメチオニンを示し、「F」はフェニルアラニンを示し、「P」はプロリンを示し、「S」はセリンを示し、「T」はトレオニンを示し、「W」はトリプトファンを示し、「Y」はチロシンを示し、「V」はバリンを示す。
【0033】
図3は、側鎖サイズ指標値記憶部が記憶する情報を示す図である。
側鎖サイズ指標値記憶部110は、
図3に示すように、アミノ酸残基の各々に対して、当該アミノ酸残基の側鎖のサイズを示す指標値を記憶している。なお、本実施形態では、側鎖サイズ指標値としてDAWD720101(Dawson D.M.,「The Biological Genetics of Man」、Academic Press、1972年、pp.1−38)で示される側鎖サイズ指標値を用いている。
【0034】
図4及び
図5は、PSSM記憶部が記憶するPSSMを示す図である。
PSSM記憶部113は、
図4及び
図5に示すように、アミノ酸残基の位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを要素とするPSSMを記憶している。
図4及び
図5では、アミノ酸残基位置の基準位置を0とし、負数側をN末端側、正数側をC末端側としている。なお、PSSMの作成方法については、後述する。ここで、基準位置とは、GPIアンカー型タンパク質のGPIアンカー修飾部位(ωサイト)のC末端側に隣接するアミノ酸残基の位置を示す。
【0035】
そして、GPIアンカー型タンパク質判定装置100において、配列取得部102は、検査対象タンパク質のアミノ酸配列情報を取得し、側鎖サイズ算出部112は、配列取得部102が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域に対応する領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の側鎖サイズ指標値の平均値である平均側鎖サイズを算出する。具体的には、スコア数値列生成部114は、PSSM記憶部113に記憶されている既知のGPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアをPSSM記憶部113から取得し、当該位置特異的スコアに基づいて、側鎖サイズ算出部112が算出した平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置とする、当該基準位置からN末端側及びC末端側に連続する所定の残基数のアミノ酸残基からなる所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成する。次に、ニューラルネットワーク115は、スコア数値列生成部114が生成したスコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力する。なお、ニューラルネットワーク115は、既知のGPIアンカー型タンパク質のスコア数値列を入力とした場合に、期待値として1を出力し、既知の非GPIアンカー型タンパク質のスコア数値列を入力した場合に、期待値として0を出力するように学習されている。
そして、GPIアンカー型タンパク質判定部116は、ニューラルネットワーク115が出力した期待値が0.5未満であると判定した場合に、検査対象タンパク質がGPIアンカー型タンパク質でないと判定する。
これにより、GPIアンカー型タンパク質判定装置100は、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【0036】
次に、GPIアンカー型タンパク質判定装置100の動作を説明する。
図6は、GPIアンカー型タンパク質判定装置100の動作を示すフローチャートである。
<ステップS1:配列を取得>
まず、使用者による動作開始指示により、GPIアンカー型タンパク質判定装置100が動作を開始すると、配列取得部102は、配列記憶部101から検査対象となるタンパク質のアミノ酸配列情報を取得する。
【0037】
<ステップS2:疎水性指標値を特定>
配列取得部102がアミノ酸配列情報を取得すると、疎水性指標値特定部104は、疎水性指標値記憶部103を参照して、配列取得部102が取得したアミノ酸配列情報の各アミノ酸残基の疎水性指標値を特定し、当該疎水性指標値を示す数値列を生成する。例えば、配列取得部102が取得したアミノ酸配列情報が、「MLLEPGRGCC……」という配列を示す場合、疎水性指標値特定部104は、疎水性指標値記憶部103が記憶する
図2に示す指標値より「1.9、3.8、3.8、-3.5、-1.6、-0.4、-4.5、-0.4、2.5、2.5……」という数値列を生成する。
【0038】
<ステップS3:N末端側の疎水性指標値を抽出>
ステップS2で、疎水性指標値特定部104が疎水性指標値を示す数値列を生成すると、N末端側疎水性値算出部105は、疎水性指標値特定部104が生成した数値列から、GPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基を示す部分数値列を抽出する。
本実施形態では、GPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域として、N末端から30残基以内のアミノ酸残基を用いる。N末端から30残基以内のアミノ酸残基の領域は、既知の複数のGPIアンカー型タンパク質のアミノ酸残基のそれぞれに対して、後述するステップS4と同様の処理によって平均疎水性値(N末端側平均疎水性値)を算出した場合に、当該算出した平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0039】
図7は、GPIアンカー型タンパク質の疎水性プロファイルを示す第1のグラフである。
図7は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、後述するステップS4と同様の処理によって算出したN末端側平均疎水性値(11残基平均の場合)を示すグラフである。ここで、横軸は、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のN末端からの残基位置を示し、縦軸はN末端側平均疎水性値の値を示す。
図7に示すように、既知のGPIアンカー型タンパク質のN末端側の領域は疎水性が高く、N末端から30残基以内にN末端側平均疎水性値が最大となる位置が存在する。
【0040】
<ステップS4:N末端側平均疎水性値を算出>
図8は、N末端側平均疎水性値の算出方法を示す図である。
N末端側疎水性値算出部105は、ステップS3でGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基を示す部分数値列を抽出すると、当該部分数値列の連続するN末端側疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端側平均疎水性値を、
図8に示すように、1残基ずつずらしながら算出する。
ここで、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときのN末端側平均疎水性値は、式(1)を用いて算出できる。
【0042】
但し、nは、平均化に用いる前後の残基数を示す。つまり、2n+1は、N末端側疎水性特性抽出必要数を示す。また、H(i)は、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からi残基目である場合のアミノ酸残基の疎水性指標値を示す。
つまり、N末端からr残基目のアミノ酸残基が中央に位置するアミノ酸残基列のN末端側平均疎水性値は、N末端からr−n残基目のアミノ酸残基から、N末端からr+n残基目のアミノ酸残基までの疎水性指標値の平均となる。なお、このとき、N末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、N末端側平均疎水性値として例えばNULL値を代入しておくと良い。
【0043】
本実施形態では、N末端側疎水性特性抽出必要数として11残基を用いる。つまり、N末端側平均疎水性値として、N末端からr残基目のアミノ酸残基の前後5残基のアミノ酸残基の疎水性指標値の平均を算出する。ここで、N末端側疎水性特性抽出必要数を11残基と決定する方法を説明する。
【0044】
まず、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域、すなわちN末端から30残基以内のアミノ酸残基から、N末端側疎水性特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値を抽出する。そして、抽出した最大値の集合における最小値を抽出する。
次に、既知の複数の非GPIアンカー型タンパク質における、既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域、すなわち既知の複数の非GPIアンカー型タンパク質のN末端から30残基以内のアミノ酸残基から、N末端側疎水性特性抽出必要数の候補となる個数の連続するアミノ酸残基列の平均疎水性値を、1残基ずつずらしながら算出する。そして、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数を計数する。
この処理をN末端側疎水性特性抽出必要数の候補となる値を変えて実行し、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数が最小となるようなN末端側疎水性特性抽出必要数の候補を、N末端側疎水性特性抽出必要数として決定する。
【0045】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端側疎水性特性抽出必要数を11残基として決定した。
【0046】
<ステップS5:N末端側平均疎水性値の最大値の判定>
ステップS4で、N末端側疎水性値算出部105が、部分数値列の各疎水性指標値のN末端側平均疎水性値を算出すると、N末端側疎水性判定部106は、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値以上であるか否かを判定する。なお、N末端側疎水性閾値は、GPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示す閾値であり、本実施形態では、N末端側疎水性閾値として1.50を用いる。1.50という値は、予め既知の複数のGPIアンカー型タンパク質に対してN末端側平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値として算出された値である。
【0047】
図9は、既知のGPIアンカー型タンパク質のN末端から30残基以内におけるN末端側平均疎水性値の最大値の分布を示すグラフである。ここで、横軸はN末端側平均疎水性値の最大値を示し、縦軸はGPIアンカー型タンパク質が当該最大値をとる頻度を示す。
図9に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以内のアミノ酸残基から算出されたN末端側平均疎水性値の最大値は、N末端側疎水性閾値である1.50以上の値となる。従って、検査対象タンパク質のN末端から30残基以内のアミノ酸残基から算出されたN末端側平均疎水性値の最大値が1.50以上であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該最大値が1.50未満であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
【0048】
<ステップS6:N末端外の疎水性指標値を抽出>
ステップS5でN末端側疎水性判定部106が、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値以上であると判定した場合(ステップS5:YES)、N末端外疎水性値算出部107は、ステップS2で疎水性指標値特定部104が生成した数値列から、ステップS3でN末端側疎水性値算出部105が抽出した部分数値列以外の残りの部分数値列を抽出する。すなわち、疎水性指標値特定部104が生成した数値列から、N末端から30残基以降のアミノ酸残基を示す部分数値列を抽出する。
【0049】
<ステップS7:N末端外平均疎水性値を算出>
次に、N末端外疎水性値算出部107は当該部分数値列の連続するN末端外疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端外平均疎水性値を、1残基ずつずらしながら算出する。
ここで、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときのN末端側平均疎水性値は、N末端側平均疎水性値と同様に、式(1)を用いて算出できる。なお、このとき、C末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、N末端外平均疎水性値として例えばNULL値を代入しておくと良い。
【0050】
本実施形態では、N末端外疎水性特性抽出必要数として17残基を用いる。つまり、N末端外平均疎水性値として、N末端からr残基目のアミノ酸残基を中心とする前後8残基のアミノ酸残基の疎水性指標値の平均を算出する。ここで、N末端外疎水性特性抽出必要数を17残基と決定する方法を説明する。
【0051】
まず、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域、すなわちN末端から30残基以降のアミノ酸残基から、N末端外疎水性特性抽出必要数の候補となる個数の連続するアミノ酸残基列の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値を抽出する。そして、抽出した最大値の集合における最小値を抽出する。
次に、既知の複数の非GPIアンカー型タンパク質における既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域、すなわち既知の複数の非GPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から、N末端外疎水性特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。そして、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数を計数する。
この処理をN末端外疎水性特性抽出必要数の候補となる値を変えて実行し、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数が最小となるN末端外疎水性特性抽出必要数の候補を、N末端外疎水性特性抽出必要数として決定する。
【0052】
図10は、GPIアンカー型タンパク質の疎水性プロファイルを示す第2のグラフである。
図10は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、ステップS7と同様の処理によって算出したN末端外平均疎水性値(17残基平均の場合)を示すグラフである。ここで、横軸は、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のN末端からの残基位置を示し、縦軸はN末端外平均疎水性値の値を示す。
図10に示すように、既知のGPIアンカー型タンパク質のC末端側の領域は、N末端からの30残基に次いで疎水性が高い。
【0053】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端外疎水性特性抽出必要数を17残基として決定した。
【0054】
<ステップS8:N末端外平均疎水性値の最大値の判定>
ステップS7で、N末端外疎水性値算出部107が、部分数値列の連続するN末端外疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端外平均疎水性値を、1残基ずつずらしながら算出すると、N末端外疎水性判定部108は、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値以上であるか否かを判定する。なお、N末端外疎水性閾値は、既知のGPIアンカー型タンパク質のN末端外平均疎水性値の特性を示す閾値であり、本実施形態では、N末端外疎水性閾値として1.38を用いている。
1.38という値は、予め既知の複数のGPIアンカー型タンパク質に対してN末端外平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値として算出された値である。
【0055】
図11は、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のN末端外平均疎水性値の最大値を示すグラフである。ここで、横軸は、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のC末端からの残基位置を示し、縦軸はN末端外平均疎水性値の値を示す。
図11に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値の最大値は、N末端外疎水性閾値である1.38以上の値となる。従って、検査対象タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値の最大値が1.38以上であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該最大値が1.38未満であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
【0056】
<ステップS9:N末端外平均疎水性値が最大となるアミノ酸残基位置の判定>
N末端外疎水性判定部108が、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値以上であると判定した場合(ステップS8:YES)、C末端側最大疎水位置判定部109は、ステップS7で算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が、GPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定する。
本実施形態では、GPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域として、C末端から14残基以内のアミノ酸残基を用いる。C末端から14残基以内のアミノ酸残基という領域は、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域、すなわちN末端から30残基以降のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出した場合に、当該算出したN末端外平均疎水性値が最大となる連続するアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0057】
図11に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基は、C末端側の高疎水性領域内に存在する。従って、検査対象タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基がGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内に存在すれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該領域内に存在しなければ、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
つまり、
図11における網掛け矩形の範囲が、N末端外疎水性閾値及びC末端側の高疎水性領域の条件を満たす範囲を示し、当該範囲内に含まれる非GPIアンカー型タンパク質の個数が最小となるよう、N末端外疎水性閾値及びC末端側の高疎水性領域に対応する領域とを決定している。
【0058】
<ステップS10:小側鎖サイズ判定領域の残基を抽出>
C末端側最大疎水位置判定部109が、N末端外平均疎水性値が最大となるアミノ酸残基の位置がC末端から14残基以内の位置であると判定した場合(ステップS9:YES)側鎖サイズ指標値特定部111は、ステップS1で配列取得部102が取得したアミノ酸配列情報から、小側鎖サイズ判定領域のアミノ酸残基に相当する部分配列を抽出する。ここで、小側鎖サイズ判定領域とは、既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域であり、本実施形態では、C末端から30残基以内のアミノ酸残基を用いる。C末端から30残基以内のアミノ酸残基という領域は、既知のGPIアンカー型タンパク質において、後述するステップS12と同様の処理によって平均側鎖サイズを算出した場合に、当該算出した平均側鎖サイズが最小となるアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0059】
<ステップS11:側鎖サイズ指標値を特定>
側鎖サイズ指標値特定部111は、ステップS10で小側鎖サイズ判定領域のアミノ酸残基に相当する部分配列を抽出すると、側鎖サイズ指標値記憶部110を参照して、抽出した部分配列が示す各アミノ酸残基に側鎖サイズ指標値を割り当てた数値列を生成する(ステップS11)。例えば、配列取得部102が取得したアミノ酸配列情報が、「MLLEPGRGCC……」という配列を示す場合、側鎖サイズ指標値特定部111は、側鎖サイズ指標値記憶部110が記憶する
図3に示す指標値より「6、5.5、5.5、5、5.5、0.5、7.5、0.5、3、3……」という数値列を生成する。
【0060】
<ステップS12:平均側鎖サイズを算出>
ステップS11で、側鎖サイズ指標値特定部111が側鎖サイズ指標値を示す数値列を生成すると、側鎖サイズ算出部112は、側鎖サイズ指標値特定部111が生成した数値列の連続する側鎖サイズ特性抽出必要数分の各側鎖サイズ指標値の平均である平均側鎖サイズを、1残基ずつずらしながら算出する。
ここで、平均側鎖サイズ特性抽出必要分の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときの平均側鎖サイズは、式(2)を用いて算出できる。
【0062】
但し、nは、平均化に用いる前後の残基数を示す。つまり、2n+1は、側鎖サイズ特性抽出必要数を示す。また、V(i)はN末端からi残基目に存在するアミノ酸残基の側鎖サイズ指標値を示す。
つまり、N末端からr残基目のアミノ酸残基が中央に位置するアミノ酸残基列の平均側鎖サイズは、N末端からr−n残基目のアミノ酸残基から、N末端からr+n残基目のアミノ酸残基までの側鎖サイズ指標値の平均となる。なお、このとき、C末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、平均側鎖サイズとして例えばNULL値を代入しておくと良い。
【0063】
本実施形態では、側鎖サイズ特性抽出必要数として3残基を用いる。つまり、N末端側平均疎水性値として、N末端からr残基目のアミノ酸残基に隣接するアミノ酸残基の疎水性指標値の平均を算出する。ここで、側鎖サイズ特性抽出必要数を3残基と決定する方法を説明する。
【0064】
まず、既知の複数のGPIアンカー型タンパク質の小側鎖サイズ判定領域、すなわちC末端から30残基以内のアミノ酸残基から、側鎖サイズ特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれから、平均側鎖サイズが最小となるアミノ酸残基を特定する。そして、当該抽出したアミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位(ωサイト)であるものの個数を計数する。
この処理をN末端側疎水性特性抽出必要数の候補となる値を変えて実行し、全GPIアンカー型タンパク質のうち、平均側鎖サイズが最小となるアミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位であるものの個数が最大となる側鎖サイズ特性抽出必要数の候補を、側鎖サイズ特性抽出必要数として決定する。
【0065】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端側疎水性特性抽出必要数を3残基として決定した。
【0066】
図12は、GPIアンカー型タンパク質の側鎖サイズのプロファイルを示すグラフである。
図12は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、ステップS12と同様の処理によって算出した平均側鎖サイズを示すグラフである。ここで、横軸は、平均側鎖サイズのアミノ酸残基列の中央に位置するアミノ酸残基のC末端からの残基位置を示し、縦軸は平均側鎖サイズの値を示す。
図12に示すように、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位は、平均側鎖サイズが最小となるアミノ酸残基のC末端側に隣接している。
【0067】
<ステップS13:所定の領域のアミノ酸残基を抽出>
図13は、アミノ酸配列の抽出方法を示す図である。
ステップS12で、側鎖サイズ算出部112が平均側鎖サイズを算出すると、スコア数値列生成部114は、
図13(1)に示すように、側鎖サイズ算出部112が算出した平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置として決定する。次に、スコア数値列生成部114は、
図13(2)に示すように、当該基準位置を含む所定の領域におけるアミノ酸残基を、ステップS1で配列取得部102が取得したアミノ酸配列情報から抽出する。
本実施形態では、当該所定の領域として、基準位置からN末端側に連続する12残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とを用いる。
【0068】
<ステップS14:位置特異的スコアを割り当てる>
図14は、位置特異的スコアの割り当て方法を示す図である。
次に、スコア数値列生成部114は、PSSM記憶部113が記憶するPSSMに基づいて、抽出した所定の範囲の各アミノ酸残基の位置特異的スコアを特定し、当該疎水性指標値を示す数値列を生成する。例えば、抽出した所定の範囲のアミノ酸残基が、
図14に示すように「CQNA……S」という配列を示す場合、スコア数値列生成部114は、
図4及び
図5に示すPSSMを参照して、「0.21、-0.54、2.69、-0.77、……、1.13」という数値列を生成する。
【0069】
ここで、ステップS14で用いるPSSMの作成方法を説明する。
まず、既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを、取得する。本実施形態では、これらのデータセットをSWISS−PROT ver54.0より取得した。また、GPIアンカー型タンパク質のデータセットについては、当該アミノ酸配列から翻訳されるGPIアンカー型タンパク質としての特性が実証されていないもの、明らかに完全長ではないもの等を除外した。その結果、GPIアンカー型タンパク質のエントリー数は391であり、非GPIアンカー型タンパク質のエントリー数は48983であった。
【0070】
データセットを取得すると、次に、データセットの各エントリーについて、疎水性のスクリーニングを行う。
まず、上述した式(1)及び
図2に示す疎水性指標値を用いて、N末端側疎水性特性抽出必要数を11残基に設定して(すなわち、式(1)においてn=5に設定して)各エントリーのN末端平均疎水性値を算出し、N末端から30残基以内の領域における最大のN末端側平均疎水性値が1.50以上のものを抽出する。次に、抽出されたデータセット中の各エントリーの平均疎水性値を、前記式(1)及び
図2に示す疎水性指標値を用いて、N末端外疎水性特性抽出必要数を17残基に設定して(すなわち、式(1)においてn=8に設定して)算出し、N末端から30残基を除く全領域における最大のN末端外平均疎水性値が1.38であり、且つ、該最大のN末端外平均疎水性値を示す残基位置がC末端から14残基以内であるものを抽出する。この結果、実際は完全長でないエントリーや、タンパク質としての発現が推定であるエントリーは排除されることとなる。本実施形態では、疎水性スクリーニング後のGPIアンカー型タンパク質データセットのエントリー数は121であり、非GPIアンカー型タンパク質データセットのエントリー数は218であった。
【0071】
次いで、疎水性スクリーニングにより抽出されたデータセットに含まれる同一アミノ酸配列を有するエントリーを除き、冗長性を排除する。この結果、本実施形態では、GPIアンカー型タンパク質データセットのエントリー数は113であり、非GPIアンカー型タンパク質データセットのエントリー数は210であった。冗長性を排除したGPIアンカー型タンパク質データセットに含まれる113のSWISS−PROT エントリーネームを
図15に示す。
【0072】
上記により得られた各データセット中の各エントリーのC末端から30アミノ酸残基までの平均側鎖サイズを、上述した式(2)及び
図3に示す側鎖サイズ指標値を用いて、側鎖サイズ特性抽出必要数を3に設定して(すなわち、式(2)においてn=1に設定して)算出する。
そして、データセットのうちGPIアンカー型タンパク質の各エントリーの、平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置とする所定の範囲(基準位置のアミノ酸残基と基準位置からN末端側に連続する12残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とからなる範囲)におけるアミノ酸残基から、式(3)を用いて既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出する。
【0074】
但し、n
ipは、種類iのアミノ酸残基が位置pに存在する既知のGPIアンカー型タンパク質の個数を示す。また、εは算出する出現頻度の調整値を示し、本実施形態では1を用いている。また、sは、アミノ酸残基の種類数を示す。
これにより、データセットの全てのエントリーにおいて位置pに種類iが存在しない場合にも、ゼロで除算を行うことを防ぐことができる。
同様に、データセットのうち非GPIアンカー型タンパク質の各エントリーの、平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置とする所定の範囲におけるアミノ酸残基から、式(3)を用いて既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出する。
【0075】
既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度、及び既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出すると、次に、式(4)を用いて、アミノ酸残基の位置pにおけるアミノ酸残基の種類iの位置特異的スコアを算出する。
【0077】
但し、f
ippositiveは、既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示す。また、f
ipnegativeは、既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示す。つまり、位置特異的スコアは、所定の範囲におけるあるアミノ酸残基の位置におけるアミノ酸残基の種類の、GPIアンカー型タンパク質における出現度合いを示している。
このように算出された位置特異的スコアを要素とする25(所定の領域内のアミノ酸残基数)×20(アミノ酸残基の種類数)の行列をPSSMとして生成し、PSSM記憶部113に格納しておく。これにより、
図4及び
図5に示すPSSMを生成することができる。
【0078】
<ステップS15:ニューラルネットワークによる期待値出力>
ステップS14でスコア数値列生成部114がスコア数値列を生成すると、ニューラルネットワーク115は、当該スコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力する。なお、PSSMから得られた複数の位置特異的スコアは、従来、その平均値の高低によって検査対象タンパク質が目的タンパク質であるか否かを判定するために用いられている。本発明の骨子は、スコアの算出に用いられていた複数の位置特異的スコアをニューラルネットワーク115の入力値とした点にある。
【0079】
ここで、ニューラルネットワーク115の処理について詳細に説明する。
図16は、本実施形態で用いるニューラルネットワークの構成を示す図である。
ニューラルネットワーク115は、入力層S
1、隠れ層S
2、出力層S
3の3段の階層構造を有する。
入力層S
1は、スコア数値列生成部114が生成するスコア数値列の要素数と同数のノードN
1−1〜N
1−25(以下、ノードN
1−1〜N
1−25を総称する場合は、ノードN
1と記載する)で構成される。
隠れ層S
2は、入力層S
1のノード数と同数のノードN
2−1〜N
2−25(以下、ノードN
2−1〜N
2−25を総称する場合は、ノードN
2と記載する)で構成される。
出力層S
3は、1つのノードN
3で構成される。
【0080】
ノードN
1のそれぞれは、スコア数値列生成部114が生成するスコア数値列のうち、自身に対応づけられた要素の値を入力し、ノードN
2のそれぞれに出力する。ノードN
2は、ノードN
1のそれぞれが出力する値を入力し、当該入力した値を所定の記憶領域に記憶した伝達関数に代入し、得られた値をノードN
3に出力する。ノードN
3は、ノードN
2のそれぞれが出力する値を入力し、当該入力した値を所定の記憶領域に記憶した伝達関数に代入し、得られた値を期待値として出力する。
なお、ノードN
2、N
3が用いる伝達関数とは、前段のノードから入力したそれぞれの値と入力元のノードに対応する結合加重との積を総和し、得られる値が所定の閾値を超えた場合にのみ値を発火(出力)する関数である。ここで、ノードN
2の伝達関数を式(5)に、ノードN
3の伝達関数を式(6)に示す。
【0082】
但し、nは、ノードN
1の総数を示す値であり、本実施形態では25となる。また、w
iは、ノードN
1−iに対応する結合加重を示す。また、x
iは、ノードN
1−iから入力した値を示す。また、mは、ノードN
2の総数を示す値であり、本実施形態では25となる。また、w
jは、ノードN
2−jに対応する結合加重を示す。また、x
jは、ノードN
2−jから入力した値を示す。また、θは、発火のための閾値を示す。また、関数fは、0以上1以下の値を出力するシグモイド関数である。なお、シグモイド関数は、式(7)に示す関数である。
【0084】
また、ニューラルネットワーク115は、既知のGPIアンカー型タンパク質のスコア数値列を入力とした場合に、期待値として1を出力し、既知の非GPIアンカー型タンパク質のスコア数値列を入力した場合に、期待値として0を出力するように学習されている。
ここで、ニューラルネットワーク115の学習方法を説明する。
【0085】
まず、PSSMの作成に用いたGPIアンカー型タンパク質データセット及び非GPIアンカー型タンパク質データセットを読み出す。次に、当該データセットの各エントリーから、平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置とする所定の範囲(基準位置のアミノ酸残基と基準位置からN末端側に連続する12残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とからなる範囲)におけるアミノ酸残基のそれぞれに対して、PSSM記憶部113が記憶する位置特異的スコアを割り当て、スコア数値列を生成する。
【0086】
次に、生成したスコア数値列をニューラルネットワーク115の入力層S
1の各ノードN
1に入力する。ノードN
1のそれぞれは、入力した値をノードN
2のそれぞれに出力する。ノードN
2は、ノードN
1のそれぞれが出力する値を伝達関数に代入し、得られた値をノードN
3に出力する。ノードN
3は、ノードN
2のそれぞれが出力する値を伝達関数に代入し、得られる値を期待値として出力する。
【0087】
他方、ニューラルネットワーク115のノードN
3は、教師データを入力する。教師データとは、入力したデータに対して期待される出力値を示すデータのことである。本実施形態においては、GPIアンカー型タンパク質のスコア数値列を入力した場合、教師データは1であり、非GPIアンカー型タンパク質のスコア数値列を入力した場合、教師データは0である。次に、ニューラルネットワーク115の各ノードは、教師データと出力した期待値との誤差を最小にするように、自身が用いる伝達関数の結合加重w
i、閾値θを変化させる。
この処理をPSSMの作成に用いたGPIアンカー型タンパク質データセット及び非GPIアンカー型タンパク質データセットのそれぞれのエントリーに対して実行する。これにより、ニューラルネットワーク115は、既知のGPIアンカー型タンパク質のスコア数値列を入力とした場合に、期待値として1を出力し、既知の非GPIアンカー型タンパク質のスコア数値列を入力した場合に、期待値として0を出力することとなる。
【0088】
<ステップS16:スコアの判定>
ステップS15でニューラルネットワーク115が期待値を出力すると、GPIアンカー型タンパク質判定部116は、出力した期待値が0.5以上であるか否かを判定する。つまり、GPIアンカー型タンパク質判定部116は、ニューラルネットワーク115が出力した期待値が、GPIアンカー型タンパク質を示す1と非GPIアンカー型タンパク質を示す0との何れに近いかを判定する。
【0089】
<ステップS17:GPIアンカー型タンパク質と判定>
GPIアンカー型タンパク質判定部116は、ステップS16でニューラルネットワーク115が出力した期待値が0.5以上であると判定した場合(ステップS16:YES)、ステップS1で配列取得部102が取得したアミノ酸配列情報が、GPIアンカー型タンパク質のものであると判定する。
【0090】
<ステップS18:非GPIアンカー型タンパク質と判定>
他方、ステップS5でN末端側疎水性判定部106が、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値未満であると判定した場合(ステップS5:NO)、ステップS8でN末端外疎水性判定部108が、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値未満であると判定した場合(ステップS8:NO)、ステップS9でC末端側最大疎水位置判定部109が、N末端外平均疎水性値が最大となるアミノ酸残基の位置がC末端側の高疎水性領域に対応する領域内にないと判定した場合(ステップS9:NO)、またはステップS16でニューラルネットワーク115が出力した期待値が0.5未満であると判定した場合(ステップS16:NO)、GPIアンカー型タンパク質判定部116は、ステップS1で配列取得部102が取得したアミノ酸配列情報が、非GPIアンカー型タンパク質のものであると判定する。
【0091】
上述した動作により、GPIアンカー型タンパク質判定装置100は、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
なお、GPIアンカー型タンパク質及び非GPIアンカー型タンパク質それぞれの判定精度を求める方法としては、n−fold cross validation法(n分割交差検定法)、bootstrap法、jackknife法、Self−consistency(自己無撞着)な手法などを挙げることができる。ここで、判定精度とは、判定の感度、選択性、及び成功率のことを言う。
以下に、4分割交差検定法及び自己無撞着な手法について詳述する。
【0092】
4分割交差検定法による判定精度とは、以下の処理により算出した判定精度である。
まず、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のデータセットを4等分する。次に、分割したデータセットのうち3つの部分データセットを用いてPSSMを生成する。また、分割したデータセットのうち3つの部分データセットを用いてニューラルネットワーク115の学習を行う。次に、3つの部分データセットを用いて生成したPSSMに基づいて、他の1つの部分データセットの各エントリーのスコア数値列を生成する。次に、当該算出したスコアに基づいて、感度、選択性、成功率を算出する。そして、PSSMを生成する部分データセットとスコアを算出する部分データセットとの全ての組み合わせに対して判定精度を算出し、それぞれの平均値をデータセット全体に対する判定精度として算出する。
【0093】
自己無撞着な手法による判定精度とは、以下の処理により算出した判定精度である。
まず、上述したスコア判定閾値の決定方法と同様に、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のデータセットを用いてPSSMを生成する。また、当該データセットを用いてニューラルネットワーク115の学習を行う。次に、当該PSSMを用いて、PSSMの生成に用いたデータセットの各エントリーのスコアを算出する。そして、当該算出したスコアに基づいてデータセット全体に対する判定精度を算出する。但し、本実施形態では、ニューラルネットワーク115が、既知のGPIアンカー型タンパク質のスコア数値列を入力とした場合に、期待値として必ず1を出力し、既知の非GPIアンカー型タンパク質のスコア数値列を入力した場合に、期待値として必ず0を出力するように学習されている。そのため、自己無撞着な手法によって算出された感度、選択性、成功率は、すべて100%となる。
【0094】
4分割交差検定法について、
図17〜
図20を用いて、さらに具体的に説明する。
図17は、本実施形態によるGPIアンカー型タンパク質判定装置の判定精度を示す第1の表である。
図17では、GPIアンカー型タンパク質判定装置100がGPIアンカー型タンパク質であると判定した検査対象タンパク質の判定精度、及び非GPIアンカー型タンパク質であると判定した検査対象タンパク質の判定精度を示している。また、
図17に示すGPIアンカー型タンパク質及び非GPIアンカー型タンパク質それぞれの判定精度を求めるにあたり、4分割交差検定法を用いた。
【0095】
図17に示すように、本実施形態による、GPIアンカー型タンパク質の4分割交差検定法による判定精度は、感度が91.5%、選択性が91.5%、成功率が0.915であった。また、非GPIアンカー型タンパク質の4分割交差検定法による判定精度は、感度が98.2%、選択性が93.1%、成功率が0.956であった。なお、
図17に示す判定制度は、100回試行のうち、成功率が最高値のときのものである。
【0096】
図18は、本実施形態によるGPIアンカー型タンパク質判定装置の判定精度を示す第2の表である。
図17では、100回試行のうち、成功率が最高値のときの判別精度を示したが、
図18では、100回試行のうち、成功率上位10%の平均精度を示す。
図18に示すように、本実施形態による、GPIアンカー型タンパク質の4分割交差検定法による成功率上位10%の平均精度は、感度が91.4%、選択性が90.2%、成功率が0.907であった。また、非GPIアンカー型タンパク質の4分割交差検定法による成功率上位10%の平均精度は、感度が94.8%、選択性が91.3%、成功率が0.949であった。このように、本実施形態によれば、成功率が最高の場合に限らず、平均的に高い判定精度を得ることができることが分かる。
【0097】
以下に、基準位置を含む所定の範囲を変化させてGPIアンカー型タンパク質の判定を行った場合の判定精度を示す。
【0098】
図19は、基準位置を含む所定の範囲を基準位置から(−12残基〜+12残基)を(−10残基〜+12残基)に変更した場合の判定精度を示す表である。
図19に示すように、所定の範囲を、基準位置からN末端側に10残基、C末端側に12残基の範囲とした場合の、GPIアンカー型タンパク質の4分割交差検定法による判定精度は、成功率が最高の場合、感度が90.0%、選択性が92.3%、成功率が0.911であった。また、100回試行のうち成功率上位10%の平均精度は、感度が90.5%、選択性が90.0%、成功率が0.901であった。
他方、非GPIアンカー型タンパク質の4分割交差検定法による判定精度は、成功率が最高の場合、感度が95.5%、選択性が94.7%、成功率が0.951であった。また、100回試行のうち成功率上位10%の平均精度は、感度が94.5%、選択性が94.9%、成功率が0.947であった。
図19に示す本実施形態による判定精度(基準位置を含む所定の範囲を、基準位置からN末端側に10残基、C末端側に12残基の範囲とした場合の判定精度)を、
図17に示す本実施形態による判定精度(基準位置を含む所定の範囲を、基準位置からN末端側に12残基、C末端側に12残基の範囲とした場合の判定精度)と比較すると、GPIアンカー型タンパク質と非GPI型タンパク質とで
図17に示す本実施形態による判定精度の方が感度と成功率が高いことが分かる。
【0099】
図20は、基準位置を含む所定の範囲を基準位置から(−12残基〜+12残基)を(−12残基〜+9残基)に変更した場合の判定精度を示す表である。
図20に示すように、所定の範囲を、基準位置からN末端側に12残基、C末端側に9残基の範囲とした場合の、GPIアンカー型タンパク質の4分割交差検定法による判定精度は、成功率が最高の場合、感度が92.9%、選択性が90.5%、成功率が0.916であった。また、100回試行のうち成功率上位10%の平均精度は、感度が90.8%、選択性が89.4%、成功率が0.900であった。
他方、非GPIアンカー型タンパク質の4分割交差検定法による判定精度は、成功率が最高の場合、感度が94.9%、選択性が96.2%、成功率が0.955であった。また、100回試行のうち成功率上位10%の平均精度は、感度が94.2%、選択性が95.0%、成功率が0.946であった。
図20に示す本実施形態による判定精度(基準位置を含む所定の範囲を、基準位置からN末端側に12残基、C末端側に9残基の範囲とした場合の判定精度)を、
図17に示す本実施形態による判定精度(基準位置を含む所定の範囲を、基準位置からN末端側に12残基、C末端側に12残基の範囲とした場合の判定精度)と比較すると、GPIアンカー型タンパク質では
図20に示す本実施形態による判定精度の方が感度と成功率が高いことが分かる。
【0100】
このように、本実施形態によれば、GPIアンカー型タンパク質判定装置100は、PSSMによって検査対象タンパク質のアミノ酸配列の各アミノ酸残基の位置特異的スコアを示すスコア数値列を生成する。そして、ニューラルネットワーク115が当該スコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力することで検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。PSSMは、既知のGPIアンカー型タンパク質のアミノ酸出現頻度と既知の非GPIアンカー型タンパク質のアミノ酸出現頻度とを用いて生成されるため、PSSMから生成されたスコア数値列は、GPIアンカー型タンパク質らしさのみならず非GPIアンカー型タンパク質らしさをも示すこととなる。これにより、GPIアンカー型タンパク質判定装置100は、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
【0101】
また、本実施形態によれば、N末端側疎水性判定部106、N末端外疎水性判定部108、及びC末端側最大疎水位置判定部109による判定処理をした後に、ニューラルネットワーク115による期待値の算出を行う。これにより、ニューラルネットワーク115の処理対象となるアミノ酸配列情報の量を減らすことができ、ニューラルネットワーク115による期待値算出処理の計算量が多い場合にも、処理の高速化を図ることができる。
【0102】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、タンパク質の完全長アミノ酸配列情報を検査対象として判定を行ったが、これに限られず、完全長塩基配列情報を検査対象として判定を行っても良い。但し、この場合、ステップS1で配列取得部102が完全長塩基配列情報を取得した後、図示しない翻訳処理部が、常法によるイントロ配列の除去処理及びアミノ酸配列情報への翻訳処理を行い、当該アミノ酸配列情報を用いてステップS2以降の処理を行う。
【0103】
また、本実施形態では、期待値を算出する分類部としてニューラルネットワーク115を用いる場合を説明したが、これに限られず、例えば、サポートベクターマシンや、ベイジアンネットワークなど、分類部として他の解析手法を用いても良い。
【0104】
また、本実施形態では、ニューラルネットワーク115が入力層S
1、隠れ層S
2、出力層S
3の3層構造である場合を説明したが、これに限られず、ニューラルネットワーク115が複数の隠れ層を有する4層以上の構造を有していても良い。但し、隠れ層の数が増えると、学習時に、最適解(期待値と教師データとの誤差が最小値となる値)に到達せずに、局所解(期待値と教師データとの誤差が極小値となる値)に陥り、最適な学習がなされない可能性がある。
【0105】
また、本実施形態では、隠れ層のノード数と入力層のノード数とを同数とする場合を説明したが、これに限られず、隠れ層のノード数を入力層のノード数より多くしても良いし、隠れ層のノード数を入力層のノード数より少なくしても良い。但し、隠れ層のノード数を多くした場合、本実施形態と比較して、学習時に、局所解に陥る可能性が高くなり、また計算量が増える。また、隠れ層のノード数を少なくした場合、本実施形態と比較して計算量が減る一方、判別精度が低くなる。
【0106】
上述のGPIアンカー型タンパク質判定装置100は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0107】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。