特表2019-535057(P2019-535057A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シェンチェン ユニバーシティーの特許一覧 ▶ ハルビン インスティテュート オブ テクノロジー シェンチェン グラデュエート スクールの特許一覧

特表2019-535057タンパク質結合部位予測の方法、装置、設備及び記憶媒体
<>
  • 特表2019535057-タンパク質結合部位予測の方法、装置、設備及び記憶媒体 図000003
  • 特表2019535057-タンパク質結合部位予測の方法、装置、設備及び記憶媒体 図000004
  • 特表2019535057-タンパク質結合部位予測の方法、装置、設備及び記憶媒体 図000005
  • 特表2019535057-タンパク質結合部位予測の方法、装置、設備及び記憶媒体 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2019-535057(P2019-535057A)
(43)【公表日】2019年12月5日
(54)【発明の名称】タンパク質結合部位予測の方法、装置、設備及び記憶媒体
(51)【国際特許分類】
   G16B 30/00 20190101AFI20191108BHJP
【FI】
   G16B30/00
【審査請求】有
【予備審査請求】未請求
【全頁数】18
(21)【出願番号】特願2019-511995(P2019-511995)
(86)(22)【出願日】2017年9月4日
(85)【翻訳文提出日】2019年2月25日
(86)【国際出願番号】CN2017100314
(87)【国際公開番号】WO2019041333
(87)【国際公開日】20190307
(31)【優先権主張番号】201710770933.2
(32)【優先日】2017年8月31日
(33)【優先権主張国】CN
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】517161511
【氏名又は名称】シェンチェン ユニバーシティー
(71)【出願人】
【識別番号】519064654
【氏名又は名称】ハルビン インスティテュート オブ テクノロジー シェンチェン グラデュエート スクール
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【弁理士】
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】チャン,ヨン
(72)【発明者】
【氏名】へ,ウェイ
(72)【発明者】
【氏名】シュウ,ヨン
(72)【発明者】
【氏名】チャオ,ドンニン
(57)【要約】
【課題】 タンパク質結合部位予測の方法、装置、設備及び記憶媒体を提供することを課題とする。
【解決手段】 本発明は、生物情報技術分野に適し、タンパク質結合部位予測の方法、装置、設備及び記憶媒体を提供する。前記方法は、予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップでタンパク質配列に対し配列を分割することで、タンパク質配列を構成する複数のアミノ酸子配列を得るステップと、それらアミノ酸子配列に基づきタンパク質配列の単語ベクトルを構築し、単語ベクトルの単語要素が各アミノ酸子配列を表現し、単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築するステップと、それアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づきタンパク質配列の生物学的特徴ベクトルを構築するステップと、あらかじめ設定されたアミノ酸残基分類モデルを用いてドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類してタンパク質配列のアミノ酸残基カテゴリを得るステップとを含み、従ってタンパク質結合部位の予測精度及び汎用性を高める。
【選択図】 図1
【特許請求の範囲】
【請求項1】
タンパク質結合部位の予測方法であって、
予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップで前記タンパク質配列に対し配列を分割することで、前記タンパク質配列を構成する複数のアミノ酸子配列を得るステップと、
前記複数のアミノ酸子配列に基づき前記タンパク質配列の単語ベクトルを構築し、前記単語ベクトルの単語要素が各前記アミノ酸子配列を表現し、前記単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づき前記タンパク質配列のドキュメント特徴ベクトルを構築するステップと、
前記単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づき前記タンパク質配列の生物学的特徴ベクトルを構築するステップと、
あらかじめ設定されたアミノ酸残基分類モデルを用いて前記ドキュメント特徴ベクトル及び前記生物学的特徴ベクトルを分類し、前記タンパク質配列のアミノ酸残基カテゴリを得るステップと、
を含むことを特徴とする、タンパク質結合部位の予測方法。
【請求項2】
予測対象タンパク質配列を受け取るステップの前に、前記方法は、
あらかじめ設定されたスライディングウィンドウ及びスライディングステップを用いてあらかじめ設定されたトレーニングセット内の訓練タンパク質配列に対し配列を分割し、前記訓練タンパク質配列を構成する複数の訓練アミノ酸子配列を得るステップと、
前記複数の訓練アミノ酸子配列に基づき前記訓練タンパク質配列の訓練単語ベクトルを構築し、前記訓練単語ベクトルの訓練単語要素が各前記訓練アミノ酸子配列を表現し、前記訓練単語要素に対しドキュメント特徴を抽出し、抽出された前記ドキュメント特徴に基づき前記訓練タンパク質配列のドキュメント特徴訓練ベクトルを構築するステップと、
前記訓練単語要素で表現される前記訓練アミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された前記生物学的特徴に基づき前記訓練タンパク質配列の生物学的特徴訓練ベクトルを構築するステップと、
前記ドキュメント特徴訓練ベクトル及び前記生物学的特徴訓練ベクトルで表現される訓練アミノ酸子配列を用いてあらかじめ構築された分類モデルを訓練し、あらかじめ設定された訓練終了条件を満たした時、訓練で得られた分類モデルをアミノ酸残基分類モデルにセットするステップと、
を更に含むことを特徴とする、請求項1に記載の方法。
【請求項3】
前記あらかじめ設定されたスライディングウィンドウサイズは(2*window+1−2*b)であり、windowがデフォルトであり、bはランダム生成され、サイズが0〜window−1の範囲にある変数であることを特徴とする、請求項1に記載の方法。
【請求項4】
前記ドキュメント特徴は、TFIDF配列特徴とN−gram配列特徴等を含み、前記生物学的特徴が位置特異的なスコア行列特徴と疑似アミノ酸組成特徴等を含むことを特徴とする、請求項1又は2に記載の方法。
【請求項5】
前記生物学的特徴ベクトルを予測し、予測された予測結果と前記ドキュメント特徴ベクトルについて特徴ステッチを行うステップと、
前記特徴ステッチで得られたステッチ特徴ベクトルを分類するステップと、
を含むことを特徴とする、請求項1に記載の方法。
【請求項6】
タンパク質結合部位の予測装置であって、
予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップで前記タンパク質配列に対し配列を分割することで、前記タンパク質配列を構成する複数のアミノ酸子配列を得るための配列分割手段と、
前記複数のアミノ酸子配列に基づき前記タンパク質配列の単語ベクトルを構築し、前記単語ベクトルの単語要素が各前記アミノ酸子配列を表現し、前記単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づき前記タンパク質配列のドキュメント特徴ベクトルを構築するための第1ベクトル構築手段と、
前記単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づき前記タンパク質配列の生物学的特徴ベクトルを構築するための第2ベクトル構築手段と、
あらかじめ設定されたアミノ酸残基分類モデルを用いて前記ドキュメント特徴ベクトル及び前記生物学的特徴ベクトルを分類し、前記タンパク質配列のアミノ酸残基カテゴリを得るための結果取得手段と、
を含むことを特徴とする、装置。
【請求項7】
前記装置は、
あらかじめ設定されたスライディングウィンドウ及びスライディングステップを用いてあらかじめ設定されたトレーニングセット内の訓練タンパク質配列に対し配列を分割し、前記訓練タンパク質配列を構成する複数の訓練アミノ酸子配列を得るための訓練配列分割手段と
前記複数の訓練アミノ酸子配列に基づき前記訓練タンパク質配列の訓練単語ベクトルを構築し、前記訓練単語ベクトルの訓練単語要素が各前記訓練アミノ酸子配列を表現し、前記訓練単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づき前記訓練タンパク質配列のドキュメント特徴訓練ベクトルを構築するための第1特徴処理手段と、
前記単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づき前記タンパク質配列の生物学的特徴ベクトルを構築するための第2特徴処理手段と、
前記ドキュメント特徴訓練ベクトル及び生物学的特徴訓練ベクトルで表現される訓練アミノ酸子配列を用いてあらかじめ構築された分類モデルを訓練し、あらかじめ設定された訓練終了条件を満たした時、訓練で得られた分類モデルをアミノ酸残基分類モデルにセットするためのモデル訓練手段と、
を更に含むことを特徴とする、請求項6に記載の装置。
【請求項8】
前記結果取得手段は、
前記生物学的特徴ベクトルを予測し、予測された予測結果と前記ドキュメント特徴ベクトルについて特徴ステッチを行うための特徴ステッチ手段と、
前記特徴ステッチで得られたステッチ特徴ベクトルを分類するための特徴分類手段と、
を含むことを特徴とする、請求項6に記載の装置。
【請求項9】
メモリと、プロセッサと、メモリ内に保存され、前記プロセッサ上で実行できるコンピュータプログラムとを含む計算設備であって、前記プロセッサは、前記コンピュータプログラムを実行した時、請求項1〜5のいずれか一項に記載の方法のステップを実行することを特徴とする、計算設備。
【請求項10】
コンピュータプログラムを保存するコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムがプロセッサで実行された時、請求項1〜5のいずれか一項に記載の方法のステップを実行することを特徴とする、コンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生物情報技術分野に属し、特に、タンパク質結合部位予測の方法、装置、設備及び記憶媒体に関する。
【背景技術】
【0002】
近年、生物情報学は、人々から大いに注目を集め、益々多くの異なる分野の研究者が生物情報学への研究に取り組んできた。生物情報学は、生物及び生物的システム内の情報内容及び情報科学を研究する総合的な学科である。その知識システム内には、生物学(遺伝学、生物化学等)、数学(確率論と数理統計、アルゴリズム等)、計算機科学(機械学習、計算理論等)、物理化学(分子モデル構築、熱力学等)等の複数の異なる学科の知識が含まれる。
【0003】
タンパク質は、実際に生命活動している分子的な実体で、全ての生物が生命を表現するに当たって最も重要な物質であり、自然界で最も微小の機械装置でもあり、かつ生物的システムとの運用内において代替できない作用である。タンパク質の細胞内における異なる作用は、タンパク質間、タンパク質とDNA間、タンパク質とRNA間及びタンパク質とリガンド間の相互作用で調節される。タンパク質間相互作用は、タンパク質分子の関連性に関わり、その関連性は生細胞の各生物学過程内において非常に重要な役割を果たし、例えばDNA合成、遺伝子転写活化、タンパク質の翻訳、修飾と局在及びシグナル伝達であり、これら重要な生物過程は均しくタンパク質間相互作用に関わる。よって、タンパク質間相互作用の配列と構造特性を探索することこそ、細胞活動の理解にとって極めて重要である。
【0004】
次世代シーケンシング技術が絶え間なく発展するに伴い、決定したタンパク質配列データも絶え間なく増加してきた。よって、迅速かつ信頼的にタンパク質結合部位を認識できる計算ツールに対する人々の需要も高まってきた。タンパク質結合部位の局在は、タンパク質相互作用の分子詳細及びタンパク質機能の分析や理解にとって極めて重要である。現在、国内外のタンパク質結合部位に対する研究予測の多くは、単一サイトを通じて行った専門的決定、得られた物理化学的特徴、及びタンパク質チェインに対する分析を通じて計算して得られた部位間の配列特徴に基づくものである。こうしてタンパク質結合部位のクラスター特性及びアミノ酸残基の間の関連シグナルを無視してきたことで、タンパク質結合部位に対する予測の正確性及び汎用性が高くない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、従来技術のタンパク質結合部位に対する予測の正確性及び汎用性が高くないという課題を解決するため、タンパク質結合部位予測の方法、装置、計算設備及び記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0006】
一つの実施態様において、本発明はタンパク質結合部位の予測方法を提供し、前記方法は、
予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップで前記タンパク質配列に対し配列を分割することで、前記タンパク質配列を構成する複数のアミノ酸子配列を得るステップと、
前記複数のアミノ酸子配列に基づき前記タンパク質配列の単語ベクトルを構築し、前記単語ベクトルの単語要素が各前記アミノ酸子配列を表現し、前記単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づき前記タンパク質配列のドキュメント特徴ベクトルを構築するステップと、
前記単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づき前記タンパク質配列の生物学的特徴ベクトルを構築するステップと、
あらかじめ設定されたアミノ酸残基分類モデルを用いて前記ドキュメント特徴ベクトル及び前記生物学的特徴ベクトルを分類し、前記タンパク質配列のアミノ酸残基カテゴリを得るステップと、
を含む。
【0007】
他の実施態様において、本発明はタンパク質結合部位の予測装置を提供し、前記装置は、
予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップで前記タンパク質配列に対し配列を分割することで、前記タンパク質配列を構成する複数のアミノ酸子配列を得るための配列分割手段と、
前記複数のアミノ酸子配列に基づき前記タンパク質配列の単語ベクトルを構築し、前記単語ベクトルの単語要素が各前記アミノ酸子配列を表現し、前記単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づき前記タンパク質配列のドキュメント特徴ベクトルを構築するための第1ベクトル構築手段と、
前記単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づき前記タンパク質配列の生物学的特徴ベクトルを構築するための第2ベクトル構築手段と、
あらかじめ設定されたアミノ酸残基分類モデルを用いて前記ドキュメント特徴ベクトル及び前記生物学的特徴ベクトルを分類し、前記タンパク質配列のアミノ酸残基カテゴリを得るための結果取得手段と、
を含む。
【0008】
更なる実施態様において、本発明は、配列分割及び分類モデルの構築に必要な計算環境と、前記環境内において実行できるコンピュータプログラムとをさらに提供し、プロセッサは前記コンピュータプログラムを実行した時、前記タンパク質結合部位予測方法のステップを実現する。
【0009】
更なる別の実施態様において、本発明は、コンピュータ読み取り可能な記録媒体をさらに提供し、前記コンピュータ読み取り可能な記録媒体にはコンピュータプログラムを保存しており、前記コンピュータプログラムがプロセッサで実行された時、前記タンパク質結合部位予測方法のステップを実現する。
【発明の効果】
【0010】
本発明は、予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップでタンパク質配列に対し配列を分割することで、タンパク質配列を構成する複数のアミノ酸子配列を得、得られた複数のアミノ酸子配列に基づきタンパク質配列の単語ベクトルを構築し、単語ベクトルの単語要素が各アミノ酸子配列を表現し、単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築し、アミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づきタンパク質配列の生物学的特徴ベクトルを構築し、あらかじめ設定されたアミノ酸残基分類モデルを用いてドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類してタンパク質配列のアミノ酸残基カテゴリを得ることで、タンパク質結合部位の予測精度及び汎用性を高める。
【図面の簡単な説明】
【0011】
図1】本発明の実施例1に係るタンパク質結合部位予測方法の実現フローチャートである。
図2】本発明の実施例2に係るタンパク質結合部位予測装置の構造を示す模式図である。
図3】本発明の実施例3に係るタンパク質結合部位予測装置の構造を示す模式図である。
図4】本発明の実施例4に係る計算設備の構造を示す模式図である。
【発明を実施するための形態】
【0012】
本発明の目的、技術的解決策及び利点をより一層明確にさせるため、以下、添付図面を基に実施例を組み合わせて更に説明する。ここで記述する具体的実施例は、あくまでも本発明の技術内容を明らかにするものであって、本発明が限定されるものではないことを理解すべきである。
【0013】
以下に、具体的実施例を基に本発明の具体的実現を詳細に説明する。
【実施例1】
【0014】
図1は、本発明の実施例1に係るタンパク質結合部位予測方法の実現フローを示す。説明の便宜のため、本発明の実施例と関連する部分のみが例示され、以下に詳述する。
【0015】
ステップS101において、予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップでタンパク質配列に対し配列を分割することで、タンパク質配列を構成する複数のアミノ酸子配列を得る。
【0016】
本発明の実施例は、タンパク質結合部位の予測システムに適用される。本発明の実施例において、タンパク質−タンパク質結合部位のクラスター特性を体現するため、予測対象タンパク質配列を受け取った後、スライディングウィンドウを起動させ、スライディングウィンドウサイズとスライディングステップの調節を通じて、タンパク質配列を分割して前記待予測タンパク質配列を構成する複数のアミノ酸子配列を得ることで、タンパク質配列の局所ブロックをその後の解析単位とする。
【0017】
本発明の実施例において、スライディングウィンドウサイズは(2*window+1−2*b)が好ましく、ここで、windowはデフォルトであり、bはランダム生成され、サイズが0〜window−1の範囲にある変数である。このようなスライディングウィンドウ内には、標的残基両側の各window−b個の隣接領域残基が含まれ、ウィンドウがアミノ酸配列上にスライディングすることに伴い、スライディングウィンドウサイズも3(b=window−1)〜2*window+1(b=0)の範囲でランダム変化し、複数のアミノ酸残基で構成されたタンパク質のブロックを得ることで、タンパク質のブロックを基本単位としてその後の分析に便利であり、タンパク質結合部位のクラスター特性を十分体現し、従ってその後の特徴表現力、予測精度及び汎用性を高める。
【0018】
好ましくは、予測対象タンパク質配列を受け取る前、機械学習の訓練を通じてアミノ酸残基分類モデルを得た。好ましくは、Stacking集積学習アルゴリズムを用いて機械学習を実施することで、アミノ酸残基分類モデルの分類の正確性及び汎化能力を高めることができる。
【0019】
好ましくは、機械学習の訓練を通じてアミノ酸残基分類モデルを得る時、まずあらかじめ設定されたスライディングウィンドウ及びスライディングステップを用いてあらかじめ設定されたトレーニングセット内の訓練タンパク質配列に対し配列を分割し、前記訓練タンパク質配列を構成する複数の訓練アミノ酸子配列を得て、そして得られた複数の訓練アミノ酸子配列に基づき訓練タンパク質配列の訓練単語ベクトルを構築し、訓練単語ベクトルの訓練単語要素が各訓練アミノ酸子配列を表現し、訓練単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づき訓練タンパク質配列のドキュメント特徴訓練ベクトルを構築し、また訓練単語要素で表現される訓練アミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づき訓練タンパク質配列の生物学的特徴訓練ベクトルを構築し、最後にドキュメント特徴訓練ベクトル及び生物学的特徴訓練ベクトルで表現される訓練アミノ酸子配列を用いてあらかじめ構築された分類モデルを訓練し、あらかじめ設定された訓練終了条件を満たした時、訓練で得られた分類モデルをアミノ酸残基分類モデルにセットすることで、その後のアミノ酸残基分類に分類モデルを提供し、分類モデルの分類効率を向上した。訓練終了条件は、訓練回数があらかじめ設定された回数に達す或いは訓練過程中の損失がデフォルトに達するようセットできる。
【0020】
具体的に言えば、複数のカテゴリの特徴を得た後,Stacking集積学習アルゴリズムを用いてあらかじめ設定されたモデルを訓練してアミノ酸残基分類モデルを得る。Stackingモデルの1層目は、各々異種タンパク質チェインの生物学的特徴を用いて複数のベース分類器を訓練し、その後複数のベース分類器の予測結果とドキュメント特徴ベクトルをつなぎ合わせ、これを最終的な特徴ベクトルとして訓練を実施し、アミノ酸残基分類モデルを得た。
【0021】
ステップS102において、複数のアミノ酸子配列に基づきタンパク質配列の単語ベクトルを構築し、単語ベクトルの単語要素が各アミノ酸子配列を表現し、単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築する。
【0022】
本発明の実施例において、配列を分割して複数のアミノ酸子配列を得た後、まずアミノ酸子配列に基づきタンパク質配列の単語ベクトル(単語ベクトルの単語要素は各アミノ酸子配列を表す)を構築し、そして単語要素に対しドキュメント特徴を抽出し、最後に抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築した。抽出されたドキュメント特徴には、TFIDF配列特徴とN−gram配列特徴等が含まれる。
【0023】
好ましくは、アミノ酸子配列に基づいてタンパク質配列の単語ベクトルを構築する時、各種アミノ酸子配列に1つの一意識別子を割り当てると共にword2vecアルゴリズムでオリジナル子配列の一意識別子をK次元ベクトル空間中にマッピングし、タンパク質配列の単語ベクトルを得た。こうしてフラクタル次元を効果的に下げることができ、テキストデータのためにより深い階層の特徴表現を探し、かつ高次元単語ベクトル内の全てのデータを利用し、データ規模をより大きくさせ、その後の分類効果の向上に有利となる。
【0024】
ステップS103において、単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づきタンパク質配列の生物学的特徴ベクトルを構築する。
【0025】
本発明の実施例において、まず配列を分割して得られたアミノ酸子配列についてタンパク質チェイン生物学的特徴を抽出し、そして抽出された生物学的特徴(抽出された生物学的特徴には位置特異的なスコア行列特徴と疑似アミノ酸組成特徴等が含まれる)に基づきタンパク質配列の生物学的特徴ベクトルを構築することで、アミノ酸の配列における出現順序等の局所シグナルを効果的に表現し、特徴ベクトルのタンパク質配列シグナルに対する表現能力を増大することで、生物学的特徴ベクトル内の生物学的特徴の全面性を高めた。
【0026】
ステップS104において、あらかじめ設定されたアミノ酸残基分類モデルを用いてドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類し、タンパク質配列のアミノ酸残基カテゴリを得る。
【0027】
本発明の実施例において、アミノ酸残基カテゴリは、アミノ酸残基がタンパク質配列の結合部位であるかどうかを説明するために用いられる。好ましくは、ドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類する時、まず生物学的特徴ベクトルを予測し、そして予測した予測結果とドキュメント特徴ベクトルについてフィーチャーステッチし、最後にフィーチャーステッチして得られたステッチ特徴ベクトルを分類することで、さらにタンパク質結合部位予測の精度を高める。あらかじめ設定されたアミノ酸残基分類モデルは、前記訓練で得られたアミノ酸残基分類モデルであるため、タンパク質配列の結合部位の予測精度を向上する。
【実施例2】
【0028】
図2は、本発明の実施例2に係るタンパク質結合部位予測装置の構造を示す。説明の便宜のため、本発明の実施例と関連する部分のみが例示され、前記装置は、以下の手段を含む。
【0029】
配列分割手段21は、予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップでタンパク質配列に対し配列を分割することで、タンパク質配列を構成する複数のアミノ酸子配列を得るために用いられる。
【0030】
第1ベクトル構築手段22は、得られた複数のアミノ酸子配列に基づきタンパク質配列の単語ベクトルを構築し、単語ベクトルの単語要素が各アミノ酸子配列を表現し、単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築するために用いられる。
【0031】
第2ベクトル構築手段23は、単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づきタンパク質配列の生物学的特徴ベクトルを構築するために用いられる。
【0032】
結果取得手段24は、あらかじめ設定されたアミノ酸残基分類モデルを用いてドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類し、タンパク質配列のアミノ酸残基カテゴリを得るために用いられる。
【0033】
本発明の実施例において、配列分割手段21は、予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップでタンパク質配列に対し配列を分割することで、タンパク質配列を構成する複数のアミノ酸子配列を得、第1ベクトル構築手段22が得られた複数のアミノ酸子配列に基づきタンパク質配列の単語ベクトルを構築し、単語ベクトルの単語要素が各アミノ酸子配列を表現し、単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築し、第2ベクトル構築手段23が単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づきタンパク質配列の生物学的特徴ベクトルを構築し、結果取得手段24があらかじめ設定されたアミノ酸残基分類モデルを用いてドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類し、タンパク質配列のアミノ酸残基カテゴリを得ることで、タンパク質結合部位の予測精度及び汎用性を高める。
【0034】
本発明の実施例において、タンパク質結合部位予測装置の各手段は、対応のハードウェア或いはソフトウェアユニットから実現でき、各手段が独立したソフト、ハードウェアユニットとすることができ、1つのソフト、ハードウェアユニットとして統合することもでき、ここで本発明を限定することもない。各手段の具体的実施形態は、前記実施例1の説明を参照にできるため、ここでその説明を省略する。
【実施例3】
【0035】
図3は、本発明の実施例3に係るタンパク質結合部位予測装置の構造を示す。説明の便宜のため、本発明の実施例と関連する部分のみが例示され、前記装置は、以下の手段を含む。
【0036】
訓練配列分割手段31は、あらかじめ設定されたスライディングウィンドウ及びスライディングステップを用いてあらかじめ設定されたトレーニングセット内の訓練タンパク質配列に対し配列を分割し、訓練タンパク質配列を構成する複数の訓練アミノ酸子配列を得るために用いられる。
【0037】
第1特徴処理手段32は、得られた複数の訓練アミノ酸子配列に基づき訓練タンパク質配列の訓練単語ベクトルを構築し、訓練単語ベクトルの訓練単語要素が各訓練アミノ酸子配列を表現し、訓練単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づき訓練タンパク質配列のドキュメント特徴訓練ベクトルを構築するために用いられる。
【0038】
第2特徴処理手段33は、単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づき前記タンパク質配列の生物学的特徴ベクトルを構築するに用いられる。
【0039】
モデル訓練手段34は、ドキュメント特徴訓練ベクトル及び生物学的特徴訓練ベクトルで表現される訓練アミノ酸子配列を用いてあらかじめ構築された分類モデルを訓練し、あらかじめ設定された訓練終了条件を満たした時、訓練で得られた分類モデルをアミノ酸残基分類モデルにセットするために用いられる。
【0040】
本発明の実施例において、予測対象タンパク質配列を受け取る前、機械学習の訓練を通じてアミノ酸残基分類モデルを得た。好ましくは、Stacking集積学習アルゴリズムを用いて機械学習を実施することで、アミノ酸残基分類モデルの分類の正確性及び汎化能力を高めることができる。
【0041】
具体的に言えば、機械学習の訓練を通じてアミノ酸残基分類モデルを得る時、まず訓練配列分割手段31は、あらかじめ設定されたスライディングウィンドウ及びスライディングステップを用いてあらかじめ設定されたトレーニングセット内の訓練タンパク質配列に対し配列を分割し、前記訓練タンパク質配列を構成する複数の訓練アミノ酸子配列を得て、そして第1特徴処理手段32が得られた複数の訓練アミノ酸子配列に基づき訓練タンパク質配列の訓練単語ベクトルを構築し、訓練単語ベクトルの訓練単語要素が各訓練アミノ酸子配列を表現し、訓練単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づき訓練タンパク質配列のドキュメント特徴訓練ベクトルを構築し、第2特徴処理手段33が訓練単語要素で表現される訓練アミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づき訓練タンパク質配列の生物学的特徴訓練ベクトルを構築し、最後にモデル訓練手段34がドキュメント特徴訓練ベクトル及び生物学的特徴訓練ベクトルで表現される訓練アミノ酸子配列を用いてあらかじめ構築された分類モデルを訓練し、あらかじめ設定された訓練終了条件を満たした時、訓練で得られた分類モデルをアミノ酸残基分類モデルにセットすることで、その後のアミノ酸残基分類に分類モデルを提供し、分類モデルの分類効率を向上した。訓練終了条件は、訓練回数があらかじめ設定された回数に達す或いは訓練過程中の損失がデフォルトに達するようセットできる。
【0042】
具体的に言えば、複数のカテゴリの特徴を得た後,Stacking集積学習アルゴリズムを用いてあらかじめ設定されたモデルを訓練してアミノ酸残基分類モデルを得る。Stackingモデルの1層目は、各々異種タンパク質チェインの生物学的特徴を用いて複数のベース分類器を訓練し、その後複数のベース分類器の予測結果とドキュメント特徴ベクトルをつなぎ合わせ、これを最終的な特徴ベクトルとして訓練を実施し、アミノ酸残基分類モデルを得た。
【0043】
配列分割手段35は、予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップでタンパク質配列に対し配列を分割することで、タンパク質配列を構成する複数のアミノ酸子配列を得るために用いられる。
【0044】
本発明の実施例において、タンパク質−タンパク質結合部位のクラスター特性を体現するため、予測対象タンパク質配列を受け取った後、配列分割手段35はスライディングウィンドウを起動させ、スライディングウィンドウサイズとスライディングステップの調節を通じて、タンパク質配列を分割して前記待予測タンパク質配列を構成する複数のアミノ酸子配列を得ることで、タンパク質配列の局所ブロックをその後の解析単位とする。
【0045】
本発明の実施例において、スライディングウィンドウサイズは(2*window+1−2*b)が好ましく、ここで、windowはデフォルトであり、bはランダム生成され、サイズが0〜window−1の範囲にある変数である。このようなスライディングウィンドウ内には、標的残基両側の各window−b個の隣接領域残基が含まれ、ウィンドウがアミノ酸配列上にスライディングすることに伴い、スライディングウィンドウサイズも3(b=window−1)〜2*window+1(b=0)の範囲でランダム変化し、複数のアミノ酸残基で構成されたタンパク質のブロックを得ることで、タンパク質のブロックを基本単位としてその後の分析に便利であり、タンパク質結合部位のクラスター特性を十分体現し、従ってその後の特徴表現力、予測精度及び汎用性を高める。
【0046】
第1ベクトル構築手段36は、得られた複数のアミノ酸子配列に基づきタンパク質配列の単語ベクトルを構築し、単語ベクトルの単語要素が各アミノ酸子配列を表現し、単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築するために用いられる。
【0047】
本発明の実施例において、配列を分割して複数のアミノ酸子配列を得た後、第1ベクトル構築手段36は、まずアミノ酸子配列に基づきタンパク質配列の単語ベクトル(単語ベクトルの単語要素は各アミノ酸子配列を表す)を構築し、そして単語要素に対しドキュメント特徴を抽出し、最後に抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築した。抽出されたドキュメント特徴には、TFIDF配列特徴とN−gram配列特徴等が含まれる。
【0048】
好ましくは、アミノ酸子配列に基づいてタンパク質配列の単語ベクトルを構築する時、各種アミノ酸子配列に1つの一意識別子を割り当てると共にword2vecアルゴリズムでオリジナル子配列の一意識別子をK次元ベクトル空間中にマッピングし、タンパク質配列の単語ベクトルを得た。こうしてフラクタル次元を効果的に下げることができ、テキストデータのためにより深い階層の特徴表現を探し、かつ高次元単語ベクトル内の全てのデータを利用し、データ規模をより大きくさせ、その後の分類効果の向上に有利となる。
【0049】
第2ベクトル構築手段37は、単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づきタンパク質配列の生物学的特徴ベクトルを構築するために用いられる。
【0050】
本発明の実施例において、第2ベクトル構築手段37は、まず配列を分割して得られたアミノ酸子配列についてタンパク質チェイン生物学的特徴を抽出し、そして抽出された生物学的特徴(抽出された生物学的特徴には位置特異的なスコア行列特徴と疑似アミノ酸組成特徴等が含まれる)に基づきタンパク質配列の生物学的特徴ベクトルを構築することで、アミノ酸の配列における出現順序等の局所シグナルを効果的に表現し、特徴ベクトルのタンパク質配列シグナルに対する表現能力を増大することで、生物学的特徴ベクトル内の生物学的特徴の全面性を高めた。
【0051】
結果取得手段38は、あらかじめ設定されたアミノ酸残基分類モデルを用いてドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類し、タンパク質配列のアミノ酸残基カテゴリを得るために用いられる。
【0052】
本発明の実施例において、アミノ酸残基カテゴリは、アミノ酸残基がタンパク質配列の結合部位であるかどうかを説明するために用いられる。好ましくは、ドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類する時、まず生物学的特徴ベクトルを予測し、そして予測した予測結果とドキュメント特徴ベクトルについてフィーチャーステッチし、最後にフィーチャーステッチして得られたステッチ特徴ベクトルを分類することで、さらにタンパク質結合部位予測の精度を高める。あらかじめ設定されたアミノ酸残基分類モデルは、前記訓練で得られたアミノ酸残基分類モデルであるため、タンパク質配列の結合部位の予測精度を向上する。
【0053】
これにより、好ましくは、前記結果取得手段38は、
生物学的特徴ベクトルを予測し、予測された予測結果とドキュメント特徴ベクトルについて特徴ステッチを行うための特徴ステッチ手段381と、
特徴ステッチで得られたステッチ特徴ベクトルを分類するための特徴分類手段382と、
を含む。
【0054】
本発明の実施例において、タンパク質結合部位予測装置の各手段は、対応のハードウェア或いはソフトウェアユニットから実現でき、各手段が独立したソフト、ハードウェアユニットとすることができ、1つのソフト、ハードウェアユニットとして統合することもでき、ここで本発明を限定することもない。
【実施例4】
【0055】
図4は、本発明の実施例4に係る計算設備の構造を示す。説明の便宜のため、本発明の実施例と関連する部分のみが例示される。
【0056】
本発明の実施例に係る計算設備4は、プロセッサ40とメモリ41とメモリ41内に保存され、プロセッサ40上で実行できるコンピュータプログラム42とを含む。前記プロセッサ40は、コンピュータプログラム42を実行した時、上記タンパク質結合部位予測方法の実施例内のステップ(例えば図1に示すステップS101〜S104である)を実現する。或いは、プロセッサ40は、コンピュータプログラム42を実行した時、上記各装置の実施例における各手段の機能を実現し、例えば図2に示す手段21〜24、図3に示す手段31〜38の機能である。
【0057】
本発明の実施例において、前記プロセッサ40は、コンピュータプログラム42を実行して上記各タンパク質結合部位予測方法の実施例におけるステップを実現した時、予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップでタンパク質配列に対し配列を分割することで、タンパク質配列を構成する複数のアミノ酸子配列を得、得られた複数のアミノ酸子配列に基づきタンパク質配列の単語ベクトルを構築し、単語ベクトルの単語要素が各アミノ酸子配列を表現し、単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築し、単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づきタンパク質配列の生物学的特徴ベクトルを構築し、あらかじめ設定されたアミノ酸残基分類モデルを用いてドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類してタンパク質配列のアミノ酸残基カテゴリを得ることで、タンパク質結合部位の予測精度及び汎用性を高める。前記計算設備4内のプロセッサ40がコンピュータプログラム42を実行した時、実現するステップは、実施例1内の方法の説明を参照にできるため、ここでその説明を省略する。
【実施例5】
【0058】
本発明の実施例において、コンピュータ読み取り可能な記録媒体を提供し、前記コンピュータ読み取り可能な記録媒体にはコンピュータプログラムを保存しており、前記コンピュータプログラムがプロセッサで実行された時、前記タンパク質結合部位予測方法の実施例におけるステップ(例えば、図1に示すステップS101〜S104である)を実現し、又は前記コンピュータプログラムがプロセッサで実行された時、上記各装置の実施例における各手段の機能を実現し、例えば図2に示す手段21〜24、図3に示す手段31〜38の機能である。
【0059】
本発明の実施例において、予測対象タンパク質配列を受け取り、あらかじめ設定されるスライディングウィンドウ及びスライディングステップでタンパク質配列に対し配列を分割することで、タンパク質配列を構成する複数のアミノ酸子配列を得、得られた複数のアミノ酸子配列に基づきタンパク質配列の単語ベクトルを構築し、単語ベクトルの単語要素が各アミノ酸子配列を表現し、単語要素に対しドキュメント特徴を抽出し、抽出されたドキュメント特徴に基づきタンパク質配列のドキュメント特徴ベクトルを構築し、単語要素で表現されるアミノ酸子配列に対しタンパク質チェインの生物学的特徴を抽出し、抽出された生物学的特徴に基づきタンパク質配列の生物学的特徴ベクトルを構築し、あらかじめ設定されたアミノ酸残基分類モデルを用いてドキュメント特徴ベクトル及び生物学的特徴ベクトルを分類してタンパク質配列のアミノ酸残基カテゴリを得ることで、タンパク質結合部位の予測精度及び汎用性を高める。前記コンピュータプログラムがプロセッサで実行された時、前記タンパク質結合部位予測方法は、コンピュータプログラムがプロセッサで実行された時、実現するタンパク質結合部位予測方法は、前記方法の実施例における方法の説明を参照にできるため、ここでその説明を省略する。
【0060】
本発明の実施例に係るコンピュータ読み取り可能な記録媒体は、コンピュータプログラムコードを携帯できるいずれかの実体或いは装置、記録媒体とすることができ、例えばROM/RAM、ディスク、光ディスク、フラッシュメモリ等のメモリである。
【0061】
本発明では好ましい実施例を前述の通り開示したが、これらは決して本発明を限定するものではなく、本発明の精神と領域を脱しない均等の範囲内で各種の変更や修飾を加えることは、本発明の特許保護範囲内に含めるものであるのは勿論である。
図1
図2
図3
図4
【国際調査報告】