IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2024-15456情報処理装置、情報処理方法、及びプログラム
<>
  • 特開-情報処理装置、情報処理方法、及びプログラム 図1
  • 特開-情報処理装置、情報処理方法、及びプログラム 図2
  • 特開-情報処理装置、情報処理方法、及びプログラム 図3
  • 特開-情報処理装置、情報処理方法、及びプログラム 図4
  • 特開-情報処理装置、情報処理方法、及びプログラム 図5
  • 特開-情報処理装置、情報処理方法、及びプログラム 図6
  • 特開-情報処理装置、情報処理方法、及びプログラム 図7
  • 特開-情報処理装置、情報処理方法、及びプログラム 図8
  • 特開-情報処理装置、情報処理方法、及びプログラム 図9
  • 特開-情報処理装置、情報処理方法、及びプログラム 図10
  • 特開-情報処理装置、情報処理方法、及びプログラム 図11
  • 特開-情報処理装置、情報処理方法、及びプログラム 図12
  • 特開-情報処理装置、情報処理方法、及びプログラム 図13
  • 特開-情報処理装置、情報処理方法、及びプログラム 図14
  • 特開-情報処理装置、情報処理方法、及びプログラム 図15
  • 特開-情報処理装置、情報処理方法、及びプログラム 図16
  • 特開-情報処理装置、情報処理方法、及びプログラム 図17
  • 特開-情報処理装置、情報処理方法、及びプログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024015456
(43)【公開日】2024-02-02
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G16B 40/00 20190101AFI20240126BHJP
【FI】
G16B40/00
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2020202081
(22)【出願日】2020-12-04
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100104215
【弁理士】
【氏名又は名称】大森 純一
(74)【代理人】
【識別番号】100196575
【弁理士】
【氏名又は名称】高橋 満
(74)【代理人】
【識別番号】100168181
【弁理士】
【氏名又は名称】中村 哲平
(74)【代理人】
【識別番号】100160989
【弁理士】
【氏名又は名称】関根 正好
(74)【代理人】
【識別番号】100117330
【弁理士】
【氏名又は名称】折居 章
(74)【代理人】
【識別番号】100168745
【弁理士】
【氏名又は名称】金子 彩子
(74)【代理人】
【識別番号】100176131
【弁理士】
【氏名又は名称】金山 慎太郎
(74)【代理人】
【識別番号】100197398
【弁理士】
【氏名又は名称】千葉 絢子
(74)【代理人】
【識別番号】100197619
【弁理士】
【氏名又は名称】白鹿 智久
(72)【発明者】
【氏名】河田 諭志
(72)【発明者】
【氏名】櫻井 裕大
(57)【要約】      (修正有)
【課題】タンパク質に関する情報を高い精度で予測することを可能とする情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】情報処理装置4において、取得部5は、配列情報DB3に格納された、ゲノム配列に関する配列情報を取得する。反転部6は、前記配列情報に基づいて、配列が反転された反転情報を生成する。生成部7は、反転情報を用いた任意の生成方法(アルゴリズム)によりタンパク質情報2を生成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
ゲノム配列に関する配列情報を取得する取得部と、
前記配列情報に基づいて、配列が反転された反転情報を生成する反転部と、
前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する生成部と
を具備する情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記配列情報は、アミノ酸の配列、DNAの配列、又はRNAの配列の少なくとも1つに関する情報である
情報処理装置。
【請求項3】
請求項1に記載の情報処理装置であって、
前記生成部は、
前記配列情報に基づいて、第1のタンパク質情報を予測する第1の予測部と、
前記反転情報に基づいて、第2のタンパク質情報を予測する第2の予測部と、
前記第1のタンパク質情報と、前記第2のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部と
を有する
情報処理装置。
【請求項4】
請求項1に記載の情報処理装置であって、
前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含む
情報処理装置。
【請求項5】
請求項4に記載の情報処理装置であって、
前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも1つを含む
情報処理装置。
【請求項6】
請求項3に記載の情報処理装置であって、
前記統合部は、前記第1のタンパク質情報、及び前記第2のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測する
情報処理装置。
【請求項7】
請求項6に記載の情報処理装置であって、
前記第1の予測部は、前記配列情報を入力として機械学習を実行することで、前記第1のタンパク質情報を予測し、
前記第2の予測部は、前記反転情報を入力として機械学習を実行することで、前記第2のタンパク質情報を予測する
情報処理装置。
【請求項8】
請求項7に記載の情報処理装置であって、
前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第1のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含む
情報処理装置。
【請求項9】
請求項8に記載の情報処理装置であって、
前記第1の予測部は、前記学習用の前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含み、
前記第1の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
情報処理装置。
【請求項10】
請求項8に記載の情報処理装置であって、
前記第2の予測部は、前記学習用の前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含み、
前記第2の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
情報処理装置。
【請求項11】
請求項3に記載の情報処理装置であって、さらに、
前記配列情報に基づいて特徴量を算出する特徴量算出部を具備し、
前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成する
情報処理装置。
【請求項12】
請求項11に記載の情報処理装置であって、
前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、
前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、
前記第2の予測部は、前記反転情報と、前記第1の特徴量とに基づいて、前記第2のタンパク質情報を予測する
情報処理装置。
【請求項13】
請求項11に記載の情報処理装置であって、
前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、前記反転情報に基づいて第2の特徴量を算出し、
前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、
前記第2の予測部は、前記反転情報と、前記第2の特徴量とに基づいて、前記第2のタンパク質情報を予測する
情報処理装置。
【請求項14】
請求項12に記載の情報処理装置であって、
前記第1の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含む
情報処理装置。
【請求項15】
請求項12に記載の情報処理装置であって、
前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含む
情報処理装置。
【請求項16】
請求項13に記載の情報処理装置であって、
前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第2の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含む
情報処理装置。
【請求項17】
請求項11に記載の情報処理装置であって、
前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも1つを含む
情報処理装置。
【請求項18】
請求項2に記載の情報処理装置であって、
前記配列情報は、前記タンパク質を構成するアミノ酸残基のN末端側からの結合順を示す情報であり、
前記反転情報は、前記タンパク質を構成するアミノ酸残基のC末端側からの結合順を示す情報である
情報処理装置。
【請求項19】
ゲノム配列に関する配列情報を取得し、
前記配列情報に基づいて、配列が反転された反転情報を生成し、
前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測する
ことをコンピュータシステムが実行する情報処理方法。
【請求項20】
ゲノム配列に関する配列情報を取得するステップと、
前記配列情報に基づいて、配列が反転された反転情報を生成するステップと、
前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測するステップと
をコンピュータシステムに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、タンパク質の立体構造の予測等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、タンパク質を構成するアミノ酸残基間の距離を示す距離マップを予測するための機械学習アルゴリズムについて開示されている。この機械学習アルゴリズムでは、タンパク質に含まれるアミノ酸の配列と、アミノ酸配列の特徴量とを入力としてニューラルネットワークにより距離マップが予測され、出力される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2020/058176号
【発明の概要】
【発明が解決しようとする課題】
【0004】
タンパク質の立体構造等を、高い精度で予測することが可能な技術が求められている。
【0005】
以上のような事情に鑑み、本技術の目的は、タンパク質に関する情報を高い精度で予測することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。
【0006】
上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、反転部と、生成部とを具備する。
前記取得部は、ゲノム配列に関する配列情報を取得する。
前記反転部は、前記配列情報に基づいて、配列が反転された反転情報を生成する。
前記生成部は、前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する。
【0007】
この情報処理装置では、取得部により、ゲノム配列に関する配列情報が取得される。また、反転部により、配列情報に基づいて、配列が反転された反転情報が生成される。また、生成部により、反転情報に基づいて、タンパク質に関するタンパク質情報が生成される。これにより、タンパク質に関する情報を高い精度で予測することが可能となる。
【0008】
前記配列情報は、アミノ酸の配列、DNAの配列、又はRNAの配列の少なくとも1つに関する情報であってもよい。
【0009】
前記生成部は、前記配列情報に基づいて、第1のタンパク質情報を予測する第1の予測部と、前記反転情報に基づいて、第2のタンパク質情報を予測する第2の予測部と、前記第1のタンパク質情報と、前記第2のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部とを有してもよい。
【0010】
前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含んでもよい。
【0011】
前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも1つを含んでもよい。
【0012】
前記統合部は、前記第1のタンパク質情報、及び前記第2のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測してもよい。
【0013】
前記第1の予測部は、前記配列情報を入力として機械学習を実行することで、前記第1のタンパク質情報を予測し、前記第2の予測部は、前記反転情報を入力として機械学習を実行することで、前記第2のタンパク質情報を予測してもよい。
【0014】
前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第1のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含んでもよい。
【0015】
前記第1の予測部は、前記学習用の前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含んでもよい。この場合、前記第1の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習されてもよい。
【0016】
前記第2の予測部は、前記学習用の前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含んでもよい。この場合、前記第2の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習されてもよい。
【0017】
前記情報処理装置は、さらに、前記配列情報に基づいて特徴量を算出する特徴量算出部を具備してもよい。この場合、前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成してもよい。
【0018】
前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、前記第2の予測部は、前記反転情報と、前記第1の特徴量とに基づいて、前記第2のタンパク質情報を予測してもよい。
【0019】
前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、前記反転情報に基づいて第2の特徴量を算出し、前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、前記第2の予測部は、前記反転情報と、前記第2の特徴量とに基づいて、前記第2のタンパク質情報を予測してもよい。
【0020】
前記第1の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含んでもよい。
【0021】
前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含んでもよい。
【0022】
前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第2の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含んでもよい。
【0023】
前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも1つを含んでもよい。
【0024】
前記配列情報は、前記タンパク質を構成するアミノ酸残基のN末端側からの結合順を示す情報であり、前記反転情報は、前記タンパク質を構成するアミノ酸残基のC末端側からの結合順を示す情報であってもよい。
【0025】
本技術の一形態に係る情報処理方法は、コンピュータシステムが実行する情報処理方法であって、ゲノム配列に関する配列情報を取得することを含む。
前記配列情報に基づいて、配列が反転された反転情報が生成される。
前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報が予測される。
【0026】
本発明の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
ゲノム配列に関する配列情報を取得するステップ。
前記配列情報に基づいて、配列が反転された反転情報を生成するステップ。
前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測するステップ。
【図面の簡単な説明】
【0027】
図1】本技術の一実施形態に係るタンパク質解析システムの構成例を示す模式図である。
図2】タンパク質解析システムによる、タンパク質情報の生成例を示すフローチャートである。
図3】配列情報の一例を示す模式図である。
図4】反転情報について説明するための模式図である。
図5】タンパク質情報について説明するための模式図である。
図6】第1の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。
図7】第1の予測部における機械学習モデルの一例を示す模式図である。
図8】第1の予測部における教師データを用いた機械学習モデルの学習を説明するための模式図である。
図9】第2の予測部における機械学習モデルの一例を示す模式図である。
図10】統合部における機械学習モデルの一例を示す模式図である。
図11】統合部における機械学習モデルの学習を説明するための模式図である。
図12】タンパク質情報の誤差について説明するための模式図である。
図13】第2の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。
図14】特徴量の算出について説明するための模式図である。
図15】第1の予測部における機械学習モデルの一例を示す模式図である。
図16】第1の予測部における教師データを用いた機械学習モデルの学習を説明するための模式図である。
図17】第3の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。
図18】情報処理装置を実現可能なコンピュータのハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【0028】
以下、本技術に係る実施形態を、図面を参照しながら説明する。
【0029】
[タンパク質解析システム]
図1は、本技術の一実施形態に係るタンパク質解析システムの構成例を示す模式図である。
図2は、タンパク質解析システムによる、タンパク質情報の生成例を示すフローチャートである。
タンパク質解析システムは、本技術に係る情報処理システムの一実施形態に相当する。
【0030】
タンパク質解析システム100は、ゲノム配列に関する配列情報1を取得し、取得した配列情報1に基づいて、タンパク質情報2を生成することが可能である。
本実施形態では、ゲノム配列に関する配列情報1として、アミノ酸の配列、DNA(デオキシリボ核酸)の配列、又はRNA(リボ核酸)の配列の少なくとも1つに関する情報が取得される。もちろんこれに限定されず、ゲノム配列に関する任意の配列情報1が取得されてよい。
タンパク質情報2とは、タンパク質に関する任意の情報を含む。本実施形態では、タンパク質情報2として、タンパク質の構造、又はタンパク質の機能の少なくとも一方に関する情報が生成される。その他、タンパク質に関する任意の情報が生成されてよい。
本タンパク質解析システム100を用いることで、例えば、アミノ酸の配列のみが分かっているタンパク質について、タンパク質の構造や機能を予測することが可能となる。
【0031】
図1に示すように、タンパク質解析システム100は、配列情報DB(データベース)3と、情報処理装置4とを有する。
配列情報DB3には、配列情報1が格納される。例えば、ユーザ(オペレータ)等により配列情報DB3に配列情報1が登録されてもよい。あるいは、ネットワーク等を介して自動的に配列情報1が収集されてもよい。
配列情報DB3は、例えばHDD、フラッシュメモリ等の記憶デバイスにより構成される。
図1に示す例では、情報処理装置4の外部の記憶デバイスにより配列情報DB3が構築されている。これに限定されず、配列情報DB3が、情報処理装置4に備えられた記憶デバイスにより構築されてもよい。この場合、当該記憶デバイスも含めて、情報処理装置4の一実施形態として機能する。
【0032】
情報処理装置4は、例えばCPUやGPU、DSP等のプロセッサ、ROMやRAM等のメモリ、HDD等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する(図18参照)。
例えばCPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
例えばPC(Personal Computer)等の任意のコンピュータにより、情報処理装置4を実現することが可能である。もちろんFPGA、ASIC等のハードウェアが用いられてもよい。
本実施形態では、CPU等が所定のプログラムを実行することで、機能ブロックとしての取得部5、反転部6、及び生成部7が構成される。もちろん機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
プログラムは、例えば種々の記録媒体を介して情報処理装置4にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。
プログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば、コンピュータが読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
【0033】
取得部5は、ゲノム配列に関する配列情報1を取得する。本実施形態では、取得部5により、配列情報DB3に格納された配列情報1が取得される。
反転部6は、配列情報1に基づいて、配列が反転された反転情報を生成する。
生成部7は、反転情報に基づいて、タンパク質に関するタンパク質情報2を生成する。なお、反転情報に基づいたタンパク質情報2の生成は、反転情報を用いた任意の生成方法(アルゴリズム)によるタンパク質情報2の生成を含む。
【0034】
[配列情報]
図2に示すように、取得部5により、ゲノム配列に関する配列情報1が取得される(ステップ101)。
図3は、配列情報1の一例を示す模式図である。
本実施形態では、配列情報1として、アミノ酸の配列が取得される。例えば図3に示すような、タンパク質を構成するアミノ酸の配列をアルファベットで表記した文字列が、取得部5により取得される。
【0035】
タンパク質の構造は、アミノ酸残基の配列で表現することが可能である。しかしながら一般に、機能を持ったタンパク質は、数十~数千個ものアミノ酸残基により構成されており、それらのアミノ酸残基を示性式等で表記すると、非常に冗長になってしまう。
そこで、簡潔にアミノ酸残基の配列を表記するために、アルファベット1文字によりアミノ酸残基の種類を表現する方法がしばしば用いられる。例えばグリシン残基は「G」、アラニン残基は「A」で表記される。その他、22種類のアミノ酸残基の各々が、アルファベット1文字により表現される。
本実施形態では、このようなアルファベットの文字列が、アミノ酸の配列として取得部5により取得される。なお、このようなアミノ酸残基の配列を表現したアルファベットの文字列は、一次構造と呼ばれる。
【0036】
アルファベットによりアミノ酸残基の配列が表現される場合には、通常タンパク質のN末端からC末端に向かうように、アミノ酸残基が順番に記述される。
図3に示すように、本実施形態において、配列情報1は、タンパク質を構成するアミノ酸残基のN末端側からの結合順を示す情報となる。
なお、配列情報1の両端に記述された「N」及び「C」は、N末端及びC末端に相当する残基の位置を示している。
例えば、配列情報1の左端に記述されている「S」は、セリン残基を示すアルファベットである。図3に示すように、セリン残基は、N末端に相当する残基である。
また、左端から2番目の位置に記述されている「Q」は、グルタミン残基を示すアルファベットである。
また、右端に記述されている「E」は、グルタミン酸残基を示すアルファベットである。図3に示すように、グルタミン酸残基は、C末端に相当する残基である。
従って、図3に示す配列情報1は、残基がセリン残基、グルタミン残基、・・・、グルタミン酸残基の順に並べられた配列を示している。
本実施形態では、このようにして表現されたアミノ酸の配列が、取得部5により取得される。
もちろん、アミノ酸の配列を表現する方法はアルファベットの文字列に限定されない。例えば、アミノ酸の配列が構造式や示性式等で表された情報が、配列情報1として取得されてもよい。
【0037】
配列情報1として、DNAの配列が取得される場合、例えばDNA分子の塩基配列が取得される。
DNAを構成する塩基としては、アデニン、グアニン、シトシン、チミンの4種類の物質が存在する。4種類の物質の結合順のことを、塩基配列という。
各々の塩基は、しばしばアルファベット1文字の略称で表される。例えばアデニンは「A」で表される。同様に、グアニンは「G」、シトシンは「C」、チミンは「T」で表される。
例えば、取得部5により、塩基配列がアルファベットの文字列で表現されたDNAの配列が、配列情報1として取得される。
もちろん、DNA分子の構造式や示性式等が、DNAの配列として取得されてもよい。
【0038】
配列情報1として、RNAの配列が取得される場合、RNA分子の塩基配列が取得されてもよい。
RNAを構成する塩基としては、アデニン、グアニン、シトシン、ウラシルの4種類の物質が存在する。
各々の塩基は、しばしばアルファベット1文字の略称で表される。DNAの塩基配列を表す場合と同様に、アデニンは「A」、グアニンは「G」、シトシンは「C」で表される。また、ウラシルは「U」で表される。
例えば、取得部5により、塩基配列がアルファベットの文字列で表現されたRNAの配列が、配列情報1として取得される。
もちろん、RNA分子の構造式や示性式等が、RNAの配列として取得されてもよい。
【0039】
生体内では、タンパク質はDNA配列に基づいて生成される。具体的には、DNAが転写されてRNAが生成される。RNAが翻訳されてアミノ酸が生成される。そして、各々のアミノ酸の結合によりタンパク質が生成される。
すなわち、DNAの配列、RNAの配列、及びアミノ酸の配列は、互いに関連付けられた情報となる。
【0040】
本実施形態では、取得部5により、ゲノム配列に関する配列情報1が取得される。
ゲノム配列とは、DNAの塩基配列、及びRNAの塩基配列を意味する言葉である。従って、DNAの配列及びRNAの配列は、ゲノム配列に関する配列情報1に含まれる。
また、アミノ酸の配列は、DNAの配列やRNAの配列に基づいて生成される配列である。従ってアミノ酸の配列も、ゲノム配列に関する配列情報1に含まれる。
その他、配列情報1として取得される情報は限定されず、ゲノム配列に関する任意の情報が取得されてよい。
【0041】
本開示において、情報の取得は、当該情報を生成することを含む。従って、取得部5により、配列情報1が生成される場合もあり得る。
もちろん、取得部5による配列情報1の生成方法は限定されない。
【0042】
[反転情報]
図2に示すように、反転部6により、配列情報1に基づいて、配列が反転された反転情報が生成される(ステップ102)。
図4は、反転情報について説明するための模式図である。
図4には、配列情報1、及び反転部6により生成される反転情報10の一例が示されている。
【0043】
図4に示すように、反転情報10は、配列情報1の配列が反転された情報となる。具体的には、アミノ酸残基の配列を示すアルファベットの並び順を逆にした情報が、反転情報10として生成される。
例えば配列情報1の右端に位置する「E」が、反転情報10の左端に位置する。また、配列情報1の右端から2番目に位置する「C」が、反転情報10の左端から2番目に位置する。また、配列情報1の左端に位置する「S」は、反転情報10の右端に位置する。
このように、反転部6により、配列情報1におけるアルファベットの並び順を逆にする処理が実行され、反転情報10が生成される。
従って、反転情報10は、配列情報1のC末端側からの結合順を示す情報となる。
【0044】
[タンパク質情報]
図2に示すように、生成部7により、反転情報10に基づいて、タンパク質に関するタンパク質情報2が生成される(ステップ103)。
図5は、タンパク質情報2について説明するための模式図である。
図5に示すように、反転部6により生成された反転情報10に基づいて、生成部7により、タンパク質情報2が生成される。
図5には、生成されるタンパク質情報2の一例として、三次構造13、コンタクトマップ14、及び距離マップ15を表す模式図が示されている。
【0045】
アミノ酸同士の結合によってタンパク質が生成されると、タンパク質はアミノ酸の配列に応じて折りたたまれ、固有の立体的な構造を持った状態となる。このような、タンパク質が取る三次元的な構造を、三次構造13という。
なお、タンパク質の折りたたみのことを、フォールディングと呼称する場合がある。
アミノ酸の配列(一次構造)は、タンパク質を構成するアミノ酸の単なる結合順を示す情報である。一方で三次構造13は、タンパク質がどのように折りたたまれているか、全体としてどのような形状を有しているか、といった情報を含む。
【0046】
三次構造13は、例えば各々のアミノ酸残基の三次元座標により規定することが可能である。
例えばタンパク質を構成するアミノ酸残基のうち、ある1つのアミノ酸残基の座標を基準として、各々のアミノ酸残基の相対的な座標が規定される。もちろん、各アミノ酸残基の三次元座標を規定するための方法は限定されず、任意に設定されてよい。
例えば、直交座標系や極座標系等の任意の座標系が用いられてもよい。また、タンパク質を構成する各々の原子や分子、官能基等の三次元座標が、三次構造13として生成されてもよい。
また、三次構造13として、三次元座標以外の情報が生成されてもよい。例えば、タンパク質の折りたたみ位置や、折りたたみの角度といった情報が生成されてもよい。その他、タンパク質が取る三次元構造を示すことが可能な任意の情報が三次構造13として用いられてよい。
【0047】
コンタクトマップ14は、タンパク質を構成するアミノ酸残基間の結合を示す情報である。すなわち、コンタクトマップ14は、残基同士の結合の有無を示したマップである。例えば、コンタクトマップ14として、二次元の正方形のマップが用いられる。
マップの縦軸及び横軸には、残基番号が割り当てられる。残基番号とは、アミノ酸残基がタンパク質において何番目に結合しているかを表す番号である。
例えば図3に示すような配列情報1を持つタンパク質においては、配列の左端に位置する「S」、すなわちセリン残基が、残基番号1番の残基に相当する。また、左端から2番目に位置する「Q」、すなわちグルタミン残基は、残基番号2番の残基に相当する。このように、配列情報1において左側に位置する残基から順に、残基番号が割り振られる。
【0048】
ある2つのアミノ酸残基が結合している場合には、当該2つの残基番号に相当する位置のマップ上の点が、白色で表される。結合していない場合には、黒色で表される。
例えば、残基番号80番のアミノ酸残基と、残基番号150番のアミノ酸残基とが結合している場合には、縦軸上の80番の位置と横軸上の150番の位置とが交差するマップ上の点が、白色で表示される。
この場合、縦軸上の150番の位置及び横軸上の80番の位置が交差するマップ上の点も、同様に白色で表示される。従って、コンタクトマップ14は対角線(縦軸と横軸の残基番号が一致するような点の集合)に対して対称なマップとなる。
なお、結合状態を表現するための色等は限定されない。例えば白及び黒以外の色で結合状態が表現されてもよい。
【0049】
コンタクトマップ14は、残基同士の結合状態を、全ての残基の組み合わせについて示したマップとなる。
コンタクトマップ14により、タンパク質がどのように折れ曲がっているか等の、タンパク質の三次元構造を推定することが可能である。
例えば、コンタクトマップ14から、80番の残基と150番の残基とが結合しているという情報が得られたとする。しかし、80番の残基及び150番の残基は、配列上は離れた位置に存在しているため、ペプチド結合による結合は、なされていない。
このことから、80番の残基と150番の残基との間の、いずれかの位置でタンパク質が折れ曲がり、イオン結合等により残基が結合していると考えることができる。このように、コンタクトマップ14から、タンパク質がどのように折れ曲がっているか等の、三次元構造を推定することが可能となる。
コンタクトマップ14は、本技術に係るタンパク質情報の一実施形態に相当する。
【0050】
距離マップ15は、アミノ酸残基間の距離を示すマップである。例えば距離マップ15として、コンタクトマップ14と同様に二次元の正方形のマップが用いられる。
また、コンタクトマップ14と同様に、マップの縦軸及び横軸には、残基番号が割り当てられる。
【0051】
例えば、距離マップ15では、2つのアミノ酸残基間の距離がモノクロ色の明度で表現される。
アミノ酸残基間の距離は、距離が近いほど、明度が高いモノクロ色で表現される。例えばアミノ酸残基間の距離が近い状態は、白色に近い色で表現される。一方、例えばアミノ酸残基間の距離が遠い状態は、黒色に近い色で表現される。
なお、アミノ酸残基間の距離を表現する方法は限定されない。例えば、カラー色の明度、彩度、及び色相等により距離が表現されてもよい。
距離マップ15は、コンタクトマップ14と同様に、対角線に対して対称なマップとなる。
【0052】
距離マップ15はアミノ酸残基間の距離を、全ての残基の組み合わせについて示したマップとなる。
コンタクトマップ14と同様に、距離マップ15により、タンパク質の三次元構造を推定することが可能である。
距離マップ15は、本技術に係るタンパク質情報の一実施形態に相当する。
【0053】
本実施形態では、タンパク質情報2として、タンパク質の構造、又はタンパク質の機能の少なくとも一方が生成される。
タンパク質の構造とは、タンパク質を構成する、部分的な要素の配置や関係のことである。例えば、上記したような残基の三次元座標や、タンパク質の折りたたみ位置や角度といった情報が、タンパク質の構造に該当する。またタンパク質の構造として、水素結合やイオン結合等の、各々の結合が位置する座標が生成されてもよい。その他、タンパク質の構造として生成される情報は限定されない。
図5に示す三次構造13、コンタクトマップ14、距離マップ15は、タンパク質の構造に関する情報に含まれる。
【0054】
タンパク質の機能とは、例えば生体内でタンパク質が有する機能である。
タンパク質の機能には、例えば体を動かす収縮機能、栄養や酸素を運ぶ運搬機能、及び免疫機能等が該当する。その他、タンパク質の機能として生成される情報は限定されない。
なお、タンパク質の機能が、タンパク質の構造に起因して現れる場合もある。例えば、免疫機能を持つ抗体のタンパク質はY字型の形状を有しており、2本の腕の部分に異物を捉えることが知られている。このように、タンパク質の構造の生成に伴って、タンパク質の機能が明らかになる場合もある。
【0055】
その他、タンパク質解析システム100により生成されるタンパク質情報2は限定されず、タンパク質に関する任意の情報が生成されてよい。
生成部7により生成されたタンパク質情報2は、例えば情報処理装置4内の記憶デバイスに記憶される。また、例えば情報処理装置4の外部の記憶デバイスにデータベースが構築され、タンパク質情報が当該データベースに対して出力されてもよい。その他、生成されたタンパク質情報2の出力方法及び記憶方法等は限定されない。
【0056】
図1図5を用いて、アミノ酸の配列、アミノ酸の配列の反転、及び反転されたアミノ酸の配列に基づくタンパク質情報2の生成等について説明したが、一連の処理は配列情報1がアミノ酸の配列である場合に限定されず、実行することが可能である。
例えば、配列情報1がDNAの配列である場合には、「GAATTC」のように表現されたDNAの塩基配列が、反転部6により同様の処理で反転される。さらに、反転された文字列に基づいて、生成部7によりタンパク質情報2が生成される。
また、配列情報1がRNAの配列である場合にも、同様の処理で反転部6による反転、及び生成部7による生成が実行される。
【0057】
また、配列情報1がDNAの配列やRNAの配列である場合に、一連の処理に、塩基配列の翻訳に相当する処理が含まれてもよい。
この場合、例えば、情報処理装置4が図示しない翻訳部を有し、まず翻訳部により塩基配列の翻訳に相当する処理が実行される。例えば配列情報1がDNAの配列である場合には、DNAの塩基配列上でチミン(T)だった部分をウラシル(U)に置き換え、RNAの塩基配列を生成する処理が実行される。また、遺伝暗号表に基づき、RNAの3つ分の塩基配列を1つのアミノ酸に翻訳し、アミノ酸の配列を生成する処理が実行されてもよい。
このようにして生成されたアミノ酸の配列に基づいて、反転部6による反転情報10の生成や、生成部7によるタンパク質情報2の生成が実行される。
もちろん、翻訳に相当する処理が含まれずに、直接タンパク質情報2が生成されてもよい。すなわち、アミノ酸の配列の生成を経由せずに、DNAの配列やRNAの配列から直接タンパク質情報2が生成されてもよい。
【0058】
<第1の実施形態>
図1に示すタンパク質解析システム100の詳細について、第1の実施形態を説明する。
図6は、第1の実施形態における、情報処理装置4の機能的な構成例を示すブロック図である。
図6に示すように、情報処理装置4は、取得部5、反転部6、第1の予測部18、第2の予測部19及び統合部20を有する。
図6に示す各機能ブロックは、プロセッサが本技術に係るアプリケーションプログラム等を実行することで実現される。もちろん機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
【0059】
図6に示すように、本実施形態では、第1の予測部18により、第1のコンタクトマップ21が予測される。また、第2の予測部19により、第2のコンタクトマップ22が予測される。さらに、統合部20により、第1のコンタクトマップ21及び第2のコンタクトマップ22が統合されることで、最終的なタンパク質情報2としてのコンタクトマップ14が生成される。
【0060】
取得部5は、ゲノム配列に関する配列情報1を取得する。本実施形態では、配列情報1として、アミノ酸の配列を表すアルファベットの文字列が取得される。
反転部6は、配列情報1に基づいて、配列が反転された反転情報10を生成する。
【0061】
第1の予測部18は、配列情報1に基づいて、第1のタンパク質情報を予測する。
本実施形態では、第1のタンパク質情報として、第1のコンタクトマップ21が予測される。
【0062】
第1のコンタクトマップ21を予測するために、任意のアルゴリズムが用いられてもよい。すなわち、配列情報1を入力、第1のコンタクトマップ21を出力とした、任意の予測処理が実行されてよい。
予測のためのアルゴリズムは、例えばタンパク質の構造予測における既知の手法を参酌して作成することが可能である。例えば、配列情報1から、タンパク質の一部の構造や機能を推定する手法が確立されている場合に、推定のための手順に相当する処理がアルゴリズムに組み込まれる。具体的には、推定のための数値計算等の処理が、アルゴリズムに組み込まれる。
例えば、X線結晶構造解析法、核磁気共鳴法等の、タンパク質の構造予測における既知の手法が参酌され、アルゴリズムが作成されてもよい。
【0063】
本実施形態では、機械学習アルゴリズムが用いられて、第1のコンタクトマップ21が予測される。すなわち、第1の予測部18は、配列情報1を入力として機械学習を実行することで、第1のコンタクトマップ21を予測する。
【0064】
第2の予測部19は、反転情報10に基づいて、第2のタンパク質情報を予測する。
本実施形態では、第2のタンパク質情報として、第2のコンタクトマップ22が予測される。
図6に示すように、本実施形態では、反転部6により生成された反転情報10が、第2の予測部19に出力される。第2の予測部19は、反転情報10に基づいて、第2のコンタクトマップ22を予測する。
【0065】
第2のコンタクトマップ22を予測するために、任意のアルゴリズムが用いられてもよい。すなわち、反転情報10を入力、第2のコンタクトマップ22を出力とした、任意の予測処理が実行されてよい。
【0066】
本実施形態では、機械学習アルゴリズムが用いられて、第2のコンタクトマップ22が予測される。すなわち、第2の予測部19は、反転情報10を入力として機械学習を実行することで、第2のコンタクトマップ21を予測する。
なお、第1の予測部18による第1のコンタクトマップ21の予測、及び第2の予測部19による第2のコンタクトマップ22の予測の各々を実行するために、同じアルゴリズムが用いられてもよいし、異なるアルゴリズムが用いられてもよい。
【0067】
統合部20は、第1のコンタクトマップ21と、第2のコンタクトマップ22とを統合することで、統合コンタクトマップ23を生成する。
図6に示すように、第1の予測部18により予測された第1のコンタクトマップ21が、統合部20に対して出力される。同様に、第2の予測部19により予測された第2のコンタクトマップ22が、統合部20に対して出力される。統合部20が第1のコンタクトマップ21及び第2のコンタクトマップ22を受け取ると、第1のコンタクトマップ21及び第2のコンタクトマップ22の統合が実行され、統合コンタクトマップ23が生成される。
【0068】
統合コンタクトマップ23を生成するために、任意のアルゴリズムが用いられてよい。すなわち、第1のコンタクトマップ21及び第2のコンタクトマップ22を入力、統合コンタクトマップ23を出力とした、任意の統合処理が実行されてよい。
例えば、第1のコンタクトマップ21の一部の情報と、第2のコンタクトマップ22の一部の情報とが統合されることで、統合コンタクトマップ23が生成されてもよい。
例えば、残基番号が1番から100番までの範囲となる第1のコンタクトマップ21及び第2のコンタクトマップ22がそれぞれ予測されたとする。残基番号が1番から50番までの第1のコンタクトマップ21の情報と、前記番号が51番から100番までの第2のコンタクトマップ22の情報とが統合され、統合コンタクトマップ23が生成されてもよい。
なお、第1のコンタクトマップ21や第2のコンタクトマップ22の一部が画像データとして扱われることで、抽出及び統合の処理が実行されてもよい。また第1のコンタクトマップ21や第2のコンタクトマップ22の一部が数値データ(例えば座標及び白色/黒色を表す数値が関連付けられたデータ)として扱われることで、処理が実行されてもよい。
例えば統合部20のアルゴリズムは、第1の予測部18や第2の予測部19のアルゴリズムと同様に、タンパク質の構造予測における既知の手法を参酌して作成することが可能である。
例えばタンパク質の構造予測における既知の手法を参酌して、統合コンタクトマップ23が実際のコンタクトマップ14に極力近くなるように、統合のアルゴリズムを作成することが可能である。
【0069】
本実施形態では、機械学習アルゴリズムが用いられて、統合コンタクトマップ23が予測される。すなわち、統合部20は、第1のコンタクトマップ21及び第2のコンタクトマップ22を入力として機械学習を実行することで、統合コンタクトマップ23を予測する。
【0070】
図6に示す例では、情報処理装置4によりコンタクトマップ14が生成されるが、もちろん図5に示すような三次構造13や、距離マップ15が生成されてもよい。
また、例えば三次構造13、コンタクトマップ14、及び距離マップ15のうちの複数が、タンパク質情報2として生成されてもよい。この場合、第1の予測部18や第2の予測部19により、三次構造13、コンタクトマップ14、及び距離マップ15のうちの複数の情報が予測されてもよい。
もちろん、第1の予測部18、第2の予測部19、及び統合部20により予測される情報は三次構造13、コンタクトマップ14、及び距離マップ15に限定されず、タンパク質に関する任意の情報が予測されてよい。
【0071】
また、配列情報1に基づいて第1のタンパク質情報を予測する第1の予測部18が複数構成されてもよい。同様に、反転情報10に基づいて第2のタンパク質情報を予測する第2の予測部19が複数構成されてもよい。
そして、複数の第1のタンパク質情報、及び複数の第2のタンパク質情報が統合されて、最終的なタンパク質情報2が生成されてもよい。
【0072】
図6を用いた説明では取得部5、反転部6、第1の予測部18、第2の予測部19、統合部20の順に各機能ブロックの動作を説明したが、情報処理装置4による統合コンタクトマップ23の生成処理に関する処理順はこの順番に限定されない。各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。
【0073】
本実施形態では、第1の予測部18、第2の予測部19、及び統合部20により、図1に示す生成部7が実現される。
また、第1の予測部18により第1のコンタクトマップ21が予測され、第2の予測部19により第2のコンタクトマップ22が予測され、統合部20により統合コンタクトマップ23が予測される一連の動作は、生成部7によるタンパク質情報2の生成に相当する。
このように、生成部7によるタンパク質情報2の生成には、第1の予測部18による第1のコンタクトマップ21の予測や、第2の予測部19による第2のコンタクトマップ22の予測や、統合部20による統合コンタクトマップ23の予測のような、タンパク質情報2の生成のための部分的な処理が含まれる。
もちろん、タンパク質情報2の生成のために、予測や統合以外の任意の処理が実行されてよい。
【0074】
[機械学習モデル]
本実施形態では、第1の予測部18、第2の予測部19、及び統合部20の各々が機械学習モデルを含み、機械学習により、予測及び統合が実行される。
図7は、第1の予測部18における機械学習モデルの一例を示す模式図である。
図8は、第1の予測部18における教師データを用いた機械学習モデルの学習を説明するための模式図である。
【0075】
第1の予測部18は、配列情報1を入力として機械学習を実行することで、第1のコンタクトマップ21を予測する。
図7には、機械学習モデルの例として、第1の予測部18に含まれる機械学習モデル26aが示されている。
図7に示すように、機械学習モデル26aには、配列情報1が入力される。例えば、アミノ酸の配列や、DNAの配列、RNAの配列のような配列情報1が、機械学習モデル26aに対して入力される。
本実施形態では、アミノ酸の配列を表すアルファベットの文字列が、機械学習モデル26aに入力される。
また、機械学習モデル26aにより、第1のコンタクトマップ21が予測される。
【0076】
機械学習モデル26aの学習のために、学習用データに教師ラベルが関連付けられた教師データが、学習部30に入力される。教師データは、入力に対して正解を予測する機械学習モデルを学習させるためのデータである。
図8に示すように、本実施形態では、学習用データとして、学習用の配列情報29が学習部30に対して入力される。
また、教師ラベルとして、コンタクトマップ14が学習部30に入力される。教師ラベルは、学習用の配列情報29に対応する正解(正解データ)である。
本実施形態では、学習用の配列情報29(学習用データ)に、コンタクトマップ14(教師ラベル)が関連付けられたデータが、本実施形態における教師データに相当する。
例えば、コンタクトマップ14が既知であるようなタンパク質が存在する場合に、当該既知のコンタクトマップ14が、教師ラベルとして用いられる。また、当該タンパク質に関する配列情報1が、学習用データとして用いられる。このように、既知のコンタクトマップ14と配列情報1とが関連付けられた教師データが複数用意され、学習のために用いられる。
【0077】
教師データを格納するために、例えば教師データDB(データベース)が構成される。
教師データDBには、複数の教師データが格納される。すなわち、学習用の配列情報29にコンタクトマップ14が関連付けられた、複数のデータが格納される。
また、図8に示す例では、教師ラベルが、ラベルDB31に格納されている。ラベルDB31は、例えば教師データDB内に構築される。
【0078】
教師データ(学習用データ及び教師ラベル)を保存するための構成や方法は限定されない。例えば、教師データDBやラベルDB31が情報処理装置4に含まれ、情報処理装置4により機械学習モデル26aの学習が実行されてもよい。もちろん、教師データDBやラベルDB31が、情報処理装置4の外部に構成されていてもよい。その他、任意の構成及び方法が採用されてよい。
【0079】
図8に示すように、学習用データと教師ラベルとが関連付けられ、教師データとして学習部30に入力される。
学習部30により、教師データが用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、正解(教師ラベル)を算出するためのパラメータ(係数)が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、機械学習モデル26aとして生成される。
【0080】
本実施形態では、第1の予測部18は、第1のコンタクトマップ21と、正解データとの誤差に基づいて学習された機械学習モデル26aを含む。すなわち、機械学習モデル26aは、予測された第1のコンタクトマップ21と、正解データとの誤差に基づいて学習される。このような学習の方法を、誤差逆伝播法という。
【0081】
誤差逆伝播法は、ニューラルネットワークの学習のために一般的に良く利用される学習手法である。ニューラルネットワークとは、元々人間の脳神経回路を模倣したモデルであり、入力層、中間層(隠れ層)、出力層の3種類の層からなる層構造を持ったモデルである。多数の中間層を持つニューラルネットワークは特にディープニューラルネットワークと呼ばれ、これを学習するためのディープラーニング技術は、大量データの中に潜んでいる複雑なパターンを学習できるモデルとして知られている。誤差逆伝播法はこのような学習手法の1つであり、例えば、画像や動画の認識に用いられる畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)などの学習に良く用いられる。
また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ/ニューロモーフィック・チップが用いられ得る。
【0082】
誤差逆伝播法は、出力と正解データとの誤差に基づいて、誤差が小さくなるように機械学習モデルのパラメータを調整するような学習の方法である。
もちろん、機械学習モデル26aを学習させるためのアルゴリズムは限定されず、任意の機械学習アルゴリズムが用いられてもよい。
学習部30により生成された機械学習モデル26aは、第1の予測部18に組み込まれる。そして、第1の予測部18により、第1のコンタクトマップ21の予測が実行される。
【0083】
第2の予測部19は、反転情報10を入力として機械学習を実行することで、第2のコンタクトマップ22を予測する。
図9は、第2の予測部19における機械学習モデルの一例を示す模式図である。
図9には、機械学習モデルの例として、第2の予測部19に含まれる機械学習モデル26bが示されている。
【0084】
図9に示すように、機械学習モデル26bには、反転情報10が入力される。本実施形態では、アミノ酸の配列を表すアルファベットの文字列の並び順を逆にした文字列が、反転情報10として入力される。反転情報10が入力されると、機械学習モデル26bにより、第2のコンタクトマップ22が予測される。
【0085】
機械学習モデル26aと同様に、任意の機械学習アルゴリズムにより、機械学習モデル26bを学習させることが可能である。
例えば図8と同様に、学習部に対して、学習用の反転情報が、学習用データとして入力される。また、学習部に対して、コンタクトマップ14が正解データとして入力される。
例えば、学習用の反転情報は、学習用の配列情報29を反転させることで生成される。例えば、学習用の配列情報29が反転部6に入力され、反転部6により、学習用の反転情報が生成されてもよい。
もちろん、あらかじめ学習用の反転情報が用意され、教師データDB等に格納されていてもよい。
正解データは、学習用の配列情報29と関連付けられている教師ラベルを用いることが可能である。
【0086】
学習部により、機械学習モデル26aと同様に誤差逆伝播法による学習が実行され、機械学習モデル26bが生成される。すなわち、機械学習モデル26bは、予測された第2のコンタクトマップ22と、正解データとの誤差に基づいて学習される。
もちろん、機械学習モデル26bに対する学習の方法としても、任意の方法(機械学習アルゴリズム)が採用されてよい。
【0087】
学習部により生成された機械学習モデル26bは、第2の予測部19に組み込まれる。そして、第2の予測部19により、第2のコンタクトマップ22の予測が実行される。
なお、図8に示す学習部30が情報処理装置4に含まれ、情報処理装置4により機械学習モデル26aの学習が実行されてもよい。
同様に、機械学習モデル26bの学習に用いられる学習部が情報処理装置4に含まれ、情報処理装置4により機械学習モデル26bの学習が実行されてもよい。
一方で、学習部30が情報処理装置4の外部に構成されてもよい。すなわち、あらかじめ情報処理装置4の外部で学習部30による学習が実行され、学習済みの機械学習モデルaのみが、第1の予測部18に組み込まれてもよい。
同様に、機械学習モデル26bの学習に用いられる学習部が情報処理装置4の外部に構成されてもよい。すなわち、あらかじめ情報処理装置4の外部で学習部による学習が実行され、学習済みの機械学習モデルbのみが、第2の予測部19に組み込まれてもよい。
その他、学習部30及び機械学習モデルbを学習するための学習部の具体的な構成は限定されない。
【0088】
機械学習モデル26aは、本技術に係る第1の機械学習モデルの一実施形態に相当する。
また、機械学習モデル26bは、本技術に係る第2の機械学習モデルの一実施形態に相当する。
また、誤差逆伝播法は、本技術に係る、タンパク質情報と、正解データとの誤差に基づく学習の一実施形態に相当する。
【0089】
図10は、統合部20における機械学習モデルの一例を示す模式図である。
図11は、統合部20における機械学習モデルの学習を説明するための模式図である。
本実施形態では、統合部20は、機械学習モデル26cを有する。そして、統合部20は、第1のコンタクトマップ21、及び第2のコンタクトマップ22を入力として機械学習を実行することで、統合コンタクトマップ23を予測する。
図10に示すように、機械学習モデル26cに、第1の予測部18により予測された第1のコンタクトマップ21、及び第2の予測部19により予測された第2のコンタクトマップ22が入力される。そして、機械学習が実行されることで、統合コンタクトマップ23が予測される。
本開示において、2つの情報を入力として機械学習により情報を出力することは、当該2つの情報を統合して情報を生成することに含まれる。
【0090】
図11に示すように、例えば誤差逆伝播法により、機械学習モデル26cを学習させることが可能である。
具体的には、学習用の第1のコンタクトマップ、及び学習用の第2のコンタクトマップを入力として予測された統合コンタクトマップ23と、正解データとの差異に基づいて、統合用の機械学習モデル26cを学習させることが可能である。
なお図11では、機械学習モデル26cに対する学習を、統合部20に対する処理として図示がされている。
【0091】
まず、正解データとしてのコンタクトマップ14と関連付けられた学習用の配列情報29が用意される。すなわち、学習用の配列情報29と、コンタクトマップ14(正解データ)とが互いに関連付けられた教師データが用意される。
学習用の配列情報29を入力として第1の予測部18により予測された第1のコンタクトマップ21が、学習用の第1のコンタクトマップ35として用いられる。
また、学習用の配列情報29に基づいて生成された反転情報を入力として第2の予測部19により予測された第2のコンタクトマップ22が、学習用の第2のコンタクトマップ36として用いられる。
図11に示すように、反転部6により学習用の反転情報34を生成することが可能である。もちろんこれに限定されない。
【0092】
学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36を入力として、統合部20により、統合コンタクトマップ23が予測される。予測された統合コンタクトマップ23と、正解データとの誤差(LOSS)に基づいて、統合用の機械学習モデル26cが学習される。
なお、正解データは、学習用の配列情報1に対応するコンタクトマップ14である。
【0093】
学習部30により生成された機械学習モデル26cは、統合部20に組み込まれる。そして、統合部20により、統合コンタクトマップ23の予測が実行される。
なお、情報処理装置4により機械学習モデル26cの学習が実行されてもよい。あるいは、情報処理装置4の外部にて、機械学習モデル26cの学習が実行されてもよい。その他、機械学習モデル26cの学習のための学習部の具体的な構成や、学習の方法等は限定されない。
【0094】
学習用の第1のコンタクトマップ35は、本技術に係る学習用の第1のタンパク質情報の一実施形態に相当する。
また、学習用の第2のコンタクトマップ36は、本技術に係る学習用の第2のタンパク質情報の一実施形態に相当する。
また、機械学習モデル26cは、本技術に係る統合用の機械学習モデルの一実施形態に相当する。
【0095】
[予測部の再学習]
図11に示すように、本実施形態では、機械学習モデル26aは、学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36を入力として統合部20により予測された統合コンタクトマップ23と、正解データとの誤差(LOSS)に基づいて再学習される。
同様に、機械学習モデル26bは、学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36を入力として統合部20により予測された統合コンタクトマップ23と、正解データとの誤差(LOSS)に基づいて再学習される。
すなわち、誤差逆伝播法による、機械学習モデル26a及び機械学習モデル26bの再学習が実行される。
【0096】
以上、本実施形態に係る情報処理装置4では、取得部5により、ゲノム配列に関する配列情報1が取得される。また、反転部6により、配列情報1に基づいて、配列が反転された反転情報10が生成される。また、生成部7により、反転情報10に基づいて、タンパク質に関するタンパク質情報2が生成される。これにより、タンパク質に関する情報を高い精度で予測することが可能となる。
【0097】
タンパク質情報2の予測における、既存の手法の課題を説明する。
図12は、タンパク質情報2の誤差について説明するための模式図である。
図12A及びBには、既存の手法により配列情報1から予測されたタンパク質情報2の誤差を示す誤差マップの一例が図示されている。
【0098】
図12A及びBに例示する誤差マップ39は、残基の三次元座標における誤差を表したマップである。具体的には、既存の手法で予測された残基の三次元座標と、実際の残基の三次元座標との、ユークリッド距離の差が示されている。
図12A及びBに示す誤差マップ39において、横軸には、左側から右側にわたって、残基番号が割り振られる。例えば誤差が大きい残基番号の範囲には、斜線模様が図示されている。なお誤差は、所定の閾値等を用いて規定することが可能である。
【0099】
残基番号の小さい側(N末端側)は、誤差マップ39の左側に相当する。また、残基番号の大きい側(C末端側)は、誤差マップ39の右側に相当する。
従って、例えばタンパク質を構成するアミノ酸残基の残基番号が1番から100番まで存在するような場合には、残基番号1番が誤差マップ39の左端に相当し、残基番号100番は右端に相当する。
【0100】
本発明者は、図12A及びBに示すように、既存の手法による予測結果には、誤差マップ39の両端付近に、誤差の大きい部分(誤差大)が偏在することが多いことを新たに見出した。
図12Aに示すように、N末端側により広い範囲で誤差大が集中する場合がある。また、図12Bに示すように、C末端側により広い範囲で誤差大が集中する場合もある。
【0101】
図12A及びBに示すような誤差大の偏在は、予測の時系列に起因して発生すると考えられる。すなわち、既存の手法では、タンパク質情報2の予測は、残基番号の小さい順に処理される。
従って、予測の開始時においては、処理対象となるアミノ酸残基の情報が少ないので、誤差が大きくなると考えられる。この結果、図12Aに例示するような、誤差がアミノ酸残基の先頭付近に多く見られるという現象が発生すると考えられる。
また、タンパク質情報2の予測が残基番号の小さい順に処理されることにより、残基の末端側にかけて、予測の誤差が蓄積してしまうと考えられる。この結果、図12Bに例示するような、誤差がアミノ酸残基の末尾付近に多く見られるという現象が発生すると考えられる。
図12Aに示すような誤差大の偏在となるか、図12Bに示すような誤差大の偏在となるかは、タンパク質の一次構造(アミノ酸残基の配列)によるものと考えられる。いずれにせよ、既存の手法による予測結果には、誤差マップ39の両端付近に、誤差の大きい部分が偏在することが多い。
【0102】
本実施形態では、配列情報1に基づいて予測された第1のコンタクトマップ21と、反転情報10に基づいて予測された第2のコンタクトマップ22とが、統合部20により統合され、タンパク質情報2が生成される。
従って、第1のコンタクトマップ21、及び第2のコンタクトマップ22の各々の、予測精度が高い部分を抽出し、統合させることが可能となる。すなわち、第1のコンタクトマップ21及び第2のコンタクトマップ22の「良いとこ取り」をしたような、第1のコンタクトマップ21及び第2のコンタクトマップ22いずれよりも誤差の少ない、統合コンタクトマップ23を生成することが可能となる。
【0103】
例えば、予測されるタンパク質情報2が三次元座標であるような場合には、配列情報1から予測された三次元座標、及び反転情報10から予測された三次元座標の、誤差が少ない部分(残基番号)の情報を統合することが可能となる。
この結果、図12A及びBに示すような、アミノ酸残の配列の両端付近に、誤差が偏在してしまうことを抑制することが可能となり、タンパク質に関する情報を高い精度で予測することが可能となる。
【0104】
また本実施形態では、第1の予測部18及び第2の予測部19による予測において、機械学習アルゴリズムが用いられる。さらに、統合部20による各々のタンパク質情報2の統合においても、機械学習アルゴリズムが用いられる。
これにより、各機械学習モデルを十分に学習させることで、非常に精度の高い予測を実行することが可能となる。
また、本実施形態では、統合部20の学習に合わせて、第1の予測部18及び第2の予測部19の再学習が実行される。これにより、予測精度をさらに向上させることが可能となる。
【0105】
タンパク質の三次元構造が解析されることにより、例えば薬の設計や、食品を醸造する酵母の設計等、様々な分野への応用が期待できる。
一方で、アミノ酸の配列のような一次構造から、タンパク質が有する三次元構造を解析することは困難な課題である。例えば、三次元構造を網羅的に計算するためには膨大な時間を要するため、実質的に計算が不可能である。
本技術が用いられることで、タンパク質が有する三次元構造を精度よく予測することが可能である。これにより、例えば個人に応じた薬の設計や、DNAに基づいた顔予測、バイオ燃料の高精度な設計、食品や農作物の直接的なデザイン等が可能となり、様々な分野における技術の発展に広く資することが期待できる。
【0106】
<第2の実施形態>
本技術に係る第2の実施形態のタンパク質解析システム100について説明する。これ以降の説明では、上記の実施形態で説明したタンパク質解析システム100における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
【0107】
図13は、第2の実施形態における、情報処理装置4の機能的な構成例を示すブロック図である。
図13に示すように、情報処理装置4は、取得部5、反転部6、特徴量算出部42、第1の予測部18、第2の予測部19及び統合部20を有する。
図13に示す各機能ブロックは、プロセッサが本技術に係るアプリケーションプログラム等を実行することで実現される。もちろん機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
取得部5、反転部6、及び統合部20の構成及び作用については、第1の実施形態と同様であるため、説明を省略する。
【0108】
本実施形態では、第1の予測部18および第2の予測部19による予測において、タンパク質に関する特徴を示す特徴量が用いられる。また、第1の予測部18、第2の予測部19、及び統合部20において、特徴量を用いた学習が実行される。
また、第1の実施形態と同様に、タンパク質情報2としてコンタクトマップ14が予測される。
【0109】
[特徴量]
特徴量47とは、タンパク質に関する特徴を示す情報である。
例えば、タンパク質の物理的な性質や、化学的な性質に関する特徴が特徴量47として用いられる。また、タンパク質が有する機能等も、特徴量47として用いられる。その他、タンパク質の特徴を示す任意の情報が、特徴量47として用いられてよい。
本実施形態においては、特徴量47は、タンパク質の二次構造、タンパク質に関する注釈情報、タンパク質の触媒接触度、又はタンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも1つを含む。
特徴量47の一例として、上記の4つの特徴量47について、説明する。
【0110】
タンパク質の二次構造とは、タンパク質が有する局所的な立体構造である。タンパク質は、アミノ酸の配列に応じて折りたたまれるが、折りたたみの過程で、まず局所的な立体構造が形成される。その後で全体的な折りたたみがなされることで、三次構造13が形成される。
このような、三次構造13が形成される前の段階で、最初に形成される局所的な立体構造のことを、二次構造という。
すなわち、タンパク質の折りたたみは、折りたたみのなされていない単なる配列である一次構造から始まり、局所的な構造である二次構造が形成され、最後に全体的な折りたたみにより三次構造13が形成される、といった順序で実現される。
二次構造の一例としては、例えばαヘリックス、βシートという構造が知られている。
本実施形態では、上記のような、αヘリックスやβシートといった二次構造が、特徴量47として用いられる。もちろん特徴量47として用いられる二次構造は限定されない。例えば二次構造の他の例として、ターンやループ等の局所的な構造が存在することが知られている。これらの二次構造が特徴量47として採用されてもよい。
【0111】
タンパク質に関する注釈情報とは、タンパク質に対して付与(タグ付け)されるメタデータである。メタデータとして、典型的には当該タンパク質に関係するような情報が付与される。注釈情報は、アノテーションと呼称される場合もある。
【0112】
例えば注釈情報として、タンパク質が有する構造や機能に関する情報が付与される。
構造に関する情報としては、例えばタンパク質が有する官能基の名称が付与される。その他、タンパク質の分子量等が、注釈情報として付与されてもよい。
また、機能に関する情報としては、例えばタンパク質が有する機能の種類が付与される。すなわち、「収縮機能」、「運搬機能」、又は「免疫機能」といった注釈情報がタグ付けされる。
その他、タンパク質情報2に対して付与される注釈情報は限定されない。
【0113】
タンパク質の触媒接触度とは、タンパク質が有するアミノ酸残基が触媒と接触できる面積を、側鎖の大きさによらずに規格化した値のことである。すなわち、触媒接触度が大きいほど、タンパク質中の残基が、広い面積で触媒と接触することになる。
触媒接触度は、例えば具体的な実数値として算出される。なお、触媒接触度は、触媒露出度等と呼称されることもある。
【0114】
タンパク質を構成するアミノ酸残基間の相互ポテンシャルとは、残基間の位置エネルギーのことである。
タンパク質を構成する、ある2つの残基に注目した場合に、各々の残基には、残基間の距離に依存する力がはたらく。例えば、各々の残基を構成する原子間にはたらく引力や斥力に起因して、残基間に力がはたらく。
【0115】
例えば、残基同士が近づくと、各々の残基にはたらく斥力が大きくなり、引力は小さくなる。すなわち、各々の残基に対して斥力側の合力がはたらき、各々の残基は離れようとする。
また、残基同士が離れると、各々の残基にはたらく引力が大きくなり、斥力は小さくなる。すなわち、各々の残基に対して引力側の合力がはたらき、各々の残基は近づこうとする。
【0116】
残基同士の距離がある値になると、各々の残基にはたらく斥力と引力が等しくなり、各々の残基にはたらく合力は0となる。この状態では、各々の残基は動こうとせず、安定する。この状態で、相互ポテンシャルは最低の値をとる。
すなわち、各々の残基が離れようとしている場合や、近づこうとしている場合には、相互ポテンシャルが当該最低の値よりも高い状態となる。
このように、相互ポテンシャルは各々の残基が安定しているか否かを示す指標となる。
【0117】
本実施形態では、このような相互ポテンシャルが、特徴量47として算出される。
例えば特徴量47として、タンパク質を構成する全ての残基間の相互ポテンシャルの合計が、算出される。
例えばタンパク質が残基A、残基B、残基Cから構成される場合には、まず残基A及び残基Bの間の相互ポテンシャルが算出される。同様に、残基Aと残基Cの相互ポテンシャル、及び残基Bと残基Cの相互ポテンシャルも算出される。算出された3つの相互ポテンシャルの和が、特徴量47として用いられる。
【0118】
以上のような、二次構造、注釈情報、触媒接触度、又は相互ポテンシャルの少なくとも1つが、特徴量47に含まれる。
もちろん、特徴量47が上記の4つの情報に限定されるわけではなく、タンパク質に関する特徴を示す任意の情報を、特徴量47として用いることが可能である。
【0119】
[特徴量の算出]
図14は、特徴量の算出について説明するための模式図である。
図14には、データベース(DB)46、特徴量算出部42、及び特徴量47を表す模式図が示されている。
【0120】
図14に示すように、特徴量算出部42は、配列情報1に基づいて特徴量47を算出する。
なお、図13においては、配列情報1に基づいて算出された特徴量を、配列情報特徴量43と記載している。これは、第3の実施形態において説明する、反転情報10に基づいた特徴量47(反転情報特徴量)と区別するための記載である。反転情報10に基づいた特徴量47の算出については、第3の実施形態において説明する。
配列情報特徴量43は、本技術に係る第1の特徴量の一実施形態に相当する。
【0121】
特徴量の算出のために、データベース(DB)46が用いられる。データベース46には、配列情報1と特徴量47とが関連付けられたデータが格納されている。
図14に示すように、特徴量算出部42は、配列情報1と特徴量47とが関連付けられたデータベース46にアクセスすることで、特徴量47を算出する。
データベース46として、すでに構築されている既存のデータベースを利用することが可能である。
【0122】
特徴量47の算出方法の一例について、説明する。
まず、特徴量算出部42により、配列情報1が取得される。例えば、取得部5により取得された配列情報1が特徴量算出部42に対して出力され、特徴量算出部42が配列情報1を受け取ることで、配列情報1の取得が実現される。
特徴量算出部42により配列情報1が取得されると、配列情報1が複数に分割される。以降、分割により生成された各々の配列情報1を、部分配列情報と表現する場合がある。
【0123】
例えば、配列情報1がアミノ酸の配列であり、残基を表すアルファベットの文字列であるような場合には、文字列が分割されることで部分配列情報が生成される。
例として、元々の配列情報1が「SQETRKKCT」であるような場合に、文字列の分割により、「SQET」と、「RKKCT」の2つの部分配列情報が生成される。
もちろん文字列の分割の位置や個数は、上記した例に限定されない。
また、配列情報1がDNAの配列やRNAの配列であるような場合でも、同様に文字列の分割が実行される。
【0124】
部分配列情報が生成されると、特徴量算出部42により、データベース46において、部分配列情報と一致する配列情報1の検索が実行される。
データベース46には、配列情報1と特徴量47とが関連付けられたデータが格納されている。特徴量算出部42は、部分配列情報と一致する配列情報1を発見した場合に、当該配列情報1と、当該配列情報1に関連付けられた特徴量47とを、まとめて抽出する。
なお部分配列情報と一致する配列情報1ではなく、類似する配列情報1の検索が実行されてもよい。
【0125】
以上のような、部分配列情報による配列情報1の検索により、配列情報1及び特徴量47からなるデータの組が、複数抽出される。
このようにして得られた複数の特徴量47が、予測に用いられる。
なお、特徴量算出部42により、抽出された複数の特徴量47に基づいて、1つの特徴量47が算出され、予測に用いられてもよい。
【0126】
上記したような、配列情報1の分割を含む特徴量算出の方法はあくまで一例であり、もちろん算出の方法は限定されない。
例えば、配列情報1が分割されずに、当該配列情報1と一致する配列情報1の検索が実行されてもよい。その他、特徴量算出部42による特徴量47の算出方法として、任意の方法が採用可能である。
【0127】
なお、データベース46には、例えば過去に実行されたタンパク質の構造解析により、知られている特徴量47が格納される。
例えば、X線結晶構造解析法や、核磁気共鳴法等の手法により、配列情報1に基づいた構造の解析に成功したタンパク質が存在する。具体的には、配列情報1に基づいて、実際の三次構造13、コンタクトマップ14、又は距離マップ15が解析されているようなタンパク質が存在する。
【0128】
このようなタンパク質においては、例えば解析の過程で、タンパク質が有する特徴量47も明らかとなっている場合がある。例えば、タンパク質が有する二次構造は、タンパク質が有する三次構造13に基づいて自然と明らかになる。
このように、例えば過去の研究により明らかとなっている実際の配列情報1と特徴量47との組が、データベース46に格納される。
もちろん、過去の予測により得られた特徴量47等が、データベース46に格納されてもよい。
【0129】
図13に示すように、第1の予測部18は、配列情報1と、配列情報特徴量43とに基づいて、第1のコンタクトマップ21を予測する。
本実施形態では、取得部5により取得された配列情報1が、第1の予測部18に対して出力される。また、特徴量算出部42により算出された配列情報特徴量43が、第1の予測部18に対して出力される。第1の予測部18が配列情報1及び配列情報特徴量43を受け取ると、配列情報1及び配列情報特徴量43に基づいて、第1のコンタクトマップ21の予測が実行される。
【0130】
予測方法としては、例えば第1の実施形態と同様に、所定のアルゴリズムによる予測が採用される。具体的には、第1の予測部18は予測のためのアルゴリズムを含み、配列情報1及び配列情報特徴量43を入力、コンタクトマップ14を出力とした、アルゴリズムによる予測処理が実行される。
例えばアルゴリズムは、タンパク質の構造予測における既知の手法が参酌され、作成される。本実施形態においては、アルゴリズムに対して配列情報特徴量43が入力されるため、精度の高い予測を実行するために、例えば配列情報特徴量43を有効に利用することが可能なアルゴリズムが作成される。
具体的には、配列情報特徴量43を用いることで、精度の高い予測が可能であるような手法が存在する場合には、当該手法が参酌され、アルゴリズムが作成される。
【0131】
その他、第1の予測部18に含まれる予測のためのアルゴリズムは限定されない。例えば、本実施形態においても、第1の予測部18に機械学習アルゴリズムが含まれてよい。機械学習によるコンタクトマップ14の予測については、後述する。
また、第1の予測部18による予測方法は、アルゴリズムによる予測に限定されず、任意の予測方法が採用されてよい。
【0132】
第2の予測部19は、反転情報10と、配列情報特徴量43とに基づいて、第2のコンタクトマップ22を予測する。
本実施形態では、反転部6により反転された反転情報10が、第2の予測部19に対して出力される。また、特徴量算出部42により算出された配列情報特徴量43が、第2の予測部19に対して出力される。第2の予測部19が反転情報10及び配列情報特徴量43を受け取ると、反転情報10及び配列情報特徴量43に基づいて、第2のコンタクトマップ22の予測が実行される。
第2の予測部19による予測方法としては、例えば第1の予測部18による予測方法と同じ方法が採用される。もちろん、第2の予測部19による予測方法として、第1の予測部18による予測方法とは異なる方法が採用されてもよい。
【0133】
統合部20により、第1のコンタクトマップ21及び第2のコンタクトマップ22に基づいた統合処理が実行され、統合コンタクトマップ23が生成される。
【0134】
なお、配列情報特徴量43を用いた予測が、一方の予測部においてのみ実行されてもよい。
例えば、第1の予測部18においては配列情報1及び配列情報特徴量43に基づいて、予測が実行される。一方で、第2の予測部19においては反転情報10のみに基づいて、(配列情報特徴量43は用いられずに)予測が実行される。予測の方法として、このような方法が採用されてもよい。
【0135】
また、情報処理装置4による統合コンタクトマップ23の生成処理に関する処理順は限定されない。
例えば、第1の予測部18による予測と、反転部6による反転情報10の生成は、どちらが先に実行されてもよい。また、特徴量算出部42による配列情報特徴量43の算出と、反転部6による反転情報10の生成は、どちらが先に実行されてもよい。
その他、各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。
【0136】
[機械学習モデル]
本実施形態においても、第1の予測部18、第2の予測部19、及び統合部20の各々は機械学習モデルを含み、予測や統合のための機械学習が実行される。
図15は、第1の予測部18における機械学習モデルの一例を示す模式図である。
図16は、第1の予測部18における教師データを用いた機械学習モデルの学習を説明するための模式図である。
【0137】
第1の実施形態においては、第1の予測部18の学習のために配列情報1のみが用いられたが、本実施形態(第2の実施形態)においては、学習のために配列情報1及び配列情報特徴量43が用いられる。
また、第1の実施形態においては、第2の予測部19の学習のために反転情報10のみが用いられたが、本実施形態においては、学習のために反転情報10及び配列情報特徴量43が用いられる。
以降、上記の差異を中心に説明を行い、第1の実施形態と同様の内容については、説明を省略する。
【0138】
図15に示すように、第1の予測部18における機械学習モデル26aには、配列情報1及び配列情報特徴量43が入力される。
入力された配列情報1及び配列情報特徴量43に基づいて、機械学習モデル26aにより、第1のコンタクトマップ21が予測される。
【0139】
図16に示すように、学習用データに、教師ラベルが関連付けられた教師データが、学習部30に入力される。
本実施形態では、学習用の配列情報29及び学習用の配列情報特徴量50の組が、学習用データに相当する。
また、コンタクトマップ14が教師ラベル(正解データ)に相当する。
例えば、コンタクトマップ14が既知であるようなタンパク質が存在する場合に、当該既知のコンタクトマップ14が、正解データとして用いられる。また、当該タンパク質に関する配列情報1が、学習用の配列情報29として用いられる。
【0140】
さらに、当該タンパク質に関する特徴量47が、学習用の配列情報特徴量50として用いられる。例えば、特徴量算出部42により、学習用の配列情報29に基づいて特徴量47が算出され、当該特徴量47が学習用の配列情報特徴量50として用いられる。
もちろん、学習用の配列情報特徴量50の生成方法は限定されず、任意の方法が採用されてよい。
このように、既知のコンタクトマップ14、配列情報1、及び配列情報特徴量43が関連付けられた教師データが複数用意され、学習のために用いられる。
学習用の配列情報特徴量50は、本技術に係る、学習用の第1の特徴量の一実施形態に相当する。
【0141】
本実施形態では、第1の予測部18は、正解データと関連付けられた学習用の配列情報29、及び学習用の配列情報29に基づいて算出された学習用の配列情報特徴量50を入力として予測された第1のコンタクトマップ21と、正解データとの誤差に基づいて学習された機械学習モデル26aを含む。
すなわち、誤差逆伝搬法により、第1のコンタクトマップ21と正解データとの誤差に基づいて、第1の予測部18の学習が実行される。
もちろん、第1の予測部18の学習方法は限定されず、任意の方法が採用されてよい。
学習部30により生成された機械学習モデル26aは、第1の予測部18に組み込まれる。そして、第1の予測部18により、第1のコンタクトマップ21の予測が実行される。
【0142】
第2の予測部19においても、特徴量47を用いた学習が実行される。
本実施形態では、第2の予測部19は、学習用の配列情報29に基づいて生成された反転情報、及び学習用の配列情報29に基づいて算出された学習用の配列情報特徴量50を入力として予測された第2のコンタクトマップ22と、正解データとの誤差に基づいて学習された機械学習モデル26bを含む。
具体的には、学習用の反転情報34と、学習用の配列情報特徴量50とを入力として、誤差逆伝搬法による機械学習モデル26bの学習が実行される。
もちろん、第2の予測部19の学習方法は限定されず、任意の方法が採用されてよい。
【0143】
次に、統合部20の学習について説明する。
統合部20においても、第1の実施形態と同様に学習が実行される。具体的には、学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36が、機械学習モデル26cに入力されることで、学習が実行される。
なお、学習用の第1のコンタクトマップ35は、学習用の配列情報29及び学習用の配列情報特徴量50に基づいて、第1の予測部18により予測される。また、学習用の第2のコンタクトマップ36は、学習用の反転情報34及び学習用の配列情報特徴量50に基づいて、第2の予測部19により予測される。
【0144】
[予測部の再学習]
第1の実施形態と同様に、機械学習モデル26aは、学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36を入力として予測された統合コンタクトマップ23と、正解データとの誤差に基づいて再学習される。
また、機械学習モデル26bも、統合コンタクトマップ23と、正解データとの誤差に基づいて再学習される。
すなわち、誤差逆伝播法による機械学習モデル26a及び機械学習モデル26bの再学習が実行される。
【0145】
以上、本実施形態に係る情報処理装置4では、予測に配列情報特徴量43が用いられるため、第1の予測部18及び第2の予測部19において、精度の高い予測が可能である。また、統合部20により生成される統合コンタクトマップ23も、第1の予測部18及び第2の予測部19における予測結果を用いたものであるため、精度の高い予測結果となる。
このように、配列情報特徴量43が用いられることにより、精度の高い予測が実現される。
さらに本実施形態では、学習においても配列情報特徴量43が用いられるため、高い精度の予測を実行可能な機械学習モデルが生成される。
【0146】
<第3の実施形態>
本技術に係る第3の実施形態のタンパク質解析システムについて説明する。なお、第1の実施形態及び第2の実施形態で説明したタンパク質解析システム100における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
【0147】
第3の実施形態においては、第1の予測部18において、配列情報1及び配列情報特徴量43に基づいて、予測が実行される。
また、第2の実施形態においては、第2の予測部19において、反転情報10及び配列情報特徴量43に基づいて予測及び学習が実行された。一方で、第3の実施形態においては、第2の予測部19において、反転情報10及び反転情報特徴量に基づいて予測及び学習が実行される。この点が、第2の実施形態と第3の実施形態との差異となる。
【0148】
[情報処理装置の構成例]
図17は、第3の実施形態における、情報処理装置4の機能的な構成例を示すブロック図である。
図17に示すように、情報処理装置4は、取得部5、反転部6、特徴量算出部42、第1の予測部18、第2の予測部19及び統合部20を有する。
取得部5、反転部6、第1の予測部18、及び統合部20の構成及び作用については、第2の実施形態と同様であるため、説明を省略する。
本実施形態では、他の実施形態と同様に、タンパク質情報2としてコンタクトマップ14が予測される。
【0149】
図17に示すように、本実施形態では、特徴量算出部42は、配列情報1に基づいて配列情報特徴量43を算出し、反転情報10に基づいて反転情報特徴量53を算出する。
配列情報特徴量43は、第2の実施形態と同様の方法で算出される。
反転情報特徴量53についても、第2の実施形態と概ね同様の方法で算出される。具体的には、例えば特徴量算出部42により反転情報10が取得され、反転情報10の分割やデータベースにおける検索等が、第2の実施形態と同様に実行され、反転情報特徴量53が算出される。
なお、算出された反転情報特徴量53は、もちろん配列情報特徴量43とは異なる情報となりうる。これは、例えば部分配列情報と部分反転情報(反転情報10を分割した情報)とは異なる情報となるため、データベースにおける抽出結果も異なり、従って、最終的に算出される各々の特徴量47も異なるためである。
反転情報特徴量53は、本技術に係る第2の特徴量の一実施形態に相当する。
【0150】
図17に示すように、第1の予測部18は、第2の実施形態と同様に、配列情報1と、配列情報特徴量43とに基づいて、第1のコンタクトマップ21を予測する。
一方で、第2の予測部19は、反転情報10と、反転情報特徴量53とに基づいて、第2のコンタクトマップ22を予測する。
本実施形態では、反転部6により生成された反転情報10が、第2の予測部19に対して出力される。また、特徴量算出部42により算出された反転情報特徴量53が、第2の予測部19に対して出力される。第2の予測部19が反転情報10及び反転情報特徴量53を受け取ると、反転情報10及び反転情報特徴量53に基づいて、第2のコンタクトマップ22の予測が実行される。
予測方法としては、例えば他の実施形態と同様に、所定のアルゴリズムによる予測が採用される。もちろん、第2の予測部19による予測方法は、アルゴリズムによる予測に限定されず、任意の予測方法が採用されてよい。
【0151】
統合部20により、第1のコンタクトマップ21及び第2のコンタクトマップ22に基づいた統合処理が実行され、統合コンタクトマップ23が生成される。
【0152】
なお、情報処理装置4による統合コンタクトマップ23の生成処理に関する処理順は限定されない。
例えば、第1の予測部18による予測と、特徴量算出部42による反転情報特徴量53の生成は、どちらが先に実行されてもよい。
その他、各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。
【0153】
[機械学習モデル]
第3の実施形態においても、第2の実施形態と同様に、誤差逆伝搬法による学習が実行される。
第1の予測部18については、第2の実施形態と同様に、学習用の配列情報29及び学習用の配列情報特徴量50を入力とした学習が実行される。
【0154】
一方で、第2の予測部19は、学習用の配列情報29に基づいて生成された反転情報10、及び反転情報10に基づいて算出された学習用の反転情報特徴量を入力として予測された第2のコンタクトマップ22と、正解データとの誤差に基づいて学習された機械学習モデル26bを含む。
すなわち、学習用の反転情報34と、学習用の反転情報特徴量とを入力として、誤差逆伝搬法による機械学習モデル26bの学習が実行される。
もちろん、第2の予測部19の学習方法は限定されず、任意の方法が採用されてよい。
【0155】
なお、例えば、特徴量算出部42により、学習用の反転情報34に基づいて特徴量47が算出され、当該特徴量47が学習用の反転情報特徴量として用いられる。
もちろん、学習用の反転情報特徴量の生成方法は限定されず、任意の方法が採用されてよい。
学習用の反転情報特徴量は、本技術に係る、学習用の第2の特徴量の一実施形態に相当する。
【0156】
統合部20においても、第2の実施形態と同様に学習が実行される。
学習用の第2のコンタクトマップ36が、学習用の反転情報34及び学習用の反転情報特徴量に基づいて予測される点のみが、第2の実施形態との差異である。
【0157】
[予測部の再学習]
各々の予測部の再学習についても、第2の実施形態と同様である。
すなわち、誤差逆伝播法による、統合コンタクトマップ23と、正解データとの誤差に基づいた機械学習モデル26a及び機械学習モデル26bの再学習が実行される。
【0158】
以上、本実施形態に係る情報処理装置4では、予測に配列情報特徴量43及び反転情報特徴量53が用いられるため、第1の予測部18及び第2の予測部19において、精度の高い予測が可能である。また、統合部20により生成される統合コンタクトマップ23も、第1の予測部18及び第2の予測部19における予測結果を用いたものであるため、精度の高い予測結果となる。
このように、配列情報特徴量43及び反転情報特徴量53が用いられることにより、精度の高い予測が実現される。
さらに本実施形態では、学習においても配列情報特徴量43及び反転情報特徴量53が用いられるため、高い精度の予測を実行可能な機械学習モデルが生成される。
【0159】
<その他の実施形態>
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
【0160】
各々の予測部において、予測のために入力される情報の種類は限定されない。すなわち、予測部に対して配列情報1、反転情報10、配列情報特徴量43、反転情報特徴量53のいずれが入力されるかについては、限定されない。
2つの予測部に入力される情報の種類の、第2の実施形態や第3の実施形態とは異なる組み合わせとして、以下のような例がある。
(1)第1の予測部に対して、配列情報1及び配列情報特徴量43を入力、
第2の予測部に対して、配列情報1及び反転情報特徴量53を入力
(2)第1の予測部に対して、配列情報1及び反転情報特徴量53を入力
第2の予測部に対して、反転情報10及び配列情報特徴量43を入力、
(3)第1の予測部に対して、配列情報1及び反転情報特徴量53を入力、
第2の予測部に対して、反転情報10及び反転情報特徴量53を入力
(4)第1の予測部に対して、反転情報10及び配列情報特徴量43を入力、
第2の予測部に対して、反転情報10及び反転情報特徴量53を入力
また、もちろん3つ以上の予測部が構成されてもよいし、その場合に、各々の予測部に入力される情報の種類の組み合わせも限定されない。
【0161】
図18は、情報処理装置4を実現可能なコンピュータ56のハードウェア構成例を示すブロック図である。
コンピュータ56は、CPU57、ROM58、RAM59、入出力インタフェース60、及びこれらを互いに接続するバス61を備える。入出力インタフェース60には、表示部62、入力部63、記憶部64、通信部65、及びドライブ部66等が接続される。
表示部62は、例えば液晶、EL等を用いた表示デバイスである。入力部63は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部63がタッチパネルを含む場合、そのタッチパネルは表示部62と一体となり得る。
記憶部64は、不揮発性の記憶デバイスであり、例えばHDD、フラッシュメモリ、その他の固体メモリである。ドライブ部66は、例えば光学記録媒体、磁気記録テープ等、リムーバブル記録媒体67を駆動することが可能なデバイスである。
通信部65は、LAN、WAN等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部65は、有線及び無線のどちらを利用して通信するものであってもよい。通信部65は、コンピュータ56とは別体で使用される場合が多い。
上記のようなハードウェア構成を有するコンピュータ56による情報処理は、記憶部64またはROM58等に記憶されたソフトウェアと、コンピュータ56のハードウェア資源との協働により実現される。具体的には、ROM58等に記憶された、ソフトウェアを構成するプログラムをRAM59にロードして実行することにより、本技術に係る情報処理方法が実現される。
プログラムは、例えばリムーバブル記録媒体67を介してコンピュータ56にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ56にインストールされてもよい。その他、コンピュータ56が読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
【0162】
ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法が実行され、本技術に係る情報処理装置4が構築されてもよい。
すなわち本技術に係る情報処理方法は、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
コンピュータシステムによる本技術に係る情報処理方法の実行は、例えばタンパク質情報2の予測、特徴量47の算出等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
すなわち本技術に係る情報処理方法は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
【0163】
各図面を参照して説明したタンパク質解析システム100、情報処理装置4、情報処理方法等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
【0164】
本開示において、説明の理解を容易とするために、「略」「ほぼ」「おおよそ」等の文言が適宜使用されている。一方で、これら「略」「ほぼ」「おおよそ」等の文言を使用する場合と使用しない場合とで、明確な差異が規定されるわけではない。
すなわち、本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。
例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
従って、「略」「ほぼ」「おおよそ」等の文言が付加されていない場合でも、いわゆる「略」「ほぼ」「おおよそ」等を付加して表現され得る概念が含まれ得る。反対に、「略」「ほぼ」「おおよそ」等を付加して表現された状態について、完全な状態が必ず排除されるというわけではない。
【0165】
本開示において、「Aより大きい」「Aより小さい」といった「より」を使った表現は、Aと同等である場合を含む概念と、Aと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Aより大きい」は、Aと同等は含まない場合に限定されず、「A以上」も含む。また「Aより小さい」は、「A未満」に限定されず、「A以下」も含む。
本技術を実施する際には、上記で説明した効果が発揮されるように、「Aより大きい」及び「Aより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。
【0166】
以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
【0167】
なお、本技術は以下のような構成も採ることができる。
(1)
ゲノム配列に関する配列情報を取得する取得部と、
前記配列情報に基づいて、配列が反転された反転情報を生成する反転部と、
前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する生成部と
を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
前記配列情報は、アミノ酸の配列、DNAの配列、又はRNAの配列の少なくとも1つに関する情報である
情報処理装置。
(3)(1)又は(2)に記載の情報処理装置であって、
前記生成部は、
前記配列情報に基づいて、第1のタンパク質情報を予測する第1の予測部と、
前記反転情報に基づいて、第2のタンパク質情報を予測する第2の予測部と、
前記第1のタンパク質情報と、前記第2のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部と
を有する
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含む
情報処理装置。
(5)(4)に記載の情報処理装置であって、
前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも1つを含む
情報処理装置。
(6)(3)に記載の情報処理装置であって、
前記統合部は、前記第1のタンパク質情報、及び前記第2のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測する
情報処理装置。
(7)(6)に記載の情報処理装置であって、
前記第1の予測部は、前記配列情報を入力として機械学習を実行することで、前記第1のタンパク質情報を予測し、
前記第2の予測部は、前記反転情報を入力として機械学習を実行することで、前記第2のタンパク質情報を予測する
情報処理装置。
(8)(7)に記載の情報処理装置であって、
前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第1のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含む
情報処理装置。
(9)(8)に記載の情報処理装置であって、
前記第1の予測部は、前記学習用の前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含み、
前記第1の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
情報処理装置。
(10)(8)又は(9)に記載の情報処理装置であって、
前記第2の予測部は、前記学習用の前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含み、
前記第2の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
情報処理装置。
(11)(3)に記載の情報処理装置であって、さらに、
前記配列情報に基づいて特徴量を算出する特徴量算出部を具備し、
前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成する
情報処理装置。
(12)(11)に記載の情報処理装置であって、
前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、
前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、
前記第2の予測部は、前記反転情報と、前記第1の特徴量とに基づいて、前記第2のタンパク質情報を予測する
情報処理装置。
(13)(11)に記載の情報処理装置であって、
前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、前記反転情報に基づいて第2の特徴量を算出し、
前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、
前記第2の予測部は、前記反転情報と、前記第2の特徴量とに基づいて、前記第2のタンパク質情報を予測する
情報処理装置。
(14)(12)又は(13)に記載の情報処理装置であって、
前記第1の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含む
情報処理装置。
(15)(12)に記載の情報処理装置であって、
前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含む
情報処理装置。
(16)(13)に記載の情報処理装置であって、
前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第2の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含む
情報処理装置。
(17)(11)から(16)のうちいずれか1つに記載の情報処理装置であって、
前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも1つを含む
情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
前記配列情報は、前記タンパク質を構成するアミノ酸残基のN末端側からの結合順を示す情報であり、
前記反転情報は、前記タンパク質を構成するアミノ酸残基のC末端側からの結合順を示す情報である
情報処理装置。
(19)
ゲノム配列に関する配列情報を取得し、
前記配列情報に基づいて、配列が反転された反転情報を生成し、
前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測する
ことをコンピュータシステムが実行する情報処理方法。
(20)
ゲノム配列に関する配列情報を取得するステップと、
前記配列情報に基づいて、配列が反転された反転情報を生成するステップと、
前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測するステップと
をコンピュータシステムに実行させるプログラム。
(21)(11)から(17)のうちいずれか1つに記載の情報処理装置であって、
前記特徴量算出部は、前記配列情報と前記特徴量とが関連付けられたデータベースにアクセスすることで、前記特徴量を算出する
情報処理装置。
【符号の説明】
【0168】
1…配列情報
2…タンパク質情報
4…情報処理装置
5…取得部
6…反転部
7…生成部
10…反転情報
13…三次構造
14…コンタクトマップ
15…距離マップ
18…第1の予測部
19…第2の予測部
20…統合部
21…第1のコンタクトマップ
22…第2のコンタクトマップ
23…統合コンタクトマップ
26a…機械学習モデル
26b…機械学習モデル
26c…機械学習モデル
29…学習用の配列情報
34…学習用の反転情報
35…学習用の第1のコンタクトマップ
36…学習用の第2のコンタクトマップ
42…特徴量算出部
43…配列情報特徴量
46…データベース
47…特徴量
50…学習用の配列情報特徴量
53…反転情報特徴量
100…タンパク質解析システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18