特許第6558754号(P6558754)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ 国立大学法人 筑波大学の特許一覧

特許6558754情報処理装置、指標次元抽出方法、および指標次元抽出プログラム
<>
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000002
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000003
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000004
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000005
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000006
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000007
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000008
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000009
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000010
  • 特許6558754-情報処理装置、指標次元抽出方法、および指標次元抽出プログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6558754
(24)【登録日】2019年7月26日
(45)【発行日】2019年8月14日
(54)【発明の名称】情報処理装置、指標次元抽出方法、および指標次元抽出プログラム
(51)【国際特許分類】
   G16B 40/00 20190101AFI20190805BHJP
【FI】
   G16B40/00
【請求項の数】6
【全頁数】16
(21)【出願番号】特願2015-156703(P2015-156703)
(22)【出願日】2015年8月7日
(65)【公開番号】特開2017-37378(P2017-37378A)
(43)【公開日】2017年2月16日
【審査請求日】2018年5月1日
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100092152
【弁理士】
【氏名又は名称】服部 毅巖
(72)【発明者】
【氏名】中村 朋健
(72)【発明者】
【氏名】原田 隆平
(72)【発明者】
【氏名】重田 育照
【審査官】 梅岡 信幸
(56)【参考文献】
【文献】 特表2013−511783(JP,A)
【文献】 特開2007−277234(JP,A)
【文献】 特開2011−203239(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00−99/00
(57)【特許請求の範囲】
【請求項1】
構造が変化する物質の複数の構造と、前記物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合とを記憶する記憶部と、
前記複数の次元のうちの、前記次元集合に含まれていない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において前記複数の構造のクラスタリングを行い、最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する演算部と、
を有する情報処理装置。
【請求項2】
前記演算部は、さらに、
前記特定の候補次元が前記指標次元として前記次元集合に追加されると、前記次元集合に含まれるすべての前記指標次元を指標として、前記複数の構造に基づく前記物質の構造解析を行う、
請求項1記載の情報処理装置。
【請求項3】
前記演算部は、さらに、
前記構造解析の過程で生成された物質の構造を前記記憶部に格納し、前記記憶部に該構造が格納されるごとに、前記クラスタリング、前記追加、および前記構造解析を繰り返し実行する、
請求項2記載の情報処理装置。
【請求項4】
前記演算部は、構造解析において、前記次元集合に含まれるすべての前記指標次元それぞれを座標軸とする多次元空間において前記複数の構造のクラスタリングを行い、いずれのクラスタにも含まれないはずれ値となった構造を初期構造とする分子動力学シミュレーションを行う、
請求項2または3記載の情報処理装置。
【請求項5】
コンピュータが、
構造が変化する物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合に含まれない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において、前記物質の複数の構造のクラスタリングを行い、
最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する、
指標次元抽出方法。
【請求項6】
コンピュータに、
構造が変化する物質の構造を表す複数の次元のうちの、前記物質の構造解析の指標とする指標次元の集合である次元集合に含まれない複数の候補次元それぞれについて、候補次元と前記次元集合に含まれるすべての前記指標次元とを座標軸とする多次元空間において、前記物質の複数の構造のクラスタリングを行い、
最も多くのクラスタを生成させることができた特定の候補次元を、前記指標次元として前記次元集合に追加する、
処理を実行させる指標次元抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、指標次元抽出方法、および指標次元抽出プログラムに関する。
【背景技術】
【0002】
タンパク質を構成する原子は少しずつ位置を変えており、タンパク質の構造は時々刻々変化する。このようなタンパク質の構造の変化をコンピュータでシミュレーションする技術として、分子動力学(MD:Molecular Dynamics)シミュレーションがある。
【0003】
MDシミュレーションでは、初期状態として配置された原子それぞれに、他の原子からおよぶ力が計算され、その力を受けた原子がどのように運動するかがニュートンの運動方程式に基づいて計算される。これにより、最初の配置から一定時間経過後の原子の配置が算出される。コンピュータによりこの計算を繰り返すことで、タンパク質構造変化を再現し、例えばタンパク質の機能解析に役立てることができる。
【0004】
MDシミュレーションによるタンパク質の構造変化の再現には、様々な方法が提案されている。例えば、MDシミュレーションを用いたタンパク質の構造変化の再現手法の1つに、OFLOODと呼ばれる、はずれ値検出に基づくタンパク質構造変化サンプリング手法がある。
【0005】
OFLOODでは、MDシミュレーションで得られた原子座標時系列データ(トラジェクトリ)のクラスタリングが行われる。なおトラジェクトリは、時々刻々変化するタンパク質の原子座標の集合である。さらにOFLOODでは、トラジェクトリに含まれるタンパク質構造のうち、いずれのクラスタにも含まれないタンパク質構造がはずれ値として取得される。そしてOFLOODでは、はずれ値に対して、再度、短時間のMDシミュレーションが実行される。これにより、まれに発生するタンパク質構造を考慮に入れた、適切な生体分子の機能変化解析が可能となる。
【0006】
なお、OFLOODにおけるクラスタリングでは、FlexDiceと呼ばれるクラスタリング手法が利用されている。FlexDiceは、高次元データ空間上の疎な領域によって分けられる密な領域のデータ要素をリアルタイムに集めるクラスタリング手法である。
【0007】
他にも、タンパク質構造を解析する様々な技術がある。例えば、相関のない振動モードに分解して、タンパク質の大規模構造変化につながる緩和の遅い重要な振動モードを抽出する解析手法も提案されている。また独立したサブスペースの解析により、タンパク質の連結された組織的動きを検出する方法が提案されている。また好ましい生物学的機能を有する最適化されたタンパク質について、タンパク質ライブラリーを効率的に作成しスクリーニングする方法も考えられている。また機能性ペプチドを効率的に見出すことを可能にする技術も考えられている。さらに、単純な線状コードを用いて複合炭水化物を表すことによって、複合炭水化物を保存し、検索し、比較し、分析する方法も考えられている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2010−88451号公報
【特許文献2】特開2010−222300号公報
【特許文献3】特表2004−505334号公報
【非特許文献】
【0009】
【非特許文献1】Ryuhei Harada, Tomotake Nakamura, Yu Takano, and Yasuteru Shigeta, "Protein Folding Pathways Extracted by OFLOOD: Outlier FLOODing Method" Journal of Computational Chemistry, January 15, 2015, Volume 36, Issue 2, pages 97-102.
【非特許文献2】中村 朋健, 上土井 陽子, 若林 真一, 吉田 典可、「FlexDice:高次元な大規模データセットに対する高速クラスタリング手法」、情報処理学会論文誌、データベース、Vol. 46、No. SIG 18、pp. 40-49、2005年12月.
【非特許文献3】Yusuke Naritomi and Sotaro Fuchigami, "Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: The case of domain motions", The Journal of chemical physics 134, 065101, 2011 Feb. 14.
【非特許文献4】Shun Sakuraba, Yasumasa Joti, Akio Kitao, "Detecting coupled collective motions in protein by independent subspace analysis.", The Journal of chemical physics 133, 185102, 2010 Nov. 14.
【発明の概要】
【発明が解決しようとする課題】
【0010】
OFLOODなどの技術でタンパク質の構造解析を行う場合、解析指標として適切な反応座標(次元)を選択しなければ、興味のあるタンパク質構造変化を抽出することはできない。解析に用いられる次元は、例えば、特定の原子の特定の軸の座標や、特定の2つの原子間の距離などである。従来は、タンパク質の構造解析を行う際には、経験的にある程度分かっている重要な次元が用いられている。
【0011】
しかし、既に分かっている重要な次元以外にも重要な次元が存在する可能性がある。現在、そのような未知の重要な次元を見つけ出す有効な方法がない。タンパク質の構造変化の解析を効率的に実施するには、重要な次元を確実に選択してタンパク質の構造解析を実施することが重要である。
【0012】
このような物質の構造解析に用いる重要な次元の選択の困難性に関する問題は、タンパク質に限らず、構造が変化する物質(例えばタンパク質以外の生体高分子)の構造解析全般において、同様に存在する。
【0013】
1つの側面では、物質の構造解析において重要な次元を確実に解析指標として採用できるようにすることを目的とする。
【課題を解決するための手段】
【0014】
1つの案では、構造が変化する物質の複数の構造と、物質の構造を表す複数の次元のうちの、物質の構造解析の指標とする指標次元の集合である次元集合とを記憶する記憶部と、複数の次元のうちの、次元集合に含まれていない複数の候補次元それぞれについて、候補次元と次元集合に含まれるすべての指標次元とを座標軸とする多次元空間において複数の構造のクラスタリングを行い、最も多くのクラスタを生成させることができた特定の候補次元を、指標次元として次元集合に追加する演算部と、を有する情報処理装置が提供される。
【発明の効果】
【0015】
1態様によれば、物質の構造解析において重要な次元を確実に解析指標として採用可能となる。
【図面の簡単な説明】
【0016】
図1】第1の実施の形態に係る情報処理装置の構成例を示す図である。
図2】第2の実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。
図3】隠れ次元を用いたタンパク質構造解析機能を示すブロック図である。
図4】トラジェクトリの一例を示す図である。
図5】タンパク質の構造データの一例を示す図である。
図6】トラジェクトリの生成例を示す図である。
図7】FlexDiceによるクラスタリングの一例を示す図である。
図8】次元の付加によるクラスタ数の増加状況を示す図である。
図9】隠れ次元の判定例を示す図である。
図10】タンパク質構造解析処理の手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
まず、第1の実施の形態について説明する。第1の実施の形態は、構造が変化する物質の構造解析を行う際に、解析に重要な指標となる次元を漏らさずに選択可能な情報処理装置である。
【0018】
図1は、第1の実施の形態に係る情報処理装置の構成例を示す図である。情報処理装置10は、記憶部11と演算部12とを有する。
記憶部11は、構造が変化する物質の複数の構造(物質構造11a−1,11a−2,・・・)と、物質の構造を表す複数の次元のうちの、構造解析の指標とする次元の集合である次元集合11bとを記憶する。次元集合11bには、初期値として、例えば予め重要であることが既知の次元が設定されている。
【0019】
演算部12は、物質の構造を表す複数の次元のうちの、次元集合11bに含まれていない複数の次元を、候補次元とする。そして演算部12は、複数の候補次元それぞれについて、候補次元と次元集合11bに含まれるすべての指標次元とを座標軸とする多次元空間において物質構造11a−1,11a−2,・・・のクラスタリングを行う(ステップS1)。例えば、物質の構造を表す複数の次元として「d1,d2,d3,d4,d5」があり、そのうち「d1,d2」については重要な次元であることが既知であるものとする。この場合、「d3,d4,d5」それぞれが候補次元となる。このとき演算部12は、「d1,d2,d3」の3次元空間におけるクラスタリング、「d1,d2,d4」の3次元空間におけるクラスタリング、および「d1,d2,d5」の3次元空間におけるクラスタリングを行う。
【0020】
そして演算部12は、複数の候補次元のうち最も多くのクラスタを生成させることができた候補次元を、重要ではあるがまだ解析の指標とされていない次元(隠れ次元)と判断し、その隠れ次元を次元集合11bに追加する(ステップS2)。図1の例では、次元d3を追加してクラスタリングした結果、6つのクラスタが生成されている。次元d4を追加してクラスタリングした結果、5つのクラスタが生成されている。次元d5を追加してクラスタリングした結果、2つのクラスタが生成されている。すなわち、次元d3を追加した場合に、最もクラスタ数が多くなっている。そこで、演算部12は、次元d3を隠れ次元と判定し、次元集合11bに追加する。隠れ次元が次元集合11bに追加されることで、その隠れ次元は、以後、構造解析の指標として扱われる。
【0021】
さらに演算部12は、次元集合11bに構造解析の指標とする次元が追加されるごとに、次元集合11bに含まれる指標次元を指標として複数の構造に基づく物質の構造解析を行う(ステップS3)。例えば演算部12は、OFLOODによる解析を行う。OFLOODを実施する場合、演算部12は、次元集合11bに含まれる指標次元を座標軸とする多次元空間において複数の構造のクラスタリングを行い、いずれのクラスタにも含まれないはずれ値となった構造を初期構造とするMDシミュレーションを行う。
【0022】
また演算部12は、MDシミュレーションを行った場合、MDシミュレーションによって生成される物質の構造を、記憶部11に格納する。そして演算部12は、記憶部11に物質の構造が格納されるごとに、上記ステップS1〜S3の処理を繰り返し実行する。
【0023】
このような情報処理装置10によれば、複数の次元の中から重要な隠れ次元を適切に判定することができる。その結果、重要な次元を確実に構造解析の指標として採用することができる。
【0024】
例えば、物質の構造を表すすべての次元を用いて構造解析を実施できれば、極めて詳細な解析が可能となる。しかし、タンパク質のような複雑な構造を有する物質の場合、次元数が多く、すべての次元を用いた解析は、情報処理装置10の性能上、現実には無理である。そこで、選択された重要な次元を用いて解析することになる。予め重要であると分かっている次元もあるが、他の多くの次元は重要かどうかが不明である。重要と思われていない次元であっても、有用な次元の可能性がある。このように、重要であるかどうかが不明な次元のなかに、実際には重要な次元(隠れ次元)が存在するとき、第1の実施の形態によれば、その隠れ次元を自動で抽出し、構造解析の際の指標次元に追加できる。隠れ次元を加えて解析を行うことで、より詳細な構造解析が可能となる。しかも、特に重要と思われる次元のみを指標次元に加えるため、計算量の増加は最小減に抑えられる。
【0025】
また第1の実施の形態では、クラスタリングにより生成されるクラスタ数が最多となる次元を、隠れ次元としている。このような隠れ次元を解析の指標として用いれば、物質の複数の構造を、より少ない指標で適切に分類できる。物質の複数の構造を適切に分類できることで、物質の構造変化などの解析の精度を向上させることができる。例えば、クラスタ間を遷移するような大きな構造変化を捉えるための解析を実施する場合、クラスタが正しく生成されることで、目的の構造変化を正しく認識することができる。
【0026】
なお、演算部12は、例えば情報処理装置10が有するプロセッサにより実現することができる。また、記憶部11は、例えば情報処理装置10が有するメモリにより実現することができる。
【0027】
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、解析対象物質をタンパク質として、第1の実施の形態をより具体化したものである。
【0028】
図2は、第2の実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。コンピュータ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
【0029】
メモリ102は、コンピュータ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
【0030】
バス109に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
【0031】
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、コンピュータ100の補助記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの不揮発性の半導体記憶装置(SSD:Solid State Drive)を使用することもできる。
【0032】
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
【0033】
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
【0034】
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
【0035】
機器接続インタフェース107は、コンピュータ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
【0036】
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
【0037】
以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した装置も、図2に示したコンピュータ100と同様のハードウェアにより実現することができる。
【0038】
コンピュータ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。コンピュータ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、コンピュータ100に実行させるプログラムをHDD103に格納しておくことができる。プロセッサ101は、HDD103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。またコンピュータ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、HDD103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
【0039】
以上のようなハードウェアのコンピュータ100により、隠れ次元を用いたタンパク質の構造解析が行われる。
図3は、隠れ次元を用いたタンパク質構造解析機能を示すブロック図である。コンピュータ100は、隠れ次元を用いたタンパク質構造解析を行うため、記憶部110、クラスタリング部120、隠れ次元判定部130、およびOFLOOD部140を有する。
【0040】
記憶部110は、複数のトラジェクトリ111−1,111−2,・・・、重要次元情報112、および隠れ次元情報113を記憶する。トラジェクトリ111−1,111−2,・・・は、タンパク質構造の時系列変化を表すデータである。トラジェクトリ111−1,111−2,・・・それぞれには、複数のタンパク質構造が含まれる。重要次元情報112は、既知となっている重要な反応座標(重要次元)を示す情報である。重要次元情報112は、タンパク質構造解析の実行前に、予め設定される情報である。隠れ次元情報113は、重要次元以外の反応座標のうち、タンパク質構造解析に重要な自由度と判断された反応座標(隠れ次元)を示す情報である。
【0041】
クラスタリング部120は、重要次元に対して別の一次元(候補次元)を加えた多次元空間で、複数のトラジェクトリ111−1,111−2,・・・のクラスタリングを行う。クラスタリング技術としては、例えばFlexDiceを用いる。クラスタリング部120は、候補次元を変えながら、繰り返しクラスタリングを実行する。
【0042】
隠れ次元判定部130は、クラスタリング結果に基づいて隠れ次元を判定する。例えば隠れ次元判定部130は、候補次元ごとに実行されたクラスタリングにより生成されたクラスタ数を、クラスタリング部120から取得する。そして隠れ次元判定部130は、重要次元のみで実行したクラスタリングで生成されるクラスタを、さらに多くのクラスタに、最も多く分割できる候補次元を、隠れ次元と判定する。
【0043】
OFLOOD部140は、重要次元と隠れ次元とに基づいてOFLOODを実行し、タンパク質構造分布の緩和状況を可視化する。ここでタンパク質構造分布の緩和とは、タンパク質構造変化の収束を意味する。またOFLOODの過程で実行されるFlexDiceのクラスタリングにより、クラスタ(準安定構造)の分布の変化を可視化する。OFLOODの結果の可視化では、例えばOFLOODに用いた反応座標を軸とした空間内に、生成されたタンパク質構造を示すドットがプロットされた図がモニタ21に表示される。
【0044】
なお、図3に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
次に、記憶部110に格納される情報について詳細に説明する。
【0045】
図4は、トラジェクトリの一例を示す図である。トラジェクトリ111には、例えばMDシミュレーションにより、タンパク質が初期構造から変化する様子が示されている。図4の例では、MDシミュレーション上の時間間隔Δtごとの構造が示されている。トラジェクトリ111に含まれるタンパク質構造は、例えばタンパク質を構成する原子の座標を含む構造データで表される。
【0046】
図5は、タンパク質の構造データの一例を示す図である。構造データ111aには、構造の識別番号が付与されている。構造データ111a内の「ATOM」で始まる各行が、タンパク質に含まれる各原子の情報である。
【0047】
各行には「ATOM」から右に向かって、原子の通し番号、原子タイプの分類、残基の種類、分子鎖の名前、残基番号、原子のX座標、原子のY座標、原子のX座標、原子の占有率、温度因子、および元素名が設定されている。
【0048】
以下、タンパク質構造解析処理について詳細に説明する。
タンパク質構造解析処理では、まずMDシミュレーションにより生成されたトラジェクトリが、記憶部110に格納される。
【0049】
図6は、トラジェクトリの生成例を示す図である。例えばユーザは、実験によるタンパク質の立体構造の解析を行い、解析結果であるタンパク質構造をコンピュータ100に入力する。例えばX線や核磁気共鳴(NMR:Nuclear Magnetic Resonance)により、タンパク質の立体構造を決定することができる。解析により得られたタンパク質構造を、初期構造(入力データ)として、コンピュータ100がMDシミュレーションを実行する。MDシミュレーションにより、タンパク質に働く力に基づいて運動方程式が解かれ、時々刻々変化するタンパク質構造を示すトラジェクトリが出力される。出力されたトラジェクトリは、記憶部110に格納される。
【0050】
このようにして得られたトラジェクトリを元に、OFLOOD部140によるタンパク質構造変化抽出が行われる。
なお、第2の実施の形態に係る技術を適用せずにOFLOODを実施すると、経験的にある程度分かっている重要な次元のみを用いて構造リサンプリングが実行される。実際問題として、予め興味のあるタンパク質構造変化に重要な次元は自明でないことがほとんどであり、最適な次元を設定することができない場合には、効率的にタンパク質構造変化を抽出できない。
【0051】
そこで第2の実施の形態では、クラスタリング部120が、MDシミュレーションから得られるトラジェクトリをクラスタリングし、隠れ次元判定部130が、タンパク質構造変化にとって重要である自由度を隠れ次元として推定する。これにより、経験則に基づくことなく重要な次元を設定し、OFLOODにおける構造変化抽出の高速化や、効率的な準安定構造の抽出が可能となる。
【0052】
なお、トラジェクトリのクラスタリングは、例えばFlexDiceにより行うことができる。
図7は、FlexDiceによるクラスタリングの一例を示す図である。FlexDiceは、高次元かつ大規模なデータベースから規則性や特徴を見つけ出すためのクラスタリング手法の1つである。FlexDiceでは、データ要素を分類する指標を軸とする多次元空間に、データ要素が配置される。タンパク質構造をデータ要素とする場合、例えば特定の原子のある軸の座標、所定の2つの原子間距離などが、分類の指標となる。図7の例では、2つの指標で分類した場合を想定した例が示されている。
【0053】
FlexDiceでは、2つの指標それぞれに対応する2つの軸を有する平面が定義される。各タンパク質構造は、指標の値に応じて、第1レイヤ(1st layer)の平面上に配置される。第1レイヤでは、すべてのタンパク質構造を包含する1つの矩形領域が、セル31として定義される。
【0054】
上位のレイヤのセルを、セル内のタンパク質構造の密度に応じて分割しながら、第2レイヤ、第3レイヤ、・・・と、新たなレイヤが生成される。例えば、セル内のタンパク質構造の密度が上限値以上であれば、そのセルは、密セルと判断される。セル内のタンパク質構造の密度が上限値より小さく、下限値以上であれば、そのセルは、中セルと判断される。セル内のタンパク質構造の密度が下限値より小さければ、そのセルは、疎セルと判断される。上位レイヤの次の下位レイヤを生成するとき、上位レイヤのセルのうち、中セルのみが各軸方向に2分割(全体で4分割)される。例えば第kレイヤ(kは2以上の整数)におけるセル32は中セルと判断され、第k+1レイヤにおいて4つのセルに分割されている。一方、セル33は、密セルであるため分割されておらず、セル34は疎セルであるため分割されていない。
【0055】
このようなレイヤの生成が、所定のレイヤまで繰り返し行われる。そして、最後のレイヤにおいて、隣接する密セル同士が結合される。結合されたセルに含まれるタンパク質構造の集合が、クラスタ41,42を構成する。
【0056】
このようなFlexDiceによるクラスタリングでは、クラスタ41,42に含まれないタンパク質構造51が存在する。このタンパク質構造51が、はずれ値として検出される。
【0057】
クラスタリング部120は、隠れ次元を推定するために、候補次元を変えながら、図7に示すようなクラスタリングを繰り返す。そして隠れ次元判定部130が、クラスタリングにより生成されるクラスタ数を観察し、次元付加によりクラスタ数が最も大きく変化した次元を重要な隠れ次元と判定する。
【0058】
図8は、次元の付加によるクラスタ数の増加状況を示す図である。図8の左側には、既知の重要次元を指標としたときのタンパク質構造の分布が示されている。横軸は、タンパク質構造の重要次元の値であり、縦軸は、重要次元の値ごとのタンパク質構造数である。この例では、既知の重要次元を指標としてクラスタリングを行った結果、タンパク質の場外の分布がガウス分布(調和的分布)となっている。すなわち分布状況が単峰性であり、クラスタリングにより得られるクラスタは1だけである。
【0059】
図8の右側には、重要次元と1つの候補次元とを指標としたときのタンパク質構造の分布が示されている。横軸は、タンパク質構造の候補次元の値であり、縦軸は、候補次元の値ごとのタンパク質構造数である。この例では、候補次元の付加により、クラスタ数が1つ(左)から2つ(右)に変化している。つまり、候補次元の付加前は分布のピークが1つであったが、候補次元の付加によりピークが2つ(多峰性)になり非調和性が現れた。分布状況のピークが2つになったことで、クラスタリングにより得られるクラスタも2つとなる。
【0060】
このように、次元付加によりクラスタの数が多次元空間で変化する場合がある。そこで、隠れ次元判定部130は、追加する次元を変えながらFlexDiceによりクラスタリングが行われたときのクラスタの数の変化を観察し、最も大きく分布が摂動を受ける候補次元を隠れ次元と判定する。
【0061】
図9は、隠れ次元の判定例を示す図である。図9の例では、d1,d2次元が重要な次元であることが既知であるものとする。この場合、まずd1,d2次元でのクラスタリングが行われる。図9の例では、準安定構造をC1およびC2としたとき、準安定構造ごとのクラスタが生成されている。この場合のクラスタ数は「2」である。
【0062】
ここで、隠れ次元の候補としてd3,d4,d5次元があるものとする。この場合、クラスタリング部120は、d1,d2,d3次元でのクラスタリング、d1,d2,d4次元でのクラスタリング、およびd1,d2,d5次元でのクラスタリングを行う。d1,d2,d3次元でのクラスタリングにより生成されたクラスタの数は「6」である。d1,d2,d4次元でのクラスタリングにより生成されたクラスタの数は「5」である。d1,d2,d5次元でのクラスタリングにより生成されたクラスタの数は「2」である。
【0063】
その結果、次元を1つ上げたクラスタリングにおいて、最も多くクラスタの数が変化したのは、d3次元を付加した場合であることが分かる。そこで、d3が隠れ次元と判定される。
【0064】
以後、次元数を1つずつ増やしてクラスタ数の変化が観察され、順次、隠れ次元が判定される。すなわち、次元を1つ上げた際に、次元を上げる前と比較して最もクラスタ数の増加が大きい次元が隠れ次元と判定される。
【0065】
なお、隠れ次元を1つ増やすごとにOFLOOD部140がOFLOODを実行することで、より適切なクラスタリングによる、タンパク質構造のサンプリング抽出が可能となる。すなわちOFLOOD部140は、既に生成されているタンパク質構造を、FlexDiceによりクラスタリングする。図7に示したように、FlexDiceを実施すると、いずれのクラスタにも含まれないタンパク質構造が、はずれ値として検出される。OFLOOD部140は、検出したはずれ値を初期構造として、MDシミュレーションを行い、トラジェクトリを生成する。
【0066】
隠れ次元を追加してFlexDiceを実施すれば、クラスタ(準安定構造)を正確に求めることができる。これは、クラスタに含まれない(準安定構造ではない)はずれ値検出の正確性も増すことを意味する。不安定なタンパク質構造を適格にはずれ値として検出できることで、OFLOODによるタンパク質構造の探索範囲の拡張効率が向上し、例えば天然構造を効率的に検出することができるようになる。
【0067】
次に、タンパク質構造解析処理の手順について、フローチャートを参照して説明する。
図10は、タンパク質構造解析処理の手順の一例を示すフローチャートである。以下、図10に示す処理をステップ番号に沿って説明する。
【0068】
[ステップS101]クラスタリング部120は、タンパク質ダイナミクスを記述する次元の中から、既知の重要次元を選択する。例えばクラスタリング部120は、記憶部110内の重要次元情報112を参照し、どの次元が重要次元なのかを認識する。以下、タンパク質ダイナミクスを記述する次元数をn(nは1以上の整数)とする。
【0069】
[ステップS102]クラスタリング部120は、実験によって得られたタンパク質構造を初期構造としたMDシミュレーションの結果として出力されたトラジェクトリを対象として、クラスタリングを行う。例えばクラスタリング部120は、トラジェクトリを構成する複数のタンパク質構造の構造データを記憶部110から取得し、その構造データに示されるタンパク質構造を、FlexDiceによりクラスタリングする。クラスタリングの結果、準安定構造であるタンパク質構造の集合を表すクラスタが生成される。このとき生成されたクラスタを「クラスタA」とする。
【0070】
[ステップS103]クラスタリング部120は、生成したクラスタ数を、次元追加前クラスタ数としてメモリ102に記録する。
[ステップS104]クラスタリング部120は、タンパク質ダイナミクスを記述する次元のうち、既知の重要次元または既に隠れ次元と判定されている次元以外のi番目の次元di(ここでiは1以上n−2以下の整数)を、1つ選択する。なお、クラスタリング部120は、記憶部110内の重要次元情報112を参照して、どの次元が重要次元なのかを認識し、隠れ次元情報113を参照して、どの次元が隠れ次元なのかを認識する。
【0071】
[ステップS105]クラスタリング部120は、既知の重要次元および既に隠れ次元と判定されている次元に、選択した次元を追加した多次元空間上で、FlexDiceによるクラスタリングを行う。すなわちクラスタリング部120は、1つの次元diを追加して1次元だけ次元数が上がった構造空間上でトラジェクトリをクラスタリングする。ここで、次元diを追加したクラスタリングにより生成されたクラスタ集合Aiの要素数をEiとする。
【0072】
なおステップS105においてクラスタリング部120が実行するクラスタリング手法は、FlexDice以外の手法でもよい。例えば、はずれ値の存在を許容しないクラスタリング手法(すべての要素がいずれかのクラスタに含まれる)を用いてもよい。
【0073】
[ステップS106]クラスタリング部120は、次元追加前クラスタ数からの、ステップS105のクラスタリングで生成されたクラスタの増加数を、選択した次元に対応付けてメモリ102に記録する。
【0074】
[ステップS107]クラスタリング部120は、タンパク質ダイナミクスを記述する次元のうち、ステップS104〜S106の処理が未処理の次元があるか否かを判断する。未処理の次元があれば、処理がステップS104に進められる。すべての次元に対する処理が終了したら、処理がステップS108に進められる。
【0075】
[ステップS108]隠れ次元判定部130は、既知の重要次元または既に隠れ次元と判定されている次元以外の次元のうち、次元追加前よりも最も多くのクラスタが生成される次元を、隠れ次元と判定する。例えば数学的に記述すると、max{Ei|1≦i≦n−2}のiに対応する次元diが重要な隠れ次元となる。隠れ次元を判定すると、隠れ次元判定部130は、隠れ次元と判定した次元の情報を、記憶部110内の隠れ次元情報113に追加する。
【0076】
[ステップS109]隠れ次元判定部130は、隠れ次元が存在したか否かを判断する。例えば隠れ次元判定部130は、次元の追加によりクラスタ数が増加する次元が少なくとも1つあれば、隠れ次元が存在したと判断する。隠れ次元が存在した場合、処理がステップS110に進められる。隠れ次元が存在しなければ処理が終了する。
【0077】
[ステップS110]OFLOOD部140は、ステップS108で判定した隠れ次元を追加した多次元空間で、OFLOODを実行する。すなわちOFLOOD部140は、新たな隠れ次元を追加した空間でFlexDiceによるクラスタリングを行い、はずれ値を初期構造としたMDシミュレーションを行う。OFLOODの実行により、タンパク質構造分布の緩和を観察することができる。例えば、クラスタ(準安定構造)の分布の変化を観察できる。
【0078】
[ステップS111]OFLOOD部140は、OFLOODにより生成されたトラジェクトリを記憶部110に格納する。
[ステップS112]クラスタリング部120は、さらに隠れ次元を追加するか否かを判断する。例えばクラスタリング部120は、隠れ次元と判定した次元数が、所定数に達していなければ、さらに隠れ次元を追加すると判断する。隠れ次元と判定した次元数が所定数に達した場合、これ以上の隠れ次元は追加しないと判断する。さらに隠れ次元を追加する場合、処理をステップS104に進める。隠れ次元を追加しない場合、処理が終了する。
【0079】
このように、使用していない次元を1ずつ付加しながらクラスタの数の変化を観察し、隠れ次元を判定しながらOFLOODを繰り返していくことで、タンパク質構造分布の緩和が観察できる。しかも、隠れ次元が随時追加されることで、OFLOOD内でのはずれ値の判定精度が向上し、大きな構造変化を起こしやすい構造を正確に特定できる。そして大きな構造変化を起こしやすい構造を初期構造としたMDシミュレーションにより、迅速にタンパク質構造分布を緩和させることができる。タンパク質構造分布の緩和は、タンパク質構造変化の収束を意味しており、取り得る可能性のある構造変化を十分探索し終えたことを示す。すなわち、タンパク質構造分布が迅速に緩和するということは、隠れ次元に基づくOFLOODにより効率的に構造探索が実施できたことを意味する。
【0080】
なお、第2の実施の形態の技術は、多くの分野で利用可能である。例えば、タンパク質機能解析に重要なタンパク質の遅い運動が再現できる。これらのタンパク質大規模構造変化は、通常のMDシミュレーションでは再現する事ができない生物学的レアイベントであり、貴重な構造サンプリングデータとして実験データと比較しうる点において、非常に有用である。また第2の実施の形態により、構造空間にどのような準安定構造が分布しているかを調べることは、直接自由エネルギー地形を探索することに直結する。そのため、リガンド結合による分子認識問題などにも応用可能であり、薬物設計に利用可能である。
【0081】
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
【符号の説明】
【0082】
10 情報処理装置
11 記憶部
11a−1,11a−2,・・・ 物質構造
11b 次元集合
12 演算部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10