特許第6407761号(P6407761)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ 国立大学法人 筑波大学の特許一覧

特許6407761情報処理装置、シミュレーションプログラムおよびシミュレーション方法
<>
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000002
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000003
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000004
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000005
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000006
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000007
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000008
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000009
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000010
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000011
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000012
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000013
  • 特許6407761-情報処理装置、シミュレーションプログラムおよびシミュレーション方法 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6407761
(24)【登録日】2018年9月28日
(45)【発行日】2018年10月17日
(54)【発明の名称】情報処理装置、シミュレーションプログラムおよびシミュレーション方法
(51)【国際特許分類】
   G06F 19/12 20110101AFI20181004BHJP
   G06F 19/00 20180101ALI20181004BHJP
【FI】
   G06F19/12
   G06F19/00 110
【請求項の数】6
【全頁数】17
(21)【出願番号】特願2015-32321(P2015-32321)
(22)【出願日】2015年2月20日
(65)【公開番号】特開2016-153988(P2016-153988A)
(43)【公開日】2016年8月25日
【審査請求日】2017年11月2日
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100089118
【弁理士】
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】中村 朋健
(72)【発明者】
【氏名】重田 育照
(72)【発明者】
【氏名】原田 隆平
【審査官】 塩田 徳彦
(56)【参考文献】
【文献】 特開2006−171982(JP,A)
【文献】 特開2007−80044(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 19/10 − 19/28
G06F 19/00
(57)【特許請求の範囲】
【請求項1】
構造空間における分子構造の分布について、所定の外れ値検出手法により外れにある分子構造を検出する検出部と、
前記検出部により検出された分子構造に対して外れ度合いを特定する特定部と、
前記特定部により特定された外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行する実行部と、
を有することを特徴とする情報処理装置。
【請求項2】
前記検出部は、階層を用いた前記外れ値検出手法により階層毎に外れにある分子構造を検出し、
前記特定部は、前記検出部により検出された分子構造に対して前記階層に応じた外れ度合いを特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記検出部は、前記構造空間における第1の階層内の、分子構造の密度が中間の部分空間の分子構造を前記第1の階層の1つ下位の階層である第2の階層に振り分け、前記第2の階層の分子構造の密度について、高い部分空間であるか、低い部分空間であるか、中間の部分空間であるかを判定し、低い部分空間に含まれる分子構造を検出する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記特定部は、前記検出部により検出された分子構造の階層が上位である程、前記分子構造に対する前記外れ度合いを高く設定する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項5】
コンピュータに、
構造空間における分子構造の分布について、所定の外れ値検出手法により外れにある分子構造を検出し、
前記検出する処理により検出された分子構造に対して外れ度合いを特定し、
前記特定する処理により特定された外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行する
処理を実行させることを特徴とするシミュレーションプログラム。
【請求項6】
コンピュータは、
構造空間における分子構造の分布について、所定の外れ値検出手法により外れにある分子構造を検出し、
前記検出する処理により検出された分子構造に対して外れ度合いを特定し、
前記特定する処理により特定された外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行する
各処理を実行することを特徴とするシミュレーション方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置などに関する。
【背景技術】
【0002】
生体分子の構造変化を解析するための計算科学的手法として、MD(Molecular dynamics)シミュレーションが広く用いられている。MDシミュレーションとは、生物学的に重要な反応を評価するためのツールの1つである。
【0003】
MDシミュレーションによる生体分子の機能解析には、様々な方法が提案されている。例えば、MDシミュレーションでは、分子における初期配置を定め、分子を構成する各原子に電荷を割り振って初期状態とし、結合相互作用および非結合相互作用を介して各分子が初期状態からどのように運動し、またそれに伴って系のエネルギーがどのように変化していくかを計算する。多数の初期配置からMDシミュレーションを実行することによって、最終的に最も安定な分子の配置を定めることができる(例えば、特許文献1参照)。
【0004】
このようなMDシミュレーションは、タンパク質の構造変化を調べるために用いられることがある。
【0005】
また、セットされたデータから類似したデータ要素がない外れ値を検出する外れ値検出手法がある(例えば、非特許文献1参照)。外れ値検出手法には、分布に基づく手法、深さに基づく手法、距離に基づく手法、密度に基づく手法、クラスタリングに基づく手法などが存在する。例えば、外れ値検出手法には、クラスタリングに基づく手法としてFlexDiceが挙げられる。FlexDiceでは、データ空間における局所的なデータ空間を計算し、データ密度の高い連続した部分空間に含まれるデータ要素をクラスタとして集め、データ密度の低い部分空間に含まれるデータ要素をノイズとして1つのクラスタに集める。
【0006】
FlexDiceおよびMDシミュレーションによりタンパク質の構造変化が探索できる。例えば、第1処理として、MDシミュレーションの実行から得られるタンパク質のトラジェクトリを反応座標に射影し、構造空間における分布を求める。第2処理として、分布に対して、FlexDiceにより外れ構造を検出する。第3処理として、外れ構造を初期構造としたMDシミュレーションを実行する。そして、MDシミュレーションの実行から得られるトラジェクトリを用いて分布をアップデートしながら、分布が収束するまで構造探索を繰り返す。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2007−080044号公報
【非特許文献】
【0008】
【非特許文献1】Ryuhei Harada,Tomotake Nakamura,Yu Takano,and Yasuteru Shigeta,「Protein Folding Pathways Extracted by OFLOOD: Outlier FLOODing Method」,Journal of Computational Chemistry 2014,DOI:10.1002/JCC.23773,“http://onlinelibrary.wiley.com/doi/10.1002/jcc.23773/abstract“
【発明の概要】
【発明が解決しようとする課題】
【0009】
ここで、タンパク質の構造変化を抽出するには、MDシミュレーションを長時間実行する必要がある。しかしながら、生体機能に関係するタンパク質の構造変化は、確率過程において稀にしか誘起されない出現確率の低いレアなイベントである。たとえMDシミュレーションを長時間実行したとしても、レアなイベントを抽出できるという保証はない。
【0010】
本発明は、1つの側面では、タンパク質における生体機能の発現に関係するレアなイベントを外れ値検出手法によって効率的に抽出しやすくすることを目的とする。
【課題を解決するための手段】
【0011】
1つの態様では、情報処理装置は、構造空間における分子構造の分布について、所定の外れ値検出手法により外れにある分子構造を検出する検出部と、前記検出部により検出された分子構造に対して外れ度合いを特定する特定部と、前記特定部により特定された外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行する実行部と、を有する。
【発明の効果】
【0012】
1実施態様によれば、タンパク質における生体機能の発現に関係するレアなイベントを外れ値検出手法によって効率的に抽出しやすくすることができる。
【図面の簡単な説明】
【0013】
図1図1は、実施例に係る情報処理装置の構成を示す機能ブロック図である。
図2図2は、実施例に係るMDシミュレーション処理のフローチャートを示す図である。
図3図3は、実施例に係る外れ構造検出処理のフローチャートを示す図である。
図4A図4Aは、実施例に係る外れ構造検出の具体例を示す図(1)である。
図4B図4Bは、実施例に係る外れ構造検出の具体例を示す図(2)である。
図4C図4Cは、実施例に係る外れ構造検出の具体例を示す図(3)である。
図4D図4Dは、実施例に係る外れ構造検出の具体例を示す図(4)である。
図4E図4Eは、実施例に係る外れ構造検出の具体例を示す図(5)である。
図4F図4Fは、実施例に係る外れ構造検出の具体例を示す図(6)である。
図4G図4Gは、実施例に係る外れ構造検出の具体例を示す図(7)である。
図5図5は、外れ度合いを考慮しない場合のMDシミュレーションの結果を示す図である。
図6図6は、外れ度合いを考慮する場合のMDシミュレーションの結果を示す図である。
図7図7は、シミュレーションプログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0014】
以下に、本願の開示する情報処理装置、シミュレーションプログラムおよびシミュレーション方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。
【実施例】
【0015】
図1は、実施例に係る情報処理装置の構成を示す機能ブロック図である。図1に示す情報処理装置1は、タンパク質における生体機能の発現に関係するレアなイベントを外れ値検出手法によって抽出しやすくする。このために、情報処理装置1は、レアなイベントを誘起する遷移確率が高いと予想されるMDシミュレーションの初期構造を外れ値検出手法により検出する。つまり、レアなイベントを誘起する遷移確率が高いと予想される初期構造は、他の分子構造より外れにあると推定されるからである。そして、情報処理装置1は、外れ値検出手法により初期構造を検出した際に、初期構造に対して、誘起する遷移確率の度合いとして外れ度合いを定義する。そして、情報処理装置1は、外れ度合いが高い(誘起する遷移確率が高い)と判定される初期構造に対して重みを大きくしたMDシミュレーションを実行する。すなわち、情報処理装置1は、外れ度合いを考慮したMDシミュレーションを実行する。なお、以下の説明では、外れ値検出手法により検出される分子構造(初期構造)のことを「外れ構造」と記載する場合がある。また、分子構造のことを「データ要素」と記載する場合がある。
【0016】
情報処理装置1は、制御部10と、記憶部20とを有する。
【0017】
制御部10は、CPU(Central Processing Unit)などの電子回路に対応する。そして、制御部10は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部10は、外れ構造検出部11と、外れ度合い特定部12と、MDシミュレーション実行部13と、出力部14とを有する。
【0018】
記憶部20は、例えば、RAM、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部20は、親セル情報記憶部21と、子セル情報記憶部22と、外れ構造情報記憶部23とを有する。
【0019】
親セル情報記憶部21は、外れ構造を検出する際に用いられる親セルの情報を記憶する。子セル情報記憶部22は、外れ構造を検出する際に用いられる子セルの情報を記憶する。なお、親セル情報記憶部21および子セル情報記憶部22は、例えば、外れ構造検出部11によって用いられる。
【0020】
外れ構造情報記憶部23は、外れ構造の情報を記憶する。外れ構造の情報には、外れ構造そのものの情報や外れ構造につけられる外れ度合いの情報が挙げられる。なお、外れ構造情報記憶部23は、例えば、外れ度合い特定部12およびMDシミュレーション実行部13によって用いられる。
【0021】
外れ構造検出部11は、構造空間における分子構造の分布について、外れ値検出手法により外れにある分子構造を検出する。実施例に係る外れ値検出手法は、例えば、クラスタリング手法に基づくFlexDiceを拡張したものを適用するものとする。
【0022】
例えば、外れ構造検出部11は、構造空間における分子構造の分布について、外れ値検出手法を用いて階層毎に分子構造の外れ構造として検出する。一例として、外れ構造検出部11は、構造空間における親セル内の分子構造を振り分け、2分割して分子構造が振り分けられた空間に子セルを構築する。ここでいうセルとは、構造空間のD次元直方体であるデータ空間のことをいう。ここでいう親セルとは、子セルに対して上位階層のセルのことをいう。具体的には、外れ構造検出部11は、2次元空間である場合には、親セルを4分割してでき、かつ、分子構造が存在する空間に子セルを構築する。
【0023】
外れ構造検出部11は、子セルについて、分子構造の密度に応じて、疎セル、密セル、中セルであるかを判定する。ここで、セルには、分子構造の密度に応じて密セル、中セル、疎セルの区別がある。ここでいう密度とは、1辺が単位長さであるD次元立法体当たりの要素数のことをいう。一例として、最下位層以外の階層では、密セルは、セルの密度が所定の閾値MAX以上のセルのことをいう。中セルは、セルの密度が閾値MIN以上かつ閾値MAXより小さいセルのことをいう。疎セルは、セルの密度が閾値MINより小さいセルのことをいう。最下位層では、中セルは作成されず、密セルは、セルの密度が閾値MEAN以上のセルのことをいう。疎セルは、セルの密度が閾値MEANより小さいセルのことをいう。各閾値は、外れ値検出手法の入力パラメータとして自動または手動で与えられる。そして、外れ構造検出部11は、疎セルと判定された子セルに含まれるデータ要素を外れ構造として検出する。
【0024】
なお、外れ構造検出部11は、外れ値検出手法としてFlexDiceを拡張したものを適用するものとしたが、これに限定されず、外れ度合いを検出可能な外れ値検出手法であれば、いかなる方法であっても良い。
【0025】
外れ度合い特定部12は、外れ構造それぞれに外れ度合いを特定する。例えば、外れ度合い特定部12は、外れ構造に外れ度合いをつけるために、疎セルと判定された子セルに含まれるデータ要素を集める。集められたデータ要素は、ノイズであり、外れ値の集合である。外れ値の集合は、階層毎に集められる。そして、外れ度合い特定部12は、外れ値の集合に対して外れ度合いを特定する。
【0026】
ここで、外れ度合いについて説明する。外れ度合いは、階層を用いて特定される。すなわち、階層が下位であれば(階層の数が増えれば)、該階層で疎セルと判定された子セルに含まれるデータ要素の外れ度合いは低くなる。つまり、階層が下位である程(階層の数が増える程)、外れ構造を安定構造の近くで検出するので、外れ構造の外れ度合いは低くなる。一方、階層が上位である程(階層の数が減る程)、外れ構造を安定構造の遠くで検出するので、外れ構造の外れ度合いは高くなる。このように、外れ度合いは、階層を用いて特定できる。例えば、0層から最下位層kまで外れ構造を検出する場合、1層で検出された外れ構造の外れ度合いは「1」となる。k−1層で検出された外れ構造の外れ度合いは「k−1」となる。k層で検出された外れ構造の外れ度合いは「k」となる。階層がk層に近づく程、外れ度合いは低くなる。階層が0層に近づく程、外れ度合いは高くなる。
【0027】
MDシミュレーション実行部13は、外れ度合いのついた外れ構造を初期構造とするMDシミュレーションを実行する。例えば、MDシミュレーション実行部13は、外れ度合いが高い程、重い重み付けをした外れ構造を初期構造としてMDシミュレーションを実行する。一例として、MDシミュレーション実行部13は、外れ度合いが最も低い外れ構造を1倍、2番目に低い外れ構造を2倍、3番目に低い外れ構造を3倍のように重み付けをする。そして、重み付けされた外れ構造を初期構造として初期速度の再配分によるMDシミュレーションを実行する。なお、MDシミュレーションは、外れ構造の個数分、独立して実行される。
【0028】
MDシミュレーション実行部13は、実行して得られるトラジェクトリを用いて構造空間における分子構造の分布をアップデートする。MDシミュレーション実行部13は、構造空間における分子構造の分布が収束すれば、MDシミュレーションの実行を終了する。MDシミュレーション実行部13は、構造空間における分子構造の分布が収束しなければ、外れ構造検出部11に移行する。なお、MDシミュレーションには、Amberなど代表的なものが用いられる。
【0029】
出力部14は、MDシミュレーション実行部13の実行で得られたトラジェクトリを、構造空間へ射影したプロットを出力する。射影する構造空間は、例えば、N次元の主成分座標空間における上位2次元の座標空間のことをいう。しかしながら、射影する構造空間は、上位3次元の座標空間であっても良いし、N次元の主成分座標空間であっても良い。
【0030】
[MDシミュレーション処理のフローチャート]
図2は、実施例に係るMDシミュレーション処理のフローチャートを示す図である。なお、一例として、MDシミュレーション処理が、タンパク質の分子構造の構造変化を抽出する場合を説明する。
【0031】
最初に、初期構造を入力したMDシミュレーション実行部13は、入力した初期構造を用いてMDシミュレーションを実行し、実行して得られるタンパク質のトラジェクトリを取得する(ステップS11)。そして、MDシミュレーション実行部13は、取得したトラジェクトリを反応座標に射影し、構造空間におけるタンパク質の分子構造の分布を算出する(ステップS12)。
【0032】
続いて、外れ構造検出部11は、FlexDiceの拡張によって外れ度合いのついた外れ構造を検出する(ステップS13)。なお、外れ構造検出処理のフローチャートは、後述するものとする。
【0033】
続いて、MDシミュレーション実行部13は、外れ構造検出部11によって検出された外れ度合いのついた外れ構造を受け取る(ステップS14)。ここでは、外れ度合いのついた外れ構造は、N個受け取られたとする。Nは、3より大きい自然数である。なお、Nは、1であっても良いし、2であっても良いし、検出された外れ構造の数であれば良い。
【0034】
MDシミュレーション実行部13は、外れ度合いに応じて重み付けされた外れ構造を初期構造として初期速度の再配分によるMDシミュレーションを実行する(ステップS15)。MDシミュレーション実行部13は、独立なN個のMDシミュレーションを実行する(ステップS16)。
【0035】
MDシミュレーション実行部13は、実行結果であるN個のタンパク質のトラジェクトリを取得する(ステップS17)。MDシミュレーション実行部13は、取得したN個のトラジェクトリを用いて構造空間におけるタンパク質の分子構造の分布を算出し、算出した分布をアップデートする(ステップS18)。
【0036】
MDシミュレーション実行部13は、アップデートした分布が収束したか否かを判定する(ステップS19)。アップデートした分布が収束していないと判定した場合には(ステップS19;No)、MDシミュレーション実行部13は、該分布を用いた外れ度合いのついた外れ構造を検出すべく、ステップS13に移行する。すなわち、MDシミュレーション実行部13は、構造空間におけるタンパク質の分子構造の分布をアップデートしながら、外れ構造検出とMDシミュレーションによる構造変化の探索(構造探索)を繰り返す。
【0037】
一方、アップデートした分布が収束したと判定した場合には(ステップS19;Yes)、MDシミュレーション実行部13は、MDシミュレーション処理を終了する。この後、出力部14は、分布が収束した際に得られたトラジェクトリを、構造空間へ射影したプロットを出力する。
【0038】
[外れ構造検出処理のフローチャート]
図3は、実施例に係る外れ構造検出処理のフローチャートを示す図である。なお、図3では、タンパク質の分子構造のことをデータ要素と記載する。また、外れ構造検出処理に与える入力パラメータには、閾値MAX、閾値MIN、閾値MEAN、最大の最下位層数が含まれる。
【0039】
図3に示すように、外れ構造検出部11は、構造空間における親セル内のデータ要素を振り分け、動的に子セルを構築する(ステップS21)。例えば、構造空間が2次元空間である場合には、外れ構造検出部11は、第k層で作成された中セルを4分割し、中セルに含まれるデータ要素を第(k+1)層のセルへ振り分ける。第k層の中セルが親セルに対応し、第(k+1)層のセルが子セルに対応する。
【0040】
そして、外れ構造検出部11は、子セルを疎セル、密セル、中セルに判定する(ステップS22)。例えば、外れ構造検出部11は、子セルの密度が閾値MAX以上である場合には、密セルと判定する。外れ構造検出部11は、子セルの密度が閾値MIN以上かつ閾値MAXより小さい場合には、中セルと判定する。外れ構造検出部11は、子セルの密度が閾値MINより小さい場合には、疎セルと判定する。
【0041】
そして、外れ度合い特定部12は、階層毎に疎セルと判定された子セルに含まれるデータ要素の外れ度合いを特定する(ステップS23)。例えば、外れ度合い特定部12は、疎セルと判定された子セルに含まれるデータ要素をノイズとして1つのグループに集める。集められたグループが、子セルの階層の外れ値集合である。外れ度合い特定部12は、グループに集められたデータ要素に外れ度合いを階層として特定する。
【0042】
続いて、外れ構造検出部11は、疎の子セルを削除する(ステップS24)。これは、記憶部20の空き容量を増やすためである。そして、外れ構造検出部11は、疎の子セルに含まれていたデータ要素を、一例として外れ構造情報記憶部23に記憶する。
【0043】
そして、外れ構造検出部11は、全ての構築された子セルのために、隣接リンクを生成する(ステップS25)。すなわち、外れ構造検出部11は、密セルおよび中セルについて、隣接する子セル同士をつなげる。なお、隣接リンクは、異なる階層に存在するセル間でも生成される。
【0044】
そして、外れ構造検出部11は、親セルを削除する(ステップS26)。
【0045】
続いて、外れ構造検出部11は、子セルは最下位層であるか否かを判定する(ステップS27)。例えば、外れ構造検出部11は、子セルの階層数が最大の最下位層数であるか否かを判定する。子セルが最下位層でないと判定した場合には(ステップS27;No)、外れ構造検出部11は、中セルを親セルとみなし(ステップS28)、次の階層で疎セルを探索すべく、ステップS21に移行する。
【0046】
一方、子セルが最下位層であると判定した場合には(ステップS27;Yes)、外れ構造検出部11は、子セルを疎セル、密セルに判定する(ステップS29)。例えば、外れ構造検出部11は、子セルの密度が閾値MEAN以上である場合には、密セルと判定する。外れ構造検出部11は、子セルの密度が閾値MEANより小さい場合には、疎セルと判定する。
【0047】
そして、外れ度合い特定部12は、最下位層に対して、疎セルと判定された子セルに含まれるデータ要素の外れ度合いを特定する(ステップS30)。そして、外れ構造検出部11は、外れ構造検出処理を終了する。
【0048】
[外れ構造検出の具体例]
図4A図4Gは、実施例に係る外れ構造検出の具体例を示す図である。図4A図4Gでは、構造空間が2次元空間である場合とする。外れ構造検出部11は、データ空間を0層から入力パラメータで与えられる最大の最下位層数k+2の層まで、中セルと判定されたセルの分割を繰り返し、新たにセルを構築する。
【0049】
図4Aには、k−1層で中セルと判定されたセルが示されている。セルには、タンパク質の分子構造に対応するデータ要素が複数含まれている。1つの丸が1つのデータ要素であるとする。このような状況の下、外れ構造検出部11は、k−1層の中セルを親セルとして、親セルを4分割する。そして、外れ構造検出部11は、親セル内のデータ要素をk層のセルに振り分け、動的に子セルを構築する。
【0050】
図4Bには、k層に構築された子セルが示されている。外れ構造検出部11は、子セルを疎セル、密セル、中セルに判定する。ここでは、符号C1で示される子セルが密セル、符号C2、C3で示される子セルが中セル、符号C4で示される子セルが疎セルと判定されるとする。
【0051】
そして、外れ度合い特定部12は、疎セルと判定された子セルに含まれるデータ要素の外れ度合いを特定する。ここでは、符号C4で示される子セルに含まれるデータ要素の外れ度合いは、階層の数である「k」と特定される。そして、外れ構造検出部11は、k層の疎の子セルC4を削除し、疎の子セルに含まれていたデータ要素を記憶する。
【0052】
そして、外れ構造検出部11は、密セルおよび中セルについて、隣接リンクを生成する。両端の矢印は、同一階層に存在するセル間で隣接リンクが生成されたことを示す。
【0053】
図4Cでは、k+1層にk層において既に判定された密セルC1が示されている。k層には、中セルC2、C3が示されている。なお、疎セルと判定された子セルC4に含まれていたデータ要素が記憶されていることが示されている。このような状況の下、外れ構造検出部11は、k層の中セルを親セルとして、親セルを4分割する。そして、外れ構造検出部11は、親セル内のデータ要素をk+1層のセルに振り分け、動的に子セルを構築する。
【0054】
図4Dには、中セルと判定されたセルC2、C3について、k+1層に構築された子セルが示されている。外れ構造検出部11は、子セルを疎セル、密セル、中セルに判定する。ここでは、セルC2について、符号C21、C23で示される子セルを密セル、符号C22で示される子セルを中セル、符号C24で示される子セルを疎セルと判定されるとする。セルC3について、符号C31、C32で示される子セルが密セル、符号C33で示される子セルが中セルと判定されるとする。疎セルと判定される子セルはなかったとする。
【0055】
そして、外れ度合い特定部12は、疎セルと判定された子セルに含まれるデータ要素の外れ度合いを特定する。ここでは、符号C24で示される子セルに含まれるデータ要素の外れ度合いは、階層の数である「k+1」と特定される。そして、外れ構造検出部11は、k+1層の疎の子セルC24を削除し、疎の子セルに含まれていたデータ要素を記憶する。
【0056】
そして、外れ構造検出部11は、密セルおよび中セルについて、隣接リンクを生成する。両端の矢印は、同一階層に存在するセル間で隣接リンクが生成されたことを示す。一端の矢印は、異なる階層に存在するセル間で隣接リンクが生成されたことを示す。
【0057】
図4Eには、同様に、中セルと判定されたセルC22、C33について、k+2層に構築された子セルが示されている。ここでは、k+2層は、最大の最下位層であるので、外れ構造検出部11は、子セルを疎セル、密セルに判定する。セルC22について、符号C221、C222で示される子セルが密セルと判定されるとする。疎セルと判定される子セルはなかったとする。セルC33について、符号C331で示される子セルが密セル、符号C332で示される子セルが疎セルと判定されるとする。
【0058】
そして、外れ度合い特定部12は、疎セルと判定された子セルに含まれるデータ要素の外れ度合いを特定する。ここでは、符号C332で示される子セルに含まれるデータ要素の外れ度合いは、階層の数である「k+2」と特定される。
【0059】
そして、外れ構造検出部11は、密セルおよび中セルについて、隣接リンクを生成する。両端の矢印は、同一階層に存在するセル間で隣接リンクが生成されたことを示す。一端の矢印は、異なる階層に存在するセル間で隣接リンクが生成されたことを示す。
【0060】
そして、図4Fに示すように、外れ構造検出部11は、密セルと隣接リンクから接続するセル内のデータ要素を集めてクラスタを形成する。
【0061】
なお、図4Gに示すように、外れ度合い特定部12は、外れ構造に外れ度合いをつける際に、階層毎に外れ値集合を作成する。すなわち、外れ度合い特定部12は、疎セルと判定される子セルに含まれるデータ要素(ノイズ)を、階層毎に1つのグループに集める。そして、外れ度合い特定部12は、外れ値集合に対して外れ度合いを特定する。ここでは、外れ値集合1に含まれるノイズが、外れ度合いとして「k」と特定されたデータ要素である。外れ値集合2に含まれるノイズが、外れ度合いとして「k+1」と特定されたデータ要素である。外れ値集合3に含まれるノイズが、外れ度合いとして「k+2」と特定されたデータ要素である。
【0062】
[MDシミュレーションの結果]
次に、FlexDiceによる外れ値検出手法を適用したMDシミュレーションの結果を、図5および図6を参照して説明する。図5は、外れ度合いを考慮しない場合のMDシミュレーションの結果を示す図である。図6は、外れ度合いを考慮する場合のMDシミュレーションの結果を示す図である。
【0063】
図5では、FlexDiceによる外れ値検出手法(外れ度合い考慮なし)を適用した15回の構造探索により得たトラジェクトリを2次元構造空間へ射影したプロットが示されている。ここで、図5のX座標のPC1とY座標のPC2は、9次元の主成分座標空間における上位の2次元座標である。そして、外れ値検出は、9次元のオリジナルデータで実行したものである。
【0064】
図5に示すように、外れ度合いを考慮しない場合の計算結果が示されている。
【0065】
図6では、FlexDiceによる外れ値検出手法(外れ度合い考慮あり)を適用した15回の構造探索により得たトラジェクトリを2次元構造空間へ射影したプロットが示されている。ここで、図6のX座標のPC1とY座標のPC2は、9次元の主成分座標空間における上位の2次元座標である。そして、外れ値検出は、図5の場合と同じ9次元のオリジナルデータで実行したものである。この際、MDシミュレーション実行部13は、外れ構造検出部11によって検出された外れ構造に対して、外れ度合いが最も低い外れ構造、すなわち最下位層で検出された外れ構造を1倍に重み付けする。2番目に低い外れ構造、すなわち1つ上の階層で検出された外れ構造を2倍に重み付けする。3番目に低い外れ構造、すなわちさらに1つ上の階層で検出された外れ構造を3倍というように重み付けする。そして、重み付けされた外れ構造を初期構造として初期速度の再配分によるMDシミュレーションを実行したものである。
【0066】
図6に示すように、外れ度合いを考慮した場合の計算結果が示されている。この結果、外れ度合いを考慮することにより、図5ではサンプルができていない円で囲まれた領域もサンプルすることができた。つまり、外れ度合いを考慮するMDシミュレーション実行部13は、外れ度合いを考慮しない場合と比べて、広い範囲の構造空間をサンプルすることが可能となる。特に、安定構造LM3は、長時間のMDシミュレーションや、外れ度合いを考慮しないMDシミュレーションでは検出できなかった構造である。これにより、外れ度合いを考慮するMDシミュレーション実行部13は、レアなイベントを効率的に検出することができる。
【0067】
[実施例の効果]
上記実施例によれば、情報処理装置1は、構造空間における分子構造の分布について、所定の外れ値検出手法により外れにある分子構造を検出する。情報処理装置1は、検出された分子構造に対して外れ度合いを特定する。情報処理装置1は、特定された外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行する。かかる構成によれば、情報処理装置1は、外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行することで、出現確率の低い分子構造の構造変化を起こしやすくでき、該構造変化の抽出を短縮できる。
【0068】
また、上記実施例によれば、情報処理装置1は、階層を用いた外れ値検出手法により階層毎に外れにある分子構造を検出する。情報処理装置1は、検出された分子構造に対して階層に応じた外れ度合いを特定する。かかる構成によれば、情報処理装置1は、階層を外れ度合いとすることで、容易に外れ度合いを考慮した分子シミュレーションを実行することができる。つまり、情報処理装置1は、階層が下位である程、外れ構造を安定構造の近くで検出できるので、外れ構造の外れ度合いを低く特定でき、容易に外れ度合いを考慮した分子シミュレーションを実行することが可能となる。
【0069】
また、上記実施例によれば、情報処理装置1は、構造空間における第1の階層内の、分子構造の密度が中間の部分空間の分子構造を当該第1の階層の1つ下位の階層である第2の階層に振り分ける。情報処理装置1は、第2の階層の分子構造の密度について、高い部分空間であるか、低い部分空間であるか、中間の部分空間であるかを判定し、低い部分空間に含まれる分子構造を検出する。かかる構成によれば、情報処理装置1は、密度の低い部分空間に含まれる分子構造を検出することで、外れに位置する分子構造を容易に検出できる。
【0070】
また、上記実施例によれば、情報処理装置1は、検出された分子構造の階層が上位である程、分子構造に対する外れ度合いを高く設定する。かかる構成によれば、情報処理装置1は、階層が上位である程、外れ構造を安定構造の遠くで検出可能となるので、外れ構造の外れ度合いを高く設定できる。この結果、情報処理装置1は、外れ度合いを考慮した分子シミュレーションを実行することにより、出現確率の低い分子構造の構造変化を起こしやすくできる。
【0071】
[その他]
なお、図示した情報処理装置1の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、情報処理装置1の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、外れ構造検出部11と外れ度合い特定部12とを1つの部として統合しても良い。また、MDシミュレーション実行部13を、外れ構造に重み付けをする設定部と重み付けされた外れ構造を初期構造としてMDシミュレーションを実行する実行部とに分離しても良い。また、記憶部20を情報処理装置1の外部装置としてネットワーク経由で接続するようにしても良い。
【0072】
また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図1に示した情報処理装置1と同様の機能を実現するシミュレーションプログラムを実行するコンピュータの一例を説明する。図7は、シミュレーションプログラムを実行するコンピュータの一例を示す図である。
【0073】
図7に示すように、コンピュータ200は、各種演算処理を実行するCPU203と、ユーザからのデータの入力を受け付ける入力装置215と、表示装置209を制御する表示制御部207とを有する。また、コンピュータ200は、記憶媒体からプログラムなどを読取るドライブ装置213と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部217とを有する。また、コンピュータ200は、各種情報を一時記憶するメモリ201と、HDD205を有する。そして、メモリ201、CPU203、HDD205、表示制御部207、ドライブ装置213、入力装置215、通信制御部217は、バス219で接続されている。
【0074】
ドライブ装置213は、例えばリムーバブルディスク210用の装置である。HDD205は、シミュレーションプログラム205aおよびシミュレーション関連情報205bを記憶する。
【0075】
CPU203は、シミュレーションプログラム205aを読み出して、メモリ201に展開し、プロセスとして実行する。かかるプロセスは、情報処理装置1の各機能部に対応する。シミュレーション関連情報205bは、親セル情報記憶部21、子セル情報記憶部22および外れ構造情報記憶部23に対応する。そして、例えばリムーバブルディスク211が、シミュレーションプログラム205aなどの各情報を記憶する。
【0076】
なお、シミュレーションプログラム205aについては、必ずしも最初からHDD205に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ200がこれらからシミュレーションプログラム205aを読み出して実行するようにしても良い。
【0077】
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0078】
(付記1)構造空間における分子構造の分布について、所定の外れ値検出手法により外れにある分子構造を検出する検出部と、
前記検出部により検出された分子構造に対して外れ度合いを特定する特定部と、
前記特定部により特定された外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行する実行部と、
を有することを特徴とする情報処理装置。
【0079】
(付記2)前記検出部は、階層を用いた前記外れ値検出手法により階層毎に外れにある分子構造を検出し、
前記特定部は、前記検出部により検出された分子構造に対して前記階層に応じた外れ度合いを特定する
ことを特徴とする付記1に記載の情報処理装置。
【0080】
(付記3)前記検出部は、前記構造空間における第1の階層内の、分子構造の密度が中間の部分空間の分子構造を前記第1の階層の1つ下位の階層である第2の階層に振り分け、前記第2の階層の分子構造の密度について、高い部分空間であるか、低い部分空間であるか、中間の部分空間であるかを判定し、低い部分空間に含まれる分子構造を検出する
ことを特徴とする付記2に記載の情報処理装置。
【0081】
(付記4)前記特定部は、前記検出部により検出された分子構造の階層が上位である程、前記分子構造に対する前記外れ度合いを高く設定する
ことを特徴とする付記2に記載の情報処理装置。
【0082】
(付記5)前記外れ値検出手法は、外れ度合いを特定可能な検出手法である
ことを特徴とする付記1に記載の情報処理装置。
【0083】
(付記6)コンピュータに、
構造空間における分子構造の分布について、所定の外れ値検出手法により外れにある分子構造を検出し、
前記検出する処理により検出された分子構造に対して外れ度合いを特定し、
前記特定する処理により特定された外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行する
処理を実行させることを特徴とするシミュレーションプログラム。
【0084】
(付記7)コンピュータは、
構造空間における分子構造の分布について、所定の外れ値検出手法により外れにある分子構造を検出し、
前記検出する処理により検出された分子構造に対して外れ度合いを特定し、
前記特定する処理により特定された外れ度合いが高い程、重い重みを付加した分子構造を初期構造とする分子シミュレーションを実行する
各処理を実行することを特徴とするシミュレーション方法。
【符号の説明】
【0085】
1 情報処理装置
10 制御部
11 外れ構造検出部
12 外れ度合い特定部
13 MDシミュレーション実行部
14 出力部
20 記憶部
21 親セル情報記憶部
22 子セル情報記憶部
23 外れ構造情報記憶部
図1
図2
図3
図4A
図4B
図4C
図4D
図4E
図4F
図4G
図5
図6
図7