IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人慶應義塾の特許一覧

特許7298870分子動力学データ解析装置及びプログラム
<>
  • 特許-分子動力学データ解析装置及びプログラム 図1
  • 特許-分子動力学データ解析装置及びプログラム 図2
  • 特許-分子動力学データ解析装置及びプログラム 図3
  • 特許-分子動力学データ解析装置及びプログラム 図4
  • 特許-分子動力学データ解析装置及びプログラム 図5
  • 特許-分子動力学データ解析装置及びプログラム 図6
  • 特許-分子動力学データ解析装置及びプログラム 図7
  • 特許-分子動力学データ解析装置及びプログラム 図8A
  • 特許-分子動力学データ解析装置及びプログラム 図8B
  • 特許-分子動力学データ解析装置及びプログラム 図8C
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-19
(45)【発行日】2023-06-27
(54)【発明の名称】分子動力学データ解析装置及びプログラム
(51)【国際特許分類】
   G16C 10/00 20190101AFI20230620BHJP
   G16C 20/70 20190101ALI20230620BHJP
【FI】
G16C10/00
G16C20/70
【請求項の数】 6
(21)【出願番号】P 2019048988
(22)【出願日】2019-03-15
(65)【公開番号】P2020149617
(43)【公開日】2020-09-17
【審査請求日】2022-03-02
(73)【特許権者】
【識別番号】598121341
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】泰岡 顕治
(72)【発明者】
【氏名】湯原 大輔
(72)【発明者】
【氏名】遠藤 克浩
(72)【発明者】
【氏名】友部 勝文
【審査官】山田 倍司
(56)【参考文献】
【文献】特開平11-176906(JP,A)
【文献】特開2017-76359(JP,A)
【文献】特表2020-533998(JP,A)
【文献】遠藤 克浩 外2名,MD-GAN:機械学習による分子動力学シミュレーションの高速化,分子シミュレーション学会誌 “アンサンブル”,日本,2019年01月,Vol.21, No.1,p.39-44
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
第1の分子系の第1の分子の所定の挙動に関する第1の時系列データと、第2の分子系の第2の分子の前記所定の挙動に関する第2の時系列データとを取得する時系列データ取得部と、
前記取得した第1の時系列データと第2の時系列データとを学習済み機械学習モデルに入力し、前記第1の時系列データと前記第2の時系列データとの間のワッサースタイン距離を前記第1の分子系と前記第2の分子系との類似度として前記学習済み機械学習モデルから出力する類似度決定部と、
を有する分子動力学データ解析装置。
【請求項2】
前記所定の挙動は、分子の座標、速度、力又は回転である、請求項1記載の分子動力学データ解析装置。
【請求項3】
前記第1の分子系と前記第2の分子系とは、異なる状態における同一の分子種から構成される、請求項1又は2記載の分子動力学データ解析装置。
【請求項4】
複数の分子系のペアに対して決定されたワッサースタイン距離に基づき、前記複数の分子系の類似度を可視化する類似度可視化部を更に有する、請求項1乃至3何れか一項記載の分子動力学データ解析装置。
【請求項5】
前記類似度に基づき最も類似していない2つの分子系を決定し、前記2つの分子系の間の相違に寄与する分子及び前記分子の時系列データを決定する相違要因特定部を更に有する、請求項1乃至4何れか一項記載の分子動力学データ解析装置。
【請求項6】
請求項1乃至5何れか一項記載の分子動力学データ解析装置の各部としてプロセッサを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分子動力学データを解析するための技術に関するものである。
【背景技術】
【0002】
ライフサイエンス、環境エネルギー、ものづくりなどの様々な分野において、所望の物理量を有する新規分子を合成する材料開発が行われている。この材料開発においては、物理量と分子の振る舞いとの因果関係を導くことが、所望の物理量を有する分子を合成する上で必須である。特に分子ダイナミクス(MD)は、多くの物理量と因果関係を有するため、MDシミュレーション等によって研究開発が進められている。MDシミュレーションは、原子を数値積分によって時々刻々と時間発展させることで、任意の分子系のダイナミクスを再現する手法である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、MDシミュレーションのデータを解析することはいくつかの困難点がある。例えば、解析のために統計解析や量子力学などの物理学の専門知識が必要とされる。また、データが膨大且つ複雑である。このため、材料開発の分子デザインに関する研究開発は大きなコストを要する。
【0004】
一方、ディープラーニングが材料開発に利用されてきている。ディープラーニングを利用した既存手法として、材料開発のための分子情報の埋め込みについて、分子構造を文字列(SMILES(Simplified Molecular Input Line Entry System)記法など)に変換し、オートエンコーダを構築して数値表現を獲得する手法がある。
【0005】
しかしながら、当該既存手法は、分子構造のみを入力とし、物理量にとって重要な要因である分子ダイナミクスを考慮していない。
【0006】
上述した問題点を鑑み、本発明の課題は、機械学習モデルを利用して分子動力学データを解析するための技術を提供することである。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明の一態様は、第1の分子系の第1の分子の所定の挙動に関する第1の時系列データと、第2の分子系の第2の分子の前記所定の挙動に関する第2の時系列データとを取得する時系列データ取得部と、前記取得した第1の時系列データと第2の時系列データとを学習済み機械学習モデルに入力し、前記第1の時系列データと前記第2の時系列データとの間のワッサースタイン距離を前記第1の分子系と前記第2の分子系との類似度として前記学習済み機械学習モデルから出力する類似度決定部と、を有する分子動力学データ解析装置に関する。
【発明の効果】
【0008】
本発明によると、機械学習モデルを利用して分子動力学データを解析することが可能になる。
【図面の簡単な説明】
【0009】
図1図1は、本発明の一実施例による分子動力学データ解析処理を示す概略図である。
図2図2は、本発明の一実施例による分子動力学データ解析装置を示す概略図である。
図3図3は、本発明の一実施例による分子動力学データ解析装置の機能構成を示すブロック図である。
図4図4は、本発明の一実施例による分子動力学データ解析処理を示すフローチャートである。
図5図5は、本発明の一実施例による可視化された分子系間の類似度を示す概略図である。
図6図6は、本発明の他の実施例による分子動力学データ解析装置の機能構成を示すブロック図である。
図7図7は、本発明の一実施例による分子の挙動を表す確率密度を示す図である。
図8A図8Aは、本発明の一実施例による適用例を示す図である。
図8B図8Bは、本発明の一実施例による適用例を示す図である。
図8C図8Cは、本発明の一実施例による適用例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面に基づいて本発明の実施の形態を説明する。
【0011】
以下の実施例では、異なる分子系(例えば、温度、拡散係数などの諸物理量が異なっている系、また系内に含まれる分子種が異なっている系など)の間の類似度を導出する分子動力学データ解析装置が開示される。後述される実施例による分子動力学データ解析装置は、2つの分子系から抽出されたそれぞれの単一の分子の挙動に関する時系列データを入力として取得すると、2つの分子系間の類似度(例えば、ワッサースタイン距離)を出力する学習済みニューラルネットワークを利用することによって、時系列データを解析する。図1に示されるように、分子動力学データ解析装置は、異なる分子系のそれぞれの分子の所定の挙動に関する時系列データ(例えば、分子の座標、速度、力、回転などに関する時系列データ)を取得すると、取得した時系列データを学習済みニューラルネットワークに入力し、出力として当該分子系間の類似度を取得する。また、分子動力学データ解析装置は、複数の分子系間について取得した類似度に基づき、分子系の類似関係を可視化することが可能である。
【0012】
このようにして、膨大なデータ量により表される分子ダイナミクスを所定の挙動に関して低次元空間に埋め込み、軽量化された埋め込みデータによって、分子系間の類似度を推定することが可能になる。
【0013】
まず、図2を参照して、本発明の一実施例による分子動力学データ解析装置の概略を説明する。図2は、本発明の一実施例による分子動力学データ解析装置を示す概略図である。
【0014】
図2に示されるように、異なる分子系S,Sのそれぞれにおける単一の分子x,xの座標、速度、力、回転などの所定の挙動に関する時系列データy,yが与えられると、本実施例による分子動力学(MD)データ解析装置100は、学習済みニューラルネットワークを利用して、時系列データyとyとの間の類似度又は統計的距離を示すワッサースタイン距離を出力する。
【0015】
一例として、分子系S,Sは、温度が異なる同一分子種の分子系であってもよく、分子系S,Sからそれぞれ抽出された単一の分子x,xの座標の時系列データが、学習済みニューラルネットワークに入力され、分子系S,Sの分子x,xの確率分布の間の類似度又は統計的距離を示すワッサースタイン距離が導出されてもよい。他の例として、分子系S,Sは、拡散係数が異なる同一分子種の分子系であってもよく、分子系S,Sからそれぞれ抽出された単一の分子x,xの座標の時系列データが、学習済みニューラルネットワークに入力され、分子系S,Sの分子x,xの確率分布の間の類似度又は統計的距離を示すワッサースタイン距離が導出されてもよい。更なる他の例として、分子系S,Sは、異なる分子種の分子系であってもよく、分子系S,Sからそれぞれ抽出された単一の分子x,xの回転の時系列データが、学習済みニューラルネットワークに入力され、分子系S,Sの分子x,xの確率分布の間の類似度又は統計的距離を示すワッサースタイン距離が導出されてもよい。
【0016】
なお、分子動力学データ解析装置100は、パーソナルコンピュータ、サーバ、専用の回路などの何れかの情報処理装置により実現されてもよい。分子動力学データ解析装置100は、例えば、バスBを介し相互接続されるドライブ装置101、補助記憶装置102、メモリ装置103、CPU(Central Processing Unit)104、インタフェース装置105及び通信装置106などのハードウェア構成を有してもよい。分子動力学データ解析装置100は、プロセッサを後述される機能部の全て又は一部として機能させるプログラムによって実現されてもよい。
【0017】
分子動力学データ解析装置100における各種機能及び処理を実現するプログラムを含む各種コンピュータプログラムは、CD-ROM(Compact Disk-Read Only Memory)などの記録媒体107によって提供されてもよい。プログラムを記憶した記録媒体107がドライブ装置101にセットされると、プログラムが記録媒体107からドライブ装置101を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体107により行う必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータなどを格納する。メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムやデータを読み出して格納する。プロセッサとして機能するCPU104は、メモリ装置103に格納されたプログラムやプログラムを実行するのに必要なパラメータなどの各種データに従って、後述されるような分子動力学データ解析装置100の各種機能及び処理を実行する。インタフェース装置105は、ネットワーク又は外部装置に接続するための通信インタフェースとして用いられる。通信装置106は、端末や外部装置と通信するための各種通信処理を実行する。しかしながら、分子動力学データ解析装置100は、上述したハードウェア構成に限定されるものでなく、他の何れか適切なハードウェア構成により実現されてもよい。
【0018】
次に、図3を参照して、本発明の一実施例による分子動力学データ解析装置の構成を説明する。図3は、本発明の一実施例による分子動力学データ解析装置の機能構成を示すブロック図である。
【0019】
図3に示されるように、分子動力学データ解析装置100は、時系列データ取得部110及び類似度決定部120を有する。
【0020】
時系列データ取得部110は、分子系Sの分子xの所定の挙動に関する時系列データyと、分子系Sの分子xの当該挙動に関する時系列データyとを取得する。具体的には、分子x,xは、分子系S,Sに含まれる分子の集合X,Xから抽出された単一の分子であり、例えば、分子の集合X,Xからランダムに選択されたものであってもよい。また、時系列データy,yは、例えば、分子系S,Sに対して行われた分子動力学シミュレーションの結果から取得されたものであってもよく、所定の期間における座標、速度、力、回転などの所定の挙動に関する分子x,xの軌跡を表す。
【0021】
類似度決定部120は、取得した時系列データy,yを学習済み機械学習モデルに入力し、時系列データy,yの間のワッサースタイン距離を分子系S,Sの類似度として学習済み機械学習モデルから出力する。具体的には、2つの時系列データy,yの間のワッサースタイン距離は、
【0022】
【数1】
により定義される。ここで、supは全ての1-リプシッツ関数fに対する上限である。
【0023】
このようなワッサースタイン距離は、"Wasserstein GAN", Martin Arjovsky, Soumith Chintala, and Leon Bottou, arXiv: 1701.07875v3, Dec. 6, 2017などに開示されるように、当業者に周知のワッサースタインGANs(WGANs)により学習されたニューラルネットワークにより決定可能である。例えば、ニューラルネットワーク(WGANsの識別器)のモデルパラメータをθとし、f(x)をf(x;θ)としたとき、勾配ペナルティで用いられる損失関数を最小化することによって、(数1)を満たすような最適なθが学習される。より詳細には、比較対象の2つの分子系からサンプリングされた1分子の短い時系列データを入力し、識別器が正しく分子系間のワッサースタイン距離(数1)を出力するような、最適なパラメータθを学習する。学習時は、勾配ペナルティ(WGANs-gp)で用いられる損失関数を最小化するように学習を進め、求めたいワッサースタイン距離の値が収束したら学習は終了する。これを比較対象となる分子系の全組み合わせについて行う。当該学習処理は、WGANsによる教師なし学習であるが、これに限定されることなく、他の何れか適切な学習手法によって実現されてもよい。
【0024】
最適化されたf(x)をf(x)により表した場合、(数1)は、
【0025】
【数2】
として表される。
【0026】
なお、本発明による機械学習モデルは、ニューラルネットワークに限定されず、他の何れか適切なワッサースタイン距離を決定又は予測可能なモデルであってもよい。例えば、機械学習モデルは、線形計画法などの最適化手法に基づくものであってもよい。
【0027】
次に、図4を参照して、本発明の一実施例による分子動力学データ解析処理を説明する。図4は、本発明の一実施例による分子動力学データ解析処理を示すフローチャートである。当該分子動力学データ解析処理は、上述した分子動力学データ解析装置100、特に分子動力学データ解析装置100におけるプロセッサ101によって実行される。
【0028】
図4に示されるように、ステップS101において、分子動力学データ解析装置100は、比較対象の2つの分子系S,Sから抽出されたそれぞれの単一の分子x,xの所定の挙動に関する時系列データy,yを取得する。
【0029】
例えば、所定の挙動は、分子x,xの座標、速度、力又は回転であってもよい。また、分子系S,Sは、異なる状態(温度、拡散係数など)における同一の分子種から構成されてもよく、この場合、時系列データy,yは、異なる状態の分子系S,Sから抽出された同一の分子種の単一の分子x,xの座標、速度、力又は回転に関する時系列データであってもよい。あるいは、分子系S,Sは、同一の状態における異なる分子種から構成されてもよく、この場合、時系列データy,yは、同一の状態の分子系S,Sから抽出された異なる分子種の単一の分子x,xの座標、速度、力又は回転に関する時系列データであってもよい。
【0030】
ステップS102において、分子動力学データ解析装置100は、取得した2つの時系列データy,yを学習済みニューラルネットワークに入力する。当該ニューラルネットワークは、当業者に周知のワッサースタインGANs(WGANs)により学習されたニューラルネットワークであってもよく、入力された2つの時系列データy,yについて、対応する分子x,xの挙動に関する確率分布の間の類似度を示すワッサースタイン距離を出力する。
【0031】
ステップS103において、分子動力学データ解析装置100は、学習済みニューラルネットワークから、分子系S,S間の類似度として分子x,xの挙動に関する確率分布の間のワッサースタイン距離を取得する。すなわち、単一の分子x,xの確率的な挙動を示す短時間の時系列データy,yが従う確率分布は、分子系S,Sの特徴を表すと考えられ、これら確率分布の類似度を分子系S,Sの類似度としてワッサースタイン距離により表すことにした。
【0032】
次に、図5を参照して、本発明の他の実施例による分子系間の類似度の可視化処理を説明する。図5は、本発明の他の実施例による可視化された分子系間の類似度を示す概略図である。
【0033】
複数の分子系のペア(S,S)について、上述した分子動力学データ解析処理によってワッサースタイン距離Wijを取得すると、図5の左側に示されるような距離マトリクスが取得できる。これらのワッサースタイン距離Wijを低次元のユークリッド空間に埋め込むことによって、図5の右側に示されるような2次元などの低次元の埋め込み図を取得することができる。具体的には、
【0034】
【数3】
によって、各分子系Sの埋め込み点p(i=0,1,・・・)が決定される。ここで、ノルムの記号の上付きの添え字"1"は1乗を表し、下付きの添え字"2"はL2ノルムであることを表す。
【0035】
次に、図6を参照して、本発明の他の実施例による分子動力学データ解析装置の構成を説明する。図6は、本発明の他の実施例による分子動力学データ解析装置の機能構成を示すブロック図である。
【0036】
図6に示されるように、分子動力学データ解析装置100は、時系列データ取得部110、類似度決定部120、類似度可視化部130及び相違要因特定部140を有する。ここで、時系列データ取得部110及び類似度決定部120は、図3に関して上述したものと同じであり、説明の重複を避けるため、詳細な説明を省く。
【0037】
類似度可視化部130は、複数の分子系のペア(S,S)に対して決定されたワッサースタイン距離に基づき、複数の分子系S,Sの類似度を可視化する。具体的には、類似度決定部120から分子系の各ペア(S,S)に対して決定されたワッサースタイン距離Wijを取得すると、類似度可視化部130は、(数3)の式に従って、取得したワッサースタイン距離Wijから各分子系Sの埋め込み点p(i=0,1,・・・)を決定する。類似度可視化部130は、例えば、図示されるようなユークリッド空間の描画範囲内に各埋め込み点pが描画できるように、取得した各埋め込み点pの描画位置を調整してもよい。
【0038】
相違要因特定部140は、類似度に基づき最も類似していない2つの分子系を決定し、2つの分子系の間の相違に寄与する分子及び当該分子の時系列データを決定してもよい。具体的には、解析対象の全ての分子系について分子系のペアの類似度を決定すると、類似度決定部120は更に、最も類似していない分子系のペア(S,S)、すなわち、ワッサースタイン距離が最も大きい分子系のペア(S,S)を決定し、当該分子系間の相違に寄与している分子を予測する。特定された2つの分子系内の時系列データをx、x'としたとき、関数g(x)を
【0039】
【数4】
として定義する。このとき、(数2)は、
【0040】
【数5】
として書き換えできる。この式は、分子系のペア(S,S)のワッサースタイン距離Wijが、関数g(x)の期待値により表すことができることを意味する。このとき、関数g(x)の確率分布は図7のように示される。
【0041】
この式から理解されるように、関数g(x)の値が大きいとき、ワッサースタイン距離Wijもまた大きくなり、関数g(x)の値を大きくするような時系列データxは、分子系の間の相違に大きく寄与していると解釈できる。時系列データxに対応する分子の振る舞いを調べることによって、物性発現メカニズムを理解できる可能性が高いと考えられ、分子系における何れの分子の振る舞いに着目すべきか判断することが可能になる。
【0042】
次に、図8を参照して、本発明の一実施例による分子動力学データ解析処理の実験結果を説明する。ここでは、各々が単一分子種のアミノ酸と水分子とから構成される20個のアミノ酸溶液系について、水分子の挙動のみを用いてアミノ酸分子の間の相違に関する分子の挙動を検出した。ここで、温度及び圧力は一定とされ(300K及び0.1MPa)、1600個の水分子について128psからなる水分子の回転に関する時系列データyが、分子動力学データ解析装置によって解析される。
【0043】
図8Aに示されるように、分子系の埋め込み点は1次元構造を示し、分子系S12(グルタミン溶液)と分子系S(純粋溶液)とが、最も離れた分子系として示される。この相違を特徴付ける分子の挙動を検出するため、分子系S12,Sの軌跡が関数g(x)を用いて比較され、図8Bの中央において、分子系S12,Sの軌跡の関数g(x)の確率分布が示される。当該確率分布の右方の形状から、大きなg(x)値を示す水分子の挙動は相対的に低い確率で観察可能であることが示される。図8Bの両側の分子系S12における水分子の軌跡を比較することによって、大きなg(x)値を有する水分子の大部分はグルタミン分子の近くにあることがわかる。図8Cでは、各分子系S~S19における水分子の回転時間相関関数が示される。分子系S12の緩和時間が最大となり、分子系Sの緩和時間が最小となっている。このことから、本実施例による分子動力学データ解析処理は、各分子系における水分子の回転に関する相違を特定していることがわかる。
【0044】
本発明によると、各分子系で獲得される、膨大で複雑な分子ダイナミクスデータを低次元空間に埋め込むことで、各分子系の違いがわかりやすくなるという効果がある。専門家が経験や知識を基に分子系の違いを説明するのではなく、それを機械学習が自動的に獲得することができる。また、低次元空間内で最も離れている系同士について、関数g(x)を用いた解析をすることで、系の違いに貢献している分子を特定できる。
【0045】
以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0046】
100 分子動力学データ解析装置
110 時系列データ取得部
120 類似度決定部
130 類似度可視化部
140 相違要因特定部
図1
図2
図3
図4
図5
図6
図7
図8A
図8B
図8C