(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022102389
(43)【公開日】2022-07-07
(54)【発明の名称】生体高分子の動的相関量解析方法
(51)【国際特許分類】
G01N 33/15 20060101AFI20220630BHJP
G16C 10/00 20190101ALI20220630BHJP
【FI】
G01N33/15 Z
G16C10/00
【審査請求】未請求
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2020217087
(22)【出願日】2020-12-25
(71)【出願人】
【識別番号】000125347
【氏名又は名称】学校法人近畿大学
(74)【代理人】
【識別番号】100118924
【弁理士】
【氏名又は名称】廣幸 正樹
(72)【発明者】
【氏名】米澤 康滋
(57)【要約】 (修正有)
【課題】MDでは異なる時刻の分子座標決定は従来法では誤差が不可避であり分子内原子群の動的な相関を精密に評価する事は不可能であった。
【解決手段】本発明は、MDによって平衡状態になった生体高分子モデルの部分構造同士の動的相関を解析する分子動的相関量解析方法であって、前記平衡状態から連続するN個の計算時刻における前記部分構造を構成する原子の座標を得る工程と、前記計算時刻毎に個々の前記部分構造内の原子間距離を代表する主要距離を求める工程と、前記個々の部分構造の前記主要距離を確率分布に変換する工程と、前記部分構造の全ての2個の組み合わせに対して、それぞれの前記部分構造の主要距離から同時確率分布に変換する工程と、前記それぞれの部分構造の確率分布と前記同時確率分布から、前記それぞれの部分構造同士の動的相関として相互情報量を求める工程を有することを特徴とする分子動的相関量解析方法である。
【選択図】
図2
【特許請求の範囲】
【請求項1】
生体分子の分子動力学シミュレーション(MD)によって平衡状態になった生体高分子モデルの各部分構造同士の動的相関を、コンピュータを用いて解析する生体高分子の動的相関量解析方法であって、
前記平衡状態から連続するN個の計算時刻における前記部分構造を構成する原子の座標を得る工程と、
前記計算時刻毎に個々の前記部分構造内の原子間距離を代表する主要距離を求める工程と、
前記個々の部分構造の前記主要距離を確率分布に変換する工程と、
前記部分構造の全ての2個の組み合わせに対して、それぞれの前記部分構造の主要距離から同時確率分布に変換する工程と、
前記それぞれの部分構造の確率分布と前記同時確率分布から、前記それぞれの部分構造同士の動的相関として相互情報量を求める工程を有することを特徴とする生体高分子の動的相関量解析方法。
【請求項2】
前記主要距離を求める工程は、
前記部分構造を構成する原子間距離を求める工程と、
前記N個の計算時刻にわたる前記原子間距離の平均となる時間平均距離を求める工程と、
前記原子間距離と前記時間平均距離の差である偏差を求める工程と、
前記部分構造内の原子間距離の2つの組み合わせに対して共分散を求める工程と、
前記部分構造内の全ての共分散を要素とする共分散行列を求める工程と、
前記共分散行列の固有ベクトルの内最大の固有ベクトルを前記主要距離とする工程であることを特徴とする請求項1に記載された生体高分子の動的相関量解析方法。
【請求項3】
さらに、前記部分構造同士の前記相互情報量を2次元で表した相互情報量マップを作成する工程を含むことを特徴とする請求項1または2の何れかに記載された生体高分子の動的相関量解析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピューターを用いたシミュレーションにより生体高分子の動的相関量解析に関する。
【背景技術】
【0002】
タンパク質等の生体高分子内部では様々な原子が密接に関連して分子機能を制御している。近年この生体高分子内部の原子の動きを、シミュレーションを用いて把握することで、創薬やタンパク質合成の開発が進められている。
【0003】
特許文献1には、標的タンパク質と薬物分子との結合過程における分子運動を解析する方法が開示されている。ここでは、(1)標的タンパク質と薬物分子との複合体の立体構造について回転対称境界条件下における平衡化を行う工程、(2)工程(1)で得られた平衡化構造について分子動力学シミュレーションを行う工程、および、(3)工程(2)で得られた構造と初期構造との根平均2乗偏差を配座成分、並進成分、回転成分へ分解する工程、を含む方法により分子運動を解析する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
タンパク質等、生体分子の分子動力学シミュレーション(以後「MD」と呼ぶ。)は、原子の位置の精密な情報を含み、動的に変化する分子構造の時系列データを生成する。これまでMDのデータ解析は主に特許文献1のように最小二乗法を使った分子重ね合わせ方法を使ってなされてきた。
【0006】
生体高分子は熱揺動によってその構造を柔軟に時々刻々変化させるので分子内原子の動的な絶対座標を精密決定する事は原理的に不可能である。その為、これまで分子内の局所部分の座標値は重ね合わせによる平均位置として決定された。
【0007】
しかし、異なる時刻の分子座標決定は誤差を避ける事が出来ず分子内原子群の動的な相関関係を精密に評価する事は不可能であった。そのため、活性中心以外の部分の活動が酵素活性や触媒活性を増減するアリステリック効果をシミュレーションで検討することはできなかった。
【課題を解決するための手段】
【0008】
本発明は上記の課題に鑑みて想到されたものであり、MDで平衡状態になった計算結果において、原子間の距離のみの変動を調べることで、任意の生体高分子を構成する部分構造間(タンパク質を構成するアミノ酸同士やDNAの塩基同士)の動的相関を解析するものである。
【0009】
より具体的に本発明に係る生体高分子の動的相関量解析方法は、
生体分子の分子動力学シミュレーション(MD)によって平衡状態になった生体高分子モデルの各部分構造同士の動的相関を、コンピュータを用いて解析する新規解析方法であって、
前記平衡状態から連続するN個の計算時刻における前記部分構造を構成する原子の座標を得る工程と、
前記計算時刻毎に個々の前記部分構造内の原子間距離を代表する主要距離を求める工程と、
前記個々の部分構造の前記主要距離を確率分布に変換する工程と、
前記部分構造の全ての2個の組み合わせに対して、それぞれの前記部分構造の前記主要距離から同時確率分布に変換する工程と、
前記それぞれの部分構造の確率分布と前記同時確率分布から、前記それぞれの部分構造同士の動的相関の指標として相互情報量を求める工程を有することを特徴とする。
【発明の効果】
【0010】
本発明に係る生体高分子の動的相関量解析方法によれば、生体高分子を構成する部分構造内の原子間距離だけを用いるため、計算時刻間の生体高分子モデル同士を、重ね合わせを用いず動的な解析を行うことができるという効果を奏する。その結果、タンパク質同士が接近、結合した際のアリステリック効果を評価することができ、新たな薬剤の開発に寄与することができる。
【0011】
また、従来用いていた分子動力学シミュレーションのソフト資産をそのまま利用することができるので、導入もしやすいという効果を奏する。
【図面の簡単な説明】
【0012】
【
図1】本発明に係る生体高分子の動的相関量解析を行うハード構成を示す図である。
【
図2】本発明に係る生体高分子の動的相関量解析の概略を示す図である。
【
図3】本発明に係る生体高分子の動的相関量解析を行うフローチャートである。
【
図4】本発明に係る生体高分子の動的相関量解析を行うフローチャートである。
【
図5】生体高分子の動的相関量解析の詳細な手順を示す図である。
【
図6】アミノ酸中の原子から座標、原子間距離、時間平均距離を説明する図である。
【
図7】偏差、偏差の共分散、共分散行列、距離固有ベクトル、主要距離を説明する図である。
【
図9】確率分布および同時確率分布を説明する図である。
【
図11】PDZにリガンドペプチドが結合されていない場合と、結合している場合のPDZの各アミノ酸同士の動的相関量を実際に求めた出力図(相互情報量マップ)である。
【発明を実施するための形態】
【0013】
以下に本発明に係る生体高分子の動的相関量解析方法について図面および実施例を示し説明を行う。なお、以下の説明は、本発明の一実施形態および一実施例を例示するものであり、本発明が以下の説明に限定されるものではない。以下の説明は本発明の趣旨を逸脱しない範囲で改変することができる。
【0014】
<ハード構成>
本発明に係る生体高分子の動的相関量解析方法は、コンピュータを用いて行われる。
図1には、ハード的な構成を示す。コンピュータ1は中央処理装置(CPU:Central Processer Unit)10とメモリ12で構成され、周辺機器として、入出力装置が備えられる。入出力装置は、一般に、キーボード、マウスといった入力デバイス16と、ディスプレイ18といった出力装置が利用できる。また、外部メモリ14が備えられていてもよい。外部メモリ14としては、ハードディスクドライブやソリッドステートドライブ、クラウドメモリ等が好適に利用できる。
【0015】
メモリ12中には、適当なOS(Operating System)と、アプリケーションソフトがロードされる。生体高分子の動的相関量解析方法では、MDの出力を用いるので、アプリケーションとしてはMDと、生体高分子の動的相関量解析用のソフトウエア(YZとする)が備えられる。MDは利用可能なものが種々あるが、特に限定されるものではない。Amber、Gromacs等の世界的に用いられている主要プログラムを適宜利用することができる。
【0016】
解析に供される生体高分子は、タンパク質やDNA分子が対象となる。これらの構成する部分構造とは、タンパク質の場合は、アミノ酸であり、DNA分子の場合は、塩基である。部分構造は、単一の物質(アミノ酸やDNA)でなくてもよく、連続する複数のアミノ酸やDNAを1つの部分構造として扱ってもよい。また、複数のタンパク質やDNAの塊がある場合は、それぞれのタンパク質やDNAを部分構造としてもよい。また、タンパク質に化合物が結合したものであってもよい。解析対象となる生体高分子の原子座標に関する情報は、予め結晶法やX線回折、NMR(核磁気共鳴)といった方法で取得されている。
【0017】
解析は、MDによる生体高分子の平衡状態の算出と、平衡状態からN個の連続した生体高分子座標の取り出し、そして、生体高分子を構成する部分構造同士の動的解析という手順で進む。なお、以後の説明は生体高分子としてタンパク質を、部分構造としてアミノ酸を例として説明を行うが、生体高分子としてDNAを、部分構造として塩基としても全く同じ手順で結果を得ることができる。
【0018】
よく知られているように、MDは、物質を構成する原子同士の結合情報に基づいて、温度や原子同士に働く力に基づいてタンパク質の平衡状態を一定時刻毎に算出する。平衡状態を算出した時刻を「計算時刻」と呼ぶ。隣接する計算時刻の間の時間を「単位計算時間」と呼ぶ。単位計算時間は数fs(フェムト秒)毎程度が設定される。平衡状態とは、一定の時間の間の評価指数(例えばエネルギー)の変化が所定値以下になった状態で判断される。
【0019】
<解析の流れ>
本発明に係る生体高分子の動的相関量解析方法について、
図2を用いて、その概略をまず説明する。解析対象となるタンパク質はA1からAnのn個のアミノ酸で構成されているとする。これらのアミノ酸を構成する原子の座標は与えられている。これをMDを用いてシミュレーションすることで、平衡状態を得ることができる。
【0020】
本発明に係る生体高分子の動的相関量解析方法は、MDによるシミュレーションが平衡状態になった状態から得た連続したN個のモデルデータを使う(
図2(a))。これは(単位計算時間×N)の間のモデルの時間変動のデータである。時刻をtとすると、t=t
1からt=t
Nまでのデータとなる。なお、モデルデータには、対象となるタンパク質を構成する原子の座標データが含まれる。
【0021】
本発明では、アミノ酸毎にこれら原子間距離を代表する「主要距離L」を定義する(
図2(a))。主要距離Lは、その計算時刻の際のそのアミノ酸を構成する原子同士の原子間距離を代表できれば、限定はされない。例えば、アミノ酸内の全ての原子同士の和などである。なお、アミノ酸内の全ての原子同士の原子間距離に対して全ての計算時刻に渡る偏差を求め、距離同士の共分散を成分とする共分散行列の固有ベクトル成分の和を主要距離Lとすることもできる。このような主要距離Lの算出の一例の詳は後述する。
【0022】
各計算時刻におけるアミノ酸毎に主要距離Lを求めた後に、各アミノ酸毎に、N個の主要距離Lを確率分布に変換する(
図2(b))。これは主要距離Lを微小区間に分け、その区間内の密度を求める事で、度数に変換し、規格化することで求める事ができる。これは公知の方法である。主要距離Lに対する確率分布pは全てのアミノ酸について求められる。それぞれ、p(A1)、p(A2)、・・・、p(An)と表される。
【0023】
次に全てのアミノ酸から2つのアミノ酸を選び、それぞれのN個の主要距離を平面にプロットし、散乱分布を作り、同時確率分布に変換する(
図2(c))。それぞれのアミノ酸の主要距離Lに基づく確率分布は、同時確率分布の周辺確率分布となる。
【0024】
そして、これらの2つのアミノ酸の分子動的相関量を、それぞれの確率分布と同時確率分布から相互情報量Ixyを求めることで決定する(
図2(d))。相互情報量Ixyは、互いの確率分布の関連性を示す指標であり、互いに独立であればゼロとなり、互いの確率分布が同じであれば、エントロピーに一致する。
図2(d)では、選ばれたそれぞれの確率分布はp(Ax)、p(Ay)で表され、同時確率分布はp(Ax,Ay)で示した。
【0025】
ここで求めた相互情報量Ixyは、N個の計算時刻における各アミノ酸内の原子間距離だけから求められたものであり、相互情報量Ixyが高ければ、それらのアミノ酸同士は、同期して動いているといってよい。モデルデータ中の全てのアミノ酸のペアに対して相互情報量Ixyを求め、平面にプロットすることで、解析対象となるタンパク質の分子動的相関量を求めることができる(
図2(e))。
【0026】
図2(e)は、相互情報量Ixyをプロットしたもの(以下「相互情報量マップ」と呼ぶ。)を例示する。縦軸および横軸は、アミノ酸番号である。相互情報量Ixyが大きいものを黒丸の大きさで示した。この図では、A2とAnで相互情報量Ixyが大きくなっており、これら1つのアミノ酸は共同して動いていることを示している。
【0027】
このように、本発明に係る生体高分子の動的相関量解析方法では、原子間距離を用いてアミノ酸同士の動きの相関性を求めることで、動的な相関量を解析する。以下詳細に説明する。なお、
図3及び
図4に本発明に係る生体高分子の動的相関量解析の処理フローを示す。以下
図3及び
図4のフローに従い各処理を詳説する。
【0028】
<モデルデータの取得:ステップS102>
図3の処理が開始されると(ステップS100)、モデルデータが取得される(ステップS102)。
図5にモデルデータの取得までの概略を示す。モデルとなるタンパク質には、A1からAnまでn個のアミノ酸が連結しているとする(
図5(a))。それぞれのアミノ酸には、順に番号が付されたk
1、k
2、・・・、k
nといったk
k個の原子があるとする。つまり、アミノ酸A1には、k
1個の原子があり、アミノ酸A2には、k
2個の原子があり、アミノ酸Anにはk
n個の原子があるということである。
【0029】
また、アミノ酸番号を左上に記載し、[]をつけることで、原子の座標を表す。a1、a2、・・・、aknでそれぞれの原子を表し、[ak1]、[ak2]、・・・、[akn]で、各原子の座標を表す。
【0030】
したがって、アミノ酸A2には、
2ak
1、
2ak
2、・・・、
2ak
nの原子があり、それぞれの原子の座標は[
2ak
1]、[
2ak
2]、・・・、[
2ak
n]と表される。例えば、[
3a5]ならば、A3アミノ酸中の5番目の原子の座標を表す(
図5(b))。なお、アミノ酸内の原子は炭素、酸素、窒素といった大きな原子だけであってよく、水素は考慮しなくてもよい。
【0031】
この原子の座標データおよびその他の条件と共にMDで平衡状態をシミュレートされる(
図5(c))。
図5(d)には、シミュレーションの経過を示す。横軸は計算回数(計算時刻)であり、縦軸は収束の指標である。指標の変化が大きい部分は平衡化を行っている部分であり、指標の変化が落ち着くとサンプリング期間と呼ばれ、平衡化となった状態である。モデルデータは、このサンプリング期間からN個(計算時刻t=t
1からt=t
Nまで)の連続する計算時刻の情報を取り出す(
図5(e))。
【0032】
隣接する時刻の間は単位計算時間であり、各計算時刻毎にn個のアミノ酸を有するモデルデータが存在する。アミノ酸番号の後ろに計算時刻を付す。例えば、A2(t2)は、時刻t2の時のアミノ酸番号2のアミノ酸を示す。
【0033】
上述したように、アミノ酸A2には、k
2個の原子があり、それぞれの原子の座標をあらわに示すと、[
2ak
1](t
2)、[
2ak
2](t
2)、・・・、[
2ak
n](t
2)となる(
図5(f))。
【0034】
<主要距離の算出:ステップS104>
平衡状態からモデルデータを取得した後は主要距離Lの算出を行う(
図3:ステップS104)。主要距離Lは、特定時刻の特定アミノ酸内の全ての原子間距離を代表できる数値であればよい。例えば、全ての原子間距離の和であってもよい。しかし、より妥当性の高い方法として、以下に詳細を述べる。処理のフローは
図4のフローとなる。
【0035】
<原子間距離:ステップS200>
主要距離Lの算出を説明するが、
図6乃至
図8も用いる。
図6ではアミノ酸Amには3つの原子(α、β、γ)があるとする。まず、原子間距離を定義する。計算時刻tにおけるm番目のアミノ酸Am内の任意の2つの原子間距離を
mdij(t)で表す。つまり、時刻tの時のアミノ酸Am中のi番目とj番目の原子間の距離は(1)式で表される。(1)式はi番目とj番目の原子間距離をユークリッド距離として求めたものであり、ルートの中は、単位軸成分の差の2乗の和を簡略的に記載した。
【0036】
【0037】
図6(a)では、アミノ酸Am内に3つの原子があり、それぞれの座標が
図6(b)で表されることを示している。これはステップS102で得られたものである。なお、アミノ酸Amの前にはアミノ酸Am-1がありmの後にはアミノ酸Am+1がある。アミノ酸の順は例えばN末端から数えた数としてよい。次に
図6(c)のように原子間距離
mdij(t)が求められる。これは(1)式に基づくものである。
【0038】
<時間平均距離:ステップS202>
次に、m番目のアミノ酸のi番目とj番目の原子間の距離の時間平均を時間平均距離<
mdij>とし、(2)式のように求める。
図6では、
図6(d)のように、時間平均距離が求められる。これは(2)式に基づくものである。
【0039】
【0040】
<原子間距離の偏差:ステップS204>
m番目のアミノ酸の特定時刻tの原子間距離の偏差DSij(t)を(3)式のように求める。これは、原子間距離と時間平均距離の差である。
【0041】
【0042】
偏差DS
ij(t)は、全ての距離について、また、全ての計算時刻に渡って求められる。
図6(a)の例では、
図7(a)のように求められる。
図7(a)では、αβ間の距離、βγ間の距離、γα間の距離の3つ距離について、それぞれの偏差が計算時刻t
1からt
Nまで求められる。それぞれの偏差はDS
αβ、DS
βγ、DS
γαと示した。
【0043】
<原子間距離の偏差の共分散:ステップS206>
次にアミノ酸毎に、全ての原子間距離の偏差同士の共分散を(4)式のように求める。(4)式は、アミノ酸Am内において、計算時刻tの時の、i番目とj番目の原子間距離の偏差と、k番目とl番目の原子間距離の偏差の共分散を求め、全計算時刻について平均を取っている。この共分散を
mdistPCA
ij/klとする。
図7(b)に同様の処理を示す。
【0044】
【0045】
mdistPCAij/klは、m番目のアミノ酸内の全ての原子間距離で全計算時刻t1からtNまでの偏差を用いて求められる。また、原子がkk個あるアミノ酸では、kkC2通りの原子間距離の偏差の組があり、その内の任意の2組の組み合わせについて原子間距離の偏差の共分散が求められる。この、mdistPCAij/klは、m番目のアミノ酸の全計算時刻の原子間距離を代表する原子間距離に関する情報である。
【0046】
原子間距離の偏差の共分散は、全てのアミノ酸について、求められる。あらわに書くと、1distPCAij/kl、・・・、ndistPCAij/klである。
【0047】
<共分散行列:ステップS208>
(4)式のように求めたm番目のアミノ酸の原子間距離の偏差の共分散の個々を要素とする共分散行列を(5)式のように作成する。(5)式はアミノ酸Amの場合を例示しており、アミノ酸Amについて、(5)式の共分散行列が1つ作成される。
【0048】
【0049】
この共分散行列は、全てのアミノ酸について求められる。つまり、(5)式のような共分散行列は解析対象となるタンパク質に対してアミノ酸の個数分(n個)作成される。
【0050】
図7(c)では、原子が3つの場合(α、β、γ)のアミノ酸の共分散行列を表す。
【0051】
<距離固有ベクトル:ステップS210>
各アミノ酸に対して(5)式の共分散行列が作成されたら、この共分散行列の固有値と固有ベクトルを求める。例えば、(5)式は、km×kmの正方行列なので、固有値および固有ベクトルはkm個求められる。これらの固有ベクトルを用いて、このアミノ酸における原子間距離の主成分軸を算出し、距離固有ベクトルとする。この距離固有ベクトルは、時刻t1からtNに渡って、該当するアミノ酸(例えば上記のAm)内の全ての原子間距離の分散を反映している。
【0052】
主成分軸(距離固有ベクトル)の算出方法は、特に限定されない。例えば、固有ベクトルの内の最大の固有ベクトルを主成分軸としてもよい。しかし、共分散行列の性質をよく表す方法としては、固有値が大きな順に和を取り、その和が固有値の総和に対して一定の値以上になるように固有ベクトルを選び、それらを加えたものを主成分軸(距離固有ベクトル)とする方法が好適である。言い換えると、固有ベクトルの占有率が一定の値以上になるように固有ベクトルの和を取る。
【0053】
ここでの一定値は、50%以上、90%以下の範囲で決定するのが好適である。50%未満では、全体を代表しているというには不十分であり、90%より大きい値では、残り10%を加えても主成分軸としては大きく変化しないからである。後述する実施例では、80%以上になるように、固有ベクトルが選ばれ、主成分軸が求められる。
【0054】
<原子間距離の主成分軸への射影:ステップS212、ステップS214>
次に
図8を参照する。
図8は、アミノ酸Amの計算時刻t
1からt
Nまでを表す。各計算時刻において、原子は位置が異なり、得られる原子間距離は、計算時刻毎に変わる。ここで、(6)式に示すように、各アミノ酸の各計算時刻tにおいての原子間距離を主成分軸に投射し、その和をProj
n(t)として求める。
【0055】
【0056】
ここで、Eigen_value(n,i)は、n番目のアミノ酸のi番目の固有値を表し、Eigen_vector(n,i)は、n番目のアミノ酸のi番目の固有ベクトルを表す。Σの中は、固有ベクトルの占有率が一定値以上になるまで足し合わせることを示し、距離固有ベクトル(主成分軸)を示す。主成分軸は、1つのアミノ酸に対して、計算時刻にかかわらず1つ決まる。
【0057】
また、Dn(t)は時刻tにおける、n番目のアミノ酸の中で取りうる原子間距離を成分とするベクトルである。(6)式は、これらの内積を求めることで、主成分軸への射影を行っている。たとえば、Proj2(t4)は、時刻t4に於いて、アミノ酸A2内の全ての原子間距離を主成分軸(距離固有ベクトル)へ投影し、その長さを合計したものである。
【0058】
したがって、1つのアミノ酸mに対してProjm(t1)からProjm(tN)までのN個(計算時刻の総数)のProjm(t)が求められる。このProjm(t)を各計算時刻の主要距離Lとする。全てのアミノ酸に対してProjn(t)を求めたら、処理はメインルーチンに戻される(ステップS216)。
【0059】
<確率分布への変換:ステップS106>
主要距離L(Proj
n(t))を度数分布と考えて、確率分布に変換する。これは公知の方法で行われてよい。例えば、一例を
図9に示す。
図9(a)を参照し、アミノ酸Amの主要距離Lを横軸とし、横軸上に主要距離Lをプロットする。そして、主要距離Lの微小区間毎に密度を求め、縦軸にとる(
図9(b))。そして、密度を規格化することで確率密度に変換し、確率分布p(Am)を得る(
図9(c))。確率分布p(Am)は離散的であってもよい。この工程は
図2(b)に示したように全てのアミノ酸について行われる。すなわち、このような確率分布は、n個作成される。
【0060】
<同時確率分布:ステップS108>
n個のアミノ酸から任意の2つのアミノ酸を選び、一方の確率分布をp(Ax)とし、他方の確率分布をp(Ay)とする。計算時刻tの時のそれぞれの主要距離LをLx(t)、Ly(t)とし、同一時刻同士のLx(t)とLy(t)を、x軸y軸で表される平面にプロットすることで、散乱分布を得ることができる。
【0061】
これをステップS106の場合同様に、確率分布p(Ax,Ay)に変換する。これは、p(Ax)とp(Ay)の同時確率分布を求めたものと考えることができる。また、これはLx(t)とLy(t)から求められた確率分布p(Ax)とp(Ay)を周辺確率分布とする同時確率分布を求めたともいえる。同時確率分布p(Ax,Ay)は、2つのアミノ酸から作成される。つまり、n個のアミノ酸からはnC2個の同時確率分布p(Ax,Ay)が算出されることになる。
【0062】
<相互情報量:ステップS110>
相互情報量を
図2(d)のように求める。
【0063】
<相互情報量マップ:ステップS112>
相互情報量マップを
図2(e)のように、アミノ酸同士の相互情報量を表すように出力し、処理は終了する(ステップS114)。
【0064】
以上のようにして、原子間距離だけを用いて、平衡状態における各アミノ酸同士の動的相関量を求め、表示することができる。なお、本発明においては、上記の各ステップを実行するプログラムが含まれる。また、上記各ステップを実行する機能を実現する計算装置も本発明に含まれる。
【実施例0065】
PDZドメインタンパク質のアミノ酸間相互情報量を計算した結果を示す。PDZドメインは、様々な足場タンパク質において共通してみられる、80から90アミノ酸からなるタンパク質ドメインである。PDZドメインを有するタンパク質はPDZドメインタンパク質と呼ばれている。
【0066】
PDZドメインは、リガンドタンパク質のC末端に結合する。この結合によって、シグナル伝達や細胞内輸送に関わる大きなタンパク質複合体が形成される。したがって、PDZドメインの動的な相関を知ることは重要である。
【0067】
また、PDZには、リガンドが結合した構造と、結合していない構造の2つが実験的に求められているので、それらの構造をシミュレーションに用いた。各々の構造はX線結晶構造解析で求められており、水素原子が欠損しているので水素原子を含む適正な分子となるようにこれを公知の方法で補完した。水素原子が補完された構造をモデル水分子で作られた直方体の中心に置き、タンパク質構造と重なり合う水分子を取り除いた。またこの直方体内の電荷がゼロになりかつ150mMの濃度になるようにNa+イオンとCl-イオンを配置し重なり合う水分子を排除しシミュレーションに用いる系を構築した。この分子群で構成された直方体を周期的境界条件に置き分子間力を計算し、全系の原子に対するニュートン方程式を差分的に解き全ての分子内の原子を時間発展させ、所定の時間長に達するまで計算した。またステップS210で求める主成分軸は、共分散行列の固有値の占有率が80%以上になるように求めた。
【0068】
図10にPDZドメインの立体構造をリボンモデルで示す。
図10(a)は、PDZドメインのみのリボンモデルである。
図10(b)は、PDZドメインにリガンドが結合した図である。
【0069】
図11(a)はリガンドペプチド分子が結合していない場合(
図10(a)の場合)の、アミノ酸側鎖間の相互情報量を示し、
図11(b)はリガンドペプチド分子が結合した場合(
図10(b)の場合)のアミノ酸側鎖間の相互情報量を示している。縦軸横軸はそれぞれPDZドメイン内のアミノ酸番号である。また、グラフ右端に示すように、相互情報量は濃淡で表される。なお、相互情報量は、同じものの相互情報量は意味がないので、グラフの左下から右上に向かう対角線上は強制的に0(ゼロ)としている。
【0070】
図11を見るとリガンドペプチドが結合していなかった際に、互いに動的相関量が多かったPDZaや、PDZbといった箇所にリガンドペプチドが結合すると、アミノ酸間の相関が有意に抑制されている事が観測できる。
【0071】
この図から明らかなように、本発明によってPDZドメインにリガンドが結合した際のアミノ酸側鎖間の相関変化が大変明確に示されている。すなわち、本発明によってタンパク質等の生体高分子に関する分子内相関量が精度よく評価できることが解る。