(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024108255
(43)【公開日】2024-08-13
(54)【発明の名称】経路選択プログラム、経路選択方法及び経路選択装置
(51)【国際特許分類】
G06N 99/00 20190101AFI20240805BHJP
【FI】
G06N99/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023012524
(22)【出願日】2023-01-31
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(71)【出願人】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】和田 睦世
(72)【発明者】
【氏名】和田 裕一郎
(72)【発明者】
【氏名】山崎 公裕
(72)【発明者】
【氏名】河東 孝
(72)【発明者】
【氏名】▲徳▼久 淳師
(57)【要約】
【課題】状態遷移の経路構築の自動化を実現することを課題とする。
【解決手段】経路選択プログラムは、対象の状態の存在確率分布から複数の代表点を抽出し、複数の代表点間の第1の複数の状態遷移経路を特定し、第1の複数の状態遷移経路から、第1の複数の状態遷移経路それぞれの経路における確率密度に基づいて、第2の複数の状態遷移経路を選択する、処理をコンピュータに実行させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象の状態の存在確率分布から複数の代表点を抽出し、
前記複数の代表点間の第1の複数の状態遷移経路を特定し、
前記第1の複数の状態遷移経路から、前記第1の複数の状態遷移経路それぞれの経路における確率密度に基づいて、第2の複数の状態遷移経路を選択する、
処理をコンピュータに実行させることを特徴とする経路選択プログラム。
【請求項2】
前記抽出する処理は、前記対象の状態の存在確率分布に対応する混合ガウス分布の極大点を代表点として抽出する処理を含む、
ことを特徴とする請求項1に記載の経路選択プログラム。
【請求項3】
前記特定する処理は、前記複数の代表点の各々に対応するノードを含み、全てのノード間を接続するエッジを含む全結合グラフを前記第1の複数の状態遷移経路として特定する処理を含む、
ことを特徴とする請求項1に記載の経路選択プログラム。
【請求項4】
前記特定する処理は、前記複数の代表点の各々に対応するノードを含み、全てのノード間を接続するエッジを含む全結合グラフのうち最小全域木に対応する部分のグラフを前記第1の複数の状態遷移経路として特定する処理を含む、
ことを特徴とする請求項1に記載の経路選択プログラム。
【請求項5】
前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路上の確率密度の最大値および最小値の差に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする請求項1に記載の経路選択プログラム。
【請求項6】
前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路に含まれる状態のうち1番目の状態の確率密度に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする請求項1に記載の経路選択プログラム。
【請求項7】
前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路に含まれる状態のうち1番目の状態の確率密度および2番目の確率密度の差に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする請求項1に記載の経路選択プログラム。
【請求項8】
対象の状態の存在確率分布から複数の代表点を抽出し、
前記複数の代表点間の第1の複数の状態遷移経路を特定し、
前記第1の複数の状態遷移経路から、前記第1の複数の状態遷移経路それぞれの経路における確率密度に基づいて、第2の複数の状態遷移経路を選択する、
処理をコンピュータが実行することを特徴とする経路選択方法。
【請求項9】
対象の状態の存在確率分布から複数の代表点を抽出し、
前記複数の代表点間の第1の複数の状態遷移経路を特定し、
前記第1の複数の状態遷移経路から、前記第1の複数の状態遷移経路それぞれの経路における確率密度に基づいて、第2の複数の状態遷移経路を選択する、
処理を実行する制御部を含む経路選択装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、経路選択プログラム、経路選択方法及び経路選択装置に関する。
【背景技術】
【0002】
タンパク質や化合物の状態遷移に関するPathwayを求めることは、創薬などの応用上重要であり、分子動力学(MD)等を用いてそれらのPathwayや自由エネルギーの遷移を議論することは反応過程を理解する鍵となる。
【0003】
このようなPathway構築に関する技術の1つとして、深層ニューラルネットワークを用いて2次元のクライオEM(Electron Microscopy)画像から3次元のタンパク質構造の連続アンサンブルの再構成を支援する単粒子解析ソフトウェアが提案されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Laurel F Kinman, Barrett M Powell, Ellen D Zhong, Bonnie Berger, and Joseph H Davis. Uncovering structural ensembles from single-particle cryo-em data using cryodrgn. Nature Protocols, pages 1-31, 2022.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の単粒子解析ソフトウェアでは、2次元のクライオEM画像から得たタンパク質の構造から妥当な連続変形を獲得するために専門家等による手動のオペレーションが必要となる側面がある。例えば、単粒子解析ソフトウェアの入力の準備、深層ニューラルネットワークの訓練、粒子のフィルタ、単粒子解析ソフトウェアのモデルの探索、構造アンサンブルの調査、構造遷移の可視化といったオペレーションが挙げられる。
【0006】
1つの側面では、本発明は、状態遷移の経路構築の自動化を実現できる経路選択プログラム、経路選択方法及び経路選択装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
1つの側面にかかる経路選択プログラムは、対象の状態の存在確率分布から複数の代表点を抽出し、前記複数の代表点間の第1の複数の状態遷移経路を特定し、前記第1の複数の状態遷移経路から、前記第1の複数の状態遷移経路それぞれの経路における確率密度に基づいて、第2の複数の状態遷移経路を選択する、処理をコンピュータに実行させる。
【発明の効果】
【0008】
状態遷移の経路構築の自動化を実現できる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、サーバ装置の機能構成例を示すブロック図である。
【
図2】
図2は、スパースグラフの一例を示す図である。
【
図3】
図3は、Pathwayの抽出条件の例を示す模式図である。
【
図4】
図4は、Pathwayのグラフ図の一例を示す図である。
【
図5】
図5は、Pathwayの疑似自由エネルギーの遷移例を示す図である。
【
図6】
図6は、グラフ生成処理の手順を示すフローチャートである。
【
図7】
図7は、経路選択処理の手順を示すフローチャートである。
【
図8】
図8は、ハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して本願に係る経路選択プログラム、経路選択方法及び経路選択装置の実施例について説明する。各実施例には、あくまで1つの例や側面を示すに過ぎず、このような例示により数値や機能の範囲、利用シーンなどは限定されない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【実施例0011】
図1は、サーバ装置10の機能構成例を示すブロック図である。
図1に示すサーバ装置10は、クライオ電子顕微鏡等の電子顕微鏡により撮像されるEM画像から対象の状態遷移の経路、いわゆるPathwayの自動構築を実現する経路選択機能を提供するものである。
【0012】
以下、対象のあくまで一例として、タンパク質などの化合物を例に挙げるが、対象は化合物に限定されない。例えば、化合物以外の他の対象の例として、エネルギーの概念を持つネットワーク(例えば、批判などが集中する度合いを示す炎上度などでアカウントに対応するノードを表現可能なソーシャルネットワーク)が挙げられる。
【0013】
サーバ装置10は、上記の経路選択機能を提供するコンピュータの一例である。あくまで一例として、サーバ装置10は、PaaS(Platform as a Service)型、あるいはSaaS(Software as a Service)型のアプリケーションとして実現することで、上記の経路選択機能をクラウドサービスとして提供することができる。この他、サーバ装置10は、上記の経路選択機能をオンプレミスに提供するサーバとして実現することもできる。
【0014】
サーバ装置10は、
図1に示すように、ネットワークNWを介して、クライアント端末30と通信可能に接続され得る。例えば、ネットワークNWは、有線または無線を問わず、インターネットやLAN(Local Area Network)などの任意の種類の通信網であってよい。なお、
図1には、1つのサーバ装置10につき1つのクライアント端末30が接続される例を挙げたが、任意の台数のクライアント端末30が接続されることを妨げない。
【0015】
クライアント端末30は、上記の経路選択機能の提供を受けるコンピュータの一例に対応する。例えば、クライアント端末30は、デスクトップ型またはラップトップ型のパーソナルコンピュータなどにより実現されてよい。これはあくまで一例に過ぎず、クライアント端末30は、携帯端末装置やウェアラブル端末などの任意のコンピュータであってよい。
【0016】
なお、
図1には、上記の経路選択機能がクライアントサーバシステムで提供される例を挙げるが、これはあくまで一例であって、上記の経路選択機能はスタンドアロンで提供されることとしてもよい。
【0017】
次に、本実施例に係るサーバ装置10の機能構成例について説明する。
図1には、サーバ装置10が有する経路選択機能に関連するブロックが模式化されている。
図1に示すように、サーバ装置10は、通信制御部11と、記憶部13と、制御部15とを有する。なお、
図1には、上記の経路選択機能に関連する機能部が抜粋して示されているに過ぎず、図示以外の機能部がサーバ装置10に備わることとしてもよい。
【0018】
通信制御部11は、クライアント端末30などの他の装置との間の通信を制御する機能部である。あくまで一例として、通信制御部11は、LANカードなどのネットワークインタフェイスカードにより実現され得る。1つの側面として、通信制御部11は、クライアント端末30からPathway構築用のEM画像を受け付けたり、あるいはPathway構築のリクエストを受け付けたり、あるいは当該リクエストに対するレスポンスなどをクライアント端末30へ出力したりする。
【0019】
記憶部13は、各種のデータを記憶する機能部である。あくまで一例として、記憶部13は、サーバ装置10の内部、外部または補助のストレージにより実現される。例えば、記憶部13は、グラフ情報13Aを記憶する。なお、グラフ情報13Aの説明は、登録または参照が行われる場面で併せて説明することとする。
【0020】
制御部15は、サーバ装置10の全体制御を行う機能部である。例えば、制御部15は、ハードウェアプロセッサにより実現され得る。
図1に示すように、制御部15は、取得部15A、抽出部15Bと、特定部15Cと、選択部15Dと、出力部15Eとを有する。なお、制御部15は、ハードワイヤードロジックなどにより実現されてもよい。
【0021】
取得部15Aは、化合物の存在確率分布を取得する処理部である。あくまで一例として、取得部15Aは、クライオ電子顕微鏡等の電子顕微鏡により撮像されたEM画像の入力を受け付ける。ここで入力を受け付けるEM画像には、タンパク質などの化合物の粒子が含まれてよい。そして、取得部15Aは、1または複数のEM画像を入力として化合物の存在確率分布を出力する機械学習モデルに対して、入力を受け付けたEM画像を入力することにより、化合物の存在確率分布を取得する。
【0022】
このような機械学習モデルは、あくまで一例として、深層ニューラルネットワークなどのニューラルネットワークにより実現できる。例えば、機械学習モデルの訓練には、実験等により獲得された存在確率分布が正解のラベルとして付与されたEM画像が訓練データとして用いられる。そして、EM画像を機械学習モデルの説明変数とし、存在確率分布を機械学習モデルの目的変数として、任意の機械学習のアルゴリズム、例えば深層学習にしたがって機械学習モデルを訓練できる。例えば、EM画像が入力された機械学習モデルの出力と、正解ラベルとの損失を機械学習モデルに逆伝播させることにより、機械学習モデルのパラメータを更新する。
【0023】
以下、あくまで一例として、化合物の存在確率分布がGMM(Gaussian Mixture Model)形式でモデル化される例を挙げるが、化合物の存在確率分布はGMM以外の他のモデルにモデル化されることとしてもよい。
【0024】
抽出部15Bは、化合物の存在確率分布から複数の代表点を抽出する処理部である。あくまで一例として、抽出部15Bは、取得部15Aにより取得されたGMMの極大点を代表点として抽出することができる。例えば、抽出部15Bは、数学的定義によりGMMに極大値が与えられた点集合のサンプリング数を取得部15Aにより取得されたGMMのスケールに合わせて調整する。その後、抽出部15Bは、取得部15Aにより取得されたGMMから極大値をサンプリングする。このようなサンプリングには、K-meansからcentroidを抽出して代表点とする方法、あるいはコンポーネント数が多い状態でベイズ統計量基準などを用いてGMMを推定し、それより少ないコンポーネント数でGMMを推定し、極大点を代表点とする方法などを用いることができる。
【0025】
特定部15Cは、複数の代表点間の第1の複数の状態遷移経路を特定する処理部である。ここで言う「第1の複数の状態遷移経路」は、Pathway構築に用いるグラフデータである。あくまで一例として、特定部15Cは、抽出部15Bにより抽出されたn個の代表点をノードとし、n個のノードの中から2つのノードを選択する組合せnC2ごとにノード間を接続するエッジを設定する。これにより、全てのノード間がエッジで接続された全結合グラフが得られる。
【0026】
このようにして得られた全結合グラフは、第1の複数の状態遷移経路の一例に対応し、これをグラフ情報13Aとして記憶部13へ保存することができる。例えば、全結合グラフに含まれるノードには、GMM上のノードに対応する確率密度から変換された疑似自由エネルギーが関連付けて保存されてよい。さらに、全結合グラフに含まれるエッジには、GMM上のエッジの経路長やエッジを形成する点集合に対応する疑似自由エネルギーのデータ集合が関連付けて保存される。
【0027】
例えば、エッジの経路長やエッジを形成する点集合に対応する確率密度は、GMM上の極大値に対応する2つの平均ベクトル間の尤もらしい経路、いわゆる尾根(Ridgeline)を計算することにより獲得できる。このような尾根計算には、GMM上の2つの平均ベクトル間がK分割された2点間の遷移ごとに経路長が短く、かつ経路上の平均確率が大きくなる遷移を選択することにより得られる経路を出力する技術を用いることができる。この他、GMMに極大値を与える点集合の数学的定義に基づいてクラス数が2であるGMMの平均ベクトル間の尤もらしい経路を構築する参考文献1に記載の技術を用いることができる。
参考文献1:Hennig, C.: Ridgeline plot and clusterwise stability as tools for merging Gaussian mixture components. In Classification as a Tool for Research (pp.109-116)(2010).
【0028】
また、疑似自由エネルギーは、確率密度を変換することにより獲得できる。このような変換には、あくまで一例として、確率密度P(z)が高くなるにしたがって疑似自由エネルギーE(z)が低くなる逆相関の関係が定義された変換式、例えば下記の式(1)および下記の式(2)を用いることができる。
P(z)∝exp(-βE(z))・・・(1)
E∝-logP・・・(2)
【0029】
ここで、Pathway構築には、全結合グラフを用いることもできるが、グラフ探索時の計算量を削減する側面から、全結合グラフからエッジが間引かれたグラフ、すなわちPathway構築時の重要度が高いエッジが抽出されたグラフをPathway構築に用いることもできる。このようなグラフを全結合グラフと区別する側面から「スパースグラフ」と記載する場合がある。
【0030】
あくまで一例として、特定部15Cは、全結合グラフから全域木を構成する辺のコストの総和が最小となる最小全域木に対応する部分を抽出することにより最小全域木ベースのグラフをスパースグラフとして生成できる。このような最小全域木問題に定式化されるエッジのコストには、経路長や確率密度、あるいは疑似自由エネルギーを用いることができる。例えば、確率密度や疑似自由エネルギーを用いる場合、エッジに含まれる点集合の疑似自由エネルギーの累積値を経路長で除算することにより、疑似自由エネルギーが正規化された値を用いることができる。
【0031】
このような最小全域木ベースのグラフを生成するアルゴリズムの一例を挙げる。より詳細には、特定部15Cは、下記のステップS1から下記のステップS3の手順により最小全域木ベースのグラフの生成を実現できる。すなわち、ステップS1では、GMMの平均ベクトル集合{μ1,・・・,μC},μ1∈Rdの各ペア(μi,μj)に関して、尾根距離、すなわちエッジの経路長を近似計算し、C×Cの尾根距離行列Mを定義する(ステップS1)。次に、ステップS2では、{μ1,・・・,μC}を頂点集合とする完全無向グラフ上の各辺に距離をMを利用して定義する。そして無向グラフ上の全ての頂点間でグラフ最短経路距離(測地線距離)を計算する。このとき、C×Cのグラフ最短経路距離行列をGとする。次に、ステップS3では、i*=argmaxcπcに基づいてグラフ最短経路距離が最大になる頂点j*を行列Gから探索し、その経路をi*→・・・→j*を出力する。その後,残った頂点を行列Gを利用し追加していく。このような木(最小全域木)が定義されると各有向辺上で学習済みdecoderを使い3D密度を立ち上げる。
【0032】
このように生成された最小全域木ベースのグラフも、全結合グラフが加工されたスパースグラフであり、第1の複数の状態遷移経路の一例に対応する。
図2は、スパースグラフの一例を示す図である。
図2には、あくまで一例として、リボソームが撮影されたEM画像から得られたGMMから生成されたスパースグラフが例示されている。
図2に示す通り、スパースグラフでは、全結合グラフに比べて不要なエッジが除外されていることが明らかである。このため、
図2に示すスパースグラフをPathway構築に用いる場合、不要なエッジが除外された分、Pathway構築の計算量の削減を実現できる。このような最小全域木ベースのグラフをグラフ情報13Aとして記憶部13へ保存することもできる。
【0033】
選択部15Dは、第1の複数の状態遷移経路から、第1の複数の状態遷移経路それぞれの経路における確率密度に基づいて、第2の複数の状態遷移経路を選択する処理部である。ここで言う「第2の状態遷移経路」の一例として、Pathwayが挙げられる。一実施形態として、選択部15Dは、グラフ情報13Aに含まれる全結合グラフ、あるいはスパースグラフから、全結合グラフ、あるいはスパースグラフそれぞれの経路における確率密度に基づいて、1または複数のPathwayを選択する。
【0034】
以下、あくまで一例として、スパースグラフからPathwayが抽出される例を挙げる。より詳細には、選択部15Dは、Pathwayの生成条件を指定する。あくまで一例として、選択部15Dは、クライアント端末30からPathwayの生成条件のユーザ定義をマニュアルで受け付けることができる。このようなPathwayの生成条件として、スパースグラフからPathwayの候補を発生させる個数、Pathwayの始点または終点とするノードの指定、Pathwayを形成するノードの数、エッジの数、総経路長、総経路長の下限値、あるいは総経路長の上限値などが含まれてよい。これらの条件は、上記の経路選択機能のユーザが自身のタスクに応じて自由に設定できる。なお、ここでは、Pathwayの生成条件がマニュアルで設定される例を挙げたが、必ずしもマニュアルで設定されずともよく、当然のことなら、Pathwayの生成条件がシステム定義される例を妨げない。
【0035】
続いて、選択部15Dは、Pathwayの生成条件にしたがって複数のPathwayの候補を発生させる。例えば、選択部15Dは、スパースグラフ上でPathwayの生成条件にしたがってランダムウォークを実行することにより複数のPathwayの候補を発生させることができる。
【0036】
そして、選択部15Dは、複数のPathwayの候補の各々のエッジの経路長、エッジを形成する点集合に対応する疑似自然エネルギーのデータ列およびこれらの組合せのうち1つ以上に基づいて複数のPathwayの候補を取捨選択するフィルタリングを実行する。
【0037】
このようなフィルタリングには、あくまで一例として、次に挙げるPathwayの抽出条件を用いることができる。例えば、エッジの経路長が短くなるに連れて状態遷移がより自然と言えるので、Pathwayの候補のエッジの経路長が閾値以下であるといった条件をPathwayの抽出条件に設定できる。
【0038】
この他、Pathwayの抽出条件には、疑似自由エネルギーに関する各種の条件が含まれてよい。
図3は、Pathwayの抽出条件の例を示す模式図である。
図3には、説明の便宜上、ノードBを始点とし、ノードC2、ノードE1、ノードE2、ノードE4を経由してノードE5へ遷移するパスの疑似自由エネルギーの遷移がプロットされたグラフが示されている。
図3に示すグラフの横軸は、パスを示し、縦軸は、疑似自由エネルギーを指す。
【0039】
例えば、
図3に示すPathway上の全構造の疑似自由エネルギーの最大値Emaxが任意の上限値以下であるといった条件AをPathwayの抽出条件に設定できる。また、
図3に示すPathway上の全構造の疑似自由エネルギーの最大値から最小値の差ΔE=Emax-Eminが閾値以下であるといった条件BをPathwayの抽出条件に設定できる。さらに、
図3に示す初期構造の疑似自由エネルギーE
0が閾値以下であるといった条件CをPathwayの抽出条件に設定できる。また、
図3に示す初期構造の疑似自由エネルギーE
0と、次の構造の疑似自由エネルギーに遷移する間で最も高いエネルギーE
1とのエネルギー差ΔE=E
1-E
0が閾値以下であるといった条件DをPathwayの抽出条件に設定できる。これら条件A~条件Dは、システム定義されることとしてもよいし、ユーザ定義されることとしてもよい。
【0040】
このようなPathwayの抽出条件の下、選択部15Dは、複数のPathwayの候補のうち上記のPathwayの抽出条件を満たす1または複数のPathwayの候補を抽出する。このとき、選択部15Dは、Pathwayの候補ごとにスコアを算出することもできる。例えば、Pathway上の全構造の疑似自由エネルギーの最大値から最小値の差ΔEが大きくなるにしたがって大きいスコアを算出したり、初期構造の疑似自由エネルギーE0が大きくなるにしたがって大きいスコアを算出したり、あるいは初期構造の疑似自由エネルギーE0と、次の構造の疑似自由エネルギーに遷移する間で最も高いエネルギーE1とのエネルギー差ΔEが大きくなるにしたがって大きいスコアを算出したりすることができる。このようなスコアが閾値以上であることをPathwayの抽出条件としてもよい。
【0041】
出力部15Eは、Pathwayに関する情報を出力する処理部である。あくまで一例として、出力部15Eは、選択部15Dにより抽出されたPathwayに関する情報をクライアント端末30へ出力する。このとき、出力部15Eは、選択部15Dにより抽出されたPathwayのうちスコアが高いPathwayに関する情報を優先して出力することができる。例えば、スコアが最大であるPathwayに関する情報を表示させたり、あるいはスコアが上位特定数に該当するPathwayに関する情報を表示させたりすることができる。
【0042】
ここで、出力部15Eは、Pathwayに関する情報の例として、Pathwayのグラフ図を表示させたり、Pathwayの状態遷移に対応する疑似自由エネルギーの遷移を表示させたり、Pathwayに含まれるパス上の状態遷移に対応する化合物の変形動画などを表示させたりすることができる。なお、ここでは、Pathwayに関する情報の出力先として、クライアント端末30を例示したが、これに限定されず、分子動力学シミュレーションを実行するシミュレータなどにPathwayの疑似自由エネルギーの遷移などを入力することもできる。
【0043】
図4は、Pathwayのグラフ図の一例を示す図である。
図4には、リボソームが撮影されたEM画像から得られたGMMから生成されたスパースグラフ上に選択部15Dにより抽出されたPathwayのうち一部のPathwayがプロットされている。さらに、
図4には、スパースグラフに含まれるノードのうち疑似自由エネルギーが小さくなるにしたがって大きいサイズでノードのシンボルがレンダリングされている。このようなPathwayのグラフ表示によれば、ノードBからノードC2、ノードC3、ノードC1、ノードE2、ノードE4、ノードE5の順に遷移するPathwayが起こる可能性が高いことを把握できるので、タンパク質等の化合物の反応過程の理解に資する情報提供を実現できる。
【0044】
図5は、Pathwayの疑似自由エネルギーの遷移例を示す図である。
図5に示すグラフの縦軸は、パスを示し、縦軸は、疑似自由エネルギーを指す。
図5には、
図4に示すPathwayに含まれるエッジごとに当該エッジを形成する点集合に対応する疑似自由エネルギーのデータ列がプロットされることにより、疑似自由エネルギーの遷移に対応する波形がレンダリングされている。このようなPathwayの疑似自由エネルギーの遷移表示によれば、タンパク質等の化合物の反応過程の理解に資する情報提供を実現できる。
【0045】
なお、ここまでの説明においては、疑似自由エネルギーを用いてPathwayを抽出して出力する例を用いたが、このようなPathwayの抽出や出力には、確率密度、あるいは確率密度から求まる存在比などが用いられることとしてもよい。この場合、確率密度を用いてPathwayを抽出した後にPathwayに含まれるノードの確率密度を疑似自由エネルギーに変換してPathwayの疑似自由エネルギーの遷移を表示してもよいし、確率密度を用いてPathwayを抽出し、抽出したPathwayの確率密度の遷移を表示してもよい。
【0046】
図6は、グラフ生成処理の手順を示すフローチャートである。
図6に示すように、取得部15Aは、クライオ電子顕微鏡等の電子顕微鏡により撮像されたEM画像の入力を受け付ける(ステップS101)。ここで、ステップS101で入力を受け付けるEM画像には、タンパク質などの化合物の粒子が含まれ得る。
【0047】
続いて、取得部15Aは、EM画像を入力として化合物の存在確率分布を出力する機械学習モデルに対して、ステップS101で入力を受け付けたEM画像を入力することにより、化合物の存在確率分布P(z)を取得する(ステップS102)。
【0048】
そして、抽出部15Bは、ステップS102で取得された化合物の存在確率分布P(z)から複数の代表点、例えばGMMの極大点を抽出する(ステップS103)。
【0049】
その上で、特定部15Cは、ステップS103で抽出されたn個の代表点をノードとし、n個のノードの中から2つのノードを選択する組合せnC2ごとにノード間を接続するエッジを設定することで、全結合グラフを生成し(ステップS104)、処理を終了する。
【0050】
このようにして得られた全結合グラフは、グラフ情報13Aとして記憶部13へ保存される。なお、
図6に示すフローチャートでは、説明を省略したが、上述した通り、全結合グラフから最小全域木ベースのグラフをスパースグラフとして生成できる。
【0051】
図7は、経路選択処理の手順を示すフローチャートである。
図7に示すように、選択部15Dは、Pathwayの生成条件を指定する(ステップS301)。あくまで一例として、選択部15Dは、クライアント端末30からPathwayの生成条件のユーザ定義をマニュアルで受け付けることができる。
【0052】
続いて、選択部15Dは、ステップS301で指定されたPathwayの生成条件にしたがって、グラフ情報13Aに含まれるスパースグラフ上でランダムウォークを実行することにより複数のPathwayの候補を発生させる(ステップS302)。
【0053】
そして、選択部15Dは、ステップS302で発生させられた複数のPathwayの候補のうち、エッジの確率密度に基づく抽出条件を満たす1以上のPathwayの候補をPathwayとして抽出する(ステップS303)。
【0054】
その後、出力部15Eは、選択部15Dにより抽出されたPathwayに関する情報をクライアント端末30へ出力する(ステップS304)。このとき、出力部15Eは、ステップS303で抽出されたPathwayのうちスコアが高いPathwayに関する情報を優先して出力することができる。ここで出力されるPathwayに関する情報には、Pathwayのグラフ図、Pathwayの状態遷移に対応する疑似自由エネルギーの遷移、あるいはPathwayに含まれるパス上の状態遷移に対応する化合物の変形動画などが含まれてよい。
【0055】
上述してきたように、本実施例にかかる経路選択機能は、化合物の存在確率分布の代表点を含むグラフを用いて発生させた複数のPathwayの候補のうちエッジの確率密度が特定の条件を満たすPathwayの候補をPathwayとして抽出する。したがって、本実施例にかかる経路選択機能によれば、Pathway構築の自動化を実現できる。これにより、専門家等による手動のオペレーションも削減できる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
上記実施例1の文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更されてもよい。
また、各装置の構成要素の分散や統合の具体的形態は図示のものに限られない。つまり、その構成要素の全部または一部は、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合されてもよい。さらに、各装置の各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
なお、上記の経路選択プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に経路選択プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から経路選択プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに経路選択プログラム170aを記憶させておく。このように記憶された経路選択プログラム170aをコンピュータ100にダウンロードさせた上で実行させるようにしてもよい。
(付記3)前記特定する処理は、前記複数の代表点の各々に対応するノードを含み、全てのノード間を接続するエッジを含む全結合グラフを前記第1の複数の状態遷移経路として特定する処理を含む、
ことを特徴とする付記1に記載の経路選択プログラム。
(付記4)前記特定する処理は、前記複数の代表点の各々に対応するノードを含み、全てのノード間を接続するエッジを含む全結合グラフのうち最小全域木に対応する部分のグラフを前記第1の複数の状態遷移経路として特定する処理を含む、
ことを特徴とする付記1に記載の経路選択プログラム。
(付記5)前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路上の確率密度の最大値および最小値の差に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする付記1に記載の経路選択プログラム。
(付記6)前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路に含まれる状態のうち1番目の状態の確率密度に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする付記1に記載の経路選択プログラム。
(付記7)前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路に含まれる状態のうち1番目の状態の確率密度および2番目の確率密度の差に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする付記1に記載の経路選択プログラム。
(付記10)前記特定する処理は、前記複数の代表点の各々に対応するノードを含み、全てのノード間を接続するエッジを含む全結合グラフを前記第1の複数の状態遷移経路として特定する処理を含む、
ことを特徴とする付記8に記載の経路選択方法。
(付記11)前記特定する処理は、前記複数の代表点の各々に対応するノードを含み、全てのノード間を接続するエッジを含む全結合グラフのうち最小全域木に対応する部分のグラフを前記第1の複数の状態遷移経路として特定する処理を含む、
ことを特徴とする付記8に記載の経路選択方法。
(付記12)前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路上の確率密度の最大値および最小値の差に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする付記8に記載の経路選択方法。
(付記13)前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路に含まれる状態のうち1番目の状態の確率密度に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする付記8に記載の経路選択方法。
(付記14)前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路に含まれる状態のうち1番目の状態の確率密度および2番目の確率密度の差に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする付記8に記載の経路選択方法。
(付記17)前記特定する処理は、前記複数の代表点の各々に対応するノードを含み、全てのノード間を接続するエッジを含む全結合グラフを前記第1の複数の状態遷移経路として特定する処理を含む、
ことを特徴とする付記15に記載の経路選択装置。
(付記18)前記特定する処理は、前記複数の代表点の各々に対応するノードを含み、全てのノード間を接続するエッジを含む全結合グラフのうち最小全域木に対応する部分のグラフを前記第1の複数の状態遷移経路として特定する処理を含む、
ことを特徴とする付記15に記載の経路選択装置。
(付記19)前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路上の確率密度の最大値および最小値の差に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする付記15に記載の経路選択装置。
(付記20)前記選択する処理は、前記第1の複数の状態遷移経路それぞれの経路に含まれる状態のうち1番目の状態の確率密度に基づいて、前記第2の複数の状態遷移経路を選択する処理を含む、
ことを特徴とする付記15に記載の経路選択装置。