IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社 日立産業制御ソリューションズの特許一覧

特許7378001マッピング装置、マッピング方法及びマッピングプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-11-01
(45)【発行日】2023-11-10
(54)【発明の名称】マッピング装置、マッピング方法及びマッピングプログラム
(51)【国際特許分類】
   G06F 16/28 20190101AFI20231102BHJP
【FI】
G06F16/28
【請求項の数】 12
(21)【出願番号】P 2023036507
(22)【出願日】2023-03-09
【審査請求日】2023-03-09
【早期審査対象出願】
(73)【特許権者】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】可藤 青里
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2007-124266(JP,A)
【文献】国際公開第2020/229927(WO,A1)
【文献】特開2015-166991(JP,A)
【文献】特開2008-112432(JP,A)
【文献】米国特許出願公開第2019/0354689(US,A1)
【文献】特開2010-157214(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G16C 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
所定の物体間の接続を示すグラフを生成するグラフ生成部と、
2つ記グラフに関する類似度を算出する類似度算出部と、
複数の前記グラフの前記類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成部と、
前記第1類似度行列を基に、第1固有値を複数算出するとともに、前記第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する第1固有ベクトル算出部と、
前記第1固有値を大きい順に所定数取得し、取得した前記第1固有値のそれぞれに対応する前記第1固有ベクトルに基づいて算出される座標値を座標上にマッピングし、出力部に出力するマッピング処理部と、
を有し、
前記第1固有ベクトル算出部は、
前記第1類似度行列と同じ行数及び列数を有し、すべての成分要素が1である行列から、前記第1類似度行列を減算することで第2類似度行列を生成し、
前記第2類似度行列に対しヤング・ハウスホルダ変換を行うことで第3類似度行列を生成し、
前記第3類似度行列の固有値である前記第1固有値、及び、前記第3類似度行列の固有ベクトルである前記第1固有ベクトルを算出する
とを特徴とするマッピング装置。
【請求項2】
所定の物体間の接続を示すグラフを生成するグラフ生成部と、
2つ記グラフに関する類似度を算出する類似度算出部と、
複数の前記グラフの前記類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成部と、
前記第1類似度行列を基に、第1固有値を複数算出するとともに、前記第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する第1固有ベクトル算出部と、
前記第1固有値を大きい順に所定数取得し、取得した前記第1固有値のそれぞれに対応する前記第1固有ベクトルに基づいて算出される座標値を座標上にマッピングし、出力部に出力するマッピング処理部と、
を有し、
前記類似度算出部は、
2つの前記グラフを基に表現行列を生成し、
前記表現行列の固有値である第2固有値を複数算出し、
前記第2固有値を、整列させたスペクトル列に対し、2つの前記グラフを比較することで、互いに不足している前記グラフのノードを検出し、不足している前記ノードの種類に対して割り当てられている値を加え、
前記グラフの前記ノードの種類に対して割り当てられている値が加えられたスペクトル列を構成する前記第2固有値、及び、前記値を大きい順に整列させ、
整列後のスペクトル列をベクトルとみなすことで、当該スペクトル列の大きさを算出し、
前記スペクトル列の大きさを、0以上1以下の値に正規化することで、2つの前記グラフに関する前記類似度を算出する
とを特徴とするマッピング装置。
【請求項3】
前記表現行列の成分要素をaijとすると、
i=jの場合、aijは前記グラフの前記ノードに割り当てられている値となり、
i≠jの場合について、iが示すノードと、jが示すノードとを接続するエッジが存在する場合、aijは、当該エッジに割り当てられている値を負の値としたものであり、iが示す前記ノードと、jが示す前記ノードとを接続する前記エッジが存在しない場合、aijは、0となる
ことを特徴とする請求項に記載のマッピング装置。
【請求項4】
前記グラフは、化合物を前記グラフとしたものであり、前記化合物を構成する原子を前記ノードとし、前記化合物における共有結合を前記エッジとし、
前記ノードに割り当てられる値は、前記ノードに対応する原子の原子番号であり、
前記エッジに割り当てられる値は、前記エッジに対応する共有結合の種類に対応する
ことを特徴とする請求項に記載のマッピング装置。
【請求項5】
前記グラフは、配管構造を前記グラフとしたものであり、前記配管構造を構成する装置を前記ノードとし、前記装置を接続する配管を前記エッジとし、
前記ノードに割り当てられる値は、前記装置の種類に対して一意に割り当てられる値であり、
前記エッジに割り当てられる値は、前記エッジに対応する配管に対して任意に割り当てられる値である
ことを特徴とする請求項に記載のマッピング装置。
【請求項6】
前記グラフは、電子回路を前記グラフとしたものであり、前記電子回路を構成する電子回路部品を前記ノードとし、前記電子回路部品を接続する配線を前記エッジとし、
前記ノードに割り当てられる値は、前記電子回路部品の種類に対して一意に割り当てられる値であり、
前記エッジに割り当てられる値は、前記エッジに対応する配線に対して任意に割り当てられる値である
ことを特徴とする請求項に記載のマッピング装置。
【請求項7】
前記マッピング処理部は、
n次元座標に対して前記第1固有ベクトルをマッピングする場合、前記第1固有値のうち、大きい値を有する前記第1固有値から順に、n個の前記第1固有値を取得し、
前記第1固有ベクトルのうち、取得した前記第1固有値のそれぞれに対応する、n個の前記第1固有ベクトルを取得し、
取得された前記第1固有ベクトルの間で対応する成分要素を、n次元座標にマッピングする
ことを特徴とする請求項1から請求項6のいずれか一項に記載のマッピング装置。
【請求項8】
ノード及びエッジで構成されるグラフを生成するグラフ生成部と、
2つ記グラフに関する類似度を算出する類似度算出部と、
複数の前記グラフの前記類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成部と、
前記第1類似度行列を基に、第1固有値を複数算出するとともに、前記第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する第1固有ベクトル算出部と、
前記第1固有値を大きい順に所定数取得し、取得した前記第1固有値のそれぞれに対応する前記第1固有ベクトルに基づいて算出される座標値を座標上にマッピングし、出力部に出力するマッピング処理部と、
を有し、
前記ノードには、所定の事象、所定の人物、及び、所定の物体の少なくともいずれか1つが割り当てられ
前記類似度算出部は、
2つの前記グラフを基に表現行列を生成し、
前記表現行列の固有値である第2固有値を複数算出し、
前記第2固有値を、整列させたスペクトル列に対し、2つの前記グラフを比較することで、互いに不足している前記グラフのノードを検出し、不足している前記ノードの種類に対して割り当てられている値を加え、
前記グラフの前記ノードの種類に対して割り当てられている値が加えられたスペクトル列を構成する前記第2固有値、及び、前記値を大きい順に整列させ、
整列後のスペクトル列をベクトルとみなすことで、当該スペクトル列の大きさを算出し、
前記スペクトル列の大きさを、0以上1以下の値に正規化することで、2つの前記グラフに関する前記類似度を算出する
ことを特徴とするマッピング装置。
【請求項9】
マッピング装置が、
所定の物体間の接続を示すグラフを生成するグラフ生成ステップと、
2つの前記グラフに関する類似度を算出する類似度算出ステップと、
複数の前記グラフの前記類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成ステップと、
前記第1類似度行列を基に、第1固有値を複数算出するとともに、前記第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する第1固有ベクトル算出ステップと、
前記第1固有値を大きい順に所定数取得し、取得した前記第1固有値のそれぞれに対応する前記第1固有ベクトルに基づいて算出される座標値を座標上にマッピングし、出力部に出力するマッピング処理ステップと、
を実行し、
前記類似度算出ステップにおいて、前記マッピング装置は、
2つの前記グラフを基に表現行列を生成し、
前記表現行列の固有値である第2固有値を複数算出し、
前記第2固有値を、整列させたスペクトル列に対し、2つの前記グラフを比較することで、互いに不足している前記グラフのノードを検出し、不足している前記ノードの種類に対して割り当てられている値を加え、
前記グラフの前記ノードの種類に対して割り当てられている値が加えられたスペクトル列を構成する前記第2固有値、及び、前記値を大きい順に整列させ、
整列後のスペクトル列をベクトルとみなすことで、当該スペクトル列の大きさを算出し、
前記スペクトル列の大きさを、0以上1以下の値に正規化することで、2つの前記グラフに関する前記類似度を算出する
とを特徴とするマッピング方法。
【請求項10】
マッピング装置が、
ノード及びエッジで構成されるグラフを生成するグラフ生成ステップと、
2つの前記グラフに関する類似度を算出する類似度算出ステップと、
複数の前記グラフの前記類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成ステップと、
前記第1類似度行列を基に、第1固有値を複数算出するとともに、前記第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する第1固有ベクトル算出ステップと、
前記第1固有値を大きい順に所定数取得し、取得した前記第1固有値のそれぞれに対応する前記第1固有ベクトルに基づいて算出される座標値を座標上にマッピングし、出力部に出力するマッピング処理ステップと、
を実行し、
前記ノードには、所定の事象、所定の人物、及び、所定の物体の少なくともいずれか1つが割り当てられ
前記類似度算出ステップにおいて、前記マッピング装置は、
2つの前記グラフを基に表現行列を生成し、
前記表現行列の固有値である第2固有値を複数算出し、
前記第2固有値を、整列させたスペクトル列に対し、2つの前記グラフを比較することで、互いに不足している前記グラフのノードを検出し、不足している前記ノードの種類に対して割り当てられている値を加え、
前記グラフの前記ノードの種類に対して割り当てられている値が加えられたスペクトル列を構成する前記第2固有値、及び、前記値を大きい順に整列させ、
整列後のスペクトル列をベクトルとみなすことで、当該スペクトル列の大きさを算出し、
前記スペクトル列の大きさを、0以上1以下の値に正規化することで、2つの前記グラフに関する前記類似度を算出する
ことを特徴とするマッピング方法。
【請求項11】
コンピュータであるマッピング装置に、
所定の物体間の接続を示すグラフを生成するグラフ生成ステップと、
2つの前記グラフに関する類似度を算出する類似度算出ステップと、
複数の前記グラフの前記類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成ステップと、
前記第1類似度行列を基に、第1固有値を複数算出するとともに、前記第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する第1固有ベクトル算出ステップと、
前記第1固有値を大きい順に所定数取得し、取得した前記第1固有値のそれぞれに対応する前記第1固有ベクトルに基づいて算出される座標値を座標上にマッピングし、出力部に出力するマッピング処理ステップと、
を実行させ
前記類似度算出ステップにおいて、前記マッピング装置は、
2つの前記グラフを基に表現行列を生成し、
前記表現行列の固有値である第2固有値を複数算出し、
前記第2固有値を、整列させたスペクトル列に対し、2つの前記グラフを比較することで、互いに不足している前記グラフのノードを検出し、不足している前記ノードの種類に対して割り当てられている値を加え、
前記グラフの前記ノードの種類に対して割り当てられている値が加えられたスペクトル列を構成する前記第2固有値、及び、前記値を大きい順に整列させ、
整列後のスペクトル列をベクトルとみなすことで、当該スペクトル列の大きさを算出し、
前記スペクトル列の大きさを、0以上1以下の値に正規化することで、2つの前記グラフに関する前記類似度を算出する
ことを実行させてマッピング装置として機能させるためのマッピングプログラム。
【請求項12】
コンピュータであるマッピング装置に、
ノード及びエッジで構成されるグラフを生成するグラフ生成ステップと、
2つの前記グラフに関する類似度を算出する類似度算出ステップと、
複数の前記グラフの前記類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成ステップと、
前記第1類似度行列を基に、第1固有値を複数算出するとともに、前記第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する第1固有ベクトル算出ステップと、
前記第1固有値を大きい順に所定数取得し、取得した前記第1固有値のそれぞれに対応する前記第1固有ベクトルに基づいて算出される座標値を座標上にマッピングし、出力部に出力するマッピング処理ステップと、
を実行させ、
前記ノードには、所定の事象、所定の人物、及び、所定の物体の少なくともいずれか1つが割り当てられ
前記類似度算出ステップにおいて、前記マッピング装置は、
2つの前記グラフを基に表現行列を生成し、
前記表現行列の固有値である第2固有値を複数算出し、
前記第2固有値を、整列させたスペクトル列に対し、2つの前記グラフを比較することで、互いに不足している前記グラフのノードを検出し、不足している前記ノードの種類に対して割り当てられている値を加え、
前記グラフの前記ノードの種類に対して割り当てられている値が加えられたスペクトル列を構成する前記第2固有値、及び、前記値を大きい順に整列させ、
整列後のスペクトル列をベクトルとみなすことで、当該スペクトル列の大きさを算出し、
前記スペクトル列の大きさを、0以上1以下の値に正規化することで、2つの前記グラフに関する前記類似度を算出する
ことでマッピング装置として機能させるためのマッピングプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マッピング装置、マッピング方法及びマッピングプログラムの技術に関する。
【背景技術】
【0002】
近年、テキストや音声等、様々な形式のデータが蓄積され、それらの活用のため多くのマイニング手法が検討されている。中でも、「もの」と「もの」の繋がりを表現できるグラフのデータは自然言語や画像では見いだせなかった情報を抽出できる可能性があることから、新たなデータマイニング対象として注目されている。なお、グラフとは、複数のノードと、ノードの間を結ぶエッジとを有するものであり、ある集合と、別の集合との写像関係を示すグラフではない。
【0003】
マテリアルズ・インフォマティクスの分野では、しばしば「化合物空間」という言葉が用いられる。「化合物空間」は「(世の中に存在し得るすべて/手元のデータベース内の)化合物が配置された仮想的な空間」を指す。創薬や新規材料の作成とは、この「化合物空間」内から有益な化合物を見つけ出すことに他ならない。特に創薬・材料創生の初期段階では、候補となる化合物群から「特異なものは無いか」や「どのようなグループがあるか」等の分析(スクリーニング)を行い、目的に沿った構造を抽出する必要がある。そのため、化合物空間の可視化は近年注目されているトピックである。
【先行技術文献】
【非特許文献】
【0004】
【文献】“myPresto5.0 -Screening with TGS method- USER MANUAL”,一般財団法人バイオ産業情報化コンソーシアム,2018年1月12日,[令和5年1月18日検索],インターネット<URL: https://www.mypresto5.jp/>
【文献】Yoshifumi Fukunishi and Haruki Nakamura,“A Similarity Search UsingMolecular Topological Graphs”,Journal of Biomedicine and Biotechnology,Volume 2009,Article ID 231780
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、グラフのデータに対しては、可視化のための一般的な解析手法が確立されていない。そのため、これからDX(Digital Transformation)を始めるようなケースにおいて分析に用いることが困難であった。
【0006】
また、化合物空間を人間が確認するためには化合物が平面あるいは空間上にプロットされる必要があるが、その位置関係は化合物の「どの情報」に注目するかに依存する。しかし、従来の可視化手法は、「物性情報の測定や計算が不可欠であること」や「近しい性質の化合物同士が近い位置にプロットされない」等の問題があった。
【0007】
このような背景に鑑みて本発明がなされたのであり、本発明は、グラフの構造に基づく類似性を可視化することを課題とする。
【課題を解決するための手段】
【0008】
前記した課題を解決するため、本発明は、所定の物体間の接続を示すグラフを生成するグラフ生成部と、2つ記グラフに関する類似度を算出する類似度算出部と、複数の前記グラフの前記類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成部と、前記第1類似度行列を基に、第1固有値を複数算出するとともに、前記第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する第1固有ベクトル算出部と、前記第1固有値を大きい順に所定数取得し、取得した前記第1固有値のそれぞれに対応する前記第1固有ベクトルに基づいて算出される座標値を座標上にマッピングし、出力部に出力するマッピング処理部と、を有し、前記第1固有ベクトル算出部は、前記第1類似度行列と同じ行数及び列数を有し、すべての成分要素が1である行列から、前記第1類似度行列を減算することで第2類似度行列を生成し、前記第2類似度行列に対しヤング・ハウスホルダ変換を行うことで第3類似度行列を生成し、前記第3類似度行列の固有値である前記第1固有値、及び、前記第3類似度行列の固有ベクトルである前記第1固有ベクトルを算出することを特徴とする。
その他の解決手段は実施形態中において適宜記載する。
【発明の効果】
【0009】
本発明によれば、グラフの構造に基づく類似性を可視化することができる。
【図面の簡単な説明】
【0010】
図1】本実施形態に係るマッピング装置の構成例を示す図である。
図2】本実施形態に係るマッピング装置のハードウェア構成例を示す図である。
図3】本実施形態のマッピング装置が行う全体処理の手順を示すフローチャートである。
図4A】水の分子グラフを示す図である。
図4B】二酸化炭素の分子グラフを示す図である。
図4C】一酸化炭素の分子グラフを示す図である。
図5】第1類似度行列を表の形式と示す図である。
図6】第2類似度行列を表の形式で示す図である。
図7】第3類似度行列を表の形式で示す図である。
図8】第1固有値及び第1固有ベクトルを示す図である。
図9】マッピング処理部によるマッピング結果を示す図である。
図10】本実施形態のマッピング装置が行う類似度算出処理第1類似度行列生成処理の詳細な手順を示すフローチャートである。
図11】水の表現行列を表の形式で示す図である。
図12】二酸化炭素の表現行列を表の形式で示す図である。
図13】水及び二酸化炭素のスペクトル列を示す図(その1)である。
図14】水の分子グラフ及び二酸化炭素の分子グラフの比較を示す図である。
図15】水及び二酸化炭素のスペクトル列を示す図(その2)である。
図16】一酸化炭素の表現行列を表の形式で示す図である。
図17】水及び一酸化炭素のスペクトル列を示す図(その1)である。
図18】水の分子グラフ及び一酸化炭素の分子グラフの比較を示す図である。
図19】水及び一酸化炭素のスペクトル列を示す図(その2)である。
図20】工場の配管構成を構造グラフとして表現した例である。
図21】電子回路を構造グラフとして表現した例である。
図22】人物の関係性を構造グラフとして表現した例を示す図である。
図23】作業現場の関係性を構造グラフとして表現した例を示す図である。
図24】構造グラフの一例を示す図(その1)である。
図25】構造グラフの一例を示す図(その2)である。
【発明を実施するための形態】
【0011】
次に、本発明を実施するための形態(「実施形態」という)について、適宜図面を参照しながら詳細に説明する。本実施形態で用いられるマッピング装置1は、化合物、工場の配管、電子回路等の構造類似性をマッピングすることができるが、本実施形態では主として化合物の構造類似性をマッピングする方法(この方法を実現するプログラムも含む)について記載する。工場の配管、電子回路等の構造類似性をマッピングする方法については、本実施形態の最後に記載する。
【0012】
<マッピング装置1の構成>
図1は、本実施形態に係るマッピング装置1の構成例を示す図である。
マッピング装置1は、グラフ生成部11、類似度算出部12、類似度行列生成部13、算出部(第1固有ベクトル算出部)14、マッピング処理部15を有する。
グラフ生成部11は、マッピング対象となる対象物(所定の物体:本実施形態では化合物)をグラフに変換する。なお、本実施形態においてグラフとは、図4A図4Cに示すように複数のノードNと、ノードNの間を結ぶエッジEとを有するものであり、ある集合と、別の集合との写像関係を示すグラフではない。つまり、グラフは、所定の物体間の関係性を示し、ノードN及びエッジEで構成されるものである。
【0013】
類似度算出部12は、グラフ生成部11で生成されたグラフを基に、2つのグラフに関する類似度を算出することで2つの対象物間の類似度を算出する。類似度の算出方法については後記する。
類似度行列生成部13は、成分要素が類似度算出部12で算出された類似度で構成されている行列である第1類似度行列を算出する。なお、成分要素とは、行列や、ベクトルを構成する値の一つ一つである。さらに、類似度行列生成部13は、第1類似度行列と同じ次数を有し、かつ、すべての成分要素が「1」である行列から、第1類似度行列を減算することで第1類似度行列を第2類似度行列へ変換する。これによって、第2類似度行列が生成される。さらに、類似度行列生成部13は、第2類似度行列に対しヤング・ハウスホルダ変換を行うことで第3類似度行列を生成する。
【0014】
算出部14は、第3類似度行列の固有値及び固有ベクトルを算出する。算出部14で算出される固有値を第1固有値301(図8参照)と称し、第1固有値301のそれぞれに対応する固有ベクトルを第1固有ベクトル310(図8参照)と称する。
【0015】
マッピング処理部15は、算出部14によって算出された第1固有値301及び第1固有ベクトル310を基に、対象物を座標にマッピングするための座標を特定し、特定した座標に基づいてマッピングを行う。
【0016】
<ハードウェア構成>
図2は、本実施形態に係るマッピング装置1のハードウェア構成例を示す図である。
図2に示すように、マッピング装置1は、マッピング対象に関するデータを入力する入力装置104、類似度や、マッピング座標値等の算出演算を行う演算装置102を有する。また、マッピング装置1は、実行するためのプログラムがロードされる主記憶装置101を有する。さらに、マッピング装置1は、演算の結果を出力する出力部としての出力装置105、及び、入力データ、演算途中のデータ、演算結果等を記憶するデータ記憶装置103を有する。
【0017】
マッピング装置1には、マッピング対象となる物体(本実施形態では化合物)に関するデータが入力される(太矢印A1)。また、マッピング装置1からマッピング結果が出力される(太矢印A2)。
【0018】
入力装置104はキーボードや、マウス等で構成され、出力装置105はディスプレイ等で構成される。また、演算装置102はCPU(Central Processing Unit)や、GPU(Graphic Processing Unit)等で構成される。そして、データ記憶装置103は、HD(Hard Disk)や、SSD(Solid State Drive)等で構成される。
【0019】
また、データ記憶装置103に格納されているプログラムが主記憶装置101にロードされる。そして、ロードされたプログラム(マッピングプログラム)が演算装置102によって実行される。これによって、図1に示すグラフ生成部11、類似度算出部12、類似度行列生成部13、算出部14、マッピング処理部15が具現化する。
【0020】
<全体処理>
図3は、本実施形態のマッピング装置1が行う全体処理の手順を示すフローチャートである。以下の説明において、ステップS1~S7は図3に示すステップ番号である。
【0021】
<S1:分子グラフ生成:グラフ生成ステップ>
まず、グラフ生成部11が、マッピング対象となる化合物それぞれの分子グラフG(図4A図4C参照)を生成する。分子グラフGとは化合物の分子構造をグラフとして表現したものである。図4Aには水(H2O)の分子グラフG1が示されており、図4Bには二酸化炭素(CO2)の分子グラフG2が示されており、図4Cには一酸化炭素(CO)の分子グラフG3が示されている。
【0022】
このように、分子グラフGは、化合物をグラフとしたものであり、化合物を構成する原子をノードNとし、化合物における共有結合をエッジEとしたものである。
【0023】
前記したように分子グラフGはノードNと、エッジEによって構成されている(図4A図4C参照)。本実施形態において、ノードNは化合物を構成する原子である。なお、図4A図4CにおいてノードNの中に記載されているアルファベットは、ノードNに対応する原子の原子記号である。
【0024】
また、図4A図4Cに示されている分子グラフGそれぞれにおいてエッジEの本数は、共有結合の種類を示している。つまり、エッジE1のようにエッジEが1本である場合、単結合を示し、エッジE2のようにエッジEが2本である場合、二重結合を示す。
【0025】
なお、化合物の原子が所定の物体に相当する。このように分子グラフGは、所定の物体間の接続を示すグラフである。
【0026】
<S2:類似度算出処理:類似度算出ステップ>
続いて、類似度算出部12が、分子グラフGの対すべてについて類似度を算出する。類似度の算出については後記して説明する。本実施形態において、類似度とは、2つの化合物の構造の類似度である。類似度算出については後記する。
【0027】
<S3:第1類似度行列生成:類似度行列生成ステップ>
類似度行列生成部13は、それぞれの類似度を行列の形式とした第1類似度行列を生成する。第1類似度行列ではステップS2で算出された類似度が行列の形式で出力される。
【0028】
図5に第1類似度行列を表200の形式としたものを示す。図5に示す例では、マッピング対象が水(「H2O」)、二酸化炭素(「CO2」)、一酸化炭素(「CO」)である場合における第1類似度行列を示している。なお、本実施形態では、マッピング対象となる化合物を水(「H2O」)、二酸化炭素(「CO2」)、一酸化炭素(「CO」)としているが、これらの化合物に限らない。
【0029】
第1類似度行列の成分要素であるnij(図5における各欄に相当)はi番目の化合物と、j番目の化合物との類似度である。例えば、図5に示す表200において、符号201で示す欄は、水と、一酸化炭素の類似度が格納される。なお、それぞれの類似度は、ステップS2で算出された類似度である。また、ステップS2で算出される類似度は、同じ化合物であれば、類似度は「1」となるため、i=jでは類似度「1」が格納される。従って、図5に示すように、マッピング対象となる化合物の数がM個であれば、第1類似度行列はM×Mの対称行列となる。
【0030】
このように、第1類似度行列は複数の分子グラフGの類似度を行列の成分要素として有する行列である。
【0031】
<S4:第2類似度行列へ変換>
続いて、類似度行列生成部13が、第1類似度行列を第2類似度行列に変換する。前記したように、類似度行列生成部13は、第1類似度行列と同じ行数及び列数を有し、すべての成分要素が「1」である行列から第1類似度行列を減算する。このようにすることで、類似度行列生成部13は、第1類似度行列を第2類似度行列に変換(生成)する。図5に示す第1類似度行列を基に生成された第2類似度行列を表210の形式で示したものを図6に示す。このような処理で生成された第2類似度行列は、同じ化合物同士の類似度が「0」となる、即ち、構造が類似していればいるほど、成分要素の値が小さい値となる行列となる。この結果、後記するマッピング処理において、類似している化合物同士が近い位置にマッピングされる。
【0032】
<S5:ヤング・ハウスホルダ変換>
そして、類似度行列生成部13は、前記したように、第2類似度行列に対して、ヤング・ハウスホルダ変換を行う。この結果、第2類似度行列は、第3類似度行列に変換される(第3類似度行列が生成される)。図6に示す第2類似度行列を基に生成された第3類似度行列を表220の形式で示したものを図7に示す。第3類似度行列は、第2類似度行列の成分要素「nij」を、i及びjが示す化合物間の距離とみなした場合において、それぞれの距離が、当該距離が示す位置の重心を原点とした距離となるよう変換されたM×M行列である。
【0033】
<S6:第1固有値301及び第1固有ベクトル310算出:第1固有ベクトル算出ステップ>
次に、算出部14が第3類似度行列の固有値である第1固有値301(図8参照)及び固有ベクトルである第1固有ベクトル310(図8参照)をすべて算出する。第3類似度行列がM×Mである場合、M個(即ち複数の)の第1固有値301及び第1固有ベクトル310が算出される。
【0034】
図7に示す第3類似度行列を基に算出された第1固有値301及び第1固有ベクトル310を図8に示す。図8において、1行目が第1固有値301を示し、2~4行目(図8の太枠のそれぞれ)が第1固有値301に対応する第1固有ベクトル310の成分要素を示す。例えば、第1固有値301が「λ1=3.338」の第1固有ベクトル310は「(0.576,0.578,0.578)となる。また、第1固有値301が「λ2=0.478」の第1固有ベクトル310は「(0.025,-0.719,0.694)である。第1固有値301が「λ3=-0.013」の場合も同様である。
【0035】
一般に、M×M行列からM個の第1固有値301及び第1固有ベクトル310が算出される(ただし、第1固有値301及び第1固有ベクトル310は重複する場合がある)。つまり、ステップS6において、算出部14は、第1類似度行列を基に算出された第3類似度行列を基に、第3類似度行列の固有値である第1固有値301を複数算出する。そして、算出部14は、第1固有値301のそれぞれに対応し、第3類似度行列の固有値である第1固有値301の固有ベクトルである第1固有ベクトル310を複数算出する。なお、図8における実線枠321~323、破線枠331~333については後記する。
【0036】
<S7:マッピング処理:マッピング処理ステップ>
そして、マッピング処理部15が、ステップS5で算出された第1固有値301及び第1固有ベクトル310を基に化合物に関する情報(化合物情報)をマッピング座標400(図9参照)にマッピングするマッピング処理を行う。ステップS7でマッピング処理部15は、ステップS5で算出された第1固有値301のうち、大きい方からm個、つまり大きい順に所定数を取得する。例えば、2次元のマッピング座標400に化合物情報をマッピングする場合、m=2となる。同様に、3次元のマッピング座標400に化合物情報をマッピングする場合、m=3となる。
【0037】
そして、マッピング処理部15は、選択した第1固有値301と対応する第1固有ベクトル310に基づいて化合物情報を座標であるマッピング座標400(図9参照)にマッピングする。
【0038】
例えば、ステップS6で算出された第1固有値301と第1固有ベクトル310が図8に示すようなものであるとする。なお、本実施形態では2次元のマッピング座標400(図9参照)に化合物情報がマッピングされるものとする。この場合、マッピング処理部15は、得られた第1固有値301を大きい順に2個選択する。図8に示すような第1固有値301と第1固有ベクトル310が得られている場合、マッピング処理部15は、λ1=3.338、λ2=0.478の2個を選択する。さらに、マッピング処理部15は、選択した第1固有値301に対応する第1固有ベクトル310を選択し、選択した第1固有ベクトル310を対応する第1固有値301の大きい順(選択順)に並べる。
【0039】
そして、マッピング処理部15は、選択した第1固有ベクトル310を縦ベクトルとして並べる。選択した第1固有ベクトル310を縦ベクトルとして並べた結果が図8に示されている。第1固有ベクトル310を縦ベクトルとして並べた結果において、第H行目の成分要素2個が、図5の第H行目(あるいは、第H列目)に対応する化合物のマッピング座標値となる。
【0040】
例えば、図8の実線枠321で示す2個の値「(0.576,0.025)」が水(「H2O」)のマッピング座標値となる。また、図8の実線枠322で示す2個の値「(0.578,-0.719)」が二酸化炭素(「CO2」)のマッピング座標値となる。同様に、図8の実線枠323で示す2個の値「(0.578,0.694)」が一酸化炭素(「CO」)のマッピング座標値となる。このように算出されたマッピング座標値は、取得(選択)された第1固有ベクトル310の間で対応する成分要素である。マッピング処理部15は、算出されたマッピング座標値に基づいてマッピングを行う。
【0041】
なお、本実施形態では、選択取得された第1固有値301のうち、最も大きな値を有する第1固有値301に対応する第1固有ベクトル310をマッピング座標値のx座標としている。そして、次に大きな値を有する第1固有値301に対応する第1固有ベクトル310をマッピング座標値のy座標としている。しかしながら、これに限らない、最も大きな値を有する第1固有値301に対応する第1固有ベクトル310をマッピング座標値のy座標としてもよい。
【0042】
図9は、マッピング処理部15によるマッピング結果を示す図である。
図9において、マッピングは図8に示す第1固有値301及び第1固有ベクトル310に基づいたマッピング座標値を用いて行われている。
図9に示すマッピング座標400おいて、符号401は水に関する化合物情報のマッピング結果を示し、符号402は二酸化炭素に関する化合物情報のマッピング結果を示す。また、符号403は一酸化炭素に関する化合物情報のマッピング結果を示す。
【0043】
なお、化合物情報が3次元のマッピング座標400にマッピングされる場合、マッピング処理部15は、図8に示す第1固有値301の3個を大きい順に選択する。つまり、マッピング処理部15は、図8に示す第1固有値301のうち、「λ1=3.338」、「λ2=0.478」、「λ3=0.013」のすべてを選択取得する。
【0044】
そして、マッピング処理部15は、選択した3つの第1固有値301に対応する第1固有ベクトル310を対応する第1固有値301の大きい順に縦ベクトルとして並べる。選択した第1固有ベクトル310を縦ベクトルとして並べた結果は図8に示すものとなる。そして、2次元のマッピング座標400にマッピングする場合と同様、マッピング処理部15は、並べた第1固有ベクトル310について、第H行目の成分要素3個が、図5の第H行目(あるいは、第H列目)に対応する化合物のマッピング座標値となる。
【0045】
例えば、図8の破線枠331で示す3個の値「(0.576,0.025,0.013)」が水(「H2O」)のマッピング座標値となる。これは、取得された第1固有ベクトル310の間で対応する成分要素である。また、図8の破線枠332で示す3個の値「(0.578,-0.719,-0.241)」が二酸化炭素(「CO2」)のマッピング座標値となる。同様に、図8の破線枠333で示す3個の値「(0.578,0.694,0.228)」が一酸化炭素(「CO」)のマッピング座標値となる。
【0046】
以上の処理を一般的な場合として、マッピング座標400であるn次元座標に対して第1固有ベクトル310をマッピングする場合について記載すると、以下のようになる。マッピング処理部15は、まず、第1固有値301のうち、大きい値を有する第1固有値301から順に、n個の第1固有値301を取得する。そして、マッピング処理部15は、第1固有ベクトル310のうち、取得した第1固有値301のそれぞれに対応する、n個の第1固有ベクトル310を取得する。その後、マッピング処理部15は、取得された第1固有ベクトル310の間で対応する成分要素(第1固有ベクトル310に基づいて算出される座標値)を、n次元座標にマッピングする。
【0047】
<S8:出力処理:マッピング処理ステップ>
マッピング処理部15は、ステップS6によるマッピングの結果(図9参照)を出力装置105に出力する。
【0048】
このように、マッピング処理部15は、ステップS6のマッピング処理で取得した第1固有値301のそれぞれに対応する第1固有ベクトル310に基づいて算出される座標値(マッピング座標値)をマッピング座標400にマッピングし、出力装置105に出力する
【0049】
そして、マッピング結果を用いて化合物のスクリーニングが行われる。スクリーニングについては、一般的に用いられている手法が適用されればよいので、本実施形態における説明を省略する。
【0050】
<類似度算出処理>
図10は、本実施形態のマッピング装置1が行う類似度算出処理第1類似度行列生成処理の詳細な手順を示すフローチャートである。なお、図10に示す処理は、図3のステップS2の処理に相当するものである。
【0051】
<S201:入力>
類似度の算出には、以下に示す2つのデータが類似度算出部12に入力される。入力されたデータは、データ記憶装置103に格納され、その後の処理において、演算装置102により読み出されて演算がなされる。
第1の入力:第1化合物の分子グラフGに関するデータ。
第2の入力:第2化合物の分子グラフGに関するデータ。
分子グラフGについては、前記しているが、さらに具体的に記載すると、分子グラフGは以下の定義を有する無向グラフである。つまり、分子グラフGを構成するノードNのそれぞれには、値が割り当てられている。本実施形態において、ノードNに割り当てられる値は、ノードNに対応する原子の原子番号である。本実施形態では、ノードNの値として原子番号が使用されているが、これに限らない。例えば、ユーザが任意に付与した番号がノードNの値として使用されてもよい。
【0052】
また、エッジEのそれぞれにも値が割り当てられている。エッジEに割り当てられる値は、エッジEに対応する共有結合の種類に対応するものである。本実施形態では、共有結合の種類として、結合数が用いられる。例えば、単結合であれば「1」が割り当てられ、二重結合であれば「2」が割り当てられる。
【0053】
<S202:表現行列生成>
次に、類似度算出部12は、第1の入力及び第2の入力に基づいて、それぞれのノードNの結合と、ノードNの値の情報を基に表現行列を分子グラフG毎に生成する。つまり、類似度算出部12は、2つの分子グラフGを基に表現行列を生成する。
【0054】
類似度算出部12は、入力された分子グラフGをもとに、以下の手順に従って表現行列「A」を生成する。
表現行列「A」はK×Kの行列である。なお、「K」は、1つの分子グラフGにおけるノードNの数である。また、表現行列「A」の成分要素「aij」は以下の定義を有する。
(A1)i=jの場合:aijは、ノードN「i」(ノードN「j」)に対応する原子記号「ei」(「ej」)に対応する原子番号となる。つまり、i=jの場合、aijはグラフのノードNに割り当てられている値(本実施形態では原子番号)となる。また、aij=ajiが満たされる。
(A2)i=jではない場合(i≠j):
(A2-1)ノードN「i」が示す原子と、ノードN「j」が示す原子との間に結合が存在する場合:表現行列の成分要素「aij」はノードN「i」が示す原子とノードN「j」を接続するエッジEに割り当てられている値に負の符号をつけた値となる。なお、このように結合数に負の符号をつけた値とすることで、この処理の後で行われるマッピングの精度を向上させることができる。また、(A2-1)において、表現行列の成分要素「aij」はノードN「i」が示す原子とノードN「j」の結合数に負の符号をつけた値としているが、正の値としてもよい。ちなみに、本実施形態において、結合とは共有結合を指す。
【0055】
(A2-2)ノードN「i」が示す原子と、ノードN「j」が示す原子との間に結合が存在しない場合:「aij=0」
【0056】
このように、i≠jの場合、iが示すノードNと、jが示すノードNとを接続するエッジEが存在する場合、aijは、当該エッジEに割り当てられている値となる(A2-1)。また、aijは分子グラフGのエッジEに割り当てられている値を負の値としたものとなる。そして、iが示すノードNと、jが示すノードNとを接続するエッジEが存在しない場合、aijは、「0」となる。
【0057】
なお、分子グラフG及び表現行列については、後記する具体例において具体的な説明を行う。
【0058】
<S203:スペクトル列生成>
次に、類似度算出部12は、表現行列「A」の第2固有値「λi」(i=1,・・・,K)を算出する。つまり、類似度算出部12は、表現行列の固有値である第2固有値を複数算出する。
【0059】
続いて、類似度算出部12は、算出した第2固有値のそれぞれを大きい順(降順)に整列させたスペクトル列531(図13図17参照)「(λ1,・・・,λK)」を生成する。表現行列「A」がK×Kの行列である場合、K個の第2固有値が存在する(ただし、第2固有値が重複する場合がある)。
【0060】
<S204:スペクトル列531の前処理>
ステップS203の後、類似度算出部12は、対となっている分子グラフGの構成原子を比較し、不足している原子の原子番号を、それぞれのスペクトル列531(図13図17参照)に追加する。前記したように、原子番号は、分子グラフGのノードNの種類に対して割り当てられている値である。つまり、類似度算出部12は、入力された化合物の構成原子、即ち、ある化合物の分子グラフG「Ga」と、別の化合物の分子グラフG「Gb」の、それぞれにおいてノードNに割り当てられている原子記号の集合を比較する。そして、類似度算出部12は、比較の結果、分子グラフG「Ga」と分子グラフG「Gb」について、互いに含有していない原子の原子番号をそれぞれのスペクトル列531である「Λa=(λa1,・・・,λaM)」及び「Λb=(λb1,・・・,λbL)」に追加挿入する。原子番号が追加挿入されたスペクトル列531をスペクトル列532(図15及び図19参照)と称する。その後、類似度算出部12は、スペクトル列532「λa」、「λb」のそれぞれについて、スペクトル列532の要素を値の大きい順にソートする。つまり、類似度算出部12は、分子グラフGのノードNの種類に対して割り当てられている値(原子番号)が加えられたスペクトル列532を構成する第2固有値、及び、値を大きい順に整列する。ステップS204の処理についは、具体例を後記する。なお、後記するステップS205の処理内容によっては、ステップS204の処理は省略可能である。
【0061】
<S205:ノルムの算出>
さらに、類似度算出部12は、整列後のスペクトル列532をベクトルとみなし、類似度算出対象となっている2つのスペクトル列532(「Λa」、「Λb」))間のL2ノルム「c」を算出する。L2ノルムは、スペクトル列532の大きさに相当する。この際、算出される差は必ずしもL2ノルムである必要はない。例えば、L1ノルムや、スペクトル列532の要素それぞれの差の合計等、スペクトル列532の要素それぞれの差に比例して大きくなる値であればどのようなものでもよい。ステップS205の処理については、具体例を後記する。
【0062】
<S205:類似度の出力>
最後に、類似度算出部12は、ステップS205で算出したL2ノルム「c」の値を式(1)に示すようなスコア関数「f(x)」で[0,1]に規格化(正規化)する。つまり、類似度算出部12は、スペクトル列532の大きさを、0以上1以下の値に正規化することで、2つの分子グラフGに関する類似度を算出する。そして、類似度算出部12は、当該規格化の結果を類似度「f(c)」として出力する。
【0063】
f(x)=4{(1-s(x))s(x)} ・・・(1)
s(x)=1/{1+exp(-rx)}
【0064】
なお、スコア関数は必ずしも式(1)に示すものである必要はなく、以下の要件(1-1)~(1-3)を満たす関数「F(x)」であればどのようなものでもよい。なお、式(1)における「f(x)」は「F(x)」に含まれる式のうちの1つである。また、本実施形態では、式(1)における「r」を「1.0」としているが、「r」の値を変動させることで、算出される類似度の調整が可能である。
【0065】
【数1】

【0066】
[類似度算出の具体例]
(原子の数が同じである場合)
図4A図4C図11図19を参照して、類似度算出の具体的な例を説明する。
まず、図4A図4B図11図15を参照して、類似度の算出対象となる2つの化合物における原子の数、即ち、分子グラフGにおけるノードNの数が同じである場合について説明する。なお、具体例におけるステップ番号は図10に示すステップ番号を示す。
【0067】
(S201)
図4Aは水(H2O)の分子グラフG1が示されており、図4Bには二酸化炭素の分子グラフG2が示されている。
【0068】
類似度算出部12は、図4A及び図4Bに示すような2つの化合物、即ち水と二酸化炭素の分子グラフG1,G2を、それぞれ第1の入力及び第2の入力とし、2つの化合物間の類似度を出力する。なお、以下では水に関する演算結果の添え字を「w」、二酸化炭素に関する演算結果の添え字を「c2」とする。
【0069】
(S202)
第1の入力及び第2の入力がマッピング装置1に入力されると、類似度算出部12が入力された2つの分子グラフGの表現行列「Aw」(3×3行列)及び「Ac2」(3×3行列)を生成する。表現行列「Aw」を図11に示す表510に示す。また、表現行列「Ac2」を図12に示す表520として示す。表現行列の定義については前記しているため、ここでの説明を省略する。
【0070】
(S203)
さらに、類似度算出部12は、表現行列「Aw」から、表現行列「Aw」の固有値である第2固有値を値の大きい順に整列させたスペクトル列531a(531:図13参照)「Λw」を生成する。図13のスペクトル列531aに示す値の一つ一つが第2固有値である。そして、図13のスペクトル列531aに示す値の集合を「Λw」と適宜記載する。同様に、類似度算出部12は、表現行列「Ac2」の固有値である第2固有値それぞれを値の大きい順に整列させたスペクトル列531b(531:図13参照)「Λc2」を生成する。図13のスペクトル列531bに示す値の一つ一つが第2固有値である。そして、図13のスペクトル列531bに示す値の集合を「Λc2」と適宜記載する。
【0071】
(S204)
続いて、類似度算出部12は、類似度の算出対象となっている分子グラフGにおける原子の集合を比較する。そして、類似度算出部12は、互いに不足している原子の原子番号をそれぞれのスペクトル列531に追加した後、スペクトル列531の要素を値の大きい順にソートする(前処理)。
【0072】
例えば、図14に示すように、水の原子集合は(H,H,O)であり、二酸化炭素の原子集合は(C,O,O)である。なお、図14において矢印は比較を示している。そして、二酸化炭素と比較して水は(C,O)が不足している。従って、類似度算出部12は、図13に示すスペクトル列531a(「Λw」)に不足している(C,O)の原子番号である「6.00」と「8.00」を追加する。その後、類似度算出部12は、原子番号が追加されたスペクトル列531aを値の大きい順に整列(ソート)する。その結果、図13に示すスペクトル列531a(「Λw」)は、図15に示すスペクトル列532a(532)となる。
【0073】
このように、ステップS204では、類似度算出部12が、第2固有値を、整列させたスペクトル列531に対し、2つの分子グラフGを比較する。これにより、類似度算出部12は、互いに不足している分子グラフGのノードNを検出する。そして、類似度算出部12は、不足しているノードNの種類に対して割り当てられている値(本実施形態では原子番号)を加える。その後、類似度算出部12は、分子グラフGのノードNの種類に対して割り当てられている値が加えられたスペクトル列531を構成する第2固有値、及び、値を大きい順に整列させることでスペクトル列532を生成する。
【0074】
図15のスペクトル列532aにおいて、「8.00」、「6.00」は追加された要素である。
【0075】
同様に、図14に示されている分子グラフG1,G2(G)を参照すると、水と比較して二酸化炭素は(H,H)が不足している。従って、類似度算出部12は、図13に示すスペクトル列531b(「Λc2」)に不足している(H,H)の原子番号である「1.00」と「1.00」を追加する。その後、類似度算出部12は、原子番号が追加されたスペクトル列531bを値の大きい順に整列(ソート)する。その結果、図13に示すスペクトル列531b(「Λc2」)は、図15に示すスペクトル列532bとなる。
【0076】
図15のスペクトル列532bにおいて、2つの「1.00」は追加された要素である。
【0077】
(S205)
そして、類似度算出部12は、スペクトル列532をベクトルとみなし、2つのスペクトル列532について差のL2ノルムを算出することでスペクトル列532の差の値「c」を算出する。スペクトル列532a(「Λw」)及びスペクトル列532b(「Λc2」)によるL2ノルムは、以下に示す式(11)となる。
【0078】
【数2】

【0079】
具体的には、「c」は以下に示す式(11-1)の計算で算出される。
【0080】
c={(8.27-10.0)+(8.00-8.00)+(6.00-6.00)+(1.00-1.00)+(0.73-1.00)1/2=1.75
・・・(11-1)
【0081】
(S206)
さらに、類似度算出部12は、式(1)で示すスコア関数「f(x)」の「x」に「c」を代入することで、類似度「f(c)=0.504」を算出する。
【0082】
(原子の数が異なる場合)
次に、図4A図4C図11図16図19を参照して、類似度の算出対象となる2つの化合物における原子の数、即ち、分子グラフGにおけるノードNの数が異なる場合について説明する。本具体例におけるステップ番号は図10におけるステップ番号である。
【0083】
(S201)
図4Aは、前記したように水(H2O)の分子グラフG1を示す図であり、図4Cは一酸化炭素の分子グラフG3を示す図である。
図4A及び図4Bと同様、分子グラフGにおいてエッジEの本数は、共有結合の種類を示している。つまり、エッジE1(図4A参照)が1本である場合、単結合を示し、エッジE2(図4B図4C参照)が2本である場合、二重結合を示す。
【0084】
類似度算出部12は、図4A及び図4Cに示すような2つの化合物、即ち水と一酸化炭素の分子グラフGを、それぞれ第1の入力及び第2の入力とし、2つの化合物間の類似度を出力する。なお、以下では水に関する演算結果の添え字を「w」、一酸化炭素に関する演算結果の添え字を「c1」とする。
【0085】
(S202)
第1の入力及び第2の入力がマッピング装置1に入力されると、類似度算出部12が入力された2つの分子グラフGの表現行列「Aw」(3×3行列)及び「Ac1」(3×3行列)を生成する。図11に表現行列「Aw」を表510として示す。また、図16に表現行列「Ac1」を表540として示す。
【0086】
さらに、類似度算出部12は、表現行列「Aw」から、表現行列「Aw」の固有値である第2固有値のそれぞれを整列させた、図17に示すスペクトル列531a(531)「Λw」を生成する。同様に、類似度算出部12は、表現行列「Ac1」の固有値である第2固有値のそれぞれを整列させた、図17に示すスペクトル列531c(531)「Λc1」を生成する。
【0087】
(S204)
続いて、類似度算出部12は、類似度の算出対象となっている分子グラフGにおける原子の集合を比較する。そして、類似度算出部12は、互いに不足している原子の原子番号をそれぞれのスペクトル列531に追加し、原子番号が追加されたスペクトル列531の要素を値の大きい順にソートする(前処理)。
【0088】
例えば、図18の分子グラフG1,G3(G)に示すように、水の原子集合は(H,H,O)であり、一酸化炭素の原子集合は(C,O)である。なお、図18において矢印は比較を示している。そして、一酸化炭素と比較して水は「C」が不足(欠落)している。従って、類似度算出部12は、図17に示すスペクトル列531a(「Λw」)に不足している「C」の原子番号である「6」を追加する。その後、類似度算出部12は、原子番号が追加されたスペクトル列531aを要素の値について大きい順に整列(ソート)する。その結果、図17に示すスペクトル列531a(「Λw」)の具体的な形は図19に示すスペクトル列532d(532)となる。
【0089】
図19のスペクトル列532dにおいて、「6.00」は追加された要素である。
【0090】
同様に、図18に示すように、水と比較して一酸化炭素は(H,H)が不足(欠落)している。従って、類似度算出部12は、図17に示すスペクトル列531c(「Λc1」)に不足している(H,H)の原子番号である「1.00」と「1.00」を追加する。その後、類似度算出部12は、原子番号が追加されたスペクトル列531cを要素の値の大きい順に整列する。その結果、図17に示すスペクトル列531c(「Λc1」)の具体的な形は図19に示すスペクトル列532c(532)となる。
【0091】
図19のスペクトル列532cにおいて、2つの「1.00」は追加された要素である。
【0092】
(S205)
そして、類似度算出部12は、スペクトル列532をベクトルと見なし、2つのスペクトル列532について差のL2ノルムを算出することでスペクトル列532の差の値「c」を算出する。以下に示す式(21)が具体的な「c」の値となる。
【0093】
【数3】

【0094】
具体的には、「c」は以下に示す式(21-1)の計算で算出される。
【0095】
c={(8.27-9.24)+(6.00-4.76)+(1.00-1.00)+(0.73-1.00)1/2=1.60 ・・・(21-1)
【0096】
(S205)
さらに、類似度算出部12は、式(1)で示すスコア関数「f(x)」の「x」に「c」を代入することで、類似度「f(c)=0.589」を算出する。
【0097】
本実施形態では、化合物間の類似度を基にマッピングが行われているが、これに限らず、以下のように、工場の配管、電子回路、及び、道路網に対して、本実施形態で示したマッピング方法を適用可能である。
【0098】
図20は、工場の配管構成を構造グラフG11(グラフ)として表現した例である。構造グラフG11は、配管構造をグラフとしたものである。構造グラフG11は、分子グラフGに相当するものであり、配管構造を構成する装置をノードNとし、装置を接続する配管をエッジEとしたものである。そして、エッジEに割り当てられる値は、エッジEに対応する配管に対して任意に割り当てられる値となる。例えば、エッジEに割り当てられる値として、配管の内部を流れる液体の流量や、配管の太さに「-1」を乗算したもの等が考えられる。ノードNに割り当てられる値は、装置の種類に対して一意に割り当てられる値となる。ノードNの値として割り当てられる値は、設備の種類を区別できるものであれば、任意の値でよい。例えば、所定の物体であるポンプに対して「1」が割り当てられ、所定の物体である「装置A」に対して「2」が割り当てられ、所定の物体である「装置B」に対して「3」が割り当てられる。
【0099】
図21は、電子回路を構造グラフG12(グラフ)として表現した例である。構造グラフG12は、電子回路をグラフとしたものである。構造グラフG12は、分子グラフGに相当するものであり、電子回路を構成する電子回路部品(所定の物体)をノードNとし、電子回路部品を接続する配線をエッジEとしたものである。、電子回路部品として、図21に示すようにIC(Integrated Circuit)チップや、トランジスタ、抵抗等が考えられる。ただし、電子回路部品は、ICチップ、トランジスタ、抵抗に限らない。
【0100】
そして、エッジEに割り当てられる値は、エッジEに対応する配線に対して任意に割り当てられる値である。例えば、エッジEに割り当てられる値はすべて「-1」としたり、配線を流れる電流の値に「-1」を乗算したものとしたりすることが考えられる。また、ノードNに割り当てられる値は、電子回路部品の種類に対して一意に割り当てられる値である。ノードNの値として付与される値は、電子回路部品を区別できるものであれば、任意の値でよい。例えば、ICチップに対して「1」が割り当てられ、トランジスタに対して「2」が割り当てられ、抵抗に「3」が割り当てられる。
【0101】
なお、図20に示す例では、ポンプ、「装置A」、「装置B」といった配管構造のノードNに相当する装置が所定の物体に相当する。また、図21に示す例では、ICチップ、トランジスタ、抵抗等の電子回路部品が所定の物体に相当する。
【0102】
図20及び図21に示す例の他にも道路網に対して本実施形態の手法を適用可能である。道路網をグラフとして表現する場合、交差点や、丁字路(所定の物体)等がノードNとなり、交差点からのびる道路がエッジEとなる。そして、エッジEに割り当てられる値は、すべて「-1」としたり、道路の平均交通量に「-1」を乗算したものしたりすることが可能である。また、ノードNの値は交差点や、丁字路に対して一意に付与される値となる。例えば、丁字路に対して「1」が付与され、十字路に対して「2」が付与され、五差路に対して「3」が付与される。また、信号の有無等でノードNの値が区別されてもよい。
【0103】
図22は、人物の関係性を構造グラフG13(グラフ)として表現した例を示す図である。構造グラフG13は、所定の人物間の関係性をグラフとしたものである。構造グラフG13は、分子グラフGに相当するものであり、人物の関係性を構成する人物をノードNとし、人物間の関係性をエッジEとしたものである。つまり、構造グラフG13のノードNには、所定の人物が割り当てられている。この場合、例えばノードNの値は人物の年齢、エッジEは所定の指標から算出される人物間の親密度が考えられる。ただし、これは例示でありノードNの値は人物の年齢に限らず、エッジEは親密度にかぎらない。このように本実施形態におけるノードNは物体に限らず人物や生物の属性としてもよい。
【0104】
図23は、作業現場の関係性を構造グラフG14(グラフ)として表現した例を示す図である。構造グラフG14は、所定の事象間の関係性である作業現場の関係性をグラフとしたものである。構造グラフG14は、分子グラフGに相当するものであり、所定の事象である作業現場の関係性を構成する作業をノードNとし、作業間の関係性をエッジEとしたものである。つまり、構造グラフG13のノードNには、所定の事象が割り当てられている。この場合、例えばノードNの値は所定の指標から算出される作業効率、エッジEは所定の指標から算出される作業内容の関連度が考えられる。作業内容の関連度とは、例えば、作業工程の類似度(同じ内容の作業工程が、どれだけ存在するか)等である。ただし、これは例示でありノードNの値は作業効率に限らず、エッジEは作業内容の関連度にかぎらない。このように本実施形態におけるノードNは有体物に限らず、作業や場所や事象の属性であってもよい。
【0105】
工場の配管、電子回路、道路網等をグラフとして表現した後は、図3のS2以降と同様の処理が行われることで、工場の配管、電子回路、道路網の構造類似性をマッピングすることができる。
【0106】
本実施形態では、化合物、工場の配管構成、電子回路、道路網の構造類似性を本実施形態のマッピング方法に適用する例を示した。しかし、化合物、工場の配管構成、電子回路、道路網以外でも、グラフとして表現可能であり、ノードN及びエッジEに割り当てられる値を定義可能であれば、化合物、工場の配管構成、電子回路、道路網以外に対しても本実施形態のマッピング方法を適用可能である。
【0107】
このように、工場の配管構成、電子回路、道路網の構造類似性をマッピングすることで、類似の構造を有する配管、電子回路製品、道路網等のスクリーニングが可能となる。
【0108】
図24は、構造グラフG15の一例を示す図である。
図24では、構造グラフG15のノードNに、所定の物体として「装置A」、所定の人物として「人物A」、所定の事象として「作業A」が割り当てられている。このように、グラフのノードNとして、物体、人物、事象が混在しているグラフが用いられてもよい。このような場合、ノードNには、任意の番号等が付与されればよい。また、グラフのエッジEには、人物と、作業の関係性や、装置と作業の関係性等が数値化されたものが付与されればよい。例えば、ユーザが、人物と、作業の関係性を10段階(10段階に限らない)で任意に評価したものをエッジEに割り当てられる値としてもよい。装置、作業の関係性としてエッジEに割り当てられる値、また、図24には示されていないが、人物と、装置の関係性を示すエッジEに割り当てられる値も同様である。
【0109】
また、図25は、構造グラフG16のノードNに「人物A」(所定の人物)と、「作業A」、「作業B」(所定の作業)が割り当てられている。このような場合のエッジEに割り当てられる値は、前記した場合と同様に設定されればよい。
図24では、所定の物体である装置、所定の人物、所定の事象である作業のすべてが構造グラフG15のノードNに割り当てられている。しかし、図25に示すようにこれらのうち、任意の2つがノードNに割り当てられてもよい。また、所定の物体は化合物や、装置、電子回路部品、道路網を構成する要素(十字路等)に限らないし、所定の事象は作業に限らない。
【0110】
このように分子グラフGや、構造グラフG11~G16等のグラフのノードNには、所定の事象、所定の人物、及び、所定の物体の少なくともいずれか1つが割り当てられる。ちなみに、分子グラフGは、構造グラフG11~G16の一形態である。
【0111】
本実施形態によれば、マッピング結果において、近い構造を有するもの(化合物や、は配管構造や、電子回路)を、これまでの手法より近くにマッピングすることができる。このようにして、本実施形態によれば、グラフの構造に基づく類似性を可視化することができる。
【0112】
また、グラフとして表現されたものをグラフ構造の構造類似性に基づいてマッピングすることができる。このようにすることで、グラフとして表現できるものをクラスタリングすることができる。つまり、本実施形態で用いられている手法によれば、グラフのデータを平面や、空間上にマッピングすることで一般的な解析手法であるクラスタリング分析をグラフのデータに対して汎用的に適用させることができる。
【0113】
また、本実施形態では、第3類似度行列を基にマッピング座標400にマッピングする際、第1固有値301の大きいものから第1固有ベクトル310を選択している。この操作は「第1固有値301の小さい第1固有ベクトル310の値をゼロとみなす」ことに他ならない。
【0114】
また、第1固有値301は、寄与度を示している。第1固有値301を選択取得することは、小さい第1固有値301を除外していることになる。小さい第1固有値301、即ち、第3類似度行列において寄与率の小さいものを除外することで低次元かつ近似的に投影することができる。特に、グラフのデータに、このような手法を適用することで、グラフのデータを低次元かつ近似的にマッピング座標400に投影することができる。
【0115】
また、分子グラフGの間の類似度を成分要素とする第1類似度行列が生成され、第1類似度行列を基に第2類似度行列が算出される。さらに、第2類似度行列にヤング・ハウスドルフ変換が行われることで第3類似度行列が算出される。このようにすることで、第2類似度行列の成分要素を、化合物間の距離とみなした場合において、それぞれの距離が重心を原点とした距離となるよう変換を行うことができる。
【0116】
ただし、第2類似度行列及び第3類似度行列は必ずしも算出されなくてもよい。第1類似度行列から第1固有値301及び第1固有ベクトル310が直接算出されてもよいし、ヤング・ハウスドルフ変換以外の変化が行われてもよい。
【0117】
「似た構造を有する化合物は近い性質を有する」という化学の原則に基づくと、本実施形態で用いられている手法によれば、化合物空間をより高い精度で可視化することができる。
【0118】
非特許文献1-2に記載の技術では、化合物の構造以外に電荷の情報等が必要である。また、非特許文献1-2に記載の技術では、出力結果として、標的とする化合物と類似する化合物がリスト形式で出力されている。従って、標的とする化合物以外の化合物間の類似性をユーザが確認することができない。
【0119】
これに対して、本実施形態に示す手法では、化合物の構造のみから化合物の構造類似性を抽出することができる。また、本実施形態に示す手法では、図9に示すようなマッピングを行うことで、ユーザは任意の化合物間の構造類似性を容易に視認することができる。
【0120】
本発明はした実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を有するものに限定されるものではない。
【0121】
また、前記した各構成、機能、グラフ生成部11~マッピング処理部15、データ記憶装置103等は、それらの一部又はすべてを、例えば集積回路で設計すること等によりハードウェアで実現してもよい。また、図2に示すように、前記した各構成、機能等は、CPU等のプロセッサ(演算装置102)がそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、HDに格納すること以外に、メモリや、SSD等の記録装置、又は、IC(Integrated Circuit)カードや、SD(Secure Digital)カード、DVD(Digital Versatile Disc)等の記録媒体に格納することができる。
【0122】
また、各実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。
【符号の説明】
【0123】
1 マッピング装置
11 グラフ生成部
12 類似度算出部
13 類似度行列生成部
14 算出部(第1固有ベクトル算出部
15 マッピング処理部
101 主記憶装置
102 演算装置
103 データ記憶装置
104 入力装置
105 出力装置(出力部)
200 表(第1類似度行列)
201 符号(類似度)
210 表(第2類似度行列)
220 表(第3類似度行列)
301 第1固有値
310 第1固有ベクトル
321~323 実線枠
331~333 破線枠
401 符号
402 符号
403 符号
510 表(表現行列)
520 表(表現行列)
531,531a~531c スペクトル列(第2固有値)
532,532a~532c スペクトル列
G,G1~G3 分子グラフ(グラフ、所定の物体がノードに割り当てられたグラフ)
G11,G12 構造グラフ(グラフ、所定の物体がノードに割り当てられたグラフ)
G13 構造グラフ(グラフ、所定の人物がノードに割り当てられたグラフ)
G14 構造グラフ(グラフ、所定の事象がノードに割り当てられたグラフ)
G15 構造グラフ(グラフ、所定の事象、所定の人物、及び、所定の物体がノードに割り当てられたグラフ)
G16 構造グラフ(グラフ、所定の事象、及び、所定の人物がノードに割り当てられたグラフ)
E,E1,E2 エッジ
N ノード
S1 分子グラフ生成(グラフ生成ステップ)
S2 類似度算出処理(類似度算出ステップ)
S3 第1類似度行列生成(類似度行列生成ステップ)
S6 第1固有値及び第1固有ベクトル算出(第1固有ベクトル算出ステップ)
S7 マッピング処理(マッピング処理ステップ)
S8 出力処理(マッピング処理ステップ)
【要約】
【課題】グラフの構造に基づく類似性を可視化することを課題とする。
【解決手段】所定の物体間等の接続を示すグラフを生成するグラフ生成部11と、2つのグラフに関する類似度を算出する類似度算出部12と、複数のグラフの類似度を行列の成分要素として有する行列である第1類似度行列を生成する類似度行列生成部13と、第1類似度行列を基に、第1固有値を複数算出するとともに、第1固有値のそれぞれに対応する第1固有ベクトルを複数算出する算出部14と、第1固有値を大きい順に所定数取得し、取得した第1固有値のそれぞれに対応する第1固有ベクトルに基づいて算出される座標値を基に座標上にマッピングし、出力部に出力するマッピング処理部15と、を有することを特徴とする。
【選択図】図1
図1
図2
図3
図4A
図4B
図4C
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25