IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7371779情報処理プログラム、情報処理方法および情報処理装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-23
(45)【発行日】2023-10-31
(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置
(51)【国際特許分類】
   G16C 20/40 20190101AFI20231024BHJP
   G16C 20/90 20190101ALI20231024BHJP
【FI】
G16C20/40
G16C20/90
【請求項の数】 7
(21)【出願番号】P 2022528386
(86)(22)【出願日】2020-06-05
(86)【国際出願番号】 JP2020022368
(87)【国際公開番号】W WO2021245926
(87)【国際公開日】2021-12-09
【審査請求日】2022-09-09
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】片岡 正弘
(72)【発明者】
【氏名】古賀 裕美
(72)【発明者】
【氏名】多賀 万里子
【審査官】松野 広一
(56)【参考文献】
【文献】特開2018-147374(JP,A)
【文献】国際公開第2017/017738(WO,A1)
【文献】特開2019-204362(JP,A)
【文献】米国特許出願公開第2012/0109972(US,A1)
【文献】米国特許出願公開第2013/0124152(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
PubMed
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、
化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成し、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する
処理を実行させることを特徴とする情報処理プログラム。
【請求項2】
前記第1符号配列に含まれる前記基毎の圧縮符号を、ポアンカレ空間に埋め込むことで、基のベクトルを生成し、前記基一次構造を構成する基のベクトルを加算することで、前記基一次構造にベクトルを割り当てる処理を更に実行することを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記ベクトルを割り当てる処理は、類似の性質となる基の圧縮符号を、ポアンカレ空間の類似の位置に埋め込み、前記ポアンカレ空間の位置に応じたベクトルを埋め込んだ圧縮符号に割り当てることを特徴とする請求項2に記載の情報処理プログラム。
【請求項4】
前記ベクトルを割り当てる処理は、前記第2符号配列に含まれる複数の基一次構造のベクトルを順に遷移テーブルに登録する処理を更に実行することを特徴とする請求項2または3に記載の情報処理プログラム。
【請求項5】
前記遷移テーブルに登録されたベクトルを基にして、各化合物の類似度を評価する処理を更に実行することを特徴とする請求項4に記載の情報処理プログラム。
【請求項6】
コンピュータが実行する情報処理方法であって、
化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、
化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成し、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する
処理を実行することを特徴とする情報処理方法。
【請求項7】
化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成する第1符号化部と、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する第2符号化部と、
を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム等に関する。
【背景技術】
【0002】
デンプン、セルロース等の糖類や、タンパク質、核酸、天然ゴム等のように、分子量が1000を超えるような物質が存在し、かかる物質は、高分子化合物とも呼ばれる。
【0003】
ここで、新薬や新素材の開発を行う場合、既に開発されている高分子化合物を検索し、類似度を評価することが求められている。
【0004】
たとえば、化合物の類似度を評価する技術として、次のような従来技術1、2がある。従来技術1では、アミノ酸記号で記述された、タンパク質などの化合物のアミノ酸配列を入力された文字列で検索するシステムである。また、従来技術2では、化合物の官能基や原子タイプの数を数えるなどの記述式に、ベクトルを割り当て、各化合物に予め割り当てたベクトルに対して、類似度を評価する。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平11-306188号公報
【文献】国際公開第2007/139037号
【文献】特開2019-204362号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来技術では、高分子化合物の類似度評価の精度が低いという問題がある。
【0007】
1つの側面では、本発明は、高分子化合物の類似度評価の精度の評価を向上させることができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、化合物の示性式を示す配列を、配列の最小単位の文字列、および、化合物の分岐部分を示す分岐記号に分割する。コンピュータは、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、最小単位の文字列に圧縮符号を割り当て、分岐記号に分岐部分の種別に応じた圧縮符号を割り当てることで、配列を符号化した第1符号配列を生成する。コンピュータは、化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、第1符号配列に含まれる圧縮符号を、基一次構造の単位で符号化した第2符号配列を生成する。
【発明の効果】
【0009】
高分子化合物の類似度評価の精度を向上することができる。
【図面の簡単な説明】
【0010】
図1図1は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(1)である。
図2図2は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(2)である。
図3図3は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(3)である。
図4図4は、本実施例にかかる情報処理装置の構成を示す機能ブロック図である。
図5図5は、化学構造式ファイルのデータ構造の一例を示す図である。
図6図6は、分岐符号テーブルのデータ構造の一例を示す図である。
図7図7は、基辞書のデータ構造の一例を示す図である。
図8図8は、基HMMのデータ構造の一例を示す図である。
図9図9は、化学構造式圧縮ファイルのデータ構造の一例を示す図である。
図10図10は、第1転置インデックスのデータ構造の一例を示す図である。
図11図11は、基一次構造辞書のデータ構造の一例を示す図である。
図12図12は、基一次構造HMMのデータ構造の一例を示す図である。
図13図13は、基一次構造圧縮ファイルのデータ構造の一例を示す図である。
図14図14は、第2転置インデックスのデータ構造の一例を示す図である。
図15図15は、性質管理テーブルのデータ構造の一例を示す図である。
図16A図16Aは、基ベクトルテーブルのデータ構造の一例を示す図である。
図16B図16Bは、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。
図16C図16Cは、遷移テーブルのデータ構造の一例を示す図である。
図17図17は、第2符号化部の処理を説明するための図である。
図18図18は、ポアンカレ空間の一例を示す図である。
図19図19は、本実施例にかかる情報処理装置の処理手順を示すフローチャートである。
図20図20は、本実施例にかかる情報処理装置のその他の処理を説明するための図である。
図21図21は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0011】
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例
【0012】
図1は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(1)である。ここでは、化合物を符号化する場合について説明するが、高分子化合物を符号化する場合でも、同様に符号化することができる。図1では、ある化合物に含まれるsec-ブチル基は、さらに、メチル基やエチル基に分解でき、それを符号化する場合について説明する。sec-ブチル基の化学構造式10aは、「CH」から、メチル基「CH」、エチル基「CHCH」に分岐している。sec-ブチル基の化学構造式10aの示性式10bは、「-CH(CH)CHCH」のような配列で示される。
【0013】
情報処理装置は、示性式10bに対して形態素解析を実行することで、示性式10bに含まれる配列を、配列の最小単位(意味ある単位)の文字列、化合物の分岐部分を示す記号に分割する。以下の説明では、配列の最小単位の文字列であって意味ある単位の符号を「単位文字列」と表記し、化合物の分岐部分を示す記号を「分岐記号」と表記する。
【0014】
図1に示す例では、情報処理装置は、示性式10bを、「CH」、「(」、「CH」、「)」、「CHCH」に分割する。「CH」、「CH」、「CHCH」は、基(または、官能基)の単位文字列である。「(」、「)」は、分岐記号である。
【0015】
情報処理装置は、化合物の示性式の配列の単位文字列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「CH」、「CH」、「CHCH」に、圧縮符号A1、圧縮符号A2、圧縮符号A3をそれぞれ割り当てる。
【0016】
情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「(」、「)」に、圧縮符号B1、圧縮符号B2を割り当てる。
【0017】
情報処理装置は、上記処理を実行することで、示性式10bを符号化した圧縮符号配列10cを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、ブチル基やsec-ブチル基など、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。
【0018】
情報処理装置は、圧縮符号配列10cを、更に、分岐に着目し、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の基の一次構造のベクトルを算出する。
【0019】
図2は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(2)である。図2では、ある化合物に含まれるイソブチル基を符号化する場合について説明する。イソブチル基の化学構造式11aは、「CH」から、「CH」、2つの「CH」に分岐している。イソブチル基の化学構造式11aの示性式11bは、「-CHCH(CH」のような配列で示される。
【0020】
情報処理装置は、示性式11bに対して形態素解析を実行することで、示性式11bに含まれる配列を、単位文字列と、分岐記号に分割する。図2に示す例では、情報処理装置は、示性式11bを、「CH」、「CH」、「(」、「CH」、「)」に分割する。「CH」、「CH」、「CH」は、単位文字列である。「(」、「)」は、分岐記号である。
【0021】
情報処理装置は、化合物の示性式の配列の単位文字列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「CH」、「CH」、「CH」に、圧縮符号A4、圧縮符号A1、圧縮符号A2をそれぞれ割り当てる。
【0022】
情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「(」、「)」に、圧縮符号B1、圧縮符号B3を割り当てる。
【0023】
情報処理装置は、上記処理を実行することで、示性式11bを符号化した圧縮符号配列11cを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。
【0024】
情報処理装置は、圧縮符号配列11cを、更に、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。
【0025】
図3は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(3)である。図3では、ある化合物に含まれるtert-ブチル基を符号化する場合について説明する。tert-ブチル基の化学構造式12aは、「C」から、3つの「CH」に分岐している。tert-ブチル基の化学構造式12aの示性式12bは、「-C(CH」のような配列で示される。
【0026】
情報処理装置は、示性式12bに対して形態素解析を実行することで、示性式12bに含まれる配列を、単位文字列と、分岐記号に分割する。図3に示す例では、情報処理装置は、示性式12bを、「C」、「(」、「CH」、「)」に分割する。「CH」、「C」、「CH」は、単位文字列である。「(」、「)」は、分岐記号である。
【0027】
情報処理装置は、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「C」、「CH」に、圧縮符号A5、圧縮符号A2をそれぞれ割り当てる。
【0028】
情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「(」、「)」に、圧縮符号B1、圧縮符号B4を割り当てる。
【0029】
情報処理装置は、上記処理を実行することで、示性式12bを符号化した圧縮符号配列12cを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。
【0030】
情報処理装置は、圧縮符号配列12cを、更に、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。
【0031】
上記のように、本実施例にかかる情報処理装置は、化合物の示性式を示す配列を、単位文字列および分岐記号に分割し、基辞書を基にして、化合物の示性式を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。情報処理装置は、符号化した化合物の示性式を、基の一次構造の単位で符号化することで、更に符号化を行い、一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。これによって、化合物の基と、基の一次構造のベクトルを精度よく算出することができ、かかる基と基の一次構造のベクトルを用いて高分子化合物の類似度評価を実行することで、類似度評価の精度が向上する。なお、示性式は符号化対象の化学構造式の一例である。SMILES記法などで表現された化学構造式であっても良い。
【0032】
次に、本実施例にかかる情報処理装置の構成の一例について説明する。図4は、本実施例にかかる情報処理装置の構成を示す機能ブロック図である。図4に示すように、この情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
【0033】
通信部110は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークに接続されていてもよい。
【0034】
入力部120は、各種の情報を、情報処理装置100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0035】
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。
【0036】
記憶部140は、化学構造式ファイル140aと、分岐符号テーブル140bと、基辞書140cと、基HMM140dと、化学構造式圧縮ファイル140eと、第1転置インデックス140fとを有する。記憶部140は、基一次構造辞書140gと、基一次構造HMM140hと、基一次構造圧縮ファイル140iと、第2転置インデックス140jと、性質管理テーブル140kと、遷移テーブル140nとを有する。記憶部140は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
【0037】
化学構造式ファイル140aは、高分子化合物の示性式(化学構造式)の情報を含むファイルである。図5は、化学構造式ファイルのデータ構造の一例を示す図である。図5に示すように、この化学構造式ファイル140aは、化合物識別情報と、示性式とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。示性式は、高分子化合物の示性式(化学構造式)を示す配列の情報である。たとえば、高分子化合物は、デンプン、グリコーゲン、セルロース、アミロベクチン等に対応するが、これに限定されるものではなく、他の高分子化合物であってもよい。
【0038】
分岐符号テーブル140bは、分岐記号に割り当てる符号を定義するテーブルである。図6は、分岐符号テーブルのデータ構造の一例を示す図である。図6に示すように、この分岐符号テーブル140bは、分岐記号と、圧縮符号とを対応付ける。分岐記号は、高分子化合物の分岐部分を示す記号である。圧縮符号は、分岐記号に割り当てられる圧縮符号である。圧縮符号の「h」は、16進数であることを示す。
【0039】
基辞書140cは、化合物の示性式の配列と圧縮符号との関係を示す辞書情報である。図7は、基辞書のデータ構造の一例を示す図である。図7に示すように、この基辞書140cは、圧縮符号と、名称と、グループと、示性式とを対応付ける。圧縮符号は、該当する基(または官能基)の示性式に割り当てられる圧縮符号を示す。名称は、該当する名称の一例である。グループは、該当する基が属するグループを示す。名称例は、該当する基の名称の一例である。示性式は、該当する基の示性式となる配列を示す。
【0040】
また、図7では図示を省略するが、基辞書140cは、図1図3等で説明した、単位文字列と圧縮符号との関係を定義した情報を保持する。
【0041】
基HMM(Hidden Markov Model)140dは、高分子化合物の配列において、ある基と、共起する可能性の高い他の基とを対応付ける情報である。以下の説明では適宜、ある基を、「第1基」と表記し、この第1基と共起する他の基を「第2基」と表記する。
【0042】
図8は、基HMMのデータ構造の一例を示す図である。図8に示すように、この基HMM140dは、圧縮符号と、名称と、グループと、基の共起率とを対応付ける。圧縮符号は、第1基の示性式に割り当てられる圧縮符号を示す。名称は、該当する第1基の名称の一例である。グループは、該当する第1基が属するグループを示す。
【0043】
基の共起率では、第1基と共起する第2基について、第2基の圧縮符号と、共起率と示す。たとえば、1行目について説明すると、高分子化合物において、第1基(圧縮符号:8000h)と共起する第2基は圧縮符号「8028h」の基と、圧縮符号「8132h」の基と、圧縮符号「80F5h」の基等である。また、第1基「圧縮符号:8000h」と第2基「圧縮符号:8028h」との共起率は「78%」である。第1基「圧縮符号:8000h」と第2基「圧縮符号:8132h」との共起率は「63%」である。第1基「圧縮符号:8000h」と第2基「圧縮符号:80F5h」との共起率は「33%」である。
【0044】
化学構造式圧縮ファイル140eは、符号化した高分子化合物の示性式(化学構造式)の情報を含むファイルである。図9は、化学構造式圧縮ファイルのデータ構造の一例を示す図である。図9に示すように、この化学構造式圧縮ファイル140eは、化合物識別情報と、圧縮符号配列とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。圧縮符号配列は、示性式を単位文字列の単位で符号化した情報である。
【0045】
第1転置インデックス140fは、化学構造式圧縮ファイル140eに含まれる単位文字列または分岐記号の圧縮符号と、この圧縮符号の出現位置との関係を示すインデックス情報である。図10は、第1転置インデックスのデータ構造の一例を示す図である。図10に示すように、第1転置インデックス145は、横軸にオフセットをとり、縦軸に圧縮符号を取る。オフセットは、化学構造式圧縮ファイル140eの先頭の圧縮符号から、該当する圧縮符号までの出現位置を示すものである。先頭の圧縮符号のオフセットを「0」とする。
【0046】
第1転置インデックス140fは、図9に示した化合物識別情報毎の圧縮符号配列に対して、圧縮符号とオフセットとの関係を定義してもよい。たとえば、化合物識別情報「C101」の圧縮符号配列の転置インデックス、化合物識別情報「C102」の圧縮符号配列の転置インデックスをそれぞれ定義してもよい。
【0047】
基一次構造辞書140gは、高分子化合物の示性式の圧縮符号配列(連続する複数の圧縮符号)と、一つの基一次構造の圧縮符号との関係を示す辞書情報である。基一次構造は、複数の基が組み合わさった構造を示す。
【0048】
図11は、基一次構造辞書のデータ構造の一例を示す図である。図11に示すように、この基一次構造辞書140gは、圧縮符号と、グループと、名称と、圧縮符号配列とを対応付ける。圧縮符号は、基一次構造に対応する圧縮符号である。グループは、該当する基一次構造が属するグループを示す。名称は、基一次構造の名称の一例である。圧縮符号配列は、基一次構造に含まれる複数の基に対応する圧縮符号の配列であり、基の圧縮符号は、基辞書140cに定義された基の圧縮符号に対応する。
【0049】
基一次構造HMM140hは、高分子化合物の配列において、ある基一次構造と、共起する可能性の高い他の基一次構造とを対応付ける情報である。以下の説明では適宜、ある基一次構造を「第1基一次構造」と表記し、この第1基一次構造と共起する他の基一次構造を「第2基一次構造」と表記する。
【0050】
図12は、基一次構造HMMのデータ構造の一例を示す図である。図12に示すように、この基一次構造HMM140hは、圧縮符号と、グループと、名称と、基一次構造の共起率とを対応付ける。圧縮符号は、第1基一次構造に割り当てられる圧縮符号を示す。グループは、該当する第1基一次構造の属するグループを示す。名称は、該当する第基一次構造の名称の一例である。
【0051】
基一次構造の共起率は、第1基一次構造と共起する第2基一次構造について、第2基一次構造の圧縮符号と、共起率とを示す。たとえば、1行目について説明すると、高分子化合物において、第1基一次構造(圧縮符号:F00000h)と共起する第2基一次構造の各圧縮符号は、「F00011h」、「F00101h」、「F00225h」である。
【0052】
また、第1基一次構造「圧縮符号:F00000h」と第2基「圧縮符号:F00011h」との共起率は「78%」である。第1基一次構造「圧縮符号:F00000h」と第2基「圧縮符号:F00101h」との共起率は「63%」である。第1基一次構造「圧縮符号:F00000h」と第2基「圧縮符号:F00225h」との共起率は「51%」である。
【0053】
基一次構造圧縮ファイル140iは、基一次構造の単位で符号化した高分子化合物の示性式の情報を含むファイルである。図13は、基一次構造圧縮ファイルのデータ構造の一例を示す図である。図13に示すように、この基一次構造圧縮ファイル140iは、化学物識別情報と、基一次構造の圧縮符号配列とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。圧縮符号配列は、示性式を基一次構造の単位で符号化した情報である。
【0054】
第2転置インデックス140jは、基一次構造圧縮ファイル140iに含まれる基一次構造の圧縮符号と、この圧縮符号の出現位置との関係を示すインデックス情報である。図14は、第2転置インデックスのデータ構造の一例を示す図である。図14に示すように、第2転置インデックス140jは、横軸にオフセットをとり、縦軸に圧縮符号を取る。オフセットは、基一次構造圧縮ファイル140iの先頭の圧縮符号(基一次構造の単位の圧縮符号)から、該当する圧縮符号までの出現位置を示すものである。先頭の圧縮符号のオフセットを「0」とする。
【0055】
第2転置インデックス140jは、図13に示した化合物識別情報毎の圧縮符号配列に対して、圧縮符号とオフセットとの関係を定義してもよい。たとえば、化合物識別情報「C101」の圧縮符号配列の転置インデックス、化合物識別情報「C102」の圧縮符号配列の転置インデックスをそれぞれ定義してもよい。
【0056】
性質管理テーブル140kは、性質が類似する基を定義するテーブルである。図15は、性質管理テーブルのデータ構造の一例を示す図である。図15に示すように、この性質管理テーブル140kは、性質番号と、圧縮符号と、名称とを対応付ける。性質番号は、基一次構造の性質を識別する番号であり、類似の性質をもつ基の各圧縮符号には、同一の性質番号が割り振られる。圧縮符号は、基の圧縮符号である。名称は、基の名称である。
【0057】
図15に示す例では、圧縮符号「8004h」、圧縮符号「8005h」、圧縮符号「8006h」、圧縮符号「8007h」に同一の性質符号「I102」が割り振られている。このため、圧縮符号「8004h」、圧縮符号「8005h」、圧縮符号「8006h」、圧縮符号「8007h」に対応する各基は、類似の性質を持つことを意味する。
【0058】
図15では説明を省略するが、この性質管理テーブル140kは、性質番号と、類似の性質をもつ基の圧縮符号とを対応付けた情報を保持していてもよい。
【0059】
基ベクトルテーブル140lは、高分子化合物に含まれる各基に対して割り当てられる圧縮符号のベクトルを保持するテーブルである。図16Aは、基ベクトルテーブルのデータ構造の一例を示す図である。図16Aに示すように、基ベクトルテーブル140lは、基の圧縮符号と、ベクトルとを対応付ける。なお、基ベクトルテーブル140lは、分岐符号テーブル140bに定義された分岐記号に対応するベクトルを保持してもよい。
【0060】
基一次構造ベクトルテーブル140mは、高分子化合物に含まれる各基一次構造に対して割り当てられる圧縮符号のベクトルを保持するテーブルである。図16Bは、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。図16Bに示すように、基一次構造ベクトルテーブル140mは、基一次構造の圧縮符号と、ベクトルとを対応付ける。
【0061】
遷移テーブル140nは、高分子化合物のベクトルの情報を保持するテーブルである。図16Cは、遷移テーブルのデータ構造の一例を示す図である。図16Cに示すように、遷移テーブル140nは、化合物識別情報と、複数のベクトルとを有する。化合物識別情報は、高分子化合物を一意に識別する情報である。複数のベクトルは、高分子化合物に含まれる各基一次構造のベクトルを示す。たとえば、ベクトル(n)は、高分子化合物の先頭からn番目に位置する基一次構造のベクトルである。
【0062】
図4の説明に戻る。制御部150は、取得部151と、第1符号化部152と、第2符号化部153と、ベクトル算出部154と、類似度評価部155とを有する。制御部150は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)により実現される。また、制御部150は、例えばASIC(Application specific Integrated Circuit)やFPGA(Field Programmable gate Array)等の集積回路により実行されてもよい。
【0063】
取得部151は、ネットワークを介して、外部装置等から各種の情報を取得する処理部である。たとえば、取得部151は、化学構造式ファイル140aを取得し、取得した化学構造式ファイル140aを記憶部140に格納する。取得部151は、基辞書140c、基HMM140d、基一次構造辞書140g、基一次構造HMM140hを取得して、記憶部140に格納してもよい。
【0064】
第1符号化部152は、化学構造式ファイル140aから、高分子化合物の示性式を取得し、取得した示性式を符号化する処理部である。以下において、第1符号化部152の処理の一例について説明する。
【0065】
第1符号化部152は、高分子化合物の示性式に対して形態素解析を実行することで、示性式に含まれる配列を単位文字列、または、分岐記号に分割する。第1符号化部152が、形態素解析を実行して、単位文字列、または、分岐記号に分割する処理は、図1図2図3で説明した処理に対応する。
【0066】
第1符号化部152は、分割候補となる単位文字列が複数通り存在する場合には、基HMM140dを基にして、共起率の高い方の単位文字列を選択して、分割してもよい。
【0067】
第1符号化部152は、高分子化合物の示性式を単位文字列、または、分岐記号に分割した後に、分岐符号テーブル140bおよび基辞書140cを用いて、示性式を符号化することで、圧縮符号配列を生成する。第1符号化部152が生成する圧縮符号配列は、「第1符号配列」に対応する。第1符号化部152は、化合物識別情報と、圧縮符号配列とを対応付けて、化学構造式圧縮ファイル140eに登録する。
【0068】
第1符号化部152は、高分子化合物の示性式の単位文字列、または、分岐記号に圧縮符号を割り当てる場合に、圧縮符号の種別と、オフセットとの関係を第1転置インデックス140fに登録する。たとえば、第1符号化部152は、高分子化合物の示性式の圧縮符号配列(第1符号配列)において、圧縮符号「8000h」のオフセットが「1」である場合には、第1転置インデックス140fのオフセット「1」の列と、圧縮符号「8000h」の行とが交差する部分に「1」を設定する。
【0069】
第1符号化部152は、化学構造式ファイル140aから、未選択の化合物識別情報に対応する示性式の情報を取得し、上記処理を繰り返し実行することで、化学構造式圧縮ファイル140eを生成する。
【0070】
第2符号化部153は、化学構造式圧縮ファイル140eから、高分子化合物の圧縮符号配列(第1符号配列)を取得し、取得した圧縮符号配列を、基一次構造の単位で符号化する処理部である。高分子化合物の圧縮符号配列と、基一次構造の圧縮符号との関係は、基一次構造辞書140gに定義されている。
【0071】
図17は、第2符号化部の処理を説明するための図である。図17において、圧縮符号配列15は、化学構造式圧縮ファイル140eに登録された化合物識別情報「C101」に対応する圧縮符号配列15aとする。圧縮符号配列15aに含まれる各圧縮符号は、基辞書140cに定義された単位符号の圧縮符号、または、分岐記号の圧縮符号である。
【0072】
たとえば、基一次構造辞書140gにおいて、圧縮符号配列15aの各圧縮符号X1、X2、・・・、X19と、基一次構造の圧縮符号「F00112h」とが対応づけられているものとする。この場合、第2符号化部153は、各圧縮符号X1、X2、・・・、X19に、基一次構造の圧縮符号「F00112h」を割り当てる。
【0073】
基一次構造辞書140gにおいて、圧縮符号配列15aの各圧縮符号Y1、Y2、・・・、X38と、基一次構造の圧縮符号「F00332h」とが対応づけられているものとする。この場合、第2符号化部153は、各圧縮符号Y1、Y2、・・・、Y38に、基一次構造の圧縮符号「F00332h」を割り当てる。
【0074】
基一次構造辞書140gにおいて、圧縮符号配列15aの各圧縮符号Z1、Z2、・・・、Z20と、基一次構造の圧縮符号「F00110h」とが対応づけられているものとする。この場合、第2符号化部153は、各圧縮符号Z1、Z2、・・・、Z20に、基一次構造の圧縮符号「F00110h」を割り当てる。
【0075】
第2符号化部153は、基一次構造辞書140gを基にして、上記処理を繰り返し実行することで、圧縮符号配列15aを、基一次構造の単位で符号化した圧縮符号配列15bを生成する。圧縮符号配列15bは「第2符号配列」に対応する。第2符号化部153は、化合物識別情報と、圧縮符号配列とを対応付けて、基一次構造圧縮ファイル140iに登録する。
【0076】
第2符号化部153は、圧縮符号配列15aと、基一次構造辞書140gとを比較して、符号化していく過程において、基一次構造の単位の複数の圧縮符号が、符号化の候補となる場合には、基一次構造HMM140hを基にして、共起率の高い方の圧縮符号を選択して、割り当ててもよい。
【0077】
第2符号化部153は、基一次構造の単位で符号化する場合に、圧縮符号の種別と、オフセットとの関係を第2転置インデックス140jに登録する。たとえば、高分子化合物の示性式の圧縮符号配列(第2符号配列)において、圧縮符号「F00112h」のオフセットが「0」となる。この場合、第2符号化部153は、第1転置インデックス140fのオフセット「0」の列と、圧縮符号「F00112h」の行とが交差する部分に「1」を設定する。
【0078】
第2符号化部153は、化学構造式圧縮ファイル140eから、未選択の化合物識別情報に対応する示性式の圧縮符号配列を取得し、上記処理を繰り返し実行することで、基一次構造圧縮ファイル140iを生成する。
【0079】
また、第2符号化部153は、基一次構造の圧縮符号と、この基一次構造の圧縮符号に対応する複数の基の圧縮符号、分岐記号の圧縮符号とを関係を、ベクトル算出部154に出力する。
【0080】
図4の説明に戻る。ベクトル算出部154は、基一次構造圧縮ファイル140iから、高分子化合物の圧縮符号配列(第2符号配列)を取得し、高分子化合物のベクトルを算出する処理部である。ベクトル算出部154は、基一次構造圧縮ファイル140iから、基一次構造の圧縮符号を取得し、取得した圧縮符号のベクトルを、次の処理を実行することで算出する。ベクトル算出部154は、上記の第2符号化部153から、基一次構造の圧縮符号と、複数の基の圧縮符号および分岐記号の圧縮符号との関係を取得しておく。
【0081】
ベクトル算出部154は、基毎の圧縮符号を、ポアンカレ空間等のベクトル空間に埋め込むことで、圧縮符号に対応するベクトルをそれぞれ算出する。ベクトル算出部154は、分岐記号の圧縮符号についても、ポアンカレ空間に埋め込むことで、ベクトルを算出してもよいし、予めベクトルを割り当てておいてもよい。ベクトル算出部154は、基の圧縮符号と、ベクトルとを対応付けて、基ベクトルテーブル140lに登録する。
【0082】
ベクトル算出部154は、基一次構造に含まれる各基の圧縮符号、分岐記号の圧縮符号に割り当てたベクトルを加算することで、基一次構造のベクトルを算出する。ベクトル算出部154は、基一次構造の圧縮符号と、ベクトルとを対応付けて、基一次構造ベクトルテーブル140mに登録する。
【0083】
高分子化合物には、複数の基一次構造が含まれている。ベクトル算出部154は、化合物識別情報と、基一次構造毎のベクトルとを対応付けて、遷移テーブル140nに登録する。ベクトル算出部154は、基一次構造が出現する順番に、基一次構造のベクトルを、遷移テーブル140nに登録する。
【0084】
ここで、ベクトル算出部154が、基の圧縮符号を、ポアンカレ空間に埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング(Poincare Embeddings)と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を用いればよい。
【0085】
ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。ベクトル算出部154は、性質管理テーブル140kを基にして、類似の性質をもつ各基の圧縮符号を特定する。
【0086】
図18は、ポアンカレ空間の一例を示す図である。図15で説明したように、圧縮符号「8004h」、圧縮符号「8005h」、圧縮符号「8006h」、圧縮符号「8007h」に対応する基は、類似の性質を持つ。このため、ベクトル算出部154は、圧縮符号「8004h」、圧縮符号「8005h」、圧縮符号「8006h」、圧縮符号「8007h」を、ポアンカレ空間P上の相互に近い位置に埋め込み、位置に応じたベクトルを付与する。
【0087】
ベクトル算出部154は、高分子化合物の圧縮符号配列に含まれる各基一次構造の圧縮符号のベクトルを、先頭から順に算出し、遷移テーブル140nに順に登録する。ベクトル算出部154は、基一次構造圧縮ファイル140iから、未選択の化合物識別情報に対応する示性式の圧縮符号配列を取得し、上記処理を繰り返し実行することで、遷移テーブル140nを生成する。
【0088】
類似度評価部155は、遷移テーブル140nに登録された各化合物識別情報に対応するベクトルを比較することで、高分子化合物の類似度を評価する処理部である。たとえば、類似度評価部155は、各高分子化合物のベクトルの距離を算出し、距離が閾値未満となる高分子化合物の組を、相互に類似する高分子化合物として特定する。
【0089】
たとえば、類似度評価部155は、遷移テーブル140nに登録された高分子化合物に対応する各基一次構造のベクトルを集積したベクトルを、高分子化合物のベクトルし、各高分子化合物のベクトルの距離を算出してもよい。類似度評価部155は、評価結果を表示部130に出力して表示させてもよいし、外部装置等に通知してもよい。
【0090】
続いて、本実施例にかかる情報処理装置100の処理手順の一例について説明する。図19は、本実施例にかかる情報処理装置の処理手順を示すフローチャートである。図19に示すように、情報処理装置100の第1符号化部152は、化学構造式ファイル140aから、高分子化合物の示性式の配列を取得する(ステップS101)。
【0091】
第1符号化部152は、形態素解析を実行して、示性式の配列を、単位文字列、または、分岐記号に分割する(ステップS102)。第1符号化部152は、分岐符号テーブル140b、基辞書140c、基HMM140dを基にして、単位文字列、分岐記号に圧縮符号を割り当て、第1転置インデックス140f、化学構造式圧縮ファイル140eを生成する。また、情報処理装置100のベクトル算出部154は、ポアンカレ空間に埋め込むことで基のベクトルを生成する(ステップS103)。
【0092】
情報処理装置100の第2符号化部153は、化学構造式圧縮ファイル140eから、高分子化合物の圧縮符号配列を取得する(ステップS104)。第2符号化部153は、基一次構造辞書140g、基一次構造HMM140hを基にして、基一次構造単位で、圧縮符号化配列を生成し、第2転置インデックス140j、基一次構造圧縮ファイル140iを生成する(ステップS105)。
【0093】
情報処理装置100のベクトル算出部154は、基一次構造圧縮ファイル140iに格納された基一次構造単位を構成する基のベクトルを加算することで、基一次構造のベクトルを算出し、遷移テーブル140nを生成する(ステップS106)。情報処理装置100の類似度評価部155は、遷移テーブル140nを基にして、類似度評価を実行する(ステップS107)。
【0094】
次に、本実施例にかかる情報処理装置100の効果について説明する。情報処理装置100は、高分子化合物の示性式を、単位文字列、分岐記号に分割して圧縮符号を割り当てることで、圧縮符号配列を生成し、さらに、基一次構造毎の各圧縮符号に変換する。情報処理装置は、基毎の圧縮符号をもとに、類似の性質となる基をまとめてポアンカレ空間に埋め込むことで、化合物の性質を適切に表現するための基のベクトルを生成する。かかる情報処理装置100の処理によって生成したベクトルを用いて、類似度の評価を実行することで、類似度評価の精度を向上させることができる。
【0095】
情報処理装置100は、基一次構造を構成する圧縮符号を用いて、各基のベクトルを加算し基の一次構造のベクトルを算出し、遷移テーブルを生成する。このため、性質の類似する各基一次構造に、高精度なベクトルを割り当てることができる。
【0096】
情報処理装置100は、遷移テーブル140nに格納された各高分子化合物に対応する基一次構造のベクトルを比較することで、類似の特性を有する高分子化合物を精度よく評価することができる。
【0097】
ところで、上述した本実施例にかかる情報処理装置100の処理は一例であり、その他の処理を実行してもよい。図1図3で説明したように、情報処理装置100は、高分子化合物の示性式を符号化する場合に、基に含まれる単位文字列、分岐記号の粒度で、圧縮符号を割り当てていたが、これに限定されるものではない。
【0098】
情報処理装置100は、基を最小単位とみなし、分岐部分に位置する基に対して、分岐の基固有の圧縮符号を割り当てることで、符号化を行ってもよい。図20は、本実施例にかかる情報処理装置のその他の処理を説明するための図である。図20では、高分子化合物の一例として、グリコーゲンを用いてする。
【0099】
図20に示す高分子化合物30は、複数の基が接続されて構成される。高分子化合物30の領域30aに着目して説明を行う。領域30aには、複数の基31と、分岐部分の基32とが含まれる。情報処理装置100の第1符号化部152は、基辞書140cを基にして、複数の基31に、圧縮符号を割り当てる。また、第1符号化部152は、分岐部分の基32に対して、分岐部分の固有の圧縮符号を割り当てる。
【0100】
次に、上記実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図21は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0101】
図21に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
【0102】
ハードディスク装置207は、取得プログラム207a、第1符号化プログラム207b、第2符号化プログラム207c、ベクトル算出プログラム207d、類似度評価プログラム207eを有する。また、CPU201は、各プログラム207a~207eを読み出してRAM206に展開する。
【0103】
取得プログラム207aは、取得プロセス206aとして機能する。第1符号化プログラム207bは、第1符号化プロセス206bとして機能する。第2符号化プログラム207cは、第2符号化プロセス206cとして機能する。ベクトル算出プログラム207dは、ベクトル算出プロセス206dとして機能する。類似度評価プログラム207eは、類似度評価プロセス206eとして機能する。
【0104】
取得プロセス206aの処理は、取得部151の処理に対応する。第1符号化プロセス206bの処理は、第1符号化部152の処理に対応する。第2符号化プロセス206cの処理は、第2符号化部153の処理に対応する。ベクトル算出プロセス206dの処理は、ベクトル算出部154の処理に対応する。類似度評価プロセス206eの処理は、類似度評価部155の処理に対応する。
【0105】
なお、各プログラム207a~207eについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207eを読み出して実行するようにしてもよい。
【符号の説明】
【0106】
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
140a 化学構造式ファイル
140b 分岐符号テーブル
140c 基辞書
140d 基HMM
140e 化学構造式圧縮ファイル
140f 第1転置インデックス
140g 基一次構造辞書
140h 基一次構造HMM
140i 基一次構造圧縮ファイル
140j 第2転置インデックス
140k 性質管理テーブル
140l 基ベクトルテーブル
140m 基一次構造ベクトルテーブル
140n 遷移テーブル
150 制御部
151 取得部
152 第1符号化部
153 第2符号化部
154 ベクトル算出部
155 類似度評価部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16A
図16B
図16C
図17
図18
図19
図20
図21